The cache for model files in Transformers v4.22.0 has been updated. Migrating your old cache. This is a one-time only operation. You can interrupt this and resume the migration later on by calling `transformers.utils.move_cache()`.
0it [00:00, ?it/s]0it [00:00, ?it/s]
/opt/conda/lib/python3.10/site-packages/transformers/deepspeed.py:23: FutureWarning: transformers.deepspeed module is deprecated and will be removed in a future version. Please import deepspeed modules directly from transformers.integrations
  warnings.warn(
2024-07-08 23:40:11.901364: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2024-07-08 23:40:11.901476: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-07-08 23:40:12.037646: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
/opt/conda/lib/python3.10/site-packages/datasets/load.py:929: FutureWarning: The repository for data contains custom code which must be executed to correctly load the dataset. You can inspect the repository content at /kaggle/working/amr-tst-indo/AMRBART-id/fine-tune/data_interface/data.py
You can avoid this message in future by passing the argument `trust_remote_code=True`.
Passing `trust_remote_code=True` will be mandatory to load this dataset from the next major release of `datasets`.
  warnings.warn(
Generating train split: 0 examples [00:00, ? examples/s]Generating train split: 1 examples [00:00,  3.88 examples/s]Generating train split: 1238 examples [00:00, 4413.17 examples/s]Generating train split: 3103 examples [00:00, 9215.76 examples/s]Generating train split: 5000 examples [00:00, 12212.22 examples/s]Generating train split: 6917 examples [00:00, 14396.35 examples/s]Generating train split: 8743 examples [00:00, 15592.99 examples/s]Generating train split: 10624 examples [00:00, 16576.68 examples/s]Generating train split: 12518 examples [00:00, 17294.16 examples/s]Generating train split: 14390 examples [00:01, 17722.72 examples/s]Generating train split: 16255 examples [00:01, 18000.93 examples/s]Generating train split: 18144 examples [00:01, 18266.76 examples/s]Generating train split: 20031 examples [00:01, 18445.34 examples/s]Generating train split: 22000 examples [00:01, 18592.67 examples/s]Generating train split: 24000 examples [00:01, 18643.93 examples/s]Generating train split: 26000 examples [00:01, 18720.36 examples/s]Generating train split: 28572 examples [00:01, 17966.60 examples/s]Generating train split: 31098 examples [00:01, 17567.47 examples/s]Generating train split: 33000 examples [00:02, 17780.66 examples/s]Generating train split: 35000 examples [00:02, 17998.09 examples/s]Generating train split: 37000 examples [00:02, 18205.04 examples/s]Generating train split: 39000 examples [00:02, 18353.06 examples/s]Generating train split: 40897 examples [00:02, 18520.89 examples/s]Generating train split: 43695 examples [00:02, 18565.96 examples/s]Generating train split: 45569 examples [00:02, 18609.57 examples/s]Generating train split: 48302 examples [00:02, 18465.48 examples/s]Generating train split: 51055 examples [00:03, 18425.68 examples/s]Generating train split: 53000 examples [00:03, 18353.57 examples/s]Generating train split: 55000 examples [00:03, 18412.27 examples/s]Generating train split: 56898 examples [00:03, 18558.86 examples/s]Generating train split: 59657 examples [00:03, 18494.69 examples/s]Generating train split: 61542 examples [00:03, 18584.74 examples/s]Generating train split: 63437 examples [00:03, 18679.22 examples/s]Generating train split: 65340 examples [00:03, 18773.84 examples/s]Generating train split: 68161 examples [00:03, 18783.21 examples/s]Generating train split: 71000 examples [00:04, 18763.67 examples/s]Generating train split: 73000 examples [00:04, 18754.05 examples/s]Generating train split: 75000 examples [00:04, 18734.06 examples/s]Generating train split: 77000 examples [00:04, 18703.78 examples/s]Generating train split: 79000 examples [00:04, 18733.53 examples/s]Generating train split: 81000 examples [00:04, 18740.79 examples/s]Generating train split: 83000 examples [00:04, 18673.70 examples/s]Generating train split: 85000 examples [00:04, 18696.05 examples/s]Generating train split: 87000 examples [00:04, 18626.21 examples/s]Generating train split: 88999 examples [00:05, 18811.30 examples/s]Generating train split: 91753 examples [00:05, 18639.98 examples/s]Generating train split: 92867 examples [00:05, 17484.13 examples/s]
Running tokenizer on train dataset:   0%|          | 0/92867 [00:00<?, ? examples/s]/opt/conda/lib/python3.10/site-packages/transformers/tokenization_utils_base.py:3946: UserWarning: `as_target_tokenizer` is deprecated and will be removed in v5 of Transformers. You can tokenize your labels by using the argument `text_target` of the regular `__call__` method (either in the same call as your input texts if you use the same keyword arguments, or in a separate call.
  warnings.warn(
Running tokenizer on train dataset:   1%|          | 1000/92867 [00:01<02:27, 622.49 examples/s]Running tokenizer on train dataset:   2%|▏         | 2000/92867 [00:02<01:49, 828.05 examples/s]Running tokenizer on train dataset:   3%|▎         | 3000/92867 [00:04<02:01, 736.71 examples/s]Running tokenizer on train dataset:   4%|▍         | 4000/92867 [00:05<02:19, 635.62 examples/s]Running tokenizer on train dataset:   5%|▌         | 5000/92867 [00:07<02:24, 609.52 examples/s]Running tokenizer on train dataset:   6%|▋         | 6000/92867 [00:09<02:26, 592.91 examples/s]Running tokenizer on train dataset:   8%|▊         | 7000/92867 [00:11<02:28, 579.82 examples/s]Running tokenizer on train dataset:   9%|▊         | 8000/92867 [00:13<02:27, 573.87 examples/s]Running tokenizer on train dataset:  10%|▉         | 9000/92867 [00:14<02:23, 585.27 examples/s]Running tokenizer on train dataset:  11%|█         | 10000/92867 [00:15<02:07, 649.39 examples/s]Running tokenizer on train dataset:  12%|█▏        | 11000/92867 [00:17<01:56, 701.32 examples/s]Running tokenizer on train dataset:  13%|█▎        | 12000/92867 [00:18<01:52, 719.88 examples/s]Running tokenizer on train dataset:  14%|█▍        | 13000/92867 [00:19<01:49, 727.15 examples/s]Running tokenizer on train dataset:  15%|█▌        | 14000/92867 [00:20<01:41, 776.45 examples/s]Running tokenizer on train dataset:  16%|█▌        | 15000/92867 [00:21<01:36, 806.53 examples/s]Running tokenizer on train dataset:  17%|█▋        | 16000/92867 [00:23<01:31, 838.99 examples/s]Running tokenizer on train dataset:  18%|█▊        | 17000/92867 [00:24<01:29, 850.40 examples/s]Running tokenizer on train dataset:  19%|█▉        | 18000/92867 [00:25<01:27, 856.51 examples/s]Running tokenizer on train dataset:  20%|██        | 19000/92867 [00:26<01:30, 819.05 examples/s]Running tokenizer on train dataset:  22%|██▏       | 20000/92867 [00:27<01:27, 830.32 examples/s]Running tokenizer on train dataset:  23%|██▎       | 21000/92867 [00:28<01:24, 849.78 examples/s]Running tokenizer on train dataset:  24%|██▎       | 22000/92867 [00:30<01:22, 857.64 examples/s]Running tokenizer on train dataset:  25%|██▍       | 23000/92867 [00:31<01:23, 837.33 examples/s]Running tokenizer on train dataset:  26%|██▌       | 24000/92867 [00:32<01:24, 811.74 examples/s]Running tokenizer on train dataset:  27%|██▋       | 25000/92867 [00:33<01:23, 811.39 examples/s]Running tokenizer on train dataset:  28%|██▊       | 26000/92867 [00:35<01:23, 803.97 examples/s]Running tokenizer on train dataset:  29%|██▉       | 27000/92867 [00:36<01:23, 791.71 examples/s]Running tokenizer on train dataset:  30%|███       | 28000/92867 [00:37<01:25, 754.50 examples/s]Running tokenizer on train dataset:  31%|███       | 29000/92867 [00:39<01:26, 737.29 examples/s]Running tokenizer on train dataset:  32%|███▏      | 30000/92867 [00:40<01:26, 730.33 examples/s]Running tokenizer on train dataset:  33%|███▎      | 31000/92867 [00:42<01:26, 715.67 examples/s]Running tokenizer on train dataset:  34%|███▍      | 32000/92867 [00:43<01:29, 683.62 examples/s]Running tokenizer on train dataset:  36%|███▌      | 33000/92867 [00:45<01:28, 678.35 examples/s]Running tokenizer on train dataset:  37%|███▋      | 34000/92867 [00:46<01:28, 663.10 examples/s]Running tokenizer on train dataset:  38%|███▊      | 35000/92867 [00:48<01:27, 660.80 examples/s]Running tokenizer on train dataset:  39%|███▉      | 36000/92867 [00:50<01:27, 650.41 examples/s]Running tokenizer on train dataset:  40%|███▉      | 37000/92867 [00:51<01:25, 655.64 examples/s]Running tokenizer on train dataset:  41%|████      | 38000/92867 [00:52<01:21, 669.29 examples/s]Running tokenizer on train dataset:  42%|████▏     | 39000/92867 [00:54<01:20, 669.83 examples/s]Running tokenizer on train dataset:  43%|████▎     | 40000/92867 [00:56<01:22, 642.67 examples/s]Running tokenizer on train dataset:  44%|████▍     | 41000/92867 [00:58<01:33, 555.55 examples/s]Running tokenizer on train dataset:  45%|████▌     | 42000/92867 [01:00<01:30, 564.23 examples/s]Running tokenizer on train dataset:  46%|████▋     | 43000/92867 [01:01<01:24, 587.17 examples/s]Running tokenizer on train dataset:  47%|████▋     | 44000/92867 [01:03<01:19, 612.00 examples/s]Running tokenizer on train dataset:  48%|████▊     | 45000/92867 [01:04<01:18, 611.41 examples/s]Running tokenizer on train dataset:  50%|████▉     | 46000/92867 [01:06<01:17, 604.77 examples/s]Running tokenizer on train dataset:  51%|█████     | 47000/92867 [01:08<01:13, 621.52 examples/s]Running tokenizer on train dataset:  52%|█████▏    | 48000/92867 [01:10<01:18, 570.31 examples/s]Running tokenizer on train dataset:  53%|█████▎    | 49000/92867 [01:11<01:12, 601.46 examples/s]Running tokenizer on train dataset:  54%|█████▍    | 50000/92867 [01:13<01:14, 574.39 examples/s]Running tokenizer on train dataset:  55%|█████▍    | 51000/92867 [01:15<01:17, 543.44 examples/s]Running tokenizer on train dataset:  56%|█████▌    | 52000/92867 [01:17<01:14, 547.00 examples/s]Running tokenizer on train dataset:  57%|█████▋    | 53000/92867 [01:19<01:14, 534.73 examples/s]Running tokenizer on train dataset:  58%|█████▊    | 54000/92867 [01:21<01:10, 550.44 examples/s]Running tokenizer on train dataset:  59%|█████▉    | 55000/92867 [01:22<01:08, 555.85 examples/s]Running tokenizer on train dataset:  60%|██████    | 56000/92867 [01:24<01:09, 528.54 examples/s]Running tokenizer on train dataset:  61%|██████▏   | 57000/92867 [01:27<01:09, 512.89 examples/s]Running tokenizer on train dataset:  62%|██████▏   | 58000/92867 [01:29<01:09, 505.02 examples/s]Running tokenizer on train dataset:  64%|██████▎   | 59000/92867 [01:31<01:07, 505.08 examples/s]Running tokenizer on train dataset:  65%|██████▍   | 60000/92867 [01:32<00:57, 567.03 examples/s]Running tokenizer on train dataset:  66%|██████▌   | 61000/92867 [01:33<00:52, 608.77 examples/s]Running tokenizer on train dataset:  67%|██████▋   | 62000/92867 [01:35<00:48, 631.25 examples/s]Running tokenizer on train dataset:  68%|██████▊   | 63000/92867 [01:36<00:44, 666.90 examples/s]Running tokenizer on train dataset:  69%|██████▉   | 64000/92867 [01:37<00:40, 708.64 examples/s]Running tokenizer on train dataset:  70%|██████▉   | 65000/92867 [01:38<00:38, 724.41 examples/s]Running tokenizer on train dataset:  71%|███████   | 66000/92867 [01:40<00:36, 733.46 examples/s]Running tokenizer on train dataset:  72%|███████▏  | 67000/92867 [01:41<00:35, 725.26 examples/s]Running tokenizer on train dataset:  73%|███████▎  | 68000/92867 [01:42<00:33, 737.09 examples/s]Running tokenizer on train dataset:  74%|███████▍  | 69000/92867 [01:44<00:32, 745.60 examples/s]Running tokenizer on train dataset:  75%|███████▌  | 70000/92867 [01:45<00:31, 720.63 examples/s]Running tokenizer on train dataset:  76%|███████▋  | 71000/92867 [01:47<00:30, 714.37 examples/s]Running tokenizer on train dataset:  78%|███████▊  | 72000/92867 [01:48<00:29, 704.90 examples/s]Running tokenizer on train dataset:  79%|███████▊  | 73000/92867 [01:50<00:29, 677.54 examples/s]Running tokenizer on train dataset:  80%|███████▉  | 74000/92867 [01:51<00:28, 656.04 examples/s]Running tokenizer on train dataset:  81%|████████  | 75000/92867 [01:53<00:27, 646.99 examples/s]Running tokenizer on train dataset:  82%|████████▏ | 76000/92867 [01:55<00:27, 606.56 examples/s]Running tokenizer on train dataset:  83%|████████▎ | 77000/92867 [01:57<00:26, 597.97 examples/s]Running tokenizer on train dataset:  84%|████████▍ | 78000/92867 [01:58<00:25, 587.32 examples/s]Running tokenizer on train dataset:  85%|████████▌ | 79000/92867 [02:00<00:23, 585.39 examples/s]Running tokenizer on train dataset:  86%|████████▌ | 80000/92867 [02:02<00:21, 587.09 examples/s]Running tokenizer on train dataset:  87%|████████▋ | 81000/92867 [02:03<00:19, 598.41 examples/s]Running tokenizer on train dataset:  88%|████████▊ | 82000/92867 [02:05<00:17, 612.37 examples/s]Running tokenizer on train dataset:  89%|████████▉ | 83000/92867 [02:07<00:18, 526.57 examples/s]Running tokenizer on train dataset:  90%|█████████ | 84000/92867 [02:09<00:16, 521.71 examples/s]Running tokenizer on train dataset:  92%|█████████▏| 85000/92867 [02:11<00:14, 543.66 examples/s]Running tokenizer on train dataset:  93%|█████████▎| 86000/92867 [02:13<00:12, 564.07 examples/s]Running tokenizer on train dataset:  94%|█████████▎| 87000/92867 [02:15<00:10, 557.14 examples/s]Running tokenizer on train dataset:  95%|█████████▍| 88000/92867 [02:16<00:08, 564.10 examples/s]Running tokenizer on train dataset:  96%|█████████▌| 89000/92867 [02:18<00:06, 554.69 examples/s]Running tokenizer on train dataset:  97%|█████████▋| 90000/92867 [02:20<00:05, 565.81 examples/s]Running tokenizer on train dataset:  98%|█████████▊| 91000/92867 [02:22<00:03, 523.66 examples/s]Running tokenizer on train dataset:  99%|█████████▉| 92000/92867 [02:24<00:01, 518.01 examples/s]Running tokenizer on train dataset: 100%|██████████| 92867/92867 [02:26<00:00, 501.50 examples/s]Running tokenizer on train dataset: 100%|██████████| 92867/92867 [02:26<00:00, 634.18 examples/s]
Saving cached train data ...
Saving the dataset (0/1 shards):   0%|          | 0/92867 [00:00<?, ? examples/s]Saving the dataset (1/1 shards): 100%|██████████| 92867/92867 [00:00<00:00, 960805.40 examples/s]Saving the dataset (1/1 shards): 100%|██████████| 92867/92867 [00:00<00:00, 958566.23 examples/s]
/kaggle/working/amr-tst-indo/AMRBART-id/fine-tune/main.py:283: FutureWarning: load_metric is deprecated and will be removed in the next major version of datasets. Use 'evaluate.load' instead, from the new library 🤗 Evaluate: https://huggingface.co./docs/evaluate
  metric = load_metric(path="metric/sacrebleu.py") if training_args.task == "amr2text" else None
/opt/conda/lib/python3.10/site-packages/datasets/load.py:855: FutureWarning: The repository for sacrebleu contains custom code which must be executed to correctly load the metric. You can inspect the repository content at metric/sacrebleu.py
You can avoid this message in future by passing the argument `trust_remote_code=True`.
Passing `trust_remote_code=True` will be mandatory to load this metric from the next major release of `datasets`.
  warnings.warn(
There were missing keys in the checkpoint model loaded: ['model.encoder.embed_tokens.weight', 'model.decoder.embed_tokens.weight', 'lm_head.weight'].
/opt/conda/lib/python3.10/site-packages/transformers/optimization.py:588: FutureWarning: This implementation of AdamW is deprecated and will be removed in a future version. Use the PyTorch implementation torch.optim.AdamW instead, or set `no_deprecation_warning=True` to disable this warning
  warnings.warn(
All 371472 steps, warm_up steps: 200
wandb: WARNING The `run_name` is currently set to the same value as `TrainingArguments.output_dir`. If this was not intended, please specify a different run name by setting the `TrainingArguments.run_name` parameter.
wandb: Currently logged in as: abdiharyadi. Use `wandb login --relogin` to force relogin
wandb: wandb version 0.17.4 is available!  To upgrade, please run:
wandb:  $ pip install wandb --upgrade
wandb: Tracking run with wandb version 0.17.0
wandb: Run data is saved locally in /kaggle/working/amr-tst-indo/AMRBART-id/fine-tune/wandb/run-20240708_234301-o0h3a68o
wandb: Run `wandb offline` to turn off syncing.
wandb: Syncing run /kaggle/working/amr-tst-indo/AMRBART-id/fine-tune/../outputs/mbart-en-id-smaller-fted
wandb: ⭐️ View project at https://wandb.ai/abdiharyadi/huggingface
wandb: 🚀 View run at https://wandb.ai/abdiharyadi/huggingface/runs/o0h3a68o
  0%|          | 0/371472 [00:00<?, ?it/s]/opt/conda/lib/python3.10/multiprocessing/popen_fork.py:66: RuntimeWarning: os.fork() was called. os.fork() is incompatible with multithreaded code, and JAX is multithreaded, so this will likely lead to a deadlock.
  self.pid = os.fork()
 38%|███▊      | 139303/371472 [00:01<00:02, 91586.03it/s]                                                          {'loss': 3.3751, 'learning_rate': 6.627593785688121e-07, 'epoch': 6.0}
 38%|███▊      | 139320/371472 [00:06<00:02, 91586.03it/s]                                                          {'loss': 3.2693, 'learning_rate': 6.627108965933331e-07, 'epoch': 6.0}
 38%|███▊      | 139340/371472 [00:11<00:02, 91586.03it/s]                                                          {'loss': 3.1989, 'learning_rate': 6.626624146178543e-07, 'epoch': 6.0}
 38%|███▊      | 139360/371472 [00:17<00:02, 91586.03it/s] 38%|███▊      | 139364/371472 [00:18<00:02, 91586.03it/s] 38%|███▊      | 139365/371472 [00:18<00:43, 5313.50it/s]  38%|███▊      | 139366/371472 [00:19<00:44, 5200.52it/s]                                                         {'loss': 3.3882, 'learning_rate': 6.626139326423754e-07, 'epoch': 6.0}
 38%|███▊      | 139380/371472 [00:23<00:44, 5200.52it/s]                                                         {'loss': 3.2903, 'learning_rate': 6.625654506668965e-07, 'epoch': 6.0}
 38%|███▊      | 139400/371472 [00:28<00:44, 5200.52it/s]                                                         {'loss': 3.3288, 'learning_rate': 6.625169686914176e-07, 'epoch': 6.01}
 38%|███▊      | 139420/371472 [00:34<00:44, 5200.52it/s] 38%|███▊      | 139435/371472 [00:38<00:44, 5200.52it/s] 38%|███▊      | 139436/371472 [00:38<02:20, 1655.85it/s] 38%|███▊      | 139437/371472 [00:39<02:22, 1631.26it/s]                                                         {'loss': 3.2756, 'learning_rate': 6.624684867159388e-07, 'epoch': 6.01}
 38%|███▊      | 139440/371472 [00:40<02:22, 1631.26it/s]                                                         {'loss': 3.4164, 'learning_rate': 6.624200047404596e-07, 'epoch': 6.01}
 38%|███▊      | 139460/371472 [00:45<02:22, 1631.26it/s]                                                         {'loss': 3.4174, 'learning_rate': 6.623715227649808e-07, 'epoch': 6.01}
 38%|███▊      | 139480/371472 [00:51<02:22, 1631.26it/s]                                                         {'loss': 3.2843, 'learning_rate': 6.62323040789502e-07, 'epoch': 6.01}
 38%|███▊      | 139500/371472 [00:56<02:22, 1631.26it/s] 38%|███▊      | 139506/371472 [00:58<02:22, 1631.26it/s] 38%|███▊      | 139507/371472 [00:58<05:35, 691.37it/s]  38%|███▊      | 139508/371472 [00:59<05:39, 682.50it/s]                                                        {'loss': 3.3194, 'learning_rate': 6.622745588140232e-07, 'epoch': 6.01}
 38%|███▊      | 139520/371472 [01:02<05:39, 682.50it/s]                                                        {'loss': 3.4129, 'learning_rate': 6.622260768385442e-07, 'epoch': 6.01}
 38%|███▊      | 139540/371472 [01:07<05:39, 682.50it/s]                                                        {'loss': 3.2203, 'learning_rate': 6.621775948630654e-07, 'epoch': 6.01}
 38%|███▊      | 139560/371472 [01:13<05:39, 682.50it/s] 38%|███▊      | 139576/371472 [01:18<05:39, 682.50it/s] 38%|███▊      | 139577/371472 [01:18<12:12, 316.79it/s] 38%|███▊      | 139578/371472 [01:19<12:20, 313.03it/s]                                                        {'loss': 3.3866, 'learning_rate': 6.621291128875864e-07, 'epoch': 6.01}
 38%|███▊      | 139580/371472 [01:19<12:20, 313.03it/s]                                                        {'loss': 3.3634, 'learning_rate': 6.620806309121075e-07, 'epoch': 6.01}
 38%|███▊      | 139600/371472 [01:25<12:20, 313.03it/s]                                                        {'loss': 3.2391, 'learning_rate': 6.620321489366286e-07, 'epoch': 6.01}
 38%|███▊      | 139620/371472 [01:31<12:20, 313.03it/s]                                                        {'loss': 3.3458, 'learning_rate': 6.619836669611497e-07, 'epoch': 6.01}
 38%|███▊      | 139640/371472 [01:36<12:20, 313.03it/s] 38%|███▊      | 139646/371472 [01:38<12:20, 313.03it/s] 38%|███▊      | 139647/371472 [01:38<25:26, 151.88it/s] 38%|███▊      | 139648/371472 [01:39<25:43, 150.16it/s]                                                        {'loss': 3.318, 'learning_rate': 6.619351849856709e-07, 'epoch': 6.02}
 38%|███▊      | 139660/371472 [01:42<25:43, 150.16it/s]                                                        {'loss': 3.3504, 'learning_rate': 6.61886703010192e-07, 'epoch': 6.02}
 38%|███▊      | 139680/371472 [01:48<25:43, 150.16it/s]                                                        {'loss': 3.31, 'learning_rate': 6.618382210347131e-07, 'epoch': 6.02}
 38%|███▊      | 139700/371472 [01:54<25:43, 150.16it/s] 38%|███▊      | 139717/371472 [01:58<25:43, 150.16it/s] 38%|███▊      | 139718/371472 [01:59<51:43, 74.67it/s]  38%|███▊      | 139719/371472 [01:59<52:20, 73.79it/s]                                                       {'loss': 3.4865, 'learning_rate': 6.617897390592341e-07, 'epoch': 6.02}
 38%|███▊      | 139720/371472 [01:59<52:20, 73.79it/s]                                                       {'loss': 3.2037, 'learning_rate': 6.617412570837553e-07, 'epoch': 6.02}
 38%|███▊      | 139740/371472 [02:05<52:20, 73.79it/s]                                                       {'loss': 3.4388, 'learning_rate': 6.616927751082764e-07, 'epoch': 6.02}
 38%|███▊      | 139760/371472 [02:10<52:20, 73.79it/s]                                                       {'loss': 3.3497, 'learning_rate': 6.616442931327975e-07, 'epoch': 6.02}
 38%|███▊      | 139780/371472 [02:16<52:20, 73.79it/s] 38%|███▊      | 139787/371472 [02:18<52:19, 73.79it/s] 38%|███▊      | 139788/371472 [02:18<1:40:18, 38.50it/s] 38%|███▊      | 139789/371472 [02:19<1:41:29, 38.04it/s]                                                         {'loss': 3.4421, 'learning_rate': 6.615958111573186e-07, 'epoch': 6.02}
 38%|███▊      | 139800/371472 [02:22<1:41:29, 38.04it/s]                                                         {'loss': 3.3811, 'learning_rate': 6.615473291818398e-07, 'epoch': 6.02}
 38%|███▊      | 139820/371472 [02:28<1:41:28, 38.04it/s]                                                         {'loss': 3.1993, 'learning_rate': 6.614988472063608e-07, 'epoch': 6.02}
 38%|███▊      | 139840/371472 [02:34<1:41:28, 38.04it/s] 38%|███▊      | 139855/371472 [02:38<1:41:27, 38.04it/s] 38%|███▊      | 139856/371472 [02:38<3:08:30, 20.48it/s] 38%|███▊      | 139857/371472 [02:39<3:10:26, 20.27it/s]                                                         {'loss': 3.176, 'learning_rate': 6.614503652308819e-07, 'epoch': 6.02}
 38%|███▊      | 139860/371472 [02:40<3:10:26, 20.27it/s]                                                         {'loss': 3.3562, 'learning_rate': 6.61401883255403e-07, 'epoch': 6.02}
 38%|███▊      | 139880/371472 [02:45<3:10:25, 20.27it/s]                                                         {'loss': 3.4167, 'learning_rate': 6.613534012799241e-07, 'epoch': 6.03}
 38%|███▊      | 139900/371472 [02:51<3:10:24, 20.27it/s]                                                         {'loss': 3.4329, 'learning_rate': 6.613049193044453e-07, 'epoch': 6.03}
 38%|███▊      | 139920/371472 [02:56<3:10:23, 20.27it/s] 38%|███▊      | 139926/371472 [02:58<3:10:22, 20.27it/s] 38%|███▊      | 139927/371472 [02:58<5:25:55, 11.84it/s] 38%|███▊      | 139928/371472 [02:59<5:28:03, 11.76it/s]                                                         {'loss': 3.2115, 'learning_rate': 6.612564373289664e-07, 'epoch': 6.03}
 38%|███▊      | 139940/371472 [03:02<5:28:02, 11.76it/s]                                                         {'loss': 3.1718, 'learning_rate': 6.612079553534875e-07, 'epoch': 6.03}
 38%|███▊      | 139960/371472 [03:07<5:28:00, 11.76it/s]                                                         {'loss': 3.3522, 'learning_rate': 6.611594733780084e-07, 'epoch': 6.03}
 38%|███▊      | 139980/371472 [03:13<5:27:58, 11.76it/s] 38%|███▊      | 139997/371472 [03:18<5:27:57, 11.76it/s] 38%|███▊      | 139998/371472 [03:18<8:28:20,  7.59it/s] 38%|███▊      | 139999/371472 [03:19<8:31:29,  7.54it/s]                                                         {'loss': 3.4165, 'learning_rate': 6.611109914025296e-07, 'epoch': 6.03}
 38%|███▊      | 140000/371472 [03:19<8:31:29,  7.54it/s]                                                         {'loss': 3.2908, 'learning_rate': 6.610625094270507e-07, 'epoch': 6.03}
 38%|███▊      | 140020/371472 [03:25<8:31:26,  7.54it/s]                                                         {'loss': 3.2437, 'learning_rate': 6.610140274515719e-07, 'epoch': 6.03}
 38%|███▊      | 140040/371472 [03:30<8:31:23,  7.54it/s]                                                         {'loss': 3.3871, 'learning_rate': 6.60965545476093e-07, 'epoch': 6.03}
 38%|███▊      | 140060/371472 [03:36<8:31:21,  7.54it/s] 38%|███▊      | 140067/371472 [03:38<8:31:20,  7.54it/s] 38%|███▊      | 140068/371472 [03:38<11:37:49,  5.53it/s] 38%|███▊      | 140069/371472 [03:38<11:39:30,  5.51it/s]                                                          {'loss': 3.367, 'learning_rate': 6.609170635006141e-07, 'epoch': 6.03}
 38%|███▊      | 140080/371472 [03:42<11:39:28,  5.51it/s]                                                          {'loss': 3.23, 'learning_rate': 6.608685815251351e-07, 'epoch': 6.03}
 38%|███▊      | 140100/371472 [03:47<11:39:25,  5.51it/s]                                                          {'loss': 3.3493, 'learning_rate': 6.608200995496562e-07, 'epoch': 6.04}
 38%|███▊      | 140120/371472 [03:53<11:39:21,  5.51it/s] 38%|███▊      | 140125/371472 [03:55<14:05:17,  4.56it/s] 38%|███▊      | 140126/371472 [03:55<14:06:40,  4.55it/s]                                                          {'loss': 3.37, 'learning_rate': 6.607716175741774e-07, 'epoch': 6.04}
 38%|███▊      | 140140/371472 [03:59<14:06:37,  4.55it/s]                                                          {'loss': 3.2546, 'learning_rate': 6.607231355986985e-07, 'epoch': 6.04}
 38%|███▊      | 140160/371472 [04:05<14:06:33,  4.55it/s] 38%|███▊      | 140165/371472 [04:06<15:25:25,  4.17it/s] 38%|███▊      | 140166/371472 [04:06<15:27:01,  4.16it/s]                                                          {'loss': 3.2054, 'learning_rate': 6.606746536232196e-07, 'epoch': 6.04}
 38%|███▊      | 140180/371472 [04:10<15:26:58,  4.16it/s] 38%|███▊      | 140194/371472 [04:14<16:28:58,  3.90it/s]                                                          {'loss': 3.3235, 'learning_rate': 6.606261716477407e-07, 'epoch': 6.04}
 38%|███▊      | 140200/371472 [04:16<16:28:56,  3.90it/s] 38%|███▊      | 140214/371472 [04:20<17:03:26,  3.77it/s]                                                          {'loss': 3.1454, 'learning_rate': 6.605776896722618e-07, 'epoch': 6.04}
 38%|███▊      | 140220/371472 [04:22<17:03:24,  3.77it/s] 38%|███▊      | 140228/371472 [04:24<17:20:16,  3.70it/s] 38%|███▊      | 140238/371472 [04:27<17:24:05,  3.69it/s]                                                          {'loss': 3.3127, 'learning_rate': 6.605292076967829e-07, 'epoch': 6.04}
 38%|███▊      | 140240/371472 [04:28<17:24:04,  3.69it/s] 38%|███▊      | 140245/371472 [04:29<17:39:57,  3.64it/s] 38%|███▊      | 140250/371472 [04:31<17:33:06,  3.66it/s] 38%|███▊      | 140254/371472 [04:32<17:56:41,  3.58it/s] 38%|███▊      | 140257/371472 [04:33<17:47:41,  3.61it/s] 38%|███▊      | 140259/371472 [04:33<18:03:59,  3.55it/s]                                                          {'loss': 3.2196, 'learning_rate': 6.60480725721304e-07, 'epoch': 6.04}
 38%|███▊      | 140260/371472 [04:33<18:03:58,  3.55it/s] 38%|███▊      | 140261/371472 [04:34<18:00:31,  3.57it/s] 38%|███▊      | 140263/371472 [04:34<17:42:45,  3.63it/s] 38%|███▊      | 140264/371472 [04:35<18:07:33,  3.54it/s] 38%|███▊      | 140265/371472 [04:35<18:33:38,  3.46it/s] 38%|███▊      | 140266/371472 [04:35<18:24:10,  3.49it/s] 38%|███▊      | 140267/371472 [04:36<18:39:06,  3.44it/s] 38%|███▊      | 140268/371472 [04:36<18:23:22,  3.49it/s] 38%|███▊      | 140269/371472 [04:36<17:47:53,  3.61it/s] 38%|███▊      | 140270/371472 [04:36<17:47:33,  3.61it/s] 38%|███▊      | 140271/371472 [04:37<18:23:21,  3.49it/s] 38%|███▊      | 140272/371472 [04:37<18:28:17,  3.48it/s] 38%|███▊      | 140273/371472 [04:37<17:36:56,  3.65it/s] 38%|███▊      | 140274/371472 [04:37<17:23:13,  3.69it/s] 38%|███▊      | 140275/371472 [04:38<17:43:59,  3.62it/s] 38%|███▊      | 140276/371472 [04:38<17:01:11,  3.77it/s] 38%|███▊      | 140277/371472 [04:38<17:37:14,  3.64it/s] 38%|███▊      | 140278/371472 [04:39<18:24:22,  3.49it/s] 38%|███▊      | 140279/371472 [04:39<17:57:59,  3.57it/s] 38%|███▊      | 140280/371472 [04:39<18:21:04,  3.50it/s]                                                          {'loss': 3.3498, 'learning_rate': 6.604322437458251e-07, 'epoch': 6.04}
 38%|███▊      | 140280/371472 [04:39<18:21:04,  3.50it/s] 38%|███▊      | 140281/371472 [04:39<19:29:56,  3.29it/s] 38%|███▊      | 140282/371472 [04:40<18:32:07,  3.46it/s] 38%|███▊      | 140283/371472 [04:40<18:21:47,  3.50it/s] 38%|███▊      | 140284/371472 [04:40<18:33:52,  3.46it/s] 38%|███▊      | 140285/371472 [04:41<18:19:59,  3.50it/s] 38%|███▊      | 140286/371472 [04:41<18:00:35,  3.57it/s] 38%|███▊      | 140287/371472 [04:41<17:48:53,  3.60it/s] 38%|███▊      | 140288/371472 [04:41<17:35:59,  3.65it/s] 38%|███▊      | 140289/371472 [04:42<17:35:04,  3.65it/s] 38%|███▊      | 140290/371472 [04:42<18:14:08,  3.52it/s] 38%|███▊      | 140291/371472 [04:42<19:11:08,  3.35it/s] 38%|███▊      | 140292/371472 [04:43<18:58:17,  3.38it/s] 38%|███▊      | 140293/371472 [04:43<20:19:37,  3.16it/s] 38%|███▊      | 140294/371472 [04:43<19:23:15,  3.31it/s] 38%|███▊      | 140295/371472 [04:43<18:45:14,  3.42it/s] 38%|███▊      | 140296/371472 [04:44<19:00:51,  3.38it/s] 38%|███▊      | 140297/371472 [04:44<18:08:21,  3.54it/s] 38%|███▊      | 140298/371472 [04:44<18:27:36,  3.48it/s] 38%|███▊      | 140299/371472 [04:45<18:30:17,  3.47it/s] 38%|███▊      | 140300/371472 [04:45<18:32:58,  3.46it/s]                                                          {'loss': 3.3069, 'learning_rate': 6.603837617703463e-07, 'epoch': 6.04}
 38%|███▊      | 140300/371472 [04:45<18:32:58,  3.46it/s] 38%|███▊      | 140301/371472 [04:45<17:52:44,  3.59it/s] 38%|███▊      | 140302/371472 [04:45<18:23:22,  3.49it/s] 38%|███▊      | 140303/371472 [04:46<18:44:58,  3.42it/s] 38%|███▊      | 140304/371472 [04:46<19:35:45,  3.28it/s] 38%|███▊      | 140305/371472 [04:46<19:13:45,  3.34it/s] 38%|███▊      | 140306/371472 [04:47<20:25:22,  3.14it/s] 38%|███▊      | 140307/371472 [04:47<19:17:55,  3.33it/s] 38%|███▊      | 140308/371472 [04:47<18:14:09,  3.52it/s] 38%|███▊      | 140309/371472 [04:48<18:13:44,  3.52it/s] 38%|███▊      | 140310/371472 [04:48<17:38:47,  3.64it/s] 38%|███▊      | 140311/371472 [04:48<17:43:16,  3.62it/s] 38%|███▊      | 140312/371472 [04:48<17:41:23,  3.63it/s] 38%|███▊      | 140313/371472 [04:49<17:56:37,  3.58it/s] 38%|███▊      | 140314/371472 [04:49<17:28:19,  3.68it/s] 38%|███▊      | 140315/371472 [04:49<18:49:09,  3.41it/s] 38%|███▊      | 140316/371472 [04:50<18:18:50,  3.51it/s] 38%|███▊      | 140317/371472 [04:50<18:11:28,  3.53it/s] 38%|███▊      | 140318/371472 [04:50<18:30:07,  3.47it/s] 38%|███▊      | 140319/371472 [04:50<17:46:02,  3.61it/s] 38%|███▊      | 140320/371472 [04:51<17:30:56,  3.67it/s]                                                          {'loss': 3.3404, 'learning_rate': 6.603352797948674e-07, 'epoch': 6.04}
 38%|███▊      | 140320/371472 [04:51<17:30:56,  3.67it/s] 38%|███▊      | 140321/371472 [04:51<17:59:21,  3.57it/s] 38%|███▊      | 140322/371472 [04:51<17:45:08,  3.62it/s] 38%|███▊      | 140323/371472 [04:51<17:18:48,  3.71it/s] 38%|███▊      | 140324/371472 [04:52<17:31:01,  3.67it/s] 38%|███▊      | 140325/371472 [04:52<17:29:28,  3.67it/s] 38%|███▊      | 140326/371472 [04:52<19:35:32,  3.28it/s] 38%|███▊      | 140327/371472 [04:53<21:20:44,  3.01it/s] 38%|███▊      | 140328/371472 [04:53<20:27:14,  3.14it/s] 38%|███▊      | 140329/371472 [04:53<19:55:57,  3.22it/s] 38%|███▊      | 140330/371472 [04:54<20:45:56,  3.09it/s] 38%|███▊      | 140331/371472 [04:54<21:26:31,  2.99it/s] 38%|███▊      | 140332/371472 [04:54<21:41:17,  2.96it/s] 38%|███▊      | 140333/371472 [04:55<21:55:25,  2.93it/s] 38%|███▊      | 140334/371472 [04:55<20:52:55,  3.07it/s] 38%|███▊      | 140335/371472 [04:55<19:52:02,  3.23it/s] 38%|███▊      | 140336/371472 [04:56<19:36:59,  3.27it/s] 38%|███▊      | 140337/371472 [04:56<18:55:37,  3.39it/s] 38%|███▊      | 140338/371472 [04:56<18:01:01,  3.56it/s] 38%|███▊      | 140339/371472 [04:56<17:26:51,  3.68it/s] 38%|███▊      | 140340/371472 [04:57<17:35:55,  3.65it/s]                                                          {'loss': 3.1708, 'learning_rate': 6.602867978193885e-07, 'epoch': 6.04}
 38%|███▊      | 140340/371472 [04:57<17:35:55,  3.65it/s] 38%|███▊      | 140341/371472 [04:57<17:46:30,  3.61it/s] 38%|███▊      | 140342/371472 [04:57<18:39:16,  3.44it/s] 38%|███▊      | 140343/371472 [04:58<18:08:48,  3.54it/s] 38%|███▊      | 140344/371472 [04:58<17:45:32,  3.62it/s] 38%|███▊      | 140345/371472 [04:58<17:47:05,  3.61it/s] 38%|███▊      | 140346/371472 [04:58<17:19:54,  3.70it/s] 38%|███▊      | 140347/371472 [04:59<17:22:56,  3.69it/s] 38%|███▊      | 140348/371472 [04:59<18:04:15,  3.55it/s] 38%|███▊      | 140349/371472 [04:59<18:06:01,  3.55it/s] 38%|███▊      | 140350/371472 [04:59<18:11:00,  3.53it/s] 38%|███▊      | 140351/371472 [05:00<17:45:16,  3.62it/s] 38%|███▊      | 140352/371472 [05:00<18:32:27,  3.46it/s] 38%|███▊      | 140353/371472 [05:00<18:42:55,  3.43it/s] 38%|███▊      | 140354/371472 [05:01<18:34:05,  3.46it/s] 38%|███▊      | 140355/371472 [05:01<19:20:33,  3.32it/s] 38%|███▊      | 140356/371472 [05:01<18:47:52,  3.42it/s] 38%|███▊      | 140357/371472 [05:01<18:00:58,  3.56it/s] 38%|███▊      | 140358/371472 [05:02<17:43:11,  3.62it/s] 38%|███▊      | 140359/371472 [05:02<17:44:08,  3.62it/s] 38%|███▊      | 140360/371472 [05:02<17:44:44,  3.62it/s]                                                          {'loss': 3.3139, 'learning_rate': 6.602383158439095e-07, 'epoch': 6.05}
 38%|███▊      | 140360/371472 [05:02<17:44:44,  3.62it/s] 38%|███▊      | 140361/371472 [05:03<17:39:46,  3.63it/s] 38%|███▊      | 140362/371472 [05:03<17:11:01,  3.74it/s] 38%|███▊      | 140363/371472 [05:03<17:26:18,  3.68it/s] 38%|███▊      | 140364/371472 [05:03<19:10:39,  3.35it/s] 38%|███▊      | 140365/371472 [05:04<20:09:09,  3.19it/s] 38%|███▊      | 140366/371472 [05:04<20:04:47,  3.20it/s] 38%|███▊      | 140367/371472 [05:04<20:01:53,  3.20it/s] 38%|███▊      | 140368/371472 [05:05<19:27:27,  3.30it/s] 38%|███▊      | 140369/371472 [05:05<19:48:32,  3.24it/s] 38%|███▊      | 140370/371472 [05:05<19:06:55,  3.36it/s] 38%|███▊      | 140371/371472 [05:06<18:10:50,  3.53it/s] 38%|███▊      | 140372/371472 [05:06<18:29:53,  3.47it/s] 38%|███▊      | 140373/371472 [05:06<17:28:14,  3.67it/s] 38%|███▊      | 140374/371472 [05:06<19:04:06,  3.37it/s] 38%|███▊      | 140375/371472 [05:07<18:39:20,  3.44it/s] 38%|███▊      | 140376/371472 [05:07<21:18:37,  3.01it/s] 38%|███▊      | 140377/371472 [05:07<20:03:06,  3.20it/s] 38%|███▊      | 140378/371472 [05:08<19:00:36,  3.38it/s] 38%|███▊      | 140379/371472 [05:08<17:59:04,  3.57it/s] 38%|███▊      | 140380/371472 [05:08<17:14:00,  3.72it/s]                                                          {'loss': 3.1864, 'learning_rate': 6.601898338684307e-07, 'epoch': 6.05}
 38%|███▊      | 140380/371472 [05:08<17:14:00,  3.72it/s] 38%|███▊      | 140381/371472 [05:08<17:05:02,  3.76it/s] 38%|███▊      | 140382/371472 [05:09<19:06:33,  3.36it/s] 38%|███▊      | 140383/371472 [05:09<19:35:37,  3.28it/s] 38%|███▊      | 140384/371472 [05:09<18:21:29,  3.50it/s] 38%|███▊      | 140385/371472 [05:10<18:12:42,  3.52it/s] 38%|███▊      | 140386/371472 [05:10<17:02:05,  3.77it/s] 38%|███▊      | 140387/371472 [05:10<17:42:57,  3.62it/s] 38%|███▊      | 140388/371472 [05:10<17:36:17,  3.65it/s] 38%|███▊      | 140389/371472 [05:11<17:43:17,  3.62it/s] 38%|███▊      | 140390/371472 [05:11<17:09:49,  3.74it/s] 38%|███▊      | 140391/371472 [05:11<17:20:56,  3.70it/s] 38%|███▊      | 140392/371472 [05:12<17:41:16,  3.63it/s] 38%|███▊      | 140393/371472 [05:12<17:00:52,  3.77it/s] 38%|███▊      | 140394/371472 [05:12<17:12:09,  3.73it/s] 38%|███▊      | 140395/371472 [05:12<17:21:08,  3.70it/s] 38%|███▊      | 140396/371472 [05:13<16:55:39,  3.79it/s] 38%|███▊      | 140397/371472 [05:13<19:29:23,  3.29it/s] 38%|███▊      | 140398/371472 [05:13<18:49:18,  3.41it/s] 38%|███▊      | 140399/371472 [05:13<18:17:03,  3.51it/s] 38%|███▊      | 140400/371472 [05:14<17:44:30,  3.62it/s]                                                          {'loss': 3.3895, 'learning_rate': 6.601413518929517e-07, 'epoch': 6.05}
 38%|███▊      | 140400/371472 [05:14<17:44:30,  3.62it/s] 38%|███▊      | 140401/371472 [05:14<17:36:46,  3.64it/s] 38%|███▊      | 140402/371472 [05:14<17:32:48,  3.66it/s] 38%|███▊      | 140403/371472 [05:15<17:33:53,  3.65it/s] 38%|███▊      | 140404/371472 [05:15<17:05:48,  3.75it/s] 38%|███▊      | 140405/371472 [05:15<16:41:05,  3.85it/s] 38%|███▊      | 140406/371472 [05:15<17:04:52,  3.76it/s] 38%|███▊      | 140407/371472 [05:16<18:20:45,  3.50it/s] 38%|███▊      | 140408/371472 [05:16<19:06:18,  3.36it/s] 38%|███▊      | 140409/371472 [05:16<18:57:27,  3.39it/s] 38%|███▊      | 140410/371472 [05:17<19:03:13,  3.37it/s] 38%|███▊      | 140411/371472 [05:17<18:39:57,  3.44it/s] 38%|███▊      | 140412/371472 [05:17<18:22:01,  3.49it/s] 38%|███▊      | 140413/371472 [05:17<18:21:21,  3.50it/s] 38%|███▊      | 140414/371472 [05:18<18:13:44,  3.52it/s] 38%|███▊      | 140415/371472 [05:18<17:57:58,  3.57it/s] 38%|███▊      | 140416/371472 [05:18<18:42:22,  3.43it/s] 38%|███▊      | 140417/371472 [05:19<17:49:34,  3.60it/s] 38%|███▊      | 140418/371472 [05:19<19:03:35,  3.37it/s] 38%|███▊      | 140419/371472 [05:19<18:36:34,  3.45it/s] 38%|███▊      | 140420/371472 [05:19<19:15:58,  3.33it/s]                                                          {'loss': 3.1844, 'learning_rate': 6.600928699174729e-07, 'epoch': 6.05}
 38%|███▊      | 140420/371472 [05:19<19:15:58,  3.33it/s] 38%|███▊      | 140421/371472 [05:20<18:29:39,  3.47it/s] 38%|███▊      | 140422/371472 [05:20<19:33:35,  3.28it/s] 38%|███▊      | 140423/371472 [05:20<18:58:25,  3.38it/s] 38%|███▊      | 140424/371472 [05:21<19:25:44,  3.30it/s] 38%|███▊      | 140425/371472 [05:21<19:01:37,  3.37it/s] 38%|███▊      | 140426/371472 [05:21<18:47:16,  3.42it/s] 38%|███▊      | 140427/371472 [05:22<18:41:06,  3.43it/s] 38%|███▊      | 140428/371472 [05:22<17:55:39,  3.58it/s] 38%|███▊      | 140429/371472 [05:22<17:42:44,  3.62it/s] 38%|███▊      | 140430/371472 [05:22<17:34:04,  3.65it/s] 38%|███▊      | 140431/371472 [05:23<18:08:07,  3.54it/s] 38%|███▊      | 140432/371472 [05:23<17:45:34,  3.61it/s] 38%|███▊      | 140433/371472 [05:23<18:19:08,  3.50it/s] 38%|███▊      | 140434/371472 [05:23<18:49:33,  3.41it/s] 38%|███▊      | 140435/371472 [05:24<20:27:25,  3.14it/s] 38%|███▊      | 140436/371472 [05:24<20:26:56,  3.14it/s] 38%|███▊      | 140437/371472 [05:24<19:19:36,  3.32it/s] 38%|███▊      | 140438/371472 [05:25<18:32:40,  3.46it/s] 38%|███▊      | 140439/371472 [05:25<17:58:30,  3.57it/s] 38%|███▊      | 140440/371472 [05:25<17:55:02,  3.58it/s]                                                          {'loss': 3.5477, 'learning_rate': 6.60044387941994e-07, 'epoch': 6.05}
 38%|███▊      | 140440/371472 [05:25<17:55:02,  3.58it/s] 38%|███▊      | 140441/371472 [05:25<17:26:08,  3.68it/s] 38%|███▊      | 140442/371472 [05:26<17:27:26,  3.68it/s] 38%|███▊      | 140443/371472 [05:26<18:41:27,  3.43it/s] 38%|███▊      | 140444/371472 [05:26<18:06:18,  3.54it/s] 38%|███▊      | 140445/371472 [05:27<17:22:56,  3.69it/s] 38%|███▊      | 140446/371472 [05:27<17:30:57,  3.66it/s] 38%|███▊      | 140447/371472 [05:27<18:11:51,  3.53it/s] 38%|███▊      | 140448/371472 [05:27<18:23:18,  3.49it/s] 38%|███▊      | 140449/371472 [05:28<20:40:25,  3.10it/s] 38%|███▊      | 140450/371472 [05:28<21:50:18,  2.94it/s] 38%|███▊      | 140451/371472 [05:29<20:48:38,  3.08it/s] 38%|███▊      | 140452/371472 [05:29<20:16:12,  3.17it/s] 38%|███▊      | 140453/371472 [05:29<19:05:54,  3.36it/s] 38%|███▊      | 140454/371472 [05:29<18:45:50,  3.42it/s] 38%|███▊      | 140455/371472 [05:30<18:09:32,  3.53it/s] 38%|███▊      | 140456/371472 [05:30<17:23:15,  3.69it/s] 38%|███▊      | 140457/371472 [05:30<19:13:38,  3.34it/s] 38%|███▊      | 140458/371472 [05:31<19:10:54,  3.35it/s] 38%|███▊      | 140459/371472 [05:31<19:25:04,  3.30it/s] 38%|███▊      | 140460/371472 [05:31<18:42:20,  3.43it/s]                                                          {'loss': 3.1969, 'learning_rate': 6.599959059665152e-07, 'epoch': 6.05}
 38%|███▊      | 140460/371472 [05:31<18:42:20,  3.43it/s] 38%|███▊      | 140461/371472 [05:31<18:24:51,  3.48it/s] 38%|███▊      | 140462/371472 [05:32<19:56:08,  3.22it/s] 38%|███▊      | 140463/371472 [05:32<19:34:28,  3.28it/s] 38%|███▊      | 140464/371472 [05:32<19:53:48,  3.23it/s] 38%|███▊      | 140465/371472 [05:33<18:59:07,  3.38it/s] 38%|███▊      | 140466/371472 [05:33<18:45:27,  3.42it/s] 38%|███▊      | 140467/371472 [05:34<25:49:49,  2.48it/s] 38%|███▊      | 140468/371472 [05:34<23:37:47,  2.72it/s] 38%|███▊      | 140469/371472 [05:34<21:42:18,  2.96it/s] 38%|███▊      | 140470/371472 [05:35<22:28:18,  2.86it/s] 38%|███▊      | 140471/371472 [05:35<21:21:19,  3.00it/s] 38%|███▊      | 140472/371472 [05:35<20:41:21,  3.10it/s] 38%|███▊      | 140473/371472 [05:35<19:18:51,  3.32it/s] 38%|███▊      | 140474/371472 [05:36<18:25:46,  3.48it/s] 38%|███▊      | 140475/371472 [05:36<18:43:00,  3.43it/s] 38%|███▊      | 140476/371472 [05:36<18:01:42,  3.56it/s] 38%|███▊      | 140477/371472 [05:37<18:58:09,  3.38it/s] 38%|███▊      | 140478/371472 [05:37<18:50:53,  3.40it/s] 38%|███▊      | 140479/371472 [05:37<20:27:28,  3.14it/s] 38%|███▊      | 140480/371472 [05:37<19:52:52,  3.23it/s]                                                          {'loss': 3.2366, 'learning_rate': 6.599474239910362e-07, 'epoch': 6.05}
 38%|███▊      | 140480/371472 [05:37<19:52:52,  3.23it/s] 38%|███▊      | 140481/371472 [05:38<19:32:24,  3.28it/s] 38%|███▊      | 140482/371472 [05:38<18:53:08,  3.40it/s] 38%|███▊      | 140483/371472 [05:38<19:08:44,  3.35it/s] 38%|███▊      | 140484/371472 [05:39<19:32:42,  3.28it/s] 38%|███▊      | 140485/371472 [05:39<18:19:31,  3.50it/s] 38%|███▊      | 140486/371472 [05:39<17:37:24,  3.64it/s] 38%|███▊      | 140487/371472 [05:39<17:13:32,  3.72it/s] 38%|███▊      | 140488/371472 [05:40<17:08:50,  3.74it/s] 38%|███▊      | 140489/371472 [05:40<17:13:52,  3.72it/s] 38%|███▊      | 140490/371472 [05:40<17:20:39,  3.70it/s] 38%|███▊      | 140491/371472 [05:40<17:13:38,  3.72it/s] 38%|███▊      | 140492/371472 [05:41<16:52:43,  3.80it/s] 38%|███▊      | 140493/371472 [05:41<16:43:30,  3.84it/s] 38%|███▊      | 140494/371472 [05:41<17:34:06,  3.65it/s] 38%|███▊      | 140495/371472 [05:42<18:18:40,  3.50it/s] 38%|███▊      | 140496/371472 [05:42<17:43:31,  3.62it/s] 38%|███▊      | 140497/371472 [05:42<18:09:59,  3.53it/s] 38%|███▊      | 140498/371472 [05:42<17:47:40,  3.61it/s] 38%|███▊      | 140499/371472 [05:43<17:19:11,  3.70it/s] 38%|███▊      | 140500/371472 [05:43<16:52:34,  3.80it/s]                                                          {'loss': 3.4781, 'learning_rate': 6.598989420155572e-07, 'epoch': 6.05}
 38%|███▊      | 140500/371472 [05:43<16:52:34,  3.80it/s] 38%|███▊      | 140501/371472 [05:43<16:50:01,  3.81it/s] 38%|███▊      | 140502/371472 [05:43<16:30:49,  3.89it/s] 38%|███▊      | 140503/371472 [05:44<16:46:39,  3.82it/s] 38%|███▊      | 140504/371472 [05:44<17:06:30,  3.75it/s] 38%|███▊      | 140505/371472 [05:44<16:54:22,  3.79it/s] 38%|███▊      | 140506/371472 [05:45<17:27:50,  3.67it/s] 38%|███▊      | 140507/371472 [05:45<17:46:38,  3.61it/s] 38%|███▊      | 140508/371472 [05:45<17:44:03,  3.62it/s] 38%|███▊      | 140509/371472 [05:45<17:58:38,  3.57it/s] 38%|███▊      | 140510/371472 [05:46<17:56:15,  3.58it/s] 38%|███▊      | 140511/371472 [05:46<17:38:33,  3.64it/s] 38%|███▊      | 140512/371472 [05:46<17:13:09,  3.73it/s] 38%|███▊      | 140513/371472 [05:46<16:58:45,  3.78it/s] 38%|███▊      | 140514/371472 [05:47<17:00:16,  3.77it/s] 38%|███▊      | 140515/371472 [05:47<17:09:24,  3.74it/s] 38%|███▊      | 140516/371472 [05:47<17:13:14,  3.73it/s] 38%|███▊      | 140517/371472 [05:48<19:27:48,  3.30it/s] 38%|███▊      | 140518/371472 [05:48<18:39:48,  3.44it/s] 38%|███▊      | 140519/371472 [05:48<18:00:07,  3.56it/s] 38%|███▊      | 140520/371472 [05:48<17:51:30,  3.59it/s]                                                          {'loss': 3.3735, 'learning_rate': 6.598504600400784e-07, 'epoch': 6.05}
 38%|███▊      | 140520/371472 [05:48<17:51:30,  3.59it/s] 38%|███▊      | 140521/371472 [05:49<19:04:28,  3.36it/s] 38%|███▊      | 140522/371472 [05:49<18:36:44,  3.45it/s] 38%|███▊      | 140523/371472 [05:49<18:20:07,  3.50it/s] 38%|███▊      | 140524/371472 [05:50<18:00:58,  3.56it/s] 38%|███▊      | 140525/371472 [05:50<17:17:00,  3.71it/s] 38%|███▊      | 140526/371472 [05:50<17:43:11,  3.62it/s] 38%|███▊      | 140527/371472 [05:50<17:55:25,  3.58it/s] 38%|███▊      | 140528/371472 [05:51<19:03:00,  3.37it/s] 38%|███▊      | 140529/371472 [05:51<18:33:25,  3.46it/s] 38%|███▊      | 140530/371472 [05:51<18:12:02,  3.52it/s] 38%|███▊      | 140531/371472 [05:52<19:03:55,  3.36it/s] 38%|███▊      | 140532/371472 [05:52<18:43:55,  3.42it/s] 38%|███▊      | 140533/371472 [05:52<19:45:47,  3.25it/s] 38%|███▊      | 140534/371472 [05:52<18:37:08,  3.45it/s] 38%|███▊      | 140535/371472 [05:53<18:21:34,  3.49it/s] 38%|███▊      | 140536/371472 [05:53<17:56:54,  3.57it/s] 38%|███▊      | 140537/371472 [05:53<17:56:46,  3.57it/s] 38%|███▊      | 140538/371472 [05:54<17:18:06,  3.71it/s] 38%|███▊      | 140539/371472 [05:54<17:15:54,  3.72it/s] 38%|███▊      | 140540/371472 [05:54<17:18:02,  3.71it/s]                                                          {'loss': 3.1334, 'learning_rate': 6.598019780645995e-07, 'epoch': 6.05}
 38%|███▊      | 140540/371472 [05:54<17:18:02,  3.71it/s] 38%|███▊      | 140541/371472 [05:54<17:15:41,  3.72it/s] 38%|███▊      | 140542/371472 [05:55<17:14:06,  3.72it/s] 38%|███▊      | 140543/371472 [05:55<17:57:35,  3.57it/s] 38%|███▊      | 140544/371472 [05:55<17:24:33,  3.68it/s] 38%|███▊      | 140545/371472 [05:55<18:11:37,  3.53it/s] 38%|███▊      | 140546/371472 [05:56<17:37:11,  3.64it/s] 38%|███▊      | 140547/371472 [05:56<17:08:29,  3.74it/s] 38%|███▊      | 140548/371472 [05:56<16:50:06,  3.81it/s] 38%|███▊      | 140549/371472 [05:57<17:03:28,  3.76it/s] 38%|███▊      | 140550/371472 [05:57<18:13:49,  3.52it/s] 38%|███▊      | 140551/371472 [05:57<17:39:53,  3.63it/s] 38%|███▊      | 140552/371472 [05:57<17:36:58,  3.64it/s] 38%|███▊      | 140553/371472 [05:58<17:34:57,  3.65it/s] 38%|███▊      | 140554/371472 [05:58<17:51:13,  3.59it/s] 38%|███▊      | 140555/371472 [05:58<17:17:11,  3.71it/s] 38%|███▊      | 140556/371472 [05:58<17:23:44,  3.69it/s] 38%|███▊      | 140557/371472 [05:59<19:50:58,  3.23it/s] 38%|███▊      | 140558/371472 [05:59<19:09:36,  3.35it/s] 38%|███▊      | 140559/371472 [05:59<18:40:33,  3.43it/s] 38%|███▊      | 140560/371472 [06:00<17:39:40,  3.63it/s]                                                          {'loss': 3.398, 'learning_rate': 6.597534960891206e-07, 'epoch': 6.05}
 38%|███▊      | 140560/371472 [06:00<17:39:40,  3.63it/s] 38%|███▊      | 140561/371472 [06:00<17:31:14,  3.66it/s] 38%|███▊      | 140562/371472 [06:00<17:26:28,  3.68it/s] 38%|███▊      | 140563/371472 [06:00<18:00:58,  3.56it/s] 38%|███▊      | 140564/371472 [06:01<18:20:37,  3.50it/s] 38%|███▊      | 140565/371472 [06:01<18:23:56,  3.49it/s] 38%|███▊      | 140566/371472 [06:01<18:03:23,  3.55it/s] 38%|███▊      | 140567/371472 [06:02<20:10:04,  3.18it/s] 38%|███▊      | 140568/371472 [06:02<19:21:43,  3.31it/s] 38%|███▊      | 140569/371472 [06:02<20:08:39,  3.18it/s] 38%|███▊      | 140570/371472 [06:03<19:48:41,  3.24it/s] 38%|███▊      | 140571/371472 [06:03<18:44:11,  3.42it/s] 38%|███▊      | 140572/371472 [06:03<18:10:04,  3.53it/s] 38%|███▊      | 140573/371472 [06:03<17:58:43,  3.57it/s] 38%|███▊      | 140574/371472 [06:04<18:18:59,  3.50it/s] 38%|███▊      | 140575/371472 [06:04<17:58:20,  3.57it/s] 38%|███▊      | 140576/371472 [06:04<17:43:37,  3.62it/s] 38%|███▊      | 140577/371472 [06:05<17:19:13,  3.70it/s] 38%|███▊      | 140578/371472 [06:05<19:02:55,  3.37it/s] 38%|███▊      | 140579/371472 [06:05<18:31:02,  3.46it/s] 38%|███▊      | 140580/371472 [06:05<18:22:03,  3.49it/s]                                                          {'loss': 3.2795, 'learning_rate': 6.597050141136417e-07, 'epoch': 6.06}
 38%|███▊      | 140580/371472 [06:05<18:22:03,  3.49it/s] 38%|███▊      | 140581/371472 [06:06<18:05:44,  3.54it/s] 38%|███▊      | 140582/371472 [06:06<17:34:58,  3.65it/s] 38%|███▊      | 140583/371472 [06:06<18:14:45,  3.52it/s] 38%|███▊      | 140584/371472 [06:07<18:15:03,  3.51it/s] 38%|███▊      | 140585/371472 [06:07<18:15:10,  3.51it/s] 38%|███▊      | 140586/371472 [06:07<17:54:51,  3.58it/s] 38%|███▊      | 140587/371472 [06:07<18:24:05,  3.49it/s] 38%|███▊      | 140588/371472 [06:08<19:45:35,  3.25it/s] 38%|███▊      | 140589/371472 [06:08<18:47:23,  3.41it/s] 38%|███▊      | 140590/371472 [06:08<19:00:36,  3.37it/s] 38%|███▊      | 140591/371472 [06:09<18:24:31,  3.48it/s] 38%|███▊      | 140592/371472 [06:09<18:57:15,  3.38it/s] 38%|███▊      | 140593/371472 [06:09<18:16:37,  3.51it/s] 38%|███▊      | 140594/371472 [06:09<18:49:22,  3.41it/s] 38%|███▊      | 140595/371472 [06:10<18:43:57,  3.42it/s] 38%|███▊      | 140596/371472 [06:10<18:28:26,  3.47it/s] 38%|███▊      | 140597/371472 [06:10<18:22:53,  3.49it/s] 38%|███▊      | 140598/371472 [06:11<19:35:34,  3.27it/s] 38%|███▊      | 140599/371472 [06:11<20:16:26,  3.16it/s] 38%|███▊      | 140600/371472 [06:11<20:11:05,  3.18it/s]                                                          {'loss': 3.3314, 'learning_rate': 6.596565321381628e-07, 'epoch': 6.06}
 38%|███▊      | 140600/371472 [06:11<20:11:05,  3.18it/s] 38%|███▊      | 140601/371472 [06:12<19:22:39,  3.31it/s] 38%|███▊      | 140602/371472 [06:12<19:16:48,  3.33it/s] 38%|███▊      | 140603/371472 [06:12<21:45:42,  2.95it/s] 38%|███▊      | 140604/371472 [06:13<21:01:33,  3.05it/s] 38%|███▊      | 140605/371472 [06:13<20:05:08,  3.19it/s] 38%|███▊      | 140606/371472 [06:13<19:52:10,  3.23it/s] 38%|███▊      | 140607/371472 [06:13<18:41:57,  3.43it/s] 38%|███▊      | 140608/371472 [06:14<18:45:48,  3.42it/s] 38%|███▊      | 140609/371472 [06:14<18:01:56,  3.56it/s] 38%|███▊      | 140610/371472 [06:14<20:11:54,  3.17it/s] 38%|███▊      | 140611/371472 [06:15<19:35:17,  3.27it/s] 38%|███▊      | 140612/371472 [06:15<19:25:43,  3.30it/s] 38%|███▊      | 140613/371472 [06:15<20:33:16,  3.12it/s] 38%|███▊      | 140614/371472 [06:16<19:31:37,  3.28it/s] 38%|███▊      | 140615/371472 [06:16<18:55:13,  3.39it/s] 38%|███▊      | 140616/371472 [06:16<18:18:55,  3.50it/s] 38%|███▊      | 140617/371472 [06:17<19:35:34,  3.27it/s] 38%|███▊      | 140618/371472 [06:17<19:44:47,  3.25it/s] 38%|███▊      | 140619/371472 [06:17<18:59:54,  3.38it/s] 38%|███▊      | 140620/371472 [06:17<18:25:56,  3.48it/s]                                                          {'loss': 3.1696, 'learning_rate': 6.596080501626839e-07, 'epoch': 6.06}
 38%|███▊      | 140620/371472 [06:17<18:25:56,  3.48it/s] 38%|███▊      | 140621/371472 [06:18<18:18:14,  3.50it/s] 38%|███▊      | 140622/371472 [06:18<17:56:04,  3.58it/s] 38%|███▊      | 140623/371472 [06:18<19:20:39,  3.31it/s] 38%|███▊      | 140624/371472 [06:19<20:10:49,  3.18it/s] 38%|███▊      | 140625/371472 [06:19<19:48:21,  3.24it/s] 38%|███▊      | 140626/371472 [06:19<18:53:32,  3.39it/s] 38%|███▊      | 140627/371472 [06:19<19:33:49,  3.28it/s] 38%|███▊      | 140628/371472 [06:20<18:39:47,  3.44it/s] 38%|███▊      | 140629/371472 [06:20<19:17:25,  3.32it/s] 38%|███▊      | 140630/371472 [06:20<18:39:21,  3.44it/s] 38%|███▊      | 140631/371472 [06:21<17:47:11,  3.61it/s] 38%|███▊      | 140632/371472 [06:21<18:23:04,  3.49it/s] 38%|███▊      | 140633/371472 [06:21<17:44:17,  3.61it/s] 38%|███▊      | 140634/371472 [06:21<18:46:23,  3.42it/s] 38%|███▊      | 140635/371472 [06:22<18:24:37,  3.48it/s] 38%|███▊      | 140636/371472 [06:22<18:05:01,  3.55it/s] 38%|███▊      | 140637/371472 [06:22<18:29:05,  3.47it/s] 38%|███▊      | 140638/371472 [06:23<21:51:44,  2.93it/s] 38%|███▊      | 140639/371472 [06:23<20:25:34,  3.14it/s] 38%|███▊      | 140640/371472 [06:23<19:28:52,  3.29it/s]                                                          {'loss': 3.3948, 'learning_rate': 6.59559568187205e-07, 'epoch': 6.06}
 38%|███▊      | 140640/371472 [06:23<19:28:52,  3.29it/s] 38%|███▊      | 140641/371472 [06:24<18:45:30,  3.42it/s] 38%|███▊      | 140642/371472 [06:24<18:26:19,  3.48it/s] 38%|███▊      | 140643/371472 [06:24<18:08:23,  3.53it/s] 38%|███▊      | 140644/371472 [06:24<17:42:20,  3.62it/s] 38%|███▊      | 140645/371472 [06:25<18:20:22,  3.50it/s] 38%|███▊      | 140646/371472 [06:25<18:47:53,  3.41it/s] 38%|███▊      | 140647/371472 [06:25<18:10:36,  3.53it/s] 38%|███▊      | 140648/371472 [06:26<18:18:46,  3.50it/s] 38%|███▊      | 140649/371472 [06:26<18:34:05,  3.45it/s] 38%|███▊      | 140650/371472 [06:26<18:41:24,  3.43it/s] 38%|███▊      | 140651/371472 [06:26<18:54:01,  3.39it/s] 38%|███▊      | 140652/371472 [06:27<18:09:10,  3.53it/s] 38%|███▊      | 140653/371472 [06:27<17:52:30,  3.59it/s] 38%|███▊      | 140654/371472 [06:27<17:21:54,  3.69it/s] 38%|███▊      | 140655/371472 [06:28<17:35:59,  3.64it/s] 38%|███▊      | 140656/371472 [06:28<17:16:21,  3.71it/s] 38%|███▊      | 140657/371472 [06:28<17:08:16,  3.74it/s] 38%|███▊      | 140658/371472 [06:28<17:06:02,  3.75it/s] 38%|███▊      | 140659/371472 [06:29<17:10:47,  3.73it/s] 38%|███▊      | 140660/371472 [06:29<18:46:30,  3.41it/s]                                                          {'loss': 3.247, 'learning_rate': 6.595110862117261e-07, 'epoch': 6.06}
 38%|███▊      | 140660/371472 [06:29<18:46:30,  3.41it/s] 38%|███▊      | 140661/371472 [06:29<18:11:05,  3.53it/s] 38%|███▊      | 140662/371472 [06:29<17:28:30,  3.67it/s] 38%|███▊      | 140663/371472 [06:30<17:13:50,  3.72it/s] 38%|███▊      | 140664/371472 [06:30<17:03:50,  3.76it/s] 38%|███▊      | 140665/371472 [06:30<19:52:10,  3.23it/s] 38%|███▊      | 140666/371472 [06:31<20:24:49,  3.14it/s] 38%|███▊      | 140667/371472 [06:31<20:50:22,  3.08it/s] 38%|███▊      | 140668/371472 [06:31<21:43:23,  2.95it/s] 38%|███▊      | 140669/371472 [06:32<20:40:34,  3.10it/s] 38%|███▊      | 140670/371472 [06:32<20:10:19,  3.18it/s] 38%|███▊      | 140671/371472 [06:32<18:40:01,  3.43it/s] 38%|███▊      | 140672/371472 [06:33<17:59:11,  3.56it/s] 38%|███▊      | 140673/371472 [06:33<18:55:39,  3.39it/s] 38%|███▊      | 140674/371472 [06:33<18:06:11,  3.54it/s] 38%|███▊      | 140675/371472 [06:33<17:48:56,  3.60it/s] 38%|███▊      | 140676/371472 [06:34<17:30:32,  3.66it/s] 38%|███▊      | 140677/371472 [06:34<19:28:15,  3.29it/s] 38%|███▊      | 140678/371472 [06:34<19:08:46,  3.35it/s] 38%|███▊      | 140679/371472 [06:35<19:07:26,  3.35it/s] 38%|███▊      | 140680/371472 [06:35<19:32:58,  3.28it/s]                                                          {'loss': 3.2848, 'learning_rate': 6.594626042362473e-07, 'epoch': 6.06}
 38%|███▊      | 140680/371472 [06:35<19:32:58,  3.28it/s] 38%|███▊      | 140681/371472 [06:35<18:43:41,  3.42it/s] 38%|███▊      | 140682/371472 [06:35<19:34:24,  3.28it/s] 38%|███▊      | 140683/371472 [06:36<20:52:47,  3.07it/s] 38%|███▊      | 140684/371472 [06:36<19:46:54,  3.24it/s] 38%|███▊      | 140685/371472 [06:36<19:15:48,  3.33it/s] 38%|███▊      | 140686/371472 [06:37<18:49:08,  3.41it/s] 38%|███▊      | 140687/371472 [06:37<18:17:24,  3.51it/s] 38%|███▊      | 140688/371472 [06:37<18:02:09,  3.55it/s] 38%|███▊      | 140689/371472 [06:38<19:02:40,  3.37it/s] 38%|███▊      | 140690/371472 [06:38<18:23:42,  3.48it/s] 38%|███▊      | 140691/371472 [06:38<20:55:13,  3.06it/s] 38%|███▊      | 140692/371472 [06:39<20:05:55,  3.19it/s] 38%|███▊      | 140693/371472 [06:39<23:59:39,  2.67it/s] 38%|███▊      | 140694/371472 [06:39<23:23:07,  2.74it/s] 38%|███▊      | 140695/371472 [06:40<21:21:22,  3.00it/s] 38%|███▊      | 140696/371472 [06:40<19:52:08,  3.23it/s] 38%|███▊      | 140697/371472 [06:40<19:34:54,  3.27it/s] 38%|███▊      | 140698/371472 [06:40<18:24:21,  3.48it/s] 38%|███▊      | 140699/371472 [06:41<17:57:35,  3.57it/s] 38%|███▊      | 140700/371472 [06:41<17:56:04,  3.57it/s]                                                          {'loss': 3.0964, 'learning_rate': 6.594141222607684e-07, 'epoch': 6.06}
 38%|███▊      | 140700/371472 [06:41<17:56:04,  3.57it/s] 38%|███▊      | 140701/371472 [06:41<18:15:21,  3.51it/s] 38%|███▊      | 140702/371472 [06:42<19:52:17,  3.23it/s] 38%|███▊      | 140703/371472 [06:42<20:15:29,  3.16it/s] 38%|███▊      | 140704/371472 [06:42<20:00:32,  3.20it/s] 38%|███▊      | 140705/371472 [06:43<19:12:39,  3.34it/s] 38%|███▊      | 140706/371472 [06:43<19:12:37,  3.34it/s] 38%|███▊      | 140707/371472 [06:43<19:21:10,  3.31it/s] 38%|███▊      | 140708/371472 [06:43<18:49:06,  3.41it/s] 38%|███▊      | 140709/371472 [06:44<18:24:59,  3.48it/s] 38%|███▊      | 140710/371472 [06:44<18:35:40,  3.45it/s] 38%|███▊      | 140711/371472 [06:44<18:02:15,  3.55it/s] 38%|███▊      | 140712/371472 [06:45<17:57:51,  3.57it/s] 38%|███▊      | 140713/371472 [06:45<17:38:17,  3.63it/s] 38%|███▊      | 140714/371472 [06:45<17:33:58,  3.65it/s] 38%|███▊      | 140715/371472 [06:45<19:10:25,  3.34it/s] 38%|███▊      | 140716/371472 [06:46<19:26:10,  3.30it/s] 38%|███▊      | 140717/371472 [06:46<18:49:36,  3.40it/s] 38%|███▊      | 140718/371472 [06:46<18:01:22,  3.56it/s] 38%|███▊      | 140719/371472 [06:47<18:07:24,  3.54it/s] 38%|███▊      | 140720/371472 [06:47<18:23:49,  3.48it/s]                                                          {'loss': 3.2493, 'learning_rate': 6.593656402852895e-07, 'epoch': 6.06}
 38%|███▊      | 140720/371472 [06:47<18:23:49,  3.48it/s] 38%|███▊      | 140721/371472 [06:47<17:52:09,  3.59it/s] 38%|███▊      | 140722/371472 [06:47<18:20:50,  3.49it/s] 38%|███▊      | 140723/371472 [06:48<18:36:40,  3.44it/s] 38%|███▊      | 140724/371472 [06:48<18:28:07,  3.47it/s] 38%|███▊      | 140725/371472 [06:48<18:18:25,  3.50it/s] 38%|███▊      | 140726/371472 [06:49<17:59:32,  3.56it/s] 38%|███▊      | 140727/371472 [06:49<18:10:25,  3.53it/s] 38%|███▊      | 140728/371472 [06:49<17:33:13,  3.65it/s] 38%|███▊      | 140729/371472 [06:49<17:41:43,  3.62it/s] 38%|███▊      | 140730/371472 [06:50<18:32:48,  3.46it/s] 38%|███▊      | 140731/371472 [06:50<17:44:31,  3.61it/s] 38%|███▊      | 140732/371472 [06:50<17:10:57,  3.73it/s] 38%|███▊      | 140733/371472 [06:50<17:34:50,  3.65it/s] 38%|███▊      | 140734/371472 [06:51<17:07:25,  3.74it/s] 38%|███▊      | 140735/371472 [06:51<16:59:33,  3.77it/s] 38%|███▊      | 140736/371472 [06:51<16:45:45,  3.82it/s] 38%|███▊      | 140737/371472 [06:51<16:06:03,  3.98it/s] 38%|███▊      | 140738/371472 [06:52<16:12:40,  3.95it/s] 38%|███▊      | 140739/371472 [06:52<16:04:15,  3.99it/s] 38%|███▊      | 140740/371472 [06:52<16:20:35,  3.92it/s]                                                          {'loss': 3.3509, 'learning_rate': 6.593171583098105e-07, 'epoch': 6.06}
 38%|███▊      | 140740/371472 [06:52<16:20:35,  3.92it/s] 38%|███▊      | 140741/371472 [06:53<16:44:00,  3.83it/s] 38%|███▊      | 140742/371472 [06:53<16:23:34,  3.91it/s] 38%|███▊      | 140743/371472 [06:53<16:58:10,  3.78it/s] 38%|███▊      | 140744/371472 [06:53<17:08:19,  3.74it/s] 38%|███▊      | 140745/371472 [06:54<17:30:07,  3.66it/s] 38%|███▊      | 140746/371472 [06:54<18:30:15,  3.46it/s] 38%|███▊      | 140747/371472 [06:54<17:41:25,  3.62it/s] 38%|███▊      | 140748/371472 [06:54<17:41:30,  3.62it/s] 38%|███▊      | 140749/371472 [06:55<17:52:04,  3.59it/s] 38%|███▊      | 140750/371472 [06:55<17:39:44,  3.63it/s] 38%|███▊      | 140751/371472 [06:55<17:21:23,  3.69it/s] 38%|███▊      | 140752/371472 [06:56<17:13:21,  3.72it/s] 38%|███▊      | 140753/371472 [06:56<16:53:54,  3.79it/s] 38%|███▊      | 140754/371472 [06:56<17:36:37,  3.64it/s] 38%|███▊      | 140755/371472 [06:56<17:17:25,  3.71it/s] 38%|███▊      | 140756/371472 [06:57<18:11:53,  3.52it/s] 38%|███▊      | 140757/371472 [06:57<18:38:18,  3.44it/s] 38%|███▊      | 140758/371472 [06:57<19:27:54,  3.29it/s] 38%|███▊      | 140759/371472 [06:58<18:03:10,  3.55it/s] 38%|███▊      | 140760/371472 [06:58<18:34:30,  3.45it/s]                                                          {'loss': 3.245, 'learning_rate': 6.592686763343317e-07, 'epoch': 6.06}
 38%|███▊      | 140760/371472 [06:58<18:34:30,  3.45it/s] 38%|███▊      | 140761/371472 [06:58<19:06:42,  3.35it/s] 38%|███▊      | 140762/371472 [06:58<18:49:16,  3.40it/s] 38%|███▊      | 140763/371472 [06:59<17:45:58,  3.61it/s] 38%|███▊      | 140764/371472 [06:59<17:14:09,  3.72it/s] 38%|███▊      | 140765/371472 [06:59<17:38:29,  3.63it/s] 38%|███▊      | 140766/371472 [06:59<17:22:30,  3.69it/s] 38%|███▊      | 140767/371472 [07:00<17:14:48,  3.72it/s] 38%|███▊      | 140768/371472 [07:00<17:23:38,  3.68it/s] 38%|███▊      | 140769/371472 [07:00<18:45:41,  3.42it/s] 38%|███▊      | 140770/371472 [07:01<17:45:26,  3.61it/s] 38%|███▊      | 140771/371472 [07:01<17:40:09,  3.63it/s] 38%|███▊      | 140772/371472 [07:01<17:44:44,  3.61it/s] 38%|███▊      | 140773/371472 [07:01<18:04:25,  3.55it/s] 38%|███▊      | 140774/371472 [07:02<17:52:39,  3.58it/s] 38%|███▊      | 140775/371472 [07:02<17:43:16,  3.62it/s] 38%|███▊      | 140776/371472 [07:02<17:31:54,  3.66it/s] 38%|███▊      | 140777/371472 [07:03<17:46:30,  3.61it/s] 38%|███▊      | 140778/371472 [07:03<18:22:01,  3.49it/s] 38%|███▊      | 140779/371472 [07:03<18:21:47,  3.49it/s] 38%|███▊      | 140780/371472 [07:03<19:00:09,  3.37it/s]                                                          {'loss': 3.1624, 'learning_rate': 6.592201943588528e-07, 'epoch': 6.06}
 38%|███▊      | 140780/371472 [07:03<19:00:09,  3.37it/s] 38%|███▊      | 140781/371472 [07:04<18:24:07,  3.48it/s] 38%|███▊      | 140782/371472 [07:04<18:08:19,  3.53it/s] 38%|███▊      | 140783/371472 [07:04<18:16:13,  3.51it/s] 38%|███▊      | 140784/371472 [07:05<17:35:44,  3.64it/s] 38%|███▊      | 140785/371472 [07:05<17:34:35,  3.65it/s] 38%|███▊      | 140786/371472 [07:05<17:22:21,  3.69it/s] 38%|███▊      | 140787/371472 [07:05<19:20:22,  3.31it/s] 38%|███▊      | 140788/371472 [07:06<18:53:49,  3.39it/s] 38%|███▊      | 140789/371472 [07:06<18:20:07,  3.49it/s] 38%|███▊      | 140790/371472 [07:06<18:37:15,  3.44it/s] 38%|███▊      | 140791/371472 [07:07<19:56:39,  3.21it/s] 38%|███▊      | 140792/371472 [07:07<19:42:56,  3.25it/s] 38%|███▊      | 140793/371472 [07:07<19:08:20,  3.35it/s] 38%|███▊      | 140794/371472 [07:08<18:45:18,  3.42it/s] 38%|███▊      | 140795/371472 [07:08<18:29:36,  3.46it/s] 38%|███▊      | 140796/371472 [07:08<18:37:34,  3.44it/s] 38%|███▊      | 140797/371472 [07:08<18:17:19,  3.50it/s] 38%|███▊      | 140798/371472 [07:09<18:08:10,  3.53it/s] 38%|███▊      | 140799/371472 [07:09<17:52:56,  3.58it/s] 38%|███▊      | 140800/371472 [07:09<18:01:51,  3.55it/s]                                                          {'loss': 3.2919, 'learning_rate': 6.591717123833738e-07, 'epoch': 6.06}
 38%|███▊      | 140800/371472 [07:09<18:01:51,  3.55it/s] 38%|███▊      | 140801/371472 [07:09<17:49:29,  3.59it/s] 38%|███▊      | 140802/371472 [07:10<17:58:54,  3.56it/s] 38%|███▊      | 140803/371472 [07:10<17:23:39,  3.68it/s] 38%|███▊      | 140804/371472 [07:10<17:20:46,  3.69it/s] 38%|███▊      | 140805/371472 [07:11<16:43:57,  3.83it/s] 38%|███▊      | 140806/371472 [07:11<16:39:08,  3.85it/s] 38%|███▊      | 140807/371472 [07:11<16:51:46,  3.80it/s] 38%|███▊      | 140808/371472 [07:11<17:24:40,  3.68it/s] 38%|███▊      | 140809/371472 [07:12<18:16:23,  3.51it/s] 38%|███▊      | 140810/371472 [07:12<18:19:05,  3.50it/s] 38%|███▊      | 140811/371472 [07:12<19:01:48,  3.37it/s] 38%|███▊      | 140812/371472 [07:13<19:51:03,  3.23it/s] 38%|███▊      | 140813/371472 [07:13<21:17:56,  3.01it/s] 38%|███▊      | 140814/371472 [07:13<20:10:23,  3.18it/s] 38%|███▊      | 140815/371472 [07:14<19:15:50,  3.33it/s] 38%|███▊      | 140816/371472 [07:14<19:03:29,  3.36it/s] 38%|███▊      | 140817/371472 [07:14<19:00:42,  3.37it/s] 38%|███▊      | 140818/371472 [07:14<19:46:49,  3.24it/s] 38%|███▊      | 140819/371472 [07:15<20:13:02,  3.17it/s] 38%|███▊      | 140820/371472 [07:15<19:55:51,  3.21it/s]                                                          {'loss': 3.2278, 'learning_rate': 6.59123230407895e-07, 'epoch': 6.07}
 38%|███▊      | 140820/371472 [07:15<19:55:51,  3.21it/s] 38%|███▊      | 140821/371472 [07:15<19:20:07,  3.31it/s] 38%|███▊      | 140822/371472 [07:16<19:53:01,  3.22it/s] 38%|███▊      | 140823/371472 [07:16<20:18:57,  3.15it/s] 38%|███▊      | 140824/371472 [07:16<19:41:14,  3.25it/s] 38%|███▊      | 140825/371472 [07:17<18:59:07,  3.37it/s] 38%|███▊      | 140826/371472 [07:17<18:44:35,  3.42it/s] 38%|███▊      | 140827/371472 [07:17<18:39:24,  3.43it/s] 38%|███▊      | 140828/371472 [07:17<19:44:41,  3.24it/s] 38%|███▊      | 140829/371472 [07:18<20:00:22,  3.20it/s] 38%|███▊      | 140830/371472 [07:18<19:06:20,  3.35it/s] 38%|███▊      | 140831/371472 [07:18<19:29:26,  3.29it/s] 38%|███▊      | 140832/371472 [07:19<18:16:31,  3.51it/s] 38%|███▊      | 140833/371472 [07:19<18:12:56,  3.52it/s] 38%|███▊      | 140834/371472 [07:19<18:45:34,  3.42it/s] 38%|███▊      | 140835/371472 [07:20<18:35:07,  3.45it/s] 38%|███▊      | 140836/371472 [07:20<18:06:50,  3.54it/s] 38%|███▊      | 140837/371472 [07:20<18:00:04,  3.56it/s] 38%|███▊      | 140838/371472 [07:20<17:48:11,  3.60it/s] 38%|███▊      | 140839/371472 [07:21<17:56:02,  3.57it/s] 38%|███▊      | 140840/371472 [07:21<18:06:23,  3.54it/s]                                                          {'loss': 3.4433, 'learning_rate': 6.590747484324162e-07, 'epoch': 6.07}
 38%|███▊      | 140840/371472 [07:21<18:06:23,  3.54it/s] 38%|███▊      | 140841/371472 [07:21<19:19:31,  3.32it/s] 38%|███▊      | 140842/371472 [07:22<18:30:26,  3.46it/s] 38%|███▊      | 140843/371472 [07:22<17:39:32,  3.63it/s] 38%|███▊      | 140844/371472 [07:22<17:26:36,  3.67it/s] 38%|███▊      | 140845/371472 [07:22<17:13:32,  3.72it/s] 38%|███▊      | 140846/371472 [07:23<18:02:28,  3.55it/s] 38%|███▊      | 140847/371472 [07:23<20:17:09,  3.16it/s] 38%|███▊      | 140848/371472 [07:23<19:14:49,  3.33it/s] 38%|███▊      | 140849/371472 [07:24<20:43:57,  3.09it/s] 38%|███▊      | 140850/371472 [07:24<19:28:18,  3.29it/s] 38%|███▊      | 140851/371472 [07:24<20:01:31,  3.20it/s] 38%|███▊      | 140852/371472 [07:24<19:13:07,  3.33it/s] 38%|███▊      | 140853/371472 [07:25<18:47:49,  3.41it/s] 38%|███▊      | 140854/371472 [07:25<17:46:06,  3.61it/s] 38%|███▊      | 140855/371472 [07:25<18:04:42,  3.54it/s] 38%|███▊      | 140856/371472 [07:26<18:41:58,  3.43it/s] 38%|███▊      | 140857/371472 [07:26<19:42:42,  3.25it/s] 38%|███▊      | 140858/371472 [07:26<19:16:48,  3.32it/s] 38%|███▊      | 140859/371472 [07:27<18:55:09,  3.39it/s] 38%|███▊      | 140860/371472 [07:27<18:58:03,  3.38it/s]                                                          {'loss': 3.2387, 'learning_rate': 6.590262664569372e-07, 'epoch': 6.07}
 38%|███▊      | 140860/371472 [07:27<18:58:03,  3.38it/s] 38%|███▊      | 140861/371472 [07:27<19:15:29,  3.33it/s] 38%|███▊      | 140862/371472 [07:27<18:20:42,  3.49it/s] 38%|███▊      | 140863/371472 [07:28<17:51:38,  3.59it/s] 38%|███▊      | 140864/371472 [07:28<18:47:45,  3.41it/s] 38%|███▊      | 140865/371472 [07:28<18:47:50,  3.41it/s] 38%|███▊      | 140866/371472 [07:29<18:02:59,  3.55it/s] 38%|███▊      | 140867/371472 [07:29<18:13:52,  3.51it/s] 38%|███▊      | 140868/371472 [07:29<17:42:05,  3.62it/s] 38%|███▊      | 140869/371472 [07:29<18:04:31,  3.54it/s] 38%|███▊      | 140870/371472 [07:30<18:36:02,  3.44it/s] 38%|███▊      | 140871/371472 [07:30<18:51:54,  3.40it/s] 38%|███▊      | 140872/371472 [07:30<19:11:35,  3.34it/s] 38%|███▊      | 140873/371472 [07:31<19:38:13,  3.26it/s] 38%|███▊      | 140874/371472 [07:31<19:25:54,  3.30it/s] 38%|███▊      | 140875/371472 [07:31<18:55:07,  3.39it/s] 38%|███▊      | 140876/371472 [07:31<18:45:00,  3.42it/s] 38%|███▊      | 140877/371472 [07:32<20:49:27,  3.08it/s] 38%|███▊      | 140878/371472 [07:32<20:05:34,  3.19it/s] 38%|███▊      | 140879/371472 [07:32<18:57:34,  3.38it/s] 38%|███▊      | 140880/371472 [07:33<18:11:12,  3.52it/s]                                                          {'loss': 3.1592, 'learning_rate': 6.589777844814582e-07, 'epoch': 6.07}
 38%|███▊      | 140880/371472 [07:33<18:11:12,  3.52it/s] 38%|███▊      | 140881/371472 [07:33<17:50:10,  3.59it/s] 38%|███▊      | 140882/371472 [07:33<17:22:55,  3.68it/s] 38%|███▊      | 140883/371472 [07:33<17:28:50,  3.66it/s] 38%|███▊      | 140884/371472 [07:34<17:20:17,  3.69it/s] 38%|███▊      | 140885/371472 [07:34<17:29:48,  3.66it/s] 38%|███▊      | 140886/371472 [07:34<17:23:01,  3.68it/s] 38%|███▊      | 140887/371472 [07:35<17:11:55,  3.72it/s] 38%|███▊      | 140888/371472 [07:35<18:05:08,  3.54it/s] 38%|███▊      | 140889/371472 [07:35<17:55:55,  3.57it/s] 38%|███▊      | 140890/371472 [07:35<17:38:32,  3.63it/s] 38%|███▊      | 140891/371472 [07:36<17:14:07,  3.72it/s] 38%|███▊      | 140892/371472 [07:36<17:26:15,  3.67it/s] 38%|███▊      | 140893/371472 [07:36<17:49:33,  3.59it/s] 38%|███▊      | 140894/371472 [07:37<18:19:23,  3.50it/s] 38%|███▊      | 140895/371472 [07:37<18:55:23,  3.38it/s] 38%|███▊      | 140896/371472 [07:37<18:43:06,  3.42it/s] 38%|███▊      | 140897/371472 [07:37<17:58:16,  3.56it/s] 38%|███▊      | 140898/371472 [07:38<17:47:59,  3.60it/s] 38%|███▊      | 140899/371472 [07:38<17:48:26,  3.60it/s] 38%|███▊      | 140900/371472 [07:38<19:20:25,  3.31it/s]                                                          {'loss': 3.2537, 'learning_rate': 6.589293025059794e-07, 'epoch': 6.07}
 38%|███▊      | 140900/371472 [07:38<19:20:25,  3.31it/s] 38%|███▊      | 140901/371472 [07:39<20:16:41,  3.16it/s] 38%|███▊      | 140902/371472 [07:39<19:06:14,  3.35it/s] 38%|███▊      | 140903/371472 [07:39<18:27:15,  3.47it/s] 38%|███▊      | 140904/371472 [07:39<18:11:57,  3.52it/s] 38%|███▊      | 140905/371472 [07:40<18:59:20,  3.37it/s] 38%|███▊      | 140906/371472 [07:40<19:10:13,  3.34it/s] 38%|███▊      | 140907/371472 [07:40<18:32:55,  3.45it/s] 38%|███▊      | 140908/371472 [07:41<17:51:55,  3.58it/s] 38%|███▊      | 140909/371472 [07:41<17:23:05,  3.68it/s] 38%|███▊      | 140910/371472 [07:41<17:03:29,  3.75it/s] 38%|███▊      | 140911/371472 [07:41<18:00:18,  3.56it/s] 38%|███▊      | 140912/371472 [07:42<18:20:38,  3.49it/s] 38%|███▊      | 140913/371472 [07:42<18:01:15,  3.55it/s] 38%|███▊      | 140914/371472 [07:42<17:32:38,  3.65it/s] 38%|███▊      | 140915/371472 [07:43<17:39:53,  3.63it/s] 38%|███▊      | 140916/371472 [07:43<18:40:13,  3.43it/s] 38%|███▊      | 140917/371472 [07:43<19:10:48,  3.34it/s] 38%|███▊      | 140918/371472 [07:43<18:46:22,  3.41it/s] 38%|███▊      | 140919/371472 [07:44<19:41:12,  3.25it/s] 38%|███▊      | 140920/371472 [07:44<18:40:19,  3.43it/s]                                                          {'loss': 3.2908, 'learning_rate': 6.588808205305005e-07, 'epoch': 6.07}
 38%|███▊      | 140920/371472 [07:44<18:40:19,  3.43it/s] 38%|███▊      | 140921/371472 [07:44<18:40:36,  3.43it/s] 38%|███▊      | 140922/371472 [07:45<18:33:10,  3.45it/s] 38%|███▊      | 140923/371472 [07:45<19:08:12,  3.35it/s] 38%|███▊      | 140924/371472 [07:45<18:29:17,  3.46it/s] 38%|███▊      | 140925/371472 [07:45<18:12:41,  3.52it/s] 38%|███▊      | 140926/371472 [07:46<17:41:36,  3.62it/s] 38%|███▊      | 140927/371472 [07:46<17:14:59,  3.71it/s] 38%|███▊      | 140928/371472 [07:46<16:56:28,  3.78it/s] 38%|███▊      | 140929/371472 [07:46<16:52:02,  3.80it/s] 38%|███▊      | 140930/371472 [07:47<17:19:59,  3.69it/s] 38%|███▊      | 140931/371472 [07:47<17:22:45,  3.68it/s] 38%|███▊      | 140932/371472 [07:47<17:09:06,  3.73it/s] 38%|███▊      | 140933/371472 [07:48<18:13:27,  3.51it/s] 38%|███▊      | 140934/371472 [07:48<17:54:03,  3.58it/s] 38%|███▊      | 140935/371472 [07:48<18:04:48,  3.54it/s] 38%|███▊      | 140936/371472 [07:48<17:33:51,  3.65it/s] 38%|███▊      | 140937/371472 [07:49<18:16:43,  3.50it/s] 38%|███▊      | 140938/371472 [07:49<17:26:19,  3.67it/s] 38%|███▊      | 140939/371472 [07:49<17:37:54,  3.63it/s] 38%|███▊      | 140940/371472 [07:50<17:40:45,  3.62it/s]                                                          {'loss': 3.2679, 'learning_rate': 6.588323385550217e-07, 'epoch': 6.07}
 38%|███▊      | 140940/371472 [07:50<17:40:45,  3.62it/s] 38%|███▊      | 140941/371472 [07:50<17:34:05,  3.65it/s] 38%|███▊      | 140942/371472 [07:50<16:57:50,  3.77it/s] 38%|███▊      | 140943/371472 [07:50<17:49:39,  3.59it/s] 38%|███▊      | 140944/371472 [07:51<19:00:38,  3.37it/s] 38%|███▊      | 140945/371472 [07:51<18:11:04,  3.52it/s] 38%|███▊      | 140946/371472 [07:51<20:04:42,  3.19it/s] 38%|███▊      | 140947/371472 [07:52<19:19:51,  3.31it/s] 38%|███▊      | 140948/371472 [07:52<18:43:35,  3.42it/s] 38%|███▊      | 140949/371472 [07:52<18:13:04,  3.51it/s] 38%|███▊      | 140950/371472 [07:52<18:00:22,  3.56it/s] 38%|███▊      | 140951/371472 [07:53<18:06:18,  3.54it/s] 38%|███▊      | 140952/371472 [07:53<17:47:27,  3.60it/s] 38%|███▊      | 140953/371472 [07:53<18:40:49,  3.43it/s] 38%|███▊      | 140954/371472 [07:54<18:53:37,  3.39it/s] 38%|███▊      | 140955/371472 [07:54<18:36:55,  3.44it/s] 38%|███▊      | 140956/371472 [07:54<18:13:51,  3.51it/s] 38%|███▊      | 140957/371472 [07:54<18:26:29,  3.47it/s] 38%|███▊      | 140958/371472 [07:55<18:13:23,  3.51it/s] 38%|███▊      | 140959/371472 [07:55<18:16:08,  3.50it/s] 38%|███▊      | 140960/371472 [07:55<17:42:45,  3.61it/s]                                                          {'loss': 3.2809, 'learning_rate': 6.587838565795427e-07, 'epoch': 6.07}
 38%|███▊      | 140960/371472 [07:55<17:42:45,  3.61it/s] 38%|███▊      | 140961/371472 [07:56<18:22:25,  3.48it/s] 38%|███▊      | 140962/371472 [07:56<17:50:37,  3.59it/s] 38%|███▊      | 140963/371472 [07:56<17:40:53,  3.62it/s] 38%|███▊      | 140964/371472 [07:56<18:03:02,  3.55it/s] 38%|███▊      | 140965/371472 [07:57<18:44:37,  3.42it/s] 38%|███▊      | 140966/371472 [07:57<18:26:45,  3.47it/s] 38%|███▊      | 140967/371472 [07:57<18:00:11,  3.56it/s] 38%|███▊      | 140968/371472 [07:58<17:30:20,  3.66it/s] 38%|███▊      | 140969/371472 [07:58<17:09:13,  3.73it/s] 38%|███▊      | 140970/371472 [07:58<17:22:02,  3.69it/s] 38%|███▊      | 140971/371472 [07:58<17:19:29,  3.70it/s] 38%|███▊      | 140972/371472 [07:59<17:44:40,  3.61it/s] 38%|███▊      | 140973/371472 [07:59<18:07:34,  3.53it/s] 38%|███▊      | 140974/371472 [07:59<18:29:10,  3.46it/s] 38%|███▊      | 140975/371472 [08:00<17:57:59,  3.56it/s] 38%|███▊      | 140976/371472 [08:00<19:41:14,  3.25it/s] 38%|███▊      | 140977/371472 [08:00<18:59:24,  3.37it/s] 38%|███▊      | 140978/371472 [08:00<18:03:05,  3.55it/s] 38%|███▊      | 140979/371472 [08:01<21:52:44,  2.93it/s] 38%|███▊      | 140980/371472 [08:01<21:28:55,  2.98it/s]                                                          {'loss': 3.3296, 'learning_rate': 6.587353746040638e-07, 'epoch': 6.07}
 38%|███▊      | 140980/371472 [08:01<21:28:55,  2.98it/s] 38%|███▊      | 140981/371472 [08:01<20:31:03,  3.12it/s] 38%|███▊      | 140982/371472 [08:02<19:42:22,  3.25it/s] 38%|███▊      | 140983/371472 [08:02<20:14:52,  3.16it/s] 38%|███▊      | 140984/371472 [08:02<19:47:17,  3.24it/s] 38%|███▊      | 140985/371472 [08:03<19:13:20,  3.33it/s] 38%|███▊      | 140986/371472 [08:03<18:50:06,  3.40it/s] 38%|███▊      | 140987/371472 [08:03<20:13:02,  3.17it/s] 38%|███▊      | 140988/371472 [08:04<19:24:20,  3.30it/s] 38%|███▊      | 140989/371472 [08:04<19:59:37,  3.20it/s] 38%|███▊      | 140990/371472 [08:04<19:28:05,  3.29it/s] 38%|███▊      | 140991/371472 [08:04<19:01:08,  3.37it/s] 38%|███▊      | 140992/371472 [08:05<18:22:02,  3.49it/s] 38%|███▊      | 140993/371472 [08:05<19:06:29,  3.35it/s] 38%|███▊      | 140994/371472 [08:05<19:10:51,  3.34it/s] 38%|███▊      | 140995/371472 [08:06<18:30:52,  3.46it/s] 38%|███▊      | 140996/371472 [08:06<19:03:14,  3.36it/s] 38%|███▊      | 140997/371472 [08:06<20:39:40,  3.10it/s] 38%|███▊      | 140998/371472 [08:07<19:25:27,  3.30it/s] 38%|███▊      | 140999/371472 [08:07<19:37:31,  3.26it/s] 38%|███▊      | 141000/371472 [08:07<19:01:31,  3.36it/s]                                                          {'loss': 3.3572, 'learning_rate': 6.58686892628585e-07, 'epoch': 6.07}
 38%|███▊      | 141000/371472 [08:07<19:01:31,  3.36it/s] 38%|███▊      | 141001/371472 [08:07<18:17:42,  3.50it/s] 38%|███▊      | 141002/371472 [08:08<18:25:56,  3.47it/s] 38%|███▊      | 141003/371472 [08:08<19:31:41,  3.28it/s] 38%|███▊      | 141004/371472 [08:08<18:47:56,  3.41it/s] 38%|███▊      | 141005/371472 [08:09<18:03:46,  3.54it/s] 38%|███▊      | 141006/371472 [08:09<17:54:53,  3.57it/s] 38%|███▊      | 141007/371472 [08:09<19:32:10,  3.28it/s] 38%|███▊      | 141008/371472 [08:10<20:24:43,  3.14it/s] 38%|███▊      | 141009/371472 [08:10<19:47:39,  3.23it/s] 38%|███▊      | 141010/371472 [08:10<19:13:22,  3.33it/s] 38%|███▊      | 141011/371472 [08:10<18:50:46,  3.40it/s] 38%|███▊      | 141012/371472 [08:11<19:50:59,  3.23it/s] 38%|███▊      | 141013/371472 [08:11<20:10:35,  3.17it/s] 38%|███▊      | 141014/371472 [08:11<20:09:20,  3.18it/s] 38%|███▊      | 141015/371472 [08:12<19:20:30,  3.31it/s] 38%|███▊      | 141016/371472 [08:12<19:50:10,  3.23it/s] 38%|███▊      | 141017/371472 [08:12<19:16:51,  3.32it/s] 38%|███▊      | 141018/371472 [08:13<18:18:10,  3.50it/s] 38%|███▊      | 141019/371472 [08:13<17:41:21,  3.62it/s] 38%|███▊      | 141020/371472 [08:13<17:46:29,  3.60it/s]                                                          {'loss': 3.3543, 'learning_rate': 6.586384106531061e-07, 'epoch': 6.07}
 38%|███▊      | 141020/371472 [08:13<17:46:29,  3.60it/s] 38%|███▊      | 141021/371472 [08:13<17:33:41,  3.65it/s] 38%|███▊      | 141022/371472 [08:14<17:33:29,  3.65it/s] 38%|███▊      | 141023/371472 [08:14<17:43:45,  3.61it/s] 38%|███▊      | 141024/371472 [08:14<17:22:33,  3.68it/s] 38%|███▊      | 141025/371472 [08:15<18:18:43,  3.50it/s] 38%|███▊      | 141026/371472 [08:15<18:30:48,  3.46it/s] 38%|███▊      | 141027/371472 [08:15<17:56:10,  3.57it/s] 38%|███▊      | 141028/371472 [08:15<17:22:32,  3.68it/s] 38%|███▊      | 141029/371472 [08:16<17:16:41,  3.70it/s] 38%|███▊      | 141030/371472 [08:16<17:51:28,  3.58it/s] 38%|███▊      | 141031/371472 [08:16<17:43:48,  3.61it/s] 38%|███▊      | 141032/371472 [08:16<17:40:41,  3.62it/s] 38%|███▊      | 141033/371472 [08:17<17:08:35,  3.73it/s] 38%|███▊      | 141034/371472 [08:17<18:37:28,  3.44it/s] 38%|███▊      | 141035/371472 [08:17<18:26:54,  3.47it/s] 38%|███▊      | 141036/371472 [08:18<18:19:42,  3.49it/s] 38%|███▊      | 141037/371472 [08:18<18:09:52,  3.52it/s] 38%|███▊      | 141038/371472 [08:18<17:49:48,  3.59it/s] 38%|███▊      | 141039/371472 [08:18<17:57:50,  3.56it/s] 38%|███▊      | 141040/371472 [08:19<17:34:57,  3.64it/s]                                                          {'loss': 3.2903, 'learning_rate': 6.585899286776271e-07, 'epoch': 6.07}
 38%|███▊      | 141040/371472 [08:19<17:34:57,  3.64it/s] 38%|███▊      | 141041/371472 [08:19<17:28:22,  3.66it/s] 38%|███▊      | 141042/371472 [08:19<19:07:54,  3.35it/s] 38%|███▊      | 141043/371472 [08:20<18:20:33,  3.49it/s] 38%|███▊      | 141044/371472 [08:20<18:19:17,  3.49it/s] 38%|███▊      | 141045/371472 [08:20<18:17:40,  3.50it/s] 38%|███▊      | 141046/371472 [08:20<18:43:19,  3.42it/s] 38%|███▊      | 141047/371472 [08:21<18:38:05,  3.43it/s] 38%|███▊      | 141048/371472 [08:21<18:11:01,  3.52it/s] 38%|███▊      | 141049/371472 [08:21<18:18:09,  3.50it/s] 38%|███▊      | 141050/371472 [08:22<17:59:05,  3.56it/s] 38%|███▊      | 141051/371472 [08:22<18:01:07,  3.55it/s] 38%|███▊      | 141052/371472 [08:22<17:33:27,  3.65it/s] 38%|███▊      | 141053/371472 [08:22<17:25:35,  3.67it/s] 38%|███▊      | 141054/371472 [08:23<17:07:06,  3.74it/s] 38%|███▊      | 141055/371472 [08:23<17:07:24,  3.74it/s] 38%|███▊      | 141056/371472 [08:23<16:31:19,  3.87it/s] 38%|███▊      | 141057/371472 [08:23<16:57:13,  3.78it/s] 38%|███▊      | 141058/371472 [08:24<16:25:25,  3.90it/s] 38%|███▊      | 141059/371472 [08:24<16:19:10,  3.92it/s] 38%|███▊      | 141060/371472 [08:24<16:45:33,  3.82it/s]                                                          {'loss': 3.331, 'learning_rate': 6.585414467021483e-07, 'epoch': 6.08}
 38%|███▊      | 141060/371472 [08:24<16:45:33,  3.82it/s] 38%|███▊      | 141061/371472 [08:24<17:48:26,  3.59it/s] 38%|███▊      | 141062/371472 [08:25<17:33:06,  3.65it/s] 38%|███▊      | 141063/371472 [08:25<18:28:49,  3.46it/s] 38%|███▊      | 141064/371472 [08:25<18:00:22,  3.55it/s] 38%|███▊      | 141065/371472 [08:26<17:12:37,  3.72it/s] 38%|███▊      | 141066/371472 [08:26<17:34:04,  3.64it/s] 38%|███▊      | 141067/371472 [08:26<18:00:38,  3.55it/s] 38%|███▊      | 141068/371472 [08:26<18:06:03,  3.54it/s] 38%|███▊      | 141069/371472 [08:27<17:45:26,  3.60it/s] 38%|███▊      | 141070/371472 [08:27<17:37:43,  3.63it/s] 38%|███▊      | 141071/371472 [08:27<17:33:09,  3.65it/s] 38%|███▊      | 141072/371472 [08:28<17:08:53,  3.73it/s] 38%|███▊      | 141073/371472 [08:28<17:18:33,  3.70it/s] 38%|███▊      | 141074/371472 [08:28<17:33:30,  3.64it/s] 38%|███▊      | 141075/371472 [08:28<17:29:04,  3.66it/s] 38%|███▊      | 141076/371472 [08:29<18:07:32,  3.53it/s] 38%|███▊      | 141077/371472 [08:29<18:04:10,  3.54it/s] 38%|███▊      | 141078/371472 [08:29<18:22:00,  3.48it/s] 38%|███▊      | 141079/371472 [08:30<18:22:30,  3.48it/s] 38%|███▊      | 141080/371472 [08:30<18:32:30,  3.45it/s]                                                          {'loss': 3.3977, 'learning_rate': 6.584929647266694e-07, 'epoch': 6.08}
 38%|███▊      | 141080/371472 [08:30<18:32:30,  3.45it/s] 38%|███▊      | 141081/371472 [08:30<18:25:43,  3.47it/s] 38%|███▊      | 141082/371472 [08:30<17:45:52,  3.60it/s] 38%|███▊      | 141083/371472 [08:31<17:05:39,  3.74it/s] 38%|███▊      | 141084/371472 [08:31<16:45:24,  3.82it/s] 38%|███▊      | 141085/371472 [08:31<17:00:28,  3.76it/s] 38%|███▊      | 141086/371472 [08:32<19:41:25,  3.25it/s] 38%|███▊      | 141087/371472 [08:32<18:44:44,  3.41it/s] 38%|███▊      | 141088/371472 [08:32<17:55:21,  3.57it/s] 38%|███▊      | 141089/371472 [08:32<17:28:57,  3.66it/s] 38%|███▊      | 141090/371472 [08:33<17:33:15,  3.65it/s] 38%|███▊      | 141091/371472 [08:33<17:33:32,  3.64it/s] 38%|███▊      | 141092/371472 [08:33<17:14:58,  3.71it/s] 38%|███▊      | 141093/371472 [08:33<17:25:42,  3.67it/s] 38%|███▊      | 141094/371472 [08:34<17:23:48,  3.68it/s] 38%|███▊      | 141095/371472 [08:34<17:59:38,  3.56it/s] 38%|███▊      | 141096/371472 [08:34<17:44:37,  3.61it/s] 38%|███▊      | 141097/371472 [08:34<17:40:01,  3.62it/s] 38%|███▊      | 141098/371472 [08:35<17:32:01,  3.65it/s] 38%|███▊      | 141099/371472 [08:35<18:12:23,  3.51it/s] 38%|███▊      | 141100/371472 [08:35<18:01:07,  3.55it/s]                                                          {'loss': 3.3484, 'learning_rate': 6.584444827511904e-07, 'epoch': 6.08}
 38%|███▊      | 141100/371472 [08:35<18:01:07,  3.55it/s] 38%|███▊      | 141101/371472 [08:36<18:47:37,  3.40it/s] 38%|███▊      | 141102/371472 [08:36<18:17:02,  3.50it/s] 38%|███▊      | 141103/371472 [08:36<18:25:48,  3.47it/s] 38%|███▊      | 141104/371472 [08:36<18:00:28,  3.55it/s] 38%|███▊      | 141105/371472 [08:37<18:23:09,  3.48it/s] 38%|███▊      | 141106/371472 [08:37<17:59:36,  3.56it/s] 38%|███▊      | 141107/371472 [08:37<17:24:55,  3.67it/s] 38%|███▊      | 141108/371472 [08:38<17:20:35,  3.69it/s] 38%|███▊      | 141109/371472 [08:38<18:29:43,  3.46it/s] 38%|███▊      | 141110/371472 [08:38<18:41:19,  3.42it/s] 38%|███▊      | 141111/371472 [08:38<17:42:00,  3.62it/s] 38%|███▊      | 141112/371472 [08:39<18:00:49,  3.55it/s] 38%|███▊      | 141113/371472 [08:39<18:16:05,  3.50it/s] 38%|███▊      | 141114/371472 [08:39<17:47:47,  3.60it/s] 38%|███▊      | 141115/371472 [08:40<19:23:54,  3.30it/s] 38%|███▊      | 141116/371472 [08:40<18:33:35,  3.45it/s] 38%|███▊      | 141117/371472 [08:40<19:17:47,  3.32it/s] 38%|███▊      | 141118/371472 [08:41<19:11:57,  3.33it/s] 38%|███▊      | 141119/371472 [08:41<19:45:05,  3.24it/s] 38%|███▊      | 141120/371472 [08:41<18:36:33,  3.44it/s]                                                          {'loss': 3.1741, 'learning_rate': 6.583960007757115e-07, 'epoch': 6.08}
 38%|███▊      | 141120/371472 [08:41<18:36:33,  3.44it/s] 38%|███▊      | 141121/371472 [08:41<18:10:12,  3.52it/s] 38%|███▊      | 141122/371472 [08:42<18:16:06,  3.50it/s] 38%|███▊      | 141123/371472 [08:42<17:37:39,  3.63it/s] 38%|███▊      | 141124/371472 [08:42<17:35:33,  3.64it/s] 38%|███▊      | 141125/371472 [08:42<17:12:54,  3.72it/s] 38%|███▊      | 141126/371472 [08:43<17:14:20,  3.71it/s] 38%|███▊      | 141127/371472 [08:43<17:29:56,  3.66it/s] 38%|███▊      | 141128/371472 [08:43<17:05:18,  3.74it/s] 38%|███▊      | 141129/371472 [08:44<17:33:11,  3.65it/s] 38%|███▊      | 141130/371472 [08:44<17:04:58,  3.75it/s] 38%|███▊      | 141131/371472 [08:44<18:41:47,  3.42it/s] 38%|███▊      | 141132/371472 [08:44<18:04:27,  3.54it/s] 38%|███▊      | 141133/371472 [08:45<17:53:08,  3.58it/s] 38%|███▊      | 141134/371472 [08:45<18:24:31,  3.48it/s] 38%|███▊      | 141135/371472 [08:45<18:01:50,  3.55it/s] 38%|███▊      | 141136/371472 [08:46<18:03:49,  3.54it/s] 38%|███▊      | 141137/371472 [08:46<19:03:54,  3.36it/s] 38%|███▊      | 141138/371472 [08:46<18:07:31,  3.53it/s] 38%|███▊      | 141139/371472 [08:46<18:49:23,  3.40it/s] 38%|███▊      | 141140/371472 [08:47<18:50:53,  3.39it/s]                                                          {'loss': 3.4229, 'learning_rate': 6.583475188002327e-07, 'epoch': 6.08}
 38%|███▊      | 141140/371472 [08:47<18:50:53,  3.39it/s] 38%|███▊      | 141141/371472 [08:47<20:04:11,  3.19it/s] 38%|███▊      | 141142/371472 [08:47<19:06:45,  3.35it/s] 38%|███▊      | 141143/371472 [08:48<18:26:30,  3.47it/s] 38%|███▊      | 141144/371472 [08:48<17:28:16,  3.66it/s] 38%|███▊      | 141145/371472 [08:48<17:08:23,  3.73it/s] 38%|███▊      | 141146/371472 [08:48<17:34:04,  3.64it/s] 38%|███▊      | 141147/371472 [08:49<18:20:23,  3.49it/s] 38%|███▊      | 141148/371472 [08:49<18:17:30,  3.50it/s] 38%|███▊      | 141149/371472 [08:49<18:08:28,  3.53it/s] 38%|███▊      | 141150/371472 [08:50<17:34:59,  3.64it/s] 38%|███▊      | 141151/371472 [08:50<17:00:40,  3.76it/s] 38%|███▊      | 141152/371472 [08:50<17:01:17,  3.76it/s] 38%|███▊      | 141153/371472 [08:50<18:09:22,  3.52it/s] 38%|███▊      | 141154/371472 [08:51<17:50:28,  3.59it/s] 38%|███▊      | 141155/371472 [08:51<17:32:03,  3.65it/s] 38%|███▊      | 141156/371472 [08:51<17:44:12,  3.61it/s] 38%|███▊      | 141157/371472 [08:51<18:01:31,  3.55it/s] 38%|███▊      | 141158/371472 [08:52<17:50:32,  3.59it/s] 38%|███▊      | 141159/371472 [08:52<17:39:50,  3.62it/s] 38%|███▊      | 141160/371472 [08:52<18:23:44,  3.48it/s]                                                          {'loss': 3.4269, 'learning_rate': 6.582990368247538e-07, 'epoch': 6.08}
 38%|███▊      | 141160/371472 [08:52<18:23:44,  3.48it/s] 38%|███▊      | 141161/371472 [08:53<18:03:21,  3.54it/s] 38%|███▊      | 141162/371472 [08:53<17:45:55,  3.60it/s] 38%|███▊      | 141163/371472 [08:53<20:26:11,  3.13it/s] 38%|███▊      | 141164/371472 [08:54<19:35:54,  3.26it/s] 38%|███▊      | 141165/371472 [08:54<18:38:18,  3.43it/s] 38%|███▊      | 141166/371472 [08:54<18:44:17,  3.41it/s] 38%|███▊      | 141167/371472 [08:55<20:53:59,  3.06it/s] 38%|███▊      | 141168/371472 [08:55<21:16:57,  3.01it/s] 38%|███▊      | 141169/371472 [08:55<20:24:49,  3.13it/s] 38%|███▊      | 141170/371472 [08:56<22:03:32,  2.90it/s] 38%|███▊      | 141171/371472 [08:56<20:56:18,  3.06it/s] 38%|███▊      | 141172/371472 [08:56<19:53:24,  3.22it/s] 38%|███▊      | 141173/371472 [08:56<19:24:00,  3.30it/s] 38%|███▊      | 141174/371472 [08:57<18:44:09,  3.41it/s] 38%|███▊      | 141175/371472 [08:57<18:18:38,  3.49it/s] 38%|███▊      | 141176/371472 [08:57<19:24:34,  3.30it/s] 38%|███▊      | 141177/371472 [08:58<20:25:27,  3.13it/s] 38%|███▊      | 141178/371472 [08:58<19:31:22,  3.28it/s] 38%|███▊      | 141179/371472 [08:58<18:42:33,  3.42it/s] 38%|███▊      | 141180/371472 [08:59<19:41:23,  3.25it/s]                                                          {'loss': 3.3862, 'learning_rate': 6.582505548492748e-07, 'epoch': 6.08}
 38%|███▊      | 141180/371472 [08:59<19:41:23,  3.25it/s] 38%|███▊      | 141181/371472 [08:59<19:52:51,  3.22it/s] 38%|███▊      | 141182/371472 [08:59<19:12:03,  3.33it/s] 38%|███▊      | 141183/371472 [08:59<19:10:26,  3.34it/s] 38%|███▊      | 141184/371472 [09:00<19:21:23,  3.30it/s] 38%|███▊      | 141185/371472 [09:00<20:02:03,  3.19it/s] 38%|███▊      | 141186/371472 [09:00<18:51:33,  3.39it/s] 38%|███▊      | 141187/371472 [09:01<20:30:54,  3.12it/s] 38%|███▊      | 141188/371472 [09:01<19:24:08,  3.30it/s] 38%|███▊      | 141189/371472 [09:01<18:30:07,  3.46it/s] 38%|███▊      | 141190/371472 [09:01<18:00:48,  3.55it/s] 38%|███▊      | 141191/371472 [09:02<18:22:36,  3.48it/s] 38%|███▊      | 141192/371472 [09:02<18:19:03,  3.49it/s] 38%|███▊      | 141193/371472 [09:02<18:00:37,  3.55it/s] 38%|███▊      | 141194/371472 [09:03<18:17:25,  3.50it/s] 38%|███▊      | 141195/371472 [09:03<18:27:35,  3.47it/s] 38%|███▊      | 141196/371472 [09:03<18:07:03,  3.53it/s] 38%|███▊      | 141197/371472 [09:03<18:12:28,  3.51it/s] 38%|███▊      | 141198/371472 [09:04<19:24:06,  3.30it/s] 38%|███▊      | 141199/371472 [09:04<19:53:16,  3.22it/s] 38%|███▊      | 141200/371472 [09:04<19:22:04,  3.30it/s]                                                          {'loss': 3.1077, 'learning_rate': 6.58202072873796e-07, 'epoch': 6.08}
 38%|███▊      | 141200/371472 [09:04<19:22:04,  3.30it/s] 38%|███▊      | 141201/371472 [09:05<19:23:37,  3.30it/s] 38%|███▊      | 141202/371472 [09:05<18:29:18,  3.46it/s] 38%|███▊      | 141203/371472 [09:05<19:54:26,  3.21it/s] 38%|███▊      | 141204/371472 [09:06<21:37:40,  2.96it/s] 38%|███▊      | 141205/371472 [09:06<20:08:16,  3.18it/s] 38%|███▊      | 141206/371472 [09:06<19:41:57,  3.25it/s] 38%|███▊      | 141207/371472 [09:07<18:55:45,  3.38it/s] 38%|███▊      | 141208/371472 [09:07<21:44:43,  2.94it/s] 38%|███▊      | 141209/371472 [09:07<20:02:43,  3.19it/s] 38%|███▊      | 141210/371472 [09:08<18:43:10,  3.42it/s] 38%|███▊      | 141211/371472 [09:08<18:18:01,  3.50it/s] 38%|███▊      | 141212/371472 [09:08<22:07:51,  2.89it/s] 38%|███▊      | 141213/371472 [09:09<20:48:19,  3.07it/s] 38%|███▊      | 141214/371472 [09:09<21:34:54,  2.96it/s] 38%|███▊      | 141215/371472 [09:09<21:53:35,  2.92it/s] 38%|███▊      | 141216/371472 [09:10<20:38:52,  3.10it/s] 38%|███▊      | 141217/371472 [09:10<19:47:33,  3.23it/s] 38%|███▊      | 141218/371472 [09:10<20:28:22,  3.12it/s] 38%|███▊      | 141219/371472 [09:11<20:46:32,  3.08it/s] 38%|███▊      | 141220/371472 [09:11<19:53:29,  3.22it/s]                                                          {'loss': 3.0323, 'learning_rate': 6.581535908983172e-07, 'epoch': 6.08}
 38%|███▊      | 141220/371472 [09:11<19:53:29,  3.22it/s] 38%|███▊      | 141221/371472 [09:11<19:30:47,  3.28it/s] 38%|███▊      | 141222/371472 [09:11<18:18:58,  3.49it/s] 38%|███▊      | 141223/371472 [09:12<17:48:32,  3.59it/s] 38%|███▊      | 141224/371472 [09:12<17:31:05,  3.65it/s] 38%|███▊      | 141225/371472 [09:12<18:03:11,  3.54it/s] 38%|███▊      | 141226/371472 [09:12<18:07:12,  3.53it/s] 38%|███▊      | 141227/371472 [09:13<18:35:13,  3.44it/s] 38%|███▊      | 141228/371472 [09:13<17:53:45,  3.57it/s] 38%|███▊      | 141229/371472 [09:13<17:22:07,  3.68it/s] 38%|███▊      | 141230/371472 [09:14<16:49:48,  3.80it/s] 38%|███▊      | 141231/371472 [09:14<16:40:28,  3.84it/s] 38%|███▊      | 141232/371472 [09:14<16:46:21,  3.81it/s] 38%|███▊      | 141233/371472 [09:14<16:42:21,  3.83it/s] 38%|███▊      | 141234/371472 [09:15<17:00:31,  3.76it/s] 38%|███▊      | 141235/371472 [09:15<18:28:31,  3.46it/s] 38%|███▊      | 141236/371472 [09:15<19:03:35,  3.36it/s] 38%|███▊      | 141237/371472 [09:15<18:24:18,  3.47it/s] 38%|███▊      | 141238/371472 [09:16<18:32:19,  3.45it/s] 38%|███▊      | 141239/371472 [09:16<18:10:11,  3.52it/s] 38%|███▊      | 141240/371472 [09:16<17:59:11,  3.56it/s]                                                          {'loss': 3.2805, 'learning_rate': 6.58105108922838e-07, 'epoch': 6.08}
 38%|███▊      | 141240/371472 [09:16<17:59:11,  3.56it/s] 38%|███▊      | 141241/371472 [09:17<18:43:15,  3.42it/s] 38%|███▊      | 141242/371472 [09:17<19:35:56,  3.26it/s] 38%|███▊      | 141243/371472 [09:17<19:20:44,  3.31it/s] 38%|███▊      | 141244/371472 [09:18<18:28:11,  3.46it/s] 38%|███▊      | 141245/371472 [09:18<18:46:19,  3.41it/s] 38%|███▊      | 141246/371472 [09:18<19:12:37,  3.33it/s] 38%|███▊      | 141247/371472 [09:18<18:31:14,  3.45it/s] 38%|███▊      | 141248/371472 [09:19<19:33:55,  3.27it/s] 38%|███▊      | 141249/371472 [09:19<19:29:53,  3.28it/s] 38%|███▊      | 141250/371472 [09:19<19:05:04,  3.35it/s] 38%|███▊      | 141251/371472 [09:20<18:08:46,  3.52it/s] 38%|███▊      | 141252/371472 [09:20<19:56:17,  3.21it/s] 38%|███▊      | 141253/371472 [09:20<19:41:25,  3.25it/s] 38%|███▊      | 141254/371472 [09:21<18:54:42,  3.38it/s] 38%|███▊      | 141255/371472 [09:21<18:55:49,  3.38it/s] 38%|███▊      | 141256/371472 [09:21<18:42:34,  3.42it/s] 38%|███▊      | 141257/371472 [09:21<18:40:19,  3.42it/s] 38%|███▊      | 141258/371472 [09:22<18:06:00,  3.53it/s] 38%|███▊      | 141259/371472 [09:22<18:00:56,  3.55it/s] 38%|███▊      | 141260/371472 [09:22<17:41:03,  3.62it/s]                                                          {'loss': 3.1306, 'learning_rate': 6.580566269473592e-07, 'epoch': 6.08}
 38%|███▊      | 141260/371472 [09:22<17:41:03,  3.62it/s] 38%|███▊      | 141261/371472 [09:23<18:51:53,  3.39it/s] 38%|███▊      | 141262/371472 [09:23<18:25:28,  3.47it/s] 38%|███▊      | 141263/371472 [09:23<18:19:50,  3.49it/s] 38%|███▊      | 141264/371472 [09:23<18:00:04,  3.55it/s] 38%|███▊      | 141265/371472 [09:24<17:32:59,  3.64it/s] 38%|███▊      | 141266/371472 [09:24<17:20:52,  3.69it/s] 38%|███▊      | 141267/371472 [09:24<18:09:30,  3.52it/s] 38%|███▊      | 141268/371472 [09:25<18:41:55,  3.42it/s] 38%|███▊      | 141269/371472 [09:25<18:05:45,  3.53it/s] 38%|███▊      | 141270/371472 [09:25<17:42:43,  3.61it/s] 38%|███▊      | 141271/371472 [09:25<18:34:39,  3.44it/s] 38%|███▊      | 141272/371472 [09:26<17:46:26,  3.60it/s] 38%|███▊      | 141273/371472 [09:26<17:16:13,  3.70it/s] 38%|███▊      | 141274/371472 [09:26<17:37:40,  3.63it/s] 38%|███▊      | 141275/371472 [09:26<18:38:08,  3.43it/s] 38%|███▊      | 141276/371472 [09:27<19:17:15,  3.32it/s] 38%|███▊      | 141277/371472 [09:27<18:30:38,  3.45it/s] 38%|███▊      | 141278/371472 [09:27<19:15:08,  3.32it/s] 38%|███▊      | 141279/371472 [09:28<19:08:04,  3.34it/s] 38%|███▊      | 141280/371472 [09:28<18:15:08,  3.50it/s]                                                          {'loss': 3.2355, 'learning_rate': 6.580081449718804e-07, 'epoch': 6.09}
 38%|███▊      | 141280/371472 [09:28<18:15:08,  3.50it/s] 38%|███▊      | 141281/371472 [09:28<18:12:07,  3.51it/s] 38%|███▊      | 141282/371472 [09:29<18:13:15,  3.51it/s] 38%|███▊      | 141283/371472 [09:29<18:08:51,  3.52it/s] 38%|███▊      | 141284/371472 [09:29<18:18:15,  3.49it/s] 38%|███▊      | 141285/371472 [09:29<18:39:48,  3.43it/s] 38%|███▊      | 141286/371472 [09:30<17:57:00,  3.56it/s] 38%|███▊      | 141287/371472 [09:30<17:56:15,  3.56it/s] 38%|███▊      | 141288/371472 [09:30<17:41:03,  3.62it/s] 38%|███▊      | 141289/371472 [09:30<17:21:38,  3.68it/s] 38%|███▊      | 141290/371472 [09:31<17:12:43,  3.71it/s] 38%|███▊      | 141291/371472 [09:31<18:50:08,  3.39it/s] 38%|███▊      | 141292/371472 [09:31<17:56:48,  3.56it/s] 38%|███▊      | 141293/371472 [09:32<17:37:38,  3.63it/s] 38%|███▊      | 141294/371472 [09:32<17:45:23,  3.60it/s] 38%|███▊      | 141295/371472 [09:32<17:51:18,  3.58it/s] 38%|███▊      | 141296/371472 [09:32<18:08:35,  3.52it/s] 38%|███▊      | 141297/371472 [09:33<17:27:43,  3.66it/s] 38%|███▊      | 141298/371472 [09:33<18:11:40,  3.51it/s] 38%|███▊      | 141299/371472 [09:33<18:15:09,  3.50it/s] 38%|███▊      | 141300/371472 [09:34<18:02:15,  3.54it/s]                                                          {'loss': 3.2079, 'learning_rate': 6.579596629964016e-07, 'epoch': 6.09}
 38%|███▊      | 141300/371472 [09:34<18:02:15,  3.54it/s] 38%|███▊      | 141301/371472 [09:34<17:22:54,  3.68it/s] 38%|███▊      | 141302/371472 [09:34<17:26:24,  3.67it/s] 38%|███▊      | 141303/371472 [09:34<18:24:15,  3.47it/s] 38%|███▊      | 141304/371472 [09:35<18:33:17,  3.45it/s] 38%|███▊      | 141305/371472 [09:35<19:10:29,  3.33it/s] 38%|███▊      | 141306/371472 [09:35<19:17:56,  3.31it/s] 38%|███▊      | 141307/371472 [09:36<19:14:40,  3.32it/s] 38%|███▊      | 141308/371472 [09:36<18:42:06,  3.42it/s] 38%|███▊      | 141309/371472 [09:36<18:16:29,  3.50it/s] 38%|███▊      | 141310/371472 [09:36<18:10:06,  3.52it/s] 38%|███▊      | 141311/371472 [09:37<18:04:20,  3.54it/s] 38%|███▊      | 141312/371472 [09:37<19:39:09,  3.25it/s] 38%|███▊      | 141313/371472 [09:37<19:07:51,  3.34it/s] 38%|███▊      | 141314/371472 [09:38<18:49:50,  3.40it/s] 38%|███▊      | 141315/371472 [09:38<17:39:44,  3.62it/s] 38%|███▊      | 141316/371472 [09:38<20:03:13,  3.19it/s] 38%|███▊      | 141317/371472 [09:39<19:00:36,  3.36it/s] 38%|███▊      | 141318/371472 [09:39<18:31:30,  3.45it/s] 38%|███▊      | 141319/371472 [09:39<18:55:31,  3.38it/s] 38%|███▊      | 141320/371472 [09:40<20:29:34,  3.12it/s]                                                          {'loss': 3.3066, 'learning_rate': 6.579111810209227e-07, 'epoch': 6.09}
 38%|███▊      | 141320/371472 [09:40<20:29:34,  3.12it/s] 38%|███▊      | 141321/371472 [09:40<19:47:46,  3.23it/s] 38%|███▊      | 141322/371472 [09:40<18:53:15,  3.38it/s] 38%|███▊      | 141323/371472 [09:40<18:57:34,  3.37it/s] 38%|███▊      | 141324/371472 [09:41<18:32:02,  3.45it/s] 38%|███▊      | 141325/371472 [09:41<18:06:59,  3.53it/s] 38%|███▊      | 141326/371472 [09:41<18:38:06,  3.43it/s] 38%|███▊      | 141327/371472 [09:41<17:50:09,  3.58it/s] 38%|███▊      | 141328/371472 [09:42<17:44:17,  3.60it/s] 38%|███▊      | 141329/371472 [09:42<18:34:57,  3.44it/s] 38%|███▊      | 141330/371472 [09:42<18:44:52,  3.41it/s] 38%|███▊      | 141331/371472 [09:43<18:04:58,  3.54it/s] 38%|███▊      | 141332/371472 [09:43<19:02:27,  3.36it/s] 38%|███▊      | 141333/371472 [09:43<18:42:07,  3.42it/s] 38%|███▊      | 141334/371472 [09:44<18:53:39,  3.38it/s] 38%|███▊      | 141335/371472 [09:44<17:53:44,  3.57it/s] 38%|███▊      | 141336/371472 [09:44<17:32:23,  3.64it/s] 38%|███▊      | 141337/371472 [09:44<17:29:56,  3.65it/s] 38%|███▊      | 141338/371472 [09:45<17:48:02,  3.59it/s] 38%|███▊      | 141339/371472 [09:45<17:22:54,  3.68it/s] 38%|███▊      | 141340/371472 [09:45<17:06:02,  3.74it/s]                                                          {'loss': 3.2887, 'learning_rate': 6.578626990454438e-07, 'epoch': 6.09}
 38%|███▊      | 141340/371472 [09:45<17:06:02,  3.74it/s] 38%|███▊      | 141341/371472 [09:46<20:18:44,  3.15it/s] 38%|███▊      | 141342/371472 [09:46<19:40:44,  3.25it/s] 38%|███▊      | 141343/371472 [09:46<19:15:26,  3.32it/s] 38%|███▊      | 141344/371472 [09:46<18:32:55,  3.45it/s] 38%|███▊      | 141345/371472 [09:47<18:57:18,  3.37it/s] 38%|███▊      | 141346/371472 [09:47<18:45:31,  3.41it/s] 38%|███▊      | 141347/371472 [09:47<18:29:15,  3.46it/s] 38%|███▊      | 141348/371472 [09:48<18:37:08,  3.43it/s] 38%|███▊      | 141349/371472 [09:48<18:25:04,  3.47it/s] 38%|███▊      | 141350/371472 [09:48<18:08:10,  3.52it/s] 38%|███▊      | 141351/371472 [09:48<18:00:04,  3.55it/s] 38%|███▊      | 141352/371472 [09:49<17:41:04,  3.61it/s] 38%|███▊      | 141353/371472 [09:49<18:45:46,  3.41it/s] 38%|███▊      | 141354/371472 [09:49<17:58:17,  3.56it/s] 38%|███▊      | 141355/371472 [09:50<17:54:03,  3.57it/s] 38%|███▊      | 141356/371472 [09:50<17:43:42,  3.61it/s] 38%|███▊      | 141357/371472 [09:50<17:30:18,  3.65it/s] 38%|███▊      | 141358/371472 [09:50<17:49:37,  3.59it/s] 38%|███▊      | 141359/371472 [09:51<18:41:14,  3.42it/s] 38%|███▊      | 141360/371472 [09:51<18:03:55,  3.54it/s]                                                          {'loss': 3.2185, 'learning_rate': 6.578142170699648e-07, 'epoch': 6.09}
 38%|███▊      | 141360/371472 [09:51<18:03:55,  3.54it/s] 38%|███▊      | 141361/371472 [09:51<18:29:13,  3.46it/s] 38%|███▊      | 141362/371472 [09:51<17:41:02,  3.61it/s] 38%|███▊      | 141363/371472 [09:52<18:09:01,  3.52it/s] 38%|███▊      | 141364/371472 [09:52<18:16:20,  3.50it/s] 38%|███▊      | 141365/371472 [09:52<17:40:56,  3.61it/s] 38%|███▊      | 141366/371472 [09:53<17:59:11,  3.55it/s] 38%|███▊      | 141367/371472 [09:53<17:29:13,  3.66it/s] 38%|███▊      | 141368/371472 [09:53<16:50:38,  3.79it/s] 38%|███▊      | 141369/371472 [09:54<19:07:28,  3.34it/s] 38%|███▊      | 141370/371472 [09:54<18:56:18,  3.37it/s] 38%|███▊      | 141371/371472 [09:54<18:13:46,  3.51it/s] 38%|███▊      | 141372/371472 [09:54<18:46:35,  3.40it/s] 38%|███▊      | 141373/371472 [09:55<18:11:03,  3.51it/s] 38%|███▊      | 141374/371472 [09:55<19:25:13,  3.29it/s] 38%|███▊      | 141375/371472 [09:55<18:28:05,  3.46it/s] 38%|███▊      | 141376/371472 [09:56<18:55:19,  3.38it/s] 38%|███▊      | 141377/371472 [09:56<18:26:19,  3.47it/s] 38%|███▊      | 141378/371472 [09:56<18:01:27,  3.55it/s] 38%|███▊      | 141379/371472 [09:56<17:49:08,  3.59it/s] 38%|███▊      | 141380/371472 [09:57<17:32:00,  3.65it/s]                                                          {'loss': 3.4925, 'learning_rate': 6.57765735094486e-07, 'epoch': 6.09}
 38%|███▊      | 141380/371472 [09:57<17:32:00,  3.65it/s] 38%|███▊      | 141381/371472 [09:57<18:15:54,  3.50it/s] 38%|███▊      | 141382/371472 [09:57<19:18:45,  3.31it/s] 38%|███▊      | 141383/371472 [09:58<19:14:44,  3.32it/s] 38%|███▊      | 141384/371472 [09:58<18:56:14,  3.37it/s] 38%|███▊      | 141385/371472 [09:58<18:22:46,  3.48it/s] 38%|███▊      | 141386/371472 [09:58<18:28:28,  3.46it/s] 38%|███▊      | 141387/371472 [09:59<19:10:43,  3.33it/s] 38%|███▊      | 141388/371472 [09:59<19:24:22,  3.29it/s] 38%|███▊      | 141389/371472 [09:59<21:10:24,  3.02it/s] 38%|███▊      | 141390/371472 [10:00<20:29:06,  3.12it/s] 38%|███▊      | 141391/371472 [10:00<20:06:59,  3.18it/s] 38%|███▊      | 141392/371472 [10:00<18:51:18,  3.39it/s] 38%|███▊      | 141393/371472 [10:01<17:53:41,  3.57it/s] 38%|███▊      | 141394/371472 [10:01<17:54:01,  3.57it/s] 38%|███▊      | 141395/371472 [10:01<18:11:31,  3.51it/s] 38%|███▊      | 141396/371472 [10:01<18:17:03,  3.50it/s] 38%|███▊      | 141397/371472 [10:02<17:29:50,  3.65it/s] 38%|███▊      | 141398/371472 [10:02<18:31:20,  3.45it/s] 38%|███▊      | 141399/371472 [10:02<18:31:47,  3.45it/s] 38%|███▊      | 141400/371472 [10:03<18:29:59,  3.45it/s]                                                          {'loss': 3.3178, 'learning_rate': 6.57717253119007e-07, 'epoch': 6.09}
 38%|███▊      | 141400/371472 [10:03<18:29:59,  3.45it/s] 38%|███▊      | 141401/371472 [10:03<18:22:41,  3.48it/s] 38%|███▊      | 141402/371472 [10:03<18:09:55,  3.52it/s] 38%|███▊      | 141403/371472 [10:03<17:43:33,  3.61it/s] 38%|███▊      | 141404/371472 [10:04<17:40:47,  3.61it/s] 38%|███▊      | 141405/371472 [10:04<19:37:48,  3.26it/s] 38%|███▊      | 141406/371472 [10:04<18:40:00,  3.42it/s] 38%|███▊      | 141407/371472 [10:05<17:53:22,  3.57it/s] 38%|███▊      | 141408/371472 [10:05<19:23:36,  3.30it/s] 38%|███▊      | 141409/371472 [10:05<21:29:33,  2.97it/s] 38%|███▊      | 141410/371472 [10:06<20:20:28,  3.14it/s] 38%|███▊      | 141411/371472 [10:06<21:08:46,  3.02it/s] 38%|███▊      | 141412/371472 [10:06<20:26:07,  3.13it/s] 38%|███▊      | 141413/371472 [10:06<18:59:13,  3.37it/s] 38%|███▊      | 141414/371472 [10:07<19:59:05,  3.20it/s] 38%|███▊      | 141415/371472 [10:07<19:23:39,  3.30it/s] 38%|███▊      | 141416/371472 [10:07<18:58:24,  3.37it/s] 38%|███▊      | 141417/371472 [10:08<18:47:40,  3.40it/s] 38%|███▊      | 141418/371472 [10:08<19:15:26,  3.32it/s] 38%|███▊      | 141419/371472 [10:08<19:31:28,  3.27it/s] 38%|███▊      | 141420/371472 [10:09<20:50:09,  3.07it/s]                                                          {'loss': 3.3455, 'learning_rate': 6.576687711435281e-07, 'epoch': 6.09}
 38%|███▊      | 141420/371472 [10:09<20:50:09,  3.07it/s] 38%|███▊      | 141421/371472 [10:09<19:56:10,  3.21it/s] 38%|███▊      | 141422/371472 [10:09<19:42:41,  3.24it/s] 38%|███▊      | 141423/371472 [10:10<18:49:22,  3.39it/s] 38%|███▊      | 141424/371472 [10:10<19:30:39,  3.28it/s] 38%|███▊      | 141425/371472 [10:10<18:43:56,  3.41it/s] 38%|███▊      | 141426/371472 [10:10<18:37:32,  3.43it/s] 38%|███▊      | 141427/371472 [10:11<18:04:51,  3.53it/s] 38%|███▊      | 141428/371472 [10:11<18:57:54,  3.37it/s] 38%|███▊      | 141429/371472 [10:11<19:10:14,  3.33it/s] 38%|███▊      | 141430/371472 [10:12<21:03:06,  3.04it/s] 38%|███▊      | 141431/371472 [10:12<19:32:13,  3.27it/s] 38%|███▊      | 141432/371472 [10:12<19:10:18,  3.33it/s] 38%|███▊      | 141433/371472 [10:13<18:46:42,  3.40it/s] 38%|███▊      | 141434/371472 [10:13<18:18:30,  3.49it/s] 38%|███▊      | 141435/371472 [10:13<18:31:17,  3.45it/s] 38%|███▊      | 141436/371472 [10:13<17:41:35,  3.61it/s] 38%|███▊      | 141437/371472 [10:14<17:58:28,  3.55it/s] 38%|███▊      | 141438/371472 [10:14<17:28:26,  3.66it/s] 38%|███▊      | 141439/371472 [10:14<17:24:47,  3.67it/s] 38%|███▊      | 141440/371472 [10:15<18:49:22,  3.39it/s]                                                          {'loss': 3.2647, 'learning_rate': 6.576202891680493e-07, 'epoch': 6.09}
 38%|███▊      | 141440/371472 [10:15<18:49:22,  3.39it/s] 38%|███▊      | 141441/371472 [10:15<18:22:56,  3.48it/s] 38%|███▊      | 141442/371472 [10:15<17:58:38,  3.55it/s] 38%|███▊      | 141443/371472 [10:15<20:21:38,  3.14it/s] 38%|███▊      | 141444/371472 [10:16<19:22:53,  3.30it/s] 38%|███▊      | 141445/371472 [10:16<18:30:17,  3.45it/s] 38%|███▊      | 141446/371472 [10:16<18:42:47,  3.41it/s] 38%|███▊      | 141447/371472 [10:17<18:43:08,  3.41it/s] 38%|███▊      | 141448/371472 [10:17<18:18:10,  3.49it/s] 38%|███▊      | 141449/371472 [10:17<18:32:53,  3.44it/s] 38%|███▊      | 141450/371472 [10:17<18:26:38,  3.46it/s] 38%|███▊      | 141451/371472 [10:18<18:30:07,  3.45it/s] 38%|███▊      | 141452/371472 [10:18<20:03:18,  3.19it/s] 38%|███▊      | 141453/371472 [10:18<19:18:22,  3.31it/s] 38%|███▊      | 141454/371472 [10:19<18:39:51,  3.42it/s] 38%|███▊      | 141455/371472 [10:19<18:31:37,  3.45it/s] 38%|███▊      | 141456/371472 [10:19<18:02:10,  3.54it/s] 38%|███▊      | 141457/371472 [10:19<18:11:52,  3.51it/s] 38%|███▊      | 141458/371472 [10:20<17:41:35,  3.61it/s] 38%|███▊      | 141459/371472 [10:20<18:50:59,  3.39it/s] 38%|███▊      | 141460/371472 [10:20<18:55:13,  3.38it/s]                                                          {'loss': 3.2597, 'learning_rate': 6.575718071925705e-07, 'epoch': 6.09}
 38%|███▊      | 141460/371472 [10:20<18:55:13,  3.38it/s] 38%|███▊      | 141461/371472 [10:21<18:39:35,  3.42it/s] 38%|███▊      | 141462/371472 [10:21<18:57:20,  3.37it/s] 38%|███▊      | 141463/371472 [10:21<18:17:42,  3.49it/s] 38%|███▊      | 141464/371472 [10:22<18:19:24,  3.49it/s] 38%|███▊      | 141465/371472 [10:22<18:05:12,  3.53it/s] 38%|███▊      | 141466/371472 [10:22<17:41:01,  3.61it/s] 38%|███▊      | 141467/371472 [10:22<17:43:15,  3.61it/s] 38%|███▊      | 141468/371472 [10:23<17:54:28,  3.57it/s] 38%|███▊      | 141469/371472 [10:23<18:05:36,  3.53it/s] 38%|███▊      | 141470/371472 [10:23<18:41:50,  3.42it/s] 38%|███▊      | 141471/371472 [10:24<18:33:17,  3.44it/s] 38%|███▊      | 141472/371472 [10:24<18:07:14,  3.53it/s] 38%|███▊      | 141473/371472 [10:24<20:13:25,  3.16it/s] 38%|███▊      | 141474/371472 [10:24<19:50:19,  3.22it/s] 38%|███▊      | 141475/371472 [10:25<19:16:07,  3.32it/s] 38%|███▊      | 141476/371472 [10:25<19:20:51,  3.30it/s] 38%|███▊      | 141477/371472 [10:25<18:26:38,  3.46it/s] 38%|███▊      | 141478/371472 [10:26<17:36:29,  3.63it/s] 38%|███▊      | 141479/371472 [10:26<16:56:33,  3.77it/s] 38%|███▊      | 141480/371472 [10:26<16:48:27,  3.80it/s]                                                          {'loss': 3.3281, 'learning_rate': 6.575233252170915e-07, 'epoch': 6.09}
 38%|███▊      | 141480/371472 [10:26<16:48:27,  3.80it/s] 38%|███▊      | 141481/371472 [10:26<17:09:52,  3.72it/s] 38%|███▊      | 141482/371472 [10:27<17:17:19,  3.70it/s] 38%|███▊      | 141483/371472 [10:27<17:23:46,  3.67it/s] 38%|███▊      | 141484/371472 [10:27<19:30:54,  3.27it/s] 38%|███▊      | 141485/371472 [10:28<19:20:44,  3.30it/s] 38%|███▊      | 141486/371472 [10:28<19:32:35,  3.27it/s] 38%|███▊      | 141487/371472 [10:28<18:56:09,  3.37it/s] 38%|███▊      | 141488/371472 [10:28<19:11:44,  3.33it/s] 38%|███▊      | 141489/371472 [10:29<19:32:31,  3.27it/s] 38%|███▊      | 141490/371472 [10:29<18:48:04,  3.40it/s] 38%|███▊      | 141491/371472 [10:29<18:40:21,  3.42it/s] 38%|███▊      | 141492/371472 [10:30<18:03:34,  3.54it/s] 38%|███▊      | 141493/371472 [10:30<19:04:55,  3.35it/s] 38%|███▊      | 141494/371472 [10:30<19:16:30,  3.31it/s] 38%|███▊      | 141495/371472 [10:30<18:02:27,  3.54it/s] 38%|███▊      | 141496/371472 [10:31<18:03:33,  3.54it/s] 38%|███▊      | 141497/371472 [10:31<18:17:34,  3.49it/s] 38%|███▊      | 141498/371472 [10:31<18:25:38,  3.47it/s] 38%|███▊      | 141499/371472 [10:32<18:28:34,  3.46it/s] 38%|███▊      | 141500/371472 [10:32<17:56:16,  3.56it/s]                                                          {'loss': 3.3762, 'learning_rate': 6.574748432416125e-07, 'epoch': 6.09}
 38%|███▊      | 141500/371472 [10:32<17:56:16,  3.56it/s] 38%|███▊      | 141501/371472 [10:32<18:06:43,  3.53it/s] 38%|███▊      | 141502/371472 [10:32<18:43:23,  3.41it/s] 38%|███▊      | 141503/371472 [10:33<19:10:44,  3.33it/s] 38%|███▊      | 141504/371472 [10:33<18:28:47,  3.46it/s] 38%|███▊      | 141505/371472 [10:33<19:02:20,  3.36it/s] 38%|███▊      | 141506/371472 [10:34<18:57:39,  3.37it/s] 38%|███▊      | 141507/371472 [10:34<18:12:59,  3.51it/s] 38%|███▊      | 141508/371472 [10:34<18:30:56,  3.45it/s] 38%|███▊      | 141509/371472 [10:35<18:48:34,  3.40it/s] 38%|███▊      | 141510/371472 [10:35<18:28:30,  3.46it/s] 38%|███▊      | 141511/371472 [10:35<17:40:31,  3.61it/s] 38%|███▊      | 141512/371472 [10:35<17:38:13,  3.62it/s] 38%|███▊      | 141513/371472 [10:36<17:39:16,  3.62it/s] 38%|███▊      | 141514/371472 [10:36<17:10:09,  3.72it/s] 38%|███▊      | 141515/371472 [10:36<17:39:57,  3.62it/s] 38%|███▊      | 141516/371472 [10:37<18:56:25,  3.37it/s] 38%|███▊      | 141517/371472 [10:37<19:14:36,  3.32it/s] 38%|███▊      | 141518/371472 [10:37<18:57:00,  3.37it/s] 38%|███▊      | 141519/371472 [10:37<19:37:24,  3.26it/s] 38%|███▊      | 141520/371472 [10:38<19:04:05,  3.35it/s]                                                          {'loss': 3.2637, 'learning_rate': 6.574263612661337e-07, 'epoch': 6.1}
 38%|███▊      | 141520/371472 [10:38<19:04:05,  3.35it/s] 38%|███▊      | 141521/371472 [10:38<18:48:22,  3.40it/s] 38%|███▊      | 141522/371472 [10:38<18:12:00,  3.51it/s] 38%|███▊      | 141523/371472 [10:39<18:27:09,  3.46it/s] 38%|███▊      | 141524/371472 [10:39<18:35:45,  3.43it/s] 38%|███▊      | 141525/371472 [10:39<19:10:42,  3.33it/s] 38%|███▊      | 141526/371472 [10:39<19:00:16,  3.36it/s] 38%|███▊      | 141527/371472 [10:40<18:31:04,  3.45it/s] 38%|███▊      | 141528/371472 [10:40<18:06:09,  3.53it/s] 38%|███▊      | 141529/371472 [10:40<19:52:21,  3.21it/s] 38%|███▊      | 141530/371472 [10:41<19:06:29,  3.34it/s] 38%|███▊      | 141531/371472 [10:41<19:38:47,  3.25it/s] 38%|███▊      | 141532/371472 [10:41<18:37:25,  3.43it/s] 38%|███▊      | 141533/371472 [10:42<19:45:06,  3.23it/s] 38%|███▊      | 141534/371472 [10:42<18:42:13,  3.41it/s] 38%|███▊      | 141535/371472 [10:42<18:07:00,  3.53it/s] 38%|███▊      | 141536/371472 [10:42<18:33:02,  3.44it/s] 38%|███▊      | 141537/371472 [10:43<19:42:44,  3.24it/s] 38%|███▊      | 141538/371472 [10:43<20:12:50,  3.16it/s] 38%|███▊      | 141539/371472 [10:43<19:42:18,  3.24it/s] 38%|███▊      | 141540/371472 [10:44<20:27:35,  3.12it/s]                                                          {'loss': 3.1228, 'learning_rate': 6.573778792906549e-07, 'epoch': 6.1}
 38%|███▊      | 141540/371472 [10:44<20:27:35,  3.12it/s] 38%|███▊      | 141541/371472 [10:44<20:04:34,  3.18it/s] 38%|███▊      | 141542/371472 [10:44<20:16:23,  3.15it/s] 38%|███▊      | 141543/371472 [10:45<19:10:41,  3.33it/s] 38%|███▊      | 141544/371472 [10:45<19:40:38,  3.25it/s] 38%|███▊      | 141545/371472 [10:45<18:56:01,  3.37it/s] 38%|███▊      | 141546/371472 [10:46<20:07:30,  3.17it/s] 38%|███▊      | 141547/371472 [10:46<18:58:47,  3.37it/s] 38%|███▊      | 141548/371472 [10:46<18:24:15,  3.47it/s] 38%|███▊      | 141549/371472 [10:46<18:08:54,  3.52it/s] 38%|███▊      | 141550/371472 [10:47<17:52:47,  3.57it/s] 38%|███▊      | 141551/371472 [10:47<17:40:47,  3.61it/s] 38%|███▊      | 141552/371472 [10:47<17:26:46,  3.66it/s] 38%|███▊      | 141553/371472 [10:47<17:26:10,  3.66it/s] 38%|███▊      | 141554/371472 [10:48<17:05:36,  3.74it/s] 38%|███▊      | 141555/371472 [10:48<17:46:18,  3.59it/s] 38%|███▊      | 141556/371472 [10:48<17:40:34,  3.61it/s] 38%|███▊      | 141557/371472 [10:49<17:16:31,  3.70it/s] 38%|███▊      | 141558/371472 [10:49<20:36:57,  3.10it/s] 38%|███▊      | 141559/371472 [10:49<19:15:49,  3.32it/s] 38%|███▊      | 141560/371472 [10:50<19:05:30,  3.35it/s]                                                          {'loss': 3.3389, 'learning_rate': 6.573293973151759e-07, 'epoch': 6.1}
 38%|███▊      | 141560/371472 [10:50<19:05:30,  3.35it/s] 38%|███▊      | 141561/371472 [10:50<18:26:50,  3.46it/s] 38%|███▊      | 141562/371472 [10:50<17:52:16,  3.57it/s] 38%|███▊      | 141563/371472 [10:50<17:48:00,  3.59it/s] 38%|███▊      | 141564/371472 [10:51<17:41:44,  3.61it/s] 38%|███▊      | 141565/371472 [10:51<17:12:36,  3.71it/s] 38%|███▊      | 141566/371472 [10:51<17:13:14,  3.71it/s] 38%|███▊      | 141567/371472 [10:52<19:05:45,  3.34it/s] 38%|███▊      | 141568/371472 [10:52<18:26:49,  3.46it/s] 38%|███▊      | 141569/371472 [10:52<18:25:25,  3.47it/s] 38%|███▊      | 141570/371472 [10:52<18:00:50,  3.55it/s] 38%|███▊      | 141571/371472 [10:53<18:35:16,  3.44it/s] 38%|███▊      | 141572/371472 [10:53<18:27:20,  3.46it/s] 38%|███▊      | 141573/371472 [10:53<18:59:54,  3.36it/s] 38%|███▊      | 141574/371472 [10:54<19:34:01,  3.26it/s] 38%|███▊      | 141575/371472 [10:54<19:23:59,  3.29it/s] 38%|███▊      | 141576/371472 [10:54<18:43:59,  3.41it/s] 38%|███▊      | 141577/371472 [10:54<18:06:26,  3.53it/s] 38%|███▊      | 141578/371472 [10:55<18:29:34,  3.45it/s] 38%|███▊      | 141579/371472 [10:55<18:12:44,  3.51it/s] 38%|███▊      | 141580/371472 [10:55<18:10:10,  3.51it/s]                                                          {'loss': 3.1968, 'learning_rate': 6.57280915339697e-07, 'epoch': 6.1}
 38%|███▊      | 141580/371472 [10:55<18:10:10,  3.51it/s] 38%|███▊      | 141581/371472 [10:56<17:58:54,  3.55it/s] 38%|███▊      | 141582/371472 [10:56<17:41:14,  3.61it/s] 38%|███▊      | 141583/371472 [10:56<17:35:44,  3.63it/s] 38%|███▊      | 141584/371472 [10:56<18:43:22,  3.41it/s] 38%|███▊      | 141585/371472 [10:57<18:21:34,  3.48it/s] 38%|███▊      | 141586/371472 [10:57<18:26:35,  3.46it/s] 38%|███▊      | 141587/371472 [10:57<18:00:36,  3.55it/s] 38%|███▊      | 141588/371472 [10:58<18:00:53,  3.54it/s] 38%|███▊      | 141589/371472 [10:58<18:39:33,  3.42it/s] 38%|███▊      | 141590/371472 [10:58<19:58:40,  3.20it/s] 38%|███▊      | 141591/371472 [10:58<19:28:06,  3.28it/s] 38%|███▊      | 141592/371472 [10:59<20:32:22,  3.11it/s] 38%|███▊      | 141593/371472 [10:59<20:07:32,  3.17it/s] 38%|███▊      | 141594/371472 [10:59<18:33:40,  3.44it/s] 38%|███▊      | 141595/371472 [11:00<18:10:33,  3.51it/s] 38%|███▊      | 141596/371472 [11:00<17:41:30,  3.61it/s] 38%|███▊      | 141597/371472 [11:00<17:26:14,  3.66it/s] 38%|███▊      | 141598/371472 [11:00<17:26:02,  3.66it/s] 38%|███▊      | 141599/371472 [11:01<17:25:32,  3.66it/s] 38%|███▊      | 141600/371472 [11:01<17:14:06,  3.70it/s]                                                          {'loss': 3.2448, 'learning_rate': 6.572324333642182e-07, 'epoch': 6.1}
 38%|███▊      | 141600/371472 [11:01<17:14:06,  3.70it/s] 38%|███▊      | 141601/371472 [11:01<17:27:42,  3.66it/s] 38%|███▊      | 141602/371472 [11:02<18:24:12,  3.47it/s] 38%|███▊      | 141603/371472 [11:02<18:00:09,  3.55it/s] 38%|███▊      | 141604/371472 [11:02<19:12:45,  3.32it/s] 38%|███▊      | 141605/371472 [11:02<19:00:13,  3.36it/s] 38%|███▊      | 141606/371472 [11:03<18:10:03,  3.51it/s] 38%|███▊      | 141607/371472 [11:03<17:37:37,  3.62it/s] 38%|███▊      | 141608/371472 [11:03<18:02:46,  3.54it/s] 38%|███▊      | 141609/371472 [11:04<18:33:09,  3.44it/s] 38%|███▊      | 141610/371472 [11:04<18:04:52,  3.53it/s] 38%|███▊      | 141611/371472 [11:04<17:23:41,  3.67it/s] 38%|███▊      | 141612/371472 [11:04<17:45:35,  3.60it/s] 38%|███▊      | 141613/371472 [11:05<17:31:30,  3.64it/s] 38%|███▊      | 141614/371472 [11:05<17:33:23,  3.64it/s] 38%|███▊      | 141615/371472 [11:05<17:51:59,  3.57it/s] 38%|███▊      | 141616/371472 [11:06<17:45:48,  3.59it/s] 38%|███▊      | 141617/371472 [11:06<17:39:58,  3.61it/s] 38%|███▊      | 141618/371472 [11:06<19:25:36,  3.29it/s] 38%|███▊      | 141619/371472 [11:06<19:15:20,  3.32it/s] 38%|███▊      | 141620/371472 [11:07<18:40:07,  3.42it/s]                                                          {'loss': 3.3566, 'learning_rate': 6.571839513887392e-07, 'epoch': 6.1}
 38%|███▊      | 141620/371472 [11:07<18:40:07,  3.42it/s] 38%|███▊      | 141621/371472 [11:07<18:10:08,  3.51it/s] 38%|███▊      | 141622/371472 [11:07<17:35:22,  3.63it/s] 38%|███▊      | 141623/371472 [11:08<18:22:18,  3.48it/s] 38%|███▊      | 141624/371472 [11:08<19:20:31,  3.30it/s] 38%|███▊      | 141625/371472 [11:08<18:21:14,  3.48it/s] 38%|███▊      | 141626/371472 [11:09<20:09:21,  3.17it/s] 38%|███▊      | 141627/371472 [11:09<19:07:49,  3.34it/s] 38%|███▊      | 141628/371472 [11:09<18:15:25,  3.50it/s] 38%|███▊      | 141629/371472 [11:09<17:39:24,  3.62it/s] 38%|███▊      | 141630/371472 [11:10<17:01:55,  3.75it/s] 38%|███▊      | 141631/371472 [11:10<18:08:59,  3.52it/s] 38%|███▊      | 141632/371472 [11:10<18:47:29,  3.40it/s] 38%|███▊      | 141633/371472 [11:10<18:57:21,  3.37it/s] 38%|███▊      | 141634/371472 [11:11<19:29:17,  3.28it/s] 38%|███▊      | 141635/371472 [11:11<19:16:34,  3.31it/s] 38%|███▊      | 141636/371472 [11:11<19:25:38,  3.29it/s] 38%|███▊      | 141637/371472 [11:12<19:10:27,  3.33it/s] 38%|███▊      | 141638/371472 [11:12<19:12:28,  3.32it/s] 38%|███▊      | 141639/371472 [11:12<18:23:42,  3.47it/s] 38%|███▊      | 141640/371472 [11:13<18:09:54,  3.51it/s]                                                          {'loss': 3.2933, 'learning_rate': 6.571354694132602e-07, 'epoch': 6.1}
 38%|███▊      | 141640/371472 [11:13<18:09:54,  3.51it/s] 38%|███▊      | 141641/371472 [11:13<19:23:08,  3.29it/s] 38%|███▊      | 141642/371472 [11:13<18:40:02,  3.42it/s] 38%|███▊      | 141643/371472 [11:13<18:04:58,  3.53it/s] 38%|███▊      | 141644/371472 [11:14<20:07:15,  3.17it/s] 38%|███▊      | 141645/371472 [11:14<19:24:16,  3.29it/s] 38%|███▊      | 141646/371472 [11:14<21:12:10,  3.01it/s] 38%|███▊      | 141647/371472 [11:15<21:04:54,  3.03it/s] 38%|███▊      | 141648/371472 [11:15<20:29:38,  3.12it/s] 38%|███▊      | 141649/371472 [11:15<20:04:51,  3.18it/s] 38%|███▊      | 141650/371472 [11:16<19:52:02,  3.21it/s] 38%|███▊      | 141651/371472 [11:16<19:18:42,  3.31it/s] 38%|███▊      | 141652/371472 [11:16<18:30:24,  3.45it/s] 38%|███▊      | 141653/371472 [11:17<17:53:10,  3.57it/s] 38%|███▊      | 141654/371472 [11:17<17:43:25,  3.60it/s] 38%|███▊      | 141655/371472 [11:17<17:29:11,  3.65it/s] 38%|███▊      | 141656/371472 [11:17<16:45:55,  3.81it/s] 38%|███▊      | 141657/371472 [11:18<16:49:04,  3.80it/s] 38%|███▊      | 141658/371472 [11:18<17:14:09,  3.70it/s] 38%|███▊      | 141659/371472 [11:18<17:47:57,  3.59it/s] 38%|███▊      | 141660/371472 [11:18<18:09:22,  3.52it/s]                                                          {'loss': 3.2901, 'learning_rate': 6.570869874377814e-07, 'epoch': 6.1}
 38%|███▊      | 141660/371472 [11:18<18:09:22,  3.52it/s] 38%|███▊      | 141661/371472 [11:19<17:53:04,  3.57it/s] 38%|███▊      | 141662/371472 [11:19<18:20:23,  3.48it/s] 38%|███▊      | 141663/371472 [11:19<17:59:45,  3.55it/s] 38%|███▊      | 141664/371472 [11:20<17:30:07,  3.65it/s] 38%|███▊      | 141665/371472 [11:20<18:46:32,  3.40it/s] 38%|███▊      | 141666/371472 [11:20<18:33:46,  3.44it/s] 38%|███▊      | 141667/371472 [11:20<18:58:47,  3.36it/s] 38%|███▊      | 141668/371472 [11:21<19:37:11,  3.25it/s] 38%|███▊      | 141669/371472 [11:21<19:20:11,  3.30it/s] 38%|███▊      | 141670/371472 [11:21<18:29:26,  3.45it/s] 38%|███▊      | 141671/371472 [11:22<18:23:09,  3.47it/s] 38%|███▊      | 141672/371472 [11:22<17:56:21,  3.56it/s] 38%|███▊      | 141673/371472 [11:22<17:43:27,  3.60it/s] 38%|███▊      | 141674/371472 [11:22<17:29:09,  3.65it/s] 38%|███▊      | 141675/371472 [11:23<17:04:27,  3.74it/s] 38%|███▊      | 141676/371472 [11:23<17:01:02,  3.75it/s] 38%|███▊      | 141677/371472 [11:23<17:47:54,  3.59it/s] 38%|███▊      | 141678/371472 [11:24<18:16:37,  3.49it/s] 38%|███▊      | 141679/371472 [11:24<17:45:27,  3.59it/s] 38%|███▊      | 141680/371472 [11:24<19:03:07,  3.35it/s]                                                          {'loss': 3.3552, 'learning_rate': 6.570385054623026e-07, 'epoch': 6.1}
 38%|███▊      | 141680/371472 [11:24<19:03:07,  3.35it/s] 38%|███▊      | 141681/371472 [11:24<18:34:45,  3.44it/s] 38%|███▊      | 141682/371472 [11:25<18:54:15,  3.38it/s] 38%|███▊      | 141683/371472 [11:25<18:58:29,  3.36it/s] 38%|███▊      | 141684/371472 [11:25<17:54:38,  3.56it/s] 38%|███▊      | 141685/371472 [11:26<17:09:35,  3.72it/s] 38%|███▊      | 141686/371472 [11:26<16:57:53,  3.76it/s] 38%|███▊      | 141687/371472 [11:26<18:16:12,  3.49it/s] 38%|███▊      | 141688/371472 [11:26<19:15:35,  3.31it/s] 38%|███▊      | 141689/371472 [11:27<19:05:16,  3.34it/s] 38%|███▊      | 141690/371472 [11:27<18:51:31,  3.38it/s] 38%|███▊      | 141691/371472 [11:27<18:35:00,  3.43it/s] 38%|███▊      | 141692/371472 [11:28<17:48:57,  3.58it/s] 38%|███▊      | 141693/371472 [11:28<17:41:47,  3.61it/s] 38%|███▊      | 141694/371472 [11:28<17:12:38,  3.71it/s] 38%|███▊      | 141695/371472 [11:28<17:28:09,  3.65it/s] 38%|███▊      | 141696/371472 [11:29<16:43:49,  3.82it/s] 38%|███▊      | 141697/371472 [11:29<16:36:29,  3.84it/s] 38%|███▊      | 141698/371472 [11:29<20:10:56,  3.16it/s] 38%|███▊      | 141699/371472 [11:30<19:13:57,  3.32it/s] 38%|███▊      | 141700/371472 [11:30<19:30:24,  3.27it/s]                                                          {'loss': 3.1876, 'learning_rate': 6.569900234868236e-07, 'epoch': 6.1}
 38%|███▊      | 141700/371472 [11:30<19:30:24,  3.27it/s] 38%|███▊      | 141701/371472 [11:30<18:29:11,  3.45it/s] 38%|███▊      | 141702/371472 [11:30<18:20:28,  3.48it/s] 38%|███▊      | 141703/371472 [11:31<18:09:47,  3.51it/s] 38%|███▊      | 141704/371472 [11:31<19:35:32,  3.26it/s] 38%|███▊      | 141705/371472 [11:31<19:43:36,  3.24it/s] 38%|███▊      | 141706/371472 [11:32<18:21:30,  3.48it/s] 38%|███▊      | 141707/371472 [11:32<17:31:08,  3.64it/s] 38%|███▊      | 141708/371472 [11:32<17:12:55,  3.71it/s] 38%|███▊      | 141709/371472 [11:32<18:00:55,  3.54it/s] 38%|███▊      | 141710/371472 [11:33<18:58:16,  3.36it/s] 38%|███▊      | 141711/371472 [11:33<18:25:55,  3.46it/s] 38%|███▊      | 141712/371472 [11:33<19:03:32,  3.35it/s] 38%|███▊      | 141713/371472 [11:34<19:05:21,  3.34it/s] 38%|███▊      | 141714/371472 [11:34<19:04:34,  3.35it/s] 38%|███▊      | 141715/371472 [11:34<18:32:00,  3.44it/s] 38%|███▊      | 141716/371472 [11:34<17:40:45,  3.61it/s] 38%|███▊      | 141717/371472 [11:35<17:57:33,  3.55it/s] 38%|███▊      | 141718/371472 [11:35<17:21:37,  3.68it/s] 38%|███▊      | 141719/371472 [11:35<17:48:38,  3.58it/s] 38%|███▊      | 141720/371472 [11:36<17:51:11,  3.57it/s]                                                          {'loss': 3.1221, 'learning_rate': 6.569415415113447e-07, 'epoch': 6.1}
 38%|███▊      | 141720/371472 [11:36<17:51:11,  3.57it/s] 38%|███▊      | 141721/371472 [11:36<17:46:31,  3.59it/s] 38%|███▊      | 141722/371472 [11:36<17:31:33,  3.64it/s] 38%|███▊      | 141723/371472 [11:37<19:40:34,  3.24it/s] 38%|███▊      | 141724/371472 [11:37<20:41:38,  3.08it/s] 38%|███▊      | 141725/371472 [11:37<19:54:26,  3.21it/s] 38%|███▊      | 141726/371472 [11:37<19:19:37,  3.30it/s] 38%|███▊      | 141727/371472 [11:38<19:07:13,  3.34it/s] 38%|███▊      | 141728/371472 [11:38<18:32:32,  3.44it/s] 38%|███▊      | 141729/371472 [11:38<18:01:04,  3.54it/s] 38%|███▊      | 141730/371472 [11:39<17:22:38,  3.67it/s] 38%|███▊      | 141731/371472 [11:39<16:54:55,  3.77it/s] 38%|███▊      | 141732/371472 [11:39<18:15:25,  3.50it/s] 38%|███▊      | 141733/371472 [11:39<17:36:08,  3.63it/s] 38%|███▊      | 141734/371472 [11:40<19:11:06,  3.33it/s] 38%|███▊      | 141735/371472 [11:40<18:32:42,  3.44it/s] 38%|███▊      | 141736/371472 [11:40<18:11:30,  3.51it/s] 38%|███▊      | 141737/371472 [11:41<17:35:54,  3.63it/s] 38%|███▊      | 141738/371472 [11:41<19:13:26,  3.32it/s] 38%|███▊      | 141739/371472 [11:41<18:36:03,  3.43it/s] 38%|███▊      | 141740/371472 [11:41<17:57:45,  3.55it/s]                                                          {'loss': 3.1942, 'learning_rate': 6.568930595358659e-07, 'epoch': 6.11}
 38%|███▊      | 141740/371472 [11:41<17:57:45,  3.55it/s] 38%|███▊      | 141741/371472 [11:42<18:19:20,  3.48it/s] 38%|███▊      | 141742/371472 [11:42<18:16:28,  3.49it/s] 38%|███▊      | 141743/371472 [11:42<17:51:16,  3.57it/s] 38%|███▊      | 141744/371472 [11:43<17:34:59,  3.63it/s] 38%|███▊      | 141745/371472 [11:43<18:18:34,  3.49it/s] 38%|███▊      | 141746/371472 [11:43<18:01:12,  3.54it/s] 38%|███▊      | 141747/371472 [11:43<17:14:08,  3.70it/s] 38%|███▊      | 141748/371472 [11:44<16:54:49,  3.77it/s] 38%|███▊      | 141749/371472 [11:44<16:54:29,  3.77it/s] 38%|███▊      | 141750/371472 [11:44<16:48:16,  3.80it/s] 38%|███▊      | 141751/371472 [11:44<18:31:55,  3.44it/s] 38%|███▊      | 141752/371472 [11:45<18:37:10,  3.43it/s] 38%|███▊      | 141753/371472 [11:45<19:19:37,  3.30it/s] 38%|███▊      | 141754/371472 [11:45<18:34:43,  3.43it/s] 38%|███▊      | 141755/371472 [11:46<18:23:09,  3.47it/s] 38%|███▊      | 141756/371472 [11:46<18:53:01,  3.38it/s] 38%|███▊      | 141757/371472 [11:46<19:46:15,  3.23it/s] 38%|███▊      | 141758/371472 [11:47<18:59:14,  3.36it/s] 38%|███▊      | 141759/371472 [11:47<18:27:10,  3.46it/s] 38%|███▊      | 141760/371472 [11:47<17:53:11,  3.57it/s]                                                          {'loss': 3.3206, 'learning_rate': 6.568445775603869e-07, 'epoch': 6.11}
 38%|███▊      | 141760/371472 [11:47<17:53:11,  3.57it/s] 38%|███▊      | 141761/371472 [11:47<17:33:46,  3.63it/s] 38%|███▊      | 141762/371472 [11:48<17:27:23,  3.66it/s] 38%|███▊      | 141763/371472 [11:48<17:41:12,  3.61it/s] 38%|███▊      | 141764/371472 [11:48<17:11:36,  3.71it/s] 38%|███▊      | 141765/371472 [11:48<17:19:52,  3.68it/s] 38%|███▊      | 141766/371472 [11:49<18:22:11,  3.47it/s] 38%|███▊      | 141767/371472 [11:49<18:48:32,  3.39it/s] 38%|███▊      | 141768/371472 [11:49<18:37:50,  3.42it/s] 38%|███▊      | 141769/371472 [11:50<20:06:20,  3.17it/s] 38%|███▊      | 141770/371472 [11:50<19:02:25,  3.35it/s] 38%|███▊      | 141771/371472 [11:50<18:23:37,  3.47it/s] 38%|███▊      | 141772/371472 [11:51<18:09:10,  3.51it/s] 38%|███▊      | 141773/371472 [11:51<17:30:38,  3.64it/s] 38%|███▊      | 141774/371472 [11:51<17:04:51,  3.74it/s] 38%|███▊      | 141775/371472 [11:51<16:41:29,  3.82it/s] 38%|███▊      | 141776/371472 [11:52<17:56:59,  3.55it/s] 38%|███▊      | 141777/371472 [11:52<20:46:48,  3.07it/s] 38%|███▊      | 141778/371472 [11:52<19:22:12,  3.29it/s] 38%|███▊      | 141779/371472 [11:53<18:37:14,  3.43it/s] 38%|███▊      | 141780/371472 [11:53<18:41:33,  3.41it/s]                                                          {'loss': 3.1587, 'learning_rate': 6.56796095584908e-07, 'epoch': 6.11}
 38%|███▊      | 141780/371472 [11:53<18:41:33,  3.41it/s] 38%|███▊      | 141781/371472 [11:53<19:01:24,  3.35it/s] 38%|███▊      | 141782/371472 [11:53<17:59:39,  3.55it/s] 38%|███▊      | 141783/371472 [11:54<18:16:59,  3.49it/s] 38%|███▊      | 141784/371472 [11:54<18:57:39,  3.36it/s] 38%|███▊      | 141785/371472 [11:54<18:07:59,  3.52it/s] 38%|███▊      | 141786/371472 [11:55<18:20:42,  3.48it/s] 38%|███▊      | 141787/371472 [11:55<17:53:46,  3.57it/s] 38%|███▊      | 141788/371472 [11:55<17:42:59,  3.60it/s] 38%|███▊      | 141789/371472 [11:55<18:35:24,  3.43it/s] 38%|███▊      | 141790/371472 [11:56<17:53:02,  3.57it/s] 38%|███▊      | 141791/371472 [11:56<17:20:39,  3.68it/s] 38%|███▊      | 141792/371472 [11:56<16:56:17,  3.77it/s] 38%|███▊      | 141793/371472 [11:56<17:25:20,  3.66it/s] 38%|███▊      | 141794/371472 [11:57<17:47:01,  3.59it/s] 38%|███▊      | 141795/371472 [11:57<17:54:57,  3.56it/s] 38%|███▊      | 141796/371472 [11:57<18:32:01,  3.44it/s] 38%|███▊      | 141797/371472 [11:58<19:15:15,  3.31it/s] 38%|███▊      | 141798/371472 [11:58<18:45:44,  3.40it/s] 38%|███▊      | 141799/371472 [11:58<18:10:17,  3.51it/s] 38%|███▊      | 141800/371472 [11:59<17:45:07,  3.59it/s]                                                          {'loss': 3.264, 'learning_rate': 6.567476136094291e-07, 'epoch': 6.11}
 38%|███▊      | 141800/371472 [11:59<17:45:07,  3.59it/s] 38%|███▊      | 141801/371472 [11:59<17:52:26,  3.57it/s] 38%|███▊      | 141802/371472 [11:59<18:29:53,  3.45it/s] 38%|███▊      | 141803/371472 [11:59<18:12:05,  3.51it/s] 38%|███▊      | 141804/371472 [12:00<17:51:18,  3.57it/s] 38%|███▊      | 141805/371472 [12:00<18:26:00,  3.46it/s] 38%|███▊      | 141806/371472 [12:00<17:46:59,  3.59it/s] 38%|███▊      | 141807/371472 [12:01<18:04:37,  3.53it/s] 38%|███▊      | 141808/371472 [12:01<18:14:21,  3.50it/s] 38%|███▊      | 141809/371472 [12:01<17:27:27,  3.65it/s] 38%|███▊      | 141810/371472 [12:01<18:32:37,  3.44it/s] 38%|███▊      | 141811/371472 [12:02<18:48:07,  3.39it/s] 38%|███▊      | 141812/371472 [12:02<18:00:44,  3.54it/s] 38%|███▊      | 141813/371472 [12:02<18:04:19,  3.53it/s] 38%|███▊      | 141814/371472 [12:03<18:24:11,  3.47it/s] 38%|███▊      | 141815/371472 [12:03<17:37:53,  3.62it/s] 38%|███▊      | 141816/371472 [12:03<17:21:19,  3.68it/s] 38%|███▊      | 141817/371472 [12:03<17:01:54,  3.75it/s] 38%|███▊      | 141818/371472 [12:04<17:31:13,  3.64it/s] 38%|███▊      | 141819/371472 [12:04<17:25:40,  3.66it/s] 38%|███▊      | 141820/371472 [12:04<16:53:32,  3.78it/s]                                                          {'loss': 3.198, 'learning_rate': 6.566991316339503e-07, 'epoch': 6.11}
 38%|███▊      | 141820/371472 [12:04<16:53:32,  3.78it/s] 38%|███▊      | 141821/371472 [12:04<16:43:14,  3.82it/s] 38%|███▊      | 141822/371472 [12:05<16:35:24,  3.85it/s] 38%|███▊      | 141823/371472 [12:05<17:41:30,  3.61it/s] 38%|███▊      | 141824/371472 [12:05<17:28:03,  3.65it/s] 38%|███▊      | 141825/371472 [12:06<18:26:14,  3.46it/s] 38%|███▊      | 141826/371472 [12:06<17:46:11,  3.59it/s] 38%|███▊      | 141827/371472 [12:06<19:20:36,  3.30it/s] 38%|███▊      | 141828/371472 [12:06<18:58:08,  3.36it/s] 38%|███▊      | 141829/371472 [12:07<18:23:58,  3.47it/s] 38%|███▊      | 141830/371472 [12:07<19:26:28,  3.28it/s] 38%|███▊      | 141831/371472 [12:07<18:57:51,  3.36it/s] 38%|███▊      | 141832/371472 [12:08<18:31:44,  3.44it/s] 38%|███▊      | 141833/371472 [12:08<19:20:11,  3.30it/s] 38%|███▊      | 141834/371472 [12:08<19:45:33,  3.23it/s] 38%|███▊      | 141835/371472 [12:08<18:57:03,  3.37it/s] 38%|███▊      | 141836/371472 [12:09<18:45:07,  3.40it/s] 38%|███▊      | 141837/371472 [12:09<18:35:14,  3.43it/s] 38%|███▊      | 141838/371472 [12:09<18:33:44,  3.44it/s] 38%|███▊      | 141839/371472 [12:10<18:47:05,  3.40it/s] 38%|███▊      | 141840/371472 [12:10<18:13:41,  3.50it/s]                                                          {'loss': 3.2737, 'learning_rate': 6.566506496584715e-07, 'epoch': 6.11}
 38%|███▊      | 141840/371472 [12:10<18:13:41,  3.50it/s] 38%|███▊      | 141841/371472 [12:10<18:12:37,  3.50it/s] 38%|███▊      | 141842/371472 [12:11<19:04:34,  3.34it/s] 38%|███▊      | 141843/371472 [12:11<18:15:22,  3.49it/s] 38%|███▊      | 141844/371472 [12:11<17:26:30,  3.66it/s] 38%|███▊      | 141845/371472 [12:11<17:01:01,  3.75it/s] 38%|███▊      | 141846/371472 [12:12<16:51:32,  3.78it/s] 38%|███▊      | 141847/371472 [12:12<17:16:30,  3.69it/s] 38%|███▊      | 141848/371472 [12:12<17:28:25,  3.65it/s] 38%|███▊      | 141849/371472 [12:12<16:57:14,  3.76it/s] 38%|███▊      | 141850/371472 [12:13<16:39:56,  3.83it/s] 38%|███▊      | 141851/371472 [12:13<16:30:12,  3.86it/s] 38%|███▊      | 141852/371472 [12:13<17:08:45,  3.72it/s] 38%|███▊      | 141853/371472 [12:13<17:29:42,  3.65it/s] 38%|███▊      | 141854/371472 [12:14<17:52:27,  3.57it/s] 38%|███▊      | 141855/371472 [12:14<17:54:34,  3.56it/s] 38%|███▊      | 141856/371472 [12:14<17:08:39,  3.72it/s] 38%|███▊      | 141857/371472 [12:15<16:38:08,  3.83it/s] 38%|███▊      | 141858/371472 [12:15<17:13:45,  3.70it/s] 38%|███▊      | 141859/371472 [12:15<18:10:01,  3.51it/s] 38%|███▊      | 141860/371472 [12:15<18:28:57,  3.45it/s]                                                          {'loss': 3.2927, 'learning_rate': 6.566021676829925e-07, 'epoch': 6.11}
 38%|███▊      | 141860/371472 [12:15<18:28:57,  3.45it/s] 38%|███▊      | 141861/371472 [12:16<17:53:00,  3.57it/s] 38%|███▊      | 141862/371472 [12:16<17:37:24,  3.62it/s] 38%|███▊      | 141863/371472 [12:16<19:07:19,  3.34it/s] 38%|███▊      | 141864/371472 [12:17<18:45:14,  3.40it/s] 38%|███▊      | 141865/371472 [12:17<19:02:20,  3.35it/s] 38%|███▊      | 141866/371472 [12:17<19:20:44,  3.30it/s] 38%|███▊      | 141867/371472 [12:17<18:53:59,  3.37it/s] 38%|███▊      | 141868/371472 [12:18<18:34:48,  3.43it/s] 38%|███▊      | 141869/371472 [12:18<17:45:46,  3.59it/s] 38%|███▊      | 141870/371472 [12:18<18:10:12,  3.51it/s] 38%|███▊      | 141871/371472 [12:19<18:17:35,  3.49it/s] 38%|███▊      | 141872/371472 [12:19<18:14:36,  3.50it/s] 38%|███▊      | 141873/371472 [12:19<18:31:44,  3.44it/s] 38%|███▊      | 141874/371472 [12:19<17:57:53,  3.55it/s] 38%|███▊      | 141875/371472 [12:20<17:53:32,  3.56it/s] 38%|███▊      | 141876/371472 [12:20<17:20:30,  3.68it/s] 38%|███▊      | 141877/371472 [12:20<17:57:50,  3.55it/s] 38%|███▊      | 141878/371472 [12:21<18:09:43,  3.51it/s] 38%|███▊      | 141879/371472 [12:21<18:51:38,  3.38it/s] 38%|███▊      | 141880/371472 [12:21<18:41:54,  3.41it/s]                                                          {'loss': 3.1707, 'learning_rate': 6.565536857075135e-07, 'epoch': 6.11}
 38%|███▊      | 141880/371472 [12:21<18:41:54,  3.41it/s] 38%|███▊      | 141881/371472 [12:21<18:21:50,  3.47it/s] 38%|███▊      | 141882/371472 [12:22<17:41:08,  3.61it/s] 38%|███▊      | 141883/371472 [12:22<17:17:43,  3.69it/s] 38%|███▊      | 141884/371472 [12:22<17:45:34,  3.59it/s] 38%|███▊      | 141885/371472 [12:23<18:15:54,  3.49it/s] 38%|███▊      | 141886/371472 [12:23<18:36:17,  3.43it/s] 38%|███▊      | 141887/371472 [12:23<18:19:28,  3.48it/s] 38%|███▊      | 141888/371472 [12:23<18:01:21,  3.54it/s] 38%|███▊      | 141889/371472 [12:24<17:45:16,  3.59it/s] 38%|███▊      | 141890/371472 [12:24<17:31:48,  3.64it/s] 38%|███▊      | 141891/371472 [12:24<17:51:53,  3.57it/s] 38%|███▊      | 141892/371472 [12:24<17:02:40,  3.74it/s] 38%|███▊      | 141893/371472 [12:25<17:05:34,  3.73it/s] 38%|███▊      | 141894/371472 [12:25<17:12:07,  3.71it/s] 38%|███▊      | 141895/371472 [12:25<17:25:31,  3.66it/s] 38%|███▊      | 141896/371472 [12:26<17:49:00,  3.58it/s] 38%|███▊      | 141897/371472 [12:26<17:51:02,  3.57it/s] 38%|███▊      | 141898/371472 [12:26<17:31:42,  3.64it/s] 38%|███▊      | 141899/371472 [12:26<18:05:51,  3.52it/s] 38%|███▊      | 141900/371472 [12:27<18:46:54,  3.40it/s]                                                          {'loss': 3.3772, 'learning_rate': 6.565052037320347e-07, 'epoch': 6.11}
 38%|███▊      | 141900/371472 [12:27<18:46:54,  3.40it/s] 38%|███▊      | 141901/371472 [12:27<18:41:23,  3.41it/s] 38%|███▊      | 141902/371472 [12:27<20:51:12,  3.06it/s] 38%|███▊      | 141903/371472 [12:28<19:23:49,  3.29it/s] 38%|███▊      | 141904/371472 [12:28<18:33:00,  3.44it/s] 38%|███▊      | 141905/371472 [12:28<18:32:02,  3.44it/s] 38%|███▊      | 141906/371472 [12:29<18:37:35,  3.42it/s] 38%|███▊      | 141907/371472 [12:29<18:13:01,  3.50it/s] 38%|███▊      | 141908/371472 [12:29<17:39:02,  3.61it/s] 38%|███▊      | 141909/371472 [12:29<17:14:15,  3.70it/s] 38%|███▊      | 141910/371472 [12:30<17:15:46,  3.69it/s] 38%|███▊      | 141911/371472 [12:30<17:21:40,  3.67it/s] 38%|███▊      | 141912/371472 [12:30<19:25:13,  3.28it/s] 38%|███▊      | 141913/371472 [12:31<19:12:41,  3.32it/s] 38%|███▊      | 141914/371472 [12:31<18:13:20,  3.50it/s] 38%|███▊      | 141915/371472 [12:31<17:31:49,  3.64it/s] 38%|███▊      | 141916/371472 [12:31<17:52:34,  3.57it/s] 38%|███▊      | 141917/371472 [12:32<17:33:41,  3.63it/s] 38%|███▊      | 141918/371472 [12:32<17:10:30,  3.71it/s] 38%|███▊      | 141919/371472 [12:32<19:35:57,  3.25it/s] 38%|███▊      | 141920/371472 [12:33<20:13:43,  3.15it/s]                                                          {'loss': 3.0988, 'learning_rate': 6.564567217565559e-07, 'epoch': 6.11}
 38%|███▊      | 141920/371472 [12:33<20:13:43,  3.15it/s] 38%|███▊      | 141921/371472 [12:33<19:14:08,  3.31it/s] 38%|███▊      | 141922/371472 [12:33<18:19:09,  3.48it/s] 38%|███▊      | 141923/371472 [12:33<17:23:59,  3.66it/s] 38%|███▊      | 141924/371472 [12:34<17:44:44,  3.59it/s] 38%|███▊      | 141925/371472 [12:34<18:30:07,  3.45it/s] 38%|███▊      | 141926/371472 [12:34<18:05:57,  3.52it/s] 38%|███▊      | 141927/371472 [12:35<24:53:33,  2.56it/s] 38%|███▊      | 141928/371472 [12:35<22:20:53,  2.85it/s] 38%|███▊      | 141929/371472 [12:35<20:29:26,  3.11it/s] 38%|███▊      | 141930/371472 [12:36<19:39:22,  3.24it/s] 38%|███▊      | 141931/371472 [12:36<18:46:31,  3.40it/s] 38%|███▊      | 141932/371472 [12:36<18:05:37,  3.52it/s] 38%|███▊      | 141933/371472 [12:36<17:47:54,  3.58it/s] 38%|███▊      | 141934/371472 [12:37<17:25:37,  3.66it/s] 38%|███▊      | 141935/371472 [12:37<17:39:14,  3.61it/s] 38%|███▊      | 141936/371472 [12:37<17:35:50,  3.62it/s] 38%|███▊      | 141937/371472 [12:38<17:19:52,  3.68it/s] 38%|███▊      | 141938/371472 [12:38<17:52:58,  3.57it/s] 38%|███▊      | 141939/371472 [12:38<17:54:09,  3.56it/s] 38%|███▊      | 141940/371472 [12:38<19:22:58,  3.29it/s]                                                          {'loss': 3.3159, 'learning_rate': 6.564082397810769e-07, 'epoch': 6.11}
 38%|███▊      | 141940/371472 [12:38<19:22:58,  3.29it/s] 38%|███▊      | 141941/371472 [12:39<18:36:38,  3.43it/s] 38%|███▊      | 141942/371472 [12:39<18:44:09,  3.40it/s] 38%|███▊      | 141943/371472 [12:39<18:22:22,  3.47it/s] 38%|███▊      | 141944/371472 [12:40<18:04:02,  3.53it/s] 38%|███▊      | 141945/371472 [12:40<17:36:05,  3.62it/s] 38%|███▊      | 141946/371472 [12:40<18:08:42,  3.51it/s] 38%|███▊      | 141947/371472 [12:41<19:30:27,  3.27it/s] 38%|███▊      | 141948/371472 [12:41<18:45:28,  3.40it/s] 38%|███▊      | 141949/371472 [12:41<18:01:41,  3.54it/s] 38%|███▊      | 141950/371472 [12:41<19:05:38,  3.34it/s] 38%|███▊      | 141951/371472 [12:42<19:29:12,  3.27it/s] 38%|███▊      | 141952/371472 [12:42<18:49:46,  3.39it/s] 38%|███▊      | 141953/371472 [12:42<18:08:02,  3.52it/s] 38%|███▊      | 141954/371472 [12:43<18:15:33,  3.49it/s] 38%|███▊      | 141955/371472 [12:43<17:30:48,  3.64it/s] 38%|███▊      | 141956/371472 [12:43<17:11:41,  3.71it/s] 38%|███▊      | 141957/371472 [12:43<17:16:08,  3.69it/s] 38%|███▊      | 141958/371472 [12:44<17:36:42,  3.62it/s] 38%|███▊      | 141959/371472 [12:44<17:51:14,  3.57it/s] 38%|███▊      | 141960/371472 [12:44<18:20:59,  3.47it/s]                                                          {'loss': 3.2342, 'learning_rate': 6.56359757805598e-07, 'epoch': 6.11}
 38%|███▊      | 141960/371472 [12:44<18:20:59,  3.47it/s] 38%|███▊      | 141961/371472 [12:44<18:06:45,  3.52it/s] 38%|███▊      | 141962/371472 [12:45<18:53:26,  3.37it/s] 38%|███▊      | 141963/371472 [12:45<18:56:53,  3.36it/s] 38%|███▊      | 141964/371472 [12:45<19:01:11,  3.35it/s] 38%|███▊      | 141965/371472 [12:46<19:53:30,  3.20it/s] 38%|███▊      | 141966/371472 [12:46<18:59:19,  3.36it/s] 38%|███▊      | 141967/371472 [12:46<18:19:02,  3.48it/s] 38%|███▊      | 141968/371472 [12:47<18:25:39,  3.46it/s] 38%|███▊      | 141969/371472 [12:47<18:32:31,  3.44it/s] 38%|███▊      | 141970/371472 [12:47<18:23:40,  3.47it/s] 38%|███▊      | 141971/371472 [12:47<18:10:36,  3.51it/s] 38%|███▊      | 141972/371472 [12:48<18:03:48,  3.53it/s] 38%|███▊      | 141973/371472 [12:48<17:18:50,  3.68it/s] 38%|███▊      | 141974/371472 [12:48<17:55:13,  3.56it/s] 38%|███▊      | 141975/371472 [12:49<18:10:06,  3.51it/s] 38%|███▊      | 141976/371472 [12:49<20:21:48,  3.13it/s] 38%|███▊      | 141977/371472 [12:49<19:32:22,  3.26it/s] 38%|███▊      | 141978/371472 [12:50<20:55:21,  3.05it/s] 38%|███▊      | 141979/371472 [12:50<19:47:22,  3.22it/s] 38%|███▊      | 141980/371472 [12:50<18:27:27,  3.45it/s]                                                          {'loss': 3.3719, 'learning_rate': 6.563112758301192e-07, 'epoch': 6.12}
 38%|███▊      | 141980/371472 [12:50<18:27:27,  3.45it/s] 38%|███▊      | 141981/371472 [12:50<18:28:43,  3.45it/s] 38%|███▊      | 141982/371472 [12:51<19:03:31,  3.34it/s] 38%|███▊      | 141983/371472 [12:51<19:10:02,  3.33it/s] 38%|███▊      | 141984/371472 [12:51<19:17:07,  3.31it/s] 38%|███▊      | 141985/371472 [12:52<19:46:32,  3.22it/s] 38%|███▊      | 141986/371472 [12:52<19:21:32,  3.29it/s] 38%|███▊      | 141987/371472 [12:52<18:52:15,  3.38it/s] 38%|███▊      | 141988/371472 [12:53<20:00:49,  3.19it/s] 38%|███▊      | 141989/371472 [12:53<19:01:15,  3.35it/s] 38%|███▊      | 141990/371472 [12:53<19:04:08,  3.34it/s] 38%|███▊      | 141991/371472 [12:53<18:47:52,  3.39it/s] 38%|███▊      | 141992/371472 [12:54<17:56:49,  3.55it/s] 38%|███▊      | 141993/371472 [12:54<17:29:26,  3.64it/s] 38%|███▊      | 141994/371472 [12:54<17:21:11,  3.67it/s] 38%|███▊      | 141995/371472 [12:54<17:45:35,  3.59it/s] 38%|███▊      | 141996/371472 [12:55<17:35:48,  3.62it/s] 38%|███▊      | 141997/371472 [12:55<17:40:21,  3.61it/s] 38%|███▊      | 141998/371472 [12:55<18:41:50,  3.41it/s] 38%|███▊      | 141999/371472 [12:56<19:25:20,  3.28it/s] 38%|███▊      | 142000/371472 [12:56<18:15:46,  3.49it/s]                                                          {'loss': 3.2119, 'learning_rate': 6.562627938546403e-07, 'epoch': 6.12}
 38%|███▊      | 142000/371472 [12:56<18:15:46,  3.49it/s] 38%|███▊      | 142001/371472 [12:56<17:36:50,  3.62it/s] 38%|███▊      | 142002/371472 [12:56<17:54:31,  3.56it/s] 38%|███▊      | 142003/371472 [12:57<17:45:35,  3.59it/s] 38%|███▊      | 142004/371472 [12:57<17:42:50,  3.60it/s] 38%|███▊      | 142005/371472 [12:57<17:19:34,  3.68it/s] 38%|███▊      | 142006/371472 [12:58<18:10:51,  3.51it/s] 38%|███▊      | 142007/371472 [12:58<18:28:37,  3.45it/s] 38%|███▊      | 142008/371472 [12:58<18:04:34,  3.53it/s] 38%|███▊      | 142009/371472 [12:58<17:26:42,  3.65it/s] 38%|███▊      | 142010/371472 [12:59<17:30:46,  3.64it/s] 38%|███▊      | 142011/371472 [12:59<17:07:27,  3.72it/s] 38%|███▊      | 142012/371472 [12:59<19:12:31,  3.32it/s] 38%|███▊      | 142013/371472 [13:00<18:53:56,  3.37it/s] 38%|███▊      | 142014/371472 [13:00<18:21:45,  3.47it/s] 38%|███▊      | 142015/371472 [13:00<18:32:23,  3.44it/s] 38%|███▊      | 142016/371472 [13:00<17:59:04,  3.54it/s] 38%|███▊      | 142017/371472 [13:01<17:48:46,  3.58it/s] 38%|███▊      | 142018/371472 [13:01<17:28:17,  3.65it/s] 38%|███▊      | 142019/371472 [13:01<18:00:11,  3.54it/s] 38%|███▊      | 142020/371472 [13:02<18:11:48,  3.50it/s]                                                          {'loss': 3.5107, 'learning_rate': 6.562143118791613e-07, 'epoch': 6.12}
 38%|███▊      | 142020/371472 [13:02<18:11:48,  3.50it/s] 38%|███▊      | 142021/371472 [13:02<20:21:02,  3.13it/s] 38%|███▊      | 142022/371472 [13:02<19:18:03,  3.30it/s] 38%|███▊      | 142023/371472 [13:03<18:54:14,  3.37it/s] 38%|███▊      | 142024/371472 [13:03<18:06:52,  3.52it/s] 38%|███▊      | 142025/371472 [13:03<18:10:38,  3.51it/s] 38%|███▊      | 142026/371472 [13:03<18:19:44,  3.48it/s] 38%|███▊      | 142027/371472 [13:04<17:58:10,  3.55it/s] 38%|███▊      | 142028/371472 [13:04<18:57:16,  3.36it/s] 38%|███▊      | 142029/371472 [13:04<18:43:06,  3.40it/s] 38%|███▊      | 142030/371472 [13:05<18:11:23,  3.50it/s] 38%|███▊      | 142031/371472 [13:05<17:38:19,  3.61it/s] 38%|███▊      | 142032/371472 [13:05<17:54:00,  3.56it/s] 38%|███▊      | 142033/371472 [13:05<17:25:34,  3.66it/s] 38%|███▊      | 142034/371472 [13:06<17:10:35,  3.71it/s] 38%|███▊      | 142035/371472 [13:06<17:05:50,  3.73it/s] 38%|███▊      | 142036/371472 [13:06<16:52:42,  3.78it/s] 38%|███▊      | 142037/371472 [13:06<17:19:35,  3.68it/s] 38%|███▊      | 142038/371472 [13:07<17:26:04,  3.66it/s] 38%|███▊      | 142039/371472 [13:07<18:51:44,  3.38it/s] 38%|███▊      | 142040/371472 [13:07<18:37:10,  3.42it/s]                                                          {'loss': 3.16, 'learning_rate': 6.561658299036824e-07, 'epoch': 6.12}
 38%|███▊      | 142040/371472 [13:07<18:37:10,  3.42it/s] 38%|███▊      | 142041/371472 [13:08<17:59:16,  3.54it/s] 38%|███▊      | 142042/371472 [13:08<17:44:54,  3.59it/s] 38%|███▊      | 142043/371472 [13:08<17:22:09,  3.67it/s] 38%|███▊      | 142044/371472 [13:08<17:11:09,  3.71it/s] 38%|███▊      | 142045/371472 [13:09<16:39:09,  3.83it/s] 38%|███▊      | 142046/371472 [13:09<17:32:57,  3.63it/s] 38%|███▊      | 142047/371472 [13:09<17:34:22,  3.63it/s] 38%|███▊      | 142048/371472 [13:09<17:35:10,  3.62it/s] 38%|███▊      | 142049/371472 [13:10<17:42:09,  3.60it/s] 38%|███▊      | 142050/371472 [13:10<17:50:45,  3.57it/s] 38%|███▊      | 142051/371472 [13:10<17:20:03,  3.68it/s] 38%|███▊      | 142052/371472 [13:11<17:41:16,  3.60it/s] 38%|███▊      | 142053/371472 [13:11<17:52:59,  3.56it/s] 38%|███▊      | 142054/371472 [13:11<17:34:22,  3.63it/s] 38%|███▊      | 142055/371472 [13:11<17:53:07,  3.56it/s] 38%|███▊      | 142056/371472 [13:12<17:25:55,  3.66it/s] 38%|███▊      | 142057/371472 [13:12<18:14:09,  3.49it/s] 38%|███▊      | 142058/371472 [13:12<18:08:18,  3.51it/s] 38%|███▊      | 142059/371472 [13:13<19:31:33,  3.26it/s] 38%|███▊      | 142060/371472 [13:13<18:25:53,  3.46it/s]                                                          {'loss': 3.3539, 'learning_rate': 6.561173479282036e-07, 'epoch': 6.12}
 38%|███▊      | 142060/371472 [13:13<18:25:53,  3.46it/s] 38%|███▊      | 142061/371472 [13:13<18:32:09,  3.44it/s] 38%|███▊      | 142062/371472 [13:13<17:58:52,  3.54it/s] 38%|███▊      | 142063/371472 [13:14<17:27:32,  3.65it/s] 38%|███▊      | 142064/371472 [13:14<17:12:33,  3.70it/s] 38%|███▊      | 142065/371472 [13:14<18:24:58,  3.46it/s] 38%|███▊      | 142066/371472 [13:15<19:25:25,  3.28it/s] 38%|███▊      | 142067/371472 [13:15<20:49:19,  3.06it/s] 38%|███▊      | 142068/371472 [13:15<19:18:29,  3.30it/s] 38%|███▊      | 142069/371472 [13:16<18:48:54,  3.39it/s] 38%|███▊      | 142070/371472 [13:16<18:33:56,  3.43it/s] 38%|███▊      | 142071/371472 [13:16<19:46:07,  3.22it/s] 38%|███▊      | 142072/371472 [13:16<19:01:32,  3.35it/s] 38%|███▊      | 142073/371472 [13:17<18:31:28,  3.44it/s] 38%|███▊      | 142074/371472 [13:17<18:23:22,  3.47it/s] 38%|███▊      | 142075/371472 [13:17<18:02:20,  3.53it/s] 38%|███▊      | 142076/371472 [13:17<17:22:08,  3.67it/s] 38%|███▊      | 142077/371472 [13:18<18:22:15,  3.47it/s] 38%|███▊      | 142078/371472 [13:18<17:33:36,  3.63it/s] 38%|███▊      | 142079/371472 [13:18<17:21:33,  3.67it/s] 38%|███▊      | 142080/371472 [13:19<16:51:17,  3.78it/s]                                                          {'loss': 3.1771, 'learning_rate': 6.560688659527247e-07, 'epoch': 6.12}
 38%|███▊      | 142080/371472 [13:19<16:51:17,  3.78it/s] 38%|███▊      | 142081/371472 [13:19<18:48:17,  3.39it/s] 38%|███▊      | 142082/371472 [13:19<18:21:47,  3.47it/s] 38%|███▊      | 142083/371472 [13:19<17:52:41,  3.56it/s] 38%|███▊      | 142084/371472 [13:20<17:38:57,  3.61it/s] 38%|███▊      | 142085/371472 [13:20<17:31:26,  3.64it/s] 38%|███▊      | 142086/371472 [13:20<17:39:19,  3.61it/s] 38%|███▊      | 142087/371472 [13:21<18:42:36,  3.41it/s] 38%|███▊      | 142088/371472 [13:21<18:12:28,  3.50it/s] 38%|███▊      | 142089/371472 [13:21<18:42:03,  3.41it/s] 38%|███▊      | 142090/371472 [13:21<18:24:06,  3.46it/s] 38%|███▊      | 142091/371472 [13:22<18:17:04,  3.48it/s] 38%|███▊      | 142092/371472 [13:22<18:35:06,  3.43it/s] 38%|███▊      | 142093/371472 [13:22<20:13:18,  3.15it/s] 38%|███▊      | 142094/371472 [13:23<18:49:20,  3.39it/s] 38%|███▊      | 142095/371472 [13:23<18:44:11,  3.40it/s] 38%|███▊      | 142096/371472 [13:23<18:57:09,  3.36it/s] 38%|███▊      | 142097/371472 [13:24<18:18:16,  3.48it/s] 38%|███▊      | 142098/371472 [13:24<17:57:50,  3.55it/s] 38%|███▊      | 142099/371472 [13:24<18:09:57,  3.51it/s] 38%|███▊      | 142100/371472 [13:24<18:07:47,  3.51it/s]                                                          {'loss': 3.2611, 'learning_rate': 6.560203839772458e-07, 'epoch': 6.12}
 38%|███▊      | 142100/371472 [13:24<18:07:47,  3.51it/s] 38%|███▊      | 142101/371472 [13:25<17:40:29,  3.60it/s] 38%|███▊      | 142102/371472 [13:25<17:26:31,  3.65it/s] 38%|███▊      | 142103/371472 [13:25<19:02:27,  3.35it/s] 38%|███▊      | 142104/371472 [13:26<18:45:36,  3.40it/s] 38%|███▊      | 142105/371472 [13:26<17:50:49,  3.57it/s] 38%|███▊      | 142106/371472 [13:26<18:34:44,  3.43it/s] 38%|███▊      | 142107/371472 [13:26<18:54:22,  3.37it/s] 38%|███▊      | 142108/371472 [13:27<18:13:24,  3.50it/s] 38%|███▊      | 142109/371472 [13:27<19:28:02,  3.27it/s] 38%|███▊      | 142110/371472 [13:28<23:58:41,  2.66it/s] 38%|███▊      | 142111/371472 [13:28<22:07:44,  2.88it/s] 38%|███▊      | 142112/371472 [13:28<20:42:04,  3.08it/s] 38%|███▊      | 142113/371472 [13:28<19:14:56,  3.31it/s] 38%|███▊      | 142114/371472 [13:29<18:53:03,  3.37it/s] 38%|███▊      | 142115/371472 [13:29<18:32:00,  3.44it/s] 38%|███▊      | 142116/371472 [13:29<18:13:12,  3.50it/s] 38%|███▊      | 142117/371472 [13:30<18:39:43,  3.41it/s] 38%|███▊      | 142118/371472 [13:30<18:00:19,  3.54it/s] 38%|███▊      | 142119/371472 [13:30<17:38:06,  3.61it/s] 38%|███▊      | 142120/371472 [13:30<17:21:54,  3.67it/s]                                                          {'loss': 3.2903, 'learning_rate': 6.559719020017669e-07, 'epoch': 6.12}
 38%|███▊      | 142120/371472 [13:30<17:21:54,  3.67it/s] 38%|███▊      | 142121/371472 [13:31<17:48:50,  3.58it/s] 38%|███▊      | 142122/371472 [13:31<19:30:16,  3.27it/s] 38%|███▊      | 142123/371472 [13:31<20:04:05,  3.17it/s] 38%|███▊      | 142124/371472 [13:32<19:13:54,  3.31it/s] 38%|███▊      | 142125/371472 [13:32<18:49:33,  3.38it/s] 38%|███▊      | 142126/371472 [13:32<19:44:52,  3.23it/s] 38%|███▊      | 142127/371472 [13:32<19:06:19,  3.33it/s] 38%|███▊      | 142128/371472 [13:33<20:08:53,  3.16it/s] 38%|███▊      | 142129/371472 [13:33<19:51:16,  3.21it/s] 38%|███▊      | 142130/371472 [13:33<19:35:44,  3.25it/s] 38%|███▊      | 142131/371472 [13:34<20:03:40,  3.18it/s] 38%|███▊      | 142132/371472 [13:34<20:10:53,  3.16it/s] 38%|███▊      | 142133/371472 [13:34<19:18:02,  3.30it/s] 38%|███▊      | 142134/371472 [13:35<18:42:32,  3.41it/s] 38%|███▊      | 142135/371472 [13:35<18:34:28,  3.43it/s] 38%|███▊      | 142136/371472 [13:35<19:16:29,  3.31it/s] 38%|███▊      | 142137/371472 [13:36<19:16:09,  3.31it/s] 38%|███▊      | 142138/371472 [13:36<18:17:56,  3.48it/s] 38%|███▊      | 142139/371472 [13:36<20:25:25,  3.12it/s] 38%|███▊      | 142140/371472 [13:36<19:33:44,  3.26it/s]                                                          {'loss': 3.2456, 'learning_rate': 6.55923420026288e-07, 'epoch': 6.12}
 38%|███▊      | 142140/371472 [13:36<19:33:44,  3.26it/s] 38%|███▊      | 142141/371472 [13:37<19:55:46,  3.20it/s] 38%|███▊      | 142142/371472 [13:37<20:14:38,  3.15it/s] 38%|███▊      | 142143/371472 [13:37<19:14:59,  3.31it/s] 38%|███▊      | 142144/371472 [13:38<19:15:29,  3.31it/s] 38%|███▊      | 142145/371472 [13:38<18:33:16,  3.43it/s] 38%|███▊      | 142146/371472 [13:38<17:36:48,  3.62it/s] 38%|███▊      | 142147/371472 [13:39<18:01:50,  3.53it/s] 38%|███▊      | 142148/371472 [13:39<18:24:53,  3.46it/s] 38%|███▊      | 142149/371472 [13:39<18:13:18,  3.50it/s] 38%|███▊      | 142150/371472 [13:39<19:25:37,  3.28it/s] 38%|███▊      | 142151/371472 [13:40<19:19:11,  3.30it/s] 38%|███▊      | 142152/371472 [13:40<19:25:42,  3.28it/s] 38%|███▊      | 142153/371472 [13:40<18:52:55,  3.37it/s] 38%|███▊      | 142154/371472 [13:41<19:31:52,  3.26it/s] 38%|███▊      | 142155/371472 [13:41<20:24:47,  3.12it/s] 38%|███▊      | 142156/371472 [13:41<19:59:28,  3.19it/s] 38%|███▊      | 142157/371472 [13:42<21:11:35,  3.01it/s] 38%|███▊      | 142158/371472 [13:42<19:32:53,  3.26it/s] 38%|███▊      | 142159/371472 [13:42<18:35:51,  3.43it/s] 38%|███▊      | 142160/371472 [13:42<17:48:39,  3.58it/s]                                                          {'loss': 3.3784, 'learning_rate': 6.55874938050809e-07, 'epoch': 6.12}
 38%|███▊      | 142160/371472 [13:42<17:48:39,  3.58it/s] 38%|███▊      | 142161/371472 [13:43<18:33:04,  3.43it/s] 38%|███▊      | 142162/371472 [13:43<18:46:06,  3.39it/s] 38%|███▊      | 142163/371472 [13:43<19:12:58,  3.31it/s] 38%|███▊      | 142164/371472 [13:44<19:31:40,  3.26it/s] 38%|███▊      | 142165/371472 [13:44<19:52:42,  3.20it/s] 38%|███▊      | 142166/371472 [13:44<19:14:19,  3.31it/s] 38%|███▊      | 142167/371472 [13:45<18:35:29,  3.43it/s] 38%|███▊      | 142168/371472 [13:45<17:56:26,  3.55it/s] 38%|███▊      | 142169/371472 [13:45<18:41:09,  3.41it/s] 38%|███▊      | 142170/371472 [13:45<17:50:38,  3.57it/s] 38%|███▊      | 142171/371472 [13:46<17:18:20,  3.68it/s] 38%|███▊      | 142172/371472 [13:46<17:08:38,  3.72it/s] 38%|███▊      | 142173/371472 [13:46<17:05:30,  3.73it/s] 38%|███▊      | 142174/371472 [13:46<17:17:04,  3.69it/s] 38%|███▊      | 142175/371472 [13:47<17:36:43,  3.62it/s] 38%|███▊      | 142176/371472 [13:47<17:23:23,  3.66it/s] 38%|███▊      | 142177/371472 [13:48<22:55:44,  2.78it/s] 38%|███▊      | 142178/371472 [13:48<21:11:32,  3.01it/s] 38%|███▊      | 142179/371472 [13:48<20:28:39,  3.11it/s] 38%|███▊      | 142180/371472 [13:48<19:59:24,  3.19it/s]                                                          {'loss': 3.369, 'learning_rate': 6.558264560753301e-07, 'epoch': 6.12}
 38%|███▊      | 142180/371472 [13:48<19:59:24,  3.19it/s] 38%|███▊      | 142181/371472 [13:49<19:34:29,  3.25it/s] 38%|███▊      | 142182/371472 [13:49<18:28:48,  3.45it/s] 38%|███▊      | 142183/371472 [13:49<18:59:26,  3.35it/s] 38%|███▊      | 142184/371472 [13:50<18:42:10,  3.41it/s] 38%|███▊      | 142185/371472 [13:50<19:41:26,  3.23it/s] 38%|███▊      | 142186/371472 [13:50<18:43:00,  3.40it/s] 38%|███▊      | 142187/371472 [13:50<18:59:05,  3.35it/s] 38%|███▊      | 142188/371472 [13:51<18:11:40,  3.50it/s] 38%|███▊      | 142189/371472 [13:51<19:00:26,  3.35it/s] 38%|███▊      | 142190/371472 [13:51<18:38:33,  3.42it/s] 38%|███▊      | 142191/371472 [13:52<18:27:48,  3.45it/s] 38%|███▊      | 142192/371472 [13:52<17:48:19,  3.58it/s] 38%|███▊      | 142193/371472 [13:52<18:04:56,  3.52it/s] 38%|███▊      | 142194/371472 [13:52<17:47:57,  3.58it/s] 38%|███▊      | 142195/371472 [13:53<17:33:10,  3.63it/s] 38%|███▊      | 142196/371472 [13:53<18:34:54,  3.43it/s] 38%|███▊      | 142197/371472 [13:53<18:41:01,  3.41it/s] 38%|███▊      | 142198/371472 [13:54<17:54:37,  3.56it/s] 38%|███▊      | 142199/371472 [13:54<17:32:31,  3.63it/s] 38%|███▊      | 142200/371472 [13:54<17:42:12,  3.60it/s]                                                          {'loss': 3.186, 'learning_rate': 6.557779740998513e-07, 'epoch': 6.12}
 38%|███▊      | 142200/371472 [13:54<17:42:12,  3.60it/s] 38%|███▊      | 142201/371472 [13:54<17:33:04,  3.63it/s] 38%|███▊      | 142202/371472 [13:55<17:14:41,  3.69it/s] 38%|███▊      | 142203/371472 [13:55<17:50:52,  3.57it/s] 38%|███▊      | 142204/371472 [13:55<17:44:01,  3.59it/s] 38%|███▊      | 142205/371472 [13:56<17:26:07,  3.65it/s] 38%|███▊      | 142206/371472 [13:56<16:58:56,  3.75it/s] 38%|███▊      | 142207/371472 [13:56<17:22:42,  3.66it/s] 38%|███▊      | 142208/371472 [13:56<18:11:46,  3.50it/s] 38%|███▊      | 142209/371472 [13:57<19:09:43,  3.32it/s] 38%|███▊      | 142210/371472 [13:57<18:15:45,  3.49it/s] 38%|███▊      | 142211/371472 [13:57<19:20:30,  3.29it/s] 38%|███▊      | 142212/371472 [13:58<18:11:31,  3.50it/s] 38%|███▊      | 142213/371472 [13:58<18:12:39,  3.50it/s] 38%|███▊      | 142214/371472 [13:58<19:38:47,  3.24it/s] 38%|███▊      | 142215/371472 [13:59<20:30:40,  3.10it/s] 38%|███▊      | 142216/371472 [13:59<19:12:02,  3.32it/s] 38%|███▊      | 142217/371472 [13:59<19:15:16,  3.31it/s] 38%|███▊      | 142218/371472 [13:59<19:05:47,  3.33it/s] 38%|███▊      | 142219/371472 [14:00<18:49:09,  3.38it/s] 38%|███▊      | 142220/371472 [14:00<18:34:35,  3.43it/s]                                                          {'loss': 3.1457, 'learning_rate': 6.557294921243725e-07, 'epoch': 6.13}
 38%|███▊      | 142220/371472 [14:00<18:34:35,  3.43it/s] 38%|███▊      | 142221/371472 [14:00<18:08:05,  3.51it/s] 38%|███▊      | 142222/371472 [14:01<17:35:39,  3.62it/s] 38%|███▊      | 142223/371472 [14:01<17:30:47,  3.64it/s] 38%|███▊      | 142224/371472 [14:01<17:23:27,  3.66it/s] 38%|███▊      | 142225/371472 [14:01<17:23:32,  3.66it/s] 38%|███▊      | 142226/371472 [14:02<17:17:59,  3.68it/s] 38%|███▊      | 142227/371472 [14:02<17:17:39,  3.68it/s] 38%|███▊      | 142228/371472 [14:02<18:06:20,  3.52it/s] 38%|███▊      | 142229/371472 [14:02<17:27:44,  3.65it/s] 38%|███▊      | 142230/371472 [14:03<16:51:52,  3.78it/s] 38%|███▊      | 142231/371472 [14:03<17:20:30,  3.67it/s] 38%|███▊      | 142232/371472 [14:03<17:01:05,  3.74it/s] 38%|███▊      | 142233/371472 [14:03<16:50:04,  3.78it/s] 38%|███▊      | 142234/371472 [14:04<17:08:07,  3.72it/s] 38%|███▊      | 142235/371472 [14:04<17:03:45,  3.73it/s] 38%|███▊      | 142236/371472 [14:04<17:53:48,  3.56it/s] 38%|███▊      | 142237/371472 [14:05<19:06:54,  3.33it/s] 38%|███▊      | 142238/371472 [14:05<18:34:28,  3.43it/s] 38%|███▊      | 142239/371472 [14:05<18:06:03,  3.52it/s] 38%|███▊      | 142240/371472 [14:06<18:32:45,  3.43it/s]                                                          {'loss': 3.2935, 'learning_rate': 6.556810101488935e-07, 'epoch': 6.13}
 38%|███▊      | 142240/371472 [14:06<18:32:45,  3.43it/s] 38%|███▊      | 142241/371472 [14:06<18:34:45,  3.43it/s] 38%|███▊      | 142242/371472 [14:06<18:01:15,  3.53it/s] 38%|███▊      | 142243/371472 [14:06<17:57:13,  3.55it/s] 38%|███▊      | 142244/371472 [14:07<17:36:26,  3.62it/s] 38%|███▊      | 142245/371472 [14:07<17:58:12,  3.54it/s] 38%|███▊      | 142246/371472 [14:07<20:05:34,  3.17it/s] 38%|███▊      | 142247/371472 [14:08<18:59:39,  3.35it/s] 38%|███▊      | 142248/371472 [14:08<18:14:26,  3.49it/s] 38%|███▊      | 142249/371472 [14:08<17:36:24,  3.62it/s] 38%|███▊      | 142250/371472 [14:08<17:15:25,  3.69it/s] 38%|███▊      | 142251/371472 [14:09<17:25:37,  3.65it/s] 38%|███▊      | 142252/371472 [14:09<18:22:51,  3.46it/s] 38%|███▊      | 142253/371472 [14:09<18:12:46,  3.50it/s] 38%|███▊      | 142254/371472 [14:10<18:19:13,  3.48it/s] 38%|███▊      | 142255/371472 [14:10<17:55:28,  3.55it/s] 38%|███▊      | 142256/371472 [14:10<17:42:42,  3.59it/s] 38%|███▊      | 142257/371472 [14:10<17:02:33,  3.74it/s] 38%|███▊      | 142258/371472 [14:11<16:39:24,  3.82it/s] 38%|███▊      | 142259/371472 [14:11<17:22:57,  3.66it/s] 38%|███▊      | 142260/371472 [14:11<17:56:31,  3.55it/s]                                                          {'loss': 3.1713, 'learning_rate': 6.556325281734145e-07, 'epoch': 6.13}
 38%|███▊      | 142260/371472 [14:11<17:56:31,  3.55it/s] 38%|███▊      | 142261/371472 [14:11<17:36:19,  3.62it/s] 38%|███▊      | 142262/371472 [14:12<17:23:46,  3.66it/s] 38%|███▊      | 142263/371472 [14:12<17:07:07,  3.72it/s] 38%|███▊      | 142264/371472 [14:12<17:18:57,  3.68it/s] 38%|███▊      | 142265/371472 [14:12<17:29:24,  3.64it/s] 38%|███▊      | 142266/371472 [14:13<17:40:50,  3.60it/s] 38%|███▊      | 142267/371472 [14:13<17:15:19,  3.69it/s] 38%|███▊      | 142268/371472 [14:13<17:19:25,  3.68it/s] 38%|███▊      | 142269/371472 [14:14<18:57:01,  3.36it/s] 38%|███▊      | 142270/371472 [14:14<17:59:57,  3.54it/s] 38%|███▊      | 142271/371472 [14:14<17:18:03,  3.68it/s] 38%|███▊      | 142272/371472 [14:14<16:49:19,  3.78it/s] 38%|███▊      | 142273/371472 [14:15<17:49:21,  3.57it/s] 38%|███▊      | 142274/371472 [14:15<17:51:48,  3.56it/s] 38%|███▊      | 142275/371472 [14:15<18:27:34,  3.45it/s] 38%|███▊      | 142276/371472 [14:16<17:27:12,  3.65it/s] 38%|███▊      | 142277/371472 [14:16<17:46:04,  3.58it/s] 38%|███▊      | 142278/371472 [14:16<17:09:27,  3.71it/s] 38%|███▊      | 142279/371472 [14:16<17:17:43,  3.68it/s] 38%|███▊      | 142280/371472 [14:17<18:48:38,  3.38it/s]                                                          {'loss': 3.1728, 'learning_rate': 6.555840461979357e-07, 'epoch': 6.13}
 38%|███▊      | 142280/371472 [14:17<18:48:38,  3.38it/s] 38%|███▊      | 142281/371472 [14:17<18:54:01,  3.37it/s] 38%|███▊      | 142282/371472 [14:17<18:10:32,  3.50it/s] 38%|███▊      | 142283/371472 [14:18<18:22:16,  3.47it/s] 38%|███▊      | 142284/371472 [14:18<18:34:10,  3.43it/s] 38%|███▊      | 142285/371472 [14:18<18:06:26,  3.52it/s] 38%|███▊      | 142286/371472 [14:18<17:27:16,  3.65it/s] 38%|███▊      | 142287/371472 [14:19<17:15:28,  3.69it/s] 38%|███▊      | 142288/371472 [14:19<16:57:20,  3.75it/s] 38%|███▊      | 142289/371472 [14:19<17:24:53,  3.66it/s] 38%|███▊      | 142290/371472 [14:20<19:03:05,  3.34it/s] 38%|███▊      | 142291/371472 [14:20<18:21:11,  3.47it/s] 38%|███▊      | 142292/371472 [14:20<18:12:54,  3.49it/s] 38%|███▊      | 142293/371472 [14:20<17:33:21,  3.63it/s] 38%|███▊      | 142294/371472 [14:21<17:42:20,  3.60it/s] 38%|███▊      | 142295/371472 [14:21<18:03:02,  3.53it/s] 38%|███▊      | 142296/371472 [14:21<18:15:07,  3.49it/s] 38%|███▊      | 142297/371472 [14:22<19:03:09,  3.34it/s] 38%|███▊      | 142298/371472 [14:22<18:03:50,  3.52it/s] 38%|███▊      | 142299/371472 [14:22<17:30:23,  3.64it/s] 38%|███▊      | 142300/371472 [14:22<17:10:42,  3.71it/s]                                                          {'loss': 3.3274, 'learning_rate': 6.555355642224569e-07, 'epoch': 6.13}
 38%|███▊      | 142300/371472 [14:22<17:10:42,  3.71it/s] 38%|███▊      | 142301/371472 [14:23<16:57:38,  3.75it/s] 38%|███▊      | 142302/371472 [14:23<17:16:21,  3.69it/s] 38%|███▊      | 142303/371472 [14:23<16:56:55,  3.76it/s] 38%|███▊      | 142304/371472 [14:23<17:20:23,  3.67it/s] 38%|███▊      | 142305/371472 [14:24<18:12:43,  3.50it/s] 38%|███▊      | 142306/371472 [14:24<17:38:39,  3.61it/s] 38%|███▊      | 142307/371472 [14:24<18:20:46,  3.47it/s] 38%|███▊      | 142308/371472 [14:25<18:45:34,  3.39it/s] 38%|███▊      | 142309/371472 [14:25<18:47:18,  3.39it/s] 38%|███▊      | 142310/371472 [14:25<19:36:22,  3.25it/s] 38%|███▊      | 142311/371472 [14:26<19:33:44,  3.25it/s] 38%|███▊      | 142312/371472 [14:26<18:30:20,  3.44it/s] 38%|███▊      | 142313/371472 [14:26<18:35:47,  3.42it/s] 38%|███▊      | 142314/371472 [14:26<18:29:27,  3.44it/s] 38%|███▊      | 142315/371472 [14:27<18:22:06,  3.47it/s] 38%|███▊      | 142316/371472 [14:27<18:51:01,  3.38it/s] 38%|███▊      | 142317/371472 [14:27<18:26:38,  3.45it/s] 38%|███▊      | 142318/371472 [14:28<20:59:20,  3.03it/s] 38%|███▊      | 142319/371472 [14:28<19:35:41,  3.25it/s] 38%|███▊      | 142320/371472 [14:28<18:24:33,  3.46it/s]                                                          {'loss': 3.4053, 'learning_rate': 6.554870822469779e-07, 'epoch': 6.13}
 38%|███▊      | 142320/371472 [14:28<18:24:33,  3.46it/s] 38%|███▊      | 142321/371472 [14:28<17:42:21,  3.60it/s] 38%|███▊      | 142322/371472 [14:29<18:30:58,  3.44it/s] 38%|███▊      | 142323/371472 [14:29<19:13:45,  3.31it/s] 38%|███▊      | 142324/371472 [14:29<18:51:46,  3.37it/s] 38%|███▊      | 142325/371472 [14:30<19:07:03,  3.33it/s] 38%|███▊      | 142326/371472 [14:30<19:52:57,  3.20it/s] 38%|███▊      | 142327/371472 [14:30<18:33:36,  3.43it/s] 38%|███▊      | 142328/371472 [14:31<20:27:09,  3.11it/s] 38%|███▊      | 142329/371472 [14:31<20:03:39,  3.17it/s] 38%|███▊      | 142330/371472 [14:31<20:34:09,  3.09it/s] 38%|███▊      | 142331/371472 [14:32<19:49:34,  3.21it/s] 38%|███▊      | 142332/371472 [14:32<19:35:44,  3.25it/s] 38%|███▊      | 142333/371472 [14:32<19:03:47,  3.34it/s] 38%|███▊      | 142334/371472 [14:32<19:49:24,  3.21it/s] 38%|███▊      | 142335/371472 [14:33<18:55:14,  3.36it/s] 38%|███▊      | 142336/371472 [14:33<18:46:42,  3.39it/s] 38%|███▊      | 142337/371472 [14:33<18:47:52,  3.39it/s] 38%|███▊      | 142338/371472 [14:34<19:11:03,  3.32it/s] 38%|███▊      | 142339/371472 [14:34<18:29:51,  3.44it/s] 38%|███▊      | 142340/371472 [14:34<17:56:46,  3.55it/s]                                                          {'loss': 3.2717, 'learning_rate': 6.55438600271499e-07, 'epoch': 6.13}
 38%|███▊      | 142340/371472 [14:34<17:56:46,  3.55it/s] 38%|███▊      | 142341/371472 [14:34<17:39:37,  3.60it/s] 38%|███▊      | 142342/371472 [14:35<18:09:08,  3.51it/s] 38%|███▊      | 142343/371472 [14:35<18:06:04,  3.52it/s] 38%|███▊      | 142344/371472 [14:35<19:24:29,  3.28it/s] 38%|███▊      | 142345/371472 [14:36<20:42:13,  3.07it/s] 38%|███▊      | 142346/371472 [14:36<20:50:16,  3.05it/s] 38%|███▊      | 142347/371472 [14:36<20:15:49,  3.14it/s] 38%|███▊      | 142348/371472 [14:37<19:24:58,  3.28it/s] 38%|███▊      | 142349/371472 [14:37<19:15:31,  3.30it/s] 38%|███▊      | 142350/371472 [14:37<19:31:57,  3.26it/s] 38%|███▊      | 142351/371472 [14:38<19:00:40,  3.35it/s] 38%|███▊      | 142352/371472 [14:38<19:15:19,  3.31it/s] 38%|███▊      | 142353/371472 [14:38<18:29:49,  3.44it/s] 38%|███▊      | 142354/371472 [14:38<18:41:22,  3.41it/s] 38%|███▊      | 142355/371472 [14:39<18:32:33,  3.43it/s] 38%|███▊      | 142356/371472 [14:39<18:28:06,  3.45it/s] 38%|███▊      | 142357/371472 [14:39<19:30:43,  3.26it/s] 38%|███▊      | 142358/371472 [14:40<19:43:42,  3.23it/s] 38%|███▊      | 142359/371472 [14:40<19:22:06,  3.29it/s] 38%|███▊      | 142360/371472 [14:40<20:21:48,  3.13it/s]                                                          {'loss': 3.1883, 'learning_rate': 6.553901182960202e-07, 'epoch': 6.13}
 38%|███▊      | 142360/371472 [14:40<20:21:48,  3.13it/s] 38%|███▊      | 142361/371472 [14:41<18:56:39,  3.36it/s] 38%|███▊      | 142362/371472 [14:41<18:15:04,  3.49it/s] 38%|███▊      | 142363/371472 [14:41<17:59:29,  3.54it/s] 38%|███▊      | 142364/371472 [14:41<17:35:36,  3.62it/s] 38%|███▊      | 142365/371472 [14:42<17:44:19,  3.59it/s] 38%|███▊      | 142366/371472 [14:42<18:32:42,  3.43it/s] 38%|███▊      | 142367/371472 [14:42<18:23:57,  3.46it/s] 38%|███▊      | 142368/371472 [14:43<18:00:51,  3.53it/s] 38%|███▊      | 142369/371472 [14:43<19:04:37,  3.34it/s] 38%|███▊      | 142370/371472 [14:43<18:53:32,  3.37it/s] 38%|███▊      | 142371/371472 [14:43<18:09:43,  3.50it/s] 38%|███▊      | 142372/371472 [14:44<18:28:54,  3.44it/s] 38%|███▊      | 142373/371472 [14:44<18:05:38,  3.52it/s] 38%|███▊      | 142374/371472 [14:44<18:11:09,  3.50it/s] 38%|███▊      | 142375/371472 [14:45<17:41:50,  3.60it/s] 38%|███▊      | 142376/371472 [14:45<17:54:42,  3.55it/s] 38%|███▊      | 142377/371472 [14:45<18:21:01,  3.47it/s] 38%|███▊      | 142378/371472 [14:45<18:26:54,  3.45it/s] 38%|███▊      | 142379/371472 [14:46<19:33:29,  3.25it/s] 38%|███▊      | 142380/371472 [14:46<19:05:36,  3.33it/s]                                                          {'loss': 3.1078, 'learning_rate': 6.553416363205412e-07, 'epoch': 6.13}
 38%|███▊      | 142380/371472 [14:46<19:05:36,  3.33it/s] 38%|███▊      | 142381/371472 [14:46<18:25:09,  3.45it/s] 38%|███▊      | 142382/371472 [14:47<18:02:18,  3.53it/s] 38%|███▊      | 142383/371472 [14:47<18:04:32,  3.52it/s] 38%|███▊      | 142384/371472 [14:47<18:03:37,  3.52it/s] 38%|███▊      | 142385/371472 [14:47<18:13:34,  3.49it/s] 38%|███▊      | 142386/371472 [14:48<19:04:34,  3.34it/s] 38%|███▊      | 142387/371472 [14:48<18:31:45,  3.43it/s] 38%|███▊      | 142388/371472 [14:48<17:44:56,  3.59it/s] 38%|███▊      | 142389/371472 [14:49<17:58:35,  3.54it/s] 38%|███▊      | 142390/371472 [14:49<17:52:23,  3.56it/s] 38%|███▊      | 142391/371472 [14:49<17:13:08,  3.70it/s] 38%|███▊      | 142392/371472 [14:49<17:38:18,  3.61it/s] 38%|███▊      | 142393/371472 [14:50<18:01:59,  3.53it/s] 38%|███▊      | 142394/371472 [14:50<17:22:58,  3.66it/s] 38%|███▊      | 142395/371472 [14:50<16:55:37,  3.76it/s] 38%|███▊      | 142396/371472 [14:50<16:58:32,  3.75it/s] 38%|███▊      | 142397/371472 [14:51<17:44:21,  3.59it/s] 38%|███▊      | 142398/371472 [14:51<18:02:49,  3.53it/s] 38%|███▊      | 142399/371472 [14:51<17:40:06,  3.60it/s] 38%|███▊      | 142400/371472 [14:52<17:15:00,  3.69it/s]                                                          {'loss': 3.1, 'learning_rate': 6.552931543450623e-07, 'epoch': 6.13}
 38%|███▊      | 142400/371472 [14:52<17:15:00,  3.69it/s] 38%|███▊      | 142401/371472 [14:52<17:27:16,  3.65it/s] 38%|███▊      | 142402/371472 [14:52<17:42:28,  3.59it/s] 38%|███▊      | 142403/371472 [14:52<18:12:33,  3.49it/s] 38%|███▊      | 142404/371472 [14:53<19:49:21,  3.21it/s] 38%|███▊      | 142405/371472 [14:53<20:31:42,  3.10it/s] 38%|███▊      | 142406/371472 [14:53<19:08:37,  3.32it/s] 38%|███▊      | 142407/371472 [14:54<18:45:13,  3.39it/s] 38%|███▊      | 142408/371472 [14:54<18:10:40,  3.50it/s] 38%|███▊      | 142409/371472 [14:54<18:25:53,  3.45it/s] 38%|███▊      | 142410/371472 [14:55<17:53:45,  3.56it/s] 38%|███▊      | 142411/371472 [14:55<18:03:25,  3.52it/s] 38%|███▊      | 142412/371472 [14:55<17:53:52,  3.56it/s] 38%|███▊      | 142413/371472 [14:55<18:33:03,  3.43it/s] 38%|███▊      | 142414/371472 [14:56<18:12:19,  3.49it/s] 38%|███▊      | 142415/371472 [14:56<17:38:11,  3.61it/s] 38%|███▊      | 142416/371472 [14:56<17:04:53,  3.72it/s] 38%|███▊      | 142417/371472 [14:56<17:06:02,  3.72it/s] 38%|███▊      | 142418/371472 [14:57<19:11:52,  3.31it/s] 38%|███▊      | 142419/371472 [14:57<18:57:28,  3.36it/s] 38%|███▊      | 142420/371472 [14:57<18:21:52,  3.46it/s]                                                          {'loss': 3.2826, 'learning_rate': 6.552446723695834e-07, 'epoch': 6.13}
 38%|███▊      | 142420/371472 [14:57<18:21:52,  3.46it/s] 38%|███▊      | 142421/371472 [14:58<18:04:33,  3.52it/s] 38%|███▊      | 142422/371472 [14:58<18:30:15,  3.44it/s] 38%|███▊      | 142423/371472 [14:58<18:16:48,  3.48it/s] 38%|███▊      | 142424/371472 [14:59<18:26:01,  3.45it/s] 38%|███▊      | 142425/371472 [14:59<19:37:37,  3.24it/s] 38%|███▊      | 142426/371472 [14:59<18:39:19,  3.41it/s] 38%|███▊      | 142427/371472 [14:59<18:08:28,  3.51it/s] 38%|███▊      | 142428/371472 [15:00<18:36:18,  3.42it/s] 38%|███▊      | 142429/371472 [15:00<18:41:06,  3.40it/s] 38%|███▊      | 142430/371472 [15:00<18:06:11,  3.51it/s] 38%|███▊      | 142431/371472 [15:01<18:55:39,  3.36it/s] 38%|███▊      | 142432/371472 [15:01<18:59:08,  3.35it/s] 38%|███▊      | 142433/371472 [15:01<18:19:44,  3.47it/s] 38%|███▊      | 142434/371472 [15:02<19:17:29,  3.30it/s] 38%|███▊      | 142435/371472 [15:02<18:30:35,  3.44it/s] 38%|███▊      | 142436/371472 [15:02<18:08:14,  3.51it/s] 38%|███▊      | 142437/371472 [15:02<18:04:40,  3.52it/s] 38%|███▊      | 142438/371472 [15:03<17:29:26,  3.64it/s] 38%|███▊      | 142439/371472 [15:03<17:05:09,  3.72it/s] 38%|███▊      | 142440/371472 [15:03<17:12:30,  3.70it/s]                                                          {'loss': 3.1659, 'learning_rate': 6.551961903941046e-07, 'epoch': 6.14}
 38%|███▊      | 142440/371472 [15:03<17:12:30,  3.70it/s] 38%|███▊      | 142441/371472 [15:03<17:40:50,  3.60it/s] 38%|███▊      | 142442/371472 [15:04<18:35:59,  3.42it/s] 38%|███▊      | 142443/371472 [15:04<18:21:14,  3.47it/s] 38%|███▊      | 142444/371472 [15:04<17:49:16,  3.57it/s] 38%|███▊      | 142445/371472 [15:05<17:48:14,  3.57it/s] 38%|███▊      | 142446/371472 [15:05<17:13:01,  3.70it/s] 38%|███▊      | 142447/371472 [15:05<17:13:54,  3.69it/s] 38%|███▊      | 142448/371472 [15:05<17:05:11,  3.72it/s] 38%|███▊      | 142449/371472 [15:06<18:20:11,  3.47it/s] 38%|███▊      | 142450/371472 [15:06<17:56:04,  3.55it/s] 38%|███▊      | 142451/371472 [15:06<17:17:55,  3.68it/s] 38%|███▊      | 142452/371472 [15:06<17:10:28,  3.70it/s] 38%|███▊      | 142453/371472 [15:07<17:58:42,  3.54it/s] 38%|███▊      | 142454/371472 [15:07<17:54:49,  3.55it/s] 38%|███▊      | 142455/371472 [15:07<20:35:10,  3.09it/s] 38%|███▊      | 142456/371472 [15:08<20:09:01,  3.16it/s] 38%|███▊      | 142457/371472 [15:08<19:24:49,  3.28it/s] 38%|███▊      | 142458/371472 [15:08<18:55:51,  3.36it/s] 38%|███▊      | 142459/371472 [15:09<18:02:45,  3.53it/s] 38%|███▊      | 142460/371472 [15:09<17:48:59,  3.57it/s]                                                          {'loss': 3.351, 'learning_rate': 6.551477084186257e-07, 'epoch': 6.14}
 38%|███▊      | 142460/371472 [15:09<17:48:59,  3.57it/s] 38%|███▊      | 142461/371472 [15:09<17:51:26,  3.56it/s] 38%|███▊      | 142462/371472 [15:09<18:18:54,  3.47it/s] 38%|███▊      | 142463/371472 [15:10<19:13:31,  3.31it/s] 38%|███▊      | 142464/371472 [15:10<18:24:20,  3.46it/s] 38%|███▊      | 142465/371472 [15:10<19:17:53,  3.30it/s] 38%|███▊      | 142466/371472 [15:11<19:00:04,  3.35it/s] 38%|███▊      | 142467/371472 [15:11<18:30:25,  3.44it/s] 38%|███▊      | 142468/371472 [15:11<18:11:24,  3.50it/s] 38%|███▊      | 142469/371472 [15:12<18:49:17,  3.38it/s] 38%|███▊      | 142470/371472 [15:12<18:40:35,  3.41it/s] 38%|███▊      | 142471/371472 [15:12<18:14:20,  3.49it/s] 38%|███▊      | 142472/371472 [15:12<18:16:21,  3.48it/s] 38%|███▊      | 142473/371472 [15:13<17:40:58,  3.60it/s] 38%|███▊      | 142474/371472 [15:13<18:27:23,  3.45it/s] 38%|███▊      | 142475/371472 [15:13<19:26:45,  3.27it/s] 38%|███▊      | 142476/371472 [15:14<19:18:23,  3.29it/s] 38%|███▊      | 142477/371472 [15:14<19:45:03,  3.22it/s] 38%|███▊      | 142478/371472 [15:14<18:59:00,  3.35it/s] 38%|███▊      | 142479/371472 [15:14<17:52:34,  3.56it/s] 38%|███▊      | 142480/371472 [15:15<17:28:01,  3.64it/s]                                                          {'loss': 3.1432, 'learning_rate': 6.550992264431468e-07, 'epoch': 6.14}
 38%|███▊      | 142480/371472 [15:15<17:28:01,  3.64it/s] 38%|███▊      | 142481/371472 [15:15<18:01:29,  3.53it/s] 38%|███▊      | 142482/371472 [15:15<20:00:38,  3.18it/s] 38%|███▊      | 142483/371472 [15:16<19:15:17,  3.30it/s] 38%|███▊      | 142484/371472 [15:16<18:30:36,  3.44it/s] 38%|███▊      | 142485/371472 [15:16<17:46:15,  3.58it/s] 38%|███▊      | 142486/371472 [15:16<18:02:45,  3.52it/s] 38%|███▊      | 142487/371472 [15:17<19:36:24,  3.24it/s] 38%|███▊      | 142488/371472 [15:17<19:26:49,  3.27it/s] 38%|███▊      | 142489/371472 [15:17<19:07:38,  3.33it/s] 38%|███▊      | 142490/371472 [15:18<18:48:36,  3.38it/s] 38%|███▊      | 142491/371472 [15:18<18:17:15,  3.48it/s] 38%|███▊      | 142492/371472 [15:18<18:10:13,  3.50it/s] 38%|███▊      | 142493/371472 [15:19<17:45:55,  3.58it/s] 38%|███▊      | 142494/371472 [15:19<19:54:20,  3.20it/s] 38%|███▊      | 142495/371472 [15:19<20:06:35,  3.16it/s] 38%|███▊      | 142496/371472 [15:19<18:54:53,  3.36it/s] 38%|███▊      | 142497/371472 [15:20<18:27:42,  3.45it/s] 38%|███▊      | 142498/371472 [15:20<18:51:08,  3.37it/s] 38%|███▊      | 142499/371472 [15:20<18:09:37,  3.50it/s] 38%|███▊      | 142500/371472 [15:21<20:28:46,  3.11it/s]                                                          {'loss': 3.1844, 'learning_rate': 6.550507444676679e-07, 'epoch': 6.14}
 38%|███▊      | 142500/371472 [15:21<20:28:46,  3.11it/s] 38%|███▊      | 142501/371472 [15:21<19:19:55,  3.29it/s] 38%|███▊      | 142502/371472 [15:21<18:48:10,  3.38it/s] 38%|███▊      | 142503/371472 [15:22<18:22:15,  3.46it/s] 38%|███▊      | 142504/371472 [15:22<17:29:20,  3.64it/s] 38%|███▊      | 142505/371472 [15:22<18:25:30,  3.45it/s] 38%|███▊      | 142506/371472 [15:22<18:25:09,  3.45it/s] 38%|███▊      | 142507/371472 [15:23<18:35:41,  3.42it/s] 38%|███▊      | 142508/371472 [15:23<18:42:27,  3.40it/s] 38%|███▊      | 142509/371472 [15:23<18:41:49,  3.40it/s] 38%|███▊      | 142510/371472 [15:24<18:17:10,  3.48it/s] 38%|███▊      | 142511/371472 [15:24<19:04:33,  3.33it/s] 38%|███▊      | 142512/371472 [15:24<19:00:57,  3.34it/s] 38%|███▊      | 142513/371472 [15:24<19:08:16,  3.32it/s] 38%|███▊      | 142514/371472 [15:25<18:15:45,  3.48it/s] 38%|███▊      | 142515/371472 [15:25<18:26:00,  3.45it/s] 38%|███▊      | 142516/371472 [15:25<19:50:23,  3.21it/s] 38%|███▊      | 142517/371472 [15:26<18:59:19,  3.35it/s] 38%|███▊      | 142518/371472 [15:26<18:05:19,  3.52it/s] 38%|███▊      | 142519/371472 [15:26<18:39:16,  3.41it/s] 38%|███▊      | 142520/371472 [15:26<17:40:36,  3.60it/s]                                                          {'loss': 3.2179, 'learning_rate': 6.55002262492189e-07, 'epoch': 6.14}
 38%|███▊      | 142520/371472 [15:26<17:40:36,  3.60it/s] 38%|███▊      | 142521/371472 [15:27<18:08:00,  3.51it/s] 38%|███▊      | 142522/371472 [15:27<18:42:37,  3.40it/s] 38%|███▊      | 142523/371472 [15:27<18:10:52,  3.50it/s] 38%|███▊      | 142524/371472 [15:28<18:25:32,  3.45it/s] 38%|███▊      | 142525/371472 [15:28<18:46:42,  3.39it/s] 38%|███▊      | 142526/371472 [15:28<18:39:24,  3.41it/s] 38%|███▊      | 142527/371472 [15:29<18:01:33,  3.53it/s] 38%|███▊      | 142528/371472 [15:29<18:06:28,  3.51it/s] 38%|███▊      | 142529/371472 [15:29<18:28:56,  3.44it/s] 38%|███▊      | 142530/371472 [15:29<18:41:57,  3.40it/s] 38%|███▊      | 142531/371472 [15:30<18:36:46,  3.42it/s] 38%|███▊      | 142532/371472 [15:30<18:20:41,  3.47it/s] 38%|███▊      | 142533/371472 [15:30<18:14:09,  3.49it/s] 38%|███▊      | 142534/371472 [15:31<17:28:54,  3.64it/s] 38%|███▊      | 142535/371472 [15:31<17:54:38,  3.55it/s] 38%|███▊      | 142536/371472 [15:31<18:05:19,  3.52it/s] 38%|███▊      | 142537/371472 [15:31<17:30:14,  3.63it/s] 38%|███▊      | 142538/371472 [15:32<17:30:25,  3.63it/s] 38%|███▊      | 142539/371472 [15:32<17:10:00,  3.70it/s] 38%|███▊      | 142540/371472 [15:32<17:40:10,  3.60it/s]                                                          {'loss': 3.375, 'learning_rate': 6.549537805167101e-07, 'epoch': 6.14}
 38%|███▊      | 142540/371472 [15:32<17:40:10,  3.60it/s] 38%|███▊      | 142541/371472 [15:32<17:02:44,  3.73it/s] 38%|███▊      | 142542/371472 [15:33<16:40:33,  3.81it/s] 38%|███▊      | 142543/371472 [15:33<18:26:32,  3.45it/s] 38%|███▊      | 142544/371472 [15:33<18:25:00,  3.45it/s] 38%|███▊      | 142545/371472 [15:34<18:20:15,  3.47it/s] 38%|███▊      | 142546/371472 [15:34<17:25:46,  3.65it/s] 38%|███▊      | 142547/371472 [15:34<18:27:05,  3.45it/s] 38%|███▊      | 142548/371472 [15:34<18:18:49,  3.47it/s] 38%|███▊      | 142549/371472 [15:35<18:11:38,  3.50it/s] 38%|███▊      | 142550/371472 [15:35<17:46:46,  3.58it/s] 38%|███▊      | 142551/371472 [15:35<17:27:54,  3.64it/s] 38%|███▊      | 142552/371472 [15:36<18:16:37,  3.48it/s] 38%|███▊      | 142553/371472 [15:36<18:02:43,  3.52it/s] 38%|███▊      | 142554/371472 [15:36<17:58:30,  3.54it/s] 38%|███▊      | 142555/371472 [15:36<17:32:30,  3.62it/s] 38%|███▊      | 142556/371472 [15:37<17:15:44,  3.68it/s] 38%|███▊      | 142557/371472 [15:37<17:49:21,  3.57it/s] 38%|███▊      | 142558/371472 [15:37<17:42:55,  3.59it/s] 38%|███▊      | 142559/371472 [15:38<18:10:44,  3.50it/s] 38%|███▊      | 142560/371472 [15:38<19:34:01,  3.25it/s]                                                          {'loss': 3.1191, 'learning_rate': 6.549052985412312e-07, 'epoch': 6.14}
 38%|███▊      | 142560/371472 [15:38<19:34:01,  3.25it/s] 38%|███▊      | 142561/371472 [15:38<19:36:40,  3.24it/s] 38%|███▊      | 142562/371472 [15:38<19:19:38,  3.29it/s] 38%|███▊      | 142563/371472 [15:39<18:39:26,  3.41it/s] 38%|███▊      | 142564/371472 [15:39<18:55:18,  3.36it/s] 38%|███▊      | 142565/371472 [15:39<18:14:44,  3.48it/s] 38%|███▊      | 142566/371472 [15:40<17:43:40,  3.59it/s] 38%|███▊      | 142567/371472 [15:40<17:12:31,  3.69it/s] 38%|███▊      | 142568/371472 [15:40<16:51:14,  3.77it/s] 38%|███▊      | 142569/371472 [15:40<16:13:27,  3.92it/s] 38%|███▊      | 142570/371472 [15:41<17:44:10,  3.58it/s] 38%|███▊      | 142571/371472 [15:41<17:55:21,  3.55it/s] 38%|███▊      | 142572/371472 [15:41<17:50:57,  3.56it/s] 38%|███▊      | 142573/371472 [15:41<17:24:39,  3.65it/s] 38%|███▊      | 142574/371472 [15:42<17:05:27,  3.72it/s] 38%|███▊      | 142575/371472 [15:42<16:54:10,  3.76it/s] 38%|███▊      | 142576/371472 [15:42<17:01:36,  3.73it/s] 38%|███▊      | 142577/371472 [15:43<17:08:03,  3.71it/s] 38%|███▊      | 142578/371472 [15:43<17:46:54,  3.58it/s] 38%|███▊      | 142579/371472 [15:43<17:43:40,  3.59it/s] 38%|███▊      | 142580/371472 [15:43<17:34:49,  3.62it/s]                                                          {'loss': 3.152, 'learning_rate': 6.548568165657523e-07, 'epoch': 6.14}
 38%|███▊      | 142580/371472 [15:43<17:34:49,  3.62it/s] 38%|███▊      | 142581/371472 [15:44<19:13:58,  3.31it/s] 38%|███▊      | 142582/371472 [15:44<18:50:01,  3.38it/s] 38%|███▊      | 142583/371472 [15:44<17:51:41,  3.56it/s] 38%|███▊      | 142584/371472 [15:45<18:19:57,  3.47it/s] 38%|███▊      | 142585/371472 [15:45<18:03:20,  3.52it/s] 38%|███▊      | 142586/371472 [15:45<17:37:38,  3.61it/s] 38%|███▊      | 142587/371472 [15:45<18:24:16,  3.45it/s] 38%|███▊      | 142588/371472 [15:46<18:01:10,  3.53it/s] 38%|███▊      | 142589/371472 [15:46<17:19:48,  3.67it/s] 38%|███▊      | 142590/371472 [15:46<17:19:40,  3.67it/s] 38%|███▊      | 142591/371472 [15:47<18:12:48,  3.49it/s] 38%|███▊      | 142592/371472 [15:47<18:07:38,  3.51it/s] 38%|███▊      | 142593/371472 [15:47<17:29:59,  3.63it/s] 38%|███▊      | 142594/371472 [15:47<18:08:33,  3.50it/s] 38%|███▊      | 142595/371472 [15:48<18:04:28,  3.52it/s] 38%|███▊      | 142596/371472 [15:48<18:16:26,  3.48it/s] 38%|███▊      | 142597/371472 [15:48<17:56:06,  3.54it/s] 38%|███▊      | 142598/371472 [15:49<19:56:40,  3.19it/s] 38%|███▊      | 142599/371472 [15:49<19:09:54,  3.32it/s] 38%|███▊      | 142600/371472 [15:49<18:27:40,  3.44it/s]                                                          {'loss': 3.1816, 'learning_rate': 6.548083345902735e-07, 'epoch': 6.14}
 38%|███▊      | 142600/371472 [15:49<18:27:40,  3.44it/s] 38%|███▊      | 142601/371472 [15:49<18:00:34,  3.53it/s] 38%|███▊      | 142602/371472 [15:50<19:10:25,  3.32it/s] 38%|███▊      | 142603/371472 [15:50<18:27:25,  3.44it/s] 38%|███▊      | 142604/371472 [15:50<18:02:37,  3.52it/s] 38%|███▊      | 142605/371472 [15:51<19:12:11,  3.31it/s] 38%|███▊      | 142606/371472 [15:51<18:34:00,  3.42it/s] 38%|███▊      | 142607/371472 [15:51<17:49:36,  3.57it/s] 38%|███▊      | 142608/371472 [15:51<17:39:32,  3.60it/s] 38%|███▊      | 142609/371472 [15:52<17:08:03,  3.71it/s] 38%|███▊      | 142610/371472 [15:52<16:51:45,  3.77it/s] 38%|███▊      | 142611/371472 [15:52<16:45:00,  3.80it/s] 38%|███▊      | 142612/371472 [15:53<17:12:40,  3.69it/s] 38%|███▊      | 142613/371472 [15:53<17:41:16,  3.59it/s] 38%|███▊      | 142614/371472 [15:53<17:40:48,  3.60it/s] 38%|███▊      | 142615/371472 [15:53<17:05:29,  3.72it/s] 38%|███▊      | 142616/371472 [15:54<17:01:00,  3.74it/s] 38%|███▊      | 142617/371472 [15:54<17:49:32,  3.57it/s] 38%|███▊      | 142618/371472 [15:54<19:03:14,  3.34it/s] 38%|███▊      | 142619/371472 [15:54<17:56:00,  3.54it/s] 38%|███▊      | 142620/371472 [15:55<19:13:58,  3.31it/s]                                                          {'loss': 3.3129, 'learning_rate': 6.547598526147946e-07, 'epoch': 6.14}
 38%|███▊      | 142620/371472 [15:55<19:13:58,  3.31it/s] 38%|███▊      | 142621/371472 [15:55<18:44:14,  3.39it/s] 38%|███▊      | 142622/371472 [15:55<17:53:18,  3.55it/s] 38%|███▊      | 142623/371472 [15:56<17:33:22,  3.62it/s] 38%|███▊      | 142624/371472 [15:56<17:22:55,  3.66it/s] 38%|███▊      | 142625/371472 [15:56<18:16:25,  3.48it/s] 38%|███▊      | 142626/371472 [15:57<18:15:35,  3.48it/s] 38%|███▊      | 142627/371472 [15:57<19:09:15,  3.32it/s] 38%|███▊      | 142628/371472 [15:57<19:33:22,  3.25it/s] 38%|███▊      | 142629/371472 [15:57<18:20:41,  3.47it/s] 38%|███▊      | 142630/371472 [15:58<17:41:15,  3.59it/s] 38%|███▊      | 142631/371472 [15:58<17:18:20,  3.67it/s] 38%|███▊      | 142632/371472 [15:58<16:44:33,  3.80it/s] 38%|███▊      | 142633/371472 [15:58<16:49:09,  3.78it/s] 38%|███▊      | 142634/371472 [15:59<17:59:58,  3.53it/s] 38%|███▊      | 142635/371472 [15:59<18:17:13,  3.48it/s] 38%|███▊      | 142636/371472 [15:59<18:29:54,  3.44it/s] 38%|███▊      | 142637/371472 [16:00<17:33:18,  3.62it/s] 38%|███▊      | 142638/371472 [16:00<17:34:50,  3.62it/s] 38%|███▊      | 142639/371472 [16:00<17:44:45,  3.58it/s] 38%|███▊      | 142640/371472 [16:00<17:49:04,  3.57it/s]                                                          {'loss': 3.2779, 'learning_rate': 6.547113706393156e-07, 'epoch': 6.14}
 38%|███▊      | 142640/371472 [16:00<17:49:04,  3.57it/s] 38%|███▊      | 142641/371472 [16:01<17:52:56,  3.55it/s] 38%|███▊      | 142642/371472 [16:01<18:34:12,  3.42it/s] 38%|███▊      | 142643/371472 [16:01<18:48:48,  3.38it/s] 38%|███▊      | 142644/371472 [16:02<20:26:06,  3.11it/s] 38%|███▊      | 142645/371472 [16:02<19:45:46,  3.22it/s] 38%|███▊      | 142646/371472 [16:02<18:22:56,  3.46it/s] 38%|███▊      | 142647/371472 [16:03<18:27:10,  3.44it/s] 38%|███▊      | 142648/371472 [16:03<18:11:23,  3.49it/s] 38%|███▊      | 142649/371472 [16:03<18:01:08,  3.53it/s] 38%|███▊      | 142650/371472 [16:03<17:27:56,  3.64it/s] 38%|███▊      | 142651/371472 [16:04<18:26:01,  3.45it/s] 38%|███▊      | 142652/371472 [16:04<18:12:12,  3.49it/s] 38%|███▊      | 142653/371472 [16:04<18:10:16,  3.50it/s] 38%|███▊      | 142654/371472 [16:05<18:00:43,  3.53it/s] 38%|███▊      | 142655/371472 [16:05<17:25:25,  3.65it/s] 38%|███▊      | 142656/371472 [16:05<17:09:01,  3.71it/s] 38%|███▊      | 142657/371472 [16:05<17:00:38,  3.74it/s] 38%|███▊      | 142658/371472 [16:06<17:04:11,  3.72it/s] 38%|███▊      | 142659/371472 [16:06<18:52:40,  3.37it/s] 38%|███▊      | 142660/371472 [16:06<18:08:08,  3.50it/s]                                                          {'loss': 3.4062, 'learning_rate': 6.546628886638367e-07, 'epoch': 6.14}
 38%|███▊      | 142660/371472 [16:06<18:08:08,  3.50it/s] 38%|███▊      | 142661/371472 [16:07<18:58:28,  3.35it/s] 38%|███▊      | 142662/371472 [16:07<19:38:16,  3.24it/s] 38%|███▊      | 142663/371472 [16:07<18:46:32,  3.39it/s] 38%|███▊      | 142664/371472 [16:07<18:31:44,  3.43it/s] 38%|███▊      | 142665/371472 [16:08<18:38:49,  3.41it/s] 38%|███▊      | 142666/371472 [16:08<18:05:38,  3.51it/s] 38%|███▊      | 142667/371472 [16:08<17:10:50,  3.70it/s] 38%|███▊      | 142668/371472 [16:09<18:06:41,  3.51it/s] 38%|███▊      | 142669/371472 [16:09<18:45:45,  3.39it/s] 38%|███▊      | 142670/371472 [16:09<17:53:40,  3.55it/s] 38%|███▊      | 142671/371472 [16:09<17:43:31,  3.59it/s] 38%|███▊      | 142672/371472 [16:10<18:40:01,  3.40it/s] 38%|███▊      | 142673/371472 [16:10<17:43:45,  3.58it/s] 38%|███▊      | 142674/371472 [16:10<18:30:42,  3.43it/s] 38%|███▊      | 142675/371472 [16:11<18:17:30,  3.47it/s] 38%|███▊      | 142676/371472 [16:11<19:09:10,  3.32it/s] 38%|███▊      | 142677/371472 [16:11<18:29:47,  3.44it/s] 38%|███▊      | 142678/371472 [16:11<18:28:59,  3.44it/s] 38%|███▊      | 142679/371472 [16:12<17:34:25,  3.62it/s] 38%|███▊      | 142680/371472 [16:12<17:26:10,  3.64it/s]                                                          {'loss': 3.2035, 'learning_rate': 6.546144066883578e-07, 'epoch': 6.15}
 38%|███▊      | 142680/371472 [16:12<17:26:10,  3.64it/s] 38%|███▊      | 142681/371472 [16:12<17:03:28,  3.73it/s] 38%|███▊      | 142682/371472 [16:13<19:12:27,  3.31it/s] 38%|███▊      | 142683/371472 [16:13<20:08:18,  3.16it/s] 38%|███▊      | 142684/371472 [16:13<19:39:55,  3.23it/s] 38%|███▊      | 142685/371472 [16:14<19:37:21,  3.24it/s] 38%|███▊      | 142686/371472 [16:14<19:04:13,  3.33it/s] 38%|███▊      | 142687/371472 [16:14<18:38:22,  3.41it/s] 38%|███▊      | 142688/371472 [16:14<17:46:04,  3.58it/s] 38%|███▊      | 142689/371472 [16:15<18:19:59,  3.47it/s] 38%|███▊      | 142690/371472 [16:15<17:55:18,  3.55it/s] 38%|███▊      | 142691/371472 [16:15<19:02:37,  3.34it/s] 38%|███▊      | 142692/371472 [16:15<18:01:06,  3.53it/s] 38%|███▊      | 142693/371472 [16:16<18:10:00,  3.50it/s] 38%|███▊      | 142694/371472 [16:16<19:03:33,  3.33it/s] 38%|███▊      | 142695/371472 [16:16<18:29:33,  3.44it/s] 38%|███▊      | 142696/371472 [16:17<18:06:54,  3.51it/s] 38%|███▊      | 142697/371472 [16:17<19:13:15,  3.31it/s] 38%|███▊      | 142698/371472 [16:17<18:06:03,  3.51it/s] 38%|███▊      | 142699/371472 [16:17<17:33:19,  3.62it/s] 38%|███▊      | 142700/371472 [16:18<17:30:33,  3.63it/s]                                                          {'loss': 3.3191, 'learning_rate': 6.545659247128789e-07, 'epoch': 6.15}
 38%|███▊      | 142700/371472 [16:18<17:30:33,  3.63it/s] 38%|███▊      | 142701/371472 [16:18<17:41:08,  3.59it/s] 38%|███▊      | 142702/371472 [16:18<17:39:35,  3.60it/s] 38%|███▊      | 142703/371472 [16:19<17:13:42,  3.69it/s] 38%|███▊      | 142704/371472 [16:19<16:59:12,  3.74it/s] 38%|███▊      | 142705/371472 [16:19<16:42:47,  3.80it/s] 38%|███▊      | 142706/371472 [16:19<16:43:51,  3.80it/s] 38%|███▊      | 142707/371472 [16:20<17:40:18,  3.60it/s] 38%|███▊      | 142708/371472 [16:20<17:40:28,  3.60it/s] 38%|███▊      | 142709/371472 [16:20<18:06:51,  3.51it/s] 38%|███▊      | 142710/371472 [16:21<18:19:58,  3.47it/s] 38%|███▊      | 142711/371472 [16:21<17:36:41,  3.61it/s] 38%|███▊      | 142712/371472 [16:21<17:31:41,  3.63it/s] 38%|███▊      | 142713/371472 [16:21<18:22:54,  3.46it/s] 38%|███▊      | 142714/371472 [16:22<17:42:39,  3.59it/s] 38%|███▊      | 142715/371472 [16:22<17:09:19,  3.70it/s] 38%|███▊      | 142716/371472 [16:22<16:44:03,  3.80it/s] 38%|███▊      | 142717/371472 [16:22<17:15:29,  3.68it/s] 38%|███▊      | 142718/371472 [16:23<17:04:11,  3.72it/s] 38%|███▊      | 142719/371472 [16:23<16:48:43,  3.78it/s] 38%|███▊      | 142720/371472 [16:23<16:53:12,  3.76it/s]                                                          {'loss': 3.475, 'learning_rate': 6.545174427374e-07, 'epoch': 6.15}
 38%|███▊      | 142720/371472 [16:23<16:53:12,  3.76it/s] 38%|███▊      | 142721/371472 [16:23<16:55:21,  3.75it/s] 38%|███▊      | 142722/371472 [16:24<16:39:10,  3.82it/s] 38%|███▊      | 142723/371472 [16:24<18:45:57,  3.39it/s] 38%|███▊      | 142724/371472 [16:24<18:25:10,  3.45it/s] 38%|███▊      | 142725/371472 [16:25<19:01:01,  3.34it/s] 38%|███▊      | 142726/371472 [16:25<18:37:19,  3.41it/s] 38%|███▊      | 142727/371472 [16:25<18:25:48,  3.45it/s] 38%|███▊      | 142728/371472 [16:26<19:39:36,  3.23it/s] 38%|███▊      | 142729/371472 [16:26<18:25:25,  3.45it/s] 38%|███▊      | 142730/371472 [16:26<17:45:41,  3.58it/s] 38%|███▊      | 142731/371472 [16:26<17:11:58,  3.69it/s] 38%|███▊      | 142732/371472 [16:27<16:51:44,  3.77it/s] 38%|███▊      | 142733/371472 [16:27<17:11:49,  3.69it/s] 38%|███▊      | 142734/371472 [16:27<17:41:59,  3.59it/s] 38%|███▊      | 142735/371472 [16:27<17:29:09,  3.63it/s] 38%|███▊      | 142736/371472 [16:28<17:31:51,  3.62it/s] 38%|███▊      | 142737/371472 [16:28<17:41:23,  3.59it/s] 38%|███▊      | 142738/371472 [16:28<17:50:51,  3.56it/s] 38%|███▊      | 142739/371472 [16:29<18:11:44,  3.49it/s] 38%|███▊      | 142740/371472 [16:29<18:04:16,  3.52it/s]                                                          {'loss': 3.1787, 'learning_rate': 6.544689607619212e-07, 'epoch': 6.15}
 38%|███▊      | 142740/371472 [16:29<18:04:16,  3.52it/s] 38%|███▊      | 142741/371472 [16:29<17:35:27,  3.61it/s] 38%|███▊      | 142742/371472 [16:29<18:30:27,  3.43it/s] 38%|███▊      | 142743/371472 [16:30<18:33:12,  3.42it/s] 38%|███▊      | 142744/371472 [16:30<18:27:58,  3.44it/s] 38%|███▊      | 142745/371472 [16:30<18:19:09,  3.47it/s] 38%|███▊      | 142746/371472 [16:31<17:48:50,  3.57it/s] 38%|███▊      | 142747/371472 [16:31<17:51:57,  3.56it/s] 38%|███▊      | 142748/371472 [16:31<19:48:36,  3.21it/s] 38%|███▊      | 142749/371472 [16:32<18:55:24,  3.36it/s] 38%|███▊      | 142750/371472 [16:32<20:00:45,  3.17it/s] 38%|███▊      | 142751/371472 [16:32<19:11:13,  3.31it/s] 38%|███▊      | 142752/371472 [16:32<18:44:44,  3.39it/s] 38%|███▊      | 142753/371472 [16:33<18:12:50,  3.49it/s] 38%|███▊      | 142754/371472 [16:33<19:11:52,  3.31it/s] 38%|███▊      | 142755/371472 [16:33<18:44:50,  3.39it/s] 38%|███▊      | 142756/371472 [16:34<18:57:24,  3.35it/s] 38%|███▊      | 142757/371472 [16:34<18:09:18,  3.50it/s] 38%|███▊      | 142758/371472 [16:34<18:11:32,  3.49it/s] 38%|███▊      | 142759/371472 [16:35<19:02:46,  3.34it/s] 38%|███▊      | 142760/371472 [16:35<18:15:12,  3.48it/s]                                                          {'loss': 3.14, 'learning_rate': 6.544204787864422e-07, 'epoch': 6.15}
 38%|███▊      | 142760/371472 [16:35<18:15:12,  3.48it/s] 38%|███▊      | 142761/371472 [16:35<19:00:49,  3.34it/s] 38%|███▊      | 142762/371472 [16:35<19:19:52,  3.29it/s] 38%|███▊      | 142763/371472 [16:36<19:16:11,  3.30it/s] 38%|███▊      | 142764/371472 [16:36<20:24:57,  3.11it/s] 38%|███▊      | 142765/371472 [16:36<20:07:25,  3.16it/s] 38%|███▊      | 142766/371472 [16:37<18:55:21,  3.36it/s] 38%|███▊      | 142767/371472 [16:37<19:30:20,  3.26it/s] 38%|███▊      | 142768/371472 [16:37<18:40:17,  3.40it/s] 38%|███▊      | 142769/371472 [16:38<19:52:48,  3.20it/s] 38%|███▊      | 142770/371472 [16:38<18:58:27,  3.35it/s] 38%|███▊      | 142771/371472 [16:38<18:36:54,  3.41it/s] 38%|███▊      | 142772/371472 [16:38<18:10:58,  3.49it/s] 38%|███▊      | 142773/371472 [16:39<17:53:59,  3.55it/s] 38%|███▊      | 142774/371472 [16:39<17:44:46,  3.58it/s] 38%|███▊      | 142775/371472 [16:39<17:36:56,  3.61it/s] 38%|███▊      | 142776/371472 [16:39<17:02:18,  3.73it/s] 38%|███▊      | 142777/371472 [16:40<17:10:30,  3.70it/s] 38%|███▊      | 142778/371472 [16:40<17:06:00,  3.71it/s] 38%|███▊      | 142779/371472 [16:40<17:15:00,  3.68it/s] 38%|███▊      | 142780/371472 [16:41<17:04:59,  3.72it/s]                                                          {'loss': 3.2088, 'learning_rate': 6.543719968109633e-07, 'epoch': 6.15}
 38%|███▊      | 142780/371472 [16:41<17:04:59,  3.72it/s] 38%|███▊      | 142781/371472 [16:41<17:03:43,  3.72it/s] 38%|███▊      | 142782/371472 [16:41<16:33:25,  3.84it/s] 38%|███▊      | 142783/371472 [16:41<17:36:51,  3.61it/s] 38%|███▊      | 142784/371472 [16:42<17:22:55,  3.65it/s] 38%|███▊      | 142785/371472 [16:42<17:49:57,  3.56it/s] 38%|███▊      | 142786/371472 [16:42<17:40:04,  3.60it/s] 38%|███▊      | 142787/371472 [16:42<17:03:06,  3.73it/s] 38%|███▊      | 142788/371472 [16:43<18:24:15,  3.45it/s] 38%|███▊      | 142789/371472 [16:43<17:59:03,  3.53it/s] 38%|███▊      | 142790/371472 [16:43<17:40:06,  3.60it/s] 38%|███▊      | 142791/371472 [16:44<17:54:14,  3.55it/s] 38%|███▊      | 142792/371472 [16:44<17:36:31,  3.61it/s] 38%|███▊      | 142793/371472 [16:44<17:29:32,  3.63it/s] 38%|███▊      | 142794/371472 [16:44<18:20:14,  3.46it/s] 38%|███▊      | 142795/371472 [16:45<18:04:29,  3.51it/s] 38%|███▊      | 142796/371472 [16:45<17:27:38,  3.64it/s] 38%|███▊      | 142797/371472 [16:45<17:56:29,  3.54it/s] 38%|███▊      | 142798/371472 [16:46<17:35:47,  3.61it/s] 38%|███▊      | 142799/371472 [16:46<17:18:01,  3.67it/s] 38%|███▊      | 142800/371472 [16:46<18:53:21,  3.36it/s]                                                          {'loss': 3.3459, 'learning_rate': 6.543235148354844e-07, 'epoch': 6.15}
 38%|███▊      | 142800/371472 [16:46<18:53:21,  3.36it/s] 38%|███▊      | 142801/371472 [16:46<18:05:31,  3.51it/s] 38%|███▊      | 142802/371472 [16:47<17:57:51,  3.54it/s] 38%|███▊      | 142803/371472 [16:47<17:35:43,  3.61it/s] 38%|███▊      | 142804/371472 [16:47<17:38:22,  3.60it/s] 38%|███▊      | 142805/371472 [16:48<17:18:57,  3.67it/s] 38%|███▊      | 142806/371472 [16:48<17:50:38,  3.56it/s] 38%|███▊      | 142807/371472 [16:48<18:02:42,  3.52it/s] 38%|███▊      | 142808/371472 [16:48<17:56:33,  3.54it/s] 38%|███▊      | 142809/371472 [16:49<20:23:08,  3.12it/s] 38%|███▊      | 142810/371472 [16:49<19:36:04,  3.24it/s] 38%|███▊      | 142811/371472 [16:49<18:24:28,  3.45it/s] 38%|███▊      | 142812/371472 [16:50<17:45:24,  3.58it/s] 38%|███▊      | 142813/371472 [16:50<17:15:11,  3.68it/s] 38%|███▊      | 142814/371472 [16:50<18:30:29,  3.43it/s] 38%|███▊      | 142815/371472 [16:50<18:05:30,  3.51it/s] 38%|███▊      | 142816/371472 [16:51<17:52:40,  3.55it/s] 38%|███▊      | 142817/371472 [16:51<17:17:31,  3.67it/s] 38%|███▊      | 142818/371472 [16:51<19:03:45,  3.33it/s] 38%|███▊      | 142819/371472 [16:52<19:28:09,  3.26it/s] 38%|███▊      | 142820/371472 [16:52<19:48:13,  3.21it/s]                                                          {'loss': 3.2591, 'learning_rate': 6.542750328600056e-07, 'epoch': 6.15}
 38%|███▊      | 142820/371472 [16:52<19:48:13,  3.21it/s] 38%|███▊      | 142821/371472 [16:52<18:50:11,  3.37it/s] 38%|███▊      | 142822/371472 [16:53<18:15:43,  3.48it/s] 38%|███▊      | 142823/371472 [16:53<18:17:18,  3.47it/s] 38%|███▊      | 142824/371472 [16:53<18:21:57,  3.46it/s] 38%|███▊      | 142825/371472 [16:53<17:55:22,  3.54it/s] 38%|███▊      | 142826/371472 [16:54<20:09:55,  3.15it/s] 38%|███▊      | 142827/371472 [16:54<19:24:04,  3.27it/s] 38%|███▊      | 142828/371472 [16:54<18:59:14,  3.34it/s] 38%|███▊      | 142829/371472 [16:55<18:09:27,  3.50it/s] 38%|███▊      | 142830/371472 [16:55<19:25:00,  3.27it/s] 38%|███▊      | 142831/371472 [16:55<18:28:18,  3.44it/s] 38%|███▊      | 142832/371472 [16:55<18:10:41,  3.49it/s] 38%|███▊      | 142833/371472 [16:56<17:46:27,  3.57it/s] 38%|███▊      | 142834/371472 [16:56<18:04:51,  3.51it/s] 38%|███▊      | 142835/371472 [16:56<17:58:22,  3.53it/s] 38%|███▊      | 142836/371472 [16:57<18:46:50,  3.38it/s] 38%|███▊      | 142837/371472 [16:57<19:10:21,  3.31it/s] 38%|███▊      | 142838/371472 [16:57<18:25:39,  3.45it/s] 38%|███▊      | 142839/371472 [16:58<19:09:38,  3.31it/s] 38%|███▊      | 142840/371472 [16:58<18:10:14,  3.50it/s]                                                          {'loss': 3.1556, 'learning_rate': 6.542265508845267e-07, 'epoch': 6.15}
 38%|███▊      | 142840/371472 [16:58<18:10:14,  3.50it/s] 38%|███▊      | 142841/371472 [16:58<18:20:22,  3.46it/s] 38%|███▊      | 142842/371472 [16:58<18:04:33,  3.51it/s] 38%|███▊      | 142843/371472 [16:59<19:39:07,  3.23it/s] 38%|███▊      | 142844/371472 [16:59<18:40:43,  3.40it/s] 38%|███▊      | 142845/371472 [16:59<19:19:17,  3.29it/s] 38%|███▊      | 142846/371472 [17:00<20:17:51,  3.13it/s] 38%|███▊      | 142847/371472 [17:00<19:13:23,  3.30it/s] 38%|███▊      | 142848/371472 [17:00<18:43:06,  3.39it/s] 38%|███▊      | 142849/371472 [17:00<18:48:12,  3.38it/s] 38%|███▊      | 142850/371472 [17:01<18:29:09,  3.44it/s] 38%|███▊      | 142851/371472 [17:01<19:17:50,  3.29it/s] 38%|███▊      | 142852/371472 [17:01<19:06:02,  3.32it/s] 38%|███▊      | 142853/371472 [17:02<18:26:48,  3.44it/s] 38%|███▊      | 142854/371472 [17:02<19:07:00,  3.32it/s] 38%|███▊      | 142855/371472 [17:02<18:50:08,  3.37it/s] 38%|███▊      | 142856/371472 [17:03<17:43:03,  3.58it/s] 38%|███▊      | 142857/371472 [17:03<17:05:58,  3.71it/s] 38%|███▊      | 142858/371472 [17:03<18:15:52,  3.48it/s] 38%|███▊      | 142859/371472 [17:03<18:54:25,  3.36it/s] 38%|███▊      | 142860/371472 [17:04<19:09:02,  3.32it/s]                                                          {'loss': 3.1414, 'learning_rate': 6.541780689090478e-07, 'epoch': 6.15}
 38%|███▊      | 142860/371472 [17:04<19:09:02,  3.32it/s] 38%|███▊      | 142861/371472 [17:04<18:39:12,  3.40it/s] 38%|███▊      | 142862/371472 [17:04<18:08:56,  3.50it/s] 38%|███▊      | 142863/371472 [17:05<18:57:54,  3.35it/s] 38%|███▊      | 142864/371472 [17:05<18:18:16,  3.47it/s] 38%|███▊      | 142865/371472 [17:05<17:52:40,  3.55it/s] 38%|███▊      | 142866/371472 [17:05<17:28:47,  3.63it/s] 38%|███▊      | 142867/371472 [17:06<18:04:33,  3.51it/s] 38%|███▊      | 142868/371472 [17:06<17:30:59,  3.63it/s] 38%|███▊      | 142869/371472 [17:06<17:26:56,  3.64it/s] 38%|███▊      | 142870/371472 [17:07<18:59:36,  3.34it/s] 38%|███▊      | 142871/371472 [17:07<18:47:34,  3.38it/s] 38%|███▊      | 142872/371472 [17:07<18:00:15,  3.53it/s] 38%|███▊      | 142873/371472 [17:07<19:05:19,  3.33it/s] 38%|███▊      | 142874/371472 [17:08<18:56:15,  3.35it/s] 38%|███▊      | 142875/371472 [17:08<17:49:46,  3.56it/s] 38%|███▊      | 142876/371472 [17:08<18:03:25,  3.52it/s] 38%|███▊      | 142877/371472 [17:09<18:22:25,  3.46it/s] 38%|███▊      | 142878/371472 [17:09<18:30:13,  3.43it/s] 38%|███▊      | 142879/371472 [17:09<18:17:59,  3.47it/s] 38%|███▊      | 142880/371472 [17:09<18:22:08,  3.46it/s]                                                          {'loss': 3.2962, 'learning_rate': 6.541295869335689e-07, 'epoch': 6.15}
 38%|███▊      | 142880/371472 [17:09<18:22:08,  3.46it/s] 38%|███▊      | 142881/371472 [17:10<18:19:41,  3.46it/s] 38%|███▊      | 142882/371472 [17:10<19:23:32,  3.27it/s] 38%|███▊      | 142883/371472 [17:10<19:13:52,  3.30it/s] 38%|███▊      | 142884/371472 [17:11<18:13:20,  3.48it/s] 38%|███▊      | 142885/371472 [17:11<20:32:43,  3.09it/s] 38%|███▊      | 142886/371472 [17:11<19:25:22,  3.27it/s] 38%|███▊      | 142887/371472 [17:12<19:08:29,  3.32it/s] 38%|███▊      | 142888/371472 [17:12<18:49:46,  3.37it/s] 38%|███▊      | 142889/371472 [17:12<19:33:51,  3.25it/s] 38%|███▊      | 142890/371472 [17:13<19:17:50,  3.29it/s] 38%|███▊      | 142891/371472 [17:13<18:08:21,  3.50it/s] 38%|███▊      | 142892/371472 [17:13<18:57:26,  3.35it/s] 38%|███▊      | 142893/371472 [17:13<18:25:27,  3.45it/s] 38%|███▊      | 142894/371472 [17:14<17:32:37,  3.62it/s] 38%|███▊      | 142895/371472 [17:14<17:53:21,  3.55it/s] 38%|███▊      | 142896/371472 [17:14<18:26:11,  3.44it/s] 38%|███▊      | 142897/371472 [17:14<17:50:37,  3.56it/s] 38%|███▊      | 142898/371472 [17:15<17:32:15,  3.62it/s] 38%|███▊      | 142899/371472 [17:15<16:59:21,  3.74it/s] 38%|███▊      | 142900/371472 [17:15<17:25:24,  3.64it/s]                                                          {'loss': 3.1864, 'learning_rate': 6.5408110495809e-07, 'epoch': 6.15}
 38%|███▊      | 142900/371472 [17:15<17:25:24,  3.64it/s] 38%|███▊      | 142901/371472 [17:16<17:09:57,  3.70it/s] 38%|███▊      | 142902/371472 [17:16<16:33:17,  3.84it/s] 38%|███▊      | 142903/371472 [17:16<15:58:19,  3.98it/s] 38%|███▊      | 142904/371472 [17:16<15:40:19,  4.05it/s] 38%|███▊      | 142905/371472 [17:17<16:36:36,  3.82it/s] 38%|███▊      | 142906/371472 [17:17<17:45:24,  3.58it/s] 38%|███▊      | 142907/371472 [17:17<17:46:52,  3.57it/s] 38%|███▊      | 142908/371472 [17:17<17:58:52,  3.53it/s] 38%|███▊      | 142909/371472 [17:18<17:30:51,  3.63it/s] 38%|███▊      | 142910/371472 [17:18<16:54:44,  3.75it/s] 38%|███▊      | 142911/371472 [17:18<16:42:25,  3.80it/s] 38%|███▊      | 142912/371472 [17:18<16:49:43,  3.77it/s] 38%|███▊      | 142913/371472 [17:19<16:49:50,  3.77it/s] 38%|███▊      | 142914/371472 [17:19<17:09:05,  3.70it/s] 38%|███▊      | 142915/371472 [17:19<17:29:37,  3.63it/s] 38%|███▊      | 142916/371472 [17:20<16:53:48,  3.76it/s] 38%|███▊      | 142917/371472 [17:20<16:25:25,  3.87it/s] 38%|███▊      | 142918/371472 [17:20<18:16:44,  3.47it/s] 38%|███▊      | 142919/371472 [17:20<18:12:56,  3.49it/s] 38%|███▊      | 142920/371472 [17:21<18:06:04,  3.51it/s]                                                          {'loss': 3.2076, 'learning_rate': 6.540326229826111e-07, 'epoch': 6.16}
 38%|███▊      | 142920/371472 [17:21<18:06:04,  3.51it/s] 38%|███▊      | 142921/371472 [17:21<18:51:04,  3.37it/s] 38%|███▊      | 142922/371472 [17:21<17:38:31,  3.60it/s] 38%|███▊      | 142923/371472 [17:22<17:48:57,  3.56it/s] 38%|███▊      | 142924/371472 [17:22<17:38:04,  3.60it/s] 38%|███▊      | 142925/371472 [17:22<17:11:22,  3.69it/s] 38%|███▊      | 142926/371472 [17:22<17:28:57,  3.63it/s] 38%|███▊      | 142927/371472 [17:23<18:12:54,  3.49it/s] 38%|███▊      | 142928/371472 [17:23<18:25:43,  3.44it/s] 38%|███▊      | 142929/371472 [17:23<17:57:12,  3.54it/s] 38%|███▊      | 142930/371472 [17:23<17:34:47,  3.61it/s] 38%|███▊      | 142931/371472 [17:24<17:32:37,  3.62it/s] 38%|███▊      | 142932/371472 [17:24<17:39:56,  3.59it/s] 38%|███▊      | 142933/371472 [17:24<17:22:59,  3.65it/s] 38%|███▊      | 142934/371472 [17:25<17:16:49,  3.67it/s] 38%|███▊      | 142935/371472 [17:25<17:10:26,  3.70it/s] 38%|███▊      | 142936/371472 [17:25<16:45:27,  3.79it/s] 38%|███▊      | 142937/371472 [17:25<17:23:37,  3.65it/s] 38%|███▊      | 142938/371472 [17:26<19:16:21,  3.29it/s] 38%|███▊      | 142939/371472 [17:26<18:36:19,  3.41it/s] 38%|███▊      | 142940/371472 [17:26<18:14:11,  3.48it/s]                                                          {'loss': 3.1735, 'learning_rate': 6.539841410071322e-07, 'epoch': 6.16}
 38%|███▊      | 142940/371472 [17:26<18:14:11,  3.48it/s] 38%|███▊      | 142941/371472 [17:27<18:38:03,  3.41it/s] 38%|███▊      | 142942/371472 [17:27<19:21:13,  3.28it/s] 38%|███▊      | 142943/371472 [17:27<18:49:46,  3.37it/s] 38%|███▊      | 142944/371472 [17:28<18:30:44,  3.43it/s] 38%|███▊      | 142945/371472 [17:28<17:56:26,  3.54it/s] 38%|███▊      | 142946/371472 [17:28<18:10:37,  3.49it/s] 38%|███▊      | 142947/371472 [17:28<18:14:14,  3.48it/s] 38%|███▊      | 142948/371472 [17:29<18:16:11,  3.47it/s] 38%|███▊      | 142949/371472 [17:29<18:06:13,  3.51it/s] 38%|███▊      | 142950/371472 [17:29<17:27:22,  3.64it/s] 38%|███▊      | 142951/371472 [17:29<17:55:05,  3.54it/s] 38%|███▊      | 142952/371472 [17:30<18:00:06,  3.53it/s] 38%|███▊      | 142953/371472 [17:30<19:24:59,  3.27it/s] 38%|███▊      | 142954/371472 [17:30<18:51:18,  3.37it/s] 38%|███▊      | 142955/371472 [17:31<17:48:34,  3.56it/s] 38%|███▊      | 142956/371472 [17:31<18:19:57,  3.46it/s] 38%|███▊      | 142957/371472 [17:31<17:54:30,  3.54it/s] 38%|███▊      | 142958/371472 [17:31<17:23:25,  3.65it/s] 38%|███▊      | 142959/371472 [17:32<19:45:50,  3.21it/s] 38%|███▊      | 142960/371472 [17:32<19:00:00,  3.34it/s]                                                          {'loss': 3.1807, 'learning_rate': 6.539356590316533e-07, 'epoch': 6.16}
 38%|███▊      | 142960/371472 [17:32<19:00:00,  3.34it/s] 38%|███▊      | 142961/371472 [17:32<18:08:32,  3.50it/s] 38%|███▊      | 142962/371472 [17:33<17:53:45,  3.55it/s] 38%|███▊      | 142963/371472 [17:33<18:22:05,  3.46it/s] 38%|███▊      | 142964/371472 [17:33<18:08:36,  3.50it/s] 38%|███▊      | 142965/371472 [17:34<17:50:51,  3.56it/s] 38%|███▊      | 142966/371472 [17:34<17:52:20,  3.55it/s] 38%|███▊      | 142967/371472 [17:34<17:34:45,  3.61it/s] 38%|███▊      | 142968/371472 [17:34<18:09:54,  3.49it/s] 38%|███▊      | 142969/371472 [17:35<17:29:30,  3.63it/s] 38%|███▊      | 142970/371472 [17:35<18:59:51,  3.34it/s] 38%|███▊      | 142971/371472 [17:35<17:59:53,  3.53it/s] 38%|███▊      | 142972/371472 [17:35<17:40:53,  3.59it/s] 38%|███▊      | 142973/371472 [17:36<17:23:57,  3.65it/s] 38%|███▊      | 142974/371472 [17:36<17:11:10,  3.69it/s] 38%|███▊      | 142975/371472 [17:36<20:39:28,  3.07it/s] 38%|███▊      | 142976/371472 [17:37<20:00:45,  3.17it/s] 38%|███▊      | 142977/371472 [17:37<19:15:12,  3.30it/s] 38%|███▊      | 142978/371472 [17:37<18:37:47,  3.41it/s] 38%|███▊      | 142979/371472 [17:38<19:10:50,  3.31it/s] 38%|███▊      | 142980/371472 [17:38<18:18:12,  3.47it/s]                                                          {'loss': 3.3265, 'learning_rate': 6.538871770561744e-07, 'epoch': 6.16}
 38%|███▊      | 142980/371472 [17:38<18:18:12,  3.47it/s] 38%|███▊      | 142981/371472 [17:38<18:29:24,  3.43it/s] 38%|███▊      | 142982/371472 [17:38<17:59:53,  3.53it/s] 38%|███▊      | 142983/371472 [17:39<18:40:53,  3.40it/s] 38%|███▊      | 142984/371472 [17:39<18:19:35,  3.46it/s] 38%|███▊      | 142985/371472 [17:39<17:32:53,  3.62it/s] 38%|███▊      | 142986/371472 [17:40<17:52:12,  3.55it/s] 38%|███▊      | 142987/371472 [17:40<17:32:25,  3.62it/s] 38%|███▊      | 142988/371472 [17:40<17:02:49,  3.72it/s] 38%|███▊      | 142989/371472 [17:40<17:57:06,  3.54it/s] 38%|███▊      | 142990/371472 [17:41<17:42:55,  3.58it/s] 38%|███▊      | 142991/371472 [17:41<17:41:37,  3.59it/s] 38%|███▊      | 142992/371472 [17:41<17:50:13,  3.56it/s] 38%|███▊      | 142993/371472 [17:42<17:32:57,  3.62it/s] 38%|███▊      | 142994/371472 [17:42<17:02:02,  3.73it/s] 38%|███▊      | 142995/371472 [17:42<16:49:04,  3.77it/s] 38%|███▊      | 142996/371472 [17:42<18:42:59,  3.39it/s] 38%|███▊      | 142997/371472 [17:43<18:10:25,  3.49it/s] 38%|███▊      | 142998/371472 [17:43<17:41:32,  3.59it/s] 38%|███▊      | 142999/371472 [17:43<17:53:07,  3.55it/s] 38%|███▊      | 143000/371472 [17:43<17:55:22,  3.54it/s]                                                          {'loss': 3.1702, 'learning_rate': 6.538386950806956e-07, 'epoch': 6.16}
 38%|███▊      | 143000/371472 [17:43<17:55:22,  3.54it/s] 38%|███▊      | 143001/371472 [17:44<18:02:41,  3.52it/s] 38%|███▊      | 143002/371472 [17:44<17:45:53,  3.57it/s] 38%|███▊      | 143003/371472 [17:44<17:14:54,  3.68it/s] 38%|███▊      | 143004/371472 [17:45<16:48:09,  3.78it/s] 38%|███▊      | 143005/371472 [17:45<16:54:34,  3.75it/s] 38%|███▊      | 143006/371472 [17:45<17:13:54,  3.68it/s] 38%|███▊      | 143007/371472 [17:45<16:52:11,  3.76it/s] 38%|███▊      | 143008/371472 [17:46<17:54:36,  3.54it/s] 38%|███▊      | 143009/371472 [17:46<17:28:00,  3.63it/s] 38%|███▊      | 143010/371472 [17:46<20:03:33,  3.16it/s] 38%|███▊      | 143011/371472 [17:47<19:51:30,  3.20it/s] 38%|███▊      | 143012/371472 [17:47<19:33:50,  3.24it/s] 38%|███▊      | 143013/371472 [17:47<18:55:27,  3.35it/s] 38%|███▊      | 143014/371472 [17:47<18:11:44,  3.49it/s] 38%|███▊      | 143015/371472 [17:48<17:57:13,  3.53it/s] 38%|███▊      | 143016/371472 [17:48<17:32:53,  3.62it/s] 39%|███▊      | 143017/371472 [17:48<18:18:57,  3.46it/s] 39%|███▊      | 143018/371472 [17:49<19:11:55,  3.31it/s] 39%|███▊      | 143019/371472 [17:49<18:30:16,  3.43it/s] 39%|███▊      | 143020/371472 [17:49<18:10:46,  3.49it/s]                                                          {'loss': 3.2598, 'learning_rate': 6.537902131052165e-07, 'epoch': 6.16}
 39%|███▊      | 143020/371472 [17:49<18:10:46,  3.49it/s] 39%|███▊      | 143021/371472 [17:49<18:03:13,  3.51it/s] 39%|███▊      | 143022/371472 [17:50<18:18:20,  3.47it/s] 39%|███▊      | 143023/371472 [17:50<18:12:58,  3.48it/s] 39%|███▊      | 143024/371472 [17:50<18:04:25,  3.51it/s] 39%|███▊      | 143025/371472 [17:51<17:34:24,  3.61it/s] 39%|███▊      | 143026/371472 [17:51<16:54:23,  3.75it/s] 39%|███▊      | 143027/371472 [17:51<17:01:36,  3.73it/s] 39%|███▊      | 143028/371472 [17:51<18:29:59,  3.43it/s] 39%|███▊      | 143029/371472 [17:52<18:31:21,  3.43it/s] 39%|███▊      | 143030/371472 [17:52<17:57:14,  3.53it/s] 39%|███▊      | 143031/371472 [17:52<17:43:33,  3.58it/s] 39%|███▊      | 143032/371472 [17:53<16:57:26,  3.74it/s] 39%|███▊      | 143033/371472 [17:53<17:09:23,  3.70it/s] 39%|███▊      | 143034/371472 [17:53<17:15:00,  3.68it/s] 39%|███▊      | 143035/371472 [17:53<17:11:27,  3.69it/s] 39%|███▊      | 143036/371472 [17:54<17:05:53,  3.71it/s] 39%|███▊      | 143037/371472 [17:54<19:55:54,  3.18it/s] 39%|███▊      | 143038/371472 [17:54<18:57:18,  3.35it/s] 39%|███▊      | 143039/371472 [17:55<18:15:59,  3.47it/s] 39%|███▊      | 143040/371472 [17:55<18:08:01,  3.50it/s]                                                          {'loss': 3.2756, 'learning_rate': 6.537417311297377e-07, 'epoch': 6.16}
 39%|███▊      | 143040/371472 [17:55<18:08:01,  3.50it/s] 39%|███▊      | 143041/371472 [17:55<18:05:31,  3.51it/s] 39%|███▊      | 143042/371472 [17:55<18:59:05,  3.34it/s] 39%|███▊      | 143043/371472 [17:56<18:01:33,  3.52it/s] 39%|███▊      | 143044/371472 [17:56<17:41:55,  3.59it/s] 39%|███▊      | 143045/371472 [17:56<18:10:11,  3.49it/s] 39%|███▊      | 143046/371472 [17:57<17:50:44,  3.56it/s] 39%|███▊      | 143047/371472 [17:57<18:54:53,  3.35it/s] 39%|███▊      | 143048/371472 [17:57<18:36:48,  3.41it/s] 39%|███▊      | 143049/371472 [17:57<18:15:55,  3.47it/s] 39%|███▊      | 143050/371472 [17:58<18:22:07,  3.45it/s] 39%|███▊      | 143051/371472 [17:58<18:17:53,  3.47it/s] 39%|███▊      | 143052/371472 [17:58<19:27:28,  3.26it/s] 39%|███▊      | 143053/371472 [17:59<20:26:24,  3.10it/s] 39%|███▊      | 143054/371472 [17:59<20:56:33,  3.03it/s] 39%|███▊      | 143055/371472 [17:59<19:40:26,  3.23it/s] 39%|███▊      | 143056/371472 [18:00<18:53:50,  3.36it/s] 39%|███▊      | 143057/371472 [18:00<19:22:49,  3.27it/s] 39%|███▊      | 143058/371472 [18:00<18:48:27,  3.37it/s] 39%|███▊      | 143059/371472 [18:00<18:13:27,  3.48it/s] 39%|███▊      | 143060/371472 [18:01<18:14:42,  3.48it/s]                                                          {'loss': 3.1313, 'learning_rate': 6.536932491542588e-07, 'epoch': 6.16}
 39%|███▊      | 143060/371472 [18:01<18:14:42,  3.48it/s] 39%|███▊      | 143061/371472 [18:01<18:58:17,  3.34it/s] 39%|███▊      | 143062/371472 [18:01<18:17:28,  3.47it/s] 39%|███▊      | 143063/371472 [18:02<18:24:40,  3.45it/s] 39%|███▊      | 143064/371472 [18:02<18:05:47,  3.51it/s] 39%|███▊      | 143065/371472 [18:02<17:31:17,  3.62it/s] 39%|███▊      | 143066/371472 [18:03<18:23:20,  3.45it/s] 39%|███▊      | 143067/371472 [18:03<18:00:14,  3.52it/s] 39%|███▊      | 143068/371472 [18:03<17:39:09,  3.59it/s] 39%|███▊      | 143069/371472 [18:03<18:23:51,  3.45it/s] 39%|███▊      | 143070/371472 [18:04<18:20:54,  3.46it/s] 39%|███▊      | 143071/371472 [18:04<18:22:17,  3.45it/s] 39%|███▊      | 143072/371472 [18:04<17:56:58,  3.53it/s] 39%|███▊      | 143073/371472 [18:04<17:13:51,  3.68it/s] 39%|███▊      | 143074/371472 [18:05<18:03:24,  3.51it/s] 39%|███▊      | 143075/371472 [18:05<18:56:48,  3.35it/s] 39%|███▊      | 143076/371472 [18:05<18:56:26,  3.35it/s] 39%|███▊      | 143077/371472 [18:06<18:15:35,  3.47it/s] 39%|███▊      | 143078/371472 [18:06<17:38:31,  3.60it/s] 39%|███▊      | 143079/371472 [18:06<18:01:41,  3.52it/s] 39%|███▊      | 143080/371472 [18:06<17:55:05,  3.54it/s]                                                          {'loss': 3.1838, 'learning_rate': 6.5364476717878e-07, 'epoch': 6.16}
 39%|███▊      | 143080/371472 [18:06<17:55:05,  3.54it/s] 39%|███▊      | 143081/371472 [18:07<18:19:50,  3.46it/s] 39%|███▊      | 143082/371472 [18:07<20:21:50,  3.12it/s] 39%|███▊      | 143083/371472 [18:07<19:39:56,  3.23it/s] 39%|███▊      | 143084/371472 [18:08<18:34:41,  3.41it/s] 39%|███▊      | 143085/371472 [18:08<18:17:22,  3.47it/s] 39%|███▊      | 143086/371472 [18:08<17:41:41,  3.59it/s] 39%|███▊      | 143087/371472 [18:09<18:31:11,  3.43it/s] 39%|███▊      | 143088/371472 [18:09<18:14:58,  3.48it/s] 39%|███▊      | 143089/371472 [18:09<18:36:17,  3.41it/s] 39%|███▊      | 143090/371472 [18:09<17:49:15,  3.56it/s] 39%|███▊      | 143091/371472 [18:10<17:12:42,  3.69it/s] 39%|███▊      | 143092/371472 [18:10<17:07:27,  3.70it/s] 39%|███▊      | 143093/371472 [18:10<16:36:20,  3.82it/s] 39%|███▊      | 143094/371472 [18:11<18:11:32,  3.49it/s] 39%|███▊      | 143095/371472 [18:11<17:26:50,  3.64it/s] 39%|███▊      | 143096/371472 [18:11<18:28:56,  3.43it/s] 39%|███▊      | 143097/371472 [18:11<17:44:28,  3.58it/s] 39%|███▊      | 143098/371472 [18:12<17:35:04,  3.61it/s] 39%|███▊      | 143099/371472 [18:12<18:02:17,  3.52it/s] 39%|███▊      | 143100/371472 [18:12<17:12:03,  3.69it/s]                                                          {'loss': 3.1319, 'learning_rate': 6.535962852033011e-07, 'epoch': 6.16}
 39%|███▊      | 143100/371472 [18:12<17:12:03,  3.69it/s] 39%|███▊      | 143101/371472 [18:12<18:10:59,  3.49it/s] 39%|███▊      | 143102/371472 [18:13<18:19:54,  3.46it/s] 39%|███▊      | 143103/371472 [18:13<18:04:00,  3.51it/s] 39%|███▊      | 143104/371472 [18:13<17:23:50,  3.65it/s] 39%|███▊      | 143105/371472 [18:14<17:45:38,  3.57it/s] 39%|███▊      | 143106/371472 [18:14<17:25:56,  3.64it/s] 39%|███▊      | 143107/371472 [18:14<17:02:29,  3.72it/s] 39%|███▊      | 143108/371472 [18:14<16:43:16,  3.79it/s] 39%|███▊      | 143109/371472 [18:15<17:57:55,  3.53it/s] 39%|███▊      | 143110/371472 [18:15<17:12:41,  3.69it/s] 39%|███▊      | 143111/371472 [18:15<18:04:29,  3.51it/s] 39%|███▊      | 143112/371472 [18:16<18:52:43,  3.36it/s] 39%|███▊      | 143113/371472 [18:16<18:19:33,  3.46it/s] 39%|███▊      | 143114/371472 [18:16<19:17:39,  3.29it/s] 39%|███▊      | 143115/371472 [18:16<18:03:54,  3.51it/s] 39%|███▊      | 143116/371472 [18:17<17:35:30,  3.61it/s] 39%|███▊      | 143117/371472 [18:17<17:45:13,  3.57it/s] 39%|███▊      | 143118/371472 [18:17<18:15:15,  3.47it/s] 39%|███▊      | 143119/371472 [18:18<18:38:09,  3.40it/s] 39%|███▊      | 143120/371472 [18:18<18:27:33,  3.44it/s]                                                          {'loss': 3.0661, 'learning_rate': 6.535478032278223e-07, 'epoch': 6.16}
 39%|███▊      | 143120/371472 [18:18<18:27:33,  3.44it/s] 39%|███▊      | 143121/371472 [18:18<17:55:37,  3.54it/s] 39%|███▊      | 143122/371472 [18:18<17:48:24,  3.56it/s] 39%|███▊      | 143123/371472 [18:19<17:50:23,  3.56it/s] 39%|███▊      | 143124/371472 [18:19<18:15:04,  3.48it/s] 39%|███▊      | 143125/371472 [18:19<18:57:12,  3.35it/s] 39%|███▊      | 143126/371472 [18:20<19:11:27,  3.31it/s] 39%|███▊      | 143127/371472 [18:20<18:20:15,  3.46it/s] 39%|███▊      | 143128/371472 [18:20<18:20:03,  3.46it/s] 39%|███▊      | 143129/371472 [18:20<17:52:06,  3.55it/s] 39%|███▊      | 143130/371472 [18:21<18:45:47,  3.38it/s] 39%|███▊      | 143131/371472 [18:21<18:26:48,  3.44it/s] 39%|███▊      | 143132/371472 [18:21<17:59:31,  3.53it/s] 39%|███▊      | 143133/371472 [18:22<19:07:38,  3.32it/s] 39%|███▊      | 143134/371472 [18:22<18:42:50,  3.39it/s] 39%|███▊      | 143135/371472 [18:22<18:02:14,  3.52it/s] 39%|███▊      | 143136/371472 [18:22<17:36:23,  3.60it/s] 39%|███▊      | 143137/371472 [18:23<17:11:00,  3.69it/s] 39%|███▊      | 143138/371472 [18:23<19:07:11,  3.32it/s] 39%|███▊      | 143139/371472 [18:23<18:31:05,  3.43it/s] 39%|███▊      | 143140/371472 [18:24<18:38:44,  3.40it/s]                                                          {'loss': 3.2699, 'learning_rate': 6.534993212523432e-07, 'epoch': 6.17}
 39%|███▊      | 143140/371472 [18:24<18:38:44,  3.40it/s] 39%|███▊      | 143141/371472 [18:24<18:07:21,  3.50it/s] 39%|███▊      | 143142/371472 [18:24<17:55:58,  3.54it/s] 39%|███▊      | 143143/371472 [18:25<18:52:15,  3.36it/s] 39%|███▊      | 143144/371472 [18:25<19:07:11,  3.32it/s] 39%|███▊      | 143145/371472 [18:25<18:14:31,  3.48it/s] 39%|███▊      | 143146/371472 [18:25<18:16:32,  3.47it/s] 39%|███▊      | 143147/371472 [18:26<17:46:04,  3.57it/s] 39%|███▊      | 143148/371472 [18:26<17:15:28,  3.68it/s] 39%|███▊      | 143149/371472 [18:26<16:47:42,  3.78it/s] 39%|███▊      | 143150/371472 [18:26<16:41:50,  3.80it/s] 39%|███▊      | 143151/371472 [18:27<17:04:28,  3.71it/s] 39%|███▊      | 143152/371472 [18:27<17:09:16,  3.70it/s] 39%|███▊      | 143153/371472 [18:27<19:04:49,  3.32it/s] 39%|███▊      | 143154/371472 [18:28<18:50:09,  3.37it/s] 39%|███▊      | 143155/371472 [18:28<19:08:27,  3.31it/s] 39%|███▊      | 143156/371472 [18:28<18:44:38,  3.38it/s] 39%|███▊      | 143157/371472 [18:28<18:15:40,  3.47it/s] 39%|███▊      | 143158/371472 [18:29<17:28:33,  3.63it/s] 39%|███▊      | 143159/371472 [18:29<18:14:49,  3.48it/s] 39%|███▊      | 143160/371472 [18:29<19:01:53,  3.33it/s]                                                          {'loss': 3.182, 'learning_rate': 6.534508392768644e-07, 'epoch': 6.17}
 39%|███▊      | 143160/371472 [18:29<19:01:53,  3.33it/s] 39%|███▊      | 143161/371472 [18:30<18:33:29,  3.42it/s] 39%|███▊      | 143162/371472 [18:30<18:21:42,  3.45it/s] 39%|███▊      | 143163/371472 [18:30<17:59:46,  3.52it/s] 39%|███▊      | 143164/371472 [18:30<17:52:55,  3.55it/s] 39%|███▊      | 143165/371472 [18:31<17:25:29,  3.64it/s] 39%|███▊      | 143166/371472 [18:31<18:45:49,  3.38it/s] 39%|███▊      | 143167/371472 [18:31<19:01:42,  3.33it/s] 39%|███▊      | 143168/371472 [18:32<18:45:06,  3.38it/s] 39%|███▊      | 143169/371472 [18:32<18:25:45,  3.44it/s] 39%|███▊      | 143170/371472 [18:32<18:07:50,  3.50it/s] 39%|███▊      | 143171/371472 [18:33<17:38:32,  3.59it/s] 39%|███▊      | 143172/371472 [18:33<17:37:20,  3.60it/s] 39%|███▊      | 143173/371472 [18:33<18:12:43,  3.48it/s] 39%|███▊      | 143174/371472 [18:33<17:45:37,  3.57it/s] 39%|███▊      | 143175/371472 [18:34<18:24:01,  3.45it/s] 39%|███▊      | 143176/371472 [18:34<19:10:16,  3.31it/s] 39%|███▊      | 143177/371472 [18:34<19:15:24,  3.29it/s] 39%|███▊      | 143178/371472 [18:35<18:15:26,  3.47it/s] 39%|███▊      | 143179/371472 [18:35<18:08:47,  3.49it/s] 39%|███▊      | 143180/371472 [18:35<17:57:31,  3.53it/s]                                                          {'loss': 3.3316, 'learning_rate': 6.534023573013855e-07, 'epoch': 6.17}
 39%|███▊      | 143180/371472 [18:35<17:57:31,  3.53it/s] 39%|███▊      | 143181/371472 [18:36<19:51:52,  3.19it/s] 39%|███▊      | 143182/371472 [18:36<19:05:19,  3.32it/s] 39%|███▊      | 143183/371472 [18:36<20:34:51,  3.08it/s] 39%|███▊      | 143184/371472 [18:36<19:40:15,  3.22it/s] 39%|███▊      | 143185/371472 [18:37<18:58:44,  3.34it/s] 39%|███▊      | 143186/371472 [18:37<18:22:54,  3.45it/s] 39%|███▊      | 143187/371472 [18:37<17:51:02,  3.55it/s] 39%|███▊      | 143188/371472 [18:38<17:38:18,  3.60it/s] 39%|███▊      | 143189/371472 [18:38<19:13:31,  3.30it/s] 39%|███▊      | 143190/371472 [18:38<18:59:56,  3.34it/s] 39%|███▊      | 143191/371472 [18:38<19:01:33,  3.33it/s] 39%|███▊      | 143192/371472 [18:39<18:42:59,  3.39it/s] 39%|███▊      | 143193/371472 [18:39<19:04:54,  3.32it/s] 39%|███▊      | 143194/371472 [18:39<18:52:52,  3.36it/s] 39%|███▊      | 143195/371472 [18:40<18:32:27,  3.42it/s] 39%|███▊      | 143196/371472 [18:40<20:37:56,  3.07it/s] 39%|███▊      | 143197/371472 [18:40<18:55:28,  3.35it/s] 39%|███▊      | 143198/371472 [18:41<18:19:14,  3.46it/s] 39%|███▊      | 143199/371472 [18:41<17:54:36,  3.54it/s] 39%|███▊      | 143200/371472 [18:41<17:27:34,  3.63it/s]                                                          {'loss': 3.2911, 'learning_rate': 6.533538753259066e-07, 'epoch': 6.17}
 39%|███▊      | 143200/371472 [18:41<17:27:34,  3.63it/s] 39%|███▊      | 143201/371472 [18:41<17:33:50,  3.61it/s] 39%|███▊      | 143202/371472 [18:42<18:35:09,  3.41it/s] 39%|███▊      | 143203/371472 [18:42<18:21:00,  3.46it/s] 39%|███▊      | 143204/371472 [18:42<18:00:52,  3.52it/s] 39%|███▊      | 143205/371472 [18:42<17:44:40,  3.57it/s] 39%|███▊      | 143206/371472 [18:43<17:22:47,  3.65it/s] 39%|███▊      | 143207/371472 [18:43<17:01:50,  3.72it/s] 39%|███▊      | 143208/371472 [18:43<17:55:36,  3.54it/s] 39%|███▊      | 143209/371472 [18:44<19:53:09,  3.19it/s] 39%|███▊      | 143210/371472 [18:44<18:23:29,  3.45it/s] 39%|███▊      | 143211/371472 [18:44<17:58:37,  3.53it/s] 39%|███▊      | 143212/371472 [18:45<18:12:43,  3.48it/s] 39%|███▊      | 143213/371472 [18:45<17:47:45,  3.56it/s] 39%|███▊      | 143214/371472 [18:45<18:48:11,  3.37it/s] 39%|███▊      | 143215/371472 [18:45<18:11:27,  3.49it/s] 39%|███▊      | 143216/371472 [18:46<17:48:27,  3.56it/s] 39%|███▊      | 143217/371472 [18:46<19:31:46,  3.25it/s] 39%|███▊      | 143218/371472 [18:46<18:49:05,  3.37it/s] 39%|███▊      | 143219/371472 [18:47<18:24:26,  3.44it/s] 39%|███▊      | 143220/371472 [18:47<17:58:13,  3.53it/s]                                                          {'loss': 3.3339, 'learning_rate': 6.533053933504277e-07, 'epoch': 6.17}
 39%|███▊      | 143220/371472 [18:47<17:58:13,  3.53it/s] 39%|███▊      | 143221/371472 [18:47<18:04:35,  3.51it/s] 39%|███▊      | 143222/371472 [18:47<18:01:28,  3.52it/s] 39%|███▊      | 143223/371472 [18:48<19:15:37,  3.29it/s] 39%|███▊      | 143224/371472 [18:48<19:04:28,  3.32it/s] 39%|███▊      | 143225/371472 [18:48<19:33:09,  3.24it/s] 39%|███▊      | 143226/371472 [18:49<19:55:36,  3.18it/s] 39%|███▊      | 143227/371472 [18:49<19:27:29,  3.26it/s] 39%|███▊      | 143228/371472 [18:49<19:04:55,  3.32it/s] 39%|███▊      | 143229/371472 [18:50<18:41:52,  3.39it/s] 39%|███▊      | 143230/371472 [18:50<18:04:34,  3.51it/s] 39%|███▊      | 143231/371472 [18:50<17:42:13,  3.58it/s] 39%|███▊      | 143232/371472 [18:50<17:30:49,  3.62it/s] 39%|███▊      | 143233/371472 [18:51<18:11:00,  3.49it/s] 39%|███▊      | 143234/371472 [18:51<19:32:49,  3.24it/s] 39%|███▊      | 143235/371472 [18:51<20:17:39,  3.12it/s] 39%|███▊      | 143236/371472 [18:52<19:12:20,  3.30it/s] 39%|███▊      | 143237/371472 [18:52<18:50:58,  3.36it/s] 39%|███▊      | 143238/371472 [18:52<18:31:51,  3.42it/s] 39%|███▊      | 143239/371472 [18:52<18:01:56,  3.52it/s] 39%|███▊      | 143240/371472 [18:53<17:49:14,  3.56it/s]                                                          {'loss': 3.2327, 'learning_rate': 6.532569113749488e-07, 'epoch': 6.17}
 39%|███▊      | 143240/371472 [18:53<17:49:14,  3.56it/s] 39%|███▊      | 143241/371472 [18:53<18:16:17,  3.47it/s] 39%|███▊      | 143242/371472 [18:53<18:21:22,  3.45it/s] 39%|███▊      | 143243/371472 [18:54<18:18:04,  3.46it/s] 39%|███▊      | 143244/371472 [18:54<18:23:50,  3.45it/s] 39%|███▊      | 143245/371472 [18:54<18:34:26,  3.41it/s] 39%|███▊      | 143246/371472 [18:54<18:04:55,  3.51it/s] 39%|███▊      | 143247/371472 [18:55<17:45:17,  3.57it/s] 39%|███▊      | 143248/371472 [18:55<18:13:20,  3.48it/s] 39%|███▊      | 143249/371472 [18:55<17:59:53,  3.52it/s] 39%|███▊      | 143250/371472 [18:56<18:59:18,  3.34it/s] 39%|███▊      | 143251/371472 [18:56<18:54:45,  3.35it/s] 39%|███▊      | 143252/371472 [18:56<18:08:58,  3.49it/s] 39%|███▊      | 143253/371472 [18:56<18:00:10,  3.52it/s] 39%|███▊      | 143254/371472 [18:57<18:39:03,  3.40it/s] 39%|███▊      | 143255/371472 [18:57<18:36:07,  3.41it/s] 39%|███▊      | 143256/371472 [18:57<18:25:10,  3.44it/s] 39%|███▊      | 143257/371472 [18:58<17:58:07,  3.53it/s] 39%|███▊      | 143258/371472 [18:58<19:22:26,  3.27it/s] 39%|███▊      | 143259/371472 [18:58<18:27:55,  3.43it/s] 39%|███▊      | 143260/371472 [18:59<18:52:42,  3.36it/s]                                                          {'loss': 3.1466, 'learning_rate': 6.532084293994699e-07, 'epoch': 6.17}
 39%|███▊      | 143260/371472 [18:59<18:52:42,  3.36it/s] 39%|███▊      | 143261/371472 [18:59<18:10:01,  3.49it/s] 39%|███▊      | 143262/371472 [18:59<18:29:28,  3.43it/s] 39%|███▊      | 143263/371472 [18:59<17:40:20,  3.59it/s] 39%|███▊      | 143264/371472 [19:00<17:38:57,  3.59it/s] 39%|███▊      | 143265/371472 [19:00<17:30:21,  3.62it/s] 39%|███▊      | 143266/371472 [19:00<17:11:41,  3.69it/s] 39%|███▊      | 143267/371472 [19:00<17:02:09,  3.72it/s] 39%|███▊      | 143268/371472 [19:01<17:14:14,  3.68it/s] 39%|███▊      | 143269/371472 [19:01<17:05:27,  3.71it/s] 39%|███▊      | 143270/371472 [19:01<17:04:43,  3.71it/s] 39%|███▊      | 143271/371472 [19:02<17:25:20,  3.64it/s] 39%|███▊      | 143272/371472 [19:02<18:09:06,  3.49it/s] 39%|███▊      | 143273/371472 [19:02<18:07:12,  3.50it/s] 39%|███▊      | 143274/371472 [19:02<17:45:28,  3.57it/s] 39%|███▊      | 143275/371472 [19:03<17:14:19,  3.68it/s] 39%|███▊      | 143276/371472 [19:03<17:35:09,  3.60it/s] 39%|███▊      | 143277/371472 [19:03<18:01:11,  3.52it/s] 39%|███▊      | 143278/371472 [19:04<18:36:41,  3.41it/s] 39%|███▊      | 143279/371472 [19:04<18:34:33,  3.41it/s] 39%|███▊      | 143280/371472 [19:04<19:21:45,  3.27it/s]                                                          {'loss': 3.3, 'learning_rate': 6.531599474239909e-07, 'epoch': 6.17}
 39%|███▊      | 143280/371472 [19:04<19:21:45,  3.27it/s] 39%|███▊      | 143281/371472 [19:04<19:00:17,  3.34it/s] 39%|███▊      | 143282/371472 [19:05<19:50:23,  3.19it/s] 39%|███▊      | 143283/371472 [19:05<21:36:44,  2.93it/s] 39%|███▊      | 143284/371472 [19:05<19:51:58,  3.19it/s] 39%|███▊      | 143285/371472 [19:06<19:12:40,  3.30it/s] 39%|███▊      | 143286/371472 [19:06<18:39:57,  3.40it/s] 39%|███▊      | 143287/371472 [19:06<19:18:31,  3.28it/s] 39%|███▊      | 143288/371472 [19:07<19:08:51,  3.31it/s] 39%|███▊      | 143289/371472 [19:07<18:17:37,  3.46it/s] 39%|███▊      | 143290/371472 [19:07<18:12:07,  3.48it/s] 39%|███▊      | 143291/371472 [19:08<18:16:49,  3.47it/s] 39%|███▊      | 143292/371472 [19:08<18:04:43,  3.51it/s] 39%|███▊      | 143293/371472 [19:08<18:43:34,  3.38it/s] 39%|███▊      | 143294/371472 [19:08<18:12:37,  3.48it/s] 39%|███▊      | 143295/371472 [19:09<18:19:21,  3.46it/s] 39%|███▊      | 143296/371472 [19:09<17:46:13,  3.57it/s] 39%|███▊      | 143297/371472 [19:09<17:40:56,  3.58it/s] 39%|███▊      | 143298/371472 [19:09<17:46:16,  3.57it/s] 39%|███▊      | 143299/371472 [19:10<17:01:41,  3.72it/s] 39%|███▊      | 143300/371472 [19:10<18:13:16,  3.48it/s]                                                          {'loss': 3.2596, 'learning_rate': 6.531114654485121e-07, 'epoch': 6.17}
 39%|███▊      | 143300/371472 [19:10<18:13:16,  3.48it/s] 39%|███▊      | 143301/371472 [19:10<18:02:20,  3.51it/s] 39%|███▊      | 143302/371472 [19:11<17:34:40,  3.61it/s] 39%|███▊      | 143303/371472 [19:11<17:25:02,  3.64it/s] 39%|███▊      | 143304/371472 [19:11<17:22:03,  3.65it/s] 39%|███▊      | 143305/371472 [19:11<17:13:29,  3.68it/s] 39%|███▊      | 143306/371472 [19:12<17:07:55,  3.70it/s] 39%|███▊      | 143307/371472 [19:12<17:12:58,  3.68it/s] 39%|███▊      | 143308/371472 [19:12<17:02:29,  3.72it/s] 39%|███▊      | 143309/371472 [19:12<16:35:06,  3.82it/s] 39%|███▊      | 143310/371472 [19:13<16:17:24,  3.89it/s] 39%|███▊      | 143311/371472 [19:13<17:25:05,  3.64it/s] 39%|███▊      | 143312/371472 [19:13<17:30:39,  3.62it/s] 39%|███▊      | 143313/371472 [19:14<17:00:30,  3.73it/s] 39%|███▊      | 143314/371472 [19:14<17:31:11,  3.62it/s] 39%|███▊      | 143315/371472 [19:14<18:09:54,  3.49it/s] 39%|███▊      | 143316/371472 [19:14<18:27:48,  3.43it/s] 39%|███▊      | 143317/371472 [19:15<18:00:57,  3.52it/s] 39%|███▊      | 143318/371472 [19:15<17:52:38,  3.55it/s] 39%|███▊      | 143319/371472 [19:15<18:44:26,  3.38it/s] 39%|███▊      | 143320/371472 [19:16<18:34:47,  3.41it/s]                                                          {'loss': 3.1652, 'learning_rate': 6.530629834730332e-07, 'epoch': 6.17}
 39%|███▊      | 143320/371472 [19:16<18:34:47,  3.41it/s] 39%|███▊      | 143321/371472 [19:16<18:11:37,  3.48it/s] 39%|███▊      | 143322/371472 [19:16<19:09:14,  3.31it/s] 39%|███▊      | 143323/371472 [19:16<18:21:29,  3.45it/s] 39%|███▊      | 143324/371472 [19:17<18:22:53,  3.45it/s] 39%|███▊      | 143325/371472 [19:17<17:38:46,  3.59it/s] 39%|███▊      | 143326/371472 [19:17<17:58:59,  3.52it/s] 39%|███▊      | 143327/371472 [19:18<18:18:01,  3.46it/s] 39%|███▊      | 143328/371472 [19:18<17:45:34,  3.57it/s] 39%|███▊      | 143329/371472 [19:18<17:42:35,  3.58it/s] 39%|███▊      | 143330/371472 [19:18<17:51:09,  3.55it/s] 39%|███▊      | 143331/371472 [19:19<17:23:02,  3.65it/s] 39%|███▊      | 143332/371472 [19:19<18:12:23,  3.48it/s] 39%|███▊      | 143333/371472 [19:19<18:42:23,  3.39it/s] 39%|███▊      | 143334/371472 [19:20<18:34:37,  3.41it/s] 39%|███▊      | 143335/371472 [19:20<19:04:43,  3.32it/s] 39%|███▊      | 143336/371472 [19:20<18:07:02,  3.50it/s] 39%|███▊      | 143337/371472 [19:21<19:14:22,  3.29it/s] 39%|███▊      | 143338/371472 [19:21<18:20:59,  3.45it/s] 39%|███▊      | 143339/371472 [19:21<18:25:33,  3.44it/s] 39%|███▊      | 143340/371472 [19:21<17:51:04,  3.55it/s]                                                          {'loss': 3.2419, 'learning_rate': 6.530145014975543e-07, 'epoch': 6.17}
 39%|███▊      | 143340/371472 [19:21<17:51:04,  3.55it/s] 39%|███▊      | 143341/371472 [19:22<17:20:47,  3.65it/s] 39%|███▊      | 143342/371472 [19:22<17:12:13,  3.68it/s] 39%|███▊      | 143343/371472 [19:22<17:12:26,  3.68it/s] 39%|███▊      | 143344/371472 [19:22<17:20:23,  3.65it/s] 39%|███▊      | 143345/371472 [19:23<18:18:38,  3.46it/s] 39%|███▊      | 143346/371472 [19:23<18:03:51,  3.51it/s] 39%|███▊      | 143347/371472 [19:23<18:36:32,  3.41it/s] 39%|███▊      | 143348/371472 [19:24<18:00:24,  3.52it/s] 39%|███▊      | 143349/371472 [19:24<18:04:57,  3.50it/s] 39%|███▊      | 143350/371472 [19:24<17:16:14,  3.67it/s] 39%|███▊      | 143351/371472 [19:24<17:04:15,  3.71it/s] 39%|███▊      | 143352/371472 [19:25<16:50:40,  3.76it/s] 39%|███▊      | 143353/371472 [19:25<16:38:33,  3.81it/s] 39%|███▊      | 143354/371472 [19:25<16:35:52,  3.82it/s] 39%|███▊      | 143355/371472 [19:25<16:39:36,  3.80it/s] 39%|███▊      | 143356/371472 [19:26<16:44:12,  3.79it/s] 39%|███▊      | 143357/371472 [19:26<16:28:27,  3.85it/s] 39%|███▊      | 143358/371472 [19:26<16:34:44,  3.82it/s] 39%|███▊      | 143359/371472 [19:27<17:07:00,  3.70it/s] 39%|███▊      | 143360/371472 [19:27<17:01:41,  3.72it/s]                                                          {'loss': 3.2753, 'learning_rate': 6.529660195220754e-07, 'epoch': 6.17}
 39%|███▊      | 143360/371472 [19:27<17:01:41,  3.72it/s] 39%|███▊      | 143361/371472 [19:27<17:02:36,  3.72it/s] 39%|███▊      | 143362/371472 [19:27<17:23:47,  3.64it/s] 39%|███▊      | 143363/371472 [19:28<17:01:43,  3.72it/s] 39%|███▊      | 143364/371472 [19:28<17:17:53,  3.66it/s] 39%|███▊      | 143365/371472 [19:28<17:29:44,  3.62it/s] 39%|███▊      | 143366/371472 [19:28<17:58:06,  3.53it/s] 39%|███▊      | 143367/371472 [19:29<17:43:14,  3.58it/s] 39%|███▊      | 143368/371472 [19:29<17:30:39,  3.62it/s] 39%|███▊      | 143369/371472 [19:29<17:34:58,  3.60it/s] 39%|███▊      | 143370/371472 [19:30<18:14:47,  3.47it/s] 39%|███▊      | 143371/371472 [19:30<17:58:41,  3.52it/s] 39%|███▊      | 143372/371472 [19:30<17:39:36,  3.59it/s] 39%|███▊      | 143373/371472 [19:30<18:47:19,  3.37it/s] 39%|███▊      | 143374/371472 [19:31<17:57:51,  3.53it/s] 39%|███▊      | 143375/371472 [19:31<17:55:09,  3.54it/s] 39%|███▊      | 143376/371472 [19:31<17:48:45,  3.56it/s] 39%|███▊      | 143377/371472 [19:32<17:54:50,  3.54it/s] 39%|███▊      | 143378/371472 [19:32<18:39:24,  3.40it/s] 39%|███▊      | 143379/371472 [19:32<18:31:14,  3.42it/s] 39%|███▊      | 143380/371472 [19:32<18:25:00,  3.44it/s]                                                          {'loss': 3.3083, 'learning_rate': 6.529175375465966e-07, 'epoch': 6.18}
 39%|███▊      | 143380/371472 [19:32<18:25:00,  3.44it/s] 39%|███▊      | 143381/371472 [19:33<18:33:58,  3.41it/s] 39%|███▊      | 143382/371472 [19:33<18:16:24,  3.47it/s] 39%|███▊      | 143383/371472 [19:33<18:09:10,  3.49it/s] 39%|███▊      | 143384/371472 [19:34<19:30:35,  3.25it/s] 39%|███▊      | 143385/371472 [19:34<18:28:53,  3.43it/s] 39%|███▊      | 143386/371472 [19:34<17:46:24,  3.56it/s] 39%|███▊      | 143387/371472 [19:34<17:47:23,  3.56it/s] 39%|███▊      | 143388/371472 [19:35<18:17:08,  3.46it/s] 39%|███▊      | 143389/371472 [19:35<18:32:58,  3.42it/s] 39%|███▊      | 143390/371472 [19:35<18:34:06,  3.41it/s] 39%|███▊      | 143391/371472 [19:36<18:01:59,  3.51it/s] 39%|███▊      | 143392/371472 [19:36<18:36:08,  3.41it/s] 39%|███▊      | 143393/371472 [19:36<18:21:38,  3.45it/s] 39%|███▊      | 143394/371472 [19:36<18:02:04,  3.51it/s] 39%|███▊      | 143395/371472 [19:37<18:11:09,  3.48it/s] 39%|███▊      | 143396/371472 [19:37<18:52:10,  3.36it/s] 39%|███▊      | 143397/371472 [19:37<18:53:54,  3.35it/s] 39%|███▊      | 143398/371472 [19:38<18:22:11,  3.45it/s] 39%|███▊      | 143399/371472 [19:38<17:48:11,  3.56it/s] 39%|███▊      | 143400/371472 [19:38<17:45:11,  3.57it/s]                                                          {'loss': 3.1328, 'learning_rate': 6.528690555711176e-07, 'epoch': 6.18}
 39%|███▊      | 143400/371472 [19:38<17:45:11,  3.57it/s] 39%|███▊      | 143401/371472 [19:39<18:12:46,  3.48it/s] 39%|███▊      | 143402/371472 [19:39<17:57:52,  3.53it/s] 39%|███▊      | 143403/371472 [19:39<17:42:24,  3.58it/s] 39%|███▊      | 143404/371472 [19:39<17:21:49,  3.65it/s] 39%|███▊      | 143405/371472 [19:40<17:34:36,  3.60it/s] 39%|███▊      | 143406/371472 [19:40<18:35:30,  3.41it/s] 39%|███▊      | 143407/371472 [19:40<19:30:59,  3.25it/s] 39%|███▊      | 143408/371472 [19:41<18:38:30,  3.40it/s] 39%|███▊      | 143409/371472 [19:41<18:37:36,  3.40it/s] 39%|███▊      | 143410/371472 [19:41<17:42:24,  3.58it/s] 39%|███▊      | 143411/371472 [19:41<17:59:33,  3.52it/s] 39%|███▊      | 143412/371472 [19:42<17:09:18,  3.69it/s] 39%|███▊      | 143413/371472 [19:42<17:54:20,  3.54it/s] 39%|███▊      | 143414/371472 [19:42<18:11:23,  3.48it/s] 39%|███▊      | 143415/371472 [19:43<17:56:33,  3.53it/s] 39%|███▊      | 143416/371472 [19:43<18:37:00,  3.40it/s] 39%|███▊      | 143417/371472 [19:43<18:26:44,  3.43it/s] 39%|███▊      | 143418/371472 [19:43<17:51:52,  3.55it/s] 39%|███▊      | 143419/371472 [19:44<18:06:58,  3.50it/s] 39%|███▊      | 143420/371472 [19:44<17:08:37,  3.70it/s]                                                          {'loss': 3.1056, 'learning_rate': 6.528205735956387e-07, 'epoch': 6.18}
 39%|███▊      | 143420/371472 [19:44<17:08:37,  3.70it/s] 39%|███▊      | 143421/371472 [19:44<17:23:04,  3.64it/s] 39%|███▊      | 143422/371472 [19:44<17:51:34,  3.55it/s] 39%|███▊      | 143423/371472 [19:45<18:41:01,  3.39it/s] 39%|███▊      | 143424/371472 [19:45<17:41:35,  3.58it/s] 39%|███▊      | 143425/371472 [19:45<17:42:59,  3.58it/s] 39%|███▊      | 143426/371472 [19:46<17:47:36,  3.56it/s] 39%|███▊      | 143427/371472 [19:46<17:18:42,  3.66it/s] 39%|███▊      | 143428/371472 [19:46<17:05:44,  3.71it/s] 39%|███▊      | 143429/371472 [19:46<17:32:41,  3.61it/s] 39%|███▊      | 143430/371472 [19:47<18:41:24,  3.39it/s] 39%|███▊      | 143431/371472 [19:47<17:45:25,  3.57it/s] 39%|███▊      | 143432/371472 [19:47<17:00:53,  3.72it/s] 39%|███▊      | 143433/371472 [19:48<16:51:19,  3.76it/s] 39%|███▊      | 143434/371472 [19:48<17:37:38,  3.59it/s] 39%|███▊      | 143435/371472 [19:48<17:24:07,  3.64it/s] 39%|███▊      | 143436/371472 [19:48<17:40:56,  3.58it/s] 39%|███▊      | 143437/371472 [19:49<17:49:48,  3.55it/s] 39%|███▊      | 143438/371472 [19:49<18:15:10,  3.47it/s] 39%|███▊      | 143439/371472 [19:49<17:45:51,  3.57it/s] 39%|███▊      | 143440/371472 [19:50<19:56:51,  3.18it/s]                                                          {'loss': 3.1886, 'learning_rate': 6.527720916201598e-07, 'epoch': 6.18}
 39%|███▊      | 143440/371472 [19:50<19:56:51,  3.18it/s] 39%|███▊      | 143441/371472 [19:50<21:36:07,  2.93it/s] 39%|███▊      | 143442/371472 [19:50<20:22:36,  3.11it/s] 39%|███▊      | 143443/371472 [19:51<19:21:27,  3.27it/s] 39%|███▊      | 143444/371472 [19:51<18:34:06,  3.41it/s] 39%|███▊      | 143445/371472 [19:51<18:30:32,  3.42it/s] 39%|███▊      | 143446/371472 [19:51<18:17:19,  3.46it/s] 39%|███▊      | 143447/371472 [19:52<17:57:24,  3.53it/s] 39%|███▊      | 143448/371472 [19:52<17:47:00,  3.56it/s] 39%|███▊      | 143449/371472 [19:52<17:53:41,  3.54it/s] 39%|███▊      | 143450/371472 [19:53<17:44:32,  3.57it/s] 39%|███▊      | 143451/371472 [19:53<17:55:53,  3.53it/s] 39%|███▊      | 143452/371472 [19:53<18:31:49,  3.42it/s] 39%|███▊      | 143453/371472 [19:53<18:33:15,  3.41it/s] 39%|███▊      | 143454/371472 [19:54<18:18:47,  3.46it/s] 39%|███▊      | 143455/371472 [19:54<18:36:41,  3.40it/s] 39%|███▊      | 143456/371472 [19:54<18:26:20,  3.44it/s] 39%|███▊      | 143457/371472 [19:55<17:49:20,  3.55it/s] 39%|███▊      | 143458/371472 [19:55<18:39:18,  3.40it/s] 39%|███▊      | 143459/371472 [19:55<17:46:23,  3.56it/s] 39%|███▊      | 143460/371472 [19:55<18:00:24,  3.52it/s]                                                          {'loss': 3.2246, 'learning_rate': 6.52723609644681e-07, 'epoch': 6.18}
 39%|███▊      | 143460/371472 [19:55<18:00:24,  3.52it/s] 39%|███▊      | 143461/371472 [19:56<18:05:57,  3.50it/s] 39%|███▊      | 143462/371472 [19:56<17:55:13,  3.53it/s] 39%|███▊      | 143463/371472 [19:56<19:04:41,  3.32it/s] 39%|███▊      | 143464/371472 [19:57<19:28:32,  3.25it/s] 39%|███▊      | 143465/371472 [19:57<19:44:05,  3.21it/s] 39%|███▊      | 143466/371472 [19:57<19:22:48,  3.27it/s] 39%|███▊      | 143467/371472 [19:58<18:48:27,  3.37it/s] 39%|███▊      | 143468/371472 [19:58<17:51:01,  3.55it/s] 39%|███▊      | 143469/371472 [19:58<17:57:20,  3.53it/s] 39%|███▊      | 143470/371472 [19:58<17:20:18,  3.65it/s] 39%|███▊      | 143471/371472 [19:59<17:21:48,  3.65it/s] 39%|███▊      | 143472/371472 [19:59<17:22:10,  3.65it/s] 39%|███▊      | 143473/371472 [19:59<17:40:31,  3.58it/s] 39%|███▊      | 143474/371472 [19:59<18:02:08,  3.51it/s] 39%|███▊      | 143475/371472 [20:00<17:58:42,  3.52it/s] 39%|███▊      | 143476/371472 [20:00<18:05:29,  3.50it/s] 39%|███▊      | 143477/371472 [20:00<17:45:15,  3.57it/s] 39%|███▊      | 143478/371472 [20:01<17:58:02,  3.52it/s] 39%|███▊      | 143479/371472 [20:01<17:23:24,  3.64it/s] 39%|███▊      | 143480/371472 [20:01<17:22:19,  3.65it/s]                                                          {'loss': 3.2692, 'learning_rate': 6.526751276692021e-07, 'epoch': 6.18}
 39%|███▊      | 143480/371472 [20:01<17:22:19,  3.65it/s] 39%|███▊      | 143481/371472 [20:01<18:29:19,  3.43it/s] 39%|███▊      | 143482/371472 [20:02<18:17:15,  3.46it/s] 39%|███▊      | 143483/371472 [20:02<18:09:13,  3.49it/s] 39%|███▊      | 143484/371472 [20:02<18:39:24,  3.39it/s] 39%|███▊      | 143485/371472 [20:03<17:56:26,  3.53it/s] 39%|███▊      | 143486/371472 [20:03<18:35:07,  3.41it/s] 39%|███▊      | 143487/371472 [20:03<20:14:41,  3.13it/s] 39%|███▊      | 143488/371472 [20:04<20:01:20,  3.16it/s] 39%|███▊      | 143489/371472 [20:04<19:28:07,  3.25it/s] 39%|███▊      | 143490/371472 [20:04<18:35:58,  3.40it/s] 39%|███▊      | 143491/371472 [20:04<18:02:39,  3.51it/s] 39%|███▊      | 143492/371472 [20:05<18:32:04,  3.42it/s] 39%|███▊      | 143493/371472 [20:05<17:55:47,  3.53it/s] 39%|███▊      | 143494/371472 [20:05<17:32:44,  3.61it/s] 39%|███▊      | 143495/371472 [20:05<17:14:11,  3.67it/s] 39%|███▊      | 143496/371472 [20:06<17:07:20,  3.70it/s] 39%|███▊      | 143497/371472 [20:06<18:16:55,  3.46it/s] 39%|███▊      | 143498/371472 [20:06<19:10:14,  3.30it/s] 39%|███▊      | 143499/371472 [20:07<19:46:46,  3.20it/s] 39%|███▊      | 143500/371472 [20:07<19:39:20,  3.22it/s]                                                          {'loss': 3.1345, 'learning_rate': 6.526266456937232e-07, 'epoch': 6.18}
 39%|███▊      | 143500/371472 [20:07<19:39:20,  3.22it/s] 39%|███▊      | 143501/371472 [20:07<18:44:27,  3.38it/s] 39%|███▊      | 143502/371472 [20:08<17:56:06,  3.53it/s] 39%|███▊      | 143503/371472 [20:08<18:19:42,  3.46it/s] 39%|███▊      | 143504/371472 [20:08<18:28:01,  3.43it/s] 39%|███▊      | 143505/371472 [20:08<17:24:31,  3.64it/s] 39%|███▊      | 143506/371472 [20:09<18:54:10,  3.35it/s] 39%|███▊      | 143507/371472 [20:09<19:42:18,  3.21it/s] 39%|███▊      | 143508/371472 [20:09<19:38:30,  3.22it/s] 39%|███▊      | 143509/371472 [20:10<19:30:28,  3.25it/s] 39%|███▊      | 143510/371472 [20:10<18:58:09,  3.34it/s] 39%|███▊      | 143511/371472 [20:10<18:59:46,  3.33it/s] 39%|███▊      | 143512/371472 [20:11<18:51:00,  3.36it/s] 39%|███▊      | 143513/371472 [20:11<17:49:12,  3.55it/s] 39%|███▊      | 143514/371472 [20:11<17:34:42,  3.60it/s] 39%|███▊      | 143515/371472 [20:11<18:56:32,  3.34it/s] 39%|███▊      | 143516/371472 [20:12<18:05:14,  3.50it/s] 39%|███▊      | 143517/371472 [20:12<17:47:32,  3.56it/s] 39%|███▊      | 143518/371472 [20:12<17:11:46,  3.68it/s] 39%|███▊      | 143519/371472 [20:13<17:21:10,  3.65it/s] 39%|███▊      | 143520/371472 [20:13<17:24:16,  3.64it/s]                                                          {'loss': 3.28, 'learning_rate': 6.525781637182443e-07, 'epoch': 6.18}
 39%|███▊      | 143520/371472 [20:13<17:24:16,  3.64it/s] 39%|███▊      | 143521/371472 [20:13<17:01:02,  3.72it/s] 39%|███▊      | 143522/371472 [20:13<18:19:57,  3.45it/s] 39%|███▊      | 143523/371472 [20:14<17:30:53,  3.62it/s] 39%|███▊      | 143524/371472 [20:14<17:52:29,  3.54it/s] 39%|███▊      | 143525/371472 [20:14<17:18:20,  3.66it/s] 39%|███▊      | 143526/371472 [20:14<17:40:56,  3.58it/s] 39%|███▊      | 143527/371472 [20:15<17:33:59,  3.60it/s] 39%|███▊      | 143528/371472 [20:15<17:53:49,  3.54it/s] 39%|███▊      | 143529/371472 [20:15<17:18:45,  3.66it/s] 39%|███▊      | 143530/371472 [20:16<17:17:17,  3.66it/s] 39%|███▊      | 143531/371472 [20:16<16:59:05,  3.73it/s] 39%|███▊      | 143532/371472 [20:16<18:55:35,  3.35it/s] 39%|███▊      | 143533/371472 [20:16<19:13:59,  3.29it/s] 39%|███▊      | 143534/371472 [20:17<19:33:23,  3.24it/s] 39%|███▊      | 143535/371472 [20:17<18:48:17,  3.37it/s] 39%|███▊      | 143536/371472 [20:17<17:59:32,  3.52it/s] 39%|███▊      | 143537/371472 [20:18<17:51:39,  3.54it/s] 39%|███▊      | 143538/371472 [20:18<17:19:28,  3.65it/s] 39%|███▊      | 143539/371472 [20:18<18:40:48,  3.39it/s] 39%|███▊      | 143540/371472 [20:19<18:43:07,  3.38it/s]                                                          {'loss': 3.1649, 'learning_rate': 6.525296817427653e-07, 'epoch': 6.18}
 39%|███▊      | 143540/371472 [20:19<18:43:07,  3.38it/s] 39%|███▊      | 143541/371472 [20:19<18:15:22,  3.47it/s] 39%|███▊      | 143542/371472 [20:19<17:50:45,  3.55it/s] 39%|███▊      | 143543/371472 [20:19<17:45:15,  3.57it/s] 39%|███▊      | 143544/371472 [20:20<17:51:55,  3.54it/s] 39%|███▊      | 143545/371472 [20:20<19:34:35,  3.23it/s] 39%|███▊      | 143546/371472 [20:20<18:22:08,  3.45it/s] 39%|███▊      | 143547/371472 [20:21<18:14:58,  3.47it/s] 39%|███▊      | 143548/371472 [20:21<18:42:25,  3.38it/s] 39%|███▊      | 143549/371472 [20:21<18:19:55,  3.45it/s] 39%|███▊      | 143550/371472 [20:21<20:14:36,  3.13it/s] 39%|███▊      | 143551/371472 [20:22<19:02:00,  3.33it/s] 39%|███▊      | 143552/371472 [20:22<18:59:06,  3.33it/s] 39%|███▊      | 143553/371472 [20:22<18:11:28,  3.48it/s] 39%|███▊      | 143554/371472 [20:23<18:11:30,  3.48it/s] 39%|███▊      | 143555/371472 [20:23<17:17:43,  3.66it/s] 39%|███▊      | 143556/371472 [20:23<17:34:37,  3.60it/s] 39%|███▊      | 143557/371472 [20:23<17:44:37,  3.57it/s] 39%|███▊      | 143558/371472 [20:24<17:37:29,  3.59it/s] 39%|███▊      | 143559/371472 [20:24<18:27:48,  3.43it/s] 39%|███▊      | 143560/371472 [20:24<18:09:23,  3.49it/s]                                                          {'loss': 3.347, 'learning_rate': 6.524811997672865e-07, 'epoch': 6.18}
 39%|███▊      | 143560/371472 [20:24<18:09:23,  3.49it/s] 39%|███▊      | 143561/371472 [20:25<18:00:30,  3.52it/s] 39%|███▊      | 143562/371472 [20:25<19:45:15,  3.20it/s] 39%|███▊      | 143563/371472 [20:25<19:07:01,  3.31it/s] 39%|███▊      | 143564/371472 [20:26<19:00:00,  3.33it/s] 39%|███▊      | 143565/371472 [20:26<18:47:30,  3.37it/s] 39%|███▊      | 143566/371472 [20:26<17:51:53,  3.54it/s] 39%|███▊      | 143567/371472 [20:26<17:33:29,  3.61it/s] 39%|███▊      | 143568/371472 [20:27<17:05:09,  3.71it/s] 39%|███▊      | 143569/371472 [20:27<18:29:34,  3.42it/s] 39%|███▊      | 143570/371472 [20:27<18:26:12,  3.43it/s] 39%|███▊      | 143571/371472 [20:27<17:42:30,  3.57it/s] 39%|███▊      | 143572/371472 [20:28<17:10:06,  3.69it/s] 39%|███▊      | 143573/371472 [20:28<17:29:04,  3.62it/s] 39%|███▊      | 143574/371472 [20:28<17:37:53,  3.59it/s] 39%|███▊      | 143575/371472 [20:29<17:15:00,  3.67it/s] 39%|███▊      | 143576/371472 [20:29<16:28:08,  3.84it/s] 39%|███▊      | 143577/371472 [20:29<17:14:09,  3.67it/s] 39%|███▊      | 143578/371472 [20:29<18:17:36,  3.46it/s] 39%|███▊      | 143579/371472 [20:30<17:49:13,  3.55it/s] 39%|███▊      | 143580/371472 [20:30<18:13:39,  3.47it/s]                                                          {'loss': 3.3264, 'learning_rate': 6.524327177918075e-07, 'epoch': 6.18}
 39%|███▊      | 143580/371472 [20:30<18:13:39,  3.47it/s] 39%|███▊      | 143581/371472 [20:30<19:00:01,  3.33it/s] 39%|███▊      | 143582/371472 [20:31<18:23:59,  3.44it/s] 39%|███▊      | 143583/371472 [20:31<19:16:02,  3.29it/s] 39%|███▊      | 143584/371472 [20:31<19:22:23,  3.27it/s] 39%|███▊      | 143585/371472 [20:31<19:05:01,  3.32it/s] 39%|███▊      | 143586/371472 [20:32<18:07:02,  3.49it/s] 39%|███▊      | 143587/371472 [20:32<18:47:01,  3.37it/s] 39%|███▊      | 143588/371472 [20:32<17:52:25,  3.54it/s] 39%|███▊      | 143589/371472 [20:33<17:13:50,  3.67it/s] 39%|███▊      | 143590/371472 [20:33<17:44:47,  3.57it/s] 39%|███▊      | 143591/371472 [20:33<18:41:44,  3.39it/s] 39%|███▊      | 143592/371472 [20:33<18:46:58,  3.37it/s] 39%|███▊      | 143593/371472 [20:34<19:05:16,  3.32it/s] 39%|███▊      | 143594/371472 [20:34<19:31:23,  3.24it/s] 39%|███▊      | 143595/371472 [20:34<19:30:01,  3.25it/s] 39%|███▊      | 143596/371472 [20:35<18:35:40,  3.40it/s] 39%|███▊      | 143597/371472 [20:35<18:13:09,  3.47it/s] 39%|███▊      | 143598/371472 [20:35<17:43:49,  3.57it/s] 39%|███▊      | 143599/371472 [20:35<16:59:53,  3.72it/s] 39%|███▊      | 143600/371472 [20:36<19:16:05,  3.29it/s]                                                          {'loss': 3.2354, 'learning_rate': 6.523842358163287e-07, 'epoch': 6.19}
 39%|███▊      | 143600/371472 [20:36<19:16:05,  3.29it/s] 39%|███▊      | 143601/371472 [20:36<18:59:27,  3.33it/s] 39%|███▊      | 143602/371472 [20:36<19:03:02,  3.32it/s] 39%|███▊      | 143603/371472 [20:37<19:38:32,  3.22it/s] 39%|███▊      | 143604/371472 [20:37<18:57:17,  3.34it/s] 39%|███▊      | 143605/371472 [20:37<18:26:44,  3.43it/s] 39%|███▊      | 143606/371472 [20:38<18:43:43,  3.38it/s] 39%|███▊      | 143607/371472 [20:38<19:21:45,  3.27it/s] 39%|███▊      | 143608/371472 [20:38<19:54:00,  3.18it/s] 39%|███▊      | 143609/371472 [20:39<18:25:19,  3.44it/s] 39%|███▊      | 143610/371472 [20:39<18:11:35,  3.48it/s] 39%|███▊      | 143611/371472 [20:39<18:15:06,  3.47it/s] 39%|███▊      | 143612/371472 [20:39<17:57:17,  3.53it/s] 39%|███▊      | 143613/371472 [20:40<17:26:01,  3.63it/s] 39%|███▊      | 143614/371472 [20:40<18:11:03,  3.48it/s] 39%|███▊      | 143615/371472 [20:40<17:23:09,  3.64it/s] 39%|███▊      | 143616/371472 [20:41<18:46:19,  3.37it/s] 39%|███▊      | 143617/371472 [20:41<18:01:54,  3.51it/s] 39%|███▊      | 143618/371472 [20:41<18:18:17,  3.46it/s] 39%|███▊      | 143619/371472 [20:41<18:14:20,  3.47it/s] 39%|███▊      | 143620/371472 [20:42<18:06:30,  3.50it/s]                                                          {'loss': 3.1681, 'learning_rate': 6.523357538408499e-07, 'epoch': 6.19}
 39%|███▊      | 143620/371472 [20:42<18:06:30,  3.50it/s] 39%|███▊      | 143621/371472 [20:42<18:07:07,  3.49it/s] 39%|███▊      | 143622/371472 [20:42<17:49:48,  3.55it/s] 39%|███▊      | 143623/371472 [20:42<17:15:53,  3.67it/s] 39%|███▊      | 143624/371472 [20:43<17:06:02,  3.70it/s] 39%|███▊      | 143625/371472 [20:43<18:40:34,  3.39it/s] 39%|███▊      | 143626/371472 [20:43<18:19:05,  3.46it/s] 39%|███▊      | 143627/371472 [20:44<17:28:21,  3.62it/s] 39%|███▊      | 143628/371472 [20:44<17:17:08,  3.66it/s] 39%|███▊      | 143629/371472 [20:44<17:43:59,  3.57it/s] 39%|███▊      | 143630/371472 [20:44<17:54:38,  3.53it/s] 39%|███▊      | 143631/371472 [20:45<18:15:24,  3.47it/s] 39%|███▊      | 143632/371472 [20:45<17:48:49,  3.55it/s] 39%|███▊      | 143633/371472 [20:45<17:59:27,  3.52it/s] 39%|███▊      | 143634/371472 [20:46<18:12:12,  3.48it/s] 39%|███▊      | 143635/371472 [20:46<18:14:02,  3.47it/s] 39%|███▊      | 143636/371472 [20:46<18:08:34,  3.49it/s] 39%|███▊      | 143637/371472 [20:47<18:55:12,  3.34it/s] 39%|███▊      | 143638/371472 [20:47<18:51:55,  3.35it/s] 39%|███▊      | 143639/371472 [20:47<18:39:44,  3.39it/s] 39%|███▊      | 143640/371472 [20:47<18:23:15,  3.44it/s]                                                          {'loss': 3.1362, 'learning_rate': 6.52287271865371e-07, 'epoch': 6.19}
 39%|███▊      | 143640/371472 [20:47<18:23:15,  3.44it/s] 39%|███▊      | 143641/371472 [20:48<18:13:58,  3.47it/s] 39%|███▊      | 143642/371472 [20:48<17:41:21,  3.58it/s] 39%|███▊      | 143643/371472 [20:48<19:00:27,  3.33it/s] 39%|███▊      | 143644/371472 [20:49<18:32:05,  3.41it/s] 39%|███▊      | 143645/371472 [20:49<18:12:11,  3.48it/s] 39%|███▊      | 143646/371472 [20:49<17:39:45,  3.58it/s] 39%|███▊      | 143647/371472 [20:49<16:57:11,  3.73it/s] 39%|███▊      | 143648/371472 [20:50<17:47:37,  3.56it/s] 39%|███▊      | 143649/371472 [20:50<18:06:42,  3.49it/s] 39%|███▊      | 143650/371472 [20:50<18:45:55,  3.37it/s] 39%|███▊      | 143651/371472 [20:51<18:16:57,  3.46it/s] 39%|███▊      | 143652/371472 [20:51<18:06:18,  3.50it/s] 39%|███▊      | 143653/371472 [20:51<18:02:56,  3.51it/s] 39%|███▊      | 143654/371472 [20:51<18:47:28,  3.37it/s] 39%|███▊      | 143655/371472 [20:52<18:19:12,  3.45it/s] 39%|███▊      | 143656/371472 [20:52<17:40:44,  3.58it/s] 39%|███▊      | 143657/371472 [20:52<17:32:57,  3.61it/s] 39%|███▊      | 143658/371472 [20:53<17:41:27,  3.58it/s] 39%|███▊      | 143659/371472 [20:53<18:18:17,  3.46it/s] 39%|███▊      | 143660/371472 [20:53<18:05:08,  3.50it/s]                                                          {'loss': 3.3406, 'learning_rate': 6.522387898898919e-07, 'epoch': 6.19}
 39%|███▊      | 143660/371472 [20:53<18:05:08,  3.50it/s] 39%|███▊      | 143661/371472 [20:53<17:30:29,  3.61it/s] 39%|███▊      | 143662/371472 [20:54<17:01:14,  3.72it/s] 39%|███▊      | 143663/371472 [20:54<16:31:59,  3.83it/s] 39%|███▊      | 143664/371472 [20:54<17:12:00,  3.68it/s] 39%|███▊      | 143665/371472 [20:54<16:56:49,  3.73it/s] 39%|███▊      | 143666/371472 [20:55<16:49:52,  3.76it/s] 39%|███▊      | 143667/371472 [20:55<16:35:39,  3.81it/s] 39%|███▊      | 143668/371472 [20:55<16:49:09,  3.76it/s] 39%|███▊      | 143669/371472 [20:55<16:58:41,  3.73it/s] 39%|███▊      | 143670/371472 [20:56<16:47:04,  3.77it/s] 39%|███▊      | 143671/371472 [20:56<16:42:04,  3.79it/s] 39%|███▊      | 143672/371472 [20:56<16:55:20,  3.74it/s] 39%|███▊      | 143673/371472 [20:57<17:50:05,  3.55it/s] 39%|███▊      | 143674/371472 [20:57<17:32:36,  3.61it/s] 39%|███▊      | 143675/371472 [20:57<17:31:06,  3.61it/s] 39%|███▊      | 143676/371472 [20:57<17:37:41,  3.59it/s] 39%|███▊      | 143677/371472 [20:58<18:20:33,  3.45it/s] 39%|███▊      | 143678/371472 [20:58<18:03:36,  3.50it/s] 39%|███▊      | 143679/371472 [20:58<17:10:06,  3.69it/s] 39%|███▊      | 143680/371472 [20:58<16:56:14,  3.74it/s]                                                          {'loss': 3.209, 'learning_rate': 6.521903079144131e-07, 'epoch': 6.19}
 39%|███▊      | 143680/371472 [20:58<16:56:14,  3.74it/s] 39%|███▊      | 143681/371472 [20:59<17:57:57,  3.52it/s] 39%|███▊      | 143682/371472 [20:59<18:24:53,  3.44it/s] 39%|███▊      | 143683/371472 [20:59<17:32:34,  3.61it/s] 39%|███▊      | 143684/371472 [21:00<17:19:24,  3.65it/s] 39%|███▊      | 143685/371472 [21:00<16:41:37,  3.79it/s] 39%|███▊      | 143686/371472 [21:00<16:15:18,  3.89it/s] 39%|███▊      | 143687/371472 [21:00<17:43:19,  3.57it/s] 39%|███▊      | 143688/371472 [21:01<19:44:17,  3.21it/s] 39%|███▊      | 143689/371472 [21:01<18:32:45,  3.41it/s] 39%|███▊      | 143690/371472 [21:01<18:06:50,  3.49it/s] 39%|███▊      | 143691/371472 [21:02<17:39:36,  3.58it/s] 39%|███▊      | 143692/371472 [21:02<17:41:55,  3.57it/s] 39%|███▊      | 143693/371472 [21:02<19:07:36,  3.31it/s] 39%|███▊      | 143694/371472 [21:03<18:53:19,  3.35it/s] 39%|███▊      | 143695/371472 [21:03<18:01:14,  3.51it/s] 39%|███▊      | 143696/371472 [21:03<19:32:17,  3.24it/s] 39%|███▊      | 143697/371472 [21:03<18:12:34,  3.47it/s] 39%|███▊      | 143698/371472 [21:04<17:26:30,  3.63it/s] 39%|███▊      | 143699/371472 [21:04<17:19:42,  3.65it/s] 39%|███▊      | 143700/371472 [21:04<19:24:20,  3.26it/s]                                                          {'loss': 3.1931, 'learning_rate': 6.521418259389343e-07, 'epoch': 6.19}
 39%|███▊      | 143700/371472 [21:04<19:24:20,  3.26it/s] 39%|███▊      | 143701/371472 [21:05<18:19:17,  3.45it/s] 39%|███▊      | 143702/371472 [21:05<18:21:28,  3.45it/s] 39%|███▊      | 143703/371472 [21:05<17:44:54,  3.56it/s] 39%|███▊      | 143704/371472 [21:05<17:27:49,  3.62it/s] 39%|███▊      | 143705/371472 [21:06<17:44:17,  3.57it/s] 39%|███▊      | 143706/371472 [21:06<18:21:14,  3.45it/s] 39%|███▊      | 143707/371472 [21:06<17:46:37,  3.56it/s] 39%|███▊      | 143708/371472 [21:07<17:54:47,  3.53it/s] 39%|███▊      | 143709/371472 [21:07<18:14:16,  3.47it/s] 39%|███▊      | 143710/371472 [21:07<17:29:28,  3.62it/s] 39%|███▊      | 143711/371472 [21:08<21:24:07,  2.96it/s] 39%|███▊      | 143712/371472 [21:08<19:38:21,  3.22it/s] 39%|███▊      | 143713/371472 [21:08<19:11:34,  3.30it/s] 39%|███▊      | 143714/371472 [21:08<18:32:20,  3.41it/s] 39%|███▊      | 143715/371472 [21:09<18:47:30,  3.37it/s] 39%|███▊      | 143716/371472 [21:09<20:21:42,  3.11it/s] 39%|███▊      | 143717/371472 [21:09<20:34:07,  3.08it/s] 39%|███▊      | 143718/371472 [21:10<19:21:00,  3.27it/s] 39%|███▊      | 143719/371472 [21:10<19:46:39,  3.20it/s] 39%|███▊      | 143720/371472 [21:10<18:58:06,  3.34it/s]                                                          {'loss': 3.1843, 'learning_rate': 6.520933439634554e-07, 'epoch': 6.19}
 39%|███▊      | 143720/371472 [21:10<18:58:06,  3.34it/s] 39%|███▊      | 143721/371472 [21:10<18:21:18,  3.45it/s] 39%|███▊      | 143722/371472 [21:11<19:44:39,  3.20it/s] 39%|███▊      | 143723/371472 [21:11<18:56:41,  3.34it/s] 39%|███▊      | 143724/371472 [21:11<19:17:43,  3.28it/s] 39%|███▊      | 143725/371472 [21:12<20:02:05,  3.16it/s] 39%|███▊      | 143726/371472 [21:12<19:19:47,  3.27it/s] 39%|███▊      | 143727/371472 [21:12<18:40:52,  3.39it/s] 39%|███▊      | 143728/371472 [21:13<18:45:29,  3.37it/s] 39%|███▊      | 143729/371472 [21:13<19:04:46,  3.32it/s] 39%|███▊      | 143730/371472 [21:13<18:14:15,  3.47it/s] 39%|███▊      | 143731/371472 [21:13<17:49:10,  3.55it/s] 39%|███▊      | 143732/371472 [21:14<18:11:44,  3.48it/s] 39%|███▊      | 143733/371472 [21:14<18:49:47,  3.36it/s] 39%|███▊      | 143734/371472 [21:14<18:19:40,  3.45it/s] 39%|███▊      | 143735/371472 [21:15<17:50:59,  3.54it/s] 39%|███▊      | 143736/371472 [21:15<18:02:11,  3.51it/s] 39%|███▊      | 143737/371472 [21:15<18:13:08,  3.47it/s] 39%|███▊      | 143738/371472 [21:16<18:30:54,  3.42it/s] 39%|███▊      | 143739/371472 [21:16<18:04:42,  3.50it/s] 39%|███▊      | 143740/371472 [21:16<18:11:24,  3.48it/s]                                                          {'loss': 3.0946, 'learning_rate': 6.520448619879764e-07, 'epoch': 6.19}
 39%|███▊      | 143740/371472 [21:16<18:11:24,  3.48it/s] 39%|███▊      | 143741/371472 [21:16<19:13:09,  3.29it/s] 39%|███▊      | 143742/371472 [21:17<18:50:28,  3.36it/s] 39%|███▊      | 143743/371472 [21:17<19:07:06,  3.31it/s] 39%|███▊      | 143744/371472 [21:17<19:41:27,  3.21it/s] 39%|███▊      | 143745/371472 [21:18<18:49:11,  3.36it/s] 39%|███▊      | 143746/371472 [21:18<18:34:32,  3.41it/s] 39%|███▊      | 143747/371472 [21:18<17:57:32,  3.52it/s] 39%|███▊      | 143748/371472 [21:18<17:29:23,  3.62it/s] 39%|███▊      | 143749/371472 [21:19<16:57:40,  3.73it/s] 39%|███▊      | 143750/371472 [21:19<17:50:07,  3.55it/s] 39%|███▊      | 143751/371472 [21:19<18:30:34,  3.42it/s] 39%|███▊      | 143752/371472 [21:20<17:43:42,  3.57it/s] 39%|███▊      | 143753/371472 [21:20<17:23:27,  3.64it/s] 39%|███▊      | 143754/371472 [21:20<17:13:06,  3.67it/s] 39%|███▊      | 143755/371472 [21:20<17:37:51,  3.59it/s] 39%|███▊      | 143756/371472 [21:21<17:29:17,  3.62it/s] 39%|███▊      | 143757/371472 [21:21<17:28:20,  3.62it/s] 39%|███▊      | 143758/371472 [21:21<17:30:32,  3.61it/s] 39%|███▊      | 143759/371472 [21:21<17:36:58,  3.59it/s] 39%|███▊      | 143760/371472 [21:22<17:26:25,  3.63it/s]                                                          {'loss': 3.2686, 'learning_rate': 6.519963800124976e-07, 'epoch': 6.19}
 39%|███▊      | 143760/371472 [21:22<17:26:25,  3.63it/s] 39%|███▊      | 143761/371472 [21:22<18:39:04,  3.39it/s] 39%|███▊      | 143762/371472 [21:22<17:59:14,  3.52it/s] 39%|███▊      | 143763/371472 [21:23<17:22:56,  3.64it/s] 39%|███▊      | 143764/371472 [21:23<17:12:03,  3.68it/s] 39%|███▊      | 143765/371472 [21:23<18:42:07,  3.38it/s] 39%|███▊      | 143766/371472 [21:23<18:11:04,  3.48it/s] 39%|███▊      | 143767/371472 [21:24<17:26:41,  3.63it/s] 39%|███▊      | 143768/371472 [21:24<17:33:03,  3.60it/s] 39%|███▊      | 143769/371472 [21:24<18:28:21,  3.42it/s] 39%|███▊      | 143770/371472 [21:25<18:00:22,  3.51it/s] 39%|███▊      | 143771/371472 [21:25<17:50:25,  3.55it/s] 39%|███▊      | 143772/371472 [21:25<17:55:26,  3.53it/s] 39%|███▊      | 143773/371472 [21:25<17:54:49,  3.53it/s] 39%|███▊      | 143774/371472 [21:26<17:36:41,  3.59it/s] 39%|███▊      | 143775/371472 [21:26<18:22:26,  3.44it/s] 39%|███▊      | 143776/371472 [21:26<18:49:24,  3.36it/s] 39%|███▊      | 143777/371472 [21:27<20:36:54,  3.07it/s] 39%|███▊      | 143778/371472 [21:27<19:13:44,  3.29it/s] 39%|███▊      | 143779/371472 [21:27<18:15:33,  3.46it/s] 39%|███▊      | 143780/371472 [21:28<18:07:36,  3.49it/s]                                                          {'loss': 3.3589, 'learning_rate': 6.519478980370186e-07, 'epoch': 6.19}
 39%|███▊      | 143780/371472 [21:28<18:07:36,  3.49it/s] 39%|███▊      | 143781/371472 [21:28<17:43:01,  3.57it/s] 39%|███▊      | 143782/371472 [21:28<17:23:01,  3.64it/s] 39%|███▊      | 143783/371472 [21:28<17:19:31,  3.65it/s] 39%|███▊      | 143784/371472 [21:29<17:00:22,  3.72it/s] 39%|███▊      | 143785/371472 [21:29<16:54:12,  3.74it/s] 39%|███▊      | 143786/371472 [21:29<17:14:21,  3.67it/s] 39%|███▊      | 143787/371472 [21:29<16:52:46,  3.75it/s] 39%|███▊      | 143788/371472 [21:30<17:53:44,  3.53it/s] 39%|███▊      | 143789/371472 [21:30<17:19:40,  3.65it/s] 39%|███▊      | 143790/371472 [21:30<16:53:47,  3.74it/s] 39%|███▊      | 143791/371472 [21:31<17:22:32,  3.64it/s] 39%|███▊      | 143792/371472 [21:31<17:08:39,  3.69it/s] 39%|███▊      | 143793/371472 [21:31<16:58:44,  3.72it/s] 39%|███▊      | 143794/371472 [21:31<17:10:32,  3.68it/s] 39%|███▊      | 143795/371472 [21:32<16:56:54,  3.73it/s] 39%|███▊      | 143796/371472 [21:32<17:24:35,  3.63it/s] 39%|███▊      | 143797/371472 [21:32<18:14:20,  3.47it/s] 39%|███▊      | 143798/371472 [21:32<17:38:06,  3.59it/s] 39%|███▊      | 143799/371472 [21:33<18:16:20,  3.46it/s] 39%|███▊      | 143800/371472 [21:33<17:46:46,  3.56it/s]                                                          {'loss': 3.3076, 'learning_rate': 6.518994160615397e-07, 'epoch': 6.19}
 39%|███▊      | 143800/371472 [21:33<17:46:46,  3.56it/s] 39%|███▊      | 143801/371472 [21:33<17:27:56,  3.62it/s] 39%|███▊      | 143802/371472 [21:34<18:26:39,  3.43it/s] 39%|███▊      | 143803/371472 [21:34<18:34:57,  3.40it/s] 39%|███▊      | 143804/371472 [21:34<18:44:29,  3.37it/s] 39%|███▊      | 143805/371472 [21:35<18:58:21,  3.33it/s] 39%|███▊      | 143806/371472 [21:35<18:34:30,  3.40it/s] 39%|███▊      | 143807/371472 [21:35<17:29:33,  3.62it/s] 39%|███▊      | 143808/371472 [21:35<17:24:56,  3.63it/s] 39%|███▊      | 143809/371472 [21:36<17:57:18,  3.52it/s] 39%|███▊      | 143810/371472 [21:36<17:39:12,  3.58it/s] 39%|███▊      | 143811/371472 [21:36<18:13:48,  3.47it/s] 39%|███▊      | 143812/371472 [21:36<17:36:46,  3.59it/s] 39%|███▊      | 143813/371472 [21:37<18:35:09,  3.40it/s] 39%|███▊      | 143814/371472 [21:37<18:15:50,  3.46it/s] 39%|███▊      | 143815/371472 [21:37<17:24:45,  3.63it/s] 39%|███▊      | 143816/371472 [21:38<16:57:59,  3.73it/s] 39%|███▊      | 143817/371472 [21:38<16:57:30,  3.73it/s] 39%|███▊      | 143818/371472 [21:38<16:30:28,  3.83it/s] 39%|███▊      | 143819/371472 [21:38<17:10:04,  3.68it/s] 39%|███▊      | 143820/371472 [21:39<18:09:01,  3.48it/s]                                                          {'loss': 3.138, 'learning_rate': 6.518509340860608e-07, 'epoch': 6.19}
 39%|███▊      | 143820/371472 [21:39<18:09:01,  3.48it/s] 39%|███▊      | 143821/371472 [21:39<17:55:23,  3.53it/s] 39%|███▊      | 143822/371472 [21:39<17:29:19,  3.62it/s] 39%|███▊      | 143823/371472 [21:40<17:49:39,  3.55it/s] 39%|███▊      | 143824/371472 [21:40<17:48:33,  3.55it/s] 39%|███▊      | 143825/371472 [21:40<18:50:07,  3.36it/s] 39%|███▊      | 143826/371472 [21:40<19:24:29,  3.26it/s] 39%|███▊      | 143827/371472 [21:41<19:01:40,  3.32it/s] 39%|███▊      | 143828/371472 [21:41<18:45:34,  3.37it/s] 39%|███▊      | 143829/371472 [21:41<20:33:21,  3.08it/s] 39%|███▊      | 143830/371472 [21:42<19:17:41,  3.28it/s] 39%|███▊      | 143831/371472 [21:42<18:11:02,  3.48it/s] 39%|███▊      | 143832/371472 [21:42<17:20:28,  3.65it/s] 39%|███▊      | 143833/371472 [21:42<17:50:59,  3.54it/s] 39%|███▊      | 143834/371472 [21:43<18:07:04,  3.49it/s] 39%|███▊      | 143835/371472 [21:43<17:17:55,  3.66it/s] 39%|███▊      | 143836/371472 [21:43<17:56:23,  3.52it/s] 39%|███▊      | 143837/371472 [21:44<18:14:17,  3.47it/s] 39%|███▊      | 143838/371472 [21:44<18:30:30,  3.42it/s] 39%|███▊      | 143839/371472 [21:44<18:01:22,  3.51it/s] 39%|███▊      | 143840/371472 [21:45<18:43:01,  3.38it/s]                                                          {'loss': 3.2215, 'learning_rate': 6.51802452110582e-07, 'epoch': 6.2}
 39%|███▊      | 143840/371472 [21:45<18:43:01,  3.38it/s] 39%|███▊      | 143841/371472 [21:45<18:26:59,  3.43it/s] 39%|███▊      | 143842/371472 [21:45<18:10:09,  3.48it/s] 39%|███▊      | 143843/371472 [21:45<19:40:53,  3.21it/s] 39%|███▊      | 143844/371472 [21:46<18:25:45,  3.43it/s] 39%|███▊      | 143845/371472 [21:46<18:09:10,  3.48it/s] 39%|███▊      | 143846/371472 [21:46<19:27:35,  3.25it/s] 39%|███▊      | 143847/371472 [21:47<18:45:43,  3.37it/s] 39%|███▊      | 143848/371472 [21:47<18:56:03,  3.34it/s] 39%|███▊      | 143849/371472 [21:47<18:23:27,  3.44it/s] 39%|███▊      | 143850/371472 [21:47<17:47:00,  3.56it/s] 39%|███▊      | 143851/371472 [21:48<18:37:26,  3.39it/s] 39%|███▊      | 143852/371472 [21:48<19:01:54,  3.32it/s] 39%|███▊      | 143853/371472 [21:48<18:19:28,  3.45it/s] 39%|███▊      | 143854/371472 [21:49<17:54:00,  3.53it/s] 39%|███▊      | 143855/371472 [21:49<17:44:15,  3.56it/s] 39%|███▊      | 143856/371472 [21:49<17:18:53,  3.65it/s] 39%|███▊      | 143857/371472 [21:49<17:26:29,  3.63it/s] 39%|███▊      | 143858/371472 [21:50<17:37:28,  3.59it/s] 39%|███▊      | 143859/371472 [21:50<17:21:10,  3.64it/s] 39%|███▊      | 143860/371472 [21:50<18:00:18,  3.51it/s]                                                          {'loss': 3.1392, 'learning_rate': 6.517539701351031e-07, 'epoch': 6.2}
 39%|███▊      | 143860/371472 [21:50<18:00:18,  3.51it/s] 39%|███▊      | 143861/371472 [21:51<17:19:53,  3.65it/s] 39%|███▊      | 143862/371472 [21:51<18:24:35,  3.43it/s] 39%|███▊      | 143863/371472 [21:51<18:43:24,  3.38it/s] 39%|███▊      | 143864/371472 [21:51<18:02:50,  3.50it/s] 39%|███▊      | 143865/371472 [21:52<18:36:56,  3.40it/s] 39%|███▊      | 143866/371472 [21:52<17:38:49,  3.58it/s] 39%|███▊      | 143867/371472 [21:52<17:34:49,  3.60it/s] 39%|███▊      | 143868/371472 [21:53<18:03:55,  3.50it/s] 39%|███▊      | 143869/371472 [21:53<17:48:35,  3.55it/s] 39%|███▊      | 143870/371472 [21:53<18:23:41,  3.44it/s] 39%|███▊      | 143871/371472 [21:53<17:50:48,  3.54it/s] 39%|███▊      | 143872/371472 [21:54<18:22:52,  3.44it/s] 39%|███▊      | 143873/371472 [21:54<17:35:04,  3.60it/s] 39%|███▊      | 143874/371472 [21:54<17:37:22,  3.59it/s] 39%|███▊      | 143875/371472 [21:54<17:13:24,  3.67it/s] 39%|███▊      | 143876/371472 [21:55<17:00:42,  3.72it/s] 39%|███▊      | 143877/371472 [21:55<17:09:03,  3.69it/s] 39%|███▊      | 143878/371472 [21:55<16:41:24,  3.79it/s] 39%|███▊      | 143879/371472 [21:56<16:22:59,  3.86it/s] 39%|███▊      | 143880/371472 [21:56<16:32:37,  3.82it/s]                                                          {'loss': 3.2187, 'learning_rate': 6.517054881596241e-07, 'epoch': 6.2}
 39%|███▊      | 143880/371472 [21:56<16:32:37,  3.82it/s] 39%|███▊      | 143881/371472 [21:56<16:39:39,  3.79it/s] 39%|███▊      | 143882/371472 [21:56<17:22:40,  3.64it/s] 39%|███▊      | 143883/371472 [21:57<18:06:05,  3.49it/s] 39%|███▊      | 143884/371472 [21:57<18:10:16,  3.48it/s] 39%|███▊      | 143885/371472 [21:57<18:04:07,  3.50it/s] 39%|███▊      | 143886/371472 [21:58<17:53:13,  3.53it/s] 39%|███▊      | 143887/371472 [21:58<17:30:53,  3.61it/s] 39%|███▊      | 143888/371472 [21:58<17:21:22,  3.64it/s] 39%|███▊      | 143889/371472 [21:58<16:59:05,  3.72it/s] 39%|███▊      | 143890/371472 [21:59<17:08:44,  3.69it/s] 39%|███▊      | 143891/371472 [21:59<17:31:52,  3.61it/s] 39%|███▊      | 143892/371472 [21:59<17:31:43,  3.61it/s] 39%|███▊      | 143893/371472 [21:59<18:17:59,  3.45it/s] 39%|███▊      | 143894/371472 [22:00<17:58:31,  3.52it/s] 39%|███▊      | 143895/371472 [22:00<17:47:49,  3.55it/s] 39%|███▊      | 143896/371472 [22:00<18:02:19,  3.50it/s] 39%|███▊      | 143897/371472 [22:01<18:00:08,  3.51it/s] 39%|███▊      | 143898/371472 [22:01<17:23:56,  3.63it/s] 39%|███▊      | 143899/371472 [22:01<17:12:00,  3.68it/s] 39%|███▊      | 143900/371472 [22:01<17:49:14,  3.55it/s]                                                          {'loss': 3.3571, 'learning_rate': 6.516570061841453e-07, 'epoch': 6.2}
 39%|███▊      | 143900/371472 [22:01<17:49:14,  3.55it/s] 39%|███▊      | 143901/371472 [22:02<17:40:49,  3.58it/s] 39%|███▊      | 143902/371472 [22:02<17:10:15,  3.68it/s] 39%|███▊      | 143903/371472 [22:02<18:55:54,  3.34it/s] 39%|███▊      | 143904/371472 [22:03<17:53:45,  3.53it/s] 39%|███▊      | 143905/371472 [22:03<17:25:17,  3.63it/s] 39%|███▊      | 143906/371472 [22:03<17:11:43,  3.68it/s] 39%|███▊      | 143907/371472 [22:03<16:54:40,  3.74it/s] 39%|███▊      | 143908/371472 [22:04<16:45:36,  3.77it/s] 39%|███▊      | 143909/371472 [22:04<17:11:25,  3.68it/s] 39%|███▊      | 143910/371472 [22:04<17:05:32,  3.70it/s] 39%|███▊      | 143911/371472 [22:04<16:38:03,  3.80it/s] 39%|███▊      | 143912/371472 [22:05<17:28:22,  3.62it/s] 39%|███▊      | 143913/371472 [22:05<17:19:20,  3.65it/s] 39%|███▊      | 143914/371472 [22:05<20:18:23,  3.11it/s] 39%|███▊      | 143915/371472 [22:06<19:01:39,  3.32it/s] 39%|███▊      | 143916/371472 [22:06<17:55:12,  3.53it/s] 39%|███▊      | 143917/371472 [22:06<18:31:24,  3.41it/s] 39%|███▊      | 143918/371472 [22:06<17:43:22,  3.57it/s] 39%|███▊      | 143919/371472 [22:07<17:51:39,  3.54it/s] 39%|███▊      | 143920/371472 [22:07<18:12:57,  3.47it/s]                                                          {'loss': 3.157, 'learning_rate': 6.516085242086664e-07, 'epoch': 6.2}
 39%|███▊      | 143920/371472 [22:07<18:12:57,  3.47it/s] 39%|███▊      | 143921/371472 [22:07<17:48:07,  3.55it/s] 39%|███▊      | 143922/371472 [22:08<18:10:12,  3.48it/s] 39%|███▊      | 143923/371472 [22:08<18:38:25,  3.39it/s] 39%|███▊      | 143924/371472 [22:08<17:48:21,  3.55it/s] 39%|███▊      | 143925/371472 [22:09<19:08:06,  3.30it/s] 39%|███▊      | 143926/371472 [22:09<20:12:56,  3.13it/s] 39%|███▊      | 143927/371472 [22:09<18:59:33,  3.33it/s] 39%|███▊      | 143928/371472 [22:09<19:00:46,  3.32it/s] 39%|███▊      | 143929/371472 [22:10<19:03:52,  3.32it/s] 39%|███▊      | 143930/371472 [22:10<19:10:05,  3.30it/s] 39%|███▊      | 143931/371472 [22:10<20:27:42,  3.09it/s] 39%|███▊      | 143932/371472 [22:11<19:05:35,  3.31it/s] 39%|███▊      | 143933/371472 [22:11<18:10:36,  3.48it/s] 39%|███▊      | 143934/371472 [22:11<18:18:25,  3.45it/s] 39%|███▊      | 143935/371472 [22:12<18:31:08,  3.41it/s] 39%|███▊      | 143936/371472 [22:12<18:02:42,  3.50it/s] 39%|███▊      | 143937/371472 [22:12<18:11:24,  3.47it/s] 39%|███▊      | 143938/371472 [22:12<17:58:29,  3.52it/s] 39%|███▊      | 143939/371472 [22:13<18:53:39,  3.35it/s] 39%|███▊      | 143940/371472 [22:13<19:47:38,  3.19it/s]                                                          {'loss': 3.3513, 'learning_rate': 6.515600422331875e-07, 'epoch': 6.2}
 39%|███▊      | 143940/371472 [22:13<19:47:38,  3.19it/s] 39%|███▊      | 143941/371472 [22:13<19:13:49,  3.29it/s] 39%|███▊      | 143942/371472 [22:14<18:30:58,  3.41it/s] 39%|███▊      | 143943/371472 [22:14<19:05:17,  3.31it/s] 39%|███▊      | 143944/371472 [22:14<20:12:43,  3.13it/s] 39%|███▊      | 143945/371472 [22:15<20:09:02,  3.14it/s] 39%|███▉      | 143946/371472 [22:15<19:35:53,  3.22it/s] 39%|███▉      | 143947/371472 [22:15<18:26:37,  3.43it/s] 39%|███▉      | 143948/371472 [22:15<17:29:31,  3.61it/s] 39%|███▉      | 143949/371472 [22:16<18:01:29,  3.51it/s] 39%|███▉      | 143950/371472 [22:16<18:36:28,  3.40it/s] 39%|███▉      | 143951/371472 [22:16<18:22:38,  3.44it/s] 39%|███▉      | 143952/371472 [22:17<18:00:35,  3.51it/s] 39%|███▉      | 143953/371472 [22:17<18:04:11,  3.50it/s] 39%|███▉      | 143954/371472 [22:17<17:33:44,  3.60it/s] 39%|███▉      | 143955/371472 [22:17<17:03:19,  3.71it/s] 39%|███▉      | 143956/371472 [22:18<17:21:43,  3.64it/s] 39%|███▉      | 143957/371472 [22:18<16:45:01,  3.77it/s] 39%|███▉      | 143958/371472 [22:18<17:24:25,  3.63it/s] 39%|███▉      | 143959/371472 [22:18<16:54:06,  3.74it/s] 39%|███▉      | 143960/371472 [22:19<16:36:51,  3.80it/s]                                                          {'loss': 3.3133, 'learning_rate': 6.515115602577085e-07, 'epoch': 6.2}
 39%|███▉      | 143960/371472 [22:19<16:36:51,  3.80it/s] 39%|███▉      | 143961/371472 [22:19<16:25:24,  3.85it/s] 39%|███▉      | 143962/371472 [22:19<16:36:21,  3.81it/s] 39%|███▉      | 143963/371472 [22:19<16:27:29,  3.84it/s] 39%|███▉      | 143964/371472 [22:20<16:52:11,  3.75it/s] 39%|███▉      | 143965/371472 [22:20<17:11:26,  3.68it/s] 39%|███▉      | 143966/371472 [22:20<16:50:47,  3.75it/s] 39%|███▉      | 143967/371472 [22:21<17:28:32,  3.62it/s] 39%|███▉      | 143968/371472 [22:21<18:14:56,  3.46it/s] 39%|███▉      | 143969/371472 [22:21<18:02:23,  3.50it/s] 39%|███▉      | 143970/371472 [22:21<17:22:55,  3.64it/s] 39%|███▉      | 143971/371472 [22:22<18:48:42,  3.36it/s] 39%|███▉      | 143972/371472 [22:22<18:10:15,  3.48it/s] 39%|███▉      | 143973/371472 [22:22<19:40:40,  3.21it/s] 39%|███▉      | 143974/371472 [22:23<18:34:29,  3.40it/s] 39%|███▉      | 143975/371472 [22:23<17:56:25,  3.52it/s] 39%|███▉      | 143976/371472 [22:23<17:20:57,  3.64it/s] 39%|███▉      | 143977/371472 [22:24<18:30:51,  3.41it/s] 39%|███▉      | 143978/371472 [22:24<19:34:40,  3.23it/s] 39%|███▉      | 143979/371472 [22:24<19:13:00,  3.29it/s] 39%|███▉      | 143980/371472 [22:24<18:25:54,  3.43it/s]                                                          {'loss': 3.2062, 'learning_rate': 6.514630782822297e-07, 'epoch': 6.2}
 39%|███▉      | 143980/371472 [22:24<18:25:54,  3.43it/s] 39%|███▉      | 143981/371472 [22:25<19:39:04,  3.22it/s] 39%|███▉      | 143982/371472 [22:25<18:54:38,  3.34it/s] 39%|███▉      | 143983/371472 [22:25<18:08:26,  3.48it/s] 39%|███▉      | 143984/371472 [22:26<19:20:00,  3.27it/s] 39%|███▉      | 143985/371472 [22:26<19:37:28,  3.22it/s] 39%|███▉      | 143986/371472 [22:26<19:34:38,  3.23it/s] 39%|███▉      | 143987/371472 [22:27<19:17:24,  3.28it/s] 39%|███▉      | 143988/371472 [22:27<19:44:56,  3.20it/s] 39%|███▉      | 143989/371472 [22:27<18:58:10,  3.33it/s] 39%|███▉      | 143990/371472 [22:27<18:39:15,  3.39it/s] 39%|███▉      | 143991/371472 [22:28<19:22:13,  3.26it/s] 39%|███▉      | 143992/371472 [22:28<18:43:57,  3.37it/s] 39%|███▉      | 143993/371472 [22:29<21:22:32,  2.96it/s] 39%|███▉      | 143994/371472 [22:29<19:49:17,  3.19it/s] 39%|███▉      | 143995/371472 [22:29<19:35:58,  3.22it/s] 39%|███▉      | 143996/371472 [22:29<18:33:31,  3.40it/s] 39%|███▉      | 143997/371472 [22:30<17:59:25,  3.51it/s] 39%|███▉      | 143998/371472 [22:30<18:00:53,  3.51it/s] 39%|███▉      | 143999/371472 [22:30<19:01:07,  3.32it/s] 39%|███▉      | 144000/371472 [22:31<18:56:30,  3.34it/s]                                                          {'loss': 3.1791, 'learning_rate': 6.514145963067509e-07, 'epoch': 6.2}
 39%|███▉      | 144000/371472 [22:31<18:56:30,  3.34it/s] 39%|███▉      | 144001/371472 [22:31<19:11:25,  3.29it/s] 39%|███▉      | 144002/371472 [22:31<18:13:19,  3.47it/s] 39%|███▉      | 144003/371472 [22:31<18:15:42,  3.46it/s] 39%|███▉      | 144004/371472 [22:32<18:43:25,  3.37it/s] 39%|███▉      | 144005/371472 [22:32<19:23:34,  3.26it/s] 39%|███▉      | 144006/371472 [22:32<18:35:09,  3.40it/s] 39%|███▉      | 144007/371472 [22:33<17:55:18,  3.53it/s] 39%|███▉      | 144008/371472 [22:33<18:22:14,  3.44it/s] 39%|███▉      | 144009/371472 [22:33<17:50:03,  3.54it/s] 39%|███▉      | 144010/371472 [22:33<17:45:19,  3.56it/s] 39%|███▉      | 144011/371472 [22:34<17:26:36,  3.62it/s] 39%|███▉      | 144012/371472 [22:34<17:37:44,  3.58it/s] 39%|███▉      | 144013/371472 [22:34<17:10:08,  3.68it/s] 39%|███▉      | 144014/371472 [22:34<17:19:19,  3.65it/s] 39%|███▉      | 144015/371472 [22:35<17:55:07,  3.53it/s] 39%|███▉      | 144016/371472 [22:35<19:02:36,  3.32it/s] 39%|███▉      | 144017/371472 [22:35<18:36:39,  3.39it/s] 39%|███▉      | 144018/371472 [22:36<18:43:39,  3.37it/s] 39%|███▉      | 144019/371472 [22:36<18:05:48,  3.49it/s] 39%|███▉      | 144020/371472 [22:36<19:17:31,  3.27it/s]                                                          {'loss': 3.2466, 'learning_rate': 6.51366114331272e-07, 'epoch': 6.2}
 39%|███▉      | 144020/371472 [22:36<19:17:31,  3.27it/s] 39%|███▉      | 144021/371472 [22:37<18:16:15,  3.46it/s] 39%|███▉      | 144022/371472 [22:37<18:23:05,  3.44it/s] 39%|███▉      | 144023/371472 [22:37<17:56:14,  3.52it/s] 39%|███▉      | 144024/371472 [22:37<17:48:15,  3.55it/s] 39%|███▉      | 144025/371472 [22:38<17:07:23,  3.69it/s] 39%|███▉      | 144026/371472 [22:38<17:21:59,  3.64it/s] 39%|███▉      | 144027/371472 [22:38<17:08:45,  3.68it/s] 39%|███▉      | 144028/371472 [22:38<16:50:10,  3.75it/s] 39%|███▉      | 144029/371472 [22:39<17:27:49,  3.62it/s] 39%|███▉      | 144030/371472 [22:39<18:20:45,  3.44it/s] 39%|███▉      | 144031/371472 [22:39<18:07:58,  3.48it/s] 39%|███▉      | 144032/371472 [22:40<17:32:14,  3.60it/s] 39%|███▉      | 144033/371472 [22:40<17:21:09,  3.64it/s] 39%|███▉      | 144034/371472 [22:40<17:23:53,  3.63it/s] 39%|███▉      | 144035/371472 [22:40<17:21:26,  3.64it/s] 39%|███▉      | 144036/371472 [22:41<18:02:32,  3.50it/s] 39%|███▉      | 144037/371472 [22:41<18:00:33,  3.51it/s] 39%|███▉      | 144038/371472 [22:41<18:36:45,  3.39it/s] 39%|███▉      | 144039/371472 [22:42<18:25:45,  3.43it/s] 39%|███▉      | 144040/371472 [22:42<19:04:57,  3.31it/s]                                                          {'loss': 3.2968, 'learning_rate': 6.513176323557929e-07, 'epoch': 6.2}
 39%|███▉      | 144040/371472 [22:42<19:04:57,  3.31it/s] 39%|███▉      | 144041/371472 [22:42<18:51:25,  3.35it/s] 39%|███▉      | 144042/371472 [22:42<18:08:48,  3.48it/s] 39%|███▉      | 144043/371472 [22:43<18:27:22,  3.42it/s] 39%|███▉      | 144044/371472 [22:43<18:31:09,  3.41it/s] 39%|███▉      | 144045/371472 [22:43<18:24:37,  3.43it/s] 39%|███▉      | 144046/371472 [22:44<18:36:06,  3.40it/s] 39%|███▉      | 144047/371472 [22:44<18:20:49,  3.44it/s] 39%|███▉      | 144048/371472 [22:44<18:11:42,  3.47it/s] 39%|███▉      | 144049/371472 [22:45<17:44:07,  3.56it/s] 39%|███▉      | 144050/371472 [22:45<17:19:36,  3.65it/s] 39%|███▉      | 144051/371472 [22:45<17:32:18,  3.60it/s] 39%|███▉      | 144052/371472 [22:45<16:49:14,  3.76it/s] 39%|███▉      | 144053/371472 [22:46<17:05:21,  3.70it/s] 39%|███▉      | 144054/371472 [22:46<16:44:08,  3.77it/s] 39%|███▉      | 144055/371472 [22:46<17:01:55,  3.71it/s] 39%|███▉      | 144056/371472 [22:46<16:55:42,  3.73it/s] 39%|███▉      | 144057/371472 [22:47<16:47:08,  3.76it/s] 39%|███▉      | 144058/371472 [22:47<18:00:35,  3.51it/s] 39%|███▉      | 144059/371472 [22:47<17:58:30,  3.51it/s] 39%|███▉      | 144060/371472 [22:48<17:54:15,  3.53it/s]                                                          {'loss': 3.2695, 'learning_rate': 6.512691503803141e-07, 'epoch': 6.2}
 39%|███▉      | 144060/371472 [22:48<17:54:15,  3.53it/s] 39%|███▉      | 144061/371472 [22:48<17:38:29,  3.58it/s] 39%|███▉      | 144062/371472 [22:48<17:22:09,  3.64it/s] 39%|███▉      | 144063/371472 [22:48<16:58:28,  3.72it/s] 39%|███▉      | 144064/371472 [22:49<17:39:35,  3.58it/s] 39%|███▉      | 144065/371472 [22:49<18:17:33,  3.45it/s] 39%|███▉      | 144066/371472 [22:49<17:49:43,  3.54it/s] 39%|███▉      | 144067/371472 [22:49<17:15:12,  3.66it/s] 39%|███▉      | 144068/371472 [22:50<18:25:53,  3.43it/s] 39%|███▉      | 144069/371472 [22:50<18:52:36,  3.35it/s] 39%|███▉      | 144070/371472 [22:50<18:44:36,  3.37it/s] 39%|███▉      | 144071/371472 [22:51<18:11:12,  3.47it/s] 39%|███▉      | 144072/371472 [22:51<17:38:38,  3.58it/s] 39%|███▉      | 144073/371472 [22:51<19:01:48,  3.32it/s] 39%|███▉      | 144074/371472 [22:52<20:26:59,  3.09it/s] 39%|███▉      | 144075/371472 [22:52<19:46:35,  3.19it/s] 39%|███▉      | 144076/371472 [22:52<18:59:30,  3.33it/s] 39%|███▉      | 144077/371472 [22:53<18:57:25,  3.33it/s] 39%|███▉      | 144078/371472 [22:53<19:02:18,  3.32it/s] 39%|███▉      | 144079/371472 [22:53<19:59:39,  3.16it/s] 39%|███▉      | 144080/371472 [22:53<19:08:27,  3.30it/s]                                                          {'loss': 3.1991, 'learning_rate': 6.512206684048353e-07, 'epoch': 6.21}
 39%|███▉      | 144080/371472 [22:53<19:08:27,  3.30it/s] 39%|███▉      | 144081/371472 [22:54<19:45:55,  3.20it/s] 39%|███▉      | 144082/371472 [22:54<19:25:23,  3.25it/s] 39%|███▉      | 144083/371472 [22:54<19:28:23,  3.24it/s] 39%|███▉      | 144084/371472 [22:55<19:30:06,  3.24it/s] 39%|███▉      | 144085/371472 [22:55<18:35:05,  3.40it/s] 39%|███▉      | 144086/371472 [22:55<17:51:04,  3.54it/s] 39%|███▉      | 144087/371472 [22:56<18:26:34,  3.42it/s] 39%|███▉      | 144088/371472 [22:56<18:09:12,  3.48it/s] 39%|███▉      | 144089/371472 [22:56<22:45:38,  2.78it/s] 39%|███▉      | 144090/371472 [22:57<20:59:34,  3.01it/s] 39%|███▉      | 144091/371472 [22:57<20:15:51,  3.12it/s] 39%|███▉      | 144092/371472 [22:57<19:47:31,  3.19it/s] 39%|███▉      | 144093/371472 [22:57<18:43:57,  3.37it/s] 39%|███▉      | 144094/371472 [22:58<18:19:15,  3.45it/s] 39%|███▉      | 144095/371472 [22:58<17:32:52,  3.60it/s] 39%|███▉      | 144096/371472 [22:58<17:03:47,  3.70it/s] 39%|███▉      | 144097/371472 [22:59<18:20:28,  3.44it/s] 39%|███▉      | 144098/371472 [22:59<17:37:06,  3.58it/s] 39%|███▉      | 144099/371472 [22:59<17:10:01,  3.68it/s] 39%|███▉      | 144100/371472 [22:59<17:01:29,  3.71it/s]                                                          {'loss': 3.3333, 'learning_rate': 6.511721864293564e-07, 'epoch': 6.21}
 39%|███▉      | 144100/371472 [22:59<17:01:29,  3.71it/s] 39%|███▉      | 144101/371472 [23:00<20:23:00,  3.10it/s] 39%|███▉      | 144102/371472 [23:00<20:12:43,  3.12it/s] 39%|███▉      | 144103/371472 [23:00<19:27:07,  3.25it/s] 39%|███▉      | 144104/371472 [23:01<18:36:09,  3.40it/s] 39%|███▉      | 144105/371472 [23:01<18:09:27,  3.48it/s] 39%|███▉      | 144106/371472 [23:01<20:00:34,  3.16it/s] 39%|███▉      | 144107/371472 [23:02<20:49:35,  3.03it/s] 39%|███▉      | 144108/371472 [23:02<21:42:17,  2.91it/s] 39%|███▉      | 144109/371472 [23:02<20:02:57,  3.15it/s] 39%|███▉      | 144110/371472 [23:03<19:10:56,  3.29it/s] 39%|███▉      | 144111/371472 [23:03<18:53:39,  3.34it/s] 39%|███▉      | 144112/371472 [23:03<18:39:37,  3.38it/s] 39%|███▉      | 144113/371472 [23:03<18:04:42,  3.49it/s] 39%|███▉      | 144114/371472 [23:04<16:56:09,  3.73it/s] 39%|███▉      | 144115/371472 [23:04<18:13:43,  3.46it/s] 39%|███▉      | 144116/371472 [23:04<17:52:04,  3.53it/s] 39%|███▉      | 144117/371472 [23:05<18:16:06,  3.46it/s] 39%|███▉      | 144118/371472 [23:05<17:57:44,  3.52it/s] 39%|███▉      | 144119/371472 [23:05<17:27:06,  3.62it/s] 39%|███▉      | 144120/371472 [23:05<18:49:23,  3.36it/s]                                                          {'loss': 3.2035, 'learning_rate': 6.511237044538774e-07, 'epoch': 6.21}
 39%|███▉      | 144120/371472 [23:05<18:49:23,  3.36it/s] 39%|███▉      | 144121/371472 [23:06<18:32:31,  3.41it/s] 39%|███▉      | 144122/371472 [23:06<17:55:30,  3.52it/s] 39%|███▉      | 144123/371472 [23:06<17:39:00,  3.58it/s] 39%|███▉      | 144124/371472 [23:06<17:28:36,  3.61it/s] 39%|███▉      | 144125/371472 [23:07<18:09:56,  3.48it/s] 39%|███▉      | 144126/371472 [23:07<17:45:17,  3.56it/s] 39%|███▉      | 144127/371472 [23:07<17:20:22,  3.64it/s] 39%|███▉      | 144128/371472 [23:08<17:04:21,  3.70it/s] 39%|███▉      | 144129/371472 [23:08<17:06:31,  3.69it/s] 39%|███▉      | 144130/371472 [23:08<17:10:42,  3.68it/s] 39%|███▉      | 144131/371472 [23:08<17:43:28,  3.56it/s] 39%|███▉      | 144132/371472 [23:09<18:08:09,  3.48it/s] 39%|███▉      | 144133/371472 [23:09<18:59:39,  3.32it/s] 39%|███▉      | 144134/371472 [23:09<18:02:49,  3.50it/s] 39%|███▉      | 144135/371472 [23:10<19:38:10,  3.22it/s] 39%|███▉      | 144136/371472 [23:10<18:29:39,  3.41it/s] 39%|███▉      | 144137/371472 [23:10<18:01:40,  3.50it/s] 39%|███▉      | 144138/371472 [23:10<17:41:12,  3.57it/s] 39%|███▉      | 144139/371472 [23:11<17:14:31,  3.66it/s] 39%|███▉      | 144140/371472 [23:11<17:47:38,  3.55it/s]                                                          {'loss': 3.3052, 'learning_rate': 6.510752224783986e-07, 'epoch': 6.21}
 39%|███▉      | 144140/371472 [23:11<17:47:38,  3.55it/s] 39%|███▉      | 144141/371472 [23:11<17:12:57,  3.67it/s] 39%|███▉      | 144142/371472 [23:12<16:55:56,  3.73it/s] 39%|███▉      | 144143/371472 [23:12<16:38:55,  3.79it/s] 39%|███▉      | 144144/371472 [23:12<18:20:17,  3.44it/s] 39%|███▉      | 144145/371472 [23:12<17:57:57,  3.51it/s] 39%|███▉      | 144146/371472 [23:13<17:58:59,  3.51it/s] 39%|███▉      | 144147/371472 [23:13<17:27:22,  3.62it/s] 39%|███▉      | 144148/371472 [23:13<17:25:28,  3.62it/s] 39%|███▉      | 144149/371472 [23:13<17:11:08,  3.67it/s] 39%|███▉      | 144150/371472 [23:14<16:46:34,  3.76it/s] 39%|███▉      | 144151/371472 [23:14<16:52:00,  3.74it/s] 39%|███▉      | 144152/371472 [23:14<17:16:26,  3.66it/s] 39%|███▉      | 144153/371472 [23:15<17:32:07,  3.60it/s] 39%|███▉      | 144154/371472 [23:15<17:45:14,  3.56it/s] 39%|███▉      | 144155/371472 [23:15<18:16:59,  3.45it/s] 39%|███▉      | 144156/371472 [23:15<18:25:33,  3.43it/s] 39%|███▉      | 144157/371472 [23:16<17:54:30,  3.53it/s] 39%|███▉      | 144158/371472 [23:16<17:23:53,  3.63it/s] 39%|███▉      | 144159/371472 [23:16<18:04:06,  3.49it/s] 39%|███▉      | 144160/371472 [23:17<17:37:01,  3.58it/s]                                                          {'loss': 3.3512, 'learning_rate': 6.510267405029197e-07, 'epoch': 6.21}
 39%|███▉      | 144160/371472 [23:17<17:37:01,  3.58it/s] 39%|███▉      | 144161/371472 [23:17<17:33:35,  3.60it/s] 39%|███▉      | 144162/371472 [23:17<17:53:37,  3.53it/s] 39%|███▉      | 144163/371472 [23:18<19:19:45,  3.27it/s] 39%|███▉      | 144164/371472 [23:18<19:24:34,  3.25it/s] 39%|███▉      | 144165/371472 [23:18<18:19:14,  3.45it/s] 39%|███▉      | 144166/371472 [23:18<17:53:52,  3.53it/s] 39%|███▉      | 144167/371472 [23:19<18:53:27,  3.34it/s] 39%|███▉      | 144168/371472 [23:19<17:46:57,  3.55it/s] 39%|███▉      | 144169/371472 [23:19<18:10:37,  3.47it/s] 39%|███▉      | 144170/371472 [23:20<18:10:09,  3.48it/s] 39%|███▉      | 144171/371472 [23:20<19:36:55,  3.22it/s] 39%|███▉      | 144172/371472 [23:20<18:16:14,  3.46it/s] 39%|███▉      | 144173/371472 [23:20<17:23:25,  3.63it/s] 39%|███▉      | 144174/371472 [23:21<17:44:35,  3.56it/s] 39%|███▉      | 144175/371472 [23:21<18:02:00,  3.50it/s] 39%|███▉      | 144176/371472 [23:21<17:33:10,  3.60it/s] 39%|███▉      | 144177/371472 [23:22<18:35:03,  3.40it/s] 39%|███▉      | 144178/371472 [23:22<17:32:57,  3.60it/s] 39%|███▉      | 144179/371472 [23:22<18:10:28,  3.47it/s] 39%|███▉      | 144180/371472 [23:22<17:31:50,  3.60it/s]                                                          {'loss': 3.3143, 'learning_rate': 6.509782585274407e-07, 'epoch': 6.21}
 39%|███▉      | 144180/371472 [23:22<17:31:50,  3.60it/s] 39%|███▉      | 144181/371472 [23:23<17:32:35,  3.60it/s] 39%|███▉      | 144182/371472 [23:23<17:58:30,  3.51it/s] 39%|███▉      | 144183/371472 [23:23<17:59:00,  3.51it/s] 39%|███▉      | 144184/371472 [23:23<17:18:50,  3.65it/s] 39%|███▉      | 144185/371472 [23:24<16:54:06,  3.74it/s] 39%|███▉      | 144186/371472 [23:24<17:37:45,  3.58it/s] 39%|███▉      | 144187/371472 [23:24<17:40:42,  3.57it/s] 39%|███▉      | 144188/371472 [23:25<19:02:19,  3.32it/s] 39%|███▉      | 144189/371472 [23:25<18:48:47,  3.36it/s] 39%|███▉      | 144190/371472 [23:25<18:39:09,  3.38it/s] 39%|███▉      | 144191/371472 [23:26<18:23:32,  3.43it/s] 39%|███▉      | 144192/371472 [23:26<17:55:41,  3.52it/s] 39%|███▉      | 144193/371472 [23:26<17:32:25,  3.60it/s] 39%|███▉      | 144194/371472 [23:26<16:50:43,  3.75it/s] 39%|███▉      | 144195/371472 [23:27<16:35:48,  3.80it/s] 39%|███▉      | 144196/371472 [23:27<18:32:54,  3.40it/s] 39%|███▉      | 144197/371472 [23:27<17:50:15,  3.54it/s] 39%|███▉      | 144198/371472 [23:27<17:37:31,  3.58it/s] 39%|███▉      | 144199/371472 [23:28<17:46:30,  3.55it/s] 39%|███▉      | 144200/371472 [23:28<17:23:54,  3.63it/s]                                                          {'loss': 3.1966, 'learning_rate': 6.509297765519618e-07, 'epoch': 6.21}
 39%|███▉      | 144200/371472 [23:28<17:23:54,  3.63it/s] 39%|███▉      | 144201/371472 [23:28<18:22:34,  3.44it/s] 39%|███▉      | 144202/371472 [23:29<18:15:55,  3.46it/s] 39%|███▉      | 144203/371472 [23:29<18:05:58,  3.49it/s] 39%|███▉      | 144204/371472 [23:29<17:56:20,  3.52it/s] 39%|███▉      | 144205/371472 [23:29<17:36:27,  3.59it/s] 39%|███▉      | 144206/371472 [23:30<19:10:27,  3.29it/s] 39%|███▉      | 144207/371472 [23:30<19:39:16,  3.21it/s] 39%|███▉      | 144208/371472 [23:30<19:48:22,  3.19it/s] 39%|███▉      | 144209/371472 [23:31<18:59:21,  3.32it/s] 39%|███▉      | 144210/371472 [23:31<18:34:23,  3.40it/s] 39%|███▉      | 144211/371472 [23:31<17:55:54,  3.52it/s] 39%|███▉      | 144212/371472 [23:31<17:19:13,  3.64it/s] 39%|███▉      | 144213/371472 [23:32<17:23:17,  3.63it/s] 39%|███▉      | 144214/371472 [23:32<17:46:04,  3.55it/s] 39%|███▉      | 144215/371472 [23:32<20:10:06,  3.13it/s] 39%|███▉      | 144216/371472 [23:33<19:13:14,  3.28it/s] 39%|███▉      | 144217/371472 [23:33<19:02:51,  3.31it/s] 39%|███▉      | 144218/371472 [23:33<19:02:47,  3.31it/s] 39%|███▉      | 144219/371472 [23:34<18:07:56,  3.48it/s] 39%|███▉      | 144220/371472 [23:34<18:05:06,  3.49it/s]                                                          {'loss': 3.2533, 'learning_rate': 6.50881294576483e-07, 'epoch': 6.21}
 39%|███▉      | 144220/371472 [23:34<18:05:06,  3.49it/s] 39%|███▉      | 144221/371472 [23:34<17:51:48,  3.53it/s] 39%|███▉      | 144222/371472 [23:34<17:22:02,  3.63it/s] 39%|███▉      | 144223/371472 [23:35<19:16:29,  3.27it/s] 39%|███▉      | 144224/371472 [23:35<18:43:34,  3.37it/s] 39%|███▉      | 144225/371472 [23:35<18:06:00,  3.49it/s] 39%|███▉      | 144226/371472 [23:36<17:43:36,  3.56it/s] 39%|███▉      | 144227/371472 [23:36<17:03:22,  3.70it/s] 39%|███▉      | 144228/371472 [23:36<17:02:31,  3.70it/s] 39%|███▉      | 144229/371472 [23:36<17:16:36,  3.65it/s] 39%|███▉      | 144230/371472 [23:37<18:07:08,  3.48it/s] 39%|███▉      | 144231/371472 [23:37<19:16:34,  3.27it/s] 39%|███▉      | 144232/371472 [23:37<18:54:22,  3.34it/s] 39%|███▉      | 144233/371472 [23:38<18:57:13,  3.33it/s] 39%|███▉      | 144234/371472 [23:38<17:55:33,  3.52it/s] 39%|███▉      | 144235/371472 [23:38<17:13:07,  3.67it/s] 39%|███▉      | 144236/371472 [23:38<18:37:09,  3.39it/s] 39%|███▉      | 144237/371472 [23:39<20:02:43,  3.15it/s] 39%|███▉      | 144238/371472 [23:39<18:51:39,  3.35it/s] 39%|███▉      | 144239/371472 [23:39<18:35:27,  3.40it/s] 39%|███▉      | 144240/371472 [23:40<18:00:44,  3.50it/s]                                                          {'loss': 3.4531, 'learning_rate': 6.508328126010042e-07, 'epoch': 6.21}
 39%|███▉      | 144240/371472 [23:40<18:00:44,  3.50it/s] 39%|███▉      | 144241/371472 [23:40<17:45:25,  3.55it/s] 39%|███▉      | 144242/371472 [23:40<18:03:41,  3.49it/s] 39%|███▉      | 144243/371472 [23:41<18:24:28,  3.43it/s] 39%|███▉      | 144244/371472 [23:41<18:05:20,  3.49it/s] 39%|███▉      | 144245/371472 [23:41<17:46:38,  3.55it/s] 39%|███▉      | 144246/371472 [23:41<18:02:39,  3.50it/s] 39%|███▉      | 144247/371472 [23:42<17:36:02,  3.59it/s] 39%|███▉      | 144248/371472 [23:42<17:18:47,  3.65it/s] 39%|███▉      | 144249/371472 [23:42<17:58:53,  3.51it/s] 39%|███▉      | 144250/371472 [23:43<18:47:27,  3.36it/s] 39%|███▉      | 144251/371472 [23:43<18:09:24,  3.48it/s] 39%|███▉      | 144252/371472 [23:43<17:18:47,  3.65it/s] 39%|███▉      | 144253/371472 [23:43<17:49:28,  3.54it/s] 39%|███▉      | 144254/371472 [23:44<17:30:37,  3.60it/s] 39%|███▉      | 144255/371472 [23:44<18:36:29,  3.39it/s] 39%|███▉      | 144256/371472 [23:44<17:59:01,  3.51it/s] 39%|███▉      | 144257/371472 [23:44<17:32:07,  3.60it/s] 39%|███▉      | 144258/371472 [23:45<17:13:21,  3.66it/s] 39%|███▉      | 144259/371472 [23:45<16:49:36,  3.75it/s] 39%|███▉      | 144260/371472 [23:45<18:36:56,  3.39it/s]                                                          {'loss': 3.1208, 'learning_rate': 6.507843306255252e-07, 'epoch': 6.21}
 39%|███▉      | 144260/371472 [23:45<18:36:56,  3.39it/s] 39%|███▉      | 144261/371472 [23:46<18:22:13,  3.44it/s] 39%|███▉      | 144262/371472 [23:46<18:25:17,  3.43it/s] 39%|███▉      | 144263/371472 [23:46<18:53:27,  3.34it/s] 39%|███▉      | 144264/371472 [23:47<18:50:33,  3.35it/s] 39%|███▉      | 144265/371472 [23:47<18:58:32,  3.33it/s] 39%|███▉      | 144266/371472 [23:47<18:55:43,  3.33it/s] 39%|███▉      | 144267/371472 [23:47<18:28:55,  3.41it/s] 39%|███▉      | 144268/371472 [23:48<18:49:33,  3.35it/s] 39%|███▉      | 144269/371472 [23:48<17:48:21,  3.54it/s] 39%|███▉      | 144270/371472 [23:48<17:18:13,  3.65it/s] 39%|███▉      | 144271/371472 [23:49<18:01:32,  3.50it/s] 39%|███▉      | 144272/371472 [23:49<18:47:25,  3.36it/s] 39%|███▉      | 144273/371472 [23:49<17:48:51,  3.54it/s] 39%|███▉      | 144274/371472 [23:49<17:33:03,  3.60it/s] 39%|███▉      | 144275/371472 [23:50<17:35:58,  3.59it/s] 39%|███▉      | 144276/371472 [23:50<17:28:26,  3.61it/s] 39%|███▉      | 144277/371472 [23:50<17:46:33,  3.55it/s] 39%|███▉      | 144278/371472 [23:50<17:28:37,  3.61it/s] 39%|███▉      | 144279/371472 [23:51<17:27:35,  3.61it/s] 39%|███▉      | 144280/371472 [23:51<17:22:16,  3.63it/s]                                                          {'loss': 3.268, 'learning_rate': 6.507358486500463e-07, 'epoch': 6.21}
 39%|███▉      | 144280/371472 [23:51<17:22:16,  3.63it/s] 39%|███▉      | 144281/371472 [23:51<16:49:21,  3.75it/s] 39%|███▉      | 144282/371472 [23:52<17:45:35,  3.55it/s] 39%|███▉      | 144283/371472 [23:52<17:12:11,  3.67it/s] 39%|███▉      | 144284/371472 [23:52<17:14:28,  3.66it/s] 39%|███▉      | 144285/371472 [23:52<17:11:50,  3.67it/s] 39%|███▉      | 144286/371472 [23:53<18:00:32,  3.50it/s] 39%|███▉      | 144287/371472 [23:53<18:35:37,  3.39it/s] 39%|███▉      | 144288/371472 [23:53<18:14:50,  3.46it/s] 39%|███▉      | 144289/371472 [23:54<18:16:52,  3.45it/s] 39%|███▉      | 144290/371472 [23:54<18:11:34,  3.47it/s] 39%|███▉      | 144291/371472 [23:54<17:49:18,  3.54it/s] 39%|███▉      | 144292/371472 [23:54<17:13:44,  3.66it/s] 39%|███▉      | 144293/371472 [23:55<17:53:04,  3.53it/s] 39%|███▉      | 144294/371472 [23:55<17:23:07,  3.63it/s] 39%|███▉      | 144295/371472 [23:55<17:23:21,  3.63it/s] 39%|███▉      | 144296/371472 [23:56<17:31:34,  3.60it/s] 39%|███▉      | 144297/371472 [23:56<17:39:12,  3.57it/s] 39%|███▉      | 144298/371472 [23:56<17:47:42,  3.55it/s] 39%|███▉      | 144299/371472 [23:56<19:06:26,  3.30it/s] 39%|███▉      | 144300/371472 [23:57<18:35:05,  3.40it/s]                                                          {'loss': 3.2741, 'learning_rate': 6.506873666745674e-07, 'epoch': 6.22}
 39%|███▉      | 144300/371472 [23:57<18:35:05,  3.40it/s] 39%|███▉      | 144301/371472 [23:57<18:40:30,  3.38it/s] 39%|███▉      | 144302/371472 [23:57<18:23:14,  3.43it/s] 39%|███▉      | 144303/371472 [23:58<18:26:37,  3.42it/s] 39%|███▉      | 144304/371472 [23:58<19:14:00,  3.28it/s] 39%|███▉      | 144305/371472 [23:58<20:06:22,  3.14it/s] 39%|███▉      | 144306/371472 [23:59<18:48:33,  3.35it/s] 39%|███▉      | 144307/371472 [23:59<17:56:05,  3.52it/s] 39%|███▉      | 144308/371472 [23:59<17:49:55,  3.54it/s] 39%|███▉      | 144309/371472 [23:59<17:46:23,  3.55it/s] 39%|███▉      | 144310/371472 [24:00<18:21:47,  3.44it/s] 39%|███▉      | 144311/371472 [24:00<18:34:31,  3.40it/s] 39%|███▉      | 144312/371472 [24:00<18:11:29,  3.47it/s] 39%|███▉      | 144313/371472 [24:01<18:14:04,  3.46it/s] 39%|███▉      | 144314/371472 [24:01<18:13:55,  3.46it/s] 39%|███▉      | 144315/371472 [24:01<17:50:08,  3.54it/s] 39%|███▉      | 144316/371472 [24:01<17:28:48,  3.61it/s] 39%|███▉      | 144317/371472 [24:02<18:04:22,  3.49it/s] 39%|███▉      | 144318/371472 [24:02<17:12:52,  3.67it/s] 39%|███▉      | 144319/371472 [24:02<16:46:50,  3.76it/s] 39%|███▉      | 144320/371472 [24:02<17:30:09,  3.61it/s]                                                          {'loss': 3.0919, 'learning_rate': 6.506388846990885e-07, 'epoch': 6.22}
 39%|███▉      | 144320/371472 [24:02<17:30:09,  3.61it/s] 39%|███▉      | 144321/371472 [24:03<18:45:03,  3.37it/s] 39%|███▉      | 144322/371472 [24:03<18:02:56,  3.50it/s] 39%|███▉      | 144323/371472 [24:03<17:52:34,  3.53it/s] 39%|███▉      | 144324/371472 [24:04<17:40:20,  3.57it/s] 39%|███▉      | 144325/371472 [24:04<17:30:53,  3.60it/s] 39%|███▉      | 144326/371472 [24:04<17:05:41,  3.69it/s] 39%|███▉      | 144327/371472 [24:04<17:52:53,  3.53it/s] 39%|███▉      | 144328/371472 [24:05<17:24:46,  3.62it/s] 39%|███▉      | 144329/371472 [24:05<17:00:40,  3.71it/s] 39%|███▉      | 144330/371472 [24:05<16:56:57,  3.72it/s] 39%|███▉      | 144331/371472 [24:05<16:30:50,  3.82it/s] 39%|███▉      | 144332/371472 [24:06<16:16:00,  3.88it/s] 39%|███▉      | 144333/371472 [24:06<16:25:12,  3.84it/s] 39%|███▉      | 144334/371472 [24:06<16:47:13,  3.76it/s] 39%|███▉      | 144335/371472 [24:07<18:03:01,  3.50it/s] 39%|███▉      | 144336/371472 [24:07<18:44:52,  3.37it/s] 39%|███▉      | 144337/371472 [24:07<18:32:49,  3.40it/s] 39%|███▉      | 144338/371472 [24:07<18:03:23,  3.49it/s] 39%|███▉      | 144339/371472 [24:08<18:33:37,  3.40it/s] 39%|███▉      | 144340/371472 [24:08<18:45:42,  3.36it/s]                                                          {'loss': 3.1253, 'learning_rate': 6.505904027236095e-07, 'epoch': 6.22}
 39%|███▉      | 144340/371472 [24:08<18:45:42,  3.36it/s] 39%|███▉      | 144341/371472 [24:08<18:06:44,  3.48it/s] 39%|███▉      | 144342/371472 [24:09<17:31:22,  3.60it/s] 39%|███▉      | 144343/371472 [24:09<17:03:45,  3.70it/s] 39%|███▉      | 144344/371472 [24:09<16:35:52,  3.80it/s] 39%|███▉      | 144345/371472 [24:09<16:44:04,  3.77it/s] 39%|███▉      | 144346/371472 [24:10<17:07:22,  3.68it/s] 39%|███▉      | 144347/371472 [24:10<17:34:38,  3.59it/s] 39%|███▉      | 144348/371472 [24:10<17:00:14,  3.71it/s] 39%|███▉      | 144349/371472 [24:10<16:40:50,  3.78it/s] 39%|███▉      | 144350/371472 [24:11<16:45:26,  3.76it/s] 39%|███▉      | 144351/371472 [24:11<16:41:03,  3.78it/s] 39%|███▉      | 144352/371472 [24:11<17:00:43,  3.71it/s] 39%|███▉      | 144353/371472 [24:12<18:22:04,  3.43it/s] 39%|███▉      | 144354/371472 [24:12<17:39:59,  3.57it/s] 39%|███▉      | 144355/371472 [24:12<17:47:42,  3.55it/s] 39%|███▉      | 144356/371472 [24:12<18:40:44,  3.38it/s] 39%|███▉      | 144357/371472 [24:13<19:08:52,  3.29it/s] 39%|███▉      | 144358/371472 [24:13<18:26:27,  3.42it/s] 39%|███▉      | 144359/371472 [24:13<18:58:24,  3.32it/s] 39%|███▉      | 144360/371472 [24:14<18:24:09,  3.43it/s]                                                          {'loss': 3.3061, 'learning_rate': 6.505419207481307e-07, 'epoch': 6.22}
 39%|███▉      | 144360/371472 [24:14<18:24:09,  3.43it/s] 39%|███▉      | 144361/371472 [24:14<18:21:00,  3.44it/s] 39%|███▉      | 144362/371472 [24:14<18:03:40,  3.49it/s] 39%|███▉      | 144363/371472 [24:14<17:56:38,  3.52it/s] 39%|███▉      | 144364/371472 [24:15<17:36:32,  3.58it/s] 39%|███▉      | 144365/371472 [24:15<17:10:34,  3.67it/s] 39%|███▉      | 144366/371472 [24:15<18:25:19,  3.42it/s] 39%|███▉      | 144367/371472 [24:16<18:51:27,  3.35it/s] 39%|███▉      | 144368/371472 [24:16<20:14:05,  3.12it/s] 39%|███▉      | 144369/371472 [24:16<19:51:55,  3.18it/s] 39%|███▉      | 144370/371472 [24:17<19:12:37,  3.28it/s] 39%|███▉      | 144371/371472 [24:17<18:44:11,  3.37it/s] 39%|███▉      | 144372/371472 [24:17<18:18:27,  3.45it/s] 39%|███▉      | 144373/371472 [24:18<18:59:25,  3.32it/s] 39%|███▉      | 144374/371472 [24:18<18:40:07,  3.38it/s] 39%|███▉      | 144375/371472 [24:18<18:57:39,  3.33it/s] 39%|███▉      | 144376/371472 [24:18<17:46:26,  3.55it/s] 39%|███▉      | 144377/371472 [24:19<18:09:55,  3.47it/s] 39%|███▉      | 144378/371472 [24:19<18:03:59,  3.49it/s] 39%|███▉      | 144379/371472 [24:19<17:45:38,  3.55it/s] 39%|███▉      | 144380/371472 [24:19<17:40:13,  3.57it/s]                                                          {'loss': 3.2278, 'learning_rate': 6.504934387726519e-07, 'epoch': 6.22}
 39%|███▉      | 144380/371472 [24:19<17:40:13,  3.57it/s] 39%|███▉      | 144381/371472 [24:20<17:17:39,  3.65it/s] 39%|███▉      | 144382/371472 [24:20<18:13:24,  3.46it/s] 39%|███▉      | 144383/371472 [24:20<18:47:20,  3.36it/s] 39%|███▉      | 144384/371472 [24:21<18:13:22,  3.46it/s] 39%|███▉      | 144385/371472 [24:21<18:07:46,  3.48it/s] 39%|███▉      | 144386/371472 [24:21<17:48:49,  3.54it/s] 39%|███▉      | 144387/371472 [24:21<17:49:52,  3.54it/s] 39%|███▉      | 144388/371472 [24:22<17:36:01,  3.58it/s] 39%|███▉      | 144389/371472 [24:22<17:04:56,  3.69it/s] 39%|███▉      | 144390/371472 [24:22<17:15:24,  3.66it/s] 39%|███▉      | 144391/371472 [24:23<17:23:45,  3.63it/s] 39%|███▉      | 144392/371472 [24:23<16:34:18,  3.81it/s] 39%|███▉      | 144393/371472 [24:23<16:31:37,  3.82it/s] 39%|███▉      | 144394/371472 [24:23<17:11:50,  3.67it/s] 39%|███▉      | 144395/371472 [24:24<18:29:21,  3.41it/s] 39%|███▉      | 144396/371472 [24:24<18:47:50,  3.36it/s] 39%|███▉      | 144397/371472 [24:24<17:53:50,  3.52it/s] 39%|███▉      | 144398/371472 [24:25<18:04:44,  3.49it/s] 39%|███▉      | 144399/371472 [24:25<17:45:52,  3.55it/s] 39%|███▉      | 144400/371472 [24:25<17:14:27,  3.66it/s]                                                          {'loss': 3.4112, 'learning_rate': 6.50444956797173e-07, 'epoch': 6.22}
 39%|███▉      | 144400/371472 [24:25<17:14:27,  3.66it/s] 39%|███▉      | 144401/371472 [24:25<18:52:38,  3.34it/s] 39%|███▉      | 144402/371472 [24:26<18:14:12,  3.46it/s] 39%|███▉      | 144403/371472 [24:26<19:48:00,  3.19it/s] 39%|███▉      | 144404/371472 [24:26<19:45:28,  3.19it/s] 39%|███▉      | 144405/371472 [24:27<19:17:34,  3.27it/s] 39%|███▉      | 144406/371472 [24:27<19:03:07,  3.31it/s] 39%|███▉      | 144407/371472 [24:27<18:23:26,  3.43it/s] 39%|███▉      | 144408/371472 [24:27<17:33:13,  3.59it/s] 39%|███▉      | 144409/371472 [24:28<17:53:45,  3.52it/s] 39%|███▉      | 144410/371472 [24:28<18:46:29,  3.36it/s] 39%|███▉      | 144411/371472 [24:28<18:13:05,  3.46it/s] 39%|███▉      | 144412/371472 [24:29<18:33:09,  3.40it/s] 39%|███▉      | 144413/371472 [24:29<18:05:56,  3.48it/s] 39%|███▉      | 144414/371472 [24:29<17:54:07,  3.52it/s] 39%|███▉      | 144415/371472 [24:29<17:05:44,  3.69it/s] 39%|███▉      | 144416/371472 [24:30<16:55:16,  3.73it/s] 39%|███▉      | 144417/371472 [24:30<17:06:36,  3.69it/s] 39%|███▉      | 144418/371472 [24:30<17:00:09,  3.71it/s] 39%|███▉      | 144419/371472 [24:31<17:00:07,  3.71it/s] 39%|███▉      | 144420/371472 [24:31<18:20:26,  3.44it/s]                                                          {'loss': 3.3804, 'learning_rate': 6.503964748216939e-07, 'epoch': 6.22}
 39%|███▉      | 144420/371472 [24:31<18:20:26,  3.44it/s] 39%|███▉      | 144421/371472 [24:31<17:56:47,  3.51it/s] 39%|███▉      | 144422/371472 [24:31<17:19:41,  3.64it/s] 39%|███▉      | 144423/371472 [24:32<16:53:37,  3.73it/s] 39%|███▉      | 144424/371472 [24:32<16:52:02,  3.74it/s] 39%|███▉      | 144425/371472 [24:32<17:37:32,  3.58it/s] 39%|███▉      | 144426/371472 [24:32<17:04:03,  3.70it/s] 39%|███▉      | 144427/371472 [24:33<17:51:17,  3.53it/s] 39%|███▉      | 144428/371472 [24:33<17:05:00,  3.69it/s] 39%|███▉      | 144429/371472 [24:33<16:47:07,  3.76it/s] 39%|███▉      | 144430/371472 [24:34<17:30:00,  3.60it/s] 39%|███▉      | 144431/371472 [24:34<18:05:08,  3.49it/s] 39%|███▉      | 144432/371472 [24:34<17:42:09,  3.56it/s] 39%|███▉      | 144433/371472 [24:34<17:39:20,  3.57it/s] 39%|███▉      | 144434/371472 [24:35<18:07:22,  3.48it/s] 39%|███▉      | 144435/371472 [24:35<18:32:47,  3.40it/s] 39%|███▉      | 144436/371472 [24:35<17:51:39,  3.53it/s] 39%|███▉      | 144437/371472 [24:36<17:34:25,  3.59it/s] 39%|███▉      | 144438/371472 [24:36<16:45:02,  3.76it/s] 39%|███▉      | 144439/371472 [24:36<16:46:01,  3.76it/s] 39%|███▉      | 144440/371472 [24:36<18:05:45,  3.48it/s]                                                          {'loss': 3.221, 'learning_rate': 6.503479928462151e-07, 'epoch': 6.22}
 39%|███▉      | 144440/371472 [24:36<18:05:45,  3.48it/s] 39%|███▉      | 144441/371472 [24:37<17:37:27,  3.58it/s] 39%|███▉      | 144442/371472 [24:37<17:22:56,  3.63it/s] 39%|███▉      | 144443/371472 [24:37<17:29:38,  3.60it/s] 39%|███▉      | 144444/371472 [24:38<17:29:07,  3.61it/s] 39%|███▉      | 144445/371472 [24:38<17:10:06,  3.67it/s] 39%|███▉      | 144446/371472 [24:38<17:34:29,  3.59it/s] 39%|███▉      | 144447/371472 [24:38<17:58:12,  3.51it/s] 39%|███▉      | 144448/371472 [24:39<17:51:11,  3.53it/s] 39%|███▉      | 144449/371472 [24:39<17:11:37,  3.67it/s] 39%|███▉      | 144450/371472 [24:39<17:10:40,  3.67it/s] 39%|███▉      | 144451/371472 [24:39<16:55:38,  3.73it/s] 39%|███▉      | 144452/371472 [24:40<17:14:20,  3.66it/s] 39%|███▉      | 144453/371472 [24:40<17:52:40,  3.53it/s] 39%|███▉      | 144454/371472 [24:40<18:02:02,  3.50it/s] 39%|███▉      | 144455/371472 [24:41<18:00:30,  3.50it/s] 39%|███▉      | 144456/371472 [24:41<18:20:46,  3.44it/s] 39%|███▉      | 144457/371472 [24:41<18:20:07,  3.44it/s] 39%|███▉      | 144458/371472 [24:41<17:45:15,  3.55it/s] 39%|███▉      | 144459/371472 [24:42<18:32:53,  3.40it/s] 39%|███▉      | 144460/371472 [24:42<18:36:13,  3.39it/s]                                                          {'loss': 3.1418, 'learning_rate': 6.502995108707363e-07, 'epoch': 6.22}
 39%|███▉      | 144460/371472 [24:42<18:36:13,  3.39it/s] 39%|███▉      | 144461/371472 [24:42<19:21:16,  3.26it/s] 39%|███▉      | 144462/371472 [24:43<18:17:39,  3.45it/s] 39%|███▉      | 144463/371472 [24:43<17:37:40,  3.58it/s] 39%|███▉      | 144464/371472 [24:43<18:52:55,  3.34it/s] 39%|███▉      | 144465/371472 [24:44<18:41:37,  3.37it/s] 39%|███▉      | 144466/371472 [24:44<17:55:27,  3.52it/s] 39%|███▉      | 144467/371472 [24:44<18:02:14,  3.50it/s] 39%|███▉      | 144468/371472 [24:44<17:50:12,  3.54it/s] 39%|███▉      | 144469/371472 [24:45<17:08:00,  3.68it/s] 39%|███▉      | 144470/371472 [24:45<16:47:26,  3.76it/s] 39%|███▉      | 144471/371472 [24:45<17:04:37,  3.69it/s] 39%|███▉      | 144472/371472 [24:45<17:37:49,  3.58it/s] 39%|███▉      | 144473/371472 [24:46<17:29:05,  3.61it/s] 39%|███▉      | 144474/371472 [24:46<17:01:11,  3.70it/s] 39%|███▉      | 144475/371472 [24:46<18:17:22,  3.45it/s] 39%|███▉      | 144476/371472 [24:47<17:57:33,  3.51it/s] 39%|███▉      | 144477/371472 [24:47<17:51:04,  3.53it/s] 39%|███▉      | 144478/371472 [24:47<17:30:05,  3.60it/s] 39%|███▉      | 144479/371472 [24:47<18:31:02,  3.41it/s] 39%|███▉      | 144480/371472 [24:48<18:00:01,  3.50it/s]                                                          {'loss': 3.4002, 'learning_rate': 6.502510288952574e-07, 'epoch': 6.22}
 39%|███▉      | 144480/371472 [24:48<18:00:01,  3.50it/s] 39%|███▉      | 144481/371472 [24:48<18:01:01,  3.50it/s] 39%|███▉      | 144482/371472 [24:48<17:26:52,  3.61it/s] 39%|███▉      | 144483/371472 [24:49<17:13:14,  3.66it/s] 39%|███▉      | 144484/371472 [24:49<17:07:39,  3.68it/s] 39%|███▉      | 144485/371472 [24:49<19:01:04,  3.32it/s] 39%|███▉      | 144486/371472 [24:50<19:48:45,  3.18it/s] 39%|███▉      | 144487/371472 [24:50<19:22:18,  3.25it/s] 39%|███▉      | 144488/371472 [24:50<19:22:58,  3.25it/s] 39%|███▉      | 144489/371472 [24:50<20:21:54,  3.10it/s] 39%|███▉      | 144490/371472 [24:51<19:14:08,  3.28it/s] 39%|███▉      | 144491/371472 [24:51<18:00:14,  3.50it/s] 39%|███▉      | 144492/371472 [24:51<17:58:21,  3.51it/s] 39%|███▉      | 144493/371472 [24:52<17:29:46,  3.60it/s] 39%|███▉      | 144494/371472 [24:52<16:59:37,  3.71it/s] 39%|███▉      | 144495/371472 [24:52<17:47:58,  3.54it/s] 39%|███▉      | 144496/371472 [24:52<17:20:14,  3.64it/s] 39%|███▉      | 144497/371472 [24:53<17:24:13,  3.62it/s] 39%|███▉      | 144498/371472 [24:53<18:08:51,  3.47it/s] 39%|███▉      | 144499/371472 [24:53<17:55:45,  3.52it/s] 39%|███▉      | 144500/371472 [24:53<17:26:50,  3.61it/s]                                                          {'loss': 3.1928, 'learning_rate': 6.502025469197784e-07, 'epoch': 6.22}
 39%|███▉      | 144500/371472 [24:53<17:26:50,  3.61it/s] 39%|███▉      | 144501/371472 [24:54<18:29:03,  3.41it/s] 39%|███▉      | 144502/371472 [24:54<18:11:23,  3.47it/s] 39%|███▉      | 144503/371472 [24:54<18:13:34,  3.46it/s] 39%|███▉      | 144504/371472 [24:55<18:04:38,  3.49it/s] 39%|███▉      | 144505/371472 [24:55<17:38:54,  3.57it/s] 39%|███▉      | 144506/371472 [24:55<17:38:41,  3.57it/s] 39%|███▉      | 144507/371472 [24:55<17:59:55,  3.50it/s] 39%|███▉      | 144508/371472 [24:56<18:23:19,  3.43it/s] 39%|███▉      | 144509/371472 [24:56<18:39:55,  3.38it/s] 39%|███▉      | 144510/371472 [24:56<20:29:27,  3.08it/s] 39%|███▉      | 144511/371472 [24:57<19:23:39,  3.25it/s] 39%|███▉      | 144512/371472 [24:57<18:36:15,  3.39it/s] 39%|███▉      | 144513/371472 [24:57<17:43:03,  3.56it/s] 39%|███▉      | 144514/371472 [24:58<17:49:04,  3.54it/s] 39%|███▉      | 144515/371472 [24:58<17:34:22,  3.59it/s] 39%|███▉      | 144516/371472 [24:58<17:22:24,  3.63it/s] 39%|███▉      | 144517/371472 [24:58<17:03:23,  3.70it/s] 39%|███▉      | 144518/371472 [24:59<16:58:09,  3.72it/s] 39%|███▉      | 144519/371472 [24:59<18:45:58,  3.36it/s] 39%|███▉      | 144520/371472 [24:59<19:51:51,  3.17it/s]                                                          {'loss': 3.115, 'learning_rate': 6.501540649442996e-07, 'epoch': 6.22}
 39%|███▉      | 144520/371472 [24:59<19:51:51,  3.17it/s] 39%|███▉      | 144521/371472 [25:00<18:29:34,  3.41it/s] 39%|███▉      | 144522/371472 [25:00<18:03:04,  3.49it/s] 39%|███▉      | 144523/371472 [25:00<17:41:43,  3.56it/s] 39%|███▉      | 144524/371472 [25:00<17:10:51,  3.67it/s] 39%|███▉      | 144525/371472 [25:01<16:46:28,  3.76it/s] 39%|███▉      | 144526/371472 [25:01<16:49:35,  3.75it/s] 39%|███▉      | 144527/371472 [25:01<17:50:41,  3.53it/s] 39%|███▉      | 144528/371472 [25:01<17:44:32,  3.55it/s] 39%|███▉      | 144529/371472 [25:02<17:50:03,  3.53it/s] 39%|███▉      | 144530/371472 [25:02<17:18:07,  3.64it/s] 39%|███▉      | 144531/371472 [25:02<18:04:29,  3.49it/s] 39%|███▉      | 144532/371472 [25:03<18:17:49,  3.45it/s] 39%|███▉      | 144533/371472 [25:03<22:51:16,  2.76it/s] 39%|███▉      | 144534/371472 [25:03<21:01:27,  3.00it/s] 39%|███▉      | 144535/371472 [25:04<19:32:25,  3.23it/s] 39%|███▉      | 144536/371472 [25:04<18:45:19,  3.36it/s] 39%|███▉      | 144537/371472 [25:04<18:38:59,  3.38it/s] 39%|███▉      | 144538/371472 [25:05<18:00:37,  3.50it/s] 39%|███▉      | 144539/371472 [25:05<17:53:28,  3.52it/s] 39%|███▉      | 144540/371472 [25:05<17:41:18,  3.56it/s]                                                          {'loss': 3.213, 'learning_rate': 6.501055829688207e-07, 'epoch': 6.23}
 39%|███▉      | 144540/371472 [25:05<17:41:18,  3.56it/s] 39%|███▉      | 144541/371472 [25:05<17:20:47,  3.63it/s] 39%|███▉      | 144542/371472 [25:06<17:13:44,  3.66it/s] 39%|███▉      | 144543/371472 [25:06<17:23:54,  3.62it/s] 39%|███▉      | 144544/371472 [25:06<17:08:15,  3.68it/s] 39%|███▉      | 144545/371472 [25:06<18:03:51,  3.49it/s] 39%|███▉      | 144546/371472 [25:07<18:38:53,  3.38it/s] 39%|███▉      | 144547/371472 [25:07<17:42:46,  3.56it/s] 39%|███▉      | 144548/371472 [25:07<17:11:29,  3.67it/s] 39%|███▉      | 144549/371472 [25:08<17:08:19,  3.68it/s] 39%|███▉      | 144550/371472 [25:08<17:17:36,  3.64it/s] 39%|███▉      | 144551/371472 [25:08<17:04:35,  3.69it/s] 39%|███▉      | 144552/371472 [25:08<16:32:38,  3.81it/s] 39%|███▉      | 144553/371472 [25:09<16:09:54,  3.90it/s] 39%|███▉      | 144554/371472 [25:09<15:57:58,  3.95it/s] 39%|███▉      | 144555/371472 [25:09<16:55:03,  3.73it/s] 39%|███▉      | 144556/371472 [25:09<17:51:32,  3.53it/s] 39%|███▉      | 144557/371472 [25:10<17:50:26,  3.53it/s] 39%|███▉      | 144558/371472 [25:10<18:35:02,  3.39it/s] 39%|███▉      | 144559/371472 [25:10<17:52:50,  3.53it/s] 39%|███▉      | 144560/371472 [25:11<18:50:50,  3.34it/s]                                                          {'loss': 3.2202, 'learning_rate': 6.500571009933417e-07, 'epoch': 6.23}
 39%|███▉      | 144560/371472 [25:11<18:50:50,  3.34it/s] 39%|███▉      | 144561/371472 [25:11<18:41:06,  3.37it/s] 39%|███▉      | 144562/371472 [25:11<19:41:16,  3.20it/s] 39%|███▉      | 144563/371472 [25:12<18:53:12,  3.34it/s] 39%|███▉      | 144564/371472 [25:12<19:18:38,  3.26it/s] 39%|███▉      | 144565/371472 [25:12<18:28:53,  3.41it/s] 39%|███▉      | 144566/371472 [25:12<18:07:13,  3.48it/s] 39%|███▉      | 144567/371472 [25:13<18:21:58,  3.43it/s] 39%|███▉      | 144568/371472 [25:13<19:41:55,  3.20it/s] 39%|███▉      | 144569/371472 [25:13<19:26:33,  3.24it/s] 39%|███▉      | 144570/371472 [25:14<19:39:53,  3.21it/s] 39%|███▉      | 144571/371472 [25:14<18:45:07,  3.36it/s] 39%|███▉      | 144572/371472 [25:14<18:32:12,  3.40it/s] 39%|███▉      | 144573/371472 [25:15<19:09:30,  3.29it/s] 39%|███▉      | 144574/371472 [25:15<19:27:47,  3.24it/s] 39%|███▉      | 144575/371472 [25:15<19:43:49,  3.19it/s] 39%|███▉      | 144576/371472 [25:15<18:56:23,  3.33it/s] 39%|███▉      | 144577/371472 [25:16<18:37:48,  3.38it/s] 39%|███▉      | 144578/371472 [25:16<17:31:18,  3.60it/s] 39%|███▉      | 144579/371472 [25:16<17:46:15,  3.55it/s] 39%|███▉      | 144580/371472 [25:17<18:01:38,  3.50it/s]                                                          {'loss': 3.2911, 'learning_rate': 6.500086190178628e-07, 'epoch': 6.23}
 39%|███▉      | 144580/371472 [25:17<18:01:38,  3.50it/s] 39%|███▉      | 144581/371472 [25:17<17:59:33,  3.50it/s] 39%|███▉      | 144582/371472 [25:17<17:20:21,  3.63it/s] 39%|███▉      | 144583/371472 [25:17<18:37:38,  3.38it/s] 39%|███▉      | 144584/371472 [25:18<17:54:32,  3.52it/s] 39%|███▉      | 144585/371472 [25:18<17:27:07,  3.61it/s] 39%|███▉      | 144586/371472 [25:18<17:37:00,  3.58it/s] 39%|███▉      | 144587/371472 [25:19<17:31:15,  3.60it/s] 39%|███▉      | 144588/371472 [25:19<18:02:57,  3.49it/s] 39%|███▉      | 144589/371472 [25:19<17:35:11,  3.58it/s] 39%|███▉      | 144590/371472 [25:19<17:30:58,  3.60it/s] 39%|███▉      | 144591/371472 [25:20<18:31:43,  3.40it/s] 39%|███▉      | 144592/371472 [25:20<17:41:09,  3.56it/s] 39%|███▉      | 144593/371472 [25:20<17:17:37,  3.64it/s] 39%|███▉      | 144594/371472 [25:20<16:49:06,  3.75it/s] 39%|███▉      | 144595/371472 [25:21<16:19:45,  3.86it/s] 39%|███▉      | 144596/371472 [25:21<16:34:20,  3.80it/s] 39%|███▉      | 144597/371472 [25:21<16:53:09,  3.73it/s] 39%|███▉      | 144598/371472 [25:22<17:57:49,  3.51it/s] 39%|███▉      | 144599/371472 [25:22<17:58:17,  3.51it/s] 39%|███▉      | 144600/371472 [25:22<18:29:00,  3.41it/s]                                                          {'loss': 3.3254, 'learning_rate': 6.49960137042384e-07, 'epoch': 6.23}
 39%|███▉      | 144600/371472 [25:22<18:29:00,  3.41it/s] 39%|███▉      | 144601/371472 [25:22<18:05:29,  3.48it/s] 39%|███▉      | 144602/371472 [25:23<17:39:43,  3.57it/s] 39%|███▉      | 144603/371472 [25:23<17:34:36,  3.59it/s] 39%|███▉      | 144604/371472 [25:23<17:11:07,  3.67it/s] 39%|███▉      | 144605/371472 [25:24<17:10:43,  3.67it/s] 39%|███▉      | 144606/371472 [25:24<16:53:04,  3.73it/s] 39%|███▉      | 144607/371472 [25:24<16:58:54,  3.71it/s] 39%|███▉      | 144608/371472 [25:24<17:27:18,  3.61it/s] 39%|███▉      | 144609/371472 [25:25<17:03:59,  3.69it/s] 39%|███▉      | 144610/371472 [25:25<16:34:00,  3.80it/s] 39%|███▉      | 144611/371472 [25:25<17:33:57,  3.59it/s] 39%|███▉      | 144612/371472 [25:25<17:49:58,  3.53it/s] 39%|███▉      | 144613/371472 [25:26<17:32:35,  3.59it/s] 39%|███▉      | 144614/371472 [25:26<17:34:26,  3.59it/s] 39%|███▉      | 144615/371472 [25:26<17:17:30,  3.64it/s] 39%|███▉      | 144616/371472 [25:27<17:02:32,  3.70it/s] 39%|███▉      | 144617/371472 [25:27<17:42:32,  3.56it/s] 39%|███▉      | 144618/371472 [25:27<18:24:55,  3.42it/s] 39%|███▉      | 144619/371472 [25:27<18:22:30,  3.43it/s] 39%|███▉      | 144620/371472 [25:28<18:06:53,  3.48it/s]                                                          {'loss': 3.3778, 'learning_rate': 6.499116550669052e-07, 'epoch': 6.23}
 39%|███▉      | 144620/371472 [25:28<18:06:53,  3.48it/s] 39%|███▉      | 144621/371472 [25:28<18:36:29,  3.39it/s] 39%|███▉      | 144622/371472 [25:28<17:57:10,  3.51it/s] 39%|███▉      | 144623/371472 [25:29<17:21:23,  3.63it/s] 39%|███▉      | 144624/371472 [25:29<17:35:26,  3.58it/s] 39%|███▉      | 144625/371472 [25:29<18:02:03,  3.49it/s] 39%|███▉      | 144626/371472 [25:29<17:49:31,  3.54it/s] 39%|███▉      | 144627/371472 [25:30<17:22:52,  3.63it/s] 39%|███▉      | 144628/371472 [25:30<18:33:55,  3.39it/s] 39%|███▉      | 144629/371472 [25:30<17:54:58,  3.52it/s] 39%|███▉      | 144630/371472 [25:31<18:09:53,  3.47it/s] 39%|███▉      | 144631/371472 [25:31<17:49:47,  3.53it/s] 39%|███▉      | 144632/371472 [25:31<18:49:42,  3.35it/s] 39%|███▉      | 144633/371472 [25:31<18:40:47,  3.37it/s] 39%|███▉      | 144634/371472 [25:32<18:13:26,  3.46it/s] 39%|███▉      | 144635/371472 [25:32<18:49:38,  3.35it/s] 39%|███▉      | 144636/371472 [25:32<18:24:12,  3.42it/s] 39%|███▉      | 144637/371472 [25:33<18:15:06,  3.45it/s] 39%|███▉      | 144638/371472 [25:33<21:29:13,  2.93it/s] 39%|███▉      | 144639/371472 [25:33<20:21:25,  3.10it/s] 39%|███▉      | 144640/371472 [25:34<19:44:08,  3.19it/s]                                                          {'loss': 3.3068, 'learning_rate': 6.498631730914262e-07, 'epoch': 6.23}
 39%|███▉      | 144640/371472 [25:34<19:44:08,  3.19it/s] 39%|███▉      | 144641/371472 [25:34<21:44:46,  2.90it/s] 39%|███▉      | 144642/371472 [25:34<20:22:21,  3.09it/s] 39%|███▉      | 144643/371472 [25:35<20:44:25,  3.04it/s] 39%|███▉      | 144644/371472 [25:35<19:25:12,  3.24it/s] 39%|███▉      | 144645/371472 [25:35<18:16:38,  3.45it/s] 39%|███▉      | 144646/371472 [25:35<17:43:59,  3.55it/s] 39%|███▉      | 144647/371472 [25:36<17:23:57,  3.62it/s] 39%|███▉      | 144648/371472 [25:36<17:47:33,  3.54it/s] 39%|███▉      | 144649/371472 [25:36<17:23:00,  3.62it/s] 39%|███▉      | 144650/371472 [25:37<17:54:40,  3.52it/s] 39%|███▉      | 144651/371472 [25:37<17:58:09,  3.51it/s] 39%|███▉      | 144652/371472 [25:37<18:25:47,  3.42it/s] 39%|███▉      | 144653/371472 [25:38<18:38:42,  3.38it/s] 39%|███▉      | 144654/371472 [25:38<17:36:08,  3.58it/s] 39%|███▉      | 144655/371472 [25:38<17:47:47,  3.54it/s] 39%|███▉      | 144656/371472 [25:38<17:24:07,  3.62it/s] 39%|███▉      | 144657/371472 [25:39<16:55:36,  3.72it/s] 39%|███▉      | 144658/371472 [25:39<17:47:25,  3.54it/s] 39%|███▉      | 144659/371472 [25:39<18:21:25,  3.43it/s] 39%|███▉      | 144660/371472 [25:39<18:09:59,  3.47it/s]                                                          {'loss': 3.1827, 'learning_rate': 6.498146911159473e-07, 'epoch': 6.23}
 39%|███▉      | 144660/371472 [25:39<18:09:59,  3.47it/s] 39%|███▉      | 144661/371472 [25:40<18:18:06,  3.44it/s] 39%|███▉      | 144662/371472 [25:40<17:49:45,  3.53it/s] 39%|███▉      | 144663/371472 [25:40<17:21:00,  3.63it/s] 39%|███▉      | 144664/371472 [25:41<17:00:39,  3.70it/s] 39%|███▉      | 144665/371472 [25:41<17:24:49,  3.62it/s] 39%|███▉      | 144666/371472 [25:41<17:28:11,  3.61it/s] 39%|███▉      | 144667/371472 [25:41<16:59:54,  3.71it/s] 39%|███▉      | 144668/371472 [25:42<17:24:07,  3.62it/s] 39%|███▉      | 144669/371472 [25:42<17:08:36,  3.67it/s] 39%|███▉      | 144670/371472 [25:42<17:46:58,  3.54it/s] 39%|███▉      | 144671/371472 [25:43<18:21:33,  3.43it/s] 39%|███▉      | 144672/371472 [25:43<17:53:27,  3.52it/s] 39%|███▉      | 144673/371472 [25:43<17:29:59,  3.60it/s] 39%|███▉      | 144674/371472 [25:43<17:41:35,  3.56it/s] 39%|███▉      | 144675/371472 [25:44<18:33:01,  3.40it/s] 39%|███▉      | 144676/371472 [25:44<17:58:16,  3.51it/s] 39%|███▉      | 144677/371472 [25:44<18:10:26,  3.47it/s] 39%|███▉      | 144678/371472 [25:45<17:51:02,  3.53it/s] 39%|███▉      | 144679/371472 [25:45<19:02:38,  3.31it/s] 39%|███▉      | 144680/371472 [25:45<18:28:54,  3.41it/s]                                                          {'loss': 3.3037, 'learning_rate': 6.497662091404684e-07, 'epoch': 6.23}
 39%|███▉      | 144680/371472 [25:45<18:28:54,  3.41it/s] 39%|███▉      | 144681/371472 [25:45<18:10:10,  3.47it/s] 39%|███▉      | 144682/371472 [25:46<18:02:42,  3.49it/s] 39%|███▉      | 144683/371472 [25:46<17:33:56,  3.59it/s] 39%|███▉      | 144684/371472 [25:46<18:16:07,  3.45it/s] 39%|███▉      | 144685/371472 [25:47<17:40:54,  3.56it/s] 39%|███▉      | 144686/371472 [25:47<17:39:30,  3.57it/s] 39%|███▉      | 144687/371472 [25:47<17:19:15,  3.64it/s] 39%|███▉      | 144688/371472 [25:47<17:05:12,  3.69it/s] 39%|███▉      | 144689/371472 [25:48<17:02:55,  3.70it/s] 39%|███▉      | 144690/371472 [25:48<17:05:38,  3.69it/s] 39%|███▉      | 144691/371472 [25:48<16:48:10,  3.75it/s] 39%|███▉      | 144692/371472 [25:48<17:03:19,  3.69it/s] 39%|███▉      | 144693/371472 [25:49<16:52:50,  3.73it/s] 39%|███▉      | 144694/371472 [25:49<18:35:30,  3.39it/s] 39%|███▉      | 144695/371472 [25:49<17:51:22,  3.53it/s] 39%|███▉      | 144696/371472 [25:50<19:13:14,  3.28it/s] 39%|███▉      | 144697/371472 [25:50<17:58:40,  3.50it/s] 39%|███▉      | 144698/371472 [25:50<18:03:08,  3.49it/s] 39%|███▉      | 144699/371472 [25:50<17:54:30,  3.52it/s] 39%|███▉      | 144700/371472 [25:51<17:18:59,  3.64it/s]                                                          {'loss': 3.4572, 'learning_rate': 6.497177271649896e-07, 'epoch': 6.23}
 39%|███▉      | 144700/371472 [25:51<17:18:59,  3.64it/s] 39%|███▉      | 144701/371472 [25:51<17:58:23,  3.50it/s] 39%|███▉      | 144702/371472 [25:51<17:50:04,  3.53it/s] 39%|███▉      | 144703/371472 [25:52<17:43:26,  3.55it/s] 39%|███▉      | 144704/371472 [25:52<18:17:30,  3.44it/s] 39%|███▉      | 144705/371472 [25:52<17:56:26,  3.51it/s] 39%|███▉      | 144706/371472 [25:52<18:02:31,  3.49it/s] 39%|███▉      | 144707/371472 [25:53<19:48:31,  3.18it/s] 39%|███▉      | 144708/371472 [25:53<19:57:29,  3.16it/s] 39%|███▉      | 144709/371472 [25:53<19:36:22,  3.21it/s] 39%|███▉      | 144710/371472 [25:54<19:23:11,  3.25it/s] 39%|███▉      | 144711/371472 [25:54<19:57:40,  3.16it/s] 39%|███▉      | 144712/371472 [25:54<19:54:49,  3.16it/s] 39%|███▉      | 144713/371472 [25:55<19:02:41,  3.31it/s] 39%|███▉      | 144714/371472 [25:55<18:22:22,  3.43it/s] 39%|███▉      | 144715/371472 [25:55<17:31:35,  3.59it/s] 39%|███▉      | 144716/371472 [25:55<16:51:23,  3.74it/s] 39%|███▉      | 144717/371472 [25:56<16:57:32,  3.71it/s] 39%|███▉      | 144718/371472 [25:56<17:49:48,  3.53it/s] 39%|███▉      | 144719/371472 [25:56<16:58:53,  3.71it/s] 39%|███▉      | 144720/371472 [25:57<17:41:39,  3.56it/s]                                                          {'loss': 3.212, 'learning_rate': 6.496692451895106e-07, 'epoch': 6.23}
 39%|███▉      | 144720/371472 [25:57<17:41:39,  3.56it/s] 39%|███▉      | 144721/371472 [25:57<17:20:10,  3.63it/s] 39%|███▉      | 144722/371472 [25:57<17:01:40,  3.70it/s] 39%|███▉      | 144723/371472 [25:57<17:00:52,  3.70it/s] 39%|███▉      | 144724/371472 [25:58<16:43:30,  3.77it/s] 39%|███▉      | 144725/371472 [25:58<17:23:20,  3.62it/s] 39%|███▉      | 144726/371472 [25:58<17:47:01,  3.54it/s] 39%|███▉      | 144727/371472 [25:58<17:01:15,  3.70it/s] 39%|███▉      | 144728/371472 [25:59<16:35:35,  3.80it/s] 39%|███▉      | 144729/371472 [25:59<16:21:23,  3.85it/s] 39%|███▉      | 144730/371472 [25:59<16:13:26,  3.88it/s] 39%|███▉      | 144731/371472 [25:59<16:02:54,  3.92it/s] 39%|███▉      | 144732/371472 [26:00<16:41:58,  3.77it/s] 39%|███▉      | 144733/371472 [26:00<17:14:51,  3.65it/s] 39%|███▉      | 144734/371472 [26:00<17:13:46,  3.66it/s] 39%|███▉      | 144735/371472 [26:01<17:50:28,  3.53it/s] 39%|███▉      | 144736/371472 [26:01<17:37:28,  3.57it/s] 39%|███▉      | 144737/371472 [26:01<17:25:35,  3.61it/s] 39%|███▉      | 144738/371472 [26:01<17:23:12,  3.62it/s] 39%|███▉      | 144739/371472 [26:02<18:16:06,  3.45it/s] 39%|███▉      | 144740/371472 [26:02<18:08:13,  3.47it/s]                                                          {'loss': 3.3284, 'learning_rate': 6.496207632140317e-07, 'epoch': 6.23}
 39%|███▉      | 144740/371472 [26:02<18:08:13,  3.47it/s] 39%|███▉      | 144741/371472 [26:02<18:26:12,  3.42it/s] 39%|███▉      | 144742/371472 [26:03<18:13:08,  3.46it/s] 39%|███▉      | 144743/371472 [26:03<17:59:05,  3.50it/s] 39%|███▉      | 144744/371472 [26:03<17:37:24,  3.57it/s] 39%|███▉      | 144745/371472 [26:03<17:24:45,  3.62it/s] 39%|███▉      | 144746/371472 [26:04<18:43:11,  3.36it/s] 39%|███▉      | 144747/371472 [26:04<18:41:31,  3.37it/s] 39%|███▉      | 144748/371472 [26:04<18:17:51,  3.44it/s] 39%|███▉      | 144749/371472 [26:05<17:30:40,  3.60it/s] 39%|███▉      | 144750/371472 [26:05<17:32:34,  3.59it/s] 39%|███▉      | 144751/371472 [26:05<18:13:09,  3.46it/s] 39%|███▉      | 144752/371472 [26:05<18:06:48,  3.48it/s] 39%|███▉      | 144753/371472 [26:06<19:17:40,  3.26it/s] 39%|███▉      | 144754/371472 [26:06<18:12:51,  3.46it/s] 39%|███▉      | 144755/371472 [26:06<17:50:30,  3.53it/s] 39%|███▉      | 144756/371472 [26:07<17:18:01,  3.64it/s] 39%|███▉      | 144757/371472 [26:07<18:55:11,  3.33it/s] 39%|███▉      | 144758/371472 [26:07<18:23:58,  3.42it/s] 39%|███▉      | 144759/371472 [26:07<17:51:58,  3.52it/s] 39%|███▉      | 144760/371472 [26:08<17:08:49,  3.67it/s]                                                          {'loss': 3.1965, 'learning_rate': 6.495722812385529e-07, 'epoch': 6.24}
 39%|███▉      | 144760/371472 [26:08<17:08:49,  3.67it/s] 39%|███▉      | 144761/371472 [26:08<16:54:48,  3.72it/s] 39%|███▉      | 144762/371472 [26:08<17:29:59,  3.60it/s] 39%|███▉      | 144763/371472 [26:09<17:14:30,  3.65it/s] 39%|███▉      | 144764/371472 [26:09<16:46:36,  3.75it/s] 39%|███▉      | 144765/371472 [26:09<17:11:20,  3.66it/s] 39%|███▉      | 144766/371472 [26:09<18:03:20,  3.49it/s] 39%|███▉      | 144767/371472 [26:10<20:14:48,  3.11it/s] 39%|███▉      | 144768/371472 [26:10<19:27:45,  3.24it/s] 39%|███▉      | 144769/371472 [26:10<18:56:20,  3.33it/s] 39%|███▉      | 144770/371472 [26:11<19:13:22,  3.28it/s] 39%|███▉      | 144771/371472 [26:11<18:37:20,  3.38it/s] 39%|███▉      | 144772/371472 [26:11<17:52:32,  3.52it/s] 39%|███▉      | 144773/371472 [26:12<17:50:18,  3.53it/s] 39%|███▉      | 144774/371472 [26:12<17:55:46,  3.51it/s] 39%|███▉      | 144775/371472 [26:12<18:11:28,  3.46it/s] 39%|███▉      | 144776/371472 [26:12<17:50:03,  3.53it/s] 39%|███▉      | 144777/371472 [26:13<17:19:34,  3.63it/s] 39%|███▉      | 144778/371472 [26:13<17:14:28,  3.65it/s] 39%|███▉      | 144779/371472 [26:13<17:00:53,  3.70it/s] 39%|███▉      | 144780/371472 [26:13<17:32:45,  3.59it/s]                                                          {'loss': 3.4517, 'learning_rate': 6.495237992630741e-07, 'epoch': 6.24}
 39%|███▉      | 144780/371472 [26:13<17:32:45,  3.59it/s] 39%|███▉      | 144781/371472 [26:14<17:10:32,  3.67it/s] 39%|███▉      | 144782/371472 [26:14<17:35:05,  3.58it/s] 39%|███▉      | 144783/371472 [26:14<17:05:33,  3.68it/s] 39%|███▉      | 144784/371472 [26:15<16:57:40,  3.71it/s] 39%|███▉      | 144785/371472 [26:15<16:59:18,  3.71it/s] 39%|███▉      | 144786/371472 [26:15<18:18:37,  3.44it/s] 39%|███▉      | 144787/371472 [26:15<17:58:34,  3.50it/s] 39%|███▉      | 144788/371472 [26:16<17:36:11,  3.58it/s] 39%|███▉      | 144789/371472 [26:16<17:14:56,  3.65it/s] 39%|███▉      | 144790/371472 [26:16<17:22:07,  3.63it/s] 39%|███▉      | 144791/371472 [26:17<17:56:16,  3.51it/s] 39%|███▉      | 144792/371472 [26:17<18:19:03,  3.44it/s] 39%|███▉      | 144793/371472 [26:17<17:18:36,  3.64it/s] 39%|███▉      | 144794/371472 [26:17<18:07:52,  3.47it/s] 39%|███▉      | 144795/371472 [26:18<18:06:56,  3.48it/s] 39%|███▉      | 144796/371472 [26:18<18:47:55,  3.35it/s] 39%|███▉      | 144797/371472 [26:18<18:21:49,  3.43it/s] 39%|███▉      | 144798/371472 [26:19<19:16:36,  3.27it/s] 39%|███▉      | 144799/371472 [26:19<19:48:45,  3.18it/s] 39%|███▉      | 144800/371472 [26:19<18:44:05,  3.36it/s]                                                          {'loss': 3.2597, 'learning_rate': 6.494753172875949e-07, 'epoch': 6.24}
 39%|███▉      | 144800/371472 [26:19<18:44:05,  3.36it/s] 39%|███▉      | 144801/371472 [26:19<18:12:10,  3.46it/s] 39%|███▉      | 144802/371472 [26:20<17:31:56,  3.59it/s] 39%|███▉      | 144803/371472 [26:20<18:21:08,  3.43it/s] 39%|███▉      | 144804/371472 [26:20<17:52:56,  3.52it/s] 39%|███▉      | 144805/371472 [26:21<18:09:04,  3.47it/s] 39%|███▉      | 144806/371472 [26:21<17:44:08,  3.55it/s] 39%|███▉      | 144807/371472 [26:21<17:14:48,  3.65it/s] 39%|███▉      | 144808/371472 [26:21<16:47:50,  3.75it/s] 39%|███▉      | 144809/371472 [26:22<16:56:17,  3.72it/s] 39%|███▉      | 144810/371472 [26:22<17:38:48,  3.57it/s] 39%|███▉      | 144811/371472 [26:22<17:17:37,  3.64it/s] 39%|███▉      | 144812/371472 [26:23<18:36:32,  3.38it/s] 39%|███▉      | 144813/371472 [26:23<19:50:29,  3.17it/s] 39%|███▉      | 144814/371472 [26:23<19:42:18,  3.20it/s] 39%|███▉      | 144815/371472 [26:23<18:36:49,  3.38it/s] 39%|███▉      | 144816/371472 [26:24<19:02:16,  3.31it/s] 39%|███▉      | 144817/371472 [26:24<18:47:14,  3.35it/s] 39%|███▉      | 144818/371472 [26:24<17:44:52,  3.55it/s] 39%|███▉      | 144819/371472 [26:25<17:56:35,  3.51it/s] 39%|███▉      | 144820/371472 [26:25<18:02:38,  3.49it/s]                                                          {'loss': 3.2309, 'learning_rate': 6.494268353121161e-07, 'epoch': 6.24}
 39%|███▉      | 144820/371472 [26:25<18:02:38,  3.49it/s] 39%|███▉      | 144821/371472 [26:25<18:00:05,  3.50it/s] 39%|███▉      | 144822/371472 [26:25<17:53:16,  3.52it/s] 39%|███▉      | 144823/371472 [26:26<18:16:12,  3.45it/s] 39%|███▉      | 144824/371472 [26:26<17:29:53,  3.60it/s] 39%|███▉      | 144825/371472 [26:26<18:51:01,  3.34it/s] 39%|███▉      | 144826/371472 [26:27<18:26:56,  3.41it/s] 39%|███▉      | 144827/371472 [26:27<19:14:56,  3.27it/s] 39%|███▉      | 144828/371472 [26:27<18:53:02,  3.33it/s] 39%|███▉      | 144829/371472 [26:28<18:02:11,  3.49it/s] 39%|███▉      | 144830/371472 [26:28<17:56:07,  3.51it/s] 39%|███▉      | 144831/371472 [26:28<17:16:46,  3.64it/s] 39%|███▉      | 144832/371472 [26:28<17:08:57,  3.67it/s] 39%|███▉      | 144833/371472 [26:29<17:23:23,  3.62it/s] 39%|███▉      | 144834/371472 [26:29<16:53:08,  3.73it/s] 39%|███▉      | 144835/371472 [26:29<17:52:41,  3.52it/s] 39%|███▉      | 144836/371472 [26:29<17:41:28,  3.56it/s] 39%|███▉      | 144837/371472 [26:30<24:19:29,  2.59it/s] 39%|███▉      | 144838/371472 [26:30<22:01:51,  2.86it/s] 39%|███▉      | 144839/371472 [26:31<20:13:48,  3.11it/s] 39%|███▉      | 144840/371472 [26:31<18:58:09,  3.32it/s]                                                          {'loss': 3.2002, 'learning_rate': 6.493783533366373e-07, 'epoch': 6.24}
 39%|███▉      | 144840/371472 [26:31<18:58:09,  3.32it/s] 39%|███▉      | 144841/371472 [26:31<18:17:55,  3.44it/s] 39%|███▉      | 144842/371472 [26:31<18:01:46,  3.49it/s] 39%|███▉      | 144843/371472 [26:32<17:41:08,  3.56it/s] 39%|███▉      | 144844/371472 [26:32<17:31:53,  3.59it/s] 39%|███▉      | 144845/371472 [26:32<18:27:18,  3.41it/s] 39%|███▉      | 144846/371472 [26:33<17:27:37,  3.61it/s] 39%|███▉      | 144847/371472 [26:33<17:20:15,  3.63it/s] 39%|███▉      | 144848/371472 [26:33<17:24:05,  3.62it/s] 39%|███▉      | 144849/371472 [26:33<17:43:01,  3.55it/s] 39%|███▉      | 144850/371472 [26:34<17:12:10,  3.66it/s] 39%|███▉      | 144851/371472 [26:34<17:08:43,  3.67it/s] 39%|███▉      | 144852/371472 [26:34<17:57:37,  3.50it/s] 39%|███▉      | 144853/371472 [26:34<17:58:08,  3.50it/s] 39%|███▉      | 144854/371472 [26:35<17:18:32,  3.64it/s] 39%|███▉      | 144855/371472 [26:35<17:00:56,  3.70it/s] 39%|███▉      | 144856/371472 [26:35<18:51:33,  3.34it/s] 39%|███▉      | 144857/371472 [26:36<18:17:43,  3.44it/s] 39%|███▉      | 144858/371472 [26:36<17:53:31,  3.52it/s] 39%|███▉      | 144859/371472 [26:36<17:22:10,  3.62it/s] 39%|███▉      | 144860/371472 [26:36<17:13:11,  3.66it/s]                                                          {'loss': 3.2691, 'learning_rate': 6.493298713611583e-07, 'epoch': 6.24}
 39%|███▉      | 144860/371472 [26:36<17:13:11,  3.66it/s] 39%|███▉      | 144861/371472 [26:37<19:34:11,  3.22it/s] 39%|███▉      | 144862/371472 [26:37<18:37:06,  3.38it/s] 39%|███▉      | 144863/371472 [26:37<18:22:06,  3.43it/s] 39%|███▉      | 144864/371472 [26:38<18:09:18,  3.47it/s] 39%|███▉      | 144865/371472 [26:38<17:57:21,  3.51it/s] 39%|███▉      | 144866/371472 [26:38<17:43:03,  3.55it/s] 39%|███▉      | 144867/371472 [26:38<17:18:58,  3.64it/s] 39%|███▉      | 144868/371472 [26:39<17:10:13,  3.67it/s] 39%|███▉      | 144869/371472 [26:39<17:51:29,  3.52it/s] 39%|███▉      | 144870/371472 [26:39<17:18:27,  3.64it/s] 39%|███▉      | 144871/371472 [26:40<16:54:18,  3.72it/s] 39%|███▉      | 144872/371472 [26:40<16:56:35,  3.72it/s] 39%|███▉      | 144873/371472 [26:40<16:37:56,  3.78it/s] 39%|███▉      | 144874/371472 [26:40<16:19:57,  3.85it/s] 39%|███▉      | 144875/371472 [26:41<16:45:27,  3.76it/s] 39%|███▉      | 144876/371472 [26:41<16:34:51,  3.80it/s] 39%|███▉      | 144877/371472 [26:41<16:21:31,  3.85it/s] 39%|███▉      | 144878/371472 [26:41<17:19:12,  3.63it/s] 39%|███▉      | 144879/371472 [26:42<17:40:49,  3.56it/s] 39%|███▉      | 144880/371472 [26:42<17:33:43,  3.58it/s]                                                          {'loss': 3.3578, 'learning_rate': 6.492813893856794e-07, 'epoch': 6.24}
 39%|███▉      | 144880/371472 [26:42<17:33:43,  3.58it/s] 39%|███▉      | 144881/371472 [26:42<19:07:24,  3.29it/s] 39%|███▉      | 144882/371472 [26:43<18:18:04,  3.44it/s] 39%|███▉      | 144883/371472 [26:43<17:37:22,  3.57it/s] 39%|███▉      | 144884/371472 [26:43<17:15:44,  3.65it/s] 39%|███▉      | 144885/371472 [26:43<17:08:26,  3.67it/s] 39%|███▉      | 144886/371472 [26:44<16:53:07,  3.73it/s] 39%|███▉      | 144887/371472 [26:44<17:28:52,  3.60it/s] 39%|███▉      | 144888/371472 [26:44<17:00:24,  3.70it/s] 39%|███▉      | 144889/371472 [26:44<16:55:57,  3.72it/s] 39%|███▉      | 144890/371472 [26:45<17:12:06,  3.66it/s] 39%|███▉      | 144891/371472 [26:45<16:40:04,  3.78it/s] 39%|███▉      | 144892/371472 [26:45<16:55:01,  3.72it/s] 39%|███▉      | 144893/371472 [26:46<17:13:42,  3.65it/s] 39%|███▉      | 144894/371472 [26:46<16:48:50,  3.74it/s] 39%|███▉      | 144895/371472 [26:46<16:13:29,  3.88it/s] 39%|███▉      | 144896/371472 [26:46<16:25:15,  3.83it/s] 39%|███▉      | 144897/371472 [26:47<17:18:12,  3.64it/s] 39%|███▉      | 144898/371472 [26:47<17:27:13,  3.61it/s] 39%|███▉      | 144899/371472 [26:47<17:34:47,  3.58it/s] 39%|███▉      | 144900/371472 [26:47<17:13:21,  3.65it/s]                                                          {'loss': 3.3527, 'learning_rate': 6.492329074102007e-07, 'epoch': 6.24}
 39%|███▉      | 144900/371472 [26:47<17:13:21,  3.65it/s] 39%|███▉      | 144901/371472 [26:48<17:35:48,  3.58it/s] 39%|███▉      | 144902/371472 [26:48<17:27:41,  3.60it/s] 39%|███▉      | 144903/371472 [26:48<18:08:41,  3.47it/s] 39%|███▉      | 144904/371472 [26:49<17:48:44,  3.53it/s] 39%|███▉      | 144905/371472 [26:49<18:07:21,  3.47it/s] 39%|███▉      | 144906/371472 [26:49<17:46:52,  3.54it/s] 39%|███▉      | 144907/371472 [26:49<17:35:16,  3.58it/s] 39%|███▉      | 144908/371472 [26:50<16:55:44,  3.72it/s] 39%|███▉      | 144909/371472 [26:50<17:07:20,  3.68it/s] 39%|███▉      | 144910/371472 [26:50<16:28:44,  3.82it/s] 39%|███▉      | 144911/371472 [26:50<16:30:21,  3.81it/s] 39%|███▉      | 144912/371472 [26:51<16:35:37,  3.79it/s] 39%|███▉      | 144913/371472 [26:51<16:55:33,  3.72it/s] 39%|███▉      | 144914/371472 [26:51<16:53:47,  3.72it/s] 39%|███▉      | 144915/371472 [26:52<16:31:04,  3.81it/s] 39%|███▉      | 144916/371472 [26:52<16:22:24,  3.84it/s] 39%|███▉      | 144917/371472 [26:52<16:14:31,  3.87it/s] 39%|███▉      | 144918/371472 [26:52<16:42:27,  3.77it/s] 39%|███▉      | 144919/371472 [26:53<16:19:35,  3.85it/s] 39%|███▉      | 144920/371472 [26:53<16:04:38,  3.91it/s]                                                          {'loss': 3.1898, 'learning_rate': 6.491844254347217e-07, 'epoch': 6.24}
 39%|███▉      | 144920/371472 [26:53<16:04:38,  3.91it/s] 39%|███▉      | 144921/371472 [26:53<16:20:02,  3.85it/s] 39%|███▉      | 144922/371472 [26:53<17:18:14,  3.64it/s] 39%|███▉      | 144923/371472 [26:54<17:32:51,  3.59it/s] 39%|███▉      | 144924/371472 [26:54<16:57:41,  3.71it/s] 39%|███▉      | 144925/371472 [26:54<17:13:11,  3.65it/s] 39%|███▉      | 144926/371472 [26:54<16:46:08,  3.75it/s] 39%|███▉      | 144927/371472 [26:55<17:56:22,  3.51it/s] 39%|███▉      | 144928/371472 [26:55<17:50:31,  3.53it/s] 39%|███▉      | 144929/371472 [26:55<17:37:08,  3.57it/s] 39%|███▉      | 144930/371472 [26:56<17:47:01,  3.54it/s] 39%|███▉      | 144931/371472 [26:56<17:31:55,  3.59it/s] 39%|███▉      | 144932/371472 [26:56<18:35:00,  3.39it/s] 39%|███▉      | 144933/371472 [26:57<18:38:12,  3.38it/s] 39%|███▉      | 144934/371472 [26:57<18:35:40,  3.38it/s] 39%|███▉      | 144935/371472 [26:57<18:47:31,  3.35it/s] 39%|███▉      | 144936/371472 [26:57<18:26:35,  3.41it/s] 39%|███▉      | 144937/371472 [26:58<18:05:52,  3.48it/s] 39%|███▉      | 144938/371472 [26:58<19:14:43,  3.27it/s] 39%|███▉      | 144939/371472 [26:58<19:39:49,  3.20it/s] 39%|███▉      | 144940/371472 [26:59<18:56:54,  3.32it/s]                                                          {'loss': 3.2556, 'learning_rate': 6.491359434592427e-07, 'epoch': 6.24}
 39%|███▉      | 144940/371472 [26:59<18:56:54,  3.32it/s] 39%|███▉      | 144941/371472 [26:59<18:32:56,  3.39it/s] 39%|███▉      | 144942/371472 [26:59<20:14:36,  3.11it/s] 39%|███▉      | 144943/371472 [27:00<19:07:05,  3.29it/s] 39%|███▉      | 144944/371472 [27:00<17:59:13,  3.50it/s] 39%|███▉      | 144945/371472 [27:00<17:32:43,  3.59it/s] 39%|███▉      | 144946/371472 [27:00<17:07:01,  3.68it/s] 39%|███▉      | 144947/371472 [27:01<17:47:26,  3.54it/s] 39%|███▉      | 144948/371472 [27:01<17:08:55,  3.67it/s] 39%|███▉      | 144949/371472 [27:01<17:47:31,  3.54it/s] 39%|███▉      | 144950/371472 [27:01<18:03:53,  3.48it/s] 39%|███▉      | 144951/371472 [27:02<17:59:24,  3.50it/s] 39%|███▉      | 144952/371472 [27:02<18:17:59,  3.44it/s] 39%|███▉      | 144953/371472 [27:02<17:55:47,  3.51it/s] 39%|███▉      | 144954/371472 [27:03<17:37:54,  3.57it/s] 39%|███▉      | 144955/371472 [27:03<17:38:28,  3.57it/s] 39%|███▉      | 144956/371472 [27:03<17:31:32,  3.59it/s] 39%|███▉      | 144957/371472 [27:03<17:08:25,  3.67it/s] 39%|███▉      | 144958/371472 [27:04<17:11:18,  3.66it/s] 39%|███▉      | 144959/371472 [27:04<16:49:10,  3.74it/s] 39%|███▉      | 144960/371472 [27:04<17:26:10,  3.61it/s]                                                          {'loss': 3.0645, 'learning_rate': 6.490874614837638e-07, 'epoch': 6.24}
 39%|███▉      | 144960/371472 [27:04<17:26:10,  3.61it/s] 39%|███▉      | 144961/371472 [27:05<17:22:52,  3.62it/s] 39%|███▉      | 144962/371472 [27:05<17:42:34,  3.55it/s] 39%|███▉      | 144963/371472 [27:05<17:20:43,  3.63it/s] 39%|███▉      | 144964/371472 [27:05<17:00:51,  3.70it/s] 39%|███▉      | 144965/371472 [27:06<16:38:46,  3.78it/s] 39%|███▉      | 144966/371472 [27:06<16:42:20,  3.77it/s] 39%|███▉      | 144967/371472 [27:06<17:10:10,  3.66it/s] 39%|███▉      | 144968/371472 [27:06<18:09:11,  3.47it/s] 39%|███▉      | 144969/371472 [27:07<17:54:39,  3.51it/s] 39%|███▉      | 144970/371472 [27:07<17:54:25,  3.51it/s] 39%|███▉      | 144971/371472 [27:07<17:26:04,  3.61it/s] 39%|███▉      | 144972/371472 [27:08<16:59:11,  3.70it/s] 39%|███▉      | 144973/371472 [27:08<17:19:34,  3.63it/s] 39%|███▉      | 144974/371472 [27:08<17:28:02,  3.60it/s] 39%|███▉      | 144975/371472 [27:08<17:46:24,  3.54it/s] 39%|███▉      | 144976/371472 [27:09<17:39:30,  3.56it/s] 39%|███▉      | 144977/371472 [27:09<17:36:10,  3.57it/s] 39%|███▉      | 144978/371472 [27:09<17:39:04,  3.56it/s] 39%|███▉      | 144979/371472 [27:10<17:12:49,  3.65it/s] 39%|███▉      | 144980/371472 [27:10<17:08:23,  3.67it/s]                                                          {'loss': 3.0829, 'learning_rate': 6.49038979508285e-07, 'epoch': 6.24}
 39%|███▉      | 144980/371472 [27:10<17:08:23,  3.67it/s] 39%|███▉      | 144981/371472 [27:10<18:17:05,  3.44it/s] 39%|███▉      | 144982/371472 [27:10<17:41:53,  3.55it/s] 39%|███▉      | 144983/371472 [27:11<17:31:22,  3.59it/s] 39%|███▉      | 144984/371472 [27:11<17:06:23,  3.68it/s] 39%|███▉      | 144985/371472 [27:11<17:48:06,  3.53it/s] 39%|███▉      | 144986/371472 [27:12<18:41:07,  3.37it/s] 39%|███▉      | 144987/371472 [27:12<18:11:32,  3.46it/s] 39%|███▉      | 144988/371472 [27:12<17:34:37,  3.58it/s] 39%|███▉      | 144989/371472 [27:12<17:55:55,  3.51it/s] 39%|███▉      | 144990/371472 [27:13<17:22:31,  3.62it/s] 39%|███▉      | 144991/371472 [27:13<17:31:18,  3.59it/s] 39%|███▉      | 144992/371472 [27:13<17:05:47,  3.68it/s] 39%|███▉      | 144993/371472 [27:13<16:52:08,  3.73it/s] 39%|███▉      | 144994/371472 [27:14<18:00:06,  3.49it/s] 39%|███▉      | 144995/371472 [27:14<18:05:06,  3.48it/s] 39%|███▉      | 144996/371472 [27:14<17:50:52,  3.52it/s] 39%|███▉      | 144997/371472 [27:15<18:21:46,  3.43it/s] 39%|███▉      | 144998/371472 [27:15<18:28:06,  3.41it/s] 39%|███▉      | 144999/371472 [27:15<18:29:20,  3.40it/s] 39%|███▉      | 145000/371472 [27:15<17:58:22,  3.50it/s]                                                          {'loss': 3.1403, 'learning_rate': 6.489904975328062e-07, 'epoch': 6.25}
 39%|███▉      | 145000/371472 [27:15<17:58:22,  3.50it/s] 39%|███▉      | 145001/371472 [27:16<17:36:54,  3.57it/s] 39%|███▉      | 145002/371472 [27:16<18:27:03,  3.41it/s] 39%|███▉      | 145003/371472 [27:16<17:59:39,  3.50it/s] 39%|███▉      | 145004/371472 [27:17<17:31:37,  3.59it/s] 39%|███▉      | 145005/371472 [27:17<17:57:50,  3.50it/s] 39%|███▉      | 145006/371472 [27:17<19:48:32,  3.18it/s] 39%|███▉      | 145007/371472 [27:18<18:35:02,  3.39it/s] 39%|███▉      | 145008/371472 [27:18<17:36:14,  3.57it/s] 39%|███▉      | 145009/371472 [27:18<17:42:01,  3.55it/s] 39%|███▉      | 145010/371472 [27:18<18:32:34,  3.39it/s] 39%|███▉      | 145011/371472 [27:19<18:02:07,  3.49it/s] 39%|███▉      | 145012/371472 [27:19<18:36:51,  3.38it/s] 39%|███▉      | 145013/371472 [27:19<19:16:03,  3.26it/s] 39%|███▉      | 145014/371472 [27:20<18:41:12,  3.37it/s] 39%|███▉      | 145015/371472 [27:20<18:35:49,  3.38it/s] 39%|███▉      | 145016/371472 [27:20<17:51:30,  3.52it/s] 39%|███▉      | 145017/371472 [27:20<18:12:16,  3.46it/s] 39%|███▉      | 145018/371472 [27:21<17:35:02,  3.58it/s] 39%|███▉      | 145019/371472 [27:21<17:16:16,  3.64it/s] 39%|███▉      | 145020/371472 [27:21<17:59:49,  3.50it/s]                                                          {'loss': 3.2601, 'learning_rate': 6.489420155573272e-07, 'epoch': 6.25}
 39%|███▉      | 145020/371472 [27:21<17:59:49,  3.50it/s] 39%|███▉      | 145021/371472 [27:22<19:10:03,  3.28it/s] 39%|███▉      | 145022/371472 [27:22<18:29:26,  3.40it/s] 39%|███▉      | 145023/371472 [27:22<18:10:58,  3.46it/s] 39%|███▉      | 145024/371472 [27:22<17:39:24,  3.56it/s] 39%|███▉      | 145025/371472 [27:23<17:47:27,  3.54it/s] 39%|███▉      | 145026/371472 [27:23<17:11:47,  3.66it/s] 39%|███▉      | 145027/371472 [27:23<18:13:38,  3.45it/s] 39%|███▉      | 145028/371472 [27:24<17:55:32,  3.51it/s] 39%|███▉      | 145029/371472 [27:24<17:45:08,  3.54it/s] 39%|███▉      | 145030/371472 [27:24<17:51:45,  3.52it/s] 39%|███▉      | 145031/371472 [27:24<18:24:28,  3.42it/s] 39%|███▉      | 145032/371472 [27:25<17:44:02,  3.55it/s] 39%|███▉      | 145033/371472 [27:25<17:16:29,  3.64it/s] 39%|███▉      | 145034/371472 [27:25<18:24:22,  3.42it/s] 39%|███▉      | 145035/371472 [27:26<17:49:08,  3.53it/s] 39%|███▉      | 145036/371472 [27:26<18:00:33,  3.49it/s] 39%|███▉      | 145037/371472 [27:26<18:01:19,  3.49it/s] 39%|███▉      | 145038/371472 [27:26<17:33:38,  3.58it/s] 39%|███▉      | 145039/371472 [27:27<17:40:25,  3.56it/s] 39%|███▉      | 145040/371472 [27:27<17:12:07,  3.66it/s]                                                          {'loss': 3.2214, 'learning_rate': 6.488935335818483e-07, 'epoch': 6.25}
 39%|███▉      | 145040/371472 [27:27<17:12:07,  3.66it/s] 39%|███▉      | 145041/371472 [27:27<18:07:41,  3.47it/s] 39%|███▉      | 145042/371472 [27:28<17:40:53,  3.56it/s] 39%|███▉      | 145043/371472 [27:28<18:11:54,  3.46it/s] 39%|███▉      | 145044/371472 [27:28<18:33:34,  3.39it/s] 39%|███▉      | 145045/371472 [27:28<17:57:05,  3.50it/s] 39%|███▉      | 145046/371472 [27:29<17:51:31,  3.52it/s] 39%|███▉      | 145047/371472 [27:29<18:40:28,  3.37it/s] 39%|███▉      | 145048/371472 [27:29<17:59:15,  3.50it/s] 39%|███▉      | 145049/371472 [27:30<17:24:41,  3.61it/s] 39%|███▉      | 145050/371472 [27:30<17:16:14,  3.64it/s] 39%|███▉      | 145051/371472 [27:30<17:14:22,  3.65it/s] 39%|███▉      | 145052/371472 [27:30<16:43:06,  3.76it/s] 39%|███▉      | 145053/371472 [27:31<17:35:06,  3.58it/s] 39%|███▉      | 145054/371472 [27:31<17:45:08,  3.54it/s] 39%|███▉      | 145055/371472 [27:31<17:25:30,  3.61it/s] 39%|███▉      | 145056/371472 [27:32<18:03:42,  3.48it/s] 39%|███▉      | 145057/371472 [27:32<17:19:54,  3.63it/s] 39%|███▉      | 145058/371472 [27:32<18:43:33,  3.36it/s] 39%|███▉      | 145059/371472 [27:32<18:21:18,  3.43it/s] 39%|███▉      | 145060/371472 [27:33<20:11:50,  3.11it/s]                                                          {'loss': 3.0946, 'learning_rate': 6.488450516063694e-07, 'epoch': 6.25}
 39%|███▉      | 145060/371472 [27:33<20:11:50,  3.11it/s] 39%|███▉      | 145061/371472 [27:33<18:45:50,  3.35it/s] 39%|███▉      | 145062/371472 [27:33<18:11:18,  3.46it/s] 39%|███▉      | 145063/371472 [27:34<17:55:01,  3.51it/s] 39%|███▉      | 145064/371472 [27:34<17:46:29,  3.54it/s] 39%|███▉      | 145065/371472 [27:34<17:10:22,  3.66it/s] 39%|███▉      | 145066/371472 [27:34<16:56:13,  3.71it/s] 39%|███▉      | 145067/371472 [27:35<16:28:38,  3.82it/s] 39%|███▉      | 145068/371472 [27:35<16:29:47,  3.81it/s] 39%|███▉      | 145069/371472 [27:35<16:50:18,  3.73it/s] 39%|███▉      | 145070/371472 [27:35<16:49:37,  3.74it/s] 39%|███▉      | 145071/371472 [27:36<17:00:01,  3.70it/s] 39%|███▉      | 145072/371472 [27:36<18:15:13,  3.45it/s] 39%|███▉      | 145073/371472 [27:36<18:30:14,  3.40it/s] 39%|███▉      | 145074/371472 [27:37<17:51:46,  3.52it/s] 39%|███▉      | 145075/371472 [27:37<18:37:12,  3.38it/s] 39%|███▉      | 145076/371472 [27:37<17:55:19,  3.51it/s] 39%|███▉      | 145077/371472 [27:37<18:08:30,  3.47it/s] 39%|███▉      | 145078/371472 [27:38<17:26:57,  3.60it/s] 39%|███▉      | 145079/371472 [27:38<17:46:17,  3.54it/s] 39%|███▉      | 145080/371472 [27:38<17:45:40,  3.54it/s]                                                          {'loss': 3.3957, 'learning_rate': 6.487965696308906e-07, 'epoch': 6.25}
 39%|███▉      | 145080/371472 [27:38<17:45:40,  3.54it/s] 39%|███▉      | 145081/371472 [27:39<17:52:29,  3.52it/s] 39%|███▉      | 145082/371472 [27:39<17:57:08,  3.50it/s] 39%|███▉      | 145083/371472 [27:39<17:18:11,  3.63it/s] 39%|███▉      | 145084/371472 [27:39<17:18:44,  3.63it/s] 39%|███▉      | 145085/371472 [27:40<18:17:13,  3.44it/s] 39%|███▉      | 145086/371472 [27:40<17:23:54,  3.61it/s] 39%|███▉      | 145087/371472 [27:40<18:03:41,  3.48it/s] 39%|███▉      | 145088/371472 [27:41<17:44:19,  3.55it/s] 39%|███▉      | 145089/371472 [27:41<17:57:41,  3.50it/s] 39%|███▉      | 145090/371472 [27:41<17:54:12,  3.51it/s] 39%|███▉      | 145091/371472 [27:41<18:21:32,  3.43it/s] 39%|███▉      | 145092/371472 [27:42<18:40:09,  3.37it/s] 39%|███▉      | 145093/371472 [27:42<17:28:52,  3.60it/s] 39%|███▉      | 145094/371472 [27:42<16:41:13,  3.77it/s] 39%|███▉      | 145095/371472 [27:42<17:10:22,  3.66it/s] 39%|███▉      | 145096/371472 [27:43<17:03:08,  3.69it/s] 39%|███▉      | 145097/371472 [27:43<16:46:43,  3.75it/s] 39%|███▉      | 145098/371472 [27:43<16:33:13,  3.80it/s] 39%|███▉      | 145099/371472 [27:44<16:21:16,  3.84it/s] 39%|███▉      | 145100/371472 [27:44<16:37:06,  3.78it/s]                                                          {'loss': 3.3029, 'learning_rate': 6.487480876554116e-07, 'epoch': 6.25}
 39%|███▉      | 145100/371472 [27:44<16:37:06,  3.78it/s] 39%|███▉      | 145101/371472 [27:44<17:44:55,  3.54it/s] 39%|███▉      | 145102/371472 [27:44<17:46:03,  3.54it/s] 39%|███▉      | 145103/371472 [27:45<18:43:22,  3.36it/s] 39%|███▉      | 145104/371472 [27:45<18:28:45,  3.40it/s] 39%|███▉      | 145105/371472 [27:45<17:50:46,  3.52it/s] 39%|███▉      | 145106/371472 [27:46<17:49:39,  3.53it/s] 39%|███▉      | 145107/371472 [27:46<17:32:55,  3.58it/s] 39%|███▉      | 145108/371472 [27:46<17:09:17,  3.67it/s] 39%|███▉      | 145109/371472 [27:46<17:13:57,  3.65it/s] 39%|███▉      | 145110/371472 [27:47<17:30:16,  3.59it/s] 39%|███▉      | 145111/371472 [27:47<18:05:27,  3.48it/s] 39%|███▉      | 145112/371472 [27:47<17:31:54,  3.59it/s] 39%|███▉      | 145113/371472 [27:47<16:58:59,  3.70it/s] 39%|███▉      | 145114/371472 [27:48<17:12:38,  3.65it/s] 39%|███▉      | 145115/371472 [27:48<17:37:26,  3.57it/s] 39%|███▉      | 145116/371472 [27:48<17:57:07,  3.50it/s] 39%|███▉      | 145117/371472 [27:49<18:23:55,  3.42it/s] 39%|███▉      | 145118/371472 [27:49<17:40:17,  3.56it/s] 39%|███▉      | 145119/371472 [27:49<18:05:06,  3.48it/s] 39%|███▉      | 145120/371472 [27:50<18:27:15,  3.41it/s]                                                          {'loss': 3.3793, 'learning_rate': 6.486996056799327e-07, 'epoch': 6.25}
 39%|███▉      | 145120/371472 [27:50<18:27:15,  3.41it/s] 39%|███▉      | 145121/371472 [27:50<18:24:23,  3.42it/s] 39%|███▉      | 145122/371472 [27:50<18:04:29,  3.48it/s] 39%|███▉      | 145123/371472 [27:50<17:20:14,  3.63it/s] 39%|███▉      | 145124/371472 [27:51<17:29:40,  3.59it/s] 39%|███▉      | 145125/371472 [27:51<16:45:34,  3.75it/s] 39%|███▉      | 145126/371472 [27:51<17:39:04,  3.56it/s] 39%|███▉      | 145127/371472 [27:51<17:37:03,  3.57it/s] 39%|███▉      | 145128/371472 [27:52<17:51:44,  3.52it/s] 39%|███▉      | 145129/371472 [27:52<19:19:46,  3.25it/s] 39%|███▉      | 145130/371472 [27:52<18:20:00,  3.43it/s] 39%|███▉      | 145131/371472 [27:53<17:57:59,  3.50it/s] 39%|███▉      | 145132/371472 [27:53<17:40:03,  3.56it/s] 39%|███▉      | 145133/371472 [27:53<19:43:24,  3.19it/s] 39%|███▉      | 145134/371472 [27:54<18:38:10,  3.37it/s] 39%|███▉      | 145135/371472 [27:54<19:20:58,  3.25it/s] 39%|███▉      | 145136/371472 [27:54<19:18:57,  3.25it/s] 39%|███▉      | 145137/371472 [27:54<18:20:51,  3.43it/s] 39%|███▉      | 145138/371472 [27:55<17:31:12,  3.59it/s] 39%|███▉      | 145139/371472 [27:55<18:14:29,  3.45it/s] 39%|███▉      | 145140/371472 [27:55<17:35:16,  3.57it/s]                                                          {'loss': 3.1677, 'learning_rate': 6.486511237044539e-07, 'epoch': 6.25}
 39%|███▉      | 145140/371472 [27:55<17:35:16,  3.57it/s] 39%|███▉      | 145141/371472 [27:56<18:44:44,  3.35it/s] 39%|███▉      | 145142/371472 [27:56<18:13:07,  3.45it/s] 39%|███▉      | 145143/371472 [27:56<17:26:43,  3.60it/s] 39%|███▉      | 145144/371472 [27:56<18:07:33,  3.47it/s] 39%|███▉      | 145145/371472 [27:57<19:34:52,  3.21it/s] 39%|███▉      | 145146/371472 [27:57<18:35:04,  3.38it/s] 39%|███▉      | 145147/371472 [27:57<18:49:50,  3.34it/s] 39%|███▉      | 145148/371472 [27:58<18:05:42,  3.47it/s] 39%|███▉      | 145149/371472 [27:58<17:22:58,  3.62it/s] 39%|███▉      | 145150/371472 [27:58<17:57:50,  3.50it/s] 39%|███▉      | 145151/371472 [27:58<18:11:25,  3.46it/s] 39%|███▉      | 145152/371472 [27:59<17:28:47,  3.60it/s] 39%|███▉      | 145153/371472 [27:59<18:24:54,  3.41it/s] 39%|███▉      | 145154/371472 [27:59<18:29:32,  3.40it/s] 39%|███▉      | 145155/371472 [28:00<18:15:56,  3.44it/s] 39%|███▉      | 145156/371472 [28:00<18:48:41,  3.34it/s] 39%|███▉      | 145157/371472 [28:00<18:17:29,  3.44it/s] 39%|███▉      | 145158/371472 [28:01<18:57:16,  3.32it/s] 39%|███▉      | 145159/371472 [28:01<18:38:30,  3.37it/s] 39%|███▉      | 145160/371472 [28:01<19:53:27,  3.16it/s]                                                          {'loss': 3.2968, 'learning_rate': 6.48602641728975e-07, 'epoch': 6.25}
 39%|███▉      | 145160/371472 [28:01<19:53:27,  3.16it/s] 39%|███▉      | 145161/371472 [28:02<20:32:18,  3.06it/s] 39%|███▉      | 145162/371472 [28:02<19:59:06,  3.15it/s] 39%|███▉      | 145163/371472 [28:02<19:37:28,  3.20it/s] 39%|███▉      | 145164/371472 [28:02<18:34:50,  3.38it/s] 39%|███▉      | 145165/371472 [28:03<17:45:23,  3.54it/s] 39%|███▉      | 145166/371472 [28:03<17:21:03,  3.62it/s] 39%|███▉      | 145167/371472 [28:03<17:15:40,  3.64it/s] 39%|███▉      | 145168/371472 [28:03<16:56:45,  3.71it/s] 39%|███▉      | 145169/371472 [28:04<16:37:23,  3.78it/s] 39%|███▉      | 145170/371472 [28:04<16:42:06,  3.76it/s] 39%|███▉      | 145171/371472 [28:04<17:01:03,  3.69it/s] 39%|███▉      | 145172/371472 [28:05<16:27:38,  3.82it/s] 39%|███▉      | 145173/371472 [28:05<16:40:51,  3.77it/s] 39%|███▉      | 145174/371472 [28:05<16:14:40,  3.87it/s] 39%|███▉      | 145175/371472 [28:05<16:32:14,  3.80it/s] 39%|███▉      | 145176/371472 [28:06<17:38:16,  3.56it/s] 39%|███▉      | 145177/371472 [28:06<17:25:26,  3.61it/s] 39%|███▉      | 145178/371472 [28:06<17:26:19,  3.60it/s] 39%|███▉      | 145179/371472 [28:06<18:21:49,  3.42it/s] 39%|███▉      | 145180/371472 [28:07<18:55:42,  3.32it/s]                                                          {'loss': 3.2209, 'learning_rate': 6.48554159753496e-07, 'epoch': 6.25}
 39%|███▉      | 145180/371472 [28:07<18:55:42,  3.32it/s] 39%|███▉      | 145181/371472 [28:07<17:54:00,  3.51it/s] 39%|███▉      | 145182/371472 [28:07<17:32:32,  3.58it/s] 39%|███▉      | 145183/371472 [28:08<17:30:19,  3.59it/s] 39%|███▉      | 145184/371472 [28:08<17:34:32,  3.58it/s] 39%|███▉      | 145185/371472 [28:08<17:13:48,  3.65it/s] 39%|███▉      | 145186/371472 [28:08<17:10:58,  3.66it/s] 39%|███▉      | 145187/371472 [28:09<16:39:37,  3.77it/s] 39%|███▉      | 145188/371472 [28:09<16:35:55,  3.79it/s] 39%|███▉      | 145189/371472 [28:09<17:25:29,  3.61it/s] 39%|███▉      | 145190/371472 [28:10<17:24:37,  3.61it/s] 39%|███▉      | 145191/371472 [28:10<18:01:01,  3.49it/s] 39%|███▉      | 145192/371472 [28:10<17:52:50,  3.52it/s] 39%|███▉      | 145193/371472 [28:10<18:05:26,  3.47it/s] 39%|███▉      | 145194/371472 [28:11<17:43:01,  3.55it/s] 39%|███▉      | 145195/371472 [28:11<17:24:09,  3.61it/s] 39%|███▉      | 145196/371472 [28:11<19:07:52,  3.29it/s] 39%|███▉      | 145197/371472 [28:12<18:23:42,  3.42it/s] 39%|███▉      | 145198/371472 [28:12<17:37:52,  3.56it/s] 39%|███▉      | 145199/371472 [28:12<17:41:27,  3.55it/s] 39%|███▉      | 145200/371472 [28:12<17:56:32,  3.50it/s]                                                          {'loss': 3.2599, 'learning_rate': 6.485056777780171e-07, 'epoch': 6.25}
 39%|███▉      | 145200/371472 [28:12<17:56:32,  3.50it/s] 39%|███▉      | 145201/371472 [28:13<18:34:10,  3.38it/s] 39%|███▉      | 145202/371472 [28:13<19:10:27,  3.28it/s] 39%|███▉      | 145203/371472 [28:13<18:42:31,  3.36it/s] 39%|███▉      | 145204/371472 [28:14<17:49:41,  3.53it/s] 39%|███▉      | 145205/371472 [28:14<19:00:09,  3.31it/s] 39%|███▉      | 145206/371472 [28:14<18:52:28,  3.33it/s] 39%|███▉      | 145207/371472 [28:14<18:22:46,  3.42it/s] 39%|███▉      | 145208/371472 [28:15<18:56:04,  3.32it/s] 39%|███▉      | 145209/371472 [28:15<19:02:00,  3.30it/s] 39%|███▉      | 145210/371472 [28:15<18:27:46,  3.40it/s] 39%|███▉      | 145211/371472 [28:16<17:49:44,  3.53it/s] 39%|███▉      | 145212/371472 [28:16<17:33:43,  3.58it/s] 39%|███▉      | 145213/371472 [28:16<17:51:42,  3.52it/s] 39%|███▉      | 145214/371472 [28:17<18:02:19,  3.48it/s] 39%|███▉      | 145215/371472 [28:17<19:09:19,  3.28it/s] 39%|███▉      | 145216/371472 [28:17<18:28:44,  3.40it/s] 39%|███▉      | 145217/371472 [28:17<19:23:37,  3.24it/s] 39%|███▉      | 145218/371472 [28:18<19:10:59,  3.28it/s] 39%|███▉      | 145219/371472 [28:18<18:49:16,  3.34it/s] 39%|███▉      | 145220/371472 [28:18<18:30:57,  3.39it/s]                                                          {'loss': 3.1843, 'learning_rate': 6.484571958025383e-07, 'epoch': 6.25}
 39%|███▉      | 145220/371472 [28:18<18:30:57,  3.39it/s] 39%|███▉      | 145221/371472 [28:19<18:23:24,  3.42it/s] 39%|███▉      | 145222/371472 [28:19<18:09:10,  3.46it/s] 39%|███▉      | 145223/371472 [28:19<17:30:44,  3.59it/s] 39%|███▉      | 145224/371472 [28:19<16:58:20,  3.70it/s] 39%|███▉      | 145225/371472 [28:20<18:21:40,  3.42it/s] 39%|███▉      | 145226/371472 [28:20<18:06:25,  3.47it/s] 39%|███▉      | 145227/371472 [28:20<18:00:57,  3.49it/s] 39%|███▉      | 145228/371472 [28:21<18:50:26,  3.34it/s] 39%|███▉      | 145229/371472 [28:21<18:37:52,  3.37it/s] 39%|███▉      | 145230/371472 [28:21<18:30:44,  3.39it/s] 39%|███▉      | 145231/371472 [28:21<18:06:38,  3.47it/s] 39%|███▉      | 145232/371472 [28:22<18:09:26,  3.46it/s] 39%|███▉      | 145233/371472 [28:22<17:22:29,  3.62it/s] 39%|███▉      | 145234/371472 [28:22<17:27:19,  3.60it/s] 39%|███▉      | 145235/371472 [28:23<17:24:44,  3.61it/s] 39%|███▉      | 145236/371472 [28:23<18:09:52,  3.46it/s] 39%|███▉      | 145237/371472 [28:23<18:53:16,  3.33it/s] 39%|███▉      | 145238/371472 [28:24<18:41:33,  3.36it/s] 39%|███▉      | 145239/371472 [28:24<19:27:58,  3.23it/s] 39%|███▉      | 145240/371472 [28:24<18:52:33,  3.33it/s]                                                          {'loss': 3.2473, 'learning_rate': 6.484087138270594e-07, 'epoch': 6.26}
 39%|███▉      | 145240/371472 [28:24<18:52:33,  3.33it/s] 39%|███▉      | 145241/371472 [28:24<18:12:32,  3.45it/s] 39%|███▉      | 145242/371472 [28:25<17:32:58,  3.58it/s] 39%|███▉      | 145243/371472 [28:25<18:37:32,  3.37it/s] 39%|███▉      | 145244/371472 [28:25<18:17:17,  3.44it/s] 39%|███▉      | 145245/371472 [28:26<18:25:05,  3.41it/s] 39%|███▉      | 145246/371472 [28:26<17:35:50,  3.57it/s] 39%|███▉      | 145247/371472 [28:26<17:43:29,  3.55it/s] 39%|███▉      | 145248/371472 [28:26<17:38:28,  3.56it/s] 39%|███▉      | 145249/371472 [28:27<17:29:04,  3.59it/s] 39%|███▉      | 145250/371472 [28:27<17:21:07,  3.62it/s] 39%|███▉      | 145251/371472 [28:27<17:16:06,  3.64it/s] 39%|███▉      | 145252/371472 [28:28<17:55:33,  3.51it/s] 39%|███▉      | 145253/371472 [28:28<19:42:39,  3.19it/s] 39%|███▉      | 145254/371472 [28:28<18:51:34,  3.33it/s] 39%|███▉      | 145255/371472 [28:28<18:09:48,  3.46it/s] 39%|███▉      | 145256/371472 [28:29<17:58:38,  3.50it/s] 39%|███▉      | 145257/371472 [28:29<17:45:33,  3.54it/s] 39%|███▉      | 145258/371472 [28:29<17:27:01,  3.60it/s] 39%|███▉      | 145259/371472 [28:30<17:29:43,  3.59it/s] 39%|███▉      | 145260/371472 [28:30<18:42:33,  3.36it/s]                                                          {'loss': 3.012, 'learning_rate': 6.483602318515805e-07, 'epoch': 6.26}
 39%|███▉      | 145260/371472 [28:30<18:42:33,  3.36it/s] 39%|███▉      | 145261/371472 [28:30<18:39:37,  3.37it/s] 39%|███▉      | 145262/371472 [28:30<17:43:00,  3.55it/s] 39%|███▉      | 145263/371472 [28:31<17:22:44,  3.62it/s] 39%|███▉      | 145264/371472 [28:31<18:02:59,  3.48it/s] 39%|███▉      | 145265/371472 [28:31<20:48:15,  3.02it/s] 39%|███▉      | 145266/371472 [28:32<19:33:15,  3.21it/s] 39%|███▉      | 145267/371472 [28:32<18:09:26,  3.46it/s] 39%|███▉      | 145268/371472 [28:32<18:46:07,  3.35it/s] 39%|███▉      | 145269/371472 [28:32<17:56:29,  3.50it/s] 39%|███▉      | 145270/371472 [28:33<17:53:46,  3.51it/s] 39%|███▉      | 145271/371472 [28:33<18:27:13,  3.40it/s] 39%|███▉      | 145272/371472 [28:33<18:30:08,  3.40it/s] 39%|███▉      | 145273/371472 [28:34<18:31:27,  3.39it/s] 39%|███▉      | 145274/371472 [28:34<18:02:00,  3.48it/s] 39%|███▉      | 145275/371472 [28:34<17:52:42,  3.51it/s] 39%|███▉      | 145276/371472 [28:35<18:37:25,  3.37it/s] 39%|███▉      | 145277/371472 [28:35<18:02:45,  3.48it/s] 39%|███▉      | 145278/371472 [28:35<19:52:08,  3.16it/s] 39%|███▉      | 145279/371472 [28:35<18:40:33,  3.36it/s] 39%|███▉      | 145280/371472 [28:36<17:50:41,  3.52it/s]                                                          {'loss': 3.315, 'learning_rate': 6.483117498761016e-07, 'epoch': 6.26}
 39%|███▉      | 145280/371472 [28:36<17:50:41,  3.52it/s] 39%|███▉      | 145281/371472 [28:36<17:33:34,  3.58it/s] 39%|███▉      | 145282/371472 [28:36<17:08:27,  3.67it/s] 39%|███▉      | 145283/371472 [28:37<17:00:41,  3.69it/s] 39%|███▉      | 145284/371472 [28:37<17:50:06,  3.52it/s] 39%|███▉      | 145285/371472 [28:37<17:29:55,  3.59it/s] 39%|███▉      | 145286/371472 [28:37<16:55:31,  3.71it/s] 39%|███▉      | 145287/371472 [28:38<16:39:37,  3.77it/s] 39%|███▉      | 145288/371472 [28:38<16:14:10,  3.87it/s] 39%|███▉      | 145289/371472 [28:38<16:47:02,  3.74it/s] 39%|███▉      | 145290/371472 [28:38<16:47:03,  3.74it/s] 39%|███▉      | 145291/371472 [28:39<16:35:01,  3.79it/s] 39%|███▉      | 145292/371472 [28:39<17:44:29,  3.54it/s] 39%|███▉      | 145293/371472 [28:39<17:17:17,  3.63it/s] 39%|███▉      | 145294/371472 [28:40<19:31:51,  3.22it/s] 39%|███▉      | 145295/371472 [28:40<19:27:47,  3.23it/s] 39%|███▉      | 145296/371472 [28:40<18:43:27,  3.36it/s] 39%|███▉      | 145297/371472 [28:41<19:23:07,  3.24it/s] 39%|███▉      | 145298/371472 [28:41<19:33:32,  3.21it/s] 39%|███▉      | 145299/371472 [28:41<19:04:11,  3.29it/s] 39%|███▉      | 145300/371472 [28:41<18:20:22,  3.43it/s]                                                          {'loss': 3.1945, 'learning_rate': 6.482632679006228e-07, 'epoch': 6.26}
 39%|███▉      | 145300/371472 [28:41<18:20:22,  3.43it/s] 39%|███▉      | 145301/371472 [28:42<17:42:56,  3.55it/s] 39%|███▉      | 145302/371472 [28:42<17:27:21,  3.60it/s] 39%|███▉      | 145303/371472 [28:42<17:29:49,  3.59it/s] 39%|███▉      | 145304/371472 [28:42<17:43:58,  3.54it/s] 39%|███▉      | 145305/371472 [28:43<17:17:08,  3.63it/s] 39%|███▉      | 145306/371472 [28:43<17:25:02,  3.61it/s] 39%|███▉      | 145307/371472 [28:43<16:54:00,  3.72it/s] 39%|███▉      | 145308/371472 [28:44<17:01:42,  3.69it/s] 39%|███▉      | 145309/371472 [28:44<17:02:08,  3.69it/s] 39%|███▉      | 145310/371472 [28:44<16:45:58,  3.75it/s] 39%|███▉      | 145311/371472 [28:45<21:41:53,  2.90it/s] 39%|███▉      | 145312/371472 [28:45<20:01:09,  3.14it/s] 39%|███▉      | 145313/371472 [28:45<19:38:50,  3.20it/s] 39%|███▉      | 145314/371472 [28:45<19:23:27,  3.24it/s] 39%|███▉      | 145315/371472 [28:46<18:24:42,  3.41it/s] 39%|███▉      | 145316/371472 [28:46<18:02:01,  3.48it/s] 39%|███▉      | 145317/371472 [28:46<17:32:12,  3.58it/s] 39%|███▉      | 145318/371472 [28:47<17:54:55,  3.51it/s] 39%|███▉      | 145319/371472 [28:47<18:00:16,  3.49it/s] 39%|███▉      | 145320/371472 [28:47<17:46:27,  3.53it/s]                                                          {'loss': 3.3091, 'learning_rate': 6.482147859251437e-07, 'epoch': 6.26}
 39%|███▉      | 145320/371472 [28:47<17:46:27,  3.53it/s] 39%|███▉      | 145321/371472 [28:47<17:38:07,  3.56it/s] 39%|███▉      | 145322/371472 [28:48<18:12:55,  3.45it/s] 39%|███▉      | 145323/371472 [28:48<18:22:54,  3.42it/s] 39%|███▉      | 145324/371472 [28:48<17:40:27,  3.55it/s] 39%|███▉      | 145325/371472 [28:49<18:14:38,  3.44it/s] 39%|███▉      | 145326/371472 [28:49<17:54:00,  3.51it/s] 39%|███▉      | 145327/371472 [28:49<17:56:37,  3.50it/s] 39%|███▉      | 145328/371472 [28:49<18:36:53,  3.37it/s] 39%|███▉      | 145329/371472 [28:50<18:13:13,  3.45it/s] 39%|███▉      | 145330/371472 [28:50<17:35:05,  3.57it/s] 39%|███▉      | 145331/371472 [28:50<17:32:06,  3.58it/s] 39%|███▉      | 145332/371472 [28:51<16:44:49,  3.75it/s] 39%|███▉      | 145333/371472 [28:51<16:54:34,  3.71it/s] 39%|███▉      | 145334/371472 [28:51<16:19:05,  3.85it/s] 39%|███▉      | 145335/371472 [28:51<16:56:09,  3.71it/s] 39%|███▉      | 145336/371472 [28:52<17:16:45,  3.64it/s] 39%|███▉      | 145337/371472 [28:52<17:13:12,  3.65it/s] 39%|███▉      | 145338/371472 [28:52<17:34:01,  3.58it/s] 39%|███▉      | 145339/371472 [28:53<20:55:41,  3.00it/s] 39%|███▉      | 145340/371472 [28:53<19:28:50,  3.22it/s]                                                          {'loss': 3.2572, 'learning_rate': 6.481663039496649e-07, 'epoch': 6.26}
 39%|███▉      | 145340/371472 [28:53<19:28:50,  3.22it/s] 39%|███▉      | 145341/371472 [28:53<19:00:13,  3.31it/s] 39%|███▉      | 145342/371472 [28:53<19:22:17,  3.24it/s] 39%|███▉      | 145343/371472 [28:54<18:23:50,  3.41it/s] 39%|███▉      | 145344/371472 [28:54<18:08:40,  3.46it/s] 39%|███▉      | 145345/371472 [28:54<17:33:02,  3.58it/s] 39%|███▉      | 145346/371472 [28:55<17:20:43,  3.62it/s] 39%|███▉      | 145347/371472 [28:55<18:28:07,  3.40it/s] 39%|███▉      | 145348/371472 [28:55<18:22:28,  3.42it/s] 39%|███▉      | 145349/371472 [28:55<18:24:19,  3.41it/s] 39%|███▉      | 145350/371472 [28:56<18:00:22,  3.49it/s] 39%|███▉      | 145351/371472 [28:56<17:46:37,  3.53it/s] 39%|███▉      | 145352/371472 [28:56<18:13:21,  3.45it/s] 39%|███▉      | 145353/371472 [28:57<17:41:33,  3.55it/s] 39%|███▉      | 145354/371472 [28:57<18:06:06,  3.47it/s] 39%|███▉      | 145355/371472 [28:57<19:05:38,  3.29it/s] 39%|███▉      | 145356/371472 [28:57<18:14:43,  3.44it/s] 39%|███▉      | 145357/371472 [28:58<18:26:55,  3.40it/s] 39%|███▉      | 145358/371472 [28:58<18:17:21,  3.43it/s] 39%|███▉      | 145359/371472 [28:58<17:35:05,  3.57it/s] 39%|███▉      | 145360/371472 [28:59<17:52:15,  3.51it/s]                                                          {'loss': 3.2776, 'learning_rate': 6.48117821974186e-07, 'epoch': 6.26}
 39%|███▉      | 145360/371472 [28:59<17:52:15,  3.51it/s] 39%|███▉      | 145361/371472 [28:59<17:37:58,  3.56it/s] 39%|███▉      | 145362/371472 [28:59<17:42:36,  3.55it/s] 39%|███▉      | 145363/371472 [28:59<18:09:00,  3.46it/s] 39%|███▉      | 145364/371472 [29:00<17:33:37,  3.58it/s] 39%|███▉      | 145365/371472 [29:00<17:36:55,  3.57it/s] 39%|███▉      | 145366/371472 [29:00<17:40:49,  3.55it/s] 39%|███▉      | 145367/371472 [29:01<16:49:42,  3.73it/s] 39%|███▉      | 145368/371472 [29:01<17:31:57,  3.58it/s] 39%|███▉      | 145369/371472 [29:02<25:32:31,  2.46it/s] 39%|███▉      | 145370/371472 [29:02<25:34:41,  2.46it/s] 39%|███▉      | 145371/371472 [29:02<22:57:14,  2.74it/s] 39%|███▉      | 145372/371472 [29:03<21:32:18,  2.92it/s] 39%|███▉      | 145373/371472 [29:03<20:49:29,  3.02it/s] 39%|███▉      | 145374/371472 [29:03<20:39:39,  3.04it/s] 39%|███▉      | 145375/371472 [29:03<18:54:01,  3.32it/s] 39%|███▉      | 145376/371472 [29:04<18:42:49,  3.36it/s] 39%|███▉      | 145377/371472 [29:04<18:03:23,  3.48it/s] 39%|███▉      | 145378/371472 [29:04<17:39:33,  3.56it/s] 39%|███▉      | 145379/371472 [29:04<17:04:40,  3.68it/s] 39%|███▉      | 145380/371472 [29:05<18:28:41,  3.40it/s]                                                          {'loss': 3.2959, 'learning_rate': 6.480693399987072e-07, 'epoch': 6.26}
 39%|███▉      | 145380/371472 [29:05<18:28:41,  3.40it/s] 39%|███▉      | 145381/371472 [29:05<18:05:59,  3.47it/s] 39%|███▉      | 145382/371472 [29:05<17:42:14,  3.55it/s] 39%|███▉      | 145383/371472 [29:06<17:53:43,  3.51it/s] 39%|███▉      | 145384/371472 [29:06<17:21:22,  3.62it/s] 39%|███▉      | 145385/371472 [29:06<16:43:40,  3.75it/s] 39%|███▉      | 145386/371472 [29:06<16:44:14,  3.75it/s] 39%|███▉      | 145387/371472 [29:07<17:00:14,  3.69it/s] 39%|███▉      | 145388/371472 [29:07<17:08:40,  3.66it/s] 39%|███▉      | 145389/371472 [29:07<17:43:46,  3.54it/s] 39%|███▉      | 145390/371472 [29:08<17:13:01,  3.65it/s] 39%|███▉      | 145391/371472 [29:08<17:34:50,  3.57it/s] 39%|███▉      | 145392/371472 [29:08<17:29:01,  3.59it/s] 39%|███▉      | 145393/371472 [29:08<17:05:03,  3.68it/s] 39%|███▉      | 145394/371472 [29:09<17:51:10,  3.52it/s] 39%|███▉      | 145395/371472 [29:09<17:49:26,  3.52it/s] 39%|███▉      | 145396/371472 [29:09<18:19:32,  3.43it/s] 39%|███▉      | 145397/371472 [29:10<19:03:50,  3.29it/s] 39%|███▉      | 145398/371472 [29:10<18:09:14,  3.46it/s] 39%|███▉      | 145399/371472 [29:10<17:44:17,  3.54it/s] 39%|███▉      | 145400/371472 [29:10<17:52:45,  3.51it/s]                                                          {'loss': 3.4165, 'learning_rate': 6.480208580232282e-07, 'epoch': 6.26}
 39%|███▉      | 145400/371472 [29:10<17:52:45,  3.51it/s] 39%|███▉      | 145401/371472 [29:11<19:02:54,  3.30it/s] 39%|███▉      | 145402/371472 [29:11<18:51:56,  3.33it/s] 39%|███▉      | 145403/371472 [29:11<18:01:39,  3.48it/s] 39%|███▉      | 145404/371472 [29:12<18:46:01,  3.35it/s] 39%|███▉      | 145405/371472 [29:12<18:17:30,  3.43it/s] 39%|███▉      | 145406/371472 [29:12<17:37:22,  3.56it/s] 39%|███▉      | 145407/371472 [29:12<17:37:45,  3.56it/s] 39%|███▉      | 145408/371472 [29:13<17:28:16,  3.59it/s] 39%|███▉      | 145409/371472 [29:13<16:48:56,  3.73it/s] 39%|███▉      | 145410/371472 [29:13<16:51:12,  3.73it/s] 39%|███▉      | 145411/371472 [29:13<16:47:45,  3.74it/s] 39%|███▉      | 145412/371472 [29:14<16:59:06,  3.70it/s] 39%|███▉      | 145413/371472 [29:14<16:43:30,  3.75it/s] 39%|███▉      | 145414/371472 [29:14<17:44:07,  3.54it/s] 39%|███▉      | 145415/371472 [29:15<17:40:40,  3.55it/s] 39%|███▉      | 145416/371472 [29:15<17:48:53,  3.52it/s] 39%|███▉      | 145417/371472 [29:15<17:51:20,  3.52it/s] 39%|███▉      | 145418/371472 [29:16<18:31:44,  3.39it/s] 39%|███▉      | 145419/371472 [29:16<17:39:49,  3.55it/s] 39%|███▉      | 145420/371472 [29:16<16:57:40,  3.70it/s]                                                          {'loss': 3.3162, 'learning_rate': 6.479723760477493e-07, 'epoch': 6.26}
 39%|███▉      | 145420/371472 [29:16<16:57:40,  3.70it/s] 39%|███▉      | 145421/371472 [29:16<17:37:30,  3.56it/s] 39%|███▉      | 145422/371472 [29:17<17:50:27,  3.52it/s] 39%|███▉      | 145423/371472 [29:17<17:40:42,  3.55it/s] 39%|███▉      | 145424/371472 [29:17<18:02:56,  3.48it/s] 39%|███▉      | 145425/371472 [29:17<17:40:21,  3.55it/s] 39%|███▉      | 145426/371472 [29:18<17:18:00,  3.63it/s] 39%|███▉      | 145427/371472 [29:18<17:06:49,  3.67it/s] 39%|███▉      | 145428/371472 [29:18<18:36:09,  3.38it/s] 39%|███▉      | 145429/371472 [29:19<17:41:13,  3.55it/s] 39%|███▉      | 145430/371472 [29:19<17:24:03,  3.61it/s] 39%|███▉      | 145431/371472 [29:19<18:02:20,  3.48it/s] 39%|███▉      | 145432/371472 [29:19<18:11:12,  3.45it/s] 39%|███▉      | 145433/371472 [29:20<17:54:59,  3.50it/s] 39%|███▉      | 145434/371472 [29:20<17:28:19,  3.59it/s] 39%|███▉      | 145435/371472 [29:20<18:07:49,  3.46it/s] 39%|███▉      | 145436/371472 [29:21<18:05:28,  3.47it/s] 39%|███▉      | 145437/371472 [29:21<17:43:20,  3.54it/s] 39%|███▉      | 145438/371472 [29:21<16:55:44,  3.71it/s] 39%|███▉      | 145439/371472 [29:21<16:44:46,  3.75it/s] 39%|███▉      | 145440/371472 [29:22<16:13:00,  3.87it/s]                                                          {'loss': 3.3702, 'learning_rate': 6.479238940722704e-07, 'epoch': 6.26}
 39%|███▉      | 145440/371472 [29:22<16:13:00,  3.87it/s] 39%|███▉      | 145441/371472 [29:22<16:42:11,  3.76it/s] 39%|███▉      | 145442/371472 [29:22<17:12:31,  3.65it/s] 39%|███▉      | 145443/371472 [29:22<17:26:09,  3.60it/s] 39%|███▉      | 145444/371472 [29:23<17:32:56,  3.58it/s] 39%|███▉      | 145445/371472 [29:23<17:53:04,  3.51it/s] 39%|███▉      | 145446/371472 [29:23<17:44:30,  3.54it/s] 39%|███▉      | 145447/371472 [29:24<18:16:44,  3.43it/s] 39%|███▉      | 145448/371472 [29:24<17:32:02,  3.58it/s] 39%|███▉      | 145449/371472 [29:24<17:10:47,  3.65it/s] 39%|███▉      | 145450/371472 [29:24<18:38:18,  3.37it/s] 39%|███▉      | 145451/371472 [29:25<18:51:43,  3.33it/s] 39%|███▉      | 145452/371472 [29:25<18:18:50,  3.43it/s] 39%|███▉      | 145453/371472 [29:25<18:28:38,  3.40it/s] 39%|███▉      | 145454/371472 [29:26<18:44:17,  3.35it/s] 39%|███▉      | 145455/371472 [29:26<18:29:36,  3.39it/s] 39%|███▉      | 145456/371472 [29:26<20:13:46,  3.10it/s] 39%|███▉      | 145457/371472 [29:27<19:09:55,  3.28it/s] 39%|███▉      | 145458/371472 [29:27<19:28:06,  3.22it/s] 39%|███▉      | 145459/371472 [29:27<18:51:42,  3.33it/s] 39%|███▉      | 145460/371472 [29:27<17:46:13,  3.53it/s]                                                          {'loss': 3.3114, 'learning_rate': 6.478754120967915e-07, 'epoch': 6.27}
 39%|███▉      | 145460/371472 [29:27<17:46:13,  3.53it/s] 39%|███▉      | 145461/371472 [29:28<17:28:21,  3.59it/s] 39%|███▉      | 145462/371472 [29:28<17:44:31,  3.54it/s] 39%|███▉      | 145463/371472 [29:28<17:31:20,  3.58it/s] 39%|███▉      | 145464/371472 [29:29<18:33:56,  3.38it/s] 39%|███▉      | 145465/371472 [29:29<18:33:29,  3.38it/s] 39%|███▉      | 145466/371472 [29:29<17:44:36,  3.54it/s] 39%|███▉      | 145467/371472 [29:29<17:14:14,  3.64it/s] 39%|███▉      | 145468/371472 [29:30<17:17:31,  3.63it/s] 39%|███▉      | 145469/371472 [29:30<17:17:47,  3.63it/s] 39%|███▉      | 145470/371472 [29:30<16:55:21,  3.71it/s] 39%|███▉      | 145471/371472 [29:30<16:19:00,  3.85it/s] 39%|███▉      | 145472/371472 [29:31<16:20:41,  3.84it/s] 39%|███▉      | 145473/371472 [29:31<16:15:43,  3.86it/s] 39%|███▉      | 145474/371472 [29:31<16:18:25,  3.85it/s] 39%|███▉      | 145475/371472 [29:32<16:14:52,  3.86it/s] 39%|███▉      | 145476/371472 [29:32<17:26:18,  3.60it/s] 39%|███▉      | 145477/371472 [29:32<17:50:20,  3.52it/s] 39%|███▉      | 145478/371472 [29:32<18:53:39,  3.32it/s] 39%|███▉      | 145479/371472 [29:33<18:50:20,  3.33it/s] 39%|███▉      | 145480/371472 [29:33<17:51:10,  3.52it/s]                                                          {'loss': 3.373, 'learning_rate': 6.478269301213126e-07, 'epoch': 6.27}
 39%|███▉      | 145480/371472 [29:33<17:51:10,  3.52it/s] 39%|███▉      | 145481/371472 [29:33<17:34:50,  3.57it/s] 39%|███▉      | 145482/371472 [29:34<18:15:40,  3.44it/s] 39%|███▉      | 145483/371472 [29:34<18:17:07,  3.43it/s] 39%|███▉      | 145484/371472 [29:34<17:58:39,  3.49it/s] 39%|███▉      | 145485/371472 [29:34<18:33:12,  3.38it/s] 39%|███▉      | 145486/371472 [29:35<18:09:25,  3.46it/s] 39%|███▉      | 145487/371472 [29:35<18:25:24,  3.41it/s] 39%|███▉      | 145488/371472 [29:35<17:27:02,  3.60it/s] 39%|███▉      | 145489/371472 [29:36<17:13:40,  3.64it/s] 39%|███▉      | 145490/371472 [29:36<16:43:15,  3.75it/s] 39%|███▉      | 145491/371472 [29:36<17:01:34,  3.69it/s] 39%|███▉      | 145492/371472 [29:36<16:54:09,  3.71it/s] 39%|███▉      | 145493/371472 [29:37<16:47:39,  3.74it/s] 39%|███▉      | 145494/371472 [29:37<17:08:30,  3.66it/s] 39%|███▉      | 145495/371472 [29:37<17:17:13,  3.63it/s] 39%|███▉      | 145496/371472 [29:37<16:40:22,  3.76it/s] 39%|███▉      | 145497/371472 [29:38<18:18:34,  3.43it/s] 39%|███▉      | 145498/371472 [29:38<18:19:49,  3.42it/s] 39%|███▉      | 145499/371472 [29:38<18:01:00,  3.48it/s] 39%|███▉      | 145500/371472 [29:39<18:21:42,  3.42it/s]                                                          {'loss': 3.4072, 'learning_rate': 6.477784481458337e-07, 'epoch': 6.27}
 39%|███▉      | 145500/371472 [29:39<18:21:42,  3.42it/s] 39%|███▉      | 145501/371472 [29:39<17:42:58,  3.54it/s] 39%|███▉      | 145502/371472 [29:39<18:22:20,  3.42it/s] 39%|███▉      | 145503/371472 [29:40<18:27:27,  3.40it/s] 39%|███▉      | 145504/371472 [29:40<18:14:48,  3.44it/s] 39%|███▉      | 145505/371472 [29:40<17:45:01,  3.54it/s] 39%|███▉      | 145506/371472 [29:40<18:14:25,  3.44it/s] 39%|███▉      | 145507/371472 [29:41<18:00:50,  3.48it/s] 39%|███▉      | 145508/371472 [29:41<17:29:55,  3.59it/s] 39%|███▉      | 145509/371472 [29:41<17:34:51,  3.57it/s] 39%|███▉      | 145510/371472 [29:41<17:39:19,  3.56it/s] 39%|███▉      | 145511/371472 [29:42<17:54:02,  3.51it/s] 39%|███▉      | 145512/371472 [29:42<17:22:48,  3.61it/s] 39%|███▉      | 145513/371472 [29:42<17:35:45,  3.57it/s] 39%|███▉      | 145514/371472 [29:43<18:08:15,  3.46it/s] 39%|███▉      | 145515/371472 [29:43<17:48:53,  3.52it/s] 39%|███▉      | 145516/371472 [29:43<17:23:14,  3.61it/s] 39%|███▉      | 145517/371472 [29:43<17:26:07,  3.60it/s] 39%|███▉      | 145518/371472 [29:44<17:09:49,  3.66it/s] 39%|███▉      | 145519/371472 [29:44<16:57:45,  3.70it/s] 39%|███▉      | 145520/371472 [29:44<17:01:51,  3.69it/s]                                                          {'loss': 3.2603, 'learning_rate': 6.477299661703549e-07, 'epoch': 6.27}
 39%|███▉      | 145520/371472 [29:44<17:01:51,  3.69it/s] 39%|███▉      | 145521/371472 [29:45<19:01:55,  3.30it/s] 39%|███▉      | 145522/371472 [29:45<18:06:50,  3.46it/s] 39%|███▉      | 145523/371472 [29:45<17:09:26,  3.66it/s] 39%|███▉      | 145524/371472 [29:45<16:56:49,  3.70it/s] 39%|███▉      | 145525/371472 [29:46<19:54:43,  3.15it/s] 39%|███▉      | 145526/371472 [29:46<19:21:45,  3.24it/s] 39%|███▉      | 145527/371472 [29:46<19:15:04,  3.26it/s] 39%|███▉      | 145528/371472 [29:47<18:45:26,  3.35it/s] 39%|███▉      | 145529/371472 [29:47<19:12:51,  3.27it/s] 39%|███▉      | 145530/371472 [29:47<18:40:45,  3.36it/s] 39%|███▉      | 145531/371472 [29:48<17:49:45,  3.52it/s] 39%|███▉      | 145532/371472 [29:48<18:04:35,  3.47it/s] 39%|███▉      | 145533/371472 [29:48<18:09:00,  3.46it/s] 39%|███▉      | 145534/371472 [29:48<18:03:24,  3.48it/s] 39%|███▉      | 145535/371472 [29:49<18:16:34,  3.43it/s] 39%|███▉      | 145536/371472 [29:49<18:46:29,  3.34it/s] 39%|███▉      | 145537/371472 [29:49<18:39:43,  3.36it/s] 39%|███▉      | 145538/371472 [29:50<17:50:39,  3.52it/s] 39%|███▉      | 145539/371472 [29:50<17:55:36,  3.50it/s] 39%|███▉      | 145540/371472 [29:50<17:50:14,  3.52it/s]                                                          {'loss': 3.167, 'learning_rate': 6.47681484194876e-07, 'epoch': 6.27}
 39%|███▉      | 145540/371472 [29:50<17:50:14,  3.52it/s] 39%|███▉      | 145541/371472 [29:50<17:16:11,  3.63it/s] 39%|███▉      | 145542/371472 [29:51<18:34:56,  3.38it/s] 39%|███▉      | 145543/371472 [29:51<18:13:10,  3.44it/s] 39%|███▉      | 145544/371472 [29:51<18:45:47,  3.34it/s] 39%|███▉      | 145545/371472 [29:52<17:59:54,  3.49it/s] 39%|███▉      | 145546/371472 [29:52<17:26:28,  3.60it/s] 39%|███▉      | 145547/371472 [29:52<18:11:13,  3.45it/s] 39%|███▉      | 145548/371472 [29:52<17:55:40,  3.50it/s] 39%|███▉      | 145549/371472 [29:53<18:05:36,  3.47it/s] 39%|███▉      | 145550/371472 [29:53<17:19:58,  3.62it/s] 39%|███▉      | 145551/371472 [29:53<17:21:34,  3.62it/s] 39%|███▉      | 145552/371472 [29:54<18:46:07,  3.34it/s] 39%|███▉      | 145553/371472 [29:54<18:12:14,  3.45it/s] 39%|███▉      | 145554/371472 [29:54<17:50:54,  3.52it/s] 39%|███▉      | 145555/371472 [29:54<17:56:23,  3.50it/s] 39%|███▉      | 145556/371472 [29:55<17:16:36,  3.63it/s] 39%|███▉      | 145557/371472 [29:55<17:07:38,  3.66it/s] 39%|███▉      | 145558/371472 [29:55<17:06:06,  3.67it/s] 39%|███▉      | 145559/371472 [29:56<17:05:59,  3.67it/s] 39%|███▉      | 145560/371472 [29:56<16:35:38,  3.78it/s]                                                          {'loss': 3.2263, 'learning_rate': 6.47633002219397e-07, 'epoch': 6.27}
 39%|███▉      | 145560/371472 [29:56<16:35:38,  3.78it/s] 39%|███▉      | 145561/371472 [29:56<16:37:11,  3.78it/s] 39%|███▉      | 145562/371472 [29:56<16:47:07,  3.74it/s] 39%|███▉      | 145563/371472 [29:57<17:18:59,  3.62it/s] 39%|███▉      | 145564/371472 [29:57<17:40:10,  3.55it/s] 39%|███▉      | 145565/371472 [29:57<17:24:30,  3.60it/s] 39%|███▉      | 145566/371472 [29:57<16:58:52,  3.70it/s] 39%|███▉      | 145567/371472 [29:58<18:10:59,  3.45it/s] 39%|███▉      | 145568/371472 [29:58<17:50:00,  3.52it/s] 39%|███▉      | 145569/371472 [29:58<17:54:20,  3.50it/s] 39%|███▉      | 145570/371472 [29:59<18:18:01,  3.43it/s] 39%|███▉      | 145571/371472 [29:59<17:35:04,  3.57it/s] 39%|███▉      | 145572/371472 [29:59<16:54:12,  3.71it/s] 39%|███▉      | 145573/371472 [29:59<16:53:32,  3.71it/s] 39%|███▉      | 145574/371472 [30:00<17:39:04,  3.55it/s] 39%|███▉      | 145575/371472 [30:00<17:18:50,  3.62it/s] 39%|███▉      | 145576/371472 [30:00<19:22:19,  3.24it/s] 39%|███▉      | 145577/371472 [30:01<19:20:16,  3.24it/s] 39%|███▉      | 145578/371472 [30:01<19:00:00,  3.30it/s] 39%|███▉      | 145579/371472 [30:01<18:47:06,  3.34it/s] 39%|███▉      | 145580/371472 [30:02<18:32:55,  3.38it/s]                                                          {'loss': 3.1485, 'learning_rate': 6.475845202439181e-07, 'epoch': 6.27}
 39%|███▉      | 145580/371472 [30:02<18:32:55,  3.38it/s] 39%|███▉      | 145581/371472 [30:02<18:53:51,  3.32it/s] 39%|███▉      | 145582/371472 [30:02<19:11:47,  3.27it/s] 39%|███▉      | 145583/371472 [30:02<19:55:09,  3.15it/s] 39%|███▉      | 145584/371472 [30:03<19:27:36,  3.22it/s] 39%|███▉      | 145585/371472 [30:03<19:44:20,  3.18it/s] 39%|███▉      | 145586/371472 [30:03<18:32:52,  3.38it/s] 39%|███▉      | 145587/371472 [30:04<18:23:47,  3.41it/s] 39%|███▉      | 145588/371472 [30:04<17:29:03,  3.59it/s] 39%|███▉      | 145589/371472 [30:04<17:45:53,  3.53it/s] 39%|███▉      | 145590/371472 [30:04<17:32:42,  3.58it/s] 39%|███▉      | 145591/371472 [30:05<18:09:13,  3.46it/s] 39%|███▉      | 145592/371472 [30:05<18:16:35,  3.43it/s] 39%|███▉      | 145593/371472 [30:05<18:11:39,  3.45it/s] 39%|███▉      | 145594/371472 [30:06<19:24:43,  3.23it/s] 39%|███▉      | 145595/371472 [30:06<19:35:51,  3.20it/s] 39%|███▉      | 145596/371472 [30:06<19:10:13,  3.27it/s] 39%|███▉      | 145597/371472 [30:07<18:26:43,  3.40it/s] 39%|███▉      | 145598/371472 [30:07<18:14:19,  3.44it/s] 39%|███▉      | 145599/371472 [30:07<17:39:10,  3.55it/s] 39%|███▉      | 145600/371472 [30:07<18:42:45,  3.35it/s]                                                          {'loss': 3.1772, 'learning_rate': 6.475360382684393e-07, 'epoch': 6.27}
 39%|███▉      | 145600/371472 [30:07<18:42:45,  3.35it/s] 39%|███▉      | 145601/371472 [30:08<18:31:20,  3.39it/s] 39%|███▉      | 145602/371472 [30:08<17:47:12,  3.53it/s] 39%|███▉      | 145603/371472 [30:08<17:32:30,  3.58it/s] 39%|███▉      | 145604/371472 [30:09<18:02:49,  3.48it/s] 39%|███▉      | 145605/371472 [30:09<18:01:36,  3.48it/s] 39%|███▉      | 145606/371472 [30:09<18:27:42,  3.40it/s] 39%|███▉      | 145607/371472 [30:09<18:53:41,  3.32it/s] 39%|███▉      | 145608/371472 [30:10<18:15:39,  3.44it/s] 39%|███▉      | 145609/371472 [30:10<18:46:37,  3.34it/s] 39%|███▉      | 145610/371472 [30:10<17:57:54,  3.49it/s] 39%|███▉      | 145611/371472 [30:11<17:42:49,  3.54it/s] 39%|███▉      | 145612/371472 [30:11<19:14:16,  3.26it/s] 39%|███▉      | 145613/371472 [30:11<19:31:38,  3.21it/s] 39%|███▉      | 145614/371472 [30:12<18:49:08,  3.33it/s] 39%|███▉      | 145615/371472 [30:12<18:27:15,  3.40it/s] 39%|███▉      | 145616/371472 [30:12<20:20:03,  3.09it/s] 39%|███▉      | 145617/371472 [30:13<20:09:48,  3.11it/s] 39%|███▉      | 145618/371472 [30:13<19:21:38,  3.24it/s] 39%|███▉      | 145619/371472 [30:13<18:30:47,  3.39it/s] 39%|███▉      | 145620/371472 [30:13<18:26:32,  3.40it/s]                                                          {'loss': 3.1388, 'learning_rate': 6.474875562929604e-07, 'epoch': 6.27}
 39%|███▉      | 145620/371472 [30:13<18:26:32,  3.40it/s] 39%|███▉      | 145621/371472 [30:14<19:06:04,  3.28it/s] 39%|███▉      | 145622/371472 [30:14<18:11:09,  3.45it/s] 39%|███▉      | 145623/371472 [30:14<17:24:20,  3.60it/s] 39%|███▉      | 145624/371472 [30:15<18:05:04,  3.47it/s] 39%|███▉      | 145625/371472 [30:15<17:49:18,  3.52it/s] 39%|███▉      | 145626/371472 [30:15<17:52:31,  3.51it/s] 39%|███▉      | 145627/371472 [30:15<18:39:06,  3.36it/s] 39%|███▉      | 145628/371472 [30:16<19:07:49,  3.28it/s] 39%|███▉      | 145629/371472 [30:16<18:46:35,  3.34it/s] 39%|███▉      | 145630/371472 [30:16<18:42:42,  3.35it/s] 39%|███▉      | 145631/371472 [30:17<18:24:58,  3.41it/s] 39%|███▉      | 145632/371472 [30:17<18:07:26,  3.46it/s] 39%|███▉      | 145633/371472 [30:17<18:34:03,  3.38it/s] 39%|███▉      | 145634/371472 [30:18<18:53:36,  3.32it/s] 39%|███▉      | 145635/371472 [30:18<18:40:38,  3.36it/s] 39%|███▉      | 145636/371472 [30:18<18:19:49,  3.42it/s] 39%|███▉      | 145637/371472 [30:18<18:19:22,  3.42it/s] 39%|███▉      | 145638/371472 [30:19<18:15:13,  3.44it/s] 39%|███▉      | 145639/371472 [30:19<19:36:43,  3.20it/s] 39%|███▉      | 145640/371472 [30:19<18:44:48,  3.35it/s]                                                          {'loss': 3.3228, 'learning_rate': 6.474390743174815e-07, 'epoch': 6.27}
 39%|███▉      | 145640/371472 [30:19<18:44:48,  3.35it/s] 39%|███▉      | 145641/371472 [30:20<18:48:37,  3.33it/s] 39%|███▉      | 145642/371472 [30:20<17:47:27,  3.53it/s] 39%|███▉      | 145643/371472 [30:20<17:53:42,  3.51it/s] 39%|███▉      | 145644/371472 [30:20<17:07:54,  3.66it/s] 39%|███▉      | 145645/371472 [30:21<16:59:40,  3.69it/s] 39%|███▉      | 145646/371472 [30:21<18:51:56,  3.33it/s] 39%|███▉      | 145647/371472 [30:21<18:40:13,  3.36it/s] 39%|███▉      | 145648/371472 [30:22<18:15:18,  3.44it/s] 39%|███▉      | 145649/371472 [30:22<18:04:02,  3.47it/s] 39%|███▉      | 145650/371472 [30:22<17:47:00,  3.53it/s] 39%|███▉      | 145651/371472 [30:22<18:24:55,  3.41it/s] 39%|███▉      | 145652/371472 [30:23<18:29:57,  3.39it/s] 39%|███▉      | 145653/371472 [30:23<18:24:55,  3.41it/s] 39%|███▉      | 145654/371472 [30:23<18:09:00,  3.46it/s] 39%|███▉      | 145655/371472 [30:24<17:25:13,  3.60it/s] 39%|███▉      | 145656/371472 [30:24<17:37:12,  3.56it/s] 39%|███▉      | 145657/371472 [30:24<17:05:27,  3.67it/s] 39%|███▉      | 145658/371472 [30:24<17:21:02,  3.62it/s] 39%|███▉      | 145659/371472 [30:25<17:57:21,  3.49it/s] 39%|███▉      | 145660/371472 [30:25<17:52:42,  3.51it/s]                                                          {'loss': 3.184, 'learning_rate': 6.473905923420026e-07, 'epoch': 6.27}
 39%|███▉      | 145660/371472 [30:25<17:52:42,  3.51it/s] 39%|███▉      | 145661/371472 [30:25<17:42:09,  3.54it/s] 39%|███▉      | 145662/371472 [30:26<18:18:41,  3.43it/s] 39%|███▉      | 145663/371472 [30:26<19:38:55,  3.19it/s] 39%|███▉      | 145664/371472 [30:26<20:13:47,  3.10it/s] 39%|███▉      | 145665/371472 [30:27<20:49:29,  3.01it/s] 39%|███▉      | 145666/371472 [30:27<24:15:02,  2.59it/s] 39%|███▉      | 145667/371472 [30:27<21:51:16,  2.87it/s] 39%|███▉      | 145668/371472 [30:28<21:12:00,  2.96it/s] 39%|███▉      | 145669/371472 [30:28<19:55:06,  3.15it/s] 39%|███▉      | 145670/371472 [30:28<18:49:47,  3.33it/s] 39%|███▉      | 145671/371472 [30:29<18:03:32,  3.47it/s] 39%|███▉      | 145672/371472 [30:29<17:57:51,  3.49it/s] 39%|███▉      | 145673/371472 [30:29<17:43:49,  3.54it/s] 39%|███▉      | 145674/371472 [30:29<17:41:05,  3.55it/s] 39%|███▉      | 145675/371472 [30:30<17:09:52,  3.65it/s] 39%|███▉      | 145676/371472 [30:30<16:49:26,  3.73it/s] 39%|███▉      | 145677/371472 [30:30<16:42:21,  3.75it/s] 39%|███▉      | 145678/371472 [30:30<16:34:39,  3.78it/s] 39%|███▉      | 145679/371472 [30:31<16:20:51,  3.84it/s] 39%|███▉      | 145680/371472 [30:31<17:45:18,  3.53it/s]                                                          {'loss': 3.4586, 'learning_rate': 6.473421103665238e-07, 'epoch': 6.27}
 39%|███▉      | 145680/371472 [30:31<17:45:18,  3.53it/s] 39%|███▉      | 145681/371472 [30:31<17:52:59,  3.51it/s] 39%|███▉      | 145682/371472 [30:32<17:40:48,  3.55it/s] 39%|███▉      | 145683/371472 [30:32<17:38:12,  3.56it/s] 39%|███▉      | 145684/371472 [30:32<18:03:10,  3.47it/s] 39%|███▉      | 145685/371472 [30:32<17:44:51,  3.53it/s] 39%|███▉      | 145686/371472 [30:33<17:54:09,  3.50it/s] 39%|███▉      | 145687/371472 [30:33<17:19:29,  3.62it/s] 39%|███▉      | 145688/371472 [30:33<17:55:54,  3.50it/s] 39%|███▉      | 145689/371472 [30:34<17:40:43,  3.55it/s] 39%|███▉      | 145690/371472 [30:34<17:14:17,  3.64it/s] 39%|███▉      | 145691/371472 [30:34<17:18:47,  3.62it/s] 39%|███▉      | 145692/371472 [30:34<18:29:30,  3.39it/s] 39%|███▉      | 145693/371472 [30:35<17:58:36,  3.49it/s] 39%|███▉      | 145694/371472 [30:35<17:53:54,  3.50it/s] 39%|███▉      | 145695/371472 [30:35<18:20:46,  3.42it/s] 39%|███▉      | 145696/371472 [30:36<17:45:23,  3.53it/s] 39%|███▉      | 145697/371472 [30:36<17:25:52,  3.60it/s] 39%|███▉      | 145698/371472 [30:36<17:50:15,  3.52it/s] 39%|███▉      | 145699/371472 [30:36<17:14:48,  3.64it/s] 39%|███▉      | 145700/371472 [30:37<16:47:16,  3.74it/s]                                                          {'loss': 3.3429, 'learning_rate': 6.472936283910448e-07, 'epoch': 6.28}
 39%|███▉      | 145700/371472 [30:37<16:47:16,  3.74it/s] 39%|███▉      | 145701/371472 [30:37<18:03:10,  3.47it/s] 39%|███▉      | 145702/371472 [30:37<17:56:22,  3.50it/s] 39%|███▉      | 145703/371472 [30:37<17:35:14,  3.57it/s] 39%|███▉      | 145704/371472 [30:38<17:24:45,  3.60it/s] 39%|███▉      | 145705/371472 [30:38<17:34:25,  3.57it/s] 39%|███▉      | 145706/371472 [30:38<17:13:55,  3.64it/s] 39%|███▉      | 145707/371472 [30:39<17:17:14,  3.63it/s] 39%|███▉      | 145708/371472 [30:39<16:54:55,  3.71it/s] 39%|███▉      | 145709/371472 [30:39<17:23:50,  3.60it/s] 39%|███▉      | 145710/371472 [30:39<18:30:50,  3.39it/s] 39%|███▉      | 145711/371472 [30:40<19:24:24,  3.23it/s] 39%|███▉      | 145712/371472 [30:40<19:25:41,  3.23it/s] 39%|███▉      | 145713/371472 [30:40<19:50:39,  3.16it/s] 39%|███▉      | 145714/371472 [30:41<18:24:27,  3.41it/s] 39%|███▉      | 145715/371472 [30:41<18:59:12,  3.30it/s] 39%|███▉      | 145716/371472 [30:41<19:30:34,  3.21it/s] 39%|███▉      | 145717/371472 [30:42<18:38:46,  3.36it/s] 39%|███▉      | 145718/371472 [30:42<18:17:29,  3.43it/s] 39%|███▉      | 145719/371472 [30:42<17:41:24,  3.54it/s] 39%|███▉      | 145720/371472 [30:42<17:21:56,  3.61it/s]                                                          {'loss': 3.3497, 'learning_rate': 6.472451464155659e-07, 'epoch': 6.28}
 39%|███▉      | 145720/371472 [30:42<17:21:56,  3.61it/s] 39%|███▉      | 145721/371472 [30:43<17:02:31,  3.68it/s] 39%|███▉      | 145722/371472 [30:43<17:29:08,  3.59it/s] 39%|███▉      | 145723/371472 [30:43<16:54:43,  3.71it/s] 39%|███▉      | 145724/371472 [30:43<17:14:04,  3.64it/s] 39%|███▉      | 145725/371472 [30:44<17:21:34,  3.61it/s] 39%|███▉      | 145726/371472 [30:44<17:35:06,  3.57it/s] 39%|███▉      | 145727/371472 [30:44<17:37:32,  3.56it/s] 39%|███▉      | 145728/371472 [30:45<17:34:55,  3.57it/s] 39%|███▉      | 145729/371472 [30:45<17:39:08,  3.55it/s] 39%|███▉      | 145730/371472 [30:45<17:43:06,  3.54it/s] 39%|███▉      | 145731/371472 [30:45<17:36:13,  3.56it/s] 39%|███▉      | 145732/371472 [30:46<17:08:15,  3.66it/s] 39%|███▉      | 145733/371472 [30:46<17:11:57,  3.65it/s] 39%|███▉      | 145734/371472 [30:46<17:07:39,  3.66it/s] 39%|███▉      | 145735/371472 [30:47<16:47:46,  3.73it/s] 39%|███▉      | 145736/371472 [30:47<16:56:13,  3.70it/s] 39%|███▉      | 145737/371472 [30:47<17:05:52,  3.67it/s] 39%|███▉      | 145738/371472 [30:47<16:56:58,  3.70it/s] 39%|███▉      | 145739/371472 [30:48<17:07:35,  3.66it/s] 39%|███▉      | 145740/371472 [30:48<18:12:02,  3.45it/s]                                                          {'loss': 3.2361, 'learning_rate': 6.47196664440087e-07, 'epoch': 6.28}
 39%|███▉      | 145740/371472 [30:48<18:12:02,  3.45it/s] 39%|███▉      | 145741/371472 [30:48<17:33:40,  3.57it/s] 39%|███▉      | 145742/371472 [30:48<17:40:41,  3.55it/s] 39%|███▉      | 145743/371472 [30:49<18:54:02,  3.32it/s] 39%|███▉      | 145744/371472 [30:49<19:04:26,  3.29it/s] 39%|███▉      | 145745/371472 [30:49<18:17:17,  3.43it/s] 39%|███▉      | 145746/371472 [30:50<18:53:34,  3.32it/s] 39%|███▉      | 145747/371472 [30:50<19:45:59,  3.17it/s] 39%|███▉      | 145748/371472 [30:50<19:48:39,  3.16it/s] 39%|███▉      | 145749/371472 [30:51<19:03:57,  3.29it/s] 39%|███▉      | 145750/371472 [30:51<18:04:45,  3.47it/s] 39%|███▉      | 145751/371472 [30:51<20:01:09,  3.13it/s] 39%|███▉      | 145752/371472 [30:52<18:42:58,  3.35it/s] 39%|███▉      | 145753/371472 [30:52<17:43:33,  3.54it/s] 39%|███▉      | 145754/371472 [30:52<17:25:45,  3.60it/s] 39%|███▉      | 145755/371472 [30:52<18:57:31,  3.31it/s] 39%|███▉      | 145756/371472 [30:53<18:02:43,  3.47it/s] 39%|███▉      | 145757/371472 [30:53<17:16:16,  3.63it/s] 39%|███▉      | 145758/371472 [30:53<17:22:30,  3.61it/s] 39%|███▉      | 145759/371472 [30:54<18:17:52,  3.43it/s] 39%|███▉      | 145760/371472 [30:54<18:50:55,  3.33it/s]                                                          {'loss': 3.1815, 'learning_rate': 6.471481824646082e-07, 'epoch': 6.28}
 39%|███▉      | 145760/371472 [30:54<18:50:55,  3.33it/s] 39%|███▉      | 145761/371472 [30:54<18:27:16,  3.40it/s] 39%|███▉      | 145762/371472 [30:54<18:14:00,  3.44it/s] 39%|███▉      | 145763/371472 [30:55<17:47:11,  3.52it/s] 39%|███▉      | 145764/371472 [30:55<18:20:59,  3.42it/s] 39%|███▉      | 145765/371472 [30:55<17:39:45,  3.55it/s] 39%|███▉      | 145766/371472 [30:56<17:32:01,  3.58it/s] 39%|███▉      | 145767/371472 [30:56<17:06:22,  3.67it/s] 39%|███▉      | 145768/371472 [30:56<17:32:51,  3.57it/s] 39%|███▉      | 145769/371472 [30:56<17:21:14,  3.61it/s] 39%|███▉      | 145770/371472 [30:57<17:42:24,  3.54it/s] 39%|███▉      | 145771/371472 [30:57<17:41:51,  3.54it/s] 39%|███▉      | 145772/371472 [30:57<17:41:02,  3.55it/s] 39%|███▉      | 145773/371472 [30:58<17:31:50,  3.58it/s] 39%|███▉      | 145774/371472 [30:58<17:20:45,  3.61it/s] 39%|███▉      | 145775/371472 [30:58<16:42:25,  3.75it/s] 39%|███▉      | 145776/371472 [30:58<17:39:21,  3.55it/s] 39%|███▉      | 145777/371472 [30:59<17:15:06,  3.63it/s] 39%|███▉      | 145778/371472 [30:59<16:32:11,  3.79it/s] 39%|███▉      | 145779/371472 [30:59<16:25:22,  3.82it/s] 39%|███▉      | 145780/371472 [30:59<18:11:01,  3.45it/s]                                                          {'loss': 3.2213, 'learning_rate': 6.470997004891293e-07, 'epoch': 6.28}
 39%|███▉      | 145780/371472 [30:59<18:11:01,  3.45it/s] 39%|███▉      | 145781/371472 [31:00<17:40:42,  3.55it/s] 39%|███▉      | 145782/371472 [31:00<17:10:03,  3.65it/s] 39%|███▉      | 145783/371472 [31:00<18:07:32,  3.46it/s] 39%|███▉      | 145784/371472 [31:01<17:29:35,  3.58it/s] 39%|███▉      | 145785/371472 [31:01<16:42:26,  3.75it/s] 39%|███▉      | 145786/371472 [31:01<16:47:47,  3.73it/s] 39%|███▉      | 145787/371472 [31:01<16:20:21,  3.84it/s] 39%|███▉      | 145788/371472 [31:02<17:00:07,  3.69it/s] 39%|███▉      | 145789/371472 [31:02<17:12:55,  3.64it/s] 39%|███▉      | 145790/371472 [31:02<17:04:52,  3.67it/s] 39%|███▉      | 145791/371472 [31:02<17:40:14,  3.55it/s] 39%|███▉      | 145792/371472 [31:03<18:32:05,  3.38it/s] 39%|███▉      | 145793/371472 [31:03<18:17:10,  3.43it/s] 39%|███▉      | 145794/371472 [31:03<18:38:55,  3.36it/s] 39%|███▉      | 145795/371472 [31:04<18:40:21,  3.36it/s] 39%|███▉      | 145796/371472 [31:04<18:48:40,  3.33it/s] 39%|███▉      | 145797/371472 [31:04<17:57:48,  3.49it/s] 39%|███▉      | 145798/371472 [31:05<17:42:27,  3.54it/s] 39%|███▉      | 145799/371472 [31:05<17:28:21,  3.59it/s] 39%|███▉      | 145800/371472 [31:05<16:49:04,  3.73it/s]                                                          {'loss': 3.2163, 'learning_rate': 6.470512185136504e-07, 'epoch': 6.28}
 39%|███▉      | 145800/371472 [31:05<16:49:04,  3.73it/s] 39%|███▉      | 145801/371472 [31:05<17:25:52,  3.60it/s] 39%|███▉      | 145802/371472 [31:06<17:10:15,  3.65it/s] 39%|███▉      | 145803/371472 [31:06<17:04:04,  3.67it/s] 39%|███▉      | 145804/371472 [31:06<17:29:03,  3.59it/s] 39%|███▉      | 145805/371472 [31:06<17:07:17,  3.66it/s] 39%|███▉      | 145806/371472 [31:07<17:22:36,  3.61it/s] 39%|███▉      | 145807/371472 [31:07<18:38:23,  3.36it/s] 39%|███▉      | 145808/371472 [31:07<18:02:41,  3.47it/s] 39%|███▉      | 145809/371472 [31:08<17:20:18,  3.62it/s] 39%|███▉      | 145810/371472 [31:08<17:00:39,  3.68it/s] 39%|███▉      | 145811/371472 [31:08<17:48:06,  3.52it/s] 39%|███▉      | 145812/371472 [31:09<19:52:27,  3.15it/s] 39%|███▉      | 145813/371472 [31:09<18:43:46,  3.35it/s] 39%|███▉      | 145814/371472 [31:09<20:21:28,  3.08it/s] 39%|███▉      | 145815/371472 [31:09<19:16:02,  3.25it/s] 39%|███▉      | 145816/371472 [31:10<18:14:29,  3.44it/s] 39%|███▉      | 145817/371472 [31:10<17:17:48,  3.62it/s] 39%|███▉      | 145818/371472 [31:10<17:12:55,  3.64it/s] 39%|███▉      | 145819/371472 [31:10<17:08:09,  3.66it/s] 39%|███▉      | 145820/371472 [31:11<16:56:30,  3.70it/s]                                                          {'loss': 3.2443, 'learning_rate': 6.470027365381714e-07, 'epoch': 6.28}
 39%|███▉      | 145820/371472 [31:11<16:56:30,  3.70it/s] 39%|███▉      | 145821/371472 [31:11<17:30:24,  3.58it/s] 39%|███▉      | 145822/371472 [31:11<17:36:32,  3.56it/s] 39%|███▉      | 145823/371472 [31:12<17:00:27,  3.69it/s] 39%|███▉      | 145824/371472 [31:12<17:57:30,  3.49it/s] 39%|███▉      | 145825/371472 [31:12<19:35:43,  3.20it/s] 39%|███▉      | 145826/371472 [31:13<18:57:01,  3.31it/s] 39%|███▉      | 145827/371472 [31:13<18:48:30,  3.33it/s] 39%|███▉      | 145828/371472 [31:13<18:21:47,  3.41it/s] 39%|███▉      | 145829/371472 [31:13<17:36:28,  3.56it/s] 39%|███▉      | 145830/371472 [31:14<17:16:03,  3.63it/s] 39%|███▉      | 145831/371472 [31:14<17:13:58,  3.64it/s] 39%|███▉      | 145832/371472 [31:14<17:42:13,  3.54it/s] 39%|███▉      | 145833/371472 [31:14<17:22:09,  3.61it/s] 39%|███▉      | 145834/371472 [31:15<17:10:58,  3.65it/s] 39%|███▉      | 145835/371472 [31:15<16:56:22,  3.70it/s] 39%|███▉      | 145836/371472 [31:15<16:54:24,  3.71it/s] 39%|███▉      | 145837/371472 [31:16<16:48:24,  3.73it/s] 39%|███▉      | 145838/371472 [31:16<16:46:08,  3.74it/s] 39%|███▉      | 145839/371472 [31:16<17:39:36,  3.55it/s] 39%|███▉      | 145840/371472 [31:16<17:29:07,  3.58it/s]                                                          {'loss': 3.2482, 'learning_rate': 6.469542545626925e-07, 'epoch': 6.28}
 39%|███▉      | 145840/371472 [31:16<17:29:07,  3.58it/s] 39%|███▉      | 145841/371472 [31:17<17:14:57,  3.63it/s] 39%|███▉      | 145842/371472 [31:17<17:26:20,  3.59it/s] 39%|███▉      | 145843/371472 [31:17<16:58:25,  3.69it/s] 39%|███▉      | 145844/371472 [31:17<17:19:05,  3.62it/s] 39%|███▉      | 145845/371472 [31:18<17:12:35,  3.64it/s] 39%|███▉      | 145846/371472 [31:18<17:06:42,  3.66it/s] 39%|███▉      | 145847/371472 [31:18<18:02:21,  3.47it/s] 39%|███▉      | 145848/371472 [31:19<18:15:33,  3.43it/s] 39%|███▉      | 145849/371472 [31:19<17:48:48,  3.52it/s] 39%|███▉      | 145850/371472 [31:19<17:20:18,  3.61it/s] 39%|███▉      | 145851/371472 [31:19<17:30:44,  3.58it/s] 39%|███▉      | 145852/371472 [31:20<17:34:11,  3.57it/s] 39%|███▉      | 145853/371472 [31:20<17:57:52,  3.49it/s] 39%|███▉      | 145854/371472 [31:20<18:34:47,  3.37it/s] 39%|███▉      | 145855/371472 [31:21<17:26:08,  3.59it/s] 39%|███▉      | 145856/371472 [31:21<18:16:18,  3.43it/s] 39%|███▉      | 145857/371472 [31:21<17:48:26,  3.52it/s] 39%|███▉      | 145858/371472 [31:22<18:46:51,  3.34it/s] 39%|███▉      | 145859/371472 [31:22<19:29:17,  3.22it/s] 39%|███▉      | 145860/371472 [31:22<18:22:31,  3.41it/s]                                                          {'loss': 3.1828, 'learning_rate': 6.469057725872137e-07, 'epoch': 6.28}
 39%|███▉      | 145860/371472 [31:22<18:22:31,  3.41it/s] 39%|███▉      | 145861/371472 [31:23<21:27:00,  2.92it/s] 39%|███▉      | 145862/371472 [31:23<21:11:53,  2.96it/s] 39%|███▉      | 145863/371472 [31:23<19:58:30,  3.14it/s] 39%|███▉      | 145864/371472 [31:23<18:53:29,  3.32it/s] 39%|███▉      | 145865/371472 [31:24<19:06:31,  3.28it/s] 39%|███▉      | 145866/371472 [31:24<18:27:07,  3.40it/s] 39%|███▉      | 145867/371472 [31:24<18:07:29,  3.46it/s] 39%|███▉      | 145868/371472 [31:25<18:55:34,  3.31it/s] 39%|███▉      | 145869/371472 [31:25<19:11:25,  3.27it/s] 39%|███▉      | 145870/371472 [31:25<17:58:38,  3.49it/s] 39%|███▉      | 145871/371472 [31:25<17:38:03,  3.55it/s] 39%|███▉      | 145872/371472 [31:26<17:27:43,  3.59it/s] 39%|███▉      | 145873/371472 [31:26<19:21:50,  3.24it/s] 39%|███▉      | 145874/371472 [31:26<18:27:11,  3.40it/s] 39%|███▉      | 145875/371472 [31:27<17:55:44,  3.50it/s] 39%|███▉      | 145876/371472 [31:27<17:36:31,  3.56it/s] 39%|███▉      | 145877/371472 [31:27<19:06:37,  3.28it/s] 39%|███▉      | 145878/371472 [31:28<18:35:54,  3.37it/s] 39%|███▉      | 145879/371472 [31:28<18:27:22,  3.40it/s] 39%|███▉      | 145880/371472 [31:28<19:14:35,  3.26it/s]                                                          {'loss': 3.2727, 'learning_rate': 6.468572906117348e-07, 'epoch': 6.28}
 39%|███▉      | 145880/371472 [31:28<19:14:35,  3.26it/s] 39%|███▉      | 145881/371472 [31:28<18:54:14,  3.31it/s] 39%|███▉      | 145882/371472 [31:29<18:02:05,  3.47it/s] 39%|███▉      | 145883/371472 [31:29<18:12:41,  3.44it/s] 39%|███▉      | 145884/371472 [31:29<18:10:44,  3.45it/s] 39%|███▉      | 145885/371472 [31:30<18:13:01,  3.44it/s] 39%|███▉      | 145886/371472 [31:30<17:47:28,  3.52it/s] 39%|███▉      | 145887/371472 [31:30<18:54:00,  3.32it/s] 39%|███▉      | 145888/371472 [31:30<18:48:47,  3.33it/s] 39%|███▉      | 145889/371472 [31:31<17:58:20,  3.49it/s] 39%|███▉      | 145890/371472 [31:31<17:50:32,  3.51it/s] 39%|███▉      | 145891/371472 [31:31<18:26:22,  3.40it/s] 39%|███▉      | 145892/371472 [31:32<17:46:35,  3.52it/s] 39%|███▉      | 145893/371472 [31:32<17:14:31,  3.63it/s] 39%|███▉      | 145894/371472 [31:32<16:51:30,  3.72it/s] 39%|███▉      | 145895/371472 [31:32<16:34:44,  3.78it/s] 39%|███▉      | 145896/371472 [31:33<17:26:37,  3.59it/s] 39%|███▉      | 145897/371472 [31:33<16:54:54,  3.70it/s] 39%|███▉      | 145898/371472 [31:33<17:34:52,  3.56it/s] 39%|███▉      | 145899/371472 [31:34<17:43:03,  3.54it/s] 39%|███▉      | 145900/371472 [31:34<18:16:24,  3.43it/s]                                                          {'loss': 3.1698, 'learning_rate': 6.468088086362559e-07, 'epoch': 6.28}
 39%|███▉      | 145900/371472 [31:34<18:16:24,  3.43it/s] 39%|███▉      | 145901/371472 [31:34<18:23:34,  3.41it/s] 39%|███▉      | 145902/371472 [31:34<18:00:43,  3.48it/s] 39%|███▉      | 145903/371472 [31:35<17:08:09,  3.66it/s] 39%|███▉      | 145904/371472 [31:35<17:39:22,  3.55it/s] 39%|███▉      | 145905/371472 [31:35<17:54:32,  3.50it/s] 39%|███▉      | 145906/371472 [31:36<18:06:42,  3.46it/s] 39%|███▉      | 145907/371472 [31:36<17:56:26,  3.49it/s] 39%|███▉      | 145908/371472 [31:36<17:17:17,  3.62it/s] 39%|███▉      | 145909/371472 [31:36<16:42:40,  3.75it/s] 39%|███▉      | 145910/371472 [31:37<16:36:15,  3.77it/s] 39%|███▉      | 145911/371472 [31:37<16:35:08,  3.78it/s] 39%|███▉      | 145912/371472 [31:37<16:33:20,  3.78it/s] 39%|███▉      | 145913/371472 [31:37<16:48:13,  3.73it/s] 39%|███▉      | 145914/371472 [31:38<18:04:16,  3.47it/s] 39%|███▉      | 145915/371472 [31:38<17:49:46,  3.51it/s] 39%|███▉      | 145916/371472 [31:38<18:56:39,  3.31it/s] 39%|███▉      | 145917/371472 [31:39<18:21:29,  3.41it/s] 39%|███▉      | 145918/371472 [31:39<18:22:19,  3.41it/s] 39%|███▉      | 145919/371472 [31:39<17:43:37,  3.53it/s] 39%|███▉      | 145920/371472 [31:39<17:20:21,  3.61it/s]                                                          {'loss': 3.3382, 'learning_rate': 6.46760326660777e-07, 'epoch': 6.29}
 39%|███▉      | 145920/371472 [31:39<17:20:21,  3.61it/s] 39%|███▉      | 145921/371472 [31:40<17:19:39,  3.62it/s] 39%|███▉      | 145922/371472 [31:40<17:49:04,  3.52it/s] 39%|███▉      | 145923/371472 [31:40<17:32:45,  3.57it/s] 39%|███▉      | 145924/371472 [31:41<18:14:10,  3.44it/s] 39%|███▉      | 145925/371472 [31:41<18:44:31,  3.34it/s] 39%|███▉      | 145926/371472 [31:41<18:12:48,  3.44it/s] 39%|███▉      | 145927/371472 [31:41<18:19:58,  3.42it/s] 39%|███▉      | 145928/371472 [31:42<17:42:46,  3.54it/s] 39%|███▉      | 145929/371472 [31:42<17:19:34,  3.62it/s] 39%|███▉      | 145930/371472 [31:42<17:34:58,  3.56it/s] 39%|███▉      | 145931/371472 [31:43<18:33:24,  3.38it/s] 39%|███▉      | 145932/371472 [31:43<17:58:12,  3.49it/s] 39%|███▉      | 145933/371472 [31:43<18:37:04,  3.37it/s] 39%|███▉      | 145934/371472 [31:43<18:30:37,  3.38it/s] 39%|███▉      | 145935/371472 [31:44<19:45:28,  3.17it/s] 39%|███▉      | 145936/371472 [31:44<18:40:41,  3.35it/s] 39%|███▉      | 145937/371472 [31:44<17:58:35,  3.49it/s] 39%|███▉      | 145938/371472 [31:45<18:19:49,  3.42it/s] 39%|███▉      | 145939/371472 [31:45<18:52:35,  3.32it/s] 39%|███▉      | 145940/371472 [31:45<20:55:57,  2.99it/s]                                                          {'loss': 3.3485, 'learning_rate': 6.46711844685298e-07, 'epoch': 6.29}
 39%|███▉      | 145940/371472 [31:45<20:55:57,  2.99it/s] 39%|███▉      | 145941/371472 [31:46<19:34:00,  3.20it/s] 39%|███▉      | 145942/371472 [31:46<18:20:01,  3.42it/s] 39%|███▉      | 145943/371472 [31:46<17:54:08,  3.50it/s] 39%|███▉      | 145944/371472 [31:46<17:05:33,  3.67it/s] 39%|███▉      | 145945/371472 [31:47<18:09:20,  3.45it/s] 39%|███▉      | 145946/371472 [31:47<18:08:13,  3.45it/s] 39%|███▉      | 145947/371472 [31:47<17:59:02,  3.48it/s] 39%|███▉      | 145948/371472 [31:48<20:43:27,  3.02it/s] 39%|███▉      | 145949/371472 [31:48<19:42:25,  3.18it/s] 39%|███▉      | 145950/371472 [31:48<18:36:12,  3.37it/s] 39%|███▉      | 145951/371472 [31:49<18:20:48,  3.41it/s] 39%|███▉      | 145952/371472 [31:49<18:08:25,  3.45it/s] 39%|███▉      | 145953/371472 [31:49<18:40:05,  3.36it/s] 39%|███▉      | 145954/371472 [31:49<18:20:09,  3.42it/s] 39%|███▉      | 145955/371472 [31:50<17:43:25,  3.53it/s] 39%|███▉      | 145956/371472 [31:50<18:00:31,  3.48it/s] 39%|███▉      | 145957/371472 [31:50<17:36:54,  3.56it/s] 39%|███▉      | 145958/371472 [31:51<17:12:11,  3.64it/s] 39%|███▉      | 145959/371472 [31:51<21:01:17,  2.98it/s] 39%|███▉      | 145960/371472 [31:51<20:16:10,  3.09it/s]                                                          {'loss': 3.2639, 'learning_rate': 6.466633627098191e-07, 'epoch': 6.29}
 39%|███▉      | 145960/371472 [31:51<20:16:10,  3.09it/s] 39%|███▉      | 145961/371472 [31:52<20:51:49,  3.00it/s] 39%|███▉      | 145962/371472 [31:52<19:41:46,  3.18it/s] 39%|███▉      | 145963/371472 [31:52<19:28:37,  3.22it/s] 39%|███▉      | 145964/371472 [31:52<18:20:21,  3.42it/s] 39%|███▉      | 145965/371472 [31:53<18:24:56,  3.40it/s] 39%|███▉      | 145966/371472 [31:53<18:10:38,  3.45it/s] 39%|███▉      | 145967/371472 [31:53<18:11:21,  3.44it/s] 39%|███▉      | 145968/371472 [31:54<18:10:42,  3.45it/s] 39%|███▉      | 145969/371472 [31:54<19:41:11,  3.18it/s] 39%|███▉      | 145970/371472 [31:54<19:26:14,  3.22it/s] 39%|███▉      | 145971/371472 [31:55<18:43:48,  3.34it/s] 39%|███▉      | 145972/371472 [31:55<18:01:40,  3.47it/s] 39%|███▉      | 145973/371472 [31:55<19:20:53,  3.24it/s] 39%|███▉      | 145974/371472 [31:55<18:44:18,  3.34it/s] 39%|███▉      | 145975/371472 [31:56<18:14:29,  3.43it/s] 39%|███▉      | 145976/371472 [31:56<17:18:45,  3.62it/s] 39%|███▉      | 145977/371472 [31:56<17:02:41,  3.67it/s] 39%|███▉      | 145978/371472 [31:57<17:13:27,  3.64it/s] 39%|███▉      | 145979/371472 [31:57<17:49:56,  3.51it/s] 39%|███▉      | 145980/371472 [31:57<17:58:15,  3.49it/s]                                                          {'loss': 3.2905, 'learning_rate': 6.466148807343403e-07, 'epoch': 6.29}
 39%|███▉      | 145980/371472 [31:57<17:58:15,  3.49it/s] 39%|███▉      | 145981/371472 [31:57<17:34:30,  3.56it/s] 39%|███▉      | 145982/371472 [31:58<19:51:15,  3.15it/s] 39%|███▉      | 145983/371472 [31:58<19:25:06,  3.23it/s] 39%|███▉      | 145984/371472 [31:58<19:02:40,  3.29it/s] 39%|███▉      | 145985/371472 [31:59<18:12:22,  3.44it/s] 39%|███▉      | 145986/371472 [31:59<19:23:50,  3.23it/s] 39%|███▉      | 145987/371472 [31:59<19:14:02,  3.26it/s] 39%|███▉      | 145988/371472 [32:00<18:29:16,  3.39it/s] 39%|███▉      | 145989/371472 [32:00<18:33:58,  3.37it/s] 39%|███▉      | 145990/371472 [32:00<17:53:30,  3.50it/s] 39%|███▉      | 145991/371472 [32:00<18:08:05,  3.45it/s] 39%|███▉      | 145992/371472 [32:01<17:46:45,  3.52it/s] 39%|███▉      | 145993/371472 [32:01<17:48:55,  3.52it/s] 39%|███▉      | 145994/371472 [32:01<18:48:35,  3.33it/s] 39%|███▉      | 145995/371472 [32:02<18:52:05,  3.32it/s] 39%|███▉      | 145996/371472 [32:02<18:29:48,  3.39it/s] 39%|███▉      | 145997/371472 [32:02<19:06:49,  3.28it/s] 39%|███▉      | 145998/371472 [32:03<18:38:30,  3.36it/s] 39%|███▉      | 145999/371472 [32:03<18:18:18,  3.42it/s] 39%|███▉      | 146000/371472 [32:03<17:52:50,  3.50it/s]                                                          {'loss': 3.2161, 'learning_rate': 6.465663987588614e-07, 'epoch': 6.29}
 39%|███▉      | 146000/371472 [32:03<17:52:50,  3.50it/s] 39%|███▉      | 146001/371472 [32:03<17:38:15,  3.55it/s] 39%|███▉      | 146002/371472 [32:04<17:51:02,  3.51it/s] 39%|███▉      | 146003/371472 [32:04<18:42:26,  3.35it/s] 39%|███▉      | 146004/371472 [32:04<18:03:14,  3.47it/s] 39%|███▉      | 146005/371472 [32:05<18:22:53,  3.41it/s] 39%|███▉      | 146006/371472 [32:05<17:56:44,  3.49it/s] 39%|███▉      | 146007/371472 [32:05<17:30:43,  3.58it/s] 39%|███▉      | 146008/371472 [32:05<16:56:11,  3.70it/s] 39%|███▉      | 146009/371472 [32:06<16:54:32,  3.70it/s] 39%|███▉      | 146010/371472 [32:06<17:02:04,  3.68it/s] 39%|███▉      | 146011/371472 [32:06<17:58:35,  3.48it/s] 39%|███▉      | 146012/371472 [32:07<21:12:46,  2.95it/s] 39%|███▉      | 146013/371472 [32:07<20:21:40,  3.08it/s] 39%|███▉      | 146014/371472 [32:07<19:12:02,  3.26it/s] 39%|███▉      | 146015/371472 [32:07<18:42:08,  3.35it/s] 39%|███▉      | 146016/371472 [32:08<18:52:12,  3.32it/s] 39%|███▉      | 146017/371472 [32:08<18:08:24,  3.45it/s] 39%|███▉      | 146018/371472 [32:08<17:39:22,  3.55it/s] 39%|███▉      | 146019/371472 [32:09<17:04:53,  3.67it/s] 39%|███▉      | 146020/371472 [32:09<18:45:26,  3.34it/s]                                                          {'loss': 3.1342, 'learning_rate': 6.465179167833825e-07, 'epoch': 6.29}
 39%|███▉      | 146020/371472 [32:09<18:45:26,  3.34it/s] 39%|███▉      | 146021/371472 [32:09<17:58:48,  3.48it/s] 39%|███▉      | 146022/371472 [32:09<18:05:59,  3.46it/s] 39%|███▉      | 146023/371472 [32:10<17:21:29,  3.61it/s] 39%|███▉      | 146024/371472 [32:10<17:24:56,  3.60it/s] 39%|███▉      | 146025/371472 [32:10<16:51:49,  3.71it/s] 39%|███▉      | 146026/371472 [32:11<16:56:21,  3.70it/s] 39%|███▉      | 146027/371472 [32:11<17:02:26,  3.67it/s] 39%|███▉      | 146028/371472 [32:11<19:37:41,  3.19it/s] 39%|███▉      | 146029/371472 [32:12<19:08:21,  3.27it/s] 39%|███▉      | 146030/371472 [32:12<19:50:44,  3.16it/s] 39%|███▉      | 146031/371472 [32:12<18:59:27,  3.30it/s] 39%|███▉      | 146032/371472 [32:12<19:28:58,  3.21it/s] 39%|███▉      | 146033/371472 [32:13<18:11:28,  3.44it/s] 39%|███▉      | 146034/371472 [32:13<18:26:15,  3.40it/s] 39%|███▉      | 146035/371472 [32:13<18:25:12,  3.40it/s] 39%|███▉      | 146036/371472 [32:14<19:10:44,  3.27it/s] 39%|███▉      | 146037/371472 [32:14<18:23:58,  3.40it/s] 39%|███▉      | 146038/371472 [32:14<17:48:16,  3.52it/s] 39%|███▉      | 146039/371472 [32:14<17:09:45,  3.65it/s] 39%|███▉      | 146040/371472 [32:15<17:24:06,  3.60it/s]                                                          {'loss': 3.2244, 'learning_rate': 6.464694348079036e-07, 'epoch': 6.29}
 39%|███▉      | 146040/371472 [32:15<17:24:06,  3.60it/s] 39%|███▉      | 146041/371472 [32:15<17:20:19,  3.61it/s] 39%|███▉      | 146042/371472 [32:15<17:02:30,  3.67it/s] 39%|███▉      | 146043/371472 [32:15<16:50:31,  3.72it/s] 39%|███▉      | 146044/371472 [32:16<17:14:42,  3.63it/s] 39%|███▉      | 146045/371472 [32:16<17:40:08,  3.54it/s] 39%|███▉      | 146046/371472 [32:16<18:43:53,  3.34it/s] 39%|███▉      | 146047/371472 [32:17<18:41:00,  3.35it/s] 39%|███▉      | 146048/371472 [32:17<18:37:11,  3.36it/s] 39%|███▉      | 146049/371472 [32:17<18:05:01,  3.46it/s] 39%|███▉      | 146050/371472 [32:18<18:51:43,  3.32it/s] 39%|███▉      | 146051/371472 [32:18<18:01:16,  3.47it/s] 39%|███▉      | 146052/371472 [32:18<17:43:19,  3.53it/s] 39%|███▉      | 146053/371472 [32:18<18:08:47,  3.45it/s] 39%|███▉      | 146054/371472 [32:19<17:41:08,  3.54it/s] 39%|███▉      | 146055/371472 [32:19<17:32:53,  3.57it/s] 39%|███▉      | 146056/371472 [32:19<19:00:17,  3.29it/s] 39%|███▉      | 146057/371472 [32:20<19:25:37,  3.22it/s] 39%|███▉      | 146058/371472 [32:20<19:19:16,  3.24it/s] 39%|███▉      | 146059/371472 [32:20<19:45:59,  3.17it/s] 39%|███▉      | 146060/371472 [32:21<18:38:51,  3.36it/s]                                                          {'loss': 3.3615, 'learning_rate': 6.464209528324248e-07, 'epoch': 6.29}
 39%|███▉      | 146060/371472 [32:21<18:38:51,  3.36it/s] 39%|███▉      | 146061/371472 [32:21<19:24:38,  3.23it/s] 39%|███▉      | 146062/371472 [32:21<18:43:14,  3.34it/s] 39%|███▉      | 146063/371472 [32:21<17:56:14,  3.49it/s] 39%|███▉      | 146064/371472 [32:22<17:48:00,  3.52it/s] 39%|███▉      | 146065/371472 [32:22<17:19:07,  3.62it/s] 39%|███▉      | 146066/371472 [32:22<18:12:44,  3.44it/s] 39%|███▉      | 146067/371472 [32:23<18:16:22,  3.43it/s] 39%|███▉      | 146068/371472 [32:23<17:57:31,  3.49it/s] 39%|███▉      | 146069/371472 [32:23<17:48:57,  3.51it/s] 39%|███▉      | 146070/371472 [32:23<18:47:30,  3.33it/s] 39%|███▉      | 146071/371472 [32:24<18:13:35,  3.44it/s] 39%|███▉      | 146072/371472 [32:24<17:42:50,  3.53it/s] 39%|███▉      | 146073/371472 [32:24<17:40:44,  3.54it/s] 39%|███▉      | 146074/371472 [32:25<18:30:50,  3.38it/s] 39%|███▉      | 146075/371472 [32:25<18:30:28,  3.38it/s] 39%|███▉      | 146076/371472 [32:25<18:58:17,  3.30it/s] 39%|███▉      | 146077/371472 [32:26<18:41:38,  3.35it/s] 39%|███▉      | 146078/371472 [32:26<18:51:00,  3.32it/s] 39%|███▉      | 146079/371472 [32:26<18:39:49,  3.35it/s] 39%|███▉      | 146080/371472 [32:26<19:13:24,  3.26it/s]                                                          {'loss': 3.3413, 'learning_rate': 6.463724708569458e-07, 'epoch': 6.29}
 39%|███▉      | 146080/371472 [32:26<19:13:24,  3.26it/s] 39%|███▉      | 146081/371472 [32:27<18:32:25,  3.38it/s] 39%|███▉      | 146082/371472 [32:27<18:23:34,  3.40it/s] 39%|███▉      | 146083/371472 [32:27<18:23:21,  3.40it/s] 39%|███▉      | 146084/371472 [32:28<18:58:00,  3.30it/s] 39%|███▉      | 146085/371472 [32:28<19:55:14,  3.14it/s] 39%|███▉      | 146086/371472 [32:28<20:04:34,  3.12it/s] 39%|███▉      | 146087/371472 [32:29<19:09:16,  3.27it/s] 39%|███▉      | 146088/371472 [32:29<19:18:01,  3.24it/s] 39%|███▉      | 146089/371472 [32:29<19:03:43,  3.28it/s] 39%|███▉      | 146090/371472 [32:29<18:22:39,  3.41it/s] 39%|███▉      | 146091/371472 [32:30<19:06:57,  3.28it/s] 39%|███▉      | 146092/371472 [32:30<18:22:33,  3.41it/s] 39%|███▉      | 146093/371472 [32:30<19:01:06,  3.29it/s] 39%|███▉      | 146094/371472 [32:31<19:56:19,  3.14it/s] 39%|███▉      | 146095/371472 [32:31<18:57:35,  3.30it/s] 39%|███▉      | 146096/371472 [32:31<18:47:16,  3.33it/s] 39%|███▉      | 146097/371472 [32:32<18:43:24,  3.34it/s] 39%|███▉      | 146098/371472 [32:32<18:28:19,  3.39it/s] 39%|███▉      | 146099/371472 [32:32<17:56:43,  3.49it/s] 39%|███▉      | 146100/371472 [32:32<18:51:42,  3.32it/s]                                                          {'loss': 3.3266, 'learning_rate': 6.463239888814669e-07, 'epoch': 6.29}
 39%|███▉      | 146100/371472 [32:32<18:51:42,  3.32it/s] 39%|███▉      | 146101/371472 [32:33<18:53:28,  3.31it/s] 39%|███▉      | 146102/371472 [32:33<17:57:06,  3.49it/s] 39%|███▉      | 146103/371472 [32:33<18:07:35,  3.45it/s] 39%|███▉      | 146104/371472 [32:34<18:04:31,  3.46it/s] 39%|███▉      | 146105/371472 [32:34<17:42:04,  3.54it/s] 39%|███▉      | 146106/371472 [32:34<18:20:18,  3.41it/s] 39%|███▉      | 146107/371472 [32:34<17:42:35,  3.53it/s] 39%|███▉      | 146108/371472 [32:35<17:03:05,  3.67it/s] 39%|███▉      | 146109/371472 [32:35<16:47:29,  3.73it/s] 39%|███▉      | 146110/371472 [32:35<16:05:12,  3.89it/s] 39%|███▉      | 146111/371472 [32:36<18:01:30,  3.47it/s] 39%|███▉      | 146112/371472 [32:36<17:37:54,  3.55it/s] 39%|███▉      | 146113/371472 [32:36<17:02:38,  3.67it/s] 39%|███▉      | 146114/371472 [32:36<16:40:39,  3.75it/s] 39%|███▉      | 146115/371472 [32:37<16:32:07,  3.79it/s] 39%|███▉      | 146116/371472 [32:37<16:40:37,  3.75it/s] 39%|███▉      | 146117/371472 [32:37<16:40:54,  3.75it/s] 39%|███▉      | 146118/371472 [32:37<16:45:45,  3.73it/s] 39%|███▉      | 146119/371472 [32:38<16:40:46,  3.75it/s] 39%|███▉      | 146120/371472 [32:38<17:01:16,  3.68it/s]                                                          {'loss': 3.2982, 'learning_rate': 6.46275506905988e-07, 'epoch': 6.29}
 39%|███▉      | 146120/371472 [32:38<17:01:16,  3.68it/s] 39%|███▉      | 146121/371472 [32:38<17:08:32,  3.65it/s] 39%|███▉      | 146122/371472 [32:38<17:03:16,  3.67it/s] 39%|███▉      | 146123/371472 [32:39<16:34:36,  3.78it/s] 39%|███▉      | 146124/371472 [32:39<16:32:12,  3.79it/s] 39%|███▉      | 146125/371472 [32:39<16:57:28,  3.69it/s] 39%|███▉      | 146126/371472 [32:40<18:54:55,  3.31it/s] 39%|███▉      | 146127/371472 [32:40<18:50:35,  3.32it/s] 39%|███▉      | 146128/371472 [32:40<18:23:28,  3.40it/s] 39%|███▉      | 146129/371472 [32:40<17:26:11,  3.59it/s] 39%|███▉      | 146130/371472 [32:41<17:14:03,  3.63it/s] 39%|███▉      | 146131/371472 [32:41<17:00:20,  3.68it/s] 39%|███▉      | 146132/371472 [32:41<17:05:15,  3.66it/s] 39%|███▉      | 146133/371472 [32:42<16:45:19,  3.74it/s] 39%|███▉      | 146134/371472 [32:42<16:06:59,  3.88it/s] 39%|███▉      | 146135/371472 [32:42<19:07:56,  3.27it/s] 39%|███▉      | 146136/371472 [32:43<19:33:14,  3.20it/s] 39%|███▉      | 146137/371472 [32:43<19:01:13,  3.29it/s] 39%|███▉      | 146138/371472 [32:43<19:08:16,  3.27it/s] 39%|███▉      | 146139/371472 [32:43<18:25:39,  3.40it/s] 39%|███▉      | 146140/371472 [32:44<17:41:44,  3.54it/s]                                                          {'loss': 3.2398, 'learning_rate': 6.462270249305091e-07, 'epoch': 6.29}
 39%|███▉      | 146140/371472 [32:44<17:41:44,  3.54it/s] 39%|███▉      | 146141/371472 [32:44<17:41:01,  3.54it/s] 39%|███▉      | 146142/371472 [32:44<17:57:14,  3.49it/s] 39%|███▉      | 146143/371472 [32:44<17:51:53,  3.50it/s] 39%|███▉      | 146144/371472 [32:45<17:45:33,  3.52it/s] 39%|███▉      | 146145/371472 [32:45<17:36:51,  3.55it/s] 39%|███▉      | 146146/371472 [32:45<17:55:36,  3.49it/s] 39%|███▉      | 146147/371472 [32:46<18:42:29,  3.35it/s] 39%|███▉      | 146148/371472 [32:46<18:10:03,  3.45it/s] 39%|███▉      | 146149/371472 [32:46<17:59:09,  3.48it/s] 39%|███▉      | 146150/371472 [32:47<18:40:32,  3.35it/s] 39%|███▉      | 146151/371472 [32:47<18:15:19,  3.43it/s] 39%|███▉      | 146152/371472 [32:47<18:25:24,  3.40it/s] 39%|███▉      | 146153/371472 [32:47<18:37:25,  3.36it/s] 39%|███▉      | 146154/371472 [32:48<18:42:08,  3.35it/s] 39%|███▉      | 146155/371472 [32:48<17:57:23,  3.49it/s] 39%|███▉      | 146156/371472 [32:48<17:20:08,  3.61it/s] 39%|███▉      | 146157/371472 [32:49<17:39:22,  3.54it/s] 39%|███▉      | 146158/371472 [32:49<16:59:19,  3.68it/s] 39%|███▉      | 146159/371472 [32:49<16:59:39,  3.68it/s] 39%|███▉      | 146160/371472 [32:49<17:30:02,  3.58it/s]                                                          {'loss': 3.2091, 'learning_rate': 6.461785429550303e-07, 'epoch': 6.3}
 39%|███▉      | 146160/371472 [32:49<17:30:02,  3.58it/s] 39%|███▉      | 146161/371472 [32:50<18:37:31,  3.36it/s] 39%|███▉      | 146162/371472 [32:50<18:52:06,  3.32it/s] 39%|███▉      | 146163/371472 [32:50<18:42:36,  3.35it/s] 39%|███▉      | 146164/371472 [32:51<19:17:49,  3.24it/s] 39%|███▉      | 146165/371472 [32:51<18:30:10,  3.38it/s] 39%|███▉      | 146166/371472 [32:51<18:11:43,  3.44it/s] 39%|███▉      | 146167/371472 [32:51<18:25:00,  3.40it/s] 39%|███▉      | 146168/371472 [32:52<20:04:51,  3.12it/s] 39%|███▉      | 146169/371472 [32:52<19:42:58,  3.17it/s] 39%|███▉      | 146170/371472 [32:52<19:13:20,  3.26it/s] 39%|███▉      | 146171/371472 [32:53<19:24:27,  3.22it/s] 39%|███▉      | 146172/371472 [32:53<18:57:56,  3.30it/s] 39%|███▉      | 146173/371472 [32:53<18:21:55,  3.41it/s] 39%|███▉      | 146174/371472 [32:54<20:06:11,  3.11it/s] 39%|███▉      | 146175/371472 [32:54<19:44:54,  3.17it/s] 39%|███▉      | 146176/371472 [32:54<20:16:35,  3.09it/s] 39%|███▉      | 146177/371472 [32:55<19:35:30,  3.19it/s] 39%|███▉      | 146178/371472 [32:55<19:53:52,  3.15it/s] 39%|███▉      | 146179/371472 [32:55<19:54:36,  3.14it/s] 39%|███▉      | 146180/371472 [32:56<19:45:58,  3.17it/s]                                                          {'loss': 3.0039, 'learning_rate': 6.461300609795514e-07, 'epoch': 6.3}
 39%|███▉      | 146180/371472 [32:56<19:45:58,  3.17it/s] 39%|███▉      | 146181/371472 [32:56<18:35:39,  3.37it/s] 39%|███▉      | 146182/371472 [32:56<17:45:44,  3.52it/s] 39%|███▉      | 146183/371472 [32:56<17:10:02,  3.65it/s] 39%|███▉      | 146184/371472 [32:57<17:07:13,  3.66it/s] 39%|███▉      | 146185/371472 [32:57<17:54:14,  3.50it/s] 39%|███▉      | 146186/371472 [32:57<17:49:01,  3.51it/s] 39%|███▉      | 146187/371472 [32:58<18:10:18,  3.44it/s] 39%|███▉      | 146188/371472 [32:58<17:27:02,  3.59it/s] 39%|███▉      | 146189/371472 [32:58<17:18:51,  3.61it/s] 39%|███▉      | 146190/371472 [32:58<16:55:39,  3.70it/s] 39%|███▉      | 146191/371472 [32:59<16:48:59,  3.72it/s] 39%|███▉      | 146192/371472 [32:59<17:21:22,  3.61it/s] 39%|███▉      | 146193/371472 [32:59<16:53:17,  3.71it/s] 39%|███▉      | 146194/371472 [32:59<17:00:52,  3.68it/s] 39%|███▉      | 146195/371472 [33:00<17:00:06,  3.68it/s] 39%|███▉      | 146196/371472 [33:00<16:47:50,  3.73it/s] 39%|███▉      | 146197/371472 [33:00<17:48:46,  3.51it/s] 39%|███▉      | 146198/371472 [33:01<17:20:43,  3.61it/s] 39%|███▉      | 146199/371472 [33:01<17:14:58,  3.63it/s] 39%|███▉      | 146200/371472 [33:01<18:24:58,  3.40it/s]                                                          {'loss': 3.2578, 'learning_rate': 6.460815790040724e-07, 'epoch': 6.3}
 39%|███▉      | 146200/371472 [33:01<18:24:58,  3.40it/s] 39%|███▉      | 146201/371472 [33:01<17:42:57,  3.53it/s] 39%|███▉      | 146202/371472 [33:02<17:13:26,  3.63it/s] 39%|███▉      | 146203/371472 [33:02<16:57:22,  3.69it/s] 39%|███▉      | 146204/371472 [33:02<16:42:59,  3.74it/s] 39%|███▉      | 146205/371472 [33:02<16:25:10,  3.81it/s] 39%|███▉      | 146206/371472 [33:03<16:40:58,  3.75it/s] 39%|███▉      | 146207/371472 [33:03<18:08:41,  3.45it/s] 39%|███▉      | 146208/371472 [33:03<18:39:02,  3.35it/s] 39%|███▉      | 146209/371472 [33:04<19:08:45,  3.27it/s] 39%|███▉      | 146210/371472 [33:04<20:23:47,  3.07it/s] 39%|███▉      | 146211/371472 [33:04<19:14:42,  3.25it/s] 39%|███▉      | 146212/371472 [33:05<18:19:07,  3.42it/s] 39%|███▉      | 146213/371472 [33:05<17:55:05,  3.49it/s] 39%|███▉      | 146214/371472 [33:05<18:26:14,  3.39it/s] 39%|███▉      | 146215/371472 [33:05<17:22:03,  3.60it/s] 39%|███▉      | 146216/371472 [33:06<17:24:56,  3.59it/s] 39%|███▉      | 146217/371472 [33:06<16:59:23,  3.68it/s] 39%|███▉      | 146218/371472 [33:06<18:20:18,  3.41it/s] 39%|███▉      | 146219/371472 [33:07<18:20:42,  3.41it/s] 39%|███▉      | 146220/371472 [33:07<19:11:16,  3.26it/s]                                                          {'loss': 3.1357, 'learning_rate': 6.460330970285935e-07, 'epoch': 6.3}
 39%|███▉      | 146220/371472 [33:07<19:11:16,  3.26it/s] 39%|███▉      | 146221/371472 [33:07<20:16:41,  3.09it/s] 39%|███▉      | 146222/371472 [33:08<19:05:16,  3.28it/s] 39%|███▉      | 146223/371472 [33:08<18:59:12,  3.30it/s] 39%|███▉      | 146224/371472 [33:08<18:06:34,  3.45it/s] 39%|███▉      | 146225/371472 [33:08<17:09:09,  3.65it/s] 39%|███▉      | 146226/371472 [33:09<18:38:44,  3.36it/s] 39%|███▉      | 146227/371472 [33:09<18:09:00,  3.45it/s] 39%|███▉      | 146228/371472 [33:09<17:51:57,  3.50it/s] 39%|███▉      | 146229/371472 [33:09<17:18:44,  3.61it/s] 39%|███▉      | 146230/371472 [33:10<17:36:38,  3.55it/s] 39%|███▉      | 146231/371472 [33:10<17:07:35,  3.65it/s] 39%|███▉      | 146232/371472 [33:10<17:27:40,  3.58it/s] 39%|███▉      | 146233/371472 [33:11<17:54:27,  3.49it/s] 39%|███▉      | 146234/371472 [33:11<18:22:08,  3.41it/s] 39%|███▉      | 146235/371472 [33:11<18:09:36,  3.45it/s] 39%|███▉      | 146236/371472 [33:11<17:21:30,  3.60it/s] 39%|███▉      | 146237/371472 [33:12<16:59:14,  3.68it/s] 39%|███▉      | 146238/371472 [33:12<17:47:49,  3.52it/s] 39%|███▉      | 146239/371472 [33:12<17:48:39,  3.51it/s] 39%|███▉      | 146240/371472 [33:13<17:38:44,  3.55it/s]                                                          {'loss': 3.2064, 'learning_rate': 6.459846150531147e-07, 'epoch': 6.3}
 39%|███▉      | 146240/371472 [33:13<17:38:44,  3.55it/s] 39%|███▉      | 146241/371472 [33:13<17:46:34,  3.52it/s] 39%|███▉      | 146242/371472 [33:13<17:29:58,  3.58it/s] 39%|███▉      | 146243/371472 [33:14<19:24:15,  3.22it/s] 39%|███▉      | 146244/371472 [33:14<20:02:58,  3.12it/s] 39%|███▉      | 146245/371472 [33:14<19:25:50,  3.22it/s] 39%|███▉      | 146246/371472 [33:14<19:10:55,  3.26it/s] 39%|███▉      | 146247/371472 [33:15<19:03:51,  3.28it/s] 39%|███▉      | 146248/371472 [33:15<18:26:35,  3.39it/s] 39%|███▉      | 146249/371472 [33:15<17:58:27,  3.48it/s] 39%|███▉      | 146250/371472 [33:16<17:26:14,  3.59it/s] 39%|███▉      | 146251/371472 [33:16<17:13:17,  3.63it/s] 39%|███▉      | 146252/371472 [33:16<17:22:30,  3.60it/s] 39%|███▉      | 146253/371472 [33:16<16:50:07,  3.72it/s] 39%|███▉      | 146254/371472 [33:17<16:31:27,  3.79it/s] 39%|███▉      | 146255/371472 [33:17<16:36:24,  3.77it/s] 39%|███▉      | 146256/371472 [33:17<16:23:19,  3.82it/s] 39%|███▉      | 146257/371472 [33:17<16:52:48,  3.71it/s] 39%|███▉      | 146258/371472 [33:18<16:46:16,  3.73it/s] 39%|███▉      | 146259/371472 [33:18<16:12:14,  3.86it/s] 39%|███▉      | 146260/371472 [33:18<16:16:03,  3.85it/s]                                                          {'loss': 3.2141, 'learning_rate': 6.459361330776358e-07, 'epoch': 6.3}
 39%|███▉      | 146260/371472 [33:18<16:16:03,  3.85it/s] 39%|███▉      | 146261/371472 [33:18<16:51:32,  3.71it/s] 39%|███▉      | 146262/371472 [33:19<17:11:29,  3.64it/s] 39%|███▉      | 146263/371472 [33:19<16:51:22,  3.71it/s] 39%|███▉      | 146264/371472 [33:19<18:56:58,  3.30it/s] 39%|███▉      | 146265/371472 [33:20<18:31:52,  3.38it/s] 39%|███▉      | 146266/371472 [33:20<17:58:31,  3.48it/s] 39%|███▉      | 146267/371472 [33:20<18:23:49,  3.40it/s] 39%|███▉      | 146268/371472 [33:21<19:26:08,  3.22it/s] 39%|███▉      | 146269/371472 [33:21<18:20:20,  3.41it/s] 39%|███▉      | 146270/371472 [33:21<18:47:54,  3.33it/s] 39%|███▉      | 146271/371472 [33:21<17:55:03,  3.49it/s] 39%|███▉      | 146272/371472 [33:22<17:45:27,  3.52it/s] 39%|███▉      | 146273/371472 [33:22<17:08:20,  3.65it/s] 39%|███▉      | 146274/371472 [33:22<16:45:39,  3.73it/s] 39%|███▉      | 146275/371472 [33:22<16:33:52,  3.78it/s] 39%|███▉      | 146276/371472 [33:23<16:57:57,  3.69it/s] 39%|███▉      | 146277/371472 [33:23<17:53:31,  3.50it/s] 39%|███▉      | 146278/371472 [33:23<17:57:59,  3.48it/s] 39%|███▉      | 146279/371472 [33:24<19:14:51,  3.25it/s] 39%|███▉      | 146280/371472 [33:24<19:31:43,  3.20it/s]                                                          {'loss': 3.2171, 'learning_rate': 6.458876511021569e-07, 'epoch': 6.3}
 39%|███▉      | 146280/371472 [33:24<19:31:43,  3.20it/s] 39%|███▉      | 146281/371472 [33:24<20:30:35,  3.05it/s] 39%|███▉      | 146282/371472 [33:25<19:44:28,  3.17it/s] 39%|███▉      | 146283/371472 [33:25<20:03:44,  3.12it/s] 39%|███▉      | 146284/371472 [33:25<19:45:49,  3.16it/s] 39%|███▉      | 146285/371472 [33:26<18:54:58,  3.31it/s] 39%|███▉      | 146286/371472 [33:26<18:13:39,  3.43it/s] 39%|███▉      | 146287/371472 [33:26<18:01:52,  3.47it/s] 39%|███▉      | 146288/371472 [33:26<17:48:11,  3.51it/s] 39%|███▉      | 146289/371472 [33:27<19:19:45,  3.24it/s] 39%|███▉      | 146290/371472 [33:27<18:26:20,  3.39it/s] 39%|███▉      | 146291/371472 [33:27<18:19:21,  3.41it/s] 39%|███▉      | 146292/371472 [33:28<17:53:54,  3.49it/s] 39%|███▉      | 146293/371472 [33:28<17:12:44,  3.63it/s] 39%|███▉      | 146294/371472 [33:28<17:39:55,  3.54it/s] 39%|███▉      | 146295/371472 [33:28<17:27:43,  3.58it/s] 39%|███▉      | 146296/371472 [33:29<17:06:50,  3.65it/s] 39%|███▉      | 146297/371472 [33:29<17:24:10,  3.59it/s] 39%|███▉      | 146298/371472 [33:29<16:55:06,  3.70it/s] 39%|███▉      | 146299/371472 [33:30<17:05:41,  3.66it/s] 39%|███▉      | 146300/371472 [33:30<17:01:47,  3.67it/s]                                                          {'loss': 3.2197, 'learning_rate': 6.45839169126678e-07, 'epoch': 6.3}
 39%|███▉      | 146300/371472 [33:30<17:01:47,  3.67it/s] 39%|███▉      | 146301/371472 [33:30<17:24:46,  3.59it/s] 39%|███▉      | 146302/371472 [33:30<17:21:16,  3.60it/s] 39%|███▉      | 146303/371472 [33:31<19:11:30,  3.26it/s] 39%|███▉      | 146304/371472 [33:31<18:32:27,  3.37it/s] 39%|███▉      | 146305/371472 [33:31<17:47:05,  3.52it/s] 39%|███▉      | 146306/371472 [33:32<17:19:31,  3.61it/s] 39%|███▉      | 146307/371472 [33:32<17:34:24,  3.56it/s] 39%|███▉      | 146308/371472 [33:32<16:46:57,  3.73it/s] 39%|███▉      | 146309/371472 [33:32<16:34:26,  3.77it/s] 39%|███▉      | 146310/371472 [33:33<17:29:06,  3.58it/s] 39%|███▉      | 146311/371472 [33:33<18:12:33,  3.43it/s] 39%|███▉      | 146312/371472 [33:33<17:58:06,  3.48it/s] 39%|███▉      | 146313/371472 [33:34<17:48:59,  3.51it/s] 39%|███▉      | 146314/371472 [33:34<16:56:50,  3.69it/s] 39%|███▉      | 146315/371472 [33:34<17:18:07,  3.61it/s] 39%|███▉      | 146316/371472 [33:34<17:25:47,  3.59it/s] 39%|███▉      | 146317/371472 [33:35<17:19:08,  3.61it/s] 39%|███▉      | 146318/371472 [33:35<16:41:14,  3.75it/s] 39%|███▉      | 146319/371472 [33:35<16:28:48,  3.80it/s] 39%|███▉      | 146320/371472 [33:35<17:16:41,  3.62it/s]                                                          {'loss': 3.1774, 'learning_rate': 6.457906871511991e-07, 'epoch': 6.3}
 39%|███▉      | 146320/371472 [33:35<17:16:41,  3.62it/s] 39%|███▉      | 146321/371472 [33:36<17:12:57,  3.63it/s] 39%|███▉      | 146322/371472 [33:36<17:39:10,  3.54it/s] 39%|███▉      | 146323/371472 [33:36<17:35:40,  3.55it/s] 39%|███▉      | 146324/371472 [33:37<17:52:18,  3.50it/s] 39%|███▉      | 146325/371472 [33:37<18:02:45,  3.47it/s] 39%|███▉      | 146326/371472 [33:37<17:21:01,  3.60it/s] 39%|███▉      | 146327/371472 [33:37<16:59:43,  3.68it/s] 39%|███▉      | 146328/371472 [33:38<17:00:07,  3.68it/s] 39%|███▉      | 146329/371472 [33:38<16:20:45,  3.83it/s] 39%|███▉      | 146330/371472 [33:38<15:57:37,  3.92it/s] 39%|███▉      | 146331/371472 [33:38<16:12:18,  3.86it/s] 39%|███▉      | 146332/371472 [33:39<16:20:53,  3.83it/s] 39%|███▉      | 146333/371472 [33:39<16:10:41,  3.87it/s] 39%|███▉      | 146334/371472 [33:39<16:48:39,  3.72it/s] 39%|███▉      | 146335/371472 [33:39<16:35:44,  3.77it/s] 39%|███▉      | 146336/371472 [33:40<16:21:13,  3.82it/s] 39%|███▉      | 146337/371472 [33:40<16:34:40,  3.77it/s] 39%|███▉      | 146338/371472 [33:40<16:11:57,  3.86it/s] 39%|███▉      | 146339/371472 [33:40<16:37:45,  3.76it/s] 39%|███▉      | 146340/371472 [33:41<17:00:27,  3.68it/s]                                                          {'loss': 3.2371, 'learning_rate': 6.457422051757202e-07, 'epoch': 6.3}
 39%|███▉      | 146340/371472 [33:41<17:00:27,  3.68it/s] 39%|███▉      | 146341/371472 [33:41<17:00:23,  3.68it/s] 39%|███▉      | 146342/371472 [33:41<17:39:06,  3.54it/s] 39%|███▉      | 146343/371472 [33:42<17:37:12,  3.55it/s] 39%|███▉      | 146344/371472 [33:42<17:55:30,  3.49it/s] 39%|███▉      | 146345/371472 [33:42<17:42:01,  3.53it/s] 39%|███▉      | 146346/371472 [33:42<17:45:18,  3.52it/s] 39%|███▉      | 146347/371472 [33:43<17:23:03,  3.60it/s] 39%|███▉      | 146348/371472 [33:43<17:39:19,  3.54it/s] 39%|███▉      | 146349/371472 [33:43<17:46:33,  3.52it/s] 39%|███▉      | 146350/371472 [33:44<17:29:33,  3.57it/s] 39%|███▉      | 146351/371472 [33:44<16:53:45,  3.70it/s] 39%|███▉      | 146352/371472 [33:44<17:49:42,  3.51it/s] 39%|███▉      | 146353/371472 [33:44<18:32:32,  3.37it/s] 39%|███▉      | 146354/371472 [33:45<18:18:08,  3.42it/s] 39%|███▉      | 146355/371472 [33:45<18:25:12,  3.39it/s] 39%|███▉      | 146356/371472 [33:45<18:22:39,  3.40it/s] 39%|███▉      | 146357/371472 [33:46<17:18:49,  3.61it/s] 39%|███▉      | 146358/371472 [33:46<18:16:00,  3.42it/s] 39%|███▉      | 146359/371472 [33:46<18:51:22,  3.32it/s] 39%|███▉      | 146360/371472 [33:47<18:08:18,  3.45it/s]                                                          {'loss': 3.324, 'learning_rate': 6.456937232002412e-07, 'epoch': 6.3}
 39%|███▉      | 146360/371472 [33:47<18:08:18,  3.45it/s] 39%|███▉      | 146361/371472 [33:47<18:13:45,  3.43it/s] 39%|███▉      | 146362/371472 [33:47<17:50:52,  3.50it/s] 39%|███▉      | 146363/371472 [33:47<17:20:17,  3.61it/s] 39%|███▉      | 146364/371472 [33:48<17:48:38,  3.51it/s] 39%|███▉      | 146365/371472 [33:48<17:12:13,  3.63it/s] 39%|███▉      | 146366/371472 [33:48<16:49:20,  3.72it/s] 39%|███▉      | 146367/371472 [33:48<17:19:15,  3.61it/s] 39%|███▉      | 146368/371472 [33:49<17:23:02,  3.60it/s] 39%|███▉      | 146369/371472 [33:49<17:28:30,  3.58it/s] 39%|███▉      | 146370/371472 [33:49<17:52:20,  3.50it/s] 39%|███▉      | 146371/371472 [33:50<17:31:12,  3.57it/s] 39%|███▉      | 146372/371472 [33:50<17:43:25,  3.53it/s] 39%|███▉      | 146373/371472 [33:50<17:16:07,  3.62it/s] 39%|███▉      | 146374/371472 [33:50<17:33:28,  3.56it/s] 39%|███▉      | 146375/371472 [33:51<17:20:28,  3.61it/s] 39%|███▉      | 146376/371472 [33:51<16:49:15,  3.72it/s] 39%|███▉      | 146377/371472 [33:51<16:46:37,  3.73it/s] 39%|███▉      | 146378/371472 [33:51<16:56:50,  3.69it/s] 39%|███▉      | 146379/371472 [33:52<17:20:10,  3.61it/s] 39%|███▉      | 146380/371472 [33:52<17:20:01,  3.61it/s]                                                          {'loss': 3.2987, 'learning_rate': 6.456452412247624e-07, 'epoch': 6.3}
 39%|███▉      | 146380/371472 [33:52<17:20:01,  3.61it/s] 39%|███▉      | 146381/371472 [33:52<17:52:48,  3.50it/s] 39%|███▉      | 146382/371472 [33:53<18:59:23,  3.29it/s] 39%|███▉      | 146383/371472 [33:53<18:49:22,  3.32it/s] 39%|███▉      | 146384/371472 [33:53<19:41:40,  3.17it/s] 39%|███▉      | 146385/371472 [33:54<18:58:10,  3.30it/s] 39%|███▉      | 146386/371472 [33:54<17:59:27,  3.48it/s] 39%|███▉      | 146387/371472 [33:54<18:41:18,  3.35it/s] 39%|███▉      | 146388/371472 [33:55<18:38:14,  3.35it/s] 39%|███▉      | 146389/371472 [33:55<18:19:05,  3.41it/s] 39%|███▉      | 146390/371472 [33:55<18:31:58,  3.37it/s] 39%|███▉      | 146391/371472 [33:55<18:33:41,  3.37it/s] 39%|███▉      | 146392/371472 [33:56<18:40:39,  3.35it/s] 39%|███▉      | 146393/371472 [33:56<18:04:50,  3.46it/s] 39%|███▉      | 146394/371472 [33:56<18:12:03,  3.44it/s] 39%|███▉      | 146395/371472 [33:57<18:32:02,  3.37it/s] 39%|███▉      | 146396/371472 [33:57<18:40:47,  3.35it/s] 39%|███▉      | 146397/371472 [33:57<18:13:50,  3.43it/s] 39%|███▉      | 146398/371472 [33:57<17:48:46,  3.51it/s] 39%|███▉      | 146399/371472 [33:58<17:40:23,  3.54it/s] 39%|███▉      | 146400/371472 [33:58<18:18:06,  3.42it/s]                                                          {'loss': 3.2528, 'learning_rate': 6.455967592492836e-07, 'epoch': 6.31}
 39%|███▉      | 146400/371472 [33:58<18:18:06,  3.42it/s] 39%|███▉      | 146401/371472 [33:58<20:21:37,  3.07it/s] 39%|███▉      | 146402/371472 [33:59<18:59:44,  3.29it/s] 39%|███▉      | 146403/371472 [33:59<18:18:06,  3.42it/s] 39%|███▉      | 146404/371472 [33:59<17:42:38,  3.53it/s] 39%|███▉      | 146405/371472 [34:00<22:20:20,  2.80it/s] 39%|███▉      | 146406/371472 [34:00<21:12:18,  2.95it/s] 39%|███▉      | 146407/371472 [34:00<19:40:07,  3.18it/s] 39%|███▉      | 146408/371472 [34:01<18:48:45,  3.32it/s] 39%|███▉      | 146409/371472 [34:01<18:02:08,  3.47it/s] 39%|███▉      | 146410/371472 [34:01<17:30:57,  3.57it/s] 39%|███▉      | 146411/371472 [34:01<17:43:57,  3.53it/s] 39%|███▉      | 146412/371472 [34:02<17:32:54,  3.56it/s] 39%|███▉      | 146413/371472 [34:02<19:27:01,  3.21it/s] 39%|███▉      | 146414/371472 [34:02<19:02:26,  3.28it/s] 39%|███▉      | 146415/371472 [34:03<18:41:08,  3.35it/s] 39%|███▉      | 146416/371472 [34:03<18:02:01,  3.47it/s] 39%|███▉      | 146417/371472 [34:03<19:36:21,  3.19it/s] 39%|███▉      | 146418/371472 [34:03<18:20:26,  3.41it/s] 39%|███▉      | 146419/371472 [34:04<17:57:14,  3.48it/s] 39%|███▉      | 146420/371472 [34:04<17:59:35,  3.47it/s]                                                          {'loss': 3.4035, 'learning_rate': 6.455482772738047e-07, 'epoch': 6.31}
 39%|███▉      | 146420/371472 [34:04<17:59:35,  3.47it/s] 39%|███▉      | 146421/371472 [34:04<18:17:19,  3.42it/s] 39%|███▉      | 146422/371472 [34:05<17:36:02,  3.55it/s] 39%|███▉      | 146423/371472 [34:05<17:50:20,  3.50it/s] 39%|███▉      | 146424/371472 [34:05<17:37:00,  3.55it/s] 39%|███▉      | 146425/371472 [34:05<17:00:34,  3.68it/s] 39%|███▉      | 146426/371472 [34:06<18:33:58,  3.37it/s] 39%|███▉      | 146427/371472 [34:06<17:48:58,  3.51it/s] 39%|███▉      | 146428/371472 [34:06<17:24:51,  3.59it/s] 39%|███▉      | 146429/371472 [34:07<17:33:53,  3.56it/s] 39%|███▉      | 146430/371472 [34:07<18:08:11,  3.45it/s] 39%|███▉      | 146431/371472 [34:07<18:11:54,  3.43it/s] 39%|███▉      | 146432/371472 [34:07<18:15:08,  3.42it/s] 39%|███▉      | 146433/371472 [34:08<17:49:00,  3.51it/s] 39%|███▉      | 146434/371472 [34:08<17:52:50,  3.50it/s] 39%|███▉      | 146435/371472 [34:08<17:29:19,  3.57it/s] 39%|███▉      | 146436/371472 [34:09<18:18:43,  3.41it/s] 39%|███▉      | 146437/371472 [34:09<17:38:59,  3.54it/s] 39%|███▉      | 146438/371472 [34:09<18:08:47,  3.44it/s] 39%|███▉      | 146439/371472 [34:09<17:37:52,  3.55it/s] 39%|███▉      | 146440/371472 [34:10<17:36:23,  3.55it/s]                                                          {'loss': 3.2211, 'learning_rate': 6.454997952983257e-07, 'epoch': 6.31}
 39%|███▉      | 146440/371472 [34:10<17:36:23,  3.55it/s] 39%|███▉      | 146441/371472 [34:10<18:02:04,  3.47it/s] 39%|███▉      | 146442/371472 [34:10<18:09:52,  3.44it/s] 39%|███▉      | 146443/371472 [34:11<17:44:30,  3.52it/s] 39%|███▉      | 146444/371472 [34:11<17:26:22,  3.58it/s] 39%|███▉      | 146445/371472 [34:11<17:11:17,  3.64it/s] 39%|███▉      | 146446/371472 [34:11<16:49:26,  3.72it/s] 39%|███▉      | 146447/371472 [34:12<17:45:03,  3.52it/s] 39%|███▉      | 146448/371472 [34:12<18:01:25,  3.47it/s] 39%|███▉      | 146449/371472 [34:12<17:46:31,  3.52it/s] 39%|███▉      | 146450/371472 [34:13<17:50:51,  3.50it/s] 39%|███▉      | 146451/371472 [34:13<17:20:00,  3.61it/s] 39%|███▉      | 146452/371472 [34:13<16:56:59,  3.69it/s] 39%|███▉      | 146453/371472 [34:13<18:32:26,  3.37it/s] 39%|███▉      | 146454/371472 [34:14<18:17:41,  3.42it/s] 39%|███▉      | 146455/371472 [34:14<18:34:47,  3.36it/s] 39%|███▉      | 146456/371472 [34:14<17:53:44,  3.49it/s] 39%|███▉      | 146457/371472 [34:15<18:28:23,  3.38it/s] 39%|███▉      | 146458/371472 [34:15<17:38:27,  3.54it/s] 39%|███▉      | 146459/371472 [34:15<18:39:24,  3.35it/s] 39%|███▉      | 146460/371472 [34:15<18:39:28,  3.35it/s]                                                          {'loss': 3.0998, 'learning_rate': 6.454513133228468e-07, 'epoch': 6.31}
 39%|███▉      | 146460/371472 [34:15<18:39:28,  3.35it/s] 39%|███▉      | 146461/371472 [34:16<19:26:57,  3.21it/s] 39%|███▉      | 146462/371472 [34:16<18:57:12,  3.30it/s] 39%|███▉      | 146463/371472 [34:16<18:36:13,  3.36it/s] 39%|███▉      | 146464/371472 [34:17<18:42:34,  3.34it/s] 39%|███▉      | 146465/371472 [34:17<18:09:53,  3.44it/s] 39%|███▉      | 146466/371472 [34:17<17:29:06,  3.57it/s] 39%|███▉      | 146467/371472 [34:18<18:01:27,  3.47it/s] 39%|███▉      | 146468/371472 [34:18<17:58:12,  3.48it/s] 39%|███▉      | 146469/371472 [34:18<18:08:28,  3.45it/s] 39%|███▉      | 146470/371472 [34:18<19:14:37,  3.25it/s] 39%|███▉      | 146471/371472 [34:19<18:25:16,  3.39it/s] 39%|███▉      | 146472/371472 [34:19<17:28:43,  3.58it/s] 39%|███▉      | 146473/371472 [34:19<17:15:34,  3.62it/s] 39%|███▉      | 146474/371472 [34:19<16:44:17,  3.73it/s] 39%|███▉      | 146475/371472 [34:20<17:07:07,  3.65it/s] 39%|███▉      | 146476/371472 [34:20<17:54:56,  3.49it/s] 39%|███▉      | 146477/371472 [34:20<17:27:46,  3.58it/s] 39%|███▉      | 146478/371472 [34:21<16:52:52,  3.70it/s] 39%|███▉      | 146479/371472 [34:21<18:35:45,  3.36it/s] 39%|███▉      | 146480/371472 [34:21<18:39:22,  3.35it/s]                                                          {'loss': 3.3211, 'learning_rate': 6.454028313473679e-07, 'epoch': 6.31}
 39%|███▉      | 146480/371472 [34:21<18:39:22,  3.35it/s] 39%|███▉      | 146481/371472 [34:22<17:48:12,  3.51it/s] 39%|███▉      | 146482/371472 [34:22<17:47:56,  3.51it/s] 39%|███▉      | 146483/371472 [34:22<17:37:56,  3.54it/s] 39%|███▉      | 146484/371472 [34:22<16:56:35,  3.69it/s] 39%|███▉      | 146485/371472 [34:23<16:42:12,  3.74it/s] 39%|███▉      | 146486/371472 [34:23<16:21:11,  3.82it/s] 39%|███▉      | 146487/371472 [34:23<16:25:44,  3.80it/s] 39%|███▉      | 146488/371472 [34:23<17:10:21,  3.64it/s] 39%|███▉      | 146489/371472 [34:24<17:30:36,  3.57it/s] 39%|███▉      | 146490/371472 [34:24<16:48:11,  3.72it/s] 39%|███▉      | 146491/371472 [34:24<16:56:57,  3.69it/s] 39%|███▉      | 146492/371472 [34:25<17:50:03,  3.50it/s] 39%|███▉      | 146493/371472 [34:25<17:15:58,  3.62it/s] 39%|███▉      | 146494/371472 [34:25<17:38:27,  3.54it/s] 39%|███▉      | 146495/371472 [34:25<17:14:21,  3.63it/s] 39%|███▉      | 146496/371472 [34:26<16:52:30,  3.70it/s] 39%|███▉      | 146497/371472 [34:26<17:40:23,  3.54it/s] 39%|███▉      | 146498/371472 [34:26<17:53:06,  3.49it/s] 39%|███▉      | 146499/371472 [34:26<18:00:06,  3.47it/s] 39%|███▉      | 146500/371472 [34:27<17:28:03,  3.58it/s]                                                          {'loss': 3.361, 'learning_rate': 6.45354349371889e-07, 'epoch': 6.31}
 39%|███▉      | 146500/371472 [34:27<17:28:03,  3.58it/s] 39%|███▉      | 146501/371472 [34:27<18:36:44,  3.36it/s] 39%|███▉      | 146502/371472 [34:27<18:22:48,  3.40it/s] 39%|███▉      | 146503/371472 [34:28<19:00:49,  3.29it/s] 39%|███▉      | 146504/371472 [34:28<18:13:52,  3.43it/s] 39%|███▉      | 146505/371472 [34:28<17:45:51,  3.52it/s] 39%|███▉      | 146506/371472 [34:29<17:35:30,  3.55it/s] 39%|███▉      | 146507/371472 [34:29<18:11:20,  3.44it/s] 39%|███▉      | 146508/371472 [34:29<17:41:12,  3.53it/s] 39%|███▉      | 146509/371472 [34:29<17:45:37,  3.52it/s] 39%|███▉      | 146510/371472 [34:30<17:36:50,  3.55it/s] 39%|███▉      | 146511/371472 [34:30<17:25:02,  3.59it/s] 39%|███▉      | 146512/371472 [34:30<18:10:48,  3.44it/s] 39%|███▉      | 146513/371472 [34:31<17:55:51,  3.48it/s] 39%|███▉      | 146514/371472 [34:31<17:38:17,  3.54it/s] 39%|███▉      | 146515/371472 [34:31<18:27:00,  3.39it/s] 39%|███▉      | 146516/371472 [34:31<17:47:04,  3.51it/s] 39%|███▉      | 146517/371472 [34:32<19:03:28,  3.28it/s] 39%|███▉      | 146518/371472 [34:32<18:30:30,  3.38it/s] 39%|███▉      | 146519/371472 [34:32<18:40:16,  3.35it/s] 39%|███▉      | 146520/371472 [34:33<17:55:55,  3.48it/s]                                                          {'loss': 3.1231, 'learning_rate': 6.453058673964101e-07, 'epoch': 6.31}
 39%|███▉      | 146520/371472 [34:33<17:55:55,  3.48it/s] 39%|███▉      | 146521/371472 [34:33<18:11:01,  3.44it/s] 39%|███▉      | 146522/371472 [34:33<18:02:22,  3.46it/s] 39%|███▉      | 146523/371472 [34:33<17:38:46,  3.54it/s] 39%|███▉      | 146524/371472 [34:34<19:38:48,  3.18it/s] 39%|███▉      | 146525/371472 [34:34<18:43:42,  3.34it/s] 39%|███▉      | 146526/371472 [34:34<18:36:53,  3.36it/s] 39%|███▉      | 146527/371472 [34:35<18:46:22,  3.33it/s] 39%|███▉      | 146528/371472 [34:35<18:07:25,  3.45it/s] 39%|███▉      | 146529/371472 [34:35<17:46:40,  3.51it/s] 39%|███▉      | 146530/371472 [34:35<17:26:46,  3.58it/s] 39%|███▉      | 146531/371472 [34:36<16:49:36,  3.71it/s] 39%|███▉      | 146532/371472 [34:36<17:28:02,  3.58it/s] 39%|███▉      | 146533/371472 [34:36<17:20:10,  3.60it/s] 39%|███▉      | 146534/371472 [34:37<19:02:59,  3.28it/s] 39%|███▉      | 146535/371472 [34:37<18:39:20,  3.35it/s] 39%|███▉      | 146536/371472 [34:37<18:26:16,  3.39it/s] 39%|███▉      | 146537/371472 [34:38<17:41:00,  3.53it/s] 39%|███▉      | 146538/371472 [34:38<17:25:08,  3.59it/s] 39%|███▉      | 146539/371472 [34:38<17:09:38,  3.64it/s] 39%|███▉      | 146540/371472 [34:38<17:12:12,  3.63it/s]                                                          {'loss': 3.2519, 'learning_rate': 6.452573854209313e-07, 'epoch': 6.31}
 39%|███▉      | 146540/371472 [34:38<17:12:12,  3.63it/s] 39%|███▉      | 146541/371472 [34:39<16:39:41,  3.75it/s] 39%|███▉      | 146542/371472 [34:39<18:01:17,  3.47it/s] 39%|███▉      | 146543/371472 [34:39<17:15:15,  3.62it/s] 39%|███▉      | 146544/371472 [34:39<18:16:29,  3.42it/s] 39%|███▉      | 146545/371472 [34:40<17:40:32,  3.53it/s] 39%|███▉      | 146546/371472 [34:40<17:17:29,  3.61it/s] 39%|███▉      | 146547/371472 [34:40<16:36:03,  3.76it/s] 39%|███▉      | 146548/371472 [34:40<16:30:56,  3.78it/s] 39%|███▉      | 146549/371472 [34:41<16:22:35,  3.82it/s] 39%|███▉      | 146550/371472 [34:41<17:35:39,  3.55it/s] 39%|███▉      | 146551/371472 [34:41<17:29:11,  3.57it/s] 39%|███▉      | 146552/371472 [34:42<16:31:09,  3.78it/s] 39%|███▉      | 146553/371472 [34:42<16:27:34,  3.80it/s] 39%|███▉      | 146554/371472 [34:42<17:12:08,  3.63it/s] 39%|███▉      | 146555/371472 [34:42<17:13:07,  3.63it/s] 39%|███▉      | 146556/371472 [34:43<17:11:28,  3.63it/s] 39%|███▉      | 146557/371472 [34:43<17:18:05,  3.61it/s] 39%|███▉      | 146558/371472 [34:43<17:34:49,  3.55it/s] 39%|███▉      | 146559/371472 [34:44<17:18:59,  3.61it/s] 39%|███▉      | 146560/371472 [34:44<16:52:42,  3.70it/s]                                                          {'loss': 3.27, 'learning_rate': 6.452089034454524e-07, 'epoch': 6.31}
 39%|███▉      | 146560/371472 [34:44<16:52:42,  3.70it/s] 39%|███▉      | 146561/371472 [34:44<17:34:01,  3.56it/s] 39%|███▉      | 146562/371472 [34:44<16:49:27,  3.71it/s] 39%|███▉      | 146563/371472 [34:45<17:07:55,  3.65it/s] 39%|███▉      | 146564/371472 [34:45<16:42:00,  3.74it/s] 39%|███▉      | 146565/371472 [34:45<16:58:54,  3.68it/s] 39%|███▉      | 146566/371472 [34:45<17:07:29,  3.65it/s] 39%|███▉      | 146567/371472 [34:46<16:48:20,  3.72it/s] 39%|███▉      | 146568/371472 [34:46<18:10:36,  3.44it/s] 39%|███▉      | 146569/371472 [34:46<17:25:09,  3.59it/s] 39%|███▉      | 146570/371472 [34:47<17:38:51,  3.54it/s] 39%|███▉      | 146571/371472 [34:47<17:49:11,  3.51it/s] 39%|███▉      | 146572/371472 [34:47<17:47:25,  3.51it/s] 39%|███▉      | 146573/371472 [34:48<19:24:05,  3.22it/s] 39%|███▉      | 146574/371472 [34:48<19:13:42,  3.25it/s] 39%|███▉      | 146575/371472 [34:48<18:21:38,  3.40it/s] 39%|███▉      | 146576/371472 [34:48<19:56:02,  3.13it/s] 39%|███▉      | 146577/371472 [34:49<19:26:12,  3.21it/s] 39%|███▉      | 146578/371472 [34:49<19:38:35,  3.18it/s] 39%|███▉      | 146579/371472 [34:49<20:18:54,  3.08it/s] 39%|███▉      | 146580/371472 [34:50<19:20:04,  3.23it/s]                                                          {'loss': 3.1503, 'learning_rate': 6.451604214699734e-07, 'epoch': 6.31}
 39%|███▉      | 146580/371472 [34:50<19:20:04,  3.23it/s] 39%|███▉      | 146581/371472 [34:50<18:42:32,  3.34it/s] 39%|███▉      | 146582/371472 [34:50<18:59:15,  3.29it/s] 39%|███▉      | 146583/371472 [34:51<19:02:28,  3.28it/s] 39%|███▉      | 146584/371472 [34:51<18:29:19,  3.38it/s] 39%|███▉      | 146585/371472 [34:51<18:38:47,  3.35it/s] 39%|███▉      | 146586/371472 [34:51<18:05:34,  3.45it/s] 39%|███▉      | 146587/371472 [34:52<17:07:34,  3.65it/s] 39%|███▉      | 146588/371472 [34:52<16:46:40,  3.72it/s] 39%|███▉      | 146589/371472 [34:52<18:41:05,  3.34it/s] 39%|███▉      | 146590/371472 [34:53<18:28:39,  3.38it/s] 39%|███▉      | 146591/371472 [34:53<18:05:38,  3.45it/s] 39%|███▉      | 146592/371472 [34:53<17:47:48,  3.51it/s] 39%|███▉      | 146593/371472 [34:54<20:15:50,  3.08it/s] 39%|███▉      | 146594/371472 [34:54<18:44:44,  3.33it/s] 39%|███▉      | 146595/371472 [34:54<18:56:15,  3.30it/s] 39%|███▉      | 146596/371472 [34:54<19:35:04,  3.19it/s] 39%|███▉      | 146597/371472 [34:55<18:34:06,  3.36it/s] 39%|███▉      | 146598/371472 [34:55<18:00:37,  3.47it/s] 39%|███▉      | 146599/371472 [34:55<17:35:15,  3.55it/s] 39%|███▉      | 146600/371472 [34:56<18:47:30,  3.32it/s]                                                          {'loss': 3.1771, 'learning_rate': 6.451119394944945e-07, 'epoch': 6.31}
 39%|███▉      | 146600/371472 [34:56<18:47:30,  3.32it/s] 39%|███▉      | 146601/371472 [34:56<18:00:06,  3.47it/s] 39%|███▉      | 146602/371472 [34:56<17:32:39,  3.56it/s] 39%|███▉      | 146603/371472 [34:56<17:56:03,  3.48it/s] 39%|███▉      | 146604/371472 [34:57<18:00:39,  3.47it/s] 39%|███▉      | 146605/371472 [34:57<17:53:55,  3.49it/s] 39%|███▉      | 146606/371472 [34:57<17:43:57,  3.52it/s] 39%|███▉      | 146607/371472 [34:58<18:29:26,  3.38it/s] 39%|███▉      | 146608/371472 [34:58<18:12:06,  3.43it/s] 39%|███▉      | 146609/371472 [34:58<17:29:12,  3.57it/s] 39%|███▉      | 146610/371472 [34:58<17:49:48,  3.50it/s] 39%|███▉      | 146611/371472 [34:59<17:40:31,  3.53it/s] 39%|███▉      | 146612/371472 [34:59<17:31:35,  3.56it/s] 39%|███▉      | 146613/371472 [34:59<17:37:56,  3.54it/s] 39%|███▉      | 146614/371472 [35:00<18:03:09,  3.46it/s] 39%|███▉      | 146615/371472 [35:00<19:40:05,  3.18it/s] 39%|███▉      | 146616/371472 [35:00<18:22:57,  3.40it/s] 39%|███▉      | 146617/371472 [35:01<18:32:29,  3.37it/s] 39%|███▉      | 146618/371472 [35:01<17:38:10,  3.54it/s] 39%|███▉      | 146619/371472 [35:01<17:10:07,  3.64it/s] 39%|███▉      | 146620/371472 [35:01<17:15:40,  3.62it/s]                                                          {'loss': 3.3125, 'learning_rate': 6.450634575190157e-07, 'epoch': 6.32}
 39%|███▉      | 146620/371472 [35:01<17:15:40,  3.62it/s] 39%|███▉      | 146621/371472 [35:02<17:01:52,  3.67it/s] 39%|███▉      | 146622/371472 [35:02<16:43:56,  3.73it/s] 39%|███▉      | 146623/371472 [35:02<17:54:06,  3.49it/s] 39%|███▉      | 146624/371472 [35:02<17:18:46,  3.61it/s] 39%|███▉      | 146625/371472 [35:03<18:21:16,  3.40it/s] 39%|███▉      | 146626/371472 [35:03<17:50:48,  3.50it/s] 39%|███▉      | 146627/371472 [35:03<17:33:27,  3.56it/s] 39%|███▉      | 146628/371472 [35:04<17:23:02,  3.59it/s] 39%|███▉      | 146629/371472 [35:04<18:29:54,  3.38it/s] 39%|███▉      | 146630/371472 [35:04<18:47:14,  3.32it/s] 39%|███▉      | 146631/371472 [35:04<18:26:53,  3.39it/s] 39%|███▉      | 146632/371472 [35:05<20:36:55,  3.03it/s] 39%|███▉      | 146633/371472 [35:05<20:52:08,  2.99it/s] 39%|███▉      | 146634/371472 [35:05<19:44:19,  3.16it/s] 39%|███▉      | 146635/371472 [35:06<18:43:51,  3.33it/s] 39%|███▉      | 146636/371472 [35:06<17:56:40,  3.48it/s] 39%|███▉      | 146637/371472 [35:06<18:37:44,  3.35it/s] 39%|███▉      | 146638/371472 [35:07<19:01:17,  3.28it/s] 39%|███▉      | 146639/371472 [35:07<18:53:13,  3.31it/s] 39%|███▉      | 146640/371472 [35:07<18:25:33,  3.39it/s]                                                          {'loss': 3.4783, 'learning_rate': 6.450149755435368e-07, 'epoch': 6.32}
 39%|███▉      | 146640/371472 [35:07<18:25:33,  3.39it/s] 39%|███▉      | 146641/371472 [35:07<17:40:56,  3.53it/s] 39%|███▉      | 146642/371472 [35:08<17:17:45,  3.61it/s] 39%|███▉      | 146643/371472 [35:08<17:12:53,  3.63it/s] 39%|███▉      | 146644/371472 [35:08<16:30:14,  3.78it/s] 39%|███▉      | 146645/371472 [35:09<16:36:18,  3.76it/s] 39%|███▉      | 146646/371472 [35:09<17:32:19,  3.56it/s] 39%|███▉      | 146647/371472 [35:09<18:08:39,  3.44it/s] 39%|███▉      | 146648/371472 [35:09<17:47:14,  3.51it/s] 39%|███▉      | 146649/371472 [35:10<18:12:57,  3.43it/s] 39%|███▉      | 146650/371472 [35:10<18:17:46,  3.41it/s] 39%|███▉      | 146651/371472 [35:10<18:33:42,  3.36it/s] 39%|███▉      | 146652/371472 [35:11<18:56:23,  3.30it/s] 39%|███▉      | 146653/371472 [35:11<20:05:31,  3.11it/s] 39%|███▉      | 146654/371472 [35:11<19:19:12,  3.23it/s] 39%|███▉      | 146655/371472 [35:12<18:33:01,  3.37it/s] 39%|███▉      | 146656/371472 [35:12<17:41:42,  3.53it/s] 39%|███▉      | 146657/371472 [35:12<17:08:10,  3.64it/s] 39%|███▉      | 146658/371472 [35:12<16:52:19,  3.70it/s] 39%|███▉      | 146659/371472 [35:13<17:43:42,  3.52it/s] 39%|███▉      | 146660/371472 [35:13<17:44:06,  3.52it/s]                                                          {'loss': 3.1687, 'learning_rate': 6.449664935680578e-07, 'epoch': 6.32}
 39%|███▉      | 146660/371472 [35:13<17:44:06,  3.52it/s] 39%|███▉      | 146661/371472 [35:13<17:39:11,  3.54it/s] 39%|███▉      | 146662/371472 [35:14<17:52:39,  3.49it/s] 39%|███▉      | 146663/371472 [35:14<17:29:04,  3.57it/s] 39%|███▉      | 146664/371472 [35:14<17:51:03,  3.50it/s] 39%|███▉      | 146665/371472 [35:14<18:31:55,  3.37it/s] 39%|███▉      | 146666/371472 [35:15<18:24:25,  3.39it/s] 39%|███▉      | 146667/371472 [35:15<18:17:46,  3.41it/s] 39%|███▉      | 146668/371472 [35:15<17:36:46,  3.55it/s] 39%|███▉      | 146669/371472 [35:16<17:29:20,  3.57it/s] 39%|███▉      | 146670/371472 [35:16<17:53:33,  3.49it/s] 39%|███▉      | 146671/371472 [35:16<17:38:28,  3.54it/s] 39%|███▉      | 146672/371472 [35:16<17:15:18,  3.62it/s] 39%|███▉      | 146673/371472 [35:17<17:18:59,  3.61it/s] 39%|███▉      | 146674/371472 [35:17<18:08:40,  3.44it/s] 39%|███▉      | 146675/371472 [35:17<18:55:00,  3.30it/s] 39%|███▉      | 146676/371472 [35:18<19:13:01,  3.25it/s] 39%|███▉      | 146677/371472 [35:18<18:23:15,  3.40it/s] 39%|███▉      | 146678/371472 [35:18<18:08:09,  3.44it/s] 39%|███▉      | 146679/371472 [35:18<17:59:27,  3.47it/s] 39%|███▉      | 146680/371472 [35:19<17:24:30,  3.59it/s]                                                          {'loss': 3.1388, 'learning_rate': 6.449180115925791e-07, 'epoch': 6.32}
 39%|███▉      | 146680/371472 [35:19<17:24:30,  3.59it/s] 39%|███▉      | 146681/371472 [35:19<18:06:25,  3.45it/s] 39%|███▉      | 146682/371472 [35:19<17:36:43,  3.55it/s] 39%|███▉      | 146683/371472 [35:20<17:33:02,  3.56it/s] 39%|███▉      | 146684/371472 [35:20<17:28:12,  3.57it/s] 39%|███▉      | 146685/371472 [35:20<17:39:55,  3.53it/s] 39%|███▉      | 146686/371472 [35:20<18:18:35,  3.41it/s] 39%|███▉      | 146687/371472 [35:21<18:18:25,  3.41it/s] 39%|███▉      | 146688/371472 [35:21<17:56:29,  3.48it/s] 39%|███▉      | 146689/371472 [35:21<18:26:35,  3.39it/s] 39%|███▉      | 146690/371472 [35:22<17:48:14,  3.51it/s] 39%|███▉      | 146691/371472 [35:22<18:05:15,  3.45it/s] 39%|███▉      | 146692/371472 [35:22<18:41:33,  3.34it/s] 39%|███▉      | 146693/371472 [35:22<18:21:56,  3.40it/s] 39%|███▉      | 146694/371472 [35:23<18:17:01,  3.41it/s] 39%|███▉      | 146695/371472 [35:23<18:22:27,  3.40it/s] 39%|███▉      | 146696/371472 [35:23<17:38:44,  3.54it/s] 39%|███▉      | 146697/371472 [35:24<19:50:10,  3.15it/s] 39%|███▉      | 146698/371472 [35:24<18:34:00,  3.36it/s] 39%|███▉      | 146699/371472 [35:24<18:22:37,  3.40it/s] 39%|███▉      | 146700/371472 [35:25<18:30:26,  3.37it/s]                                                          {'loss': 3.1579, 'learning_rate': 6.448695296171001e-07, 'epoch': 6.32}
 39%|███▉      | 146700/371472 [35:25<18:30:26,  3.37it/s] 39%|███▉      | 146701/371472 [35:25<18:45:28,  3.33it/s] 39%|███▉      | 146702/371472 [35:25<18:20:12,  3.40it/s] 39%|███▉      | 146703/371472 [35:25<17:47:58,  3.51it/s] 39%|███▉      | 146704/371472 [35:26<17:22:38,  3.59it/s] 39%|███▉      | 146705/371472 [35:26<17:35:37,  3.55it/s] 39%|███▉      | 146706/371472 [35:26<19:28:41,  3.21it/s] 39%|███▉      | 146707/371472 [35:27<18:38:38,  3.35it/s] 39%|███▉      | 146708/371472 [35:27<18:35:54,  3.36it/s] 39%|███▉      | 146709/371472 [35:27<19:18:25,  3.23it/s] 39%|███▉      | 146710/371472 [35:28<19:15:52,  3.24it/s] 39%|███▉      | 146711/371472 [35:28<18:26:52,  3.38it/s] 39%|███▉      | 146712/371472 [35:28<17:41:59,  3.53it/s] 39%|███▉      | 146713/371472 [35:28<17:52:41,  3.49it/s] 39%|███▉      | 146714/371472 [35:29<17:35:43,  3.55it/s] 39%|███▉      | 146715/371472 [35:29<17:43:39,  3.52it/s] 39%|███▉      | 146716/371472 [35:29<17:07:06,  3.65it/s] 39%|███▉      | 146717/371472 [35:29<17:34:24,  3.55it/s] 39%|███▉      | 146718/371472 [35:30<18:46:30,  3.33it/s] 39%|███▉      | 146719/371472 [35:30<17:56:23,  3.48it/s] 39%|███▉      | 146720/371472 [35:30<17:41:47,  3.53it/s]                                                          {'loss': 3.3381, 'learning_rate': 6.448210476416212e-07, 'epoch': 6.32}
 39%|███▉      | 146720/371472 [35:30<17:41:47,  3.53it/s] 39%|███▉      | 146721/371472 [35:31<17:54:48,  3.49it/s] 39%|███▉      | 146722/371472 [35:31<17:29:06,  3.57it/s] 39%|███▉      | 146723/371472 [35:31<17:38:17,  3.54it/s] 39%|███▉      | 146724/371472 [35:31<17:16:51,  3.61it/s] 39%|███▉      | 146725/371472 [35:32<18:25:38,  3.39it/s] 39%|███▉      | 146726/371472 [35:32<18:02:12,  3.46it/s] 39%|███▉      | 146727/371472 [35:32<17:15:42,  3.62it/s] 39%|███▉      | 146728/371472 [35:33<17:07:47,  3.64it/s] 39%|███▉      | 146729/371472 [35:33<18:13:16,  3.43it/s] 39%|███▉      | 146730/371472 [35:33<17:36:03,  3.55it/s] 39%|███▉      | 146731/371472 [35:33<17:44:58,  3.52it/s] 40%|███▉      | 146732/371472 [35:34<17:22:26,  3.59it/s] 40%|███▉      | 146733/371472 [35:34<17:16:41,  3.61it/s] 40%|███▉      | 146734/371472 [35:34<17:30:43,  3.56it/s] 40%|███▉      | 146735/371472 [35:35<17:37:18,  3.54it/s] 40%|███▉      | 146736/371472 [35:35<18:29:01,  3.38it/s] 40%|███▉      | 146737/371472 [35:35<19:03:48,  3.27it/s] 40%|███▉      | 146738/371472 [35:36<18:46:23,  3.33it/s] 40%|███▉      | 146739/371472 [35:36<18:25:39,  3.39it/s] 40%|███▉      | 146740/371472 [35:36<18:31:57,  3.37it/s]                                                          {'loss': 3.1138, 'learning_rate': 6.447725656661422e-07, 'epoch': 6.32}
 40%|███▉      | 146740/371472 [35:36<18:31:57,  3.37it/s] 40%|███▉      | 146741/371472 [35:36<17:49:51,  3.50it/s] 40%|███▉      | 146742/371472 [35:37<17:28:20,  3.57it/s] 40%|███▉      | 146743/371472 [35:37<16:56:15,  3.69it/s] 40%|███▉      | 146744/371472 [35:37<16:27:36,  3.79it/s] 40%|███▉      | 146745/371472 [35:37<16:26:14,  3.80it/s] 40%|███▉      | 146746/371472 [35:38<15:57:32,  3.91it/s] 40%|███▉      | 146747/371472 [35:38<15:40:20,  3.98it/s] 40%|███▉      | 146748/371472 [35:38<16:15:18,  3.84it/s] 40%|███▉      | 146749/371472 [35:38<17:45:30,  3.52it/s] 40%|███▉      | 146750/371472 [35:39<17:04:07,  3.66it/s] 40%|███▉      | 146751/371472 [35:39<17:12:56,  3.63it/s] 40%|███▉      | 146752/371472 [35:39<18:04:00,  3.46it/s] 40%|███▉      | 146753/371472 [35:40<18:17:26,  3.41it/s] 40%|███▉      | 146754/371472 [35:40<17:24:38,  3.59it/s] 40%|███▉      | 146755/371472 [35:40<17:08:25,  3.64it/s] 40%|███▉      | 146756/371472 [35:40<17:04:33,  3.66it/s] 40%|███▉      | 146757/371472 [35:41<17:03:29,  3.66it/s] 40%|███▉      | 146758/371472 [35:41<17:01:35,  3.67it/s] 40%|███▉      | 146759/371472 [35:41<17:05:57,  3.65it/s] 40%|███▉      | 146760/371472 [35:42<17:03:45,  3.66it/s]                                                          {'loss': 3.398, 'learning_rate': 6.447240836906634e-07, 'epoch': 6.32}
 40%|███▉      | 146760/371472 [35:42<17:03:45,  3.66it/s] 40%|███▉      | 146761/371472 [35:42<16:36:15,  3.76it/s] 40%|███▉      | 146762/371472 [35:42<16:45:39,  3.72it/s] 40%|███▉      | 146763/371472 [35:42<17:20:25,  3.60it/s] 40%|███▉      | 146764/371472 [35:43<16:45:43,  3.72it/s] 40%|███▉      | 146765/371472 [35:43<16:10:18,  3.86it/s] 40%|███▉      | 146766/371472 [35:43<16:04:53,  3.88it/s] 40%|███▉      | 146767/371472 [35:43<16:19:11,  3.82it/s] 40%|███▉      | 146768/371472 [35:44<16:14:08,  3.84it/s] 40%|███▉      | 146769/371472 [35:44<16:22:29,  3.81it/s] 40%|███▉      | 146770/371472 [35:44<16:54:17,  3.69it/s] 40%|███▉      | 146771/371472 [35:44<17:28:36,  3.57it/s] 40%|███▉      | 146772/371472 [35:45<18:27:30,  3.38it/s] 40%|███▉      | 146773/371472 [35:45<18:18:52,  3.41it/s] 40%|███▉      | 146774/371472 [35:45<17:53:05,  3.49it/s] 40%|███▉      | 146775/371472 [35:46<18:20:37,  3.40it/s] 40%|███▉      | 146776/371472 [35:46<19:08:43,  3.26it/s] 40%|███▉      | 146777/371472 [35:46<18:21:07,  3.40it/s] 40%|███▉      | 146778/371472 [35:47<18:47:39,  3.32it/s] 40%|███▉      | 146779/371472 [35:47<18:52:43,  3.31it/s] 40%|███▉      | 146780/371472 [35:47<18:12:03,  3.43it/s]                                                          {'loss': 3.2381, 'learning_rate': 6.446756017151846e-07, 'epoch': 6.32}
 40%|███▉      | 146780/371472 [35:47<18:12:03,  3.43it/s] 40%|███▉      | 146781/371472 [35:48<19:26:37,  3.21it/s] 40%|███▉      | 146782/371472 [35:48<20:20:10,  3.07it/s] 40%|███▉      | 146783/371472 [35:48<21:37:38,  2.89it/s] 40%|███▉      | 146784/371472 [35:49<20:59:30,  2.97it/s] 40%|███▉      | 146785/371472 [35:49<19:40:17,  3.17it/s] 40%|███▉      | 146786/371472 [35:49<19:01:07,  3.28it/s] 40%|███▉      | 146787/371472 [35:49<18:51:33,  3.31it/s] 40%|███▉      | 146788/371472 [35:50<18:40:39,  3.34it/s] 40%|███▉      | 146789/371472 [35:50<17:41:14,  3.53it/s] 40%|███▉      | 146790/371472 [35:50<17:45:58,  3.51it/s] 40%|███▉      | 146791/371472 [35:51<17:36:48,  3.54it/s] 40%|███▉      | 146792/371472 [35:51<16:58:29,  3.68it/s] 40%|███▉      | 146793/371472 [35:51<16:48:00,  3.71it/s] 40%|███▉      | 146794/371472 [35:51<17:33:22,  3.55it/s] 40%|███▉      | 146795/371472 [35:52<17:19:38,  3.60it/s] 40%|███▉      | 146796/371472 [35:52<17:27:16,  3.58it/s] 40%|███▉      | 146797/371472 [35:52<17:44:25,  3.52it/s] 40%|███▉      | 146798/371472 [35:53<19:08:57,  3.26it/s] 40%|███▉      | 146799/371472 [35:53<18:44:56,  3.33it/s] 40%|███▉      | 146800/371472 [35:53<17:53:53,  3.49it/s]                                                          {'loss': 3.0997, 'learning_rate': 6.446271197397057e-07, 'epoch': 6.32}
 40%|███▉      | 146800/371472 [35:53<17:53:53,  3.49it/s] 40%|███▉      | 146801/371472 [35:53<17:59:57,  3.47it/s] 40%|███▉      | 146802/371472 [35:54<17:33:28,  3.55it/s] 40%|███▉      | 146803/371472 [35:54<17:15:06,  3.62it/s] 40%|███▉      | 146804/371472 [35:54<16:50:15,  3.71it/s] 40%|███▉      | 146805/371472 [35:54<16:37:53,  3.75it/s] 40%|███▉      | 146806/371472 [35:55<17:45:13,  3.52it/s] 40%|███▉      | 146807/371472 [35:55<18:16:08,  3.42it/s] 40%|███▉      | 146808/371472 [35:55<17:48:48,  3.50it/s] 40%|███▉      | 146809/371472 [35:56<19:05:29,  3.27it/s] 40%|███▉      | 146810/371472 [35:56<18:13:10,  3.43it/s] 40%|███▉      | 146811/371472 [35:56<17:27:54,  3.57it/s] 40%|███▉      | 146812/371472 [35:56<16:59:46,  3.67it/s] 40%|███▉      | 146813/371472 [35:57<17:14:56,  3.62it/s] 40%|███▉      | 146814/371472 [35:57<18:01:05,  3.46it/s] 40%|███▉      | 146815/371472 [35:57<17:09:46,  3.64it/s] 40%|███▉      | 146816/371472 [35:58<16:47:21,  3.72it/s] 40%|███▉      | 146817/371472 [35:58<16:45:31,  3.72it/s] 40%|███▉      | 146818/371472 [35:58<17:00:53,  3.67it/s] 40%|███▉      | 146819/371472 [35:58<17:57:07,  3.48it/s] 40%|███▉      | 146820/371472 [35:59<17:58:55,  3.47it/s]                                                          {'loss': 3.3475, 'learning_rate': 6.445786377642267e-07, 'epoch': 6.32}
 40%|███▉      | 146820/371472 [35:59<17:58:55,  3.47it/s] 40%|███▉      | 146821/371472 [35:59<18:07:25,  3.44it/s] 40%|███▉      | 146822/371472 [35:59<17:10:16,  3.63it/s] 40%|███▉      | 146823/371472 [36:00<16:56:37,  3.68it/s] 40%|███▉      | 146824/371472 [36:00<17:16:17,  3.61it/s] 40%|███▉      | 146825/371472 [36:00<16:48:22,  3.71it/s] 40%|███▉      | 146826/371472 [36:00<16:55:30,  3.69it/s] 40%|███▉      | 146827/371472 [36:01<19:31:41,  3.20it/s] 40%|███▉      | 146828/371472 [36:01<19:00:37,  3.28it/s] 40%|███▉      | 146829/371472 [36:01<19:41:18,  3.17it/s] 40%|███▉      | 146830/371472 [36:02<18:41:34,  3.34it/s] 40%|███▉      | 146831/371472 [36:02<18:36:01,  3.35it/s] 40%|███▉      | 146832/371472 [36:02<19:05:38,  3.27it/s] 40%|███▉      | 146833/371472 [36:03<18:03:27,  3.46it/s] 40%|███▉      | 146834/371472 [36:03<18:15:35,  3.42it/s] 40%|███▉      | 146835/371472 [36:03<18:30:29,  3.37it/s] 40%|███▉      | 146836/371472 [36:03<18:20:39,  3.40it/s] 40%|███▉      | 146837/371472 [36:04<17:46:52,  3.51it/s] 40%|███▉      | 146838/371472 [36:04<17:48:40,  3.50it/s] 40%|███▉      | 146839/371472 [36:04<18:01:43,  3.46it/s] 40%|███▉      | 146840/371472 [36:05<17:48:10,  3.50it/s]                                                          {'loss': 3.2803, 'learning_rate': 6.445301557887478e-07, 'epoch': 6.32}
 40%|███▉      | 146840/371472 [36:05<17:48:10,  3.50it/s] 40%|███▉      | 146841/371472 [36:05<17:08:37,  3.64it/s] 40%|███▉      | 146842/371472 [36:05<17:10:36,  3.63it/s] 40%|███▉      | 146843/371472 [36:05<17:49:37,  3.50it/s] 40%|███▉      | 146844/371472 [36:06<17:43:29,  3.52it/s] 40%|███▉      | 146845/371472 [36:06<16:57:55,  3.68it/s] 40%|███▉      | 146846/371472 [36:06<18:15:30,  3.42it/s] 40%|███▉      | 146847/371472 [36:06<17:27:01,  3.58it/s] 40%|███▉      | 146848/371472 [36:07<18:29:47,  3.37it/s] 40%|███▉      | 146849/371472 [36:07<18:19:38,  3.40it/s] 40%|███▉      | 146850/371472 [36:07<17:52:43,  3.49it/s] 40%|███▉      | 146851/371472 [36:08<17:38:51,  3.54it/s] 40%|███▉      | 146852/371472 [36:08<17:37:41,  3.54it/s] 40%|███▉      | 146853/371472 [36:08<17:18:30,  3.60it/s] 40%|███▉      | 146854/371472 [36:08<17:06:09,  3.65it/s] 40%|███▉      | 146855/371472 [36:09<17:24:54,  3.58it/s] 40%|███▉      | 146856/371472 [36:09<17:01:25,  3.67it/s] 40%|███▉      | 146857/371472 [36:09<17:07:53,  3.64it/s] 40%|███▉      | 146858/371472 [36:10<17:25:51,  3.58it/s] 40%|███▉      | 146859/371472 [36:10<18:05:00,  3.45it/s] 40%|███▉      | 146860/371472 [36:10<18:31:53,  3.37it/s]                                                          {'loss': 3.2732, 'learning_rate': 6.44481673813269e-07, 'epoch': 6.33}
 40%|███▉      | 146860/371472 [36:10<18:31:53,  3.37it/s] 40%|███▉      | 146861/371472 [36:10<18:00:38,  3.46it/s] 40%|███▉      | 146862/371472 [36:11<17:34:56,  3.55it/s] 40%|███▉      | 146863/371472 [36:11<17:58:04,  3.47it/s] 40%|███▉      | 146864/371472 [36:11<17:38:57,  3.54it/s] 40%|███▉      | 146865/371472 [36:12<17:42:33,  3.52it/s] 40%|███▉      | 146866/371472 [36:12<17:16:05,  3.61it/s] 40%|███▉      | 146867/371472 [36:12<16:40:18,  3.74it/s] 40%|███▉      | 146868/371472 [36:12<17:19:56,  3.60it/s] 40%|███▉      | 146869/371472 [36:13<17:17:15,  3.61it/s] 40%|███▉      | 146870/371472 [36:13<16:55:55,  3.68it/s] 40%|███▉      | 146871/371472 [36:13<17:30:29,  3.56it/s] 40%|███▉      | 146872/371472 [36:14<20:28:03,  3.05it/s] 40%|███▉      | 146873/371472 [36:14<19:14:02,  3.24it/s] 40%|███▉      | 146874/371472 [36:14<18:44:58,  3.33it/s] 40%|███▉      | 146875/371472 [36:15<18:29:16,  3.37it/s] 40%|███▉      | 146876/371472 [36:15<17:59:55,  3.47it/s] 40%|███▉      | 146877/371472 [36:15<18:05:48,  3.45it/s] 40%|███▉      | 146878/371472 [36:15<17:32:49,  3.56it/s] 40%|███▉      | 146879/371472 [36:16<18:35:32,  3.36it/s] 40%|███▉      | 146880/371472 [36:16<19:17:44,  3.23it/s]                                                          {'loss': 3.1092, 'learning_rate': 6.444331918377901e-07, 'epoch': 6.33}
 40%|███▉      | 146880/371472 [36:16<19:17:44,  3.23it/s] 40%|███▉      | 146881/371472 [36:16<18:23:06,  3.39it/s] 40%|███▉      | 146882/371472 [36:17<18:11:27,  3.43it/s] 40%|███▉      | 146883/371472 [36:17<18:10:23,  3.43it/s] 40%|███▉      | 146884/371472 [36:17<18:29:11,  3.37it/s] 40%|███▉      | 146885/371472 [36:17<17:55:53,  3.48it/s] 40%|███▉      | 146886/371472 [36:18<17:10:54,  3.63it/s] 40%|███▉      | 146887/371472 [36:18<17:20:50,  3.60it/s] 40%|███▉      | 146888/371472 [36:18<17:10:02,  3.63it/s] 40%|███▉      | 146889/371472 [36:18<17:02:35,  3.66it/s] 40%|███▉      | 146890/371472 [36:19<16:46:11,  3.72it/s] 40%|███▉      | 146891/371472 [36:19<17:03:55,  3.66it/s] 40%|███▉      | 146892/371472 [36:19<17:13:43,  3.62it/s] 40%|███▉      | 146893/371472 [36:20<17:08:54,  3.64it/s] 40%|███▉      | 146894/371472 [36:20<17:21:25,  3.59it/s] 40%|███▉      | 146895/371472 [36:20<16:48:19,  3.71it/s] 40%|███▉      | 146896/371472 [36:20<16:34:30,  3.76it/s] 40%|███▉      | 146897/371472 [36:21<17:36:57,  3.54it/s] 40%|███▉      | 146898/371472 [36:21<18:02:14,  3.46it/s] 40%|███▉      | 146899/371472 [36:21<21:31:37,  2.90it/s] 40%|███▉      | 146900/371472 [36:22<20:01:11,  3.12it/s]                                                          {'loss': 3.139, 'learning_rate': 6.443847098623111e-07, 'epoch': 6.33}
 40%|███▉      | 146900/371472 [36:22<20:01:11,  3.12it/s] 40%|███▉      | 146901/371472 [36:22<20:35:05,  3.03it/s] 40%|███▉      | 146902/371472 [36:22<19:16:07,  3.24it/s] 40%|███▉      | 146903/371472 [36:23<18:20:07,  3.40it/s] 40%|███▉      | 146904/371472 [36:23<17:47:03,  3.51it/s] 40%|███▉      | 146905/371472 [36:23<18:04:42,  3.45it/s] 40%|███▉      | 146906/371472 [36:23<18:33:21,  3.36it/s] 40%|███▉      | 146907/371472 [36:24<18:45:47,  3.32it/s] 40%|███▉      | 146908/371472 [36:24<18:08:11,  3.44it/s] 40%|███▉      | 146909/371472 [36:24<18:13:39,  3.42it/s] 40%|███▉      | 146910/371472 [36:25<17:42:29,  3.52it/s] 40%|███▉      | 146911/371472 [36:25<18:20:55,  3.40it/s] 40%|███▉      | 146912/371472 [36:25<17:55:11,  3.48it/s] 40%|███▉      | 146913/371472 [36:25<16:54:50,  3.69it/s] 40%|███▉      | 146914/371472 [36:26<16:49:00,  3.71it/s] 40%|███▉      | 146915/371472 [36:26<16:47:34,  3.71it/s] 40%|███▉      | 146916/371472 [36:26<16:57:10,  3.68it/s] 40%|███▉      | 146917/371472 [36:27<16:53:24,  3.69it/s] 40%|███▉      | 146918/371472 [36:27<16:59:37,  3.67it/s] 40%|███▉      | 146919/371472 [36:27<16:38:59,  3.75it/s] 40%|███▉      | 146920/371472 [36:27<16:21:10,  3.81it/s]                                                          {'loss': 3.1636, 'learning_rate': 6.443362278868323e-07, 'epoch': 6.33}
 40%|███▉      | 146920/371472 [36:27<16:21:10,  3.81it/s] 40%|███▉      | 146921/371472 [36:28<16:29:55,  3.78it/s] 40%|███▉      | 146922/371472 [36:28<15:53:31,  3.92it/s] 40%|███▉      | 146923/371472 [36:28<16:34:57,  3.76it/s] 40%|███▉      | 146924/371472 [36:28<16:45:05,  3.72it/s] 40%|███▉      | 146925/371472 [36:29<16:27:39,  3.79it/s] 40%|███▉      | 146926/371472 [36:29<18:23:12,  3.39it/s] 40%|███▉      | 146927/371472 [36:29<18:08:34,  3.44it/s] 40%|███▉      | 146928/371472 [36:30<19:16:40,  3.24it/s] 40%|███▉      | 146929/371472 [36:30<18:14:22,  3.42it/s] 40%|███▉      | 146930/371472 [36:30<17:37:25,  3.54it/s] 40%|███▉      | 146931/371472 [36:30<17:04:55,  3.65it/s] 40%|███▉      | 146932/371472 [36:31<18:36:08,  3.35it/s] 40%|███▉      | 146933/371472 [36:31<18:42:29,  3.33it/s] 40%|███▉      | 146934/371472 [36:31<18:14:17,  3.42it/s] 40%|███▉      | 146935/371472 [36:32<17:39:53,  3.53it/s] 40%|███▉      | 146936/371472 [36:32<17:18:33,  3.60it/s] 40%|███▉      | 146937/371472 [36:32<17:21:24,  3.59it/s] 40%|███▉      | 146938/371472 [36:32<18:04:40,  3.45it/s] 40%|███▉      | 146939/371472 [36:33<17:26:30,  3.58it/s] 40%|███▉      | 146940/371472 [36:33<19:13:01,  3.25it/s]                                                          {'loss': 3.1051, 'learning_rate': 6.442877459113535e-07, 'epoch': 6.33}
 40%|███▉      | 146940/371472 [36:33<19:13:01,  3.25it/s] 40%|███▉      | 146941/371472 [36:33<18:30:11,  3.37it/s] 40%|███▉      | 146942/371472 [36:34<18:39:57,  3.34it/s] 40%|███▉      | 146943/371472 [36:34<18:58:52,  3.29it/s] 40%|███▉      | 146944/371472 [36:34<19:21:26,  3.22it/s] 40%|███▉      | 146945/371472 [36:35<18:05:26,  3.45it/s] 40%|███▉      | 146946/371472 [36:35<17:49:28,  3.50it/s] 40%|███▉      | 146947/371472 [36:35<18:56:26,  3.29it/s] 40%|███▉      | 146948/371472 [36:35<17:51:55,  3.49it/s] 40%|███▉      | 146949/371472 [36:36<19:21:53,  3.22it/s] 40%|███▉      | 146950/371472 [36:36<18:26:08,  3.38it/s] 40%|███▉      | 146951/371472 [36:36<18:36:20,  3.35it/s] 40%|███▉      | 146952/371472 [36:37<17:44:36,  3.51it/s] 40%|███▉      | 146953/371472 [36:37<20:17:35,  3.07it/s] 40%|███▉      | 146954/371472 [36:37<19:31:45,  3.19it/s] 40%|███▉      | 146955/371472 [36:38<18:52:59,  3.30it/s] 40%|███▉      | 146956/371472 [36:38<18:01:16,  3.46it/s] 40%|███▉      | 146957/371472 [36:38<18:04:26,  3.45it/s] 40%|███▉      | 146958/371472 [36:38<17:26:41,  3.57it/s] 40%|███▉      | 146959/371472 [36:39<17:12:09,  3.63it/s] 40%|███▉      | 146960/371472 [36:39<16:45:37,  3.72it/s]                                                          {'loss': 3.13, 'learning_rate': 6.442392639358745e-07, 'epoch': 6.33}
 40%|███▉      | 146960/371472 [36:39<16:45:37,  3.72it/s] 40%|███▉      | 146961/371472 [36:39<16:16:31,  3.83it/s] 40%|███▉      | 146962/371472 [36:39<17:19:56,  3.60it/s] 40%|███▉      | 146963/371472 [36:40<16:49:16,  3.71it/s] 40%|███▉      | 146964/371472 [36:40<16:41:38,  3.74it/s] 40%|███▉      | 146965/371472 [36:40<17:06:43,  3.64it/s] 40%|███▉      | 146966/371472 [36:41<18:28:21,  3.38it/s] 40%|███▉      | 146967/371472 [36:41<17:54:01,  3.48it/s] 40%|███▉      | 146968/371472 [36:41<17:39:40,  3.53it/s] 40%|███▉      | 146969/371472 [36:41<17:07:00,  3.64it/s] 40%|███▉      | 146970/371472 [36:42<16:54:50,  3.69it/s] 40%|███▉      | 146971/371472 [36:42<17:41:24,  3.53it/s] 40%|███▉      | 146972/371472 [36:42<17:26:40,  3.57it/s] 40%|███▉      | 146973/371472 [36:43<17:05:51,  3.65it/s] 40%|███▉      | 146974/371472 [36:43<17:14:38,  3.62it/s] 40%|███▉      | 146975/371472 [36:43<16:49:57,  3.70it/s] 40%|███▉      | 146976/371472 [36:43<17:56:55,  3.47it/s] 40%|███▉      | 146977/371472 [36:44<17:44:24,  3.52it/s] 40%|███▉      | 146978/371472 [36:44<17:57:38,  3.47it/s] 40%|███▉      | 146979/371472 [36:44<19:33:48,  3.19it/s] 40%|███▉      | 146980/371472 [36:45<20:49:51,  2.99it/s]                                                          {'loss': 3.1606, 'learning_rate': 6.441907819603955e-07, 'epoch': 6.33}
 40%|███▉      | 146980/371472 [36:45<20:49:51,  2.99it/s] 40%|███▉      | 146981/371472 [36:45<19:26:00,  3.21it/s] 40%|███▉      | 146982/371472 [36:45<18:31:11,  3.37it/s] 40%|███▉      | 146983/371472 [36:45<17:46:18,  3.51it/s] 40%|███▉      | 146984/371472 [36:46<17:28:10,  3.57it/s] 40%|███▉      | 146985/371472 [36:46<18:11:33,  3.43it/s] 40%|███▉      | 146986/371472 [36:46<18:39:47,  3.34it/s] 40%|███▉      | 146987/371472 [36:47<18:09:45,  3.43it/s] 40%|███▉      | 146988/371472 [36:47<17:58:12,  3.47it/s] 40%|███▉      | 146989/371472 [36:47<18:52:43,  3.30it/s] 40%|███▉      | 146990/371472 [36:48<17:52:08,  3.49it/s] 40%|███▉      | 146991/371472 [36:48<18:02:25,  3.46it/s] 40%|███▉      | 146992/371472 [36:48<18:05:39,  3.45it/s] 40%|███▉      | 146993/371472 [36:48<18:00:13,  3.46it/s] 40%|███▉      | 146994/371472 [36:49<19:13:59,  3.24it/s] 40%|███▉      | 146995/371472 [36:49<18:23:28,  3.39it/s] 40%|███▉      | 146996/371472 [36:49<18:05:29,  3.45it/s] 40%|███▉      | 146997/371472 [36:50<17:33:36,  3.55it/s] 40%|███▉      | 146998/371472 [36:50<17:28:26,  3.57it/s] 40%|███▉      | 146999/371472 [36:50<17:45:41,  3.51it/s] 40%|███▉      | 147000/371472 [36:50<18:13:54,  3.42it/s]                                                          {'loss': 3.2584, 'learning_rate': 6.441422999849167e-07, 'epoch': 6.33}
 40%|███▉      | 147000/371472 [36:50<18:13:54,  3.42it/s] 40%|███▉      | 147001/371472 [36:51<17:50:01,  3.50it/s] 40%|███▉      | 147002/371472 [36:51<17:51:56,  3.49it/s] 40%|███▉      | 147003/371472 [36:51<19:38:51,  3.17it/s] 40%|███▉      | 147004/371472 [36:52<18:44:48,  3.33it/s] 40%|███▉      | 147005/371472 [36:52<18:07:20,  3.44it/s] 40%|███▉      | 147006/371472 [36:52<17:35:56,  3.54it/s] 40%|███▉      | 147007/371472 [36:52<17:09:23,  3.63it/s] 40%|███▉      | 147008/371472 [36:53<17:09:53,  3.63it/s] 40%|███▉      | 147009/371472 [36:53<17:32:55,  3.55it/s] 40%|███▉      | 147010/371472 [36:53<17:14:48,  3.62it/s] 40%|███▉      | 147011/371472 [36:54<17:20:01,  3.60it/s] 40%|███▉      | 147012/371472 [36:54<17:50:08,  3.50it/s] 40%|███▉      | 147013/371472 [36:54<19:13:06,  3.24it/s] 40%|███▉      | 147014/371472 [36:55<18:57:35,  3.29it/s] 40%|███▉      | 147015/371472 [36:55<19:58:09,  3.12it/s] 40%|███▉      | 147016/371472 [36:55<19:29:15,  3.20it/s] 40%|███▉      | 147017/371472 [36:55<19:26:29,  3.21it/s] 40%|███▉      | 147018/371472 [36:56<19:54:18,  3.13it/s] 40%|███▉      | 147019/371472 [36:56<19:22:00,  3.22it/s] 40%|███▉      | 147020/371472 [36:56<18:54:46,  3.30it/s]                                                          {'loss': 3.1681, 'learning_rate': 6.440938180094378e-07, 'epoch': 6.33}
 40%|███▉      | 147020/371472 [36:56<18:54:46,  3.30it/s] 40%|███▉      | 147021/371472 [36:57<19:10:09,  3.25it/s] 40%|███▉      | 147022/371472 [36:57<18:35:04,  3.35it/s] 40%|███▉      | 147023/371472 [36:57<20:00:32,  3.12it/s] 40%|███▉      | 147024/371472 [36:58<18:51:44,  3.31it/s] 40%|███▉      | 147025/371472 [36:58<19:03:36,  3.27it/s] 40%|███▉      | 147026/371472 [36:58<19:32:30,  3.19it/s] 40%|███▉      | 147027/371472 [36:59<18:54:33,  3.30it/s] 40%|███▉      | 147028/371472 [36:59<18:01:50,  3.46it/s] 40%|███▉      | 147029/371472 [36:59<17:26:36,  3.57it/s] 40%|███▉      | 147030/371472 [36:59<17:22:04,  3.59it/s] 40%|███▉      | 147031/371472 [37:00<17:00:16,  3.67it/s] 40%|███▉      | 147032/371472 [37:00<17:55:48,  3.48it/s] 40%|███▉      | 147033/371472 [37:00<17:53:51,  3.48it/s] 40%|███▉      | 147034/371472 [37:01<18:46:11,  3.32it/s] 40%|███▉      | 147035/371472 [37:01<18:03:50,  3.45it/s] 40%|███▉      | 147036/371472 [37:01<18:13:55,  3.42it/s] 40%|███▉      | 147037/371472 [37:01<17:59:02,  3.47it/s] 40%|███▉      | 147038/371472 [37:02<17:49:44,  3.50it/s] 40%|███▉      | 147039/371472 [37:02<18:24:13,  3.39it/s] 40%|███▉      | 147040/371472 [37:02<19:25:10,  3.21it/s]                                                          {'loss': 3.0414, 'learning_rate': 6.440453360339588e-07, 'epoch': 6.33}
 40%|███▉      | 147040/371472 [37:02<19:25:10,  3.21it/s] 40%|███▉      | 147041/371472 [37:03<18:50:42,  3.31it/s] 40%|███▉      | 147042/371472 [37:03<18:17:51,  3.41it/s] 40%|███▉      | 147043/371472 [37:03<20:00:27,  3.12it/s] 40%|███▉      | 147044/371472 [37:04<18:37:55,  3.35it/s] 40%|███▉      | 147045/371472 [37:04<19:22:42,  3.22it/s] 40%|███▉      | 147046/371472 [37:04<18:35:27,  3.35it/s] 40%|███▉      | 147047/371472 [37:04<18:09:08,  3.43it/s] 40%|███▉      | 147048/371472 [37:05<17:37:07,  3.54it/s] 40%|███▉      | 147049/371472 [37:05<18:57:21,  3.29it/s] 40%|███▉      | 147050/371472 [37:05<18:25:21,  3.38it/s] 40%|███▉      | 147051/371472 [37:06<18:13:55,  3.42it/s] 40%|███▉      | 147052/371472 [37:06<19:05:21,  3.27it/s] 40%|███▉      | 147053/371472 [37:06<18:47:25,  3.32it/s] 40%|███▉      | 147054/371472 [37:07<19:18:24,  3.23it/s] 40%|███▉      | 147055/371472 [37:07<19:26:36,  3.21it/s] 40%|███▉      | 147056/371472 [37:07<19:18:26,  3.23it/s] 40%|███▉      | 147057/371472 [37:07<18:29:42,  3.37it/s] 40%|███▉      | 147058/371472 [37:08<18:23:23,  3.39it/s] 40%|███▉      | 147059/371472 [37:08<17:55:17,  3.48it/s] 40%|███▉      | 147060/371472 [37:08<17:22:52,  3.59it/s]                                                          {'loss': 3.4135, 'learning_rate': 6.4399685405848e-07, 'epoch': 6.33}
 40%|███▉      | 147060/371472 [37:08<17:22:52,  3.59it/s] 40%|███▉      | 147061/371472 [37:09<17:31:28,  3.56it/s] 40%|███▉      | 147062/371472 [37:09<16:59:54,  3.67it/s] 40%|███▉      | 147063/371472 [37:09<17:13:17,  3.62it/s] 40%|███▉      | 147064/371472 [37:09<16:52:34,  3.69it/s] 40%|███▉      | 147065/371472 [37:10<17:02:41,  3.66it/s] 40%|███▉      | 147066/371472 [37:10<17:05:50,  3.65it/s] 40%|███▉      | 147067/371472 [37:10<18:09:29,  3.43it/s] 40%|███▉      | 147068/371472 [37:11<18:26:00,  3.38it/s] 40%|███▉      | 147069/371472 [37:11<18:36:44,  3.35it/s] 40%|███▉      | 147070/371472 [37:11<18:14:28,  3.42it/s] 40%|███▉      | 147071/371472 [37:11<17:54:47,  3.48it/s] 40%|███▉      | 147072/371472 [37:12<17:58:59,  3.47it/s] 40%|███▉      | 147073/371472 [37:12<17:52:00,  3.49it/s] 40%|███▉      | 147074/371472 [37:12<17:43:48,  3.52it/s] 40%|███▉      | 147075/371472 [37:13<17:58:42,  3.47it/s] 40%|███▉      | 147076/371472 [37:13<17:34:01,  3.55it/s] 40%|███▉      | 147077/371472 [37:13<16:57:28,  3.68it/s] 40%|███▉      | 147078/371472 [37:13<16:47:38,  3.71it/s] 40%|███▉      | 147079/371472 [37:14<16:40:19,  3.74it/s] 40%|███▉      | 147080/371472 [37:14<17:17:30,  3.60it/s]                                                          {'loss': 3.079, 'learning_rate': 6.439483720830012e-07, 'epoch': 6.34}
 40%|███▉      | 147080/371472 [37:14<17:17:30,  3.60it/s] 40%|███▉      | 147081/371472 [37:14<17:09:08,  3.63it/s] 40%|███▉      | 147082/371472 [37:14<16:33:05,  3.77it/s] 40%|███▉      | 147083/371472 [37:15<17:10:54,  3.63it/s] 40%|███▉      | 147084/371472 [37:15<16:44:28,  3.72it/s] 40%|███▉      | 147085/371472 [37:15<16:31:45,  3.77it/s] 40%|███▉      | 147086/371472 [37:15<16:03:12,  3.88it/s] 40%|███▉      | 147087/371472 [37:16<16:07:08,  3.87it/s] 40%|███▉      | 147088/371472 [37:16<16:39:19,  3.74it/s] 40%|███▉      | 147089/371472 [37:16<17:05:59,  3.64it/s] 40%|███▉      | 147090/371472 [37:17<16:34:03,  3.76it/s] 40%|███▉      | 147091/371472 [37:17<17:28:15,  3.57it/s] 40%|███▉      | 147092/371472 [37:17<16:44:33,  3.72it/s] 40%|███▉      | 147093/371472 [37:17<16:11:02,  3.85it/s] 40%|███▉      | 147094/371472 [37:18<16:51:10,  3.70it/s] 40%|███▉      | 147095/371472 [37:18<16:45:01,  3.72it/s] 40%|███▉      | 147096/371472 [37:18<16:56:55,  3.68it/s] 40%|███▉      | 147097/371472 [37:18<16:55:58,  3.68it/s] 40%|███▉      | 147098/371472 [37:19<16:47:24,  3.71it/s] 40%|███▉      | 147099/371472 [37:19<17:05:44,  3.65it/s] 40%|███▉      | 147100/371472 [37:19<17:38:26,  3.53it/s]                                                          {'loss': 3.3287, 'learning_rate': 6.438998901075222e-07, 'epoch': 6.34}
 40%|███▉      | 147100/371472 [37:19<17:38:26,  3.53it/s] 40%|███▉      | 147101/371472 [37:20<17:07:10,  3.64it/s] 40%|███▉      | 147102/371472 [37:20<17:11:45,  3.62it/s] 40%|███▉      | 147103/371472 [37:20<16:54:43,  3.69it/s] 40%|███▉      | 147104/371472 [37:20<17:19:56,  3.60it/s] 40%|███▉      | 147105/371472 [37:21<17:26:20,  3.57it/s] 40%|███▉      | 147106/371472 [37:21<16:52:14,  3.69it/s] 40%|███▉      | 147107/371472 [37:21<17:03:07,  3.65it/s] 40%|███▉      | 147108/371472 [37:21<16:53:03,  3.69it/s] 40%|███▉      | 147109/371472 [37:22<17:09:41,  3.63it/s] 40%|███▉      | 147110/371472 [37:22<16:51:54,  3.70it/s] 40%|███▉      | 147111/371472 [37:22<18:06:01,  3.44it/s] 40%|███▉      | 147112/371472 [37:23<17:50:16,  3.49it/s] 40%|███▉      | 147113/371472 [37:23<18:02:06,  3.46it/s] 40%|███▉      | 147114/371472 [37:23<18:13:50,  3.42it/s] 40%|███▉      | 147115/371472 [37:23<17:28:05,  3.57it/s] 40%|███▉      | 147116/371472 [37:24<17:25:39,  3.58it/s] 40%|███▉      | 147117/371472 [37:24<18:49:11,  3.31it/s] 40%|███▉      | 147118/371472 [37:24<18:16:46,  3.41it/s] 40%|███▉      | 147119/371472 [37:25<17:47:21,  3.50it/s] 40%|███▉      | 147120/371472 [37:25<19:22:12,  3.22it/s]                                                          {'loss': 3.396, 'learning_rate': 6.438514081320432e-07, 'epoch': 6.34}
 40%|███▉      | 147120/371472 [37:25<19:22:12,  3.22it/s] 40%|███▉      | 147121/371472 [37:25<19:12:24,  3.24it/s] 40%|███▉      | 147122/371472 [37:26<18:38:52,  3.34it/s] 40%|███▉      | 147123/371472 [37:26<17:41:08,  3.52it/s] 40%|███▉      | 147124/371472 [37:26<17:37:12,  3.54it/s] 40%|███▉      | 147125/371472 [37:26<17:44:20,  3.51it/s] 40%|███▉      | 147126/371472 [37:27<18:48:04,  3.31it/s] 40%|███▉      | 147127/371472 [37:27<18:32:57,  3.36it/s] 40%|███▉      | 147128/371472 [37:27<18:02:45,  3.45it/s] 40%|███▉      | 147129/371472 [37:28<17:55:23,  3.48it/s] 40%|███▉      | 147130/371472 [37:28<17:03:42,  3.65it/s] 40%|███▉      | 147131/371472 [37:28<16:31:21,  3.77it/s] 40%|███▉      | 147132/371472 [37:28<16:22:08,  3.81it/s] 40%|███▉      | 147133/371472 [37:29<17:36:50,  3.54it/s] 40%|███▉      | 147134/371472 [37:29<17:07:39,  3.64it/s] 40%|███▉      | 147135/371472 [37:29<16:57:26,  3.67it/s] 40%|███▉      | 147136/371472 [37:29<17:13:37,  3.62it/s] 40%|███▉      | 147137/371472 [37:30<17:08:09,  3.64it/s] 40%|███▉      | 147138/371472 [37:30<17:17:22,  3.60it/s] 40%|███▉      | 147139/371472 [37:30<17:12:32,  3.62it/s] 40%|███▉      | 147140/371472 [37:31<17:34:07,  3.55it/s]                                                          {'loss': 3.1621, 'learning_rate': 6.438029261565644e-07, 'epoch': 6.34}
 40%|███▉      | 147140/371472 [37:31<17:34:07,  3.55it/s] 40%|███▉      | 147141/371472 [37:31<18:09:28,  3.43it/s] 40%|███▉      | 147142/371472 [37:31<18:52:18,  3.30it/s] 40%|███▉      | 147143/371472 [37:31<18:02:58,  3.45it/s] 40%|███▉      | 147144/371472 [37:32<17:22:32,  3.59it/s] 40%|███▉      | 147145/371472 [37:32<17:14:21,  3.61it/s] 40%|███▉      | 147146/371472 [37:32<17:46:53,  3.50it/s] 40%|███▉      | 147147/371472 [37:33<17:51:35,  3.49it/s] 40%|███▉      | 147148/371472 [37:33<17:38:47,  3.53it/s] 40%|███▉      | 147149/371472 [37:33<17:49:51,  3.49it/s] 40%|███▉      | 147150/371472 [37:33<17:18:53,  3.60it/s] 40%|███▉      | 147151/371472 [37:34<17:02:42,  3.66it/s] 40%|███▉      | 147152/371472 [37:34<17:09:52,  3.63it/s] 40%|███▉      | 147153/371472 [37:34<16:56:30,  3.68it/s] 40%|███▉      | 147154/371472 [37:35<17:08:06,  3.64it/s] 40%|███▉      | 147155/371472 [37:35<17:23:23,  3.58it/s] 40%|███▉      | 147156/371472 [37:35<17:02:52,  3.66it/s] 40%|███▉      | 147157/371472 [37:35<16:47:34,  3.71it/s] 40%|███▉      | 147158/371472 [37:36<17:00:34,  3.66it/s] 40%|███▉      | 147159/371472 [37:36<17:02:35,  3.66it/s] 40%|███▉      | 147160/371472 [37:36<18:16:37,  3.41it/s]                                                          {'loss': 3.1269, 'learning_rate': 6.437544441810856e-07, 'epoch': 6.34}
 40%|███▉      | 147160/371472 [37:36<18:16:37,  3.41it/s] 40%|███▉      | 147161/371472 [37:37<18:25:27,  3.38it/s] 40%|███▉      | 147162/371472 [37:37<19:11:01,  3.25it/s] 40%|███▉      | 147163/371472 [37:37<18:23:10,  3.39it/s] 40%|███▉      | 147164/371472 [37:37<19:05:11,  3.26it/s] 40%|███▉      | 147165/371472 [37:38<18:40:36,  3.34it/s] 40%|███▉      | 147166/371472 [37:38<18:41:29,  3.33it/s] 40%|███▉      | 147167/371472 [37:38<17:53:06,  3.48it/s] 40%|███▉      | 147168/371472 [37:39<18:51:40,  3.30it/s] 40%|███▉      | 147169/371472 [37:39<20:40:04,  3.01it/s] 40%|███▉      | 147170/371472 [37:39<19:11:29,  3.25it/s] 40%|███▉      | 147171/371472 [37:40<18:43:24,  3.33it/s] 40%|███▉      | 147172/371472 [37:40<17:44:38,  3.51it/s] 40%|███▉      | 147173/371472 [37:40<17:09:12,  3.63it/s] 40%|███▉      | 147174/371472 [37:40<16:57:35,  3.67it/s] 40%|███▉      | 147175/371472 [37:41<16:40:18,  3.74it/s] 40%|███▉      | 147176/371472 [37:41<16:41:46,  3.73it/s] 40%|███▉      | 147177/371472 [37:41<16:59:37,  3.67it/s] 40%|███▉      | 147178/371472 [37:41<18:06:02,  3.44it/s] 40%|███▉      | 147179/371472 [37:42<16:55:48,  3.68it/s] 40%|███▉      | 147180/371472 [37:42<16:54:25,  3.69it/s]                                                          {'loss': 3.252, 'learning_rate': 6.437059622056067e-07, 'epoch': 6.34}
 40%|███▉      | 147180/371472 [37:42<16:54:25,  3.69it/s] 40%|███▉      | 147181/371472 [37:42<17:18:21,  3.60it/s] 40%|███▉      | 147182/371472 [37:43<17:36:45,  3.54it/s] 40%|███▉      | 147183/371472 [37:43<17:24:09,  3.58it/s] 40%|███▉      | 147184/371472 [37:43<18:43:10,  3.33it/s] 40%|███▉      | 147185/371472 [37:43<17:47:55,  3.50it/s] 40%|███▉      | 147186/371472 [37:44<18:25:12,  3.38it/s] 40%|███▉      | 147187/371472 [37:44<18:57:08,  3.29it/s] 40%|███▉      | 147188/371472 [37:44<18:20:51,  3.40it/s] 40%|███▉      | 147189/371472 [37:45<17:59:53,  3.46it/s] 40%|███▉      | 147190/371472 [37:45<17:30:57,  3.56it/s] 40%|███▉      | 147191/371472 [37:45<18:04:05,  3.45it/s] 40%|███▉      | 147192/371472 [37:46<18:08:52,  3.43it/s] 40%|███▉      | 147193/371472 [37:46<17:45:52,  3.51it/s] 40%|███▉      | 147194/371472 [37:46<17:39:13,  3.53it/s] 40%|███▉      | 147195/371472 [37:46<17:38:18,  3.53it/s] 40%|███▉      | 147196/371472 [37:47<17:07:55,  3.64it/s] 40%|███▉      | 147197/371472 [37:47<17:37:18,  3.54it/s] 40%|███▉      | 147198/371472 [37:47<18:05:26,  3.44it/s] 40%|███▉      | 147199/371472 [37:47<17:27:32,  3.57it/s] 40%|███▉      | 147200/371472 [37:48<17:13:04,  3.62it/s]                                                          {'loss': 3.2079, 'learning_rate': 6.436574802301277e-07, 'epoch': 6.34}
 40%|███▉      | 147200/371472 [37:48<17:13:04,  3.62it/s] 40%|███▉      | 147201/371472 [37:48<18:35:22,  3.35it/s] 40%|███▉      | 147202/371472 [37:48<17:28:53,  3.56it/s] 40%|███▉      | 147203/371472 [37:49<16:52:05,  3.69it/s] 40%|███▉      | 147204/371472 [37:49<17:14:50,  3.61it/s] 40%|███▉      | 147205/371472 [37:49<16:59:34,  3.67it/s] 40%|███▉      | 147206/371472 [37:49<16:38:17,  3.74it/s] 40%|███▉      | 147207/371472 [37:50<16:47:19,  3.71it/s] 40%|███▉      | 147208/371472 [37:50<18:08:39,  3.43it/s] 40%|███▉      | 147209/371472 [37:50<17:41:21,  3.52it/s] 40%|███▉      | 147210/371472 [37:51<17:38:42,  3.53it/s] 40%|███▉      | 147211/371472 [37:51<17:52:24,  3.49it/s] 40%|███▉      | 147212/371472 [37:51<18:12:18,  3.42it/s] 40%|███▉      | 147213/371472 [37:51<18:49:39,  3.31it/s] 40%|███▉      | 147214/371472 [37:52<18:46:27,  3.32it/s] 40%|███▉      | 147215/371472 [37:52<18:16:49,  3.41it/s] 40%|███▉      | 147216/371472 [37:52<18:00:50,  3.46it/s] 40%|███▉      | 147217/371472 [37:53<18:38:57,  3.34it/s] 40%|███▉      | 147218/371472 [37:53<17:58:52,  3.46it/s] 40%|███▉      | 147219/371472 [37:53<17:53:59,  3.48it/s] 40%|███▉      | 147220/371472 [37:53<17:56:57,  3.47it/s]                                                          {'loss': 3.2933, 'learning_rate': 6.436089982546488e-07, 'epoch': 6.34}
 40%|███▉      | 147220/371472 [37:53<17:56:57,  3.47it/s] 40%|███▉      | 147221/371472 [37:54<18:06:49,  3.44it/s] 40%|███▉      | 147222/371472 [37:54<17:26:43,  3.57it/s] 40%|███▉      | 147223/371472 [37:54<17:16:51,  3.60it/s] 40%|███▉      | 147224/371472 [37:55<16:44:37,  3.72it/s] 40%|███▉      | 147225/371472 [37:55<16:28:47,  3.78it/s] 40%|███▉      | 147226/371472 [37:55<16:32:48,  3.76it/s] 40%|███▉      | 147227/371472 [37:55<17:00:53,  3.66it/s] 40%|███▉      | 147228/371472 [37:56<17:01:21,  3.66it/s] 40%|███▉      | 147229/371472 [37:56<17:18:01,  3.60it/s] 40%|███▉      | 147230/371472 [37:56<17:27:51,  3.57it/s] 40%|███▉      | 147231/371472 [37:57<19:04:52,  3.26it/s] 40%|███▉      | 147232/371472 [37:57<18:31:27,  3.36it/s] 40%|███▉      | 147233/371472 [37:57<18:29:52,  3.37it/s] 40%|███▉      | 147234/371472 [37:57<18:13:03,  3.42it/s] 40%|███▉      | 147235/371472 [37:58<18:09:38,  3.43it/s] 40%|███▉      | 147236/371472 [37:58<18:29:37,  3.37it/s] 40%|███▉      | 147237/371472 [37:58<19:05:18,  3.26it/s] 40%|███▉      | 147238/371472 [37:59<18:07:38,  3.44it/s] 40%|███▉      | 147239/371472 [37:59<17:56:04,  3.47it/s] 40%|███▉      | 147240/371472 [37:59<17:19:25,  3.60it/s]                                                          {'loss': 3.2978, 'learning_rate': 6.4356051627917e-07, 'epoch': 6.34}
 40%|███▉      | 147240/371472 [37:59<17:19:25,  3.60it/s] 40%|███▉      | 147241/371472 [37:59<17:10:20,  3.63it/s] 40%|███▉      | 147242/371472 [38:00<17:28:20,  3.56it/s] 40%|███▉      | 147243/371472 [38:00<17:02:42,  3.65it/s] 40%|███▉      | 147244/371472 [38:00<18:41:37,  3.33it/s] 40%|███▉      | 147245/371472 [38:01<18:18:36,  3.40it/s] 40%|███▉      | 147246/371472 [38:01<17:31:06,  3.56it/s] 40%|███▉      | 147247/371472 [38:01<17:31:11,  3.56it/s] 40%|███▉      | 147248/371472 [38:01<17:07:24,  3.64it/s] 40%|███▉      | 147249/371472 [38:02<17:23:20,  3.58it/s] 40%|███▉      | 147250/371472 [38:02<17:42:06,  3.52it/s] 40%|███▉      | 147251/371472 [38:02<18:33:56,  3.35it/s] 40%|███▉      | 147252/371472 [38:03<17:48:48,  3.50it/s] 40%|███▉      | 147253/371472 [38:03<17:30:57,  3.56it/s] 40%|███▉      | 147254/371472 [38:03<17:30:55,  3.56it/s] 40%|███▉      | 147255/371472 [38:03<17:26:57,  3.57it/s] 40%|███▉      | 147256/371472 [38:04<17:39:45,  3.53it/s] 40%|███▉      | 147257/371472 [38:04<17:14:51,  3.61it/s] 40%|███▉      | 147258/371472 [38:04<17:34:00,  3.55it/s] 40%|███▉      | 147259/371472 [38:05<17:46:02,  3.51it/s] 40%|███▉      | 147260/371472 [38:05<18:25:54,  3.38it/s]                                                          {'loss': 3.2118, 'learning_rate': 6.435120343036911e-07, 'epoch': 6.34}
 40%|███▉      | 147260/371472 [38:05<18:25:54,  3.38it/s] 40%|███▉      | 147261/371472 [38:05<18:58:49,  3.28it/s] 40%|███▉      | 147262/371472 [38:05<18:04:16,  3.45it/s] 40%|███▉      | 147263/371472 [38:06<17:27:41,  3.57it/s] 40%|███▉      | 147264/371472 [38:06<17:50:41,  3.49it/s] 40%|███▉      | 147265/371472 [38:06<17:50:42,  3.49it/s] 40%|███▉      | 147266/371472 [38:07<18:13:35,  3.42it/s] 40%|███▉      | 147267/371472 [38:07<18:30:41,  3.36it/s] 40%|███▉      | 147268/371472 [38:07<18:32:05,  3.36it/s] 40%|███▉      | 147269/371472 [38:07<17:25:03,  3.58it/s] 40%|███▉      | 147270/371472 [38:08<17:10:23,  3.63it/s] 40%|███▉      | 147271/371472 [38:08<17:03:11,  3.65it/s] 40%|███▉      | 147272/371472 [38:08<17:01:17,  3.66it/s] 40%|███▉      | 147273/371472 [38:08<16:22:53,  3.80it/s] 40%|███▉      | 147274/371472 [38:09<16:43:36,  3.72it/s] 40%|███▉      | 147275/371472 [38:09<18:20:49,  3.39it/s] 40%|███▉      | 147276/371472 [38:09<17:45:49,  3.51it/s] 40%|███▉      | 147277/371472 [38:10<17:06:54,  3.64it/s] 40%|███▉      | 147278/371472 [38:10<17:22:11,  3.59it/s] 40%|███▉      | 147279/371472 [38:10<18:10:09,  3.43it/s] 40%|███▉      | 147280/371472 [38:11<18:04:15,  3.45it/s]                                                          {'loss': 3.1442, 'learning_rate': 6.434635523282121e-07, 'epoch': 6.34}
 40%|███▉      | 147280/371472 [38:11<18:04:15,  3.45it/s] 40%|███▉      | 147281/371472 [38:11<17:25:08,  3.58it/s] 40%|███▉      | 147282/371472 [38:11<16:50:14,  3.70it/s] 40%|███▉      | 147283/371472 [38:11<17:01:30,  3.66it/s] 40%|███▉      | 147284/371472 [38:12<17:08:16,  3.63it/s] 40%|███▉      | 147285/371472 [38:12<17:31:57,  3.55it/s] 40%|███▉      | 147286/371472 [38:12<17:10:58,  3.62it/s] 40%|███▉      | 147287/371472 [38:12<17:55:17,  3.47it/s] 40%|███▉      | 147288/371472 [38:13<19:09:00,  3.25it/s] 40%|███▉      | 147289/371472 [38:13<18:26:40,  3.38it/s] 40%|███▉      | 147290/371472 [38:13<17:56:12,  3.47it/s] 40%|███▉      | 147291/371472 [38:14<17:58:02,  3.47it/s] 40%|███▉      | 147292/371472 [38:14<17:59:21,  3.46it/s] 40%|███▉      | 147293/371472 [38:14<17:39:29,  3.53it/s] 40%|███▉      | 147294/371472 [38:14<17:33:55,  3.55it/s] 40%|███▉      | 147295/371472 [38:15<17:33:13,  3.55it/s] 40%|███▉      | 147296/371472 [38:15<17:35:41,  3.54it/s] 40%|███▉      | 147297/371472 [38:15<17:25:18,  3.57it/s] 40%|███▉      | 147298/371472 [38:16<17:38:59,  3.53it/s] 40%|███▉      | 147299/371472 [38:16<16:55:14,  3.68it/s] 40%|███▉      | 147300/371472 [38:16<16:40:33,  3.73it/s]                                                          {'loss': 3.3052, 'learning_rate': 6.434150703527333e-07, 'epoch': 6.34}
 40%|███▉      | 147300/371472 [38:16<16:40:33,  3.73it/s] 40%|███▉      | 147301/371472 [38:16<16:54:30,  3.68it/s] 40%|███▉      | 147302/371472 [38:17<16:46:32,  3.71it/s] 40%|███▉      | 147303/371472 [38:17<16:36:59,  3.75it/s] 40%|███▉      | 147304/371472 [38:17<16:18:27,  3.82it/s] 40%|███▉      | 147305/371472 [38:17<16:49:52,  3.70it/s] 40%|███▉      | 147306/371472 [38:18<17:44:14,  3.51it/s] 40%|███▉      | 147307/371472 [38:18<17:47:52,  3.50it/s] 40%|███▉      | 147308/371472 [38:18<17:13:08,  3.62it/s] 40%|███▉      | 147309/371472 [38:19<17:27:35,  3.57it/s] 40%|███▉      | 147310/371472 [38:19<17:58:28,  3.46it/s] 40%|███▉      | 147311/371472 [38:19<17:42:50,  3.52it/s] 40%|███▉      | 147312/371472 [38:19<17:18:51,  3.60it/s] 40%|███▉      | 147313/371472 [38:20<17:58:59,  3.46it/s] 40%|███▉      | 147314/371472 [38:20<19:32:34,  3.19it/s] 40%|███▉      | 147315/371472 [38:20<18:58:57,  3.28it/s] 40%|███▉      | 147316/371472 [38:21<18:06:05,  3.44it/s] 40%|███▉      | 147317/371472 [38:21<17:48:10,  3.50it/s] 40%|███▉      | 147318/371472 [38:21<17:31:37,  3.55it/s] 40%|███▉      | 147319/371472 [38:22<17:12:07,  3.62it/s] 40%|███▉      | 147320/371472 [38:22<17:25:59,  3.57it/s]                                                          {'loss': 3.23, 'learning_rate': 6.433665883772545e-07, 'epoch': 6.35}
 40%|███▉      | 147320/371472 [38:22<17:25:59,  3.57it/s] 40%|███▉      | 147321/371472 [38:22<17:37:07,  3.53it/s] 40%|███▉      | 147322/371472 [38:22<17:27:28,  3.57it/s] 40%|███▉      | 147323/371472 [38:23<17:50:36,  3.49it/s] 40%|███▉      | 147324/371472 [38:23<18:05:14,  3.44it/s] 40%|███▉      | 147325/371472 [38:23<17:43:02,  3.51it/s] 40%|███▉      | 147326/371472 [38:24<18:07:52,  3.43it/s] 40%|███▉      | 147327/371472 [38:24<18:44:03,  3.32it/s] 40%|███▉      | 147328/371472 [38:24<18:52:39,  3.30it/s] 40%|███▉      | 147329/371472 [38:24<18:06:18,  3.44it/s] 40%|███▉      | 147330/371472 [38:25<17:38:37,  3.53it/s] 40%|███▉      | 147331/371472 [38:25<17:39:00,  3.53it/s] 40%|███▉      | 147332/371472 [38:25<17:25:12,  3.57it/s] 40%|███▉      | 147333/371472 [38:26<17:47:54,  3.50it/s] 40%|███▉      | 147334/371472 [38:26<17:25:09,  3.57it/s] 40%|███▉      | 147335/371472 [38:26<17:28:17,  3.56it/s] 40%|███▉      | 147336/371472 [38:26<17:14:53,  3.61it/s] 40%|███▉      | 147337/371472 [38:27<17:52:25,  3.48it/s] 40%|███▉      | 147338/371472 [38:27<18:16:52,  3.41it/s] 40%|███▉      | 147339/371472 [38:27<17:45:13,  3.51it/s] 40%|███▉      | 147340/371472 [38:28<17:08:54,  3.63it/s]                                                          {'loss': 3.2233, 'learning_rate': 6.433181064017754e-07, 'epoch': 6.35}
 40%|███▉      | 147340/371472 [38:28<17:08:54,  3.63it/s] 40%|███▉      | 147341/371472 [38:28<17:39:55,  3.52it/s] 40%|███▉      | 147342/371472 [38:28<17:25:08,  3.57it/s] 40%|███▉      | 147343/371472 [38:28<17:51:56,  3.48it/s] 40%|███▉      | 147344/371472 [38:29<17:25:23,  3.57it/s] 40%|███▉      | 147345/371472 [38:29<17:38:59,  3.53it/s] 40%|███▉      | 147346/371472 [38:29<17:24:11,  3.58it/s] 40%|███▉      | 147347/371472 [38:29<17:18:59,  3.60it/s] 40%|███▉      | 147348/371472 [38:30<17:20:53,  3.59it/s] 40%|███▉      | 147349/371472 [38:30<17:47:24,  3.50it/s] 40%|███▉      | 147350/371472 [38:30<18:24:07,  3.38it/s] 40%|███▉      | 147351/371472 [38:31<17:55:25,  3.47it/s] 40%|███▉      | 147352/371472 [38:31<17:17:03,  3.60it/s] 40%|███▉      | 147353/371472 [38:31<17:11:19,  3.62it/s] 40%|███▉      | 147354/371472 [38:32<18:12:17,  3.42it/s] 40%|███▉      | 147355/371472 [38:32<17:37:28,  3.53it/s] 40%|███▉      | 147356/371472 [38:32<18:47:47,  3.31it/s] 40%|███▉      | 147357/371472 [38:32<18:07:24,  3.44it/s] 40%|███▉      | 147358/371472 [38:33<17:12:57,  3.62it/s] 40%|███▉      | 147359/371472 [38:33<16:51:54,  3.69it/s] 40%|███▉      | 147360/371472 [38:33<16:19:08,  3.81it/s]                                                          {'loss': 3.2902, 'learning_rate': 6.432696244262965e-07, 'epoch': 6.35}
 40%|███▉      | 147360/371472 [38:33<16:19:08,  3.81it/s] 40%|███▉      | 147361/371472 [38:33<16:01:33,  3.88it/s] 40%|███▉      | 147362/371472 [38:34<17:03:36,  3.65it/s] 40%|███▉      | 147363/371472 [38:34<17:45:36,  3.51it/s] 40%|███▉      | 147364/371472 [38:34<17:38:55,  3.53it/s] 40%|███▉      | 147365/371472 [38:35<17:20:58,  3.59it/s] 40%|███▉      | 147366/371472 [38:35<17:17:51,  3.60it/s] 40%|███▉      | 147367/371472 [38:35<17:04:49,  3.64it/s] 40%|███▉      | 147368/371472 [38:35<17:20:09,  3.59it/s] 40%|███▉      | 147369/371472 [38:36<16:34:12,  3.76it/s] 40%|███▉      | 147370/371472 [38:36<19:08:44,  3.25it/s] 40%|███▉      | 147371/371472 [38:36<18:31:39,  3.36it/s] 40%|███▉      | 147372/371472 [38:37<18:07:10,  3.44it/s] 40%|███▉      | 147373/371472 [38:37<17:37:27,  3.53it/s] 40%|███▉      | 147374/371472 [38:37<17:04:55,  3.64it/s] 40%|███▉      | 147375/371472 [38:37<16:51:02,  3.69it/s] 40%|███▉      | 147376/371472 [38:38<16:39:07,  3.74it/s] 40%|███▉      | 147377/371472 [38:38<17:07:38,  3.63it/s] 40%|███▉      | 147378/371472 [38:38<17:16:47,  3.60it/s] 40%|███▉      | 147379/371472 [38:38<17:18:34,  3.60it/s] 40%|███▉      | 147380/371472 [38:39<19:53:23,  3.13it/s]                                                          {'loss': 3.2785, 'learning_rate': 6.432211424508177e-07, 'epoch': 6.35}
 40%|███▉      | 147380/371472 [38:39<19:53:23,  3.13it/s] 40%|███▉      | 147381/371472 [38:39<19:38:59,  3.17it/s] 40%|███▉      | 147382/371472 [38:39<18:36:15,  3.35it/s] 40%|███▉      | 147383/371472 [38:40<17:49:33,  3.49it/s] 40%|███▉      | 147384/371472 [38:40<17:16:43,  3.60it/s] 40%|███▉      | 147385/371472 [38:40<17:17:48,  3.60it/s] 40%|███▉      | 147386/371472 [38:41<16:54:27,  3.68it/s] 40%|███▉      | 147387/371472 [38:41<17:13:18,  3.61it/s] 40%|███▉      | 147388/371472 [38:41<17:44:05,  3.51it/s] 40%|███▉      | 147389/371472 [38:41<17:42:47,  3.51it/s] 40%|███▉      | 147390/371472 [38:42<17:08:38,  3.63it/s] 40%|███▉      | 147391/371472 [38:42<18:35:29,  3.35it/s] 40%|███▉      | 147392/371472 [38:42<19:27:01,  3.20it/s] 40%|███▉      | 147393/371472 [38:43<18:27:36,  3.37it/s] 40%|███▉      | 147394/371472 [38:43<18:10:16,  3.43it/s] 40%|███▉      | 147395/371472 [38:43<17:39:45,  3.52it/s] 40%|███▉      | 147396/371472 [38:43<18:39:07,  3.34it/s] 40%|███▉      | 147397/371472 [38:44<18:28:36,  3.37it/s] 40%|███▉      | 147398/371472 [38:44<19:42:15,  3.16it/s] 40%|███▉      | 147399/371472 [38:44<19:20:49,  3.22it/s] 40%|███▉      | 147400/371472 [38:45<18:12:20,  3.42it/s]                                                          {'loss': 3.1862, 'learning_rate': 6.431726604753389e-07, 'epoch': 6.35}
 40%|███▉      | 147400/371472 [38:45<18:12:20,  3.42it/s] 40%|███▉      | 147401/371472 [38:45<18:17:01,  3.40it/s] 40%|███▉      | 147402/371472 [38:45<17:48:02,  3.50it/s] 40%|███▉      | 147403/371472 [38:46<18:39:57,  3.33it/s] 40%|███▉      | 147404/371472 [38:46<18:32:34,  3.36it/s] 40%|███▉      | 147405/371472 [38:46<17:36:57,  3.53it/s] 40%|███▉      | 147406/371472 [38:46<18:39:50,  3.33it/s] 40%|███▉      | 147407/371472 [38:47<18:54:28,  3.29it/s] 40%|███▉      | 147408/371472 [38:47<17:57:19,  3.47it/s] 40%|███▉      | 147409/371472 [38:47<17:48:25,  3.50it/s] 40%|███▉      | 147410/371472 [38:48<18:07:32,  3.43it/s] 40%|███▉      | 147411/371472 [38:48<19:08:55,  3.25it/s] 40%|███▉      | 147412/371472 [38:48<18:27:58,  3.37it/s] 40%|███▉      | 147413/371472 [38:48<17:41:18,  3.52it/s] 40%|███▉      | 147414/371472 [38:49<17:07:36,  3.63it/s] 40%|███▉      | 147415/371472 [38:49<17:15:17,  3.61it/s] 40%|███▉      | 147416/371472 [38:49<16:52:45,  3.69it/s] 40%|███▉      | 147417/371472 [38:50<16:37:33,  3.74it/s] 40%|███▉      | 147418/371472 [38:50<16:21:00,  3.81it/s] 40%|███▉      | 147419/371472 [38:50<16:29:08,  3.78it/s] 40%|███▉      | 147420/371472 [38:50<16:40:05,  3.73it/s]                                                          {'loss': 3.251, 'learning_rate': 6.431241784998599e-07, 'epoch': 6.35}
 40%|███▉      | 147420/371472 [38:50<16:40:05,  3.73it/s] 40%|███▉      | 147421/371472 [38:51<16:42:01,  3.73it/s] 40%|███▉      | 147422/371472 [38:51<17:31:20,  3.55it/s] 40%|███▉      | 147423/371472 [38:51<20:14:03,  3.08it/s] 40%|███▉      | 147424/371472 [38:52<20:01:58,  3.11it/s] 40%|███▉      | 147425/371472 [38:52<18:46:42,  3.31it/s] 40%|███▉      | 147426/371472 [38:52<18:50:14,  3.30it/s] 40%|███▉      | 147427/371472 [38:52<18:10:29,  3.42it/s] 40%|███▉      | 147428/371472 [38:53<18:06:59,  3.44it/s] 40%|███▉      | 147429/371472 [38:53<18:40:17,  3.33it/s] 40%|███▉      | 147430/371472 [38:53<18:45:25,  3.32it/s] 40%|███▉      | 147431/371472 [38:54<18:13:07,  3.42it/s] 40%|███▉      | 147432/371472 [38:54<17:24:19,  3.58it/s] 40%|███▉      | 147433/371472 [38:54<18:00:55,  3.45it/s] 40%|███▉      | 147434/371472 [38:54<17:18:58,  3.59it/s] 40%|███▉      | 147435/371472 [38:55<17:05:12,  3.64it/s] 40%|███▉      | 147436/371472 [38:55<16:44:46,  3.72it/s] 40%|███▉      | 147437/371472 [38:55<17:33:55,  3.54it/s] 40%|███▉      | 147438/371472 [38:56<17:41:29,  3.52it/s] 40%|███▉      | 147439/371472 [38:56<17:22:46,  3.58it/s] 40%|███▉      | 147440/371472 [38:56<16:54:55,  3.68it/s]                                                          {'loss': 3.1993, 'learning_rate': 6.43075696524381e-07, 'epoch': 6.35}
 40%|███▉      | 147440/371472 [38:56<16:54:55,  3.68it/s] 40%|███▉      | 147441/371472 [38:56<16:55:49,  3.68it/s] 40%|███▉      | 147442/371472 [38:57<16:49:15,  3.70it/s] 40%|███▉      | 147443/371472 [38:57<16:57:46,  3.67it/s] 40%|███▉      | 147444/371472 [38:57<17:16:04,  3.60it/s] 40%|███▉      | 147445/371472 [38:58<17:34:34,  3.54it/s] 40%|███▉      | 147446/371472 [38:58<17:19:52,  3.59it/s] 40%|███▉      | 147447/371472 [38:58<18:34:31,  3.35it/s] 40%|███▉      | 147448/371472 [38:58<18:02:01,  3.45it/s] 40%|███▉      | 147449/371472 [38:59<17:56:22,  3.47it/s] 40%|███▉      | 147450/371472 [38:59<17:35:28,  3.54it/s] 40%|███▉      | 147451/371472 [38:59<17:33:23,  3.54it/s] 40%|███▉      | 147452/371472 [39:00<17:30:08,  3.56it/s] 40%|███▉      | 147453/371472 [39:00<16:57:39,  3.67it/s] 40%|███▉      | 147454/371472 [39:00<18:11:09,  3.42it/s] 40%|███▉      | 147455/371472 [39:00<19:12:25,  3.24it/s] 40%|███▉      | 147456/371472 [39:01<18:25:45,  3.38it/s] 40%|███▉      | 147457/371472 [39:01<20:31:29,  3.03it/s] 40%|███▉      | 147458/371472 [39:01<19:30:05,  3.19it/s] 40%|███▉      | 147459/371472 [39:02<19:05:19,  3.26it/s] 40%|███▉      | 147460/371472 [39:02<18:41:20,  3.33it/s]                                                          {'loss': 3.3729, 'learning_rate': 6.430272145489022e-07, 'epoch': 6.35}
 40%|███▉      | 147460/371472 [39:02<18:41:20,  3.33it/s] 40%|███▉      | 147461/371472 [39:02<18:35:36,  3.35it/s] 40%|███▉      | 147462/371472 [39:03<17:50:33,  3.49it/s] 40%|███▉      | 147463/371472 [39:03<17:18:08,  3.60it/s] 40%|███▉      | 147464/371472 [39:03<18:27:21,  3.37it/s] 40%|███▉      | 147465/371472 [39:03<18:19:40,  3.40it/s] 40%|███▉      | 147466/371472 [39:04<18:46:13,  3.31it/s] 40%|███▉      | 147467/371472 [39:04<18:08:56,  3.43it/s] 40%|███▉      | 147468/371472 [39:04<18:02:16,  3.45it/s] 40%|███▉      | 147469/371472 [39:05<17:40:34,  3.52it/s] 40%|███▉      | 147470/371472 [39:05<17:35:02,  3.54it/s] 40%|███▉      | 147471/371472 [39:05<18:24:24,  3.38it/s] 40%|███▉      | 147472/371472 [39:06<19:32:41,  3.18it/s] 40%|███▉      | 147473/371472 [39:06<19:01:04,  3.27it/s] 40%|███▉      | 147474/371472 [39:06<18:03:42,  3.44it/s] 40%|███▉      | 147475/371472 [39:06<17:53:10,  3.48it/s] 40%|███▉      | 147476/371472 [39:07<17:45:17,  3.50it/s] 40%|███▉      | 147477/371472 [39:07<17:51:56,  3.48it/s] 40%|███▉      | 147478/371472 [39:07<17:24:28,  3.57it/s] 40%|███▉      | 147479/371472 [39:07<16:55:10,  3.68it/s] 40%|███▉      | 147480/371472 [39:08<17:13:15,  3.61it/s]                                                          {'loss': 3.4042, 'learning_rate': 6.429787325734233e-07, 'epoch': 6.35}
 40%|███▉      | 147480/371472 [39:08<17:13:15,  3.61it/s] 40%|███▉      | 147481/371472 [39:08<16:48:04,  3.70it/s] 40%|███▉      | 147482/371472 [39:08<16:35:38,  3.75it/s] 40%|███▉      | 147483/371472 [39:08<16:31:52,  3.76it/s] 40%|███▉      | 147484/371472 [39:09<16:12:30,  3.84it/s] 40%|███▉      | 147485/371472 [39:09<16:34:04,  3.76it/s] 40%|███▉      | 147486/371472 [39:09<16:42:33,  3.72it/s] 40%|███▉      | 147487/371472 [39:10<16:49:00,  3.70it/s] 40%|███▉      | 147488/371472 [39:10<18:19:06,  3.40it/s] 40%|███▉      | 147489/371472 [39:10<17:33:18,  3.54it/s] 40%|███▉      | 147490/371472 [39:10<17:33:39,  3.54it/s] 40%|███▉      | 147491/371472 [39:11<17:24:20,  3.57it/s] 40%|███▉      | 147492/371472 [39:11<19:09:43,  3.25it/s] 40%|███▉      | 147493/371472 [39:11<19:08:01,  3.25it/s] 40%|███▉      | 147494/371472 [39:12<19:37:23,  3.17it/s] 40%|███▉      | 147495/371472 [39:12<18:42:39,  3.33it/s] 40%|███▉      | 147496/371472 [39:12<18:05:28,  3.44it/s] 40%|███▉      | 147497/371472 [39:13<17:30:56,  3.55it/s] 40%|███▉      | 147498/371472 [39:13<17:17:06,  3.60it/s] 40%|███▉      | 147499/371472 [39:13<17:06:54,  3.64it/s] 40%|███▉      | 147500/371472 [39:13<17:12:43,  3.61it/s]                                                          {'loss': 3.2036, 'learning_rate': 6.429302505979443e-07, 'epoch': 6.35}
 40%|███▉      | 147500/371472 [39:13<17:12:43,  3.61it/s] 40%|███▉      | 147501/371472 [39:14<17:01:12,  3.66it/s] 40%|███▉      | 147502/371472 [39:14<17:11:28,  3.62it/s] 40%|███▉      | 147503/371472 [39:14<16:55:34,  3.68it/s] 40%|███▉      | 147504/371472 [39:14<16:50:18,  3.69it/s] 40%|███▉      | 147505/371472 [39:15<16:20:21,  3.81it/s] 40%|███▉      | 147506/371472 [39:15<16:42:19,  3.72it/s] 40%|███▉      | 147507/371472 [39:15<16:51:32,  3.69it/s] 40%|███▉      | 147508/371472 [39:16<19:16:22,  3.23it/s] 40%|███▉      | 147509/371472 [39:16<18:26:15,  3.37it/s] 40%|███▉      | 147510/371472 [39:16<18:01:24,  3.45it/s] 40%|███▉      | 147511/371472 [39:17<19:42:36,  3.16it/s] 40%|███▉      | 147512/371472 [39:17<18:40:37,  3.33it/s] 40%|███▉      | 147513/371472 [39:17<17:57:47,  3.46it/s] 40%|███▉      | 147514/371472 [39:17<17:53:58,  3.48it/s] 40%|███▉      | 147515/371472 [39:18<17:38:51,  3.53it/s] 40%|███▉      | 147516/371472 [39:18<17:03:17,  3.65it/s] 40%|███▉      | 147517/371472 [39:18<17:15:47,  3.60it/s] 40%|███▉      | 147518/371472 [39:19<18:38:12,  3.34it/s] 40%|███▉      | 147519/371472 [39:19<19:18:03,  3.22it/s] 40%|███▉      | 147520/371472 [39:19<19:00:49,  3.27it/s]                                                          {'loss': 3.1947, 'learning_rate': 6.428817686224654e-07, 'epoch': 6.35}
 40%|███▉      | 147520/371472 [39:19<19:00:49,  3.27it/s] 40%|███▉      | 147521/371472 [39:19<18:15:09,  3.41it/s] 40%|███▉      | 147522/371472 [39:20<18:18:42,  3.40it/s] 40%|███▉      | 147523/371472 [39:20<17:53:24,  3.48it/s] 40%|███▉      | 147524/371472 [39:20<18:28:34,  3.37it/s] 40%|███▉      | 147525/371472 [39:21<18:09:51,  3.42it/s] 40%|███▉      | 147526/371472 [39:21<18:26:54,  3.37it/s] 40%|███▉      | 147527/371472 [39:21<18:22:11,  3.39it/s] 40%|███▉      | 147528/371472 [39:21<17:47:19,  3.50it/s] 40%|███▉      | 147529/371472 [39:22<17:33:00,  3.54it/s] 40%|███▉      | 147530/371472 [39:22<19:10:50,  3.24it/s] 40%|███▉      | 147531/371472 [39:22<18:05:10,  3.44it/s] 40%|███▉      | 147532/371472 [39:23<22:51:53,  2.72it/s] 40%|███▉      | 147533/371472 [39:23<21:27:42,  2.90it/s] 40%|███▉      | 147534/371472 [39:23<19:46:11,  3.15it/s] 40%|███▉      | 147535/371472 [39:24<18:40:16,  3.33it/s] 40%|███▉      | 147536/371472 [39:24<18:51:27,  3.30it/s] 40%|███▉      | 147537/371472 [39:24<18:06:53,  3.43it/s] 40%|███▉      | 147538/371472 [39:25<18:00:09,  3.46it/s] 40%|███▉      | 147539/371472 [39:25<18:15:07,  3.41it/s] 40%|███▉      | 147540/371472 [39:25<17:53:20,  3.48it/s]                                                          {'loss': 3.2549, 'learning_rate': 6.428332866469866e-07, 'epoch': 6.35}
 40%|███▉      | 147540/371472 [39:25<17:53:20,  3.48it/s] 40%|███▉      | 147541/371472 [39:25<17:49:13,  3.49it/s] 40%|███▉      | 147542/371472 [39:26<17:31:40,  3.55it/s] 40%|███▉      | 147543/371472 [39:26<17:25:58,  3.57it/s] 40%|███▉      | 147544/371472 [39:26<17:37:10,  3.53it/s] 40%|███▉      | 147545/371472 [39:27<17:03:49,  3.65it/s] 40%|███▉      | 147546/371472 [39:27<17:38:06,  3.53it/s] 40%|███▉      | 147547/371472 [39:27<17:05:45,  3.64it/s] 40%|███▉      | 147548/371472 [39:27<17:34:26,  3.54it/s] 40%|███▉      | 147549/371472 [39:28<18:45:47,  3.32it/s] 40%|███▉      | 147550/371472 [39:28<19:35:33,  3.17it/s] 40%|███▉      | 147551/371472 [39:28<20:30:11,  3.03it/s] 40%|███▉      | 147552/371472 [39:29<19:20:59,  3.21it/s] 40%|███▉      | 147553/371472 [39:29<19:07:02,  3.25it/s] 40%|███▉      | 147554/371472 [39:29<18:08:07,  3.43it/s] 40%|███▉      | 147555/371472 [39:30<18:23:17,  3.38it/s] 40%|███▉      | 147556/371472 [39:30<18:36:29,  3.34it/s] 40%|███▉      | 147557/371472 [39:30<17:44:30,  3.51it/s] 40%|███▉      | 147558/371472 [39:30<17:23:16,  3.58it/s] 40%|███▉      | 147559/371472 [39:31<17:09:23,  3.63it/s] 40%|███▉      | 147560/371472 [39:31<18:13:38,  3.41it/s]                                                          {'loss': 3.2961, 'learning_rate': 6.427848046715077e-07, 'epoch': 6.36}
 40%|███▉      | 147560/371472 [39:31<18:13:38,  3.41it/s] 40%|███▉      | 147561/371472 [39:31<17:40:25,  3.52it/s] 40%|███▉      | 147562/371472 [39:32<17:14:30,  3.61it/s] 40%|███▉      | 147563/371472 [39:32<17:19:06,  3.59it/s] 40%|███▉      | 147564/371472 [39:32<16:35:18,  3.75it/s] 40%|███▉      | 147565/371472 [39:32<16:22:50,  3.80it/s] 40%|███▉      | 147566/371472 [39:33<16:44:00,  3.72it/s] 40%|███▉      | 147567/371472 [39:33<16:56:41,  3.67it/s] 40%|███▉      | 147568/371472 [39:33<17:19:26,  3.59it/s] 40%|███▉      | 147569/371472 [39:33<17:48:35,  3.49it/s] 40%|███▉      | 147570/371472 [39:34<17:36:01,  3.53it/s] 40%|███▉      | 147571/371472 [39:34<17:52:57,  3.48it/s] 40%|███▉      | 147572/371472 [39:34<17:47:51,  3.49it/s] 40%|███▉      | 147573/371472 [39:35<17:35:18,  3.54it/s] 40%|███▉      | 147574/371472 [39:35<17:18:52,  3.59it/s] 40%|███▉      | 147575/371472 [39:35<17:12:11,  3.62it/s] 40%|███▉      | 147576/371472 [39:35<16:43:54,  3.72it/s] 40%|███▉      | 147577/371472 [39:36<16:25:54,  3.78it/s] 40%|███▉      | 147578/371472 [39:36<17:07:36,  3.63it/s] 40%|███▉      | 147579/371472 [39:36<16:56:56,  3.67it/s] 40%|███▉      | 147580/371472 [39:36<16:53:23,  3.68it/s]                                                          {'loss': 3.3064, 'learning_rate': 6.427363226960287e-07, 'epoch': 6.36}
 40%|███▉      | 147580/371472 [39:36<16:53:23,  3.68it/s] 40%|███▉      | 147581/371472 [39:37<17:44:07,  3.51it/s] 40%|███▉      | 147582/371472 [39:37<19:04:06,  3.26it/s] 40%|███▉      | 147583/371472 [39:37<18:24:17,  3.38it/s] 40%|███▉      | 147584/371472 [39:38<19:23:18,  3.21it/s] 40%|███▉      | 147585/371472 [39:38<18:56:53,  3.28it/s] 40%|███▉      | 147586/371472 [39:38<18:04:42,  3.44it/s] 40%|███▉      | 147587/371472 [39:39<17:19:18,  3.59it/s] 40%|███▉      | 147588/371472 [39:39<18:18:56,  3.40it/s] 40%|███▉      | 147589/371472 [39:39<18:10:59,  3.42it/s] 40%|███▉      | 147590/371472 [39:39<17:27:54,  3.56it/s] 40%|███▉      | 147591/371472 [39:40<17:33:55,  3.54it/s] 40%|███▉      | 147592/371472 [39:40<17:27:55,  3.56it/s] 40%|███▉      | 147593/371472 [39:40<17:58:47,  3.46it/s] 40%|███▉      | 147594/371472 [39:41<17:42:59,  3.51it/s] 40%|███▉      | 147595/371472 [39:41<18:38:23,  3.34it/s] 40%|███▉      | 147596/371472 [39:41<17:59:57,  3.46it/s] 40%|███▉      | 147597/371472 [39:41<17:21:31,  3.58it/s] 40%|███▉      | 147598/371472 [39:42<17:13:54,  3.61it/s] 40%|███▉      | 147599/371472 [39:42<19:07:05,  3.25it/s] 40%|███▉      | 147600/371472 [39:42<18:34:19,  3.35it/s]                                                          {'loss': 2.9175, 'learning_rate': 6.426878407205498e-07, 'epoch': 6.36}
 40%|███▉      | 147600/371472 [39:42<18:34:19,  3.35it/s] 40%|███▉      | 147601/371472 [39:43<19:00:23,  3.27it/s] 40%|███▉      | 147602/371472 [39:43<18:06:24,  3.43it/s] 40%|███▉      | 147603/371472 [39:43<18:23:27,  3.38it/s] 40%|███▉      | 147604/371472 [39:44<18:01:19,  3.45it/s] 40%|███▉      | 147605/371472 [39:44<17:33:00,  3.54it/s] 40%|███▉      | 147606/371472 [39:44<17:43:18,  3.51it/s] 40%|███▉      | 147607/371472 [39:44<17:23:30,  3.58it/s] 40%|███▉      | 147608/371472 [39:45<16:53:10,  3.68it/s] 40%|███▉      | 147609/371472 [39:45<17:48:34,  3.49it/s] 40%|███▉      | 147610/371472 [39:45<17:04:09,  3.64it/s] 40%|███▉      | 147611/371472 [39:45<18:11:49,  3.42it/s] 40%|███▉      | 147612/371472 [39:46<17:33:02,  3.54it/s] 40%|███▉      | 147613/371472 [39:46<17:11:10,  3.62it/s] 40%|███▉      | 147614/371472 [39:46<17:28:33,  3.56it/s] 40%|███▉      | 147615/371472 [39:47<17:10:06,  3.62it/s] 40%|███▉      | 147616/371472 [39:47<17:47:56,  3.49it/s] 40%|███▉      | 147617/371472 [39:47<17:53:59,  3.47it/s] 40%|███▉      | 147618/371472 [39:47<17:13:15,  3.61it/s] 40%|███▉      | 147619/371472 [39:48<16:36:20,  3.74it/s] 40%|███▉      | 147620/371472 [39:48<16:48:45,  3.70it/s]                                                          {'loss': 3.2022, 'learning_rate': 6.42639358745071e-07, 'epoch': 6.36}
 40%|███▉      | 147620/371472 [39:48<16:48:45,  3.70it/s] 40%|███▉      | 147621/371472 [39:48<16:49:01,  3.70it/s] 40%|███▉      | 147622/371472 [39:48<16:45:27,  3.71it/s] 40%|███▉      | 147623/371472 [39:49<16:37:25,  3.74it/s] 40%|███▉      | 147624/371472 [39:49<16:36:54,  3.74it/s] 40%|███▉      | 147625/371472 [39:49<16:35:45,  3.75it/s] 40%|███▉      | 147626/371472 [39:50<16:32:20,  3.76it/s] 40%|███▉      | 147627/371472 [39:50<16:51:17,  3.69it/s] 40%|███▉      | 147628/371472 [39:50<16:53:35,  3.68it/s] 40%|███▉      | 147629/371472 [39:50<18:57:35,  3.28it/s] 40%|███▉      | 147630/371472 [39:51<19:11:49,  3.24it/s] 40%|███▉      | 147631/371472 [39:51<18:15:25,  3.41it/s] 40%|███▉      | 147632/371472 [39:51<17:32:23,  3.54it/s] 40%|███▉      | 147633/371472 [39:52<17:17:32,  3.60it/s] 40%|███▉      | 147634/371472 [39:52<17:59:48,  3.45it/s] 40%|███▉      | 147635/371472 [39:52<19:39:00,  3.16it/s] 40%|███▉      | 147636/371472 [39:53<18:49:12,  3.30it/s] 40%|███▉      | 147637/371472 [39:53<18:01:54,  3.45it/s] 40%|███▉      | 147638/371472 [39:53<18:56:45,  3.28it/s] 40%|███▉      | 147639/371472 [39:53<19:06:19,  3.25it/s] 40%|███▉      | 147640/371472 [39:54<20:23:26,  3.05it/s]                                                          {'loss': 3.2631, 'learning_rate': 6.42590876769592e-07, 'epoch': 6.36}
 40%|███▉      | 147640/371472 [39:54<20:23:26,  3.05it/s] 40%|███▉      | 147641/371472 [39:54<19:47:22,  3.14it/s] 40%|███▉      | 147642/371472 [39:54<18:59:42,  3.27it/s] 40%|███▉      | 147643/371472 [39:55<18:12:41,  3.41it/s] 40%|███▉      | 147644/371472 [39:55<17:33:56,  3.54it/s] 40%|███▉      | 147645/371472 [39:55<17:16:37,  3.60it/s] 40%|███▉      | 147646/371472 [39:55<17:20:22,  3.59it/s] 40%|███▉      | 147647/371472 [39:56<17:11:15,  3.62it/s] 40%|███▉      | 147648/371472 [39:56<17:21:59,  3.58it/s] 40%|███▉      | 147649/371472 [39:56<16:45:06,  3.71it/s] 40%|███▉      | 147650/371472 [39:57<16:57:35,  3.67it/s] 40%|███▉      | 147651/371472 [39:57<17:29:36,  3.55it/s] 40%|███▉      | 147652/371472 [39:57<16:57:53,  3.66it/s] 40%|███▉      | 147653/371472 [39:57<16:21:00,  3.80it/s] 40%|███▉      | 147654/371472 [39:58<16:24:49,  3.79it/s] 40%|███▉      | 147655/371472 [39:58<16:20:38,  3.80it/s] 40%|███▉      | 147656/371472 [39:58<16:27:07,  3.78it/s] 40%|███▉      | 147657/371472 [39:58<16:14:47,  3.83it/s] 40%|███▉      | 147658/371472 [39:59<17:20:42,  3.58it/s] 40%|███▉      | 147659/371472 [39:59<17:26:08,  3.57it/s] 40%|███▉      | 147660/371472 [39:59<18:52:06,  3.29it/s]                                                          {'loss': 3.1804, 'learning_rate': 6.425423947941131e-07, 'epoch': 6.36}
 40%|███▉      | 147660/371472 [39:59<18:52:06,  3.29it/s] 40%|███▉      | 147661/371472 [40:00<19:34:14,  3.18it/s] 40%|███▉      | 147662/371472 [40:00<18:46:17,  3.31it/s] 40%|███▉      | 147663/371472 [40:00<18:01:15,  3.45it/s] 40%|███▉      | 147664/371472 [40:01<17:57:06,  3.46it/s] 40%|███▉      | 147665/371472 [40:01<18:36:54,  3.34it/s] 40%|███▉      | 147666/371472 [40:01<17:50:57,  3.48it/s] 40%|███▉      | 147667/371472 [40:01<18:52:40,  3.29it/s] 40%|███▉      | 147668/371472 [40:02<18:16:26,  3.40it/s] 40%|███▉      | 147669/371472 [40:02<17:32:05,  3.55it/s] 40%|███▉      | 147670/371472 [40:02<18:08:43,  3.43it/s] 40%|███▉      | 147671/371472 [40:03<17:30:47,  3.55it/s] 40%|███▉      | 147672/371472 [40:03<16:58:25,  3.66it/s] 40%|███▉      | 147673/371472 [40:03<16:41:14,  3.73it/s] 40%|███▉      | 147674/371472 [40:03<16:26:18,  3.78it/s] 40%|███▉      | 147675/371472 [40:04<16:37:30,  3.74it/s] 40%|███▉      | 147676/371472 [40:04<16:58:02,  3.66it/s] 40%|███▉      | 147677/371472 [40:04<18:01:52,  3.45it/s] 40%|███▉      | 147678/371472 [40:04<17:56:57,  3.46it/s] 40%|███▉      | 147679/371472 [40:05<19:03:35,  3.26it/s] 40%|███▉      | 147680/371472 [40:05<18:53:30,  3.29it/s]                                                          {'loss': 3.1592, 'learning_rate': 6.424939128186343e-07, 'epoch': 6.36}
 40%|███▉      | 147680/371472 [40:05<18:53:30,  3.29it/s] 40%|███▉      | 147681/371472 [40:05<18:19:13,  3.39it/s] 40%|███▉      | 147682/371472 [40:06<19:51:24,  3.13it/s] 40%|███▉      | 147683/371472 [40:06<18:58:56,  3.27it/s] 40%|███▉      | 147684/371472 [40:06<18:49:04,  3.30it/s] 40%|███▉      | 147685/371472 [40:07<18:44:36,  3.32it/s] 40%|███▉      | 147686/371472 [40:07<19:02:24,  3.26it/s] 40%|███▉      | 147687/371472 [40:07<19:32:46,  3.18it/s] 40%|███▉      | 147688/371472 [40:08<18:01:11,  3.45it/s] 40%|███▉      | 147689/371472 [40:08<17:31:30,  3.55it/s] 40%|███▉      | 147690/371472 [40:08<16:58:49,  3.66it/s] 40%|███▉      | 147691/371472 [40:08<18:13:08,  3.41it/s] 40%|███▉      | 147692/371472 [40:09<18:04:01,  3.44it/s] 40%|███▉      | 147693/371472 [40:09<17:00:30,  3.65it/s] 40%|███▉      | 147694/371472 [40:09<16:59:40,  3.66it/s] 40%|███▉      | 147695/371472 [40:09<16:54:21,  3.68it/s] 40%|███▉      | 147696/371472 [40:10<16:26:01,  3.78it/s] 40%|███▉      | 147697/371472 [40:10<17:26:20,  3.56it/s] 40%|███▉      | 147698/371472 [40:10<17:15:13,  3.60it/s] 40%|███▉      | 147699/371472 [40:11<17:05:35,  3.64it/s] 40%|███▉      | 147700/371472 [40:11<17:32:33,  3.54it/s]                                                          {'loss': 3.2874, 'learning_rate': 6.424454308431555e-07, 'epoch': 6.36}
 40%|███▉      | 147700/371472 [40:11<17:32:33,  3.54it/s] 40%|███▉      | 147701/371472 [40:11<17:59:12,  3.46it/s] 40%|███▉      | 147702/371472 [40:11<17:30:03,  3.55it/s] 40%|███▉      | 147703/371472 [40:12<16:47:39,  3.70it/s] 40%|███▉      | 147704/371472 [40:12<18:51:05,  3.30it/s] 40%|███▉      | 147705/371472 [40:12<18:14:43,  3.41it/s] 40%|███▉      | 147706/371472 [40:13<17:56:16,  3.47it/s] 40%|███▉      | 147707/371472 [40:13<17:19:35,  3.59it/s] 40%|███▉      | 147708/371472 [40:13<17:29:44,  3.55it/s] 40%|███▉      | 147709/371472 [40:13<17:47:28,  3.49it/s] 40%|███▉      | 147710/371472 [40:14<17:21:59,  3.58it/s] 40%|███▉      | 147711/371472 [40:14<18:40:17,  3.33it/s] 40%|███▉      | 147712/371472 [40:14<17:31:40,  3.55it/s] 40%|███▉      | 147713/371472 [40:15<17:43:46,  3.51it/s] 40%|███▉      | 147714/371472 [40:15<17:39:36,  3.52it/s] 40%|███▉      | 147715/371472 [40:15<17:11:30,  3.62it/s] 40%|███▉      | 147716/371472 [40:15<17:59:21,  3.46it/s] 40%|███▉      | 147717/371472 [40:16<17:48:01,  3.49it/s] 40%|███▉      | 147718/371472 [40:16<17:10:42,  3.62it/s] 40%|███▉      | 147719/371472 [40:16<17:21:18,  3.58it/s] 40%|███▉      | 147720/371472 [40:17<16:36:35,  3.74it/s]                                                          {'loss': 3.211, 'learning_rate': 6.423969488676764e-07, 'epoch': 6.36}
 40%|███▉      | 147720/371472 [40:17<16:36:35,  3.74it/s] 40%|███▉      | 147721/371472 [40:17<17:32:10,  3.54it/s] 40%|███▉      | 147722/371472 [40:17<17:51:53,  3.48it/s] 40%|███▉      | 147723/371472 [40:17<19:07:33,  3.25it/s] 40%|███▉      | 147724/371472 [40:18<19:01:53,  3.27it/s] 40%|███▉      | 147725/371472 [40:18<17:54:52,  3.47it/s] 40%|███▉      | 147726/371472 [40:18<17:12:39,  3.61it/s] 40%|███▉      | 147727/371472 [40:19<18:34:25,  3.35it/s] 40%|███▉      | 147728/371472 [40:19<18:47:17,  3.31it/s] 40%|███▉      | 147729/371472 [40:19<18:00:44,  3.45it/s] 40%|███▉      | 147730/371472 [40:19<18:00:41,  3.45it/s] 40%|███▉      | 147731/371472 [40:20<17:25:26,  3.57it/s] 40%|███▉      | 147732/371472 [40:20<17:12:54,  3.61it/s] 40%|███▉      | 147733/371472 [40:20<17:34:11,  3.54it/s] 40%|███▉      | 147734/371472 [40:21<18:00:46,  3.45it/s] 40%|███▉      | 147735/371472 [40:21<17:26:51,  3.56it/s] 40%|███▉      | 147736/371472 [40:21<17:32:22,  3.54it/s] 40%|███▉      | 147737/371472 [40:21<17:18:04,  3.59it/s] 40%|███▉      | 147738/371472 [40:22<17:21:45,  3.58it/s] 40%|███▉      | 147739/371472 [40:22<16:44:22,  3.71it/s] 40%|███▉      | 147740/371472 [40:22<16:54:15,  3.68it/s]                                                          {'loss': 3.2396, 'learning_rate': 6.423484668921975e-07, 'epoch': 6.36}
 40%|███▉      | 147740/371472 [40:22<16:54:15,  3.68it/s] 40%|███▉      | 147741/371472 [40:23<16:58:38,  3.66it/s] 40%|███▉      | 147742/371472 [40:23<16:49:39,  3.69it/s] 40%|███▉      | 147743/371472 [40:23<16:47:06,  3.70it/s] 40%|███▉      | 147744/371472 [40:23<16:38:13,  3.74it/s] 40%|███▉      | 147745/371472 [40:24<17:09:02,  3.62it/s] 40%|███▉      | 147746/371472 [40:24<17:09:37,  3.62it/s] 40%|███▉      | 147747/371472 [40:24<16:51:20,  3.69it/s] 40%|███▉      | 147748/371472 [40:24<16:30:14,  3.77it/s] 40%|███▉      | 147749/371472 [40:25<17:37:54,  3.52it/s] 40%|███▉      | 147750/371472 [40:25<18:22:38,  3.38it/s] 40%|███▉      | 147751/371472 [40:25<17:45:26,  3.50it/s] 40%|███▉      | 147752/371472 [40:26<18:24:04,  3.38it/s] 40%|███▉      | 147753/371472 [40:26<18:50:35,  3.30it/s] 40%|███▉      | 147754/371472 [40:26<19:04:45,  3.26it/s] 40%|███▉      | 147755/371472 [40:27<18:18:26,  3.39it/s] 40%|███▉      | 147756/371472 [40:27<18:02:50,  3.44it/s] 40%|███▉      | 147757/371472 [40:27<18:02:06,  3.45it/s] 40%|███▉      | 147758/371472 [40:27<18:10:44,  3.42it/s] 40%|███▉      | 147759/371472 [40:28<18:20:44,  3.39it/s] 40%|███▉      | 147760/371472 [40:28<17:49:49,  3.49it/s]                                                          {'loss': 3.2571, 'learning_rate': 6.422999849167187e-07, 'epoch': 6.36}
 40%|███▉      | 147760/371472 [40:28<17:49:49,  3.49it/s] 40%|███▉      | 147761/371472 [40:28<17:45:53,  3.50it/s] 40%|███▉      | 147762/371472 [40:29<17:59:20,  3.45it/s] 40%|███▉      | 147763/371472 [40:29<17:02:39,  3.65it/s] 40%|███▉      | 147764/371472 [40:29<18:15:54,  3.40it/s] 40%|███▉      | 147765/371472 [40:29<18:02:18,  3.44it/s] 40%|███▉      | 147766/371472 [40:30<17:22:45,  3.58it/s] 40%|███▉      | 147767/371472 [40:30<17:13:49,  3.61it/s] 40%|███▉      | 147768/371472 [40:30<17:02:49,  3.65it/s] 40%|███▉      | 147769/371472 [40:30<16:58:58,  3.66it/s] 40%|███▉      | 147770/371472 [40:31<16:47:04,  3.70it/s] 40%|███▉      | 147771/371472 [40:31<16:30:10,  3.77it/s] 40%|███▉      | 147772/371472 [40:31<16:33:31,  3.75it/s] 40%|███▉      | 147773/371472 [40:32<16:13:45,  3.83it/s] 40%|███▉      | 147774/371472 [40:32<15:55:34,  3.90it/s] 40%|███▉      | 147775/371472 [40:32<16:00:51,  3.88it/s] 40%|███▉      | 147776/371472 [40:32<17:23:36,  3.57it/s] 40%|███▉      | 147777/371472 [40:33<18:47:54,  3.31it/s] 40%|███▉      | 147778/371472 [40:33<17:42:14,  3.51it/s] 40%|███▉      | 147779/371472 [40:33<18:44:03,  3.32it/s] 40%|███▉      | 147780/371472 [40:34<17:48:07,  3.49it/s]                                                          {'loss': 3.286, 'learning_rate': 6.422515029412399e-07, 'epoch': 6.37}
 40%|███▉      | 147780/371472 [40:34<17:48:07,  3.49it/s] 40%|███▉      | 147781/371472 [40:34<17:10:59,  3.62it/s] 40%|███▉      | 147782/371472 [40:34<17:10:59,  3.62it/s] 40%|███▉      | 147783/371472 [40:34<16:53:34,  3.68it/s] 40%|███▉      | 147784/371472 [40:35<17:28:14,  3.56it/s] 40%|███▉      | 147785/371472 [40:35<16:51:23,  3.69it/s] 40%|███▉      | 147786/371472 [40:35<16:29:40,  3.77it/s] 40%|███▉      | 147787/371472 [40:35<17:02:19,  3.65it/s] 40%|███▉      | 147788/371472 [40:36<17:04:07,  3.64it/s] 40%|███▉      | 147789/371472 [40:36<17:37:54,  3.52it/s] 40%|███▉      | 147790/371472 [40:36<18:47:28,  3.31it/s] 40%|███▉      | 147791/371472 [40:37<18:22:40,  3.38it/s] 40%|███▉      | 147792/371472 [40:37<19:42:02,  3.15it/s] 40%|███▉      | 147793/371472 [40:37<20:05:39,  3.09it/s] 40%|███▉      | 147794/371472 [40:38<19:06:43,  3.25it/s] 40%|███▉      | 147795/371472 [40:38<19:09:22,  3.24it/s] 40%|███▉      | 147796/371472 [40:38<18:09:35,  3.42it/s] 40%|███▉      | 147797/371472 [40:39<20:05:36,  3.09it/s] 40%|███▉      | 147798/371472 [40:39<19:26:36,  3.20it/s] 40%|███▉      | 147799/371472 [40:39<18:19:27,  3.39it/s] 40%|███▉      | 147800/371472 [40:39<18:06:27,  3.43it/s]                                                          {'loss': 3.2572, 'learning_rate': 6.422030209657609e-07, 'epoch': 6.37}
 40%|███▉      | 147800/371472 [40:39<18:06:27,  3.43it/s] 40%|███▉      | 147801/371472 [40:40<17:18:24,  3.59it/s] 40%|███▉      | 147802/371472 [40:40<17:32:38,  3.54it/s] 40%|███▉      | 147803/371472 [40:40<17:46:45,  3.49it/s] 40%|███▉      | 147804/371472 [40:41<18:20:37,  3.39it/s] 40%|███▉      | 147805/371472 [40:41<18:23:18,  3.38it/s] 40%|███▉      | 147806/371472 [40:41<18:33:10,  3.35it/s] 40%|███▉      | 147807/371472 [40:41<18:09:20,  3.42it/s] 40%|███▉      | 147808/371472 [40:42<18:21:54,  3.38it/s] 40%|███▉      | 147809/371472 [40:42<17:48:30,  3.49it/s] 40%|███▉      | 147810/371472 [40:42<18:36:20,  3.34it/s] 40%|███▉      | 147811/371472 [40:43<18:11:48,  3.41it/s] 40%|███▉      | 147812/371472 [40:43<22:06:50,  2.81it/s] 40%|███▉      | 147813/371472 [40:43<20:03:11,  3.10it/s] 40%|███▉      | 147814/371472 [40:44<18:50:00,  3.30it/s] 40%|███▉      | 147815/371472 [40:44<18:01:08,  3.45it/s] 40%|███▉      | 147816/371472 [40:44<18:21:00,  3.39it/s] 40%|███▉      | 147817/371472 [40:45<19:38:45,  3.16it/s] 40%|███▉      | 147818/371472 [40:45<19:13:54,  3.23it/s] 40%|███▉      | 147819/371472 [40:45<18:21:13,  3.38it/s] 40%|███▉      | 147820/371472 [40:45<19:31:20,  3.18it/s]                                                          {'loss': 3.097, 'learning_rate': 6.42154538990282e-07, 'epoch': 6.37}
 40%|███▉      | 147820/371472 [40:45<19:31:20,  3.18it/s] 40%|███▉      | 147821/371472 [40:46<18:42:27,  3.32it/s] 40%|███▉      | 147822/371472 [40:46<18:11:25,  3.42it/s] 40%|███▉      | 147823/371472 [40:46<17:33:53,  3.54it/s] 40%|███▉      | 147824/371472 [40:47<18:27:24,  3.37it/s] 40%|███▉      | 147825/371472 [40:47<18:08:01,  3.43it/s] 40%|███▉      | 147826/371472 [40:47<17:37:06,  3.53it/s] 40%|███▉      | 147827/371472 [40:47<17:43:24,  3.51it/s] 40%|███▉      | 147828/371472 [40:48<19:14:10,  3.23it/s] 40%|███▉      | 147829/371472 [40:48<18:20:54,  3.39it/s] 40%|███▉      | 147830/371472 [40:48<18:53:27,  3.29it/s] 40%|███▉      | 147831/371472 [40:49<19:10:52,  3.24it/s] 40%|███▉      | 147832/371472 [40:49<18:51:28,  3.29it/s] 40%|███▉      | 147833/371472 [40:49<18:17:48,  3.40it/s] 40%|███▉      | 147834/371472 [40:50<17:42:20,  3.51it/s] 40%|███▉      | 147835/371472 [40:50<17:48:22,  3.49it/s] 40%|███▉      | 147836/371472 [40:50<17:14:31,  3.60it/s] 40%|███▉      | 147837/371472 [40:50<17:48:36,  3.49it/s] 40%|███▉      | 147838/371472 [40:51<17:34:39,  3.53it/s] 40%|███▉      | 147839/371472 [40:51<17:19:07,  3.59it/s] 40%|███▉      | 147840/371472 [40:51<17:06:51,  3.63it/s]                                                          {'loss': 3.3026, 'learning_rate': 6.421060570148032e-07, 'epoch': 6.37}
 40%|███▉      | 147840/371472 [40:51<17:06:51,  3.63it/s] 40%|███▉      | 147841/371472 [40:51<16:49:28,  3.69it/s] 40%|███▉      | 147842/371472 [40:52<17:21:40,  3.58it/s] 40%|███▉      | 147843/371472 [40:52<17:09:36,  3.62it/s] 40%|███▉      | 147844/371472 [40:52<17:14:23,  3.60it/s] 40%|███▉      | 147845/371472 [40:53<17:41:16,  3.51it/s] 40%|███▉      | 147846/371472 [40:53<17:27:58,  3.56it/s] 40%|███▉      | 147847/371472 [40:53<17:31:01,  3.55it/s] 40%|███▉      | 147848/371472 [40:53<17:24:06,  3.57it/s] 40%|███▉      | 147849/371472 [40:54<17:06:46,  3.63it/s] 40%|███▉      | 147850/371472 [40:54<16:58:53,  3.66it/s] 40%|███▉      | 147851/371472 [40:54<16:59:47,  3.65it/s] 40%|███▉      | 147852/371472 [40:54<16:48:01,  3.70it/s] 40%|███▉      | 147853/371472 [40:55<17:32:14,  3.54it/s] 40%|███▉      | 147854/371472 [40:55<17:52:29,  3.48it/s] 40%|███▉      | 147855/371472 [40:55<17:01:48,  3.65it/s] 40%|███▉      | 147856/371472 [40:56<16:38:20,  3.73it/s] 40%|███▉      | 147857/371472 [40:56<17:48:40,  3.49it/s] 40%|███▉      | 147858/371472 [40:56<18:00:44,  3.45it/s] 40%|███▉      | 147859/371472 [40:57<19:49:24,  3.13it/s] 40%|███▉      | 147860/371472 [40:57<18:56:46,  3.28it/s]                                                          {'loss': 3.3998, 'learning_rate': 6.420575750393243e-07, 'epoch': 6.37}
 40%|███▉      | 147860/371472 [40:57<18:56:46,  3.28it/s] 40%|███▉      | 147861/371472 [40:57<18:00:07,  3.45it/s] 40%|███▉      | 147862/371472 [40:57<17:49:29,  3.48it/s] 40%|███▉      | 147863/371472 [40:58<17:35:37,  3.53it/s] 40%|███▉      | 147864/371472 [40:58<17:56:50,  3.46it/s] 40%|███▉      | 147865/371472 [40:58<17:43:05,  3.51it/s] 40%|███▉      | 147866/371472 [40:59<18:36:00,  3.34it/s] 40%|███▉      | 147867/371472 [40:59<18:03:40,  3.44it/s] 40%|███▉      | 147868/371472 [40:59<18:43:36,  3.32it/s] 40%|███▉      | 147869/371472 [40:59<17:36:25,  3.53it/s] 40%|███▉      | 147870/371472 [41:00<17:41:32,  3.51it/s] 40%|███▉      | 147871/371472 [41:00<17:59:48,  3.45it/s] 40%|███▉      | 147872/371472 [41:00<18:05:31,  3.43it/s] 40%|███▉      | 147873/371472 [41:01<17:42:43,  3.51it/s] 40%|███▉      | 147874/371472 [41:01<20:11:49,  3.08it/s] 40%|███▉      | 147875/371472 [41:01<18:46:35,  3.31it/s] 40%|███▉      | 147876/371472 [41:02<18:50:29,  3.30it/s] 40%|███▉      | 147877/371472 [41:02<18:48:38,  3.30it/s] 40%|███▉      | 147878/371472 [41:02<18:33:10,  3.35it/s] 40%|███▉      | 147879/371472 [41:02<18:06:43,  3.43it/s] 40%|███▉      | 147880/371472 [41:03<18:29:39,  3.36it/s]                                                          {'loss': 3.2417, 'learning_rate': 6.420090930638453e-07, 'epoch': 6.37}
 40%|███▉      | 147880/371472 [41:03<18:29:39,  3.36it/s] 40%|███▉      | 147881/371472 [41:03<18:43:06,  3.32it/s] 40%|███▉      | 147882/371472 [41:03<18:21:37,  3.38it/s] 40%|███▉      | 147883/371472 [41:04<17:32:49,  3.54it/s] 40%|███▉      | 147884/371472 [41:04<16:50:36,  3.69it/s] 40%|███▉      | 147885/371472 [41:04<16:42:40,  3.72it/s] 40%|███▉      | 147886/371472 [41:04<17:31:56,  3.54it/s] 40%|███▉      | 147887/371472 [41:05<18:55:11,  3.28it/s] 40%|███▉      | 147888/371472 [41:05<18:31:40,  3.35it/s] 40%|███▉      | 147889/371472 [41:05<17:55:51,  3.46it/s] 40%|███▉      | 147890/371472 [41:06<17:30:22,  3.55it/s] 40%|███▉      | 147891/371472 [41:06<17:52:56,  3.47it/s] 40%|███▉      | 147892/371472 [41:06<17:30:27,  3.55it/s] 40%|███▉      | 147893/371472 [41:06<17:55:45,  3.46it/s] 40%|███▉      | 147894/371472 [41:07<17:39:55,  3.52it/s] 40%|███▉      | 147895/371472 [41:07<19:29:12,  3.19it/s] 40%|███▉      | 147896/371472 [41:07<19:44:52,  3.14it/s] 40%|███▉      | 147897/371472 [41:08<19:48:16,  3.14it/s] 40%|███▉      | 147898/371472 [41:08<20:05:58,  3.09it/s] 40%|███▉      | 147899/371472 [41:08<19:15:46,  3.22it/s] 40%|███▉      | 147900/371472 [41:09<18:04:40,  3.44it/s]                                                          {'loss': 3.2389, 'learning_rate': 6.419606110883664e-07, 'epoch': 6.37}
 40%|███▉      | 147900/371472 [41:09<18:04:40,  3.44it/s] 40%|███▉      | 147901/371472 [41:09<17:39:20,  3.52it/s] 40%|███▉      | 147902/371472 [41:09<17:28:02,  3.56it/s] 40%|███▉      | 147903/371472 [41:09<16:51:42,  3.68it/s] 40%|███▉      | 147904/371472 [41:10<19:21:15,  3.21it/s] 40%|███▉      | 147905/371472 [41:10<18:32:12,  3.35it/s] 40%|███▉      | 147906/371472 [41:10<17:52:25,  3.47it/s] 40%|███▉      | 147907/371472 [41:11<18:32:42,  3.35it/s] 40%|███▉      | 147908/371472 [41:11<17:58:02,  3.46it/s] 40%|███▉      | 147909/371472 [41:11<17:41:35,  3.51it/s] 40%|███▉      | 147910/371472 [41:11<17:18:37,  3.59it/s] 40%|███▉      | 147911/371472 [41:12<17:10:44,  3.61it/s] 40%|███▉      | 147912/371472 [41:12<16:47:13,  3.70it/s] 40%|███▉      | 147913/371472 [41:12<16:48:09,  3.70it/s] 40%|███▉      | 147914/371472 [41:13<16:46:20,  3.70it/s] 40%|███▉      | 147915/371472 [41:13<18:24:11,  3.37it/s] 40%|███▉      | 147916/371472 [41:13<18:00:22,  3.45it/s] 40%|███▉      | 147917/371472 [41:13<17:49:07,  3.49it/s] 40%|███▉      | 147918/371472 [41:14<17:15:44,  3.60it/s] 40%|███▉      | 147919/371472 [41:14<17:43:12,  3.50it/s] 40%|███▉      | 147920/371472 [41:14<19:14:45,  3.23it/s]                                                          {'loss': 3.1418, 'learning_rate': 6.419121291128876e-07, 'epoch': 6.37}
 40%|███▉      | 147920/371472 [41:14<19:14:45,  3.23it/s] 40%|███▉      | 147921/371472 [41:15<19:01:34,  3.26it/s] 40%|███▉      | 147922/371472 [41:15<18:22:13,  3.38it/s] 40%|███▉      | 147923/371472 [41:15<18:06:31,  3.43it/s] 40%|███▉      | 147924/371472 [41:15<17:19:03,  3.59it/s] 40%|███▉      | 147925/371472 [41:16<16:46:59,  3.70it/s] 40%|███▉      | 147926/371472 [41:16<18:01:29,  3.45it/s] 40%|███▉      | 147927/371472 [41:16<19:11:17,  3.24it/s] 40%|███▉      | 147928/371472 [41:17<18:20:49,  3.38it/s] 40%|███▉      | 147929/371472 [41:17<18:02:45,  3.44it/s] 40%|███▉      | 147930/371472 [41:17<17:26:16,  3.56it/s] 40%|███▉      | 147931/371472 [41:18<17:14:21,  3.60it/s] 40%|███▉      | 147932/371472 [41:18<16:58:16,  3.66it/s] 40%|███▉      | 147933/371472 [41:18<16:42:00,  3.72it/s] 40%|███▉      | 147934/371472 [41:18<16:20:51,  3.80it/s] 40%|███▉      | 147935/371472 [41:19<16:41:27,  3.72it/s] 40%|███▉      | 147936/371472 [41:19<17:02:06,  3.65it/s] 40%|███▉      | 147937/371472 [41:19<17:29:13,  3.55it/s] 40%|███▉      | 147938/371472 [41:19<17:35:26,  3.53it/s] 40%|███▉      | 147939/371472 [41:20<17:18:09,  3.59it/s] 40%|███▉      | 147940/371472 [41:20<17:02:32,  3.64it/s]                                                          {'loss': 3.2214, 'learning_rate': 6.418636471374088e-07, 'epoch': 6.37}
 40%|███▉      | 147940/371472 [41:20<17:02:32,  3.64it/s] 40%|███▉      | 147941/371472 [41:20<17:24:36,  3.57it/s] 40%|███▉      | 147942/371472 [41:21<17:10:15,  3.62it/s] 40%|███▉      | 147943/371472 [41:21<17:36:37,  3.53it/s] 40%|███▉      | 147944/371472 [41:21<18:19:58,  3.39it/s] 40%|███▉      | 147945/371472 [41:21<17:29:04,  3.55it/s] 40%|███▉      | 147946/371472 [41:22<17:49:26,  3.48it/s] 40%|███▉      | 147947/371472 [41:22<17:21:07,  3.58it/s] 40%|███▉      | 147948/371472 [41:22<17:04:32,  3.64it/s] 40%|███▉      | 147949/371472 [41:22<16:56:41,  3.66it/s] 40%|███▉      | 147950/371472 [41:23<16:44:44,  3.71it/s] 40%|███▉      | 147951/371472 [41:23<16:37:18,  3.74it/s] 40%|███▉      | 147952/371472 [41:23<16:59:01,  3.66it/s] 40%|███▉      | 147953/371472 [41:24<16:55:06,  3.67it/s] 40%|███▉      | 147954/371472 [41:24<17:13:47,  3.60it/s] 40%|███▉      | 147955/371472 [41:24<17:26:24,  3.56it/s] 40%|███▉      | 147956/371472 [41:24<17:43:38,  3.50it/s] 40%|███▉      | 147957/371472 [41:25<18:03:09,  3.44it/s] 40%|███▉      | 147958/371472 [41:25<18:05:24,  3.43it/s] 40%|███▉      | 147959/371472 [41:25<17:13:04,  3.61it/s] 40%|███▉      | 147960/371472 [41:26<17:03:33,  3.64it/s]                                                          {'loss': 3.2452, 'learning_rate': 6.418151651619298e-07, 'epoch': 6.37}
 40%|███▉      | 147960/371472 [41:26<17:03:33,  3.64it/s] 40%|███▉      | 147961/371472 [41:26<16:57:31,  3.66it/s] 40%|███▉      | 147962/371472 [41:26<17:20:46,  3.58it/s] 40%|███▉      | 147963/371472 [41:26<17:53:19,  3.47it/s] 40%|███▉      | 147964/371472 [41:27<17:22:31,  3.57it/s] 40%|███▉      | 147965/371472 [41:27<18:08:31,  3.42it/s] 40%|███▉      | 147966/371472 [41:27<19:21:08,  3.21it/s] 40%|███▉      | 147967/371472 [41:28<18:20:47,  3.38it/s] 40%|███▉      | 147968/371472 [41:28<18:10:20,  3.42it/s] 40%|███▉      | 147969/371472 [41:28<17:48:15,  3.49it/s] 40%|███▉      | 147970/371472 [41:28<17:20:15,  3.58it/s] 40%|███▉      | 147971/371472 [41:29<17:26:25,  3.56it/s] 40%|███▉      | 147972/371472 [41:29<17:31:26,  3.54it/s] 40%|███▉      | 147973/371472 [41:29<17:09:53,  3.62it/s] 40%|███▉      | 147974/371472 [41:30<17:20:22,  3.58it/s] 40%|███▉      | 147975/371472 [41:30<17:53:30,  3.47it/s] 40%|███▉      | 147976/371472 [41:30<18:37:27,  3.33it/s] 40%|███▉      | 147977/371472 [41:30<18:01:51,  3.44it/s] 40%|███▉      | 147978/371472 [41:31<19:02:25,  3.26it/s] 40%|███▉      | 147979/371472 [41:31<19:05:00,  3.25it/s] 40%|███▉      | 147980/371472 [41:31<18:36:34,  3.34it/s]                                                          {'loss': 3.3426, 'learning_rate': 6.417666831864508e-07, 'epoch': 6.37}
 40%|███▉      | 147980/371472 [41:31<18:36:34,  3.34it/s] 40%|███▉      | 147981/371472 [41:32<17:48:46,  3.49it/s] 40%|███▉      | 147982/371472 [41:32<17:14:26,  3.60it/s] 40%|███▉      | 147983/371472 [41:32<17:28:15,  3.55it/s] 40%|███▉      | 147984/371472 [41:33<18:36:07,  3.34it/s] 40%|███▉      | 147985/371472 [41:33<18:08:18,  3.42it/s] 40%|███▉      | 147986/371472 [41:33<18:42:02,  3.32it/s] 40%|███▉      | 147987/371472 [41:33<18:38:11,  3.33it/s] 40%|███▉      | 147988/371472 [41:34<19:05:48,  3.25it/s] 40%|███▉      | 147989/371472 [41:34<18:16:58,  3.40it/s] 40%|███▉      | 147990/371472 [41:34<17:35:17,  3.53it/s] 40%|███▉      | 147991/371472 [41:35<17:49:45,  3.48it/s] 40%|███▉      | 147992/371472 [41:35<17:04:52,  3.63it/s] 40%|███▉      | 147993/371472 [41:35<17:35:32,  3.53it/s] 40%|███▉      | 147994/371472 [41:35<17:07:53,  3.62it/s] 40%|███▉      | 147995/371472 [41:36<16:40:40,  3.72it/s] 40%|███▉      | 147996/371472 [41:36<16:12:20,  3.83it/s] 40%|███▉      | 147997/371472 [41:36<16:30:17,  3.76it/s] 40%|███▉      | 147998/371472 [41:36<17:00:00,  3.65it/s] 40%|███▉      | 147999/371472 [41:37<18:33:48,  3.34it/s] 40%|███▉      | 148000/371472 [41:37<17:43:47,  3.50it/s]                                                          {'loss': 3.3025, 'learning_rate': 6.41718201210972e-07, 'epoch': 6.37}
 40%|███▉      | 148000/371472 [41:37<17:43:47,  3.50it/s] 40%|███▉      | 148001/371472 [41:37<17:42:26,  3.51it/s] 40%|███▉      | 148002/371472 [41:38<18:44:40,  3.31it/s] 40%|███▉      | 148003/371472 [41:38<18:02:27,  3.44it/s] 40%|███▉      | 148004/371472 [41:38<17:50:53,  3.48it/s] 40%|███▉      | 148005/371472 [41:39<17:37:44,  3.52it/s] 40%|███▉      | 148006/371472 [41:39<18:17:58,  3.39it/s] 40%|███▉      | 148007/371472 [41:39<18:05:56,  3.43it/s] 40%|███▉      | 148008/371472 [41:39<17:36:40,  3.52it/s] 40%|███▉      | 148009/371472 [41:40<19:08:53,  3.24it/s] 40%|███▉      | 148010/371472 [41:40<17:58:35,  3.45it/s] 40%|███▉      | 148011/371472 [41:40<17:10:31,  3.61it/s] 40%|███▉      | 148012/371472 [41:41<17:26:58,  3.56it/s] 40%|███▉      | 148013/371472 [41:41<16:45:05,  3.71it/s] 40%|███▉      | 148014/371472 [41:41<17:13:16,  3.60it/s] 40%|███▉      | 148015/371472 [41:41<17:07:45,  3.62it/s] 40%|███▉      | 148016/371472 [41:42<16:54:59,  3.67it/s] 40%|███▉      | 148017/371472 [41:42<17:45:59,  3.49it/s] 40%|███▉      | 148018/371472 [41:42<17:06:24,  3.63it/s] 40%|███▉      | 148019/371472 [41:42<17:19:21,  3.58it/s] 40%|███▉      | 148020/371472 [41:43<16:54:39,  3.67it/s]                                                          {'loss': 3.207, 'learning_rate': 6.416697192354931e-07, 'epoch': 6.38}
 40%|███▉      | 148020/371472 [41:43<16:54:39,  3.67it/s] 40%|███▉      | 148021/371472 [41:43<17:09:14,  3.62it/s] 40%|███▉      | 148022/371472 [41:43<17:56:02,  3.46it/s] 40%|███▉      | 148023/371472 [41:44<19:10:20,  3.24it/s] 40%|███▉      | 148024/371472 [41:44<18:54:00,  3.28it/s] 40%|███▉      | 148025/371472 [41:44<17:58:31,  3.45it/s] 40%|███▉      | 148026/371472 [41:45<17:26:40,  3.56it/s] 40%|███▉      | 148027/371472 [41:45<16:54:55,  3.67it/s] 40%|███▉      | 148028/371472 [41:45<17:09:45,  3.62it/s] 40%|███▉      | 148029/371472 [41:45<16:38:25,  3.73it/s] 40%|███▉      | 148030/371472 [41:46<16:28:42,  3.77it/s] 40%|███▉      | 148031/371472 [41:46<16:14:33,  3.82it/s] 40%|███▉      | 148032/371472 [41:46<16:19:36,  3.80it/s] 40%|███▉      | 148033/371472 [41:46<16:22:36,  3.79it/s] 40%|███▉      | 148034/371472 [41:47<15:55:27,  3.90it/s] 40%|███▉      | 148035/371472 [41:47<16:58:49,  3.66it/s] 40%|███▉      | 148036/371472 [41:47<16:40:07,  3.72it/s] 40%|███▉      | 148037/371472 [41:47<16:50:08,  3.69it/s] 40%|███▉      | 148038/371472 [41:48<16:49:10,  3.69it/s] 40%|███▉      | 148039/371472 [41:48<17:00:36,  3.65it/s] 40%|███▉      | 148040/371472 [41:48<17:18:49,  3.58it/s]                                                          {'loss': 3.1056, 'learning_rate': 6.416212372600142e-07, 'epoch': 6.38}
 40%|███▉      | 148040/371472 [41:48<17:18:49,  3.58it/s] 40%|███▉      | 148041/371472 [41:49<17:43:32,  3.50it/s] 40%|███▉      | 148042/371472 [41:49<17:15:18,  3.60it/s] 40%|███▉      | 148043/371472 [41:49<17:45:19,  3.50it/s] 40%|███▉      | 148044/371472 [41:49<17:12:28,  3.61it/s] 40%|███▉      | 148045/371472 [41:50<16:42:28,  3.71it/s] 40%|███▉      | 148046/371472 [41:50<17:46:24,  3.49it/s] 40%|███▉      | 148047/371472 [41:50<18:08:12,  3.42it/s] 40%|███▉      | 148048/371472 [41:51<17:53:06,  3.47it/s] 40%|███▉      | 148049/371472 [41:51<17:43:25,  3.50it/s] 40%|███▉      | 148050/371472 [41:51<17:32:39,  3.54it/s] 40%|███▉      | 148051/371472 [41:51<18:23:42,  3.37it/s] 40%|███▉      | 148052/371472 [41:52<17:20:50,  3.58it/s] 40%|███▉      | 148053/371472 [41:52<17:11:46,  3.61it/s] 40%|███▉      | 148054/371472 [41:52<16:41:59,  3.72it/s] 40%|███▉      | 148055/371472 [41:52<16:27:37,  3.77it/s] 40%|███▉      | 148056/371472 [41:53<17:02:34,  3.64it/s] 40%|███▉      | 148057/371472 [41:53<16:33:20,  3.75it/s] 40%|███▉      | 148058/371472 [41:53<17:41:40,  3.51it/s] 40%|███▉      | 148059/371472 [41:54<17:05:16,  3.63it/s] 40%|███▉      | 148060/371472 [41:54<18:16:40,  3.40it/s]                                                          {'loss': 3.1789, 'learning_rate': 6.415727552845353e-07, 'epoch': 6.38}
 40%|███▉      | 148060/371472 [41:54<18:16:40,  3.40it/s] 40%|███▉      | 148061/371472 [41:54<18:22:38,  3.38it/s] 40%|███▉      | 148062/371472 [41:54<17:39:07,  3.52it/s] 40%|███▉      | 148063/371472 [41:55<18:09:27,  3.42it/s] 40%|███▉      | 148064/371472 [41:55<17:40:07,  3.51it/s] 40%|███▉      | 148065/371472 [41:55<17:37:27,  3.52it/s] 40%|███▉      | 148066/371472 [41:56<17:13:17,  3.60it/s] 40%|███▉      | 148067/371472 [41:56<17:22:48,  3.57it/s] 40%|███▉      | 148068/371472 [41:56<17:21:48,  3.57it/s] 40%|███▉      | 148069/371472 [41:56<17:40:05,  3.51it/s] 40%|███▉      | 148070/371472 [41:57<20:48:34,  2.98it/s] 40%|███▉      | 148071/371472 [41:57<20:03:53,  3.09it/s] 40%|███▉      | 148072/371472 [41:57<19:09:44,  3.24it/s] 40%|███▉      | 148073/371472 [41:58<19:03:44,  3.26it/s] 40%|███▉      | 148074/371472 [41:58<19:42:54,  3.15it/s] 40%|███▉      | 148075/371472 [41:58<19:21:19,  3.21it/s] 40%|███▉      | 148076/371472 [41:59<19:03:57,  3.25it/s] 40%|███▉      | 148077/371472 [41:59<18:03:35,  3.44it/s] 40%|███▉      | 148078/371472 [41:59<17:40:38,  3.51it/s] 40%|███▉      | 148079/371472 [42:00<18:33:16,  3.34it/s] 40%|███▉      | 148080/371472 [42:00<18:10:12,  3.42it/s]                                                          {'loss': 3.2237, 'learning_rate': 6.415242733090565e-07, 'epoch': 6.38}
 40%|███▉      | 148080/371472 [42:00<18:10:12,  3.42it/s] 40%|███▉      | 148081/371472 [42:00<18:16:16,  3.40it/s] 40%|███▉      | 148082/371472 [42:00<17:45:23,  3.49it/s] 40%|███▉      | 148083/371472 [42:01<17:06:46,  3.63it/s] 40%|███▉      | 148084/371472 [42:01<17:08:01,  3.62it/s] 40%|███▉      | 148085/371472 [42:01<17:22:33,  3.57it/s] 40%|███▉      | 148086/371472 [42:02<17:20:50,  3.58it/s] 40%|███▉      | 148087/371472 [42:02<16:54:16,  3.67it/s] 40%|███▉      | 148088/371472 [42:02<16:55:15,  3.67it/s] 40%|███▉      | 148089/371472 [42:02<17:27:42,  3.55it/s] 40%|███▉      | 148090/371472 [42:03<17:11:17,  3.61it/s] 40%|███▉      | 148091/371472 [42:03<16:35:34,  3.74it/s] 40%|███▉      | 148092/371472 [42:03<17:06:41,  3.63it/s] 40%|███▉      | 148093/371472 [42:03<16:57:06,  3.66it/s] 40%|███▉      | 148094/371472 [42:04<17:02:08,  3.64it/s] 40%|███▉      | 148095/371472 [42:04<16:45:27,  3.70it/s] 40%|███▉      | 148096/371472 [42:04<16:08:54,  3.84it/s] 40%|███▉      | 148097/371472 [42:04<16:12:34,  3.83it/s] 40%|███▉      | 148098/371472 [42:05<16:27:35,  3.77it/s] 40%|███▉      | 148099/371472 [42:05<16:02:09,  3.87it/s] 40%|███▉      | 148100/371472 [42:05<16:22:17,  3.79it/s]                                                          {'loss': 3.2406, 'learning_rate': 6.414757913335775e-07, 'epoch': 6.38}
 40%|███▉      | 148100/371472 [42:05<16:22:17,  3.79it/s] 40%|███▉      | 148101/371472 [42:06<17:27:42,  3.55it/s] 40%|███▉      | 148102/371472 [42:06<17:35:53,  3.53it/s] 40%|███▉      | 148103/371472 [42:06<17:53:05,  3.47it/s] 40%|███▉      | 148104/371472 [42:07<19:19:56,  3.21it/s] 40%|███▉      | 148105/371472 [42:07<19:00:51,  3.26it/s] 40%|███▉      | 148106/371472 [42:07<18:09:27,  3.42it/s] 40%|███▉      | 148107/371472 [42:07<17:53:24,  3.47it/s] 40%|███▉      | 148108/371472 [42:08<18:45:40,  3.31it/s] 40%|███▉      | 148109/371472 [42:08<18:59:31,  3.27it/s] 40%|███▉      | 148110/371472 [42:08<18:13:33,  3.40it/s] 40%|███▉      | 148111/371472 [42:09<17:21:40,  3.57it/s] 40%|███▉      | 148112/371472 [42:09<17:38:34,  3.52it/s] 40%|███▉      | 148113/371472 [42:09<17:31:28,  3.54it/s] 40%|███▉      | 148114/371472 [42:09<17:13:56,  3.60it/s] 40%|███▉      | 148115/371472 [42:10<17:51:59,  3.47it/s] 40%|███▉      | 148116/371472 [42:10<17:53:37,  3.47it/s] 40%|███▉      | 148117/371472 [42:10<17:48:50,  3.48it/s] 40%|███▉      | 148118/371472 [42:11<18:14:14,  3.40it/s] 40%|███▉      | 148119/371472 [42:11<18:13:11,  3.41it/s] 40%|███▉      | 148120/371472 [42:11<17:20:32,  3.58it/s]                                                          {'loss': 3.3502, 'learning_rate': 6.414273093580985e-07, 'epoch': 6.38}
 40%|███▉      | 148120/371472 [42:11<17:20:32,  3.58it/s] 40%|███▉      | 148121/371472 [42:11<17:16:42,  3.59it/s] 40%|███▉      | 148122/371472 [42:12<17:52:49,  3.47it/s] 40%|███▉      | 148123/371472 [42:12<18:10:00,  3.42it/s] 40%|███▉      | 148124/371472 [42:12<17:52:28,  3.47it/s] 40%|███▉      | 148125/371472 [42:13<17:48:58,  3.48it/s] 40%|███▉      | 148126/371472 [42:13<17:21:29,  3.57it/s] 40%|███▉      | 148127/371472 [42:13<17:10:23,  3.61it/s] 40%|███▉      | 148128/371472 [42:13<16:46:23,  3.70it/s] 40%|███▉      | 148129/371472 [42:14<16:59:22,  3.65it/s] 40%|███▉      | 148130/371472 [42:14<20:32:47,  3.02it/s] 40%|███▉      | 148131/371472 [42:14<19:59:46,  3.10it/s] 40%|███▉      | 148132/371472 [42:15<19:30:13,  3.18it/s] 40%|███▉      | 148133/371472 [42:15<18:15:07,  3.40it/s] 40%|███▉      | 148134/371472 [42:15<17:52:15,  3.47it/s] 40%|███▉      | 148135/371472 [42:15<17:29:02,  3.55it/s] 40%|███▉      | 148136/371472 [42:16<17:32:15,  3.54it/s] 40%|███▉      | 148137/371472 [42:16<17:37:25,  3.52it/s] 40%|███▉      | 148138/371472 [42:16<17:31:11,  3.54it/s] 40%|███▉      | 148139/371472 [42:17<17:55:54,  3.46it/s] 40%|███▉      | 148140/371472 [42:17<18:20:49,  3.38it/s]                                                          {'loss': 3.1275, 'learning_rate': 6.413788273826197e-07, 'epoch': 6.38}
 40%|███▉      | 148140/371472 [42:17<18:20:49,  3.38it/s] 40%|███▉      | 148141/371472 [42:17<17:58:56,  3.45it/s] 40%|███▉      | 148142/371472 [42:18<18:53:51,  3.28it/s] 40%|███▉      | 148143/371472 [42:18<18:17:43,  3.39it/s] 40%|███▉      | 148144/371472 [42:18<18:03:11,  3.44it/s] 40%|███▉      | 148145/371472 [42:18<17:27:49,  3.55it/s] 40%|███▉      | 148146/371472 [42:19<17:11:18,  3.61it/s] 40%|███▉      | 148147/371472 [42:19<16:58:03,  3.66it/s] 40%|███▉      | 148148/371472 [42:19<17:03:58,  3.63it/s] 40%|███▉      | 148149/371472 [42:19<16:55:27,  3.67it/s] 40%|███▉      | 148150/371472 [42:20<18:05:10,  3.43it/s] 40%|███▉      | 148151/371472 [42:20<18:25:17,  3.37it/s] 40%|███▉      | 148152/371472 [42:20<17:41:51,  3.51it/s] 40%|███▉      | 148153/371472 [42:21<17:28:50,  3.55it/s] 40%|███▉      | 148154/371472 [42:21<18:27:37,  3.36it/s] 40%|███▉      | 148155/371472 [42:21<18:16:20,  3.39it/s] 40%|███▉      | 148156/371472 [42:22<17:40:11,  3.51it/s] 40%|███▉      | 148157/371472 [42:22<17:08:54,  3.62it/s] 40%|███▉      | 148158/371472 [42:22<16:55:53,  3.66it/s] 40%|███▉      | 148159/371472 [42:22<16:57:51,  3.66it/s] 40%|███▉      | 148160/371472 [42:23<19:14:52,  3.22it/s]                                                          {'loss': 3.3366, 'learning_rate': 6.413303454071409e-07, 'epoch': 6.38}
 40%|███▉      | 148160/371472 [42:23<19:14:52,  3.22it/s] 40%|███▉      | 148161/371472 [42:23<18:32:16,  3.35it/s] 40%|███▉      | 148162/371472 [42:23<17:59:59,  3.45it/s] 40%|███▉      | 148163/371472 [42:24<17:44:09,  3.50it/s] 40%|███▉      | 148164/371472 [42:24<17:41:48,  3.51it/s] 40%|███▉      | 148165/371472 [42:24<18:32:49,  3.34it/s] 40%|███▉      | 148166/371472 [42:24<18:00:33,  3.44it/s] 40%|███▉      | 148167/371472 [42:25<17:04:01,  3.63it/s] 40%|███▉      | 148168/371472 [42:25<16:57:14,  3.66it/s] 40%|███▉      | 148169/371472 [42:25<16:44:47,  3.70it/s] 40%|███▉      | 148170/371472 [42:25<16:54:57,  3.67it/s] 40%|███▉      | 148171/371472 [42:26<16:50:33,  3.68it/s] 40%|███▉      | 148172/371472 [42:26<16:32:02,  3.75it/s] 40%|███▉      | 148173/371472 [42:26<16:18:55,  3.80it/s] 40%|███▉      | 148174/371472 [42:26<16:19:05,  3.80it/s] 40%|███▉      | 148175/371472 [42:27<16:32:26,  3.75it/s] 40%|███▉      | 148176/371472 [42:27<16:25:39,  3.78it/s] 40%|███▉      | 148177/371472 [42:27<17:37:38,  3.52it/s] 40%|███▉      | 148178/371472 [42:28<17:13:20,  3.60it/s] 40%|███▉      | 148179/371472 [42:28<17:49:07,  3.48it/s] 40%|███▉      | 148180/371472 [42:28<17:51:31,  3.47it/s]                                                          {'loss': 3.25, 'learning_rate': 6.412818634316619e-07, 'epoch': 6.38}
 40%|███▉      | 148180/371472 [42:28<17:51:31,  3.47it/s] 40%|███▉      | 148181/371472 [42:29<18:54:31,  3.28it/s] 40%|███▉      | 148182/371472 [42:29<17:51:37,  3.47it/s] 40%|███▉      | 148183/371472 [42:29<17:27:42,  3.55it/s] 40%|███▉      | 148184/371472 [42:29<17:21:58,  3.57it/s] 40%|███▉      | 148185/371472 [42:30<17:51:29,  3.47it/s] 40%|███▉      | 148186/371472 [42:30<17:36:33,  3.52it/s] 40%|███▉      | 148187/371472 [42:30<17:43:32,  3.50it/s] 40%|███▉      | 148188/371472 [42:31<17:35:08,  3.53it/s] 40%|███▉      | 148189/371472 [42:31<16:56:04,  3.66it/s] 40%|███▉      | 148190/371472 [42:31<17:05:58,  3.63it/s] 40%|███▉      | 148191/371472 [42:31<17:18:28,  3.58it/s] 40%|███▉      | 148192/371472 [42:32<17:10:27,  3.61it/s] 40%|███▉      | 148193/371472 [42:32<17:39:28,  3.51it/s] 40%|███▉      | 148194/371472 [42:32<17:37:29,  3.52it/s] 40%|███▉      | 148195/371472 [42:32<17:42:47,  3.50it/s] 40%|███▉      | 148196/371472 [42:33<17:42:49,  3.50it/s] 40%|███▉      | 148197/371472 [42:33<17:21:43,  3.57it/s] 40%|███▉      | 148198/371472 [42:33<16:59:41,  3.65it/s] 40%|███▉      | 148199/371472 [42:34<17:33:17,  3.53it/s] 40%|███▉      | 148200/371472 [42:34<18:39:07,  3.33it/s]                                                          {'loss': 3.3614, 'learning_rate': 6.41233381456183e-07, 'epoch': 6.38}
 40%|███▉      | 148200/371472 [42:34<18:39:07,  3.33it/s] 40%|███▉      | 148201/371472 [42:34<18:04:33,  3.43it/s] 40%|███▉      | 148202/371472 [42:34<17:34:03,  3.53it/s] 40%|███▉      | 148203/371472 [42:35<17:10:12,  3.61it/s] 40%|███▉      | 148204/371472 [42:35<17:00:53,  3.65it/s] 40%|███▉      | 148205/371472 [42:35<17:22:35,  3.57it/s] 40%|███▉      | 148206/371472 [42:36<16:54:35,  3.67it/s] 40%|███▉      | 148207/371472 [42:36<16:59:31,  3.65it/s] 40%|███▉      | 148208/371472 [42:36<16:50:32,  3.68it/s] 40%|███▉      | 148209/371472 [42:36<16:41:50,  3.71it/s] 40%|███▉      | 148210/371472 [42:37<17:10:41,  3.61it/s] 40%|███▉      | 148211/371472 [42:37<19:09:17,  3.24it/s] 40%|███▉      | 148212/371472 [42:37<18:14:21,  3.40it/s] 40%|███▉      | 148213/371472 [42:38<17:42:24,  3.50it/s] 40%|███▉      | 148214/371472 [42:38<18:22:51,  3.37it/s] 40%|███▉      | 148215/371472 [42:38<18:04:19,  3.43it/s] 40%|███▉      | 148216/371472 [42:38<17:57:03,  3.45it/s] 40%|███▉      | 148217/371472 [42:39<18:01:01,  3.44it/s] 40%|███▉      | 148218/371472 [42:39<17:37:13,  3.52it/s] 40%|███▉      | 148219/371472 [42:39<17:57:25,  3.45it/s] 40%|███▉      | 148220/371472 [42:40<17:11:48,  3.61it/s]                                                          {'loss': 3.1946, 'learning_rate': 6.411848994807042e-07, 'epoch': 6.38}
 40%|███▉      | 148220/371472 [42:40<17:11:48,  3.61it/s] 40%|███▉      | 148221/371472 [42:40<17:40:30,  3.51it/s] 40%|███▉      | 148222/371472 [42:40<19:03:04,  3.26it/s] 40%|███▉      | 148223/371472 [42:40<18:16:18,  3.39it/s] 40%|███▉      | 148224/371472 [42:41<17:37:53,  3.52it/s] 40%|███▉      | 148225/371472 [42:41<17:37:25,  3.52it/s] 40%|███▉      | 148226/371472 [42:41<18:03:32,  3.43it/s] 40%|███▉      | 148227/371472 [42:42<19:45:27,  3.14it/s] 40%|███▉      | 148228/371472 [42:42<19:20:26,  3.21it/s] 40%|███▉      | 148229/371472 [42:42<18:43:30,  3.31it/s] 40%|███▉      | 148230/371472 [42:43<18:15:25,  3.40it/s] 40%|███▉      | 148231/371472 [42:43<19:16:12,  3.22it/s] 40%|███▉      | 148232/371472 [42:43<21:26:24,  2.89it/s] 40%|███▉      | 148233/371472 [42:44<19:59:30,  3.10it/s] 40%|███▉      | 148234/371472 [42:44<19:40:24,  3.15it/s] 40%|███▉      | 148235/371472 [42:44<18:37:23,  3.33it/s] 40%|███▉      | 148236/371472 [42:44<17:52:13,  3.47it/s] 40%|███▉      | 148237/371472 [42:45<17:35:40,  3.52it/s] 40%|███▉      | 148238/371472 [42:45<17:01:55,  3.64it/s] 40%|███▉      | 148239/371472 [42:45<16:53:18,  3.67it/s] 40%|███▉      | 148240/371472 [42:45<16:34:48,  3.74it/s]                                                          {'loss': 3.0918, 'learning_rate': 6.411364175052253e-07, 'epoch': 6.38}
 40%|███▉      | 148240/371472 [42:45<16:34:48,  3.74it/s] 40%|███▉      | 148241/371472 [42:46<17:18:48,  3.58it/s] 40%|███▉      | 148242/371472 [42:46<18:35:46,  3.33it/s] 40%|███▉      | 148243/371472 [42:46<18:12:49,  3.40it/s] 40%|███▉      | 148244/371472 [42:47<18:07:25,  3.42it/s] 40%|███▉      | 148245/371472 [42:47<18:55:39,  3.28it/s] 40%|███▉      | 148246/371472 [42:47<18:59:55,  3.26it/s] 40%|███▉      | 148247/371472 [42:48<18:30:25,  3.35it/s] 40%|███▉      | 148248/371472 [42:48<18:49:29,  3.29it/s] 40%|███▉      | 148249/371472 [42:48<18:50:58,  3.29it/s] 40%|███▉      | 148250/371472 [42:49<18:26:38,  3.36it/s] 40%|███▉      | 148251/371472 [42:49<18:00:54,  3.44it/s] 40%|███▉      | 148252/371472 [42:49<18:01:51,  3.44it/s] 40%|███▉      | 148253/371472 [42:49<17:24:24,  3.56it/s] 40%|███▉      | 148254/371472 [42:50<18:23:47,  3.37it/s] 40%|███▉      | 148255/371472 [42:50<17:44:51,  3.49it/s] 40%|███▉      | 148256/371472 [42:50<18:23:57,  3.37it/s] 40%|███▉      | 148257/371472 [42:51<17:56:00,  3.46it/s] 40%|███▉      | 148258/371472 [42:51<18:19:11,  3.38it/s] 40%|███▉      | 148259/371472 [42:51<18:27:21,  3.36it/s] 40%|███▉      | 148260/371472 [42:52<21:32:43,  2.88it/s]                                                          {'loss': 3.2162, 'learning_rate': 6.410879355297463e-07, 'epoch': 6.39}
 40%|███▉      | 148260/371472 [42:52<21:32:43,  2.88it/s] 40%|███▉      | 148261/371472 [42:52<20:27:52,  3.03it/s] 40%|███▉      | 148262/371472 [42:52<19:41:05,  3.15it/s] 40%|███▉      | 148263/371472 [42:52<18:37:36,  3.33it/s] 40%|███▉      | 148264/371472 [42:53<18:46:49,  3.30it/s] 40%|███▉      | 148265/371472 [42:53<19:36:25,  3.16it/s] 40%|███▉      | 148266/371472 [42:53<19:28:22,  3.18it/s] 40%|███▉      | 148267/371472 [42:54<18:59:52,  3.26it/s] 40%|███▉      | 148268/371472 [42:54<18:23:05,  3.37it/s] 40%|███▉      | 148269/371472 [42:54<19:31:51,  3.17it/s] 40%|███▉      | 148270/371472 [42:55<18:43:08,  3.31it/s] 40%|███▉      | 148271/371472 [42:55<17:46:43,  3.49it/s] 40%|███▉      | 148272/371472 [42:55<18:35:11,  3.34it/s] 40%|███▉      | 148273/371472 [42:55<17:58:35,  3.45it/s] 40%|███▉      | 148274/371472 [42:56<18:19:05,  3.38it/s] 40%|███▉      | 148275/371472 [42:56<17:27:43,  3.55it/s] 40%|███▉      | 148276/371472 [42:56<17:35:14,  3.53it/s] 40%|███▉      | 148277/371472 [42:57<17:37:38,  3.52it/s] 40%|███▉      | 148278/371472 [42:57<17:27:40,  3.55it/s] 40%|███▉      | 148279/371472 [42:57<17:21:19,  3.57it/s] 40%|███▉      | 148280/371472 [42:57<17:38:15,  3.52it/s]                                                          {'loss': 3.1915, 'learning_rate': 6.410394535542674e-07, 'epoch': 6.39}
 40%|███▉      | 148280/371472 [42:57<17:38:15,  3.52it/s] 40%|███▉      | 148281/371472 [42:58<20:24:59,  3.04it/s] 40%|███▉      | 148282/371472 [42:58<19:17:00,  3.22it/s] 40%|███▉      | 148283/371472 [42:58<19:53:20,  3.12it/s] 40%|███▉      | 148284/371472 [42:59<18:31:25,  3.35it/s] 40%|███▉      | 148285/371472 [42:59<17:40:26,  3.51it/s] 40%|███▉      | 148286/371472 [42:59<17:16:30,  3.59it/s] 40%|███▉      | 148287/371472 [43:00<17:03:37,  3.63it/s] 40%|███▉      | 148288/371472 [43:00<17:07:07,  3.62it/s] 40%|███▉      | 148289/371472 [43:00<18:07:46,  3.42it/s] 40%|███▉      | 148290/371472 [43:00<18:23:01,  3.37it/s] 40%|███▉      | 148291/371472 [43:01<17:33:57,  3.53it/s] 40%|███▉      | 148292/371472 [43:01<20:30:26,  3.02it/s] 40%|███▉      | 148293/371472 [43:01<19:34:16,  3.17it/s] 40%|███▉      | 148294/371472 [43:02<19:46:07,  3.14it/s] 40%|███▉      | 148295/371472 [43:02<18:52:36,  3.28it/s] 40%|███▉      | 148296/371472 [43:02<18:40:27,  3.32it/s] 40%|███▉      | 148297/371472 [43:03<20:43:47,  2.99it/s] 40%|███▉      | 148298/371472 [43:03<19:15:46,  3.22it/s] 40%|███▉      | 148299/371472 [43:03<18:48:59,  3.29it/s] 40%|███▉      | 148300/371472 [43:04<17:55:12,  3.46it/s]                                                          {'loss': 3.1249, 'learning_rate': 6.409909715787886e-07, 'epoch': 6.39}
 40%|███▉      | 148300/371472 [43:04<17:55:12,  3.46it/s] 40%|███▉      | 148301/371472 [43:04<19:54:12,  3.11it/s] 40%|███▉      | 148302/371472 [43:04<19:47:50,  3.13it/s] 40%|███▉      | 148303/371472 [43:04<18:54:14,  3.28it/s] 40%|███▉      | 148304/371472 [43:05<18:13:25,  3.40it/s] 40%|███▉      | 148305/371472 [43:05<17:34:45,  3.53it/s] 40%|███▉      | 148306/371472 [43:05<17:09:14,  3.61it/s] 40%|███▉      | 148307/371472 [43:06<17:07:12,  3.62it/s] 40%|███▉      | 148308/371472 [43:06<16:38:28,  3.73it/s] 40%|███▉      | 148309/371472 [43:06<17:35:46,  3.52it/s] 40%|███▉      | 148310/371472 [43:06<18:20:29,  3.38it/s] 40%|███▉      | 148311/371472 [43:07<19:13:30,  3.22it/s] 40%|███▉      | 148312/371472 [43:07<18:03:57,  3.43it/s] 40%|███▉      | 148313/371472 [43:07<18:20:15,  3.38it/s] 40%|███▉      | 148314/371472 [43:08<18:27:04,  3.36it/s] 40%|███▉      | 148315/371472 [43:08<18:29:42,  3.35it/s] 40%|███▉      | 148316/371472 [43:08<18:12:37,  3.40it/s] 40%|███▉      | 148317/371472 [43:09<18:28:50,  3.35it/s] 40%|███▉      | 148318/371472 [43:09<17:44:59,  3.49it/s] 40%|███▉      | 148319/371472 [43:09<17:53:20,  3.47it/s] 40%|███▉      | 148320/371472 [43:10<20:19:24,  3.05it/s]                                                          {'loss': 3.1348, 'learning_rate': 6.409424896033097e-07, 'epoch': 6.39}
 40%|███▉      | 148320/371472 [43:10<20:19:24,  3.05it/s] 40%|███▉      | 148321/371472 [43:10<19:55:18,  3.11it/s] 40%|███▉      | 148322/371472 [43:10<20:04:59,  3.09it/s] 40%|███▉      | 148323/371472 [43:10<19:54:03,  3.11it/s] 40%|███▉      | 148324/371472 [43:11<18:39:34,  3.32it/s] 40%|███▉      | 148325/371472 [43:11<17:40:16,  3.51it/s] 40%|███▉      | 148326/371472 [43:11<17:56:40,  3.45it/s] 40%|███▉      | 148327/371472 [43:12<18:09:19,  3.41it/s] 40%|███▉      | 148328/371472 [43:12<17:44:08,  3.49it/s] 40%|███▉      | 148329/371472 [43:12<17:39:24,  3.51it/s] 40%|███▉      | 148330/371472 [43:12<17:12:26,  3.60it/s] 40%|███▉      | 148331/371472 [43:13<17:12:22,  3.60it/s] 40%|███▉      | 148332/371472 [43:13<17:41:15,  3.50it/s] 40%|███▉      | 148333/371472 [43:13<17:18:35,  3.58it/s] 40%|███▉      | 148334/371472 [43:14<18:29:20,  3.35it/s] 40%|███▉      | 148335/371472 [43:14<18:18:48,  3.38it/s] 40%|███▉      | 148336/371472 [43:14<18:18:02,  3.39it/s] 40%|███▉      | 148337/371472 [43:14<18:06:34,  3.42it/s] 40%|███▉      | 148338/371472 [43:15<18:03:31,  3.43it/s] 40%|███▉      | 148339/371472 [43:15<17:42:50,  3.50it/s] 40%|███▉      | 148340/371472 [43:15<18:02:21,  3.44it/s]                                                          {'loss': 3.3547, 'learning_rate': 6.408940076278308e-07, 'epoch': 6.39}
 40%|███▉      | 148340/371472 [43:15<18:02:21,  3.44it/s] 40%|███▉      | 148341/371472 [43:16<17:19:47,  3.58it/s] 40%|███▉      | 148342/371472 [43:16<16:46:37,  3.69it/s] 40%|███▉      | 148343/371472 [43:16<16:43:23,  3.71it/s] 40%|███▉      | 148344/371472 [43:16<16:46:08,  3.70it/s] 40%|███▉      | 148345/371472 [43:17<16:45:22,  3.70it/s] 40%|███▉      | 148346/371472 [43:17<17:09:25,  3.61it/s] 40%|███▉      | 148347/371472 [43:17<17:10:09,  3.61it/s] 40%|███▉      | 148348/371472 [43:17<17:15:00,  3.59it/s] 40%|███▉      | 148349/371472 [43:18<17:21:11,  3.57it/s] 40%|███▉      | 148350/371472 [43:18<16:49:02,  3.69it/s] 40%|███▉      | 148351/371472 [43:18<16:37:05,  3.73it/s] 40%|███▉      | 148352/371472 [43:19<16:32:05,  3.75it/s] 40%|███▉      | 148353/371472 [43:19<16:15:41,  3.81it/s] 40%|███▉      | 148354/371472 [43:19<16:14:18,  3.82it/s] 40%|███▉      | 148355/371472 [43:19<16:32:05,  3.75it/s] 40%|███▉      | 148356/371472 [43:20<16:59:33,  3.65it/s] 40%|███▉      | 148357/371472 [43:20<17:13:31,  3.60it/s] 40%|███▉      | 148358/371472 [43:20<18:05:35,  3.43it/s] 40%|███▉      | 148359/371472 [43:21<18:01:21,  3.44it/s] 40%|███▉      | 148360/371472 [43:21<17:37:05,  3.52it/s]                                                          {'loss': 3.0529, 'learning_rate': 6.408455256523518e-07, 'epoch': 6.39}
 40%|███▉      | 148360/371472 [43:21<17:37:05,  3.52it/s] 40%|███▉      | 148361/371472 [43:21<18:06:37,  3.42it/s] 40%|███▉      | 148362/371472 [43:21<17:38:12,  3.51it/s] 40%|███▉      | 148363/371472 [43:22<17:56:38,  3.45it/s] 40%|███▉      | 148364/371472 [43:22<17:37:24,  3.52it/s] 40%|███▉      | 148365/371472 [43:22<17:32:32,  3.53it/s] 40%|███▉      | 148366/371472 [43:22<17:25:35,  3.56it/s] 40%|███▉      | 148367/371472 [43:23<17:08:35,  3.62it/s] 40%|███▉      | 148368/371472 [43:23<16:59:08,  3.65it/s] 40%|███▉      | 148369/371472 [43:23<16:47:15,  3.69it/s] 40%|███▉      | 148370/371472 [43:24<16:58:12,  3.65it/s] 40%|███▉      | 148371/371472 [43:24<16:42:28,  3.71it/s] 40%|███▉      | 148372/371472 [43:24<16:48:55,  3.69it/s] 40%|███▉      | 148373/371472 [43:24<16:25:26,  3.77it/s] 40%|███▉      | 148374/371472 [43:25<16:23:37,  3.78it/s] 40%|███▉      | 148375/371472 [43:25<16:38:41,  3.72it/s] 40%|███▉      | 148376/371472 [43:25<17:13:27,  3.60it/s] 40%|███▉      | 148377/371472 [43:25<17:13:27,  3.60it/s] 40%|███▉      | 148378/371472 [43:26<16:30:42,  3.75it/s] 40%|███▉      | 148379/371472 [43:26<16:19:12,  3.80it/s] 40%|███▉      | 148380/371472 [43:26<16:15:42,  3.81it/s]                                                          {'loss': 3.4473, 'learning_rate': 6.40797043676873e-07, 'epoch': 6.39}
 40%|███▉      | 148380/371472 [43:26<16:15:42,  3.81it/s] 40%|███▉      | 148381/371472 [43:27<16:40:30,  3.72it/s] 40%|███▉      | 148382/371472 [43:27<17:37:21,  3.52it/s] 40%|███▉      | 148383/371472 [43:27<16:55:58,  3.66it/s] 40%|███▉      | 148384/371472 [43:27<16:35:01,  3.74it/s] 40%|███▉      | 148385/371472 [43:28<18:10:36,  3.41it/s] 40%|███▉      | 148386/371472 [43:28<17:53:14,  3.46it/s] 40%|███▉      | 148387/371472 [43:28<17:44:28,  3.49it/s] 40%|███▉      | 148388/371472 [43:28<17:02:02,  3.64it/s] 40%|███▉      | 148389/371472 [43:29<18:53:59,  3.28it/s] 40%|███▉      | 148390/371472 [43:29<17:51:12,  3.47it/s] 40%|███▉      | 148391/371472 [43:29<18:29:51,  3.35it/s] 40%|███▉      | 148392/371472 [43:30<18:17:21,  3.39it/s] 40%|███▉      | 148393/371472 [43:30<17:46:30,  3.49it/s] 40%|███▉      | 148394/371472 [43:30<17:44:25,  3.49it/s] 40%|███▉      | 148395/371472 [43:31<17:37:39,  3.52it/s] 40%|███▉      | 148396/371472 [43:31<17:54:25,  3.46it/s] 40%|███▉      | 148397/371472 [43:31<18:15:30,  3.39it/s] 40%|███▉      | 148398/371472 [43:31<18:13:26,  3.40it/s] 40%|███▉      | 148399/371472 [43:32<18:16:49,  3.39it/s] 40%|███▉      | 148400/371472 [43:32<17:44:57,  3.49it/s]                                                          {'loss': 3.1245, 'learning_rate': 6.407485617013941e-07, 'epoch': 6.39}
 40%|███▉      | 148400/371472 [43:32<17:44:57,  3.49it/s] 40%|███▉      | 148401/371472 [43:32<17:31:06,  3.54it/s] 40%|███▉      | 148402/371472 [43:33<17:24:17,  3.56it/s] 40%|███▉      | 148403/371472 [43:33<17:16:29,  3.59it/s] 40%|███▉      | 148404/371472 [43:33<17:29:07,  3.54it/s] 40%|███▉      | 148405/371472 [43:33<17:06:43,  3.62it/s] 40%|███▉      | 148406/371472 [43:34<17:20:36,  3.57it/s] 40%|███▉      | 148407/371472 [43:34<16:53:27,  3.67it/s] 40%|███▉      | 148408/371472 [43:34<16:36:30,  3.73it/s] 40%|███▉      | 148409/371472 [43:34<16:20:11,  3.79it/s] 40%|███▉      | 148410/371472 [43:35<16:02:56,  3.86it/s] 40%|███▉      | 148411/371472 [43:35<17:25:33,  3.56it/s] 40%|███▉      | 148412/371472 [43:35<17:08:24,  3.61it/s] 40%|███▉      | 148413/371472 [43:36<17:24:28,  3.56it/s] 40%|███▉      | 148414/371472 [43:36<17:20:49,  3.57it/s] 40%|███▉      | 148415/371472 [43:36<17:15:32,  3.59it/s] 40%|███▉      | 148416/371472 [43:37<19:20:23,  3.20it/s] 40%|███▉      | 148417/371472 [43:37<19:31:56,  3.17it/s] 40%|███▉      | 148418/371472 [43:37<18:23:33,  3.37it/s] 40%|███▉      | 148419/371472 [43:37<17:32:38,  3.53it/s] 40%|███▉      | 148420/371472 [43:38<17:02:23,  3.64it/s]                                                          {'loss': 3.2943, 'learning_rate': 6.407000797259152e-07, 'epoch': 6.39}
 40%|███▉      | 148420/371472 [43:38<17:02:23,  3.64it/s] 40%|███▉      | 148421/371472 [43:38<16:50:45,  3.68it/s] 40%|███▉      | 148422/371472 [43:38<16:53:37,  3.67it/s] 40%|███▉      | 148423/371472 [43:38<17:10:10,  3.61it/s] 40%|███▉      | 148424/371472 [43:39<18:04:48,  3.43it/s] 40%|███▉      | 148425/371472 [43:39<17:17:34,  3.58it/s] 40%|███▉      | 148426/371472 [43:39<17:10:24,  3.61it/s] 40%|███▉      | 148427/371472 [43:40<17:31:03,  3.54it/s] 40%|███▉      | 148428/371472 [43:40<17:00:35,  3.64it/s] 40%|███▉      | 148429/371472 [43:40<16:43:28,  3.70it/s] 40%|███▉      | 148430/371472 [43:40<16:38:33,  3.72it/s] 40%|███▉      | 148431/371472 [43:41<16:32:43,  3.74it/s] 40%|███▉      | 148432/371472 [43:41<16:19:22,  3.80it/s] 40%|███▉      | 148433/371472 [43:41<17:27:29,  3.55it/s] 40%|███▉      | 148434/371472 [43:42<19:01:08,  3.26it/s] 40%|███▉      | 148435/371472 [43:42<18:15:42,  3.39it/s] 40%|███▉      | 148436/371472 [43:42<18:07:44,  3.42it/s] 40%|███▉      | 148437/371472 [43:42<17:49:38,  3.48it/s] 40%|███▉      | 148438/371472 [43:43<18:36:01,  3.33it/s] 40%|███▉      | 148439/371472 [43:43<18:30:29,  3.35it/s] 40%|███▉      | 148440/371472 [43:43<17:52:26,  3.47it/s]                                                          {'loss': 3.2168, 'learning_rate': 6.406515977504363e-07, 'epoch': 6.39}
 40%|███▉      | 148440/371472 [43:43<17:52:26,  3.47it/s] 40%|███▉      | 148441/371472 [43:44<17:25:54,  3.55it/s] 40%|███▉      | 148442/371472 [43:44<17:12:15,  3.60it/s] 40%|███▉      | 148443/371472 [43:44<17:05:54,  3.62it/s] 40%|███▉      | 148444/371472 [43:44<16:42:35,  3.71it/s] 40%|███▉      | 148445/371472 [43:45<17:19:37,  3.58it/s] 40%|███▉      | 148446/371472 [43:45<17:47:06,  3.48it/s] 40%|███▉      | 148447/371472 [43:45<18:26:59,  3.36it/s] 40%|███▉      | 148448/371472 [43:46<18:52:37,  3.28it/s] 40%|███▉      | 148449/371472 [43:46<18:18:19,  3.38it/s] 40%|███▉      | 148450/371472 [43:46<17:36:50,  3.52it/s] 40%|███▉      | 148451/371472 [43:46<17:18:01,  3.58it/s] 40%|███▉      | 148452/371472 [43:47<17:04:56,  3.63it/s] 40%|███▉      | 148453/371472 [43:47<17:40:27,  3.51it/s] 40%|███▉      | 148454/371472 [43:47<17:09:49,  3.61it/s] 40%|███▉      | 148455/371472 [43:47<16:34:03,  3.74it/s] 40%|███▉      | 148456/371472 [43:48<16:57:20,  3.65it/s] 40%|███▉      | 148457/371472 [43:48<17:00:48,  3.64it/s] 40%|███▉      | 148458/371472 [43:48<17:18:00,  3.58it/s] 40%|███▉      | 148459/371472 [43:49<16:55:26,  3.66it/s] 40%|███▉      | 148460/371472 [43:49<17:32:40,  3.53it/s]                                                          {'loss': 3.1986, 'learning_rate': 6.406031157749576e-07, 'epoch': 6.39}
 40%|███▉      | 148460/371472 [43:49<17:32:40,  3.53it/s] 40%|███▉      | 148461/371472 [43:49<17:10:48,  3.61it/s] 40%|███▉      | 148462/371472 [43:49<17:03:51,  3.63it/s] 40%|███▉      | 148463/371472 [43:50<16:27:26,  3.76it/s] 40%|███▉      | 148464/371472 [43:50<16:20:05,  3.79it/s] 40%|███▉      | 148465/371472 [43:50<16:01:49,  3.86it/s] 40%|███▉      | 148466/371472 [43:50<16:06:44,  3.84it/s] 40%|███▉      | 148467/371472 [43:51<17:06:18,  3.62it/s] 40%|███▉      | 148468/371472 [43:51<17:09:24,  3.61it/s] 40%|███▉      | 148469/371472 [43:51<17:42:20,  3.50it/s] 40%|███▉      | 148470/371472 [43:52<16:51:52,  3.67it/s] 40%|███▉      | 148471/371472 [43:52<16:49:26,  3.68it/s] 40%|███▉      | 148472/371472 [43:52<16:39:27,  3.72it/s] 40%|███▉      | 148473/371472 [43:52<16:51:42,  3.67it/s] 40%|███▉      | 148474/371472 [43:53<17:15:29,  3.59it/s] 40%|███▉      | 148475/371472 [43:53<16:36:23,  3.73it/s] 40%|███▉      | 148476/371472 [43:53<16:27:49,  3.76it/s] 40%|███▉      | 148477/371472 [43:54<17:05:01,  3.63it/s] 40%|███▉      | 148478/371472 [43:54<17:51:27,  3.47it/s] 40%|███▉      | 148479/371472 [43:54<17:41:09,  3.50it/s] 40%|███▉      | 148480/371472 [43:54<17:59:36,  3.44it/s]                                                          {'loss': 3.3373, 'learning_rate': 6.405546337994785e-07, 'epoch': 6.4}
 40%|███▉      | 148480/371472 [43:54<17:59:36,  3.44it/s] 40%|███▉      | 148481/371472 [43:55<17:23:27,  3.56it/s] 40%|███▉      | 148482/371472 [43:55<17:09:29,  3.61it/s] 40%|███▉      | 148483/371472 [43:55<20:17:43,  3.05it/s] 40%|███▉      | 148484/371472 [43:56<20:32:41,  3.01it/s] 40%|███▉      | 148485/371472 [43:56<19:51:20,  3.12it/s] 40%|███▉      | 148486/371472 [43:56<19:15:56,  3.22it/s] 40%|███▉      | 148487/371472 [43:57<18:12:30,  3.40it/s] 40%|███▉      | 148488/371472 [43:57<18:17:56,  3.38it/s] 40%|███▉      | 148489/371472 [43:57<17:57:22,  3.45it/s] 40%|███▉      | 148490/371472 [43:57<17:40:21,  3.50it/s] 40%|███▉      | 148491/371472 [43:58<17:15:26,  3.59it/s] 40%|███▉      | 148492/371472 [43:58<16:53:45,  3.67it/s] 40%|███▉      | 148493/371472 [43:58<18:52:07,  3.28it/s] 40%|███▉      | 148494/371472 [43:59<18:43:47,  3.31it/s] 40%|███▉      | 148495/371472 [43:59<17:48:51,  3.48it/s] 40%|███▉      | 148496/371472 [43:59<18:21:22,  3.37it/s] 40%|███▉      | 148497/371472 [43:59<18:17:35,  3.39it/s] 40%|███▉      | 148498/371472 [44:00<17:39:06,  3.51it/s] 40%|███▉      | 148499/371472 [44:00<17:06:05,  3.62it/s] 40%|███▉      | 148500/371472 [44:00<17:49:13,  3.48it/s]                                                          {'loss': 3.0872, 'learning_rate': 6.405061518239996e-07, 'epoch': 6.4}
 40%|███▉      | 148500/371472 [44:00<17:49:13,  3.48it/s] 40%|███▉      | 148501/371472 [44:01<17:45:35,  3.49it/s] 40%|███▉      | 148502/371472 [44:01<18:32:49,  3.34it/s] 40%|███▉      | 148503/371472 [44:01<17:47:32,  3.48it/s] 40%|███▉      | 148504/371472 [44:01<17:39:03,  3.51it/s] 40%|███▉      | 148505/371472 [44:02<17:26:54,  3.55it/s] 40%|███▉      | 148506/371472 [44:02<16:52:48,  3.67it/s] 40%|███▉      | 148507/371472 [44:02<17:38:26,  3.51it/s] 40%|███▉      | 148508/371472 [44:03<17:31:07,  3.54it/s] 40%|███▉      | 148509/371472 [44:03<17:15:04,  3.59it/s] 40%|███▉      | 148510/371472 [44:03<16:45:57,  3.69it/s] 40%|███▉      | 148511/371472 [44:03<16:44:50,  3.70it/s] 40%|███▉      | 148512/371472 [44:04<17:21:35,  3.57it/s] 40%|███▉      | 148513/371472 [44:04<17:07:51,  3.62it/s] 40%|███▉      | 148514/371472 [44:04<16:49:53,  3.68it/s] 40%|███▉      | 148515/371472 [44:04<17:16:33,  3.58it/s] 40%|███▉      | 148516/371472 [44:05<18:07:56,  3.42it/s] 40%|███▉      | 148517/371472 [44:05<19:53:17,  3.11it/s] 40%|███▉      | 148518/371472 [44:06<20:12:19,  3.07it/s] 40%|███▉      | 148519/371472 [44:06<19:29:16,  3.18it/s] 40%|███▉      | 148520/371472 [44:06<18:39:03,  3.32it/s]                                                          {'loss': 3.1994, 'learning_rate': 6.404576698485207e-07, 'epoch': 6.4}
 40%|███▉      | 148520/371472 [44:06<18:39:03,  3.32it/s] 40%|███▉      | 148521/371472 [44:06<18:37:19,  3.33it/s] 40%|███▉      | 148522/371472 [44:07<18:24:02,  3.37it/s] 40%|███▉      | 148523/371472 [44:07<18:53:39,  3.28it/s] 40%|███▉      | 148524/371472 [44:07<18:12:37,  3.40it/s] 40%|███▉      | 148525/371472 [44:08<18:49:12,  3.29it/s] 40%|███▉      | 148526/371472 [44:08<17:54:26,  3.46it/s] 40%|███▉      | 148527/371472 [44:08<17:57:45,  3.45it/s] 40%|███▉      | 148528/371472 [44:08<17:18:54,  3.58it/s] 40%|███▉      | 148529/371472 [44:09<17:50:58,  3.47it/s] 40%|███▉      | 148530/371472 [44:09<17:16:15,  3.59it/s] 40%|███▉      | 148531/371472 [44:09<18:10:14,  3.41it/s] 40%|███▉      | 148532/371472 [44:10<17:47:17,  3.48it/s] 40%|███▉      | 148533/371472 [44:10<18:05:55,  3.42it/s] 40%|███▉      | 148534/371472 [44:10<18:09:51,  3.41it/s] 40%|███▉      | 148535/371472 [44:10<17:25:57,  3.55it/s] 40%|███▉      | 148536/371472 [44:11<19:58:47,  3.10it/s] 40%|███▉      | 148537/371472 [44:11<19:16:09,  3.21it/s] 40%|███▉      | 148538/371472 [44:11<18:36:54,  3.33it/s] 40%|███▉      | 148539/371472 [44:12<17:58:59,  3.44it/s] 40%|███▉      | 148540/371472 [44:12<18:04:08,  3.43it/s]                                                          {'loss': 3.2257, 'learning_rate': 6.404091878730419e-07, 'epoch': 6.4}
 40%|███▉      | 148540/371472 [44:12<18:04:08,  3.43it/s] 40%|███▉      | 148541/371472 [44:12<18:59:12,  3.26it/s] 40%|███▉      | 148542/371472 [44:13<19:20:21,  3.20it/s] 40%|███▉      | 148543/371472 [44:13<19:24:08,  3.19it/s] 40%|███▉      | 148544/371472 [44:13<18:21:18,  3.37it/s] 40%|███▉      | 148545/371472 [44:13<18:14:30,  3.39it/s] 40%|███▉      | 148546/371472 [44:14<17:37:27,  3.51it/s] 40%|███▉      | 148547/371472 [44:14<17:34:02,  3.52it/s] 40%|███▉      | 148548/371472 [44:14<17:23:35,  3.56it/s] 40%|███▉      | 148549/371472 [44:15<16:51:47,  3.67it/s] 40%|███▉      | 148550/371472 [44:15<17:06:01,  3.62it/s] 40%|███▉      | 148551/371472 [44:15<17:30:23,  3.54it/s] 40%|███▉      | 148552/371472 [44:15<17:34:33,  3.52it/s] 40%|███▉      | 148553/371472 [44:16<17:20:50,  3.57it/s] 40%|███▉      | 148554/371472 [44:16<16:49:43,  3.68it/s] 40%|███▉      | 148555/371472 [44:16<16:48:34,  3.68it/s] 40%|███▉      | 148556/371472 [44:17<18:15:35,  3.39it/s] 40%|███▉      | 148557/371472 [44:17<19:13:53,  3.22it/s] 40%|███▉      | 148558/371472 [44:17<18:57:35,  3.27it/s] 40%|███▉      | 148559/371472 [44:17<18:16:44,  3.39it/s] 40%|███▉      | 148560/371472 [44:18<18:20:25,  3.38it/s]                                                          {'loss': 3.1331, 'learning_rate': 6.40360705897563e-07, 'epoch': 6.4}
 40%|███▉      | 148560/371472 [44:18<18:20:25,  3.38it/s] 40%|███▉      | 148561/371472 [44:18<19:33:02,  3.17it/s] 40%|███▉      | 148562/371472 [44:18<18:24:05,  3.36it/s] 40%|███▉      | 148563/371472 [44:19<17:59:29,  3.44it/s] 40%|███▉      | 148564/371472 [44:19<17:26:48,  3.55it/s] 40%|███▉      | 148565/371472 [44:19<16:54:42,  3.66it/s] 40%|███▉      | 148566/371472 [44:19<17:15:21,  3.59it/s] 40%|███▉      | 148567/371472 [44:20<16:48:46,  3.68it/s] 40%|███▉      | 148568/371472 [44:20<16:39:55,  3.72it/s] 40%|███▉      | 148569/371472 [44:20<17:54:10,  3.46it/s] 40%|███▉      | 148570/371472 [44:21<17:30:25,  3.54it/s] 40%|███▉      | 148571/371472 [44:21<17:59:56,  3.44it/s] 40%|███▉      | 148572/371472 [44:21<18:29:22,  3.35it/s] 40%|███▉      | 148573/371472 [44:21<17:52:57,  3.46it/s] 40%|███▉      | 148574/371472 [44:22<17:29:52,  3.54it/s] 40%|███▉      | 148575/371472 [44:22<17:05:34,  3.62it/s] 40%|███▉      | 148576/371472 [44:22<17:53:10,  3.46it/s] 40%|███▉      | 148577/371472 [44:23<17:13:07,  3.60it/s] 40%|███▉      | 148578/371472 [44:23<19:07:11,  3.24it/s] 40%|███▉      | 148579/371472 [44:23<19:18:29,  3.21it/s] 40%|███▉      | 148580/371472 [44:24<19:46:15,  3.13it/s]                                                          {'loss': 3.246, 'learning_rate': 6.403122239220841e-07, 'epoch': 6.4}
 40%|███▉      | 148580/371472 [44:24<19:46:15,  3.13it/s] 40%|███▉      | 148581/371472 [44:24<22:48:40,  2.71it/s] 40%|███▉      | 148582/371472 [44:24<21:10:25,  2.92it/s] 40%|███▉      | 148583/371472 [44:25<20:21:57,  3.04it/s] 40%|███▉      | 148584/371472 [44:25<20:03:34,  3.09it/s] 40%|███▉      | 148585/371472 [44:25<19:48:55,  3.12it/s] 40%|███▉      | 148586/371472 [44:26<18:51:13,  3.28it/s] 40%|███▉      | 148587/371472 [44:26<17:59:47,  3.44it/s] 40%|███▉      | 148588/371472 [44:26<17:14:33,  3.59it/s] 40%|████      | 148589/371472 [44:26<16:42:13,  3.71it/s] 40%|████      | 148590/371472 [44:27<16:49:31,  3.68it/s] 40%|████      | 148591/371472 [44:27<17:20:49,  3.57it/s] 40%|████      | 148592/371472 [44:27<16:58:36,  3.65it/s] 40%|████      | 148593/371472 [44:28<18:49:51,  3.29it/s] 40%|████      | 148594/371472 [44:28<17:54:48,  3.46it/s] 40%|████      | 148595/371472 [44:28<17:18:04,  3.58it/s] 40%|████      | 148596/371472 [44:28<19:56:59,  3.10it/s] 40%|████      | 148597/371472 [44:29<18:54:20,  3.27it/s] 40%|████      | 148598/371472 [44:29<18:47:12,  3.30it/s] 40%|████      | 148599/371472 [44:29<18:32:28,  3.34it/s] 40%|████      | 148600/371472 [44:30<18:01:21,  3.44it/s]                                                          {'loss': 3.2757, 'learning_rate': 6.402637419466052e-07, 'epoch': 6.4}
 40%|████      | 148600/371472 [44:30<18:01:21,  3.44it/s] 40%|████      | 148601/371472 [44:30<18:06:05,  3.42it/s] 40%|████      | 148602/371472 [44:30<19:27:38,  3.18it/s] 40%|████      | 148603/371472 [44:31<18:39:46,  3.32it/s] 40%|████      | 148604/371472 [44:31<18:14:04,  3.40it/s] 40%|████      | 148605/371472 [44:31<18:08:28,  3.41it/s] 40%|████      | 148606/371472 [44:31<17:27:36,  3.55it/s] 40%|████      | 148607/371472 [44:32<16:45:51,  3.69it/s] 40%|████      | 148608/371472 [44:32<16:54:06,  3.66it/s] 40%|████      | 148609/371472 [44:32<16:56:09,  3.66it/s] 40%|████      | 148610/371472 [44:32<16:45:53,  3.69it/s] 40%|████      | 148611/371472 [44:33<16:26:11,  3.77it/s] 40%|████      | 148612/371472 [44:33<16:49:30,  3.68it/s] 40%|████      | 148613/371472 [44:33<17:16:43,  3.58it/s] 40%|████      | 148614/371472 [44:34<17:26:32,  3.55it/s] 40%|████      | 148615/371472 [44:34<16:41:37,  3.71it/s] 40%|████      | 148616/371472 [44:34<16:40:33,  3.71it/s] 40%|████      | 148617/371472 [44:34<16:31:28,  3.75it/s] 40%|████      | 148618/371472 [44:35<16:20:41,  3.79it/s] 40%|████      | 148619/371472 [44:35<16:20:01,  3.79it/s] 40%|████      | 148620/371472 [44:35<16:31:00,  3.75it/s]                                                          {'loss': 3.0286, 'learning_rate': 6.402152599711262e-07, 'epoch': 6.4}
 40%|████      | 148620/371472 [44:35<16:31:00,  3.75it/s] 40%|████      | 148621/371472 [44:35<17:04:19,  3.63it/s] 40%|████      | 148622/371472 [44:36<17:20:50,  3.57it/s] 40%|████      | 148623/371472 [44:36<17:44:40,  3.49it/s] 40%|████      | 148624/371472 [44:36<17:42:29,  3.50it/s] 40%|████      | 148625/371472 [44:37<18:49:15,  3.29it/s] 40%|████      | 148626/371472 [44:37<18:39:00,  3.32it/s] 40%|████      | 148627/371472 [44:37<17:40:22,  3.50it/s] 40%|████      | 148628/371472 [44:37<17:16:19,  3.58it/s] 40%|████      | 148629/371472 [44:38<18:07:58,  3.41it/s] 40%|████      | 148630/371472 [44:38<18:23:13,  3.37it/s] 40%|████      | 148631/371472 [44:38<18:43:36,  3.31it/s] 40%|████      | 148632/371472 [44:39<18:24:49,  3.36it/s] 40%|████      | 148633/371472 [44:39<17:32:33,  3.53it/s] 40%|████      | 148634/371472 [44:39<16:50:52,  3.67it/s] 40%|████      | 148635/371472 [44:39<17:01:53,  3.63it/s] 40%|████      | 148636/371472 [44:40<16:46:45,  3.69it/s] 40%|████      | 148637/371472 [44:40<16:15:36,  3.81it/s] 40%|████      | 148638/371472 [44:40<16:02:21,  3.86it/s] 40%|████      | 148639/371472 [44:40<16:00:51,  3.87it/s] 40%|████      | 148640/371472 [44:41<16:34:18,  3.74it/s]                                                          {'loss': 3.0506, 'learning_rate': 6.401667779956473e-07, 'epoch': 6.4}
 40%|████      | 148640/371472 [44:41<16:34:18,  3.74it/s] 40%|████      | 148641/371472 [44:41<17:46:11,  3.48it/s] 40%|████      | 148642/371472 [44:41<17:30:28,  3.54it/s] 40%|████      | 148643/371472 [44:42<18:10:06,  3.41it/s] 40%|████      | 148644/371472 [44:42<17:57:05,  3.45it/s] 40%|████      | 148645/371472 [44:42<18:51:38,  3.28it/s] 40%|████      | 148646/371472 [44:43<18:38:38,  3.32it/s] 40%|████      | 148647/371472 [44:43<17:41:58,  3.50it/s] 40%|████      | 148648/371472 [44:43<16:59:18,  3.64it/s] 40%|████      | 148649/371472 [44:43<16:58:16,  3.65it/s] 40%|████      | 148650/371472 [44:44<17:05:22,  3.62it/s] 40%|████      | 148651/371472 [44:44<17:52:02,  3.46it/s] 40%|████      | 148652/371472 [44:44<17:25:42,  3.55it/s] 40%|████      | 148653/371472 [44:45<17:42:52,  3.49it/s] 40%|████      | 148654/371472 [44:45<17:53:38,  3.46it/s] 40%|████      | 148655/371472 [44:45<17:58:03,  3.44it/s] 40%|████      | 148656/371472 [44:45<18:36:10,  3.33it/s] 40%|████      | 148657/371472 [44:46<17:51:59,  3.46it/s] 40%|████      | 148658/371472 [44:46<17:28:04,  3.54it/s] 40%|████      | 148659/371472 [44:46<16:51:18,  3.67it/s] 40%|████      | 148660/371472 [44:46<16:40:04,  3.71it/s]                                                          {'loss': 3.3266, 'learning_rate': 6.401182960201684e-07, 'epoch': 6.4}
 40%|████      | 148660/371472 [44:46<16:40:04,  3.71it/s] 40%|████      | 148661/371472 [44:47<17:39:03,  3.51it/s] 40%|████      | 148662/371472 [44:47<16:46:56,  3.69it/s] 40%|████      | 148663/371472 [44:47<16:41:38,  3.71it/s] 40%|████      | 148664/371472 [44:48<17:00:35,  3.64it/s] 40%|████      | 148665/371472 [44:48<17:21:26,  3.57it/s] 40%|████      | 148666/371472 [44:48<19:56:51,  3.10it/s] 40%|████      | 148667/371472 [44:49<19:43:11,  3.14it/s] 40%|████      | 148668/371472 [44:49<18:36:47,  3.33it/s] 40%|████      | 148669/371472 [44:49<17:51:25,  3.47it/s] 40%|████      | 148670/371472 [44:49<17:13:34,  3.59it/s] 40%|████      | 148671/371472 [44:50<17:40:26,  3.50it/s] 40%|████      | 148672/371472 [44:50<17:24:26,  3.56it/s] 40%|████      | 148673/371472 [44:50<16:37:53,  3.72it/s] 40%|████      | 148674/371472 [44:50<16:15:30,  3.81it/s] 40%|████      | 148675/371472 [44:51<16:10:26,  3.83it/s] 40%|████      | 148676/371472 [44:51<17:02:57,  3.63it/s] 40%|████      | 148677/371472 [44:51<17:37:35,  3.51it/s] 40%|████      | 148678/371472 [44:52<17:34:42,  3.52it/s] 40%|████      | 148679/371472 [44:52<17:41:35,  3.50it/s] 40%|████      | 148680/371472 [44:52<17:17:18,  3.58it/s]                                                          {'loss': 3.1187, 'learning_rate': 6.400698140446896e-07, 'epoch': 6.4}
 40%|████      | 148680/371472 [44:52<17:17:18,  3.58it/s] 40%|████      | 148681/371472 [44:52<17:17:09,  3.58it/s] 40%|████      | 148682/371472 [44:53<16:57:06,  3.65it/s] 40%|████      | 148683/371472 [44:53<17:15:32,  3.59it/s] 40%|████      | 148684/371472 [44:53<18:29:16,  3.35it/s] 40%|████      | 148685/371472 [44:54<18:54:00,  3.27it/s] 40%|████      | 148686/371472 [44:54<18:24:08,  3.36it/s] 40%|████      | 148687/371472 [44:54<18:00:56,  3.44it/s] 40%|████      | 148688/371472 [44:54<17:21:13,  3.57it/s] 40%|████      | 148689/371472 [44:55<17:00:27,  3.64it/s] 40%|████      | 148690/371472 [44:55<18:01:40,  3.43it/s] 40%|████      | 148691/371472 [44:55<17:51:56,  3.46it/s] 40%|████      | 148692/371472 [44:56<17:40:31,  3.50it/s] 40%|████      | 148693/371472 [44:56<17:23:15,  3.56it/s] 40%|████      | 148694/371472 [44:56<17:22:50,  3.56it/s] 40%|████      | 148695/371472 [44:56<16:43:50,  3.70it/s] 40%|████      | 148696/371472 [44:57<17:02:56,  3.63it/s] 40%|████      | 148697/371472 [44:57<16:43:55,  3.70it/s] 40%|████      | 148698/371472 [44:57<16:37:24,  3.72it/s] 40%|████      | 148699/371472 [44:57<16:09:21,  3.83it/s] 40%|████      | 148700/371472 [44:58<16:00:46,  3.86it/s]                                                          {'loss': 3.1547, 'learning_rate': 6.400213320692107e-07, 'epoch': 6.4}
 40%|████      | 148700/371472 [44:58<16:00:46,  3.86it/s] 40%|████      | 148701/371472 [44:58<16:23:15,  3.78it/s] 40%|████      | 148702/371472 [44:58<15:58:44,  3.87it/s] 40%|████      | 148703/371472 [44:59<16:11:20,  3.82it/s] 40%|████      | 148704/371472 [44:59<16:55:30,  3.66it/s] 40%|████      | 148705/371472 [44:59<16:35:53,  3.73it/s] 40%|████      | 148706/371472 [44:59<16:41:26,  3.71it/s] 40%|████      | 148707/371472 [45:00<17:08:00,  3.61it/s] 40%|████      | 148708/371472 [45:00<16:52:16,  3.67it/s] 40%|████      | 148709/371472 [45:00<17:06:40,  3.62it/s] 40%|████      | 148710/371472 [45:00<17:08:06,  3.61it/s] 40%|████      | 148711/371472 [45:01<17:42:34,  3.49it/s] 40%|████      | 148712/371472 [45:01<18:00:59,  3.43it/s] 40%|████      | 148713/371472 [45:01<17:44:51,  3.49it/s] 40%|████      | 148714/371472 [45:02<17:23:18,  3.56it/s] 40%|████      | 148715/371472 [45:02<18:09:28,  3.41it/s] 40%|████      | 148716/371472 [45:02<17:15:17,  3.59it/s] 40%|████      | 148717/371472 [45:03<17:56:13,  3.45it/s] 40%|████      | 148718/371472 [45:03<21:03:47,  2.94it/s] 40%|████      | 148719/371472 [45:03<20:00:19,  3.09it/s] 40%|████      | 148720/371472 [45:04<18:43:59,  3.30it/s]                                                          {'loss': 3.2759, 'learning_rate': 6.399728500937318e-07, 'epoch': 6.41}
 40%|████      | 148720/371472 [45:04<18:43:59,  3.30it/s] 40%|████      | 148721/371472 [45:04<18:13:18,  3.40it/s] 40%|████      | 148722/371472 [45:04<17:31:48,  3.53it/s] 40%|████      | 148723/371472 [45:04<17:03:35,  3.63it/s] 40%|████      | 148724/371472 [45:05<16:53:41,  3.66it/s] 40%|████      | 148725/371472 [45:05<16:50:56,  3.67it/s] 40%|████      | 148726/371472 [45:05<17:35:29,  3.52it/s] 40%|████      | 148727/371472 [45:05<17:07:55,  3.61it/s] 40%|████      | 148728/371472 [45:06<19:05:34,  3.24it/s] 40%|████      | 148729/371472 [45:06<18:07:46,  3.41it/s] 40%|████      | 148730/371472 [45:06<17:53:18,  3.46it/s] 40%|████      | 148731/371472 [45:07<17:58:15,  3.44it/s] 40%|████      | 148732/371472 [45:07<17:53:11,  3.46it/s] 40%|████      | 148733/371472 [45:07<17:29:26,  3.54it/s] 40%|████      | 148734/371472 [45:07<16:58:00,  3.65it/s] 40%|████      | 148735/371472 [45:08<16:57:19,  3.65it/s] 40%|████      | 148736/371472 [45:08<16:53:13,  3.66it/s] 40%|████      | 148737/371472 [45:08<16:38:44,  3.72it/s] 40%|████      | 148738/371472 [45:08<16:32:44,  3.74it/s] 40%|████      | 148739/371472 [45:09<16:57:51,  3.65it/s] 40%|████      | 148740/371472 [45:09<16:59:44,  3.64it/s]                                                          {'loss': 3.3399, 'learning_rate': 6.399243681182529e-07, 'epoch': 6.41}
 40%|████      | 148740/371472 [45:09<16:59:44,  3.64it/s] 40%|████      | 148741/371472 [45:09<17:10:49,  3.60it/s] 40%|████      | 148742/371472 [45:10<17:38:28,  3.51it/s] 40%|████      | 148743/371472 [45:10<17:59:20,  3.44it/s] 40%|████      | 148744/371472 [45:10<17:34:35,  3.52it/s] 40%|████      | 148745/371472 [45:10<17:10:32,  3.60it/s] 40%|████      | 148746/371472 [45:11<16:38:05,  3.72it/s] 40%|████      | 148747/371472 [45:11<16:39:42,  3.71it/s] 40%|████      | 148748/371472 [45:11<18:02:06,  3.43it/s] 40%|████      | 148749/371472 [45:12<18:38:28,  3.32it/s] 40%|████      | 148750/371472 [45:12<18:42:54,  3.31it/s] 40%|████      | 148751/371472 [45:12<17:51:10,  3.47it/s] 40%|████      | 148752/371472 [45:12<17:20:38,  3.57it/s] 40%|████      | 148753/371472 [45:13<17:08:45,  3.61it/s] 40%|████      | 148754/371472 [45:13<17:10:51,  3.60it/s] 40%|████      | 148755/371472 [45:13<17:20:52,  3.57it/s] 40%|████      | 148756/371472 [45:14<17:00:51,  3.64it/s] 40%|████      | 148757/371472 [45:14<17:18:36,  3.57it/s] 40%|████      | 148758/371472 [45:14<18:09:46,  3.41it/s] 40%|████      | 148759/371472 [45:14<18:10:20,  3.40it/s] 40%|████      | 148760/371472 [45:15<19:09:44,  3.23it/s]                                                          {'loss': 3.2217, 'learning_rate': 6.39875886142774e-07, 'epoch': 6.41}
 40%|████      | 148760/371472 [45:15<19:09:44,  3.23it/s] 40%|████      | 148761/371472 [45:15<18:55:31,  3.27it/s] 40%|████      | 148762/371472 [45:15<18:02:25,  3.43it/s] 40%|████      | 148763/371472 [45:16<18:36:45,  3.32it/s] 40%|████      | 148764/371472 [45:16<18:06:21,  3.42it/s] 40%|████      | 148765/371472 [45:16<18:10:44,  3.40it/s] 40%|████      | 148766/371472 [45:17<18:34:36,  3.33it/s] 40%|████      | 148767/371472 [45:17<18:30:52,  3.34it/s] 40%|████      | 148768/371472 [45:17<18:00:45,  3.43it/s] 40%|████      | 148769/371472 [45:17<17:50:20,  3.47it/s] 40%|████      | 148770/371472 [45:18<18:08:52,  3.41it/s] 40%|████      | 148771/371472 [45:18<17:44:27,  3.49it/s] 40%|████      | 148772/371472 [45:18<17:33:53,  3.52it/s] 40%|████      | 148773/371472 [45:19<16:56:31,  3.65it/s] 40%|████      | 148774/371472 [45:19<17:02:16,  3.63it/s] 40%|████      | 148775/371472 [45:19<16:53:27,  3.66it/s] 40%|████      | 148776/371472 [45:19<17:21:28,  3.56it/s] 40%|████      | 148777/371472 [45:20<17:40:42,  3.50it/s] 40%|████      | 148778/371472 [45:20<16:55:10,  3.66it/s] 40%|████      | 148779/371472 [45:20<17:15:12,  3.59it/s] 40%|████      | 148780/371472 [45:21<16:59:42,  3.64it/s]                                                          {'loss': 3.1157, 'learning_rate': 6.398274041672951e-07, 'epoch': 6.41}
 40%|████      | 148780/371472 [45:21<16:59:42,  3.64it/s] 40%|████      | 148781/371472 [45:21<19:15:16,  3.21it/s] 40%|████      | 148782/371472 [45:21<19:54:30,  3.11it/s] 40%|████      | 148783/371472 [45:22<18:47:48,  3.29it/s] 40%|████      | 148784/371472 [45:22<18:20:21,  3.37it/s] 40%|████      | 148785/371472 [45:22<17:50:24,  3.47it/s] 40%|████      | 148786/371472 [45:22<19:30:49,  3.17it/s] 40%|████      | 148787/371472 [45:23<18:13:48,  3.39it/s] 40%|████      | 148788/371472 [45:23<18:25:50,  3.36it/s] 40%|████      | 148789/371472 [45:23<17:55:14,  3.45it/s] 40%|████      | 148790/371472 [45:24<17:23:23,  3.56it/s] 40%|████      | 148791/371472 [45:24<17:00:49,  3.64it/s] 40%|████      | 148792/371472 [45:24<16:45:44,  3.69it/s] 40%|████      | 148793/371472 [45:24<18:13:46,  3.39it/s] 40%|████      | 148794/371472 [45:25<17:18:55,  3.57it/s] 40%|████      | 148795/371472 [45:25<17:07:39,  3.61it/s] 40%|████      | 148796/371472 [45:25<16:43:10,  3.70it/s] 40%|████      | 148797/371472 [45:25<16:17:19,  3.80it/s] 40%|████      | 148798/371472 [45:26<16:31:39,  3.74it/s] 40%|████      | 148799/371472 [45:26<16:55:46,  3.65it/s] 40%|████      | 148800/371472 [45:26<17:07:47,  3.61it/s]                                                          {'loss': 3.1506, 'learning_rate': 6.397789221918162e-07, 'epoch': 6.41}
 40%|████      | 148800/371472 [45:26<17:07:47,  3.61it/s] 40%|████      | 148801/371472 [45:27<16:51:51,  3.67it/s] 40%|████      | 148802/371472 [45:27<18:23:39,  3.36it/s] 40%|████      | 148803/371472 [45:27<17:15:46,  3.58it/s] 40%|████      | 148804/371472 [45:27<16:30:20,  3.75it/s] 40%|████      | 148805/371472 [45:28<16:36:11,  3.73it/s] 40%|████      | 148806/371472 [45:28<16:12:36,  3.82it/s] 40%|████      | 148807/371472 [45:28<17:37:24,  3.51it/s] 40%|████      | 148808/371472 [45:28<17:27:05,  3.54it/s] 40%|████      | 148809/371472 [45:29<17:31:06,  3.53it/s] 40%|████      | 148810/371472 [45:29<18:09:33,  3.41it/s] 40%|████      | 148811/371472 [45:29<17:32:10,  3.53it/s] 40%|████      | 148812/371472 [45:30<17:52:12,  3.46it/s] 40%|████      | 148813/371472 [45:30<17:40:43,  3.50it/s] 40%|████      | 148814/371472 [45:30<17:48:51,  3.47it/s] 40%|████      | 148815/371472 [45:31<17:34:04,  3.52it/s] 40%|████      | 148816/371472 [45:31<17:35:50,  3.51it/s] 40%|████      | 148817/371472 [45:31<17:36:21,  3.51it/s] 40%|████      | 148818/371472 [45:31<17:05:09,  3.62it/s] 40%|████      | 148819/371472 [45:32<16:59:05,  3.64it/s] 40%|████      | 148820/371472 [45:32<16:20:59,  3.78it/s]                                                          {'loss': 3.0054, 'learning_rate': 6.397304402163373e-07, 'epoch': 6.41}
 40%|████      | 148820/371472 [45:32<16:20:59,  3.78it/s] 40%|████      | 148821/371472 [45:32<16:20:05,  3.79it/s] 40%|████      | 148822/371472 [45:32<16:17:30,  3.80it/s] 40%|████      | 148823/371472 [45:33<16:21:53,  3.78it/s] 40%|████      | 148824/371472 [45:33<16:29:37,  3.75it/s] 40%|████      | 148825/371472 [45:33<17:01:34,  3.63it/s] 40%|████      | 148826/371472 [45:33<16:27:56,  3.76it/s] 40%|████      | 148827/371472 [45:34<16:36:04,  3.73it/s] 40%|████      | 148828/371472 [45:34<16:43:36,  3.70it/s] 40%|████      | 148829/371472 [45:34<16:48:04,  3.68it/s] 40%|████      | 148830/371472 [45:35<17:22:37,  3.56it/s] 40%|████      | 148831/371472 [45:35<18:13:49,  3.39it/s] 40%|████      | 148832/371472 [45:35<17:38:19,  3.51it/s] 40%|████      | 148833/371472 [45:35<17:45:42,  3.48it/s] 40%|████      | 148834/371472 [45:36<17:55:54,  3.45it/s] 40%|████      | 148835/371472 [45:36<18:06:01,  3.42it/s] 40%|████      | 148836/371472 [45:36<18:00:47,  3.43it/s] 40%|████      | 148837/371472 [45:37<19:00:28,  3.25it/s] 40%|████      | 148838/371472 [45:37<19:31:02,  3.17it/s] 40%|████      | 148839/371472 [45:37<21:03:24,  2.94it/s] 40%|████      | 148840/371472 [45:38<19:56:04,  3.10it/s]                                                          {'loss': 3.2449, 'learning_rate': 6.396819582408585e-07, 'epoch': 6.41}
 40%|████      | 148840/371472 [45:38<19:56:04,  3.10it/s] 40%|████      | 148841/371472 [45:38<20:07:23,  3.07it/s] 40%|████      | 148842/371472 [45:38<19:02:06,  3.25it/s] 40%|████      | 148843/371472 [45:39<18:22:47,  3.36it/s] 40%|████      | 148844/371472 [45:39<18:22:13,  3.37it/s] 40%|████      | 148845/371472 [45:39<18:14:40,  3.39it/s] 40%|████      | 148846/371472 [45:39<18:14:41,  3.39it/s] 40%|████      | 148847/371472 [45:40<18:50:14,  3.28it/s] 40%|████      | 148848/371472 [45:40<19:55:07,  3.10it/s] 40%|████      | 148849/371472 [45:40<18:57:54,  3.26it/s] 40%|████      | 148850/371472 [45:41<18:11:31,  3.40it/s] 40%|████      | 148851/371472 [45:41<17:57:35,  3.44it/s] 40%|████      | 148852/371472 [45:41<18:57:29,  3.26it/s] 40%|████      | 148853/371472 [45:42<18:28:07,  3.35it/s] 40%|████      | 148854/371472 [45:42<18:44:47,  3.30it/s] 40%|████      | 148855/371472 [45:42<18:58:52,  3.26it/s] 40%|████      | 148856/371472 [45:42<18:12:20,  3.40it/s] 40%|████      | 148857/371472 [45:43<17:47:26,  3.48it/s] 40%|████      | 148858/371472 [45:43<17:38:33,  3.51it/s] 40%|████      | 148859/371472 [45:43<18:44:20,  3.30it/s] 40%|████      | 148860/371472 [45:44<18:08:12,  3.41it/s]                                                          {'loss': 3.0422, 'learning_rate': 6.396334762653796e-07, 'epoch': 6.41}
 40%|████      | 148860/371472 [45:44<18:08:12,  3.41it/s] 40%|████      | 148861/371472 [45:44<17:09:14,  3.60it/s] 40%|████      | 148862/371472 [45:44<16:42:36,  3.70it/s] 40%|████      | 148863/371472 [45:44<16:59:22,  3.64it/s] 40%|████      | 148864/371472 [45:45<17:01:25,  3.63it/s] 40%|████      | 148865/371472 [45:45<16:52:38,  3.66it/s] 40%|████      | 148866/371472 [45:45<17:11:14,  3.60it/s] 40%|████      | 148867/371472 [45:46<16:52:37,  3.66it/s] 40%|████      | 148868/371472 [45:46<16:35:43,  3.73it/s] 40%|████      | 148869/371472 [45:46<16:09:39,  3.83it/s] 40%|████      | 148870/371472 [45:46<15:57:12,  3.88it/s] 40%|████      | 148871/371472 [45:47<16:40:38,  3.71it/s] 40%|████      | 148872/371472 [45:47<17:21:55,  3.56it/s] 40%|████      | 148873/371472 [45:47<17:06:11,  3.62it/s] 40%|████      | 148874/371472 [45:47<16:58:06,  3.64it/s] 40%|████      | 148875/371472 [45:48<17:07:24,  3.61it/s] 40%|████      | 148876/371472 [45:48<17:04:12,  3.62it/s] 40%|████      | 148877/371472 [45:48<17:40:14,  3.50it/s] 40%|████      | 148878/371472 [45:49<18:55:41,  3.27it/s] 40%|████      | 148879/371472 [45:49<18:45:56,  3.29it/s] 40%|████      | 148880/371472 [45:49<18:17:34,  3.38it/s]                                                          {'loss': 3.2196, 'learning_rate': 6.395849942899006e-07, 'epoch': 6.41}
 40%|████      | 148880/371472 [45:49<18:17:34,  3.38it/s] 40%|████      | 148881/371472 [45:49<17:28:02,  3.54it/s] 40%|████      | 148882/371472 [45:50<17:26:11,  3.55it/s] 40%|████      | 148883/371472 [45:50<17:09:04,  3.61it/s] 40%|████      | 148884/371472 [45:50<16:34:47,  3.73it/s] 40%|████      | 148885/371472 [45:51<17:13:22,  3.59it/s] 40%|████      | 148886/371472 [45:51<18:11:54,  3.40it/s] 40%|████      | 148887/371472 [45:51<17:47:02,  3.48it/s] 40%|████      | 148888/371472 [45:51<18:30:18,  3.34it/s] 40%|████      | 148889/371472 [45:52<17:41:28,  3.49it/s] 40%|████      | 148890/371472 [45:52<17:20:11,  3.57it/s] 40%|████      | 148891/371472 [45:52<17:23:22,  3.56it/s] 40%|████      | 148892/371472 [45:53<17:13:22,  3.59it/s] 40%|████      | 148893/371472 [45:53<19:11:31,  3.22it/s] 40%|████      | 148894/371472 [45:53<18:14:44,  3.39it/s] 40%|████      | 148895/371472 [45:53<17:29:22,  3.54it/s] 40%|████      | 148896/371472 [45:54<17:11:16,  3.60it/s] 40%|████      | 148897/371472 [45:54<18:54:00,  3.27it/s] 40%|████      | 148898/371472 [45:54<19:11:59,  3.22it/s] 40%|████      | 148899/371472 [45:55<20:02:47,  3.08it/s] 40%|████      | 148900/371472 [45:55<19:24:17,  3.19it/s]                                                          {'loss': 3.1458, 'learning_rate': 6.395365123144217e-07, 'epoch': 6.41}
 40%|████      | 148900/371472 [45:55<19:24:17,  3.19it/s] 40%|████      | 148901/371472 [45:55<19:27:45,  3.18it/s] 40%|████      | 148902/371472 [45:56<18:35:14,  3.33it/s] 40%|████      | 148903/371472 [45:56<18:01:35,  3.43it/s] 40%|████      | 148904/371472 [45:56<18:09:28,  3.40it/s] 40%|████      | 148905/371472 [45:56<17:24:31,  3.55it/s] 40%|████      | 148906/371472 [45:57<17:24:59,  3.55it/s] 40%|████      | 148907/371472 [45:57<17:38:06,  3.51it/s] 40%|████      | 148908/371472 [45:57<18:05:25,  3.42it/s] 40%|████      | 148909/371472 [45:58<17:20:43,  3.56it/s] 40%|████      | 148910/371472 [45:58<17:21:58,  3.56it/s] 40%|████      | 148911/371472 [45:58<17:32:36,  3.52it/s] 40%|████      | 148912/371472 [45:59<19:05:28,  3.24it/s] 40%|████      | 148913/371472 [45:59<18:41:04,  3.31it/s] 40%|████      | 148914/371472 [45:59<17:58:43,  3.44it/s] 40%|████      | 148915/371472 [45:59<17:34:28,  3.52it/s] 40%|████      | 148916/371472 [46:00<18:39:17,  3.31it/s] 40%|████      | 148917/371472 [46:00<18:40:50,  3.31it/s] 40%|████      | 148918/371472 [46:00<18:05:33,  3.42it/s] 40%|████      | 148919/371472 [46:01<17:49:50,  3.47it/s] 40%|████      | 148920/371472 [46:01<18:16:23,  3.38it/s]                                                          {'loss': 3.1228, 'learning_rate': 6.394880303389428e-07, 'epoch': 6.41}
 40%|████      | 148920/371472 [46:01<18:16:23,  3.38it/s] 40%|████      | 148921/371472 [46:01<18:58:48,  3.26it/s] 40%|████      | 148922/371472 [46:02<18:45:09,  3.30it/s] 40%|████      | 148923/371472 [46:02<19:39:24,  3.14it/s] 40%|████      | 148924/371472 [46:02<18:36:38,  3.32it/s] 40%|████      | 148925/371472 [46:02<18:30:40,  3.34it/s] 40%|████      | 148926/371472 [46:03<18:15:10,  3.39it/s] 40%|████      | 148927/371472 [46:03<17:41:02,  3.50it/s] 40%|████      | 148928/371472 [46:03<17:12:58,  3.59it/s] 40%|████      | 148929/371472 [46:04<17:41:38,  3.49it/s] 40%|████      | 148930/371472 [46:04<17:11:30,  3.60it/s] 40%|████      | 148931/371472 [46:04<17:35:21,  3.51it/s] 40%|████      | 148932/371472 [46:04<18:50:56,  3.28it/s] 40%|████      | 148933/371472 [46:05<20:23:13,  3.03it/s] 40%|████      | 148934/371472 [46:05<18:55:22,  3.27it/s] 40%|████      | 148935/371472 [46:05<18:22:02,  3.37it/s] 40%|████      | 148936/371472 [46:06<18:05:46,  3.42it/s] 40%|████      | 148937/371472 [46:06<17:53:06,  3.46it/s] 40%|████      | 148938/371472 [46:06<18:11:23,  3.40it/s] 40%|████      | 148939/371472 [46:06<17:31:36,  3.53it/s] 40%|████      | 148940/371472 [46:07<17:30:53,  3.53it/s]                                                          {'loss': 3.1971, 'learning_rate': 6.39439548363464e-07, 'epoch': 6.42}
 40%|████      | 148940/371472 [46:07<17:30:53,  3.53it/s] 40%|████      | 148941/371472 [46:07<17:43:30,  3.49it/s] 40%|████      | 148942/371472 [46:07<17:35:43,  3.51it/s] 40%|████      | 148943/371472 [46:08<17:55:47,  3.45it/s] 40%|████      | 148944/371472 [46:08<18:01:26,  3.43it/s] 40%|████      | 148945/371472 [46:08<17:28:00,  3.54it/s] 40%|████      | 148946/371472 [46:09<18:29:43,  3.34it/s] 40%|████      | 148947/371472 [46:09<17:37:39,  3.51it/s] 40%|████      | 148948/371472 [46:09<17:44:03,  3.49it/s] 40%|████      | 148949/371472 [46:09<17:55:08,  3.45it/s] 40%|████      | 148950/371472 [46:10<17:24:37,  3.55it/s] 40%|████      | 148951/371472 [46:10<16:55:28,  3.65it/s] 40%|████      | 148952/371472 [46:10<16:47:50,  3.68it/s] 40%|████      | 148953/371472 [46:11<20:02:15,  3.08it/s] 40%|████      | 148954/371472 [46:11<19:32:53,  3.16it/s] 40%|████      | 148955/371472 [46:11<18:27:18,  3.35it/s] 40%|████      | 148956/371472 [46:12<19:23:41,  3.19it/s] 40%|████      | 148957/371472 [46:12<18:33:17,  3.33it/s] 40%|████      | 148958/371472 [46:12<18:46:48,  3.29it/s] 40%|████      | 148959/371472 [46:12<17:40:25,  3.50it/s] 40%|████      | 148960/371472 [46:13<17:30:17,  3.53it/s]                                                          {'loss': 3.1394, 'learning_rate': 6.393910663879851e-07, 'epoch': 6.42}
 40%|████      | 148960/371472 [46:13<17:30:17,  3.53it/s] 40%|████      | 148961/371472 [46:13<17:45:32,  3.48it/s] 40%|████      | 148962/371472 [46:13<18:24:40,  3.36it/s] 40%|████      | 148963/371472 [46:13<17:39:11,  3.50it/s] 40%|████      | 148964/371472 [46:14<17:21:43,  3.56it/s] 40%|████      | 148965/371472 [46:14<18:36:46,  3.32it/s] 40%|████      | 148966/371472 [46:14<18:11:27,  3.40it/s] 40%|████      | 148967/371472 [46:15<17:17:10,  3.58it/s] 40%|████      | 148968/371472 [46:15<17:40:09,  3.50it/s] 40%|████      | 148969/371472 [46:15<17:27:50,  3.54it/s] 40%|████      | 148970/371472 [46:15<17:18:22,  3.57it/s] 40%|████      | 148971/371472 [46:16<17:41:18,  3.49it/s] 40%|████      | 148972/371472 [46:16<17:24:40,  3.55it/s] 40%|████      | 148973/371472 [46:16<16:39:31,  3.71it/s] 40%|████      | 148974/371472 [46:17<16:01:09,  3.86it/s] 40%|████      | 148975/371472 [46:17<16:06:49,  3.84it/s] 40%|████      | 148976/371472 [46:17<16:20:25,  3.78it/s] 40%|████      | 148977/371472 [46:17<16:09:32,  3.82it/s] 40%|████      | 148978/371472 [46:18<16:53:13,  3.66it/s] 40%|████      | 148979/371472 [46:18<17:06:01,  3.61it/s] 40%|████      | 148980/371472 [46:18<18:53:42,  3.27it/s]                                                          {'loss': 3.1544, 'learning_rate': 6.393425844125062e-07, 'epoch': 6.42}
 40%|████      | 148980/371472 [46:18<18:53:42,  3.27it/s] 40%|████      | 148981/371472 [46:19<18:08:58,  3.41it/s] 40%|████      | 148982/371472 [46:19<17:08:45,  3.60it/s] 40%|████      | 148983/371472 [46:19<16:59:52,  3.64it/s] 40%|████      | 148984/371472 [46:19<17:28:47,  3.54it/s] 40%|████      | 148985/371472 [46:20<17:12:55,  3.59it/s] 40%|████      | 148986/371472 [46:20<16:26:43,  3.76it/s] 40%|████      | 148987/371472 [46:20<15:55:35,  3.88it/s] 40%|████      | 148988/371472 [46:20<15:40:01,  3.94it/s] 40%|████      | 148989/371472 [46:21<15:47:08,  3.92it/s] 40%|████      | 148990/371472 [46:21<15:46:54,  3.92it/s] 40%|████      | 148991/371472 [46:21<16:29:34,  3.75it/s] 40%|████      | 148992/371472 [46:21<16:15:29,  3.80it/s] 40%|████      | 148993/371472 [46:22<16:26:46,  3.76it/s] 40%|████      | 148994/371472 [46:22<15:54:37,  3.88it/s] 40%|████      | 148995/371472 [46:22<16:54:04,  3.66it/s] 40%|████      | 148996/371472 [46:23<19:10:41,  3.22it/s] 40%|████      | 148997/371472 [46:23<19:47:45,  3.12it/s] 40%|████      | 148998/371472 [46:23<18:35:38,  3.32it/s] 40%|████      | 148999/371472 [46:23<17:51:42,  3.46it/s] 40%|████      | 149000/371472 [46:24<17:21:43,  3.56it/s]                                                          {'loss': 3.3536, 'learning_rate': 6.392941024370272e-07, 'epoch': 6.42}
 40%|████      | 149000/371472 [46:24<17:21:43,  3.56it/s] 40%|████      | 149001/371472 [46:24<17:10:42,  3.60it/s] 40%|████      | 149002/371472 [46:24<17:33:36,  3.52it/s] 40%|████      | 149003/371472 [46:25<17:28:52,  3.54it/s] 40%|████      | 149004/371472 [46:25<16:58:03,  3.64it/s] 40%|████      | 149005/371472 [46:25<17:45:52,  3.48it/s] 40%|████      | 149006/371472 [46:25<17:41:16,  3.49it/s] 40%|████      | 149007/371472 [46:26<18:45:13,  3.30it/s] 40%|████      | 149008/371472 [46:26<18:42:00,  3.30it/s] 40%|████      | 149009/371472 [46:26<18:05:13,  3.42it/s] 40%|████      | 149010/371472 [46:27<17:40:20,  3.50it/s] 40%|████      | 149011/371472 [46:27<17:38:25,  3.50it/s] 40%|████      | 149012/371472 [46:27<17:57:03,  3.44it/s] 40%|████      | 149013/371472 [46:28<18:52:57,  3.27it/s] 40%|████      | 149014/371472 [46:28<18:25:41,  3.35it/s] 40%|████      | 149015/371472 [46:28<18:43:24,  3.30it/s] 40%|████      | 149016/371472 [46:28<18:24:28,  3.36it/s] 40%|████      | 149017/371472 [46:29<18:48:26,  3.29it/s] 40%|████      | 149018/371472 [46:29<18:31:28,  3.34it/s] 40%|████      | 149019/371472 [46:29<19:10:23,  3.22it/s] 40%|████      | 149020/371472 [46:30<18:36:17,  3.32it/s]                                                          {'loss': 3.3512, 'learning_rate': 6.392456204615484e-07, 'epoch': 6.42}
 40%|████      | 149020/371472 [46:30<18:36:17,  3.32it/s] 40%|████      | 149021/371472 [46:30<17:28:18,  3.54it/s] 40%|████      | 149022/371472 [46:30<17:10:50,  3.60it/s] 40%|████      | 149023/371472 [46:30<16:51:47,  3.66it/s] 40%|████      | 149024/371472 [46:31<16:39:01,  3.71it/s] 40%|████      | 149025/371472 [46:31<16:35:02,  3.73it/s] 40%|████      | 149026/371472 [46:31<16:50:42,  3.67it/s] 40%|████      | 149027/371472 [46:32<17:08:34,  3.60it/s] 40%|████      | 149028/371472 [46:32<17:27:55,  3.54it/s] 40%|████      | 149029/371472 [46:32<19:08:28,  3.23it/s] 40%|████      | 149030/371472 [46:32<18:18:14,  3.38it/s] 40%|████      | 149031/371472 [46:33<17:55:54,  3.45it/s] 40%|████      | 149032/371472 [46:33<17:18:22,  3.57it/s] 40%|████      | 149033/371472 [46:33<17:27:01,  3.54it/s] 40%|████      | 149034/371472 [46:34<17:04:59,  3.62it/s] 40%|████      | 149035/371472 [46:34<17:14:26,  3.58it/s] 40%|████      | 149036/371472 [46:34<17:36:37,  3.51it/s] 40%|████      | 149037/371472 [46:34<17:45:15,  3.48it/s] 40%|████      | 149038/371472 [46:35<17:29:33,  3.53it/s] 40%|████      | 149039/371472 [46:35<17:38:57,  3.50it/s] 40%|████      | 149040/371472 [46:35<17:18:33,  3.57it/s]                                                          {'loss': 3.1568, 'learning_rate': 6.391971384860695e-07, 'epoch': 6.42}
 40%|████      | 149040/371472 [46:35<17:18:33,  3.57it/s] 40%|████      | 149041/371472 [46:36<17:13:04,  3.59it/s] 40%|████      | 149042/371472 [46:36<17:43:06,  3.49it/s] 40%|████      | 149043/371472 [46:36<17:24:35,  3.55it/s] 40%|████      | 149044/371472 [46:36<17:53:13,  3.45it/s] 40%|████      | 149045/371472 [46:37<17:36:23,  3.51it/s] 40%|████      | 149046/371472 [46:37<17:58:24,  3.44it/s] 40%|████      | 149047/371472 [46:37<17:25:28,  3.55it/s] 40%|████      | 149048/371472 [46:38<16:55:48,  3.65it/s] 40%|████      | 149049/371472 [46:38<17:01:47,  3.63it/s] 40%|████      | 149050/371472 [46:38<16:38:49,  3.71it/s] 40%|████      | 149051/371472 [46:38<17:01:47,  3.63it/s] 40%|████      | 149052/371472 [46:39<16:35:42,  3.72it/s] 40%|████      | 149053/371472 [46:39<17:43:40,  3.49it/s] 40%|████      | 149054/371472 [46:39<17:19:42,  3.57it/s] 40%|████      | 149055/371472 [46:39<16:47:12,  3.68it/s] 40%|████      | 149056/371472 [46:40<17:33:12,  3.52it/s] 40%|████      | 149057/371472 [46:40<17:41:48,  3.49it/s] 40%|████      | 149058/371472 [46:40<17:18:49,  3.57it/s] 40%|████      | 149059/371472 [46:41<18:02:25,  3.42it/s] 40%|████      | 149060/371472 [46:41<17:49:25,  3.47it/s]                                                          {'loss': 3.2271, 'learning_rate': 6.391486565105906e-07, 'epoch': 6.42}
 40%|████      | 149060/371472 [46:41<17:49:25,  3.47it/s] 40%|████      | 149061/371472 [46:41<18:11:42,  3.40it/s] 40%|████      | 149062/371472 [46:42<18:39:53,  3.31it/s] 40%|████      | 149063/371472 [46:42<17:50:03,  3.46it/s] 40%|████      | 149064/371472 [46:42<17:49:50,  3.46it/s] 40%|████      | 149065/371472 [46:42<17:28:41,  3.53it/s] 40%|████      | 149066/371472 [46:43<17:05:11,  3.62it/s] 40%|████      | 149067/371472 [46:43<16:42:41,  3.70it/s] 40%|████      | 149068/371472 [46:43<17:47:14,  3.47it/s] 40%|████      | 149069/371472 [46:43<17:23:33,  3.55it/s] 40%|████      | 149070/371472 [46:44<17:13:01,  3.59it/s] 40%|████      | 149071/371472 [46:44<17:17:12,  3.57it/s] 40%|████      | 149072/371472 [46:44<16:55:30,  3.65it/s] 40%|████      | 149073/371472 [46:45<17:09:18,  3.60it/s] 40%|████      | 149074/371472 [46:45<17:28:34,  3.53it/s] 40%|████      | 149075/371472 [46:45<17:50:22,  3.46it/s] 40%|████      | 149076/371472 [46:45<17:57:02,  3.44it/s] 40%|████      | 149077/371472 [46:46<17:54:43,  3.45it/s] 40%|████      | 149078/371472 [46:46<18:38:59,  3.31it/s] 40%|████      | 149079/371472 [46:46<18:28:07,  3.34it/s] 40%|████      | 149080/371472 [46:47<17:59:18,  3.43it/s]                                                          {'loss': 3.3272, 'learning_rate': 6.391001745351117e-07, 'epoch': 6.42}
 40%|████      | 149080/371472 [46:47<17:59:18,  3.43it/s] 40%|████      | 149081/371472 [46:47<18:45:33,  3.29it/s] 40%|████      | 149082/371472 [46:47<18:29:38,  3.34it/s] 40%|████      | 149083/371472 [46:48<18:21:42,  3.36it/s] 40%|████      | 149084/371472 [46:48<18:06:00,  3.41it/s] 40%|████      | 149085/371472 [46:48<17:38:18,  3.50it/s] 40%|████      | 149086/371472 [46:48<17:55:48,  3.45it/s] 40%|████      | 149087/371472 [46:49<18:46:20,  3.29it/s] 40%|████      | 149088/371472 [46:49<18:19:41,  3.37it/s] 40%|████      | 149089/371472 [46:49<18:21:08,  3.37it/s] 40%|████      | 149090/371472 [46:50<18:17:04,  3.38it/s] 40%|████      | 149091/371472 [46:50<18:17:45,  3.38it/s] 40%|████      | 149092/371472 [46:50<18:05:29,  3.41it/s] 40%|████      | 149093/371472 [46:50<17:17:08,  3.57it/s] 40%|████      | 149094/371472 [46:51<19:25:05,  3.18it/s] 40%|████      | 149095/371472 [46:51<18:26:53,  3.35it/s] 40%|████      | 149096/371472 [46:51<18:35:05,  3.32it/s] 40%|████      | 149097/371472 [46:52<19:22:23,  3.19it/s] 40%|████      | 149098/371472 [46:52<20:12:28,  3.06it/s] 40%|████      | 149099/371472 [46:52<20:17:15,  3.04it/s] 40%|████      | 149100/371472 [46:53<19:38:35,  3.14it/s]                                                          {'loss': 3.2822, 'learning_rate': 6.390516925596329e-07, 'epoch': 6.42}
 40%|████      | 149100/371472 [46:53<19:38:35,  3.14it/s] 40%|████      | 149101/371472 [46:53<19:08:33,  3.23it/s] 40%|████      | 149102/371472 [46:53<19:08:29,  3.23it/s] 40%|████      | 149103/371472 [46:54<18:38:01,  3.31it/s] 40%|████      | 149104/371472 [46:54<18:18:55,  3.37it/s] 40%|████      | 149105/371472 [46:54<18:26:04,  3.35it/s] 40%|████      | 149106/371472 [46:54<18:19:59,  3.37it/s] 40%|████      | 149107/371472 [46:55<17:43:29,  3.48it/s] 40%|████      | 149108/371472 [46:55<17:19:57,  3.56it/s] 40%|████      | 149109/371472 [46:55<17:17:36,  3.57it/s] 40%|████      | 149110/371472 [46:56<16:56:18,  3.65it/s] 40%|████      | 149111/371472 [46:56<17:10:28,  3.60it/s] 40%|████      | 149112/371472 [46:56<17:26:09,  3.54it/s] 40%|████      | 149113/371472 [46:56<17:08:18,  3.60it/s] 40%|████      | 149114/371472 [46:57<17:59:40,  3.43it/s] 40%|████      | 149115/371472 [46:57<17:41:45,  3.49it/s] 40%|████      | 149116/371472 [46:57<17:05:55,  3.61it/s] 40%|████      | 149117/371472 [46:58<17:15:10,  3.58it/s] 40%|████      | 149118/371472 [46:58<17:41:57,  3.49it/s] 40%|████      | 149119/371472 [46:58<17:56:12,  3.44it/s] 40%|████      | 149120/371472 [46:58<17:38:33,  3.50it/s]                                                          {'loss': 3.2082, 'learning_rate': 6.390032105841539e-07, 'epoch': 6.42}
 40%|████      | 149120/371472 [46:58<17:38:33,  3.50it/s] 40%|████      | 149121/371472 [46:59<17:11:07,  3.59it/s] 40%|████      | 149122/371472 [46:59<16:41:37,  3.70it/s] 40%|████      | 149123/371472 [46:59<16:33:52,  3.73it/s] 40%|████      | 149124/371472 [46:59<16:16:19,  3.80it/s] 40%|████      | 149125/371472 [47:00<16:18:11,  3.79it/s] 40%|████      | 149126/371472 [47:00<16:42:30,  3.70it/s] 40%|████      | 149127/371472 [47:00<16:19:45,  3.78it/s] 40%|████      | 149128/371472 [47:01<20:26:53,  3.02it/s] 40%|████      | 149129/371472 [47:01<19:19:06,  3.20it/s] 40%|████      | 149130/371472 [47:01<19:06:35,  3.23it/s] 40%|████      | 149131/371472 [47:02<18:02:59,  3.42it/s] 40%|████      | 149132/371472 [47:02<17:49:38,  3.46it/s] 40%|████      | 149133/371472 [47:02<17:34:32,  3.51it/s] 40%|████      | 149134/371472 [47:02<16:55:01,  3.65it/s] 40%|████      | 149135/371472 [47:03<17:09:57,  3.60it/s] 40%|████      | 149136/371472 [47:03<16:51:00,  3.67it/s] 40%|████      | 149137/371472 [47:03<17:14:36,  3.58it/s] 40%|████      | 149138/371472 [47:03<17:02:52,  3.62it/s] 40%|████      | 149139/371472 [47:04<18:39:01,  3.31it/s] 40%|████      | 149140/371472 [47:04<17:49:43,  3.46it/s]                                                          {'loss': 3.2092, 'learning_rate': 6.38954728608675e-07, 'epoch': 6.42}
 40%|████      | 149140/371472 [47:04<17:49:43,  3.46it/s] 40%|████      | 149141/371472 [47:04<17:34:20,  3.51it/s] 40%|████      | 149142/371472 [47:05<18:33:52,  3.33it/s] 40%|████      | 149143/371472 [47:05<18:43:04,  3.30it/s] 40%|████      | 149144/371472 [47:05<18:41:10,  3.30it/s] 40%|████      | 149145/371472 [47:06<18:14:38,  3.39it/s] 40%|████      | 149146/371472 [47:06<17:52:15,  3.46it/s] 40%|████      | 149147/371472 [47:06<17:48:00,  3.47it/s] 40%|████      | 149148/371472 [47:06<16:52:54,  3.66it/s] 40%|████      | 149149/371472 [47:07<16:55:59,  3.65it/s] 40%|████      | 149150/371472 [47:07<17:19:25,  3.56it/s] 40%|████      | 149151/371472 [47:07<18:21:09,  3.36it/s] 40%|████      | 149152/371472 [47:08<18:13:55,  3.39it/s] 40%|████      | 149153/371472 [47:08<17:17:42,  3.57it/s] 40%|████      | 149154/371472 [47:08<18:12:55,  3.39it/s] 40%|████      | 149155/371472 [47:08<18:29:22,  3.34it/s] 40%|████      | 149156/371472 [47:09<17:56:23,  3.44it/s] 40%|████      | 149157/371472 [47:09<17:07:53,  3.60it/s] 40%|████      | 149158/371472 [47:09<17:07:25,  3.61it/s] 40%|████      | 149159/371472 [47:10<18:48:57,  3.28it/s] 40%|████      | 149160/371472 [47:10<18:01:29,  3.43it/s]                                                          {'loss': 3.1983, 'learning_rate': 6.389062466331961e-07, 'epoch': 6.42}
 40%|████      | 149160/371472 [47:10<18:01:29,  3.43it/s] 40%|████      | 149161/371472 [47:10<18:53:44,  3.27it/s] 40%|████      | 149162/371472 [47:11<19:30:59,  3.16it/s] 40%|████      | 149163/371472 [47:11<19:13:22,  3.21it/s] 40%|████      | 149164/371472 [47:11<18:37:21,  3.32it/s] 40%|████      | 149165/371472 [47:11<17:36:47,  3.51it/s] 40%|████      | 149166/371472 [47:12<17:53:34,  3.45it/s] 40%|████      | 149167/371472 [47:12<17:16:40,  3.57it/s] 40%|████      | 149168/371472 [47:12<17:29:30,  3.53it/s] 40%|████      | 149169/371472 [47:13<17:08:13,  3.60it/s] 40%|████      | 149170/371472 [47:13<16:37:44,  3.71it/s] 40%|████      | 149171/371472 [47:13<17:13:19,  3.59it/s] 40%|████      | 149172/371472 [47:13<17:09:41,  3.60it/s] 40%|████      | 149173/371472 [47:14<17:17:31,  3.57it/s] 40%|████      | 149174/371472 [47:14<17:25:56,  3.54it/s] 40%|████      | 149175/371472 [47:14<17:37:34,  3.50it/s] 40%|████      | 149176/371472 [47:14<17:18:16,  3.57it/s] 40%|████      | 149177/371472 [47:15<17:30:16,  3.53it/s] 40%|████      | 149178/371472 [47:15<19:33:53,  3.16it/s] 40%|████      | 149179/371472 [47:15<18:44:00,  3.30it/s] 40%|████      | 149180/371472 [47:16<17:40:48,  3.49it/s]                                                          {'loss': 3.3277, 'learning_rate': 6.388577646577172e-07, 'epoch': 6.43}
 40%|████      | 149180/371472 [47:16<17:40:48,  3.49it/s] 40%|████      | 149181/371472 [47:16<17:09:34,  3.60it/s] 40%|████      | 149182/371472 [47:16<17:33:22,  3.52it/s] 40%|████      | 149183/371472 [47:17<19:41:55,  3.13it/s] 40%|████      | 149184/371472 [47:17<18:57:39,  3.26it/s] 40%|████      | 149185/371472 [47:17<18:27:34,  3.34it/s] 40%|████      | 149186/371472 [47:17<17:49:48,  3.46it/s] 40%|████      | 149187/371472 [47:18<18:04:25,  3.42it/s] 40%|████      | 149188/371472 [47:18<18:46:43,  3.29it/s] 40%|████      | 149189/371472 [47:18<18:08:01,  3.41it/s] 40%|████      | 149190/371472 [47:19<17:47:50,  3.47it/s] 40%|████      | 149191/371472 [47:19<17:02:13,  3.62it/s] 40%|████      | 149192/371472 [47:19<16:42:07,  3.70it/s] 40%|████      | 149193/371472 [47:19<17:01:56,  3.63it/s] 40%|████      | 149194/371472 [47:20<17:02:36,  3.62it/s] 40%|████      | 149195/371472 [47:20<17:17:07,  3.57it/s] 40%|████      | 149196/371472 [47:20<17:53:39,  3.45it/s] 40%|████      | 149197/371472 [47:21<18:03:08,  3.42it/s] 40%|████      | 149198/371472 [47:21<18:51:08,  3.28it/s] 40%|████      | 149199/371472 [47:21<17:50:19,  3.46it/s] 40%|████      | 149200/371472 [47:21<17:24:05,  3.55it/s]                                                          {'loss': 3.2131, 'learning_rate': 6.388092826822382e-07, 'epoch': 6.43}
 40%|████      | 149200/371472 [47:21<17:24:05,  3.55it/s] 40%|████      | 149201/371472 [47:22<17:26:44,  3.54it/s] 40%|████      | 149202/371472 [47:22<17:10:19,  3.60it/s] 40%|████      | 149203/371472 [47:22<17:04:06,  3.62it/s] 40%|████      | 149204/371472 [47:23<17:15:13,  3.58it/s] 40%|████      | 149205/371472 [47:23<18:27:21,  3.35it/s] 40%|████      | 149206/371472 [47:23<18:27:52,  3.34it/s] 40%|████      | 149207/371472 [47:24<17:57:14,  3.44it/s] 40%|████      | 149208/371472 [47:24<19:23:29,  3.18it/s] 40%|████      | 149209/371472 [47:24<19:47:03,  3.12it/s] 40%|████      | 149210/371472 [47:24<18:52:50,  3.27it/s] 40%|████      | 149211/371472 [47:25<18:38:44,  3.31it/s] 40%|████      | 149212/371472 [47:25<18:00:11,  3.43it/s] 40%|████      | 149213/371472 [47:25<17:47:34,  3.47it/s] 40%|████      | 149214/371472 [47:26<17:43:49,  3.48it/s] 40%|████      | 149215/371472 [47:26<18:00:55,  3.43it/s] 40%|████      | 149216/371472 [47:26<18:25:27,  3.35it/s] 40%|████      | 149217/371472 [47:26<17:57:06,  3.44it/s] 40%|████      | 149218/371472 [47:27<18:07:43,  3.41it/s] 40%|████      | 149219/371472 [47:27<18:14:47,  3.38it/s] 40%|████      | 149220/371472 [47:27<17:39:04,  3.50it/s]                                                          {'loss': 3.1703, 'learning_rate': 6.387608007067594e-07, 'epoch': 6.43}
 40%|████      | 149220/371472 [47:27<17:39:04,  3.50it/s] 40%|████      | 149221/371472 [47:28<18:02:08,  3.42it/s] 40%|████      | 149222/371472 [47:28<17:18:22,  3.57it/s] 40%|████      | 149223/371472 [47:28<16:57:40,  3.64it/s] 40%|████      | 149224/371472 [47:28<16:34:31,  3.72it/s] 40%|████      | 149225/371472 [47:29<16:08:02,  3.83it/s] 40%|████      | 149226/371472 [47:29<16:53:39,  3.65it/s] 40%|████      | 149227/371472 [47:29<16:44:13,  3.69it/s] 40%|████      | 149228/371472 [47:30<17:05:59,  3.61it/s] 40%|████      | 149229/371472 [47:30<17:16:14,  3.57it/s] 40%|████      | 149230/371472 [47:30<16:46:22,  3.68it/s] 40%|████      | 149231/371472 [47:30<16:47:22,  3.68it/s] 40%|████      | 149232/371472 [47:31<16:42:46,  3.69it/s] 40%|████      | 149233/371472 [47:31<16:48:41,  3.67it/s] 40%|████      | 149234/371472 [47:31<16:35:59,  3.72it/s] 40%|████      | 149235/371472 [47:31<16:51:26,  3.66it/s] 40%|████      | 149236/371472 [47:32<16:48:30,  3.67it/s] 40%|████      | 149237/371472 [47:32<17:16:47,  3.57it/s] 40%|████      | 149238/371472 [47:32<16:41:22,  3.70it/s] 40%|████      | 149239/371472 [47:33<16:48:32,  3.67it/s] 40%|████      | 149240/371472 [47:33<16:41:53,  3.70it/s]                                                          {'loss': 3.2878, 'learning_rate': 6.387123187312806e-07, 'epoch': 6.43}
 40%|████      | 149240/371472 [47:33<16:41:53,  3.70it/s] 40%|████      | 149241/371472 [47:33<17:37:04,  3.50it/s] 40%|████      | 149242/371472 [47:33<17:13:52,  3.58it/s] 40%|████      | 149243/371472 [47:34<16:57:20,  3.64it/s] 40%|████      | 149244/371472 [47:34<16:44:16,  3.69it/s] 40%|████      | 149245/371472 [47:34<16:35:13,  3.72it/s] 40%|████      | 149246/371472 [47:34<16:37:41,  3.71it/s] 40%|████      | 149247/371472 [47:35<17:46:23,  3.47it/s] 40%|████      | 149248/371472 [47:35<17:03:01,  3.62it/s] 40%|████      | 149249/371472 [47:35<18:00:10,  3.43it/s] 40%|████      | 149250/371472 [47:36<19:15:18,  3.21it/s] 40%|████      | 149251/371472 [47:36<18:14:38,  3.38it/s] 40%|████      | 149252/371472 [47:36<17:54:52,  3.45it/s] 40%|████      | 149253/371472 [47:36<17:07:25,  3.60it/s] 40%|████      | 149254/371472 [47:37<17:23:41,  3.55it/s] 40%|████      | 149255/371472 [47:37<19:05:14,  3.23it/s] 40%|████      | 149256/371472 [47:37<18:05:36,  3.41it/s] 40%|████      | 149257/371472 [47:38<17:33:04,  3.52it/s] 40%|████      | 149258/371472 [47:38<16:58:33,  3.64it/s] 40%|████      | 149259/371472 [47:38<17:01:29,  3.63it/s] 40%|████      | 149260/371472 [47:38<17:11:12,  3.59it/s]                                                          {'loss': 3.4089, 'learning_rate': 6.386638367558016e-07, 'epoch': 6.43}
 40%|████      | 149260/371472 [47:38<17:11:12,  3.59it/s] 40%|████      | 149261/371472 [47:39<18:13:35,  3.39it/s] 40%|████      | 149262/371472 [47:39<17:54:32,  3.45it/s] 40%|████      | 149263/371472 [47:39<17:25:27,  3.54it/s] 40%|████      | 149264/371472 [47:40<17:38:46,  3.50it/s] 40%|████      | 149265/371472 [47:40<18:03:47,  3.42it/s] 40%|████      | 149266/371472 [47:40<19:52:06,  3.11it/s] 40%|████      | 149267/371472 [47:41<19:22:12,  3.19it/s] 40%|████      | 149268/371472 [47:41<19:41:33,  3.13it/s] 40%|████      | 149269/371472 [47:41<20:17:29,  3.04it/s] 40%|████      | 149270/371472 [47:42<19:18:43,  3.20it/s] 40%|████      | 149271/371472 [47:42<18:37:15,  3.31it/s] 40%|████      | 149272/371472 [47:42<18:38:04,  3.31it/s] 40%|████      | 149273/371472 [47:43<19:01:06,  3.25it/s] 40%|████      | 149274/371472 [47:43<18:17:12,  3.38it/s] 40%|████      | 149275/371472 [47:43<18:15:04,  3.38it/s] 40%|████      | 149276/371472 [47:43<17:47:19,  3.47it/s] 40%|████      | 149277/371472 [47:44<17:12:34,  3.59it/s] 40%|████      | 149278/371472 [47:44<16:53:12,  3.65it/s] 40%|████      | 149279/371472 [47:44<16:56:23,  3.64it/s] 40%|████      | 149280/371472 [47:44<18:30:09,  3.34it/s]                                                          {'loss': 3.2526, 'learning_rate': 6.386153547803227e-07, 'epoch': 6.43}
 40%|████      | 149280/371472 [47:45<18:30:09,  3.34it/s] 40%|████      | 149281/371472 [47:45<19:32:19,  3.16it/s] 40%|████      | 149282/371472 [47:45<18:45:58,  3.29it/s] 40%|████      | 149283/371472 [47:45<18:24:54,  3.35it/s] 40%|████      | 149284/371472 [47:46<18:15:41,  3.38it/s] 40%|████      | 149285/371472 [47:46<23:27:28,  2.63it/s] 40%|████      | 149286/371472 [47:47<21:41:49,  2.84it/s] 40%|████      | 149287/371472 [47:47<20:11:41,  3.06it/s] 40%|████      | 149288/371472 [47:47<19:07:34,  3.23it/s] 40%|████      | 149289/371472 [47:47<19:17:47,  3.20it/s] 40%|████      | 149290/371472 [47:48<19:05:39,  3.23it/s] 40%|████      | 149291/371472 [47:48<18:14:25,  3.38it/s] 40%|████      | 149292/371472 [47:48<17:50:36,  3.46it/s] 40%|████      | 149293/371472 [47:49<17:32:52,  3.52it/s] 40%|████      | 149294/371472 [47:49<17:41:58,  3.49it/s] 40%|████      | 149295/371472 [47:49<17:19:13,  3.56it/s] 40%|████      | 149296/371472 [47:50<21:11:32,  2.91it/s] 40%|████      | 149297/371472 [47:50<20:39:19,  2.99it/s] 40%|████      | 149298/371472 [47:50<18:58:39,  3.25it/s] 40%|████      | 149299/371472 [47:50<18:03:21,  3.42it/s] 40%|████      | 149300/371472 [47:51<17:08:54,  3.60it/s]                                                          {'loss': 3.1884, 'learning_rate': 6.385668728048438e-07, 'epoch': 6.43}
 40%|████      | 149300/371472 [47:51<17:08:54,  3.60it/s] 40%|████      | 149301/371472 [47:51<16:42:03,  3.70it/s] 40%|████      | 149302/371472 [47:51<17:42:58,  3.48it/s] 40%|████      | 149303/371472 [47:52<19:25:02,  3.18it/s] 40%|████      | 149304/371472 [47:52<19:58:00,  3.09it/s] 40%|████      | 149305/371472 [47:52<19:20:07,  3.19it/s] 40%|████      | 149306/371472 [47:53<19:54:09,  3.10it/s] 40%|████      | 149307/371472 [47:53<19:52:14,  3.11it/s] 40%|████      | 149308/371472 [47:53<19:41:18,  3.13it/s] 40%|████      | 149309/371472 [47:54<19:13:42,  3.21it/s] 40%|████      | 149310/371472 [47:54<18:30:52,  3.33it/s] 40%|████      | 149311/371472 [47:54<18:00:17,  3.43it/s] 40%|████      | 149312/371472 [47:54<17:54:11,  3.45it/s] 40%|████      | 149313/371472 [47:55<17:03:46,  3.62it/s] 40%|████      | 149314/371472 [47:55<17:38:29,  3.50it/s] 40%|████      | 149315/371472 [47:55<17:34:00,  3.51it/s] 40%|████      | 149316/371472 [47:55<17:45:43,  3.47it/s] 40%|████      | 149317/371472 [47:56<18:02:12,  3.42it/s] 40%|████      | 149318/371472 [47:56<19:32:38,  3.16it/s] 40%|████      | 149319/371472 [47:56<19:16:51,  3.20it/s] 40%|████      | 149320/371472 [47:57<18:43:31,  3.30it/s]                                                          {'loss': 3.0968, 'learning_rate': 6.38518390829365e-07, 'epoch': 6.43}
 40%|████      | 149320/371472 [47:57<18:43:31,  3.30it/s] 40%|████      | 149321/371472 [47:57<18:56:14,  3.26it/s] 40%|████      | 149322/371472 [47:57<18:36:09,  3.32it/s] 40%|████      | 149323/371472 [47:58<18:06:01,  3.41it/s] 40%|████      | 149324/371472 [47:58<17:52:24,  3.45it/s] 40%|████      | 149325/371472 [47:58<18:04:47,  3.41it/s] 40%|████      | 149326/371472 [47:58<17:43:41,  3.48it/s] 40%|████      | 149327/371472 [47:59<17:30:41,  3.52it/s] 40%|████      | 149328/371472 [47:59<17:35:25,  3.51it/s] 40%|████      | 149329/371472 [47:59<17:05:13,  3.61it/s] 40%|████      | 149330/371472 [48:00<16:45:47,  3.68it/s] 40%|████      | 149331/371472 [48:00<16:31:13,  3.74it/s] 40%|████      | 149332/371472 [48:00<17:03:12,  3.62it/s] 40%|████      | 149333/371472 [48:00<16:42:22,  3.69it/s] 40%|████      | 149334/371472 [48:01<16:37:55,  3.71it/s] 40%|████      | 149335/371472 [48:01<17:45:32,  3.47it/s] 40%|████      | 149336/371472 [48:01<18:19:35,  3.37it/s] 40%|████      | 149337/371472 [48:02<18:03:08,  3.42it/s] 40%|████      | 149338/371472 [48:02<17:54:45,  3.44it/s] 40%|████      | 149339/371472 [48:02<17:51:02,  3.46it/s] 40%|████      | 149340/371472 [48:02<17:24:22,  3.54it/s]                                                          {'loss': 3.3735, 'learning_rate': 6.384699088538861e-07, 'epoch': 6.43}
 40%|████      | 149340/371472 [48:02<17:24:22,  3.54it/s] 40%|████      | 149341/371472 [48:03<18:32:43,  3.33it/s] 40%|████      | 149342/371472 [48:03<17:54:01,  3.45it/s] 40%|████      | 149343/371472 [48:03<18:41:02,  3.30it/s] 40%|████      | 149344/371472 [48:04<17:41:27,  3.49it/s] 40%|████      | 149345/371472 [48:04<18:40:32,  3.30it/s] 40%|████      | 149346/371472 [48:04<17:52:57,  3.45it/s] 40%|████      | 149347/371472 [48:04<17:08:52,  3.60it/s] 40%|████      | 149348/371472 [48:05<16:27:40,  3.75it/s] 40%|████      | 149349/371472 [48:05<16:18:22,  3.78it/s] 40%|████      | 149350/371472 [48:05<17:07:04,  3.60it/s] 40%|████      | 149351/371472 [48:06<16:59:08,  3.63it/s] 40%|████      | 149352/371472 [48:06<17:28:06,  3.53it/s] 40%|████      | 149353/371472 [48:06<17:03:55,  3.62it/s] 40%|████      | 149354/371472 [48:06<16:57:26,  3.64it/s] 40%|████      | 149355/371472 [48:07<16:45:25,  3.68it/s] 40%|████      | 149356/371472 [48:07<16:56:07,  3.64it/s] 40%|████      | 149357/371472 [48:07<16:39:04,  3.71it/s] 40%|████      | 149358/371472 [48:07<16:22:11,  3.77it/s] 40%|████      | 149359/371472 [48:08<16:18:45,  3.78it/s] 40%|████      | 149360/371472 [48:08<16:39:20,  3.70it/s]                                                          {'loss': 3.3797, 'learning_rate': 6.384214268784072e-07, 'epoch': 6.43}
 40%|████      | 149360/371472 [48:08<16:39:20,  3.70it/s] 40%|████      | 149361/371472 [48:08<17:35:36,  3.51it/s] 40%|████      | 149362/371472 [48:09<17:36:17,  3.50it/s] 40%|████      | 149363/371472 [48:09<16:51:44,  3.66it/s] 40%|████      | 149364/371472 [48:09<16:39:20,  3.70it/s] 40%|████      | 149365/371472 [48:09<16:06:38,  3.83it/s] 40%|████      | 149366/371472 [48:10<16:18:45,  3.78it/s] 40%|████      | 149367/371472 [48:10<20:19:33,  3.04it/s] 40%|████      | 149368/371472 [48:10<19:21:02,  3.19it/s] 40%|████      | 149369/371472 [48:11<18:33:10,  3.33it/s] 40%|████      | 149370/371472 [48:11<18:24:38,  3.35it/s] 40%|████      | 149371/371472 [48:11<17:51:14,  3.46it/s] 40%|████      | 149372/371472 [48:12<18:47:21,  3.28it/s] 40%|████      | 149373/371472 [48:12<19:24:28,  3.18it/s] 40%|████      | 149374/371472 [48:12<18:14:20,  3.38it/s] 40%|████      | 149375/371472 [48:12<17:27:23,  3.53it/s] 40%|████      | 149376/371472 [48:13<17:45:57,  3.47it/s] 40%|████      | 149377/371472 [48:13<17:48:29,  3.46it/s] 40%|████      | 149378/371472 [48:13<17:40:51,  3.49it/s] 40%|████      | 149379/371472 [48:14<17:43:59,  3.48it/s] 40%|████      | 149380/371472 [48:14<17:08:11,  3.60it/s]                                                          {'loss': 3.1997, 'learning_rate': 6.383729449029282e-07, 'epoch': 6.43}
 40%|████      | 149380/371472 [48:14<17:08:11,  3.60it/s] 40%|████      | 149381/371472 [48:14<17:24:20,  3.54it/s] 40%|████      | 149382/371472 [48:14<18:01:17,  3.42it/s] 40%|████      | 149383/371472 [48:15<17:27:19,  3.53it/s] 40%|████      | 149384/371472 [48:15<17:09:35,  3.60it/s] 40%|████      | 149385/371472 [48:15<17:05:38,  3.61it/s] 40%|████      | 149386/371472 [48:15<16:56:52,  3.64it/s] 40%|████      | 149387/371472 [48:16<18:43:50,  3.29it/s] 40%|████      | 149388/371472 [48:16<18:17:00,  3.37it/s] 40%|████      | 149389/371472 [48:16<18:57:24,  3.25it/s] 40%|████      | 149390/371472 [48:17<18:31:39,  3.33it/s] 40%|████      | 149391/371472 [48:17<17:41:21,  3.49it/s] 40%|████      | 149392/371472 [48:17<17:26:55,  3.54it/s] 40%|████      | 149393/371472 [48:18<17:07:05,  3.60it/s] 40%|████      | 149394/371472 [48:18<17:16:40,  3.57it/s] 40%|████      | 149395/371472 [48:18<16:52:03,  3.66it/s] 40%|████      | 149396/371472 [48:18<17:50:12,  3.46it/s] 40%|████      | 149397/371472 [48:19<17:21:22,  3.55it/s] 40%|████      | 149398/371472 [48:19<16:50:08,  3.66it/s] 40%|████      | 149399/371472 [48:19<16:22:47,  3.77it/s] 40%|████      | 149400/371472 [48:19<15:54:55,  3.88it/s]                                                          {'loss': 3.2977, 'learning_rate': 6.383244629274494e-07, 'epoch': 6.43}
 40%|████      | 149400/371472 [48:19<15:54:55,  3.88it/s] 40%|████      | 149401/371472 [48:20<16:52:08,  3.66it/s] 40%|████      | 149402/371472 [48:20<16:34:25,  3.72it/s] 40%|████      | 149403/371472 [48:20<17:34:10,  3.51it/s] 40%|████      | 149404/371472 [48:21<17:08:17,  3.60it/s] 40%|████      | 149405/371472 [48:21<18:13:22,  3.39it/s] 40%|████      | 149406/371472 [48:21<17:51:56,  3.45it/s] 40%|████      | 149407/371472 [48:21<18:28:50,  3.34it/s] 40%|████      | 149408/371472 [48:22<19:11:31,  3.21it/s] 40%|████      | 149409/371472 [48:22<18:20:06,  3.36it/s] 40%|████      | 149410/371472 [48:22<17:24:59,  3.54it/s] 40%|████      | 149411/371472 [48:23<17:18:21,  3.56it/s] 40%|████      | 149412/371472 [48:23<17:19:45,  3.56it/s] 40%|████      | 149413/371472 [48:23<18:39:46,  3.31it/s] 40%|████      | 149414/371472 [48:24<18:17:04,  3.37it/s] 40%|████      | 149415/371472 [48:24<17:44:02,  3.48it/s] 40%|████      | 149416/371472 [48:24<17:15:45,  3.57it/s] 40%|████      | 149417/371472 [48:24<18:11:14,  3.39it/s] 40%|████      | 149418/371472 [48:25<17:49:27,  3.46it/s] 40%|████      | 149419/371472 [48:25<18:43:46,  3.29it/s] 40%|████      | 149420/371472 [48:25<18:27:32,  3.34it/s]                                                          {'loss': 3.0001, 'learning_rate': 6.382759809519705e-07, 'epoch': 6.44}
 40%|████      | 149420/371472 [48:25<18:27:32,  3.34it/s] 40%|████      | 149421/371472 [48:26<18:22:11,  3.36it/s] 40%|████      | 149422/371472 [48:26<17:53:39,  3.45it/s] 40%|████      | 149423/371472 [48:26<17:29:50,  3.53it/s] 40%|████      | 149424/371472 [48:26<17:41:04,  3.49it/s] 40%|████      | 149425/371472 [48:27<18:30:41,  3.33it/s] 40%|████      | 149426/371472 [48:27<19:06:04,  3.23it/s] 40%|████      | 149427/371472 [48:27<18:10:42,  3.39it/s] 40%|████      | 149428/371472 [48:28<17:46:57,  3.47it/s] 40%|████      | 149429/371472 [48:28<17:20:58,  3.56it/s] 40%|████      | 149430/371472 [48:28<17:42:02,  3.48it/s] 40%|████      | 149431/371472 [48:28<17:19:33,  3.56it/s] 40%|████      | 149432/371472 [48:29<17:46:35,  3.47it/s] 40%|████      | 149433/371472 [48:29<17:36:39,  3.50it/s] 40%|████      | 149434/371472 [48:29<17:43:28,  3.48it/s] 40%|████      | 149435/371472 [48:30<17:25:57,  3.54it/s] 40%|████      | 149436/371472 [48:30<17:19:49,  3.56it/s] 40%|████      | 149437/371472 [48:30<17:53:55,  3.45it/s] 40%|████      | 149438/371472 [48:30<17:09:03,  3.60it/s] 40%|████      | 149439/371472 [48:31<16:29:58,  3.74it/s] 40%|████      | 149440/371472 [48:31<16:16:46,  3.79it/s]                                                          {'loss': 3.3016, 'learning_rate': 6.382274989764916e-07, 'epoch': 6.44}
 40%|████      | 149440/371472 [48:31<16:16:46,  3.79it/s] 40%|████      | 149441/371472 [48:31<16:43:06,  3.69it/s] 40%|████      | 149442/371472 [48:31<16:38:54,  3.70it/s] 40%|████      | 149443/371472 [48:32<16:41:48,  3.69it/s] 40%|████      | 149444/371472 [48:32<17:18:38,  3.56it/s] 40%|████      | 149445/371472 [48:32<16:58:31,  3.63it/s] 40%|████      | 149446/371472 [48:33<17:06:06,  3.61it/s] 40%|████      | 149447/371472 [48:33<18:31:38,  3.33it/s] 40%|████      | 149448/371472 [48:33<18:07:15,  3.40it/s] 40%|████      | 149449/371472 [48:33<17:37:48,  3.50it/s] 40%|████      | 149450/371472 [48:34<16:43:13,  3.69it/s] 40%|████      | 149451/371472 [48:34<16:52:05,  3.66it/s] 40%|████      | 149452/371472 [48:34<16:52:52,  3.65it/s] 40%|████      | 149453/371472 [48:35<17:57:13,  3.44it/s] 40%|████      | 149454/371472 [48:35<17:40:30,  3.49it/s] 40%|████      | 149455/371472 [48:35<17:24:45,  3.54it/s] 40%|████      | 149456/371472 [48:35<17:09:34,  3.59it/s] 40%|████      | 149457/371472 [48:36<17:02:29,  3.62it/s] 40%|████      | 149458/371472 [48:36<17:16:05,  3.57it/s] 40%|████      | 149459/371472 [48:36<17:13:50,  3.58it/s] 40%|████      | 149460/371472 [48:37<18:16:19,  3.38it/s]                                                          {'loss': 3.2846, 'learning_rate': 6.381790170010127e-07, 'epoch': 6.44}
 40%|████      | 149460/371472 [48:37<18:16:19,  3.38it/s] 40%|████      | 149461/371472 [48:37<18:14:41,  3.38it/s] 40%|████      | 149462/371472 [48:37<17:39:59,  3.49it/s] 40%|████      | 149463/371472 [48:37<17:57:15,  3.43it/s] 40%|████      | 149464/371472 [48:38<17:53:31,  3.45it/s] 40%|████      | 149465/371472 [48:38<17:09:44,  3.59it/s] 40%|████      | 149466/371472 [48:38<17:10:07,  3.59it/s] 40%|████      | 149467/371472 [48:39<17:10:08,  3.59it/s] 40%|████      | 149468/371472 [48:39<16:58:36,  3.63it/s] 40%|████      | 149469/371472 [48:39<16:46:40,  3.68it/s] 40%|████      | 149470/371472 [48:39<17:06:32,  3.60it/s] 40%|████      | 149471/371472 [48:40<17:00:58,  3.62it/s] 40%|████      | 149472/371472 [48:40<16:40:19,  3.70it/s] 40%|████      | 149473/371472 [48:40<16:19:46,  3.78it/s] 40%|████      | 149474/371472 [48:40<16:54:10,  3.65it/s] 40%|████      | 149475/371472 [48:41<16:44:32,  3.68it/s] 40%|████      | 149476/371472 [48:41<16:54:12,  3.65it/s] 40%|████      | 149477/371472 [48:41<16:43:22,  3.69it/s] 40%|████      | 149478/371472 [48:42<16:17:35,  3.78it/s] 40%|████      | 149479/371472 [48:42<16:42:55,  3.69it/s] 40%|████      | 149480/371472 [48:42<17:44:47,  3.47it/s]                                                          {'loss': 3.1817, 'learning_rate': 6.381305350255339e-07, 'epoch': 6.44}
 40%|████      | 149480/371472 [48:42<17:44:47,  3.47it/s] 40%|████      | 149481/371472 [48:42<17:03:58,  3.61it/s] 40%|████      | 149482/371472 [48:43<16:58:54,  3.63it/s] 40%|████      | 149483/371472 [48:43<17:13:59,  3.58it/s] 40%|████      | 149484/371472 [48:43<16:39:04,  3.70it/s] 40%|████      | 149485/371472 [48:44<17:33:39,  3.51it/s] 40%|████      | 149486/371472 [48:44<19:32:21,  3.16it/s] 40%|████      | 149487/371472 [48:44<19:19:58,  3.19it/s] 40%|████      | 149488/371472 [48:45<19:21:27,  3.19it/s] 40%|████      | 149489/371472 [48:45<18:41:25,  3.30it/s] 40%|████      | 149490/371472 [48:45<18:04:41,  3.41it/s] 40%|████      | 149491/371472 [48:45<17:18:07,  3.56it/s] 40%|████      | 149492/371472 [48:46<17:21:30,  3.55it/s] 40%|████      | 149493/371472 [48:46<17:09:04,  3.60it/s] 40%|████      | 149494/371472 [48:46<16:29:17,  3.74it/s] 40%|████      | 149495/371472 [48:46<15:55:06,  3.87it/s] 40%|████      | 149496/371472 [48:47<15:46:09,  3.91it/s] 40%|████      | 149497/371472 [48:47<16:14:32,  3.80it/s] 40%|████      | 149498/371472 [48:47<16:38:36,  3.70it/s] 40%|████      | 149499/371472 [48:47<16:23:18,  3.76it/s] 40%|████      | 149500/371472 [48:48<16:28:43,  3.74it/s]                                                          {'loss': 3.4594, 'learning_rate': 6.380820530500549e-07, 'epoch': 6.44}
 40%|████      | 149500/371472 [48:48<16:28:43,  3.74it/s] 40%|████      | 149501/371472 [48:48<17:50:51,  3.45it/s] 40%|████      | 149502/371472 [48:48<19:21:07,  3.19it/s] 40%|████      | 149503/371472 [48:49<18:11:43,  3.39it/s] 40%|████      | 149504/371472 [48:49<18:07:40,  3.40it/s] 40%|████      | 149505/371472 [48:49<17:17:16,  3.57it/s] 40%|████      | 149506/371472 [48:49<17:11:59,  3.58it/s] 40%|████      | 149507/371472 [48:50<17:17:28,  3.57it/s] 40%|████      | 149508/371472 [48:50<16:47:48,  3.67it/s] 40%|████      | 149509/371472 [48:50<16:39:16,  3.70it/s] 40%|████      | 149510/371472 [48:51<17:36:09,  3.50it/s] 40%|████      | 149511/371472 [48:51<18:16:53,  3.37it/s] 40%|████      | 149512/371472 [48:51<17:41:41,  3.48it/s] 40%|████      | 149513/371472 [48:51<17:19:49,  3.56it/s] 40%|████      | 149514/371472 [48:52<17:32:17,  3.52it/s] 40%|████      | 149515/371472 [48:52<17:33:12,  3.51it/s] 40%|████      | 149516/371472 [48:52<17:26:27,  3.54it/s] 40%|████      | 149517/371472 [48:53<16:58:22,  3.63it/s] 40%|████      | 149518/371472 [48:53<16:49:20,  3.66it/s] 40%|████      | 149519/371472 [48:53<18:55:12,  3.26it/s] 40%|████      | 149520/371472 [48:54<20:59:11,  2.94it/s]                                                          {'loss': 3.1614, 'learning_rate': 6.380335710745759e-07, 'epoch': 6.44}
 40%|████      | 149520/371472 [48:54<20:59:11,  2.94it/s] 40%|████      | 149521/371472 [48:54<19:33:04,  3.15it/s] 40%|████      | 149522/371472 [48:54<19:54:33,  3.10it/s] 40%|████      | 149523/371472 [48:55<19:58:33,  3.09it/s] 40%|████      | 149524/371472 [48:55<19:53:51,  3.10it/s] 40%|████      | 149525/371472 [48:55<18:55:17,  3.26it/s] 40%|████      | 149526/371472 [48:55<17:48:18,  3.46it/s] 40%|████      | 149527/371472 [48:56<18:44:45,  3.29it/s] 40%|████      | 149528/371472 [48:56<17:43:49,  3.48it/s] 40%|████      | 149529/371472 [48:56<17:32:43,  3.51it/s] 40%|████      | 149530/371472 [48:57<17:16:21,  3.57it/s] 40%|████      | 149531/371472 [48:57<17:56:15,  3.44it/s] 40%|████      | 149532/371472 [48:57<17:32:51,  3.51it/s] 40%|████      | 149533/371472 [48:57<16:50:50,  3.66it/s] 40%|████      | 149534/371472 [48:58<17:50:51,  3.45it/s] 40%|████      | 149535/371472 [48:58<17:33:12,  3.51it/s] 40%|████      | 149536/371472 [48:58<16:55:23,  3.64it/s] 40%|████      | 149537/371472 [48:58<16:51:53,  3.66it/s] 40%|████      | 149538/371472 [48:59<17:00:24,  3.62it/s] 40%|████      | 149539/371472 [48:59<18:19:10,  3.37it/s] 40%|████      | 149540/371472 [48:59<18:16:09,  3.37it/s]                                                          {'loss': 3.1916, 'learning_rate': 6.379850890990971e-07, 'epoch': 6.44}
 40%|████      | 149540/371472 [48:59<18:16:09,  3.37it/s] 40%|████      | 149541/371472 [49:00<17:46:30,  3.47it/s] 40%|████      | 149542/371472 [49:00<19:21:57,  3.18it/s] 40%|████      | 149543/371472 [49:00<19:10:34,  3.21it/s] 40%|████      | 149544/371472 [49:01<19:02:31,  3.24it/s] 40%|████      | 149545/371472 [49:01<18:04:00,  3.41it/s] 40%|████      | 149546/371472 [49:01<17:37:25,  3.50it/s] 40%|████      | 149547/371472 [49:02<18:41:50,  3.30it/s] 40%|████      | 149548/371472 [49:02<18:15:41,  3.38it/s] 40%|████      | 149549/371472 [49:02<18:09:03,  3.40it/s] 40%|████      | 149550/371472 [49:03<20:26:45,  3.02it/s] 40%|████      | 149551/371472 [49:03<19:25:53,  3.17it/s] 40%|████      | 149552/371472 [49:03<18:10:40,  3.39it/s] 40%|████      | 149553/371472 [49:03<17:58:45,  3.43it/s] 40%|████      | 149554/371472 [49:04<18:34:24,  3.32it/s] 40%|████      | 149555/371472 [49:04<18:11:05,  3.39it/s] 40%|████      | 149556/371472 [49:04<18:39:38,  3.30it/s] 40%|████      | 149557/371472 [49:05<18:28:04,  3.34it/s] 40%|████      | 149558/371472 [49:05<18:31:50,  3.33it/s] 40%|████      | 149559/371472 [49:05<18:56:05,  3.26it/s] 40%|████      | 149560/371472 [49:05<18:14:55,  3.38it/s]                                                          {'loss': 3.3367, 'learning_rate': 6.379366071236183e-07, 'epoch': 6.44}
 40%|████      | 149560/371472 [49:05<18:14:55,  3.38it/s] 40%|████      | 149561/371472 [49:06<18:10:47,  3.39it/s] 40%|████      | 149562/371472 [49:06<17:12:34,  3.58it/s] 40%|████      | 149563/371472 [49:06<17:21:36,  3.55it/s] 40%|████      | 149564/371472 [49:07<17:24:26,  3.54it/s] 40%|████      | 149565/371472 [49:07<17:22:47,  3.55it/s] 40%|████      | 149566/371472 [49:07<16:47:30,  3.67it/s] 40%|████      | 149567/371472 [49:07<18:46:34,  3.28it/s] 40%|████      | 149568/371472 [49:08<17:57:06,  3.43it/s] 40%|████      | 149569/371472 [49:08<17:44:45,  3.47it/s] 40%|████      | 149570/371472 [49:08<18:45:57,  3.28it/s] 40%|████      | 149571/371472 [49:09<18:51:23,  3.27it/s] 40%|████      | 149572/371472 [49:09<17:49:07,  3.46it/s] 40%|████      | 149573/371472 [49:09<17:58:26,  3.43it/s] 40%|████      | 149574/371472 [49:09<17:19:42,  3.56it/s] 40%|████      | 149575/371472 [49:10<17:34:44,  3.51it/s] 40%|████      | 149576/371472 [49:10<18:25:12,  3.35it/s] 40%|████      | 149577/371472 [49:10<20:06:50,  3.06it/s] 40%|████      | 149578/371472 [49:11<20:10:50,  3.05it/s] 40%|████      | 149579/371472 [49:11<18:55:56,  3.26it/s] 40%|████      | 149580/371472 [49:11<18:14:14,  3.38it/s]                                                          {'loss': 3.072, 'learning_rate': 6.378881251481394e-07, 'epoch': 6.44}
 40%|████      | 149580/371472 [49:11<18:14:14,  3.38it/s] 40%|████      | 149581/371472 [49:12<17:46:50,  3.47it/s] 40%|████      | 149582/371472 [49:12<17:38:15,  3.49it/s] 40%|████      | 149583/371472 [49:12<17:01:16,  3.62it/s] 40%|████      | 149584/371472 [49:12<16:45:42,  3.68it/s] 40%|████      | 149585/371472 [49:13<16:33:57,  3.72it/s] 40%|████      | 149586/371472 [49:13<16:47:46,  3.67it/s] 40%|████      | 149587/371472 [49:13<16:30:31,  3.73it/s] 40%|████      | 149588/371472 [49:13<16:27:08,  3.75it/s] 40%|████      | 149589/371472 [49:14<15:57:08,  3.86it/s] 40%|████      | 149590/371472 [49:14<15:36:50,  3.95it/s] 40%|████      | 149591/371472 [49:14<16:17:00,  3.79it/s] 40%|████      | 149592/371472 [49:15<16:35:54,  3.71it/s] 40%|████      | 149593/371472 [49:15<16:53:21,  3.65it/s] 40%|████      | 149594/371472 [49:15<16:46:00,  3.68it/s] 40%|████      | 149595/371472 [49:15<16:10:19,  3.81it/s] 40%|████      | 149596/371472 [49:16<16:19:23,  3.78it/s] 40%|████      | 149597/371472 [49:16<18:30:17,  3.33it/s] 40%|████      | 149598/371472 [49:16<17:46:32,  3.47it/s] 40%|████      | 149599/371472 [49:17<17:35:14,  3.50it/s] 40%|████      | 149600/371472 [49:17<17:39:39,  3.49it/s]                                                          {'loss': 3.2984, 'learning_rate': 6.378396431726604e-07, 'epoch': 6.44}
 40%|████      | 149600/371472 [49:17<17:39:39,  3.49it/s] 40%|████      | 149601/371472 [49:17<16:58:51,  3.63it/s] 40%|████      | 149602/371472 [49:17<16:43:43,  3.68it/s] 40%|████      | 149603/371472 [49:18<16:18:25,  3.78it/s] 40%|████      | 149604/371472 [49:18<16:11:39,  3.81it/s] 40%|████      | 149605/371472 [49:18<16:45:56,  3.68it/s] 40%|████      | 149606/371472 [49:18<16:25:24,  3.75it/s] 40%|████      | 149607/371472 [49:19<17:14:27,  3.57it/s] 40%|████      | 149608/371472 [49:19<16:46:52,  3.67it/s] 40%|████      | 149609/371472 [49:19<16:41:35,  3.69it/s] 40%|████      | 149610/371472 [49:19<16:36:07,  3.71it/s] 40%|████      | 149611/371472 [49:20<17:51:11,  3.45it/s] 40%|████      | 149612/371472 [49:20<17:07:26,  3.60it/s] 40%|████      | 149613/371472 [49:20<17:26:10,  3.53it/s] 40%|████      | 149614/371472 [49:21<18:30:48,  3.33it/s] 40%|████      | 149615/371472 [49:21<18:19:33,  3.36it/s] 40%|████      | 149616/371472 [49:21<17:42:15,  3.48it/s] 40%|████      | 149617/371472 [49:21<17:02:15,  3.62it/s] 40%|████      | 149618/371472 [49:22<17:04:28,  3.61it/s] 40%|████      | 149619/371472 [49:22<17:50:47,  3.45it/s] 40%|████      | 149620/371472 [49:22<17:13:42,  3.58it/s]                                                          {'loss': 3.3188, 'learning_rate': 6.377911611971816e-07, 'epoch': 6.44}
 40%|████      | 149620/371472 [49:22<17:13:42,  3.58it/s] 40%|████      | 149621/371472 [49:23<16:50:23,  3.66it/s] 40%|████      | 149622/371472 [49:23<19:09:16,  3.22it/s] 40%|████      | 149623/371472 [49:23<17:48:05,  3.46it/s] 40%|████      | 149624/371472 [49:24<17:39:24,  3.49it/s] 40%|████      | 149625/371472 [49:24<17:32:45,  3.51it/s] 40%|████      | 149626/371472 [49:24<17:57:49,  3.43it/s] 40%|████      | 149627/371472 [49:24<17:35:16,  3.50it/s] 40%|████      | 149628/371472 [49:25<17:40:23,  3.49it/s] 40%|████      | 149629/371472 [49:25<17:47:57,  3.46it/s] 40%|████      | 149630/371472 [49:25<18:24:34,  3.35it/s] 40%|████      | 149631/371472 [49:26<18:04:06,  3.41it/s] 40%|████      | 149632/371472 [49:26<18:59:23,  3.24it/s] 40%|████      | 149633/371472 [49:26<19:19:17,  3.19it/s] 40%|████      | 149634/371472 [49:26<18:11:39,  3.39it/s] 40%|████      | 149635/371472 [49:27<17:55:49,  3.44it/s] 40%|████      | 149636/371472 [49:27<17:50:30,  3.45it/s] 40%|████      | 149637/371472 [49:27<19:22:40,  3.18it/s] 40%|████      | 149638/371472 [49:28<18:25:08,  3.35it/s] 40%|████      | 149639/371472 [49:28<18:10:43,  3.39it/s] 40%|████      | 149640/371472 [49:28<17:25:48,  3.54it/s]                                                          {'loss': 2.964, 'learning_rate': 6.377426792217027e-07, 'epoch': 6.45}
 40%|████      | 149640/371472 [49:28<17:25:48,  3.54it/s] 40%|████      | 149641/371472 [49:29<17:45:53,  3.47it/s] 40%|████      | 149642/371472 [49:29<17:36:41,  3.50it/s] 40%|████      | 149643/371472 [49:29<17:15:57,  3.57it/s] 40%|████      | 149644/371472 [49:29<17:03:39,  3.61it/s] 40%|████      | 149645/371472 [49:30<17:16:09,  3.57it/s] 40%|████      | 149646/371472 [49:30<17:32:11,  3.51it/s] 40%|████      | 149647/371472 [49:30<17:02:09,  3.62it/s] 40%|████      | 149648/371472 [49:30<16:48:33,  3.67it/s] 40%|████      | 149649/371472 [49:31<17:33:55,  3.51it/s] 40%|████      | 149650/371472 [49:31<16:58:08,  3.63it/s] 40%|████      | 149651/371472 [49:31<17:12:16,  3.58it/s] 40%|████      | 149652/371472 [49:32<17:45:14,  3.47it/s] 40%|████      | 149653/371472 [49:32<18:01:45,  3.42it/s] 40%|████      | 149654/371472 [49:32<18:30:40,  3.33it/s] 40%|████      | 149655/371472 [49:32<17:37:09,  3.50it/s] 40%|████      | 149656/371472 [49:33<17:03:00,  3.61it/s] 40%|████      | 149657/371472 [49:33<17:15:22,  3.57it/s] 40%|████      | 149658/371472 [49:33<16:53:51,  3.65it/s] 40%|████      | 149659/371472 [49:34<16:29:21,  3.74it/s] 40%|████      | 149660/371472 [49:34<17:21:21,  3.55it/s]                                                          {'loss': 3.2045, 'learning_rate': 6.376941972462238e-07, 'epoch': 6.45}
 40%|████      | 149660/371472 [49:34<17:21:21,  3.55it/s] 40%|████      | 149661/371472 [49:34<17:05:27,  3.61it/s] 40%|████      | 149662/371472 [49:34<16:38:32,  3.70it/s] 40%|████      | 149663/371472 [49:35<16:44:11,  3.68it/s] 40%|████      | 149664/371472 [49:35<16:46:40,  3.67it/s] 40%|████      | 149665/371472 [49:35<18:27:19,  3.34it/s] 40%|████      | 149666/371472 [49:36<18:11:08,  3.39it/s] 40%|████      | 149667/371472 [49:36<19:29:23,  3.16it/s] 40%|████      | 149668/371472 [49:36<19:33:51,  3.15it/s] 40%|████      | 149669/371472 [49:37<18:40:39,  3.30it/s] 40%|████      | 149670/371472 [49:37<18:10:37,  3.39it/s] 40%|████      | 149671/371472 [49:37<18:44:25,  3.29it/s] 40%|████      | 149672/371472 [49:37<18:23:50,  3.35it/s] 40%|████      | 149673/371472 [49:38<19:06:12,  3.23it/s] 40%|████      | 149674/371472 [49:38<18:14:09,  3.38it/s] 40%|████      | 149675/371472 [49:38<17:42:40,  3.48it/s] 40%|████      | 149676/371472 [49:39<17:39:47,  3.49it/s] 40%|████      | 149677/371472 [49:39<16:56:53,  3.64it/s] 40%|████      | 149678/371472 [49:39<17:20:32,  3.55it/s] 40%|████      | 149679/371472 [49:39<17:08:20,  3.59it/s] 40%|████      | 149680/371472 [49:40<16:36:04,  3.71it/s]                                                          {'loss': 3.3495, 'learning_rate': 6.376457152707448e-07, 'epoch': 6.45}
 40%|████      | 149680/371472 [49:40<16:36:04,  3.71it/s] 40%|████      | 149681/371472 [49:40<16:11:13,  3.81it/s] 40%|████      | 149682/371472 [49:40<16:56:36,  3.64it/s] 40%|████      | 149683/371472 [49:41<19:51:57,  3.10it/s] 40%|████      | 149684/371472 [49:41<19:06:41,  3.22it/s] 40%|████      | 149685/371472 [49:41<18:31:34,  3.33it/s] 40%|████      | 149686/371472 [49:41<17:39:22,  3.49it/s] 40%|████      | 149687/371472 [49:42<16:41:20,  3.69it/s] 40%|████      | 149688/371472 [49:42<16:32:32,  3.72it/s] 40%|████      | 149689/371472 [49:42<16:32:50,  3.72it/s] 40%|████      | 149690/371472 [49:42<16:58:19,  3.63it/s] 40%|████      | 149691/371472 [49:43<19:54:19,  3.09it/s] 40%|████      | 149692/371472 [49:43<18:36:39,  3.31it/s] 40%|████      | 149693/371472 [49:43<17:33:02,  3.51it/s] 40%|████      | 149694/371472 [49:44<17:42:22,  3.48it/s] 40%|████      | 149695/371472 [49:44<17:20:10,  3.55it/s] 40%|████      | 149696/371472 [49:44<17:25:02,  3.54it/s] 40%|████      | 149697/371472 [49:45<17:13:59,  3.57it/s] 40%|████      | 149698/371472 [49:45<17:41:09,  3.48it/s] 40%|████      | 149699/371472 [49:45<19:02:31,  3.24it/s] 40%|████      | 149700/371472 [49:45<18:39:18,  3.30it/s]                                                          {'loss': 3.1958, 'learning_rate': 6.37597233295266e-07, 'epoch': 6.45}
 40%|████      | 149700/371472 [49:45<18:39:18,  3.30it/s] 40%|████      | 149701/371472 [49:46<18:07:33,  3.40it/s] 40%|████      | 149702/371472 [49:46<18:52:01,  3.27it/s] 40%|████      | 149703/371472 [49:46<18:03:06,  3.41it/s] 40%|████      | 149704/371472 [49:47<17:16:15,  3.57it/s] 40%|████      | 149705/371472 [49:47<18:10:02,  3.39it/s] 40%|████      | 149706/371472 [49:47<17:50:57,  3.45it/s] 40%|████      | 149707/371472 [49:48<17:36:33,  3.50it/s] 40%|████      | 149708/371472 [49:48<17:24:09,  3.54it/s] 40%|████      | 149709/371472 [49:48<16:58:41,  3.63it/s] 40%|████      | 149710/371472 [49:48<16:35:56,  3.71it/s] 40%|████      | 149711/371472 [49:49<16:56:33,  3.64it/s] 40%|████      | 149712/371472 [49:49<17:25:15,  3.54it/s] 40%|████      | 149713/371472 [49:49<19:54:50,  3.09it/s] 40%|████      | 149714/371472 [49:50<18:29:02,  3.33it/s] 40%|████      | 149715/371472 [49:50<17:38:30,  3.49it/s] 40%|████      | 149716/371472 [49:50<17:15:58,  3.57it/s] 40%|████      | 149717/371472 [49:50<17:26:44,  3.53it/s] 40%|████      | 149718/371472 [49:51<17:15:08,  3.57it/s] 40%|████      | 149719/371472 [49:51<17:11:13,  3.58it/s] 40%|████      | 149720/371472 [49:51<16:27:37,  3.74it/s]                                                          {'loss': 3.2441, 'learning_rate': 6.375487513197872e-07, 'epoch': 6.45}
 40%|████      | 149720/371472 [49:51<16:27:37,  3.74it/s] 40%|████      | 149721/371472 [49:51<16:23:15,  3.76it/s] 40%|████      | 149722/371472 [49:52<15:59:27,  3.85it/s] 40%|████      | 149723/371472 [49:52<16:04:44,  3.83it/s] 40%|████      | 149724/371472 [49:52<15:47:44,  3.90it/s] 40%|████      | 149725/371472 [49:52<15:23:12,  4.00it/s] 40%|████      | 149726/371472 [49:53<16:20:58,  3.77it/s] 40%|████      | 149727/371472 [49:53<16:12:55,  3.80it/s] 40%|████      | 149728/371472 [49:53<17:30:55,  3.52it/s] 40%|████      | 149729/371472 [49:54<17:26:41,  3.53it/s] 40%|████      | 149730/371472 [49:54<18:38:53,  3.30it/s] 40%|████      | 149731/371472 [49:54<18:47:49,  3.28it/s] 40%|████      | 149732/371472 [49:54<18:05:43,  3.40it/s] 40%|████      | 149733/371472 [49:55<19:04:40,  3.23it/s] 40%|████      | 149734/371472 [49:55<18:43:57,  3.29it/s] 40%|████      | 149735/371472 [49:55<17:56:19,  3.43it/s] 40%|████      | 149736/371472 [49:56<17:39:51,  3.49it/s] 40%|████      | 149737/371472 [49:56<17:11:54,  3.58it/s] 40%|████      | 149738/371472 [49:56<17:21:40,  3.55it/s] 40%|████      | 149739/371472 [49:57<17:21:29,  3.55it/s] 40%|████      | 149740/371472 [49:57<18:28:22,  3.33it/s]                                                          {'loss': 3.3179, 'learning_rate': 6.375002693443082e-07, 'epoch': 6.45}
 40%|████      | 149740/371472 [49:57<18:28:22,  3.33it/s] 40%|████      | 149741/371472 [49:57<17:44:20,  3.47it/s] 40%|████      | 149742/371472 [49:57<18:13:01,  3.38it/s] 40%|████      | 149743/371472 [49:58<19:22:39,  3.18it/s] 40%|████      | 149744/371472 [49:58<18:03:58,  3.41it/s] 40%|████      | 149745/371472 [49:58<17:40:51,  3.48it/s] 40%|████      | 149746/371472 [49:59<17:31:46,  3.51it/s] 40%|████      | 149747/371472 [49:59<17:16:15,  3.57it/s] 40%|████      | 149748/371472 [49:59<17:54:22,  3.44it/s] 40%|████      | 149749/371472 [49:59<18:07:20,  3.40it/s] 40%|████      | 149750/371472 [50:00<17:32:38,  3.51it/s] 40%|████      | 149751/371472 [50:00<17:16:47,  3.56it/s] 40%|████      | 149752/371472 [50:00<16:33:09,  3.72it/s] 40%|████      | 149753/371472 [50:01<16:45:03,  3.68it/s] 40%|████      | 149754/371472 [50:01<16:41:36,  3.69it/s] 40%|████      | 149755/371472 [50:01<16:13:55,  3.79it/s] 40%|████      | 149756/371472 [50:01<15:57:17,  3.86it/s] 40%|████      | 149757/371472 [50:02<15:48:17,  3.90it/s] 40%|████      | 149758/371472 [50:02<16:21:27,  3.77it/s] 40%|████      | 149759/371472 [50:02<16:43:09,  3.68it/s] 40%|████      | 149760/371472 [50:02<16:59:23,  3.62it/s]                                                          {'loss': 3.3157, 'learning_rate': 6.374517873688292e-07, 'epoch': 6.45}
 40%|████      | 149760/371472 [50:02<16:59:23,  3.62it/s] 40%|████      | 149761/371472 [50:03<16:51:56,  3.65it/s] 40%|████      | 149762/371472 [50:03<16:50:14,  3.66it/s] 40%|████      | 149763/371472 [50:03<17:41:16,  3.48it/s] 40%|████      | 149764/371472 [50:04<18:44:32,  3.29it/s] 40%|████      | 149765/371472 [50:04<18:29:07,  3.33it/s] 40%|████      | 149766/371472 [50:04<18:27:15,  3.34it/s] 40%|████      | 149767/371472 [50:04<17:30:44,  3.52it/s] 40%|████      | 149768/371472 [50:05<18:38:54,  3.30it/s] 40%|████      | 149769/371472 [50:05<18:29:06,  3.33it/s] 40%|████      | 149770/371472 [50:05<17:36:13,  3.50it/s] 40%|████      | 149771/371472 [50:06<17:26:06,  3.53it/s] 40%|████      | 149772/371472 [50:06<17:58:28,  3.43it/s] 40%|████      | 149773/371472 [50:06<17:40:49,  3.48it/s] 40%|████      | 149774/371472 [50:07<19:46:48,  3.11it/s] 40%|████      | 149775/371472 [50:07<19:08:51,  3.22it/s] 40%|████      | 149776/371472 [50:07<18:03:51,  3.41it/s] 40%|████      | 149777/371472 [50:07<17:44:33,  3.47it/s] 40%|████      | 149778/371472 [50:08<18:12:06,  3.38it/s] 40%|████      | 149779/371472 [50:08<18:38:17,  3.30it/s] 40%|████      | 149780/371472 [50:08<17:51:44,  3.45it/s]                                                          {'loss': 3.0712, 'learning_rate': 6.374033053933504e-07, 'epoch': 6.45}
 40%|████      | 149780/371472 [50:08<17:51:44,  3.45it/s] 40%|████      | 149781/371472 [50:09<17:31:45,  3.51it/s] 40%|████      | 149782/371472 [50:09<17:11:01,  3.58it/s] 40%|████      | 149783/371472 [50:09<18:01:01,  3.42it/s] 40%|████      | 149784/371472 [50:09<17:24:34,  3.54it/s] 40%|████      | 149785/371472 [50:10<17:16:08,  3.57it/s] 40%|████      | 149786/371472 [50:10<17:26:08,  3.53it/s] 40%|████      | 149787/371472 [50:10<17:17:32,  3.56it/s] 40%|████      | 149788/371472 [50:11<18:37:01,  3.31it/s] 40%|████      | 149789/371472 [50:11<19:08:21,  3.22it/s] 40%|████      | 149790/371472 [50:11<18:53:25,  3.26it/s] 40%|████      | 149791/371472 [50:11<17:50:24,  3.45it/s] 40%|████      | 149792/371472 [50:12<18:42:18,  3.29it/s] 40%|████      | 149793/371472 [50:12<18:41:55,  3.29it/s] 40%|████      | 149794/371472 [50:12<17:59:04,  3.42it/s] 40%|████      | 149795/371472 [50:13<18:42:13,  3.29it/s] 40%|████      | 149796/371472 [50:13<18:29:22,  3.33it/s] 40%|████      | 149797/371472 [50:13<18:10:20,  3.39it/s] 40%|████      | 149798/371472 [50:14<17:51:26,  3.45it/s] 40%|████      | 149799/371472 [50:14<17:43:05,  3.48it/s] 40%|████      | 149800/371472 [50:14<17:00:29,  3.62it/s]                                                          {'loss': 3.1719, 'learning_rate': 6.373548234178715e-07, 'epoch': 6.45}
 40%|████      | 149800/371472 [50:14<17:00:29,  3.62it/s] 40%|████      | 149801/371472 [50:14<16:39:32,  3.70it/s] 40%|████      | 149802/371472 [50:15<16:16:59,  3.78it/s] 40%|████      | 149803/371472 [50:15<16:22:11,  3.76it/s] 40%|████      | 149804/371472 [50:15<16:39:05,  3.70it/s] 40%|████      | 149805/371472 [50:16<17:53:26,  3.44it/s] 40%|████      | 149806/371472 [50:16<17:33:48,  3.51it/s] 40%|████      | 149807/371472 [50:16<17:39:41,  3.49it/s] 40%|████      | 149808/371472 [50:16<17:19:57,  3.55it/s] 40%|████      | 149809/371472 [50:17<16:49:12,  3.66it/s] 40%|████      | 149810/371472 [50:17<17:08:05,  3.59it/s] 40%|████      | 149811/371472 [50:17<16:50:28,  3.66it/s] 40%|████      | 149812/371472 [50:17<18:21:52,  3.35it/s] 40%|████      | 149813/371472 [50:18<18:07:01,  3.40it/s] 40%|████      | 149814/371472 [50:18<18:43:33,  3.29it/s] 40%|████      | 149815/371472 [50:18<17:31:19,  3.51it/s] 40%|████      | 149816/371472 [50:19<16:39:44,  3.70it/s] 40%|████      | 149817/371472 [50:19<16:53:17,  3.65it/s] 40%|████      | 149818/371472 [50:19<17:39:48,  3.49it/s] 40%|████      | 149819/371472 [50:19<17:20:01,  3.55it/s] 40%|████      | 149820/371472 [50:20<17:26:13,  3.53it/s]                                                          {'loss': 3.2308, 'learning_rate': 6.373063414423925e-07, 'epoch': 6.45}
 40%|████      | 149820/371472 [50:20<17:26:13,  3.53it/s] 40%|████      | 149821/371472 [50:20<17:41:50,  3.48it/s] 40%|████      | 149822/371472 [50:20<17:01:56,  3.61it/s] 40%|████      | 149823/371472 [50:21<16:38:42,  3.70it/s] 40%|████      | 149824/371472 [50:21<16:57:30,  3.63it/s] 40%|████      | 149825/371472 [50:21<16:36:02,  3.71it/s] 40%|████      | 149826/371472 [50:21<18:14:50,  3.37it/s] 40%|████      | 149827/371472 [50:22<17:19:29,  3.55it/s] 40%|████      | 149828/371472 [50:22<16:59:10,  3.62it/s] 40%|████      | 149829/371472 [50:22<17:11:26,  3.58it/s] 40%|████      | 149830/371472 [50:22<16:32:14,  3.72it/s] 40%|████      | 149831/371472 [50:23<17:27:29,  3.53it/s] 40%|████      | 149832/371472 [50:23<17:48:22,  3.46it/s] 40%|████      | 149833/371472 [50:23<17:14:17,  3.57it/s] 40%|████      | 149834/371472 [50:24<17:10:18,  3.59it/s] 40%|████      | 149835/371472 [50:24<16:38:52,  3.70it/s] 40%|████      | 149836/371472 [50:24<16:20:27,  3.77it/s] 40%|████      | 149837/371472 [50:24<16:51:04,  3.65it/s] 40%|████      | 149838/371472 [50:25<16:36:56,  3.71it/s] 40%|████      | 149839/371472 [50:25<16:42:54,  3.68it/s] 40%|████      | 149840/371472 [50:25<16:37:55,  3.70it/s]                                                          {'loss': 3.2766, 'learning_rate': 6.372578594669137e-07, 'epoch': 6.45}
 40%|████      | 149840/371472 [50:25<16:37:55,  3.70it/s] 40%|████      | 149841/371472 [50:26<16:32:38,  3.72it/s] 40%|████      | 149842/371472 [50:26<16:30:50,  3.73it/s] 40%|████      | 149843/371472 [50:26<17:23:26,  3.54it/s] 40%|████      | 149844/371472 [50:26<18:16:21,  3.37it/s] 40%|████      | 149845/371472 [50:27<18:01:03,  3.42it/s] 40%|████      | 149846/371472 [50:27<17:57:08,  3.43it/s] 40%|████      | 149847/371472 [50:27<18:18:21,  3.36it/s] 40%|████      | 149848/371472 [50:28<18:16:01,  3.37it/s] 40%|████      | 149849/371472 [50:28<17:35:16,  3.50it/s] 40%|████      | 149850/371472 [50:28<17:09:00,  3.59it/s] 40%|████      | 149851/371472 [50:28<17:29:54,  3.52it/s] 40%|████      | 149852/371472 [50:29<18:08:34,  3.39it/s] 40%|████      | 149853/371472 [50:29<17:40:18,  3.48it/s] 40%|████      | 149854/371472 [50:29<17:14:42,  3.57it/s] 40%|████      | 149855/371472 [50:30<17:10:24,  3.58it/s] 40%|████      | 149856/371472 [50:30<16:57:30,  3.63it/s] 40%|████      | 149857/371472 [50:30<16:53:47,  3.64it/s] 40%|████      | 149858/371472 [50:30<16:43:15,  3.68it/s] 40%|████      | 149859/371472 [50:31<17:48:17,  3.46it/s] 40%|████      | 149860/371472 [50:31<17:59:15,  3.42it/s]                                                          {'loss': 3.086, 'learning_rate': 6.372093774914349e-07, 'epoch': 6.45}
 40%|████      | 149860/371472 [50:31<17:59:15,  3.42it/s] 40%|████      | 149861/371472 [50:31<17:18:09,  3.56it/s] 40%|████      | 149862/371472 [50:32<17:13:23,  3.57it/s] 40%|████      | 149863/371472 [50:32<17:02:12,  3.61it/s] 40%|████      | 149864/371472 [50:32<18:16:23,  3.37it/s] 40%|████      | 149865/371472 [50:32<18:04:07,  3.41it/s] 40%|████      | 149866/371472 [50:33<18:37:14,  3.31it/s] 40%|████      | 149867/371472 [50:33<17:59:37,  3.42it/s] 40%|████      | 149868/371472 [50:33<17:14:45,  3.57it/s] 40%|████      | 149869/371472 [50:34<17:14:35,  3.57it/s] 40%|████      | 149870/371472 [50:34<17:16:22,  3.56it/s] 40%|████      | 149871/371472 [50:34<17:01:26,  3.62it/s] 40%|████      | 149872/371472 [50:34<16:32:53,  3.72it/s] 40%|████      | 149873/371472 [50:35<18:06:14,  3.40it/s] 40%|████      | 149874/371472 [50:35<17:51:07,  3.45it/s] 40%|████      | 149875/371472 [50:35<17:52:59,  3.44it/s] 40%|████      | 149876/371472 [50:36<17:21:30,  3.55it/s] 40%|████      | 149877/371472 [50:36<18:15:49,  3.37it/s] 40%|████      | 149878/371472 [50:36<17:31:42,  3.51it/s] 40%|████      | 149879/371472 [50:36<18:09:38,  3.39it/s] 40%|████      | 149880/371472 [50:37<18:04:35,  3.41it/s]                                                          {'loss': 3.1261, 'learning_rate': 6.37160895515956e-07, 'epoch': 6.46}
 40%|████      | 149880/371472 [50:37<18:04:35,  3.41it/s] 40%|████      | 149881/371472 [50:37<21:39:46,  2.84it/s] 40%|████      | 149882/371472 [50:37<19:49:16,  3.11it/s] 40%|████      | 149883/371472 [50:38<18:58:22,  3.24it/s] 40%|████      | 149884/371472 [50:38<18:26:17,  3.34it/s] 40%|████      | 149885/371472 [50:38<18:07:30,  3.40it/s] 40%|████      | 149886/371472 [50:39<17:34:04,  3.50it/s] 40%|████      | 149887/371472 [50:39<17:00:42,  3.62it/s] 40%|████      | 149888/371472 [50:39<17:06:26,  3.60it/s] 40%|████      | 149889/371472 [50:39<17:39:42,  3.48it/s] 40%|████      | 149890/371472 [50:40<16:58:06,  3.63it/s] 40%|████      | 149891/371472 [50:40<16:55:02,  3.64it/s] 40%|████      | 149892/371472 [50:40<17:34:25,  3.50it/s] 40%|████      | 149893/371472 [50:41<17:21:07,  3.55it/s] 40%|████      | 149894/371472 [50:41<18:09:09,  3.39it/s] 40%|████      | 149895/371472 [50:41<18:07:52,  3.39it/s] 40%|████      | 149896/371472 [50:41<17:33:29,  3.51it/s] 40%|████      | 149897/371472 [50:42<16:52:19,  3.65it/s] 40%|████      | 149898/371472 [50:42<17:23:24,  3.54it/s] 40%|████      | 149899/371472 [50:42<17:22:13,  3.54it/s] 40%|████      | 149900/371472 [50:43<17:20:40,  3.55it/s]                                                          {'loss': 3.1021, 'learning_rate': 6.371124135404769e-07, 'epoch': 6.46}
 40%|████      | 149900/371472 [50:43<17:20:40,  3.55it/s] 40%|████      | 149901/371472 [50:43<17:45:01,  3.47it/s] 40%|████      | 149902/371472 [50:43<17:44:44,  3.47it/s] 40%|████      | 149903/371472 [50:43<17:14:26,  3.57it/s] 40%|████      | 149904/371472 [50:44<16:40:58,  3.69it/s] 40%|████      | 149905/371472 [50:44<16:32:13,  3.72it/s] 40%|████      | 149906/371472 [50:44<17:23:56,  3.54it/s] 40%|████      | 149907/371472 [50:45<18:00:18,  3.42it/s] 40%|████      | 149908/371472 [50:45<17:40:36,  3.48it/s] 40%|████      | 149909/371472 [50:45<17:43:11,  3.47it/s] 40%|████      | 149910/371472 [50:45<18:29:58,  3.33it/s] 40%|████      | 149911/371472 [50:46<17:40:49,  3.48it/s] 40%|████      | 149912/371472 [50:46<17:46:19,  3.46it/s] 40%|████      | 149913/371472 [50:46<18:02:24,  3.41it/s] 40%|████      | 149914/371472 [50:47<17:09:10,  3.59it/s] 40%|████      | 149915/371472 [50:47<18:52:58,  3.26it/s] 40%|████      | 149916/371472 [50:47<18:48:44,  3.27it/s] 40%|████      | 149917/371472 [50:47<18:42:54,  3.29it/s] 40%|████      | 149918/371472 [50:48<19:24:40,  3.17it/s] 40%|████      | 149919/371472 [50:48<18:48:06,  3.27it/s] 40%|████      | 149920/371472 [50:48<19:35:44,  3.14it/s]                                                          {'loss': 3.1802, 'learning_rate': 6.370639315649981e-07, 'epoch': 6.46}
 40%|████      | 149920/371472 [50:48<19:35:44,  3.14it/s] 40%|████      | 149921/371472 [50:49<18:59:34,  3.24it/s] 40%|████      | 149922/371472 [50:49<21:10:07,  2.91it/s] 40%|████      | 149923/371472 [50:49<19:54:51,  3.09it/s] 40%|████      | 149924/371472 [50:50<18:53:33,  3.26it/s] 40%|████      | 149925/371472 [50:50<19:03:58,  3.23it/s] 40%|████      | 149926/371472 [50:50<19:26:07,  3.17it/s] 40%|████      | 149927/371472 [50:51<18:47:23,  3.28it/s] 40%|████      | 149928/371472 [50:51<18:04:43,  3.40it/s] 40%|████      | 149929/371472 [50:51<17:43:26,  3.47it/s] 40%|████      | 149930/371472 [50:52<18:39:48,  3.30it/s] 40%|████      | 149931/371472 [50:52<19:33:37,  3.15it/s] 40%|████      | 149932/371472 [50:52<18:46:18,  3.28it/s] 40%|████      | 149933/371472 [50:52<17:51:55,  3.44it/s] 40%|████      | 149934/371472 [50:53<17:56:11,  3.43it/s] 40%|████      | 149935/371472 [50:53<17:15:00,  3.57it/s] 40%|████      | 149936/371472 [50:53<17:31:39,  3.51it/s] 40%|████      | 149937/371472 [50:53<16:52:42,  3.65it/s] 40%|████      | 149938/371472 [50:54<17:03:32,  3.61it/s] 40%|████      | 149939/371472 [50:54<16:26:44,  3.74it/s] 40%|████      | 149940/371472 [50:54<17:14:11,  3.57it/s]                                                          {'loss': 3.2356, 'learning_rate': 6.370154495895193e-07, 'epoch': 6.46}
 40%|████      | 149940/371472 [50:54<17:14:11,  3.57it/s] 40%|████      | 149941/371472 [50:55<17:12:41,  3.58it/s] 40%|████      | 149942/371472 [50:55<16:48:37,  3.66it/s] 40%|████      | 149943/371472 [50:55<17:30:58,  3.51it/s] 40%|████      | 149944/371472 [50:55<17:51:19,  3.45it/s] 40%|████      | 149945/371472 [50:56<16:49:36,  3.66it/s] 40%|████      | 149946/371472 [50:56<16:29:09,  3.73it/s] 40%|████      | 149947/371472 [50:56<18:00:25,  3.42it/s] 40%|████      | 149948/371472 [50:57<17:42:02,  3.48it/s] 40%|████      | 149949/371472 [50:57<17:45:05,  3.47it/s] 40%|████      | 149950/371472 [50:57<19:34:18,  3.14it/s] 40%|████      | 149951/371472 [50:58<18:34:42,  3.31it/s] 40%|████      | 149952/371472 [50:58<17:40:33,  3.48it/s] 40%|████      | 149953/371472 [50:58<17:42:41,  3.47it/s] 40%|████      | 149954/371472 [50:58<17:02:29,  3.61it/s] 40%|████      | 149955/371472 [50:59<17:39:21,  3.49it/s] 40%|████      | 149956/371472 [50:59<17:27:19,  3.53it/s] 40%|████      | 149957/371472 [50:59<17:07:48,  3.59it/s] 40%|████      | 149958/371472 [50:59<16:34:33,  3.71it/s] 40%|████      | 149959/371472 [51:00<15:55:30,  3.86it/s] 40%|████      | 149960/371472 [51:00<16:21:04,  3.76it/s]                                                          {'loss': 3.3526, 'learning_rate': 6.369669676140404e-07, 'epoch': 6.46}
 40%|████      | 149960/371472 [51:00<16:21:04,  3.76it/s] 40%|████      | 149961/371472 [51:00<16:18:19,  3.77it/s] 40%|████      | 149962/371472 [51:00<16:14:20,  3.79it/s] 40%|████      | 149963/371472 [51:01<15:40:43,  3.92it/s] 40%|████      | 149964/371472 [51:01<15:49:58,  3.89it/s] 40%|████      | 149965/371472 [51:01<16:43:18,  3.68it/s] 40%|████      | 149966/371472 [51:02<16:21:55,  3.76it/s] 40%|████      | 149967/371472 [51:02<17:38:19,  3.49it/s] 40%|████      | 149968/371472 [51:02<17:49:50,  3.45it/s] 40%|████      | 149969/371472 [51:02<17:28:07,  3.52it/s] 40%|████      | 149970/371472 [51:03<18:12:26,  3.38it/s] 40%|████      | 149971/371472 [51:03<17:53:59,  3.44it/s] 40%|████      | 149972/371472 [51:03<18:02:42,  3.41it/s] 40%|████      | 149973/371472 [51:04<18:54:10,  3.25it/s] 40%|████      | 149974/371472 [51:04<18:22:48,  3.35it/s] 40%|████      | 149975/371472 [51:04<17:44:20,  3.47it/s] 40%|████      | 149976/371472 [51:04<17:27:20,  3.52it/s] 40%|████      | 149977/371472 [51:05<18:44:37,  3.28it/s] 40%|████      | 149978/371472 [51:05<18:57:58,  3.24it/s] 40%|████      | 149979/371472 [51:05<17:58:53,  3.42it/s] 40%|████      | 149980/371472 [51:06<18:17:57,  3.36it/s]                                                          {'loss': 3.2911, 'learning_rate': 6.369184856385614e-07, 'epoch': 6.46}
 40%|████      | 149980/371472 [51:06<18:17:57,  3.36it/s] 40%|████      | 149981/371472 [51:06<17:29:15,  3.52it/s] 40%|████      | 149982/371472 [51:06<18:13:41,  3.38it/s] 40%|████      | 149983/371472 [51:07<20:13:52,  3.04it/s] 40%|████      | 149984/371472 [51:07<19:20:45,  3.18it/s] 40%|████      | 149985/371472 [51:07<18:31:16,  3.32it/s] 40%|████      | 149986/371472 [51:08<18:06:16,  3.40it/s] 40%|████      | 149987/371472 [51:08<17:22:28,  3.54it/s] 40%|████      | 149988/371472 [51:08<16:55:15,  3.64it/s] 40%|████      | 149989/371472 [51:08<17:22:04,  3.54it/s] 40%|████      | 149990/371472 [51:09<17:27:14,  3.52it/s] 40%|████      | 149991/371472 [51:09<17:04:37,  3.60it/s] 40%|████      | 149992/371472 [51:09<16:41:12,  3.69it/s] 40%|████      | 149993/371472 [51:09<16:57:47,  3.63it/s] 40%|████      | 149994/371472 [51:10<17:38:35,  3.49it/s] 40%|████      | 149995/371472 [51:10<17:50:58,  3.45it/s] 40%|████      | 149996/371472 [51:10<17:42:55,  3.47it/s] 40%|████      | 149997/371472 [51:11<17:25:08,  3.53it/s] 40%|████      | 149998/371472 [51:11<17:35:33,  3.50it/s] 40%|████      | 149999/371472 [51:11<17:02:08,  3.61it/s] 40%|████      | 150000/371472 [51:11<16:41:43,  3.68it/s]                                                          {'loss': 3.3051, 'learning_rate': 6.368700036630826e-07, 'epoch': 6.46}
 40%|████      | 150000/371472 [51:11<16:41:43,  3.68it/s] 40%|████      | 150001/371472 [51:12<17:44:51,  3.47it/s] 40%|████      | 150002/371472 [51:12<17:55:42,  3.43it/s] 40%|████      | 150003/371472 [51:12<17:12:54,  3.57it/s] 40%|████      | 150004/371472 [51:13<16:40:10,  3.69it/s] 40%|████      | 150005/371472 [51:13<16:43:09,  3.68it/s] 40%|████      | 150006/371472 [51:13<16:18:07,  3.77it/s] 40%|████      | 150007/371472 [51:13<16:33:26,  3.72it/s] 40%|████      | 150008/371472 [51:14<16:55:23,  3.64it/s] 40%|████      | 150009/371472 [51:14<16:28:04,  3.74it/s] 40%|████      | 150010/371472 [51:14<16:48:59,  3.66it/s] 40%|████      | 150011/371472 [51:15<18:21:17,  3.35it/s] 40%|████      | 150012/371472 [51:15<17:51:26,  3.44it/s] 40%|████      | 150013/371472 [51:15<18:52:31,  3.26it/s] 40%|████      | 150014/371472 [51:15<18:23:34,  3.34it/s] 40%|████      | 150015/371472 [51:16<17:36:52,  3.49it/s] 40%|████      | 150016/371472 [51:16<17:36:57,  3.49it/s] 40%|████      | 150017/371472 [51:16<17:14:40,  3.57it/s] 40%|████      | 150018/371472 [51:17<19:15:06,  3.20it/s] 40%|████      | 150019/371472 [51:17<19:10:22,  3.21it/s] 40%|████      | 150020/371472 [51:17<17:51:25,  3.44it/s]                                                          {'loss': 3.2805, 'learning_rate': 6.368215216876037e-07, 'epoch': 6.46}
 40%|████      | 150020/371472 [51:17<17:51:25,  3.44it/s] 40%|████      | 150021/371472 [51:18<18:42:44,  3.29it/s] 40%|████      | 150022/371472 [51:18<18:09:05,  3.39it/s] 40%|████      | 150023/371472 [51:18<18:34:28,  3.31it/s] 40%|████      | 150024/371472 [51:18<17:54:54,  3.43it/s] 40%|████      | 150025/371472 [51:19<16:53:36,  3.64it/s] 40%|████      | 150026/371472 [51:19<18:52:07,  3.26it/s] 40%|████      | 150027/371472 [51:19<18:21:19,  3.35it/s] 40%|████      | 150028/371472 [51:20<17:53:05,  3.44it/s] 40%|████      | 150029/371472 [51:20<18:12:07,  3.38it/s] 40%|████      | 150030/371472 [51:20<17:52:33,  3.44it/s] 40%|████      | 150031/371472 [51:20<18:10:38,  3.38it/s] 40%|████      | 150032/371472 [51:21<17:55:57,  3.43it/s] 40%|████      | 150033/371472 [51:21<17:50:48,  3.45it/s] 40%|████      | 150034/371472 [51:21<17:47:40,  3.46it/s] 40%|████      | 150035/371472 [51:22<17:22:53,  3.54it/s] 40%|████      | 150036/371472 [51:22<17:17:46,  3.56it/s] 40%|████      | 150037/371472 [51:22<16:47:01,  3.66it/s] 40%|████      | 150038/371472 [51:22<18:17:18,  3.36it/s] 40%|████      | 150039/371472 [51:23<18:26:34,  3.34it/s] 40%|████      | 150040/371472 [51:23<17:28:49,  3.52it/s]                                                          {'loss': 3.1817, 'learning_rate': 6.367730397121248e-07, 'epoch': 6.46}
 40%|████      | 150040/371472 [51:23<17:28:49,  3.52it/s] 40%|████      | 150041/371472 [51:23<18:35:25,  3.31it/s] 40%|████      | 150042/371472 [51:24<17:58:20,  3.42it/s] 40%|████      | 150043/371472 [51:24<17:39:34,  3.48it/s] 40%|████      | 150044/371472 [51:24<18:04:08,  3.40it/s] 40%|████      | 150045/371472 [51:24<17:41:03,  3.48it/s] 40%|████      | 150046/371472 [51:25<18:16:49,  3.36it/s] 40%|████      | 150047/371472 [51:25<17:40:16,  3.48it/s] 40%|████      | 150048/371472 [51:25<17:43:12,  3.47it/s] 40%|████      | 150049/371472 [51:26<18:25:56,  3.34it/s] 40%|████      | 150050/371472 [51:26<20:14:11,  3.04it/s] 40%|████      | 150051/371472 [51:26<18:54:44,  3.25it/s] 40%|████      | 150052/371472 [51:27<19:29:56,  3.15it/s] 40%|████      | 150053/371472 [51:27<19:24:24,  3.17it/s] 40%|████      | 150054/371472 [51:27<19:33:09,  3.15it/s] 40%|████      | 150055/371472 [51:28<19:59:58,  3.08it/s] 40%|████      | 150056/371472 [51:28<19:05:20,  3.22it/s] 40%|████      | 150057/371472 [51:28<18:26:24,  3.34it/s] 40%|████      | 150058/371472 [51:28<17:32:50,  3.51it/s] 40%|████      | 150059/371472 [51:29<16:55:13,  3.63it/s] 40%|████      | 150060/371472 [51:29<18:13:30,  3.37it/s]                                                          {'loss': 3.283, 'learning_rate': 6.367245577366458e-07, 'epoch': 6.46}
 40%|████      | 150060/371472 [51:29<18:13:30,  3.37it/s] 40%|████      | 150061/371472 [51:29<18:05:28,  3.40it/s] 40%|████      | 150062/371472 [51:30<17:53:07,  3.44it/s] 40%|████      | 150063/371472 [51:30<18:45:00,  3.28it/s] 40%|████      | 150064/371472 [51:30<18:53:48,  3.25it/s] 40%|████      | 150065/371472 [51:31<18:40:20,  3.29it/s] 40%|████      | 150066/371472 [51:31<19:21:31,  3.18it/s] 40%|████      | 150067/371472 [51:31<18:30:15,  3.32it/s] 40%|████      | 150068/371472 [51:31<18:19:00,  3.36it/s] 40%|████      | 150069/371472 [51:32<19:26:04,  3.16it/s] 40%|████      | 150070/371472 [51:32<19:02:37,  3.23it/s] 40%|████      | 150071/371472 [51:32<18:07:46,  3.39it/s] 40%|████      | 150072/371472 [51:33<17:46:54,  3.46it/s] 40%|████      | 150073/371472 [51:33<17:29:25,  3.52it/s] 40%|████      | 150074/371472 [51:33<17:56:00,  3.43it/s] 40%|████      | 150075/371472 [51:34<18:09:05,  3.39it/s] 40%|████      | 150076/371472 [51:34<17:48:15,  3.45it/s] 40%|████      | 150077/371472 [51:34<17:28:47,  3.52it/s] 40%|████      | 150078/371472 [51:34<17:22:00,  3.54it/s] 40%|████      | 150079/371472 [51:35<16:47:36,  3.66it/s] 40%|████      | 150080/371472 [51:35<16:19:26,  3.77it/s]                                                          {'loss': 3.0413, 'learning_rate': 6.36676075761167e-07, 'epoch': 6.46}
 40%|████      | 150080/371472 [51:35<16:19:26,  3.77it/s] 40%|████      | 150081/371472 [51:35<16:40:25,  3.69it/s] 40%|████      | 150082/371472 [51:35<17:37:45,  3.49it/s] 40%|████      | 150083/371472 [51:36<16:59:01,  3.62it/s] 40%|████      | 150084/371472 [51:36<17:02:37,  3.61it/s] 40%|████      | 150085/371472 [51:36<17:31:39,  3.51it/s] 40%|████      | 150086/371472 [51:37<18:01:03,  3.41it/s] 40%|████      | 150087/371472 [51:37<17:51:54,  3.44it/s] 40%|████      | 150088/371472 [51:37<17:25:48,  3.53it/s] 40%|████      | 150089/371472 [51:37<17:09:52,  3.58it/s] 40%|████      | 150090/371472 [51:38<17:01:38,  3.61it/s] 40%|████      | 150091/371472 [51:38<17:22:43,  3.54it/s] 40%|████      | 150092/371472 [51:38<18:08:14,  3.39it/s] 40%|████      | 150093/371472 [51:39<17:27:48,  3.52it/s] 40%|████      | 150094/371472 [51:39<17:17:59,  3.55it/s] 40%|████      | 150095/371472 [51:39<16:59:05,  3.62it/s] 40%|████      | 150096/371472 [51:39<16:29:20,  3.73it/s] 40%|████      | 150097/371472 [51:40<16:53:35,  3.64it/s] 40%|████      | 150098/371472 [51:40<16:49:23,  3.66it/s] 40%|████      | 150099/371472 [51:40<17:01:08,  3.61it/s] 40%|████      | 150100/371472 [51:40<16:43:53,  3.68it/s]                                                          {'loss': 3.1824, 'learning_rate': 6.366275937856882e-07, 'epoch': 6.47}
 40%|████      | 150100/371472 [51:40<16:43:53,  3.68it/s] 40%|████      | 150101/371472 [51:41<16:11:45,  3.80it/s] 40%|████      | 150102/371472 [51:41<16:13:49,  3.79it/s] 40%|████      | 150103/371472 [51:41<17:09:46,  3.58it/s] 40%|████      | 150104/371472 [51:42<16:46:40,  3.66it/s] 40%|████      | 150105/371472 [51:42<16:20:20,  3.76it/s] 40%|████      | 150106/371472 [51:42<16:29:01,  3.73it/s] 40%|████      | 150107/371472 [51:42<16:35:08,  3.71it/s] 40%|████      | 150108/371472 [51:43<17:10:55,  3.58it/s] 40%|████      | 150109/371472 [51:43<16:51:36,  3.65it/s] 40%|████      | 150110/371472 [51:43<16:42:53,  3.68it/s] 40%|████      | 150111/371472 [51:43<17:03:01,  3.61it/s] 40%|████      | 150112/371472 [51:44<18:05:09,  3.40it/s] 40%|████      | 150113/371472 [51:44<17:43:04,  3.47it/s] 40%|████      | 150114/371472 [51:44<17:38:43,  3.48it/s] 40%|████      | 150115/371472 [51:45<17:19:32,  3.55it/s] 40%|████      | 150116/371472 [51:45<17:15:15,  3.56it/s] 40%|████      | 150117/371472 [51:45<16:33:34,  3.71it/s] 40%|████      | 150118/371472 [51:45<16:13:59,  3.79it/s] 40%|████      | 150119/371472 [51:46<18:22:27,  3.35it/s] 40%|████      | 150120/371472 [51:46<17:29:49,  3.51it/s]                                                          {'loss': 3.324, 'learning_rate': 6.365791118102093e-07, 'epoch': 6.47}
 40%|████      | 150120/371472 [51:46<17:29:49,  3.51it/s] 40%|████      | 150121/371472 [51:46<18:20:20,  3.35it/s] 40%|████      | 150122/371472 [51:47<17:32:15,  3.51it/s] 40%|████      | 150123/371472 [51:47<17:27:10,  3.52it/s] 40%|████      | 150124/371472 [51:47<17:27:53,  3.52it/s] 40%|████      | 150125/371472 [51:47<17:26:56,  3.52it/s] 40%|████      | 150126/371472 [51:48<17:16:01,  3.56it/s] 40%|████      | 150127/371472 [51:48<17:23:45,  3.53it/s] 40%|████      | 150128/371472 [51:48<17:10:48,  3.58it/s] 40%|████      | 150129/371472 [51:49<16:56:33,  3.63it/s] 40%|████      | 150130/371472 [51:49<16:59:25,  3.62it/s] 40%|████      | 150131/371472 [51:49<17:22:59,  3.54it/s] 40%|████      | 150132/371472 [51:49<16:42:16,  3.68it/s] 40%|████      | 150133/371472 [51:50<17:57:34,  3.42it/s] 40%|████      | 150134/371472 [51:50<17:31:42,  3.51it/s] 40%|████      | 150135/371472 [51:50<16:57:39,  3.62it/s] 40%|████      | 150136/371472 [51:51<19:20:40,  3.18it/s] 40%|████      | 150137/371472 [51:51<18:50:43,  3.26it/s] 40%|████      | 150138/371472 [51:51<18:59:15,  3.24it/s] 40%|████      | 150139/371472 [51:52<18:02:40,  3.41it/s] 40%|████      | 150140/371472 [51:52<17:54:53,  3.43it/s]                                                          {'loss': 3.3191, 'learning_rate': 6.365306298347302e-07, 'epoch': 6.47}
 40%|████      | 150140/371472 [51:52<17:54:53,  3.43it/s] 40%|████      | 150141/371472 [51:52<18:04:21,  3.40it/s] 40%|████      | 150142/371472 [51:52<18:12:35,  3.38it/s] 40%|████      | 150143/371472 [51:53<18:02:50,  3.41it/s] 40%|████      | 150144/371472 [51:53<17:27:27,  3.52it/s] 40%|████      | 150145/371472 [51:53<17:48:36,  3.45it/s] 40%|████      | 150146/371472 [51:53<16:51:04,  3.65it/s] 40%|████      | 150147/371472 [51:54<16:45:39,  3.67it/s] 40%|████      | 150148/371472 [51:54<16:55:27,  3.63it/s] 40%|████      | 150149/371472 [51:54<17:02:21,  3.61it/s] 40%|████      | 150150/371472 [51:55<17:01:25,  3.61it/s] 40%|████      | 150151/371472 [51:55<16:43:17,  3.68it/s] 40%|████      | 150152/371472 [51:55<16:37:23,  3.70it/s] 40%|████      | 150153/371472 [51:55<17:19:38,  3.55it/s] 40%|████      | 150154/371472 [51:56<18:37:16,  3.30it/s] 40%|████      | 150155/371472 [51:56<18:25:59,  3.34it/s] 40%|████      | 150156/371472 [51:56<18:47:06,  3.27it/s] 40%|████      | 150157/371472 [51:57<17:53:30,  3.44it/s] 40%|████      | 150158/371472 [51:57<17:36:54,  3.49it/s] 40%|████      | 150159/371472 [51:57<18:55:20,  3.25it/s] 40%|████      | 150160/371472 [51:58<18:24:48,  3.34it/s]                                                          {'loss': 3.2621, 'learning_rate': 6.364821478592514e-07, 'epoch': 6.47}
 40%|████      | 150160/371472 [51:58<18:24:48,  3.34it/s] 40%|████      | 150161/371472 [51:58<17:58:55,  3.42it/s] 40%|████      | 150162/371472 [51:58<18:03:31,  3.40it/s] 40%|████      | 150163/371472 [51:58<17:44:59,  3.46it/s] 40%|████      | 150164/371472 [51:59<17:10:36,  3.58it/s] 40%|████      | 150165/371472 [51:59<17:34:30,  3.50it/s] 40%|████      | 150166/371472 [51:59<17:10:38,  3.58it/s] 40%|████      | 150167/371472 [52:00<19:54:46,  3.09it/s] 40%|████      | 150168/371472 [52:00<18:43:42,  3.28it/s] 40%|████      | 150169/371472 [52:00<18:04:54,  3.40it/s] 40%|████      | 150170/371472 [52:00<17:29:13,  3.52it/s] 40%|████      | 150171/371472 [52:01<16:43:18,  3.68it/s] 40%|████      | 150172/371472 [52:01<17:42:52,  3.47it/s] 40%|████      | 150173/371472 [52:01<18:09:23,  3.39it/s] 40%|████      | 150174/371472 [52:02<18:02:48,  3.41it/s] 40%|████      | 150175/371472 [52:02<17:19:14,  3.55it/s] 40%|████      | 150176/371472 [52:02<16:56:46,  3.63it/s] 40%|████      | 150177/371472 [52:02<17:16:46,  3.56it/s] 40%|████      | 150178/371472 [52:03<17:20:08,  3.55it/s] 40%|████      | 150179/371472 [52:03<18:03:02,  3.41it/s] 40%|████      | 150180/371472 [52:03<18:58:43,  3.24it/s]                                                          {'loss': 3.467, 'learning_rate': 6.364336658837726e-07, 'epoch': 6.47}
 40%|████      | 150180/371472 [52:03<18:58:43,  3.24it/s] 40%|████      | 150181/371472 [52:04<19:10:46,  3.20it/s] 40%|████      | 150182/371472 [52:04<18:49:20,  3.27it/s] 40%|████      | 150183/371472 [52:04<17:56:53,  3.42it/s] 40%|████      | 150184/371472 [52:05<17:07:05,  3.59it/s] 40%|████      | 150185/371472 [52:05<16:41:57,  3.68it/s] 40%|████      | 150186/371472 [52:05<16:51:21,  3.65it/s] 40%|████      | 150187/371472 [52:05<16:39:43,  3.69it/s] 40%|████      | 150188/371472 [52:06<17:09:32,  3.58it/s] 40%|████      | 150189/371472 [52:06<17:39:08,  3.48it/s] 40%|████      | 150190/371472 [52:06<18:45:43,  3.28it/s] 40%|████      | 150191/371472 [52:07<18:45:09,  3.28it/s] 40%|████      | 150192/371472 [52:07<18:27:01,  3.33it/s] 40%|████      | 150193/371472 [52:07<18:34:56,  3.31it/s] 40%|████      | 150194/371472 [52:07<17:24:07,  3.53it/s] 40%|████      | 150195/371472 [52:08<17:13:34,  3.57it/s] 40%|████      | 150196/371472 [52:08<16:53:22,  3.64it/s] 40%|████      | 150197/371472 [52:08<17:17:12,  3.56it/s] 40%|████      | 150198/371472 [52:08<16:47:21,  3.66it/s] 40%|████      | 150199/371472 [52:09<16:59:41,  3.62it/s] 40%|████      | 150200/371472 [52:09<17:07:09,  3.59it/s]                                                          {'loss': 3.4252, 'learning_rate': 6.363851839082936e-07, 'epoch': 6.47}
 40%|████      | 150200/371472 [52:09<17:07:09,  3.59it/s] 40%|████      | 150201/371472 [52:09<17:46:01,  3.46it/s] 40%|████      | 150202/371472 [52:10<17:42:35,  3.47it/s] 40%|████      | 150203/371472 [52:10<17:59:12,  3.42it/s] 40%|████      | 150204/371472 [52:10<18:24:33,  3.34it/s] 40%|████      | 150205/371472 [52:11<17:29:48,  3.51it/s] 40%|████      | 150206/371472 [52:11<17:13:53,  3.57it/s] 40%|████      | 150207/371472 [52:11<16:55:05,  3.63it/s] 40%|████      | 150208/371472 [52:11<17:26:01,  3.53it/s] 40%|████      | 150209/371472 [52:12<17:26:35,  3.52it/s] 40%|████      | 150210/371472 [52:12<16:59:47,  3.62it/s] 40%|████      | 150211/371472 [52:12<17:12:31,  3.57it/s] 40%|████      | 150212/371472 [52:12<17:00:18,  3.61it/s] 40%|████      | 150213/371472 [52:13<18:21:27,  3.35it/s] 40%|████      | 150214/371472 [52:13<18:23:41,  3.34it/s] 40%|████      | 150215/371472 [52:13<17:49:43,  3.45it/s] 40%|████      | 150216/371472 [52:14<17:22:28,  3.54it/s] 40%|████      | 150217/371472 [52:14<16:39:31,  3.69it/s] 40%|████      | 150218/371472 [52:14<16:37:51,  3.70it/s] 40%|████      | 150219/371472 [52:14<16:09:53,  3.80it/s] 40%|████      | 150220/371472 [52:15<16:40:25,  3.69it/s]                                                          {'loss': 3.1589, 'learning_rate': 6.363367019328147e-07, 'epoch': 6.47}
 40%|████      | 150220/371472 [52:15<16:40:25,  3.69it/s] 40%|████      | 150221/371472 [52:15<16:24:20,  3.75it/s] 40%|████      | 150222/371472 [52:15<17:52:13,  3.44it/s] 40%|████      | 150223/371472 [52:16<17:18:50,  3.55it/s] 40%|████      | 150224/371472 [52:16<17:36:49,  3.49it/s] 40%|████      | 150225/371472 [52:16<17:01:42,  3.61it/s] 40%|████      | 150226/371472 [52:16<17:12:52,  3.57it/s] 40%|████      | 150227/371472 [52:17<17:25:19,  3.53it/s] 40%|████      | 150228/371472 [52:17<17:27:27,  3.52it/s] 40%|████      | 150229/371472 [52:17<17:05:30,  3.60it/s] 40%|████      | 150230/371472 [52:18<16:59:43,  3.62it/s] 40%|████      | 150231/371472 [52:18<16:30:41,  3.72it/s] 40%|████      | 150232/371472 [52:18<16:28:34,  3.73it/s] 40%|████      | 150233/371472 [52:18<17:08:00,  3.59it/s] 40%|████      | 150234/371472 [52:19<16:48:45,  3.66it/s] 40%|████      | 150235/371472 [52:19<17:31:06,  3.51it/s] 40%|████      | 150236/371472 [52:19<17:14:20,  3.56it/s] 40%|████      | 150237/371472 [52:19<16:36:54,  3.70it/s] 40%|████      | 150238/371472 [52:20<16:52:33,  3.64it/s] 40%|████      | 150239/371472 [52:20<16:36:03,  3.70it/s] 40%|████      | 150240/371472 [52:20<16:20:07,  3.76it/s]                                                          {'loss': 3.182, 'learning_rate': 6.36288219957336e-07, 'epoch': 6.47}
 40%|████      | 150240/371472 [52:20<16:20:07,  3.76it/s] 40%|████      | 150241/371472 [52:21<17:19:01,  3.55it/s] 40%|████      | 150242/371472 [52:21<16:46:31,  3.66it/s] 40%|████      | 150243/371472 [52:21<17:04:55,  3.60it/s] 40%|████      | 150244/371472 [52:21<17:04:43,  3.60it/s] 40%|████      | 150245/371472 [52:22<16:31:10,  3.72it/s] 40%|████      | 150246/371472 [52:22<17:56:30,  3.43it/s] 40%|████      | 150247/371472 [52:22<19:02:34,  3.23it/s] 40%|████      | 150248/371472 [52:23<18:08:19,  3.39it/s] 40%|████      | 150249/371472 [52:23<18:23:16,  3.34it/s] 40%|████      | 150250/371472 [52:23<17:25:38,  3.53it/s] 40%|████      | 150251/371472 [52:23<17:51:40,  3.44it/s] 40%|████      | 150252/371472 [52:24<17:35:45,  3.49it/s] 40%|████      | 150253/371472 [52:24<17:36:53,  3.49it/s] 40%|████      | 150254/371472 [52:24<17:05:07,  3.60it/s] 40%|████      | 150255/371472 [52:25<18:30:23,  3.32it/s] 40%|████      | 150256/371472 [52:25<17:44:22,  3.46it/s] 40%|████      | 150257/371472 [52:25<17:28:06,  3.52it/s] 40%|████      | 150258/371472 [52:25<17:04:30,  3.60it/s] 40%|████      | 150259/371472 [52:26<17:02:00,  3.61it/s] 40%|████      | 150260/371472 [52:26<16:52:47,  3.64it/s]                                                          {'loss': 3.2477, 'learning_rate': 6.36239737981857e-07, 'epoch': 6.47}
 40%|████      | 150260/371472 [52:26<16:52:47,  3.64it/s] 40%|████      | 150261/371472 [52:26<16:40:35,  3.68it/s] 40%|████      | 150262/371472 [52:27<17:22:48,  3.54it/s] 40%|████      | 150263/371472 [52:27<17:35:38,  3.49it/s] 40%|████      | 150264/371472 [52:27<17:34:13,  3.50it/s] 40%|████      | 150265/371472 [52:27<16:50:14,  3.65it/s] 40%|████      | 150266/371472 [52:28<16:52:20,  3.64it/s] 40%|████      | 150267/371472 [52:28<16:46:48,  3.66it/s] 40%|████      | 150268/371472 [52:28<16:50:36,  3.65it/s] 40%|████      | 150269/371472 [52:28<16:42:13,  3.68it/s] 40%|████      | 150270/371472 [52:29<17:48:56,  3.45it/s] 40%|████      | 150271/371472 [52:29<17:17:07,  3.55it/s] 40%|████      | 150272/371472 [52:29<18:02:19,  3.41it/s] 40%|████      | 150273/371472 [52:30<18:49:01,  3.27it/s] 40%|████      | 150274/371472 [52:30<18:39:32,  3.29it/s] 40%|████      | 150275/371472 [52:30<18:11:16,  3.38it/s] 40%|████      | 150276/371472 [52:31<18:08:05,  3.39it/s] 40%|████      | 150277/371472 [52:31<18:08:55,  3.39it/s] 40%|████      | 150278/371472 [52:31<17:43:46,  3.47it/s] 40%|████      | 150279/371472 [52:31<17:24:04,  3.53it/s] 40%|████      | 150280/371472 [52:32<17:33:41,  3.50it/s]                                                          {'loss': 3.1717, 'learning_rate': 6.361912560063779e-07, 'epoch': 6.47}
 40%|████      | 150280/371472 [52:32<17:33:41,  3.50it/s] 40%|████      | 150281/371472 [52:32<19:13:51,  3.19it/s] 40%|████      | 150282/371472 [52:32<18:49:16,  3.26it/s] 40%|████      | 150283/371472 [52:33<18:26:47,  3.33it/s] 40%|████      | 150284/371472 [52:33<18:04:12,  3.40it/s] 40%|████      | 150285/371472 [52:33<17:10:21,  3.58it/s] 40%|████      | 150286/371472 [52:34<20:21:31,  3.02it/s] 40%|████      | 150287/371472 [52:34<18:49:18,  3.26it/s] 40%|████      | 150288/371472 [52:34<18:20:32,  3.35it/s] 40%|████      | 150289/371472 [52:34<17:45:42,  3.46it/s] 40%|████      | 150290/371472 [52:35<16:59:58,  3.61it/s] 40%|████      | 150291/371472 [52:35<16:41:59,  3.68it/s] 40%|████      | 150292/371472 [52:35<16:37:55,  3.69it/s] 40%|████      | 150293/371472 [52:35<16:29:09,  3.73it/s] 40%|████      | 150294/371472 [52:36<17:09:30,  3.58it/s] 40%|████      | 150295/371472 [52:36<17:04:46,  3.60it/s] 40%|████      | 150296/371472 [52:36<17:38:39,  3.48it/s] 40%|████      | 150297/371472 [52:37<17:39:52,  3.48it/s] 40%|████      | 150298/371472 [52:37<17:39:20,  3.48it/s] 40%|████      | 150299/371472 [52:37<17:58:37,  3.42it/s] 40%|████      | 150300/371472 [52:38<19:01:15,  3.23it/s]                                                          {'loss': 3.1406, 'learning_rate': 6.361427740308991e-07, 'epoch': 6.47}
 40%|████      | 150300/371472 [52:38<19:01:15,  3.23it/s] 40%|████      | 150301/371472 [52:38<19:16:12,  3.19it/s] 40%|████      | 150302/371472 [52:38<18:37:25,  3.30it/s] 40%|████      | 150303/371472 [52:39<19:28:18,  3.16it/s] 40%|████      | 150304/371472 [52:39<18:25:23,  3.33it/s] 40%|████      | 150305/371472 [52:39<18:05:36,  3.40it/s] 40%|████      | 150306/371472 [52:39<17:19:34,  3.55it/s] 40%|████      | 150307/371472 [52:40<17:21:43,  3.54it/s] 40%|████      | 150308/371472 [52:40<19:23:56,  3.17it/s] 40%|████      | 150309/371472 [52:40<19:52:50,  3.09it/s] 40%|████      | 150310/371472 [52:41<18:57:11,  3.24it/s] 40%|████      | 150311/371472 [52:41<18:48:09,  3.27it/s] 40%|████      | 150312/371472 [52:41<19:01:25,  3.23it/s] 40%|████      | 150313/371472 [52:42<18:38:13,  3.30it/s] 40%|████      | 150314/371472 [52:42<18:09:37,  3.38it/s] 40%|████      | 150315/371472 [52:42<18:17:33,  3.36it/s] 40%|████      | 150316/371472 [52:42<17:34:31,  3.50it/s] 40%|████      | 150317/371472 [52:43<17:32:29,  3.50it/s] 40%|████      | 150318/371472 [52:43<17:40:30,  3.48it/s] 40%|████      | 150319/371472 [52:43<17:17:07,  3.55it/s] 40%|████      | 150320/371472 [52:44<18:21:56,  3.34it/s]                                                          {'loss': 3.1955, 'learning_rate': 6.360942920554203e-07, 'epoch': 6.47}
 40%|████      | 150320/371472 [52:44<18:21:56,  3.34it/s] 40%|████      | 150321/371472 [52:44<17:57:22,  3.42it/s] 40%|████      | 150322/371472 [52:44<17:10:44,  3.58it/s] 40%|████      | 150323/371472 [52:44<16:58:21,  3.62it/s] 40%|████      | 150324/371472 [52:45<16:32:27,  3.71it/s] 40%|████      | 150325/371472 [52:45<17:48:09,  3.45it/s] 40%|████      | 150326/371472 [52:45<19:04:19,  3.22it/s] 40%|████      | 150327/371472 [52:46<18:20:42,  3.35it/s] 40%|████      | 150328/371472 [52:46<19:20:51,  3.18it/s] 40%|████      | 150329/371472 [52:46<18:17:40,  3.36it/s] 40%|████      | 150330/371472 [52:46<18:08:22,  3.39it/s] 40%|████      | 150331/371472 [52:47<17:35:11,  3.49it/s] 40%|████      | 150332/371472 [52:47<18:07:59,  3.39it/s] 40%|████      | 150333/371472 [52:47<17:08:32,  3.58it/s] 40%|████      | 150334/371472 [52:48<18:00:31,  3.41it/s] 40%|████      | 150335/371472 [52:48<18:01:04,  3.41it/s] 40%|████      | 150336/371472 [52:48<18:39:59,  3.29it/s] 40%|████      | 150337/371472 [52:48<17:57:06,  3.42it/s] 40%|████      | 150338/371472 [52:49<17:58:55,  3.42it/s] 40%|████      | 150339/371472 [52:49<17:03:33,  3.60it/s] 40%|████      | 150340/371472 [52:49<16:52:54,  3.64it/s]                                                          {'loss': 3.3421, 'learning_rate': 6.360458100799414e-07, 'epoch': 6.48}
 40%|████      | 150340/371472 [52:49<16:52:54,  3.64it/s] 40%|████      | 150341/371472 [52:50<17:03:42,  3.60it/s] 40%|████      | 150342/371472 [52:50<17:12:00,  3.57it/s] 40%|████      | 150343/371472 [52:50<17:29:29,  3.51it/s] 40%|████      | 150344/371472 [52:50<16:51:21,  3.64it/s] 40%|████      | 150345/371472 [52:51<18:52:02,  3.26it/s] 40%|████      | 150346/371472 [52:51<17:49:31,  3.45it/s] 40%|████      | 150347/371472 [52:51<17:11:23,  3.57it/s] 40%|████      | 150348/371472 [52:52<16:54:58,  3.63it/s] 40%|████      | 150349/371472 [52:52<17:45:32,  3.46it/s] 40%|████      | 150350/371472 [52:52<17:37:37,  3.48it/s] 40%|████      | 150351/371472 [52:52<17:03:18,  3.60it/s] 40%|████      | 150352/371472 [52:53<16:38:04,  3.69it/s] 40%|████      | 150353/371472 [52:53<16:22:32,  3.75it/s] 40%|████      | 150354/371472 [52:53<16:21:42,  3.75it/s] 40%|████      | 150355/371472 [52:54<17:24:41,  3.53it/s] 40%|████      | 150356/371472 [52:54<18:36:35,  3.30it/s] 40%|████      | 150357/371472 [52:54<19:05:49,  3.22it/s] 40%|████      | 150358/371472 [52:54<18:29:51,  3.32it/s] 40%|████      | 150359/371472 [52:55<18:01:48,  3.41it/s] 40%|████      | 150360/371472 [52:55<17:33:42,  3.50it/s]                                                          {'loss': 3.1861, 'learning_rate': 6.359973281044624e-07, 'epoch': 6.48}
 40%|████      | 150360/371472 [52:55<17:33:42,  3.50it/s] 40%|████      | 150361/371472 [52:55<16:43:30,  3.67it/s] 40%|████      | 150362/371472 [52:56<16:26:17,  3.74it/s] 40%|████      | 150363/371472 [52:56<16:37:55,  3.69it/s] 40%|████      | 150364/371472 [52:56<16:30:51,  3.72it/s] 40%|████      | 150365/371472 [52:56<16:21:23,  3.76it/s] 40%|████      | 150366/371472 [52:57<16:45:47,  3.66it/s] 40%|████      | 150367/371472 [52:57<17:04:45,  3.60it/s] 40%|████      | 150368/371472 [52:57<16:35:35,  3.70it/s] 40%|████      | 150369/371472 [52:57<16:12:39,  3.79it/s] 40%|████      | 150370/371472 [52:58<16:33:15,  3.71it/s] 40%|████      | 150371/371472 [52:58<16:33:00,  3.71it/s] 40%|████      | 150372/371472 [52:58<16:31:19,  3.72it/s] 40%|████      | 150373/371472 [52:59<16:46:22,  3.66it/s] 40%|████      | 150374/371472 [52:59<16:23:24,  3.75it/s] 40%|████      | 150375/371472 [52:59<16:39:03,  3.69it/s] 40%|████      | 150376/371472 [52:59<17:20:24,  3.54it/s] 40%|████      | 150377/371472 [53:00<17:05:16,  3.59it/s] 40%|████      | 150378/371472 [53:00<16:43:43,  3.67it/s] 40%|████      | 150379/371472 [53:00<17:40:16,  3.48it/s] 40%|████      | 150380/371472 [53:00<17:17:09,  3.55it/s]                                                          {'loss': 3.3775, 'learning_rate': 6.359488461289836e-07, 'epoch': 6.48}
 40%|████      | 150380/371472 [53:00<17:17:09,  3.55it/s] 40%|████      | 150381/371472 [53:01<16:48:22,  3.65it/s] 40%|████      | 150382/371472 [53:01<17:28:38,  3.51it/s] 40%|████      | 150383/371472 [53:01<17:21:31,  3.54it/s] 40%|████      | 150384/371472 [53:02<18:14:55,  3.37it/s] 40%|████      | 150385/371472 [53:02<17:52:40,  3.44it/s] 40%|████      | 150386/371472 [53:02<17:51:19,  3.44it/s] 40%|████      | 150387/371472 [53:02<17:02:22,  3.60it/s] 40%|████      | 150388/371472 [53:03<16:40:47,  3.68it/s] 40%|████      | 150389/371472 [53:03<17:41:26,  3.47it/s] 40%|████      | 150390/371472 [53:03<17:08:31,  3.58it/s] 40%|████      | 150391/371472 [53:04<18:02:47,  3.40it/s] 40%|████      | 150392/371472 [53:04<17:19:11,  3.55it/s] 40%|████      | 150393/371472 [53:04<16:59:23,  3.61it/s] 40%|████      | 150394/371472 [53:04<16:57:55,  3.62it/s] 40%|████      | 150395/371472 [53:05<16:28:46,  3.73it/s] 40%|████      | 150396/371472 [53:05<16:14:27,  3.78it/s] 40%|████      | 150397/371472 [53:05<16:17:15,  3.77it/s] 40%|████      | 150398/371472 [53:05<15:58:23,  3.84it/s] 40%|████      | 150399/371472 [53:06<16:01:43,  3.83it/s] 40%|████      | 150400/371472 [53:06<16:33:19,  3.71it/s]                                                          {'loss': 3.2245, 'learning_rate': 6.359003641535047e-07, 'epoch': 6.48}
 40%|████      | 150400/371472 [53:06<16:33:19,  3.71it/s] 40%|████      | 150401/371472 [53:06<16:44:47,  3.67it/s] 40%|████      | 150402/371472 [53:07<18:18:57,  3.35it/s] 40%|████      | 150403/371472 [53:07<18:59:04,  3.23it/s] 40%|████      | 150404/371472 [53:07<18:13:21,  3.37it/s] 40%|████      | 150405/371472 [53:07<17:25:52,  3.52it/s] 40%|████      | 150406/371472 [53:08<17:26:19,  3.52it/s] 40%|████      | 150407/371472 [53:08<16:52:06,  3.64it/s] 40%|████      | 150408/371472 [53:08<17:06:28,  3.59it/s] 40%|████      | 150409/371472 [53:09<17:20:57,  3.54it/s] 40%|████      | 150410/371472 [53:09<17:36:07,  3.49it/s] 40%|████      | 150411/371472 [53:09<16:54:57,  3.63it/s] 40%|████      | 150412/371472 [53:09<18:16:44,  3.36it/s] 40%|████      | 150413/371472 [53:10<17:34:14,  3.49it/s] 40%|████      | 150414/371472 [53:10<17:26:39,  3.52it/s] 40%|████      | 150415/371472 [53:10<17:13:39,  3.56it/s] 40%|████      | 150416/371472 [53:11<17:32:37,  3.50it/s] 40%|████      | 150417/371472 [53:11<19:02:27,  3.22it/s] 40%|████      | 150418/371472 [53:11<18:19:19,  3.35it/s] 40%|████      | 150419/371472 [53:12<17:52:00,  3.44it/s] 40%|████      | 150420/371472 [53:12<17:21:34,  3.54it/s]                                                          {'loss': 3.2893, 'learning_rate': 6.358518821780257e-07, 'epoch': 6.48}
 40%|████      | 150420/371472 [53:12<17:21:34,  3.54it/s] 40%|████      | 150421/371472 [53:12<17:54:34,  3.43it/s] 40%|████      | 150422/371472 [53:12<17:44:34,  3.46it/s] 40%|████      | 150423/371472 [53:13<17:37:43,  3.48it/s] 40%|████      | 150424/371472 [53:13<18:10:55,  3.38it/s] 40%|████      | 150425/371472 [53:13<17:41:17,  3.47it/s] 40%|████      | 150426/371472 [53:14<17:58:38,  3.42it/s] 40%|████      | 150427/371472 [53:14<18:30:33,  3.32it/s] 40%|████      | 150428/371472 [53:14<18:17:40,  3.36it/s] 40%|████      | 150429/371472 [53:14<18:15:25,  3.36it/s] 40%|████      | 150430/371472 [53:15<17:49:25,  3.44it/s] 40%|████      | 150431/371472 [53:15<18:01:19,  3.41it/s] 40%|████      | 150432/371472 [53:15<17:38:13,  3.48it/s] 40%|████      | 150433/371472 [53:16<17:27:14,  3.52it/s] 40%|████      | 150434/371472 [53:16<17:51:15,  3.44it/s] 40%|████      | 150435/371472 [53:16<17:14:33,  3.56it/s] 40%|████      | 150436/371472 [53:16<16:50:20,  3.65it/s] 40%|████      | 150437/371472 [53:17<16:51:26,  3.64it/s] 40%|████      | 150438/371472 [53:17<16:45:19,  3.66it/s] 40%|████      | 150439/371472 [53:17<16:33:11,  3.71it/s] 40%|████      | 150440/371472 [53:17<16:10:24,  3.80it/s]                                                          {'loss': 3.0714, 'learning_rate': 6.358034002025468e-07, 'epoch': 6.48}
 40%|████      | 150440/371472 [53:17<16:10:24,  3.80it/s] 40%|████      | 150441/371472 [53:18<17:02:33,  3.60it/s] 40%|████      | 150442/371472 [53:18<16:48:06,  3.65it/s] 40%|████      | 150443/371472 [53:18<17:05:39,  3.59it/s] 40%|████      | 150444/371472 [53:19<16:59:04,  3.61it/s] 40%|████      | 150445/371472 [53:19<17:01:31,  3.61it/s] 40%|████      | 150446/371472 [53:19<17:05:02,  3.59it/s] 41%|████      | 150447/371472 [53:19<16:54:31,  3.63it/s] 41%|████      | 150448/371472 [53:20<16:24:41,  3.74it/s] 41%|████      | 150449/371472 [53:20<16:24:57,  3.74it/s] 41%|████      | 150450/371472 [53:20<16:23:21,  3.75it/s] 41%|████      | 150451/371472 [53:21<17:06:11,  3.59it/s] 41%|████      | 150452/371472 [53:21<17:12:13,  3.57it/s] 41%|████      | 150453/371472 [53:21<16:46:04,  3.66it/s] 41%|████      | 150454/371472 [53:21<18:16:08,  3.36it/s] 41%|████      | 150455/371472 [53:22<17:46:10,  3.46it/s] 41%|████      | 150456/371472 [53:22<17:22:17,  3.53it/s] 41%|████      | 150457/371472 [53:22<19:05:46,  3.21it/s] 41%|████      | 150458/371472 [53:23<19:03:55,  3.22it/s] 41%|████      | 150459/371472 [53:23<18:48:16,  3.26it/s] 41%|████      | 150460/371472 [53:23<18:04:16,  3.40it/s]                                                          {'loss': 3.2649, 'learning_rate': 6.35754918227068e-07, 'epoch': 6.48}
 41%|████      | 150460/371472 [53:23<18:04:16,  3.40it/s] 41%|████      | 150461/371472 [53:23<17:31:48,  3.50it/s] 41%|████      | 150462/371472 [53:24<17:55:39,  3.42it/s] 41%|████      | 150463/371472 [53:24<18:51:49,  3.25it/s] 41%|████      | 150464/371472 [53:24<18:56:05,  3.24it/s] 41%|████      | 150465/371472 [53:25<17:51:59,  3.44it/s] 41%|████      | 150466/371472 [53:25<18:04:50,  3.40it/s] 41%|████      | 150467/371472 [53:25<18:17:56,  3.35it/s] 41%|████      | 150468/371472 [53:26<17:56:02,  3.42it/s] 41%|████      | 150469/371472 [53:26<17:44:28,  3.46it/s] 41%|████      | 150470/371472 [53:26<17:33:58,  3.49it/s] 41%|████      | 150471/371472 [53:26<17:09:44,  3.58it/s] 41%|████      | 150472/371472 [53:27<17:00:26,  3.61it/s] 41%|████      | 150473/371472 [53:27<17:10:53,  3.57it/s] 41%|████      | 150474/371472 [53:27<17:11:17,  3.57it/s] 41%|████      | 150475/371472 [53:27<16:41:53,  3.68it/s] 41%|████      | 150476/371472 [53:28<16:47:53,  3.65it/s] 41%|████      | 150477/371472 [53:28<17:42:29,  3.47it/s] 41%|████      | 150478/371472 [53:28<19:47:10,  3.10it/s] 41%|████      | 150479/371472 [53:29<18:20:22,  3.35it/s] 41%|████      | 150480/371472 [53:29<17:33:36,  3.50it/s]                                                          {'loss': 3.2228, 'learning_rate': 6.357064362515892e-07, 'epoch': 6.48}
 41%|████      | 150480/371472 [53:29<17:33:36,  3.50it/s] 41%|████      | 150481/371472 [53:29<17:36:07,  3.49it/s] 41%|████      | 150482/371472 [53:30<18:09:26,  3.38it/s] 41%|████      | 150483/371472 [53:30<18:15:28,  3.36it/s] 41%|████      | 150484/371472 [53:30<18:00:23,  3.41it/s] 41%|████      | 150485/371472 [53:30<18:29:06,  3.32it/s] 41%|████      | 150486/371472 [53:31<18:20:53,  3.35it/s] 41%|████      | 150487/371472 [53:31<17:39:02,  3.48it/s] 41%|████      | 150488/371472 [53:31<18:13:20,  3.37it/s] 41%|████      | 150489/371472 [53:32<17:36:26,  3.49it/s] 41%|████      | 150490/371472 [53:32<17:40:04,  3.47it/s] 41%|████      | 150491/371472 [53:32<17:43:26,  3.46it/s] 41%|████      | 150492/371472 [53:33<19:37:15,  3.13it/s] 41%|████      | 150493/371472 [53:33<18:27:46,  3.32it/s] 41%|████      | 150494/371472 [53:33<18:35:52,  3.30it/s] 41%|████      | 150495/371472 [53:33<17:53:01,  3.43it/s] 41%|████      | 150496/371472 [53:34<17:32:21,  3.50it/s] 41%|████      | 150497/371472 [53:34<17:48:24,  3.45it/s] 41%|████      | 150498/371472 [53:34<18:29:30,  3.32it/s] 41%|████      | 150499/371472 [53:35<18:27:58,  3.32it/s] 41%|████      | 150500/371472 [53:35<18:19:35,  3.35it/s]                                                          {'loss': 3.0886, 'learning_rate': 6.356579542761102e-07, 'epoch': 6.48}
 41%|████      | 150500/371472 [53:35<18:19:35,  3.35it/s] 41%|████      | 150501/371472 [53:35<18:27:58,  3.32it/s] 41%|████      | 150502/371472 [53:36<18:29:42,  3.32it/s] 41%|████      | 150503/371472 [53:36<18:57:00,  3.24it/s] 41%|████      | 150504/371472 [53:36<19:29:06,  3.15it/s] 41%|████      | 150505/371472 [53:36<18:27:55,  3.32it/s] 41%|████      | 150506/371472 [53:37<18:43:46,  3.28it/s] 41%|████      | 150507/371472 [53:37<18:52:28,  3.25it/s] 41%|████      | 150508/371472 [53:37<19:21:43,  3.17it/s] 41%|████      | 150509/371472 [53:38<18:58:41,  3.23it/s] 41%|████      | 150510/371472 [53:38<18:53:52,  3.25it/s] 41%|████      | 150511/371472 [53:38<18:12:01,  3.37it/s] 41%|████      | 150512/371472 [53:39<17:31:15,  3.50it/s] 41%|████      | 150513/371472 [53:39<16:44:48,  3.67it/s] 41%|████      | 150514/371472 [53:39<16:39:10,  3.69it/s] 41%|████      | 150515/371472 [53:39<16:59:59,  3.61it/s] 41%|████      | 150516/371472 [53:40<16:56:28,  3.62it/s] 41%|████      | 150517/371472 [53:40<16:33:55,  3.71it/s] 41%|████      | 150518/371472 [53:40<16:49:42,  3.65it/s] 41%|████      | 150519/371472 [53:40<17:10:48,  3.57it/s] 41%|████      | 150520/371472 [53:41<17:34:43,  3.49it/s]                                                          {'loss': 3.2165, 'learning_rate': 6.356094723006313e-07, 'epoch': 6.48}
 41%|████      | 150520/371472 [53:41<17:34:43,  3.49it/s] 41%|████      | 150521/371472 [53:41<17:03:05,  3.60it/s] 41%|████      | 150522/371472 [53:41<17:13:48,  3.56it/s] 41%|████      | 150523/371472 [53:42<16:27:07,  3.73it/s] 41%|████      | 150524/371472 [53:42<16:34:48,  3.70it/s] 41%|████      | 150525/371472 [53:42<17:23:02,  3.53it/s] 41%|████      | 150526/371472 [53:42<16:51:13,  3.64it/s] 41%|████      | 150527/371472 [53:43<16:47:26,  3.66it/s] 41%|████      | 150528/371472 [53:43<17:21:16,  3.54it/s] 41%|████      | 150529/371472 [53:43<17:35:35,  3.49it/s] 41%|████      | 150530/371472 [53:44<17:43:45,  3.46it/s] 41%|████      | 150531/371472 [53:44<18:52:52,  3.25it/s] 41%|████      | 150532/371472 [53:44<18:39:21,  3.29it/s] 41%|████      | 150533/371472 [53:44<18:16:58,  3.36it/s] 41%|████      | 150534/371472 [53:45<18:10:40,  3.38it/s] 41%|████      | 150535/371472 [53:45<17:20:52,  3.54it/s] 41%|████      | 150536/371472 [53:45<17:11:43,  3.57it/s] 41%|████      | 150537/371472 [53:46<17:11:48,  3.57it/s] 41%|████      | 150538/371472 [53:46<17:33:59,  3.49it/s] 41%|████      | 150539/371472 [53:46<17:02:13,  3.60it/s] 41%|████      | 150540/371472 [53:46<16:36:53,  3.69it/s]                                                          {'loss': 3.064, 'learning_rate': 6.355609903251524e-07, 'epoch': 6.48}
 41%|████      | 150540/371472 [53:46<16:36:53,  3.69it/s] 41%|████      | 150541/371472 [53:47<20:04:49,  3.06it/s] 41%|████      | 150542/371472 [53:47<18:43:06,  3.28it/s] 41%|████      | 150543/371472 [53:47<17:51:41,  3.44it/s] 41%|████      | 150544/371472 [53:48<17:28:22,  3.51it/s] 41%|████      | 150545/371472 [53:48<18:21:22,  3.34it/s] 41%|████      | 150546/371472 [53:48<18:22:30,  3.34it/s] 41%|████      | 150547/371472 [53:49<19:05:13,  3.22it/s] 41%|████      | 150548/371472 [53:49<18:07:56,  3.38it/s] 41%|████      | 150549/371472 [53:49<18:14:06,  3.37it/s] 41%|████      | 150550/371472 [53:49<17:47:00,  3.45it/s] 41%|████      | 150551/371472 [53:50<16:55:15,  3.63it/s] 41%|████      | 150552/371472 [53:50<17:41:48,  3.47it/s] 41%|████      | 150553/371472 [53:50<16:55:44,  3.62it/s] 41%|████      | 150554/371472 [53:50<16:24:37,  3.74it/s] 41%|████      | 150555/371472 [53:51<16:18:41,  3.76it/s] 41%|████      | 150556/371472 [53:51<16:23:13,  3.74it/s] 41%|████      | 150557/371472 [53:52<22:52:49,  2.68it/s] 41%|████      | 150558/371472 [53:52<20:55:43,  2.93it/s] 41%|████      | 150559/371472 [53:52<19:28:28,  3.15it/s] 41%|████      | 150560/371472 [53:52<18:38:00,  3.29it/s]                                                          {'loss': 3.2195, 'learning_rate': 6.355125083496736e-07, 'epoch': 6.48}
 41%|████      | 150560/371472 [53:52<18:38:00,  3.29it/s] 41%|████      | 150561/371472 [53:53<17:48:02,  3.45it/s] 41%|████      | 150562/371472 [53:53<17:25:26,  3.52it/s] 41%|████      | 150563/371472 [53:53<17:25:38,  3.52it/s] 41%|████      | 150564/371472 [53:54<17:02:49,  3.60it/s] 41%|████      | 150565/371472 [53:54<17:13:54,  3.56it/s] 41%|████      | 150566/371472 [53:54<16:53:45,  3.63it/s] 41%|████      | 150567/371472 [53:54<16:32:47,  3.71it/s] 41%|████      | 150568/371472 [53:55<16:28:50,  3.72it/s] 41%|████      | 150569/371472 [53:55<16:34:21,  3.70it/s] 41%|████      | 150570/371472 [53:55<16:09:14,  3.80it/s] 41%|████      | 150571/371472 [53:55<16:06:15,  3.81it/s] 41%|████      | 150572/371472 [53:56<17:18:33,  3.54it/s] 41%|████      | 150573/371472 [53:56<18:08:39,  3.38it/s] 41%|████      | 150574/371472 [53:56<17:25:25,  3.52it/s] 41%|████      | 150575/371472 [53:57<17:12:58,  3.56it/s] 41%|████      | 150576/371472 [53:57<17:14:59,  3.56it/s] 41%|████      | 150577/371472 [53:57<16:36:33,  3.69it/s] 41%|████      | 150578/371472 [53:57<17:24:04,  3.53it/s] 41%|████      | 150579/371472 [53:58<16:48:51,  3.65it/s] 41%|████      | 150580/371472 [53:58<17:34:38,  3.49it/s]                                                          {'loss': 3.2257, 'learning_rate': 6.354640263741946e-07, 'epoch': 6.49}
 41%|████      | 150580/371472 [53:58<17:34:38,  3.49it/s] 41%|████      | 150581/371472 [53:58<17:06:10,  3.59it/s] 41%|████      | 150582/371472 [53:58<16:42:59,  3.67it/s] 41%|████      | 150583/371472 [53:59<16:47:50,  3.65it/s] 41%|████      | 150584/371472 [53:59<17:00:08,  3.61it/s] 41%|████      | 150585/371472 [53:59<17:31:02,  3.50it/s] 41%|████      | 150586/371472 [54:00<16:56:37,  3.62it/s] 41%|████      | 150587/371472 [54:00<16:33:31,  3.71it/s] 41%|████      | 150588/371472 [54:00<16:27:44,  3.73it/s] 41%|████      | 150589/371472 [54:00<16:40:16,  3.68it/s] 41%|████      | 150590/371472 [54:01<16:18:08,  3.76it/s] 41%|████      | 150591/371472 [54:01<16:59:13,  3.61it/s] 41%|████      | 150592/371472 [54:01<16:51:47,  3.64it/s] 41%|████      | 150593/371472 [54:01<16:38:56,  3.69it/s] 41%|████      | 150594/371472 [54:02<16:17:22,  3.77it/s] 41%|████      | 150595/371472 [54:02<16:48:48,  3.65it/s] 41%|████      | 150596/371472 [54:02<16:39:57,  3.68it/s] 41%|████      | 150597/371472 [54:03<16:13:55,  3.78it/s] 41%|████      | 150598/371472 [54:03<16:08:30,  3.80it/s] 41%|████      | 150599/371472 [54:03<16:48:31,  3.65it/s] 41%|████      | 150600/371472 [54:03<17:15:06,  3.56it/s]                                                          {'loss': 3.0992, 'learning_rate': 6.354155443987157e-07, 'epoch': 6.49}
 41%|████      | 150600/371472 [54:03<17:15:06,  3.56it/s] 41%|████      | 150601/371472 [54:04<17:27:00,  3.52it/s] 41%|████      | 150602/371472 [54:04<17:27:46,  3.51it/s] 41%|████      | 150603/371472 [54:04<18:21:26,  3.34it/s] 41%|████      | 150604/371472 [54:05<17:32:13,  3.50it/s] 41%|████      | 150605/371472 [54:05<17:27:52,  3.51it/s] 41%|████      | 150606/371472 [54:05<17:03:22,  3.60it/s] 41%|████      | 150607/371472 [54:05<18:04:54,  3.39it/s] 41%|████      | 150608/371472 [54:06<17:44:11,  3.46it/s] 41%|████      | 150609/371472 [54:06<17:26:08,  3.52it/s] 41%|████      | 150610/371472 [54:06<17:50:47,  3.44it/s] 41%|████      | 150611/371472 [54:07<18:07:42,  3.38it/s] 41%|████      | 150612/371472 [54:07<18:00:36,  3.41it/s] 41%|████      | 150613/371472 [54:07<17:37:22,  3.48it/s] 41%|████      | 150614/371472 [54:08<18:38:08,  3.29it/s] 41%|████      | 150615/371472 [54:08<17:51:04,  3.44it/s] 41%|████      | 150616/371472 [54:08<17:51:20,  3.44it/s] 41%|████      | 150617/371472 [54:08<18:04:51,  3.39it/s] 41%|████      | 150618/371472 [54:09<18:22:05,  3.34it/s] 41%|████      | 150619/371472 [54:09<19:09:06,  3.20it/s] 41%|████      | 150620/371472 [54:09<18:11:34,  3.37it/s]                                                          {'loss': 3.1518, 'learning_rate': 6.353670624232369e-07, 'epoch': 6.49}
 41%|████      | 150620/371472 [54:09<18:11:34,  3.37it/s] 41%|████      | 150621/371472 [54:10<18:04:41,  3.39it/s] 41%|████      | 150622/371472 [54:10<18:07:39,  3.38it/s] 41%|████      | 150623/371472 [54:10<17:48:43,  3.44it/s] 41%|████      | 150624/371472 [54:10<17:47:39,  3.45it/s] 41%|████      | 150625/371472 [54:11<16:53:35,  3.63it/s] 41%|████      | 150626/371472 [54:11<16:25:48,  3.73it/s] 41%|████      | 150627/371472 [54:11<17:05:04,  3.59it/s] 41%|████      | 150628/371472 [54:12<17:11:43,  3.57it/s] 41%|████      | 150629/371472 [54:12<17:42:48,  3.46it/s] 41%|████      | 150630/371472 [54:12<17:05:18,  3.59it/s] 41%|████      | 150631/371472 [54:12<17:42:42,  3.46it/s] 41%|████      | 150632/371472 [54:13<17:16:58,  3.55it/s] 41%|████      | 150633/371472 [54:13<16:41:41,  3.67it/s] 41%|████      | 150634/371472 [54:13<16:25:14,  3.74it/s] 41%|████      | 150635/371472 [54:13<16:49:04,  3.65it/s] 41%|████      | 150636/371472 [54:14<16:51:45,  3.64it/s] 41%|████      | 150637/371472 [54:14<16:36:10,  3.69it/s] 41%|████      | 150638/371472 [54:14<17:29:35,  3.51it/s] 41%|████      | 150639/371472 [54:15<17:05:20,  3.59it/s] 41%|████      | 150640/371472 [54:15<17:26:55,  3.52it/s]                                                          {'loss': 3.0661, 'learning_rate': 6.353185804477581e-07, 'epoch': 6.49}
 41%|████      | 150640/371472 [54:15<17:26:55,  3.52it/s] 41%|████      | 150641/371472 [54:15<17:14:12,  3.56it/s] 41%|████      | 150642/371472 [54:15<17:50:22,  3.44it/s] 41%|████      | 150643/371472 [54:16<17:10:44,  3.57it/s] 41%|████      | 150644/371472 [54:16<16:40:38,  3.68it/s] 41%|████      | 150645/371472 [54:16<16:36:05,  3.69it/s] 41%|████      | 150646/371472 [54:17<16:44:15,  3.66it/s] 41%|████      | 150647/371472 [54:17<17:10:06,  3.57it/s] 41%|████      | 150648/371472 [54:17<16:48:12,  3.65it/s] 41%|████      | 150649/371472 [54:17<16:27:19,  3.73it/s] 41%|████      | 150650/371472 [54:18<17:53:54,  3.43it/s] 41%|████      | 150651/371472 [54:18<18:10:29,  3.37it/s] 41%|████      | 150652/371472 [54:18<19:13:49,  3.19it/s] 41%|████      | 150653/371472 [54:19<19:39:45,  3.12it/s] 41%|████      | 150654/371472 [54:19<18:44:08,  3.27it/s] 41%|████      | 150655/371472 [54:19<19:23:55,  3.16it/s] 41%|████      | 150656/371472 [54:20<18:54:15,  3.24it/s] 41%|████      | 150657/371472 [54:20<18:56:26,  3.24it/s] 41%|████      | 150658/371472 [54:20<20:03:11,  3.06it/s] 41%|████      | 150659/371472 [54:21<18:48:03,  3.26it/s] 41%|████      | 150660/371472 [54:21<19:50:04,  3.09it/s]                                                          {'loss': 3.2737, 'learning_rate': 6.35270098472279e-07, 'epoch': 6.49}
 41%|████      | 150660/371472 [54:21<19:50:04,  3.09it/s] 41%|████      | 150661/371472 [54:21<20:09:52,  3.04it/s] 41%|████      | 150662/371472 [54:21<18:43:24,  3.28it/s] 41%|████      | 150663/371472 [54:22<18:00:39,  3.41it/s] 41%|████      | 150664/371472 [54:22<18:20:44,  3.34it/s] 41%|████      | 150665/371472 [54:22<17:40:05,  3.47it/s] 41%|████      | 150666/371472 [54:23<18:19:14,  3.35it/s] 41%|████      | 150667/371472 [54:23<17:11:09,  3.57it/s] 41%|████      | 150668/371472 [54:23<16:59:11,  3.61it/s] 41%|████      | 150669/371472 [54:23<17:08:36,  3.58it/s] 41%|████      | 150670/371472 [54:24<16:39:48,  3.68it/s] 41%|████      | 150671/371472 [54:24<18:37:27,  3.29it/s] 41%|████      | 150672/371472 [54:24<17:50:41,  3.44it/s] 41%|████      | 150673/371472 [54:25<18:58:32,  3.23it/s] 41%|████      | 150674/371472 [54:25<18:40:56,  3.28it/s] 41%|████      | 150675/371472 [54:25<18:32:13,  3.31it/s] 41%|████      | 150676/371472 [54:26<17:39:55,  3.47it/s] 41%|████      | 150677/371472 [54:26<17:43:00,  3.46it/s] 41%|████      | 150678/371472 [54:26<17:23:41,  3.53it/s] 41%|████      | 150679/371472 [54:26<16:58:29,  3.61it/s] 41%|████      | 150680/371472 [54:27<16:42:09,  3.67it/s]                                                          {'loss': 3.1677, 'learning_rate': 6.352216164968001e-07, 'epoch': 6.49}
 41%|████      | 150680/371472 [54:27<16:42:09,  3.67it/s] 41%|████      | 150681/371472 [54:27<17:12:33,  3.56it/s] 41%|████      | 150682/371472 [54:27<17:06:00,  3.59it/s] 41%|████      | 150683/371472 [54:27<17:19:29,  3.54it/s] 41%|████      | 150684/371472 [54:28<19:41:24,  3.11it/s] 41%|████      | 150685/371472 [54:28<20:02:13,  3.06it/s] 41%|████      | 150686/371472 [54:28<18:37:42,  3.29it/s] 41%|████      | 150687/371472 [54:29<18:20:41,  3.34it/s] 41%|████      | 150688/371472 [54:29<18:35:42,  3.30it/s] 41%|████      | 150689/371472 [54:29<17:37:45,  3.48it/s] 41%|████      | 150690/371472 [54:30<18:11:50,  3.37it/s] 41%|████      | 150691/371472 [54:30<18:35:41,  3.30it/s] 41%|████      | 150692/371472 [54:30<17:37:02,  3.48it/s] 41%|████      | 150693/371472 [54:30<17:26:34,  3.52it/s] 41%|████      | 150694/371472 [54:31<16:53:15,  3.63it/s] 41%|████      | 150695/371472 [54:31<18:23:04,  3.34it/s] 41%|████      | 150696/371472 [54:31<17:59:51,  3.41it/s] 41%|████      | 150697/371472 [54:32<18:17:28,  3.35it/s] 41%|████      | 150698/371472 [54:32<18:09:28,  3.38it/s] 41%|████      | 150699/371472 [54:32<19:02:52,  3.22it/s] 41%|████      | 150700/371472 [54:33<19:16:08,  3.18it/s]                                                          {'loss': 3.0657, 'learning_rate': 6.351731345213213e-07, 'epoch': 6.49}
 41%|████      | 150700/371472 [54:33<19:16:08,  3.18it/s] 41%|████      | 150701/371472 [54:33<18:08:02,  3.38it/s] 41%|████      | 150702/371472 [54:33<17:45:37,  3.45it/s] 41%|████      | 150703/371472 [54:33<17:23:44,  3.53it/s] 41%|████      | 150704/371472 [54:34<16:42:46,  3.67it/s] 41%|████      | 150705/371472 [54:34<16:35:38,  3.70it/s] 41%|████      | 150706/371472 [54:34<16:15:27,  3.77it/s] 41%|████      | 150707/371472 [54:34<16:09:39,  3.79it/s] 41%|████      | 150708/371472 [54:35<16:39:32,  3.68it/s] 41%|████      | 150709/371472 [54:35<16:45:17,  3.66it/s] 41%|████      | 150710/371472 [54:35<18:09:11,  3.38it/s] 41%|████      | 150711/371472 [54:36<17:23:02,  3.53it/s] 41%|████      | 150712/371472 [54:36<17:16:20,  3.55it/s] 41%|████      | 150713/371472 [54:36<19:06:13,  3.21it/s] 41%|████      | 150714/371472 [54:37<19:01:20,  3.22it/s] 41%|████      | 150715/371472 [54:37<18:23:59,  3.33it/s] 41%|████      | 150716/371472 [54:37<17:58:43,  3.41it/s] 41%|████      | 150717/371472 [54:37<17:16:23,  3.55it/s] 41%|████      | 150718/371472 [54:38<17:08:15,  3.58it/s] 41%|████      | 150719/371472 [54:38<16:40:40,  3.68it/s] 41%|████      | 150720/371472 [54:38<16:52:22,  3.63it/s]                                                          {'loss': 3.2924, 'learning_rate': 6.351246525458425e-07, 'epoch': 6.49}
 41%|████      | 150720/371472 [54:38<16:52:22,  3.63it/s] 41%|████      | 150721/371472 [54:38<16:49:01,  3.65it/s] 41%|████      | 150722/371472 [54:39<17:36:05,  3.48it/s] 41%|████      | 150723/371472 [54:39<17:36:35,  3.48it/s] 41%|████      | 150724/371472 [54:39<18:42:34,  3.28it/s] 41%|████      | 150725/371472 [54:40<18:18:55,  3.35it/s] 41%|████      | 150726/371472 [54:40<18:22:27,  3.34it/s] 41%|████      | 150727/371472 [54:40<17:28:34,  3.51it/s] 41%|████      | 150728/371472 [54:41<17:01:28,  3.60it/s] 41%|████      | 150729/371472 [54:41<17:04:27,  3.59it/s] 41%|████      | 150730/371472 [54:41<18:58:31,  3.23it/s] 41%|████      | 150731/371472 [54:41<17:56:37,  3.42it/s] 41%|████      | 150732/371472 [54:42<17:52:55,  3.43it/s] 41%|████      | 150733/371472 [54:42<17:56:57,  3.42it/s] 41%|████      | 150734/371472 [54:42<17:39:39,  3.47it/s] 41%|████      | 150735/371472 [54:43<18:49:43,  3.26it/s] 41%|████      | 150736/371472 [54:43<18:06:54,  3.38it/s] 41%|████      | 150737/371472 [54:43<19:01:40,  3.22it/s] 41%|████      | 150738/371472 [54:44<18:24:12,  3.33it/s] 41%|████      | 150739/371472 [54:44<17:36:46,  3.48it/s] 41%|████      | 150740/371472 [54:44<16:53:00,  3.63it/s]                                                          {'loss': 3.133, 'learning_rate': 6.350761705703635e-07, 'epoch': 6.49}
 41%|████      | 150740/371472 [54:44<16:53:00,  3.63it/s] 41%|████      | 150741/371472 [54:44<16:09:32,  3.79it/s] 41%|████      | 150742/371472 [54:45<16:11:11,  3.79it/s] 41%|████      | 150743/371472 [54:45<17:31:53,  3.50it/s] 41%|████      | 150744/371472 [54:45<17:59:32,  3.41it/s] 41%|████      | 150745/371472 [54:45<17:42:03,  3.46it/s] 41%|████      | 150746/371472 [54:46<17:15:37,  3.55it/s] 41%|████      | 150747/371472 [54:46<17:16:53,  3.55it/s] 41%|████      | 150748/371472 [54:46<17:36:29,  3.48it/s] 41%|████      | 150749/371472 [54:47<18:20:23,  3.34it/s] 41%|████      | 150750/371472 [54:47<18:07:56,  3.38it/s] 41%|████      | 150751/371472 [54:47<17:18:12,  3.54it/s] 41%|████      | 150752/371472 [54:47<17:17:12,  3.55it/s] 41%|████      | 150753/371472 [54:48<16:53:23,  3.63it/s] 41%|████      | 150754/371472 [54:48<16:37:57,  3.69it/s] 41%|████      | 150755/371472 [54:48<16:35:51,  3.69it/s] 41%|████      | 150756/371472 [54:49<16:36:29,  3.69it/s] 41%|████      | 150757/371472 [54:49<16:22:12,  3.75it/s] 41%|████      | 150758/371472 [54:49<16:51:02,  3.64it/s] 41%|████      | 150759/371472 [54:49<17:04:10,  3.59it/s] 41%|████      | 150760/371472 [54:50<16:12:50,  3.78it/s]                                                          {'loss': 3.2698, 'learning_rate': 6.350276885948846e-07, 'epoch': 6.49}
 41%|████      | 150760/371472 [54:50<16:12:50,  3.78it/s] 41%|████      | 150761/371472 [54:50<16:15:02,  3.77it/s] 41%|████      | 150762/371472 [54:50<18:12:04,  3.37it/s] 41%|████      | 150763/371472 [54:51<17:49:42,  3.44it/s] 41%|████      | 150764/371472 [54:51<17:17:58,  3.54it/s] 41%|████      | 150765/371472 [54:51<16:39:06,  3.68it/s] 41%|████      | 150766/371472 [54:51<16:27:05,  3.73it/s] 41%|████      | 150767/371472 [54:52<19:00:06,  3.23it/s] 41%|████      | 150768/371472 [54:52<18:17:38,  3.35it/s] 41%|████      | 150769/371472 [54:52<18:26:54,  3.32it/s] 41%|████      | 150770/371472 [54:53<17:34:22,  3.49it/s] 41%|████      | 150771/371472 [54:53<17:05:33,  3.59it/s] 41%|████      | 150772/371472 [54:53<17:06:49,  3.58it/s] 41%|████      | 150773/371472 [54:53<16:41:53,  3.67it/s] 41%|████      | 150774/371472 [54:54<16:53:27,  3.63it/s] 41%|████      | 150775/371472 [54:54<16:33:41,  3.70it/s] 41%|████      | 150776/371472 [54:54<17:40:15,  3.47it/s] 41%|████      | 150777/371472 [54:55<18:44:01,  3.27it/s] 41%|████      | 150778/371472 [54:55<18:20:55,  3.34it/s] 41%|████      | 150779/371472 [54:55<17:50:30,  3.44it/s] 41%|████      | 150780/371472 [54:55<17:21:25,  3.53it/s]                                                          {'loss': 3.1313, 'learning_rate': 6.349792066194057e-07, 'epoch': 6.49}
 41%|████      | 150780/371472 [54:55<17:21:25,  3.53it/s] 41%|████      | 150781/371472 [54:56<18:01:07,  3.40it/s] 41%|████      | 150782/371472 [54:56<17:58:14,  3.41it/s] 41%|████      | 150783/371472 [54:56<17:58:13,  3.41it/s] 41%|████      | 150784/371472 [54:57<17:13:35,  3.56it/s] 41%|████      | 150785/371472 [54:57<17:16:23,  3.55it/s] 41%|████      | 150786/371472 [54:57<17:19:07,  3.54it/s] 41%|████      | 150787/371472 [54:57<16:43:55,  3.66it/s] 41%|████      | 150788/371472 [54:58<16:28:16,  3.72it/s] 41%|████      | 150789/371472 [54:58<16:41:22,  3.67it/s] 41%|████      | 150790/371472 [54:58<17:10:15,  3.57it/s] 41%|████      | 150791/371472 [54:58<17:16:50,  3.55it/s] 41%|████      | 150792/371472 [54:59<16:55:00,  3.62it/s] 41%|████      | 150793/371472 [54:59<16:57:10,  3.62it/s] 41%|████      | 150794/371472 [54:59<17:18:35,  3.54it/s] 41%|████      | 150795/371472 [55:00<17:23:01,  3.53it/s] 41%|████      | 150796/371472 [55:00<16:52:03,  3.63it/s] 41%|████      | 150797/371472 [55:00<18:20:19,  3.34it/s] 41%|████      | 150798/371472 [55:01<19:01:06,  3.22it/s] 41%|████      | 150799/371472 [55:01<18:54:23,  3.24it/s] 41%|████      | 150800/371472 [55:01<18:55:53,  3.24it/s]                                                          {'loss': 3.2371, 'learning_rate': 6.349307246439267e-07, 'epoch': 6.5}
 41%|████      | 150800/371472 [55:01<18:55:53,  3.24it/s] 41%|████      | 150801/371472 [55:01<17:52:55,  3.43it/s] 41%|████      | 150802/371472 [55:02<18:24:11,  3.33it/s] 41%|████      | 150803/371472 [55:02<17:40:53,  3.47it/s] 41%|████      | 150804/371472 [55:02<17:57:07,  3.41it/s] 41%|████      | 150805/371472 [55:03<17:35:15,  3.49it/s] 41%|████      | 150806/371472 [55:03<17:30:54,  3.50it/s] 41%|████      | 150807/371472 [55:03<16:54:59,  3.62it/s] 41%|████      | 150808/371472 [55:03<17:17:24,  3.55it/s] 41%|████      | 150809/371472 [55:04<16:56:33,  3.62it/s] 41%|████      | 150810/371472 [55:04<19:13:11,  3.19it/s] 41%|████      | 150811/371472 [55:04<20:22:10,  3.01it/s] 41%|████      | 150812/371472 [55:05<19:07:59,  3.20it/s] 41%|████      | 150813/371472 [55:05<17:59:31,  3.41it/s] 41%|████      | 150814/371472 [55:05<17:21:40,  3.53it/s] 41%|████      | 150815/371472 [55:05<17:07:27,  3.58it/s] 41%|████      | 150816/371472 [55:06<16:45:57,  3.66it/s] 41%|████      | 150817/371472 [55:06<16:38:30,  3.68it/s] 41%|████      | 150818/371472 [55:06<17:31:05,  3.50it/s] 41%|████      | 150819/371472 [55:07<17:21:00,  3.53it/s] 41%|████      | 150820/371472 [55:07<19:02:08,  3.22it/s]                                                          {'loss': 3.2759, 'learning_rate': 6.348822426684478e-07, 'epoch': 6.5}
 41%|████      | 150820/371472 [55:07<19:02:08,  3.22it/s] 41%|████      | 150821/371472 [55:07<19:03:41,  3.22it/s] 41%|████      | 150822/371472 [55:08<18:38:35,  3.29it/s] 41%|████      | 150823/371472 [55:08<18:19:07,  3.35it/s] 41%|████      | 150824/371472 [55:08<18:53:38,  3.24it/s] 41%|████      | 150825/371472 [55:08<18:48:33,  3.26it/s] 41%|████      | 150826/371472 [55:09<18:39:42,  3.28it/s] 41%|████      | 150827/371472 [55:09<18:55:07,  3.24it/s] 41%|████      | 150828/371472 [55:09<20:17:09,  3.02it/s] 41%|████      | 150829/371472 [55:10<20:01:33,  3.06it/s] 41%|████      | 150830/371472 [55:10<18:57:53,  3.23it/s] 41%|████      | 150831/371472 [55:10<18:13:10,  3.36it/s] 41%|████      | 150832/371472 [55:11<19:36:14,  3.13it/s] 41%|████      | 150833/371472 [55:11<18:30:14,  3.31it/s] 41%|████      | 150834/371472 [55:11<18:39:52,  3.28it/s] 41%|████      | 150835/371472 [55:12<18:31:26,  3.31it/s] 41%|████      | 150836/371472 [55:12<18:46:26,  3.26it/s] 41%|████      | 150837/371472 [55:12<18:29:05,  3.32it/s] 41%|████      | 150838/371472 [55:12<18:10:57,  3.37it/s] 41%|████      | 150839/371472 [55:13<18:45:51,  3.27it/s] 41%|████      | 150840/371472 [55:13<18:19:20,  3.34it/s]                                                          {'loss': 3.2162, 'learning_rate': 6.34833760692969e-07, 'epoch': 6.5}
 41%|████      | 150840/371472 [55:13<18:19:20,  3.34it/s] 41%|████      | 150841/371472 [55:13<17:51:56,  3.43it/s] 41%|████      | 150842/371472 [55:14<17:25:17,  3.52it/s] 41%|████      | 150843/371472 [55:14<17:10:42,  3.57it/s] 41%|████      | 150844/371472 [55:14<16:25:40,  3.73it/s] 41%|████      | 150845/371472 [55:15<18:35:59,  3.29it/s] 41%|████      | 150846/371472 [55:15<17:44:35,  3.45it/s] 41%|████      | 150847/371472 [55:15<18:17:40,  3.35it/s] 41%|████      | 150848/371472 [55:15<17:29:56,  3.50it/s] 41%|████      | 150849/371472 [55:16<17:05:35,  3.59it/s] 41%|████      | 150850/371472 [55:16<17:01:11,  3.60it/s] 41%|████      | 150851/371472 [55:16<16:52:17,  3.63it/s] 41%|████      | 150852/371472 [55:16<16:27:42,  3.72it/s] 41%|████      | 150853/371472 [55:17<16:32:07,  3.71it/s] 41%|████      | 150854/371472 [55:17<17:10:00,  3.57it/s] 41%|████      | 150855/371472 [55:17<16:54:49,  3.62it/s] 41%|████      | 150856/371472 [55:18<17:20:29,  3.53it/s] 41%|████      | 150857/371472 [55:18<18:25:56,  3.32it/s] 41%|████      | 150858/371472 [55:18<17:38:10,  3.47it/s] 41%|████      | 150859/371472 [55:18<17:37:10,  3.48it/s] 41%|████      | 150860/371472 [55:19<18:08:08,  3.38it/s]                                                          {'loss': 3.2815, 'learning_rate': 6.347852787174902e-07, 'epoch': 6.5}
 41%|████      | 150860/371472 [55:19<18:08:08,  3.38it/s] 41%|████      | 150861/371472 [55:19<18:11:07,  3.37it/s] 41%|████      | 150862/371472 [55:19<17:48:34,  3.44it/s] 41%|████      | 150863/371472 [55:20<17:07:15,  3.58it/s] 41%|████      | 150864/371472 [55:20<17:25:27,  3.52it/s] 41%|████      | 150865/371472 [55:20<17:01:09,  3.60it/s] 41%|████      | 150866/371472 [55:20<17:51:09,  3.43it/s] 41%|████      | 150867/371472 [55:21<17:13:43,  3.56it/s] 41%|████      | 150868/371472 [55:21<17:42:58,  3.46it/s] 41%|████      | 150869/371472 [55:21<16:56:18,  3.62it/s] 41%|████      | 150870/371472 [55:22<16:44:16,  3.66it/s] 41%|████      | 150871/371472 [55:22<16:01:08,  3.83it/s] 41%|████      | 150872/371472 [55:22<17:11:53,  3.56it/s] 41%|████      | 150873/371472 [55:22<17:09:06,  3.57it/s] 41%|████      | 150874/371472 [55:23<17:00:23,  3.60it/s] 41%|████      | 150875/371472 [55:23<17:18:42,  3.54it/s] 41%|████      | 150876/371472 [55:23<18:11:49,  3.37it/s] 41%|████      | 150877/371472 [55:24<18:33:53,  3.30it/s] 41%|████      | 150878/371472 [55:24<17:33:30,  3.49it/s] 41%|████      | 150879/371472 [55:24<17:17:04,  3.55it/s] 41%|████      | 150880/371472 [55:24<18:10:16,  3.37it/s]                                                          {'loss': 3.2053, 'learning_rate': 6.347367967420112e-07, 'epoch': 6.5}
 41%|████      | 150880/371472 [55:24<18:10:16,  3.37it/s] 41%|████      | 150881/371472 [55:25<17:31:34,  3.50it/s] 41%|████      | 150882/371472 [55:25<17:16:59,  3.55it/s] 41%|████      | 150883/371472 [55:25<17:01:04,  3.60it/s] 41%|████      | 150884/371472 [55:26<16:46:08,  3.65it/s] 41%|████      | 150885/371472 [55:26<16:32:59,  3.70it/s] 41%|████      | 150886/371472 [55:26<16:26:13,  3.73it/s] 41%|████      | 150887/371472 [55:26<19:17:49,  3.18it/s] 41%|████      | 150888/371472 [55:27<18:20:29,  3.34it/s] 41%|████      | 150889/371472 [55:27<18:07:42,  3.38it/s] 41%|████      | 150890/371472 [55:27<18:16:29,  3.35it/s] 41%|████      | 150891/371472 [55:28<17:35:06,  3.48it/s] 41%|████      | 150892/371472 [55:28<16:54:03,  3.63it/s] 41%|████      | 150893/371472 [55:28<16:35:30,  3.69it/s] 41%|████      | 150894/371472 [55:28<16:56:42,  3.62it/s] 41%|████      | 150895/371472 [55:29<16:47:04,  3.65it/s] 41%|████      | 150896/371472 [55:29<16:34:45,  3.70it/s] 41%|████      | 150897/371472 [55:29<16:31:30,  3.71it/s] 41%|████      | 150898/371472 [55:29<17:05:21,  3.59it/s] 41%|████      | 150899/371472 [55:30<16:52:08,  3.63it/s] 41%|████      | 150900/371472 [55:30<18:00:24,  3.40it/s]                                                          {'loss': 3.0438, 'learning_rate': 6.346883147665323e-07, 'epoch': 6.5}
 41%|████      | 150900/371472 [55:30<18:00:24,  3.40it/s] 41%|████      | 150901/371472 [55:30<18:38:30,  3.29it/s] 41%|████      | 150902/371472 [55:31<17:43:17,  3.46it/s] 41%|████      | 150903/371472 [55:31<17:06:53,  3.58it/s] 41%|████      | 150904/371472 [55:31<16:44:16,  3.66it/s] 41%|████      | 150905/371472 [55:31<16:33:47,  3.70it/s] 41%|████      | 150906/371472 [55:32<16:03:58,  3.81it/s] 41%|████      | 150907/371472 [55:32<17:11:28,  3.56it/s] 41%|████      | 150908/371472 [55:32<17:24:30,  3.52it/s] 41%|████      | 150909/371472 [55:33<17:19:58,  3.53it/s] 41%|████      | 150910/371472 [55:33<18:11:02,  3.37it/s] 41%|████      | 150911/371472 [55:33<17:47:48,  3.44it/s] 41%|████      | 150912/371472 [55:33<17:30:02,  3.50it/s] 41%|████      | 150913/371472 [55:34<17:26:46,  3.51it/s] 41%|████      | 150914/371472 [55:34<17:37:55,  3.47it/s] 41%|████      | 150915/371472 [55:34<16:56:08,  3.62it/s] 41%|████      | 150916/371472 [55:35<16:55:21,  3.62it/s] 41%|████      | 150917/371472 [55:35<16:47:56,  3.65it/s] 41%|████      | 150918/371472 [55:35<17:26:59,  3.51it/s] 41%|████      | 150919/371472 [55:35<16:52:36,  3.63it/s] 41%|████      | 150920/371472 [55:36<16:59:28,  3.61it/s]                                                          {'loss': 3.0184, 'learning_rate': 6.346398327910534e-07, 'epoch': 6.5}
 41%|████      | 150920/371472 [55:36<16:59:28,  3.61it/s] 41%|████      | 150921/371472 [55:36<20:51:36,  2.94it/s] 41%|████      | 150922/371472 [55:36<20:08:47,  3.04it/s] 41%|████      | 150923/371472 [55:37<19:29:51,  3.14it/s] 41%|████      | 150924/371472 [55:37<19:40:15,  3.11it/s] 41%|████      | 150925/371472 [55:37<18:28:16,  3.32it/s] 41%|████      | 150926/371472 [55:38<18:28:14,  3.32it/s] 41%|████      | 150927/371472 [55:38<18:42:08,  3.28it/s] 41%|████      | 150928/371472 [55:38<17:38:57,  3.47it/s] 41%|████      | 150929/371472 [55:38<17:16:39,  3.55it/s] 41%|████      | 150930/371472 [55:39<17:29:40,  3.50it/s] 41%|████      | 150931/371472 [55:39<17:03:56,  3.59it/s] 41%|████      | 150932/371472 [55:39<17:31:35,  3.50it/s] 41%|████      | 150933/371472 [55:40<19:45:17,  3.10it/s] 41%|████      | 150934/371472 [55:40<19:10:56,  3.19it/s] 41%|████      | 150935/371472 [55:40<20:39:23,  2.97it/s] 41%|████      | 150936/371472 [55:41<19:52:32,  3.08it/s] 41%|████      | 150937/371472 [55:41<19:36:05,  3.13it/s] 41%|████      | 150938/371472 [55:41<18:58:28,  3.23it/s] 41%|████      | 150939/371472 [55:42<18:46:51,  3.26it/s] 41%|████      | 150940/371472 [55:42<19:15:48,  3.18it/s]                                                          {'loss': 3.3741, 'learning_rate': 6.345913508155746e-07, 'epoch': 6.5}
 41%|████      | 150940/371472 [55:42<19:15:48,  3.18it/s] 41%|████      | 150941/371472 [55:42<19:18:27,  3.17it/s] 41%|████      | 150942/371472 [55:43<19:34:54,  3.13it/s] 41%|████      | 150943/371472 [55:43<18:07:00,  3.38it/s] 41%|████      | 150944/371472 [55:43<17:36:45,  3.48it/s] 41%|████      | 150945/371472 [55:43<17:25:02,  3.52it/s] 41%|████      | 150946/371472 [55:44<17:22:11,  3.53it/s] 41%|████      | 150947/371472 [55:44<16:59:28,  3.61it/s] 41%|████      | 150948/371472 [55:44<17:41:58,  3.46it/s] 41%|████      | 150949/371472 [55:44<16:51:20,  3.63it/s] 41%|████      | 150950/371472 [55:45<18:03:37,  3.39it/s] 41%|████      | 150951/371472 [55:45<17:55:46,  3.42it/s] 41%|████      | 150952/371472 [55:45<17:33:02,  3.49it/s] 41%|████      | 150953/371472 [55:46<17:42:51,  3.46it/s] 41%|████      | 150954/371472 [55:46<17:37:19,  3.48it/s] 41%|████      | 150955/371472 [55:46<19:09:46,  3.20it/s] 41%|████      | 150956/371472 [55:47<18:05:32,  3.39it/s] 41%|████      | 150957/371472 [55:47<18:35:53,  3.29it/s] 41%|████      | 150958/371472 [55:47<17:51:02,  3.43it/s] 41%|████      | 150959/371472 [55:47<18:02:01,  3.40it/s] 41%|████      | 150960/371472 [55:48<17:16:49,  3.54it/s]                                                          {'loss': 3.1052, 'learning_rate': 6.345428688400956e-07, 'epoch': 6.5}
 41%|████      | 150960/371472 [55:48<17:16:49,  3.54it/s] 41%|████      | 150961/371472 [55:48<18:23:02,  3.33it/s] 41%|████      | 150962/371472 [55:48<18:04:17,  3.39it/s] 41%|████      | 150963/371472 [55:49<17:35:34,  3.48it/s] 41%|████      | 150964/371472 [55:49<17:00:34,  3.60it/s] 41%|████      | 150965/371472 [55:49<17:47:39,  3.44it/s] 41%|████      | 150966/371472 [55:50<18:27:27,  3.32it/s] 41%|████      | 150967/371472 [55:50<17:33:58,  3.49it/s] 41%|████      | 150968/371472 [55:50<17:49:38,  3.44it/s] 41%|████      | 150969/371472 [55:50<18:19:24,  3.34it/s] 41%|████      | 150970/371472 [55:51<18:14:07,  3.36it/s] 41%|████      | 150971/371472 [55:51<18:53:11,  3.24it/s] 41%|████      | 150972/371472 [55:51<17:58:24,  3.41it/s] 41%|████      | 150973/371472 [55:52<17:32:01,  3.49it/s] 41%|████      | 150974/371472 [55:52<18:41:38,  3.28it/s] 41%|████      | 150975/371472 [55:52<18:16:47,  3.35it/s] 41%|████      | 150976/371472 [55:52<18:09:16,  3.37it/s] 41%|████      | 150977/371472 [55:53<18:13:40,  3.36it/s] 41%|████      | 150978/371472 [55:53<17:30:52,  3.50it/s] 41%|████      | 150979/371472 [55:53<17:00:12,  3.60it/s] 41%|████      | 150980/371472 [55:54<16:59:44,  3.60it/s]                                                          {'loss': 3.1962, 'learning_rate': 6.344943868646166e-07, 'epoch': 6.5}
 41%|████      | 150980/371472 [55:54<16:59:44,  3.60it/s] 41%|████      | 150981/371472 [55:54<17:06:05,  3.58it/s] 41%|████      | 150982/371472 [55:54<20:24:36,  3.00it/s] 41%|████      | 150983/371472 [55:55<19:26:32,  3.15it/s] 41%|████      | 150984/371472 [55:55<18:51:12,  3.25it/s] 41%|████      | 150985/371472 [55:55<18:23:30,  3.33it/s] 41%|████      | 150986/371472 [55:55<17:44:32,  3.45it/s] 41%|████      | 150987/371472 [55:56<18:07:11,  3.38it/s] 41%|████      | 150988/371472 [55:56<17:37:18,  3.48it/s] 41%|████      | 150989/371472 [55:56<17:35:11,  3.48it/s] 41%|████      | 150990/371472 [55:57<17:07:29,  3.58it/s] 41%|████      | 150991/371472 [55:57<17:05:37,  3.58it/s] 41%|████      | 150992/371472 [55:57<17:37:43,  3.47it/s] 41%|████      | 150993/371472 [55:57<17:13:52,  3.55it/s] 41%|████      | 150994/371472 [55:58<16:48:02,  3.65it/s] 41%|████      | 150995/371472 [55:58<16:22:36,  3.74it/s] 41%|████      | 150996/371472 [55:58<17:18:22,  3.54it/s] 41%|████      | 150997/371472 [55:59<16:50:25,  3.64it/s] 41%|████      | 150998/371472 [55:59<16:27:48,  3.72it/s] 41%|████      | 150999/371472 [55:59<16:34:35,  3.69it/s] 41%|████      | 151000/371472 [55:59<16:25:24,  3.73it/s]                                                          {'loss': 3.3044, 'learning_rate': 6.344459048891379e-07, 'epoch': 6.5}
 41%|████      | 151000/371472 [55:59<16:25:24,  3.73it/s] 41%|████      | 151001/371472 [56:00<18:44:27,  3.27it/s] 41%|████      | 151002/371472 [56:00<18:33:43,  3.30it/s] 41%|████      | 151003/371472 [56:00<18:37:47,  3.29it/s] 41%|████      | 151004/371472 [56:01<18:01:12,  3.40it/s] 41%|████      | 151005/371472 [56:01<17:34:28,  3.48it/s] 41%|████      | 151006/371472 [56:01<20:15:14,  3.02it/s] 41%|████      | 151007/371472 [56:02<19:10:52,  3.19it/s] 41%|████      | 151008/371472 [56:02<18:37:38,  3.29it/s] 41%|████      | 151009/371472 [56:02<18:06:41,  3.38it/s] 41%|████      | 151010/371472 [56:02<17:32:42,  3.49it/s] 41%|████      | 151011/371472 [56:03<18:12:11,  3.36it/s] 41%|████      | 151012/371472 [56:03<17:56:36,  3.41it/s] 41%|████      | 151013/371472 [56:03<18:03:47,  3.39it/s] 41%|████      | 151014/371472 [56:04<17:29:38,  3.50it/s] 41%|████      | 151015/371472 [56:04<16:57:04,  3.61it/s] 41%|████      | 151016/371472 [56:04<16:09:55,  3.79it/s] 41%|████      | 151017/371472 [56:04<16:19:43,  3.75it/s] 41%|████      | 151018/371472 [56:05<16:14:58,  3.77it/s] 41%|████      | 151019/371472 [56:05<16:07:20,  3.80it/s] 41%|████      | 151020/371472 [56:05<16:07:52,  3.80it/s]                                                          {'loss': 3.2766, 'learning_rate': 6.343974229136591e-07, 'epoch': 6.5}
 41%|████      | 151020/371472 [56:05<16:07:52,  3.80it/s] 41%|████      | 151021/371472 [56:05<16:52:32,  3.63it/s] 41%|████      | 151022/371472 [56:06<16:30:54,  3.71it/s] 41%|████      | 151023/371472 [56:06<16:32:07,  3.70it/s] 41%|████      | 151024/371472 [56:06<16:17:40,  3.76it/s] 41%|████      | 151025/371472 [56:06<17:00:35,  3.60it/s] 41%|████      | 151026/371472 [56:07<18:26:51,  3.32it/s] 41%|████      | 151027/371472 [56:07<17:49:00,  3.44it/s] 41%|████      | 151028/371472 [56:07<17:25:54,  3.51it/s] 41%|████      | 151029/371472 [56:08<17:36:56,  3.48it/s] 41%|████      | 151030/371472 [56:08<17:05:39,  3.58it/s] 41%|████      | 151031/371472 [56:08<17:34:19,  3.48it/s] 41%|████      | 151032/371472 [56:09<17:20:51,  3.53it/s] 41%|████      | 151033/371472 [56:09<17:22:56,  3.52it/s] 41%|████      | 151034/371472 [56:09<17:03:45,  3.59it/s] 41%|████      | 151035/371472 [56:09<17:11:38,  3.56it/s] 41%|████      | 151036/371472 [56:10<16:37:40,  3.68it/s] 41%|████      | 151037/371472 [56:10<16:57:34,  3.61it/s] 41%|████      | 151038/371472 [56:10<16:28:31,  3.72it/s] 41%|████      | 151039/371472 [56:10<16:09:21,  3.79it/s] 41%|████      | 151040/371472 [56:11<16:02:32,  3.82it/s]                                                          {'loss': 3.3033, 'learning_rate': 6.3434894093818e-07, 'epoch': 6.51}
 41%|████      | 151040/371472 [56:11<16:02:32,  3.82it/s] 41%|████      | 151041/371472 [56:11<16:08:01,  3.80it/s] 41%|████      | 151042/371472 [56:11<16:33:15,  3.70it/s] 41%|████      | 151043/371472 [56:11<16:55:27,  3.62it/s] 41%|████      | 151044/371472 [56:12<19:27:23,  3.15it/s] 41%|████      | 151045/371472 [56:12<19:24:19,  3.16it/s] 41%|████      | 151046/371472 [56:12<18:25:54,  3.32it/s] 41%|████      | 151047/371472 [56:13<21:51:53,  2.80it/s] 41%|████      | 151048/371472 [56:13<19:58:24,  3.07it/s] 41%|████      | 151049/371472 [56:13<18:54:54,  3.24it/s] 41%|████      | 151050/371472 [56:14<17:56:56,  3.41it/s] 41%|████      | 151051/371472 [56:14<17:11:27,  3.56it/s] 41%|████      | 151052/371472 [56:14<17:09:36,  3.57it/s] 41%|████      | 151053/371472 [56:15<16:53:05,  3.63it/s] 41%|████      | 151054/371472 [56:15<16:38:11,  3.68it/s] 41%|████      | 151055/371472 [56:15<16:48:40,  3.64it/s] 41%|████      | 151056/371472 [56:15<17:01:54,  3.59it/s] 41%|████      | 151057/371472 [56:16<16:39:53,  3.67it/s] 41%|████      | 151058/371472 [56:16<16:36:05,  3.69it/s] 41%|████      | 151059/371472 [56:16<17:22:44,  3.52it/s] 41%|████      | 151060/371472 [56:16<16:52:34,  3.63it/s]                                                          {'loss': 3.1664, 'learning_rate': 6.343004589627011e-07, 'epoch': 6.51}
 41%|████      | 151060/371472 [56:16<16:52:34,  3.63it/s] 41%|████      | 151061/371472 [56:17<17:45:11,  3.45it/s] 41%|████      | 151062/371472 [56:17<18:37:18,  3.29it/s] 41%|████      | 151063/371472 [56:17<19:08:57,  3.20it/s] 41%|████      | 151064/371472 [56:18<19:22:45,  3.16it/s] 41%|████      | 151065/371472 [56:18<20:13:42,  3.03it/s] 41%|████      | 151066/371472 [56:18<19:05:36,  3.21it/s] 41%|████      | 151067/371472 [56:19<18:58:43,  3.23it/s] 41%|████      | 151068/371472 [56:19<18:10:09,  3.37it/s] 41%|████      | 151069/371472 [56:19<17:51:45,  3.43it/s] 41%|████      | 151070/371472 [56:20<17:06:42,  3.58it/s] 41%|████      | 151071/371472 [56:20<17:16:57,  3.54it/s] 41%|████      | 151072/371472 [56:20<16:43:50,  3.66it/s] 41%|████      | 151073/371472 [56:20<16:31:24,  3.71it/s] 41%|████      | 151074/371472 [56:21<17:04:10,  3.59it/s] 41%|████      | 151075/371472 [56:21<17:02:19,  3.59it/s] 41%|████      | 151076/371472 [56:21<17:51:02,  3.43it/s] 41%|████      | 151077/371472 [56:22<17:43:54,  3.45it/s] 41%|████      | 151078/371472 [56:22<17:38:24,  3.47it/s] 41%|████      | 151079/371472 [56:22<17:15:50,  3.55it/s] 41%|████      | 151080/371472 [56:22<17:49:57,  3.43it/s]                                                          {'loss': 3.1834, 'learning_rate': 6.342519769872223e-07, 'epoch': 6.51}
 41%|████      | 151080/371472 [56:22<17:49:57,  3.43it/s] 41%|████      | 151081/371472 [56:23<17:26:52,  3.51it/s] 41%|████      | 151082/371472 [56:23<17:04:30,  3.59it/s] 41%|████      | 151083/371472 [56:23<16:42:39,  3.66it/s] 41%|████      | 151084/371472 [56:23<16:58:44,  3.61it/s] 41%|████      | 151085/371472 [56:24<17:43:19,  3.45it/s] 41%|████      | 151086/371472 [56:24<17:12:16,  3.56it/s] 41%|████      | 151087/371472 [56:24<17:56:42,  3.41it/s] 41%|████      | 151088/371472 [56:25<17:12:01,  3.56it/s] 41%|████      | 151089/371472 [56:25<17:55:26,  3.42it/s] 41%|████      | 151090/371472 [56:25<17:56:18,  3.41it/s] 41%|████      | 151091/371472 [56:25<17:27:57,  3.50it/s] 41%|████      | 151092/371472 [56:26<16:47:01,  3.65it/s] 41%|████      | 151093/371472 [56:26<17:35:39,  3.48it/s] 41%|████      | 151094/371472 [56:26<17:39:03,  3.47it/s] 41%|████      | 151095/371472 [56:27<17:02:37,  3.59it/s] 41%|████      | 151096/371472 [56:27<18:37:10,  3.29it/s] 41%|████      | 151097/371472 [56:27<20:03:09,  3.05it/s] 41%|████      | 151098/371472 [56:28<20:00:22,  3.06it/s] 41%|████      | 151099/371472 [56:28<20:09:54,  3.04it/s] 41%|████      | 151100/371472 [56:28<21:23:41,  2.86it/s]                                                          {'loss': 3.1871, 'learning_rate': 6.342034950117435e-07, 'epoch': 6.51}
 41%|████      | 151100/371472 [56:28<21:23:41,  2.86it/s] 41%|████      | 151101/371472 [56:29<20:23:15,  3.00it/s] 41%|████      | 151102/371472 [56:29<19:09:49,  3.19it/s] 41%|████      | 151103/371472 [56:29<19:10:45,  3.19it/s] 41%|████      | 151104/371472 [56:30<18:27:11,  3.32it/s] 41%|████      | 151105/371472 [56:30<18:51:02,  3.25it/s] 41%|████      | 151106/371472 [56:30<18:04:32,  3.39it/s] 41%|████      | 151107/371472 [56:30<17:47:21,  3.44it/s] 41%|████      | 151108/371472 [56:31<17:13:14,  3.55it/s] 41%|████      | 151109/371472 [56:31<17:18:20,  3.54it/s] 41%|████      | 151110/371472 [56:31<17:07:30,  3.57it/s] 41%|████      | 151111/371472 [56:32<16:55:06,  3.62it/s] 41%|████      | 151112/371472 [56:32<16:50:38,  3.63it/s] 41%|████      | 151113/371472 [56:32<16:47:49,  3.64it/s] 41%|████      | 151114/371472 [56:32<16:40:22,  3.67it/s] 41%|████      | 151115/371472 [56:33<16:48:48,  3.64it/s] 41%|████      | 151116/371472 [56:33<18:31:16,  3.30it/s] 41%|████      | 151117/371472 [56:33<17:53:03,  3.42it/s] 41%|████      | 151118/371472 [56:33<17:22:48,  3.52it/s] 41%|████      | 151119/371472 [56:34<17:37:04,  3.47it/s] 41%|████      | 151120/371472 [56:34<17:48:35,  3.44it/s]                                                          {'loss': 3.2427, 'learning_rate': 6.341550130362645e-07, 'epoch': 6.51}
 41%|████      | 151120/371472 [56:34<17:48:35,  3.44it/s] 41%|████      | 151121/371472 [56:34<17:10:47,  3.56it/s] 41%|████      | 151122/371472 [56:35<17:38:14,  3.47it/s] 41%|████      | 151123/371472 [56:35<17:40:55,  3.46it/s] 41%|████      | 151124/371472 [56:35<17:50:23,  3.43it/s] 41%|████      | 151125/371472 [56:36<17:15:07,  3.55it/s] 41%|████      | 151126/371472 [56:36<18:50:44,  3.25it/s] 41%|████      | 151127/371472 [56:36<17:44:52,  3.45it/s] 41%|████      | 151128/371472 [56:36<17:18:03,  3.54it/s] 41%|████      | 151129/371472 [56:37<16:51:10,  3.63it/s] 41%|████      | 151130/371472 [56:37<16:44:05,  3.66it/s] 41%|████      | 151131/371472 [56:37<16:21:04,  3.74it/s] 41%|████      | 151132/371472 [56:37<16:31:09,  3.71it/s] 41%|████      | 151133/371472 [56:38<16:34:29,  3.69it/s] 41%|████      | 151134/371472 [56:38<16:55:22,  3.62it/s] 41%|████      | 151135/371472 [56:38<16:46:21,  3.65it/s] 41%|████      | 151136/371472 [56:39<18:30:36,  3.31it/s] 41%|████      | 151137/371472 [56:39<18:48:22,  3.25it/s] 41%|████      | 151138/371472 [56:39<18:28:30,  3.31it/s] 41%|████      | 151139/371472 [56:40<17:50:13,  3.43it/s] 41%|████      | 151140/371472 [56:40<17:20:58,  3.53it/s]                                                          {'loss': 3.23, 'learning_rate': 6.341065310607856e-07, 'epoch': 6.51}
 41%|████      | 151140/371472 [56:40<17:20:58,  3.53it/s] 41%|████      | 151141/371472 [56:40<17:25:57,  3.51it/s] 41%|████      | 151142/371472 [56:40<16:54:51,  3.62it/s] 41%|████      | 151143/371472 [56:41<17:42:15,  3.46it/s] 41%|████      | 151144/371472 [56:41<17:08:17,  3.57it/s] 41%|████      | 151145/371472 [56:41<16:58:56,  3.60it/s] 41%|████      | 151146/371472 [56:41<17:08:52,  3.57it/s] 41%|████      | 151147/371472 [56:42<16:46:57,  3.65it/s] 41%|████      | 151148/371472 [56:42<16:34:19,  3.69it/s] 41%|████      | 151149/371472 [56:42<16:16:38,  3.76it/s] 41%|████      | 151150/371472 [56:42<16:09:38,  3.79it/s] 41%|████      | 151151/371472 [56:43<16:40:40,  3.67it/s] 41%|████      | 151152/371472 [56:43<16:28:44,  3.71it/s] 41%|████      | 151153/371472 [56:43<17:54:15,  3.42it/s] 41%|████      | 151154/371472 [56:44<17:48:00,  3.44it/s] 41%|████      | 151155/371472 [56:44<17:10:26,  3.56it/s] 41%|████      | 151156/371472 [56:44<17:16:55,  3.54it/s] 41%|████      | 151157/371472 [56:45<17:04:59,  3.58it/s] 41%|████      | 151158/371472 [56:45<17:25:35,  3.51it/s] 41%|████      | 151159/371472 [56:45<17:14:34,  3.55it/s] 41%|████      | 151160/371472 [56:45<19:18:49,  3.17it/s]                                                          {'loss': 3.3137, 'learning_rate': 6.340580490853067e-07, 'epoch': 6.51}
 41%|████      | 151160/371472 [56:45<19:18:49,  3.17it/s] 41%|████      | 151161/371472 [56:46<18:38:28,  3.28it/s] 41%|████      | 151162/371472 [56:46<17:55:47,  3.41it/s] 41%|████      | 151163/371472 [56:46<17:50:43,  3.43it/s] 41%|████      | 151164/371472 [56:47<18:20:40,  3.34it/s] 41%|████      | 151165/371472 [56:47<19:34:33,  3.13it/s] 41%|████      | 151166/371472 [56:47<18:31:35,  3.30it/s] 41%|████      | 151167/371472 [56:48<18:06:35,  3.38it/s] 41%|████      | 151168/371472 [56:48<20:11:57,  3.03it/s] 41%|████      | 151169/371472 [56:48<19:24:38,  3.15it/s] 41%|████      | 151170/371472 [56:48<18:32:10,  3.30it/s] 41%|████      | 151171/371472 [56:49<18:13:06,  3.36it/s] 41%|████      | 151172/371472 [56:49<17:41:17,  3.46it/s] 41%|████      | 151173/371472 [56:49<17:22:44,  3.52it/s] 41%|████      | 151174/371472 [56:50<17:12:18,  3.56it/s] 41%|████      | 151175/371472 [56:50<16:30:09,  3.71it/s] 41%|████      | 151176/371472 [56:50<16:32:59,  3.70it/s] 41%|████      | 151177/371472 [56:50<16:34:25,  3.69it/s] 41%|████      | 151178/371472 [56:51<16:43:33,  3.66it/s] 41%|████      | 151179/371472 [56:51<17:23:59,  3.52it/s] 41%|████      | 151180/371472 [56:51<17:59:37,  3.40it/s]                                                          {'loss': 3.1036, 'learning_rate': 6.340095671098278e-07, 'epoch': 6.51}
 41%|████      | 151180/371472 [56:51<17:59:37,  3.40it/s] 41%|████      | 151181/371472 [56:52<17:22:10,  3.52it/s] 41%|████      | 151182/371472 [56:52<18:10:37,  3.37it/s] 41%|████      | 151183/371472 [56:52<17:42:03,  3.46it/s] 41%|████      | 151184/371472 [56:52<17:28:25,  3.50it/s] 41%|████      | 151185/371472 [56:53<17:43:25,  3.45it/s] 41%|████      | 151186/371472 [56:53<17:38:43,  3.47it/s] 41%|████      | 151187/371472 [56:53<17:44:43,  3.45it/s] 41%|████      | 151188/371472 [56:54<17:06:35,  3.58it/s] 41%|████      | 151189/371472 [56:54<18:26:17,  3.32it/s] 41%|████      | 151190/371472 [56:54<18:03:13,  3.39it/s] 41%|████      | 151191/371472 [56:54<17:12:56,  3.55it/s] 41%|████      | 151192/371472 [56:55<17:00:36,  3.60it/s] 41%|████      | 151193/371472 [56:55<18:27:03,  3.32it/s] 41%|████      | 151194/371472 [56:55<17:56:27,  3.41it/s] 41%|████      | 151195/371472 [56:56<17:17:11,  3.54it/s] 41%|████      | 151196/371472 [56:56<17:06:31,  3.58it/s] 41%|████      | 151197/371472 [56:56<16:43:31,  3.66it/s] 41%|████      | 151198/371472 [56:56<16:59:29,  3.60it/s] 41%|████      | 151199/371472 [56:57<16:54:15,  3.62it/s] 41%|████      | 151200/371472 [56:57<16:57:32,  3.61it/s]                                                          {'loss': 3.1338, 'learning_rate': 6.339610851343489e-07, 'epoch': 6.51}
 41%|████      | 151200/371472 [56:57<16:57:32,  3.61it/s] 41%|████      | 151201/371472 [56:57<16:45:48,  3.65it/s] 41%|████      | 151202/371472 [56:57<16:20:33,  3.74it/s] 41%|████      | 151203/371472 [56:58<16:36:17,  3.68it/s] 41%|████      | 151204/371472 [56:58<17:02:27,  3.59it/s] 41%|████      | 151205/371472 [56:58<16:55:55,  3.61it/s] 41%|████      | 151206/371472 [56:59<16:59:50,  3.60it/s] 41%|████      | 151207/371472 [56:59<17:46:47,  3.44it/s] 41%|████      | 151208/371472 [56:59<17:57:11,  3.41it/s] 41%|████      | 151209/371472 [57:00<18:17:09,  3.35it/s] 41%|████      | 151210/371472 [57:00<17:34:52,  3.48it/s] 41%|████      | 151211/371472 [57:00<17:56:30,  3.41it/s] 41%|████      | 151212/371472 [57:00<17:36:23,  3.48it/s] 41%|████      | 151213/371472 [57:01<17:42:43,  3.45it/s] 41%|████      | 151214/371472 [57:01<17:29:10,  3.50it/s] 41%|████      | 151215/371472 [57:01<17:14:01,  3.55it/s] 41%|████      | 151216/371472 [57:02<17:05:48,  3.58it/s] 41%|████      | 151217/371472 [57:02<17:38:23,  3.47it/s] 41%|████      | 151218/371472 [57:02<18:37:50,  3.28it/s] 41%|████      | 151219/371472 [57:02<17:42:13,  3.46it/s] 41%|████      | 151220/371472 [57:03<17:11:03,  3.56it/s]                                                          {'loss': 3.1616, 'learning_rate': 6.3391260315887e-07, 'epoch': 6.51}
 41%|████      | 151220/371472 [57:03<17:11:03,  3.56it/s] 41%|████      | 151221/371472 [57:03<16:56:43,  3.61it/s] 41%|████      | 151222/371472 [57:03<18:16:12,  3.35it/s] 41%|████      | 151223/371472 [57:04<17:38:29,  3.47it/s] 41%|████      | 151224/371472 [57:04<17:04:46,  3.58it/s] 41%|████      | 151225/371472 [57:04<16:51:02,  3.63it/s] 41%|████      | 151226/371472 [57:04<17:18:44,  3.53it/s] 41%|████      | 151227/371472 [57:05<16:55:54,  3.61it/s] 41%|████      | 151228/371472 [57:05<17:10:24,  3.56it/s] 41%|████      | 151229/371472 [57:05<17:28:08,  3.50it/s] 41%|████      | 151230/371472 [57:06<18:22:42,  3.33it/s] 41%|████      | 151231/371472 [57:06<20:22:20,  3.00it/s] 41%|████      | 151232/371472 [57:06<19:10:06,  3.19it/s] 41%|████      | 151233/371472 [57:07<18:26:51,  3.32it/s] 41%|████      | 151234/371472 [57:07<18:35:21,  3.29it/s] 41%|████      | 151235/371472 [57:07<17:50:29,  3.43it/s] 41%|████      | 151236/371472 [57:07<17:19:49,  3.53it/s] 41%|████      | 151237/371472 [57:08<17:40:53,  3.46it/s] 41%|████      | 151238/371472 [57:08<17:43:18,  3.45it/s] 41%|████      | 151239/371472 [57:08<17:08:09,  3.57it/s] 41%|████      | 151240/371472 [57:09<17:33:34,  3.48it/s]                                                          {'loss': 3.0813, 'learning_rate': 6.338641211833912e-07, 'epoch': 6.51}
 41%|████      | 151240/371472 [57:09<17:33:34,  3.48it/s] 41%|████      | 151241/371472 [57:09<17:28:26,  3.50it/s] 41%|████      | 151242/371472 [57:09<17:10:16,  3.56it/s] 41%|████      | 151243/371472 [57:09<16:52:14,  3.63it/s] 41%|████      | 151244/371472 [57:10<19:24:02,  3.15it/s] 41%|████      | 151245/371472 [57:10<18:34:47,  3.29it/s] 41%|████      | 151246/371472 [57:10<18:23:14,  3.33it/s] 41%|████      | 151247/371472 [57:11<18:31:38,  3.30it/s] 41%|████      | 151248/371472 [57:11<18:53:27,  3.24it/s] 41%|████      | 151249/371472 [57:11<18:03:49,  3.39it/s] 41%|████      | 151250/371472 [57:12<18:47:44,  3.25it/s] 41%|████      | 151251/371472 [57:12<18:08:27,  3.37it/s] 41%|████      | 151252/371472 [57:12<18:34:08,  3.29it/s] 41%|████      | 151253/371472 [57:12<18:29:25,  3.31it/s] 41%|████      | 151254/371472 [57:13<20:25:12,  3.00it/s] 41%|████      | 151255/371472 [57:13<19:28:33,  3.14it/s] 41%|████      | 151256/371472 [57:13<18:40:16,  3.28it/s] 41%|████      | 151257/371472 [57:14<17:49:08,  3.43it/s] 41%|████      | 151258/371472 [57:14<17:35:06,  3.48it/s] 41%|████      | 151259/371472 [57:14<18:35:32,  3.29it/s] 41%|████      | 151260/371472 [57:15<17:39:55,  3.46it/s]                                                          {'loss': 3.2859, 'learning_rate': 6.338156392079123e-07, 'epoch': 6.52}
 41%|████      | 151260/371472 [57:15<17:39:55,  3.46it/s] 41%|████      | 151261/371472 [57:15<17:22:23,  3.52it/s] 41%|████      | 151262/371472 [57:15<16:55:35,  3.61it/s] 41%|████      | 151263/371472 [57:15<16:18:55,  3.75it/s] 41%|████      | 151264/371472 [57:16<16:40:03,  3.67it/s] 41%|████      | 151265/371472 [57:16<16:24:23,  3.73it/s] 41%|████      | 151266/371472 [57:16<15:50:59,  3.86it/s] 41%|████      | 151267/371472 [57:16<15:47:51,  3.87it/s] 41%|████      | 151268/371472 [57:17<15:50:45,  3.86it/s] 41%|████      | 151269/371472 [57:17<16:01:46,  3.82it/s] 41%|████      | 151270/371472 [57:17<16:14:35,  3.77it/s] 41%|████      | 151271/371472 [57:17<16:21:22,  3.74it/s] 41%|████      | 151272/371472 [57:18<16:21:50,  3.74it/s] 41%|████      | 151273/371472 [57:18<16:24:16,  3.73it/s] 41%|████      | 151274/371472 [57:18<17:18:53,  3.53it/s] 41%|████      | 151275/371472 [57:19<17:13:16,  3.55it/s] 41%|████      | 151276/371472 [57:19<16:46:03,  3.65it/s] 41%|████      | 151277/371472 [57:19<17:40:16,  3.46it/s] 41%|████      | 151278/371472 [57:19<17:54:29,  3.42it/s] 41%|████      | 151279/371472 [57:20<19:16:13,  3.17it/s] 41%|████      | 151280/371472 [57:20<18:40:43,  3.27it/s]                                                          {'loss': 3.1865, 'learning_rate': 6.337671572324333e-07, 'epoch': 6.52}
 41%|████      | 151280/371472 [57:20<18:40:43,  3.27it/s] 41%|████      | 151281/371472 [57:20<18:29:00,  3.31it/s] 41%|████      | 151282/371472 [57:21<18:12:51,  3.36it/s] 41%|████      | 151283/371472 [57:21<17:56:27,  3.41it/s] 41%|████      | 151284/371472 [57:21<19:05:30,  3.20it/s] 41%|████      | 151285/371472 [57:22<18:34:32,  3.29it/s] 41%|████      | 151286/371472 [57:22<17:39:02,  3.47it/s] 41%|████      | 151287/371472 [57:22<17:08:50,  3.57it/s] 41%|████      | 151288/371472 [57:22<17:23:54,  3.52it/s] 41%|████      | 151289/371472 [57:23<17:04:54,  3.58it/s] 41%|████      | 151290/371472 [57:23<18:01:27,  3.39it/s] 41%|████      | 151291/371472 [57:23<17:40:10,  3.46it/s] 41%|████      | 151292/371472 [57:24<17:02:01,  3.59it/s] 41%|████      | 151293/371472 [57:24<16:33:10,  3.69it/s] 41%|████      | 151294/371472 [57:24<16:31:00,  3.70it/s] 41%|████      | 151295/371472 [57:24<16:51:31,  3.63it/s] 41%|████      | 151296/371472 [57:25<17:02:20,  3.59it/s] 41%|████      | 151297/371472 [57:25<17:07:35,  3.57it/s] 41%|████      | 151298/371472 [57:25<17:39:52,  3.46it/s] 41%|████      | 151299/371472 [57:26<17:47:07,  3.44it/s] 41%|████      | 151300/371472 [57:26<18:29:30,  3.31it/s]                                                          {'loss': 3.1541, 'learning_rate': 6.337186752569544e-07, 'epoch': 6.52}
 41%|████      | 151300/371472 [57:26<18:29:30,  3.31it/s] 41%|████      | 151301/371472 [57:26<18:08:07,  3.37it/s] 41%|████      | 151302/371472 [57:27<20:02:44,  3.05it/s] 41%|████      | 151303/371472 [57:27<19:24:16,  3.15it/s] 41%|████      | 151304/371472 [57:27<19:06:20,  3.20it/s] 41%|████      | 151305/371472 [57:27<20:22:45,  3.00it/s] 41%|████      | 151306/371472 [57:28<20:41:00,  2.96it/s] 41%|████      | 151307/371472 [57:28<20:32:48,  2.98it/s] 41%|████      | 151308/371472 [57:28<19:12:17,  3.18it/s] 41%|████      | 151309/371472 [57:29<19:06:50,  3.20it/s] 41%|████      | 151310/371472 [57:29<18:31:13,  3.30it/s] 41%|████      | 151311/371472 [57:29<18:11:07,  3.36it/s] 41%|████      | 151312/371472 [57:30<17:44:27,  3.45it/s] 41%|████      | 151313/371472 [57:30<17:43:29,  3.45it/s] 41%|████      | 151314/371472 [57:30<17:06:16,  3.58it/s] 41%|████      | 151315/371472 [57:30<17:03:07,  3.59it/s] 41%|████      | 151316/371472 [57:31<17:13:01,  3.55it/s] 41%|████      | 151317/371472 [57:31<17:12:56,  3.55it/s] 41%|████      | 151318/371472 [57:31<17:28:43,  3.50it/s] 41%|████      | 151319/371472 [57:32<17:39:17,  3.46it/s] 41%|████      | 151320/371472 [57:32<17:05:09,  3.58it/s]                                                          {'loss': 3.029, 'learning_rate': 6.336701932814756e-07, 'epoch': 6.52}
 41%|████      | 151320/371472 [57:32<17:05:09,  3.58it/s] 41%|████      | 151321/371472 [57:32<16:32:50,  3.70it/s] 41%|████      | 151322/371472 [57:32<16:35:20,  3.69it/s] 41%|████      | 151323/371472 [57:33<15:57:29,  3.83it/s] 41%|████      | 151324/371472 [57:33<15:53:01,  3.85it/s] 41%|████      | 151325/371472 [57:33<16:00:17,  3.82it/s] 41%|████      | 151326/371472 [57:33<16:00:29,  3.82it/s] 41%|████      | 151327/371472 [57:34<16:07:57,  3.79it/s] 41%|████      | 151328/371472 [57:34<16:11:41,  3.78it/s] 41%|████      | 151329/371472 [57:34<16:20:52,  3.74it/s] 41%|████      | 151330/371472 [57:34<16:14:05,  3.77it/s] 41%|████      | 151331/371472 [57:35<16:36:57,  3.68it/s] 41%|████      | 151332/371472 [57:35<17:15:14,  3.54it/s] 41%|████      | 151333/371472 [57:35<17:53:17,  3.42it/s] 41%|████      | 151334/371472 [57:36<17:39:00,  3.46it/s] 41%|████      | 151335/371472 [57:36<17:00:13,  3.60it/s] 41%|████      | 151336/371472 [57:36<17:30:42,  3.49it/s] 41%|████      | 151337/371472 [57:36<17:38:28,  3.47it/s] 41%|████      | 151338/371472 [57:37<17:13:30,  3.55it/s] 41%|████      | 151339/371472 [57:37<16:58:32,  3.60it/s] 41%|████      | 151340/371472 [57:37<17:46:31,  3.44it/s]                                                          {'loss': 3.133, 'learning_rate': 6.336217113059966e-07, 'epoch': 6.52}
 41%|████      | 151340/371472 [57:37<17:46:31,  3.44it/s] 41%|████      | 151341/371472 [57:38<18:01:02,  3.39it/s] 41%|████      | 151342/371472 [57:38<17:31:18,  3.49it/s] 41%|████      | 151343/371472 [57:38<17:48:48,  3.43it/s] 41%|████      | 151344/371472 [57:38<17:46:28,  3.44it/s] 41%|████      | 151345/371472 [57:39<17:20:57,  3.52it/s] 41%|████      | 151346/371472 [57:39<18:29:32,  3.31it/s] 41%|████      | 151347/371472 [57:39<18:24:55,  3.32it/s] 41%|████      | 151348/371472 [57:40<17:19:40,  3.53it/s] 41%|████      | 151349/371472 [57:40<17:02:20,  3.59it/s] 41%|████      | 151350/371472 [57:40<17:07:32,  3.57it/s] 41%|████      | 151351/371472 [57:40<16:40:44,  3.67it/s] 41%|████      | 151352/371472 [57:41<17:34:44,  3.48it/s] 41%|████      | 151353/371472 [57:41<18:16:27,  3.35it/s] 41%|████      | 151354/371472 [57:41<18:15:19,  3.35it/s] 41%|████      | 151355/371472 [57:42<19:08:32,  3.19it/s] 41%|████      | 151356/371472 [57:42<19:18:10,  3.17it/s] 41%|████      | 151357/371472 [57:42<19:07:16,  3.20it/s] 41%|████      | 151358/371472 [57:43<18:20:57,  3.33it/s] 41%|████      | 151359/371472 [57:43<18:01:59,  3.39it/s] 41%|████      | 151360/371472 [57:43<18:46:35,  3.26it/s]                                                          {'loss': 3.2914, 'learning_rate': 6.335732293305177e-07, 'epoch': 6.52}
 41%|████      | 151360/371472 [57:43<18:46:35,  3.26it/s] 41%|████      | 151361/371472 [57:44<18:33:57,  3.29it/s] 41%|████      | 151362/371472 [57:44<17:29:57,  3.49it/s] 41%|████      | 151363/371472 [57:44<17:33:11,  3.48it/s] 41%|████      | 151364/371472 [57:44<17:44:48,  3.45it/s] 41%|████      | 151365/371472 [57:45<17:38:28,  3.47it/s] 41%|████      | 151366/371472 [57:45<18:51:22,  3.24it/s] 41%|████      | 151367/371472 [57:45<19:12:06,  3.18it/s] 41%|████      | 151368/371472 [57:46<18:28:24,  3.31it/s] 41%|████      | 151369/371472 [57:46<17:30:46,  3.49it/s] 41%|████      | 151370/371472 [57:46<17:09:39,  3.56it/s] 41%|████      | 151371/371472 [57:46<16:42:48,  3.66it/s] 41%|████      | 151372/371472 [57:47<17:06:24,  3.57it/s] 41%|████      | 151373/371472 [57:47<16:25:31,  3.72it/s] 41%|████      | 151374/371472 [57:47<16:56:49,  3.61it/s] 41%|████      | 151375/371472 [57:48<18:16:15,  3.35it/s] 41%|████      | 151376/371472 [57:48<18:03:06,  3.39it/s] 41%|████      | 151377/371472 [57:48<17:51:54,  3.42it/s] 41%|████      | 151378/371472 [57:48<18:04:11,  3.38it/s] 41%|████      | 151379/371472 [57:49<17:56:20,  3.41it/s] 41%|████      | 151380/371472 [57:49<17:35:49,  3.47it/s]                                                          {'loss': 3.2836, 'learning_rate': 6.335247473550389e-07, 'epoch': 6.52}
 41%|████      | 151380/371472 [57:49<17:35:49,  3.47it/s] 41%|████      | 151381/371472 [57:49<17:54:42,  3.41it/s] 41%|████      | 151382/371472 [57:50<18:17:45,  3.34it/s] 41%|████      | 151383/371472 [57:50<19:24:56,  3.15it/s] 41%|████      | 151384/371472 [57:50<19:39:31,  3.11it/s] 41%|████      | 151385/371472 [57:51<18:56:07,  3.23it/s] 41%|████      | 151386/371472 [57:51<19:53:46,  3.07it/s] 41%|████      | 151387/371472 [57:51<18:53:40,  3.24it/s] 41%|████      | 151388/371472 [57:52<18:06:46,  3.38it/s] 41%|████      | 151389/371472 [57:52<17:53:49,  3.42it/s] 41%|████      | 151390/371472 [57:52<21:19:34,  2.87it/s] 41%|████      | 151391/371472 [57:53<20:01:33,  3.05it/s] 41%|████      | 151392/371472 [57:53<19:54:50,  3.07it/s] 41%|████      | 151393/371472 [57:53<19:22:48,  3.15it/s] 41%|████      | 151394/371472 [57:53<18:44:06,  3.26it/s] 41%|████      | 151395/371472 [57:54<17:46:46,  3.44it/s] 41%|████      | 151396/371472 [57:54<17:48:04,  3.43it/s] 41%|████      | 151397/371472 [57:54<17:15:23,  3.54it/s] 41%|████      | 151398/371472 [57:55<17:39:00,  3.46it/s] 41%|████      | 151399/371472 [57:55<17:18:15,  3.53it/s] 41%|████      | 151400/371472 [57:55<16:31:23,  3.70it/s]                                                          {'loss': 3.2255, 'learning_rate': 6.3347626537956e-07, 'epoch': 6.52}
 41%|████      | 151400/371472 [57:55<16:31:23,  3.70it/s] 41%|████      | 151401/371472 [57:55<16:40:17,  3.67it/s] 41%|████      | 151402/371472 [57:56<21:33:31,  2.84it/s] 41%|████      | 151403/371472 [57:56<20:12:00,  3.03it/s] 41%|████      | 151404/371472 [57:56<19:25:17,  3.15it/s] 41%|████      | 151405/371472 [57:57<19:03:04,  3.21it/s] 41%|████      | 151406/371472 [57:57<19:02:36,  3.21it/s] 41%|████      | 151407/371472 [57:57<18:45:11,  3.26it/s] 41%|████      | 151408/371472 [57:58<18:34:38,  3.29it/s] 41%|████      | 151409/371472 [57:58<17:53:10,  3.42it/s] 41%|████      | 151410/371472 [57:58<18:23:45,  3.32it/s] 41%|████      | 151411/371472 [57:59<17:41:03,  3.46it/s] 41%|████      | 151412/371472 [57:59<18:19:39,  3.34it/s] 41%|████      | 151413/371472 [57:59<18:46:13,  3.26it/s] 41%|████      | 151414/371472 [57:59<18:19:54,  3.33it/s] 41%|████      | 151415/371472 [58:00<17:23:01,  3.52it/s] 41%|████      | 151416/371472 [58:00<17:24:52,  3.51it/s] 41%|████      | 151417/371472 [58:00<17:04:22,  3.58it/s] 41%|████      | 151418/371472 [58:01<16:44:25,  3.65it/s] 41%|████      | 151419/371472 [58:01<16:36:39,  3.68it/s] 41%|████      | 151420/371472 [58:01<16:51:27,  3.63it/s]                                                          {'loss': 3.3299, 'learning_rate': 6.33427783404081e-07, 'epoch': 6.52}
 41%|████      | 151420/371472 [58:01<16:51:27,  3.63it/s] 41%|████      | 151421/371472 [58:01<17:25:24,  3.51it/s] 41%|████      | 151422/371472 [58:02<17:22:50,  3.52it/s] 41%|████      | 151423/371472 [58:02<16:59:45,  3.60it/s] 41%|████      | 151424/371472 [58:02<17:22:56,  3.52it/s] 41%|████      | 151425/371472 [58:02<16:54:15,  3.62it/s] 41%|████      | 151426/371472 [58:03<17:13:12,  3.55it/s] 41%|████      | 151427/371472 [58:03<17:08:07,  3.57it/s] 41%|████      | 151428/371472 [58:03<17:45:29,  3.44it/s] 41%|████      | 151429/371472 [58:04<18:09:28,  3.37it/s] 41%|████      | 151430/371472 [58:04<17:41:46,  3.45it/s] 41%|████      | 151431/371472 [58:04<17:41:09,  3.46it/s] 41%|████      | 151432/371472 [58:04<17:12:07,  3.55it/s] 41%|████      | 151433/371472 [58:05<16:36:16,  3.68it/s] 41%|████      | 151434/371472 [58:05<17:26:20,  3.50it/s] 41%|████      | 151435/371472 [58:05<17:19:54,  3.53it/s] 41%|████      | 151436/371472 [58:06<17:15:22,  3.54it/s] 41%|████      | 151437/371472 [58:06<17:11:34,  3.56it/s] 41%|████      | 151438/371472 [58:06<17:42:18,  3.45it/s] 41%|████      | 151439/371472 [58:07<17:41:40,  3.45it/s] 41%|████      | 151440/371472 [58:07<17:55:52,  3.41it/s]                                                          {'loss': 3.2435, 'learning_rate': 6.333793014286021e-07, 'epoch': 6.52}
 41%|████      | 151440/371472 [58:07<17:55:52,  3.41it/s] 41%|████      | 151441/371472 [58:07<17:32:37,  3.48it/s] 41%|████      | 151442/371472 [58:07<17:23:32,  3.51it/s] 41%|████      | 151443/371472 [58:08<17:32:31,  3.48it/s] 41%|████      | 151444/371472 [58:08<18:01:02,  3.39it/s] 41%|████      | 151445/371472 [58:08<17:13:20,  3.55it/s] 41%|████      | 151446/371472 [58:09<18:10:12,  3.36it/s] 41%|████      | 151447/371472 [58:09<17:35:13,  3.48it/s] 41%|████      | 151448/371472 [58:09<16:55:31,  3.61it/s] 41%|████      | 151449/371472 [58:09<17:12:21,  3.55it/s] 41%|████      | 151450/371472 [58:10<17:06:58,  3.57it/s] 41%|████      | 151451/371472 [58:10<16:52:38,  3.62it/s] 41%|████      | 151452/371472 [58:10<17:47:33,  3.43it/s] 41%|████      | 151453/371472 [58:10<17:00:13,  3.59it/s] 41%|████      | 151454/371472 [58:11<16:39:50,  3.67it/s] 41%|████      | 151455/371472 [58:11<16:23:09,  3.73it/s] 41%|████      | 151456/371472 [58:11<16:13:31,  3.77it/s] 41%|████      | 151457/371472 [58:12<16:07:25,  3.79it/s] 41%|████      | 151458/371472 [58:12<17:12:19,  3.55it/s] 41%|████      | 151459/371472 [58:12<16:48:54,  3.63it/s] 41%|████      | 151460/371472 [58:12<17:36:35,  3.47it/s]                                                          {'loss': 3.3106, 'learning_rate': 6.333308194531233e-07, 'epoch': 6.52}
 41%|████      | 151460/371472 [58:12<17:36:35,  3.47it/s] 41%|████      | 151461/371472 [58:13<18:32:08,  3.30it/s] 41%|████      | 151462/371472 [58:13<18:04:58,  3.38it/s] 41%|████      | 151463/371472 [58:13<17:38:48,  3.46it/s] 41%|████      | 151464/371472 [58:14<16:59:56,  3.60it/s] 41%|████      | 151465/371472 [58:14<17:01:48,  3.59it/s] 41%|████      | 151466/371472 [58:14<17:37:14,  3.47it/s] 41%|████      | 151467/371472 [58:14<17:24:39,  3.51it/s] 41%|████      | 151468/371472 [58:15<17:44:53,  3.44it/s] 41%|████      | 151469/371472 [58:15<18:39:14,  3.28it/s] 41%|████      | 151470/371472 [58:15<17:39:40,  3.46it/s] 41%|████      | 151471/371472 [58:16<17:11:50,  3.55it/s] 41%|████      | 151472/371472 [58:16<17:54:15,  3.41it/s] 41%|████      | 151473/371472 [58:16<17:07:01,  3.57it/s] 41%|████      | 151474/371472 [58:16<16:28:37,  3.71it/s] 41%|████      | 151475/371472 [58:17<17:18:44,  3.53it/s] 41%|████      | 151476/371472 [58:17<16:50:45,  3.63it/s] 41%|████      | 151477/371472 [58:17<16:22:01,  3.73it/s] 41%|████      | 151478/371472 [58:17<16:10:04,  3.78it/s] 41%|████      | 151479/371472 [58:18<16:02:17,  3.81it/s] 41%|████      | 151480/371472 [58:18<16:49:09,  3.63it/s]                                                          {'loss': 3.2409, 'learning_rate': 6.332823374776444e-07, 'epoch': 6.52}
 41%|████      | 151480/371472 [58:18<16:49:09,  3.63it/s] 41%|████      | 151481/371472 [58:18<16:44:16,  3.65it/s] 41%|████      | 151482/371472 [58:19<17:39:16,  3.46it/s] 41%|████      | 151483/371472 [58:19<17:23:18,  3.51it/s] 41%|████      | 151484/371472 [58:19<18:02:39,  3.39it/s] 41%|████      | 151485/371472 [58:20<18:08:01,  3.37it/s] 41%|████      | 151486/371472 [58:20<17:51:00,  3.42it/s] 41%|████      | 151487/371472 [58:20<17:52:38,  3.42it/s] 41%|████      | 151488/371472 [58:20<17:49:04,  3.43it/s] 41%|████      | 151489/371472 [58:21<17:30:16,  3.49it/s] 41%|████      | 151490/371472 [58:21<17:28:30,  3.50it/s] 41%|████      | 151491/371472 [58:21<16:36:54,  3.68it/s] 41%|████      | 151492/371472 [58:21<17:17:14,  3.53it/s] 41%|████      | 151493/371472 [58:22<16:32:28,  3.69it/s] 41%|████      | 151494/371472 [58:22<16:45:53,  3.64it/s] 41%|████      | 151495/371472 [58:22<17:43:45,  3.45it/s] 41%|████      | 151496/371472 [58:23<17:13:58,  3.55it/s] 41%|████      | 151497/371472 [58:23<17:21:45,  3.52it/s] 41%|████      | 151498/371472 [58:23<18:24:06,  3.32it/s] 41%|████      | 151499/371472 [58:23<17:32:08,  3.48it/s] 41%|████      | 151500/371472 [58:24<16:58:50,  3.60it/s]                                                          {'loss': 3.3589, 'learning_rate': 6.332338555021656e-07, 'epoch': 6.53}
 41%|████      | 151500/371472 [58:24<16:58:50,  3.60it/s] 41%|████      | 151501/371472 [58:24<17:10:36,  3.56it/s] 41%|████      | 151502/371472 [58:24<18:36:49,  3.28it/s] 41%|████      | 151503/371472 [58:25<17:54:34,  3.41it/s] 41%|████      | 151504/371472 [58:25<17:22:04,  3.52it/s] 41%|████      | 151505/371472 [58:25<17:55:40,  3.41it/s] 41%|████      | 151506/371472 [58:25<17:03:18,  3.58it/s] 41%|████      | 151507/371472 [58:26<17:11:04,  3.56it/s] 41%|████      | 151508/371472 [58:26<17:17:58,  3.53it/s] 41%|████      | 151509/371472 [58:26<17:05:33,  3.57it/s] 41%|████      | 151510/371472 [58:27<17:36:03,  3.47it/s] 41%|████      | 151511/371472 [58:27<17:25:29,  3.51it/s] 41%|████      | 151512/371472 [58:27<18:36:00,  3.28it/s] 41%|████      | 151513/371472 [58:28<17:34:39,  3.48it/s] 41%|████      | 151514/371472 [58:28<17:18:27,  3.53it/s] 41%|████      | 151515/371472 [58:28<17:33:45,  3.48it/s] 41%|████      | 151516/371472 [58:28<17:39:10,  3.46it/s] 41%|████      | 151517/371472 [58:29<17:14:24,  3.54it/s] 41%|████      | 151518/371472 [58:29<17:22:10,  3.52it/s] 41%|████      | 151519/371472 [58:29<17:03:38,  3.58it/s] 41%|████      | 151520/371472 [58:29<16:49:51,  3.63it/s]                                                          {'loss': 3.4613, 'learning_rate': 6.331853735266866e-07, 'epoch': 6.53}
 41%|████      | 151520/371472 [58:29<16:49:51,  3.63it/s] 41%|████      | 151521/371472 [58:30<16:59:43,  3.59it/s] 41%|████      | 151522/371472 [58:30<17:57:31,  3.40it/s] 41%|████      | 151523/371472 [58:30<18:15:48,  3.35it/s] 41%|████      | 151524/371472 [58:31<18:36:43,  3.28it/s] 41%|████      | 151525/371472 [58:31<18:13:03,  3.35it/s] 41%|████      | 151526/371472 [58:31<18:01:28,  3.39it/s] 41%|████      | 151527/371472 [58:32<17:30:29,  3.49it/s] 41%|████      | 151528/371472 [58:32<17:28:24,  3.50it/s] 41%|████      | 151529/371472 [58:32<17:42:55,  3.45it/s] 41%|████      | 151530/371472 [58:32<17:41:03,  3.45it/s] 41%|████      | 151531/371472 [58:33<17:16:17,  3.54it/s] 41%|████      | 151532/371472 [58:33<17:52:37,  3.42it/s] 41%|████      | 151533/371472 [58:33<18:57:27,  3.22it/s] 41%|████      | 151534/371472 [58:34<18:41:43,  3.27it/s] 41%|████      | 151535/371472 [58:34<18:24:27,  3.32it/s] 41%|████      | 151536/371472 [58:34<17:45:44,  3.44it/s] 41%|████      | 151537/371472 [58:35<17:52:32,  3.42it/s] 41%|████      | 151538/371472 [58:35<17:30:55,  3.49it/s] 41%|████      | 151539/371472 [58:35<17:47:37,  3.43it/s] 41%|████      | 151540/371472 [58:35<17:51:40,  3.42it/s]                                                          {'loss': 3.1135, 'learning_rate': 6.331368915512077e-07, 'epoch': 6.53}
 41%|████      | 151540/371472 [58:35<17:51:40,  3.42it/s] 41%|████      | 151541/371472 [58:36<17:39:56,  3.46it/s] 41%|████      | 151542/371472 [58:36<17:36:08,  3.47it/s] 41%|████      | 151543/371472 [58:36<16:53:14,  3.62it/s] 41%|████      | 151544/371472 [58:36<17:10:13,  3.56it/s] 41%|████      | 151545/371472 [58:37<17:18:39,  3.53it/s] 41%|████      | 151546/371472 [58:37<16:42:46,  3.66it/s] 41%|████      | 151547/371472 [58:37<17:46:47,  3.44it/s] 41%|████      | 151548/371472 [58:38<18:04:34,  3.38it/s] 41%|████      | 151549/371472 [58:38<18:28:46,  3.31it/s] 41%|████      | 151550/371472 [58:38<19:19:43,  3.16it/s] 41%|████      | 151551/371472 [58:39<18:31:51,  3.30it/s] 41%|████      | 151552/371472 [58:39<17:49:46,  3.43it/s] 41%|████      | 151553/371472 [58:39<17:59:19,  3.40it/s] 41%|████      | 151554/371472 [58:39<17:06:17,  3.57it/s] 41%|████      | 151555/371472 [58:40<18:53:49,  3.23it/s] 41%|████      | 151556/371472 [58:40<18:43:45,  3.26it/s] 41%|████      | 151557/371472 [58:40<18:38:52,  3.28it/s] 41%|████      | 151558/371472 [58:41<20:07:24,  3.04it/s] 41%|████      | 151559/371472 [58:41<20:02:34,  3.05it/s] 41%|████      | 151560/371472 [58:41<19:07:15,  3.19it/s]                                                          {'loss': 3.2255, 'learning_rate': 6.330884095757288e-07, 'epoch': 6.53}
 41%|████      | 151560/371472 [58:41<19:07:15,  3.19it/s] 41%|████      | 151561/371472 [58:42<18:45:49,  3.26it/s] 41%|████      | 151562/371472 [58:42<18:11:50,  3.36it/s] 41%|████      | 151563/371472 [58:42<18:13:19,  3.35it/s] 41%|████      | 151564/371472 [58:43<17:21:36,  3.52it/s] 41%|████      | 151565/371472 [58:43<17:17:25,  3.53it/s] 41%|████      | 151566/371472 [58:43<17:03:19,  3.58it/s] 41%|████      | 151567/371472 [58:43<18:19:53,  3.33it/s] 41%|████      | 151568/371472 [58:44<17:55:35,  3.41it/s] 41%|████      | 151569/371472 [58:44<17:34:48,  3.47it/s] 41%|████      | 151570/371472 [58:44<17:29:26,  3.49it/s] 41%|████      | 151571/371472 [58:45<17:00:25,  3.59it/s] 41%|████      | 151572/371472 [58:45<16:53:51,  3.61it/s] 41%|████      | 151573/371472 [58:45<16:51:31,  3.62it/s] 41%|████      | 151574/371472 [58:45<16:35:21,  3.68it/s] 41%|████      | 151575/371472 [58:46<16:33:17,  3.69it/s] 41%|████      | 151576/371472 [58:46<17:59:42,  3.39it/s] 41%|████      | 151577/371472 [58:46<17:23:04,  3.51it/s] 41%|████      | 151578/371472 [58:47<18:40:50,  3.27it/s] 41%|████      | 151579/371472 [58:47<18:39:21,  3.27it/s] 41%|████      | 151580/371472 [58:47<17:57:13,  3.40it/s]                                                          {'loss': 3.2843, 'learning_rate': 6.330399276002499e-07, 'epoch': 6.53}
 41%|████      | 151580/371472 [58:47<17:57:13,  3.40it/s] 41%|████      | 151581/371472 [58:47<17:11:58,  3.55it/s] 41%|████      | 151582/371472 [58:48<16:40:26,  3.66it/s] 41%|████      | 151583/371472 [58:48<16:48:01,  3.64it/s] 41%|████      | 151584/371472 [58:48<17:40:40,  3.46it/s] 41%|████      | 151585/371472 [58:48<17:01:49,  3.59it/s] 41%|████      | 151586/371472 [58:49<17:01:39,  3.59it/s] 41%|████      | 151587/371472 [58:49<17:47:51,  3.43it/s] 41%|████      | 151588/371472 [58:49<17:03:21,  3.58it/s] 41%|████      | 151589/371472 [58:50<16:14:55,  3.76it/s] 41%|████      | 151590/371472 [58:50<18:00:36,  3.39it/s] 41%|████      | 151591/371472 [58:50<19:12:20,  3.18it/s] 41%|████      | 151592/371472 [58:51<18:22:10,  3.32it/s] 41%|████      | 151593/371472 [58:51<17:37:59,  3.46it/s] 41%|████      | 151594/371472 [58:51<16:56:10,  3.61it/s] 41%|████      | 151595/371472 [58:51<16:41:06,  3.66it/s] 41%|████      | 151596/371472 [58:52<16:41:33,  3.66it/s] 41%|████      | 151597/371472 [58:52<16:52:48,  3.62it/s] 41%|████      | 151598/371472 [58:52<18:33:32,  3.29it/s] 41%|████      | 151599/371472 [58:53<18:11:09,  3.36it/s] 41%|████      | 151600/371472 [58:53<17:44:41,  3.44it/s]                                                          {'loss': 3.1606, 'learning_rate': 6.32991445624771e-07, 'epoch': 6.53}
 41%|████      | 151600/371472 [58:53<17:44:41,  3.44it/s] 41%|████      | 151601/371472 [58:53<16:53:13,  3.62it/s] 41%|████      | 151602/371472 [58:54<20:21:26,  3.00it/s] 41%|████      | 151603/371472 [58:54<20:56:52,  2.92it/s] 41%|████      | 151604/371472 [58:54<20:05:10,  3.04it/s] 41%|████      | 151605/371472 [58:54<18:48:14,  3.25it/s] 41%|████      | 151606/371472 [58:55<17:44:30,  3.44it/s] 41%|████      | 151607/371472 [58:55<17:10:05,  3.56it/s] 41%|████      | 151608/371472 [58:55<16:42:11,  3.66it/s] 41%|████      | 151609/371472 [58:56<19:00:38,  3.21it/s] 41%|████      | 151610/371472 [58:56<17:36:41,  3.47it/s] 41%|████      | 151611/371472 [58:56<16:51:37,  3.62it/s] 41%|████      | 151612/371472 [58:56<16:16:05,  3.75it/s] 41%|████      | 151613/371472 [58:57<16:06:37,  3.79it/s] 41%|████      | 151614/371472 [58:57<16:16:51,  3.75it/s] 41%|████      | 151615/371472 [58:57<16:20:33,  3.74it/s] 41%|████      | 151616/371472 [58:57<16:29:01,  3.70it/s] 41%|████      | 151617/371472 [58:58<17:48:06,  3.43it/s] 41%|████      | 151618/371472 [58:58<17:20:55,  3.52it/s] 41%|████      | 151619/371472 [58:58<16:55:14,  3.61it/s] 41%|████      | 151620/371472 [58:59<19:09:44,  3.19it/s]                                                          {'loss': 3.2635, 'learning_rate': 6.329429636492922e-07, 'epoch': 6.53}
 41%|████      | 151620/371472 [58:59<19:09:44,  3.19it/s] 41%|████      | 151621/371472 [58:59<18:26:19,  3.31it/s] 41%|████      | 151622/371472 [58:59<17:19:04,  3.53it/s] 41%|████      | 151623/371472 [59:00<18:49:33,  3.24it/s] 41%|████      | 151624/371472 [59:00<18:30:30,  3.30it/s] 41%|████      | 151625/371472 [59:00<17:47:41,  3.43it/s] 41%|████      | 151626/371472 [59:00<17:19:25,  3.53it/s] 41%|████      | 151627/371472 [59:01<16:48:59,  3.63it/s] 41%|████      | 151628/371472 [59:01<16:07:39,  3.79it/s] 41%|████      | 151629/371472 [59:01<17:38:29,  3.46it/s] 41%|████      | 151630/371472 [59:01<16:49:33,  3.63it/s] 41%|████      | 151631/371472 [59:02<17:30:21,  3.49it/s] 41%|████      | 151632/371472 [59:02<18:21:42,  3.33it/s] 41%|████      | 151633/371472 [59:02<18:09:15,  3.36it/s] 41%|████      | 151634/371472 [59:03<18:30:00,  3.30it/s] 41%|████      | 151635/371472 [59:03<18:41:36,  3.27it/s] 41%|████      | 151636/371472 [59:03<17:46:46,  3.43it/s] 41%|████      | 151637/371472 [59:04<17:11:20,  3.55it/s] 41%|████      | 151638/371472 [59:04<16:29:43,  3.70it/s] 41%|████      | 151639/371472 [59:04<16:57:09,  3.60it/s] 41%|████      | 151640/371472 [59:04<17:32:11,  3.48it/s]                                                          {'loss': 3.2793, 'learning_rate': 6.328944816738133e-07, 'epoch': 6.53}
 41%|████      | 151640/371472 [59:04<17:32:11,  3.48it/s] 41%|████      | 151641/371472 [59:05<17:26:25,  3.50it/s] 41%|████      | 151642/371472 [59:05<16:51:19,  3.62it/s] 41%|████      | 151643/371472 [59:05<16:35:37,  3.68it/s] 41%|████      | 151644/371472 [59:05<17:01:43,  3.59it/s] 41%|████      | 151645/371472 [59:06<17:15:25,  3.54it/s] 41%|████      | 151646/371472 [59:06<18:40:25,  3.27it/s] 41%|████      | 151647/371472 [59:06<17:44:06,  3.44it/s] 41%|████      | 151648/371472 [59:07<17:55:28,  3.41it/s] 41%|████      | 151649/371472 [59:07<17:16:04,  3.54it/s] 41%|████      | 151650/371472 [59:07<16:48:01,  3.63it/s] 41%|████      | 151651/371472 [59:07<16:36:54,  3.68it/s] 41%|████      | 151652/371472 [59:08<16:21:16,  3.73it/s] 41%|████      | 151653/371472 [59:08<15:51:59,  3.85it/s] 41%|████      | 151654/371472 [59:08<16:05:28,  3.79it/s] 41%|████      | 151655/371472 [59:09<18:06:15,  3.37it/s] 41%|████      | 151656/371472 [59:09<17:05:02,  3.57it/s] 41%|████      | 151657/371472 [59:09<17:26:50,  3.50it/s] 41%|████      | 151658/371472 [59:09<17:45:13,  3.44it/s] 41%|████      | 151659/371472 [59:10<17:15:37,  3.54it/s] 41%|████      | 151660/371472 [59:10<16:41:06,  3.66it/s]                                                          {'loss': 3.1173, 'learning_rate': 6.328459996983344e-07, 'epoch': 6.53}
 41%|████      | 151660/371472 [59:10<16:41:06,  3.66it/s] 41%|████      | 151661/371472 [59:10<16:41:53,  3.66it/s] 41%|████      | 151662/371472 [59:11<17:07:45,  3.56it/s] 41%|████      | 151663/371472 [59:11<16:57:52,  3.60it/s] 41%|████      | 151664/371472 [59:11<17:07:26,  3.57it/s] 41%|████      | 151665/371472 [59:11<18:09:51,  3.36it/s] 41%|████      | 151666/371472 [59:12<17:09:10,  3.56it/s] 41%|████      | 151667/371472 [59:12<16:59:01,  3.60it/s] 41%|████      | 151668/371472 [59:12<16:38:28,  3.67it/s] 41%|████      | 151669/371472 [59:12<16:35:01,  3.68it/s] 41%|████      | 151670/371472 [59:13<16:41:26,  3.66it/s] 41%|████      | 151671/371472 [59:13<16:50:08,  3.63it/s] 41%|████      | 151672/371472 [59:13<17:28:58,  3.49it/s] 41%|████      | 151673/371472 [59:14<16:47:53,  3.63it/s] 41%|████      | 151674/371472 [59:14<17:28:48,  3.49it/s] 41%|████      | 151675/371472 [59:14<16:46:41,  3.64it/s] 41%|████      | 151676/371472 [59:14<17:02:41,  3.58it/s] 41%|████      | 151677/371472 [59:15<17:01:59,  3.58it/s] 41%|████      | 151678/371472 [59:15<16:51:00,  3.62it/s] 41%|████      | 151679/371472 [59:15<16:30:04,  3.70it/s] 41%|████      | 151680/371472 [59:16<16:23:45,  3.72it/s]                                                          {'loss': 3.0246, 'learning_rate': 6.327975177228554e-07, 'epoch': 6.53}
 41%|████      | 151680/371472 [59:16<16:23:45,  3.72it/s] 41%|████      | 151681/371472 [59:16<16:11:03,  3.77it/s] 41%|████      | 151682/371472 [59:16<16:48:28,  3.63it/s] 41%|████      | 151683/371472 [59:16<16:59:25,  3.59it/s] 41%|████      | 151684/371472 [59:17<16:41:44,  3.66it/s] 41%|████      | 151685/371472 [59:17<16:47:29,  3.64it/s] 41%|████      | 151686/371472 [59:17<16:57:30,  3.60it/s] 41%|████      | 151687/371472 [59:17<16:36:48,  3.67it/s] 41%|████      | 151688/371472 [59:18<19:40:14,  3.10it/s] 41%|████      | 151689/371472 [59:18<19:21:18,  3.15it/s] 41%|████      | 151690/371472 [59:18<18:54:28,  3.23it/s] 41%|████      | 151691/371472 [59:19<18:09:22,  3.36it/s] 41%|████      | 151692/371472 [59:19<17:33:48,  3.48it/s] 41%|████      | 151693/371472 [59:19<17:51:58,  3.42it/s] 41%|████      | 151694/371472 [59:20<17:11:40,  3.55it/s] 41%|████      | 151695/371472 [59:20<17:21:41,  3.52it/s] 41%|████      | 151696/371472 [59:20<16:59:43,  3.59it/s] 41%|████      | 151697/371472 [59:20<16:30:53,  3.70it/s] 41%|████      | 151698/371472 [59:21<16:31:01,  3.70it/s] 41%|████      | 151699/371472 [59:21<16:11:14,  3.77it/s] 41%|████      | 151700/371472 [59:21<16:08:22,  3.78it/s]                                                          {'loss': 3.2183, 'learning_rate': 6.327490357473765e-07, 'epoch': 6.53}
 41%|████      | 151700/371472 [59:21<16:08:22,  3.78it/s] 41%|████      | 151701/371472 [59:22<17:45:14,  3.44it/s] 41%|████      | 151702/371472 [59:22<17:20:04,  3.52it/s] 41%|████      | 151703/371472 [59:22<17:03:25,  3.58it/s] 41%|████      | 151704/371472 [59:22<16:42:23,  3.65it/s] 41%|████      | 151705/371472 [59:23<16:23:13,  3.73it/s] 41%|████      | 151706/371472 [59:23<16:54:18,  3.61it/s] 41%|████      | 151707/371472 [59:23<17:20:33,  3.52it/s] 41%|████      | 151708/371472 [59:23<17:24:51,  3.51it/s] 41%|████      | 151709/371472 [59:24<16:42:49,  3.65it/s] 41%|████      | 151710/371472 [59:24<16:54:33,  3.61it/s] 41%|████      | 151711/371472 [59:24<16:56:38,  3.60it/s] 41%|████      | 151712/371472 [59:25<17:06:01,  3.57it/s] 41%|████      | 151713/371472 [59:25<16:57:24,  3.60it/s] 41%|████      | 151714/371472 [59:25<16:48:22,  3.63it/s] 41%|████      | 151715/371472 [59:25<16:42:43,  3.65it/s] 41%|████      | 151716/371472 [59:26<17:40:53,  3.45it/s] 41%|████      | 151717/371472 [59:26<17:14:57,  3.54it/s] 41%|████      | 151718/371472 [59:26<17:03:28,  3.58it/s] 41%|████      | 151719/371472 [59:27<16:51:02,  3.62it/s] 41%|████      | 151720/371472 [59:27<17:05:04,  3.57it/s]                                                          {'loss': 3.1765, 'learning_rate': 6.327005537718977e-07, 'epoch': 6.53}
 41%|████      | 151720/371472 [59:27<17:05:04,  3.57it/s] 41%|████      | 151721/371472 [59:27<17:18:05,  3.53it/s] 41%|████      | 151722/371472 [59:27<16:46:01,  3.64it/s] 41%|████      | 151723/371472 [59:28<16:20:27,  3.74it/s] 41%|████      | 151724/371472 [59:28<16:22:56,  3.73it/s] 41%|████      | 151725/371472 [59:28<17:56:30,  3.40it/s] 41%|████      | 151726/371472 [59:29<18:42:44,  3.26it/s] 41%|████      | 151727/371472 [59:29<18:02:37,  3.38it/s] 41%|████      | 151728/371472 [59:29<18:46:07,  3.25it/s] 41%|████      | 151729/371472 [59:29<18:36:27,  3.28it/s] 41%|████      | 151730/371472 [59:30<18:19:59,  3.33it/s] 41%|████      | 151731/371472 [59:30<17:42:15,  3.45it/s] 41%|████      | 151732/371472 [59:30<17:37:53,  3.46it/s] 41%|████      | 151733/371472 [59:31<17:31:29,  3.48it/s] 41%|████      | 151734/371472 [59:31<17:46:03,  3.44it/s] 41%|████      | 151735/371472 [59:31<17:36:37,  3.47it/s] 41%|████      | 151736/371472 [59:31<17:22:33,  3.51it/s] 41%|████      | 151737/371472 [59:32<19:45:41,  3.09it/s] 41%|████      | 151738/371472 [59:32<19:24:58,  3.14it/s] 41%|████      | 151739/371472 [59:32<18:06:05,  3.37it/s] 41%|████      | 151740/371472 [59:33<17:43:16,  3.44it/s]                                                          {'loss': 3.0411, 'learning_rate': 6.326520717964188e-07, 'epoch': 6.54}
 41%|████      | 151740/371472 [59:33<17:43:16,  3.44it/s] 41%|████      | 151741/371472 [59:33<17:14:50,  3.54it/s] 41%|████      | 151742/371472 [59:33<17:07:58,  3.56it/s] 41%|████      | 151743/371472 [59:33<16:58:12,  3.60it/s] 41%|████      | 151744/371472 [59:34<17:28:37,  3.49it/s] 41%|████      | 151745/371472 [59:34<18:32:57,  3.29it/s] 41%|████      | 151746/371472 [59:34<17:47:13,  3.43it/s] 41%|████      | 151747/371472 [59:35<17:07:04,  3.57it/s] 41%|████      | 151748/371472 [59:35<16:57:40,  3.60it/s] 41%|████      | 151749/371472 [59:35<17:13:46,  3.54it/s] 41%|████      | 151750/371472 [59:35<16:49:33,  3.63it/s] 41%|████      | 151751/371472 [59:36<17:33:58,  3.47it/s] 41%|████      | 151752/371472 [59:36<17:09:32,  3.56it/s] 41%|████      | 151753/371472 [59:36<17:05:16,  3.57it/s] 41%|████      | 151754/371472 [59:37<17:51:35,  3.42it/s] 41%|████      | 151755/371472 [59:37<17:27:50,  3.49it/s] 41%|████      | 151756/371472 [59:37<17:56:34,  3.40it/s] 41%|████      | 151757/371472 [59:38<17:39:59,  3.45it/s] 41%|████      | 151758/371472 [59:38<17:50:44,  3.42it/s] 41%|████      | 151759/371472 [59:38<18:06:58,  3.37it/s] 41%|████      | 151760/371472 [59:38<18:47:32,  3.25it/s]                                                          {'loss': 3.2355, 'learning_rate': 6.326035898209399e-07, 'epoch': 6.54}
 41%|████      | 151760/371472 [59:38<18:47:32,  3.25it/s] 41%|████      | 151761/371472 [59:39<18:14:22,  3.35it/s] 41%|████      | 151762/371472 [59:39<18:10:16,  3.36it/s] 41%|████      | 151763/371472 [59:39<18:19:15,  3.33it/s] 41%|████      | 151764/371472 [59:40<17:47:44,  3.43it/s] 41%|████      | 151765/371472 [59:40<17:21:01,  3.52it/s] 41%|████      | 151766/371472 [59:40<17:23:37,  3.51it/s] 41%|████      | 151767/371472 [59:40<17:28:24,  3.49it/s] 41%|████      | 151768/371472 [59:41<17:28:10,  3.49it/s] 41%|████      | 151769/371472 [59:41<17:24:25,  3.51it/s] 41%|████      | 151770/371472 [59:41<19:25:08,  3.14it/s] 41%|████      | 151771/371472 [59:42<18:58:21,  3.22it/s] 41%|████      | 151772/371472 [59:42<18:12:53,  3.35it/s] 41%|████      | 151773/371472 [59:42<19:08:51,  3.19it/s] 41%|████      | 151774/371472 [59:43<17:45:39,  3.44it/s] 41%|████      | 151775/371472 [59:43<17:20:35,  3.52it/s] 41%|████      | 151776/371472 [59:43<17:33:35,  3.48it/s] 41%|████      | 151777/371472 [59:43<17:05:01,  3.57it/s] 41%|████      | 151778/371472 [59:44<17:06:25,  3.57it/s] 41%|████      | 151779/371472 [59:44<17:51:38,  3.42it/s] 41%|████      | 151780/371472 [59:44<18:16:25,  3.34it/s]                                                          {'loss': 3.1393, 'learning_rate': 6.32555107845461e-07, 'epoch': 6.54}
 41%|████      | 151780/371472 [59:44<18:16:25,  3.34it/s] 41%|████      | 151781/371472 [59:45<17:15:56,  3.53it/s] 41%|████      | 151782/371472 [59:45<17:36:46,  3.46it/s] 41%|████      | 151783/371472 [59:45<17:15:37,  3.54it/s] 41%|████      | 151784/371472 [59:45<17:37:11,  3.46it/s] 41%|████      | 151785/371472 [59:46<17:42:04,  3.45it/s] 41%|████      | 151786/371472 [59:46<17:47:58,  3.43it/s] 41%|████      | 151787/371472 [59:46<17:04:43,  3.57it/s] 41%|████      | 151788/371472 [59:47<16:35:55,  3.68it/s] 41%|████      | 151789/371472 [59:47<16:54:37,  3.61it/s] 41%|████      | 151790/371472 [59:47<16:49:55,  3.63it/s] 41%|████      | 151791/371472 [59:47<16:03:05,  3.80it/s] 41%|████      | 151792/371472 [59:48<16:13:56,  3.76it/s] 41%|████      | 151793/371472 [59:48<16:42:09,  3.65it/s] 41%|████      | 151794/371472 [59:48<18:04:14,  3.38it/s] 41%|████      | 151795/371472 [59:49<17:40:36,  3.45it/s] 41%|████      | 151796/371472 [59:49<18:00:54,  3.39it/s] 41%|████      | 151797/371472 [59:49<17:15:54,  3.53it/s] 41%|████      | 151798/371472 [59:49<18:13:37,  3.35it/s] 41%|████      | 151799/371472 [59:50<18:09:11,  3.36it/s] 41%|████      | 151800/371472 [59:50<17:18:21,  3.53it/s]                                                          {'loss': 3.1535, 'learning_rate': 6.325066258699821e-07, 'epoch': 6.54}
 41%|████      | 151800/371472 [59:50<17:18:21,  3.53it/s] 41%|████      | 151801/371472 [59:50<17:16:39,  3.53it/s] 41%|████      | 151802/371472 [59:51<16:53:09,  3.61it/s] 41%|████      | 151803/371472 [59:51<16:29:47,  3.70it/s] 41%|████      | 151804/371472 [59:51<16:05:38,  3.79it/s] 41%|████      | 151805/371472 [59:51<16:02:37,  3.80it/s] 41%|████      | 151806/371472 [59:52<15:55:14,  3.83it/s] 41%|████      | 151807/371472 [59:52<16:00:14,  3.81it/s] 41%|████      | 151808/371472 [59:52<16:17:17,  3.75it/s] 41%|████      | 151809/371472 [59:52<16:30:17,  3.70it/s] 41%|████      | 151810/371472 [59:53<16:28:07,  3.71it/s] 41%|████      | 151811/371472 [59:53<15:48:12,  3.86it/s] 41%|████      | 151812/371472 [59:53<15:25:00,  3.96it/s] 41%|████      | 151813/371472 [59:53<15:51:46,  3.85it/s] 41%|████      | 151814/371472 [59:54<16:11:59,  3.77it/s] 41%|████      | 151815/371472 [59:54<15:52:23,  3.84it/s] 41%|████      | 151816/371472 [59:54<16:27:40,  3.71it/s] 41%|████      | 151817/371472 [59:54<16:11:26,  3.77it/s] 41%|████      | 151818/371472 [59:55<16:20:05,  3.74it/s] 41%|████      | 151819/371472 [59:55<15:57:35,  3.82it/s] 41%|████      | 151820/371472 [59:55<16:47:11,  3.63it/s]                                                          {'loss': 3.1872, 'learning_rate': 6.324581438945032e-07, 'epoch': 6.54}
 41%|████      | 151820/371472 [59:55<16:47:11,  3.63it/s] 41%|████      | 151821/371472 [59:56<17:18:31,  3.53it/s] 41%|████      | 151822/371472 [59:56<16:25:10,  3.72it/s] 41%|████      | 151823/371472 [59:56<18:42:12,  3.26it/s] 41%|████      | 151824/371472 [59:56<17:50:07,  3.42it/s] 41%|████      | 151825/371472 [59:57<17:22:29,  3.51it/s] 41%|████      | 151826/371472 [59:57<17:13:38,  3.54it/s] 41%|████      | 151827/371472 [59:57<17:19:43,  3.52it/s] 41%|████      | 151828/371472 [59:58<17:10:19,  3.55it/s] 41%|████      | 151829/371472 [59:58<17:42:11,  3.45it/s] 41%|████      | 151830/371472 [59:58<17:14:01,  3.54it/s] 41%|████      | 151831/371472 [59:59<18:45:19,  3.25it/s] 41%|████      | 151832/371472 [59:59<17:30:07,  3.49it/s] 41%|████      | 151833/371472 [59:59<17:52:54,  3.41it/s] 41%|████      | 151834/371472 [59:59<17:35:02,  3.47it/s] 41%|████      | 151835/371472 [1:00:00<18:46:10,  3.25it/s] 41%|████      | 151836/371472 [1:00:00<17:55:34,  3.40it/s] 41%|████      | 151837/371472 [1:00:00<18:13:02,  3.35it/s] 41%|████      | 151838/371472 [1:00:01<17:27:16,  3.50it/s] 41%|████      | 151839/371472 [1:00:01<17:26:10,  3.50it/s] 41%|████      | 151840/371472 [1:00:01<17:06:51,  3.56it/s]                                                            {'loss': 3.2317, 'learning_rate': 6.324096619190243e-07, 'epoch': 6.54}
 41%|████      | 151840/371472 [1:00:01<17:06:51,  3.56it/s] 41%|████      | 151841/371472 [1:00:01<17:47:19,  3.43it/s] 41%|████      | 151842/371472 [1:00:02<17:10:46,  3.55it/s] 41%|████      | 151843/371472 [1:00:02<16:56:28,  3.60it/s] 41%|████      | 151844/371472 [1:00:02<17:26:08,  3.50it/s] 41%|████      | 151845/371472 [1:00:02<17:17:13,  3.53it/s] 41%|████      | 151846/371472 [1:00:03<18:41:32,  3.26it/s] 41%|████      | 151847/371472 [1:00:03<18:56:49,  3.22it/s] 41%|████      | 151848/371472 [1:00:03<18:14:49,  3.34it/s] 41%|████      | 151849/371472 [1:00:04<18:49:47,  3.24it/s] 41%|████      | 151850/371472 [1:00:04<20:25:35,  2.99it/s] 41%|████      | 151851/371472 [1:00:04<19:19:31,  3.16it/s] 41%|████      | 151852/371472 [1:00:05<19:31:24,  3.12it/s] 41%|████      | 151853/371472 [1:00:05<19:22:56,  3.15it/s] 41%|████      | 151854/371472 [1:00:05<18:24:19,  3.31it/s] 41%|████      | 151855/371472 [1:00:06<17:19:12,  3.52it/s] 41%|████      | 151856/371472 [1:00:06<16:34:23,  3.68it/s] 41%|████      | 151857/371472 [1:00:06<17:11:46,  3.55it/s] 41%|████      | 151858/371472 [1:00:06<16:45:05,  3.64it/s] 41%|████      | 151859/371472 [1:00:07<18:18:19,  3.33it/s] 41%|████      | 151860/371472 [1:00:07<17:38:11,  3.46it/s]                                                            {'loss': 3.2209, 'learning_rate': 6.323611799435454e-07, 'epoch': 6.54}
 41%|████      | 151860/371472 [1:00:07<17:38:11,  3.46it/s] 41%|████      | 151861/371472 [1:00:07<17:22:43,  3.51it/s] 41%|████      | 151862/371472 [1:00:08<16:59:07,  3.59it/s] 41%|████      | 151863/371472 [1:00:08<16:36:14,  3.67it/s] 41%|████      | 151864/371472 [1:00:08<15:59:09,  3.82it/s] 41%|████      | 151865/371472 [1:00:08<16:20:35,  3.73it/s] 41%|████      | 151866/371472 [1:00:09<17:38:59,  3.46it/s] 41%|████      | 151867/371472 [1:00:09<17:07:46,  3.56it/s] 41%|████      | 151868/371472 [1:00:09<17:13:27,  3.54it/s] 41%|████      | 151869/371472 [1:00:10<17:08:22,  3.56it/s] 41%|████      | 151870/371472 [1:00:10<17:19:46,  3.52it/s] 41%|████      | 151871/371472 [1:00:10<17:40:11,  3.45it/s] 41%|████      | 151872/371472 [1:00:10<18:26:00,  3.31it/s] 41%|████      | 151873/371472 [1:00:11<18:20:24,  3.33it/s] 41%|████      | 151874/371472 [1:00:11<17:23:47,  3.51it/s] 41%|████      | 151875/371472 [1:00:11<16:45:37,  3.64it/s] 41%|████      | 151876/371472 [1:00:12<17:51:41,  3.42it/s] 41%|████      | 151877/371472 [1:00:12<17:22:54,  3.51it/s] 41%|████      | 151878/371472 [1:00:12<17:16:56,  3.53it/s] 41%|████      | 151879/371472 [1:00:12<16:53:14,  3.61it/s] 41%|████      | 151880/371472 [1:00:13<16:36:53,  3.67it/s]                                                            {'loss': 3.2893, 'learning_rate': 6.323126979680665e-07, 'epoch': 6.54}
 41%|████      | 151880/371472 [1:00:13<16:36:53,  3.67it/s] 41%|████      | 151881/371472 [1:00:13<16:32:34,  3.69it/s] 41%|████      | 151882/371472 [1:00:13<16:09:53,  3.77it/s] 41%|████      | 151883/371472 [1:00:13<16:27:59,  3.70it/s] 41%|████      | 151884/371472 [1:00:14<16:25:27,  3.71it/s] 41%|████      | 151885/371472 [1:00:14<16:16:41,  3.75it/s] 41%|████      | 151886/371472 [1:00:14<16:25:37,  3.71it/s] 41%|████      | 151887/371472 [1:00:14<16:19:50,  3.74it/s] 41%|████      | 151888/371472 [1:00:15<16:35:17,  3.68it/s] 41%|████      | 151889/371472 [1:00:15<16:49:00,  3.63it/s] 41%|████      | 151890/371472 [1:00:15<16:55:14,  3.60it/s] 41%|████      | 151891/371472 [1:00:16<17:03:56,  3.57it/s] 41%|████      | 151892/371472 [1:00:16<18:03:46,  3.38it/s] 41%|████      | 151893/371472 [1:00:16<18:41:26,  3.26it/s] 41%|████      | 151894/371472 [1:00:17<19:04:10,  3.20it/s] 41%|████      | 151895/371472 [1:00:17<18:40:17,  3.27it/s] 41%|████      | 151896/371472 [1:00:17<18:23:13,  3.32it/s] 41%|████      | 151897/371472 [1:00:18<19:00:34,  3.21it/s] 41%|████      | 151898/371472 [1:00:18<18:16:24,  3.34it/s] 41%|████      | 151899/371472 [1:00:18<17:56:42,  3.40it/s] 41%|████      | 151900/371472 [1:00:18<17:43:00,  3.44it/s]                                                            {'loss': 3.2111, 'learning_rate': 6.322642159925876e-07, 'epoch': 6.54}
 41%|████      | 151900/371472 [1:00:18<17:43:00,  3.44it/s] 41%|████      | 151901/371472 [1:00:19<17:02:31,  3.58it/s] 41%|████      | 151902/371472 [1:00:19<17:11:22,  3.55it/s] 41%|████      | 151903/371472 [1:00:19<16:42:43,  3.65it/s] 41%|████      | 151904/371472 [1:00:19<16:43:02,  3.65it/s] 41%|████      | 151905/371472 [1:00:20<16:20:56,  3.73it/s] 41%|████      | 151906/371472 [1:00:20<16:46:56,  3.63it/s] 41%|████      | 151907/371472 [1:00:20<16:42:33,  3.65it/s] 41%|████      | 151908/371472 [1:00:21<18:11:59,  3.35it/s] 41%|████      | 151909/371472 [1:00:21<18:06:20,  3.37it/s] 41%|████      | 151910/371472 [1:00:21<18:04:56,  3.37it/s] 41%|████      | 151911/371472 [1:00:22<18:50:37,  3.24it/s] 41%|████      | 151912/371472 [1:00:22<18:00:55,  3.39it/s] 41%|████      | 151913/371472 [1:00:22<17:17:56,  3.53it/s] 41%|████      | 151914/371472 [1:00:22<17:05:23,  3.57it/s] 41%|████      | 151915/371472 [1:00:23<17:04:09,  3.57it/s] 41%|████      | 151916/371472 [1:00:23<16:49:59,  3.62it/s] 41%|████      | 151917/371472 [1:00:23<17:16:44,  3.53it/s] 41%|████      | 151918/371472 [1:00:24<18:32:55,  3.29it/s] 41%|████      | 151919/371472 [1:00:24<18:55:38,  3.22it/s] 41%|████      | 151920/371472 [1:00:24<20:14:19,  3.01it/s]                                                            {'loss': 2.958, 'learning_rate': 6.322157340171087e-07, 'epoch': 6.54}
 41%|████      | 151920/371472 [1:00:24<20:14:19,  3.01it/s] 41%|████      | 151921/371472 [1:00:25<19:00:38,  3.21it/s] 41%|████      | 151922/371472 [1:00:25<21:06:29,  2.89it/s] 41%|████      | 151923/371472 [1:00:25<20:55:10,  2.92it/s] 41%|████      | 151924/371472 [1:00:26<19:16:46,  3.16it/s] 41%|████      | 151925/371472 [1:00:26<19:29:27,  3.13it/s] 41%|████      | 151926/371472 [1:00:26<19:03:31,  3.20it/s] 41%|████      | 151927/371472 [1:00:26<18:15:04,  3.34it/s] 41%|████      | 151928/371472 [1:00:27<17:34:34,  3.47it/s] 41%|████      | 151929/371472 [1:00:27<17:34:06,  3.47it/s] 41%|████      | 151930/371472 [1:00:27<17:07:27,  3.56it/s] 41%|████      | 151931/371472 [1:00:27<16:37:36,  3.67it/s] 41%|████      | 151932/371472 [1:00:28<16:18:22,  3.74it/s] 41%|████      | 151933/371472 [1:00:28<16:23:53,  3.72it/s] 41%|████      | 151934/371472 [1:00:28<16:30:33,  3.69it/s] 41%|████      | 151935/371472 [1:00:29<16:59:42,  3.59it/s] 41%|████      | 151936/371472 [1:00:29<16:40:22,  3.66it/s] 41%|████      | 151937/371472 [1:00:29<16:23:21,  3.72it/s] 41%|████      | 151938/371472 [1:00:29<17:32:48,  3.48it/s] 41%|████      | 151939/371472 [1:00:30<18:03:42,  3.38it/s] 41%|████      | 151940/371472 [1:00:30<17:31:29,  3.48it/s]                                                            {'loss': 3.0935, 'learning_rate': 6.321672520416298e-07, 'epoch': 6.54}
 41%|████      | 151940/371472 [1:00:30<17:31:29,  3.48it/s] 41%|████      | 151941/371472 [1:00:30<16:56:49,  3.60it/s] 41%|████      | 151942/371472 [1:00:31<16:38:34,  3.66it/s] 41%|████      | 151943/371472 [1:00:31<16:47:57,  3.63it/s] 41%|████      | 151944/371472 [1:00:31<16:58:13,  3.59it/s] 41%|████      | 151945/371472 [1:00:31<16:54:25,  3.61it/s] 41%|████      | 151946/371472 [1:00:32<16:49:14,  3.63it/s] 41%|████      | 151947/371472 [1:00:32<16:24:29,  3.72it/s] 41%|████      | 151948/371472 [1:00:32<16:12:12,  3.76it/s] 41%|████      | 151949/371472 [1:00:32<16:05:41,  3.79it/s] 41%|████      | 151950/371472 [1:00:33<16:21:27,  3.73it/s] 41%|████      | 151951/371472 [1:00:33<16:11:14,  3.77it/s] 41%|████      | 151952/371472 [1:00:33<15:59:22,  3.81it/s] 41%|████      | 151953/371472 [1:00:34<17:14:05,  3.54it/s] 41%|████      | 151954/371472 [1:00:34<16:55:37,  3.60it/s] 41%|████      | 151955/371472 [1:00:34<17:31:48,  3.48it/s] 41%|████      | 151956/371472 [1:00:34<17:05:38,  3.57it/s] 41%|████      | 151957/371472 [1:00:35<17:47:36,  3.43it/s] 41%|████      | 151958/371472 [1:00:35<17:55:22,  3.40it/s] 41%|████      | 151959/371472 [1:00:35<18:03:29,  3.38it/s] 41%|████      | 151960/371472 [1:00:36<17:02:48,  3.58it/s]                                                            {'loss': 2.9754, 'learning_rate': 6.321187700661509e-07, 'epoch': 6.55}
 41%|████      | 151960/371472 [1:00:36<17:02:48,  3.58it/s] 41%|████      | 151961/371472 [1:00:36<17:12:38,  3.54it/s] 41%|████      | 151962/371472 [1:00:36<16:43:19,  3.65it/s] 41%|████      | 151963/371472 [1:00:36<16:15:41,  3.75it/s] 41%|████      | 151964/371472 [1:00:37<15:57:48,  3.82it/s] 41%|████      | 151965/371472 [1:00:37<16:26:38,  3.71it/s] 41%|████      | 151966/371472 [1:00:37<16:13:56,  3.76it/s] 41%|████      | 151967/371472 [1:00:37<16:26:07,  3.71it/s] 41%|████      | 151968/371472 [1:00:38<16:10:38,  3.77it/s] 41%|████      | 151969/371472 [1:00:38<16:13:22,  3.76it/s] 41%|████      | 151970/371472 [1:00:38<16:36:03,  3.67it/s] 41%|████      | 151971/371472 [1:00:38<16:32:37,  3.69it/s] 41%|████      | 151972/371472 [1:00:39<16:17:34,  3.74it/s] 41%|████      | 151973/371472 [1:00:39<16:28:18,  3.70it/s] 41%|████      | 151974/371472 [1:00:39<18:09:13,  3.36it/s] 41%|████      | 151975/371472 [1:00:40<17:12:23,  3.54it/s] 41%|████      | 151976/371472 [1:00:40<16:53:31,  3.61it/s] 41%|████      | 151977/371472 [1:00:40<17:36:01,  3.46it/s] 41%|████      | 151978/371472 [1:00:40<17:20:43,  3.52it/s] 41%|████      | 151979/371472 [1:00:41<17:55:11,  3.40it/s] 41%|████      | 151980/371472 [1:00:41<17:36:46,  3.46it/s]                                                            {'loss': 3.2575, 'learning_rate': 6.32070288090672e-07, 'epoch': 6.55}
 41%|████      | 151980/371472 [1:00:41<17:36:46,  3.46it/s] 41%|████      | 151981/371472 [1:00:41<17:57:15,  3.40it/s] 41%|████      | 151982/371472 [1:00:42<18:11:26,  3.35it/s] 41%|████      | 151983/371472 [1:00:42<18:55:53,  3.22it/s] 41%|████      | 151984/371472 [1:00:42<19:33:22,  3.12it/s] 41%|████      | 151985/371472 [1:00:43<18:45:35,  3.25it/s] 41%|████      | 151986/371472 [1:00:43<17:50:44,  3.42it/s] 41%|████      | 151987/371472 [1:00:43<18:10:18,  3.36it/s] 41%|████      | 151988/371472 [1:00:43<17:25:15,  3.50it/s] 41%|████      | 151989/371472 [1:00:44<18:15:58,  3.34it/s] 41%|████      | 151990/371472 [1:00:44<18:31:08,  3.29it/s] 41%|████      | 151991/371472 [1:00:44<18:14:45,  3.34it/s] 41%|████      | 151992/371472 [1:00:45<18:01:21,  3.38it/s] 41%|████      | 151993/371472 [1:00:45<17:07:33,  3.56it/s] 41%|████      | 151994/371472 [1:00:45<17:22:36,  3.51it/s] 41%|████      | 151995/371472 [1:00:45<16:36:50,  3.67it/s] 41%|████      | 151996/371472 [1:00:46<17:36:35,  3.46it/s] 41%|████      | 151997/371472 [1:00:46<17:01:47,  3.58it/s] 41%|████      | 151998/371472 [1:00:46<16:38:12,  3.66it/s] 41%|████      | 151999/371472 [1:00:47<16:55:51,  3.60it/s] 41%|████      | 152000/371472 [1:00:47<16:48:59,  3.63it/s]                                                            {'loss': 3.2721, 'learning_rate': 6.320218061151931e-07, 'epoch': 6.55}
 41%|████      | 152000/371472 [1:00:47<16:48:59,  3.63it/s] 41%|████      | 152001/371472 [1:00:47<17:22:01,  3.51it/s] 41%|████      | 152002/371472 [1:00:47<17:16:57,  3.53it/s] 41%|████      | 152003/371472 [1:00:48<17:06:48,  3.56it/s] 41%|████      | 152004/371472 [1:00:48<18:51:23,  3.23it/s] 41%|████      | 152005/371472 [1:00:48<18:02:26,  3.38it/s] 41%|████      | 152006/371472 [1:00:49<16:56:15,  3.60it/s] 41%|████      | 152007/371472 [1:00:49<16:29:55,  3.69it/s] 41%|████      | 152008/371472 [1:00:49<16:01:22,  3.80it/s] 41%|████      | 152009/371472 [1:00:49<16:00:24,  3.81it/s] 41%|████      | 152010/371472 [1:00:50<15:57:39,  3.82it/s] 41%|████      | 152011/371472 [1:00:50<16:47:51,  3.63it/s] 41%|████      | 152012/371472 [1:00:50<16:48:22,  3.63it/s] 41%|████      | 152013/371472 [1:00:51<16:50:42,  3.62it/s] 41%|████      | 152014/371472 [1:00:51<18:40:05,  3.27it/s] 41%|████      | 152015/371472 [1:00:51<17:59:00,  3.39it/s] 41%|████      | 152016/371472 [1:00:51<17:04:34,  3.57it/s] 41%|████      | 152017/371472 [1:00:52<16:47:18,  3.63it/s] 41%|████      | 152018/371472 [1:00:52<16:25:29,  3.71it/s] 41%|████      | 152019/371472 [1:00:52<16:22:20,  3.72it/s] 41%|████      | 152020/371472 [1:00:52<16:31:47,  3.69it/s]                                                            {'loss': 3.0734, 'learning_rate': 6.319733241397144e-07, 'epoch': 6.55}
 41%|████      | 152020/371472 [1:00:52<16:31:47,  3.69it/s] 41%|████      | 152021/371472 [1:00:53<16:16:02,  3.75it/s] 41%|████      | 152022/371472 [1:00:53<16:49:49,  3.62it/s] 41%|████      | 152023/371472 [1:00:53<17:36:49,  3.46it/s] 41%|████      | 152024/371472 [1:00:54<17:12:56,  3.54it/s] 41%|████      | 152025/371472 [1:00:54<17:35:03,  3.47it/s] 41%|████      | 152026/371472 [1:00:54<16:57:36,  3.59it/s] 41%|████      | 152027/371472 [1:00:54<17:43:21,  3.44it/s] 41%|████      | 152028/371472 [1:00:55<17:00:36,  3.58it/s] 41%|████      | 152029/371472 [1:00:55<17:22:25,  3.51it/s] 41%|████      | 152030/371472 [1:00:55<16:51:56,  3.61it/s] 41%|████      | 152031/371472 [1:00:56<16:52:46,  3.61it/s] 41%|████      | 152032/371472 [1:00:56<16:40:51,  3.65it/s] 41%|████      | 152033/371472 [1:00:56<17:16:10,  3.53it/s] 41%|████      | 152034/371472 [1:00:56<16:53:40,  3.61it/s] 41%|████      | 152035/371472 [1:00:57<16:55:19,  3.60it/s] 41%|████      | 152036/371472 [1:00:57<17:34:22,  3.47it/s] 41%|████      | 152037/371472 [1:00:57<18:28:24,  3.30it/s] 41%|████      | 152038/371472 [1:00:58<17:31:44,  3.48it/s] 41%|████      | 152039/371472 [1:00:58<17:57:59,  3.39it/s] 41%|████      | 152040/371472 [1:00:58<18:26:12,  3.31it/s]                                                            {'loss': 3.2575, 'learning_rate': 6.319248421642354e-07, 'epoch': 6.55}
 41%|████      | 152040/371472 [1:00:58<18:26:12,  3.31it/s] 41%|████      | 152041/371472 [1:00:59<19:20:36,  3.15it/s] 41%|████      | 152042/371472 [1:00:59<18:10:36,  3.35it/s] 41%|████      | 152043/371472 [1:00:59<17:22:53,  3.51it/s] 41%|████      | 152044/371472 [1:00:59<16:53:59,  3.61it/s] 41%|████      | 152045/371472 [1:01:00<16:48:37,  3.63it/s] 41%|████      | 152046/371472 [1:01:00<16:38:13,  3.66it/s] 41%|████      | 152047/371472 [1:01:00<17:15:32,  3.53it/s] 41%|████      | 152048/371472 [1:01:00<17:20:26,  3.51it/s] 41%|████      | 152049/371472 [1:01:01<17:24:47,  3.50it/s] 41%|████      | 152050/371472 [1:01:01<20:50:28,  2.92it/s] 41%|████      | 152051/371472 [1:01:02<19:47:03,  3.08it/s] 41%|████      | 152052/371472 [1:01:02<21:00:28,  2.90it/s] 41%|████      | 152053/371472 [1:01:02<19:30:51,  3.12it/s] 41%|████      | 152054/371472 [1:01:02<18:26:29,  3.31it/s] 41%|████      | 152055/371472 [1:01:03<17:50:04,  3.42it/s] 41%|████      | 152056/371472 [1:01:03<17:16:09,  3.53it/s] 41%|████      | 152057/371472 [1:01:03<16:56:32,  3.60it/s] 41%|████      | 152058/371472 [1:01:04<18:47:17,  3.24it/s] 41%|████      | 152059/371472 [1:01:04<18:29:39,  3.30it/s] 41%|████      | 152060/371472 [1:01:04<17:54:47,  3.40it/s]                                                            {'loss': 3.4076, 'learning_rate': 6.318763601887564e-07, 'epoch': 6.55}
 41%|████      | 152060/371472 [1:01:04<17:54:47,  3.40it/s] 41%|████      | 152061/371472 [1:01:04<17:16:58,  3.53it/s] 41%|████      | 152062/371472 [1:01:05<17:03:25,  3.57it/s] 41%|████      | 152063/371472 [1:01:05<17:16:43,  3.53it/s] 41%|████      | 152064/371472 [1:01:05<17:15:49,  3.53it/s] 41%|████      | 152065/371472 [1:01:06<17:13:52,  3.54it/s] 41%|████      | 152066/371472 [1:01:06<18:47:50,  3.24it/s] 41%|████      | 152067/371472 [1:01:06<19:55:55,  3.06it/s] 41%|████      | 152068/371472 [1:01:07<19:15:49,  3.16it/s] 41%|████      | 152069/371472 [1:01:07<18:39:50,  3.27it/s] 41%|████      | 152070/371472 [1:01:07<19:40:22,  3.10it/s] 41%|████      | 152071/371472 [1:01:08<23:50:27,  2.56it/s] 41%|████      | 152072/371472 [1:01:08<21:56:04,  2.78it/s] 41%|████      | 152073/371472 [1:01:08<20:09:27,  3.02it/s] 41%|████      | 152074/371472 [1:01:09<18:54:20,  3.22it/s] 41%|████      | 152075/371472 [1:01:09<17:54:30,  3.40it/s] 41%|████      | 152076/371472 [1:01:09<18:00:06,  3.39it/s] 41%|████      | 152077/371472 [1:01:09<17:11:16,  3.55it/s] 41%|████      | 152078/371472 [1:01:10<17:33:34,  3.47it/s] 41%|████      | 152079/371472 [1:01:10<16:50:03,  3.62it/s] 41%|████      | 152080/371472 [1:01:10<17:19:04,  3.52it/s]                                                            {'loss': 3.1562, 'learning_rate': 6.318278782132775e-07, 'epoch': 6.55}
 41%|████      | 152080/371472 [1:01:10<17:19:04,  3.52it/s] 41%|████      | 152081/371472 [1:01:11<17:24:05,  3.50it/s] 41%|████      | 152082/371472 [1:01:11<16:58:30,  3.59it/s] 41%|████      | 152083/371472 [1:01:11<17:21:55,  3.51it/s] 41%|████      | 152084/371472 [1:01:11<17:01:52,  3.58it/s] 41%|████      | 152085/371472 [1:01:12<16:51:24,  3.62it/s] 41%|████      | 152086/371472 [1:01:12<16:55:34,  3.60it/s] 41%|████      | 152087/371472 [1:01:12<16:58:01,  3.59it/s] 41%|████      | 152088/371472 [1:01:13<18:29:38,  3.30it/s] 41%|████      | 152089/371472 [1:01:13<17:37:03,  3.46it/s] 41%|████      | 152090/371472 [1:01:13<17:18:36,  3.52it/s] 41%|████      | 152091/371472 [1:01:13<16:51:05,  3.62it/s] 41%|████      | 152092/371472 [1:01:14<17:39:08,  3.45it/s] 41%|████      | 152093/371472 [1:01:14<17:03:44,  3.57it/s] 41%|████      | 152094/371472 [1:01:14<16:17:40,  3.74it/s] 41%|████      | 152095/371472 [1:01:14<15:58:16,  3.82it/s] 41%|████      | 152096/371472 [1:01:15<16:13:14,  3.76it/s] 41%|████      | 152097/371472 [1:01:15<17:14:36,  3.53it/s] 41%|████      | 152098/371472 [1:01:15<16:49:34,  3.62it/s] 41%|████      | 152099/371472 [1:01:16<16:38:23,  3.66it/s] 41%|████      | 152100/371472 [1:01:16<16:26:02,  3.71it/s]                                                            {'loss': 3.2048, 'learning_rate': 6.317793962377987e-07, 'epoch': 6.55}
 41%|████      | 152100/371472 [1:01:16<16:26:02,  3.71it/s] 41%|████      | 152101/371472 [1:01:16<16:45:50,  3.63it/s] 41%|████      | 152102/371472 [1:01:16<17:03:51,  3.57it/s] 41%|████      | 152103/371472 [1:01:17<16:47:06,  3.63it/s] 41%|████      | 152104/371472 [1:01:17<17:00:30,  3.58it/s] 41%|████      | 152105/371472 [1:01:17<17:25:03,  3.50it/s] 41%|████      | 152106/371472 [1:01:17<16:51:41,  3.61it/s] 41%|████      | 152107/371472 [1:01:18<16:38:43,  3.66it/s] 41%|████      | 152108/371472 [1:01:18<16:09:03,  3.77it/s] 41%|████      | 152109/371472 [1:01:18<16:20:36,  3.73it/s] 41%|████      | 152110/371472 [1:01:19<16:16:04,  3.75it/s] 41%|████      | 152111/371472 [1:01:19<16:56:07,  3.60it/s] 41%|████      | 152112/371472 [1:01:19<16:41:09,  3.65it/s] 41%|████      | 152113/371472 [1:01:19<17:07:47,  3.56it/s] 41%|████      | 152114/371472 [1:01:20<17:44:04,  3.44it/s] 41%|████      | 152115/371472 [1:01:20<18:56:56,  3.22it/s] 41%|████      | 152116/371472 [1:01:20<19:15:44,  3.16it/s] 41%|████      | 152117/371472 [1:01:21<18:16:55,  3.33it/s] 41%|████      | 152118/371472 [1:01:21<17:18:52,  3.52it/s] 41%|████      | 152119/371472 [1:01:21<17:26:59,  3.49it/s] 41%|████      | 152120/371472 [1:01:22<18:02:53,  3.38it/s]                                                            {'loss': 3.2205, 'learning_rate': 6.317309142623198e-07, 'epoch': 6.55}
 41%|████      | 152120/371472 [1:01:22<18:02:53,  3.38it/s] 41%|████      | 152121/371472 [1:01:22<17:48:00,  3.42it/s] 41%|████      | 152122/371472 [1:01:22<18:27:37,  3.30it/s] 41%|████      | 152123/371472 [1:01:22<18:10:03,  3.35it/s] 41%|████      | 152124/371472 [1:01:23<17:45:34,  3.43it/s] 41%|████      | 152125/371472 [1:01:23<17:57:34,  3.39it/s] 41%|████      | 152126/371472 [1:01:23<18:02:26,  3.38it/s] 41%|████      | 152127/371472 [1:01:24<17:23:41,  3.50it/s] 41%|████      | 152128/371472 [1:01:24<16:58:43,  3.59it/s] 41%|████      | 152129/371472 [1:01:24<17:58:56,  3.39it/s] 41%|████      | 152130/371472 [1:01:24<17:19:35,  3.52it/s] 41%|████      | 152131/371472 [1:01:25<17:15:07,  3.53it/s] 41%|████      | 152132/371472 [1:01:25<16:55:54,  3.60it/s] 41%|████      | 152133/371472 [1:01:25<18:56:39,  3.22it/s] 41%|████      | 152134/371472 [1:01:26<18:28:46,  3.30it/s] 41%|████      | 152135/371472 [1:01:26<18:45:00,  3.25it/s] 41%|████      | 152136/371472 [1:01:26<18:56:41,  3.22it/s] 41%|████      | 152137/371472 [1:01:27<19:00:04,  3.21it/s] 41%|████      | 152138/371472 [1:01:27<18:46:44,  3.24it/s] 41%|████      | 152139/371472 [1:01:27<17:34:05,  3.47it/s] 41%|████      | 152140/371472 [1:01:27<17:56:28,  3.40it/s]                                                            {'loss': 3.1906, 'learning_rate': 6.316824322868409e-07, 'epoch': 6.55}
 41%|████      | 152140/371472 [1:01:27<17:56:28,  3.40it/s] 41%|████      | 152141/371472 [1:01:28<17:47:35,  3.42it/s] 41%|████      | 152142/371472 [1:01:28<17:45:19,  3.43it/s] 41%|████      | 152143/371472 [1:01:28<18:26:53,  3.30it/s] 41%|████      | 152144/371472 [1:01:29<18:32:52,  3.28it/s] 41%|████      | 152145/371472 [1:01:29<18:20:03,  3.32it/s] 41%|████      | 152146/371472 [1:01:29<17:54:23,  3.40it/s] 41%|████      | 152147/371472 [1:01:29<16:59:50,  3.58it/s] 41%|████      | 152148/371472 [1:01:30<16:39:18,  3.66it/s] 41%|████      | 152149/371472 [1:01:30<16:36:09,  3.67it/s] 41%|████      | 152150/371472 [1:01:30<17:12:29,  3.54it/s] 41%|████      | 152151/371472 [1:01:31<17:50:13,  3.42it/s] 41%|████      | 152152/371472 [1:01:31<17:02:39,  3.57it/s] 41%|████      | 152153/371472 [1:01:31<16:58:10,  3.59it/s] 41%|████      | 152154/371472 [1:01:31<16:54:45,  3.60it/s] 41%|████      | 152155/371472 [1:01:32<16:45:39,  3.63it/s] 41%|████      | 152156/371472 [1:01:32<16:32:43,  3.68it/s] 41%|████      | 152157/371472 [1:01:32<16:54:34,  3.60it/s] 41%|████      | 152158/371472 [1:01:32<16:30:28,  3.69it/s] 41%|████      | 152159/371472 [1:01:33<16:40:53,  3.65it/s] 41%|████      | 152160/371472 [1:01:33<16:16:06,  3.74it/s]                                                            {'loss': 3.3582, 'learning_rate': 6.31633950311362e-07, 'epoch': 6.55}
 41%|████      | 152160/371472 [1:01:33<16:16:06,  3.74it/s] 41%|████      | 152161/371472 [1:01:33<16:13:16,  3.76it/s] 41%|████      | 152162/371472 [1:01:34<16:07:29,  3.78it/s] 41%|████      | 152163/371472 [1:01:34<16:34:27,  3.68it/s] 41%|████      | 152164/371472 [1:01:34<17:23:50,  3.50it/s] 41%|████      | 152165/371472 [1:01:34<18:07:03,  3.36it/s] 41%|████      | 152166/371472 [1:01:35<17:03:24,  3.57it/s] 41%|████      | 152167/371472 [1:01:35<16:57:05,  3.59it/s] 41%|████      | 152168/371472 [1:01:35<16:56:30,  3.60it/s] 41%|████      | 152169/371472 [1:01:36<16:47:38,  3.63it/s] 41%|████      | 152170/371472 [1:01:36<17:42:10,  3.44it/s] 41%|████      | 152171/371472 [1:01:36<17:39:46,  3.45it/s] 41%|████      | 152172/371472 [1:01:36<18:11:56,  3.35it/s] 41%|████      | 152173/371472 [1:01:37<18:47:08,  3.24it/s] 41%|████      | 152174/371472 [1:01:37<18:47:38,  3.24it/s] 41%|████      | 152175/371472 [1:01:37<18:15:36,  3.34it/s] 41%|████      | 152176/371472 [1:01:38<18:01:01,  3.38it/s] 41%|████      | 152177/371472 [1:01:38<18:00:28,  3.38it/s] 41%|████      | 152178/371472 [1:01:38<17:27:44,  3.49it/s] 41%|████      | 152179/371472 [1:01:39<17:18:03,  3.52it/s] 41%|████      | 152180/371472 [1:01:39<17:30:14,  3.48it/s]                                                            {'loss': 3.0507, 'learning_rate': 6.315854683358831e-07, 'epoch': 6.55}
 41%|████      | 152180/371472 [1:01:39<17:30:14,  3.48it/s] 41%|████      | 152181/371472 [1:01:39<16:59:25,  3.59it/s] 41%|████      | 152182/371472 [1:01:39<17:17:19,  3.52it/s] 41%|████      | 152183/371472 [1:01:40<17:32:28,  3.47it/s] 41%|████      | 152184/371472 [1:01:40<18:28:59,  3.30it/s] 41%|████      | 152185/371472 [1:01:40<17:36:35,  3.46it/s] 41%|████      | 152186/371472 [1:01:41<17:04:08,  3.57it/s] 41%|████      | 152187/371472 [1:01:41<18:44:46,  3.25it/s] 41%|████      | 152188/371472 [1:01:41<17:46:31,  3.43it/s] 41%|████      | 152189/371472 [1:01:42<19:08:10,  3.18it/s] 41%|████      | 152190/371472 [1:01:42<19:23:31,  3.14it/s] 41%|████      | 152191/371472 [1:01:42<18:52:19,  3.23it/s] 41%|████      | 152192/371472 [1:01:42<17:55:18,  3.40it/s] 41%|████      | 152193/371472 [1:01:43<18:06:01,  3.37it/s] 41%|████      | 152194/371472 [1:01:43<17:24:34,  3.50it/s] 41%|████      | 152195/371472 [1:01:43<16:50:22,  3.62it/s] 41%|████      | 152196/371472 [1:01:43<16:43:01,  3.64it/s] 41%|████      | 152197/371472 [1:01:44<17:05:19,  3.56it/s] 41%|████      | 152198/371472 [1:01:44<16:55:52,  3.60it/s] 41%|████      | 152199/371472 [1:01:44<16:13:32,  3.75it/s] 41%|████      | 152200/371472 [1:01:45<16:48:55,  3.62it/s]                                                            {'loss': 3.2494, 'learning_rate': 6.315369863604042e-07, 'epoch': 6.56}
 41%|████      | 152200/371472 [1:01:45<16:48:55,  3.62it/s] 41%|████      | 152201/371472 [1:01:45<16:17:28,  3.74it/s] 41%|████      | 152202/371472 [1:01:45<16:38:56,  3.66it/s] 41%|████      | 152203/371472 [1:01:45<16:17:03,  3.74it/s] 41%|████      | 152204/371472 [1:01:46<15:54:43,  3.83it/s] 41%|████      | 152205/371472 [1:01:46<15:33:11,  3.92it/s] 41%|████      | 152206/371472 [1:01:46<15:59:15,  3.81it/s] 41%|████      | 152207/371472 [1:01:46<15:25:32,  3.95it/s] 41%|████      | 152208/371472 [1:01:47<15:22:27,  3.96it/s] 41%|████      | 152209/371472 [1:01:47<16:04:08,  3.79it/s] 41%|████      | 152210/371472 [1:01:47<15:55:23,  3.83it/s] 41%|████      | 152211/371472 [1:01:48<17:29:49,  3.48it/s] 41%|████      | 152212/371472 [1:01:48<17:45:32,  3.43it/s] 41%|████      | 152213/371472 [1:01:48<16:43:26,  3.64it/s] 41%|████      | 152214/371472 [1:01:48<16:36:31,  3.67it/s] 41%|████      | 152215/371472 [1:01:49<16:06:53,  3.78it/s] 41%|████      | 152216/371472 [1:01:49<15:59:27,  3.81it/s] 41%|████      | 152217/371472 [1:01:49<16:10:19,  3.77it/s] 41%|████      | 152218/371472 [1:01:49<16:58:48,  3.59it/s] 41%|████      | 152219/371472 [1:01:50<17:07:20,  3.56it/s] 41%|████      | 152220/371472 [1:01:50<17:16:53,  3.52it/s]                                                            {'loss': 3.3684, 'learning_rate': 6.314885043849253e-07, 'epoch': 6.56}
 41%|████      | 152220/371472 [1:01:50<17:16:53,  3.52it/s] 41%|████      | 152221/371472 [1:01:50<16:47:47,  3.63it/s] 41%|████      | 152222/371472 [1:01:51<17:31:19,  3.48it/s] 41%|████      | 152223/371472 [1:01:51<16:42:24,  3.65it/s] 41%|████      | 152224/371472 [1:01:51<18:06:58,  3.36it/s] 41%|████      | 152225/371472 [1:01:51<17:21:18,  3.51it/s] 41%|████      | 152226/371472 [1:01:52<17:02:23,  3.57it/s] 41%|████      | 152227/371472 [1:01:52<16:36:03,  3.67it/s] 41%|████      | 152228/371472 [1:01:52<17:49:28,  3.42it/s] 41%|████      | 152229/371472 [1:01:53<16:52:00,  3.61it/s] 41%|████      | 152230/371472 [1:01:53<17:44:53,  3.43it/s] 41%|████      | 152231/371472 [1:01:53<17:01:06,  3.58it/s] 41%|████      | 152232/371472 [1:01:53<16:53:14,  3.61it/s] 41%|████      | 152233/371472 [1:01:54<16:13:38,  3.75it/s] 41%|████      | 152234/371472 [1:01:54<16:08:48,  3.77it/s] 41%|████      | 152235/371472 [1:01:54<16:08:11,  3.77it/s] 41%|████      | 152236/371472 [1:01:54<16:30:21,  3.69it/s] 41%|████      | 152237/371472 [1:01:55<16:14:18,  3.75it/s] 41%|████      | 152238/371472 [1:01:55<17:21:16,  3.51it/s] 41%|████      | 152239/371472 [1:01:55<16:56:14,  3.60it/s] 41%|████      | 152240/371472 [1:01:56<17:00:18,  3.58it/s]                                                            {'loss': 3.3461, 'learning_rate': 6.314400224094464e-07, 'epoch': 6.56}
 41%|████      | 152240/371472 [1:01:56<17:00:18,  3.58it/s] 41%|████      | 152241/371472 [1:01:56<17:34:59,  3.46it/s] 41%|████      | 152242/371472 [1:01:56<18:30:23,  3.29it/s] 41%|████      | 152243/371472 [1:01:57<19:25:09,  3.14it/s] 41%|████      | 152244/371472 [1:01:57<19:11:31,  3.17it/s] 41%|████      | 152245/371472 [1:01:57<18:26:41,  3.30it/s] 41%|████      | 152246/371472 [1:01:57<18:06:07,  3.36it/s] 41%|████      | 152247/371472 [1:01:58<18:43:33,  3.25it/s] 41%|████      | 152248/371472 [1:01:58<18:01:24,  3.38it/s] 41%|████      | 152249/371472 [1:01:58<18:02:28,  3.38it/s] 41%|████      | 152250/371472 [1:01:59<19:02:13,  3.20it/s] 41%|████      | 152251/371472 [1:01:59<18:13:55,  3.34it/s] 41%|████      | 152252/371472 [1:01:59<18:04:32,  3.37it/s] 41%|████      | 152253/371472 [1:02:00<18:07:07,  3.36it/s] 41%|████      | 152254/371472 [1:02:00<17:26:14,  3.49it/s] 41%|████      | 152255/371472 [1:02:00<18:16:20,  3.33it/s] 41%|████      | 152256/371472 [1:02:00<18:22:18,  3.31it/s] 41%|████      | 152257/371472 [1:02:01<19:05:06,  3.19it/s] 41%|████      | 152258/371472 [1:02:01<18:31:33,  3.29it/s] 41%|████      | 152259/371472 [1:02:01<18:35:28,  3.28it/s] 41%|████      | 152260/371472 [1:02:02<17:44:40,  3.43it/s]                                                            {'loss': 3.3083, 'learning_rate': 6.313915404339676e-07, 'epoch': 6.56}
 41%|████      | 152260/371472 [1:02:02<17:44:40,  3.43it/s] 41%|████      | 152261/371472 [1:02:02<17:23:16,  3.50it/s] 41%|████      | 152262/371472 [1:02:02<16:52:44,  3.61it/s] 41%|████      | 152263/371472 [1:02:02<17:02:07,  3.57it/s] 41%|████      | 152264/371472 [1:02:03<16:43:47,  3.64it/s] 41%|████      | 152265/371472 [1:02:03<18:16:33,  3.33it/s] 41%|████      | 152266/371472 [1:02:03<17:34:48,  3.46it/s] 41%|████      | 152267/371472 [1:02:04<18:05:00,  3.37it/s] 41%|████      | 152268/371472 [1:02:04<17:31:26,  3.47it/s] 41%|████      | 152269/371472 [1:02:04<17:04:54,  3.56it/s] 41%|████      | 152270/371472 [1:02:04<17:15:19,  3.53it/s] 41%|████      | 152271/371472 [1:02:05<17:10:33,  3.55it/s] 41%|████      | 152272/371472 [1:02:05<18:10:56,  3.35it/s] 41%|████      | 152273/371472 [1:02:05<17:56:49,  3.39it/s] 41%|████      | 152274/371472 [1:02:06<17:48:36,  3.42it/s] 41%|████      | 152275/371472 [1:02:06<18:15:44,  3.33it/s] 41%|████      | 152276/371472 [1:02:06<18:09:30,  3.35it/s] 41%|████      | 152277/371472 [1:02:07<18:59:23,  3.21it/s] 41%|████      | 152278/371472 [1:02:07<19:31:00,  3.12it/s] 41%|████      | 152279/371472 [1:02:07<18:53:29,  3.22it/s] 41%|████      | 152280/371472 [1:02:07<17:48:45,  3.42it/s]                                                            {'loss': 3.263, 'learning_rate': 6.313430584584887e-07, 'epoch': 6.56}
 41%|████      | 152280/371472 [1:02:07<17:48:45,  3.42it/s] 41%|████      | 152281/371472 [1:02:08<17:21:24,  3.51it/s] 41%|████      | 152282/371472 [1:02:08<16:39:34,  3.65it/s] 41%|████      | 152283/371472 [1:02:08<16:09:00,  3.77it/s] 41%|████      | 152284/371472 [1:02:09<17:06:06,  3.56it/s] 41%|████      | 152285/371472 [1:02:09<16:55:05,  3.60it/s] 41%|████      | 152286/371472 [1:02:09<16:44:26,  3.64it/s] 41%|████      | 152287/371472 [1:02:09<16:54:00,  3.60it/s] 41%|████      | 152288/371472 [1:02:10<16:29:12,  3.69it/s] 41%|████      | 152289/371472 [1:02:10<16:08:36,  3.77it/s] 41%|████      | 152290/371472 [1:02:10<15:59:10,  3.81it/s] 41%|████      | 152291/371472 [1:02:10<16:50:29,  3.62it/s] 41%|████      | 152292/371472 [1:02:11<17:19:31,  3.51it/s] 41%|████      | 152293/371472 [1:02:11<17:06:20,  3.56it/s] 41%|████      | 152294/371472 [1:02:11<16:52:17,  3.61it/s] 41%|████      | 152295/371472 [1:02:12<16:24:37,  3.71it/s] 41%|████      | 152296/371472 [1:02:12<16:15:53,  3.74it/s] 41%|████      | 152297/371472 [1:02:12<17:06:37,  3.56it/s] 41%|████      | 152298/371472 [1:02:12<17:15:59,  3.53it/s] 41%|████      | 152299/371472 [1:02:13<17:01:42,  3.58it/s] 41%|████      | 152300/371472 [1:02:13<17:56:35,  3.39it/s]                                                            {'loss': 3.1214, 'learning_rate': 6.312945764830098e-07, 'epoch': 6.56}
 41%|████      | 152300/371472 [1:02:13<17:56:35,  3.39it/s] 41%|████      | 152301/371472 [1:02:13<17:20:10,  3.51it/s] 41%|████      | 152302/371472 [1:02:14<16:54:31,  3.60it/s] 41%|████      | 152303/371472 [1:02:14<17:53:45,  3.40it/s] 41%|████      | 152304/371472 [1:02:14<18:01:11,  3.38it/s] 41%|████      | 152305/371472 [1:02:14<17:28:12,  3.48it/s] 41%|████      | 152306/371472 [1:02:15<17:18:21,  3.52it/s] 41%|████      | 152307/371472 [1:02:15<17:12:10,  3.54it/s] 41%|████      | 152308/371472 [1:02:15<16:57:35,  3.59it/s] 41%|████      | 152309/371472 [1:02:16<17:10:22,  3.55it/s] 41%|████      | 152310/371472 [1:02:16<18:27:40,  3.30it/s] 41%|████      | 152311/371472 [1:02:16<17:30:56,  3.48it/s] 41%|████      | 152312/371472 [1:02:16<17:27:12,  3.49it/s] 41%|████      | 152313/371472 [1:02:17<17:12:02,  3.54it/s] 41%|████      | 152314/371472 [1:02:17<17:34:21,  3.46it/s] 41%|████      | 152315/371472 [1:02:17<18:51:15,  3.23it/s] 41%|████      | 152316/371472 [1:02:18<18:09:45,  3.35it/s] 41%|████      | 152317/371472 [1:02:18<17:33:59,  3.47it/s] 41%|████      | 152318/371472 [1:02:18<17:43:19,  3.44it/s] 41%|████      | 152319/371472 [1:02:18<16:58:30,  3.59it/s] 41%|████      | 152320/371472 [1:02:19<17:20:52,  3.51it/s]                                                            {'loss': 3.1276, 'learning_rate': 6.312460945075308e-07, 'epoch': 6.56}
 41%|████      | 152320/371472 [1:02:19<17:20:52,  3.51it/s] 41%|████      | 152321/371472 [1:02:19<17:31:16,  3.47it/s] 41%|████      | 152322/371472 [1:02:19<17:25:18,  3.49it/s] 41%|████      | 152323/371472 [1:02:20<17:49:00,  3.42it/s] 41%|████      | 152324/371472 [1:02:20<17:21:40,  3.51it/s] 41%|████      | 152325/371472 [1:02:20<17:19:15,  3.51it/s] 41%|████      | 152326/371472 [1:02:20<17:25:22,  3.49it/s] 41%|████      | 152327/371472 [1:02:21<18:51:24,  3.23it/s] 41%|████      | 152328/371472 [1:02:21<18:43:22,  3.25it/s] 41%|████      | 152329/371472 [1:02:21<18:14:27,  3.34it/s] 41%|████      | 152330/371472 [1:02:22<18:23:29,  3.31it/s] 41%|████      | 152331/371472 [1:02:22<18:02:20,  3.37it/s] 41%|████      | 152332/371472 [1:02:22<17:35:29,  3.46it/s] 41%|████      | 152333/371472 [1:02:23<16:59:49,  3.58it/s] 41%|████      | 152334/371472 [1:02:23<16:57:43,  3.59it/s] 41%|████      | 152335/371472 [1:02:23<17:21:55,  3.51it/s] 41%|████      | 152336/371472 [1:02:23<17:07:42,  3.55it/s] 41%|████      | 152337/371472 [1:02:24<17:08:14,  3.55it/s] 41%|████      | 152338/371472 [1:02:24<16:43:39,  3.64it/s] 41%|████      | 152339/371472 [1:02:24<18:11:59,  3.34it/s] 41%|████      | 152340/371472 [1:02:25<18:37:43,  3.27it/s]                                                            {'loss': 3.261, 'learning_rate': 6.31197612532052e-07, 'epoch': 6.56}
 41%|████      | 152340/371472 [1:02:25<18:37:43,  3.27it/s] 41%|████      | 152341/371472 [1:02:25<17:24:28,  3.50it/s] 41%|████      | 152342/371472 [1:02:25<17:19:44,  3.51it/s] 41%|████      | 152343/371472 [1:02:25<16:54:53,  3.60it/s] 41%|████      | 152344/371472 [1:02:26<16:47:17,  3.63it/s] 41%|████      | 152345/371472 [1:02:26<16:24:22,  3.71it/s] 41%|████      | 152346/371472 [1:02:26<18:18:11,  3.33it/s] 41%|████      | 152347/371472 [1:02:27<17:53:17,  3.40it/s] 41%|████      | 152348/371472 [1:02:27<17:34:17,  3.46it/s] 41%|████      | 152349/371472 [1:02:27<16:59:10,  3.58it/s] 41%|████      | 152350/371472 [1:02:27<16:29:27,  3.69it/s] 41%|████      | 152351/371472 [1:02:28<16:49:35,  3.62it/s] 41%|████      | 152352/371472 [1:02:28<16:27:07,  3.70it/s] 41%|████      | 152353/371472 [1:02:28<16:07:30,  3.77it/s] 41%|████      | 152354/371472 [1:02:28<16:20:18,  3.73it/s] 41%|████      | 152355/371472 [1:02:29<15:52:13,  3.84it/s] 41%|████      | 152356/371472 [1:02:29<15:27:00,  3.94it/s] 41%|████      | 152357/371472 [1:02:29<15:33:34,  3.91it/s] 41%|████      | 152358/371472 [1:02:29<16:06:19,  3.78it/s] 41%|████      | 152359/371472 [1:02:30<17:48:14,  3.42it/s] 41%|████      | 152360/371472 [1:02:30<17:03:47,  3.57it/s]                                                            {'loss': 3.2299, 'learning_rate': 6.311491305565731e-07, 'epoch': 6.56}
 41%|████      | 152360/371472 [1:02:30<17:03:47,  3.57it/s] 41%|████      | 152361/371472 [1:02:30<17:09:48,  3.55it/s] 41%|████      | 152362/371472 [1:02:31<17:07:16,  3.55it/s] 41%|████      | 152363/371472 [1:02:31<16:39:02,  3.66it/s] 41%|████      | 152364/371472 [1:02:31<18:03:57,  3.37it/s] 41%|████      | 152365/371472 [1:02:32<17:53:54,  3.40it/s] 41%|████      | 152366/371472 [1:02:32<17:37:14,  3.45it/s] 41%|████      | 152367/371472 [1:02:32<17:04:39,  3.56it/s] 41%|████      | 152368/371472 [1:02:32<16:24:39,  3.71it/s] 41%|████      | 152369/371472 [1:02:33<17:14:39,  3.53it/s] 41%|████      | 152370/371472 [1:02:33<16:52:34,  3.61it/s] 41%|████      | 152371/371472 [1:02:33<17:03:33,  3.57it/s] 41%|████      | 152372/371472 [1:02:33<16:59:32,  3.58it/s] 41%|████      | 152373/371472 [1:02:34<17:04:01,  3.57it/s] 41%|████      | 152374/371472 [1:02:34<18:07:04,  3.36it/s] 41%|████      | 152375/371472 [1:02:34<18:19:09,  3.32it/s] 41%|████      | 152376/371472 [1:02:35<18:44:12,  3.25it/s] 41%|████      | 152377/371472 [1:02:35<18:20:15,  3.32it/s] 41%|████      | 152378/371472 [1:02:35<17:43:04,  3.43it/s] 41%|████      | 152379/371472 [1:02:36<17:11:13,  3.54it/s] 41%|████      | 152380/371472 [1:02:36<16:48:00,  3.62it/s]                                                            {'loss': 3.2144, 'learning_rate': 6.311006485810941e-07, 'epoch': 6.56}
 41%|████      | 152380/371472 [1:02:36<16:48:00,  3.62it/s] 41%|████      | 152381/371472 [1:02:36<16:46:35,  3.63it/s] 41%|████      | 152382/371472 [1:02:36<16:54:30,  3.60it/s] 41%|████      | 152383/371472 [1:02:37<17:09:32,  3.55it/s] 41%|████      | 152384/371472 [1:02:37<16:57:13,  3.59it/s] 41%|████      | 152385/371472 [1:02:37<16:33:37,  3.67it/s] 41%|████      | 152386/371472 [1:02:37<16:35:35,  3.67it/s] 41%|████      | 152387/371472 [1:02:38<16:58:10,  3.59it/s] 41%|████      | 152388/371472 [1:02:38<17:02:16,  3.57it/s] 41%|████      | 152389/371472 [1:02:38<16:30:09,  3.69it/s] 41%|████      | 152390/371472 [1:02:39<16:08:11,  3.77it/s] 41%|████      | 152391/371472 [1:02:39<16:26:33,  3.70it/s] 41%|████      | 152392/371472 [1:02:39<16:22:21,  3.72it/s] 41%|████      | 152393/371472 [1:02:39<16:15:56,  3.74it/s] 41%|████      | 152394/371472 [1:02:40<16:55:53,  3.59it/s] 41%|████      | 152395/371472 [1:02:40<16:48:27,  3.62it/s] 41%|████      | 152396/371472 [1:02:40<17:05:18,  3.56it/s] 41%|████      | 152397/371472 [1:02:40<16:47:09,  3.63it/s] 41%|████      | 152398/371472 [1:02:41<18:02:49,  3.37it/s] 41%|████      | 152399/371472 [1:02:41<18:08:49,  3.35it/s] 41%|████      | 152400/371472 [1:02:41<17:48:12,  3.42it/s]                                                            {'loss': 3.158, 'learning_rate': 6.310521666056153e-07, 'epoch': 6.56}
 41%|████      | 152400/371472 [1:02:41<17:48:12,  3.42it/s] 41%|████      | 152401/371472 [1:02:42<17:04:39,  3.56it/s] 41%|████      | 152402/371472 [1:02:42<16:53:16,  3.60it/s] 41%|████      | 152403/371472 [1:02:42<16:09:33,  3.77it/s] 41%|████      | 152404/371472 [1:02:42<16:16:32,  3.74it/s] 41%|████      | 152405/371472 [1:02:43<16:11:28,  3.76it/s] 41%|████      | 152406/371472 [1:02:43<15:52:03,  3.83it/s] 41%|████      | 152407/371472 [1:02:43<16:10:31,  3.76it/s] 41%|████      | 152408/371472 [1:02:43<15:51:45,  3.84it/s] 41%|████      | 152409/371472 [1:02:44<16:45:33,  3.63it/s] 41%|████      | 152410/371472 [1:02:44<16:33:58,  3.67it/s] 41%|████      | 152411/371472 [1:02:44<16:26:15,  3.70it/s] 41%|████      | 152412/371472 [1:02:45<16:39:47,  3.65it/s] 41%|████      | 152413/371472 [1:02:45<16:29:35,  3.69it/s] 41%|████      | 152414/371472 [1:02:45<16:14:50,  3.75it/s] 41%|████      | 152415/371472 [1:02:45<16:58:20,  3.59it/s] 41%|████      | 152416/371472 [1:02:46<16:47:40,  3.62it/s] 41%|████      | 152417/371472 [1:02:46<16:27:25,  3.70it/s] 41%|████      | 152418/371472 [1:02:46<16:17:27,  3.74it/s] 41%|████      | 152419/371472 [1:02:47<17:16:01,  3.52it/s] 41%|████      | 152420/371472 [1:02:47<17:30:41,  3.47it/s]                                                            {'loss': 3.289, 'learning_rate': 6.310036846301364e-07, 'epoch': 6.57}
 41%|████      | 152420/371472 [1:02:47<17:30:41,  3.47it/s] 41%|████      | 152421/371472 [1:02:47<18:43:03,  3.25it/s] 41%|████      | 152422/371472 [1:02:47<17:57:43,  3.39it/s] 41%|████      | 152423/371472 [1:02:48<17:29:30,  3.48it/s] 41%|████      | 152424/371472 [1:02:48<17:05:53,  3.56it/s] 41%|████      | 152425/371472 [1:02:48<18:32:02,  3.28it/s] 41%|████      | 152426/371472 [1:02:49<18:05:03,  3.36it/s] 41%|████      | 152427/371472 [1:02:49<17:51:34,  3.41it/s] 41%|████      | 152428/371472 [1:02:49<16:51:26,  3.61it/s] 41%|████      | 152429/371472 [1:02:49<17:46:54,  3.42it/s] 41%|████      | 152430/371472 [1:02:50<17:36:29,  3.46it/s] 41%|████      | 152431/371472 [1:02:50<17:28:33,  3.48it/s] 41%|████      | 152432/371472 [1:02:50<17:11:04,  3.54it/s] 41%|████      | 152433/371472 [1:02:51<17:03:26,  3.57it/s] 41%|████      | 152434/371472 [1:02:51<17:58:00,  3.39it/s] 41%|████      | 152435/371472 [1:02:51<17:31:09,  3.47it/s] 41%|████      | 152436/371472 [1:02:51<17:04:45,  3.56it/s] 41%|████      | 152437/371472 [1:02:52<16:57:22,  3.59it/s] 41%|████      | 152438/371472 [1:02:52<17:37:08,  3.45it/s] 41%|████      | 152439/371472 [1:02:52<17:55:57,  3.39it/s] 41%|████      | 152440/371472 [1:02:53<17:37:09,  3.45it/s]                                                            {'loss': 3.1439, 'learning_rate': 6.309552026546574e-07, 'epoch': 6.57}
 41%|████      | 152440/371472 [1:02:53<17:37:09,  3.45it/s] 41%|████      | 152441/371472 [1:02:53<18:28:43,  3.29it/s] 41%|████      | 152442/371472 [1:02:53<17:44:36,  3.43it/s] 41%|████      | 152443/371472 [1:02:53<17:13:16,  3.53it/s] 41%|████      | 152444/371472 [1:02:54<17:07:29,  3.55it/s] 41%|████      | 152445/371472 [1:02:54<17:28:31,  3.48it/s] 41%|████      | 152446/371472 [1:02:54<17:20:52,  3.51it/s] 41%|████      | 152447/371472 [1:02:55<17:19:04,  3.51it/s] 41%|████      | 152448/371472 [1:02:55<18:36:34,  3.27it/s] 41%|████      | 152449/371472 [1:02:55<18:00:41,  3.38it/s] 41%|████      | 152450/371472 [1:02:56<17:35:10,  3.46it/s] 41%|████      | 152451/371472 [1:02:56<17:09:57,  3.54it/s] 41%|████      | 152452/371472 [1:02:56<17:00:58,  3.58it/s] 41%|████      | 152453/371472 [1:02:56<17:06:59,  3.55it/s] 41%|████      | 152454/371472 [1:02:57<17:02:13,  3.57it/s] 41%|████      | 152455/371472 [1:02:57<17:42:50,  3.43it/s] 41%|████      | 152456/371472 [1:02:57<17:16:33,  3.52it/s] 41%|████      | 152457/371472 [1:02:57<17:04:30,  3.56it/s] 41%|████      | 152458/371472 [1:02:58<17:16:43,  3.52it/s] 41%|████      | 152459/371472 [1:02:58<18:41:08,  3.26it/s] 41%|████      | 152460/371472 [1:02:58<19:46:57,  3.08it/s]                                                            {'loss': 3.238, 'learning_rate': 6.309067206791785e-07, 'epoch': 6.57}
 41%|████      | 152460/371472 [1:02:58<19:46:57,  3.08it/s] 41%|████      | 152461/371472 [1:02:59<18:41:21,  3.26it/s] 41%|████      | 152462/371472 [1:02:59<17:37:31,  3.45it/s] 41%|████      | 152463/371472 [1:02:59<17:22:35,  3.50it/s] 41%|████      | 152464/371472 [1:03:00<17:25:01,  3.49it/s] 41%|████      | 152465/371472 [1:03:00<17:46:41,  3.42it/s] 41%|████      | 152466/371472 [1:03:00<17:17:42,  3.52it/s] 41%|████      | 152467/371472 [1:03:00<17:19:57,  3.51it/s] 41%|████      | 152468/371472 [1:03:01<16:26:24,  3.70it/s] 41%|████      | 152469/371472 [1:03:01<17:17:49,  3.52it/s] 41%|████      | 152470/371472 [1:03:01<17:22:36,  3.50it/s] 41%|████      | 152471/371472 [1:03:02<16:50:04,  3.61it/s] 41%|████      | 152472/371472 [1:03:02<17:07:18,  3.55it/s] 41%|████      | 152473/371472 [1:03:02<17:04:07,  3.56it/s] 41%|████      | 152474/371472 [1:03:02<17:10:55,  3.54it/s] 41%|████      | 152475/371472 [1:03:03<17:08:13,  3.55it/s] 41%|████      | 152476/371472 [1:03:03<16:51:58,  3.61it/s] 41%|████      | 152477/371472 [1:03:03<18:06:31,  3.36it/s] 41%|████      | 152478/371472 [1:03:04<17:35:16,  3.46it/s] 41%|████      | 152479/371472 [1:03:04<17:49:07,  3.41it/s] 41%|████      | 152480/371472 [1:03:04<17:38:43,  3.45it/s]                                                            {'loss': 3.2995, 'learning_rate': 6.308582387036997e-07, 'epoch': 6.57}
 41%|████      | 152480/371472 [1:03:04<17:38:43,  3.45it/s] 41%|████      | 152481/371472 [1:03:04<17:23:24,  3.50it/s] 41%|████      | 152482/371472 [1:03:05<17:28:00,  3.48it/s] 41%|████      | 152483/371472 [1:03:05<17:18:52,  3.51it/s] 41%|████      | 152484/371472 [1:03:05<17:17:41,  3.52it/s] 41%|████      | 152485/371472 [1:03:06<17:13:34,  3.53it/s] 41%|████      | 152486/371472 [1:03:06<17:31:05,  3.47it/s] 41%|████      | 152487/371472 [1:03:06<17:28:45,  3.48it/s] 41%|████      | 152488/371472 [1:03:06<17:24:45,  3.49it/s] 41%|████      | 152489/371472 [1:03:07<17:20:44,  3.51it/s] 41%|████      | 152490/371472 [1:03:07<17:01:46,  3.57it/s] 41%|████      | 152491/371472 [1:03:07<16:42:58,  3.64it/s] 41%|████      | 152492/371472 [1:03:07<16:03:09,  3.79it/s] 41%|████      | 152493/371472 [1:03:08<17:04:05,  3.56it/s] 41%|████      | 152494/371472 [1:03:08<17:23:03,  3.50it/s] 41%|████      | 152495/371472 [1:03:08<16:46:19,  3.63it/s] 41%|████      | 152496/371472 [1:03:09<16:55:38,  3.59it/s] 41%|████      | 152497/371472 [1:03:09<17:29:06,  3.48it/s] 41%|████      | 152498/371472 [1:03:09<17:29:25,  3.48it/s] 41%|████      | 152499/371472 [1:03:09<17:21:01,  3.51it/s] 41%|████      | 152500/371472 [1:03:10<17:19:27,  3.51it/s]                                                            {'loss': 3.0014, 'learning_rate': 6.308097567282208e-07, 'epoch': 6.57}
 41%|████      | 152500/371472 [1:03:10<17:19:27,  3.51it/s] 41%|████      | 152501/371472 [1:03:10<17:40:24,  3.44it/s] 41%|████      | 152502/371472 [1:03:10<16:57:38,  3.59it/s] 41%|████      | 152503/371472 [1:03:11<16:30:04,  3.69it/s] 41%|████      | 152504/371472 [1:03:11<17:18:27,  3.51it/s] 41%|████      | 152505/371472 [1:03:11<18:33:09,  3.28it/s] 41%|████      | 152506/371472 [1:03:12<18:39:49,  3.26it/s] 41%|████      | 152507/371472 [1:03:12<18:19:37,  3.32it/s] 41%|████      | 152508/371472 [1:03:12<17:50:53,  3.41it/s] 41%|████      | 152509/371472 [1:03:12<18:01:21,  3.37it/s] 41%|████      | 152510/371472 [1:03:13<17:43:03,  3.43it/s] 41%|████      | 152511/371472 [1:03:13<17:39:55,  3.44it/s] 41%|████      | 152512/371472 [1:03:13<17:09:49,  3.54it/s] 41%|████      | 152513/371472 [1:03:14<16:57:30,  3.59it/s] 41%|████      | 152514/371472 [1:03:14<16:50:19,  3.61it/s] 41%|████      | 152515/371472 [1:03:14<16:51:34,  3.61it/s] 41%|████      | 152516/371472 [1:03:14<16:55:40,  3.59it/s] 41%|████      | 152517/371472 [1:03:15<16:24:55,  3.71it/s] 41%|████      | 152518/371472 [1:03:15<16:02:25,  3.79it/s] 41%|████      | 152519/371472 [1:03:15<15:43:20,  3.87it/s] 41%|████      | 152520/371472 [1:03:15<15:58:38,  3.81it/s]                                                            {'loss': 3.2853, 'learning_rate': 6.307612747527419e-07, 'epoch': 6.57}
 41%|████      | 152520/371472 [1:03:15<15:58:38,  3.81it/s] 41%|████      | 152521/371472 [1:03:16<15:31:42,  3.92it/s] 41%|████      | 152522/371472 [1:03:16<15:42:18,  3.87it/s] 41%|████      | 152523/371472 [1:03:16<15:28:16,  3.93it/s] 41%|████      | 152524/371472 [1:03:16<15:46:15,  3.86it/s] 41%|████      | 152525/371472 [1:03:17<17:04:23,  3.56it/s] 41%|████      | 152526/371472 [1:03:17<16:44:49,  3.63it/s] 41%|████      | 152527/371472 [1:03:17<16:56:46,  3.59it/s] 41%|████      | 152528/371472 [1:03:18<17:07:06,  3.55it/s] 41%|████      | 152529/371472 [1:03:18<18:06:52,  3.36it/s] 41%|████      | 152530/371472 [1:03:18<17:28:06,  3.48it/s] 41%|████      | 152531/371472 [1:03:18<16:59:45,  3.58it/s] 41%|████      | 152532/371472 [1:03:19<16:56:00,  3.59it/s] 41%|████      | 152533/371472 [1:03:19<16:16:19,  3.74it/s] 41%|████      | 152534/371472 [1:03:19<16:15:47,  3.74it/s] 41%|████      | 152535/371472 [1:03:19<16:15:37,  3.74it/s] 41%|████      | 152536/371472 [1:03:20<16:58:47,  3.58it/s] 41%|████      | 152537/371472 [1:03:20<17:07:47,  3.55it/s] 41%|████      | 152538/371472 [1:03:20<16:54:05,  3.60it/s] 41%|████      | 152539/371472 [1:03:21<19:33:29,  3.11it/s] 41%|████      | 152540/371472 [1:03:21<19:02:56,  3.19it/s]                                                            {'loss': 3.1967, 'learning_rate': 6.30712792777263e-07, 'epoch': 6.57}
 41%|████      | 152540/371472 [1:03:21<19:02:56,  3.19it/s] 41%|████      | 152541/371472 [1:03:21<19:01:43,  3.20it/s] 41%|████      | 152542/371472 [1:03:22<19:54:58,  3.05it/s] 41%|████      | 152543/371472 [1:03:22<18:38:43,  3.26it/s] 41%|████      | 152544/371472 [1:03:22<18:04:20,  3.36it/s] 41%|████      | 152545/371472 [1:03:23<18:24:12,  3.30it/s] 41%|████      | 152546/371472 [1:03:23<17:35:40,  3.46it/s] 41%|████      | 152547/371472 [1:03:23<17:14:46,  3.53it/s] 41%|████      | 152548/371472 [1:03:23<17:14:10,  3.53it/s] 41%|████      | 152549/371472 [1:03:24<18:00:29,  3.38it/s] 41%|████      | 152550/371472 [1:03:24<17:46:16,  3.42it/s] 41%|████      | 152551/371472 [1:03:24<16:51:06,  3.61it/s] 41%|████      | 152552/371472 [1:03:25<17:30:43,  3.47it/s] 41%|████      | 152553/371472 [1:03:25<17:12:46,  3.53it/s] 41%|████      | 152554/371472 [1:03:25<18:10:15,  3.35it/s] 41%|████      | 152555/371472 [1:03:25<17:25:30,  3.49it/s] 41%|████      | 152556/371472 [1:03:26<17:08:59,  3.55it/s] 41%|████      | 152557/371472 [1:03:26<16:48:44,  3.62it/s] 41%|████      | 152558/371472 [1:03:26<16:56:29,  3.59it/s] 41%|████      | 152559/371472 [1:03:27<18:06:50,  3.36it/s] 41%|████      | 152560/371472 [1:03:27<17:55:10,  3.39it/s]                                                            {'loss': 3.2784, 'learning_rate': 6.306643108017841e-07, 'epoch': 6.57}
 41%|████      | 152560/371472 [1:03:27<17:55:10,  3.39it/s] 41%|████      | 152561/371472 [1:03:27<17:36:54,  3.45it/s] 41%|████      | 152562/371472 [1:03:27<18:37:45,  3.26it/s] 41%|████      | 152563/371472 [1:03:28<18:01:17,  3.37it/s] 41%|████      | 152564/371472 [1:03:28<18:33:43,  3.28it/s] 41%|████      | 152565/371472 [1:03:28<18:22:00,  3.31it/s] 41%|████      | 152566/371472 [1:03:29<18:38:05,  3.26it/s] 41%|████      | 152567/371472 [1:03:29<17:46:14,  3.42it/s] 41%|████      | 152568/371472 [1:03:29<17:55:46,  3.39it/s] 41%|████      | 152569/371472 [1:03:30<17:28:15,  3.48it/s] 41%|████      | 152570/371472 [1:03:30<16:47:34,  3.62it/s] 41%|████      | 152571/371472 [1:03:30<16:32:20,  3.68it/s] 41%|████      | 152572/371472 [1:03:30<17:35:29,  3.46it/s] 41%|████      | 152573/371472 [1:03:31<19:19:15,  3.15it/s] 41%|████      | 152574/371472 [1:03:31<19:25:12,  3.13it/s] 41%|████      | 152575/371472 [1:03:31<18:25:27,  3.30it/s] 41%|████      | 152576/371472 [1:03:32<17:27:10,  3.48it/s] 41%|████      | 152577/371472 [1:03:32<17:50:00,  3.41it/s] 41%|████      | 152578/371472 [1:03:32<17:29:41,  3.48it/s] 41%|████      | 152579/371472 [1:03:33<18:26:09,  3.30it/s] 41%|████      | 152580/371472 [1:03:33<18:22:55,  3.31it/s]                                                            {'loss': 3.3725, 'learning_rate': 6.306158288263052e-07, 'epoch': 6.57}
 41%|████      | 152580/371472 [1:03:33<18:22:55,  3.31it/s] 41%|████      | 152581/371472 [1:03:33<17:55:17,  3.39it/s] 41%|████      | 152582/371472 [1:03:33<17:15:16,  3.52it/s] 41%|████      | 152583/371472 [1:03:34<16:59:39,  3.58it/s] 41%|████      | 152584/371472 [1:03:34<16:28:57,  3.69it/s] 41%|████      | 152585/371472 [1:03:34<16:38:07,  3.65it/s] 41%|████      | 152586/371472 [1:03:34<16:37:47,  3.66it/s] 41%|████      | 152587/371472 [1:03:35<16:16:31,  3.74it/s] 41%|████      | 152588/371472 [1:03:35<16:06:43,  3.77it/s] 41%|████      | 152589/371472 [1:03:35<16:24:40,  3.70it/s] 41%|████      | 152590/371472 [1:03:36<17:01:12,  3.57it/s] 41%|████      | 152591/371472 [1:03:36<16:59:20,  3.58it/s] 41%|████      | 152592/371472 [1:03:36<17:39:10,  3.44it/s] 41%|████      | 152593/371472 [1:03:36<17:37:54,  3.45it/s] 41%|████      | 152594/371472 [1:03:37<17:28:31,  3.48it/s] 41%|████      | 152595/371472 [1:03:37<17:26:40,  3.49it/s] 41%|████      | 152596/371472 [1:03:37<17:19:38,  3.51it/s] 41%|████      | 152597/371472 [1:03:38<16:59:51,  3.58it/s] 41%|████      | 152598/371472 [1:03:38<16:59:32,  3.58it/s] 41%|████      | 152599/371472 [1:03:38<16:29:06,  3.69it/s] 41%|████      | 152600/371472 [1:03:38<16:50:24,  3.61it/s]                                                            {'loss': 3.2654, 'learning_rate': 6.305673468508262e-07, 'epoch': 6.57}
 41%|████      | 152600/371472 [1:03:38<16:50:24,  3.61it/s] 41%|████      | 152601/371472 [1:03:39<17:45:35,  3.42it/s] 41%|████      | 152602/371472 [1:03:39<18:06:14,  3.36it/s] 41%|████      | 152603/371472 [1:03:39<17:37:55,  3.45it/s] 41%|████      | 152604/371472 [1:03:40<18:17:11,  3.32it/s] 41%|████      | 152605/371472 [1:03:40<17:21:57,  3.50it/s] 41%|████      | 152606/371472 [1:03:40<17:32:37,  3.47it/s] 41%|████      | 152607/371472 [1:03:40<16:54:07,  3.60it/s] 41%|████      | 152608/371472 [1:03:41<16:25:30,  3.70it/s] 41%|████      | 152609/371472 [1:03:41<16:29:11,  3.69it/s] 41%|████      | 152610/371472 [1:03:41<16:31:01,  3.68it/s] 41%|████      | 152611/371472 [1:03:41<16:19:20,  3.72it/s] 41%|████      | 152612/371472 [1:03:42<16:42:34,  3.64it/s] 41%|████      | 152613/371472 [1:03:42<16:43:09,  3.64it/s] 41%|████      | 152614/371472 [1:03:42<16:41:21,  3.64it/s] 41%|████      | 152615/371472 [1:03:43<16:37:52,  3.66it/s] 41%|████      | 152616/371472 [1:03:43<16:30:15,  3.68it/s] 41%|████      | 152617/371472 [1:03:43<16:36:22,  3.66it/s] 41%|████      | 152618/371472 [1:03:43<16:48:56,  3.62it/s] 41%|████      | 152619/371472 [1:03:44<17:13:50,  3.53it/s] 41%|████      | 152620/371472 [1:03:44<17:39:35,  3.44it/s]                                                            {'loss': 3.1991, 'learning_rate': 6.305188648753474e-07, 'epoch': 6.57}
 41%|████      | 152620/371472 [1:03:44<17:39:35,  3.44it/s] 41%|████      | 152621/371472 [1:03:44<17:04:22,  3.56it/s] 41%|████      | 152622/371472 [1:03:44<16:31:55,  3.68it/s] 41%|████      | 152623/371472 [1:03:45<16:53:29,  3.60it/s] 41%|████      | 152624/371472 [1:03:45<17:04:57,  3.56it/s] 41%|████      | 152625/371472 [1:03:45<16:45:01,  3.63it/s] 41%|████      | 152626/371472 [1:03:46<16:57:15,  3.59it/s] 41%|████      | 152627/371472 [1:03:46<16:29:43,  3.69it/s] 41%|████      | 152628/371472 [1:03:46<15:54:53,  3.82it/s] 41%|████      | 152629/371472 [1:03:46<16:07:57,  3.77it/s] 41%|████      | 152630/371472 [1:03:47<15:52:25,  3.83it/s] 41%|████      | 152631/371472 [1:03:47<16:18:30,  3.73it/s] 41%|████      | 152632/371472 [1:03:47<16:09:14,  3.76it/s] 41%|████      | 152633/371472 [1:03:47<16:06:51,  3.77it/s] 41%|████      | 152634/371472 [1:03:48<15:51:06,  3.83it/s] 41%|████      | 152635/371472 [1:03:48<16:10:41,  3.76it/s] 41%|████      | 152636/371472 [1:03:48<16:42:50,  3.64it/s] 41%|████      | 152637/371472 [1:03:49<16:25:51,  3.70it/s] 41%|████      | 152638/371472 [1:03:49<16:41:53,  3.64it/s] 41%|████      | 152639/371472 [1:03:49<16:31:58,  3.68it/s] 41%|████      | 152640/371472 [1:03:49<17:30:23,  3.47it/s]                                                            {'loss': 3.3278, 'learning_rate': 6.304703828998686e-07, 'epoch': 6.57}
 41%|████      | 152640/371472 [1:03:49<17:30:23,  3.47it/s] 41%|████      | 152641/371472 [1:03:50<18:29:42,  3.29it/s] 41%|████      | 152642/371472 [1:03:50<17:44:04,  3.43it/s] 41%|████      | 152643/371472 [1:03:50<18:05:38,  3.36it/s] 41%|████      | 152644/371472 [1:03:51<17:31:00,  3.47it/s] 41%|████      | 152645/371472 [1:03:51<17:13:37,  3.53it/s] 41%|████      | 152646/371472 [1:03:51<16:57:04,  3.59it/s] 41%|████      | 152647/371472 [1:03:51<17:19:35,  3.51it/s] 41%|████      | 152648/371472 [1:03:52<17:59:18,  3.38it/s] 41%|████      | 152649/371472 [1:03:52<19:23:27,  3.13it/s] 41%|████      | 152650/371472 [1:03:52<19:16:35,  3.15it/s] 41%|████      | 152651/371472 [1:03:53<19:06:14,  3.18it/s] 41%|████      | 152652/371472 [1:03:53<18:26:59,  3.29it/s] 41%|████      | 152653/371472 [1:03:53<17:48:12,  3.41it/s] 41%|████      | 152654/371472 [1:03:54<17:41:26,  3.44it/s] 41%|████      | 152655/371472 [1:03:54<17:04:07,  3.56it/s] 41%|████      | 152656/371472 [1:03:54<17:02:04,  3.57it/s] 41%|████      | 152657/371472 [1:03:54<17:04:36,  3.56it/s] 41%|████      | 152658/371472 [1:03:55<17:49:32,  3.41it/s] 41%|████      | 152659/371472 [1:03:55<18:01:35,  3.37it/s] 41%|████      | 152660/371472 [1:03:55<17:15:20,  3.52it/s]                                                            {'loss': 3.1953, 'learning_rate': 6.304219009243897e-07, 'epoch': 6.58}
 41%|████      | 152660/371472 [1:03:55<17:15:20,  3.52it/s] 41%|████      | 152661/371472 [1:03:56<18:14:22,  3.33it/s] 41%|████      | 152662/371472 [1:03:56<18:33:58,  3.27it/s] 41%|████      | 152663/371472 [1:03:56<17:49:47,  3.41it/s] 41%|████      | 152664/371472 [1:03:57<18:50:27,  3.23it/s] 41%|████      | 152665/371472 [1:03:57<18:15:21,  3.33it/s] 41%|████      | 152666/371472 [1:03:57<17:43:04,  3.43it/s] 41%|████      | 152667/371472 [1:03:57<17:16:53,  3.52it/s] 41%|████      | 152668/371472 [1:03:58<17:12:43,  3.53it/s] 41%|████      | 152669/371472 [1:03:58<17:53:52,  3.40it/s] 41%|████      | 152670/371472 [1:03:58<17:26:54,  3.48it/s] 41%|████      | 152671/371472 [1:03:58<17:03:35,  3.56it/s] 41%|████      | 152672/371472 [1:03:59<17:07:30,  3.55it/s] 41%|████      | 152673/371472 [1:03:59<16:29:55,  3.68it/s] 41%|████      | 152674/371472 [1:03:59<16:46:11,  3.62it/s] 41%|████      | 152675/371472 [1:04:00<16:42:41,  3.64it/s] 41%|████      | 152676/371472 [1:04:00<16:32:36,  3.67it/s] 41%|████      | 152677/371472 [1:04:00<16:26:06,  3.70it/s] 41%|████      | 152678/371472 [1:04:01<18:49:11,  3.23it/s] 41%|████      | 152679/371472 [1:04:01<17:43:53,  3.43it/s] 41%|████      | 152680/371472 [1:04:01<17:31:36,  3.47it/s]                                                            {'loss': 3.2053, 'learning_rate': 6.303734189489107e-07, 'epoch': 6.58}
 41%|████      | 152680/371472 [1:04:01<17:31:36,  3.47it/s] 41%|████      | 152681/371472 [1:04:01<17:56:34,  3.39it/s] 41%|████      | 152682/371472 [1:04:02<17:05:53,  3.55it/s] 41%|████      | 152683/371472 [1:04:02<19:54:18,  3.05it/s] 41%|████      | 152684/371472 [1:04:02<18:58:56,  3.20it/s] 41%|████      | 152685/371472 [1:04:03<19:52:42,  3.06it/s] 41%|████      | 152686/371472 [1:04:03<19:38:45,  3.09it/s] 41%|████      | 152687/371472 [1:04:03<18:32:26,  3.28it/s] 41%|████      | 152688/371472 [1:04:04<17:35:40,  3.45it/s] 41%|████      | 152689/371472 [1:04:04<17:30:40,  3.47it/s] 41%|████      | 152690/371472 [1:04:04<17:33:07,  3.46it/s] 41%|████      | 152691/371472 [1:04:04<16:50:52,  3.61it/s] 41%|████      | 152692/371472 [1:04:05<16:53:15,  3.60it/s] 41%|████      | 152693/371472 [1:04:05<17:31:00,  3.47it/s] 41%|████      | 152694/371472 [1:04:05<17:09:47,  3.54it/s] 41%|████      | 152695/371472 [1:04:05<16:32:34,  3.67it/s] 41%|████      | 152696/371472 [1:04:06<16:41:53,  3.64it/s] 41%|████      | 152697/371472 [1:04:06<16:49:59,  3.61it/s] 41%|████      | 152698/371472 [1:04:06<16:14:10,  3.74it/s] 41%|████      | 152699/371472 [1:04:07<15:56:58,  3.81it/s] 41%|████      | 152700/371472 [1:04:07<16:54:20,  3.59it/s]                                                            {'loss': 3.253, 'learning_rate': 6.303249369734318e-07, 'epoch': 6.58}
 41%|████      | 152700/371472 [1:04:07<16:54:20,  3.59it/s] 41%|████      | 152701/371472 [1:04:07<16:24:27,  3.70it/s] 41%|████      | 152702/371472 [1:04:07<17:18:51,  3.51it/s] 41%|████      | 152703/371472 [1:04:08<17:05:09,  3.56it/s] 41%|████      | 152704/371472 [1:04:08<17:10:22,  3.54it/s] 41%|████      | 152705/371472 [1:04:08<16:33:07,  3.67it/s] 41%|████      | 152706/371472 [1:04:08<16:51:22,  3.61it/s] 41%|████      | 152707/371472 [1:04:09<19:04:37,  3.19it/s] 41%|████      | 152708/371472 [1:04:09<18:12:24,  3.34it/s] 41%|████      | 152709/371472 [1:04:09<18:03:06,  3.37it/s] 41%|████      | 152710/371472 [1:04:10<17:35:42,  3.45it/s] 41%|████      | 152711/371472 [1:04:10<17:27:11,  3.48it/s] 41%|████      | 152712/371472 [1:04:10<16:55:18,  3.59it/s] 41%|████      | 152713/371472 [1:04:11<16:30:05,  3.68it/s] 41%|████      | 152714/371472 [1:04:11<16:25:13,  3.70it/s] 41%|████      | 152715/371472 [1:04:11<16:01:22,  3.79it/s] 41%|████      | 152716/371472 [1:04:11<16:26:59,  3.69it/s] 41%|████      | 152717/371472 [1:04:12<16:47:40,  3.62it/s] 41%|████      | 152718/371472 [1:04:12<16:51:37,  3.60it/s] 41%|████      | 152719/371472 [1:04:12<16:57:52,  3.58it/s] 41%|████      | 152720/371472 [1:04:12<16:27:43,  3.69it/s]                                                            {'loss': 3.2709, 'learning_rate': 6.30276454997953e-07, 'epoch': 6.58}
 41%|████      | 152720/371472 [1:04:12<16:27:43,  3.69it/s] 41%|████      | 152721/371472 [1:04:13<16:44:54,  3.63it/s] 41%|████      | 152722/371472 [1:04:13<16:38:29,  3.65it/s] 41%|████      | 152723/371472 [1:04:13<17:03:30,  3.56it/s] 41%|████      | 152724/371472 [1:04:14<17:44:07,  3.43it/s] 41%|████      | 152725/371472 [1:04:14<17:42:33,  3.43it/s] 41%|████      | 152726/371472 [1:04:14<17:08:19,  3.55it/s] 41%|████      | 152727/371472 [1:04:14<17:34:22,  3.46it/s] 41%|████      | 152728/371472 [1:04:15<17:58:07,  3.38it/s] 41%|████      | 152729/371472 [1:04:15<17:41:48,  3.43it/s] 41%|████      | 152730/371472 [1:04:15<18:07:34,  3.35it/s] 41%|████      | 152731/371472 [1:04:16<19:27:55,  3.12it/s] 41%|████      | 152732/371472 [1:04:16<18:48:37,  3.23it/s] 41%|████      | 152733/371472 [1:04:16<18:19:49,  3.31it/s] 41%|████      | 152734/371472 [1:04:17<19:08:58,  3.17it/s] 41%|████      | 152735/371472 [1:04:17<18:57:45,  3.20it/s] 41%|████      | 152736/371472 [1:04:17<17:52:12,  3.40it/s] 41%|████      | 152737/371472 [1:04:17<17:25:59,  3.49it/s] 41%|████      | 152738/371472 [1:04:18<16:49:55,  3.61it/s] 41%|████      | 152739/371472 [1:04:18<16:26:12,  3.70it/s] 41%|████      | 152740/371472 [1:04:18<16:36:21,  3.66it/s]                                                            {'loss': 3.3863, 'learning_rate': 6.302279730224741e-07, 'epoch': 6.58}
 41%|████      | 152740/371472 [1:04:18<16:36:21,  3.66it/s] 41%|████      | 152741/371472 [1:04:19<17:03:27,  3.56it/s] 41%|████      | 152742/371472 [1:04:19<17:01:01,  3.57it/s] 41%|████      | 152743/371472 [1:04:19<17:11:23,  3.53it/s] 41%|████      | 152744/371472 [1:04:19<17:17:30,  3.51it/s] 41%|████      | 152745/371472 [1:04:20<16:38:12,  3.65it/s] 41%|████      | 152746/371472 [1:04:20<16:17:28,  3.73it/s] 41%|████      | 152747/371472 [1:04:20<18:39:10,  3.26it/s] 41%|████      | 152748/371472 [1:04:21<17:48:26,  3.41it/s] 41%|████      | 152749/371472 [1:04:21<17:48:38,  3.41it/s] 41%|████      | 152750/371472 [1:04:21<17:43:10,  3.43it/s] 41%|████      | 152751/371472 [1:04:21<17:44:03,  3.43it/s] 41%|████      | 152752/371472 [1:04:22<17:37:22,  3.45it/s] 41%|████      | 152753/371472 [1:04:22<18:17:57,  3.32it/s] 41%|████      | 152754/371472 [1:04:22<17:58:42,  3.38it/s] 41%|████      | 152755/371472 [1:04:23<18:13:36,  3.33it/s] 41%|████      | 152756/371472 [1:04:23<17:32:27,  3.46it/s] 41%|████      | 152757/371472 [1:04:23<17:26:53,  3.48it/s] 41%|████      | 152758/371472 [1:04:23<17:24:57,  3.49it/s] 41%|████      | 152759/371472 [1:04:24<16:59:16,  3.58it/s] 41%|████      | 152760/371472 [1:04:24<16:41:59,  3.64it/s]                                                            {'loss': 3.2039, 'learning_rate': 6.30179491046995e-07, 'epoch': 6.58}
 41%|████      | 152760/371472 [1:04:24<16:41:59,  3.64it/s] 41%|████      | 152761/371472 [1:04:24<17:04:00,  3.56it/s] 41%|████      | 152762/371472 [1:04:25<17:56:37,  3.39it/s] 41%|████      | 152763/371472 [1:04:25<17:21:35,  3.50it/s] 41%|████      | 152764/371472 [1:04:25<17:14:31,  3.52it/s] 41%|████      | 152765/371472 [1:04:26<20:36:33,  2.95it/s] 41%|████      | 152766/371472 [1:04:26<19:10:44,  3.17it/s] 41%|████      | 152767/371472 [1:04:26<18:41:07,  3.25it/s] 41%|████      | 152768/371472 [1:04:26<17:44:37,  3.42it/s] 41%|████      | 152769/371472 [1:04:27<17:33:39,  3.46it/s] 41%|████      | 152770/371472 [1:04:27<17:12:16,  3.53it/s] 41%|████      | 152771/371472 [1:04:27<16:47:08,  3.62it/s] 41%|████      | 152772/371472 [1:04:28<16:54:09,  3.59it/s] 41%|████      | 152773/371472 [1:04:28<17:06:12,  3.55it/s] 41%|████      | 152774/371472 [1:04:28<17:25:19,  3.49it/s] 41%|████      | 152775/371472 [1:04:28<17:34:49,  3.46it/s] 41%|████      | 152776/371472 [1:04:29<17:10:55,  3.54it/s] 41%|████      | 152777/371472 [1:04:29<17:07:17,  3.55it/s] 41%|████      | 152778/371472 [1:04:29<16:47:55,  3.62it/s] 41%|████      | 152779/371472 [1:04:30<17:34:12,  3.46it/s] 41%|████      | 152780/371472 [1:04:30<18:16:54,  3.32it/s]                                                            {'loss': 3.2668, 'learning_rate': 6.301310090715163e-07, 'epoch': 6.58}
 41%|████      | 152780/371472 [1:04:30<18:16:54,  3.32it/s] 41%|████      | 152781/371472 [1:04:30<17:25:02,  3.49it/s] 41%|████      | 152782/371472 [1:04:30<17:12:22,  3.53it/s] 41%|████      | 152783/371472 [1:04:31<16:52:05,  3.60it/s] 41%|████      | 152784/371472 [1:04:31<18:25:06,  3.30it/s] 41%|████      | 152785/371472 [1:04:31<17:26:02,  3.48it/s] 41%|████      | 152786/371472 [1:04:32<16:36:55,  3.66it/s] 41%|████      | 152787/371472 [1:04:32<18:29:14,  3.29it/s] 41%|████      | 152788/371472 [1:04:32<17:19:53,  3.50it/s] 41%|████      | 152789/371472 [1:04:32<16:32:50,  3.67it/s] 41%|████      | 152790/371472 [1:04:33<16:18:49,  3.72it/s] 41%|████      | 152791/371472 [1:04:33<15:41:06,  3.87it/s] 41%|████      | 152792/371472 [1:04:33<16:00:23,  3.79it/s] 41%|████      | 152793/371472 [1:04:33<16:08:08,  3.76it/s] 41%|████      | 152794/371472 [1:04:34<15:41:11,  3.87it/s] 41%|████      | 152795/371472 [1:04:34<16:49:17,  3.61it/s] 41%|████      | 152796/371472 [1:04:34<17:14:56,  3.52it/s] 41%|████      | 152797/371472 [1:04:35<17:51:00,  3.40it/s] 41%|████      | 152798/371472 [1:04:35<17:13:11,  3.53it/s] 41%|████      | 152799/371472 [1:04:35<17:37:56,  3.44it/s] 41%|████      | 152800/371472 [1:04:35<17:18:57,  3.51it/s]                                                            {'loss': 3.1952, 'learning_rate': 6.300825270960375e-07, 'epoch': 6.58}
 41%|████      | 152800/371472 [1:04:35<17:18:57,  3.51it/s] 41%|████      | 152801/371472 [1:04:36<16:51:11,  3.60it/s] 41%|████      | 152802/371472 [1:04:36<18:11:09,  3.34it/s] 41%|████      | 152803/371472 [1:04:36<17:28:38,  3.48it/s] 41%|████      | 152804/371472 [1:04:37<17:00:16,  3.57it/s] 41%|████      | 152805/371472 [1:04:37<17:11:13,  3.53it/s] 41%|████      | 152806/371472 [1:04:37<16:48:50,  3.61it/s] 41%|████      | 152807/371472 [1:04:37<16:09:13,  3.76it/s] 41%|████      | 152808/371472 [1:04:38<15:51:32,  3.83it/s] 41%|████      | 152809/371472 [1:04:38<15:56:01,  3.81it/s] 41%|████      | 152810/371472 [1:04:38<16:10:35,  3.75it/s] 41%|████      | 152811/371472 [1:04:38<15:57:43,  3.81it/s] 41%|████      | 152812/371472 [1:04:39<15:51:35,  3.83it/s] 41%|████      | 152813/371472 [1:04:39<16:36:42,  3.66it/s] 41%|████      | 152814/371472 [1:04:39<17:15:41,  3.52it/s] 41%|████      | 152815/371472 [1:04:40<17:39:12,  3.44it/s] 41%|████      | 152816/371472 [1:04:40<17:01:22,  3.57it/s] 41%|████      | 152817/371472 [1:04:40<18:12:41,  3.34it/s] 41%|████      | 152818/371472 [1:04:40<18:05:41,  3.36it/s] 41%|████      | 152819/371472 [1:04:41<19:34:30,  3.10it/s] 41%|████      | 152820/371472 [1:04:41<18:59:29,  3.20it/s]                                                            {'loss': 3.1464, 'learning_rate': 6.300340451205585e-07, 'epoch': 6.58}
 41%|████      | 152820/371472 [1:04:41<18:59:29,  3.20it/s] 41%|████      | 152821/371472 [1:04:41<18:30:26,  3.28it/s] 41%|████      | 152822/371472 [1:04:42<17:35:24,  3.45it/s] 41%|████      | 152823/371472 [1:04:42<17:06:26,  3.55it/s] 41%|████      | 152824/371472 [1:04:42<17:40:35,  3.44it/s] 41%|████      | 152825/371472 [1:04:43<16:58:24,  3.58it/s] 41%|████      | 152826/371472 [1:04:43<16:26:44,  3.69it/s] 41%|████      | 152827/371472 [1:04:43<17:48:29,  3.41it/s] 41%|████      | 152828/371472 [1:04:43<17:01:25,  3.57it/s] 41%|████      | 152829/371472 [1:04:44<16:41:07,  3.64it/s] 41%|████      | 152830/371472 [1:04:44<16:35:20,  3.66it/s] 41%|████      | 152831/371472 [1:04:44<18:34:33,  3.27it/s] 41%|████      | 152832/371472 [1:04:45<19:03:13,  3.19it/s] 41%|████      | 152833/371472 [1:04:45<18:08:45,  3.35it/s] 41%|████      | 152834/371472 [1:04:45<17:34:51,  3.45it/s] 41%|████      | 152835/371472 [1:04:45<17:50:42,  3.40it/s] 41%|████      | 152836/371472 [1:04:46<18:03:59,  3.36it/s] 41%|████      | 152837/371472 [1:04:46<18:03:42,  3.36it/s] 41%|████      | 152838/371472 [1:04:46<17:15:09,  3.52it/s] 41%|████      | 152839/371472 [1:04:47<17:06:44,  3.55it/s] 41%|████      | 152840/371472 [1:04:47<17:32:52,  3.46it/s]                                                            {'loss': 3.2877, 'learning_rate': 6.299855631450795e-07, 'epoch': 6.58}
 41%|████      | 152840/371472 [1:04:47<17:32:52,  3.46it/s] 41%|████      | 152841/371472 [1:04:47<17:01:52,  3.57it/s] 41%|████      | 152842/371472 [1:04:47<17:54:46,  3.39it/s] 41%|████      | 152843/371472 [1:04:48<18:17:11,  3.32it/s] 41%|████      | 152844/371472 [1:04:48<17:22:00,  3.50it/s] 41%|████      | 152845/371472 [1:04:48<17:56:39,  3.38it/s] 41%|████      | 152846/371472 [1:04:49<18:11:02,  3.34it/s] 41%|████      | 152847/371472 [1:04:49<17:25:04,  3.49it/s] 41%|████      | 152848/371472 [1:04:49<17:10:18,  3.54it/s] 41%|████      | 152849/371472 [1:04:49<16:41:54,  3.64it/s] 41%|████      | 152850/371472 [1:04:50<16:42:09,  3.64it/s] 41%|████      | 152851/371472 [1:04:50<16:08:48,  3.76it/s] 41%|████      | 152852/371472 [1:04:50<17:34:23,  3.46it/s] 41%|████      | 152853/371472 [1:04:51<18:17:28,  3.32it/s] 41%|████      | 152854/371472 [1:04:51<17:39:48,  3.44it/s] 41%|████      | 152855/371472 [1:04:51<17:33:27,  3.46it/s] 41%|████      | 152856/371472 [1:04:51<16:47:26,  3.62it/s] 41%|████      | 152857/371472 [1:04:52<16:34:10,  3.66it/s] 41%|████      | 152858/371472 [1:04:52<16:02:12,  3.79it/s] 41%|████      | 152859/371472 [1:04:52<16:17:57,  3.73it/s] 41%|████      | 152860/371472 [1:04:53<16:22:07,  3.71it/s]                                                            {'loss': 3.0901, 'learning_rate': 6.299370811696008e-07, 'epoch': 6.58}
 41%|████      | 152860/371472 [1:04:53<16:22:07,  3.71it/s] 41%|████      | 152861/371472 [1:04:53<16:41:43,  3.64it/s] 41%|████      | 152862/371472 [1:04:53<16:29:19,  3.68it/s] 41%|████      | 152863/371472 [1:04:53<16:06:46,  3.77it/s] 41%|████      | 152864/371472 [1:04:54<15:41:44,  3.87it/s] 41%|████      | 152865/371472 [1:04:54<15:54:48,  3.82it/s] 41%|████      | 152866/371472 [1:04:54<16:00:43,  3.79it/s] 41%|████      | 152867/371472 [1:04:54<16:49:49,  3.61it/s] 41%|████      | 152868/371472 [1:04:55<16:23:59,  3.70it/s] 41%|████      | 152869/371472 [1:04:55<16:08:43,  3.76it/s] 41%|████      | 152870/371472 [1:04:55<16:58:03,  3.58it/s] 41%|████      | 152871/371472 [1:04:56<17:37:24,  3.45it/s] 41%|████      | 152872/371472 [1:04:56<18:00:51,  3.37it/s] 41%|████      | 152873/371472 [1:04:56<17:31:11,  3.47it/s] 41%|████      | 152874/371472 [1:04:56<18:18:27,  3.32it/s] 41%|████      | 152875/371472 [1:04:57<17:28:54,  3.47it/s] 41%|████      | 152876/371472 [1:04:57<16:58:47,  3.58it/s] 41%|████      | 152877/371472 [1:04:57<17:45:09,  3.42it/s] 41%|████      | 152878/371472 [1:04:58<18:50:46,  3.22it/s] 41%|████      | 152879/371472 [1:04:58<18:39:02,  3.26it/s] 41%|████      | 152880/371472 [1:04:58<18:08:13,  3.35it/s]                                                            {'loss': 2.9202, 'learning_rate': 6.298885991941219e-07, 'epoch': 6.58}
 41%|████      | 152880/371472 [1:04:58<18:08:13,  3.35it/s] 41%|████      | 152881/371472 [1:04:58<17:38:33,  3.44it/s] 41%|████      | 152882/371472 [1:04:59<17:13:04,  3.53it/s] 41%|████      | 152883/371472 [1:04:59<17:06:48,  3.55it/s] 41%|████      | 152884/371472 [1:04:59<17:19:13,  3.51it/s] 41%|████      | 152885/371472 [1:05:00<17:12:30,  3.53it/s] 41%|████      | 152886/371472 [1:05:00<17:13:58,  3.52it/s] 41%|████      | 152887/371472 [1:05:00<16:53:33,  3.59it/s] 41%|████      | 152888/371472 [1:05:00<16:50:37,  3.60it/s] 41%|████      | 152889/371472 [1:05:01<17:14:14,  3.52it/s] 41%|████      | 152890/371472 [1:05:01<16:52:40,  3.60it/s] 41%|████      | 152891/371472 [1:05:01<16:40:51,  3.64it/s] 41%|████      | 152892/371472 [1:05:02<18:56:02,  3.21it/s] 41%|████      | 152893/371472 [1:05:02<18:29:55,  3.28it/s] 41%|████      | 152894/371472 [1:05:02<19:04:38,  3.18it/s] 41%|████      | 152895/371472 [1:05:03<18:05:02,  3.36it/s] 41%|████      | 152896/371472 [1:05:03<17:56:37,  3.38it/s] 41%|████      | 152897/371472 [1:05:03<17:18:16,  3.51it/s] 41%|████      | 152898/371472 [1:05:03<17:44:18,  3.42it/s] 41%|████      | 152899/371472 [1:05:04<16:59:41,  3.57it/s] 41%|████      | 152900/371472 [1:05:04<16:46:17,  3.62it/s]                                                            {'loss': 3.1269, 'learning_rate': 6.29840117218643e-07, 'epoch': 6.59}
 41%|████      | 152900/371472 [1:05:04<16:46:17,  3.62it/s] 41%|████      | 152901/371472 [1:05:04<16:19:46,  3.72it/s] 41%|████      | 152902/371472 [1:05:04<16:16:48,  3.73it/s] 41%|████      | 152903/371472 [1:05:05<16:01:10,  3.79it/s] 41%|████      | 152904/371472 [1:05:05<16:06:27,  3.77it/s] 41%|████      | 152905/371472 [1:05:05<16:56:29,  3.58it/s] 41%|████      | 152906/371472 [1:05:06<16:38:25,  3.65it/s] 41%|████      | 152907/371472 [1:05:06<16:40:22,  3.64it/s] 41%|████      | 152908/371472 [1:05:06<16:03:07,  3.78it/s] 41%|████      | 152909/371472 [1:05:06<17:48:06,  3.41it/s] 41%|████      | 152910/371472 [1:05:07<17:36:54,  3.45it/s] 41%|████      | 152911/371472 [1:05:07<17:12:55,  3.53it/s] 41%|████      | 152912/371472 [1:05:07<17:03:58,  3.56it/s] 41%|████      | 152913/371472 [1:05:08<16:52:56,  3.60it/s] 41%|████      | 152914/371472 [1:05:08<16:40:41,  3.64it/s] 41%|████      | 152915/371472 [1:05:08<17:03:53,  3.56it/s] 41%|████      | 152916/371472 [1:05:08<16:24:23,  3.70it/s] 41%|████      | 152917/371472 [1:05:09<16:41:50,  3.64it/s] 41%|████      | 152918/371472 [1:05:09<16:36:00,  3.66it/s] 41%|████      | 152919/371472 [1:05:09<16:31:55,  3.67it/s] 41%|████      | 152920/371472 [1:05:09<16:35:40,  3.66it/s]                                                            {'loss': 3.2016, 'learning_rate': 6.29791635243164e-07, 'epoch': 6.59}
 41%|████      | 152920/371472 [1:05:09<16:35:40,  3.66it/s] 41%|████      | 152921/371472 [1:05:10<17:07:59,  3.54it/s] 41%|████      | 152922/371472 [1:05:10<16:38:44,  3.65it/s] 41%|████      | 152923/371472 [1:05:10<16:44:28,  3.63it/s] 41%|████      | 152924/371472 [1:05:11<16:55:58,  3.59it/s] 41%|████      | 152925/371472 [1:05:11<16:52:01,  3.60it/s] 41%|████      | 152926/371472 [1:05:11<16:48:37,  3.61it/s] 41%|████      | 152927/371472 [1:05:11<16:37:01,  3.65it/s] 41%|████      | 152928/371472 [1:05:12<16:50:37,  3.60it/s] 41%|████      | 152929/371472 [1:05:12<18:24:00,  3.30it/s] 41%|████      | 152930/371472 [1:05:12<18:17:45,  3.32it/s] 41%|████      | 152931/371472 [1:05:13<19:45:34,  3.07it/s] 41%|████      | 152932/371472 [1:05:13<19:04:02,  3.18it/s] 41%|████      | 152933/371472 [1:05:13<18:49:23,  3.23it/s] 41%|████      | 152934/371472 [1:05:14<18:33:08,  3.27it/s] 41%|████      | 152935/371472 [1:05:14<18:19:02,  3.31it/s] 41%|████      | 152936/371472 [1:05:14<17:51:05,  3.40it/s] 41%|████      | 152937/371472 [1:05:14<17:50:12,  3.40it/s] 41%|████      | 152938/371472 [1:05:15<17:51:14,  3.40it/s] 41%|████      | 152939/371472 [1:05:15<17:26:44,  3.48it/s] 41%|████      | 152940/371472 [1:05:15<17:01:26,  3.57it/s]                                                            {'loss': 3.2034, 'learning_rate': 6.297431532676851e-07, 'epoch': 6.59}
 41%|████      | 152940/371472 [1:05:15<17:01:26,  3.57it/s] 41%|████      | 152941/371472 [1:05:16<17:18:47,  3.51it/s] 41%|████      | 152942/371472 [1:05:16<17:16:14,  3.51it/s] 41%|████      | 152943/371472 [1:05:16<16:50:14,  3.61it/s] 41%|████      | 152944/371472 [1:05:16<17:14:37,  3.52it/s] 41%|████      | 152945/371472 [1:05:17<17:00:24,  3.57it/s] 41%|████      | 152946/371472 [1:05:17<17:07:26,  3.54it/s] 41%|████      | 152947/371472 [1:05:17<16:47:14,  3.62it/s] 41%|████      | 152948/371472 [1:05:18<18:05:11,  3.36it/s] 41%|████      | 152949/371472 [1:05:18<17:51:22,  3.40it/s] 41%|████      | 152950/371472 [1:05:18<17:11:54,  3.53it/s] 41%|████      | 152951/371472 [1:05:18<17:00:05,  3.57it/s] 41%|████      | 152952/371472 [1:05:19<16:56:48,  3.58it/s] 41%|████      | 152953/371472 [1:05:19<16:55:40,  3.59it/s] 41%|████      | 152954/371472 [1:05:19<16:50:20,  3.60it/s] 41%|████      | 152955/371472 [1:05:19<16:17:23,  3.73it/s] 41%|████      | 152956/371472 [1:05:20<17:47:56,  3.41it/s] 41%|████      | 152957/371472 [1:05:20<17:30:32,  3.47it/s] 41%|████      | 152958/371472 [1:05:20<18:20:21,  3.31it/s] 41%|████      | 152959/371472 [1:05:21<18:03:19,  3.36it/s] 41%|████      | 152960/371472 [1:05:21<18:07:56,  3.35it/s]                                                            {'loss': 3.1458, 'learning_rate': 6.296946712922062e-07, 'epoch': 6.59}
 41%|████      | 152960/371472 [1:05:21<18:07:56,  3.35it/s] 41%|████      | 152961/371472 [1:05:21<17:57:23,  3.38it/s] 41%|████      | 152962/371472 [1:05:22<17:35:49,  3.45it/s] 41%|████      | 152963/371472 [1:05:22<17:09:05,  3.54it/s] 41%|████      | 152964/371472 [1:05:22<20:27:31,  2.97it/s] 41%|████      | 152965/371472 [1:05:23<18:44:33,  3.24it/s] 41%|████      | 152966/371472 [1:05:23<18:24:27,  3.30it/s] 41%|████      | 152967/371472 [1:05:23<17:30:03,  3.47it/s] 41%|████      | 152968/371472 [1:05:23<17:08:18,  3.54it/s] 41%|████      | 152969/371472 [1:05:24<16:49:21,  3.61it/s] 41%|████      | 152970/371472 [1:05:24<16:15:55,  3.73it/s] 41%|████      | 152971/371472 [1:05:24<16:30:43,  3.68it/s] 41%|████      | 152972/371472 [1:05:24<16:02:22,  3.78it/s] 41%|████      | 152973/371472 [1:05:25<16:01:25,  3.79it/s] 41%|████      | 152974/371472 [1:05:25<17:26:55,  3.48it/s] 41%|████      | 152975/371472 [1:05:25<17:54:24,  3.39it/s] 41%|████      | 152976/371472 [1:05:26<16:50:29,  3.60it/s] 41%|████      | 152977/371472 [1:05:26<16:36:43,  3.65it/s] 41%|████      | 152978/371472 [1:05:26<16:53:43,  3.59it/s] 41%|████      | 152979/371472 [1:05:26<17:11:11,  3.53it/s] 41%|████      | 152980/371472 [1:05:27<17:05:02,  3.55it/s]                                                            {'loss': 3.2895, 'learning_rate': 6.296461893167272e-07, 'epoch': 6.59}
 41%|████      | 152980/371472 [1:05:27<17:05:02,  3.55it/s] 41%|████      | 152981/371472 [1:05:27<16:41:12,  3.64it/s] 41%|████      | 152982/371472 [1:05:27<16:53:46,  3.59it/s] 41%|████      | 152983/371472 [1:05:28<16:48:25,  3.61it/s] 41%|████      | 152984/371472 [1:05:28<16:59:03,  3.57it/s] 41%|████      | 152985/371472 [1:05:28<17:02:52,  3.56it/s] 41%|████      | 152986/371472 [1:05:28<17:04:57,  3.55it/s] 41%|████      | 152987/371472 [1:05:29<17:04:24,  3.55it/s] 41%|████      | 152988/371472 [1:05:29<17:04:39,  3.55it/s] 41%|████      | 152989/371472 [1:05:29<17:00:16,  3.57it/s] 41%|████      | 152990/371472 [1:05:29<16:35:23,  3.66it/s] 41%|████      | 152991/371472 [1:05:30<17:21:14,  3.50it/s] 41%|████      | 152992/371472 [1:05:30<17:26:24,  3.48it/s] 41%|████      | 152993/371472 [1:05:30<16:39:37,  3.64it/s] 41%|████      | 152994/371472 [1:05:31<16:52:13,  3.60it/s] 41%|████      | 152995/371472 [1:05:31<18:15:15,  3.32it/s] 41%|████      | 152996/371472 [1:05:31<18:03:15,  3.36it/s] 41%|████      | 152997/371472 [1:05:32<18:32:19,  3.27it/s] 41%|████      | 152998/371472 [1:05:32<17:55:00,  3.39it/s] 41%|████      | 152999/371472 [1:05:32<17:20:58,  3.50it/s] 41%|████      | 153000/371472 [1:05:32<17:39:53,  3.44it/s]                                                            {'loss': 3.2065, 'learning_rate': 6.295977073412484e-07, 'epoch': 6.59}
 41%|████      | 153000/371472 [1:05:32<17:39:53,  3.44it/s] 41%|████      | 153001/371472 [1:05:33<18:40:50,  3.25it/s] 41%|████      | 153002/371472 [1:05:33<18:42:54,  3.24it/s] 41%|████      | 153003/371472 [1:05:33<20:11:20,  3.01it/s] 41%|████      | 153004/371472 [1:05:34<19:25:12,  3.12it/s] 41%|████      | 153005/371472 [1:05:34<19:01:00,  3.19it/s] 41%|████      | 153006/371472 [1:05:34<18:26:42,  3.29it/s] 41%|████      | 153007/371472 [1:05:35<18:24:24,  3.30it/s] 41%|████      | 153008/371472 [1:05:35<17:14:31,  3.52it/s] 41%|████      | 153009/371472 [1:05:35<17:04:53,  3.55it/s] 41%|████      | 153010/371472 [1:05:35<17:44:22,  3.42it/s] 41%|████      | 153011/371472 [1:05:36<16:47:03,  3.62it/s] 41%|████      | 153012/371472 [1:05:36<16:40:05,  3.64it/s] 41%|████      | 153013/371472 [1:05:36<17:18:01,  3.51it/s] 41%|████      | 153014/371472 [1:05:37<18:26:31,  3.29it/s] 41%|████      | 153015/371472 [1:05:37<18:34:24,  3.27it/s] 41%|████      | 153016/371472 [1:05:37<18:01:01,  3.37it/s] 41%|████      | 153017/371472 [1:05:37<17:04:28,  3.55it/s] 41%|████      | 153018/371472 [1:05:38<16:37:09,  3.65it/s] 41%|████      | 153019/371472 [1:05:38<16:45:47,  3.62it/s] 41%|████      | 153020/371472 [1:05:38<17:00:04,  3.57it/s]                                                            {'loss': 3.1632, 'learning_rate': 6.295492253657696e-07, 'epoch': 6.59}
 41%|████      | 153020/371472 [1:05:38<17:00:04,  3.57it/s] 41%|████      | 153021/371472 [1:05:39<16:49:54,  3.61it/s] 41%|████      | 153022/371472 [1:05:39<17:34:51,  3.45it/s] 41%|████      | 153023/371472 [1:05:39<18:01:47,  3.37it/s] 41%|████      | 153024/371472 [1:05:39<17:31:10,  3.46it/s] 41%|████      | 153025/371472 [1:05:40<17:07:14,  3.54it/s] 41%|████      | 153026/371472 [1:05:40<16:47:33,  3.61it/s] 41%|████      | 153027/371472 [1:05:40<17:40:38,  3.43it/s] 41%|████      | 153028/371472 [1:05:41<18:29:26,  3.28it/s] 41%|████      | 153029/371472 [1:05:41<18:21:06,  3.31it/s] 41%|████      | 153030/371472 [1:05:41<19:47:15,  3.07it/s] 41%|████      | 153031/371472 [1:05:42<19:10:25,  3.16it/s] 41%|████      | 153032/371472 [1:05:42<18:00:13,  3.37it/s] 41%|████      | 153033/371472 [1:05:42<20:01:10,  3.03it/s] 41%|████      | 153034/371472 [1:05:43<18:33:56,  3.27it/s] 41%|████      | 153035/371472 [1:05:43<18:21:13,  3.31it/s] 41%|████      | 153036/371472 [1:05:43<17:27:39,  3.47it/s] 41%|████      | 153037/371472 [1:05:43<17:34:51,  3.45it/s] 41%|████      | 153038/371472 [1:05:44<17:01:49,  3.56it/s] 41%|████      | 153039/371472 [1:05:44<16:57:35,  3.58it/s] 41%|████      | 153040/371472 [1:05:44<16:46:21,  3.62it/s]                                                            {'loss': 2.9882, 'learning_rate': 6.295007433902907e-07, 'epoch': 6.59}
 41%|████      | 153040/371472 [1:05:44<16:46:21,  3.62it/s] 41%|████      | 153041/371472 [1:05:44<16:59:36,  3.57it/s] 41%|████      | 153042/371472 [1:05:45<17:21:41,  3.49it/s] 41%|████      | 153043/371472 [1:05:45<18:00:04,  3.37it/s] 41%|████      | 153044/371472 [1:05:45<17:47:16,  3.41it/s] 41%|████      | 153045/371472 [1:05:46<17:48:37,  3.41it/s] 41%|████      | 153046/371472 [1:05:46<17:23:54,  3.49it/s] 41%|████      | 153047/371472 [1:05:46<17:07:27,  3.54it/s] 41%|████      | 153048/371472 [1:05:47<17:26:44,  3.48it/s] 41%|████      | 153049/371472 [1:05:47<17:56:00,  3.38it/s] 41%|████      | 153050/371472 [1:05:47<17:13:04,  3.52it/s] 41%|████      | 153051/371472 [1:05:47<17:15:14,  3.52it/s] 41%|████      | 153052/371472 [1:05:48<16:54:25,  3.59it/s] 41%|████      | 153053/371472 [1:05:48<16:36:15,  3.65it/s] 41%|████      | 153054/371472 [1:05:48<16:27:43,  3.69it/s] 41%|████      | 153055/371472 [1:05:48<16:15:49,  3.73it/s] 41%|████      | 153056/371472 [1:05:49<16:17:28,  3.72it/s] 41%|████      | 153057/371472 [1:05:49<16:29:08,  3.68it/s] 41%|████      | 153058/371472 [1:05:49<16:55:03,  3.59it/s] 41%|████      | 153059/371472 [1:05:50<16:55:32,  3.58it/s] 41%|████      | 153060/371472 [1:05:50<16:49:02,  3.61it/s]                                                            {'loss': 3.1959, 'learning_rate': 6.294522614148117e-07, 'epoch': 6.59}
 41%|████      | 153060/371472 [1:05:50<16:49:02,  3.61it/s] 41%|████      | 153061/371472 [1:05:50<17:22:23,  3.49it/s] 41%|████      | 153062/371472 [1:05:50<16:55:03,  3.59it/s] 41%|████      | 153063/371472 [1:05:51<17:28:51,  3.47it/s] 41%|████      | 153064/371472 [1:05:51<17:38:57,  3.44it/s] 41%|████      | 153065/371472 [1:05:51<17:18:18,  3.51it/s] 41%|████      | 153066/371472 [1:05:52<18:00:35,  3.37it/s] 41%|████      | 153067/371472 [1:05:52<18:28:27,  3.28it/s] 41%|████      | 153068/371472 [1:05:52<18:19:05,  3.31it/s] 41%|████      | 153069/371472 [1:05:52<17:25:11,  3.48it/s] 41%|████      | 153070/371472 [1:05:53<18:16:16,  3.32it/s] 41%|████      | 153071/371472 [1:05:53<17:31:07,  3.46it/s] 41%|████      | 153072/371472 [1:05:53<16:59:56,  3.57it/s] 41%|████      | 153073/371472 [1:05:54<16:59:41,  3.57it/s] 41%|████      | 153074/371472 [1:05:54<16:45:06,  3.62it/s] 41%|████      | 153075/371472 [1:05:54<17:30:38,  3.46it/s] 41%|████      | 153076/371472 [1:05:54<17:33:13,  3.46it/s] 41%|████      | 153077/371472 [1:05:55<17:33:07,  3.46it/s] 41%|████      | 153078/371472 [1:05:55<17:35:01,  3.45it/s] 41%|████      | 153079/371472 [1:05:55<17:51:26,  3.40it/s] 41%|████      | 153080/371472 [1:05:56<18:33:14,  3.27it/s]                                                            {'loss': 3.1427, 'learning_rate': 6.294037794393328e-07, 'epoch': 6.59}
 41%|████      | 153080/371472 [1:05:56<18:33:14,  3.27it/s] 41%|████      | 153081/371472 [1:05:56<18:12:02,  3.33it/s] 41%|████      | 153082/371472 [1:05:56<17:52:15,  3.39it/s] 41%|████      | 153083/371472 [1:05:57<17:10:04,  3.53it/s] 41%|████      | 153084/371472 [1:05:57<17:01:26,  3.56it/s] 41%|████      | 153085/371472 [1:05:57<17:01:42,  3.56it/s] 41%|████      | 153086/371472 [1:05:57<16:55:11,  3.59it/s] 41%|████      | 153087/371472 [1:05:58<16:40:13,  3.64it/s] 41%|████      | 153088/371472 [1:05:58<16:43:59,  3.63it/s] 41%|████      | 153089/371472 [1:05:58<17:36:29,  3.45it/s] 41%|████      | 153090/371472 [1:05:59<18:06:00,  3.35it/s] 41%|████      | 153091/371472 [1:05:59<17:13:28,  3.52it/s] 41%|████      | 153092/371472 [1:05:59<16:46:13,  3.62it/s] 41%|████      | 153093/371472 [1:05:59<16:57:46,  3.58it/s] 41%|████      | 153094/371472 [1:06:00<18:11:38,  3.33it/s] 41%|████      | 153095/371472 [1:06:00<18:23:06,  3.30it/s] 41%|████      | 153096/371472 [1:06:00<18:14:43,  3.32it/s] 41%|████      | 153097/371472 [1:06:01<18:11:48,  3.33it/s] 41%|████      | 153098/371472 [1:06:01<17:15:06,  3.52it/s] 41%|████      | 153099/371472 [1:06:01<17:17:46,  3.51it/s] 41%|████      | 153100/371472 [1:06:01<16:52:14,  3.60it/s]                                                            {'loss': 3.1996, 'learning_rate': 6.29355297463854e-07, 'epoch': 6.59}
 41%|████      | 153100/371472 [1:06:01<16:52:14,  3.60it/s] 41%|████      | 153101/371472 [1:06:02<17:29:17,  3.47it/s] 41%|████      | 153102/371472 [1:06:02<16:48:50,  3.61it/s] 41%|████      | 153103/371472 [1:06:02<17:39:25,  3.44it/s] 41%|████      | 153104/371472 [1:06:03<17:11:40,  3.53it/s] 41%|████      | 153105/371472 [1:06:03<18:17:26,  3.32it/s] 41%|████      | 153106/371472 [1:06:03<17:27:33,  3.47it/s] 41%|████      | 153107/371472 [1:06:03<17:04:14,  3.55it/s] 41%|████      | 153108/371472 [1:06:04<16:56:04,  3.58it/s] 41%|████      | 153109/371472 [1:06:04<17:40:32,  3.43it/s] 41%|████      | 153110/371472 [1:06:04<18:43:25,  3.24it/s] 41%|████      | 153111/371472 [1:06:05<21:32:32,  2.82it/s] 41%|████      | 153112/371472 [1:06:05<20:44:00,  2.93it/s] 41%|████      | 153113/371472 [1:06:05<19:53:55,  3.05it/s] 41%|████      | 153114/371472 [1:06:06<18:25:42,  3.29it/s] 41%|████      | 153115/371472 [1:06:06<17:42:42,  3.42it/s] 41%|████      | 153116/371472 [1:06:06<18:06:24,  3.35it/s] 41%|████      | 153117/371472 [1:06:07<18:00:49,  3.37it/s] 41%|████      | 153118/371472 [1:06:07<18:23:51,  3.30it/s] 41%|████      | 153119/371472 [1:06:07<18:40:17,  3.25it/s] 41%|████      | 153120/371472 [1:06:07<17:50:20,  3.40it/s]                                                            {'loss': 3.1367, 'learning_rate': 6.293068154883751e-07, 'epoch': 6.6}
 41%|████      | 153120/371472 [1:06:07<17:50:20,  3.40it/s] 41%|████      | 153121/371472 [1:06:08<17:27:34,  3.47it/s] 41%|████      | 153122/371472 [1:06:08<17:18:46,  3.50it/s] 41%|████      | 153123/371472 [1:06:08<17:15:54,  3.51it/s] 41%|████      | 153124/371472 [1:06:09<16:42:42,  3.63it/s] 41%|████      | 153125/371472 [1:06:09<17:12:41,  3.52it/s] 41%|████      | 153126/371472 [1:06:09<16:31:32,  3.67it/s] 41%|████      | 153127/371472 [1:06:09<16:47:14,  3.61it/s] 41%|████      | 153128/371472 [1:06:10<16:30:09,  3.68it/s] 41%|████      | 153129/371472 [1:06:10<16:33:09,  3.66it/s] 41%|████      | 153130/371472 [1:06:10<17:34:16,  3.45it/s] 41%|████      | 153131/371472 [1:06:10<16:57:50,  3.58it/s] 41%|████      | 153132/371472 [1:06:11<16:36:19,  3.65it/s] 41%|████      | 153133/371472 [1:06:11<16:41:00,  3.64it/s] 41%|████      | 153134/371472 [1:06:11<17:24:32,  3.48it/s] 41%|████      | 153135/371472 [1:06:12<16:36:44,  3.65it/s] 41%|████      | 153136/371472 [1:06:12<17:03:07,  3.56it/s] 41%|████      | 153137/371472 [1:06:12<17:07:21,  3.54it/s] 41%|████      | 153138/371472 [1:06:12<17:15:58,  3.51it/s] 41%|████      | 153139/371472 [1:06:13<17:24:39,  3.48it/s] 41%|████      | 153140/371472 [1:06:13<16:58:12,  3.57it/s]                                                            {'loss': 3.2922, 'learning_rate': 6.292583335128961e-07, 'epoch': 6.6}
 41%|████      | 153140/371472 [1:06:13<16:58:12,  3.57it/s] 41%|████      | 153141/371472 [1:06:13<16:34:40,  3.66it/s] 41%|████      | 153142/371472 [1:06:14<16:35:22,  3.66it/s] 41%|████      | 153143/371472 [1:06:14<16:09:49,  3.75it/s] 41%|████      | 153144/371472 [1:06:14<17:15:57,  3.51it/s] 41%|████      | 153145/371472 [1:06:14<16:57:26,  3.58it/s] 41%|████      | 153146/371472 [1:06:15<17:22:38,  3.49it/s] 41%|████      | 153147/371472 [1:06:15<17:17:11,  3.51it/s] 41%|████      | 153148/371472 [1:06:15<19:02:28,  3.18it/s] 41%|████      | 153149/371472 [1:06:16<18:27:49,  3.28it/s] 41%|████      | 153150/371472 [1:06:16<18:25:13,  3.29it/s] 41%|████      | 153151/371472 [1:06:16<17:57:46,  3.38it/s] 41%|████      | 153152/371472 [1:06:16<17:39:14,  3.44it/s] 41%|████      | 153153/371472 [1:06:17<18:24:54,  3.29it/s] 41%|████      | 153154/371472 [1:06:17<17:31:58,  3.46it/s] 41%|████      | 153155/371472 [1:06:17<17:54:19,  3.39it/s] 41%|████      | 153156/371472 [1:06:18<17:37:56,  3.44it/s] 41%|████      | 153157/371472 [1:06:18<18:10:44,  3.34it/s] 41%|████      | 153158/371472 [1:06:18<18:54:45,  3.21it/s] 41%|████      | 153159/371472 [1:06:19<18:12:17,  3.33it/s] 41%|████      | 153160/371472 [1:06:19<18:16:33,  3.32it/s]                                                            {'loss': 3.0876, 'learning_rate': 6.292098515374173e-07, 'epoch': 6.6}
 41%|████      | 153160/371472 [1:06:19<18:16:33,  3.32it/s] 41%|████      | 153161/371472 [1:06:19<18:39:04,  3.25it/s] 41%|████      | 153162/371472 [1:06:20<21:46:41,  2.78it/s] 41%|████      | 153163/371472 [1:06:20<20:58:06,  2.89it/s] 41%|████      | 153164/371472 [1:06:20<21:08:09,  2.87it/s] 41%|████      | 153165/371472 [1:06:21<19:33:18,  3.10it/s] 41%|████      | 153166/371472 [1:06:21<18:23:52,  3.30it/s] 41%|████      | 153167/371472 [1:06:21<17:49:34,  3.40it/s] 41%|████      | 153168/371472 [1:06:21<17:41:56,  3.43it/s] 41%|████      | 153169/371472 [1:06:22<18:39:26,  3.25it/s] 41%|████      | 153170/371472 [1:06:22<19:12:08,  3.16it/s] 41%|████      | 153171/371472 [1:06:22<18:44:07,  3.24it/s] 41%|████      | 153172/371472 [1:06:23<18:18:15,  3.31it/s] 41%|████      | 153173/371472 [1:06:23<17:56:10,  3.38it/s] 41%|████      | 153174/371472 [1:06:23<17:01:23,  3.56it/s] 41%|████      | 153175/371472 [1:06:23<16:27:01,  3.69it/s] 41%|████      | 153176/371472 [1:06:24<16:08:24,  3.76it/s] 41%|████      | 153177/371472 [1:06:24<15:50:23,  3.83it/s] 41%|████      | 153178/371472 [1:06:24<15:59:42,  3.79it/s] 41%|████      | 153179/371472 [1:06:25<16:34:59,  3.66it/s] 41%|████      | 153180/371472 [1:06:25<17:19:53,  3.50it/s]                                                            {'loss': 3.2232, 'learning_rate': 6.291613695619385e-07, 'epoch': 6.6}
 41%|████      | 153180/371472 [1:06:25<17:19:53,  3.50it/s] 41%|████      | 153181/371472 [1:06:25<17:25:57,  3.48it/s] 41%|████      | 153182/371472 [1:06:25<17:04:15,  3.55it/s] 41%|████      | 153183/371472 [1:06:26<17:07:03,  3.54it/s] 41%|████      | 153184/371472 [1:06:26<16:25:43,  3.69it/s] 41%|████      | 153185/371472 [1:06:26<16:00:03,  3.79it/s] 41%|████      | 153186/371472 [1:06:27<16:52:08,  3.59it/s] 41%|████      | 153187/371472 [1:06:27<17:00:40,  3.56it/s] 41%|████      | 153188/371472 [1:06:27<16:55:12,  3.58it/s] 41%|████      | 153189/371472 [1:06:27<18:15:14,  3.32it/s] 41%|████      | 153190/371472 [1:06:28<17:40:51,  3.43it/s] 41%|████      | 153191/371472 [1:06:28<17:09:21,  3.53it/s] 41%|████      | 153192/371472 [1:06:28<17:13:52,  3.52it/s] 41%|████      | 153193/371472 [1:06:29<17:06:15,  3.54it/s] 41%|████      | 153194/371472 [1:06:29<17:37:41,  3.44it/s] 41%|████      | 153195/371472 [1:06:29<17:07:09,  3.54it/s] 41%|████      | 153196/371472 [1:06:29<16:47:37,  3.61it/s] 41%|████      | 153197/371472 [1:06:30<16:30:54,  3.67it/s] 41%|████      | 153198/371472 [1:06:30<18:35:08,  3.26it/s] 41%|████      | 153199/371472 [1:06:30<17:50:13,  3.40it/s] 41%|████      | 153200/371472 [1:06:31<17:54:55,  3.38it/s]                                                            {'loss': 3.2319, 'learning_rate': 6.291128875864595e-07, 'epoch': 6.6}
 41%|████      | 153200/371472 [1:06:31<17:54:55,  3.38it/s] 41%|████      | 153201/371472 [1:06:31<18:14:57,  3.32it/s] 41%|████      | 153202/371472 [1:06:31<20:15:07,  2.99it/s] 41%|████      | 153203/371472 [1:06:32<19:45:29,  3.07it/s] 41%|████      | 153204/371472 [1:06:32<19:20:08,  3.14it/s] 41%|████      | 153205/371472 [1:06:32<19:28:15,  3.11it/s] 41%|████      | 153206/371472 [1:06:33<18:52:08,  3.21it/s] 41%|████      | 153207/371472 [1:06:33<18:49:54,  3.22it/s] 41%|████      | 153208/371472 [1:06:33<17:58:37,  3.37it/s] 41%|████      | 153209/371472 [1:06:33<17:41:17,  3.43it/s] 41%|████      | 153210/371472 [1:06:34<17:17:36,  3.51it/s] 41%|████      | 153211/371472 [1:06:34<16:52:14,  3.59it/s] 41%|████      | 153212/371472 [1:06:34<17:44:25,  3.42it/s] 41%|████      | 153213/371472 [1:06:35<19:41:21,  3.08it/s] 41%|████      | 153214/371472 [1:06:35<19:49:46,  3.06it/s] 41%|████      | 153215/371472 [1:06:35<19:14:02,  3.15it/s] 41%|████      | 153216/371472 [1:06:36<18:27:08,  3.29it/s] 41%|████      | 153217/371472 [1:06:36<19:58:57,  3.03it/s] 41%|████      | 153218/371472 [1:06:36<19:13:41,  3.15it/s] 41%|████      | 153219/371472 [1:06:37<19:49:18,  3.06it/s] 41%|████      | 153220/371472 [1:06:37<19:07:07,  3.17it/s]                                                            {'loss': 3.1587, 'learning_rate': 6.290644056109805e-07, 'epoch': 6.6}
 41%|████      | 153220/371472 [1:06:37<19:07:07,  3.17it/s] 41%|████      | 153221/371472 [1:06:37<19:38:03,  3.09it/s] 41%|████      | 153222/371472 [1:06:37<18:37:51,  3.25it/s] 41%|████      | 153223/371472 [1:06:38<19:14:52,  3.15it/s] 41%|████      | 153224/371472 [1:06:38<18:09:32,  3.34it/s] 41%|████      | 153225/371472 [1:06:38<17:21:21,  3.49it/s] 41%|████      | 153226/371472 [1:06:39<17:18:54,  3.50it/s] 41%|████      | 153227/371472 [1:06:39<16:59:08,  3.57it/s] 41%|████      | 153228/371472 [1:06:39<17:00:34,  3.56it/s] 41%|████      | 153229/371472 [1:06:39<17:20:07,  3.50it/s] 41%|████      | 153230/371472 [1:06:40<18:35:33,  3.26it/s] 41%|████      | 153231/371472 [1:06:40<17:34:59,  3.45it/s] 41%|████      | 153232/371472 [1:06:40<17:29:45,  3.46it/s] 41%|████▏     | 153233/371472 [1:06:41<17:42:43,  3.42it/s] 41%|████▏     | 153234/371472 [1:06:41<17:34:06,  3.45it/s] 41%|████▏     | 153235/371472 [1:06:41<17:46:12,  3.41it/s] 41%|████▏     | 153236/371472 [1:06:42<17:31:08,  3.46it/s] 41%|████▏     | 153237/371472 [1:06:42<16:50:23,  3.60it/s] 41%|████▏     | 153238/371472 [1:06:42<16:59:59,  3.57it/s] 41%|████▏     | 153239/371472 [1:06:42<17:15:59,  3.51it/s] 41%|████▏     | 153240/371472 [1:06:43<17:14:53,  3.51it/s]                                                            {'loss': 3.0343, 'learning_rate': 6.290159236355017e-07, 'epoch': 6.6}
 41%|████▏     | 153240/371472 [1:06:43<17:14:53,  3.51it/s] 41%|████▏     | 153241/371472 [1:06:43<16:50:58,  3.60it/s] 41%|████▏     | 153242/371472 [1:06:43<16:24:44,  3.69it/s] 41%|████▏     | 153243/371472 [1:06:43<16:51:23,  3.60it/s] 41%|████▏     | 153244/371472 [1:06:44<16:19:27,  3.71it/s] 41%|████▏     | 153245/371472 [1:06:44<16:05:55,  3.77it/s] 41%|████▏     | 153246/371472 [1:06:44<16:49:54,  3.60it/s] 41%|████▏     | 153247/371472 [1:06:45<16:37:42,  3.65it/s] 41%|████▏     | 153248/371472 [1:06:45<17:23:31,  3.49it/s] 41%|████▏     | 153249/371472 [1:06:45<17:27:46,  3.47it/s] 41%|████▏     | 153250/371472 [1:06:45<16:55:15,  3.58it/s] 41%|████▏     | 153251/371472 [1:06:46<16:34:24,  3.66it/s] 41%|████▏     | 153252/371472 [1:06:46<17:04:09,  3.55it/s] 41%|████▏     | 153253/371472 [1:06:46<17:03:56,  3.55it/s] 41%|████▏     | 153254/371472 [1:06:46<16:31:19,  3.67it/s] 41%|████▏     | 153255/371472 [1:06:47<17:57:48,  3.37it/s] 41%|████▏     | 153256/371472 [1:06:47<18:06:56,  3.35it/s] 41%|████▏     | 153257/371472 [1:06:48<20:18:48,  2.98it/s] 41%|████▏     | 153258/371472 [1:06:48<19:25:13,  3.12it/s] 41%|████▏     | 153259/371472 [1:06:48<18:12:08,  3.33it/s] 41%|████▏     | 153260/371472 [1:06:48<17:16:05,  3.51it/s]                                                            {'loss': 3.2735, 'learning_rate': 6.289674416600229e-07, 'epoch': 6.6}
 41%|████▏     | 153260/371472 [1:06:48<17:16:05,  3.51it/s] 41%|████▏     | 153261/371472 [1:06:49<17:20:54,  3.49it/s] 41%|████▏     | 153262/371472 [1:06:49<17:10:48,  3.53it/s] 41%|████▏     | 153263/371472 [1:06:49<17:12:14,  3.52it/s] 41%|████▏     | 153264/371472 [1:06:49<17:09:13,  3.53it/s] 41%|████▏     | 153265/371472 [1:06:50<17:56:23,  3.38it/s] 41%|████▏     | 153266/371472 [1:06:50<17:26:32,  3.48it/s] 41%|████▏     | 153267/371472 [1:06:50<17:25:06,  3.48it/s] 41%|████▏     | 153268/371472 [1:06:51<18:21:56,  3.30it/s] 41%|████▏     | 153269/371472 [1:06:51<17:21:10,  3.49it/s] 41%|████▏     | 153270/371472 [1:06:51<17:08:02,  3.54it/s] 41%|████▏     | 153271/371472 [1:06:51<17:01:21,  3.56it/s] 41%|████▏     | 153272/371472 [1:06:52<16:50:32,  3.60it/s] 41%|████▏     | 153273/371472 [1:06:52<17:56:27,  3.38it/s] 41%|████▏     | 153274/371472 [1:06:52<18:27:53,  3.28it/s] 41%|████▏     | 153275/371472 [1:06:53<17:57:47,  3.37it/s] 41%|████▏     | 153276/371472 [1:06:53<17:51:00,  3.40it/s] 41%|████▏     | 153277/371472 [1:06:53<17:05:03,  3.55it/s] 41%|████▏     | 153278/371472 [1:06:53<16:30:31,  3.67it/s] 41%|████▏     | 153279/371472 [1:06:54<16:49:26,  3.60it/s] 41%|████▏     | 153280/371472 [1:06:54<16:15:33,  3.73it/s]                                                            {'loss': 3.1852, 'learning_rate': 6.289189596845441e-07, 'epoch': 6.6}
 41%|████▏     | 153280/371472 [1:06:54<16:15:33,  3.73it/s] 41%|████▏     | 153281/371472 [1:06:54<16:48:36,  3.61it/s] 41%|████▏     | 153282/371472 [1:06:55<17:06:36,  3.54it/s] 41%|████▏     | 153283/371472 [1:06:55<16:57:42,  3.57it/s] 41%|████▏     | 153284/371472 [1:06:55<17:36:51,  3.44it/s] 41%|████▏     | 153285/371472 [1:06:55<17:12:28,  3.52it/s] 41%|████▏     | 153286/371472 [1:06:56<17:54:45,  3.38it/s] 41%|████▏     | 153287/371472 [1:06:56<17:03:16,  3.55it/s] 41%|████▏     | 153288/371472 [1:06:56<18:11:43,  3.33it/s] 41%|████▏     | 153289/371472 [1:06:57<18:00:46,  3.36it/s] 41%|████▏     | 153290/371472 [1:06:57<18:36:29,  3.26it/s] 41%|████▏     | 153291/371472 [1:06:57<17:58:39,  3.37it/s] 41%|████▏     | 153292/371472 [1:06:58<17:12:09,  3.52it/s] 41%|████▏     | 153293/371472 [1:06:58<19:29:41,  3.11it/s] 41%|████▏     | 153294/371472 [1:06:58<20:37:43,  2.94it/s] 41%|████▏     | 153295/371472 [1:06:59<19:03:55,  3.18it/s] 41%|████▏     | 153296/371472 [1:06:59<18:40:38,  3.24it/s] 41%|████▏     | 153297/371472 [1:06:59<17:55:55,  3.38it/s] 41%|████▏     | 153298/371472 [1:07:00<19:23:26,  3.13it/s] 41%|████▏     | 153299/371472 [1:07:00<19:29:26,  3.11it/s] 41%|████▏     | 153300/371472 [1:07:00<18:53:34,  3.21it/s]                                                            {'loss': 3.3283, 'learning_rate': 6.28870477709065e-07, 'epoch': 6.6}
 41%|████▏     | 153300/371472 [1:07:00<18:53:34,  3.21it/s] 41%|████▏     | 153301/371472 [1:07:00<17:36:06,  3.44it/s] 41%|████▏     | 153302/371472 [1:07:01<17:04:16,  3.55it/s] 41%|████▏     | 153303/371472 [1:07:01<17:16:26,  3.51it/s] 41%|████▏     | 153304/371472 [1:07:01<17:24:06,  3.48it/s] 41%|████▏     | 153305/371472 [1:07:02<17:35:27,  3.45it/s] 41%|████▏     | 153306/371472 [1:07:02<16:45:11,  3.62it/s] 41%|████▏     | 153307/371472 [1:07:02<16:56:53,  3.58it/s] 41%|████▏     | 153308/371472 [1:07:02<16:34:08,  3.66it/s] 41%|████▏     | 153309/371472 [1:07:03<16:57:44,  3.57it/s] 41%|████▏     | 153310/371472 [1:07:03<16:53:10,  3.59it/s] 41%|████▏     | 153311/371472 [1:07:03<16:24:01,  3.70it/s] 41%|████▏     | 153312/371472 [1:07:03<16:05:42,  3.77it/s] 41%|████▏     | 153313/371472 [1:07:04<16:21:48,  3.70it/s] 41%|████▏     | 153314/371472 [1:07:04<16:38:42,  3.64it/s] 41%|████▏     | 153315/371472 [1:07:04<16:12:59,  3.74it/s] 41%|████▏     | 153316/371472 [1:07:04<15:39:55,  3.87it/s] 41%|████▏     | 153317/371472 [1:07:05<15:32:49,  3.90it/s] 41%|████▏     | 153318/371472 [1:07:05<15:14:51,  3.97it/s] 41%|████▏     | 153319/371472 [1:07:05<15:35:25,  3.89it/s] 41%|████▏     | 153320/371472 [1:07:05<16:12:23,  3.74it/s]                                                            {'loss': 3.3204, 'learning_rate': 6.288219957335861e-07, 'epoch': 6.6}
 41%|████▏     | 153320/371472 [1:07:05<16:12:23,  3.74it/s] 41%|████▏     | 153321/371472 [1:07:06<16:26:16,  3.69it/s] 41%|████▏     | 153322/371472 [1:07:06<16:36:49,  3.65it/s] 41%|████▏     | 153323/371472 [1:07:06<16:39:32,  3.64it/s] 41%|████▏     | 153324/371472 [1:07:07<16:24:29,  3.69it/s] 41%|████▏     | 153325/371472 [1:07:07<17:41:03,  3.43it/s] 41%|████▏     | 153326/371472 [1:07:07<18:04:48,  3.35it/s] 41%|████▏     | 153327/371472 [1:07:08<17:55:18,  3.38it/s] 41%|████▏     | 153328/371472 [1:07:08<17:19:40,  3.50it/s] 41%|████▏     | 153329/371472 [1:07:08<16:37:55,  3.64it/s] 41%|████▏     | 153330/371472 [1:07:08<16:14:43,  3.73it/s] 41%|████▏     | 153331/371472 [1:07:09<16:03:13,  3.77it/s] 41%|████▏     | 153332/371472 [1:07:09<16:37:13,  3.65it/s] 41%|████▏     | 153333/371472 [1:07:09<16:58:48,  3.57it/s] 41%|████▏     | 153334/371472 [1:07:09<16:56:31,  3.58it/s] 41%|████▏     | 153335/371472 [1:07:10<16:50:37,  3.60it/s] 41%|████▏     | 153336/371472 [1:07:10<24:43:52,  2.45it/s] 41%|████▏     | 153337/371472 [1:07:11<22:54:00,  2.65it/s] 41%|████▏     | 153338/371472 [1:07:11<20:40:45,  2.93it/s] 41%|████▏     | 153339/371472 [1:07:11<19:23:42,  3.12it/s] 41%|████▏     | 153340/371472 [1:07:11<17:59:45,  3.37it/s]                                                            {'loss': 3.0583, 'learning_rate': 6.287735137581073e-07, 'epoch': 6.6}
 41%|████▏     | 153340/371472 [1:07:11<17:59:45,  3.37it/s] 41%|████▏     | 153341/371472 [1:07:12<18:40:34,  3.24it/s] 41%|████▏     | 153342/371472 [1:07:12<17:39:25,  3.43it/s] 41%|████▏     | 153343/371472 [1:07:12<19:01:15,  3.19it/s] 41%|████▏     | 153344/371472 [1:07:13<18:14:10,  3.32it/s] 41%|████▏     | 153345/371472 [1:07:13<17:34:54,  3.45it/s] 41%|████▏     | 153346/371472 [1:07:13<17:20:48,  3.49it/s] 41%|████▏     | 153347/371472 [1:07:14<16:41:32,  3.63it/s] 41%|████▏     | 153348/371472 [1:07:14<16:43:15,  3.62it/s] 41%|████▏     | 153349/371472 [1:07:14<16:52:54,  3.59it/s] 41%|████▏     | 153350/371472 [1:07:14<16:43:42,  3.62it/s] 41%|████▏     | 153351/371472 [1:07:15<16:17:37,  3.72it/s] 41%|████▏     | 153352/371472 [1:07:15<16:28:14,  3.68it/s] 41%|████▏     | 153353/371472 [1:07:15<18:12:25,  3.33it/s] 41%|████▏     | 153354/371472 [1:07:16<17:53:01,  3.39it/s] 41%|████▏     | 153355/371472 [1:07:16<17:19:17,  3.50it/s] 41%|████▏     | 153356/371472 [1:07:16<17:20:51,  3.49it/s] 41%|████▏     | 153357/371472 [1:07:16<19:18:57,  3.14it/s] 41%|████▏     | 153358/371472 [1:07:17<19:21:45,  3.13it/s] 41%|████▏     | 153359/371472 [1:07:17<17:58:24,  3.37it/s] 41%|████▏     | 153360/371472 [1:07:17<17:20:45,  3.49it/s]                                                            {'loss': 3.1069, 'learning_rate': 6.287250317826283e-07, 'epoch': 6.61}
 41%|████▏     | 153360/371472 [1:07:17<17:20:45,  3.49it/s] 41%|████▏     | 153361/371472 [1:07:18<18:03:58,  3.35it/s] 41%|████▏     | 153362/371472 [1:07:18<17:53:48,  3.39it/s] 41%|████▏     | 153363/371472 [1:07:18<17:43:32,  3.42it/s] 41%|████▏     | 153364/371472 [1:07:18<17:17:06,  3.51it/s] 41%|████▏     | 153365/371472 [1:07:19<16:51:34,  3.59it/s] 41%|████▏     | 153366/371472 [1:07:19<17:18:01,  3.50it/s] 41%|████▏     | 153367/371472 [1:07:19<17:52:09,  3.39it/s] 41%|████▏     | 153368/371472 [1:07:20<17:31:36,  3.46it/s] 41%|████▏     | 153369/371472 [1:07:20<17:19:44,  3.50it/s] 41%|████▏     | 153370/371472 [1:07:20<17:19:55,  3.50it/s] 41%|████▏     | 153371/371472 [1:07:21<17:54:51,  3.38it/s] 41%|████▏     | 153372/371472 [1:07:21<17:57:48,  3.37it/s] 41%|████▏     | 153373/371472 [1:07:21<17:20:43,  3.49it/s] 41%|████▏     | 153374/371472 [1:07:21<16:35:19,  3.65it/s] 41%|████▏     | 153375/371472 [1:07:22<17:51:58,  3.39it/s] 41%|████▏     | 153376/371472 [1:07:22<17:29:37,  3.46it/s] 41%|████▏     | 153377/371472 [1:07:22<16:41:12,  3.63it/s] 41%|████▏     | 153378/371472 [1:07:22<16:28:23,  3.68it/s] 41%|████▏     | 153379/371472 [1:07:23<16:06:23,  3.76it/s] 41%|████▏     | 153380/371472 [1:07:23<15:39:31,  3.87it/s]                                                            {'loss': 3.3917, 'learning_rate': 6.286765498071494e-07, 'epoch': 6.61}
 41%|████▏     | 153380/371472 [1:07:23<15:39:31,  3.87it/s] 41%|████▏     | 153381/371472 [1:07:23<16:08:27,  3.75it/s] 41%|████▏     | 153382/371472 [1:07:23<16:08:38,  3.75it/s] 41%|████▏     | 153383/371472 [1:07:24<16:48:37,  3.60it/s] 41%|████▏     | 153384/371472 [1:07:24<16:45:17,  3.62it/s] 41%|████▏     | 153385/371472 [1:07:24<16:42:50,  3.62it/s] 41%|████▏     | 153386/371472 [1:07:25<16:35:44,  3.65it/s] 41%|████▏     | 153387/371472 [1:07:25<16:17:23,  3.72it/s] 41%|████▏     | 153388/371472 [1:07:25<17:01:40,  3.56it/s] 41%|████▏     | 153389/371472 [1:07:25<16:42:03,  3.63it/s] 41%|████▏     | 153390/371472 [1:07:26<16:49:06,  3.60it/s] 41%|████▏     | 153391/371472 [1:07:26<16:25:08,  3.69it/s] 41%|████▏     | 153392/371472 [1:07:26<16:38:18,  3.64it/s] 41%|████▏     | 153393/371472 [1:07:27<16:21:41,  3.70it/s] 41%|████▏     | 153394/371472 [1:07:27<17:00:11,  3.56it/s] 41%|████▏     | 153395/371472 [1:07:27<16:31:51,  3.66it/s] 41%|████▏     | 153396/371472 [1:07:27<16:27:42,  3.68it/s] 41%|████▏     | 153397/371472 [1:07:28<16:50:54,  3.60it/s] 41%|████▏     | 153398/371472 [1:07:28<16:21:57,  3.70it/s] 41%|████▏     | 153399/371472 [1:07:28<16:21:17,  3.70it/s] 41%|████▏     | 153400/371472 [1:07:28<17:05:55,  3.54it/s]                                                            {'loss': 3.4483, 'learning_rate': 6.286280678316706e-07, 'epoch': 6.61}
 41%|████▏     | 153400/371472 [1:07:28<17:05:55,  3.54it/s] 41%|████▏     | 153401/371472 [1:07:29<17:18:01,  3.50it/s] 41%|████▏     | 153402/371472 [1:07:29<16:29:26,  3.67it/s] 41%|████▏     | 153403/371472 [1:07:29<16:35:02,  3.65it/s] 41%|████▏     | 153404/371472 [1:07:30<16:20:19,  3.71it/s] 41%|████▏     | 153405/371472 [1:07:30<15:55:24,  3.80it/s] 41%|████▏     | 153406/371472 [1:07:30<16:32:19,  3.66it/s] 41%|████▏     | 153407/371472 [1:07:30<18:15:18,  3.32it/s] 41%|████▏     | 153408/371472 [1:07:31<18:34:19,  3.26it/s] 41%|████▏     | 153409/371472 [1:07:31<17:32:56,  3.45it/s] 41%|████▏     | 153410/371472 [1:07:31<17:19:13,  3.50it/s] 41%|████▏     | 153411/371472 [1:07:32<16:37:44,  3.64it/s] 41%|████▏     | 153412/371472 [1:07:32<16:43:36,  3.62it/s] 41%|████▏     | 153413/371472 [1:07:32<16:10:47,  3.74it/s] 41%|████▏     | 153414/371472 [1:07:32<16:51:14,  3.59it/s] 41%|████▏     | 153415/371472 [1:07:33<16:27:43,  3.68it/s] 41%|████▏     | 153416/371472 [1:07:33<17:13:49,  3.52it/s] 41%|████▏     | 153417/371472 [1:07:33<17:06:17,  3.54it/s] 41%|████▏     | 153418/371472 [1:07:34<17:13:52,  3.52it/s] 41%|████▏     | 153419/371472 [1:07:34<17:08:15,  3.53it/s] 41%|████▏     | 153420/371472 [1:07:34<17:26:17,  3.47it/s]                                                            {'loss': 3.1972, 'learning_rate': 6.285795858561918e-07, 'epoch': 6.61}
 41%|████▏     | 153420/371472 [1:07:34<17:26:17,  3.47it/s] 41%|████▏     | 153421/371472 [1:07:34<16:55:34,  3.58it/s] 41%|████▏     | 153422/371472 [1:07:35<16:45:25,  3.61it/s] 41%|████▏     | 153423/371472 [1:07:35<18:11:39,  3.33it/s] 41%|████▏     | 153424/371472 [1:07:35<17:40:42,  3.43it/s] 41%|████▏     | 153425/371472 [1:07:36<17:20:14,  3.49it/s] 41%|████▏     | 153426/371472 [1:07:36<17:16:57,  3.50it/s] 41%|████▏     | 153427/371472 [1:07:36<16:54:43,  3.58it/s] 41%|████▏     | 153428/371472 [1:07:36<16:56:19,  3.58it/s] 41%|████▏     | 153429/371472 [1:07:37<17:02:08,  3.56it/s] 41%|████▏     | 153430/371472 [1:07:37<18:25:53,  3.29it/s] 41%|████▏     | 153431/371472 [1:07:37<17:58:25,  3.37it/s] 41%|████▏     | 153432/371472 [1:07:38<18:12:45,  3.33it/s] 41%|████▏     | 153433/371472 [1:07:38<17:50:27,  3.39it/s] 41%|████▏     | 153434/371472 [1:07:38<18:22:11,  3.30it/s] 41%|████▏     | 153435/371472 [1:07:38<17:37:55,  3.43it/s] 41%|████▏     | 153436/371472 [1:07:39<17:35:56,  3.44it/s] 41%|████▏     | 153437/371472 [1:07:39<18:22:58,  3.29it/s] 41%|████▏     | 153438/371472 [1:07:39<18:10:01,  3.33it/s] 41%|████▏     | 153439/371472 [1:07:40<17:29:37,  3.46it/s] 41%|████▏     | 153440/371472 [1:07:40<17:22:08,  3.49it/s]                                                            {'loss': 3.2498, 'learning_rate': 6.285311038807128e-07, 'epoch': 6.61}
 41%|████▏     | 153440/371472 [1:07:40<17:22:08,  3.49it/s] 41%|████▏     | 153441/371472 [1:07:40<17:05:16,  3.54it/s] 41%|████▏     | 153442/371472 [1:07:40<17:04:44,  3.55it/s] 41%|████▏     | 153443/371472 [1:07:41<17:42:54,  3.42it/s] 41%|████▏     | 153444/371472 [1:07:41<17:04:39,  3.55it/s] 41%|████▏     | 153445/371472 [1:07:41<16:42:07,  3.63it/s] 41%|████▏     | 153446/371472 [1:07:42<16:51:06,  3.59it/s] 41%|████▏     | 153447/371472 [1:07:42<16:29:30,  3.67it/s] 41%|████▏     | 153448/371472 [1:07:42<16:02:34,  3.77it/s] 41%|████▏     | 153449/371472 [1:07:42<16:18:57,  3.71it/s] 41%|████▏     | 153450/371472 [1:07:43<16:10:09,  3.75it/s] 41%|████▏     | 153451/371472 [1:07:43<16:26:59,  3.68it/s] 41%|████▏     | 153452/371472 [1:07:43<16:23:01,  3.70it/s] 41%|████▏     | 153453/371472 [1:07:43<16:14:29,  3.73it/s] 41%|████▏     | 153454/371472 [1:07:44<16:38:05,  3.64it/s] 41%|████▏     | 153455/371472 [1:07:44<16:59:43,  3.56it/s] 41%|████▏     | 153456/371472 [1:07:44<16:44:02,  3.62it/s] 41%|████▏     | 153457/371472 [1:07:45<16:15:07,  3.73it/s] 41%|████▏     | 153458/371472 [1:07:45<17:14:34,  3.51it/s] 41%|████▏     | 153459/371472 [1:07:45<17:11:40,  3.52it/s] 41%|████▏     | 153460/371472 [1:07:45<16:21:12,  3.70it/s]                                                            {'loss': 3.2586, 'learning_rate': 6.284826219052338e-07, 'epoch': 6.61}
 41%|████▏     | 153460/371472 [1:07:45<16:21:12,  3.70it/s] 41%|████▏     | 153461/371472 [1:07:46<16:54:16,  3.58it/s] 41%|████▏     | 153462/371472 [1:07:46<17:34:50,  3.44it/s] 41%|████▏     | 153463/371472 [1:07:46<18:00:53,  3.36it/s] 41%|████▏     | 153464/371472 [1:07:47<17:01:17,  3.56it/s] 41%|████▏     | 153465/371472 [1:07:47<17:03:11,  3.55it/s] 41%|████▏     | 153466/371472 [1:07:47<16:51:44,  3.59it/s] 41%|████▏     | 153467/371472 [1:07:47<16:54:15,  3.58it/s] 41%|████▏     | 153468/371472 [1:07:48<17:04:07,  3.55it/s] 41%|████▏     | 153469/371472 [1:07:48<17:37:33,  3.44it/s] 41%|████▏     | 153470/371472 [1:07:48<17:08:36,  3.53it/s] 41%|████▏     | 153471/371472 [1:07:49<16:36:27,  3.65it/s] 41%|████▏     | 153472/371472 [1:07:49<17:31:12,  3.46it/s] 41%|████▏     | 153473/371472 [1:07:49<18:08:38,  3.34it/s] 41%|████▏     | 153474/371472 [1:07:49<17:36:45,  3.44it/s] 41%|████▏     | 153475/371472 [1:07:50<18:29:46,  3.27it/s] 41%|████▏     | 153476/371472 [1:07:50<18:06:53,  3.34it/s] 41%|████▏     | 153477/371472 [1:07:50<17:09:15,  3.53it/s] 41%|████▏     | 153478/371472 [1:07:51<17:38:53,  3.43it/s] 41%|████▏     | 153479/371472 [1:07:51<18:32:37,  3.27it/s] 41%|████▏     | 153480/371472 [1:07:51<17:38:28,  3.43it/s]                                                            {'loss': 3.2308, 'learning_rate': 6.28434139929755e-07, 'epoch': 6.61}
 41%|████▏     | 153480/371472 [1:07:51<17:38:28,  3.43it/s] 41%|████▏     | 153481/371472 [1:07:52<18:35:08,  3.26it/s] 41%|████▏     | 153482/371472 [1:07:52<18:07:36,  3.34it/s] 41%|████▏     | 153483/371472 [1:07:52<17:40:50,  3.42it/s] 41%|████▏     | 153484/371472 [1:07:52<17:06:33,  3.54it/s] 41%|████▏     | 153485/371472 [1:07:53<17:26:54,  3.47it/s] 41%|████▏     | 153486/371472 [1:07:53<18:21:51,  3.30it/s] 41%|████▏     | 153487/371472 [1:07:53<18:57:33,  3.19it/s] 41%|████▏     | 153488/371472 [1:07:54<17:53:26,  3.38it/s] 41%|████▏     | 153489/371472 [1:07:54<17:43:01,  3.42it/s] 41%|████▏     | 153490/371472 [1:07:54<18:15:26,  3.32it/s] 41%|████▏     | 153491/371472 [1:07:54<17:53:32,  3.38it/s] 41%|████▏     | 153492/371472 [1:07:55<17:12:35,  3.52it/s] 41%|████▏     | 153493/371472 [1:07:55<17:18:13,  3.50it/s] 41%|████▏     | 153494/371472 [1:07:55<17:31:08,  3.46it/s] 41%|████▏     | 153495/371472 [1:07:56<17:05:47,  3.54it/s] 41%|████▏     | 153496/371472 [1:07:56<16:59:53,  3.56it/s] 41%|████▏     | 153497/371472 [1:07:56<17:59:05,  3.37it/s] 41%|████▏     | 153498/371472 [1:07:57<18:03:05,  3.35it/s] 41%|████▏     | 153499/371472 [1:07:57<17:28:42,  3.46it/s] 41%|████▏     | 153500/371472 [1:07:57<17:32:23,  3.45it/s]                                                            {'loss': 3.2925, 'learning_rate': 6.28385657954276e-07, 'epoch': 6.61}
 41%|████▏     | 153500/371472 [1:07:57<17:32:23,  3.45it/s] 41%|████▏     | 153501/371472 [1:07:57<17:32:47,  3.45it/s] 41%|████▏     | 153502/371472 [1:07:58<16:40:43,  3.63it/s] 41%|████▏     | 153503/371472 [1:07:58<16:33:09,  3.66it/s] 41%|████▏     | 153504/371472 [1:07:58<16:58:19,  3.57it/s] 41%|████▏     | 153505/371472 [1:07:59<18:36:44,  3.25it/s] 41%|████▏     | 153506/371472 [1:07:59<17:54:07,  3.38it/s] 41%|████▏     | 153507/371472 [1:07:59<17:08:11,  3.53it/s] 41%|████▏     | 153508/371472 [1:07:59<17:01:42,  3.56it/s] 41%|████▏     | 153509/371472 [1:08:00<17:01:31,  3.56it/s] 41%|████▏     | 153510/371472 [1:08:00<17:06:39,  3.54it/s] 41%|████▏     | 153511/371472 [1:08:00<16:42:48,  3.62it/s] 41%|████▏     | 153512/371472 [1:08:00<17:08:35,  3.53it/s] 41%|████▏     | 153513/371472 [1:08:01<18:36:02,  3.25it/s] 41%|████▏     | 153514/371472 [1:08:01<18:08:33,  3.34it/s] 41%|████▏     | 153515/371472 [1:08:01<17:26:00,  3.47it/s] 41%|████▏     | 153516/371472 [1:08:02<16:39:33,  3.63it/s] 41%|████▏     | 153517/371472 [1:08:02<16:13:24,  3.73it/s] 41%|████▏     | 153518/371472 [1:08:02<16:25:19,  3.69it/s] 41%|████▏     | 153519/371472 [1:08:02<17:10:39,  3.52it/s] 41%|████▏     | 153520/371472 [1:08:03<16:34:45,  3.65it/s]                                                            {'loss': 3.1649, 'learning_rate': 6.283371759787971e-07, 'epoch': 6.61}
 41%|████▏     | 153520/371472 [1:08:03<16:34:45,  3.65it/s] 41%|████▏     | 153521/371472 [1:08:03<17:00:46,  3.56it/s] 41%|████▏     | 153522/371472 [1:08:03<16:27:12,  3.68it/s] 41%|████▏     | 153523/371472 [1:08:03<15:49:34,  3.83it/s] 41%|████▏     | 153524/371472 [1:08:04<17:11:11,  3.52it/s] 41%|████▏     | 153525/371472 [1:08:04<16:48:20,  3.60it/s] 41%|████▏     | 153526/371472 [1:08:04<16:46:51,  3.61it/s] 41%|████▏     | 153527/371472 [1:08:05<16:43:20,  3.62it/s] 41%|████▏     | 153528/371472 [1:08:05<16:46:36,  3.61it/s] 41%|████▏     | 153529/371472 [1:08:05<16:45:10,  3.61it/s] 41%|████▏     | 153530/371472 [1:08:05<16:22:17,  3.70it/s] 41%|████▏     | 153531/371472 [1:08:06<16:08:07,  3.75it/s] 41%|████▏     | 153532/371472 [1:08:06<15:43:28,  3.85it/s] 41%|████▏     | 153533/371472 [1:08:06<16:33:54,  3.65it/s] 41%|████▏     | 153534/371472 [1:08:07<16:04:05,  3.77it/s] 41%|████▏     | 153535/371472 [1:08:07<16:19:13,  3.71it/s] 41%|████▏     | 153536/371472 [1:08:07<16:28:20,  3.68it/s] 41%|████▏     | 153537/371472 [1:08:07<16:20:12,  3.71it/s] 41%|████▏     | 153538/371472 [1:08:08<16:53:18,  3.58it/s] 41%|████▏     | 153539/371472 [1:08:08<16:29:28,  3.67it/s] 41%|████▏     | 153540/371472 [1:08:08<17:21:01,  3.49it/s]                                                            {'loss': 3.2748, 'learning_rate': 6.282886940033183e-07, 'epoch': 6.61}
 41%|████▏     | 153540/371472 [1:08:08<17:21:01,  3.49it/s] 41%|████▏     | 153541/371472 [1:08:08<16:45:25,  3.61it/s] 41%|████▏     | 153542/371472 [1:08:09<16:27:49,  3.68it/s] 41%|████▏     | 153543/371472 [1:08:09<18:17:02,  3.31it/s] 41%|████▏     | 153544/371472 [1:08:09<17:41:03,  3.42it/s] 41%|████▏     | 153545/371472 [1:08:10<17:18:49,  3.50it/s] 41%|████▏     | 153546/371472 [1:08:10<16:57:07,  3.57it/s] 41%|████▏     | 153547/371472 [1:08:10<16:39:54,  3.63it/s] 41%|████▏     | 153548/371472 [1:08:10<16:53:03,  3.59it/s] 41%|████▏     | 153549/371472 [1:08:11<17:47:35,  3.40it/s] 41%|████▏     | 153550/371472 [1:08:11<18:19:37,  3.30it/s] 41%|████▏     | 153551/371472 [1:08:11<17:45:12,  3.41it/s] 41%|████▏     | 153552/371472 [1:08:12<16:40:51,  3.63it/s] 41%|████▏     | 153553/371472 [1:08:12<17:04:25,  3.55it/s] 41%|████▏     | 153554/371472 [1:08:12<16:41:50,  3.63it/s] 41%|████▏     | 153555/371472 [1:08:12<16:22:36,  3.70it/s] 41%|████▏     | 153556/371472 [1:08:13<17:35:52,  3.44it/s] 41%|████▏     | 153557/371472 [1:08:13<16:36:49,  3.64it/s] 41%|████▏     | 153558/371472 [1:08:13<17:37:51,  3.43it/s] 41%|████▏     | 153559/371472 [1:08:14<16:42:11,  3.62it/s] 41%|████▏     | 153560/371472 [1:08:14<16:26:55,  3.68it/s]                                                            {'loss': 3.254, 'learning_rate': 6.282402120278395e-07, 'epoch': 6.61}
 41%|████▏     | 153560/371472 [1:08:14<16:26:55,  3.68it/s] 41%|████▏     | 153561/371472 [1:08:14<16:53:34,  3.58it/s] 41%|████▏     | 153562/371472 [1:08:14<17:09:17,  3.53it/s] 41%|████▏     | 153563/371472 [1:08:15<16:50:35,  3.59it/s] 41%|████▏     | 153564/371472 [1:08:15<17:06:14,  3.54it/s] 41%|████▏     | 153565/371472 [1:08:15<17:45:16,  3.41it/s] 41%|████▏     | 153566/371472 [1:08:16<17:33:54,  3.45it/s] 41%|████▏     | 153567/371472 [1:08:16<17:21:08,  3.49it/s] 41%|████▏     | 153568/371472 [1:08:16<16:55:52,  3.57it/s] 41%|████▏     | 153569/371472 [1:08:16<16:21:50,  3.70it/s] 41%|████▏     | 153570/371472 [1:08:17<16:48:56,  3.60it/s] 41%|████▏     | 153571/371472 [1:08:17<17:38:06,  3.43it/s] 41%|████▏     | 153572/371472 [1:08:17<17:19:23,  3.49it/s] 41%|████▏     | 153573/371472 [1:08:18<16:54:25,  3.58it/s] 41%|████▏     | 153574/371472 [1:08:18<16:22:13,  3.70it/s] 41%|████▏     | 153575/371472 [1:08:18<16:47:17,  3.61it/s] 41%|████▏     | 153576/371472 [1:08:18<16:33:29,  3.66it/s] 41%|████▏     | 153577/371472 [1:08:19<17:15:11,  3.51it/s] 41%|████▏     | 153578/371472 [1:08:19<16:53:21,  3.58it/s] 41%|████▏     | 153579/371472 [1:08:19<16:36:24,  3.64it/s] 41%|████▏     | 153580/371472 [1:08:19<16:46:48,  3.61it/s]                                                            {'loss': 3.3508, 'learning_rate': 6.281917300523604e-07, 'epoch': 6.61}
 41%|████▏     | 153580/371472 [1:08:19<16:46:48,  3.61it/s] 41%|████▏     | 153581/371472 [1:08:20<17:09:22,  3.53it/s] 41%|████▏     | 153582/371472 [1:08:20<16:55:53,  3.57it/s] 41%|████▏     | 153583/371472 [1:08:20<18:11:38,  3.33it/s] 41%|████▏     | 153584/371472 [1:08:21<18:46:36,  3.22it/s] 41%|████▏     | 153585/371472 [1:08:21<17:35:38,  3.44it/s] 41%|████▏     | 153586/371472 [1:08:21<17:28:24,  3.46it/s] 41%|████▏     | 153587/371472 [1:08:22<17:18:04,  3.50it/s] 41%|████▏     | 153588/371472 [1:08:22<17:23:36,  3.48it/s] 41%|████▏     | 153589/371472 [1:08:22<16:48:39,  3.60it/s] 41%|████▏     | 153590/371472 [1:08:22<16:39:42,  3.63it/s] 41%|████▏     | 153591/371472 [1:08:23<17:30:58,  3.46it/s] 41%|████▏     | 153592/371472 [1:08:23<17:40:04,  3.43it/s] 41%|████▏     | 153593/371472 [1:08:23<16:51:09,  3.59it/s] 41%|████▏     | 153594/371472 [1:08:23<16:11:38,  3.74it/s] 41%|████▏     | 153595/371472 [1:08:24<15:36:16,  3.88it/s] 41%|████▏     | 153596/371472 [1:08:24<16:06:41,  3.76it/s] 41%|████▏     | 153597/371472 [1:08:24<18:44:30,  3.23it/s] 41%|████▏     | 153598/371472 [1:08:25<18:12:15,  3.32it/s] 41%|████▏     | 153599/371472 [1:08:25<17:39:20,  3.43it/s] 41%|████▏     | 153600/371472 [1:08:25<17:37:48,  3.43it/s]                                                            {'loss': 3.3201, 'learning_rate': 6.281432480768816e-07, 'epoch': 6.62}
 41%|████▏     | 153600/371472 [1:08:25<17:37:48,  3.43it/s] 41%|████▏     | 153601/371472 [1:08:26<18:05:25,  3.35it/s] 41%|████▏     | 153602/371472 [1:08:26<17:31:25,  3.45it/s] 41%|████▏     | 153603/371472 [1:08:26<17:04:17,  3.55it/s] 41%|████▏     | 153604/371472 [1:08:26<17:30:04,  3.46it/s] 41%|████▏     | 153605/371472 [1:08:27<18:21:19,  3.30it/s] 41%|████▏     | 153606/371472 [1:08:27<18:31:24,  3.27it/s] 41%|████▏     | 153607/371472 [1:08:27<17:50:05,  3.39it/s] 41%|████▏     | 153608/371472 [1:08:28<17:08:47,  3.53it/s] 41%|████▏     | 153609/371472 [1:08:28<18:42:17,  3.24it/s] 41%|████▏     | 153610/371472 [1:08:28<19:01:51,  3.18it/s] 41%|████▏     | 153611/371472 [1:08:29<18:13:12,  3.32it/s] 41%|████▏     | 153612/371472 [1:08:29<17:55:18,  3.38it/s] 41%|████▏     | 153613/371472 [1:08:29<17:21:44,  3.49it/s] 41%|████▏     | 153614/371472 [1:08:29<17:00:31,  3.56it/s] 41%|████▏     | 153615/371472 [1:08:30<16:30:34,  3.67it/s] 41%|████▏     | 153616/371472 [1:08:30<17:18:12,  3.50it/s] 41%|████▏     | 153617/371472 [1:08:30<18:24:29,  3.29it/s] 41%|████▏     | 153618/371472 [1:08:31<18:05:29,  3.34it/s] 41%|████▏     | 153619/371472 [1:08:31<17:10:26,  3.52it/s] 41%|████▏     | 153620/371472 [1:08:31<17:11:05,  3.52it/s]                                                            {'loss': 3.1303, 'learning_rate': 6.280947661014027e-07, 'epoch': 6.62}
 41%|████▏     | 153620/371472 [1:08:31<17:11:05,  3.52it/s] 41%|████▏     | 153621/371472 [1:08:31<17:05:06,  3.54it/s] 41%|████▏     | 153622/371472 [1:08:32<16:39:24,  3.63it/s] 41%|████▏     | 153623/371472 [1:08:32<17:48:44,  3.40it/s] 41%|████▏     | 153624/371472 [1:08:32<17:47:13,  3.40it/s] 41%|████▏     | 153625/371472 [1:08:33<17:25:27,  3.47it/s] 41%|████▏     | 153626/371472 [1:08:33<17:06:58,  3.54it/s] 41%|████▏     | 153627/371472 [1:08:33<16:44:53,  3.61it/s] 41%|████▏     | 153628/371472 [1:08:33<16:49:30,  3.60it/s] 41%|████▏     | 153629/371472 [1:08:34<16:53:48,  3.58it/s] 41%|████▏     | 153630/371472 [1:08:34<16:35:38,  3.65it/s] 41%|████▏     | 153631/371472 [1:08:34<16:21:12,  3.70it/s] 41%|████▏     | 153632/371472 [1:08:34<16:25:23,  3.68it/s] 41%|████▏     | 153633/371472 [1:08:35<16:17:51,  3.71it/s] 41%|████▏     | 153634/371472 [1:08:35<16:59:06,  3.56it/s] 41%|████▏     | 153635/371472 [1:08:35<17:14:57,  3.51it/s] 41%|████▏     | 153636/371472 [1:08:36<17:17:05,  3.50it/s] 41%|████▏     | 153637/371472 [1:08:36<17:16:39,  3.50it/s] 41%|████▏     | 153638/371472 [1:08:36<17:18:46,  3.50it/s] 41%|████▏     | 153639/371472 [1:08:36<17:33:48,  3.45it/s] 41%|████▏     | 153640/371472 [1:08:37<17:20:07,  3.49it/s]                                                            {'loss': 3.1818, 'learning_rate': 6.280462841259239e-07, 'epoch': 6.62}
 41%|████▏     | 153640/371472 [1:08:37<17:20:07,  3.49it/s] 41%|████▏     | 153641/371472 [1:08:37<16:56:22,  3.57it/s] 41%|████▏     | 153642/371472 [1:08:37<16:56:10,  3.57it/s] 41%|████▏     | 153643/371472 [1:08:38<16:53:55,  3.58it/s] 41%|████▏     | 153644/371472 [1:08:38<17:05:17,  3.54it/s] 41%|████▏     | 153645/371472 [1:08:38<17:31:52,  3.45it/s] 41%|████▏     | 153646/371472 [1:08:38<17:29:21,  3.46it/s] 41%|████▏     | 153647/371472 [1:08:39<17:01:25,  3.55it/s] 41%|████▏     | 153648/371472 [1:08:39<17:14:58,  3.51it/s] 41%|████▏     | 153649/371472 [1:08:39<16:54:01,  3.58it/s] 41%|████▏     | 153650/371472 [1:08:40<16:58:19,  3.57it/s] 41%|████▏     | 153651/371472 [1:08:40<16:39:43,  3.63it/s] 41%|████▏     | 153652/371472 [1:08:40<16:43:15,  3.62it/s] 41%|████▏     | 153653/371472 [1:08:40<16:24:03,  3.69it/s] 41%|████▏     | 153654/371472 [1:08:41<16:14:54,  3.72it/s] 41%|████▏     | 153655/371472 [1:08:41<17:23:27,  3.48it/s] 41%|████▏     | 153656/371472 [1:08:41<17:02:30,  3.55it/s] 41%|████▏     | 153657/371472 [1:08:41<16:37:08,  3.64it/s] 41%|████▏     | 153658/371472 [1:08:42<16:20:23,  3.70it/s] 41%|████▏     | 153659/371472 [1:08:42<16:24:27,  3.69it/s] 41%|████▏     | 153660/371472 [1:08:42<16:47:46,  3.60it/s]                                                            {'loss': 3.14, 'learning_rate': 6.279978021504449e-07, 'epoch': 6.62}
 41%|████▏     | 153660/371472 [1:08:42<16:47:46,  3.60it/s] 41%|████▏     | 153661/371472 [1:08:43<16:24:58,  3.69it/s] 41%|████▏     | 153662/371472 [1:08:43<15:59:39,  3.78it/s] 41%|████▏     | 153663/371472 [1:08:43<16:11:27,  3.74it/s] 41%|████▏     | 153664/371472 [1:08:43<15:54:53,  3.80it/s] 41%|████▏     | 153665/371472 [1:08:44<15:26:53,  3.92it/s] 41%|████▏     | 153666/371472 [1:08:44<16:15:24,  3.72it/s] 41%|████▏     | 153667/371472 [1:08:44<17:10:16,  3.52it/s] 41%|████▏     | 153668/371472 [1:08:44<16:32:12,  3.66it/s] 41%|████▏     | 153669/371472 [1:08:45<16:18:09,  3.71it/s] 41%|████▏     | 153670/371472 [1:08:45<16:06:51,  3.75it/s] 41%|████▏     | 153671/371472 [1:08:45<16:41:56,  3.62it/s] 41%|████▏     | 153672/371472 [1:08:46<17:29:00,  3.46it/s] 41%|████▏     | 153673/371472 [1:08:46<17:33:02,  3.45it/s] 41%|████▏     | 153674/371472 [1:08:46<16:55:27,  3.57it/s] 41%|████▏     | 153675/371472 [1:08:46<18:20:57,  3.30it/s] 41%|████▏     | 153676/371472 [1:08:47<18:02:11,  3.35it/s] 41%|████▏     | 153677/371472 [1:08:47<17:42:37,  3.42it/s] 41%|████▏     | 153678/371472 [1:08:47<16:52:42,  3.58it/s] 41%|████▏     | 153679/371472 [1:08:48<16:26:21,  3.68it/s] 41%|████▏     | 153680/371472 [1:08:48<16:44:45,  3.61it/s]                                                            {'loss': 3.1791, 'learning_rate': 6.27949320174966e-07, 'epoch': 6.62}
 41%|████▏     | 153680/371472 [1:08:48<16:44:45,  3.61it/s] 41%|████▏     | 153681/371472 [1:08:48<17:25:19,  3.47it/s] 41%|████▏     | 153682/371472 [1:08:48<16:47:50,  3.60it/s] 41%|████▏     | 153683/371472 [1:08:49<16:27:47,  3.67it/s] 41%|████▏     | 153684/371472 [1:08:49<17:01:36,  3.55it/s] 41%|████▏     | 153685/371472 [1:08:49<17:18:59,  3.49it/s] 41%|████▏     | 153686/371472 [1:08:50<17:13:37,  3.51it/s] 41%|████▏     | 153687/371472 [1:08:50<17:09:40,  3.53it/s] 41%|████▏     | 153688/371472 [1:08:50<17:06:23,  3.54it/s] 41%|████▏     | 153689/371472 [1:08:50<17:13:27,  3.51it/s] 41%|████▏     | 153690/371472 [1:08:51<16:46:10,  3.61it/s] 41%|████▏     | 153691/371472 [1:08:51<16:35:29,  3.65it/s] 41%|████▏     | 153692/371472 [1:08:51<16:25:29,  3.68it/s] 41%|████▏     | 153693/371472 [1:08:51<15:59:58,  3.78it/s] 41%|████▏     | 153694/371472 [1:08:52<15:49:11,  3.82it/s] 41%|████▏     | 153695/371472 [1:08:52<16:49:36,  3.60it/s] 41%|████▏     | 153696/371472 [1:08:52<17:11:19,  3.52it/s] 41%|████▏     | 153697/371472 [1:08:53<16:33:41,  3.65it/s] 41%|████▏     | 153698/371472 [1:08:53<15:49:39,  3.82it/s] 41%|████▏     | 153699/371472 [1:08:53<15:35:20,  3.88it/s] 41%|████▏     | 153700/371472 [1:08:53<16:32:27,  3.66it/s]                                                            {'loss': 3.2537, 'learning_rate': 6.279008381994871e-07, 'epoch': 6.62}
 41%|████▏     | 153700/371472 [1:08:53<16:32:27,  3.66it/s] 41%|████▏     | 153701/371472 [1:08:54<17:08:02,  3.53it/s] 41%|████▏     | 153702/371472 [1:08:54<17:27:17,  3.47it/s] 41%|████▏     | 153703/371472 [1:08:54<16:33:08,  3.65it/s] 41%|████▏     | 153704/371472 [1:08:54<17:20:49,  3.49it/s] 41%|████▏     | 153705/371472 [1:08:55<17:20:50,  3.49it/s] 41%|████▏     | 153706/371472 [1:08:55<16:57:29,  3.57it/s] 41%|████▏     | 153707/371472 [1:08:55<16:43:41,  3.62it/s] 41%|████▏     | 153708/371472 [1:08:56<16:21:19,  3.70it/s] 41%|████▏     | 153709/371472 [1:08:56<16:40:52,  3.63it/s] 41%|████▏     | 153710/371472 [1:08:56<16:19:55,  3.70it/s] 41%|████▏     | 153711/371472 [1:08:56<16:45:19,  3.61it/s] 41%|████▏     | 153712/371472 [1:08:57<16:51:14,  3.59it/s] 41%|████▏     | 153713/371472 [1:08:57<17:49:57,  3.39it/s] 41%|████▏     | 153714/371472 [1:08:57<16:59:41,  3.56it/s] 41%|████▏     | 153715/371472 [1:08:58<17:08:22,  3.53it/s] 41%|████▏     | 153716/371472 [1:08:58<17:02:55,  3.55it/s] 41%|████▏     | 153717/371472 [1:08:58<17:05:38,  3.54it/s] 41%|████▏     | 153718/371472 [1:08:58<17:35:36,  3.44it/s] 41%|████▏     | 153719/371472 [1:08:59<16:58:02,  3.56it/s] 41%|████▏     | 153720/371472 [1:08:59<17:20:02,  3.49it/s]                                                            {'loss': 3.2726, 'learning_rate': 6.278523562240083e-07, 'epoch': 6.62}
 41%|████▏     | 153720/371472 [1:08:59<17:20:02,  3.49it/s] 41%|████▏     | 153721/371472 [1:08:59<16:47:44,  3.60it/s] 41%|████▏     | 153722/371472 [1:09:00<16:55:56,  3.57it/s] 41%|████▏     | 153723/371472 [1:09:00<16:49:26,  3.60it/s] 41%|████▏     | 153724/371472 [1:09:00<16:10:34,  3.74it/s] 41%|████▏     | 153725/371472 [1:09:00<16:09:09,  3.74it/s] 41%|████▏     | 153726/371472 [1:09:01<17:07:46,  3.53it/s] 41%|████▏     | 153727/371472 [1:09:01<16:32:44,  3.66it/s] 41%|████▏     | 153728/371472 [1:09:01<16:52:22,  3.58it/s] 41%|████▏     | 153729/371472 [1:09:02<18:16:13,  3.31it/s] 41%|████▏     | 153730/371472 [1:09:02<17:46:16,  3.40it/s] 41%|████▏     | 153731/371472 [1:09:02<17:50:54,  3.39it/s] 41%|████▏     | 153732/371472 [1:09:02<19:03:22,  3.17it/s] 41%|████▏     | 153733/371472 [1:09:03<18:38:37,  3.24it/s] 41%|████▏     | 153734/371472 [1:09:03<18:52:31,  3.20it/s] 41%|████▏     | 153735/371472 [1:09:03<18:02:13,  3.35it/s] 41%|████▏     | 153736/371472 [1:09:04<17:38:24,  3.43it/s] 41%|████▏     | 153737/371472 [1:09:04<16:49:24,  3.60it/s] 41%|████▏     | 153738/371472 [1:09:04<16:48:35,  3.60it/s] 41%|████▏     | 153739/371472 [1:09:04<17:03:42,  3.54it/s] 41%|████▏     | 153740/371472 [1:09:05<17:18:03,  3.50it/s]                                                            {'loss': 3.182, 'learning_rate': 6.278038742485293e-07, 'epoch': 6.62}
 41%|████▏     | 153740/371472 [1:09:05<17:18:03,  3.50it/s] 41%|████▏     | 153741/371472 [1:09:05<17:29:58,  3.46it/s] 41%|████▏     | 153742/371472 [1:09:05<16:40:24,  3.63it/s] 41%|████▏     | 153743/371472 [1:09:06<17:40:45,  3.42it/s] 41%|████▏     | 153744/371472 [1:09:06<17:25:45,  3.47it/s] 41%|████▏     | 153745/371472 [1:09:06<17:54:10,  3.38it/s] 41%|████▏     | 153746/371472 [1:09:06<17:41:14,  3.42it/s] 41%|████▏     | 153747/371472 [1:09:07<17:24:11,  3.48it/s] 41%|████▏     | 153748/371472 [1:09:07<17:52:35,  3.38it/s] 41%|████▏     | 153749/371472 [1:09:07<18:08:14,  3.33it/s] 41%|████▏     | 153750/371472 [1:09:08<17:12:51,  3.51it/s] 41%|████▏     | 153751/371472 [1:09:08<17:29:43,  3.46it/s] 41%|████▏     | 153752/371472 [1:09:08<17:32:49,  3.45it/s] 41%|████▏     | 153753/371472 [1:09:09<17:31:52,  3.45it/s] 41%|████▏     | 153754/371472 [1:09:09<17:47:35,  3.40it/s] 41%|████▏     | 153755/371472 [1:09:09<17:33:28,  3.44it/s] 41%|████▏     | 153756/371472 [1:09:09<18:50:23,  3.21it/s] 41%|████▏     | 153757/371472 [1:09:10<17:27:15,  3.46it/s] 41%|████▏     | 153758/371472 [1:09:10<16:38:03,  3.64it/s] 41%|████▏     | 153759/371472 [1:09:10<16:51:57,  3.59it/s] 41%|████▏     | 153760/371472 [1:09:10<16:54:35,  3.58it/s]                                                            {'loss': 3.2789, 'learning_rate': 6.277553922730504e-07, 'epoch': 6.62}
 41%|████▏     | 153760/371472 [1:09:11<16:54:35,  3.58it/s] 41%|████▏     | 153761/371472 [1:09:11<16:46:57,  3.60it/s] 41%|████▏     | 153762/371472 [1:09:11<16:37:52,  3.64it/s] 41%|████▏     | 153763/371472 [1:09:11<16:18:55,  3.71it/s] 41%|████▏     | 153764/371472 [1:09:12<16:20:17,  3.70it/s] 41%|████▏     | 153765/371472 [1:09:12<16:13:46,  3.73it/s] 41%|████▏     | 153766/371472 [1:09:12<16:06:14,  3.76it/s] 41%|████▏     | 153767/371472 [1:09:12<16:21:43,  3.70it/s] 41%|████▏     | 153768/371472 [1:09:13<17:23:57,  3.48it/s] 41%|████▏     | 153769/371472 [1:09:13<17:38:01,  3.43it/s] 41%|████▏     | 153770/371472 [1:09:13<18:11:08,  3.33it/s] 41%|████▏     | 153771/371472 [1:09:14<17:53:55,  3.38it/s] 41%|████▏     | 153772/371472 [1:09:14<17:23:08,  3.48it/s] 41%|████▏     | 153773/371472 [1:09:14<17:02:08,  3.55it/s] 41%|████▏     | 153774/371472 [1:09:14<17:24:31,  3.47it/s] 41%|████▏     | 153775/371472 [1:09:15<16:56:37,  3.57it/s] 41%|████▏     | 153776/371472 [1:09:15<17:43:56,  3.41it/s] 41%|████▏     | 153777/371472 [1:09:15<17:00:58,  3.55it/s] 41%|████▏     | 153778/371472 [1:09:16<16:51:08,  3.59it/s] 41%|████▏     | 153779/371472 [1:09:16<16:51:16,  3.59it/s] 41%|████▏     | 153780/371472 [1:09:16<16:23:58,  3.69it/s]                                                            {'loss': 3.1217, 'learning_rate': 6.277069102975716e-07, 'epoch': 6.62}
 41%|████▏     | 153780/371472 [1:09:16<16:23:58,  3.69it/s] 41%|████▏     | 153781/371472 [1:09:16<16:29:22,  3.67it/s] 41%|████▏     | 153782/371472 [1:09:17<16:46:03,  3.61it/s] 41%|████▏     | 153783/371472 [1:09:17<18:02:47,  3.35it/s] 41%|████▏     | 153784/371472 [1:09:17<17:26:51,  3.47it/s] 41%|████▏     | 153785/371472 [1:09:18<18:02:17,  3.35it/s] 41%|████▏     | 153786/371472 [1:09:18<17:20:59,  3.49it/s] 41%|████▏     | 153787/371472 [1:09:18<17:19:51,  3.49it/s] 41%|████▏     | 153788/371472 [1:09:19<19:04:18,  3.17it/s] 41%|████▏     | 153789/371472 [1:09:19<19:00:44,  3.18it/s] 41%|████▏     | 153790/371472 [1:09:19<19:14:46,  3.14it/s] 41%|████▏     | 153791/371472 [1:09:19<18:58:58,  3.19it/s] 41%|████▏     | 153792/371472 [1:09:20<17:44:46,  3.41it/s] 41%|████▏     | 153793/371472 [1:09:20<18:22:46,  3.29it/s] 41%|████▏     | 153794/371472 [1:09:20<17:46:21,  3.40it/s] 41%|████▏     | 153795/371472 [1:09:21<17:14:04,  3.51it/s] 41%|████▏     | 153796/371472 [1:09:21<17:31:40,  3.45it/s] 41%|████▏     | 153797/371472 [1:09:21<17:09:10,  3.53it/s] 41%|████▏     | 153798/371472 [1:09:21<16:43:47,  3.61it/s] 41%|████▏     | 153799/371472 [1:09:22<16:15:24,  3.72it/s] 41%|████▏     | 153800/371472 [1:09:22<16:25:24,  3.68it/s]                                                            {'loss': 3.0935, 'learning_rate': 6.276584283220929e-07, 'epoch': 6.62}
 41%|████▏     | 153800/371472 [1:09:22<16:25:24,  3.68it/s] 41%|████▏     | 153801/371472 [1:09:22<16:34:15,  3.65it/s] 41%|████▏     | 153802/371472 [1:09:22<15:54:55,  3.80it/s] 41%|████▏     | 153803/371472 [1:09:23<15:55:53,  3.80it/s] 41%|████▏     | 153804/371472 [1:09:23<15:45:09,  3.84it/s] 41%|████▏     | 153805/371472 [1:09:23<15:54:45,  3.80it/s] 41%|████▏     | 153806/371472 [1:09:24<16:03:21,  3.77it/s] 41%|████▏     | 153807/371472 [1:09:24<16:43:58,  3.61it/s] 41%|████▏     | 153808/371472 [1:09:24<16:53:50,  3.58it/s] 41%|████▏     | 153809/371472 [1:09:24<16:41:40,  3.62it/s] 41%|████▏     | 153810/371472 [1:09:25<17:58:12,  3.36it/s] 41%|████▏     | 153811/371472 [1:09:25<17:02:45,  3.55it/s] 41%|████▏     | 153812/371472 [1:09:25<16:31:55,  3.66it/s] 41%|████▏     | 153813/371472 [1:09:26<17:14:41,  3.51it/s] 41%|████▏     | 153814/371472 [1:09:26<16:41:12,  3.62it/s] 41%|████▏     | 153815/371472 [1:09:26<17:22:23,  3.48it/s] 41%|████▏     | 153816/371472 [1:09:26<17:42:45,  3.41it/s] 41%|████▏     | 153817/371472 [1:09:27<17:05:16,  3.54it/s] 41%|████▏     | 153818/371472 [1:09:27<17:02:29,  3.55it/s] 41%|████▏     | 153819/371472 [1:09:27<16:48:33,  3.60it/s] 41%|████▏     | 153820/371472 [1:09:28<17:23:27,  3.48it/s]                                                            {'loss': 3.2945, 'learning_rate': 6.276099463466138e-07, 'epoch': 6.63}
 41%|████▏     | 153820/371472 [1:09:28<17:23:27,  3.48it/s] 41%|████▏     | 153821/371472 [1:09:28<16:51:45,  3.59it/s] 41%|████▏     | 153822/371472 [1:09:28<17:19:49,  3.49it/s] 41%|████▏     | 153823/371472 [1:09:28<18:11:52,  3.32it/s] 41%|████▏     | 153824/371472 [1:09:29<18:33:00,  3.26it/s] 41%|████▏     | 153825/371472 [1:09:29<17:56:54,  3.37it/s] 41%|████▏     | 153826/371472 [1:09:29<17:10:36,  3.52it/s] 41%|████▏     | 153827/371472 [1:09:30<17:25:23,  3.47it/s] 41%|████▏     | 153828/371472 [1:09:30<18:06:28,  3.34it/s] 41%|████▏     | 153829/371472 [1:09:30<17:33:40,  3.44it/s] 41%|████▏     | 153830/371472 [1:09:30<18:18:36,  3.30it/s] 41%|████▏     | 153831/371472 [1:09:31<17:35:49,  3.44it/s] 41%|████▏     | 153832/371472 [1:09:31<17:38:47,  3.43it/s] 41%|████▏     | 153833/371472 [1:09:31<16:53:59,  3.58it/s] 41%|████▏     | 153834/371472 [1:09:32<17:10:26,  3.52it/s] 41%|████▏     | 153835/371472 [1:09:32<17:09:41,  3.52it/s] 41%|████▏     | 153836/371472 [1:09:32<17:16:48,  3.50it/s] 41%|████▏     | 153837/371472 [1:09:32<17:30:33,  3.45it/s] 41%|████▏     | 153838/371472 [1:09:33<17:22:14,  3.48it/s] 41%|████▏     | 153839/371472 [1:09:33<16:46:33,  3.60it/s] 41%|████▏     | 153840/371472 [1:09:33<17:12:04,  3.51it/s]                                                            {'loss': 3.2609, 'learning_rate': 6.275614643711348e-07, 'epoch': 6.63}
 41%|████▏     | 153840/371472 [1:09:33<17:12:04,  3.51it/s] 41%|████▏     | 153841/371472 [1:09:34<16:46:56,  3.60it/s] 41%|████▏     | 153842/371472 [1:09:34<16:30:46,  3.66it/s] 41%|████▏     | 153843/371472 [1:09:34<16:05:24,  3.76it/s] 41%|████▏     | 153844/371472 [1:09:34<16:56:15,  3.57it/s] 41%|████▏     | 153845/371472 [1:09:35<16:26:32,  3.68it/s] 41%|████▏     | 153846/371472 [1:09:35<16:04:02,  3.76it/s] 41%|████▏     | 153847/371472 [1:09:35<15:59:12,  3.78it/s] 41%|████▏     | 153848/371472 [1:09:35<15:47:07,  3.83it/s] 41%|████▏     | 153849/371472 [1:09:36<16:10:56,  3.74it/s] 41%|████▏     | 153850/371472 [1:09:36<16:36:46,  3.64it/s] 41%|████▏     | 153851/371472 [1:09:36<16:40:50,  3.62it/s] 41%|████▏     | 153852/371472 [1:09:37<17:42:15,  3.41it/s] 41%|████▏     | 153853/371472 [1:09:37<17:32:32,  3.45it/s] 41%|████▏     | 153854/371472 [1:09:37<16:53:11,  3.58it/s] 41%|████▏     | 153855/371472 [1:09:37<16:42:49,  3.62it/s] 41%|████▏     | 153856/371472 [1:09:38<16:35:47,  3.64it/s] 41%|████▏     | 153857/371472 [1:09:38<17:23:05,  3.48it/s] 41%|████▏     | 153858/371472 [1:09:38<16:37:04,  3.64it/s] 41%|████▏     | 153859/371472 [1:09:39<17:10:07,  3.52it/s] 41%|████▏     | 153860/371472 [1:09:39<16:39:55,  3.63it/s]                                                            {'loss': 3.2775, 'learning_rate': 6.27512982395656e-07, 'epoch': 6.63}
 41%|████▏     | 153860/371472 [1:09:39<16:39:55,  3.63it/s] 41%|████▏     | 153861/371472 [1:09:39<16:23:32,  3.69it/s] 41%|████▏     | 153862/371472 [1:09:39<16:18:01,  3.71it/s] 41%|████▏     | 153863/371472 [1:09:40<15:54:55,  3.80it/s] 41%|████▏     | 153864/371472 [1:09:40<16:13:32,  3.73it/s] 41%|████▏     | 153865/371472 [1:09:40<17:25:39,  3.47it/s] 41%|████▏     | 153866/371472 [1:09:40<17:40:17,  3.42it/s] 41%|████▏     | 153867/371472 [1:09:41<17:51:15,  3.39it/s] 41%|████▏     | 153868/371472 [1:09:41<17:24:57,  3.47it/s] 41%|████▏     | 153869/371472 [1:09:41<17:02:24,  3.55it/s] 41%|████▏     | 153870/371472 [1:09:42<17:25:36,  3.47it/s] 41%|████▏     | 153871/371472 [1:09:42<16:59:40,  3.56it/s] 41%|████▏     | 153872/371472 [1:09:42<16:54:33,  3.57it/s] 41%|████▏     | 153873/371472 [1:09:42<17:02:58,  3.55it/s] 41%|████▏     | 153874/371472 [1:09:43<17:14:15,  3.51it/s] 41%|████▏     | 153875/371472 [1:09:43<16:32:08,  3.66it/s] 41%|████▏     | 153876/371472 [1:09:43<16:39:10,  3.63it/s] 41%|████▏     | 153877/371472 [1:09:44<16:41:46,  3.62it/s] 41%|████▏     | 153878/371472 [1:09:44<16:55:14,  3.57it/s] 41%|████▏     | 153879/371472 [1:09:44<16:40:23,  3.63it/s] 41%|████▏     | 153880/371472 [1:09:44<16:20:25,  3.70it/s]                                                            {'loss': 3.1844, 'learning_rate': 6.274645004201772e-07, 'epoch': 6.63}
 41%|████▏     | 153880/371472 [1:09:44<16:20:25,  3.70it/s] 41%|████▏     | 153881/371472 [1:09:45<16:16:36,  3.71it/s] 41%|████▏     | 153882/371472 [1:09:45<16:36:27,  3.64it/s] 41%|████▏     | 153883/371472 [1:09:45<17:17:43,  3.49it/s] 41%|████▏     | 153884/371472 [1:09:46<17:49:50,  3.39it/s] 41%|████▏     | 153885/371472 [1:09:46<17:13:28,  3.51it/s] 41%|████▏     | 153886/371472 [1:09:46<17:13:28,  3.51it/s] 41%|████▏     | 153887/371472 [1:09:46<16:35:24,  3.64it/s] 41%|████▏     | 153888/371472 [1:09:47<16:28:22,  3.67it/s] 41%|████▏     | 153889/371472 [1:09:47<17:08:50,  3.52it/s] 41%|████▏     | 153890/371472 [1:09:47<16:51:40,  3.58it/s] 41%|████▏     | 153891/371472 [1:09:47<16:36:16,  3.64it/s] 41%|████▏     | 153892/371472 [1:09:48<16:09:15,  3.74it/s] 41%|████▏     | 153893/371472 [1:09:48<17:01:29,  3.55it/s] 41%|████▏     | 153894/371472 [1:09:48<16:51:30,  3.59it/s] 41%|████▏     | 153895/371472 [1:09:49<17:55:18,  3.37it/s] 41%|████▏     | 153896/371472 [1:09:49<17:22:07,  3.48it/s] 41%|████▏     | 153897/371472 [1:09:49<18:06:15,  3.34it/s] 41%|████▏     | 153898/371472 [1:09:50<19:58:29,  3.03it/s] 41%|████▏     | 153899/371472 [1:09:50<19:25:47,  3.11it/s] 41%|████▏     | 153900/371472 [1:09:50<18:31:54,  3.26it/s]                                                            {'loss': 3.1884, 'learning_rate': 6.274160184446982e-07, 'epoch': 6.63}
 41%|████▏     | 153900/371472 [1:09:50<18:31:54,  3.26it/s] 41%|████▏     | 153901/371472 [1:09:50<18:03:51,  3.35it/s] 41%|████▏     | 153902/371472 [1:09:51<18:45:06,  3.22it/s] 41%|████▏     | 153903/371472 [1:09:51<19:04:08,  3.17it/s] 41%|████▏     | 153904/371472 [1:09:51<19:07:47,  3.16it/s] 41%|████▏     | 153905/371472 [1:09:52<18:36:51,  3.25it/s] 41%|████▏     | 153906/371472 [1:09:52<17:50:59,  3.39it/s] 41%|████▏     | 153907/371472 [1:09:52<18:09:30,  3.33it/s] 41%|████▏     | 153908/371472 [1:09:53<17:06:43,  3.53it/s] 41%|████▏     | 153909/371472 [1:09:53<16:50:02,  3.59it/s] 41%|████▏     | 153910/371472 [1:09:53<16:41:46,  3.62it/s] 41%|████▏     | 153911/371472 [1:09:53<16:57:25,  3.56it/s] 41%|████▏     | 153912/371472 [1:09:54<17:24:30,  3.47it/s] 41%|████▏     | 153913/371472 [1:09:54<17:20:48,  3.48it/s] 41%|████▏     | 153914/371472 [1:09:54<16:56:03,  3.57it/s] 41%|████▏     | 153915/371472 [1:09:55<16:54:07,  3.58it/s] 41%|████▏     | 153916/371472 [1:09:55<16:51:24,  3.59it/s] 41%|████▏     | 153917/371472 [1:09:55<17:00:55,  3.55it/s] 41%|████▏     | 153918/371472 [1:09:55<17:24:45,  3.47it/s] 41%|████▏     | 153919/371472 [1:09:56<17:01:47,  3.55it/s] 41%|████▏     | 153920/371472 [1:09:56<17:07:27,  3.53it/s]                                                            {'loss': 3.1811, 'learning_rate': 6.273675364692193e-07, 'epoch': 6.63}
 41%|████▏     | 153920/371472 [1:09:56<17:07:27,  3.53it/s] 41%|████▏     | 153921/371472 [1:09:56<17:36:27,  3.43it/s] 41%|████▏     | 153922/371472 [1:09:57<17:49:11,  3.39it/s] 41%|████▏     | 153923/371472 [1:09:57<17:28:54,  3.46it/s] 41%|████▏     | 153924/371472 [1:09:57<17:44:28,  3.41it/s] 41%|████▏     | 153925/371472 [1:09:57<17:02:49,  3.54it/s] 41%|████▏     | 153926/371472 [1:09:58<17:06:41,  3.53it/s] 41%|████▏     | 153927/371472 [1:09:58<18:17:21,  3.30it/s] 41%|████▏     | 153928/371472 [1:09:58<18:18:51,  3.30it/s] 41%|████▏     | 153929/371472 [1:09:59<17:57:12,  3.37it/s] 41%|████▏     | 153930/371472 [1:09:59<17:37:51,  3.43it/s] 41%|████▏     | 153931/371472 [1:09:59<17:00:03,  3.55it/s] 41%|████▏     | 153932/371472 [1:09:59<16:38:20,  3.63it/s] 41%|████▏     | 153933/371472 [1:10:00<16:43:02,  3.61it/s] 41%|████▏     | 153934/371472 [1:10:00<16:19:13,  3.70it/s] 41%|████▏     | 153935/371472 [1:10:00<15:39:42,  3.86it/s] 41%|████▏     | 153936/371472 [1:10:00<15:55:57,  3.79it/s] 41%|████▏     | 153937/371472 [1:10:01<15:43:32,  3.84it/s] 41%|████▏     | 153938/371472 [1:10:01<15:57:30,  3.79it/s] 41%|████▏     | 153939/371472 [1:10:01<17:12:59,  3.51it/s] 41%|████▏     | 153940/371472 [1:10:02<16:59:56,  3.55it/s]                                                            {'loss': 3.0453, 'learning_rate': 6.273190544937405e-07, 'epoch': 6.63}
 41%|████▏     | 153940/371472 [1:10:02<16:59:56,  3.55it/s] 41%|████▏     | 153941/371472 [1:10:02<17:19:25,  3.49it/s] 41%|████▏     | 153942/371472 [1:10:02<17:07:55,  3.53it/s] 41%|████▏     | 153943/371472 [1:10:02<16:54:20,  3.57it/s] 41%|████▏     | 153944/371472 [1:10:03<16:34:04,  3.65it/s] 41%|████▏     | 153945/371472 [1:10:03<17:33:32,  3.44it/s] 41%|████▏     | 153946/371472 [1:10:03<17:16:38,  3.50it/s] 41%|████▏     | 153947/371472 [1:10:04<16:59:13,  3.56it/s] 41%|████▏     | 153948/371472 [1:10:04<16:50:52,  3.59it/s] 41%|████▏     | 153949/371472 [1:10:04<18:10:20,  3.33it/s] 41%|████▏     | 153950/371472 [1:10:04<17:07:54,  3.53it/s] 41%|████▏     | 153951/371472 [1:10:05<16:46:33,  3.60it/s] 41%|████▏     | 153952/371472 [1:10:05<17:13:22,  3.51it/s] 41%|████▏     | 153953/371472 [1:10:05<16:23:28,  3.69it/s] 41%|████▏     | 153954/371472 [1:10:06<16:22:25,  3.69it/s] 41%|████▏     | 153955/371472 [1:10:06<16:52:14,  3.58it/s] 41%|████▏     | 153956/371472 [1:10:06<16:26:38,  3.67it/s] 41%|████▏     | 153957/371472 [1:10:06<16:39:46,  3.63it/s] 41%|████▏     | 153958/371472 [1:10:07<17:00:19,  3.55it/s] 41%|████▏     | 153959/371472 [1:10:07<17:00:35,  3.55it/s] 41%|████▏     | 153960/371472 [1:10:07<17:05:07,  3.54it/s]                                                            {'loss': 3.2663, 'learning_rate': 6.272705725182615e-07, 'epoch': 6.63}
 41%|████▏     | 153960/371472 [1:10:07<17:05:07,  3.54it/s] 41%|████▏     | 153961/371472 [1:10:08<17:02:22,  3.55it/s] 41%|████▏     | 153962/371472 [1:10:08<17:07:17,  3.53it/s] 41%|████▏     | 153963/371472 [1:10:08<17:22:50,  3.48it/s] 41%|████▏     | 153964/371472 [1:10:08<18:12:25,  3.32it/s] 41%|████▏     | 153965/371472 [1:10:09<17:13:22,  3.51it/s] 41%|████▏     | 153966/371472 [1:10:09<16:53:32,  3.58it/s] 41%|████▏     | 153967/371472 [1:10:09<16:19:45,  3.70it/s] 41%|████▏     | 153968/371472 [1:10:10<17:16:17,  3.50it/s] 41%|████▏     | 153969/371472 [1:10:10<16:41:03,  3.62it/s] 41%|████▏     | 153970/371472 [1:10:10<16:24:00,  3.68it/s] 41%|████▏     | 153971/371472 [1:10:10<16:30:15,  3.66it/s] 41%|████▏     | 153972/371472 [1:10:11<16:44:26,  3.61it/s] 41%|████▏     | 153973/371472 [1:10:11<16:32:08,  3.65it/s] 41%|████▏     | 153974/371472 [1:10:11<17:50:09,  3.39it/s] 41%|████▏     | 153975/371472 [1:10:11<17:00:58,  3.55it/s] 41%|████▏     | 153976/371472 [1:10:12<17:40:04,  3.42it/s] 41%|████▏     | 153977/371472 [1:10:12<16:55:10,  3.57it/s] 41%|████▏     | 153978/371472 [1:10:12<16:32:53,  3.65it/s] 41%|████▏     | 153979/371472 [1:10:13<16:36:45,  3.64it/s] 41%|████▏     | 153980/371472 [1:10:13<16:00:21,  3.77it/s]                                                            {'loss': 3.265, 'learning_rate': 6.272220905427826e-07, 'epoch': 6.63}
 41%|████▏     | 153980/371472 [1:10:13<16:00:21,  3.77it/s] 41%|████▏     | 153981/371472 [1:10:13<15:42:10,  3.85it/s] 41%|████▏     | 153982/371472 [1:10:13<16:37:29,  3.63it/s] 41%|████▏     | 153983/371472 [1:10:14<16:41:14,  3.62it/s] 41%|████▏     | 153984/371472 [1:10:14<16:35:53,  3.64it/s] 41%|████▏     | 153985/371472 [1:10:14<16:01:12,  3.77it/s] 41%|████▏     | 153986/371472 [1:10:14<16:04:30,  3.76it/s] 41%|████▏     | 153987/371472 [1:10:15<16:12:47,  3.73it/s] 41%|████▏     | 153988/371472 [1:10:15<16:57:31,  3.56it/s] 41%|████▏     | 153989/371472 [1:10:15<16:55:10,  3.57it/s] 41%|████▏     | 153990/371472 [1:10:16<17:23:40,  3.47it/s] 41%|████▏     | 153991/371472 [1:10:16<16:50:40,  3.59it/s] 41%|████▏     | 153992/371472 [1:10:16<16:50:33,  3.59it/s] 41%|████▏     | 153993/371472 [1:10:16<17:39:32,  3.42it/s] 41%|████▏     | 153994/371472 [1:10:17<17:09:37,  3.52it/s] 41%|████▏     | 153995/371472 [1:10:17<16:49:57,  3.59it/s] 41%|████▏     | 153996/371472 [1:10:17<16:42:45,  3.61it/s] 41%|████▏     | 153997/371472 [1:10:18<17:49:57,  3.39it/s] 41%|████▏     | 153998/371472 [1:10:18<18:25:33,  3.28it/s] 41%|████▏     | 153999/371472 [1:10:18<17:47:59,  3.39it/s] 41%|████▏     | 154000/371472 [1:10:19<18:20:32,  3.29it/s]                                                            {'loss': 3.078, 'learning_rate': 6.271736085673037e-07, 'epoch': 6.63}
 41%|████▏     | 154000/371472 [1:10:19<18:20:32,  3.29it/s] 41%|████▏     | 154001/371472 [1:10:19<17:35:32,  3.43it/s] 41%|████▏     | 154002/371472 [1:10:19<17:06:26,  3.53it/s] 41%|████▏     | 154003/371472 [1:10:19<17:10:11,  3.52it/s] 41%|████▏     | 154004/371472 [1:10:20<16:41:32,  3.62it/s] 41%|████▏     | 154005/371472 [1:10:20<16:17:23,  3.71it/s] 41%|████▏     | 154006/371472 [1:10:20<16:19:46,  3.70it/s] 41%|████▏     | 154007/371472 [1:10:20<16:15:14,  3.72it/s] 41%|████▏     | 154008/371472 [1:10:21<16:15:24,  3.72it/s] 41%|████▏     | 154009/371472 [1:10:21<16:34:09,  3.65it/s] 41%|████▏     | 154010/371472 [1:10:21<16:30:42,  3.66it/s] 41%|████▏     | 154011/371472 [1:10:22<17:49:46,  3.39it/s] 41%|████▏     | 154012/371472 [1:10:22<17:39:16,  3.42it/s] 41%|████▏     | 154013/371472 [1:10:22<17:41:12,  3.42it/s] 41%|████▏     | 154014/371472 [1:10:22<17:16:58,  3.50it/s] 41%|████▏     | 154015/371472 [1:10:23<18:35:03,  3.25it/s] 41%|████▏     | 154016/371472 [1:10:23<17:42:27,  3.41it/s] 41%|████▏     | 154017/371472 [1:10:23<17:27:14,  3.46it/s] 41%|████▏     | 154018/371472 [1:10:24<17:10:29,  3.52it/s] 41%|████▏     | 154019/371472 [1:10:24<17:13:49,  3.51it/s] 41%|████▏     | 154020/371472 [1:10:24<17:13:15,  3.51it/s]                                                            {'loss': 3.181, 'learning_rate': 6.271251265918249e-07, 'epoch': 6.63}
 41%|████▏     | 154020/371472 [1:10:24<17:13:15,  3.51it/s] 41%|████▏     | 154021/371472 [1:10:24<17:08:05,  3.53it/s] 41%|████▏     | 154022/371472 [1:10:25<16:41:06,  3.62it/s] 41%|████▏     | 154023/371472 [1:10:25<16:45:35,  3.60it/s] 41%|████▏     | 154024/371472 [1:10:25<16:56:15,  3.57it/s] 41%|████▏     | 154025/371472 [1:10:26<17:02:43,  3.54it/s] 41%|████▏     | 154026/371472 [1:10:26<16:42:08,  3.62it/s] 41%|████▏     | 154027/371472 [1:10:26<17:00:25,  3.55it/s] 41%|████▏     | 154028/371472 [1:10:26<16:33:47,  3.65it/s] 41%|████▏     | 154029/371472 [1:10:27<16:09:53,  3.74it/s] 41%|████▏     | 154030/371472 [1:10:27<16:21:36,  3.69it/s] 41%|████▏     | 154031/371472 [1:10:27<16:33:25,  3.65it/s] 41%|████▏     | 154032/371472 [1:10:27<16:29:07,  3.66it/s] 41%|████▏     | 154033/371472 [1:10:28<16:17:52,  3.71it/s] 41%|████▏     | 154034/371472 [1:10:28<16:13:47,  3.72it/s] 41%|████▏     | 154035/371472 [1:10:28<15:58:24,  3.78it/s] 41%|████▏     | 154036/371472 [1:10:29<17:43:45,  3.41it/s] 41%|████▏     | 154037/371472 [1:10:29<17:18:49,  3.49it/s] 41%|████▏     | 154038/371472 [1:10:29<17:23:28,  3.47it/s] 41%|████▏     | 154039/371472 [1:10:29<17:11:12,  3.51it/s] 41%|████▏     | 154040/371472 [1:10:30<16:54:50,  3.57it/s]                                                            {'loss': 3.3855, 'learning_rate': 6.270766446163459e-07, 'epoch': 6.63}
 41%|████▏     | 154040/371472 [1:10:30<16:54:50,  3.57it/s] 41%|████▏     | 154041/371472 [1:10:30<17:07:24,  3.53it/s] 41%|████▏     | 154042/371472 [1:10:30<17:50:58,  3.38it/s] 41%|████▏     | 154043/371472 [1:10:31<17:22:02,  3.48it/s] 41%|████▏     | 154044/371472 [1:10:31<16:49:42,  3.59it/s] 41%|████▏     | 154045/371472 [1:10:31<17:19:18,  3.49it/s] 41%|████▏     | 154046/371472 [1:10:31<17:04:13,  3.54it/s] 41%|████▏     | 154047/371472 [1:10:32<16:35:36,  3.64it/s] 41%|████▏     | 154048/371472 [1:10:32<18:40:01,  3.24it/s] 41%|████▏     | 154049/371472 [1:10:32<18:04:17,  3.34it/s] 41%|████▏     | 154050/371472 [1:10:33<17:31:30,  3.45it/s] 41%|████▏     | 154051/371472 [1:10:33<16:54:04,  3.57it/s] 41%|████▏     | 154052/371472 [1:10:33<17:07:45,  3.53it/s] 41%|████▏     | 154053/371472 [1:10:33<17:02:10,  3.55it/s] 41%|████▏     | 154054/371472 [1:10:34<18:28:14,  3.27it/s] 41%|████▏     | 154055/371472 [1:10:34<17:49:56,  3.39it/s] 41%|████▏     | 154056/371472 [1:10:34<20:37:37,  2.93it/s] 41%|████▏     | 154057/371472 [1:10:35<20:08:04,  3.00it/s] 41%|████▏     | 154058/371472 [1:10:35<18:37:35,  3.24it/s] 41%|████▏     | 154059/371472 [1:10:35<18:48:50,  3.21it/s] 41%|████▏     | 154060/371472 [1:10:36<18:35:25,  3.25it/s]                                                            {'loss': 3.2518, 'learning_rate': 6.27028162640867e-07, 'epoch': 6.64}
 41%|████▏     | 154060/371472 [1:10:36<18:35:25,  3.25it/s] 41%|████▏     | 154061/371472 [1:10:36<17:50:58,  3.38it/s] 41%|████▏     | 154062/371472 [1:10:36<17:04:53,  3.54it/s] 41%|████▏     | 154063/371472 [1:10:36<16:45:43,  3.60it/s] 41%|████▏     | 154064/371472 [1:10:37<16:50:25,  3.59it/s] 41%|████▏     | 154065/371472 [1:10:37<17:01:26,  3.55it/s] 41%|████▏     | 154066/371472 [1:10:37<18:01:11,  3.35it/s] 41%|████▏     | 154067/371472 [1:10:38<18:17:33,  3.30it/s] 41%|████▏     | 154068/371472 [1:10:38<18:23:03,  3.28it/s] 41%|████▏     | 154069/371472 [1:10:38<18:00:40,  3.35it/s] 41%|████▏     | 154070/371472 [1:10:39<17:41:47,  3.41it/s] 41%|████▏     | 154071/371472 [1:10:39<16:57:53,  3.56it/s] 41%|████▏     | 154072/371472 [1:10:39<16:13:10,  3.72it/s] 41%|████▏     | 154073/371472 [1:10:39<15:52:05,  3.81it/s] 41%|████▏     | 154074/371472 [1:10:40<16:15:39,  3.71it/s] 41%|████▏     | 154075/371472 [1:10:40<16:05:56,  3.75it/s] 41%|████▏     | 154076/371472 [1:10:40<17:29:21,  3.45it/s] 41%|████▏     | 154077/371472 [1:10:40<17:48:37,  3.39it/s] 41%|████▏     | 154078/371472 [1:10:41<18:18:07,  3.30it/s] 41%|████▏     | 154079/371472 [1:10:41<18:10:29,  3.32it/s] 41%|████▏     | 154080/371472 [1:10:41<18:09:35,  3.33it/s]                                                            {'loss': 3.4591, 'learning_rate': 6.269796806653882e-07, 'epoch': 6.64}
 41%|████▏     | 154080/371472 [1:10:41<18:09:35,  3.33it/s] 41%|████▏     | 154081/371472 [1:10:42<17:17:39,  3.49it/s] 41%|████▏     | 154082/371472 [1:10:42<16:59:30,  3.55it/s] 41%|████▏     | 154083/371472 [1:10:42<16:28:23,  3.67it/s] 41%|████▏     | 154084/371472 [1:10:42<16:30:42,  3.66it/s] 41%|████▏     | 154085/371472 [1:10:43<16:38:34,  3.63it/s] 41%|████▏     | 154086/371472 [1:10:43<16:17:03,  3.71it/s] 41%|████▏     | 154087/371472 [1:10:43<17:14:01,  3.50it/s] 41%|████▏     | 154088/371472 [1:10:44<17:03:27,  3.54it/s] 41%|████▏     | 154089/371472 [1:10:44<16:33:32,  3.65it/s] 41%|████▏     | 154090/371472 [1:10:44<16:39:39,  3.62it/s] 41%|████▏     | 154091/371472 [1:10:44<16:34:52,  3.64it/s] 41%|████▏     | 154092/371472 [1:10:45<16:20:22,  3.70it/s] 41%|████▏     | 154093/371472 [1:10:45<17:35:14,  3.43it/s] 41%|████▏     | 154094/371472 [1:10:45<18:54:05,  3.19it/s] 41%|████▏     | 154095/371472 [1:10:46<19:10:51,  3.15it/s] 41%|████▏     | 154096/371472 [1:10:46<18:08:56,  3.33it/s] 41%|████▏     | 154097/371472 [1:10:46<17:52:55,  3.38it/s] 41%|████▏     | 154098/371472 [1:10:47<18:21:13,  3.29it/s] 41%|████▏     | 154099/371472 [1:10:47<19:31:58,  3.09it/s] 41%|████▏     | 154100/371472 [1:10:47<18:38:07,  3.24it/s]                                                            {'loss': 3.0986, 'learning_rate': 6.269311986899093e-07, 'epoch': 6.64}
 41%|████▏     | 154100/371472 [1:10:47<18:38:07,  3.24it/s] 41%|████▏     | 154101/371472 [1:10:47<17:51:48,  3.38it/s] 41%|████▏     | 154102/371472 [1:10:48<17:41:38,  3.41it/s] 41%|████▏     | 154103/371472 [1:10:48<18:00:39,  3.35it/s] 41%|████▏     | 154104/371472 [1:10:48<17:27:03,  3.46it/s] 41%|████▏     | 154105/371472 [1:10:49<17:33:53,  3.44it/s] 41%|████▏     | 154106/371472 [1:10:49<17:20:09,  3.48it/s] 41%|████▏     | 154107/371472 [1:10:49<17:22:17,  3.48it/s] 41%|████▏     | 154108/371472 [1:10:49<16:56:25,  3.56it/s] 41%|████▏     | 154109/371472 [1:10:50<16:43:03,  3.61it/s] 41%|████▏     | 154110/371472 [1:10:50<16:20:13,  3.70it/s] 41%|████▏     | 154111/371472 [1:10:50<16:32:54,  3.65it/s] 41%|████▏     | 154112/371472 [1:10:51<16:25:49,  3.67it/s] 41%|████▏     | 154113/371472 [1:10:51<16:37:49,  3.63it/s] 41%|████▏     | 154114/371472 [1:10:51<19:18:10,  3.13it/s] 41%|████▏     | 154115/371472 [1:10:52<18:46:11,  3.22it/s] 41%|████▏     | 154116/371472 [1:10:52<18:33:22,  3.25it/s] 41%|████▏     | 154117/371472 [1:10:52<17:36:25,  3.43it/s] 41%|████▏     | 154118/371472 [1:10:52<17:36:16,  3.43it/s] 41%|████▏     | 154119/371472 [1:10:53<18:43:37,  3.22it/s] 41%|████▏     | 154120/371472 [1:10:53<20:03:34,  3.01it/s]                                                            {'loss': 3.1358, 'learning_rate': 6.268827167144304e-07, 'epoch': 6.64}
 41%|████▏     | 154120/371472 [1:10:53<20:03:34,  3.01it/s] 41%|████▏     | 154121/371472 [1:10:53<19:35:06,  3.08it/s] 41%|████▏     | 154122/371472 [1:10:54<18:22:22,  3.29it/s] 41%|████▏     | 154123/371472 [1:10:54<17:10:28,  3.52it/s] 41%|████▏     | 154124/371472 [1:10:54<17:18:40,  3.49it/s] 41%|████▏     | 154125/371472 [1:10:54<16:46:29,  3.60it/s] 41%|████▏     | 154126/371472 [1:10:55<17:05:30,  3.53it/s] 41%|████▏     | 154127/371472 [1:10:55<16:59:58,  3.55it/s] 41%|████▏     | 154128/371472 [1:10:55<17:04:12,  3.54it/s] 41%|████▏     | 154129/371472 [1:10:56<17:25:05,  3.47it/s] 41%|████▏     | 154130/371472 [1:10:56<17:37:06,  3.43it/s] 41%|████▏     | 154131/371472 [1:10:56<17:21:22,  3.48it/s] 41%|████▏     | 154132/371472 [1:10:56<16:58:54,  3.56it/s] 41%|████▏     | 154133/371472 [1:10:57<18:42:17,  3.23it/s] 41%|████▏     | 154134/371472 [1:10:57<18:35:53,  3.25it/s] 41%|████▏     | 154135/371472 [1:10:57<18:00:33,  3.35it/s] 41%|████▏     | 154136/371472 [1:10:58<18:10:36,  3.32it/s] 41%|████▏     | 154137/371472 [1:10:58<19:00:49,  3.18it/s] 41%|████▏     | 154138/371472 [1:10:58<18:20:39,  3.29it/s] 41%|████▏     | 154139/371472 [1:10:59<18:36:03,  3.25it/s] 41%|████▏     | 154140/371472 [1:10:59<18:55:43,  3.19it/s]                                                            {'loss': 3.1896, 'learning_rate': 6.268342347389514e-07, 'epoch': 6.64}
 41%|████▏     | 154140/371472 [1:10:59<18:55:43,  3.19it/s] 41%|████▏     | 154141/371472 [1:10:59<18:15:29,  3.31it/s] 41%|████▏     | 154142/371472 [1:11:00<17:11:53,  3.51it/s] 41%|████▏     | 154143/371472 [1:11:00<17:02:24,  3.54it/s] 41%|████▏     | 154144/371472 [1:11:00<16:30:00,  3.66it/s] 41%|████▏     | 154145/371472 [1:11:00<16:37:47,  3.63it/s] 41%|████▏     | 154146/371472 [1:11:01<17:02:58,  3.54it/s] 41%|████▏     | 154147/371472 [1:11:01<17:27:00,  3.46it/s] 41%|████▏     | 154148/371472 [1:11:01<18:04:36,  3.34it/s] 41%|████▏     | 154149/371472 [1:11:02<17:57:30,  3.36it/s] 41%|████▏     | 154150/371472 [1:11:02<18:30:12,  3.26it/s] 41%|████▏     | 154151/371472 [1:11:02<18:44:10,  3.22it/s] 41%|████▏     | 154152/371472 [1:11:02<17:49:20,  3.39it/s] 41%|████▏     | 154153/371472 [1:11:03<17:02:23,  3.54it/s] 41%|████▏     | 154154/371472 [1:11:03<17:45:07,  3.40it/s] 41%|████▏     | 154155/371472 [1:11:03<17:49:44,  3.39it/s] 41%|████▏     | 154156/371472 [1:11:04<17:57:28,  3.36it/s] 41%|████▏     | 154157/371472 [1:11:04<17:33:56,  3.44it/s] 41%|████▏     | 154158/371472 [1:11:04<17:21:16,  3.48it/s] 41%|████▏     | 154159/371472 [1:11:05<18:00:26,  3.35it/s] 41%|████▏     | 154160/371472 [1:11:05<17:49:06,  3.39it/s]                                                            {'loss': 3.0558, 'learning_rate': 6.267857527634726e-07, 'epoch': 6.64}
 41%|████▏     | 154160/371472 [1:11:05<17:49:06,  3.39it/s] 42%|████▏     | 154161/371472 [1:11:05<18:14:17,  3.31it/s] 42%|████▏     | 154162/371472 [1:11:05<17:41:31,  3.41it/s] 42%|████▏     | 154163/371472 [1:11:06<17:57:48,  3.36it/s] 42%|████▏     | 154164/371472 [1:11:06<17:44:14,  3.40it/s] 42%|████▏     | 154165/371472 [1:11:06<17:57:57,  3.36it/s] 42%|████▏     | 154166/371472 [1:11:07<18:01:59,  3.35it/s] 42%|████▏     | 154167/371472 [1:11:07<18:53:38,  3.19it/s] 42%|████▏     | 154168/371472 [1:11:07<18:14:47,  3.31it/s] 42%|████▏     | 154169/371472 [1:11:08<19:31:19,  3.09it/s] 42%|████▏     | 154170/371472 [1:11:08<18:36:59,  3.24it/s] 42%|████▏     | 154171/371472 [1:11:08<17:56:19,  3.36it/s] 42%|████▏     | 154172/371472 [1:11:08<17:53:56,  3.37it/s] 42%|████▏     | 154173/371472 [1:11:09<16:46:36,  3.60it/s] 42%|████▏     | 154174/371472 [1:11:09<17:17:51,  3.49it/s] 42%|████▏     | 154175/371472 [1:11:09<16:35:20,  3.64it/s] 42%|████▏     | 154176/371472 [1:11:10<16:43:19,  3.61it/s] 42%|████▏     | 154177/371472 [1:11:10<16:50:18,  3.58it/s] 42%|████▏     | 154178/371472 [1:11:10<16:17:19,  3.71it/s] 42%|████▏     | 154179/371472 [1:11:10<17:15:41,  3.50it/s] 42%|████▏     | 154180/371472 [1:11:11<17:07:14,  3.53it/s]                                                            {'loss': 3.0583, 'learning_rate': 6.267372707879938e-07, 'epoch': 6.64}
 42%|████▏     | 154180/371472 [1:11:11<17:07:14,  3.53it/s] 42%|████▏     | 154181/371472 [1:11:11<16:44:53,  3.60it/s] 42%|████▏     | 154182/371472 [1:11:11<16:41:48,  3.61it/s] 42%|████▏     | 154183/371472 [1:11:11<16:18:43,  3.70it/s] 42%|████▏     | 154184/371472 [1:11:12<17:02:34,  3.54it/s] 42%|████▏     | 154185/371472 [1:11:12<17:21:14,  3.48it/s] 42%|████▏     | 154186/371472 [1:11:12<16:46:26,  3.60it/s] 42%|████▏     | 154187/371472 [1:11:13<16:37:10,  3.63it/s] 42%|████▏     | 154188/371472 [1:11:13<16:24:46,  3.68it/s] 42%|████▏     | 154189/371472 [1:11:13<16:54:55,  3.57it/s] 42%|████▏     | 154190/371472 [1:11:14<18:41:59,  3.23it/s] 42%|████▏     | 154191/371472 [1:11:14<18:11:56,  3.32it/s] 42%|████▏     | 154192/371472 [1:11:14<17:26:10,  3.46it/s] 42%|████▏     | 154193/371472 [1:11:14<16:39:13,  3.62it/s] 42%|████▏     | 154194/371472 [1:11:15<17:07:07,  3.53it/s] 42%|████▏     | 154195/371472 [1:11:15<17:30:42,  3.45it/s] 42%|████▏     | 154196/371472 [1:11:15<17:01:14,  3.55it/s] 42%|████▏     | 154197/371472 [1:11:15<17:26:00,  3.46it/s] 42%|████▏     | 154198/371472 [1:11:16<16:35:36,  3.64it/s] 42%|████▏     | 154199/371472 [1:11:16<16:19:58,  3.70it/s] 42%|████▏     | 154200/371472 [1:11:16<17:01:28,  3.55it/s]                                                            {'loss': 3.1749, 'learning_rate': 6.266887888125148e-07, 'epoch': 6.64}
 42%|████▏     | 154200/371472 [1:11:16<17:01:28,  3.55it/s] 42%|████▏     | 154201/371472 [1:11:17<17:17:40,  3.49it/s] 42%|████▏     | 154202/371472 [1:11:17<17:26:18,  3.46it/s] 42%|████▏     | 154203/371472 [1:11:17<18:08:06,  3.33it/s] 42%|████▏     | 154204/371472 [1:11:18<18:18:26,  3.30it/s] 42%|████▏     | 154205/371472 [1:11:18<17:17:20,  3.49it/s] 42%|████▏     | 154206/371472 [1:11:18<18:07:18,  3.33it/s] 42%|████▏     | 154207/371472 [1:11:18<17:23:34,  3.47it/s] 42%|████▏     | 154208/371472 [1:11:19<17:23:19,  3.47it/s] 42%|████▏     | 154209/371472 [1:11:19<17:28:45,  3.45it/s] 42%|████▏     | 154210/371472 [1:11:19<18:12:18,  3.32it/s] 42%|████▏     | 154211/371472 [1:11:20<18:29:28,  3.26it/s] 42%|████▏     | 154212/371472 [1:11:20<17:36:10,  3.43it/s] 42%|████▏     | 154213/371472 [1:11:20<17:35:50,  3.43it/s] 42%|████▏     | 154214/371472 [1:11:20<17:13:54,  3.50it/s] 42%|████▏     | 154215/371472 [1:11:21<16:51:33,  3.58it/s] 42%|████▏     | 154216/371472 [1:11:21<16:57:21,  3.56it/s] 42%|████▏     | 154217/371472 [1:11:21<16:46:33,  3.60it/s] 42%|████▏     | 154218/371472 [1:11:21<16:38:04,  3.63it/s] 42%|████▏     | 154219/371472 [1:11:22<16:48:08,  3.59it/s] 42%|████▏     | 154220/371472 [1:11:22<17:33:48,  3.44it/s]                                                            {'loss': 3.0364, 'learning_rate': 6.266403068370358e-07, 'epoch': 6.64}
 42%|████▏     | 154220/371472 [1:11:22<17:33:48,  3.44it/s] 42%|████▏     | 154221/371472 [1:11:22<17:48:58,  3.39it/s] 42%|████▏     | 154222/371472 [1:11:23<17:45:24,  3.40it/s] 42%|████▏     | 154223/371472 [1:11:23<17:28:31,  3.45it/s] 42%|████▏     | 154224/371472 [1:11:23<17:03:32,  3.54it/s] 42%|████▏     | 154225/371472 [1:11:24<17:27:58,  3.46it/s] 42%|████▏     | 154226/371472 [1:11:24<18:00:48,  3.35it/s] 42%|████▏     | 154227/371472 [1:11:24<17:09:54,  3.52it/s] 42%|████▏     | 154228/371472 [1:11:24<17:16:35,  3.49it/s] 42%|████▏     | 154229/371472 [1:11:25<16:45:30,  3.60it/s] 42%|████▏     | 154230/371472 [1:11:25<17:13:19,  3.50it/s] 42%|████▏     | 154231/371472 [1:11:25<16:30:42,  3.65it/s] 42%|████▏     | 154232/371472 [1:11:26<16:52:16,  3.58it/s] 42%|████▏     | 154233/371472 [1:11:26<16:31:19,  3.65it/s] 42%|████▏     | 154234/371472 [1:11:26<16:49:01,  3.59it/s] 42%|████▏     | 154235/371472 [1:11:26<17:15:32,  3.50it/s] 42%|████▏     | 154236/371472 [1:11:27<18:31:01,  3.26it/s] 42%|████▏     | 154237/371472 [1:11:27<18:02:09,  3.35it/s] 42%|████▏     | 154238/371472 [1:11:27<17:21:52,  3.48it/s] 42%|████▏     | 154239/371472 [1:11:28<17:15:14,  3.50it/s] 42%|████▏     | 154240/371472 [1:11:28<17:43:44,  3.40it/s]                                                            {'loss': 3.2027, 'learning_rate': 6.26591824861557e-07, 'epoch': 6.64}
 42%|████▏     | 154240/371472 [1:11:28<17:43:44,  3.40it/s] 42%|████▏     | 154241/371472 [1:11:28<17:07:51,  3.52it/s] 42%|████▏     | 154242/371472 [1:11:28<16:30:16,  3.66it/s] 42%|████▏     | 154243/371472 [1:11:29<16:08:19,  3.74it/s] 42%|████▏     | 154244/371472 [1:11:29<16:21:37,  3.69it/s] 42%|████▏     | 154245/371472 [1:11:29<17:56:42,  3.36it/s] 42%|████▏     | 154246/371472 [1:11:30<17:22:33,  3.47it/s] 42%|████▏     | 154247/371472 [1:11:30<17:07:58,  3.52it/s] 42%|████▏     | 154248/371472 [1:11:30<16:48:20,  3.59it/s] 42%|████▏     | 154249/371472 [1:11:30<17:47:25,  3.39it/s] 42%|████▏     | 154250/371472 [1:11:31<17:34:08,  3.43it/s] 42%|████▏     | 154251/371472 [1:11:31<17:12:33,  3.51it/s] 42%|████▏     | 154252/371472 [1:11:31<17:11:29,  3.51it/s] 42%|████▏     | 154253/371472 [1:11:31<16:47:36,  3.59it/s] 42%|████▏     | 154254/371472 [1:11:32<16:28:48,  3.66it/s] 42%|████▏     | 154255/371472 [1:11:32<16:31:16,  3.65it/s] 42%|████▏     | 154256/371472 [1:11:32<16:15:27,  3.71it/s] 42%|████▏     | 154257/371472 [1:11:33<16:40:55,  3.62it/s] 42%|████▏     | 154258/371472 [1:11:33<16:19:21,  3.70it/s] 42%|████▏     | 154259/371472 [1:11:33<16:23:44,  3.68it/s] 42%|████▏     | 154260/371472 [1:11:33<16:26:40,  3.67it/s]                                                            {'loss': 3.1635, 'learning_rate': 6.265433428860781e-07, 'epoch': 6.64}
 42%|████▏     | 154260/371472 [1:11:33<16:26:40,  3.67it/s] 42%|████▏     | 154261/371472 [1:11:34<18:03:02,  3.34it/s] 42%|████▏     | 154262/371472 [1:11:34<17:50:09,  3.38it/s] 42%|████▏     | 154263/371472 [1:11:34<17:38:49,  3.42it/s] 42%|████▏     | 154264/371472 [1:11:35<17:11:56,  3.51it/s] 42%|████▏     | 154265/371472 [1:11:35<16:45:48,  3.60it/s] 42%|████▏     | 154266/371472 [1:11:35<16:30:41,  3.65it/s] 42%|████▏     | 154267/371472 [1:11:35<16:21:12,  3.69it/s] 42%|████▏     | 154268/371472 [1:11:36<16:46:09,  3.60it/s] 42%|████▏     | 154269/371472 [1:11:36<16:47:31,  3.59it/s] 42%|████▏     | 154270/371472 [1:11:36<16:31:58,  3.65it/s] 42%|████▏     | 154271/371472 [1:11:36<16:29:55,  3.66it/s] 42%|████▏     | 154272/371472 [1:11:37<16:49:49,  3.58it/s] 42%|████▏     | 154273/371472 [1:11:37<17:12:38,  3.51it/s] 42%|████▏     | 154274/371472 [1:11:37<16:39:21,  3.62it/s] 42%|████▏     | 154275/371472 [1:11:38<16:12:28,  3.72it/s] 42%|████▏     | 154276/371472 [1:11:38<16:02:05,  3.76it/s] 42%|████▏     | 154277/371472 [1:11:38<16:08:58,  3.74it/s] 42%|████▏     | 154278/371472 [1:11:38<16:06:56,  3.74it/s] 42%|████▏     | 154279/371472 [1:11:39<17:40:40,  3.41it/s] 42%|████▏     | 154280/371472 [1:11:39<17:00:12,  3.55it/s]                                                            {'loss': 3.0868, 'learning_rate': 6.264948609105992e-07, 'epoch': 6.65}
 42%|████▏     | 154280/371472 [1:11:39<17:00:12,  3.55it/s] 42%|████▏     | 154281/371472 [1:11:39<17:13:52,  3.50it/s] 42%|████▏     | 154282/371472 [1:11:40<17:00:44,  3.55it/s] 42%|████▏     | 154283/371472 [1:11:40<17:34:23,  3.43it/s] 42%|████▏     | 154284/371472 [1:11:40<17:46:14,  3.39it/s] 42%|████▏     | 154285/371472 [1:11:41<19:12:57,  3.14it/s] 42%|████▏     | 154286/371472 [1:11:41<17:54:01,  3.37it/s] 42%|████▏     | 154287/371472 [1:11:41<17:46:02,  3.40it/s] 42%|████▏     | 154288/371472 [1:11:41<17:21:32,  3.48it/s] 42%|████▏     | 154289/371472 [1:11:42<17:05:36,  3.53it/s] 42%|████▏     | 154290/371472 [1:11:42<17:42:36,  3.41it/s] 42%|████▏     | 154291/371472 [1:11:42<17:15:11,  3.50it/s] 42%|████▏     | 154292/371472 [1:11:43<18:16:42,  3.30it/s] 42%|████▏     | 154293/371472 [1:11:43<17:28:06,  3.45it/s] 42%|████▏     | 154294/371472 [1:11:43<17:10:32,  3.51it/s] 42%|████▏     | 154295/371472 [1:11:43<17:11:21,  3.51it/s] 42%|████▏     | 154296/371472 [1:11:44<17:35:37,  3.43it/s] 42%|████▏     | 154297/371472 [1:11:44<16:41:13,  3.62it/s] 42%|████▏     | 154298/371472 [1:11:44<16:24:01,  3.68it/s] 42%|████▏     | 154299/371472 [1:11:44<16:14:47,  3.71it/s] 42%|████▏     | 154300/371472 [1:11:45<15:54:47,  3.79it/s]                                                            {'loss': 3.1128, 'learning_rate': 6.264463789351203e-07, 'epoch': 6.65}
 42%|████▏     | 154300/371472 [1:11:45<15:54:47,  3.79it/s] 42%|████▏     | 154301/371472 [1:11:45<15:48:50,  3.81it/s] 42%|████▏     | 154302/371472 [1:11:45<17:53:17,  3.37it/s] 42%|████▏     | 154303/371472 [1:11:46<18:06:03,  3.33it/s] 42%|████▏     | 154304/371472 [1:11:46<17:31:53,  3.44it/s] 42%|████▏     | 154305/371472 [1:11:46<17:44:59,  3.40it/s] 42%|████▏     | 154306/371472 [1:11:47<17:35:38,  3.43it/s] 42%|████▏     | 154307/371472 [1:11:47<18:31:52,  3.26it/s] 42%|████▏     | 154308/371472 [1:11:47<17:55:27,  3.37it/s] 42%|████▏     | 154309/371472 [1:11:47<17:32:12,  3.44it/s] 42%|████▏     | 154310/371472 [1:11:48<17:10:36,  3.51it/s] 42%|████▏     | 154311/371472 [1:11:48<17:24:23,  3.47it/s] 42%|████▏     | 154312/371472 [1:11:48<19:16:30,  3.13it/s] 42%|████▏     | 154313/371472 [1:11:49<19:27:44,  3.10it/s] 42%|████▏     | 154314/371472 [1:11:49<18:05:15,  3.33it/s] 42%|████▏     | 154315/371472 [1:11:49<18:11:39,  3.32it/s] 42%|████▏     | 154316/371472 [1:11:50<17:57:15,  3.36it/s] 42%|████▏     | 154317/371472 [1:11:50<17:15:23,  3.50it/s] 42%|████▏     | 154318/371472 [1:11:50<16:48:25,  3.59it/s] 42%|████▏     | 154319/371472 [1:11:50<16:06:38,  3.74it/s] 42%|████▏     | 154320/371472 [1:11:51<16:16:46,  3.71it/s]                                                            {'loss': 3.2979, 'learning_rate': 6.263978969596415e-07, 'epoch': 6.65}
 42%|████▏     | 154320/371472 [1:11:51<16:16:46,  3.71it/s] 42%|████▏     | 154321/371472 [1:11:51<17:49:00,  3.39it/s] 42%|████▏     | 154322/371472 [1:11:51<17:02:23,  3.54it/s] 42%|████▏     | 154323/371472 [1:11:51<16:48:46,  3.59it/s] 42%|████▏     | 154324/371472 [1:11:52<18:36:58,  3.24it/s] 42%|████▏     | 154325/371472 [1:11:52<17:59:27,  3.35it/s] 42%|████▏     | 154326/371472 [1:11:52<17:29:13,  3.45it/s] 42%|████▏     | 154327/371472 [1:11:53<17:09:47,  3.51it/s] 42%|████▏     | 154328/371472 [1:11:53<16:36:07,  3.63it/s] 42%|████▏     | 154329/371472 [1:11:53<18:38:59,  3.23it/s] 42%|████▏     | 154330/371472 [1:11:54<17:45:55,  3.40it/s] 42%|████▏     | 154331/371472 [1:11:54<17:18:07,  3.49it/s] 42%|████▏     | 154332/371472 [1:11:54<17:22:05,  3.47it/s] 42%|████▏     | 154333/371472 [1:11:54<17:15:49,  3.49it/s] 42%|████▏     | 154334/371472 [1:11:55<17:45:39,  3.40it/s] 42%|████▏     | 154335/371472 [1:11:55<18:02:39,  3.34it/s] 42%|████▏     | 154336/371472 [1:11:55<17:18:46,  3.48it/s] 42%|████▏     | 154337/371472 [1:11:56<16:55:21,  3.56it/s] 42%|████▏     | 154338/371472 [1:11:56<16:19:13,  3.70it/s] 42%|████▏     | 154339/371472 [1:11:56<15:44:21,  3.83it/s] 42%|████▏     | 154340/371472 [1:11:56<15:51:47,  3.80it/s]                                                            {'loss': 3.1334, 'learning_rate': 6.263494149841625e-07, 'epoch': 6.65}
 42%|████▏     | 154340/371472 [1:11:56<15:51:47,  3.80it/s] 42%|████▏     | 154341/371472 [1:11:57<17:06:29,  3.53it/s] 42%|████▏     | 154342/371472 [1:11:57<17:58:58,  3.35it/s] 42%|████▏     | 154343/371472 [1:11:57<18:51:46,  3.20it/s] 42%|████▏     | 154344/371472 [1:11:58<17:48:17,  3.39it/s] 42%|████▏     | 154345/371472 [1:11:58<17:07:23,  3.52it/s] 42%|████▏     | 154346/371472 [1:11:58<17:28:44,  3.45it/s] 42%|████▏     | 154347/371472 [1:11:58<17:50:45,  3.38it/s] 42%|████▏     | 154348/371472 [1:11:59<18:20:55,  3.29it/s] 42%|████▏     | 154349/371472 [1:11:59<17:28:18,  3.45it/s] 42%|████▏     | 154350/371472 [1:11:59<16:47:44,  3.59it/s] 42%|████▏     | 154351/371472 [1:12:00<16:34:05,  3.64it/s] 42%|████▏     | 154352/371472 [1:12:00<16:11:01,  3.73it/s] 42%|████▏     | 154353/371472 [1:12:00<16:16:06,  3.71it/s] 42%|████▏     | 154354/371472 [1:12:00<16:19:53,  3.69it/s] 42%|████▏     | 154355/371472 [1:12:01<15:47:56,  3.82it/s] 42%|████▏     | 154356/371472 [1:12:01<15:58:29,  3.78it/s] 42%|████▏     | 154357/371472 [1:12:01<16:10:13,  3.73it/s] 42%|████▏     | 154358/371472 [1:12:01<15:58:40,  3.77it/s] 42%|████▏     | 154359/371472 [1:12:02<16:55:08,  3.56it/s] 42%|████▏     | 154360/371472 [1:12:02<16:51:54,  3.58it/s]                                                            {'loss': 3.1077, 'learning_rate': 6.263009330086836e-07, 'epoch': 6.65}
 42%|████▏     | 154360/371472 [1:12:02<16:51:54,  3.58it/s] 42%|████▏     | 154361/371472 [1:12:02<16:46:31,  3.60it/s] 42%|████▏     | 154362/371472 [1:12:02<16:16:31,  3.71it/s] 42%|████▏     | 154363/371472 [1:12:03<15:57:20,  3.78it/s] 42%|████▏     | 154364/371472 [1:12:03<16:29:21,  3.66it/s] 42%|████▏     | 154365/371472 [1:12:03<17:28:10,  3.45it/s] 42%|████▏     | 154366/371472 [1:12:04<17:17:48,  3.49it/s] 42%|████▏     | 154367/371472 [1:12:04<16:54:13,  3.57it/s] 42%|████▏     | 154368/371472 [1:12:04<16:43:57,  3.60it/s] 42%|████▏     | 154369/371472 [1:12:04<16:14:43,  3.71it/s] 42%|████▏     | 154370/371472 [1:12:05<16:31:59,  3.65it/s] 42%|████▏     | 154371/371472 [1:12:05<16:31:00,  3.65it/s] 42%|████▏     | 154372/371472 [1:12:05<15:59:29,  3.77it/s] 42%|████▏     | 154373/371472 [1:12:06<16:26:24,  3.67it/s] 42%|████▏     | 154374/371472 [1:12:06<16:49:56,  3.58it/s] 42%|████▏     | 154375/371472 [1:12:06<16:53:54,  3.57it/s] 42%|████▏     | 154376/371472 [1:12:06<16:54:45,  3.57it/s] 42%|████▏     | 154377/371472 [1:12:07<17:04:38,  3.53it/s] 42%|████▏     | 154378/371472 [1:12:07<18:00:53,  3.35it/s] 42%|████▏     | 154379/371472 [1:12:07<17:50:43,  3.38it/s] 42%|████▏     | 154380/371472 [1:12:08<18:14:15,  3.31it/s]                                                            {'loss': 3.1205, 'learning_rate': 6.262524510332047e-07, 'epoch': 6.65}
 42%|████▏     | 154380/371472 [1:12:08<18:14:15,  3.31it/s] 42%|████▏     | 154381/371472 [1:12:08<18:47:13,  3.21it/s] 42%|████▏     | 154382/371472 [1:12:08<17:58:13,  3.36it/s] 42%|████▏     | 154383/371472 [1:12:08<17:28:41,  3.45it/s] 42%|████▏     | 154384/371472 [1:12:09<19:04:34,  3.16it/s] 42%|████▏     | 154385/371472 [1:12:09<18:12:03,  3.31it/s] 42%|████▏     | 154386/371472 [1:12:09<17:02:58,  3.54it/s] 42%|████▏     | 154387/371472 [1:12:10<18:40:24,  3.23it/s] 42%|████▏     | 154388/371472 [1:12:10<18:22:27,  3.28it/s] 42%|████▏     | 154389/371472 [1:12:10<18:26:34,  3.27it/s] 42%|████▏     | 154390/371472 [1:12:11<17:30:35,  3.44it/s] 42%|████▏     | 154391/371472 [1:12:11<17:03:28,  3.54it/s] 42%|████▏     | 154392/371472 [1:12:11<17:04:26,  3.53it/s] 42%|████▏     | 154393/371472 [1:12:11<17:02:29,  3.54it/s] 42%|████▏     | 154394/371472 [1:12:12<17:48:24,  3.39it/s] 42%|████▏     | 154395/371472 [1:12:12<19:35:21,  3.08it/s] 42%|████▏     | 154396/371472 [1:12:12<18:49:01,  3.20it/s] 42%|████▏     | 154397/371472 [1:12:13<18:21:55,  3.28it/s] 42%|████▏     | 154398/371472 [1:12:13<18:02:55,  3.34it/s] 42%|████▏     | 154399/371472 [1:12:13<17:05:11,  3.53it/s] 42%|████▏     | 154400/371472 [1:12:14<17:15:15,  3.49it/s]                                                            {'loss': 3.2173, 'learning_rate': 6.262039690577259e-07, 'epoch': 6.65}
 42%|████▏     | 154400/371472 [1:12:14<17:15:15,  3.49it/s] 42%|████▏     | 154401/371472 [1:12:14<17:38:44,  3.42it/s] 42%|████▏     | 154402/371472 [1:12:14<16:52:52,  3.57it/s] 42%|████▏     | 154403/371472 [1:12:14<16:40:31,  3.62it/s] 42%|████▏     | 154404/371472 [1:12:15<16:00:52,  3.77it/s] 42%|████▏     | 154405/371472 [1:12:15<16:16:18,  3.71it/s] 42%|████▏     | 154406/371472 [1:12:15<16:14:22,  3.71it/s] 42%|████▏     | 154407/371472 [1:12:15<17:14:37,  3.50it/s] 42%|████▏     | 154408/371472 [1:12:16<18:32:25,  3.25it/s] 42%|████▏     | 154409/371472 [1:12:16<18:58:07,  3.18it/s] 42%|████▏     | 154410/371472 [1:12:16<18:15:52,  3.30it/s] 42%|████▏     | 154411/371472 [1:12:17<18:26:08,  3.27it/s] 42%|████▏     | 154412/371472 [1:12:17<19:18:00,  3.12it/s] 42%|████▏     | 154413/371472 [1:12:17<18:16:27,  3.30it/s] 42%|████▏     | 154414/371472 [1:12:18<17:50:04,  3.38it/s] 42%|████▏     | 154415/371472 [1:12:18<17:16:09,  3.49it/s] 42%|████▏     | 154416/371472 [1:12:18<17:31:10,  3.44it/s] 42%|████▏     | 154417/371472 [1:12:19<17:47:57,  3.39it/s] 42%|████▏     | 154418/371472 [1:12:19<17:02:24,  3.54it/s] 42%|████▏     | 154419/371472 [1:12:19<17:09:16,  3.51it/s] 42%|████▏     | 154420/371472 [1:12:19<17:32:00,  3.44it/s]                                                            {'loss': 3.2852, 'learning_rate': 6.26155487082247e-07, 'epoch': 6.65}
 42%|████▏     | 154420/371472 [1:12:19<17:32:00,  3.44it/s] 42%|████▏     | 154421/371472 [1:12:20<16:51:43,  3.58it/s] 42%|████▏     | 154422/371472 [1:12:20<16:44:13,  3.60it/s] 42%|████▏     | 154423/371472 [1:12:20<16:30:29,  3.65it/s] 42%|████▏     | 154424/371472 [1:12:20<16:25:52,  3.67it/s] 42%|████▏     | 154425/371472 [1:12:21<16:34:46,  3.64it/s] 42%|████▏     | 154426/371472 [1:12:21<17:24:35,  3.46it/s] 42%|████▏     | 154427/371472 [1:12:21<16:35:41,  3.63it/s] 42%|████▏     | 154428/371472 [1:12:22<16:41:05,  3.61it/s] 42%|████▏     | 154429/371472 [1:12:22<17:20:26,  3.48it/s] 42%|████▏     | 154430/371472 [1:12:22<17:00:00,  3.55it/s] 42%|████▏     | 154431/371472 [1:12:22<17:15:18,  3.49it/s] 42%|████▏     | 154432/371472 [1:12:23<16:34:49,  3.64it/s] 42%|████▏     | 154433/371472 [1:12:23<16:54:03,  3.57it/s] 42%|████▏     | 154434/371472 [1:12:23<17:24:35,  3.46it/s] 42%|████▏     | 154435/371472 [1:12:24<17:04:36,  3.53it/s] 42%|████▏     | 154436/371472 [1:12:24<16:59:42,  3.55it/s] 42%|████▏     | 154437/371472 [1:12:24<16:36:41,  3.63it/s] 42%|████▏     | 154438/371472 [1:12:24<17:37:31,  3.42it/s] 42%|████▏     | 154439/371472 [1:12:25<19:01:29,  3.17it/s] 42%|████▏     | 154440/371472 [1:12:25<18:10:04,  3.32it/s]                                                            {'loss': 3.0653, 'learning_rate': 6.261070051067681e-07, 'epoch': 6.65}
 42%|████▏     | 154440/371472 [1:12:25<18:10:04,  3.32it/s] 42%|████▏     | 154441/371472 [1:12:25<17:57:25,  3.36it/s] 42%|████▏     | 154442/371472 [1:12:26<17:13:15,  3.50it/s] 42%|████▏     | 154443/371472 [1:12:26<16:32:06,  3.65it/s] 42%|████▏     | 154444/371472 [1:12:26<16:56:56,  3.56it/s] 42%|████▏     | 154445/371472 [1:12:26<16:31:53,  3.65it/s] 42%|████▏     | 154446/371472 [1:12:27<16:11:50,  3.72it/s] 42%|████▏     | 154447/371472 [1:12:27<16:31:57,  3.65it/s] 42%|████▏     | 154448/371472 [1:12:27<15:53:59,  3.79it/s] 42%|████▏     | 154449/371472 [1:12:27<15:47:36,  3.82it/s] 42%|████▏     | 154450/371472 [1:12:28<15:34:43,  3.87it/s] 42%|████▏     | 154451/371472 [1:12:28<15:48:15,  3.81it/s] 42%|████▏     | 154452/371472 [1:12:28<15:44:57,  3.83it/s] 42%|████▏     | 154453/371472 [1:12:29<16:20:24,  3.69it/s] 42%|████▏     | 154454/371472 [1:12:29<15:44:04,  3.83it/s] 42%|████▏     | 154455/371472 [1:12:29<15:46:08,  3.82it/s] 42%|████▏     | 154456/371472 [1:12:29<16:29:14,  3.66it/s] 42%|████▏     | 154457/371472 [1:12:30<17:18:15,  3.48it/s] 42%|████▏     | 154458/371472 [1:12:30<17:23:33,  3.47it/s] 42%|████▏     | 154459/371472 [1:12:30<17:13:02,  3.50it/s] 42%|████▏     | 154460/371472 [1:12:30<16:40:29,  3.62it/s]                                                            {'loss': 3.3226, 'learning_rate': 6.260585231312892e-07, 'epoch': 6.65}
 42%|████▏     | 154460/371472 [1:12:30<16:40:29,  3.62it/s] 42%|████▏     | 154461/371472 [1:12:31<16:46:19,  3.59it/s] 42%|████▏     | 154462/371472 [1:12:31<16:37:10,  3.63it/s] 42%|████▏     | 154463/371472 [1:12:31<17:37:41,  3.42it/s] 42%|████▏     | 154464/371472 [1:12:32<16:48:34,  3.59it/s] 42%|████▏     | 154465/371472 [1:12:32<16:34:23,  3.64it/s] 42%|████▏     | 154466/371472 [1:12:32<16:45:33,  3.60it/s] 42%|████▏     | 154467/371472 [1:12:32<17:28:58,  3.45it/s] 42%|████▏     | 154468/371472 [1:12:33<17:14:00,  3.50it/s] 42%|████▏     | 154469/371472 [1:12:33<17:51:13,  3.38it/s] 42%|████▏     | 154470/371472 [1:12:33<18:48:06,  3.21it/s] 42%|████▏     | 154471/371472 [1:12:34<17:54:16,  3.37it/s] 42%|████▏     | 154472/371472 [1:12:34<17:05:23,  3.53it/s] 42%|████▏     | 154473/371472 [1:12:34<18:26:32,  3.27it/s] 42%|████▏     | 154474/371472 [1:12:35<17:54:08,  3.37it/s] 42%|████▏     | 154475/371472 [1:12:35<18:53:29,  3.19it/s] 42%|████▏     | 154476/371472 [1:12:35<18:09:47,  3.32it/s] 42%|████▏     | 154477/371472 [1:12:35<17:33:27,  3.43it/s] 42%|████▏     | 154478/371472 [1:12:36<17:35:12,  3.43it/s] 42%|████▏     | 154479/371472 [1:12:36<17:41:35,  3.41it/s] 42%|████▏     | 154480/371472 [1:12:36<17:21:18,  3.47it/s]                                                            {'loss': 3.2277, 'learning_rate': 6.260100411558102e-07, 'epoch': 6.65}
 42%|████▏     | 154480/371472 [1:12:36<17:21:18,  3.47it/s] 42%|████▏     | 154481/371472 [1:12:37<17:22:11,  3.47it/s] 42%|████▏     | 154482/371472 [1:12:37<17:12:39,  3.50it/s] 42%|████▏     | 154483/371472 [1:12:37<17:41:43,  3.41it/s] 42%|████▏     | 154484/371472 [1:12:37<16:51:12,  3.58it/s] 42%|████▏     | 154485/371472 [1:12:38<16:33:24,  3.64it/s] 42%|████▏     | 154486/371472 [1:12:38<17:02:18,  3.54it/s] 42%|████▏     | 154487/371472 [1:12:38<16:36:23,  3.63it/s] 42%|████▏     | 154488/371472 [1:12:39<17:42:39,  3.40it/s] 42%|████▏     | 154489/371472 [1:12:39<17:28:22,  3.45it/s] 42%|████▏     | 154490/371472 [1:12:39<18:27:25,  3.27it/s] 42%|████▏     | 154491/371472 [1:12:40<18:35:39,  3.24it/s] 42%|████▏     | 154492/371472 [1:12:40<18:10:51,  3.32it/s] 42%|████▏     | 154493/371472 [1:12:40<18:28:35,  3.26it/s] 42%|████▏     | 154494/371472 [1:12:40<17:42:09,  3.40it/s] 42%|████▏     | 154495/371472 [1:12:41<17:28:59,  3.45it/s] 42%|████▏     | 154496/371472 [1:12:41<17:14:52,  3.49it/s] 42%|████▏     | 154497/371472 [1:12:41<18:02:25,  3.34it/s] 42%|████▏     | 154498/371472 [1:12:42<16:58:46,  3.55it/s] 42%|████▏     | 154499/371472 [1:12:42<16:40:14,  3.62it/s] 42%|████▏     | 154500/371472 [1:12:42<16:31:34,  3.65it/s]                                                            {'loss': 3.1214, 'learning_rate': 6.259615591803314e-07, 'epoch': 6.65}
 42%|████▏     | 154500/371472 [1:12:42<16:31:34,  3.65it/s] 42%|████▏     | 154501/371472 [1:12:42<16:58:55,  3.55it/s] 42%|████▏     | 154502/371472 [1:12:43<17:09:22,  3.51it/s] 42%|████▏     | 154503/371472 [1:12:43<17:17:12,  3.49it/s] 42%|████▏     | 154504/371472 [1:12:43<16:51:07,  3.58it/s] 42%|████▏     | 154505/371472 [1:12:43<16:23:35,  3.68it/s] 42%|████▏     | 154506/371472 [1:12:44<16:25:07,  3.67it/s] 42%|████▏     | 154507/371472 [1:12:44<16:10:16,  3.73it/s] 42%|████▏     | 154508/371472 [1:12:44<16:56:23,  3.56it/s] 42%|████▏     | 154509/371472 [1:12:45<18:19:00,  3.29it/s] 42%|████▏     | 154510/371472 [1:12:45<17:35:23,  3.43it/s] 42%|████▏     | 154511/371472 [1:12:45<17:02:45,  3.54it/s] 42%|████▏     | 154512/371472 [1:12:45<16:12:02,  3.72it/s] 42%|████▏     | 154513/371472 [1:12:46<16:04:40,  3.75it/s] 42%|████▏     | 154514/371472 [1:12:46<15:54:38,  3.79it/s] 42%|████▏     | 154515/371472 [1:12:46<15:44:01,  3.83it/s] 42%|████▏     | 154516/371472 [1:12:46<16:03:24,  3.75it/s] 42%|████▏     | 154517/371472 [1:12:47<16:09:02,  3.73it/s] 42%|████▏     | 154518/371472 [1:12:47<16:13:13,  3.72it/s] 42%|████▏     | 154519/371472 [1:12:47<16:14:36,  3.71it/s] 42%|████▏     | 154520/371472 [1:12:48<15:40:45,  3.84it/s]                                                            {'loss': 3.3515, 'learning_rate': 6.259130772048525e-07, 'epoch': 6.66}
 42%|████▏     | 154520/371472 [1:12:48<15:40:45,  3.84it/s] 42%|████▏     | 154521/371472 [1:12:48<16:39:00,  3.62it/s] 42%|████▏     | 154522/371472 [1:12:48<16:37:37,  3.62it/s] 42%|████▏     | 154523/371472 [1:12:48<18:00:20,  3.35it/s] 42%|████▏     | 154524/371472 [1:12:49<17:57:51,  3.35it/s] 42%|████▏     | 154525/371472 [1:12:49<17:42:55,  3.40it/s] 42%|████▏     | 154526/371472 [1:12:49<17:25:51,  3.46it/s] 42%|████▏     | 154527/371472 [1:12:50<17:27:21,  3.45it/s] 42%|████▏     | 154528/371472 [1:12:50<17:51:46,  3.37it/s] 42%|████▏     | 154529/371472 [1:12:50<17:24:29,  3.46it/s] 42%|████▏     | 154530/371472 [1:12:51<17:25:33,  3.46it/s] 42%|████▏     | 154531/371472 [1:12:51<16:47:46,  3.59it/s] 42%|████▏     | 154532/371472 [1:12:51<16:59:44,  3.55it/s] 42%|████▏     | 154533/371472 [1:12:51<17:33:01,  3.43it/s] 42%|████▏     | 154534/371472 [1:12:52<17:06:26,  3.52it/s] 42%|████▏     | 154535/371472 [1:12:52<17:17:42,  3.48it/s] 42%|████▏     | 154536/371472 [1:12:52<17:38:23,  3.42it/s] 42%|████▏     | 154537/371472 [1:12:52<17:03:42,  3.53it/s] 42%|████▏     | 154538/371472 [1:12:53<16:33:41,  3.64it/s] 42%|████▏     | 154539/371472 [1:12:53<16:23:46,  3.68it/s] 42%|████▏     | 154540/371472 [1:12:53<16:58:07,  3.55it/s]                                                            {'loss': 3.1365, 'learning_rate': 6.258645952293735e-07, 'epoch': 6.66}
 42%|████▏     | 154540/371472 [1:12:53<16:58:07,  3.55it/s] 42%|████▏     | 154541/371472 [1:12:54<17:00:26,  3.54it/s] 42%|████▏     | 154542/371472 [1:12:54<16:26:07,  3.67it/s] 42%|████▏     | 154543/371472 [1:12:54<16:58:59,  3.55it/s] 42%|████▏     | 154544/371472 [1:12:54<16:20:47,  3.69it/s] 42%|████▏     | 154545/371472 [1:12:55<16:37:25,  3.62it/s] 42%|████▏     | 154546/371472 [1:12:55<16:16:58,  3.70it/s] 42%|████▏     | 154547/371472 [1:12:55<16:08:49,  3.73it/s] 42%|████▏     | 154548/371472 [1:12:55<15:53:01,  3.79it/s] 42%|████▏     | 154549/371472 [1:12:56<17:43:36,  3.40it/s] 42%|████▏     | 154550/371472 [1:12:56<17:50:55,  3.38it/s] 42%|████▏     | 154551/371472 [1:12:56<17:29:25,  3.45it/s] 42%|████▏     | 154552/371472 [1:12:57<17:45:23,  3.39it/s] 42%|████▏     | 154553/371472 [1:12:57<17:29:35,  3.44it/s] 42%|████▏     | 154554/371472 [1:12:57<17:38:00,  3.42it/s] 42%|████▏     | 154555/371472 [1:12:58<17:02:26,  3.54it/s] 42%|████▏     | 154556/371472 [1:12:58<17:04:29,  3.53it/s] 42%|████▏     | 154557/371472 [1:12:58<17:43:22,  3.40it/s] 42%|████▏     | 154558/371472 [1:12:58<17:55:57,  3.36it/s] 42%|████▏     | 154559/371472 [1:12:59<19:32:33,  3.08it/s] 42%|████▏     | 154560/371472 [1:12:59<20:11:04,  2.99it/s]                                                            {'loss': 3.1181, 'learning_rate': 6.258161132538947e-07, 'epoch': 6.66}
 42%|████▏     | 154560/371472 [1:12:59<20:11:04,  2.99it/s] 42%|████▏     | 154561/371472 [1:13:00<19:49:52,  3.04it/s] 42%|████▏     | 154562/371472 [1:13:00<19:11:51,  3.14it/s] 42%|████▏     | 154563/371472 [1:13:00<18:10:58,  3.31it/s] 42%|████▏     | 154564/371472 [1:13:00<17:16:35,  3.49it/s] 42%|████▏     | 154565/371472 [1:13:01<17:06:42,  3.52it/s] 42%|████▏     | 154566/371472 [1:13:01<16:55:20,  3.56it/s] 42%|████▏     | 154567/371472 [1:13:01<17:17:13,  3.49it/s] 42%|████▏     | 154568/371472 [1:13:01<16:54:23,  3.56it/s] 42%|████▏     | 154569/371472 [1:13:02<16:21:47,  3.68it/s] 42%|████▏     | 154570/371472 [1:13:02<16:17:46,  3.70it/s] 42%|████▏     | 154571/371472 [1:13:02<16:21:37,  3.68it/s] 42%|████▏     | 154572/371472 [1:13:03<16:22:07,  3.68it/s] 42%|████▏     | 154573/371472 [1:13:03<16:44:39,  3.60it/s] 42%|████▏     | 154574/371472 [1:13:03<17:04:28,  3.53it/s] 42%|████▏     | 154575/371472 [1:13:03<18:08:15,  3.32it/s] 42%|████▏     | 154576/371472 [1:13:04<20:40:29,  2.91it/s] 42%|████▏     | 154577/371472 [1:13:04<18:59:02,  3.17it/s] 42%|████▏     | 154578/371472 [1:13:04<18:05:03,  3.33it/s] 42%|████▏     | 154579/371472 [1:13:05<17:25:48,  3.46it/s] 42%|████▏     | 154580/371472 [1:13:05<16:52:46,  3.57it/s]                                                            {'loss': 3.1179, 'learning_rate': 6.257676312784158e-07, 'epoch': 6.66}
 42%|████▏     | 154580/371472 [1:13:05<16:52:46,  3.57it/s] 42%|████▏     | 154581/371472 [1:13:05<16:38:03,  3.62it/s] 42%|████▏     | 154582/371472 [1:13:05<17:10:08,  3.51it/s] 42%|████▏     | 154583/371472 [1:13:06<20:21:46,  2.96it/s] 42%|████▏     | 154584/371472 [1:13:06<19:00:48,  3.17it/s] 42%|████▏     | 154585/371472 [1:13:06<17:55:54,  3.36it/s] 42%|████▏     | 154586/371472 [1:13:07<17:31:33,  3.44it/s] 42%|████▏     | 154587/371472 [1:13:07<17:23:22,  3.46it/s] 42%|████▏     | 154588/371472 [1:13:07<16:42:34,  3.61it/s] 42%|████▏     | 154589/371472 [1:13:08<16:44:41,  3.60it/s] 42%|████▏     | 154590/371472 [1:13:08<17:37:06,  3.42it/s] 42%|████▏     | 154591/371472 [1:13:08<18:16:06,  3.30it/s] 42%|████▏     | 154592/371472 [1:13:09<18:03:13,  3.34it/s] 42%|████▏     | 154593/371472 [1:13:09<17:26:02,  3.46it/s] 42%|████▏     | 154594/371472 [1:13:09<17:28:26,  3.45it/s] 42%|████▏     | 154595/371472 [1:13:09<16:27:37,  3.66it/s] 42%|████▏     | 154596/371472 [1:13:10<16:23:28,  3.68it/s] 42%|████▏     | 154597/371472 [1:13:10<16:44:15,  3.60it/s] 42%|████▏     | 154598/371472 [1:13:10<16:43:32,  3.60it/s] 42%|████▏     | 154599/371472 [1:13:10<16:37:27,  3.62it/s] 42%|████▏     | 154600/371472 [1:13:11<16:36:44,  3.63it/s]                                                            {'loss': 3.2806, 'learning_rate': 6.257191493029368e-07, 'epoch': 6.66}
 42%|████▏     | 154600/371472 [1:13:11<16:36:44,  3.63it/s] 42%|████▏     | 154601/371472 [1:13:11<16:39:27,  3.62it/s] 42%|████▏     | 154602/371472 [1:13:11<17:21:49,  3.47it/s] 42%|████▏     | 154603/371472 [1:13:12<17:27:00,  3.45it/s] 42%|████▏     | 154604/371472 [1:13:12<17:50:08,  3.38it/s] 42%|████▏     | 154605/371472 [1:13:12<16:49:30,  3.58it/s] 42%|████▏     | 154606/371472 [1:13:12<17:37:41,  3.42it/s] 42%|████▏     | 154607/371472 [1:13:13<17:08:45,  3.51it/s] 42%|████▏     | 154608/371472 [1:13:13<17:21:38,  3.47it/s] 42%|████▏     | 154609/371472 [1:13:13<16:26:02,  3.67it/s] 42%|████▏     | 154610/371472 [1:13:14<16:39:55,  3.61it/s] 42%|████▏     | 154611/371472 [1:13:14<16:39:24,  3.62it/s] 42%|████▏     | 154612/371472 [1:13:14<17:34:33,  3.43it/s] 42%|████▏     | 154613/371472 [1:13:14<17:00:43,  3.54it/s] 42%|████▏     | 154614/371472 [1:13:15<17:22:34,  3.47it/s] 42%|████▏     | 154615/371472 [1:13:15<17:19:59,  3.48it/s] 42%|████▏     | 154616/371472 [1:13:15<17:38:06,  3.42it/s] 42%|████▏     | 154617/371472 [1:13:16<17:59:09,  3.35it/s] 42%|████▏     | 154618/371472 [1:13:16<17:20:58,  3.47it/s] 42%|████▏     | 154619/371472 [1:13:16<17:32:04,  3.44it/s] 42%|████▏     | 154620/371472 [1:13:16<18:18:52,  3.29it/s]                                                            {'loss': 3.1421, 'learning_rate': 6.25670667327458e-07, 'epoch': 6.66}
 42%|████▏     | 154620/371472 [1:13:16<18:18:52,  3.29it/s] 42%|████▏     | 154621/371472 [1:13:17<17:58:45,  3.35it/s] 42%|████▏     | 154622/371472 [1:13:17<17:27:28,  3.45it/s] 42%|████▏     | 154623/371472 [1:13:17<16:59:55,  3.54it/s] 42%|████▏     | 154624/371472 [1:13:18<16:53:20,  3.57it/s] 42%|████▏     | 154625/371472 [1:13:18<16:41:06,  3.61it/s] 42%|████▏     | 154626/371472 [1:13:18<16:38:46,  3.62it/s] 42%|████▏     | 154627/371472 [1:13:18<16:29:51,  3.65it/s] 42%|████▏     | 154628/371472 [1:13:19<15:54:57,  3.78it/s] 42%|████▏     | 154629/371472 [1:13:19<16:27:48,  3.66it/s] 42%|████▏     | 154630/371472 [1:13:19<17:09:26,  3.51it/s] 42%|████▏     | 154631/371472 [1:13:20<16:45:44,  3.59it/s] 42%|████▏     | 154632/371472 [1:13:20<16:25:42,  3.67it/s] 42%|████▏     | 154633/371472 [1:13:20<17:14:51,  3.49it/s] 42%|████▏     | 154634/371472 [1:13:20<17:15:04,  3.49it/s] 42%|████▏     | 154635/371472 [1:13:21<16:42:26,  3.61it/s] 42%|████▏     | 154636/371472 [1:13:21<15:56:40,  3.78it/s] 42%|████▏     | 154637/371472 [1:13:21<16:06:21,  3.74it/s] 42%|████▏     | 154638/371472 [1:13:21<16:17:41,  3.70it/s] 42%|████▏     | 154639/371472 [1:13:22<15:57:35,  3.77it/s] 42%|████▏     | 154640/371472 [1:13:22<16:22:46,  3.68it/s]                                                            {'loss': 3.0486, 'learning_rate': 6.256221853519792e-07, 'epoch': 6.66}
 42%|████▏     | 154640/371472 [1:13:22<16:22:46,  3.68it/s] 42%|████▏     | 154641/371472 [1:13:22<16:53:42,  3.56it/s] 42%|████▏     | 154642/371472 [1:13:23<18:30:52,  3.25it/s] 42%|████▏     | 154643/371472 [1:13:23<18:15:55,  3.30it/s] 42%|████▏     | 154644/371472 [1:13:23<17:36:47,  3.42it/s] 42%|████▏     | 154645/371472 [1:13:23<16:56:41,  3.55it/s] 42%|████▏     | 154646/371472 [1:13:24<17:24:39,  3.46it/s] 42%|████▏     | 154647/371472 [1:13:24<17:04:18,  3.53it/s] 42%|████▏     | 154648/371472 [1:13:24<16:53:46,  3.56it/s] 42%|████▏     | 154649/371472 [1:13:25<18:46:43,  3.21it/s] 42%|████▏     | 154650/371472 [1:13:25<18:03:47,  3.33it/s] 42%|████▏     | 154651/371472 [1:13:25<17:41:38,  3.40it/s] 42%|████▏     | 154652/371472 [1:13:26<17:22:17,  3.47it/s] 42%|████▏     | 154653/371472 [1:13:26<17:46:57,  3.39it/s] 42%|████▏     | 154654/371472 [1:13:26<17:45:36,  3.39it/s] 42%|████▏     | 154655/371472 [1:13:26<17:09:21,  3.51it/s] 42%|████▏     | 154656/371472 [1:13:27<16:25:28,  3.67it/s] 42%|████▏     | 154657/371472 [1:13:27<16:29:44,  3.65it/s] 42%|████▏     | 154658/371472 [1:13:27<16:22:36,  3.68it/s] 42%|████▏     | 154659/371472 [1:13:27<16:29:43,  3.65it/s] 42%|████▏     | 154660/371472 [1:13:28<16:40:09,  3.61it/s]                                                            {'loss': 3.2139, 'learning_rate': 6.255737033765002e-07, 'epoch': 6.66}
 42%|████▏     | 154660/371472 [1:13:28<16:40:09,  3.61it/s] 42%|████▏     | 154661/371472 [1:13:28<17:12:53,  3.50it/s] 42%|████▏     | 154662/371472 [1:13:28<17:05:15,  3.52it/s] 42%|████▏     | 154663/371472 [1:13:29<16:31:50,  3.64it/s] 42%|████▏     | 154664/371472 [1:13:29<16:30:21,  3.65it/s] 42%|████▏     | 154665/371472 [1:13:29<16:11:46,  3.72it/s] 42%|████▏     | 154666/371472 [1:13:29<15:47:32,  3.81it/s] 42%|████▏     | 154667/371472 [1:13:30<17:26:14,  3.45it/s] 42%|████▏     | 154668/371472 [1:13:30<16:32:17,  3.64it/s] 42%|████▏     | 154669/371472 [1:13:30<16:48:39,  3.58it/s] 42%|████▏     | 154670/371472 [1:13:30<16:43:56,  3.60it/s] 42%|████▏     | 154671/371472 [1:13:31<16:35:06,  3.63it/s] 42%|████▏     | 154672/371472 [1:13:31<16:28:41,  3.65it/s] 42%|████▏     | 154673/371472 [1:13:31<16:46:22,  3.59it/s] 42%|████▏     | 154674/371472 [1:13:32<16:09:57,  3.73it/s] 42%|████▏     | 154675/371472 [1:13:32<16:28:43,  3.65it/s] 42%|████▏     | 154676/371472 [1:13:32<16:05:34,  3.74it/s] 42%|████▏     | 154677/371472 [1:13:32<16:09:37,  3.73it/s] 42%|████▏     | 154678/371472 [1:13:33<16:40:02,  3.61it/s] 42%|████▏     | 154679/371472 [1:13:33<16:18:52,  3.69it/s] 42%|████▏     | 154680/371472 [1:13:33<16:15:26,  3.70it/s]                                                            {'loss': 3.1757, 'learning_rate': 6.255252214010213e-07, 'epoch': 6.66}
 42%|████▏     | 154680/371472 [1:13:33<16:15:26,  3.70it/s] 42%|████▏     | 154681/371472 [1:13:33<16:24:02,  3.67it/s] 42%|████▏     | 154682/371472 [1:13:34<16:05:22,  3.74it/s] 42%|████▏     | 154683/371472 [1:13:34<16:32:23,  3.64it/s] 42%|████▏     | 154684/371472 [1:13:34<16:30:27,  3.65it/s] 42%|████▏     | 154685/371472 [1:13:35<16:02:06,  3.76it/s] 42%|████▏     | 154686/371472 [1:13:35<16:29:01,  3.65it/s] 42%|████▏     | 154687/371472 [1:13:35<16:20:02,  3.69it/s] 42%|████▏     | 154688/371472 [1:13:35<16:15:08,  3.71it/s] 42%|████▏     | 154689/371472 [1:13:36<16:29:13,  3.65it/s] 42%|████▏     | 154690/371472 [1:13:36<16:58:54,  3.55it/s] 42%|████▏     | 154691/371472 [1:13:36<16:52:56,  3.57it/s] 42%|████▏     | 154692/371472 [1:13:37<16:53:20,  3.57it/s] 42%|████▏     | 154693/371472 [1:13:37<18:15:32,  3.30it/s] 42%|████▏     | 154694/371472 [1:13:37<17:52:36,  3.37it/s] 42%|████▏     | 154695/371472 [1:13:37<17:35:19,  3.42it/s] 42%|████▏     | 154696/371472 [1:13:38<17:37:32,  3.42it/s] 42%|████▏     | 154697/371472 [1:13:38<17:11:56,  3.50it/s] 42%|████▏     | 154698/371472 [1:13:38<16:35:30,  3.63it/s] 42%|████▏     | 154699/371472 [1:13:39<16:55:23,  3.56it/s] 42%|████▏     | 154700/371472 [1:13:39<16:52:02,  3.57it/s]                                                            {'loss': 3.2003, 'learning_rate': 6.254767394255425e-07, 'epoch': 6.66}
 42%|████▏     | 154700/371472 [1:13:39<16:52:02,  3.57it/s] 42%|████▏     | 154701/371472 [1:13:39<17:27:24,  3.45it/s] 42%|████▏     | 154702/371472 [1:13:39<17:01:35,  3.54it/s] 42%|████▏     | 154703/371472 [1:13:40<16:34:28,  3.63it/s] 42%|████▏     | 154704/371472 [1:13:40<16:42:19,  3.60it/s] 42%|████▏     | 154705/371472 [1:13:40<16:35:36,  3.63it/s] 42%|████▏     | 154706/371472 [1:13:40<16:14:36,  3.71it/s] 42%|████▏     | 154707/371472 [1:13:41<16:06:49,  3.74it/s] 42%|████▏     | 154708/371472 [1:13:41<15:43:55,  3.83it/s] 42%|████▏     | 154709/371472 [1:13:41<17:29:28,  3.44it/s] 42%|████▏     | 154710/371472 [1:13:42<17:10:13,  3.51it/s] 42%|████▏     | 154711/371472 [1:13:42<17:25:10,  3.46it/s] 42%|████▏     | 154712/371472 [1:13:42<17:30:47,  3.44it/s] 42%|████▏     | 154713/371472 [1:13:43<17:49:49,  3.38it/s] 42%|████▏     | 154714/371472 [1:13:43<18:26:04,  3.27it/s] 42%|████▏     | 154715/371472 [1:13:43<17:58:58,  3.35it/s] 42%|████▏     | 154716/371472 [1:13:43<17:53:43,  3.36it/s] 42%|████▏     | 154717/371472 [1:13:44<18:19:17,  3.29it/s] 42%|████▏     | 154718/371472 [1:13:44<17:46:40,  3.39it/s] 42%|████▏     | 154719/371472 [1:13:44<17:15:20,  3.49it/s] 42%|████▏     | 154720/371472 [1:13:45<17:11:03,  3.50it/s]                                                            {'loss': 3.2373, 'learning_rate': 6.254282574500635e-07, 'epoch': 6.66}
 42%|████▏     | 154720/371472 [1:13:45<17:11:03,  3.50it/s] 42%|████▏     | 154721/371472 [1:13:45<16:47:46,  3.58it/s] 42%|████▏     | 154722/371472 [1:13:45<16:28:14,  3.66it/s] 42%|████▏     | 154723/371472 [1:13:45<16:23:06,  3.67it/s] 42%|████▏     | 154724/371472 [1:13:46<16:31:08,  3.64it/s] 42%|████▏     | 154725/371472 [1:13:46<16:27:00,  3.66it/s] 42%|████▏     | 154726/371472 [1:13:46<16:53:39,  3.56it/s] 42%|████▏     | 154727/371472 [1:13:46<16:35:41,  3.63it/s] 42%|████▏     | 154728/371472 [1:13:47<17:43:43,  3.40it/s] 42%|████▏     | 154729/371472 [1:13:47<17:39:07,  3.41it/s] 42%|████▏     | 154730/371472 [1:13:47<19:31:57,  3.08it/s] 42%|████▏     | 154731/371472 [1:13:48<18:48:46,  3.20it/s] 42%|████▏     | 154732/371472 [1:13:48<18:17:15,  3.29it/s] 42%|████▏     | 154733/371472 [1:13:48<18:54:36,  3.18it/s] 42%|████▏     | 154734/371472 [1:13:49<18:08:53,  3.32it/s] 42%|████▏     | 154735/371472 [1:13:49<17:55:08,  3.36it/s] 42%|████▏     | 154736/371472 [1:13:49<17:26:03,  3.45it/s] 42%|████▏     | 154737/371472 [1:13:50<18:12:46,  3.31it/s] 42%|████▏     | 154738/371472 [1:13:50<18:00:34,  3.34it/s] 42%|████▏     | 154739/371472 [1:13:50<17:23:49,  3.46it/s] 42%|████▏     | 154740/371472 [1:13:50<17:10:31,  3.51it/s]                                                            {'loss': 3.0971, 'learning_rate': 6.253797754745846e-07, 'epoch': 6.66}
 42%|████▏     | 154740/371472 [1:13:50<17:10:31,  3.51it/s] 42%|████▏     | 154741/371472 [1:13:51<17:06:10,  3.52it/s] 42%|████▏     | 154742/371472 [1:13:51<16:37:27,  3.62it/s] 42%|████▏     | 154743/371472 [1:13:51<17:17:36,  3.48it/s] 42%|████▏     | 154744/371472 [1:13:52<16:55:55,  3.56it/s] 42%|████▏     | 154745/371472 [1:13:52<16:34:38,  3.63it/s] 42%|████▏     | 154746/371472 [1:13:52<16:21:48,  3.68it/s] 42%|████▏     | 154747/371472 [1:13:52<17:44:26,  3.39it/s] 42%|████▏     | 154748/371472 [1:13:53<16:52:43,  3.57it/s] 42%|████▏     | 154749/371472 [1:13:53<17:07:47,  3.51it/s] 42%|████▏     | 154750/371472 [1:13:53<16:54:27,  3.56it/s] 42%|████▏     | 154751/371472 [1:13:53<17:06:42,  3.52it/s] 42%|████▏     | 154752/371472 [1:13:54<16:59:01,  3.54it/s] 42%|████▏     | 154753/371472 [1:13:54<17:22:22,  3.47it/s] 42%|████▏     | 154754/371472 [1:13:54<17:28:38,  3.44it/s] 42%|████▏     | 154755/371472 [1:13:55<17:12:19,  3.50it/s] 42%|████▏     | 154756/371472 [1:13:55<16:52:36,  3.57it/s] 42%|████▏     | 154757/371472 [1:13:55<16:42:58,  3.60it/s] 42%|████▏     | 154758/371472 [1:13:55<16:18:07,  3.69it/s] 42%|████▏     | 154759/371472 [1:13:56<16:04:03,  3.75it/s] 42%|████▏     | 154760/371472 [1:13:56<17:05:36,  3.52it/s]                                                            {'loss': 3.2408, 'learning_rate': 6.253312934991057e-07, 'epoch': 6.67}
 42%|████▏     | 154760/371472 [1:13:56<17:05:36,  3.52it/s] 42%|████▏     | 154761/371472 [1:13:56<16:32:11,  3.64it/s] 42%|████▏     | 154762/371472 [1:13:57<16:22:03,  3.68it/s] 42%|████▏     | 154763/371472 [1:13:57<17:01:05,  3.54it/s] 42%|████▏     | 154764/371472 [1:13:57<17:47:10,  3.38it/s] 42%|████▏     | 154765/371472 [1:13:57<17:34:08,  3.43it/s] 42%|████▏     | 154766/371472 [1:13:58<17:20:56,  3.47it/s] 42%|████▏     | 154767/371472 [1:13:58<16:55:35,  3.56it/s] 42%|████▏     | 154768/371472 [1:13:58<16:50:13,  3.58it/s] 42%|████▏     | 154769/371472 [1:13:59<16:36:38,  3.62it/s] 42%|████▏     | 154770/371472 [1:13:59<16:55:55,  3.56it/s] 42%|████▏     | 154771/371472 [1:13:59<16:36:06,  3.63it/s] 42%|████▏     | 154772/371472 [1:13:59<16:08:18,  3.73it/s] 42%|████▏     | 154773/371472 [1:14:00<17:33:52,  3.43it/s] 42%|████▏     | 154774/371472 [1:14:00<16:54:07,  3.56it/s] 42%|████▏     | 154775/371472 [1:14:00<16:33:57,  3.63it/s] 42%|████▏     | 154776/371472 [1:14:00<16:00:15,  3.76it/s] 42%|████▏     | 154777/371472 [1:14:01<15:56:27,  3.78it/s] 42%|████▏     | 154778/371472 [1:14:01<17:41:31,  3.40it/s] 42%|████▏     | 154779/371472 [1:14:01<17:02:08,  3.53it/s] 42%|████▏     | 154780/371472 [1:14:02<16:43:35,  3.60it/s]                                                            {'loss': 3.082, 'learning_rate': 6.252828115236269e-07, 'epoch': 6.67}
 42%|████▏     | 154780/371472 [1:14:02<16:43:35,  3.60it/s] 42%|████▏     | 154781/371472 [1:14:02<16:30:48,  3.65it/s] 42%|████▏     | 154782/371472 [1:14:02<16:34:00,  3.63it/s] 42%|████▏     | 154783/371472 [1:14:02<16:24:02,  3.67it/s] 42%|████▏     | 154784/371472 [1:14:03<16:12:43,  3.71it/s] 42%|████▏     | 154785/371472 [1:14:03<16:35:17,  3.63it/s] 42%|████▏     | 154786/371472 [1:14:03<16:41:57,  3.60it/s] 42%|████▏     | 154787/371472 [1:14:03<16:00:34,  3.76it/s] 42%|████▏     | 154788/371472 [1:14:04<16:44:55,  3.59it/s] 42%|████▏     | 154789/371472 [1:14:04<18:36:01,  3.24it/s] 42%|████▏     | 154790/371472 [1:14:04<18:07:11,  3.32it/s] 42%|████▏     | 154791/371472 [1:14:05<18:12:35,  3.31it/s] 42%|████▏     | 154792/371472 [1:14:05<17:44:27,  3.39it/s] 42%|████▏     | 154793/371472 [1:14:05<17:13:19,  3.49it/s] 42%|████▏     | 154794/371472 [1:14:06<16:59:23,  3.54it/s] 42%|████▏     | 154795/371472 [1:14:06<16:28:03,  3.65it/s] 42%|████▏     | 154796/371472 [1:14:06<16:16:43,  3.70it/s] 42%|████▏     | 154797/371472 [1:14:06<16:49:19,  3.58it/s] 42%|████▏     | 154798/371472 [1:14:07<16:52:33,  3.57it/s] 42%|████▏     | 154799/371472 [1:14:07<17:15:40,  3.49it/s] 42%|████▏     | 154800/371472 [1:14:07<17:09:30,  3.51it/s]                                                            {'loss': 3.1439, 'learning_rate': 6.25234329548148e-07, 'epoch': 6.67}
 42%|████▏     | 154800/371472 [1:14:07<17:09:30,  3.51it/s] 42%|████▏     | 154801/371472 [1:14:08<17:51:23,  3.37it/s] 42%|████▏     | 154802/371472 [1:14:08<17:53:02,  3.37it/s] 42%|████▏     | 154803/371472 [1:14:08<18:02:50,  3.33it/s] 42%|████▏     | 154804/371472 [1:14:08<17:43:26,  3.40it/s] 42%|████▏     | 154805/371472 [1:14:09<17:47:33,  3.38it/s] 42%|████▏     | 154806/371472 [1:14:09<17:40:23,  3.41it/s] 42%|████▏     | 154807/371472 [1:14:09<17:12:10,  3.50it/s] 42%|████▏     | 154808/371472 [1:14:10<17:27:37,  3.45it/s] 42%|████▏     | 154809/371472 [1:14:10<17:16:57,  3.48it/s] 42%|████▏     | 154810/371472 [1:14:10<16:51:12,  3.57it/s] 42%|████▏     | 154811/371472 [1:14:10<16:32:01,  3.64it/s] 42%|████▏     | 154812/371472 [1:14:11<16:17:39,  3.69it/s] 42%|████▏     | 154813/371472 [1:14:11<16:23:55,  3.67it/s] 42%|████▏     | 154814/371472 [1:14:11<16:40:55,  3.61it/s] 42%|████▏     | 154815/371472 [1:14:12<17:03:17,  3.53it/s] 42%|████▏     | 154816/371472 [1:14:12<16:27:13,  3.66it/s] 42%|████▏     | 154817/371472 [1:14:12<17:01:41,  3.53it/s] 42%|████▏     | 154818/371472 [1:14:12<17:38:32,  3.41it/s] 42%|████▏     | 154819/371472 [1:14:13<18:45:50,  3.21it/s] 42%|████▏     | 154820/371472 [1:14:13<17:33:59,  3.43it/s]                                                            {'loss': 3.1558, 'learning_rate': 6.251858475726691e-07, 'epoch': 6.67}
 42%|████▏     | 154820/371472 [1:14:13<17:33:59,  3.43it/s] 42%|████▏     | 154821/371472 [1:14:13<16:56:19,  3.55it/s] 42%|████▏     | 154822/371472 [1:14:14<18:29:13,  3.26it/s] 42%|████▏     | 154823/371472 [1:14:14<17:54:27,  3.36it/s] 42%|████▏     | 154824/371472 [1:14:14<18:25:49,  3.27it/s] 42%|████▏     | 154825/371472 [1:14:15<18:27:34,  3.26it/s] 42%|████▏     | 154826/371472 [1:14:15<17:20:10,  3.47it/s] 42%|████▏     | 154827/371472 [1:14:15<16:40:51,  3.61it/s] 42%|████▏     | 154828/371472 [1:14:15<16:15:42,  3.70it/s] 42%|████▏     | 154829/371472 [1:14:16<17:38:31,  3.41it/s] 42%|████▏     | 154830/371472 [1:14:16<17:04:39,  3.52it/s] 42%|████▏     | 154831/371472 [1:14:16<16:36:07,  3.62it/s] 42%|████▏     | 154832/371472 [1:14:16<16:50:38,  3.57it/s] 42%|████▏     | 154833/371472 [1:14:17<16:59:50,  3.54it/s] 42%|████▏     | 154834/371472 [1:14:17<16:06:26,  3.74it/s] 42%|████▏     | 154835/371472 [1:14:17<15:32:54,  3.87it/s] 42%|████▏     | 154836/371472 [1:14:17<15:42:28,  3.83it/s] 42%|████▏     | 154837/371472 [1:14:18<15:48:58,  3.80it/s] 42%|████▏     | 154838/371472 [1:14:18<16:27:43,  3.66it/s] 42%|████▏     | 154839/371472 [1:14:18<17:05:30,  3.52it/s] 42%|████▏     | 154840/371472 [1:14:19<17:07:39,  3.51it/s]                                                            {'loss': 3.1907, 'learning_rate': 6.251373655971902e-07, 'epoch': 6.67}
 42%|████▏     | 154840/371472 [1:14:19<17:07:39,  3.51it/s] 42%|████▏     | 154841/371472 [1:14:19<17:35:13,  3.42it/s] 42%|████▏     | 154842/371472 [1:14:19<19:40:41,  3.06it/s] 42%|████▏     | 154843/371472 [1:14:20<18:43:32,  3.21it/s] 42%|████▏     | 154844/371472 [1:14:20<18:51:14,  3.19it/s] 42%|████▏     | 154845/371472 [1:14:20<18:12:11,  3.31it/s] 42%|████▏     | 154846/371472 [1:14:21<17:45:55,  3.39it/s] 42%|████▏     | 154847/371472 [1:14:21<16:50:07,  3.57it/s] 42%|████▏     | 154848/371472 [1:14:21<17:28:37,  3.44it/s] 42%|████▏     | 154849/371472 [1:14:21<17:49:02,  3.38it/s] 42%|████▏     | 154850/371472 [1:14:22<17:32:06,  3.43it/s] 42%|████▏     | 154851/371472 [1:14:22<17:04:50,  3.52it/s] 42%|████▏     | 154852/371472 [1:14:22<17:44:51,  3.39it/s] 42%|████▏     | 154853/371472 [1:14:23<16:54:26,  3.56it/s] 42%|████▏     | 154854/371472 [1:14:23<17:50:11,  3.37it/s] 42%|████▏     | 154855/371472 [1:14:23<17:12:48,  3.50it/s] 42%|████▏     | 154856/371472 [1:14:23<17:25:43,  3.45it/s] 42%|████▏     | 154857/371472 [1:14:24<17:49:54,  3.37it/s] 42%|████▏     | 154858/371472 [1:14:24<17:08:39,  3.51it/s] 42%|████▏     | 154859/371472 [1:14:24<16:54:57,  3.56it/s] 42%|████▏     | 154860/371472 [1:14:25<16:52:56,  3.56it/s]                                                            {'loss': 3.0592, 'learning_rate': 6.250888836217112e-07, 'epoch': 6.67}
 42%|████▏     | 154860/371472 [1:14:25<16:52:56,  3.56it/s] 42%|████▏     | 154861/371472 [1:14:25<16:39:31,  3.61it/s] 42%|████▏     | 154862/371472 [1:14:25<16:30:55,  3.64it/s] 42%|████▏     | 154863/371472 [1:14:25<17:44:37,  3.39it/s] 42%|████▏     | 154864/371472 [1:14:26<17:34:02,  3.43it/s] 42%|████▏     | 154865/371472 [1:14:26<17:33:10,  3.43it/s] 42%|████▏     | 154866/371472 [1:14:26<17:33:59,  3.43it/s] 42%|████▏     | 154867/371472 [1:14:27<17:35:02,  3.42it/s] 42%|████▏     | 154868/371472 [1:14:27<17:45:04,  3.39it/s] 42%|████▏     | 154869/371472 [1:14:27<17:06:29,  3.52it/s] 42%|████▏     | 154870/371472 [1:14:27<17:26:02,  3.45it/s] 42%|████▏     | 154871/371472 [1:14:28<16:31:43,  3.64it/s] 42%|████▏     | 154872/371472 [1:14:28<16:01:32,  3.75it/s] 42%|████▏     | 154873/371472 [1:14:28<16:23:56,  3.67it/s] 42%|████▏     | 154874/371472 [1:14:29<17:24:08,  3.46it/s] 42%|████▏     | 154875/371472 [1:14:29<16:50:50,  3.57it/s] 42%|████▏     | 154876/371472 [1:14:29<16:42:05,  3.60it/s] 42%|████▏     | 154877/371472 [1:14:29<16:56:11,  3.55it/s] 42%|████▏     | 154878/371472 [1:14:30<17:07:12,  3.51it/s] 42%|████▏     | 154879/371472 [1:14:30<16:22:10,  3.68it/s] 42%|████▏     | 154880/371472 [1:14:30<16:13:10,  3.71it/s]                                                            {'loss': 3.2385, 'learning_rate': 6.250404016462324e-07, 'epoch': 6.67}
 42%|████▏     | 154880/371472 [1:14:30<16:13:10,  3.71it/s] 42%|████▏     | 154881/371472 [1:14:31<17:59:47,  3.34it/s] 42%|████▏     | 154882/371472 [1:14:31<18:26:16,  3.26it/s] 42%|████▏     | 154883/371472 [1:14:31<17:44:25,  3.39it/s] 42%|████▏     | 154884/371472 [1:14:31<16:51:17,  3.57it/s] 42%|████▏     | 154885/371472 [1:14:32<17:03:54,  3.53it/s] 42%|████▏     | 154886/371472 [1:14:32<16:59:52,  3.54it/s] 42%|████▏     | 154887/371472 [1:14:32<16:38:25,  3.62it/s] 42%|████▏     | 154888/371472 [1:14:32<16:31:00,  3.64it/s] 42%|████▏     | 154889/371472 [1:14:33<16:02:15,  3.75it/s] 42%|████▏     | 154890/371472 [1:14:33<15:56:39,  3.77it/s] 42%|████▏     | 154891/371472 [1:14:33<15:51:46,  3.79it/s] 42%|████▏     | 154892/371472 [1:14:33<15:49:16,  3.80it/s] 42%|████▏     | 154893/371472 [1:14:34<16:06:19,  3.74it/s] 42%|████▏     | 154894/371472 [1:14:34<15:57:17,  3.77it/s] 42%|████▏     | 154895/371472 [1:14:34<15:43:08,  3.83it/s] 42%|████▏     | 154896/371472 [1:14:35<15:55:46,  3.78it/s] 42%|████▏     | 154897/371472 [1:14:35<16:27:55,  3.65it/s] 42%|████▏     | 154898/371472 [1:14:35<17:45:48,  3.39it/s] 42%|████▏     | 154899/371472 [1:14:35<16:55:19,  3.56it/s] 42%|████▏     | 154900/371472 [1:14:36<17:04:45,  3.52it/s]                                                            {'loss': 3.1615, 'learning_rate': 6.249919196707535e-07, 'epoch': 6.67}
 42%|████▏     | 154900/371472 [1:14:36<17:04:45,  3.52it/s] 42%|████▏     | 154901/371472 [1:14:36<17:45:47,  3.39it/s] 42%|████▏     | 154902/371472 [1:14:36<17:11:54,  3.50it/s] 42%|████▏     | 154903/371472 [1:14:37<17:02:29,  3.53it/s] 42%|████▏     | 154904/371472 [1:14:37<17:01:00,  3.54it/s] 42%|████▏     | 154905/371472 [1:14:37<17:51:28,  3.37it/s] 42%|████▏     | 154906/371472 [1:14:38<17:58:18,  3.35it/s] 42%|████▏     | 154907/371472 [1:14:38<17:18:44,  3.47it/s] 42%|████▏     | 154908/371472 [1:14:38<17:22:21,  3.46it/s] 42%|████▏     | 154909/371472 [1:14:38<17:53:09,  3.36it/s] 42%|████▏     | 154910/371472 [1:14:39<17:12:10,  3.50it/s] 42%|████▏     | 154911/371472 [1:14:39<18:12:10,  3.30it/s] 42%|████▏     | 154912/371472 [1:14:39<18:05:46,  3.32it/s] 42%|████▏     | 154913/371472 [1:14:40<18:49:31,  3.20it/s] 42%|████▏     | 154914/371472 [1:14:40<18:07:46,  3.32it/s] 42%|████▏     | 154915/371472 [1:14:40<17:33:15,  3.43it/s] 42%|████▏     | 154916/371472 [1:14:40<18:16:20,  3.29it/s] 42%|████▏     | 154917/371472 [1:14:41<18:15:10,  3.30it/s] 42%|████▏     | 154918/371472 [1:14:41<17:25:52,  3.45it/s] 42%|████▏     | 154919/371472 [1:14:41<17:06:22,  3.52it/s] 42%|████▏     | 154920/371472 [1:14:42<17:06:43,  3.52it/s]                                                            {'loss': 3.1266, 'learning_rate': 6.249434376952746e-07, 'epoch': 6.67}
 42%|████▏     | 154920/371472 [1:14:42<17:06:43,  3.52it/s] 42%|████▏     | 154921/371472 [1:14:42<16:35:41,  3.62it/s] 42%|████▏     | 154922/371472 [1:14:42<16:18:36,  3.69it/s] 42%|████▏     | 154923/371472 [1:14:42<16:12:26,  3.71it/s] 42%|████▏     | 154924/371472 [1:14:43<16:12:14,  3.71it/s] 42%|████▏     | 154925/371472 [1:14:43<17:03:18,  3.53it/s] 42%|████▏     | 154926/371472 [1:14:43<16:38:52,  3.61it/s] 42%|████▏     | 154927/371472 [1:14:43<16:15:03,  3.70it/s] 42%|████▏     | 154928/371472 [1:14:44<16:25:02,  3.66it/s] 42%|████▏     | 154929/371472 [1:14:44<16:04:30,  3.74it/s] 42%|████▏     | 154930/371472 [1:14:44<16:19:20,  3.69it/s] 42%|████▏     | 154931/371472 [1:14:45<16:32:26,  3.64it/s] 42%|████▏     | 154932/371472 [1:14:45<16:41:18,  3.60it/s] 42%|████▏     | 154933/371472 [1:14:45<18:11:44,  3.31it/s] 42%|████▏     | 154934/371472 [1:14:46<17:55:14,  3.36it/s] 42%|████▏     | 154935/371472 [1:14:46<17:49:57,  3.37it/s] 42%|████▏     | 154936/371472 [1:14:46<17:30:44,  3.43it/s] 42%|████▏     | 154937/371472 [1:14:46<17:37:50,  3.41it/s] 42%|████▏     | 154938/371472 [1:14:47<17:46:45,  3.38it/s] 42%|████▏     | 154939/371472 [1:14:47<18:49:51,  3.19it/s] 42%|████▏     | 154940/371472 [1:14:47<19:22:07,  3.11it/s]                                                            {'loss': 3.1531, 'learning_rate': 6.248949557197957e-07, 'epoch': 6.67}
 42%|████▏     | 154940/371472 [1:14:47<19:22:07,  3.11it/s] 42%|████▏     | 154941/371472 [1:14:48<18:21:53,  3.28it/s] 42%|████▏     | 154942/371472 [1:14:48<17:56:30,  3.35it/s] 42%|████▏     | 154943/371472 [1:14:48<17:36:03,  3.42it/s] 42%|████▏     | 154944/371472 [1:14:48<17:13:53,  3.49it/s] 42%|████▏     | 154945/371472 [1:14:49<16:57:48,  3.55it/s] 42%|████▏     | 154946/371472 [1:14:49<16:30:27,  3.64it/s] 42%|████▏     | 154947/371472 [1:14:49<17:05:36,  3.52it/s] 42%|████▏     | 154948/371472 [1:14:50<16:59:52,  3.54it/s] 42%|████▏     | 154949/371472 [1:14:50<17:09:52,  3.50it/s] 42%|████▏     | 154950/371472 [1:14:50<17:38:19,  3.41it/s] 42%|████▏     | 154951/371472 [1:14:50<17:12:44,  3.49it/s] 42%|████▏     | 154952/371472 [1:14:51<16:55:04,  3.56it/s] 42%|████▏     | 154953/371472 [1:14:51<17:26:49,  3.45it/s] 42%|████▏     | 154954/371472 [1:14:51<18:03:50,  3.33it/s] 42%|████▏     | 154955/371472 [1:14:52<17:21:16,  3.47it/s] 42%|████▏     | 154956/371472 [1:14:52<16:47:09,  3.58it/s] 42%|████▏     | 154957/371472 [1:14:52<17:39:15,  3.41it/s] 42%|████▏     | 154958/371472 [1:14:53<17:22:29,  3.46it/s] 42%|████▏     | 154959/371472 [1:14:53<17:13:03,  3.49it/s] 42%|████▏     | 154960/371472 [1:14:53<17:34:01,  3.42it/s]                                                            {'loss': 3.219, 'learning_rate': 6.248464737443169e-07, 'epoch': 6.67}
 42%|████▏     | 154960/371472 [1:14:53<17:34:01,  3.42it/s] 42%|████▏     | 154961/371472 [1:14:53<16:38:12,  3.61it/s] 42%|████▏     | 154962/371472 [1:14:54<17:10:57,  3.50it/s] 42%|████▏     | 154963/371472 [1:14:54<16:52:39,  3.56it/s] 42%|████▏     | 154964/371472 [1:14:54<16:43:25,  3.60it/s] 42%|████▏     | 154965/371472 [1:14:54<16:13:47,  3.71it/s] 42%|████▏     | 154966/371472 [1:14:55<16:10:15,  3.72it/s] 42%|████▏     | 154967/371472 [1:14:55<16:51:17,  3.57it/s] 42%|████▏     | 154968/371472 [1:14:55<16:32:54,  3.63it/s] 42%|████▏     | 154969/371472 [1:14:56<16:15:30,  3.70it/s] 42%|████▏     | 154970/371472 [1:14:56<16:54:39,  3.56it/s] 42%|████▏     | 154971/371472 [1:14:56<16:51:53,  3.57it/s] 42%|████▏     | 154972/371472 [1:14:56<17:13:39,  3.49it/s] 42%|████▏     | 154973/371472 [1:14:57<17:15:48,  3.48it/s] 42%|████▏     | 154974/371472 [1:14:57<17:36:40,  3.41it/s] 42%|████▏     | 154975/371472 [1:14:57<17:12:45,  3.49it/s] 42%|████▏     | 154976/371472 [1:14:58<16:43:40,  3.60it/s] 42%|████▏     | 154977/371472 [1:14:58<17:00:15,  3.54it/s] 42%|████▏     | 154978/371472 [1:14:58<16:17:08,  3.69it/s] 42%|████▏     | 154979/371472 [1:14:58<16:19:42,  3.68it/s] 42%|████▏     | 154980/371472 [1:14:59<17:05:46,  3.52it/s]                                                            {'loss': 3.1806, 'learning_rate': 6.247979917688379e-07, 'epoch': 6.68}
 42%|████▏     | 154980/371472 [1:14:59<17:05:46,  3.52it/s] 42%|████▏     | 154981/371472 [1:14:59<17:37:56,  3.41it/s] 42%|████▏     | 154982/371472 [1:14:59<17:47:59,  3.38it/s] 42%|████▏     | 154983/371472 [1:15:00<17:44:02,  3.39it/s] 42%|████▏     | 154984/371472 [1:15:00<17:47:07,  3.38it/s] 42%|████▏     | 154985/371472 [1:15:00<17:14:56,  3.49it/s] 42%|████▏     | 154986/371472 [1:15:00<16:54:09,  3.56it/s] 42%|████▏     | 154987/371472 [1:15:01<16:54:03,  3.56it/s] 42%|████▏     | 154988/371472 [1:15:01<16:46:17,  3.59it/s] 42%|████▏     | 154989/371472 [1:15:01<17:17:54,  3.48it/s] 42%|████▏     | 154990/371472 [1:15:02<17:42:46,  3.39it/s] 42%|████▏     | 154991/371472 [1:15:02<18:22:32,  3.27it/s] 42%|████▏     | 154992/371472 [1:15:02<17:46:16,  3.38it/s] 42%|████▏     | 154993/371472 [1:15:02<16:53:53,  3.56it/s] 42%|████▏     | 154994/371472 [1:15:03<16:37:12,  3.62it/s] 42%|████▏     | 154995/371472 [1:15:03<17:12:53,  3.49it/s] 42%|████▏     | 154996/371472 [1:15:03<18:35:52,  3.23it/s] 42%|████▏     | 154997/371472 [1:15:04<17:39:28,  3.41it/s] 42%|████▏     | 154998/371472 [1:15:04<16:59:59,  3.54it/s] 42%|████▏     | 154999/371472 [1:15:04<16:20:04,  3.68it/s] 42%|████▏     | 155000/371472 [1:15:04<15:54:25,  3.78it/s]                                                            {'loss': 3.2182, 'learning_rate': 6.24749509793359e-07, 'epoch': 6.68}
 42%|████▏     | 155000/371472 [1:15:04<15:54:25,  3.78it/s] 42%|████▏     | 155001/371472 [1:15:05<15:51:57,  3.79it/s] 42%|████▏     | 155002/371472 [1:15:05<15:58:34,  3.76it/s] 42%|████▏     | 155003/371472 [1:15:05<16:04:30,  3.74it/s] 42%|████▏     | 155004/371472 [1:15:05<16:37:42,  3.62it/s] 42%|████▏     | 155005/371472 [1:15:06<16:03:57,  3.74it/s] 42%|████▏     | 155006/371472 [1:15:06<15:56:02,  3.77it/s] 42%|████▏     | 155007/371472 [1:15:06<16:27:38,  3.65it/s] 42%|████▏     | 155008/371472 [1:15:07<15:44:31,  3.82it/s] 42%|████▏     | 155009/371472 [1:15:07<16:01:50,  3.75it/s] 42%|████▏     | 155010/371472 [1:15:07<15:32:23,  3.87it/s] 42%|████▏     | 155011/371472 [1:15:07<16:52:09,  3.56it/s] 42%|████▏     | 155012/371472 [1:15:08<18:30:23,  3.25it/s] 42%|████▏     | 155013/371472 [1:15:08<17:23:27,  3.46it/s] 42%|████▏     | 155014/371472 [1:15:08<16:17:43,  3.69it/s] 42%|████▏     | 155015/371472 [1:15:08<15:44:36,  3.82it/s] 42%|████▏     | 155016/371472 [1:15:09<16:18:18,  3.69it/s] 42%|████▏     | 155017/371472 [1:15:09<15:58:06,  3.77it/s] 42%|████▏     | 155018/371472 [1:15:09<16:55:13,  3.55it/s] 42%|████▏     | 155019/371472 [1:15:10<16:29:20,  3.65it/s] 42%|████▏     | 155020/371472 [1:15:10<16:28:19,  3.65it/s]                                                            {'loss': 3.2627, 'learning_rate': 6.247010278178801e-07, 'epoch': 6.68}
 42%|████▏     | 155020/371472 [1:15:10<16:28:19,  3.65it/s] 42%|████▏     | 155021/371472 [1:15:10<16:21:53,  3.67it/s] 42%|████▏     | 155022/371472 [1:15:10<16:19:23,  3.68it/s] 42%|████▏     | 155023/371472 [1:15:11<16:52:43,  3.56it/s] 42%|████▏     | 155024/371472 [1:15:11<16:42:31,  3.60it/s] 42%|████▏     | 155025/371472 [1:15:11<17:37:15,  3.41it/s] 42%|████▏     | 155026/371472 [1:15:12<18:03:15,  3.33it/s] 42%|████▏     | 155027/371472 [1:15:12<17:54:21,  3.36it/s] 42%|████▏     | 155028/371472 [1:15:12<17:42:40,  3.39it/s] 42%|████▏     | 155029/371472 [1:15:12<17:47:19,  3.38it/s] 42%|████▏     | 155030/371472 [1:15:13<17:17:37,  3.48it/s] 42%|████▏     | 155031/371472 [1:15:13<17:13:04,  3.49it/s] 42%|████▏     | 155032/371472 [1:15:13<17:08:12,  3.51it/s] 42%|████▏     | 155033/371472 [1:15:14<16:40:30,  3.61it/s] 42%|████▏     | 155034/371472 [1:15:14<16:16:16,  3.69it/s] 42%|████▏     | 155035/371472 [1:15:14<15:57:32,  3.77it/s] 42%|████▏     | 155036/371472 [1:15:14<15:52:06,  3.79it/s] 42%|████▏     | 155037/371472 [1:15:15<16:02:09,  3.75it/s] 42%|████▏     | 155038/371472 [1:15:15<15:53:03,  3.78it/s] 42%|████▏     | 155039/371472 [1:15:15<16:19:51,  3.68it/s] 42%|████▏     | 155040/371472 [1:15:15<16:07:54,  3.73it/s]                                                            {'loss': 3.0376, 'learning_rate': 6.246525458424013e-07, 'epoch': 6.68}
 42%|████▏     | 155040/371472 [1:15:15<16:07:54,  3.73it/s] 42%|████▏     | 155041/371472 [1:15:16<15:54:09,  3.78it/s] 42%|████▏     | 155042/371472 [1:15:16<16:00:00,  3.76it/s] 42%|████▏     | 155043/371472 [1:15:16<15:49:05,  3.80it/s] 42%|████▏     | 155044/371472 [1:15:16<16:25:26,  3.66it/s] 42%|████▏     | 155045/371472 [1:15:17<17:55:45,  3.35it/s] 42%|████▏     | 155046/371472 [1:15:17<18:19:42,  3.28it/s] 42%|████▏     | 155047/371472 [1:15:17<17:45:45,  3.38it/s] 42%|████▏     | 155048/371472 [1:15:18<17:23:22,  3.46it/s] 42%|████▏     | 155049/371472 [1:15:18<17:32:19,  3.43it/s] 42%|████▏     | 155050/371472 [1:15:18<17:23:34,  3.46it/s] 42%|████▏     | 155051/371472 [1:15:19<18:12:51,  3.30it/s] 42%|████▏     | 155052/371472 [1:15:19<18:00:54,  3.34it/s] 42%|████▏     | 155053/371472 [1:15:19<17:36:39,  3.41it/s] 42%|████▏     | 155054/371472 [1:15:19<17:06:05,  3.52it/s] 42%|████▏     | 155055/371472 [1:15:20<16:31:05,  3.64it/s] 42%|████▏     | 155056/371472 [1:15:20<16:27:39,  3.65it/s] 42%|████▏     | 155057/371472 [1:15:20<16:23:21,  3.67it/s] 42%|████▏     | 155058/371472 [1:15:21<16:10:54,  3.72it/s] 42%|████▏     | 155059/371472 [1:15:21<16:04:06,  3.74it/s] 42%|████▏     | 155060/371472 [1:15:21<16:02:55,  3.75it/s]                                                            {'loss': 3.142, 'learning_rate': 6.246040638669225e-07, 'epoch': 6.68}
 42%|████▏     | 155060/371472 [1:15:21<16:02:55,  3.75it/s] 42%|████▏     | 155061/371472 [1:15:21<16:57:01,  3.55it/s] 42%|████▏     | 155062/371472 [1:15:22<16:06:55,  3.73it/s] 42%|████▏     | 155063/371472 [1:15:22<15:33:50,  3.86it/s] 42%|████▏     | 155064/371472 [1:15:22<15:38:02,  3.85it/s] 42%|████▏     | 155065/371472 [1:15:22<15:40:54,  3.83it/s] 42%|████▏     | 155066/371472 [1:15:23<16:19:19,  3.68it/s] 42%|████▏     | 155067/371472 [1:15:23<16:12:56,  3.71it/s] 42%|████▏     | 155068/371472 [1:15:23<16:05:15,  3.74it/s] 42%|████▏     | 155069/371472 [1:15:23<16:30:26,  3.64it/s] 42%|████▏     | 155070/371472 [1:15:24<16:08:32,  3.72it/s] 42%|████▏     | 155071/371472 [1:15:24<18:14:47,  3.29it/s] 42%|████▏     | 155072/371472 [1:15:24<17:45:31,  3.38it/s] 42%|████▏     | 155073/371472 [1:15:25<17:15:00,  3.48it/s] 42%|████▏     | 155074/371472 [1:15:25<17:18:06,  3.47it/s] 42%|████▏     | 155075/371472 [1:15:25<17:12:07,  3.49it/s] 42%|████▏     | 155076/371472 [1:15:25<16:46:06,  3.58it/s] 42%|████▏     | 155077/371472 [1:15:26<17:54:06,  3.36it/s] 42%|████▏     | 155078/371472 [1:15:26<18:30:22,  3.25it/s] 42%|████▏     | 155079/371472 [1:15:26<17:52:09,  3.36it/s] 42%|████▏     | 155080/371472 [1:15:27<17:07:09,  3.51it/s]                                                            {'loss': 3.2046, 'learning_rate': 6.245555818914435e-07, 'epoch': 6.68}
 42%|████▏     | 155080/371472 [1:15:27<17:07:09,  3.51it/s] 42%|████▏     | 155081/371472 [1:15:27<16:59:20,  3.54it/s] 42%|████▏     | 155082/371472 [1:15:27<17:03:41,  3.52it/s] 42%|████▏     | 155083/371472 [1:15:28<16:28:14,  3.65it/s] 42%|████▏     | 155084/371472 [1:15:28<17:06:03,  3.51it/s] 42%|████▏     | 155085/371472 [1:15:28<17:45:10,  3.39it/s] 42%|████▏     | 155086/371472 [1:15:28<17:17:04,  3.48it/s] 42%|████▏     | 155087/371472 [1:15:29<18:39:14,  3.22it/s] 42%|████▏     | 155088/371472 [1:15:29<18:06:23,  3.32it/s] 42%|████▏     | 155089/371472 [1:15:29<18:11:43,  3.30it/s] 42%|████▏     | 155090/371472 [1:15:30<17:44:53,  3.39it/s] 42%|████▏     | 155091/371472 [1:15:30<17:34:41,  3.42it/s] 42%|████▏     | 155092/371472 [1:15:30<16:41:47,  3.60it/s] 42%|████▏     | 155093/371472 [1:15:30<16:49:09,  3.57it/s] 42%|████▏     | 155094/371472 [1:15:31<16:03:37,  3.74it/s] 42%|████▏     | 155095/371472 [1:15:31<16:12:51,  3.71it/s] 42%|████▏     | 155096/371472 [1:15:31<15:37:50,  3.85it/s] 42%|████▏     | 155097/371472 [1:15:31<15:46:31,  3.81it/s] 42%|████▏     | 155098/371472 [1:15:32<17:10:23,  3.50it/s] 42%|████▏     | 155099/371472 [1:15:32<18:21:40,  3.27it/s] 42%|████▏     | 155100/371472 [1:15:32<18:09:53,  3.31it/s]                                                            {'loss': 3.0325, 'learning_rate': 6.245070999159645e-07, 'epoch': 6.68}
 42%|████▏     | 155100/371472 [1:15:32<18:09:53,  3.31it/s] 42%|████▏     | 155101/371472 [1:15:33<17:52:11,  3.36it/s] 42%|████▏     | 155102/371472 [1:15:33<17:26:37,  3.45it/s] 42%|████▏     | 155103/371472 [1:15:33<18:00:05,  3.34it/s] 42%|████▏     | 155104/371472 [1:15:34<17:24:29,  3.45it/s] 42%|████▏     | 155105/371472 [1:15:34<17:59:27,  3.34it/s] 42%|████▏     | 155106/371472 [1:15:34<17:21:35,  3.46it/s] 42%|████▏     | 155107/371472 [1:15:35<17:41:21,  3.40it/s] 42%|████▏     | 155108/371472 [1:15:35<18:01:23,  3.33it/s] 42%|████▏     | 155109/371472 [1:15:35<17:38:44,  3.41it/s] 42%|████▏     | 155110/371472 [1:15:36<20:32:35,  2.93it/s] 42%|████▏     | 155111/371472 [1:15:36<19:33:56,  3.07it/s] 42%|████▏     | 155112/371472 [1:15:36<18:35:44,  3.23it/s] 42%|████▏     | 155113/371472 [1:15:36<17:59:46,  3.34it/s] 42%|████▏     | 155114/371472 [1:15:37<17:25:34,  3.45it/s] 42%|████▏     | 155115/371472 [1:15:37<17:50:41,  3.37it/s] 42%|████▏     | 155116/371472 [1:15:37<19:48:59,  3.03it/s] 42%|████▏     | 155117/371472 [1:15:38<18:32:53,  3.24it/s] 42%|████▏     | 155118/371472 [1:15:38<17:49:27,  3.37it/s] 42%|████▏     | 155119/371472 [1:15:38<17:02:41,  3.53it/s] 42%|████▏     | 155120/371472 [1:15:39<18:19:00,  3.28it/s]                                                            {'loss': 3.1541, 'learning_rate': 6.244586179404856e-07, 'epoch': 6.68}
 42%|████▏     | 155120/371472 [1:15:39<18:19:00,  3.28it/s] 42%|████▏     | 155121/371472 [1:15:39<17:26:05,  3.45it/s] 42%|████▏     | 155122/371472 [1:15:39<16:59:50,  3.54it/s] 42%|████▏     | 155123/371472 [1:15:39<17:53:46,  3.36it/s] 42%|████▏     | 155124/371472 [1:15:40<18:17:01,  3.29it/s] 42%|████▏     | 155125/371472 [1:15:40<17:47:09,  3.38it/s] 42%|████▏     | 155126/371472 [1:15:40<17:18:38,  3.47it/s] 42%|████▏     | 155127/371472 [1:15:41<17:25:40,  3.45it/s] 42%|████▏     | 155128/371472 [1:15:41<17:08:38,  3.51it/s] 42%|████▏     | 155129/371472 [1:15:41<16:28:42,  3.65it/s] 42%|████▏     | 155130/371472 [1:15:41<16:12:08,  3.71it/s] 42%|████▏     | 155131/371472 [1:15:42<17:29:04,  3.44it/s] 42%|████▏     | 155132/371472 [1:15:42<16:49:16,  3.57it/s] 42%|████▏     | 155133/371472 [1:15:42<16:45:44,  3.59it/s] 42%|████▏     | 155134/371472 [1:15:42<17:08:40,  3.51it/s] 42%|████▏     | 155135/371472 [1:15:43<17:55:31,  3.35it/s] 42%|████▏     | 155136/371472 [1:15:43<17:22:56,  3.46it/s] 42%|████▏     | 155137/371472 [1:15:43<18:58:48,  3.17it/s] 42%|████▏     | 155138/371472 [1:15:44<17:56:12,  3.35it/s] 42%|████▏     | 155139/371472 [1:15:44<17:29:00,  3.44it/s] 42%|████▏     | 155140/371472 [1:15:44<17:49:34,  3.37it/s]                                                            {'loss': 3.1966, 'learning_rate': 6.244101359650067e-07, 'epoch': 6.68}
 42%|████▏     | 155140/371472 [1:15:44<17:49:34,  3.37it/s] 42%|████▏     | 155141/371472 [1:15:45<17:31:30,  3.43it/s] 42%|████▏     | 155142/371472 [1:15:45<17:27:33,  3.44it/s] 42%|████▏     | 155143/371472 [1:15:45<17:16:15,  3.48it/s] 42%|████▏     | 155144/371472 [1:15:45<16:45:28,  3.59it/s] 42%|████▏     | 155145/371472 [1:15:46<16:20:36,  3.68it/s] 42%|████▏     | 155146/371472 [1:15:46<17:49:03,  3.37it/s] 42%|████▏     | 155147/371472 [1:15:46<17:18:05,  3.47it/s] 42%|████▏     | 155148/371472 [1:15:47<17:04:51,  3.52it/s] 42%|████▏     | 155149/371472 [1:15:47<17:45:40,  3.38it/s] 42%|████▏     | 155150/371472 [1:15:47<17:14:30,  3.49it/s] 42%|████▏     | 155151/371472 [1:15:47<17:01:24,  3.53it/s] 42%|████▏     | 155152/371472 [1:15:48<19:06:57,  3.14it/s] 42%|████▏     | 155153/371472 [1:15:48<18:23:33,  3.27it/s] 42%|████▏     | 155154/371472 [1:15:48<18:32:29,  3.24it/s] 42%|████▏     | 155155/371472 [1:15:49<17:51:27,  3.36it/s] 42%|████▏     | 155156/371472 [1:15:49<17:34:51,  3.42it/s] 42%|████▏     | 155157/371472 [1:15:49<17:18:21,  3.47it/s] 42%|████▏     | 155158/371472 [1:15:49<16:49:00,  3.57it/s] 42%|████▏     | 155159/371472 [1:15:50<16:30:40,  3.64it/s] 42%|████▏     | 155160/371472 [1:15:50<17:01:53,  3.53it/s]                                                            {'loss': 3.1658, 'learning_rate': 6.243616539895278e-07, 'epoch': 6.68}
 42%|████▏     | 155160/371472 [1:15:50<17:01:53,  3.53it/s] 42%|████▏     | 155161/371472 [1:15:51<20:03:55,  2.99it/s] 42%|████▏     | 155162/371472 [1:15:51<18:32:36,  3.24it/s] 42%|████▏     | 155163/371472 [1:15:51<18:06:38,  3.32it/s] 42%|████▏     | 155164/371472 [1:15:51<18:03:14,  3.33it/s] 42%|████▏     | 155165/371472 [1:15:52<17:26:26,  3.45it/s] 42%|████▏     | 155166/371472 [1:15:52<17:05:47,  3.51it/s] 42%|████▏     | 155167/371472 [1:15:52<16:55:28,  3.55it/s] 42%|████▏     | 155168/371472 [1:15:52<16:32:03,  3.63it/s] 42%|████▏     | 155169/371472 [1:15:53<16:47:25,  3.58it/s] 42%|████▏     | 155170/371472 [1:15:53<16:13:53,  3.70it/s] 42%|████▏     | 155171/371472 [1:15:53<16:21:26,  3.67it/s] 42%|████▏     | 155172/371472 [1:15:54<16:16:24,  3.69it/s] 42%|████▏     | 155173/371472 [1:15:54<16:30:38,  3.64it/s] 42%|████▏     | 155174/371472 [1:15:54<16:03:15,  3.74it/s] 42%|████▏     | 155175/371472 [1:15:54<16:13:15,  3.70it/s] 42%|████▏     | 155176/371472 [1:15:55<16:22:08,  3.67it/s] 42%|████▏     | 155177/371472 [1:15:55<16:13:13,  3.70it/s] 42%|████▏     | 155178/371472 [1:15:55<16:07:11,  3.73it/s] 42%|████▏     | 155179/371472 [1:15:55<15:54:58,  3.77it/s] 42%|████▏     | 155180/371472 [1:15:56<15:53:59,  3.78it/s]                                                            {'loss': 3.2361, 'learning_rate': 6.24313172014049e-07, 'epoch': 6.68}
 42%|████▏     | 155180/371472 [1:15:56<15:53:59,  3.78it/s] 42%|████▏     | 155181/371472 [1:15:56<16:12:19,  3.71it/s] 42%|████▏     | 155182/371472 [1:15:56<15:57:48,  3.76it/s] 42%|████▏     | 155183/371472 [1:15:56<16:06:33,  3.73it/s] 42%|████▏     | 155184/371472 [1:15:57<16:36:16,  3.62it/s] 42%|████▏     | 155185/371472 [1:15:57<17:15:04,  3.48it/s] 42%|████▏     | 155186/371472 [1:15:57<17:00:30,  3.53it/s] 42%|████▏     | 155187/371472 [1:15:58<18:10:49,  3.30it/s] 42%|████▏     | 155188/371472 [1:15:58<17:27:42,  3.44it/s] 42%|████▏     | 155189/371472 [1:15:58<16:59:43,  3.53it/s] 42%|████▏     | 155190/371472 [1:15:59<17:56:47,  3.35it/s] 42%|████▏     | 155191/371472 [1:15:59<17:33:44,  3.42it/s] 42%|████▏     | 155192/371472 [1:15:59<17:19:15,  3.47it/s] 42%|████▏     | 155193/371472 [1:15:59<16:55:09,  3.55it/s] 42%|████▏     | 155194/371472 [1:16:00<17:49:52,  3.37it/s] 42%|████▏     | 155195/371472 [1:16:00<18:00:40,  3.34it/s] 42%|████▏     | 155196/371472 [1:16:00<17:21:34,  3.46it/s] 42%|████▏     | 155197/371472 [1:16:01<19:32:36,  3.07it/s] 42%|████▏     | 155198/371472 [1:16:01<18:19:07,  3.28it/s] 42%|████▏     | 155199/371472 [1:16:01<17:24:58,  3.45it/s] 42%|████▏     | 155200/371472 [1:16:01<16:55:38,  3.55it/s]                                                            {'loss': 3.1684, 'learning_rate': 6.242646900385701e-07, 'epoch': 6.68}
 42%|████▏     | 155200/371472 [1:16:01<16:55:38,  3.55it/s] 42%|████▏     | 155201/371472 [1:16:02<16:38:16,  3.61it/s] 42%|████▏     | 155202/371472 [1:16:02<16:10:11,  3.72it/s] 42%|████▏     | 155203/371472 [1:16:02<16:16:10,  3.69it/s] 42%|████▏     | 155204/371472 [1:16:03<17:09:38,  3.50it/s] 42%|████▏     | 155205/371472 [1:16:03<18:38:06,  3.22it/s] 42%|████▏     | 155206/371472 [1:16:03<17:30:55,  3.43it/s] 42%|████▏     | 155207/371472 [1:16:03<17:03:14,  3.52it/s] 42%|████▏     | 155208/371472 [1:16:04<18:35:15,  3.23it/s] 42%|████▏     | 155209/371472 [1:16:04<19:33:07,  3.07it/s] 42%|████▏     | 155210/371472 [1:16:04<18:45:38,  3.20it/s] 42%|████▏     | 155211/371472 [1:16:05<18:04:46,  3.32it/s] 42%|████▏     | 155212/371472 [1:16:05<18:05:23,  3.32it/s] 42%|████▏     | 155213/371472 [1:16:05<17:21:22,  3.46it/s] 42%|████▏     | 155214/371472 [1:16:06<17:08:48,  3.50it/s] 42%|████▏     | 155215/371472 [1:16:06<17:31:27,  3.43it/s] 42%|████▏     | 155216/371472 [1:16:06<17:44:08,  3.39it/s] 42%|████▏     | 155217/371472 [1:16:07<18:24:50,  3.26it/s] 42%|████▏     | 155218/371472 [1:16:07<18:02:15,  3.33it/s] 42%|████▏     | 155219/371472 [1:16:07<17:04:01,  3.52it/s] 42%|████▏     | 155220/371472 [1:16:07<17:07:49,  3.51it/s]                                                            {'loss': 3.03, 'learning_rate': 6.242162080630912e-07, 'epoch': 6.69}
 42%|████▏     | 155220/371472 [1:16:07<17:07:49,  3.51it/s] 42%|████▏     | 155221/371472 [1:16:08<17:22:11,  3.46it/s] 42%|████▏     | 155222/371472 [1:16:08<18:12:45,  3.30it/s] 42%|████▏     | 155223/371472 [1:16:08<17:08:49,  3.50it/s] 42%|████▏     | 155224/371472 [1:16:08<17:00:19,  3.53it/s] 42%|████▏     | 155225/371472 [1:16:09<16:39:51,  3.60it/s] 42%|████▏     | 155226/371472 [1:16:09<16:05:31,  3.73it/s] 42%|████▏     | 155227/371472 [1:16:09<17:28:05,  3.44it/s] 42%|████▏     | 155228/371472 [1:16:10<18:15:19,  3.29it/s] 42%|████▏     | 155229/371472 [1:16:10<17:15:15,  3.48it/s] 42%|████▏     | 155230/371472 [1:16:10<17:25:56,  3.45it/s] 42%|████▏     | 155231/371472 [1:16:11<17:10:09,  3.50it/s] 42%|████▏     | 155232/371472 [1:16:11<16:41:03,  3.60it/s] 42%|████▏     | 155233/371472 [1:16:11<16:37:57,  3.61it/s] 42%|████▏     | 155234/371472 [1:16:11<16:47:04,  3.58it/s] 42%|████▏     | 155235/371472 [1:16:12<16:06:38,  3.73it/s] 42%|████▏     | 155236/371472 [1:16:12<15:40:28,  3.83it/s] 42%|████▏     | 155237/371472 [1:16:12<16:10:41,  3.71it/s] 42%|████▏     | 155238/371472 [1:16:12<17:04:28,  3.52it/s] 42%|████▏     | 155239/371472 [1:16:13<16:29:16,  3.64it/s] 42%|████▏     | 155240/371472 [1:16:13<16:13:08,  3.70it/s]                                                            {'loss': 3.1426, 'learning_rate': 6.241677260876122e-07, 'epoch': 6.69}
 42%|████▏     | 155240/371472 [1:16:13<16:13:08,  3.70it/s] 42%|████▏     | 155241/371472 [1:16:13<16:38:52,  3.61it/s] 42%|████▏     | 155242/371472 [1:16:13<16:27:12,  3.65it/s] 42%|████▏     | 155243/371472 [1:16:14<16:32:30,  3.63it/s] 42%|████▏     | 155244/371472 [1:16:14<17:09:47,  3.50it/s] 42%|████▏     | 155245/371472 [1:16:14<17:26:25,  3.44it/s] 42%|████▏     | 155246/371472 [1:16:15<17:08:27,  3.50it/s] 42%|████▏     | 155247/371472 [1:16:15<16:57:02,  3.54it/s] 42%|████▏     | 155248/371472 [1:16:15<16:43:48,  3.59it/s] 42%|████▏     | 155249/371472 [1:16:15<16:25:43,  3.66it/s] 42%|████▏     | 155250/371472 [1:16:16<15:47:08,  3.80it/s] 42%|████▏     | 155251/371472 [1:16:16<16:07:59,  3.72it/s] 42%|████▏     | 155252/371472 [1:16:16<16:05:35,  3.73it/s] 42%|████▏     | 155253/371472 [1:16:17<17:13:34,  3.49it/s] 42%|████▏     | 155254/371472 [1:16:17<17:02:01,  3.53it/s] 42%|████▏     | 155255/371472 [1:16:17<16:50:17,  3.57it/s] 42%|████▏     | 155256/371472 [1:16:17<16:17:36,  3.69it/s] 42%|████▏     | 155257/371472 [1:16:18<16:21:23,  3.67it/s] 42%|████▏     | 155258/371472 [1:16:18<16:08:52,  3.72it/s] 42%|████▏     | 155259/371472 [1:16:18<16:08:05,  3.72it/s] 42%|████▏     | 155260/371472 [1:16:18<16:06:23,  3.73it/s]                                                            {'loss': 3.2419, 'learning_rate': 6.241192441121334e-07, 'epoch': 6.69}
 42%|████▏     | 155260/371472 [1:16:18<16:06:23,  3.73it/s] 42%|████▏     | 155261/371472 [1:16:19<16:09:08,  3.72it/s] 42%|████▏     | 155262/371472 [1:16:19<15:50:24,  3.79it/s] 42%|████▏     | 155263/371472 [1:16:19<16:19:11,  3.68it/s] 42%|████▏     | 155264/371472 [1:16:20<16:31:37,  3.63it/s] 42%|████▏     | 155265/371472 [1:16:20<16:42:44,  3.59it/s] 42%|████▏     | 155266/371472 [1:16:20<17:16:01,  3.48it/s] 42%|████▏     | 155267/371472 [1:16:20<16:23:00,  3.67it/s] 42%|████▏     | 155268/371472 [1:16:21<15:59:14,  3.76it/s] 42%|████▏     | 155269/371472 [1:16:21<15:40:54,  3.83it/s] 42%|████▏     | 155270/371472 [1:16:21<15:50:03,  3.79it/s] 42%|████▏     | 155271/371472 [1:16:21<16:05:14,  3.73it/s] 42%|████▏     | 155272/371472 [1:16:22<16:14:17,  3.70it/s] 42%|████▏     | 155273/371472 [1:16:22<15:58:53,  3.76it/s] 42%|████▏     | 155274/371472 [1:16:22<16:02:52,  3.74it/s] 42%|████▏     | 155275/371472 [1:16:23<18:20:34,  3.27it/s] 42%|████▏     | 155276/371472 [1:16:23<17:41:05,  3.40it/s] 42%|████▏     | 155277/371472 [1:16:23<17:47:03,  3.38it/s] 42%|████▏     | 155278/371472 [1:16:23<17:47:39,  3.37it/s] 42%|████▏     | 155279/371472 [1:16:24<17:14:58,  3.48it/s] 42%|████▏     | 155280/371472 [1:16:24<17:06:40,  3.51it/s]                                                            {'loss': 3.2617, 'learning_rate': 6.240707621366545e-07, 'epoch': 6.69}
 42%|████▏     | 155280/371472 [1:16:24<17:06:40,  3.51it/s] 42%|████▏     | 155281/371472 [1:16:24<16:25:36,  3.66it/s] 42%|████▏     | 155282/371472 [1:16:25<17:51:34,  3.36it/s] 42%|████▏     | 155283/371472 [1:16:25<17:22:28,  3.46it/s] 42%|████▏     | 155284/371472 [1:16:25<16:31:56,  3.63it/s] 42%|████▏     | 155285/371472 [1:16:25<16:18:25,  3.68it/s] 42%|████▏     | 155286/371472 [1:16:26<16:08:49,  3.72it/s] 42%|████▏     | 155287/371472 [1:16:26<16:11:57,  3.71it/s] 42%|████▏     | 155288/371472 [1:16:26<16:32:01,  3.63it/s] 42%|████▏     | 155289/371472 [1:16:27<16:35:46,  3.62it/s] 42%|████▏     | 155290/371472 [1:16:27<16:36:38,  3.62it/s] 42%|████▏     | 155291/371472 [1:16:27<16:22:43,  3.67it/s] 42%|████▏     | 155292/371472 [1:16:27<16:22:49,  3.67it/s] 42%|████▏     | 155293/371472 [1:16:28<16:24:21,  3.66it/s] 42%|████▏     | 155294/371472 [1:16:28<16:35:21,  3.62it/s] 42%|████▏     | 155295/371472 [1:16:28<17:36:46,  3.41it/s] 42%|████▏     | 155296/371472 [1:16:29<17:38:13,  3.40it/s] 42%|████▏     | 155297/371472 [1:16:29<17:15:12,  3.48it/s] 42%|████▏     | 155298/371472 [1:16:29<16:57:56,  3.54it/s] 42%|████▏     | 155299/371472 [1:16:29<16:29:58,  3.64it/s] 42%|████▏     | 155300/371472 [1:16:30<17:01:29,  3.53it/s]                                                            {'loss': 3.1349, 'learning_rate': 6.240222801611756e-07, 'epoch': 6.69}
 42%|████▏     | 155300/371472 [1:16:30<17:01:29,  3.53it/s] 42%|████▏     | 155301/371472 [1:16:30<17:24:10,  3.45it/s] 42%|████▏     | 155302/371472 [1:16:30<17:06:38,  3.51it/s] 42%|████▏     | 155303/371472 [1:16:30<16:41:44,  3.60it/s] 42%|████▏     | 155304/371472 [1:16:31<16:28:39,  3.64it/s] 42%|████▏     | 155305/371472 [1:16:31<18:43:13,  3.21it/s] 42%|████▏     | 155306/371472 [1:16:31<18:35:54,  3.23it/s] 42%|████▏     | 155307/371472 [1:16:32<19:34:20,  3.07it/s] 42%|████▏     | 155308/371472 [1:16:32<18:44:55,  3.20it/s] 42%|████▏     | 155309/371472 [1:16:32<19:16:51,  3.11it/s] 42%|████▏     | 155310/371472 [1:16:33<18:33:15,  3.24it/s] 42%|████▏     | 155311/371472 [1:16:33<17:34:13,  3.42it/s] 42%|████▏     | 155312/371472 [1:16:33<17:14:10,  3.48it/s] 42%|████▏     | 155313/371472 [1:16:33<17:10:33,  3.50it/s] 42%|████▏     | 155314/371472 [1:16:34<16:51:16,  3.56it/s] 42%|████▏     | 155315/371472 [1:16:34<17:01:52,  3.53it/s] 42%|████▏     | 155316/371472 [1:16:34<17:42:53,  3.39it/s] 42%|████▏     | 155317/371472 [1:16:35<17:15:33,  3.48it/s] 42%|████▏     | 155318/371472 [1:16:35<17:09:48,  3.50it/s] 42%|████▏     | 155319/371472 [1:16:35<16:56:34,  3.54it/s] 42%|████▏     | 155320/371472 [1:16:35<16:35:33,  3.62it/s]                                                            {'loss': 3.3122, 'learning_rate': 6.239737981856967e-07, 'epoch': 6.69}
 42%|████▏     | 155320/371472 [1:16:35<16:35:33,  3.62it/s] 42%|████▏     | 155321/371472 [1:16:36<16:27:09,  3.65it/s] 42%|████▏     | 155322/371472 [1:16:36<16:25:31,  3.66it/s] 42%|████▏     | 155323/371472 [1:16:36<16:07:03,  3.73it/s] 42%|████▏     | 155324/371472 [1:16:37<16:23:41,  3.66it/s] 42%|████▏     | 155325/371472 [1:16:37<17:02:45,  3.52it/s] 42%|████▏     | 155326/371472 [1:16:37<16:42:12,  3.59it/s] 42%|████▏     | 155327/371472 [1:16:37<16:55:08,  3.55it/s] 42%|████▏     | 155328/371472 [1:16:38<16:21:24,  3.67it/s] 42%|████▏     | 155329/371472 [1:16:38<16:33:28,  3.63it/s] 42%|████▏     | 155330/371472 [1:16:38<16:28:23,  3.64it/s] 42%|████▏     | 155331/371472 [1:16:39<17:48:55,  3.37it/s] 42%|████▏     | 155332/371472 [1:16:39<17:07:51,  3.50it/s] 42%|████▏     | 155333/371472 [1:16:39<17:32:03,  3.42it/s] 42%|████▏     | 155334/371472 [1:16:39<17:57:32,  3.34it/s] 42%|████▏     | 155335/371472 [1:16:40<17:44:00,  3.39it/s] 42%|████▏     | 155336/371472 [1:16:40<17:01:49,  3.53it/s] 42%|████▏     | 155337/371472 [1:16:40<17:53:53,  3.35it/s] 42%|████▏     | 155338/371472 [1:16:41<18:31:27,  3.24it/s] 42%|████▏     | 155339/371472 [1:16:41<17:22:17,  3.46it/s] 42%|████▏     | 155340/371472 [1:16:41<17:19:47,  3.46it/s]                                                            {'loss': 3.2044, 'learning_rate': 6.239253162102179e-07, 'epoch': 6.69}
 42%|████▏     | 155340/371472 [1:16:41<17:19:47,  3.46it/s] 42%|████▏     | 155341/371472 [1:16:41<17:19:23,  3.47it/s] 42%|████▏     | 155342/371472 [1:16:42<16:41:01,  3.60it/s] 42%|████▏     | 155343/371472 [1:16:42<16:19:40,  3.68it/s] 42%|████▏     | 155344/371472 [1:16:42<16:50:18,  3.57it/s] 42%|████▏     | 155345/371472 [1:16:43<17:36:35,  3.41it/s] 42%|████▏     | 155346/371472 [1:16:43<17:07:23,  3.51it/s] 42%|████▏     | 155347/371472 [1:16:43<16:50:40,  3.56it/s] 42%|████▏     | 155348/371472 [1:16:43<16:19:33,  3.68it/s] 42%|████▏     | 155349/371472 [1:16:44<16:16:38,  3.69it/s] 42%|████▏     | 155350/371472 [1:16:44<16:44:26,  3.59it/s] 42%|████▏     | 155351/371472 [1:16:44<16:43:06,  3.59it/s] 42%|████▏     | 155352/371472 [1:16:45<16:30:30,  3.64it/s] 42%|████▏     | 155353/371472 [1:16:45<16:31:40,  3.63it/s] 42%|████▏     | 155354/371472 [1:16:45<16:04:46,  3.73it/s] 42%|████▏     | 155355/371472 [1:16:45<17:15:12,  3.48it/s] 42%|████▏     | 155356/371472 [1:16:46<16:31:42,  3.63it/s] 42%|████▏     | 155357/371472 [1:16:46<17:13:01,  3.49it/s] 42%|████▏     | 155358/371472 [1:16:46<16:53:19,  3.55it/s] 42%|████▏     | 155359/371472 [1:16:47<17:21:14,  3.46it/s] 42%|████▏     | 155360/371472 [1:16:47<17:11:42,  3.49it/s]                                                            {'loss': 3.1466, 'learning_rate': 6.238768342347389e-07, 'epoch': 6.69}
 42%|████▏     | 155360/371472 [1:16:47<17:11:42,  3.49it/s] 42%|████▏     | 155361/371472 [1:16:47<17:05:03,  3.51it/s] 42%|████▏     | 155362/371472 [1:16:47<17:17:49,  3.47it/s] 42%|████▏     | 155363/371472 [1:16:48<16:21:51,  3.67it/s] 42%|████▏     | 155364/371472 [1:16:48<15:57:07,  3.76it/s] 42%|████▏     | 155365/371472 [1:16:48<15:51:56,  3.78it/s] 42%|████▏     | 155366/371472 [1:16:48<16:34:26,  3.62it/s] 42%|████▏     | 155367/371472 [1:16:49<16:17:29,  3.68it/s] 42%|████▏     | 155368/371472 [1:16:49<17:01:26,  3.53it/s] 42%|████▏     | 155369/371472 [1:16:49<17:02:47,  3.52it/s] 42%|████▏     | 155370/371472 [1:16:50<16:51:25,  3.56it/s] 42%|████▏     | 155371/371472 [1:16:50<16:49:26,  3.57it/s] 42%|████▏     | 155372/371472 [1:16:50<16:16:03,  3.69it/s] 42%|████▏     | 155373/371472 [1:16:50<16:37:08,  3.61it/s] 42%|████▏     | 155374/371472 [1:16:51<17:12:23,  3.49it/s] 42%|████▏     | 155375/371472 [1:16:51<16:50:01,  3.57it/s] 42%|████▏     | 155376/371472 [1:16:51<16:56:09,  3.54it/s] 42%|████▏     | 155377/371472 [1:16:51<16:30:59,  3.63it/s] 42%|████▏     | 155378/371472 [1:16:52<16:59:33,  3.53it/s] 42%|████▏     | 155379/371472 [1:16:52<16:52:33,  3.56it/s] 42%|████▏     | 155380/371472 [1:16:52<16:49:29,  3.57it/s]                                                            {'loss': 3.1247, 'learning_rate': 6.238283522592601e-07, 'epoch': 6.69}
 42%|████▏     | 155380/371472 [1:16:52<16:49:29,  3.57it/s] 42%|████▏     | 155381/371472 [1:16:53<16:53:45,  3.55it/s] 42%|████▏     | 155382/371472 [1:16:53<16:30:31,  3.64it/s] 42%|████▏     | 155383/371472 [1:16:53<16:26:11,  3.65it/s] 42%|████▏     | 155384/371472 [1:16:53<16:16:48,  3.69it/s] 42%|████▏     | 155385/371472 [1:16:54<15:49:26,  3.79it/s] 42%|████▏     | 155386/371472 [1:16:54<15:41:24,  3.83it/s] 42%|████▏     | 155387/371472 [1:16:54<16:00:57,  3.75it/s] 42%|████▏     | 155388/371472 [1:16:54<15:54:34,  3.77it/s] 42%|████▏     | 155389/371472 [1:16:55<17:01:51,  3.52it/s] 42%|████▏     | 155390/371472 [1:16:55<17:18:26,  3.47it/s] 42%|████▏     | 155391/371472 [1:16:55<16:45:27,  3.58it/s] 42%|████▏     | 155392/371472 [1:16:56<17:04:26,  3.52it/s] 42%|████▏     | 155393/371472 [1:16:56<17:06:47,  3.51it/s] 42%|████▏     | 155394/371472 [1:16:56<17:39:55,  3.40it/s] 42%|████▏     | 155395/371472 [1:16:57<17:04:59,  3.51it/s] 42%|████▏     | 155396/371472 [1:16:57<17:10:59,  3.49it/s] 42%|████▏     | 155397/371472 [1:16:57<18:38:32,  3.22it/s] 42%|████▏     | 155398/371472 [1:16:57<18:27:47,  3.25it/s] 42%|████▏     | 155399/371472 [1:16:58<17:41:18,  3.39it/s] 42%|████▏     | 155400/371472 [1:16:58<17:17:29,  3.47it/s]                                                            {'loss': 3.1166, 'learning_rate': 6.237798702837811e-07, 'epoch': 6.69}
 42%|████▏     | 155400/371472 [1:16:58<17:17:29,  3.47it/s] 42%|████▏     | 155401/371472 [1:16:58<16:45:18,  3.58it/s] 42%|████▏     | 155402/371472 [1:16:59<16:08:16,  3.72it/s] 42%|████▏     | 155403/371472 [1:16:59<16:09:46,  3.71it/s] 42%|████▏     | 155404/371472 [1:16:59<16:30:13,  3.64it/s] 42%|████▏     | 155405/371472 [1:16:59<16:14:42,  3.69it/s] 42%|████▏     | 155406/371472 [1:17:00<16:59:50,  3.53it/s] 42%|████▏     | 155407/371472 [1:17:00<16:10:12,  3.71it/s] 42%|████▏     | 155408/371472 [1:17:00<16:02:33,  3.74it/s] 42%|████▏     | 155409/371472 [1:17:00<15:34:59,  3.85it/s] 42%|████▏     | 155410/371472 [1:17:01<15:26:46,  3.89it/s] 42%|████▏     | 155411/371472 [1:17:01<16:32:10,  3.63it/s] 42%|████▏     | 155412/371472 [1:17:01<15:56:25,  3.77it/s] 42%|████▏     | 155413/371472 [1:17:01<16:21:49,  3.67it/s] 42%|████▏     | 155414/371472 [1:17:02<17:19:44,  3.46it/s] 42%|████▏     | 155415/371472 [1:17:02<16:55:36,  3.55it/s] 42%|████▏     | 155416/371472 [1:17:02<16:46:04,  3.58it/s] 42%|████▏     | 155417/371472 [1:17:03<17:38:34,  3.40it/s] 42%|████▏     | 155418/371472 [1:17:03<18:44:39,  3.20it/s] 42%|████▏     | 155419/371472 [1:17:03<17:52:13,  3.36it/s] 42%|████▏     | 155420/371472 [1:17:04<16:50:03,  3.57it/s]                                                            {'loss': 2.9987, 'learning_rate': 6.237313883083023e-07, 'epoch': 6.69}
 42%|████▏     | 155420/371472 [1:17:04<16:50:03,  3.57it/s] 42%|████▏     | 155421/371472 [1:17:04<16:53:27,  3.55it/s] 42%|████▏     | 155422/371472 [1:17:04<16:27:14,  3.65it/s] 42%|████▏     | 155423/371472 [1:17:04<16:33:38,  3.62it/s] 42%|████▏     | 155424/371472 [1:17:05<17:22:39,  3.45it/s] 42%|████▏     | 155425/371472 [1:17:05<16:35:44,  3.62it/s] 42%|████▏     | 155426/371472 [1:17:05<16:15:34,  3.69it/s] 42%|████▏     | 155427/371472 [1:17:05<16:08:57,  3.72it/s] 42%|████▏     | 155428/371472 [1:17:06<16:54:37,  3.55it/s] 42%|████▏     | 155429/371472 [1:17:06<16:30:53,  3.63it/s] 42%|████▏     | 155430/371472 [1:17:06<17:10:13,  3.50it/s] 42%|████▏     | 155431/371472 [1:17:07<16:51:26,  3.56it/s] 42%|████▏     | 155432/371472 [1:17:07<17:02:32,  3.52it/s] 42%|████▏     | 155433/371472 [1:17:07<20:18:55,  2.95it/s] 42%|████▏     | 155434/371472 [1:17:08<18:37:32,  3.22it/s] 42%|████▏     | 155435/371472 [1:17:08<17:57:03,  3.34it/s] 42%|████▏     | 155436/371472 [1:17:08<17:26:08,  3.44it/s] 42%|████▏     | 155437/371472 [1:17:08<16:56:44,  3.54it/s] 42%|████▏     | 155438/371472 [1:17:09<16:44:47,  3.58it/s] 42%|████▏     | 155439/371472 [1:17:09<16:05:21,  3.73it/s] 42%|████▏     | 155440/371472 [1:17:09<17:23:19,  3.45it/s]                                                            {'loss': 3.1832, 'learning_rate': 6.236829063328234e-07, 'epoch': 6.7}
 42%|████▏     | 155440/371472 [1:17:09<17:23:19,  3.45it/s] 42%|████▏     | 155441/371472 [1:17:10<16:53:41,  3.55it/s] 42%|████▏     | 155442/371472 [1:17:10<17:38:56,  3.40it/s] 42%|████▏     | 155443/371472 [1:17:10<17:03:08,  3.52it/s] 42%|████▏     | 155444/371472 [1:17:10<17:24:15,  3.45it/s] 42%|████▏     | 155445/371472 [1:17:11<17:33:04,  3.42it/s] 42%|████▏     | 155446/371472 [1:17:11<17:02:54,  3.52it/s] 42%|████▏     | 155447/371472 [1:17:11<16:38:17,  3.61it/s] 42%|████▏     | 155448/371472 [1:17:11<16:13:18,  3.70it/s] 42%|████▏     | 155449/371472 [1:17:12<16:19:12,  3.68it/s] 42%|████▏     | 155450/371472 [1:17:12<15:56:37,  3.76it/s] 42%|████▏     | 155451/371472 [1:17:12<16:03:09,  3.74it/s] 42%|████▏     | 155452/371472 [1:17:13<16:05:36,  3.73it/s] 42%|████▏     | 155453/371472 [1:17:13<16:25:23,  3.65it/s] 42%|████▏     | 155454/371472 [1:17:13<16:29:29,  3.64it/s] 42%|████▏     | 155455/371472 [1:17:13<16:24:11,  3.66it/s] 42%|████▏     | 155456/371472 [1:17:14<16:12:37,  3.70it/s] 42%|████▏     | 155457/371472 [1:17:14<16:11:41,  3.71it/s] 42%|████▏     | 155458/371472 [1:17:14<18:37:54,  3.22it/s] 42%|████▏     | 155459/371472 [1:17:15<18:02:52,  3.32it/s] 42%|████▏     | 155460/371472 [1:17:15<17:57:40,  3.34it/s]                                                            {'loss': 3.2562, 'learning_rate': 6.236344243573444e-07, 'epoch': 6.7}
 42%|████▏     | 155460/371472 [1:17:15<17:57:40,  3.34it/s] 42%|████▏     | 155461/371472 [1:17:15<18:34:01,  3.23it/s] 42%|████▏     | 155462/371472 [1:17:16<18:21:48,  3.27it/s] 42%|████▏     | 155463/371472 [1:17:16<17:28:40,  3.43it/s] 42%|████▏     | 155464/371472 [1:17:16<17:49:11,  3.37it/s] 42%|████▏     | 155465/371472 [1:17:16<18:09:45,  3.30it/s] 42%|████▏     | 155466/371472 [1:17:17<18:40:10,  3.21it/s] 42%|████▏     | 155467/371472 [1:17:17<17:45:43,  3.38it/s] 42%|████▏     | 155468/371472 [1:17:17<17:55:50,  3.35it/s] 42%|████▏     | 155469/371472 [1:17:18<18:29:54,  3.24it/s] 42%|████▏     | 155470/371472 [1:17:18<18:12:48,  3.29it/s] 42%|████▏     | 155471/371472 [1:17:18<17:29:56,  3.43it/s] 42%|████▏     | 155472/371472 [1:17:18<17:34:07,  3.42it/s] 42%|████▏     | 155473/371472 [1:17:19<17:14:00,  3.48it/s] 42%|████▏     | 155474/371472 [1:17:19<16:49:31,  3.57it/s] 42%|████▏     | 155475/371472 [1:17:19<16:49:40,  3.57it/s] 42%|████▏     | 155476/371472 [1:17:20<16:08:27,  3.72it/s] 42%|████▏     | 155477/371472 [1:17:20<16:04:14,  3.73it/s] 42%|████▏     | 155478/371472 [1:17:20<16:25:13,  3.65it/s] 42%|████▏     | 155479/371472 [1:17:20<16:21:15,  3.67it/s] 42%|████▏     | 155480/371472 [1:17:21<16:29:03,  3.64it/s]                                                            {'loss': 3.1711, 'learning_rate': 6.235859423818655e-07, 'epoch': 6.7}
 42%|████▏     | 155480/371472 [1:17:21<16:29:03,  3.64it/s] 42%|████▏     | 155481/371472 [1:17:21<16:11:45,  3.70it/s] 42%|████▏     | 155482/371472 [1:17:21<18:12:00,  3.30it/s] 42%|████▏     | 155483/371472 [1:17:22<17:11:49,  3.49it/s] 42%|████▏     | 155484/371472 [1:17:22<17:48:30,  3.37it/s] 42%|████▏     | 155485/371472 [1:17:22<17:32:11,  3.42it/s] 42%|████▏     | 155486/371472 [1:17:22<16:56:30,  3.54it/s] 42%|████▏     | 155487/371472 [1:17:23<16:56:56,  3.54it/s] 42%|████▏     | 155488/371472 [1:17:23<17:13:38,  3.48it/s] 42%|████▏     | 155489/371472 [1:17:23<17:40:49,  3.39it/s] 42%|████▏     | 155490/371472 [1:17:24<17:33:02,  3.42it/s] 42%|████▏     | 155491/371472 [1:17:24<17:44:25,  3.38it/s] 42%|████▏     | 155492/371472 [1:17:24<17:22:54,  3.45it/s] 42%|████▏     | 155493/371472 [1:17:24<17:20:49,  3.46it/s] 42%|████▏     | 155494/371472 [1:17:25<19:40:23,  3.05it/s] 42%|████▏     | 155495/371472 [1:17:25<18:43:04,  3.21it/s] 42%|████▏     | 155496/371472 [1:17:25<19:07:55,  3.14it/s] 42%|████▏     | 155497/371472 [1:17:26<18:02:22,  3.33it/s] 42%|████▏     | 155498/371472 [1:17:26<18:38:54,  3.22it/s] 42%|████▏     | 155499/371472 [1:17:26<18:32:58,  3.23it/s] 42%|████▏     | 155500/371472 [1:17:27<20:24:33,  2.94it/s]                                                            {'loss': 3.1573, 'learning_rate': 6.235374604063867e-07, 'epoch': 6.7}
 42%|████▏     | 155500/371472 [1:17:27<20:24:33,  2.94it/s] 42%|████▏     | 155501/371472 [1:17:27<19:09:13,  3.13it/s] 42%|████▏     | 155502/371472 [1:17:27<19:27:41,  3.08it/s] 42%|████▏     | 155503/371472 [1:17:28<18:26:34,  3.25it/s] 42%|████▏     | 155504/371472 [1:17:28<17:45:14,  3.38it/s] 42%|████▏     | 155505/371472 [1:17:28<17:12:46,  3.49it/s] 42%|████▏     | 155506/371472 [1:17:29<17:29:54,  3.43it/s] 42%|████▏     | 155507/371472 [1:17:29<17:23:51,  3.45it/s] 42%|████▏     | 155508/371472 [1:17:29<17:39:06,  3.40it/s] 42%|████▏     | 155509/371472 [1:17:29<17:17:32,  3.47it/s] 42%|████▏     | 155510/371472 [1:17:30<17:04:10,  3.51it/s] 42%|████▏     | 155511/371472 [1:17:30<17:23:30,  3.45it/s] 42%|████▏     | 155512/371472 [1:17:30<18:40:06,  3.21it/s] 42%|████▏     | 155513/371472 [1:17:31<18:16:53,  3.28it/s] 42%|████▏     | 155514/371472 [1:17:31<17:37:04,  3.40it/s] 42%|████▏     | 155515/371472 [1:17:31<16:48:17,  3.57it/s] 42%|████▏     | 155516/371472 [1:17:31<16:52:38,  3.55it/s] 42%|████▏     | 155517/371472 [1:17:32<16:42:58,  3.59it/s] 42%|████▏     | 155518/371472 [1:17:32<16:43:46,  3.59it/s] 42%|████▏     | 155519/371472 [1:17:32<16:10:59,  3.71it/s] 42%|████▏     | 155520/371472 [1:17:32<16:31:19,  3.63it/s]                                                            {'loss': 3.0946, 'learning_rate': 6.234889784309078e-07, 'epoch': 6.7}
 42%|████▏     | 155520/371472 [1:17:32<16:31:19,  3.63it/s] 42%|████▏     | 155521/371472 [1:17:33<17:03:05,  3.52it/s] 42%|████▏     | 155522/371472 [1:17:33<16:48:21,  3.57it/s] 42%|████▏     | 155523/371472 [1:17:33<17:23:32,  3.45it/s] 42%|████▏     | 155524/371472 [1:17:34<17:03:41,  3.52it/s] 42%|████▏     | 155525/371472 [1:17:34<16:39:06,  3.60it/s] 42%|████▏     | 155526/371472 [1:17:34<16:47:12,  3.57it/s] 42%|████▏     | 155527/371472 [1:17:34<16:34:39,  3.62it/s] 42%|████▏     | 155528/371472 [1:17:35<17:31:57,  3.42it/s] 42%|████▏     | 155529/371472 [1:17:35<17:12:28,  3.49it/s] 42%|████▏     | 155530/371472 [1:17:35<17:59:24,  3.33it/s] 42%|████▏     | 155531/371472 [1:17:36<18:41:56,  3.21it/s] 42%|████▏     | 155532/371472 [1:17:36<18:58:07,  3.16it/s] 42%|████▏     | 155533/371472 [1:17:36<18:33:42,  3.23it/s] 42%|████▏     | 155534/371472 [1:17:37<19:46:19,  3.03it/s] 42%|████▏     | 155535/371472 [1:17:37<19:07:47,  3.14it/s] 42%|████▏     | 155536/371472 [1:17:37<19:03:44,  3.15it/s] 42%|████▏     | 155537/371472 [1:17:38<19:00:43,  3.15it/s] 42%|████▏     | 155538/371472 [1:17:38<19:23:17,  3.09it/s] 42%|████▏     | 155539/371472 [1:17:38<19:26:45,  3.08it/s] 42%|████▏     | 155540/371472 [1:17:39<19:43:56,  3.04it/s]                                                            {'loss': 3.3244, 'learning_rate': 6.234404964554288e-07, 'epoch': 6.7}
 42%|████▏     | 155540/371472 [1:17:39<19:43:56,  3.04it/s] 42%|████▏     | 155541/371472 [1:17:39<19:02:09,  3.15it/s] 42%|████▏     | 155542/371472 [1:17:39<18:04:06,  3.32it/s] 42%|████▏     | 155543/371472 [1:17:39<17:20:55,  3.46it/s] 42%|████▏     | 155544/371472 [1:17:40<16:53:02,  3.55it/s] 42%|████▏     | 155545/371472 [1:17:40<16:32:33,  3.63it/s] 42%|████▏     | 155546/371472 [1:17:40<16:21:44,  3.67it/s] 42%|████▏     | 155547/371472 [1:17:41<16:08:56,  3.71it/s] 42%|████▏     | 155548/371472 [1:17:41<15:42:28,  3.82it/s] 42%|████▏     | 155549/371472 [1:17:41<16:41:37,  3.59it/s] 42%|████▏     | 155550/371472 [1:17:41<16:23:20,  3.66it/s] 42%|████▏     | 155551/371472 [1:17:42<17:02:32,  3.52it/s] 42%|████▏     | 155552/371472 [1:17:42<16:49:52,  3.56it/s] 42%|████▏     | 155553/371472 [1:17:42<17:54:06,  3.35it/s] 42%|████▏     | 155554/371472 [1:17:43<17:23:12,  3.45it/s] 42%|████▏     | 155555/371472 [1:17:43<16:46:58,  3.57it/s] 42%|████▏     | 155556/371472 [1:17:43<16:14:12,  3.69it/s] 42%|████▏     | 155557/371472 [1:17:43<15:52:28,  3.78it/s] 42%|████▏     | 155558/371472 [1:17:44<16:09:02,  3.71it/s] 42%|████▏     | 155559/371472 [1:17:44<16:31:12,  3.63it/s] 42%|████▏     | 155560/371472 [1:17:44<16:35:47,  3.61it/s]                                                            {'loss': 3.1916, 'learning_rate': 6.2339201447995e-07, 'epoch': 6.7}
 42%|████▏     | 155560/371472 [1:17:44<16:35:47,  3.61it/s] 42%|████▏     | 155561/371472 [1:17:44<17:50:28,  3.36it/s] 42%|████▏     | 155562/371472 [1:17:45<17:53:09,  3.35it/s] 42%|████▏     | 155563/371472 [1:17:45<17:11:47,  3.49it/s] 42%|████▏     | 155564/371472 [1:17:45<16:47:41,  3.57it/s] 42%|████▏     | 155565/371472 [1:17:46<16:17:17,  3.68it/s] 42%|████▏     | 155566/371472 [1:17:46<15:56:22,  3.76it/s] 42%|████▏     | 155567/371472 [1:17:46<16:06:42,  3.72it/s] 42%|████▏     | 155568/371472 [1:17:46<16:06:01,  3.72it/s] 42%|████▏     | 155569/371472 [1:17:47<17:25:19,  3.44it/s] 42%|████▏     | 155570/371472 [1:17:47<17:06:12,  3.51it/s] 42%|████▏     | 155571/371472 [1:17:47<17:20:48,  3.46it/s] 42%|████▏     | 155572/371472 [1:17:48<17:01:55,  3.52it/s] 42%|████▏     | 155573/371472 [1:17:48<18:01:59,  3.33it/s] 42%|████▏     | 155574/371472 [1:17:48<18:41:13,  3.21it/s] 42%|████▏     | 155575/371472 [1:17:49<17:59:37,  3.33it/s] 42%|████▏     | 155576/371472 [1:17:49<18:07:09,  3.31it/s] 42%|████▏     | 155577/371472 [1:17:49<17:32:01,  3.42it/s] 42%|████▏     | 155578/371472 [1:17:49<17:07:03,  3.50it/s] 42%|████▏     | 155579/371472 [1:17:50<16:32:06,  3.63it/s] 42%|████▏     | 155580/371472 [1:17:50<16:18:19,  3.68it/s]                                                            {'loss': 3.3087, 'learning_rate': 6.233435325044713e-07, 'epoch': 6.7}
 42%|████▏     | 155580/371472 [1:17:50<16:18:19,  3.68it/s] 42%|████▏     | 155581/371472 [1:17:50<16:41:37,  3.59it/s] 42%|████▏     | 155582/371472 [1:17:50<16:55:19,  3.54it/s] 42%|████▏     | 155583/371472 [1:17:51<16:42:41,  3.59it/s] 42%|████▏     | 155584/371472 [1:17:51<16:44:28,  3.58it/s] 42%|████▏     | 155585/371472 [1:17:51<16:46:10,  3.58it/s] 42%|████▏     | 155586/371472 [1:17:52<18:02:51,  3.32it/s] 42%|████▏     | 155587/371472 [1:17:52<18:06:10,  3.31it/s] 42%|████▏     | 155588/371472 [1:17:52<17:36:33,  3.41it/s] 42%|████▏     | 155589/371472 [1:17:53<17:52:11,  3.36it/s] 42%|████▏     | 155590/371472 [1:17:53<17:13:47,  3.48it/s] 42%|████▏     | 155591/371472 [1:17:53<17:05:32,  3.51it/s] 42%|████▏     | 155592/371472 [1:17:53<17:29:28,  3.43it/s] 42%|████▏     | 155593/371472 [1:17:54<17:33:41,  3.41it/s] 42%|████▏     | 155594/371472 [1:17:54<18:21:11,  3.27it/s] 42%|████▏     | 155595/371472 [1:17:54<18:17:49,  3.28it/s] 42%|████▏     | 155596/371472 [1:17:55<17:55:06,  3.35it/s] 42%|████▏     | 155597/371472 [1:17:55<17:01:39,  3.52it/s] 42%|████▏     | 155598/371472 [1:17:55<16:47:45,  3.57it/s] 42%|████▏     | 155599/371472 [1:17:55<16:22:29,  3.66it/s] 42%|████▏     | 155600/371472 [1:17:56<16:54:02,  3.55it/s]                                                            {'loss': 3.2841, 'learning_rate': 6.232950505289923e-07, 'epoch': 6.7}
 42%|████▏     | 155600/371472 [1:17:56<16:54:02,  3.55it/s] 42%|████▏     | 155601/371472 [1:17:56<16:45:16,  3.58it/s] 42%|████▏     | 155602/371472 [1:17:56<16:13:17,  3.70it/s] 42%|████▏     | 155603/371472 [1:17:56<16:18:51,  3.68it/s] 42%|████▏     | 155604/371472 [1:17:57<17:21:58,  3.45it/s] 42%|████▏     | 155605/371472 [1:17:57<17:26:30,  3.44it/s] 42%|████▏     | 155606/371472 [1:17:57<16:54:27,  3.55it/s] 42%|████▏     | 155607/371472 [1:17:58<16:28:50,  3.64it/s] 42%|████▏     | 155608/371472 [1:17:58<16:36:53,  3.61it/s] 42%|████▏     | 155609/371472 [1:17:58<16:36:21,  3.61it/s] 42%|████▏     | 155610/371472 [1:17:58<16:57:23,  3.54it/s] 42%|████▏     | 155611/371472 [1:17:59<16:48:40,  3.57it/s] 42%|████▏     | 155612/371472 [1:17:59<18:03:02,  3.32it/s] 42%|████▏     | 155613/371472 [1:17:59<18:18:56,  3.27it/s] 42%|████▏     | 155614/371472 [1:18:00<18:19:47,  3.27it/s] 42%|████▏     | 155615/371472 [1:18:00<17:52:41,  3.35it/s] 42%|████▏     | 155616/371472 [1:18:00<17:23:38,  3.45it/s] 42%|████▏     | 155617/371472 [1:18:01<16:58:51,  3.53it/s] 42%|████▏     | 155618/371472 [1:18:01<17:26:15,  3.44it/s] 42%|████▏     | 155619/371472 [1:18:01<16:55:37,  3.54it/s] 42%|████▏     | 155620/371472 [1:18:01<17:07:58,  3.50it/s]                                                            {'loss': 3.2647, 'learning_rate': 6.232465685535132e-07, 'epoch': 6.7}
 42%|████▏     | 155620/371472 [1:18:01<17:07:58,  3.50it/s] 42%|████▏     | 155621/371472 [1:18:02<17:01:12,  3.52it/s] 42%|████▏     | 155622/371472 [1:18:02<16:43:34,  3.58it/s] 42%|████▏     | 155623/371472 [1:18:02<16:13:00,  3.70it/s] 42%|████▏     | 155624/371472 [1:18:02<16:29:59,  3.63it/s] 42%|████▏     | 155625/371472 [1:18:03<17:23:33,  3.45it/s] 42%|████▏     | 155626/371472 [1:18:03<17:21:01,  3.46it/s] 42%|████▏     | 155627/371472 [1:18:03<18:27:26,  3.25it/s] 42%|████▏     | 155628/371472 [1:18:04<17:30:16,  3.43it/s] 42%|████▏     | 155629/371472 [1:18:04<16:40:41,  3.59it/s] 42%|████▏     | 155630/371472 [1:18:04<16:16:54,  3.68it/s] 42%|████▏     | 155631/371472 [1:18:04<16:19:26,  3.67it/s] 42%|████▏     | 155632/371472 [1:18:05<16:08:32,  3.71it/s] 42%|████▏     | 155633/371472 [1:18:05<15:35:45,  3.84it/s] 42%|████▏     | 155634/371472 [1:18:05<16:02:46,  3.74it/s] 42%|████▏     | 155635/371472 [1:18:06<15:54:56,  3.77it/s] 42%|████▏     | 155636/371472 [1:18:06<16:01:52,  3.74it/s] 42%|████▏     | 155637/371472 [1:18:06<15:59:46,  3.75it/s] 42%|████▏     | 155638/371472 [1:18:06<16:24:32,  3.65it/s] 42%|████▏     | 155639/371472 [1:18:07<16:47:35,  3.57it/s] 42%|████▏     | 155640/371472 [1:18:07<17:38:43,  3.40it/s]                                                            {'loss': 3.0177, 'learning_rate': 6.231980865780344e-07, 'epoch': 6.7}
 42%|████▏     | 155640/371472 [1:18:07<17:38:43,  3.40it/s] 42%|████▏     | 155641/371472 [1:18:07<17:04:36,  3.51it/s] 42%|████▏     | 155642/371472 [1:18:07<16:32:57,  3.62it/s] 42%|████▏     | 155643/371472 [1:18:08<15:52:30,  3.78it/s] 42%|████▏     | 155644/371472 [1:18:08<15:48:51,  3.79it/s] 42%|████▏     | 155645/371472 [1:18:08<16:26:45,  3.65it/s] 42%|████▏     | 155646/371472 [1:18:09<16:13:33,  3.69it/s] 42%|████▏     | 155647/371472 [1:18:09<17:20:29,  3.46it/s] 42%|████▏     | 155648/371472 [1:18:09<16:40:42,  3.59it/s] 42%|████▏     | 155649/371472 [1:18:09<16:30:00,  3.63it/s] 42%|████▏     | 155650/371472 [1:18:10<17:32:27,  3.42it/s] 42%|████▏     | 155651/371472 [1:18:10<18:04:39,  3.32it/s] 42%|████▏     | 155652/371472 [1:18:10<17:18:19,  3.46it/s] 42%|████▏     | 155653/371472 [1:18:11<16:14:34,  3.69it/s] 42%|████▏     | 155654/371472 [1:18:11<16:48:09,  3.57it/s] 42%|████▏     | 155655/371472 [1:18:11<17:03:02,  3.52it/s] 42%|████▏     | 155656/371472 [1:18:11<16:59:38,  3.53it/s] 42%|████▏     | 155657/371472 [1:18:12<16:19:50,  3.67it/s] 42%|████▏     | 155658/371472 [1:18:12<17:02:20,  3.52it/s] 42%|████▏     | 155659/371472 [1:18:12<16:40:29,  3.60it/s] 42%|████▏     | 155660/371472 [1:18:12<16:04:09,  3.73it/s]                                                            {'loss': 3.2302, 'learning_rate': 6.231496046025555e-07, 'epoch': 6.7}
 42%|████▏     | 155660/371472 [1:18:12<16:04:09,  3.73it/s] 42%|████▏     | 155661/371472 [1:18:13<15:58:19,  3.75it/s] 42%|████▏     | 155662/371472 [1:18:13<16:52:13,  3.55it/s] 42%|████▏     | 155663/371472 [1:18:13<18:21:59,  3.26it/s] 42%|████▏     | 155664/371472 [1:18:14<17:42:53,  3.38it/s] 42%|████▏     | 155665/371472 [1:18:14<17:24:33,  3.44it/s] 42%|████▏     | 155666/371472 [1:18:14<16:45:52,  3.58it/s] 42%|████▏     | 155667/371472 [1:18:15<16:46:05,  3.57it/s] 42%|████▏     | 155668/371472 [1:18:15<17:15:26,  3.47it/s] 42%|████▏     | 155669/371472 [1:18:15<18:20:26,  3.27it/s] 42%|████▏     | 155670/371472 [1:18:15<17:11:42,  3.49it/s] 42%|████▏     | 155671/371472 [1:18:16<17:08:18,  3.50it/s] 42%|████▏     | 155672/371472 [1:18:16<16:46:12,  3.57it/s] 42%|████▏     | 155673/371472 [1:18:16<16:20:31,  3.67it/s] 42%|████▏     | 155674/371472 [1:18:16<16:19:35,  3.67it/s] 42%|████▏     | 155675/371472 [1:18:17<17:07:35,  3.50it/s] 42%|████▏     | 155676/371472 [1:18:17<16:52:18,  3.55it/s] 42%|████▏     | 155677/371472 [1:18:17<16:32:41,  3.62it/s] 42%|████▏     | 155678/371472 [1:18:18<18:00:51,  3.33it/s] 42%|████▏     | 155679/371472 [1:18:18<17:51:39,  3.36it/s] 42%|████▏     | 155680/371472 [1:18:18<17:30:31,  3.42it/s]                                                            {'loss': 2.9894, 'learning_rate': 6.231011226270766e-07, 'epoch': 6.71}
 42%|████▏     | 155680/371472 [1:18:18<17:30:31,  3.42it/s] 42%|████▏     | 155681/371472 [1:18:19<17:50:20,  3.36it/s] 42%|████▏     | 155682/371472 [1:18:19<17:25:20,  3.44it/s] 42%|████▏     | 155683/371472 [1:18:19<17:34:28,  3.41it/s] 42%|████▏     | 155684/371472 [1:18:19<17:12:46,  3.48it/s] 42%|████▏     | 155685/371472 [1:18:20<16:54:40,  3.54it/s] 42%|████▏     | 155686/371472 [1:18:20<16:35:27,  3.61it/s] 42%|████▏     | 155687/371472 [1:18:20<16:06:03,  3.72it/s] 42%|████▏     | 155688/371472 [1:18:20<16:05:54,  3.72it/s] 42%|████▏     | 155689/371472 [1:18:21<16:43:35,  3.58it/s] 42%|████▏     | 155690/371472 [1:18:21<16:02:45,  3.74it/s] 42%|████▏     | 155691/371472 [1:18:21<16:24:17,  3.65it/s] 42%|████▏     | 155692/371472 [1:18:22<16:15:06,  3.69it/s] 42%|████▏     | 155693/371472 [1:18:22<16:13:52,  3.69it/s] 42%|████▏     | 155694/371472 [1:18:22<16:06:38,  3.72it/s] 42%|████▏     | 155695/371472 [1:18:22<15:47:21,  3.80it/s] 42%|████▏     | 155696/371472 [1:18:23<16:19:09,  3.67it/s] 42%|████▏     | 155697/371472 [1:18:23<16:30:21,  3.63it/s] 42%|████▏     | 155698/371472 [1:18:23<16:18:08,  3.68it/s] 42%|████▏     | 155699/371472 [1:18:23<16:42:31,  3.59it/s] 42%|████▏     | 155700/371472 [1:18:24<17:44:21,  3.38it/s]                                                            {'loss': 3.1538, 'learning_rate': 6.230526406515977e-07, 'epoch': 6.71}
 42%|████▏     | 155700/371472 [1:18:24<17:44:21,  3.38it/s] 42%|████▏     | 155701/371472 [1:18:24<17:53:27,  3.35it/s] 42%|████▏     | 155702/371472 [1:18:24<16:52:31,  3.55it/s] 42%|████▏     | 155703/371472 [1:18:25<16:29:55,  3.63it/s] 42%|████▏     | 155704/371472 [1:18:25<18:48:29,  3.19it/s] 42%|████▏     | 155705/371472 [1:18:25<17:35:59,  3.41it/s] 42%|████▏     | 155706/371472 [1:18:26<17:18:36,  3.46it/s] 42%|████▏     | 155707/371472 [1:18:26<17:28:09,  3.43it/s] 42%|████▏     | 155708/371472 [1:18:26<17:27:45,  3.43it/s] 42%|████▏     | 155709/371472 [1:18:26<17:04:43,  3.51it/s] 42%|████▏     | 155710/371472 [1:18:27<17:15:53,  3.47it/s] 42%|████▏     | 155711/371472 [1:18:27<17:22:14,  3.45it/s] 42%|████▏     | 155712/371472 [1:18:27<17:11:37,  3.49it/s] 42%|████▏     | 155713/371472 [1:18:28<16:42:29,  3.59it/s] 42%|████▏     | 155714/371472 [1:18:28<16:08:51,  3.71it/s] 42%|████▏     | 155715/371472 [1:18:28<15:57:15,  3.76it/s] 42%|████▏     | 155716/371472 [1:18:28<15:41:17,  3.82it/s] 42%|████▏     | 155717/371472 [1:18:29<16:51:07,  3.56it/s] 42%|████▏     | 155718/371472 [1:18:29<17:29:35,  3.43it/s] 42%|████▏     | 155719/371472 [1:18:29<17:30:11,  3.42it/s] 42%|████▏     | 155720/371472 [1:18:30<17:07:11,  3.50it/s]                                                            {'loss': 3.3232, 'learning_rate': 6.230041586761189e-07, 'epoch': 6.71}
 42%|████▏     | 155720/371472 [1:18:30<17:07:11,  3.50it/s] 42%|████▏     | 155721/371472 [1:18:30<16:47:11,  3.57it/s] 42%|████▏     | 155722/371472 [1:18:30<16:48:02,  3.57it/s] 42%|████▏     | 155723/371472 [1:18:30<16:18:03,  3.68it/s] 42%|████▏     | 155724/371472 [1:18:31<16:15:36,  3.69it/s] 42%|████▏     | 155725/371472 [1:18:31<16:08:03,  3.71it/s] 42%|████▏     | 155726/371472 [1:18:31<16:29:22,  3.63it/s] 42%|████▏     | 155727/371472 [1:18:31<16:23:02,  3.66it/s] 42%|████▏     | 155728/371472 [1:18:32<17:25:39,  3.44it/s] 42%|████▏     | 155729/371472 [1:18:32<17:19:39,  3.46it/s] 42%|████▏     | 155730/371472 [1:18:32<16:56:41,  3.54it/s] 42%|████▏     | 155731/371472 [1:18:33<16:29:44,  3.63it/s] 42%|████▏     | 155732/371472 [1:18:33<15:44:35,  3.81it/s] 42%|████▏     | 155733/371472 [1:18:33<16:06:03,  3.72it/s] 42%|████▏     | 155734/371472 [1:18:33<16:12:52,  3.70it/s] 42%|████▏     | 155735/371472 [1:18:34<16:49:41,  3.56it/s] 42%|████▏     | 155736/371472 [1:18:34<16:47:22,  3.57it/s] 42%|████▏     | 155737/371472 [1:18:34<16:31:04,  3.63it/s] 42%|████▏     | 155738/371472 [1:18:34<16:05:00,  3.73it/s] 42%|████▏     | 155739/371472 [1:18:35<15:46:31,  3.80it/s] 42%|████▏     | 155740/371472 [1:18:35<16:37:17,  3.61it/s]                                                            {'loss': 3.2513, 'learning_rate': 6.229556767006399e-07, 'epoch': 6.71}
 42%|████▏     | 155740/371472 [1:18:35<16:37:17,  3.61it/s] 42%|████▏     | 155741/371472 [1:18:35<16:38:01,  3.60it/s] 42%|████▏     | 155742/371472 [1:18:36<16:58:38,  3.53it/s] 42%|████▏     | 155743/371472 [1:18:36<17:07:34,  3.50it/s] 42%|████▏     | 155744/371472 [1:18:36<17:23:26,  3.45it/s] 42%|████▏     | 155745/371472 [1:18:36<17:15:29,  3.47it/s] 42%|████▏     | 155746/371472 [1:18:37<18:33:15,  3.23it/s] 42%|████▏     | 155747/371472 [1:18:37<17:36:41,  3.40it/s] 42%|████▏     | 155748/371472 [1:18:37<18:20:58,  3.27it/s] 42%|████▏     | 155749/371472 [1:18:38<17:51:58,  3.35it/s] 42%|████▏     | 155750/371472 [1:18:38<17:55:40,  3.34it/s] 42%|████▏     | 155751/371472 [1:18:38<17:51:38,  3.36it/s] 42%|████▏     | 155752/371472 [1:18:39<19:03:56,  3.14it/s] 42%|████▏     | 155753/371472 [1:18:39<18:52:20,  3.18it/s] 42%|████▏     | 155754/371472 [1:18:39<17:39:47,  3.39it/s] 42%|████▏     | 155755/371472 [1:18:39<17:07:21,  3.50it/s] 42%|████▏     | 155756/371472 [1:18:40<19:00:07,  3.15it/s] 42%|████▏     | 155757/371472 [1:18:40<18:28:28,  3.24it/s] 42%|████▏     | 155758/371472 [1:18:41<19:27:05,  3.08it/s] 42%|████▏     | 155759/371472 [1:18:41<18:11:39,  3.29it/s] 42%|████▏     | 155760/371472 [1:18:41<17:20:25,  3.46it/s]                                                            {'loss': 3.0514, 'learning_rate': 6.229071947251609e-07, 'epoch': 6.71}
 42%|████▏     | 155760/371472 [1:18:41<17:20:25,  3.46it/s] 42%|████▏     | 155761/371472 [1:18:41<17:44:33,  3.38it/s] 42%|████▏     | 155762/371472 [1:18:42<16:54:45,  3.54it/s] 42%|████▏     | 155763/371472 [1:18:42<17:37:38,  3.40it/s] 42%|████▏     | 155764/371472 [1:18:42<17:24:59,  3.44it/s] 42%|████▏     | 155765/371472 [1:18:42<17:17:29,  3.47it/s] 42%|████▏     | 155766/371472 [1:18:43<17:00:47,  3.52it/s] 42%|████▏     | 155767/371472 [1:18:43<16:46:59,  3.57it/s] 42%|████▏     | 155768/371472 [1:18:43<17:52:59,  3.35it/s] 42%|████▏     | 155769/371472 [1:18:44<17:28:34,  3.43it/s] 42%|████▏     | 155770/371472 [1:18:44<17:41:07,  3.39it/s] 42%|████▏     | 155771/371472 [1:18:44<16:49:35,  3.56it/s] 42%|████▏     | 155772/371472 [1:18:44<16:13:23,  3.69it/s] 42%|████▏     | 155773/371472 [1:18:45<17:17:46,  3.46it/s] 42%|████▏     | 155774/371472 [1:18:45<17:01:12,  3.52it/s] 42%|████▏     | 155775/371472 [1:18:45<17:18:45,  3.46it/s] 42%|████▏     | 155776/371472 [1:18:46<17:16:24,  3.47it/s] 42%|████▏     | 155777/371472 [1:18:46<17:15:56,  3.47it/s] 42%|████▏     | 155778/371472 [1:18:46<18:08:08,  3.30it/s] 42%|████▏     | 155779/371472 [1:18:47<18:21:41,  3.26it/s] 42%|████▏     | 155780/371472 [1:18:47<17:55:33,  3.34it/s]                                                            {'loss': 3.0505, 'learning_rate': 6.228587127496821e-07, 'epoch': 6.71}
 42%|████▏     | 155780/371472 [1:18:47<17:55:33,  3.34it/s] 42%|████▏     | 155781/371472 [1:18:47<17:48:26,  3.36it/s] 42%|████▏     | 155782/371472 [1:18:47<17:02:26,  3.52it/s] 42%|████▏     | 155783/371472 [1:18:48<16:22:06,  3.66it/s] 42%|████▏     | 155784/371472 [1:18:48<16:14:18,  3.69it/s] 42%|████▏     | 155785/371472 [1:18:48<17:06:56,  3.50it/s] 42%|████▏     | 155786/371472 [1:18:48<16:43:44,  3.58it/s] 42%|████▏     | 155787/371472 [1:18:49<17:00:48,  3.52it/s] 42%|████▏     | 155788/371472 [1:18:49<16:57:31,  3.53it/s] 42%|████▏     | 155789/371472 [1:18:49<16:40:39,  3.59it/s] 42%|████▏     | 155790/371472 [1:18:50<16:29:12,  3.63it/s] 42%|████▏     | 155791/371472 [1:18:50<18:15:31,  3.28it/s] 42%|████▏     | 155792/371472 [1:18:50<18:01:05,  3.33it/s] 42%|████▏     | 155793/371472 [1:18:51<17:47:12,  3.37it/s] 42%|████▏     | 155794/371472 [1:18:51<17:10:22,  3.49it/s] 42%|████▏     | 155795/371472 [1:18:51<19:06:21,  3.14it/s] 42%|████▏     | 155796/371472 [1:18:51<18:28:21,  3.24it/s] 42%|████▏     | 155797/371472 [1:18:52<19:00:34,  3.15it/s] 42%|████▏     | 155798/371472 [1:18:52<17:54:19,  3.35it/s] 42%|████▏     | 155799/371472 [1:18:52<18:23:56,  3.26it/s] 42%|████▏     | 155800/371472 [1:18:53<17:43:56,  3.38it/s]                                                            {'loss': 3.1595, 'learning_rate': 6.228102307742033e-07, 'epoch': 6.71}
 42%|████▏     | 155800/371472 [1:18:53<17:43:56,  3.38it/s] 42%|████▏     | 155801/371472 [1:18:53<18:53:09,  3.17it/s] 42%|████▏     | 155802/371472 [1:18:53<18:06:02,  3.31it/s] 42%|████▏     | 155803/371472 [1:18:54<18:24:07,  3.26it/s] 42%|████▏     | 155804/371472 [1:18:54<18:06:30,  3.31it/s] 42%|████▏     | 155805/371472 [1:18:54<18:20:02,  3.27it/s] 42%|████▏     | 155806/371472 [1:18:55<17:46:59,  3.37it/s] 42%|████▏     | 155807/371472 [1:18:55<19:29:37,  3.07it/s] 42%|████▏     | 155808/371472 [1:18:55<18:16:12,  3.28it/s] 42%|████▏     | 155809/371472 [1:18:55<18:39:55,  3.21it/s] 42%|████▏     | 155810/371472 [1:18:56<17:38:26,  3.40it/s] 42%|████▏     | 155811/371472 [1:18:56<17:12:11,  3.48it/s] 42%|████▏     | 155812/371472 [1:18:56<16:51:51,  3.55it/s] 42%|████▏     | 155813/371472 [1:18:57<16:53:46,  3.55it/s] 42%|████▏     | 155814/371472 [1:18:57<17:02:01,  3.52it/s] 42%|████▏     | 155815/371472 [1:18:57<18:47:19,  3.19it/s] 42%|████▏     | 155816/371472 [1:18:58<18:00:44,  3.33it/s] 42%|████▏     | 155817/371472 [1:18:58<18:38:53,  3.21it/s] 42%|████▏     | 155818/371472 [1:18:58<17:45:42,  3.37it/s] 42%|████▏     | 155819/371472 [1:18:58<18:04:10,  3.32it/s] 42%|████▏     | 155820/371472 [1:18:59<17:56:06,  3.34it/s]                                                            {'loss': 3.1456, 'learning_rate': 6.227617487987244e-07, 'epoch': 6.71}
 42%|████▏     | 155820/371472 [1:18:59<17:56:06,  3.34it/s] 42%|████▏     | 155821/371472 [1:18:59<19:26:28,  3.08it/s] 42%|████▏     | 155822/371472 [1:18:59<18:00:26,  3.33it/s] 42%|████▏     | 155823/371472 [1:19:00<17:17:18,  3.46it/s] 42%|████▏     | 155824/371472 [1:19:00<17:40:58,  3.39it/s] 42%|████▏     | 155825/371472 [1:19:00<17:09:12,  3.49it/s] 42%|████▏     | 155826/371472 [1:19:00<16:58:57,  3.53it/s] 42%|████▏     | 155827/371472 [1:19:01<16:49:36,  3.56it/s] 42%|████▏     | 155828/371472 [1:19:01<16:40:11,  3.59it/s] 42%|████▏     | 155829/371472 [1:19:01<17:33:25,  3.41it/s] 42%|████▏     | 155830/371472 [1:19:02<17:38:32,  3.40it/s] 42%|████▏     | 155831/371472 [1:19:02<17:30:29,  3.42it/s] 42%|████▏     | 155832/371472 [1:19:02<17:08:36,  3.49it/s] 42%|████▏     | 155833/371472 [1:19:02<16:21:48,  3.66it/s] 42%|████▏     | 155834/371472 [1:19:03<16:08:32,  3.71it/s] 42%|████▏     | 155835/371472 [1:19:03<16:21:18,  3.66it/s] 42%|████▏     | 155836/371472 [1:19:03<16:07:26,  3.71it/s] 42%|████▏     | 155837/371472 [1:19:04<16:06:33,  3.72it/s] 42%|████▏     | 155838/371472 [1:19:04<16:13:59,  3.69it/s] 42%|████▏     | 155839/371472 [1:19:04<16:31:44,  3.62it/s] 42%|████▏     | 155840/371472 [1:19:04<16:35:34,  3.61it/s]                                                            {'loss': 3.2296, 'learning_rate': 6.227132668232454e-07, 'epoch': 6.71}
 42%|████▏     | 155840/371472 [1:19:04<16:35:34,  3.61it/s] 42%|████▏     | 155841/371472 [1:19:05<17:01:09,  3.52it/s] 42%|████▏     | 155842/371472 [1:19:05<17:35:00,  3.41it/s] 42%|████▏     | 155843/371472 [1:19:05<17:04:26,  3.51it/s] 42%|████▏     | 155844/371472 [1:19:06<17:07:11,  3.50it/s] 42%|████▏     | 155845/371472 [1:19:06<16:44:38,  3.58it/s] 42%|████▏     | 155846/371472 [1:19:06<16:13:50,  3.69it/s] 42%|████▏     | 155847/371472 [1:19:06<15:42:00,  3.82it/s] 42%|████▏     | 155848/371472 [1:19:07<15:58:56,  3.75it/s] 42%|████▏     | 155849/371472 [1:19:07<16:12:02,  3.70it/s] 42%|████▏     | 155850/371472 [1:19:07<17:19:09,  3.46it/s] 42%|████▏     | 155851/371472 [1:19:07<17:04:19,  3.51it/s] 42%|████▏     | 155852/371472 [1:19:08<16:18:03,  3.67it/s] 42%|████▏     | 155853/371472 [1:19:08<16:07:39,  3.71it/s] 42%|████▏     | 155854/371472 [1:19:08<15:47:18,  3.79it/s] 42%|████▏     | 155855/371472 [1:19:08<15:33:31,  3.85it/s] 42%|████▏     | 155856/371472 [1:19:09<15:51:52,  3.78it/s] 42%|████▏     | 155857/371472 [1:19:09<15:54:13,  3.77it/s] 42%|████▏     | 155858/371472 [1:19:09<16:05:52,  3.72it/s] 42%|████▏     | 155859/371472 [1:19:10<15:47:01,  3.79it/s] 42%|████▏     | 155860/371472 [1:19:10<17:05:10,  3.51it/s]                                                            {'loss': 3.2033, 'learning_rate': 6.226647848477666e-07, 'epoch': 6.71}
 42%|████▏     | 155860/371472 [1:19:10<17:05:10,  3.51it/s] 42%|████▏     | 155861/371472 [1:19:10<18:03:17,  3.32it/s] 42%|████▏     | 155862/371472 [1:19:10<17:38:20,  3.40it/s] 42%|████▏     | 155863/371472 [1:19:11<17:14:09,  3.47it/s] 42%|████▏     | 155864/371472 [1:19:11<16:56:14,  3.54it/s] 42%|████▏     | 155865/371472 [1:19:11<17:01:42,  3.52it/s] 42%|████▏     | 155866/371472 [1:19:12<17:03:47,  3.51it/s] 42%|████▏     | 155867/371472 [1:19:12<18:23:02,  3.26it/s] 42%|████▏     | 155868/371472 [1:19:12<18:09:28,  3.30it/s] 42%|████▏     | 155869/371472 [1:19:13<17:28:51,  3.43it/s] 42%|████▏     | 155870/371472 [1:19:13<17:31:43,  3.42it/s] 42%|████▏     | 155871/371472 [1:19:13<19:23:20,  3.09it/s] 42%|████▏     | 155872/371472 [1:19:14<19:56:32,  3.00it/s] 42%|████▏     | 155873/371472 [1:19:14<18:44:56,  3.19it/s] 42%|████▏     | 155874/371472 [1:19:14<17:57:20,  3.34it/s] 42%|████▏     | 155875/371472 [1:19:14<17:50:13,  3.36it/s] 42%|████▏     | 155876/371472 [1:19:15<17:05:18,  3.50it/s] 42%|████▏     | 155877/371472 [1:19:15<17:10:15,  3.49it/s] 42%|████▏     | 155878/371472 [1:19:15<17:49:07,  3.36it/s] 42%|████▏     | 155879/371472 [1:19:16<17:18:50,  3.46it/s] 42%|████▏     | 155880/371472 [1:19:16<16:47:34,  3.57it/s]                                                            {'loss': 3.1301, 'learning_rate': 6.226163028722877e-07, 'epoch': 6.71}
 42%|████▏     | 155880/371472 [1:19:16<16:47:34,  3.57it/s] 42%|████▏     | 155881/371472 [1:19:16<17:28:42,  3.43it/s] 42%|████▏     | 155882/371472 [1:19:16<17:16:10,  3.47it/s] 42%|████▏     | 155883/371472 [1:19:17<16:59:41,  3.52it/s] 42%|████▏     | 155884/371472 [1:19:17<16:44:26,  3.58it/s] 42%|████▏     | 155885/371472 [1:19:17<16:11:58,  3.70it/s] 42%|████▏     | 155886/371472 [1:19:18<18:12:45,  3.29it/s] 42%|████▏     | 155887/371472 [1:19:18<18:10:36,  3.29it/s] 42%|████▏     | 155888/371472 [1:19:18<17:11:19,  3.48it/s] 42%|████▏     | 155889/371472 [1:19:18<17:59:08,  3.33it/s] 42%|████▏     | 155890/371472 [1:19:19<17:07:44,  3.50it/s] 42%|████▏     | 155891/371472 [1:19:19<17:45:40,  3.37it/s] 42%|████▏     | 155892/371472 [1:19:19<17:22:40,  3.45it/s] 42%|████▏     | 155893/371472 [1:19:20<16:40:33,  3.59it/s] 42%|████▏     | 155894/371472 [1:19:20<16:41:37,  3.59it/s] 42%|████▏     | 155895/371472 [1:19:20<17:32:00,  3.42it/s] 42%|████▏     | 155896/371472 [1:19:20<17:52:47,  3.35it/s] 42%|████▏     | 155897/371472 [1:19:21<18:09:46,  3.30it/s] 42%|████▏     | 155898/371472 [1:19:21<17:03:05,  3.51it/s] 42%|████▏     | 155899/371472 [1:19:21<16:38:10,  3.60it/s] 42%|████▏     | 155900/371472 [1:19:22<16:19:13,  3.67it/s]                                                            {'loss': 3.105, 'learning_rate': 6.225678208968089e-07, 'epoch': 6.71}
 42%|████▏     | 155900/371472 [1:19:22<16:19:13,  3.67it/s] 42%|████▏     | 155901/371472 [1:19:22<16:11:15,  3.70it/s] 42%|████▏     | 155902/371472 [1:19:22<17:13:06,  3.48it/s] 42%|████▏     | 155903/371472 [1:19:22<17:16:56,  3.46it/s] 42%|████▏     | 155904/371472 [1:19:23<16:48:59,  3.56it/s] 42%|████▏     | 155905/371472 [1:19:23<16:16:11,  3.68it/s] 42%|████▏     | 155906/371472 [1:19:23<16:12:03,  3.70it/s] 42%|████▏     | 155907/371472 [1:19:23<16:44:48,  3.58it/s] 42%|████▏     | 155908/371472 [1:19:24<16:30:22,  3.63it/s] 42%|████▏     | 155909/371472 [1:19:24<16:26:33,  3.64it/s] 42%|████▏     | 155910/371472 [1:19:24<16:33:01,  3.62it/s] 42%|████▏     | 155911/371472 [1:19:25<16:34:34,  3.61it/s] 42%|████▏     | 155912/371472 [1:19:25<16:15:34,  3.68it/s] 42%|████▏     | 155913/371472 [1:19:25<16:08:53,  3.71it/s] 42%|████▏     | 155914/371472 [1:19:25<15:59:07,  3.75it/s] 42%|████▏     | 155915/371472 [1:19:26<16:30:22,  3.63it/s] 42%|████▏     | 155916/371472 [1:19:26<16:19:10,  3.67it/s] 42%|████▏     | 155917/371472 [1:19:26<16:47:55,  3.56it/s] 42%|████▏     | 155918/371472 [1:19:26<16:21:22,  3.66it/s] 42%|████▏     | 155919/371472 [1:19:27<16:56:47,  3.53it/s] 42%|████▏     | 155920/371472 [1:19:27<16:45:40,  3.57it/s]                                                            {'loss': 3.1485, 'learning_rate': 6.225193389213298e-07, 'epoch': 6.72}
 42%|████▏     | 155920/371472 [1:19:27<16:45:40,  3.57it/s] 42%|████▏     | 155921/371472 [1:19:27<17:12:15,  3.48it/s] 42%|████▏     | 155922/371472 [1:19:28<16:41:44,  3.59it/s] 42%|████▏     | 155923/371472 [1:19:28<16:14:40,  3.69it/s] 42%|████▏     | 155924/371472 [1:19:28<16:07:34,  3.71it/s] 42%|████▏     | 155925/371472 [1:19:28<17:06:49,  3.50it/s] 42%|████▏     | 155926/371472 [1:19:29<17:00:48,  3.52it/s] 42%|████▏     | 155927/371472 [1:19:29<16:54:08,  3.54it/s] 42%|████▏     | 155928/371472 [1:19:29<16:46:23,  3.57it/s] 42%|████▏     | 155929/371472 [1:19:30<16:42:30,  3.58it/s] 42%|████▏     | 155930/371472 [1:19:30<16:29:23,  3.63it/s] 42%|████▏     | 155931/371472 [1:19:30<17:10:57,  3.48it/s] 42%|████▏     | 155932/371472 [1:19:30<16:54:13,  3.54it/s] 42%|████▏     | 155933/371472 [1:19:31<16:56:06,  3.54it/s] 42%|████▏     | 155934/371472 [1:19:31<16:20:48,  3.66it/s] 42%|████▏     | 155935/371472 [1:19:31<16:43:49,  3.58it/s] 42%|████▏     | 155936/371472 [1:19:32<17:28:25,  3.43it/s] 42%|████▏     | 155937/371472 [1:19:32<17:22:41,  3.45it/s] 42%|████▏     | 155938/371472 [1:19:32<16:45:34,  3.57it/s] 42%|████▏     | 155939/371472 [1:19:32<16:02:29,  3.73it/s] 42%|████▏     | 155940/371472 [1:19:33<16:48:06,  3.56it/s]                                                            {'loss': 3.1264, 'learning_rate': 6.22470856945851e-07, 'epoch': 6.72}
 42%|████▏     | 155940/371472 [1:19:33<16:48:06,  3.56it/s] 42%|████▏     | 155941/371472 [1:19:33<17:51:20,  3.35it/s] 42%|████▏     | 155942/371472 [1:19:33<17:20:54,  3.45it/s] 42%|████▏     | 155943/371472 [1:19:34<16:49:40,  3.56it/s] 42%|████▏     | 155944/371472 [1:19:34<17:13:40,  3.48it/s] 42%|████▏     | 155945/371472 [1:19:34<18:05:42,  3.31it/s] 42%|████▏     | 155946/371472 [1:19:34<17:25:32,  3.44it/s] 42%|████▏     | 155947/371472 [1:19:35<17:31:32,  3.42it/s] 42%|████▏     | 155948/371472 [1:19:35<17:10:24,  3.49it/s] 42%|████▏     | 155949/371472 [1:19:35<16:39:32,  3.59it/s] 42%|████▏     | 155950/371472 [1:19:36<16:41:33,  3.59it/s] 42%|████▏     | 155951/371472 [1:19:36<16:05:09,  3.72it/s] 42%|████▏     | 155952/371472 [1:19:36<17:19:50,  3.45it/s] 42%|████▏     | 155953/371472 [1:19:36<17:59:50,  3.33it/s] 42%|████▏     | 155954/371472 [1:19:37<17:38:36,  3.39it/s] 42%|████▏     | 155955/371472 [1:19:37<17:06:20,  3.50it/s] 42%|████▏     | 155956/371472 [1:19:37<18:08:42,  3.30it/s] 42%|████▏     | 155957/371472 [1:19:38<17:19:31,  3.46it/s] 42%|████▏     | 155958/371472 [1:19:38<16:51:31,  3.55it/s] 42%|████▏     | 155959/371472 [1:19:38<16:36:40,  3.60it/s] 42%|████▏     | 155960/371472 [1:19:38<16:51:00,  3.55it/s]                                                            {'loss': 3.0724, 'learning_rate': 6.224223749703722e-07, 'epoch': 6.72}
 42%|████▏     | 155960/371472 [1:19:38<16:51:00,  3.55it/s] 42%|████▏     | 155961/371472 [1:19:39<16:46:27,  3.57it/s] 42%|████▏     | 155962/371472 [1:19:39<16:27:11,  3.64it/s] 42%|████▏     | 155963/371472 [1:19:39<17:04:37,  3.51it/s] 42%|████▏     | 155964/371472 [1:19:40<16:31:37,  3.62it/s] 42%|████▏     | 155965/371472 [1:19:40<17:02:20,  3.51it/s] 42%|████▏     | 155966/371472 [1:19:40<16:48:30,  3.56it/s] 42%|████▏     | 155967/371472 [1:19:40<16:14:23,  3.69it/s] 42%|████▏     | 155968/371472 [1:19:41<17:03:21,  3.51it/s] 42%|████▏     | 155969/371472 [1:19:41<17:45:20,  3.37it/s] 42%|████▏     | 155970/371472 [1:19:41<17:17:09,  3.46it/s] 42%|████▏     | 155971/371472 [1:19:42<17:16:08,  3.47it/s] 42%|████▏     | 155972/371472 [1:19:42<17:13:12,  3.48it/s] 42%|████▏     | 155973/371472 [1:19:42<17:28:45,  3.42it/s] 42%|████▏     | 155974/371472 [1:19:42<17:58:23,  3.33it/s] 42%|████▏     | 155975/371472 [1:19:43<17:20:20,  3.45it/s] 42%|████▏     | 155976/371472 [1:19:43<16:42:22,  3.58it/s] 42%|████▏     | 155977/371472 [1:19:43<17:03:22,  3.51it/s] 42%|████▏     | 155978/371472 [1:19:44<17:06:36,  3.50it/s] 42%|████▏     | 155979/371472 [1:19:44<16:39:30,  3.59it/s] 42%|████▏     | 155980/371472 [1:19:44<17:42:46,  3.38it/s]                                                            {'loss': 2.9563, 'learning_rate': 6.223738929948933e-07, 'epoch': 6.72}
 42%|████▏     | 155980/371472 [1:19:44<17:42:46,  3.38it/s] 42%|████▏     | 155981/371472 [1:19:44<17:47:30,  3.36it/s] 42%|████▏     | 155982/371472 [1:19:45<17:31:25,  3.42it/s] 42%|████▏     | 155983/371472 [1:19:45<16:59:04,  3.52it/s] 42%|████▏     | 155984/371472 [1:19:45<18:17:28,  3.27it/s] 42%|████▏     | 155985/371472 [1:19:46<17:49:45,  3.36it/s] 42%|████▏     | 155986/371472 [1:19:46<19:07:09,  3.13it/s] 42%|████▏     | 155987/371472 [1:19:46<20:24:52,  2.93it/s] 42%|████▏     | 155988/371472 [1:19:47<19:41:13,  3.04it/s] 42%|████▏     | 155989/371472 [1:19:47<18:42:17,  3.20it/s] 42%|████▏     | 155990/371472 [1:19:47<18:25:35,  3.25it/s] 42%|████▏     | 155991/371472 [1:19:48<17:57:30,  3.33it/s] 42%|████▏     | 155992/371472 [1:19:48<17:00:49,  3.52it/s] 42%|████▏     | 155993/371472 [1:19:48<17:09:12,  3.49it/s] 42%|████▏     | 155994/371472 [1:19:48<18:24:03,  3.25it/s] 42%|████▏     | 155995/371472 [1:19:49<17:42:36,  3.38it/s] 42%|████▏     | 155996/371472 [1:19:49<17:23:26,  3.44it/s] 42%|████▏     | 155997/371472 [1:19:49<17:29:37,  3.42it/s] 42%|████▏     | 155998/371472 [1:19:50<17:36:41,  3.40it/s] 42%|████▏     | 155999/371472 [1:19:50<17:03:33,  3.51it/s] 42%|████▏     | 156000/371472 [1:19:50<17:16:44,  3.46it/s]                                                            {'loss': 3.0475, 'learning_rate': 6.223254110194142e-07, 'epoch': 6.72}
 42%|████▏     | 156000/371472 [1:19:50<17:16:44,  3.46it/s] 42%|████▏     | 156001/371472 [1:19:50<17:01:43,  3.51it/s] 42%|████▏     | 156002/371472 [1:19:51<16:48:19,  3.56it/s] 42%|████▏     | 156003/371472 [1:19:51<16:21:55,  3.66it/s] 42%|████▏     | 156004/371472 [1:19:51<16:30:51,  3.62it/s] 42%|████▏     | 156005/371472 [1:19:52<16:19:45,  3.67it/s] 42%|████▏     | 156006/371472 [1:19:52<17:31:06,  3.42it/s] 42%|████▏     | 156007/371472 [1:19:52<16:55:20,  3.54it/s] 42%|████▏     | 156008/371472 [1:19:52<16:42:16,  3.58it/s] 42%|████▏     | 156009/371472 [1:19:53<16:26:53,  3.64it/s] 42%|████▏     | 156010/371472 [1:19:53<15:45:57,  3.80it/s] 42%|████▏     | 156011/371472 [1:19:53<16:06:47,  3.71it/s] 42%|████▏     | 156012/371472 [1:19:53<15:58:33,  3.75it/s] 42%|████▏     | 156013/371472 [1:19:54<16:37:05,  3.60it/s] 42%|████▏     | 156014/371472 [1:19:54<16:17:57,  3.67it/s] 42%|████▏     | 156015/371472 [1:19:54<16:31:34,  3.62it/s] 42%|████▏     | 156016/371472 [1:19:55<18:17:13,  3.27it/s] 42%|████▏     | 156017/371472 [1:19:55<18:14:40,  3.28it/s] 42%|████▏     | 156018/371472 [1:19:55<17:22:39,  3.44it/s] 42%|████▏     | 156019/371472 [1:19:56<18:03:57,  3.31it/s] 42%|████▏     | 156020/371472 [1:19:56<17:48:47,  3.36it/s]                                                            {'loss': 3.312, 'learning_rate': 6.222769290439354e-07, 'epoch': 6.72}
 42%|████▏     | 156020/371472 [1:19:56<17:48:47,  3.36it/s] 42%|████▏     | 156021/371472 [1:19:56<18:51:43,  3.17it/s] 42%|████▏     | 156022/371472 [1:19:56<18:22:44,  3.26it/s] 42%|████▏     | 156023/371472 [1:19:57<17:54:13,  3.34it/s] 42%|████▏     | 156024/371472 [1:19:57<17:27:23,  3.43it/s] 42%|████▏     | 156025/371472 [1:19:57<17:03:38,  3.51it/s] 42%|████▏     | 156026/371472 [1:19:58<17:53:31,  3.34it/s] 42%|████▏     | 156027/371472 [1:19:58<18:14:00,  3.28it/s] 42%|████▏     | 156028/371472 [1:19:58<17:48:50,  3.36it/s] 42%|████▏     | 156029/371472 [1:19:59<17:49:31,  3.36it/s] 42%|████▏     | 156030/371472 [1:19:59<17:56:00,  3.34it/s] 42%|████▏     | 156031/371472 [1:19:59<17:09:05,  3.49it/s] 42%|████▏     | 156032/371472 [1:19:59<17:04:21,  3.51it/s] 42%|████▏     | 156033/371472 [1:20:00<17:11:16,  3.48it/s] 42%|████▏     | 156034/371472 [1:20:00<16:52:56,  3.54it/s] 42%|████▏     | 156035/371472 [1:20:00<17:04:53,  3.50it/s] 42%|████▏     | 156036/371472 [1:20:01<16:51:23,  3.55it/s] 42%|████▏     | 156037/371472 [1:20:01<16:40:24,  3.59it/s] 42%|████▏     | 156038/371472 [1:20:01<17:33:25,  3.41it/s] 42%|████▏     | 156039/371472 [1:20:01<17:32:52,  3.41it/s] 42%|████▏     | 156040/371472 [1:20:02<16:42:32,  3.58it/s]                                                            {'loss': 3.2102, 'learning_rate': 6.222284470684566e-07, 'epoch': 6.72}
 42%|████▏     | 156040/371472 [1:20:02<16:42:32,  3.58it/s] 42%|████▏     | 156041/371472 [1:20:02<15:58:41,  3.75it/s] 42%|████▏     | 156042/371472 [1:20:02<16:16:50,  3.68it/s] 42%|████▏     | 156043/371472 [1:20:02<16:21:58,  3.66it/s] 42%|████▏     | 156044/371472 [1:20:03<16:46:07,  3.57it/s] 42%|████▏     | 156045/371472 [1:20:03<16:54:01,  3.54it/s] 42%|████▏     | 156046/371472 [1:20:03<17:30:46,  3.42it/s] 42%|████▏     | 156047/371472 [1:20:04<18:01:56,  3.32it/s] 42%|████▏     | 156048/371472 [1:20:04<17:14:24,  3.47it/s] 42%|████▏     | 156049/371472 [1:20:04<17:47:06,  3.36it/s] 42%|████▏     | 156050/371472 [1:20:04<16:49:45,  3.56it/s] 42%|████▏     | 156051/371472 [1:20:05<15:57:45,  3.75it/s] 42%|████▏     | 156052/371472 [1:20:05<16:28:51,  3.63it/s] 42%|████▏     | 156053/371472 [1:20:05<16:29:25,  3.63it/s] 42%|████▏     | 156054/371472 [1:20:06<16:08:25,  3.71it/s] 42%|████▏     | 156055/371472 [1:20:06<15:46:14,  3.79it/s] 42%|████▏     | 156056/371472 [1:20:06<16:49:39,  3.56it/s] 42%|████▏     | 156057/371472 [1:20:06<17:15:45,  3.47it/s] 42%|████▏     | 156058/371472 [1:20:07<16:50:27,  3.55it/s] 42%|████▏     | 156059/371472 [1:20:07<16:19:47,  3.66it/s] 42%|████▏     | 156060/371472 [1:20:07<15:54:40,  3.76it/s]                                                            {'loss': 3.1038, 'learning_rate': 6.221799650929777e-07, 'epoch': 6.72}
 42%|████▏     | 156060/371472 [1:20:07<15:54:40,  3.76it/s] 42%|████▏     | 156061/371472 [1:20:07<15:30:46,  3.86it/s] 42%|████▏     | 156062/371472 [1:20:08<16:41:43,  3.58it/s] 42%|████▏     | 156063/371472 [1:20:08<16:07:11,  3.71it/s] 42%|████▏     | 156064/371472 [1:20:08<16:12:08,  3.69it/s] 42%|████▏     | 156065/371472 [1:20:09<16:09:03,  3.70it/s] 42%|████▏     | 156066/371472 [1:20:09<15:43:47,  3.80it/s] 42%|████▏     | 156067/371472 [1:20:09<15:36:00,  3.84it/s] 42%|████▏     | 156068/371472 [1:20:09<15:36:55,  3.83it/s] 42%|████▏     | 156069/371472 [1:20:10<16:29:45,  3.63it/s] 42%|████▏     | 156070/371472 [1:20:10<17:17:08,  3.46it/s] 42%|████▏     | 156071/371472 [1:20:10<17:35:13,  3.40it/s] 42%|████▏     | 156072/371472 [1:20:11<16:50:30,  3.55it/s] 42%|████▏     | 156073/371472 [1:20:11<18:08:47,  3.30it/s] 42%|████▏     | 156074/371472 [1:20:11<17:20:54,  3.45it/s] 42%|████▏     | 156075/371472 [1:20:11<16:40:38,  3.59it/s] 42%|████▏     | 156076/371472 [1:20:12<16:38:51,  3.59it/s] 42%|████▏     | 156077/371472 [1:20:12<17:41:18,  3.38it/s] 42%|████▏     | 156078/371472 [1:20:12<17:32:49,  3.41it/s] 42%|████▏     | 156079/371472 [1:20:13<16:53:46,  3.54it/s] 42%|████▏     | 156080/371472 [1:20:13<17:23:24,  3.44it/s]                                                            {'loss': 3.0348, 'learning_rate': 6.221314831174987e-07, 'epoch': 6.72}
 42%|████▏     | 156080/371472 [1:20:13<17:23:24,  3.44it/s] 42%|████▏     | 156081/371472 [1:20:13<17:20:13,  3.45it/s] 42%|████▏     | 156082/371472 [1:20:13<17:19:42,  3.45it/s] 42%|████▏     | 156083/371472 [1:20:14<17:34:17,  3.40it/s] 42%|████▏     | 156084/371472 [1:20:14<17:25:42,  3.43it/s] 42%|████▏     | 156085/371472 [1:20:14<16:58:04,  3.53it/s] 42%|████▏     | 156086/371472 [1:20:15<17:00:24,  3.52it/s] 42%|████▏     | 156087/371472 [1:20:15<17:03:01,  3.51it/s] 42%|████▏     | 156088/371472 [1:20:15<16:48:52,  3.56it/s] 42%|████▏     | 156089/371472 [1:20:15<16:25:43,  3.64it/s] 42%|████▏     | 156090/371472 [1:20:16<16:44:42,  3.57it/s] 42%|████▏     | 156091/371472 [1:20:16<16:23:48,  3.65it/s] 42%|████▏     | 156092/371472 [1:20:16<17:35:02,  3.40it/s] 42%|████▏     | 156093/371472 [1:20:17<17:07:43,  3.49it/s] 42%|████▏     | 156094/371472 [1:20:17<17:23:52,  3.44it/s] 42%|████▏     | 156095/371472 [1:20:17<16:56:33,  3.53it/s] 42%|████▏     | 156096/371472 [1:20:17<16:18:45,  3.67it/s] 42%|████▏     | 156097/371472 [1:20:18<17:19:33,  3.45it/s] 42%|████▏     | 156098/371472 [1:20:18<16:32:46,  3.62it/s] 42%|████▏     | 156099/371472 [1:20:18<15:58:13,  3.75it/s] 42%|████▏     | 156100/371472 [1:20:18<15:39:51,  3.82it/s]                                                            {'loss': 3.1469, 'learning_rate': 6.220830011420199e-07, 'epoch': 6.72}
 42%|████▏     | 156100/371472 [1:20:18<15:39:51,  3.82it/s] 42%|████▏     | 156101/371472 [1:20:19<15:46:20,  3.79it/s] 42%|████▏     | 156102/371472 [1:20:19<15:44:44,  3.80it/s] 42%|████▏     | 156103/371472 [1:20:19<16:41:07,  3.59it/s] 42%|████▏     | 156104/371472 [1:20:20<16:14:41,  3.68it/s] 42%|████▏     | 156105/371472 [1:20:20<15:53:27,  3.76it/s] 42%|████▏     | 156106/371472 [1:20:20<16:32:04,  3.62it/s] 42%|████▏     | 156107/371472 [1:20:20<17:03:32,  3.51it/s] 42%|████▏     | 156108/371472 [1:20:21<19:10:29,  3.12it/s] 42%|████▏     | 156109/371472 [1:20:21<18:46:31,  3.19it/s] 42%|████▏     | 156110/371472 [1:20:21<17:32:11,  3.41it/s] 42%|████▏     | 156111/371472 [1:20:22<16:51:05,  3.55it/s] 42%|████▏     | 156112/371472 [1:20:22<16:59:10,  3.52it/s] 42%|████▏     | 156113/371472 [1:20:22<17:07:02,  3.49it/s] 42%|████▏     | 156114/371472 [1:20:23<18:22:49,  3.25it/s] 42%|████▏     | 156115/371472 [1:20:23<17:40:43,  3.38it/s] 42%|████▏     | 156116/371472 [1:20:23<17:06:49,  3.50it/s] 42%|████▏     | 156117/371472 [1:20:23<17:24:13,  3.44it/s] 42%|████▏     | 156118/371472 [1:20:24<18:16:16,  3.27it/s] 42%|████▏     | 156119/371472 [1:20:24<18:31:19,  3.23it/s] 42%|████▏     | 156120/371472 [1:20:24<19:04:03,  3.14it/s]                                                            {'loss': 3.1679, 'learning_rate': 6.22034519166541e-07, 'epoch': 6.72}
 42%|████▏     | 156120/371472 [1:20:24<19:04:03,  3.14it/s] 42%|████▏     | 156121/371472 [1:20:25<18:29:00,  3.24it/s] 42%|████▏     | 156122/371472 [1:20:25<18:31:01,  3.23it/s] 42%|████▏     | 156123/371472 [1:20:25<18:59:01,  3.15it/s] 42%|████▏     | 156124/371472 [1:20:26<18:53:11,  3.17it/s] 42%|████▏     | 156125/371472 [1:20:26<18:14:50,  3.28it/s] 42%|████▏     | 156126/371472 [1:20:26<17:54:18,  3.34it/s] 42%|████▏     | 156127/371472 [1:20:27<18:53:46,  3.17it/s] 42%|████▏     | 156128/371472 [1:20:27<20:39:48,  2.89it/s] 42%|████▏     | 156129/371472 [1:20:27<19:33:40,  3.06it/s] 42%|████▏     | 156130/371472 [1:20:27<18:38:22,  3.21it/s] 42%|████▏     | 156131/371472 [1:20:28<18:30:40,  3.23it/s] 42%|████▏     | 156132/371472 [1:20:28<17:57:14,  3.33it/s] 42%|████▏     | 156133/371472 [1:20:28<17:14:27,  3.47it/s] 42%|████▏     | 156134/371472 [1:20:29<18:32:34,  3.23it/s] 42%|████▏     | 156135/371472 [1:20:29<19:32:03,  3.06it/s] 42%|████▏     | 156136/371472 [1:20:29<18:56:24,  3.16it/s] 42%|████▏     | 156137/371472 [1:20:30<18:20:36,  3.26it/s] 42%|████▏     | 156138/371472 [1:20:30<17:43:31,  3.37it/s] 42%|████▏     | 156139/371472 [1:20:30<18:20:42,  3.26it/s] 42%|████▏     | 156140/371472 [1:20:31<17:33:37,  3.41it/s]                                                            {'loss': 3.2374, 'learning_rate': 6.21986037191062e-07, 'epoch': 6.73}
 42%|████▏     | 156140/371472 [1:20:31<17:33:37,  3.41it/s] 42%|████▏     | 156141/371472 [1:20:31<16:56:33,  3.53it/s] 42%|████▏     | 156142/371472 [1:20:31<17:39:28,  3.39it/s] 42%|████▏     | 156143/371472 [1:20:31<16:44:51,  3.57it/s] 42%|████▏     | 156144/371472 [1:20:32<16:33:10,  3.61it/s] 42%|████▏     | 156145/371472 [1:20:32<16:30:40,  3.62it/s] 42%|████▏     | 156146/371472 [1:20:32<16:28:59,  3.63it/s] 42%|████▏     | 156147/371472 [1:20:32<17:15:32,  3.47it/s] 42%|████▏     | 156148/371472 [1:20:33<16:46:46,  3.56it/s] 42%|████▏     | 156149/371472 [1:20:33<17:47:01,  3.36it/s] 42%|████▏     | 156150/371472 [1:20:33<17:18:03,  3.46it/s] 42%|████▏     | 156151/371472 [1:20:34<18:03:16,  3.31it/s] 42%|████▏     | 156152/371472 [1:20:34<17:21:30,  3.45it/s] 42%|████▏     | 156153/371472 [1:20:34<17:28:37,  3.42it/s] 42%|████▏     | 156154/371472 [1:20:35<17:10:20,  3.48it/s] 42%|████▏     | 156155/371472 [1:20:35<16:53:13,  3.54it/s] 42%|████▏     | 156156/371472 [1:20:35<18:16:43,  3.27it/s] 42%|████▏     | 156157/371472 [1:20:35<17:29:55,  3.42it/s] 42%|████▏     | 156158/371472 [1:20:36<17:50:33,  3.35it/s] 42%|████▏     | 156159/371472 [1:20:36<17:38:58,  3.39it/s] 42%|████▏     | 156160/371472 [1:20:36<18:05:40,  3.31it/s]                                                            {'loss': 3.2776, 'learning_rate': 6.219375552155831e-07, 'epoch': 6.73}
 42%|████▏     | 156160/371472 [1:20:36<18:05:40,  3.31it/s] 42%|████▏     | 156161/371472 [1:20:37<17:23:01,  3.44it/s] 42%|████▏     | 156162/371472 [1:20:37<17:31:20,  3.41it/s] 42%|████▏     | 156163/371472 [1:20:37<18:09:31,  3.29it/s] 42%|████▏     | 156164/371472 [1:20:37<17:35:56,  3.40it/s] 42%|████▏     | 156165/371472 [1:20:38<17:03:20,  3.51it/s] 42%|████▏     | 156166/371472 [1:20:38<16:38:05,  3.60it/s] 42%|████▏     | 156167/371472 [1:20:38<16:34:52,  3.61it/s] 42%|████▏     | 156168/371472 [1:20:39<16:23:24,  3.65it/s] 42%|████▏     | 156169/371472 [1:20:39<16:20:10,  3.66it/s] 42%|████▏     | 156170/371472 [1:20:39<17:14:21,  3.47it/s] 42%|████▏     | 156171/371472 [1:20:39<16:45:02,  3.57it/s] 42%|████▏     | 156172/371472 [1:20:40<16:11:18,  3.69it/s] 42%|████▏     | 156173/371472 [1:20:40<17:38:49,  3.39it/s] 42%|████▏     | 156174/371472 [1:20:40<18:31:09,  3.23it/s] 42%|████▏     | 156175/371472 [1:20:41<18:51:30,  3.17it/s] 42%|████▏     | 156176/371472 [1:20:41<18:16:38,  3.27it/s] 42%|████▏     | 156177/371472 [1:20:41<17:15:54,  3.46it/s] 42%|████▏     | 156178/371472 [1:20:41<16:32:44,  3.61it/s] 42%|████▏     | 156179/371472 [1:20:42<18:44:22,  3.19it/s] 42%|████▏     | 156180/371472 [1:20:42<17:38:28,  3.39it/s]                                                            {'loss': 3.2212, 'learning_rate': 6.218890732401043e-07, 'epoch': 6.73}
 42%|████▏     | 156180/371472 [1:20:42<17:38:28,  3.39it/s] 42%|████▏     | 156181/371472 [1:20:42<17:54:36,  3.34it/s] 42%|████▏     | 156182/371472 [1:20:43<17:23:07,  3.44it/s] 42%|████▏     | 156183/371472 [1:20:43<16:48:29,  3.56it/s] 42%|████▏     | 156184/371472 [1:20:43<16:19:49,  3.66it/s] 42%|████▏     | 156185/371472 [1:20:43<16:45:51,  3.57it/s] 42%|████▏     | 156186/371472 [1:20:44<16:15:54,  3.68it/s] 42%|████▏     | 156187/371472 [1:20:44<16:22:57,  3.65it/s] 42%|████▏     | 156188/371472 [1:20:44<17:28:04,  3.42it/s] 42%|████▏     | 156189/371472 [1:20:45<17:11:13,  3.48it/s] 42%|████▏     | 156190/371472 [1:20:45<16:52:50,  3.54it/s] 42%|████▏     | 156191/371472 [1:20:45<16:29:20,  3.63it/s] 42%|████▏     | 156192/371472 [1:20:46<18:19:05,  3.26it/s] 42%|████▏     | 156193/371472 [1:20:46<17:25:38,  3.43it/s] 42%|████▏     | 156194/371472 [1:20:46<16:59:41,  3.52it/s] 42%|████▏     | 156195/371472 [1:20:46<16:23:25,  3.65it/s] 42%|████▏     | 156196/371472 [1:20:47<16:42:15,  3.58it/s] 42%|████▏     | 156197/371472 [1:20:47<17:29:11,  3.42it/s] 42%|████▏     | 156198/371472 [1:20:47<17:32:07,  3.41it/s] 42%|████▏     | 156199/371472 [1:20:48<17:13:14,  3.47it/s] 42%|████▏     | 156200/371472 [1:20:48<16:41:22,  3.58it/s]                                                            {'loss': 3.0643, 'learning_rate': 6.218405912646254e-07, 'epoch': 6.73}
 42%|████▏     | 156200/371472 [1:20:48<16:41:22,  3.58it/s] 42%|████▏     | 156201/371472 [1:20:48<16:50:09,  3.55it/s] 42%|████▏     | 156202/371472 [1:20:48<17:46:48,  3.36it/s] 42%|████▏     | 156203/371472 [1:20:49<17:33:37,  3.41it/s] 42%|████▏     | 156204/371472 [1:20:49<17:02:44,  3.51it/s] 42%|████▏     | 156205/371472 [1:20:49<16:53:31,  3.54it/s] 42%|████▏     | 156206/371472 [1:20:50<17:11:13,  3.48it/s] 42%|████▏     | 156207/371472 [1:20:50<16:38:48,  3.59it/s] 42%|████▏     | 156208/371472 [1:20:50<17:50:14,  3.35it/s] 42%|████▏     | 156209/371472 [1:20:50<17:09:44,  3.48it/s] 42%|████▏     | 156210/371472 [1:20:51<17:06:56,  3.49it/s] 42%|████▏     | 156211/371472 [1:20:51<16:52:20,  3.54it/s] 42%|████▏     | 156212/371472 [1:20:51<16:27:33,  3.63it/s] 42%|████▏     | 156213/371472 [1:20:51<16:44:43,  3.57it/s] 42%|████▏     | 156214/371472 [1:20:52<19:01:01,  3.14it/s] 42%|████▏     | 156215/371472 [1:20:52<17:47:52,  3.36it/s] 42%|████▏     | 156216/371472 [1:20:52<17:27:29,  3.42it/s] 42%|████▏     | 156217/371472 [1:20:53<17:10:25,  3.48it/s] 42%|████▏     | 156218/371472 [1:20:53<16:47:25,  3.56it/s] 42%|████▏     | 156219/371472 [1:20:53<17:19:11,  3.45it/s] 42%|████▏     | 156220/371472 [1:20:54<16:33:31,  3.61it/s]                                                            {'loss': 3.272, 'learning_rate': 6.217921092891464e-07, 'epoch': 6.73}
 42%|████▏     | 156220/371472 [1:20:54<16:33:31,  3.61it/s] 42%|████▏     | 156221/371472 [1:20:54<16:40:50,  3.58it/s] 42%|████▏     | 156222/371472 [1:20:54<16:15:08,  3.68it/s] 42%|████▏     | 156223/371472 [1:20:54<16:55:57,  3.53it/s] 42%|████▏     | 156224/371472 [1:20:55<16:41:18,  3.58it/s] 42%|████▏     | 156225/371472 [1:20:55<16:06:39,  3.71it/s] 42%|████▏     | 156226/371472 [1:20:55<18:06:03,  3.30it/s] 42%|████▏     | 156227/371472 [1:20:56<17:34:12,  3.40it/s] 42%|████▏     | 156228/371472 [1:20:56<16:50:18,  3.55it/s] 42%|████▏     | 156229/371472 [1:20:56<16:37:27,  3.60it/s] 42%|████▏     | 156230/371472 [1:20:56<16:05:19,  3.72it/s] 42%|████▏     | 156231/371472 [1:20:57<16:11:07,  3.69it/s] 42%|████▏     | 156232/371472 [1:20:57<16:03:21,  3.72it/s] 42%|████▏     | 156233/371472 [1:20:57<15:36:12,  3.83it/s] 42%|████▏     | 156234/371472 [1:20:57<16:22:05,  3.65it/s] 42%|████▏     | 156235/371472 [1:20:58<16:07:00,  3.71it/s] 42%|████▏     | 156236/371472 [1:20:58<17:01:41,  3.51it/s] 42%|████▏     | 156237/371472 [1:20:58<16:31:22,  3.62it/s] 42%|████▏     | 156238/371472 [1:20:58<16:03:02,  3.72it/s] 42%|████▏     | 156239/371472 [1:20:59<15:48:18,  3.78it/s] 42%|████▏     | 156240/371472 [1:20:59<15:58:06,  3.74it/s]                                                            {'loss': 3.2948, 'learning_rate': 6.217436273136676e-07, 'epoch': 6.73}
 42%|████▏     | 156240/371472 [1:20:59<15:58:06,  3.74it/s] 42%|████▏     | 156241/371472 [1:20:59<16:17:44,  3.67it/s] 42%|████▏     | 156242/371472 [1:21:00<19:02:41,  3.14it/s] 42%|████▏     | 156243/371472 [1:21:00<18:20:12,  3.26it/s] 42%|████▏     | 156244/371472 [1:21:00<17:28:56,  3.42it/s] 42%|████▏     | 156245/371472 [1:21:01<17:18:25,  3.45it/s] 42%|████▏     | 156246/371472 [1:21:01<16:33:14,  3.61it/s] 42%|████▏     | 156247/371472 [1:21:01<16:18:29,  3.67it/s] 42%|████▏     | 156248/371472 [1:21:01<16:13:36,  3.68it/s] 42%|████▏     | 156249/371472 [1:21:02<16:04:15,  3.72it/s] 42%|████▏     | 156250/371472 [1:21:02<16:09:07,  3.70it/s] 42%|████▏     | 156251/371472 [1:21:02<16:45:14,  3.57it/s] 42%|████▏     | 156252/371472 [1:21:02<17:07:52,  3.49it/s] 42%|████▏     | 156253/371472 [1:21:03<16:38:39,  3.59it/s] 42%|████▏     | 156254/371472 [1:21:03<16:11:50,  3.69it/s] 42%|████▏     | 156255/371472 [1:21:03<16:21:24,  3.65it/s] 42%|████▏     | 156256/371472 [1:21:04<16:37:54,  3.59it/s] 42%|████▏     | 156257/371472 [1:21:04<17:29:41,  3.42it/s] 42%|████▏     | 156258/371472 [1:21:04<18:14:53,  3.28it/s] 42%|████▏     | 156259/371472 [1:21:04<17:54:50,  3.34it/s] 42%|████▏     | 156260/371472 [1:21:05<17:19:55,  3.45it/s]                                                            {'loss': 3.1685, 'learning_rate': 6.216951453381887e-07, 'epoch': 6.73}
 42%|████▏     | 156260/371472 [1:21:05<17:19:55,  3.45it/s] 42%|████▏     | 156261/371472 [1:21:05<16:40:23,  3.59it/s] 42%|████▏     | 156262/371472 [1:21:05<16:53:58,  3.54it/s] 42%|████▏     | 156263/371472 [1:21:06<16:26:39,  3.64it/s] 42%|████▏     | 156264/371472 [1:21:06<15:48:26,  3.78it/s] 42%|████▏     | 156265/371472 [1:21:06<15:56:28,  3.75it/s] 42%|████▏     | 156266/371472 [1:21:06<17:20:29,  3.45it/s] 42%|████▏     | 156267/371472 [1:21:07<17:47:05,  3.36it/s] 42%|████▏     | 156268/371472 [1:21:07<17:10:17,  3.48it/s] 42%|████▏     | 156269/371472 [1:21:07<17:50:36,  3.35it/s] 42%|████▏     | 156270/371472 [1:21:08<16:52:15,  3.54it/s] 42%|████▏     | 156271/371472 [1:21:08<17:01:59,  3.51it/s] 42%|████▏     | 156272/371472 [1:21:08<16:46:39,  3.56it/s] 42%|████▏     | 156273/371472 [1:21:08<16:24:57,  3.64it/s] 42%|████▏     | 156274/371472 [1:21:09<15:42:10,  3.81it/s] 42%|████▏     | 156275/371472 [1:21:09<16:06:49,  3.71it/s] 42%|████▏     | 156276/371472 [1:21:09<16:12:04,  3.69it/s] 42%|████▏     | 156277/371472 [1:21:09<16:58:45,  3.52it/s] 42%|████▏     | 156278/371472 [1:21:10<16:31:18,  3.62it/s] 42%|████▏     | 156279/371472 [1:21:10<16:21:18,  3.65it/s] 42%|████▏     | 156280/371472 [1:21:10<16:21:55,  3.65it/s]                                                            {'loss': 3.1851, 'learning_rate': 6.216466633627098e-07, 'epoch': 6.73}
 42%|████▏     | 156280/371472 [1:21:10<16:21:55,  3.65it/s] 42%|████▏     | 156281/371472 [1:21:11<16:47:21,  3.56it/s] 42%|████▏     | 156282/371472 [1:21:11<16:06:03,  3.71it/s] 42%|████▏     | 156283/371472 [1:21:11<16:09:13,  3.70it/s] 42%|████▏     | 156284/371472 [1:21:11<17:03:18,  3.50it/s] 42%|████▏     | 156285/371472 [1:21:12<16:45:05,  3.57it/s] 42%|████▏     | 156286/371472 [1:21:12<17:11:43,  3.48it/s] 42%|████▏     | 156287/371472 [1:21:12<16:53:24,  3.54it/s] 42%|████▏     | 156288/371472 [1:21:13<17:23:11,  3.44it/s] 42%|████▏     | 156289/371472 [1:21:13<17:25:54,  3.43it/s] 42%|████▏     | 156290/371472 [1:21:13<17:03:42,  3.50it/s] 42%|████▏     | 156291/371472 [1:21:13<16:59:17,  3.52it/s] 42%|████▏     | 156292/371472 [1:21:14<16:36:05,  3.60it/s] 42%|████▏     | 156293/371472 [1:21:14<16:32:25,  3.61it/s] 42%|████▏     | 156294/371472 [1:21:14<16:45:04,  3.57it/s] 42%|████▏     | 156295/371472 [1:21:15<16:36:00,  3.60it/s] 42%|████▏     | 156296/371472 [1:21:15<16:25:40,  3.64it/s] 42%|████▏     | 156297/371472 [1:21:15<16:03:46,  3.72it/s] 42%|████▏     | 156298/371472 [1:21:15<15:40:42,  3.81it/s] 42%|████▏     | 156299/371472 [1:21:16<16:16:57,  3.67it/s] 42%|████▏     | 156300/371472 [1:21:16<16:20:35,  3.66it/s]                                                            {'loss': 3.2082, 'learning_rate': 6.215981813872308e-07, 'epoch': 6.73}
 42%|████▏     | 156300/371472 [1:21:16<16:20:35,  3.66it/s] 42%|████▏     | 156301/371472 [1:21:16<17:01:37,  3.51it/s] 42%|████▏     | 156302/371472 [1:21:17<18:23:09,  3.25it/s] 42%|████▏     | 156303/371472 [1:21:17<18:45:05,  3.19it/s] 42%|████▏     | 156304/371472 [1:21:17<18:39:58,  3.20it/s] 42%|████▏     | 156305/371472 [1:21:17<17:27:27,  3.42it/s] 42%|████▏     | 156306/371472 [1:21:18<17:14:56,  3.47it/s] 42%|████▏     | 156307/371472 [1:21:18<17:11:24,  3.48it/s] 42%|████▏     | 156308/371472 [1:21:18<17:04:02,  3.50it/s] 42%|████▏     | 156309/371472 [1:21:19<17:10:49,  3.48it/s] 42%|████▏     | 156310/371472 [1:21:19<16:46:23,  3.56it/s] 42%|████▏     | 156311/371472 [1:21:19<18:45:06,  3.19it/s] 42%|████▏     | 156312/371472 [1:21:19<17:26:44,  3.43it/s] 42%|████▏     | 156313/371472 [1:21:20<16:33:37,  3.61it/s] 42%|████▏     | 156314/371472 [1:21:20<17:35:42,  3.40it/s] 42%|████▏     | 156315/371472 [1:21:20<16:59:22,  3.52it/s] 42%|████▏     | 156316/371472 [1:21:21<18:03:48,  3.31it/s] 42%|████▏     | 156317/371472 [1:21:21<18:51:53,  3.17it/s] 42%|████▏     | 156318/371472 [1:21:21<17:29:18,  3.42it/s] 42%|████▏     | 156319/371472 [1:21:22<18:02:57,  3.31it/s] 42%|████▏     | 156320/371472 [1:21:22<17:40:38,  3.38it/s]                                                            {'loss': 3.0596, 'learning_rate': 6.215496994117519e-07, 'epoch': 6.73}
 42%|████▏     | 156320/371472 [1:21:22<17:40:38,  3.38it/s] 42%|████▏     | 156321/371472 [1:21:22<17:00:34,  3.51it/s] 42%|████▏     | 156322/371472 [1:21:22<16:26:06,  3.64it/s] 42%|████▏     | 156323/371472 [1:21:23<16:50:08,  3.55it/s] 42%|████▏     | 156324/371472 [1:21:23<16:38:33,  3.59it/s] 42%|████▏     | 156325/371472 [1:21:23<16:51:08,  3.55it/s] 42%|████▏     | 156326/371472 [1:21:23<16:37:33,  3.59it/s] 42%|████▏     | 156327/371472 [1:21:24<16:24:02,  3.64it/s] 42%|████▏     | 156328/371472 [1:21:24<16:47:57,  3.56it/s] 42%|████▏     | 156329/371472 [1:21:24<16:56:46,  3.53it/s] 42%|████▏     | 156330/371472 [1:21:25<16:28:09,  3.63it/s] 42%|████▏     | 156331/371472 [1:21:25<16:10:42,  3.69it/s] 42%|████▏     | 156332/371472 [1:21:25<16:42:23,  3.58it/s] 42%|████▏     | 156333/371472 [1:21:25<16:18:40,  3.66it/s] 42%|████▏     | 156334/371472 [1:21:26<16:39:15,  3.59it/s] 42%|████▏     | 156335/371472 [1:21:26<17:29:56,  3.42it/s] 42%|████▏     | 156336/371472 [1:21:26<16:30:45,  3.62it/s] 42%|████▏     | 156337/371472 [1:21:27<18:55:31,  3.16it/s] 42%|████▏     | 156338/371472 [1:21:27<18:00:42,  3.32it/s] 42%|████▏     | 156339/371472 [1:21:27<17:09:25,  3.48it/s] 42%|████▏     | 156340/371472 [1:21:27<17:40:47,  3.38it/s]                                                            {'loss': 3.4912, 'learning_rate': 6.215012174362732e-07, 'epoch': 6.73}
 42%|████▏     | 156340/371472 [1:21:27<17:40:47,  3.38it/s] 42%|████▏     | 156341/371472 [1:21:28<17:00:57,  3.51it/s] 42%|████▏     | 156342/371472 [1:21:28<16:25:07,  3.64it/s] 42%|████▏     | 156343/371472 [1:21:28<16:07:35,  3.71it/s] 42%|████▏     | 156344/371472 [1:21:29<15:46:51,  3.79it/s] 42%|████▏     | 156345/371472 [1:21:29<15:54:09,  3.76it/s] 42%|████▏     | 156346/371472 [1:21:29<16:19:02,  3.66it/s] 42%|████▏     | 156347/371472 [1:21:29<16:41:06,  3.58it/s] 42%|████▏     | 156348/371472 [1:21:30<16:17:46,  3.67it/s] 42%|████▏     | 156349/371472 [1:21:30<16:18:58,  3.66it/s] 42%|████▏     | 156350/371472 [1:21:30<15:59:40,  3.74it/s] 42%|████▏     | 156351/371472 [1:21:30<16:48:43,  3.55it/s] 42%|████▏     | 156352/371472 [1:21:31<16:27:27,  3.63it/s] 42%|████▏     | 156353/371472 [1:21:31<17:08:40,  3.49it/s] 42%|████▏     | 156354/371472 [1:21:31<16:41:07,  3.58it/s] 42%|████▏     | 156355/371472 [1:21:32<17:03:14,  3.50it/s] 42%|████▏     | 156356/371472 [1:21:32<17:03:24,  3.50it/s] 42%|████▏     | 156357/371472 [1:21:32<16:57:38,  3.52it/s] 42%|████▏     | 156358/371472 [1:21:32<16:47:53,  3.56it/s] 42%|████▏     | 156359/371472 [1:21:33<17:09:36,  3.48it/s] 42%|████▏     | 156360/371472 [1:21:33<16:43:11,  3.57it/s]                                                            {'loss': 3.1081, 'learning_rate': 6.214527354607943e-07, 'epoch': 6.73}
 42%|████▏     | 156360/371472 [1:21:33<16:43:11,  3.57it/s] 42%|████▏     | 156361/371472 [1:21:33<16:54:43,  3.53it/s] 42%|████▏     | 156362/371472 [1:21:34<16:34:17,  3.61it/s] 42%|████▏     | 156363/371472 [1:21:34<17:35:38,  3.40it/s] 42%|████▏     | 156364/371472 [1:21:34<18:23:46,  3.25it/s] 42%|████▏     | 156365/371472 [1:21:35<18:37:20,  3.21it/s] 42%|████▏     | 156366/371472 [1:21:35<20:40:13,  2.89it/s] 42%|████▏     | 156367/371472 [1:21:35<19:23:55,  3.08it/s] 42%|████▏     | 156368/371472 [1:21:36<19:08:51,  3.12it/s] 42%|████▏     | 156369/371472 [1:21:36<18:14:43,  3.27it/s] 42%|████▏     | 156370/371472 [1:21:36<19:00:58,  3.14it/s] 42%|████▏     | 156371/371472 [1:21:36<18:18:33,  3.26it/s] 42%|████▏     | 156372/371472 [1:21:37<18:44:41,  3.19it/s] 42%|████▏     | 156373/371472 [1:21:37<17:52:04,  3.34it/s] 42%|████▏     | 156374/371472 [1:21:37<17:06:26,  3.49it/s] 42%|████▏     | 156375/371472 [1:21:38<16:23:35,  3.64it/s] 42%|████▏     | 156376/371472 [1:21:38<16:44:58,  3.57it/s] 42%|████▏     | 156377/371472 [1:21:38<16:05:07,  3.71it/s] 42%|████▏     | 156378/371472 [1:21:38<15:40:35,  3.81it/s] 42%|████▏     | 156379/371472 [1:21:39<16:34:29,  3.60it/s] 42%|████▏     | 156380/371472 [1:21:39<16:38:45,  3.59it/s]                                                            {'loss': 3.1493, 'learning_rate': 6.214042534853152e-07, 'epoch': 6.74}
 42%|████▏     | 156380/371472 [1:21:39<16:38:45,  3.59it/s] 42%|████▏     | 156381/371472 [1:21:39<16:29:24,  3.62it/s] 42%|████▏     | 156382/371472 [1:21:40<16:51:36,  3.54it/s] 42%|████▏     | 156383/371472 [1:21:40<16:27:11,  3.63it/s] 42%|████▏     | 156384/371472 [1:21:40<17:33:54,  3.40it/s] 42%|████▏     | 156385/371472 [1:21:40<16:52:17,  3.54it/s] 42%|████▏     | 156386/371472 [1:21:41<16:39:30,  3.59it/s] 42%|████▏     | 156387/371472 [1:21:41<15:56:13,  3.75it/s] 42%|████▏     | 156388/371472 [1:21:41<17:01:25,  3.51it/s] 42%|████▏     | 156389/371472 [1:21:41<16:45:21,  3.57it/s] 42%|████▏     | 156390/371472 [1:21:42<16:21:16,  3.65it/s] 42%|████▏     | 156391/371472 [1:21:42<16:26:09,  3.64it/s] 42%|████▏     | 156392/371472 [1:21:42<17:02:40,  3.51it/s] 42%|████▏     | 156393/371472 [1:21:43<16:23:22,  3.65it/s] 42%|████▏     | 156394/371472 [1:21:43<16:43:15,  3.57it/s] 42%|████▏     | 156395/371472 [1:21:43<16:12:09,  3.69it/s] 42%|████▏     | 156396/371472 [1:21:43<17:38:05,  3.39it/s] 42%|████▏     | 156397/371472 [1:21:44<17:05:02,  3.50it/s] 42%|████▏     | 156398/371472 [1:21:44<16:32:48,  3.61it/s] 42%|████▏     | 156399/371472 [1:21:44<16:20:38,  3.66it/s] 42%|████▏     | 156400/371472 [1:21:44<15:57:54,  3.74it/s]                                                            {'loss': 3.3903, 'learning_rate': 6.213557715098364e-07, 'epoch': 6.74}
 42%|████▏     | 156400/371472 [1:21:44<15:57:54,  3.74it/s] 42%|████▏     | 156401/371472 [1:21:45<16:41:44,  3.58it/s] 42%|████▏     | 156402/371472 [1:21:45<16:57:14,  3.52it/s] 42%|████▏     | 156403/371472 [1:21:45<16:55:36,  3.53it/s] 42%|████▏     | 156404/371472 [1:21:46<16:50:05,  3.55it/s] 42%|████▏     | 156405/371472 [1:21:46<17:56:16,  3.33it/s] 42%|████▏     | 156406/371472 [1:21:46<17:27:12,  3.42it/s] 42%|████▏     | 156407/371472 [1:21:47<17:02:29,  3.51it/s] 42%|████▏     | 156408/371472 [1:21:47<16:38:51,  3.59it/s] 42%|████▏     | 156409/371472 [1:21:47<17:12:31,  3.47it/s] 42%|████▏     | 156410/371472 [1:21:47<16:47:06,  3.56it/s] 42%|████▏     | 156411/371472 [1:21:48<16:35:01,  3.60it/s] 42%|████▏     | 156412/371472 [1:21:48<18:37:42,  3.21it/s] 42%|████▏     | 156413/371472 [1:21:48<19:15:14,  3.10it/s] 42%|████▏     | 156414/371472 [1:21:49<19:40:25,  3.04it/s] 42%|████▏     | 156415/371472 [1:21:49<18:37:50,  3.21it/s] 42%|████▏     | 156416/371472 [1:21:49<18:09:55,  3.29it/s] 42%|████▏     | 156417/371472 [1:21:50<17:53:21,  3.34it/s] 42%|████▏     | 156418/371472 [1:21:50<18:39:12,  3.20it/s] 42%|████▏     | 156419/371472 [1:21:50<17:36:19,  3.39it/s] 42%|████▏     | 156420/371472 [1:21:50<17:04:55,  3.50it/s]                                                            {'loss': 3.2311, 'learning_rate': 6.213072895343577e-07, 'epoch': 6.74}
 42%|████▏     | 156420/371472 [1:21:50<17:04:55,  3.50it/s] 42%|████▏     | 156421/371472 [1:21:51<17:04:48,  3.50it/s] 42%|████▏     | 156422/371472 [1:21:51<17:03:40,  3.50it/s] 42%|████▏     | 156423/371472 [1:21:51<17:03:10,  3.50it/s] 42%|████▏     | 156424/371472 [1:21:52<16:30:13,  3.62it/s] 42%|████▏     | 156425/371472 [1:21:52<16:32:06,  3.61it/s] 42%|████▏     | 156426/371472 [1:21:52<16:40:19,  3.58it/s] 42%|████▏     | 156427/371472 [1:21:52<16:21:03,  3.65it/s] 42%|████▏     | 156428/371472 [1:21:53<16:03:00,  3.72it/s] 42%|████▏     | 156429/371472 [1:21:53<17:07:33,  3.49it/s] 42%|████▏     | 156430/371472 [1:21:53<16:31:59,  3.61it/s] 42%|████▏     | 156431/371472 [1:21:53<16:40:38,  3.58it/s] 42%|████▏     | 156432/371472 [1:21:54<16:33:52,  3.61it/s] 42%|████▏     | 156433/371472 [1:21:54<17:38:02,  3.39it/s] 42%|████▏     | 156434/371472 [1:21:54<17:30:13,  3.41it/s] 42%|████▏     | 156435/371472 [1:21:55<18:10:33,  3.29it/s] 42%|████▏     | 156436/371472 [1:21:55<19:21:07,  3.09it/s] 42%|████▏     | 156437/371472 [1:21:55<17:52:59,  3.34it/s] 42%|████▏     | 156438/371472 [1:21:56<17:09:14,  3.48it/s] 42%|████▏     | 156439/371472 [1:21:56<17:05:03,  3.50it/s] 42%|████▏     | 156440/371472 [1:21:56<17:50:05,  3.35it/s]                                                            {'loss': 3.1745, 'learning_rate': 6.212588075588786e-07, 'epoch': 6.74}
 42%|████▏     | 156440/371472 [1:21:56<17:50:05,  3.35it/s] 42%|████▏     | 156441/371472 [1:21:56<17:36:14,  3.39it/s] 42%|████▏     | 156442/371472 [1:21:57<17:57:00,  3.33it/s] 42%|████▏     | 156443/371472 [1:21:57<17:28:04,  3.42it/s] 42%|████▏     | 156444/371472 [1:21:57<17:36:47,  3.39it/s] 42%|████▏     | 156445/371472 [1:21:58<18:20:27,  3.26it/s] 42%|████▏     | 156446/371472 [1:21:58<17:39:46,  3.38it/s] 42%|████▏     | 156447/371472 [1:21:58<17:36:43,  3.39it/s] 42%|████▏     | 156448/371472 [1:21:59<18:31:19,  3.22it/s] 42%|████▏     | 156449/371472 [1:21:59<18:15:47,  3.27it/s] 42%|████▏     | 156450/371472 [1:21:59<17:50:35,  3.35it/s] 42%|████▏     | 156451/371472 [1:21:59<17:09:52,  3.48it/s] 42%|████▏     | 156452/371472 [1:22:00<16:39:05,  3.59it/s] 42%|████▏     | 156453/371472 [1:22:00<16:55:42,  3.53it/s] 42%|████▏     | 156454/371472 [1:22:00<17:43:38,  3.37it/s] 42%|████▏     | 156455/371472 [1:22:01<16:55:34,  3.53it/s] 42%|████▏     | 156456/371472 [1:22:01<16:34:43,  3.60it/s] 42%|████▏     | 156457/371472 [1:22:01<16:17:30,  3.67it/s] 42%|████▏     | 156458/371472 [1:22:01<16:27:23,  3.63it/s] 42%|████▏     | 156459/371472 [1:22:02<16:33:56,  3.61it/s] 42%|████▏     | 156460/371472 [1:22:02<17:09:35,  3.48it/s]                                                            {'loss': 3.2379, 'learning_rate': 6.212103255833997e-07, 'epoch': 6.74}
 42%|████▏     | 156460/371472 [1:22:02<17:09:35,  3.48it/s] 42%|████▏     | 156461/371472 [1:22:02<16:41:56,  3.58it/s] 42%|████▏     | 156462/371472 [1:22:03<16:12:12,  3.69it/s] 42%|████▏     | 156463/371472 [1:22:03<16:23:04,  3.65it/s] 42%|████▏     | 156464/371472 [1:22:03<15:58:27,  3.74it/s] 42%|████▏     | 156465/371472 [1:22:03<15:45:47,  3.79it/s] 42%|████▏     | 156466/371472 [1:22:04<16:09:01,  3.70it/s] 42%|████▏     | 156467/371472 [1:22:04<16:41:12,  3.58it/s] 42%|████▏     | 156468/371472 [1:22:04<16:35:05,  3.60it/s] 42%|████▏     | 156469/371472 [1:22:05<17:58:38,  3.32it/s] 42%|████▏     | 156470/371472 [1:22:05<17:44:41,  3.37it/s] 42%|████▏     | 156471/371472 [1:22:05<17:07:57,  3.49it/s] 42%|████▏     | 156472/371472 [1:22:05<17:15:38,  3.46it/s] 42%|████▏     | 156473/371472 [1:22:06<16:50:44,  3.55it/s] 42%|████▏     | 156474/371472 [1:22:06<17:10:30,  3.48it/s] 42%|████▏     | 156475/371472 [1:22:06<17:06:47,  3.49it/s] 42%|████▏     | 156476/371472 [1:22:07<17:39:57,  3.38it/s] 42%|████▏     | 156477/371472 [1:22:07<18:17:15,  3.27it/s] 42%|████▏     | 156478/371472 [1:22:07<17:29:56,  3.41it/s] 42%|████▏     | 156479/371472 [1:22:07<17:03:19,  3.50it/s] 42%|████▏     | 156480/371472 [1:22:08<16:50:18,  3.55it/s]                                                            {'loss': 3.2595, 'learning_rate': 6.211618436079209e-07, 'epoch': 6.74}
 42%|████▏     | 156480/371472 [1:22:08<16:50:18,  3.55it/s] 42%|████▏     | 156481/371472 [1:22:08<16:47:13,  3.56it/s] 42%|████▏     | 156482/371472 [1:22:08<16:28:01,  3.63it/s] 42%|████▏     | 156483/371472 [1:22:08<16:24:04,  3.64it/s] 42%|████▏     | 156484/371472 [1:22:09<17:09:38,  3.48it/s] 42%|████▏     | 156485/371472 [1:22:09<16:31:12,  3.61it/s] 42%|████▏     | 156486/371472 [1:22:09<15:58:26,  3.74it/s] 42%|████▏     | 156487/371472 [1:22:10<16:11:14,  3.69it/s] 42%|████▏     | 156488/371472 [1:22:10<16:08:59,  3.70it/s] 42%|████▏     | 156489/371472 [1:22:10<16:07:46,  3.70it/s] 42%|████▏     | 156490/371472 [1:22:10<17:26:12,  3.42it/s] 42%|████▏     | 156491/371472 [1:22:11<17:31:53,  3.41it/s] 42%|████▏     | 156492/371472 [1:22:11<16:56:14,  3.53it/s] 42%|████▏     | 156493/371472 [1:22:11<16:58:35,  3.52it/s] 42%|████▏     | 156494/371472 [1:22:12<16:28:21,  3.63it/s] 42%|████▏     | 156495/371472 [1:22:12<16:17:23,  3.67it/s] 42%|████▏     | 156496/371472 [1:22:12<17:27:04,  3.42it/s] 42%|████▏     | 156497/371472 [1:22:12<17:50:19,  3.35it/s] 42%|████▏     | 156498/371472 [1:22:13<18:32:16,  3.22it/s] 42%|████▏     | 156499/371472 [1:22:13<18:29:15,  3.23it/s] 42%|████▏     | 156500/371472 [1:22:13<17:55:50,  3.33it/s]                                                            {'loss': 3.1466, 'learning_rate': 6.21113361632442e-07, 'epoch': 6.74}
 42%|████▏     | 156500/371472 [1:22:13<17:55:50,  3.33it/s] 42%|████▏     | 156501/371472 [1:22:14<17:33:11,  3.40it/s] 42%|████▏     | 156502/371472 [1:22:14<16:40:02,  3.58it/s] 42%|████▏     | 156503/371472 [1:22:14<16:49:38,  3.55it/s] 42%|████▏     | 156504/371472 [1:22:14<16:43:24,  3.57it/s] 42%|████▏     | 156505/371472 [1:22:15<17:13:03,  3.47it/s] 42%|████▏     | 156506/371472 [1:22:15<16:50:05,  3.55it/s] 42%|████▏     | 156507/371472 [1:22:15<17:16:25,  3.46it/s] 42%|████▏     | 156508/371472 [1:22:16<18:37:53,  3.20it/s] 42%|████▏     | 156509/371472 [1:22:16<19:07:00,  3.12it/s] 42%|████▏     | 156510/371472 [1:22:16<18:37:16,  3.21it/s] 42%|████▏     | 156511/371472 [1:22:17<17:34:43,  3.40it/s] 42%|████▏     | 156512/371472 [1:22:17<17:45:12,  3.36it/s] 42%|████▏     | 156513/371472 [1:22:17<17:21:12,  3.44it/s] 42%|████▏     | 156514/371472 [1:22:17<17:09:36,  3.48it/s] 42%|████▏     | 156515/371472 [1:22:18<17:31:07,  3.41it/s] 42%|████▏     | 156516/371472 [1:22:18<17:03:25,  3.50it/s] 42%|████▏     | 156517/371472 [1:22:18<16:30:32,  3.62it/s] 42%|████▏     | 156518/371472 [1:22:19<16:05:18,  3.71it/s] 42%|████▏     | 156519/371472 [1:22:19<16:38:19,  3.59it/s] 42%|████▏     | 156520/371472 [1:22:19<16:53:45,  3.53it/s]                                                            {'loss': 3.0167, 'learning_rate': 6.21064879656963e-07, 'epoch': 6.74}
 42%|████▏     | 156520/371472 [1:22:19<16:53:45,  3.53it/s] 42%|████▏     | 156521/371472 [1:22:19<16:50:59,  3.54it/s] 42%|████▏     | 156522/371472 [1:22:20<16:37:24,  3.59it/s] 42%|████▏     | 156523/371472 [1:22:20<16:42:05,  3.58it/s] 42%|████▏     | 156524/371472 [1:22:20<17:08:40,  3.48it/s] 42%|████▏     | 156525/371472 [1:22:21<16:48:58,  3.55it/s] 42%|████▏     | 156526/371472 [1:22:21<16:34:58,  3.60it/s] 42%|████▏     | 156527/371472 [1:22:21<16:38:42,  3.59it/s] 42%|████▏     | 156528/371472 [1:22:21<16:05:55,  3.71it/s] 42%|████▏     | 156529/371472 [1:22:22<16:05:16,  3.71it/s] 42%|████▏     | 156530/371472 [1:22:22<16:46:36,  3.56it/s] 42%|████▏     | 156531/371472 [1:22:22<16:26:56,  3.63it/s] 42%|████▏     | 156532/371472 [1:22:22<16:39:42,  3.58it/s] 42%|████▏     | 156533/371472 [1:22:23<16:40:19,  3.58it/s] 42%|████▏     | 156534/371472 [1:22:23<16:27:04,  3.63it/s] 42%|████▏     | 156535/371472 [1:22:23<16:02:54,  3.72it/s] 42%|████▏     | 156536/371472 [1:22:24<16:32:26,  3.61it/s] 42%|████▏     | 156537/371472 [1:22:24<16:23:31,  3.64it/s] 42%|████▏     | 156538/371472 [1:22:24<17:02:04,  3.50it/s] 42%|████▏     | 156539/371472 [1:22:24<17:03:56,  3.50it/s] 42%|████▏     | 156540/371472 [1:22:25<17:06:59,  3.49it/s]                                                            {'loss': 3.0524, 'learning_rate': 6.210163976814841e-07, 'epoch': 6.74}
 42%|████▏     | 156540/371472 [1:22:25<17:06:59,  3.49it/s] 42%|████▏     | 156541/371472 [1:22:25<16:43:42,  3.57it/s] 42%|████▏     | 156542/371472 [1:22:25<16:49:11,  3.55it/s] 42%|████▏     | 156543/371472 [1:22:26<16:52:46,  3.54it/s] 42%|████▏     | 156544/371472 [1:22:26<16:39:13,  3.58it/s] 42%|████▏     | 156545/371472 [1:22:26<16:37:25,  3.59it/s] 42%|████▏     | 156546/371472 [1:22:26<16:16:21,  3.67it/s] 42%|████▏     | 156547/371472 [1:22:27<16:05:31,  3.71it/s] 42%|████▏     | 156548/371472 [1:22:27<15:58:32,  3.74it/s] 42%|████▏     | 156549/371472 [1:22:27<16:10:35,  3.69it/s] 42%|████▏     | 156550/371472 [1:22:27<16:17:48,  3.66it/s] 42%|████▏     | 156551/371472 [1:22:28<16:48:15,  3.55it/s] 42%|████▏     | 156552/371472 [1:22:28<16:50:34,  3.54it/s] 42%|████▏     | 156553/371472 [1:22:28<17:06:25,  3.49it/s] 42%|████▏     | 156554/371472 [1:22:29<16:53:50,  3.53it/s] 42%|████▏     | 156555/371472 [1:22:29<16:19:07,  3.66it/s] 42%|████▏     | 156556/371472 [1:22:29<16:18:59,  3.66it/s] 42%|████▏     | 156557/371472 [1:22:29<15:41:32,  3.80it/s] 42%|████▏     | 156558/371472 [1:22:30<15:53:10,  3.76it/s] 42%|████▏     | 156559/371472 [1:22:30<15:44:58,  3.79it/s] 42%|████▏     | 156560/371472 [1:22:30<15:22:18,  3.88it/s]                                                            {'loss': 3.1952, 'learning_rate': 6.209679157060053e-07, 'epoch': 6.74}
 42%|████▏     | 156560/371472 [1:22:30<15:22:18,  3.88it/s] 42%|████▏     | 156561/371472 [1:22:30<16:07:45,  3.70it/s] 42%|████▏     | 156562/371472 [1:22:31<15:55:11,  3.75it/s] 42%|████▏     | 156563/371472 [1:22:31<16:13:25,  3.68it/s] 42%|████▏     | 156564/371472 [1:22:31<15:53:51,  3.76it/s] 42%|████▏     | 156565/371472 [1:22:32<16:54:25,  3.53it/s] 42%|████▏     | 156566/371472 [1:22:32<17:21:00,  3.44it/s] 42%|████▏     | 156567/371472 [1:22:32<17:24:00,  3.43it/s] 42%|████▏     | 156568/371472 [1:22:32<17:57:28,  3.32it/s] 42%|████▏     | 156569/371472 [1:22:33<17:23:59,  3.43it/s] 42%|████▏     | 156570/371472 [1:22:33<16:48:13,  3.55it/s] 42%|████▏     | 156571/371472 [1:22:33<17:44:28,  3.36it/s] 42%|████▏     | 156572/371472 [1:22:34<17:23:14,  3.43it/s] 42%|████▏     | 156573/371472 [1:22:34<17:22:17,  3.44it/s] 42%|████▏     | 156574/371472 [1:22:34<17:20:28,  3.44it/s] 42%|████▏     | 156575/371472 [1:22:34<17:07:20,  3.49it/s] 42%|████▏     | 156576/371472 [1:22:35<17:12:14,  3.47it/s] 42%|████▏     | 156577/371472 [1:22:35<17:40:01,  3.38it/s] 42%|████▏     | 156578/371472 [1:22:35<17:59:46,  3.32it/s] 42%|████▏     | 156579/371472 [1:22:36<17:12:27,  3.47it/s] 42%|████▏     | 156580/371472 [1:22:36<17:17:28,  3.45it/s]                                                            {'loss': 3.248, 'learning_rate': 6.209194337305265e-07, 'epoch': 6.74}
 42%|████▏     | 156580/371472 [1:22:36<17:17:28,  3.45it/s] 42%|████▏     | 156581/371472 [1:22:36<18:39:22,  3.20it/s] 42%|████▏     | 156582/371472 [1:22:37<18:03:51,  3.30it/s] 42%|████▏     | 156583/371472 [1:22:37<17:52:30,  3.34it/s] 42%|████▏     | 156584/371472 [1:22:37<17:17:23,  3.45it/s] 42%|████▏     | 156585/371472 [1:22:37<16:38:25,  3.59it/s] 42%|████▏     | 156586/371472 [1:22:38<17:22:20,  3.44it/s] 42%|████▏     | 156587/371472 [1:22:38<17:44:08,  3.37it/s] 42%|████▏     | 156588/371472 [1:22:38<17:20:58,  3.44it/s] 42%|████▏     | 156589/371472 [1:22:39<17:27:05,  3.42it/s] 42%|████▏     | 156590/371472 [1:22:39<17:15:46,  3.46it/s] 42%|████▏     | 156591/371472 [1:22:39<16:50:38,  3.54it/s] 42%|████▏     | 156592/371472 [1:22:39<16:56:49,  3.52it/s] 42%|████▏     | 156593/371472 [1:22:40<17:23:28,  3.43it/s] 42%|████▏     | 156594/371472 [1:22:40<17:18:21,  3.45it/s] 42%|████▏     | 156595/371472 [1:22:40<18:03:34,  3.31it/s] 42%|████▏     | 156596/371472 [1:22:41<17:40:40,  3.38it/s] 42%|████▏     | 156597/371472 [1:22:41<18:14:36,  3.27it/s] 42%|████▏     | 156598/371472 [1:22:41<17:19:22,  3.45it/s] 42%|████▏     | 156599/371472 [1:22:42<17:03:37,  3.50it/s] 42%|████▏     | 156600/371472 [1:22:42<17:37:19,  3.39it/s]                                                            {'loss': 3.0594, 'learning_rate': 6.208709517550475e-07, 'epoch': 6.75}
 42%|████▏     | 156600/371472 [1:22:42<17:37:19,  3.39it/s] 42%|████▏     | 156601/371472 [1:22:42<18:05:17,  3.30it/s] 42%|████▏     | 156602/371472 [1:22:42<18:31:33,  3.22it/s] 42%|████▏     | 156603/371472 [1:22:43<17:29:09,  3.41it/s] 42%|████▏     | 156604/371472 [1:22:43<17:15:43,  3.46it/s] 42%|████▏     | 156605/371472 [1:22:43<16:30:30,  3.62it/s] 42%|████▏     | 156606/371472 [1:22:44<16:33:24,  3.60it/s] 42%|████▏     | 156607/371472 [1:22:44<16:09:36,  3.69it/s] 42%|████▏     | 156608/371472 [1:22:44<16:32:32,  3.61it/s] 42%|████▏     | 156609/371472 [1:22:44<16:07:38,  3.70it/s] 42%|████▏     | 156610/371472 [1:22:45<16:39:10,  3.58it/s] 42%|████▏     | 156611/371472 [1:22:45<16:32:53,  3.61it/s] 42%|████▏     | 156612/371472 [1:22:45<15:52:14,  3.76it/s] 42%|████▏     | 156613/371472 [1:22:45<15:28:55,  3.86it/s] 42%|████▏     | 156614/371472 [1:22:46<16:00:19,  3.73it/s] 42%|████▏     | 156615/371472 [1:22:46<16:09:11,  3.69it/s] 42%|████▏     | 156616/371472 [1:22:46<17:19:54,  3.44it/s] 42%|████▏     | 156617/371472 [1:22:47<16:48:49,  3.55it/s] 42%|████▏     | 156618/371472 [1:22:47<17:04:24,  3.50it/s] 42%|████▏     | 156619/371472 [1:22:47<16:33:31,  3.60it/s] 42%|████▏     | 156620/371472 [1:22:47<15:59:13,  3.73it/s]                                                            {'loss': 3.206, 'learning_rate': 6.208224697795686e-07, 'epoch': 6.75}
 42%|████▏     | 156620/371472 [1:22:47<15:59:13,  3.73it/s] 42%|████▏     | 156621/371472 [1:22:48<16:00:06,  3.73it/s] 42%|████▏     | 156622/371472 [1:22:48<16:01:47,  3.72it/s] 42%|████▏     | 156623/371472 [1:22:48<15:46:02,  3.79it/s] 42%|████▏     | 156624/371472 [1:22:48<16:53:11,  3.53it/s] 42%|████▏     | 156625/371472 [1:22:49<17:27:56,  3.42it/s] 42%|████▏     | 156626/371472 [1:22:49<16:47:39,  3.55it/s] 42%|████▏     | 156627/371472 [1:22:49<16:45:29,  3.56it/s] 42%|████▏     | 156628/371472 [1:22:50<17:15:36,  3.46it/s] 42%|████▏     | 156629/371472 [1:22:50<17:23:22,  3.43it/s] 42%|████▏     | 156630/371472 [1:22:50<17:51:41,  3.34it/s] 42%|████▏     | 156631/371472 [1:22:50<16:51:57,  3.54it/s] 42%|████▏     | 156632/371472 [1:22:51<17:02:09,  3.50it/s] 42%|████▏     | 156633/371472 [1:22:51<17:00:11,  3.51it/s] 42%|████▏     | 156634/371472 [1:22:51<17:09:15,  3.48it/s] 42%|████▏     | 156635/371472 [1:22:52<17:42:02,  3.37it/s] 42%|████▏     | 156636/371472 [1:22:52<17:22:17,  3.44it/s] 42%|████▏     | 156637/371472 [1:22:52<17:06:27,  3.49it/s] 42%|████▏     | 156638/371472 [1:22:53<16:40:55,  3.58it/s] 42%|████▏     | 156639/371472 [1:22:53<18:33:23,  3.22it/s] 42%|████▏     | 156640/371472 [1:22:53<17:18:25,  3.45it/s]                                                            {'loss': 3.1275, 'learning_rate': 6.207739878040897e-07, 'epoch': 6.75}
 42%|████▏     | 156640/371472 [1:22:53<17:18:25,  3.45it/s] 42%|████▏     | 156641/371472 [1:22:53<17:39:10,  3.38it/s] 42%|████▏     | 156642/371472 [1:22:54<17:25:48,  3.42it/s] 42%|████▏     | 156643/371472 [1:22:54<16:42:10,  3.57it/s] 42%|████▏     | 156644/371472 [1:22:54<17:14:52,  3.46it/s] 42%|████▏     | 156645/371472 [1:22:55<16:32:34,  3.61it/s] 42%|████▏     | 156646/371472 [1:22:55<16:46:56,  3.56it/s] 42%|████▏     | 156647/371472 [1:22:55<16:19:04,  3.66it/s] 42%|████▏     | 156648/371472 [1:22:55<16:39:24,  3.58it/s] 42%|████▏     | 156649/371472 [1:22:56<16:36:38,  3.59it/s] 42%|████▏     | 156650/371472 [1:22:56<16:22:52,  3.64it/s] 42%|████▏     | 156651/371472 [1:22:56<16:56:55,  3.52it/s] 42%|████▏     | 156652/371472 [1:22:57<17:25:52,  3.42it/s] 42%|████▏     | 156653/371472 [1:22:57<17:30:20,  3.41it/s] 42%|████▏     | 156654/371472 [1:22:57<17:29:39,  3.41it/s] 42%|████▏     | 156655/371472 [1:22:57<16:38:04,  3.59it/s] 42%|████▏     | 156656/371472 [1:22:58<16:04:26,  3.71it/s] 42%|████▏     | 156657/371472 [1:22:58<16:18:03,  3.66it/s] 42%|████▏     | 156658/371472 [1:22:58<16:29:00,  3.62it/s] 42%|████▏     | 156659/371472 [1:22:58<15:39:54,  3.81it/s] 42%|████▏     | 156660/371472 [1:22:59<15:53:21,  3.76it/s]                                                            {'loss': 3.1782, 'learning_rate': 6.207255058286109e-07, 'epoch': 6.75}
 42%|████▏     | 156660/371472 [1:22:59<15:53:21,  3.76it/s] 42%|████▏     | 156661/371472 [1:22:59<16:55:50,  3.52it/s] 42%|████▏     | 156662/371472 [1:22:59<16:13:55,  3.68it/s] 42%|████▏     | 156663/371472 [1:23:00<16:37:24,  3.59it/s] 42%|████▏     | 156664/371472 [1:23:00<17:36:49,  3.39it/s] 42%|████▏     | 156665/371472 [1:23:00<17:31:15,  3.41it/s] 42%|████▏     | 156666/371472 [1:23:00<17:35:17,  3.39it/s] 42%|████▏     | 156667/371472 [1:23:01<17:01:04,  3.51it/s] 42%|████▏     | 156668/371472 [1:23:01<16:54:41,  3.53it/s] 42%|████▏     | 156669/371472 [1:23:01<16:36:26,  3.59it/s] 42%|████▏     | 156670/371472 [1:23:02<16:46:13,  3.56it/s] 42%|████▏     | 156671/371472 [1:23:02<16:53:54,  3.53it/s] 42%|████▏     | 156672/371472 [1:23:02<17:39:39,  3.38it/s] 42%|████▏     | 156673/371472 [1:23:02<17:12:21,  3.47it/s] 42%|████▏     | 156674/371472 [1:23:03<16:41:49,  3.57it/s] 42%|████▏     | 156675/371472 [1:23:03<16:12:03,  3.68it/s] 42%|████▏     | 156676/371472 [1:23:03<17:04:21,  3.49it/s] 42%|████▏     | 156677/371472 [1:23:04<16:51:32,  3.54it/s] 42%|████▏     | 156678/371472 [1:23:04<16:54:23,  3.53it/s] 42%|████▏     | 156679/371472 [1:23:04<16:19:31,  3.65it/s] 42%|████▏     | 156680/371472 [1:23:04<16:43:59,  3.57it/s]                                                            {'loss': 3.034, 'learning_rate': 6.206770238531319e-07, 'epoch': 6.75}
 42%|████▏     | 156680/371472 [1:23:04<16:43:59,  3.57it/s] 42%|████▏     | 156681/371472 [1:23:05<16:51:37,  3.54it/s] 42%|████▏     | 156682/371472 [1:23:05<16:40:19,  3.58it/s] 42%|████▏     | 156683/371472 [1:23:05<18:09:55,  3.28it/s] 42%|████▏     | 156684/371472 [1:23:06<17:27:42,  3.42it/s] 42%|████▏     | 156685/371472 [1:23:06<16:42:09,  3.57it/s] 42%|████▏     | 156686/371472 [1:23:06<16:59:33,  3.51it/s] 42%|████▏     | 156687/371472 [1:23:06<17:04:23,  3.49it/s] 42%|████▏     | 156688/371472 [1:23:07<17:54:58,  3.33it/s] 42%|████▏     | 156689/371472 [1:23:07<17:06:50,  3.49it/s] 42%|████▏     | 156690/371472 [1:23:07<16:45:01,  3.56it/s] 42%|████▏     | 156691/371472 [1:23:08<16:30:06,  3.62it/s] 42%|████▏     | 156692/371472 [1:23:08<16:12:42,  3.68it/s] 42%|████▏     | 156693/371472 [1:23:08<17:58:48,  3.32it/s] 42%|████▏     | 156694/371472 [1:23:08<17:44:45,  3.36it/s] 42%|████▏     | 156695/371472 [1:23:09<17:48:45,  3.35it/s] 42%|████▏     | 156696/371472 [1:23:09<17:31:06,  3.41it/s] 42%|████▏     | 156697/371472 [1:23:09<17:06:10,  3.49it/s] 42%|████▏     | 156698/371472 [1:23:10<18:02:50,  3.31it/s] 42%|████▏     | 156699/371472 [1:23:10<17:30:53,  3.41it/s] 42%|████▏     | 156700/371472 [1:23:10<17:18:06,  3.45it/s]                                                            {'loss': 3.1246, 'learning_rate': 6.20628541877653e-07, 'epoch': 6.75}
 42%|████▏     | 156700/371472 [1:23:10<17:18:06,  3.45it/s] 42%|████▏     | 156701/371472 [1:23:11<18:30:45,  3.22it/s] 42%|████▏     | 156702/371472 [1:23:11<17:57:02,  3.32it/s] 42%|████▏     | 156703/371472 [1:23:11<17:56:03,  3.33it/s] 42%|████▏     | 156704/371472 [1:23:11<17:08:34,  3.48it/s] 42%|████▏     | 156705/371472 [1:23:12<17:52:54,  3.34it/s] 42%|████▏     | 156706/371472 [1:23:12<17:50:56,  3.34it/s] 42%|████▏     | 156707/371472 [1:23:12<17:19:36,  3.44it/s] 42%|████▏     | 156708/371472 [1:23:13<17:35:36,  3.39it/s] 42%|████▏     | 156709/371472 [1:23:13<16:49:38,  3.55it/s] 42%|████▏     | 156710/371472 [1:23:13<17:28:33,  3.41it/s] 42%|████▏     | 156711/371472 [1:23:13<18:05:28,  3.30it/s] 42%|████▏     | 156712/371472 [1:23:14<17:44:27,  3.36it/s] 42%|████▏     | 156713/371472 [1:23:14<16:59:14,  3.51it/s] 42%|████▏     | 156714/371472 [1:23:14<16:34:10,  3.60it/s] 42%|████▏     | 156715/371472 [1:23:15<17:49:26,  3.35it/s] 42%|████▏     | 156716/371472 [1:23:15<17:51:26,  3.34it/s] 42%|████▏     | 156717/371472 [1:23:15<17:15:42,  3.46it/s] 42%|████▏     | 156718/371472 [1:23:15<16:32:24,  3.61it/s] 42%|████▏     | 156719/371472 [1:23:16<17:10:55,  3.47it/s] 42%|████▏     | 156720/371472 [1:23:16<16:53:14,  3.53it/s]                                                            {'loss': 3.1526, 'learning_rate': 6.205800599021742e-07, 'epoch': 6.75}
 42%|████▏     | 156720/371472 [1:23:16<16:53:14,  3.53it/s] 42%|████▏     | 156721/371472 [1:23:16<17:32:09,  3.40it/s] 42%|████▏     | 156722/371472 [1:23:17<17:42:00,  3.37it/s] 42%|████▏     | 156723/371472 [1:23:17<16:52:10,  3.54it/s] 42%|████▏     | 156724/371472 [1:23:17<16:57:11,  3.52it/s] 42%|████▏     | 156725/371472 [1:23:18<18:06:11,  3.30it/s] 42%|████▏     | 156726/371472 [1:23:18<17:22:11,  3.43it/s] 42%|████▏     | 156727/371472 [1:23:18<16:47:57,  3.55it/s] 42%|████▏     | 156728/371472 [1:23:18<18:56:18,  3.15it/s] 42%|████▏     | 156729/371472 [1:23:19<17:58:10,  3.32it/s] 42%|████▏     | 156730/371472 [1:23:19<17:32:14,  3.40it/s] 42%|████▏     | 156731/371472 [1:23:19<17:11:17,  3.47it/s] 42%|████▏     | 156732/371472 [1:23:20<16:52:50,  3.53it/s] 42%|████▏     | 156733/371472 [1:23:20<16:06:29,  3.70it/s] 42%|████▏     | 156734/371472 [1:23:20<19:37:39,  3.04it/s] 42%|████▏     | 156735/371472 [1:23:21<18:42:42,  3.19it/s] 42%|████▏     | 156736/371472 [1:23:21<20:02:57,  2.98it/s] 42%|████▏     | 156737/371472 [1:23:21<19:05:07,  3.13it/s] 42%|████▏     | 156738/371472 [1:23:22<19:21:15,  3.08it/s] 42%|████▏     | 156739/371472 [1:23:22<18:27:31,  3.23it/s] 42%|████▏     | 156740/371472 [1:23:22<17:14:07,  3.46it/s]                                                            {'loss': 2.9818, 'learning_rate': 6.205315779266952e-07, 'epoch': 6.75}
 42%|████▏     | 156740/371472 [1:23:22<17:14:07,  3.46it/s] 42%|████▏     | 156741/371472 [1:23:22<17:41:05,  3.37it/s] 42%|████▏     | 156742/371472 [1:23:23<18:22:39,  3.25it/s] 42%|████▏     | 156743/371472 [1:23:23<17:55:38,  3.33it/s] 42%|████▏     | 156744/371472 [1:23:23<17:46:09,  3.36it/s] 42%|████▏     | 156745/371472 [1:23:24<17:06:12,  3.49it/s] 42%|████▏     | 156746/371472 [1:23:24<16:44:23,  3.56it/s] 42%|████▏     | 156747/371472 [1:23:24<16:35:11,  3.60it/s] 42%|████▏     | 156748/371472 [1:23:24<16:23:01,  3.64it/s] 42%|████▏     | 156749/371472 [1:23:25<17:27:54,  3.42it/s] 42%|████▏     | 156750/371472 [1:23:25<16:55:17,  3.52it/s] 42%|████▏     | 156751/371472 [1:23:25<16:33:17,  3.60it/s] 42%|████▏     | 156752/371472 [1:23:25<16:31:36,  3.61it/s] 42%|████▏     | 156753/371472 [1:23:26<16:26:29,  3.63it/s] 42%|████▏     | 156754/371472 [1:23:26<16:23:05,  3.64it/s] 42%|████▏     | 156755/371472 [1:23:26<16:08:36,  3.69it/s] 42%|████▏     | 156756/371472 [1:23:27<16:17:52,  3.66it/s] 42%|████▏     | 156757/371472 [1:23:27<16:11:19,  3.68it/s] 42%|████▏     | 156758/371472 [1:23:27<16:15:55,  3.67it/s] 42%|████▏     | 156759/371472 [1:23:27<17:30:39,  3.41it/s] 42%|████▏     | 156760/371472 [1:23:28<17:31:18,  3.40it/s]                                                            {'loss': 3.1316, 'learning_rate': 6.204830959512162e-07, 'epoch': 6.75}
 42%|████▏     | 156760/371472 [1:23:28<17:31:18,  3.40it/s] 42%|████▏     | 156761/371472 [1:23:28<18:08:06,  3.29it/s] 42%|████▏     | 156762/371472 [1:23:28<17:18:57,  3.44it/s] 42%|████▏     | 156763/371472 [1:23:29<17:40:38,  3.37it/s] 42%|████▏     | 156764/371472 [1:23:29<16:51:37,  3.54it/s] 42%|████▏     | 156765/371472 [1:23:29<16:36:47,  3.59it/s] 42%|████▏     | 156766/371472 [1:23:29<16:24:56,  3.63it/s] 42%|████▏     | 156767/371472 [1:23:30<16:14:05,  3.67it/s] 42%|████▏     | 156768/371472 [1:23:30<16:34:55,  3.60it/s] 42%|████▏     | 156769/371472 [1:23:30<16:38:03,  3.59it/s] 42%|████▏     | 156770/371472 [1:23:31<16:11:20,  3.68it/s] 42%|████▏     | 156771/371472 [1:23:31<16:28:09,  3.62it/s] 42%|████▏     | 156772/371472 [1:23:31<16:45:23,  3.56it/s] 42%|████▏     | 156773/371472 [1:23:31<16:38:18,  3.58it/s] 42%|████▏     | 156774/371472 [1:23:32<17:00:39,  3.51it/s] 42%|████▏     | 156775/371472 [1:23:32<16:54:31,  3.53it/s] 42%|████▏     | 156776/371472 [1:23:32<17:19:21,  3.44it/s] 42%|████▏     | 156777/371472 [1:23:33<17:20:29,  3.44it/s] 42%|████▏     | 156778/371472 [1:23:33<16:58:28,  3.51it/s] 42%|████▏     | 156779/371472 [1:23:33<17:01:18,  3.50it/s] 42%|████▏     | 156780/371472 [1:23:33<16:47:13,  3.55it/s]                                                            {'loss': 3.1466, 'learning_rate': 6.204346139757374e-07, 'epoch': 6.75}
 42%|████▏     | 156780/371472 [1:23:33<16:47:13,  3.55it/s] 42%|████▏     | 156781/371472 [1:23:34<16:28:57,  3.62it/s] 42%|████▏     | 156782/371472 [1:23:34<16:24:41,  3.63it/s] 42%|████▏     | 156783/371472 [1:23:34<16:40:14,  3.58it/s] 42%|████▏     | 156784/371472 [1:23:35<17:17:30,  3.45it/s] 42%|████▏     | 156785/371472 [1:23:35<17:10:24,  3.47it/s] 42%|████▏     | 156786/371472 [1:23:35<16:48:54,  3.55it/s] 42%|████▏     | 156787/371472 [1:23:35<16:44:18,  3.56it/s] 42%|████▏     | 156788/371472 [1:23:36<17:09:09,  3.48it/s] 42%|████▏     | 156789/371472 [1:23:36<16:48:46,  3.55it/s] 42%|████▏     | 156790/371472 [1:23:36<17:04:06,  3.49it/s] 42%|████▏     | 156791/371472 [1:23:36<16:37:50,  3.59it/s] 42%|████▏     | 156792/371472 [1:23:37<17:29:12,  3.41it/s] 42%|████▏     | 156793/371472 [1:23:37<16:31:11,  3.61it/s] 42%|████▏     | 156794/371472 [1:23:37<16:16:00,  3.67it/s] 42%|████▏     | 156795/371472 [1:23:38<16:00:44,  3.72it/s] 42%|████▏     | 156796/371472 [1:23:38<15:33:46,  3.83it/s] 42%|████▏     | 156797/371472 [1:23:38<15:33:30,  3.83it/s] 42%|████▏     | 156798/371472 [1:23:38<16:14:55,  3.67it/s] 42%|████▏     | 156799/371472 [1:23:39<16:00:23,  3.73it/s] 42%|████▏     | 156800/371472 [1:23:39<15:45:31,  3.78it/s]                                                            {'loss': 3.0155, 'learning_rate': 6.203861320002586e-07, 'epoch': 6.75}
 42%|████▏     | 156800/371472 [1:23:39<15:45:31,  3.78it/s] 42%|████▏     | 156801/371472 [1:23:39<16:20:30,  3.65it/s] 42%|████▏     | 156802/371472 [1:23:40<16:58:56,  3.51it/s] 42%|████▏     | 156803/371472 [1:23:40<17:19:58,  3.44it/s] 42%|████▏     | 156804/371472 [1:23:40<17:40:07,  3.37it/s] 42%|████▏     | 156805/371472 [1:23:40<17:31:48,  3.40it/s] 42%|████▏     | 156806/371472 [1:23:41<17:40:38,  3.37it/s] 42%|████▏     | 156807/371472 [1:23:41<18:05:03,  3.30it/s] 42%|████▏     | 156808/371472 [1:23:41<17:21:11,  3.44it/s] 42%|████▏     | 156809/371472 [1:23:42<18:10:01,  3.28it/s] 42%|████▏     | 156810/371472 [1:23:42<18:33:32,  3.21it/s] 42%|████▏     | 156811/371472 [1:23:42<17:25:56,  3.42it/s] 42%|████▏     | 156812/371472 [1:23:43<17:47:28,  3.35it/s] 42%|████▏     | 156813/371472 [1:23:43<17:52:48,  3.33it/s] 42%|████▏     | 156814/371472 [1:23:43<17:40:06,  3.37it/s] 42%|████▏     | 156815/371472 [1:23:43<18:13:15,  3.27it/s] 42%|████▏     | 156816/371472 [1:23:44<18:23:46,  3.24it/s] 42%|████▏     | 156817/371472 [1:23:44<18:19:12,  3.25it/s] 42%|████▏     | 156818/371472 [1:23:44<18:20:30,  3.25it/s] 42%|████▏     | 156819/371472 [1:23:45<17:50:29,  3.34it/s] 42%|████▏     | 156820/371472 [1:23:45<17:04:06,  3.49it/s]                                                            {'loss': 3.1457, 'learning_rate': 6.203376500247796e-07, 'epoch': 6.75}
 42%|████▏     | 156820/371472 [1:23:45<17:04:06,  3.49it/s] 42%|████▏     | 156821/371472 [1:23:45<16:42:28,  3.57it/s] 42%|████▏     | 156822/371472 [1:23:45<16:08:06,  3.70it/s] 42%|████▏     | 156823/371472 [1:23:46<17:36:49,  3.39it/s] 42%|████▏     | 156824/371472 [1:23:46<17:28:05,  3.41it/s] 42%|████▏     | 156825/371472 [1:23:46<17:28:09,  3.41it/s] 42%|████▏     | 156826/371472 [1:23:47<16:39:23,  3.58it/s] 42%|████▏     | 156827/371472 [1:23:47<16:48:57,  3.55it/s] 42%|████▏     | 156828/371472 [1:23:47<16:19:04,  3.65it/s] 42%|████▏     | 156829/371472 [1:23:47<15:59:25,  3.73it/s] 42%|████▏     | 156830/371472 [1:23:48<16:43:26,  3.57it/s] 42%|████▏     | 156831/371472 [1:23:48<16:02:25,  3.72it/s] 42%|████▏     | 156832/371472 [1:23:48<16:14:34,  3.67it/s] 42%|████▏     | 156833/371472 [1:23:48<16:11:48,  3.68it/s] 42%|████▏     | 156834/371472 [1:23:49<15:59:24,  3.73it/s] 42%|████▏     | 156835/371472 [1:23:49<16:52:39,  3.53it/s] 42%|████▏     | 156836/371472 [1:23:49<16:27:29,  3.62it/s] 42%|████▏     | 156837/371472 [1:23:50<16:22:56,  3.64it/s] 42%|████▏     | 156838/371472 [1:23:50<16:19:35,  3.65it/s] 42%|████▏     | 156839/371472 [1:23:50<16:52:54,  3.53it/s] 42%|████▏     | 156840/371472 [1:23:50<16:27:04,  3.62it/s]                                                            {'loss': 3.2062, 'learning_rate': 6.202891680493007e-07, 'epoch': 6.76}
 42%|████▏     | 156840/371472 [1:23:50<16:27:04,  3.62it/s] 42%|████▏     | 156841/371472 [1:23:51<15:49:54,  3.77it/s] 42%|████▏     | 156842/371472 [1:23:51<15:53:59,  3.75it/s] 42%|████▏     | 156843/371472 [1:23:51<16:18:49,  3.65it/s] 42%|████▏     | 156844/371472 [1:23:51<16:03:51,  3.71it/s] 42%|████▏     | 156845/371472 [1:23:52<16:04:49,  3.71it/s] 42%|████▏     | 156846/371472 [1:23:52<16:34:43,  3.60it/s] 42%|████▏     | 156847/371472 [1:23:52<16:55:55,  3.52it/s] 42%|████▏     | 156848/371472 [1:23:53<16:45:49,  3.56it/s] 42%|████▏     | 156849/371472 [1:23:53<16:41:33,  3.57it/s] 42%|████▏     | 156850/371472 [1:23:53<16:24:40,  3.63it/s] 42%|████▏     | 156851/371472 [1:23:53<16:41:12,  3.57it/s] 42%|████▏     | 156852/371472 [1:23:54<16:34:43,  3.60it/s] 42%|████▏     | 156853/371472 [1:23:54<17:03:48,  3.49it/s] 42%|████▏     | 156854/371472 [1:23:54<17:12:14,  3.47it/s] 42%|████▏     | 156855/371472 [1:23:55<16:46:48,  3.55it/s] 42%|████▏     | 156856/371472 [1:23:55<16:58:58,  3.51it/s] 42%|████▏     | 156857/371472 [1:23:55<17:37:35,  3.38it/s] 42%|████▏     | 156858/371472 [1:23:56<18:05:26,  3.30it/s] 42%|████▏     | 156859/371472 [1:23:56<18:06:10,  3.29it/s] 42%|████▏     | 156860/371472 [1:23:56<17:26:24,  3.42it/s]                                                            {'loss': 3.2672, 'learning_rate': 6.202406860738219e-07, 'epoch': 6.76}
 42%|████▏     | 156860/371472 [1:23:56<17:26:24,  3.42it/s] 42%|████▏     | 156861/371472 [1:23:56<16:59:03,  3.51it/s] 42%|████▏     | 156862/371472 [1:23:57<17:45:25,  3.36it/s] 42%|████▏     | 156863/371472 [1:23:57<16:47:39,  3.55it/s] 42%|████▏     | 156864/371472 [1:23:57<16:21:48,  3.64it/s] 42%|████▏     | 156865/371472 [1:23:58<16:56:49,  3.52it/s] 42%|████▏     | 156866/371472 [1:23:58<18:33:10,  3.21it/s] 42%|████▏     | 156867/371472 [1:23:58<17:56:44,  3.32it/s] 42%|████▏     | 156868/371472 [1:23:58<17:36:56,  3.38it/s] 42%|████▏     | 156869/371472 [1:23:59<17:05:46,  3.49it/s] 42%|████▏     | 156870/371472 [1:23:59<17:11:12,  3.47it/s] 42%|████▏     | 156871/371472 [1:23:59<16:59:39,  3.51it/s] 42%|████▏     | 156872/371472 [1:24:00<17:45:55,  3.36it/s] 42%|████▏     | 156873/371472 [1:24:00<17:24:07,  3.43it/s] 42%|████▏     | 156874/371472 [1:24:00<16:40:01,  3.58it/s] 42%|████▏     | 156875/371472 [1:24:00<17:34:43,  3.39it/s] 42%|████▏     | 156876/371472 [1:24:01<17:10:10,  3.47it/s] 42%|████▏     | 156877/371472 [1:24:01<18:14:51,  3.27it/s] 42%|████▏     | 156878/371472 [1:24:01<19:02:48,  3.13it/s] 42%|████▏     | 156879/371472 [1:24:02<19:18:32,  3.09it/s] 42%|████▏     | 156880/371472 [1:24:02<18:37:04,  3.20it/s]                                                            {'loss': 3.3253, 'learning_rate': 6.20192204098343e-07, 'epoch': 6.76}
 42%|████▏     | 156880/371472 [1:24:02<18:37:04,  3.20it/s] 42%|████▏     | 156881/371472 [1:24:02<18:40:38,  3.19it/s] 42%|████▏     | 156882/371472 [1:24:03<17:57:54,  3.32it/s] 42%|████▏     | 156883/371472 [1:24:03<17:48:30,  3.35it/s] 42%|████▏     | 156884/371472 [1:24:03<19:27:11,  3.06it/s] 42%|████▏     | 156885/371472 [1:24:04<19:06:08,  3.12it/s] 42%|████▏     | 156886/371472 [1:24:04<18:16:32,  3.26it/s] 42%|████▏     | 156887/371472 [1:24:04<18:03:09,  3.30it/s] 42%|████▏     | 156888/371472 [1:24:04<17:14:16,  3.46it/s] 42%|████▏     | 156889/371472 [1:24:05<16:52:36,  3.53it/s] 42%|████▏     | 156890/371472 [1:24:05<16:32:47,  3.60it/s] 42%|████▏     | 156891/371472 [1:24:05<17:41:43,  3.37it/s] 42%|████▏     | 156892/371472 [1:24:06<18:36:47,  3.20it/s] 42%|████▏     | 156893/371472 [1:24:06<18:19:14,  3.25it/s] 42%|████▏     | 156894/371472 [1:24:06<17:19:55,  3.44it/s] 42%|████▏     | 156895/371472 [1:24:07<18:12:09,  3.27it/s] 42%|████▏     | 156896/371472 [1:24:07<17:21:25,  3.43it/s] 42%|████▏     | 156897/371472 [1:24:07<16:57:30,  3.51it/s] 42%|████▏     | 156898/371472 [1:24:07<17:21:10,  3.43it/s] 42%|████▏     | 156899/371472 [1:24:08<16:55:31,  3.52it/s] 42%|████▏     | 156900/371472 [1:24:08<17:12:27,  3.46it/s]                                                            {'loss': 3.2058, 'learning_rate': 6.20143722122864e-07, 'epoch': 6.76}
 42%|████▏     | 156900/371472 [1:24:08<17:12:27,  3.46it/s] 42%|████▏     | 156901/371472 [1:24:08<17:23:33,  3.43it/s] 42%|████▏     | 156902/371472 [1:24:09<16:46:35,  3.55it/s] 42%|████▏     | 156903/371472 [1:24:09<18:08:12,  3.29it/s] 42%|████▏     | 156904/371472 [1:24:09<18:01:59,  3.31it/s] 42%|████▏     | 156905/371472 [1:24:09<17:55:32,  3.32it/s] 42%|████▏     | 156906/371472 [1:24:10<17:05:09,  3.49it/s] 42%|████▏     | 156907/371472 [1:24:10<17:47:38,  3.35it/s] 42%|████▏     | 156908/371472 [1:24:10<17:42:03,  3.37it/s] 42%|████▏     | 156909/371472 [1:24:11<18:16:08,  3.26it/s] 42%|████▏     | 156910/371472 [1:24:11<17:22:43,  3.43it/s] 42%|████▏     | 156911/371472 [1:24:11<16:51:37,  3.53it/s] 42%|████▏     | 156912/371472 [1:24:12<18:17:42,  3.26it/s] 42%|████▏     | 156913/371472 [1:24:12<18:05:32,  3.29it/s] 42%|████▏     | 156914/371472 [1:24:12<17:23:45,  3.43it/s] 42%|████▏     | 156915/371472 [1:24:12<17:41:29,  3.37it/s] 42%|████▏     | 156916/371472 [1:24:13<17:25:36,  3.42it/s] 42%|████▏     | 156917/371472 [1:24:13<17:30:43,  3.40it/s] 42%|████▏     | 156918/371472 [1:24:13<17:45:49,  3.36it/s] 42%|████▏     | 156919/371472 [1:24:14<17:25:51,  3.42it/s] 42%|████▏     | 156920/371472 [1:24:14<16:46:26,  3.55it/s]                                                            {'loss': 3.0165, 'learning_rate': 6.200952401473851e-07, 'epoch': 6.76}
 42%|████▏     | 156920/371472 [1:24:14<16:46:26,  3.55it/s] 42%|████▏     | 156921/371472 [1:24:14<17:13:36,  3.46it/s] 42%|████▏     | 156922/371472 [1:24:14<17:24:27,  3.42it/s] 42%|████▏     | 156923/371472 [1:24:15<17:05:59,  3.49it/s] 42%|████▏     | 156924/371472 [1:24:15<19:27:47,  3.06it/s] 42%|████▏     | 156925/371472 [1:24:15<18:53:02,  3.16it/s] 42%|████▏     | 156926/371472 [1:24:16<18:45:42,  3.18it/s] 42%|████▏     | 156927/371472 [1:24:16<19:00:29,  3.14it/s] 42%|████▏     | 156928/371472 [1:24:16<18:06:55,  3.29it/s] 42%|████▏     | 156929/371472 [1:24:17<17:22:28,  3.43it/s] 42%|████▏     | 156930/371472 [1:24:17<18:04:35,  3.30it/s] 42%|████▏     | 156931/371472 [1:24:17<18:29:59,  3.22it/s] 42%|████▏     | 156932/371472 [1:24:18<18:14:03,  3.27it/s] 42%|████▏     | 156933/371472 [1:24:18<18:51:08,  3.16it/s] 42%|████▏     | 156934/371472 [1:24:18<17:47:37,  3.35it/s] 42%|████▏     | 156935/371472 [1:24:18<17:36:21,  3.38it/s] 42%|████▏     | 156936/371472 [1:24:19<17:08:42,  3.48it/s] 42%|████▏     | 156937/371472 [1:24:19<16:56:38,  3.52it/s] 42%|████▏     | 156938/371472 [1:24:19<17:03:41,  3.49it/s] 42%|████▏     | 156939/371472 [1:24:20<16:58:20,  3.51it/s] 42%|████▏     | 156940/371472 [1:24:20<18:35:27,  3.21it/s]                                                            {'loss': 3.09, 'learning_rate': 6.200467581719063e-07, 'epoch': 6.76}
 42%|████▏     | 156940/371472 [1:24:20<18:35:27,  3.21it/s] 42%|████▏     | 156941/371472 [1:24:20<18:19:51,  3.25it/s] 42%|████▏     | 156942/371472 [1:24:21<18:22:46,  3.24it/s] 42%|████▏     | 156943/371472 [1:24:21<19:32:30,  3.05it/s] 42%|████▏     | 156944/371472 [1:24:21<19:11:14,  3.11it/s] 42%|████▏     | 156945/371472 [1:24:22<18:21:33,  3.25it/s] 42%|████▏     | 156946/371472 [1:24:22<17:07:49,  3.48it/s] 42%|████▏     | 156947/371472 [1:24:22<16:41:04,  3.57it/s] 42%|████▏     | 156948/371472 [1:24:22<16:33:28,  3.60it/s] 42%|████▏     | 156949/371472 [1:24:23<16:15:33,  3.66it/s] 42%|████▏     | 156950/371472 [1:24:23<16:45:44,  3.55it/s] 42%|████▏     | 156951/371472 [1:24:23<17:00:15,  3.50it/s] 42%|████▏     | 156952/371472 [1:24:23<16:28:42,  3.62it/s] 42%|████▏     | 156953/371472 [1:24:24<16:12:10,  3.68it/s] 42%|████▏     | 156954/371472 [1:24:24<17:28:33,  3.41it/s] 42%|████▏     | 156955/371472 [1:24:24<16:51:27,  3.53it/s] 42%|████▏     | 156956/371472 [1:24:25<16:57:55,  3.51it/s] 42%|████▏     | 156957/371472 [1:24:25<16:35:49,  3.59it/s] 42%|████▏     | 156958/371472 [1:24:25<18:36:05,  3.20it/s] 42%|████▏     | 156959/371472 [1:24:25<17:50:12,  3.34it/s] 42%|████▏     | 156960/371472 [1:24:26<16:52:17,  3.53it/s]                                                            {'loss': 3.2487, 'learning_rate': 6.199982761964275e-07, 'epoch': 6.76}
 42%|████▏     | 156960/371472 [1:24:26<16:52:17,  3.53it/s] 42%|████▏     | 156961/371472 [1:24:26<17:01:05,  3.50it/s] 42%|████▏     | 156962/371472 [1:24:26<16:56:25,  3.52it/s] 42%|████▏     | 156963/371472 [1:24:27<16:34:21,  3.60it/s] 42%|████▏     | 156964/371472 [1:24:27<17:24:14,  3.42it/s] 42%|████▏     | 156965/371472 [1:24:27<16:45:47,  3.55it/s] 42%|████▏     | 156966/371472 [1:24:27<17:30:57,  3.40it/s] 42%|████▏     | 156967/371472 [1:24:28<17:34:26,  3.39it/s] 42%|████▏     | 156968/371472 [1:24:28<17:14:28,  3.46it/s] 42%|████▏     | 156969/371472 [1:24:28<16:52:19,  3.53it/s] 42%|████▏     | 156970/371472 [1:24:29<20:30:43,  2.90it/s] 42%|████▏     | 156971/371472 [1:24:29<19:50:21,  3.00it/s] 42%|████▏     | 156972/371472 [1:24:29<19:03:44,  3.13it/s] 42%|████▏     | 156973/371472 [1:24:30<18:51:43,  3.16it/s] 42%|████▏     | 156974/371472 [1:24:30<18:55:41,  3.15it/s] 42%|████▏     | 156975/371472 [1:24:30<18:00:45,  3.31it/s] 42%|████▏     | 156976/371472 [1:24:31<18:01:08,  3.31it/s] 42%|████▏     | 156977/371472 [1:24:31<17:07:37,  3.48it/s] 42%|████▏     | 156978/371472 [1:24:31<16:31:50,  3.60it/s] 42%|████▏     | 156979/371472 [1:24:31<16:47:59,  3.55it/s] 42%|████▏     | 156980/371472 [1:24:32<17:38:52,  3.38it/s]                                                            {'loss': 3.1637, 'learning_rate': 6.199497942209485e-07, 'epoch': 6.76}
 42%|████▏     | 156980/371472 [1:24:32<17:38:52,  3.38it/s] 42%|████▏     | 156981/371472 [1:24:32<18:02:54,  3.30it/s] 42%|████▏     | 156982/371472 [1:24:32<17:13:40,  3.46it/s] 42%|████▏     | 156983/371472 [1:24:33<16:31:53,  3.60it/s] 42%|████▏     | 156984/371472 [1:24:33<16:38:53,  3.58it/s] 42%|████▏     | 156985/371472 [1:24:33<16:22:10,  3.64it/s] 42%|████▏     | 156986/371472 [1:24:33<16:12:18,  3.68it/s] 42%|████▏     | 156987/371472 [1:24:34<17:10:33,  3.47it/s] 42%|████▏     | 156988/371472 [1:24:34<17:37:06,  3.38it/s] 42%|████▏     | 156989/371472 [1:24:34<16:45:55,  3.55it/s] 42%|████▏     | 156990/371472 [1:24:35<17:12:24,  3.46it/s] 42%|████▏     | 156991/371472 [1:24:35<16:36:45,  3.59it/s] 42%|████▏     | 156992/371472 [1:24:35<16:10:42,  3.68it/s] 42%|████▏     | 156993/371472 [1:24:35<16:15:41,  3.66it/s] 42%|████▏     | 156994/371472 [1:24:36<16:25:29,  3.63it/s] 42%|████▏     | 156995/371472 [1:24:36<15:48:06,  3.77it/s] 42%|████▏     | 156996/371472 [1:24:36<16:04:01,  3.71it/s] 42%|████▏     | 156997/371472 [1:24:36<16:13:07,  3.67it/s] 42%|████▏     | 156998/371472 [1:24:37<16:56:08,  3.52it/s] 42%|████▏     | 156999/371472 [1:24:37<16:25:49,  3.63it/s] 42%|████▏     | 157000/371472 [1:24:37<16:46:42,  3.55it/s]                                                            {'loss': 3.2551, 'learning_rate': 6.199013122454696e-07, 'epoch': 6.76}
 42%|████▏     | 157000/371472 [1:24:37<16:46:42,  3.55it/s] 42%|████▏     | 157001/371472 [1:24:38<16:56:44,  3.52it/s] 42%|████▏     | 157002/371472 [1:24:38<16:29:40,  3.61it/s] 42%|████▏     | 157003/371472 [1:24:38<16:15:02,  3.67it/s] 42%|████▏     | 157004/371472 [1:24:39<18:30:21,  3.22it/s] 42%|████▏     | 157005/371472 [1:24:39<18:02:49,  3.30it/s] 42%|████▏     | 157006/371472 [1:24:39<17:46:25,  3.35it/s] 42%|████▏     | 157007/371472 [1:24:39<16:39:43,  3.58it/s] 42%|████▏     | 157008/371472 [1:24:40<17:19:00,  3.44it/s] 42%|████▏     | 157009/371472 [1:24:40<17:30:18,  3.40it/s] 42%|████▏     | 157010/371472 [1:24:40<16:45:01,  3.56it/s] 42%|████▏     | 157011/371472 [1:24:40<16:28:42,  3.62it/s] 42%|████▏     | 157012/371472 [1:24:41<16:31:04,  3.61it/s] 42%|████▏     | 157013/371472 [1:24:41<15:48:29,  3.77it/s] 42%|████▏     | 157014/371472 [1:24:41<17:25:22,  3.42it/s] 42%|████▏     | 157015/371472 [1:24:42<17:33:06,  3.39it/s] 42%|████▏     | 157016/371472 [1:24:42<17:07:14,  3.48it/s] 42%|████▏     | 157017/371472 [1:24:42<17:03:49,  3.49it/s] 42%|████▏     | 157018/371472 [1:24:43<20:30:19,  2.91it/s] 42%|████▏     | 157019/371472 [1:24:43<19:19:23,  3.08it/s] 42%|████▏     | 157020/371472 [1:24:43<18:32:57,  3.21it/s]                                                            {'loss': 3.1977, 'learning_rate': 6.198528302699907e-07, 'epoch': 6.76}
 42%|████▏     | 157020/371472 [1:24:43<18:32:57,  3.21it/s] 42%|████▏     | 157021/371472 [1:24:43<17:54:15,  3.33it/s] 42%|████▏     | 157022/371472 [1:24:44<17:37:53,  3.38it/s] 42%|████▏     | 157023/371472 [1:24:44<19:07:03,  3.12it/s] 42%|████▏     | 157024/371472 [1:24:45<20:24:38,  2.92it/s] 42%|████▏     | 157025/371472 [1:24:45<19:19:37,  3.08it/s] 42%|████▏     | 157026/371472 [1:24:45<18:41:37,  3.19it/s] 42%|████▏     | 157027/371472 [1:24:45<18:29:35,  3.22it/s] 42%|████▏     | 157028/371472 [1:24:46<17:23:18,  3.43it/s] 42%|████▏     | 157029/371472 [1:24:46<16:29:34,  3.61it/s] 42%|████▏     | 157030/371472 [1:24:46<16:52:08,  3.53it/s] 42%|████▏     | 157031/371472 [1:24:46<16:30:11,  3.61it/s] 42%|████▏     | 157032/371472 [1:24:47<16:19:15,  3.65it/s] 42%|████▏     | 157033/371472 [1:24:47<15:54:42,  3.74it/s] 42%|████▏     | 157034/371472 [1:24:47<16:06:41,  3.70it/s] 42%|████▏     | 157035/371472 [1:24:48<16:39:51,  3.57it/s] 42%|████▏     | 157036/371472 [1:24:48<16:07:14,  3.69it/s] 42%|████▏     | 157037/371472 [1:24:48<15:37:09,  3.81it/s] 42%|████▏     | 157038/371472 [1:24:48<15:34:22,  3.82it/s] 42%|████▏     | 157039/371472 [1:24:49<15:29:01,  3.85it/s] 42%|████▏     | 157040/371472 [1:24:49<15:25:01,  3.86it/s]                                                            {'loss': 3.237, 'learning_rate': 6.198043482945118e-07, 'epoch': 6.76}
 42%|████▏     | 157040/371472 [1:24:49<15:25:01,  3.86it/s] 42%|████▏     | 157041/371472 [1:24:49<15:11:56,  3.92it/s] 42%|████▏     | 157042/371472 [1:24:49<16:17:08,  3.66it/s] 42%|████▏     | 157043/371472 [1:24:50<17:02:37,  3.49it/s] 42%|████▏     | 157044/371472 [1:24:50<16:44:40,  3.56it/s] 42%|████▏     | 157045/371472 [1:24:50<16:13:04,  3.67it/s] 42%|████▏     | 157046/371472 [1:24:51<16:21:39,  3.64it/s] 42%|████▏     | 157047/371472 [1:24:51<16:06:55,  3.70it/s] 42%|████▏     | 157048/371472 [1:24:51<17:01:12,  3.50it/s] 42%|████▏     | 157049/371472 [1:24:51<16:27:04,  3.62it/s] 42%|████▏     | 157050/371472 [1:24:52<16:09:10,  3.69it/s] 42%|████▏     | 157051/371472 [1:24:52<16:12:11,  3.68it/s] 42%|████▏     | 157052/371472 [1:24:52<16:10:25,  3.68it/s] 42%|████▏     | 157053/371472 [1:24:52<16:19:54,  3.65it/s] 42%|████▏     | 157054/371472 [1:24:53<16:11:16,  3.68it/s] 42%|████▏     | 157055/371472 [1:24:53<17:09:34,  3.47it/s] 42%|████▏     | 157056/371472 [1:24:53<18:05:50,  3.29it/s] 42%|████▏     | 157057/371472 [1:24:54<17:19:30,  3.44it/s] 42%|████▏     | 157058/371472 [1:24:54<16:42:34,  3.56it/s] 42%|████▏     | 157059/371472 [1:24:54<17:15:35,  3.45it/s] 42%|████▏     | 157060/371472 [1:24:54<16:39:37,  3.57it/s]                                                            {'loss': 3.131, 'learning_rate': 6.197558663190329e-07, 'epoch': 6.76}
 42%|████▏     | 157060/371472 [1:24:54<16:39:37,  3.57it/s] 42%|████▏     | 157061/371472 [1:24:55<17:03:33,  3.49it/s] 42%|████▏     | 157062/371472 [1:24:55<17:01:11,  3.50it/s] 42%|████▏     | 157063/371472 [1:24:55<18:47:28,  3.17it/s] 42%|████▏     | 157064/371472 [1:24:56<18:34:57,  3.21it/s] 42%|████▏     | 157065/371472 [1:24:56<17:55:30,  3.32it/s] 42%|████▏     | 157066/371472 [1:24:56<17:28:54,  3.41it/s] 42%|████▏     | 157067/371472 [1:24:57<16:27:23,  3.62it/s] 42%|████▏     | 157068/371472 [1:24:57<16:37:42,  3.58it/s] 42%|████▏     | 157069/371472 [1:24:57<16:16:57,  3.66it/s] 42%|████▏     | 157070/371472 [1:24:57<16:27:07,  3.62it/s] 42%|████▏     | 157071/371472 [1:24:58<16:31:14,  3.60it/s] 42%|████▏     | 157072/371472 [1:24:58<16:14:48,  3.67it/s] 42%|████▏     | 157073/371472 [1:24:58<16:32:51,  3.60it/s] 42%|████▏     | 157074/371472 [1:24:59<17:31:14,  3.40it/s] 42%|████▏     | 157075/371472 [1:24:59<16:44:58,  3.56it/s] 42%|████▏     | 157076/371472 [1:24:59<15:59:47,  3.72it/s] 42%|████▏     | 157077/371472 [1:24:59<17:07:29,  3.48it/s] 42%|████▏     | 157078/371472 [1:25:00<17:42:52,  3.36it/s] 42%|████▏     | 157079/371472 [1:25:00<16:40:30,  3.57it/s] 42%|████▏     | 157080/371472 [1:25:00<16:09:30,  3.69it/s]                                                            {'loss': 3.3883, 'learning_rate': 6.19707384343554e-07, 'epoch': 6.77}
 42%|████▏     | 157080/371472 [1:25:00<16:09:30,  3.69it/s] 42%|████▏     | 157081/371472 [1:25:00<17:09:38,  3.47it/s] 42%|████▏     | 157082/371472 [1:25:01<16:52:40,  3.53it/s] 42%|████▏     | 157083/371472 [1:25:01<17:01:56,  3.50it/s] 42%|████▏     | 157084/371472 [1:25:01<16:39:00,  3.58it/s] 42%|████▏     | 157085/371472 [1:25:02<17:06:18,  3.48it/s] 42%|████▏     | 157086/371472 [1:25:02<17:47:39,  3.35it/s] 42%|████▏     | 157087/371472 [1:25:02<17:20:52,  3.43it/s] 42%|████▏     | 157088/371472 [1:25:02<16:47:15,  3.55it/s] 42%|████▏     | 157089/371472 [1:25:03<16:18:47,  3.65it/s] 42%|████▏     | 157090/371472 [1:25:03<15:42:58,  3.79it/s] 42%|████▏     | 157091/371472 [1:25:03<16:24:52,  3.63it/s] 42%|████▏     | 157092/371472 [1:25:04<17:11:55,  3.46it/s] 42%|████▏     | 157093/371472 [1:25:04<17:38:45,  3.37it/s] 42%|████▏     | 157094/371472 [1:25:04<17:02:45,  3.49it/s] 42%|████▏     | 157095/371472 [1:25:04<17:55:13,  3.32it/s] 42%|████▏     | 157096/371472 [1:25:05<17:54:01,  3.33it/s] 42%|████▏     | 157097/371472 [1:25:05<17:52:04,  3.33it/s] 42%|████▏     | 157098/371472 [1:25:05<17:52:46,  3.33it/s] 42%|████▏     | 157099/371472 [1:25:06<18:31:24,  3.21it/s] 42%|████▏     | 157100/371472 [1:25:06<17:30:12,  3.40it/s]                                                            {'loss': 3.0038, 'learning_rate': 6.196589023680752e-07, 'epoch': 6.77}
 42%|████▏     | 157100/371472 [1:25:06<17:30:12,  3.40it/s] 42%|████▏     | 157101/371472 [1:25:06<17:04:51,  3.49it/s] 42%|████▏     | 157102/371472 [1:25:07<16:26:41,  3.62it/s] 42%|████▏     | 157103/371472 [1:25:07<17:55:48,  3.32it/s] 42%|████▏     | 157104/371472 [1:25:07<17:22:21,  3.43it/s] 42%|████▏     | 157105/371472 [1:25:07<17:15:27,  3.45it/s] 42%|████▏     | 157106/371472 [1:25:08<17:02:10,  3.50it/s] 42%|████▏     | 157107/371472 [1:25:08<17:00:02,  3.50it/s] 42%|████▏     | 157108/371472 [1:25:08<16:52:07,  3.53it/s] 42%|████▏     | 157109/371472 [1:25:09<16:22:38,  3.64it/s] 42%|████▏     | 157110/371472 [1:25:09<18:38:55,  3.19it/s] 42%|████▏     | 157111/371472 [1:25:09<18:13:24,  3.27it/s] 42%|████▏     | 157112/371472 [1:25:10<18:15:55,  3.26it/s] 42%|████▏     | 157113/371472 [1:25:10<17:15:10,  3.45it/s] 42%|████▏     | 157114/371472 [1:25:10<17:43:57,  3.36it/s] 42%|████▏     | 157115/371472 [1:25:10<16:52:33,  3.53it/s] 42%|████▏     | 157116/371472 [1:25:11<16:37:36,  3.58it/s] 42%|████▏     | 157117/371472 [1:25:11<17:31:43,  3.40it/s] 42%|████▏     | 157118/371472 [1:25:11<17:04:14,  3.49it/s] 42%|████▏     | 157119/371472 [1:25:11<16:20:40,  3.64it/s] 42%|████▏     | 157120/371472 [1:25:12<16:06:38,  3.70it/s]                                                            {'loss': 3.022, 'learning_rate': 6.196104203925963e-07, 'epoch': 6.77}
 42%|████▏     | 157120/371472 [1:25:12<16:06:38,  3.70it/s] 42%|████▏     | 157121/371472 [1:25:12<15:40:44,  3.80it/s] 42%|████▏     | 157122/371472 [1:25:12<17:27:07,  3.41it/s] 42%|████▏     | 157123/371472 [1:25:13<19:50:02,  3.00it/s] 42%|████▏     | 157124/371472 [1:25:13<19:04:21,  3.12it/s] 42%|████▏     | 157125/371472 [1:25:13<18:29:18,  3.22it/s] 42%|████▏     | 157126/371472 [1:25:14<17:55:10,  3.32it/s] 42%|████▏     | 157127/371472 [1:25:14<16:59:03,  3.51it/s] 42%|████▏     | 157128/371472 [1:25:14<17:14:39,  3.45it/s] 42%|████▏     | 157129/371472 [1:25:14<16:40:16,  3.57it/s] 42%|████▏     | 157130/371472 [1:25:15<16:24:53,  3.63it/s] 42%|████▏     | 157131/371472 [1:25:15<17:05:10,  3.48it/s] 42%|████▏     | 157132/371472 [1:25:15<17:52:56,  3.33it/s] 42%|████▏     | 157133/371472 [1:25:16<18:06:10,  3.29it/s] 42%|████▏     | 157134/371472 [1:25:16<17:10:18,  3.47it/s] 42%|████▏     | 157135/371472 [1:25:16<18:07:13,  3.29it/s] 42%|████▏     | 157136/371472 [1:25:17<18:08:18,  3.28it/s] 42%|████▏     | 157137/371472 [1:25:17<17:59:37,  3.31it/s] 42%|████▏     | 157138/371472 [1:25:17<17:09:10,  3.47it/s] 42%|████▏     | 157139/371472 [1:25:17<17:16:04,  3.45it/s] 42%|████▏     | 157140/371472 [1:25:18<17:27:12,  3.41it/s]                                                            {'loss': 3.288, 'learning_rate': 6.195619384171173e-07, 'epoch': 6.77}
 42%|████▏     | 157140/371472 [1:25:18<17:27:12,  3.41it/s] 42%|████▏     | 157141/371472 [1:25:18<17:12:17,  3.46it/s] 42%|████▏     | 157142/371472 [1:25:18<16:32:17,  3.60it/s] 42%|████▏     | 157143/371472 [1:25:19<16:55:05,  3.52it/s] 42%|████▏     | 157144/371472 [1:25:19<17:44:57,  3.35it/s] 42%|████▏     | 157145/371472 [1:25:19<17:15:38,  3.45it/s] 42%|████▏     | 157146/371472 [1:25:19<16:51:10,  3.53it/s] 42%|████▏     | 157147/371472 [1:25:20<16:30:43,  3.61it/s] 42%|████▏     | 157148/371472 [1:25:20<16:50:45,  3.53it/s] 42%|████▏     | 157149/371472 [1:25:20<17:01:06,  3.50it/s] 42%|████▏     | 157150/371472 [1:25:21<17:26:20,  3.41it/s] 42%|████▏     | 157151/371472 [1:25:21<17:07:41,  3.48it/s] 42%|████▏     | 157152/371472 [1:25:21<16:54:35,  3.52it/s] 42%|████▏     | 157153/371472 [1:25:21<16:32:40,  3.60it/s] 42%|████▏     | 157154/371472 [1:25:22<17:56:49,  3.32it/s] 42%|████▏     | 157155/371472 [1:25:22<19:35:18,  3.04it/s] 42%|████▏     | 157156/371472 [1:25:22<18:32:48,  3.21it/s] 42%|████▏     | 157157/371472 [1:25:23<17:56:33,  3.32it/s] 42%|████▏     | 157158/371472 [1:25:23<18:03:16,  3.30it/s] 42%|████▏     | 157159/371472 [1:25:23<17:23:25,  3.42it/s] 42%|████▏     | 157160/371472 [1:25:23<16:33:42,  3.59it/s]                                                            {'loss': 3.192, 'learning_rate': 6.195134564416385e-07, 'epoch': 6.77}
 42%|████▏     | 157160/371472 [1:25:23<16:33:42,  3.59it/s] 42%|████▏     | 157161/371472 [1:25:24<16:40:49,  3.57it/s] 42%|████▏     | 157162/371472 [1:25:24<16:34:57,  3.59it/s] 42%|████▏     | 157163/371472 [1:25:24<16:17:00,  3.66it/s] 42%|████▏     | 157164/371472 [1:25:25<17:40:50,  3.37it/s] 42%|████▏     | 157165/371472 [1:25:25<17:06:56,  3.48it/s] 42%|████▏     | 157166/371472 [1:25:25<16:15:34,  3.66it/s] 42%|████▏     | 157167/371472 [1:25:25<16:01:31,  3.71it/s] 42%|████▏     | 157168/371472 [1:25:26<15:56:28,  3.73it/s] 42%|████▏     | 157169/371472 [1:25:26<16:05:26,  3.70it/s] 42%|████▏     | 157170/371472 [1:25:26<16:32:20,  3.60it/s] 42%|████▏     | 157171/371472 [1:25:27<19:06:48,  3.11it/s] 42%|████▏     | 157172/371472 [1:25:27<18:38:49,  3.19it/s] 42%|████▏     | 157173/371472 [1:25:27<18:00:15,  3.31it/s] 42%|████▏     | 157174/371472 [1:25:28<17:43:37,  3.36it/s] 42%|████▏     | 157175/371472 [1:25:28<17:37:32,  3.38it/s] 42%|████▏     | 157176/371472 [1:25:28<17:17:00,  3.44it/s] 42%|████▏     | 157177/371472 [1:25:28<16:57:30,  3.51it/s] 42%|████▏     | 157178/371472 [1:25:29<17:42:45,  3.36it/s] 42%|████▏     | 157179/371472 [1:25:29<18:44:29,  3.18it/s] 42%|████▏     | 157180/371472 [1:25:29<18:00:32,  3.31it/s]                                                            {'loss': 3.0961, 'learning_rate': 6.194649744661596e-07, 'epoch': 6.77}
 42%|████▏     | 157180/371472 [1:25:29<18:00:32,  3.31it/s] 42%|████▏     | 157181/371472 [1:25:30<18:00:01,  3.31it/s] 42%|████▏     | 157182/371472 [1:25:30<18:14:00,  3.26it/s] 42%|████▏     | 157183/371472 [1:25:30<18:17:28,  3.25it/s] 42%|████▏     | 157184/371472 [1:25:31<17:47:43,  3.34it/s] 42%|████▏     | 157185/371472 [1:25:31<18:54:14,  3.15it/s] 42%|████▏     | 157186/371472 [1:25:31<18:03:42,  3.30it/s] 42%|████▏     | 157187/371472 [1:25:31<17:29:08,  3.40it/s] 42%|████▏     | 157188/371472 [1:25:32<16:28:31,  3.61it/s] 42%|████▏     | 157189/371472 [1:25:32<16:06:36,  3.69it/s] 42%|████▏     | 157190/371472 [1:25:32<17:44:08,  3.36it/s] 42%|████▏     | 157191/371472 [1:25:33<16:55:47,  3.52it/s] 42%|████▏     | 157192/371472 [1:25:33<17:00:22,  3.50it/s] 42%|████▏     | 157193/371472 [1:25:33<18:22:30,  3.24it/s] 42%|████▏     | 157194/371472 [1:25:33<17:39:50,  3.37it/s] 42%|████▏     | 157195/371472 [1:25:34<17:27:35,  3.41it/s] 42%|████▏     | 157196/371472 [1:25:34<18:35:19,  3.20it/s] 42%|████▏     | 157197/371472 [1:25:34<18:10:36,  3.27it/s] 42%|████▏     | 157198/371472 [1:25:35<18:45:08,  3.17it/s] 42%|████▏     | 157199/371472 [1:25:35<17:48:17,  3.34it/s] 42%|████▏     | 157200/371472 [1:25:35<18:18:55,  3.25it/s]                                                            {'loss': 2.9497, 'learning_rate': 6.194164924906807e-07, 'epoch': 6.77}
 42%|████▏     | 157200/371472 [1:25:35<18:18:55,  3.25it/s] 42%|████▏     | 157201/371472 [1:25:36<18:02:07,  3.30it/s] 42%|████▏     | 157202/371472 [1:25:36<16:55:37,  3.52it/s] 42%|████▏     | 157203/371472 [1:25:36<16:08:10,  3.69it/s] 42%|████▏     | 157204/371472 [1:25:36<16:00:27,  3.72it/s] 42%|████▏     | 157205/371472 [1:25:37<15:57:05,  3.73it/s] 42%|████▏     | 157206/371472 [1:25:37<17:25:17,  3.42it/s] 42%|████▏     | 157207/371472 [1:25:37<16:59:12,  3.50it/s] 42%|████▏     | 157208/371472 [1:25:38<17:20:16,  3.43it/s] 42%|████▏     | 157209/371472 [1:25:38<16:49:17,  3.54it/s] 42%|████▏     | 157210/371472 [1:25:38<16:49:52,  3.54it/s] 42%|████▏     | 157211/371472 [1:25:38<16:27:43,  3.62it/s] 42%|████▏     | 157212/371472 [1:25:39<16:12:53,  3.67it/s] 42%|████▏     | 157213/371472 [1:25:39<16:20:58,  3.64it/s] 42%|████▏     | 157214/371472 [1:25:39<16:36:30,  3.58it/s] 42%|████▏     | 157215/371472 [1:25:39<16:35:51,  3.59it/s] 42%|████▏     | 157216/371472 [1:25:40<15:42:28,  3.79it/s] 42%|████▏     | 157217/371472 [1:25:40<16:51:27,  3.53it/s] 42%|████▏     | 157218/371472 [1:25:40<16:04:18,  3.70it/s] 42%|████▏     | 157219/371472 [1:25:41<16:33:43,  3.59it/s] 42%|████▏     | 157220/371472 [1:25:41<15:54:23,  3.74it/s]                                                            {'loss': 3.1006, 'learning_rate': 6.193680105152018e-07, 'epoch': 6.77}
 42%|████▏     | 157220/371472 [1:25:41<15:54:23,  3.74it/s] 42%|████▏     | 157221/371472 [1:25:41<16:03:03,  3.71it/s] 42%|████▏     | 157222/371472 [1:25:41<16:06:19,  3.70it/s] 42%|████▏     | 157223/371472 [1:25:42<18:24:14,  3.23it/s] 42%|████▏     | 157224/371472 [1:25:42<17:52:26,  3.33it/s] 42%|████▏     | 157225/371472 [1:25:42<17:11:45,  3.46it/s] 42%|████▏     | 157226/371472 [1:25:43<16:47:56,  3.54it/s] 42%|████▏     | 157227/371472 [1:25:43<16:39:33,  3.57it/s] 42%|████▏     | 157228/371472 [1:25:43<16:12:49,  3.67it/s] 42%|████▏     | 157229/371472 [1:25:43<15:53:20,  3.75it/s] 42%|████▏     | 157230/371472 [1:25:44<16:42:12,  3.56it/s] 42%|████▏     | 157231/371472 [1:25:44<17:04:41,  3.48it/s] 42%|████▏     | 157232/371472 [1:25:44<18:29:36,  3.22it/s] 42%|████▏     | 157233/371472 [1:25:45<17:07:13,  3.48it/s] 42%|████▏     | 157234/371472 [1:25:45<17:19:50,  3.43it/s] 42%|████▏     | 157235/371472 [1:25:45<17:00:37,  3.50it/s] 42%|████▏     | 157236/371472 [1:25:45<17:21:42,  3.43it/s] 42%|████▏     | 157237/371472 [1:25:46<16:47:42,  3.54it/s] 42%|████▏     | 157238/371472 [1:25:46<16:47:24,  3.54it/s] 42%|████▏     | 157239/371472 [1:25:46<16:22:12,  3.64it/s] 42%|████▏     | 157240/371472 [1:25:47<17:19:24,  3.44it/s]                                                            {'loss': 3.0377, 'learning_rate': 6.193195285397229e-07, 'epoch': 6.77}
 42%|████▏     | 157240/371472 [1:25:47<17:19:24,  3.44it/s] 42%|████▏     | 157241/371472 [1:25:47<17:11:19,  3.46it/s] 42%|████▏     | 157242/371472 [1:25:47<17:32:13,  3.39it/s] 42%|████▏     | 157243/371472 [1:25:47<17:16:49,  3.44it/s] 42%|████▏     | 157244/371472 [1:25:48<16:58:06,  3.51it/s] 42%|████▏     | 157245/371472 [1:25:48<17:08:41,  3.47it/s] 42%|████▏     | 157246/371472 [1:25:48<16:39:24,  3.57it/s] 42%|████▏     | 157247/371472 [1:25:49<17:38:47,  3.37it/s] 42%|████▏     | 157248/371472 [1:25:49<18:09:56,  3.28it/s] 42%|████▏     | 157249/371472 [1:25:49<17:34:16,  3.39it/s] 42%|████▏     | 157250/371472 [1:25:49<17:26:08,  3.41it/s] 42%|████▏     | 157251/371472 [1:25:50<16:56:16,  3.51it/s] 42%|████▏     | 157252/371472 [1:25:50<18:01:09,  3.30it/s] 42%|████▏     | 157253/371472 [1:25:50<17:51:20,  3.33it/s] 42%|████▏     | 157254/371472 [1:25:51<16:53:06,  3.52it/s] 42%|████▏     | 157255/371472 [1:25:51<16:58:14,  3.51it/s] 42%|████▏     | 157256/371472 [1:25:51<16:41:35,  3.56it/s] 42%|████▏     | 157257/371472 [1:25:52<17:38:00,  3.37it/s] 42%|████▏     | 157258/371472 [1:25:52<18:26:05,  3.23it/s] 42%|████▏     | 157259/371472 [1:25:52<17:56:19,  3.32it/s] 42%|████▏     | 157260/371472 [1:25:52<18:01:41,  3.30it/s]                                                            {'loss': 3.3391, 'learning_rate': 6.19271046564244e-07, 'epoch': 6.77}
 42%|████▏     | 157260/371472 [1:25:52<18:01:41,  3.30it/s] 42%|████▏     | 157261/371472 [1:25:53<17:08:43,  3.47it/s] 42%|████▏     | 157262/371472 [1:25:53<17:42:13,  3.36it/s] 42%|████▏     | 157263/371472 [1:25:53<16:54:10,  3.52it/s] 42%|████▏     | 157264/371472 [1:25:54<16:28:04,  3.61it/s] 42%|████▏     | 157265/371472 [1:25:54<16:29:07,  3.61it/s] 42%|████▏     | 157266/371472 [1:25:54<16:55:45,  3.51it/s] 42%|████▏     | 157267/371472 [1:25:54<16:35:28,  3.59it/s] 42%|████▏     | 157268/371472 [1:25:55<16:19:42,  3.64it/s] 42%|████▏     | 157269/371472 [1:25:55<17:13:26,  3.45it/s] 42%|████▏     | 157270/371472 [1:25:55<16:42:33,  3.56it/s] 42%|████▏     | 157271/371472 [1:25:56<16:54:54,  3.52it/s] 42%|████▏     | 157272/371472 [1:25:56<16:35:44,  3.59it/s] 42%|████▏     | 157273/371472 [1:25:56<16:04:30,  3.70it/s] 42%|████▏     | 157274/371472 [1:25:56<16:09:55,  3.68it/s] 42%|████▏     | 157275/371472 [1:25:57<15:44:06,  3.78it/s] 42%|████▏     | 157276/371472 [1:25:57<16:35:56,  3.58it/s] 42%|████▏     | 157277/371472 [1:25:57<16:53:53,  3.52it/s] 42%|████▏     | 157278/371472 [1:25:57<17:07:24,  3.47it/s] 42%|████▏     | 157279/371472 [1:25:58<16:34:26,  3.59it/s] 42%|████▏     | 157280/371472 [1:25:58<16:20:03,  3.64it/s]                                                            {'loss': 3.0642, 'learning_rate': 6.19222564588765e-07, 'epoch': 6.77}
 42%|████▏     | 157280/371472 [1:25:58<16:20:03,  3.64it/s] 42%|████▏     | 157281/371472 [1:25:58<16:49:36,  3.54it/s] 42%|████▏     | 157282/371472 [1:25:59<16:32:53,  3.60it/s] 42%|████▏     | 157283/371472 [1:25:59<16:46:29,  3.55it/s] 42%|████▏     | 157284/371472 [1:25:59<16:27:30,  3.61it/s] 42%|████▏     | 157285/371472 [1:25:59<16:39:02,  3.57it/s] 42%|████▏     | 157286/371472 [1:26:00<16:29:57,  3.61it/s] 42%|████▏     | 157287/371472 [1:26:00<17:24:09,  3.42it/s] 42%|████▏     | 157288/371472 [1:26:00<17:29:04,  3.40it/s] 42%|████▏     | 157289/371472 [1:26:01<17:30:02,  3.40it/s] 42%|████▏     | 157290/371472 [1:26:01<17:01:03,  3.50it/s] 42%|████▏     | 157291/371472 [1:26:01<17:20:55,  3.43it/s] 42%|████▏     | 157292/371472 [1:26:01<18:01:10,  3.30it/s] 42%|████▏     | 157293/371472 [1:26:02<17:17:03,  3.44it/s] 42%|████▏     | 157294/371472 [1:26:02<17:22:27,  3.42it/s] 42%|████▏     | 157295/371472 [1:26:02<17:02:08,  3.49it/s] 42%|████▏     | 157296/371472 [1:26:03<18:11:20,  3.27it/s] 42%|████▏     | 157297/371472 [1:26:03<17:56:07,  3.32it/s] 42%|████▏     | 157298/371472 [1:26:03<18:42:43,  3.18it/s] 42%|████▏     | 157299/371472 [1:26:04<17:56:27,  3.32it/s] 42%|████▏     | 157300/371472 [1:26:04<17:51:16,  3.33it/s]                                                            {'loss': 3.0686, 'learning_rate': 6.191740826132861e-07, 'epoch': 6.78}
 42%|████▏     | 157300/371472 [1:26:04<17:51:16,  3.33it/s] 42%|████▏     | 157301/371472 [1:26:04<17:01:23,  3.49it/s] 42%|████▏     | 157302/371472 [1:26:04<16:55:57,  3.51it/s] 42%|████▏     | 157303/371472 [1:26:05<17:37:22,  3.38it/s] 42%|████▏     | 157304/371472 [1:26:05<16:48:44,  3.54it/s] 42%|████▏     | 157305/371472 [1:26:05<16:34:53,  3.59it/s] 42%|████▏     | 157306/371472 [1:26:06<16:12:47,  3.67it/s] 42%|████▏     | 157307/371472 [1:26:06<17:22:23,  3.42it/s] 42%|████▏     | 157308/371472 [1:26:06<17:23:00,  3.42it/s] 42%|████▏     | 157309/371472 [1:26:06<18:00:01,  3.30it/s] 42%|████▏     | 157310/371472 [1:26:07<17:17:29,  3.44it/s] 42%|████▏     | 157311/371472 [1:26:07<17:13:41,  3.45it/s] 42%|████▏     | 157312/371472 [1:26:07<16:56:08,  3.51it/s] 42%|████▏     | 157313/371472 [1:26:08<17:00:25,  3.50it/s] 42%|████▏     | 157314/371472 [1:26:08<16:36:07,  3.58it/s] 42%|████▏     | 157315/371472 [1:26:08<17:12:56,  3.46it/s] 42%|████▏     | 157316/371472 [1:26:08<17:21:59,  3.43it/s] 42%|████▏     | 157317/371472 [1:26:09<17:07:55,  3.47it/s] 42%|████▏     | 157318/371472 [1:26:09<16:58:05,  3.51it/s] 42%|████▏     | 157319/371472 [1:26:09<16:33:38,  3.59it/s] 42%|████▏     | 157320/371472 [1:26:10<16:32:58,  3.59it/s]                                                            {'loss': 3.1024, 'learning_rate': 6.191256006378073e-07, 'epoch': 6.78}
 42%|████▏     | 157320/371472 [1:26:10<16:32:58,  3.59it/s] 42%|████▏     | 157321/371472 [1:26:10<17:13:53,  3.45it/s] 42%|████▏     | 157322/371472 [1:26:10<16:50:38,  3.53it/s] 42%|████▏     | 157323/371472 [1:26:10<16:34:42,  3.59it/s] 42%|████▏     | 157324/371472 [1:26:11<16:17:44,  3.65it/s] 42%|████▏     | 157325/371472 [1:26:11<16:35:10,  3.59it/s] 42%|████▏     | 157326/371472 [1:26:11<16:03:58,  3.70it/s] 42%|████▏     | 157327/371472 [1:26:11<16:08:28,  3.69it/s] 42%|████▏     | 157328/371472 [1:26:12<16:31:05,  3.60it/s] 42%|████▏     | 157329/371472 [1:26:12<16:55:40,  3.51it/s] 42%|████▏     | 157330/371472 [1:26:12<17:06:34,  3.48it/s] 42%|████▏     | 157331/371472 [1:26:13<17:01:18,  3.49it/s] 42%|████▏     | 157332/371472 [1:26:13<16:52:05,  3.53it/s] 42%|████▏     | 157333/371472 [1:26:13<16:51:40,  3.53it/s] 42%|████▏     | 157334/371472 [1:26:14<17:31:13,  3.40it/s] 42%|████▏     | 157335/371472 [1:26:14<17:13:59,  3.45it/s] 42%|████▏     | 157336/371472 [1:26:14<16:16:11,  3.66it/s] 42%|████▏     | 157337/371472 [1:26:14<16:42:39,  3.56it/s] 42%|████▏     | 157338/371472 [1:26:15<17:44:28,  3.35it/s] 42%|████▏     | 157339/371472 [1:26:15<17:04:31,  3.48it/s] 42%|████▏     | 157340/371472 [1:26:15<17:44:10,  3.35it/s]                                                            {'loss': 3.113, 'learning_rate': 6.190771186623284e-07, 'epoch': 6.78}
 42%|████▏     | 157340/371472 [1:26:15<17:44:10,  3.35it/s] 42%|████▏     | 157341/371472 [1:26:16<17:02:25,  3.49it/s] 42%|████▏     | 157342/371472 [1:26:16<16:46:48,  3.54it/s] 42%|████▏     | 157343/371472 [1:26:16<16:02:47,  3.71it/s] 42%|████▏     | 157344/371472 [1:26:16<17:23:48,  3.42it/s] 42%|████▏     | 157345/371472 [1:26:17<17:51:41,  3.33it/s] 42%|████▏     | 157346/371472 [1:26:17<16:58:04,  3.51it/s] 42%|████▏     | 157347/371472 [1:26:17<16:33:58,  3.59it/s] 42%|████▏     | 157348/371472 [1:26:18<16:37:07,  3.58it/s] 42%|████▏     | 157349/371472 [1:26:18<16:36:55,  3.58it/s] 42%|████▏     | 157350/371472 [1:26:18<17:20:40,  3.43it/s] 42%|████▏     | 157351/371472 [1:26:18<18:19:10,  3.25it/s] 42%|████▏     | 157352/371472 [1:26:19<18:43:56,  3.18it/s] 42%|████▏     | 157353/371472 [1:26:19<17:53:14,  3.33it/s] 42%|████▏     | 157354/371472 [1:26:19<17:17:24,  3.44it/s] 42%|████▏     | 157355/371472 [1:26:20<16:36:12,  3.58it/s] 42%|████▏     | 157356/371472 [1:26:20<17:34:27,  3.38it/s] 42%|████▏     | 157357/371472 [1:26:20<17:02:07,  3.49it/s] 42%|████▏     | 157358/371472 [1:26:20<16:55:50,  3.51it/s] 42%|████▏     | 157359/371472 [1:26:21<16:29:29,  3.61it/s] 42%|████▏     | 157360/371472 [1:26:21<16:49:58,  3.53it/s]                                                            {'loss': 3.0707, 'learning_rate': 6.190286366868495e-07, 'epoch': 6.78}
 42%|████▏     | 157360/371472 [1:26:21<16:49:58,  3.53it/s] 42%|████▏     | 157361/371472 [1:26:21<16:37:11,  3.58it/s] 42%|████▏     | 157362/371472 [1:26:22<17:31:04,  3.40it/s] 42%|████▏     | 157363/371472 [1:26:22<17:20:09,  3.43it/s] 42%|████▏     | 157364/371472 [1:26:22<16:41:13,  3.56it/s] 42%|████▏     | 157365/371472 [1:26:23<18:18:37,  3.25it/s] 42%|████▏     | 157366/371472 [1:26:23<18:08:08,  3.28it/s] 42%|████▏     | 157367/371472 [1:26:23<17:41:03,  3.36it/s] 42%|████▏     | 157368/371472 [1:26:23<16:47:25,  3.54it/s] 42%|████▏     | 157369/371472 [1:26:24<17:30:20,  3.40it/s] 42%|████▏     | 157370/371472 [1:26:24<17:07:00,  3.47it/s] 42%|████▏     | 157371/371472 [1:26:24<17:41:11,  3.36it/s] 42%|████▏     | 157372/371472 [1:26:25<16:51:09,  3.53it/s] 42%|████▏     | 157373/371472 [1:26:25<16:15:47,  3.66it/s] 42%|████▏     | 157374/371472 [1:26:25<17:03:27,  3.49it/s] 42%|████▏     | 157375/371472 [1:26:25<16:15:07,  3.66it/s] 42%|████▏     | 157376/371472 [1:26:26<16:43:27,  3.56it/s] 42%|████▏     | 157377/371472 [1:26:26<17:33:57,  3.39it/s] 42%|████▏     | 157378/371472 [1:26:26<16:49:45,  3.53it/s] 42%|████▏     | 157379/371472 [1:26:26<16:14:28,  3.66it/s] 42%|████▏     | 157380/371472 [1:26:27<16:38:25,  3.57it/s]                                                            {'loss': 2.9485, 'learning_rate': 6.189801547113706e-07, 'epoch': 6.78}
 42%|████▏     | 157380/371472 [1:26:27<16:38:25,  3.57it/s] 42%|████▏     | 157381/371472 [1:26:27<16:10:18,  3.68it/s] 42%|████▏     | 157382/371472 [1:26:27<16:47:01,  3.54it/s] 42%|████▏     | 157383/371472 [1:26:28<16:00:39,  3.71it/s] 42%|████▏     | 157384/371472 [1:26:28<15:39:27,  3.80it/s] 42%|████▏     | 157385/371472 [1:26:28<15:25:53,  3.85it/s] 42%|████▏     | 157386/371472 [1:26:28<15:54:23,  3.74it/s] 42%|████▏     | 157387/371472 [1:26:29<17:23:09,  3.42it/s] 42%|████▏     | 157388/371472 [1:26:29<18:24:48,  3.23it/s] 42%|████▏     | 157389/371472 [1:26:29<17:22:31,  3.42it/s] 42%|████▏     | 157390/371472 [1:26:30<16:47:56,  3.54it/s] 42%|████▏     | 157391/371472 [1:26:30<16:38:20,  3.57it/s] 42%|████▏     | 157392/371472 [1:26:30<18:04:42,  3.29it/s] 42%|████▏     | 157393/371472 [1:26:30<17:47:09,  3.34it/s] 42%|████▏     | 157394/371472 [1:26:31<17:39:31,  3.37it/s] 42%|████▏     | 157395/371472 [1:26:31<17:26:44,  3.41it/s] 42%|████▏     | 157396/371472 [1:26:31<16:40:01,  3.57it/s] 42%|████▏     | 157397/371472 [1:26:32<16:05:59,  3.69it/s] 42%|████▏     | 157398/371472 [1:26:32<15:40:23,  3.79it/s] 42%|████▏     | 157399/371472 [1:26:32<16:05:26,  3.70it/s] 42%|████▏     | 157400/371472 [1:26:32<15:49:29,  3.76it/s]                                                            {'loss': 3.1457, 'learning_rate': 6.189316727358917e-07, 'epoch': 6.78}
 42%|████▏     | 157400/371472 [1:26:32<15:49:29,  3.76it/s] 42%|████▏     | 157401/371472 [1:26:33<15:32:28,  3.83it/s] 42%|████▏     | 157402/371472 [1:26:33<15:21:24,  3.87it/s] 42%|████▏     | 157403/371472 [1:26:33<15:45:15,  3.77it/s] 42%|████▏     | 157404/371472 [1:26:33<16:33:19,  3.59it/s] 42%|████▏     | 157405/371472 [1:26:34<17:07:04,  3.47it/s] 42%|████▏     | 157406/371472 [1:26:34<17:15:45,  3.44it/s] 42%|████▏     | 157407/371472 [1:26:34<16:56:17,  3.51it/s] 42%|████▏     | 157408/371472 [1:26:35<16:19:44,  3.64it/s] 42%|████▏     | 157409/371472 [1:26:35<15:58:53,  3.72it/s] 42%|████▏     | 157410/371472 [1:26:35<16:24:28,  3.62it/s] 42%|████▏     | 157411/371472 [1:26:35<16:17:02,  3.65it/s] 42%|████▏     | 157412/371472 [1:26:36<17:51:46,  3.33it/s] 42%|████▏     | 157413/371472 [1:26:36<16:51:13,  3.53it/s] 42%|████▏     | 157414/371472 [1:26:36<17:23:07,  3.42it/s] 42%|████▏     | 157415/371472 [1:26:37<17:10:19,  3.46it/s] 42%|████▏     | 157416/371472 [1:26:37<16:57:59,  3.50it/s] 42%|████▏     | 157417/371472 [1:26:37<17:11:09,  3.46it/s] 42%|████▏     | 157418/371472 [1:26:37<16:38:26,  3.57it/s] 42%|████▏     | 157419/371472 [1:26:38<16:26:01,  3.62it/s] 42%|████▏     | 157420/371472 [1:26:38<17:01:09,  3.49it/s]                                                            {'loss': 3.0207, 'learning_rate': 6.188831907604128e-07, 'epoch': 6.78}
 42%|████▏     | 157420/371472 [1:26:38<17:01:09,  3.49it/s] 42%|████▏     | 157421/371472 [1:26:38<17:14:11,  3.45it/s] 42%|████▏     | 157422/371472 [1:26:39<16:57:32,  3.51it/s] 42%|████▏     | 157423/371472 [1:26:39<16:08:24,  3.68it/s] 42%|████▏     | 157424/371472 [1:26:39<16:11:36,  3.67it/s] 42%|████▏     | 157425/371472 [1:26:39<16:22:05,  3.63it/s] 42%|████▏     | 157426/371472 [1:26:40<16:43:44,  3.55it/s] 42%|████▏     | 157427/371472 [1:26:40<17:31:35,  3.39it/s] 42%|████▏     | 157428/371472 [1:26:40<17:18:48,  3.43it/s] 42%|████▏     | 157429/371472 [1:26:41<17:56:42,  3.31it/s] 42%|████▏     | 157430/371472 [1:26:41<18:00:34,  3.30it/s] 42%|████▏     | 157431/371472 [1:26:41<17:07:10,  3.47it/s] 42%|████▏     | 157432/371472 [1:26:41<17:38:47,  3.37it/s] 42%|████▏     | 157433/371472 [1:26:42<17:02:10,  3.49it/s] 42%|████▏     | 157434/371472 [1:26:42<16:48:21,  3.54it/s] 42%|████▏     | 157435/371472 [1:26:42<16:11:53,  3.67it/s] 42%|████▏     | 157436/371472 [1:26:43<16:47:36,  3.54it/s] 42%|████▏     | 157437/371472 [1:26:43<16:36:30,  3.58it/s] 42%|████▏     | 157438/371472 [1:26:43<16:49:21,  3.53it/s] 42%|████▏     | 157439/371472 [1:26:43<17:43:32,  3.35it/s] 42%|████▏     | 157440/371472 [1:26:44<16:59:12,  3.50it/s]                                                            {'loss': 3.1424, 'learning_rate': 6.188347087849339e-07, 'epoch': 6.78}
 42%|████▏     | 157440/371472 [1:26:44<16:59:12,  3.50it/s] 42%|████▏     | 157441/371472 [1:26:44<17:25:40,  3.41it/s] 42%|████▏     | 157442/371472 [1:26:44<16:55:19,  3.51it/s] 42%|████▏     | 157443/371472 [1:26:45<16:19:09,  3.64it/s] 42%|████▏     | 157444/371472 [1:26:45<16:30:52,  3.60it/s] 42%|████▏     | 157445/371472 [1:26:45<16:35:00,  3.59it/s] 42%|████▏     | 157446/371472 [1:26:45<16:45:29,  3.55it/s] 42%|████▏     | 157447/371472 [1:26:46<16:59:44,  3.50it/s] 42%|████▏     | 157448/371472 [1:26:46<17:03:09,  3.49it/s] 42%|████▏     | 157449/371472 [1:26:46<17:03:22,  3.49it/s] 42%|████▏     | 157450/371472 [1:26:47<16:57:37,  3.51it/s] 42%|████▏     | 157451/371472 [1:26:47<17:06:33,  3.47it/s] 42%|████▏     | 157452/371472 [1:26:47<16:38:11,  3.57it/s] 42%|████▏     | 157453/371472 [1:26:47<17:42:37,  3.36it/s] 42%|████▏     | 157454/371472 [1:26:48<17:12:30,  3.45it/s] 42%|████▏     | 157455/371472 [1:26:48<16:27:09,  3.61it/s] 42%|████▏     | 157456/371472 [1:26:48<16:26:45,  3.61it/s] 42%|████▏     | 157457/371472 [1:26:49<18:00:47,  3.30it/s] 42%|████▏     | 157458/371472 [1:26:49<17:28:25,  3.40it/s] 42%|████▏     | 157459/371472 [1:26:49<17:01:49,  3.49it/s] 42%|████▏     | 157460/371472 [1:26:49<16:36:33,  3.58it/s]                                                            {'loss': 3.151, 'learning_rate': 6.18786226809455e-07, 'epoch': 6.78}
 42%|████▏     | 157460/371472 [1:26:49<16:36:33,  3.58it/s] 42%|████▏     | 157461/371472 [1:26:50<16:23:31,  3.63it/s] 42%|████▏     | 157462/371472 [1:26:50<16:37:33,  3.58it/s] 42%|████▏     | 157463/371472 [1:26:50<16:44:06,  3.55it/s] 42%|████▏     | 157464/371472 [1:26:51<16:34:36,  3.59it/s] 42%|████▏     | 157465/371472 [1:26:51<17:45:32,  3.35it/s] 42%|████▏     | 157466/371472 [1:26:51<17:42:30,  3.36it/s] 42%|████▏     | 157467/371472 [1:26:51<16:55:45,  3.51it/s] 42%|████▏     | 157468/371472 [1:26:52<16:30:58,  3.60it/s] 42%|████▏     | 157469/371472 [1:26:52<18:34:39,  3.20it/s] 42%|████▏     | 157470/371472 [1:26:52<18:46:02,  3.17it/s] 42%|████▏     | 157471/371472 [1:26:53<18:06:49,  3.28it/s] 42%|████▏     | 157472/371472 [1:26:53<18:41:13,  3.18it/s] 42%|████▏     | 157473/371472 [1:26:53<19:28:25,  3.05it/s] 42%|████▏     | 157474/371472 [1:26:54<19:22:32,  3.07it/s] 42%|████▏     | 157475/371472 [1:26:54<18:38:28,  3.19it/s] 42%|████▏     | 157476/371472 [1:26:54<19:10:19,  3.10it/s] 42%|████▏     | 157477/371472 [1:26:55<19:07:25,  3.11it/s] 42%|████▏     | 157478/371472 [1:26:55<18:35:29,  3.20it/s] 42%|████▏     | 157479/371472 [1:26:55<18:19:12,  3.24it/s] 42%|████▏     | 157480/371472 [1:26:56<18:19:13,  3.24it/s]                                                            {'loss': 3.0458, 'learning_rate': 6.187377448339762e-07, 'epoch': 6.78}
 42%|████▏     | 157480/371472 [1:26:56<18:19:13,  3.24it/s] 42%|████▏     | 157481/371472 [1:26:56<17:49:58,  3.33it/s] 42%|████▏     | 157482/371472 [1:26:56<17:57:35,  3.31it/s] 42%|████▏     | 157483/371472 [1:26:56<17:14:14,  3.45it/s] 42%|████▏     | 157484/371472 [1:26:57<17:41:06,  3.36it/s] 42%|████▏     | 157485/371472 [1:26:57<17:19:07,  3.43it/s] 42%|████▏     | 157486/371472 [1:26:57<17:38:22,  3.37it/s] 42%|████▏     | 157487/371472 [1:26:58<17:14:53,  3.45it/s] 42%|████▏     | 157488/371472 [1:26:58<16:18:39,  3.64it/s] 42%|████▏     | 157489/371472 [1:26:58<16:15:24,  3.66it/s] 42%|████▏     | 157490/371472 [1:26:58<16:05:36,  3.69it/s] 42%|████▏     | 157491/371472 [1:26:59<16:01:11,  3.71it/s] 42%|████▏     | 157492/371472 [1:26:59<16:11:04,  3.67it/s] 42%|████▏     | 157493/371472 [1:26:59<16:10:11,  3.68it/s] 42%|████▏     | 157494/371472 [1:26:59<16:34:53,  3.58it/s] 42%|████▏     | 157495/371472 [1:27:00<16:37:01,  3.58it/s] 42%|████▏     | 157496/371472 [1:27:00<16:39:53,  3.57it/s] 42%|████▏     | 157497/371472 [1:27:00<16:37:11,  3.58it/s] 42%|████▏     | 157498/371472 [1:27:01<16:28:12,  3.61it/s] 42%|████▏     | 157499/371472 [1:27:01<16:18:28,  3.64it/s] 42%|████▏     | 157500/371472 [1:27:01<16:20:50,  3.64it/s]                                                            {'loss': 3.2494, 'learning_rate': 6.186892628584973e-07, 'epoch': 6.78}
 42%|████▏     | 157500/371472 [1:27:01<16:20:50,  3.64it/s] 42%|████▏     | 157501/371472 [1:27:01<16:54:11,  3.52it/s] 42%|████▏     | 157502/371472 [1:27:02<18:33:52,  3.20it/s] 42%|████▏     | 157503/371472 [1:27:02<19:13:58,  3.09it/s] 42%|████▏     | 157504/371472 [1:27:02<18:23:15,  3.23it/s] 42%|████▏     | 157505/371472 [1:27:03<19:17:30,  3.08it/s] 42%|████▏     | 157506/371472 [1:27:03<18:41:37,  3.18it/s] 42%|████▏     | 157507/371472 [1:27:03<18:27:54,  3.22it/s] 42%|████▏     | 157508/371472 [1:27:04<18:12:24,  3.26it/s] 42%|████▏     | 157509/371472 [1:27:04<17:30:58,  3.39it/s] 42%|████▏     | 157510/371472 [1:27:04<17:29:45,  3.40it/s] 42%|████▏     | 157511/371472 [1:27:04<16:40:56,  3.56it/s] 42%|████▏     | 157512/371472 [1:27:05<16:29:05,  3.61it/s] 42%|████▏     | 157513/371472 [1:27:05<16:48:12,  3.54it/s] 42%|████▏     | 157514/371472 [1:27:05<16:41:34,  3.56it/s] 42%|████▏     | 157515/371472 [1:27:06<19:12:45,  3.09it/s] 42%|████▏     | 157516/371472 [1:27:06<18:24:18,  3.23it/s] 42%|████▏     | 157517/371472 [1:27:06<17:56:50,  3.31it/s] 42%|████▏     | 157518/371472 [1:27:07<17:51:44,  3.33it/s] 42%|████▏     | 157519/371472 [1:27:07<18:41:36,  3.18it/s] 42%|████▏     | 157520/371472 [1:27:07<17:52:28,  3.32it/s]                                                            {'loss': 3.2692, 'learning_rate': 6.186407808830183e-07, 'epoch': 6.78}
 42%|████▏     | 157520/371472 [1:27:07<17:52:28,  3.32it/s] 42%|████▏     | 157521/371472 [1:27:07<17:45:29,  3.35it/s] 42%|████▏     | 157522/371472 [1:27:08<17:40:38,  3.36it/s] 42%|████▏     | 157523/371472 [1:27:08<16:56:31,  3.51it/s] 42%|████▏     | 157524/371472 [1:27:08<17:43:48,  3.35it/s] 42%|████▏     | 157525/371472 [1:27:09<18:05:38,  3.28it/s] 42%|████▏     | 157526/371472 [1:27:09<17:30:20,  3.39it/s] 42%|████▏     | 157527/371472 [1:27:09<17:49:19,  3.33it/s] 42%|████▏     | 157528/371472 [1:27:10<17:31:16,  3.39it/s] 42%|████▏     | 157529/371472 [1:27:10<17:45:37,  3.35it/s] 42%|████▏     | 157530/371472 [1:27:10<18:13:58,  3.26it/s] 42%|████▏     | 157531/371472 [1:27:10<17:37:05,  3.37it/s] 42%|████▏     | 157532/371472 [1:27:11<17:15:33,  3.44it/s] 42%|████▏     | 157533/371472 [1:27:11<16:51:17,  3.53it/s] 42%|████▏     | 157534/371472 [1:27:11<16:30:39,  3.60it/s] 42%|████▏     | 157535/371472 [1:27:12<16:15:43,  3.65it/s] 42%|████▏     | 157536/371472 [1:27:12<15:53:54,  3.74it/s] 42%|████▏     | 157537/371472 [1:27:12<16:04:38,  3.70it/s] 42%|████▏     | 157538/371472 [1:27:13<21:04:12,  2.82it/s] 42%|████▏     | 157539/371472 [1:27:13<19:20:13,  3.07it/s] 42%|████▏     | 157540/371472 [1:27:13<19:56:09,  2.98it/s]                                                            {'loss': 3.235, 'learning_rate': 6.185922989075394e-07, 'epoch': 6.79}
 42%|████▏     | 157540/371472 [1:27:13<19:56:09,  2.98it/s] 42%|████▏     | 157541/371472 [1:27:14<23:09:21,  2.57it/s] 42%|████▏     | 157542/371472 [1:27:14<21:29:58,  2.76it/s] 42%|████▏     | 157543/371472 [1:27:14<19:34:03,  3.04it/s] 42%|████▏     | 157544/371472 [1:27:15<18:32:16,  3.21it/s] 42%|████▏     | 157545/371472 [1:27:15<17:48:34,  3.34it/s] 42%|████▏     | 157546/371472 [1:27:15<16:57:51,  3.50it/s] 42%|████▏     | 157547/371472 [1:27:15<16:38:29,  3.57it/s] 42%|████▏     | 157548/371472 [1:27:16<17:39:27,  3.37it/s] 42%|████▏     | 157549/371472 [1:27:16<16:50:03,  3.53it/s] 42%|████▏     | 157550/371472 [1:27:16<16:57:00,  3.51it/s] 42%|████▏     | 157551/371472 [1:27:16<16:13:32,  3.66it/s] 42%|████▏     | 157552/371472 [1:27:17<16:19:09,  3.64it/s] 42%|████▏     | 157553/371472 [1:27:17<16:11:47,  3.67it/s] 42%|████▏     | 157554/371472 [1:27:17<17:50:55,  3.33it/s] 42%|████▏     | 157555/371472 [1:27:18<18:17:02,  3.25it/s] 42%|████▏     | 157556/371472 [1:27:18<17:37:46,  3.37it/s] 42%|████▏     | 157557/371472 [1:27:18<17:48:14,  3.34it/s] 42%|████▏     | 157558/371472 [1:27:19<17:45:21,  3.35it/s] 42%|████▏     | 157559/371472 [1:27:19<16:57:45,  3.50it/s] 42%|████▏     | 157560/371472 [1:27:19<18:01:17,  3.30it/s]                                                            {'loss': 3.1498, 'learning_rate': 6.185438169320606e-07, 'epoch': 6.79}
 42%|████▏     | 157560/371472 [1:27:19<18:01:17,  3.30it/s] 42%|████▏     | 157561/371472 [1:27:19<16:50:57,  3.53it/s] 42%|████▏     | 157562/371472 [1:27:20<16:58:23,  3.50it/s] 42%|████▏     | 157563/371472 [1:27:20<16:24:07,  3.62it/s] 42%|████▏     | 157564/371472 [1:27:20<16:20:59,  3.63it/s] 42%|████▏     | 157565/371472 [1:27:21<16:34:43,  3.58it/s] 42%|████▏     | 157566/371472 [1:27:21<16:17:35,  3.65it/s] 42%|████▏     | 157567/371472 [1:27:21<16:12:37,  3.67it/s] 42%|████▏     | 157568/371472 [1:27:21<16:44:31,  3.55it/s] 42%|████▏     | 157569/371472 [1:27:22<17:15:06,  3.44it/s] 42%|████▏     | 157570/371472 [1:27:22<17:47:48,  3.34it/s] 42%|████▏     | 157571/371472 [1:27:22<17:40:47,  3.36it/s] 42%|████▏     | 157572/371472 [1:27:23<18:22:15,  3.23it/s] 42%|████▏     | 157573/371472 [1:27:23<17:43:33,  3.35it/s] 42%|████▏     | 157574/371472 [1:27:23<17:52:35,  3.32it/s] 42%|████▏     | 157575/371472 [1:27:23<17:18:27,  3.43it/s] 42%|████▏     | 157576/371472 [1:27:24<16:35:55,  3.58it/s] 42%|████▏     | 157577/371472 [1:27:24<16:15:01,  3.66it/s] 42%|████▏     | 157578/371472 [1:27:24<16:33:34,  3.59it/s] 42%|████▏     | 157579/371472 [1:27:25<16:23:20,  3.63it/s] 42%|████▏     | 157580/371472 [1:27:25<16:15:00,  3.66it/s]                                                            {'loss': 3.1384, 'learning_rate': 6.184953349565817e-07, 'epoch': 6.79}
 42%|████▏     | 157580/371472 [1:27:25<16:15:00,  3.66it/s] 42%|████▏     | 157581/371472 [1:27:25<15:59:02,  3.72it/s] 42%|████▏     | 157582/371472 [1:27:25<15:39:20,  3.80it/s] 42%|████▏     | 157583/371472 [1:27:26<16:27:33,  3.61it/s] 42%|████▏     | 157584/371472 [1:27:26<17:00:19,  3.49it/s] 42%|████▏     | 157585/371472 [1:27:26<16:46:02,  3.54it/s] 42%|████▏     | 157586/371472 [1:27:27<19:00:37,  3.13it/s] 42%|████▏     | 157587/371472 [1:27:27<18:53:04,  3.15it/s] 42%|████▏     | 157588/371472 [1:27:27<17:50:41,  3.33it/s] 42%|████▏     | 157589/371472 [1:27:27<17:15:52,  3.44it/s] 42%|████▏     | 157590/371472 [1:27:28<17:37:07,  3.37it/s] 42%|████▏     | 157591/371472 [1:27:28<16:52:36,  3.52it/s] 42%|████▏     | 157592/371472 [1:27:28<16:37:49,  3.57it/s] 42%|████▏     | 157593/371472 [1:27:29<16:43:01,  3.55it/s] 42%|████▏     | 157594/371472 [1:27:29<17:30:12,  3.39it/s] 42%|████▏     | 157595/371472 [1:27:29<17:11:52,  3.45it/s] 42%|████▏     | 157596/371472 [1:27:29<16:29:31,  3.60it/s] 42%|████▏     | 157597/371472 [1:27:30<15:55:55,  3.73it/s] 42%|████▏     | 157598/371472 [1:27:30<15:47:40,  3.76it/s] 42%|████▏     | 157599/371472 [1:27:30<15:30:12,  3.83it/s] 42%|████▏     | 157600/371472 [1:27:30<15:46:28,  3.77it/s]                                                            {'loss': 3.1361, 'learning_rate': 6.184468529811028e-07, 'epoch': 6.79}
 42%|████▏     | 157600/371472 [1:27:30<15:46:28,  3.77it/s] 42%|████▏     | 157601/371472 [1:27:31<16:39:32,  3.57it/s] 42%|████▏     | 157602/371472 [1:27:31<16:26:06,  3.61it/s] 42%|████▏     | 157603/371472 [1:27:31<16:50:19,  3.53it/s] 42%|████▏     | 157604/371472 [1:27:32<16:58:50,  3.50it/s] 42%|████▏     | 157605/371472 [1:27:32<17:04:15,  3.48it/s] 42%|████▏     | 157606/371472 [1:27:32<17:09:55,  3.46it/s] 42%|████▏     | 157607/371472 [1:27:32<16:49:15,  3.53it/s] 42%|████▏     | 157608/371472 [1:27:33<16:27:57,  3.61it/s] 42%|████▏     | 157609/371472 [1:27:33<16:05:44,  3.69it/s] 42%|████▏     | 157610/371472 [1:27:33<16:11:13,  3.67it/s] 42%|████▏     | 157611/371472 [1:27:34<16:12:13,  3.67it/s] 42%|████▏     | 157612/371472 [1:27:34<16:15:02,  3.66it/s] 42%|████▏     | 157613/371472 [1:27:34<15:56:08,  3.73it/s] 42%|████▏     | 157614/371472 [1:27:34<15:45:22,  3.77it/s] 42%|████▏     | 157615/371472 [1:27:35<15:45:19,  3.77it/s] 42%|████▏     | 157616/371472 [1:27:35<16:31:02,  3.60it/s] 42%|████▏     | 157617/371472 [1:27:35<17:18:38,  3.43it/s] 42%|████▏     | 157618/371472 [1:27:36<16:57:40,  3.50it/s] 42%|████▏     | 157619/371472 [1:27:36<17:28:48,  3.40it/s] 42%|████▏     | 157620/371472 [1:27:36<16:57:41,  3.50it/s]                                                            {'loss': 3.1348, 'learning_rate': 6.183983710056239e-07, 'epoch': 6.79}
 42%|████▏     | 157620/371472 [1:27:36<16:57:41,  3.50it/s] 42%|████▏     | 157621/371472 [1:27:36<16:18:35,  3.64it/s] 42%|████▏     | 157622/371472 [1:27:37<16:12:17,  3.67it/s] 42%|████▏     | 157623/371472 [1:27:37<17:07:43,  3.47it/s] 42%|████▏     | 157624/371472 [1:27:37<17:18:00,  3.43it/s] 42%|████▏     | 157625/371472 [1:27:38<18:39:12,  3.18it/s] 42%|████▏     | 157626/371472 [1:27:38<18:05:07,  3.28it/s] 42%|████▏     | 157627/371472 [1:27:38<18:30:01,  3.21it/s] 42%|████▏     | 157628/371472 [1:27:39<18:42:35,  3.17it/s] 42%|████▏     | 157629/371472 [1:27:39<17:55:45,  3.31it/s] 42%|████▏     | 157630/371472 [1:27:39<16:56:07,  3.51it/s] 42%|████▏     | 157631/371472 [1:27:39<18:17:59,  3.25it/s] 42%|████▏     | 157632/371472 [1:27:40<17:05:16,  3.48it/s] 42%|████▏     | 157633/371472 [1:27:40<16:49:16,  3.53it/s] 42%|████▏     | 157634/371472 [1:27:40<16:44:31,  3.55it/s] 42%|████▏     | 157635/371472 [1:27:40<16:14:15,  3.66it/s] 42%|████▏     | 157636/371472 [1:27:41<16:29:00,  3.60it/s] 42%|████▏     | 157637/371472 [1:27:41<16:54:36,  3.51it/s] 42%|████▏     | 157638/371472 [1:27:41<17:26:38,  3.41it/s] 42%|████▏     | 157639/371472 [1:27:42<16:30:35,  3.60it/s] 42%|████▏     | 157640/371472 [1:27:42<16:41:35,  3.56it/s]                                                            {'loss': 3.2387, 'learning_rate': 6.18349889030145e-07, 'epoch': 6.79}
 42%|████▏     | 157640/371472 [1:27:42<16:41:35,  3.56it/s] 42%|████▏     | 157641/371472 [1:27:42<16:30:20,  3.60it/s] 42%|████▏     | 157642/371472 [1:27:42<16:18:47,  3.64it/s] 42%|████▏     | 157643/371472 [1:27:43<15:48:30,  3.76it/s] 42%|████▏     | 157644/371472 [1:27:43<15:46:28,  3.77it/s] 42%|████▏     | 157645/371472 [1:27:43<16:15:45,  3.65it/s] 42%|████▏     | 157646/371472 [1:27:44<17:11:03,  3.46it/s] 42%|████▏     | 157647/371472 [1:27:44<16:30:34,  3.60it/s] 42%|████▏     | 157648/371472 [1:27:44<16:20:51,  3.63it/s] 42%|████▏     | 157649/371472 [1:27:44<16:31:40,  3.59it/s] 42%|████▏     | 157650/371472 [1:27:45<15:52:51,  3.74it/s] 42%|████▏     | 157651/371472 [1:27:45<15:48:43,  3.76it/s] 42%|████▏     | 157652/371472 [1:27:45<16:08:30,  3.68it/s] 42%|████▏     | 157653/371472 [1:27:45<16:08:55,  3.68it/s] 42%|████▏     | 157654/371472 [1:27:46<16:56:54,  3.50it/s] 42%|████▏     | 157655/371472 [1:27:46<16:36:07,  3.58it/s] 42%|████▏     | 157656/371472 [1:27:46<17:54:03,  3.32it/s] 42%|████▏     | 157657/371472 [1:27:47<17:26:30,  3.41it/s] 42%|████▏     | 157658/371472 [1:27:47<16:52:17,  3.52it/s] 42%|████▏     | 157659/371472 [1:27:47<16:33:50,  3.59it/s] 42%|████▏     | 157660/371472 [1:27:47<16:24:21,  3.62it/s]                                                            {'loss': 3.2425, 'learning_rate': 6.183014070546661e-07, 'epoch': 6.79}
 42%|████▏     | 157660/371472 [1:27:47<16:24:21,  3.62it/s] 42%|████▏     | 157661/371472 [1:27:48<16:29:09,  3.60it/s] 42%|████▏     | 157662/371472 [1:27:48<16:48:49,  3.53it/s] 42%|████▏     | 157663/371472 [1:27:48<16:50:30,  3.53it/s] 42%|████▏     | 157664/371472 [1:27:49<16:18:32,  3.64it/s] 42%|████▏     | 157665/371472 [1:27:49<15:38:54,  3.80it/s] 42%|████▏     | 157666/371472 [1:27:49<16:13:09,  3.66it/s] 42%|████▏     | 157667/371472 [1:27:49<16:45:04,  3.55it/s] 42%|████▏     | 157668/371472 [1:27:50<16:29:46,  3.60it/s] 42%|████▏     | 157669/371472 [1:27:50<16:14:09,  3.66it/s] 42%|████▏     | 157670/371472 [1:27:50<16:15:51,  3.65it/s] 42%|████▏     | 157671/371472 [1:27:50<16:28:39,  3.60it/s] 42%|████▏     | 157672/371472 [1:27:51<16:11:01,  3.67it/s] 42%|████▏     | 157673/371472 [1:27:51<16:47:20,  3.54it/s] 42%|████▏     | 157674/371472 [1:27:51<17:11:04,  3.46it/s] 42%|████▏     | 157675/371472 [1:27:52<16:38:29,  3.57it/s] 42%|████▏     | 157676/371472 [1:27:52<16:52:50,  3.52it/s] 42%|████▏     | 157677/371472 [1:27:52<16:13:33,  3.66it/s] 42%|████▏     | 157678/371472 [1:27:52<15:42:29,  3.78it/s] 42%|████▏     | 157679/371472 [1:27:53<15:37:49,  3.80it/s] 42%|████▏     | 157680/371472 [1:27:53<15:54:35,  3.73it/s]                                                            {'loss': 3.1602, 'learning_rate': 6.182529250791873e-07, 'epoch': 6.79}
 42%|████▏     | 157680/371472 [1:27:53<15:54:35,  3.73it/s] 42%|████▏     | 157681/371472 [1:27:53<18:04:26,  3.29it/s] 42%|████▏     | 157682/371472 [1:27:54<17:42:31,  3.35it/s] 42%|████▏     | 157683/371472 [1:27:54<16:57:12,  3.50it/s] 42%|████▏     | 157684/371472 [1:27:54<17:18:44,  3.43it/s] 42%|████▏     | 157685/371472 [1:27:55<18:23:53,  3.23it/s] 42%|████▏     | 157686/371472 [1:27:55<17:17:59,  3.43it/s] 42%|████▏     | 157687/371472 [1:27:55<16:54:47,  3.51it/s] 42%|████▏     | 157688/371472 [1:27:55<16:16:02,  3.65it/s] 42%|████▏     | 157689/371472 [1:27:56<16:18:58,  3.64it/s] 42%|████▏     | 157690/371472 [1:27:56<16:02:59,  3.70it/s] 42%|████▏     | 157691/371472 [1:27:56<15:57:32,  3.72it/s] 42%|████▏     | 157692/371472 [1:27:56<16:44:55,  3.55it/s] 42%|████▏     | 157693/371472 [1:27:57<16:28:03,  3.61it/s] 42%|████▏     | 157694/371472 [1:27:57<16:36:06,  3.58it/s] 42%|████▏     | 157695/371472 [1:27:57<16:19:22,  3.64it/s] 42%|████▏     | 157696/371472 [1:27:57<16:05:26,  3.69it/s] 42%|████▏     | 157697/371472 [1:27:58<15:57:11,  3.72it/s] 42%|████▏     | 157698/371472 [1:27:58<15:28:44,  3.84it/s] 42%|████▏     | 157699/371472 [1:27:58<16:11:05,  3.67it/s] 42%|████▏     | 157700/371472 [1:27:59<15:52:30,  3.74it/s]                                                            {'loss': 3.222, 'learning_rate': 6.182044431037083e-07, 'epoch': 6.79}
 42%|████▏     | 157700/371472 [1:27:59<15:52:30,  3.74it/s] 42%|████▏     | 157701/371472 [1:27:59<15:57:28,  3.72it/s] 42%|████▏     | 157702/371472 [1:27:59<15:41:52,  3.78it/s] 42%|████▏     | 157703/371472 [1:27:59<15:39:35,  3.79it/s] 42%|████▏     | 157704/371472 [1:28:00<15:31:38,  3.82it/s] 42%|████▏     | 157705/371472 [1:28:00<15:30:10,  3.83it/s] 42%|████▏     | 157706/371472 [1:28:00<15:23:42,  3.86it/s] 42%|████▏     | 157707/371472 [1:28:00<15:15:48,  3.89it/s] 42%|████▏     | 157708/371472 [1:28:01<15:02:46,  3.95it/s] 42%|████▏     | 157709/371472 [1:28:01<16:09:29,  3.67it/s] 42%|████▏     | 157710/371472 [1:28:01<15:50:56,  3.75it/s] 42%|████▏     | 157711/371472 [1:28:01<16:08:47,  3.68it/s] 42%|████▏     | 157712/371472 [1:28:02<15:44:16,  3.77it/s] 42%|████▏     | 157713/371472 [1:28:02<15:57:22,  3.72it/s] 42%|████▏     | 157714/371472 [1:28:02<16:34:46,  3.58it/s] 42%|████▏     | 157715/371472 [1:28:03<15:56:17,  3.73it/s] 42%|████▏     | 157716/371472 [1:28:03<15:59:37,  3.71it/s] 42%|████▏     | 157717/371472 [1:28:03<16:50:13,  3.53it/s] 42%|████▏     | 157718/371472 [1:28:03<16:48:17,  3.53it/s] 42%|████▏     | 157719/371472 [1:28:04<16:30:13,  3.60it/s] 42%|████▏     | 157720/371472 [1:28:04<16:19:32,  3.64it/s]                                                            {'loss': 3.217, 'learning_rate': 6.181559611282294e-07, 'epoch': 6.79}
 42%|████▏     | 157720/371472 [1:28:04<16:19:32,  3.64it/s] 42%|████▏     | 157721/371472 [1:28:04<16:24:25,  3.62it/s] 42%|████▏     | 157722/371472 [1:28:04<16:06:18,  3.69it/s] 42%|████▏     | 157723/371472 [1:28:05<16:20:25,  3.63it/s] 42%|████▏     | 157724/371472 [1:28:05<16:20:29,  3.63it/s] 42%|████▏     | 157725/371472 [1:28:05<17:05:49,  3.47it/s] 42%|████▏     | 157726/371472 [1:28:06<20:01:58,  2.96it/s] 42%|████▏     | 157727/371472 [1:28:06<18:14:02,  3.26it/s] 42%|████▏     | 157728/371472 [1:28:06<18:23:38,  3.23it/s] 42%|████▏     | 157729/371472 [1:28:07<17:59:38,  3.30it/s] 42%|████▏     | 157730/371472 [1:28:07<17:57:27,  3.31it/s] 42%|████▏     | 157731/371472 [1:28:07<17:29:53,  3.39it/s] 42%|████▏     | 157732/371472 [1:28:08<17:19:26,  3.43it/s] 42%|████▏     | 157733/371472 [1:28:08<17:51:25,  3.32it/s] 42%|████▏     | 157734/371472 [1:28:08<17:18:52,  3.43it/s] 42%|████▏     | 157735/371472 [1:28:08<17:10:17,  3.46it/s] 42%|████▏     | 157736/371472 [1:28:09<17:12:06,  3.45it/s] 42%|████▏     | 157737/371472 [1:28:09<16:37:05,  3.57it/s] 42%|████▏     | 157738/371472 [1:28:09<16:15:36,  3.65it/s] 42%|████▏     | 157739/371472 [1:28:09<16:15:38,  3.65it/s] 42%|████▏     | 157740/371472 [1:28:10<16:16:44,  3.65it/s]                                                            {'loss': 3.1603, 'learning_rate': 6.181074791527506e-07, 'epoch': 6.79}
 42%|████▏     | 157740/371472 [1:28:10<16:16:44,  3.65it/s] 42%|████▏     | 157741/371472 [1:28:10<16:39:43,  3.56it/s] 42%|████▏     | 157742/371472 [1:28:10<16:00:24,  3.71it/s] 42%|████▏     | 157743/371472 [1:28:11<17:12:24,  3.45it/s] 42%|████▏     | 157744/371472 [1:28:11<16:55:16,  3.51it/s] 42%|████▏     | 157745/371472 [1:28:11<17:11:00,  3.45it/s] 42%|████▏     | 157746/371472 [1:28:11<16:43:48,  3.55it/s] 42%|████▏     | 157747/371472 [1:28:12<16:21:14,  3.63it/s] 42%|████▏     | 157748/371472 [1:28:12<16:00:47,  3.71it/s] 42%|████▏     | 157749/371472 [1:28:12<16:01:24,  3.71it/s] 42%|████▏     | 157750/371472 [1:28:12<15:26:53,  3.84it/s] 42%|████▏     | 157751/371472 [1:28:13<16:09:07,  3.68it/s] 42%|████▏     | 157752/371472 [1:28:13<17:03:21,  3.48it/s] 42%|████▏     | 157753/371472 [1:28:13<16:43:10,  3.55it/s] 42%|████▏     | 157754/371472 [1:28:14<16:19:24,  3.64it/s] 42%|████▏     | 157755/371472 [1:28:14<16:01:27,  3.70it/s] 42%|████▏     | 157756/371472 [1:28:14<15:57:08,  3.72it/s] 42%|████▏     | 157757/371472 [1:28:14<16:31:12,  3.59it/s] 42%|████▏     | 157758/371472 [1:28:15<17:09:34,  3.46it/s] 42%|████▏     | 157759/371472 [1:28:15<18:10:29,  3.27it/s] 42%|████▏     | 157760/371472 [1:28:15<17:08:38,  3.46it/s]                                                            {'loss': 3.1663, 'learning_rate': 6.180589971772717e-07, 'epoch': 6.8}
 42%|████▏     | 157760/371472 [1:28:15<17:08:38,  3.46it/s] 42%|████▏     | 157761/371472 [1:28:16<16:35:37,  3.58it/s] 42%|████▏     | 157762/371472 [1:28:16<16:50:12,  3.53it/s] 42%|████▏     | 157763/371472 [1:28:16<18:25:31,  3.22it/s] 42%|████▏     | 157764/371472 [1:28:17<17:51:30,  3.32it/s] 42%|████▏     | 157765/371472 [1:28:17<17:40:28,  3.36it/s] 42%|████▏     | 157766/371472 [1:28:17<17:55:01,  3.31it/s] 42%|████▏     | 157767/371472 [1:28:17<17:13:42,  3.45it/s] 42%|████▏     | 157768/371472 [1:28:18<16:48:18,  3.53it/s] 42%|████▏     | 157769/371472 [1:28:18<16:20:04,  3.63it/s] 42%|████▏     | 157770/371472 [1:28:18<17:14:01,  3.44it/s] 42%|████▏     | 157771/371472 [1:28:19<17:10:58,  3.45it/s] 42%|████▏     | 157772/371472 [1:28:19<17:04:25,  3.48it/s] 42%|████▏     | 157773/371472 [1:28:19<16:22:53,  3.62it/s] 42%|████▏     | 157774/371472 [1:28:19<16:16:48,  3.65it/s] 42%|████▏     | 157775/371472 [1:28:20<15:57:44,  3.72it/s] 42%|████▏     | 157776/371472 [1:28:20<16:13:23,  3.66it/s] 42%|████▏     | 157777/371472 [1:28:20<18:01:05,  3.29it/s] 42%|████▏     | 157778/371472 [1:28:21<18:31:50,  3.20it/s] 42%|████▏     | 157779/371472 [1:28:21<17:37:04,  3.37it/s] 42%|████▏     | 157780/371472 [1:28:21<16:52:14,  3.52it/s]                                                            {'loss': 3.0467, 'learning_rate': 6.180105152017927e-07, 'epoch': 6.8}
 42%|████▏     | 157780/371472 [1:28:21<16:52:14,  3.52it/s] 42%|████▏     | 157781/371472 [1:28:21<17:30:53,  3.39it/s] 42%|████▏     | 157782/371472 [1:28:22<17:18:57,  3.43it/s] 42%|████▏     | 157783/371472 [1:28:22<17:17:13,  3.43it/s] 42%|████▏     | 157784/371472 [1:28:22<17:25:44,  3.41it/s] 42%|████▏     | 157785/371472 [1:28:23<17:32:35,  3.38it/s] 42%|████▏     | 157786/371472 [1:28:23<17:06:57,  3.47it/s] 42%|████▏     | 157787/371472 [1:28:23<16:31:30,  3.59it/s] 42%|████▏     | 157788/371472 [1:28:23<16:44:21,  3.55it/s] 42%|████▏     | 157789/371472 [1:28:24<16:12:41,  3.66it/s] 42%|████▏     | 157790/371472 [1:28:24<16:09:19,  3.67it/s] 42%|████▏     | 157791/371472 [1:28:24<17:43:53,  3.35it/s] 42%|████▏     | 157792/371472 [1:28:25<17:23:46,  3.41it/s] 42%|████▏     | 157793/371472 [1:28:25<17:53:33,  3.32it/s] 42%|████▏     | 157794/371472 [1:28:25<17:20:44,  3.42it/s] 42%|████▏     | 157795/371472 [1:28:25<16:34:57,  3.58it/s] 42%|████▏     | 157796/371472 [1:28:26<17:16:45,  3.43it/s] 42%|████▏     | 157797/371472 [1:28:26<16:55:02,  3.51it/s] 42%|████▏     | 157798/371472 [1:28:26<16:23:18,  3.62it/s] 42%|████▏     | 157799/371472 [1:28:27<18:24:56,  3.22it/s] 42%|████▏     | 157800/371472 [1:28:27<17:46:45,  3.34it/s]                                                            {'loss': 3.2086, 'learning_rate': 6.179620332263138e-07, 'epoch': 6.8}
 42%|████▏     | 157800/371472 [1:28:27<17:46:45,  3.34it/s] 42%|████▏     | 157801/371472 [1:28:27<17:29:58,  3.39it/s] 42%|████▏     | 157802/371472 [1:28:28<17:10:55,  3.45it/s] 42%|████▏     | 157803/371472 [1:28:28<16:34:42,  3.58it/s] 42%|████▏     | 157804/371472 [1:28:28<16:18:57,  3.64it/s] 42%|████▏     | 157805/371472 [1:28:28<17:06:51,  3.47it/s] 42%|████▏     | 157806/371472 [1:28:29<16:47:29,  3.53it/s] 42%|████▏     | 157807/371472 [1:28:29<16:35:24,  3.58it/s] 42%|████▏     | 157808/371472 [1:28:29<16:03:34,  3.70it/s] 42%|████▏     | 157809/371472 [1:28:29<16:01:36,  3.70it/s] 42%|████▏     | 157810/371472 [1:28:30<16:42:09,  3.55it/s] 42%|████▏     | 157811/371472 [1:28:30<16:50:47,  3.52it/s] 42%|████▏     | 157812/371472 [1:28:30<16:27:59,  3.60it/s] 42%|████▏     | 157813/371472 [1:28:31<15:45:00,  3.77it/s] 42%|████▏     | 157814/371472 [1:28:31<16:20:25,  3.63it/s] 42%|████▏     | 157815/371472 [1:28:31<16:09:57,  3.67it/s] 42%|████▏     | 157816/371472 [1:28:31<16:13:39,  3.66it/s] 42%|████▏     | 157817/371472 [1:28:32<16:14:00,  3.66it/s] 42%|████▏     | 157818/371472 [1:28:32<15:55:18,  3.73it/s] 42%|████▏     | 157819/371472 [1:28:32<16:48:39,  3.53it/s] 42%|████▏     | 157820/371472 [1:28:33<17:13:52,  3.44it/s]                                                            {'loss': 3.1296, 'learning_rate': 6.179135512508349e-07, 'epoch': 6.8}
 42%|████▏     | 157820/371472 [1:28:33<17:13:52,  3.44it/s] 42%|████▏     | 157821/371472 [1:28:33<17:21:17,  3.42it/s] 42%|████▏     | 157822/371472 [1:28:33<17:20:53,  3.42it/s] 42%|████▏     | 157823/371472 [1:28:33<17:17:53,  3.43it/s] 42%|████▏     | 157824/371472 [1:28:34<18:06:08,  3.28it/s] 42%|████▏     | 157825/371472 [1:28:34<17:09:07,  3.46it/s] 42%|████▏     | 157826/371472 [1:28:34<16:45:06,  3.54it/s] 42%|████▏     | 157827/371472 [1:28:35<16:57:14,  3.50it/s] 42%|████▏     | 157828/371472 [1:28:35<16:53:58,  3.51it/s] 42%|████▏     | 157829/371472 [1:28:35<16:34:12,  3.58it/s] 42%|████▏     | 157830/371472 [1:28:35<17:50:56,  3.32it/s] 42%|████▏     | 157831/371472 [1:28:36<17:22:06,  3.42it/s] 42%|████▏     | 157832/371472 [1:28:36<16:48:46,  3.53it/s] 42%|████▏     | 157833/371472 [1:28:36<16:46:22,  3.54it/s] 42%|████▏     | 157834/371472 [1:28:37<17:31:56,  3.38it/s] 42%|████▏     | 157835/371472 [1:28:37<17:22:58,  3.41it/s] 42%|████▏     | 157836/371472 [1:28:37<16:40:09,  3.56it/s] 42%|████▏     | 157837/371472 [1:28:37<16:31:54,  3.59it/s] 42%|████▏     | 157838/371472 [1:28:38<16:07:07,  3.68it/s] 42%|████▏     | 157839/371472 [1:28:38<16:04:42,  3.69it/s] 42%|████▏     | 157840/371472 [1:28:38<15:42:25,  3.78it/s]                                                            {'loss': 3.1159, 'learning_rate': 6.17865069275356e-07, 'epoch': 6.8}
 42%|████▏     | 157840/371472 [1:28:38<15:42:25,  3.78it/s] 42%|████▏     | 157841/371472 [1:28:39<17:13:41,  3.44it/s] 42%|████▏     | 157842/371472 [1:28:39<17:56:21,  3.31it/s] 42%|████▏     | 157843/371472 [1:28:39<17:49:23,  3.33it/s] 42%|████▏     | 157844/371472 [1:28:39<16:54:08,  3.51it/s] 42%|████▏     | 157845/371472 [1:28:40<17:04:05,  3.48it/s] 42%|████▏     | 157846/371472 [1:28:40<17:59:09,  3.30it/s] 42%|████▏     | 157847/371472 [1:28:40<17:26:59,  3.40it/s] 42%|████▏     | 157848/371472 [1:28:41<17:48:17,  3.33it/s] 42%|████▏     | 157849/371472 [1:28:41<17:38:37,  3.36it/s] 42%|████▏     | 157850/371472 [1:28:41<18:02:36,  3.29it/s] 42%|████▏     | 157851/371472 [1:28:42<18:00:35,  3.29it/s] 42%|████▏     | 157852/371472 [1:28:42<17:41:03,  3.36it/s] 42%|████▏     | 157853/371472 [1:28:42<17:43:48,  3.35it/s] 42%|████▏     | 157854/371472 [1:28:42<16:49:08,  3.53it/s] 42%|████▏     | 157855/371472 [1:28:43<16:33:03,  3.59it/s] 42%|████▏     | 157856/371472 [1:28:43<16:18:07,  3.64it/s] 42%|████▏     | 157857/371472 [1:28:43<16:24:34,  3.62it/s] 42%|████▏     | 157858/371472 [1:28:44<18:45:25,  3.16it/s] 42%|████▏     | 157859/371472 [1:28:44<17:52:59,  3.32it/s] 42%|████▏     | 157860/371472 [1:28:44<17:50:43,  3.33it/s]                                                            {'loss': 2.9767, 'learning_rate': 6.178165872998772e-07, 'epoch': 6.8}
 42%|████▏     | 157860/371472 [1:28:44<17:50:43,  3.33it/s] 42%|████▏     | 157861/371472 [1:28:44<17:03:09,  3.48it/s] 42%|████▏     | 157862/371472 [1:28:45<16:27:54,  3.60it/s] 42%|████▏     | 157863/371472 [1:28:45<16:08:15,  3.68it/s] 42%|████▏     | 157864/371472 [1:28:45<15:53:04,  3.74it/s] 42%|████▏     | 157865/371472 [1:28:45<15:53:52,  3.73it/s] 42%|████▏     | 157866/371472 [1:28:46<15:52:48,  3.74it/s] 42%|████▏     | 157867/371472 [1:28:46<16:30:49,  3.59it/s] 42%|████▏     | 157868/371472 [1:28:46<18:36:25,  3.19it/s] 42%|████▏     | 157869/371472 [1:28:47<17:57:10,  3.31it/s] 42%|████▏     | 157870/371472 [1:28:47<17:18:51,  3.43it/s] 42%|████▏     | 157871/371472 [1:28:47<16:59:05,  3.49it/s] 42%|████▏     | 157872/371472 [1:28:48<17:03:58,  3.48it/s] 42%|████▏     | 157873/371472 [1:28:48<17:03:21,  3.48it/s] 42%|████▏     | 157874/371472 [1:28:48<17:12:10,  3.45it/s] 42%|████▏     | 157875/371472 [1:28:48<16:52:31,  3.52it/s] 43%|████▎     | 157876/371472 [1:28:49<17:27:24,  3.40it/s] 43%|████▎     | 157877/371472 [1:28:49<17:39:29,  3.36it/s] 43%|████▎     | 157878/371472 [1:28:49<17:35:29,  3.37it/s] 43%|████▎     | 157879/371472 [1:28:50<17:41:12,  3.35it/s] 43%|████▎     | 157880/371472 [1:28:50<18:55:15,  3.14it/s]                                                            {'loss': 3.1451, 'learning_rate': 6.177681053243983e-07, 'epoch': 6.8}
 43%|████▎     | 157880/371472 [1:28:50<18:55:15,  3.14it/s] 43%|████▎     | 157881/371472 [1:28:50<18:25:04,  3.22it/s] 43%|████▎     | 157882/371472 [1:28:51<19:17:17,  3.08it/s] 43%|████▎     | 157883/371472 [1:28:51<18:05:38,  3.28it/s] 43%|████▎     | 157884/371472 [1:28:51<17:03:10,  3.48it/s] 43%|████▎     | 157885/371472 [1:28:51<16:28:22,  3.60it/s] 43%|████▎     | 157886/371472 [1:28:52<16:13:14,  3.66it/s] 43%|████▎     | 157887/371472 [1:28:52<16:56:59,  3.50it/s] 43%|████▎     | 157888/371472 [1:28:52<16:52:29,  3.52it/s] 43%|████▎     | 157889/371472 [1:28:52<16:37:42,  3.57it/s] 43%|████▎     | 157890/371472 [1:28:53<16:37:16,  3.57it/s] 43%|████▎     | 157891/371472 [1:28:53<16:26:20,  3.61it/s] 43%|████▎     | 157892/371472 [1:28:53<16:05:16,  3.69it/s] 43%|████▎     | 157893/371472 [1:28:54<15:57:26,  3.72it/s] 43%|████▎     | 157894/371472 [1:28:54<16:08:19,  3.68it/s] 43%|████▎     | 157895/371472 [1:28:54<16:02:28,  3.70it/s] 43%|████▎     | 157896/371472 [1:28:54<16:40:50,  3.56it/s] 43%|████▎     | 157897/371472 [1:28:55<16:35:19,  3.58it/s] 43%|████▎     | 157898/371472 [1:28:55<17:31:47,  3.38it/s] 43%|████▎     | 157899/371472 [1:28:55<17:54:51,  3.31it/s] 43%|████▎     | 157900/371472 [1:28:56<17:03:59,  3.48it/s]                                                            {'loss': 3.1406, 'learning_rate': 6.177196233489193e-07, 'epoch': 6.8}
 43%|████▎     | 157900/371472 [1:28:56<17:03:59,  3.48it/s] 43%|████▎     | 157901/371472 [1:28:56<17:59:50,  3.30it/s] 43%|████▎     | 157902/371472 [1:28:56<17:35:31,  3.37it/s] 43%|████▎     | 157903/371472 [1:28:57<18:39:39,  3.18it/s] 43%|████▎     | 157904/371472 [1:28:57<18:13:10,  3.26it/s] 43%|████▎     | 157905/371472 [1:28:57<17:32:01,  3.38it/s] 43%|████▎     | 157906/371472 [1:28:57<16:46:23,  3.54it/s] 43%|████▎     | 157907/371472 [1:28:58<18:34:15,  3.19it/s] 43%|████▎     | 157908/371472 [1:28:58<17:16:51,  3.43it/s] 43%|████▎     | 157909/371472 [1:28:58<17:45:52,  3.34it/s] 43%|████▎     | 157910/371472 [1:28:59<17:59:38,  3.30it/s] 43%|████▎     | 157911/371472 [1:28:59<17:35:40,  3.37it/s] 43%|████▎     | 157912/371472 [1:28:59<17:05:16,  3.47it/s] 43%|████▎     | 157913/371472 [1:28:59<16:37:22,  3.57it/s] 43%|████▎     | 157914/371472 [1:29:00<17:37:21,  3.37it/s] 43%|████▎     | 157915/371472 [1:29:00<17:58:26,  3.30it/s] 43%|████▎     | 157916/371472 [1:29:00<19:01:58,  3.12it/s] 43%|████▎     | 157917/371472 [1:29:01<18:27:53,  3.21it/s] 43%|████▎     | 157918/371472 [1:29:01<18:39:31,  3.18it/s] 43%|████▎     | 157919/371472 [1:29:01<18:54:36,  3.14it/s] 43%|████▎     | 157920/371472 [1:29:02<17:52:44,  3.32it/s]                                                            {'loss': 3.4028, 'learning_rate': 6.176711413734404e-07, 'epoch': 6.8}
 43%|████▎     | 157920/371472 [1:29:02<17:52:44,  3.32it/s] 43%|████▎     | 157921/371472 [1:29:02<17:39:04,  3.36it/s] 43%|████▎     | 157922/371472 [1:29:02<17:34:09,  3.38it/s] 43%|████▎     | 157923/371472 [1:29:03<17:37:48,  3.36it/s] 43%|████▎     | 157924/371472 [1:29:03<17:03:41,  3.48it/s] 43%|████▎     | 157925/371472 [1:29:03<18:41:39,  3.17it/s] 43%|████▎     | 157926/371472 [1:29:03<17:25:00,  3.41it/s] 43%|████▎     | 157927/371472 [1:29:04<17:01:54,  3.48it/s] 43%|████▎     | 157928/371472 [1:29:04<16:58:49,  3.49it/s] 43%|████▎     | 157929/371472 [1:29:04<18:00:28,  3.29it/s] 43%|████▎     | 157930/371472 [1:29:05<17:29:09,  3.39it/s] 43%|████▎     | 157931/371472 [1:29:05<18:04:39,  3.28it/s] 43%|████▎     | 157932/371472 [1:29:05<18:14:16,  3.25it/s] 43%|████▎     | 157933/371472 [1:29:06<17:13:39,  3.44it/s] 43%|████▎     | 157934/371472 [1:29:06<17:16:33,  3.43it/s] 43%|████▎     | 157935/371472 [1:29:06<17:23:19,  3.41it/s] 43%|████▎     | 157936/371472 [1:29:06<17:44:24,  3.34it/s] 43%|████▎     | 157937/371472 [1:29:07<18:23:15,  3.23it/s] 43%|████▎     | 157938/371472 [1:29:07<17:42:05,  3.35it/s] 43%|████▎     | 157939/371472 [1:29:07<17:08:44,  3.46it/s] 43%|████▎     | 157940/371472 [1:29:08<16:51:55,  3.52it/s]                                                            {'loss': 3.0742, 'learning_rate': 6.176226593979615e-07, 'epoch': 6.8}
 43%|████▎     | 157940/371472 [1:29:08<16:51:55,  3.52it/s] 43%|████▎     | 157941/371472 [1:29:08<16:58:05,  3.50it/s] 43%|████▎     | 157942/371472 [1:29:08<16:51:35,  3.52it/s] 43%|████▎     | 157943/371472 [1:29:08<17:38:01,  3.36it/s] 43%|████▎     | 157944/371472 [1:29:09<17:31:14,  3.39it/s] 43%|████▎     | 157945/371472 [1:29:09<17:28:04,  3.40it/s] 43%|████▎     | 157946/371472 [1:29:09<16:47:10,  3.53it/s] 43%|████▎     | 157947/371472 [1:29:10<16:56:29,  3.50it/s] 43%|████▎     | 157948/371472 [1:29:10<16:47:10,  3.53it/s] 43%|████▎     | 157949/371472 [1:29:10<16:35:04,  3.58it/s] 43%|████▎     | 157950/371472 [1:29:10<17:13:22,  3.44it/s] 43%|████▎     | 157951/371472 [1:29:11<16:45:19,  3.54it/s] 43%|████▎     | 157952/371472 [1:29:11<16:59:56,  3.49it/s] 43%|████▎     | 157953/371472 [1:29:11<17:24:42,  3.41it/s] 43%|████▎     | 157954/371472 [1:29:12<17:16:55,  3.43it/s] 43%|████▎     | 157955/371472 [1:29:12<17:47:10,  3.33it/s] 43%|████▎     | 157956/371472 [1:29:12<17:39:00,  3.36it/s] 43%|████▎     | 157957/371472 [1:29:13<17:30:00,  3.39it/s] 43%|████▎     | 157958/371472 [1:29:13<17:13:54,  3.44it/s] 43%|████▎     | 157959/371472 [1:29:13<18:54:25,  3.14it/s] 43%|████▎     | 157960/371472 [1:29:13<18:35:58,  3.19it/s]                                                            {'loss': 3.2637, 'learning_rate': 6.175741774224827e-07, 'epoch': 6.8}
 43%|████▎     | 157960/371472 [1:29:13<18:35:58,  3.19it/s] 43%|████▎     | 157961/371472 [1:29:14<18:56:44,  3.13it/s] 43%|████▎     | 157962/371472 [1:29:14<19:31:08,  3.04it/s] 43%|████▎     | 157963/371472 [1:29:14<19:21:12,  3.06it/s] 43%|████▎     | 157964/371472 [1:29:15<18:24:36,  3.22it/s] 43%|████▎     | 157965/371472 [1:29:15<18:18:57,  3.24it/s] 43%|████▎     | 157966/371472 [1:29:15<18:54:59,  3.14it/s] 43%|████▎     | 157967/371472 [1:29:16<19:14:04,  3.08it/s] 43%|████▎     | 157968/371472 [1:29:16<18:54:21,  3.14it/s] 43%|████▎     | 157969/371472 [1:29:16<18:09:44,  3.27it/s] 43%|████▎     | 157970/371472 [1:29:17<16:58:51,  3.49it/s] 43%|████▎     | 157971/371472 [1:29:17<16:38:35,  3.56it/s] 43%|████▎     | 157972/371472 [1:29:17<16:16:40,  3.64it/s] 43%|████▎     | 157973/371472 [1:29:17<17:28:10,  3.39it/s] 43%|████▎     | 157974/371472 [1:29:18<17:32:51,  3.38it/s] 43%|████▎     | 157975/371472 [1:29:18<16:55:05,  3.51it/s] 43%|████▎     | 157976/371472 [1:29:18<18:17:56,  3.24it/s] 43%|████▎     | 157977/371472 [1:29:19<17:03:14,  3.48it/s] 43%|████▎     | 157978/371472 [1:29:19<17:19:07,  3.42it/s] 43%|████▎     | 157979/371472 [1:29:19<17:42:20,  3.35it/s] 43%|████▎     | 157980/371472 [1:29:20<17:52:42,  3.32it/s]                                                            {'loss': 3.2022, 'learning_rate': 6.175256954470038e-07, 'epoch': 6.8}
 43%|████▎     | 157980/371472 [1:29:20<17:52:42,  3.32it/s] 43%|████▎     | 157981/371472 [1:29:20<17:15:23,  3.44it/s] 43%|████▎     | 157982/371472 [1:29:20<17:11:23,  3.45it/s] 43%|████▎     | 157983/371472 [1:29:20<17:00:11,  3.49it/s] 43%|████▎     | 157984/371472 [1:29:21<16:55:39,  3.50it/s] 43%|████▎     | 157985/371472 [1:29:21<18:06:56,  3.27it/s] 43%|████▎     | 157986/371472 [1:29:21<18:14:24,  3.25it/s] 43%|████▎     | 157987/371472 [1:29:22<18:26:39,  3.22it/s] 43%|████▎     | 157988/371472 [1:29:22<17:51:02,  3.32it/s] 43%|████▎     | 157989/371472 [1:29:22<17:26:51,  3.40it/s] 43%|████▎     | 157990/371472 [1:29:22<16:56:44,  3.50it/s] 43%|████▎     | 157991/371472 [1:29:23<16:19:23,  3.63it/s] 43%|████▎     | 157992/371472 [1:29:23<16:09:30,  3.67it/s] 43%|████▎     | 157993/371472 [1:29:23<17:41:05,  3.35it/s] 43%|████▎     | 157994/371472 [1:29:24<18:36:37,  3.19it/s] 43%|████▎     | 157995/371472 [1:29:24<18:31:38,  3.20it/s] 43%|████▎     | 157996/371472 [1:29:24<17:48:34,  3.33it/s] 43%|████▎     | 157997/371472 [1:29:25<18:23:04,  3.23it/s] 43%|████▎     | 157998/371472 [1:29:25<19:15:28,  3.08it/s] 43%|████▎     | 157999/371472 [1:29:25<18:21:49,  3.23it/s] 43%|████▎     | 158000/371472 [1:29:25<17:24:17,  3.41it/s]                                                            {'loss': 3.2115, 'learning_rate': 6.174772134715249e-07, 'epoch': 6.81}
 43%|████▎     | 158000/371472 [1:29:25<17:24:17,  3.41it/s] 43%|████▎     | 158001/371472 [1:29:26<17:08:06,  3.46it/s] 43%|████▎     | 158002/371472 [1:29:26<16:35:23,  3.57it/s] 43%|████▎     | 158003/371472 [1:29:26<17:31:16,  3.38it/s] 43%|████▎     | 158004/371472 [1:29:27<16:58:37,  3.49it/s] 43%|████▎     | 158005/371472 [1:29:27<17:38:09,  3.36it/s] 43%|████▎     | 158006/371472 [1:29:27<16:38:15,  3.56it/s] 43%|████▎     | 158007/371472 [1:29:27<16:38:30,  3.56it/s] 43%|████▎     | 158008/371472 [1:29:28<19:00:47,  3.12it/s] 43%|████▎     | 158009/371472 [1:29:28<19:04:21,  3.11it/s] 43%|████▎     | 158010/371472 [1:29:28<17:49:30,  3.33it/s] 43%|████▎     | 158011/371472 [1:29:29<17:29:58,  3.39it/s] 43%|████▎     | 158012/371472 [1:29:29<16:58:41,  3.49it/s] 43%|████▎     | 158013/371472 [1:29:29<17:47:02,  3.33it/s] 43%|████▎     | 158014/371472 [1:29:30<16:53:59,  3.51it/s] 43%|████▎     | 158015/371472 [1:29:30<16:42:54,  3.55it/s] 43%|████▎     | 158016/371472 [1:29:30<17:22:30,  3.41it/s] 43%|████▎     | 158017/371472 [1:29:30<17:19:47,  3.42it/s] 43%|████▎     | 158018/371472 [1:29:31<16:35:16,  3.57it/s] 43%|████▎     | 158019/371472 [1:29:31<16:30:02,  3.59it/s] 43%|████▎     | 158020/371472 [1:29:31<16:08:38,  3.67it/s]                                                            {'loss': 3.2259, 'learning_rate': 6.17428731496046e-07, 'epoch': 6.81}
 43%|████▎     | 158020/371472 [1:29:31<16:08:38,  3.67it/s] 43%|████▎     | 158021/371472 [1:29:31<15:40:57,  3.78it/s] 43%|████▎     | 158022/371472 [1:29:32<16:33:23,  3.58it/s] 43%|████▎     | 158023/371472 [1:29:32<16:35:21,  3.57it/s] 43%|████▎     | 158024/371472 [1:29:32<16:32:57,  3.58it/s] 43%|████▎     | 158025/371472 [1:29:33<16:58:35,  3.49it/s] 43%|████▎     | 158026/371472 [1:29:33<16:48:21,  3.53it/s] 43%|████▎     | 158027/371472 [1:29:33<16:25:16,  3.61it/s] 43%|████▎     | 158028/371472 [1:29:33<16:26:24,  3.61it/s] 43%|████▎     | 158029/371472 [1:29:34<16:47:13,  3.53it/s] 43%|████▎     | 158030/371472 [1:29:34<17:17:00,  3.43it/s] 43%|████▎     | 158031/371472 [1:29:35<21:50:21,  2.71it/s] 43%|████▎     | 158032/371472 [1:29:35<19:50:58,  2.99it/s] 43%|████▎     | 158033/371472 [1:29:35<18:59:44,  3.12it/s] 43%|████▎     | 158034/371472 [1:29:35<18:30:18,  3.20it/s] 43%|████▎     | 158035/371472 [1:29:36<18:32:48,  3.20it/s] 43%|████▎     | 158036/371472 [1:29:36<18:09:25,  3.27it/s] 43%|████▎     | 158037/371472 [1:29:36<17:38:11,  3.36it/s] 43%|████▎     | 158038/371472 [1:29:37<17:14:21,  3.44it/s] 43%|████▎     | 158039/371472 [1:29:37<16:41:16,  3.55it/s] 43%|████▎     | 158040/371472 [1:29:37<16:31:47,  3.59it/s]                                                            {'loss': 3.0914, 'learning_rate': 6.173802495205671e-07, 'epoch': 6.81}
 43%|████▎     | 158040/371472 [1:29:37<16:31:47,  3.59it/s] 43%|████▎     | 158041/371472 [1:29:37<16:23:20,  3.62it/s] 43%|████▎     | 158042/371472 [1:29:38<16:03:16,  3.69it/s] 43%|████▎     | 158043/371472 [1:29:38<16:22:44,  3.62it/s] 43%|████▎     | 158044/371472 [1:29:38<16:13:45,  3.65it/s] 43%|████▎     | 158045/371472 [1:29:38<16:02:56,  3.69it/s] 43%|████▎     | 158046/371472 [1:29:39<16:29:55,  3.59it/s] 43%|████▎     | 158047/371472 [1:29:39<16:34:39,  3.58it/s] 43%|████▎     | 158048/371472 [1:29:39<16:01:38,  3.70it/s] 43%|████▎     | 158049/371472 [1:29:40<15:54:14,  3.73it/s] 43%|████▎     | 158050/371472 [1:29:40<16:22:07,  3.62it/s] 43%|████▎     | 158051/371472 [1:29:40<16:17:07,  3.64it/s] 43%|████▎     | 158052/371472 [1:29:40<15:56:19,  3.72it/s] 43%|████▎     | 158053/371472 [1:29:41<15:56:12,  3.72it/s] 43%|████▎     | 158054/371472 [1:29:41<17:12:59,  3.44it/s] 43%|████▎     | 158055/371472 [1:29:41<16:34:09,  3.58it/s] 43%|████▎     | 158056/371472 [1:29:42<15:58:42,  3.71it/s] 43%|████▎     | 158057/371472 [1:29:42<16:19:13,  3.63it/s] 43%|████▎     | 158058/371472 [1:29:42<16:51:00,  3.52it/s] 43%|████▎     | 158059/371472 [1:29:42<16:17:03,  3.64it/s] 43%|████▎     | 158060/371472 [1:29:43<18:59:11,  3.12it/s]                                                            {'loss': 3.2007, 'learning_rate': 6.173317675450882e-07, 'epoch': 6.81}
 43%|████▎     | 158060/371472 [1:29:43<18:59:11,  3.12it/s] 43%|████▎     | 158061/371472 [1:29:43<18:50:09,  3.15it/s] 43%|████▎     | 158062/371472 [1:29:43<18:11:36,  3.26it/s] 43%|████▎     | 158063/371472 [1:29:44<17:10:53,  3.45it/s] 43%|████▎     | 158064/371472 [1:29:44<17:40:22,  3.35it/s] 43%|████▎     | 158065/371472 [1:29:44<16:57:07,  3.50it/s] 43%|████▎     | 158066/371472 [1:29:44<16:35:18,  3.57it/s] 43%|████▎     | 158067/371472 [1:29:45<16:32:06,  3.59it/s] 43%|████▎     | 158068/371472 [1:29:45<16:21:53,  3.62it/s] 43%|████▎     | 158069/371472 [1:29:45<16:10:02,  3.67it/s] 43%|████▎     | 158070/371472 [1:29:46<17:03:10,  3.48it/s] 43%|████▎     | 158071/371472 [1:29:46<16:52:51,  3.51it/s] 43%|████▎     | 158072/371472 [1:29:46<16:14:01,  3.65it/s] 43%|████▎     | 158073/371472 [1:29:46<16:26:54,  3.60it/s] 43%|████▎     | 158074/371472 [1:29:47<16:50:59,  3.52it/s] 43%|████▎     | 158075/371472 [1:29:47<16:55:56,  3.50it/s] 43%|████▎     | 158076/371472 [1:29:47<16:40:31,  3.55it/s] 43%|████▎     | 158077/371472 [1:29:48<16:29:41,  3.59it/s] 43%|████▎     | 158078/371472 [1:29:48<17:14:58,  3.44it/s] 43%|████▎     | 158079/371472 [1:29:48<17:24:56,  3.40it/s] 43%|████▎     | 158080/371472 [1:29:48<16:50:00,  3.52it/s]                                                            {'loss': 3.2452, 'learning_rate': 6.172832855696093e-07, 'epoch': 6.81}
 43%|████▎     | 158080/371472 [1:29:48<16:50:00,  3.52it/s] 43%|████▎     | 158081/371472 [1:29:49<16:12:59,  3.66it/s] 43%|████▎     | 158082/371472 [1:29:49<15:57:02,  3.72it/s] 43%|████▎     | 158083/371472 [1:29:49<15:43:52,  3.77it/s] 43%|████▎     | 158084/371472 [1:29:49<16:02:53,  3.69it/s] 43%|████▎     | 158085/371472 [1:29:50<16:08:00,  3.67it/s] 43%|████▎     | 158086/371472 [1:29:50<16:24:38,  3.61it/s] 43%|████▎     | 158087/371472 [1:29:50<16:39:36,  3.56it/s] 43%|████▎     | 158088/371472 [1:29:51<16:25:57,  3.61it/s] 43%|████▎     | 158089/371472 [1:29:51<15:57:27,  3.71it/s] 43%|████▎     | 158090/371472 [1:29:51<15:55:05,  3.72it/s] 43%|████▎     | 158091/371472 [1:29:51<15:54:05,  3.73it/s] 43%|████▎     | 158092/371472 [1:29:52<16:05:18,  3.68it/s] 43%|████▎     | 158093/371472 [1:29:52<16:44:40,  3.54it/s] 43%|████▎     | 158094/371472 [1:29:52<16:45:00,  3.54it/s] 43%|████▎     | 158095/371472 [1:29:53<16:52:43,  3.51it/s] 43%|████▎     | 158096/371472 [1:29:53<17:05:47,  3.47it/s] 43%|████▎     | 158097/371472 [1:29:53<17:05:28,  3.47it/s] 43%|████▎     | 158098/371472 [1:29:53<16:40:59,  3.55it/s] 43%|████▎     | 158099/371472 [1:29:54<16:22:44,  3.62it/s] 43%|████▎     | 158100/371472 [1:29:54<16:11:02,  3.66it/s]                                                            {'loss': 3.3078, 'learning_rate': 6.172348035941303e-07, 'epoch': 6.81}
 43%|████▎     | 158100/371472 [1:29:54<16:11:02,  3.66it/s] 43%|████▎     | 158101/371472 [1:29:54<17:06:39,  3.46it/s] 43%|████▎     | 158102/371472 [1:29:55<18:41:50,  3.17it/s] 43%|████▎     | 158103/371472 [1:29:55<18:31:13,  3.20it/s] 43%|████▎     | 158104/371472 [1:29:55<18:13:34,  3.25it/s] 43%|████▎     | 158105/371472 [1:29:55<17:12:22,  3.44it/s] 43%|████▎     | 158106/371472 [1:29:56<17:28:56,  3.39it/s] 43%|████▎     | 158107/371472 [1:29:56<16:20:41,  3.63it/s] 43%|████▎     | 158108/371472 [1:29:56<15:54:58,  3.72it/s] 43%|████▎     | 158109/371472 [1:29:57<16:45:02,  3.54it/s] 43%|████▎     | 158110/371472 [1:29:57<17:37:04,  3.36it/s] 43%|████▎     | 158111/371472 [1:29:57<17:30:38,  3.38it/s] 43%|████▎     | 158112/371472 [1:29:57<17:14:38,  3.44it/s] 43%|████▎     | 158113/371472 [1:29:58<17:17:16,  3.43it/s] 43%|████▎     | 158114/371472 [1:29:58<17:01:46,  3.48it/s] 43%|████▎     | 158115/371472 [1:29:58<17:25:28,  3.40it/s] 43%|████▎     | 158116/371472 [1:29:59<17:16:41,  3.43it/s] 43%|████▎     | 158117/371472 [1:29:59<17:42:33,  3.35it/s] 43%|████▎     | 158118/371472 [1:29:59<17:29:38,  3.39it/s] 43%|████▎     | 158119/371472 [1:30:00<17:38:27,  3.36it/s] 43%|████▎     | 158120/371472 [1:30:00<17:45:20,  3.34it/s]                                                            {'loss': 3.0721, 'learning_rate': 6.171863216186516e-07, 'epoch': 6.81}
 43%|████▎     | 158120/371472 [1:30:00<17:45:20,  3.34it/s] 43%|████▎     | 158121/371472 [1:30:00<17:41:45,  3.35it/s] 43%|████▎     | 158122/371472 [1:30:00<17:07:18,  3.46it/s] 43%|████▎     | 158123/371472 [1:30:01<16:28:14,  3.60it/s] 43%|████▎     | 158124/371472 [1:30:01<16:01:54,  3.70it/s] 43%|████▎     | 158125/371472 [1:30:01<15:59:57,  3.70it/s] 43%|████▎     | 158126/371472 [1:30:01<16:04:36,  3.69it/s] 43%|████▎     | 158127/371472 [1:30:02<17:12:30,  3.44it/s] 43%|████▎     | 158128/371472 [1:30:02<16:41:44,  3.55it/s] 43%|████▎     | 158129/371472 [1:30:02<16:16:29,  3.64it/s] 43%|████▎     | 158130/371472 [1:30:03<16:23:44,  3.61it/s] 43%|████▎     | 158131/371472 [1:30:03<16:37:47,  3.56it/s] 43%|████▎     | 158132/371472 [1:30:03<17:29:06,  3.39it/s] 43%|████▎     | 158133/371472 [1:30:04<18:42:50,  3.17it/s] 43%|████▎     | 158134/371472 [1:30:04<18:18:47,  3.24it/s] 43%|████▎     | 158135/371472 [1:30:04<17:55:17,  3.31it/s] 43%|████▎     | 158136/371472 [1:30:04<17:55:35,  3.31it/s] 43%|████▎     | 158137/371472 [1:30:05<17:11:33,  3.45it/s] 43%|████▎     | 158138/371472 [1:30:05<16:36:46,  3.57it/s] 43%|████▎     | 158139/371472 [1:30:05<16:22:12,  3.62it/s] 43%|████▎     | 158140/371472 [1:30:06<17:23:24,  3.41it/s]                                                            {'loss': 2.9291, 'learning_rate': 6.171378396431727e-07, 'epoch': 6.81}
 43%|████▎     | 158140/371472 [1:30:06<17:23:24,  3.41it/s] 43%|████▎     | 158141/371472 [1:30:06<17:32:12,  3.38it/s] 43%|████▎     | 158142/371472 [1:30:06<17:12:31,  3.44it/s] 43%|████▎     | 158143/371472 [1:30:06<16:54:10,  3.51it/s] 43%|████▎     | 158144/371472 [1:30:07<16:30:39,  3.59it/s] 43%|████▎     | 158145/371472 [1:30:07<15:58:30,  3.71it/s] 43%|████▎     | 158146/371472 [1:30:07<16:05:28,  3.68it/s] 43%|████▎     | 158147/371472 [1:30:08<16:03:48,  3.69it/s] 43%|████▎     | 158148/371472 [1:30:08<15:53:47,  3.73it/s] 43%|████▎     | 158149/371472 [1:30:08<16:02:22,  3.69it/s] 43%|████▎     | 158150/371472 [1:30:08<15:59:46,  3.70it/s] 43%|████▎     | 158151/371472 [1:30:09<15:45:38,  3.76it/s] 43%|████▎     | 158152/371472 [1:30:09<15:42:31,  3.77it/s] 43%|████▎     | 158153/371472 [1:30:09<15:35:29,  3.80it/s] 43%|████▎     | 158154/371472 [1:30:09<15:31:48,  3.82it/s] 43%|████▎     | 158155/371472 [1:30:10<15:38:16,  3.79it/s] 43%|████▎     | 158156/371472 [1:30:10<15:46:57,  3.75it/s] 43%|████▎     | 158157/371472 [1:30:10<16:57:40,  3.49it/s] 43%|████▎     | 158158/371472 [1:30:10<16:32:28,  3.58it/s] 43%|████▎     | 158159/371472 [1:30:11<17:13:06,  3.44it/s] 43%|████▎     | 158160/371472 [1:30:11<16:47:16,  3.53it/s]                                                            {'loss': 3.5005, 'learning_rate': 6.170893576676937e-07, 'epoch': 6.81}
 43%|████▎     | 158160/371472 [1:30:11<16:47:16,  3.53it/s] 43%|████▎     | 158161/371472 [1:30:11<16:15:16,  3.65it/s] 43%|████▎     | 158162/371472 [1:30:12<16:40:33,  3.55it/s] 43%|████▎     | 158163/371472 [1:30:12<17:12:49,  3.44it/s] 43%|████▎     | 158164/371472 [1:30:12<16:59:31,  3.49it/s] 43%|████▎     | 158165/371472 [1:30:12<16:42:00,  3.55it/s] 43%|████▎     | 158166/371472 [1:30:13<16:27:56,  3.60it/s] 43%|████▎     | 158167/371472 [1:30:13<16:59:29,  3.49it/s] 43%|████▎     | 158168/371472 [1:30:13<16:40:57,  3.55it/s] 43%|████▎     | 158169/371472 [1:30:14<16:13:39,  3.65it/s] 43%|████▎     | 158170/371472 [1:30:14<15:46:27,  3.76it/s] 43%|████▎     | 158171/371472 [1:30:14<15:10:33,  3.90it/s] 43%|████▎     | 158172/371472 [1:30:14<15:52:52,  3.73it/s] 43%|████▎     | 158173/371472 [1:30:15<16:00:21,  3.70it/s] 43%|████▎     | 158174/371472 [1:30:15<16:59:32,  3.49it/s] 43%|████▎     | 158175/371472 [1:30:15<18:45:39,  3.16it/s] 43%|████▎     | 158176/371472 [1:30:16<19:19:51,  3.06it/s] 43%|████▎     | 158177/371472 [1:30:16<18:21:39,  3.23it/s] 43%|████▎     | 158178/371472 [1:30:16<18:04:09,  3.28it/s] 43%|████▎     | 158179/371472 [1:30:17<19:27:26,  3.05it/s] 43%|████▎     | 158180/371472 [1:30:17<19:40:49,  3.01it/s]                                                            {'loss': 3.0626, 'learning_rate': 6.170408756922148e-07, 'epoch': 6.81}
 43%|████▎     | 158180/371472 [1:30:17<19:40:49,  3.01it/s] 43%|████▎     | 158181/371472 [1:30:17<19:47:12,  2.99it/s] 43%|████▎     | 158182/371472 [1:30:18<18:38:23,  3.18it/s] 43%|████▎     | 158183/371472 [1:30:18<19:25:56,  3.05it/s] 43%|████▎     | 158184/371472 [1:30:18<18:52:39,  3.14it/s] 43%|████▎     | 158185/371472 [1:30:19<20:16:03,  2.92it/s] 43%|████▎     | 158186/371472 [1:30:19<18:42:53,  3.17it/s] 43%|████▎     | 158187/371472 [1:30:19<18:16:48,  3.24it/s] 43%|████▎     | 158188/371472 [1:30:19<17:34:06,  3.37it/s] 43%|████▎     | 158189/371472 [1:30:20<16:56:15,  3.50it/s] 43%|████▎     | 158190/371472 [1:30:20<17:22:52,  3.41it/s] 43%|████▎     | 158191/371472 [1:30:20<18:05:12,  3.28it/s] 43%|████▎     | 158192/371472 [1:30:21<17:33:15,  3.37it/s] 43%|████▎     | 158193/371472 [1:30:21<18:13:50,  3.25it/s] 43%|████▎     | 158194/371472 [1:30:21<17:52:39,  3.31it/s] 43%|████▎     | 158195/371472 [1:30:22<17:58:19,  3.30it/s] 43%|████▎     | 158196/371472 [1:30:22<20:10:19,  2.94it/s] 43%|████▎     | 158197/371472 [1:30:22<18:51:49,  3.14it/s] 43%|████▎     | 158198/371472 [1:30:23<17:44:27,  3.34it/s] 43%|████▎     | 158199/371472 [1:30:23<18:41:56,  3.17it/s] 43%|████▎     | 158200/371472 [1:30:23<18:01:29,  3.29it/s]                                                            {'loss': 3.0928, 'learning_rate': 6.169923937167361e-07, 'epoch': 6.81}
 43%|████▎     | 158200/371472 [1:30:23<18:01:29,  3.29it/s] 43%|████▎     | 158201/371472 [1:30:23<17:50:09,  3.32it/s] 43%|████▎     | 158202/371472 [1:30:24<17:22:53,  3.41it/s] 43%|████▎     | 158203/371472 [1:30:24<17:33:13,  3.37it/s] 43%|████▎     | 158204/371472 [1:30:24<17:55:12,  3.31it/s] 43%|████▎     | 158205/371472 [1:30:25<17:30:57,  3.38it/s] 43%|████▎     | 158206/371472 [1:30:25<18:59:22,  3.12it/s] 43%|████▎     | 158207/371472 [1:30:25<18:55:43,  3.13it/s] 43%|████▎     | 158208/371472 [1:30:26<17:47:48,  3.33it/s] 43%|████▎     | 158209/371472 [1:30:26<17:05:45,  3.47it/s] 43%|████▎     | 158210/371472 [1:30:26<16:34:32,  3.57it/s] 43%|████▎     | 158211/371472 [1:30:26<16:08:32,  3.67it/s] 43%|████▎     | 158212/371472 [1:30:27<17:20:05,  3.42it/s] 43%|████▎     | 158213/371472 [1:30:27<17:59:01,  3.29it/s] 43%|████▎     | 158214/371472 [1:30:27<17:17:47,  3.42it/s] 43%|████▎     | 158215/371472 [1:30:28<17:19:54,  3.42it/s] 43%|████▎     | 158216/371472 [1:30:28<17:08:19,  3.46it/s] 43%|████▎     | 158217/371472 [1:30:28<17:02:22,  3.48it/s] 43%|████▎     | 158218/371472 [1:30:29<18:19:17,  3.23it/s] 43%|████▎     | 158219/371472 [1:30:29<17:34:03,  3.37it/s] 43%|████▎     | 158220/371472 [1:30:29<17:50:45,  3.32it/s]                                                            {'loss': 3.2366, 'learning_rate': 6.169439117412571e-07, 'epoch': 6.81}
 43%|████▎     | 158220/371472 [1:30:29<17:50:45,  3.32it/s] 43%|████▎     | 158221/371472 [1:30:29<17:28:22,  3.39it/s] 43%|████▎     | 158222/371472 [1:30:30<16:51:37,  3.51it/s] 43%|████▎     | 158223/371472 [1:30:30<16:46:15,  3.53it/s] 43%|████▎     | 158224/371472 [1:30:30<16:12:34,  3.65it/s] 43%|████▎     | 158225/371472 [1:30:30<16:14:01,  3.65it/s] 43%|████▎     | 158226/371472 [1:30:31<16:15:30,  3.64it/s] 43%|████▎     | 158227/371472 [1:30:31<17:08:52,  3.45it/s] 43%|████▎     | 158228/371472 [1:30:31<17:06:40,  3.46it/s] 43%|████▎     | 158229/371472 [1:30:32<16:52:32,  3.51it/s] 43%|████▎     | 158230/371472 [1:30:32<18:10:11,  3.26it/s] 43%|████▎     | 158231/371472 [1:30:32<17:45:29,  3.34it/s] 43%|████▎     | 158232/371472 [1:30:32<17:04:49,  3.47it/s] 43%|████▎     | 158233/371472 [1:30:33<18:00:32,  3.29it/s] 43%|████▎     | 158234/371472 [1:30:33<17:11:24,  3.45it/s] 43%|████▎     | 158235/371472 [1:30:33<16:58:39,  3.49it/s] 43%|████▎     | 158236/371472 [1:30:34<16:19:46,  3.63it/s] 43%|████▎     | 158237/371472 [1:30:34<16:06:02,  3.68it/s] 43%|████▎     | 158238/371472 [1:30:34<16:28:56,  3.59it/s] 43%|████▎     | 158239/371472 [1:30:34<16:47:39,  3.53it/s] 43%|████▎     | 158240/371472 [1:30:35<17:02:33,  3.48it/s]                                                            {'loss': 3.1312, 'learning_rate': 6.168954297657781e-07, 'epoch': 6.82}
 43%|████▎     | 158240/371472 [1:30:35<17:02:33,  3.48it/s] 43%|████▎     | 158241/371472 [1:30:35<16:38:44,  3.56it/s] 43%|████▎     | 158242/371472 [1:30:35<17:07:21,  3.46it/s] 43%|████▎     | 158243/371472 [1:30:36<16:57:12,  3.49it/s] 43%|████▎     | 158244/371472 [1:30:36<17:50:36,  3.32it/s] 43%|████▎     | 158245/371472 [1:30:36<17:40:31,  3.35it/s] 43%|████▎     | 158246/371472 [1:30:37<17:48:53,  3.32it/s] 43%|████▎     | 158247/371472 [1:30:37<17:51:10,  3.32it/s] 43%|████▎     | 158248/371472 [1:30:37<16:47:18,  3.53it/s] 43%|████▎     | 158249/371472 [1:30:37<16:25:57,  3.60it/s] 43%|████▎     | 158250/371472 [1:30:38<15:50:57,  3.74it/s] 43%|████▎     | 158251/371472 [1:30:38<15:56:31,  3.72it/s] 43%|████▎     | 158252/371472 [1:30:38<15:33:29,  3.81it/s] 43%|████▎     | 158253/371472 [1:30:38<15:36:32,  3.79it/s] 43%|████▎     | 158254/371472 [1:30:39<18:05:50,  3.27it/s] 43%|████▎     | 158255/371472 [1:30:39<18:29:51,  3.20it/s] 43%|████▎     | 158256/371472 [1:30:39<17:58:49,  3.29it/s] 43%|████▎     | 158257/371472 [1:30:40<16:49:24,  3.52it/s] 43%|████▎     | 158258/371472 [1:30:40<16:18:52,  3.63it/s] 43%|████▎     | 158259/371472 [1:30:40<16:26:31,  3.60it/s] 43%|████▎     | 158260/371472 [1:30:40<15:56:57,  3.71it/s]                                                            {'loss': 3.2128, 'learning_rate': 6.168469477902993e-07, 'epoch': 6.82}
 43%|████▎     | 158260/371472 [1:30:40<15:56:57,  3.71it/s] 43%|████▎     | 158261/371472 [1:30:41<16:48:42,  3.52it/s] 43%|████▎     | 158262/371472 [1:30:41<16:48:29,  3.52it/s] 43%|████▎     | 158263/371472 [1:30:41<19:02:46,  3.11it/s] 43%|████▎     | 158264/371472 [1:30:42<18:16:54,  3.24it/s] 43%|████▎     | 158265/371472 [1:30:42<17:49:03,  3.32it/s] 43%|████▎     | 158266/371472 [1:30:42<17:10:27,  3.45it/s] 43%|████▎     | 158267/371472 [1:30:43<17:23:15,  3.41it/s] 43%|████▎     | 158268/371472 [1:30:43<17:34:06,  3.37it/s] 43%|████▎     | 158269/371472 [1:30:43<16:46:48,  3.53it/s] 43%|████▎     | 158270/371472 [1:30:43<17:36:45,  3.36it/s] 43%|████▎     | 158271/371472 [1:30:44<17:11:35,  3.44it/s] 43%|████▎     | 158272/371472 [1:30:44<16:58:35,  3.49it/s] 43%|████▎     | 158273/371472 [1:30:44<16:32:58,  3.58it/s] 43%|████▎     | 158274/371472 [1:30:45<16:59:02,  3.49it/s] 43%|████▎     | 158275/371472 [1:30:45<16:20:51,  3.62it/s] 43%|████▎     | 158276/371472 [1:30:45<16:14:28,  3.65it/s] 43%|████▎     | 158277/371472 [1:30:45<18:15:13,  3.24it/s] 43%|████▎     | 158278/371472 [1:30:46<17:32:47,  3.38it/s] 43%|████▎     | 158279/371472 [1:30:46<17:10:33,  3.45it/s] 43%|████▎     | 158280/371472 [1:30:46<17:35:29,  3.37it/s]                                                            {'loss': 3.1199, 'learning_rate': 6.167984658148204e-07, 'epoch': 6.82}
 43%|████▎     | 158280/371472 [1:30:46<17:35:29,  3.37it/s] 43%|████▎     | 158281/371472 [1:30:47<17:21:06,  3.41it/s] 43%|████▎     | 158282/371472 [1:30:47<17:34:06,  3.37it/s] 43%|████▎     | 158283/371472 [1:30:47<18:17:08,  3.24it/s] 43%|████▎     | 158284/371472 [1:30:48<17:15:31,  3.43it/s] 43%|████▎     | 158285/371472 [1:30:48<16:30:58,  3.59it/s] 43%|████▎     | 158286/371472 [1:30:48<17:07:23,  3.46it/s] 43%|████▎     | 158287/371472 [1:30:48<17:17:49,  3.42it/s] 43%|████▎     | 158288/371472 [1:30:49<16:48:30,  3.52it/s] 43%|████▎     | 158289/371472 [1:30:49<16:17:56,  3.63it/s] 43%|████▎     | 158290/371472 [1:30:49<15:56:50,  3.71it/s] 43%|████▎     | 158291/371472 [1:30:49<15:54:52,  3.72it/s] 43%|████▎     | 158292/371472 [1:30:50<15:49:01,  3.74it/s] 43%|████▎     | 158293/371472 [1:30:50<15:50:17,  3.74it/s] 43%|████▎     | 158294/371472 [1:30:50<15:59:41,  3.70it/s] 43%|████▎     | 158295/371472 [1:30:50<15:48:38,  3.75it/s] 43%|████▎     | 158296/371472 [1:30:51<15:31:46,  3.81it/s] 43%|████▎     | 158297/371472 [1:30:51<15:32:26,  3.81it/s] 43%|████▎     | 158298/371472 [1:30:51<17:02:13,  3.48it/s] 43%|████▎     | 158299/371472 [1:30:52<16:20:29,  3.62it/s] 43%|████▎     | 158300/371472 [1:30:52<16:09:53,  3.66it/s]                                                            {'loss': 3.228, 'learning_rate': 6.167499838393415e-07, 'epoch': 6.82}
 43%|████▎     | 158300/371472 [1:30:52<16:09:53,  3.66it/s] 43%|████▎     | 158301/371472 [1:30:52<15:38:01,  3.79it/s] 43%|████▎     | 158302/371472 [1:30:52<15:58:05,  3.71it/s] 43%|████▎     | 158303/371472 [1:30:53<15:33:52,  3.80it/s] 43%|████▎     | 158304/371472 [1:30:53<15:24:09,  3.84it/s] 43%|████▎     | 158305/371472 [1:30:53<15:47:29,  3.75it/s] 43%|████▎     | 158306/371472 [1:30:53<16:15:55,  3.64it/s] 43%|████▎     | 158307/371472 [1:30:54<16:11:28,  3.66it/s] 43%|████▎     | 158308/371472 [1:30:54<17:04:36,  3.47it/s] 43%|████▎     | 158309/371472 [1:30:54<16:05:35,  3.68it/s] 43%|████▎     | 158310/371472 [1:30:55<16:02:30,  3.69it/s] 43%|████▎     | 158311/371472 [1:30:55<17:13:47,  3.44it/s] 43%|████▎     | 158312/371472 [1:30:55<16:43:55,  3.54it/s] 43%|████▎     | 158313/371472 [1:30:55<16:55:53,  3.50it/s] 43%|████▎     | 158314/371472 [1:30:56<16:28:25,  3.59it/s] 43%|████▎     | 158315/371472 [1:30:56<16:07:36,  3.67it/s] 43%|████▎     | 158316/371472 [1:30:56<15:48:52,  3.74it/s] 43%|████▎     | 158317/371472 [1:30:57<15:56:00,  3.72it/s] 43%|████▎     | 158318/371472 [1:30:57<16:02:40,  3.69it/s] 43%|████▎     | 158319/371472 [1:30:57<16:04:15,  3.68it/s] 43%|████▎     | 158320/371472 [1:30:57<15:45:17,  3.76it/s]                                                            {'loss': 3.2298, 'learning_rate': 6.167015018638625e-07, 'epoch': 6.82}
 43%|████▎     | 158320/371472 [1:30:57<15:45:17,  3.76it/s] 43%|████▎     | 158321/371472 [1:30:58<15:48:01,  3.75it/s] 43%|████▎     | 158322/371472 [1:30:58<15:39:02,  3.78it/s] 43%|████▎     | 158323/371472 [1:30:58<15:42:34,  3.77it/s] 43%|████▎     | 158324/371472 [1:30:58<15:52:27,  3.73it/s] 43%|████▎     | 158325/371472 [1:30:59<15:40:01,  3.78it/s] 43%|████▎     | 158326/371472 [1:30:59<15:06:55,  3.92it/s] 43%|████▎     | 158327/371472 [1:30:59<15:01:13,  3.94it/s] 43%|████▎     | 158328/371472 [1:30:59<16:37:49,  3.56it/s] 43%|████▎     | 158329/371472 [1:31:00<17:35:31,  3.37it/s] 43%|████▎     | 158330/371472 [1:31:00<17:00:15,  3.48it/s] 43%|████▎     | 158331/371472 [1:31:00<16:41:02,  3.55it/s] 43%|████▎     | 158332/371472 [1:31:01<16:33:47,  3.57it/s] 43%|████▎     | 158333/371472 [1:31:01<16:19:51,  3.63it/s] 43%|████▎     | 158334/371472 [1:31:01<15:59:53,  3.70it/s] 43%|████▎     | 158335/371472 [1:31:01<15:38:48,  3.78it/s] 43%|████▎     | 158336/371472 [1:31:02<15:59:53,  3.70it/s] 43%|████▎     | 158337/371472 [1:31:02<16:48:03,  3.52it/s] 43%|████▎     | 158338/371472 [1:31:02<17:07:39,  3.46it/s] 43%|████▎     | 158339/371472 [1:31:03<16:51:13,  3.51it/s] 43%|████▎     | 158340/371472 [1:31:03<16:51:11,  3.51it/s]                                                            {'loss': 3.2595, 'learning_rate': 6.166530198883837e-07, 'epoch': 6.82}
 43%|████▎     | 158340/371472 [1:31:03<16:51:11,  3.51it/s] 43%|████▎     | 158341/371472 [1:31:03<16:45:44,  3.53it/s] 43%|████▎     | 158342/371472 [1:31:03<16:27:13,  3.60it/s] 43%|████▎     | 158343/371472 [1:31:04<16:14:08,  3.65it/s] 43%|████▎     | 158344/371472 [1:31:04<15:58:02,  3.71it/s] 43%|████▎     | 158345/371472 [1:31:04<15:34:18,  3.80it/s] 43%|████▎     | 158346/371472 [1:31:04<15:09:44,  3.90it/s] 43%|████▎     | 158347/371472 [1:31:05<15:51:38,  3.73it/s] 43%|████▎     | 158348/371472 [1:31:05<16:36:07,  3.57it/s] 43%|████▎     | 158349/371472 [1:31:05<16:22:57,  3.61it/s] 43%|████▎     | 158350/371472 [1:31:06<16:14:19,  3.65it/s] 43%|████▎     | 158351/371472 [1:31:06<16:42:24,  3.54it/s] 43%|████▎     | 158352/371472 [1:31:06<16:22:40,  3.61it/s] 43%|████▎     | 158353/371472 [1:31:06<15:56:55,  3.71it/s] 43%|████▎     | 158354/371472 [1:31:07<16:46:30,  3.53it/s] 43%|████▎     | 158355/371472 [1:31:07<17:37:25,  3.36it/s] 43%|████▎     | 158356/371472 [1:31:07<18:31:52,  3.19it/s] 43%|████▎     | 158357/371472 [1:31:08<17:27:59,  3.39it/s] 43%|████▎     | 158358/371472 [1:31:08<17:31:24,  3.38it/s] 43%|████▎     | 158359/371472 [1:31:08<17:01:27,  3.48it/s] 43%|████▎     | 158360/371472 [1:31:08<16:27:13,  3.60it/s]                                                            {'loss': 3.4947, 'learning_rate': 6.166045379129048e-07, 'epoch': 6.82}
 43%|████▎     | 158360/371472 [1:31:08<16:27:13,  3.60it/s] 43%|████▎     | 158361/371472 [1:31:09<16:22:29,  3.62it/s] 43%|████▎     | 158362/371472 [1:31:09<16:13:29,  3.65it/s] 43%|████▎     | 158363/371472 [1:31:09<17:41:21,  3.35it/s] 43%|████▎     | 158364/371472 [1:31:10<16:48:41,  3.52it/s] 43%|████▎     | 158365/371472 [1:31:10<16:56:34,  3.49it/s] 43%|████▎     | 158366/371472 [1:31:10<16:37:19,  3.56it/s] 43%|████▎     | 158367/371472 [1:31:10<17:00:42,  3.48it/s] 43%|████▎     | 158368/371472 [1:31:11<16:52:31,  3.51it/s] 43%|████▎     | 158369/371472 [1:31:11<16:00:53,  3.70it/s] 43%|████▎     | 158370/371472 [1:31:11<16:02:06,  3.69it/s] 43%|████▎     | 158371/371472 [1:31:12<16:50:58,  3.51it/s] 43%|████▎     | 158372/371472 [1:31:12<16:58:59,  3.49it/s] 43%|████▎     | 158373/371472 [1:31:12<16:55:15,  3.50it/s] 43%|████▎     | 158374/371472 [1:31:12<17:15:52,  3.43it/s] 43%|████▎     | 158375/371472 [1:31:13<17:04:35,  3.47it/s] 43%|████▎     | 158376/371472 [1:31:13<16:25:34,  3.60it/s] 43%|████▎     | 158377/371472 [1:31:13<16:10:56,  3.66it/s] 43%|████▎     | 158378/371472 [1:31:13<15:43:07,  3.77it/s] 43%|████▎     | 158379/371472 [1:31:14<15:39:32,  3.78it/s] 43%|████▎     | 158380/371472 [1:31:14<16:19:16,  3.63it/s]                                                            {'loss': 3.1077, 'learning_rate': 6.165560559374259e-07, 'epoch': 6.82}
 43%|████▎     | 158380/371472 [1:31:14<16:19:16,  3.63it/s] 43%|████▎     | 158381/371472 [1:31:14<17:49:18,  3.32it/s] 43%|████▎     | 158382/371472 [1:31:15<17:13:47,  3.44it/s] 43%|████▎     | 158383/371472 [1:31:15<16:56:44,  3.49it/s] 43%|████▎     | 158384/371472 [1:31:15<16:17:30,  3.63it/s] 43%|████▎     | 158385/371472 [1:31:15<16:20:27,  3.62it/s] 43%|████▎     | 158386/371472 [1:31:16<16:04:43,  3.68it/s] 43%|████▎     | 158387/371472 [1:31:16<16:09:48,  3.66it/s] 43%|████▎     | 158388/371472 [1:31:16<16:44:14,  3.54it/s] 43%|████▎     | 158389/371472 [1:31:17<16:22:22,  3.62it/s] 43%|████▎     | 158390/371472 [1:31:17<18:40:22,  3.17it/s] 43%|████▎     | 158391/371472 [1:31:17<17:58:04,  3.29it/s] 43%|████▎     | 158392/371472 [1:31:18<18:42:23,  3.16it/s] 43%|████▎     | 158393/371472 [1:31:18<18:03:51,  3.28it/s] 43%|████▎     | 158394/371472 [1:31:18<17:30:58,  3.38it/s] 43%|████▎     | 158395/371472 [1:31:18<17:27:32,  3.39it/s] 43%|████▎     | 158396/371472 [1:31:19<16:52:10,  3.51it/s] 43%|████▎     | 158397/371472 [1:31:19<16:56:00,  3.50it/s] 43%|████▎     | 158398/371472 [1:31:19<16:46:10,  3.53it/s] 43%|████▎     | 158399/371472 [1:31:20<18:22:48,  3.22it/s] 43%|████▎     | 158400/371472 [1:31:20<17:32:09,  3.38it/s]                                                            {'loss': 3.1485, 'learning_rate': 6.16507573961947e-07, 'epoch': 6.82}
 43%|████▎     | 158400/371472 [1:31:20<17:32:09,  3.38it/s] 43%|████▎     | 158401/371472 [1:31:20<17:35:10,  3.37it/s] 43%|████▎     | 158402/371472 [1:31:21<18:13:48,  3.25it/s] 43%|████▎     | 158403/371472 [1:31:21<18:16:19,  3.24it/s] 43%|████▎     | 158404/371472 [1:31:21<17:50:43,  3.32it/s] 43%|████▎     | 158405/371472 [1:31:21<17:09:13,  3.45it/s] 43%|████▎     | 158406/371472 [1:31:22<16:46:20,  3.53it/s] 43%|████▎     | 158407/371472 [1:31:22<16:34:47,  3.57it/s] 43%|████▎     | 158408/371472 [1:31:22<15:58:00,  3.71it/s] 43%|████▎     | 158409/371472 [1:31:23<16:47:15,  3.53it/s] 43%|████▎     | 158410/371472 [1:31:23<17:08:12,  3.45it/s] 43%|████▎     | 158411/371472 [1:31:23<16:48:39,  3.52it/s] 43%|████▎     | 158412/371472 [1:31:23<16:22:46,  3.61it/s] 43%|████▎     | 158413/371472 [1:31:24<17:20:33,  3.41it/s] 43%|████▎     | 158414/371472 [1:31:24<16:23:15,  3.61it/s] 43%|████▎     | 158415/371472 [1:31:24<16:30:22,  3.59it/s] 43%|████▎     | 158416/371472 [1:31:24<16:51:49,  3.51it/s] 43%|████▎     | 158417/371472 [1:31:25<16:56:25,  3.49it/s] 43%|████▎     | 158418/371472 [1:31:25<16:27:33,  3.60it/s] 43%|████▎     | 158419/371472 [1:31:25<16:07:35,  3.67it/s] 43%|████▎     | 158420/371472 [1:31:26<17:03:36,  3.47it/s]                                                            {'loss': 3.265, 'learning_rate': 6.164590919864681e-07, 'epoch': 6.82}
 43%|████▎     | 158420/371472 [1:31:26<17:03:36,  3.47it/s] 43%|████▎     | 158421/371472 [1:31:26<16:43:38,  3.54it/s] 43%|████▎     | 158422/371472 [1:31:26<16:50:27,  3.51it/s] 43%|████▎     | 158423/371472 [1:31:27<17:37:59,  3.36it/s] 43%|████▎     | 158424/371472 [1:31:27<18:10:40,  3.26it/s] 43%|████▎     | 158425/371472 [1:31:27<17:33:25,  3.37it/s] 43%|████▎     | 158426/371472 [1:31:27<16:57:20,  3.49it/s] 43%|████▎     | 158427/371472 [1:31:28<17:39:48,  3.35it/s] 43%|████▎     | 158428/371472 [1:31:28<18:37:52,  3.18it/s] 43%|████▎     | 158429/371472 [1:31:28<17:32:47,  3.37it/s] 43%|████▎     | 158430/371472 [1:31:29<16:35:27,  3.57it/s] 43%|████▎     | 158431/371472 [1:31:29<16:33:01,  3.58it/s] 43%|████▎     | 158432/371472 [1:31:29<16:19:55,  3.62it/s] 43%|████▎     | 158433/371472 [1:31:29<16:04:51,  3.68it/s] 43%|████▎     | 158434/371472 [1:31:30<15:55:48,  3.71it/s] 43%|████▎     | 158435/371472 [1:31:30<15:42:42,  3.77it/s] 43%|████▎     | 158436/371472 [1:31:30<15:27:15,  3.83it/s] 43%|████▎     | 158437/371472 [1:31:30<15:35:35,  3.79it/s] 43%|████▎     | 158438/371472 [1:31:31<15:10:11,  3.90it/s] 43%|████▎     | 158439/371472 [1:31:31<15:39:49,  3.78it/s] 43%|████▎     | 158440/371472 [1:31:31<15:19:15,  3.86it/s]                                                            {'loss': 3.3544, 'learning_rate': 6.164106100109892e-07, 'epoch': 6.82}
 43%|████▎     | 158440/371472 [1:31:31<15:19:15,  3.86it/s] 43%|████▎     | 158441/371472 [1:31:31<15:53:58,  3.72it/s] 43%|████▎     | 158442/371472 [1:31:32<15:53:06,  3.73it/s] 43%|████▎     | 158443/371472 [1:31:32<15:52:57,  3.73it/s] 43%|████▎     | 158444/371472 [1:31:32<16:22:58,  3.61it/s] 43%|████▎     | 158445/371472 [1:31:33<15:53:32,  3.72it/s] 43%|████▎     | 158446/371472 [1:31:33<16:34:17,  3.57it/s] 43%|████▎     | 158447/371472 [1:31:33<16:40:53,  3.55it/s] 43%|████▎     | 158448/371472 [1:31:33<16:07:19,  3.67it/s] 43%|████▎     | 158449/371472 [1:31:34<15:53:50,  3.72it/s] 43%|████▎     | 158450/371472 [1:31:34<16:09:57,  3.66it/s] 43%|████▎     | 158451/371472 [1:31:34<16:34:21,  3.57it/s] 43%|████▎     | 158452/371472 [1:31:34<16:08:15,  3.67it/s] 43%|████▎     | 158453/371472 [1:31:35<16:09:49,  3.66it/s] 43%|████▎     | 158454/371472 [1:31:35<15:49:25,  3.74it/s] 43%|████▎     | 158455/371472 [1:31:35<15:40:47,  3.77it/s] 43%|████▎     | 158456/371472 [1:31:36<15:31:31,  3.81it/s] 43%|████▎     | 158457/371472 [1:31:36<16:09:33,  3.66it/s] 43%|████▎     | 158458/371472 [1:31:36<16:17:06,  3.63it/s] 43%|████▎     | 158459/371472 [1:31:36<16:25:39,  3.60it/s] 43%|████▎     | 158460/371472 [1:31:37<16:04:58,  3.68it/s]                                                            {'loss': 3.1085, 'learning_rate': 6.163621280355103e-07, 'epoch': 6.83}
 43%|████▎     | 158460/371472 [1:31:37<16:04:58,  3.68it/s] 43%|████▎     | 158461/371472 [1:31:37<16:23:35,  3.61it/s] 43%|████▎     | 158462/371472 [1:31:37<16:42:55,  3.54it/s] 43%|████▎     | 158463/371472 [1:31:38<17:17:54,  3.42it/s] 43%|████▎     | 158464/371472 [1:31:38<16:31:40,  3.58it/s] 43%|████▎     | 158465/371472 [1:31:38<15:46:55,  3.75it/s] 43%|████▎     | 158466/371472 [1:31:38<17:15:34,  3.43it/s] 43%|████▎     | 158467/371472 [1:31:39<16:46:20,  3.53it/s] 43%|████▎     | 158468/371472 [1:31:39<16:18:18,  3.63it/s] 43%|████▎     | 158469/371472 [1:31:39<15:44:29,  3.76it/s] 43%|████▎     | 158470/371472 [1:31:39<16:09:02,  3.66it/s] 43%|████▎     | 158471/371472 [1:31:40<16:36:05,  3.56it/s] 43%|████▎     | 158472/371472 [1:31:40<16:08:59,  3.66it/s] 43%|████▎     | 158473/371472 [1:31:40<16:05:08,  3.68it/s] 43%|████▎     | 158474/371472 [1:31:41<16:10:20,  3.66it/s] 43%|████▎     | 158475/371472 [1:31:41<16:19:21,  3.62it/s] 43%|████▎     | 158476/371472 [1:31:41<16:21:49,  3.62it/s] 43%|████▎     | 158477/371472 [1:31:41<16:46:49,  3.53it/s] 43%|████▎     | 158478/371472 [1:31:42<17:08:10,  3.45it/s] 43%|████▎     | 158479/371472 [1:31:42<16:52:29,  3.51it/s] 43%|████▎     | 158480/371472 [1:31:42<16:41:46,  3.54it/s]                                                            {'loss': 3.3148, 'learning_rate': 6.163136460600314e-07, 'epoch': 6.83}
 43%|████▎     | 158480/371472 [1:31:42<16:41:46,  3.54it/s] 43%|████▎     | 158481/371472 [1:31:43<16:17:17,  3.63it/s] 43%|████▎     | 158482/371472 [1:31:43<17:49:52,  3.32it/s] 43%|████▎     | 158483/371472 [1:31:43<17:24:14,  3.40it/s] 43%|████▎     | 158484/371472 [1:31:44<19:25:46,  3.05it/s] 43%|████▎     | 158485/371472 [1:31:44<18:55:37,  3.13it/s] 43%|████▎     | 158486/371472 [1:31:44<18:21:04,  3.22it/s] 43%|████▎     | 158487/371472 [1:31:44<17:25:23,  3.40it/s] 43%|████▎     | 158488/371472 [1:31:45<16:30:29,  3.58it/s] 43%|████▎     | 158489/371472 [1:31:45<16:12:56,  3.65it/s] 43%|████▎     | 158490/371472 [1:31:45<15:53:07,  3.72it/s] 43%|████▎     | 158491/371472 [1:31:45<15:42:34,  3.77it/s] 43%|████▎     | 158492/371472 [1:31:46<16:00:23,  3.70it/s] 43%|████▎     | 158493/371472 [1:31:46<15:47:39,  3.75it/s] 43%|████▎     | 158494/371472 [1:31:46<16:20:29,  3.62it/s] 43%|████▎     | 158495/371472 [1:31:47<16:23:15,  3.61it/s] 43%|████▎     | 158496/371472 [1:31:47<17:12:37,  3.44it/s] 43%|████▎     | 158497/371472 [1:31:47<16:23:38,  3.61it/s] 43%|████▎     | 158498/371472 [1:31:47<17:54:44,  3.30it/s] 43%|████▎     | 158499/371472 [1:31:48<17:44:27,  3.33it/s] 43%|████▎     | 158500/371472 [1:31:48<17:02:29,  3.47it/s]                                                            {'loss': 3.3619, 'learning_rate': 6.162651640845526e-07, 'epoch': 6.83}
 43%|████▎     | 158500/371472 [1:31:48<17:02:29,  3.47it/s] 43%|████▎     | 158501/371472 [1:31:48<16:49:32,  3.52it/s] 43%|████▎     | 158502/371472 [1:31:49<16:32:46,  3.58it/s] 43%|████▎     | 158503/371472 [1:31:49<17:28:43,  3.38it/s] 43%|████▎     | 158504/371472 [1:31:49<17:34:06,  3.37it/s] 43%|████▎     | 158505/371472 [1:31:49<17:05:27,  3.46it/s] 43%|████▎     | 158506/371472 [1:31:50<16:35:27,  3.57it/s] 43%|████▎     | 158507/371472 [1:31:50<16:47:50,  3.52it/s] 43%|████▎     | 158508/371472 [1:31:50<16:08:07,  3.67it/s] 43%|████▎     | 158509/371472 [1:31:51<15:50:28,  3.73it/s] 43%|████▎     | 158510/371472 [1:31:51<15:33:35,  3.80it/s] 43%|████▎     | 158511/371472 [1:31:51<16:05:58,  3.67it/s] 43%|████▎     | 158512/371472 [1:31:51<16:34:40,  3.57it/s] 43%|████▎     | 158513/371472 [1:31:52<16:41:59,  3.54it/s] 43%|████▎     | 158514/371472 [1:31:52<16:11:59,  3.65it/s] 43%|████▎     | 158515/371472 [1:31:52<15:53:34,  3.72it/s] 43%|████▎     | 158516/371472 [1:31:52<16:49:01,  3.52it/s] 43%|████▎     | 158517/371472 [1:31:53<17:07:51,  3.45it/s] 43%|████▎     | 158518/371472 [1:31:53<16:32:20,  3.58it/s] 43%|████▎     | 158519/371472 [1:31:53<16:29:13,  3.59it/s] 43%|████▎     | 158520/371472 [1:31:54<16:28:10,  3.59it/s]                                                            {'loss': 3.2168, 'learning_rate': 6.162166821090737e-07, 'epoch': 6.83}
 43%|████▎     | 158520/371472 [1:31:54<16:28:10,  3.59it/s] 43%|████▎     | 158521/371472 [1:31:54<16:39:19,  3.55it/s] 43%|████▎     | 158522/371472 [1:31:54<17:50:12,  3.32it/s] 43%|████▎     | 158523/371472 [1:31:55<19:50:37,  2.98it/s] 43%|████▎     | 158524/371472 [1:31:55<18:15:40,  3.24it/s] 43%|████▎     | 158525/371472 [1:31:55<18:56:36,  3.12it/s] 43%|████▎     | 158526/371472 [1:31:55<17:36:11,  3.36it/s] 43%|████▎     | 158527/371472 [1:31:56<17:02:08,  3.47it/s] 43%|████▎     | 158528/371472 [1:31:56<16:43:35,  3.54it/s] 43%|████▎     | 158529/371472 [1:31:56<17:06:19,  3.46it/s] 43%|████▎     | 158530/371472 [1:31:57<16:52:37,  3.50it/s] 43%|████▎     | 158531/371472 [1:31:57<16:58:45,  3.48it/s] 43%|████▎     | 158532/371472 [1:31:57<17:12:01,  3.44it/s] 43%|████▎     | 158533/371472 [1:31:57<16:36:59,  3.56it/s] 43%|████▎     | 158534/371472 [1:31:58<16:20:27,  3.62it/s] 43%|████▎     | 158535/371472 [1:31:58<16:21:45,  3.61it/s] 43%|████▎     | 158536/371472 [1:31:58<19:52:03,  2.98it/s] 43%|████▎     | 158537/371472 [1:31:59<19:16:04,  3.07it/s] 43%|████▎     | 158538/371472 [1:31:59<18:16:52,  3.24it/s] 43%|████▎     | 158539/371472 [1:31:59<19:19:08,  3.06it/s] 43%|████▎     | 158540/371472 [1:32:00<18:42:13,  3.16it/s]                                                            {'loss': 3.0886, 'learning_rate': 6.161682001335946e-07, 'epoch': 6.83}
 43%|████▎     | 158540/371472 [1:32:00<18:42:13,  3.16it/s] 43%|████▎     | 158541/371472 [1:32:00<17:55:00,  3.30it/s] 43%|████▎     | 158542/371472 [1:32:00<18:33:44,  3.19it/s] 43%|████▎     | 158543/371472 [1:32:01<18:04:03,  3.27it/s] 43%|████▎     | 158544/371472 [1:32:01<17:19:07,  3.42it/s] 43%|████▎     | 158545/371472 [1:32:01<17:18:39,  3.42it/s] 43%|████▎     | 158546/371472 [1:32:01<16:56:37,  3.49it/s] 43%|████▎     | 158547/371472 [1:32:02<16:23:32,  3.61it/s] 43%|████▎     | 158548/371472 [1:32:02<17:26:45,  3.39it/s] 43%|████▎     | 158549/371472 [1:32:02<16:51:53,  3.51it/s] 43%|████▎     | 158550/371472 [1:32:03<16:38:51,  3.55it/s] 43%|████▎     | 158551/371472 [1:32:03<16:52:21,  3.51it/s] 43%|████▎     | 158552/371472 [1:32:03<16:59:00,  3.48it/s] 43%|████▎     | 158553/371472 [1:32:03<17:36:24,  3.36it/s] 43%|████▎     | 158554/371472 [1:32:04<17:42:59,  3.34it/s] 43%|████▎     | 158555/371472 [1:32:04<17:08:47,  3.45it/s] 43%|████▎     | 158556/371472 [1:32:04<16:51:34,  3.51it/s] 43%|████▎     | 158557/371472 [1:32:05<16:34:56,  3.57it/s] 43%|████▎     | 158558/371472 [1:32:05<16:15:16,  3.64it/s] 43%|████▎     | 158559/371472 [1:32:05<16:12:14,  3.65it/s] 43%|████▎     | 158560/371472 [1:32:05<16:53:08,  3.50it/s]                                                            {'loss': 2.9819, 'learning_rate': 6.161197181581158e-07, 'epoch': 6.83}
 43%|████▎     | 158560/371472 [1:32:05<16:53:08,  3.50it/s] 43%|████▎     | 158561/371472 [1:32:06<16:36:41,  3.56it/s] 43%|████▎     | 158562/371472 [1:32:06<16:33:38,  3.57it/s] 43%|████▎     | 158563/371472 [1:32:06<16:28:21,  3.59it/s] 43%|████▎     | 158564/371472 [1:32:07<16:04:02,  3.68it/s] 43%|████▎     | 158565/371472 [1:32:07<16:12:14,  3.65it/s] 43%|████▎     | 158566/371472 [1:32:07<16:15:27,  3.64it/s] 43%|████▎     | 158567/371472 [1:32:07<16:23:26,  3.61it/s] 43%|████▎     | 158568/371472 [1:32:08<17:28:01,  3.39it/s] 43%|████▎     | 158569/371472 [1:32:08<17:59:12,  3.29it/s] 43%|████▎     | 158570/371472 [1:32:08<16:53:04,  3.50it/s] 43%|████▎     | 158571/371472 [1:32:09<17:47:32,  3.32it/s] 43%|████▎     | 158572/371472 [1:32:09<17:13:20,  3.43it/s] 43%|████▎     | 158573/371472 [1:32:09<16:53:40,  3.50it/s] 43%|████▎     | 158574/371472 [1:32:09<16:11:17,  3.65it/s] 43%|████▎     | 158575/371472 [1:32:10<16:14:51,  3.64it/s] 43%|████▎     | 158576/371472 [1:32:10<16:03:10,  3.68it/s] 43%|████▎     | 158577/371472 [1:32:10<15:39:43,  3.78it/s] 43%|████▎     | 158578/371472 [1:32:10<15:29:47,  3.82it/s] 43%|████▎     | 158579/371472 [1:32:11<16:13:23,  3.65it/s] 43%|████▎     | 158580/371472 [1:32:11<15:52:23,  3.73it/s]                                                            {'loss': 3.1926, 'learning_rate': 6.16071236182637e-07, 'epoch': 6.83}
 43%|████▎     | 158580/371472 [1:32:11<15:52:23,  3.73it/s] 43%|████▎     | 158581/371472 [1:32:11<15:35:14,  3.79it/s] 43%|████▎     | 158582/371472 [1:32:12<15:56:35,  3.71it/s] 43%|████▎     | 158583/371472 [1:32:12<15:36:48,  3.79it/s] 43%|████▎     | 158584/371472 [1:32:12<15:50:41,  3.73it/s] 43%|████▎     | 158585/371472 [1:32:12<16:41:49,  3.54it/s] 43%|████▎     | 158586/371472 [1:32:13<16:28:03,  3.59it/s] 43%|████▎     | 158587/371472 [1:32:13<16:25:51,  3.60it/s] 43%|████▎     | 158588/371472 [1:32:13<20:24:32,  2.90it/s] 43%|████▎     | 158589/371472 [1:32:14<19:27:48,  3.04it/s] 43%|████▎     | 158590/371472 [1:32:14<18:49:35,  3.14it/s] 43%|████▎     | 158591/371472 [1:32:14<18:02:02,  3.28it/s] 43%|████▎     | 158592/371472 [1:32:15<17:43:43,  3.34it/s] 43%|████▎     | 158593/371472 [1:32:15<17:09:55,  3.44it/s] 43%|████▎     | 158594/371472 [1:32:15<16:54:46,  3.50it/s] 43%|████▎     | 158595/371472 [1:32:15<16:04:01,  3.68it/s] 43%|████▎     | 158596/371472 [1:32:16<16:04:55,  3.68it/s] 43%|████▎     | 158597/371472 [1:32:16<16:00:05,  3.70it/s] 43%|████▎     | 158598/371472 [1:32:16<16:24:57,  3.60it/s] 43%|████▎     | 158599/371472 [1:32:16<16:07:19,  3.67it/s] 43%|████▎     | 158600/371472 [1:32:17<16:27:57,  3.59it/s]                                                            {'loss': 3.224, 'learning_rate': 6.160227542071581e-07, 'epoch': 6.83}
 43%|████▎     | 158600/371472 [1:32:17<16:27:57,  3.59it/s] 43%|████▎     | 158601/371472 [1:32:17<16:17:54,  3.63it/s] 43%|████▎     | 158602/371472 [1:32:17<17:05:47,  3.46it/s] 43%|████▎     | 158603/371472 [1:32:18<16:27:27,  3.59it/s] 43%|████▎     | 158604/371472 [1:32:18<16:22:07,  3.61it/s] 43%|████▎     | 158605/371472 [1:32:18<16:40:51,  3.54it/s] 43%|████▎     | 158606/371472 [1:32:18<16:18:32,  3.63it/s] 43%|████▎     | 158607/371472 [1:32:19<16:49:30,  3.51it/s] 43%|████▎     | 158608/371472 [1:32:19<16:34:03,  3.57it/s] 43%|████▎     | 158609/371472 [1:32:19<16:45:40,  3.53it/s] 43%|████▎     | 158610/371472 [1:32:20<16:49:04,  3.52it/s] 43%|████▎     | 158611/371472 [1:32:20<16:28:16,  3.59it/s] 43%|████▎     | 158612/371472 [1:32:20<16:24:08,  3.60it/s] 43%|████▎     | 158613/371472 [1:32:20<16:07:19,  3.67it/s] 43%|████▎     | 158614/371472 [1:32:21<16:26:04,  3.60it/s] 43%|████▎     | 158615/371472 [1:32:21<15:56:29,  3.71it/s] 43%|████▎     | 158616/371472 [1:32:21<15:39:40,  3.78it/s] 43%|████▎     | 158617/371472 [1:32:21<15:25:06,  3.83it/s] 43%|████▎     | 158618/371472 [1:32:22<16:27:50,  3.59it/s] 43%|████▎     | 158619/371472 [1:32:22<16:22:40,  3.61it/s] 43%|████▎     | 158620/371472 [1:32:22<16:54:43,  3.50it/s]                                                            {'loss': 3.3054, 'learning_rate': 6.159742722316791e-07, 'epoch': 6.83}
 43%|████▎     | 158620/371472 [1:32:22<16:54:43,  3.50it/s] 43%|████▎     | 158621/371472 [1:32:23<19:17:51,  3.06it/s] 43%|████▎     | 158622/371472 [1:32:23<18:05:18,  3.27it/s] 43%|████▎     | 158623/371472 [1:32:23<17:30:58,  3.38it/s] 43%|████▎     | 158624/371472 [1:32:24<16:53:49,  3.50it/s] 43%|████▎     | 158625/371472 [1:32:24<16:57:09,  3.49it/s] 43%|████▎     | 158626/371472 [1:32:24<16:42:34,  3.54it/s] 43%|████▎     | 158627/371472 [1:32:24<16:44:48,  3.53it/s] 43%|████▎     | 158628/371472 [1:32:25<16:59:13,  3.48it/s] 43%|████▎     | 158629/371472 [1:32:25<16:52:13,  3.50it/s] 43%|████▎     | 158630/371472 [1:32:25<17:03:51,  3.46it/s] 43%|████▎     | 158631/371472 [1:32:25<16:42:27,  3.54it/s] 43%|████▎     | 158632/371472 [1:32:26<16:46:30,  3.52it/s] 43%|████▎     | 158633/371472 [1:32:26<16:40:03,  3.55it/s] 43%|████▎     | 158634/371472 [1:32:26<16:26:52,  3.59it/s] 43%|████▎     | 158635/371472 [1:32:27<17:21:36,  3.41it/s] 43%|████▎     | 158636/371472 [1:32:27<17:35:10,  3.36it/s] 43%|████▎     | 158637/371472 [1:32:27<16:49:55,  3.51it/s] 43%|████▎     | 158638/371472 [1:32:27<16:26:04,  3.60it/s] 43%|████▎     | 158639/371472 [1:32:28<15:48:12,  3.74it/s] 43%|████▎     | 158640/371472 [1:32:28<15:45:33,  3.75it/s]                                                            {'loss': 3.0968, 'learning_rate': 6.159257902562003e-07, 'epoch': 6.83}
 43%|████▎     | 158640/371472 [1:32:28<15:45:33,  3.75it/s] 43%|████▎     | 158641/371472 [1:32:28<15:49:05,  3.74it/s] 43%|████▎     | 158642/371472 [1:32:29<15:41:07,  3.77it/s] 43%|████▎     | 158643/371472 [1:32:29<16:03:32,  3.68it/s] 43%|████▎     | 158644/371472 [1:32:29<15:39:34,  3.78it/s] 43%|████▎     | 158645/371472 [1:32:29<15:41:00,  3.77it/s] 43%|████▎     | 158646/371472 [1:32:30<15:41:48,  3.77it/s] 43%|████▎     | 158647/371472 [1:32:30<15:46:27,  3.75it/s] 43%|████▎     | 158648/371472 [1:32:30<15:41:50,  3.77it/s] 43%|████▎     | 158649/371472 [1:32:30<15:28:09,  3.82it/s] 43%|████▎     | 158650/371472 [1:32:31<15:44:41,  3.75it/s] 43%|████▎     | 158651/371472 [1:32:31<16:11:25,  3.65it/s] 43%|████▎     | 158652/371472 [1:32:31<16:33:16,  3.57it/s] 43%|████▎     | 158653/371472 [1:32:32<16:47:33,  3.52it/s] 43%|████▎     | 158654/371472 [1:32:32<16:43:02,  3.54it/s] 43%|████▎     | 158655/371472 [1:32:32<16:27:24,  3.59it/s] 43%|████▎     | 158656/371472 [1:32:32<15:53:38,  3.72it/s] 43%|████▎     | 158657/371472 [1:32:33<15:45:50,  3.75it/s] 43%|████▎     | 158658/371472 [1:32:33<17:44:30,  3.33it/s] 43%|████▎     | 158659/371472 [1:32:33<18:34:44,  3.18it/s] 43%|████▎     | 158660/371472 [1:32:34<18:50:48,  3.14it/s]                                                            {'loss': 3.1507, 'learning_rate': 6.158773082807214e-07, 'epoch': 6.83}
 43%|████▎     | 158660/371472 [1:32:34<18:50:48,  3.14it/s] 43%|████▎     | 158661/371472 [1:32:34<17:40:10,  3.35it/s] 43%|████▎     | 158662/371472 [1:32:34<17:14:49,  3.43it/s] 43%|████▎     | 158663/371472 [1:32:34<16:45:07,  3.53it/s] 43%|████▎     | 158664/371472 [1:32:35<16:27:22,  3.59it/s] 43%|████▎     | 158665/371472 [1:32:35<16:56:49,  3.49it/s] 43%|████▎     | 158666/371472 [1:32:35<16:56:43,  3.49it/s] 43%|████▎     | 158667/371472 [1:32:36<17:49:16,  3.32it/s] 43%|████▎     | 158668/371472 [1:32:36<17:28:13,  3.38it/s] 43%|████▎     | 158669/371472 [1:32:36<17:11:16,  3.44it/s] 43%|████▎     | 158670/371472 [1:32:37<18:35:22,  3.18it/s] 43%|████▎     | 158671/371472 [1:32:37<19:18:46,  3.06it/s] 43%|████▎     | 158672/371472 [1:32:37<18:26:08,  3.21it/s] 43%|████▎     | 158673/371472 [1:32:37<17:35:36,  3.36it/s] 43%|████▎     | 158674/371472 [1:32:38<17:38:21,  3.35it/s] 43%|████▎     | 158675/371472 [1:32:38<16:54:10,  3.50it/s] 43%|████▎     | 158676/371472 [1:32:38<16:37:33,  3.56it/s] 43%|████▎     | 158677/371472 [1:32:39<17:43:20,  3.34it/s] 43%|████▎     | 158678/371472 [1:32:39<17:03:20,  3.47it/s] 43%|████▎     | 158679/371472 [1:32:39<17:22:02,  3.40it/s] 43%|████▎     | 158680/371472 [1:32:39<17:05:58,  3.46it/s]                                                            {'loss': 3.1209, 'learning_rate': 6.158288263052425e-07, 'epoch': 6.83}
 43%|████▎     | 158680/371472 [1:32:39<17:05:58,  3.46it/s] 43%|████▎     | 158681/371472 [1:32:40<17:09:12,  3.45it/s] 43%|████▎     | 158682/371472 [1:32:40<17:13:31,  3.43it/s] 43%|████▎     | 158683/371472 [1:32:40<16:46:10,  3.52it/s] 43%|████▎     | 158684/371472 [1:32:41<16:02:54,  3.68it/s] 43%|████▎     | 158685/371472 [1:32:41<15:51:05,  3.73it/s] 43%|████▎     | 158686/371472 [1:32:41<15:23:34,  3.84it/s] 43%|████▎     | 158687/371472 [1:32:41<15:06:59,  3.91it/s] 43%|████▎     | 158688/371472 [1:32:42<15:25:18,  3.83it/s] 43%|████▎     | 158689/371472 [1:32:42<16:10:27,  3.65it/s] 43%|████▎     | 158690/371472 [1:32:42<16:26:32,  3.59it/s] 43%|████▎     | 158691/371472 [1:32:43<17:47:42,  3.32it/s] 43%|████▎     | 158692/371472 [1:32:43<17:13:35,  3.43it/s] 43%|████▎     | 158693/371472 [1:32:43<16:48:01,  3.52it/s] 43%|████▎     | 158694/371472 [1:32:43<16:21:12,  3.61it/s] 43%|████▎     | 158695/371472 [1:32:44<16:22:35,  3.61it/s] 43%|████▎     | 158696/371472 [1:32:44<16:22:23,  3.61it/s] 43%|████▎     | 158697/371472 [1:32:44<16:47:36,  3.52it/s] 43%|████▎     | 158698/371472 [1:32:44<16:11:30,  3.65it/s] 43%|████▎     | 158699/371472 [1:32:45<17:03:36,  3.46it/s] 43%|████▎     | 158700/371472 [1:32:45<18:48:28,  3.14it/s]                                                            {'loss': 3.3322, 'learning_rate': 6.157803443297635e-07, 'epoch': 6.84}
 43%|████▎     | 158700/371472 [1:32:45<18:48:28,  3.14it/s] 43%|████▎     | 158701/371472 [1:32:45<18:18:22,  3.23it/s] 43%|████▎     | 158702/371472 [1:32:46<17:39:20,  3.35it/s] 43%|████▎     | 158703/371472 [1:32:46<17:41:14,  3.34it/s] 43%|████▎     | 158704/371472 [1:32:46<17:23:21,  3.40it/s] 43%|████▎     | 158705/371472 [1:32:47<16:52:27,  3.50it/s] 43%|████▎     | 158706/371472 [1:32:47<16:56:53,  3.49it/s] 43%|████▎     | 158707/371472 [1:32:47<16:45:03,  3.53it/s] 43%|████▎     | 158708/371472 [1:32:47<16:14:41,  3.64it/s] 43%|████▎     | 158709/371472 [1:32:48<16:42:26,  3.54it/s] 43%|████▎     | 158710/371472 [1:32:48<18:29:01,  3.20it/s] 43%|████▎     | 158711/371472 [1:32:48<20:03:02,  2.95it/s] 43%|████▎     | 158712/371472 [1:32:49<19:29:07,  3.03it/s] 43%|████▎     | 158713/371472 [1:32:49<18:03:10,  3.27it/s] 43%|████▎     | 158714/371472 [1:32:49<17:19:28,  3.41it/s] 43%|████▎     | 158715/371472 [1:32:50<16:44:40,  3.53it/s] 43%|████▎     | 158716/371472 [1:32:50<16:43:12,  3.53it/s] 43%|████▎     | 158717/371472 [1:32:50<16:44:04,  3.53it/s] 43%|████▎     | 158718/371472 [1:32:50<16:33:20,  3.57it/s] 43%|████▎     | 158719/371472 [1:32:51<16:21:54,  3.61it/s] 43%|████▎     | 158720/371472 [1:32:51<16:07:04,  3.67it/s]                                                            {'loss': 3.0615, 'learning_rate': 6.157318623542847e-07, 'epoch': 6.84}
 43%|████▎     | 158720/371472 [1:32:51<16:07:04,  3.67it/s] 43%|████▎     | 158721/371472 [1:32:51<15:48:26,  3.74it/s] 43%|████▎     | 158722/371472 [1:32:51<16:47:25,  3.52it/s] 43%|████▎     | 158723/371472 [1:32:52<16:11:00,  3.65it/s] 43%|████▎     | 158724/371472 [1:32:52<16:46:52,  3.52it/s] 43%|████▎     | 158725/371472 [1:32:52<16:31:04,  3.58it/s] 43%|████▎     | 158726/371472 [1:32:53<16:56:34,  3.49it/s] 43%|████▎     | 158727/371472 [1:32:53<16:36:14,  3.56it/s] 43%|████▎     | 158728/371472 [1:32:53<15:47:59,  3.74it/s] 43%|████▎     | 158729/371472 [1:32:53<15:38:25,  3.78it/s] 43%|████▎     | 158730/371472 [1:32:54<15:15:45,  3.87it/s] 43%|████▎     | 158731/371472 [1:32:54<15:47:30,  3.74it/s] 43%|████▎     | 158732/371472 [1:32:54<15:52:04,  3.72it/s] 43%|████▎     | 158733/371472 [1:32:54<16:22:41,  3.61it/s] 43%|████▎     | 158734/371472 [1:32:55<16:58:09,  3.48it/s] 43%|████▎     | 158735/371472 [1:32:55<16:33:46,  3.57it/s] 43%|████▎     | 158736/371472 [1:32:55<18:18:40,  3.23it/s] 43%|████▎     | 158737/371472 [1:32:56<18:18:31,  3.23it/s] 43%|████▎     | 158738/371472 [1:32:56<17:31:16,  3.37it/s] 43%|████▎     | 158739/371472 [1:32:56<17:19:33,  3.41it/s] 43%|████▎     | 158740/371472 [1:32:57<16:38:55,  3.55it/s]                                                            {'loss': 3.379, 'learning_rate': 6.156833803788059e-07, 'epoch': 6.84}
 43%|████▎     | 158740/371472 [1:32:57<16:38:55,  3.55it/s] 43%|████▎     | 158741/371472 [1:32:57<16:55:50,  3.49it/s] 43%|████▎     | 158742/371472 [1:32:57<16:36:53,  3.56it/s] 43%|████▎     | 158743/371472 [1:32:57<16:20:18,  3.62it/s] 43%|████▎     | 158744/371472 [1:32:58<16:28:48,  3.59it/s] 43%|████▎     | 158745/371472 [1:32:58<16:48:50,  3.51it/s] 43%|████▎     | 158746/371472 [1:32:58<16:32:52,  3.57it/s] 43%|████▎     | 158747/371472 [1:32:59<17:04:35,  3.46it/s] 43%|████▎     | 158748/371472 [1:32:59<17:29:51,  3.38it/s] 43%|████▎     | 158749/371472 [1:32:59<17:09:27,  3.44it/s] 43%|████▎     | 158750/371472 [1:32:59<16:22:06,  3.61it/s] 43%|████▎     | 158751/371472 [1:33:00<17:45:10,  3.33it/s] 43%|████▎     | 158752/371472 [1:33:00<17:13:59,  3.43it/s] 43%|████▎     | 158753/371472 [1:33:00<18:03:14,  3.27it/s] 43%|████▎     | 158754/371472 [1:33:01<17:03:47,  3.46it/s] 43%|████▎     | 158755/371472 [1:33:01<17:20:15,  3.41it/s] 43%|████▎     | 158756/371472 [1:33:01<17:46:29,  3.32it/s] 43%|████▎     | 158757/371472 [1:33:01<17:24:18,  3.39it/s] 43%|████▎     | 158758/371472 [1:33:02<17:01:45,  3.47it/s] 43%|████▎     | 158759/371472 [1:33:02<17:14:24,  3.43it/s] 43%|████▎     | 158760/371472 [1:33:02<17:30:22,  3.38it/s]                                                            {'loss': 3.0512, 'learning_rate': 6.15634898403327e-07, 'epoch': 6.84}
 43%|████▎     | 158760/371472 [1:33:02<17:30:22,  3.38it/s] 43%|████▎     | 158761/371472 [1:33:03<16:48:04,  3.52it/s] 43%|████▎     | 158762/371472 [1:33:03<16:43:44,  3.53it/s] 43%|████▎     | 158763/371472 [1:33:03<16:21:14,  3.61it/s] 43%|████▎     | 158764/371472 [1:33:03<15:47:27,  3.74it/s] 43%|████▎     | 158765/371472 [1:33:04<16:18:03,  3.62it/s] 43%|████▎     | 158766/371472 [1:33:04<16:44:46,  3.53it/s] 43%|████▎     | 158767/371472 [1:33:04<16:31:08,  3.58it/s] 43%|████▎     | 158768/371472 [1:33:05<16:39:19,  3.55it/s] 43%|████▎     | 158769/371472 [1:33:05<17:16:36,  3.42it/s] 43%|████▎     | 158770/371472 [1:33:05<16:40:37,  3.54it/s] 43%|████▎     | 158771/371472 [1:33:05<17:27:45,  3.38it/s] 43%|████▎     | 158772/371472 [1:33:06<17:08:48,  3.45it/s] 43%|████▎     | 158773/371472 [1:33:06<16:50:44,  3.51it/s] 43%|████▎     | 158774/371472 [1:33:06<16:26:51,  3.59it/s] 43%|████▎     | 158775/371472 [1:33:07<16:17:13,  3.63it/s] 43%|████▎     | 158776/371472 [1:33:07<16:16:15,  3.63it/s] 43%|████▎     | 158777/371472 [1:33:07<16:56:11,  3.49it/s] 43%|████▎     | 158778/371472 [1:33:07<16:25:49,  3.60it/s] 43%|████▎     | 158779/371472 [1:33:08<16:34:41,  3.56it/s] 43%|████▎     | 158780/371472 [1:33:08<16:18:05,  3.62it/s]                                                            {'loss': 3.0852, 'learning_rate': 6.15586416427848e-07, 'epoch': 6.84}
 43%|████▎     | 158780/371472 [1:33:08<16:18:05,  3.62it/s] 43%|████▎     | 158781/371472 [1:33:08<16:29:16,  3.58it/s] 43%|████▎     | 158782/371472 [1:33:09<17:58:00,  3.29it/s] 43%|████▎     | 158783/371472 [1:33:09<17:49:10,  3.32it/s] 43%|████▎     | 158784/371472 [1:33:09<18:41:50,  3.16it/s] 43%|████▎     | 158785/371472 [1:33:10<18:01:56,  3.28it/s] 43%|████▎     | 158786/371472 [1:33:10<17:32:27,  3.37it/s] 43%|████▎     | 158787/371472 [1:33:10<16:48:19,  3.52it/s] 43%|████▎     | 158788/371472 [1:33:10<16:29:50,  3.58it/s] 43%|████▎     | 158789/371472 [1:33:11<16:22:21,  3.61it/s] 43%|████▎     | 158790/371472 [1:33:11<15:48:31,  3.74it/s] 43%|████▎     | 158791/371472 [1:33:11<16:23:46,  3.60it/s] 43%|████▎     | 158792/371472 [1:33:11<16:23:50,  3.60it/s] 43%|████▎     | 158793/371472 [1:33:12<16:02:56,  3.68it/s] 43%|████▎     | 158794/371472 [1:33:12<16:38:47,  3.55it/s] 43%|████▎     | 158795/371472 [1:33:12<16:43:41,  3.53it/s] 43%|████▎     | 158796/371472 [1:33:13<15:58:06,  3.70it/s] 43%|████▎     | 158797/371472 [1:33:13<17:05:47,  3.46it/s] 43%|████▎     | 158798/371472 [1:33:13<16:25:10,  3.60it/s] 43%|████▎     | 158799/371472 [1:33:13<17:18:38,  3.41it/s] 43%|████▎     | 158800/371472 [1:33:14<17:04:52,  3.46it/s]                                                            {'loss': 3.3305, 'learning_rate': 6.155379344523691e-07, 'epoch': 6.84}
 43%|████▎     | 158800/371472 [1:33:14<17:04:52,  3.46it/s] 43%|████▎     | 158801/371472 [1:33:14<16:39:43,  3.55it/s] 43%|████▎     | 158802/371472 [1:33:14<16:09:08,  3.66it/s] 43%|████▎     | 158803/371472 [1:33:14<15:42:30,  3.76it/s] 43%|████▎     | 158804/371472 [1:33:15<15:31:41,  3.80it/s] 43%|████▎     | 158805/371472 [1:33:15<16:10:06,  3.65it/s] 43%|████▎     | 158806/371472 [1:33:15<15:51:52,  3.72it/s] 43%|████▎     | 158807/371472 [1:33:16<16:30:13,  3.58it/s] 43%|████▎     | 158808/371472 [1:33:16<15:52:17,  3.72it/s] 43%|████▎     | 158809/371472 [1:33:16<16:46:07,  3.52it/s] 43%|████▎     | 158810/371472 [1:33:16<16:19:33,  3.62it/s] 43%|████▎     | 158811/371472 [1:33:17<16:41:15,  3.54it/s] 43%|████▎     | 158812/371472 [1:33:17<16:36:19,  3.56it/s] 43%|████▎     | 158813/371472 [1:33:17<16:15:56,  3.63it/s] 43%|████▎     | 158814/371472 [1:33:18<17:18:24,  3.41it/s] 43%|████▎     | 158815/371472 [1:33:18<16:35:11,  3.56it/s] 43%|████▎     | 158816/371472 [1:33:18<17:00:20,  3.47it/s] 43%|████▎     | 158817/371472 [1:33:18<16:47:09,  3.52it/s] 43%|████▎     | 158818/371472 [1:33:19<16:36:31,  3.56it/s] 43%|████▎     | 158819/371472 [1:33:19<16:48:32,  3.51it/s] 43%|████▎     | 158820/371472 [1:33:19<16:18:00,  3.62it/s]                                                            {'loss': 3.1491, 'learning_rate': 6.154894524768903e-07, 'epoch': 6.84}
 43%|████▎     | 158820/371472 [1:33:19<16:18:00,  3.62it/s] 43%|████▎     | 158821/371472 [1:33:20<18:10:06,  3.25it/s] 43%|████▎     | 158822/371472 [1:33:20<17:22:17,  3.40it/s] 43%|████▎     | 158823/371472 [1:33:20<18:04:15,  3.27it/s] 43%|████▎     | 158824/371472 [1:33:21<17:53:26,  3.30it/s] 43%|████▎     | 158825/371472 [1:33:21<17:06:43,  3.45it/s] 43%|████▎     | 158826/371472 [1:33:21<16:42:25,  3.54it/s] 43%|████▎     | 158827/371472 [1:33:21<16:10:07,  3.65it/s] 43%|████▎     | 158828/371472 [1:33:22<16:02:31,  3.68it/s] 43%|████▎     | 158829/371472 [1:33:22<16:16:09,  3.63it/s] 43%|████▎     | 158830/371472 [1:33:22<16:13:20,  3.64it/s] 43%|████▎     | 158831/371472 [1:33:22<16:33:14,  3.57it/s] 43%|████▎     | 158832/371472 [1:33:23<16:28:01,  3.59it/s] 43%|████▎     | 158833/371472 [1:33:23<17:17:57,  3.41it/s] 43%|████▎     | 158834/371472 [1:33:23<17:08:46,  3.44it/s] 43%|████▎     | 158835/371472 [1:33:24<16:12:11,  3.65it/s] 43%|████▎     | 158836/371472 [1:33:24<17:27:22,  3.38it/s] 43%|████▎     | 158837/371472 [1:33:24<17:43:18,  3.33it/s] 43%|████▎     | 158838/371472 [1:33:24<17:05:03,  3.46it/s] 43%|████▎     | 158839/371472 [1:33:25<17:21:26,  3.40it/s] 43%|████▎     | 158840/371472 [1:33:25<16:40:23,  3.54it/s]                                                            {'loss': 3.285, 'learning_rate': 6.154409705014114e-07, 'epoch': 6.84}
 43%|████▎     | 158840/371472 [1:33:25<16:40:23,  3.54it/s] 43%|████▎     | 158841/371472 [1:33:25<17:39:41,  3.34it/s] 43%|████▎     | 158842/371472 [1:33:26<17:21:07,  3.40it/s] 43%|████▎     | 158843/371472 [1:33:26<16:48:34,  3.51it/s] 43%|████▎     | 158844/371472 [1:33:26<17:14:01,  3.43it/s] 43%|████▎     | 158845/371472 [1:33:26<16:38:23,  3.55it/s] 43%|████▎     | 158846/371472 [1:33:27<17:35:35,  3.36it/s] 43%|████▎     | 158847/371472 [1:33:27<17:02:54,  3.46it/s] 43%|████▎     | 158848/371472 [1:33:27<17:08:56,  3.44it/s] 43%|████▎     | 158849/371472 [1:33:28<17:43:12,  3.33it/s] 43%|████▎     | 158850/371472 [1:33:28<17:27:48,  3.38it/s] 43%|████▎     | 158851/371472 [1:33:28<16:28:51,  3.58it/s] 43%|████▎     | 158852/371472 [1:33:28<16:42:32,  3.53it/s] 43%|████▎     | 158853/371472 [1:33:29<17:16:51,  3.42it/s] 43%|████▎     | 158854/371472 [1:33:29<16:49:24,  3.51it/s] 43%|████▎     | 158855/371472 [1:33:29<17:00:23,  3.47it/s] 43%|████▎     | 158856/371472 [1:33:30<18:14:57,  3.24it/s] 43%|████▎     | 158857/371472 [1:33:30<17:18:16,  3.41it/s] 43%|████▎     | 158858/371472 [1:33:30<16:40:03,  3.54it/s] 43%|████▎     | 158859/371472 [1:33:31<18:30:23,  3.19it/s] 43%|████▎     | 158860/371472 [1:33:31<18:24:48,  3.21it/s]                                                            {'loss': 3.023, 'learning_rate': 6.153924885259324e-07, 'epoch': 6.84}
 43%|████▎     | 158860/371472 [1:33:31<18:24:48,  3.21it/s] 43%|████▎     | 158861/371472 [1:33:31<17:13:56,  3.43it/s] 43%|████▎     | 158862/371472 [1:33:31<16:33:29,  3.57it/s] 43%|████▎     | 158863/371472 [1:33:32<16:34:03,  3.56it/s] 43%|████▎     | 158864/371472 [1:33:32<16:27:17,  3.59it/s] 43%|████▎     | 158865/371472 [1:33:32<16:51:26,  3.50it/s] 43%|████▎     | 158866/371472 [1:33:33<17:53:41,  3.30it/s] 43%|████▎     | 158867/371472 [1:33:33<17:27:44,  3.38it/s] 43%|████▎     | 158868/371472 [1:33:33<16:59:27,  3.48it/s] 43%|████▎     | 158869/371472 [1:33:33<17:06:19,  3.45it/s] 43%|████▎     | 158870/371472 [1:33:34<16:59:38,  3.48it/s] 43%|████▎     | 158871/371472 [1:33:34<16:39:01,  3.55it/s] 43%|████▎     | 158872/371472 [1:33:34<16:35:03,  3.56it/s] 43%|████▎     | 158873/371472 [1:33:35<15:54:11,  3.71it/s] 43%|████▎     | 158874/371472 [1:33:35<15:27:30,  3.82it/s] 43%|████▎     | 158875/371472 [1:33:35<15:37:20,  3.78it/s] 43%|████▎     | 158876/371472 [1:33:35<15:17:48,  3.86it/s] 43%|████▎     | 158877/371472 [1:33:36<15:00:02,  3.94it/s] 43%|████▎     | 158878/371472 [1:33:36<15:21:03,  3.85it/s] 43%|████▎     | 158879/371472 [1:33:36<15:05:00,  3.92it/s] 43%|████▎     | 158880/371472 [1:33:36<15:03:23,  3.92it/s]                                                            {'loss': 3.0288, 'learning_rate': 6.153440065504536e-07, 'epoch': 6.84}
 43%|████▎     | 158880/371472 [1:33:36<15:03:23,  3.92it/s] 43%|████▎     | 158881/371472 [1:33:37<16:57:29,  3.48it/s] 43%|████▎     | 158882/371472 [1:33:37<16:31:58,  3.57it/s] 43%|████▎     | 158883/371472 [1:33:37<16:35:43,  3.56it/s] 43%|████▎     | 158884/371472 [1:33:37<15:57:56,  3.70it/s] 43%|████▎     | 158885/371472 [1:33:38<16:03:01,  3.68it/s] 43%|████▎     | 158886/371472 [1:33:38<17:20:08,  3.41it/s] 43%|████▎     | 158887/371472 [1:33:38<17:31:55,  3.37it/s] 43%|████▎     | 158888/371472 [1:33:39<18:00:28,  3.28it/s] 43%|████▎     | 158889/371472 [1:33:39<17:30:28,  3.37it/s] 43%|████▎     | 158890/371472 [1:33:39<17:08:49,  3.44it/s] 43%|████▎     | 158891/371472 [1:33:40<16:27:52,  3.59it/s] 43%|████▎     | 158892/371472 [1:33:40<17:18:58,  3.41it/s] 43%|████▎     | 158893/371472 [1:33:40<17:50:01,  3.31it/s] 43%|████▎     | 158894/371472 [1:33:40<17:28:49,  3.38it/s] 43%|████▎     | 158895/371472 [1:33:41<17:09:20,  3.44it/s] 43%|████▎     | 158896/371472 [1:33:41<17:19:06,  3.41it/s] 43%|████▎     | 158897/371472 [1:33:41<17:23:02,  3.40it/s] 43%|████▎     | 158898/371472 [1:33:42<17:12:59,  3.43it/s] 43%|████▎     | 158899/371472 [1:33:42<17:00:08,  3.47it/s] 43%|████▎     | 158900/371472 [1:33:42<16:53:13,  3.50it/s]                                                            {'loss': 3.1256, 'learning_rate': 6.152955245749747e-07, 'epoch': 6.84}
 43%|████▎     | 158900/371472 [1:33:42<16:53:13,  3.50it/s] 43%|████▎     | 158901/371472 [1:33:42<17:02:41,  3.46it/s] 43%|████▎     | 158902/371472 [1:33:43<16:34:29,  3.56it/s] 43%|████▎     | 158903/371472 [1:33:43<16:22:47,  3.60it/s] 43%|████▎     | 158904/371472 [1:33:43<15:58:24,  3.70it/s] 43%|████▎     | 158905/371472 [1:33:44<16:50:07,  3.51it/s] 43%|████▎     | 158906/371472 [1:33:44<16:39:17,  3.55it/s] 43%|████▎     | 158907/371472 [1:33:44<17:12:33,  3.43it/s] 43%|████▎     | 158908/371472 [1:33:44<17:43:00,  3.33it/s] 43%|████▎     | 158909/371472 [1:33:45<16:57:41,  3.48it/s] 43%|████▎     | 158910/371472 [1:33:45<16:59:30,  3.47it/s] 43%|████▎     | 158911/371472 [1:33:45<16:56:53,  3.48it/s] 43%|████▎     | 158912/371472 [1:33:46<16:45:05,  3.52it/s] 43%|████▎     | 158913/371472 [1:33:46<16:21:32,  3.61it/s] 43%|████▎     | 158914/371472 [1:33:46<16:43:06,  3.53it/s] 43%|████▎     | 158915/371472 [1:33:46<16:13:53,  3.64it/s] 43%|████▎     | 158916/371472 [1:33:47<16:28:26,  3.58it/s] 43%|████▎     | 158917/371472 [1:33:47<16:59:45,  3.47it/s] 43%|████▎     | 158918/371472 [1:33:47<16:27:39,  3.59it/s] 43%|████▎     | 158919/371472 [1:33:48<15:52:06,  3.72it/s] 43%|████▎     | 158920/371472 [1:33:48<15:43:19,  3.76it/s]                                                            {'loss': 3.123, 'learning_rate': 6.152470425994956e-07, 'epoch': 6.84}
 43%|████▎     | 158920/371472 [1:33:48<15:43:19,  3.76it/s] 43%|████▎     | 158921/371472 [1:33:48<15:27:11,  3.82it/s] 43%|████▎     | 158922/371472 [1:33:48<15:06:34,  3.91it/s] 43%|████▎     | 158923/371472 [1:33:49<16:39:58,  3.54it/s] 43%|████▎     | 158924/371472 [1:33:49<17:18:44,  3.41it/s] 43%|████▎     | 158925/371472 [1:33:49<18:19:38,  3.22it/s] 43%|████▎     | 158926/371472 [1:33:50<17:42:50,  3.33it/s] 43%|████▎     | 158927/371472 [1:33:50<16:42:52,  3.53it/s] 43%|████▎     | 158928/371472 [1:33:50<16:22:24,  3.61it/s] 43%|████▎     | 158929/371472 [1:33:50<17:32:14,  3.37it/s] 43%|████▎     | 158930/371472 [1:33:51<18:17:48,  3.23it/s] 43%|████▎     | 158931/371472 [1:33:51<18:07:46,  3.26it/s] 43%|████▎     | 158932/371472 [1:33:51<17:13:09,  3.43it/s] 43%|████▎     | 158933/371472 [1:33:52<16:52:52,  3.50it/s] 43%|████▎     | 158934/371472 [1:33:52<16:46:33,  3.52it/s] 43%|████▎     | 158935/371472 [1:33:52<16:12:35,  3.64it/s] 43%|████▎     | 158936/371472 [1:33:52<17:29:29,  3.38it/s] 43%|████▎     | 158937/371472 [1:33:53<19:35:44,  3.01it/s] 43%|████▎     | 158938/371472 [1:33:53<18:24:08,  3.21it/s] 43%|████▎     | 158939/371472 [1:33:53<18:06:22,  3.26it/s] 43%|████▎     | 158940/371472 [1:33:54<19:28:50,  3.03it/s]                                                            {'loss': 3.02, 'learning_rate': 6.151985606240169e-07, 'epoch': 6.85}
 43%|████▎     | 158940/371472 [1:33:54<19:28:50,  3.03it/s] 43%|████▎     | 158941/371472 [1:33:54<19:16:52,  3.06it/s] 43%|████▎     | 158942/371472 [1:33:54<18:26:19,  3.20it/s] 43%|████▎     | 158943/371472 [1:33:55<17:22:33,  3.40it/s] 43%|████▎     | 158944/371472 [1:33:55<16:40:38,  3.54it/s] 43%|████▎     | 158945/371472 [1:33:55<16:05:10,  3.67it/s] 43%|████▎     | 158946/371472 [1:33:55<16:05:01,  3.67it/s] 43%|████▎     | 158947/371472 [1:33:56<16:19:56,  3.61it/s] 43%|████▎     | 158948/371472 [1:33:56<16:11:56,  3.64it/s] 43%|████▎     | 158949/371472 [1:33:56<16:37:41,  3.55it/s] 43%|████▎     | 158950/371472 [1:33:57<16:07:20,  3.66it/s] 43%|████▎     | 158951/371472 [1:33:57<17:13:43,  3.43it/s] 43%|████▎     | 158952/371472 [1:33:57<16:49:32,  3.51it/s] 43%|████▎     | 158953/371472 [1:33:57<16:41:20,  3.54it/s] 43%|████▎     | 158954/371472 [1:33:58<17:46:34,  3.32it/s] 43%|████▎     | 158955/371472 [1:33:58<17:54:14,  3.30it/s] 43%|████▎     | 158956/371472 [1:33:58<17:32:20,  3.37it/s] 43%|████▎     | 158957/371472 [1:33:59<18:50:37,  3.13it/s] 43%|████▎     | 158958/371472 [1:33:59<18:59:17,  3.11it/s] 43%|████▎     | 158959/371472 [1:33:59<18:21:10,  3.22it/s] 43%|████▎     | 158960/371472 [1:34:00<18:22:52,  3.21it/s]                                                            {'loss': 3.1144, 'learning_rate': 6.15150078648538e-07, 'epoch': 6.85}
 43%|████▎     | 158960/371472 [1:34:00<18:22:52,  3.21it/s] 43%|████▎     | 158961/371472 [1:34:00<17:37:43,  3.35it/s] 43%|████▎     | 158962/371472 [1:34:00<17:50:24,  3.31it/s] 43%|████▎     | 158963/371472 [1:34:01<18:04:46,  3.27it/s] 43%|████▎     | 158964/371472 [1:34:01<17:43:33,  3.33it/s] 43%|████▎     | 158965/371472 [1:34:01<17:02:43,  3.46it/s] 43%|████▎     | 158966/371472 [1:34:01<16:26:15,  3.59it/s] 43%|████▎     | 158967/371472 [1:34:02<16:03:37,  3.68it/s] 43%|████▎     | 158968/371472 [1:34:02<16:17:57,  3.62it/s] 43%|████▎     | 158969/371472 [1:34:02<16:49:03,  3.51it/s] 43%|████▎     | 158970/371472 [1:34:02<16:22:14,  3.61it/s] 43%|████▎     | 158971/371472 [1:34:03<16:28:30,  3.58it/s] 43%|████▎     | 158972/371472 [1:34:03<19:35:13,  3.01it/s] 43%|████▎     | 158973/371472 [1:34:04<19:03:20,  3.10it/s] 43%|████▎     | 158974/371472 [1:34:04<18:13:48,  3.24it/s] 43%|████▎     | 158975/371472 [1:34:04<17:22:47,  3.40it/s] 43%|████▎     | 158976/371472 [1:34:04<17:09:28,  3.44it/s] 43%|████▎     | 158977/371472 [1:34:05<17:37:40,  3.35it/s] 43%|████▎     | 158978/371472 [1:34:05<19:44:06,  2.99it/s] 43%|████▎     | 158979/371472 [1:34:05<18:48:25,  3.14it/s] 43%|████▎     | 158980/371472 [1:34:06<18:33:48,  3.18it/s]                                                            {'loss': 3.1452, 'learning_rate': 6.151015966730591e-07, 'epoch': 6.85}
 43%|████▎     | 158980/371472 [1:34:06<18:33:48,  3.18it/s] 43%|████▎     | 158981/371472 [1:34:06<20:02:48,  2.94it/s] 43%|████▎     | 158982/371472 [1:34:06<19:19:59,  3.05it/s] 43%|████▎     | 158983/371472 [1:34:07<17:52:37,  3.30it/s] 43%|████▎     | 158984/371472 [1:34:07<17:30:16,  3.37it/s] 43%|████▎     | 158985/371472 [1:34:07<16:47:52,  3.51it/s] 43%|████▎     | 158986/371472 [1:34:07<16:45:52,  3.52it/s] 43%|████▎     | 158987/371472 [1:34:08<16:18:03,  3.62it/s] 43%|████▎     | 158988/371472 [1:34:08<16:10:59,  3.65it/s] 43%|████▎     | 158989/371472 [1:34:08<16:20:36,  3.61it/s] 43%|████▎     | 158990/371472 [1:34:09<16:28:23,  3.58it/s] 43%|████▎     | 158991/371472 [1:34:09<16:50:34,  3.50it/s] 43%|████▎     | 158992/371472 [1:34:09<17:20:34,  3.40it/s] 43%|████▎     | 158993/371472 [1:34:09<16:33:16,  3.57it/s] 43%|████▎     | 158994/371472 [1:34:10<16:52:47,  3.50it/s] 43%|████▎     | 158995/371472 [1:34:10<17:03:24,  3.46it/s] 43%|████▎     | 158996/371472 [1:34:10<16:29:18,  3.58it/s] 43%|████▎     | 158997/371472 [1:34:10<16:01:28,  3.68it/s] 43%|████▎     | 158998/371472 [1:34:11<16:15:06,  3.63it/s] 43%|████▎     | 158999/371472 [1:34:11<15:58:52,  3.69it/s] 43%|████▎     | 159000/371472 [1:34:11<15:54:57,  3.71it/s]                                                            {'loss': 3.181, 'learning_rate': 6.150531146975801e-07, 'epoch': 6.85}
 43%|████▎     | 159000/371472 [1:34:11<15:54:57,  3.71it/s] 43%|████▎     | 159001/371472 [1:34:12<16:37:33,  3.55it/s] 43%|████▎     | 159002/371472 [1:34:12<17:01:26,  3.47it/s] 43%|████▎     | 159003/371472 [1:34:12<16:46:11,  3.52it/s] 43%|████▎     | 159004/371472 [1:34:12<16:43:17,  3.53it/s] 43%|████▎     | 159005/371472 [1:34:13<16:18:18,  3.62it/s] 43%|████▎     | 159006/371472 [1:34:13<16:29:18,  3.58it/s] 43%|████▎     | 159007/371472 [1:34:13<16:26:46,  3.59it/s] 43%|████▎     | 159008/371472 [1:34:14<16:12:54,  3.64it/s] 43%|████▎     | 159009/371472 [1:34:14<15:56:19,  3.70it/s] 43%|████▎     | 159010/371472 [1:34:14<16:26:20,  3.59it/s] 43%|████▎     | 159011/371472 [1:34:14<16:39:30,  3.54it/s] 43%|████▎     | 159012/371472 [1:34:15<16:16:18,  3.63it/s] 43%|████▎     | 159013/371472 [1:34:15<16:03:35,  3.67it/s] 43%|████▎     | 159014/371472 [1:34:15<15:49:17,  3.73it/s] 43%|████▎     | 159015/371472 [1:34:15<15:21:49,  3.84it/s] 43%|████▎     | 159016/371472 [1:34:16<15:05:35,  3.91it/s] 43%|████▎     | 159017/371472 [1:34:16<14:53:18,  3.96it/s] 43%|████▎     | 159018/371472 [1:34:16<14:40:59,  4.02it/s] 43%|████▎     | 159019/371472 [1:34:16<14:45:28,  4.00it/s] 43%|████▎     | 159020/371472 [1:34:17<15:18:45,  3.85it/s]                                                            {'loss': 3.1104, 'learning_rate': 6.150046327221013e-07, 'epoch': 6.85}
 43%|████▎     | 159020/371472 [1:34:17<15:18:45,  3.85it/s] 43%|████▎     | 159021/371472 [1:34:17<15:14:02,  3.87it/s] 43%|████▎     | 159022/371472 [1:34:17<16:27:24,  3.59it/s] 43%|████▎     | 159023/371472 [1:34:18<16:15:38,  3.63it/s] 43%|████▎     | 159024/371472 [1:34:18<16:42:13,  3.53it/s] 43%|████▎     | 159025/371472 [1:34:18<16:15:52,  3.63it/s] 43%|████▎     | 159026/371472 [1:34:18<16:13:34,  3.64it/s] 43%|████▎     | 159027/371472 [1:34:19<16:06:59,  3.66it/s] 43%|████▎     | 159028/371472 [1:34:19<16:35:26,  3.56it/s] 43%|████▎     | 159029/371472 [1:34:19<15:48:22,  3.73it/s] 43%|████▎     | 159030/371472 [1:34:19<15:31:22,  3.80it/s] 43%|████▎     | 159031/371472 [1:34:20<14:58:05,  3.94it/s] 43%|████▎     | 159032/371472 [1:34:20<14:59:20,  3.94it/s] 43%|████▎     | 159033/371472 [1:34:20<15:09:12,  3.89it/s] 43%|████▎     | 159034/371472 [1:34:21<16:26:03,  3.59it/s] 43%|████▎     | 159035/371472 [1:34:21<15:42:27,  3.76it/s] 43%|████▎     | 159036/371472 [1:34:21<15:32:22,  3.80it/s] 43%|████▎     | 159037/371472 [1:34:21<15:29:03,  3.81it/s] 43%|████▎     | 159038/371472 [1:34:22<15:52:23,  3.72it/s] 43%|████▎     | 159039/371472 [1:34:22<15:58:26,  3.69it/s] 43%|████▎     | 159040/371472 [1:34:22<15:57:24,  3.70it/s]                                                            {'loss': 3.3193, 'learning_rate': 6.149561507466224e-07, 'epoch': 6.85}
 43%|████▎     | 159040/371472 [1:34:22<15:57:24,  3.70it/s] 43%|████▎     | 159041/371472 [1:34:22<15:26:11,  3.82it/s] 43%|████▎     | 159042/371472 [1:34:23<16:50:47,  3.50it/s] 43%|████▎     | 159043/371472 [1:34:23<16:27:33,  3.59it/s] 43%|████▎     | 159044/371472 [1:34:23<16:02:23,  3.68it/s] 43%|████▎     | 159045/371472 [1:34:23<16:29:14,  3.58it/s] 43%|████▎     | 159046/371472 [1:34:24<16:13:22,  3.64it/s] 43%|████▎     | 159047/371472 [1:34:24<15:47:47,  3.74it/s] 43%|████▎     | 159048/371472 [1:34:24<15:17:04,  3.86it/s] 43%|████▎     | 159049/371472 [1:34:24<14:56:26,  3.95it/s] 43%|████▎     | 159050/371472 [1:34:25<15:02:07,  3.92it/s] 43%|████▎     | 159051/371472 [1:34:25<15:25:53,  3.82it/s] 43%|████▎     | 159052/371472 [1:34:25<15:05:32,  3.91it/s] 43%|████▎     | 159053/371472 [1:34:26<16:31:52,  3.57it/s] 43%|████▎     | 159054/371472 [1:34:26<17:20:28,  3.40it/s] 43%|████▎     | 159055/371472 [1:34:26<17:19:22,  3.41it/s] 43%|████▎     | 159056/371472 [1:34:26<16:53:11,  3.49it/s] 43%|████▎     | 159057/371472 [1:34:27<17:03:53,  3.46it/s] 43%|████▎     | 159058/371472 [1:34:27<16:42:57,  3.53it/s] 43%|████▎     | 159059/371472 [1:34:27<18:20:02,  3.22it/s] 43%|████▎     | 159060/371472 [1:34:28<17:39:33,  3.34it/s]                                                            {'loss': 3.1174, 'learning_rate': 6.149076687711435e-07, 'epoch': 6.85}
 43%|████▎     | 159060/371472 [1:34:28<17:39:33,  3.34it/s] 43%|████▎     | 159061/371472 [1:34:28<18:39:46,  3.16it/s] 43%|████▎     | 159062/371472 [1:34:28<18:35:20,  3.17it/s] 43%|████▎     | 159063/371472 [1:34:29<19:12:32,  3.07it/s] 43%|████▎     | 159064/371472 [1:34:29<18:07:30,  3.26it/s] 43%|████▎     | 159065/371472 [1:34:29<18:05:14,  3.26it/s] 43%|████▎     | 159066/371472 [1:34:30<17:28:19,  3.38it/s] 43%|████▎     | 159067/371472 [1:34:30<18:22:07,  3.21it/s] 43%|████▎     | 159068/371472 [1:34:30<17:32:17,  3.36it/s] 43%|████▎     | 159069/371472 [1:34:30<17:17:28,  3.41it/s] 43%|████▎     | 159070/371472 [1:34:31<16:34:08,  3.56it/s] 43%|████▎     | 159071/371472 [1:34:31<17:20:14,  3.40it/s] 43%|████▎     | 159072/371472 [1:34:31<17:24:58,  3.39it/s] 43%|████▎     | 159073/371472 [1:34:32<17:09:38,  3.44it/s] 43%|████▎     | 159074/371472 [1:34:32<17:21:46,  3.40it/s] 43%|████▎     | 159075/371472 [1:34:32<16:50:24,  3.50it/s] 43%|████▎     | 159076/371472 [1:34:32<16:17:39,  3.62it/s] 43%|████▎     | 159077/371472 [1:34:33<16:04:14,  3.67it/s] 43%|████▎     | 159078/371472 [1:34:33<16:15:55,  3.63it/s] 43%|████▎     | 159079/371472 [1:34:33<16:12:58,  3.64it/s] 43%|████▎     | 159080/371472 [1:34:34<16:24:10,  3.60it/s]                                                            {'loss': 3.2618, 'learning_rate': 6.148591867956645e-07, 'epoch': 6.85}
 43%|████▎     | 159080/371472 [1:34:34<16:24:10,  3.60it/s] 43%|████▎     | 159081/371472 [1:34:34<16:12:52,  3.64it/s] 43%|████▎     | 159082/371472 [1:34:34<16:02:22,  3.68it/s] 43%|████▎     | 159083/371472 [1:34:34<17:37:19,  3.35it/s] 43%|████▎     | 159084/371472 [1:34:35<16:56:10,  3.48it/s] 43%|████▎     | 159085/371472 [1:34:35<16:45:26,  3.52it/s] 43%|████▎     | 159086/371472 [1:34:35<16:58:29,  3.48it/s] 43%|████▎     | 159087/371472 [1:34:36<16:36:39,  3.55it/s] 43%|████▎     | 159088/371472 [1:34:36<16:07:55,  3.66it/s] 43%|████▎     | 159089/371472 [1:34:36<16:17:04,  3.62it/s] 43%|████▎     | 159090/371472 [1:34:36<16:28:49,  3.58it/s] 43%|████▎     | 159091/371472 [1:34:37<16:32:52,  3.57it/s] 43%|████▎     | 159092/371472 [1:34:37<16:19:25,  3.61it/s] 43%|████▎     | 159093/371472 [1:34:37<17:06:25,  3.45it/s] 43%|████▎     | 159094/371472 [1:34:38<17:03:00,  3.46it/s] 43%|████▎     | 159095/371472 [1:34:38<16:50:42,  3.50it/s] 43%|████▎     | 159096/371472 [1:34:38<17:05:17,  3.45it/s] 43%|████▎     | 159097/371472 [1:34:38<17:05:59,  3.45it/s] 43%|████▎     | 159098/371472 [1:34:39<18:25:21,  3.20it/s] 43%|████▎     | 159099/371472 [1:34:39<18:01:03,  3.27it/s] 43%|████▎     | 159100/371472 [1:34:39<19:12:22,  3.07it/s]                                                            {'loss': 3.0857, 'learning_rate': 6.148107048201857e-07, 'epoch': 6.85}
 43%|████▎     | 159100/371472 [1:34:39<19:12:22,  3.07it/s] 43%|████▎     | 159101/371472 [1:34:40<18:42:21,  3.15it/s] 43%|████▎     | 159102/371472 [1:34:40<17:22:40,  3.39it/s] 43%|████▎     | 159103/371472 [1:34:40<16:48:04,  3.51it/s] 43%|████▎     | 159104/371472 [1:34:40<16:21:35,  3.61it/s] 43%|████▎     | 159105/371472 [1:34:41<16:53:04,  3.49it/s] 43%|████▎     | 159106/371472 [1:34:41<16:53:06,  3.49it/s] 43%|████▎     | 159107/371472 [1:34:41<16:23:14,  3.60it/s] 43%|████▎     | 159108/371472 [1:34:42<16:16:09,  3.63it/s] 43%|████▎     | 159109/371472 [1:34:42<16:49:28,  3.51it/s] 43%|████▎     | 159110/371472 [1:34:42<16:55:06,  3.49it/s] 43%|████▎     | 159111/371472 [1:34:43<17:45:22,  3.32it/s] 43%|████▎     | 159112/371472 [1:34:43<17:42:18,  3.33it/s] 43%|████▎     | 159113/371472 [1:34:43<18:03:55,  3.27it/s] 43%|████▎     | 159114/371472 [1:34:43<17:57:01,  3.29it/s] 43%|████▎     | 159115/371472 [1:34:44<17:40:32,  3.34it/s] 43%|████▎     | 159116/371472 [1:34:44<18:25:01,  3.20it/s] 43%|████▎     | 159117/371472 [1:34:44<18:32:44,  3.18it/s] 43%|████▎     | 159118/371472 [1:34:45<18:12:27,  3.24it/s] 43%|████▎     | 159119/371472 [1:34:45<17:30:41,  3.37it/s] 43%|████▎     | 159120/371472 [1:34:45<16:47:57,  3.51it/s]                                                            {'loss': 3.15, 'learning_rate': 6.147622228447069e-07, 'epoch': 6.85}
 43%|████▎     | 159120/371472 [1:34:45<16:47:57,  3.51it/s] 43%|████▎     | 159121/371472 [1:34:45<16:30:23,  3.57it/s] 43%|████▎     | 159122/371472 [1:34:46<16:33:18,  3.56it/s] 43%|████▎     | 159123/371472 [1:34:46<16:31:09,  3.57it/s] 43%|████▎     | 159124/371472 [1:34:47<20:06:43,  2.93it/s] 43%|████▎     | 159125/371472 [1:34:47<21:10:15,  2.79it/s] 43%|████▎     | 159126/371472 [1:34:47<20:19:51,  2.90it/s] 43%|████▎     | 159127/371472 [1:34:48<18:58:16,  3.11it/s] 43%|████▎     | 159128/371472 [1:34:48<18:55:58,  3.12it/s] 43%|████▎     | 159129/371472 [1:34:48<18:36:46,  3.17it/s] 43%|████▎     | 159130/371472 [1:34:48<17:43:28,  3.33it/s] 43%|████▎     | 159131/371472 [1:34:49<16:58:26,  3.47it/s] 43%|████▎     | 159132/371472 [1:34:49<17:15:33,  3.42it/s] 43%|████▎     | 159133/371472 [1:34:49<18:15:09,  3.23it/s] 43%|████▎     | 159134/371472 [1:34:50<18:59:00,  3.11it/s] 43%|████▎     | 159135/371472 [1:34:50<18:51:38,  3.13it/s] 43%|████▎     | 159136/371472 [1:34:50<18:53:58,  3.12it/s] 43%|████▎     | 159137/371472 [1:34:51<17:34:42,  3.36it/s] 43%|████▎     | 159138/371472 [1:34:51<17:35:27,  3.35it/s] 43%|████▎     | 159139/371472 [1:34:51<16:58:54,  3.47it/s] 43%|████▎     | 159140/371472 [1:34:51<16:40:20,  3.54it/s]                                                            {'loss': 3.1598, 'learning_rate': 6.14713740869228e-07, 'epoch': 6.85}
 43%|████▎     | 159140/371472 [1:34:51<16:40:20,  3.54it/s] 43%|████▎     | 159141/371472 [1:34:52<16:46:48,  3.51it/s] 43%|████▎     | 159142/371472 [1:34:52<17:41:55,  3.33it/s] 43%|████▎     | 159143/371472 [1:34:52<17:04:14,  3.46it/s] 43%|████▎     | 159144/371472 [1:34:53<16:36:11,  3.55it/s] 43%|████▎     | 159145/371472 [1:34:53<16:27:30,  3.58it/s] 43%|████▎     | 159146/371472 [1:34:53<16:13:12,  3.64it/s] 43%|████▎     | 159147/371472 [1:34:53<16:42:02,  3.53it/s] 43%|████▎     | 159148/371472 [1:34:54<17:26:25,  3.38it/s] 43%|████▎     | 159149/371472 [1:34:54<16:49:12,  3.51it/s] 43%|████▎     | 159150/371472 [1:34:54<16:33:52,  3.56it/s] 43%|████▎     | 159151/371472 [1:34:54<15:48:59,  3.73it/s] 43%|████▎     | 159152/371472 [1:34:55<15:47:33,  3.73it/s] 43%|████▎     | 159153/371472 [1:34:55<18:01:15,  3.27it/s] 43%|████▎     | 159154/371472 [1:34:55<16:56:53,  3.48it/s] 43%|████▎     | 159155/371472 [1:34:56<17:51:05,  3.30it/s] 43%|████▎     | 159156/371472 [1:34:56<18:37:33,  3.17it/s] 43%|████▎     | 159157/371472 [1:34:56<17:48:31,  3.31it/s] 43%|████▎     | 159158/371472 [1:34:57<17:06:27,  3.45it/s] 43%|████▎     | 159159/371472 [1:34:57<16:37:17,  3.55it/s] 43%|████▎     | 159160/371472 [1:34:57<16:44:37,  3.52it/s]                                                            {'loss': 3.1869, 'learning_rate': 6.14665258893749e-07, 'epoch': 6.86}
 43%|████▎     | 159160/371472 [1:34:57<16:44:37,  3.52it/s] 43%|████▎     | 159161/371472 [1:34:57<16:38:47,  3.54it/s] 43%|████▎     | 159162/371472 [1:34:58<16:26:35,  3.59it/s] 43%|████▎     | 159163/371472 [1:34:58<16:30:27,  3.57it/s] 43%|████▎     | 159164/371472 [1:34:58<16:10:45,  3.65it/s] 43%|████▎     | 159165/371472 [1:34:58<15:49:34,  3.73it/s] 43%|████▎     | 159166/371472 [1:34:59<15:29:48,  3.81it/s] 43%|████▎     | 159167/371472 [1:34:59<16:58:22,  3.47it/s] 43%|████▎     | 159168/371472 [1:34:59<16:30:34,  3.57it/s] 43%|████▎     | 159169/371472 [1:35:00<16:14:06,  3.63it/s] 43%|████▎     | 159170/371472 [1:35:00<15:49:17,  3.73it/s] 43%|████▎     | 159171/371472 [1:35:00<17:03:53,  3.46it/s] 43%|████▎     | 159172/371472 [1:35:00<16:30:26,  3.57it/s] 43%|████▎     | 159173/371472 [1:35:01<16:13:24,  3.63it/s] 43%|████▎     | 159174/371472 [1:35:01<16:10:53,  3.64it/s] 43%|████▎     | 159175/371472 [1:35:01<16:24:03,  3.60it/s] 43%|████▎     | 159176/371472 [1:35:02<16:26:29,  3.59it/s] 43%|████▎     | 159177/371472 [1:35:02<16:19:18,  3.61it/s] 43%|████▎     | 159178/371472 [1:35:02<16:21:23,  3.61it/s] 43%|████▎     | 159179/371472 [1:35:02<17:04:53,  3.45it/s] 43%|████▎     | 159180/371472 [1:35:03<17:12:27,  3.43it/s]                                                            {'loss': 3.162, 'learning_rate': 6.146167769182701e-07, 'epoch': 6.86}
 43%|████▎     | 159180/371472 [1:35:03<17:12:27,  3.43it/s] 43%|████▎     | 159181/371472 [1:35:03<17:43:08,  3.33it/s] 43%|████▎     | 159182/371472 [1:35:03<17:25:16,  3.38it/s] 43%|████▎     | 159183/371472 [1:35:04<17:45:34,  3.32it/s] 43%|████▎     | 159184/371472 [1:35:04<17:17:11,  3.41it/s] 43%|████▎     | 159185/371472 [1:35:04<16:40:05,  3.54it/s] 43%|████▎     | 159186/371472 [1:35:04<16:18:01,  3.62it/s] 43%|████▎     | 159187/371472 [1:35:05<15:50:07,  3.72it/s] 43%|████▎     | 159188/371472 [1:35:05<15:59:26,  3.69it/s] 43%|████▎     | 159189/371472 [1:35:05<16:03:13,  3.67it/s] 43%|████▎     | 159190/371472 [1:35:06<16:22:29,  3.60it/s] 43%|████▎     | 159191/371472 [1:35:06<16:25:47,  3.59it/s] 43%|████▎     | 159192/371472 [1:35:06<16:11:42,  3.64it/s] 43%|████▎     | 159193/371472 [1:35:06<15:36:11,  3.78it/s] 43%|████▎     | 159194/371472 [1:35:07<15:31:14,  3.80it/s] 43%|████▎     | 159195/371472 [1:35:07<15:44:53,  3.74it/s] 43%|████▎     | 159196/371472 [1:35:07<15:22:55,  3.83it/s] 43%|████▎     | 159197/371472 [1:35:07<16:04:37,  3.67it/s] 43%|████▎     | 159198/371472 [1:35:08<15:35:39,  3.78it/s] 43%|████▎     | 159199/371472 [1:35:08<15:39:42,  3.76it/s] 43%|████▎     | 159200/371472 [1:35:08<16:31:20,  3.57it/s]                                                            {'loss': 3.0963, 'learning_rate': 6.145682949427913e-07, 'epoch': 6.86}
 43%|████▎     | 159200/371472 [1:35:08<16:31:20,  3.57it/s] 43%|████▎     | 159201/371472 [1:35:08<16:24:20,  3.59it/s] 43%|████▎     | 159202/371472 [1:35:09<16:43:45,  3.52it/s] 43%|████▎     | 159203/371472 [1:35:09<16:21:40,  3.60it/s] 43%|████▎     | 159204/371472 [1:35:09<15:53:17,  3.71it/s] 43%|████▎     | 159205/371472 [1:35:10<15:26:11,  3.82it/s] 43%|████▎     | 159206/371472 [1:35:10<15:50:50,  3.72it/s] 43%|████▎     | 159207/371472 [1:35:10<15:25:35,  3.82it/s] 43%|████▎     | 159208/371472 [1:35:10<15:14:16,  3.87it/s] 43%|████▎     | 159209/371472 [1:35:11<15:32:30,  3.79it/s] 43%|████▎     | 159210/371472 [1:35:11<15:24:51,  3.83it/s] 43%|████▎     | 159211/371472 [1:35:11<16:09:23,  3.65it/s] 43%|████▎     | 159212/371472 [1:35:11<16:19:50,  3.61it/s] 43%|████▎     | 159213/371472 [1:35:12<17:03:39,  3.46it/s] 43%|████▎     | 159214/371472 [1:35:12<17:18:42,  3.41it/s] 43%|████▎     | 159215/371472 [1:35:12<16:58:24,  3.47it/s] 43%|████▎     | 159216/371472 [1:35:13<16:10:20,  3.65it/s] 43%|████▎     | 159217/371472 [1:35:13<16:40:16,  3.54it/s] 43%|████▎     | 159218/371472 [1:35:13<17:23:47,  3.39it/s] 43%|████▎     | 159219/371472 [1:35:14<17:51:31,  3.30it/s] 43%|████▎     | 159220/371472 [1:35:14<18:04:54,  3.26it/s]                                                            {'loss': 3.2051, 'learning_rate': 6.145198129673123e-07, 'epoch': 6.86}
 43%|████▎     | 159220/371472 [1:35:14<18:04:54,  3.26it/s] 43%|████▎     | 159221/371472 [1:35:14<17:13:44,  3.42it/s] 43%|████▎     | 159222/371472 [1:35:14<17:05:27,  3.45it/s] 43%|████▎     | 159223/371472 [1:35:15<17:09:47,  3.44it/s] 43%|████▎     | 159224/371472 [1:35:15<17:02:57,  3.46it/s] 43%|████▎     | 159225/371472 [1:35:15<17:28:32,  3.37it/s] 43%|████▎     | 159226/371472 [1:35:16<18:42:08,  3.15it/s] 43%|████▎     | 159227/371472 [1:35:16<17:26:34,  3.38it/s] 43%|████▎     | 159228/371472 [1:35:16<17:28:02,  3.38it/s] 43%|████▎     | 159229/371472 [1:35:16<16:47:32,  3.51it/s] 43%|████▎     | 159230/371472 [1:35:17<16:08:18,  3.65it/s] 43%|████▎     | 159231/371472 [1:35:17<16:12:36,  3.64it/s] 43%|████▎     | 159232/371472 [1:35:17<16:19:27,  3.61it/s] 43%|████▎     | 159233/371472 [1:35:18<16:54:09,  3.49it/s] 43%|████▎     | 159234/371472 [1:35:18<16:07:40,  3.66it/s] 43%|████▎     | 159235/371472 [1:35:18<15:58:39,  3.69it/s] 43%|████▎     | 159236/371472 [1:35:18<16:07:37,  3.66it/s] 43%|████▎     | 159237/371472 [1:35:19<15:37:27,  3.77it/s] 43%|████▎     | 159238/371472 [1:35:19<15:47:22,  3.73it/s] 43%|████▎     | 159239/371472 [1:35:19<15:21:15,  3.84it/s] 43%|████▎     | 159240/371472 [1:35:19<15:23:32,  3.83it/s]                                                            {'loss': 3.1408, 'learning_rate': 6.144713309918334e-07, 'epoch': 6.86}
 43%|████▎     | 159240/371472 [1:35:19<15:23:32,  3.83it/s] 43%|████▎     | 159241/371472 [1:35:20<16:41:17,  3.53it/s] 43%|████▎     | 159242/371472 [1:35:20<16:17:42,  3.62it/s] 43%|████▎     | 159243/371472 [1:35:20<15:36:30,  3.78it/s] 43%|████▎     | 159244/371472 [1:35:20<15:22:12,  3.84it/s] 43%|████▎     | 159245/371472 [1:35:21<15:33:03,  3.79it/s] 43%|████▎     | 159246/371472 [1:35:21<15:41:52,  3.76it/s] 43%|████▎     | 159247/371472 [1:35:21<15:41:51,  3.76it/s] 43%|████▎     | 159248/371472 [1:35:22<15:22:28,  3.83it/s] 43%|████▎     | 159249/371472 [1:35:22<14:55:47,  3.95it/s] 43%|████▎     | 159250/371472 [1:35:22<15:05:06,  3.91it/s] 43%|████▎     | 159251/371472 [1:35:22<16:14:30,  3.63it/s] 43%|████▎     | 159252/371472 [1:35:23<16:24:23,  3.59it/s] 43%|████▎     | 159253/371472 [1:35:23<17:23:48,  3.39it/s] 43%|████▎     | 159254/371472 [1:35:23<16:50:11,  3.50it/s] 43%|████▎     | 159255/371472 [1:35:24<17:23:10,  3.39it/s] 43%|████▎     | 159256/371472 [1:35:24<18:12:20,  3.24it/s] 43%|████▎     | 159257/371472 [1:35:24<19:09:39,  3.08it/s] 43%|████▎     | 159258/371472 [1:35:25<18:19:25,  3.22it/s] 43%|████▎     | 159259/371472 [1:35:25<17:41:07,  3.33it/s] 43%|████▎     | 159260/371472 [1:35:25<18:10:20,  3.24it/s]                                                            {'loss': 3.2185, 'learning_rate': 6.144228490163546e-07, 'epoch': 6.86}
 43%|████▎     | 159260/371472 [1:35:25<18:10:20,  3.24it/s] 43%|████▎     | 159261/371472 [1:35:25<17:52:59,  3.30it/s] 43%|████▎     | 159262/371472 [1:35:26<17:24:56,  3.38it/s] 43%|████▎     | 159263/371472 [1:35:26<16:47:24,  3.51it/s] 43%|████▎     | 159264/371472 [1:35:26<16:44:40,  3.52it/s] 43%|████▎     | 159265/371472 [1:35:26<16:14:51,  3.63it/s] 43%|████▎     | 159266/371472 [1:35:27<15:56:49,  3.70it/s] 43%|████▎     | 159267/371472 [1:35:27<16:15:19,  3.63it/s] 43%|████▎     | 159268/371472 [1:35:27<16:15:24,  3.63it/s] 43%|████▎     | 159269/371472 [1:35:28<16:46:20,  3.51it/s] 43%|████▎     | 159270/371472 [1:35:28<16:21:50,  3.60it/s] 43%|████▎     | 159271/371472 [1:35:28<16:46:46,  3.51it/s] 43%|████▎     | 159272/371472 [1:35:28<16:22:45,  3.60it/s] 43%|████▎     | 159273/371472 [1:35:29<18:31:01,  3.18it/s] 43%|████▎     | 159274/371472 [1:35:29<19:43:36,  2.99it/s] 43%|████▎     | 159275/371472 [1:35:30<18:46:29,  3.14it/s] 43%|████▎     | 159276/371472 [1:35:30<17:50:05,  3.30it/s] 43%|████▎     | 159277/371472 [1:35:30<17:09:24,  3.44it/s] 43%|████▎     | 159278/371472 [1:35:30<17:00:00,  3.47it/s] 43%|████▎     | 159279/371472 [1:35:31<16:59:57,  3.47it/s] 43%|████▎     | 159280/371472 [1:35:31<18:14:47,  3.23it/s]                                                            {'loss': 3.2853, 'learning_rate': 6.143743670408758e-07, 'epoch': 6.86}
 43%|████▎     | 159280/371472 [1:35:31<18:14:47,  3.23it/s] 43%|████▎     | 159281/371472 [1:35:31<17:44:17,  3.32it/s] 43%|████▎     | 159282/371472 [1:35:32<17:00:40,  3.46it/s] 43%|████▎     | 159283/371472 [1:35:32<16:24:50,  3.59it/s] 43%|████▎     | 159284/371472 [1:35:32<16:17:12,  3.62it/s] 43%|████▎     | 159285/371472 [1:35:32<16:28:08,  3.58it/s] 43%|████▎     | 159286/371472 [1:35:33<16:46:22,  3.51it/s] 43%|████▎     | 159287/371472 [1:35:33<16:36:25,  3.55it/s] 43%|████▎     | 159288/371472 [1:35:33<16:20:39,  3.61it/s] 43%|████▎     | 159289/371472 [1:35:33<15:34:46,  3.78it/s] 43%|████▎     | 159290/371472 [1:35:34<16:56:39,  3.48it/s] 43%|████▎     | 159291/371472 [1:35:34<17:23:15,  3.39it/s] 43%|████▎     | 159292/371472 [1:35:34<16:55:06,  3.48it/s] 43%|████▎     | 159293/371472 [1:35:35<16:24:10,  3.59it/s] 43%|████▎     | 159294/371472 [1:35:35<17:39:47,  3.34it/s] 43%|████▎     | 159295/371472 [1:35:35<18:22:05,  3.21it/s] 43%|████▎     | 159296/371472 [1:35:36<17:36:42,  3.35it/s] 43%|████▎     | 159297/371472 [1:35:36<17:48:31,  3.31it/s] 43%|████▎     | 159298/371472 [1:35:36<17:36:28,  3.35it/s] 43%|████▎     | 159299/371472 [1:35:36<17:50:22,  3.30it/s] 43%|████▎     | 159300/371472 [1:35:37<17:45:10,  3.32it/s]                                                            {'loss': 3.0702, 'learning_rate': 6.143258850653967e-07, 'epoch': 6.86}
 43%|████▎     | 159300/371472 [1:35:37<17:45:10,  3.32it/s] 43%|████▎     | 159301/371472 [1:35:37<17:32:48,  3.36it/s] 43%|████▎     | 159302/371472 [1:35:37<17:38:01,  3.34it/s] 43%|████▎     | 159303/371472 [1:35:38<17:11:48,  3.43it/s] 43%|████▎     | 159304/371472 [1:35:38<16:34:48,  3.55it/s] 43%|████▎     | 159305/371472 [1:35:38<18:01:47,  3.27it/s] 43%|████▎     | 159306/371472 [1:35:38<17:01:10,  3.46it/s] 43%|████▎     | 159307/371472 [1:35:39<16:16:47,  3.62it/s] 43%|████▎     | 159308/371472 [1:35:39<16:07:44,  3.65it/s] 43%|████▎     | 159309/371472 [1:35:39<16:07:06,  3.66it/s] 43%|████▎     | 159310/371472 [1:35:40<15:43:47,  3.75it/s] 43%|████▎     | 159311/371472 [1:35:40<15:55:03,  3.70it/s] 43%|████▎     | 159312/371472 [1:35:40<16:15:30,  3.62it/s] 43%|████▎     | 159313/371472 [1:35:40<16:38:48,  3.54it/s] 43%|████▎     | 159314/371472 [1:35:41<16:46:58,  3.51it/s] 43%|████▎     | 159315/371472 [1:35:41<16:27:53,  3.58it/s] 43%|████▎     | 159316/371472 [1:35:41<17:04:14,  3.45it/s] 43%|████▎     | 159317/371472 [1:35:42<16:49:25,  3.50it/s] 43%|████▎     | 159318/371472 [1:35:42<16:05:46,  3.66it/s] 43%|████▎     | 159319/371472 [1:35:42<15:57:32,  3.69it/s] 43%|████▎     | 159320/371472 [1:35:42<15:44:59,  3.74it/s]                                                            {'loss': 3.0196, 'learning_rate': 6.142774030899178e-07, 'epoch': 6.86}
 43%|████▎     | 159320/371472 [1:35:42<15:44:59,  3.74it/s] 43%|████▎     | 159321/371472 [1:35:43<15:54:15,  3.71it/s] 43%|████▎     | 159322/371472 [1:35:43<16:53:39,  3.49it/s] 43%|████▎     | 159323/371472 [1:35:43<17:54:06,  3.29it/s] 43%|████▎     | 159324/371472 [1:35:44<17:03:40,  3.45it/s] 43%|████▎     | 159325/371472 [1:35:44<16:34:06,  3.56it/s] 43%|████▎     | 159326/371472 [1:35:44<16:17:16,  3.62it/s] 43%|████▎     | 159327/371472 [1:35:44<15:51:40,  3.72it/s] 43%|████▎     | 159328/371472 [1:35:45<15:47:23,  3.73it/s] 43%|████▎     | 159329/371472 [1:35:45<16:09:24,  3.65it/s] 43%|████▎     | 159330/371472 [1:35:45<15:56:59,  3.69it/s] 43%|████▎     | 159331/371472 [1:35:45<15:52:20,  3.71it/s] 43%|████▎     | 159332/371472 [1:35:46<16:39:55,  3.54it/s] 43%|████▎     | 159333/371472 [1:35:46<17:52:28,  3.30it/s] 43%|████▎     | 159334/371472 [1:35:46<17:54:32,  3.29it/s] 43%|████▎     | 159335/371472 [1:35:47<17:17:33,  3.41it/s] 43%|████▎     | 159336/371472 [1:35:47<18:12:44,  3.24it/s] 43%|████▎     | 159337/371472 [1:35:47<17:42:56,  3.33it/s] 43%|████▎     | 159338/371472 [1:35:48<17:23:07,  3.39it/s] 43%|████▎     | 159339/371472 [1:35:48<17:02:40,  3.46it/s] 43%|████▎     | 159340/371472 [1:35:48<16:33:54,  3.56it/s]                                                            {'loss': 3.0804, 'learning_rate': 6.14228921114439e-07, 'epoch': 6.86}
 43%|████▎     | 159340/371472 [1:35:48<16:33:54,  3.56it/s] 43%|████▎     | 159341/371472 [1:35:48<17:02:30,  3.46it/s] 43%|████▎     | 159342/371472 [1:35:49<16:38:41,  3.54it/s] 43%|████▎     | 159343/371472 [1:35:49<16:53:31,  3.49it/s] 43%|████▎     | 159344/371472 [1:35:49<16:27:18,  3.58it/s] 43%|████▎     | 159345/371472 [1:35:49<15:53:46,  3.71it/s] 43%|████▎     | 159346/371472 [1:35:50<17:20:42,  3.40it/s] 43%|████▎     | 159347/371472 [1:35:50<17:13:15,  3.42it/s] 43%|████▎     | 159348/371472 [1:35:50<17:52:19,  3.30it/s] 43%|████▎     | 159349/371472 [1:35:51<17:47:36,  3.31it/s] 43%|████▎     | 159350/371472 [1:35:51<18:28:44,  3.19it/s] 43%|████▎     | 159351/371472 [1:35:51<17:44:53,  3.32it/s] 43%|████▎     | 159352/371472 [1:35:52<17:43:41,  3.32it/s] 43%|████▎     | 159353/371472 [1:35:52<18:13:47,  3.23it/s] 43%|████▎     | 159354/371472 [1:35:52<17:56:38,  3.28it/s] 43%|████▎     | 159355/371472 [1:35:53<17:35:12,  3.35it/s] 43%|████▎     | 159356/371472 [1:35:53<16:53:18,  3.49it/s] 43%|████▎     | 159357/371472 [1:35:53<17:16:40,  3.41it/s] 43%|████▎     | 159358/371472 [1:35:53<17:23:49,  3.39it/s] 43%|████▎     | 159359/371472 [1:35:54<17:35:47,  3.35it/s] 43%|████▎     | 159360/371472 [1:35:54<17:41:11,  3.33it/s]                                                            {'loss': 3.0729, 'learning_rate': 6.141804391389602e-07, 'epoch': 6.86}
 43%|████▎     | 159360/371472 [1:35:54<17:41:11,  3.33it/s] 43%|████▎     | 159361/371472 [1:35:54<17:20:55,  3.40it/s] 43%|████▎     | 159362/371472 [1:35:55<16:36:24,  3.55it/s] 43%|████▎     | 159363/371472 [1:35:55<16:09:31,  3.65it/s] 43%|████▎     | 159364/371472 [1:35:55<16:58:22,  3.47it/s] 43%|████▎     | 159365/371472 [1:35:55<17:16:24,  3.41it/s] 43%|████▎     | 159366/371472 [1:35:56<17:56:02,  3.29it/s] 43%|████▎     | 159367/371472 [1:35:56<17:11:02,  3.43it/s] 43%|████▎     | 159368/371472 [1:35:56<17:41:29,  3.33it/s] 43%|████▎     | 159369/371472 [1:35:57<17:00:27,  3.46it/s] 43%|████▎     | 159370/371472 [1:35:57<16:47:37,  3.51it/s] 43%|████▎     | 159371/371472 [1:35:57<19:41:02,  2.99it/s] 43%|████▎     | 159372/371472 [1:35:58<19:08:55,  3.08it/s] 43%|████▎     | 159373/371472 [1:35:58<18:13:55,  3.23it/s] 43%|████▎     | 159374/371472 [1:35:58<17:53:31,  3.29it/s] 43%|████▎     | 159375/371472 [1:35:58<18:12:59,  3.23it/s] 43%|████▎     | 159376/371472 [1:35:59<18:13:27,  3.23it/s] 43%|████▎     | 159377/371472 [1:35:59<17:33:40,  3.35it/s] 43%|████▎     | 159378/371472 [1:35:59<17:11:20,  3.43it/s] 43%|████▎     | 159379/371472 [1:36:00<16:52:15,  3.49it/s] 43%|████▎     | 159380/371472 [1:36:00<16:21:33,  3.60it/s]                                                            {'loss': 3.2279, 'learning_rate': 6.141319571634812e-07, 'epoch': 6.86}
 43%|████▎     | 159380/371472 [1:36:00<16:21:33,  3.60it/s] 43%|████▎     | 159381/371472 [1:36:00<16:21:17,  3.60it/s] 43%|████▎     | 159382/371472 [1:36:00<16:35:01,  3.55it/s] 43%|████▎     | 159383/371472 [1:36:01<16:09:17,  3.65it/s] 43%|████▎     | 159384/371472 [1:36:01<16:05:59,  3.66it/s] 43%|████▎     | 159385/371472 [1:36:01<16:13:29,  3.63it/s] 43%|████▎     | 159386/371472 [1:36:02<16:02:50,  3.67it/s] 43%|████▎     | 159387/371472 [1:36:02<15:56:36,  3.70it/s] 43%|████▎     | 159388/371472 [1:36:02<16:01:03,  3.68it/s] 43%|████▎     | 159389/371472 [1:36:02<16:20:07,  3.61it/s] 43%|████▎     | 159390/371472 [1:36:03<16:32:53,  3.56it/s] 43%|████▎     | 159391/371472 [1:36:03<16:02:33,  3.67it/s] 43%|████▎     | 159392/371472 [1:36:03<16:06:01,  3.66it/s] 43%|████▎     | 159393/371472 [1:36:03<16:41:13,  3.53it/s] 43%|████▎     | 159394/371472 [1:36:04<16:39:34,  3.54it/s] 43%|████▎     | 159395/371472 [1:36:04<15:55:15,  3.70it/s] 43%|████▎     | 159396/371472 [1:36:04<16:45:04,  3.52it/s] 43%|████▎     | 159397/371472 [1:36:05<16:55:07,  3.48it/s] 43%|████▎     | 159398/371472 [1:36:05<16:27:54,  3.58it/s] 43%|████▎     | 159399/371472 [1:36:05<17:33:56,  3.35it/s] 43%|████▎     | 159400/371472 [1:36:05<17:01:27,  3.46it/s]                                                            {'loss': 3.1779, 'learning_rate': 6.140834751880023e-07, 'epoch': 6.87}
 43%|████▎     | 159400/371472 [1:36:05<17:01:27,  3.46it/s] 43%|████▎     | 159401/371472 [1:36:06<17:41:45,  3.33it/s] 43%|████▎     | 159402/371472 [1:36:06<16:52:26,  3.49it/s] 43%|████▎     | 159403/371472 [1:36:06<16:30:03,  3.57it/s] 43%|████▎     | 159404/371472 [1:36:07<16:20:59,  3.60it/s] 43%|████▎     | 159405/371472 [1:36:07<16:39:38,  3.54it/s] 43%|████▎     | 159406/371472 [1:36:07<16:46:01,  3.51it/s] 43%|████▎     | 159407/371472 [1:36:07<16:50:44,  3.50it/s] 43%|████▎     | 159408/371472 [1:36:08<16:30:28,  3.57it/s] 43%|████▎     | 159409/371472 [1:36:08<16:31:46,  3.56it/s] 43%|████▎     | 159410/371472 [1:36:08<16:30:10,  3.57it/s] 43%|████▎     | 159411/371472 [1:36:09<16:37:40,  3.54it/s] 43%|████▎     | 159412/371472 [1:36:09<16:40:41,  3.53it/s] 43%|████▎     | 159413/371472 [1:36:09<18:47:24,  3.13it/s] 43%|████▎     | 159414/371472 [1:36:10<19:04:02,  3.09it/s] 43%|████▎     | 159415/371472 [1:36:10<18:10:53,  3.24it/s] 43%|████▎     | 159416/371472 [1:36:10<18:16:37,  3.22it/s] 43%|████▎     | 159417/371472 [1:36:10<17:05:24,  3.45it/s] 43%|████▎     | 159418/371472 [1:36:11<16:48:05,  3.51it/s] 43%|████▎     | 159419/371472 [1:36:11<18:14:26,  3.23it/s] 43%|████▎     | 159420/371472 [1:36:11<17:44:10,  3.32it/s]                                                            {'loss': 3.1836, 'learning_rate': 6.140349932125235e-07, 'epoch': 6.87}
 43%|████▎     | 159420/371472 [1:36:11<17:44:10,  3.32it/s] 43%|████▎     | 159421/371472 [1:36:12<17:13:08,  3.42it/s] 43%|████▎     | 159422/371472 [1:36:12<17:14:38,  3.42it/s] 43%|████▎     | 159423/371472 [1:36:12<16:51:22,  3.49it/s] 43%|████▎     | 159424/371472 [1:36:12<16:44:20,  3.52it/s] 43%|████▎     | 159425/371472 [1:36:13<16:41:49,  3.53it/s] 43%|████▎     | 159426/371472 [1:36:13<16:43:31,  3.52it/s] 43%|████▎     | 159427/371472 [1:36:13<16:20:09,  3.61it/s] 43%|████▎     | 159428/371472 [1:36:14<15:59:33,  3.68it/s] 43%|████▎     | 159429/371472 [1:36:14<17:04:51,  3.45it/s] 43%|████▎     | 159430/371472 [1:36:14<18:09:54,  3.24it/s] 43%|████▎     | 159431/371472 [1:36:15<18:02:07,  3.27it/s] 43%|████▎     | 159432/371472 [1:36:15<18:58:51,  3.10it/s] 43%|████▎     | 159433/371472 [1:36:15<17:52:49,  3.29it/s] 43%|████▎     | 159434/371472 [1:36:15<17:01:02,  3.46it/s] 43%|████▎     | 159435/371472 [1:36:16<17:05:10,  3.45it/s] 43%|████▎     | 159436/371472 [1:36:16<17:44:20,  3.32it/s] 43%|████▎     | 159437/371472 [1:36:16<16:50:24,  3.50it/s] 43%|████▎     | 159438/371472 [1:36:17<16:30:59,  3.57it/s] 43%|████▎     | 159439/371472 [1:36:17<16:15:56,  3.62it/s] 43%|████▎     | 159440/371472 [1:36:17<16:33:24,  3.56it/s]                                                            {'loss': 3.2714, 'learning_rate': 6.139865112370445e-07, 'epoch': 6.87}
 43%|████▎     | 159440/371472 [1:36:17<16:33:24,  3.56it/s] 43%|████▎     | 159441/371472 [1:36:17<17:44:55,  3.32it/s] 43%|████▎     | 159442/371472 [1:36:18<17:08:43,  3.44it/s] 43%|████▎     | 159443/371472 [1:36:18<16:50:05,  3.50it/s] 43%|████▎     | 159444/371472 [1:36:18<16:25:54,  3.58it/s] 43%|████▎     | 159445/371472 [1:36:19<16:08:55,  3.65it/s] 43%|████▎     | 159446/371472 [1:36:19<15:31:31,  3.79it/s] 43%|████▎     | 159447/371472 [1:36:19<15:33:12,  3.79it/s] 43%|████▎     | 159448/371472 [1:36:19<16:41:49,  3.53it/s] 43%|████▎     | 159449/371472 [1:36:20<15:57:36,  3.69it/s] 43%|████▎     | 159450/371472 [1:36:20<16:19:16,  3.61it/s] 43%|████▎     | 159451/371472 [1:36:20<15:47:30,  3.73it/s] 43%|████▎     | 159452/371472 [1:36:20<15:23:12,  3.83it/s] 43%|████▎     | 159453/371472 [1:36:21<16:13:56,  3.63it/s] 43%|████▎     | 159454/371472 [1:36:21<16:09:06,  3.65it/s] 43%|████▎     | 159455/371472 [1:36:21<16:06:37,  3.66it/s] 43%|████▎     | 159456/371472 [1:36:22<15:36:54,  3.77it/s] 43%|████▎     | 159457/371472 [1:36:22<15:14:01,  3.87it/s] 43%|████▎     | 159458/371472 [1:36:22<15:00:31,  3.92it/s] 43%|████▎     | 159459/371472 [1:36:22<14:56:57,  3.94it/s] 43%|████▎     | 159460/371472 [1:36:23<16:04:35,  3.66it/s]                                                            {'loss': 3.3181, 'learning_rate': 6.139380292615655e-07, 'epoch': 6.87}
 43%|████▎     | 159460/371472 [1:36:23<16:04:35,  3.66it/s] 43%|████▎     | 159461/371472 [1:36:23<15:51:15,  3.71it/s] 43%|████▎     | 159462/371472 [1:36:23<16:03:02,  3.67it/s] 43%|████▎     | 159463/371472 [1:36:23<16:35:37,  3.55it/s] 43%|████▎     | 159464/371472 [1:36:24<16:20:14,  3.60it/s] 43%|████▎     | 159465/371472 [1:36:24<16:52:45,  3.49it/s] 43%|████▎     | 159466/371472 [1:36:24<16:41:20,  3.53it/s] 43%|████▎     | 159467/371472 [1:36:25<16:45:54,  3.51it/s] 43%|████▎     | 159468/371472 [1:36:25<16:58:24,  3.47it/s] 43%|████▎     | 159469/371472 [1:36:25<15:59:41,  3.68it/s] 43%|████▎     | 159470/371472 [1:36:25<15:41:00,  3.75it/s] 43%|████▎     | 159471/371472 [1:36:26<15:50:52,  3.72it/s] 43%|████▎     | 159472/371472 [1:36:26<16:55:31,  3.48it/s] 43%|████▎     | 159473/371472 [1:36:26<16:52:00,  3.49it/s] 43%|████▎     | 159474/371472 [1:36:27<18:01:03,  3.27it/s] 43%|████▎     | 159475/371472 [1:36:27<18:43:14,  3.15it/s] 43%|████▎     | 159476/371472 [1:36:27<18:13:24,  3.23it/s] 43%|████▎     | 159477/371472 [1:36:27<17:30:05,  3.36it/s] 43%|████▎     | 159478/371472 [1:36:28<16:36:11,  3.55it/s] 43%|████▎     | 159479/371472 [1:36:28<16:00:16,  3.68it/s] 43%|████▎     | 159480/371472 [1:36:28<15:39:43,  3.76it/s]                                                            {'loss': 2.994, 'learning_rate': 6.138895472860867e-07, 'epoch': 6.87}
 43%|████▎     | 159480/371472 [1:36:28<15:39:43,  3.76it/s] 43%|████▎     | 159481/371472 [1:36:29<17:02:18,  3.46it/s] 43%|████▎     | 159482/371472 [1:36:29<16:46:10,  3.51it/s] 43%|████▎     | 159483/371472 [1:36:29<16:54:25,  3.48it/s] 43%|████▎     | 159484/371472 [1:36:29<18:13:27,  3.23it/s] 43%|████▎     | 159485/371472 [1:36:30<17:18:42,  3.40it/s] 43%|████▎     | 159486/371472 [1:36:30<16:25:00,  3.59it/s] 43%|████▎     | 159487/371472 [1:36:30<16:08:38,  3.65it/s] 43%|████▎     | 159488/371472 [1:36:31<17:13:55,  3.42it/s] 43%|████▎     | 159489/371472 [1:36:31<16:24:44,  3.59it/s] 43%|████▎     | 159490/371472 [1:36:31<16:05:40,  3.66it/s] 43%|████▎     | 159491/371472 [1:36:31<15:38:00,  3.77it/s] 43%|████▎     | 159492/371472 [1:36:32<16:17:41,  3.61it/s] 43%|████▎     | 159493/371472 [1:36:32<16:31:22,  3.56it/s] 43%|████▎     | 159494/371472 [1:36:32<16:26:31,  3.58it/s] 43%|████▎     | 159495/371472 [1:36:32<16:17:38,  3.61it/s] 43%|████▎     | 159496/371472 [1:36:33<16:18:32,  3.61it/s] 43%|████▎     | 159497/371472 [1:36:33<15:53:16,  3.71it/s] 43%|████▎     | 159498/371472 [1:36:33<15:44:33,  3.74it/s] 43%|████▎     | 159499/371472 [1:36:34<15:28:19,  3.81it/s] 43%|████▎     | 159500/371472 [1:36:34<15:19:21,  3.84it/s]                                                            {'loss': 3.1718, 'learning_rate': 6.138410653106079e-07, 'epoch': 6.87}
 43%|████▎     | 159500/371472 [1:36:34<15:19:21,  3.84it/s] 43%|████▎     | 159501/371472 [1:36:34<15:24:57,  3.82it/s] 43%|████▎     | 159502/371472 [1:36:34<15:21:15,  3.83it/s] 43%|████▎     | 159503/371472 [1:36:35<15:12:10,  3.87it/s] 43%|████▎     | 159504/371472 [1:36:35<15:49:41,  3.72it/s] 43%|████▎     | 159505/371472 [1:36:35<15:48:41,  3.72it/s] 43%|████▎     | 159506/371472 [1:36:35<16:47:47,  3.51it/s] 43%|████▎     | 159507/371472 [1:36:36<16:50:17,  3.50it/s] 43%|████▎     | 159508/371472 [1:36:36<16:21:55,  3.60it/s] 43%|████▎     | 159509/371472 [1:36:36<18:25:20,  3.20it/s] 43%|████▎     | 159510/371472 [1:36:37<17:25:52,  3.38it/s] 43%|████▎     | 159511/371472 [1:36:37<17:34:04,  3.35it/s] 43%|████▎     | 159512/371472 [1:36:37<17:40:09,  3.33it/s] 43%|████▎     | 159513/371472 [1:36:38<17:23:06,  3.39it/s] 43%|████▎     | 159514/371472 [1:36:38<17:59:36,  3.27it/s] 43%|████▎     | 159515/371472 [1:36:38<17:29:54,  3.36it/s] 43%|████▎     | 159516/371472 [1:36:38<17:19:41,  3.40it/s] 43%|████▎     | 159517/371472 [1:36:39<16:45:49,  3.51it/s] 43%|████▎     | 159518/371472 [1:36:39<16:55:59,  3.48it/s] 43%|████▎     | 159519/371472 [1:36:39<16:38:29,  3.54it/s] 43%|████▎     | 159520/371472 [1:36:40<16:25:14,  3.59it/s]                                                            {'loss': 2.9709, 'learning_rate': 6.13792583335129e-07, 'epoch': 6.87}
 43%|████▎     | 159520/371472 [1:36:40<16:25:14,  3.59it/s] 43%|████▎     | 159521/371472 [1:36:40<17:23:36,  3.38it/s] 43%|████▎     | 159522/371472 [1:36:40<16:59:49,  3.46it/s] 43%|████▎     | 159523/371472 [1:36:40<16:27:24,  3.58it/s] 43%|████▎     | 159524/371472 [1:36:41<16:11:36,  3.64it/s] 43%|████▎     | 159525/371472 [1:36:41<16:12:20,  3.63it/s] 43%|████▎     | 159526/371472 [1:36:41<16:05:24,  3.66it/s] 43%|████▎     | 159527/371472 [1:36:42<17:32:12,  3.36it/s] 43%|████▎     | 159528/371472 [1:36:42<18:12:20,  3.23it/s] 43%|████▎     | 159529/371472 [1:36:42<17:19:28,  3.40it/s] 43%|████▎     | 159530/371472 [1:36:42<16:37:42,  3.54it/s] 43%|████▎     | 159531/371472 [1:36:43<16:34:45,  3.55it/s] 43%|████▎     | 159532/371472 [1:36:43<16:54:26,  3.48it/s] 43%|████▎     | 159533/371472 [1:36:43<17:40:45,  3.33it/s] 43%|████▎     | 159534/371472 [1:36:44<16:52:37,  3.49it/s] 43%|████▎     | 159535/371472 [1:36:44<16:43:56,  3.52it/s] 43%|████▎     | 159536/371472 [1:36:44<16:24:22,  3.59it/s] 43%|████▎     | 159537/371472 [1:36:44<16:44:38,  3.52it/s] 43%|████▎     | 159538/371472 [1:36:45<16:19:05,  3.61it/s] 43%|████▎     | 159539/371472 [1:36:45<16:20:38,  3.60it/s] 43%|████▎     | 159540/371472 [1:36:45<16:07:55,  3.65it/s]                                                            {'loss': 3.2769, 'learning_rate': 6.1374410135965e-07, 'epoch': 6.87}
 43%|████▎     | 159540/371472 [1:36:45<16:07:55,  3.65it/s] 43%|████▎     | 159541/371472 [1:36:45<15:59:10,  3.68it/s] 43%|████▎     | 159542/371472 [1:36:46<16:32:27,  3.56it/s] 43%|████▎     | 159543/371472 [1:36:46<16:18:07,  3.61it/s] 43%|████▎     | 159544/371472 [1:36:46<16:19:47,  3.60it/s] 43%|████▎     | 159545/371472 [1:36:47<16:57:25,  3.47it/s] 43%|████▎     | 159546/371472 [1:36:47<16:45:08,  3.51it/s] 43%|████▎     | 159547/371472 [1:36:47<16:13:25,  3.63it/s] 43%|████▎     | 159548/371472 [1:36:47<16:53:49,  3.48it/s] 43%|████▎     | 159549/371472 [1:36:48<16:36:58,  3.54it/s] 43%|████▎     | 159550/371472 [1:36:48<16:40:04,  3.53it/s] 43%|████▎     | 159551/371472 [1:36:48<16:08:15,  3.65it/s] 43%|████▎     | 159552/371472 [1:36:49<16:34:00,  3.55it/s] 43%|████▎     | 159553/371472 [1:36:49<16:41:31,  3.53it/s] 43%|████▎     | 159554/371472 [1:36:49<16:46:43,  3.51it/s] 43%|████▎     | 159555/371472 [1:36:49<16:57:08,  3.47it/s] 43%|████▎     | 159556/371472 [1:36:50<17:03:51,  3.45it/s] 43%|████▎     | 159557/371472 [1:36:50<16:34:13,  3.55it/s] 43%|████▎     | 159558/371472 [1:36:50<16:05:24,  3.66it/s] 43%|████▎     | 159559/371472 [1:36:51<15:52:39,  3.71it/s] 43%|████▎     | 159560/371472 [1:36:51<15:48:46,  3.72it/s]                                                            {'loss': 3.1633, 'learning_rate': 6.136956193841711e-07, 'epoch': 6.87}
 43%|████▎     | 159560/371472 [1:36:51<15:48:46,  3.72it/s] 43%|████▎     | 159561/371472 [1:36:51<15:45:02,  3.74it/s] 43%|████▎     | 159562/371472 [1:36:51<16:10:29,  3.64it/s] 43%|████▎     | 159563/371472 [1:36:52<18:10:05,  3.24it/s] 43%|████▎     | 159564/371472 [1:36:52<17:10:33,  3.43it/s] 43%|████▎     | 159565/371472 [1:36:52<17:06:47,  3.44it/s] 43%|████▎     | 159566/371472 [1:36:53<16:44:39,  3.52it/s] 43%|████▎     | 159567/371472 [1:36:53<16:20:42,  3.60it/s] 43%|████▎     | 159568/371472 [1:36:53<15:55:35,  3.70it/s] 43%|████▎     | 159569/371472 [1:36:53<16:03:56,  3.66it/s] 43%|████▎     | 159570/371472 [1:36:54<15:55:59,  3.69it/s] 43%|████▎     | 159571/371472 [1:36:54<15:57:38,  3.69it/s] 43%|████▎     | 159572/371472 [1:36:54<16:00:24,  3.68it/s] 43%|████▎     | 159573/371472 [1:36:54<16:04:00,  3.66it/s] 43%|████▎     | 159574/371472 [1:36:55<15:54:57,  3.70it/s] 43%|████▎     | 159575/371472 [1:36:55<16:41:01,  3.53it/s] 43%|████▎     | 159576/371472 [1:36:55<16:16:45,  3.62it/s] 43%|████▎     | 159577/371472 [1:36:56<15:51:36,  3.71it/s] 43%|████▎     | 159578/371472 [1:36:56<15:24:25,  3.82it/s] 43%|████▎     | 159579/371472 [1:36:56<15:09:05,  3.88it/s] 43%|████▎     | 159580/371472 [1:36:56<15:21:42,  3.83it/s]                                                            {'loss': 3.2445, 'learning_rate': 6.136471374086923e-07, 'epoch': 6.87}
 43%|████▎     | 159580/371472 [1:36:56<15:21:42,  3.83it/s] 43%|████▎     | 159581/371472 [1:36:57<16:30:06,  3.57it/s] 43%|████▎     | 159582/371472 [1:36:57<16:37:15,  3.54it/s] 43%|████▎     | 159583/371472 [1:36:57<16:22:01,  3.60it/s] 43%|████▎     | 159584/371472 [1:36:58<17:22:50,  3.39it/s] 43%|████▎     | 159585/371472 [1:36:58<17:19:48,  3.40it/s] 43%|████▎     | 159586/371472 [1:36:58<16:38:40,  3.54it/s] 43%|████▎     | 159587/371472 [1:36:58<16:50:38,  3.49it/s] 43%|████▎     | 159588/371472 [1:36:59<17:49:44,  3.30it/s] 43%|████▎     | 159589/371472 [1:36:59<17:41:00,  3.33it/s] 43%|████▎     | 159590/371472 [1:36:59<17:10:53,  3.43it/s] 43%|████▎     | 159591/371472 [1:37:00<17:10:10,  3.43it/s] 43%|████▎     | 159592/371472 [1:37:00<17:04:20,  3.45it/s] 43%|████▎     | 159593/371472 [1:37:00<17:10:18,  3.43it/s] 43%|████▎     | 159594/371472 [1:37:00<16:46:43,  3.51it/s] 43%|████▎     | 159595/371472 [1:37:01<16:36:58,  3.54it/s] 43%|████▎     | 159596/371472 [1:37:01<16:05:43,  3.66it/s] 43%|████▎     | 159597/371472 [1:37:01<17:24:05,  3.38it/s] 43%|████▎     | 159598/371472 [1:37:02<16:35:28,  3.55it/s] 43%|████▎     | 159599/371472 [1:37:02<16:07:40,  3.65it/s] 43%|████▎     | 159600/371472 [1:37:02<16:04:53,  3.66it/s]                                                            {'loss': 3.0864, 'learning_rate': 6.135986554332133e-07, 'epoch': 6.87}
 43%|████▎     | 159600/371472 [1:37:02<16:04:53,  3.66it/s] 43%|████▎     | 159601/371472 [1:37:03<19:11:31,  3.07it/s] 43%|████▎     | 159602/371472 [1:37:03<18:13:28,  3.23it/s] 43%|████▎     | 159603/371472 [1:37:03<17:32:21,  3.36it/s] 43%|████▎     | 159604/371472 [1:37:03<18:29:58,  3.18it/s] 43%|████▎     | 159605/371472 [1:37:04<18:05:08,  3.25it/s] 43%|████▎     | 159606/371472 [1:37:04<18:35:22,  3.17it/s] 43%|████▎     | 159607/371472 [1:37:04<18:06:21,  3.25it/s] 43%|████▎     | 159608/371472 [1:37:05<17:36:04,  3.34it/s] 43%|████▎     | 159609/371472 [1:37:05<16:45:14,  3.51it/s] 43%|████▎     | 159610/371472 [1:37:05<16:43:47,  3.52it/s] 43%|████▎     | 159611/371472 [1:37:05<16:27:59,  3.57it/s] 43%|████▎     | 159612/371472 [1:37:06<16:40:20,  3.53it/s] 43%|████▎     | 159613/371472 [1:37:06<17:09:11,  3.43it/s] 43%|████▎     | 159614/371472 [1:37:06<17:52:14,  3.29it/s] 43%|████▎     | 159615/371472 [1:37:07<17:47:03,  3.31it/s] 43%|████▎     | 159616/371472 [1:37:07<17:44:39,  3.32it/s] 43%|████▎     | 159617/371472 [1:37:07<17:37:07,  3.34it/s] 43%|████▎     | 159618/371472 [1:37:08<17:08:17,  3.43it/s] 43%|████▎     | 159619/371472 [1:37:08<17:13:18,  3.42it/s] 43%|████▎     | 159620/371472 [1:37:08<16:37:02,  3.54it/s]                                                            {'loss': 3.1552, 'learning_rate': 6.135501734577344e-07, 'epoch': 6.88}
 43%|████▎     | 159620/371472 [1:37:08<16:37:02,  3.54it/s] 43%|████▎     | 159621/371472 [1:37:08<16:09:50,  3.64it/s] 43%|████▎     | 159622/371472 [1:37:09<16:22:17,  3.59it/s] 43%|████▎     | 159623/371472 [1:37:09<17:01:30,  3.46it/s] 43%|████▎     | 159624/371472 [1:37:09<18:32:00,  3.18it/s] 43%|████▎     | 159625/371472 [1:37:10<18:38:18,  3.16it/s] 43%|████▎     | 159626/371472 [1:37:10<18:54:00,  3.11it/s] 43%|████▎     | 159627/371472 [1:37:10<18:06:29,  3.25it/s] 43%|████▎     | 159628/371472 [1:37:10<17:06:52,  3.44it/s] 43%|████▎     | 159629/371472 [1:37:11<16:37:42,  3.54it/s] 43%|████▎     | 159630/371472 [1:37:11<16:33:27,  3.55it/s] 43%|████▎     | 159631/371472 [1:37:11<17:38:06,  3.34it/s] 43%|████▎     | 159632/371472 [1:37:12<17:56:50,  3.28it/s] 43%|████▎     | 159633/371472 [1:37:12<18:04:22,  3.26it/s] 43%|████▎     | 159634/371472 [1:37:12<17:35:02,  3.35it/s] 43%|████▎     | 159635/371472 [1:37:13<17:14:16,  3.41it/s] 43%|████▎     | 159636/371472 [1:37:13<17:27:35,  3.37it/s] 43%|████▎     | 159637/371472 [1:37:13<17:05:59,  3.44it/s] 43%|████▎     | 159638/371472 [1:37:13<17:01:31,  3.46it/s] 43%|████▎     | 159639/371472 [1:37:14<16:36:58,  3.54it/s] 43%|████▎     | 159640/371472 [1:37:14<16:02:50,  3.67it/s]                                                            {'loss': 3.1677, 'learning_rate': 6.135016914822556e-07, 'epoch': 6.88}
 43%|████▎     | 159640/371472 [1:37:14<16:02:50,  3.67it/s] 43%|████▎     | 159641/371472 [1:37:14<16:02:30,  3.67it/s] 43%|████▎     | 159642/371472 [1:37:14<16:13:26,  3.63it/s] 43%|████▎     | 159643/371472 [1:37:15<16:00:41,  3.67it/s] 43%|████▎     | 159644/371472 [1:37:15<17:20:11,  3.39it/s] 43%|████▎     | 159645/371472 [1:37:15<16:52:11,  3.49it/s] 43%|████▎     | 159646/371472 [1:37:16<16:31:15,  3.56it/s] 43%|████▎     | 159647/371472 [1:37:16<16:36:40,  3.54it/s] 43%|████▎     | 159648/371472 [1:37:16<16:20:42,  3.60it/s] 43%|████▎     | 159649/371472 [1:37:17<20:48:12,  2.83it/s] 43%|████▎     | 159650/371472 [1:37:17<18:57:38,  3.10it/s] 43%|████▎     | 159651/371472 [1:37:17<18:14:11,  3.23it/s] 43%|████▎     | 159652/371472 [1:37:17<17:11:23,  3.42it/s] 43%|████▎     | 159653/371472 [1:37:18<17:06:57,  3.44it/s] 43%|████▎     | 159654/371472 [1:37:18<17:34:37,  3.35it/s] 43%|████▎     | 159655/371472 [1:37:18<16:54:43,  3.48it/s] 43%|████▎     | 159656/371472 [1:37:19<17:04:16,  3.45it/s] 43%|████▎     | 159657/371472 [1:37:19<16:56:36,  3.47it/s] 43%|████▎     | 159658/371472 [1:37:19<16:26:13,  3.58it/s] 43%|████▎     | 159659/371472 [1:37:20<17:26:18,  3.37it/s] 43%|████▎     | 159660/371472 [1:37:20<17:31:13,  3.36it/s]                                                            {'loss': 3.1246, 'learning_rate': 6.134532095067768e-07, 'epoch': 6.88}
 43%|████▎     | 159660/371472 [1:37:20<17:31:13,  3.36it/s] 43%|████▎     | 159661/371472 [1:37:20<17:20:09,  3.39it/s] 43%|████▎     | 159662/371472 [1:37:20<16:39:49,  3.53it/s] 43%|████▎     | 159663/371472 [1:37:21<16:59:36,  3.46it/s] 43%|████▎     | 159664/371472 [1:37:21<16:38:08,  3.54it/s] 43%|████▎     | 159665/371472 [1:37:21<15:54:07,  3.70it/s] 43%|████▎     | 159666/371472 [1:37:22<17:11:43,  3.42it/s] 43%|████▎     | 159667/371472 [1:37:22<16:57:53,  3.47it/s] 43%|████▎     | 159668/371472 [1:37:22<17:44:38,  3.32it/s] 43%|████▎     | 159669/371472 [1:37:22<16:46:00,  3.51it/s] 43%|████▎     | 159670/371472 [1:37:23<16:12:31,  3.63it/s] 43%|████▎     | 159671/371472 [1:37:23<15:50:43,  3.71it/s] 43%|████▎     | 159672/371472 [1:37:23<16:30:36,  3.56it/s] 43%|████▎     | 159673/371472 [1:37:23<16:33:43,  3.55it/s] 43%|████▎     | 159674/371472 [1:37:24<16:01:55,  3.67it/s] 43%|████▎     | 159675/371472 [1:37:24<16:32:21,  3.56it/s] 43%|████▎     | 159676/371472 [1:37:24<18:01:40,  3.26it/s] 43%|████▎     | 159677/371472 [1:37:25<17:41:31,  3.33it/s] 43%|████▎     | 159678/371472 [1:37:25<17:13:50,  3.41it/s] 43%|████▎     | 159679/371472 [1:37:25<16:43:19,  3.52it/s] 43%|████▎     | 159680/371472 [1:37:26<17:00:01,  3.46it/s]                                                            {'loss': 3.1294, 'learning_rate': 6.134047275312977e-07, 'epoch': 6.88}
 43%|████▎     | 159680/371472 [1:37:26<17:00:01,  3.46it/s] 43%|████▎     | 159681/371472 [1:37:26<16:47:17,  3.50it/s] 43%|████▎     | 159682/371472 [1:37:26<16:09:27,  3.64it/s] 43%|████▎     | 159683/371472 [1:37:26<15:51:41,  3.71it/s] 43%|████▎     | 159684/371472 [1:37:27<15:37:12,  3.77it/s] 43%|████▎     | 159685/371472 [1:37:27<15:45:03,  3.73it/s] 43%|████▎     | 159686/371472 [1:37:27<17:20:29,  3.39it/s] 43%|████▎     | 159687/371472 [1:37:27<16:58:50,  3.46it/s] 43%|████▎     | 159688/371472 [1:37:28<17:16:46,  3.40it/s] 43%|████▎     | 159689/371472 [1:37:28<17:28:41,  3.37it/s] 43%|████▎     | 159690/371472 [1:37:28<18:08:00,  3.24it/s] 43%|████▎     | 159691/371472 [1:37:29<17:14:41,  3.41it/s] 43%|████▎     | 159692/371472 [1:37:29<16:53:19,  3.48it/s] 43%|████▎     | 159693/371472 [1:37:29<16:17:43,  3.61it/s] 43%|████▎     | 159694/371472 [1:37:29<15:44:45,  3.74it/s] 43%|████▎     | 159695/371472 [1:37:30<15:29:34,  3.80it/s] 43%|████▎     | 159696/371472 [1:37:30<16:57:44,  3.47it/s] 43%|████▎     | 159697/371472 [1:37:30<17:18:57,  3.40it/s] 43%|████▎     | 159698/371472 [1:37:31<16:38:18,  3.54it/s] 43%|████▎     | 159699/371472 [1:37:31<17:20:50,  3.39it/s] 43%|████▎     | 159700/371472 [1:37:31<17:14:45,  3.41it/s]                                                            {'loss': 3.2126, 'learning_rate': 6.133562455558188e-07, 'epoch': 6.88}
 43%|████▎     | 159700/371472 [1:37:31<17:14:45,  3.41it/s] 43%|████▎     | 159701/371472 [1:37:32<17:56:04,  3.28it/s] 43%|████▎     | 159702/371472 [1:37:32<18:33:52,  3.17it/s] 43%|████▎     | 159703/371472 [1:37:32<17:40:57,  3.33it/s] 43%|████▎     | 159704/371472 [1:37:32<16:51:54,  3.49it/s] 43%|████▎     | 159705/371472 [1:37:33<16:45:34,  3.51it/s] 43%|████▎     | 159706/371472 [1:37:33<16:33:44,  3.55it/s] 43%|████▎     | 159707/371472 [1:37:33<16:03:13,  3.66it/s] 43%|████▎     | 159708/371472 [1:37:34<16:43:21,  3.52it/s] 43%|████▎     | 159709/371472 [1:37:34<16:27:55,  3.57it/s] 43%|████▎     | 159710/371472 [1:37:34<16:19:45,  3.60it/s] 43%|████▎     | 159711/371472 [1:37:34<17:00:32,  3.46it/s] 43%|████▎     | 159712/371472 [1:37:35<17:49:30,  3.30it/s] 43%|████▎     | 159713/371472 [1:37:35<17:20:56,  3.39it/s] 43%|████▎     | 159714/371472 [1:37:35<16:59:44,  3.46it/s] 43%|████▎     | 159715/371472 [1:37:36<17:18:30,  3.40it/s] 43%|████▎     | 159716/371472 [1:37:36<17:42:22,  3.32it/s] 43%|████▎     | 159717/371472 [1:37:36<17:43:29,  3.32it/s] 43%|████▎     | 159718/371472 [1:37:36<16:54:05,  3.48it/s] 43%|████▎     | 159719/371472 [1:37:37<16:55:12,  3.48it/s] 43%|████▎     | 159720/371472 [1:37:37<16:46:58,  3.50it/s]                                                            {'loss': 3.2792, 'learning_rate': 6.1330776358034e-07, 'epoch': 6.88}
 43%|████▎     | 159720/371472 [1:37:37<16:46:58,  3.50it/s] 43%|████▎     | 159721/371472 [1:37:37<16:40:04,  3.53it/s] 43%|████▎     | 159722/371472 [1:37:38<16:20:49,  3.60it/s] 43%|████▎     | 159723/371472 [1:37:38<16:02:50,  3.67it/s] 43%|████▎     | 159724/371472 [1:37:38<16:07:40,  3.65it/s] 43%|████▎     | 159725/371472 [1:37:38<17:22:57,  3.38it/s] 43%|████▎     | 159726/371472 [1:37:39<16:52:09,  3.49it/s] 43%|████▎     | 159727/371472 [1:37:39<16:43:57,  3.52it/s] 43%|████▎     | 159728/371472 [1:37:39<17:16:44,  3.40it/s] 43%|████▎     | 159729/371472 [1:37:40<17:17:58,  3.40it/s] 43%|████▎     | 159730/371472 [1:37:40<17:01:29,  3.45it/s] 43%|████▎     | 159731/371472 [1:37:40<16:38:19,  3.53it/s] 43%|████▎     | 159732/371472 [1:37:40<15:53:27,  3.70it/s] 43%|████▎     | 159733/371472 [1:37:41<15:27:15,  3.81it/s] 43%|████▎     | 159734/371472 [1:37:41<16:09:25,  3.64it/s] 43%|████▎     | 159735/371472 [1:37:41<16:53:37,  3.48it/s] 43%|████▎     | 159736/371472 [1:37:42<16:11:16,  3.63it/s] 43%|████▎     | 159737/371472 [1:37:42<16:22:48,  3.59it/s] 43%|████▎     | 159738/371472 [1:37:42<16:19:29,  3.60it/s] 43%|████▎     | 159739/371472 [1:37:42<16:14:54,  3.62it/s] 43%|████▎     | 159740/371472 [1:37:43<16:27:05,  3.57it/s]                                                            {'loss': 3.0536, 'learning_rate': 6.132592816048612e-07, 'epoch': 6.88}
 43%|████▎     | 159740/371472 [1:37:43<16:27:05,  3.57it/s] 43%|████▎     | 159741/371472 [1:37:43<17:39:19,  3.33it/s] 43%|████▎     | 159742/371472 [1:37:43<16:48:58,  3.50it/s] 43%|████▎     | 159743/371472 [1:37:44<17:08:50,  3.43it/s] 43%|████▎     | 159744/371472 [1:37:44<17:22:41,  3.38it/s] 43%|████▎     | 159745/371472 [1:37:44<17:06:21,  3.44it/s] 43%|████▎     | 159746/371472 [1:37:44<16:43:28,  3.52it/s] 43%|████▎     | 159747/371472 [1:37:45<16:24:42,  3.58it/s] 43%|████▎     | 159748/371472 [1:37:45<17:01:28,  3.45it/s] 43%|████▎     | 159749/371472 [1:37:45<18:04:54,  3.25it/s] 43%|████▎     | 159750/371472 [1:37:46<18:03:10,  3.26it/s] 43%|████▎     | 159751/371472 [1:37:46<18:10:47,  3.23it/s] 43%|████▎     | 159752/371472 [1:37:46<17:43:53,  3.32it/s] 43%|████▎     | 159753/371472 [1:37:47<17:13:53,  3.41it/s] 43%|████▎     | 159754/371472 [1:37:47<17:22:30,  3.38it/s] 43%|████▎     | 159755/371472 [1:37:47<16:56:38,  3.47it/s] 43%|████▎     | 159756/371472 [1:37:47<16:22:46,  3.59it/s] 43%|████▎     | 159757/371472 [1:37:48<16:47:16,  3.50it/s] 43%|████▎     | 159758/371472 [1:37:48<17:56:45,  3.28it/s] 43%|████▎     | 159759/371472 [1:37:48<17:00:47,  3.46it/s] 43%|████▎     | 159760/371472 [1:37:48<16:26:50,  3.58it/s]                                                            {'loss': 3.1712, 'learning_rate': 6.132107996293822e-07, 'epoch': 6.88}
 43%|████▎     | 159760/371472 [1:37:48<16:26:50,  3.58it/s] 43%|████▎     | 159761/371472 [1:37:49<16:48:15,  3.50it/s] 43%|████▎     | 159762/371472 [1:37:49<18:36:16,  3.16it/s] 43%|████▎     | 159763/371472 [1:37:50<19:23:27,  3.03it/s] 43%|████▎     | 159764/371472 [1:37:50<18:36:24,  3.16it/s] 43%|████▎     | 159765/371472 [1:37:50<19:55:24,  2.95it/s] 43%|████▎     | 159766/371472 [1:37:50<18:21:53,  3.20it/s] 43%|████▎     | 159767/371472 [1:37:51<17:14:01,  3.41it/s] 43%|████▎     | 159768/371472 [1:37:51<16:54:36,  3.48it/s] 43%|████▎     | 159769/371472 [1:37:51<16:29:56,  3.56it/s] 43%|████▎     | 159770/371472 [1:37:52<17:11:20,  3.42it/s] 43%|████▎     | 159771/371472 [1:37:52<16:54:01,  3.48it/s] 43%|████▎     | 159772/371472 [1:37:52<17:27:54,  3.37it/s] 43%|████▎     | 159773/371472 [1:37:52<17:30:53,  3.36it/s] 43%|████▎     | 159774/371472 [1:37:53<17:27:18,  3.37it/s] 43%|████▎     | 159775/371472 [1:37:53<17:25:51,  3.37it/s] 43%|████▎     | 159776/371472 [1:37:53<17:28:45,  3.36it/s] 43%|████▎     | 159777/371472 [1:37:54<16:31:45,  3.56it/s] 43%|████▎     | 159778/371472 [1:37:54<16:54:21,  3.48it/s] 43%|████▎     | 159779/371472 [1:37:54<18:17:21,  3.22it/s] 43%|████▎     | 159780/371472 [1:37:55<17:47:43,  3.30it/s]                                                            {'loss': 3.08, 'learning_rate': 6.131623176539033e-07, 'epoch': 6.88}
 43%|████▎     | 159780/371472 [1:37:55<17:47:43,  3.30it/s] 43%|████▎     | 159781/371472 [1:37:55<18:18:47,  3.21it/s] 43%|████▎     | 159782/371472 [1:37:55<17:51:58,  3.29it/s] 43%|████▎     | 159783/371472 [1:37:55<18:06:20,  3.25it/s] 43%|████▎     | 159784/371472 [1:37:56<17:50:58,  3.29it/s] 43%|████▎     | 159785/371472 [1:37:56<16:59:21,  3.46it/s] 43%|████▎     | 159786/371472 [1:37:56<17:43:19,  3.32it/s] 43%|████▎     | 159787/371472 [1:37:57<17:45:05,  3.31it/s] 43%|████▎     | 159788/371472 [1:37:57<17:27:12,  3.37it/s] 43%|████▎     | 159789/371472 [1:37:57<16:29:59,  3.56it/s] 43%|████▎     | 159790/371472 [1:37:57<16:27:09,  3.57it/s] 43%|████▎     | 159791/371472 [1:37:58<16:14:24,  3.62it/s] 43%|████▎     | 159792/371472 [1:37:58<16:56:48,  3.47it/s] 43%|████▎     | 159793/371472 [1:37:58<16:38:29,  3.53it/s] 43%|████▎     | 159794/371472 [1:37:59<17:30:59,  3.36it/s] 43%|████▎     | 159795/371472 [1:37:59<16:57:23,  3.47it/s] 43%|████▎     | 159796/371472 [1:37:59<18:33:16,  3.17it/s] 43%|████▎     | 159797/371472 [1:38:00<17:54:28,  3.28it/s] 43%|████▎     | 159798/371472 [1:38:00<17:04:07,  3.44it/s] 43%|████▎     | 159799/371472 [1:38:00<16:38:41,  3.53it/s] 43%|████▎     | 159800/371472 [1:38:00<15:58:28,  3.68it/s]                                                            {'loss': 3.1411, 'learning_rate': 6.131138356784245e-07, 'epoch': 6.88}
 43%|████▎     | 159800/371472 [1:38:00<15:58:28,  3.68it/s] 43%|████▎     | 159801/371472 [1:38:01<15:35:03,  3.77it/s] 43%|████▎     | 159802/371472 [1:38:01<17:06:46,  3.44it/s] 43%|████▎     | 159803/371472 [1:38:01<16:38:14,  3.53it/s] 43%|████▎     | 159804/371472 [1:38:01<16:19:44,  3.60it/s] 43%|████▎     | 159805/371472 [1:38:02<17:01:27,  3.45it/s] 43%|████▎     | 159806/371472 [1:38:02<16:04:08,  3.66it/s] 43%|████▎     | 159807/371472 [1:38:02<16:13:26,  3.62it/s] 43%|████▎     | 159808/371472 [1:38:03<15:54:06,  3.70it/s] 43%|████▎     | 159809/371472 [1:38:03<15:19:47,  3.84it/s] 43%|████▎     | 159810/371472 [1:38:03<15:15:21,  3.85it/s] 43%|████▎     | 159811/371472 [1:38:03<15:45:19,  3.73it/s] 43%|████▎     | 159812/371472 [1:38:04<15:40:00,  3.75it/s] 43%|████▎     | 159813/371472 [1:38:04<15:23:29,  3.82it/s] 43%|████▎     | 159814/371472 [1:38:04<15:22:18,  3.82it/s] 43%|████▎     | 159815/371472 [1:38:04<16:08:53,  3.64it/s] 43%|████▎     | 159816/371472 [1:38:05<15:50:02,  3.71it/s] 43%|████▎     | 159817/371472 [1:38:05<17:13:15,  3.41it/s] 43%|████▎     | 159818/371472 [1:38:05<16:59:49,  3.46it/s] 43%|████▎     | 159819/371472 [1:38:06<16:39:53,  3.53it/s] 43%|████▎     | 159820/371472 [1:38:06<16:31:48,  3.56it/s]                                                            {'loss': 3.1464, 'learning_rate': 6.130653537029455e-07, 'epoch': 6.88}
 43%|████▎     | 159820/371472 [1:38:06<16:31:48,  3.56it/s] 43%|████▎     | 159821/371472 [1:38:06<16:03:48,  3.66it/s] 43%|████▎     | 159822/371472 [1:38:07<17:52:04,  3.29it/s] 43%|████▎     | 159823/371472 [1:38:07<18:54:21,  3.11it/s] 43%|████▎     | 159824/371472 [1:38:07<18:22:08,  3.20it/s] 43%|████▎     | 159825/371472 [1:38:07<18:19:07,  3.21it/s] 43%|████▎     | 159826/371472 [1:38:08<17:41:25,  3.32it/s] 43%|████▎     | 159827/371472 [1:38:08<17:06:25,  3.44it/s] 43%|████▎     | 159828/371472 [1:38:08<16:33:01,  3.55it/s] 43%|████▎     | 159829/371472 [1:38:09<17:16:02,  3.40it/s] 43%|████▎     | 159830/371472 [1:38:09<17:07:22,  3.43it/s] 43%|████▎     | 159831/371472 [1:38:09<16:34:33,  3.55it/s] 43%|████▎     | 159832/371472 [1:38:09<16:29:19,  3.57it/s] 43%|████▎     | 159833/371472 [1:38:10<16:14:41,  3.62it/s] 43%|████▎     | 159834/371472 [1:38:10<15:55:43,  3.69it/s] 43%|████▎     | 159835/371472 [1:38:10<16:04:15,  3.66it/s] 43%|████▎     | 159836/371472 [1:38:11<16:12:29,  3.63it/s] 43%|████▎     | 159837/371472 [1:38:11<16:13:32,  3.62it/s] 43%|████▎     | 159838/371472 [1:38:11<16:37:16,  3.54it/s] 43%|████▎     | 159839/371472 [1:38:11<18:38:21,  3.15it/s] 43%|████▎     | 159840/371472 [1:38:12<17:14:01,  3.41it/s]                                                            {'loss': 3.1362, 'learning_rate': 6.130168717274666e-07, 'epoch': 6.88}
 43%|████▎     | 159840/371472 [1:38:12<17:14:01,  3.41it/s] 43%|████▎     | 159841/371472 [1:38:12<16:39:24,  3.53it/s] 43%|████▎     | 159842/371472 [1:38:12<16:25:29,  3.58it/s] 43%|████▎     | 159843/371472 [1:38:13<18:00:27,  3.26it/s] 43%|████▎     | 159844/371472 [1:38:13<17:48:34,  3.30it/s] 43%|████▎     | 159845/371472 [1:38:13<17:21:07,  3.39it/s] 43%|████▎     | 159846/371472 [1:38:13<17:13:59,  3.41it/s] 43%|████▎     | 159847/371472 [1:38:14<17:26:07,  3.37it/s] 43%|████▎     | 159848/371472 [1:38:14<16:55:17,  3.47it/s] 43%|████▎     | 159849/371472 [1:38:14<16:50:10,  3.49it/s] 43%|████▎     | 159850/371472 [1:38:15<16:40:37,  3.52it/s] 43%|████▎     | 159851/371472 [1:38:15<16:41:57,  3.52it/s] 43%|████▎     | 159852/371472 [1:38:15<16:20:26,  3.60it/s] 43%|████▎     | 159853/371472 [1:38:15<16:34:04,  3.55it/s] 43%|████▎     | 159854/371472 [1:38:16<16:05:52,  3.65it/s] 43%|████▎     | 159855/371472 [1:38:16<16:03:43,  3.66it/s] 43%|████▎     | 159856/371472 [1:38:16<16:03:45,  3.66it/s] 43%|████▎     | 159857/371472 [1:38:17<16:03:45,  3.66it/s] 43%|████▎     | 159858/371472 [1:38:17<16:28:19,  3.57it/s] 43%|████▎     | 159859/371472 [1:38:17<18:30:49,  3.18it/s] 43%|████▎     | 159860/371472 [1:38:17<17:57:49,  3.27it/s]                                                            {'loss': 3.3541, 'learning_rate': 6.129683897519877e-07, 'epoch': 6.89}
 43%|████▎     | 159860/371472 [1:38:18<17:57:49,  3.27it/s] 43%|████▎     | 159861/371472 [1:38:18<20:31:14,  2.86it/s] 43%|████▎     | 159862/371472 [1:38:18<19:52:25,  2.96it/s] 43%|████▎     | 159863/371472 [1:38:19<18:32:49,  3.17it/s] 43%|████▎     | 159864/371472 [1:38:19<18:23:13,  3.20it/s] 43%|████▎     | 159865/371472 [1:38:19<17:42:12,  3.32it/s] 43%|████▎     | 159866/371472 [1:38:19<18:00:40,  3.26it/s] 43%|████▎     | 159867/371472 [1:38:20<17:20:44,  3.39it/s] 43%|████▎     | 159868/371472 [1:38:20<17:30:04,  3.36it/s] 43%|████▎     | 159869/371472 [1:38:20<17:36:21,  3.34it/s] 43%|████▎     | 159870/371472 [1:38:21<16:33:56,  3.55it/s] 43%|████▎     | 159871/371472 [1:38:21<16:27:42,  3.57it/s] 43%|████▎     | 159872/371472 [1:38:21<16:31:22,  3.56it/s] 43%|████▎     | 159873/371472 [1:38:21<17:17:14,  3.40it/s] 43%|████▎     | 159874/371472 [1:38:22<16:43:43,  3.51it/s] 43%|████▎     | 159875/371472 [1:38:22<16:29:36,  3.56it/s] 43%|████▎     | 159876/371472 [1:38:22<17:03:58,  3.44it/s] 43%|████▎     | 159877/371472 [1:38:23<16:41:55,  3.52it/s] 43%|████▎     | 159878/371472 [1:38:23<15:58:09,  3.68it/s] 43%|████▎     | 159879/371472 [1:38:23<16:47:17,  3.50it/s] 43%|████▎     | 159880/371472 [1:38:23<16:57:35,  3.47it/s]                                                            {'loss': 3.3915, 'learning_rate': 6.129199077765088e-07, 'epoch': 6.89}
 43%|████▎     | 159880/371472 [1:38:23<16:57:35,  3.47it/s] 43%|████▎     | 159881/371472 [1:38:24<17:22:09,  3.38it/s] 43%|████▎     | 159882/371472 [1:38:24<17:17:40,  3.40it/s] 43%|████▎     | 159883/371472 [1:38:24<17:10:28,  3.42it/s] 43%|████▎     | 159884/371472 [1:38:25<17:07:42,  3.43it/s] 43%|████▎     | 159885/371472 [1:38:25<17:31:32,  3.35it/s] 43%|████▎     | 159886/371472 [1:38:25<17:23:04,  3.38it/s] 43%|████▎     | 159887/371472 [1:38:25<17:17:26,  3.40it/s] 43%|████▎     | 159888/371472 [1:38:26<16:45:27,  3.51it/s] 43%|████▎     | 159889/371472 [1:38:26<16:49:02,  3.49it/s] 43%|████▎     | 159890/371472 [1:38:26<16:52:19,  3.48it/s] 43%|████▎     | 159891/371472 [1:38:27<16:41:34,  3.52it/s] 43%|████▎     | 159892/371472 [1:38:27<16:26:25,  3.57it/s] 43%|████▎     | 159893/371472 [1:38:27<16:01:07,  3.67it/s] 43%|████▎     | 159894/371472 [1:38:27<15:33:54,  3.78it/s] 43%|████▎     | 159895/371472 [1:38:28<15:26:01,  3.81it/s] 43%|████▎     | 159896/371472 [1:38:28<17:03:36,  3.44it/s] 43%|████▎     | 159897/371472 [1:38:28<16:18:35,  3.60it/s] 43%|████▎     | 159898/371472 [1:38:29<16:53:04,  3.48it/s] 43%|████▎     | 159899/371472 [1:38:29<16:46:29,  3.50it/s] 43%|████▎     | 159900/371472 [1:38:29<16:25:29,  3.58it/s]                                                            {'loss': 3.0589, 'learning_rate': 6.1287142580103e-07, 'epoch': 6.89}
 43%|████▎     | 159900/371472 [1:38:29<16:25:29,  3.58it/s] 43%|████▎     | 159901/371472 [1:38:29<16:09:15,  3.64it/s] 43%|████▎     | 159902/371472 [1:38:30<17:07:18,  3.43it/s] 43%|████▎     | 159903/371472 [1:38:30<18:21:23,  3.20it/s] 43%|████▎     | 159904/371472 [1:38:30<17:33:50,  3.35it/s] 43%|████▎     | 159905/371472 [1:38:31<17:04:08,  3.44it/s] 43%|████▎     | 159906/371472 [1:38:31<17:18:20,  3.40it/s] 43%|████▎     | 159907/371472 [1:38:31<17:17:06,  3.40it/s] 43%|████▎     | 159908/371472 [1:38:31<16:58:29,  3.46it/s] 43%|████▎     | 159909/371472 [1:38:32<16:39:34,  3.53it/s] 43%|████▎     | 159910/371472 [1:38:32<16:43:56,  3.51it/s] 43%|████▎     | 159911/371472 [1:38:32<16:41:13,  3.52it/s] 43%|████▎     | 159912/371472 [1:38:33<16:16:18,  3.61it/s] 43%|████▎     | 159913/371472 [1:38:33<16:36:51,  3.54it/s] 43%|████▎     | 159914/371472 [1:38:33<16:16:09,  3.61it/s] 43%|████▎     | 159915/371472 [1:38:33<16:21:54,  3.59it/s] 43%|████▎     | 159916/371472 [1:38:34<15:49:31,  3.71it/s] 43%|████▎     | 159917/371472 [1:38:34<16:11:31,  3.63it/s] 43%|████▎     | 159918/371472 [1:38:34<16:01:49,  3.67it/s] 43%|████▎     | 159919/371472 [1:38:34<16:31:35,  3.56it/s] 43%|████▎     | 159920/371472 [1:38:35<16:19:06,  3.60it/s]                                                            {'loss': 3.1637, 'learning_rate': 6.128229438255511e-07, 'epoch': 6.89}
 43%|████▎     | 159920/371472 [1:38:35<16:19:06,  3.60it/s] 43%|████▎     | 159921/371472 [1:38:35<16:49:54,  3.49it/s] 43%|████▎     | 159922/371472 [1:38:35<16:54:07,  3.48it/s] 43%|████▎     | 159923/371472 [1:38:36<16:31:26,  3.56it/s] 43%|████▎     | 159924/371472 [1:38:36<16:54:58,  3.47it/s] 43%|████▎     | 159925/371472 [1:38:36<16:55:45,  3.47it/s] 43%|████▎     | 159926/371472 [1:38:36<16:10:33,  3.63it/s] 43%|████▎     | 159927/371472 [1:38:37<17:02:16,  3.45it/s] 43%|████▎     | 159928/371472 [1:38:37<18:31:14,  3.17it/s] 43%|████▎     | 159929/371472 [1:38:37<17:38:46,  3.33it/s] 43%|████▎     | 159930/371472 [1:38:38<17:06:57,  3.43it/s] 43%|████▎     | 159931/371472 [1:38:38<18:06:45,  3.24it/s] 43%|████▎     | 159932/371472 [1:38:38<17:25:19,  3.37it/s] 43%|████▎     | 159933/371472 [1:38:39<19:33:03,  3.01it/s] 43%|████▎     | 159934/371472 [1:38:39<19:04:43,  3.08it/s] 43%|████▎     | 159935/371472 [1:38:39<17:40:11,  3.33it/s] 43%|████▎     | 159936/371472 [1:38:40<18:14:43,  3.22it/s] 43%|████▎     | 159937/371472 [1:38:40<17:14:05,  3.41it/s] 43%|████▎     | 159938/371472 [1:38:40<17:24:25,  3.38it/s] 43%|████▎     | 159939/371472 [1:38:40<17:02:45,  3.45it/s] 43%|████▎     | 159940/371472 [1:38:41<17:12:36,  3.41it/s]                                                            {'loss': 3.1317, 'learning_rate': 6.127744618500721e-07, 'epoch': 6.89}
 43%|████▎     | 159940/371472 [1:38:41<17:12:36,  3.41it/s] 43%|████▎     | 159941/371472 [1:38:41<16:47:25,  3.50it/s] 43%|████▎     | 159942/371472 [1:38:41<16:06:18,  3.65it/s] 43%|████▎     | 159943/371472 [1:38:42<16:07:48,  3.64it/s] 43%|████▎     | 159944/371472 [1:38:42<15:49:11,  3.71it/s] 43%|████▎     | 159945/371472 [1:38:42<16:27:56,  3.57it/s] 43%|████▎     | 159946/371472 [1:38:42<16:03:13,  3.66it/s] 43%|████▎     | 159947/371472 [1:38:43<15:51:50,  3.70it/s] 43%|████▎     | 159948/371472 [1:38:43<17:01:59,  3.45it/s] 43%|████▎     | 159949/371472 [1:38:43<17:52:21,  3.29it/s] 43%|████▎     | 159950/371472 [1:38:44<17:24:01,  3.38it/s] 43%|████▎     | 159951/371472 [1:38:44<16:54:47,  3.47it/s] 43%|████▎     | 159952/371472 [1:38:44<16:16:28,  3.61it/s] 43%|████▎     | 159953/371472 [1:38:44<15:54:08,  3.69it/s] 43%|████▎     | 159954/371472 [1:38:45<16:19:25,  3.60it/s] 43%|████▎     | 159955/371472 [1:38:45<15:53:30,  3.70it/s] 43%|████▎     | 159956/371472 [1:38:45<15:38:46,  3.76it/s] 43%|████▎     | 159957/371472 [1:38:45<15:38:59,  3.75it/s] 43%|████▎     | 159958/371472 [1:38:46<15:30:04,  3.79it/s] 43%|████▎     | 159959/371472 [1:38:46<15:22:50,  3.82it/s] 43%|████▎     | 159960/371472 [1:38:46<15:52:10,  3.70it/s]                                                            {'loss': 3.1302, 'learning_rate': 6.127259798745933e-07, 'epoch': 6.89}
 43%|████▎     | 159960/371472 [1:38:46<15:52:10,  3.70it/s] 43%|████▎     | 159961/371472 [1:38:47<16:23:04,  3.59it/s] 43%|████▎     | 159962/371472 [1:38:47<16:53:47,  3.48it/s] 43%|████▎     | 159963/371472 [1:38:47<16:46:22,  3.50it/s] 43%|████▎     | 159964/371472 [1:38:47<16:11:06,  3.63it/s] 43%|████▎     | 159965/371472 [1:38:48<16:32:14,  3.55it/s] 43%|████▎     | 159966/371472 [1:38:48<16:30:32,  3.56it/s] 43%|████▎     | 159967/371472 [1:38:48<16:09:32,  3.64it/s] 43%|████▎     | 159968/371472 [1:38:48<15:48:19,  3.72it/s] 43%|████▎     | 159969/371472 [1:38:49<15:50:20,  3.71it/s] 43%|████▎     | 159970/371472 [1:38:49<15:39:13,  3.75it/s] 43%|████▎     | 159971/371472 [1:38:49<15:31:10,  3.79it/s] 43%|████▎     | 159972/371472 [1:38:50<15:39:41,  3.75it/s] 43%|████▎     | 159973/371472 [1:38:50<16:07:23,  3.64it/s] 43%|████▎     | 159974/371472 [1:38:50<16:04:27,  3.65it/s] 43%|████▎     | 159975/371472 [1:38:50<15:49:40,  3.71it/s] 43%|████▎     | 159976/371472 [1:38:51<15:50:35,  3.71it/s] 43%|████▎     | 159977/371472 [1:38:51<15:49:58,  3.71it/s] 43%|████▎     | 159978/371472 [1:38:51<15:44:40,  3.73it/s] 43%|████▎     | 159979/371472 [1:38:51<15:43:21,  3.74it/s] 43%|████▎     | 159980/371472 [1:38:52<17:01:27,  3.45it/s]                                                            {'loss': 3.2203, 'learning_rate': 6.126774978991143e-07, 'epoch': 6.89}
 43%|████▎     | 159980/371472 [1:38:52<17:01:27,  3.45it/s] 43%|████▎     | 159981/371472 [1:38:52<16:52:30,  3.48it/s] 43%|████▎     | 159982/371472 [1:38:52<16:36:55,  3.54it/s] 43%|████▎     | 159983/371472 [1:38:53<16:21:59,  3.59it/s] 43%|████▎     | 159984/371472 [1:38:53<15:56:59,  3.68it/s] 43%|████▎     | 159985/371472 [1:38:53<17:27:14,  3.37it/s] 43%|████▎     | 159986/371472 [1:38:53<16:58:49,  3.46it/s] 43%|████▎     | 159987/371472 [1:38:54<16:35:06,  3.54it/s] 43%|████▎     | 159988/371472 [1:38:54<16:47:37,  3.50it/s] 43%|████▎     | 159989/371472 [1:38:54<16:31:51,  3.55it/s] 43%|████▎     | 159990/371472 [1:38:55<16:49:49,  3.49it/s] 43%|████▎     | 159991/371472 [1:38:55<16:42:21,  3.52it/s] 43%|████▎     | 159992/371472 [1:38:55<18:26:03,  3.19it/s] 43%|████▎     | 159993/371472 [1:38:56<17:58:48,  3.27it/s] 43%|████▎     | 159994/371472 [1:38:56<17:55:55,  3.28it/s] 43%|████▎     | 159995/371472 [1:38:56<18:47:50,  3.13it/s] 43%|████▎     | 159996/371472 [1:38:56<17:55:48,  3.28it/s] 43%|████▎     | 159997/371472 [1:38:57<17:21:57,  3.38it/s] 43%|████▎     | 159998/371472 [1:38:57<16:23:38,  3.58it/s] 43%|████▎     | 159999/371472 [1:38:57<15:42:29,  3.74it/s] 43%|████▎     | 160000/371472 [1:38:58<16:42:55,  3.51it/s]                                                            {'loss': 3.2599, 'learning_rate': 6.126290159236354e-07, 'epoch': 6.89}
 43%|████▎     | 160000/371472 [1:38:58<16:42:55,  3.51it/s] 43%|████▎     | 160001/371472 [1:38:58<16:48:03,  3.50it/s] 43%|████▎     | 160002/371472 [1:38:58<16:33:50,  3.55it/s] 43%|████▎     | 160003/371472 [1:38:58<16:27:55,  3.57it/s] 43%|████▎     | 160004/371472 [1:38:59<16:57:49,  3.46it/s] 43%|████▎     | 160005/371472 [1:38:59<16:28:43,  3.56it/s] 43%|████▎     | 160006/371472 [1:38:59<16:17:03,  3.61it/s] 43%|████▎     | 160007/371472 [1:38:59<15:52:10,  3.70it/s] 43%|████▎     | 160008/371472 [1:39:00<15:46:07,  3.73it/s] 43%|████▎     | 160009/371472 [1:39:00<15:19:54,  3.83it/s] 43%|████▎     | 160010/371472 [1:39:00<15:42:35,  3.74it/s] 43%|████▎     | 160011/371472 [1:39:01<15:42:55,  3.74it/s] 43%|████▎     | 160012/371472 [1:39:01<15:56:16,  3.69it/s] 43%|████▎     | 160013/371472 [1:39:01<15:54:11,  3.69it/s] 43%|████▎     | 160014/371472 [1:39:01<15:26:42,  3.80it/s] 43%|████▎     | 160015/371472 [1:39:02<15:57:56,  3.68it/s] 43%|████▎     | 160016/371472 [1:39:02<15:26:41,  3.80it/s] 43%|████▎     | 160017/371472 [1:39:02<15:35:58,  3.77it/s] 43%|████▎     | 160018/371472 [1:39:02<16:27:53,  3.57it/s] 43%|████▎     | 160019/371472 [1:39:03<17:54:08,  3.28it/s] 43%|████▎     | 160020/371472 [1:39:03<17:38:11,  3.33it/s]                                                            {'loss': 3.225, 'learning_rate': 6.125805339481566e-07, 'epoch': 6.89}
 43%|████▎     | 160020/371472 [1:39:03<17:38:11,  3.33it/s] 43%|████▎     | 160021/371472 [1:39:03<17:42:44,  3.32it/s] 43%|████▎     | 160022/371472 [1:39:04<17:17:33,  3.40it/s] 43%|████▎     | 160023/371472 [1:39:04<16:35:27,  3.54it/s] 43%|████▎     | 160024/371472 [1:39:04<17:35:18,  3.34it/s] 43%|████▎     | 160025/371472 [1:39:05<16:49:34,  3.49it/s] 43%|████▎     | 160026/371472 [1:39:05<16:35:36,  3.54it/s] 43%|████▎     | 160027/371472 [1:39:05<16:20:03,  3.60it/s] 43%|████▎     | 160028/371472 [1:39:05<16:15:13,  3.61it/s] 43%|████▎     | 160029/371472 [1:39:06<16:42:02,  3.52it/s] 43%|████▎     | 160030/371472 [1:39:06<17:27:08,  3.37it/s] 43%|████▎     | 160031/371472 [1:39:06<17:25:06,  3.37it/s] 43%|████▎     | 160032/371472 [1:39:07<17:37:16,  3.33it/s] 43%|████▎     | 160033/371472 [1:39:07<17:41:25,  3.32it/s] 43%|████▎     | 160034/371472 [1:39:07<18:26:41,  3.18it/s] 43%|████▎     | 160035/371472 [1:39:08<17:43:50,  3.31it/s] 43%|████▎     | 160036/371472 [1:39:08<16:49:52,  3.49it/s] 43%|████▎     | 160037/371472 [1:39:08<16:36:32,  3.54it/s] 43%|████▎     | 160038/371472 [1:39:08<16:02:40,  3.66it/s] 43%|████▎     | 160039/371472 [1:39:09<16:29:03,  3.56it/s] 43%|████▎     | 160040/371472 [1:39:09<17:02:39,  3.45it/s]                                                            {'loss': 3.1137, 'learning_rate': 6.125320519726778e-07, 'epoch': 6.89}
 43%|████▎     | 160040/371472 [1:39:09<17:02:39,  3.45it/s] 43%|████▎     | 160041/371472 [1:39:09<16:40:27,  3.52it/s] 43%|████▎     | 160042/371472 [1:39:09<16:19:08,  3.60it/s] 43%|████▎     | 160043/371472 [1:39:10<16:07:24,  3.64it/s] 43%|████▎     | 160044/371472 [1:39:10<15:49:58,  3.71it/s] 43%|████▎     | 160045/371472 [1:39:10<16:00:11,  3.67it/s] 43%|████▎     | 160046/371472 [1:39:11<16:09:15,  3.64it/s] 43%|████▎     | 160047/371472 [1:39:11<17:12:05,  3.41it/s] 43%|████▎     | 160048/371472 [1:39:11<16:32:29,  3.55it/s] 43%|████▎     | 160049/371472 [1:39:11<16:22:44,  3.59it/s] 43%|████▎     | 160050/371472 [1:39:12<16:03:37,  3.66it/s] 43%|████▎     | 160051/371472 [1:39:12<15:59:28,  3.67it/s] 43%|████▎     | 160052/371472 [1:39:12<15:42:35,  3.74it/s] 43%|████▎     | 160053/371472 [1:39:12<15:38:40,  3.75it/s] 43%|████▎     | 160054/371472 [1:39:13<15:28:21,  3.80it/s] 43%|████▎     | 160055/371472 [1:39:13<15:40:47,  3.75it/s] 43%|████▎     | 160056/371472 [1:39:13<15:27:20,  3.80it/s] 43%|████▎     | 160057/371472 [1:39:13<15:18:50,  3.83it/s] 43%|████▎     | 160058/371472 [1:39:14<15:42:49,  3.74it/s] 43%|████▎     | 160059/371472 [1:39:14<15:59:18,  3.67it/s] 43%|████▎     | 160060/371472 [1:39:14<15:47:11,  3.72it/s]                                                            {'loss': 3.288, 'learning_rate': 6.124835699971988e-07, 'epoch': 6.89}
 43%|████▎     | 160060/371472 [1:39:14<15:47:11,  3.72it/s] 43%|████▎     | 160061/371472 [1:39:15<15:32:46,  3.78it/s] 43%|████▎     | 160062/371472 [1:39:15<15:43:19,  3.74it/s] 43%|████▎     | 160063/371472 [1:39:15<17:09:30,  3.42it/s] 43%|████▎     | 160064/371472 [1:39:16<19:02:06,  3.09it/s] 43%|████▎     | 160065/371472 [1:39:16<24:01:45,  2.44it/s] 43%|████▎     | 160066/371472 [1:39:16<21:16:56,  2.76it/s] 43%|████▎     | 160067/371472 [1:39:17<20:57:51,  2.80it/s] 43%|████▎     | 160068/371472 [1:39:17<20:50:57,  2.82it/s] 43%|████▎     | 160069/371472 [1:39:17<19:32:42,  3.00it/s] 43%|████▎     | 160070/371472 [1:39:18<18:21:24,  3.20it/s] 43%|████▎     | 160071/371472 [1:39:18<17:36:38,  3.33it/s] 43%|████▎     | 160072/371472 [1:39:18<16:51:10,  3.48it/s] 43%|████▎     | 160073/371472 [1:39:18<16:22:36,  3.59it/s] 43%|████▎     | 160074/371472 [1:39:19<15:54:42,  3.69it/s] 43%|████▎     | 160075/371472 [1:39:19<16:05:26,  3.65it/s] 43%|████▎     | 160076/371472 [1:39:19<16:48:35,  3.49it/s] 43%|████▎     | 160077/371472 [1:39:20<17:07:59,  3.43it/s] 43%|████▎     | 160078/371472 [1:39:20<16:11:33,  3.63it/s] 43%|████▎     | 160079/371472 [1:39:20<17:08:42,  3.42it/s] 43%|████▎     | 160080/371472 [1:39:20<16:54:09,  3.47it/s]                                                            {'loss': 3.1524, 'learning_rate': 6.124350880217198e-07, 'epoch': 6.89}
 43%|████▎     | 160080/371472 [1:39:20<16:54:09,  3.47it/s] 43%|████▎     | 160081/371472 [1:39:21<17:12:22,  3.41it/s] 43%|████▎     | 160082/371472 [1:39:21<16:54:39,  3.47it/s] 43%|████▎     | 160083/371472 [1:39:21<16:23:20,  3.58it/s] 43%|████▎     | 160084/371472 [1:39:22<16:05:56,  3.65it/s] 43%|████▎     | 160085/371472 [1:39:22<15:46:26,  3.72it/s] 43%|████▎     | 160086/371472 [1:39:22<15:24:09,  3.81it/s] 43%|████▎     | 160087/371472 [1:39:22<15:08:44,  3.88it/s] 43%|████▎     | 160088/371472 [1:39:23<15:14:56,  3.85it/s] 43%|████▎     | 160089/371472 [1:39:23<15:44:08,  3.73it/s] 43%|████▎     | 160090/371472 [1:39:23<16:21:22,  3.59it/s] 43%|████▎     | 160091/371472 [1:39:23<16:27:52,  3.57it/s] 43%|████▎     | 160092/371472 [1:39:24<16:16:29,  3.61it/s] 43%|████▎     | 160093/371472 [1:39:24<16:21:35,  3.59it/s] 43%|████▎     | 160094/371472 [1:39:24<16:40:20,  3.52it/s] 43%|████▎     | 160095/371472 [1:39:25<16:40:00,  3.52it/s] 43%|████▎     | 160096/371472 [1:39:25<16:37:43,  3.53it/s] 43%|████▎     | 160097/371472 [1:39:25<16:37:31,  3.53it/s] 43%|████▎     | 160098/371472 [1:39:25<16:13:20,  3.62it/s] 43%|████▎     | 160099/371472 [1:39:26<16:47:00,  3.50it/s] 43%|████▎     | 160100/371472 [1:39:26<16:32:12,  3.55it/s]                                                            {'loss': 3.2454, 'learning_rate': 6.12386606046241e-07, 'epoch': 6.9}
 43%|████▎     | 160100/371472 [1:39:26<16:32:12,  3.55it/s] 43%|████▎     | 160101/371472 [1:39:26<16:24:34,  3.58it/s] 43%|████▎     | 160102/371472 [1:39:27<17:02:39,  3.44it/s] 43%|████▎     | 160103/371472 [1:39:27<16:47:35,  3.50it/s] 43%|████▎     | 160104/371472 [1:39:27<16:40:26,  3.52it/s] 43%|████▎     | 160105/371472 [1:39:27<16:53:25,  3.48it/s] 43%|████▎     | 160106/371472 [1:39:28<16:42:29,  3.51it/s] 43%|████▎     | 160107/371472 [1:39:28<16:58:58,  3.46it/s] 43%|████▎     | 160108/371472 [1:39:28<16:38:12,  3.53it/s] 43%|████▎     | 160109/371472 [1:39:29<17:04:57,  3.44it/s] 43%|████▎     | 160110/371472 [1:39:29<17:27:04,  3.36it/s] 43%|████▎     | 160111/371472 [1:39:29<19:20:35,  3.04it/s] 43%|████▎     | 160112/371472 [1:39:30<17:42:49,  3.31it/s] 43%|████▎     | 160113/371472 [1:39:30<17:05:54,  3.43it/s] 43%|████▎     | 160114/371472 [1:39:30<18:09:10,  3.23it/s] 43%|████▎     | 160115/371472 [1:39:30<18:12:48,  3.22it/s] 43%|████▎     | 160116/371472 [1:39:31<17:21:00,  3.38it/s] 43%|████▎     | 160117/371472 [1:39:31<16:40:40,  3.52it/s] 43%|████▎     | 160118/371472 [1:39:31<16:32:57,  3.55it/s] 43%|████▎     | 160119/371472 [1:39:32<16:07:34,  3.64it/s] 43%|████▎     | 160120/371472 [1:39:32<15:49:56,  3.71it/s]                                                            {'loss': 3.1966, 'learning_rate': 6.123381240707622e-07, 'epoch': 6.9}
 43%|████▎     | 160120/371472 [1:39:32<15:49:56,  3.71it/s] 43%|████▎     | 160121/371472 [1:39:32<15:47:34,  3.72it/s] 43%|████▎     | 160122/371472 [1:39:32<15:47:41,  3.72it/s] 43%|████▎     | 160123/371472 [1:39:33<15:35:30,  3.77it/s] 43%|████▎     | 160124/371472 [1:39:33<16:41:31,  3.52it/s] 43%|████▎     | 160125/371472 [1:39:33<16:39:58,  3.52it/s] 43%|████▎     | 160126/371472 [1:39:33<16:08:28,  3.64it/s] 43%|████▎     | 160127/371472 [1:39:34<16:59:13,  3.46it/s] 43%|████▎     | 160128/371472 [1:39:34<17:40:04,  3.32it/s] 43%|████▎     | 160129/371472 [1:39:35<20:01:20,  2.93it/s] 43%|████▎     | 160130/371472 [1:39:35<18:43:14,  3.14it/s] 43%|████▎     | 160131/371472 [1:39:35<18:09:13,  3.23it/s] 43%|████▎     | 160132/371472 [1:39:35<18:03:34,  3.25it/s] 43%|████▎     | 160133/371472 [1:39:36<17:06:22,  3.43it/s] 43%|████▎     | 160134/371472 [1:39:36<16:05:00,  3.65it/s] 43%|████▎     | 160135/371472 [1:39:36<17:32:19,  3.35it/s] 43%|████▎     | 160136/371472 [1:39:37<17:25:56,  3.37it/s] 43%|████▎     | 160137/371472 [1:39:37<17:45:15,  3.31it/s] 43%|████▎     | 160138/371472 [1:39:37<16:51:08,  3.48it/s] 43%|████▎     | 160139/371472 [1:39:37<16:42:30,  3.51it/s] 43%|████▎     | 160140/371472 [1:39:38<20:46:08,  2.83it/s]                                                            {'loss': 3.0895, 'learning_rate': 6.122896420952832e-07, 'epoch': 6.9}
 43%|████▎     | 160140/371472 [1:39:38<20:46:08,  2.83it/s] 43%|████▎     | 160141/371472 [1:39:38<18:51:16,  3.11it/s] 43%|████▎     | 160142/371472 [1:39:38<18:40:15,  3.14it/s] 43%|████▎     | 160143/371472 [1:39:39<17:44:14,  3.31it/s] 43%|████▎     | 160144/371472 [1:39:39<17:24:51,  3.37it/s] 43%|████▎     | 160145/371472 [1:39:39<17:52:31,  3.28it/s] 43%|████▎     | 160146/371472 [1:39:40<17:17:15,  3.40it/s] 43%|████▎     | 160147/371472 [1:39:40<16:32:32,  3.55it/s] 43%|████▎     | 160148/371472 [1:39:40<16:18:40,  3.60it/s] 43%|████▎     | 160149/371472 [1:39:40<16:13:27,  3.62it/s] 43%|████▎     | 160150/371472 [1:39:41<15:42:18,  3.74it/s] 43%|████▎     | 160151/371472 [1:39:41<15:25:34,  3.81it/s] 43%|████▎     | 160152/371472 [1:39:41<15:32:32,  3.78it/s] 43%|████▎     | 160153/371472 [1:39:41<17:05:47,  3.43it/s] 43%|████▎     | 160154/371472 [1:39:42<16:26:34,  3.57it/s] 43%|████▎     | 160155/371472 [1:39:42<16:10:04,  3.63it/s] 43%|████▎     | 160156/371472 [1:39:42<16:46:59,  3.50it/s] 43%|████▎     | 160157/371472 [1:39:43<16:07:35,  3.64it/s] 43%|████▎     | 160158/371472 [1:39:43<17:57:52,  3.27it/s] 43%|████▎     | 160159/371472 [1:39:43<17:18:30,  3.39it/s] 43%|████▎     | 160160/371472 [1:39:43<16:41:22,  3.52it/s]                                                            {'loss': 3.2076, 'learning_rate': 6.122411601198043e-07, 'epoch': 6.9}
 43%|████▎     | 160160/371472 [1:39:43<16:41:22,  3.52it/s] 43%|████▎     | 160161/371472 [1:39:44<16:24:50,  3.58it/s] 43%|████▎     | 160162/371472 [1:39:44<15:58:16,  3.68it/s] 43%|████▎     | 160163/371472 [1:39:44<15:31:49,  3.78it/s] 43%|████▎     | 160164/371472 [1:39:45<15:32:23,  3.78it/s] 43%|████▎     | 160165/371472 [1:39:45<16:29:04,  3.56it/s] 43%|████▎     | 160166/371472 [1:39:45<18:00:27,  3.26it/s] 43%|████▎     | 160167/371472 [1:39:46<18:21:23,  3.20it/s] 43%|████▎     | 160168/371472 [1:39:46<17:42:28,  3.31it/s] 43%|████▎     | 160169/371472 [1:39:46<16:53:57,  3.47it/s] 43%|████▎     | 160170/371472 [1:39:46<17:19:06,  3.39it/s] 43%|████▎     | 160171/371472 [1:39:47<16:54:56,  3.47it/s] 43%|████▎     | 160172/371472 [1:39:47<17:23:01,  3.38it/s] 43%|████▎     | 160173/371472 [1:39:47<17:34:56,  3.34it/s] 43%|████▎     | 160174/371472 [1:39:48<16:53:15,  3.48it/s] 43%|████▎     | 160175/371472 [1:39:48<16:56:18,  3.47it/s] 43%|████▎     | 160176/371472 [1:39:48<16:49:52,  3.49it/s] 43%|████▎     | 160177/371472 [1:39:48<15:57:27,  3.68it/s] 43%|████▎     | 160178/371472 [1:39:49<16:32:52,  3.55it/s] 43%|████▎     | 160179/371472 [1:39:49<16:02:47,  3.66it/s] 43%|████▎     | 160180/371472 [1:39:49<16:14:36,  3.61it/s]                                                            {'loss': 3.1886, 'learning_rate': 6.121926781443255e-07, 'epoch': 6.9}
 43%|████▎     | 160180/371472 [1:39:49<16:14:36,  3.61it/s] 43%|████▎     | 160181/371472 [1:39:49<16:15:36,  3.61it/s] 43%|████▎     | 160182/371472 [1:39:50<16:24:18,  3.58it/s] 43%|████▎     | 160183/371472 [1:39:50<16:09:05,  3.63it/s] 43%|████▎     | 160184/371472 [1:39:50<18:17:23,  3.21it/s] 43%|████▎     | 160185/371472 [1:39:51<17:56:45,  3.27it/s] 43%|████▎     | 160186/371472 [1:39:51<17:20:48,  3.38it/s] 43%|████▎     | 160187/371472 [1:39:51<17:51:26,  3.29it/s] 43%|████▎     | 160188/371472 [1:39:52<17:51:00,  3.29it/s] 43%|████▎     | 160189/371472 [1:39:52<17:01:54,  3.45it/s] 43%|████▎     | 160190/371472 [1:39:52<17:52:59,  3.28it/s] 43%|████▎     | 160191/371472 [1:39:52<17:14:44,  3.40it/s] 43%|████▎     | 160192/371472 [1:39:53<16:31:43,  3.55it/s] 43%|████▎     | 160193/371472 [1:39:53<16:16:11,  3.61it/s] 43%|████▎     | 160194/371472 [1:39:53<16:57:10,  3.46it/s] 43%|████▎     | 160195/371472 [1:39:54<16:37:48,  3.53it/s] 43%|████▎     | 160196/371472 [1:39:54<16:54:28,  3.47it/s] 43%|████▎     | 160197/371472 [1:39:54<16:02:06,  3.66it/s] 43%|████▎     | 160198/371472 [1:39:54<16:08:44,  3.63it/s] 43%|████▎     | 160199/371472 [1:39:55<15:54:00,  3.69it/s] 43%|████▎     | 160200/371472 [1:39:55<16:11:12,  3.63it/s]                                                            {'loss': 3.179, 'learning_rate': 6.121441961688465e-07, 'epoch': 6.9}
 43%|████▎     | 160200/371472 [1:39:55<16:11:12,  3.63it/s] 43%|████▎     | 160201/371472 [1:39:55<16:47:19,  3.50it/s] 43%|████▎     | 160202/371472 [1:39:55<16:19:26,  3.60it/s] 43%|████▎     | 160203/371472 [1:39:56<16:09:38,  3.63it/s] 43%|████▎     | 160204/371472 [1:39:56<16:17:06,  3.60it/s] 43%|████▎     | 160205/371472 [1:39:56<17:21:52,  3.38it/s] 43%|████▎     | 160206/371472 [1:39:57<16:27:05,  3.57it/s] 43%|████▎     | 160207/371472 [1:39:57<18:15:10,  3.22it/s] 43%|████▎     | 160208/371472 [1:39:57<17:57:12,  3.27it/s] 43%|████▎     | 160209/371472 [1:39:58<17:26:07,  3.37it/s] 43%|████▎     | 160210/371472 [1:39:58<17:15:06,  3.40it/s] 43%|████▎     | 160211/371472 [1:39:58<17:28:44,  3.36it/s] 43%|████▎     | 160212/371472 [1:39:59<18:14:15,  3.22it/s] 43%|████▎     | 160213/371472 [1:39:59<17:56:06,  3.27it/s] 43%|████▎     | 160214/371472 [1:39:59<17:15:00,  3.40it/s] 43%|████▎     | 160215/371472 [1:39:59<17:01:55,  3.45it/s] 43%|████▎     | 160216/371472 [1:40:00<16:23:50,  3.58it/s] 43%|████▎     | 160217/371472 [1:40:00<16:04:38,  3.65it/s] 43%|████▎     | 160218/371472 [1:40:00<16:13:41,  3.62it/s] 43%|████▎     | 160219/371472 [1:40:00<15:34:30,  3.77it/s] 43%|████▎     | 160220/371472 [1:40:01<15:26:10,  3.80it/s]                                                            {'loss': 3.0681, 'learning_rate': 6.120957141933676e-07, 'epoch': 6.9}
 43%|████▎     | 160220/371472 [1:40:01<15:26:10,  3.80it/s] 43%|████▎     | 160221/371472 [1:40:01<15:10:54,  3.87it/s] 43%|████▎     | 160222/371472 [1:40:01<15:10:33,  3.87it/s] 43%|████▎     | 160223/371472 [1:40:02<16:39:55,  3.52it/s] 43%|████▎     | 160224/371472 [1:40:02<18:09:21,  3.23it/s] 43%|████▎     | 160225/371472 [1:40:02<18:34:56,  3.16it/s] 43%|████▎     | 160226/371472 [1:40:02<17:20:14,  3.38it/s] 43%|████▎     | 160227/371472 [1:40:03<17:15:11,  3.40it/s] 43%|████▎     | 160228/371472 [1:40:03<16:39:37,  3.52it/s] 43%|████▎     | 160229/371472 [1:40:03<17:12:18,  3.41it/s] 43%|████▎     | 160230/371472 [1:40:04<16:54:28,  3.47it/s] 43%|████▎     | 160231/371472 [1:40:04<16:30:02,  3.56it/s] 43%|████▎     | 160232/371472 [1:40:04<17:42:22,  3.31it/s] 43%|████▎     | 160233/371472 [1:40:04<17:15:13,  3.40it/s] 43%|████▎     | 160234/371472 [1:40:05<17:17:33,  3.39it/s] 43%|████▎     | 160235/371472 [1:40:05<18:16:58,  3.21it/s] 43%|████▎     | 160236/371472 [1:40:05<17:07:20,  3.43it/s] 43%|████▎     | 160237/371472 [1:40:06<17:29:11,  3.36it/s] 43%|████▎     | 160238/371472 [1:40:06<16:58:15,  3.46it/s] 43%|████▎     | 160239/371472 [1:40:06<17:20:09,  3.38it/s] 43%|████▎     | 160240/371472 [1:40:07<17:13:18,  3.41it/s]                                                            {'loss': 3.0765, 'learning_rate': 6.120472322178887e-07, 'epoch': 6.9}
 43%|████▎     | 160240/371472 [1:40:07<17:13:18,  3.41it/s] 43%|████▎     | 160241/371472 [1:40:07<17:14:17,  3.40it/s] 43%|████▎     | 160242/371472 [1:40:07<16:46:43,  3.50it/s] 43%|████▎     | 160243/371472 [1:40:07<16:57:32,  3.46it/s] 43%|████▎     | 160244/371472 [1:40:08<16:52:33,  3.48it/s] 43%|████▎     | 160245/371472 [1:40:08<16:29:38,  3.56it/s] 43%|████▎     | 160246/371472 [1:40:08<16:46:10,  3.50it/s] 43%|████▎     | 160247/371472 [1:40:09<16:10:56,  3.63it/s] 43%|████▎     | 160248/371472 [1:40:09<15:59:06,  3.67it/s] 43%|████▎     | 160249/371472 [1:40:09<16:43:03,  3.51it/s] 43%|████▎     | 160250/371472 [1:40:09<16:39:45,  3.52it/s] 43%|████▎     | 160251/371472 [1:40:10<16:49:03,  3.49it/s] 43%|████▎     | 160252/371472 [1:40:10<16:17:51,  3.60it/s] 43%|████▎     | 160253/371472 [1:40:10<17:07:42,  3.43it/s] 43%|████▎     | 160254/371472 [1:40:11<16:31:10,  3.55it/s] 43%|████▎     | 160255/371472 [1:40:11<16:40:01,  3.52it/s] 43%|████▎     | 160256/371472 [1:40:11<16:00:27,  3.67it/s] 43%|████▎     | 160257/371472 [1:40:11<15:42:14,  3.74it/s] 43%|████▎     | 160258/371472 [1:40:12<17:15:53,  3.40it/s] 43%|████▎     | 160259/371472 [1:40:12<17:02:13,  3.44it/s] 43%|████▎     | 160260/371472 [1:40:12<16:34:34,  3.54it/s]                                                            {'loss': 3.2524, 'learning_rate': 6.119987502424099e-07, 'epoch': 6.9}
 43%|████▎     | 160260/371472 [1:40:12<16:34:34,  3.54it/s] 43%|████▎     | 160261/371472 [1:40:12<16:27:10,  3.57it/s] 43%|████▎     | 160262/371472 [1:40:13<16:44:35,  3.50it/s] 43%|████▎     | 160263/371472 [1:40:13<16:21:14,  3.59it/s] 43%|████▎     | 160264/371472 [1:40:13<16:50:11,  3.48it/s] 43%|████▎     | 160265/371472 [1:40:14<16:29:21,  3.56it/s] 43%|████▎     | 160266/371472 [1:40:14<17:07:59,  3.42it/s] 43%|████▎     | 160267/371472 [1:40:14<17:17:18,  3.39it/s] 43%|████▎     | 160268/371472 [1:40:15<17:51:31,  3.29it/s] 43%|████▎     | 160269/371472 [1:40:15<17:32:41,  3.34it/s] 43%|████▎     | 160270/371472 [1:40:15<16:51:19,  3.48it/s] 43%|████▎     | 160271/371472 [1:40:15<16:58:25,  3.46it/s] 43%|████▎     | 160272/371472 [1:40:16<16:34:16,  3.54it/s] 43%|████▎     | 160273/371472 [1:40:16<16:42:04,  3.51it/s] 43%|████▎     | 160274/371472 [1:40:16<17:01:16,  3.45it/s] 43%|████▎     | 160275/371472 [1:40:17<17:11:53,  3.41it/s] 43%|████▎     | 160276/371472 [1:40:17<17:30:02,  3.35it/s] 43%|████▎     | 160277/371472 [1:40:17<16:55:03,  3.47it/s] 43%|████▎     | 160278/371472 [1:40:17<16:30:06,  3.56it/s] 43%|████▎     | 160279/371472 [1:40:18<16:48:41,  3.49it/s] 43%|████▎     | 160280/371472 [1:40:18<16:52:16,  3.48it/s]                                                            {'loss': 3.0693, 'learning_rate': 6.11950268266931e-07, 'epoch': 6.9}
 43%|████▎     | 160280/371472 [1:40:18<16:52:16,  3.48it/s] 43%|████▎     | 160281/371472 [1:40:18<16:35:57,  3.53it/s] 43%|████▎     | 160282/371472 [1:40:19<16:28:17,  3.56it/s] 43%|████▎     | 160283/371472 [1:40:19<16:14:48,  3.61it/s] 43%|████▎     | 160284/371472 [1:40:19<16:51:52,  3.48it/s] 43%|████▎     | 160285/371472 [1:40:19<16:46:38,  3.50it/s] 43%|████▎     | 160286/371472 [1:40:20<17:02:13,  3.44it/s] 43%|████▎     | 160287/371472 [1:40:20<16:25:03,  3.57it/s] 43%|████▎     | 160288/371472 [1:40:20<16:15:25,  3.61it/s] 43%|████▎     | 160289/371472 [1:40:21<17:15:52,  3.40it/s] 43%|████▎     | 160290/371472 [1:40:21<17:19:25,  3.39it/s] 43%|████▎     | 160291/371472 [1:40:21<17:00:25,  3.45it/s] 43%|████▎     | 160292/371472 [1:40:21<17:58:23,  3.26it/s] 43%|████▎     | 160293/371472 [1:40:22<17:19:35,  3.39it/s] 43%|████▎     | 160294/371472 [1:40:22<16:59:55,  3.45it/s] 43%|████▎     | 160295/371472 [1:40:22<17:52:48,  3.28it/s] 43%|████▎     | 160296/371472 [1:40:23<17:18:16,  3.39it/s] 43%|████▎     | 160297/371472 [1:40:23<17:06:29,  3.43it/s] 43%|████▎     | 160298/371472 [1:40:23<16:43:59,  3.51it/s] 43%|████▎     | 160299/371472 [1:40:24<18:32:32,  3.16it/s] 43%|████▎     | 160300/371472 [1:40:24<17:44:34,  3.31it/s]                                                            {'loss': 3.037, 'learning_rate': 6.119017862914521e-07, 'epoch': 6.9}
 43%|████▎     | 160300/371472 [1:40:24<17:44:34,  3.31it/s] 43%|████▎     | 160301/371472 [1:40:24<17:00:22,  3.45it/s] 43%|████▎     | 160302/371472 [1:40:24<16:30:16,  3.55it/s] 43%|████▎     | 160303/371472 [1:40:25<16:13:52,  3.61it/s] 43%|████▎     | 160304/371472 [1:40:25<15:49:12,  3.71it/s] 43%|████▎     | 160305/371472 [1:40:25<15:25:40,  3.80it/s] 43%|████▎     | 160306/371472 [1:40:25<16:57:36,  3.46it/s] 43%|████▎     | 160307/371472 [1:40:26<16:46:12,  3.50it/s] 43%|████▎     | 160308/371472 [1:40:26<16:34:57,  3.54it/s] 43%|████▎     | 160309/371472 [1:40:26<18:19:46,  3.20it/s] 43%|████▎     | 160310/371472 [1:40:27<17:14:38,  3.40it/s] 43%|████▎     | 160311/371472 [1:40:27<16:49:28,  3.49it/s] 43%|████▎     | 160312/371472 [1:40:27<16:40:58,  3.52it/s] 43%|████▎     | 160313/371472 [1:40:27<16:08:31,  3.63it/s] 43%|████▎     | 160314/371472 [1:40:28<16:05:39,  3.64it/s] 43%|████▎     | 160315/371472 [1:40:28<16:19:35,  3.59it/s] 43%|████▎     | 160316/371472 [1:40:28<16:43:05,  3.51it/s] 43%|████▎     | 160317/371472 [1:40:29<16:30:49,  3.55it/s] 43%|████▎     | 160318/371472 [1:40:29<15:58:48,  3.67it/s] 43%|████▎     | 160319/371472 [1:40:29<16:04:18,  3.65it/s] 43%|████▎     | 160320/371472 [1:40:29<16:02:11,  3.66it/s]                                                            {'loss': 3.036, 'learning_rate': 6.118533043159731e-07, 'epoch': 6.91}
 43%|████▎     | 160320/371472 [1:40:29<16:02:11,  3.66it/s] 43%|████▎     | 160321/371472 [1:40:30<16:59:18,  3.45it/s] 43%|████▎     | 160322/371472 [1:40:30<17:08:35,  3.42it/s] 43%|████▎     | 160323/371472 [1:40:30<16:59:05,  3.45it/s] 43%|████▎     | 160324/371472 [1:40:31<17:21:34,  3.38it/s] 43%|████▎     | 160325/371472 [1:40:31<17:02:01,  3.44it/s] 43%|████▎     | 160326/371472 [1:40:31<16:10:23,  3.63it/s] 43%|████▎     | 160327/371472 [1:40:31<17:03:54,  3.44it/s] 43%|████▎     | 160328/371472 [1:40:32<16:24:53,  3.57it/s] 43%|████▎     | 160329/371472 [1:40:32<16:33:08,  3.54it/s] 43%|████▎     | 160330/371472 [1:40:32<16:03:59,  3.65it/s] 43%|████▎     | 160331/371472 [1:40:33<16:09:31,  3.63it/s] 43%|████▎     | 160332/371472 [1:40:33<15:54:17,  3.69it/s] 43%|████▎     | 160333/371472 [1:40:33<15:24:05,  3.81it/s] 43%|████▎     | 160334/371472 [1:40:33<15:24:48,  3.81it/s] 43%|████▎     | 160335/371472 [1:40:34<15:06:53,  3.88it/s] 43%|████▎     | 160336/371472 [1:40:34<15:16:04,  3.84it/s] 43%|████▎     | 160337/371472 [1:40:34<15:04:59,  3.89it/s] 43%|████▎     | 160338/371472 [1:40:34<14:59:01,  3.91it/s] 43%|████▎     | 160339/371472 [1:40:35<15:37:37,  3.75it/s] 43%|████▎     | 160340/371472 [1:40:35<15:55:27,  3.68it/s]                                                            {'loss': 3.1317, 'learning_rate': 6.118048223404943e-07, 'epoch': 6.91}
 43%|████▎     | 160340/371472 [1:40:35<15:55:27,  3.68it/s] 43%|████▎     | 160341/371472 [1:40:35<16:10:47,  3.62it/s] 43%|████▎     | 160342/371472 [1:40:36<16:47:47,  3.49it/s] 43%|████▎     | 160343/371472 [1:40:36<16:37:29,  3.53it/s] 43%|████▎     | 160344/371472 [1:40:36<16:12:38,  3.62it/s] 43%|████▎     | 160345/371472 [1:40:36<15:57:33,  3.67it/s] 43%|████▎     | 160346/371472 [1:40:37<16:20:07,  3.59it/s] 43%|████▎     | 160347/371472 [1:40:37<16:15:42,  3.61it/s] 43%|████▎     | 160348/371472 [1:40:37<16:33:16,  3.54it/s] 43%|████▎     | 160349/371472 [1:40:37<16:39:44,  3.52it/s] 43%|████▎     | 160350/371472 [1:40:38<16:28:07,  3.56it/s] 43%|████▎     | 160351/371472 [1:40:38<17:55:46,  3.27it/s] 43%|████▎     | 160352/371472 [1:40:38<17:24:38,  3.37it/s] 43%|████▎     | 160353/371472 [1:40:39<17:49:52,  3.29it/s] 43%|████▎     | 160354/371472 [1:40:39<17:07:11,  3.43it/s] 43%|████▎     | 160355/371472 [1:40:39<16:26:12,  3.57it/s] 43%|████▎     | 160356/371472 [1:40:40<17:05:18,  3.43it/s] 43%|████▎     | 160357/371472 [1:40:40<17:53:10,  3.28it/s] 43%|████▎     | 160358/371472 [1:40:40<17:21:35,  3.38it/s] 43%|████▎     | 160359/371472 [1:40:40<16:50:16,  3.48it/s] 43%|████▎     | 160360/371472 [1:40:41<18:02:30,  3.25it/s]                                                            {'loss': 3.2018, 'learning_rate': 6.117563403650154e-07, 'epoch': 6.91}
 43%|████▎     | 160360/371472 [1:40:41<18:02:30,  3.25it/s] 43%|████▎     | 160361/371472 [1:40:41<17:59:34,  3.26it/s] 43%|████▎     | 160362/371472 [1:40:41<17:15:06,  3.40it/s] 43%|████▎     | 160363/371472 [1:40:42<16:40:14,  3.52it/s] 43%|████▎     | 160364/371472 [1:40:42<16:45:55,  3.50it/s] 43%|████▎     | 160365/371472 [1:40:42<16:30:03,  3.55it/s] 43%|████▎     | 160366/371472 [1:40:42<16:25:10,  3.57it/s] 43%|████▎     | 160367/371472 [1:40:43<17:22:20,  3.38it/s] 43%|████▎     | 160368/371472 [1:40:43<16:26:07,  3.57it/s] 43%|████▎     | 160369/371472 [1:40:43<16:57:46,  3.46it/s] 43%|████▎     | 160370/371472 [1:40:44<16:37:58,  3.53it/s] 43%|████▎     | 160371/371472 [1:40:44<18:01:35,  3.25it/s] 43%|████▎     | 160372/371472 [1:40:44<17:52:29,  3.28it/s] 43%|████▎     | 160373/371472 [1:40:45<17:22:52,  3.37it/s] 43%|████▎     | 160374/371472 [1:40:45<16:40:39,  3.52it/s] 43%|████▎     | 160375/371472 [1:40:45<16:16:53,  3.60it/s] 43%|████▎     | 160376/371472 [1:40:45<16:07:25,  3.64it/s] 43%|████▎     | 160377/371472 [1:40:46<16:04:20,  3.65it/s] 43%|████▎     | 160378/371472 [1:40:46<16:14:50,  3.61it/s] 43%|████▎     | 160379/371472 [1:40:46<16:59:16,  3.45it/s] 43%|████▎     | 160380/371472 [1:40:46<17:05:44,  3.43it/s]                                                            {'loss': 3.0577, 'learning_rate': 6.117078583895365e-07, 'epoch': 6.91}
 43%|████▎     | 160380/371472 [1:40:46<17:05:44,  3.43it/s] 43%|████▎     | 160381/371472 [1:40:47<16:51:54,  3.48it/s] 43%|████▎     | 160382/371472 [1:40:47<18:24:20,  3.19it/s] 43%|████▎     | 160383/371472 [1:40:47<18:15:16,  3.21it/s] 43%|████▎     | 160384/371472 [1:40:48<17:12:20,  3.41it/s] 43%|████▎     | 160385/371472 [1:40:48<16:40:58,  3.51it/s] 43%|████▎     | 160386/371472 [1:40:48<16:44:12,  3.50it/s] 43%|████▎     | 160387/371472 [1:40:49<16:47:34,  3.49it/s] 43%|████▎     | 160388/371472 [1:40:49<16:31:29,  3.55it/s] 43%|████▎     | 160389/371472 [1:40:49<16:53:50,  3.47it/s] 43%|████▎     | 160390/371472 [1:40:49<16:35:49,  3.53it/s] 43%|████▎     | 160391/371472 [1:40:50<15:57:29,  3.67it/s] 43%|████▎     | 160392/371472 [1:40:50<15:27:03,  3.79it/s] 43%|████▎     | 160393/371472 [1:40:50<15:05:59,  3.88it/s] 43%|████▎     | 160394/371472 [1:40:50<16:07:03,  3.64it/s] 43%|████▎     | 160395/371472 [1:40:51<16:09:49,  3.63it/s] 43%|████▎     | 160396/371472 [1:40:51<18:06:47,  3.24it/s] 43%|████▎     | 160397/371472 [1:40:51<17:39:26,  3.32it/s] 43%|████▎     | 160398/371472 [1:40:52<16:53:11,  3.47it/s] 43%|████▎     | 160399/371472 [1:40:52<16:48:58,  3.49it/s] 43%|████▎     | 160400/371472 [1:40:52<16:23:07,  3.58it/s]                                                            {'loss': 3.146, 'learning_rate': 6.116593764140576e-07, 'epoch': 6.91}
 43%|████▎     | 160400/371472 [1:40:52<16:23:07,  3.58it/s] 43%|████▎     | 160401/371472 [1:40:53<17:18:00,  3.39it/s] 43%|████▎     | 160402/371472 [1:40:53<16:47:08,  3.49it/s] 43%|████▎     | 160403/371472 [1:40:53<16:28:26,  3.56it/s] 43%|████▎     | 160404/371472 [1:40:53<16:45:43,  3.50it/s] 43%|████▎     | 160405/371472 [1:40:54<16:09:54,  3.63it/s] 43%|████▎     | 160406/371472 [1:40:54<15:50:30,  3.70it/s] 43%|████▎     | 160407/371472 [1:40:54<16:02:23,  3.66it/s] 43%|████▎     | 160408/371472 [1:40:54<15:51:13,  3.70it/s] 43%|████▎     | 160409/371472 [1:40:55<16:37:15,  3.53it/s] 43%|████▎     | 160410/371472 [1:40:55<16:50:31,  3.48it/s] 43%|████▎     | 160411/371472 [1:40:55<16:46:21,  3.50it/s] 43%|████▎     | 160412/371472 [1:40:56<16:28:43,  3.56it/s] 43%|████▎     | 160413/371472 [1:40:56<16:13:09,  3.61it/s] 43%|████▎     | 160414/371472 [1:40:56<15:48:42,  3.71it/s] 43%|████▎     | 160415/371472 [1:40:56<16:08:38,  3.63it/s] 43%|████▎     | 160416/371472 [1:40:57<15:31:39,  3.78it/s] 43%|████▎     | 160417/371472 [1:40:57<16:09:28,  3.63it/s] 43%|████▎     | 160418/371472 [1:40:57<16:40:16,  3.52it/s] 43%|████▎     | 160419/371472 [1:40:57<16:33:41,  3.54it/s] 43%|████▎     | 160420/371472 [1:40:58<16:40:48,  3.51it/s]                                                            {'loss': 3.1774, 'learning_rate': 6.116108944385788e-07, 'epoch': 6.91}
 43%|████▎     | 160420/371472 [1:40:58<16:40:48,  3.51it/s] 43%|████▎     | 160421/371472 [1:40:58<16:49:26,  3.48it/s] 43%|████▎     | 160422/371472 [1:40:58<16:48:03,  3.49it/s] 43%|████▎     | 160423/371472 [1:40:59<16:18:07,  3.60it/s] 43%|████▎     | 160424/371472 [1:40:59<16:24:13,  3.57it/s] 43%|████▎     | 160425/371472 [1:40:59<15:50:17,  3.70it/s] 43%|████▎     | 160426/371472 [1:40:59<15:45:18,  3.72it/s] 43%|████▎     | 160427/371472 [1:41:00<16:02:42,  3.65it/s] 43%|████▎     | 160428/371472 [1:41:00<16:38:39,  3.52it/s] 43%|████▎     | 160429/371472 [1:41:00<16:30:14,  3.55it/s] 43%|████▎     | 160430/371472 [1:41:01<18:35:43,  3.15it/s] 43%|████▎     | 160431/371472 [1:41:01<17:28:39,  3.35it/s] 43%|████▎     | 160432/371472 [1:41:01<17:17:42,  3.39it/s] 43%|████▎     | 160433/371472 [1:41:02<17:33:51,  3.34it/s] 43%|████▎     | 160434/371472 [1:41:02<16:56:30,  3.46it/s] 43%|████▎     | 160435/371472 [1:41:02<17:02:07,  3.44it/s] 43%|████▎     | 160436/371472 [1:41:02<16:38:30,  3.52it/s] 43%|████▎     | 160437/371472 [1:41:03<16:28:54,  3.56it/s] 43%|████▎     | 160438/371472 [1:41:03<16:18:35,  3.59it/s] 43%|████▎     | 160439/371472 [1:41:03<16:25:57,  3.57it/s] 43%|████▎     | 160440/371472 [1:41:04<17:18:03,  3.39it/s]                                                            {'loss': 3.3458, 'learning_rate': 6.115624124630998e-07, 'epoch': 6.91}
 43%|████▎     | 160440/371472 [1:41:04<17:18:03,  3.39it/s] 43%|████▎     | 160441/371472 [1:41:04<16:26:39,  3.56it/s] 43%|████▎     | 160442/371472 [1:41:04<15:42:52,  3.73it/s] 43%|████▎     | 160443/371472 [1:41:04<15:46:42,  3.72it/s] 43%|████▎     | 160444/371472 [1:41:05<15:33:13,  3.77it/s] 43%|████▎     | 160445/371472 [1:41:05<15:08:16,  3.87it/s] 43%|████▎     | 160446/371472 [1:41:05<14:55:45,  3.93it/s] 43%|████▎     | 160447/371472 [1:41:05<15:27:11,  3.79it/s] 43%|████▎     | 160448/371472 [1:41:06<17:03:16,  3.44it/s] 43%|████▎     | 160449/371472 [1:41:06<16:21:27,  3.58it/s] 43%|████▎     | 160450/371472 [1:41:06<16:19:52,  3.59it/s] 43%|████▎     | 160451/371472 [1:41:06<16:26:00,  3.57it/s] 43%|████▎     | 160452/371472 [1:41:07<16:05:12,  3.64it/s] 43%|████▎     | 160453/371472 [1:41:07<15:44:25,  3.72it/s] 43%|████▎     | 160454/371472 [1:41:07<16:52:01,  3.48it/s] 43%|████▎     | 160455/371472 [1:41:08<18:57:13,  3.09it/s] 43%|████▎     | 160456/371472 [1:41:08<18:06:52,  3.24it/s] 43%|████▎     | 160457/371472 [1:41:08<18:16:20,  3.21it/s] 43%|████▎     | 160458/371472 [1:41:09<17:42:01,  3.31it/s] 43%|████▎     | 160459/371472 [1:41:09<18:01:45,  3.25it/s] 43%|████▎     | 160460/371472 [1:41:09<17:12:59,  3.40it/s]                                                            {'loss': 3.1422, 'learning_rate': 6.115139304876209e-07, 'epoch': 6.91}
 43%|████▎     | 160460/371472 [1:41:09<17:12:59,  3.40it/s] 43%|████▎     | 160461/371472 [1:41:09<17:16:52,  3.39it/s] 43%|████▎     | 160462/371472 [1:41:10<17:54:09,  3.27it/s] 43%|████▎     | 160463/371472 [1:41:10<17:14:46,  3.40it/s] 43%|████▎     | 160464/371472 [1:41:10<17:19:02,  3.38it/s] 43%|████▎     | 160465/371472 [1:41:11<17:36:14,  3.33it/s] 43%|████▎     | 160466/371472 [1:41:11<17:11:41,  3.41it/s] 43%|████▎     | 160467/371472 [1:41:11<17:12:22,  3.41it/s] 43%|████▎     | 160468/371472 [1:41:12<16:23:25,  3.58it/s] 43%|████▎     | 160469/371472 [1:41:12<16:07:18,  3.64it/s] 43%|████▎     | 160470/371472 [1:41:12<16:11:10,  3.62it/s] 43%|████▎     | 160471/371472 [1:41:12<17:07:05,  3.42it/s] 43%|████▎     | 160472/371472 [1:41:13<16:28:40,  3.56it/s] 43%|████▎     | 160473/371472 [1:41:13<16:26:35,  3.56it/s] 43%|████▎     | 160474/371472 [1:41:13<16:08:15,  3.63it/s] 43%|████▎     | 160475/371472 [1:41:13<16:00:48,  3.66it/s] 43%|████▎     | 160476/371472 [1:41:14<16:08:18,  3.63it/s] 43%|████▎     | 160477/371472 [1:41:14<15:57:33,  3.67it/s] 43%|████▎     | 160478/371472 [1:41:14<15:51:31,  3.70it/s] 43%|████▎     | 160479/371472 [1:41:15<16:28:09,  3.56it/s] 43%|████▎     | 160480/371472 [1:41:15<15:57:08,  3.67it/s]                                                            {'loss': 3.2489, 'learning_rate': 6.11465448512142e-07, 'epoch': 6.91}
 43%|████▎     | 160480/371472 [1:41:15<15:57:08,  3.67it/s] 43%|████▎     | 160481/371472 [1:41:15<16:19:11,  3.59it/s] 43%|████▎     | 160482/371472 [1:41:15<15:49:36,  3.70it/s] 43%|████▎     | 160483/371472 [1:41:16<16:03:01,  3.65it/s] 43%|████▎     | 160484/371472 [1:41:16<15:47:44,  3.71it/s] 43%|████▎     | 160485/371472 [1:41:16<16:05:40,  3.64it/s] 43%|████▎     | 160486/371472 [1:41:17<17:20:31,  3.38it/s] 43%|████▎     | 160487/371472 [1:41:17<17:26:02,  3.36it/s] 43%|████▎     | 160488/371472 [1:41:17<17:51:45,  3.28it/s] 43%|████▎     | 160489/371472 [1:41:17<17:10:24,  3.41it/s] 43%|████▎     | 160490/371472 [1:41:18<16:34:44,  3.53it/s] 43%|████▎     | 160491/371472 [1:41:18<17:25:27,  3.36it/s] 43%|████▎     | 160492/371472 [1:41:18<16:28:15,  3.56it/s] 43%|████▎     | 160493/371472 [1:41:19<17:01:28,  3.44it/s] 43%|████▎     | 160494/371472 [1:41:19<16:31:35,  3.55it/s] 43%|████▎     | 160495/371472 [1:41:19<16:04:47,  3.64it/s] 43%|████▎     | 160496/371472 [1:41:19<15:51:03,  3.70it/s] 43%|████▎     | 160497/371472 [1:41:20<17:38:52,  3.32it/s] 43%|████▎     | 160498/371472 [1:41:20<17:59:14,  3.26it/s] 43%|████▎     | 160499/371472 [1:41:20<17:09:54,  3.41it/s] 43%|████▎     | 160500/371472 [1:41:21<17:05:28,  3.43it/s]                                                            {'loss': 3.008, 'learning_rate': 6.114169665366631e-07, 'epoch': 6.91}
 43%|████▎     | 160500/371472 [1:41:21<17:05:28,  3.43it/s] 43%|████▎     | 160501/371472 [1:41:21<17:14:29,  3.40it/s] 43%|████▎     | 160502/371472 [1:41:21<17:14:55,  3.40it/s] 43%|████▎     | 160503/371472 [1:41:21<16:31:58,  3.54it/s] 43%|████▎     | 160504/371472 [1:41:22<16:38:05,  3.52it/s] 43%|████▎     | 160505/371472 [1:41:22<16:16:13,  3.60it/s] 43%|████▎     | 160506/371472 [1:41:22<15:56:07,  3.68it/s] 43%|████▎     | 160507/371472 [1:41:23<15:38:32,  3.75it/s] 43%|████▎     | 160508/371472 [1:41:23<16:19:33,  3.59it/s] 43%|████▎     | 160509/371472 [1:41:23<15:56:13,  3.68it/s] 43%|████▎     | 160510/371472 [1:41:23<15:40:26,  3.74it/s] 43%|████▎     | 160511/371472 [1:41:24<16:10:08,  3.62it/s] 43%|████▎     | 160512/371472 [1:41:24<15:41:34,  3.73it/s] 43%|████▎     | 160513/371472 [1:41:24<16:08:32,  3.63it/s] 43%|████▎     | 160514/371472 [1:41:24<16:46:45,  3.49it/s] 43%|████▎     | 160515/371472 [1:41:25<16:16:03,  3.60it/s] 43%|████▎     | 160516/371472 [1:41:25<16:05:51,  3.64it/s] 43%|████▎     | 160517/371472 [1:41:25<15:55:02,  3.68it/s] 43%|████▎     | 160518/371472 [1:41:26<15:44:44,  3.72it/s] 43%|████▎     | 160519/371472 [1:41:26<15:55:50,  3.68it/s] 43%|████▎     | 160520/371472 [1:41:26<17:21:23,  3.38it/s]                                                            {'loss': 3.161, 'learning_rate': 6.113684845611842e-07, 'epoch': 6.91}
 43%|████▎     | 160520/371472 [1:41:26<17:21:23,  3.38it/s] 43%|████▎     | 160521/371472 [1:41:27<18:52:38,  3.10it/s] 43%|████▎     | 160522/371472 [1:41:27<19:10:54,  3.05it/s] 43%|████▎     | 160523/371472 [1:41:27<18:00:58,  3.25it/s] 43%|████▎     | 160524/371472 [1:41:27<17:00:32,  3.45it/s] 43%|████▎     | 160525/371472 [1:41:28<17:19:26,  3.38it/s] 43%|████▎     | 160526/371472 [1:41:28<17:08:20,  3.42it/s] 43%|████▎     | 160527/371472 [1:41:28<16:53:49,  3.47it/s] 43%|████▎     | 160528/371472 [1:41:29<16:26:10,  3.57it/s] 43%|████▎     | 160529/371472 [1:41:29<16:09:59,  3.62it/s] 43%|████▎     | 160530/371472 [1:41:29<16:11:24,  3.62it/s] 43%|████▎     | 160531/371472 [1:41:29<16:03:11,  3.65it/s] 43%|████▎     | 160532/371472 [1:41:30<15:52:54,  3.69it/s] 43%|████▎     | 160533/371472 [1:41:30<15:41:23,  3.73it/s] 43%|████▎     | 160534/371472 [1:41:30<15:37:31,  3.75it/s] 43%|████▎     | 160535/371472 [1:41:30<15:33:08,  3.77it/s] 43%|████▎     | 160536/371472 [1:41:31<16:21:28,  3.58it/s] 43%|████▎     | 160537/371472 [1:41:31<16:11:42,  3.62it/s] 43%|████▎     | 160538/371472 [1:41:31<16:31:35,  3.55it/s] 43%|████▎     | 160539/371472 [1:41:32<15:59:31,  3.66it/s] 43%|████▎     | 160540/371472 [1:41:32<16:39:12,  3.52it/s]                                                            {'loss': 3.1986, 'learning_rate': 6.113200025857053e-07, 'epoch': 6.91}
 43%|████▎     | 160540/371472 [1:41:32<16:39:12,  3.52it/s] 43%|████▎     | 160541/371472 [1:41:32<16:11:49,  3.62it/s] 43%|████▎     | 160542/371472 [1:41:32<16:19:31,  3.59it/s] 43%|████▎     | 160543/371472 [1:41:33<17:56:10,  3.27it/s] 43%|████▎     | 160544/371472 [1:41:33<17:33:54,  3.34it/s] 43%|████▎     | 160545/371472 [1:41:33<16:49:33,  3.48it/s] 43%|████▎     | 160546/371472 [1:41:34<17:03:05,  3.44it/s] 43%|████▎     | 160547/371472 [1:41:34<19:32:44,  3.00it/s] 43%|████▎     | 160548/371472 [1:41:34<18:51:23,  3.11it/s] 43%|████▎     | 160549/371472 [1:41:35<17:38:20,  3.32it/s] 43%|████▎     | 160550/371472 [1:41:35<18:01:28,  3.25it/s] 43%|████▎     | 160551/371472 [1:41:35<17:20:57,  3.38it/s] 43%|████▎     | 160552/371472 [1:41:35<16:27:55,  3.56it/s] 43%|████▎     | 160553/371472 [1:41:36<16:22:24,  3.58it/s] 43%|████▎     | 160554/371472 [1:41:36<18:19:20,  3.20it/s] 43%|████▎     | 160555/371472 [1:41:36<17:45:37,  3.30it/s] 43%|████▎     | 160556/371472 [1:41:37<17:40:08,  3.32it/s] 43%|████▎     | 160557/371472 [1:41:37<17:45:02,  3.30it/s] 43%|████▎     | 160558/371472 [1:41:37<17:39:28,  3.32it/s] 43%|████▎     | 160559/371472 [1:41:38<17:32:46,  3.34it/s] 43%|████▎     | 160560/371472 [1:41:38<17:21:20,  3.38it/s]                                                            {'loss': 3.1116, 'learning_rate': 6.112715206102265e-07, 'epoch': 6.92}
 43%|████▎     | 160560/371472 [1:41:38<17:21:20,  3.38it/s] 43%|████▎     | 160561/371472 [1:41:38<17:05:03,  3.43it/s] 43%|████▎     | 160562/371472 [1:41:38<16:35:23,  3.53it/s] 43%|████▎     | 160563/371472 [1:41:39<16:29:32,  3.55it/s] 43%|████▎     | 160564/371472 [1:41:39<16:23:28,  3.57it/s] 43%|████▎     | 160565/371472 [1:41:39<16:30:17,  3.55it/s] 43%|████▎     | 160566/371472 [1:41:40<19:51:47,  2.95it/s] 43%|████▎     | 160567/371472 [1:41:40<19:10:10,  3.06it/s] 43%|████▎     | 160568/371472 [1:41:40<18:04:03,  3.24it/s] 43%|████▎     | 160569/371472 [1:41:41<17:02:53,  3.44it/s] 43%|████▎     | 160570/371472 [1:41:41<16:26:47,  3.56it/s] 43%|████▎     | 160571/371472 [1:41:41<15:55:39,  3.68it/s] 43%|████▎     | 160572/371472 [1:41:41<16:10:00,  3.62it/s] 43%|████▎     | 160573/371472 [1:41:42<16:03:32,  3.65it/s] 43%|████▎     | 160574/371472 [1:41:42<16:24:40,  3.57it/s] 43%|████▎     | 160575/371472 [1:41:42<16:10:37,  3.62it/s] 43%|████▎     | 160576/371472 [1:41:42<15:51:12,  3.70it/s] 43%|████▎     | 160577/371472 [1:41:43<15:53:30,  3.69it/s] 43%|████▎     | 160578/371472 [1:41:43<15:30:10,  3.78it/s] 43%|████▎     | 160579/371472 [1:41:43<15:09:24,  3.87it/s] 43%|████▎     | 160580/371472 [1:41:43<15:05:12,  3.88it/s]                                                            {'loss': 3.0822, 'learning_rate': 6.112230386347475e-07, 'epoch': 6.92}
 43%|████▎     | 160580/371472 [1:41:43<15:05:12,  3.88it/s] 43%|████▎     | 160581/371472 [1:41:44<15:11:30,  3.86it/s] 43%|████▎     | 160582/371472 [1:41:44<15:27:34,  3.79it/s] 43%|████▎     | 160583/371472 [1:41:44<15:27:38,  3.79it/s] 43%|████▎     | 160584/371472 [1:41:44<15:19:03,  3.82it/s] 43%|████▎     | 160585/371472 [1:41:45<15:58:41,  3.67it/s] 43%|████▎     | 160586/371472 [1:41:45<15:35:47,  3.76it/s] 43%|████▎     | 160587/371472 [1:41:45<16:03:46,  3.65it/s] 43%|████▎     | 160588/371472 [1:41:46<15:46:29,  3.71it/s] 43%|████▎     | 160589/371472 [1:41:46<16:14:50,  3.61it/s] 43%|████▎     | 160590/371472 [1:41:46<16:04:27,  3.64it/s] 43%|████▎     | 160591/371472 [1:41:46<15:58:42,  3.67it/s] 43%|████▎     | 160592/371472 [1:41:47<16:03:01,  3.65it/s] 43%|████▎     | 160593/371472 [1:41:47<17:06:12,  3.42it/s] 43%|████▎     | 160594/371472 [1:41:47<16:44:27,  3.50it/s] 43%|████▎     | 160595/371472 [1:41:48<17:36:26,  3.33it/s] 43%|████▎     | 160596/371472 [1:41:48<17:13:34,  3.40it/s] 43%|████▎     | 160597/371472 [1:41:48<16:56:08,  3.46it/s] 43%|████▎     | 160598/371472 [1:41:49<17:50:13,  3.28it/s] 43%|████▎     | 160599/371472 [1:41:49<16:50:30,  3.48it/s] 43%|████▎     | 160600/371472 [1:41:49<16:02:45,  3.65it/s]                                                            {'loss': 3.158, 'learning_rate': 6.111745566592686e-07, 'epoch': 6.92}
 43%|████▎     | 160600/371472 [1:41:49<16:02:45,  3.65it/s] 43%|████▎     | 160601/371472 [1:41:49<16:14:09,  3.61it/s] 43%|████▎     | 160602/371472 [1:41:50<16:08:35,  3.63it/s] 43%|████▎     | 160603/371472 [1:41:50<15:39:28,  3.74it/s] 43%|████▎     | 160604/371472 [1:41:50<15:46:55,  3.71it/s] 43%|████▎     | 160605/371472 [1:41:50<15:37:13,  3.75it/s] 43%|████▎     | 160606/371472 [1:41:51<16:03:51,  3.65it/s] 43%|████▎     | 160607/371472 [1:41:51<17:11:34,  3.41it/s] 43%|████▎     | 160608/371472 [1:41:51<18:11:45,  3.22it/s] 43%|████▎     | 160609/371472 [1:41:52<17:45:14,  3.30it/s] 43%|████▎     | 160610/371472 [1:41:52<18:27:02,  3.17it/s] 43%|████▎     | 160611/371472 [1:41:52<18:31:48,  3.16it/s] 43%|████▎     | 160612/371472 [1:41:53<17:36:26,  3.33it/s] 43%|████▎     | 160613/371472 [1:41:53<17:58:48,  3.26it/s] 43%|████▎     | 160614/371472 [1:41:53<17:05:40,  3.43it/s] 43%|████▎     | 160615/371472 [1:41:53<16:21:13,  3.58it/s] 43%|████▎     | 160616/371472 [1:41:54<16:16:56,  3.60it/s] 43%|████▎     | 160617/371472 [1:41:54<16:34:18,  3.53it/s] 43%|████▎     | 160618/371472 [1:41:54<16:14:41,  3.61it/s] 43%|████▎     | 160619/371472 [1:41:54<16:09:39,  3.62it/s] 43%|████▎     | 160620/371472 [1:41:55<15:53:53,  3.68it/s]                                                            {'loss': 3.0509, 'learning_rate': 6.111260746837897e-07, 'epoch': 6.92}
 43%|████▎     | 160620/371472 [1:41:55<15:53:53,  3.68it/s] 43%|████▎     | 160621/371472 [1:41:55<15:28:41,  3.78it/s] 43%|████▎     | 160622/371472 [1:41:55<15:34:33,  3.76it/s] 43%|████▎     | 160623/371472 [1:41:56<15:46:33,  3.71it/s] 43%|████▎     | 160624/371472 [1:41:56<17:39:07,  3.32it/s] 43%|████▎     | 160625/371472 [1:41:56<17:13:04,  3.40it/s] 43%|████▎     | 160626/371472 [1:41:56<16:23:41,  3.57it/s] 43%|████▎     | 160627/371472 [1:41:57<16:22:44,  3.58it/s] 43%|████▎     | 160628/371472 [1:41:57<16:13:20,  3.61it/s] 43%|████▎     | 160629/371472 [1:41:57<15:53:00,  3.69it/s] 43%|████▎     | 160630/371472 [1:41:58<16:06:08,  3.64it/s] 43%|████▎     | 160631/371472 [1:41:58<16:18:45,  3.59it/s] 43%|████▎     | 160632/371472 [1:41:58<15:39:04,  3.74it/s] 43%|████▎     | 160633/371472 [1:41:58<15:25:53,  3.80it/s] 43%|████▎     | 160634/371472 [1:41:59<15:03:33,  3.89it/s] 43%|████▎     | 160635/371472 [1:41:59<15:04:15,  3.89it/s] 43%|████▎     | 160636/371472 [1:41:59<15:27:57,  3.79it/s] 43%|████▎     | 160637/371472 [1:41:59<15:18:23,  3.83it/s] 43%|████▎     | 160638/371472 [1:42:00<15:22:04,  3.81it/s] 43%|████▎     | 160639/371472 [1:42:00<15:45:29,  3.72it/s] 43%|████▎     | 160640/371472 [1:42:00<15:41:48,  3.73it/s]                                                            {'loss': 3.3563, 'learning_rate': 6.110775927083109e-07, 'epoch': 6.92}
 43%|████▎     | 160640/371472 [1:42:00<15:41:48,  3.73it/s] 43%|████▎     | 160641/371472 [1:42:00<15:59:02,  3.66it/s] 43%|████▎     | 160642/371472 [1:42:01<17:55:39,  3.27it/s] 43%|████▎     | 160643/371472 [1:42:01<16:54:40,  3.46it/s] 43%|████▎     | 160644/371472 [1:42:01<17:14:18,  3.40it/s] 43%|████▎     | 160645/371472 [1:42:02<16:37:55,  3.52it/s] 43%|████▎     | 160646/371472 [1:42:02<16:19:44,  3.59it/s] 43%|████▎     | 160647/371472 [1:42:02<15:40:28,  3.74it/s] 43%|████▎     | 160648/371472 [1:42:02<16:28:43,  3.55it/s] 43%|████▎     | 160649/371472 [1:42:03<17:23:47,  3.37it/s] 43%|████▎     | 160650/371472 [1:42:03<17:55:58,  3.27it/s] 43%|████▎     | 160651/371472 [1:42:03<16:37:35,  3.52it/s] 43%|████▎     | 160652/371472 [1:42:04<16:56:21,  3.46it/s] 43%|████▎     | 160653/371472 [1:42:04<17:08:58,  3.41it/s] 43%|████▎     | 160654/371472 [1:42:04<17:23:33,  3.37it/s] 43%|████▎     | 160655/371472 [1:42:05<17:16:49,  3.39it/s] 43%|████▎     | 160656/371472 [1:42:05<16:34:15,  3.53it/s] 43%|████▎     | 160657/371472 [1:42:05<17:17:18,  3.39it/s] 43%|████▎     | 160658/371472 [1:42:05<17:02:13,  3.44it/s] 43%|████▎     | 160659/371472 [1:42:06<16:12:11,  3.61it/s] 43%|████▎     | 160660/371472 [1:42:06<15:36:39,  3.75it/s]                                                            {'loss': 3.1291, 'learning_rate': 6.11029110732832e-07, 'epoch': 6.92}
 43%|████▎     | 160660/371472 [1:42:06<15:36:39,  3.75it/s] 43%|████▎     | 160661/371472 [1:42:06<15:46:46,  3.71it/s] 43%|████▎     | 160662/371472 [1:42:06<16:08:12,  3.63it/s] 43%|████▎     | 160663/371472 [1:42:07<16:07:16,  3.63it/s] 43%|████▎     | 160664/371472 [1:42:07<16:13:04,  3.61it/s] 43%|████▎     | 160665/371472 [1:42:07<17:05:31,  3.43it/s] 43%|████▎     | 160666/371472 [1:42:08<17:03:46,  3.43it/s] 43%|████▎     | 160667/371472 [1:42:08<17:19:35,  3.38it/s] 43%|████▎     | 160668/371472 [1:42:08<16:45:13,  3.50it/s] 43%|████▎     | 160669/371472 [1:42:09<17:08:17,  3.42it/s] 43%|████▎     | 160670/371472 [1:42:09<16:54:12,  3.46it/s] 43%|████▎     | 160671/371472 [1:42:09<16:36:20,  3.53it/s] 43%|████▎     | 160672/371472 [1:42:09<17:00:31,  3.44it/s] 43%|████▎     | 160673/371472 [1:42:10<17:03:14,  3.43it/s] 43%|████▎     | 160674/371472 [1:42:10<16:20:44,  3.58it/s] 43%|████▎     | 160675/371472 [1:42:10<17:17:54,  3.38it/s] 43%|████▎     | 160676/371472 [1:42:11<17:34:46,  3.33it/s] 43%|████▎     | 160677/371472 [1:42:11<17:12:03,  3.40it/s] 43%|████▎     | 160678/371472 [1:42:11<17:16:52,  3.39it/s] 43%|████▎     | 160679/371472 [1:42:11<18:06:34,  3.23it/s] 43%|████▎     | 160680/371472 [1:42:12<17:23:49,  3.37it/s]                                                            {'loss': 3.0425, 'learning_rate': 6.109806287573531e-07, 'epoch': 6.92}
 43%|████▎     | 160680/371472 [1:42:12<17:23:49,  3.37it/s] 43%|████▎     | 160681/371472 [1:42:12<16:57:38,  3.45it/s] 43%|████▎     | 160682/371472 [1:42:12<16:23:36,  3.57it/s] 43%|████▎     | 160683/371472 [1:42:13<15:58:08,  3.67it/s] 43%|████▎     | 160684/371472 [1:42:13<15:50:43,  3.70it/s] 43%|████▎     | 160685/371472 [1:42:13<17:16:58,  3.39it/s] 43%|████▎     | 160686/371472 [1:42:14<18:22:25,  3.19it/s] 43%|████▎     | 160687/371472 [1:42:14<17:44:26,  3.30it/s] 43%|████▎     | 160688/371472 [1:42:14<18:33:47,  3.15it/s] 43%|████▎     | 160689/371472 [1:42:14<17:53:22,  3.27it/s] 43%|████▎     | 160690/371472 [1:42:15<18:03:09,  3.24it/s] 43%|████▎     | 160691/371472 [1:42:15<17:07:24,  3.42it/s] 43%|████▎     | 160692/371472 [1:42:15<17:15:57,  3.39it/s] 43%|████▎     | 160693/371472 [1:42:16<16:43:44,  3.50it/s] 43%|████▎     | 160694/371472 [1:42:16<16:21:02,  3.58it/s] 43%|████▎     | 160695/371472 [1:42:16<16:19:45,  3.59it/s] 43%|████▎     | 160696/371472 [1:42:16<17:30:52,  3.34it/s] 43%|████▎     | 160697/371472 [1:42:17<17:04:36,  3.43it/s] 43%|████▎     | 160698/371472 [1:42:17<17:10:15,  3.41it/s] 43%|████▎     | 160699/371472 [1:42:17<17:37:59,  3.32it/s] 43%|████▎     | 160700/371472 [1:42:18<17:14:32,  3.40it/s]                                                            {'loss': 3.0232, 'learning_rate': 6.109321467818741e-07, 'epoch': 6.92}
 43%|████▎     | 160700/371472 [1:42:18<17:14:32,  3.40it/s] 43%|████▎     | 160701/371472 [1:42:18<17:18:17,  3.38it/s] 43%|████▎     | 160702/371472 [1:42:18<17:54:03,  3.27it/s] 43%|████▎     | 160703/371472 [1:42:18<17:01:23,  3.44it/s] 43%|████▎     | 160704/371472 [1:42:19<16:29:49,  3.55it/s] 43%|████▎     | 160705/371472 [1:42:19<16:01:09,  3.65it/s] 43%|████▎     | 160706/371472 [1:42:19<16:34:01,  3.53it/s] 43%|████▎     | 160707/371472 [1:42:20<16:30:35,  3.55it/s] 43%|████▎     | 160708/371472 [1:42:20<16:48:20,  3.48it/s] 43%|████▎     | 160709/371472 [1:42:20<16:26:03,  3.56it/s] 43%|████▎     | 160710/371472 [1:42:21<17:52:30,  3.28it/s] 43%|████▎     | 160711/371472 [1:42:21<18:00:29,  3.25it/s] 43%|████▎     | 160712/371472 [1:42:21<17:45:45,  3.30it/s] 43%|████▎     | 160713/371472 [1:42:21<17:09:55,  3.41it/s] 43%|████▎     | 160714/371472 [1:42:22<17:11:09,  3.41it/s] 43%|████▎     | 160715/371472 [1:42:22<17:00:36,  3.44it/s] 43%|████▎     | 160716/371472 [1:42:22<17:24:05,  3.36it/s] 43%|████▎     | 160717/371472 [1:42:23<17:36:16,  3.33it/s] 43%|████▎     | 160718/371472 [1:42:23<17:26:43,  3.36it/s] 43%|████▎     | 160719/371472 [1:42:23<17:09:52,  3.41it/s] 43%|████▎     | 160720/371472 [1:42:24<18:19:18,  3.20it/s]                                                            {'loss': 3.2055, 'learning_rate': 6.108836648063954e-07, 'epoch': 6.92}
 43%|████▎     | 160720/371472 [1:42:24<18:19:18,  3.20it/s] 43%|████▎     | 160721/371472 [1:42:24<17:33:16,  3.33it/s] 43%|████▎     | 160722/371472 [1:42:24<16:48:57,  3.48it/s] 43%|████▎     | 160723/371472 [1:42:24<15:53:29,  3.68it/s] 43%|████▎     | 160724/371472 [1:42:25<16:01:44,  3.65it/s] 43%|████▎     | 160725/371472 [1:42:25<15:57:56,  3.67it/s] 43%|████▎     | 160726/371472 [1:42:25<15:42:59,  3.72it/s] 43%|████▎     | 160727/371472 [1:42:25<15:33:25,  3.76it/s] 43%|████▎     | 160728/371472 [1:42:26<16:05:36,  3.64it/s] 43%|████▎     | 160729/371472 [1:42:26<16:12:53,  3.61it/s] 43%|████▎     | 160730/371472 [1:42:26<16:05:55,  3.64it/s] 43%|████▎     | 160731/371472 [1:42:26<16:21:45,  3.58it/s] 43%|████▎     | 160732/371472 [1:42:27<16:28:12,  3.55it/s] 43%|████▎     | 160733/371472 [1:42:27<17:27:13,  3.35it/s] 43%|████▎     | 160734/371472 [1:42:27<16:46:33,  3.49it/s] 43%|████▎     | 160735/371472 [1:42:28<17:03:43,  3.43it/s] 43%|████▎     | 160736/371472 [1:42:28<16:30:41,  3.55it/s] 43%|████▎     | 160737/371472 [1:42:28<16:22:20,  3.58it/s] 43%|████▎     | 160738/371472 [1:42:29<16:35:00,  3.53it/s] 43%|████▎     | 160739/371472 [1:42:29<16:33:58,  3.53it/s] 43%|████▎     | 160740/371472 [1:42:29<15:59:05,  3.66it/s]                                                            {'loss': 3.2638, 'learning_rate': 6.108351828309164e-07, 'epoch': 6.92}
 43%|████▎     | 160740/371472 [1:42:29<15:59:05,  3.66it/s] 43%|████▎     | 160741/371472 [1:42:29<16:10:00,  3.62it/s] 43%|████▎     | 160742/371472 [1:42:30<17:22:11,  3.37it/s] 43%|████▎     | 160743/371472 [1:42:30<17:12:17,  3.40it/s] 43%|████▎     | 160744/371472 [1:42:30<16:22:53,  3.57it/s] 43%|████▎     | 160745/371472 [1:42:30<16:04:57,  3.64it/s] 43%|████▎     | 160746/371472 [1:42:31<16:49:27,  3.48it/s] 43%|████▎     | 160747/371472 [1:42:31<16:49:31,  3.48it/s] 43%|████▎     | 160748/371472 [1:42:31<16:41:30,  3.51it/s] 43%|████▎     | 160749/371472 [1:42:32<16:56:22,  3.46it/s] 43%|████▎     | 160750/371472 [1:42:32<16:41:58,  3.51it/s] 43%|████▎     | 160751/371472 [1:42:32<17:03:44,  3.43it/s] 43%|████▎     | 160752/371472 [1:42:33<18:20:33,  3.19it/s] 43%|████▎     | 160753/371472 [1:42:33<17:34:30,  3.33it/s] 43%|████▎     | 160754/371472 [1:42:33<16:58:39,  3.45it/s] 43%|████▎     | 160755/371472 [1:42:33<16:52:56,  3.47it/s] 43%|████▎     | 160756/371472 [1:42:34<16:27:35,  3.56it/s] 43%|████▎     | 160757/371472 [1:42:34<16:08:57,  3.62it/s] 43%|████▎     | 160758/371472 [1:42:34<15:46:30,  3.71it/s] 43%|████▎     | 160759/371472 [1:42:34<15:31:47,  3.77it/s] 43%|████▎     | 160760/371472 [1:42:35<16:03:38,  3.64it/s]                                                            {'loss': 3.0464, 'learning_rate': 6.107867008554375e-07, 'epoch': 6.92}
 43%|████▎     | 160760/371472 [1:42:35<16:03:38,  3.64it/s] 43%|████▎     | 160761/371472 [1:42:35<15:50:40,  3.69it/s] 43%|████▎     | 160762/371472 [1:42:35<15:43:19,  3.72it/s] 43%|████▎     | 160763/371472 [1:42:36<16:25:15,  3.56it/s] 43%|████▎     | 160764/371472 [1:42:36<16:19:56,  3.58it/s] 43%|████▎     | 160765/371472 [1:42:36<17:21:36,  3.37it/s] 43%|████▎     | 160766/371472 [1:42:36<16:53:07,  3.47it/s] 43%|████▎     | 160767/371472 [1:42:37<16:25:50,  3.56it/s] 43%|████▎     | 160768/371472 [1:42:37<16:24:18,  3.57it/s] 43%|████▎     | 160769/371472 [1:42:37<16:24:28,  3.57it/s] 43%|████▎     | 160770/371472 [1:42:38<16:20:47,  3.58it/s] 43%|████▎     | 160771/371472 [1:42:38<16:17:19,  3.59it/s] 43%|████▎     | 160772/371472 [1:42:38<15:59:07,  3.66it/s] 43%|████▎     | 160773/371472 [1:42:38<16:38:06,  3.52it/s] 43%|████▎     | 160774/371472 [1:42:39<16:45:54,  3.49it/s] 43%|████▎     | 160775/371472 [1:42:39<16:22:37,  3.57it/s] 43%|████▎     | 160776/371472 [1:42:39<16:37:42,  3.52it/s] 43%|████▎     | 160777/371472 [1:42:40<16:09:37,  3.62it/s] 43%|████▎     | 160778/371472 [1:42:40<16:38:46,  3.52it/s] 43%|████▎     | 160779/371472 [1:42:40<16:47:46,  3.48it/s] 43%|████▎     | 160780/371472 [1:42:40<17:55:43,  3.26it/s]                                                            {'loss': 3.1037, 'learning_rate': 6.107382188799586e-07, 'epoch': 6.93}
 43%|████▎     | 160780/371472 [1:42:40<17:55:43,  3.26it/s] 43%|████▎     | 160781/371472 [1:42:41<17:36:47,  3.32it/s] 43%|████▎     | 160782/371472 [1:42:41<17:47:59,  3.29it/s] 43%|████▎     | 160783/371472 [1:42:41<17:03:15,  3.43it/s] 43%|████▎     | 160784/371472 [1:42:42<16:42:36,  3.50it/s] 43%|████▎     | 160785/371472 [1:42:42<16:12:42,  3.61it/s] 43%|████▎     | 160786/371472 [1:42:42<18:44:46,  3.12it/s] 43%|████▎     | 160787/371472 [1:42:43<18:52:51,  3.10it/s] 43%|████▎     | 160788/371472 [1:42:43<18:02:24,  3.24it/s] 43%|████▎     | 160789/371472 [1:42:43<17:11:20,  3.40it/s] 43%|████▎     | 160790/371472 [1:42:43<16:25:53,  3.56it/s] 43%|████▎     | 160791/371472 [1:42:44<16:44:58,  3.49it/s] 43%|████▎     | 160792/371472 [1:42:44<16:17:46,  3.59it/s] 43%|████▎     | 160793/371472 [1:42:44<16:06:29,  3.63it/s] 43%|████▎     | 160794/371472 [1:42:44<15:59:44,  3.66it/s] 43%|████▎     | 160795/371472 [1:42:45<15:46:10,  3.71it/s] 43%|████▎     | 160796/371472 [1:42:45<16:32:09,  3.54it/s] 43%|████▎     | 160797/371472 [1:42:45<16:57:37,  3.45it/s] 43%|████▎     | 160798/371472 [1:42:46<16:06:25,  3.63it/s] 43%|████▎     | 160799/371472 [1:42:46<15:24:04,  3.80it/s] 43%|████▎     | 160800/371472 [1:42:46<16:10:13,  3.62it/s]                                                            {'loss': 3.2806, 'learning_rate': 6.106897369044797e-07, 'epoch': 6.93}
 43%|████▎     | 160800/371472 [1:42:46<16:10:13,  3.62it/s] 43%|████▎     | 160801/371472 [1:42:46<16:23:49,  3.57it/s] 43%|████▎     | 160802/371472 [1:42:47<16:20:17,  3.58it/s] 43%|████▎     | 160803/371472 [1:42:47<15:38:39,  3.74it/s] 43%|████▎     | 160804/371472 [1:42:47<15:48:04,  3.70it/s] 43%|████▎     | 160805/371472 [1:42:48<16:03:30,  3.64it/s] 43%|████▎     | 160806/371472 [1:42:48<15:37:35,  3.74it/s] 43%|████▎     | 160807/371472 [1:42:48<15:50:15,  3.69it/s] 43%|████▎     | 160808/371472 [1:42:48<15:35:51,  3.75it/s] 43%|████▎     | 160809/371472 [1:42:49<15:09:24,  3.86it/s] 43%|████▎     | 160810/371472 [1:42:49<15:57:44,  3.67it/s] 43%|████▎     | 160811/371472 [1:42:49<15:55:57,  3.67it/s] 43%|████▎     | 160812/371472 [1:42:49<15:52:28,  3.69it/s] 43%|████▎     | 160813/371472 [1:42:50<17:03:36,  3.43it/s] 43%|████▎     | 160814/371472 [1:42:50<16:45:14,  3.49it/s] 43%|████▎     | 160815/371472 [1:42:50<16:53:43,  3.46it/s] 43%|████▎     | 160816/371472 [1:42:51<16:30:24,  3.54it/s] 43%|████▎     | 160817/371472 [1:42:51<15:56:33,  3.67it/s] 43%|████▎     | 160818/371472 [1:42:51<15:59:49,  3.66it/s] 43%|████▎     | 160819/371472 [1:42:51<16:11:05,  3.62it/s] 43%|████▎     | 160820/371472 [1:42:52<16:43:18,  3.50it/s]                                                            {'loss': 3.1569, 'learning_rate': 6.106412549290008e-07, 'epoch': 6.93}
 43%|████▎     | 160820/371472 [1:42:52<16:43:18,  3.50it/s] 43%|████▎     | 160821/371472 [1:42:52<17:28:37,  3.35it/s] 43%|████▎     | 160822/371472 [1:42:52<17:47:43,  3.29it/s] 43%|████▎     | 160823/371472 [1:42:53<19:03:31,  3.07it/s] 43%|████▎     | 160824/371472 [1:42:53<17:56:54,  3.26it/s] 43%|████▎     | 160825/371472 [1:42:53<16:57:28,  3.45it/s] 43%|████▎     | 160826/371472 [1:42:54<22:20:16,  2.62it/s] 43%|████▎     | 160827/371472 [1:42:54<19:52:41,  2.94it/s] 43%|████▎     | 160828/371472 [1:42:54<18:45:22,  3.12it/s] 43%|████▎     | 160829/371472 [1:42:55<18:50:24,  3.11it/s] 43%|████▎     | 160830/371472 [1:42:55<17:48:17,  3.29it/s] 43%|████▎     | 160831/371472 [1:42:55<16:42:14,  3.50it/s] 43%|████▎     | 160832/371472 [1:42:55<17:26:58,  3.35it/s] 43%|████▎     | 160833/371472 [1:42:56<17:25:43,  3.36it/s] 43%|████▎     | 160834/371472 [1:42:56<16:54:52,  3.46it/s] 43%|████▎     | 160835/371472 [1:42:56<17:30:06,  3.34it/s] 43%|████▎     | 160836/371472 [1:42:57<16:55:50,  3.46it/s] 43%|████▎     | 160837/371472 [1:42:57<16:35:03,  3.53it/s] 43%|████▎     | 160838/371472 [1:42:57<16:08:20,  3.63it/s] 43%|████▎     | 160839/371472 [1:42:57<16:26:57,  3.56it/s] 43%|████▎     | 160840/371472 [1:42:58<16:15:58,  3.60it/s]                                                            {'loss': 3.1176, 'learning_rate': 6.105927729535219e-07, 'epoch': 6.93}
 43%|████▎     | 160840/371472 [1:42:58<16:15:58,  3.60it/s] 43%|████▎     | 160841/371472 [1:42:58<15:51:57,  3.69it/s] 43%|████▎     | 160842/371472 [1:42:58<15:46:05,  3.71it/s] 43%|████▎     | 160843/371472 [1:42:59<16:02:52,  3.65it/s] 43%|████▎     | 160844/371472 [1:42:59<15:44:19,  3.72it/s] 43%|████▎     | 160845/371472 [1:42:59<15:20:04,  3.82it/s] 43%|████▎     | 160846/371472 [1:42:59<15:30:28,  3.77it/s] 43%|████▎     | 160847/371472 [1:43:00<16:46:58,  3.49it/s] 43%|████▎     | 160848/371472 [1:43:00<16:53:49,  3.46it/s] 43%|████▎     | 160849/371472 [1:43:00<17:04:14,  3.43it/s] 43%|████▎     | 160850/371472 [1:43:01<16:49:38,  3.48it/s] 43%|████▎     | 160851/371472 [1:43:01<15:58:50,  3.66it/s] 43%|████▎     | 160852/371472 [1:43:01<15:52:02,  3.69it/s] 43%|████▎     | 160853/371472 [1:43:01<15:29:53,  3.77it/s] 43%|████▎     | 160854/371472 [1:43:02<15:24:53,  3.80it/s] 43%|████▎     | 160855/371472 [1:43:02<15:13:24,  3.84it/s] 43%|████▎     | 160856/371472 [1:43:02<15:14:10,  3.84it/s] 43%|████▎     | 160857/371472 [1:43:02<16:01:01,  3.65it/s] 43%|████▎     | 160858/371472 [1:43:03<16:09:07,  3.62it/s] 43%|████▎     | 160859/371472 [1:43:03<15:41:26,  3.73it/s] 43%|████▎     | 160860/371472 [1:43:03<15:42:02,  3.73it/s]                                                            {'loss': 3.2909, 'learning_rate': 6.10544290978043e-07, 'epoch': 6.93}
 43%|████▎     | 160860/371472 [1:43:03<15:42:02,  3.73it/s] 43%|████▎     | 160861/371472 [1:43:03<15:51:40,  3.69it/s] 43%|████▎     | 160862/371472 [1:43:04<15:46:21,  3.71it/s] 43%|████▎     | 160863/371472 [1:43:04<16:51:54,  3.47it/s] 43%|████▎     | 160864/371472 [1:43:04<16:16:12,  3.60it/s] 43%|████▎     | 160865/371472 [1:43:05<16:17:54,  3.59it/s] 43%|████▎     | 160866/371472 [1:43:05<16:19:46,  3.58it/s] 43%|████▎     | 160867/371472 [1:43:05<16:51:47,  3.47it/s] 43%|████▎     | 160868/371472 [1:43:05<16:39:21,  3.51it/s] 43%|████▎     | 160869/371472 [1:43:06<16:35:39,  3.53it/s] 43%|████▎     | 160870/371472 [1:43:06<16:08:31,  3.62it/s] 43%|████▎     | 160871/371472 [1:43:06<16:12:54,  3.61it/s] 43%|████▎     | 160872/371472 [1:43:07<15:56:05,  3.67it/s] 43%|████▎     | 160873/371472 [1:43:07<16:38:19,  3.52it/s] 43%|████▎     | 160874/371472 [1:43:07<16:00:05,  3.66it/s] 43%|████▎     | 160875/371472 [1:43:07<16:51:51,  3.47it/s] 43%|████▎     | 160876/371472 [1:43:08<17:36:04,  3.32it/s] 43%|████▎     | 160877/371472 [1:43:08<17:36:38,  3.32it/s] 43%|████▎     | 160878/371472 [1:43:08<17:11:31,  3.40it/s] 43%|████▎     | 160879/371472 [1:43:09<16:50:06,  3.47it/s] 43%|████▎     | 160880/371472 [1:43:09<16:54:38,  3.46it/s]                                                            {'loss': 3.2929, 'learning_rate': 6.104958090025641e-07, 'epoch': 6.93}
 43%|████▎     | 160880/371472 [1:43:09<16:54:38,  3.46it/s] 43%|████▎     | 160881/371472 [1:43:09<17:36:24,  3.32it/s] 43%|████▎     | 160882/371472 [1:43:09<16:50:41,  3.47it/s] 43%|████▎     | 160883/371472 [1:43:10<18:11:18,  3.22it/s] 43%|████▎     | 160884/371472 [1:43:10<18:05:03,  3.23it/s] 43%|████▎     | 160885/371472 [1:43:10<17:49:07,  3.28it/s] 43%|████▎     | 160886/371472 [1:43:11<17:21:55,  3.37it/s] 43%|████▎     | 160887/371472 [1:43:11<16:32:14,  3.54it/s] 43%|████▎     | 160888/371472 [1:43:11<17:39:53,  3.31it/s] 43%|████▎     | 160889/371472 [1:43:12<17:25:29,  3.36it/s] 43%|████▎     | 160890/371472 [1:43:12<17:19:36,  3.38it/s] 43%|████▎     | 160891/371472 [1:43:12<17:03:13,  3.43it/s] 43%|████▎     | 160892/371472 [1:43:12<17:06:26,  3.42it/s] 43%|████▎     | 160893/371472 [1:43:13<16:47:44,  3.48it/s] 43%|████▎     | 160894/371472 [1:43:13<16:44:26,  3.49it/s] 43%|████▎     | 160895/371472 [1:43:13<16:53:19,  3.46it/s] 43%|████▎     | 160896/371472 [1:43:14<17:07:41,  3.42it/s] 43%|████▎     | 160897/371472 [1:43:14<16:36:46,  3.52it/s] 43%|████▎     | 160898/371472 [1:43:14<16:13:01,  3.61it/s] 43%|████▎     | 160899/371472 [1:43:14<16:10:54,  3.61it/s] 43%|████▎     | 160900/371472 [1:43:15<15:52:29,  3.68it/s]                                                            {'loss': 3.0129, 'learning_rate': 6.104473270270853e-07, 'epoch': 6.93}
 43%|████▎     | 160900/371472 [1:43:15<15:52:29,  3.68it/s] 43%|████▎     | 160901/371472 [1:43:15<15:33:39,  3.76it/s] 43%|████▎     | 160902/371472 [1:43:15<15:50:21,  3.69it/s] 43%|████▎     | 160903/371472 [1:43:15<15:51:06,  3.69it/s] 43%|████▎     | 160904/371472 [1:43:16<15:56:20,  3.67it/s] 43%|████▎     | 160905/371472 [1:43:16<15:54:21,  3.68it/s] 43%|████▎     | 160906/371472 [1:43:16<16:34:35,  3.53it/s] 43%|████▎     | 160907/371472 [1:43:17<16:11:08,  3.61it/s] 43%|████▎     | 160908/371472 [1:43:17<16:21:12,  3.58it/s] 43%|████▎     | 160909/371472 [1:43:17<16:40:13,  3.51it/s] 43%|████▎     | 160910/371472 [1:43:18<17:27:50,  3.35it/s] 43%|████▎     | 160911/371472 [1:43:18<17:31:36,  3.34it/s] 43%|████▎     | 160912/371472 [1:43:18<16:38:10,  3.52it/s] 43%|████▎     | 160913/371472 [1:43:18<16:09:21,  3.62it/s] 43%|████▎     | 160914/371472 [1:43:19<16:12:25,  3.61it/s] 43%|████▎     | 160915/371472 [1:43:19<15:59:30,  3.66it/s] 43%|████▎     | 160916/371472 [1:43:19<17:16:47,  3.38it/s] 43%|████▎     | 160917/371472 [1:43:19<16:44:16,  3.49it/s] 43%|████▎     | 160918/371472 [1:43:20<16:49:45,  3.48it/s] 43%|████▎     | 160919/371472 [1:43:20<17:08:44,  3.41it/s] 43%|████▎     | 160920/371472 [1:43:20<17:03:27,  3.43it/s]                                                            {'loss': 3.1897, 'learning_rate': 6.103988450516064e-07, 'epoch': 6.93}
 43%|████▎     | 160920/371472 [1:43:20<17:03:27,  3.43it/s] 43%|████▎     | 160921/371472 [1:43:21<16:31:15,  3.54it/s] 43%|████▎     | 160922/371472 [1:43:21<16:11:53,  3.61it/s] 43%|████▎     | 160923/371472 [1:43:21<16:22:16,  3.57it/s] 43%|████▎     | 160924/371472 [1:43:21<17:01:35,  3.43it/s] 43%|████▎     | 160925/371472 [1:43:22<16:19:26,  3.58it/s] 43%|████▎     | 160926/371472 [1:43:22<16:12:05,  3.61it/s] 43%|████▎     | 160927/371472 [1:43:22<16:02:53,  3.64it/s] 43%|████▎     | 160928/371472 [1:43:23<16:05:29,  3.63it/s] 43%|████▎     | 160929/371472 [1:43:23<15:34:42,  3.75it/s] 43%|████▎     | 160930/371472 [1:43:23<15:33:34,  3.76it/s] 43%|████▎     | 160931/371472 [1:43:23<15:27:30,  3.78it/s] 43%|████▎     | 160932/371472 [1:43:24<15:41:27,  3.73it/s] 43%|████▎     | 160933/371472 [1:43:24<16:03:31,  3.64it/s] 43%|████▎     | 160934/371472 [1:43:24<17:41:41,  3.31it/s] 43%|████▎     | 160935/371472 [1:43:25<17:03:07,  3.43it/s] 43%|████▎     | 160936/371472 [1:43:25<16:22:42,  3.57it/s] 43%|████▎     | 160937/371472 [1:43:25<16:18:57,  3.58it/s] 43%|████▎     | 160938/371472 [1:43:25<16:22:02,  3.57it/s] 43%|████▎     | 160939/371472 [1:43:26<17:13:51,  3.39it/s] 43%|████▎     | 160940/371472 [1:43:26<16:17:19,  3.59it/s]                                                            {'loss': 3.164, 'learning_rate': 6.103503630761275e-07, 'epoch': 6.93}
 43%|████▎     | 160940/371472 [1:43:26<16:17:19,  3.59it/s] 43%|████▎     | 160941/371472 [1:43:26<16:05:36,  3.63it/s] 43%|████▎     | 160942/371472 [1:43:26<16:19:41,  3.58it/s] 43%|████▎     | 160943/371472 [1:43:27<16:07:38,  3.63it/s] 43%|████▎     | 160944/371472 [1:43:27<15:45:13,  3.71it/s] 43%|████▎     | 160945/371472 [1:43:27<15:18:32,  3.82it/s] 43%|████▎     | 160946/371472 [1:43:28<15:58:12,  3.66it/s] 43%|████▎     | 160947/371472 [1:43:28<15:38:25,  3.74it/s] 43%|████▎     | 160948/371472 [1:43:28<15:53:04,  3.68it/s] 43%|████▎     | 160949/371472 [1:43:28<15:56:36,  3.67it/s] 43%|████▎     | 160950/371472 [1:43:29<16:11:22,  3.61it/s] 43%|████▎     | 160951/371472 [1:43:29<17:27:01,  3.35it/s] 43%|████▎     | 160952/371472 [1:43:29<17:03:53,  3.43it/s] 43%|████▎     | 160953/371472 [1:43:30<16:31:41,  3.54it/s] 43%|████▎     | 160954/371472 [1:43:30<18:04:06,  3.24it/s] 43%|████▎     | 160955/371472 [1:43:30<17:58:56,  3.25it/s] 43%|████▎     | 160956/371472 [1:43:30<17:35:26,  3.32it/s] 43%|████▎     | 160957/371472 [1:43:31<17:00:17,  3.44it/s] 43%|████▎     | 160958/371472 [1:43:31<17:26:22,  3.35it/s] 43%|████▎     | 160959/371472 [1:43:31<16:48:21,  3.48it/s] 43%|████▎     | 160960/371472 [1:43:32<16:17:38,  3.59it/s]                                                            {'loss': 3.0007, 'learning_rate': 6.103018811006485e-07, 'epoch': 6.93}
 43%|████▎     | 160960/371472 [1:43:32<16:17:38,  3.59it/s] 43%|████▎     | 160961/371472 [1:43:32<15:56:02,  3.67it/s] 43%|████▎     | 160962/371472 [1:43:32<16:47:53,  3.48it/s] 43%|████▎     | 160963/371472 [1:43:32<16:32:16,  3.54it/s] 43%|████▎     | 160964/371472 [1:43:33<16:28:40,  3.55it/s] 43%|████▎     | 160965/371472 [1:43:33<16:37:36,  3.52it/s] 43%|████▎     | 160966/371472 [1:43:33<16:21:20,  3.58it/s] 43%|████▎     | 160967/371472 [1:43:34<17:00:35,  3.44it/s] 43%|████▎     | 160968/371472 [1:43:34<16:40:20,  3.51it/s] 43%|████▎     | 160969/371472 [1:43:34<16:46:18,  3.49it/s] 43%|████▎     | 160970/371472 [1:43:34<17:13:06,  3.40it/s] 43%|████▎     | 160971/371472 [1:43:35<16:56:01,  3.45it/s] 43%|████▎     | 160972/371472 [1:43:35<16:41:03,  3.50it/s] 43%|████▎     | 160973/371472 [1:43:35<16:18:53,  3.58it/s] 43%|████▎     | 160974/371472 [1:43:36<16:22:37,  3.57it/s] 43%|████▎     | 160975/371472 [1:43:36<16:10:58,  3.61it/s] 43%|████▎     | 160976/371472 [1:43:36<16:23:32,  3.57it/s] 43%|████▎     | 160977/371472 [1:43:36<16:49:08,  3.48it/s] 43%|████▎     | 160978/371472 [1:43:37<16:27:56,  3.55it/s] 43%|████▎     | 160979/371472 [1:43:37<16:13:13,  3.60it/s] 43%|████▎     | 160980/371472 [1:43:37<15:40:22,  3.73it/s]                                                            {'loss': 3.1992, 'learning_rate': 6.102533991251697e-07, 'epoch': 6.93}
 43%|████▎     | 160980/371472 [1:43:37<15:40:22,  3.73it/s] 43%|████▎     | 160981/371472 [1:43:38<17:04:24,  3.42it/s] 43%|████▎     | 160982/371472 [1:43:38<17:04:40,  3.42it/s] 43%|████▎     | 160983/371472 [1:43:38<17:14:32,  3.39it/s] 43%|████▎     | 160984/371472 [1:43:38<16:28:25,  3.55it/s] 43%|████▎     | 160985/371472 [1:43:39<16:12:34,  3.61it/s] 43%|████▎     | 160986/371472 [1:43:39<16:24:18,  3.56it/s] 43%|████▎     | 160987/371472 [1:43:39<17:57:00,  3.26it/s] 43%|████▎     | 160988/371472 [1:43:40<17:14:30,  3.39it/s] 43%|████▎     | 160989/371472 [1:43:40<16:51:58,  3.47it/s] 43%|████▎     | 160990/371472 [1:43:40<17:25:29,  3.36it/s] 43%|████▎     | 160991/371472 [1:43:40<17:17:40,  3.38it/s] 43%|████▎     | 160992/371472 [1:43:41<16:51:27,  3.47it/s] 43%|████▎     | 160993/371472 [1:43:41<16:25:06,  3.56it/s] 43%|████▎     | 160994/371472 [1:43:41<16:25:11,  3.56it/s] 43%|████▎     | 160995/371472 [1:43:42<17:37:12,  3.32it/s] 43%|████▎     | 160996/371472 [1:43:42<17:40:06,  3.31it/s] 43%|████▎     | 160997/371472 [1:43:42<20:08:30,  2.90it/s] 43%|████▎     | 160998/371472 [1:43:43<19:05:09,  3.06it/s] 43%|████▎     | 160999/371472 [1:43:43<17:59:52,  3.25it/s] 43%|████▎     | 161000/371472 [1:43:43<17:36:56,  3.32it/s]                                                            {'loss': 3.0806, 'learning_rate': 6.102049171496908e-07, 'epoch': 6.93}
 43%|████▎     | 161000/371472 [1:43:43<17:36:56,  3.32it/s] 43%|████▎     | 161001/371472 [1:43:44<17:32:26,  3.33it/s] 43%|████▎     | 161002/371472 [1:43:44<16:44:39,  3.49it/s] 43%|████▎     | 161003/371472 [1:43:44<17:54:52,  3.26it/s] 43%|████▎     | 161004/371472 [1:43:44<17:15:58,  3.39it/s] 43%|████▎     | 161005/371472 [1:43:45<16:36:25,  3.52it/s] 43%|████▎     | 161006/371472 [1:43:45<17:42:53,  3.30it/s] 43%|████▎     | 161007/371472 [1:43:45<16:51:47,  3.47it/s] 43%|████▎     | 161008/371472 [1:43:46<17:40:16,  3.31it/s] 43%|████▎     | 161009/371472 [1:43:46<18:38:29,  3.14it/s] 43%|████▎     | 161010/371472 [1:43:46<17:26:31,  3.35it/s] 43%|████▎     | 161011/371472 [1:43:46<17:32:02,  3.33it/s] 43%|████▎     | 161012/371472 [1:43:47<17:00:56,  3.44it/s] 43%|████▎     | 161013/371472 [1:43:47<16:57:35,  3.45it/s] 43%|████▎     | 161014/371472 [1:43:47<16:35:41,  3.52it/s] 43%|████▎     | 161015/371472 [1:43:48<16:46:16,  3.49it/s] 43%|████▎     | 161016/371472 [1:43:48<16:43:42,  3.49it/s] 43%|████▎     | 161017/371472 [1:43:48<16:46:07,  3.49it/s] 43%|████▎     | 161018/371472 [1:43:48<16:38:31,  3.51it/s] 43%|████▎     | 161019/371472 [1:43:49<17:21:32,  3.37it/s] 43%|████▎     | 161020/371472 [1:43:49<18:17:20,  3.20it/s]                                                            {'loss': 3.2249, 'learning_rate': 6.101564351742119e-07, 'epoch': 6.94}
 43%|████▎     | 161020/371472 [1:43:49<18:17:20,  3.20it/s] 43%|████▎     | 161021/371472 [1:43:49<17:10:08,  3.40it/s] 43%|████▎     | 161022/371472 [1:43:50<17:41:04,  3.31it/s] 43%|████▎     | 161023/371472 [1:43:50<17:39:18,  3.31it/s] 43%|████▎     | 161024/371472 [1:43:50<18:11:03,  3.21it/s] 43%|████▎     | 161025/371472 [1:43:51<17:32:16,  3.33it/s] 43%|████▎     | 161026/371472 [1:43:51<17:20:58,  3.37it/s] 43%|████▎     | 161027/371472 [1:43:51<17:19:08,  3.38it/s] 43%|████▎     | 161028/371472 [1:43:51<16:50:46,  3.47it/s] 43%|████▎     | 161029/371472 [1:43:52<17:17:07,  3.38it/s] 43%|████▎     | 161030/371472 [1:43:52<17:26:15,  3.35it/s] 43%|████▎     | 161031/371472 [1:43:52<17:59:30,  3.25it/s] 43%|████▎     | 161032/371472 [1:43:53<17:50:07,  3.28it/s] 43%|████▎     | 161033/371472 [1:43:53<16:51:25,  3.47it/s] 43%|████▎     | 161034/371472 [1:43:53<16:45:34,  3.49it/s] 43%|████▎     | 161035/371472 [1:43:54<16:11:12,  3.61it/s] 43%|████▎     | 161036/371472 [1:43:54<16:08:42,  3.62it/s] 43%|████▎     | 161037/371472 [1:43:54<15:52:37,  3.68it/s] 43%|████▎     | 161038/371472 [1:43:54<16:09:27,  3.62it/s] 43%|████▎     | 161039/371472 [1:43:55<16:26:37,  3.55it/s] 43%|████▎     | 161040/371472 [1:43:55<15:51:53,  3.68it/s]                                                            {'loss': 3.0731, 'learning_rate': 6.10107953198733e-07, 'epoch': 6.94}
 43%|████▎     | 161040/371472 [1:43:55<15:51:53,  3.68it/s] 43%|████▎     | 161041/371472 [1:43:55<15:29:56,  3.77it/s] 43%|████▎     | 161042/371472 [1:43:55<15:09:43,  3.86it/s] 43%|████▎     | 161043/371472 [1:43:56<15:13:11,  3.84it/s] 43%|████▎     | 161044/371472 [1:43:56<15:54:38,  3.67it/s] 43%|████▎     | 161045/371472 [1:43:56<15:45:21,  3.71it/s] 43%|████▎     | 161046/371472 [1:43:56<15:18:11,  3.82it/s] 43%|████▎     | 161047/371472 [1:43:57<15:18:16,  3.82it/s] 43%|████▎     | 161048/371472 [1:43:57<15:43:35,  3.72it/s] 43%|████▎     | 161049/371472 [1:43:57<16:58:29,  3.44it/s] 43%|████▎     | 161050/371472 [1:43:58<17:09:12,  3.41it/s] 43%|████▎     | 161051/371472 [1:43:58<16:00:03,  3.65it/s] 43%|████▎     | 161052/371472 [1:43:58<15:52:56,  3.68it/s] 43%|████▎     | 161053/371472 [1:43:58<16:08:58,  3.62it/s] 43%|████▎     | 161054/371472 [1:43:59<16:32:10,  3.53it/s] 43%|████▎     | 161055/371472 [1:43:59<16:43:49,  3.49it/s] 43%|████▎     | 161056/371472 [1:43:59<16:15:00,  3.60it/s] 43%|████▎     | 161057/371472 [1:44:00<16:37:53,  3.51it/s] 43%|████▎     | 161058/371472 [1:44:00<16:17:25,  3.59it/s] 43%|████▎     | 161059/371472 [1:44:00<16:25:13,  3.56it/s] 43%|████▎     | 161060/371472 [1:44:00<16:25:48,  3.56it/s]                                                            {'loss': 3.0782, 'learning_rate': 6.100594712232541e-07, 'epoch': 6.94}
 43%|████▎     | 161060/371472 [1:44:00<16:25:48,  3.56it/s] 43%|████▎     | 161061/371472 [1:44:01<16:02:44,  3.64it/s] 43%|████▎     | 161062/371472 [1:44:01<16:05:03,  3.63it/s] 43%|████▎     | 161063/371472 [1:44:01<16:15:44,  3.59it/s] 43%|████▎     | 161064/371472 [1:44:01<15:44:07,  3.71it/s] 43%|████▎     | 161065/371472 [1:44:02<16:10:46,  3.61it/s] 43%|████▎     | 161066/371472 [1:44:02<16:29:17,  3.54it/s] 43%|████▎     | 161067/371472 [1:44:02<16:32:08,  3.53it/s] 43%|████▎     | 161068/371472 [1:44:03<16:24:59,  3.56it/s] 43%|████▎     | 161069/371472 [1:44:03<16:19:11,  3.58it/s] 43%|████▎     | 161070/371472 [1:44:03<16:03:35,  3.64it/s] 43%|████▎     | 161071/371472 [1:44:03<16:33:51,  3.53it/s] 43%|████▎     | 161072/371472 [1:44:04<16:46:50,  3.48it/s] 43%|████▎     | 161073/371472 [1:44:04<16:25:49,  3.56it/s] 43%|████▎     | 161074/371472 [1:44:04<16:35:52,  3.52it/s] 43%|████▎     | 161075/371472 [1:44:05<17:25:20,  3.35it/s] 43%|████▎     | 161076/371472 [1:44:05<17:04:54,  3.42it/s] 43%|████▎     | 161077/371472 [1:44:05<16:30:37,  3.54it/s] 43%|████▎     | 161078/371472 [1:44:05<16:13:15,  3.60it/s] 43%|████▎     | 161079/371472 [1:44:06<16:30:31,  3.54it/s] 43%|████▎     | 161080/371472 [1:44:06<16:19:02,  3.58it/s]                                                            {'loss': 3.2165, 'learning_rate': 6.100109892477752e-07, 'epoch': 6.94}
 43%|████▎     | 161080/371472 [1:44:06<16:19:02,  3.58it/s] 43%|████▎     | 161081/371472 [1:44:06<16:03:26,  3.64it/s] 43%|████▎     | 161082/371472 [1:44:07<15:51:37,  3.68it/s] 43%|████▎     | 161083/371472 [1:44:07<16:33:29,  3.53it/s] 43%|████▎     | 161084/371472 [1:44:07<16:07:55,  3.62it/s] 43%|████▎     | 161085/371472 [1:44:07<15:54:09,  3.67it/s] 43%|████▎     | 161086/371472 [1:44:08<16:36:19,  3.52it/s] 43%|████▎     | 161087/371472 [1:44:08<16:55:21,  3.45it/s] 43%|████▎     | 161088/371472 [1:44:08<16:35:07,  3.52it/s] 43%|████▎     | 161089/371472 [1:44:09<17:26:23,  3.35it/s] 43%|████▎     | 161090/371472 [1:44:09<18:36:04,  3.14it/s] 43%|████▎     | 161091/371472 [1:44:09<17:36:17,  3.32it/s] 43%|████▎     | 161092/371472 [1:44:10<17:26:03,  3.35it/s] 43%|████▎     | 161093/371472 [1:44:10<16:36:15,  3.52it/s] 43%|████▎     | 161094/371472 [1:44:10<17:19:24,  3.37it/s] 43%|████▎     | 161095/371472 [1:44:10<18:23:56,  3.18it/s] 43%|████▎     | 161096/371472 [1:44:11<17:49:40,  3.28it/s] 43%|████▎     | 161097/371472 [1:44:11<18:25:46,  3.17it/s] 43%|████▎     | 161098/371472 [1:44:11<17:58:26,  3.25it/s] 43%|████▎     | 161099/371472 [1:44:12<16:59:47,  3.44it/s] 43%|████▎     | 161100/371472 [1:44:12<16:58:10,  3.44it/s]                                                            {'loss': 3.135, 'learning_rate': 6.099625072722962e-07, 'epoch': 6.94}
 43%|████▎     | 161100/371472 [1:44:12<16:58:10,  3.44it/s] 43%|████▎     | 161101/371472 [1:44:12<16:56:22,  3.45it/s] 43%|████▎     | 161102/371472 [1:44:12<17:07:13,  3.41it/s] 43%|████▎     | 161103/371472 [1:44:13<18:00:35,  3.24it/s] 43%|████▎     | 161104/371472 [1:44:13<17:59:43,  3.25it/s] 43%|████▎     | 161105/371472 [1:44:13<17:10:42,  3.40it/s] 43%|████▎     | 161106/371472 [1:44:14<16:43:03,  3.50it/s] 43%|████▎     | 161107/371472 [1:44:14<16:18:56,  3.58it/s] 43%|████▎     | 161108/371472 [1:44:14<16:16:18,  3.59it/s] 43%|████▎     | 161109/371472 [1:44:14<15:53:10,  3.68it/s] 43%|████▎     | 161110/371472 [1:44:15<16:12:50,  3.60it/s] 43%|████▎     | 161111/371472 [1:44:15<16:01:05,  3.65it/s] 43%|████▎     | 161112/371472 [1:44:15<16:05:25,  3.63it/s] 43%|████▎     | 161113/371472 [1:44:16<16:02:24,  3.64it/s] 43%|████▎     | 161114/371472 [1:44:16<15:45:36,  3.71it/s] 43%|████▎     | 161115/371472 [1:44:16<15:30:56,  3.77it/s] 43%|████▎     | 161116/371472 [1:44:16<15:45:10,  3.71it/s] 43%|████▎     | 161117/371472 [1:44:17<17:52:43,  3.27it/s] 43%|████▎     | 161118/371472 [1:44:17<17:25:08,  3.35it/s] 43%|████▎     | 161119/371472 [1:44:17<16:58:50,  3.44it/s] 43%|████▎     | 161120/371472 [1:44:18<16:23:06,  3.57it/s]                                                            {'loss': 3.2222, 'learning_rate': 6.099140252968174e-07, 'epoch': 6.94}
 43%|████▎     | 161120/371472 [1:44:18<16:23:06,  3.57it/s] 43%|████▎     | 161121/371472 [1:44:18<16:08:01,  3.62it/s] 43%|████▎     | 161122/371472 [1:44:18<15:40:16,  3.73it/s] 43%|████▎     | 161123/371472 [1:44:18<15:25:33,  3.79it/s] 43%|████▎     | 161124/371472 [1:44:19<17:35:28,  3.32it/s] 43%|████▎     | 161125/371472 [1:44:19<16:34:45,  3.52it/s] 43%|████▎     | 161126/371472 [1:44:19<16:40:16,  3.50it/s] 43%|████▎     | 161127/371472 [1:44:20<17:02:29,  3.43it/s] 43%|████▎     | 161128/371472 [1:44:20<16:37:25,  3.51it/s] 43%|████▎     | 161129/371472 [1:44:20<16:54:26,  3.46it/s] 43%|████▎     | 161130/371472 [1:44:20<16:51:12,  3.47it/s] 43%|████▎     | 161131/371472 [1:44:21<16:17:41,  3.59it/s] 43%|████▎     | 161132/371472 [1:44:21<16:07:28,  3.62it/s] 43%|████▎     | 161133/371472 [1:44:21<16:19:08,  3.58it/s] 43%|████▎     | 161134/371472 [1:44:22<16:17:48,  3.59it/s] 43%|████▎     | 161135/371472 [1:44:22<15:50:09,  3.69it/s] 43%|████▎     | 161136/371472 [1:44:22<16:39:27,  3.51it/s] 43%|████▎     | 161137/371472 [1:44:22<16:32:58,  3.53it/s] 43%|████▎     | 161138/371472 [1:44:23<16:08:03,  3.62it/s] 43%|████▎     | 161139/371472 [1:44:23<15:50:17,  3.69it/s] 43%|████▎     | 161140/371472 [1:44:23<15:32:27,  3.76it/s]                                                            {'loss': 3.1993, 'learning_rate': 6.098655433213384e-07, 'epoch': 6.94}
 43%|████▎     | 161140/371472 [1:44:23<15:32:27,  3.76it/s] 43%|████▎     | 161141/371472 [1:44:23<15:36:41,  3.74it/s] 43%|████▎     | 161142/371472 [1:44:24<16:36:30,  3.52it/s] 43%|████▎     | 161143/371472 [1:44:24<16:37:26,  3.51it/s] 43%|████▎     | 161144/371472 [1:44:24<17:30:40,  3.34it/s] 43%|████▎     | 161145/371472 [1:44:25<17:52:42,  3.27it/s] 43%|████▎     | 161146/371472 [1:44:25<17:25:18,  3.35it/s] 43%|████▎     | 161147/371472 [1:44:25<16:53:06,  3.46it/s] 43%|████▎     | 161148/371472 [1:44:26<17:20:06,  3.37it/s] 43%|████▎     | 161149/371472 [1:44:26<16:37:07,  3.52it/s] 43%|████▎     | 161150/371472 [1:44:26<16:56:33,  3.45it/s] 43%|████▎     | 161151/371472 [1:44:26<16:40:28,  3.50it/s] 43%|████▎     | 161152/371472 [1:44:27<16:44:26,  3.49it/s] 43%|████▎     | 161153/371472 [1:44:27<16:43:33,  3.49it/s] 43%|████▎     | 161154/371472 [1:44:27<16:17:30,  3.59it/s] 43%|████▎     | 161155/371472 [1:44:27<16:05:06,  3.63it/s] 43%|████▎     | 161156/371472 [1:44:28<16:04:42,  3.63it/s] 43%|████▎     | 161157/371472 [1:44:28<17:34:34,  3.32it/s] 43%|████▎     | 161158/371472 [1:44:28<17:13:15,  3.39it/s] 43%|████▎     | 161159/371472 [1:44:29<16:43:33,  3.49it/s] 43%|████▎     | 161160/371472 [1:44:29<16:18:18,  3.58it/s]                                                            {'loss': 3.0023, 'learning_rate': 6.098170613458596e-07, 'epoch': 6.94}
 43%|████▎     | 161160/371472 [1:44:29<16:18:18,  3.58it/s] 43%|████▎     | 161161/371472 [1:44:29<15:51:38,  3.68it/s] 43%|████▎     | 161162/371472 [1:44:29<15:40:24,  3.73it/s] 43%|████▎     | 161163/371472 [1:44:30<15:42:31,  3.72it/s] 43%|████▎     | 161164/371472 [1:44:30<15:53:42,  3.68it/s] 43%|████▎     | 161165/371472 [1:44:30<15:28:26,  3.78it/s] 43%|████▎     | 161166/371472 [1:44:31<17:23:26,  3.36it/s] 43%|████▎     | 161167/371472 [1:44:31<16:32:14,  3.53it/s] 43%|████▎     | 161168/371472 [1:44:31<18:32:57,  3.15it/s] 43%|████▎     | 161169/371472 [1:44:31<17:35:23,  3.32it/s] 43%|████▎     | 161170/371472 [1:44:32<16:56:29,  3.45it/s] 43%|████▎     | 161171/371472 [1:44:32<16:49:28,  3.47it/s] 43%|████▎     | 161172/371472 [1:44:32<16:19:59,  3.58it/s] 43%|████▎     | 161173/371472 [1:44:33<17:25:54,  3.35it/s] 43%|████▎     | 161174/371472 [1:44:33<17:44:28,  3.29it/s] 43%|████▎     | 161175/371472 [1:44:33<16:48:36,  3.48it/s] 43%|████▎     | 161176/371472 [1:44:34<17:28:58,  3.34it/s] 43%|████▎     | 161177/371472 [1:44:34<17:53:09,  3.27it/s] 43%|████▎     | 161178/371472 [1:44:34<17:17:40,  3.38it/s] 43%|████▎     | 161179/371472 [1:44:34<16:49:52,  3.47it/s] 43%|████▎     | 161180/371472 [1:44:35<16:38:03,  3.51it/s]                                                            {'loss': 3.0932, 'learning_rate': 6.097685793703807e-07, 'epoch': 6.94}
 43%|████▎     | 161180/371472 [1:44:35<16:38:03,  3.51it/s] 43%|████▎     | 161181/371472 [1:44:35<16:45:00,  3.49it/s] 43%|████▎     | 161182/371472 [1:44:35<16:25:42,  3.56it/s] 43%|████▎     | 161183/371472 [1:44:36<16:54:17,  3.46it/s] 43%|████▎     | 161184/371472 [1:44:36<16:29:06,  3.54it/s] 43%|████▎     | 161185/371472 [1:44:36<16:04:20,  3.63it/s] 43%|████▎     | 161186/371472 [1:44:36<15:34:22,  3.75it/s] 43%|████▎     | 161187/371472 [1:44:37<15:12:08,  3.84it/s] 43%|████▎     | 161188/371472 [1:44:37<15:36:23,  3.74it/s] 43%|████▎     | 161189/371472 [1:44:37<15:41:30,  3.72it/s] 43%|████▎     | 161190/371472 [1:44:37<15:47:51,  3.70it/s] 43%|████▎     | 161191/371472 [1:44:38<16:00:02,  3.65it/s] 43%|████▎     | 161192/371472 [1:44:38<15:54:09,  3.67it/s] 43%|████▎     | 161193/371472 [1:44:38<16:04:05,  3.64it/s] 43%|████▎     | 161194/371472 [1:44:38<15:30:02,  3.77it/s] 43%|████▎     | 161195/371472 [1:44:39<15:49:26,  3.69it/s] 43%|████▎     | 161196/371472 [1:44:39<15:32:30,  3.76it/s] 43%|████▎     | 161197/371472 [1:44:39<15:13:53,  3.83it/s] 43%|████▎     | 161198/371472 [1:44:40<16:36:42,  3.52it/s] 43%|████▎     | 161199/371472 [1:44:40<17:20:07,  3.37it/s] 43%|████▎     | 161200/371472 [1:44:40<17:05:21,  3.42it/s]                                                            {'loss': 3.225, 'learning_rate': 6.097200973949019e-07, 'epoch': 6.94}
 43%|████▎     | 161200/371472 [1:44:40<17:05:21,  3.42it/s] 43%|████▎     | 161201/371472 [1:44:40<16:18:34,  3.58it/s] 43%|████▎     | 161202/371472 [1:44:41<16:36:03,  3.52it/s] 43%|████▎     | 161203/371472 [1:44:41<16:35:52,  3.52it/s] 43%|████▎     | 161204/371472 [1:44:41<16:14:56,  3.59it/s] 43%|████▎     | 161205/371472 [1:44:42<16:24:12,  3.56it/s] 43%|████▎     | 161206/371472 [1:44:42<16:33:40,  3.53it/s] 43%|████▎     | 161207/371472 [1:44:42<16:19:04,  3.58it/s] 43%|████▎     | 161208/371472 [1:44:42<16:52:55,  3.46it/s] 43%|████▎     | 161209/371472 [1:44:43<16:51:05,  3.47it/s] 43%|████▎     | 161210/371472 [1:44:43<16:01:19,  3.65it/s] 43%|████▎     | 161211/371472 [1:44:43<15:41:53,  3.72it/s] 43%|████▎     | 161212/371472 [1:44:44<15:32:37,  3.76it/s] 43%|████▎     | 161213/371472 [1:44:44<17:17:51,  3.38it/s] 43%|████▎     | 161214/371472 [1:44:44<16:49:20,  3.47it/s] 43%|████▎     | 161215/371472 [1:44:44<17:07:49,  3.41it/s] 43%|████▎     | 161216/371472 [1:44:45<17:02:21,  3.43it/s] 43%|████▎     | 161217/371472 [1:44:45<16:32:10,  3.53it/s] 43%|████▎     | 161218/371472 [1:44:45<16:27:13,  3.55it/s] 43%|████▎     | 161219/371472 [1:44:46<16:29:05,  3.54it/s] 43%|████▎     | 161220/371472 [1:44:46<16:30:52,  3.54it/s]                                                            {'loss': 3.273, 'learning_rate': 6.096716154194229e-07, 'epoch': 6.94}
 43%|████▎     | 161220/371472 [1:44:46<16:30:52,  3.54it/s] 43%|████▎     | 161221/371472 [1:44:46<16:00:19,  3.65it/s] 43%|████▎     | 161222/371472 [1:44:46<15:47:20,  3.70it/s] 43%|████▎     | 161223/371472 [1:44:47<15:40:11,  3.73it/s] 43%|████▎     | 161224/371472 [1:44:47<16:19:54,  3.58it/s] 43%|████▎     | 161225/371472 [1:44:47<20:06:43,  2.90it/s] 43%|████▎     | 161226/371472 [1:44:48<19:21:38,  3.02it/s] 43%|████▎     | 161227/371472 [1:44:48<19:04:36,  3.06it/s] 43%|████▎     | 161228/371472 [1:44:48<18:08:45,  3.22it/s] 43%|████▎     | 161229/371472 [1:44:49<17:09:55,  3.40it/s] 43%|████▎     | 161230/371472 [1:44:49<16:26:20,  3.55it/s] 43%|████▎     | 161231/371472 [1:44:49<18:09:41,  3.22it/s] 43%|████▎     | 161232/371472 [1:44:50<18:57:16,  3.08it/s] 43%|████▎     | 161233/371472 [1:44:50<18:11:23,  3.21it/s] 43%|████▎     | 161234/371472 [1:44:50<17:49:20,  3.28it/s] 43%|████▎     | 161235/371472 [1:44:50<18:30:16,  3.16it/s] 43%|████▎     | 161236/371472 [1:44:51<17:43:06,  3.30it/s] 43%|████▎     | 161237/371472 [1:44:51<17:02:34,  3.43it/s] 43%|████▎     | 161238/371472 [1:44:51<16:47:32,  3.48it/s] 43%|████▎     | 161239/371472 [1:44:52<17:08:52,  3.41it/s] 43%|████▎     | 161240/371472 [1:44:52<16:37:09,  3.51it/s]                                                            {'loss': 3.3793, 'learning_rate': 6.09623133443944e-07, 'epoch': 6.94}
 43%|████▎     | 161240/371472 [1:44:52<16:37:09,  3.51it/s] 43%|████▎     | 161241/371472 [1:44:52<16:04:30,  3.63it/s] 43%|████▎     | 161242/371472 [1:44:52<16:16:39,  3.59it/s] 43%|████▎     | 161243/371472 [1:44:53<16:18:28,  3.58it/s] 43%|████▎     | 161244/371472 [1:44:53<16:12:00,  3.60it/s] 43%|████▎     | 161245/371472 [1:44:53<16:39:26,  3.51it/s] 43%|████▎     | 161246/371472 [1:44:54<16:17:31,  3.58it/s] 43%|████▎     | 161247/371472 [1:44:54<17:50:15,  3.27it/s] 43%|████▎     | 161248/371472 [1:44:54<17:10:53,  3.40it/s] 43%|████▎     | 161249/371472 [1:44:54<16:30:13,  3.54it/s] 43%|████▎     | 161250/371472 [1:44:55<15:43:03,  3.72it/s] 43%|████▎     | 161251/371472 [1:44:55<15:30:02,  3.77it/s] 43%|████▎     | 161252/371472 [1:44:55<15:54:32,  3.67it/s] 43%|████▎     | 161253/371472 [1:44:55<16:03:47,  3.64it/s] 43%|████▎     | 161254/371472 [1:44:56<16:08:12,  3.62it/s] 43%|████▎     | 161255/371472 [1:44:56<16:05:58,  3.63it/s] 43%|████▎     | 161256/371472 [1:44:56<16:17:23,  3.58it/s] 43%|████▎     | 161257/371472 [1:44:57<15:51:01,  3.68it/s] 43%|████▎     | 161258/371472 [1:44:57<15:44:10,  3.71it/s] 43%|████▎     | 161259/371472 [1:44:57<15:48:35,  3.69it/s] 43%|████▎     | 161260/371472 [1:44:57<16:20:36,  3.57it/s]                                                            {'loss': 3.2152, 'learning_rate': 6.095746514684651e-07, 'epoch': 6.95}
 43%|████▎     | 161260/371472 [1:44:57<16:20:36,  3.57it/s] 43%|████▎     | 161261/371472 [1:44:58<15:58:28,  3.66it/s] 43%|████▎     | 161262/371472 [1:44:58<16:10:41,  3.61it/s] 43%|████▎     | 161263/371472 [1:44:58<15:53:56,  3.67it/s] 43%|████▎     | 161264/371472 [1:44:58<16:01:05,  3.65it/s] 43%|████▎     | 161265/371472 [1:44:59<16:23:46,  3.56it/s] 43%|████▎     | 161266/371472 [1:44:59<16:37:20,  3.51it/s] 43%|████▎     | 161267/371472 [1:44:59<17:14:50,  3.39it/s] 43%|████▎     | 161268/371472 [1:45:00<17:12:06,  3.39it/s] 43%|████▎     | 161269/371472 [1:45:00<16:44:00,  3.49it/s] 43%|████▎     | 161270/371472 [1:45:00<16:54:08,  3.45it/s] 43%|████▎     | 161271/371472 [1:45:00<16:03:22,  3.64it/s] 43%|████▎     | 161272/371472 [1:45:01<15:48:57,  3.69it/s] 43%|████▎     | 161273/371472 [1:45:01<16:54:46,  3.45it/s] 43%|████▎     | 161274/371472 [1:45:01<16:15:39,  3.59it/s] 43%|████▎     | 161275/371472 [1:45:02<16:10:33,  3.61it/s] 43%|████▎     | 161276/371472 [1:45:02<16:53:38,  3.46it/s] 43%|████▎     | 161277/371472 [1:45:02<16:20:29,  3.57it/s] 43%|████▎     | 161278/371472 [1:45:02<16:12:42,  3.60it/s] 43%|████▎     | 161279/371472 [1:45:03<15:57:47,  3.66it/s] 43%|████▎     | 161280/371472 [1:45:03<15:57:50,  3.66it/s]                                                            {'loss': 3.146, 'learning_rate': 6.095261694929863e-07, 'epoch': 6.95}
 43%|████▎     | 161280/371472 [1:45:03<15:57:50,  3.66it/s] 43%|████▎     | 161281/371472 [1:45:03<16:01:19,  3.64it/s] 43%|████▎     | 161282/371472 [1:45:04<16:13:17,  3.60it/s] 43%|████▎     | 161283/371472 [1:45:04<16:33:46,  3.53it/s] 43%|████▎     | 161284/371472 [1:45:04<16:16:56,  3.59it/s] 43%|████▎     | 161285/371472 [1:45:04<16:27:26,  3.55it/s] 43%|████▎     | 161286/371472 [1:45:05<15:59:52,  3.65it/s] 43%|████▎     | 161287/371472 [1:45:05<16:11:19,  3.61it/s] 43%|████▎     | 161288/371472 [1:45:05<16:45:16,  3.48it/s] 43%|████▎     | 161289/371472 [1:45:06<16:23:04,  3.56it/s] 43%|████▎     | 161290/371472 [1:45:06<16:03:45,  3.63it/s] 43%|████▎     | 161291/371472 [1:45:06<16:29:15,  3.54it/s] 43%|████▎     | 161292/371472 [1:45:06<16:27:01,  3.55it/s] 43%|████▎     | 161293/371472 [1:45:07<17:48:54,  3.28it/s] 43%|████▎     | 161294/371472 [1:45:07<17:28:47,  3.34it/s] 43%|████▎     | 161295/371472 [1:45:07<17:10:59,  3.40it/s] 43%|████▎     | 161296/371472 [1:45:08<17:27:49,  3.34it/s] 43%|████▎     | 161297/371472 [1:45:08<16:38:26,  3.51it/s] 43%|████▎     | 161298/371472 [1:45:08<16:09:22,  3.61it/s] 43%|████▎     | 161299/371472 [1:45:08<15:56:07,  3.66it/s] 43%|████▎     | 161300/371472 [1:45:09<16:32:51,  3.53it/s]                                                            {'loss': 3.1865, 'learning_rate': 6.094776875175074e-07, 'epoch': 6.95}
 43%|████▎     | 161300/371472 [1:45:09<16:32:51,  3.53it/s] 43%|████▎     | 161301/371472 [1:45:09<16:30:04,  3.54it/s] 43%|████▎     | 161302/371472 [1:45:09<17:19:34,  3.37it/s] 43%|████▎     | 161303/371472 [1:45:10<16:51:16,  3.46it/s] 43%|████▎     | 161304/371472 [1:45:10<16:34:27,  3.52it/s] 43%|████▎     | 161305/371472 [1:45:10<16:51:37,  3.46it/s] 43%|████▎     | 161306/371472 [1:45:10<16:31:29,  3.53it/s] 43%|████▎     | 161307/371472 [1:45:11<16:12:19,  3.60it/s] 43%|████▎     | 161308/371472 [1:45:11<16:24:07,  3.56it/s] 43%|████▎     | 161309/371472 [1:45:11<16:31:56,  3.53it/s] 43%|████▎     | 161310/371472 [1:45:12<16:29:02,  3.54it/s] 43%|████▎     | 161311/371472 [1:45:12<16:29:52,  3.54it/s] 43%|████▎     | 161312/371472 [1:45:12<17:39:17,  3.31it/s] 43%|████▎     | 161313/371472 [1:45:12<17:09:03,  3.40it/s] 43%|████▎     | 161314/371472 [1:45:13<18:06:33,  3.22it/s] 43%|████▎     | 161315/371472 [1:45:13<19:08:07,  3.05it/s] 43%|████▎     | 161316/371472 [1:45:13<19:02:37,  3.07it/s] 43%|████▎     | 161317/371472 [1:45:14<18:58:40,  3.08it/s] 43%|████▎     | 161318/371472 [1:45:14<18:19:33,  3.19it/s] 43%|████▎     | 161319/371472 [1:45:14<17:37:33,  3.31it/s] 43%|████▎     | 161320/371472 [1:45:15<17:17:21,  3.38it/s]                                                            {'loss': 3.0904, 'learning_rate': 6.094292055420285e-07, 'epoch': 6.95}
 43%|████▎     | 161320/371472 [1:45:15<17:17:21,  3.38it/s] 43%|████▎     | 161321/371472 [1:45:15<16:40:19,  3.50it/s] 43%|████▎     | 161322/371472 [1:45:15<16:34:13,  3.52it/s] 43%|████▎     | 161323/371472 [1:45:16<17:17:32,  3.38it/s] 43%|████▎     | 161324/371472 [1:45:16<17:47:59,  3.28it/s] 43%|████▎     | 161325/371472 [1:45:16<16:52:55,  3.46it/s] 43%|████▎     | 161326/371472 [1:45:16<16:53:38,  3.46it/s] 43%|████▎     | 161327/371472 [1:45:17<16:43:01,  3.49it/s] 43%|████▎     | 161328/371472 [1:45:17<16:46:44,  3.48it/s] 43%|████▎     | 161329/371472 [1:45:17<16:47:32,  3.48it/s] 43%|████▎     | 161330/371472 [1:45:18<17:13:23,  3.39it/s] 43%|████▎     | 161331/371472 [1:45:18<17:55:01,  3.26it/s] 43%|████▎     | 161332/371472 [1:45:18<18:15:45,  3.20it/s] 43%|████▎     | 161333/371472 [1:45:19<18:11:59,  3.21it/s] 43%|████▎     | 161334/371472 [1:45:19<17:19:14,  3.37it/s] 43%|████▎     | 161335/371472 [1:45:19<16:34:34,  3.52it/s] 43%|████▎     | 161336/371472 [1:45:19<16:15:56,  3.59it/s] 43%|████▎     | 161337/371472 [1:45:20<16:00:37,  3.65it/s] 43%|████▎     | 161338/371472 [1:45:20<17:19:08,  3.37it/s] 43%|████▎     | 161339/371472 [1:45:20<16:44:55,  3.49it/s] 43%|████▎     | 161340/371472 [1:45:21<17:42:24,  3.30it/s]                                                            {'loss': 3.1937, 'learning_rate': 6.093807235665495e-07, 'epoch': 6.95}
 43%|████▎     | 161340/371472 [1:45:21<17:42:24,  3.30it/s] 43%|████▎     | 161341/371472 [1:45:21<16:58:36,  3.44it/s] 43%|████▎     | 161342/371472 [1:45:21<16:12:01,  3.60it/s] 43%|████▎     | 161343/371472 [1:45:21<16:25:12,  3.55it/s] 43%|████▎     | 161344/371472 [1:45:22<16:15:10,  3.59it/s] 43%|████▎     | 161345/371472 [1:45:22<15:53:00,  3.67it/s] 43%|████▎     | 161346/371472 [1:45:22<16:49:09,  3.47it/s] 43%|████▎     | 161347/371472 [1:45:23<17:30:02,  3.34it/s] 43%|████▎     | 161348/371472 [1:45:23<17:21:37,  3.36it/s] 43%|████▎     | 161349/371472 [1:45:23<17:04:15,  3.42it/s] 43%|████▎     | 161350/371472 [1:45:23<16:37:26,  3.51it/s] 43%|████▎     | 161351/371472 [1:45:24<16:16:54,  3.58it/s] 43%|████▎     | 161352/371472 [1:45:24<16:40:58,  3.50it/s] 43%|████▎     | 161353/371472 [1:45:24<16:28:10,  3.54it/s] 43%|████▎     | 161354/371472 [1:45:24<15:46:58,  3.70it/s] 43%|████▎     | 161355/371472 [1:45:25<15:17:25,  3.82it/s] 43%|████▎     | 161356/371472 [1:45:25<14:57:07,  3.90it/s] 43%|████▎     | 161357/371472 [1:45:25<16:20:37,  3.57it/s] 43%|████▎     | 161358/371472 [1:45:26<16:39:36,  3.50it/s] 43%|████▎     | 161359/371472 [1:45:26<16:08:13,  3.62it/s] 43%|████▎     | 161360/371472 [1:45:26<15:53:05,  3.67it/s]                                                            {'loss': 3.0863, 'learning_rate': 6.093322415910707e-07, 'epoch': 6.95}
 43%|████▎     | 161360/371472 [1:45:26<15:53:05,  3.67it/s] 43%|████▎     | 161361/371472 [1:45:26<17:00:45,  3.43it/s] 43%|████▎     | 161362/371472 [1:45:27<16:59:32,  3.43it/s] 43%|████▎     | 161363/371472 [1:45:27<16:20:29,  3.57it/s] 43%|████▎     | 161364/371472 [1:45:27<17:35:41,  3.32it/s] 43%|████▎     | 161365/371472 [1:45:28<17:12:06,  3.39it/s] 43%|████▎     | 161366/371472 [1:45:28<18:36:57,  3.14it/s] 43%|████▎     | 161367/371472 [1:45:28<17:31:28,  3.33it/s] 43%|████▎     | 161368/371472 [1:45:28<16:35:02,  3.52it/s] 43%|████▎     | 161369/371472 [1:45:29<15:58:05,  3.65it/s] 43%|████▎     | 161370/371472 [1:45:29<15:45:34,  3.70it/s] 43%|████▎     | 161371/371472 [1:45:29<16:15:27,  3.59it/s] 43%|████▎     | 161372/371472 [1:45:30<15:53:43,  3.67it/s] 43%|████▎     | 161373/371472 [1:45:30<15:12:19,  3.84it/s] 43%|████▎     | 161374/371472 [1:45:30<15:56:01,  3.66it/s] 43%|████▎     | 161375/371472 [1:45:30<16:02:24,  3.64it/s] 43%|████▎     | 161376/371472 [1:45:31<16:38:59,  3.51it/s] 43%|████▎     | 161377/371472 [1:45:31<16:12:25,  3.60it/s] 43%|████▎     | 161378/371472 [1:45:31<16:20:25,  3.57it/s] 43%|████▎     | 161379/371472 [1:45:32<17:41:54,  3.30it/s] 43%|████▎     | 161380/371472 [1:45:32<17:09:33,  3.40it/s]                                                            {'loss': 3.1165, 'learning_rate': 6.092837596155918e-07, 'epoch': 6.95}
 43%|████▎     | 161380/371472 [1:45:32<17:09:33,  3.40it/s] 43%|████▎     | 161381/371472 [1:45:32<17:40:00,  3.30it/s] 43%|████▎     | 161382/371472 [1:45:32<17:29:33,  3.34it/s] 43%|████▎     | 161383/371472 [1:45:33<17:40:53,  3.30it/s] 43%|████▎     | 161384/371472 [1:45:33<17:13:03,  3.39it/s] 43%|████▎     | 161385/371472 [1:45:33<17:09:59,  3.40it/s] 43%|████▎     | 161386/371472 [1:45:34<17:01:28,  3.43it/s] 43%|████▎     | 161387/371472 [1:45:34<17:17:23,  3.38it/s] 43%|████▎     | 161388/371472 [1:45:34<16:53:27,  3.45it/s] 43%|████▎     | 161389/371472 [1:45:34<16:04:21,  3.63it/s] 43%|████▎     | 161390/371472 [1:45:35<15:59:05,  3.65it/s] 43%|████▎     | 161391/371472 [1:45:35<15:50:04,  3.69it/s] 43%|████▎     | 161392/371472 [1:45:35<15:52:00,  3.68it/s] 43%|████▎     | 161393/371472 [1:45:36<16:37:56,  3.51it/s] 43%|████▎     | 161394/371472 [1:45:36<17:19:50,  3.37it/s] 43%|████▎     | 161395/371472 [1:45:36<16:29:51,  3.54it/s] 43%|████▎     | 161396/371472 [1:45:36<17:53:11,  3.26it/s] 43%|████▎     | 161397/371472 [1:45:37<17:36:04,  3.32it/s] 43%|████▎     | 161398/371472 [1:45:37<16:58:54,  3.44it/s] 43%|████▎     | 161399/371472 [1:45:37<16:51:20,  3.46it/s] 43%|████▎     | 161400/371472 [1:45:38<16:50:41,  3.46it/s]                                                            {'loss': 3.0799, 'learning_rate': 6.092352776401128e-07, 'epoch': 6.95}
 43%|████▎     | 161400/371472 [1:45:38<16:50:41,  3.46it/s] 43%|████▎     | 161401/371472 [1:45:38<16:16:59,  3.58it/s] 43%|████▎     | 161402/371472 [1:45:38<17:21:27,  3.36it/s] 43%|████▎     | 161403/371472 [1:45:38<16:47:49,  3.47it/s] 43%|████▎     | 161404/371472 [1:45:39<16:22:11,  3.56it/s] 43%|████▎     | 161405/371472 [1:45:39<16:03:45,  3.63it/s] 43%|████▎     | 161406/371472 [1:45:39<15:48:15,  3.69it/s] 43%|████▎     | 161407/371472 [1:45:40<15:43:17,  3.71it/s] 43%|████▎     | 161408/371472 [1:45:40<15:38:38,  3.73it/s] 43%|████▎     | 161409/371472 [1:45:40<15:06:56,  3.86it/s] 43%|████▎     | 161410/371472 [1:45:40<15:09:12,  3.85it/s] 43%|████▎     | 161411/371472 [1:45:41<16:02:33,  3.64it/s] 43%|████▎     | 161412/371472 [1:45:41<15:46:32,  3.70it/s] 43%|████▎     | 161413/371472 [1:45:41<15:49:52,  3.69it/s] 43%|████▎     | 161414/371472 [1:45:41<17:14:52,  3.38it/s] 43%|████▎     | 161415/371472 [1:45:42<17:04:15,  3.42it/s] 43%|████▎     | 161416/371472 [1:45:42<17:28:14,  3.34it/s] 43%|████▎     | 161417/371472 [1:45:42<16:43:29,  3.49it/s] 43%|████▎     | 161418/371472 [1:45:43<17:08:32,  3.40it/s] 43%|████▎     | 161419/371472 [1:45:43<16:44:18,  3.49it/s] 43%|████▎     | 161420/371472 [1:45:43<16:09:37,  3.61it/s]                                                            {'loss': 3.2209, 'learning_rate': 6.09186795664634e-07, 'epoch': 6.95}
 43%|████▎     | 161420/371472 [1:45:43<16:09:37,  3.61it/s] 43%|████▎     | 161421/371472 [1:45:43<16:11:35,  3.60it/s] 43%|████▎     | 161422/371472 [1:45:44<16:17:09,  3.58it/s] 43%|████▎     | 161423/371472 [1:45:44<16:26:13,  3.55it/s] 43%|████▎     | 161424/371472 [1:45:44<16:12:10,  3.60it/s] 43%|████▎     | 161425/371472 [1:45:45<15:39:06,  3.73it/s] 43%|████▎     | 161426/371472 [1:45:45<17:29:20,  3.34it/s] 43%|████▎     | 161427/371472 [1:45:45<17:31:51,  3.33it/s] 43%|████▎     | 161428/371472 [1:45:46<18:24:29,  3.17it/s] 43%|████▎     | 161429/371472 [1:45:46<18:02:59,  3.23it/s] 43%|████▎     | 161430/371472 [1:45:46<16:49:35,  3.47it/s] 43%|████▎     | 161431/371472 [1:45:46<16:35:06,  3.52it/s] 43%|████▎     | 161432/371472 [1:45:47<16:40:39,  3.50it/s] 43%|████▎     | 161433/371472 [1:45:47<16:36:50,  3.51it/s] 43%|████▎     | 161434/371472 [1:45:47<16:15:13,  3.59it/s] 43%|████▎     | 161435/371472 [1:45:47<15:46:38,  3.70it/s] 43%|████▎     | 161436/371472 [1:45:48<15:49:47,  3.69it/s] 43%|████▎     | 161437/371472 [1:45:48<17:18:02,  3.37it/s] 43%|████▎     | 161438/371472 [1:45:48<16:39:23,  3.50it/s] 43%|████▎     | 161439/371472 [1:45:49<17:41:51,  3.30it/s] 43%|████▎     | 161440/371472 [1:45:49<17:34:57,  3.32it/s]                                                            {'loss': 3.1001, 'learning_rate': 6.091383136891552e-07, 'epoch': 6.95}
 43%|████▎     | 161440/371472 [1:45:49<17:34:57,  3.32it/s] 43%|████▎     | 161441/371472 [1:45:49<17:58:18,  3.25it/s] 43%|████▎     | 161442/371472 [1:45:50<17:40:16,  3.30it/s] 43%|████▎     | 161443/371472 [1:45:50<17:03:08,  3.42it/s] 43%|████▎     | 161444/371472 [1:45:50<16:43:09,  3.49it/s] 43%|████▎     | 161445/371472 [1:45:50<16:19:55,  3.57it/s] 43%|████▎     | 161446/371472 [1:45:51<15:51:21,  3.68it/s] 43%|████▎     | 161447/371472 [1:45:51<15:53:48,  3.67it/s] 43%|████▎     | 161448/371472 [1:45:51<16:00:19,  3.65it/s] 43%|████▎     | 161449/371472 [1:45:52<16:31:31,  3.53it/s] 43%|████▎     | 161450/371472 [1:45:52<16:11:24,  3.60it/s] 43%|████▎     | 161451/371472 [1:45:52<17:08:02,  3.40it/s] 43%|████▎     | 161452/371472 [1:45:52<18:03:46,  3.23it/s] 43%|████▎     | 161453/371472 [1:45:53<17:53:34,  3.26it/s] 43%|████▎     | 161454/371472 [1:45:53<17:41:41,  3.30it/s] 43%|████▎     | 161455/371472 [1:45:53<17:25:19,  3.35it/s] 43%|████▎     | 161456/371472 [1:45:54<17:03:55,  3.42it/s] 43%|████▎     | 161457/371472 [1:45:54<16:37:39,  3.51it/s] 43%|████▎     | 161458/371472 [1:45:54<16:04:34,  3.63it/s] 43%|████▎     | 161459/371472 [1:45:54<16:37:42,  3.51it/s] 43%|████▎     | 161460/371472 [1:45:55<16:32:44,  3.53it/s]                                                            {'loss': 3.1503, 'learning_rate': 6.090898317136762e-07, 'epoch': 6.95}
 43%|████▎     | 161460/371472 [1:45:55<16:32:44,  3.53it/s] 43%|████▎     | 161461/371472 [1:45:55<17:03:24,  3.42it/s] 43%|████▎     | 161462/371472 [1:45:55<16:04:05,  3.63it/s] 43%|████▎     | 161463/371472 [1:45:56<15:45:15,  3.70it/s] 43%|████▎     | 161464/371472 [1:45:56<16:18:11,  3.58it/s] 43%|████▎     | 161465/371472 [1:45:56<16:26:23,  3.55it/s] 43%|████▎     | 161466/371472 [1:45:56<16:29:27,  3.54it/s] 43%|████▎     | 161467/371472 [1:45:57<16:02:04,  3.64it/s] 43%|████▎     | 161468/371472 [1:45:57<15:39:48,  3.72it/s] 43%|████▎     | 161469/371472 [1:45:57<15:13:35,  3.83it/s] 43%|████▎     | 161470/371472 [1:45:57<15:15:34,  3.82it/s] 43%|████▎     | 161471/371472 [1:45:58<16:00:49,  3.64it/s] 43%|████▎     | 161472/371472 [1:45:58<17:01:09,  3.43it/s] 43%|████▎     | 161473/371472 [1:45:58<16:46:03,  3.48it/s] 43%|████▎     | 161474/371472 [1:45:59<17:52:39,  3.26it/s] 43%|████▎     | 161475/371472 [1:45:59<17:46:49,  3.28it/s] 43%|████▎     | 161476/371472 [1:45:59<17:17:27,  3.37it/s] 43%|████▎     | 161477/371472 [1:46:00<16:38:29,  3.51it/s] 43%|████▎     | 161478/371472 [1:46:00<17:48:30,  3.28it/s] 43%|████▎     | 161479/371472 [1:46:00<16:50:04,  3.46it/s] 43%|████▎     | 161480/371472 [1:46:00<16:29:35,  3.54it/s]                                                            {'loss': 3.4236, 'learning_rate': 6.090413497381972e-07, 'epoch': 6.96}
 43%|████▎     | 161480/371472 [1:46:00<16:29:35,  3.54it/s] 43%|████▎     | 161481/371472 [1:46:01<18:00:16,  3.24it/s] 43%|████▎     | 161482/371472 [1:46:01<17:27:29,  3.34it/s] 43%|████▎     | 161483/371472 [1:46:01<17:28:12,  3.34it/s] 43%|████▎     | 161484/371472 [1:46:02<16:38:31,  3.50it/s] 43%|████▎     | 161485/371472 [1:46:02<16:14:51,  3.59it/s] 43%|████▎     | 161486/371472 [1:46:02<16:13:44,  3.59it/s] 43%|████▎     | 161487/371472 [1:46:02<17:10:16,  3.40it/s] 43%|████▎     | 161488/371472 [1:46:03<17:25:40,  3.35it/s] 43%|████▎     | 161489/371472 [1:46:03<16:39:55,  3.50it/s] 43%|████▎     | 161490/371472 [1:46:03<16:02:27,  3.64it/s] 43%|████▎     | 161491/371472 [1:46:04<15:40:32,  3.72it/s] 43%|████▎     | 161492/371472 [1:46:04<15:30:12,  3.76it/s] 43%|████▎     | 161493/371472 [1:46:04<15:41:31,  3.72it/s] 43%|████▎     | 161494/371472 [1:46:04<15:49:37,  3.69it/s] 43%|████▎     | 161495/371472 [1:46:05<15:41:13,  3.72it/s] 43%|████▎     | 161496/371472 [1:46:05<15:29:13,  3.77it/s] 43%|████▎     | 161497/371472 [1:46:05<15:16:21,  3.82it/s] 43%|████▎     | 161498/371472 [1:46:05<15:46:53,  3.70it/s] 43%|████▎     | 161499/371472 [1:46:06<15:57:19,  3.66it/s] 43%|████▎     | 161500/371472 [1:46:06<15:29:35,  3.76it/s]                                                            {'loss': 3.1085, 'learning_rate': 6.089928677627184e-07, 'epoch': 6.96}
 43%|████▎     | 161500/371472 [1:46:06<15:29:35,  3.76it/s] 43%|████▎     | 161501/371472 [1:46:06<15:39:42,  3.72it/s] 43%|████▎     | 161502/371472 [1:46:07<16:59:43,  3.43it/s] 43%|████▎     | 161503/371472 [1:46:07<16:48:10,  3.47it/s] 43%|████▎     | 161504/371472 [1:46:07<16:38:21,  3.51it/s] 43%|████▎     | 161505/371472 [1:46:07<16:27:11,  3.54it/s] 43%|████▎     | 161506/371472 [1:46:08<17:24:43,  3.35it/s] 43%|████▎     | 161507/371472 [1:46:08<16:21:10,  3.57it/s] 43%|████▎     | 161508/371472 [1:46:08<15:49:19,  3.69it/s] 43%|████▎     | 161509/371472 [1:46:09<16:15:16,  3.59it/s] 43%|████▎     | 161510/371472 [1:46:09<16:11:01,  3.60it/s] 43%|████▎     | 161511/371472 [1:46:09<16:08:57,  3.61it/s] 43%|████▎     | 161512/371472 [1:46:09<15:57:39,  3.65it/s] 43%|████▎     | 161513/371472 [1:46:10<15:28:00,  3.77it/s] 43%|████▎     | 161514/371472 [1:46:10<15:20:48,  3.80it/s] 43%|████▎     | 161515/371472 [1:46:10<15:05:31,  3.86it/s] 43%|████▎     | 161516/371472 [1:46:10<15:45:20,  3.70it/s] 43%|████▎     | 161517/371472 [1:46:11<16:17:53,  3.58it/s] 43%|████▎     | 161518/371472 [1:46:11<16:26:17,  3.55it/s] 43%|████▎     | 161519/371472 [1:46:11<15:41:35,  3.72it/s] 43%|████▎     | 161520/371472 [1:46:11<15:28:16,  3.77it/s]                                                            {'loss': 2.8951, 'learning_rate': 6.089443857872396e-07, 'epoch': 6.96}
 43%|████▎     | 161520/371472 [1:46:11<15:28:16,  3.77it/s] 43%|████▎     | 161521/371472 [1:46:12<15:36:07,  3.74it/s] 43%|████▎     | 161522/371472 [1:46:12<15:33:47,  3.75it/s] 43%|████▎     | 161523/371472 [1:46:12<16:29:19,  3.54it/s] 43%|████▎     | 161524/371472 [1:46:13<15:57:42,  3.65it/s] 43%|████▎     | 161525/371472 [1:46:13<15:57:33,  3.65it/s] 43%|████▎     | 161526/371472 [1:46:13<16:03:06,  3.63it/s] 43%|████▎     | 161527/371472 [1:46:13<16:11:18,  3.60it/s] 43%|████▎     | 161528/371472 [1:46:14<16:54:25,  3.45it/s] 43%|████▎     | 161529/371472 [1:46:14<18:04:22,  3.23it/s] 43%|████▎     | 161530/371472 [1:46:14<17:14:56,  3.38it/s] 43%|████▎     | 161531/371472 [1:46:15<16:40:01,  3.50it/s] 43%|████▎     | 161532/371472 [1:46:15<16:11:01,  3.60it/s] 43%|████▎     | 161533/371472 [1:46:15<16:09:23,  3.61it/s] 43%|████▎     | 161534/371472 [1:46:15<16:50:54,  3.46it/s] 43%|████▎     | 161535/371472 [1:46:16<16:22:44,  3.56it/s] 43%|████▎     | 161536/371472 [1:46:16<16:11:28,  3.60it/s] 43%|████▎     | 161537/371472 [1:46:16<16:03:58,  3.63it/s] 43%|████▎     | 161538/371472 [1:46:17<15:52:34,  3.67it/s] 43%|████▎     | 161539/371472 [1:46:17<15:59:30,  3.65it/s] 43%|████▎     | 161540/371472 [1:46:17<15:54:57,  3.66it/s]                                                            {'loss': 3.128, 'learning_rate': 6.088959038117607e-07, 'epoch': 6.96}
 43%|████▎     | 161540/371472 [1:46:17<15:54:57,  3.66it/s] 43%|████▎     | 161541/371472 [1:46:18<18:20:00,  3.18it/s] 43%|████▎     | 161542/371472 [1:46:18<17:11:34,  3.39it/s] 43%|████▎     | 161543/371472 [1:46:18<17:58:24,  3.24it/s] 43%|████▎     | 161544/371472 [1:46:18<17:42:15,  3.29it/s] 43%|████▎     | 161545/371472 [1:46:19<18:29:39,  3.15it/s] 43%|████▎     | 161546/371472 [1:46:19<18:06:58,  3.22it/s] 43%|████▎     | 161547/371472 [1:46:19<17:43:27,  3.29it/s] 43%|████▎     | 161548/371472 [1:46:20<16:58:58,  3.43it/s] 43%|████▎     | 161549/371472 [1:46:20<16:00:05,  3.64it/s] 43%|████▎     | 161550/371472 [1:46:20<15:34:56,  3.74it/s] 43%|████▎     | 161551/371472 [1:46:20<15:24:21,  3.78it/s] 43%|████▎     | 161552/371472 [1:46:21<17:39:35,  3.30it/s] 43%|████▎     | 161553/371472 [1:46:21<17:17:59,  3.37it/s] 43%|████▎     | 161554/371472 [1:46:21<16:09:16,  3.61it/s] 43%|████▎     | 161555/371472 [1:46:22<16:54:03,  3.45it/s] 43%|████▎     | 161556/371472 [1:46:22<18:31:31,  3.15it/s] 43%|████▎     | 161557/371472 [1:46:22<17:32:30,  3.32it/s] 43%|████▎     | 161558/371472 [1:46:22<16:44:47,  3.48it/s] 43%|████▎     | 161559/371472 [1:46:23<16:47:05,  3.47it/s] 43%|████▎     | 161560/371472 [1:46:23<16:32:54,  3.52it/s]                                                            {'loss': 2.8691, 'learning_rate': 6.088474218362817e-07, 'epoch': 6.96}
 43%|████▎     | 161560/371472 [1:46:23<16:32:54,  3.52it/s] 43%|████▎     | 161561/371472 [1:46:23<17:05:58,  3.41it/s] 43%|████▎     | 161562/371472 [1:46:24<16:20:38,  3.57it/s] 43%|████▎     | 161563/371472 [1:46:24<17:22:08,  3.36it/s] 43%|████▎     | 161564/371472 [1:46:24<17:07:10,  3.41it/s] 43%|████▎     | 161565/371472 [1:46:24<16:31:46,  3.53it/s] 43%|████▎     | 161566/371472 [1:46:25<16:04:40,  3.63it/s] 43%|████▎     | 161567/371472 [1:46:25<15:58:12,  3.65it/s] 43%|████▎     | 161568/371472 [1:46:25<15:58:56,  3.65it/s] 43%|████▎     | 161569/371472 [1:46:26<15:38:58,  3.73it/s] 43%|████▎     | 161570/371472 [1:46:26<15:52:52,  3.67it/s] 43%|████▎     | 161571/371472 [1:46:26<16:27:12,  3.54it/s] 43%|████▎     | 161572/371472 [1:46:26<16:12:23,  3.60it/s] 43%|████▎     | 161573/371472 [1:46:27<17:34:06,  3.32it/s] 43%|████▎     | 161574/371472 [1:46:27<16:51:39,  3.46it/s] 43%|████▎     | 161575/371472 [1:46:27<16:30:07,  3.53it/s] 43%|████▎     | 161576/371472 [1:46:28<16:12:07,  3.60it/s] 43%|████▎     | 161577/371472 [1:46:28<15:33:54,  3.75it/s] 43%|████▎     | 161578/371472 [1:46:28<15:25:39,  3.78it/s] 43%|████▎     | 161579/371472 [1:46:28<15:58:40,  3.65it/s] 43%|████▎     | 161580/371472 [1:46:29<15:28:40,  3.77it/s]                                                            {'loss': 3.0704, 'learning_rate': 6.087989398608029e-07, 'epoch': 6.96}
 43%|████▎     | 161580/371472 [1:46:29<15:28:40,  3.77it/s] 43%|████▎     | 161581/371472 [1:46:29<17:03:44,  3.42it/s] 43%|████▎     | 161582/371472 [1:46:29<16:32:55,  3.52it/s] 43%|████▎     | 161583/371472 [1:46:29<16:44:13,  3.48it/s] 43%|████▎     | 161584/371472 [1:46:30<17:59:13,  3.24it/s] 43%|████▎     | 161585/371472 [1:46:30<18:03:38,  3.23it/s] 43%|████▎     | 161586/371472 [1:46:30<17:27:29,  3.34it/s] 43%|████▎     | 161587/371472 [1:46:31<16:27:27,  3.54it/s] 43%|████▎     | 161588/371472 [1:46:31<15:52:27,  3.67it/s] 43%|████▎     | 161589/371472 [1:46:31<15:41:02,  3.72it/s] 43%|████▎     | 161590/371472 [1:46:31<16:11:40,  3.60it/s] 44%|████▎     | 161591/371472 [1:46:32<16:09:55,  3.61it/s] 44%|████▎     | 161592/371472 [1:46:32<16:10:58,  3.60it/s] 44%|████▎     | 161593/371472 [1:46:32<16:02:54,  3.63it/s] 44%|████▎     | 161594/371472 [1:46:33<15:53:17,  3.67it/s] 44%|████▎     | 161595/371472 [1:46:33<15:46:22,  3.70it/s] 44%|████▎     | 161596/371472 [1:46:33<15:58:29,  3.65it/s] 44%|████▎     | 161597/371472 [1:46:33<15:51:37,  3.68it/s] 44%|████▎     | 161598/371472 [1:46:34<15:24:15,  3.78it/s] 44%|████▎     | 161599/371472 [1:46:34<15:43:30,  3.71it/s] 44%|████▎     | 161600/371472 [1:46:34<16:22:20,  3.56it/s]                                                            {'loss': 3.032, 'learning_rate': 6.087504578853239e-07, 'epoch': 6.96}
 44%|████▎     | 161600/371472 [1:46:34<16:22:20,  3.56it/s] 44%|████▎     | 161601/371472 [1:46:35<17:35:31,  3.31it/s] 44%|████▎     | 161602/371472 [1:46:35<16:55:00,  3.45it/s] 44%|████▎     | 161603/371472 [1:46:35<16:32:03,  3.53it/s] 44%|████▎     | 161604/371472 [1:46:35<16:33:59,  3.52it/s] 44%|████▎     | 161605/371472 [1:46:36<16:01:03,  3.64it/s] 44%|████▎     | 161606/371472 [1:46:36<15:45:08,  3.70it/s] 44%|████▎     | 161607/371472 [1:46:36<16:48:46,  3.47it/s] 44%|████▎     | 161608/371472 [1:46:36<16:18:25,  3.57it/s] 44%|████▎     | 161609/371472 [1:46:37<16:38:25,  3.50it/s] 44%|████▎     | 161610/371472 [1:46:37<16:24:29,  3.55it/s] 44%|████▎     | 161611/371472 [1:46:37<17:39:19,  3.30it/s] 44%|████▎     | 161612/371472 [1:46:38<17:45:34,  3.28it/s] 44%|████▎     | 161613/371472 [1:46:38<17:24:31,  3.35it/s] 44%|████▎     | 161614/371472 [1:46:38<17:44:11,  3.29it/s] 44%|████▎     | 161615/371472 [1:46:39<16:51:02,  3.46it/s] 44%|████▎     | 161616/371472 [1:46:39<16:38:24,  3.50it/s] 44%|████▎     | 161617/371472 [1:46:39<17:22:20,  3.36it/s] 44%|████▎     | 161618/371472 [1:46:39<17:02:18,  3.42it/s] 44%|████▎     | 161619/371472 [1:46:40<17:17:48,  3.37it/s] 44%|████▎     | 161620/371472 [1:46:40<18:16:33,  3.19it/s]                                                            {'loss': 3.1879, 'learning_rate': 6.08701975909845e-07, 'epoch': 6.96}
 44%|████▎     | 161620/371472 [1:46:40<18:16:33,  3.19it/s] 44%|████▎     | 161621/371472 [1:46:40<18:41:15,  3.12it/s] 44%|████▎     | 161622/371472 [1:46:41<17:25:49,  3.34it/s] 44%|████▎     | 161623/371472 [1:46:41<16:37:17,  3.51it/s] 44%|████▎     | 161624/371472 [1:46:41<16:31:29,  3.53it/s] 44%|████▎     | 161625/371472 [1:46:42<16:03:14,  3.63it/s] 44%|████▎     | 161626/371472 [1:46:42<15:58:09,  3.65it/s] 44%|████▎     | 161627/371472 [1:46:42<15:59:28,  3.65it/s] 44%|████▎     | 161628/371472 [1:46:42<16:30:47,  3.53it/s] 44%|████▎     | 161629/371472 [1:46:43<16:02:12,  3.63it/s] 44%|████▎     | 161630/371472 [1:46:43<15:44:02,  3.70it/s] 44%|████▎     | 161631/371472 [1:46:43<15:19:48,  3.80it/s] 44%|████▎     | 161632/371472 [1:46:43<15:39:40,  3.72it/s] 44%|████▎     | 161633/371472 [1:46:44<15:07:55,  3.85it/s] 44%|████▎     | 161634/371472 [1:46:44<15:45:09,  3.70it/s] 44%|████▎     | 161635/371472 [1:46:44<15:28:43,  3.77it/s] 44%|████▎     | 161636/371472 [1:46:45<16:26:29,  3.55it/s] 44%|████▎     | 161637/371472 [1:46:45<16:53:10,  3.45it/s] 44%|████▎     | 161638/371472 [1:46:45<17:30:59,  3.33it/s] 44%|████▎     | 161639/371472 [1:46:45<17:03:09,  3.42it/s] 44%|████▎     | 161640/371472 [1:46:46<16:10:03,  3.61it/s]                                                            {'loss': 3.0186, 'learning_rate': 6.086534939343661e-07, 'epoch': 6.96}
 44%|████▎     | 161640/371472 [1:46:46<16:10:03,  3.61it/s] 44%|████▎     | 161641/371472 [1:46:46<16:25:52,  3.55it/s] 44%|████▎     | 161642/371472 [1:46:46<16:32:56,  3.52it/s] 44%|████▎     | 161643/371472 [1:46:47<17:44:23,  3.29it/s] 44%|████▎     | 161644/371472 [1:46:47<19:48:43,  2.94it/s] 44%|████▎     | 161645/371472 [1:46:47<19:00:10,  3.07it/s] 44%|████▎     | 161646/371472 [1:46:48<18:07:05,  3.22it/s] 44%|████▎     | 161647/371472 [1:46:48<17:29:14,  3.33it/s] 44%|████▎     | 161648/371472 [1:46:48<18:16:30,  3.19it/s] 44%|████▎     | 161649/371472 [1:46:49<18:36:35,  3.13it/s] 44%|████▎     | 161650/371472 [1:46:49<18:44:32,  3.11it/s] 44%|████▎     | 161651/371472 [1:46:49<18:52:17,  3.09it/s] 44%|████▎     | 161652/371472 [1:46:50<18:47:12,  3.10it/s] 44%|████▎     | 161653/371472 [1:46:50<18:32:14,  3.14it/s] 44%|████▎     | 161654/371472 [1:46:50<18:25:16,  3.16it/s] 44%|████▎     | 161655/371472 [1:46:50<17:29:47,  3.33it/s] 44%|████▎     | 161656/371472 [1:46:51<17:08:03,  3.40it/s] 44%|████▎     | 161657/371472 [1:46:51<16:28:31,  3.54it/s] 44%|████▎     | 161658/371472 [1:46:51<15:46:04,  3.70it/s] 44%|████▎     | 161659/371472 [1:46:51<15:34:01,  3.74it/s] 44%|████▎     | 161660/371472 [1:46:52<15:04:06,  3.87it/s]                                                            {'loss': 3.0663, 'learning_rate': 6.086050119588872e-07, 'epoch': 6.96}
 44%|████▎     | 161660/371472 [1:46:52<15:04:06,  3.87it/s] 44%|████▎     | 161661/371472 [1:46:52<15:01:40,  3.88it/s] 44%|████▎     | 161662/371472 [1:46:52<15:21:59,  3.79it/s] 44%|████▎     | 161663/371472 [1:46:52<15:08:24,  3.85it/s] 44%|████▎     | 161664/371472 [1:46:53<14:50:58,  3.92it/s] 44%|████▎     | 161665/371472 [1:46:53<15:07:02,  3.86it/s] 44%|████▎     | 161666/371472 [1:46:53<15:32:43,  3.75it/s] 44%|████▎     | 161667/371472 [1:46:54<15:22:39,  3.79it/s] 44%|████▎     | 161668/371472 [1:46:54<15:24:35,  3.78it/s] 44%|████▎     | 161669/371472 [1:46:54<16:02:37,  3.63it/s] 44%|████▎     | 161670/371472 [1:46:54<15:58:36,  3.65it/s] 44%|████▎     | 161671/371472 [1:46:55<15:26:14,  3.78it/s] 44%|████▎     | 161672/371472 [1:46:55<16:01:55,  3.64it/s] 44%|████▎     | 161673/371472 [1:46:55<15:56:27,  3.66it/s] 44%|████▎     | 161674/371472 [1:46:56<17:42:45,  3.29it/s] 44%|████▎     | 161675/371472 [1:46:56<16:44:10,  3.48it/s] 44%|████▎     | 161676/371472 [1:46:56<17:27:01,  3.34it/s] 44%|████▎     | 161677/371472 [1:46:56<17:12:02,  3.39it/s] 44%|████▎     | 161678/371472 [1:46:57<16:53:35,  3.45it/s] 44%|████▎     | 161679/371472 [1:46:57<16:07:44,  3.61it/s] 44%|████▎     | 161680/371472 [1:46:57<15:22:13,  3.79it/s]                                                            {'loss': 3.3522, 'learning_rate': 6.085565299834084e-07, 'epoch': 6.96}
 44%|████▎     | 161680/371472 [1:46:57<15:22:13,  3.79it/s] 44%|████▎     | 161681/371472 [1:46:57<15:35:35,  3.74it/s] 44%|████▎     | 161682/371472 [1:46:58<15:13:23,  3.83it/s] 44%|████▎     | 161683/371472 [1:46:58<15:54:38,  3.66it/s] 44%|████▎     | 161684/371472 [1:46:58<15:44:51,  3.70it/s] 44%|████▎     | 161685/371472 [1:46:58<15:22:19,  3.79it/s] 44%|████▎     | 161686/371472 [1:46:59<16:55:21,  3.44it/s] 44%|████▎     | 161687/371472 [1:46:59<17:20:29,  3.36it/s] 44%|████▎     | 161688/371472 [1:46:59<16:21:14,  3.56it/s] 44%|████▎     | 161689/371472 [1:47:00<15:41:07,  3.72it/s] 44%|████▎     | 161690/371472 [1:47:00<15:32:14,  3.75it/s] 44%|████▎     | 161691/371472 [1:47:00<16:18:21,  3.57it/s] 44%|████▎     | 161692/371472 [1:47:00<16:12:04,  3.60it/s] 44%|████▎     | 161693/371472 [1:47:01<15:45:36,  3.70it/s] 44%|████▎     | 161694/371472 [1:47:01<16:54:29,  3.45it/s] 44%|████▎     | 161695/371472 [1:47:01<17:27:33,  3.34it/s] 44%|████▎     | 161696/371472 [1:47:02<16:21:39,  3.56it/s] 44%|████▎     | 161697/371472 [1:47:02<15:53:16,  3.67it/s] 44%|████▎     | 161698/371472 [1:47:02<15:52:11,  3.67it/s] 44%|████▎     | 161699/371472 [1:47:02<15:20:13,  3.80it/s] 44%|████▎     | 161700/371472 [1:47:03<15:29:54,  3.76it/s]                                                            {'loss': 3.261, 'learning_rate': 6.085080480079294e-07, 'epoch': 6.96}
 44%|████▎     | 161700/371472 [1:47:03<15:29:54,  3.76it/s] 44%|████▎     | 161701/371472 [1:47:03<15:31:09,  3.75it/s] 44%|████▎     | 161702/371472 [1:47:03<15:16:52,  3.81it/s] 44%|████▎     | 161703/371472 [1:47:04<16:14:57,  3.59it/s] 44%|████▎     | 161704/371472 [1:47:04<16:44:34,  3.48it/s] 44%|████▎     | 161705/371472 [1:47:04<16:24:13,  3.55it/s] 44%|████▎     | 161706/371472 [1:47:04<15:51:04,  3.68it/s] 44%|████▎     | 161707/371472 [1:47:05<15:36:00,  3.74it/s] 44%|████▎     | 161708/371472 [1:47:05<15:44:09,  3.70it/s] 44%|████▎     | 161709/371472 [1:47:05<15:48:08,  3.69it/s] 44%|████▎     | 161710/371472 [1:47:05<15:57:44,  3.65it/s] 44%|████▎     | 161711/371472 [1:47:06<17:30:39,  3.33it/s] 44%|████▎     | 161712/371472 [1:47:06<17:00:36,  3.43it/s] 44%|████▎     | 161713/371472 [1:47:06<16:38:31,  3.50it/s] 44%|████▎     | 161714/371472 [1:47:07<16:42:56,  3.49it/s] 44%|████▎     | 161715/371472 [1:47:07<16:54:25,  3.45it/s] 44%|████▎     | 161716/371472 [1:47:07<17:04:40,  3.41it/s] 44%|████▎     | 161717/371472 [1:47:07<16:44:18,  3.48it/s] 44%|████▎     | 161718/371472 [1:47:08<16:11:56,  3.60it/s] 44%|████▎     | 161719/371472 [1:47:08<15:46:23,  3.69it/s] 44%|████▎     | 161720/371472 [1:47:08<15:22:58,  3.79it/s]                                                            {'loss': 3.1382, 'learning_rate': 6.084595660324505e-07, 'epoch': 6.97}
 44%|████▎     | 161720/371472 [1:47:08<15:22:58,  3.79it/s] 44%|████▎     | 161721/371472 [1:47:09<16:14:37,  3.59it/s] 44%|████▎     | 161722/371472 [1:47:09<16:16:49,  3.58it/s] 44%|████▎     | 161723/371472 [1:47:09<16:31:31,  3.53it/s] 44%|████▎     | 161724/371472 [1:47:09<16:01:56,  3.63it/s] 44%|████▎     | 161725/371472 [1:47:10<15:24:12,  3.78it/s] 44%|████▎     | 161726/371472 [1:47:10<15:25:18,  3.78it/s] 44%|████▎     | 161727/371472 [1:47:10<15:48:26,  3.69it/s] 44%|████▎     | 161728/371472 [1:47:11<17:04:33,  3.41it/s] 44%|████▎     | 161729/371472 [1:47:11<16:31:11,  3.53it/s] 44%|████▎     | 161730/371472 [1:47:11<15:55:18,  3.66it/s] 44%|████▎     | 161731/371472 [1:47:11<15:53:02,  3.67it/s] 44%|████▎     | 161732/371472 [1:47:12<15:44:49,  3.70it/s] 44%|████▎     | 161733/371472 [1:47:12<15:25:19,  3.78it/s] 44%|████▎     | 161734/371472 [1:47:12<15:17:02,  3.81it/s] 44%|████▎     | 161735/371472 [1:47:12<15:15:26,  3.82it/s] 44%|████▎     | 161736/371472 [1:47:13<15:48:23,  3.69it/s] 44%|████▎     | 161737/371472 [1:47:13<15:57:32,  3.65it/s] 44%|████▎     | 161738/371472 [1:47:13<17:51:56,  3.26it/s] 44%|████▎     | 161739/371472 [1:47:14<17:45:21,  3.28it/s] 44%|████▎     | 161740/371472 [1:47:14<17:09:37,  3.39it/s]                                                            {'loss': 3.2454, 'learning_rate': 6.084110840569717e-07, 'epoch': 6.97}
 44%|████▎     | 161740/371472 [1:47:14<17:09:37,  3.39it/s] 44%|████▎     | 161741/371472 [1:47:14<16:35:49,  3.51it/s] 44%|████▎     | 161742/371472 [1:47:14<16:18:01,  3.57it/s] 44%|████▎     | 161743/371472 [1:47:15<17:31:28,  3.32it/s] 44%|████▎     | 161744/371472 [1:47:15<17:01:23,  3.42it/s] 44%|████▎     | 161745/371472 [1:47:15<16:34:06,  3.52it/s] 44%|████▎     | 161746/371472 [1:47:16<16:41:00,  3.49it/s] 44%|████▎     | 161747/371472 [1:47:16<16:26:34,  3.54it/s] 44%|████▎     | 161748/371472 [1:47:16<16:03:30,  3.63it/s] 44%|████▎     | 161749/371472 [1:47:16<16:51:10,  3.46it/s] 44%|████▎     | 161750/371472 [1:47:17<18:11:31,  3.20it/s] 44%|████▎     | 161751/371472 [1:47:17<17:10:18,  3.39it/s] 44%|████▎     | 161752/371472 [1:47:17<16:32:59,  3.52it/s] 44%|████▎     | 161753/371472 [1:47:18<16:13:31,  3.59it/s] 44%|████▎     | 161754/371472 [1:47:18<15:45:54,  3.70it/s] 44%|████▎     | 161755/371472 [1:47:18<16:35:33,  3.51it/s] 44%|████▎     | 161756/371472 [1:47:18<16:26:10,  3.54it/s] 44%|████▎     | 161757/371472 [1:47:19<17:45:19,  3.28it/s] 44%|████▎     | 161758/371472 [1:47:19<16:44:26,  3.48it/s] 44%|████▎     | 161759/371472 [1:47:19<16:43:44,  3.48it/s] 44%|████▎     | 161760/371472 [1:47:20<17:11:19,  3.39it/s]                                                            {'loss': 3.2716, 'learning_rate': 6.083626020814928e-07, 'epoch': 6.97}
 44%|████▎     | 161760/371472 [1:47:20<17:11:19,  3.39it/s] 44%|████▎     | 161761/371472 [1:47:20<18:51:57,  3.09it/s] 44%|████▎     | 161762/371472 [1:47:20<18:33:27,  3.14it/s] 44%|████▎     | 161763/371472 [1:47:21<17:47:15,  3.27it/s] 44%|████▎     | 161764/371472 [1:47:21<18:36:32,  3.13it/s] 44%|████▎     | 161765/371472 [1:47:21<17:45:39,  3.28it/s] 44%|████▎     | 161766/371472 [1:47:21<17:14:14,  3.38it/s] 44%|████▎     | 161767/371472 [1:47:22<18:49:36,  3.09it/s] 44%|████▎     | 161768/371472 [1:47:22<18:14:24,  3.19it/s] 44%|████▎     | 161769/371472 [1:47:22<17:15:24,  3.38it/s] 44%|████▎     | 161770/371472 [1:47:23<16:31:46,  3.52it/s] 44%|████▎     | 161771/371472 [1:47:23<17:03:14,  3.42it/s] 44%|████▎     | 161772/371472 [1:47:23<17:43:02,  3.29it/s] 44%|████▎     | 161773/371472 [1:47:24<17:54:13,  3.25it/s] 44%|████▎     | 161774/371472 [1:47:24<17:10:32,  3.39it/s] 44%|████▎     | 161775/371472 [1:47:24<16:35:37,  3.51it/s] 44%|████▎     | 161776/371472 [1:47:24<16:37:19,  3.50it/s] 44%|████▎     | 161777/371472 [1:47:25<17:33:24,  3.32it/s] 44%|████▎     | 161778/371472 [1:47:25<17:07:51,  3.40it/s] 44%|████▎     | 161779/371472 [1:47:25<17:27:49,  3.34it/s] 44%|████▎     | 161780/371472 [1:47:26<17:50:23,  3.27it/s]                                                            {'loss': 3.0766, 'learning_rate': 6.083141201060138e-07, 'epoch': 6.97}
 44%|████▎     | 161780/371472 [1:47:26<17:50:23,  3.27it/s] 44%|████▎     | 161781/371472 [1:47:26<20:02:03,  2.91it/s] 44%|████▎     | 161782/371472 [1:47:26<20:14:02,  2.88it/s] 44%|████▎     | 161783/371472 [1:47:27<18:52:15,  3.09it/s] 44%|████▎     | 161784/371472 [1:47:27<17:56:44,  3.25it/s] 44%|████▎     | 161785/371472 [1:47:27<17:16:02,  3.37it/s] 44%|████▎     | 161786/371472 [1:47:28<17:41:19,  3.29it/s] 44%|████▎     | 161787/371472 [1:47:28<16:56:13,  3.44it/s] 44%|████▎     | 161788/371472 [1:47:28<16:28:27,  3.54it/s] 44%|████▎     | 161789/371472 [1:47:28<16:10:20,  3.60it/s] 44%|████▎     | 161790/371472 [1:47:29<15:55:56,  3.66it/s] 44%|████▎     | 161791/371472 [1:47:29<15:37:01,  3.73it/s] 44%|████▎     | 161792/371472 [1:47:29<15:59:33,  3.64it/s] 44%|████▎     | 161793/371472 [1:47:29<15:55:26,  3.66it/s] 44%|████▎     | 161794/371472 [1:47:30<16:34:50,  3.51it/s] 44%|████▎     | 161795/371472 [1:47:30<16:43:14,  3.48it/s] 44%|████▎     | 161796/371472 [1:47:30<16:32:55,  3.52it/s] 44%|████▎     | 161797/371472 [1:47:31<16:41:02,  3.49it/s] 44%|████▎     | 161798/371472 [1:47:31<16:38:11,  3.50it/s] 44%|████▎     | 161799/371472 [1:47:31<16:51:35,  3.45it/s] 44%|████▎     | 161800/371472 [1:47:32<16:35:05,  3.51it/s]                                                            {'loss': 3.1037, 'learning_rate': 6.08265638130535e-07, 'epoch': 6.97}
 44%|████▎     | 161800/371472 [1:47:32<16:35:05,  3.51it/s] 44%|████▎     | 161801/371472 [1:47:32<16:36:11,  3.51it/s] 44%|████▎     | 161802/371472 [1:47:32<16:17:23,  3.58it/s] 44%|████▎     | 161803/371472 [1:47:32<16:29:10,  3.53it/s] 44%|████▎     | 161804/371472 [1:47:33<16:19:05,  3.57it/s] 44%|████▎     | 161805/371472 [1:47:33<16:01:04,  3.64it/s] 44%|████▎     | 161806/371472 [1:47:33<16:07:03,  3.61it/s] 44%|████▎     | 161807/371472 [1:47:34<17:01:50,  3.42it/s] 44%|████▎     | 161808/371472 [1:47:34<16:25:54,  3.54it/s] 44%|████▎     | 161809/371472 [1:47:34<15:52:14,  3.67it/s] 44%|████▎     | 161810/371472 [1:47:34<16:07:03,  3.61it/s] 44%|████▎     | 161811/371472 [1:47:35<15:42:39,  3.71it/s] 44%|████▎     | 161812/371472 [1:47:35<15:39:35,  3.72it/s] 44%|████▎     | 161813/371472 [1:47:35<17:41:42,  3.29it/s] 44%|████▎     | 161814/371472 [1:47:35<17:13:30,  3.38it/s] 44%|████▎     | 161815/371472 [1:47:36<16:56:03,  3.44it/s] 44%|████▎     | 161816/371472 [1:47:36<16:14:23,  3.59it/s] 44%|████▎     | 161817/371472 [1:47:36<16:22:31,  3.56it/s] 44%|████▎     | 161818/371472 [1:47:37<15:45:46,  3.69it/s] 44%|████▎     | 161819/371472 [1:47:37<16:52:30,  3.45it/s] 44%|████▎     | 161820/371472 [1:47:37<15:51:01,  3.67it/s]                                                            {'loss': 3.042, 'learning_rate': 6.082171561550562e-07, 'epoch': 6.97}
 44%|████▎     | 161820/371472 [1:47:37<15:51:01,  3.67it/s] 44%|████▎     | 161821/371472 [1:47:37<17:12:30,  3.38it/s] 44%|████▎     | 161822/371472 [1:47:38<17:50:34,  3.26it/s] 44%|████▎     | 161823/371472 [1:47:38<17:36:53,  3.31it/s] 44%|████▎     | 161824/371472 [1:47:38<17:54:01,  3.25it/s] 44%|████▎     | 161825/371472 [1:47:39<17:19:06,  3.36it/s] 44%|████▎     | 161826/371472 [1:47:39<18:34:13,  3.14it/s] 44%|████▎     | 161827/371472 [1:47:39<18:35:59,  3.13it/s] 44%|████▎     | 161828/371472 [1:47:40<17:25:52,  3.34it/s] 44%|████▎     | 161829/371472 [1:47:40<16:30:02,  3.53it/s] 44%|████▎     | 161830/371472 [1:47:40<16:15:03,  3.58it/s] 44%|████▎     | 161831/371472 [1:47:41<19:51:48,  2.93it/s] 44%|████▎     | 161832/371472 [1:47:41<18:05:51,  3.22it/s] 44%|████▎     | 161833/371472 [1:47:41<17:47:48,  3.27it/s] 44%|████▎     | 161834/371472 [1:47:41<16:45:09,  3.48it/s] 44%|████▎     | 161835/371472 [1:47:42<16:50:45,  3.46it/s] 44%|████▎     | 161836/371472 [1:47:42<16:49:43,  3.46it/s] 44%|████▎     | 161837/371472 [1:47:42<16:27:27,  3.54it/s] 44%|████▎     | 161838/371472 [1:47:43<17:19:28,  3.36it/s] 44%|████▎     | 161839/371472 [1:47:43<17:51:51,  3.26it/s] 44%|████▎     | 161840/371472 [1:47:43<17:51:44,  3.26it/s]                                                            {'loss': 3.2057, 'learning_rate': 6.081686741795773e-07, 'epoch': 6.97}
 44%|████▎     | 161840/371472 [1:47:43<17:51:44,  3.26it/s] 44%|████▎     | 161841/371472 [1:47:43<17:01:27,  3.42it/s] 44%|████▎     | 161842/371472 [1:47:44<16:20:26,  3.56it/s] 44%|████▎     | 161843/371472 [1:47:44<16:37:16,  3.50it/s] 44%|████▎     | 161844/371472 [1:47:44<17:08:12,  3.40it/s] 44%|████▎     | 161845/371472 [1:47:45<16:44:37,  3.48it/s] 44%|████▎     | 161846/371472 [1:47:45<17:08:02,  3.40it/s] 44%|████▎     | 161847/371472 [1:47:45<16:31:08,  3.52it/s] 44%|████▎     | 161848/371472 [1:47:45<16:03:00,  3.63it/s] 44%|████▎     | 161849/371472 [1:47:46<15:45:58,  3.69it/s] 44%|████▎     | 161850/371472 [1:47:46<17:17:01,  3.37it/s] 44%|████▎     | 161851/371472 [1:47:46<17:51:31,  3.26it/s] 44%|████▎     | 161852/371472 [1:47:47<17:57:14,  3.24it/s] 44%|████▎     | 161853/371472 [1:47:47<17:37:32,  3.30it/s] 44%|████▎     | 161854/371472 [1:47:47<17:15:59,  3.37it/s] 44%|████▎     | 161855/371472 [1:47:48<16:56:07,  3.44it/s] 44%|████▎     | 161856/371472 [1:47:48<18:52:25,  3.09it/s] 44%|████▎     | 161857/371472 [1:47:48<17:52:18,  3.26it/s] 44%|████▎     | 161858/371472 [1:47:48<16:55:23,  3.44it/s] 44%|████▎     | 161859/371472 [1:47:49<16:31:31,  3.52it/s] 44%|████▎     | 161860/371472 [1:47:49<17:07:56,  3.40it/s]                                                            {'loss': 3.0731, 'learning_rate': 6.081201922040982e-07, 'epoch': 6.97}
 44%|████▎     | 161860/371472 [1:47:49<17:07:56,  3.40it/s] 44%|████▎     | 161861/371472 [1:47:49<16:56:17,  3.44it/s] 44%|████▎     | 161862/371472 [1:47:50<16:48:06,  3.47it/s] 44%|████▎     | 161863/371472 [1:47:50<16:28:05,  3.54it/s] 44%|████▎     | 161864/371472 [1:47:50<15:55:23,  3.66it/s] 44%|████▎     | 161865/371472 [1:47:50<15:37:20,  3.73it/s] 44%|████▎     | 161866/371472 [1:47:51<15:12:14,  3.83it/s] 44%|████▎     | 161867/371472 [1:47:51<15:14:21,  3.82it/s] 44%|████▎     | 161868/371472 [1:47:51<15:24:43,  3.78it/s] 44%|████▎     | 161869/371472 [1:47:51<15:29:41,  3.76it/s] 44%|████▎     | 161870/371472 [1:47:52<16:55:55,  3.44it/s] 44%|████▎     | 161871/371472 [1:47:52<17:25:35,  3.34it/s] 44%|████▎     | 161872/371472 [1:47:52<17:38:57,  3.30it/s] 44%|████▎     | 161873/371472 [1:47:53<17:54:10,  3.25it/s] 44%|████▎     | 161874/371472 [1:47:53<17:56:33,  3.24it/s] 44%|████▎     | 161875/371472 [1:47:53<17:11:24,  3.39it/s] 44%|████▎     | 161876/371472 [1:47:54<16:38:19,  3.50it/s] 44%|████▎     | 161877/371472 [1:47:54<16:40:37,  3.49it/s] 44%|████▎     | 161878/371472 [1:47:54<16:48:54,  3.46it/s] 44%|████▎     | 161879/371472 [1:47:54<16:36:39,  3.50it/s] 44%|████▎     | 161880/371472 [1:47:55<17:19:19,  3.36it/s]                                                            {'loss': 3.2212, 'learning_rate': 6.080717102286194e-07, 'epoch': 6.97}
 44%|████▎     | 161880/371472 [1:47:55<17:19:19,  3.36it/s] 44%|████▎     | 161881/371472 [1:47:55<16:56:11,  3.44it/s] 44%|████▎     | 161882/371472 [1:47:55<17:41:13,  3.29it/s] 44%|████▎     | 161883/371472 [1:47:56<17:08:55,  3.39it/s] 44%|████▎     | 161884/371472 [1:47:56<17:54:17,  3.25it/s] 44%|████▎     | 161885/371472 [1:47:56<17:21:28,  3.35it/s] 44%|████▎     | 161886/371472 [1:47:57<16:37:13,  3.50it/s] 44%|████▎     | 161887/371472 [1:47:57<17:05:35,  3.41it/s] 44%|████▎     | 161888/371472 [1:47:57<17:20:03,  3.36it/s] 44%|████▎     | 161889/371472 [1:47:57<16:35:12,  3.51it/s] 44%|████▎     | 161890/371472 [1:47:58<16:48:48,  3.46it/s] 44%|████▎     | 161891/371472 [1:47:58<16:15:08,  3.58it/s] 44%|████▎     | 161892/371472 [1:47:58<16:56:00,  3.44it/s] 44%|████▎     | 161893/371472 [1:47:59<17:04:21,  3.41it/s] 44%|████▎     | 161894/371472 [1:47:59<16:16:20,  3.58it/s] 44%|████▎     | 161895/371472 [1:47:59<15:54:52,  3.66it/s] 44%|████▎     | 161896/371472 [1:47:59<15:24:47,  3.78it/s] 44%|████▎     | 161897/371472 [1:48:00<16:21:04,  3.56it/s] 44%|████▎     | 161898/371472 [1:48:00<16:22:05,  3.56it/s] 44%|████▎     | 161899/371472 [1:48:00<15:47:27,  3.69it/s] 44%|████▎     | 161900/371472 [1:48:00<15:58:44,  3.64it/s]                                                            {'loss': 2.8333, 'learning_rate': 6.080232282531406e-07, 'epoch': 6.97}
 44%|████▎     | 161900/371472 [1:48:00<15:58:44,  3.64it/s] 44%|████▎     | 161901/371472 [1:48:01<16:11:56,  3.59it/s] 44%|████▎     | 161902/371472 [1:48:01<16:33:14,  3.52it/s] 44%|████▎     | 161903/371472 [1:48:01<16:24:33,  3.55it/s] 44%|████▎     | 161904/371472 [1:48:02<16:27:08,  3.54it/s] 44%|████▎     | 161905/371472 [1:48:02<16:44:14,  3.48it/s] 44%|████▎     | 161906/371472 [1:48:02<16:00:48,  3.64it/s] 44%|████▎     | 161907/371472 [1:48:02<15:42:07,  3.71it/s] 44%|████▎     | 161908/371472 [1:48:03<16:20:45,  3.56it/s] 44%|████▎     | 161909/371472 [1:48:03<16:20:21,  3.56it/s] 44%|████▎     | 161910/371472 [1:48:03<17:51:33,  3.26it/s] 44%|████▎     | 161911/371472 [1:48:04<17:03:54,  3.41it/s] 44%|████▎     | 161912/371472 [1:48:04<16:22:17,  3.56it/s] 44%|████▎     | 161913/371472 [1:48:04<16:09:33,  3.60it/s] 44%|████▎     | 161914/371472 [1:48:04<16:05:32,  3.62it/s] 44%|████▎     | 161915/371472 [1:48:05<16:20:57,  3.56it/s] 44%|████▎     | 161916/371472 [1:48:05<16:30:31,  3.53it/s] 44%|████▎     | 161917/371472 [1:48:05<16:37:22,  3.50it/s] 44%|████▎     | 161918/371472 [1:48:06<16:25:29,  3.54it/s] 44%|████▎     | 161919/371472 [1:48:06<16:06:44,  3.61it/s] 44%|████▎     | 161920/371472 [1:48:06<16:03:16,  3.63it/s]                                                            {'loss': 3.0526, 'learning_rate': 6.079747462776617e-07, 'epoch': 6.97}
 44%|████▎     | 161920/371472 [1:48:06<16:03:16,  3.63it/s] 44%|████▎     | 161921/371472 [1:48:06<16:59:18,  3.43it/s] 44%|████▎     | 161922/371472 [1:48:07<16:37:40,  3.50it/s] 44%|████▎     | 161923/371472 [1:48:07<17:07:34,  3.40it/s] 44%|████▎     | 161924/371472 [1:48:07<16:19:30,  3.57it/s] 44%|████▎     | 161925/371472 [1:48:08<16:24:02,  3.55it/s] 44%|████▎     | 161926/371472 [1:48:08<16:00:53,  3.63it/s] 44%|████▎     | 161927/371472 [1:48:08<16:17:14,  3.57it/s] 44%|████▎     | 161928/371472 [1:48:08<16:43:35,  3.48it/s] 44%|████▎     | 161929/371472 [1:48:09<17:44:28,  3.28it/s] 44%|████▎     | 161930/371472 [1:48:09<18:13:17,  3.19it/s] 44%|████▎     | 161931/371472 [1:48:09<17:31:28,  3.32it/s] 44%|████▎     | 161932/371472 [1:48:10<16:34:37,  3.51it/s] 44%|████▎     | 161933/371472 [1:48:10<16:07:41,  3.61it/s] 44%|████▎     | 161934/371472 [1:48:10<16:35:45,  3.51it/s] 44%|████▎     | 161935/371472 [1:48:10<16:13:38,  3.59it/s] 44%|████▎     | 161936/371472 [1:48:11<16:40:43,  3.49it/s] 44%|████▎     | 161937/371472 [1:48:11<17:04:33,  3.41it/s] 44%|████▎     | 161938/371472 [1:48:11<18:33:21,  3.14it/s] 44%|████▎     | 161939/371472 [1:48:12<17:36:52,  3.30it/s] 44%|████▎     | 161940/371472 [1:48:12<16:45:44,  3.47it/s]                                                            {'loss': 3.1452, 'learning_rate': 6.079262643021827e-07, 'epoch': 6.98}
 44%|████▎     | 161940/371472 [1:48:12<16:45:44,  3.47it/s] 44%|████▎     | 161941/371472 [1:48:12<17:19:28,  3.36it/s] 44%|████▎     | 161942/371472 [1:48:13<17:06:05,  3.40it/s] 44%|████▎     | 161943/371472 [1:48:13<17:20:59,  3.35it/s] 44%|████▎     | 161944/371472 [1:48:13<16:55:41,  3.44it/s] 44%|████▎     | 161945/371472 [1:48:13<17:31:00,  3.32it/s] 44%|████▎     | 161946/371472 [1:48:14<16:51:19,  3.45it/s] 44%|████▎     | 161947/371472 [1:48:14<17:11:41,  3.38it/s] 44%|████▎     | 161948/371472 [1:48:14<16:36:09,  3.51it/s] 44%|████▎     | 161949/371472 [1:48:15<16:43:52,  3.48it/s] 44%|████▎     | 161950/371472 [1:48:15<17:12:01,  3.38it/s] 44%|████▎     | 161951/371472 [1:48:15<16:36:36,  3.50it/s] 44%|████▎     | 161952/371472 [1:48:15<16:16:13,  3.58it/s] 44%|████▎     | 161953/371472 [1:48:16<15:26:33,  3.77it/s] 44%|████▎     | 161954/371472 [1:48:16<16:40:12,  3.49it/s] 44%|████▎     | 161955/371472 [1:48:16<16:57:29,  3.43it/s] 44%|████▎     | 161956/371472 [1:48:17<17:13:52,  3.38it/s] 44%|████▎     | 161957/371472 [1:48:17<18:55:39,  3.07it/s] 44%|████▎     | 161958/371472 [1:48:17<18:36:19,  3.13it/s] 44%|████▎     | 161959/371472 [1:48:18<18:47:08,  3.10it/s] 44%|████▎     | 161960/371472 [1:48:18<17:43:26,  3.28it/s]                                                            {'loss': 3.0742, 'learning_rate': 6.078777823267039e-07, 'epoch': 6.98}
 44%|████▎     | 161960/371472 [1:48:18<17:43:26,  3.28it/s] 44%|████▎     | 161961/371472 [1:48:18<17:14:39,  3.37it/s] 44%|████▎     | 161962/371472 [1:48:18<16:44:04,  3.48it/s] 44%|████▎     | 161963/371472 [1:48:19<16:16:37,  3.58it/s] 44%|████▎     | 161964/371472 [1:48:19<16:04:31,  3.62it/s] 44%|████▎     | 161965/371472 [1:48:19<16:15:47,  3.58it/s] 44%|████▎     | 161966/371472 [1:48:19<15:43:32,  3.70it/s] 44%|████▎     | 161967/371472 [1:48:20<15:28:29,  3.76it/s] 44%|████▎     | 161968/371472 [1:48:20<15:19:05,  3.80it/s] 44%|████▎     | 161969/371472 [1:48:20<14:59:48,  3.88it/s] 44%|████▎     | 161970/371472 [1:48:21<15:35:29,  3.73it/s] 44%|████▎     | 161971/371472 [1:48:21<15:56:26,  3.65it/s] 44%|████▎     | 161972/371472 [1:48:21<16:09:16,  3.60it/s] 44%|████▎     | 161973/371472 [1:48:21<15:31:09,  3.75it/s] 44%|████▎     | 161974/371472 [1:48:22<15:43:56,  3.70it/s] 44%|████▎     | 161975/371472 [1:48:22<15:01:43,  3.87it/s] 44%|████▎     | 161976/371472 [1:48:22<15:35:45,  3.73it/s] 44%|████▎     | 161977/371472 [1:48:22<15:33:15,  3.74it/s] 44%|████▎     | 161978/371472 [1:48:23<15:08:26,  3.84it/s] 44%|████▎     | 161979/371472 [1:48:23<15:01:54,  3.87it/s] 44%|████▎     | 161980/371472 [1:48:23<15:16:59,  3.81it/s]                                                            {'loss': 3.0973, 'learning_rate': 6.07829300351225e-07, 'epoch': 6.98}
 44%|████▎     | 161980/371472 [1:48:23<15:16:59,  3.81it/s] 44%|████▎     | 161981/371472 [1:48:23<15:10:44,  3.83it/s] 44%|████▎     | 161982/371472 [1:48:24<15:27:16,  3.77it/s] 44%|████▎     | 161983/371472 [1:48:24<15:25:32,  3.77it/s] 44%|████▎     | 161984/371472 [1:48:24<15:39:38,  3.72it/s] 44%|████▎     | 161985/371472 [1:48:25<16:47:48,  3.46it/s] 44%|████▎     | 161986/371472 [1:48:25<16:47:52,  3.46it/s] 44%|████▎     | 161987/371472 [1:48:25<16:11:59,  3.59it/s] 44%|████▎     | 161988/371472 [1:48:25<15:50:03,  3.67it/s] 44%|████▎     | 161989/371472 [1:48:26<15:54:42,  3.66it/s] 44%|████▎     | 161990/371472 [1:48:26<16:00:00,  3.64it/s] 44%|████▎     | 161991/371472 [1:48:26<16:15:03,  3.58it/s] 44%|████▎     | 161992/371472 [1:48:27<16:18:21,  3.57it/s] 44%|████▎     | 161993/371472 [1:48:27<16:27:32,  3.54it/s] 44%|████▎     | 161994/371472 [1:48:27<16:04:52,  3.62it/s] 44%|████▎     | 161995/371472 [1:48:27<16:12:41,  3.59it/s] 44%|████▎     | 161996/371472 [1:48:28<16:01:39,  3.63it/s] 44%|████▎     | 161997/371472 [1:48:28<17:01:00,  3.42it/s] 44%|████▎     | 161998/371472 [1:48:28<16:42:03,  3.48it/s] 44%|████▎     | 161999/371472 [1:48:29<16:43:52,  3.48it/s] 44%|████▎     | 162000/371472 [1:48:29<16:13:56,  3.58it/s]                                                            {'loss': 3.1255, 'learning_rate': 6.07780818375746e-07, 'epoch': 6.98}
 44%|████▎     | 162000/371472 [1:48:29<16:13:56,  3.58it/s] 44%|████▎     | 162001/371472 [1:48:29<16:01:08,  3.63it/s] 44%|████▎     | 162002/371472 [1:48:29<16:10:20,  3.60it/s] 44%|████▎     | 162003/371472 [1:48:30<16:33:38,  3.51it/s] 44%|████▎     | 162004/371472 [1:48:30<16:58:19,  3.43it/s] 44%|████▎     | 162005/371472 [1:48:30<16:47:44,  3.46it/s] 44%|████▎     | 162006/371472 [1:48:31<17:28:19,  3.33it/s] 44%|████▎     | 162007/371472 [1:48:31<17:05:20,  3.40it/s] 44%|████▎     | 162008/371472 [1:48:31<16:50:07,  3.46it/s] 44%|████▎     | 162009/371472 [1:48:31<16:50:04,  3.46it/s] 44%|████▎     | 162010/371472 [1:48:32<16:22:08,  3.55it/s] 44%|████▎     | 162011/371472 [1:48:32<16:23:28,  3.55it/s] 44%|████▎     | 162012/371472 [1:48:32<17:07:47,  3.40it/s] 44%|████▎     | 162013/371472 [1:48:33<16:20:28,  3.56it/s] 44%|████▎     | 162014/371472 [1:48:33<15:52:11,  3.67it/s] 44%|████▎     | 162015/371472 [1:48:33<16:18:29,  3.57it/s] 44%|████▎     | 162016/371472 [1:48:33<15:51:01,  3.67it/s] 44%|████▎     | 162017/371472 [1:48:34<16:28:04,  3.53it/s] 44%|████▎     | 162018/371472 [1:48:34<16:06:45,  3.61it/s] 44%|████▎     | 162019/371472 [1:48:34<15:59:15,  3.64it/s] 44%|████▎     | 162020/371472 [1:48:34<15:48:44,  3.68it/s]                                                            {'loss': 3.2109, 'learning_rate': 6.077323364002671e-07, 'epoch': 6.98}
 44%|████▎     | 162020/371472 [1:48:34<15:48:44,  3.68it/s] 44%|████▎     | 162021/371472 [1:48:35<17:12:21,  3.38it/s] 44%|████▎     | 162022/371472 [1:48:35<16:23:09,  3.55it/s] 44%|████▎     | 162023/371472 [1:48:35<15:56:12,  3.65it/s] 44%|████▎     | 162024/371472 [1:48:36<15:40:25,  3.71it/s] 44%|████▎     | 162025/371472 [1:48:36<15:59:24,  3.64it/s] 44%|████▎     | 162026/371472 [1:48:36<16:34:01,  3.51it/s] 44%|████▎     | 162027/371472 [1:48:36<16:31:24,  3.52it/s] 44%|████▎     | 162028/371472 [1:48:37<16:33:48,  3.51it/s] 44%|████▎     | 162029/371472 [1:48:37<16:22:57,  3.55it/s] 44%|████▎     | 162030/371472 [1:48:37<17:02:13,  3.41it/s] 44%|████▎     | 162031/371472 [1:48:38<16:45:51,  3.47it/s] 44%|████▎     | 162032/371472 [1:48:38<16:17:59,  3.57it/s] 44%|████▎     | 162033/371472 [1:48:38<16:14:15,  3.58it/s] 44%|████▎     | 162034/371472 [1:48:38<16:03:32,  3.62it/s] 44%|████▎     | 162035/371472 [1:48:39<15:51:59,  3.67it/s] 44%|████▎     | 162036/371472 [1:48:39<15:26:42,  3.77it/s] 44%|████▎     | 162037/371472 [1:48:39<17:38:26,  3.30it/s] 44%|████▎     | 162038/371472 [1:48:40<17:00:14,  3.42it/s] 44%|████▎     | 162039/371472 [1:48:40<16:29:12,  3.53it/s] 44%|████▎     | 162040/371472 [1:48:40<17:12:14,  3.38it/s]                                                            {'loss': 3.2152, 'learning_rate': 6.076838544247883e-07, 'epoch': 6.98}
 44%|████▎     | 162040/371472 [1:48:40<17:12:14,  3.38it/s] 44%|████▎     | 162041/371472 [1:48:40<16:50:08,  3.46it/s] 44%|████▎     | 162042/371472 [1:48:41<17:54:57,  3.25it/s] 44%|████▎     | 162043/371472 [1:48:41<17:34:01,  3.31it/s] 44%|████▎     | 162044/371472 [1:48:41<16:52:55,  3.45it/s] 44%|████▎     | 162045/371472 [1:48:42<16:14:11,  3.58it/s] 44%|████▎     | 162046/371472 [1:48:42<16:32:05,  3.52it/s] 44%|████▎     | 162047/371472 [1:48:42<15:59:16,  3.64it/s] 44%|████▎     | 162048/371472 [1:48:42<15:53:06,  3.66it/s] 44%|████▎     | 162049/371472 [1:48:43<16:31:07,  3.52it/s] 44%|████▎     | 162050/371472 [1:48:43<16:46:04,  3.47it/s] 44%|████▎     | 162051/371472 [1:48:43<16:19:00,  3.57it/s] 44%|████▎     | 162052/371472 [1:48:44<15:58:39,  3.64it/s] 44%|████▎     | 162053/371472 [1:48:44<15:52:03,  3.67it/s] 44%|████▎     | 162054/371472 [1:48:44<16:16:55,  3.57it/s] 44%|████▎     | 162055/371472 [1:48:44<17:02:38,  3.41it/s] 44%|████▎     | 162056/371472 [1:48:45<17:26:34,  3.33it/s] 44%|████▎     | 162057/371472 [1:48:45<16:37:17,  3.50it/s] 44%|████▎     | 162058/371472 [1:48:45<16:20:58,  3.56it/s] 44%|████▎     | 162059/371472 [1:48:46<16:24:43,  3.54it/s] 44%|████▎     | 162060/371472 [1:48:46<16:26:49,  3.54it/s]                                                            {'loss': 2.9917, 'learning_rate': 6.076353724493095e-07, 'epoch': 6.98}
 44%|████▎     | 162060/371472 [1:48:46<16:26:49,  3.54it/s] 44%|████▎     | 162061/371472 [1:48:46<16:20:01,  3.56it/s] 44%|████▎     | 162062/371472 [1:48:47<18:42:15,  3.11it/s] 44%|████▎     | 162063/371472 [1:48:47<17:57:22,  3.24it/s] 44%|████▎     | 162064/371472 [1:48:47<17:43:32,  3.28it/s] 44%|████▎     | 162065/371472 [1:48:47<17:04:16,  3.41it/s] 44%|████▎     | 162066/371472 [1:48:48<17:13:29,  3.38it/s] 44%|████▎     | 162067/371472 [1:48:48<17:26:39,  3.33it/s] 44%|████▎     | 162068/371472 [1:48:48<17:25:42,  3.34it/s] 44%|████▎     | 162069/371472 [1:48:49<17:27:20,  3.33it/s] 44%|████▎     | 162070/371472 [1:48:49<16:57:01,  3.43it/s] 44%|████▎     | 162071/371472 [1:48:49<16:36:05,  3.50it/s] 44%|████▎     | 162072/371472 [1:48:49<17:11:35,  3.38it/s] 44%|████▎     | 162073/371472 [1:48:50<16:25:26,  3.54it/s] 44%|████▎     | 162074/371472 [1:48:50<16:17:48,  3.57it/s] 44%|████▎     | 162075/371472 [1:48:50<16:16:57,  3.57it/s] 44%|████▎     | 162076/371472 [1:48:51<16:57:26,  3.43it/s] 44%|████▎     | 162077/371472 [1:48:51<16:34:21,  3.51it/s] 44%|████▎     | 162078/371472 [1:48:51<16:16:49,  3.57it/s] 44%|████▎     | 162079/371472 [1:48:51<15:40:56,  3.71it/s] 44%|████▎     | 162080/371472 [1:48:52<15:27:54,  3.76it/s]                                                            {'loss': 3.1531, 'learning_rate': 6.075868904738305e-07, 'epoch': 6.98}
 44%|████▎     | 162080/371472 [1:48:52<15:27:54,  3.76it/s] 44%|████▎     | 162081/371472 [1:48:52<15:35:29,  3.73it/s] 44%|████▎     | 162082/371472 [1:48:52<15:56:37,  3.65it/s] 44%|████▎     | 162083/371472 [1:48:52<17:02:17,  3.41it/s] 44%|████▎     | 162084/371472 [1:48:53<16:39:47,  3.49it/s] 44%|████▎     | 162085/371472 [1:48:53<16:21:59,  3.55it/s] 44%|████▎     | 162086/371472 [1:48:53<15:39:44,  3.71it/s] 44%|████▎     | 162087/371472 [1:48:54<16:29:44,  3.53it/s] 44%|████▎     | 162088/371472 [1:48:54<15:47:43,  3.68it/s] 44%|████▎     | 162089/371472 [1:48:54<15:59:58,  3.64it/s] 44%|████▎     | 162090/371472 [1:48:54<16:48:38,  3.46it/s] 44%|████▎     | 162091/371472 [1:48:55<17:08:18,  3.39it/s] 44%|████▎     | 162092/371472 [1:48:55<17:07:42,  3.40it/s] 44%|████▎     | 162093/371472 [1:48:55<17:07:25,  3.40it/s] 44%|████▎     | 162094/371472 [1:48:56<16:43:41,  3.48it/s] 44%|████▎     | 162095/371472 [1:48:56<16:39:21,  3.49it/s] 44%|████▎     | 162096/371472 [1:48:56<16:26:50,  3.54it/s] 44%|████▎     | 162097/371472 [1:48:56<16:30:53,  3.52it/s] 44%|████▎     | 162098/371472 [1:48:57<16:48:29,  3.46it/s] 44%|████▎     | 162099/371472 [1:48:57<16:58:49,  3.43it/s] 44%|████▎     | 162100/371472 [1:48:57<16:35:13,  3.51it/s]                                                            {'loss': 3.2459, 'learning_rate': 6.075384084983515e-07, 'epoch': 6.98}
 44%|████▎     | 162100/371472 [1:48:57<16:35:13,  3.51it/s] 44%|████▎     | 162101/371472 [1:48:58<16:48:10,  3.46it/s] 44%|████▎     | 162102/371472 [1:48:58<17:19:32,  3.36it/s] 44%|████▎     | 162103/371472 [1:48:58<19:05:38,  3.05it/s] 44%|████▎     | 162104/371472 [1:48:59<17:49:41,  3.26it/s] 44%|████▎     | 162105/371472 [1:48:59<17:28:07,  3.33it/s] 44%|████▎     | 162106/371472 [1:48:59<16:20:45,  3.56it/s] 44%|████▎     | 162107/371472 [1:48:59<16:05:35,  3.61it/s] 44%|████▎     | 162108/371472 [1:49:00<15:46:39,  3.69it/s] 44%|████▎     | 162109/371472 [1:49:00<15:56:28,  3.65it/s] 44%|████▎     | 162110/371472 [1:49:00<15:40:45,  3.71it/s] 44%|████▎     | 162111/371472 [1:49:00<16:00:08,  3.63it/s] 44%|████▎     | 162112/371472 [1:49:01<15:58:45,  3.64it/s] 44%|████▎     | 162113/371472 [1:49:01<16:28:58,  3.53it/s] 44%|████▎     | 162114/371472 [1:49:01<16:16:19,  3.57it/s] 44%|████▎     | 162115/371472 [1:49:02<17:20:30,  3.35it/s] 44%|████▎     | 162116/371472 [1:49:02<16:52:49,  3.45it/s] 44%|████▎     | 162117/371472 [1:49:02<16:27:09,  3.53it/s] 44%|████▎     | 162118/371472 [1:49:02<16:14:14,  3.58it/s] 44%|████▎     | 162119/371472 [1:49:03<16:35:54,  3.50it/s] 44%|████▎     | 162120/371472 [1:49:03<15:54:06,  3.66it/s]                                                            {'loss': 3.2204, 'learning_rate': 6.074899265228727e-07, 'epoch': 6.98}
 44%|████▎     | 162120/371472 [1:49:03<15:54:06,  3.66it/s] 44%|████▎     | 162121/371472 [1:49:03<15:42:15,  3.70it/s] 44%|████▎     | 162122/371472 [1:49:04<16:17:36,  3.57it/s] 44%|████▎     | 162123/371472 [1:49:04<17:09:24,  3.39it/s] 44%|████▎     | 162124/371472 [1:49:04<17:43:16,  3.28it/s] 44%|████▎     | 162125/371472 [1:49:05<17:22:21,  3.35it/s] 44%|████▎     | 162126/371472 [1:49:05<16:56:44,  3.43it/s] 44%|████▎     | 162127/371472 [1:49:05<16:31:14,  3.52it/s] 44%|████▎     | 162128/371472 [1:49:05<15:58:43,  3.64it/s] 44%|████▎     | 162129/371472 [1:49:06<15:57:07,  3.65it/s] 44%|████▎     | 162130/371472 [1:49:06<16:00:07,  3.63it/s] 44%|████▎     | 162131/371472 [1:49:06<15:36:57,  3.72it/s] 44%|████▎     | 162132/371472 [1:49:06<16:06:46,  3.61it/s] 44%|████▎     | 162133/371472 [1:49:07<16:10:08,  3.60it/s] 44%|████▎     | 162134/371472 [1:49:07<15:31:27,  3.75it/s] 44%|████▎     | 162135/371472 [1:49:07<15:43:17,  3.70it/s] 44%|████▎     | 162136/371472 [1:49:07<15:51:13,  3.67it/s] 44%|████▎     | 162137/371472 [1:49:08<15:24:59,  3.77it/s] 44%|████▎     | 162138/371472 [1:49:08<15:05:39,  3.85it/s] 44%|████▎     | 162139/371472 [1:49:08<16:51:54,  3.45it/s] 44%|████▎     | 162140/371472 [1:49:09<16:37:49,  3.50it/s]                                                            {'loss': 3.2163, 'learning_rate': 6.074414445473938e-07, 'epoch': 6.98}
 44%|████▎     | 162140/371472 [1:49:09<16:37:49,  3.50it/s] 44%|████▎     | 162141/371472 [1:49:09<16:50:38,  3.45it/s] 44%|████▎     | 162142/371472 [1:49:09<17:16:35,  3.37it/s] 44%|████▎     | 162143/371472 [1:49:09<16:28:45,  3.53it/s] 44%|████▎     | 162144/371472 [1:49:10<15:44:07,  3.70it/s] 44%|████▎     | 162145/371472 [1:49:10<16:27:21,  3.53it/s] 44%|████▎     | 162146/371472 [1:49:10<15:43:14,  3.70it/s] 44%|████▎     | 162147/371472 [1:49:11<15:56:19,  3.65it/s] 44%|████▎     | 162148/371472 [1:49:11<17:05:02,  3.40it/s] 44%|████▎     | 162149/371472 [1:49:11<16:14:39,  3.58it/s] 44%|████▎     | 162150/371472 [1:49:11<15:43:17,  3.70it/s] 44%|████▎     | 162151/371472 [1:49:12<15:47:25,  3.68it/s] 44%|████▎     | 162152/371472 [1:49:12<15:43:21,  3.70it/s] 44%|████▎     | 162153/371472 [1:49:12<16:21:16,  3.56it/s] 44%|████▎     | 162154/371472 [1:49:13<16:57:14,  3.43it/s] 44%|████▎     | 162155/371472 [1:49:13<17:58:36,  3.23it/s] 44%|████▎     | 162156/371472 [1:49:13<17:20:46,  3.35it/s] 44%|████▎     | 162157/371472 [1:49:14<19:26:20,  2.99it/s] 44%|████▎     | 162158/371472 [1:49:14<18:07:36,  3.21it/s] 44%|████▎     | 162159/371472 [1:49:14<18:45:33,  3.10it/s] 44%|████▎     | 162160/371472 [1:49:14<17:41:16,  3.29it/s]                                                            {'loss': 3.1818, 'learning_rate': 6.073929625719148e-07, 'epoch': 6.98}
 44%|████▎     | 162160/371472 [1:49:14<17:41:16,  3.29it/s] 44%|████▎     | 162161/371472 [1:49:15<16:56:03,  3.43it/s] 44%|████▎     | 162162/371472 [1:49:15<17:53:51,  3.25it/s] 44%|████▎     | 162163/371472 [1:49:15<18:16:24,  3.18it/s] 44%|████▎     | 162164/371472 [1:49:16<17:26:25,  3.33it/s] 44%|████▎     | 162165/371472 [1:49:16<17:00:19,  3.42it/s] 44%|████▎     | 162166/371472 [1:49:16<16:22:42,  3.55it/s] 44%|████▎     | 162167/371472 [1:49:17<17:48:45,  3.26it/s] 44%|████▎     | 162168/371472 [1:49:17<17:21:46,  3.35it/s] 44%|████▎     | 162169/371472 [1:49:17<16:45:09,  3.47it/s] 44%|████▎     | 162170/371472 [1:49:17<16:46:06,  3.47it/s] 44%|████▎     | 162171/371472 [1:49:18<16:55:25,  3.44it/s] 44%|████▎     | 162172/371472 [1:49:18<16:20:24,  3.56it/s] 44%|████▎     | 162173/371472 [1:49:18<16:21:30,  3.55it/s] 44%|████▎     | 162174/371472 [1:49:19<16:20:50,  3.56it/s] 44%|████▎     | 162175/371472 [1:49:19<16:22:51,  3.55it/s] 44%|████▎     | 162176/371472 [1:49:19<17:25:58,  3.33it/s] 44%|████▎     | 162177/371472 [1:49:19<17:12:46,  3.38it/s] 44%|████▎     | 162178/371472 [1:49:20<16:54:13,  3.44it/s] 44%|████▎     | 162179/371472 [1:49:20<16:35:30,  3.50it/s] 44%|████▎     | 162180/371472 [1:49:20<16:04:04,  3.62it/s]                                                            {'loss': 3.195, 'learning_rate': 6.07344480596436e-07, 'epoch': 6.99}
 44%|████▎     | 162180/371472 [1:49:20<16:04:04,  3.62it/s] 44%|████▎     | 162181/371472 [1:49:21<15:43:46,  3.70it/s] 44%|████▎     | 162182/371472 [1:49:21<15:25:29,  3.77it/s] 44%|████▎     | 162183/371472 [1:49:21<15:05:50,  3.85it/s] 44%|████▎     | 162184/371472 [1:49:21<15:15:01,  3.81it/s] 44%|████▎     | 162185/371472 [1:49:22<14:57:36,  3.89it/s] 44%|████▎     | 162186/371472 [1:49:22<15:36:18,  3.73it/s] 44%|████▎     | 162187/371472 [1:49:22<15:35:57,  3.73it/s] 44%|████▎     | 162188/371472 [1:49:22<15:45:37,  3.69it/s] 44%|████▎     | 162189/371472 [1:49:23<16:21:24,  3.55it/s] 44%|████▎     | 162190/371472 [1:49:23<15:44:07,  3.69it/s] 44%|████▎     | 162191/371472 [1:49:23<15:41:10,  3.71it/s] 44%|████▎     | 162192/371472 [1:49:23<15:47:34,  3.68it/s] 44%|████▎     | 162193/371472 [1:49:24<16:31:51,  3.52it/s] 44%|████▎     | 162194/371472 [1:49:24<17:54:53,  3.24it/s] 44%|████▎     | 162195/371472 [1:49:24<17:22:38,  3.35it/s] 44%|████▎     | 162196/371472 [1:49:25<17:02:48,  3.41it/s] 44%|████▎     | 162197/371472 [1:49:25<17:54:31,  3.25it/s] 44%|████▎     | 162198/371472 [1:49:25<17:02:41,  3.41it/s] 44%|████▎     | 162199/371472 [1:49:26<16:31:34,  3.52it/s] 44%|████▎     | 162200/371472 [1:49:26<16:09:38,  3.60it/s]                                                            {'loss': 3.0942, 'learning_rate': 6.072959986209572e-07, 'epoch': 6.99}
 44%|████▎     | 162200/371472 [1:49:26<16:09:38,  3.60it/s] 44%|████▎     | 162201/371472 [1:49:26<16:05:17,  3.61it/s] 44%|████▎     | 162202/371472 [1:49:26<15:49:02,  3.68it/s] 44%|████▎     | 162203/371472 [1:49:27<15:35:02,  3.73it/s] 44%|████▎     | 162204/371472 [1:49:27<16:28:32,  3.53it/s] 44%|████▎     | 162205/371472 [1:49:27<16:38:05,  3.49it/s] 44%|████▎     | 162206/371472 [1:49:27<16:23:10,  3.55it/s] 44%|████▎     | 162207/371472 [1:49:28<16:14:09,  3.58it/s] 44%|████▎     | 162208/371472 [1:49:28<17:01:58,  3.41it/s] 44%|████▎     | 162209/371472 [1:49:28<16:24:38,  3.54it/s] 44%|████▎     | 162210/371472 [1:49:29<16:32:19,  3.51it/s] 44%|████▎     | 162211/371472 [1:49:29<16:33:59,  3.51it/s] 44%|████▎     | 162212/371472 [1:49:29<16:35:40,  3.50it/s] 44%|████▎     | 162213/371472 [1:49:29<16:16:11,  3.57it/s] 44%|████▎     | 162214/371472 [1:49:30<16:00:36,  3.63it/s] 44%|████▎     | 162215/371472 [1:49:30<16:00:45,  3.63it/s] 44%|████▎     | 162216/371472 [1:49:30<16:32:08,  3.52it/s] 44%|████▎     | 162217/371472 [1:49:31<16:19:49,  3.56it/s] 44%|████▎     | 162218/371472 [1:49:31<16:54:19,  3.44it/s] 44%|████▎     | 162219/371472 [1:49:31<17:11:32,  3.38it/s] 44%|████▎     | 162220/371472 [1:49:32<18:07:51,  3.21it/s]                                                            {'loss': 3.1482, 'learning_rate': 6.072475166454783e-07, 'epoch': 6.99}
 44%|████▎     | 162220/371472 [1:49:32<18:07:51,  3.21it/s] 44%|████▎     | 162221/371472 [1:49:32<18:13:41,  3.19it/s] 44%|████▎     | 162222/371472 [1:49:32<17:22:16,  3.35it/s] 44%|████▎     | 162223/371472 [1:49:32<16:37:46,  3.50it/s] 44%|████▎     | 162224/371472 [1:49:33<16:44:43,  3.47it/s] 44%|████▎     | 162225/371472 [1:49:33<16:16:14,  3.57it/s] 44%|████▎     | 162226/371472 [1:49:33<16:14:49,  3.58it/s] 44%|████▎     | 162227/371472 [1:49:34<18:11:20,  3.20it/s] 44%|████▎     | 162228/371472 [1:49:34<17:30:29,  3.32it/s] 44%|████▎     | 162229/371472 [1:49:34<17:10:57,  3.38it/s] 44%|████▎     | 162230/371472 [1:49:34<16:52:37,  3.44it/s] 44%|████▎     | 162231/371472 [1:49:35<16:02:44,  3.62it/s] 44%|████▎     | 162232/371472 [1:49:35<16:17:16,  3.57it/s] 44%|████▎     | 162233/371472 [1:49:35<16:31:46,  3.52it/s] 44%|████▎     | 162234/371472 [1:49:36<15:54:27,  3.65it/s] 44%|████▎     | 162235/371472 [1:49:36<15:42:19,  3.70it/s] 44%|████▎     | 162236/371472 [1:49:36<15:27:32,  3.76it/s] 44%|████▎     | 162237/371472 [1:49:36<16:48:32,  3.46it/s] 44%|████▎     | 162238/371472 [1:49:37<17:01:26,  3.41it/s] 44%|████▎     | 162239/371472 [1:49:37<16:52:57,  3.44it/s] 44%|████▎     | 162240/371472 [1:49:37<16:07:04,  3.61it/s]                                                            {'loss': 3.2711, 'learning_rate': 6.071990346699992e-07, 'epoch': 6.99}
 44%|████▎     | 162240/371472 [1:49:37<16:07:04,  3.61it/s] 44%|████▎     | 162241/371472 [1:49:38<16:03:22,  3.62it/s] 44%|████▎     | 162242/371472 [1:49:38<17:57:46,  3.24it/s] 44%|████▎     | 162243/371472 [1:49:38<17:28:45,  3.33it/s] 44%|████▎     | 162244/371472 [1:49:38<16:29:05,  3.53it/s] 44%|████▎     | 162245/371472 [1:49:39<16:20:58,  3.55it/s] 44%|████▎     | 162246/371472 [1:49:39<16:20:25,  3.56it/s] 44%|████▎     | 162247/371472 [1:49:39<16:24:30,  3.54it/s] 44%|████▎     | 162248/371472 [1:49:40<17:49:51,  3.26it/s] 44%|████▎     | 162249/371472 [1:49:40<17:14:12,  3.37it/s] 44%|████▎     | 162250/371472 [1:49:40<16:26:33,  3.53it/s] 44%|████▎     | 162251/371472 [1:49:40<16:10:11,  3.59it/s] 44%|████▎     | 162252/371472 [1:49:41<16:12:31,  3.59it/s] 44%|████▎     | 162253/371472 [1:49:41<16:01:00,  3.63it/s] 44%|████▎     | 162254/371472 [1:49:41<15:34:10,  3.73it/s] 44%|████▎     | 162255/371472 [1:49:41<15:16:15,  3.81it/s] 44%|████▎     | 162256/371472 [1:49:42<15:33:54,  3.73it/s] 44%|████▎     | 162257/371472 [1:49:42<16:09:42,  3.60it/s] 44%|████▎     | 162258/371472 [1:49:42<16:06:27,  3.61it/s] 44%|████▎     | 162259/371472 [1:49:43<16:06:33,  3.61it/s] 44%|████▎     | 162260/371472 [1:49:43<16:44:37,  3.47it/s]                                                            {'loss': 3.2108, 'learning_rate': 6.071505526945204e-07, 'epoch': 6.99}
 44%|████▎     | 162260/371472 [1:49:43<16:44:37,  3.47it/s] 44%|████▎     | 162261/371472 [1:49:43<16:27:10,  3.53it/s] 44%|████▎     | 162262/371472 [1:49:43<15:52:52,  3.66it/s] 44%|████▎     | 162263/371472 [1:49:44<15:41:37,  3.70it/s] 44%|████▎     | 162264/371472 [1:49:44<16:09:48,  3.60it/s] 44%|████▎     | 162265/371472 [1:49:44<15:40:07,  3.71it/s] 44%|████▎     | 162266/371472 [1:49:44<15:14:03,  3.81it/s] 44%|████▎     | 162267/371472 [1:49:45<17:33:20,  3.31it/s] 44%|████▎     | 162268/371472 [1:49:45<16:38:57,  3.49it/s] 44%|████▎     | 162269/371472 [1:49:45<16:35:39,  3.50it/s] 44%|████▎     | 162270/371472 [1:49:46<16:31:51,  3.52it/s] 44%|████▎     | 162271/371472 [1:49:46<17:01:32,  3.41it/s] 44%|████▎     | 162272/371472 [1:49:46<16:52:13,  3.44it/s] 44%|████▎     | 162273/371472 [1:49:47<16:38:57,  3.49it/s] 44%|████▎     | 162274/371472 [1:49:47<17:42:02,  3.28it/s] 44%|████▎     | 162275/371472 [1:49:47<16:53:45,  3.44it/s] 44%|████▎     | 162276/371472 [1:49:47<16:37:28,  3.50it/s] 44%|████▎     | 162277/371472 [1:49:48<17:20:54,  3.35it/s] 44%|████▎     | 162278/371472 [1:49:48<17:15:37,  3.37it/s] 44%|████▎     | 162279/371472 [1:49:48<16:39:54,  3.49it/s] 44%|████▎     | 162280/371472 [1:49:49<16:31:24,  3.52it/s]                                                            {'loss': 3.0426, 'learning_rate': 6.071020707190416e-07, 'epoch': 6.99}
 44%|████▎     | 162280/371472 [1:49:49<16:31:24,  3.52it/s] 44%|████▎     | 162281/371472 [1:49:49<16:23:02,  3.55it/s] 44%|████▎     | 162282/371472 [1:49:49<16:42:49,  3.48it/s] 44%|████▎     | 162283/371472 [1:49:50<17:11:31,  3.38it/s] 44%|████▎     | 162284/371472 [1:49:50<17:25:26,  3.33it/s] 44%|████▎     | 162285/371472 [1:49:50<16:47:57,  3.46it/s] 44%|████▎     | 162286/371472 [1:49:50<17:20:39,  3.35it/s] 44%|████▎     | 162287/371472 [1:49:51<17:48:17,  3.26it/s] 44%|████▎     | 162288/371472 [1:49:51<17:33:15,  3.31it/s] 44%|████▎     | 162289/371472 [1:49:51<17:05:18,  3.40it/s] 44%|████▎     | 162290/371472 [1:49:52<16:35:47,  3.50it/s] 44%|████▎     | 162291/371472 [1:49:52<16:22:51,  3.55it/s] 44%|████▎     | 162292/371472 [1:49:52<16:02:43,  3.62it/s] 44%|████▎     | 162293/371472 [1:49:52<16:17:15,  3.57it/s] 44%|████▎     | 162294/371472 [1:49:53<16:04:11,  3.62it/s] 44%|████▎     | 162295/371472 [1:49:53<16:16:18,  3.57it/s] 44%|████▎     | 162296/371472 [1:49:53<17:51:37,  3.25it/s] 44%|████▎     | 162297/371472 [1:49:54<17:29:15,  3.32it/s] 44%|████▎     | 162298/371472 [1:49:54<17:59:19,  3.23it/s] 44%|████▎     | 162299/371472 [1:49:54<17:48:27,  3.26it/s] 44%|████▎     | 162300/371472 [1:49:55<17:21:50,  3.35it/s]                                                            {'loss': 3.0569, 'learning_rate': 6.070535887435627e-07, 'epoch': 6.99}
 44%|████▎     | 162300/371472 [1:49:55<17:21:50,  3.35it/s] 44%|████▎     | 162301/371472 [1:49:55<17:12:05,  3.38it/s] 44%|████▎     | 162302/371472 [1:49:55<17:10:38,  3.38it/s] 44%|████▎     | 162303/371472 [1:49:55<16:31:25,  3.52it/s] 44%|████▎     | 162304/371472 [1:49:56<16:05:07,  3.61it/s] 44%|████▎     | 162305/371472 [1:49:56<15:38:35,  3.71it/s] 44%|████▎     | 162306/371472 [1:49:56<15:26:11,  3.76it/s] 44%|████▎     | 162307/371472 [1:49:56<15:36:04,  3.72it/s] 44%|████▎     | 162308/371472 [1:49:57<16:23:55,  3.54it/s] 44%|████▎     | 162309/371472 [1:49:57<15:57:59,  3.64it/s] 44%|████▎     | 162310/371472 [1:49:57<16:21:26,  3.55it/s] 44%|████▎     | 162311/371472 [1:49:58<17:10:50,  3.38it/s] 44%|████▎     | 162312/371472 [1:49:58<17:04:37,  3.40it/s] 44%|████▎     | 162313/371472 [1:49:58<16:54:56,  3.43it/s] 44%|████▎     | 162314/371472 [1:49:58<17:12:28,  3.38it/s] 44%|████▎     | 162315/371472 [1:49:59<17:28:47,  3.32it/s] 44%|████▎     | 162316/371472 [1:49:59<17:06:59,  3.39it/s] 44%|████▎     | 162317/371472 [1:49:59<16:24:15,  3.54it/s] 44%|████▎     | 162318/371472 [1:50:00<15:49:31,  3.67it/s] 44%|████▎     | 162319/371472 [1:50:00<15:55:13,  3.65it/s] 44%|████▎     | 162320/371472 [1:50:00<15:29:16,  3.75it/s]                                                            {'loss': 3.0342, 'learning_rate': 6.070051067680837e-07, 'epoch': 6.99}
 44%|████▎     | 162320/371472 [1:50:00<15:29:16,  3.75it/s] 44%|████▎     | 162321/371472 [1:50:00<16:27:13,  3.53it/s] 44%|████▎     | 162322/371472 [1:50:01<17:34:36,  3.31it/s] 44%|████▎     | 162323/371472 [1:50:01<20:55:37,  2.78it/s] 44%|████▎     | 162324/371472 [1:50:02<19:07:03,  3.04it/s] 44%|████▎     | 162325/371472 [1:50:02<18:09:14,  3.20it/s] 44%|████▎     | 162326/371472 [1:50:02<17:23:16,  3.34it/s] 44%|████▎     | 162327/371472 [1:50:02<16:36:53,  3.50it/s] 44%|████▎     | 162328/371472 [1:50:03<16:21:06,  3.55it/s] 44%|████▎     | 162329/371472 [1:50:03<17:26:33,  3.33it/s] 44%|████▎     | 162330/371472 [1:50:03<16:43:44,  3.47it/s] 44%|████▎     | 162331/371472 [1:50:03<15:49:20,  3.67it/s] 44%|████▎     | 162332/371472 [1:50:04<15:25:51,  3.76it/s] 44%|████▎     | 162333/371472 [1:50:04<15:17:07,  3.80it/s] 44%|████▎     | 162334/371472 [1:50:04<15:48:34,  3.67it/s] 44%|████▎     | 162335/371472 [1:50:04<15:44:42,  3.69it/s] 44%|████▎     | 162336/371472 [1:50:05<15:13:52,  3.81it/s] 44%|████▎     | 162337/371472 [1:50:05<15:27:42,  3.76it/s] 44%|████▎     | 162338/371472 [1:50:05<15:48:12,  3.68it/s] 44%|████▎     | 162339/371472 [1:50:06<16:15:25,  3.57it/s] 44%|████▎     | 162340/371472 [1:50:06<17:56:41,  3.24it/s]                                                            {'loss': 3.1937, 'learning_rate': 6.069566247926049e-07, 'epoch': 6.99}
 44%|████▎     | 162340/371472 [1:50:06<17:56:41,  3.24it/s] 44%|████▎     | 162341/371472 [1:50:06<17:45:05,  3.27it/s] 44%|████▎     | 162342/371472 [1:50:07<17:02:23,  3.41it/s] 44%|████▎     | 162343/371472 [1:50:07<17:09:31,  3.39it/s] 44%|████▎     | 162344/371472 [1:50:07<16:51:46,  3.44it/s] 44%|████▎     | 162345/371472 [1:50:07<16:19:38,  3.56it/s] 44%|████▎     | 162346/371472 [1:50:08<16:22:07,  3.55it/s] 44%|████▎     | 162347/371472 [1:50:08<18:07:16,  3.21it/s] 44%|████▎     | 162348/371472 [1:50:08<17:52:32,  3.25it/s] 44%|████▎     | 162349/371472 [1:50:09<17:22:13,  3.34it/s] 44%|████▎     | 162350/371472 [1:50:09<16:46:24,  3.46it/s] 44%|████▎     | 162351/371472 [1:50:09<16:27:39,  3.53it/s] 44%|████▎     | 162352/371472 [1:50:09<17:17:31,  3.36it/s] 44%|████▎     | 162353/371472 [1:50:10<16:43:00,  3.47it/s] 44%|████▎     | 162354/371472 [1:50:10<16:07:20,  3.60it/s] 44%|████▎     | 162355/371472 [1:50:10<15:48:48,  3.67it/s] 44%|████▎     | 162356/371472 [1:50:11<15:19:46,  3.79it/s] 44%|████▎     | 162357/371472 [1:50:11<16:37:18,  3.49it/s] 44%|████▎     | 162358/371472 [1:50:11<16:25:12,  3.54it/s] 44%|████▎     | 162359/371472 [1:50:11<15:56:56,  3.64it/s] 44%|████▎     | 162360/371472 [1:50:12<15:23:06,  3.78it/s]                                                            {'loss': 3.3036, 'learning_rate': 6.06908142817126e-07, 'epoch': 6.99}
 44%|████▎     | 162360/371472 [1:50:12<15:23:06,  3.78it/s] 44%|████▎     | 162361/371472 [1:50:12<15:41:36,  3.70it/s] 44%|████▎     | 162362/371472 [1:50:12<16:22:04,  3.55it/s] 44%|████▎     | 162363/371472 [1:50:12<16:15:06,  3.57it/s] 44%|████▎     | 162364/371472 [1:50:13<16:09:20,  3.60it/s] 44%|████▎     | 162365/371472 [1:50:13<16:20:24,  3.55it/s] 44%|████▎     | 162366/371472 [1:50:13<15:52:40,  3.66it/s] 44%|████▎     | 162367/371472 [1:50:14<15:45:28,  3.69it/s] 44%|████▎     | 162368/371472 [1:50:14<15:15:52,  3.81it/s] 44%|████▎     | 162369/371472 [1:50:14<15:19:50,  3.79it/s] 44%|████▎     | 162370/371472 [1:50:14<15:42:51,  3.70it/s] 44%|████▎     | 162371/371472 [1:50:15<15:56:12,  3.64it/s] 44%|████▎     | 162372/371472 [1:50:15<15:46:34,  3.68it/s] 44%|████▎     | 162373/371472 [1:50:15<15:38:05,  3.71it/s] 44%|████▎     | 162374/371472 [1:50:15<15:27:39,  3.76it/s] 44%|████▎     | 162375/371472 [1:50:16<16:14:14,  3.58it/s] 44%|████▎     | 162376/371472 [1:50:16<15:34:55,  3.73it/s] 44%|████▎     | 162377/371472 [1:50:16<15:40:19,  3.71it/s] 44%|████▎     | 162378/371472 [1:50:17<15:29:15,  3.75it/s] 44%|████▎     | 162379/371472 [1:50:17<16:04:07,  3.61it/s] 44%|████▎     | 162380/371472 [1:50:17<15:48:46,  3.67it/s]                                                            {'loss': 3.2945, 'learning_rate': 6.06859660841647e-07, 'epoch': 6.99}
 44%|████▎     | 162380/371472 [1:50:17<15:48:46,  3.67it/s] 44%|████▎     | 162381/371472 [1:50:17<15:48:40,  3.67it/s] 44%|████▎     | 162382/371472 [1:50:18<15:43:11,  3.69it/s] 44%|████▎     | 162383/371472 [1:50:18<15:27:52,  3.76it/s] 44%|████▎     | 162384/371472 [1:50:18<16:23:19,  3.54it/s] 44%|████▎     | 162385/371472 [1:50:18<16:06:54,  3.60it/s] 44%|████▎     | 162386/371472 [1:50:19<15:45:00,  3.69it/s] 44%|████▎     | 162387/371472 [1:50:19<15:47:32,  3.68it/s] 44%|████▎     | 162388/371472 [1:50:19<16:14:17,  3.58it/s] 44%|████▎     | 162389/371472 [1:50:20<15:57:45,  3.64it/s] 44%|████▎     | 162390/371472 [1:50:20<16:38:56,  3.49it/s] 44%|████▎     | 162391/371472 [1:50:20<16:33:21,  3.51it/s] 44%|████▎     | 162392/371472 [1:50:20<16:29:44,  3.52it/s] 44%|████▎     | 162393/371472 [1:50:21<16:19:07,  3.56it/s] 44%|████▎     | 162394/371472 [1:50:21<17:07:46,  3.39it/s] 44%|████▎     | 162395/371472 [1:50:21<16:44:54,  3.47it/s] 44%|████▎     | 162396/371472 [1:50:22<16:06:45,  3.60it/s] 44%|████▎     | 162397/371472 [1:50:22<16:04:02,  3.61it/s] 44%|████▎     | 162398/371472 [1:50:22<15:32:44,  3.74it/s] 44%|████▎     | 162399/371472 [1:50:22<15:34:52,  3.73it/s] 44%|████▎     | 162400/371472 [1:50:23<16:33:45,  3.51it/s]                                                            {'loss': 3.0637, 'learning_rate': 6.068111788661681e-07, 'epoch': 6.99}
 44%|████▎     | 162400/371472 [1:50:23<16:33:45,  3.51it/s] 44%|████▎     | 162401/371472 [1:50:23<16:52:24,  3.44it/s] 44%|████▎     | 162402/371472 [1:50:23<17:04:54,  3.40it/s] 44%|████▎     | 162403/371472 [1:50:24<17:15:30,  3.36it/s] 44%|████▎     | 162404/371472 [1:50:24<16:53:07,  3.44it/s] 44%|████▎     | 162405/371472 [1:50:24<16:21:34,  3.55it/s] 44%|████▎     | 162406/371472 [1:50:24<16:05:14,  3.61it/s] 44%|████▎     | 162407/371472 [1:50:25<16:15:30,  3.57it/s] 44%|████▎     | 162408/371472 [1:50:25<16:23:53,  3.54it/s] 44%|████▎     | 162409/371472 [1:50:25<15:52:13,  3.66it/s] 44%|████▎     | 162410/371472 [1:50:25<15:39:19,  3.71it/s] 44%|████▎     | 162411/371472 [1:50:26<16:18:06,  3.56it/s] 44%|████▎     | 162412/371472 [1:50:26<16:12:45,  3.58it/s] 44%|████▎     | 162413/371472 [1:50:26<16:34:42,  3.50it/s] 44%|████▎     | 162414/371472 [1:50:27<17:44:41,  3.27it/s] 44%|████▎     | 162415/371472 [1:50:27<17:07:03,  3.39it/s] 44%|████▎     | 162416/371472 [1:50:27<16:28:17,  3.53it/s] 44%|████▎     | 162417/371472 [1:50:27<16:06:51,  3.60it/s] 44%|████▎     | 162418/371472 [1:50:28<15:53:22,  3.65it/s] 44%|████▎     | 162419/371472 [1:50:28<15:54:32,  3.65it/s] 44%|████▎     | 162420/371472 [1:50:28<15:41:20,  3.70it/s]                                                            {'loss': 3.1723, 'learning_rate': 6.067626968906893e-07, 'epoch': 7.0}
 44%|████▎     | 162420/371472 [1:50:28<15:41:20,  3.70it/s] 44%|████▎     | 162421/371472 [1:50:29<15:37:46,  3.72it/s] 44%|████▎     | 162422/371472 [1:50:29<15:45:48,  3.68it/s] 44%|████▎     | 162423/371472 [1:50:29<15:50:53,  3.66it/s] 44%|████▎     | 162424/371472 [1:50:29<15:40:05,  3.71it/s] 44%|████▎     | 162425/371472 [1:50:30<16:04:17,  3.61it/s] 44%|████▎     | 162426/371472 [1:50:30<16:15:26,  3.57it/s] 44%|████▎     | 162427/371472 [1:50:30<16:33:21,  3.51it/s] 44%|████▎     | 162428/371472 [1:50:31<17:04:36,  3.40it/s] 44%|████▎     | 162429/371472 [1:50:31<16:33:07,  3.51it/s] 44%|████▎     | 162430/371472 [1:50:31<16:35:02,  3.50it/s] 44%|████▎     | 162431/371472 [1:50:31<16:42:21,  3.48it/s] 44%|████▎     | 162432/371472 [1:50:32<16:13:39,  3.58it/s] 44%|████▎     | 162433/371472 [1:50:32<16:06:31,  3.60it/s] 44%|████▎     | 162434/371472 [1:50:32<15:50:39,  3.66it/s] 44%|████▎     | 162435/371472 [1:50:32<15:47:17,  3.68it/s] 44%|████▎     | 162436/371472 [1:50:33<17:04:19,  3.40it/s] 44%|████▎     | 162437/371472 [1:50:33<16:41:52,  3.48it/s] 44%|████▎     | 162438/371472 [1:50:33<17:20:55,  3.35it/s] 44%|████▎     | 162439/371472 [1:50:34<17:11:19,  3.38it/s] 44%|████▎     | 162440/371472 [1:50:34<16:49:45,  3.45it/s]                                                            {'loss': 3.0461, 'learning_rate': 6.067142149152105e-07, 'epoch': 7.0}
 44%|████▎     | 162440/371472 [1:50:34<16:49:45,  3.45it/s] 44%|████▎     | 162441/371472 [1:50:34<16:34:47,  3.50it/s] 44%|████▎     | 162442/371472 [1:50:35<16:14:50,  3.57it/s] 44%|████▎     | 162443/371472 [1:50:35<15:49:37,  3.67it/s] 44%|████▎     | 162444/371472 [1:50:35<15:29:16,  3.75it/s] 44%|████▎     | 162445/371472 [1:50:35<15:19:09,  3.79it/s] 44%|████▎     | 162446/371472 [1:50:36<15:15:39,  3.80it/s] 44%|████▎     | 162447/371472 [1:50:36<15:42:12,  3.70it/s] 44%|████▎     | 162448/371472 [1:50:36<16:31:00,  3.52it/s] 44%|████▎     | 162449/371472 [1:50:36<16:24:23,  3.54it/s] 44%|████▎     | 162450/371472 [1:50:37<16:13:05,  3.58it/s] 44%|████▎     | 162451/371472 [1:50:37<16:19:44,  3.56it/s] 44%|████▎     | 162452/371472 [1:50:37<17:17:49,  3.36it/s] 44%|████▎     | 162453/371472 [1:50:38<16:39:02,  3.49it/s] 44%|████▎     | 162454/371472 [1:50:38<16:13:43,  3.58it/s] 44%|████▎     | 162455/371472 [1:50:38<16:24:49,  3.54it/s] 44%|████▎     | 162456/371472 [1:50:38<16:07:44,  3.60it/s] 44%|████▎     | 162457/371472 [1:50:39<15:48:33,  3.67it/s] 44%|████▎     | 162458/371472 [1:50:39<15:33:45,  3.73it/s] 44%|████▎     | 162459/371472 [1:50:39<15:32:36,  3.74it/s] 44%|████▎     | 162460/371472 [1:50:39<15:33:38,  3.73it/s]                                                            {'loss': 3.2171, 'learning_rate': 6.066657329397315e-07, 'epoch': 7.0}
 44%|████▎     | 162460/371472 [1:50:39<15:33:38,  3.73it/s] 44%|████▎     | 162461/371472 [1:50:40<15:29:35,  3.75it/s] 44%|████▎     | 162462/371472 [1:50:40<16:08:19,  3.60it/s] 44%|████▎     | 162463/371472 [1:50:40<17:13:47,  3.37it/s] 44%|████▎     | 162464/371472 [1:50:41<16:48:01,  3.46it/s] 44%|████▎     | 162465/371472 [1:50:41<18:33:18,  3.13it/s] 44%|████▎     | 162466/371472 [1:50:41<19:30:16,  2.98it/s] 44%|████▎     | 162467/371472 [1:50:42<18:16:38,  3.18it/s] 44%|████▎     | 162468/371472 [1:50:42<17:31:46,  3.31it/s] 44%|████▎     | 162469/371472 [1:50:42<17:10:58,  3.38it/s] 44%|████▎     | 162470/371472 [1:50:42<16:41:41,  3.48it/s] 44%|████▎     | 162471/371472 [1:50:43<17:14:32,  3.37it/s] 44%|████▎     | 162472/371472 [1:50:43<16:42:42,  3.47it/s] 44%|████▎     | 162473/371472 [1:50:43<16:37:00,  3.49it/s] 44%|████▎     | 162474/371472 [1:50:44<16:00:21,  3.63it/s] 44%|████▎     | 162475/371472 [1:50:44<15:41:11,  3.70it/s] 44%|████▎     | 162476/371472 [1:50:44<15:51:11,  3.66it/s] 44%|████▎     | 162477/371472 [1:50:45<17:22:51,  3.34it/s] 44%|████▎     | 162478/371472 [1:50:45<20:38:35,  2.81it/s] 44%|████▎     | 162479/371472 [1:50:45<18:52:59,  3.07it/s] 44%|████▎     | 162480/371472 [1:50:46<21:00:57,  2.76it/s]                                                            {'loss': 3.1639, 'learning_rate': 6.066172509642525e-07, 'epoch': 7.0}
 44%|████▎     | 162480/371472 [1:50:46<21:00:57,  2.76it/s] 44%|████▎     | 162481/371472 [1:50:46<19:21:04,  3.00it/s] 44%|████▎     | 162482/371472 [1:50:46<19:08:32,  3.03it/s] 44%|████▎     | 162483/371472 [1:50:47<18:05:34,  3.21it/s] 44%|████▎     | 162484/371472 [1:50:47<18:11:35,  3.19it/s] 44%|████▎     | 162485/371472 [1:50:47<17:25:55,  3.33it/s] 44%|████▎     | 162486/371472 [1:50:47<16:48:36,  3.45it/s] 44%|████▎     | 162487/371472 [1:50:48<16:27:49,  3.53it/s] 44%|████▎     | 162488/371472 [1:50:48<16:17:09,  3.56it/s] 44%|████▎     | 162489/371472 [1:50:48<15:57:56,  3.64it/s] 44%|████▎     | 162490/371472 [1:50:49<16:44:51,  3.47it/s] 44%|████▎     | 162491/371472 [1:50:49<16:35:24,  3.50it/s] 44%|████▎     | 162492/371472 [1:50:49<17:22:55,  3.34it/s] 44%|████▎     | 162493/371472 [1:50:49<16:49:27,  3.45it/s] 44%|████▎     | 162494/371472 [1:50:50<16:05:29,  3.61it/s] 44%|████▎     | 162495/371472 [1:50:50<17:34:55,  3.30it/s] 44%|████▎     | 162496/371472 [1:50:50<16:56:45,  3.43it/s] 44%|████▎     | 162497/371472 [1:50:51<17:08:51,  3.39it/s] 44%|████▎     | 162498/371472 [1:50:51<16:30:50,  3.52it/s] 44%|████▎     | 162499/371472 [1:50:51<17:00:54,  3.41it/s] 44%|████▎     | 162500/371472 [1:50:51<16:58:06,  3.42it/s]                                                            {'loss': 3.0522, 'learning_rate': 6.065687689887738e-07, 'epoch': 7.0}
 44%|████▎     | 162500/371472 [1:50:51<16:58:06,  3.42it/s] 44%|████▎     | 162501/371472 [1:50:52<16:27:11,  3.53it/s] 44%|████▎     | 162502/371472 [1:50:52<18:27:23,  3.15it/s] 44%|████▎     | 162503/371472 [1:50:52<17:40:22,  3.28it/s] 44%|████▎     | 162504/371472 [1:50:53<17:26:55,  3.33it/s] 44%|████▎     | 162505/371472 [1:50:53<16:32:36,  3.51it/s] 44%|████▎     | 162506/371472 [1:50:53<16:26:43,  3.53it/s] 44%|████▎     | 162507/371472 [1:50:53<16:24:27,  3.54it/s] 44%|████▎     | 162508/371472 [1:50:54<16:28:02,  3.52it/s] 44%|████▎     | 162509/371472 [1:50:54<16:16:18,  3.57it/s] 44%|████▎     | 162510/371472 [1:50:54<15:31:08,  3.74it/s] 44%|████▎     | 162511/371472 [1:50:55<16:08:09,  3.60it/s] 44%|████▎     | 162512/371472 [1:50:55<15:45:28,  3.68it/s] 44%|████▎     | 162513/371472 [1:50:55<15:36:40,  3.72it/s] 44%|████▎     | 162514/371472 [1:50:55<15:48:07,  3.67it/s] 44%|████▎     | 162515/371472 [1:50:56<16:07:29,  3.60it/s] 44%|████▎     | 162516/371472 [1:50:56<16:56:10,  3.43it/s] 44%|████▎     | 162517/371472 [1:50:56<16:56:17,  3.43it/s] 44%|████▎     | 162518/371472 [1:50:57<16:17:21,  3.56it/s] 44%|████▍     | 162519/371472 [1:50:57<17:11:40,  3.38it/s]Some non-default generation parameters are set in the model config. These should go into a GenerationConfig file (https://huggingface.co./docs/transformers/generation_strategies#save-a-custom-decoding-strategy-with-your-model) instead. This warning will be raised to an exception in v4.41.
Non-default generation parameters: {'max_length': 200, 'early_stopping': True, 'num_beams': 5, 'forced_eos_token_id': 2}
/opt/conda/lib/python3.10/multiprocessing/popen_fork.py:66: RuntimeWarning: os.fork() was called. os.fork() is incompatible with multithreaded code, and JAX is multithreaded, so this will likely lead to a deadlock.
  self.pid = os.fork()
 44%|████▍     | 162520/371472 [1:51:20<413:11:54,  7.12s/it]                                                             {'loss': 3.2256, 'learning_rate': 6.065202870132949e-07, 'epoch': 7.0}
 44%|████▍     | 162520/371472 [1:51:20<413:11:54,  7.12s/it] 44%|████▍     | 162521/371472 [1:51:20<295:28:59,  5.09s/it] 44%|████▍     | 162522/371472 [1:51:21<212:24:49,  3.66s/it] 44%|████▍     | 162523/371472 [1:51:21<154:03:13,  2.65s/it] 44%|████▍     | 162524/371472 [1:51:21<113:13:31,  1.95s/it] 44%|████▍     | 162525/371472 [1:51:22<84:37:27,  1.46s/it]  44%|████▍     | 162526/371472 [1:51:22<64:35:35,  1.11s/it] 44%|████▍     | 162527/371472 [1:51:22<50:02:00,  1.16it/s] 44%|████▍     | 162528/371472 [1:51:22<41:00:48,  1.42it/s] 44%|████▍     | 162529/371472 [1:51:23<33:17:40,  1.74it/s] 44%|████▍     | 162530/371472 [1:51:23<27:54:15,  2.08it/s] 44%|████▍     | 162531/371472 [1:51:23<24:32:57,  2.36it/s] 44%|████▍     | 162532/371472 [1:51:24<22:17:30,  2.60it/s] 44%|████▍     | 162533/371472 [1:51:24<20:44:07,  2.80it/s] 44%|████▍     | 162534/371472 [1:51:24<18:55:21,  3.07it/s] 44%|████▍     | 162535/371472 [1:51:24<17:47:53,  3.26it/s] 44%|████▍     | 162536/371472 [1:51:25<18:46:37,  3.09it/s] 44%|████▍     | 162537/371472 [1:51:25<17:51:42,  3.25it/s] 44%|████▍     | 162538/371472 [1:51:25<16:56:31,  3.43it/s] 44%|████▍     | 162539/371472 [1:51:26<16:28:02,  3.52it/s] 44%|████▍     | 162540/371472 [1:51:26<16:25:06,  3.53it/s]                                                            {'loss': 3.1837, 'learning_rate': 6.064718050378159e-07, 'epoch': 7.0}
 44%|████▍     | 162540/371472 [1:51:26<16:25:06,  3.53it/s] 44%|████▍     | 162541/371472 [1:51:26<16:25:49,  3.53it/s] 44%|████▍     | 162542/371472 [1:51:26<16:33:04,  3.51it/s] 44%|████▍     | 162543/371472 [1:51:27<16:39:19,  3.48it/s] 44%|████▍     | 162544/371472 [1:51:27<16:39:30,  3.48it/s] 44%|████▍     | 162545/371472 [1:51:27<16:34:58,  3.50it/s] 44%|████▍     | 162546/371472 [1:51:28<16:09:15,  3.59it/s] 44%|████▍     | 162547/371472 [1:51:28<16:03:42,  3.61it/s] 44%|████▍     | 162548/371472 [1:51:28<15:36:05,  3.72it/s] 44%|████▍     | 162549/371472 [1:51:28<15:59:02,  3.63it/s] 44%|████▍     | 162550/371472 [1:51:29<15:28:52,  3.75it/s] 44%|████▍     | 162551/371472 [1:51:29<16:01:36,  3.62it/s] 44%|████▍     | 162552/371472 [1:51:29<17:07:37,  3.39it/s] 44%|████▍     | 162553/371472 [1:51:29<16:31:44,  3.51it/s] 44%|████▍     | 162554/371472 [1:51:30<17:39:09,  3.29it/s] 44%|████▍     | 162555/371472 [1:51:30<16:52:51,  3.44it/s] 44%|████▍     | 162556/371472 [1:51:30<16:43:35,  3.47it/s] 44%|████▍     | 162557/371472 [1:51:31<18:07:21,  3.20it/s] 44%|████▍     | 162558/371472 [1:51:31<17:11:46,  3.37it/s] 44%|████▍     | 162559/371472 [1:51:31<16:42:19,  3.47it/s] 44%|████▍     | 162560/371472 [1:51:32<16:09:10,  3.59it/s]                                                            {'loss': 3.0744, 'learning_rate': 6.06423323062337e-07, 'epoch': 7.0}
 44%|████▍     | 162560/371472 [1:51:32<16:09:10,  3.59it/s] 44%|████▍     | 162561/371472 [1:51:32<15:58:11,  3.63it/s] 44%|████▍     | 162562/371472 [1:51:32<15:29:27,  3.75it/s] 44%|████▍     | 162563/371472 [1:51:32<15:39:33,  3.71it/s] 44%|████▍     | 162564/371472 [1:51:33<15:51:16,  3.66it/s] 44%|████▍     | 162565/371472 [1:51:33<16:35:38,  3.50it/s] 44%|████▍     | 162566/371472 [1:51:33<16:54:36,  3.43it/s] 44%|████▍     | 162567/371472 [1:51:33<16:52:31,  3.44it/s] 44%|████▍     | 162568/371472 [1:51:34<16:35:06,  3.50it/s] 44%|████▍     | 162569/371472 [1:51:34<16:27:12,  3.53it/s] 44%|████▍     | 162570/371472 [1:51:34<17:46:38,  3.26it/s] 44%|████▍     | 162571/371472 [1:51:35<18:36:16,  3.12it/s] 44%|████▍     | 162572/371472 [1:51:35<17:58:17,  3.23it/s] 44%|████▍     | 162573/371472 [1:51:35<18:04:57,  3.21it/s] 44%|████▍     | 162574/371472 [1:51:36<18:22:02,  3.16it/s] 44%|████▍     | 162575/371472 [1:51:36<18:26:52,  3.15it/s] 44%|████▍     | 162576/371472 [1:51:36<18:02:32,  3.22it/s] 44%|████▍     | 162577/371472 [1:51:37<19:04:09,  3.04it/s] 44%|████▍     | 162578/371472 [1:51:37<18:29:58,  3.14it/s] 44%|████▍     | 162579/371472 [1:51:37<19:03:36,  3.04it/s] 44%|████▍     | 162580/371472 [1:51:38<18:32:47,  3.13it/s]                                                            {'loss': 3.1359, 'learning_rate': 6.063748410868582e-07, 'epoch': 7.0}
 44%|████▍     | 162580/371472 [1:51:38<18:32:47,  3.13it/s] 44%|████▍     | 162581/371472 [1:51:38<17:55:11,  3.24it/s] 44%|████▍     | 162582/371472 [1:51:38<17:10:32,  3.38it/s] 44%|████▍     | 162583/371472 [1:51:38<16:46:35,  3.46it/s] 44%|████▍     | 162584/371472 [1:51:39<16:12:31,  3.58it/s] 44%|████▍     | 162585/371472 [1:51:39<15:55:19,  3.64it/s] 44%|████▍     | 162586/371472 [1:51:39<16:30:39,  3.51it/s] 44%|████▍     | 162587/371472 [1:51:40<16:02:05,  3.62it/s] 44%|████▍     | 162588/371472 [1:51:40<16:54:34,  3.43it/s] 44%|████▍     | 162589/371472 [1:51:40<16:36:25,  3.49it/s] 44%|████▍     | 162590/371472 [1:51:40<16:33:05,  3.51it/s] 44%|████▍     | 162591/371472 [1:51:41<16:37:06,  3.49it/s] 44%|████▍     | 162592/371472 [1:51:41<15:56:11,  3.64it/s] 44%|████▍     | 162593/371472 [1:51:41<15:29:54,  3.74it/s] 44%|████▍     | 162594/371472 [1:51:41<16:00:39,  3.62it/s] 44%|████▍     | 162595/371472 [1:51:42<16:29:53,  3.52it/s] 44%|████▍     | 162596/371472 [1:51:42<16:51:31,  3.44it/s] 44%|████▍     | 162597/371472 [1:51:42<16:54:57,  3.43it/s] 44%|████▍     | 162598/371472 [1:51:43<17:51:45,  3.25it/s] 44%|████▍     | 162599/371472 [1:51:43<17:50:38,  3.25it/s] 44%|████▍     | 162600/371472 [1:51:43<18:07:49,  3.20it/s]                                                            {'loss': 3.014, 'learning_rate': 6.063263591113793e-07, 'epoch': 7.0}
 44%|████▍     | 162600/371472 [1:51:43<18:07:49,  3.20it/s] 44%|████▍     | 162601/371472 [1:51:44<18:44:43,  3.10it/s] 44%|████▍     | 162602/371472 [1:51:44<17:16:41,  3.36it/s] 44%|████▍     | 162603/371472 [1:51:44<16:58:10,  3.42it/s] 44%|████▍     | 162604/371472 [1:51:45<16:34:38,  3.50it/s] 44%|████▍     | 162605/371472 [1:51:45<15:58:01,  3.63it/s] 44%|████▍     | 162606/371472 [1:51:45<15:44:50,  3.68it/s] 44%|████▍     | 162607/371472 [1:51:45<17:24:38,  3.33it/s] 44%|████▍     | 162608/371472 [1:51:46<17:51:17,  3.25it/s] 44%|████▍     | 162609/371472 [1:51:46<17:29:23,  3.32it/s] 44%|████▍     | 162610/371472 [1:51:46<17:12:19,  3.37it/s] 44%|████▍     | 162611/371472 [1:51:47<17:20:49,  3.34it/s] 44%|████▍     | 162612/371472 [1:51:47<16:55:56,  3.43it/s] 44%|████▍     | 162613/371472 [1:51:47<17:18:31,  3.35it/s] 44%|████▍     | 162614/371472 [1:51:47<17:22:46,  3.34it/s] 44%|████▍     | 162615/371472 [1:51:48<16:42:07,  3.47it/s] 44%|████▍     | 162616/371472 [1:51:48<18:22:46,  3.16it/s] 44%|████▍     | 162617/371472 [1:51:48<19:00:05,  3.05it/s] 44%|████▍     | 162618/371472 [1:51:49<18:04:18,  3.21it/s] 44%|████▍     | 162619/371472 [1:51:49<17:32:08,  3.31it/s] 44%|████▍     | 162620/371472 [1:51:49<17:23:10,  3.34it/s]                                                            {'loss': 3.1819, 'learning_rate': 6.062778771359002e-07, 'epoch': 7.0}
 44%|████▍     | 162620/371472 [1:51:49<17:23:10,  3.34it/s] 44%|████▍     | 162621/371472 [1:51:50<17:16:43,  3.36it/s] 44%|████▍     | 162622/371472 [1:51:50<17:29:10,  3.32it/s] 44%|████▍     | 162623/371472 [1:51:50<17:33:21,  3.30it/s] 44%|████▍     | 162624/371472 [1:51:50<16:51:40,  3.44it/s] 44%|████▍     | 162625/371472 [1:51:51<16:40:41,  3.48it/s] 44%|████▍     | 162626/371472 [1:51:51<17:31:36,  3.31it/s] 44%|████▍     | 162627/371472 [1:51:51<17:51:04,  3.25it/s] 44%|████▍     | 162628/371472 [1:51:52<17:14:01,  3.37it/s] 44%|████▍     | 162629/371472 [1:51:52<17:41:26,  3.28it/s] 44%|████▍     | 162630/371472 [1:51:52<16:56:47,  3.42it/s] 44%|████▍     | 162631/371472 [1:51:53<16:56:18,  3.42it/s] 44%|████▍     | 162632/371472 [1:51:53<16:40:09,  3.48it/s] 44%|████▍     | 162633/371472 [1:51:53<16:38:00,  3.49it/s] 44%|████▍     | 162634/371472 [1:51:53<16:42:12,  3.47it/s] 44%|████▍     | 162635/371472 [1:51:54<18:12:35,  3.19it/s] 44%|████▍     | 162636/371472 [1:51:54<17:34:15,  3.30it/s] 44%|████▍     | 162637/371472 [1:51:54<16:58:34,  3.42it/s] 44%|████▍     | 162638/371472 [1:51:55<17:04:25,  3.40it/s] 44%|████▍     | 162639/371472 [1:51:55<17:06:47,  3.39it/s] 44%|████▍     | 162640/371472 [1:51:55<16:29:02,  3.52it/s]                                                            {'loss': 3.0886, 'learning_rate': 6.062293951604214e-07, 'epoch': 7.01}
 44%|████▍     | 162640/371472 [1:51:55<16:29:02,  3.52it/s] 44%|████▍     | 162641/371472 [1:51:55<16:20:02,  3.55it/s] 44%|████▍     | 162642/371472 [1:51:56<15:52:44,  3.65it/s] 44%|████▍     | 162643/371472 [1:51:56<15:59:53,  3.63it/s] 44%|████▍     | 162644/371472 [1:51:56<17:03:46,  3.40it/s] 44%|████▍     | 162645/371472 [1:51:57<16:33:55,  3.50it/s] 44%|████▍     | 162646/371472 [1:51:57<17:01:52,  3.41it/s] 44%|████▍     | 162647/371472 [1:51:57<16:57:52,  3.42it/s] 44%|████▍     | 162648/371472 [1:51:57<16:16:00,  3.57it/s] 44%|████▍     | 162649/371472 [1:51:58<16:20:06,  3.55it/s] 44%|████▍     | 162650/371472 [1:51:58<17:01:51,  3.41it/s] 44%|████▍     | 162651/371472 [1:51:58<17:46:42,  3.26it/s] 44%|████▍     | 162652/371472 [1:51:59<17:24:28,  3.33it/s] 44%|████▍     | 162653/371472 [1:51:59<17:58:11,  3.23it/s] 44%|████▍     | 162654/371472 [1:51:59<18:06:45,  3.20it/s] 44%|████▍     | 162655/371472 [1:52:00<17:27:29,  3.32it/s] 44%|████▍     | 162656/371472 [1:52:00<17:44:18,  3.27it/s] 44%|████▍     | 162657/371472 [1:52:00<17:38:23,  3.29it/s] 44%|████▍     | 162658/371472 [1:52:01<17:19:28,  3.35it/s] 44%|████▍     | 162659/371472 [1:52:01<17:17:53,  3.35it/s] 44%|████▍     | 162660/371472 [1:52:01<16:53:11,  3.43it/s]                                                            {'loss': 3.2691, 'learning_rate': 6.061809131849426e-07, 'epoch': 7.01}
 44%|████▍     | 162660/371472 [1:52:01<16:53:11,  3.43it/s] 44%|████▍     | 162661/371472 [1:52:01<16:38:21,  3.49it/s] 44%|████▍     | 162662/371472 [1:52:02<17:06:58,  3.39it/s] 44%|████▍     | 162663/371472 [1:52:02<18:01:52,  3.22it/s] 44%|████▍     | 162664/371472 [1:52:02<16:47:58,  3.45it/s] 44%|████▍     | 162665/371472 [1:52:03<16:50:24,  3.44it/s] 44%|████▍     | 162666/371472 [1:52:03<16:37:13,  3.49it/s] 44%|████▍     | 162667/371472 [1:52:03<16:23:26,  3.54it/s] 44%|████▍     | 162668/371472 [1:52:03<16:59:02,  3.42it/s] 44%|████▍     | 162669/371472 [1:52:04<16:14:30,  3.57it/s] 44%|████▍     | 162670/371472 [1:52:04<17:01:06,  3.41it/s] 44%|████▍     | 162671/371472 [1:52:04<16:54:57,  3.43it/s] 44%|████▍     | 162672/371472 [1:52:05<16:42:22,  3.47it/s] 44%|████▍     | 162673/371472 [1:52:05<17:03:09,  3.40it/s] 44%|████▍     | 162674/371472 [1:52:05<18:23:23,  3.15it/s] 44%|████▍     | 162675/371472 [1:52:06<18:32:32,  3.13it/s] 44%|████▍     | 162676/371472 [1:52:06<18:44:48,  3.09it/s] 44%|████▍     | 162677/371472 [1:52:06<17:37:38,  3.29it/s] 44%|████▍     | 162678/371472 [1:52:06<17:26:49,  3.32it/s] 44%|████▍     | 162679/371472 [1:52:07<16:59:53,  3.41it/s] 44%|████▍     | 162680/371472 [1:52:07<16:19:47,  3.55it/s]                                                            {'loss': 3.2235, 'learning_rate': 6.061324312094636e-07, 'epoch': 7.01}
 44%|████▍     | 162680/371472 [1:52:07<16:19:47,  3.55it/s] 44%|████▍     | 162681/371472 [1:52:07<16:01:47,  3.62it/s] 44%|████▍     | 162682/371472 [1:52:08<19:04:26,  3.04it/s] 44%|████▍     | 162683/371472 [1:52:08<18:38:40,  3.11it/s] 44%|████▍     | 162684/371472 [1:52:08<18:39:54,  3.11it/s] 44%|████▍     | 162685/371472 [1:52:09<19:25:42,  2.99it/s] 44%|████▍     | 162686/371472 [1:52:09<19:22:02,  2.99it/s] 44%|████▍     | 162687/371472 [1:52:09<18:13:23,  3.18it/s] 44%|████▍     | 162688/371472 [1:52:10<17:20:44,  3.34it/s] 44%|████▍     | 162689/371472 [1:52:10<17:39:24,  3.28it/s] 44%|████▍     | 162690/371472 [1:52:10<17:12:52,  3.37it/s] 44%|████▍     | 162691/371472 [1:52:11<18:55:59,  3.06it/s] 44%|████▍     | 162692/371472 [1:52:11<18:34:37,  3.12it/s] 44%|████▍     | 162693/371472 [1:52:11<17:49:24,  3.25it/s] 44%|████▍     | 162694/371472 [1:52:11<17:10:57,  3.38it/s] 44%|████▍     | 162695/371472 [1:52:12<17:54:26,  3.24it/s] 44%|████▍     | 162696/371472 [1:52:12<17:08:00,  3.38it/s] 44%|████▍     | 162697/371472 [1:52:12<17:07:26,  3.39it/s] 44%|████▍     | 162698/371472 [1:52:13<16:34:30,  3.50it/s] 44%|████▍     | 162699/371472 [1:52:13<16:07:09,  3.60it/s] 44%|████▍     | 162700/371472 [1:52:13<16:29:35,  3.52it/s]                                                            {'loss': 3.0706, 'learning_rate': 6.060839492339847e-07, 'epoch': 7.01}
 44%|████▍     | 162700/371472 [1:52:13<16:29:35,  3.52it/s] 44%|████▍     | 162701/371472 [1:52:13<16:00:10,  3.62it/s] 44%|████▍     | 162702/371472 [1:52:14<15:54:45,  3.64it/s] 44%|████▍     | 162703/371472 [1:52:14<15:48:54,  3.67it/s] 44%|████▍     | 162704/371472 [1:52:14<17:01:05,  3.41it/s] 44%|████▍     | 162705/371472 [1:52:15<16:31:26,  3.51it/s] 44%|████▍     | 162706/371472 [1:52:15<16:05:29,  3.60it/s] 44%|████▍     | 162707/371472 [1:52:15<17:14:16,  3.36it/s] 44%|████▍     | 162708/371472 [1:52:15<16:31:38,  3.51it/s] 44%|████▍     | 162709/371472 [1:52:16<15:51:03,  3.66it/s] 44%|████▍     | 162710/371472 [1:52:16<15:47:45,  3.67it/s] 44%|████▍     | 162711/371472 [1:52:16<17:26:29,  3.32it/s] 44%|████▍     | 162712/371472 [1:52:17<17:29:26,  3.32it/s] 44%|████▍     | 162713/371472 [1:52:17<17:13:52,  3.37it/s] 44%|████▍     | 162714/371472 [1:52:17<17:07:59,  3.38it/s] 44%|████▍     | 162715/371472 [1:52:18<17:54:22,  3.24it/s] 44%|████▍     | 162716/371472 [1:52:18<17:18:55,  3.35it/s] 44%|████▍     | 162717/371472 [1:52:18<19:03:32,  3.04it/s] 44%|████▍     | 162718/371472 [1:52:18<17:59:21,  3.22it/s] 44%|████▍     | 162719/371472 [1:52:19<19:24:47,  2.99it/s] 44%|████▍     | 162720/371472 [1:52:19<19:47:58,  2.93it/s]                                                            {'loss': 3.1519, 'learning_rate': 6.060354672585059e-07, 'epoch': 7.01}
 44%|████▍     | 162720/371472 [1:52:19<19:47:58,  2.93it/s] 44%|████▍     | 162721/371472 [1:52:19<18:36:48,  3.12it/s] 44%|████▍     | 162722/371472 [1:52:20<18:00:32,  3.22it/s] 44%|████▍     | 162723/371472 [1:52:20<16:50:42,  3.44it/s] 44%|████▍     | 162724/371472 [1:52:20<16:50:18,  3.44it/s] 44%|████▍     | 162725/371472 [1:52:21<16:30:19,  3.51it/s] 44%|████▍     | 162726/371472 [1:52:21<15:59:13,  3.63it/s] 44%|████▍     | 162727/371472 [1:52:21<19:38:47,  2.95it/s] 44%|████▍     | 162728/371472 [1:52:22<18:06:09,  3.20it/s] 44%|████▍     | 162729/371472 [1:52:22<17:18:08,  3.35it/s] 44%|████▍     | 162730/371472 [1:52:22<17:13:34,  3.37it/s] 44%|████▍     | 162731/371472 [1:52:22<17:16:05,  3.36it/s] 44%|████▍     | 162732/371472 [1:52:23<17:09:47,  3.38it/s] 44%|████▍     | 162733/371472 [1:52:23<17:17:29,  3.35it/s] 44%|████▍     | 162734/371472 [1:52:23<18:14:45,  3.18it/s] 44%|████▍     | 162735/371472 [1:52:24<17:46:09,  3.26it/s] 44%|████▍     | 162736/371472 [1:52:24<18:20:37,  3.16it/s] 44%|████▍     | 162737/371472 [1:52:24<17:34:37,  3.30it/s] 44%|████▍     | 162738/371472 [1:52:25<17:45:48,  3.26it/s] 44%|████▍     | 162739/371472 [1:52:25<17:50:13,  3.25it/s] 44%|████▍     | 162740/371472 [1:52:25<18:19:13,  3.16it/s]                                                            {'loss': 3.0577, 'learning_rate': 6.05986985283027e-07, 'epoch': 7.01}
 44%|████▍     | 162740/371472 [1:52:25<18:19:13,  3.16it/s] 44%|████▍     | 162741/371472 [1:52:26<18:24:50,  3.15it/s] 44%|████▍     | 162742/371472 [1:52:26<18:25:55,  3.15it/s] 44%|████▍     | 162743/371472 [1:52:26<17:46:05,  3.26it/s] 44%|████▍     | 162744/371472 [1:52:26<17:53:49,  3.24it/s] 44%|████▍     | 162745/371472 [1:52:27<18:32:18,  3.13it/s] 44%|████▍     | 162746/371472 [1:52:27<17:26:05,  3.33it/s] 44%|████▍     | 162747/371472 [1:52:27<16:42:44,  3.47it/s] 44%|████▍     | 162748/371472 [1:52:28<16:15:59,  3.56it/s] 44%|████▍     | 162749/371472 [1:52:28<15:51:08,  3.66it/s] 44%|████▍     | 162750/371472 [1:52:28<16:29:37,  3.52it/s] 44%|████▍     | 162751/371472 [1:52:28<16:18:41,  3.55it/s] 44%|████▍     | 162752/371472 [1:52:29<16:20:54,  3.55it/s] 44%|████▍     | 162753/371472 [1:52:29<16:05:00,  3.60it/s] 44%|████▍     | 162754/371472 [1:52:29<15:56:46,  3.64it/s] 44%|████▍     | 162755/371472 [1:52:30<16:18:30,  3.56it/s] 44%|████▍     | 162756/371472 [1:52:30<16:30:49,  3.51it/s] 44%|████▍     | 162757/371472 [1:52:30<16:07:08,  3.60it/s] 44%|████▍     | 162758/371472 [1:52:30<16:08:32,  3.59it/s] 44%|████▍     | 162759/371472 [1:52:31<16:43:01,  3.47it/s] 44%|████▍     | 162760/371472 [1:52:31<16:14:26,  3.57it/s]                                                            {'loss': 3.113, 'learning_rate': 6.05938503307548e-07, 'epoch': 7.01}
 44%|████▍     | 162760/371472 [1:52:31<16:14:26,  3.57it/s] 44%|████▍     | 162761/371472 [1:52:31<17:24:24,  3.33it/s] 44%|████▍     | 162762/371472 [1:52:32<16:46:34,  3.46it/s] 44%|████▍     | 162763/371472 [1:52:32<17:08:16,  3.38it/s] 44%|████▍     | 162764/371472 [1:52:32<17:25:44,  3.33it/s] 44%|████▍     | 162765/371472 [1:52:32<16:32:24,  3.51it/s] 44%|████▍     | 162766/371472 [1:52:33<17:25:58,  3.33it/s] 44%|████▍     | 162767/371472 [1:52:33<17:19:23,  3.35it/s] 44%|████▍     | 162768/371472 [1:52:33<17:52:49,  3.24it/s] 44%|████▍     | 162769/371472 [1:52:34<17:10:35,  3.38it/s] 44%|████▍     | 162770/371472 [1:52:34<16:59:16,  3.41it/s] 44%|████▍     | 162771/371472 [1:52:34<16:23:28,  3.54it/s] 44%|████▍     | 162772/371472 [1:52:34<16:29:23,  3.52it/s] 44%|████▍     | 162773/371472 [1:52:35<16:45:36,  3.46it/s] 44%|████▍     | 162774/371472 [1:52:35<16:43:01,  3.47it/s] 44%|████▍     | 162775/371472 [1:52:35<17:09:45,  3.38it/s] 44%|████▍     | 162776/371472 [1:52:36<16:35:10,  3.50it/s] 44%|████▍     | 162777/371472 [1:52:36<16:42:42,  3.47it/s] 44%|████▍     | 162778/371472 [1:52:36<16:53:44,  3.43it/s] 44%|████▍     | 162779/371472 [1:52:37<17:55:59,  3.23it/s] 44%|████▍     | 162780/371472 [1:52:37<18:33:14,  3.12it/s]                                                            {'loss': 3.2161, 'learning_rate': 6.058900213320691e-07, 'epoch': 7.01}
 44%|████▍     | 162780/371472 [1:52:37<18:33:14,  3.12it/s] 44%|████▍     | 162781/371472 [1:52:37<18:39:11,  3.11it/s] 44%|████▍     | 162782/371472 [1:52:38<17:37:32,  3.29it/s] 44%|████▍     | 162783/371472 [1:52:38<16:55:21,  3.43it/s] 44%|████▍     | 162784/371472 [1:52:38<16:19:07,  3.55it/s] 44%|████▍     | 162785/371472 [1:52:38<15:44:45,  3.68it/s] 44%|████▍     | 162786/371472 [1:52:39<16:34:39,  3.50it/s] 44%|████▍     | 162787/371472 [1:52:39<16:31:07,  3.51it/s] 44%|████▍     | 162788/371472 [1:52:39<16:45:33,  3.46it/s] 44%|████▍     | 162789/371472 [1:52:40<18:49:08,  3.08it/s] 44%|████▍     | 162790/371472 [1:52:40<18:00:32,  3.22it/s] 44%|████▍     | 162791/371472 [1:52:40<18:43:41,  3.10it/s] 44%|████▍     | 162792/371472 [1:52:41<17:52:07,  3.24it/s] 44%|████▍     | 162793/371472 [1:52:41<18:07:54,  3.20it/s] 44%|████▍     | 162794/371472 [1:52:41<18:45:34,  3.09it/s] 44%|████▍     | 162795/371472 [1:52:41<17:49:50,  3.25it/s] 44%|████▍     | 162796/371472 [1:52:42<17:40:48,  3.28it/s] 44%|████▍     | 162797/371472 [1:52:42<16:54:55,  3.43it/s] 44%|████▍     | 162798/371472 [1:52:42<16:47:27,  3.45it/s] 44%|████▍     | 162799/371472 [1:52:43<16:19:26,  3.55it/s] 44%|████▍     | 162800/371472 [1:52:43<17:19:04,  3.35it/s]                                                            {'loss': 3.1001, 'learning_rate': 6.058415393565903e-07, 'epoch': 7.01}
 44%|████▍     | 162800/371472 [1:52:43<17:19:04,  3.35it/s] 44%|████▍     | 162801/371472 [1:52:43<16:53:31,  3.43it/s] 44%|████▍     | 162802/371472 [1:52:43<16:52:22,  3.44it/s] 44%|████▍     | 162803/371472 [1:52:44<16:55:16,  3.43it/s] 44%|████▍     | 162804/371472 [1:52:44<16:38:41,  3.48it/s] 44%|████▍     | 162805/371472 [1:52:44<16:44:01,  3.46it/s] 44%|████▍     | 162806/371472 [1:52:45<17:14:50,  3.36it/s] 44%|████▍     | 162807/371472 [1:52:45<16:58:31,  3.41it/s] 44%|████▍     | 162808/371472 [1:52:45<16:23:13,  3.54it/s] 44%|████▍     | 162809/371472 [1:52:45<16:15:40,  3.56it/s] 44%|████▍     | 162810/371472 [1:52:46<15:45:21,  3.68it/s] 44%|████▍     | 162811/371472 [1:52:46<15:23:07,  3.77it/s] 44%|████▍     | 162812/371472 [1:52:46<16:09:15,  3.59it/s] 44%|████▍     | 162813/371472 [1:52:47<16:15:55,  3.56it/s] 44%|████▍     | 162814/371472 [1:52:47<16:52:41,  3.43it/s] 44%|████▍     | 162815/371472 [1:52:47<16:02:19,  3.61it/s] 44%|████▍     | 162816/371472 [1:52:47<16:01:43,  3.62it/s] 44%|████▍     | 162817/371472 [1:52:48<16:21:17,  3.54it/s] 44%|████▍     | 162818/371472 [1:52:48<16:18:13,  3.55it/s] 44%|████▍     | 162819/371472 [1:52:48<17:22:21,  3.34it/s] 44%|████▍     | 162820/371472 [1:52:49<17:07:17,  3.39it/s]                                                            {'loss': 3.2173, 'learning_rate': 6.057930573811115e-07, 'epoch': 7.01}
 44%|████▍     | 162820/371472 [1:52:49<17:07:17,  3.39it/s] 44%|████▍     | 162821/371472 [1:52:49<18:44:56,  3.09it/s] 44%|████▍     | 162822/371472 [1:52:49<19:09:56,  3.02it/s] 44%|████▍     | 162823/371472 [1:52:50<18:54:25,  3.07it/s] 44%|████▍     | 162824/371472 [1:52:50<18:10:07,  3.19it/s] 44%|████▍     | 162825/371472 [1:52:50<18:11:44,  3.19it/s] 44%|████▍     | 162826/371472 [1:52:51<18:24:28,  3.15it/s] 44%|████▍     | 162827/371472 [1:52:51<18:49:57,  3.08it/s] 44%|████▍     | 162828/371472 [1:52:51<18:00:06,  3.22it/s] 44%|████▍     | 162829/371472 [1:52:51<17:43:46,  3.27it/s] 44%|████▍     | 162830/371472 [1:52:52<17:17:45,  3.35it/s] 44%|████▍     | 162831/371472 [1:52:52<16:46:34,  3.45it/s] 44%|████▍     | 162832/371472 [1:52:52<16:14:10,  3.57it/s] 44%|████▍     | 162833/371472 [1:52:53<16:07:07,  3.60it/s] 44%|████▍     | 162834/371472 [1:52:53<16:09:24,  3.59it/s] 44%|████▍     | 162835/371472 [1:52:53<15:45:33,  3.68it/s] 44%|████▍     | 162836/371472 [1:52:53<16:12:01,  3.58it/s] 44%|████▍     | 162837/371472 [1:52:54<16:59:51,  3.41it/s] 44%|████▍     | 162838/371472 [1:52:54<16:38:11,  3.48it/s] 44%|████▍     | 162839/371472 [1:52:54<16:51:28,  3.44it/s] 44%|████▍     | 162840/371472 [1:52:55<16:27:23,  3.52it/s]                                                            {'loss': 3.0064, 'learning_rate': 6.057445754056325e-07, 'epoch': 7.01}
 44%|████▍     | 162840/371472 [1:52:55<16:27:23,  3.52it/s] 44%|████▍     | 162841/371472 [1:52:55<17:06:16,  3.39it/s] 44%|████▍     | 162842/371472 [1:52:55<16:54:12,  3.43it/s] 44%|████▍     | 162843/371472 [1:52:56<18:31:40,  3.13it/s] 44%|████▍     | 162844/371472 [1:52:56<18:08:23,  3.19it/s] 44%|████▍     | 162845/371472 [1:52:56<17:51:03,  3.25it/s] 44%|████▍     | 162846/371472 [1:52:56<17:17:01,  3.35it/s] 44%|████▍     | 162847/371472 [1:52:57<18:01:38,  3.21it/s] 44%|████▍     | 162848/371472 [1:52:57<17:38:20,  3.29it/s] 44%|████▍     | 162849/371472 [1:52:57<16:50:24,  3.44it/s] 44%|████▍     | 162850/371472 [1:52:58<17:33:03,  3.30it/s] 44%|████▍     | 162851/371472 [1:52:58<17:19:34,  3.34it/s] 44%|████▍     | 162852/371472 [1:52:58<17:03:29,  3.40it/s] 44%|████▍     | 162853/371472 [1:52:59<17:21:31,  3.34it/s] 44%|████▍     | 162854/371472 [1:52:59<18:17:29,  3.17it/s] 44%|████▍     | 162855/371472 [1:52:59<21:04:00,  2.75it/s] 44%|████▍     | 162856/371472 [1:53:00<19:47:36,  2.93it/s] 44%|████▍     | 162857/371472 [1:53:00<18:55:00,  3.06it/s] 44%|████▍     | 162858/371472 [1:53:00<19:29:05,  2.97it/s] 44%|████▍     | 162859/371472 [1:53:01<18:16:43,  3.17it/s] 44%|████▍     | 162860/371472 [1:53:01<18:16:54,  3.17it/s]                                                            {'loss': 3.1595, 'learning_rate': 6.056960934301536e-07, 'epoch': 7.01}
 44%|████▍     | 162860/371472 [1:53:01<18:16:54,  3.17it/s] 44%|████▍     | 162861/371472 [1:53:01<17:44:26,  3.27it/s] 44%|████▍     | 162862/371472 [1:53:01<17:33:19,  3.30it/s] 44%|████▍     | 162863/371472 [1:53:02<17:37:55,  3.29it/s] 44%|████▍     | 162864/371472 [1:53:02<17:00:32,  3.41it/s] 44%|████▍     | 162865/371472 [1:53:02<18:23:11,  3.15it/s] 44%|████▍     | 162866/371472 [1:53:03<17:50:44,  3.25it/s] 44%|████▍     | 162867/371472 [1:53:03<18:13:09,  3.18it/s] 44%|████▍     | 162868/371472 [1:53:03<18:11:46,  3.18it/s] 44%|████▍     | 162869/371472 [1:53:04<17:42:40,  3.27it/s] 44%|████▍     | 162870/371472 [1:53:04<17:09:24,  3.38it/s] 44%|████▍     | 162871/371472 [1:53:04<16:27:55,  3.52it/s] 44%|████▍     | 162872/371472 [1:53:04<16:23:30,  3.53it/s] 44%|████▍     | 162873/371472 [1:53:05<16:33:55,  3.50it/s] 44%|████▍     | 162874/371472 [1:53:05<16:06:45,  3.60it/s] 44%|████▍     | 162875/371472 [1:53:05<15:50:05,  3.66it/s] 44%|████▍     | 162876/371472 [1:53:06<16:02:55,  3.61it/s] 44%|████▍     | 162877/371472 [1:53:06<15:48:23,  3.67it/s] 44%|████▍     | 162878/371472 [1:53:06<16:39:10,  3.48it/s] 44%|████▍     | 162879/371472 [1:53:06<16:42:53,  3.47it/s] 44%|████▍     | 162880/371472 [1:53:07<17:20:57,  3.34it/s]                                                            {'loss': 2.9558, 'learning_rate': 6.056476114546747e-07, 'epoch': 7.02}
 44%|████▍     | 162880/371472 [1:53:07<17:20:57,  3.34it/s] 44%|████▍     | 162881/371472 [1:53:07<17:05:22,  3.39it/s] 44%|████▍     | 162882/371472 [1:53:07<16:36:01,  3.49it/s] 44%|████▍     | 162883/371472 [1:53:08<17:21:21,  3.34it/s] 44%|████▍     | 162884/371472 [1:53:08<17:24:31,  3.33it/s] 44%|████▍     | 162885/371472 [1:53:08<20:09:59,  2.87it/s] 44%|████▍     | 162886/371472 [1:53:09<19:27:14,  2.98it/s] 44%|████▍     | 162887/371472 [1:53:09<17:49:31,  3.25it/s] 44%|████▍     | 162888/371472 [1:53:09<17:44:29,  3.27it/s] 44%|████▍     | 162889/371472 [1:53:10<17:04:20,  3.39it/s] 44%|████▍     | 162890/371472 [1:53:10<17:06:15,  3.39it/s] 44%|████▍     | 162891/371472 [1:53:10<16:46:42,  3.45it/s] 44%|████▍     | 162892/371472 [1:53:10<16:38:27,  3.48it/s] 44%|████▍     | 162893/371472 [1:53:11<16:32:08,  3.50it/s] 44%|████▍     | 162894/371472 [1:53:11<16:38:15,  3.48it/s] 44%|████▍     | 162895/371472 [1:53:11<16:54:54,  3.43it/s] 44%|████▍     | 162896/371472 [1:53:12<16:46:15,  3.45it/s] 44%|████▍     | 162897/371472 [1:53:12<17:02:51,  3.40it/s] 44%|████▍     | 162898/371472 [1:53:12<16:41:04,  3.47it/s] 44%|████▍     | 162899/371472 [1:53:12<17:14:01,  3.36it/s] 44%|████▍     | 162900/371472 [1:53:13<17:42:49,  3.27it/s]                                                            {'loss': 3.2863, 'learning_rate': 6.055991294791959e-07, 'epoch': 7.02}
 44%|████▍     | 162900/371472 [1:53:13<17:42:49,  3.27it/s] 44%|████▍     | 162901/371472 [1:53:13<17:45:51,  3.26it/s] 44%|████▍     | 162902/371472 [1:53:13<17:18:54,  3.35it/s] 44%|████▍     | 162903/371472 [1:53:14<17:05:17,  3.39it/s] 44%|████▍     | 162904/371472 [1:53:14<17:05:55,  3.39it/s] 44%|████▍     | 162905/371472 [1:53:14<17:20:00,  3.34it/s] 44%|████▍     | 162906/371472 [1:53:14<16:36:12,  3.49it/s] 44%|████▍     | 162907/371472 [1:53:15<15:50:29,  3.66it/s] 44%|████▍     | 162908/371472 [1:53:15<15:57:26,  3.63it/s] 44%|████▍     | 162909/371472 [1:53:15<16:19:41,  3.55it/s] 44%|████▍     | 162910/371472 [1:53:16<16:23:20,  3.53it/s] 44%|████▍     | 162911/371472 [1:53:16<16:41:10,  3.47it/s] 44%|████▍     | 162912/371472 [1:53:16<16:01:43,  3.61it/s] 44%|████▍     | 162913/371472 [1:53:17<19:32:13,  2.97it/s] 44%|████▍     | 162914/371472 [1:53:17<19:39:52,  2.95it/s] 44%|████▍     | 162915/371472 [1:53:17<19:26:32,  2.98it/s] 44%|████▍     | 162916/371472 [1:53:18<18:02:54,  3.21it/s] 44%|████▍     | 162917/371472 [1:53:18<17:26:43,  3.32it/s] 44%|████▍     | 162918/371472 [1:53:18<16:48:21,  3.45it/s] 44%|████▍     | 162919/371472 [1:53:18<16:41:11,  3.47it/s] 44%|████▍     | 162920/371472 [1:53:19<15:59:46,  3.62it/s]                                                            {'loss': 3.1096, 'learning_rate': 6.055506475037168e-07, 'epoch': 7.02}
 44%|████▍     | 162920/371472 [1:53:19<15:59:46,  3.62it/s] 44%|████▍     | 162921/371472 [1:53:19<16:12:25,  3.57it/s] 44%|████▍     | 162922/371472 [1:53:19<18:16:41,  3.17it/s] 44%|████▍     | 162923/371472 [1:53:20<18:10:01,  3.19it/s] 44%|████▍     | 162924/371472 [1:53:20<17:15:39,  3.36it/s] 44%|████▍     | 162925/371472 [1:53:20<16:32:26,  3.50it/s] 44%|████▍     | 162926/371472 [1:53:20<17:04:29,  3.39it/s] 44%|████▍     | 162927/371472 [1:53:21<16:51:59,  3.43it/s] 44%|████▍     | 162928/371472 [1:53:21<16:27:40,  3.52it/s] 44%|████▍     | 162929/371472 [1:53:21<15:57:35,  3.63it/s] 44%|████▍     | 162930/371472 [1:53:22<16:17:18,  3.56it/s] 44%|████▍     | 162931/371472 [1:53:22<16:34:39,  3.49it/s] 44%|████▍     | 162932/371472 [1:53:22<16:56:46,  3.42it/s] 44%|████▍     | 162933/371472 [1:53:22<16:32:15,  3.50it/s] 44%|████▍     | 162934/371472 [1:53:23<15:59:00,  3.62it/s] 44%|████▍     | 162935/371472 [1:53:23<17:14:00,  3.36it/s] 44%|████▍     | 162936/371472 [1:53:23<16:55:57,  3.42it/s] 44%|████▍     | 162937/371472 [1:53:24<16:43:40,  3.46it/s] 44%|████▍     | 162938/371472 [1:53:24<16:38:23,  3.48it/s] 44%|████▍     | 162939/371472 [1:53:24<16:50:44,  3.44it/s] 44%|████▍     | 162940/371472 [1:53:24<17:24:43,  3.33it/s]                                                            {'loss': 3.063, 'learning_rate': 6.05502165528238e-07, 'epoch': 7.02}
 44%|████▍     | 162940/371472 [1:53:24<17:24:43,  3.33it/s] 44%|████▍     | 162941/371472 [1:53:25<17:02:36,  3.40it/s] 44%|████▍     | 162942/371472 [1:53:25<16:46:43,  3.45it/s] 44%|████▍     | 162943/371472 [1:53:25<16:37:10,  3.49it/s] 44%|████▍     | 162944/371472 [1:53:26<17:08:10,  3.38it/s] 44%|████▍     | 162945/371472 [1:53:26<16:27:24,  3.52it/s] 44%|████▍     | 162946/371472 [1:53:26<17:03:54,  3.39it/s] 44%|████▍     | 162947/371472 [1:53:26<16:54:44,  3.42it/s] 44%|████▍     | 162948/371472 [1:53:27<17:39:20,  3.28it/s] 44%|████▍     | 162949/371472 [1:53:27<17:18:19,  3.35it/s] 44%|████▍     | 162950/371472 [1:53:27<18:11:27,  3.18it/s] 44%|████▍     | 162951/371472 [1:53:28<17:12:20,  3.37it/s] 44%|████▍     | 162952/371472 [1:53:28<16:51:55,  3.43it/s] 44%|████▍     | 162953/371472 [1:53:28<17:52:27,  3.24it/s] 44%|████▍     | 162954/371472 [1:53:29<17:45:40,  3.26it/s] 44%|████▍     | 162955/371472 [1:53:29<17:16:32,  3.35it/s] 44%|████▍     | 162956/371472 [1:53:29<16:36:48,  3.49it/s] 44%|████▍     | 162957/371472 [1:53:29<16:56:56,  3.42it/s] 44%|████▍     | 162958/371472 [1:53:30<17:32:31,  3.30it/s] 44%|████▍     | 162959/371472 [1:53:30<17:29:57,  3.31it/s] 44%|████▍     | 162960/371472 [1:53:30<17:45:25,  3.26it/s]                                                            {'loss': 3.0081, 'learning_rate': 6.054536835527592e-07, 'epoch': 7.02}
 44%|████▍     | 162960/371472 [1:53:30<17:45:25,  3.26it/s] 44%|████▍     | 162961/371472 [1:53:31<18:03:35,  3.21it/s] 44%|████▍     | 162962/371472 [1:53:31<18:14:35,  3.17it/s] 44%|████▍     | 162963/371472 [1:53:31<17:36:57,  3.29it/s] 44%|████▍     | 162964/371472 [1:53:32<16:53:35,  3.43it/s] 44%|████▍     | 162965/371472 [1:53:32<16:34:34,  3.49it/s] 44%|████▍     | 162966/371472 [1:53:32<16:37:07,  3.49it/s] 44%|████▍     | 162967/371472 [1:53:32<15:51:46,  3.65it/s] 44%|████▍     | 162968/371472 [1:53:33<16:03:16,  3.61it/s] 44%|████▍     | 162969/371472 [1:53:33<18:06:33,  3.20it/s] 44%|████▍     | 162970/371472 [1:53:33<17:57:28,  3.23it/s] 44%|████▍     | 162971/371472 [1:53:34<17:47:15,  3.26it/s] 44%|████▍     | 162972/371472 [1:53:34<17:51:19,  3.24it/s] 44%|████▍     | 162973/371472 [1:53:34<17:16:39,  3.35it/s] 44%|████▍     | 162974/371472 [1:53:35<16:54:33,  3.43it/s] 44%|████▍     | 162975/371472 [1:53:35<16:28:42,  3.51it/s] 44%|████▍     | 162976/371472 [1:53:35<16:53:12,  3.43it/s] 44%|████▍     | 162977/371472 [1:53:35<17:39:53,  3.28it/s] 44%|████▍     | 162978/371472 [1:53:36<16:59:37,  3.41it/s] 44%|████▍     | 162979/371472 [1:53:36<17:19:10,  3.34it/s] 44%|████▍     | 162980/371472 [1:53:36<18:25:19,  3.14it/s]                                                            {'loss': 3.0646, 'learning_rate': 6.054052015772804e-07, 'epoch': 7.02}
 44%|████▍     | 162980/371472 [1:53:36<18:25:19,  3.14it/s] 44%|████▍     | 162981/371472 [1:53:37<18:50:51,  3.07it/s] 44%|████▍     | 162982/371472 [1:53:37<18:18:36,  3.16it/s] 44%|████▍     | 162983/371472 [1:53:37<18:29:15,  3.13it/s] 44%|████▍     | 162984/371472 [1:53:38<17:44:49,  3.26it/s] 44%|████▍     | 162985/371472 [1:53:38<17:06:36,  3.38it/s] 44%|████▍     | 162986/371472 [1:53:38<16:46:34,  3.45it/s] 44%|████▍     | 162987/371472 [1:53:39<18:01:43,  3.21it/s] 44%|████▍     | 162988/371472 [1:53:39<18:20:05,  3.16it/s] 44%|████▍     | 162989/371472 [1:53:39<18:25:37,  3.14it/s] 44%|████▍     | 162990/371472 [1:53:39<17:21:36,  3.34it/s] 44%|████▍     | 162991/371472 [1:53:40<17:14:33,  3.36it/s] 44%|████▍     | 162992/371472 [1:53:40<17:26:31,  3.32it/s] 44%|████▍     | 162993/371472 [1:53:40<17:31:14,  3.31it/s] 44%|████▍     | 162994/371472 [1:53:41<16:51:09,  3.44it/s] 44%|████▍     | 162995/371472 [1:53:41<17:14:50,  3.36it/s] 44%|████▍     | 162996/371472 [1:53:41<18:28:53,  3.13it/s] 44%|████▍     | 162997/371472 [1:53:42<17:40:37,  3.28it/s] 44%|████▍     | 162998/371472 [1:53:42<17:40:52,  3.28it/s] 44%|████▍     | 162999/371472 [1:53:42<17:50:37,  3.25it/s] 44%|████▍     | 163000/371472 [1:53:43<17:14:49,  3.36it/s]                                                            {'loss': 2.9792, 'learning_rate': 6.053567196018013e-07, 'epoch': 7.02}
 44%|████▍     | 163000/371472 [1:53:43<17:14:49,  3.36it/s] 44%|████▍     | 163001/371472 [1:53:43<17:05:44,  3.39it/s] 44%|████▍     | 163002/371472 [1:53:43<17:00:25,  3.40it/s] 44%|████▍     | 163003/371472 [1:53:43<16:59:44,  3.41it/s] 44%|████▍     | 163004/371472 [1:53:44<16:33:27,  3.50it/s] 44%|████▍     | 163005/371472 [1:53:44<16:12:47,  3.57it/s] 44%|████▍     | 163006/371472 [1:53:44<16:34:04,  3.50it/s] 44%|████▍     | 163007/371472 [1:53:44<16:14:42,  3.56it/s] 44%|████▍     | 163008/371472 [1:53:45<16:04:15,  3.60it/s] 44%|████▍     | 163009/371472 [1:53:45<17:19:31,  3.34it/s] 44%|████▍     | 163010/371472 [1:53:45<17:41:58,  3.27it/s] 44%|████▍     | 163011/371472 [1:53:46<18:02:31,  3.21it/s] 44%|████▍     | 163012/371472 [1:53:46<17:29:08,  3.31it/s] 44%|████▍     | 163013/371472 [1:53:46<16:58:56,  3.41it/s] 44%|████▍     | 163014/371472 [1:53:47<16:57:59,  3.41it/s] 44%|████▍     | 163015/371472 [1:53:47<17:24:31,  3.33it/s] 44%|████▍     | 163016/371472 [1:53:47<16:53:18,  3.43it/s] 44%|████▍     | 163017/371472 [1:53:47<16:19:04,  3.55it/s] 44%|████▍     | 163018/371472 [1:53:48<16:19:41,  3.55it/s] 44%|████▍     | 163019/371472 [1:53:48<16:40:10,  3.47it/s] 44%|████▍     | 163020/371472 [1:53:48<16:28:39,  3.51it/s]                                                            {'loss': 3.1795, 'learning_rate': 6.053082376263224e-07, 'epoch': 7.02}
 44%|████▍     | 163020/371472 [1:53:48<16:28:39,  3.51it/s] 44%|████▍     | 163021/371472 [1:53:49<16:33:19,  3.50it/s] 44%|████▍     | 163022/371472 [1:53:49<16:12:35,  3.57it/s] 44%|████▍     | 163023/371472 [1:53:49<16:25:15,  3.53it/s] 44%|████▍     | 163024/371472 [1:53:49<16:28:40,  3.51it/s] 44%|████▍     | 163025/371472 [1:53:50<15:54:02,  3.64it/s] 44%|████▍     | 163026/371472 [1:53:50<16:16:40,  3.56it/s] 44%|████▍     | 163027/371472 [1:53:50<16:18:53,  3.55it/s] 44%|████▍     | 163028/371472 [1:53:51<16:03:49,  3.60it/s] 44%|████▍     | 163029/371472 [1:53:51<15:39:12,  3.70it/s] 44%|████▍     | 163030/371472 [1:53:51<16:00:33,  3.62it/s] 44%|████▍     | 163031/371472 [1:53:51<15:59:13,  3.62it/s] 44%|████▍     | 163032/371472 [1:53:52<15:53:07,  3.64it/s] 44%|████▍     | 163033/371472 [1:53:52<15:55:00,  3.64it/s] 44%|████▍     | 163034/371472 [1:53:52<16:40:58,  3.47it/s] 44%|████▍     | 163035/371472 [1:53:53<18:01:21,  3.21it/s] 44%|████▍     | 163036/371472 [1:53:53<18:39:20,  3.10it/s] 44%|████▍     | 163037/371472 [1:53:53<18:43:37,  3.09it/s] 44%|████▍     | 163038/371472 [1:53:54<18:00:08,  3.22it/s] 44%|████▍     | 163039/371472 [1:53:54<17:13:32,  3.36it/s] 44%|████▍     | 163040/371472 [1:53:54<17:05:53,  3.39it/s]                                                            {'loss': 3.1115, 'learning_rate': 6.052597556508436e-07, 'epoch': 7.02}
 44%|████▍     | 163040/371472 [1:53:54<17:05:53,  3.39it/s] 44%|████▍     | 163041/371472 [1:53:54<17:02:31,  3.40it/s] 44%|████▍     | 163042/371472 [1:53:55<16:22:14,  3.54it/s] 44%|████▍     | 163043/371472 [1:53:55<16:17:06,  3.56it/s] 44%|████▍     | 163044/371472 [1:53:55<16:45:21,  3.46it/s] 44%|████▍     | 163045/371472 [1:53:56<16:58:57,  3.41it/s] 44%|████▍     | 163046/371472 [1:53:56<16:56:44,  3.42it/s] 44%|████▍     | 163047/371472 [1:53:56<16:22:10,  3.54it/s] 44%|████▍     | 163048/371472 [1:53:56<16:17:02,  3.56it/s] 44%|████▍     | 163049/371472 [1:53:57<16:27:59,  3.52it/s] 44%|████▍     | 163050/371472 [1:53:57<17:22:05,  3.33it/s] 44%|████▍     | 163051/371472 [1:53:57<16:59:52,  3.41it/s] 44%|████▍     | 163052/371472 [1:53:58<17:14:24,  3.36it/s] 44%|████▍     | 163053/371472 [1:53:58<16:54:58,  3.42it/s] 44%|████▍     | 163054/371472 [1:53:58<16:30:20,  3.51it/s] 44%|████▍     | 163055/371472 [1:53:58<16:58:08,  3.41it/s] 44%|████▍     | 163056/371472 [1:53:59<17:12:28,  3.36it/s] 44%|████▍     | 163057/371472 [1:53:59<17:40:00,  3.28it/s] 44%|████▍     | 163058/371472 [1:53:59<18:51:30,  3.07it/s] 44%|████▍     | 163059/371472 [1:54:00<17:55:42,  3.23it/s] 44%|████▍     | 163060/371472 [1:54:00<17:03:20,  3.39it/s]                                                            {'loss': 3.0263, 'learning_rate': 6.052112736753647e-07, 'epoch': 7.02}
 44%|████▍     | 163060/371472 [1:54:00<17:03:20,  3.39it/s] 44%|████▍     | 163061/371472 [1:54:00<17:15:00,  3.36it/s] 44%|████▍     | 163062/371472 [1:54:01<17:14:29,  3.36it/s] 44%|████▍     | 163063/371472 [1:54:01<17:18:06,  3.35it/s] 44%|████▍     | 163064/371472 [1:54:01<17:12:24,  3.36it/s] 44%|████▍     | 163065/371472 [1:54:01<17:29:58,  3.31it/s] 44%|████▍     | 163066/371472 [1:54:02<17:09:44,  3.37it/s] 44%|████▍     | 163067/371472 [1:54:02<17:02:08,  3.40it/s] 44%|████▍     | 163068/371472 [1:54:02<16:44:54,  3.46it/s] 44%|████▍     | 163069/371472 [1:54:03<16:41:34,  3.47it/s] 44%|████▍     | 163070/371472 [1:54:03<16:43:40,  3.46it/s] 44%|████▍     | 163071/371472 [1:54:03<16:26:28,  3.52it/s] 44%|████▍     | 163072/371472 [1:54:04<17:08:15,  3.38it/s] 44%|████▍     | 163073/371472 [1:54:04<18:24:57,  3.14it/s] 44%|████▍     | 163074/371472 [1:54:04<18:04:36,  3.20it/s] 44%|████▍     | 163075/371472 [1:54:04<17:22:31,  3.33it/s] 44%|████▍     | 163076/371472 [1:54:05<17:11:41,  3.37it/s] 44%|████▍     | 163077/371472 [1:54:05<16:58:20,  3.41it/s] 44%|████▍     | 163078/371472 [1:54:05<16:34:37,  3.49it/s] 44%|████▍     | 163079/371472 [1:54:06<16:14:03,  3.57it/s] 44%|████▍     | 163080/371472 [1:54:06<16:24:54,  3.53it/s]                                                            {'loss': 3.1917, 'learning_rate': 6.051627916998858e-07, 'epoch': 7.02}
 44%|████▍     | 163080/371472 [1:54:06<16:24:54,  3.53it/s] 44%|████▍     | 163081/371472 [1:54:06<16:07:02,  3.59it/s] 44%|████▍     | 163082/371472 [1:54:06<15:25:18,  3.75it/s] 44%|████▍     | 163083/371472 [1:54:07<15:36:20,  3.71it/s] 44%|████▍     | 163084/371472 [1:54:07<16:08:53,  3.58it/s] 44%|████▍     | 163085/371472 [1:54:07<18:04:45,  3.20it/s] 44%|████▍     | 163086/371472 [1:54:08<17:12:41,  3.36it/s] 44%|████▍     | 163087/371472 [1:54:08<16:29:51,  3.51it/s] 44%|████▍     | 163088/371472 [1:54:08<15:53:56,  3.64it/s] 44%|████▍     | 163089/371472 [1:54:08<15:52:36,  3.65it/s] 44%|████▍     | 163090/371472 [1:54:09<16:15:51,  3.56it/s] 44%|████▍     | 163091/371472 [1:54:09<15:53:42,  3.64it/s] 44%|████▍     | 163092/371472 [1:54:09<15:44:08,  3.68it/s] 44%|████▍     | 163093/371472 [1:54:09<15:30:55,  3.73it/s] 44%|████▍     | 163094/371472 [1:54:10<16:37:31,  3.48it/s] 44%|████▍     | 163095/371472 [1:54:10<16:35:39,  3.49it/s] 44%|████▍     | 163096/371472 [1:54:10<17:05:48,  3.39it/s] 44%|████▍     | 163097/371472 [1:54:11<16:51:43,  3.43it/s] 44%|████▍     | 163098/371472 [1:54:11<17:21:19,  3.34it/s] 44%|████▍     | 163099/371472 [1:54:11<17:07:25,  3.38it/s] 44%|████▍     | 163100/371472 [1:54:12<17:35:45,  3.29it/s]                                                            {'loss': 3.1563, 'learning_rate': 6.051143097244069e-07, 'epoch': 7.03}
 44%|████▍     | 163100/371472 [1:54:12<17:35:45,  3.29it/s] 44%|████▍     | 163101/371472 [1:54:12<19:34:08,  2.96it/s] 44%|████▍     | 163102/371472 [1:54:12<19:28:31,  2.97it/s] 44%|████▍     | 163103/371472 [1:54:13<18:47:22,  3.08it/s] 44%|████▍     | 163104/371472 [1:54:13<17:32:19,  3.30it/s] 44%|████▍     | 163105/371472 [1:54:13<16:45:12,  3.45it/s] 44%|████▍     | 163106/371472 [1:54:13<17:05:27,  3.39it/s] 44%|████▍     | 163107/371472 [1:54:14<16:48:19,  3.44it/s] 44%|████▍     | 163108/371472 [1:54:14<16:32:01,  3.50it/s] 44%|████▍     | 163109/371472 [1:54:14<16:26:18,  3.52it/s] 44%|████▍     | 163110/371472 [1:54:15<16:38:55,  3.48it/s] 44%|████▍     | 163111/371472 [1:54:15<16:30:46,  3.51it/s] 44%|████▍     | 163112/371472 [1:54:15<18:01:45,  3.21it/s] 44%|████▍     | 163113/371472 [1:54:16<18:41:25,  3.10it/s] 44%|████▍     | 163114/371472 [1:54:16<17:41:36,  3.27it/s] 44%|████▍     | 163115/371472 [1:54:16<17:00:59,  3.40it/s] 44%|████▍     | 163116/371472 [1:54:16<16:12:34,  3.57it/s] 44%|████▍     | 163117/371472 [1:54:17<16:12:00,  3.57it/s] 44%|████▍     | 163118/371472 [1:54:17<16:21:04,  3.54it/s] 44%|████▍     | 163119/371472 [1:54:17<17:09:13,  3.37it/s] 44%|████▍     | 163120/371472 [1:54:18<16:45:23,  3.45it/s]                                                            {'loss': 3.0814, 'learning_rate': 6.05065827748928e-07, 'epoch': 7.03}
 44%|████▍     | 163120/371472 [1:54:18<16:45:23,  3.45it/s] 44%|████▍     | 163121/371472 [1:54:18<17:00:42,  3.40it/s] 44%|████▍     | 163122/371472 [1:54:18<16:49:46,  3.44it/s] 44%|████▍     | 163123/371472 [1:54:19<18:28:22,  3.13it/s] 44%|████▍     | 163124/371472 [1:54:19<17:56:28,  3.23it/s] 44%|████▍     | 163125/371472 [1:54:19<17:00:59,  3.40it/s] 44%|████▍     | 163126/371472 [1:54:19<17:48:19,  3.25it/s] 44%|████▍     | 163127/371472 [1:54:20<17:26:17,  3.32it/s] 44%|████▍     | 163128/371472 [1:54:20<17:20:46,  3.34it/s] 44%|████▍     | 163129/371472 [1:54:20<17:17:38,  3.35it/s] 44%|████▍     | 163130/371472 [1:54:21<16:44:56,  3.46it/s] 44%|████▍     | 163131/371472 [1:54:21<16:10:27,  3.58it/s] 44%|████▍     | 163132/371472 [1:54:21<15:56:12,  3.63it/s] 44%|████▍     | 163133/371472 [1:54:21<15:40:50,  3.69it/s] 44%|████▍     | 163134/371472 [1:54:22<15:09:33,  3.82it/s] 44%|████▍     | 163135/371472 [1:54:22<15:09:54,  3.82it/s] 44%|████▍     | 163136/371472 [1:54:22<14:59:36,  3.86it/s] 44%|████▍     | 163137/371472 [1:54:22<15:11:28,  3.81it/s] 44%|████▍     | 163138/371472 [1:54:23<15:00:45,  3.85it/s] 44%|████▍     | 163139/371472 [1:54:23<14:40:53,  3.94it/s] 44%|████▍     | 163140/371472 [1:54:23<14:52:01,  3.89it/s]                                                            {'loss': 3.0128, 'learning_rate': 6.050173457734491e-07, 'epoch': 7.03}
 44%|████▍     | 163140/371472 [1:54:23<14:52:01,  3.89it/s] 44%|████▍     | 163141/371472 [1:54:23<15:21:56,  3.77it/s] 44%|████▍     | 163142/371472 [1:54:24<15:46:31,  3.67it/s] 44%|████▍     | 163143/371472 [1:54:24<16:07:18,  3.59it/s] 44%|████▍     | 163144/371472 [1:54:24<15:34:18,  3.72it/s] 44%|████▍     | 163145/371472 [1:54:25<16:26:11,  3.52it/s] 44%|████▍     | 163146/371472 [1:54:25<16:03:58,  3.60it/s] 44%|████▍     | 163147/371472 [1:54:25<16:03:11,  3.60it/s] 44%|████▍     | 163148/371472 [1:54:25<16:12:49,  3.57it/s] 44%|████▍     | 163149/371472 [1:54:26<16:05:31,  3.60it/s] 44%|████▍     | 163150/371472 [1:54:26<15:59:21,  3.62it/s] 44%|████▍     | 163151/371472 [1:54:26<16:30:10,  3.51it/s] 44%|████▍     | 163152/371472 [1:54:26<16:11:35,  3.57it/s] 44%|████▍     | 163153/371472 [1:54:27<16:49:33,  3.44it/s] 44%|████▍     | 163154/371472 [1:54:27<16:39:25,  3.47it/s] 44%|████▍     | 163155/371472 [1:54:27<16:30:35,  3.50it/s] 44%|████▍     | 163156/371472 [1:54:28<17:33:56,  3.29it/s] 44%|████▍     | 163157/371472 [1:54:28<17:34:48,  3.29it/s] 44%|████▍     | 163158/371472 [1:54:28<18:09:03,  3.19it/s] 44%|████▍     | 163159/371472 [1:54:29<18:17:29,  3.16it/s] 44%|████▍     | 163160/371472 [1:54:29<17:56:40,  3.22it/s]                                                            {'loss': 3.1542, 'learning_rate': 6.049688637979701e-07, 'epoch': 7.03}
 44%|████▍     | 163160/371472 [1:54:29<17:56:40,  3.22it/s] 44%|████▍     | 163161/371472 [1:54:29<16:59:31,  3.41it/s] 44%|████▍     | 163162/371472 [1:54:30<17:41:01,  3.27it/s] 44%|████▍     | 163163/371472 [1:54:30<16:47:18,  3.45it/s] 44%|████▍     | 163164/371472 [1:54:30<16:48:20,  3.44it/s] 44%|████▍     | 163165/371472 [1:54:30<16:16:22,  3.56it/s] 44%|████▍     | 163166/371472 [1:54:31<17:01:10,  3.40it/s] 44%|████▍     | 163167/371472 [1:54:31<17:18:29,  3.34it/s] 44%|████▍     | 163168/371472 [1:54:31<19:00:10,  3.04it/s] 44%|████▍     | 163169/371472 [1:54:32<18:36:35,  3.11it/s] 44%|████▍     | 163170/371472 [1:54:32<17:55:18,  3.23it/s] 44%|████▍     | 163171/371472 [1:54:32<17:32:15,  3.30it/s] 44%|████▍     | 163172/371472 [1:54:33<17:10:27,  3.37it/s] 44%|████▍     | 163173/371472 [1:54:33<17:11:34,  3.37it/s] 44%|████▍     | 163174/371472 [1:54:33<20:01:31,  2.89it/s] 44%|████▍     | 163175/371472 [1:54:34<18:47:29,  3.08it/s] 44%|████▍     | 163176/371472 [1:54:34<18:45:30,  3.08it/s] 44%|████▍     | 163177/371472 [1:54:34<17:52:39,  3.24it/s] 44%|████▍     | 163178/371472 [1:54:34<17:13:19,  3.36it/s] 44%|████▍     | 163179/371472 [1:54:35<16:37:07,  3.48it/s] 44%|████▍     | 163180/371472 [1:54:35<15:56:21,  3.63it/s]                                                            {'loss': 3.058, 'learning_rate': 6.049203818224913e-07, 'epoch': 7.03}
 44%|████▍     | 163180/371472 [1:54:35<15:56:21,  3.63it/s] 44%|████▍     | 163181/371472 [1:54:35<15:29:51,  3.73it/s] 44%|████▍     | 163182/371472 [1:54:35<15:32:47,  3.72it/s] 44%|████▍     | 163183/371472 [1:54:36<15:54:25,  3.64it/s] 44%|████▍     | 163184/371472 [1:54:36<15:40:57,  3.69it/s] 44%|████▍     | 163185/371472 [1:54:36<16:51:53,  3.43it/s] 44%|████▍     | 163186/371472 [1:54:37<17:25:59,  3.32it/s] 44%|████▍     | 163187/371472 [1:54:37<17:05:35,  3.38it/s] 44%|████▍     | 163188/371472 [1:54:37<16:21:05,  3.54it/s] 44%|████▍     | 163189/371472 [1:54:38<18:04:47,  3.20it/s] 44%|████▍     | 163190/371472 [1:54:38<17:17:39,  3.35it/s] 44%|████▍     | 163191/371472 [1:54:38<16:40:35,  3.47it/s] 44%|████▍     | 163192/371472 [1:54:38<16:29:08,  3.51it/s] 44%|████▍     | 163193/371472 [1:54:39<16:08:59,  3.58it/s] 44%|████▍     | 163194/371472 [1:54:39<15:45:08,  3.67it/s] 44%|████▍     | 163195/371472 [1:54:39<16:47:18,  3.45it/s] 44%|████▍     | 163196/371472 [1:54:40<16:30:53,  3.50it/s] 44%|████▍     | 163197/371472 [1:54:40<17:45:07,  3.26it/s] 44%|████▍     | 163198/371472 [1:54:40<16:51:59,  3.43it/s] 44%|████▍     | 163199/371472 [1:54:40<16:48:30,  3.44it/s] 44%|████▍     | 163200/371472 [1:54:41<16:09:11,  3.58it/s]                                                            {'loss': 3.2052, 'learning_rate': 6.048718998470125e-07, 'epoch': 7.03}
 44%|████▍     | 163200/371472 [1:54:41<16:09:11,  3.58it/s] 44%|████▍     | 163201/371472 [1:54:41<17:20:09,  3.34it/s] 44%|████▍     | 163202/371472 [1:54:41<16:37:49,  3.48it/s] 44%|████▍     | 163203/371472 [1:54:42<16:58:08,  3.41it/s] 44%|████▍     | 163204/371472 [1:54:42<16:37:17,  3.48it/s] 44%|████▍     | 163205/371472 [1:54:42<16:41:21,  3.47it/s] 44%|████▍     | 163206/371472 [1:54:43<17:34:21,  3.29it/s] 44%|████▍     | 163207/371472 [1:54:43<17:50:45,  3.24it/s] 44%|████▍     | 163208/371472 [1:54:43<17:51:57,  3.24it/s] 44%|████▍     | 163209/371472 [1:54:43<17:54:01,  3.23it/s] 44%|████▍     | 163210/371472 [1:54:44<17:18:39,  3.34it/s] 44%|████▍     | 163211/371472 [1:54:44<16:44:33,  3.46it/s] 44%|████▍     | 163212/371472 [1:54:44<16:21:22,  3.54it/s] 44%|████▍     | 163213/371472 [1:54:45<16:00:40,  3.61it/s] 44%|████▍     | 163214/371472 [1:54:45<16:15:08,  3.56it/s] 44%|████▍     | 163215/371472 [1:54:45<17:09:17,  3.37it/s] 44%|████▍     | 163216/371472 [1:54:45<16:53:35,  3.42it/s] 44%|████▍     | 163217/371472 [1:54:46<17:00:47,  3.40it/s] 44%|████▍     | 163218/371472 [1:54:46<16:54:03,  3.42it/s] 44%|████▍     | 163219/371472 [1:54:46<16:27:59,  3.51it/s] 44%|████▍     | 163220/371472 [1:54:47<16:29:07,  3.51it/s]                                                            {'loss': 3.1511, 'learning_rate': 6.048234178715335e-07, 'epoch': 7.03}
 44%|████▍     | 163220/371472 [1:54:47<16:29:07,  3.51it/s] 44%|████▍     | 163221/371472 [1:54:47<16:07:58,  3.59it/s] 44%|████▍     | 163222/371472 [1:54:47<15:35:57,  3.71it/s] 44%|████▍     | 163223/371472 [1:54:47<15:14:05,  3.80it/s] 44%|████▍     | 163224/371472 [1:54:48<15:41:01,  3.69it/s] 44%|████▍     | 163225/371472 [1:54:48<15:38:24,  3.70it/s] 44%|████▍     | 163226/371472 [1:54:48<16:59:04,  3.41it/s] 44%|████▍     | 163227/371472 [1:54:49<17:00:36,  3.40it/s] 44%|████▍     | 163228/371472 [1:54:49<17:09:26,  3.37it/s] 44%|████▍     | 163229/371472 [1:54:49<16:56:43,  3.41it/s] 44%|████▍     | 163230/371472 [1:54:49<17:48:30,  3.25it/s] 44%|████▍     | 163231/371472 [1:54:50<17:49:40,  3.24it/s] 44%|████▍     | 163232/371472 [1:54:50<17:09:33,  3.37it/s] 44%|████▍     | 163233/371472 [1:54:50<16:43:34,  3.46it/s] 44%|████▍     | 163234/371472 [1:54:51<16:27:59,  3.51it/s] 44%|████▍     | 163235/371472 [1:54:51<16:33:38,  3.49it/s] 44%|████▍     | 163236/371472 [1:54:51<15:55:26,  3.63it/s] 44%|████▍     | 163237/371472 [1:54:51<15:38:55,  3.70it/s] 44%|████▍     | 163238/371472 [1:54:52<15:54:23,  3.64it/s] 44%|████▍     | 163239/371472 [1:54:52<16:15:38,  3.56it/s] 44%|████▍     | 163240/371472 [1:54:52<15:47:18,  3.66it/s]                                                            {'loss': 3.0771, 'learning_rate': 6.047749358960546e-07, 'epoch': 7.03}
 44%|████▍     | 163240/371472 [1:54:52<15:47:18,  3.66it/s] 44%|████▍     | 163241/371472 [1:54:52<15:28:49,  3.74it/s] 44%|████▍     | 163242/371472 [1:54:53<15:59:31,  3.62it/s] 44%|████▍     | 163243/371472 [1:54:53<16:03:48,  3.60it/s] 44%|████▍     | 163244/371472 [1:54:53<15:52:45,  3.64it/s] 44%|████▍     | 163245/371472 [1:54:54<17:28:13,  3.31it/s] 44%|████▍     | 163246/371472 [1:54:54<17:33:46,  3.29it/s] 44%|████▍     | 163247/371472 [1:54:54<17:08:50,  3.37it/s] 44%|████▍     | 163248/371472 [1:54:55<16:30:19,  3.50it/s] 44%|████▍     | 163249/371472 [1:54:55<16:03:19,  3.60it/s] 44%|████▍     | 163250/371472 [1:54:55<16:25:16,  3.52it/s] 44%|████▍     | 163251/371472 [1:54:55<16:17:45,  3.55it/s] 44%|████▍     | 163252/371472 [1:54:56<17:49:37,  3.24it/s] 44%|████▍     | 163253/371472 [1:54:56<16:47:24,  3.44it/s] 44%|████▍     | 163254/371472 [1:54:56<16:31:30,  3.50it/s] 44%|████▍     | 163255/371472 [1:54:57<16:15:26,  3.56it/s] 44%|████▍     | 163256/371472 [1:54:57<16:34:11,  3.49it/s] 44%|████▍     | 163257/371472 [1:54:57<16:14:55,  3.56it/s] 44%|████▍     | 163258/371472 [1:54:57<17:04:04,  3.39it/s] 44%|████▍     | 163259/371472 [1:54:58<16:43:34,  3.46it/s] 44%|████▍     | 163260/371472 [1:54:58<16:11:05,  3.57it/s]                                                            {'loss': 3.0649, 'learning_rate': 6.047264539205757e-07, 'epoch': 7.03}
 44%|████▍     | 163260/371472 [1:54:58<16:11:05,  3.57it/s] 44%|████▍     | 163261/371472 [1:54:58<17:19:41,  3.34it/s] 44%|████▍     | 163262/371472 [1:54:59<17:06:21,  3.38it/s] 44%|████▍     | 163263/371472 [1:54:59<16:50:07,  3.44it/s] 44%|████▍     | 163264/371472 [1:54:59<16:31:27,  3.50it/s] 44%|████▍     | 163265/371472 [1:54:59<15:58:34,  3.62it/s] 44%|████▍     | 163266/371472 [1:55:00<16:09:11,  3.58it/s] 44%|████▍     | 163267/371472 [1:55:00<16:48:21,  3.44it/s] 44%|████▍     | 163268/371472 [1:55:00<16:02:36,  3.60it/s] 44%|████▍     | 163269/371472 [1:55:01<16:03:41,  3.60it/s] 44%|████▍     | 163270/371472 [1:55:01<16:11:18,  3.57it/s] 44%|████▍     | 163271/371472 [1:55:01<15:25:20,  3.75it/s] 44%|████▍     | 163272/371472 [1:55:02<19:14:14,  3.01it/s] 44%|████▍     | 163273/371472 [1:55:02<18:19:23,  3.16it/s] 44%|████▍     | 163274/371472 [1:55:02<17:22:16,  3.33it/s] 44%|████▍     | 163275/371472 [1:55:02<16:38:49,  3.47it/s] 44%|████▍     | 163276/371472 [1:55:03<17:48:16,  3.25it/s] 44%|████▍     | 163277/371472 [1:55:03<16:46:39,  3.45it/s] 44%|████▍     | 163278/371472 [1:55:03<17:09:25,  3.37it/s] 44%|████▍     | 163279/371472 [1:55:04<16:37:26,  3.48it/s] 44%|████▍     | 163280/371472 [1:55:04<16:16:30,  3.55it/s]                                                            {'loss': 3.1625, 'learning_rate': 6.046779719450968e-07, 'epoch': 7.03}
 44%|████▍     | 163280/371472 [1:55:04<16:16:30,  3.55it/s] 44%|████▍     | 163281/371472 [1:55:04<16:11:19,  3.57it/s] 44%|████▍     | 163282/371472 [1:55:04<15:52:32,  3.64it/s] 44%|████▍     | 163283/371472 [1:55:05<16:28:11,  3.51it/s] 44%|████▍     | 163284/371472 [1:55:05<16:10:39,  3.57it/s] 44%|████▍     | 163285/371472 [1:55:05<16:06:10,  3.59it/s] 44%|████▍     | 163286/371472 [1:55:06<16:44:17,  3.45it/s] 44%|████▍     | 163287/371472 [1:55:06<16:07:10,  3.59it/s] 44%|████▍     | 163288/371472 [1:55:06<16:29:30,  3.51it/s] 44%|████▍     | 163289/371472 [1:55:06<18:23:07,  3.15it/s] 44%|████▍     | 163290/371472 [1:55:07<17:56:59,  3.22it/s] 44%|████▍     | 163291/371472 [1:55:07<17:23:39,  3.32it/s] 44%|████▍     | 163292/371472 [1:55:07<16:53:47,  3.42it/s] 44%|████▍     | 163293/371472 [1:55:08<16:31:07,  3.50it/s] 44%|████▍     | 163294/371472 [1:55:08<16:32:51,  3.49it/s] 44%|████▍     | 163295/371472 [1:55:08<17:44:20,  3.26it/s] 44%|████▍     | 163296/371472 [1:55:09<17:28:47,  3.31it/s] 44%|████▍     | 163297/371472 [1:55:09<16:33:34,  3.49it/s] 44%|████▍     | 163298/371472 [1:55:09<16:32:19,  3.50it/s] 44%|████▍     | 163299/371472 [1:55:09<16:11:55,  3.57it/s] 44%|████▍     | 163300/371472 [1:55:10<16:02:39,  3.60it/s]                                                            {'loss': 3.1441, 'learning_rate': 6.046294899696179e-07, 'epoch': 7.03}
 44%|████▍     | 163300/371472 [1:55:10<16:02:39,  3.60it/s] 44%|████▍     | 163301/371472 [1:55:10<16:27:02,  3.52it/s] 44%|████▍     | 163302/371472 [1:55:10<15:52:49,  3.64it/s] 44%|████▍     | 163303/371472 [1:55:10<15:39:12,  3.69it/s] 44%|████▍     | 163304/371472 [1:55:11<15:36:34,  3.70it/s] 44%|████▍     | 163305/371472 [1:55:11<15:40:46,  3.69it/s] 44%|████▍     | 163306/371472 [1:55:11<15:44:36,  3.67it/s] 44%|████▍     | 163307/371472 [1:55:12<17:21:41,  3.33it/s] 44%|████▍     | 163308/371472 [1:55:12<16:31:35,  3.50it/s] 44%|████▍     | 163309/371472 [1:55:12<17:11:18,  3.36it/s] 44%|████▍     | 163310/371472 [1:55:13<18:15:21,  3.17it/s] 44%|████▍     | 163311/371472 [1:55:13<17:34:26,  3.29it/s] 44%|████▍     | 163312/371472 [1:55:13<17:13:57,  3.36it/s] 44%|████▍     | 163313/371472 [1:55:13<17:51:43,  3.24it/s] 44%|████▍     | 163314/371472 [1:55:14<16:50:42,  3.43it/s] 44%|████▍     | 163315/371472 [1:55:14<18:07:13,  3.19it/s] 44%|████▍     | 163316/371472 [1:55:14<17:28:19,  3.31it/s] 44%|████▍     | 163317/371472 [1:55:15<17:06:42,  3.38it/s] 44%|████▍     | 163318/371472 [1:55:15<17:46:55,  3.25it/s] 44%|████▍     | 163319/371472 [1:55:15<19:31:27,  2.96it/s] 44%|████▍     | 163320/371472 [1:55:16<18:17:00,  3.16it/s]                                                            {'loss': 3.221, 'learning_rate': 6.04581007994139e-07, 'epoch': 7.03}
 44%|████▍     | 163320/371472 [1:55:16<18:17:00,  3.16it/s] 44%|████▍     | 163321/371472 [1:55:16<17:36:09,  3.28it/s] 44%|████▍     | 163322/371472 [1:55:16<17:32:50,  3.30it/s] 44%|████▍     | 163323/371472 [1:55:16<17:16:56,  3.35it/s] 44%|████▍     | 163324/371472 [1:55:17<18:23:49,  3.14it/s] 44%|████▍     | 163325/371472 [1:55:17<17:58:36,  3.22it/s] 44%|████▍     | 163326/371472 [1:55:17<17:26:00,  3.32it/s] 44%|████▍     | 163327/371472 [1:55:18<16:50:28,  3.43it/s] 44%|████▍     | 163328/371472 [1:55:18<17:20:13,  3.33it/s] 44%|████▍     | 163329/371472 [1:55:18<17:29:02,  3.31it/s] 44%|████▍     | 163330/371472 [1:55:19<16:44:27,  3.45it/s] 44%|████▍     | 163331/371472 [1:55:19<16:28:08,  3.51it/s] 44%|████▍     | 163332/371472 [1:55:19<17:00:37,  3.40it/s] 44%|████▍     | 163333/371472 [1:55:19<16:31:34,  3.50it/s] 44%|████▍     | 163334/371472 [1:55:20<16:37:36,  3.48it/s] 44%|████▍     | 163335/371472 [1:55:20<16:54:02,  3.42it/s] 44%|████▍     | 163336/371472 [1:55:20<15:56:05,  3.63it/s] 44%|████▍     | 163337/371472 [1:55:20<15:34:52,  3.71it/s] 44%|████▍     | 163338/371472 [1:55:21<15:35:40,  3.71it/s] 44%|████▍     | 163339/371472 [1:55:21<16:42:23,  3.46it/s] 44%|████▍     | 163340/371472 [1:55:21<17:13:32,  3.36it/s]                                                            {'loss': 2.9437, 'learning_rate': 6.045325260186602e-07, 'epoch': 7.04}
 44%|████▍     | 163340/371472 [1:55:21<17:13:32,  3.36it/s] 44%|████▍     | 163341/371472 [1:55:22<17:35:40,  3.29it/s] 44%|████▍     | 163342/371472 [1:55:22<17:40:08,  3.27it/s] 44%|████▍     | 163343/371472 [1:55:22<17:12:02,  3.36it/s] 44%|████▍     | 163344/371472 [1:55:23<17:03:19,  3.39it/s] 44%|████▍     | 163345/371472 [1:55:23<17:29:40,  3.30it/s] 44%|████▍     | 163346/371472 [1:55:23<16:36:59,  3.48it/s] 44%|████▍     | 163347/371472 [1:55:23<16:12:09,  3.57it/s] 44%|████▍     | 163348/371472 [1:55:24<17:21:56,  3.33it/s] 44%|████▍     | 163349/371472 [1:55:24<16:25:20,  3.52it/s] 44%|████▍     | 163350/371472 [1:55:24<16:14:13,  3.56it/s] 44%|████▍     | 163351/371472 [1:55:25<15:50:04,  3.65it/s] 44%|████▍     | 163352/371472 [1:55:25<16:34:49,  3.49it/s] 44%|████▍     | 163353/371472 [1:55:25<16:51:14,  3.43it/s] 44%|████▍     | 163354/371472 [1:55:25<16:28:19,  3.51it/s] 44%|████▍     | 163355/371472 [1:55:26<16:10:00,  3.58it/s] 44%|████▍     | 163356/371472 [1:55:26<15:50:02,  3.65it/s] 44%|████▍     | 163357/371472 [1:55:26<15:26:10,  3.75it/s] 44%|████▍     | 163358/371472 [1:55:27<16:14:29,  3.56it/s] 44%|████▍     | 163359/371472 [1:55:27<16:21:54,  3.53it/s] 44%|████▍     | 163360/371472 [1:55:27<17:05:54,  3.38it/s]                                                            {'loss': 3.0686, 'learning_rate': 6.044840440431813e-07, 'epoch': 7.04}
 44%|████▍     | 163360/371472 [1:55:27<17:05:54,  3.38it/s] 44%|████▍     | 163361/371472 [1:55:27<16:25:52,  3.52it/s] 44%|████▍     | 163362/371472 [1:55:28<17:03:18,  3.39it/s] 44%|████▍     | 163363/371472 [1:55:28<16:39:44,  3.47it/s] 44%|████▍     | 163364/371472 [1:55:28<16:47:23,  3.44it/s] 44%|████▍     | 163365/371472 [1:55:29<17:00:11,  3.40it/s] 44%|████▍     | 163366/371472 [1:55:29<17:43:50,  3.26it/s] 44%|████▍     | 163367/371472 [1:55:29<16:50:57,  3.43it/s] 44%|████▍     | 163368/371472 [1:55:30<17:10:49,  3.36it/s] 44%|████▍     | 163369/371472 [1:55:30<16:21:43,  3.53it/s] 44%|████▍     | 163370/371472 [1:55:30<16:05:47,  3.59it/s] 44%|████▍     | 163371/371472 [1:55:30<15:54:06,  3.64it/s] 44%|████▍     | 163372/371472 [1:55:31<15:53:20,  3.64it/s] 44%|████▍     | 163373/371472 [1:55:31<15:54:34,  3.63it/s] 44%|████▍     | 163374/371472 [1:55:31<15:41:56,  3.68it/s] 44%|████▍     | 163375/371472 [1:55:31<15:50:26,  3.65it/s] 44%|████▍     | 163376/371472 [1:55:32<16:37:39,  3.48it/s] 44%|████▍     | 163377/371472 [1:55:32<16:06:11,  3.59it/s] 44%|████▍     | 163378/371472 [1:55:32<15:47:26,  3.66it/s] 44%|████▍     | 163379/371472 [1:55:33<16:07:35,  3.58it/s] 44%|████▍     | 163380/371472 [1:55:33<16:42:19,  3.46it/s]                                                            {'loss': 3.1961, 'learning_rate': 6.044355620677023e-07, 'epoch': 7.04}
 44%|████▍     | 163380/371472 [1:55:33<16:42:19,  3.46it/s] 44%|████▍     | 163381/371472 [1:55:33<16:28:51,  3.51it/s] 44%|████▍     | 163382/371472 [1:55:33<16:34:35,  3.49it/s] 44%|████▍     | 163383/371472 [1:55:34<16:39:10,  3.47it/s] 44%|████▍     | 163384/371472 [1:55:34<16:19:59,  3.54it/s] 44%|████▍     | 163385/371472 [1:55:34<15:37:05,  3.70it/s] 44%|████▍     | 163386/371472 [1:55:34<16:07:17,  3.59it/s] 44%|████▍     | 163387/371472 [1:55:35<16:24:51,  3.52it/s] 44%|████▍     | 163388/371472 [1:55:35<17:10:13,  3.37it/s] 44%|████▍     | 163389/371472 [1:55:35<17:03:59,  3.39it/s] 44%|████▍     | 163390/371472 [1:55:36<16:33:47,  3.49it/s] 44%|████▍     | 163391/371472 [1:55:36<17:38:34,  3.28it/s] 44%|████▍     | 163392/371472 [1:55:36<16:28:33,  3.51it/s] 44%|████▍     | 163393/371472 [1:55:37<15:56:37,  3.63it/s] 44%|████▍     | 163394/371472 [1:55:37<15:55:31,  3.63it/s] 44%|████▍     | 163395/371472 [1:55:37<15:43:22,  3.68it/s] 44%|████▍     | 163396/371472 [1:55:37<15:44:28,  3.67it/s] 44%|████▍     | 163397/371472 [1:55:38<16:11:04,  3.57it/s] 44%|████▍     | 163398/371472 [1:55:38<16:28:44,  3.51it/s] 44%|████▍     | 163399/371472 [1:55:38<16:40:04,  3.47it/s] 44%|████▍     | 163400/371472 [1:55:38<16:09:20,  3.58it/s]                                                            {'loss': 3.2297, 'learning_rate': 6.043870800922234e-07, 'epoch': 7.04}
 44%|████▍     | 163400/371472 [1:55:38<16:09:20,  3.58it/s] 44%|████▍     | 163401/371472 [1:55:39<16:10:29,  3.57it/s] 44%|████▍     | 163402/371472 [1:55:39<17:06:04,  3.38it/s] 44%|████▍     | 163403/371472 [1:55:39<16:30:27,  3.50it/s] 44%|████▍     | 163404/371472 [1:55:40<17:50:24,  3.24it/s] 44%|████▍     | 163405/371472 [1:55:40<16:47:57,  3.44it/s] 44%|████▍     | 163406/371472 [1:55:40<16:41:38,  3.46it/s] 44%|████▍     | 163407/371472 [1:55:41<16:39:44,  3.47it/s] 44%|████▍     | 163408/371472 [1:55:41<18:19:00,  3.16it/s] 44%|████▍     | 163409/371472 [1:55:41<19:06:30,  3.02it/s] 44%|████▍     | 163410/371472 [1:55:42<18:22:58,  3.14it/s] 44%|████▍     | 163411/371472 [1:55:42<17:24:13,  3.32it/s] 44%|████▍     | 163412/371472 [1:55:42<16:44:46,  3.45it/s] 44%|████▍     | 163413/371472 [1:55:42<16:27:04,  3.51it/s] 44%|████▍     | 163414/371472 [1:55:43<17:04:13,  3.39it/s] 44%|████▍     | 163415/371472 [1:55:43<16:43:14,  3.46it/s] 44%|████▍     | 163416/371472 [1:55:43<16:14:27,  3.56it/s] 44%|████▍     | 163417/371472 [1:55:43<15:36:49,  3.70it/s] 44%|████▍     | 163418/371472 [1:55:44<15:52:59,  3.64it/s] 44%|████▍     | 163419/371472 [1:55:44<15:26:42,  3.74it/s] 44%|████▍     | 163420/371472 [1:55:44<15:47:54,  3.66it/s]                                                            {'loss': 3.115, 'learning_rate': 6.043385981167446e-07, 'epoch': 7.04}
 44%|████▍     | 163420/371472 [1:55:44<15:47:54,  3.66it/s] 44%|████▍     | 163421/371472 [1:55:45<15:54:57,  3.63it/s] 44%|████▍     | 163422/371472 [1:55:45<15:48:53,  3.65it/s] 44%|████▍     | 163423/371472 [1:55:45<16:10:14,  3.57it/s] 44%|████▍     | 163424/371472 [1:55:45<16:20:05,  3.54it/s] 44%|████▍     | 163425/371472 [1:55:46<16:04:55,  3.59it/s] 44%|████▍     | 163426/371472 [1:55:46<16:30:42,  3.50it/s] 44%|████▍     | 163427/371472 [1:55:46<16:01:29,  3.61it/s] 44%|████▍     | 163428/371472 [1:55:47<15:48:17,  3.66it/s] 44%|████▍     | 163429/371472 [1:55:47<16:29:20,  3.50it/s] 44%|████▍     | 163430/371472 [1:55:47<17:50:58,  3.24it/s] 44%|████▍     | 163431/371472 [1:55:47<17:08:33,  3.37it/s] 44%|████▍     | 163432/371472 [1:55:48<16:32:09,  3.49it/s] 44%|████▍     | 163433/371472 [1:55:48<16:50:39,  3.43it/s] 44%|████▍     | 163434/371472 [1:55:48<16:21:15,  3.53it/s] 44%|████▍     | 163435/371472 [1:55:49<16:10:24,  3.57it/s] 44%|████▍     | 163436/371472 [1:55:49<20:21:43,  2.84it/s] 44%|████▍     | 163437/371472 [1:55:49<18:38:38,  3.10it/s] 44%|████▍     | 163438/371472 [1:55:50<17:37:31,  3.28it/s] 44%|████▍     | 163439/371472 [1:55:50<17:21:09,  3.33it/s] 44%|████▍     | 163440/371472 [1:55:50<17:03:52,  3.39it/s]                                                            {'loss': 3.0058, 'learning_rate': 6.042901161412656e-07, 'epoch': 7.04}
 44%|████▍     | 163440/371472 [1:55:50<17:03:52,  3.39it/s] 44%|████▍     | 163441/371472 [1:55:50<17:13:58,  3.35it/s] 44%|████▍     | 163442/371472 [1:55:51<16:48:46,  3.44it/s] 44%|████▍     | 163443/371472 [1:55:51<17:00:02,  3.40it/s] 44%|████▍     | 163444/371472 [1:55:51<16:10:59,  3.57it/s] 44%|████▍     | 163445/371472 [1:55:52<16:19:38,  3.54it/s] 44%|████▍     | 163446/371472 [1:55:52<16:25:12,  3.52it/s] 44%|████▍     | 163447/371472 [1:55:52<17:12:09,  3.36it/s] 44%|████▍     | 163448/371472 [1:55:53<17:18:08,  3.34it/s] 44%|████▍     | 163449/371472 [1:55:53<16:46:33,  3.44it/s] 44%|████▍     | 163450/371472 [1:55:53<17:22:56,  3.32it/s] 44%|████▍     | 163451/371472 [1:55:53<16:43:05,  3.46it/s] 44%|████▍     | 163452/371472 [1:55:54<16:06:38,  3.59it/s] 44%|████▍     | 163453/371472 [1:55:54<16:00:08,  3.61it/s] 44%|████▍     | 163454/371472 [1:55:54<16:08:00,  3.58it/s] 44%|████▍     | 163455/371472 [1:55:54<16:09:47,  3.57it/s] 44%|████▍     | 163456/371472 [1:55:55<16:06:38,  3.59it/s] 44%|████▍     | 163457/371472 [1:55:55<15:41:26,  3.68it/s] 44%|████▍     | 163458/371472 [1:55:55<16:13:02,  3.56it/s] 44%|████▍     | 163459/371472 [1:55:56<16:01:11,  3.61it/s] 44%|████▍     | 163460/371472 [1:55:56<15:47:03,  3.66it/s]                                                            {'loss': 3.1867, 'learning_rate': 6.042416341657868e-07, 'epoch': 7.04}
 44%|████▍     | 163460/371472 [1:55:56<15:47:03,  3.66it/s] 44%|████▍     | 163461/371472 [1:55:56<15:32:07,  3.72it/s] 44%|████▍     | 163462/371472 [1:55:56<15:20:25,  3.77it/s] 44%|████▍     | 163463/371472 [1:55:57<15:04:55,  3.83it/s] 44%|████▍     | 163464/371472 [1:55:57<15:05:29,  3.83it/s] 44%|████▍     | 163465/371472 [1:55:57<14:46:50,  3.91it/s] 44%|████▍     | 163466/371472 [1:55:57<14:48:39,  3.90it/s] 44%|████▍     | 163467/371472 [1:55:58<14:44:19,  3.92it/s] 44%|████▍     | 163468/371472 [1:55:58<16:13:51,  3.56it/s] 44%|████▍     | 163469/371472 [1:55:58<16:01:07,  3.61it/s] 44%|████▍     | 163470/371472 [1:55:58<15:48:29,  3.65it/s] 44%|████▍     | 163471/371472 [1:55:59<18:42:18,  3.09it/s] 44%|████▍     | 163472/371472 [1:55:59<19:25:05,  2.98it/s] 44%|████▍     | 163473/371472 [1:56:00<18:00:24,  3.21it/s] 44%|████▍     | 163474/371472 [1:56:00<17:37:35,  3.28it/s] 44%|████▍     | 163475/371472 [1:56:00<17:36:22,  3.28it/s] 44%|████▍     | 163476/371472 [1:56:01<18:37:44,  3.10it/s] 44%|████▍     | 163477/371472 [1:56:01<17:32:32,  3.29it/s] 44%|████▍     | 163478/371472 [1:56:01<16:36:56,  3.48it/s] 44%|████▍     | 163479/371472 [1:56:01<16:49:41,  3.43it/s] 44%|████▍     | 163480/371472 [1:56:02<16:25:04,  3.52it/s]                                                            {'loss': 3.1334, 'learning_rate': 6.041931521903079e-07, 'epoch': 7.04}
 44%|████▍     | 163480/371472 [1:56:02<16:25:04,  3.52it/s] 44%|████▍     | 163481/371472 [1:56:02<15:55:21,  3.63it/s] 44%|████▍     | 163482/371472 [1:56:02<15:18:41,  3.77it/s] 44%|████▍     | 163483/371472 [1:56:02<15:19:55,  3.77it/s] 44%|████▍     | 163484/371472 [1:56:03<15:29:13,  3.73it/s] 44%|████▍     | 163485/371472 [1:56:03<16:56:26,  3.41it/s] 44%|████▍     | 163486/371472 [1:56:03<16:33:13,  3.49it/s] 44%|████▍     | 163487/371472 [1:56:04<16:09:19,  3.58it/s] 44%|████▍     | 163488/371472 [1:56:04<16:03:36,  3.60it/s] 44%|████▍     | 163489/371472 [1:56:04<17:51:44,  3.23it/s] 44%|████▍     | 163490/371472 [1:56:04<16:42:43,  3.46it/s] 44%|████▍     | 163491/371472 [1:56:05<16:06:07,  3.59it/s] 44%|████▍     | 163492/371472 [1:56:05<15:41:54,  3.68it/s] 44%|████▍     | 163493/371472 [1:56:05<15:30:45,  3.72it/s] 44%|████▍     | 163494/371472 [1:56:05<15:33:34,  3.71it/s] 44%|████▍     | 163495/371472 [1:56:06<16:02:58,  3.60it/s] 44%|████▍     | 163496/371472 [1:56:06<16:54:51,  3.42it/s] 44%|████▍     | 163497/371472 [1:56:06<17:12:20,  3.36it/s] 44%|████▍     | 163498/371472 [1:56:07<18:03:35,  3.20it/s] 44%|████▍     | 163499/371472 [1:56:07<17:05:35,  3.38it/s] 44%|████▍     | 163500/371472 [1:56:07<16:28:09,  3.51it/s]                                                            {'loss': 3.1879, 'learning_rate': 6.04144670214829e-07, 'epoch': 7.04}
 44%|████▍     | 163500/371472 [1:56:07<16:28:09,  3.51it/s] 44%|████▍     | 163501/371472 [1:56:08<16:44:34,  3.45it/s] 44%|████▍     | 163502/371472 [1:56:08<16:39:53,  3.47it/s] 44%|████▍     | 163503/371472 [1:56:08<17:00:42,  3.40it/s] 44%|████▍     | 163504/371472 [1:56:08<17:45:12,  3.25it/s] 44%|████▍     | 163505/371472 [1:56:09<17:22:27,  3.32it/s] 44%|████▍     | 163506/371472 [1:56:09<16:13:57,  3.56it/s] 44%|████▍     | 163507/371472 [1:56:09<16:04:23,  3.59it/s] 44%|████▍     | 163508/371472 [1:56:10<15:36:11,  3.70it/s] 44%|████▍     | 163509/371472 [1:56:10<15:16:00,  3.78it/s] 44%|████▍     | 163510/371472 [1:56:10<15:34:06,  3.71it/s] 44%|████▍     | 163511/371472 [1:56:10<15:18:32,  3.77it/s] 44%|████▍     | 163512/371472 [1:56:11<16:01:20,  3.61it/s] 44%|████▍     | 163513/371472 [1:56:11<16:04:11,  3.59it/s] 44%|████▍     | 163514/371472 [1:56:11<17:09:29,  3.37it/s] 44%|████▍     | 163515/371472 [1:56:12<16:51:41,  3.43it/s] 44%|████▍     | 163516/371472 [1:56:12<16:33:16,  3.49it/s] 44%|████▍     | 163517/371472 [1:56:12<16:37:46,  3.47it/s] 44%|████▍     | 163518/371472 [1:56:12<17:54:35,  3.23it/s] 44%|████▍     | 163519/371472 [1:56:13<16:50:54,  3.43it/s] 44%|████▍     | 163520/371472 [1:56:13<16:45:26,  3.45it/s]                                                            {'loss': 2.9995, 'learning_rate': 6.040961882393501e-07, 'epoch': 7.04}
 44%|████▍     | 163520/371472 [1:56:13<16:45:26,  3.45it/s] 44%|████▍     | 163521/371472 [1:56:13<16:48:06,  3.44it/s] 44%|████▍     | 163522/371472 [1:56:14<16:05:40,  3.59it/s] 44%|████▍     | 163523/371472 [1:56:14<15:55:31,  3.63it/s] 44%|████▍     | 163524/371472 [1:56:14<15:42:26,  3.68it/s] 44%|████▍     | 163525/371472 [1:56:14<15:29:52,  3.73it/s] 44%|████▍     | 163526/371472 [1:56:15<16:45:49,  3.45it/s] 44%|████▍     | 163527/371472 [1:56:15<16:36:08,  3.48it/s] 44%|████▍     | 163528/371472 [1:56:15<16:00:17,  3.61it/s] 44%|████▍     | 163529/371472 [1:56:15<15:59:08,  3.61it/s] 44%|████▍     | 163530/371472 [1:56:16<15:40:54,  3.68it/s] 44%|████▍     | 163531/371472 [1:56:16<16:48:12,  3.44it/s] 44%|████▍     | 163532/371472 [1:56:16<17:25:11,  3.32it/s] 44%|████▍     | 163533/371472 [1:56:17<16:55:35,  3.41it/s] 44%|████▍     | 163534/371472 [1:56:17<17:03:34,  3.39it/s] 44%|████▍     | 163535/371472 [1:56:17<17:08:49,  3.37it/s] 44%|████▍     | 163536/371472 [1:56:18<16:28:35,  3.51it/s] 44%|████▍     | 163537/371472 [1:56:18<16:14:38,  3.56it/s] 44%|████▍     | 163538/371472 [1:56:18<16:21:37,  3.53it/s] 44%|████▍     | 163539/371472 [1:56:18<16:19:39,  3.54it/s] 44%|████▍     | 163540/371472 [1:56:19<16:24:29,  3.52it/s]                                                            {'loss': 3.1159, 'learning_rate': 6.040477062638712e-07, 'epoch': 7.04}
 44%|████▍     | 163540/371472 [1:56:19<16:24:29,  3.52it/s] 44%|████▍     | 163541/371472 [1:56:19<16:14:33,  3.56it/s] 44%|████▍     | 163542/371472 [1:56:19<17:28:06,  3.31it/s] 44%|████▍     | 163543/371472 [1:56:20<16:40:17,  3.46it/s] 44%|████▍     | 163544/371472 [1:56:20<16:55:24,  3.41it/s] 44%|████▍     | 163545/371472 [1:56:20<16:26:03,  3.51it/s] 44%|████▍     | 163546/371472 [1:56:20<16:42:12,  3.46it/s] 44%|████▍     | 163547/371472 [1:56:21<17:27:16,  3.31it/s] 44%|████▍     | 163548/371472 [1:56:21<16:34:23,  3.48it/s] 44%|████▍     | 163549/371472 [1:56:21<16:10:46,  3.57it/s] 44%|████▍     | 163550/371472 [1:56:22<17:04:03,  3.38it/s] 44%|████▍     | 163551/371472 [1:56:22<17:10:15,  3.36it/s] 44%|████▍     | 163552/371472 [1:56:22<17:34:43,  3.29it/s] 44%|████▍     | 163553/371472 [1:56:22<17:23:00,  3.32it/s] 44%|████▍     | 163554/371472 [1:56:23<16:56:34,  3.41it/s] 44%|████▍     | 163555/371472 [1:56:23<17:15:01,  3.35it/s] 44%|████▍     | 163556/371472 [1:56:23<16:56:58,  3.41it/s] 44%|████▍     | 163557/371472 [1:56:24<16:35:06,  3.48it/s] 44%|████▍     | 163558/371472 [1:56:24<17:25:26,  3.31it/s] 44%|████▍     | 163559/371472 [1:56:24<16:59:41,  3.40it/s] 44%|████▍     | 163560/371472 [1:56:25<16:36:40,  3.48it/s]                                                            {'loss': 3.1321, 'learning_rate': 6.039992242883923e-07, 'epoch': 7.04}
 44%|████▍     | 163560/371472 [1:56:25<16:36:40,  3.48it/s] 44%|████▍     | 163561/371472 [1:56:25<16:12:20,  3.56it/s] 44%|████▍     | 163562/371472 [1:56:25<17:05:07,  3.38it/s] 44%|████▍     | 163563/371472 [1:56:25<17:29:53,  3.30it/s] 44%|████▍     | 163564/371472 [1:56:26<16:51:26,  3.43it/s] 44%|████▍     | 163565/371472 [1:56:26<16:30:34,  3.50it/s] 44%|████▍     | 163566/371472 [1:56:26<16:21:04,  3.53it/s] 44%|████▍     | 163567/371472 [1:56:27<16:51:38,  3.43it/s] 44%|████▍     | 163568/371472 [1:56:27<16:36:40,  3.48it/s] 44%|████▍     | 163569/371472 [1:56:27<16:32:49,  3.49it/s] 44%|████▍     | 163570/371472 [1:56:27<17:19:29,  3.33it/s] 44%|████▍     | 163571/371472 [1:56:28<17:28:36,  3.30it/s] 44%|████▍     | 163572/371472 [1:56:28<16:25:10,  3.52it/s] 44%|████▍     | 163573/371472 [1:56:28<17:53:05,  3.23it/s] 44%|████▍     | 163574/371472 [1:56:29<17:17:04,  3.34it/s] 44%|████▍     | 163575/371472 [1:56:29<17:16:39,  3.34it/s] 44%|████▍     | 163576/371472 [1:56:29<16:49:25,  3.43it/s] 44%|████▍     | 163577/371472 [1:56:29<15:57:20,  3.62it/s] 44%|████▍     | 163578/371472 [1:56:30<16:01:32,  3.60it/s] 44%|████▍     | 163579/371472 [1:56:30<15:47:34,  3.66it/s] 44%|████▍     | 163580/371472 [1:56:30<15:41:13,  3.68it/s]                                                            {'loss': 3.3091, 'learning_rate': 6.039507423129134e-07, 'epoch': 7.05}
 44%|████▍     | 163580/371472 [1:56:30<15:41:13,  3.68it/s] 44%|████▍     | 163581/371472 [1:56:31<15:48:12,  3.65it/s] 44%|████▍     | 163582/371472 [1:56:31<15:34:28,  3.71it/s] 44%|████▍     | 163583/371472 [1:56:31<15:24:09,  3.75it/s] 44%|████▍     | 163584/371472 [1:56:31<15:36:13,  3.70it/s] 44%|████▍     | 163585/371472 [1:56:32<16:17:40,  3.54it/s] 44%|████▍     | 163586/371472 [1:56:32<16:01:43,  3.60it/s] 44%|████▍     | 163587/371472 [1:56:32<15:53:42,  3.63it/s] 44%|████▍     | 163588/371472 [1:56:33<17:08:14,  3.37it/s] 44%|████▍     | 163589/371472 [1:56:33<16:35:46,  3.48it/s] 44%|████▍     | 163590/371472 [1:56:33<16:10:16,  3.57it/s] 44%|████▍     | 163591/371472 [1:56:33<16:38:47,  3.47it/s] 44%|████▍     | 163592/371472 [1:56:34<15:57:30,  3.62it/s] 44%|████▍     | 163593/371472 [1:56:34<15:44:06,  3.67it/s] 44%|████▍     | 163594/371472 [1:56:34<15:46:09,  3.66it/s] 44%|████▍     | 163595/371472 [1:56:34<15:37:11,  3.70it/s] 44%|████▍     | 163596/371472 [1:56:35<15:23:31,  3.75it/s] 44%|████▍     | 163597/371472 [1:56:35<15:50:58,  3.64it/s] 44%|████▍     | 163598/371472 [1:56:35<16:37:43,  3.47it/s] 44%|████▍     | 163599/371472 [1:56:36<16:58:54,  3.40it/s] 44%|████▍     | 163600/371472 [1:56:36<16:35:19,  3.48it/s]                                                            {'loss': 3.2883, 'learning_rate': 6.039022603374346e-07, 'epoch': 7.05}
 44%|████▍     | 163600/371472 [1:56:36<16:35:19,  3.48it/s] 44%|████▍     | 163601/371472 [1:56:36<15:57:46,  3.62it/s] 44%|████▍     | 163602/371472 [1:56:37<18:05:50,  3.19it/s] 44%|████▍     | 163603/371472 [1:56:37<17:35:39,  3.28it/s] 44%|████▍     | 163604/371472 [1:56:37<18:14:25,  3.17it/s] 44%|████▍     | 163605/371472 [1:56:37<18:26:33,  3.13it/s] 44%|████▍     | 163606/371472 [1:56:38<17:30:19,  3.30it/s] 44%|████▍     | 163607/371472 [1:56:38<17:05:55,  3.38it/s] 44%|████▍     | 163608/371472 [1:56:38<17:11:18,  3.36it/s] 44%|████▍     | 163609/371472 [1:56:39<16:35:16,  3.48it/s] 44%|████▍     | 163610/371472 [1:56:39<18:10:46,  3.18it/s] 44%|████▍     | 163611/371472 [1:56:39<17:20:43,  3.33it/s] 44%|████▍     | 163612/371472 [1:56:40<17:08:51,  3.37it/s] 44%|████▍     | 163613/371472 [1:56:40<18:45:35,  3.08it/s] 44%|████▍     | 163614/371472 [1:56:40<17:58:26,  3.21it/s] 44%|████▍     | 163615/371472 [1:56:40<16:52:23,  3.42it/s] 44%|████▍     | 163616/371472 [1:56:41<16:04:29,  3.59it/s] 44%|████▍     | 163617/371472 [1:56:41<15:51:03,  3.64it/s] 44%|████▍     | 163618/371472 [1:56:41<15:34:50,  3.71it/s] 44%|████▍     | 163619/371472 [1:56:41<15:35:01,  3.70it/s] 44%|████▍     | 163620/371472 [1:56:42<15:31:39,  3.72it/s]                                                            {'loss': 3.0653, 'learning_rate': 6.038537783619557e-07, 'epoch': 7.05}
 44%|████▍     | 163620/371472 [1:56:42<15:31:39,  3.72it/s] 44%|████▍     | 163621/371472 [1:56:42<15:08:11,  3.81it/s] 44%|████▍     | 163622/371472 [1:56:42<15:03:31,  3.83it/s] 44%|████▍     | 163623/371472 [1:56:43<15:32:07,  3.72it/s] 44%|████▍     | 163624/371472 [1:56:43<15:26:31,  3.74it/s] 44%|████▍     | 163625/371472 [1:56:43<15:12:13,  3.80it/s] 44%|████▍     | 163626/371472 [1:56:43<15:09:46,  3.81it/s] 44%|████▍     | 163627/371472 [1:56:44<15:38:11,  3.69it/s] 44%|████▍     | 163628/371472 [1:56:44<15:33:17,  3.71it/s] 44%|████▍     | 163629/371472 [1:56:44<15:48:24,  3.65it/s] 44%|████▍     | 163630/371472 [1:56:44<15:54:31,  3.63it/s] 44%|████▍     | 163631/371472 [1:56:45<15:31:49,  3.72it/s] 44%|████▍     | 163632/371472 [1:56:45<15:22:31,  3.75it/s] 44%|████▍     | 163633/371472 [1:56:45<15:25:46,  3.74it/s] 44%|████▍     | 163634/371472 [1:56:45<15:01:48,  3.84it/s] 44%|████▍     | 163635/371472 [1:56:46<15:26:46,  3.74it/s] 44%|████▍     | 163636/371472 [1:56:46<16:14:13,  3.56it/s] 44%|████▍     | 163637/371472 [1:56:46<15:40:29,  3.68it/s] 44%|████▍     | 163638/371472 [1:56:47<15:32:12,  3.72it/s] 44%|████▍     | 163639/371472 [1:56:47<15:44:55,  3.67it/s] 44%|████▍     | 163640/371472 [1:56:47<18:21:00,  3.15it/s]                                                            {'loss': 3.3154, 'learning_rate': 6.038052963864767e-07, 'epoch': 7.05}
 44%|████▍     | 163640/371472 [1:56:47<18:21:00,  3.15it/s] 44%|████▍     | 163641/371472 [1:56:48<17:34:43,  3.28it/s] 44%|████▍     | 163642/371472 [1:56:48<16:59:26,  3.40it/s] 44%|████▍     | 163643/371472 [1:56:48<16:36:49,  3.47it/s] 44%|████▍     | 163644/371472 [1:56:48<16:02:10,  3.60it/s] 44%|████▍     | 163645/371472 [1:56:49<16:25:57,  3.51it/s] 44%|████▍     | 163646/371472 [1:56:49<16:16:58,  3.55it/s] 44%|████▍     | 163647/371472 [1:56:49<16:42:48,  3.45it/s] 44%|████▍     | 163648/371472 [1:56:50<16:50:48,  3.43it/s] 44%|████▍     | 163649/371472 [1:56:50<16:09:56,  3.57it/s] 44%|████▍     | 163650/371472 [1:56:50<15:51:59,  3.64it/s] 44%|████▍     | 163651/371472 [1:56:50<16:44:44,  3.45it/s] 44%|████▍     | 163652/371472 [1:56:51<16:49:27,  3.43it/s] 44%|████▍     | 163653/371472 [1:56:51<16:08:56,  3.57it/s] 44%|████▍     | 163654/371472 [1:56:51<16:20:57,  3.53it/s] 44%|████▍     | 163655/371472 [1:56:52<16:59:34,  3.40it/s] 44%|████▍     | 163656/371472 [1:56:52<17:13:19,  3.35it/s] 44%|████▍     | 163657/371472 [1:56:52<16:35:39,  3.48it/s] 44%|████▍     | 163658/371472 [1:56:52<15:59:52,  3.61it/s] 44%|████▍     | 163659/371472 [1:56:53<16:32:45,  3.49it/s] 44%|████▍     | 163660/371472 [1:56:53<16:13:04,  3.56it/s]                                                            {'loss': 3.1247, 'learning_rate': 6.037568144109978e-07, 'epoch': 7.05}
 44%|████▍     | 163660/371472 [1:56:53<16:13:04,  3.56it/s] 44%|████▍     | 163661/371472 [1:56:53<17:50:31,  3.24it/s] 44%|████▍     | 163662/371472 [1:56:54<16:55:08,  3.41it/s] 44%|████▍     | 163663/371472 [1:56:54<16:51:51,  3.42it/s] 44%|████▍     | 163664/371472 [1:56:54<16:56:57,  3.41it/s] 44%|████▍     | 163665/371472 [1:56:54<16:34:00,  3.48it/s] 44%|████▍     | 163666/371472 [1:56:55<16:34:16,  3.48it/s] 44%|████▍     | 163667/371472 [1:56:55<18:04:31,  3.19it/s] 44%|████▍     | 163668/371472 [1:56:55<17:00:47,  3.39it/s] 44%|████▍     | 163669/371472 [1:56:56<16:13:55,  3.56it/s] 44%|████▍     | 163670/371472 [1:56:56<15:28:53,  3.73it/s] 44%|████▍     | 163671/371472 [1:56:56<15:10:19,  3.80it/s] 44%|████▍     | 163672/371472 [1:56:56<15:39:20,  3.69it/s] 44%|████▍     | 163673/371472 [1:56:57<15:58:37,  3.61it/s] 44%|████▍     | 163674/371472 [1:56:57<15:59:35,  3.61it/s] 44%|████▍     | 163675/371472 [1:56:57<15:54:05,  3.63it/s] 44%|████▍     | 163676/371472 [1:56:57<16:01:05,  3.60it/s] 44%|████▍     | 163677/371472 [1:56:58<16:22:59,  3.52it/s] 44%|████▍     | 163678/371472 [1:56:58<16:01:39,  3.60it/s] 44%|████▍     | 163679/371472 [1:56:58<16:43:21,  3.45it/s] 44%|████▍     | 163680/371472 [1:56:59<18:25:58,  3.13it/s]                                                            {'loss': 3.1116, 'learning_rate': 6.03708332435519e-07, 'epoch': 7.05}
 44%|████▍     | 163680/371472 [1:56:59<18:25:58,  3.13it/s] 44%|████▍     | 163681/371472 [1:56:59<17:44:11,  3.25it/s] 44%|████▍     | 163682/371472 [1:56:59<17:41:22,  3.26it/s] 44%|████▍     | 163683/371472 [1:57:00<17:11:32,  3.36it/s] 44%|████▍     | 163684/371472 [1:57:00<16:17:58,  3.54it/s] 44%|████▍     | 163685/371472 [1:57:00<16:28:38,  3.50it/s] 44%|████▍     | 163686/371472 [1:57:00<16:13:53,  3.56it/s] 44%|████▍     | 163687/371472 [1:57:01<16:00:52,  3.60it/s] 44%|████▍     | 163688/371472 [1:57:01<15:45:32,  3.66it/s] 44%|████▍     | 163689/371472 [1:57:01<15:27:26,  3.73it/s] 44%|████▍     | 163690/371472 [1:57:01<15:29:15,  3.73it/s] 44%|████▍     | 163691/371472 [1:57:02<15:18:16,  3.77it/s] 44%|████▍     | 163692/371472 [1:57:02<15:09:34,  3.81it/s] 44%|████▍     | 163693/371472 [1:57:02<15:23:22,  3.75it/s] 44%|████▍     | 163694/371472 [1:57:03<14:58:14,  3.86it/s] 44%|████▍     | 163695/371472 [1:57:03<15:34:41,  3.70it/s] 44%|████▍     | 163696/371472 [1:57:03<15:33:17,  3.71it/s] 44%|████▍     | 163697/371472 [1:57:03<15:58:48,  3.61it/s] 44%|████▍     | 163698/371472 [1:57:04<17:00:31,  3.39it/s] 44%|████▍     | 163699/371472 [1:57:04<16:21:30,  3.53it/s] 44%|████▍     | 163700/371472 [1:57:04<17:02:17,  3.39it/s]                                                            {'loss': 3.0014, 'learning_rate': 6.0365985046004e-07, 'epoch': 7.05}
 44%|████▍     | 163700/371472 [1:57:04<17:02:17,  3.39it/s] 44%|████▍     | 163701/371472 [1:57:05<16:37:18,  3.47it/s] 44%|████▍     | 163702/371472 [1:57:05<16:10:04,  3.57it/s] 44%|████▍     | 163703/371472 [1:57:05<15:45:43,  3.66it/s] 44%|████▍     | 163704/371472 [1:57:05<15:35:43,  3.70it/s] 44%|████▍     | 163705/371472 [1:57:06<15:35:26,  3.70it/s] 44%|████▍     | 163706/371472 [1:57:06<16:37:22,  3.47it/s] 44%|████▍     | 163707/371472 [1:57:06<16:33:47,  3.48it/s] 44%|████▍     | 163708/371472 [1:57:07<17:41:18,  3.26it/s] 44%|████▍     | 163709/371472 [1:57:07<17:52:45,  3.23it/s] 44%|████▍     | 163710/371472 [1:57:07<17:09:38,  3.36it/s] 44%|████▍     | 163711/371472 [1:57:07<17:12:44,  3.35it/s] 44%|████▍     | 163712/371472 [1:57:08<16:58:13,  3.40it/s] 44%|████▍     | 163713/371472 [1:57:08<16:58:02,  3.40it/s] 44%|████▍     | 163714/371472 [1:57:08<16:49:48,  3.43it/s] 44%|████▍     | 163715/371472 [1:57:09<16:06:55,  3.58it/s] 44%|████▍     | 163716/371472 [1:57:09<15:56:40,  3.62it/s] 44%|████▍     | 163717/371472 [1:57:09<15:33:53,  3.71it/s] 44%|████▍     | 163718/371472 [1:57:09<15:56:20,  3.62it/s] 44%|████▍     | 163719/371472 [1:57:10<16:30:42,  3.50it/s] 44%|████▍     | 163720/371472 [1:57:10<16:02:50,  3.60it/s]                                                            {'loss': 3.1149, 'learning_rate': 6.036113684845612e-07, 'epoch': 7.05}
 44%|████▍     | 163720/371472 [1:57:10<16:02:50,  3.60it/s] 44%|████▍     | 163721/371472 [1:57:10<16:28:30,  3.50it/s] 44%|████▍     | 163722/371472 [1:57:11<16:07:42,  3.58it/s] 44%|████▍     | 163723/371472 [1:57:11<15:58:03,  3.61it/s] 44%|████▍     | 163724/371472 [1:57:11<15:38:39,  3.69it/s] 44%|████▍     | 163725/371472 [1:57:11<15:36:02,  3.70it/s] 44%|████▍     | 163726/371472 [1:57:12<15:45:18,  3.66it/s] 44%|████▍     | 163727/371472 [1:57:12<17:26:51,  3.31it/s] 44%|████▍     | 163728/371472 [1:57:12<16:44:16,  3.45it/s] 44%|████▍     | 163729/371472 [1:57:13<16:35:11,  3.48it/s] 44%|████▍     | 163730/371472 [1:57:13<19:58:14,  2.89it/s] 44%|████▍     | 163731/371472 [1:57:13<19:42:32,  2.93it/s] 44%|████▍     | 163732/371472 [1:57:14<18:52:33,  3.06it/s] 44%|████▍     | 163733/371472 [1:57:14<18:08:54,  3.18it/s] 44%|████▍     | 163734/371472 [1:57:14<17:28:06,  3.30it/s] 44%|████▍     | 163735/371472 [1:57:14<16:55:03,  3.41it/s] 44%|████▍     | 163736/371472 [1:57:15<17:02:06,  3.39it/s] 44%|████▍     | 163737/371472 [1:57:15<16:47:37,  3.44it/s] 44%|████▍     | 163738/371472 [1:57:15<16:45:07,  3.44it/s] 44%|████▍     | 163739/371472 [1:57:16<16:24:53,  3.52it/s] 44%|████▍     | 163740/371472 [1:57:16<16:40:19,  3.46it/s]                                                            {'loss': 3.0734, 'learning_rate': 6.035628865090823e-07, 'epoch': 7.05}
 44%|████▍     | 163740/371472 [1:57:16<16:40:19,  3.46it/s] 44%|████▍     | 163741/371472 [1:57:16<16:43:27,  3.45it/s] 44%|████▍     | 163742/371472 [1:57:17<18:28:01,  3.12it/s] 44%|████▍     | 163743/371472 [1:57:17<18:19:59,  3.15it/s] 44%|████▍     | 163744/371472 [1:57:17<17:35:42,  3.28it/s] 44%|████▍     | 163745/371472 [1:57:17<17:03:15,  3.38it/s] 44%|████▍     | 163746/371472 [1:57:18<16:24:43,  3.52it/s] 44%|████▍     | 163747/371472 [1:57:18<15:55:39,  3.62it/s] 44%|████▍     | 163748/371472 [1:57:18<15:32:25,  3.71it/s] 44%|████▍     | 163749/371472 [1:57:18<15:34:29,  3.70it/s] 44%|████▍     | 163750/371472 [1:57:19<16:08:07,  3.58it/s] 44%|████▍     | 163751/371472 [1:57:19<16:03:12,  3.59it/s] 44%|████▍     | 163752/371472 [1:57:19<16:13:39,  3.56it/s] 44%|████▍     | 163753/371472 [1:57:20<15:41:17,  3.68it/s] 44%|████▍     | 163754/371472 [1:57:20<16:37:46,  3.47it/s] 44%|████▍     | 163755/371472 [1:57:20<16:48:20,  3.43it/s] 44%|████▍     | 163756/371472 [1:57:21<16:46:55,  3.44it/s] 44%|████▍     | 163757/371472 [1:57:21<16:44:27,  3.45it/s] 44%|████▍     | 163758/371472 [1:57:21<16:53:32,  3.42it/s] 44%|████▍     | 163759/371472 [1:57:21<17:34:32,  3.28it/s] 44%|████▍     | 163760/371472 [1:57:22<17:36:22,  3.28it/s]                                                            {'loss': 3.2269, 'learning_rate': 6.035144045336032e-07, 'epoch': 7.05}
 44%|████▍     | 163760/371472 [1:57:22<17:36:22,  3.28it/s] 44%|████▍     | 163761/371472 [1:57:22<17:18:05,  3.33it/s] 44%|████▍     | 163762/371472 [1:57:22<17:06:18,  3.37it/s] 44%|████▍     | 163763/371472 [1:57:23<16:54:00,  3.41it/s] 44%|████▍     | 163764/371472 [1:57:23<16:51:30,  3.42it/s] 44%|████▍     | 163765/371472 [1:57:23<16:02:42,  3.60it/s] 44%|████▍     | 163766/371472 [1:57:23<15:45:59,  3.66it/s] 44%|████▍     | 163767/371472 [1:57:24<16:07:36,  3.58it/s] 44%|████▍     | 163768/371472 [1:57:24<16:38:47,  3.47it/s] 44%|████▍     | 163769/371472 [1:57:24<17:17:01,  3.34it/s] 44%|████▍     | 163770/371472 [1:57:25<16:41:58,  3.45it/s] 44%|████▍     | 163771/371472 [1:57:25<16:06:14,  3.58it/s] 44%|████▍     | 163772/371472 [1:57:25<16:09:25,  3.57it/s] 44%|████▍     | 163773/371472 [1:57:25<15:56:09,  3.62it/s] 44%|████▍     | 163774/371472 [1:57:26<15:25:33,  3.74it/s] 44%|████▍     | 163775/371472 [1:57:26<15:54:20,  3.63it/s] 44%|████▍     | 163776/371472 [1:57:26<15:59:57,  3.61it/s] 44%|████▍     | 163777/371472 [1:57:27<16:14:29,  3.55it/s] 44%|████▍     | 163778/371472 [1:57:27<15:57:48,  3.61it/s] 44%|████▍     | 163779/371472 [1:57:27<16:12:57,  3.56it/s] 44%|████▍     | 163780/371472 [1:57:28<19:33:12,  2.95it/s]                                                            {'loss': 3.0874, 'learning_rate': 6.034659225581244e-07, 'epoch': 7.05}
 44%|████▍     | 163780/371472 [1:57:28<19:33:12,  2.95it/s] 44%|████▍     | 163781/371472 [1:57:28<18:55:20,  3.05it/s] 44%|████▍     | 163782/371472 [1:57:28<18:49:08,  3.07it/s] 44%|████▍     | 163783/371472 [1:57:29<19:23:37,  2.97it/s] 44%|████▍     | 163784/371472 [1:57:29<18:01:46,  3.20it/s] 44%|████▍     | 163785/371472 [1:57:29<17:59:41,  3.21it/s] 44%|████▍     | 163786/371472 [1:57:29<17:40:12,  3.26it/s] 44%|████▍     | 163787/371472 [1:57:30<16:55:33,  3.41it/s] 44%|████▍     | 163788/371472 [1:57:30<20:33:16,  2.81it/s] 44%|████▍     | 163789/371472 [1:57:30<19:45:13,  2.92it/s] 44%|████▍     | 163790/371472 [1:57:31<19:10:27,  3.01it/s] 44%|████▍     | 163791/371472 [1:57:31<18:03:42,  3.19it/s] 44%|████▍     | 163792/371472 [1:57:31<17:34:58,  3.28it/s] 44%|████▍     | 163793/371472 [1:57:32<17:29:30,  3.30it/s] 44%|████▍     | 163794/371472 [1:57:32<17:49:59,  3.23it/s] 44%|████▍     | 163795/371472 [1:57:32<18:24:29,  3.13it/s] 44%|████▍     | 163796/371472 [1:57:33<18:54:37,  3.05it/s] 44%|████▍     | 163797/371472 [1:57:33<17:41:30,  3.26it/s] 44%|████▍     | 163798/371472 [1:57:33<16:57:46,  3.40it/s] 44%|████▍     | 163799/371472 [1:57:33<16:27:28,  3.51it/s] 44%|████▍     | 163800/371472 [1:57:34<15:46:01,  3.66it/s]                                                            {'loss': 3.2211, 'learning_rate': 6.034174405826456e-07, 'epoch': 7.06}
 44%|████▍     | 163800/371472 [1:57:34<15:46:01,  3.66it/s] 44%|████▍     | 163801/371472 [1:57:34<15:57:08,  3.62it/s] 44%|████▍     | 163802/371472 [1:57:34<15:43:01,  3.67it/s] 44%|████▍     | 163803/371472 [1:57:35<16:42:30,  3.45it/s] 44%|████▍     | 163804/371472 [1:57:35<16:13:58,  3.55it/s] 44%|████▍     | 163805/371472 [1:57:35<15:51:39,  3.64it/s] 44%|████▍     | 163806/371472 [1:57:35<15:29:51,  3.72it/s] 44%|████▍     | 163807/371472 [1:57:36<15:32:39,  3.71it/s] 44%|████▍     | 163808/371472 [1:57:36<16:17:28,  3.54it/s] 44%|████▍     | 163809/371472 [1:57:36<16:13:15,  3.56it/s] 44%|████▍     | 163810/371472 [1:57:36<15:56:42,  3.62it/s] 44%|████▍     | 163811/371472 [1:57:37<16:10:01,  3.57it/s] 44%|████▍     | 163812/371472 [1:57:37<16:08:43,  3.57it/s] 44%|████▍     | 163813/371472 [1:57:37<15:48:11,  3.65it/s] 44%|████▍     | 163814/371472 [1:57:38<15:29:25,  3.72it/s] 44%|████▍     | 163815/371472 [1:57:38<15:56:01,  3.62it/s] 44%|████▍     | 163816/371472 [1:57:38<15:22:11,  3.75it/s] 44%|████▍     | 163817/371472 [1:57:38<15:57:22,  3.61it/s] 44%|████▍     | 163818/371472 [1:57:39<16:15:01,  3.55it/s] 44%|████▍     | 163819/371472 [1:57:39<15:46:38,  3.66it/s] 44%|████▍     | 163820/371472 [1:57:39<15:40:36,  3.68it/s]                                                            {'loss': 3.1365, 'learning_rate': 6.033689586071667e-07, 'epoch': 7.06}
 44%|████▍     | 163820/371472 [1:57:39<15:40:36,  3.68it/s] 44%|████▍     | 163821/371472 [1:57:40<16:29:17,  3.50it/s] 44%|████▍     | 163822/371472 [1:57:40<16:53:58,  3.41it/s] 44%|████▍     | 163823/371472 [1:57:40<16:17:40,  3.54it/s] 44%|████▍     | 163824/371472 [1:57:40<16:36:14,  3.47it/s] 44%|████▍     | 163825/371472 [1:57:41<15:50:11,  3.64it/s] 44%|████▍     | 163826/371472 [1:57:41<16:31:24,  3.49it/s] 44%|████▍     | 163827/371472 [1:57:41<16:21:37,  3.53it/s] 44%|████▍     | 163828/371472 [1:57:42<16:30:05,  3.50it/s] 44%|████▍     | 163829/371472 [1:57:42<17:00:05,  3.39it/s] 44%|████▍     | 163830/371472 [1:57:42<16:54:15,  3.41it/s] 44%|████▍     | 163831/371472 [1:57:42<16:14:41,  3.55it/s] 44%|████▍     | 163832/371472 [1:57:43<16:30:34,  3.49it/s] 44%|████▍     | 163833/371472 [1:57:43<16:32:35,  3.49it/s] 44%|████▍     | 163834/371472 [1:57:43<15:52:45,  3.63it/s] 44%|████▍     | 163835/371472 [1:57:43<16:15:44,  3.55it/s] 44%|████▍     | 163836/371472 [1:57:44<15:26:35,  3.73it/s] 44%|████▍     | 163837/371472 [1:57:44<16:10:29,  3.57it/s] 44%|████▍     | 163838/371472 [1:57:44<16:24:28,  3.52it/s] 44%|████▍     | 163839/371472 [1:57:45<16:58:00,  3.40it/s] 44%|████▍     | 163840/371472 [1:57:45<16:41:15,  3.46it/s]                                                            {'loss': 3.1247, 'learning_rate': 6.033204766316878e-07, 'epoch': 7.06}
 44%|████▍     | 163840/371472 [1:57:45<16:41:15,  3.46it/s] 44%|████▍     | 163841/371472 [1:57:45<16:27:43,  3.50it/s] 44%|████▍     | 163842/371472 [1:57:45<15:54:22,  3.63it/s] 44%|████▍     | 163843/371472 [1:57:46<16:16:44,  3.54it/s] 44%|████▍     | 163844/371472 [1:57:46<15:57:58,  3.61it/s] 44%|████▍     | 163845/371472 [1:57:46<16:14:23,  3.55it/s] 44%|████▍     | 163846/371472 [1:57:47<16:30:24,  3.49it/s] 44%|████▍     | 163847/371472 [1:57:47<16:25:53,  3.51it/s] 44%|████▍     | 163848/371472 [1:57:47<16:44:49,  3.44it/s] 44%|████▍     | 163849/371472 [1:57:47<16:18:49,  3.54it/s] 44%|████▍     | 163850/371472 [1:57:48<16:16:45,  3.54it/s] 44%|████▍     | 163851/371472 [1:57:48<16:09:54,  3.57it/s] 44%|████▍     | 163852/371472 [1:57:48<17:01:12,  3.39it/s] 44%|████▍     | 163853/371472 [1:57:49<16:47:17,  3.44it/s] 44%|████▍     | 163854/371472 [1:57:49<16:17:57,  3.54it/s] 44%|████▍     | 163855/371472 [1:57:49<16:21:17,  3.53it/s] 44%|████▍     | 163856/371472 [1:57:49<16:08:46,  3.57it/s] 44%|████▍     | 163857/371472 [1:57:50<16:39:59,  3.46it/s] 44%|████▍     | 163858/371472 [1:57:50<17:09:06,  3.36it/s] 44%|████▍     | 163859/371472 [1:57:50<17:56:19,  3.21it/s] 44%|████▍     | 163860/371472 [1:57:51<17:07:57,  3.37it/s]                                                            {'loss': 3.1518, 'learning_rate': 6.03271994656209e-07, 'epoch': 7.06}
 44%|████▍     | 163860/371472 [1:57:51<17:07:57,  3.37it/s] 44%|████▍     | 163861/371472 [1:57:51<16:41:41,  3.45it/s] 44%|████▍     | 163862/371472 [1:57:51<17:27:56,  3.30it/s] 44%|████▍     | 163863/371472 [1:57:52<16:36:48,  3.47it/s] 44%|████▍     | 163864/371472 [1:57:52<16:47:54,  3.43it/s] 44%|████▍     | 163865/371472 [1:57:52<17:09:58,  3.36it/s] 44%|████▍     | 163866/371472 [1:57:53<18:09:15,  3.18it/s] 44%|████▍     | 163867/371472 [1:57:53<17:20:30,  3.33it/s] 44%|████▍     | 163868/371472 [1:57:53<17:09:25,  3.36it/s] 44%|████▍     | 163869/371472 [1:57:53<16:57:39,  3.40it/s] 44%|████▍     | 163870/371472 [1:57:54<16:35:15,  3.48it/s] 44%|████▍     | 163871/371472 [1:57:54<17:36:47,  3.27it/s] 44%|████▍     | 163872/371472 [1:57:54<17:41:17,  3.26it/s] 44%|████▍     | 163873/371472 [1:57:55<18:08:00,  3.18it/s] 44%|████▍     | 163874/371472 [1:57:55<17:38:27,  3.27it/s] 44%|████▍     | 163875/371472 [1:57:55<17:05:33,  3.37it/s] 44%|████▍     | 163876/371472 [1:57:55<16:10:27,  3.57it/s] 44%|████▍     | 163877/371472 [1:57:56<16:38:15,  3.47it/s] 44%|████▍     | 163878/371472 [1:57:56<17:27:31,  3.30it/s] 44%|████▍     | 163879/371472 [1:57:56<17:14:10,  3.35it/s] 44%|████▍     | 163880/371472 [1:57:57<16:32:56,  3.48it/s]                                                            {'loss': 3.1423, 'learning_rate': 6.032235126807299e-07, 'epoch': 7.06}
 44%|████▍     | 163880/371472 [1:57:57<16:32:56,  3.48it/s] 44%|████▍     | 163881/371472 [1:57:57<16:24:35,  3.51it/s] 44%|████▍     | 163882/371472 [1:57:57<16:32:29,  3.49it/s] 44%|████▍     | 163883/371472 [1:57:57<16:22:15,  3.52it/s] 44%|████▍     | 163884/371472 [1:57:58<15:53:43,  3.63it/s] 44%|████▍     | 163885/371472 [1:57:58<16:08:33,  3.57it/s] 44%|████▍     | 163886/371472 [1:57:58<15:49:56,  3.64it/s] 44%|████▍     | 163887/371472 [1:57:59<15:55:26,  3.62it/s] 44%|████▍     | 163888/371472 [1:57:59<16:41:43,  3.45it/s] 44%|████▍     | 163889/371472 [1:57:59<15:55:04,  3.62it/s] 44%|████▍     | 163890/371472 [1:57:59<15:55:36,  3.62it/s] 44%|████▍     | 163891/371472 [1:58:00<15:28:55,  3.72it/s] 44%|████▍     | 163892/371472 [1:58:00<15:38:46,  3.69it/s] 44%|████▍     | 163893/371472 [1:58:00<15:26:14,  3.74it/s] 44%|████▍     | 163894/371472 [1:58:01<16:37:10,  3.47it/s] 44%|████▍     | 163895/371472 [1:58:01<15:56:16,  3.62it/s] 44%|████▍     | 163896/371472 [1:58:01<16:25:04,  3.51it/s] 44%|████▍     | 163897/371472 [1:58:01<16:09:51,  3.57it/s] 44%|████▍     | 163898/371472 [1:58:02<15:59:32,  3.61it/s] 44%|████▍     | 163899/371472 [1:58:02<15:16:06,  3.78it/s] 44%|████▍     | 163900/371472 [1:58:02<16:20:18,  3.53it/s]                                                            {'loss': 3.2127, 'learning_rate': 6.031750307052511e-07, 'epoch': 7.06}
 44%|████▍     | 163900/371472 [1:58:02<16:20:18,  3.53it/s] 44%|████▍     | 163901/371472 [1:58:02<15:54:42,  3.62it/s] 44%|████▍     | 163902/371472 [1:58:03<16:48:56,  3.43it/s] 44%|████▍     | 163903/371472 [1:58:03<16:04:16,  3.59it/s] 44%|████▍     | 163904/371472 [1:58:03<15:15:52,  3.78it/s] 44%|████▍     | 163905/371472 [1:58:04<15:27:47,  3.73it/s] 44%|████▍     | 163906/371472 [1:58:04<15:32:01,  3.71it/s] 44%|████▍     | 163907/371472 [1:58:04<15:04:26,  3.82it/s] 44%|████▍     | 163908/371472 [1:58:04<14:51:37,  3.88it/s] 44%|████▍     | 163909/371472 [1:58:05<14:43:04,  3.92it/s] 44%|████▍     | 163910/371472 [1:58:05<15:21:08,  3.76it/s] 44%|████▍     | 163911/371472 [1:58:05<15:06:42,  3.82it/s] 44%|████▍     | 163912/371472 [1:58:05<15:37:27,  3.69it/s] 44%|████▍     | 163913/371472 [1:58:06<15:25:03,  3.74it/s] 44%|████▍     | 163914/371472 [1:58:06<15:14:08,  3.78it/s] 44%|████▍     | 163915/371472 [1:58:06<15:57:31,  3.61it/s] 44%|████▍     | 163916/371472 [1:58:06<15:45:16,  3.66it/s] 44%|████▍     | 163917/371472 [1:58:07<15:42:14,  3.67it/s] 44%|████▍     | 163918/371472 [1:58:07<15:34:58,  3.70it/s] 44%|████▍     | 163919/371472 [1:58:07<15:52:02,  3.63it/s] 44%|████▍     | 163920/371472 [1:58:08<16:46:19,  3.44it/s]                                                            {'loss': 3.2419, 'learning_rate': 6.031265487297722e-07, 'epoch': 7.06}
 44%|████▍     | 163920/371472 [1:58:08<16:46:19,  3.44it/s] 44%|████▍     | 163921/371472 [1:58:08<16:16:09,  3.54it/s] 44%|████▍     | 163922/371472 [1:58:08<15:44:16,  3.66it/s] 44%|████▍     | 163923/371472 [1:58:08<15:34:58,  3.70it/s] 44%|████▍     | 163924/371472 [1:58:09<18:57:27,  3.04it/s] 44%|████▍     | 163925/371472 [1:58:09<17:34:36,  3.28it/s] 44%|████▍     | 163926/371472 [1:58:09<17:01:52,  3.39it/s] 44%|████▍     | 163927/371472 [1:58:10<16:24:02,  3.52it/s] 44%|████▍     | 163928/371472 [1:58:10<15:37:57,  3.69it/s] 44%|████▍     | 163929/371472 [1:58:10<17:02:35,  3.38it/s] 44%|████▍     | 163930/371472 [1:58:11<17:21:01,  3.32it/s] 44%|████▍     | 163931/371472 [1:58:11<17:35:05,  3.28it/s] 44%|████▍     | 163932/371472 [1:58:11<17:22:46,  3.32it/s] 44%|████▍     | 163933/371472 [1:58:11<16:58:28,  3.40it/s] 44%|████▍     | 163934/371472 [1:58:12<16:22:00,  3.52it/s] 44%|████▍     | 163935/371472 [1:58:12<16:25:50,  3.51it/s] 44%|████▍     | 163936/371472 [1:58:12<16:16:46,  3.54it/s] 44%|████▍     | 163937/371472 [1:58:13<16:32:53,  3.48it/s] 44%|████▍     | 163938/371472 [1:58:13<16:46:02,  3.44it/s] 44%|████▍     | 163939/371472 [1:58:13<16:52:35,  3.42it/s] 44%|████▍     | 163940/371472 [1:58:13<16:29:14,  3.50it/s]                                                            {'loss': 3.0538, 'learning_rate': 6.030780667542933e-07, 'epoch': 7.06}
 44%|████▍     | 163940/371472 [1:58:13<16:29:14,  3.50it/s] 44%|████▍     | 163941/371472 [1:58:14<16:29:19,  3.50it/s] 44%|████▍     | 163942/371472 [1:58:14<17:15:07,  3.34it/s] 44%|████▍     | 163943/371472 [1:58:14<17:01:32,  3.39it/s] 44%|████▍     | 163944/371472 [1:58:15<16:33:21,  3.48it/s] 44%|████▍     | 163945/371472 [1:58:15<16:54:27,  3.41it/s] 44%|████▍     | 163946/371472 [1:58:15<16:14:30,  3.55it/s] 44%|████▍     | 163947/371472 [1:58:15<15:59:00,  3.61it/s] 44%|████▍     | 163948/371472 [1:58:16<17:28:35,  3.30it/s] 44%|████▍     | 163949/371472 [1:58:16<17:53:04,  3.22it/s] 44%|████▍     | 163950/371472 [1:58:16<17:46:02,  3.24it/s] 44%|████▍     | 163951/371472 [1:58:17<17:11:44,  3.35it/s] 44%|████▍     | 163952/371472 [1:58:17<16:29:05,  3.50it/s] 44%|████▍     | 163953/371472 [1:58:17<15:58:28,  3.61it/s] 44%|████▍     | 163954/371472 [1:58:17<15:39:22,  3.68it/s] 44%|████▍     | 163955/371472 [1:58:18<16:38:04,  3.47it/s] 44%|████▍     | 163956/371472 [1:58:18<15:48:05,  3.65it/s] 44%|████▍     | 163957/371472 [1:58:18<15:50:57,  3.64it/s] 44%|████▍     | 163958/371472 [1:58:19<15:50:03,  3.64it/s] 44%|████▍     | 163959/371472 [1:58:19<16:15:55,  3.54it/s] 44%|████▍     | 163960/371472 [1:58:19<15:59:25,  3.60it/s]                                                            {'loss': 3.0194, 'learning_rate': 6.030295847788144e-07, 'epoch': 7.06}
 44%|████▍     | 163960/371472 [1:58:19<15:59:25,  3.60it/s] 44%|████▍     | 163961/371472 [1:58:19<16:37:11,  3.47it/s] 44%|████▍     | 163962/371472 [1:58:20<16:04:17,  3.59it/s] 44%|████▍     | 163963/371472 [1:58:20<16:34:50,  3.48it/s] 44%|████▍     | 163964/371472 [1:58:20<16:46:55,  3.43it/s] 44%|████▍     | 163965/371472 [1:58:21<16:36:22,  3.47it/s] 44%|████▍     | 163966/371472 [1:58:21<16:45:52,  3.44it/s] 44%|████▍     | 163967/371472 [1:58:21<16:47:58,  3.43it/s] 44%|████▍     | 163968/371472 [1:58:21<16:32:39,  3.48it/s] 44%|████▍     | 163969/371472 [1:58:22<15:51:24,  3.64it/s] 44%|████▍     | 163970/371472 [1:58:22<15:42:29,  3.67it/s] 44%|████▍     | 163971/371472 [1:58:22<15:16:48,  3.77it/s] 44%|████▍     | 163972/371472 [1:58:22<15:01:51,  3.83it/s] 44%|████▍     | 163973/371472 [1:58:23<15:51:34,  3.63it/s] 44%|████▍     | 163974/371472 [1:58:23<16:06:39,  3.58it/s] 44%|████▍     | 163975/371472 [1:58:23<17:23:27,  3.31it/s] 44%|████▍     | 163976/371472 [1:58:24<17:16:11,  3.34it/s] 44%|████▍     | 163977/371472 [1:58:24<17:25:22,  3.31it/s] 44%|████▍     | 163978/371472 [1:58:24<17:08:30,  3.36it/s] 44%|████▍     | 163979/371472 [1:58:25<16:29:35,  3.49it/s] 44%|████▍     | 163980/371472 [1:58:25<16:45:44,  3.44it/s]                                                            {'loss': 3.141, 'learning_rate': 6.029811028033356e-07, 'epoch': 7.06}
 44%|████▍     | 163980/371472 [1:58:25<16:45:44,  3.44it/s] 44%|████▍     | 163981/371472 [1:58:25<16:37:49,  3.47it/s] 44%|████▍     | 163982/371472 [1:58:25<16:11:23,  3.56it/s] 44%|████▍     | 163983/371472 [1:58:26<16:31:22,  3.49it/s] 44%|████▍     | 163984/371472 [1:58:26<15:55:17,  3.62it/s] 44%|████▍     | 163985/371472 [1:58:26<15:50:38,  3.64it/s] 44%|████▍     | 163986/371472 [1:58:27<16:21:24,  3.52it/s] 44%|████▍     | 163987/371472 [1:58:27<16:11:01,  3.56it/s] 44%|████▍     | 163988/371472 [1:58:27<15:41:21,  3.67it/s] 44%|████▍     | 163989/371472 [1:58:27<15:32:08,  3.71it/s] 44%|████▍     | 163990/371472 [1:58:28<16:07:05,  3.58it/s] 44%|████▍     | 163991/371472 [1:58:28<16:04:46,  3.58it/s] 44%|████▍     | 163992/371472 [1:58:28<15:40:07,  3.68it/s] 44%|████▍     | 163993/371472 [1:58:28<15:45:27,  3.66it/s] 44%|████▍     | 163994/371472 [1:58:29<15:57:17,  3.61it/s] 44%|████▍     | 163995/371472 [1:58:29<15:55:06,  3.62it/s] 44%|████▍     | 163996/371472 [1:58:29<16:01:32,  3.60it/s] 44%|████▍     | 163997/371472 [1:58:30<15:42:39,  3.67it/s] 44%|████▍     | 163998/371472 [1:58:30<17:32:23,  3.29it/s] 44%|████▍     | 163999/371472 [1:58:30<16:52:42,  3.41it/s] 44%|████▍     | 164000/371472 [1:58:30<16:18:10,  3.54it/s]                                                            {'loss': 3.0846, 'learning_rate': 6.029326208278567e-07, 'epoch': 7.06}
 44%|████▍     | 164000/371472 [1:58:30<16:18:10,  3.54it/s] 44%|████▍     | 164001/371472 [1:58:31<17:15:52,  3.34it/s] 44%|████▍     | 164002/371472 [1:58:31<18:03:36,  3.19it/s] 44%|████▍     | 164003/371472 [1:58:31<16:58:04,  3.40it/s] 44%|████▍     | 164004/371472 [1:58:32<16:32:34,  3.48it/s] 44%|████▍     | 164005/371472 [1:58:32<18:33:21,  3.11it/s] 44%|████▍     | 164006/371472 [1:58:32<17:52:49,  3.22it/s] 44%|████▍     | 164007/371472 [1:58:33<17:04:52,  3.37it/s] 44%|████▍     | 164008/371472 [1:58:33<16:31:57,  3.49it/s] 44%|████▍     | 164009/371472 [1:58:33<16:22:57,  3.52it/s] 44%|████▍     | 164010/371472 [1:58:33<16:32:54,  3.48it/s] 44%|████▍     | 164011/371472 [1:58:34<16:20:19,  3.53it/s] 44%|████▍     | 164012/371472 [1:58:34<16:04:39,  3.58it/s] 44%|████▍     | 164013/371472 [1:58:34<16:12:40,  3.55it/s] 44%|████▍     | 164014/371472 [1:58:35<17:25:38,  3.31it/s] 44%|████▍     | 164015/371472 [1:58:35<18:17:20,  3.15it/s] 44%|████▍     | 164016/371472 [1:58:35<17:29:42,  3.29it/s] 44%|████▍     | 164017/371472 [1:58:36<18:27:14,  3.12it/s] 44%|████▍     | 164018/371472 [1:58:36<17:20:57,  3.32it/s] 44%|████▍     | 164019/371472 [1:58:36<16:55:23,  3.41it/s] 44%|████▍     | 164020/371472 [1:58:36<17:10:28,  3.36it/s]                                                            {'loss': 3.0923, 'learning_rate': 6.028841388523777e-07, 'epoch': 7.06}
 44%|████▍     | 164020/371472 [1:58:36<17:10:28,  3.36it/s] 44%|████▍     | 164021/371472 [1:58:37<16:36:57,  3.47it/s] 44%|████▍     | 164022/371472 [1:58:37<16:38:53,  3.46it/s] 44%|████▍     | 164023/371472 [1:58:37<16:03:53,  3.59it/s] 44%|████▍     | 164024/371472 [1:58:38<15:28:41,  3.72it/s] 44%|████▍     | 164025/371472 [1:58:38<15:08:25,  3.81it/s] 44%|████▍     | 164026/371472 [1:58:38<15:34:11,  3.70it/s] 44%|████▍     | 164027/371472 [1:58:38<15:14:57,  3.78it/s] 44%|████▍     | 164028/371472 [1:58:39<15:26:10,  3.73it/s] 44%|████▍     | 164029/371472 [1:58:39<14:55:07,  3.86it/s] 44%|████▍     | 164030/371472 [1:58:39<14:51:01,  3.88it/s] 44%|████▍     | 164031/371472 [1:58:39<15:08:28,  3.81it/s] 44%|████▍     | 164032/371472 [1:58:40<15:47:52,  3.65it/s] 44%|████▍     | 164033/371472 [1:58:40<16:40:10,  3.46it/s] 44%|████▍     | 164034/371472 [1:58:40<16:25:24,  3.51it/s] 44%|████▍     | 164035/371472 [1:58:41<16:09:36,  3.57it/s] 44%|████▍     | 164036/371472 [1:58:41<15:45:41,  3.66it/s] 44%|████▍     | 164037/371472 [1:58:41<15:16:59,  3.77it/s] 44%|████▍     | 164038/371472 [1:58:41<15:11:47,  3.79it/s] 44%|████▍     | 164039/371472 [1:58:42<15:09:47,  3.80it/s] 44%|████▍     | 164040/371472 [1:58:42<15:01:37,  3.83it/s]                                                            {'loss': 3.2023, 'learning_rate': 6.028356568768988e-07, 'epoch': 7.07}
 44%|████▍     | 164040/371472 [1:58:42<15:01:37,  3.83it/s] 44%|████▍     | 164041/371472 [1:58:42<15:41:54,  3.67it/s] 44%|████▍     | 164042/371472 [1:58:42<16:15:03,  3.55it/s] 44%|████▍     | 164043/371472 [1:58:43<16:58:35,  3.39it/s] 44%|████▍     | 164044/371472 [1:58:43<16:15:26,  3.54it/s] 44%|████▍     | 164045/371472 [1:58:43<17:08:48,  3.36it/s] 44%|████▍     | 164046/371472 [1:58:44<18:56:14,  3.04it/s] 44%|████▍     | 164047/371472 [1:58:44<18:08:57,  3.17it/s] 44%|████▍     | 164048/371472 [1:58:44<17:30:54,  3.29it/s] 44%|████▍     | 164049/371472 [1:58:45<17:14:23,  3.34it/s] 44%|████▍     | 164050/371472 [1:58:45<16:19:45,  3.53it/s] 44%|████▍     | 164051/371472 [1:58:45<16:01:39,  3.59it/s] 44%|████▍     | 164052/371472 [1:58:45<16:53:34,  3.41it/s] 44%|████▍     | 164053/371472 [1:58:46<16:37:08,  3.47it/s] 44%|████▍     | 164054/371472 [1:58:46<16:12:34,  3.55it/s] 44%|████▍     | 164055/371472 [1:58:46<16:35:47,  3.47it/s] 44%|████▍     | 164056/371472 [1:58:47<16:14:40,  3.55it/s] 44%|████▍     | 164057/371472 [1:58:47<16:52:10,  3.42it/s] 44%|████▍     | 164058/371472 [1:58:47<16:18:28,  3.53it/s] 44%|████▍     | 164059/371472 [1:58:47<17:55:01,  3.22it/s] 44%|████▍     | 164060/371472 [1:58:48<17:16:26,  3.34it/s]                                                            {'loss': 3.3047, 'learning_rate': 6.0278717490142e-07, 'epoch': 7.07}
 44%|████▍     | 164060/371472 [1:58:48<17:16:26,  3.34it/s] 44%|████▍     | 164061/371472 [1:58:48<16:46:13,  3.44it/s] 44%|████▍     | 164062/371472 [1:58:48<16:21:38,  3.52it/s] 44%|████▍     | 164063/371472 [1:58:49<16:28:55,  3.50it/s] 44%|████▍     | 164064/371472 [1:58:49<15:44:32,  3.66it/s] 44%|████▍     | 164065/371472 [1:58:49<15:37:50,  3.69it/s] 44%|████▍     | 164066/371472 [1:58:49<16:12:49,  3.55it/s] 44%|████▍     | 164067/371472 [1:58:50<16:12:50,  3.55it/s] 44%|████▍     | 164068/371472 [1:58:50<16:03:25,  3.59it/s] 44%|████▍     | 164069/371472 [1:58:50<16:06:46,  3.58it/s] 44%|████▍     | 164070/371472 [1:58:50<15:57:43,  3.61it/s] 44%|████▍     | 164071/371472 [1:58:51<15:49:28,  3.64it/s] 44%|████▍     | 164072/371472 [1:58:51<15:59:22,  3.60it/s] 44%|████▍     | 164073/371472 [1:58:51<16:35:35,  3.47it/s] 44%|████▍     | 164074/371472 [1:58:52<16:37:48,  3.46it/s] 44%|████▍     | 164075/371472 [1:58:52<15:48:13,  3.65it/s] 44%|████▍     | 164076/371472 [1:58:52<15:44:58,  3.66it/s] 44%|████▍     | 164077/371472 [1:58:53<17:12:26,  3.35it/s] 44%|████▍     | 164078/371472 [1:58:53<16:43:07,  3.45it/s] 44%|████▍     | 164079/371472 [1:58:53<16:43:53,  3.44it/s] 44%|████▍     | 164080/371472 [1:58:53<16:29:53,  3.49it/s]                                                            {'loss': 3.3832, 'learning_rate': 6.027386929259411e-07, 'epoch': 7.07}
 44%|████▍     | 164080/371472 [1:58:53<16:29:53,  3.49it/s] 44%|████▍     | 164081/371472 [1:58:54<16:20:34,  3.53it/s] 44%|████▍     | 164082/371472 [1:58:54<16:13:56,  3.55it/s] 44%|████▍     | 164083/371472 [1:58:54<15:52:34,  3.63it/s] 44%|████▍     | 164084/371472 [1:58:54<15:50:10,  3.64it/s] 44%|████▍     | 164085/371472 [1:58:55<16:43:57,  3.44it/s] 44%|████▍     | 164086/371472 [1:58:55<17:07:03,  3.37it/s] 44%|████▍     | 164087/371472 [1:58:55<16:34:51,  3.47it/s] 44%|████▍     | 164088/371472 [1:58:56<16:55:02,  3.41it/s] 44%|████▍     | 164089/371472 [1:58:56<16:27:59,  3.50it/s] 44%|████▍     | 164090/371472 [1:58:56<16:21:48,  3.52it/s] 44%|████▍     | 164091/371472 [1:58:56<15:55:00,  3.62it/s] 44%|████▍     | 164092/371472 [1:58:57<16:15:45,  3.54it/s] 44%|████▍     | 164093/371472 [1:58:57<15:46:49,  3.65it/s] 44%|████▍     | 164094/371472 [1:58:57<15:50:19,  3.64it/s] 44%|████▍     | 164095/371472 [1:58:58<16:36:47,  3.47it/s] 44%|████▍     | 164096/371472 [1:58:58<15:56:20,  3.61it/s] 44%|████▍     | 164097/371472 [1:58:58<15:29:20,  3.72it/s] 44%|████▍     | 164098/371472 [1:58:58<16:06:00,  3.58it/s] 44%|████▍     | 164099/371472 [1:58:59<16:26:34,  3.50it/s] 44%|████▍     | 164100/371472 [1:58:59<17:04:13,  3.37it/s]                                                            {'loss': 3.1534, 'learning_rate': 6.026902109504622e-07, 'epoch': 7.07}
 44%|████▍     | 164100/371472 [1:58:59<17:04:13,  3.37it/s] 44%|████▍     | 164101/371472 [1:58:59<16:10:01,  3.56it/s] 44%|████▍     | 164102/371472 [1:59:00<16:10:30,  3.56it/s] 44%|████▍     | 164103/371472 [1:59:00<16:09:32,  3.56it/s] 44%|████▍     | 164104/371472 [1:59:00<16:12:53,  3.55it/s] 44%|████▍     | 164105/371472 [1:59:00<16:27:05,  3.50it/s] 44%|████▍     | 164106/371472 [1:59:01<16:13:38,  3.55it/s] 44%|████▍     | 164107/371472 [1:59:01<16:14:05,  3.55it/s] 44%|████▍     | 164108/371472 [1:59:01<16:59:10,  3.39it/s] 44%|████▍     | 164109/371472 [1:59:02<16:28:10,  3.50it/s] 44%|████▍     | 164110/371472 [1:59:02<16:26:17,  3.50it/s] 44%|████▍     | 164111/371472 [1:59:02<16:18:35,  3.53it/s] 44%|████▍     | 164112/371472 [1:59:02<16:00:17,  3.60it/s] 44%|████▍     | 164113/371472 [1:59:03<16:06:33,  3.58it/s] 44%|████▍     | 164114/371472 [1:59:03<15:42:24,  3.67it/s] 44%|████▍     | 164115/371472 [1:59:03<15:36:26,  3.69it/s] 44%|████▍     | 164116/371472 [1:59:03<16:02:11,  3.59it/s] 44%|████▍     | 164117/371472 [1:59:04<15:54:15,  3.62it/s] 44%|████▍     | 164118/371472 [1:59:04<15:46:40,  3.65it/s] 44%|████▍     | 164119/371472 [1:59:04<16:00:57,  3.60it/s] 44%|████▍     | 164120/371472 [1:59:05<15:56:02,  3.61it/s]                                                            {'loss': 3.129, 'learning_rate': 6.026417289749833e-07, 'epoch': 7.07}
 44%|████▍     | 164120/371472 [1:59:05<15:56:02,  3.61it/s] 44%|████▍     | 164121/371472 [1:59:05<15:44:36,  3.66it/s] 44%|████▍     | 164122/371472 [1:59:05<15:31:17,  3.71it/s] 44%|████▍     | 164123/371472 [1:59:05<15:25:31,  3.73it/s] 44%|████▍     | 164124/371472 [1:59:06<15:16:40,  3.77it/s] 44%|████▍     | 164125/371472 [1:59:06<16:31:22,  3.49it/s] 44%|████▍     | 164126/371472 [1:59:06<16:54:08,  3.41it/s] 44%|████▍     | 164127/371472 [1:59:07<16:32:57,  3.48it/s] 44%|████▍     | 164128/371472 [1:59:07<16:39:32,  3.46it/s] 44%|████▍     | 164129/371472 [1:59:07<16:13:43,  3.55it/s] 44%|████▍     | 164130/371472 [1:59:07<16:45:43,  3.44it/s] 44%|████▍     | 164131/371472 [1:59:08<17:41:25,  3.26it/s] 44%|████▍     | 164132/371472 [1:59:08<16:51:43,  3.42it/s] 44%|████▍     | 164133/371472 [1:59:08<16:17:02,  3.54it/s] 44%|████▍     | 164134/371472 [1:59:09<16:07:02,  3.57it/s] 44%|████▍     | 164135/371472 [1:59:09<17:04:00,  3.37it/s] 44%|████▍     | 164136/371472 [1:59:09<16:47:37,  3.43it/s] 44%|████▍     | 164137/371472 [1:59:09<16:09:08,  3.57it/s] 44%|████▍     | 164138/371472 [1:59:10<15:42:10,  3.67it/s] 44%|████▍     | 164139/371472 [1:59:10<15:39:45,  3.68it/s] 44%|████▍     | 164140/371472 [1:59:10<15:34:55,  3.70it/s]                                                            {'loss': 3.1729, 'learning_rate': 6.025932469995044e-07, 'epoch': 7.07}
 44%|████▍     | 164140/371472 [1:59:10<15:34:55,  3.70it/s] 44%|████▍     | 164141/371472 [1:59:11<16:03:51,  3.59it/s] 44%|████▍     | 164142/371472 [1:59:11<15:46:24,  3.65it/s] 44%|████▍     | 164143/371472 [1:59:11<15:48:02,  3.64it/s] 44%|████▍     | 164144/371472 [1:59:11<15:33:58,  3.70it/s] 44%|████▍     | 164145/371472 [1:59:12<15:38:39,  3.68it/s] 44%|████▍     | 164146/371472 [1:59:12<17:45:54,  3.24it/s] 44%|████▍     | 164147/371472 [1:59:12<16:58:40,  3.39it/s] 44%|████▍     | 164148/371472 [1:59:13<16:13:24,  3.55it/s] 44%|████▍     | 164149/371472 [1:59:13<16:06:01,  3.58it/s] 44%|████▍     | 164150/371472 [1:59:13<15:52:58,  3.63it/s] 44%|████▍     | 164151/371472 [1:59:13<15:32:32,  3.71it/s] 44%|████▍     | 164152/371472 [1:59:14<15:15:17,  3.78it/s] 44%|████▍     | 164153/371472 [1:59:14<16:34:00,  3.48it/s] 44%|████▍     | 164154/371472 [1:59:14<16:08:10,  3.57it/s] 44%|████▍     | 164155/371472 [1:59:14<16:31:08,  3.49it/s] 44%|████▍     | 164156/371472 [1:59:15<15:57:52,  3.61it/s] 44%|████▍     | 164157/371472 [1:59:15<15:39:28,  3.68it/s] 44%|████▍     | 164158/371472 [1:59:15<15:21:42,  3.75it/s] 44%|████▍     | 164159/371472 [1:59:16<15:23:46,  3.74it/s] 44%|████▍     | 164160/371472 [1:59:16<16:01:38,  3.59it/s]                                                            {'loss': 3.2474, 'learning_rate': 6.025447650240255e-07, 'epoch': 7.07}
 44%|████▍     | 164160/371472 [1:59:16<16:01:38,  3.59it/s] 44%|████▍     | 164161/371472 [1:59:16<19:42:45,  2.92it/s] 44%|████▍     | 164162/371472 [1:59:17<18:23:09,  3.13it/s] 44%|████▍     | 164163/371472 [1:59:17<17:41:38,  3.25it/s] 44%|████▍     | 164164/371472 [1:59:17<16:53:47,  3.41it/s] 44%|████▍     | 164165/371472 [1:59:17<16:39:58,  3.46it/s] 44%|████▍     | 164166/371472 [1:59:18<16:05:55,  3.58it/s] 44%|████▍     | 164167/371472 [1:59:18<15:41:05,  3.67it/s] 44%|████▍     | 164168/371472 [1:59:18<15:50:29,  3.64it/s] 44%|████▍     | 164169/371472 [1:59:18<15:39:15,  3.68it/s] 44%|████▍     | 164170/371472 [1:59:19<16:47:05,  3.43it/s] 44%|████▍     | 164171/371472 [1:59:19<16:19:24,  3.53it/s] 44%|████▍     | 164172/371472 [1:59:19<15:53:29,  3.62it/s] 44%|████▍     | 164173/371472 [1:59:20<15:33:10,  3.70it/s] 44%|████▍     | 164174/371472 [1:59:20<15:41:18,  3.67it/s] 44%|████▍     | 164175/371472 [1:59:20<15:28:43,  3.72it/s] 44%|████▍     | 164176/371472 [1:59:20<15:40:15,  3.67it/s] 44%|████▍     | 164177/371472 [1:59:21<15:16:43,  3.77it/s] 44%|████▍     | 164178/371472 [1:59:21<15:24:09,  3.74it/s] 44%|████▍     | 164179/371472 [1:59:21<15:49:50,  3.64it/s] 44%|████▍     | 164180/371472 [1:59:21<16:13:21,  3.55it/s]                                                            {'loss': 3.0846, 'learning_rate': 6.024962830485465e-07, 'epoch': 7.07}
 44%|████▍     | 164180/371472 [1:59:21<16:13:21,  3.55it/s] 44%|████▍     | 164181/371472 [1:59:22<18:53:07,  3.05it/s] 44%|████▍     | 164182/371472 [1:59:22<17:36:32,  3.27it/s] 44%|████▍     | 164183/371472 [1:59:22<17:37:22,  3.27it/s] 44%|████▍     | 164184/371472 [1:59:23<20:06:01,  2.86it/s] 44%|████▍     | 164185/371472 [1:59:23<18:32:03,  3.11it/s] 44%|████▍     | 164186/371472 [1:59:23<17:44:51,  3.24it/s] 44%|████▍     | 164187/371472 [1:59:24<16:31:35,  3.48it/s] 44%|████▍     | 164188/371472 [1:59:24<16:51:10,  3.42it/s] 44%|████▍     | 164189/371472 [1:59:24<16:36:55,  3.47it/s] 44%|████▍     | 164190/371472 [1:59:25<16:07:32,  3.57it/s] 44%|████▍     | 164191/371472 [1:59:25<15:51:16,  3.63it/s] 44%|████▍     | 164192/371472 [1:59:25<15:36:27,  3.69it/s] 44%|████▍     | 164193/371472 [1:59:25<17:54:51,  3.21it/s] 44%|████▍     | 164194/371472 [1:59:26<17:59:59,  3.20it/s] 44%|████▍     | 164195/371472 [1:59:26<17:24:57,  3.31it/s] 44%|████▍     | 164196/371472 [1:59:26<17:21:13,  3.32it/s] 44%|████▍     | 164197/371472 [1:59:27<18:36:11,  3.09it/s] 44%|████▍     | 164198/371472 [1:59:27<18:11:01,  3.17it/s] 44%|████▍     | 164199/371472 [1:59:27<17:57:08,  3.21it/s] 44%|████▍     | 164200/371472 [1:59:28<17:38:23,  3.26it/s]                                                            {'loss': 3.2082, 'learning_rate': 6.024478010730677e-07, 'epoch': 7.07}
 44%|████▍     | 164200/371472 [1:59:28<17:38:23,  3.26it/s] 44%|████▍     | 164201/371472 [1:59:28<17:22:12,  3.31it/s] 44%|████▍     | 164202/371472 [1:59:28<16:43:49,  3.44it/s] 44%|████▍     | 164203/371472 [1:59:28<16:26:07,  3.50it/s] 44%|████▍     | 164204/371472 [1:59:29<16:22:11,  3.52it/s] 44%|████▍     | 164205/371472 [1:59:29<16:12:34,  3.55it/s] 44%|████▍     | 164206/371472 [1:59:29<16:17:21,  3.53it/s] 44%|████▍     | 164207/371472 [1:59:30<16:14:10,  3.55it/s] 44%|████▍     | 164208/371472 [1:59:30<16:41:10,  3.45it/s] 44%|████▍     | 164209/371472 [1:59:30<16:00:30,  3.60it/s] 44%|████▍     | 164210/371472 [1:59:30<15:36:02,  3.69it/s] 44%|████▍     | 164211/371472 [1:59:31<15:24:12,  3.74it/s] 44%|████▍     | 164212/371472 [1:59:31<16:10:52,  3.56it/s] 44%|████▍     | 164213/371472 [1:59:31<15:43:46,  3.66it/s] 44%|████▍     | 164214/371472 [1:59:32<15:56:34,  3.61it/s] 44%|████▍     | 164215/371472 [1:59:32<15:35:54,  3.69it/s] 44%|████▍     | 164216/371472 [1:59:32<16:14:44,  3.54it/s] 44%|████▍     | 164217/371472 [1:59:32<15:51:56,  3.63it/s] 44%|████▍     | 164218/371472 [1:59:33<16:11:52,  3.55it/s] 44%|████▍     | 164219/371472 [1:59:33<16:01:55,  3.59it/s] 44%|████▍     | 164220/371472 [1:59:33<17:03:49,  3.37it/s]                                                            {'loss': 3.2248, 'learning_rate': 6.023993190975889e-07, 'epoch': 7.07}
 44%|████▍     | 164220/371472 [1:59:33<17:03:49,  3.37it/s] 44%|████▍     | 164221/371472 [1:59:34<16:19:21,  3.53it/s] 44%|████▍     | 164222/371472 [1:59:34<16:41:53,  3.45it/s] 44%|████▍     | 164223/371472 [1:59:34<16:02:13,  3.59it/s] 44%|████▍     | 164224/371472 [1:59:34<17:16:57,  3.33it/s] 44%|████▍     | 164225/371472 [1:59:35<16:49:00,  3.42it/s] 44%|████▍     | 164226/371472 [1:59:35<16:07:20,  3.57it/s] 44%|████▍     | 164227/371472 [1:59:35<15:50:36,  3.63it/s] 44%|████▍     | 164228/371472 [1:59:35<15:41:45,  3.67it/s] 44%|████▍     | 164229/371472 [1:59:36<15:36:04,  3.69it/s] 44%|████▍     | 164230/371472 [1:59:36<15:49:18,  3.64it/s] 44%|████▍     | 164231/371472 [1:59:36<15:18:55,  3.76it/s] 44%|████▍     | 164232/371472 [1:59:37<16:02:43,  3.59it/s] 44%|████▍     | 164233/371472 [1:59:37<15:59:24,  3.60it/s] 44%|████▍     | 164234/371472 [1:59:37<15:44:01,  3.66it/s] 44%|████▍     | 164235/371472 [1:59:37<15:41:20,  3.67it/s] 44%|████▍     | 164236/371472 [1:59:38<15:55:15,  3.62it/s] 44%|████▍     | 164237/371472 [1:59:38<16:03:47,  3.58it/s] 44%|████▍     | 164238/371472 [1:59:38<16:13:20,  3.55it/s] 44%|████▍     | 164239/371472 [1:59:39<16:00:01,  3.60it/s] 44%|████▍     | 164240/371472 [1:59:39<16:24:59,  3.51it/s]                                                            {'loss': 3.0299, 'learning_rate': 6.023508371221099e-07, 'epoch': 7.07}
 44%|████▍     | 164240/371472 [1:59:39<16:24:59,  3.51it/s] 44%|████▍     | 164241/371472 [1:59:39<16:39:39,  3.46it/s] 44%|████▍     | 164242/371472 [1:59:39<16:49:43,  3.42it/s] 44%|████▍     | 164243/371472 [1:59:40<16:22:45,  3.51it/s] 44%|████▍     | 164244/371472 [1:59:40<15:38:46,  3.68it/s] 44%|████▍     | 164245/371472 [1:59:40<16:00:23,  3.60it/s] 44%|████▍     | 164246/371472 [1:59:41<16:07:26,  3.57it/s] 44%|████▍     | 164247/371472 [1:59:41<16:11:58,  3.55it/s] 44%|████▍     | 164248/371472 [1:59:41<16:27:27,  3.50it/s] 44%|████▍     | 164249/371472 [1:59:41<15:45:17,  3.65it/s] 44%|████▍     | 164250/371472 [1:59:42<15:19:33,  3.76it/s] 44%|████▍     | 164251/371472 [1:59:42<16:23:47,  3.51it/s] 44%|████▍     | 164252/371472 [1:59:42<16:27:34,  3.50it/s] 44%|████▍     | 164253/371472 [1:59:42<16:17:14,  3.53it/s] 44%|████▍     | 164254/371472 [1:59:43<15:41:21,  3.67it/s] 44%|████▍     | 164255/371472 [1:59:43<16:53:28,  3.41it/s] 44%|████▍     | 164256/371472 [1:59:43<17:39:45,  3.26it/s] 44%|████▍     | 164257/371472 [1:59:44<19:01:23,  3.03it/s] 44%|████▍     | 164258/371472 [1:59:44<18:10:46,  3.17it/s] 44%|████▍     | 164259/371472 [1:59:44<17:36:06,  3.27it/s] 44%|████▍     | 164260/371472 [1:59:45<16:56:07,  3.40it/s]                                                            {'loss': 2.9688, 'learning_rate': 6.02302355146631e-07, 'epoch': 7.07}
 44%|████▍     | 164260/371472 [1:59:45<16:56:07,  3.40it/s] 44%|████▍     | 164261/371472 [1:59:45<16:35:55,  3.47it/s] 44%|████▍     | 164262/371472 [1:59:45<16:09:05,  3.56it/s] 44%|████▍     | 164263/371472 [1:59:45<16:05:36,  3.58it/s] 44%|████▍     | 164264/371472 [1:59:46<15:37:43,  3.68it/s] 44%|████▍     | 164265/371472 [1:59:46<16:23:11,  3.51it/s] 44%|████▍     | 164266/371472 [1:59:46<16:38:46,  3.46it/s] 44%|████▍     | 164267/371472 [1:59:47<17:03:15,  3.37it/s] 44%|████▍     | 164268/371472 [1:59:47<17:10:20,  3.35it/s] 44%|████▍     | 164269/371472 [1:59:47<17:26:33,  3.30it/s] 44%|████▍     | 164270/371472 [1:59:48<17:38:59,  3.26it/s] 44%|████▍     | 164271/371472 [1:59:48<18:45:25,  3.07it/s] 44%|████▍     | 164272/371472 [1:59:48<17:55:27,  3.21it/s] 44%|████▍     | 164273/371472 [1:59:48<16:54:32,  3.40it/s] 44%|████▍     | 164274/371472 [1:59:49<16:37:22,  3.46it/s] 44%|████▍     | 164275/371472 [1:59:49<16:42:05,  3.45it/s] 44%|████▍     | 164276/371472 [1:59:49<16:28:58,  3.49it/s] 44%|████▍     | 164277/371472 [1:59:50<16:45:56,  3.43it/s] 44%|████▍     | 164278/371472 [1:59:50<16:24:09,  3.51it/s] 44%|████▍     | 164279/371472 [1:59:50<15:48:01,  3.64it/s] 44%|████▍     | 164280/371472 [1:59:50<15:55:01,  3.62it/s]                                                            {'loss': 3.1263, 'learning_rate': 6.022538731711522e-07, 'epoch': 7.08}
 44%|████▍     | 164280/371472 [1:59:50<15:55:01,  3.62it/s] 44%|████▍     | 164281/371472 [1:59:51<17:04:39,  3.37it/s] 44%|████▍     | 164282/371472 [1:59:51<16:55:28,  3.40it/s] 44%|████▍     | 164283/371472 [1:59:51<16:20:44,  3.52it/s] 44%|████▍     | 164284/371472 [1:59:52<15:46:12,  3.65it/s] 44%|████▍     | 164285/371472 [1:59:52<15:36:05,  3.69it/s] 44%|████▍     | 164286/371472 [1:59:52<15:28:32,  3.72it/s] 44%|████▍     | 164287/371472 [1:59:52<16:03:45,  3.58it/s] 44%|████▍     | 164288/371472 [1:59:53<16:10:16,  3.56it/s] 44%|████▍     | 164289/371472 [1:59:53<15:56:48,  3.61it/s] 44%|████▍     | 164290/371472 [1:59:53<15:56:40,  3.61it/s] 44%|████▍     | 164291/371472 [1:59:54<16:40:00,  3.45it/s] 44%|████▍     | 164292/371472 [1:59:54<16:44:49,  3.44it/s] 44%|████▍     | 164293/371472 [1:59:54<15:57:43,  3.61it/s] 44%|████▍     | 164294/371472 [1:59:54<15:33:07,  3.70it/s] 44%|████▍     | 164295/371472 [1:59:55<17:30:46,  3.29it/s] 44%|████▍     | 164296/371472 [1:59:55<16:48:39,  3.42it/s] 44%|████▍     | 164297/371472 [1:59:55<17:41:32,  3.25it/s] 44%|████▍     | 164298/371472 [1:59:56<17:07:49,  3.36it/s] 44%|████▍     | 164299/371472 [1:59:56<16:45:01,  3.44it/s] 44%|████▍     | 164300/371472 [1:59:56<16:15:09,  3.54it/s]                                                            {'loss': 3.1458, 'learning_rate': 6.022053911956732e-07, 'epoch': 7.08}
 44%|████▍     | 164300/371472 [1:59:56<16:15:09,  3.54it/s] 44%|████▍     | 164301/371472 [1:59:56<16:15:54,  3.54it/s] 44%|████▍     | 164302/371472 [1:59:57<17:10:26,  3.35it/s] 44%|████▍     | 164303/371472 [1:59:57<18:31:03,  3.11it/s] 44%|████▍     | 164304/371472 [1:59:57<17:30:35,  3.29it/s] 44%|████▍     | 164305/371472 [1:59:58<17:19:51,  3.32it/s] 44%|████▍     | 164306/371472 [1:59:58<16:12:34,  3.55it/s] 44%|████▍     | 164307/371472 [1:59:58<16:15:55,  3.54it/s] 44%|████▍     | 164308/371472 [1:59:59<16:47:56,  3.43it/s] 44%|████▍     | 164309/371472 [1:59:59<16:28:03,  3.49it/s] 44%|████▍     | 164310/371472 [1:59:59<17:52:34,  3.22it/s] 44%|████▍     | 164311/371472 [1:59:59<17:44:40,  3.24it/s] 44%|████▍     | 164312/371472 [2:00:00<19:12:07,  3.00it/s] 44%|████▍     | 164313/371472 [2:00:00<18:26:27,  3.12it/s] 44%|████▍     | 164314/371472 [2:00:00<17:35:23,  3.27it/s] 44%|████▍     | 164315/371472 [2:00:01<16:42:27,  3.44it/s] 44%|████▍     | 164316/371472 [2:00:01<16:23:57,  3.51it/s] 44%|████▍     | 164317/371472 [2:00:01<16:45:29,  3.43it/s] 44%|████▍     | 164318/371472 [2:00:02<16:32:58,  3.48it/s] 44%|████▍     | 164319/371472 [2:00:02<16:42:41,  3.44it/s] 44%|████▍     | 164320/371472 [2:00:02<16:19:24,  3.53it/s]                                                            {'loss': 3.0335, 'learning_rate': 6.021569092201943e-07, 'epoch': 7.08}
 44%|████▍     | 164320/371472 [2:00:02<16:19:24,  3.53it/s] 44%|████▍     | 164321/371472 [2:00:02<15:52:06,  3.63it/s] 44%|████▍     | 164322/371472 [2:00:03<15:26:13,  3.73it/s] 44%|████▍     | 164323/371472 [2:00:03<15:21:18,  3.75it/s] 44%|████▍     | 164324/371472 [2:00:03<16:06:49,  3.57it/s] 44%|████▍     | 164325/371472 [2:00:03<15:54:40,  3.62it/s] 44%|████▍     | 164326/371472 [2:00:04<15:37:50,  3.68it/s] 44%|████▍     | 164327/371472 [2:00:04<16:43:52,  3.44it/s] 44%|████▍     | 164328/371472 [2:00:04<16:43:36,  3.44it/s] 44%|████▍     | 164329/371472 [2:00:05<16:19:19,  3.53it/s] 44%|████▍     | 164330/371472 [2:00:05<15:43:59,  3.66it/s] 44%|████▍     | 164331/371472 [2:00:05<15:53:57,  3.62it/s] 44%|████▍     | 164332/371472 [2:00:05<15:30:37,  3.71it/s] 44%|████▍     | 164333/371472 [2:00:06<16:09:53,  3.56it/s] 44%|████▍     | 164334/371472 [2:00:06<15:59:09,  3.60it/s] 44%|████▍     | 164335/371472 [2:00:06<15:19:33,  3.75it/s] 44%|████▍     | 164336/371472 [2:00:07<16:09:59,  3.56it/s] 44%|████▍     | 164337/371472 [2:00:07<16:26:26,  3.50it/s] 44%|████▍     | 164338/371472 [2:00:07<16:21:16,  3.52it/s] 44%|████▍     | 164339/371472 [2:00:07<16:25:55,  3.50it/s] 44%|████▍     | 164340/371472 [2:00:08<16:21:38,  3.52it/s]                                                            {'loss': 3.2349, 'learning_rate': 6.021084272447154e-07, 'epoch': 7.08}
 44%|████▍     | 164340/371472 [2:00:08<16:21:38,  3.52it/s] 44%|████▍     | 164341/371472 [2:00:08<15:57:48,  3.60it/s] 44%|████▍     | 164342/371472 [2:00:08<16:22:01,  3.52it/s] 44%|████▍     | 164343/371472 [2:00:09<17:42:01,  3.25it/s] 44%|████▍     | 164344/371472 [2:00:09<17:02:25,  3.38it/s] 44%|████▍     | 164345/371472 [2:00:09<16:39:57,  3.45it/s] 44%|████▍     | 164346/371472 [2:00:09<17:28:04,  3.29it/s] 44%|████▍     | 164347/371472 [2:00:10<17:27:11,  3.30it/s] 44%|████▍     | 164348/371472 [2:00:10<16:32:37,  3.48it/s] 44%|████▍     | 164349/371472 [2:00:10<16:01:00,  3.59it/s] 44%|████▍     | 164350/371472 [2:00:11<16:28:39,  3.49it/s] 44%|████▍     | 164351/371472 [2:00:11<16:04:17,  3.58it/s] 44%|████▍     | 164352/371472 [2:00:11<15:52:00,  3.63it/s] 44%|████▍     | 164353/371472 [2:00:11<16:12:38,  3.55it/s] 44%|████▍     | 164354/371472 [2:00:12<16:06:41,  3.57it/s] 44%|████▍     | 164355/371472 [2:00:12<16:11:56,  3.55it/s] 44%|████▍     | 164356/371472 [2:00:12<15:51:44,  3.63it/s] 44%|████▍     | 164357/371472 [2:00:12<15:49:37,  3.64it/s] 44%|████▍     | 164358/371472 [2:00:13<15:33:51,  3.70it/s] 44%|████▍     | 164359/371472 [2:00:13<15:53:41,  3.62it/s] 44%|████▍     | 164360/371472 [2:00:13<17:09:36,  3.35it/s]                                                            {'loss': 3.2279, 'learning_rate': 6.020599452692366e-07, 'epoch': 7.08}
 44%|████▍     | 164360/371472 [2:00:13<17:09:36,  3.35it/s] 44%|████▍     | 164361/371472 [2:00:14<16:47:16,  3.43it/s] 44%|████▍     | 164362/371472 [2:00:14<16:23:41,  3.51it/s] 44%|████▍     | 164363/371472 [2:00:14<15:48:40,  3.64it/s] 44%|████▍     | 164364/371472 [2:00:14<15:32:29,  3.70it/s] 44%|████▍     | 164365/371472 [2:00:15<15:54:37,  3.62it/s] 44%|████▍     | 164366/371472 [2:00:15<15:47:14,  3.64it/s] 44%|████▍     | 164367/371472 [2:00:15<15:47:18,  3.64it/s] 44%|████▍     | 164368/371472 [2:00:16<15:38:39,  3.68it/s] 44%|████▍     | 164369/371472 [2:00:16<17:09:46,  3.35it/s] 44%|████▍     | 164370/371472 [2:00:16<17:12:49,  3.34it/s] 44%|████▍     | 164371/371472 [2:00:16<16:53:51,  3.40it/s] 44%|████▍     | 164372/371472 [2:00:17<16:56:03,  3.40it/s] 44%|████▍     | 164373/371472 [2:00:17<16:10:17,  3.56it/s] 44%|████▍     | 164374/371472 [2:00:17<16:00:55,  3.59it/s] 44%|████▍     | 164375/371472 [2:00:18<15:38:09,  3.68it/s] 44%|████▍     | 164376/371472 [2:00:18<15:36:11,  3.69it/s] 44%|████▍     | 164377/371472 [2:00:18<15:50:04,  3.63it/s] 44%|████▍     | 164378/371472 [2:00:18<15:31:17,  3.71it/s] 44%|████▍     | 164379/371472 [2:00:19<15:41:22,  3.67it/s] 44%|████▍     | 164380/371472 [2:00:19<15:15:45,  3.77it/s]                                                            {'loss': 3.158, 'learning_rate': 6.020114632937577e-07, 'epoch': 7.08}
 44%|████▍     | 164380/371472 [2:00:19<15:15:45,  3.77it/s] 44%|████▍     | 164381/371472 [2:00:19<15:21:28,  3.75it/s] 44%|████▍     | 164382/371472 [2:00:19<15:06:54,  3.81it/s] 44%|████▍     | 164383/371472 [2:00:20<16:20:08,  3.52it/s] 44%|████▍     | 164384/371472 [2:00:20<15:41:35,  3.67it/s] 44%|████▍     | 164385/371472 [2:00:20<15:49:20,  3.64it/s] 44%|████▍     | 164386/371472 [2:00:21<15:35:00,  3.69it/s] 44%|████▍     | 164387/371472 [2:00:21<15:40:36,  3.67it/s] 44%|████▍     | 164388/371472 [2:00:21<15:54:58,  3.61it/s] 44%|████▍     | 164389/371472 [2:00:21<15:59:40,  3.60it/s] 44%|████▍     | 164390/371472 [2:00:22<15:50:03,  3.63it/s] 44%|████▍     | 164391/371472 [2:00:22<15:37:27,  3.68it/s] 44%|████▍     | 164392/371472 [2:00:22<15:48:28,  3.64it/s] 44%|████▍     | 164393/371472 [2:00:22<15:54:14,  3.62it/s] 44%|████▍     | 164394/371472 [2:00:23<15:55:54,  3.61it/s] 44%|████▍     | 164395/371472 [2:00:23<16:56:01,  3.40it/s] 44%|████▍     | 164396/371472 [2:00:23<16:47:13,  3.43it/s] 44%|████▍     | 164397/371472 [2:00:24<17:04:53,  3.37it/s] 44%|████▍     | 164398/371472 [2:00:24<16:33:09,  3.48it/s] 44%|████▍     | 164399/371472 [2:00:24<17:09:26,  3.35it/s] 44%|████▍     | 164400/371472 [2:00:25<16:35:53,  3.47it/s]                                                            {'loss': 3.1093, 'learning_rate': 6.019629813182787e-07, 'epoch': 7.08}
 44%|████▍     | 164400/371472 [2:00:25<16:35:53,  3.47it/s] 44%|████▍     | 164401/371472 [2:00:25<16:40:48,  3.45it/s] 44%|████▍     | 164402/371472 [2:00:25<17:55:58,  3.21it/s] 44%|████▍     | 164403/371472 [2:00:25<17:18:09,  3.32it/s] 44%|████▍     | 164404/371472 [2:00:26<16:37:50,  3.46it/s] 44%|████▍     | 164405/371472 [2:00:26<16:22:32,  3.51it/s] 44%|████▍     | 164406/371472 [2:00:26<16:10:29,  3.56it/s] 44%|████▍     | 164407/371472 [2:00:27<15:44:26,  3.65it/s] 44%|████▍     | 164408/371472 [2:00:27<15:40:37,  3.67it/s] 44%|████▍     | 164409/371472 [2:00:27<15:41:56,  3.66it/s] 44%|████▍     | 164410/371472 [2:00:27<15:46:52,  3.64it/s] 44%|████▍     | 164411/371472 [2:00:28<15:31:53,  3.70it/s] 44%|████▍     | 164412/371472 [2:00:28<15:42:25,  3.66it/s] 44%|████▍     | 164413/371472 [2:00:28<16:55:22,  3.40it/s] 44%|████▍     | 164414/371472 [2:00:29<16:20:54,  3.52it/s] 44%|████▍     | 164415/371472 [2:00:29<16:18:52,  3.53it/s] 44%|████▍     | 164416/371472 [2:00:29<17:05:02,  3.37it/s] 44%|████▍     | 164417/371472 [2:00:29<16:58:46,  3.39it/s] 44%|████▍     | 164418/371472 [2:00:30<16:27:39,  3.49it/s] 44%|████▍     | 164419/371472 [2:00:30<16:47:33,  3.43it/s] 44%|████▍     | 164420/371472 [2:00:30<17:02:23,  3.38it/s]                                                            {'loss': 3.1507, 'learning_rate': 6.019144993427998e-07, 'epoch': 7.08}
 44%|████▍     | 164420/371472 [2:00:30<17:02:23,  3.38it/s] 44%|████▍     | 164421/371472 [2:00:31<17:08:41,  3.35it/s] 44%|████▍     | 164422/371472 [2:00:31<17:06:20,  3.36it/s] 44%|████▍     | 164423/371472 [2:00:31<17:12:00,  3.34it/s] 44%|████▍     | 164424/371472 [2:00:32<17:21:45,  3.31it/s] 44%|████▍     | 164425/371472 [2:00:32<16:34:52,  3.47it/s] 44%|████▍     | 164426/371472 [2:00:32<18:13:39,  3.16it/s] 44%|████▍     | 164427/371472 [2:00:32<18:38:59,  3.08it/s] 44%|████▍     | 164428/371472 [2:00:33<17:55:04,  3.21it/s] 44%|████▍     | 164429/371472 [2:00:33<17:18:20,  3.32it/s] 44%|████▍     | 164430/371472 [2:00:33<16:52:07,  3.41it/s] 44%|████▍     | 164431/371472 [2:00:34<17:00:55,  3.38it/s] 44%|████▍     | 164432/371472 [2:00:34<16:20:09,  3.52it/s] 44%|████▍     | 164433/371472 [2:00:34<16:39:30,  3.45it/s] 44%|████▍     | 164434/371472 [2:00:34<15:45:42,  3.65it/s] 44%|████▍     | 164435/371472 [2:00:35<16:28:17,  3.49it/s] 44%|████▍     | 164436/371472 [2:00:35<16:26:19,  3.50it/s] 44%|████▍     | 164437/371472 [2:00:35<17:07:41,  3.36it/s] 44%|████▍     | 164438/371472 [2:00:36<16:42:41,  3.44it/s] 44%|████▍     | 164439/371472 [2:00:36<16:16:49,  3.53it/s] 44%|████▍     | 164440/371472 [2:00:36<16:11:45,  3.55it/s]                                                            {'loss': 3.1787, 'learning_rate': 6.01866017367321e-07, 'epoch': 7.08}
 44%|████▍     | 164440/371472 [2:00:36<16:11:45,  3.55it/s] 44%|████▍     | 164441/371472 [2:00:36<16:18:19,  3.53it/s] 44%|████▍     | 164442/371472 [2:00:37<15:54:04,  3.62it/s] 44%|████▍     | 164443/371472 [2:00:37<15:43:47,  3.66it/s] 44%|████▍     | 164444/371472 [2:00:37<15:42:20,  3.66it/s] 44%|████▍     | 164445/371472 [2:00:38<15:46:30,  3.65it/s] 44%|████▍     | 164446/371472 [2:00:38<16:39:18,  3.45it/s] 44%|████▍     | 164447/371472 [2:00:38<16:23:54,  3.51it/s] 44%|████▍     | 164448/371472 [2:00:38<15:52:01,  3.62it/s] 44%|████▍     | 164449/371472 [2:00:39<15:26:49,  3.72it/s] 44%|████▍     | 164450/371472 [2:00:39<15:02:23,  3.82it/s] 44%|████▍     | 164451/371472 [2:00:39<14:56:40,  3.85it/s] 44%|████▍     | 164452/371472 [2:00:39<16:40:21,  3.45it/s] 44%|████▍     | 164453/371472 [2:00:40<15:48:31,  3.64it/s] 44%|████▍     | 164454/371472 [2:00:40<15:31:27,  3.70it/s] 44%|████▍     | 164455/371472 [2:00:40<16:05:57,  3.57it/s] 44%|████▍     | 164456/371472 [2:00:41<15:45:31,  3.65it/s] 44%|████▍     | 164457/371472 [2:00:41<15:16:33,  3.76it/s] 44%|████▍     | 164458/371472 [2:00:41<17:04:10,  3.37it/s] 44%|████▍     | 164459/371472 [2:00:41<16:25:28,  3.50it/s] 44%|████▍     | 164460/371472 [2:00:42<15:54:09,  3.62it/s]                                                            {'loss': 3.1954, 'learning_rate': 6.018175353918421e-07, 'epoch': 7.08}
 44%|████▍     | 164460/371472 [2:00:42<15:54:09,  3.62it/s] 44%|████▍     | 164461/371472 [2:00:42<17:01:13,  3.38it/s] 44%|████▍     | 164462/371472 [2:00:42<16:42:08,  3.44it/s] 44%|████▍     | 164463/371472 [2:00:43<16:23:54,  3.51it/s] 44%|████▍     | 164464/371472 [2:00:43<17:06:28,  3.36it/s] 44%|████▍     | 164465/371472 [2:00:43<16:55:31,  3.40it/s] 44%|████▍     | 164466/371472 [2:00:43<16:56:52,  3.39it/s] 44%|████▍     | 164467/371472 [2:00:44<17:10:09,  3.35it/s] 44%|████▍     | 164468/371472 [2:00:44<17:28:07,  3.29it/s] 44%|████▍     | 164469/371472 [2:00:44<17:13:31,  3.34it/s] 44%|████▍     | 164470/371472 [2:00:45<16:45:10,  3.43it/s] 44%|████▍     | 164471/371472 [2:00:45<16:31:03,  3.48it/s] 44%|████▍     | 164472/371472 [2:00:45<16:08:29,  3.56it/s] 44%|████▍     | 164473/371472 [2:00:46<17:52:48,  3.22it/s] 44%|████▍     | 164474/371472 [2:00:46<17:16:01,  3.33it/s] 44%|████▍     | 164475/371472 [2:00:46<18:10:23,  3.16it/s] 44%|████▍     | 164476/371472 [2:00:47<18:33:03,  3.10it/s] 44%|████▍     | 164477/371472 [2:00:47<17:51:04,  3.22it/s] 44%|████▍     | 164478/371472 [2:00:47<18:12:00,  3.16it/s] 44%|████▍     | 164479/371472 [2:00:47<18:01:16,  3.19it/s] 44%|████▍     | 164480/371472 [2:00:48<17:40:06,  3.25it/s]                                                            {'loss': 2.9947, 'learning_rate': 6.017690534163631e-07, 'epoch': 7.08}
 44%|████▍     | 164480/371472 [2:00:48<17:40:06,  3.25it/s] 44%|████▍     | 164481/371472 [2:00:48<17:24:07,  3.30it/s] 44%|████▍     | 164482/371472 [2:00:48<17:17:30,  3.33it/s] 44%|████▍     | 164483/371472 [2:00:49<17:51:23,  3.22it/s] 44%|████▍     | 164484/371472 [2:00:49<16:38:12,  3.46it/s] 44%|████▍     | 164485/371472 [2:00:49<16:29:38,  3.49it/s] 44%|████▍     | 164486/371472 [2:00:49<16:16:56,  3.53it/s] 44%|████▍     | 164487/371472 [2:00:50<16:24:08,  3.51it/s] 44%|████▍     | 164488/371472 [2:00:50<17:30:53,  3.28it/s] 44%|████▍     | 164489/371472 [2:00:50<17:04:31,  3.37it/s] 44%|████▍     | 164490/371472 [2:00:51<16:26:55,  3.50it/s] 44%|████▍     | 164491/371472 [2:00:51<16:25:42,  3.50it/s] 44%|████▍     | 164492/371472 [2:00:51<15:56:59,  3.60it/s] 44%|████▍     | 164493/371472 [2:00:52<17:09:00,  3.35it/s] 44%|████▍     | 164494/371472 [2:00:52<16:09:40,  3.56it/s] 44%|████▍     | 164495/371472 [2:00:52<16:51:22,  3.41it/s] 44%|████▍     | 164496/371472 [2:00:52<15:52:10,  3.62it/s] 44%|████▍     | 164497/371472 [2:00:53<16:34:16,  3.47it/s] 44%|████▍     | 164498/371472 [2:00:53<16:31:30,  3.48it/s] 44%|████▍     | 164499/371472 [2:00:53<16:00:15,  3.59it/s] 44%|████▍     | 164500/371472 [2:00:53<16:02:00,  3.59it/s]                                                            {'loss': 3.1347, 'learning_rate': 6.017205714408843e-07, 'epoch': 7.09}
 44%|████▍     | 164500/371472 [2:00:53<16:02:00,  3.59it/s] 44%|████▍     | 164501/371472 [2:00:54<16:13:39,  3.54it/s] 44%|████▍     | 164502/371472 [2:00:54<15:48:01,  3.64it/s] 44%|████▍     | 164503/371472 [2:00:54<15:31:21,  3.70it/s] 44%|████▍     | 164504/371472 [2:00:55<15:30:00,  3.71it/s] 44%|████▍     | 164505/371472 [2:00:55<16:50:03,  3.42it/s] 44%|████▍     | 164506/371472 [2:00:55<16:20:00,  3.52it/s] 44%|████▍     | 164507/371472 [2:00:55<16:08:27,  3.56it/s] 44%|████▍     | 164508/371472 [2:00:56<15:55:31,  3.61it/s] 44%|████▍     | 164509/371472 [2:00:56<16:15:25,  3.54it/s] 44%|████▍     | 164510/371472 [2:00:56<16:01:39,  3.59it/s] 44%|████▍     | 164511/371472 [2:00:57<17:53:33,  3.21it/s] 44%|████▍     | 164512/371472 [2:00:57<17:33:16,  3.27it/s] 44%|████▍     | 164513/371472 [2:00:57<18:27:39,  3.11it/s] 44%|████▍     | 164514/371472 [2:00:58<19:48:36,  2.90it/s] 44%|████▍     | 164515/371472 [2:00:58<18:15:45,  3.15it/s] 44%|████▍     | 164516/371472 [2:00:58<17:26:30,  3.30it/s] 44%|████▍     | 164517/371472 [2:00:59<16:32:47,  3.47it/s] 44%|████▍     | 164518/371472 [2:00:59<15:58:57,  3.60it/s] 44%|████▍     | 164519/371472 [2:00:59<16:09:21,  3.56it/s] 44%|████▍     | 164520/371472 [2:00:59<18:41:46,  3.07it/s]                                                            {'loss': 3.0712, 'learning_rate': 6.016720894654054e-07, 'epoch': 7.09}
 44%|████▍     | 164520/371472 [2:00:59<18:41:46,  3.07it/s] 44%|████▍     | 164521/371472 [2:01:00<19:03:20,  3.02it/s] 44%|████▍     | 164522/371472 [2:01:00<18:15:13,  3.15it/s] 44%|████▍     | 164523/371472 [2:01:00<18:35:48,  3.09it/s] 44%|████▍     | 164524/371472 [2:01:01<19:21:57,  2.97it/s] 44%|████▍     | 164525/371472 [2:01:01<18:06:19,  3.18it/s] 44%|████▍     | 164526/371472 [2:01:01<17:59:55,  3.19it/s] 44%|████▍     | 164527/371472 [2:01:02<16:48:12,  3.42it/s] 44%|████▍     | 164528/371472 [2:01:02<17:18:39,  3.32it/s] 44%|████▍     | 164529/371472 [2:01:02<17:22:36,  3.31it/s] 44%|████▍     | 164530/371472 [2:01:03<17:24:00,  3.30it/s] 44%|████▍     | 164531/371472 [2:01:03<18:20:37,  3.13it/s] 44%|████▍     | 164532/371472 [2:01:03<17:14:56,  3.33it/s] 44%|████▍     | 164533/371472 [2:01:03<16:53:55,  3.40it/s] 44%|████▍     | 164534/371472 [2:01:04<16:37:48,  3.46it/s] 44%|████▍     | 164535/371472 [2:01:04<16:18:50,  3.52it/s] 44%|████▍     | 164536/371472 [2:01:04<16:27:19,  3.49it/s] 44%|████▍     | 164537/371472 [2:01:05<18:00:31,  3.19it/s] 44%|████▍     | 164538/371472 [2:01:05<17:22:55,  3.31it/s] 44%|████▍     | 164539/371472 [2:01:05<16:33:53,  3.47it/s] 44%|████▍     | 164540/371472 [2:01:06<16:59:30,  3.38it/s]                                                            {'loss': 2.9713, 'learning_rate': 6.016236074899265e-07, 'epoch': 7.09}
 44%|████▍     | 164540/371472 [2:01:06<16:59:30,  3.38it/s] 44%|████▍     | 164541/371472 [2:01:06<16:21:25,  3.51it/s] 44%|████▍     | 164542/371472 [2:01:06<16:03:36,  3.58it/s] 44%|████▍     | 164543/371472 [2:01:06<16:17:31,  3.53it/s] 44%|████▍     | 164544/371472 [2:01:07<17:22:49,  3.31it/s] 44%|████▍     | 164545/371472 [2:01:07<17:03:30,  3.37it/s] 44%|████▍     | 164546/371472 [2:01:07<17:14:06,  3.34it/s] 44%|████▍     | 164547/371472 [2:01:08<17:32:22,  3.28it/s] 44%|████▍     | 164548/371472 [2:01:08<16:46:10,  3.43it/s] 44%|████▍     | 164549/371472 [2:01:08<16:45:50,  3.43it/s] 44%|████▍     | 164550/371472 [2:01:08<16:47:07,  3.42it/s] 44%|████▍     | 164551/371472 [2:01:09<16:37:24,  3.46it/s] 44%|████▍     | 164552/371472 [2:01:09<15:48:03,  3.64it/s] 44%|████▍     | 164553/371472 [2:01:09<16:23:08,  3.51it/s] 44%|████▍     | 164554/371472 [2:01:10<16:01:37,  3.59it/s] 44%|████▍     | 164555/371472 [2:01:10<16:07:15,  3.57it/s] 44%|████▍     | 164556/371472 [2:01:10<16:09:29,  3.56it/s] 44%|████▍     | 164557/371472 [2:01:10<15:56:49,  3.60it/s] 44%|████▍     | 164558/371472 [2:01:11<16:40:07,  3.45it/s] 44%|████▍     | 164559/371472 [2:01:11<16:55:44,  3.40it/s] 44%|████▍     | 164560/371472 [2:01:11<16:30:54,  3.48it/s]                                                            {'loss': 3.2161, 'learning_rate': 6.015751255144475e-07, 'epoch': 7.09}
 44%|████▍     | 164560/371472 [2:01:11<16:30:54,  3.48it/s] 44%|████▍     | 164561/371472 [2:01:12<16:24:31,  3.50it/s] 44%|████▍     | 164562/371472 [2:01:12<16:16:39,  3.53it/s] 44%|████▍     | 164563/371472 [2:01:12<16:21:08,  3.51it/s] 44%|████▍     | 164564/371472 [2:01:12<17:15:21,  3.33it/s] 44%|████▍     | 164565/371472 [2:01:13<16:26:40,  3.50it/s] 44%|████▍     | 164566/371472 [2:01:13<16:18:39,  3.52it/s] 44%|████▍     | 164567/371472 [2:01:13<16:50:54,  3.41it/s] 44%|████▍     | 164568/371472 [2:01:14<16:38:59,  3.45it/s] 44%|████▍     | 164569/371472 [2:01:14<16:08:02,  3.56it/s] 44%|████▍     | 164570/371472 [2:01:14<15:58:17,  3.60it/s] 44%|████▍     | 164571/371472 [2:01:14<15:19:03,  3.75it/s] 44%|████▍     | 164572/371472 [2:01:15<16:31:49,  3.48it/s] 44%|████▍     | 164573/371472 [2:01:15<16:27:50,  3.49it/s] 44%|████▍     | 164574/371472 [2:01:15<17:42:38,  3.25it/s] 44%|████▍     | 164575/371472 [2:01:16<17:25:38,  3.30it/s] 44%|████▍     | 164576/371472 [2:01:16<16:40:41,  3.45it/s] 44%|████▍     | 164577/371472 [2:01:16<17:27:25,  3.29it/s] 44%|████▍     | 164578/371472 [2:01:16<16:45:15,  3.43it/s] 44%|████▍     | 164579/371472 [2:01:17<16:11:32,  3.55it/s] 44%|████▍     | 164580/371472 [2:01:17<16:05:59,  3.57it/s]                                                            {'loss': 3.0924, 'learning_rate': 6.015266435389687e-07, 'epoch': 7.09}
 44%|████▍     | 164580/371472 [2:01:17<16:05:59,  3.57it/s] 44%|████▍     | 164581/371472 [2:01:17<15:59:03,  3.60it/s] 44%|████▍     | 164582/371472 [2:01:18<15:50:38,  3.63it/s] 44%|████▍     | 164583/371472 [2:01:18<15:37:06,  3.68it/s] 44%|████▍     | 164584/371472 [2:01:18<15:05:49,  3.81it/s] 44%|████▍     | 164585/371472 [2:01:18<14:52:42,  3.86it/s] 44%|████▍     | 164586/371472 [2:01:19<15:06:14,  3.80it/s] 44%|████▍     | 164587/371472 [2:01:19<15:16:12,  3.76it/s] 44%|████▍     | 164588/371472 [2:01:19<15:40:54,  3.66it/s] 44%|████▍     | 164589/371472 [2:01:19<15:04:46,  3.81it/s] 44%|████▍     | 164590/371472 [2:01:20<15:04:52,  3.81it/s] 44%|████▍     | 164591/371472 [2:01:20<14:45:39,  3.89it/s] 44%|████▍     | 164592/371472 [2:01:20<15:15:20,  3.77it/s] 44%|████▍     | 164593/371472 [2:01:20<15:22:40,  3.74it/s] 44%|████▍     | 164594/371472 [2:01:21<15:20:54,  3.74it/s] 44%|████▍     | 164595/371472 [2:01:21<15:22:15,  3.74it/s] 44%|████▍     | 164596/371472 [2:01:21<15:29:31,  3.71it/s] 44%|████▍     | 164597/371472 [2:01:22<16:00:39,  3.59it/s] 44%|████▍     | 164598/371472 [2:01:22<17:06:23,  3.36it/s] 44%|████▍     | 164599/371472 [2:01:23<23:10:58,  2.48it/s] 44%|████▍     | 164600/371472 [2:01:23<21:04:29,  2.73it/s]                                                            {'loss': 3.0447, 'learning_rate': 6.014781615634899e-07, 'epoch': 7.09}
 44%|████▍     | 164600/371472 [2:01:23<21:04:29,  2.73it/s] 44%|████▍     | 164601/371472 [2:01:23<19:35:17,  2.93it/s] 44%|████▍     | 164602/371472 [2:01:23<20:22:49,  2.82it/s] 44%|████▍     | 164603/371472 [2:01:24<19:29:02,  2.95it/s] 44%|████▍     | 164604/371472 [2:01:24<18:10:41,  3.16it/s] 44%|████▍     | 164605/371472 [2:01:24<17:23:46,  3.30it/s] 44%|████▍     | 164606/371472 [2:01:25<17:06:08,  3.36it/s] 44%|████▍     | 164607/371472 [2:01:25<16:30:51,  3.48it/s] 44%|████▍     | 164608/371472 [2:01:25<16:22:55,  3.51it/s] 44%|████▍     | 164609/371472 [2:01:25<15:55:16,  3.61it/s] 44%|████▍     | 164610/371472 [2:01:26<16:13:53,  3.54it/s] 44%|████▍     | 164611/371472 [2:01:26<16:52:43,  3.40it/s] 44%|████▍     | 164612/371472 [2:01:26<16:32:19,  3.47it/s] 44%|████▍     | 164613/371472 [2:01:27<16:00:52,  3.59it/s] 44%|████▍     | 164614/371472 [2:01:27<16:03:02,  3.58it/s] 44%|████▍     | 164615/371472 [2:01:27<16:12:07,  3.55it/s] 44%|████▍     | 164616/371472 [2:01:27<15:55:39,  3.61it/s] 44%|████▍     | 164617/371472 [2:01:28<15:43:42,  3.65it/s] 44%|████▍     | 164618/371472 [2:01:28<15:38:13,  3.67it/s] 44%|████▍     | 164619/371472 [2:01:28<15:25:15,  3.73it/s] 44%|████▍     | 164620/371472 [2:01:28<15:24:50,  3.73it/s]                                                            {'loss': 3.0416, 'learning_rate': 6.01429679588011e-07, 'epoch': 7.09}
 44%|████▍     | 164620/371472 [2:01:28<15:24:50,  3.73it/s] 44%|████▍     | 164621/371472 [2:01:29<15:07:41,  3.80it/s] 44%|████▍     | 164622/371472 [2:01:29<14:50:08,  3.87it/s] 44%|████▍     | 164623/371472 [2:01:29<15:22:58,  3.74it/s] 44%|████▍     | 164624/371472 [2:01:30<15:30:22,  3.71it/s] 44%|████▍     | 164625/371472 [2:01:30<15:15:15,  3.77it/s] 44%|████▍     | 164626/371472 [2:01:30<14:59:41,  3.83it/s] 44%|████▍     | 164627/371472 [2:01:30<15:22:12,  3.74it/s] 44%|████▍     | 164628/371472 [2:01:31<15:10:55,  3.78it/s] 44%|████▍     | 164629/371472 [2:01:31<15:02:55,  3.82it/s] 44%|████▍     | 164630/371472 [2:01:31<16:38:09,  3.45it/s] 44%|████▍     | 164631/371472 [2:01:31<15:49:53,  3.63it/s] 44%|████▍     | 164632/371472 [2:01:32<15:23:34,  3.73it/s] 44%|████▍     | 164633/371472 [2:01:32<16:16:10,  3.53it/s] 44%|████▍     | 164634/371472 [2:01:32<15:56:19,  3.60it/s] 44%|████▍     | 164635/371472 [2:01:33<15:35:18,  3.69it/s] 44%|████▍     | 164636/371472 [2:01:33<15:27:42,  3.72it/s] 44%|████▍     | 164637/371472 [2:01:33<15:31:15,  3.70it/s] 44%|████▍     | 164638/371472 [2:01:33<15:13:57,  3.77it/s] 44%|████▍     | 164639/371472 [2:01:34<16:10:06,  3.55it/s] 44%|████▍     | 164640/371472 [2:01:34<16:26:37,  3.49it/s]                                                            {'loss': 3.1314, 'learning_rate': 6.01381197612532e-07, 'epoch': 7.09}
 44%|████▍     | 164640/371472 [2:01:34<16:26:37,  3.49it/s] 44%|████▍     | 164641/371472 [2:01:34<16:56:05,  3.39it/s] 44%|████▍     | 164642/371472 [2:01:34<16:00:54,  3.59it/s] 44%|████▍     | 164643/371472 [2:01:35<15:46:16,  3.64it/s] 44%|████▍     | 164644/371472 [2:01:35<15:46:28,  3.64it/s] 44%|████▍     | 164645/371472 [2:01:35<15:12:31,  3.78it/s] 44%|████▍     | 164646/371472 [2:01:36<15:42:40,  3.66it/s] 44%|████▍     | 164647/371472 [2:01:36<16:13:46,  3.54it/s] 44%|████▍     | 164648/371472 [2:01:36<15:53:04,  3.62it/s] 44%|████▍     | 164649/371472 [2:01:36<16:35:04,  3.46it/s] 44%|████▍     | 164650/371472 [2:01:37<16:47:10,  3.42it/s] 44%|████▍     | 164651/371472 [2:01:37<16:56:23,  3.39it/s] 44%|████▍     | 164652/371472 [2:01:37<16:39:41,  3.45it/s] 44%|████▍     | 164653/371472 [2:01:38<16:28:05,  3.49it/s] 44%|████▍     | 164654/371472 [2:01:38<16:32:43,  3.47it/s] 44%|████▍     | 164655/371472 [2:01:38<16:18:09,  3.52it/s] 44%|████▍     | 164656/371472 [2:01:38<16:27:41,  3.49it/s] 44%|████▍     | 164657/371472 [2:01:39<15:51:50,  3.62it/s] 44%|████▍     | 164658/371472 [2:01:39<16:20:38,  3.51it/s] 44%|████▍     | 164659/371472 [2:01:39<15:55:00,  3.61it/s] 44%|████▍     | 164660/371472 [2:01:40<16:24:44,  3.50it/s]                                                            {'loss': 3.0026, 'learning_rate': 6.013327156370531e-07, 'epoch': 7.09}
 44%|████▍     | 164660/371472 [2:01:40<16:24:44,  3.50it/s] 44%|████▍     | 164661/371472 [2:01:40<15:56:39,  3.60it/s] 44%|████▍     | 164662/371472 [2:01:40<16:03:38,  3.58it/s] 44%|████▍     | 164663/371472 [2:01:40<16:50:20,  3.41it/s] 44%|████▍     | 164664/371472 [2:01:41<16:27:31,  3.49it/s] 44%|████▍     | 164665/371472 [2:01:41<15:43:44,  3.65it/s] 44%|████▍     | 164666/371472 [2:01:41<17:11:02,  3.34it/s] 44%|████▍     | 164667/371472 [2:01:42<17:05:15,  3.36it/s] 44%|████▍     | 164668/371472 [2:01:42<18:26:21,  3.12it/s] 44%|████▍     | 164669/371472 [2:01:42<17:45:34,  3.23it/s] 44%|████▍     | 164670/371472 [2:01:43<16:45:35,  3.43it/s] 44%|████▍     | 164671/371472 [2:01:43<16:20:47,  3.51it/s] 44%|████▍     | 164672/371472 [2:01:43<17:08:19,  3.35it/s] 44%|████▍     | 164673/371472 [2:01:43<16:16:22,  3.53it/s] 44%|████▍     | 164674/371472 [2:01:44<16:04:26,  3.57it/s] 44%|████▍     | 164675/371472 [2:01:44<16:43:01,  3.44it/s] 44%|████▍     | 164676/371472 [2:01:44<16:22:32,  3.51it/s] 44%|████▍     | 164677/371472 [2:01:44<16:06:14,  3.57it/s] 44%|████▍     | 164678/371472 [2:01:45<16:01:43,  3.58it/s] 44%|████▍     | 164679/371472 [2:01:45<15:28:09,  3.71it/s] 44%|████▍     | 164680/371472 [2:01:45<15:35:53,  3.68it/s]                                                            {'loss': 3.1391, 'learning_rate': 6.012842336615743e-07, 'epoch': 7.09}
 44%|████▍     | 164680/371472 [2:01:45<15:35:53,  3.68it/s] 44%|████▍     | 164681/371472 [2:01:46<15:22:34,  3.74it/s] 44%|████▍     | 164682/371472 [2:01:46<16:47:33,  3.42it/s] 44%|████▍     | 164683/371472 [2:01:46<16:14:14,  3.54it/s] 44%|████▍     | 164684/371472 [2:01:46<16:01:47,  3.58it/s] 44%|████▍     | 164685/371472 [2:01:47<15:49:16,  3.63it/s] 44%|████▍     | 164686/371472 [2:01:47<15:34:13,  3.69it/s] 44%|████▍     | 164687/371472 [2:01:47<16:05:39,  3.57it/s] 44%|████▍     | 164688/371472 [2:01:48<15:32:52,  3.69it/s] 44%|████▍     | 164689/371472 [2:01:48<16:38:05,  3.45it/s] 44%|████▍     | 164690/371472 [2:01:48<16:33:53,  3.47it/s] 44%|████▍     | 164691/371472 [2:01:48<16:07:32,  3.56it/s] 44%|████▍     | 164692/371472 [2:01:49<16:05:12,  3.57it/s] 44%|████▍     | 164693/371472 [2:01:49<15:46:50,  3.64it/s] 44%|████▍     | 164694/371472 [2:01:49<16:15:09,  3.53it/s] 44%|████▍     | 164695/371472 [2:01:49<16:04:42,  3.57it/s] 44%|████▍     | 164696/371472 [2:01:50<17:04:28,  3.36it/s] 44%|████▍     | 164697/371472 [2:01:50<16:33:55,  3.47it/s] 44%|████▍     | 164698/371472 [2:01:50<16:23:38,  3.50it/s] 44%|████▍     | 164699/371472 [2:01:51<15:53:12,  3.62it/s] 44%|████▍     | 164700/371472 [2:01:51<15:49:03,  3.63it/s]                                                            {'loss': 3.1188, 'learning_rate': 6.012357516860953e-07, 'epoch': 7.09}
 44%|████▍     | 164700/371472 [2:01:51<15:49:03,  3.63it/s] 44%|████▍     | 164701/371472 [2:01:51<16:05:27,  3.57it/s] 44%|████▍     | 164702/371472 [2:01:52<16:34:10,  3.47it/s] 44%|████▍     | 164703/371472 [2:01:52<16:04:34,  3.57it/s] 44%|████▍     | 164704/371472 [2:01:52<15:37:38,  3.68it/s] 44%|████▍     | 164705/371472 [2:01:52<16:07:16,  3.56it/s] 44%|████▍     | 164706/371472 [2:01:53<16:14:19,  3.54it/s] 44%|████▍     | 164707/371472 [2:01:53<16:13:29,  3.54it/s] 44%|████▍     | 164708/371472 [2:01:53<16:14:02,  3.54it/s] 44%|████▍     | 164709/371472 [2:01:53<16:19:01,  3.52it/s] 44%|████▍     | 164710/371472 [2:01:54<17:12:11,  3.34it/s] 44%|████▍     | 164711/371472 [2:01:54<16:26:46,  3.49it/s] 44%|████▍     | 164712/371472 [2:01:54<16:33:42,  3.47it/s] 44%|████▍     | 164713/371472 [2:01:55<16:22:30,  3.51it/s] 44%|████▍     | 164714/371472 [2:01:55<15:46:19,  3.64it/s] 44%|████▍     | 164715/371472 [2:01:55<16:14:50,  3.53it/s] 44%|████▍     | 164716/371472 [2:01:55<16:01:21,  3.58it/s] 44%|████▍     | 164717/371472 [2:01:56<16:58:12,  3.38it/s] 44%|████▍     | 164718/371472 [2:01:56<16:12:42,  3.54it/s] 44%|████▍     | 164719/371472 [2:01:56<16:54:38,  3.40it/s] 44%|████▍     | 164720/371472 [2:01:57<17:16:51,  3.32it/s]                                                            {'loss': 3.341, 'learning_rate': 6.011872697106164e-07, 'epoch': 7.09}
 44%|████▍     | 164720/371472 [2:01:57<17:16:51,  3.32it/s] 44%|████▍     | 164721/371472 [2:01:57<17:52:10,  3.21it/s] 44%|████▍     | 164722/371472 [2:01:57<18:17:39,  3.14it/s] 44%|████▍     | 164723/371472 [2:01:58<17:43:05,  3.24it/s] 44%|████▍     | 164724/371472 [2:01:58<16:46:11,  3.42it/s] 44%|████▍     | 164725/371472 [2:01:58<17:14:54,  3.33it/s] 44%|████▍     | 164726/371472 [2:01:59<18:16:30,  3.14it/s] 44%|████▍     | 164727/371472 [2:01:59<19:44:46,  2.91it/s] 44%|████▍     | 164728/371472 [2:01:59<18:20:57,  3.13it/s] 44%|████▍     | 164729/371472 [2:02:00<17:30:39,  3.28it/s] 44%|████▍     | 164730/371472 [2:02:00<18:00:15,  3.19it/s] 44%|████▍     | 164731/371472 [2:02:00<16:54:33,  3.40it/s] 44%|████▍     | 164732/371472 [2:02:00<17:35:47,  3.26it/s] 44%|████▍     | 164733/371472 [2:02:01<18:01:15,  3.19it/s] 44%|████▍     | 164734/371472 [2:02:01<17:26:13,  3.29it/s] 44%|████▍     | 164735/371472 [2:02:01<17:27:36,  3.29it/s] 44%|████▍     | 164736/371472 [2:02:02<16:43:14,  3.43it/s] 44%|████▍     | 164737/371472 [2:02:02<18:00:11,  3.19it/s] 44%|████▍     | 164738/371472 [2:02:02<17:11:51,  3.34it/s] 44%|████▍     | 164739/371472 [2:02:02<16:12:17,  3.54it/s] 44%|████▍     | 164740/371472 [2:02:03<16:29:54,  3.48it/s]                                                            {'loss': 3.215, 'learning_rate': 6.011387877351376e-07, 'epoch': 7.1}
 44%|████▍     | 164740/371472 [2:02:03<16:29:54,  3.48it/s] 44%|████▍     | 164741/371472 [2:02:03<16:43:04,  3.43it/s] 44%|████▍     | 164742/371472 [2:02:03<18:33:51,  3.09it/s] 44%|████▍     | 164743/371472 [2:02:04<17:49:04,  3.22it/s] 44%|████▍     | 164744/371472 [2:02:04<17:05:04,  3.36it/s] 44%|████▍     | 164745/371472 [2:02:04<16:36:11,  3.46it/s] 44%|████▍     | 164746/371472 [2:02:05<16:08:51,  3.56it/s] 44%|████▍     | 164747/371472 [2:02:05<19:23:01,  2.96it/s] 44%|████▍     | 164748/371472 [2:02:05<19:54:15,  2.88it/s] 44%|████▍     | 164749/371472 [2:02:06<18:50:01,  3.05it/s] 44%|████▍     | 164750/371472 [2:02:06<18:10:22,  3.16it/s] 44%|████▍     | 164751/371472 [2:02:06<18:24:10,  3.12it/s] 44%|████▍     | 164752/371472 [2:02:07<17:16:36,  3.32it/s] 44%|████▍     | 164753/371472 [2:02:07<17:06:06,  3.36it/s] 44%|████▍     | 164754/371472 [2:02:07<16:32:49,  3.47it/s] 44%|████▍     | 164755/371472 [2:02:07<16:35:00,  3.46it/s] 44%|████▍     | 164756/371472 [2:02:08<16:19:40,  3.52it/s] 44%|████▍     | 164757/371472 [2:02:08<16:07:20,  3.56it/s] 44%|████▍     | 164758/371472 [2:02:08<16:22:55,  3.51it/s] 44%|████▍     | 164759/371472 [2:02:09<17:00:08,  3.38it/s] 44%|████▍     | 164760/371472 [2:02:09<16:36:52,  3.46it/s]                                                            {'loss': 3.2345, 'learning_rate': 6.010903057596588e-07, 'epoch': 7.1}
 44%|████▍     | 164760/371472 [2:02:09<16:36:52,  3.46it/s] 44%|████▍     | 164761/371472 [2:02:09<16:11:33,  3.55it/s] 44%|████▍     | 164762/371472 [2:02:09<15:58:14,  3.60it/s] 44%|████▍     | 164763/371472 [2:02:10<16:06:42,  3.56it/s] 44%|████▍     | 164764/371472 [2:02:10<16:29:17,  3.48it/s] 44%|████▍     | 164765/371472 [2:02:10<16:39:59,  3.45it/s] 44%|████▍     | 164766/371472 [2:02:11<16:19:59,  3.52it/s] 44%|████▍     | 164767/371472 [2:02:11<16:01:36,  3.58it/s] 44%|████▍     | 164768/371472 [2:02:11<15:44:48,  3.65it/s] 44%|████▍     | 164769/371472 [2:02:11<15:42:28,  3.66it/s] 44%|████▍     | 164770/371472 [2:02:12<16:24:20,  3.50it/s] 44%|████▍     | 164771/371472 [2:02:12<16:22:18,  3.51it/s] 44%|████▍     | 164772/371472 [2:02:12<16:24:51,  3.50it/s] 44%|████▍     | 164773/371472 [2:02:12<15:57:06,  3.60it/s] 44%|████▍     | 164774/371472 [2:02:13<16:19:24,  3.52it/s] 44%|████▍     | 164775/371472 [2:02:13<15:56:07,  3.60it/s] 44%|████▍     | 164776/371472 [2:02:13<17:01:58,  3.37it/s] 44%|████▍     | 164777/371472 [2:02:14<16:16:19,  3.53it/s] 44%|████▍     | 164778/371472 [2:02:14<16:13:29,  3.54it/s] 44%|████▍     | 164779/371472 [2:02:14<16:19:04,  3.52it/s] 44%|████▍     | 164780/371472 [2:02:15<17:26:58,  3.29it/s]                                                            {'loss': 3.2676, 'learning_rate': 6.010418237841796e-07, 'epoch': 7.1}
 44%|████▍     | 164780/371472 [2:02:15<17:26:58,  3.29it/s] 44%|████▍     | 164781/371472 [2:02:15<17:13:54,  3.33it/s] 44%|████▍     | 164782/371472 [2:02:15<16:44:12,  3.43it/s] 44%|████▍     | 164783/371472 [2:02:15<17:29:46,  3.28it/s] 44%|████▍     | 164784/371472 [2:02:16<16:51:55,  3.40it/s] 44%|████▍     | 164785/371472 [2:02:16<16:53:51,  3.40it/s] 44%|████▍     | 164786/371472 [2:02:16<17:11:56,  3.34it/s] 44%|████▍     | 164787/371472 [2:02:17<16:35:32,  3.46it/s] 44%|████▍     | 164788/371472 [2:02:17<16:26:57,  3.49it/s] 44%|████▍     | 164789/371472 [2:02:17<16:20:05,  3.51it/s] 44%|████▍     | 164790/371472 [2:02:17<15:52:08,  3.62it/s] 44%|████▍     | 164791/371472 [2:02:18<15:30:56,  3.70it/s] 44%|████▍     | 164792/371472 [2:02:18<15:25:36,  3.72it/s] 44%|████▍     | 164793/371472 [2:02:18<15:51:12,  3.62it/s] 44%|████▍     | 164794/371472 [2:02:18<16:02:31,  3.58it/s] 44%|████▍     | 164795/371472 [2:02:19<15:36:06,  3.68it/s] 44%|████▍     | 164796/371472 [2:02:19<18:11:04,  3.16it/s] 44%|████▍     | 164797/371472 [2:02:19<17:26:10,  3.29it/s] 44%|████▍     | 164798/371472 [2:02:20<16:28:34,  3.48it/s] 44%|████▍     | 164799/371472 [2:02:20<16:10:25,  3.55it/s] 44%|████▍     | 164800/371472 [2:02:20<15:52:17,  3.62it/s]                                                            {'loss': 3.2556, 'learning_rate': 6.009933418087008e-07, 'epoch': 7.1}
 44%|████▍     | 164800/371472 [2:02:20<15:52:17,  3.62it/s] 44%|████▍     | 164801/371472 [2:02:21<17:22:10,  3.31it/s] 44%|████▍     | 164802/371472 [2:02:21<16:48:06,  3.42it/s] 44%|████▍     | 164803/371472 [2:02:21<16:41:26,  3.44it/s] 44%|████▍     | 164804/371472 [2:02:21<16:24:15,  3.50it/s] 44%|████▍     | 164805/371472 [2:02:22<16:20:55,  3.51it/s] 44%|████▍     | 164806/371472 [2:02:22<16:35:27,  3.46it/s] 44%|████▍     | 164807/371472 [2:02:22<16:18:25,  3.52it/s] 44%|████▍     | 164808/371472 [2:02:23<16:43:02,  3.43it/s] 44%|████▍     | 164809/371472 [2:02:23<16:47:53,  3.42it/s] 44%|████▍     | 164810/371472 [2:02:23<15:55:29,  3.60it/s] 44%|████▍     | 164811/371472 [2:02:23<15:26:26,  3.72it/s] 44%|████▍     | 164812/371472 [2:02:24<15:24:20,  3.73it/s] 44%|████▍     | 164813/371472 [2:02:24<15:15:52,  3.76it/s] 44%|████▍     | 164814/371472 [2:02:24<16:30:21,  3.48it/s] 44%|████▍     | 164815/371472 [2:02:25<16:11:27,  3.55it/s] 44%|████▍     | 164816/371472 [2:02:25<16:14:05,  3.54it/s] 44%|████▍     | 164817/371472 [2:02:25<16:45:23,  3.43it/s] 44%|████▍     | 164818/371472 [2:02:25<16:18:08,  3.52it/s] 44%|████▍     | 164819/371472 [2:02:26<15:58:06,  3.59it/s] 44%|████▍     | 164820/371472 [2:02:26<15:58:27,  3.59it/s]                                                            {'loss': 3.2344, 'learning_rate': 6.00944859833222e-07, 'epoch': 7.1}
 44%|████▍     | 164820/371472 [2:02:26<15:58:27,  3.59it/s] 44%|████▍     | 164821/371472 [2:02:26<15:38:01,  3.67it/s] 44%|████▍     | 164822/371472 [2:02:27<17:03:31,  3.37it/s] 44%|████▍     | 164823/371472 [2:02:27<17:29:04,  3.28it/s] 44%|████▍     | 164824/371472 [2:02:27<16:37:08,  3.45it/s] 44%|████▍     | 164825/371472 [2:02:27<16:03:48,  3.57it/s] 44%|████▍     | 164826/371472 [2:02:28<15:37:07,  3.68it/s] 44%|████▍     | 164827/371472 [2:02:28<16:40:58,  3.44it/s] 44%|████▍     | 164828/371472 [2:02:28<16:19:52,  3.51it/s] 44%|████▍     | 164829/371472 [2:02:29<16:25:06,  3.50it/s] 44%|████▍     | 164830/371472 [2:02:29<16:45:54,  3.42it/s] 44%|████▍     | 164831/371472 [2:02:29<17:15:59,  3.32it/s] 44%|████▍     | 164832/371472 [2:02:29<16:16:09,  3.53it/s] 44%|████▍     | 164833/371472 [2:02:30<16:30:37,  3.48it/s] 44%|████▍     | 164834/371472 [2:02:30<16:27:39,  3.49it/s] 44%|████▍     | 164835/371472 [2:02:30<16:09:37,  3.55it/s] 44%|████▍     | 164836/371472 [2:02:31<16:10:14,  3.55it/s] 44%|████▍     | 164837/371472 [2:02:31<16:00:14,  3.59it/s] 44%|████▍     | 164838/371472 [2:02:31<15:37:31,  3.67it/s] 44%|████▍     | 164839/371472 [2:02:31<15:41:41,  3.66it/s] 44%|████▍     | 164840/371472 [2:02:32<16:34:20,  3.46it/s]                                                            {'loss': 3.1215, 'learning_rate': 6.008963778577431e-07, 'epoch': 7.1}
 44%|████▍     | 164840/371472 [2:02:32<16:34:20,  3.46it/s] 44%|████▍     | 164841/371472 [2:02:32<16:02:25,  3.58it/s] 44%|████▍     | 164842/371472 [2:02:32<15:45:55,  3.64it/s] 44%|████▍     | 164843/371472 [2:02:32<15:50:12,  3.62it/s] 44%|████▍     | 164844/371472 [2:02:33<16:26:05,  3.49it/s] 44%|████▍     | 164845/371472 [2:02:33<15:49:11,  3.63it/s] 44%|████▍     | 164846/371472 [2:02:33<15:50:30,  3.62it/s] 44%|████▍     | 164847/371472 [2:02:34<16:12:57,  3.54it/s] 44%|████▍     | 164848/371472 [2:02:34<15:43:31,  3.65it/s] 44%|████▍     | 164849/371472 [2:02:34<16:06:36,  3.56it/s] 44%|████▍     | 164850/371472 [2:02:34<15:40:58,  3.66it/s] 44%|████▍     | 164851/371472 [2:02:35<16:29:09,  3.48it/s] 44%|████▍     | 164852/371472 [2:02:35<17:10:08,  3.34it/s] 44%|████▍     | 164853/371472 [2:02:35<17:01:10,  3.37it/s] 44%|████▍     | 164854/371472 [2:02:36<16:37:44,  3.45it/s] 44%|████▍     | 164855/371472 [2:02:36<17:48:43,  3.22it/s] 44%|████▍     | 164856/371472 [2:02:36<17:17:02,  3.32it/s] 44%|████▍     | 164857/371472 [2:02:37<17:23:40,  3.30it/s] 44%|████▍     | 164858/371472 [2:02:37<17:34:33,  3.27it/s] 44%|████▍     | 164859/371472 [2:02:37<17:39:35,  3.25it/s] 44%|████▍     | 164860/371472 [2:02:38<18:18:09,  3.14it/s]                                                            {'loss': 2.9432, 'learning_rate': 6.008478958822641e-07, 'epoch': 7.1}
 44%|████▍     | 164860/371472 [2:02:38<18:18:09,  3.14it/s] 44%|████▍     | 164861/371472 [2:02:38<17:56:21,  3.20it/s] 44%|████▍     | 164862/371472 [2:02:38<18:09:07,  3.16it/s] 44%|████▍     | 164863/371472 [2:02:38<18:01:27,  3.18it/s] 44%|████▍     | 164864/371472 [2:02:39<17:06:44,  3.35it/s] 44%|████▍     | 164865/371472 [2:02:39<16:42:51,  3.43it/s] 44%|████▍     | 164866/371472 [2:02:39<16:29:09,  3.48it/s] 44%|████▍     | 164867/371472 [2:02:40<16:16:19,  3.53it/s] 44%|████▍     | 164868/371472 [2:02:40<16:07:02,  3.56it/s] 44%|████▍     | 164869/371472 [2:02:40<16:50:59,  3.41it/s] 44%|████▍     | 164870/371472 [2:02:40<16:42:26,  3.43it/s] 44%|████▍     | 164871/371472 [2:02:41<16:13:12,  3.54it/s] 44%|████▍     | 164872/371472 [2:02:41<16:52:27,  3.40it/s] 44%|████▍     | 164873/371472 [2:02:41<16:24:06,  3.50it/s] 44%|████▍     | 164874/371472 [2:02:42<16:33:11,  3.47it/s] 44%|████▍     | 164875/371472 [2:02:42<16:56:26,  3.39it/s] 44%|████▍     | 164876/371472 [2:02:42<16:23:20,  3.50it/s] 44%|████▍     | 164877/371472 [2:02:42<15:46:24,  3.64it/s] 44%|████▍     | 164878/371472 [2:02:43<17:16:11,  3.32it/s] 44%|████▍     | 164879/371472 [2:02:43<16:38:30,  3.45it/s] 44%|████▍     | 164880/371472 [2:02:43<17:08:08,  3.35it/s]                                                            {'loss': 2.9784, 'learning_rate': 6.007994139067853e-07, 'epoch': 7.1}
 44%|████▍     | 164880/371472 [2:02:43<17:08:08,  3.35it/s] 44%|████▍     | 164881/371472 [2:02:44<16:39:49,  3.44it/s] 44%|████▍     | 164882/371472 [2:02:44<16:45:39,  3.42it/s] 44%|████▍     | 164883/371472 [2:02:44<16:23:55,  3.50it/s] 44%|████▍     | 164884/371472 [2:02:44<16:04:00,  3.57it/s] 44%|████▍     | 164885/371472 [2:02:45<15:27:33,  3.71it/s] 44%|████▍     | 164886/371472 [2:02:45<15:36:31,  3.68it/s] 44%|████▍     | 164887/371472 [2:02:45<15:26:05,  3.72it/s] 44%|████▍     | 164888/371472 [2:02:46<16:02:31,  3.58it/s] 44%|████▍     | 164889/371472 [2:02:46<15:30:46,  3.70it/s] 44%|████▍     | 164890/371472 [2:02:46<15:21:32,  3.74it/s] 44%|████▍     | 164891/371472 [2:02:46<15:31:43,  3.70it/s] 44%|████▍     | 164892/371472 [2:02:47<17:51:11,  3.21it/s] 44%|████▍     | 164893/371472 [2:02:47<16:57:11,  3.38it/s] 44%|████▍     | 164894/371472 [2:02:47<16:30:56,  3.47it/s] 44%|████▍     | 164895/371472 [2:02:47<16:01:42,  3.58it/s] 44%|████▍     | 164896/371472 [2:02:48<16:31:16,  3.47it/s] 44%|████▍     | 164897/371472 [2:02:48<16:10:39,  3.55it/s] 44%|████▍     | 164898/371472 [2:02:48<15:42:50,  3.65it/s] 44%|████▍     | 164899/371472 [2:02:49<16:09:14,  3.55it/s] 44%|████▍     | 164900/371472 [2:02:49<15:59:07,  3.59it/s]                                                            {'loss': 2.9642, 'learning_rate': 6.007509319313064e-07, 'epoch': 7.1}
 44%|████▍     | 164900/371472 [2:02:49<15:59:07,  3.59it/s] 44%|████▍     | 164901/371472 [2:02:49<15:55:50,  3.60it/s] 44%|████▍     | 164902/371472 [2:02:50<17:23:45,  3.30it/s] 44%|████▍     | 164903/371472 [2:02:50<17:08:14,  3.35it/s] 44%|████▍     | 164904/371472 [2:02:50<17:05:40,  3.36it/s] 44%|████▍     | 164905/371472 [2:02:50<17:21:37,  3.31it/s] 44%|████▍     | 164906/371472 [2:02:51<16:46:41,  3.42it/s] 44%|████▍     | 164907/371472 [2:02:51<16:21:18,  3.51it/s] 44%|████▍     | 164908/371472 [2:02:51<16:27:56,  3.48it/s] 44%|████▍     | 164909/371472 [2:02:52<15:53:04,  3.61it/s] 44%|████▍     | 164910/371472 [2:02:52<16:58:01,  3.38it/s] 44%|████▍     | 164911/371472 [2:02:52<16:18:38,  3.52it/s] 44%|████▍     | 164912/371472 [2:02:52<16:29:18,  3.48it/s] 44%|████▍     | 164913/371472 [2:02:53<16:38:27,  3.45it/s] 44%|████▍     | 164914/371472 [2:02:53<16:54:37,  3.39it/s] 44%|████▍     | 164915/371472 [2:02:53<17:02:28,  3.37it/s] 44%|████▍     | 164916/371472 [2:02:54<16:25:05,  3.49it/s] 44%|████▍     | 164917/371472 [2:02:54<16:23:22,  3.50it/s] 44%|████▍     | 164918/371472 [2:02:54<16:03:00,  3.57it/s] 44%|████▍     | 164919/371472 [2:02:54<15:28:23,  3.71it/s] 44%|████▍     | 164920/371472 [2:02:55<15:10:13,  3.78it/s]                                                            {'loss': 3.1772, 'learning_rate': 6.007024499558275e-07, 'epoch': 7.1}
 44%|████▍     | 164920/371472 [2:02:55<15:10:13,  3.78it/s] 44%|████▍     | 164921/371472 [2:02:55<14:51:46,  3.86it/s] 44%|████▍     | 164922/371472 [2:02:55<14:59:47,  3.83it/s] 44%|████▍     | 164923/371472 [2:02:55<14:41:03,  3.91it/s] 44%|████▍     | 164924/371472 [2:02:56<18:30:31,  3.10it/s] 44%|████▍     | 164925/371472 [2:02:56<17:35:08,  3.26it/s] 44%|████▍     | 164926/371472 [2:02:56<16:29:49,  3.48it/s] 44%|████▍     | 164927/371472 [2:02:57<16:26:02,  3.49it/s] 44%|████▍     | 164928/371472 [2:02:57<16:48:55,  3.41it/s] 44%|████▍     | 164929/371472 [2:02:57<17:36:21,  3.26it/s] 44%|████▍     | 164930/371472 [2:02:58<17:02:40,  3.37it/s] 44%|████▍     | 164931/371472 [2:02:58<17:10:58,  3.34it/s] 44%|████▍     | 164932/371472 [2:02:58<17:18:12,  3.32it/s] 44%|████▍     | 164933/371472 [2:02:58<16:55:35,  3.39it/s] 44%|████▍     | 164934/371472 [2:02:59<18:20:25,  3.13it/s] 44%|████▍     | 164935/371472 [2:02:59<17:08:24,  3.35it/s] 44%|████▍     | 164936/371472 [2:02:59<16:09:36,  3.55it/s] 44%|████▍     | 164937/371472 [2:03:00<17:04:16,  3.36it/s] 44%|████▍     | 164938/371472 [2:03:00<17:17:43,  3.32it/s] 44%|████▍     | 164939/371472 [2:03:00<16:42:31,  3.43it/s] 44%|████▍     | 164940/371472 [2:03:01<16:40:06,  3.44it/s]                                                            {'loss': 3.2679, 'learning_rate': 6.006539679803485e-07, 'epoch': 7.1}
 44%|████▍     | 164940/371472 [2:03:01<16:40:06,  3.44it/s] 44%|████▍     | 164941/371472 [2:03:01<16:30:45,  3.47it/s] 44%|████▍     | 164942/371472 [2:03:01<16:41:51,  3.44it/s] 44%|████▍     | 164943/371472 [2:03:01<16:06:11,  3.56it/s] 44%|████▍     | 164944/371472 [2:03:02<15:56:40,  3.60it/s] 44%|████▍     | 164945/371472 [2:03:02<16:00:41,  3.58it/s] 44%|████▍     | 164946/371472 [2:03:02<15:56:04,  3.60it/s] 44%|████▍     | 164947/371472 [2:03:03<16:20:27,  3.51it/s] 44%|████▍     | 164948/371472 [2:03:03<16:28:20,  3.48it/s] 44%|████▍     | 164949/371472 [2:03:03<16:18:29,  3.52it/s] 44%|████▍     | 164950/371472 [2:03:03<16:47:35,  3.42it/s] 44%|████▍     | 164951/371472 [2:03:04<16:07:15,  3.56it/s] 44%|████▍     | 164952/371472 [2:03:04<15:58:03,  3.59it/s] 44%|████▍     | 164953/371472 [2:03:04<18:08:17,  3.16it/s] 44%|████▍     | 164954/371472 [2:03:05<17:31:00,  3.27it/s] 44%|████▍     | 164955/371472 [2:03:05<18:10:26,  3.16it/s] 44%|████▍     | 164956/371472 [2:03:05<17:19:54,  3.31it/s] 44%|████▍     | 164957/371472 [2:03:05<16:21:50,  3.51it/s] 44%|████▍     | 164958/371472 [2:03:06<16:26:50,  3.49it/s] 44%|████▍     | 164959/371472 [2:03:06<16:08:15,  3.55it/s] 44%|████▍     | 164960/371472 [2:03:06<15:52:37,  3.61it/s]                                                            {'loss': 3.2213, 'learning_rate': 6.006054860048697e-07, 'epoch': 7.11}
 44%|████▍     | 164960/371472 [2:03:06<15:52:37,  3.61it/s] 44%|████▍     | 164961/371472 [2:03:07<16:15:38,  3.53it/s] 44%|████▍     | 164962/371472 [2:03:07<16:24:25,  3.50it/s] 44%|████▍     | 164963/371472 [2:03:07<16:19:50,  3.51it/s] 44%|████▍     | 164964/371472 [2:03:07<17:12:16,  3.33it/s] 44%|████▍     | 164965/371472 [2:03:08<17:39:13,  3.25it/s] 44%|████▍     | 164966/371472 [2:03:08<17:15:02,  3.33it/s] 44%|████▍     | 164967/371472 [2:03:08<16:45:36,  3.42it/s] 44%|████▍     | 164968/371472 [2:03:09<17:10:31,  3.34it/s] 44%|████▍     | 164969/371472 [2:03:09<17:23:00,  3.30it/s] 44%|████▍     | 164970/371472 [2:03:09<16:22:44,  3.50it/s] 44%|████▍     | 164971/371472 [2:03:10<16:32:45,  3.47it/s] 44%|████▍     | 164972/371472 [2:03:10<18:00:34,  3.19it/s] 44%|████▍     | 164973/371472 [2:03:10<18:15:46,  3.14it/s] 44%|████▍     | 164974/371472 [2:03:11<18:52:38,  3.04it/s] 44%|████▍     | 164975/371472 [2:03:11<17:53:10,  3.21it/s] 44%|████▍     | 164976/371472 [2:03:11<19:01:02,  3.02it/s] 44%|████▍     | 164977/371472 [2:03:12<18:39:11,  3.08it/s] 44%|████▍     | 164978/371472 [2:03:12<18:10:24,  3.16it/s] 44%|████▍     | 164979/371472 [2:03:12<18:24:53,  3.11it/s] 44%|████▍     | 164980/371472 [2:03:12<17:47:44,  3.22it/s]                                                            {'loss': 2.9332, 'learning_rate': 6.005570040293909e-07, 'epoch': 7.11}
 44%|████▍     | 164980/371472 [2:03:12<17:47:44,  3.22it/s] 44%|████▍     | 164981/371472 [2:03:13<17:05:46,  3.36it/s] 44%|████▍     | 164982/371472 [2:03:13<16:38:09,  3.45it/s] 44%|████▍     | 164983/371472 [2:03:13<16:23:06,  3.50it/s] 44%|████▍     | 164984/371472 [2:03:14<16:11:56,  3.54it/s] 44%|████▍     | 164985/371472 [2:03:14<16:23:55,  3.50it/s] 44%|████▍     | 164986/371472 [2:03:14<16:19:30,  3.51it/s] 44%|████▍     | 164987/371472 [2:03:14<17:11:21,  3.34it/s] 44%|████▍     | 164988/371472 [2:03:15<17:13:19,  3.33it/s] 44%|████▍     | 164989/371472 [2:03:15<16:49:22,  3.41it/s] 44%|████▍     | 164990/371472 [2:03:15<17:43:38,  3.24it/s] 44%|████▍     | 164991/371472 [2:03:16<17:37:01,  3.26it/s] 44%|████▍     | 164992/371472 [2:03:16<17:16:46,  3.32it/s] 44%|████▍     | 164993/371472 [2:03:16<17:41:48,  3.24it/s] 44%|████▍     | 164994/371472 [2:03:17<17:49:42,  3.22it/s] 44%|████▍     | 164995/371472 [2:03:17<17:05:37,  3.36it/s] 44%|████▍     | 164996/371472 [2:03:17<16:36:13,  3.45it/s] 44%|████▍     | 164997/371472 [2:03:17<16:03:33,  3.57it/s] 44%|████▍     | 164998/371472 [2:03:18<15:46:38,  3.64it/s] 44%|████▍     | 164999/371472 [2:03:18<16:19:06,  3.51it/s] 44%|████▍     | 165000/371472 [2:03:18<16:09:39,  3.55it/s]                                                            {'loss': 2.8367, 'learning_rate': 6.00508522053912e-07, 'epoch': 7.11}
 44%|████▍     | 165000/371472 [2:03:18<16:09:39,  3.55it/s] 44%|████▍     | 165001/371472 [2:03:19<15:59:30,  3.59it/s] 44%|████▍     | 165002/371472 [2:03:19<16:45:55,  3.42it/s] 44%|████▍     | 165003/371472 [2:03:19<16:59:57,  3.37it/s] 44%|████▍     | 165004/371472 [2:03:19<17:27:29,  3.29it/s] 44%|████▍     | 165005/371472 [2:03:20<16:55:13,  3.39it/s] 44%|████▍     | 165006/371472 [2:03:20<16:40:28,  3.44it/s] 44%|████▍     | 165007/371472 [2:03:20<16:34:20,  3.46it/s] 44%|████▍     | 165008/371472 [2:03:21<15:45:50,  3.64it/s] 44%|████▍     | 165009/371472 [2:03:21<15:15:19,  3.76it/s] 44%|████▍     | 165010/371472 [2:03:21<15:40:33,  3.66it/s] 44%|████▍     | 165011/371472 [2:03:21<15:14:21,  3.76it/s] 44%|████▍     | 165012/371472 [2:03:22<15:13:30,  3.77it/s] 44%|████▍     | 165013/371472 [2:03:22<14:58:27,  3.83it/s] 44%|████▍     | 165014/371472 [2:03:22<15:41:12,  3.66it/s] 44%|████▍     | 165015/371472 [2:03:22<15:49:55,  3.62it/s] 44%|████▍     | 165016/371472 [2:03:23<15:25:16,  3.72it/s] 44%|████▍     | 165017/371472 [2:03:23<15:46:39,  3.63it/s] 44%|████▍     | 165018/371472 [2:03:23<17:56:15,  3.20it/s] 44%|████▍     | 165019/371472 [2:03:24<16:55:48,  3.39it/s] 44%|████▍     | 165020/371472 [2:03:24<16:57:01,  3.38it/s]                                                            {'loss': 3.0682, 'learning_rate': 6.00460040078433e-07, 'epoch': 7.11}
 44%|████▍     | 165020/371472 [2:03:24<16:57:01,  3.38it/s] 44%|████▍     | 165021/371472 [2:03:24<16:50:44,  3.40it/s] 44%|████▍     | 165022/371472 [2:03:24<16:08:19,  3.55it/s] 44%|████▍     | 165023/371472 [2:03:25<16:00:46,  3.58it/s] 44%|████▍     | 165024/371472 [2:03:25<16:02:14,  3.58it/s] 44%|████▍     | 165025/371472 [2:03:25<15:34:59,  3.68it/s] 44%|████▍     | 165026/371472 [2:03:26<15:30:38,  3.70it/s] 44%|████▍     | 165027/371472 [2:03:26<15:09:14,  3.78it/s] 44%|████▍     | 165028/371472 [2:03:26<15:19:57,  3.74it/s] 44%|████▍     | 165029/371472 [2:03:26<15:12:19,  3.77it/s] 44%|████▍     | 165030/371472 [2:03:27<14:33:32,  3.94it/s] 44%|████▍     | 165031/371472 [2:03:27<16:46:23,  3.42it/s] 44%|████▍     | 165032/371472 [2:03:27<16:30:32,  3.47it/s] 44%|████▍     | 165033/371472 [2:03:28<16:51:42,  3.40it/s] 44%|████▍     | 165034/371472 [2:03:28<17:08:03,  3.35it/s] 44%|████▍     | 165035/371472 [2:03:28<16:27:39,  3.48it/s] 44%|████▍     | 165036/371472 [2:03:28<15:55:02,  3.60it/s] 44%|████▍     | 165037/371472 [2:03:29<16:09:29,  3.55it/s] 44%|████▍     | 165038/371472 [2:03:29<16:13:12,  3.54it/s] 44%|████▍     | 165039/371472 [2:03:29<17:14:37,  3.33it/s] 44%|████▍     | 165040/371472 [2:03:30<17:16:35,  3.32it/s]                                                            {'loss': 3.133, 'learning_rate': 6.004115581029541e-07, 'epoch': 7.11}
 44%|████▍     | 165040/371472 [2:03:30<17:16:35,  3.32it/s] 44%|████▍     | 165041/371472 [2:03:30<16:51:35,  3.40it/s] 44%|████▍     | 165042/371472 [2:03:30<16:47:08,  3.42it/s] 44%|████▍     | 165043/371472 [2:03:30<17:09:55,  3.34it/s] 44%|████▍     | 165044/371472 [2:03:31<17:04:48,  3.36it/s] 44%|████▍     | 165045/371472 [2:03:31<16:51:18,  3.40it/s] 44%|████▍     | 165046/371472 [2:03:31<16:24:10,  3.50it/s] 44%|████▍     | 165047/371472 [2:03:32<16:12:13,  3.54it/s] 44%|████▍     | 165048/371472 [2:03:32<15:53:04,  3.61it/s] 44%|████▍     | 165049/371472 [2:03:32<15:44:21,  3.64it/s] 44%|████▍     | 165050/371472 [2:03:32<16:04:18,  3.57it/s] 44%|████▍     | 165051/371472 [2:03:33<15:25:00,  3.72it/s] 44%|████▍     | 165052/371472 [2:03:33<17:07:23,  3.35it/s] 44%|████▍     | 165053/371472 [2:03:33<16:38:21,  3.45it/s] 44%|████▍     | 165054/371472 [2:03:34<15:54:59,  3.60it/s] 44%|████▍     | 165055/371472 [2:03:34<15:36:34,  3.67it/s] 44%|████▍     | 165056/371472 [2:03:34<15:37:31,  3.67it/s] 44%|████▍     | 165057/371472 [2:03:34<16:11:12,  3.54it/s] 44%|████▍     | 165058/371472 [2:03:35<16:34:58,  3.46it/s] 44%|████▍     | 165059/371472 [2:03:35<16:04:45,  3.57it/s] 44%|████▍     | 165060/371472 [2:03:35<15:18:16,  3.75it/s]                                                            {'loss': 3.1713, 'learning_rate': 6.003630761274753e-07, 'epoch': 7.11}
 44%|████▍     | 165060/371472 [2:03:35<15:18:16,  3.75it/s] 44%|████▍     | 165061/371472 [2:03:35<15:57:38,  3.59it/s] 44%|████▍     | 165062/371472 [2:03:36<15:43:22,  3.65it/s] 44%|████▍     | 165063/371472 [2:03:36<16:24:13,  3.50it/s] 44%|████▍     | 165064/371472 [2:03:36<16:02:49,  3.57it/s] 44%|████▍     | 165065/371472 [2:03:37<17:44:55,  3.23it/s] 44%|████▍     | 165066/371472 [2:03:37<17:46:30,  3.23it/s] 44%|████▍     | 165067/371472 [2:03:37<17:37:46,  3.25it/s] 44%|████▍     | 165068/371472 [2:03:38<18:10:14,  3.16it/s] 44%|████▍     | 165069/371472 [2:03:38<17:29:15,  3.28it/s] 44%|████▍     | 165070/371472 [2:03:38<17:01:10,  3.37it/s] 44%|████▍     | 165071/371472 [2:03:38<16:30:27,  3.47it/s] 44%|████▍     | 165072/371472 [2:03:39<16:37:34,  3.45it/s] 44%|████▍     | 165073/371472 [2:03:39<16:29:56,  3.47it/s] 44%|████▍     | 165074/371472 [2:03:39<16:10:16,  3.55it/s] 44%|████▍     | 165075/371472 [2:03:40<16:14:07,  3.53it/s] 44%|████▍     | 165076/371472 [2:03:40<16:19:58,  3.51it/s] 44%|████▍     | 165077/371472 [2:03:40<16:31:27,  3.47it/s] 44%|████▍     | 165078/371472 [2:03:41<16:53:07,  3.40it/s] 44%|████▍     | 165079/371472 [2:03:41<16:33:16,  3.46it/s] 44%|████▍     | 165080/371472 [2:03:41<16:54:14,  3.39it/s]                                                            {'loss': 3.3402, 'learning_rate': 6.003145941519964e-07, 'epoch': 7.11}
 44%|████▍     | 165080/371472 [2:03:41<16:54:14,  3.39it/s] 44%|████▍     | 165081/371472 [2:03:41<16:11:00,  3.54it/s] 44%|████▍     | 165082/371472 [2:03:42<17:37:55,  3.25it/s] 44%|████▍     | 165083/371472 [2:03:42<16:28:45,  3.48it/s] 44%|████▍     | 165084/371472 [2:03:42<16:04:17,  3.57it/s] 44%|████▍     | 165085/371472 [2:03:43<16:46:50,  3.42it/s] 44%|████▍     | 165086/371472 [2:03:43<16:33:09,  3.46it/s] 44%|████▍     | 165087/371472 [2:03:43<17:01:08,  3.37it/s] 44%|████▍     | 165088/371472 [2:03:43<16:55:57,  3.39it/s] 44%|████▍     | 165089/371472 [2:03:44<16:05:16,  3.56it/s] 44%|████▍     | 165090/371472 [2:03:44<16:21:50,  3.50it/s] 44%|████▍     | 165091/371472 [2:03:44<16:21:19,  3.51it/s] 44%|████▍     | 165092/371472 [2:03:45<18:04:09,  3.17it/s] 44%|████▍     | 165093/371472 [2:03:45<17:11:24,  3.33it/s] 44%|████▍     | 165094/371472 [2:03:45<16:41:44,  3.43it/s] 44%|████▍     | 165095/371472 [2:03:45<16:22:57,  3.50it/s] 44%|████▍     | 165096/371472 [2:03:46<16:08:15,  3.55it/s] 44%|████▍     | 165097/371472 [2:03:46<16:12:37,  3.54it/s] 44%|████▍     | 165098/371472 [2:03:46<17:13:39,  3.33it/s] 44%|████▍     | 165099/371472 [2:03:47<16:13:58,  3.53it/s] 44%|████▍     | 165100/371472 [2:03:47<16:46:37,  3.42it/s]                                                            {'loss': 3.2094, 'learning_rate': 6.002661121765174e-07, 'epoch': 7.11}
 44%|████▍     | 165100/371472 [2:03:47<16:46:37,  3.42it/s] 44%|████▍     | 165101/371472 [2:03:47<17:37:26,  3.25it/s] 44%|████▍     | 165102/371472 [2:03:48<17:29:19,  3.28it/s] 44%|████▍     | 165103/371472 [2:03:48<17:17:07,  3.32it/s] 44%|████▍     | 165104/371472 [2:03:48<17:11:33,  3.33it/s] 44%|████▍     | 165105/371472 [2:03:48<17:22:49,  3.30it/s] 44%|████▍     | 165106/371472 [2:03:49<16:23:50,  3.50it/s] 44%|████▍     | 165107/371472 [2:03:49<17:43:19,  3.23it/s] 44%|████▍     | 165108/371472 [2:03:49<17:06:02,  3.35it/s] 44%|████▍     | 165109/371472 [2:03:50<16:06:30,  3.56it/s] 44%|████▍     | 165110/371472 [2:03:50<15:44:54,  3.64it/s] 44%|████▍     | 165111/371472 [2:03:50<15:51:25,  3.61it/s] 44%|████▍     | 165112/371472 [2:03:51<18:04:50,  3.17it/s] 44%|████▍     | 165113/371472 [2:03:51<17:53:30,  3.20it/s] 44%|████▍     | 165114/371472 [2:03:51<17:17:29,  3.32it/s] 44%|████▍     | 165115/371472 [2:03:51<17:24:15,  3.29it/s] 44%|████▍     | 165116/371472 [2:03:52<17:15:00,  3.32it/s] 44%|████▍     | 165117/371472 [2:03:52<17:34:19,  3.26it/s] 44%|████▍     | 165118/371472 [2:03:52<16:31:42,  3.47it/s] 44%|████▍     | 165119/371472 [2:03:53<16:35:18,  3.46it/s] 44%|████▍     | 165120/371472 [2:03:53<16:17:27,  3.52it/s]                                                            {'loss': 2.9183, 'learning_rate': 6.002176302010386e-07, 'epoch': 7.11}
 44%|████▍     | 165120/371472 [2:03:53<16:17:27,  3.52it/s] 44%|████▍     | 165121/371472 [2:03:53<16:03:24,  3.57it/s] 44%|████▍     | 165122/371472 [2:03:53<15:47:59,  3.63it/s] 44%|████▍     | 165123/371472 [2:03:54<15:38:30,  3.66it/s] 44%|████▍     | 165124/371472 [2:03:54<15:27:02,  3.71it/s] 44%|████▍     | 165125/371472 [2:03:54<15:37:14,  3.67it/s] 44%|████▍     | 165126/371472 [2:03:54<15:07:04,  3.79it/s] 44%|████▍     | 165127/371472 [2:03:55<14:51:37,  3.86it/s] 44%|████▍     | 165128/371472 [2:03:55<14:56:47,  3.83it/s] 44%|████▍     | 165129/371472 [2:03:55<14:58:11,  3.83it/s] 44%|████▍     | 165130/371472 [2:03:55<14:46:30,  3.88it/s] 44%|████▍     | 165131/371472 [2:03:56<16:02:33,  3.57it/s] 44%|████▍     | 165132/371472 [2:03:56<17:11:10,  3.34it/s] 44%|████▍     | 165133/371472 [2:03:56<17:11:39,  3.33it/s] 44%|████▍     | 165134/371472 [2:03:57<16:44:38,  3.42it/s] 44%|████▍     | 165135/371472 [2:03:57<17:10:43,  3.34it/s] 44%|████▍     | 165136/371472 [2:03:57<16:45:16,  3.42it/s] 44%|████▍     | 165137/371472 [2:03:58<17:10:17,  3.34it/s] 44%|████▍     | 165138/371472 [2:03:58<16:58:25,  3.38it/s] 44%|████▍     | 165139/371472 [2:03:58<16:00:27,  3.58it/s] 44%|████▍     | 165140/371472 [2:03:58<15:53:54,  3.61it/s]                                                            {'loss': 3.125, 'learning_rate': 6.001691482255598e-07, 'epoch': 7.11}
 44%|████▍     | 165140/371472 [2:03:58<15:53:54,  3.61it/s] 44%|████▍     | 165141/371472 [2:03:59<16:15:55,  3.52it/s] 44%|████▍     | 165142/371472 [2:03:59<15:40:34,  3.66it/s] 44%|████▍     | 165143/371472 [2:03:59<15:27:09,  3.71it/s] 44%|████▍     | 165144/371472 [2:04:00<15:44:30,  3.64it/s] 44%|████▍     | 165145/371472 [2:04:00<15:40:56,  3.65it/s] 44%|████▍     | 165146/371472 [2:04:00<15:56:33,  3.59it/s] 44%|████▍     | 165147/371472 [2:04:00<15:19:18,  3.74it/s] 44%|████▍     | 165148/371472 [2:04:01<15:14:45,  3.76it/s] 44%|████▍     | 165149/371472 [2:04:01<15:01:05,  3.82it/s] 44%|████▍     | 165150/371472 [2:04:01<15:39:39,  3.66it/s] 44%|████▍     | 165151/371472 [2:04:01<15:30:38,  3.69it/s] 44%|████▍     | 165152/371472 [2:04:02<16:18:36,  3.51it/s] 44%|████▍     | 165153/371472 [2:04:02<15:37:38,  3.67it/s] 44%|████▍     | 165154/371472 [2:04:02<15:58:25,  3.59it/s] 44%|████▍     | 165155/371472 [2:04:03<16:08:59,  3.55it/s] 44%|████▍     | 165156/371472 [2:04:03<16:15:16,  3.53it/s] 44%|████▍     | 165157/371472 [2:04:03<16:08:58,  3.55it/s] 44%|████▍     | 165158/371472 [2:04:03<16:30:13,  3.47it/s] 44%|████▍     | 165159/371472 [2:04:04<16:10:51,  3.54it/s] 44%|████▍     | 165160/371472 [2:04:04<15:52:04,  3.61it/s]                                                            {'loss': 3.2515, 'learning_rate': 6.001206662500807e-07, 'epoch': 7.11}
 44%|████▍     | 165160/371472 [2:04:04<15:52:04,  3.61it/s] 44%|████▍     | 165161/371472 [2:04:04<15:14:59,  3.76it/s] 44%|████▍     | 165162/371472 [2:04:04<15:19:44,  3.74it/s] 44%|████▍     | 165163/371472 [2:04:05<15:07:36,  3.79it/s] 44%|████▍     | 165164/371472 [2:04:05<15:32:58,  3.69it/s] 44%|████▍     | 165165/371472 [2:04:05<16:27:02,  3.48it/s] 44%|████▍     | 165166/371472 [2:04:06<16:25:49,  3.49it/s] 44%|████▍     | 165167/371472 [2:04:06<16:20:50,  3.51it/s] 44%|████▍     | 165168/371472 [2:04:06<16:04:48,  3.56it/s] 44%|████▍     | 165169/371472 [2:04:06<15:44:41,  3.64it/s] 44%|████▍     | 165170/371472 [2:04:07<16:00:58,  3.58it/s] 44%|████▍     | 165171/371472 [2:04:07<17:13:20,  3.33it/s] 44%|████▍     | 165172/371472 [2:04:07<17:04:41,  3.36it/s] 44%|████▍     | 165173/371472 [2:04:08<17:14:25,  3.32it/s] 44%|████▍     | 165174/371472 [2:04:08<16:37:18,  3.45it/s] 44%|████▍     | 165175/371472 [2:04:08<17:13:53,  3.33it/s] 44%|████▍     | 165176/371472 [2:04:09<18:13:48,  3.14it/s] 44%|████▍     | 165177/371472 [2:04:09<18:17:02,  3.13it/s] 44%|████▍     | 165178/371472 [2:04:09<17:19:44,  3.31it/s] 44%|████▍     | 165179/371472 [2:04:09<17:22:41,  3.30it/s] 44%|████▍     | 165180/371472 [2:04:10<17:11:01,  3.33it/s]                                                            {'loss': 3.0543, 'learning_rate': 6.000721842746018e-07, 'epoch': 7.11}
 44%|████▍     | 165180/371472 [2:04:10<17:11:01,  3.33it/s] 44%|████▍     | 165181/371472 [2:04:10<16:44:56,  3.42it/s] 44%|████▍     | 165182/371472 [2:04:10<16:33:25,  3.46it/s] 44%|████▍     | 165183/371472 [2:04:11<17:02:12,  3.36it/s] 44%|████▍     | 165184/371472 [2:04:11<16:20:44,  3.51it/s] 44%|████▍     | 165185/371472 [2:04:11<16:33:33,  3.46it/s] 44%|████▍     | 165186/371472 [2:04:12<17:34:45,  3.26it/s] 44%|████▍     | 165187/371472 [2:04:12<17:13:31,  3.33it/s] 44%|████▍     | 165188/371472 [2:04:12<16:42:03,  3.43it/s] 44%|████▍     | 165189/371472 [2:04:12<16:08:58,  3.55it/s] 44%|████▍     | 165190/371472 [2:04:13<16:17:34,  3.52it/s] 44%|████▍     | 165191/371472 [2:04:13<16:11:29,  3.54it/s] 44%|████▍     | 165192/371472 [2:04:13<16:22:37,  3.50it/s] 44%|████▍     | 165193/371472 [2:04:14<16:07:58,  3.55it/s] 44%|████▍     | 165194/371472 [2:04:14<15:42:48,  3.65it/s] 44%|████▍     | 165195/371472 [2:04:14<15:19:36,  3.74it/s] 44%|████▍     | 165196/371472 [2:04:14<15:31:44,  3.69it/s] 44%|████▍     | 165197/371472 [2:04:15<16:35:06,  3.45it/s] 44%|████▍     | 165198/371472 [2:04:15<16:00:09,  3.58it/s] 44%|████▍     | 165199/371472 [2:04:15<15:53:39,  3.60it/s] 44%|████▍     | 165200/371472 [2:04:15<15:43:33,  3.64it/s]                                                            {'loss': 3.0576, 'learning_rate': 6.00023702299123e-07, 'epoch': 7.12}
 44%|████▍     | 165200/371472 [2:04:15<15:43:33,  3.64it/s] 44%|████▍     | 165201/371472 [2:04:16<16:20:49,  3.51it/s] 44%|████▍     | 165202/371472 [2:04:16<16:23:21,  3.50it/s] 44%|████▍     | 165203/371472 [2:04:16<16:06:42,  3.56it/s] 44%|████▍     | 165204/371472 [2:04:17<17:01:28,  3.37it/s] 44%|████▍     | 165205/371472 [2:04:17<17:35:10,  3.26it/s] 44%|████▍     | 165206/371472 [2:04:17<17:36:12,  3.25it/s] 44%|████▍     | 165207/371472 [2:04:18<16:34:21,  3.46it/s] 44%|████▍     | 165208/371472 [2:04:18<16:20:51,  3.50it/s] 44%|████▍     | 165209/371472 [2:04:18<16:05:55,  3.56it/s] 44%|████▍     | 165210/371472 [2:04:18<15:37:46,  3.67it/s] 44%|████▍     | 165211/371472 [2:04:19<15:17:19,  3.75it/s] 44%|████▍     | 165212/371472 [2:04:19<15:23:30,  3.72it/s] 44%|████▍     | 165213/371472 [2:04:19<15:33:26,  3.68it/s] 44%|████▍     | 165214/371472 [2:04:19<15:38:10,  3.66it/s] 44%|████▍     | 165215/371472 [2:04:20<15:54:56,  3.60it/s] 44%|████▍     | 165216/371472 [2:04:20<15:38:42,  3.66it/s] 44%|████▍     | 165217/371472 [2:04:20<16:59:41,  3.37it/s] 44%|████▍     | 165218/371472 [2:04:21<16:40:24,  3.44it/s] 44%|████▍     | 165219/371472 [2:04:21<16:43:25,  3.43it/s] 44%|████▍     | 165220/371472 [2:04:21<16:50:34,  3.40it/s]                                                            {'loss': 3.2027, 'learning_rate': 5.999752203236441e-07, 'epoch': 7.12}
 44%|████▍     | 165220/371472 [2:04:21<16:50:34,  3.40it/s] 44%|████▍     | 165221/371472 [2:04:21<16:47:27,  3.41it/s] 44%|████▍     | 165222/371472 [2:04:22<16:45:37,  3.42it/s] 44%|████▍     | 165223/371472 [2:04:22<16:22:49,  3.50it/s] 44%|████▍     | 165224/371472 [2:04:22<16:03:00,  3.57it/s] 44%|████▍     | 165225/371472 [2:04:23<17:04:44,  3.35it/s] 44%|████▍     | 165226/371472 [2:04:23<17:06:07,  3.35it/s] 44%|████▍     | 165227/371472 [2:04:23<16:39:19,  3.44it/s] 44%|████▍     | 165228/371472 [2:04:23<16:02:04,  3.57it/s] 44%|████▍     | 165229/371472 [2:04:24<15:50:59,  3.61it/s] 44%|████▍     | 165230/371472 [2:04:24<18:05:06,  3.17it/s] 44%|████▍     | 165231/371472 [2:04:24<18:44:59,  3.06it/s] 44%|████▍     | 165232/371472 [2:04:25<19:00:47,  3.01it/s] 44%|████▍     | 165233/371472 [2:04:25<17:42:24,  3.24it/s] 44%|████▍     | 165234/371472 [2:04:25<17:05:19,  3.35it/s] 44%|████▍     | 165235/371472 [2:04:26<16:15:58,  3.52it/s] 44%|████▍     | 165236/371472 [2:04:26<15:46:28,  3.63it/s] 44%|████▍     | 165237/371472 [2:04:26<16:11:12,  3.54it/s] 44%|████▍     | 165238/371472 [2:04:26<15:29:43,  3.70it/s] 44%|████▍     | 165239/371472 [2:04:27<15:53:44,  3.60it/s] 44%|████▍     | 165240/371472 [2:04:27<15:37:34,  3.67it/s]                                                            {'loss': 2.9374, 'learning_rate': 5.999267383481652e-07, 'epoch': 7.12}
 44%|████▍     | 165240/371472 [2:04:27<15:37:34,  3.67it/s] 44%|████▍     | 165241/371472 [2:04:27<16:57:53,  3.38it/s] 44%|████▍     | 165242/371472 [2:04:28<16:12:12,  3.54it/s] 44%|████▍     | 165243/371472 [2:04:28<16:23:49,  3.49it/s] 44%|████▍     | 165244/371472 [2:04:28<16:31:18,  3.47it/s] 44%|████▍     | 165245/371472 [2:04:28<17:22:34,  3.30it/s] 44%|████▍     | 165246/371472 [2:04:29<16:41:28,  3.43it/s] 44%|████▍     | 165247/371472 [2:04:29<17:05:27,  3.35it/s] 44%|████▍     | 165248/371472 [2:04:29<16:27:54,  3.48it/s] 44%|████▍     | 165249/371472 [2:04:30<15:56:46,  3.59it/s] 44%|████▍     | 165250/371472 [2:04:30<18:04:50,  3.17it/s] 44%|████▍     | 165251/371472 [2:04:30<17:48:27,  3.22it/s] 44%|████▍     | 165252/371472 [2:04:31<16:52:47,  3.39it/s] 44%|████▍     | 165253/371472 [2:04:31<16:31:08,  3.47it/s] 44%|████▍     | 165254/371472 [2:04:31<16:26:39,  3.48it/s] 44%|████▍     | 165255/371472 [2:04:31<16:08:34,  3.55it/s] 44%|████▍     | 165256/371472 [2:04:32<15:38:07,  3.66it/s] 44%|████▍     | 165257/371472 [2:04:32<15:22:53,  3.72it/s] 44%|████▍     | 165258/371472 [2:04:32<15:09:46,  3.78it/s] 44%|████▍     | 165259/371472 [2:04:32<16:33:31,  3.46it/s] 44%|████▍     | 165260/371472 [2:04:33<17:31:50,  3.27it/s]                                                            {'loss': 3.1908, 'learning_rate': 5.998782563726863e-07, 'epoch': 7.12}
 44%|████▍     | 165260/371472 [2:04:33<17:31:50,  3.27it/s] 44%|████▍     | 165261/371472 [2:04:33<17:44:17,  3.23it/s] 44%|████▍     | 165262/371472 [2:04:33<17:22:04,  3.30it/s] 44%|████▍     | 165263/371472 [2:04:34<18:16:06,  3.14it/s] 44%|████▍     | 165264/371472 [2:04:34<16:53:52,  3.39it/s] 44%|████▍     | 165265/371472 [2:04:34<16:07:36,  3.55it/s] 44%|████▍     | 165266/371472 [2:04:35<16:02:31,  3.57it/s] 44%|████▍     | 165267/371472 [2:04:35<17:25:01,  3.29it/s] 44%|████▍     | 165268/371472 [2:04:35<18:08:28,  3.16it/s] 44%|████▍     | 165269/371472 [2:04:36<17:30:38,  3.27it/s] 44%|████▍     | 165270/371472 [2:04:36<16:54:20,  3.39it/s] 44%|████▍     | 165271/371472 [2:04:36<16:43:53,  3.42it/s] 44%|████▍     | 165272/371472 [2:04:36<16:27:04,  3.48it/s] 44%|████▍     | 165273/371472 [2:04:37<16:14:14,  3.53it/s] 44%|████▍     | 165274/371472 [2:04:37<16:04:46,  3.56it/s] 44%|████▍     | 165275/371472 [2:04:37<15:37:34,  3.67it/s] 44%|████▍     | 165276/371472 [2:04:37<16:09:15,  3.55it/s] 44%|████▍     | 165277/371472 [2:04:38<15:53:38,  3.60it/s] 44%|████▍     | 165278/371472 [2:04:38<16:01:04,  3.58it/s] 44%|████▍     | 165279/371472 [2:04:38<15:34:45,  3.68it/s] 44%|████▍     | 165280/371472 [2:04:39<16:04:46,  3.56it/s]                                                            {'loss': 3.0236, 'learning_rate': 5.998297743972074e-07, 'epoch': 7.12}
 44%|████▍     | 165280/371472 [2:04:39<16:04:46,  3.56it/s] 44%|████▍     | 165281/371472 [2:04:39<15:32:16,  3.69it/s] 44%|████▍     | 165282/371472 [2:04:39<16:23:01,  3.50it/s] 44%|████▍     | 165283/371472 [2:04:39<17:07:30,  3.34it/s] 44%|████▍     | 165284/371472 [2:04:40<16:42:30,  3.43it/s] 44%|████▍     | 165285/371472 [2:04:40<16:35:30,  3.45it/s] 44%|████▍     | 165286/371472 [2:04:40<17:25:30,  3.29it/s] 44%|████▍     | 165287/371472 [2:04:41<16:51:02,  3.40it/s] 44%|████▍     | 165288/371472 [2:04:41<16:25:56,  3.49it/s] 44%|████▍     | 165289/371472 [2:04:41<18:54:57,  3.03it/s] 44%|████▍     | 165290/371472 [2:04:42<18:57:15,  3.02it/s] 44%|████▍     | 165291/371472 [2:04:42<17:55:50,  3.19it/s] 44%|████▍     | 165292/371472 [2:04:42<17:37:07,  3.25it/s] 44%|████▍     | 165293/371472 [2:04:43<17:27:44,  3.28it/s] 44%|████▍     | 165294/371472 [2:04:43<17:31:35,  3.27it/s] 44%|████▍     | 165295/371472 [2:04:43<17:23:42,  3.29it/s] 44%|████▍     | 165296/371472 [2:04:43<16:52:37,  3.39it/s] 44%|████▍     | 165297/371472 [2:04:44<16:22:33,  3.50it/s] 44%|████▍     | 165298/371472 [2:04:44<16:04:24,  3.56it/s] 44%|████▍     | 165299/371472 [2:04:44<16:34:46,  3.45it/s] 44%|████▍     | 165300/371472 [2:04:45<16:18:44,  3.51it/s]                                                            {'loss': 3.1943, 'learning_rate': 5.997812924217286e-07, 'epoch': 7.12}
 44%|████▍     | 165300/371472 [2:04:45<16:18:44,  3.51it/s] 44%|████▍     | 165301/371472 [2:04:45<16:32:46,  3.46it/s] 44%|████▍     | 165302/371472 [2:04:45<16:25:49,  3.49it/s] 44%|████▍     | 165303/371472 [2:04:45<16:21:48,  3.50it/s] 44%|████▍     | 165304/371472 [2:04:46<16:31:59,  3.46it/s] 44%|████▍     | 165305/371472 [2:04:46<17:34:13,  3.26it/s] 45%|████▍     | 165306/371472 [2:04:46<16:43:38,  3.42it/s] 45%|████▍     | 165307/371472 [2:04:47<16:05:31,  3.56it/s] 45%|████▍     | 165308/371472 [2:04:47<16:03:17,  3.57it/s] 45%|████▍     | 165309/371472 [2:04:47<15:55:56,  3.59it/s] 45%|████▍     | 165310/371472 [2:04:47<15:35:46,  3.67it/s] 45%|████▍     | 165311/371472 [2:04:48<16:42:08,  3.43it/s] 45%|████▍     | 165312/371472 [2:04:48<16:17:10,  3.52it/s] 45%|████▍     | 165313/371472 [2:04:48<16:41:04,  3.43it/s] 45%|████▍     | 165314/371472 [2:04:49<18:01:14,  3.18it/s] 45%|████▍     | 165315/371472 [2:04:49<16:48:42,  3.41it/s] 45%|████▍     | 165316/371472 [2:04:49<17:20:46,  3.30it/s] 45%|████▍     | 165317/371472 [2:04:50<17:00:02,  3.37it/s] 45%|████▍     | 165318/371472 [2:04:50<16:09:04,  3.55it/s] 45%|████▍     | 165319/371472 [2:04:50<15:49:46,  3.62it/s] 45%|████▍     | 165320/371472 [2:04:50<15:57:27,  3.59it/s]                                                            {'loss': 3.0385, 'learning_rate': 5.997328104462495e-07, 'epoch': 7.12}
 45%|████▍     | 165320/371472 [2:04:50<15:57:27,  3.59it/s] 45%|████▍     | 165321/371472 [2:04:51<16:18:57,  3.51it/s] 45%|████▍     | 165322/371472 [2:04:51<16:06:18,  3.56it/s] 45%|████▍     | 165323/371472 [2:04:51<16:01:14,  3.57it/s] 45%|████▍     | 165324/371472 [2:04:51<16:17:51,  3.51it/s] 45%|████▍     | 165325/371472 [2:04:52<15:46:43,  3.63it/s] 45%|████▍     | 165326/371472 [2:04:52<15:54:42,  3.60it/s] 45%|████▍     | 165327/371472 [2:04:52<15:42:14,  3.65it/s] 45%|████▍     | 165328/371472 [2:04:53<16:27:03,  3.48it/s] 45%|████▍     | 165329/371472 [2:04:53<15:47:36,  3.63it/s] 45%|████▍     | 165330/371472 [2:04:53<15:34:11,  3.68it/s] 45%|████▍     | 165331/371472 [2:04:53<14:52:48,  3.85it/s] 45%|████▍     | 165332/371472 [2:04:54<15:12:39,  3.76it/s] 45%|████▍     | 165333/371472 [2:04:54<16:05:49,  3.56it/s] 45%|████▍     | 165334/371472 [2:04:54<15:31:58,  3.69it/s] 45%|████▍     | 165335/371472 [2:04:54<15:40:18,  3.65it/s] 45%|████▍     | 165336/371472 [2:04:55<16:27:40,  3.48it/s] 45%|████▍     | 165337/371472 [2:04:55<16:40:10,  3.43it/s] 45%|████▍     | 165338/371472 [2:04:55<16:27:58,  3.48it/s] 45%|████▍     | 165339/371472 [2:04:56<16:09:01,  3.55it/s] 45%|████▍     | 165340/371472 [2:04:56<15:49:50,  3.62it/s]                                                            {'loss': 3.0476, 'learning_rate': 5.996843284707707e-07, 'epoch': 7.12}
 45%|████▍     | 165340/371472 [2:04:56<15:49:50,  3.62it/s] 45%|████▍     | 165341/371472 [2:04:56<15:57:49,  3.59it/s] 45%|████▍     | 165342/371472 [2:04:57<17:46:32,  3.22it/s] 45%|████▍     | 165343/371472 [2:04:57<17:42:34,  3.23it/s] 45%|████▍     | 165344/371472 [2:04:57<17:26:59,  3.28it/s] 45%|████▍     | 165345/371472 [2:04:57<17:59:18,  3.18it/s] 45%|████▍     | 165346/371472 [2:04:58<19:43:41,  2.90it/s] 45%|████▍     | 165347/371472 [2:04:58<18:57:28,  3.02it/s] 45%|████▍     | 165348/371472 [2:04:59<18:30:50,  3.09it/s] 45%|████▍     | 165349/371472 [2:04:59<18:47:11,  3.05it/s] 45%|████▍     | 165350/371472 [2:04:59<20:43:04,  2.76it/s] 45%|████▍     | 165351/371472 [2:05:00<20:09:33,  2.84it/s] 45%|████▍     | 165352/371472 [2:05:00<19:34:04,  2.93it/s] 45%|████▍     | 165353/371472 [2:05:00<18:19:56,  3.12it/s] 45%|████▍     | 165354/371472 [2:05:00<17:25:54,  3.28it/s] 45%|████▍     | 165355/371472 [2:05:01<16:43:22,  3.42it/s] 45%|████▍     | 165356/371472 [2:05:01<16:52:53,  3.39it/s] 45%|████▍     | 165357/371472 [2:05:01<16:33:50,  3.46it/s] 45%|████▍     | 165358/371472 [2:05:02<16:45:14,  3.42it/s] 45%|████▍     | 165359/371472 [2:05:02<18:45:43,  3.05it/s] 45%|████▍     | 165360/371472 [2:05:02<17:44:04,  3.23it/s]                                                            {'loss': 3.0704, 'learning_rate': 5.996358464952919e-07, 'epoch': 7.12}
 45%|████▍     | 165360/371472 [2:05:02<17:44:04,  3.23it/s] 45%|████▍     | 165361/371472 [2:05:03<17:01:48,  3.36it/s] 45%|████▍     | 165362/371472 [2:05:03<16:22:02,  3.50it/s] 45%|████▍     | 165363/371472 [2:05:03<16:14:21,  3.53it/s] 45%|████▍     | 165364/371472 [2:05:03<16:13:20,  3.53it/s] 45%|████▍     | 165365/371472 [2:05:04<16:09:14,  3.54it/s] 45%|████▍     | 165366/371472 [2:05:04<16:24:35,  3.49it/s] 45%|████▍     | 165367/371472 [2:05:04<16:54:58,  3.38it/s] 45%|████▍     | 165368/371472 [2:05:05<17:40:31,  3.24it/s] 45%|████▍     | 165369/371472 [2:05:05<16:37:06,  3.45it/s] 45%|████▍     | 165370/371472 [2:05:05<15:41:27,  3.65it/s] 45%|████▍     | 165371/371472 [2:05:05<15:34:45,  3.67it/s] 45%|████▍     | 165372/371472 [2:05:06<15:39:17,  3.66it/s] 45%|████▍     | 165373/371472 [2:05:06<15:26:15,  3.71it/s] 45%|████▍     | 165374/371472 [2:05:06<15:06:09,  3.79it/s] 45%|████▍     | 165375/371472 [2:05:06<15:05:23,  3.79it/s] 45%|████▍     | 165376/371472 [2:05:07<16:38:36,  3.44it/s] 45%|████▍     | 165377/371472 [2:05:07<16:37:13,  3.44it/s] 45%|████▍     | 165378/371472 [2:05:07<16:08:39,  3.55it/s] 45%|████▍     | 165379/371472 [2:05:08<15:43:51,  3.64it/s] 45%|████▍     | 165380/371472 [2:05:08<18:21:25,  3.12it/s]                                                            {'loss': 3.0756, 'learning_rate': 5.99587364519813e-07, 'epoch': 7.12}
 45%|████▍     | 165380/371472 [2:05:08<18:21:25,  3.12it/s] 45%|████▍     | 165381/371472 [2:05:08<17:04:46,  3.35it/s] 45%|████▍     | 165382/371472 [2:05:09<17:28:23,  3.28it/s] 45%|████▍     | 165383/371472 [2:05:09<16:46:56,  3.41it/s] 45%|████▍     | 165384/371472 [2:05:09<16:51:13,  3.40it/s] 45%|████▍     | 165385/371472 [2:05:09<16:02:00,  3.57it/s] 45%|████▍     | 165386/371472 [2:05:10<15:39:48,  3.65it/s] 45%|████▍     | 165387/371472 [2:05:10<16:22:21,  3.50it/s] 45%|████▍     | 165388/371472 [2:05:10<16:45:01,  3.42it/s] 45%|████▍     | 165389/371472 [2:05:11<16:06:01,  3.56it/s] 45%|████▍     | 165390/371472 [2:05:11<15:35:00,  3.67it/s] 45%|████▍     | 165391/371472 [2:05:11<15:39:39,  3.66it/s] 45%|████▍     | 165392/371472 [2:05:11<15:49:06,  3.62it/s] 45%|████▍     | 165393/371472 [2:05:12<16:11:39,  3.53it/s] 45%|████▍     | 165394/371472 [2:05:12<16:01:42,  3.57it/s] 45%|████▍     | 165395/371472 [2:05:12<15:56:37,  3.59it/s] 45%|████▍     | 165396/371472 [2:05:12<15:26:21,  3.71it/s] 45%|████▍     | 165397/371472 [2:05:13<15:19:52,  3.73it/s] 45%|████▍     | 165398/371472 [2:05:13<15:38:50,  3.66it/s] 45%|████▍     | 165399/371472 [2:05:13<17:19:35,  3.30it/s] 45%|████▍     | 165400/371472 [2:05:14<16:27:56,  3.48it/s]                                                            {'loss': 2.9654, 'learning_rate': 5.99538882544334e-07, 'epoch': 7.12}
 45%|████▍     | 165400/371472 [2:05:14<16:27:56,  3.48it/s] 45%|████▍     | 165401/371472 [2:05:14<15:37:55,  3.66it/s] 45%|████▍     | 165402/371472 [2:05:14<16:14:56,  3.52it/s] 45%|████▍     | 165403/371472 [2:05:14<16:15:17,  3.52it/s] 45%|████▍     | 165404/371472 [2:05:15<16:01:58,  3.57it/s] 45%|████▍     | 165405/371472 [2:05:15<15:45:35,  3.63it/s] 45%|████▍     | 165406/371472 [2:05:15<15:58:33,  3.58it/s] 45%|████▍     | 165407/371472 [2:05:16<15:52:15,  3.61it/s] 45%|████▍     | 165408/371472 [2:05:16<15:43:38,  3.64it/s] 45%|████▍     | 165409/371472 [2:05:16<15:12:39,  3.76it/s] 45%|████▍     | 165410/371472 [2:05:16<15:04:33,  3.80it/s] 45%|████▍     | 165411/371472 [2:05:17<15:17:53,  3.74it/s] 45%|████▍     | 165412/371472 [2:05:17<15:19:29,  3.74it/s] 45%|████▍     | 165413/371472 [2:05:17<15:31:03,  3.69it/s] 45%|████▍     | 165414/371472 [2:05:17<15:34:04,  3.68it/s] 45%|████▍     | 165415/371472 [2:05:18<15:27:37,  3.70it/s] 45%|████▍     | 165416/371472 [2:05:18<15:33:04,  3.68it/s] 45%|████▍     | 165417/371472 [2:05:18<15:28:16,  3.70it/s] 45%|████▍     | 165418/371472 [2:05:18<15:51:19,  3.61it/s] 45%|████▍     | 165419/371472 [2:05:19<15:55:01,  3.60it/s] 45%|████▍     | 165420/371472 [2:05:19<16:33:33,  3.46it/s]                                                            {'loss': 3.0812, 'learning_rate': 5.994904005688551e-07, 'epoch': 7.12}
 45%|████▍     | 165420/371472 [2:05:19<16:33:33,  3.46it/s] 45%|████▍     | 165421/371472 [2:05:19<16:19:33,  3.51it/s] 45%|████▍     | 165422/371472 [2:05:20<15:43:48,  3.64it/s] 45%|████▍     | 165423/371472 [2:05:20<15:37:38,  3.66it/s] 45%|████▍     | 165424/371472 [2:05:20<15:19:38,  3.73it/s] 45%|████▍     | 165425/371472 [2:05:20<16:26:01,  3.48it/s] 45%|████▍     | 165426/371472 [2:05:21<16:06:50,  3.55it/s] 45%|████▍     | 165427/371472 [2:05:21<15:48:16,  3.62it/s] 45%|████▍     | 165428/371472 [2:05:21<15:47:13,  3.63it/s] 45%|████▍     | 165429/371472 [2:05:22<15:19:03,  3.74it/s] 45%|████▍     | 165430/371472 [2:05:22<15:23:01,  3.72it/s] 45%|████▍     | 165431/371472 [2:05:22<17:00:05,  3.37it/s] 45%|████▍     | 165432/371472 [2:05:22<16:28:00,  3.48it/s] 45%|████▍     | 165433/371472 [2:05:23<16:47:46,  3.41it/s] 45%|████▍     | 165434/371472 [2:05:23<16:18:28,  3.51it/s] 45%|████▍     | 165435/371472 [2:05:23<16:11:53,  3.53it/s] 45%|████▍     | 165436/371472 [2:05:24<16:27:24,  3.48it/s] 45%|████▍     | 165437/371472 [2:05:24<15:54:05,  3.60it/s] 45%|████▍     | 165438/371472 [2:05:24<15:58:42,  3.58it/s] 45%|████▍     | 165439/371472 [2:05:24<15:40:36,  3.65it/s] 45%|████▍     | 165440/371472 [2:05:25<15:42:59,  3.64it/s]                                                            {'loss': 3.1038, 'learning_rate': 5.994419185933763e-07, 'epoch': 7.13}
 45%|████▍     | 165440/371472 [2:05:25<15:42:59,  3.64it/s] 45%|████▍     | 165441/371472 [2:05:25<16:11:40,  3.53it/s] 45%|████▍     | 165442/371472 [2:05:25<16:24:30,  3.49it/s] 45%|████▍     | 165443/371472 [2:05:26<16:15:41,  3.52it/s] 45%|████▍     | 165444/371472 [2:05:26<15:45:48,  3.63it/s] 45%|████▍     | 165445/371472 [2:05:26<15:37:48,  3.66it/s] 45%|████▍     | 165446/371472 [2:05:26<15:52:40,  3.60it/s] 45%|████▍     | 165447/371472 [2:05:27<15:33:45,  3.68it/s] 45%|████▍     | 165448/371472 [2:05:27<16:37:37,  3.44it/s] 45%|████▍     | 165449/371472 [2:05:27<16:38:18,  3.44it/s] 45%|████▍     | 165450/371472 [2:05:28<16:42:48,  3.42it/s] 45%|████▍     | 165451/371472 [2:05:28<16:46:49,  3.41it/s] 45%|████▍     | 165452/371472 [2:05:28<18:05:44,  3.16it/s] 45%|████▍     | 165453/371472 [2:05:28<16:58:37,  3.37it/s] 45%|████▍     | 165454/371472 [2:05:29<17:06:42,  3.34it/s] 45%|████▍     | 165455/371472 [2:05:29<17:18:21,  3.31it/s] 45%|████▍     | 165456/371472 [2:05:29<16:54:28,  3.38it/s] 45%|████▍     | 165457/371472 [2:05:30<16:16:27,  3.52it/s] 45%|████▍     | 165458/371472 [2:05:30<16:12:34,  3.53it/s] 45%|████▍     | 165459/371472 [2:05:30<16:21:39,  3.50it/s] 45%|████▍     | 165460/371472 [2:05:30<17:11:47,  3.33it/s]                                                            {'loss': 3.0566, 'learning_rate': 5.993934366178973e-07, 'epoch': 7.13}
 45%|████▍     | 165460/371472 [2:05:30<17:11:47,  3.33it/s] 45%|████▍     | 165461/371472 [2:05:31<17:49:54,  3.21it/s] 45%|████▍     | 165462/371472 [2:05:31<17:36:08,  3.25it/s] 45%|████▍     | 165463/371472 [2:05:31<18:21:46,  3.12it/s] 45%|████▍     | 165464/371472 [2:05:32<17:27:53,  3.28it/s] 45%|████▍     | 165465/371472 [2:05:32<16:23:59,  3.49it/s] 45%|████▍     | 165466/371472 [2:05:32<15:51:03,  3.61it/s] 45%|████▍     | 165467/371472 [2:05:33<15:42:57,  3.64it/s] 45%|████▍     | 165468/371472 [2:05:33<15:49:37,  3.62it/s] 45%|████▍     | 165469/371472 [2:05:33<16:13:30,  3.53it/s] 45%|████▍     | 165470/371472 [2:05:33<16:29:09,  3.47it/s] 45%|████▍     | 165471/371472 [2:05:34<16:13:28,  3.53it/s] 45%|████▍     | 165472/371472 [2:05:34<15:37:14,  3.66it/s] 45%|████▍     | 165473/371472 [2:05:34<15:27:03,  3.70it/s] 45%|████▍     | 165474/371472 [2:05:34<15:32:38,  3.68it/s] 45%|████▍     | 165475/371472 [2:05:35<17:18:39,  3.31it/s] 45%|████▍     | 165476/371472 [2:05:35<17:51:57,  3.20it/s] 45%|████▍     | 165477/371472 [2:05:35<17:48:30,  3.21it/s] 45%|████▍     | 165478/371472 [2:05:36<16:33:43,  3.45it/s] 45%|████▍     | 165479/371472 [2:05:36<16:09:37,  3.54it/s] 45%|████▍     | 165480/371472 [2:05:36<16:59:38,  3.37it/s]                                                            {'loss': 3.3375, 'learning_rate': 5.993449546424184e-07, 'epoch': 7.13}
 45%|████▍     | 165480/371472 [2:05:36<16:59:38,  3.37it/s] 45%|████▍     | 165481/371472 [2:05:37<17:39:09,  3.24it/s] 45%|████▍     | 165482/371472 [2:05:37<17:10:24,  3.33it/s] 45%|████▍     | 165483/371472 [2:05:37<17:25:28,  3.28it/s] 45%|████▍     | 165484/371472 [2:05:38<17:39:42,  3.24it/s] 45%|████▍     | 165485/371472 [2:05:38<18:05:39,  3.16it/s] 45%|████▍     | 165486/371472 [2:05:38<17:11:16,  3.33it/s] 45%|████▍     | 165487/371472 [2:05:38<16:24:47,  3.49it/s] 45%|████▍     | 165488/371472 [2:05:39<15:44:42,  3.63it/s] 45%|████▍     | 165489/371472 [2:05:39<15:24:57,  3.71it/s] 45%|████▍     | 165490/371472 [2:05:39<17:00:10,  3.37it/s] 45%|████▍     | 165491/371472 [2:05:40<17:24:10,  3.29it/s] 45%|████▍     | 165492/371472 [2:05:40<17:28:50,  3.27it/s] 45%|████▍     | 165493/371472 [2:05:40<16:48:54,  3.40it/s] 45%|████▍     | 165494/371472 [2:05:40<16:05:24,  3.56it/s] 45%|████▍     | 165495/371472 [2:05:41<15:34:29,  3.67it/s] 45%|████▍     | 165496/371472 [2:05:41<15:12:03,  3.76it/s] 45%|████▍     | 165497/371472 [2:05:41<15:38:00,  3.66it/s] 45%|████▍     | 165498/371472 [2:05:42<16:19:01,  3.51it/s] 45%|████▍     | 165499/371472 [2:05:42<16:00:23,  3.57it/s] 45%|████▍     | 165500/371472 [2:05:42<15:45:12,  3.63it/s]                                                            {'loss': 3.0753, 'learning_rate': 5.992964726669396e-07, 'epoch': 7.13}
 45%|████▍     | 165500/371472 [2:05:42<15:45:12,  3.63it/s] 45%|████▍     | 165501/371472 [2:05:42<15:19:26,  3.73it/s] 45%|████▍     | 165502/371472 [2:05:43<15:23:58,  3.72it/s] 45%|████▍     | 165503/371472 [2:05:43<16:51:26,  3.39it/s] 45%|████▍     | 165504/371472 [2:05:43<16:34:09,  3.45it/s] 45%|████▍     | 165505/371472 [2:05:44<16:35:36,  3.45it/s] 45%|████▍     | 165506/371472 [2:05:44<18:17:41,  3.13it/s] 45%|████▍     | 165507/371472 [2:05:44<18:00:56,  3.18it/s] 45%|████▍     | 165508/371472 [2:05:44<17:41:10,  3.23it/s] 45%|████▍     | 165509/371472 [2:05:45<16:45:38,  3.41it/s] 45%|████▍     | 165510/371472 [2:05:45<16:46:00,  3.41it/s] 45%|████▍     | 165511/371472 [2:05:45<18:07:01,  3.16it/s] 45%|████▍     | 165512/371472 [2:05:46<18:22:13,  3.11it/s] 45%|████▍     | 165513/371472 [2:05:46<18:17:58,  3.13it/s] 45%|████▍     | 165514/371472 [2:05:46<17:36:04,  3.25it/s] 45%|████▍     | 165515/371472 [2:05:47<17:56:27,  3.19it/s] 45%|████▍     | 165516/371472 [2:05:47<17:25:40,  3.28it/s] 45%|████▍     | 165517/371472 [2:05:47<17:26:11,  3.28it/s] 45%|████▍     | 165518/371472 [2:05:48<16:45:47,  3.41it/s] 45%|████▍     | 165519/371472 [2:05:48<16:38:13,  3.44it/s] 45%|████▍     | 165520/371472 [2:05:48<16:45:34,  3.41it/s]                                                            {'loss': 3.1543, 'learning_rate': 5.992479906914608e-07, 'epoch': 7.13}
 45%|████▍     | 165520/371472 [2:05:48<16:45:34,  3.41it/s] 45%|████▍     | 165521/371472 [2:05:48<16:11:20,  3.53it/s] 45%|████▍     | 165522/371472 [2:05:49<15:52:18,  3.60it/s] 45%|████▍     | 165523/371472 [2:05:49<16:08:02,  3.55it/s] 45%|████▍     | 165524/371472 [2:05:49<15:36:28,  3.67it/s] 45%|████▍     | 165525/371472 [2:05:49<15:43:48,  3.64it/s] 45%|████▍     | 165526/371472 [2:05:50<16:14:09,  3.52it/s] 45%|████▍     | 165527/371472 [2:05:50<17:16:47,  3.31it/s] 45%|████▍     | 165528/371472 [2:05:50<16:34:08,  3.45it/s] 45%|████▍     | 165529/371472 [2:05:51<16:37:04,  3.44it/s] 45%|████▍     | 165530/371472 [2:05:51<16:14:24,  3.52it/s] 45%|████▍     | 165531/371472 [2:05:51<15:48:24,  3.62it/s] 45%|████▍     | 165532/371472 [2:05:52<16:27:27,  3.48it/s] 45%|████▍     | 165533/371472 [2:05:52<16:06:15,  3.55it/s] 45%|████▍     | 165534/371472 [2:05:52<16:21:25,  3.50it/s] 45%|████▍     | 165535/371472 [2:05:52<16:23:36,  3.49it/s] 45%|████▍     | 165536/371472 [2:05:53<15:59:54,  3.58it/s] 45%|████▍     | 165537/371472 [2:05:53<16:00:43,  3.57it/s] 45%|████▍     | 165538/371472 [2:05:53<15:46:33,  3.63it/s] 45%|████▍     | 165539/371472 [2:05:53<15:15:50,  3.75it/s] 45%|████▍     | 165540/371472 [2:05:54<15:38:12,  3.66it/s]                                                            {'loss': 3.0319, 'learning_rate': 5.991995087159816e-07, 'epoch': 7.13}
 45%|████▍     | 165540/371472 [2:05:54<15:38:12,  3.66it/s] 45%|████▍     | 165541/371472 [2:05:54<15:35:41,  3.67it/s] 45%|████▍     | 165542/371472 [2:05:54<15:29:51,  3.69it/s] 45%|████▍     | 165543/371472 [2:05:54<15:12:08,  3.76it/s] 45%|████▍     | 165544/371472 [2:05:55<15:22:52,  3.72it/s] 45%|████▍     | 165545/371472 [2:05:55<15:22:26,  3.72it/s] 45%|████▍     | 165546/371472 [2:05:55<15:29:23,  3.69it/s] 45%|████▍     | 165547/371472 [2:05:56<15:27:35,  3.70it/s] 45%|████▍     | 165548/371472 [2:05:56<16:01:13,  3.57it/s] 45%|████▍     | 165549/371472 [2:05:56<16:11:10,  3.53it/s] 45%|████▍     | 165550/371472 [2:05:56<16:08:05,  3.55it/s] 45%|████▍     | 165551/371472 [2:05:57<18:29:57,  3.09it/s] 45%|████▍     | 165552/371472 [2:05:57<18:11:38,  3.14it/s] 45%|████▍     | 165553/371472 [2:05:57<17:16:51,  3.31it/s] 45%|████▍     | 165554/371472 [2:05:58<16:19:54,  3.50it/s] 45%|████▍     | 165555/371472 [2:05:58<16:22:20,  3.49it/s] 45%|████▍     | 165556/371472 [2:05:58<16:53:16,  3.39it/s] 45%|████▍     | 165557/371472 [2:05:59<16:49:00,  3.40it/s] 45%|████▍     | 165558/371472 [2:05:59<16:11:36,  3.53it/s] 45%|████▍     | 165559/371472 [2:05:59<16:11:49,  3.53it/s] 45%|████▍     | 165560/371472 [2:05:59<16:50:54,  3.39it/s]                                                            {'loss': 3.065, 'learning_rate': 5.991510267405028e-07, 'epoch': 7.13}
 45%|████▍     | 165560/371472 [2:05:59<16:50:54,  3.39it/s] 45%|████▍     | 165561/371472 [2:06:00<16:16:15,  3.52it/s] 45%|████▍     | 165562/371472 [2:06:00<16:06:17,  3.55it/s] 45%|████▍     | 165563/371472 [2:06:01<20:11:57,  2.83it/s] 45%|████▍     | 165564/371472 [2:06:01<19:01:41,  3.01it/s] 45%|████▍     | 165565/371472 [2:06:01<18:02:55,  3.17it/s] 45%|████▍     | 165566/371472 [2:06:01<17:25:44,  3.28it/s] 45%|████▍     | 165567/371472 [2:06:02<16:40:08,  3.43it/s] 45%|████▍     | 165568/371472 [2:06:02<16:46:35,  3.41it/s] 45%|████▍     | 165569/371472 [2:06:02<16:20:00,  3.50it/s] 45%|████▍     | 165570/371472 [2:06:02<16:06:07,  3.55it/s] 45%|████▍     | 165571/371472 [2:06:03<15:39:43,  3.65it/s] 45%|████▍     | 165572/371472 [2:06:03<15:53:01,  3.60it/s] 45%|████▍     | 165573/371472 [2:06:03<16:53:08,  3.39it/s] 45%|████▍     | 165574/371472 [2:06:04<16:20:08,  3.50it/s] 45%|████▍     | 165575/371472 [2:06:04<16:24:42,  3.48it/s] 45%|████▍     | 165576/371472 [2:06:04<15:49:44,  3.61it/s] 45%|████▍     | 165577/371472 [2:06:04<17:07:24,  3.34it/s] 45%|████▍     | 165578/371472 [2:06:05<16:58:04,  3.37it/s] 45%|████▍     | 165579/371472 [2:06:05<17:23:23,  3.29it/s] 45%|████▍     | 165580/371472 [2:06:05<17:03:45,  3.35it/s]                                                            {'loss': 3.1304, 'learning_rate': 5.99102544765024e-07, 'epoch': 7.13}
 45%|████▍     | 165580/371472 [2:06:05<17:03:45,  3.35it/s] 45%|████▍     | 165581/371472 [2:06:06<16:15:10,  3.52it/s] 45%|████▍     | 165582/371472 [2:06:06<15:40:24,  3.65it/s] 45%|████▍     | 165583/371472 [2:06:06<15:56:01,  3.59it/s] 45%|████▍     | 165584/371472 [2:06:06<16:19:51,  3.50it/s] 45%|████▍     | 165585/371472 [2:06:07<16:39:18,  3.43it/s] 45%|████▍     | 165586/371472 [2:06:07<16:24:37,  3.49it/s] 45%|████▍     | 165587/371472 [2:06:07<15:39:42,  3.65it/s] 45%|████▍     | 165588/371472 [2:06:08<16:48:44,  3.40it/s] 45%|████▍     | 165589/371472 [2:06:08<16:15:04,  3.52it/s] 45%|████▍     | 165590/371472 [2:06:08<16:12:05,  3.53it/s] 45%|████▍     | 165591/371472 [2:06:08<15:44:33,  3.63it/s] 45%|████▍     | 165592/371472 [2:06:09<16:35:33,  3.45it/s] 45%|████▍     | 165593/371472 [2:06:09<16:05:11,  3.56it/s] 45%|████▍     | 165594/371472 [2:06:09<16:31:54,  3.46it/s] 45%|████▍     | 165595/371472 [2:06:10<16:13:03,  3.53it/s] 45%|████▍     | 165596/371472 [2:06:10<17:00:03,  3.36it/s] 45%|████▍     | 165597/371472 [2:06:10<16:15:38,  3.52it/s] 45%|████▍     | 165598/371472 [2:06:10<15:59:36,  3.58it/s] 45%|████▍     | 165599/371472 [2:06:11<15:57:31,  3.58it/s] 45%|████▍     | 165600/371472 [2:06:11<15:51:51,  3.60it/s]                                                            {'loss': 2.9431, 'learning_rate': 5.990540627895452e-07, 'epoch': 7.13}
 45%|████▍     | 165600/371472 [2:06:11<15:51:51,  3.60it/s] 45%|████▍     | 165601/371472 [2:06:11<15:30:18,  3.69it/s] 45%|████▍     | 165602/371472 [2:06:12<16:07:57,  3.54it/s] 45%|████▍     | 165603/371472 [2:06:12<15:44:53,  3.63it/s] 45%|████▍     | 165604/371472 [2:06:12<15:30:44,  3.69it/s] 45%|████▍     | 165605/371472 [2:06:12<15:54:29,  3.59it/s] 45%|████▍     | 165606/371472 [2:06:13<16:32:26,  3.46it/s] 45%|████▍     | 165607/371472 [2:06:13<16:28:04,  3.47it/s] 45%|████▍     | 165608/371472 [2:06:13<16:23:19,  3.49it/s] 45%|████▍     | 165609/371472 [2:06:14<17:03:26,  3.35it/s] 45%|████▍     | 165610/371472 [2:06:14<16:58:13,  3.37it/s] 45%|████▍     | 165611/371472 [2:06:14<16:15:51,  3.52it/s] 45%|████▍     | 165612/371472 [2:06:14<16:00:24,  3.57it/s] 45%|████▍     | 165613/371472 [2:06:15<15:40:15,  3.65it/s] 45%|████▍     | 165614/371472 [2:06:15<16:20:07,  3.50it/s] 45%|████▍     | 165615/371472 [2:06:15<16:04:30,  3.56it/s] 45%|████▍     | 165616/371472 [2:06:16<15:53:00,  3.60it/s] 45%|████▍     | 165617/371472 [2:06:16<15:55:28,  3.59it/s] 45%|████▍     | 165618/371472 [2:06:16<16:11:32,  3.53it/s] 45%|████▍     | 165619/371472 [2:06:16<15:48:43,  3.62it/s] 45%|████▍     | 165620/371472 [2:06:17<15:44:14,  3.63it/s]                                                            {'loss': 3.1439, 'learning_rate': 5.990055808140662e-07, 'epoch': 7.13}
 45%|████▍     | 165620/371472 [2:06:17<15:44:14,  3.63it/s] 45%|████▍     | 165621/371472 [2:06:17<15:44:00,  3.63it/s] 45%|████▍     | 165622/371472 [2:06:17<16:08:33,  3.54it/s] 45%|████▍     | 165623/371472 [2:06:17<16:13:27,  3.52it/s] 45%|████▍     | 165624/371472 [2:06:18<15:43:33,  3.64it/s] 45%|████▍     | 165625/371472 [2:06:18<15:27:10,  3.70it/s] 45%|████▍     | 165626/371472 [2:06:18<15:26:25,  3.70it/s] 45%|████▍     | 165627/371472 [2:06:19<15:30:19,  3.69it/s] 45%|████▍     | 165628/371472 [2:06:19<15:48:03,  3.62it/s] 45%|████▍     | 165629/371472 [2:06:19<16:24:55,  3.48it/s] 45%|████▍     | 165630/371472 [2:06:19<17:07:38,  3.34it/s] 45%|████▍     | 165631/371472 [2:06:20<16:08:47,  3.54it/s] 45%|████▍     | 165632/371472 [2:06:20<16:07:22,  3.55it/s] 45%|████▍     | 165633/371472 [2:06:20<15:32:47,  3.68it/s] 45%|████▍     | 165634/371472 [2:06:21<15:32:35,  3.68it/s] 45%|████▍     | 165635/371472 [2:06:21<15:26:52,  3.70it/s] 45%|████▍     | 165636/371472 [2:06:21<15:23:32,  3.71it/s] 45%|████▍     | 165637/371472 [2:06:21<15:11:58,  3.76it/s] 45%|████▍     | 165638/371472 [2:06:22<15:27:00,  3.70it/s] 45%|████▍     | 165639/371472 [2:06:22<15:32:00,  3.68it/s] 45%|████▍     | 165640/371472 [2:06:22<15:19:20,  3.73it/s]                                                            {'loss': 3.0786, 'learning_rate': 5.989570988385874e-07, 'epoch': 7.13}
 45%|████▍     | 165640/371472 [2:06:22<15:19:20,  3.73it/s] 45%|████▍     | 165641/371472 [2:06:22<16:50:36,  3.39it/s] 45%|████▍     | 165642/371472 [2:06:23<16:33:15,  3.45it/s] 45%|████▍     | 165643/371472 [2:06:23<16:08:58,  3.54it/s] 45%|████▍     | 165644/371472 [2:06:23<15:51:13,  3.61it/s] 45%|████▍     | 165645/371472 [2:06:24<17:36:08,  3.25it/s] 45%|████▍     | 165646/371472 [2:06:24<16:49:03,  3.40it/s] 45%|████▍     | 165647/371472 [2:06:24<17:26:39,  3.28it/s] 45%|████▍     | 165648/371472 [2:06:25<17:04:50,  3.35it/s] 45%|████▍     | 165649/371472 [2:06:25<16:54:58,  3.38it/s] 45%|████▍     | 165650/371472 [2:06:25<15:55:38,  3.59it/s] 45%|████▍     | 165651/371472 [2:06:25<15:54:58,  3.59it/s] 45%|████▍     | 165652/371472 [2:06:26<15:38:25,  3.66it/s] 45%|████▍     | 165653/371472 [2:06:26<17:13:39,  3.32it/s] 45%|████▍     | 165654/371472 [2:06:26<17:31:40,  3.26it/s] 45%|████▍     | 165655/371472 [2:06:27<16:58:19,  3.37it/s] 45%|████▍     | 165656/371472 [2:06:27<17:01:34,  3.36it/s] 45%|████▍     | 165657/371472 [2:06:27<16:26:35,  3.48it/s] 45%|████▍     | 165658/371472 [2:06:27<16:47:52,  3.40it/s] 45%|████▍     | 165659/371472 [2:06:28<16:19:22,  3.50it/s] 45%|████▍     | 165660/371472 [2:06:28<18:04:12,  3.16it/s]                                                            {'loss': 3.1371, 'learning_rate': 5.989086168631084e-07, 'epoch': 7.14}
 45%|████▍     | 165660/371472 [2:06:28<18:04:12,  3.16it/s] 45%|████▍     | 165661/371472 [2:06:28<17:10:30,  3.33it/s] 45%|████▍     | 165662/371472 [2:06:29<17:25:16,  3.28it/s] 45%|████▍     | 165663/371472 [2:06:29<17:31:52,  3.26it/s] 45%|████▍     | 165664/371472 [2:06:29<16:41:09,  3.43it/s] 45%|████▍     | 165665/371472 [2:06:30<16:48:35,  3.40it/s] 45%|████▍     | 165666/371472 [2:06:30<17:26:25,  3.28it/s] 45%|████▍     | 165667/371472 [2:06:30<16:45:25,  3.41it/s] 45%|████▍     | 165668/371472 [2:06:30<17:52:28,  3.20it/s] 45%|████▍     | 165669/371472 [2:06:31<17:06:54,  3.34it/s] 45%|████▍     | 165670/371472 [2:06:31<17:31:08,  3.26it/s] 45%|████▍     | 165671/371472 [2:06:31<17:20:15,  3.30it/s] 45%|████▍     | 165672/371472 [2:06:32<17:34:30,  3.25it/s] 45%|████▍     | 165673/371472 [2:06:32<16:53:24,  3.38it/s] 45%|████▍     | 165674/371472 [2:06:32<16:36:10,  3.44it/s] 45%|████▍     | 165675/371472 [2:06:33<16:06:54,  3.55it/s] 45%|████▍     | 165676/371472 [2:06:33<17:10:06,  3.33it/s] 45%|████▍     | 165677/371472 [2:06:33<16:25:45,  3.48it/s] 45%|████▍     | 165678/371472 [2:06:33<16:16:56,  3.51it/s] 45%|████▍     | 165679/371472 [2:06:34<16:27:33,  3.47it/s] 45%|████▍     | 165680/371472 [2:06:34<16:17:27,  3.51it/s]                                                            {'loss': 2.9633, 'learning_rate': 5.988601348876296e-07, 'epoch': 7.14}
 45%|████▍     | 165680/371472 [2:06:34<16:17:27,  3.51it/s] 45%|████▍     | 165681/371472 [2:06:34<15:54:24,  3.59it/s] 45%|████▍     | 165682/371472 [2:06:35<16:04:19,  3.56it/s] 45%|████▍     | 165683/371472 [2:06:35<15:24:36,  3.71it/s] 45%|████▍     | 165684/371472 [2:06:35<16:15:19,  3.52it/s] 45%|████▍     | 165685/371472 [2:06:35<16:20:54,  3.50it/s] 45%|████▍     | 165686/371472 [2:06:36<15:35:50,  3.66it/s] 45%|████▍     | 165687/371472 [2:06:36<15:33:48,  3.67it/s] 45%|████▍     | 165688/371472 [2:06:36<15:30:20,  3.69it/s] 45%|████▍     | 165689/371472 [2:06:36<15:22:59,  3.72it/s] 45%|████▍     | 165690/371472 [2:06:37<15:59:40,  3.57it/s] 45%|████▍     | 165691/371472 [2:06:37<15:57:43,  3.58it/s] 45%|████▍     | 165692/371472 [2:06:37<15:25:32,  3.71it/s] 45%|████▍     | 165693/371472 [2:06:38<15:47:06,  3.62it/s] 45%|████▍     | 165694/371472 [2:06:38<17:01:12,  3.36it/s] 45%|████▍     | 165695/371472 [2:06:38<16:51:55,  3.39it/s] 45%|████▍     | 165696/371472 [2:06:38<16:31:58,  3.46it/s] 45%|████▍     | 165697/371472 [2:06:39<17:32:12,  3.26it/s] 45%|████▍     | 165698/371472 [2:06:39<16:37:44,  3.44it/s] 45%|████▍     | 165699/371472 [2:06:39<16:06:11,  3.55it/s] 45%|████▍     | 165700/371472 [2:06:40<15:39:48,  3.65it/s]                                                            {'loss': 3.1805, 'learning_rate': 5.988116529121506e-07, 'epoch': 7.14}
 45%|████▍     | 165700/371472 [2:06:40<15:39:48,  3.65it/s] 45%|████▍     | 165701/371472 [2:06:40<16:25:50,  3.48it/s] 45%|████▍     | 165702/371472 [2:06:40<16:05:56,  3.55it/s] 45%|████▍     | 165703/371472 [2:06:40<15:28:42,  3.69it/s] 45%|████▍     | 165704/371472 [2:06:41<15:11:58,  3.76it/s] 45%|████▍     | 165705/371472 [2:06:41<15:21:08,  3.72it/s] 45%|████▍     | 165706/371472 [2:06:41<16:08:05,  3.54it/s] 45%|████▍     | 165707/371472 [2:06:41<15:40:26,  3.65it/s] 45%|████▍     | 165708/371472 [2:06:42<15:18:01,  3.74it/s] 45%|████▍     | 165709/371472 [2:06:42<17:00:23,  3.36it/s] 45%|████▍     | 165710/371472 [2:06:42<16:31:09,  3.46it/s] 45%|████▍     | 165711/371472 [2:06:43<17:26:50,  3.28it/s] 45%|████▍     | 165712/371472 [2:06:43<16:53:30,  3.38it/s] 45%|████▍     | 165713/371472 [2:06:43<16:24:52,  3.48it/s] 45%|████▍     | 165714/371472 [2:06:44<15:49:55,  3.61it/s] 45%|████▍     | 165715/371472 [2:06:44<15:16:25,  3.74it/s] 45%|████▍     | 165716/371472 [2:06:44<15:02:59,  3.80it/s] 45%|████▍     | 165717/371472 [2:06:44<14:44:59,  3.87it/s] 45%|████▍     | 165718/371472 [2:06:45<14:40:01,  3.90it/s] 45%|████▍     | 165719/371472 [2:06:45<15:00:11,  3.81it/s] 45%|████▍     | 165720/371472 [2:06:45<16:36:30,  3.44it/s]                                                            {'loss': 3.0497, 'learning_rate': 5.987631709366717e-07, 'epoch': 7.14}
 45%|████▍     | 165720/371472 [2:06:45<16:36:30,  3.44it/s] 45%|████▍     | 165721/371472 [2:06:45<16:16:23,  3.51it/s] 45%|████▍     | 165722/371472 [2:06:46<16:17:52,  3.51it/s] 45%|████▍     | 165723/371472 [2:06:46<16:42:02,  3.42it/s] 45%|████▍     | 165724/371472 [2:06:46<16:25:32,  3.48it/s] 45%|████▍     | 165725/371472 [2:06:47<16:01:12,  3.57it/s] 45%|████▍     | 165726/371472 [2:06:47<16:33:37,  3.45it/s] 45%|████▍     | 165727/371472 [2:06:47<16:42:19,  3.42it/s] 45%|████▍     | 165728/371472 [2:06:47<15:59:09,  3.58it/s] 45%|████▍     | 165729/371472 [2:06:48<16:22:38,  3.49it/s] 45%|████▍     | 165730/371472 [2:06:48<16:13:09,  3.52it/s] 45%|████▍     | 165731/371472 [2:06:48<15:47:23,  3.62it/s] 45%|████▍     | 165732/371472 [2:06:49<15:31:31,  3.68it/s] 45%|████▍     | 165733/371472 [2:06:49<16:07:38,  3.54it/s] 45%|████▍     | 165734/371472 [2:06:49<16:16:48,  3.51it/s] 45%|████▍     | 165735/371472 [2:06:49<16:24:45,  3.48it/s] 45%|████▍     | 165736/371472 [2:06:50<16:57:53,  3.37it/s] 45%|████▍     | 165737/371472 [2:06:50<16:21:38,  3.49it/s] 45%|████▍     | 165738/371472 [2:06:50<16:09:29,  3.54it/s] 45%|████▍     | 165739/371472 [2:06:51<15:59:20,  3.57it/s] 45%|████▍     | 165740/371472 [2:06:51<16:37:32,  3.44it/s]                                                            {'loss': 3.3258, 'learning_rate': 5.987146889611929e-07, 'epoch': 7.14}
 45%|████▍     | 165740/371472 [2:06:51<16:37:32,  3.44it/s] 45%|████▍     | 165741/371472 [2:06:51<16:03:29,  3.56it/s] 45%|████▍     | 165742/371472 [2:06:52<18:01:18,  3.17it/s] 45%|████▍     | 165743/371472 [2:06:52<18:18:34,  3.12it/s] 45%|████▍     | 165744/371472 [2:06:52<17:35:54,  3.25it/s] 45%|████▍     | 165745/371472 [2:06:52<16:57:17,  3.37it/s] 45%|████▍     | 165746/371472 [2:06:53<17:25:56,  3.28it/s] 45%|████▍     | 165747/371472 [2:06:53<16:26:14,  3.48it/s] 45%|████▍     | 165748/371472 [2:06:53<16:03:42,  3.56it/s] 45%|████▍     | 165749/371472 [2:06:54<16:10:36,  3.53it/s] 45%|████▍     | 165750/371472 [2:06:54<17:10:17,  3.33it/s] 45%|████▍     | 165751/371472 [2:06:54<16:17:32,  3.51it/s] 45%|████▍     | 165752/371472 [2:06:54<16:24:53,  3.48it/s] 45%|████▍     | 165753/371472 [2:06:55<15:50:21,  3.61it/s] 45%|████▍     | 165754/371472 [2:06:55<16:27:22,  3.47it/s] 45%|████▍     | 165755/371472 [2:06:55<17:13:42,  3.32it/s] 45%|████▍     | 165756/371472 [2:06:56<16:45:43,  3.41it/s] 45%|████▍     | 165757/371472 [2:06:56<17:26:53,  3.28it/s] 45%|████▍     | 165758/371472 [2:06:56<17:16:55,  3.31it/s] 45%|████▍     | 165759/371472 [2:06:56<16:25:13,  3.48it/s] 45%|████▍     | 165760/371472 [2:06:57<16:06:38,  3.55it/s]                                                            {'loss': 2.9472, 'learning_rate': 5.986662069857141e-07, 'epoch': 7.14}
 45%|████▍     | 165760/371472 [2:06:57<16:06:38,  3.55it/s] 45%|████▍     | 165761/371472 [2:06:57<15:47:35,  3.62it/s] 45%|████▍     | 165762/371472 [2:06:57<15:42:53,  3.64it/s] 45%|████▍     | 165763/371472 [2:06:58<16:08:24,  3.54it/s] 45%|████▍     | 165764/371472 [2:06:58<15:27:23,  3.70it/s] 45%|████▍     | 165765/371472 [2:06:58<15:35:34,  3.66it/s] 45%|████▍     | 165766/371472 [2:06:58<15:34:27,  3.67it/s] 45%|████▍     | 165767/371472 [2:06:59<16:57:21,  3.37it/s] 45%|████▍     | 165768/371472 [2:06:59<15:56:53,  3.58it/s] 45%|████▍     | 165769/371472 [2:06:59<16:15:04,  3.52it/s] 45%|████▍     | 165770/371472 [2:07:00<17:19:30,  3.30it/s] 45%|████▍     | 165771/371472 [2:07:00<16:50:25,  3.39it/s] 45%|████▍     | 165772/371472 [2:07:00<16:14:23,  3.52it/s] 45%|████▍     | 165773/371472 [2:07:00<16:07:03,  3.55it/s] 45%|████▍     | 165774/371472 [2:07:01<15:28:57,  3.69it/s] 45%|████▍     | 165775/371472 [2:07:01<15:59:22,  3.57it/s] 45%|████▍     | 165776/371472 [2:07:01<15:55:56,  3.59it/s] 45%|████▍     | 165777/371472 [2:07:02<17:12:42,  3.32it/s] 45%|████▍     | 165778/371472 [2:07:02<17:08:15,  3.33it/s] 45%|████▍     | 165779/371472 [2:07:02<16:58:22,  3.37it/s] 45%|████▍     | 165780/371472 [2:07:03<18:04:59,  3.16it/s]                                                            {'loss': 3.2322, 'learning_rate': 5.986177250102351e-07, 'epoch': 7.14}
 45%|████▍     | 165780/371472 [2:07:03<18:04:59,  3.16it/s] 45%|████▍     | 165781/371472 [2:07:03<17:22:04,  3.29it/s] 45%|████▍     | 165782/371472 [2:07:03<17:00:49,  3.36it/s] 45%|████▍     | 165783/371472 [2:07:03<16:42:59,  3.42it/s] 45%|████▍     | 165784/371472 [2:07:04<16:28:18,  3.47it/s] 45%|████▍     | 165785/371472 [2:07:04<16:21:37,  3.49it/s] 45%|████▍     | 165786/371472 [2:07:04<17:22:24,  3.29it/s] 45%|████▍     | 165787/371472 [2:07:05<17:50:05,  3.20it/s] 45%|████▍     | 165788/371472 [2:07:05<18:58:43,  3.01it/s] 45%|████▍     | 165789/371472 [2:07:05<17:51:35,  3.20it/s] 45%|████▍     | 165790/371472 [2:07:06<17:56:50,  3.18it/s] 45%|████▍     | 165791/371472 [2:07:06<17:57:16,  3.18it/s] 45%|████▍     | 165792/371472 [2:07:06<17:26:28,  3.28it/s] 45%|████▍     | 165793/371472 [2:07:06<17:36:48,  3.24it/s] 45%|████▍     | 165794/371472 [2:07:07<17:20:12,  3.30it/s] 45%|████▍     | 165795/371472 [2:07:07<17:57:16,  3.18it/s] 45%|████▍     | 165796/371472 [2:07:07<17:32:57,  3.26it/s] 45%|████▍     | 165797/371472 [2:07:08<16:39:39,  3.43it/s] 45%|████▍     | 165798/371472 [2:07:08<16:53:06,  3.38it/s] 45%|████▍     | 165799/371472 [2:07:08<17:38:25,  3.24it/s] 45%|████▍     | 165800/371472 [2:07:09<17:03:52,  3.35it/s]                                                            {'loss': 2.9282, 'learning_rate': 5.985692430347561e-07, 'epoch': 7.14}
 45%|████▍     | 165800/371472 [2:07:09<17:03:52,  3.35it/s] 45%|████▍     | 165801/371472 [2:07:09<16:55:45,  3.37it/s] 45%|████▍     | 165802/371472 [2:07:09<16:42:18,  3.42it/s] 45%|████▍     | 165803/371472 [2:07:09<16:16:14,  3.51it/s] 45%|████▍     | 165804/371472 [2:07:10<16:21:07,  3.49it/s] 45%|████▍     | 165805/371472 [2:07:10<15:45:12,  3.63it/s] 45%|████▍     | 165806/371472 [2:07:10<16:08:52,  3.54it/s] 45%|████▍     | 165807/371472 [2:07:11<16:39:02,  3.43it/s] 45%|████▍     | 165808/371472 [2:07:11<17:52:47,  3.20it/s] 45%|████▍     | 165809/371472 [2:07:11<17:37:05,  3.24it/s] 45%|████▍     | 165810/371472 [2:07:12<18:18:18,  3.12it/s] 45%|████▍     | 165811/371472 [2:07:12<17:46:51,  3.21it/s] 45%|████▍     | 165812/371472 [2:07:12<17:11:23,  3.32it/s] 45%|████▍     | 165813/371472 [2:07:12<16:49:41,  3.39it/s] 45%|████▍     | 165814/371472 [2:07:13<16:26:12,  3.48it/s] 45%|████▍     | 165815/371472 [2:07:13<16:27:23,  3.47it/s] 45%|████▍     | 165816/371472 [2:07:13<16:21:30,  3.49it/s] 45%|████▍     | 165817/371472 [2:07:14<15:52:56,  3.60it/s] 45%|████▍     | 165818/371472 [2:07:14<16:00:19,  3.57it/s] 45%|████▍     | 165819/371472 [2:07:14<15:58:44,  3.58it/s] 45%|████▍     | 165820/371472 [2:07:14<16:17:25,  3.51it/s]                                                            {'loss': 3.1159, 'learning_rate': 5.985207610592773e-07, 'epoch': 7.14}
 45%|████▍     | 165820/371472 [2:07:14<16:17:25,  3.51it/s] 45%|████▍     | 165821/371472 [2:07:15<16:01:51,  3.56it/s] 45%|████▍     | 165822/371472 [2:07:15<15:35:15,  3.66it/s] 45%|████▍     | 165823/371472 [2:07:15<15:18:23,  3.73it/s] 45%|████▍     | 165824/371472 [2:07:15<14:57:04,  3.82it/s] 45%|████▍     | 165825/371472 [2:07:16<15:13:59,  3.75it/s] 45%|████▍     | 165826/371472 [2:07:16<21:13:18,  2.69it/s] 45%|████▍     | 165827/371472 [2:07:17<19:54:44,  2.87it/s] 45%|████▍     | 165828/371472 [2:07:17<18:33:28,  3.08it/s] 45%|████▍     | 165829/371472 [2:07:17<18:08:58,  3.15it/s] 45%|████▍     | 165830/371472 [2:07:17<17:13:47,  3.32it/s] 45%|████▍     | 165831/371472 [2:07:18<17:31:20,  3.26it/s] 45%|████▍     | 165832/371472 [2:07:18<16:50:27,  3.39it/s] 45%|████▍     | 165833/371472 [2:07:18<17:07:36,  3.34it/s] 45%|████▍     | 165834/371472 [2:07:19<16:44:10,  3.41it/s] 45%|████▍     | 165835/371472 [2:07:19<16:37:54,  3.43it/s] 45%|████▍     | 165836/371472 [2:07:19<16:59:47,  3.36it/s] 45%|████▍     | 165837/371472 [2:07:19<16:21:55,  3.49it/s] 45%|████▍     | 165838/371472 [2:07:20<15:48:10,  3.61it/s] 45%|████▍     | 165839/371472 [2:07:20<16:44:09,  3.41it/s] 45%|████▍     | 165840/371472 [2:07:20<16:39:19,  3.43it/s]                                                            {'loss': 3.0467, 'learning_rate': 5.984722790837984e-07, 'epoch': 7.14}
 45%|████▍     | 165840/371472 [2:07:20<16:39:19,  3.43it/s] 45%|████▍     | 165841/371472 [2:07:21<16:16:52,  3.51it/s] 45%|████▍     | 165842/371472 [2:07:21<16:06:14,  3.55it/s] 45%|████▍     | 165843/371472 [2:07:21<15:59:52,  3.57it/s] 45%|████▍     | 165844/371472 [2:07:21<16:10:13,  3.53it/s] 45%|████▍     | 165845/371472 [2:07:22<15:36:47,  3.66it/s] 45%|████▍     | 165846/371472 [2:07:22<15:54:38,  3.59it/s] 45%|████▍     | 165847/371472 [2:07:22<16:16:40,  3.51it/s] 45%|████▍     | 165848/371472 [2:07:23<17:20:27,  3.29it/s] 45%|████▍     | 165849/371472 [2:07:23<16:25:41,  3.48it/s] 45%|████▍     | 165850/371472 [2:07:23<17:04:38,  3.34it/s] 45%|████▍     | 165851/371472 [2:07:23<16:39:12,  3.43it/s] 45%|████▍     | 165852/371472 [2:07:24<16:42:17,  3.42it/s] 45%|████▍     | 165853/371472 [2:07:24<16:00:49,  3.57it/s] 45%|████▍     | 165854/371472 [2:07:24<15:46:46,  3.62it/s] 45%|████▍     | 165855/371472 [2:07:25<15:29:32,  3.69it/s] 45%|████▍     | 165856/371472 [2:07:25<15:12:34,  3.76it/s] 45%|████▍     | 165857/371472 [2:07:25<15:27:11,  3.70it/s] 45%|████▍     | 165858/371472 [2:07:25<15:10:55,  3.76it/s] 45%|████▍     | 165859/371472 [2:07:26<15:30:06,  3.68it/s] 45%|████▍     | 165860/371472 [2:07:26<15:45:25,  3.62it/s]                                                            {'loss': 3.1019, 'learning_rate': 5.984237971083194e-07, 'epoch': 7.14}
 45%|████▍     | 165860/371472 [2:07:26<15:45:25,  3.62it/s] 45%|████▍     | 165861/371472 [2:07:26<15:46:22,  3.62it/s] 45%|████▍     | 165862/371472 [2:07:26<16:00:09,  3.57it/s] 45%|████▍     | 165863/371472 [2:07:27<16:01:39,  3.56it/s] 45%|████▍     | 165864/371472 [2:07:27<17:38:47,  3.24it/s] 45%|████▍     | 165865/371472 [2:07:27<16:57:20,  3.37it/s] 45%|████▍     | 165866/371472 [2:07:28<16:17:12,  3.51it/s] 45%|████▍     | 165867/371472 [2:07:28<15:59:19,  3.57it/s] 45%|████▍     | 165868/371472 [2:07:28<16:27:04,  3.47it/s] 45%|████▍     | 165869/371472 [2:07:29<16:03:19,  3.56it/s] 45%|████▍     | 165870/371472 [2:07:29<16:27:23,  3.47it/s] 45%|████▍     | 165871/371472 [2:07:29<16:41:58,  3.42it/s] 45%|████▍     | 165872/371472 [2:07:29<16:42:25,  3.42it/s] 45%|████▍     | 165873/371472 [2:07:30<16:16:30,  3.51it/s] 45%|████▍     | 165874/371472 [2:07:30<16:09:42,  3.53it/s] 45%|████▍     | 165875/371472 [2:07:30<16:44:51,  3.41it/s] 45%|████▍     | 165876/371472 [2:07:31<16:50:50,  3.39it/s] 45%|████▍     | 165877/371472 [2:07:31<16:21:52,  3.49it/s] 45%|████▍     | 165878/371472 [2:07:31<16:24:44,  3.48it/s] 45%|████▍     | 165879/371472 [2:07:31<16:24:34,  3.48it/s] 45%|████▍     | 165880/371472 [2:07:32<16:00:17,  3.57it/s]                                                            {'loss': 3.0488, 'learning_rate': 5.983753151328406e-07, 'epoch': 7.14}
 45%|████▍     | 165880/371472 [2:07:32<16:00:17,  3.57it/s] 45%|████▍     | 165881/371472 [2:07:32<15:59:53,  3.57it/s] 45%|████▍     | 165882/371472 [2:07:32<16:30:26,  3.46it/s] 45%|████▍     | 165883/371472 [2:07:33<16:45:58,  3.41it/s] 45%|████▍     | 165884/371472 [2:07:33<16:23:45,  3.48it/s] 45%|████▍     | 165885/371472 [2:07:33<16:38:26,  3.43it/s] 45%|████▍     | 165886/371472 [2:07:33<16:03:27,  3.56it/s] 45%|████▍     | 165887/371472 [2:07:34<16:00:58,  3.57it/s] 45%|████▍     | 165888/371472 [2:07:34<16:01:02,  3.57it/s] 45%|████▍     | 165889/371472 [2:07:34<16:10:53,  3.53it/s] 45%|████▍     | 165890/371472 [2:07:35<16:45:09,  3.41it/s] 45%|████▍     | 165891/371472 [2:07:35<17:20:17,  3.29it/s] 45%|████▍     | 165892/371472 [2:07:35<17:24:47,  3.28it/s] 45%|████▍     | 165893/371472 [2:07:35<17:00:55,  3.36it/s] 45%|████▍     | 165894/371472 [2:07:36<16:27:19,  3.47it/s] 45%|████▍     | 165895/371472 [2:07:36<16:19:55,  3.50it/s] 45%|████▍     | 165896/371472 [2:07:36<16:08:30,  3.54it/s] 45%|████▍     | 165897/371472 [2:07:37<16:12:44,  3.52it/s] 45%|████▍     | 165898/371472 [2:07:37<16:07:35,  3.54it/s] 45%|████▍     | 165899/371472 [2:07:37<16:49:43,  3.39it/s] 45%|████▍     | 165900/371472 [2:07:37<16:39:31,  3.43it/s]                                                            {'loss': 2.9436, 'learning_rate': 5.983268331573618e-07, 'epoch': 7.15}
 45%|████▍     | 165900/371472 [2:07:37<16:39:31,  3.43it/s] 45%|████▍     | 165901/371472 [2:07:38<17:07:42,  3.33it/s] 45%|████▍     | 165902/371472 [2:07:38<16:41:00,  3.42it/s] 45%|████▍     | 165903/371472 [2:07:38<16:29:50,  3.46it/s] 45%|████▍     | 165904/371472 [2:07:39<16:05:00,  3.55it/s] 45%|████▍     | 165905/371472 [2:07:39<15:57:15,  3.58it/s] 45%|████▍     | 165906/371472 [2:07:39<15:45:37,  3.62it/s] 45%|████▍     | 165907/371472 [2:07:39<15:43:44,  3.63it/s] 45%|████▍     | 165908/371472 [2:07:40<15:53:38,  3.59it/s] 45%|████▍     | 165909/371472 [2:07:40<15:38:40,  3.65it/s] 45%|████▍     | 165910/371472 [2:07:40<15:52:09,  3.60it/s] 45%|████▍     | 165911/371472 [2:07:41<15:40:39,  3.64it/s] 45%|████▍     | 165912/371472 [2:07:41<15:40:22,  3.64it/s] 45%|████▍     | 165913/371472 [2:07:41<16:35:55,  3.44it/s] 45%|████▍     | 165914/371472 [2:07:41<15:56:35,  3.58it/s] 45%|████▍     | 165915/371472 [2:07:42<16:39:11,  3.43it/s] 45%|████▍     | 165916/371472 [2:07:42<16:34:08,  3.45it/s] 45%|████▍     | 165917/371472 [2:07:42<16:23:42,  3.48it/s] 45%|████▍     | 165918/371472 [2:07:43<16:53:25,  3.38it/s] 45%|████▍     | 165919/371472 [2:07:43<16:45:29,  3.41it/s] 45%|████▍     | 165920/371472 [2:07:43<16:12:33,  3.52it/s]                                                            {'loss': 3.1253, 'learning_rate': 5.982783511818827e-07, 'epoch': 7.15}
 45%|████▍     | 165920/371472 [2:07:43<16:12:33,  3.52it/s] 45%|████▍     | 165921/371472 [2:07:43<16:24:10,  3.48it/s] 45%|████▍     | 165922/371472 [2:07:44<16:02:24,  3.56it/s] 45%|████▍     | 165923/371472 [2:07:44<16:02:54,  3.56it/s] 45%|████▍     | 165924/371472 [2:07:44<15:44:24,  3.63it/s] 45%|████▍     | 165925/371472 [2:07:45<15:29:39,  3.69it/s] 45%|████▍     | 165926/371472 [2:07:45<16:31:42,  3.45it/s] 45%|████▍     | 165927/371472 [2:07:45<16:24:51,  3.48it/s] 45%|████▍     | 165928/371472 [2:07:45<15:53:31,  3.59it/s] 45%|████▍     | 165929/371472 [2:07:46<15:52:20,  3.60it/s] 45%|████▍     | 165930/371472 [2:07:46<17:12:25,  3.32it/s] 45%|████▍     | 165931/371472 [2:07:46<17:40:59,  3.23it/s] 45%|████▍     | 165932/371472 [2:07:47<17:27:54,  3.27it/s] 45%|████▍     | 165933/371472 [2:07:47<17:55:40,  3.18it/s] 45%|████▍     | 165934/371472 [2:07:47<16:51:05,  3.39it/s] 45%|████▍     | 165935/371472 [2:07:47<16:13:20,  3.52it/s] 45%|████▍     | 165936/371472 [2:07:48<15:31:44,  3.68it/s] 45%|████▍     | 165937/371472 [2:07:48<15:53:02,  3.59it/s] 45%|████▍     | 165938/371472 [2:07:48<15:23:43,  3.71it/s] 45%|████▍     | 165939/371472 [2:07:49<15:14:41,  3.75it/s] 45%|████▍     | 165940/371472 [2:07:49<15:44:05,  3.63it/s]                                                            {'loss': 3.1809, 'learning_rate': 5.982298692064038e-07, 'epoch': 7.15}
 45%|████▍     | 165940/371472 [2:07:49<15:44:05,  3.63it/s] 45%|████▍     | 165941/371472 [2:07:49<15:23:05,  3.71it/s] 45%|████▍     | 165942/371472 [2:07:49<16:49:34,  3.39it/s] 45%|████▍     | 165943/371472 [2:07:50<15:59:44,  3.57it/s] 45%|████▍     | 165944/371472 [2:07:50<15:31:21,  3.68it/s] 45%|████▍     | 165945/371472 [2:07:50<15:23:39,  3.71it/s] 45%|████▍     | 165946/371472 [2:07:50<15:06:55,  3.78it/s] 45%|████▍     | 165947/371472 [2:07:51<14:54:57,  3.83it/s] 45%|████▍     | 165948/371472 [2:07:51<14:41:49,  3.88it/s] 45%|████▍     | 165949/371472 [2:07:51<14:42:09,  3.88it/s] 45%|████▍     | 165950/371472 [2:07:52<16:18:38,  3.50it/s] 45%|████▍     | 165951/371472 [2:07:52<15:47:21,  3.62it/s] 45%|████▍     | 165952/371472 [2:07:52<17:51:37,  3.20it/s] 45%|████▍     | 165953/371472 [2:07:53<17:18:51,  3.30it/s] 45%|████▍     | 165954/371472 [2:07:53<16:57:21,  3.37it/s] 45%|████▍     | 165955/371472 [2:07:53<16:33:27,  3.45it/s] 45%|████▍     | 165956/371472 [2:07:53<16:51:35,  3.39it/s] 45%|████▍     | 165957/371472 [2:07:54<17:20:05,  3.29it/s] 45%|████▍     | 165958/371472 [2:07:54<17:19:12,  3.30it/s] 45%|████▍     | 165959/371472 [2:07:54<17:57:35,  3.18it/s] 45%|████▍     | 165960/371472 [2:07:55<17:25:44,  3.28it/s]                                                            {'loss': 2.9979, 'learning_rate': 5.98181387230925e-07, 'epoch': 7.15}
 45%|████▍     | 165960/371472 [2:07:55<17:25:44,  3.28it/s] 45%|████▍     | 165961/371472 [2:07:55<16:52:43,  3.38it/s] 45%|████▍     | 165962/371472 [2:07:55<18:11:05,  3.14it/s] 45%|████▍     | 165963/371472 [2:07:56<17:52:01,  3.20it/s] 45%|████▍     | 165964/371472 [2:07:56<17:24:28,  3.28it/s] 45%|████▍     | 165965/371472 [2:07:56<16:53:16,  3.38it/s] 45%|████▍     | 165966/371472 [2:07:56<16:03:48,  3.55it/s] 45%|████▍     | 165967/371472 [2:07:57<15:35:28,  3.66it/s] 45%|████▍     | 165968/371472 [2:07:57<16:00:41,  3.57it/s] 45%|████▍     | 165969/371472 [2:07:57<15:26:15,  3.70it/s] 45%|████▍     | 165970/371472 [2:07:57<15:15:09,  3.74it/s] 45%|████▍     | 165971/371472 [2:07:58<16:02:13,  3.56it/s] 45%|████▍     | 165972/371472 [2:07:58<16:30:20,  3.46it/s] 45%|████▍     | 165973/371472 [2:07:58<16:11:34,  3.53it/s] 45%|████▍     | 165974/371472 [2:07:59<15:42:04,  3.64it/s] 45%|████▍     | 165975/371472 [2:07:59<15:17:38,  3.73it/s] 45%|████▍     | 165976/371472 [2:07:59<14:53:57,  3.83it/s] 45%|████▍     | 165977/371472 [2:07:59<15:10:56,  3.76it/s] 45%|████▍     | 165978/371472 [2:08:00<14:53:24,  3.83it/s] 45%|████▍     | 165979/371472 [2:08:00<14:46:01,  3.87it/s] 45%|████▍     | 165980/371472 [2:08:00<14:50:00,  3.85it/s]                                                            {'loss': 3.0971, 'learning_rate': 5.981329052554462e-07, 'epoch': 7.15}
 45%|████▍     | 165980/371472 [2:08:00<14:50:00,  3.85it/s] 45%|████▍     | 165981/371472 [2:08:00<14:52:27,  3.84it/s] 45%|████▍     | 165982/371472 [2:08:01<14:54:09,  3.83it/s] 45%|████▍     | 165983/371472 [2:08:01<15:09:55,  3.76it/s] 45%|████▍     | 165984/371472 [2:08:01<14:44:01,  3.87it/s] 45%|████▍     | 165985/371472 [2:08:02<16:21:51,  3.49it/s] 45%|████▍     | 165986/371472 [2:08:02<16:09:51,  3.53it/s] 45%|████▍     | 165987/371472 [2:08:02<15:45:16,  3.62it/s] 45%|████▍     | 165988/371472 [2:08:02<15:36:46,  3.66it/s] 45%|████▍     | 165989/371472 [2:08:03<15:47:06,  3.62it/s] 45%|████▍     | 165990/371472 [2:08:03<15:49:59,  3.60it/s] 45%|████▍     | 165991/371472 [2:08:03<15:52:33,  3.60it/s] 45%|████▍     | 165992/371472 [2:08:03<15:46:31,  3.62it/s] 45%|████▍     | 165993/371472 [2:08:04<15:32:20,  3.67it/s] 45%|████▍     | 165994/371472 [2:08:04<15:40:17,  3.64it/s] 45%|████▍     | 165995/371472 [2:08:04<15:36:08,  3.66it/s] 45%|████▍     | 165996/371472 [2:08:05<15:36:58,  3.65it/s] 45%|████▍     | 165997/371472 [2:08:05<15:26:45,  3.70it/s] 45%|████▍     | 165998/371472 [2:08:05<15:06:59,  3.78it/s] 45%|████▍     | 165999/371472 [2:08:05<14:51:48,  3.84it/s] 45%|████▍     | 166000/371472 [2:08:06<14:50:04,  3.85it/s]                                                            {'loss': 2.9388, 'learning_rate': 5.980844232799672e-07, 'epoch': 7.15}
 45%|████▍     | 166000/371472 [2:08:06<14:50:04,  3.85it/s] 45%|████▍     | 166001/371472 [2:08:06<17:05:05,  3.34it/s] 45%|████▍     | 166002/371472 [2:08:06<16:36:28,  3.44it/s] 45%|████▍     | 166003/371472 [2:08:06<16:16:20,  3.51it/s] 45%|████▍     | 166004/371472 [2:08:07<16:15:44,  3.51it/s] 45%|████▍     | 166005/371472 [2:08:07<17:13:33,  3.31it/s] 45%|████▍     | 166006/371472 [2:08:07<16:51:03,  3.39it/s] 45%|████▍     | 166007/371472 [2:08:08<16:58:05,  3.36it/s] 45%|████▍     | 166008/371472 [2:08:08<17:06:44,  3.34it/s] 45%|████▍     | 166009/371472 [2:08:08<16:06:47,  3.54it/s] 45%|████▍     | 166010/371472 [2:08:08<15:31:34,  3.68it/s] 45%|████▍     | 166011/371472 [2:08:09<15:59:37,  3.57it/s] 45%|████▍     | 166012/371472 [2:08:09<18:31:52,  3.08it/s] 45%|████▍     | 166013/371472 [2:08:09<18:02:04,  3.16it/s] 45%|████▍     | 166014/371472 [2:08:10<16:58:32,  3.36it/s] 45%|████▍     | 166015/371472 [2:08:10<16:15:46,  3.51it/s] 45%|████▍     | 166016/371472 [2:08:10<16:31:13,  3.45it/s] 45%|████▍     | 166017/371472 [2:08:11<15:50:41,  3.60it/s] 45%|████▍     | 166018/371472 [2:08:11<15:21:37,  3.72it/s] 45%|████▍     | 166019/371472 [2:08:11<15:07:50,  3.77it/s] 45%|████▍     | 166020/371472 [2:08:11<15:05:50,  3.78it/s]                                                            {'loss': 3.0116, 'learning_rate': 5.980359413044883e-07, 'epoch': 7.15}
 45%|████▍     | 166020/371472 [2:08:11<15:05:50,  3.78it/s] 45%|████▍     | 166021/371472 [2:08:12<16:41:00,  3.42it/s] 45%|████▍     | 166022/371472 [2:08:12<17:17:42,  3.30it/s] 45%|████▍     | 166023/371472 [2:08:12<17:27:39,  3.27it/s] 45%|████▍     | 166024/371472 [2:08:13<17:01:14,  3.35it/s] 45%|████▍     | 166025/371472 [2:08:13<16:27:11,  3.47it/s] 45%|████▍     | 166026/371472 [2:08:13<15:42:08,  3.63it/s] 45%|████▍     | 166027/371472 [2:08:13<15:40:05,  3.64it/s] 45%|████▍     | 166028/371472 [2:08:14<15:42:43,  3.63it/s] 45%|████▍     | 166029/371472 [2:08:14<16:53:08,  3.38it/s] 45%|████▍     | 166030/371472 [2:08:14<16:49:04,  3.39it/s] 45%|████▍     | 166031/371472 [2:08:15<16:15:50,  3.51it/s] 45%|████▍     | 166032/371472 [2:08:15<15:54:15,  3.59it/s] 45%|████▍     | 166033/371472 [2:08:15<15:42:24,  3.63it/s] 45%|████▍     | 166034/371472 [2:08:15<15:54:04,  3.59it/s] 45%|████▍     | 166035/371472 [2:08:16<15:55:09,  3.58it/s] 45%|████▍     | 166036/371472 [2:08:16<16:10:41,  3.53it/s] 45%|████▍     | 166037/371472 [2:08:16<15:51:13,  3.60it/s] 45%|████▍     | 166038/371472 [2:08:16<15:24:35,  3.70it/s] 45%|████▍     | 166039/371472 [2:08:17<15:29:46,  3.68it/s] 45%|████▍     | 166040/371472 [2:08:17<17:12:07,  3.32it/s]                                                            {'loss': 3.0446, 'learning_rate': 5.979874593290095e-07, 'epoch': 7.15}
 45%|████▍     | 166040/371472 [2:08:17<17:12:07,  3.32it/s] 45%|████▍     | 166041/371472 [2:08:17<16:41:19,  3.42it/s] 45%|████▍     | 166042/371472 [2:08:18<16:40:11,  3.42it/s] 45%|████▍     | 166043/371472 [2:08:18<16:09:30,  3.53it/s] 45%|████▍     | 166044/371472 [2:08:18<16:11:37,  3.52it/s] 45%|████▍     | 166045/371472 [2:08:18<15:44:04,  3.63it/s] 45%|████▍     | 166046/371472 [2:08:19<15:38:27,  3.65it/s] 45%|████▍     | 166047/371472 [2:08:19<15:32:37,  3.67it/s] 45%|████▍     | 166048/371472 [2:08:19<15:21:29,  3.72it/s] 45%|████▍     | 166049/371472 [2:08:20<15:26:03,  3.70it/s] 45%|████▍     | 166050/371472 [2:08:20<15:12:28,  3.75it/s] 45%|████▍     | 166051/371472 [2:08:20<15:12:31,  3.75it/s] 45%|████▍     | 166052/371472 [2:08:20<16:08:23,  3.54it/s] 45%|████▍     | 166053/371472 [2:08:21<16:35:38,  3.44it/s] 45%|████▍     | 166054/371472 [2:08:21<16:18:07,  3.50it/s] 45%|████▍     | 166055/371472 [2:08:21<15:33:52,  3.67it/s] 45%|████▍     | 166056/371472 [2:08:21<15:13:39,  3.75it/s] 45%|████▍     | 166057/371472 [2:08:22<14:48:34,  3.85it/s] 45%|████▍     | 166058/371472 [2:08:22<15:24:59,  3.70it/s] 45%|████▍     | 166059/371472 [2:08:22<15:51:00,  3.60it/s] 45%|████▍     | 166060/371472 [2:08:23<15:07:00,  3.77it/s]                                                            {'loss': 2.9762, 'learning_rate': 5.979389773535307e-07, 'epoch': 7.15}
 45%|████▍     | 166060/371472 [2:08:23<15:07:00,  3.77it/s] 45%|████▍     | 166061/371472 [2:08:23<16:03:51,  3.55it/s] 45%|████▍     | 166062/371472 [2:08:23<15:49:01,  3.61it/s] 45%|████▍     | 166063/371472 [2:08:23<15:52:11,  3.60it/s] 45%|████▍     | 166064/371472 [2:08:24<15:42:50,  3.63it/s] 45%|████▍     | 166065/371472 [2:08:24<15:28:27,  3.69it/s] 45%|████▍     | 166066/371472 [2:08:24<15:07:20,  3.77it/s] 45%|████▍     | 166067/371472 [2:08:24<14:58:45,  3.81it/s] 45%|████▍     | 166068/371472 [2:08:25<15:18:02,  3.73it/s] 45%|████▍     | 166069/371472 [2:08:25<15:07:36,  3.77it/s] 45%|████▍     | 166070/371472 [2:08:25<15:37:02,  3.65it/s] 45%|████▍     | 166071/371472 [2:08:26<16:31:52,  3.45it/s] 45%|████▍     | 166072/371472 [2:08:26<18:02:35,  3.16it/s] 45%|████▍     | 166073/371472 [2:08:26<17:27:07,  3.27it/s] 45%|████▍     | 166074/371472 [2:08:27<16:46:46,  3.40it/s] 45%|████▍     | 166075/371472 [2:08:27<17:12:09,  3.32it/s] 45%|████▍     | 166076/371472 [2:08:27<16:50:26,  3.39it/s] 45%|████▍     | 166077/371472 [2:08:27<16:34:04,  3.44it/s] 45%|████▍     | 166078/371472 [2:08:28<16:43:56,  3.41it/s] 45%|████▍     | 166079/371472 [2:08:28<16:51:32,  3.38it/s] 45%|████▍     | 166080/371472 [2:08:28<16:13:27,  3.52it/s]                                                            {'loss': 3.0931, 'learning_rate': 5.978904953780516e-07, 'epoch': 7.15}
 45%|████▍     | 166080/371472 [2:08:28<16:13:27,  3.52it/s] 45%|████▍     | 166081/371472 [2:08:29<15:55:20,  3.58it/s] 45%|████▍     | 166082/371472 [2:08:29<15:47:51,  3.61it/s] 45%|████▍     | 166083/371472 [2:08:29<16:05:46,  3.54it/s] 45%|████▍     | 166084/371472 [2:08:29<16:36:43,  3.43it/s] 45%|████▍     | 166085/371472 [2:08:30<16:38:45,  3.43it/s] 45%|████▍     | 166086/371472 [2:08:30<16:16:37,  3.51it/s] 45%|████▍     | 166087/371472 [2:08:30<15:51:58,  3.60it/s] 45%|████▍     | 166088/371472 [2:08:31<15:53:16,  3.59it/s] 45%|████▍     | 166089/371472 [2:08:31<16:06:39,  3.54it/s] 45%|████▍     | 166090/371472 [2:08:31<15:34:24,  3.66it/s] 45%|████▍     | 166091/371472 [2:08:31<15:51:52,  3.60it/s] 45%|████▍     | 166092/371472 [2:08:32<15:47:19,  3.61it/s] 45%|████▍     | 166093/371472 [2:08:32<15:56:13,  3.58it/s] 45%|████▍     | 166094/371472 [2:08:32<15:24:39,  3.70it/s] 45%|████▍     | 166095/371472 [2:08:32<15:06:49,  3.77it/s] 45%|████▍     | 166096/371472 [2:08:33<16:06:53,  3.54it/s] 45%|████▍     | 166097/371472 [2:08:33<16:31:34,  3.45it/s] 45%|████▍     | 166098/371472 [2:08:33<16:41:49,  3.42it/s] 45%|████▍     | 166099/371472 [2:08:34<17:01:44,  3.35it/s] 45%|████▍     | 166100/371472 [2:08:34<16:48:53,  3.39it/s]                                                            {'loss': 3.1379, 'learning_rate': 5.978420134025727e-07, 'epoch': 7.15}
 45%|████▍     | 166100/371472 [2:08:34<16:48:53,  3.39it/s] 45%|████▍     | 166101/371472 [2:08:34<17:36:10,  3.24it/s] 45%|████▍     | 166102/371472 [2:08:35<16:52:45,  3.38it/s] 45%|████▍     | 166103/371472 [2:08:35<17:11:34,  3.32it/s] 45%|████▍     | 166104/371472 [2:08:35<16:39:13,  3.43it/s] 45%|████▍     | 166105/371472 [2:08:35<16:02:11,  3.56it/s] 45%|████▍     | 166106/371472 [2:08:36<15:42:42,  3.63it/s] 45%|████▍     | 166107/371472 [2:08:36<17:02:06,  3.35it/s] 45%|████▍     | 166108/371472 [2:08:36<16:37:04,  3.43it/s] 45%|████▍     | 166109/371472 [2:08:37<16:16:29,  3.51it/s] 45%|████▍     | 166110/371472 [2:08:37<17:08:19,  3.33it/s] 45%|████▍     | 166111/371472 [2:08:37<16:34:00,  3.44it/s] 45%|████▍     | 166112/371472 [2:08:37<16:42:36,  3.41it/s] 45%|████▍     | 166113/371472 [2:08:38<16:51:42,  3.38it/s] 45%|████▍     | 166114/371472 [2:08:38<16:55:24,  3.37it/s] 45%|████▍     | 166115/371472 [2:08:38<16:34:12,  3.44it/s] 45%|████▍     | 166116/371472 [2:08:39<17:02:39,  3.35it/s] 45%|████▍     | 166117/371472 [2:08:39<16:58:20,  3.36it/s] 45%|████▍     | 166118/371472 [2:08:39<16:14:39,  3.51it/s] 45%|████▍     | 166119/371472 [2:08:39<16:12:09,  3.52it/s] 45%|████▍     | 166120/371472 [2:08:40<16:07:01,  3.54it/s]                                                            {'loss': 3.1887, 'learning_rate': 5.977935314270939e-07, 'epoch': 7.16}
 45%|████▍     | 166120/371472 [2:08:40<16:07:01,  3.54it/s] 45%|████▍     | 166121/371472 [2:08:40<17:18:48,  3.29it/s] 45%|████▍     | 166122/371472 [2:08:40<16:48:07,  3.39it/s] 45%|████▍     | 166123/371472 [2:08:41<16:09:26,  3.53it/s] 45%|████▍     | 166124/371472 [2:08:41<16:05:01,  3.55it/s] 45%|████▍     | 166125/371472 [2:08:41<17:00:43,  3.35it/s] 45%|████▍     | 166126/371472 [2:08:42<16:37:36,  3.43it/s] 45%|████▍     | 166127/371472 [2:08:42<15:58:17,  3.57it/s] 45%|████▍     | 166128/371472 [2:08:42<16:56:24,  3.37it/s] 45%|████▍     | 166129/371472 [2:08:42<16:47:59,  3.40it/s] 45%|████▍     | 166130/371472 [2:08:43<16:15:32,  3.51it/s] 45%|████▍     | 166131/371472 [2:08:43<15:54:31,  3.59it/s] 45%|████▍     | 166132/371472 [2:08:43<17:35:20,  3.24it/s] 45%|████▍     | 166133/371472 [2:08:44<16:39:34,  3.42it/s] 45%|████▍     | 166134/371472 [2:08:44<16:46:45,  3.40it/s] 45%|████▍     | 166135/371472 [2:08:44<16:34:39,  3.44it/s] 45%|████▍     | 166136/371472 [2:08:44<16:16:37,  3.50it/s] 45%|████▍     | 166137/371472 [2:08:45<17:03:45,  3.34it/s] 45%|████▍     | 166138/371472 [2:08:45<17:54:38,  3.18it/s] 45%|████▍     | 166139/371472 [2:08:45<16:50:05,  3.39it/s] 45%|████▍     | 166140/371472 [2:08:46<17:47:22,  3.21it/s]                                                            {'loss': 3.0188, 'learning_rate': 5.97745049451615e-07, 'epoch': 7.16}
 45%|████▍     | 166140/371472 [2:08:46<17:47:22,  3.21it/s] 45%|████▍     | 166141/371472 [2:08:46<16:54:16,  3.37it/s] 45%|████▍     | 166142/371472 [2:08:46<16:09:29,  3.53it/s] 45%|████▍     | 166143/371472 [2:08:46<15:34:57,  3.66it/s] 45%|████▍     | 166144/371472 [2:08:47<15:39:47,  3.64it/s] 45%|████▍     | 166145/371472 [2:08:47<17:07:11,  3.33it/s] 45%|████▍     | 166146/371472 [2:08:47<16:09:24,  3.53it/s] 45%|████▍     | 166147/371472 [2:08:48<16:04:35,  3.55it/s] 45%|████▍     | 166148/371472 [2:08:48<17:01:15,  3.35it/s] 45%|████▍     | 166149/371472 [2:08:48<16:14:33,  3.51it/s] 45%|████▍     | 166150/371472 [2:08:48<15:47:17,  3.61it/s] 45%|████▍     | 166151/371472 [2:08:49<15:13:25,  3.75it/s] 45%|████▍     | 166152/371472 [2:08:49<15:24:29,  3.70it/s] 45%|████▍     | 166153/371472 [2:08:49<15:34:31,  3.66it/s] 45%|████▍     | 166154/371472 [2:08:50<15:35:56,  3.66it/s] 45%|████▍     | 166155/371472 [2:08:50<16:30:36,  3.45it/s] 45%|████▍     | 166156/371472 [2:08:50<15:56:12,  3.58it/s] 45%|████▍     | 166157/371472 [2:08:50<16:24:52,  3.47it/s] 45%|████▍     | 166158/371472 [2:08:51<15:57:41,  3.57it/s] 45%|████▍     | 166159/371472 [2:08:51<16:26:21,  3.47it/s] 45%|████▍     | 166160/371472 [2:08:51<16:48:35,  3.39it/s]                                                            {'loss': 3.2639, 'learning_rate': 5.976965674761361e-07, 'epoch': 7.16}
 45%|████▍     | 166160/371472 [2:08:51<16:48:35,  3.39it/s] 45%|████▍     | 166161/371472 [2:08:52<16:40:03,  3.42it/s] 45%|████▍     | 166162/371472 [2:08:52<16:32:13,  3.45it/s] 45%|████▍     | 166163/371472 [2:08:52<16:02:02,  3.56it/s] 45%|████▍     | 166164/371472 [2:08:53<17:21:36,  3.29it/s] 45%|████▍     | 166165/371472 [2:08:53<16:42:17,  3.41it/s] 45%|████▍     | 166166/371472 [2:08:53<16:13:42,  3.51it/s] 45%|████▍     | 166167/371472 [2:08:53<16:34:29,  3.44it/s] 45%|████▍     | 166168/371472 [2:08:54<16:10:36,  3.53it/s] 45%|████▍     | 166169/371472 [2:08:54<16:07:08,  3.54it/s] 45%|████▍     | 166170/371472 [2:08:54<15:32:48,  3.67it/s] 45%|████▍     | 166171/371472 [2:08:54<15:54:26,  3.59it/s] 45%|████▍     | 166172/371472 [2:08:55<16:22:58,  3.48it/s] 45%|████▍     | 166173/371472 [2:08:55<16:34:34,  3.44it/s] 45%|████▍     | 166174/371472 [2:08:55<17:26:21,  3.27it/s] 45%|████▍     | 166175/371472 [2:08:56<16:24:21,  3.48it/s] 45%|████▍     | 166176/371472 [2:08:56<16:20:31,  3.49it/s] 45%|████▍     | 166177/371472 [2:08:56<17:32:59,  3.25it/s] 45%|████▍     | 166178/371472 [2:08:57<16:39:26,  3.42it/s] 45%|████▍     | 166179/371472 [2:08:57<17:10:22,  3.32it/s] 45%|████▍     | 166180/371472 [2:08:57<16:33:43,  3.44it/s]                                                            {'loss': 3.2934, 'learning_rate': 5.976480855006571e-07, 'epoch': 7.16}
 45%|████▍     | 166180/371472 [2:08:57<16:33:43,  3.44it/s] 45%|████▍     | 166181/371472 [2:08:57<16:30:36,  3.45it/s] 45%|████▍     | 166182/371472 [2:08:58<18:11:43,  3.13it/s] 45%|████▍     | 166183/371472 [2:08:58<17:08:07,  3.33it/s] 45%|████▍     | 166184/371472 [2:08:58<16:43:36,  3.41it/s] 45%|████▍     | 166185/371472 [2:08:59<16:46:07,  3.40it/s] 45%|████▍     | 166186/371472 [2:08:59<16:28:34,  3.46it/s] 45%|████▍     | 166187/371472 [2:08:59<16:23:46,  3.48it/s] 45%|████▍     | 166188/371472 [2:08:59<16:07:45,  3.54it/s] 45%|████▍     | 166189/371472 [2:09:00<15:28:58,  3.68it/s] 45%|████▍     | 166190/371472 [2:09:00<16:07:32,  3.54it/s] 45%|████▍     | 166191/371472 [2:09:00<17:49:18,  3.20it/s] 45%|████▍     | 166192/371472 [2:09:01<16:28:29,  3.46it/s] 45%|████▍     | 166193/371472 [2:09:01<15:49:08,  3.60it/s] 45%|████▍     | 166194/371472 [2:09:01<15:54:15,  3.59it/s] 45%|████▍     | 166195/371472 [2:09:01<15:55:11,  3.58it/s] 45%|████▍     | 166196/371472 [2:09:02<15:47:57,  3.61it/s] 45%|████▍     | 166197/371472 [2:09:02<15:23:47,  3.70it/s] 45%|████▍     | 166198/371472 [2:09:02<15:46:12,  3.62it/s] 45%|████▍     | 166199/371472 [2:09:03<15:31:20,  3.67it/s] 45%|████▍     | 166200/371472 [2:09:03<15:32:21,  3.67it/s]                                                            {'loss': 3.146, 'learning_rate': 5.975996035251783e-07, 'epoch': 7.16}
 45%|████▍     | 166200/371472 [2:09:03<15:32:21,  3.67it/s] 45%|████▍     | 166201/371472 [2:09:03<16:51:23,  3.38it/s] 45%|████▍     | 166202/371472 [2:09:03<16:05:38,  3.54it/s] 45%|████▍     | 166203/371472 [2:09:04<16:18:55,  3.49it/s] 45%|████▍     | 166204/371472 [2:09:04<16:49:47,  3.39it/s] 45%|████▍     | 166205/371472 [2:09:04<16:04:33,  3.55it/s] 45%|████▍     | 166206/371472 [2:09:05<15:41:15,  3.63it/s] 45%|████▍     | 166207/371472 [2:09:05<15:31:43,  3.67it/s] 45%|████▍     | 166208/371472 [2:09:05<15:41:50,  3.63it/s] 45%|████▍     | 166209/371472 [2:09:05<15:29:01,  3.68it/s] 45%|████▍     | 166210/371472 [2:09:06<16:53:45,  3.37it/s] 45%|████▍     | 166211/371472 [2:09:06<16:25:48,  3.47it/s] 45%|████▍     | 166212/371472 [2:09:06<16:51:03,  3.38it/s] 45%|████▍     | 166213/371472 [2:09:07<16:44:33,  3.41it/s] 45%|████▍     | 166214/371472 [2:09:07<16:51:19,  3.38it/s] 45%|████▍     | 166215/371472 [2:09:07<17:43:36,  3.22it/s] 45%|████▍     | 166216/371472 [2:09:08<17:40:58,  3.22it/s] 45%|████▍     | 166217/371472 [2:09:08<17:05:46,  3.33it/s] 45%|████▍     | 166218/371472 [2:09:08<17:09:44,  3.32it/s] 45%|████▍     | 166219/371472 [2:09:08<16:20:55,  3.49it/s] 45%|████▍     | 166220/371472 [2:09:09<16:27:40,  3.46it/s]                                                            {'loss': 2.9658, 'learning_rate': 5.975511215496994e-07, 'epoch': 7.16}
 45%|████▍     | 166220/371472 [2:09:09<16:27:40,  3.46it/s] 45%|████▍     | 166221/371472 [2:09:09<16:10:06,  3.53it/s] 45%|████▍     | 166222/371472 [2:09:09<16:46:32,  3.40it/s] 45%|████▍     | 166223/371472 [2:09:10<17:53:17,  3.19it/s] 45%|████▍     | 166224/371472 [2:09:10<17:58:11,  3.17it/s] 45%|████▍     | 166225/371472 [2:09:10<18:15:25,  3.12it/s] 45%|████▍     | 166226/371472 [2:09:11<17:27:45,  3.26it/s] 45%|████▍     | 166227/371472 [2:09:11<17:16:12,  3.30it/s] 45%|████▍     | 166228/371472 [2:09:11<16:33:18,  3.44it/s] 45%|████▍     | 166229/371472 [2:09:11<16:47:07,  3.40it/s] 45%|████▍     | 166230/371472 [2:09:12<16:52:03,  3.38it/s] 45%|████▍     | 166231/371472 [2:09:12<17:51:20,  3.19it/s] 45%|████▍     | 166232/371472 [2:09:12<17:22:07,  3.28it/s] 45%|████▍     | 166233/371472 [2:09:13<17:06:47,  3.33it/s] 45%|████▍     | 166234/371472 [2:09:13<16:39:29,  3.42it/s] 45%|████▍     | 166235/371472 [2:09:13<17:29:37,  3.26it/s] 45%|████▍     | 166236/371472 [2:09:14<17:35:29,  3.24it/s] 45%|████▍     | 166237/371472 [2:09:14<16:58:35,  3.36it/s] 45%|████▍     | 166238/371472 [2:09:14<18:11:17,  3.13it/s] 45%|████▍     | 166239/371472 [2:09:14<18:13:13,  3.13it/s] 45%|████▍     | 166240/371472 [2:09:15<17:19:54,  3.29it/s]                                                            {'loss': 3.1126, 'learning_rate': 5.975026395742205e-07, 'epoch': 7.16}
 45%|████▍     | 166240/371472 [2:09:15<17:19:54,  3.29it/s] 45%|████▍     | 166241/371472 [2:09:15<18:05:54,  3.15it/s] 45%|████▍     | 166242/371472 [2:09:15<17:58:31,  3.17it/s] 45%|████▍     | 166243/371472 [2:09:16<18:32:56,  3.07it/s] 45%|████▍     | 166244/371472 [2:09:16<18:17:09,  3.12it/s] 45%|████▍     | 166245/371472 [2:09:16<16:49:31,  3.39it/s] 45%|████▍     | 166246/371472 [2:09:17<16:09:20,  3.53it/s] 45%|████▍     | 166247/371472 [2:09:17<16:23:14,  3.48it/s] 45%|████▍     | 166248/371472 [2:09:17<17:32:22,  3.25it/s] 45%|████▍     | 166249/371472 [2:09:18<18:32:22,  3.07it/s] 45%|████▍     | 166250/371472 [2:09:18<18:16:05,  3.12it/s] 45%|████▍     | 166251/371472 [2:09:18<18:04:37,  3.15it/s] 45%|████▍     | 166252/371472 [2:09:19<18:00:07,  3.17it/s] 45%|████▍     | 166253/371472 [2:09:19<17:45:55,  3.21it/s] 45%|████▍     | 166254/371472 [2:09:19<17:17:30,  3.30it/s] 45%|████▍     | 166255/371472 [2:09:19<17:13:51,  3.31it/s] 45%|████▍     | 166256/371472 [2:09:20<16:57:56,  3.36it/s] 45%|████▍     | 166257/371472 [2:09:20<16:53:32,  3.37it/s] 45%|████▍     | 166258/371472 [2:09:20<17:16:40,  3.30it/s] 45%|████▍     | 166259/371472 [2:09:21<18:32:50,  3.07it/s] 45%|████▍     | 166260/371472 [2:09:21<17:43:51,  3.21it/s]                                                            {'loss': 2.9764, 'learning_rate': 5.974541575987416e-07, 'epoch': 7.16}
 45%|████▍     | 166260/371472 [2:09:21<17:43:51,  3.21it/s] 45%|████▍     | 166261/371472 [2:09:21<17:38:53,  3.23it/s] 45%|████▍     | 166262/371472 [2:09:22<17:20:17,  3.29it/s] 45%|████▍     | 166263/371472 [2:09:22<17:05:34,  3.33it/s] 45%|████▍     | 166264/371472 [2:09:22<17:25:45,  3.27it/s] 45%|████▍     | 166265/371472 [2:09:22<16:31:07,  3.45it/s] 45%|████▍     | 166266/371472 [2:09:23<15:54:09,  3.58it/s] 45%|████▍     | 166267/371472 [2:09:23<16:03:10,  3.55it/s] 45%|████▍     | 166268/371472 [2:09:23<16:02:17,  3.55it/s] 45%|████▍     | 166269/371472 [2:09:24<15:49:25,  3.60it/s] 45%|████▍     | 166270/371472 [2:09:24<15:59:02,  3.57it/s] 45%|████▍     | 166271/371472 [2:09:24<15:46:32,  3.61it/s] 45%|████▍     | 166272/371472 [2:09:24<15:23:53,  3.70it/s] 45%|████▍     | 166273/371472 [2:09:25<15:49:23,  3.60it/s] 45%|████▍     | 166274/371472 [2:09:25<15:41:35,  3.63it/s] 45%|████▍     | 166275/371472 [2:09:25<15:34:45,  3.66it/s] 45%|████▍     | 166276/371472 [2:09:25<15:35:14,  3.66it/s] 45%|████▍     | 166277/371472 [2:09:26<15:14:27,  3.74it/s] 45%|████▍     | 166278/371472 [2:09:26<15:33:24,  3.66it/s] 45%|████▍     | 166279/371472 [2:09:26<15:54:39,  3.58it/s] 45%|████▍     | 166280/371472 [2:09:27<16:40:08,  3.42it/s]                                                            {'loss': 3.1831, 'learning_rate': 5.974056756232628e-07, 'epoch': 7.16}
 45%|████▍     | 166280/371472 [2:09:27<16:40:08,  3.42it/s] 45%|████▍     | 166281/371472 [2:09:27<17:24:30,  3.27it/s] 45%|████▍     | 166282/371472 [2:09:27<16:46:53,  3.40it/s] 45%|████▍     | 166283/371472 [2:09:27<16:38:18,  3.43it/s] 45%|████▍     | 166284/371472 [2:09:28<17:23:31,  3.28it/s] 45%|████▍     | 166285/371472 [2:09:28<17:04:43,  3.34it/s] 45%|████▍     | 166286/371472 [2:09:28<16:52:03,  3.38it/s] 45%|████▍     | 166287/371472 [2:09:29<16:59:44,  3.35it/s] 45%|████▍     | 166288/371472 [2:09:29<16:04:15,  3.55it/s] 45%|████▍     | 166289/371472 [2:09:29<15:58:33,  3.57it/s] 45%|████▍     | 166290/371472 [2:09:29<15:52:00,  3.59it/s] 45%|████▍     | 166291/371472 [2:09:30<15:49:55,  3.60it/s] 45%|████▍     | 166292/371472 [2:09:30<15:06:21,  3.77it/s] 45%|████▍     | 166293/371472 [2:09:30<14:41:11,  3.88it/s] 45%|████▍     | 166294/371472 [2:09:31<15:11:56,  3.75it/s] 45%|████▍     | 166295/371472 [2:09:31<14:52:11,  3.83it/s] 45%|████▍     | 166296/371472 [2:09:31<17:29:40,  3.26it/s] 45%|████▍     | 166297/371472 [2:09:31<16:59:16,  3.35it/s] 45%|████▍     | 166298/371472 [2:09:32<17:01:47,  3.35it/s] 45%|████▍     | 166299/371472 [2:09:32<16:55:44,  3.37it/s] 45%|████▍     | 166300/371472 [2:09:32<16:22:19,  3.48it/s]                                                            {'loss': 3.1097, 'learning_rate': 5.973571936477838e-07, 'epoch': 7.16}
 45%|████▍     | 166300/371472 [2:09:32<16:22:19,  3.48it/s] 45%|████▍     | 166301/371472 [2:09:33<16:15:37,  3.50it/s] 45%|████▍     | 166302/371472 [2:09:33<17:11:48,  3.31it/s] 45%|████▍     | 166303/371472 [2:09:33<16:47:42,  3.39it/s] 45%|████▍     | 166304/371472 [2:09:34<16:53:37,  3.37it/s] 45%|████▍     | 166305/371472 [2:09:34<16:20:35,  3.49it/s] 45%|████▍     | 166306/371472 [2:09:34<16:15:52,  3.50it/s] 45%|████▍     | 166307/371472 [2:09:34<16:13:59,  3.51it/s] 45%|████▍     | 166308/371472 [2:09:35<15:25:01,  3.70it/s] 45%|████▍     | 166309/371472 [2:09:35<16:03:36,  3.55it/s] 45%|████▍     | 166310/371472 [2:09:35<15:29:39,  3.68it/s] 45%|████▍     | 166311/371472 [2:09:35<15:31:13,  3.67it/s] 45%|████▍     | 166312/371472 [2:09:36<15:51:02,  3.60it/s] 45%|████▍     | 166313/371472 [2:09:36<15:39:59,  3.64it/s] 45%|████▍     | 166314/371472 [2:09:36<15:42:41,  3.63it/s] 45%|████▍     | 166315/371472 [2:09:37<15:32:37,  3.67it/s] 45%|████▍     | 166316/371472 [2:09:37<15:57:18,  3.57it/s] 45%|████▍     | 166317/371472 [2:09:37<15:25:23,  3.69it/s] 45%|████▍     | 166318/371472 [2:09:37<16:53:00,  3.38it/s] 45%|████▍     | 166319/371472 [2:09:38<16:19:16,  3.49it/s] 45%|████▍     | 166320/371472 [2:09:38<16:08:47,  3.53it/s]                                                            {'loss': 3.1342, 'learning_rate': 5.973087116723049e-07, 'epoch': 7.16}
 45%|████▍     | 166320/371472 [2:09:38<16:08:47,  3.53it/s] 45%|████▍     | 166321/371472 [2:09:38<17:04:07,  3.34it/s] 45%|████▍     | 166322/371472 [2:09:39<16:32:34,  3.44it/s] 45%|████▍     | 166323/371472 [2:09:39<16:20:03,  3.49it/s] 45%|████▍     | 166324/371472 [2:09:39<16:18:45,  3.49it/s] 45%|████▍     | 166325/371472 [2:09:39<16:03:49,  3.55it/s] 45%|████▍     | 166326/371472 [2:09:40<16:08:19,  3.53it/s] 45%|████▍     | 166327/371472 [2:09:40<15:47:32,  3.61it/s] 45%|████▍     | 166328/371472 [2:09:40<17:15:31,  3.30it/s] 45%|████▍     | 166329/371472 [2:09:41<17:37:07,  3.23it/s] 45%|████▍     | 166330/371472 [2:09:41<17:37:09,  3.23it/s] 45%|████▍     | 166331/371472 [2:09:41<17:13:04,  3.31it/s] 45%|████▍     | 166332/371472 [2:09:42<17:22:57,  3.28it/s] 45%|████▍     | 166333/371472 [2:09:42<16:50:27,  3.38it/s] 45%|████▍     | 166334/371472 [2:09:42<16:35:43,  3.43it/s] 45%|████▍     | 166335/371472 [2:09:42<16:29:20,  3.46it/s] 45%|████▍     | 166336/371472 [2:09:43<17:25:25,  3.27it/s] 45%|████▍     | 166337/371472 [2:09:43<18:05:12,  3.15it/s] 45%|████▍     | 166338/371472 [2:09:43<18:08:58,  3.14it/s] 45%|████▍     | 166339/371472 [2:09:44<17:07:32,  3.33it/s] 45%|████▍     | 166340/371472 [2:09:44<16:34:38,  3.44it/s]                                                            {'loss': 3.2222, 'learning_rate': 5.97260229696826e-07, 'epoch': 7.16}
 45%|████▍     | 166340/371472 [2:09:44<16:34:38,  3.44it/s] 45%|████▍     | 166341/371472 [2:09:44<16:16:33,  3.50it/s] 45%|████▍     | 166342/371472 [2:09:44<15:40:52,  3.63it/s] 45%|████▍     | 166343/371472 [2:09:45<15:48:34,  3.60it/s] 45%|████▍     | 166344/371472 [2:09:45<17:19:07,  3.29it/s] 45%|████▍     | 166345/371472 [2:09:45<17:06:28,  3.33it/s] 45%|████▍     | 166346/371472 [2:09:46<17:12:45,  3.31it/s] 45%|████▍     | 166347/371472 [2:09:46<16:52:45,  3.38it/s] 45%|████▍     | 166348/371472 [2:09:46<16:19:43,  3.49it/s] 45%|████▍     | 166349/371472 [2:09:47<17:06:51,  3.33it/s] 45%|████▍     | 166350/371472 [2:09:47<16:57:39,  3.36it/s] 45%|████▍     | 166351/371472 [2:09:47<17:24:45,  3.27it/s] 45%|████▍     | 166352/371472 [2:09:47<16:22:46,  3.48it/s] 45%|████▍     | 166353/371472 [2:09:48<15:56:06,  3.58it/s] 45%|████▍     | 166354/371472 [2:09:48<16:00:17,  3.56it/s] 45%|████▍     | 166355/371472 [2:09:48<16:10:46,  3.52it/s] 45%|████▍     | 166356/371472 [2:09:49<15:54:27,  3.58it/s] 45%|████▍     | 166357/371472 [2:09:49<15:39:21,  3.64it/s] 45%|████▍     | 166358/371472 [2:09:49<16:48:02,  3.39it/s] 45%|████▍     | 166359/371472 [2:09:49<16:05:36,  3.54it/s] 45%|████▍     | 166360/371472 [2:09:50<15:41:52,  3.63it/s]                                                            {'loss': 2.9953, 'learning_rate': 5.972117477213472e-07, 'epoch': 7.17}
 45%|████▍     | 166360/371472 [2:09:50<15:41:52,  3.63it/s] 45%|████▍     | 166361/371472 [2:09:50<14:58:48,  3.80it/s] 45%|████▍     | 166362/371472 [2:09:50<15:13:20,  3.74it/s] 45%|████▍     | 166363/371472 [2:09:50<15:24:49,  3.70it/s] 45%|████▍     | 166364/371472 [2:09:51<15:09:16,  3.76it/s] 45%|████▍     | 166365/371472 [2:09:51<15:10:29,  3.75it/s] 45%|████▍     | 166366/371472 [2:09:51<14:48:22,  3.85it/s] 45%|████▍     | 166367/371472 [2:09:51<14:42:26,  3.87it/s] 45%|████▍     | 166368/371472 [2:09:52<14:51:19,  3.84it/s] 45%|████▍     | 166369/371472 [2:09:52<14:59:35,  3.80it/s] 45%|████▍     | 166370/371472 [2:09:52<16:23:34,  3.48it/s] 45%|████▍     | 166371/371472 [2:09:53<16:01:00,  3.56it/s] 45%|████▍     | 166372/371472 [2:09:53<15:59:50,  3.56it/s] 45%|████▍     | 166373/371472 [2:09:53<16:07:57,  3.53it/s] 45%|████▍     | 166374/371472 [2:09:54<16:54:22,  3.37it/s] 45%|████▍     | 166375/371472 [2:09:54<16:37:27,  3.43it/s] 45%|████▍     | 166376/371472 [2:09:54<15:39:19,  3.64it/s] 45%|████▍     | 166377/371472 [2:09:54<14:57:42,  3.81it/s] 45%|████▍     | 166378/371472 [2:09:54<14:34:41,  3.91it/s] 45%|████▍     | 166379/371472 [2:09:55<16:17:59,  3.50it/s] 45%|████▍     | 166380/371472 [2:09:55<15:53:46,  3.58it/s]                                                            {'loss': 3.0538, 'learning_rate': 5.971632657458683e-07, 'epoch': 7.17}
 45%|████▍     | 166380/371472 [2:09:55<15:53:46,  3.58it/s] 45%|████▍     | 166381/371472 [2:09:55<15:35:11,  3.66it/s] 45%|████▍     | 166382/371472 [2:09:56<15:43:08,  3.62it/s] 45%|████▍     | 166383/371472 [2:09:56<15:27:33,  3.69it/s] 45%|████▍     | 166384/371472 [2:09:56<15:24:18,  3.70it/s] 45%|████▍     | 166385/371472 [2:09:56<15:48:00,  3.61it/s] 45%|████▍     | 166386/371472 [2:09:57<16:04:17,  3.54it/s] 45%|████▍     | 166387/371472 [2:09:57<15:45:29,  3.62it/s] 45%|████▍     | 166388/371472 [2:09:57<15:26:05,  3.69it/s] 45%|████▍     | 166389/371472 [2:09:58<16:07:13,  3.53it/s] 45%|████▍     | 166390/371472 [2:09:58<17:06:39,  3.33it/s] 45%|████▍     | 166391/371472 [2:09:58<16:59:25,  3.35it/s] 45%|████▍     | 166392/371472 [2:09:59<16:28:44,  3.46it/s] 45%|████▍     | 166393/371472 [2:09:59<19:07:32,  2.98it/s] 45%|████▍     | 166394/371472 [2:09:59<19:30:07,  2.92it/s] 45%|████▍     | 166395/371472 [2:10:00<18:02:06,  3.16it/s] 45%|████▍     | 166396/371472 [2:10:00<19:11:25,  2.97it/s] 45%|████▍     | 166397/371472 [2:10:00<18:51:17,  3.02it/s] 45%|████▍     | 166398/371472 [2:10:01<18:10:09,  3.14it/s] 45%|████▍     | 166399/371472 [2:10:01<18:09:33,  3.14it/s] 45%|████▍     | 166400/371472 [2:10:01<17:00:40,  3.35it/s]                                                            {'loss': 3.138, 'learning_rate': 5.971147837703893e-07, 'epoch': 7.17}
 45%|████▍     | 166400/371472 [2:10:01<17:00:40,  3.35it/s] 45%|████▍     | 166401/371472 [2:10:01<16:23:35,  3.47it/s] 45%|████▍     | 166402/371472 [2:10:02<15:48:16,  3.60it/s] 45%|████▍     | 166403/371472 [2:10:02<16:27:27,  3.46it/s] 45%|████▍     | 166404/371472 [2:10:02<16:04:15,  3.54it/s] 45%|████▍     | 166405/371472 [2:10:02<15:42:19,  3.63it/s] 45%|████▍     | 166406/371472 [2:10:03<17:12:54,  3.31it/s] 45%|████▍     | 166407/371472 [2:10:03<16:11:30,  3.52it/s] 45%|████▍     | 166408/371472 [2:10:03<16:41:55,  3.41it/s] 45%|████▍     | 166409/371472 [2:10:04<16:09:46,  3.52it/s] 45%|████▍     | 166410/371472 [2:10:04<15:40:04,  3.64it/s] 45%|████▍     | 166411/371472 [2:10:04<15:57:43,  3.57it/s] 45%|████▍     | 166412/371472 [2:10:04<15:38:33,  3.64it/s] 45%|████▍     | 166413/371472 [2:10:05<15:48:43,  3.60it/s] 45%|████▍     | 166414/371472 [2:10:05<15:52:09,  3.59it/s] 45%|████▍     | 166415/371472 [2:10:05<16:37:52,  3.42it/s] 45%|████▍     | 166416/371472 [2:10:06<16:25:14,  3.47it/s] 45%|████▍     | 166417/371472 [2:10:06<15:55:38,  3.58it/s] 45%|████▍     | 166418/371472 [2:10:06<15:41:32,  3.63it/s] 45%|████▍     | 166419/371472 [2:10:06<15:39:37,  3.64it/s] 45%|████▍     | 166420/371472 [2:10:07<15:34:30,  3.66it/s]                                                            {'loss': 3.1849, 'learning_rate': 5.970663017949105e-07, 'epoch': 7.17}
 45%|████▍     | 166420/371472 [2:10:07<15:34:30,  3.66it/s] 45%|████▍     | 166421/371472 [2:10:07<15:38:44,  3.64it/s] 45%|████▍     | 166422/371472 [2:10:07<18:49:24,  3.03it/s] 45%|████▍     | 166423/371472 [2:10:08<18:33:54,  3.07it/s] 45%|████▍     | 166424/371472 [2:10:08<17:45:19,  3.21it/s] 45%|████▍     | 166425/371472 [2:10:08<17:04:18,  3.34it/s] 45%|████▍     | 166426/371472 [2:10:09<17:32:18,  3.25it/s] 45%|████▍     | 166427/371472 [2:10:09<16:32:54,  3.44it/s] 45%|████▍     | 166428/371472 [2:10:09<16:06:46,  3.53it/s] 45%|████▍     | 166429/371472 [2:10:09<15:47:07,  3.61it/s] 45%|████▍     | 166430/371472 [2:10:10<15:52:52,  3.59it/s] 45%|████▍     | 166431/371472 [2:10:10<15:39:42,  3.64it/s] 45%|████▍     | 166432/371472 [2:10:10<15:19:23,  3.72it/s] 45%|████▍     | 166433/371472 [2:10:11<15:29:19,  3.68it/s] 45%|████▍     | 166434/371472 [2:10:11<16:57:25,  3.36it/s] 45%|████▍     | 166435/371472 [2:10:11<16:57:42,  3.36it/s] 45%|████▍     | 166436/371472 [2:10:11<16:08:41,  3.53it/s] 45%|████▍     | 166437/371472 [2:10:12<15:48:32,  3.60it/s] 45%|████▍     | 166438/371472 [2:10:12<16:06:26,  3.54it/s] 45%|████▍     | 166439/371472 [2:10:12<16:12:27,  3.51it/s] 45%|████▍     | 166440/371472 [2:10:13<15:40:21,  3.63it/s]                                                            {'loss': 3.0029, 'learning_rate': 5.970178198194315e-07, 'epoch': 7.17}
 45%|████▍     | 166440/371472 [2:10:13<15:40:21,  3.63it/s] 45%|████▍     | 166441/371472 [2:10:13<16:09:52,  3.52it/s] 45%|████▍     | 166442/371472 [2:10:13<15:30:39,  3.67it/s] 45%|████▍     | 166443/371472 [2:10:13<16:46:35,  3.39it/s] 45%|████▍     | 166444/371472 [2:10:14<16:39:23,  3.42it/s] 45%|████▍     | 166445/371472 [2:10:14<16:24:10,  3.47it/s] 45%|████▍     | 166446/371472 [2:10:14<16:19:52,  3.49it/s] 45%|████▍     | 166447/371472 [2:10:15<16:07:22,  3.53it/s] 45%|████▍     | 166448/371472 [2:10:15<17:03:40,  3.34it/s] 45%|████▍     | 166449/371472 [2:10:15<16:46:08,  3.40it/s] 45%|████▍     | 166450/371472 [2:10:15<17:12:34,  3.31it/s] 45%|████▍     | 166451/371472 [2:10:16<16:16:06,  3.50it/s] 45%|████▍     | 166452/371472 [2:10:16<15:49:38,  3.60it/s] 45%|████▍     | 166453/371472 [2:10:16<17:05:14,  3.33it/s] 45%|████▍     | 166454/371472 [2:10:17<16:17:40,  3.49it/s] 45%|████▍     | 166455/371472 [2:10:17<16:27:05,  3.46it/s] 45%|████▍     | 166456/371472 [2:10:17<16:33:22,  3.44it/s] 45%|████▍     | 166457/371472 [2:10:17<16:57:03,  3.36it/s] 45%|████▍     | 166458/371472 [2:10:18<17:00:13,  3.35it/s] 45%|████▍     | 166459/371472 [2:10:18<16:09:09,  3.53it/s] 45%|████▍     | 166460/371472 [2:10:18<15:36:03,  3.65it/s]                                                            {'loss': 3.0719, 'learning_rate': 5.969693378439526e-07, 'epoch': 7.17}
 45%|████▍     | 166460/371472 [2:10:18<15:36:03,  3.65it/s] 45%|████▍     | 166461/371472 [2:10:19<16:31:05,  3.45it/s] 45%|████▍     | 166462/371472 [2:10:19<15:54:47,  3.58it/s] 45%|████▍     | 166463/371472 [2:10:19<15:36:10,  3.65it/s] 45%|████▍     | 166464/371472 [2:10:19<15:51:17,  3.59it/s] 45%|████▍     | 166465/371472 [2:10:20<15:55:43,  3.58it/s] 45%|████▍     | 166466/371472 [2:10:20<16:01:49,  3.55it/s] 45%|████▍     | 166467/371472 [2:10:20<15:53:14,  3.58it/s] 45%|████▍     | 166468/371472 [2:10:21<15:58:18,  3.57it/s] 45%|████▍     | 166469/371472 [2:10:21<15:48:48,  3.60it/s] 45%|████▍     | 166470/371472 [2:10:21<17:00:25,  3.35it/s] 45%|████▍     | 166471/371472 [2:10:21<16:39:17,  3.42it/s] 45%|████▍     | 166472/371472 [2:10:22<15:58:14,  3.57it/s] 45%|████▍     | 166473/371472 [2:10:22<16:06:27,  3.54it/s] 45%|████▍     | 166474/371472 [2:10:22<15:40:32,  3.63it/s] 45%|████▍     | 166475/371472 [2:10:23<15:41:51,  3.63it/s] 45%|████▍     | 166476/371472 [2:10:23<16:59:37,  3.35it/s] 45%|████▍     | 166477/371472 [2:10:23<16:23:49,  3.47it/s] 45%|████▍     | 166478/371472 [2:10:23<15:53:58,  3.58it/s] 45%|████▍     | 166479/371472 [2:10:24<16:51:11,  3.38it/s] 45%|████▍     | 166480/371472 [2:10:24<16:24:11,  3.47it/s]                                                            {'loss': 3.1501, 'learning_rate': 5.969208558684737e-07, 'epoch': 7.17}
 45%|████▍     | 166480/371472 [2:10:24<16:24:11,  3.47it/s] 45%|████▍     | 166481/371472 [2:10:24<16:00:22,  3.56it/s] 45%|████▍     | 166482/371472 [2:10:25<15:40:12,  3.63it/s] 45%|████▍     | 166483/371472 [2:10:25<16:06:40,  3.53it/s] 45%|████▍     | 166484/371472 [2:10:25<16:04:29,  3.54it/s] 45%|████▍     | 166485/371472 [2:10:25<15:34:56,  3.65it/s] 45%|████▍     | 166486/371472 [2:10:26<16:21:32,  3.48it/s] 45%|████▍     | 166487/371472 [2:10:26<17:14:14,  3.30it/s] 45%|████▍     | 166488/371472 [2:10:26<16:43:07,  3.41it/s] 45%|████▍     | 166489/371472 [2:10:27<16:16:10,  3.50it/s] 45%|████▍     | 166490/371472 [2:10:27<17:13:00,  3.31it/s] 45%|████▍     | 166491/371472 [2:10:27<16:28:06,  3.46it/s] 45%|████▍     | 166492/371472 [2:10:27<16:03:44,  3.54it/s] 45%|████▍     | 166493/371472 [2:10:28<15:45:24,  3.61it/s] 45%|████▍     | 166494/371472 [2:10:28<15:41:45,  3.63it/s] 45%|████▍     | 166495/371472 [2:10:28<15:27:05,  3.68it/s] 45%|████▍     | 166496/371472 [2:10:28<14:59:55,  3.80it/s] 45%|████▍     | 166497/371472 [2:10:29<15:05:12,  3.77it/s] 45%|████▍     | 166498/371472 [2:10:29<15:08:37,  3.76it/s] 45%|████▍     | 166499/371472 [2:10:29<15:24:04,  3.70it/s] 45%|████▍     | 166500/371472 [2:10:30<15:24:40,  3.69it/s]                                                            {'loss': 3.1181, 'learning_rate': 5.968723738929949e-07, 'epoch': 7.17}
 45%|████▍     | 166500/371472 [2:10:30<15:24:40,  3.69it/s] 45%|████▍     | 166501/371472 [2:10:30<15:36:15,  3.65it/s] 45%|████▍     | 166502/371472 [2:10:30<16:28:21,  3.46it/s] 45%|████▍     | 166503/371472 [2:10:30<16:06:44,  3.53it/s] 45%|████▍     | 166504/371472 [2:10:31<15:58:43,  3.56it/s] 45%|████▍     | 166505/371472 [2:10:31<17:24:13,  3.27it/s] 45%|████▍     | 166506/371472 [2:10:31<16:48:18,  3.39it/s] 45%|████▍     | 166507/371472 [2:10:32<16:03:23,  3.55it/s] 45%|████▍     | 166508/371472 [2:10:32<17:17:11,  3.29it/s] 45%|████▍     | 166509/371472 [2:10:32<18:30:21,  3.08it/s] 45%|████▍     | 166510/371472 [2:10:33<17:18:46,  3.29it/s] 45%|████▍     | 166511/371472 [2:10:33<16:55:06,  3.37it/s] 45%|████▍     | 166512/371472 [2:10:33<17:29:58,  3.25it/s] 45%|████▍     | 166513/371472 [2:10:33<16:50:14,  3.38it/s] 45%|████▍     | 166514/371472 [2:10:34<16:38:11,  3.42it/s] 45%|████▍     | 166515/371472 [2:10:34<16:29:56,  3.45it/s] 45%|████▍     | 166516/371472 [2:10:34<16:59:05,  3.35it/s] 45%|████▍     | 166517/371472 [2:10:35<16:18:22,  3.49it/s] 45%|████▍     | 166518/371472 [2:10:35<15:37:08,  3.65it/s] 45%|████▍     | 166519/371472 [2:10:35<16:22:17,  3.48it/s] 45%|████▍     | 166520/371472 [2:10:35<16:11:24,  3.52it/s]                                                            {'loss': 2.9637, 'learning_rate': 5.96823891917516e-07, 'epoch': 7.17}
 45%|████▍     | 166520/371472 [2:10:35<16:11:24,  3.52it/s] 45%|████▍     | 166521/371472 [2:10:36<15:41:14,  3.63it/s] 45%|████▍     | 166522/371472 [2:10:36<16:21:40,  3.48it/s] 45%|████▍     | 166523/371472 [2:10:36<16:56:52,  3.36it/s] 45%|████▍     | 166524/371472 [2:10:37<16:10:17,  3.52it/s] 45%|████▍     | 166525/371472 [2:10:37<16:20:52,  3.48it/s] 45%|████▍     | 166526/371472 [2:10:37<16:40:00,  3.42it/s] 45%|████▍     | 166527/371472 [2:10:38<17:30:07,  3.25it/s] 45%|████▍     | 166528/371472 [2:10:38<16:40:22,  3.41it/s] 45%|████▍     | 166529/371472 [2:10:38<15:50:07,  3.60it/s] 45%|████▍     | 166530/371472 [2:10:38<16:46:55,  3.39it/s] 45%|████▍     | 166531/371472 [2:10:39<16:38:21,  3.42it/s] 45%|████▍     | 166532/371472 [2:10:39<16:12:17,  3.51it/s] 45%|████▍     | 166533/371472 [2:10:39<15:44:11,  3.62it/s] 45%|████▍     | 166534/371472 [2:10:39<16:01:40,  3.55it/s] 45%|████▍     | 166535/371472 [2:10:40<16:10:35,  3.52it/s] 45%|████▍     | 166536/371472 [2:10:40<15:56:00,  3.57it/s] 45%|████▍     | 166537/371472 [2:10:40<15:47:47,  3.60it/s] 45%|████▍     | 166538/371472 [2:10:41<16:08:49,  3.53it/s] 45%|████▍     | 166539/371472 [2:10:41<15:54:48,  3.58it/s] 45%|████▍     | 166540/371472 [2:10:41<16:55:56,  3.36it/s]                                                            {'loss': 3.1473, 'learning_rate': 5.967754099420371e-07, 'epoch': 7.17}
 45%|████▍     | 166540/371472 [2:10:41<16:55:56,  3.36it/s] 45%|████▍     | 166541/371472 [2:10:41<16:22:15,  3.48it/s] 45%|████▍     | 166542/371472 [2:10:42<16:30:10,  3.45it/s] 45%|████▍     | 166543/371472 [2:10:42<16:48:50,  3.39it/s] 45%|████▍     | 166544/371472 [2:10:42<17:16:44,  3.29it/s] 45%|████▍     | 166545/371472 [2:10:43<16:52:47,  3.37it/s] 45%|████▍     | 166546/371472 [2:10:43<17:05:12,  3.33it/s] 45%|████▍     | 166547/371472 [2:10:43<16:26:50,  3.46it/s] 45%|████▍     | 166548/371472 [2:10:44<16:24:25,  3.47it/s] 45%|████▍     | 166549/371472 [2:10:44<16:10:38,  3.52it/s] 45%|████▍     | 166550/371472 [2:10:44<17:16:25,  3.30it/s] 45%|████▍     | 166551/371472 [2:10:44<17:17:51,  3.29it/s] 45%|████▍     | 166552/371472 [2:10:45<17:53:07,  3.18it/s] 45%|████▍     | 166553/371472 [2:10:45<17:27:08,  3.26it/s] 45%|████▍     | 166554/371472 [2:10:45<17:10:47,  3.31it/s] 45%|████▍     | 166555/371472 [2:10:46<17:25:57,  3.27it/s] 45%|████▍     | 166556/371472 [2:10:46<16:26:05,  3.46it/s] 45%|████▍     | 166557/371472 [2:10:46<16:24:45,  3.47it/s] 45%|████▍     | 166558/371472 [2:10:46<15:51:52,  3.59it/s] 45%|████▍     | 166559/371472 [2:10:47<18:07:51,  3.14it/s] 45%|████▍     | 166560/371472 [2:10:47<17:32:05,  3.25it/s]                                                            {'loss': 2.9853, 'learning_rate': 5.967269279665581e-07, 'epoch': 7.17}
 45%|████▍     | 166560/371472 [2:10:47<17:32:05,  3.25it/s] 45%|████▍     | 166561/371472 [2:10:47<16:53:08,  3.37it/s] 45%|████▍     | 166562/371472 [2:10:48<16:53:11,  3.37it/s] 45%|████▍     | 166563/371472 [2:10:48<17:09:38,  3.32it/s] 45%|████▍     | 166564/371472 [2:10:48<16:58:50,  3.35it/s] 45%|████▍     | 166565/371472 [2:10:49<17:27:25,  3.26it/s] 45%|████▍     | 166566/371472 [2:10:49<16:42:30,  3.41it/s] 45%|████▍     | 166567/371472 [2:10:49<16:25:37,  3.46it/s] 45%|████▍     | 166568/371472 [2:10:49<15:48:27,  3.60it/s] 45%|████▍     | 166569/371472 [2:10:50<15:57:11,  3.57it/s] 45%|████▍     | 166570/371472 [2:10:50<15:54:16,  3.58it/s] 45%|████▍     | 166571/371472 [2:10:50<16:20:08,  3.48it/s] 45%|████▍     | 166572/371472 [2:10:51<16:07:02,  3.53it/s] 45%|████▍     | 166573/371472 [2:10:51<15:46:38,  3.61it/s] 45%|████▍     | 166574/371472 [2:10:51<16:30:54,  3.45it/s] 45%|████▍     | 166575/371472 [2:10:51<15:58:06,  3.56it/s] 45%|████▍     | 166576/371472 [2:10:52<15:56:47,  3.57it/s] 45%|████▍     | 166577/371472 [2:10:52<15:30:47,  3.67it/s] 45%|████▍     | 166578/371472 [2:10:52<15:51:33,  3.59it/s] 45%|████▍     | 166579/371472 [2:10:53<16:10:02,  3.52it/s] 45%|████▍     | 166580/371472 [2:10:53<17:13:10,  3.31it/s]                                                            {'loss': 2.9344, 'learning_rate': 5.966784459910793e-07, 'epoch': 7.17}
 45%|████▍     | 166580/371472 [2:10:53<17:13:10,  3.31it/s] 45%|████▍     | 166581/371472 [2:10:53<17:08:25,  3.32it/s] 45%|████▍     | 166582/371472 [2:10:53<16:03:37,  3.54it/s] 45%|████▍     | 166583/371472 [2:10:54<15:49:07,  3.60it/s] 45%|████▍     | 166584/371472 [2:10:54<15:34:23,  3.65it/s] 45%|████▍     | 166585/371472 [2:10:54<16:31:51,  3.44it/s] 45%|████▍     | 166586/371472 [2:10:55<16:03:11,  3.55it/s] 45%|████▍     | 166587/371472 [2:10:55<16:21:27,  3.48it/s] 45%|████▍     | 166588/371472 [2:10:55<20:08:01,  2.83it/s] 45%|████▍     | 166589/371472 [2:10:56<18:35:23,  3.06it/s] 45%|████▍     | 166590/371472 [2:10:56<17:23:53,  3.27it/s] 45%|████▍     | 166591/371472 [2:10:56<16:56:38,  3.36it/s] 45%|████▍     | 166592/371472 [2:10:56<16:55:30,  3.36it/s] 45%|████▍     | 166593/371472 [2:10:57<17:25:53,  3.26it/s] 45%|████▍     | 166594/371472 [2:10:57<19:30:09,  2.92it/s] 45%|████▍     | 166595/371472 [2:10:58<18:14:17,  3.12it/s] 45%|████▍     | 166596/371472 [2:10:58<17:28:05,  3.26it/s] 45%|████▍     | 166597/371472 [2:10:58<18:52:25,  3.02it/s] 45%|████▍     | 166598/371472 [2:10:58<18:08:05,  3.14it/s] 45%|████▍     | 166599/371472 [2:10:59<18:09:18,  3.13it/s] 45%|████▍     | 166600/371472 [2:10:59<17:11:57,  3.31it/s]                                                            {'loss': 3.2401, 'learning_rate': 5.966299640156004e-07, 'epoch': 7.18}
 45%|████▍     | 166600/371472 [2:10:59<17:11:57,  3.31it/s] 45%|████▍     | 166601/371472 [2:10:59<16:58:28,  3.35it/s] 45%|████▍     | 166602/371472 [2:11:00<16:58:45,  3.35it/s] 45%|████▍     | 166603/371472 [2:11:00<16:34:03,  3.43it/s] 45%|████▍     | 166604/371472 [2:11:00<16:13:06,  3.51it/s] 45%|████▍     | 166605/371472 [2:11:00<15:42:15,  3.62it/s] 45%|████▍     | 166606/371472 [2:11:01<16:43:50,  3.40it/s] 45%|████▍     | 166607/371472 [2:11:01<16:28:54,  3.45it/s] 45%|████▍     | 166608/371472 [2:11:01<16:36:14,  3.43it/s] 45%|████▍     | 166609/371472 [2:11:02<16:09:02,  3.52it/s] 45%|████▍     | 166610/371472 [2:11:02<16:04:34,  3.54it/s] 45%|████▍     | 166611/371472 [2:11:02<18:06:14,  3.14it/s] 45%|████▍     | 166612/371472 [2:11:03<17:32:00,  3.25it/s] 45%|████▍     | 166613/371472 [2:11:03<16:45:49,  3.39it/s] 45%|████▍     | 166614/371472 [2:11:03<17:16:40,  3.29it/s] 45%|████▍     | 166615/371472 [2:11:03<16:40:31,  3.41it/s] 45%|████▍     | 166616/371472 [2:11:04<16:27:31,  3.46it/s] 45%|████▍     | 166617/371472 [2:11:04<16:05:51,  3.53it/s] 45%|████▍     | 166618/371472 [2:11:04<15:28:45,  3.68it/s] 45%|████▍     | 166619/371472 [2:11:05<15:49:36,  3.60it/s] 45%|████▍     | 166620/371472 [2:11:05<16:56:16,  3.36it/s]                                                            {'loss': 3.0088, 'learning_rate': 5.965814820401215e-07, 'epoch': 7.18}
 45%|████▍     | 166620/371472 [2:11:05<16:56:16,  3.36it/s] 45%|████▍     | 166621/371472 [2:11:05<18:10:44,  3.13it/s] 45%|████▍     | 166622/371472 [2:11:06<17:22:20,  3.28it/s] 45%|████▍     | 166623/371472 [2:11:06<16:16:48,  3.50it/s] 45%|████▍     | 166624/371472 [2:11:06<15:49:22,  3.60it/s] 45%|████▍     | 166625/371472 [2:11:06<15:32:31,  3.66it/s] 45%|████▍     | 166626/371472 [2:11:07<16:25:12,  3.47it/s] 45%|████▍     | 166627/371472 [2:11:07<16:55:24,  3.36it/s] 45%|████▍     | 166628/371472 [2:11:07<16:19:29,  3.49it/s] 45%|████▍     | 166629/371472 [2:11:07<16:27:40,  3.46it/s] 45%|████▍     | 166630/371472 [2:11:08<16:07:30,  3.53it/s] 45%|████▍     | 166631/371472 [2:11:08<15:43:48,  3.62it/s] 45%|████▍     | 166632/371472 [2:11:08<15:25:09,  3.69it/s] 45%|████▍     | 166633/371472 [2:11:09<15:22:37,  3.70it/s] 45%|████▍     | 166634/371472 [2:11:09<15:25:16,  3.69it/s] 45%|████▍     | 166635/371472 [2:11:09<15:47:36,  3.60it/s] 45%|████▍     | 166636/371472 [2:11:09<15:49:31,  3.60it/s] 45%|████▍     | 166637/371472 [2:11:10<16:03:54,  3.54it/s] 45%|████▍     | 166638/371472 [2:11:10<15:39:23,  3.63it/s] 45%|████▍     | 166639/371472 [2:11:10<15:43:28,  3.62it/s] 45%|████▍     | 166640/371472 [2:11:10<15:19:46,  3.71it/s]                                                            {'loss': 3.1396, 'learning_rate': 5.965330000646426e-07, 'epoch': 7.18}
 45%|████▍     | 166640/371472 [2:11:10<15:19:46,  3.71it/s] 45%|████▍     | 166641/371472 [2:11:11<15:25:32,  3.69it/s] 45%|████▍     | 166642/371472 [2:11:11<15:34:25,  3.65it/s] 45%|████▍     | 166643/371472 [2:11:11<16:17:35,  3.49it/s] 45%|████▍     | 166644/371472 [2:11:12<15:49:16,  3.60it/s] 45%|████▍     | 166645/371472 [2:11:12<16:01:32,  3.55it/s] 45%|████▍     | 166646/371472 [2:11:12<15:49:50,  3.59it/s] 45%|████▍     | 166647/371472 [2:11:12<15:38:49,  3.64it/s] 45%|████▍     | 166648/371472 [2:11:13<16:40:19,  3.41it/s] 45%|████▍     | 166649/371472 [2:11:13<16:17:04,  3.49it/s] 45%|████▍     | 166650/371472 [2:11:13<16:07:47,  3.53it/s] 45%|████▍     | 166651/371472 [2:11:14<15:36:19,  3.65it/s] 45%|████▍     | 166652/371472 [2:11:14<15:39:48,  3.63it/s] 45%|████▍     | 166653/371472 [2:11:14<15:46:03,  3.61it/s] 45%|████▍     | 166654/371472 [2:11:14<17:06:54,  3.32it/s] 45%|████▍     | 166655/371472 [2:11:15<16:28:09,  3.45it/s] 45%|████▍     | 166656/371472 [2:11:15<16:26:55,  3.46it/s] 45%|████▍     | 166657/371472 [2:11:15<15:45:30,  3.61it/s] 45%|████▍     | 166658/371472 [2:11:16<16:23:01,  3.47it/s] 45%|████▍     | 166659/371472 [2:11:16<20:10:30,  2.82it/s] 45%|████▍     | 166660/371472 [2:11:16<18:28:57,  3.08it/s]                                                            {'loss': 2.8764, 'learning_rate': 5.964845180891638e-07, 'epoch': 7.18}
 45%|████▍     | 166660/371472 [2:11:16<18:28:57,  3.08it/s] 45%|████▍     | 166661/371472 [2:11:17<17:38:55,  3.22it/s] 45%|████▍     | 166662/371472 [2:11:17<17:18:48,  3.29it/s] 45%|████▍     | 166663/371472 [2:11:17<16:46:12,  3.39it/s] 45%|████▍     | 166664/371472 [2:11:17<16:50:26,  3.38it/s] 45%|████▍     | 166665/371472 [2:11:18<16:35:27,  3.43it/s] 45%|████▍     | 166666/371472 [2:11:18<16:54:35,  3.36it/s] 45%|████▍     | 166667/371472 [2:11:18<16:17:26,  3.49it/s] 45%|████▍     | 166668/371472 [2:11:19<16:33:29,  3.44it/s] 45%|████▍     | 166669/371472 [2:11:19<16:00:39,  3.55it/s] 45%|████▍     | 166670/371472 [2:11:19<16:57:20,  3.36it/s] 45%|████▍     | 166671/371472 [2:11:19<16:17:48,  3.49it/s] 45%|████▍     | 166672/371472 [2:11:20<15:47:31,  3.60it/s] 45%|████▍     | 166673/371472 [2:11:20<16:01:16,  3.55it/s] 45%|████▍     | 166674/371472 [2:11:20<15:45:30,  3.61it/s] 45%|████▍     | 166675/371472 [2:11:21<15:15:49,  3.73it/s] 45%|████▍     | 166676/371472 [2:11:21<16:03:39,  3.54it/s] 45%|████▍     | 166677/371472 [2:11:21<15:52:35,  3.58it/s] 45%|████▍     | 166678/371472 [2:11:21<16:34:35,  3.43it/s] 45%|████▍     | 166679/371472 [2:11:22<16:00:37,  3.55it/s] 45%|████▍     | 166680/371472 [2:11:22<15:34:42,  3.65it/s]                                                            {'loss': 3.1468, 'learning_rate': 5.964360361136848e-07, 'epoch': 7.18}
 45%|████▍     | 166680/371472 [2:11:22<15:34:42,  3.65it/s] 45%|████▍     | 166681/371472 [2:11:22<16:13:04,  3.51it/s] 45%|████▍     | 166682/371472 [2:11:23<15:53:36,  3.58it/s] 45%|████▍     | 166683/371472 [2:11:23<15:42:29,  3.62it/s] 45%|████▍     | 166684/371472 [2:11:23<15:52:11,  3.58it/s] 45%|████▍     | 166685/371472 [2:11:23<15:52:27,  3.58it/s] 45%|████▍     | 166686/371472 [2:11:24<16:05:30,  3.54it/s] 45%|████▍     | 166687/371472 [2:11:24<15:41:39,  3.62it/s] 45%|████▍     | 166688/371472 [2:11:24<15:43:53,  3.62it/s] 45%|████▍     | 166689/371472 [2:11:25<16:30:19,  3.45it/s] 45%|████▍     | 166690/371472 [2:11:25<16:41:11,  3.41it/s] 45%|████▍     | 166691/371472 [2:11:25<15:47:19,  3.60it/s] 45%|████▍     | 166692/371472 [2:11:25<15:36:40,  3.64it/s] 45%|████▍     | 166693/371472 [2:11:26<15:38:19,  3.64it/s] 45%|████▍     | 166694/371472 [2:11:26<15:31:40,  3.66it/s] 45%|████▍     | 166695/371472 [2:11:26<15:17:22,  3.72it/s] 45%|████▍     | 166696/371472 [2:11:26<15:51:49,  3.59it/s] 45%|████▍     | 166697/371472 [2:11:27<15:48:29,  3.60it/s] 45%|████▍     | 166698/371472 [2:11:27<15:51:32,  3.59it/s] 45%|████▍     | 166699/371472 [2:11:27<16:44:06,  3.40it/s] 45%|████▍     | 166700/371472 [2:11:28<16:00:19,  3.55it/s]                                                            {'loss': 3.1337, 'learning_rate': 5.963875541382059e-07, 'epoch': 7.18}
 45%|████▍     | 166700/371472 [2:11:28<16:00:19,  3.55it/s] 45%|████▍     | 166701/371472 [2:11:28<15:53:23,  3.58it/s] 45%|████▍     | 166702/371472 [2:11:28<15:31:08,  3.67it/s] 45%|████▍     | 166703/371472 [2:11:28<15:02:54,  3.78it/s] 45%|████▍     | 166704/371472 [2:11:29<14:58:07,  3.80it/s] 45%|████▍     | 166705/371472 [2:11:29<16:07:00,  3.53it/s] 45%|████▍     | 166706/371472 [2:11:29<15:58:10,  3.56it/s] 45%|████▍     | 166707/371472 [2:11:29<15:30:55,  3.67it/s] 45%|████▍     | 166708/371472 [2:11:30<15:13:51,  3.73it/s] 45%|████▍     | 166709/371472 [2:11:30<15:12:19,  3.74it/s] 45%|████▍     | 166710/371472 [2:11:30<15:32:20,  3.66it/s] 45%|████▍     | 166711/371472 [2:11:31<15:13:10,  3.74it/s] 45%|████▍     | 166712/371472 [2:11:31<16:06:09,  3.53it/s] 45%|████▍     | 166713/371472 [2:11:31<15:59:56,  3.56it/s] 45%|████▍     | 166714/371472 [2:11:31<16:26:02,  3.46it/s] 45%|████▍     | 166715/371472 [2:11:32<16:00:57,  3.55it/s] 45%|████▍     | 166716/371472 [2:11:32<17:11:21,  3.31it/s] 45%|████▍     | 166717/371472 [2:11:32<17:01:25,  3.34it/s] 45%|████▍     | 166718/371472 [2:11:33<16:31:07,  3.44it/s] 45%|████▍     | 166719/371472 [2:11:33<16:21:32,  3.48it/s] 45%|████▍     | 166720/371472 [2:11:33<16:13:11,  3.51it/s]                                                            {'loss': 3.0002, 'learning_rate': 5.96339072162727e-07, 'epoch': 7.18}
 45%|████▍     | 166720/371472 [2:11:33<16:13:11,  3.51it/s] 45%|████▍     | 166721/371472 [2:11:33<15:21:14,  3.70it/s] 45%|████▍     | 166722/371472 [2:11:34<15:44:05,  3.61it/s] 45%|████▍     | 166723/371472 [2:11:34<15:48:09,  3.60it/s] 45%|████▍     | 166724/371472 [2:11:34<15:18:21,  3.72it/s] 45%|████▍     | 166725/371472 [2:11:34<14:49:17,  3.84it/s] 45%|████▍     | 166726/371472 [2:11:35<15:14:23,  3.73it/s] 45%|████▍     | 166727/371472 [2:11:35<16:04:33,  3.54it/s] 45%|████▍     | 166728/371472 [2:11:35<15:30:27,  3.67it/s] 45%|████▍     | 166729/371472 [2:11:36<15:39:40,  3.63it/s] 45%|████▍     | 166730/371472 [2:11:36<15:53:11,  3.58it/s] 45%|████▍     | 166731/371472 [2:11:36<15:51:08,  3.59it/s] 45%|████▍     | 166732/371472 [2:11:36<15:47:32,  3.60it/s] 45%|████▍     | 166733/371472 [2:11:37<15:58:42,  3.56it/s] 45%|████▍     | 166734/371472 [2:11:37<16:00:27,  3.55it/s] 45%|████▍     | 166735/371472 [2:11:37<16:55:13,  3.36it/s] 45%|████▍     | 166736/371472 [2:11:38<16:06:22,  3.53it/s] 45%|████▍     | 166737/371472 [2:11:38<16:49:45,  3.38it/s] 45%|████▍     | 166738/371472 [2:11:38<17:37:53,  3.23it/s] 45%|████▍     | 166739/371472 [2:11:39<16:34:26,  3.43it/s] 45%|████▍     | 166740/371472 [2:11:39<16:58:24,  3.35it/s]                                                            {'loss': 3.157, 'learning_rate': 5.962905901872481e-07, 'epoch': 7.18}
 45%|████▍     | 166740/371472 [2:11:39<16:58:24,  3.35it/s] 45%|████▍     | 166741/371472 [2:11:39<16:45:43,  3.39it/s] 45%|████▍     | 166742/371472 [2:11:39<17:29:41,  3.25it/s] 45%|████▍     | 166743/371472 [2:11:40<17:25:44,  3.26it/s] 45%|████▍     | 166744/371472 [2:11:40<17:00:49,  3.34it/s] 45%|████▍     | 166745/371472 [2:11:40<17:02:17,  3.34it/s] 45%|████▍     | 166746/371472 [2:11:41<16:50:50,  3.38it/s] 45%|████▍     | 166747/371472 [2:11:41<15:53:02,  3.58it/s] 45%|████▍     | 166748/371472 [2:11:41<16:21:52,  3.48it/s] 45%|████▍     | 166749/371472 [2:11:41<15:41:54,  3.62it/s] 45%|████▍     | 166750/371472 [2:11:42<15:04:52,  3.77it/s] 45%|████▍     | 166751/371472 [2:11:42<15:38:16,  3.64it/s] 45%|████▍     | 166752/371472 [2:11:42<16:05:22,  3.53it/s] 45%|████▍     | 166753/371472 [2:11:43<16:03:00,  3.54it/s] 45%|████▍     | 166754/371472 [2:11:43<16:02:16,  3.55it/s] 45%|████▍     | 166755/371472 [2:11:43<15:42:52,  3.62it/s] 45%|████▍     | 166756/371472 [2:11:43<15:20:22,  3.71it/s] 45%|████▍     | 166757/371472 [2:11:44<15:39:51,  3.63it/s] 45%|████▍     | 166758/371472 [2:11:44<15:27:05,  3.68it/s] 45%|████▍     | 166759/371472 [2:11:44<16:32:55,  3.44it/s] 45%|████▍     | 166760/371472 [2:11:45<15:54:30,  3.57it/s]                                                            {'loss': 3.1944, 'learning_rate': 5.962421082117693e-07, 'epoch': 7.18}
 45%|████▍     | 166760/371472 [2:11:45<15:54:30,  3.57it/s] 45%|████▍     | 166761/371472 [2:11:45<15:51:59,  3.58it/s] 45%|████▍     | 166762/371472 [2:11:45<15:48:21,  3.60it/s] 45%|████▍     | 166763/371472 [2:11:45<15:26:49,  3.68it/s] 45%|████▍     | 166764/371472 [2:11:46<15:31:28,  3.66it/s] 45%|████▍     | 166765/371472 [2:11:46<15:18:49,  3.71it/s] 45%|████▍     | 166766/371472 [2:11:46<15:29:01,  3.67it/s] 45%|████▍     | 166767/371472 [2:11:46<15:38:17,  3.64it/s] 45%|████▍     | 166768/371472 [2:11:47<15:34:06,  3.65it/s] 45%|████▍     | 166769/371472 [2:11:47<15:23:03,  3.70it/s] 45%|████▍     | 166770/371472 [2:11:47<15:26:31,  3.68it/s] 45%|████▍     | 166771/371472 [2:11:48<16:14:20,  3.50it/s] 45%|████▍     | 166772/371472 [2:11:48<16:16:50,  3.49it/s] 45%|████▍     | 166773/371472 [2:11:48<17:01:06,  3.34it/s] 45%|████▍     | 166774/371472 [2:11:48<16:54:38,  3.36it/s] 45%|████▍     | 166775/371472 [2:11:49<16:38:07,  3.42it/s] 45%|████▍     | 166776/371472 [2:11:49<16:29:28,  3.45it/s] 45%|████▍     | 166777/371472 [2:11:49<16:02:33,  3.54it/s] 45%|████▍     | 166778/371472 [2:11:50<15:40:41,  3.63it/s] 45%|████▍     | 166779/371472 [2:11:50<15:29:11,  3.67it/s] 45%|████▍     | 166780/371472 [2:11:50<15:19:44,  3.71it/s]                                                            {'loss': 3.1043, 'learning_rate': 5.961936262362904e-07, 'epoch': 7.18}
 45%|████▍     | 166780/371472 [2:11:50<15:19:44,  3.71it/s] 45%|████▍     | 166781/371472 [2:11:50<16:08:14,  3.52it/s] 45%|████▍     | 166782/371472 [2:11:51<16:44:59,  3.39it/s] 45%|████▍     | 166783/371472 [2:11:51<16:18:57,  3.48it/s] 45%|████▍     | 166784/371472 [2:11:51<16:39:41,  3.41it/s] 45%|████▍     | 166785/371472 [2:11:52<16:10:08,  3.52it/s] 45%|████▍     | 166786/371472 [2:11:52<16:17:16,  3.49it/s] 45%|████▍     | 166787/371472 [2:11:52<15:31:32,  3.66it/s] 45%|████▍     | 166788/371472 [2:11:52<15:08:10,  3.76it/s] 45%|████▍     | 166789/371472 [2:11:53<15:43:29,  3.62it/s] 45%|████▍     | 166790/371472 [2:11:53<16:14:24,  3.50it/s] 45%|████▍     | 166791/371472 [2:11:53<16:02:44,  3.54it/s] 45%|████▍     | 166792/371472 [2:11:53<16:03:30,  3.54it/s] 45%|████▍     | 166793/371472 [2:11:54<16:17:34,  3.49it/s] 45%|████▍     | 166794/371472 [2:11:54<15:41:06,  3.62it/s] 45%|████▍     | 166795/371472 [2:11:54<15:19:04,  3.71it/s] 45%|████▍     | 166796/371472 [2:11:55<15:17:37,  3.72it/s] 45%|████▍     | 166797/371472 [2:11:55<18:06:47,  3.14it/s] 45%|████▍     | 166798/371472 [2:11:55<17:17:32,  3.29it/s] 45%|████▍     | 166799/371472 [2:11:56<16:45:29,  3.39it/s] 45%|████▍     | 166800/371472 [2:11:56<16:19:46,  3.48it/s]                                                            {'loss': 3.1912, 'learning_rate': 5.961451442608115e-07, 'epoch': 7.18}
 45%|████▍     | 166800/371472 [2:11:56<16:19:46,  3.48it/s] 45%|████▍     | 166801/371472 [2:11:56<15:39:51,  3.63it/s] 45%|████▍     | 166802/371472 [2:11:56<16:55:04,  3.36it/s] 45%|████▍     | 166803/371472 [2:11:57<16:35:35,  3.43it/s] 45%|████▍     | 166804/371472 [2:11:57<16:11:16,  3.51it/s] 45%|████▍     | 166805/371472 [2:11:57<15:23:35,  3.69it/s] 45%|████▍     | 166806/371472 [2:11:57<15:37:10,  3.64it/s] 45%|████▍     | 166807/371472 [2:11:58<15:28:40,  3.67it/s] 45%|████▍     | 166808/371472 [2:11:58<15:03:08,  3.78it/s] 45%|████▍     | 166809/371472 [2:11:58<14:40:41,  3.87it/s] 45%|████▍     | 166810/371472 [2:11:58<14:16:20,  3.98it/s] 45%|████▍     | 166811/371472 [2:11:59<14:05:31,  4.03it/s] 45%|████▍     | 166812/371472 [2:11:59<15:23:23,  3.69it/s] 45%|████▍     | 166813/371472 [2:11:59<15:34:54,  3.65it/s] 45%|████▍     | 166814/371472 [2:12:00<15:01:42,  3.78it/s] 45%|████▍     | 166815/371472 [2:12:00<14:53:55,  3.82it/s] 45%|████▍     | 166816/371472 [2:12:00<14:51:09,  3.83it/s] 45%|████▍     | 166817/371472 [2:12:00<14:44:35,  3.86it/s] 45%|████▍     | 166818/371472 [2:12:01<14:35:06,  3.90it/s] 45%|████▍     | 166819/371472 [2:12:01<14:34:27,  3.90it/s] 45%|████▍     | 166820/371472 [2:12:01<15:07:53,  3.76it/s]                                                            {'loss': 3.1304, 'learning_rate': 5.960966622853325e-07, 'epoch': 7.19}
 45%|████▍     | 166820/371472 [2:12:01<15:07:53,  3.76it/s] 45%|████▍     | 166821/371472 [2:12:01<15:12:01,  3.74it/s] 45%|████▍     | 166822/371472 [2:12:02<15:07:27,  3.76it/s] 45%|████▍     | 166823/371472 [2:12:02<14:57:15,  3.80it/s] 45%|████▍     | 166824/371472 [2:12:02<14:59:27,  3.79it/s] 45%|████▍     | 166825/371472 [2:12:02<15:14:35,  3.73it/s] 45%|████▍     | 166826/371472 [2:12:03<16:11:34,  3.51it/s] 45%|████▍     | 166827/371472 [2:12:03<16:10:30,  3.51it/s] 45%|████▍     | 166828/371472 [2:12:03<15:30:04,  3.67it/s] 45%|████▍     | 166829/371472 [2:12:04<15:30:55,  3.66it/s] 45%|████▍     | 166830/371472 [2:12:04<15:44:37,  3.61it/s] 45%|████▍     | 166831/371472 [2:12:04<16:12:59,  3.51it/s] 45%|████▍     | 166832/371472 [2:12:04<16:17:52,  3.49it/s] 45%|████▍     | 166833/371472 [2:12:05<16:18:38,  3.49it/s] 45%|████▍     | 166834/371472 [2:12:05<15:48:38,  3.60it/s] 45%|████▍     | 166835/371472 [2:12:05<15:34:19,  3.65it/s] 45%|████▍     | 166836/371472 [2:12:06<15:11:52,  3.74it/s] 45%|████▍     | 166837/371472 [2:12:06<16:07:46,  3.52it/s] 45%|████▍     | 166838/371472 [2:12:06<15:51:57,  3.58it/s] 45%|████▍     | 166839/371472 [2:12:06<15:54:27,  3.57it/s] 45%|████▍     | 166840/371472 [2:12:07<16:17:12,  3.49it/s]                                                            {'loss': 3.1664, 'learning_rate': 5.960481803098537e-07, 'epoch': 7.19}
 45%|████▍     | 166840/371472 [2:12:07<16:17:12,  3.49it/s] 45%|████▍     | 166841/371472 [2:12:07<15:40:44,  3.63it/s] 45%|████▍     | 166842/371472 [2:12:07<16:33:09,  3.43it/s] 45%|████▍     | 166843/371472 [2:12:08<17:30:22,  3.25it/s] 45%|████▍     | 166844/371472 [2:12:08<16:52:29,  3.37it/s] 45%|████▍     | 166845/371472 [2:12:08<16:10:24,  3.51it/s] 45%|████▍     | 166846/371472 [2:12:08<15:27:40,  3.68it/s] 45%|████▍     | 166847/371472 [2:12:09<15:38:26,  3.63it/s] 45%|████▍     | 166848/371472 [2:12:09<17:04:42,  3.33it/s] 45%|████▍     | 166849/371472 [2:12:09<16:47:21,  3.39it/s] 45%|████▍     | 166850/371472 [2:12:10<15:50:02,  3.59it/s] 45%|████▍     | 166851/371472 [2:12:10<15:44:30,  3.61it/s] 45%|████▍     | 166852/371472 [2:12:10<15:44:33,  3.61it/s] 45%|████▍     | 166853/371472 [2:12:10<17:27:45,  3.25it/s] 45%|████▍     | 166854/371472 [2:12:11<17:19:40,  3.28it/s] 45%|████▍     | 166855/371472 [2:12:11<16:51:04,  3.37it/s] 45%|████▍     | 166856/371472 [2:12:11<16:05:12,  3.53it/s] 45%|████▍     | 166857/371472 [2:12:12<17:39:13,  3.22it/s] 45%|████▍     | 166858/371472 [2:12:12<17:36:10,  3.23it/s] 45%|████▍     | 166859/371472 [2:12:12<17:32:08,  3.24it/s] 45%|████▍     | 166860/371472 [2:12:13<16:50:21,  3.38it/s]                                                            {'loss': 3.2209, 'learning_rate': 5.959996983343748e-07, 'epoch': 7.19}
 45%|████▍     | 166860/371472 [2:12:13<16:50:21,  3.38it/s] 45%|████▍     | 166861/371472 [2:12:13<17:37:46,  3.22it/s] 45%|████▍     | 166862/371472 [2:12:13<18:16:13,  3.11it/s] 45%|████▍     | 166863/371472 [2:12:14<17:25:19,  3.26it/s] 45%|████▍     | 166864/371472 [2:12:14<18:18:21,  3.10it/s] 45%|████▍     | 166865/371472 [2:12:14<17:53:01,  3.18it/s] 45%|████▍     | 166866/371472 [2:12:14<16:58:13,  3.35it/s] 45%|████▍     | 166867/371472 [2:12:15<17:36:41,  3.23it/s] 45%|████▍     | 166868/371472 [2:12:15<17:43:20,  3.21it/s] 45%|████▍     | 166869/371472 [2:12:15<17:54:06,  3.17it/s] 45%|████▍     | 166870/371472 [2:12:16<17:07:25,  3.32it/s] 45%|████▍     | 166871/371472 [2:12:16<16:25:29,  3.46it/s] 45%|████▍     | 166872/371472 [2:12:16<15:55:06,  3.57it/s] 45%|████▍     | 166873/371472 [2:12:16<15:39:28,  3.63it/s] 45%|████▍     | 166874/371472 [2:12:17<16:03:51,  3.54it/s] 45%|████▍     | 166875/371472 [2:12:17<15:19:39,  3.71it/s] 45%|████▍     | 166876/371472 [2:12:17<16:01:06,  3.55it/s] 45%|████▍     | 166877/371472 [2:12:18<15:41:45,  3.62it/s] 45%|████▍     | 166878/371472 [2:12:18<15:25:00,  3.69it/s] 45%|████▍     | 166879/371472 [2:12:18<17:08:56,  3.31it/s] 45%|████▍     | 166880/371472 [2:12:18<16:11:06,  3.51it/s]                                                            {'loss': 2.9756, 'learning_rate': 5.959512163588959e-07, 'epoch': 7.19}
 45%|████▍     | 166880/371472 [2:12:18<16:11:06,  3.51it/s] 45%|████▍     | 166881/371472 [2:12:19<16:56:38,  3.35it/s] 45%|████▍     | 166882/371472 [2:12:19<16:20:03,  3.48it/s] 45%|████▍     | 166883/371472 [2:12:19<15:59:38,  3.55it/s] 45%|████▍     | 166884/371472 [2:12:20<16:14:19,  3.50it/s] 45%|████▍     | 166885/371472 [2:12:20<16:11:52,  3.51it/s] 45%|████▍     | 166886/371472 [2:12:20<16:11:04,  3.51it/s] 45%|████▍     | 166887/371472 [2:12:20<15:50:15,  3.59it/s] 45%|████▍     | 166888/371472 [2:12:21<15:59:17,  3.55it/s] 45%|████▍     | 166889/371472 [2:12:21<16:49:33,  3.38it/s] 45%|████▍     | 166890/371472 [2:12:21<16:38:38,  3.41it/s] 45%|████▍     | 166891/371472 [2:12:22<15:52:36,  3.58it/s] 45%|████▍     | 166892/371472 [2:12:22<15:42:38,  3.62it/s] 45%|████▍     | 166893/371472 [2:12:22<15:09:51,  3.75it/s] 45%|████▍     | 166894/371472 [2:12:22<14:34:56,  3.90it/s] 45%|████▍     | 166895/371472 [2:12:23<14:41:43,  3.87it/s] 45%|████▍     | 166896/371472 [2:12:23<15:43:11,  3.61it/s] 45%|████▍     | 166897/371472 [2:12:23<15:48:16,  3.60it/s] 45%|████▍     | 166898/371472 [2:12:23<15:24:34,  3.69it/s] 45%|████▍     | 166899/371472 [2:12:24<16:01:17,  3.55it/s] 45%|████▍     | 166900/371472 [2:12:24<15:45:47,  3.60it/s]                                                            {'loss': 3.1219, 'learning_rate': 5.95902734383417e-07, 'epoch': 7.19}
 45%|████▍     | 166900/371472 [2:12:24<15:45:47,  3.60it/s] 45%|████▍     | 166901/371472 [2:12:24<15:12:39,  3.74it/s] 45%|████▍     | 166902/371472 [2:12:25<15:03:24,  3.77it/s] 45%|████▍     | 166903/371472 [2:12:25<16:15:24,  3.50it/s] 45%|████▍     | 166904/371472 [2:12:25<16:02:29,  3.54it/s] 45%|████▍     | 166905/371472 [2:12:25<16:42:37,  3.40it/s] 45%|████▍     | 166906/371472 [2:12:26<16:49:27,  3.38it/s] 45%|████▍     | 166907/371472 [2:12:26<16:38:15,  3.42it/s] 45%|████▍     | 166908/371472 [2:12:26<16:19:02,  3.48it/s] 45%|████▍     | 166909/371472 [2:12:27<15:40:32,  3.62it/s] 45%|████▍     | 166910/371472 [2:12:27<16:10:36,  3.51it/s] 45%|████▍     | 166911/371472 [2:12:27<16:27:15,  3.45it/s] 45%|████▍     | 166912/371472 [2:12:27<16:10:04,  3.51it/s] 45%|████▍     | 166913/371472 [2:12:28<16:04:53,  3.53it/s] 45%|████▍     | 166914/371472 [2:12:28<15:37:42,  3.64it/s] 45%|████▍     | 166915/371472 [2:12:28<15:55:40,  3.57it/s] 45%|████▍     | 166916/371472 [2:12:29<15:47:22,  3.60it/s] 45%|████▍     | 166917/371472 [2:12:29<15:33:32,  3.65it/s] 45%|████▍     | 166918/371472 [2:12:29<16:04:14,  3.54it/s] 45%|████▍     | 166919/371472 [2:12:30<17:46:16,  3.20it/s] 45%|████▍     | 166920/371472 [2:12:30<18:32:40,  3.06it/s]                                                            {'loss': 3.1865, 'learning_rate': 5.958542524079382e-07, 'epoch': 7.19}
 45%|████▍     | 166920/371472 [2:12:30<18:32:40,  3.06it/s] 45%|████▍     | 166921/371472 [2:12:30<18:47:44,  3.02it/s] 45%|████▍     | 166922/371472 [2:12:31<18:48:20,  3.02it/s] 45%|████▍     | 166923/371472 [2:12:31<18:03:02,  3.15it/s] 45%|████▍     | 166924/371472 [2:12:31<18:05:16,  3.14it/s] 45%|████▍     | 166925/371472 [2:12:32<18:33:32,  3.06it/s] 45%|████▍     | 166926/371472 [2:12:32<18:12:39,  3.12it/s] 45%|████▍     | 166927/371472 [2:12:32<17:35:20,  3.23it/s] 45%|████▍     | 166928/371472 [2:12:32<16:40:28,  3.41it/s] 45%|████▍     | 166929/371472 [2:12:33<16:41:21,  3.40it/s] 45%|████▍     | 166930/371472 [2:12:33<16:47:22,  3.38it/s] 45%|████▍     | 166931/371472 [2:12:33<16:33:46,  3.43it/s] 45%|████▍     | 166932/371472 [2:12:34<16:50:29,  3.37it/s] 45%|████▍     | 166933/371472 [2:12:34<16:31:56,  3.44it/s] 45%|████▍     | 166934/371472 [2:12:34<16:20:01,  3.48it/s] 45%|████▍     | 166935/371472 [2:12:34<16:08:01,  3.52it/s] 45%|████▍     | 166936/371472 [2:12:35<15:41:22,  3.62it/s] 45%|████▍     | 166937/371472 [2:12:35<15:25:59,  3.68it/s] 45%|████▍     | 166938/371472 [2:12:35<15:37:19,  3.64it/s] 45%|████▍     | 166939/371472 [2:12:36<17:55:59,  3.17it/s] 45%|████▍     | 166940/371472 [2:12:36<17:09:47,  3.31it/s]                                                            {'loss': 3.0613, 'learning_rate': 5.958057704324591e-07, 'epoch': 7.19}
 45%|████▍     | 166940/371472 [2:12:36<17:09:47,  3.31it/s] 45%|████▍     | 166941/371472 [2:12:36<17:16:07,  3.29it/s] 45%|████▍     | 166942/371472 [2:12:37<18:06:59,  3.14it/s] 45%|████▍     | 166943/371472 [2:12:37<17:58:56,  3.16it/s] 45%|████▍     | 166944/371472 [2:12:37<16:51:03,  3.37it/s] 45%|████▍     | 166945/371472 [2:12:37<16:12:58,  3.50it/s] 45%|████▍     | 166946/371472 [2:12:38<16:38:27,  3.41it/s] 45%|████▍     | 166947/371472 [2:12:38<15:48:53,  3.59it/s] 45%|████▍     | 166948/371472 [2:12:38<16:37:00,  3.42it/s] 45%|████▍     | 166949/371472 [2:12:38<16:31:10,  3.44it/s] 45%|████▍     | 166950/371472 [2:12:39<16:04:54,  3.53it/s] 45%|████▍     | 166951/371472 [2:12:39<16:44:03,  3.39it/s] 45%|████▍     | 166952/371472 [2:12:39<16:19:13,  3.48it/s] 45%|████▍     | 166953/371472 [2:12:40<16:03:11,  3.54it/s] 45%|████▍     | 166954/371472 [2:12:40<16:03:26,  3.54it/s] 45%|████▍     | 166955/371472 [2:12:40<15:59:23,  3.55it/s] 45%|████▍     | 166956/371472 [2:12:40<15:52:41,  3.58it/s] 45%|████▍     | 166957/371472 [2:12:41<17:55:04,  3.17it/s] 45%|████▍     | 166958/371472 [2:12:41<17:10:49,  3.31it/s] 45%|████▍     | 166959/371472 [2:12:41<16:41:07,  3.40it/s] 45%|████▍     | 166960/371472 [2:12:42<17:06:17,  3.32it/s]                                                            {'loss': 3.1096, 'learning_rate': 5.957572884569802e-07, 'epoch': 7.19}
 45%|████▍     | 166960/371472 [2:12:42<17:06:17,  3.32it/s] 45%|████▍     | 166961/371472 [2:12:42<16:17:04,  3.49it/s] 45%|████▍     | 166962/371472 [2:12:42<15:35:58,  3.64it/s] 45%|████▍     | 166963/371472 [2:12:42<15:09:00,  3.75it/s] 45%|████▍     | 166964/371472 [2:12:43<15:23:19,  3.69it/s] 45%|████▍     | 166965/371472 [2:12:43<15:20:09,  3.70it/s] 45%|████▍     | 166966/371472 [2:12:43<16:35:26,  3.42it/s] 45%|████▍     | 166967/371472 [2:12:44<16:10:05,  3.51it/s] 45%|████▍     | 166968/371472 [2:12:44<15:51:01,  3.58it/s] 45%|████▍     | 166969/371472 [2:12:44<15:26:00,  3.68it/s] 45%|████▍     | 166970/371472 [2:12:44<15:01:30,  3.78it/s] 45%|████▍     | 166971/371472 [2:12:45<14:32:40,  3.91it/s] 45%|████▍     | 166972/371472 [2:12:45<14:17:56,  3.97it/s] 45%|████▍     | 166973/371472 [2:12:45<14:39:33,  3.88it/s] 45%|████▍     | 166974/371472 [2:12:45<15:31:15,  3.66it/s] 45%|████▍     | 166975/371472 [2:12:46<16:29:42,  3.44it/s] 45%|████▍     | 166976/371472 [2:12:46<15:38:26,  3.63it/s] 45%|████▍     | 166977/371472 [2:12:46<16:07:34,  3.52it/s] 45%|████▍     | 166978/371472 [2:12:47<16:31:44,  3.44it/s] 45%|████▍     | 166979/371472 [2:12:47<17:41:31,  3.21it/s] 45%|████▍     | 166980/371472 [2:12:47<16:43:53,  3.39it/s]                                                            {'loss': 2.9707, 'learning_rate': 5.957088064815014e-07, 'epoch': 7.19}
 45%|████▍     | 166980/371472 [2:12:47<16:43:53,  3.39it/s] 45%|████▍     | 166981/371472 [2:12:48<16:23:46,  3.46it/s] 45%|████▍     | 166982/371472 [2:12:48<16:21:39,  3.47it/s] 45%|████▍     | 166983/371472 [2:12:48<15:58:19,  3.56it/s] 45%|████▍     | 166984/371472 [2:12:48<16:33:49,  3.43it/s] 45%|████▍     | 166985/371472 [2:12:49<16:52:51,  3.36it/s] 45%|████▍     | 166986/371472 [2:12:49<16:17:27,  3.49it/s] 45%|████▍     | 166987/371472 [2:12:49<15:13:05,  3.73it/s] 45%|████▍     | 166988/371472 [2:12:50<15:55:53,  3.57it/s] 45%|████▍     | 166989/371472 [2:12:50<15:49:51,  3.59it/s] 45%|████▍     | 166990/371472 [2:12:50<15:06:12,  3.76it/s] 45%|████▍     | 166991/371472 [2:12:50<14:43:29,  3.86it/s] 45%|████▍     | 166992/371472 [2:12:51<14:51:50,  3.82it/s] 45%|████▍     | 166993/371472 [2:12:51<16:58:29,  3.35it/s] 45%|████▍     | 166994/371472 [2:12:51<15:58:02,  3.56it/s] 45%|████▍     | 166995/371472 [2:12:51<15:52:23,  3.58it/s] 45%|████▍     | 166996/371472 [2:12:52<15:13:15,  3.73it/s] 45%|████▍     | 166997/371472 [2:12:52<14:48:56,  3.83it/s] 45%|████▍     | 166998/371472 [2:12:52<15:17:01,  3.72it/s] 45%|████▍     | 166999/371472 [2:12:52<15:01:38,  3.78it/s] 45%|████▍     | 167000/371472 [2:12:53<15:28:31,  3.67it/s]                                                            {'loss': 3.1507, 'learning_rate': 5.956603245060225e-07, 'epoch': 7.19}
 45%|████▍     | 167000/371472 [2:12:53<15:28:31,  3.67it/s] 45%|████▍     | 167001/371472 [2:12:53<15:25:07,  3.68it/s] 45%|████▍     | 167002/371472 [2:12:53<15:29:08,  3.67it/s] 45%|████▍     | 167003/371472 [2:12:54<16:06:41,  3.53it/s] 45%|████▍     | 167004/371472 [2:12:54<16:00:02,  3.55it/s] 45%|████▍     | 167005/371472 [2:12:54<15:59:27,  3.55it/s] 45%|████▍     | 167006/371472 [2:12:54<16:31:02,  3.44it/s] 45%|████▍     | 167007/371472 [2:12:55<16:42:05,  3.40it/s] 45%|████▍     | 167008/371472 [2:12:55<17:20:08,  3.28it/s] 45%|████▍     | 167009/371472 [2:12:55<16:23:13,  3.47it/s] 45%|████▍     | 167010/371472 [2:12:56<16:14:45,  3.50it/s] 45%|████▍     | 167011/371472 [2:12:56<18:53:38,  3.01it/s] 45%|████▍     | 167012/371472 [2:12:56<17:44:39,  3.20it/s] 45%|████▍     | 167013/371472 [2:12:57<16:51:37,  3.37it/s] 45%|████▍     | 167014/371472 [2:12:57<16:22:02,  3.47it/s] 45%|████▍     | 167015/371472 [2:12:57<17:25:34,  3.26it/s] 45%|████▍     | 167016/371472 [2:12:57<16:30:24,  3.44it/s] 45%|████▍     | 167017/371472 [2:12:58<17:17:14,  3.29it/s] 45%|████▍     | 167018/371472 [2:12:58<18:01:44,  3.15it/s] 45%|████▍     | 167019/371472 [2:12:58<17:55:27,  3.17it/s] 45%|████▍     | 167020/371472 [2:12:59<18:15:34,  3.11it/s]                                                            {'loss': 3.01, 'learning_rate': 5.956118425305436e-07, 'epoch': 7.19}
 45%|████▍     | 167020/371472 [2:12:59<18:15:34,  3.11it/s] 45%|████▍     | 167021/371472 [2:12:59<17:42:46,  3.21it/s] 45%|████▍     | 167022/371472 [2:12:59<18:22:45,  3.09it/s] 45%|████▍     | 167023/371472 [2:13:00<17:54:53,  3.17it/s] 45%|████▍     | 167024/371472 [2:13:00<17:07:21,  3.32it/s] 45%|████▍     | 167025/371472 [2:13:00<16:26:00,  3.46it/s] 45%|████▍     | 167026/371472 [2:13:01<17:12:10,  3.30it/s] 45%|████▍     | 167027/371472 [2:13:01<16:35:20,  3.42it/s] 45%|████▍     | 167028/371472 [2:13:01<16:34:06,  3.43it/s] 45%|████▍     | 167029/371472 [2:13:01<16:11:24,  3.51it/s] 45%|████▍     | 167030/371472 [2:13:02<16:26:40,  3.45it/s] 45%|████▍     | 167031/371472 [2:13:02<15:52:07,  3.58it/s] 45%|████▍     | 167032/371472 [2:13:02<15:24:08,  3.69it/s] 45%|████▍     | 167033/371472 [2:13:03<15:27:55,  3.67it/s] 45%|████▍     | 167034/371472 [2:13:03<15:25:29,  3.68it/s] 45%|████▍     | 167035/371472 [2:13:03<16:14:39,  3.50it/s] 45%|████▍     | 167036/371472 [2:13:03<15:59:15,  3.55it/s] 45%|████▍     | 167037/371472 [2:13:04<17:47:23,  3.19it/s] 45%|████▍     | 167038/371472 [2:13:04<16:47:35,  3.38it/s] 45%|████▍     | 167039/371472 [2:13:04<17:17:43,  3.28it/s] 45%|████▍     | 167040/371472 [2:13:05<16:35:54,  3.42it/s]                                                            {'loss': 3.1665, 'learning_rate': 5.955633605550647e-07, 'epoch': 7.19}
 45%|████▍     | 167040/371472 [2:13:05<16:35:54,  3.42it/s] 45%|████▍     | 167041/371472 [2:13:05<15:59:34,  3.55it/s] 45%|████▍     | 167042/371472 [2:13:05<15:57:07,  3.56it/s] 45%|████▍     | 167043/371472 [2:13:05<15:55:44,  3.56it/s] 45%|████▍     | 167044/371472 [2:13:06<15:20:39,  3.70it/s] 45%|████▍     | 167045/371472 [2:13:06<16:16:38,  3.49it/s] 45%|████▍     | 167046/371472 [2:13:06<15:51:36,  3.58it/s] 45%|████▍     | 167047/371472 [2:13:07<15:41:27,  3.62it/s] 45%|████▍     | 167048/371472 [2:13:07<15:59:27,  3.55it/s] 45%|████▍     | 167049/371472 [2:13:07<16:59:43,  3.34it/s] 45%|████▍     | 167050/371472 [2:13:07<16:49:17,  3.38it/s] 45%|████▍     | 167051/371472 [2:13:08<17:52:14,  3.18it/s] 45%|████▍     | 167052/371472 [2:13:08<17:34:17,  3.23it/s] 45%|████▍     | 167053/371472 [2:13:08<18:05:10,  3.14it/s] 45%|████▍     | 167054/371472 [2:13:09<17:48:13,  3.19it/s] 45%|████▍     | 167055/371472 [2:13:09<17:30:40,  3.24it/s] 45%|████▍     | 167056/371472 [2:13:09<18:25:05,  3.08it/s] 45%|████▍     | 167057/371472 [2:13:10<17:43:47,  3.20it/s] 45%|████▍     | 167058/371472 [2:13:10<20:18:24,  2.80it/s] 45%|████▍     | 167059/371472 [2:13:11<20:16:00,  2.80it/s] 45%|████▍     | 167060/371472 [2:13:11<18:21:10,  3.09it/s]                                                            {'loss': 3.0498, 'learning_rate': 5.955148785795858e-07, 'epoch': 7.2}
 45%|████▍     | 167060/371472 [2:13:11<18:21:10,  3.09it/s] 45%|████▍     | 167061/371472 [2:13:11<17:41:51,  3.21it/s] 45%|████▍     | 167062/371472 [2:13:11<16:42:14,  3.40it/s] 45%|████▍     | 167063/371472 [2:13:12<16:13:08,  3.50it/s] 45%|████▍     | 167064/371472 [2:13:12<15:41:30,  3.62it/s] 45%|████▍     | 167065/371472 [2:13:12<15:59:40,  3.55it/s] 45%|████▍     | 167066/371472 [2:13:12<16:46:23,  3.39it/s] 45%|████▍     | 167067/371472 [2:13:13<16:46:45,  3.38it/s] 45%|████▍     | 167068/371472 [2:13:13<16:11:10,  3.51it/s] 45%|████▍     | 167069/371472 [2:13:13<16:54:40,  3.36it/s] 45%|████▍     | 167070/371472 [2:13:14<16:50:03,  3.37it/s] 45%|████▍     | 167071/371472 [2:13:14<16:37:10,  3.42it/s] 45%|████▍     | 167072/371472 [2:13:14<16:15:39,  3.49it/s] 45%|████▍     | 167073/371472 [2:13:14<16:09:33,  3.51it/s] 45%|████▍     | 167074/371472 [2:13:15<17:51:11,  3.18it/s] 45%|████▍     | 167075/371472 [2:13:15<18:28:19,  3.07it/s] 45%|████▍     | 167076/371472 [2:13:15<17:36:31,  3.22it/s] 45%|████▍     | 167077/371472 [2:13:16<16:55:30,  3.35it/s] 45%|████▍     | 167078/371472 [2:13:16<16:26:10,  3.45it/s] 45%|████▍     | 167079/371472 [2:13:16<16:16:09,  3.49it/s] 45%|████▍     | 167080/371472 [2:13:17<16:26:15,  3.45it/s]                                                            {'loss': 3.0408, 'learning_rate': 5.954663966041069e-07, 'epoch': 7.2}
 45%|████▍     | 167080/371472 [2:13:17<16:26:15,  3.45it/s] 45%|████▍     | 167081/371472 [2:13:17<17:15:16,  3.29it/s] 45%|████▍     | 167082/371472 [2:13:17<17:23:24,  3.26it/s] 45%|████▍     | 167083/371472 [2:13:18<17:40:11,  3.21it/s] 45%|████▍     | 167084/371472 [2:13:18<16:48:45,  3.38it/s] 45%|████▍     | 167085/371472 [2:13:18<16:22:44,  3.47it/s] 45%|████▍     | 167086/371472 [2:13:18<16:05:11,  3.53it/s] 45%|████▍     | 167087/371472 [2:13:19<15:32:48,  3.65it/s] 45%|████▍     | 167088/371472 [2:13:19<15:53:41,  3.57it/s] 45%|████▍     | 167089/371472 [2:13:19<15:52:27,  3.58it/s] 45%|████▍     | 167090/371472 [2:13:19<15:38:04,  3.63it/s] 45%|████▍     | 167091/371472 [2:13:20<15:58:51,  3.55it/s] 45%|████▍     | 167092/371472 [2:13:20<16:07:56,  3.52it/s] 45%|████▍     | 167093/371472 [2:13:20<15:42:38,  3.61it/s] 45%|████▍     | 167094/371472 [2:13:21<15:27:58,  3.67it/s] 45%|████▍     | 167095/371472 [2:13:21<16:25:01,  3.46it/s] 45%|████▍     | 167096/371472 [2:13:21<16:49:18,  3.37it/s] 45%|████▍     | 167097/371472 [2:13:21<16:25:41,  3.46it/s] 45%|████▍     | 167098/371472 [2:13:22<16:11:26,  3.51it/s] 45%|████▍     | 167099/371472 [2:13:22<16:02:29,  3.54it/s] 45%|████▍     | 167100/371472 [2:13:22<15:40:50,  3.62it/s]                                                            {'loss': 3.1596, 'learning_rate': 5.95417914628628e-07, 'epoch': 7.2}
 45%|████▍     | 167100/371472 [2:13:22<15:40:50,  3.62it/s] 45%|████▍     | 167101/371472 [2:13:23<15:44:27,  3.61it/s] 45%|████▍     | 167102/371472 [2:13:23<16:20:07,  3.48it/s] 45%|████▍     | 167103/371472 [2:13:23<15:42:07,  3.62it/s] 45%|████▍     | 167104/371472 [2:13:23<16:39:05,  3.41it/s] 45%|████▍     | 167105/371472 [2:13:24<17:37:31,  3.22it/s] 45%|████▍     | 167106/371472 [2:13:24<17:59:51,  3.15it/s] 45%|████▍     | 167107/371472 [2:13:24<16:52:38,  3.36it/s] 45%|████▍     | 167108/371472 [2:13:25<16:16:37,  3.49it/s] 45%|████▍     | 167109/371472 [2:13:25<15:57:38,  3.56it/s] 45%|████▍     | 167110/371472 [2:13:25<16:26:25,  3.45it/s] 45%|████▍     | 167111/371472 [2:13:25<15:51:27,  3.58it/s] 45%|████▍     | 167112/371472 [2:13:26<15:49:55,  3.59it/s] 45%|████▍     | 167113/371472 [2:13:26<16:50:12,  3.37it/s] 45%|████▍     | 167114/371472 [2:13:26<16:40:46,  3.40it/s] 45%|████▍     | 167115/371472 [2:13:27<16:42:54,  3.40it/s] 45%|████▍     | 167116/371472 [2:13:27<17:34:18,  3.23it/s] 45%|████▍     | 167117/371472 [2:13:27<17:01:09,  3.34it/s] 45%|████▍     | 167118/371472 [2:13:28<16:33:45,  3.43it/s] 45%|████▍     | 167119/371472 [2:13:28<15:52:24,  3.58it/s] 45%|████▍     | 167120/371472 [2:13:28<15:21:16,  3.70it/s]                                                            {'loss': 3.0777, 'learning_rate': 5.953694326531491e-07, 'epoch': 7.2}
 45%|████▍     | 167120/371472 [2:13:28<15:21:16,  3.70it/s] 45%|████▍     | 167121/371472 [2:13:28<15:38:00,  3.63it/s] 45%|████▍     | 167122/371472 [2:13:29<15:41:16,  3.62it/s] 45%|████▍     | 167123/371472 [2:13:29<15:32:29,  3.65it/s] 45%|████▍     | 167124/371472 [2:13:29<15:13:33,  3.73it/s] 45%|████▍     | 167125/371472 [2:13:30<17:48:43,  3.19it/s] 45%|████▍     | 167126/371472 [2:13:30<17:09:53,  3.31it/s] 45%|████▍     | 167127/371472 [2:13:30<16:31:12,  3.44it/s] 45%|████▍     | 167128/371472 [2:13:30<15:45:13,  3.60it/s] 45%|████▍     | 167129/371472 [2:13:31<16:40:53,  3.40it/s] 45%|████▍     | 167130/371472 [2:13:31<16:13:59,  3.50it/s] 45%|████▍     | 167131/371472 [2:13:31<15:51:52,  3.58it/s] 45%|████▍     | 167132/371472 [2:13:32<16:00:25,  3.55it/s] 45%|████▍     | 167133/371472 [2:13:32<18:50:22,  3.01it/s] 45%|████▍     | 167134/371472 [2:13:32<18:09:04,  3.13it/s] 45%|████▍     | 167135/371472 [2:13:33<17:38:11,  3.22it/s] 45%|████▍     | 167136/371472 [2:13:33<17:21:58,  3.27it/s] 45%|████▍     | 167137/371472 [2:13:33<17:03:16,  3.33it/s] 45%|████▍     | 167138/371472 [2:13:33<16:50:29,  3.37it/s] 45%|████▍     | 167139/371472 [2:13:34<17:03:10,  3.33it/s] 45%|████▍     | 167140/371472 [2:13:34<16:56:44,  3.35it/s]                                                            {'loss': 3.061, 'learning_rate': 5.953209506776703e-07, 'epoch': 7.2}
 45%|████▍     | 167140/371472 [2:13:34<16:56:44,  3.35it/s] 45%|████▍     | 167141/371472 [2:13:34<16:21:41,  3.47it/s] 45%|████▍     | 167142/371472 [2:13:35<17:12:00,  3.30it/s] 45%|████▍     | 167143/371472 [2:13:35<16:36:43,  3.42it/s] 45%|████▍     | 167144/371472 [2:13:35<16:17:35,  3.48it/s] 45%|████▍     | 167145/371472 [2:13:35<15:44:46,  3.60it/s] 45%|████▍     | 167146/371472 [2:13:36<15:30:21,  3.66it/s] 45%|████▍     | 167147/371472 [2:13:36<15:24:48,  3.68it/s] 45%|████▍     | 167148/371472 [2:13:36<15:55:11,  3.57it/s] 45%|████▍     | 167149/371472 [2:13:37<15:26:22,  3.68it/s] 45%|████▍     | 167150/371472 [2:13:37<15:44:03,  3.61it/s] 45%|████▍     | 167151/371472 [2:13:37<15:26:15,  3.68it/s] 45%|████▍     | 167152/371472 [2:13:37<15:37:21,  3.63it/s] 45%|████▍     | 167153/371472 [2:13:38<15:43:06,  3.61it/s] 45%|████▍     | 167154/371472 [2:13:38<15:09:19,  3.74it/s] 45%|████▍     | 167155/371472 [2:13:38<15:07:52,  3.75it/s] 45%|████▍     | 167156/371472 [2:13:38<15:35:37,  3.64it/s] 45%|████▍     | 167157/371472 [2:13:39<18:27:49,  3.07it/s] 45%|████▍     | 167158/371472 [2:13:39<17:41:31,  3.21it/s] 45%|████▍     | 167159/371472 [2:13:39<17:34:48,  3.23it/s] 45%|████▍     | 167160/371472 [2:13:40<16:37:07,  3.41it/s]                                                            {'loss': 3.2423, 'learning_rate': 5.952724687021914e-07, 'epoch': 7.2}
 45%|████▍     | 167160/371472 [2:13:40<16:37:07,  3.41it/s] 45%|████▍     | 167161/371472 [2:13:40<16:25:11,  3.46it/s] 45%|████▍     | 167162/371472 [2:13:40<16:12:47,  3.50it/s] 45%|████▌     | 167163/371472 [2:13:41<16:07:24,  3.52it/s] 45%|████▌     | 167164/371472 [2:13:41<17:01:51,  3.33it/s] 45%|████▌     | 167165/371472 [2:13:41<16:24:14,  3.46it/s] 45%|████▌     | 167166/371472 [2:13:41<15:47:10,  3.59it/s] 45%|████▌     | 167167/371472 [2:13:42<15:09:52,  3.74it/s] 45%|████▌     | 167168/371472 [2:13:42<15:09:36,  3.74it/s] 45%|████▌     | 167169/371472 [2:13:42<15:27:26,  3.67it/s] 45%|████▌     | 167170/371472 [2:13:42<15:14:25,  3.72it/s] 45%|████▌     | 167171/371472 [2:13:43<15:02:12,  3.77it/s] 45%|████▌     | 167172/371472 [2:13:43<15:07:01,  3.75it/s] 45%|████▌     | 167173/371472 [2:13:43<14:37:30,  3.88it/s] 45%|████▌     | 167174/371472 [2:13:43<14:30:35,  3.91it/s] 45%|████▌     | 167175/371472 [2:13:44<14:04:08,  4.03it/s] 45%|████▌     | 167176/371472 [2:13:44<15:18:44,  3.71it/s] 45%|████▌     | 167177/371472 [2:13:44<15:03:41,  3.77it/s] 45%|████▌     | 167178/371472 [2:13:45<15:02:40,  3.77it/s] 45%|████▌     | 167179/371472 [2:13:45<14:49:45,  3.83it/s] 45%|████▌     | 167180/371472 [2:13:45<14:44:10,  3.85it/s]                                                            {'loss': 3.2188, 'learning_rate': 5.952239867267125e-07, 'epoch': 7.2}
 45%|████▌     | 167180/371472 [2:13:45<14:44:10,  3.85it/s] 45%|████▌     | 167181/371472 [2:13:45<15:55:41,  3.56it/s] 45%|████▌     | 167182/371472 [2:13:46<15:18:25,  3.71it/s] 45%|████▌     | 167183/371472 [2:13:46<15:47:10,  3.59it/s] 45%|████▌     | 167184/371472 [2:13:46<16:22:38,  3.46it/s] 45%|████▌     | 167185/371472 [2:13:46<15:52:39,  3.57it/s] 45%|████▌     | 167186/371472 [2:13:47<16:42:53,  3.39it/s] 45%|████▌     | 167187/371472 [2:13:47<16:16:45,  3.49it/s] 45%|████▌     | 167188/371472 [2:13:47<15:50:08,  3.58it/s] 45%|████▌     | 167189/371472 [2:13:48<15:37:21,  3.63it/s] 45%|████▌     | 167190/371472 [2:13:48<16:08:30,  3.52it/s] 45%|████▌     | 167191/371472 [2:13:48<15:51:09,  3.58it/s] 45%|████▌     | 167192/371472 [2:13:48<15:39:00,  3.63it/s] 45%|████▌     | 167193/371472 [2:13:49<16:00:56,  3.54it/s] 45%|████▌     | 167194/371472 [2:13:49<15:44:34,  3.60it/s] 45%|████▌     | 167195/371472 [2:13:49<15:54:12,  3.57it/s] 45%|████▌     | 167196/371472 [2:13:50<15:39:24,  3.62it/s] 45%|████▌     | 167197/371472 [2:13:50<15:40:17,  3.62it/s] 45%|████▌     | 167198/371472 [2:13:50<16:05:03,  3.53it/s] 45%|████▌     | 167199/371472 [2:13:50<15:43:09,  3.61it/s] 45%|████▌     | 167200/371472 [2:13:51<15:50:08,  3.58it/s]                                                            {'loss': 3.0556, 'learning_rate': 5.951755047512335e-07, 'epoch': 7.2}
 45%|████▌     | 167200/371472 [2:13:51<15:50:08,  3.58it/s] 45%|████▌     | 167201/371472 [2:13:51<16:01:12,  3.54it/s] 45%|████▌     | 167202/371472 [2:13:51<16:51:21,  3.37it/s] 45%|████▌     | 167203/371472 [2:13:52<16:24:15,  3.46it/s] 45%|████▌     | 167204/371472 [2:13:52<17:21:13,  3.27it/s] 45%|████▌     | 167205/371472 [2:13:52<17:54:48,  3.17it/s] 45%|████▌     | 167206/371472 [2:13:53<17:54:43,  3.17it/s] 45%|████▌     | 167207/371472 [2:13:53<16:57:15,  3.35it/s] 45%|████▌     | 167208/371472 [2:13:53<16:31:44,  3.43it/s] 45%|████▌     | 167209/371472 [2:13:53<16:27:10,  3.45it/s] 45%|████▌     | 167210/371472 [2:13:54<16:34:18,  3.42it/s] 45%|████▌     | 167211/371472 [2:13:54<16:36:27,  3.42it/s] 45%|████▌     | 167212/371472 [2:13:54<16:21:49,  3.47it/s] 45%|████▌     | 167213/371472 [2:13:55<15:58:12,  3.55it/s] 45%|████▌     | 167214/371472 [2:13:55<15:38:57,  3.63it/s] 45%|████▌     | 167215/371472 [2:13:55<16:17:04,  3.48it/s] 45%|████▌     | 167216/371472 [2:13:55<16:20:00,  3.47it/s] 45%|████▌     | 167217/371472 [2:13:56<15:53:21,  3.57it/s] 45%|████▌     | 167218/371472 [2:13:56<15:32:36,  3.65it/s] 45%|████▌     | 167219/371472 [2:13:56<16:52:42,  3.36it/s] 45%|████▌     | 167220/371472 [2:13:57<16:47:38,  3.38it/s]                                                            {'loss': 3.0041, 'learning_rate': 5.951270227757547e-07, 'epoch': 7.2}
 45%|████▌     | 167220/371472 [2:13:57<16:47:38,  3.38it/s] 45%|████▌     | 167221/371472 [2:13:57<16:29:00,  3.44it/s] 45%|████▌     | 167222/371472 [2:13:57<15:44:02,  3.61it/s] 45%|████▌     | 167223/371472 [2:13:57<15:45:09,  3.60it/s] 45%|████▌     | 167224/371472 [2:13:58<15:38:27,  3.63it/s] 45%|████▌     | 167225/371472 [2:13:58<15:39:49,  3.62it/s] 45%|████▌     | 167226/371472 [2:13:58<15:15:10,  3.72it/s] 45%|████▌     | 167227/371472 [2:13:58<15:10:41,  3.74it/s] 45%|████▌     | 167228/371472 [2:13:59<15:00:01,  3.78it/s] 45%|████▌     | 167229/371472 [2:13:59<14:39:36,  3.87it/s] 45%|████▌     | 167230/371472 [2:13:59<14:41:30,  3.86it/s] 45%|████▌     | 167231/371472 [2:13:59<14:57:40,  3.79it/s] 45%|████▌     | 167232/371472 [2:14:00<15:27:27,  3.67it/s] 45%|████▌     | 167233/371472 [2:14:00<16:21:15,  3.47it/s] 45%|████▌     | 167234/371472 [2:14:00<16:03:55,  3.53it/s] 45%|████▌     | 167235/371472 [2:14:01<16:50:53,  3.37it/s] 45%|████▌     | 167236/371472 [2:14:01<16:33:06,  3.43it/s] 45%|████▌     | 167237/371472 [2:14:01<16:39:09,  3.41it/s] 45%|████▌     | 167238/371472 [2:14:02<16:07:51,  3.52it/s] 45%|████▌     | 167239/371472 [2:14:02<17:08:08,  3.31it/s] 45%|████▌     | 167240/371472 [2:14:02<17:36:03,  3.22it/s]                                                            {'loss': 3.2672, 'learning_rate': 5.950785408002758e-07, 'epoch': 7.2}
 45%|████▌     | 167240/371472 [2:14:02<17:36:03,  3.22it/s] 45%|████▌     | 167241/371472 [2:14:03<18:10:59,  3.12it/s] 45%|████▌     | 167242/371472 [2:14:03<17:46:55,  3.19it/s] 45%|████▌     | 167243/371472 [2:14:03<18:33:15,  3.06it/s] 45%|████▌     | 167244/371472 [2:14:04<18:24:42,  3.08it/s] 45%|████▌     | 167245/371472 [2:14:04<18:44:37,  3.03it/s] 45%|████▌     | 167246/371472 [2:14:04<17:46:38,  3.19it/s] 45%|████▌     | 167247/371472 [2:14:04<17:19:19,  3.27it/s] 45%|████▌     | 167248/371472 [2:14:05<17:08:49,  3.31it/s] 45%|████▌     | 167249/371472 [2:14:05<16:48:20,  3.38it/s] 45%|████▌     | 167250/371472 [2:14:05<16:33:37,  3.43it/s] 45%|████▌     | 167251/371472 [2:14:06<16:41:56,  3.40it/s] 45%|████▌     | 167252/371472 [2:14:06<16:13:29,  3.50it/s] 45%|████▌     | 167253/371472 [2:14:06<15:51:51,  3.58it/s] 45%|████▌     | 167254/371472 [2:14:06<15:54:55,  3.56it/s] 45%|████▌     | 167255/371472 [2:14:07<15:57:46,  3.55it/s] 45%|████▌     | 167256/371472 [2:14:07<16:20:25,  3.47it/s] 45%|████▌     | 167257/371472 [2:14:07<16:36:43,  3.41it/s] 45%|████▌     | 167258/371472 [2:14:08<16:28:09,  3.44it/s] 45%|████▌     | 167259/371472 [2:14:08<17:28:46,  3.25it/s] 45%|████▌     | 167260/371472 [2:14:08<16:45:05,  3.39it/s]                                                            {'loss': 3.1308, 'learning_rate': 5.950300588247969e-07, 'epoch': 7.2}
 45%|████▌     | 167260/371472 [2:14:08<16:45:05,  3.39it/s] 45%|████▌     | 167261/371472 [2:14:08<15:59:26,  3.55it/s] 45%|████▌     | 167262/371472 [2:14:09<15:43:47,  3.61it/s] 45%|████▌     | 167263/371472 [2:14:09<16:17:25,  3.48it/s] 45%|████▌     | 167264/371472 [2:14:09<16:23:28,  3.46it/s] 45%|████▌     | 167265/371472 [2:14:10<16:07:20,  3.52it/s] 45%|████▌     | 167266/371472 [2:14:10<15:24:06,  3.68it/s] 45%|████▌     | 167267/371472 [2:14:10<16:03:51,  3.53it/s] 45%|████▌     | 167268/371472 [2:14:10<16:16:19,  3.49it/s] 45%|████▌     | 167269/371472 [2:14:11<16:23:52,  3.46it/s] 45%|████▌     | 167270/371472 [2:14:11<17:08:12,  3.31it/s] 45%|████▌     | 167271/371472 [2:14:11<16:20:35,  3.47it/s] 45%|████▌     | 167272/371472 [2:14:12<16:26:05,  3.45it/s] 45%|████▌     | 167273/371472 [2:14:12<15:52:20,  3.57it/s] 45%|████▌     | 167274/371472 [2:14:12<16:47:15,  3.38it/s] 45%|████▌     | 167275/371472 [2:14:13<17:45:56,  3.19it/s] 45%|████▌     | 167276/371472 [2:14:13<18:04:22,  3.14it/s] 45%|████▌     | 167277/371472 [2:14:13<19:01:59,  2.98it/s] 45%|████▌     | 167278/371472 [2:14:14<18:01:52,  3.15it/s] 45%|████▌     | 167279/371472 [2:14:14<17:02:16,  3.33it/s] 45%|████▌     | 167280/371472 [2:14:14<18:05:58,  3.13it/s]                                                            {'loss': 2.9426, 'learning_rate': 5.94981576849318e-07, 'epoch': 7.21}
 45%|████▌     | 167280/371472 [2:14:14<18:05:58,  3.13it/s] 45%|████▌     | 167281/371472 [2:14:14<17:59:48,  3.15it/s] 45%|████▌     | 167282/371472 [2:14:15<17:07:45,  3.31it/s] 45%|████▌     | 167283/371472 [2:14:15<16:59:39,  3.34it/s] 45%|████▌     | 167284/371472 [2:14:15<16:36:42,  3.41it/s] 45%|████▌     | 167285/371472 [2:14:16<16:39:34,  3.40it/s] 45%|████▌     | 167286/371472 [2:14:16<17:20:27,  3.27it/s] 45%|████▌     | 167287/371472 [2:14:16<16:32:31,  3.43it/s] 45%|████▌     | 167288/371472 [2:14:16<15:50:25,  3.58it/s] 45%|████▌     | 167289/371472 [2:14:17<15:28:23,  3.67it/s] 45%|████▌     | 167290/371472 [2:14:17<15:17:39,  3.71it/s] 45%|████▌     | 167291/371472 [2:14:17<15:15:01,  3.72it/s] 45%|████▌     | 167292/371472 [2:14:17<15:07:18,  3.75it/s] 45%|████▌     | 167293/371472 [2:14:18<16:49:35,  3.37it/s] 45%|████▌     | 167294/371472 [2:14:18<17:10:49,  3.30it/s] 45%|████▌     | 167295/371472 [2:14:18<16:54:22,  3.35it/s] 45%|████▌     | 167296/371472 [2:14:19<16:32:41,  3.43it/s] 45%|████▌     | 167297/371472 [2:14:19<17:12:06,  3.30it/s] 45%|████▌     | 167298/371472 [2:14:19<17:01:36,  3.33it/s] 45%|████▌     | 167299/371472 [2:14:20<16:53:48,  3.36it/s] 45%|████▌     | 167300/371472 [2:14:20<16:34:41,  3.42it/s]                                                            {'loss': 3.1202, 'learning_rate': 5.949330948738392e-07, 'epoch': 7.21}
 45%|████▌     | 167300/371472 [2:14:20<16:34:41,  3.42it/s] 45%|████▌     | 167301/371472 [2:14:20<17:01:00,  3.33it/s] 45%|████▌     | 167302/371472 [2:14:20<16:06:39,  3.52it/s] 45%|████▌     | 167303/371472 [2:14:21<16:37:30,  3.41it/s] 45%|████▌     | 167304/371472 [2:14:21<16:51:46,  3.36it/s] 45%|████▌     | 167305/371472 [2:14:21<16:17:56,  3.48it/s] 45%|████▌     | 167306/371472 [2:14:22<15:51:28,  3.58it/s] 45%|████▌     | 167307/371472 [2:14:22<15:41:52,  3.61it/s] 45%|████▌     | 167308/371472 [2:14:22<15:19:41,  3.70it/s] 45%|████▌     | 167309/371472 [2:14:22<16:08:32,  3.51it/s] 45%|████▌     | 167310/371472 [2:14:23<15:45:17,  3.60it/s] 45%|████▌     | 167311/371472 [2:14:23<15:21:20,  3.69it/s] 45%|████▌     | 167312/371472 [2:14:23<16:52:19,  3.36it/s] 45%|████▌     | 167313/371472 [2:14:24<16:30:59,  3.43it/s] 45%|████▌     | 167314/371472 [2:14:24<15:49:13,  3.58it/s] 45%|████▌     | 167315/371472 [2:14:24<16:16:28,  3.48it/s] 45%|████▌     | 167316/371472 [2:14:24<15:57:20,  3.55it/s] 45%|████▌     | 167317/371472 [2:14:25<15:56:29,  3.56it/s] 45%|████▌     | 167318/371472 [2:14:25<16:26:59,  3.45it/s] 45%|████▌     | 167319/371472 [2:14:25<16:12:20,  3.50it/s] 45%|████▌     | 167320/371472 [2:14:26<16:18:07,  3.48it/s]                                                            {'loss': 3.2649, 'learning_rate': 5.948846128983601e-07, 'epoch': 7.21}
 45%|████▌     | 167320/371472 [2:14:26<16:18:07,  3.48it/s] 45%|████▌     | 167321/371472 [2:14:26<15:37:45,  3.63it/s] 45%|████▌     | 167322/371472 [2:14:26<15:59:52,  3.54it/s] 45%|████▌     | 167323/371472 [2:14:26<15:42:37,  3.61it/s] 45%|████▌     | 167324/371472 [2:14:27<15:49:08,  3.58it/s] 45%|████▌     | 167325/371472 [2:14:27<17:53:52,  3.17it/s] 45%|████▌     | 167326/371472 [2:14:27<16:55:41,  3.35it/s] 45%|████▌     | 167327/371472 [2:14:28<18:06:45,  3.13it/s] 45%|████▌     | 167328/371472 [2:14:28<17:10:48,  3.30it/s] 45%|████▌     | 167329/371472 [2:14:28<17:51:05,  3.18it/s] 45%|████▌     | 167330/371472 [2:14:29<17:54:05,  3.17it/s] 45%|████▌     | 167331/371472 [2:14:29<17:41:10,  3.21it/s] 45%|████▌     | 167332/371472 [2:14:29<16:40:57,  3.40it/s] 45%|████▌     | 167333/371472 [2:14:30<16:18:24,  3.48it/s] 45%|████▌     | 167334/371472 [2:14:30<15:44:01,  3.60it/s] 45%|████▌     | 167335/371472 [2:14:30<15:27:13,  3.67it/s] 45%|████▌     | 167336/371472 [2:14:30<15:03:22,  3.77it/s] 45%|████▌     | 167337/371472 [2:14:31<14:51:41,  3.82it/s] 45%|████▌     | 167338/371472 [2:14:31<15:29:55,  3.66it/s] 45%|████▌     | 167339/371472 [2:14:31<16:06:28,  3.52it/s] 45%|████▌     | 167340/371472 [2:14:31<15:37:42,  3.63it/s]                                                            {'loss': 2.8257, 'learning_rate': 5.948361309228812e-07, 'epoch': 7.21}
 45%|████▌     | 167340/371472 [2:14:31<15:37:42,  3.63it/s] 45%|████▌     | 167341/371472 [2:14:32<15:53:58,  3.57it/s] 45%|████▌     | 167342/371472 [2:14:32<15:50:24,  3.58it/s] 45%|████▌     | 167343/371472 [2:14:32<14:59:47,  3.78it/s] 45%|████▌     | 167344/371472 [2:14:32<15:31:37,  3.65it/s] 45%|████▌     | 167345/371472 [2:14:33<15:06:38,  3.75it/s] 45%|████▌     | 167346/371472 [2:14:33<18:24:24,  3.08it/s] 45%|████▌     | 167347/371472 [2:14:33<17:47:10,  3.19it/s] 45%|████▌     | 167348/371472 [2:14:34<18:48:23,  3.01it/s] 45%|████▌     | 167349/371472 [2:14:34<17:39:17,  3.21it/s] 45%|████▌     | 167350/371472 [2:14:34<17:02:04,  3.33it/s] 45%|████▌     | 167351/371472 [2:14:35<17:07:28,  3.31it/s] 45%|████▌     | 167352/371472 [2:14:35<16:22:52,  3.46it/s] 45%|████▌     | 167353/371472 [2:14:35<16:17:57,  3.48it/s] 45%|████▌     | 167354/371472 [2:14:36<16:19:48,  3.47it/s] 45%|████▌     | 167355/371472 [2:14:36<16:22:14,  3.46it/s] 45%|████▌     | 167356/371472 [2:14:36<16:52:09,  3.36it/s] 45%|████▌     | 167357/371472 [2:14:36<16:26:53,  3.45it/s] 45%|████▌     | 167358/371472 [2:14:37<16:50:14,  3.37it/s] 45%|████▌     | 167359/371472 [2:14:37<17:47:12,  3.19it/s] 45%|████▌     | 167360/371472 [2:14:37<16:50:57,  3.37it/s]                                                            {'loss': 3.05, 'learning_rate': 5.947876489474024e-07, 'epoch': 7.21}
 45%|████▌     | 167360/371472 [2:14:37<16:50:57,  3.37it/s] 45%|████▌     | 167361/371472 [2:14:38<16:25:01,  3.45it/s] 45%|████▌     | 167362/371472 [2:14:38<15:54:40,  3.56it/s] 45%|████▌     | 167363/371472 [2:14:38<15:39:23,  3.62it/s] 45%|████▌     | 167364/371472 [2:14:38<16:05:23,  3.52it/s] 45%|████▌     | 167365/371472 [2:14:39<16:15:53,  3.49it/s] 45%|████▌     | 167366/371472 [2:14:39<15:48:55,  3.58it/s] 45%|████▌     | 167367/371472 [2:14:39<15:52:49,  3.57it/s] 45%|████▌     | 167368/371472 [2:14:40<15:43:31,  3.61it/s] 45%|████▌     | 167369/371472 [2:14:40<15:50:44,  3.58it/s] 45%|████▌     | 167370/371472 [2:14:40<16:00:54,  3.54it/s] 45%|████▌     | 167371/371472 [2:14:40<16:02:34,  3.53it/s] 45%|████▌     | 167372/371472 [2:14:41<15:32:16,  3.65it/s] 45%|████▌     | 167373/371472 [2:14:41<15:08:27,  3.74it/s] 45%|████▌     | 167374/371472 [2:14:41<15:37:51,  3.63it/s] 45%|████▌     | 167375/371472 [2:14:41<15:34:58,  3.64it/s] 45%|████▌     | 167376/371472 [2:14:42<15:55:53,  3.56it/s] 45%|████▌     | 167377/371472 [2:14:42<16:08:35,  3.51it/s] 45%|████▌     | 167378/371472 [2:14:42<17:10:21,  3.30it/s] 45%|████▌     | 167379/371472 [2:14:43<16:47:29,  3.38it/s] 45%|████▌     | 167380/371472 [2:14:43<16:20:09,  3.47it/s]                                                            {'loss': 3.0966, 'learning_rate': 5.947391669719236e-07, 'epoch': 7.21}
 45%|████▌     | 167380/371472 [2:14:43<16:20:09,  3.47it/s] 45%|████▌     | 167381/371472 [2:14:43<15:58:08,  3.55it/s] 45%|████▌     | 167382/371472 [2:14:44<17:00:20,  3.33it/s] 45%|████▌     | 167383/371472 [2:14:44<15:57:20,  3.55it/s] 45%|████▌     | 167384/371472 [2:14:44<16:02:57,  3.53it/s] 45%|████▌     | 167385/371472 [2:14:44<15:41:27,  3.61it/s] 45%|████▌     | 167386/371472 [2:14:45<15:34:14,  3.64it/s] 45%|████▌     | 167387/371472 [2:14:45<16:21:01,  3.47it/s] 45%|████▌     | 167388/371472 [2:14:45<15:57:42,  3.55it/s] 45%|████▌     | 167389/371472 [2:14:45<15:59:22,  3.55it/s] 45%|████▌     | 167390/371472 [2:14:46<16:35:24,  3.42it/s] 45%|████▌     | 167391/371472 [2:14:46<15:57:09,  3.55it/s] 45%|████▌     | 167392/371472 [2:14:46<15:55:09,  3.56it/s] 45%|████▌     | 167393/371472 [2:14:47<15:30:56,  3.65it/s] 45%|████▌     | 167394/371472 [2:14:47<15:43:20,  3.61it/s] 45%|████▌     | 167395/371472 [2:14:47<16:24:30,  3.45it/s] 45%|████▌     | 167396/371472 [2:14:47<15:59:37,  3.54it/s] 45%|████▌     | 167397/371472 [2:14:48<16:35:07,  3.42it/s] 45%|████▌     | 167398/371472 [2:14:48<16:50:05,  3.37it/s] 45%|████▌     | 167399/371472 [2:14:48<16:45:14,  3.38it/s] 45%|████▌     | 167400/371472 [2:14:49<17:23:39,  3.26it/s]                                                            {'loss': 3.1317, 'learning_rate': 5.946906849964447e-07, 'epoch': 7.21}
 45%|████▌     | 167400/371472 [2:14:49<17:23:39,  3.26it/s] 45%|████▌     | 167401/371472 [2:14:49<17:17:31,  3.28it/s] 45%|████▌     | 167402/371472 [2:14:49<16:32:04,  3.43it/s] 45%|████▌     | 167403/371472 [2:14:50<16:00:37,  3.54it/s] 45%|████▌     | 167404/371472 [2:14:50<16:17:03,  3.48it/s] 45%|████▌     | 167405/371472 [2:14:50<16:07:24,  3.52it/s] 45%|████▌     | 167406/371472 [2:14:50<15:45:30,  3.60it/s] 45%|████▌     | 167407/371472 [2:14:51<15:56:46,  3.55it/s] 45%|████▌     | 167408/371472 [2:14:51<16:00:40,  3.54it/s] 45%|████▌     | 167409/371472 [2:14:51<15:49:52,  3.58it/s] 45%|████▌     | 167410/371472 [2:14:51<15:09:28,  3.74it/s] 45%|████▌     | 167411/371472 [2:14:52<15:10:26,  3.74it/s] 45%|████▌     | 167412/371472 [2:14:52<17:00:45,  3.33it/s] 45%|████▌     | 167413/371472 [2:14:52<16:18:35,  3.48it/s] 45%|████▌     | 167414/371472 [2:14:53<17:26:21,  3.25it/s] 45%|████▌     | 167415/371472 [2:14:53<16:31:23,  3.43it/s] 45%|████▌     | 167416/371472 [2:14:53<16:38:45,  3.41it/s] 45%|████▌     | 167417/371472 [2:14:54<16:26:03,  3.45it/s] 45%|████▌     | 167418/371472 [2:14:54<16:35:48,  3.42it/s] 45%|████▌     | 167419/371472 [2:14:54<16:47:15,  3.38it/s] 45%|████▌     | 167420/371472 [2:14:54<16:47:31,  3.38it/s]                                                            {'loss': 3.0769, 'learning_rate': 5.946422030209658e-07, 'epoch': 7.21}
 45%|████▌     | 167420/371472 [2:14:54<16:47:31,  3.38it/s] 45%|████▌     | 167421/371472 [2:14:55<17:33:01,  3.23it/s] 45%|████▌     | 167422/371472 [2:14:55<16:58:15,  3.34it/s] 45%|████▌     | 167423/371472 [2:14:55<16:34:53,  3.42it/s] 45%|████▌     | 167424/371472 [2:14:56<16:23:02,  3.46it/s] 45%|████▌     | 167425/371472 [2:14:56<16:47:13,  3.38it/s] 45%|████▌     | 167426/371472 [2:14:56<16:13:36,  3.49it/s] 45%|████▌     | 167427/371472 [2:14:56<16:07:15,  3.52it/s] 45%|████▌     | 167428/371472 [2:14:57<16:35:13,  3.42it/s] 45%|████▌     | 167429/371472 [2:14:57<16:08:23,  3.51it/s] 45%|████▌     | 167430/371472 [2:14:57<17:42:49,  3.20it/s] 45%|████▌     | 167431/371472 [2:14:58<16:54:13,  3.35it/s] 45%|████▌     | 167432/371472 [2:14:58<16:25:53,  3.45it/s] 45%|████▌     | 167433/371472 [2:14:58<15:49:59,  3.58it/s] 45%|████▌     | 167434/371472 [2:14:59<15:53:50,  3.57it/s] 45%|████▌     | 167435/371472 [2:14:59<15:36:40,  3.63it/s] 45%|████▌     | 167436/371472 [2:14:59<17:35:02,  3.22it/s] 45%|████▌     | 167437/371472 [2:14:59<16:42:14,  3.39it/s] 45%|████▌     | 167438/371472 [2:15:00<17:00:50,  3.33it/s] 45%|████▌     | 167439/371472 [2:15:00<16:10:12,  3.50it/s] 45%|████▌     | 167440/371472 [2:15:00<17:05:39,  3.32it/s]                                                            {'loss': 3.0748, 'learning_rate': 5.945937210454868e-07, 'epoch': 7.21}
 45%|████▌     | 167440/371472 [2:15:00<17:05:39,  3.32it/s] 45%|████▌     | 167441/371472 [2:15:01<18:15:11,  3.10it/s] 45%|████▌     | 167442/371472 [2:15:01<17:32:17,  3.23it/s] 45%|████▌     | 167443/371472 [2:15:01<16:32:27,  3.43it/s] 45%|████▌     | 167444/371472 [2:15:02<17:11:42,  3.30it/s] 45%|████▌     | 167445/371472 [2:15:02<16:51:08,  3.36it/s] 45%|████▌     | 167446/371472 [2:15:02<16:11:03,  3.50it/s] 45%|████▌     | 167447/371472 [2:15:02<16:08:28,  3.51it/s] 45%|████▌     | 167448/371472 [2:15:03<16:12:10,  3.50it/s] 45%|████▌     | 167449/371472 [2:15:03<16:29:06,  3.44it/s] 45%|████▌     | 167450/371472 [2:15:03<15:33:07,  3.64it/s] 45%|████▌     | 167451/371472 [2:15:03<15:31:15,  3.65it/s] 45%|████▌     | 167452/371472 [2:15:04<15:50:48,  3.58it/s] 45%|████▌     | 167453/371472 [2:15:04<16:15:34,  3.49it/s] 45%|████▌     | 167454/371472 [2:15:04<16:56:58,  3.34it/s] 45%|████▌     | 167455/371472 [2:15:05<15:50:41,  3.58it/s] 45%|████▌     | 167456/371472 [2:15:05<15:45:43,  3.60it/s] 45%|████▌     | 167457/371472 [2:15:05<15:31:55,  3.65it/s] 45%|████▌     | 167458/371472 [2:15:05<15:28:59,  3.66it/s] 45%|████▌     | 167459/371472 [2:15:06<16:05:18,  3.52it/s] 45%|████▌     | 167460/371472 [2:15:06<17:21:18,  3.27it/s]                                                            {'loss': 3.1306, 'learning_rate': 5.94545239070008e-07, 'epoch': 7.21}
 45%|████▌     | 167460/371472 [2:15:06<17:21:18,  3.27it/s] 45%|████▌     | 167461/371472 [2:15:06<16:39:01,  3.40it/s] 45%|████▌     | 167462/371472 [2:15:07<16:08:43,  3.51it/s] 45%|████▌     | 167463/371472 [2:15:07<16:30:02,  3.43it/s] 45%|████▌     | 167464/371472 [2:15:07<15:56:15,  3.56it/s] 45%|████▌     | 167465/371472 [2:15:07<15:27:37,  3.67it/s] 45%|████▌     | 167466/371472 [2:15:08<15:08:39,  3.74it/s] 45%|████▌     | 167467/371472 [2:15:08<15:39:51,  3.62it/s] 45%|████▌     | 167468/371472 [2:15:08<15:41:20,  3.61it/s] 45%|████▌     | 167469/371472 [2:15:09<15:49:13,  3.58it/s] 45%|████▌     | 167470/371472 [2:15:09<16:36:15,  3.41it/s] 45%|████▌     | 167471/371472 [2:15:09<16:32:32,  3.43it/s] 45%|████▌     | 167472/371472 [2:15:09<16:01:22,  3.54it/s] 45%|████▌     | 167473/371472 [2:15:10<16:54:38,  3.35it/s] 45%|████▌     | 167474/371472 [2:15:10<16:12:16,  3.50it/s] 45%|████▌     | 167475/371472 [2:15:10<16:26:33,  3.45it/s] 45%|████▌     | 167476/371472 [2:15:11<15:53:52,  3.56it/s] 45%|████▌     | 167477/371472 [2:15:11<16:13:34,  3.49it/s] 45%|████▌     | 167478/371472 [2:15:11<17:51:22,  3.17it/s] 45%|████▌     | 167479/371472 [2:15:12<17:37:45,  3.21it/s] 45%|████▌     | 167480/371472 [2:15:12<16:49:50,  3.37it/s]                                                            {'loss': 3.0643, 'learning_rate': 5.94496757094529e-07, 'epoch': 7.21}
 45%|████▌     | 167480/371472 [2:15:12<16:49:50,  3.37it/s] 45%|████▌     | 167481/371472 [2:15:12<16:06:25,  3.52it/s] 45%|████▌     | 167482/371472 [2:15:12<15:46:33,  3.59it/s] 45%|████▌     | 167483/371472 [2:15:13<16:31:21,  3.43it/s] 45%|████▌     | 167484/371472 [2:15:13<15:54:31,  3.56it/s] 45%|████▌     | 167485/371472 [2:15:13<15:38:28,  3.62it/s] 45%|████▌     | 167486/371472 [2:15:14<16:31:32,  3.43it/s] 45%|████▌     | 167487/371472 [2:15:14<16:20:51,  3.47it/s] 45%|████▌     | 167488/371472 [2:15:14<15:56:55,  3.55it/s] 45%|████▌     | 167489/371472 [2:15:14<15:35:11,  3.64it/s] 45%|████▌     | 167490/371472 [2:15:15<16:41:35,  3.39it/s] 45%|████▌     | 167491/371472 [2:15:15<15:43:48,  3.60it/s] 45%|████▌     | 167492/371472 [2:15:15<15:20:09,  3.69it/s] 45%|████▌     | 167493/371472 [2:15:15<15:03:27,  3.76it/s] 45%|████▌     | 167494/371472 [2:15:16<15:12:34,  3.73it/s] 45%|████▌     | 167495/371472 [2:15:16<14:55:18,  3.80it/s] 45%|████▌     | 167496/371472 [2:15:16<15:27:35,  3.66it/s] 45%|████▌     | 167497/371472 [2:15:17<15:36:40,  3.63it/s] 45%|████▌     | 167498/371472 [2:15:17<15:29:05,  3.66it/s] 45%|████▌     | 167499/371472 [2:15:17<16:16:59,  3.48it/s] 45%|████▌     | 167500/371472 [2:15:17<17:11:14,  3.30it/s]                                                            {'loss': 2.917, 'learning_rate': 5.944482751190501e-07, 'epoch': 7.21}
 45%|████▌     | 167500/371472 [2:15:17<17:11:14,  3.30it/s] 45%|████▌     | 167501/371472 [2:15:18<16:54:23,  3.35it/s] 45%|████▌     | 167502/371472 [2:15:18<16:47:24,  3.37it/s] 45%|████▌     | 167503/371472 [2:15:18<16:38:13,  3.41it/s] 45%|████▌     | 167504/371472 [2:15:19<17:00:11,  3.33it/s] 45%|████▌     | 167505/371472 [2:15:19<16:46:52,  3.38it/s] 45%|████▌     | 167506/371472 [2:15:19<17:25:40,  3.25it/s] 45%|████▌     | 167507/371472 [2:15:20<16:37:40,  3.41it/s] 45%|████▌     | 167508/371472 [2:15:20<15:52:49,  3.57it/s] 45%|████▌     | 167509/371472 [2:15:20<15:23:30,  3.68it/s] 45%|████▌     | 167510/371472 [2:15:20<15:06:29,  3.75it/s] 45%|████▌     | 167511/371472 [2:15:21<14:50:56,  3.82it/s] 45%|████▌     | 167512/371472 [2:15:21<15:18:42,  3.70it/s] 45%|████▌     | 167513/371472 [2:15:21<15:08:54,  3.74it/s] 45%|████▌     | 167514/371472 [2:15:21<15:05:51,  3.75it/s] 45%|████▌     | 167515/371472 [2:15:22<15:19:06,  3.70it/s] 45%|████▌     | 167516/371472 [2:15:22<15:23:38,  3.68it/s] 45%|████▌     | 167517/371472 [2:15:22<14:54:19,  3.80it/s] 45%|████▌     | 167518/371472 [2:15:22<15:18:03,  3.70it/s] 45%|████▌     | 167519/371472 [2:15:23<15:49:35,  3.58it/s] 45%|████▌     | 167520/371472 [2:15:23<16:48:47,  3.37it/s]                                                            {'loss': 3.1419, 'learning_rate': 5.943997931435713e-07, 'epoch': 7.22}
 45%|████▌     | 167520/371472 [2:15:23<16:48:47,  3.37it/s] 45%|████▌     | 167521/371472 [2:15:23<16:35:16,  3.42it/s] 45%|████▌     | 167522/371472 [2:15:24<16:40:20,  3.40it/s] 45%|████▌     | 167523/371472 [2:15:24<17:56:49,  3.16it/s] 45%|████▌     | 167524/371472 [2:15:24<17:10:59,  3.30it/s] 45%|████▌     | 167525/371472 [2:15:25<17:13:25,  3.29it/s] 45%|████▌     | 167526/371472 [2:15:25<17:16:27,  3.28it/s] 45%|████▌     | 167527/371472 [2:15:25<16:32:57,  3.42it/s] 45%|████▌     | 167528/371472 [2:15:25<15:41:56,  3.61it/s] 45%|████▌     | 167529/371472 [2:15:26<15:33:17,  3.64it/s] 45%|████▌     | 167530/371472 [2:15:26<15:22:34,  3.68it/s] 45%|████▌     | 167531/371472 [2:15:26<15:56:54,  3.55it/s] 45%|████▌     | 167532/371472 [2:15:27<16:09:58,  3.50it/s] 45%|████▌     | 167533/371472 [2:15:27<16:34:38,  3.42it/s] 45%|████▌     | 167534/371472 [2:15:27<15:55:35,  3.56it/s] 45%|████▌     | 167535/371472 [2:15:27<15:26:16,  3.67it/s] 45%|████▌     | 167536/371472 [2:15:28<15:35:52,  3.63it/s] 45%|████▌     | 167537/371472 [2:15:28<16:12:12,  3.50it/s] 45%|████▌     | 167538/371472 [2:15:28<16:24:53,  3.45it/s] 45%|████▌     | 167539/371472 [2:15:29<16:53:32,  3.35it/s] 45%|████▌     | 167540/371472 [2:15:29<16:27:26,  3.44it/s]                                                            {'loss': 2.978, 'learning_rate': 5.943513111680924e-07, 'epoch': 7.22}
 45%|████▌     | 167540/371472 [2:15:29<16:27:26,  3.44it/s] 45%|████▌     | 167541/371472 [2:15:29<16:20:56,  3.46it/s] 45%|████▌     | 167542/371472 [2:15:29<15:22:48,  3.68it/s] 45%|████▌     | 167543/371472 [2:15:30<15:55:39,  3.56it/s] 45%|████▌     | 167544/371472 [2:15:30<15:44:07,  3.60it/s] 45%|████▌     | 167545/371472 [2:15:30<16:35:08,  3.42it/s] 45%|████▌     | 167546/371472 [2:15:31<16:28:13,  3.44it/s] 45%|████▌     | 167547/371472 [2:15:31<16:01:51,  3.53it/s] 45%|████▌     | 167548/371472 [2:15:31<16:03:23,  3.53it/s] 45%|████▌     | 167549/371472 [2:15:31<15:38:27,  3.62it/s] 45%|████▌     | 167550/371472 [2:15:32<15:28:18,  3.66it/s] 45%|████▌     | 167551/371472 [2:15:32<15:18:01,  3.70it/s] 45%|████▌     | 167552/371472 [2:15:32<15:33:03,  3.64it/s] 45%|████▌     | 167553/371472 [2:15:32<15:23:08,  3.68it/s] 45%|████▌     | 167554/371472 [2:15:33<16:01:56,  3.53it/s] 45%|████▌     | 167555/371472 [2:15:33<15:26:05,  3.67it/s] 45%|████▌     | 167556/371472 [2:15:33<15:12:42,  3.72it/s] 45%|████▌     | 167557/371472 [2:15:34<15:57:06,  3.55it/s] 45%|████▌     | 167558/371472 [2:15:34<15:43:47,  3.60it/s] 45%|████▌     | 167559/371472 [2:15:34<15:40:54,  3.61it/s] 45%|████▌     | 167560/371472 [2:15:34<16:30:02,  3.43it/s]                                                            {'loss': 3.2874, 'learning_rate': 5.943028291926135e-07, 'epoch': 7.22}
 45%|████▌     | 167560/371472 [2:15:34<16:30:02,  3.43it/s] 45%|████▌     | 167561/371472 [2:15:35<16:27:18,  3.44it/s] 45%|████▌     | 167562/371472 [2:15:35<16:33:51,  3.42it/s] 45%|████▌     | 167563/371472 [2:15:35<15:51:44,  3.57it/s] 45%|████▌     | 167564/371472 [2:15:36<15:16:50,  3.71it/s] 45%|████▌     | 167565/371472 [2:15:36<15:02:58,  3.76it/s] 45%|████▌     | 167566/371472 [2:15:36<15:36:20,  3.63it/s] 45%|████▌     | 167567/371472 [2:15:36<17:33:04,  3.23it/s] 45%|████▌     | 167568/371472 [2:15:37<16:41:33,  3.39it/s] 45%|████▌     | 167569/371472 [2:15:37<16:08:20,  3.51it/s] 45%|████▌     | 167570/371472 [2:15:37<16:04:04,  3.52it/s] 45%|████▌     | 167571/371472 [2:15:38<15:55:25,  3.56it/s] 45%|████▌     | 167572/371472 [2:15:38<15:57:28,  3.55it/s] 45%|████▌     | 167573/371472 [2:15:38<15:54:53,  3.56it/s] 45%|████▌     | 167574/371472 [2:15:38<16:13:43,  3.49it/s] 45%|████▌     | 167575/371472 [2:15:39<16:17:11,  3.48it/s] 45%|████▌     | 167576/371472 [2:15:39<16:07:50,  3.51it/s] 45%|████▌     | 167577/371472 [2:15:39<17:00:08,  3.33it/s] 45%|████▌     | 167578/371472 [2:15:40<16:50:45,  3.36it/s] 45%|████▌     | 167579/371472 [2:15:40<17:22:09,  3.26it/s] 45%|████▌     | 167580/371472 [2:15:40<16:52:58,  3.35it/s]                                                            {'loss': 3.1912, 'learning_rate': 5.942543472171345e-07, 'epoch': 7.22}
 45%|████▌     | 167580/371472 [2:15:40<16:52:58,  3.35it/s] 45%|████▌     | 167581/371472 [2:15:41<17:24:36,  3.25it/s] 45%|████▌     | 167582/371472 [2:15:41<16:45:15,  3.38it/s] 45%|████▌     | 167583/371472 [2:15:41<15:57:26,  3.55it/s] 45%|████▌     | 167584/371472 [2:15:41<16:26:41,  3.44it/s] 45%|████▌     | 167585/371472 [2:15:42<16:39:47,  3.40it/s] 45%|████▌     | 167586/371472 [2:15:42<16:18:00,  3.47it/s] 45%|████▌     | 167587/371472 [2:15:42<16:04:03,  3.52it/s] 45%|████▌     | 167588/371472 [2:15:43<16:36:47,  3.41it/s] 45%|████▌     | 167589/371472 [2:15:43<17:33:23,  3.23it/s] 45%|████▌     | 167590/371472 [2:15:43<17:05:37,  3.31it/s] 45%|████▌     | 167591/371472 [2:15:43<16:24:27,  3.45it/s] 45%|████▌     | 167592/371472 [2:15:44<16:14:30,  3.49it/s] 45%|████▌     | 167593/371472 [2:15:44<15:59:31,  3.54it/s] 45%|████▌     | 167594/371472 [2:15:44<15:37:50,  3.62it/s] 45%|████▌     | 167595/371472 [2:15:44<15:28:10,  3.66it/s] 45%|████▌     | 167596/371472 [2:15:45<15:47:12,  3.59it/s] 45%|████▌     | 167597/371472 [2:15:45<15:35:41,  3.63it/s] 45%|████▌     | 167598/371472 [2:15:45<15:28:40,  3.66it/s] 45%|████▌     | 167599/371472 [2:15:46<16:02:29,  3.53it/s] 45%|████▌     | 167600/371472 [2:15:46<16:21:41,  3.46it/s]                                                            {'loss': 3.1788, 'learning_rate': 5.942058652416557e-07, 'epoch': 7.22}
 45%|████▌     | 167600/371472 [2:15:46<16:21:41,  3.46it/s] 45%|████▌     | 167601/371472 [2:15:46<16:11:34,  3.50it/s] 45%|████▌     | 167602/371472 [2:15:46<16:09:56,  3.50it/s] 45%|████▌     | 167603/371472 [2:15:47<16:35:15,  3.41it/s] 45%|████▌     | 167604/371472 [2:15:47<16:12:13,  3.49it/s] 45%|████▌     | 167605/371472 [2:15:47<15:56:18,  3.55it/s] 45%|████▌     | 167606/371472 [2:15:48<16:20:21,  3.47it/s] 45%|████▌     | 167607/371472 [2:15:48<15:46:30,  3.59it/s] 45%|████▌     | 167608/371472 [2:15:48<15:49:54,  3.58it/s] 45%|████▌     | 167609/371472 [2:15:48<15:27:11,  3.66it/s] 45%|████▌     | 167610/371472 [2:15:49<15:33:10,  3.64it/s] 45%|████▌     | 167611/371472 [2:15:49<15:14:28,  3.72it/s] 45%|████▌     | 167612/371472 [2:15:49<15:00:47,  3.77it/s] 45%|████▌     | 167613/371472 [2:15:50<14:56:43,  3.79it/s] 45%|████▌     | 167614/371472 [2:15:50<15:32:47,  3.64it/s] 45%|████▌     | 167615/371472 [2:15:50<16:43:52,  3.38it/s] 45%|████▌     | 167616/371472 [2:15:50<16:50:11,  3.36it/s] 45%|████▌     | 167617/371472 [2:15:51<16:28:35,  3.44it/s] 45%|████▌     | 167618/371472 [2:15:51<16:58:07,  3.34it/s] 45%|████▌     | 167619/371472 [2:15:51<17:24:50,  3.25it/s] 45%|████▌     | 167620/371472 [2:15:52<16:56:33,  3.34it/s]                                                            {'loss': 2.9354, 'learning_rate': 5.941573832661768e-07, 'epoch': 7.22}
 45%|████▌     | 167620/371472 [2:15:52<16:56:33,  3.34it/s] 45%|████▌     | 167621/371472 [2:15:52<16:09:39,  3.50it/s] 45%|████▌     | 167622/371472 [2:15:52<16:40:40,  3.40it/s] 45%|████▌     | 167623/371472 [2:15:52<16:01:11,  3.53it/s] 45%|████▌     | 167624/371472 [2:15:53<15:44:49,  3.60it/s] 45%|████▌     | 167625/371472 [2:15:53<16:04:19,  3.52it/s] 45%|████▌     | 167626/371472 [2:15:53<16:24:42,  3.45it/s] 45%|████▌     | 167627/371472 [2:15:54<15:33:22,  3.64it/s] 45%|████▌     | 167628/371472 [2:15:54<16:05:58,  3.52it/s] 45%|████▌     | 167629/371472 [2:15:54<16:51:57,  3.36it/s] 45%|████▌     | 167630/371472 [2:15:55<17:38:54,  3.21it/s] 45%|████▌     | 167631/371472 [2:15:55<17:04:31,  3.32it/s] 45%|████▌     | 167632/371472 [2:15:55<17:13:14,  3.29it/s] 45%|████▌     | 167633/371472 [2:15:55<17:33:01,  3.23it/s] 45%|████▌     | 167634/371472 [2:15:56<17:09:05,  3.30it/s] 45%|████▌     | 167635/371472 [2:15:56<16:39:40,  3.40it/s] 45%|████▌     | 167636/371472 [2:15:56<16:00:11,  3.54it/s] 45%|████▌     | 167637/371472 [2:15:57<15:56:19,  3.55it/s] 45%|████▌     | 167638/371472 [2:15:57<16:03:45,  3.53it/s] 45%|████▌     | 167639/371472 [2:15:57<15:43:06,  3.60it/s] 45%|████▌     | 167640/371472 [2:15:57<15:30:33,  3.65it/s]                                                            {'loss': 3.1638, 'learning_rate': 5.941089012906978e-07, 'epoch': 7.22}
 45%|████▌     | 167640/371472 [2:15:57<15:30:33,  3.65it/s] 45%|████▌     | 167641/371472 [2:15:58<15:53:37,  3.56it/s] 45%|████▌     | 167642/371472 [2:15:58<16:22:20,  3.46it/s] 45%|████▌     | 167643/371472 [2:15:58<16:07:13,  3.51it/s] 45%|████▌     | 167644/371472 [2:15:59<15:50:23,  3.57it/s] 45%|████▌     | 167645/371472 [2:15:59<16:02:10,  3.53it/s] 45%|████▌     | 167646/371472 [2:15:59<15:32:12,  3.64it/s] 45%|████▌     | 167647/371472 [2:15:59<16:10:32,  3.50it/s] 45%|████▌     | 167648/371472 [2:16:00<15:50:30,  3.57it/s] 45%|████▌     | 167649/371472 [2:16:00<15:21:04,  3.69it/s] 45%|████▌     | 167650/371472 [2:16:00<15:30:21,  3.65it/s] 45%|████▌     | 167651/371472 [2:16:00<15:44:53,  3.60it/s] 45%|████▌     | 167652/371472 [2:16:01<15:35:11,  3.63it/s] 45%|████▌     | 167653/371472 [2:16:01<16:08:27,  3.51it/s] 45%|████▌     | 167654/371472 [2:16:01<16:12:06,  3.49it/s] 45%|████▌     | 167655/371472 [2:16:02<15:46:06,  3.59it/s] 45%|████▌     | 167656/371472 [2:16:02<15:33:20,  3.64it/s] 45%|████▌     | 167657/371472 [2:16:02<15:16:49,  3.71it/s] 45%|████▌     | 167658/371472 [2:16:02<16:17:35,  3.47it/s] 45%|████▌     | 167659/371472 [2:16:03<15:49:28,  3.58it/s] 45%|████▌     | 167660/371472 [2:16:03<17:17:29,  3.27it/s]                                                            {'loss': 2.9477, 'learning_rate': 5.94060419315219e-07, 'epoch': 7.22}
 45%|████▌     | 167660/371472 [2:16:03<17:17:29,  3.27it/s] 45%|████▌     | 167661/371472 [2:16:03<17:38:17,  3.21it/s] 45%|████▌     | 167662/371472 [2:16:04<18:17:57,  3.09it/s] 45%|████▌     | 167663/371472 [2:16:04<17:15:03,  3.28it/s] 45%|████▌     | 167664/371472 [2:16:04<18:54:40,  2.99it/s] 45%|████▌     | 167665/371472 [2:16:05<18:17:57,  3.09it/s] 45%|████▌     | 167666/371472 [2:16:05<18:26:50,  3.07it/s] 45%|████▌     | 167667/371472 [2:16:05<18:18:14,  3.09it/s] 45%|████▌     | 167668/371472 [2:16:06<17:38:55,  3.21it/s] 45%|████▌     | 167669/371472 [2:16:06<17:32:16,  3.23it/s] 45%|████▌     | 167670/371472 [2:16:06<16:27:37,  3.44it/s] 45%|████▌     | 167671/371472 [2:16:06<16:01:01,  3.53it/s] 45%|████▌     | 167672/371472 [2:16:07<15:32:32,  3.64it/s] 45%|████▌     | 167673/371472 [2:16:07<15:11:47,  3.73it/s] 45%|████▌     | 167674/371472 [2:16:07<16:23:09,  3.45it/s] 45%|████▌     | 167675/371472 [2:16:08<16:58:55,  3.33it/s] 45%|████▌     | 167676/371472 [2:16:08<16:36:13,  3.41it/s] 45%|████▌     | 167677/371472 [2:16:08<17:12:06,  3.29it/s] 45%|████▌     | 167678/371472 [2:16:09<17:16:02,  3.28it/s] 45%|████▌     | 167679/371472 [2:16:09<16:31:53,  3.42it/s] 45%|████▌     | 167680/371472 [2:16:09<17:35:07,  3.22it/s]                                                            {'loss': 3.0757, 'learning_rate': 5.940119373397402e-07, 'epoch': 7.22}
 45%|████▌     | 167680/371472 [2:16:09<17:35:07,  3.22it/s] 45%|████▌     | 167681/371472 [2:16:09<16:54:44,  3.35it/s] 45%|████▌     | 167682/371472 [2:16:10<17:38:54,  3.21it/s] 45%|████▌     | 167683/371472 [2:16:10<17:32:46,  3.23it/s] 45%|████▌     | 167684/371472 [2:16:10<16:41:36,  3.39it/s] 45%|████▌     | 167685/371472 [2:16:11<17:15:17,  3.28it/s] 45%|████▌     | 167686/371472 [2:16:11<17:13:17,  3.29it/s] 45%|████▌     | 167687/371472 [2:16:11<16:39:18,  3.40it/s] 45%|████▌     | 167688/371472 [2:16:12<16:43:58,  3.38it/s] 45%|████▌     | 167689/371472 [2:16:12<16:28:02,  3.44it/s] 45%|████▌     | 167690/371472 [2:16:12<16:05:27,  3.52it/s] 45%|████▌     | 167691/371472 [2:16:12<16:19:28,  3.47it/s] 45%|████▌     | 167692/371472 [2:16:13<15:43:05,  3.60it/s] 45%|████▌     | 167693/371472 [2:16:13<16:00:47,  3.53it/s] 45%|████▌     | 167694/371472 [2:16:13<16:15:04,  3.48it/s] 45%|████▌     | 167695/371472 [2:16:14<15:51:02,  3.57it/s] 45%|████▌     | 167696/371472 [2:16:14<17:35:33,  3.22it/s] 45%|████▌     | 167697/371472 [2:16:14<16:51:40,  3.36it/s] 45%|████▌     | 167698/371472 [2:16:14<16:50:56,  3.36it/s] 45%|████▌     | 167699/371472 [2:16:15<16:52:27,  3.35it/s] 45%|████▌     | 167700/371472 [2:16:15<17:06:24,  3.31it/s]                                                            {'loss': 3.1826, 'learning_rate': 5.939634553642612e-07, 'epoch': 7.22}
 45%|████▌     | 167700/371472 [2:16:15<17:06:24,  3.31it/s] 45%|████▌     | 167701/371472 [2:16:15<16:48:56,  3.37it/s] 45%|████▌     | 167702/371472 [2:16:16<17:27:07,  3.24it/s] 45%|████▌     | 167703/371472 [2:16:16<16:19:34,  3.47it/s] 45%|████▌     | 167704/371472 [2:16:16<16:18:10,  3.47it/s] 45%|████▌     | 167705/371472 [2:16:17<16:29:57,  3.43it/s] 45%|████▌     | 167706/371472 [2:16:17<16:12:24,  3.49it/s] 45%|████▌     | 167707/371472 [2:16:17<16:38:14,  3.40it/s] 45%|████▌     | 167708/371472 [2:16:17<16:11:19,  3.50it/s] 45%|████▌     | 167709/371472 [2:16:18<15:27:18,  3.66it/s] 45%|████▌     | 167710/371472 [2:16:18<17:27:03,  3.24it/s] 45%|████▌     | 167711/371472 [2:16:18<16:29:24,  3.43it/s] 45%|████▌     | 167712/371472 [2:16:19<16:27:47,  3.44it/s] 45%|████▌     | 167713/371472 [2:16:19<15:52:23,  3.57it/s] 45%|████▌     | 167714/371472 [2:16:19<16:32:37,  3.42it/s] 45%|████▌     | 167715/371472 [2:16:19<16:06:31,  3.51it/s] 45%|████▌     | 167716/371472 [2:16:20<15:55:08,  3.56it/s] 45%|████▌     | 167717/371472 [2:16:20<15:45:52,  3.59it/s] 45%|████▌     | 167718/371472 [2:16:20<18:20:41,  3.09it/s] 45%|████▌     | 167719/371472 [2:16:21<17:15:03,  3.28it/s] 45%|████▌     | 167720/371472 [2:16:21<16:43:26,  3.38it/s]                                                            {'loss': 3.2284, 'learning_rate': 5.939149733887822e-07, 'epoch': 7.22}
 45%|████▌     | 167720/371472 [2:16:21<16:43:26,  3.38it/s] 45%|████▌     | 167721/371472 [2:16:21<15:48:17,  3.58it/s] 45%|████▌     | 167722/371472 [2:16:21<15:57:20,  3.55it/s] 45%|████▌     | 167723/371472 [2:16:22<15:40:45,  3.61it/s] 45%|████▌     | 167724/371472 [2:16:22<15:31:07,  3.65it/s] 45%|████▌     | 167725/371472 [2:16:22<16:29:01,  3.43it/s] 45%|████▌     | 167726/371472 [2:16:23<17:27:47,  3.24it/s] 45%|████▌     | 167727/371472 [2:16:23<16:57:54,  3.34it/s] 45%|████▌     | 167728/371472 [2:16:23<16:49:42,  3.36it/s] 45%|████▌     | 167729/371472 [2:16:23<15:57:17,  3.55it/s] 45%|████▌     | 167730/371472 [2:16:24<16:11:12,  3.50it/s] 45%|████▌     | 167731/371472 [2:16:24<15:40:59,  3.61it/s] 45%|████▌     | 167732/371472 [2:16:24<15:57:58,  3.54it/s] 45%|████▌     | 167733/371472 [2:16:25<16:11:33,  3.50it/s] 45%|████▌     | 167734/371472 [2:16:25<15:37:54,  3.62it/s] 45%|████▌     | 167735/371472 [2:16:25<15:44:51,  3.59it/s] 45%|████▌     | 167736/371472 [2:16:25<15:36:25,  3.63it/s] 45%|████▌     | 167737/371472 [2:16:26<15:30:35,  3.65it/s] 45%|████▌     | 167738/371472 [2:16:26<15:29:34,  3.65it/s] 45%|████▌     | 167739/371472 [2:16:26<15:12:57,  3.72it/s] 45%|████▌     | 167740/371472 [2:16:26<15:25:46,  3.67it/s]                                                            {'loss': 3.0814, 'learning_rate': 5.938664914133034e-07, 'epoch': 7.22}
 45%|████▌     | 167740/371472 [2:16:26<15:25:46,  3.67it/s] 45%|████▌     | 167741/371472 [2:16:27<15:44:35,  3.59it/s] 45%|████▌     | 167742/371472 [2:16:27<16:06:27,  3.51it/s] 45%|████▌     | 167743/371472 [2:16:27<15:54:27,  3.56it/s] 45%|████▌     | 167744/371472 [2:16:28<15:24:28,  3.67it/s] 45%|████▌     | 167745/371472 [2:16:28<15:45:34,  3.59it/s] 45%|████▌     | 167746/371472 [2:16:28<15:30:35,  3.65it/s] 45%|████▌     | 167747/371472 [2:16:28<15:28:09,  3.66it/s] 45%|████▌     | 167748/371472 [2:16:29<15:13:58,  3.71it/s] 45%|████▌     | 167749/371472 [2:16:29<15:16:50,  3.70it/s] 45%|████▌     | 167750/371472 [2:16:29<14:56:51,  3.79it/s] 45%|████▌     | 167751/371472 [2:16:29<15:08:28,  3.74it/s] 45%|████▌     | 167752/371472 [2:16:30<14:53:36,  3.80it/s] 45%|████▌     | 167753/371472 [2:16:30<15:12:31,  3.72it/s] 45%|████▌     | 167754/371472 [2:16:30<14:49:14,  3.82it/s] 45%|████▌     | 167755/371472 [2:16:31<15:06:03,  3.75it/s] 45%|████▌     | 167756/371472 [2:16:31<15:50:19,  3.57it/s] 45%|████▌     | 167757/371472 [2:16:31<16:03:40,  3.52it/s] 45%|████▌     | 167758/371472 [2:16:31<16:39:52,  3.40it/s] 45%|████▌     | 167759/371472 [2:16:32<18:27:41,  3.07it/s] 45%|████▌     | 167760/371472 [2:16:32<17:13:55,  3.28it/s]                                                            {'loss': 3.1917, 'learning_rate': 5.938180094378246e-07, 'epoch': 7.23}
 45%|████▌     | 167760/371472 [2:16:32<17:13:55,  3.28it/s] 45%|████▌     | 167761/371472 [2:16:32<16:35:06,  3.41it/s] 45%|████▌     | 167762/371472 [2:16:33<15:45:32,  3.59it/s] 45%|████▌     | 167763/371472 [2:16:33<15:28:38,  3.66it/s] 45%|████▌     | 167764/371472 [2:16:33<16:20:30,  3.46it/s] 45%|████▌     | 167765/371472 [2:16:33<16:06:50,  3.51it/s] 45%|████▌     | 167766/371472 [2:16:34<15:34:28,  3.63it/s] 45%|████▌     | 167767/371472 [2:16:34<17:46:07,  3.18it/s] 45%|████▌     | 167768/371472 [2:16:34<16:42:45,  3.39it/s] 45%|████▌     | 167769/371472 [2:16:35<16:15:24,  3.48it/s] 45%|████▌     | 167770/371472 [2:16:35<16:24:55,  3.45it/s] 45%|████▌     | 167771/371472 [2:16:35<17:05:01,  3.31it/s] 45%|████▌     | 167772/371472 [2:16:36<16:35:01,  3.41it/s] 45%|████▌     | 167773/371472 [2:16:36<16:20:05,  3.46it/s] 45%|████▌     | 167774/371472 [2:16:36<15:50:26,  3.57it/s] 45%|████▌     | 167775/371472 [2:16:36<15:44:58,  3.59it/s] 45%|████▌     | 167776/371472 [2:16:37<16:52:05,  3.35it/s] 45%|████▌     | 167777/371472 [2:16:37<16:13:50,  3.49it/s] 45%|████▌     | 167778/371472 [2:16:37<15:53:18,  3.56it/s] 45%|████▌     | 167779/371472 [2:16:38<15:44:29,  3.59it/s] 45%|████▌     | 167780/371472 [2:16:38<16:29:25,  3.43it/s]                                                            {'loss': 3.1372, 'learning_rate': 5.937695274623457e-07, 'epoch': 7.23}
 45%|████▌     | 167780/371472 [2:16:38<16:29:25,  3.43it/s] 45%|████▌     | 167781/371472 [2:16:38<15:56:19,  3.55it/s] 45%|████▌     | 167782/371472 [2:16:38<15:45:43,  3.59it/s] 45%|████▌     | 167783/371472 [2:16:39<17:07:30,  3.30it/s] 45%|████▌     | 167784/371472 [2:16:39<16:53:49,  3.35it/s] 45%|████▌     | 167785/371472 [2:16:39<17:17:27,  3.27it/s] 45%|████▌     | 167786/371472 [2:16:40<17:39:29,  3.20it/s] 45%|████▌     | 167787/371472 [2:16:40<17:31:38,  3.23it/s] 45%|████▌     | 167788/371472 [2:16:40<16:29:44,  3.43it/s] 45%|████▌     | 167789/371472 [2:16:41<16:49:56,  3.36it/s] 45%|████▌     | 167790/371472 [2:16:41<16:06:24,  3.51it/s] 45%|████▌     | 167791/371472 [2:16:41<16:29:12,  3.43it/s] 45%|████▌     | 167792/371472 [2:16:41<16:04:13,  3.52it/s] 45%|████▌     | 167793/371472 [2:16:42<15:33:18,  3.64it/s] 45%|████▌     | 167794/371472 [2:16:42<15:29:38,  3.65it/s] 45%|████▌     | 167795/371472 [2:16:42<15:16:27,  3.70it/s] 45%|████▌     | 167796/371472 [2:16:42<15:33:42,  3.64it/s] 45%|████▌     | 167797/371472 [2:16:43<15:29:12,  3.65it/s] 45%|████▌     | 167798/371472 [2:16:43<15:06:06,  3.75it/s] 45%|████▌     | 167799/371472 [2:16:43<16:08:21,  3.51it/s] 45%|████▌     | 167800/371472 [2:16:44<16:12:43,  3.49it/s]                                                            {'loss': 3.0703, 'learning_rate': 5.937210454868667e-07, 'epoch': 7.23}
 45%|████▌     | 167800/371472 [2:16:44<16:12:43,  3.49it/s] 45%|████▌     | 167801/371472 [2:16:44<15:52:52,  3.56it/s] 45%|████▌     | 167802/371472 [2:16:44<15:52:26,  3.56it/s] 45%|████▌     | 167803/371472 [2:16:44<15:52:16,  3.56it/s] 45%|████▌     | 167804/371472 [2:16:45<16:16:04,  3.48it/s] 45%|████▌     | 167805/371472 [2:16:45<16:16:34,  3.48it/s] 45%|████▌     | 167806/371472 [2:16:45<16:05:13,  3.52it/s] 45%|████▌     | 167807/371472 [2:16:46<15:47:39,  3.58it/s] 45%|████▌     | 167808/371472 [2:16:46<16:17:35,  3.47it/s] 45%|████▌     | 167809/371472 [2:16:46<15:52:00,  3.57it/s] 45%|████▌     | 167810/371472 [2:16:46<16:09:08,  3.50it/s] 45%|████▌     | 167811/371472 [2:16:47<16:25:17,  3.44it/s] 45%|████▌     | 167812/371472 [2:16:47<16:11:45,  3.49it/s] 45%|████▌     | 167813/371472 [2:16:47<15:44:39,  3.59it/s] 45%|████▌     | 167814/371472 [2:16:48<15:55:09,  3.55it/s] 45%|████▌     | 167815/371472 [2:16:48<16:42:34,  3.39it/s] 45%|████▌     | 167816/371472 [2:16:48<16:50:18,  3.36it/s] 45%|████▌     | 167817/371472 [2:16:48<17:12:56,  3.29it/s] 45%|████▌     | 167818/371472 [2:16:49<17:34:45,  3.22it/s] 45%|████▌     | 167819/371472 [2:16:49<16:51:28,  3.36it/s] 45%|████▌     | 167820/371472 [2:16:49<16:14:49,  3.48it/s]                                                            {'loss': 3.1285, 'learning_rate': 5.936725635113879e-07, 'epoch': 7.23}
 45%|████▌     | 167820/371472 [2:16:49<16:14:49,  3.48it/s] 45%|████▌     | 167821/371472 [2:16:50<16:48:30,  3.37it/s] 45%|████▌     | 167822/371472 [2:16:50<18:23:23,  3.08it/s] 45%|████▌     | 167823/371472 [2:16:50<19:42:43,  2.87it/s] 45%|████▌     | 167824/371472 [2:16:51<18:55:33,  2.99it/s] 45%|████▌     | 167825/371472 [2:16:51<18:35:23,  3.04it/s] 45%|████▌     | 167826/371472 [2:16:51<17:31:04,  3.23it/s] 45%|████▌     | 167827/371472 [2:16:52<17:43:05,  3.19it/s] 45%|████▌     | 167828/371472 [2:16:52<17:09:03,  3.30it/s] 45%|████▌     | 167829/371472 [2:16:52<17:09:21,  3.30it/s] 45%|████▌     | 167830/371472 [2:16:52<16:16:19,  3.48it/s] 45%|████▌     | 167831/371472 [2:16:53<15:42:29,  3.60it/s] 45%|████▌     | 167832/371472 [2:16:53<16:19:49,  3.46it/s] 45%|████▌     | 167833/371472 [2:16:53<15:32:14,  3.64it/s] 45%|████▌     | 167834/371472 [2:16:54<15:46:16,  3.59it/s] 45%|████▌     | 167835/371472 [2:16:54<18:43:52,  3.02it/s] 45%|████▌     | 167836/371472 [2:16:54<17:59:49,  3.14it/s] 45%|████▌     | 167837/371472 [2:16:55<17:12:27,  3.29it/s] 45%|████▌     | 167838/371472 [2:16:55<16:34:25,  3.41it/s] 45%|████▌     | 167839/371472 [2:16:55<15:57:08,  3.55it/s] 45%|████▌     | 167840/371472 [2:16:55<16:18:37,  3.47it/s]                                                            {'loss': 3.3208, 'learning_rate': 5.936240815359089e-07, 'epoch': 7.23}
 45%|████▌     | 167840/371472 [2:16:55<16:18:37,  3.47it/s] 45%|████▌     | 167841/371472 [2:16:56<15:59:35,  3.54it/s] 45%|████▌     | 167842/371472 [2:16:56<16:01:50,  3.53it/s] 45%|████▌     | 167843/371472 [2:16:56<16:08:01,  3.51it/s] 45%|████▌     | 167844/371472 [2:16:57<15:50:19,  3.57it/s] 45%|████▌     | 167845/371472 [2:16:57<17:18:28,  3.27it/s] 45%|████▌     | 167846/371472 [2:16:57<16:53:05,  3.35it/s] 45%|████▌     | 167847/371472 [2:16:57<16:26:30,  3.44it/s] 45%|████▌     | 167848/371472 [2:16:58<15:55:18,  3.55it/s] 45%|████▌     | 167849/371472 [2:16:58<18:00:25,  3.14it/s] 45%|████▌     | 167850/371472 [2:16:58<17:04:46,  3.31it/s] 45%|████▌     | 167851/371472 [2:16:59<16:43:49,  3.38it/s] 45%|████▌     | 167852/371472 [2:16:59<16:15:17,  3.48it/s] 45%|████▌     | 167853/371472 [2:16:59<17:27:12,  3.24it/s] 45%|████▌     | 167854/371472 [2:17:00<17:24:19,  3.25it/s] 45%|████▌     | 167855/371472 [2:17:00<17:45:27,  3.19it/s] 45%|████▌     | 167856/371472 [2:17:00<16:57:09,  3.34it/s] 45%|████▌     | 167857/371472 [2:17:01<17:00:20,  3.33it/s] 45%|████▌     | 167858/371472 [2:17:01<17:15:25,  3.28it/s] 45%|████▌     | 167859/371472 [2:17:01<17:35:12,  3.22it/s] 45%|████▌     | 167860/371472 [2:17:01<17:11:22,  3.29it/s]                                                            {'loss': 3.0276, 'learning_rate': 5.935755995604301e-07, 'epoch': 7.23}
 45%|████▌     | 167860/371472 [2:17:01<17:11:22,  3.29it/s] 45%|████▌     | 167861/371472 [2:17:02<17:03:43,  3.31it/s] 45%|████▌     | 167862/371472 [2:17:02<16:15:23,  3.48it/s] 45%|████▌     | 167863/371472 [2:17:02<15:32:14,  3.64it/s] 45%|████▌     | 167864/371472 [2:17:03<15:45:59,  3.59it/s] 45%|████▌     | 167865/371472 [2:17:03<18:06:21,  3.12it/s] 45%|████▌     | 167866/371472 [2:17:03<17:31:52,  3.23it/s] 45%|████▌     | 167867/371472 [2:17:03<16:43:13,  3.38it/s] 45%|████▌     | 167868/371472 [2:17:04<16:01:54,  3.53it/s] 45%|████▌     | 167869/371472 [2:17:04<15:24:30,  3.67it/s] 45%|████▌     | 167870/371472 [2:17:04<15:41:32,  3.60it/s] 45%|████▌     | 167871/371472 [2:17:05<16:02:08,  3.53it/s] 45%|████▌     | 167872/371472 [2:17:05<17:14:37,  3.28it/s] 45%|████▌     | 167873/371472 [2:17:05<16:30:57,  3.42it/s] 45%|████▌     | 167874/371472 [2:17:05<16:10:55,  3.49it/s] 45%|████▌     | 167875/371472 [2:17:06<16:15:48,  3.48it/s] 45%|████▌     | 167876/371472 [2:17:06<15:56:44,  3.55it/s] 45%|████▌     | 167877/371472 [2:17:06<16:48:52,  3.36it/s] 45%|████▌     | 167878/371472 [2:17:07<16:18:13,  3.47it/s] 45%|████▌     | 167879/371472 [2:17:07<17:32:19,  3.22it/s] 45%|████▌     | 167880/371472 [2:17:07<16:57:46,  3.33it/s]                                                            {'loss': 3.1404, 'learning_rate': 5.935271175849511e-07, 'epoch': 7.23}
 45%|████▌     | 167880/371472 [2:17:07<16:57:46,  3.33it/s] 45%|████▌     | 167881/371472 [2:17:08<16:42:07,  3.39it/s] 45%|████▌     | 167882/371472 [2:17:08<15:53:02,  3.56it/s] 45%|████▌     | 167883/371472 [2:17:08<15:57:16,  3.54it/s] 45%|████▌     | 167884/371472 [2:17:08<15:16:27,  3.70it/s] 45%|████▌     | 167885/371472 [2:17:09<15:06:47,  3.74it/s] 45%|████▌     | 167886/371472 [2:17:09<16:42:54,  3.38it/s] 45%|████▌     | 167887/371472 [2:17:09<17:01:53,  3.32it/s] 45%|████▌     | 167888/371472 [2:17:10<16:20:52,  3.46it/s] 45%|████▌     | 167889/371472 [2:17:10<17:04:24,  3.31it/s] 45%|████▌     | 167890/371472 [2:17:10<16:36:07,  3.41it/s] 45%|████▌     | 167891/371472 [2:17:10<16:34:10,  3.41it/s] 45%|████▌     | 167892/371472 [2:17:11<16:21:21,  3.46it/s] 45%|████▌     | 167893/371472 [2:17:11<16:03:35,  3.52it/s] 45%|████▌     | 167894/371472 [2:17:11<15:40:28,  3.61it/s] 45%|████▌     | 167895/371472 [2:17:12<16:01:49,  3.53it/s] 45%|████▌     | 167896/371472 [2:17:12<15:40:54,  3.61it/s] 45%|████▌     | 167897/371472 [2:17:12<15:25:19,  3.67it/s] 45%|████▌     | 167898/371472 [2:17:12<15:32:17,  3.64it/s] 45%|████▌     | 167899/371472 [2:17:13<16:33:08,  3.42it/s] 45%|████▌     | 167900/371472 [2:17:13<15:52:17,  3.56it/s]                                                            {'loss': 3.1198, 'learning_rate': 5.934786356094723e-07, 'epoch': 7.23}
 45%|████▌     | 167900/371472 [2:17:13<15:52:17,  3.56it/s] 45%|████▌     | 167901/371472 [2:17:13<16:51:47,  3.35it/s] 45%|████▌     | 167902/371472 [2:17:13<15:49:02,  3.58it/s] 45%|████▌     | 167903/371472 [2:17:14<16:02:25,  3.53it/s] 45%|████▌     | 167904/371472 [2:17:14<16:14:50,  3.48it/s] 45%|████▌     | 167905/371472 [2:17:14<16:03:27,  3.52it/s] 45%|████▌     | 167906/371472 [2:17:15<16:13:15,  3.49it/s] 45%|████▌     | 167907/371472 [2:17:15<16:01:58,  3.53it/s] 45%|████▌     | 167908/371472 [2:17:15<16:11:19,  3.49it/s] 45%|████▌     | 167909/371472 [2:17:15<15:31:40,  3.64it/s] 45%|████▌     | 167910/371472 [2:17:16<15:29:28,  3.65it/s] 45%|████▌     | 167911/371472 [2:17:16<15:57:14,  3.54it/s] 45%|████▌     | 167912/371472 [2:17:16<15:54:13,  3.56it/s] 45%|████▌     | 167913/371472 [2:17:17<15:53:20,  3.56it/s] 45%|████▌     | 167914/371472 [2:17:17<16:28:36,  3.43it/s] 45%|████▌     | 167915/371472 [2:17:17<15:58:38,  3.54it/s] 45%|████▌     | 167916/371472 [2:17:17<15:17:07,  3.70it/s] 45%|████▌     | 167917/371472 [2:17:18<14:52:07,  3.80it/s] 45%|████▌     | 167918/371472 [2:17:18<15:16:22,  3.70it/s] 45%|████▌     | 167919/371472 [2:17:18<14:56:34,  3.78it/s] 45%|████▌     | 167920/371472 [2:17:18<14:49:37,  3.81it/s]                                                            {'loss': 3.2213, 'learning_rate': 5.934301536339935e-07, 'epoch': 7.23}
 45%|████▌     | 167920/371472 [2:17:18<14:49:37,  3.81it/s] 45%|████▌     | 167921/371472 [2:17:19<15:22:00,  3.68it/s] 45%|████▌     | 167922/371472 [2:17:19<16:08:00,  3.50it/s] 45%|████▌     | 167923/371472 [2:17:19<15:39:33,  3.61it/s] 45%|████▌     | 167924/371472 [2:17:20<16:44:53,  3.38it/s] 45%|████▌     | 167925/371472 [2:17:20<17:33:03,  3.22it/s] 45%|████▌     | 167926/371472 [2:17:20<16:52:37,  3.35it/s] 45%|████▌     | 167927/371472 [2:17:21<17:18:37,  3.27it/s] 45%|████▌     | 167928/371472 [2:17:21<16:55:41,  3.34it/s] 45%|████▌     | 167929/371472 [2:17:21<16:20:00,  3.46it/s] 45%|████▌     | 167930/371472 [2:17:21<16:23:50,  3.45it/s] 45%|████▌     | 167931/371472 [2:17:22<15:51:01,  3.57it/s] 45%|████▌     | 167932/371472 [2:17:22<15:54:46,  3.55it/s] 45%|████▌     | 167933/371472 [2:17:22<15:54:21,  3.55it/s] 45%|████▌     | 167934/371472 [2:17:23<15:26:12,  3.66it/s] 45%|████▌     | 167935/371472 [2:17:23<15:03:15,  3.76it/s] 45%|████▌     | 167936/371472 [2:17:23<14:51:16,  3.81it/s] 45%|████▌     | 167937/371472 [2:17:23<15:09:06,  3.73it/s] 45%|████▌     | 167938/371472 [2:17:24<16:10:10,  3.50it/s] 45%|████▌     | 167939/371472 [2:17:24<15:24:37,  3.67it/s] 45%|████▌     | 167940/371472 [2:17:24<14:56:36,  3.78it/s]                                                            {'loss': 3.0328, 'learning_rate': 5.933816716585146e-07, 'epoch': 7.23}
 45%|████▌     | 167940/371472 [2:17:24<14:56:36,  3.78it/s] 45%|████▌     | 167941/371472 [2:17:24<15:47:53,  3.58it/s] 45%|████▌     | 167942/371472 [2:17:25<15:14:46,  3.71it/s] 45%|████▌     | 167943/371472 [2:17:25<15:00:04,  3.77it/s] 45%|████▌     | 167944/371472 [2:17:25<14:33:08,  3.88it/s] 45%|████▌     | 167945/371472 [2:17:26<15:38:43,  3.61it/s] 45%|████▌     | 167946/371472 [2:17:26<15:12:36,  3.72it/s] 45%|████▌     | 167947/371472 [2:17:26<15:58:31,  3.54it/s] 45%|████▌     | 167948/371472 [2:17:26<16:09:11,  3.50it/s] 45%|████▌     | 167949/371472 [2:17:27<15:25:17,  3.67it/s] 45%|████▌     | 167950/371472 [2:17:27<16:01:47,  3.53it/s] 45%|████▌     | 167951/371472 [2:17:27<15:33:26,  3.63it/s] 45%|████▌     | 167952/371472 [2:17:27<16:17:15,  3.47it/s] 45%|████▌     | 167953/371472 [2:17:28<16:19:50,  3.46it/s] 45%|████▌     | 167954/371472 [2:17:28<15:40:30,  3.61it/s] 45%|████▌     | 167955/371472 [2:17:28<15:36:49,  3.62it/s] 45%|████▌     | 167956/371472 [2:17:29<15:20:01,  3.69it/s] 45%|████▌     | 167957/371472 [2:17:29<15:56:50,  3.54it/s] 45%|████▌     | 167958/371472 [2:17:29<16:24:40,  3.44it/s] 45%|████▌     | 167959/371472 [2:17:29<15:39:44,  3.61it/s] 45%|████▌     | 167960/371472 [2:17:30<16:21:29,  3.46it/s]                                                            {'loss': 3.102, 'learning_rate': 5.933331896830355e-07, 'epoch': 7.23}
 45%|████▌     | 167960/371472 [2:17:30<16:21:29,  3.46it/s] 45%|████▌     | 167961/371472 [2:17:30<16:29:04,  3.43it/s] 45%|████▌     | 167962/371472 [2:17:30<16:21:44,  3.45it/s] 45%|████▌     | 167963/371472 [2:17:31<17:13:49,  3.28it/s] 45%|████▌     | 167964/371472 [2:17:31<16:21:04,  3.46it/s] 45%|████▌     | 167965/371472 [2:17:31<16:01:21,  3.53it/s] 45%|████▌     | 167966/371472 [2:17:31<16:03:15,  3.52it/s] 45%|████▌     | 167967/371472 [2:17:32<15:58:00,  3.54it/s] 45%|████▌     | 167968/371472 [2:17:32<16:06:26,  3.51it/s] 45%|████▌     | 167969/371472 [2:17:32<16:04:27,  3.52it/s] 45%|████▌     | 167970/371472 [2:17:33<15:30:10,  3.65it/s] 45%|████▌     | 167971/371472 [2:17:33<15:04:05,  3.75it/s] 45%|████▌     | 167972/371472 [2:17:33<15:29:56,  3.65it/s] 45%|████▌     | 167973/371472 [2:17:33<15:36:11,  3.62it/s] 45%|████▌     | 167974/371472 [2:17:34<16:48:22,  3.36it/s] 45%|████▌     | 167975/371472 [2:17:34<18:29:48,  3.06it/s] 45%|████▌     | 167976/371472 [2:17:34<18:07:34,  3.12it/s] 45%|████▌     | 167977/371472 [2:17:35<17:16:36,  3.27it/s] 45%|████▌     | 167978/371472 [2:17:35<16:39:38,  3.39it/s] 45%|████▌     | 167979/371472 [2:17:35<16:36:28,  3.40it/s] 45%|████▌     | 167980/371472 [2:17:36<16:49:08,  3.36it/s]                                                            {'loss': 3.102, 'learning_rate': 5.932847077075567e-07, 'epoch': 7.24}
 45%|████▌     | 167980/371472 [2:17:36<16:49:08,  3.36it/s] 45%|████▌     | 167981/371472 [2:17:36<16:26:47,  3.44it/s] 45%|████▌     | 167982/371472 [2:17:36<15:32:59,  3.64it/s] 45%|████▌     | 167983/371472 [2:17:36<15:13:41,  3.71it/s] 45%|████▌     | 167984/371472 [2:17:37<16:56:09,  3.34it/s] 45%|████▌     | 167985/371472 [2:17:37<16:58:50,  3.33it/s] 45%|████▌     | 167986/371472 [2:17:37<16:49:33,  3.36it/s] 45%|████▌     | 167987/371472 [2:17:38<16:12:15,  3.49it/s] 45%|████▌     | 167988/371472 [2:17:38<16:09:50,  3.50it/s] 45%|████▌     | 167989/371472 [2:17:38<15:57:43,  3.54it/s] 45%|████▌     | 167990/371472 [2:17:38<15:27:23,  3.66it/s] 45%|████▌     | 167991/371472 [2:17:39<15:10:50,  3.72it/s] 45%|████▌     | 167992/371472 [2:17:39<14:53:50,  3.79it/s] 45%|████▌     | 167993/371472 [2:17:39<16:32:42,  3.42it/s] 45%|████▌     | 167994/371472 [2:17:40<16:37:44,  3.40it/s] 45%|████▌     | 167995/371472 [2:17:40<16:45:25,  3.37it/s] 45%|████▌     | 167996/371472 [2:17:40<16:13:29,  3.48it/s] 45%|████▌     | 167997/371472 [2:17:40<16:05:38,  3.51it/s] 45%|████▌     | 167998/371472 [2:17:41<16:00:18,  3.53it/s] 45%|████▌     | 167999/371472 [2:17:41<15:15:36,  3.70it/s] 45%|████▌     | 168000/371472 [2:17:41<17:15:27,  3.28it/s]                                                            {'loss': 3.109, 'learning_rate': 5.932362257320779e-07, 'epoch': 7.24}
 45%|████▌     | 168000/371472 [2:17:41<17:15:27,  3.28it/s] 45%|████▌     | 168001/371472 [2:17:42<16:37:54,  3.40it/s] 45%|████▌     | 168002/371472 [2:17:42<16:29:46,  3.43it/s] 45%|████▌     | 168003/371472 [2:17:42<15:59:52,  3.53it/s] 45%|████▌     | 168004/371472 [2:17:42<16:10:23,  3.49it/s] 45%|████▌     | 168005/371472 [2:17:43<15:52:43,  3.56it/s] 45%|████▌     | 168006/371472 [2:17:43<17:24:09,  3.25it/s] 45%|████▌     | 168007/371472 [2:17:43<16:30:22,  3.42it/s] 45%|████▌     | 168008/371472 [2:17:44<16:07:01,  3.51it/s] 45%|████▌     | 168009/371472 [2:17:44<15:28:28,  3.65it/s] 45%|████▌     | 168010/371472 [2:17:44<16:26:34,  3.44it/s] 45%|████▌     | 168011/371472 [2:17:44<15:49:27,  3.57it/s] 45%|████▌     | 168012/371472 [2:17:45<15:39:48,  3.61it/s] 45%|████▌     | 168013/371472 [2:17:45<17:07:25,  3.30it/s] 45%|████▌     | 168014/371472 [2:17:45<17:22:56,  3.25it/s] 45%|████▌     | 168015/371472 [2:17:46<16:39:26,  3.39it/s] 45%|████▌     | 168016/371472 [2:17:46<15:58:27,  3.54it/s] 45%|████▌     | 168017/371472 [2:17:46<15:36:50,  3.62it/s] 45%|████▌     | 168018/371472 [2:17:46<15:45:53,  3.58it/s] 45%|████▌     | 168019/371472 [2:17:47<15:24:15,  3.67it/s] 45%|████▌     | 168020/371472 [2:17:47<16:31:02,  3.42it/s]                                                            {'loss': 3.3265, 'learning_rate': 5.931877437565988e-07, 'epoch': 7.24}
 45%|████▌     | 168020/371472 [2:17:47<16:31:02,  3.42it/s] 45%|████▌     | 168021/371472 [2:17:47<15:57:05,  3.54it/s] 45%|████▌     | 168022/371472 [2:17:48<17:00:17,  3.32it/s] 45%|████▌     | 168023/371472 [2:17:48<16:41:56,  3.38it/s] 45%|████▌     | 168024/371472 [2:17:48<16:02:57,  3.52it/s] 45%|████▌     | 168025/371472 [2:17:48<15:27:49,  3.65it/s] 45%|████▌     | 168026/371472 [2:17:49<15:51:12,  3.56it/s] 45%|████▌     | 168027/371472 [2:17:49<16:20:32,  3.46it/s] 45%|████▌     | 168028/371472 [2:17:49<16:32:16,  3.42it/s] 45%|████▌     | 168029/371472 [2:17:50<16:06:54,  3.51it/s] 45%|████▌     | 168030/371472 [2:17:50<15:43:44,  3.59it/s] 45%|████▌     | 168031/371472 [2:17:50<15:50:33,  3.57it/s] 45%|████▌     | 168032/371472 [2:17:50<15:23:15,  3.67it/s] 45%|████▌     | 168033/371472 [2:17:51<14:53:23,  3.80it/s] 45%|████▌     | 168034/371472 [2:17:51<18:11:00,  3.11it/s] 45%|████▌     | 168035/371472 [2:17:51<17:15:24,  3.27it/s] 45%|████▌     | 168036/371472 [2:17:52<17:03:22,  3.31it/s] 45%|████▌     | 168037/371472 [2:17:52<17:08:17,  3.30it/s] 45%|████▌     | 168038/371472 [2:17:52<16:30:17,  3.42it/s] 45%|████▌     | 168039/371472 [2:17:53<16:20:25,  3.46it/s] 45%|████▌     | 168040/371472 [2:17:53<15:44:35,  3.59it/s]                                                            {'loss': 3.166, 'learning_rate': 5.9313926178112e-07, 'epoch': 7.24}
 45%|████▌     | 168040/371472 [2:17:53<15:44:35,  3.59it/s] 45%|████▌     | 168041/371472 [2:17:53<16:06:24,  3.51it/s] 45%|████▌     | 168042/371472 [2:17:53<15:30:45,  3.64it/s] 45%|████▌     | 168043/371472 [2:17:54<16:49:28,  3.36it/s] 45%|████▌     | 168044/371472 [2:17:54<16:09:37,  3.50it/s] 45%|████▌     | 168045/371472 [2:17:54<17:01:36,  3.32it/s] 45%|████▌     | 168046/371472 [2:17:55<16:33:46,  3.41it/s] 45%|████▌     | 168047/371472 [2:17:55<17:33:51,  3.22it/s] 45%|████▌     | 168048/371472 [2:17:55<18:09:18,  3.11it/s] 45%|████▌     | 168049/371472 [2:17:56<17:13:27,  3.28it/s] 45%|████▌     | 168050/371472 [2:17:56<16:48:11,  3.36it/s] 45%|████▌     | 168051/371472 [2:17:56<16:28:09,  3.43it/s] 45%|████▌     | 168052/371472 [2:17:56<16:07:51,  3.50it/s] 45%|████▌     | 168053/371472 [2:17:57<16:09:28,  3.50it/s] 45%|████▌     | 168054/371472 [2:17:57<15:58:10,  3.54it/s] 45%|████▌     | 168055/371472 [2:17:57<16:14:21,  3.48it/s] 45%|████▌     | 168056/371472 [2:17:57<15:57:11,  3.54it/s] 45%|████▌     | 168057/371472 [2:17:58<15:55:05,  3.55it/s] 45%|████▌     | 168058/371472 [2:17:58<15:46:49,  3.58it/s] 45%|████▌     | 168059/371472 [2:17:58<17:33:45,  3.22it/s] 45%|████▌     | 168060/371472 [2:17:59<16:38:51,  3.39it/s]                                                            {'loss': 3.0525, 'learning_rate': 5.930907798056412e-07, 'epoch': 7.24}
 45%|████▌     | 168060/371472 [2:17:59<16:38:51,  3.39it/s] 45%|████▌     | 168061/371472 [2:17:59<16:30:19,  3.42it/s] 45%|████▌     | 168062/371472 [2:17:59<16:23:52,  3.45it/s] 45%|████▌     | 168063/371472 [2:17:59<15:39:14,  3.61it/s] 45%|████▌     | 168064/371472 [2:18:00<15:27:03,  3.66it/s] 45%|████▌     | 168065/371472 [2:18:00<15:21:23,  3.68it/s] 45%|████▌     | 168066/371472 [2:18:00<17:01:59,  3.32it/s] 45%|████▌     | 168067/371472 [2:18:01<16:31:12,  3.42it/s] 45%|████▌     | 168068/371472 [2:18:01<16:22:22,  3.45it/s] 45%|████▌     | 168069/371472 [2:18:01<15:46:29,  3.58it/s] 45%|████▌     | 168070/371472 [2:18:02<17:12:20,  3.28it/s] 45%|████▌     | 168071/371472 [2:18:02<16:36:51,  3.40it/s] 45%|████▌     | 168072/371472 [2:18:02<15:55:00,  3.55it/s] 45%|████▌     | 168073/371472 [2:18:02<15:26:55,  3.66it/s] 45%|████▌     | 168074/371472 [2:18:03<15:06:03,  3.74it/s] 45%|████▌     | 168075/371472 [2:18:03<14:55:55,  3.78it/s] 45%|████▌     | 168076/371472 [2:18:03<15:03:24,  3.75it/s] 45%|████▌     | 168077/371472 [2:18:03<15:09:03,  3.73it/s] 45%|████▌     | 168078/371472 [2:18:04<15:40:09,  3.61it/s] 45%|████▌     | 168079/371472 [2:18:04<16:00:55,  3.53it/s] 45%|████▌     | 168080/371472 [2:18:04<15:27:04,  3.66it/s]                                                            {'loss': 3.0959, 'learning_rate': 5.930422978301622e-07, 'epoch': 7.24}
 45%|████▌     | 168080/371472 [2:18:04<15:27:04,  3.66it/s] 45%|████▌     | 168081/371472 [2:18:04<15:12:23,  3.72it/s] 45%|████▌     | 168082/371472 [2:18:05<16:06:07,  3.51it/s] 45%|████▌     | 168083/371472 [2:18:05<15:55:58,  3.55it/s] 45%|████▌     | 168084/371472 [2:18:05<15:28:22,  3.65it/s] 45%|████▌     | 168085/371472 [2:18:06<15:33:38,  3.63it/s] 45%|████▌     | 168086/371472 [2:18:06<15:31:21,  3.64it/s] 45%|████▌     | 168087/371472 [2:18:06<15:30:52,  3.64it/s] 45%|████▌     | 168088/371472 [2:18:06<15:42:07,  3.60it/s] 45%|████▌     | 168089/371472 [2:18:07<15:47:32,  3.58it/s] 45%|████▌     | 168090/371472 [2:18:07<15:48:33,  3.57it/s] 45%|████▌     | 168091/371472 [2:18:07<15:33:24,  3.63it/s] 45%|████▌     | 168092/371472 [2:18:08<15:37:41,  3.61it/s] 45%|████▌     | 168093/371472 [2:18:08<15:29:34,  3.65it/s] 45%|████▌     | 168094/371472 [2:18:08<15:23:11,  3.67it/s] 45%|████▌     | 168095/371472 [2:18:08<15:10:54,  3.72it/s] 45%|████▌     | 168096/371472 [2:18:09<15:08:37,  3.73it/s] 45%|████▌     | 168097/371472 [2:18:09<15:12:32,  3.71it/s] 45%|████▌     | 168098/371472 [2:18:09<15:41:12,  3.60it/s] 45%|████▌     | 168099/371472 [2:18:09<15:19:05,  3.69it/s] 45%|████▌     | 168100/371472 [2:18:10<15:21:14,  3.68it/s]                                                            {'loss': 3.0703, 'learning_rate': 5.929938158546832e-07, 'epoch': 7.24}
 45%|████▌     | 168100/371472 [2:18:10<15:21:14,  3.68it/s] 45%|████▌     | 168101/371472 [2:18:10<15:49:04,  3.57it/s] 45%|████▌     | 168102/371472 [2:18:10<15:40:46,  3.60it/s] 45%|████▌     | 168103/371472 [2:18:11<16:02:39,  3.52it/s] 45%|████▌     | 168104/371472 [2:18:11<17:43:04,  3.19it/s] 45%|████▌     | 168105/371472 [2:18:11<17:46:41,  3.18it/s] 45%|████▌     | 168106/371472 [2:18:12<16:53:27,  3.34it/s] 45%|████▌     | 168107/371472 [2:18:12<16:46:50,  3.37it/s] 45%|████▌     | 168108/371472 [2:18:12<16:20:23,  3.46it/s] 45%|████▌     | 168109/371472 [2:18:12<16:05:31,  3.51it/s] 45%|████▌     | 168110/371472 [2:18:13<16:12:36,  3.48it/s] 45%|████▌     | 168111/371472 [2:18:13<15:40:16,  3.60it/s] 45%|████▌     | 168112/371472 [2:18:13<15:32:08,  3.64it/s] 45%|████▌     | 168113/371472 [2:18:13<15:23:49,  3.67it/s] 45%|████▌     | 168114/371472 [2:18:14<15:20:48,  3.68it/s] 45%|████▌     | 168115/371472 [2:18:14<15:28:29,  3.65it/s] 45%|████▌     | 168116/371472 [2:18:14<15:27:41,  3.65it/s] 45%|████▌     | 168117/371472 [2:18:15<14:58:13,  3.77it/s] 45%|████▌     | 168118/371472 [2:18:15<15:08:02,  3.73it/s] 45%|████▌     | 168119/371472 [2:18:15<16:32:19,  3.42it/s] 45%|████▌     | 168120/371472 [2:18:15<15:57:06,  3.54it/s]                                                            {'loss': 3.2023, 'learning_rate': 5.929453338792044e-07, 'epoch': 7.24}
 45%|████▌     | 168120/371472 [2:18:15<15:57:06,  3.54it/s] 45%|████▌     | 168121/371472 [2:18:16<17:16:53,  3.27it/s] 45%|████▌     | 168122/371472 [2:18:16<17:11:29,  3.29it/s] 45%|████▌     | 168123/371472 [2:18:16<16:05:50,  3.51it/s] 45%|████▌     | 168124/371472 [2:18:17<15:40:14,  3.60it/s] 45%|████▌     | 168125/371472 [2:18:17<15:34:19,  3.63it/s] 45%|████▌     | 168126/371472 [2:18:17<15:47:38,  3.58it/s] 45%|████▌     | 168127/371472 [2:18:17<15:45:12,  3.59it/s] 45%|████▌     | 168128/371472 [2:18:18<15:13:51,  3.71it/s] 45%|████▌     | 168129/371472 [2:18:18<15:57:28,  3.54it/s] 45%|████▌     | 168130/371472 [2:18:18<17:09:52,  3.29it/s] 45%|████▌     | 168131/371472 [2:18:19<19:21:42,  2.92it/s] 45%|████▌     | 168132/371472 [2:18:19<17:56:52,  3.15it/s] 45%|████▌     | 168133/371472 [2:18:19<17:38:06,  3.20it/s] 45%|████▌     | 168134/371472 [2:18:20<17:16:23,  3.27it/s] 45%|████▌     | 168135/371472 [2:18:20<16:38:41,  3.39it/s] 45%|████▌     | 168136/371472 [2:18:20<16:12:16,  3.49it/s] 45%|████▌     | 168137/371472 [2:18:20<15:55:08,  3.55it/s] 45%|████▌     | 168138/371472 [2:18:21<16:46:14,  3.37it/s] 45%|████▌     | 168139/371472 [2:18:21<15:57:38,  3.54it/s] 45%|████▌     | 168140/371472 [2:18:21<16:04:46,  3.51it/s]                                                            {'loss': 3.0709, 'learning_rate': 5.928968519037256e-07, 'epoch': 7.24}
 45%|████▌     | 168140/371472 [2:18:21<16:04:46,  3.51it/s] 45%|████▌     | 168141/371472 [2:18:22<15:28:07,  3.65it/s] 45%|████▌     | 168142/371472 [2:18:22<15:28:24,  3.65it/s] 45%|████▌     | 168143/371472 [2:18:22<15:18:21,  3.69it/s] 45%|████▌     | 168144/371472 [2:18:22<15:18:42,  3.69it/s] 45%|████▌     | 168145/371472 [2:18:23<15:04:54,  3.74it/s] 45%|████▌     | 168146/371472 [2:18:23<14:52:20,  3.80it/s] 45%|████▌     | 168147/371472 [2:18:23<14:43:34,  3.84it/s] 45%|████▌     | 168148/371472 [2:18:23<15:02:32,  3.75it/s] 45%|████▌     | 168149/371472 [2:18:24<15:14:35,  3.71it/s] 45%|████▌     | 168150/371472 [2:18:24<15:14:58,  3.70it/s] 45%|████▌     | 168151/371472 [2:18:24<15:15:15,  3.70it/s] 45%|████▌     | 168152/371472 [2:18:25<15:42:48,  3.59it/s] 45%|████▌     | 168153/371472 [2:18:25<15:34:08,  3.63it/s] 45%|████▌     | 168154/371472 [2:18:25<17:14:19,  3.28it/s] 45%|████▌     | 168155/371472 [2:18:25<16:29:07,  3.43it/s] 45%|████▌     | 168156/371472 [2:18:26<15:57:38,  3.54it/s] 45%|████▌     | 168157/371472 [2:18:26<15:45:43,  3.58it/s] 45%|████▌     | 168158/371472 [2:18:26<16:32:10,  3.42it/s] 45%|████▌     | 168159/371472 [2:18:27<16:09:32,  3.49it/s] 45%|████▌     | 168160/371472 [2:18:27<16:08:15,  3.50it/s]                                                            {'loss': 3.0638, 'learning_rate': 5.928483699282467e-07, 'epoch': 7.24}
 45%|████▌     | 168160/371472 [2:18:27<16:08:15,  3.50it/s] 45%|████▌     | 168161/371472 [2:18:27<16:09:42,  3.49it/s] 45%|████▌     | 168162/371472 [2:18:27<16:22:01,  3.45it/s] 45%|████▌     | 168163/371472 [2:18:28<15:38:42,  3.61it/s] 45%|████▌     | 168164/371472 [2:18:28<15:21:40,  3.68it/s] 45%|████▌     | 168165/371472 [2:18:28<15:14:29,  3.71it/s] 45%|████▌     | 168166/371472 [2:18:28<14:47:10,  3.82it/s] 45%|████▌     | 168167/371472 [2:18:29<14:54:51,  3.79it/s] 45%|████▌     | 168168/371472 [2:18:29<14:42:14,  3.84it/s] 45%|████▌     | 168169/371472 [2:18:29<15:30:57,  3.64it/s] 45%|████▌     | 168170/371472 [2:18:30<14:52:44,  3.80it/s] 45%|████▌     | 168171/371472 [2:18:30<14:20:43,  3.94it/s] 45%|████▌     | 168172/371472 [2:18:30<14:18:09,  3.95it/s] 45%|████▌     | 168173/371472 [2:18:30<14:15:01,  3.96it/s] 45%|████▌     | 168174/371472 [2:18:31<14:55:58,  3.78it/s] 45%|████▌     | 168175/371472 [2:18:31<15:28:41,  3.65it/s] 45%|████▌     | 168176/371472 [2:18:31<14:49:48,  3.81it/s] 45%|████▌     | 168177/371472 [2:18:31<15:37:58,  3.61it/s] 45%|████▌     | 168178/371472 [2:18:32<15:25:38,  3.66it/s] 45%|████▌     | 168179/371472 [2:18:32<14:58:45,  3.77it/s] 45%|████▌     | 168180/371472 [2:18:32<15:02:09,  3.76it/s]                                                            {'loss': 3.3064, 'learning_rate': 5.927998879527677e-07, 'epoch': 7.24}
 45%|████▌     | 168180/371472 [2:18:32<15:02:09,  3.76it/s] 45%|████▌     | 168181/371472 [2:18:32<15:29:15,  3.65it/s] 45%|████▌     | 168182/371472 [2:18:33<15:38:26,  3.61it/s] 45%|████▌     | 168183/371472 [2:18:33<15:47:44,  3.57it/s] 45%|████▌     | 168184/371472 [2:18:33<15:13:31,  3.71it/s] 45%|████▌     | 168185/371472 [2:18:34<16:11:07,  3.49it/s] 45%|████▌     | 168186/371472 [2:18:34<15:57:47,  3.54it/s] 45%|████▌     | 168187/371472 [2:18:34<15:57:30,  3.54it/s] 45%|████▌     | 168188/371472 [2:18:34<16:18:44,  3.46it/s] 45%|████▌     | 168189/371472 [2:18:35<16:12:24,  3.48it/s] 45%|████▌     | 168190/371472 [2:18:35<16:59:26,  3.32it/s] 45%|████▌     | 168191/371472 [2:18:35<18:37:25,  3.03it/s] 45%|████▌     | 168192/371472 [2:18:36<18:54:37,  2.99it/s] 45%|████▌     | 168193/371472 [2:18:36<18:14:13,  3.10it/s] 45%|████▌     | 168194/371472 [2:18:36<18:23:41,  3.07it/s] 45%|████▌     | 168195/371472 [2:18:37<18:47:53,  3.00it/s] 45%|████▌     | 168196/371472 [2:18:37<18:42:20,  3.02it/s] 45%|████▌     | 168197/371472 [2:18:37<17:47:12,  3.17it/s] 45%|████▌     | 168198/371472 [2:18:38<16:36:01,  3.40it/s] 45%|████▌     | 168199/371472 [2:18:38<16:54:26,  3.34it/s] 45%|████▌     | 168200/371472 [2:18:38<16:24:46,  3.44it/s]                                                            {'loss': 3.1773, 'learning_rate': 5.927514059772889e-07, 'epoch': 7.24}
 45%|████▌     | 168200/371472 [2:18:38<16:24:46,  3.44it/s] 45%|████▌     | 168201/371472 [2:18:38<16:02:27,  3.52it/s] 45%|████▌     | 168202/371472 [2:18:39<16:17:11,  3.47it/s] 45%|████▌     | 168203/371472 [2:18:39<16:56:18,  3.33it/s] 45%|████▌     | 168204/371472 [2:18:39<16:25:23,  3.44it/s] 45%|████▌     | 168205/371472 [2:18:40<16:19:02,  3.46it/s] 45%|████▌     | 168206/371472 [2:18:40<16:02:26,  3.52it/s] 45%|████▌     | 168207/371472 [2:18:40<15:45:33,  3.58it/s] 45%|████▌     | 168208/371472 [2:18:40<15:38:56,  3.61it/s] 45%|████▌     | 168209/371472 [2:18:41<15:13:14,  3.71it/s] 45%|████▌     | 168210/371472 [2:18:41<15:00:47,  3.76it/s] 45%|████▌     | 168211/371472 [2:18:41<18:09:55,  3.11it/s] 45%|████▌     | 168212/371472 [2:18:42<17:15:25,  3.27it/s] 45%|████▌     | 168213/371472 [2:18:42<17:17:13,  3.27it/s] 45%|████▌     | 168214/371472 [2:18:42<17:39:08,  3.20it/s] 45%|████▌     | 168215/371472 [2:18:43<16:55:06,  3.34it/s] 45%|████▌     | 168216/371472 [2:18:43<16:01:00,  3.53it/s] 45%|████▌     | 168217/371472 [2:18:43<16:46:24,  3.37it/s] 45%|████▌     | 168218/371472 [2:18:43<16:34:17,  3.41it/s] 45%|████▌     | 168219/371472 [2:18:44<15:51:18,  3.56it/s] 45%|████▌     | 168220/371472 [2:18:44<16:28:38,  3.43it/s]                                                            {'loss': 3.1345, 'learning_rate': 5.9270292400181e-07, 'epoch': 7.25}
 45%|████▌     | 168220/371472 [2:18:44<16:28:38,  3.43it/s] 45%|████▌     | 168221/371472 [2:18:44<15:59:40,  3.53it/s] 45%|████▌     | 168222/371472 [2:18:45<15:36:41,  3.62it/s] 45%|████▌     | 168223/371472 [2:18:45<15:37:24,  3.61it/s] 45%|████▌     | 168224/371472 [2:18:45<16:12:57,  3.48it/s] 45%|████▌     | 168225/371472 [2:18:46<17:20:14,  3.26it/s] 45%|████▌     | 168226/371472 [2:18:46<17:02:59,  3.31it/s] 45%|████▌     | 168227/371472 [2:18:46<16:20:15,  3.46it/s] 45%|████▌     | 168228/371472 [2:18:46<15:53:17,  3.55it/s] 45%|████▌     | 168229/371472 [2:18:47<15:18:22,  3.69it/s] 45%|████▌     | 168230/371472 [2:18:47<17:32:41,  3.22it/s] 45%|████▌     | 168231/371472 [2:18:47<17:06:12,  3.30it/s] 45%|████▌     | 168232/371472 [2:18:48<16:40:36,  3.39it/s] 45%|████▌     | 168233/371472 [2:18:48<16:20:24,  3.45it/s] 45%|████▌     | 168234/371472 [2:18:48<17:35:35,  3.21it/s] 45%|████▌     | 168235/371472 [2:18:48<16:47:57,  3.36it/s] 45%|████▌     | 168236/371472 [2:18:49<17:01:37,  3.32it/s] 45%|████▌     | 168237/371472 [2:18:49<17:15:38,  3.27it/s] 45%|████▌     | 168238/371472 [2:18:49<16:54:33,  3.34it/s] 45%|████▌     | 168239/371472 [2:18:50<16:26:01,  3.44it/s] 45%|████▌     | 168240/371472 [2:18:50<15:49:18,  3.57it/s]                                                            {'loss': 3.0722, 'learning_rate': 5.92654442026331e-07, 'epoch': 7.25}
 45%|████▌     | 168240/371472 [2:18:50<15:49:18,  3.57it/s] 45%|████▌     | 168241/371472 [2:18:50<15:16:58,  3.69it/s] 45%|████▌     | 168242/371472 [2:18:50<15:56:37,  3.54it/s] 45%|████▌     | 168243/371472 [2:18:51<16:12:52,  3.48it/s] 45%|████▌     | 168244/371472 [2:18:51<15:53:16,  3.55it/s] 45%|████▌     | 168245/371472 [2:18:51<15:52:50,  3.55it/s] 45%|████▌     | 168246/371472 [2:18:52<15:38:29,  3.61it/s] 45%|████▌     | 168247/371472 [2:18:52<16:02:44,  3.52it/s] 45%|████▌     | 168248/371472 [2:18:52<15:54:39,  3.55it/s] 45%|████▌     | 168249/371472 [2:18:52<16:34:54,  3.40it/s] 45%|████▌     | 168250/371472 [2:18:53<17:04:53,  3.30it/s] 45%|████▌     | 168251/371472 [2:18:53<16:55:44,  3.33it/s] 45%|████▌     | 168252/371472 [2:18:53<16:09:51,  3.49it/s] 45%|████▌     | 168253/371472 [2:18:54<16:05:35,  3.51it/s] 45%|████▌     | 168254/371472 [2:18:54<15:48:29,  3.57it/s] 45%|████▌     | 168255/371472 [2:18:54<15:44:32,  3.59it/s] 45%|████▌     | 168256/371472 [2:18:54<15:16:10,  3.70it/s] 45%|████▌     | 168257/371472 [2:18:55<15:12:27,  3.71it/s] 45%|████▌     | 168258/371472 [2:18:55<15:36:45,  3.62it/s] 45%|████▌     | 168259/371472 [2:18:55<15:37:09,  3.61it/s] 45%|████▌     | 168260/371472 [2:18:56<16:21:28,  3.45it/s]                                                            {'loss': 3.1938, 'learning_rate': 5.926059600508521e-07, 'epoch': 7.25}
 45%|████▌     | 168260/371472 [2:18:56<16:21:28,  3.45it/s] 45%|████▌     | 168261/371472 [2:18:56<15:51:25,  3.56it/s] 45%|████▌     | 168262/371472 [2:18:56<16:38:14,  3.39it/s] 45%|████▌     | 168263/371472 [2:18:56<17:21:39,  3.25it/s] 45%|████▌     | 168264/371472 [2:18:57<16:28:56,  3.42it/s] 45%|████▌     | 168265/371472 [2:18:57<17:32:58,  3.22it/s] 45%|████▌     | 168266/371472 [2:18:57<17:40:00,  3.20it/s] 45%|████▌     | 168267/371472 [2:18:58<18:22:40,  3.07it/s] 45%|████▌     | 168268/371472 [2:18:58<17:21:57,  3.25it/s] 45%|████▌     | 168269/371472 [2:18:58<16:56:12,  3.33it/s] 45%|████▌     | 168270/371472 [2:18:59<17:14:26,  3.27it/s] 45%|████▌     | 168271/371472 [2:18:59<17:00:15,  3.32it/s] 45%|████▌     | 168272/371472 [2:18:59<16:08:36,  3.50it/s] 45%|████▌     | 168273/371472 [2:18:59<15:40:02,  3.60it/s] 45%|████▌     | 168274/371472 [2:19:00<16:33:34,  3.41it/s] 45%|████▌     | 168275/371472 [2:19:00<17:02:11,  3.31it/s] 45%|████▌     | 168276/371472 [2:19:00<16:13:21,  3.48it/s] 45%|████▌     | 168277/371472 [2:19:01<16:15:38,  3.47it/s] 45%|████▌     | 168278/371472 [2:19:01<15:46:24,  3.58it/s] 45%|████▌     | 168279/371472 [2:19:01<15:39:40,  3.60it/s] 45%|████▌     | 168280/371472 [2:19:01<15:16:47,  3.69it/s]                                                            {'loss': 3.1211, 'learning_rate': 5.925574780753733e-07, 'epoch': 7.25}
 45%|████▌     | 168280/371472 [2:19:01<15:16:47,  3.69it/s] 45%|████▌     | 168281/371472 [2:19:02<15:15:53,  3.70it/s] 45%|████▌     | 168282/371472 [2:19:02<16:58:18,  3.33it/s] 45%|████▌     | 168283/371472 [2:19:02<15:56:08,  3.54it/s] 45%|████▌     | 168284/371472 [2:19:03<15:30:05,  3.64it/s] 45%|████▌     | 168285/371472 [2:19:03<15:33:26,  3.63it/s] 45%|████▌     | 168286/371472 [2:19:03<14:52:49,  3.79it/s] 45%|████▌     | 168287/371472 [2:19:03<14:29:54,  3.89it/s] 45%|████▌     | 168288/371472 [2:19:04<14:22:36,  3.93it/s] 45%|████▌     | 168289/371472 [2:19:04<14:00:57,  4.03it/s] 45%|████▌     | 168290/371472 [2:19:04<15:07:07,  3.73it/s] 45%|████▌     | 168291/371472 [2:19:04<16:01:25,  3.52it/s] 45%|████▌     | 168292/371472 [2:19:05<16:05:39,  3.51it/s] 45%|████▌     | 168293/371472 [2:19:05<16:19:24,  3.46it/s] 45%|████▌     | 168294/371472 [2:19:05<16:24:25,  3.44it/s] 45%|████▌     | 168295/371472 [2:19:06<16:16:49,  3.47it/s] 45%|████▌     | 168296/371472 [2:19:06<15:43:44,  3.59it/s] 45%|████▌     | 168297/371472 [2:19:06<15:47:03,  3.58it/s] 45%|████▌     | 168298/371472 [2:19:06<15:39:01,  3.61it/s] 45%|████▌     | 168299/371472 [2:19:07<15:57:24,  3.54it/s] 45%|████▌     | 168300/371472 [2:19:07<15:49:30,  3.57it/s]                                                            {'loss': 3.1653, 'learning_rate': 5.925089960998945e-07, 'epoch': 7.25}
 45%|████▌     | 168300/371472 [2:19:07<15:49:30,  3.57it/s] 45%|████▌     | 168301/371472 [2:19:07<15:33:18,  3.63it/s] 45%|████▌     | 168302/371472 [2:19:08<15:45:45,  3.58it/s] 45%|████▌     | 168303/371472 [2:19:08<15:13:13,  3.71it/s] 45%|████▌     | 168304/371472 [2:19:08<14:58:19,  3.77it/s] 45%|████▌     | 168305/371472 [2:19:08<14:44:40,  3.83it/s] 45%|████▌     | 168306/371472 [2:19:09<14:38:12,  3.86it/s] 45%|████▌     | 168307/371472 [2:19:09<14:37:31,  3.86it/s] 45%|████▌     | 168308/371472 [2:19:09<14:33:14,  3.88it/s] 45%|████▌     | 168309/371472 [2:19:09<14:23:45,  3.92it/s] 45%|████▌     | 168310/371472 [2:19:10<14:40:17,  3.85it/s] 45%|████▌     | 168311/371472 [2:19:10<14:40:41,  3.84it/s] 45%|████▌     | 168312/371472 [2:19:10<14:47:00,  3.82it/s] 45%|████▌     | 168313/371472 [2:19:11<18:29:36,  3.05it/s] 45%|████▌     | 168314/371472 [2:19:11<17:11:59,  3.28it/s] 45%|████▌     | 168315/371472 [2:19:11<16:55:49,  3.33it/s] 45%|████▌     | 168316/371472 [2:19:11<16:27:23,  3.43it/s] 45%|████▌     | 168317/371472 [2:19:12<15:49:16,  3.57it/s] 45%|████▌     | 168318/371472 [2:19:12<16:27:12,  3.43it/s] 45%|████▌     | 168319/371472 [2:19:12<15:39:26,  3.60it/s] 45%|████▌     | 168320/371472 [2:19:12<15:58:41,  3.53it/s]                                                            {'loss': 3.1135, 'learning_rate': 5.924605141244155e-07, 'epoch': 7.25}
 45%|████▌     | 168320/371472 [2:19:12<15:58:41,  3.53it/s] 45%|████▌     | 168321/371472 [2:19:13<15:25:36,  3.66it/s] 45%|████▌     | 168322/371472 [2:19:13<14:56:39,  3.78it/s] 45%|████▌     | 168323/371472 [2:19:13<14:50:58,  3.80it/s] 45%|████▌     | 168324/371472 [2:19:14<15:25:04,  3.66it/s] 45%|████▌     | 168325/371472 [2:19:14<15:24:02,  3.66it/s] 45%|████▌     | 168326/371472 [2:19:14<15:38:42,  3.61it/s] 45%|████▌     | 168327/371472 [2:19:14<15:29:44,  3.64it/s] 45%|████▌     | 168328/371472 [2:19:15<15:15:03,  3.70it/s] 45%|████▌     | 168329/371472 [2:19:15<15:49:19,  3.57it/s] 45%|████▌     | 168330/371472 [2:19:15<15:19:38,  3.68it/s] 45%|████▌     | 168331/371472 [2:19:15<15:09:14,  3.72it/s] 45%|████▌     | 168332/371472 [2:19:16<15:56:34,  3.54it/s] 45%|████▌     | 168333/371472 [2:19:16<16:05:39,  3.51it/s] 45%|████▌     | 168334/371472 [2:19:16<15:47:26,  3.57it/s] 45%|████▌     | 168335/371472 [2:19:17<15:28:15,  3.65it/s] 45%|████▌     | 168336/371472 [2:19:17<15:21:19,  3.67it/s] 45%|████▌     | 168337/371472 [2:19:17<15:35:46,  3.62it/s] 45%|████▌     | 168338/371472 [2:19:17<15:07:55,  3.73it/s] 45%|████▌     | 168339/371472 [2:19:18<15:21:29,  3.67it/s] 45%|████▌     | 168340/371472 [2:19:18<15:22:23,  3.67it/s]                                                            {'loss': 3.1996, 'learning_rate': 5.924120321489365e-07, 'epoch': 7.25}
 45%|████▌     | 168340/371472 [2:19:18<15:22:23,  3.67it/s] 45%|████▌     | 168341/371472 [2:19:18<15:06:00,  3.74it/s] 45%|████▌     | 168342/371472 [2:19:18<14:52:43,  3.79it/s] 45%|████▌     | 168343/371472 [2:19:19<15:00:56,  3.76it/s] 45%|████▌     | 168344/371472 [2:19:19<15:50:25,  3.56it/s] 45%|████▌     | 168345/371472 [2:19:19<16:28:39,  3.42it/s] 45%|████▌     | 168346/371472 [2:19:20<16:19:47,  3.46it/s] 45%|████▌     | 168347/371472 [2:19:20<15:39:01,  3.61it/s] 45%|████▌     | 168348/371472 [2:19:20<15:14:47,  3.70it/s] 45%|████▌     | 168349/371472 [2:19:20<15:36:06,  3.62it/s] 45%|████▌     | 168350/371472 [2:19:21<15:37:59,  3.61it/s] 45%|████▌     | 168351/371472 [2:19:21<16:32:23,  3.41it/s] 45%|████▌     | 168352/371472 [2:19:21<15:52:25,  3.55it/s] 45%|████▌     | 168353/371472 [2:19:22<15:23:35,  3.67it/s] 45%|████▌     | 168354/371472 [2:19:22<15:20:46,  3.68it/s] 45%|████▌     | 168355/371472 [2:19:22<16:58:51,  3.32it/s] 45%|████▌     | 168356/371472 [2:19:22<16:25:22,  3.44it/s] 45%|████▌     | 168357/371472 [2:19:23<16:41:07,  3.38it/s] 45%|████▌     | 168358/371472 [2:19:23<16:27:33,  3.43it/s] 45%|████▌     | 168359/371472 [2:19:23<16:08:54,  3.49it/s] 45%|████▌     | 168360/371472 [2:19:24<17:07:54,  3.29it/s]                                                            {'loss': 3.1439, 'learning_rate': 5.923635501734577e-07, 'epoch': 7.25}
 45%|████▌     | 168360/371472 [2:19:24<17:07:54,  3.29it/s] 45%|████▌     | 168361/371472 [2:19:24<17:03:07,  3.31it/s] 45%|████▌     | 168362/371472 [2:19:24<16:04:10,  3.51it/s] 45%|████▌     | 168363/371472 [2:19:24<15:48:40,  3.57it/s] 45%|████▌     | 168364/371472 [2:19:25<19:10:01,  2.94it/s] 45%|████▌     | 168365/371472 [2:19:25<18:59:45,  2.97it/s] 45%|████▌     | 168366/371472 [2:19:26<18:05:15,  3.12it/s] 45%|████▌     | 168367/371472 [2:19:26<17:39:23,  3.20it/s] 45%|████▌     | 168368/371472 [2:19:26<17:18:58,  3.26it/s] 45%|████▌     | 168369/371472 [2:19:26<17:03:14,  3.31it/s] 45%|████▌     | 168370/371472 [2:19:27<16:43:49,  3.37it/s] 45%|████▌     | 168371/371472 [2:19:27<15:59:09,  3.53it/s] 45%|████▌     | 168372/371472 [2:19:27<15:55:03,  3.54it/s] 45%|████▌     | 168373/371472 [2:19:28<16:41:03,  3.38it/s] 45%|████▌     | 168374/371472 [2:19:28<16:43:47,  3.37it/s] 45%|████▌     | 168375/371472 [2:19:28<16:24:16,  3.44it/s] 45%|████▌     | 168376/371472 [2:19:28<16:08:13,  3.50it/s] 45%|████▌     | 168377/371472 [2:19:29<15:26:05,  3.66it/s] 45%|████▌     | 168378/371472 [2:19:29<15:24:05,  3.66it/s] 45%|████▌     | 168379/371472 [2:19:29<15:16:58,  3.69it/s] 45%|████▌     | 168380/371472 [2:19:30<15:39:11,  3.60it/s]                                                            {'loss': 3.1678, 'learning_rate': 5.923150681979789e-07, 'epoch': 7.25}
 45%|████▌     | 168380/371472 [2:19:30<15:39:11,  3.60it/s] 45%|████▌     | 168381/371472 [2:19:30<17:03:50,  3.31it/s] 45%|████▌     | 168382/371472 [2:19:30<16:24:41,  3.44it/s] 45%|████▌     | 168383/371472 [2:19:30<15:47:14,  3.57it/s] 45%|████▌     | 168384/371472 [2:19:31<16:52:35,  3.34it/s] 45%|████▌     | 168385/371472 [2:19:31<17:42:59,  3.18it/s] 45%|████▌     | 168386/371472 [2:19:31<18:40:16,  3.02it/s] 45%|████▌     | 168387/371472 [2:19:32<17:59:52,  3.13it/s] 45%|████▌     | 168388/371472 [2:19:32<17:04:50,  3.30it/s] 45%|████▌     | 168389/371472 [2:19:32<16:45:46,  3.37it/s] 45%|████▌     | 168390/371472 [2:19:33<16:03:31,  3.51it/s] 45%|████▌     | 168391/371472 [2:19:33<16:20:24,  3.45it/s] 45%|████▌     | 168392/371472 [2:19:33<15:55:27,  3.54it/s] 45%|████▌     | 168393/371472 [2:19:33<16:31:36,  3.41it/s] 45%|████▌     | 168394/371472 [2:19:34<17:30:09,  3.22it/s] 45%|████▌     | 168395/371472 [2:19:34<16:20:46,  3.45it/s] 45%|████▌     | 168396/371472 [2:19:34<17:08:34,  3.29it/s] 45%|████▌     | 168397/371472 [2:19:35<16:58:36,  3.32it/s] 45%|████▌     | 168398/371472 [2:19:35<16:29:30,  3.42it/s] 45%|████▌     | 168399/371472 [2:19:35<16:15:40,  3.47it/s] 45%|████▌     | 168400/371472 [2:19:35<15:48:15,  3.57it/s]                                                            {'loss': 3.1055, 'learning_rate': 5.922665862224999e-07, 'epoch': 7.25}
 45%|████▌     | 168400/371472 [2:19:35<15:48:15,  3.57it/s] 45%|████▌     | 168401/371472 [2:19:36<17:52:34,  3.16it/s] 45%|████▌     | 168402/371472 [2:19:36<17:10:20,  3.28it/s] 45%|████▌     | 168403/371472 [2:19:37<18:13:52,  3.09it/s] 45%|████▌     | 168404/371472 [2:19:37<17:39:48,  3.19it/s] 45%|████▌     | 168405/371472 [2:19:37<17:04:13,  3.30it/s] 45%|████▌     | 168406/371472 [2:19:37<16:59:57,  3.32it/s] 45%|████▌     | 168407/371472 [2:19:38<16:51:40,  3.35it/s] 45%|████▌     | 168408/371472 [2:19:38<16:42:01,  3.38it/s] 45%|████▌     | 168409/371472 [2:19:38<15:50:43,  3.56it/s] 45%|████▌     | 168410/371472 [2:19:39<16:11:19,  3.48it/s] 45%|████▌     | 168411/371472 [2:19:39<16:00:57,  3.52it/s] 45%|████▌     | 168412/371472 [2:19:39<15:42:17,  3.59it/s] 45%|████▌     | 168413/371472 [2:19:39<15:13:38,  3.70it/s] 45%|████▌     | 168414/371472 [2:19:40<14:56:36,  3.77it/s] 45%|████▌     | 168415/371472 [2:19:40<15:50:12,  3.56it/s] 45%|████▌     | 168416/371472 [2:19:40<15:56:05,  3.54it/s] 45%|████▌     | 168417/371472 [2:19:40<15:16:43,  3.69it/s] 45%|████▌     | 168418/371472 [2:19:41<15:05:51,  3.74it/s] 45%|████▌     | 168419/371472 [2:19:41<14:43:04,  3.83it/s] 45%|████▌     | 168420/371472 [2:19:41<16:07:57,  3.50it/s]                                                            {'loss': 3.096, 'learning_rate': 5.92218104247021e-07, 'epoch': 7.25}
 45%|████▌     | 168420/371472 [2:19:41<16:07:57,  3.50it/s] 45%|████▌     | 168421/371472 [2:19:42<16:55:53,  3.33it/s] 45%|████▌     | 168422/371472 [2:19:42<16:03:17,  3.51it/s] 45%|████▌     | 168423/371472 [2:19:42<16:01:01,  3.52it/s] 45%|████▌     | 168424/371472 [2:19:42<15:52:33,  3.55it/s] 45%|████▌     | 168425/371472 [2:19:43<15:57:06,  3.54it/s] 45%|████▌     | 168426/371472 [2:19:43<15:58:24,  3.53it/s] 45%|████▌     | 168427/371472 [2:19:43<15:43:18,  3.59it/s] 45%|████▌     | 168428/371472 [2:19:44<15:27:32,  3.65it/s] 45%|████▌     | 168429/371472 [2:19:44<15:30:25,  3.64it/s] 45%|████▌     | 168430/371472 [2:19:44<15:11:44,  3.71it/s] 45%|████▌     | 168431/371472 [2:19:44<15:58:13,  3.53it/s] 45%|████▌     | 168432/371472 [2:19:45<15:49:09,  3.57it/s] 45%|████▌     | 168433/371472 [2:19:45<15:56:34,  3.54it/s] 45%|████▌     | 168434/371472 [2:19:45<15:40:40,  3.60it/s] 45%|████▌     | 168435/371472 [2:19:46<16:29:19,  3.42it/s] 45%|████▌     | 168436/371472 [2:19:46<16:37:54,  3.39it/s] 45%|████▌     | 168437/371472 [2:19:46<16:51:51,  3.34it/s] 45%|████▌     | 168438/371472 [2:19:46<16:26:12,  3.43it/s] 45%|████▌     | 168439/371472 [2:19:47<16:57:48,  3.32it/s] 45%|████▌     | 168440/371472 [2:19:47<16:25:21,  3.43it/s]                                                            {'loss': 3.1297, 'learning_rate': 5.921696222715422e-07, 'epoch': 7.26}
 45%|████▌     | 168440/371472 [2:19:47<16:25:21,  3.43it/s] 45%|████▌     | 168441/371472 [2:19:47<18:01:40,  3.13it/s] 45%|████▌     | 168442/371472 [2:19:48<17:51:47,  3.16it/s] 45%|████▌     | 168443/371472 [2:19:48<18:19:54,  3.08it/s] 45%|████▌     | 168444/371472 [2:19:48<17:05:33,  3.30it/s] 45%|████▌     | 168445/371472 [2:19:49<16:07:22,  3.50it/s] 45%|████▌     | 168446/371472 [2:19:49<15:32:38,  3.63it/s] 45%|████▌     | 168447/371472 [2:19:49<15:49:54,  3.56it/s] 45%|████▌     | 168448/371472 [2:19:49<15:34:48,  3.62it/s] 45%|████▌     | 168449/371472 [2:19:50<15:41:55,  3.59it/s] 45%|████▌     | 168450/371472 [2:19:50<15:49:56,  3.56it/s] 45%|████▌     | 168451/371472 [2:19:50<16:43:53,  3.37it/s] 45%|████▌     | 168452/371472 [2:19:50<16:12:58,  3.48it/s] 45%|████▌     | 168453/371472 [2:19:51<16:10:27,  3.49it/s] 45%|████▌     | 168454/371472 [2:19:51<16:04:28,  3.51it/s] 45%|████▌     | 168455/371472 [2:19:51<15:48:55,  3.57it/s] 45%|████▌     | 168456/371472 [2:19:52<16:53:49,  3.34it/s] 45%|████▌     | 168457/371472 [2:19:52<16:44:17,  3.37it/s] 45%|████▌     | 168458/371472 [2:19:52<16:36:32,  3.40it/s] 45%|████▌     | 168459/371472 [2:19:53<16:00:00,  3.52it/s] 45%|████▌     | 168460/371472 [2:19:53<15:47:04,  3.57it/s]                                                            {'loss': 3.1654, 'learning_rate': 5.921211402960633e-07, 'epoch': 7.26}
 45%|████▌     | 168460/371472 [2:19:53<15:47:04,  3.57it/s] 45%|████▌     | 168461/371472 [2:19:53<15:30:11,  3.64it/s] 45%|████▌     | 168462/371472 [2:19:53<15:30:10,  3.64it/s] 45%|████▌     | 168463/371472 [2:19:54<15:33:04,  3.63it/s] 45%|████▌     | 168464/371472 [2:19:54<15:05:55,  3.73it/s] 45%|████▌     | 168465/371472 [2:19:54<14:39:44,  3.85it/s] 45%|████▌     | 168466/371472 [2:19:54<16:23:10,  3.44it/s] 45%|████▌     | 168467/371472 [2:19:55<16:40:02,  3.38it/s] 45%|████▌     | 168468/371472 [2:19:55<16:10:05,  3.49it/s] 45%|████▌     | 168469/371472 [2:19:55<15:42:16,  3.59it/s] 45%|████▌     | 168470/371472 [2:19:56<16:29:14,  3.42it/s] 45%|████▌     | 168471/371472 [2:19:56<15:52:02,  3.55it/s] 45%|████▌     | 168472/371472 [2:19:56<15:52:20,  3.55it/s] 45%|████▌     | 168473/371472 [2:19:56<15:40:49,  3.60it/s] 45%|████▌     | 168474/371472 [2:19:57<16:50:48,  3.35it/s] 45%|████▌     | 168475/371472 [2:19:57<15:55:52,  3.54it/s] 45%|████▌     | 168476/371472 [2:19:57<15:41:00,  3.60it/s] 45%|████▌     | 168477/371472 [2:19:58<16:28:17,  3.42it/s] 45%|████▌     | 168478/371472 [2:19:58<16:40:23,  3.38it/s] 45%|████▌     | 168479/371472 [2:19:58<16:37:57,  3.39it/s] 45%|████▌     | 168480/371472 [2:19:58<16:13:55,  3.47it/s]                                                            {'loss': 3.1322, 'learning_rate': 5.920726583205843e-07, 'epoch': 7.26}
 45%|████▌     | 168480/371472 [2:19:58<16:13:55,  3.47it/s] 45%|████▌     | 168481/371472 [2:19:59<16:11:47,  3.48it/s] 45%|████▌     | 168482/371472 [2:19:59<16:27:20,  3.43it/s] 45%|████▌     | 168483/371472 [2:19:59<16:01:20,  3.52it/s] 45%|████▌     | 168484/371472 [2:20:00<15:42:35,  3.59it/s] 45%|████▌     | 168485/371472 [2:20:00<15:43:57,  3.58it/s] 45%|████▌     | 168486/371472 [2:20:00<15:31:31,  3.63it/s] 45%|████▌     | 168487/371472 [2:20:00<15:48:16,  3.57it/s] 45%|████▌     | 168488/371472 [2:20:01<15:21:52,  3.67it/s] 45%|████▌     | 168489/371472 [2:20:01<16:48:48,  3.35it/s] 45%|████▌     | 168490/371472 [2:20:01<16:45:49,  3.36it/s] 45%|████▌     | 168491/371472 [2:20:02<16:08:59,  3.49it/s] 45%|████▌     | 168492/371472 [2:20:02<15:59:08,  3.53it/s] 45%|████▌     | 168493/371472 [2:20:02<15:55:45,  3.54it/s] 45%|████▌     | 168494/371472 [2:20:02<15:35:37,  3.62it/s] 45%|████▌     | 168495/371472 [2:20:03<16:33:43,  3.40it/s] 45%|████▌     | 168496/371472 [2:20:03<16:13:05,  3.48it/s] 45%|████▌     | 168497/371472 [2:20:03<16:55:36,  3.33it/s] 45%|████▌     | 168498/371472 [2:20:04<16:44:04,  3.37it/s] 45%|████▌     | 168499/371472 [2:20:04<16:59:24,  3.32it/s] 45%|████▌     | 168500/371472 [2:20:04<16:34:56,  3.40it/s]                                                            {'loss': 3.0329, 'learning_rate': 5.920241763451054e-07, 'epoch': 7.26}
 45%|████▌     | 168500/371472 [2:20:04<16:34:56,  3.40it/s] 45%|████▌     | 168501/371472 [2:20:04<16:01:36,  3.52it/s] 45%|████▌     | 168502/371472 [2:20:05<15:29:00,  3.64it/s] 45%|████▌     | 168503/371472 [2:20:05<16:48:43,  3.35it/s] 45%|████▌     | 168504/371472 [2:20:05<16:22:22,  3.44it/s] 45%|████▌     | 168505/371472 [2:20:06<16:04:26,  3.51it/s] 45%|████▌     | 168506/371472 [2:20:06<15:52:04,  3.55it/s] 45%|████▌     | 168507/371472 [2:20:06<15:43:30,  3.59it/s] 45%|████▌     | 168508/371472 [2:20:06<15:18:10,  3.68it/s] 45%|████▌     | 168509/371472 [2:20:07<15:34:55,  3.62it/s] 45%|████▌     | 168510/371472 [2:20:07<15:13:51,  3.70it/s] 45%|████▌     | 168511/371472 [2:20:07<15:09:03,  3.72it/s] 45%|████▌     | 168512/371472 [2:20:08<15:38:32,  3.60it/s] 45%|████▌     | 168513/371472 [2:20:08<17:28:51,  3.23it/s] 45%|████▌     | 168514/371472 [2:20:08<16:43:35,  3.37it/s] 45%|████▌     | 168515/371472 [2:20:08<16:31:25,  3.41it/s] 45%|████▌     | 168516/371472 [2:20:09<16:11:33,  3.48it/s] 45%|████▌     | 168517/371472 [2:20:09<17:13:13,  3.27it/s] 45%|████▌     | 168518/371472 [2:20:09<16:33:46,  3.40it/s] 45%|████▌     | 168519/371472 [2:20:10<15:48:03,  3.57it/s] 45%|████▌     | 168520/371472 [2:20:10<15:21:03,  3.67it/s]                                                            {'loss': 3.0093, 'learning_rate': 5.919756943696266e-07, 'epoch': 7.26}
 45%|████▌     | 168520/371472 [2:20:10<15:21:03,  3.67it/s] 45%|████▌     | 168521/371472 [2:20:10<15:16:40,  3.69it/s] 45%|████▌     | 168522/371472 [2:20:10<15:21:15,  3.67it/s] 45%|████▌     | 168523/371472 [2:20:11<15:19:01,  3.68it/s] 45%|████▌     | 168524/371472 [2:20:11<16:11:28,  3.48it/s] 45%|████▌     | 168525/371472 [2:20:11<15:36:15,  3.61it/s] 45%|████▌     | 168526/371472 [2:20:12<15:33:58,  3.62it/s] 45%|████▌     | 168527/371472 [2:20:12<15:29:57,  3.64it/s] 45%|████▌     | 168528/371472 [2:20:12<16:49:29,  3.35it/s] 45%|████▌     | 168529/371472 [2:20:12<16:01:40,  3.52it/s] 45%|████▌     | 168530/371472 [2:20:13<16:25:59,  3.43it/s] 45%|████▌     | 168531/371472 [2:20:13<15:44:59,  3.58it/s] 45%|████▌     | 168532/371472 [2:20:13<15:18:10,  3.68it/s] 45%|████▌     | 168533/371472 [2:20:14<15:47:47,  3.57it/s] 45%|████▌     | 168534/371472 [2:20:14<15:36:42,  3.61it/s] 45%|████▌     | 168535/371472 [2:20:14<16:34:06,  3.40it/s] 45%|████▌     | 168536/371472 [2:20:14<15:50:49,  3.56it/s] 45%|████▌     | 168537/371472 [2:20:15<15:44:07,  3.58it/s] 45%|████▌     | 168538/371472 [2:20:15<15:54:16,  3.54it/s] 45%|████▌     | 168539/371472 [2:20:15<15:53:17,  3.55it/s] 45%|████▌     | 168540/371472 [2:20:15<15:23:54,  3.66it/s]                                                            {'loss': 3.0409, 'learning_rate': 5.919272123941478e-07, 'epoch': 7.26}
 45%|████▌     | 168540/371472 [2:20:15<15:23:54,  3.66it/s] 45%|████▌     | 168541/371472 [2:20:16<16:20:05,  3.45it/s] 45%|████▌     | 168542/371472 [2:20:16<16:20:09,  3.45it/s] 45%|████▌     | 168543/371472 [2:20:16<16:54:17,  3.33it/s] 45%|████▌     | 168544/371472 [2:20:17<16:55:56,  3.33it/s] 45%|████▌     | 168545/371472 [2:20:17<16:12:14,  3.48it/s] 45%|████▌     | 168546/371472 [2:20:17<16:06:35,  3.50it/s] 45%|████▌     | 168547/371472 [2:20:18<17:14:56,  3.27it/s] 45%|████▌     | 168548/371472 [2:20:18<16:36:38,  3.39it/s] 45%|████▌     | 168549/371472 [2:20:18<16:18:32,  3.46it/s] 45%|████▌     | 168550/371472 [2:20:18<15:50:34,  3.56it/s] 45%|████▌     | 168551/371472 [2:20:19<16:09:40,  3.49it/s] 45%|████▌     | 168552/371472 [2:20:19<16:41:07,  3.38it/s] 45%|████▌     | 168553/371472 [2:20:19<16:02:25,  3.51it/s] 45%|████▌     | 168554/371472 [2:20:20<15:41:45,  3.59it/s] 45%|████▌     | 168555/371472 [2:20:20<16:01:15,  3.52it/s] 45%|████▌     | 168556/371472 [2:20:20<15:45:02,  3.58it/s] 45%|████▌     | 168557/371472 [2:20:20<16:00:57,  3.52it/s] 45%|████▌     | 168558/371472 [2:20:21<15:55:09,  3.54it/s] 45%|████▌     | 168559/371472 [2:20:21<15:20:33,  3.67it/s] 45%|████▌     | 168560/371472 [2:20:21<15:49:00,  3.56it/s]                                                            {'loss': 2.9547, 'learning_rate': 5.918787304186687e-07, 'epoch': 7.26}
 45%|████▌     | 168560/371472 [2:20:21<15:49:00,  3.56it/s] 45%|████▌     | 168561/371472 [2:20:22<16:50:21,  3.35it/s] 45%|████▌     | 168562/371472 [2:20:22<16:34:13,  3.40it/s] 45%|████▌     | 168563/371472 [2:20:22<16:47:24,  3.36it/s] 45%|████▌     | 168564/371472 [2:20:23<17:30:48,  3.22it/s] 45%|████▌     | 168565/371472 [2:20:23<16:25:40,  3.43it/s] 45%|████▌     | 168566/371472 [2:20:23<15:50:42,  3.56it/s] 45%|████▌     | 168567/371472 [2:20:23<15:21:29,  3.67it/s] 45%|████▌     | 168568/371472 [2:20:24<15:20:14,  3.67it/s] 45%|████▌     | 168569/371472 [2:20:24<15:30:02,  3.64it/s] 45%|████▌     | 168570/371472 [2:20:24<16:41:36,  3.38it/s] 45%|████▌     | 168571/371472 [2:20:24<16:36:09,  3.39it/s] 45%|████▌     | 168572/371472 [2:20:25<15:47:22,  3.57it/s] 45%|████▌     | 168573/371472 [2:20:25<15:12:27,  3.71it/s] 45%|████▌     | 168574/371472 [2:20:25<15:07:49,  3.72it/s] 45%|████▌     | 168575/371472 [2:20:26<15:11:16,  3.71it/s] 45%|████▌     | 168576/371472 [2:20:26<14:55:34,  3.78it/s] 45%|████▌     | 168577/371472 [2:20:26<15:09:00,  3.72it/s] 45%|████▌     | 168578/371472 [2:20:26<15:18:07,  3.68it/s] 45%|████▌     | 168579/371472 [2:20:27<15:19:26,  3.68it/s] 45%|████▌     | 168580/371472 [2:20:27<15:37:27,  3.61it/s]                                                            {'loss': 3.1188, 'learning_rate': 5.918302484431899e-07, 'epoch': 7.26}
 45%|████▌     | 168580/371472 [2:20:27<15:37:27,  3.61it/s] 45%|████▌     | 168581/371472 [2:20:27<15:36:06,  3.61it/s] 45%|████▌     | 168582/371472 [2:20:28<17:25:08,  3.24it/s] 45%|████▌     | 168583/371472 [2:20:28<17:01:27,  3.31it/s] 45%|████▌     | 168584/371472 [2:20:28<16:16:34,  3.46it/s] 45%|████▌     | 168585/371472 [2:20:28<16:45:15,  3.36it/s] 45%|████▌     | 168586/371472 [2:20:29<16:24:20,  3.44it/s] 45%|████▌     | 168587/371472 [2:20:29<16:24:07,  3.44it/s] 45%|████▌     | 168588/371472 [2:20:29<15:54:36,  3.54it/s] 45%|████▌     | 168589/371472 [2:20:30<16:34:02,  3.40it/s] 45%|████▌     | 168590/371472 [2:20:30<16:11:49,  3.48it/s] 45%|████▌     | 168591/371472 [2:20:30<16:22:17,  3.44it/s] 45%|████▌     | 168592/371472 [2:20:30<15:40:31,  3.60it/s] 45%|████▌     | 168593/371472 [2:20:31<15:49:11,  3.56it/s] 45%|████▌     | 168594/371472 [2:20:31<15:15:39,  3.69it/s] 45%|████▌     | 168595/371472 [2:20:31<16:25:50,  3.43it/s] 45%|████▌     | 168596/371472 [2:20:32<16:22:27,  3.44it/s] 45%|████▌     | 168597/371472 [2:20:32<16:38:01,  3.39it/s] 45%|████▌     | 168598/371472 [2:20:32<16:07:26,  3.50it/s] 45%|████▌     | 168599/371472 [2:20:32<16:41:04,  3.38it/s] 45%|████▌     | 168600/371472 [2:20:33<16:48:04,  3.35it/s]                                                            {'loss': 3.1237, 'learning_rate': 5.91781766467711e-07, 'epoch': 7.26}
 45%|████▌     | 168600/371472 [2:20:33<16:48:04,  3.35it/s] 45%|████▌     | 168601/371472 [2:20:33<16:43:44,  3.37it/s] 45%|████▌     | 168602/371472 [2:20:33<16:05:28,  3.50it/s] 45%|████▌     | 168603/371472 [2:20:34<16:13:47,  3.47it/s] 45%|████▌     | 168604/371472 [2:20:34<16:42:59,  3.37it/s] 45%|████▌     | 168605/371472 [2:20:34<16:10:29,  3.48it/s] 45%|████▌     | 168606/371472 [2:20:34<16:41:34,  3.38it/s] 45%|████▌     | 168607/371472 [2:20:35<17:45:50,  3.17it/s] 45%|████▌     | 168608/371472 [2:20:35<17:22:47,  3.24it/s] 45%|████▌     | 168609/371472 [2:20:35<16:50:17,  3.35it/s] 45%|████▌     | 168610/371472 [2:20:36<16:23:32,  3.44it/s] 45%|████▌     | 168611/371472 [2:20:36<17:07:21,  3.29it/s] 45%|████▌     | 168612/371472 [2:20:36<16:52:01,  3.34it/s] 45%|████▌     | 168613/371472 [2:20:37<16:18:44,  3.45it/s] 45%|████▌     | 168614/371472 [2:20:37<16:36:23,  3.39it/s] 45%|████▌     | 168615/371472 [2:20:37<17:08:48,  3.29it/s] 45%|████▌     | 168616/371472 [2:20:37<16:40:08,  3.38it/s] 45%|████▌     | 168617/371472 [2:20:38<17:08:36,  3.29it/s] 45%|████▌     | 168618/371472 [2:20:38<16:21:37,  3.44it/s] 45%|████▌     | 168619/371472 [2:20:38<16:17:17,  3.46it/s] 45%|████▌     | 168620/371472 [2:20:39<15:52:45,  3.55it/s]                                                            {'loss': 3.136, 'learning_rate': 5.91733284492232e-07, 'epoch': 7.26}
 45%|████▌     | 168620/371472 [2:20:39<15:52:45,  3.55it/s] 45%|████▌     | 168621/371472 [2:20:39<15:54:22,  3.54it/s] 45%|████▌     | 168622/371472 [2:20:39<15:49:16,  3.56it/s] 45%|████▌     | 168623/371472 [2:20:39<16:07:57,  3.49it/s] 45%|████▌     | 168624/371472 [2:20:40<15:32:21,  3.63it/s] 45%|████▌     | 168625/371472 [2:20:40<14:55:21,  3.78it/s] 45%|████▌     | 168626/371472 [2:20:40<15:05:37,  3.73it/s] 45%|████▌     | 168627/371472 [2:20:40<14:40:58,  3.84it/s] 45%|████▌     | 168628/371472 [2:20:41<14:20:59,  3.93it/s] 45%|████▌     | 168629/371472 [2:20:41<14:33:59,  3.87it/s] 45%|████▌     | 168630/371472 [2:20:41<14:37:14,  3.85it/s] 45%|████▌     | 168631/371472 [2:20:41<14:22:58,  3.92it/s] 45%|████▌     | 168632/371472 [2:20:42<14:43:01,  3.83it/s] 45%|████▌     | 168633/371472 [2:20:42<14:39:16,  3.84it/s] 45%|████▌     | 168634/371472 [2:20:42<14:56:04,  3.77it/s] 45%|████▌     | 168635/371472 [2:20:43<15:24:06,  3.66it/s] 45%|████▌     | 168636/371472 [2:20:43<15:49:59,  3.56it/s] 45%|████▌     | 168637/371472 [2:20:43<16:31:01,  3.41it/s] 45%|████▌     | 168638/371472 [2:20:44<17:49:07,  3.16it/s] 45%|████▌     | 168639/371472 [2:20:44<16:45:43,  3.36it/s] 45%|████▌     | 168640/371472 [2:20:44<16:21:23,  3.44it/s]                                                            {'loss': 3.1625, 'learning_rate': 5.916848025167531e-07, 'epoch': 7.26}
 45%|████▌     | 168640/371472 [2:20:44<16:21:23,  3.44it/s] 45%|████▌     | 168641/371472 [2:20:44<15:46:10,  3.57it/s] 45%|████▌     | 168642/371472 [2:20:45<16:14:12,  3.47it/s] 45%|████▌     | 168643/371472 [2:20:45<15:40:33,  3.59it/s] 45%|████▌     | 168644/371472 [2:20:45<16:23:28,  3.44it/s] 45%|████▌     | 168645/371472 [2:20:46<16:20:02,  3.45it/s] 45%|████▌     | 168646/371472 [2:20:46<15:58:42,  3.53it/s] 45%|████▌     | 168647/371472 [2:20:46<15:38:51,  3.60it/s] 45%|████▌     | 168648/371472 [2:20:46<15:28:05,  3.64it/s] 45%|████▌     | 168649/371472 [2:20:47<15:42:12,  3.59it/s] 45%|████▌     | 168650/371472 [2:20:47<16:32:56,  3.40it/s] 45%|████▌     | 168651/371472 [2:20:47<15:58:06,  3.53it/s] 45%|████▌     | 168652/371472 [2:20:47<15:19:22,  3.68it/s] 45%|████▌     | 168653/371472 [2:20:48<15:32:41,  3.62it/s] 45%|████▌     | 168654/371472 [2:20:48<16:09:55,  3.49it/s] 45%|████▌     | 168655/371472 [2:20:48<16:13:37,  3.47it/s] 45%|████▌     | 168656/371472 [2:20:49<16:39:51,  3.38it/s] 45%|████▌     | 168657/371472 [2:20:49<16:20:13,  3.45it/s] 45%|████▌     | 168658/371472 [2:20:49<15:47:19,  3.57it/s] 45%|████▌     | 168659/371472 [2:20:50<16:33:18,  3.40it/s] 45%|████▌     | 168660/371472 [2:20:50<18:18:57,  3.08it/s]                                                            {'loss': 3.1438, 'learning_rate': 5.916363205412743e-07, 'epoch': 7.26}
 45%|████▌     | 168660/371472 [2:20:50<18:18:57,  3.08it/s] 45%|████▌     | 168661/371472 [2:20:50<17:07:01,  3.29it/s] 45%|████▌     | 168662/371472 [2:20:50<16:51:55,  3.34it/s] 45%|████▌     | 168663/371472 [2:20:51<16:22:41,  3.44it/s] 45%|████▌     | 168664/371472 [2:20:51<17:42:08,  3.18it/s] 45%|████▌     | 168665/371472 [2:20:51<16:50:55,  3.34it/s] 45%|████▌     | 168666/371472 [2:20:52<16:06:40,  3.50it/s] 45%|████▌     | 168667/371472 [2:20:52<16:22:22,  3.44it/s] 45%|████▌     | 168668/371472 [2:20:52<16:11:54,  3.48it/s] 45%|████▌     | 168669/371472 [2:20:52<15:50:54,  3.55it/s] 45%|████▌     | 168670/371472 [2:20:53<15:33:26,  3.62it/s] 45%|████▌     | 168671/371472 [2:20:53<16:15:11,  3.47it/s] 45%|████▌     | 168672/371472 [2:20:53<15:59:14,  3.52it/s] 45%|████▌     | 168673/371472 [2:20:54<15:58:52,  3.52it/s] 45%|████▌     | 168674/371472 [2:20:54<15:28:47,  3.64it/s] 45%|████▌     | 168675/371472 [2:20:54<15:49:39,  3.56it/s] 45%|████▌     | 168676/371472 [2:20:54<16:14:44,  3.47it/s] 45%|████▌     | 168677/371472 [2:20:55<15:54:46,  3.54it/s] 45%|████▌     | 168678/371472 [2:20:55<15:52:34,  3.55it/s] 45%|████▌     | 168679/371472 [2:20:55<15:40:34,  3.59it/s] 45%|████▌     | 168680/371472 [2:20:56<15:38:07,  3.60it/s]                                                            {'loss': 3.1476, 'learning_rate': 5.915878385657955e-07, 'epoch': 7.27}
 45%|████▌     | 168680/371472 [2:20:56<15:38:07,  3.60it/s] 45%|████▌     | 168681/371472 [2:20:56<15:20:27,  3.67it/s] 45%|████▌     | 168682/371472 [2:20:56<15:55:37,  3.54it/s] 45%|████▌     | 168683/371472 [2:20:56<15:25:42,  3.65it/s] 45%|████▌     | 168684/371472 [2:20:57<16:31:45,  3.41it/s] 45%|████▌     | 168685/371472 [2:20:57<16:19:34,  3.45it/s] 45%|████▌     | 168686/371472 [2:20:57<16:26:38,  3.43it/s] 45%|████▌     | 168687/371472 [2:20:58<17:20:26,  3.25it/s] 45%|████▌     | 168688/371472 [2:20:58<17:04:47,  3.30it/s] 45%|████▌     | 168689/371472 [2:20:58<16:34:43,  3.40it/s] 45%|████▌     | 168690/371472 [2:20:58<16:17:15,  3.46it/s] 45%|████▌     | 168691/371472 [2:20:59<16:06:35,  3.50it/s] 45%|████▌     | 168692/371472 [2:20:59<16:14:57,  3.47it/s] 45%|████▌     | 168693/371472 [2:20:59<15:29:23,  3.64it/s] 45%|████▌     | 168694/371472 [2:21:00<15:24:24,  3.66it/s] 45%|████▌     | 168695/371472 [2:21:00<15:16:08,  3.69it/s] 45%|████▌     | 168696/371472 [2:21:00<15:21:22,  3.67it/s] 45%|████▌     | 168697/371472 [2:21:00<15:09:52,  3.71it/s] 45%|████▌     | 168698/371472 [2:21:01<15:28:01,  3.64it/s] 45%|████▌     | 168699/371472 [2:21:01<16:08:19,  3.49it/s] 45%|████▌     | 168700/371472 [2:21:01<15:53:40,  3.54it/s]                                                            {'loss': 3.2225, 'learning_rate': 5.915393565903165e-07, 'epoch': 7.27}
 45%|████▌     | 168700/371472 [2:21:01<15:53:40,  3.54it/s] 45%|████▌     | 168701/371472 [2:21:02<15:44:06,  3.58it/s] 45%|████▌     | 168702/371472 [2:21:02<15:24:28,  3.66it/s] 45%|████▌     | 168703/371472 [2:21:02<14:49:19,  3.80it/s] 45%|████▌     | 168704/371472 [2:21:02<14:59:12,  3.76it/s] 45%|████▌     | 168705/371472 [2:21:03<15:39:06,  3.60it/s] 45%|████▌     | 168706/371472 [2:21:03<15:30:35,  3.63it/s] 45%|████▌     | 168707/371472 [2:21:03<15:00:01,  3.75it/s] 45%|████▌     | 168708/371472 [2:21:03<14:49:53,  3.80it/s] 45%|████▌     | 168709/371472 [2:21:04<15:17:16,  3.68it/s] 45%|████▌     | 168710/371472 [2:21:04<14:55:28,  3.77it/s] 45%|████▌     | 168711/371472 [2:21:04<15:52:50,  3.55it/s] 45%|████▌     | 168712/371472 [2:21:04<15:36:14,  3.61it/s] 45%|████▌     | 168713/371472 [2:21:05<15:17:13,  3.68it/s] 45%|████▌     | 168714/371472 [2:21:05<15:24:04,  3.66it/s] 45%|████▌     | 168715/371472 [2:21:05<15:26:28,  3.65it/s] 45%|████▌     | 168716/371472 [2:21:06<14:54:18,  3.78it/s] 45%|████▌     | 168717/371472 [2:21:06<15:41:43,  3.59it/s] 45%|████▌     | 168718/371472 [2:21:06<15:48:44,  3.56it/s] 45%|████▌     | 168719/371472 [2:21:06<15:49:04,  3.56it/s] 45%|████▌     | 168720/371472 [2:21:07<16:48:04,  3.35it/s]                                                            {'loss': 3.1056, 'learning_rate': 5.914908746148375e-07, 'epoch': 7.27}
 45%|████▌     | 168720/371472 [2:21:07<16:48:04,  3.35it/s] 45%|████▌     | 168721/371472 [2:21:07<15:59:35,  3.52it/s] 45%|████▌     | 168722/371472 [2:21:07<17:00:14,  3.31it/s] 45%|████▌     | 168723/371472 [2:21:08<17:07:30,  3.29it/s] 45%|████▌     | 168724/371472 [2:21:08<16:54:51,  3.33it/s] 45%|████▌     | 168725/371472 [2:21:08<16:15:27,  3.46it/s] 45%|████▌     | 168726/371472 [2:21:09<16:24:57,  3.43it/s] 45%|████▌     | 168727/371472 [2:21:09<15:54:21,  3.54it/s] 45%|████▌     | 168728/371472 [2:21:09<15:44:53,  3.58it/s] 45%|████▌     | 168729/371472 [2:21:09<16:09:28,  3.49it/s] 45%|████▌     | 168730/371472 [2:21:10<17:04:25,  3.30it/s] 45%|████▌     | 168731/371472 [2:21:10<16:27:18,  3.42it/s] 45%|████▌     | 168732/371472 [2:21:10<16:07:46,  3.49it/s] 45%|████▌     | 168733/371472 [2:21:10<15:36:20,  3.61it/s] 45%|████▌     | 168734/371472 [2:21:11<16:43:30,  3.37it/s] 45%|████▌     | 168735/371472 [2:21:11<16:24:52,  3.43it/s] 45%|████▌     | 168736/371472 [2:21:11<16:14:34,  3.47it/s] 45%|████▌     | 168737/371472 [2:21:12<16:14:54,  3.47it/s] 45%|████▌     | 168738/371472 [2:21:12<17:41:08,  3.18it/s] 45%|████▌     | 168739/371472 [2:21:12<17:17:49,  3.26it/s] 45%|████▌     | 168740/371472 [2:21:13<16:48:55,  3.35it/s]                                                            {'loss': 3.0623, 'learning_rate': 5.914423926393587e-07, 'epoch': 7.27}
 45%|████▌     | 168740/371472 [2:21:13<16:48:55,  3.35it/s] 45%|████▌     | 168741/371472 [2:21:13<17:35:22,  3.20it/s] 45%|████▌     | 168742/371472 [2:21:13<18:18:32,  3.08it/s] 45%|████▌     | 168743/371472 [2:21:14<17:20:07,  3.25it/s] 45%|████▌     | 168744/371472 [2:21:14<16:44:14,  3.36it/s] 45%|████▌     | 168745/371472 [2:21:14<16:19:00,  3.45it/s] 45%|████▌     | 168746/371472 [2:21:14<15:20:59,  3.67it/s] 45%|████▌     | 168747/371472 [2:21:15<15:34:23,  3.62it/s] 45%|████▌     | 168748/371472 [2:21:15<15:49:06,  3.56it/s] 45%|████▌     | 168749/371472 [2:21:15<15:24:26,  3.65it/s] 45%|████▌     | 168750/371472 [2:21:16<16:10:10,  3.48it/s] 45%|████▌     | 168751/371472 [2:21:16<17:05:36,  3.29it/s] 45%|████▌     | 168752/371472 [2:21:16<16:49:54,  3.35it/s] 45%|████▌     | 168753/371472 [2:21:16<17:02:10,  3.31it/s] 45%|████▌     | 168754/371472 [2:21:17<16:27:32,  3.42it/s] 45%|████▌     | 168755/371472 [2:21:17<15:40:03,  3.59it/s] 45%|████▌     | 168756/371472 [2:21:17<15:07:58,  3.72it/s] 45%|████▌     | 168757/371472 [2:21:17<15:11:53,  3.71it/s] 45%|████▌     | 168758/371472 [2:21:18<15:48:19,  3.56it/s] 45%|████▌     | 168759/371472 [2:21:18<16:04:45,  3.50it/s] 45%|████▌     | 168760/371472 [2:21:18<17:40:53,  3.18it/s]                                                            {'loss': 3.0699, 'learning_rate': 5.913939106638799e-07, 'epoch': 7.27}
 45%|████▌     | 168760/371472 [2:21:18<17:40:53,  3.18it/s] 45%|████▌     | 168761/371472 [2:21:19<17:27:40,  3.22it/s] 45%|████▌     | 168762/371472 [2:21:19<16:30:53,  3.41it/s] 45%|████▌     | 168763/371472 [2:21:19<16:21:17,  3.44it/s] 45%|████▌     | 168764/371472 [2:21:20<16:44:48,  3.36it/s] 45%|████▌     | 168765/371472 [2:21:20<16:31:17,  3.41it/s] 45%|████▌     | 168766/371472 [2:21:20<16:15:14,  3.46it/s] 45%|████▌     | 168767/371472 [2:21:21<16:36:13,  3.39it/s] 45%|████▌     | 168768/371472 [2:21:21<16:11:51,  3.48it/s] 45%|████▌     | 168769/371472 [2:21:21<15:40:28,  3.59it/s] 45%|████▌     | 168770/371472 [2:21:21<16:37:19,  3.39it/s] 45%|████▌     | 168771/371472 [2:21:22<18:33:31,  3.03it/s] 45%|████▌     | 168772/371472 [2:21:22<17:39:41,  3.19it/s] 45%|████▌     | 168773/371472 [2:21:22<17:29:28,  3.22it/s] 45%|████▌     | 168774/371472 [2:21:23<16:55:38,  3.33it/s] 45%|████▌     | 168775/371472 [2:21:23<16:43:10,  3.37it/s] 45%|████▌     | 168776/371472 [2:21:23<16:23:14,  3.44it/s] 45%|████▌     | 168777/371472 [2:21:23<16:10:54,  3.48it/s] 45%|████▌     | 168778/371472 [2:21:24<15:40:06,  3.59it/s] 45%|████▌     | 168779/371472 [2:21:24<15:47:31,  3.57it/s] 45%|████▌     | 168780/371472 [2:21:24<15:30:20,  3.63it/s]                                                            {'loss': 3.2177, 'learning_rate': 5.913454286884009e-07, 'epoch': 7.27}
 45%|████▌     | 168780/371472 [2:21:24<15:30:20,  3.63it/s] 45%|████▌     | 168781/371472 [2:21:25<15:33:00,  3.62it/s] 45%|████▌     | 168782/371472 [2:21:25<15:20:40,  3.67it/s] 45%|████▌     | 168783/371472 [2:21:25<16:29:25,  3.41it/s] 45%|████▌     | 168784/371472 [2:21:26<17:18:02,  3.25it/s] 45%|████▌     | 168785/371472 [2:21:26<16:58:40,  3.32it/s] 45%|████▌     | 168786/371472 [2:21:26<16:32:54,  3.40it/s] 45%|████▌     | 168787/371472 [2:21:26<15:58:10,  3.53it/s] 45%|████▌     | 168788/371472 [2:21:27<15:48:48,  3.56it/s] 45%|████▌     | 168789/371472 [2:21:27<15:46:09,  3.57it/s] 45%|████▌     | 168790/371472 [2:21:27<15:29:52,  3.63it/s] 45%|████▌     | 168791/371472 [2:21:27<15:59:20,  3.52it/s] 45%|████▌     | 168792/371472 [2:21:28<15:47:15,  3.57it/s] 45%|████▌     | 168793/371472 [2:21:28<15:29:56,  3.63it/s] 45%|████▌     | 168794/371472 [2:21:28<16:38:03,  3.38it/s] 45%|████▌     | 168795/371472 [2:21:29<15:40:59,  3.59it/s] 45%|████▌     | 168796/371472 [2:21:29<15:26:10,  3.65it/s] 45%|████▌     | 168797/371472 [2:21:29<15:58:46,  3.52it/s] 45%|████▌     | 168798/371472 [2:21:29<15:23:10,  3.66it/s] 45%|████▌     | 168799/371472 [2:21:30<15:29:22,  3.63it/s] 45%|████▌     | 168800/371472 [2:21:30<15:31:22,  3.63it/s]                                                            {'loss': 2.9916, 'learning_rate': 5.91296946712922e-07, 'epoch': 7.27}
 45%|████▌     | 168800/371472 [2:21:30<15:31:22,  3.63it/s] 45%|████▌     | 168801/371472 [2:21:30<15:52:41,  3.55it/s] 45%|████▌     | 168802/371472 [2:21:31<15:34:16,  3.62it/s] 45%|████▌     | 168803/371472 [2:21:31<16:17:33,  3.46it/s] 45%|████▌     | 168804/371472 [2:21:31<16:10:56,  3.48it/s] 45%|████▌     | 168805/371472 [2:21:31<15:35:50,  3.61it/s] 45%|████▌     | 168806/371472 [2:21:32<15:27:47,  3.64it/s] 45%|████▌     | 168807/371472 [2:21:32<15:01:45,  3.75it/s] 45%|████▌     | 168808/371472 [2:21:32<15:54:52,  3.54it/s] 45%|████▌     | 168809/371472 [2:21:32<15:53:03,  3.54it/s] 45%|████▌     | 168810/371472 [2:21:33<15:32:56,  3.62it/s] 45%|████▌     | 168811/371472 [2:21:33<15:33:42,  3.62it/s] 45%|████▌     | 168812/371472 [2:21:33<15:20:10,  3.67it/s] 45%|████▌     | 168813/371472 [2:21:34<14:51:12,  3.79it/s] 45%|████▌     | 168814/371472 [2:21:34<15:39:50,  3.59it/s] 45%|████▌     | 168815/371472 [2:21:34<15:05:32,  3.73it/s] 45%|████▌     | 168816/371472 [2:21:34<16:13:24,  3.47it/s] 45%|████▌     | 168817/371472 [2:21:35<16:47:29,  3.35it/s] 45%|████▌     | 168818/371472 [2:21:35<16:21:46,  3.44it/s] 45%|████▌     | 168819/371472 [2:21:35<15:32:51,  3.62it/s] 45%|████▌     | 168820/371472 [2:21:36<15:13:58,  3.70it/s]                                                            {'loss': 3.0838, 'learning_rate': 5.912484647374432e-07, 'epoch': 7.27}
 45%|████▌     | 168820/371472 [2:21:36<15:13:58,  3.70it/s] 45%|████▌     | 168821/371472 [2:21:36<15:09:25,  3.71it/s] 45%|████▌     | 168822/371472 [2:21:36<14:57:19,  3.76it/s] 45%|████▌     | 168823/371472 [2:21:36<14:52:43,  3.78it/s] 45%|████▌     | 168824/371472 [2:21:37<15:13:44,  3.70it/s] 45%|████▌     | 168825/371472 [2:21:37<15:20:46,  3.67it/s] 45%|████▌     | 168826/371472 [2:21:37<15:19:19,  3.67it/s] 45%|████▌     | 168827/371472 [2:21:37<15:30:45,  3.63it/s] 45%|████▌     | 168828/371472 [2:21:38<15:25:11,  3.65it/s] 45%|████▌     | 168829/371472 [2:21:38<15:30:48,  3.63it/s] 45%|████▌     | 168830/371472 [2:21:38<15:24:33,  3.65it/s] 45%|████▌     | 168831/371472 [2:21:39<15:48:50,  3.56it/s] 45%|████▌     | 168832/371472 [2:21:39<15:20:15,  3.67it/s] 45%|████▌     | 168833/371472 [2:21:39<14:54:08,  3.78it/s] 45%|████▌     | 168834/371472 [2:21:39<14:45:58,  3.81it/s] 45%|████▌     | 168835/371472 [2:21:40<15:04:39,  3.73it/s] 45%|████▌     | 168836/371472 [2:21:40<14:55:00,  3.77it/s] 45%|████▌     | 168837/371472 [2:21:40<15:23:24,  3.66it/s] 45%|████▌     | 168838/371472 [2:21:40<15:52:21,  3.55it/s] 45%|████▌     | 168839/371472 [2:21:41<16:15:25,  3.46it/s] 45%|████▌     | 168840/371472 [2:21:41<16:50:29,  3.34it/s]                                                            {'loss': 3.0043, 'learning_rate': 5.911999827619643e-07, 'epoch': 7.27}
 45%|████▌     | 168840/371472 [2:21:41<16:50:29,  3.34it/s] 45%|████▌     | 168841/371472 [2:21:41<16:40:27,  3.38it/s] 45%|████▌     | 168842/371472 [2:21:42<16:59:31,  3.31it/s] 45%|████▌     | 168843/371472 [2:21:42<16:24:38,  3.43it/s] 45%|████▌     | 168844/371472 [2:21:42<16:37:53,  3.38it/s] 45%|████▌     | 168845/371472 [2:21:43<16:23:35,  3.43it/s] 45%|████▌     | 168846/371472 [2:21:43<16:10:01,  3.48it/s] 45%|████▌     | 168847/371472 [2:21:43<16:15:08,  3.46it/s] 45%|████▌     | 168848/371472 [2:21:43<16:40:56,  3.37it/s] 45%|████▌     | 168849/371472 [2:21:44<16:13:59,  3.47it/s] 45%|████▌     | 168850/371472 [2:21:44<15:26:04,  3.65it/s] 45%|████▌     | 168851/371472 [2:21:44<15:22:19,  3.66it/s] 45%|████▌     | 168852/371472 [2:21:44<14:59:05,  3.76it/s] 45%|████▌     | 168853/371472 [2:21:45<16:00:14,  3.52it/s] 45%|████▌     | 168854/371472 [2:21:45<15:59:15,  3.52it/s] 45%|████▌     | 168855/371472 [2:21:45<16:49:36,  3.34it/s] 45%|████▌     | 168856/371472 [2:21:46<16:35:33,  3.39it/s] 45%|████▌     | 168857/371472 [2:21:46<17:20:07,  3.25it/s] 45%|████▌     | 168858/371472 [2:21:46<17:17:11,  3.26it/s] 45%|████▌     | 168859/371472 [2:21:47<16:24:37,  3.43it/s] 45%|████▌     | 168860/371472 [2:21:47<16:14:59,  3.46it/s]                                                            {'loss': 3.1043, 'learning_rate': 5.911515007864853e-07, 'epoch': 7.27}
 45%|████▌     | 168860/371472 [2:21:47<16:14:59,  3.46it/s] 45%|████▌     | 168861/371472 [2:21:47<16:14:57,  3.46it/s] 45%|████▌     | 168862/371472 [2:21:47<16:07:35,  3.49it/s] 45%|████▌     | 168863/371472 [2:21:48<18:24:18,  3.06it/s] 45%|████▌     | 168864/371472 [2:21:48<17:11:32,  3.27it/s] 45%|████▌     | 168865/371472 [2:21:48<16:57:10,  3.32it/s] 45%|████▌     | 168866/371472 [2:21:49<16:38:35,  3.38it/s] 45%|████▌     | 168867/371472 [2:21:49<16:03:25,  3.50it/s] 45%|████▌     | 168868/371472 [2:21:49<15:55:18,  3.53it/s] 45%|████▌     | 168869/371472 [2:21:49<15:50:09,  3.55it/s] 45%|████▌     | 168870/371472 [2:21:50<16:47:28,  3.35it/s] 45%|████▌     | 168871/371472 [2:21:50<16:22:03,  3.44it/s] 45%|████▌     | 168872/371472 [2:21:50<16:11:20,  3.48it/s] 45%|████▌     | 168873/371472 [2:21:51<16:11:47,  3.47it/s] 45%|████▌     | 168874/371472 [2:21:51<15:35:26,  3.61it/s] 45%|████▌     | 168875/371472 [2:21:51<15:05:47,  3.73it/s] 45%|████▌     | 168876/371472 [2:21:51<15:38:22,  3.60it/s] 45%|████▌     | 168877/371472 [2:21:52<15:21:21,  3.66it/s] 45%|████▌     | 168878/371472 [2:21:52<15:14:24,  3.69it/s] 45%|████▌     | 168879/371472 [2:21:52<16:04:40,  3.50it/s] 45%|████▌     | 168880/371472 [2:21:53<16:07:21,  3.49it/s]                                                            {'loss': 2.9323, 'learning_rate': 5.911030188110064e-07, 'epoch': 7.27}
 45%|████▌     | 168880/371472 [2:21:53<16:07:21,  3.49it/s] 45%|████▌     | 168881/371472 [2:21:53<16:07:13,  3.49it/s] 45%|████▌     | 168882/371472 [2:21:53<17:45:13,  3.17it/s] 45%|████▌     | 168883/371472 [2:21:54<17:06:40,  3.29it/s] 45%|████▌     | 168884/371472 [2:21:54<17:00:20,  3.31it/s] 45%|████▌     | 168885/371472 [2:21:54<16:09:45,  3.48it/s] 45%|████▌     | 168886/371472 [2:21:54<16:45:23,  3.36it/s] 45%|████▌     | 168887/371472 [2:21:55<16:44:15,  3.36it/s] 45%|████▌     | 168888/371472 [2:21:55<16:01:39,  3.51it/s] 45%|████▌     | 168889/371472 [2:21:55<15:28:24,  3.64it/s] 45%|████▌     | 168890/371472 [2:21:55<15:17:56,  3.68it/s] 45%|████▌     | 168891/371472 [2:21:56<15:10:55,  3.71it/s] 45%|████▌     | 168892/371472 [2:21:56<15:23:26,  3.66it/s] 45%|████▌     | 168893/371472 [2:21:56<15:05:25,  3.73it/s] 45%|████▌     | 168894/371472 [2:21:57<15:17:23,  3.68it/s] 45%|████▌     | 168895/371472 [2:21:57<16:40:30,  3.37it/s] 45%|████▌     | 168896/371472 [2:21:57<17:23:05,  3.24it/s] 45%|████▌     | 168897/371472 [2:21:58<16:33:41,  3.40it/s] 45%|████▌     | 168898/371472 [2:21:58<16:08:45,  3.49it/s] 45%|████▌     | 168899/371472 [2:21:58<16:38:59,  3.38it/s] 45%|████▌     | 168900/371472 [2:21:58<16:00:21,  3.52it/s]                                                            {'loss': 3.0774, 'learning_rate': 5.910545368355276e-07, 'epoch': 7.27}
 45%|████▌     | 168900/371472 [2:21:58<16:00:21,  3.52it/s] 45%|████▌     | 168901/371472 [2:21:59<15:37:38,  3.60it/s] 45%|████▌     | 168902/371472 [2:21:59<16:36:29,  3.39it/s] 45%|████▌     | 168903/371472 [2:21:59<17:47:18,  3.16it/s] 45%|████▌     | 168904/371472 [2:22:00<16:42:22,  3.37it/s] 45%|████▌     | 168905/371472 [2:22:00<15:56:11,  3.53it/s] 45%|████▌     | 168906/371472 [2:22:00<16:20:45,  3.44it/s] 45%|████▌     | 168907/371472 [2:22:00<15:58:00,  3.52it/s] 45%|████▌     | 168908/371472 [2:22:01<16:38:27,  3.38it/s] 45%|████▌     | 168909/371472 [2:22:01<16:20:31,  3.44it/s] 45%|████▌     | 168910/371472 [2:22:01<16:08:17,  3.49it/s] 45%|████▌     | 168911/371472 [2:22:02<15:59:58,  3.52it/s] 45%|████▌     | 168912/371472 [2:22:02<15:42:10,  3.58it/s] 45%|████▌     | 168913/371472 [2:22:02<15:11:51,  3.70it/s] 45%|████▌     | 168914/371472 [2:22:02<15:59:00,  3.52it/s] 45%|████▌     | 168915/371472 [2:22:03<15:32:11,  3.62it/s] 45%|████▌     | 168916/371472 [2:22:03<16:20:11,  3.44it/s] 45%|████▌     | 168917/371472 [2:22:03<15:54:08,  3.54it/s] 45%|████▌     | 168918/371472 [2:22:04<16:57:53,  3.32it/s] 45%|████▌     | 168919/371472 [2:22:04<16:29:09,  3.41it/s] 45%|████▌     | 168920/371472 [2:22:04<16:24:56,  3.43it/s]                                                            {'loss': 3.108, 'learning_rate': 5.910060548600487e-07, 'epoch': 7.28}
 45%|████▌     | 168920/371472 [2:22:04<16:24:56,  3.43it/s] 45%|████▌     | 168921/371472 [2:22:05<17:42:42,  3.18it/s] 45%|████▌     | 168922/371472 [2:22:05<16:59:21,  3.31it/s] 45%|████▌     | 168923/371472 [2:22:05<16:43:20,  3.36it/s] 45%|████▌     | 168924/371472 [2:22:05<15:58:33,  3.52it/s] 45%|████▌     | 168925/371472 [2:22:06<16:02:56,  3.51it/s] 45%|████▌     | 168926/371472 [2:22:06<15:51:04,  3.55it/s] 45%|████▌     | 168927/371472 [2:22:06<15:21:59,  3.66it/s] 45%|████▌     | 168928/371472 [2:22:06<15:09:32,  3.71it/s] 45%|████▌     | 168929/371472 [2:22:07<16:06:34,  3.49it/s] 45%|████▌     | 168930/371472 [2:22:07<15:43:05,  3.58it/s] 45%|████▌     | 168931/371472 [2:22:07<15:18:50,  3.67it/s] 45%|████▌     | 168932/371472 [2:22:08<15:33:30,  3.62it/s] 45%|████▌     | 168933/371472 [2:22:08<15:32:15,  3.62it/s] 45%|████▌     | 168934/371472 [2:22:08<15:02:29,  3.74it/s] 45%|████▌     | 168935/371472 [2:22:08<14:56:55,  3.76it/s] 45%|████▌     | 168936/371472 [2:22:09<15:09:32,  3.71it/s] 45%|████▌     | 168937/371472 [2:22:09<14:50:16,  3.79it/s] 45%|████▌     | 168938/371472 [2:22:09<15:04:35,  3.73it/s] 45%|████▌     | 168939/371472 [2:22:09<14:55:12,  3.77it/s] 45%|████▌     | 168940/371472 [2:22:10<16:20:12,  3.44it/s]                                                            {'loss': 3.1909, 'learning_rate': 5.909575728845698e-07, 'epoch': 7.28}
 45%|████▌     | 168940/371472 [2:22:10<16:20:12,  3.44it/s] 45%|████▌     | 168941/371472 [2:22:10<16:10:32,  3.48it/s] 45%|████▌     | 168942/371472 [2:22:10<16:16:47,  3.46it/s] 45%|████▌     | 168943/371472 [2:22:11<15:58:21,  3.52it/s] 45%|████▌     | 168944/371472 [2:22:11<15:40:37,  3.59it/s] 45%|████▌     | 168945/371472 [2:22:11<16:54:06,  3.33it/s] 45%|████▌     | 168946/371472 [2:22:11<16:58:20,  3.31it/s] 45%|████▌     | 168947/371472 [2:22:12<16:47:41,  3.35it/s] 45%|████▌     | 168948/371472 [2:22:12<16:22:51,  3.43it/s] 45%|████▌     | 168949/371472 [2:22:12<15:58:17,  3.52it/s] 45%|████▌     | 168950/371472 [2:22:13<15:20:57,  3.67it/s] 45%|████▌     | 168951/371472 [2:22:13<16:02:23,  3.51it/s] 45%|████▌     | 168952/371472 [2:22:13<15:41:50,  3.58it/s] 45%|████▌     | 168953/371472 [2:22:13<15:43:52,  3.58it/s] 45%|████▌     | 168954/371472 [2:22:14<15:41:17,  3.59it/s] 45%|████▌     | 168955/371472 [2:22:14<15:32:07,  3.62it/s] 45%|████▌     | 168956/371472 [2:22:14<15:06:06,  3.73it/s] 45%|████▌     | 168957/371472 [2:22:15<16:04:00,  3.50it/s] 45%|████▌     | 168958/371472 [2:22:15<16:15:08,  3.46it/s] 45%|████▌     | 168959/371472 [2:22:15<17:40:59,  3.18it/s] 45%|████▌     | 168960/371472 [2:22:16<17:56:53,  3.13it/s]                                                            {'loss': 3.0222, 'learning_rate': 5.909090909090909e-07, 'epoch': 7.28}
 45%|████▌     | 168960/371472 [2:22:16<17:56:53,  3.13it/s] 45%|████▌     | 168961/371472 [2:22:16<16:46:22,  3.35it/s] 45%|████▌     | 168962/371472 [2:22:16<17:01:21,  3.30it/s] 45%|████▌     | 168963/371472 [2:22:16<16:25:39,  3.42it/s] 45%|████▌     | 168964/371472 [2:22:17<15:49:49,  3.55it/s] 45%|████▌     | 168965/371472 [2:22:17<16:31:12,  3.41it/s] 45%|████▌     | 168966/371472 [2:22:17<15:57:43,  3.52it/s] 45%|████▌     | 168967/371472 [2:22:17<15:23:30,  3.65it/s] 45%|████▌     | 168968/371472 [2:22:18<15:33:11,  3.62it/s] 45%|████▌     | 168969/371472 [2:22:18<15:36:15,  3.60it/s] 45%|████▌     | 168970/371472 [2:22:18<15:54:05,  3.54it/s] 45%|████▌     | 168971/371472 [2:22:19<15:41:22,  3.59it/s] 45%|████▌     | 168972/371472 [2:22:19<15:03:47,  3.73it/s] 45%|████▌     | 168973/371472 [2:22:19<15:08:37,  3.71it/s] 45%|████▌     | 168974/371472 [2:22:19<15:41:43,  3.58it/s] 45%|████▌     | 168975/371472 [2:22:20<15:52:54,  3.54it/s] 45%|████▌     | 168976/371472 [2:22:20<15:37:43,  3.60it/s] 45%|████▌     | 168977/371472 [2:22:20<15:17:13,  3.68it/s] 45%|████▌     | 168978/371472 [2:22:20<14:56:51,  3.76it/s] 45%|████▌     | 168979/371472 [2:22:21<15:39:48,  3.59it/s] 45%|████▌     | 168980/371472 [2:22:21<15:56:27,  3.53it/s]                                                            {'loss': 3.0966, 'learning_rate': 5.90860608933612e-07, 'epoch': 7.28}
 45%|████▌     | 168980/371472 [2:22:21<15:56:27,  3.53it/s] 45%|████▌     | 168981/371472 [2:22:21<16:03:51,  3.50it/s] 45%|████▌     | 168982/371472 [2:22:22<15:37:10,  3.60it/s] 45%|████▌     | 168983/371472 [2:22:22<16:57:06,  3.32it/s] 45%|████▌     | 168984/371472 [2:22:22<16:39:09,  3.38it/s] 45%|████▌     | 168985/371472 [2:22:23<16:21:06,  3.44it/s] 45%|████▌     | 168986/371472 [2:22:23<17:25:56,  3.23it/s] 45%|████▌     | 168987/371472 [2:22:23<16:27:08,  3.42it/s] 45%|████▌     | 168988/371472 [2:22:24<17:21:50,  3.24it/s] 45%|████▌     | 168989/371472 [2:22:24<16:29:02,  3.41it/s] 45%|████▌     | 168990/371472 [2:22:24<16:53:18,  3.33it/s] 45%|████▌     | 168991/371472 [2:22:24<16:36:03,  3.39it/s] 45%|████▌     | 168992/371472 [2:22:25<16:26:53,  3.42it/s] 45%|████▌     | 168993/371472 [2:22:25<16:09:42,  3.48it/s] 45%|████▌     | 168994/371472 [2:22:25<15:47:49,  3.56it/s] 45%|████▌     | 168995/371472 [2:22:25<16:01:55,  3.51it/s] 45%|████▌     | 168996/371472 [2:22:26<15:57:30,  3.52it/s] 45%|████▌     | 168997/371472 [2:22:26<15:33:17,  3.62it/s] 45%|████▌     | 168998/371472 [2:22:26<16:11:38,  3.47it/s] 45%|████▌     | 168999/371472 [2:22:27<16:20:04,  3.44it/s] 45%|████▌     | 169000/371472 [2:22:27<16:28:09,  3.41it/s]                                                            {'loss': 3.2037, 'learning_rate': 5.908121269581331e-07, 'epoch': 7.28}
 45%|████▌     | 169000/371472 [2:22:27<16:28:09,  3.41it/s] 45%|████▌     | 169001/371472 [2:22:27<16:45:34,  3.36it/s] 45%|████▌     | 169002/371472 [2:22:28<16:43:39,  3.36it/s] 45%|████▌     | 169003/371472 [2:22:28<16:12:13,  3.47it/s] 45%|████▌     | 169004/371472 [2:22:28<15:40:32,  3.59it/s] 45%|████▌     | 169005/371472 [2:22:28<16:09:30,  3.48it/s] 45%|████▌     | 169006/371472 [2:22:29<17:16:12,  3.26it/s] 45%|████▌     | 169007/371472 [2:22:29<17:34:45,  3.20it/s] 45%|████▌     | 169008/371472 [2:22:29<17:03:00,  3.30it/s] 45%|████▌     | 169009/371472 [2:22:30<16:24:19,  3.43it/s] 45%|████▌     | 169010/371472 [2:22:30<16:04:29,  3.50it/s] 45%|████▌     | 169011/371472 [2:22:30<16:10:41,  3.48it/s] 45%|████▌     | 169012/371472 [2:22:30<16:21:47,  3.44it/s] 45%|████▌     | 169013/371472 [2:22:31<15:43:28,  3.58it/s] 45%|████▌     | 169014/371472 [2:22:31<15:40:02,  3.59it/s] 45%|████▌     | 169015/371472 [2:22:31<15:03:28,  3.73it/s] 45%|████▌     | 169016/371472 [2:22:31<14:55:27,  3.77it/s] 45%|████▌     | 169017/371472 [2:22:32<15:12:34,  3.70it/s] 45%|████▌     | 169018/371472 [2:22:32<16:08:11,  3.49it/s] 45%|████▌     | 169019/371472 [2:22:32<16:30:52,  3.41it/s] 46%|████▌     | 169020/371472 [2:22:33<15:57:12,  3.53it/s]                                                            {'loss': 3.2273, 'learning_rate': 5.907636449826542e-07, 'epoch': 7.28}
 46%|████▌     | 169020/371472 [2:22:33<15:57:12,  3.53it/s] 46%|████▌     | 169021/371472 [2:22:33<15:48:27,  3.56it/s] 46%|████▌     | 169022/371472 [2:22:33<15:42:03,  3.58it/s] 46%|████▌     | 169023/371472 [2:22:33<15:22:50,  3.66it/s] 46%|████▌     | 169024/371472 [2:22:34<15:29:56,  3.63it/s] 46%|████▌     | 169025/371472 [2:22:34<15:19:54,  3.67it/s] 46%|████▌     | 169026/371472 [2:22:34<15:52:20,  3.54it/s] 46%|████▌     | 169027/371472 [2:22:35<15:30:42,  3.63it/s] 46%|████▌     | 169028/371472 [2:22:35<15:13:55,  3.69it/s] 46%|████▌     | 169029/371472 [2:22:35<14:56:21,  3.76it/s] 46%|████▌     | 169030/371472 [2:22:35<16:00:03,  3.51it/s] 46%|████▌     | 169031/371472 [2:22:36<16:12:04,  3.47it/s] 46%|████▌     | 169032/371472 [2:22:36<16:52:06,  3.33it/s] 46%|████▌     | 169033/371472 [2:22:36<16:17:02,  3.45it/s] 46%|████▌     | 169034/371472 [2:22:37<15:54:39,  3.53it/s] 46%|████▌     | 169035/371472 [2:22:37<15:56:59,  3.53it/s] 46%|████▌     | 169036/371472 [2:22:37<15:34:49,  3.61it/s] 46%|████▌     | 169037/371472 [2:22:37<15:35:44,  3.61it/s] 46%|████▌     | 169038/371472 [2:22:38<16:59:19,  3.31it/s] 46%|████▌     | 169039/371472 [2:22:38<16:33:01,  3.40it/s] 46%|████▌     | 169040/371472 [2:22:38<16:53:07,  3.33it/s]                                                            {'loss': 3.0408, 'learning_rate': 5.907151630071753e-07, 'epoch': 7.28}
 46%|████▌     | 169040/371472 [2:22:38<16:53:07,  3.33it/s] 46%|████▌     | 169041/371472 [2:22:39<16:16:38,  3.45it/s] 46%|████▌     | 169042/371472 [2:22:39<17:00:11,  3.31it/s] 46%|████▌     | 169043/371472 [2:22:39<16:32:34,  3.40it/s] 46%|████▌     | 169044/371472 [2:22:40<16:25:55,  3.42it/s] 46%|████▌     | 169045/371472 [2:22:40<16:19:10,  3.45it/s] 46%|████▌     | 169046/371472 [2:22:40<15:53:20,  3.54it/s] 46%|████▌     | 169047/371472 [2:22:40<15:59:12,  3.52it/s] 46%|████▌     | 169048/371472 [2:22:41<17:02:37,  3.30it/s] 46%|████▌     | 169049/371472 [2:22:41<17:18:28,  3.25it/s] 46%|████▌     | 169050/371472 [2:22:41<17:19:55,  3.24it/s] 46%|████▌     | 169051/371472 [2:22:42<17:13:11,  3.27it/s] 46%|████▌     | 169052/371472 [2:22:42<16:29:51,  3.41it/s] 46%|████▌     | 169053/371472 [2:22:42<16:35:13,  3.39it/s] 46%|████▌     | 169054/371472 [2:22:42<15:55:02,  3.53it/s] 46%|████▌     | 169055/371472 [2:22:43<16:00:12,  3.51it/s] 46%|████▌     | 169056/371472 [2:22:43<15:44:19,  3.57it/s] 46%|████▌     | 169057/371472 [2:22:43<16:58:08,  3.31it/s] 46%|████▌     | 169058/371472 [2:22:44<16:21:03,  3.44it/s] 46%|████▌     | 169059/371472 [2:22:44<16:19:27,  3.44it/s] 46%|████▌     | 169060/371472 [2:22:44<16:59:00,  3.31it/s]                                                            {'loss': 2.9534, 'learning_rate': 5.906666810316965e-07, 'epoch': 7.28}
 46%|████▌     | 169060/371472 [2:22:44<16:59:00,  3.31it/s] 46%|████▌     | 169061/371472 [2:22:45<16:36:17,  3.39it/s] 46%|████▌     | 169062/371472 [2:22:45<16:20:19,  3.44it/s] 46%|████▌     | 169063/371472 [2:22:45<16:01:17,  3.51it/s] 46%|████▌     | 169064/371472 [2:22:45<15:42:13,  3.58it/s] 46%|████▌     | 169065/371472 [2:22:46<16:32:25,  3.40it/s] 46%|████▌     | 169066/371472 [2:22:46<16:05:34,  3.49it/s] 46%|████▌     | 169067/371472 [2:22:46<15:42:14,  3.58it/s] 46%|████▌     | 169068/371472 [2:22:46<15:31:50,  3.62it/s] 46%|████▌     | 169069/371472 [2:22:47<16:03:38,  3.50it/s] 46%|████▌     | 169070/371472 [2:22:47<16:50:40,  3.34it/s] 46%|████▌     | 169071/371472 [2:22:47<17:16:58,  3.25it/s] 46%|████▌     | 169072/371472 [2:22:48<16:55:03,  3.32it/s] 46%|████▌     | 169073/371472 [2:22:48<16:15:46,  3.46it/s] 46%|████▌     | 169074/371472 [2:22:48<16:06:28,  3.49it/s] 46%|████▌     | 169075/371472 [2:22:49<15:28:37,  3.63it/s] 46%|████▌     | 169076/371472 [2:22:49<16:37:23,  3.38it/s] 46%|████▌     | 169077/371472 [2:22:49<15:58:19,  3.52it/s] 46%|████▌     | 169078/371472 [2:22:49<16:49:57,  3.34it/s] 46%|████▌     | 169079/371472 [2:22:50<16:39:09,  3.38it/s] 46%|████▌     | 169080/371472 [2:22:50<16:28:27,  3.41it/s]                                                            {'loss': 3.2396, 'learning_rate': 5.906181990562176e-07, 'epoch': 7.28}
 46%|████▌     | 169080/371472 [2:22:50<16:28:27,  3.41it/s] 46%|████▌     | 169081/371472 [2:22:50<16:04:18,  3.50it/s] 46%|████▌     | 169082/371472 [2:22:51<16:41:12,  3.37it/s] 46%|████▌     | 169083/371472 [2:22:51<15:48:38,  3.56it/s] 46%|████▌     | 169084/371472 [2:22:51<15:33:17,  3.61it/s] 46%|████▌     | 169085/371472 [2:22:51<16:06:17,  3.49it/s] 46%|████▌     | 169086/371472 [2:22:52<17:24:09,  3.23it/s] 46%|████▌     | 169087/371472 [2:22:52<17:07:15,  3.28it/s] 46%|████▌     | 169088/371472 [2:22:52<16:56:10,  3.32it/s] 46%|████▌     | 169089/371472 [2:22:53<16:52:34,  3.33it/s] 46%|████▌     | 169090/371472 [2:22:53<16:09:04,  3.48it/s] 46%|████▌     | 169091/371472 [2:22:53<16:07:38,  3.49it/s] 46%|████▌     | 169092/371472 [2:22:53<15:43:53,  3.57it/s] 46%|████▌     | 169093/371472 [2:22:54<16:46:16,  3.35it/s] 46%|████▌     | 169094/371472 [2:22:54<16:38:02,  3.38it/s] 46%|████▌     | 169095/371472 [2:22:54<16:32:56,  3.40it/s] 46%|████▌     | 169096/371472 [2:22:55<16:20:31,  3.44it/s] 46%|████▌     | 169097/371472 [2:22:55<15:45:41,  3.57it/s] 46%|████▌     | 169098/371472 [2:22:55<15:40:32,  3.59it/s] 46%|████▌     | 169099/371472 [2:22:56<15:42:38,  3.58it/s] 46%|████▌     | 169100/371472 [2:22:56<16:58:26,  3.31it/s]                                                            {'loss': 2.9714, 'learning_rate': 5.905697170807385e-07, 'epoch': 7.28}
 46%|████▌     | 169100/371472 [2:22:56<16:58:26,  3.31it/s] 46%|████▌     | 169101/371472 [2:22:56<16:21:52,  3.44it/s] 46%|████▌     | 169102/371472 [2:22:56<15:45:37,  3.57it/s] 46%|████▌     | 169103/371472 [2:22:57<15:23:51,  3.65it/s] 46%|████▌     | 169104/371472 [2:22:57<15:59:10,  3.52it/s] 46%|████▌     | 169105/371472 [2:22:57<15:56:19,  3.53it/s] 46%|████▌     | 169106/371472 [2:22:58<16:28:03,  3.41it/s] 46%|████▌     | 169107/371472 [2:22:58<16:17:09,  3.45it/s] 46%|████▌     | 169108/371472 [2:22:58<16:34:48,  3.39it/s] 46%|████▌     | 169109/371472 [2:22:58<16:05:47,  3.49it/s] 46%|████▌     | 169110/371472 [2:22:59<16:25:54,  3.42it/s] 46%|████▌     | 169111/371472 [2:22:59<16:15:01,  3.46it/s] 46%|████▌     | 169112/371472 [2:22:59<15:48:13,  3.56it/s] 46%|████▌     | 169113/371472 [2:23:00<16:19:00,  3.44it/s] 46%|████▌     | 169114/371472 [2:23:00<15:56:37,  3.53it/s] 46%|████▌     | 169115/371472 [2:23:00<16:29:41,  3.41it/s] 46%|████▌     | 169116/371472 [2:23:00<15:51:46,  3.54it/s] 46%|████▌     | 169117/371472 [2:23:01<15:46:40,  3.56it/s] 46%|████▌     | 169118/371472 [2:23:01<16:49:10,  3.34it/s] 46%|████▌     | 169119/371472 [2:23:01<16:58:19,  3.31it/s] 46%|████▌     | 169120/371472 [2:23:02<16:58:04,  3.31it/s]                                                            {'loss': 2.894, 'learning_rate': 5.905212351052597e-07, 'epoch': 7.28}
 46%|████▌     | 169120/371472 [2:23:02<16:58:04,  3.31it/s] 46%|████▌     | 169121/371472 [2:23:02<16:54:07,  3.33it/s] 46%|████▌     | 169122/371472 [2:23:02<16:30:19,  3.41it/s] 46%|████▌     | 169123/371472 [2:23:03<17:42:47,  3.17it/s] 46%|████▌     | 169124/371472 [2:23:03<17:31:23,  3.21it/s] 46%|████▌     | 169125/371472 [2:23:03<16:30:40,  3.40it/s] 46%|████▌     | 169126/371472 [2:23:03<16:07:21,  3.49it/s] 46%|████▌     | 169127/371472 [2:23:04<15:37:38,  3.60it/s] 46%|████▌     | 169128/371472 [2:23:04<15:42:02,  3.58it/s] 46%|████▌     | 169129/371472 [2:23:04<15:24:16,  3.65it/s] 46%|████▌     | 169130/371472 [2:23:05<17:04:53,  3.29it/s] 46%|████▌     | 169131/371472 [2:23:05<16:31:59,  3.40it/s] 46%|████▌     | 169132/371472 [2:23:05<16:01:56,  3.51it/s] 46%|████▌     | 169133/371472 [2:23:05<15:44:15,  3.57it/s] 46%|████▌     | 169134/371472 [2:23:06<16:42:33,  3.36it/s] 46%|████▌     | 169135/371472 [2:23:06<16:08:26,  3.48it/s] 46%|████▌     | 169136/371472 [2:23:06<16:58:19,  3.31it/s] 46%|████▌     | 169137/371472 [2:23:07<16:15:30,  3.46it/s] 46%|████▌     | 169138/371472 [2:23:07<16:23:53,  3.43it/s] 46%|████▌     | 169139/371472 [2:23:07<16:23:08,  3.43it/s] 46%|████▌     | 169140/371472 [2:23:07<16:31:14,  3.40it/s]                                                            {'loss': 3.1136, 'learning_rate': 5.904727531297809e-07, 'epoch': 7.29}
 46%|████▌     | 169140/371472 [2:23:07<16:31:14,  3.40it/s] 46%|████▌     | 169141/371472 [2:23:08<15:59:34,  3.51it/s] 46%|████▌     | 169142/371472 [2:23:08<15:45:47,  3.57it/s] 46%|████▌     | 169143/371472 [2:23:08<16:20:06,  3.44it/s] 46%|████▌     | 169144/371472 [2:23:09<16:21:27,  3.44it/s] 46%|████▌     | 169145/371472 [2:23:09<17:24:59,  3.23it/s] 46%|████▌     | 169146/371472 [2:23:09<16:47:28,  3.35it/s] 46%|████▌     | 169147/371472 [2:23:10<17:15:47,  3.26it/s] 46%|████▌     | 169148/371472 [2:23:10<17:12:07,  3.27it/s] 46%|████▌     | 169149/371472 [2:23:10<16:42:30,  3.36it/s] 46%|████▌     | 169150/371472 [2:23:10<16:21:06,  3.44it/s] 46%|████▌     | 169151/371472 [2:23:11<16:08:47,  3.48it/s] 46%|████▌     | 169152/371472 [2:23:11<15:55:41,  3.53it/s] 46%|████▌     | 169153/371472 [2:23:11<15:39:38,  3.59it/s] 46%|████▌     | 169154/371472 [2:23:12<17:46:40,  3.16it/s] 46%|████▌     | 169155/371472 [2:23:12<17:34:27,  3.20it/s] 46%|████▌     | 169156/371472 [2:23:12<16:24:43,  3.42it/s] 46%|████▌     | 169157/371472 [2:23:12<16:06:04,  3.49it/s] 46%|████▌     | 169158/371472 [2:23:13<16:27:44,  3.41it/s] 46%|████▌     | 169159/371472 [2:23:13<15:54:23,  3.53it/s] 46%|████▌     | 169160/371472 [2:23:13<15:28:40,  3.63it/s]                                                            {'loss': 3.0379, 'learning_rate': 5.904242711543019e-07, 'epoch': 7.29}
 46%|████▌     | 169160/371472 [2:23:13<15:28:40,  3.63it/s] 46%|████▌     | 169161/371472 [2:23:14<15:59:53,  3.51it/s] 46%|████▌     | 169162/371472 [2:23:14<15:52:32,  3.54it/s] 46%|████▌     | 169163/371472 [2:23:14<15:12:56,  3.69it/s] 46%|████▌     | 169164/371472 [2:23:14<14:54:04,  3.77it/s] 46%|████▌     | 169165/371472 [2:23:15<15:07:53,  3.71it/s] 46%|████▌     | 169166/371472 [2:23:15<15:01:18,  3.74it/s] 46%|████▌     | 169167/371472 [2:23:15<15:03:50,  3.73it/s] 46%|████▌     | 169168/371472 [2:23:16<16:14:34,  3.46it/s] 46%|████▌     | 169169/371472 [2:23:16<15:55:54,  3.53it/s] 46%|████▌     | 169170/371472 [2:23:16<15:39:45,  3.59it/s] 46%|████▌     | 169171/371472 [2:23:16<15:20:04,  3.66it/s] 46%|████▌     | 169172/371472 [2:23:17<14:48:35,  3.79it/s] 46%|████▌     | 169173/371472 [2:23:17<15:18:47,  3.67it/s] 46%|████▌     | 169174/371472 [2:23:17<15:07:03,  3.72it/s] 46%|████▌     | 169175/371472 [2:23:17<15:04:24,  3.73it/s] 46%|████▌     | 169176/371472 [2:23:18<15:31:01,  3.62it/s] 46%|████▌     | 169177/371472 [2:23:18<15:09:32,  3.71it/s] 46%|████▌     | 169178/371472 [2:23:18<17:01:19,  3.30it/s] 46%|████▌     | 169179/371472 [2:23:19<16:01:54,  3.51it/s] 46%|████▌     | 169180/371472 [2:23:19<16:20:37,  3.44it/s]                                                            {'loss': 3.0635, 'learning_rate': 5.90375789178823e-07, 'epoch': 7.29}
 46%|████▌     | 169180/371472 [2:23:19<16:20:37,  3.44it/s] 46%|████▌     | 169181/371472 [2:23:19<15:32:03,  3.62it/s] 46%|████▌     | 169182/371472 [2:23:19<15:12:30,  3.69it/s] 46%|████▌     | 169183/371472 [2:23:20<15:34:23,  3.61it/s] 46%|████▌     | 169184/371472 [2:23:20<15:15:23,  3.68it/s] 46%|████▌     | 169185/371472 [2:23:20<16:26:41,  3.42it/s] 46%|████▌     | 169186/371472 [2:23:20<15:38:18,  3.59it/s] 46%|████▌     | 169187/371472 [2:23:21<15:32:53,  3.61it/s] 46%|████▌     | 169188/371472 [2:23:21<15:18:54,  3.67it/s] 46%|████▌     | 169189/371472 [2:23:21<14:59:54,  3.75it/s] 46%|████▌     | 169190/371472 [2:23:22<14:53:01,  3.78it/s] 46%|████▌     | 169191/371472 [2:23:22<15:01:56,  3.74it/s] 46%|████▌     | 169192/371472 [2:23:22<14:59:10,  3.75it/s] 46%|████▌     | 169193/371472 [2:23:22<14:44:11,  3.81it/s] 46%|████▌     | 169194/371472 [2:23:23<14:46:22,  3.80it/s] 46%|████▌     | 169195/371472 [2:23:23<15:37:28,  3.60it/s] 46%|████▌     | 169196/371472 [2:23:23<15:34:23,  3.61it/s] 46%|████▌     | 169197/371472 [2:23:23<16:04:56,  3.49it/s] 46%|████▌     | 169198/371472 [2:23:24<15:54:04,  3.53it/s] 46%|████▌     | 169199/371472 [2:23:24<16:01:41,  3.51it/s] 46%|████▌     | 169200/371472 [2:23:24<16:02:46,  3.50it/s]                                                            {'loss': 2.9471, 'learning_rate': 5.903273072033443e-07, 'epoch': 7.29}
 46%|████▌     | 169200/371472 [2:23:24<16:02:46,  3.50it/s] 46%|████▌     | 169201/371472 [2:23:25<15:49:31,  3.55it/s] 46%|████▌     | 169202/371472 [2:23:25<15:45:41,  3.56it/s] 46%|████▌     | 169203/371472 [2:23:25<15:23:25,  3.65it/s] 46%|████▌     | 169204/371472 [2:23:25<15:40:11,  3.59it/s] 46%|████▌     | 169205/371472 [2:23:26<15:18:29,  3.67it/s] 46%|████▌     | 169206/371472 [2:23:26<15:54:49,  3.53it/s] 46%|████▌     | 169207/371472 [2:23:26<16:14:10,  3.46it/s] 46%|████▌     | 169208/371472 [2:23:27<15:26:50,  3.64it/s] 46%|████▌     | 169209/371472 [2:23:27<15:42:17,  3.58it/s] 46%|████▌     | 169210/371472 [2:23:27<15:27:55,  3.63it/s] 46%|████▌     | 169211/371472 [2:23:27<15:53:42,  3.53it/s] 46%|████▌     | 169212/371472 [2:23:28<16:37:22,  3.38it/s] 46%|████▌     | 169213/371472 [2:23:28<15:51:27,  3.54it/s] 46%|████▌     | 169214/371472 [2:23:28<15:43:15,  3.57it/s] 46%|████▌     | 169215/371472 [2:23:29<15:33:21,  3.61it/s] 46%|████▌     | 169216/371472 [2:23:29<16:53:35,  3.33it/s] 46%|████▌     | 169217/371472 [2:23:29<17:15:18,  3.26it/s] 46%|████▌     | 169218/371472 [2:23:30<17:04:52,  3.29it/s] 46%|████▌     | 169219/371472 [2:23:30<16:06:37,  3.49it/s] 46%|████▌     | 169220/371472 [2:23:30<16:03:18,  3.50it/s]                                                            {'loss': 3.1026, 'learning_rate': 5.902788252278652e-07, 'epoch': 7.29}
 46%|████▌     | 169220/371472 [2:23:30<16:03:18,  3.50it/s] 46%|████▌     | 169221/371472 [2:23:30<15:37:17,  3.60it/s] 46%|████▌     | 169222/371472 [2:23:31<15:22:33,  3.65it/s] 46%|████▌     | 169223/371472 [2:23:31<16:21:25,  3.43it/s] 46%|████▌     | 169224/371472 [2:23:31<16:17:58,  3.45it/s] 46%|████▌     | 169225/371472 [2:23:31<16:14:19,  3.46it/s] 46%|████▌     | 169226/371472 [2:23:32<15:46:22,  3.56it/s] 46%|████▌     | 169227/371472 [2:23:32<16:21:32,  3.43it/s] 46%|████▌     | 169228/371472 [2:23:32<16:18:47,  3.44it/s] 46%|████▌     | 169229/371472 [2:23:33<15:55:24,  3.53it/s] 46%|████▌     | 169230/371472 [2:23:33<16:09:06,  3.48it/s] 46%|████▌     | 169231/371472 [2:23:33<16:37:36,  3.38it/s] 46%|████▌     | 169232/371472 [2:23:33<16:11:00,  3.47it/s] 46%|████▌     | 169233/371472 [2:23:34<17:25:47,  3.22it/s] 46%|████▌     | 169234/371472 [2:23:34<17:02:14,  3.30it/s] 46%|████▌     | 169235/371472 [2:23:34<17:32:03,  3.20it/s] 46%|████▌     | 169236/371472 [2:23:35<16:26:36,  3.42it/s] 46%|████▌     | 169237/371472 [2:23:35<15:59:18,  3.51it/s] 46%|████▌     | 169238/371472 [2:23:35<17:20:37,  3.24it/s] 46%|████▌     | 169239/371472 [2:23:36<19:14:44,  2.92it/s] 46%|████▌     | 169240/371472 [2:23:36<18:03:51,  3.11it/s]                                                            {'loss': 3.148, 'learning_rate': 5.902303432523863e-07, 'epoch': 7.29}
 46%|████▌     | 169240/371472 [2:23:36<18:03:51,  3.11it/s] 46%|████▌     | 169241/371472 [2:23:36<17:10:44,  3.27it/s] 46%|████▌     | 169242/371472 [2:23:37<16:46:35,  3.35it/s] 46%|████▌     | 169243/371472 [2:23:37<16:24:59,  3.42it/s] 46%|████▌     | 169244/371472 [2:23:37<15:45:50,  3.56it/s] 46%|████▌     | 169245/371472 [2:23:37<15:55:14,  3.53it/s] 46%|████▌     | 169246/371472 [2:23:38<16:24:47,  3.42it/s] 46%|████▌     | 169247/371472 [2:23:38<16:24:09,  3.42it/s] 46%|████▌     | 169248/371472 [2:23:38<15:49:30,  3.55it/s] 46%|████▌     | 169249/371472 [2:23:39<15:54:20,  3.53it/s] 46%|████▌     | 169250/371472 [2:23:39<17:26:30,  3.22it/s] 46%|████▌     | 169251/371472 [2:23:39<17:33:57,  3.20it/s] 46%|████▌     | 169252/371472 [2:23:40<17:29:02,  3.21it/s] 46%|████▌     | 169253/371472 [2:23:40<16:48:50,  3.34it/s] 46%|████▌     | 169254/371472 [2:23:40<16:06:49,  3.49it/s] 46%|████▌     | 169255/371472 [2:23:40<15:45:10,  3.57it/s] 46%|████▌     | 169256/371472 [2:23:41<16:12:12,  3.47it/s] 46%|████▌     | 169257/371472 [2:23:41<15:55:59,  3.53it/s] 46%|████▌     | 169258/371472 [2:23:41<15:24:48,  3.64it/s] 46%|████▌     | 169259/371472 [2:23:41<15:32:16,  3.62it/s] 46%|████▌     | 169260/371472 [2:23:42<15:07:55,  3.71it/s]                                                            {'loss': 3.1422, 'learning_rate': 5.901818612769074e-07, 'epoch': 7.29}
 46%|████▌     | 169260/371472 [2:23:42<15:07:55,  3.71it/s] 46%|████▌     | 169261/371472 [2:23:42<16:47:20,  3.35it/s] 46%|████▌     | 169262/371472 [2:23:42<15:57:41,  3.52it/s] 46%|████▌     | 169263/371472 [2:23:43<16:17:25,  3.45it/s] 46%|████▌     | 169264/371472 [2:23:43<16:04:16,  3.50it/s] 46%|████▌     | 169265/371472 [2:23:43<15:51:18,  3.54it/s] 46%|████▌     | 169266/371472 [2:23:43<16:11:41,  3.47it/s] 46%|████▌     | 169267/371472 [2:23:44<16:33:59,  3.39it/s] 46%|████▌     | 169268/371472 [2:23:44<16:55:26,  3.32it/s] 46%|████▌     | 169269/371472 [2:23:44<16:42:30,  3.36it/s] 46%|████▌     | 169270/371472 [2:23:45<15:55:57,  3.53it/s] 46%|████▌     | 169271/371472 [2:23:45<15:43:09,  3.57it/s] 46%|████▌     | 169272/371472 [2:23:45<15:22:35,  3.65it/s] 46%|████▌     | 169273/371472 [2:23:45<15:46:13,  3.56it/s] 46%|████▌     | 169274/371472 [2:23:46<15:31:25,  3.62it/s] 46%|████▌     | 169275/371472 [2:23:46<14:54:47,  3.77it/s] 46%|████▌     | 169276/371472 [2:23:46<14:54:47,  3.77it/s] 46%|████▌     | 169277/371472 [2:23:47<14:41:57,  3.82it/s] 46%|████▌     | 169278/371472 [2:23:47<15:09:08,  3.71it/s] 46%|████▌     | 169279/371472 [2:23:47<15:54:32,  3.53it/s] 46%|████▌     | 169280/371472 [2:23:47<15:50:43,  3.54it/s]                                                            {'loss': 2.9885, 'learning_rate': 5.901333793014286e-07, 'epoch': 7.29}
 46%|████▌     | 169280/371472 [2:23:47<15:50:43,  3.54it/s] 46%|████▌     | 169281/371472 [2:23:48<16:02:15,  3.50it/s] 46%|████▌     | 169282/371472 [2:23:48<17:49:15,  3.15it/s] 46%|████▌     | 169283/371472 [2:23:48<16:57:49,  3.31it/s] 46%|████▌     | 169284/371472 [2:23:49<17:04:39,  3.29it/s] 46%|████▌     | 169285/371472 [2:23:49<17:01:04,  3.30it/s] 46%|████▌     | 169286/371472 [2:23:49<17:15:09,  3.26it/s] 46%|████▌     | 169287/371472 [2:23:50<17:59:59,  3.12it/s] 46%|████▌     | 169288/371472 [2:23:50<16:59:01,  3.31it/s] 46%|████▌     | 169289/371472 [2:23:50<16:37:56,  3.38it/s] 46%|████▌     | 169290/371472 [2:23:50<17:13:33,  3.26it/s] 46%|████▌     | 169291/371472 [2:23:51<16:42:49,  3.36it/s] 46%|████▌     | 169292/371472 [2:23:51<16:35:02,  3.39it/s] 46%|████▌     | 169293/371472 [2:23:51<16:38:41,  3.37it/s] 46%|████▌     | 169294/371472 [2:23:52<16:49:16,  3.34it/s] 46%|████▌     | 169295/371472 [2:23:52<16:24:50,  3.42it/s] 46%|████▌     | 169296/371472 [2:23:52<16:18:39,  3.44it/s] 46%|████▌     | 169297/371472 [2:23:52<15:53:56,  3.53it/s] 46%|████▌     | 169298/371472 [2:23:53<15:48:10,  3.55it/s] 46%|████▌     | 169299/371472 [2:23:53<15:30:57,  3.62it/s] 46%|████▌     | 169300/371472 [2:23:53<15:31:32,  3.62it/s]                                                            {'loss': 3.1942, 'learning_rate': 5.900848973259497e-07, 'epoch': 7.29}
 46%|████▌     | 169300/371472 [2:23:53<15:31:32,  3.62it/s] 46%|████▌     | 169301/371472 [2:23:54<15:52:09,  3.54it/s] 46%|████▌     | 169302/371472 [2:23:54<15:55:29,  3.53it/s] 46%|████▌     | 169303/371472 [2:23:54<16:20:54,  3.44it/s] 46%|████▌     | 169304/371472 [2:23:54<15:41:15,  3.58it/s] 46%|████▌     | 169305/371472 [2:23:55<15:33:30,  3.61it/s] 46%|████▌     | 169306/371472 [2:23:55<15:45:36,  3.56it/s] 46%|████▌     | 169307/371472 [2:23:55<15:31:56,  3.62it/s] 46%|████▌     | 169308/371472 [2:23:56<17:11:40,  3.27it/s] 46%|████▌     | 169309/371472 [2:23:56<16:36:40,  3.38it/s] 46%|████▌     | 169310/371472 [2:23:56<17:04:04,  3.29it/s] 46%|████▌     | 169311/371472 [2:23:57<16:36:30,  3.38it/s] 46%|████▌     | 169312/371472 [2:23:57<16:25:23,  3.42it/s] 46%|████▌     | 169313/371472 [2:23:57<18:06:23,  3.10it/s] 46%|████▌     | 169314/371472 [2:23:57<17:14:30,  3.26it/s] 46%|████▌     | 169315/371472 [2:23:58<16:32:32,  3.39it/s] 46%|████▌     | 169316/371472 [2:23:58<16:23:18,  3.43it/s] 46%|████▌     | 169317/371472 [2:23:58<16:32:07,  3.40it/s] 46%|████▌     | 169318/371472 [2:23:59<16:35:29,  3.38it/s] 46%|████▌     | 169319/371472 [2:23:59<16:10:57,  3.47it/s] 46%|████▌     | 169320/371472 [2:23:59<15:28:17,  3.63it/s]                                                            {'loss': 3.1303, 'learning_rate': 5.900364153504708e-07, 'epoch': 7.29}
 46%|████▌     | 169320/371472 [2:23:59<15:28:17,  3.63it/s] 46%|████▌     | 169321/371472 [2:23:59<15:07:34,  3.71it/s] 46%|████▌     | 169322/371472 [2:24:00<15:43:49,  3.57it/s] 46%|████▌     | 169323/371472 [2:24:00<15:18:12,  3.67it/s] 46%|████▌     | 169324/371472 [2:24:00<15:25:37,  3.64it/s] 46%|████▌     | 169325/371472 [2:24:01<15:36:42,  3.60it/s] 46%|████▌     | 169326/371472 [2:24:01<15:19:57,  3.66it/s] 46%|████▌     | 169327/371472 [2:24:01<15:55:33,  3.53it/s] 46%|████▌     | 169328/371472 [2:24:01<16:19:45,  3.44it/s] 46%|████▌     | 169329/371472 [2:24:02<15:55:15,  3.53it/s] 46%|████▌     | 169330/371472 [2:24:02<15:19:27,  3.66it/s] 46%|████▌     | 169331/371472 [2:24:02<15:20:11,  3.66it/s] 46%|████▌     | 169332/371472 [2:24:03<16:10:58,  3.47it/s] 46%|████▌     | 169333/371472 [2:24:03<15:34:35,  3.60it/s] 46%|████▌     | 169334/371472 [2:24:03<16:20:51,  3.43it/s] 46%|████▌     | 169335/371472 [2:24:03<16:23:56,  3.42it/s] 46%|████▌     | 169336/371472 [2:24:04<16:18:45,  3.44it/s] 46%|████▌     | 169337/371472 [2:24:04<15:28:22,  3.63it/s] 46%|████▌     | 169338/371472 [2:24:04<15:54:24,  3.53it/s] 46%|████▌     | 169339/371472 [2:24:05<15:54:25,  3.53it/s] 46%|████▌     | 169340/371472 [2:24:05<15:08:38,  3.71it/s]                                                            {'loss': 3.1023, 'learning_rate': 5.899879333749919e-07, 'epoch': 7.29}
 46%|████▌     | 169340/371472 [2:24:05<15:08:38,  3.71it/s] 46%|████▌     | 169341/371472 [2:24:05<15:02:27,  3.73it/s] 46%|████▌     | 169342/371472 [2:24:05<16:20:33,  3.44it/s] 46%|████▌     | 169343/371472 [2:24:06<15:55:36,  3.53it/s] 46%|████▌     | 169344/371472 [2:24:06<15:12:48,  3.69it/s] 46%|████▌     | 169345/371472 [2:24:06<14:49:37,  3.79it/s] 46%|████▌     | 169346/371472 [2:24:06<15:06:29,  3.72it/s] 46%|████▌     | 169347/371472 [2:24:07<14:50:56,  3.78it/s] 46%|████▌     | 169348/371472 [2:24:07<15:35:18,  3.60it/s] 46%|████▌     | 169349/371472 [2:24:07<15:24:37,  3.64it/s] 46%|████▌     | 169350/371472 [2:24:07<15:20:00,  3.66it/s] 46%|████▌     | 169351/371472 [2:24:08<14:45:24,  3.80it/s] 46%|████▌     | 169352/371472 [2:24:08<17:09:24,  3.27it/s] 46%|████▌     | 169353/371472 [2:24:08<17:43:05,  3.17it/s] 46%|████▌     | 169354/371472 [2:24:09<16:49:08,  3.34it/s] 46%|████▌     | 169355/371472 [2:24:09<16:21:50,  3.43it/s] 46%|████▌     | 169356/371472 [2:24:09<15:45:39,  3.56it/s] 46%|████▌     | 169357/371472 [2:24:09<15:05:08,  3.72it/s] 46%|████▌     | 169358/371472 [2:24:10<15:22:32,  3.65it/s] 46%|████▌     | 169359/371472 [2:24:10<16:04:06,  3.49it/s] 46%|████▌     | 169360/371472 [2:24:10<16:00:05,  3.51it/s]                                                            {'loss': 3.0777, 'learning_rate': 5.89939451399513e-07, 'epoch': 7.29}
 46%|████▌     | 169360/371472 [2:24:10<16:00:05,  3.51it/s] 46%|████▌     | 169361/371472 [2:24:11<16:13:11,  3.46it/s] 46%|████▌     | 169362/371472 [2:24:11<16:19:25,  3.44it/s] 46%|████▌     | 169363/371472 [2:24:11<16:30:38,  3.40it/s] 46%|████▌     | 169364/371472 [2:24:12<16:16:16,  3.45it/s] 46%|████▌     | 169365/371472 [2:24:12<16:53:56,  3.32it/s] 46%|████▌     | 169366/371472 [2:24:12<16:32:44,  3.39it/s] 46%|████▌     | 169367/371472 [2:24:12<16:07:33,  3.48it/s] 46%|████▌     | 169368/371472 [2:24:13<17:06:24,  3.28it/s] 46%|████▌     | 169369/371472 [2:24:13<16:10:51,  3.47it/s] 46%|████▌     | 169370/371472 [2:24:13<16:15:55,  3.45it/s] 46%|████▌     | 169371/371472 [2:24:14<16:20:58,  3.43it/s] 46%|████▌     | 169372/371472 [2:24:14<16:23:11,  3.43it/s] 46%|████▌     | 169373/371472 [2:24:14<16:25:58,  3.42it/s] 46%|████▌     | 169374/371472 [2:24:15<17:07:54,  3.28it/s] 46%|████▌     | 169375/371472 [2:24:15<16:42:27,  3.36it/s] 46%|████▌     | 169376/371472 [2:24:15<17:14:46,  3.26it/s] 46%|████▌     | 169377/371472 [2:24:15<17:50:02,  3.15it/s] 46%|████▌     | 169378/371472 [2:24:16<16:53:07,  3.32it/s] 46%|████▌     | 169379/371472 [2:24:16<17:27:00,  3.22it/s] 46%|████▌     | 169380/371472 [2:24:16<16:41:12,  3.36it/s]                                                            {'loss': 3.1251, 'learning_rate': 5.898909694240341e-07, 'epoch': 7.3}
 46%|████▌     | 169380/371472 [2:24:16<16:41:12,  3.36it/s] 46%|████▌     | 169381/371472 [2:24:17<15:50:44,  3.54it/s] 46%|████▌     | 169382/371472 [2:24:17<15:51:24,  3.54it/s] 46%|████▌     | 169383/371472 [2:24:17<16:37:33,  3.38it/s] 46%|████▌     | 169384/371472 [2:24:18<16:38:41,  3.37it/s] 46%|████▌     | 169385/371472 [2:24:18<16:07:42,  3.48it/s] 46%|████▌     | 169386/371472 [2:24:18<15:28:08,  3.63it/s] 46%|████▌     | 169387/371472 [2:24:18<15:29:24,  3.62it/s] 46%|████▌     | 169388/371472 [2:24:19<15:18:11,  3.67it/s] 46%|████▌     | 169389/371472 [2:24:19<15:47:12,  3.56it/s] 46%|████▌     | 169390/371472 [2:24:19<15:28:47,  3.63it/s] 46%|████▌     | 169391/371472 [2:24:19<15:26:43,  3.63it/s] 46%|████▌     | 169392/371472 [2:24:20<15:06:10,  3.72it/s] 46%|████▌     | 169393/371472 [2:24:20<15:23:51,  3.65it/s] 46%|████▌     | 169394/371472 [2:24:20<17:14:52,  3.25it/s] 46%|████▌     | 169395/371472 [2:24:21<16:27:36,  3.41it/s] 46%|████▌     | 169396/371472 [2:24:21<15:44:32,  3.57it/s] 46%|████▌     | 169397/371472 [2:24:21<15:45:10,  3.56it/s] 46%|████▌     | 169398/371472 [2:24:21<15:22:07,  3.65it/s] 46%|████▌     | 169399/371472 [2:24:22<14:49:22,  3.79it/s] 46%|████▌     | 169400/371472 [2:24:22<14:34:55,  3.85it/s]                                                            {'loss': 3.0289, 'learning_rate': 5.898424874485552e-07, 'epoch': 7.3}
 46%|████▌     | 169400/371472 [2:24:22<14:34:55,  3.85it/s] 46%|████▌     | 169401/371472 [2:24:22<14:46:00,  3.80it/s] 46%|████▌     | 169402/371472 [2:24:22<14:40:30,  3.82it/s] 46%|████▌     | 169403/371472 [2:24:23<15:40:15,  3.58it/s] 46%|████▌     | 169404/371472 [2:24:23<15:41:34,  3.58it/s] 46%|████▌     | 169405/371472 [2:24:23<15:01:59,  3.73it/s] 46%|████▌     | 169406/371472 [2:24:24<15:33:06,  3.61it/s] 46%|████▌     | 169407/371472 [2:24:24<15:08:33,  3.71it/s] 46%|████▌     | 169408/371472 [2:24:24<16:33:05,  3.39it/s] 46%|████▌     | 169409/371472 [2:24:24<15:43:03,  3.57it/s] 46%|████▌     | 169410/371472 [2:24:25<15:40:04,  3.58it/s] 46%|████▌     | 169411/371472 [2:24:25<15:13:55,  3.68it/s] 46%|████▌     | 169412/371472 [2:24:25<15:16:22,  3.67it/s] 46%|████▌     | 169413/371472 [2:24:25<15:09:57,  3.70it/s] 46%|████▌     | 169414/371472 [2:24:26<16:13:52,  3.46it/s] 46%|████▌     | 169415/371472 [2:24:26<15:47:17,  3.56it/s] 46%|████▌     | 169416/371472 [2:24:26<15:48:04,  3.55it/s] 46%|████▌     | 169417/371472 [2:24:27<16:45:25,  3.35it/s] 46%|████▌     | 169418/371472 [2:24:27<16:26:32,  3.41it/s] 46%|████▌     | 169419/371472 [2:24:27<15:40:41,  3.58it/s] 46%|████▌     | 169420/371472 [2:24:27<15:38:16,  3.59it/s]                                                            {'loss': 3.1245, 'learning_rate': 5.897940054730763e-07, 'epoch': 7.3}
 46%|████▌     | 169420/371472 [2:24:27<15:38:16,  3.59it/s] 46%|████▌     | 169421/371472 [2:24:28<15:42:34,  3.57it/s] 46%|████▌     | 169422/371472 [2:24:28<15:30:37,  3.62it/s] 46%|████▌     | 169423/371472 [2:24:28<15:45:13,  3.56it/s] 46%|████▌     | 169424/371472 [2:24:29<15:34:28,  3.60it/s] 46%|████▌     | 169425/371472 [2:24:29<15:26:58,  3.63it/s] 46%|████▌     | 169426/371472 [2:24:29<16:13:51,  3.46it/s] 46%|████▌     | 169427/371472 [2:24:29<15:48:50,  3.55it/s] 46%|████▌     | 169428/371472 [2:24:30<16:02:26,  3.50it/s] 46%|████▌     | 169429/371472 [2:24:30<15:20:01,  3.66it/s] 46%|████▌     | 169430/371472 [2:24:30<15:54:02,  3.53it/s] 46%|████▌     | 169431/371472 [2:24:31<16:03:11,  3.50it/s] 46%|████▌     | 169432/371472 [2:24:31<16:22:40,  3.43it/s] 46%|████▌     | 169433/371472 [2:24:31<15:53:52,  3.53it/s] 46%|████▌     | 169434/371472 [2:24:31<15:34:06,  3.60it/s] 46%|████▌     | 169435/371472 [2:24:32<15:49:59,  3.54it/s] 46%|████▌     | 169436/371472 [2:24:32<16:01:13,  3.50it/s] 46%|████▌     | 169437/371472 [2:24:32<16:40:21,  3.37it/s] 46%|████▌     | 169438/371472 [2:24:33<16:21:29,  3.43it/s] 46%|████▌     | 169439/371472 [2:24:33<15:47:00,  3.56it/s] 46%|████▌     | 169440/371472 [2:24:33<15:42:51,  3.57it/s]                                                            {'loss': 3.2868, 'learning_rate': 5.897455234975975e-07, 'epoch': 7.3}
 46%|████▌     | 169440/371472 [2:24:33<15:42:51,  3.57it/s] 46%|████▌     | 169441/371472 [2:24:33<15:25:04,  3.64it/s] 46%|████▌     | 169442/371472 [2:24:34<15:06:55,  3.71it/s] 46%|████▌     | 169443/371472 [2:24:34<15:47:51,  3.55it/s] 46%|████▌     | 169444/371472 [2:24:34<15:21:17,  3.65it/s] 46%|████▌     | 169445/371472 [2:24:34<15:10:44,  3.70it/s] 46%|████▌     | 169446/371472 [2:24:35<14:58:38,  3.75it/s] 46%|████▌     | 169447/371472 [2:24:35<15:17:57,  3.67it/s] 46%|████▌     | 169448/371472 [2:24:35<15:22:04,  3.65it/s] 46%|████▌     | 169449/371472 [2:24:36<15:49:39,  3.55it/s] 46%|████▌     | 169450/371472 [2:24:36<15:45:15,  3.56it/s] 46%|████▌     | 169451/371472 [2:24:36<15:24:11,  3.64it/s] 46%|████▌     | 169452/371472 [2:24:36<16:02:37,  3.50it/s] 46%|████▌     | 169453/371472 [2:24:37<17:02:45,  3.29it/s] 46%|████▌     | 169454/371472 [2:24:37<16:29:01,  3.40it/s] 46%|████▌     | 169455/371472 [2:24:37<15:59:39,  3.51it/s] 46%|████▌     | 169456/371472 [2:24:38<15:35:41,  3.60it/s] 46%|████▌     | 169457/371472 [2:24:38<15:17:54,  3.67it/s] 46%|████▌     | 169458/371472 [2:24:38<15:12:41,  3.69it/s] 46%|████▌     | 169459/371472 [2:24:38<14:55:34,  3.76it/s] 46%|████▌     | 169460/371472 [2:24:39<15:15:02,  3.68it/s]                                                            {'loss': 3.0528, 'learning_rate': 5.896970415221186e-07, 'epoch': 7.3}
 46%|████▌     | 169460/371472 [2:24:39<15:15:02,  3.68it/s] 46%|████▌     | 169461/371472 [2:24:39<15:15:53,  3.68it/s] 46%|████▌     | 169462/371472 [2:24:39<15:20:19,  3.66it/s] 46%|████▌     | 169463/371472 [2:24:39<15:28:00,  3.63it/s] 46%|████▌     | 169464/371472 [2:24:40<15:24:11,  3.64it/s] 46%|████▌     | 169465/371472 [2:24:40<15:23:41,  3.64it/s] 46%|████▌     | 169466/371472 [2:24:40<15:37:21,  3.59it/s] 46%|████▌     | 169467/371472 [2:24:41<16:35:23,  3.38it/s] 46%|████▌     | 169468/371472 [2:24:41<16:21:21,  3.43it/s] 46%|████▌     | 169469/371472 [2:24:41<16:33:26,  3.39it/s] 46%|████▌     | 169470/371472 [2:24:42<16:38:07,  3.37it/s] 46%|████▌     | 169471/371472 [2:24:42<17:45:29,  3.16it/s] 46%|████▌     | 169472/371472 [2:24:42<17:04:20,  3.29it/s] 46%|████▌     | 169473/371472 [2:24:42<16:24:41,  3.42it/s] 46%|████▌     | 169474/371472 [2:24:43<15:44:47,  3.56it/s] 46%|████▌     | 169475/371472 [2:24:43<15:40:35,  3.58it/s] 46%|████▌     | 169476/371472 [2:24:43<15:27:22,  3.63it/s] 46%|████▌     | 169477/371472 [2:24:44<15:46:07,  3.56it/s] 46%|████▌     | 169478/371472 [2:24:44<15:27:17,  3.63it/s] 46%|████▌     | 169479/371472 [2:24:44<15:02:47,  3.73it/s] 46%|████▌     | 169480/371472 [2:24:44<16:08:09,  3.48it/s]                                                            {'loss': 3.0939, 'learning_rate': 5.896485595466396e-07, 'epoch': 7.3}
 46%|████▌     | 169480/371472 [2:24:44<16:08:09,  3.48it/s] 46%|████▌     | 169481/371472 [2:24:45<16:12:49,  3.46it/s] 46%|████▌     | 169482/371472 [2:24:45<16:16:29,  3.45it/s] 46%|████▌     | 169483/371472 [2:24:45<15:56:05,  3.52it/s] 46%|████▌     | 169484/371472 [2:24:46<15:27:50,  3.63it/s] 46%|████▌     | 169485/371472 [2:24:46<15:15:47,  3.68it/s] 46%|████▌     | 169486/371472 [2:24:46<15:19:01,  3.66it/s] 46%|████▌     | 169487/371472 [2:24:46<15:25:34,  3.64it/s] 46%|████▌     | 169488/371472 [2:24:47<15:14:14,  3.68it/s] 46%|████▌     | 169489/371472 [2:24:47<15:21:51,  3.65it/s] 46%|████▌     | 169490/371472 [2:24:47<14:51:52,  3.77it/s] 46%|████▌     | 169491/371472 [2:24:47<14:42:39,  3.81it/s] 46%|████▌     | 169492/371472 [2:24:48<14:29:19,  3.87it/s] 46%|████▌     | 169493/371472 [2:24:48<14:38:16,  3.83it/s] 46%|████▌     | 169494/371472 [2:24:48<14:41:24,  3.82it/s] 46%|████▌     | 169495/371472 [2:24:48<14:47:42,  3.79it/s] 46%|████▌     | 169496/371472 [2:24:49<14:39:13,  3.83it/s] 46%|████▌     | 169497/371472 [2:24:49<14:43:43,  3.81it/s] 46%|████▌     | 169498/371472 [2:24:49<14:26:33,  3.88it/s] 46%|████▌     | 169499/371472 [2:24:49<14:49:54,  3.78it/s] 46%|████▌     | 169500/371472 [2:24:50<14:47:40,  3.79it/s]                                                            {'loss': 2.9756, 'learning_rate': 5.896000775711607e-07, 'epoch': 7.3}
 46%|████▌     | 169500/371472 [2:24:50<14:47:40,  3.79it/s] 46%|████▌     | 169501/371472 [2:24:50<15:33:22,  3.61it/s] 46%|████▌     | 169502/371472 [2:24:50<15:26:38,  3.63it/s] 46%|████▌     | 169503/371472 [2:24:51<17:19:02,  3.24it/s] 46%|████▌     | 169504/371472 [2:24:51<18:23:14,  3.05it/s] 46%|████▌     | 169505/371472 [2:24:51<18:43:45,  3.00it/s] 46%|████▌     | 169506/371472 [2:24:52<17:30:07,  3.21it/s] 46%|████▌     | 169507/371472 [2:24:52<16:36:56,  3.38it/s] 46%|████▌     | 169508/371472 [2:24:52<16:20:19,  3.43it/s] 46%|████▌     | 169509/371472 [2:24:52<15:48:56,  3.55it/s] 46%|████▌     | 169510/371472 [2:24:53<16:12:15,  3.46it/s] 46%|████▌     | 169511/371472 [2:24:53<15:44:46,  3.56it/s] 46%|████▌     | 169512/371472 [2:24:53<15:23:20,  3.65it/s] 46%|████▌     | 169513/371472 [2:24:54<15:13:55,  3.68it/s] 46%|████▌     | 169514/371472 [2:24:54<15:15:57,  3.67it/s] 46%|████▌     | 169515/371472 [2:24:54<15:13:34,  3.68it/s] 46%|████▌     | 169516/371472 [2:24:54<15:05:53,  3.72it/s] 46%|████▌     | 169517/371472 [2:24:55<15:09:30,  3.70it/s] 46%|████▌     | 169518/371472 [2:24:55<15:13:55,  3.68it/s] 46%|████▌     | 169519/371472 [2:24:55<18:34:04,  3.02it/s] 46%|████▌     | 169520/371472 [2:24:56<17:27:52,  3.21it/s]                                                            {'loss': 3.0921, 'learning_rate': 5.895515955956818e-07, 'epoch': 7.3}
 46%|████▌     | 169520/371472 [2:24:56<17:27:52,  3.21it/s] 46%|████▌     | 169521/371472 [2:24:56<16:39:58,  3.37it/s] 46%|████▌     | 169522/371472 [2:24:56<16:28:38,  3.40it/s] 46%|████▌     | 169523/371472 [2:24:56<15:58:46,  3.51it/s] 46%|████▌     | 169524/371472 [2:24:57<16:00:57,  3.50it/s] 46%|████▌     | 169525/371472 [2:24:57<16:53:28,  3.32it/s] 46%|████▌     | 169526/371472 [2:24:57<15:58:01,  3.51it/s] 46%|████▌     | 169527/371472 [2:24:58<16:37:51,  3.37it/s] 46%|████▌     | 169528/371472 [2:24:58<15:59:35,  3.51it/s] 46%|████▌     | 169529/371472 [2:24:58<16:25:59,  3.41it/s] 46%|████▌     | 169530/371472 [2:24:59<16:35:27,  3.38it/s] 46%|████▌     | 169531/371472 [2:24:59<18:19:17,  3.06it/s] 46%|████▌     | 169532/371472 [2:24:59<17:01:31,  3.29it/s] 46%|████▌     | 169533/371472 [2:24:59<16:28:55,  3.40it/s] 46%|████▌     | 169534/371472 [2:25:00<16:05:26,  3.49it/s] 46%|████▌     | 169535/371472 [2:25:00<15:42:49,  3.57it/s] 46%|████▌     | 169536/371472 [2:25:00<15:08:15,  3.71it/s] 46%|████▌     | 169537/371472 [2:25:01<15:23:51,  3.64it/s] 46%|████▌     | 169538/371472 [2:25:01<15:08:46,  3.70it/s] 46%|████▌     | 169539/371472 [2:25:01<15:13:55,  3.68it/s] 46%|████▌     | 169540/371472 [2:25:01<15:16:13,  3.67it/s]                                                            {'loss': 3.0043, 'learning_rate': 5.89503113620203e-07, 'epoch': 7.3}
 46%|████▌     | 169540/371472 [2:25:01<15:16:13,  3.67it/s] 46%|████▌     | 169541/371472 [2:25:02<17:43:32,  3.16it/s] 46%|████▌     | 169542/371472 [2:25:02<17:43:01,  3.17it/s] 46%|████▌     | 169543/371472 [2:25:02<16:45:12,  3.35it/s] 46%|████▌     | 169544/371472 [2:25:03<15:55:31,  3.52it/s] 46%|████▌     | 169545/371472 [2:25:03<15:37:19,  3.59it/s] 46%|████▌     | 169546/371472 [2:25:03<15:35:20,  3.60it/s] 46%|████▌     | 169547/371472 [2:25:03<16:19:36,  3.44it/s] 46%|████▌     | 169548/371472 [2:25:04<16:11:04,  3.47it/s] 46%|████▌     | 169549/371472 [2:25:04<16:23:29,  3.42it/s] 46%|████▌     | 169550/371472 [2:25:04<16:05:04,  3.49it/s] 46%|████▌     | 169551/371472 [2:25:05<15:52:51,  3.53it/s] 46%|████▌     | 169552/371472 [2:25:05<15:58:37,  3.51it/s] 46%|████▌     | 169553/371472 [2:25:05<16:04:41,  3.49it/s] 46%|████▌     | 169554/371472 [2:25:05<16:05:42,  3.48it/s] 46%|████▌     | 169555/371472 [2:25:06<15:57:50,  3.51it/s] 46%|████▌     | 169556/371472 [2:25:06<15:29:14,  3.62it/s] 46%|████▌     | 169557/371472 [2:25:06<15:13:33,  3.68it/s] 46%|████▌     | 169558/371472 [2:25:07<16:21:17,  3.43it/s] 46%|████▌     | 169559/371472 [2:25:07<16:09:34,  3.47it/s] 46%|████▌     | 169560/371472 [2:25:07<17:02:17,  3.29it/s]                                                            {'loss': 3.234, 'learning_rate': 5.894546316447241e-07, 'epoch': 7.3}
 46%|████▌     | 169560/371472 [2:25:07<17:02:17,  3.29it/s] 46%|████▌     | 169561/371472 [2:25:07<16:18:28,  3.44it/s] 46%|████▌     | 169562/371472 [2:25:08<16:58:38,  3.30it/s] 46%|████▌     | 169563/371472 [2:25:08<16:00:30,  3.50it/s] 46%|████▌     | 169564/371472 [2:25:08<15:21:55,  3.65it/s] 46%|████▌     | 169565/371472 [2:25:09<15:23:51,  3.64it/s] 46%|████▌     | 169566/371472 [2:25:09<15:18:37,  3.66it/s] 46%|████▌     | 169567/371472 [2:25:09<15:33:45,  3.60it/s] 46%|████▌     | 169568/371472 [2:25:09<15:06:10,  3.71it/s] 46%|████▌     | 169569/371472 [2:25:10<14:45:47,  3.80it/s] 46%|████▌     | 169570/371472 [2:25:10<15:02:54,  3.73it/s] 46%|████▌     | 169571/371472 [2:25:10<15:05:39,  3.72it/s] 46%|████▌     | 169572/371472 [2:25:10<16:23:33,  3.42it/s] 46%|████▌     | 169573/371472 [2:25:11<16:30:34,  3.40it/s] 46%|████▌     | 169574/371472 [2:25:11<16:23:36,  3.42it/s] 46%|████▌     | 169575/371472 [2:25:11<16:19:03,  3.44it/s] 46%|████▌     | 169576/371472 [2:25:12<16:55:34,  3.31it/s] 46%|████▌     | 169577/371472 [2:25:12<16:26:09,  3.41it/s] 46%|████▌     | 169578/371472 [2:25:12<16:08:44,  3.47it/s] 46%|████▌     | 169579/371472 [2:25:13<16:00:51,  3.50it/s] 46%|████▌     | 169580/371472 [2:25:13<15:31:24,  3.61it/s]                                                            {'loss': 3.1935, 'learning_rate': 5.894061496692452e-07, 'epoch': 7.3}
 46%|████▌     | 169580/371472 [2:25:13<15:31:24,  3.61it/s] 46%|████▌     | 169581/371472 [2:25:13<15:52:25,  3.53it/s] 46%|████▌     | 169582/371472 [2:25:13<16:02:16,  3.50it/s] 46%|████▌     | 169583/371472 [2:25:14<16:18:46,  3.44it/s] 46%|████▌     | 169584/371472 [2:25:14<16:16:12,  3.45it/s] 46%|████▌     | 169585/371472 [2:25:14<17:00:56,  3.30it/s] 46%|████▌     | 169586/371472 [2:25:15<16:00:35,  3.50it/s] 46%|████▌     | 169587/371472 [2:25:15<15:51:37,  3.54it/s] 46%|████▌     | 169588/371472 [2:25:15<15:49:34,  3.54it/s] 46%|████▌     | 169589/371472 [2:25:15<15:22:32,  3.65it/s] 46%|████▌     | 169590/371472 [2:25:16<15:33:46,  3.60it/s] 46%|████▌     | 169591/371472 [2:25:16<15:15:49,  3.67it/s] 46%|████▌     | 169592/371472 [2:25:16<16:05:31,  3.48it/s] 46%|████▌     | 169593/371472 [2:25:16<15:41:25,  3.57it/s] 46%|████▌     | 169594/371472 [2:25:17<15:31:20,  3.61it/s] 46%|████▌     | 169595/371472 [2:25:17<15:12:18,  3.69it/s] 46%|████▌     | 169596/371472 [2:25:17<16:43:50,  3.35it/s] 46%|████▌     | 169597/371472 [2:25:18<16:23:46,  3.42it/s] 46%|████▌     | 169598/371472 [2:25:18<17:14:23,  3.25it/s] 46%|████▌     | 169599/371472 [2:25:18<16:35:36,  3.38it/s] 46%|████▌     | 169600/371472 [2:25:19<16:12:10,  3.46it/s]                                                            {'loss': 3.1976, 'learning_rate': 5.893576676937663e-07, 'epoch': 7.3}
 46%|████▌     | 169600/371472 [2:25:19<16:12:10,  3.46it/s] 46%|████▌     | 169601/371472 [2:25:19<15:53:13,  3.53it/s] 46%|████▌     | 169602/371472 [2:25:19<15:32:07,  3.61it/s] 46%|████▌     | 169603/371472 [2:25:19<16:56:19,  3.31it/s] 46%|████▌     | 169604/371472 [2:25:20<16:09:21,  3.47it/s] 46%|████▌     | 169605/371472 [2:25:20<15:42:08,  3.57it/s] 46%|████▌     | 169606/371472 [2:25:20<16:49:59,  3.33it/s] 46%|████▌     | 169607/371472 [2:25:21<17:00:38,  3.30it/s] 46%|████▌     | 169608/371472 [2:25:21<16:23:54,  3.42it/s] 46%|████▌     | 169609/371472 [2:25:21<15:51:22,  3.54it/s] 46%|████▌     | 169610/371472 [2:25:21<15:18:08,  3.66it/s] 46%|████▌     | 169611/371472 [2:25:22<15:54:34,  3.52it/s] 46%|████▌     | 169612/371472 [2:25:22<16:41:41,  3.36it/s] 46%|████▌     | 169613/371472 [2:25:22<17:06:24,  3.28it/s] 46%|████▌     | 169614/371472 [2:25:23<17:11:18,  3.26it/s] 46%|████▌     | 169615/371472 [2:25:23<17:06:50,  3.28it/s] 46%|████▌     | 169616/371472 [2:25:23<17:29:11,  3.21it/s] 46%|████▌     | 169617/371472 [2:25:24<17:02:09,  3.29it/s] 46%|████▌     | 169618/371472 [2:25:24<16:25:49,  3.41it/s] 46%|████▌     | 169619/371472 [2:25:24<16:03:00,  3.49it/s] 46%|████▌     | 169620/371472 [2:25:24<15:51:49,  3.53it/s]                                                            {'loss': 3.3016, 'learning_rate': 5.893091857182873e-07, 'epoch': 7.31}
 46%|████▌     | 169620/371472 [2:25:24<15:51:49,  3.53it/s] 46%|████▌     | 169621/371472 [2:25:25<15:59:39,  3.51it/s] 46%|████▌     | 169622/371472 [2:25:25<15:21:17,  3.65it/s] 46%|████▌     | 169623/371472 [2:25:25<15:37:29,  3.59it/s] 46%|████▌     | 169624/371472 [2:25:26<15:50:53,  3.54it/s] 46%|████▌     | 169625/371472 [2:25:26<15:29:43,  3.62it/s] 46%|████▌     | 169626/371472 [2:25:26<17:03:38,  3.29it/s] 46%|████▌     | 169627/371472 [2:25:26<17:49:46,  3.14it/s] 46%|████▌     | 169628/371472 [2:25:27<17:02:45,  3.29it/s] 46%|████▌     | 169629/371472 [2:25:27<16:21:29,  3.43it/s] 46%|████▌     | 169630/371472 [2:25:27<15:55:11,  3.52it/s] 46%|████▌     | 169631/371472 [2:25:28<16:12:50,  3.46it/s] 46%|████▌     | 169632/371472 [2:25:28<15:41:33,  3.57it/s] 46%|████▌     | 169633/371472 [2:25:28<15:24:06,  3.64it/s] 46%|████▌     | 169634/371472 [2:25:28<15:32:42,  3.61it/s] 46%|████▌     | 169635/371472 [2:25:29<16:11:50,  3.46it/s] 46%|████▌     | 169636/371472 [2:25:29<16:14:45,  3.45it/s] 46%|████▌     | 169637/371472 [2:25:29<16:07:44,  3.48it/s] 46%|████▌     | 169638/371472 [2:25:30<15:52:34,  3.53it/s] 46%|████▌     | 169639/371472 [2:25:30<16:50:59,  3.33it/s] 46%|████▌     | 169640/371472 [2:25:30<16:51:56,  3.32it/s]                                                            {'loss': 2.9859, 'learning_rate': 5.892607037428084e-07, 'epoch': 7.31}
 46%|████▌     | 169640/371472 [2:25:30<16:51:56,  3.32it/s] 46%|████▌     | 169641/371472 [2:25:30<16:51:49,  3.32it/s] 46%|████▌     | 169642/371472 [2:25:31<17:28:32,  3.21it/s] 46%|████▌     | 169643/371472 [2:25:31<17:23:09,  3.22it/s] 46%|████▌     | 169644/371472 [2:25:31<18:04:53,  3.10it/s] 46%|████▌     | 169645/371472 [2:25:32<17:11:10,  3.26it/s] 46%|████▌     | 169646/371472 [2:25:32<16:27:46,  3.41it/s] 46%|████▌     | 169647/371472 [2:25:32<16:49:41,  3.33it/s] 46%|████▌     | 169648/371472 [2:25:33<17:14:01,  3.25it/s] 46%|████▌     | 169649/371472 [2:25:33<16:54:21,  3.32it/s] 46%|████▌     | 169650/371472 [2:25:33<16:36:11,  3.38it/s] 46%|████▌     | 169651/371472 [2:25:34<17:37:14,  3.18it/s] 46%|████▌     | 169652/371472 [2:25:34<19:05:53,  2.94it/s] 46%|████▌     | 169653/371472 [2:25:34<18:12:00,  3.08it/s] 46%|████▌     | 169654/371472 [2:25:35<23:22:09,  2.40it/s] 46%|████▌     | 169655/371472 [2:25:35<20:45:26,  2.70it/s] 46%|████▌     | 169656/371472 [2:25:35<19:24:49,  2.89it/s] 46%|████▌     | 169657/371472 [2:25:36<22:01:06,  2.55it/s] 46%|████▌     | 169658/371472 [2:25:36<19:57:02,  2.81it/s] 46%|████▌     | 169659/371472 [2:25:37<20:26:20,  2.74it/s] 46%|████▌     | 169660/371472 [2:25:37<19:24:03,  2.89it/s]                                                            {'loss': 3.1678, 'learning_rate': 5.892122217673296e-07, 'epoch': 7.31}
 46%|████▌     | 169660/371472 [2:25:37<19:24:03,  2.89it/s] 46%|████▌     | 169661/371472 [2:25:37<18:40:54,  3.00it/s] 46%|████▌     | 169662/371472 [2:25:37<17:28:29,  3.21it/s] 46%|████▌     | 169663/371472 [2:25:38<16:46:46,  3.34it/s] 46%|████▌     | 169664/371472 [2:25:38<16:11:55,  3.46it/s] 46%|████▌     | 169665/371472 [2:25:38<16:12:31,  3.46it/s] 46%|████▌     | 169666/371472 [2:25:39<16:02:38,  3.49it/s] 46%|████▌     | 169667/371472 [2:25:39<15:39:58,  3.58it/s] 46%|████▌     | 169668/371472 [2:25:39<16:18:36,  3.44it/s] 46%|████▌     | 169669/371472 [2:25:39<15:57:55,  3.51it/s] 46%|████▌     | 169670/371472 [2:25:40<16:23:20,  3.42it/s] 46%|████▌     | 169671/371472 [2:25:40<16:12:23,  3.46it/s] 46%|████▌     | 169672/371472 [2:25:40<15:57:36,  3.51it/s] 46%|████▌     | 169673/371472 [2:25:41<15:48:05,  3.55it/s] 46%|████▌     | 169674/371472 [2:25:41<15:14:02,  3.68it/s] 46%|████▌     | 169675/371472 [2:25:41<15:29:24,  3.62it/s] 46%|████▌     | 169676/371472 [2:25:41<15:11:32,  3.69it/s] 46%|████▌     | 169677/371472 [2:25:42<15:46:29,  3.55it/s] 46%|████▌     | 169678/371472 [2:25:42<15:25:34,  3.63it/s] 46%|████▌     | 169679/371472 [2:25:42<15:08:40,  3.70it/s] 46%|████▌     | 169680/371472 [2:25:43<17:01:37,  3.29it/s]                                                            {'loss': 3.2868, 'learning_rate': 5.891637397918507e-07, 'epoch': 7.31}
 46%|████▌     | 169680/371472 [2:25:43<17:01:37,  3.29it/s] 46%|████▌     | 169681/371472 [2:25:43<17:55:44,  3.13it/s] 46%|████▌     | 169682/371472 [2:25:43<17:51:47,  3.14it/s] 46%|████▌     | 169683/371472 [2:25:44<16:49:56,  3.33it/s] 46%|████▌     | 169684/371472 [2:25:44<17:23:18,  3.22it/s] 46%|████▌     | 169685/371472 [2:25:44<16:38:25,  3.37it/s] 46%|████▌     | 169686/371472 [2:25:44<16:33:42,  3.38it/s] 46%|████▌     | 169687/371472 [2:25:45<16:12:17,  3.46it/s] 46%|████▌     | 169688/371472 [2:25:45<17:19:26,  3.24it/s] 46%|████▌     | 169689/371472 [2:25:45<16:35:13,  3.38it/s] 46%|████▌     | 169690/371472 [2:25:46<16:26:45,  3.41it/s] 46%|████▌     | 169691/371472 [2:25:46<16:54:51,  3.31it/s] 46%|████▌     | 169692/371472 [2:25:46<16:29:11,  3.40it/s] 46%|████▌     | 169693/371472 [2:25:46<16:07:51,  3.47it/s] 46%|████▌     | 169694/371472 [2:25:47<15:36:30,  3.59it/s] 46%|████▌     | 169695/371472 [2:25:47<15:18:13,  3.66it/s] 46%|████▌     | 169696/371472 [2:25:47<15:03:48,  3.72it/s] 46%|████▌     | 169697/371472 [2:25:48<15:47:35,  3.55it/s] 46%|████▌     | 169698/371472 [2:25:48<16:11:28,  3.46it/s] 46%|████▌     | 169699/371472 [2:25:48<15:38:46,  3.58it/s] 46%|████▌     | 169700/371472 [2:25:48<15:15:20,  3.67it/s]                                                            {'loss': 3.1416, 'learning_rate': 5.891152578163718e-07, 'epoch': 7.31}
 46%|████▌     | 169700/371472 [2:25:48<15:15:20,  3.67it/s] 46%|████▌     | 169701/371472 [2:25:49<15:23:30,  3.64it/s] 46%|████▌     | 169702/371472 [2:25:49<15:10:23,  3.69it/s] 46%|████▌     | 169703/371472 [2:25:49<16:37:35,  3.37it/s] 46%|████▌     | 169704/371472 [2:25:50<15:58:46,  3.51it/s] 46%|████▌     | 169705/371472 [2:25:50<17:06:20,  3.28it/s] 46%|████▌     | 169706/371472 [2:25:50<16:27:45,  3.40it/s] 46%|████▌     | 169707/371472 [2:25:50<16:17:04,  3.44it/s] 46%|████▌     | 169708/371472 [2:25:51<15:27:40,  3.62it/s] 46%|████▌     | 169709/371472 [2:25:51<15:11:41,  3.69it/s] 46%|████▌     | 169710/371472 [2:25:51<15:18:30,  3.66it/s] 46%|████▌     | 169711/371472 [2:25:51<15:28:03,  3.62it/s] 46%|████▌     | 169712/371472 [2:25:52<15:57:54,  3.51it/s] 46%|████▌     | 169713/371472 [2:25:52<15:21:33,  3.65it/s] 46%|████▌     | 169714/371472 [2:25:52<15:16:13,  3.67it/s] 46%|████▌     | 169715/371472 [2:25:53<14:54:55,  3.76it/s] 46%|████▌     | 169716/371472 [2:25:53<15:25:18,  3.63it/s] 46%|████▌     | 169717/371472 [2:25:53<15:02:22,  3.73it/s] 46%|████▌     | 169718/371472 [2:25:53<15:56:00,  3.52it/s] 46%|████▌     | 169719/371472 [2:25:54<15:47:11,  3.55it/s] 46%|████▌     | 169720/371472 [2:25:54<15:45:14,  3.56it/s]                                                            {'loss': 3.1715, 'learning_rate': 5.890667758408929e-07, 'epoch': 7.31}
 46%|████▌     | 169720/371472 [2:25:54<15:45:14,  3.56it/s] 46%|████▌     | 169721/371472 [2:25:54<15:45:42,  3.56it/s] 46%|████▌     | 169722/371472 [2:25:55<16:24:07,  3.42it/s] 46%|████▌     | 169723/371472 [2:25:55<15:56:19,  3.52it/s] 46%|████▌     | 169724/371472 [2:25:55<16:10:27,  3.46it/s] 46%|████▌     | 169725/371472 [2:25:55<15:57:09,  3.51it/s] 46%|████▌     | 169726/371472 [2:25:56<15:22:43,  3.64it/s] 46%|████▌     | 169727/371472 [2:25:56<15:17:57,  3.66it/s] 46%|████▌     | 169728/371472 [2:25:56<15:32:08,  3.61it/s] 46%|████▌     | 169729/371472 [2:25:57<16:11:48,  3.46it/s] 46%|████▌     | 169730/371472 [2:25:57<15:56:43,  3.51it/s] 46%|████▌     | 169731/371472 [2:25:57<16:36:31,  3.37it/s] 46%|████▌     | 169732/371472 [2:25:57<16:09:49,  3.47it/s] 46%|████▌     | 169733/371472 [2:25:58<15:53:51,  3.52it/s] 46%|████▌     | 169734/371472 [2:25:58<15:48:37,  3.54it/s] 46%|████▌     | 169735/371472 [2:25:58<16:29:21,  3.40it/s] 46%|████▌     | 169736/371472 [2:25:59<16:04:16,  3.49it/s] 46%|████▌     | 169737/371472 [2:25:59<15:52:20,  3.53it/s] 46%|████▌     | 169738/371472 [2:25:59<15:33:10,  3.60it/s] 46%|████▌     | 169739/371472 [2:25:59<15:35:57,  3.59it/s] 46%|████▌     | 169740/371472 [2:26:00<17:01:14,  3.29it/s]                                                            {'loss': 3.1336, 'learning_rate': 5.89018293865414e-07, 'epoch': 7.31}
 46%|████▌     | 169740/371472 [2:26:00<17:01:14,  3.29it/s] 46%|████▌     | 169741/371472 [2:26:00<16:50:04,  3.33it/s] 46%|████▌     | 169742/371472 [2:26:00<16:17:49,  3.44it/s] 46%|████▌     | 169743/371472 [2:26:01<15:48:51,  3.54it/s] 46%|████▌     | 169744/371472 [2:26:01<15:18:20,  3.66it/s] 46%|████▌     | 169745/371472 [2:26:01<15:34:22,  3.60it/s] 46%|████▌     | 169746/371472 [2:26:01<15:06:51,  3.71it/s] 46%|████▌     | 169747/371472 [2:26:02<15:51:10,  3.53it/s] 46%|████▌     | 169748/371472 [2:26:02<15:27:20,  3.63it/s] 46%|████▌     | 169749/371472 [2:26:02<15:17:07,  3.67it/s] 46%|████▌     | 169750/371472 [2:26:03<16:28:04,  3.40it/s] 46%|████▌     | 169751/371472 [2:26:03<16:21:07,  3.43it/s] 46%|████▌     | 169752/371472 [2:26:03<17:03:50,  3.28it/s] 46%|████▌     | 169753/371472 [2:26:03<16:27:21,  3.41it/s] 46%|████▌     | 169754/371472 [2:26:04<15:40:22,  3.58it/s] 46%|████▌     | 169755/371472 [2:26:04<15:42:21,  3.57it/s] 46%|████▌     | 169756/371472 [2:26:04<15:55:10,  3.52it/s] 46%|████▌     | 169757/371472 [2:26:05<15:34:09,  3.60it/s] 46%|████▌     | 169758/371472 [2:26:05<15:24:19,  3.64it/s] 46%|████▌     | 169759/371472 [2:26:05<15:02:16,  3.73it/s] 46%|████▌     | 169760/371472 [2:26:05<15:49:58,  3.54it/s]                                                            {'loss': 3.0513, 'learning_rate': 5.889698118899351e-07, 'epoch': 7.31}
 46%|████▌     | 169760/371472 [2:26:05<15:49:58,  3.54it/s] 46%|████▌     | 169761/371472 [2:26:06<15:25:47,  3.63it/s] 46%|████▌     | 169762/371472 [2:26:06<15:43:36,  3.56it/s] 46%|████▌     | 169763/371472 [2:26:06<15:25:07,  3.63it/s] 46%|████▌     | 169764/371472 [2:26:06<15:40:47,  3.57it/s] 46%|████▌     | 169765/371472 [2:26:07<16:12:15,  3.46it/s] 46%|████▌     | 169766/371472 [2:26:07<15:32:02,  3.61it/s] 46%|████▌     | 169767/371472 [2:26:07<15:56:17,  3.52it/s] 46%|████▌     | 169768/371472 [2:26:08<15:27:28,  3.62it/s] 46%|████▌     | 169769/371472 [2:26:08<15:57:00,  3.51it/s] 46%|████▌     | 169770/371472 [2:26:08<16:18:26,  3.44it/s] 46%|████▌     | 169771/371472 [2:26:08<16:15:35,  3.45it/s] 46%|████▌     | 169772/371472 [2:26:09<16:40:25,  3.36it/s] 46%|████▌     | 169773/371472 [2:26:09<16:03:39,  3.49it/s] 46%|████▌     | 169774/371472 [2:26:09<15:48:48,  3.54it/s] 46%|████▌     | 169775/371472 [2:26:10<15:24:07,  3.64it/s] 46%|████▌     | 169776/371472 [2:26:10<15:45:50,  3.55it/s] 46%|████▌     | 169777/371472 [2:26:10<15:56:26,  3.51it/s] 46%|████▌     | 169778/371472 [2:26:10<15:45:36,  3.55it/s] 46%|████▌     | 169779/371472 [2:26:11<16:06:16,  3.48it/s] 46%|████▌     | 169780/371472 [2:26:11<15:26:03,  3.63it/s]                                                            {'loss': 3.0331, 'learning_rate': 5.889213299144562e-07, 'epoch': 7.31}
 46%|████▌     | 169780/371472 [2:26:11<15:26:03,  3.63it/s] 46%|████▌     | 169781/371472 [2:26:11<18:48:44,  2.98it/s] 46%|████▌     | 169782/371472 [2:26:12<18:06:44,  3.09it/s] 46%|████▌     | 169783/371472 [2:26:12<18:14:04,  3.07it/s] 46%|████▌     | 169784/371472 [2:26:12<17:37:44,  3.18it/s] 46%|████▌     | 169785/371472 [2:26:13<17:03:41,  3.28it/s] 46%|████▌     | 169786/371472 [2:26:13<16:39:46,  3.36it/s] 46%|████▌     | 169787/371472 [2:26:13<16:40:35,  3.36it/s] 46%|████▌     | 169788/371472 [2:26:14<16:27:09,  3.41it/s] 46%|████▌     | 169789/371472 [2:26:14<16:31:00,  3.39it/s] 46%|████▌     | 169790/371472 [2:26:14<16:48:31,  3.33it/s] 46%|████▌     | 169791/371472 [2:26:14<16:53:30,  3.32it/s] 46%|████▌     | 169792/371472 [2:26:15<16:21:52,  3.42it/s] 46%|████▌     | 169793/371472 [2:26:15<16:06:14,  3.48it/s] 46%|████▌     | 169794/371472 [2:26:15<16:16:08,  3.44it/s] 46%|████▌     | 169795/371472 [2:26:16<15:41:12,  3.57it/s] 46%|████▌     | 169796/371472 [2:26:16<16:09:25,  3.47it/s] 46%|████▌     | 169797/371472 [2:26:16<20:14:26,  2.77it/s] 46%|████▌     | 169798/371472 [2:26:17<19:22:10,  2.89it/s] 46%|████▌     | 169799/371472 [2:26:17<18:28:38,  3.03it/s] 46%|████▌     | 169800/371472 [2:26:17<18:03:33,  3.10it/s]                                                            {'loss': 2.954, 'learning_rate': 5.888728479389773e-07, 'epoch': 7.31}
 46%|████▌     | 169800/371472 [2:26:17<18:03:33,  3.10it/s] 46%|████▌     | 169801/371472 [2:26:18<17:01:53,  3.29it/s] 46%|████▌     | 169802/371472 [2:26:18<16:27:42,  3.40it/s] 46%|████▌     | 169803/371472 [2:26:18<16:15:58,  3.44it/s] 46%|████▌     | 169804/371472 [2:26:18<16:21:43,  3.42it/s] 46%|████▌     | 169805/371472 [2:26:19<16:59:40,  3.30it/s] 46%|████▌     | 169806/371472 [2:26:19<15:55:09,  3.52it/s] 46%|████▌     | 169807/371472 [2:26:19<15:15:26,  3.67it/s] 46%|████▌     | 169808/371472 [2:26:20<15:51:23,  3.53it/s] 46%|████▌     | 169809/371472 [2:26:20<15:30:59,  3.61it/s] 46%|████▌     | 169810/371472 [2:26:20<16:26:37,  3.41it/s] 46%|████▌     | 169811/371472 [2:26:20<15:56:40,  3.51it/s] 46%|████▌     | 169812/371472 [2:26:21<15:59:22,  3.50it/s] 46%|████▌     | 169813/371472 [2:26:21<15:57:58,  3.51it/s] 46%|████▌     | 169814/371472 [2:26:21<15:12:21,  3.68it/s] 46%|████▌     | 169815/371472 [2:26:22<16:01:17,  3.50it/s] 46%|████▌     | 169816/371472 [2:26:22<16:13:27,  3.45it/s] 46%|████▌     | 169817/371472 [2:26:22<15:36:35,  3.59it/s] 46%|████▌     | 169818/371472 [2:26:22<15:09:52,  3.69it/s] 46%|████▌     | 169819/371472 [2:26:23<15:21:15,  3.65it/s] 46%|████▌     | 169820/371472 [2:26:23<15:27:38,  3.62it/s]                                                            {'loss': 3.2015, 'learning_rate': 5.888243659634984e-07, 'epoch': 7.31}
 46%|████▌     | 169820/371472 [2:26:23<15:27:38,  3.62it/s] 46%|████▌     | 169821/371472 [2:26:23<14:56:40,  3.75it/s] 46%|████▌     | 169822/371472 [2:26:23<15:29:27,  3.62it/s] 46%|████▌     | 169823/371472 [2:26:24<17:14:00,  3.25it/s] 46%|████▌     | 169824/371472 [2:26:24<16:35:27,  3.38it/s] 46%|████▌     | 169825/371472 [2:26:24<16:16:21,  3.44it/s] 46%|████▌     | 169826/371472 [2:26:25<16:22:48,  3.42it/s] 46%|████▌     | 169827/371472 [2:26:25<16:09:27,  3.47it/s] 46%|████▌     | 169828/371472 [2:26:25<16:09:16,  3.47it/s] 46%|████▌     | 169829/371472 [2:26:26<16:18:34,  3.43it/s] 46%|████▌     | 169830/371472 [2:26:26<16:09:41,  3.47it/s] 46%|████▌     | 169831/371472 [2:26:26<16:44:05,  3.35it/s] 46%|████▌     | 169832/371472 [2:26:26<16:13:04,  3.45it/s] 46%|████▌     | 169833/371472 [2:26:27<16:17:48,  3.44it/s] 46%|████▌     | 169834/371472 [2:26:27<16:00:47,  3.50it/s] 46%|████▌     | 169835/371472 [2:26:27<15:33:31,  3.60it/s] 46%|████▌     | 169836/371472 [2:26:27<15:31:07,  3.61it/s] 46%|████▌     | 169837/371472 [2:26:28<16:14:08,  3.45it/s] 46%|████▌     | 169838/371472 [2:26:28<15:47:49,  3.55it/s] 46%|████▌     | 169839/371472 [2:26:28<15:12:35,  3.68it/s] 46%|████▌     | 169840/371472 [2:26:29<15:05:46,  3.71it/s]                                                            {'loss': 2.9408, 'learning_rate': 5.887758839880196e-07, 'epoch': 7.32}
 46%|████▌     | 169840/371472 [2:26:29<15:05:46,  3.71it/s] 46%|████▌     | 169841/371472 [2:26:29<15:14:50,  3.67it/s] 46%|████▌     | 169842/371472 [2:26:29<16:36:43,  3.37it/s] 46%|████▌     | 169843/371472 [2:26:30<16:50:30,  3.33it/s] 46%|████▌     | 169844/371472 [2:26:30<16:11:46,  3.46it/s] 46%|████▌     | 169845/371472 [2:26:30<16:18:24,  3.43it/s] 46%|████▌     | 169846/371472 [2:26:30<16:00:25,  3.50it/s] 46%|████▌     | 169847/371472 [2:26:31<16:19:19,  3.43it/s] 46%|████▌     | 169848/371472 [2:26:31<16:16:14,  3.44it/s] 46%|████▌     | 169849/371472 [2:26:31<16:21:13,  3.42it/s] 46%|████▌     | 169850/371472 [2:26:32<16:04:45,  3.48it/s] 46%|████▌     | 169851/371472 [2:26:32<15:42:42,  3.56it/s] 46%|████▌     | 169852/371472 [2:26:32<15:31:44,  3.61it/s] 46%|████▌     | 169853/371472 [2:26:32<15:33:33,  3.60it/s] 46%|████▌     | 169854/371472 [2:26:33<15:21:20,  3.65it/s] 46%|████▌     | 169855/371472 [2:26:33<16:11:48,  3.46it/s] 46%|████▌     | 169856/371472 [2:26:33<15:39:32,  3.58it/s] 46%|████▌     | 169857/371472 [2:26:33<15:08:46,  3.70it/s] 46%|████▌     | 169858/371472 [2:26:34<15:23:48,  3.64it/s] 46%|████▌     | 169859/371472 [2:26:34<16:31:39,  3.39it/s] 46%|████▌     | 169860/371472 [2:26:34<15:36:47,  3.59it/s]                                                            {'loss': 3.0203, 'learning_rate': 5.887274020125406e-07, 'epoch': 7.32}
 46%|████▌     | 169860/371472 [2:26:34<15:36:47,  3.59it/s] 46%|████▌     | 169861/371472 [2:26:35<15:34:42,  3.59it/s] 46%|████▌     | 169862/371472 [2:26:35<15:03:25,  3.72it/s] 46%|████▌     | 169863/371472 [2:26:35<15:16:52,  3.66it/s] 46%|████▌     | 169864/371472 [2:26:35<14:53:39,  3.76it/s] 46%|████▌     | 169865/371472 [2:26:36<15:41:42,  3.57it/s] 46%|████▌     | 169866/371472 [2:26:36<15:09:00,  3.70it/s] 46%|████▌     | 169867/371472 [2:26:36<15:48:32,  3.54it/s] 46%|████▌     | 169868/371472 [2:26:37<16:01:12,  3.50it/s] 46%|████▌     | 169869/371472 [2:26:37<17:04:25,  3.28it/s] 46%|████▌     | 169870/371472 [2:26:37<16:48:56,  3.33it/s] 46%|████▌     | 169871/371472 [2:26:37<16:30:49,  3.39it/s] 46%|████▌     | 169872/371472 [2:26:38<15:42:23,  3.57it/s] 46%|████▌     | 169873/371472 [2:26:38<14:59:30,  3.74it/s] 46%|████▌     | 169874/371472 [2:26:38<15:07:52,  3.70it/s] 46%|████▌     | 169875/371472 [2:26:38<15:15:28,  3.67it/s] 46%|████▌     | 169876/371472 [2:26:39<15:37:47,  3.58it/s] 46%|████▌     | 169877/371472 [2:26:39<15:49:11,  3.54it/s] 46%|████▌     | 169878/371472 [2:26:39<15:11:47,  3.68it/s] 46%|████▌     | 169879/371472 [2:26:40<15:27:32,  3.62it/s] 46%|████▌     | 169880/371472 [2:26:40<16:42:30,  3.35it/s]                                                            {'loss': 3.259, 'learning_rate': 5.886789200370617e-07, 'epoch': 7.32}
 46%|████▌     | 169880/371472 [2:26:40<16:42:30,  3.35it/s] 46%|████▌     | 169881/371472 [2:26:40<17:03:51,  3.28it/s] 46%|████▌     | 169882/371472 [2:26:41<18:19:31,  3.06it/s] 46%|████▌     | 169883/371472 [2:26:41<17:56:02,  3.12it/s] 46%|████▌     | 169884/371472 [2:26:41<16:56:39,  3.30it/s] 46%|████▌     | 169885/371472 [2:26:41<16:30:32,  3.39it/s] 46%|████▌     | 169886/371472 [2:26:42<15:50:07,  3.54it/s] 46%|████▌     | 169887/371472 [2:26:42<15:24:38,  3.63it/s] 46%|████▌     | 169888/371472 [2:26:42<15:30:25,  3.61it/s] 46%|████▌     | 169889/371472 [2:26:43<15:37:47,  3.58it/s] 46%|████▌     | 169890/371472 [2:26:43<15:06:57,  3.70it/s] 46%|████▌     | 169891/371472 [2:26:43<15:27:26,  3.62it/s] 46%|████▌     | 169892/371472 [2:26:43<15:48:18,  3.54it/s] 46%|████▌     | 169893/371472 [2:26:44<15:45:38,  3.55it/s] 46%|████▌     | 169894/371472 [2:26:44<15:45:25,  3.55it/s] 46%|████▌     | 169895/371472 [2:26:44<15:42:41,  3.56it/s] 46%|████▌     | 169896/371472 [2:26:44<15:00:34,  3.73it/s] 46%|████▌     | 169897/371472 [2:26:45<15:42:01,  3.57it/s] 46%|████▌     | 169898/371472 [2:26:45<15:20:46,  3.65it/s] 46%|████▌     | 169899/371472 [2:26:45<15:07:45,  3.70it/s] 46%|████▌     | 169900/371472 [2:26:46<14:43:07,  3.80it/s]                                                            {'loss': 3.0581, 'learning_rate': 5.886304380615828e-07, 'epoch': 7.32}
 46%|████▌     | 169900/371472 [2:26:46<14:43:07,  3.80it/s] 46%|████▌     | 169901/371472 [2:26:46<14:41:31,  3.81it/s] 46%|████▌     | 169902/371472 [2:26:46<15:02:50,  3.72it/s] 46%|████▌     | 169903/371472 [2:26:46<15:00:56,  3.73it/s] 46%|████▌     | 169904/371472 [2:26:47<15:46:27,  3.55it/s] 46%|████▌     | 169905/371472 [2:26:47<15:50:37,  3.53it/s] 46%|████▌     | 169906/371472 [2:26:47<15:22:17,  3.64it/s] 46%|████▌     | 169907/371472 [2:26:48<15:49:21,  3.54it/s] 46%|████▌     | 169908/371472 [2:26:48<16:18:02,  3.43it/s] 46%|████▌     | 169909/371472 [2:26:48<15:54:54,  3.52it/s] 46%|████▌     | 169910/371472 [2:26:48<15:30:41,  3.61it/s] 46%|████▌     | 169911/371472 [2:26:49<15:26:35,  3.63it/s] 46%|████▌     | 169912/371472 [2:26:49<15:17:00,  3.66it/s] 46%|████▌     | 169913/371472 [2:26:49<14:55:37,  3.75it/s] 46%|████▌     | 169914/371472 [2:26:49<15:40:18,  3.57it/s] 46%|████▌     | 169915/371472 [2:26:50<15:05:28,  3.71it/s] 46%|████▌     | 169916/371472 [2:26:50<15:32:29,  3.60it/s] 46%|████▌     | 169917/371472 [2:26:50<15:38:54,  3.58it/s] 46%|████▌     | 169918/371472 [2:26:51<15:34:05,  3.60it/s] 46%|████▌     | 169919/371472 [2:26:51<15:54:46,  3.52it/s] 46%|████▌     | 169920/371472 [2:26:51<16:02:05,  3.49it/s]                                                            {'loss': 3.1925, 'learning_rate': 5.88581956086104e-07, 'epoch': 7.32}
 46%|████▌     | 169920/371472 [2:26:51<16:02:05,  3.49it/s] 46%|████▌     | 169921/371472 [2:26:51<15:09:45,  3.69it/s] 46%|████▌     | 169922/371472 [2:26:52<15:32:27,  3.60it/s] 46%|████▌     | 169923/371472 [2:26:52<15:24:18,  3.63it/s] 46%|████▌     | 169924/371472 [2:26:52<15:52:41,  3.53it/s] 46%|████▌     | 169925/371472 [2:26:53<15:38:59,  3.58it/s] 46%|████▌     | 169926/371472 [2:26:53<15:18:26,  3.66it/s] 46%|████▌     | 169927/371472 [2:26:53<15:41:16,  3.57it/s] 46%|████▌     | 169928/371472 [2:26:53<15:35:07,  3.59it/s] 46%|████▌     | 169929/371472 [2:26:54<15:12:35,  3.68it/s] 46%|████▌     | 169930/371472 [2:26:54<15:57:04,  3.51it/s] 46%|████▌     | 169931/371472 [2:26:54<15:18:00,  3.66it/s] 46%|████▌     | 169932/371472 [2:26:54<14:52:06,  3.77it/s] 46%|████▌     | 169933/371472 [2:26:55<14:33:51,  3.84it/s] 46%|████▌     | 169934/371472 [2:26:55<14:35:14,  3.84it/s] 46%|████▌     | 169935/371472 [2:26:55<14:32:58,  3.85it/s] 46%|████▌     | 169936/371472 [2:26:55<14:56:24,  3.75it/s] 46%|████▌     | 169937/371472 [2:26:56<14:44:06,  3.80it/s] 46%|████▌     | 169938/371472 [2:26:56<15:17:59,  3.66it/s] 46%|████▌     | 169939/371472 [2:26:56<15:23:38,  3.64it/s] 46%|████▌     | 169940/371472 [2:26:57<15:56:07,  3.51it/s]                                                            {'loss': 3.1806, 'learning_rate': 5.885334741106251e-07, 'epoch': 7.32}
 46%|████▌     | 169940/371472 [2:26:57<15:56:07,  3.51it/s] 46%|████▌     | 169941/371472 [2:26:57<15:46:01,  3.55it/s] 46%|████▌     | 169942/371472 [2:26:57<16:38:29,  3.36it/s] 46%|████▌     | 169943/371472 [2:26:57<15:48:46,  3.54it/s] 46%|████▌     | 169944/371472 [2:26:58<16:00:28,  3.50it/s] 46%|████▌     | 169945/371472 [2:26:58<15:38:06,  3.58it/s] 46%|████▌     | 169946/371472 [2:26:58<15:31:42,  3.60it/s] 46%|████▌     | 169947/371472 [2:26:59<15:39:23,  3.58it/s] 46%|████▌     | 169948/371472 [2:26:59<15:43:20,  3.56it/s] 46%|████▌     | 169949/371472 [2:26:59<17:02:05,  3.29it/s] 46%|████▌     | 169950/371472 [2:27:00<16:45:21,  3.34it/s] 46%|████▌     | 169951/371472 [2:27:00<16:01:05,  3.49it/s] 46%|████▌     | 169952/371472 [2:27:00<15:25:09,  3.63it/s] 46%|████▌     | 169953/371472 [2:27:00<15:02:16,  3.72it/s] 46%|████▌     | 169954/371472 [2:27:01<15:13:30,  3.68it/s] 46%|████▌     | 169955/371472 [2:27:01<15:19:44,  3.65it/s] 46%|████▌     | 169956/371472 [2:27:01<15:50:56,  3.53it/s] 46%|████▌     | 169957/371472 [2:27:01<15:31:47,  3.60it/s] 46%|████▌     | 169958/371472 [2:27:02<15:02:45,  3.72it/s] 46%|████▌     | 169959/371472 [2:27:02<15:23:45,  3.64it/s] 46%|████▌     | 169960/371472 [2:27:02<16:18:06,  3.43it/s]                                                            {'loss': 2.9606, 'learning_rate': 5.884849921351462e-07, 'epoch': 7.32}
 46%|████▌     | 169960/371472 [2:27:02<16:18:06,  3.43it/s] 46%|████▌     | 169961/371472 [2:27:03<16:38:22,  3.36it/s] 46%|████▌     | 169962/371472 [2:27:03<16:08:50,  3.47it/s] 46%|████▌     | 169963/371472 [2:27:03<15:43:57,  3.56it/s] 46%|████▌     | 169964/371472 [2:27:03<15:43:37,  3.56it/s] 46%|████▌     | 169965/371472 [2:27:04<16:14:29,  3.45it/s] 46%|████▌     | 169966/371472 [2:27:04<15:20:37,  3.65it/s] 46%|████▌     | 169967/371472 [2:27:04<15:44:53,  3.55it/s] 46%|████▌     | 169968/371472 [2:27:05<15:50:59,  3.53it/s] 46%|████▌     | 169969/371472 [2:27:05<15:44:12,  3.56it/s] 46%|████▌     | 169970/371472 [2:27:05<16:13:11,  3.45it/s] 46%|████▌     | 169971/371472 [2:27:05<15:42:49,  3.56it/s] 46%|████▌     | 169972/371472 [2:27:06<16:08:28,  3.47it/s] 46%|████▌     | 169973/371472 [2:27:06<15:56:46,  3.51it/s] 46%|████▌     | 169974/371472 [2:27:06<15:54:50,  3.52it/s] 46%|████▌     | 169975/371472 [2:27:07<16:27:16,  3.40it/s] 46%|████▌     | 169976/371472 [2:27:07<19:33:26,  2.86it/s] 46%|████▌     | 169977/371472 [2:27:07<18:25:10,  3.04it/s] 46%|████▌     | 169978/371472 [2:27:08<16:54:40,  3.31it/s] 46%|████▌     | 169979/371472 [2:27:08<17:33:32,  3.19it/s] 46%|████▌     | 169980/371472 [2:27:08<16:16:34,  3.44it/s]                                                            {'loss': 3.1673, 'learning_rate': 5.884365101596673e-07, 'epoch': 7.32}
 46%|████▌     | 169980/371472 [2:27:08<16:16:34,  3.44it/s] 46%|████▌     | 169981/371472 [2:27:08<15:56:03,  3.51it/s] 46%|████▌     | 169982/371472 [2:27:09<16:02:32,  3.49it/s] 46%|████▌     | 169983/371472 [2:27:09<15:46:11,  3.55it/s] 46%|████▌     | 169984/371472 [2:27:09<15:33:57,  3.60it/s] 46%|████▌     | 169985/371472 [2:27:10<16:16:18,  3.44it/s] 46%|████▌     | 169986/371472 [2:27:10<16:26:56,  3.40it/s] 46%|████▌     | 169987/371472 [2:27:10<17:19:04,  3.23it/s] 46%|████▌     | 169988/371472 [2:27:10<17:04:58,  3.28it/s] 46%|████▌     | 169989/371472 [2:27:11<16:19:24,  3.43it/s] 46%|████▌     | 169990/371472 [2:27:11<15:50:59,  3.53it/s] 46%|████▌     | 169991/371472 [2:27:11<15:29:15,  3.61it/s] 46%|████▌     | 169992/371472 [2:27:12<15:05:21,  3.71it/s] 46%|████▌     | 169993/371472 [2:27:12<14:40:25,  3.81it/s] 46%|████▌     | 169994/371472 [2:27:12<15:28:29,  3.62it/s] 46%|████▌     | 169995/371472 [2:27:12<15:54:34,  3.52it/s] 46%|████▌     | 169996/371472 [2:27:13<16:38:20,  3.36it/s] 46%|████▌     | 169997/371472 [2:27:13<16:43:45,  3.35it/s] 46%|████▌     | 169998/371472 [2:27:13<16:53:57,  3.31it/s] 46%|████▌     | 169999/371472 [2:27:14<16:21:27,  3.42it/s] 46%|████▌     | 170000/371472 [2:27:14<15:38:51,  3.58it/s]                                                            {'loss': 3.1063, 'learning_rate': 5.883880281841884e-07, 'epoch': 7.32}
 46%|████▌     | 170000/371472 [2:27:14<15:38:51,  3.58it/s] 46%|████▌     | 170001/371472 [2:27:14<15:29:58,  3.61it/s] 46%|████▌     | 170002/371472 [2:27:14<15:23:51,  3.63it/s] 46%|████▌     | 170003/371472 [2:27:15<16:11:24,  3.46it/s] 46%|████▌     | 170004/371472 [2:27:15<16:14:14,  3.45it/s] 46%|████▌     | 170005/371472 [2:27:15<15:42:05,  3.56it/s] 46%|████▌     | 170006/371472 [2:27:16<15:53:00,  3.52it/s] 46%|████▌     | 170007/371472 [2:27:16<15:46:00,  3.55it/s] 46%|████▌     | 170008/371472 [2:27:16<15:40:02,  3.57it/s] 46%|████▌     | 170009/371472 [2:27:17<18:03:47,  3.10it/s] 46%|████▌     | 170010/371472 [2:27:17<17:39:38,  3.17it/s] 46%|████▌     | 170011/371472 [2:27:17<17:46:43,  3.15it/s] 46%|████▌     | 170012/371472 [2:27:17<17:02:38,  3.28it/s] 46%|████▌     | 170013/371472 [2:27:18<16:22:34,  3.42it/s] 46%|████▌     | 170014/371472 [2:27:18<16:19:07,  3.43it/s] 46%|████▌     | 170015/371472 [2:27:18<15:32:29,  3.60it/s] 46%|████▌     | 170016/371472 [2:27:18<15:04:21,  3.71it/s] 46%|████▌     | 170017/371472 [2:27:19<15:06:22,  3.70it/s] 46%|████▌     | 170018/371472 [2:27:19<15:12:10,  3.68it/s] 46%|████▌     | 170019/371472 [2:27:19<15:37:23,  3.58it/s] 46%|████▌     | 170020/371472 [2:27:20<15:33:06,  3.60it/s]                                                            {'loss': 3.03, 'learning_rate': 5.883395462087095e-07, 'epoch': 7.32}
 46%|████▌     | 170020/371472 [2:27:20<15:33:06,  3.60it/s] 46%|████▌     | 170021/371472 [2:27:20<16:10:50,  3.46it/s] 46%|████▌     | 170022/371472 [2:27:20<16:21:24,  3.42it/s] 46%|████▌     | 170023/371472 [2:27:20<16:14:59,  3.44it/s] 46%|████▌     | 170024/371472 [2:27:21<16:14:28,  3.45it/s] 46%|████▌     | 170025/371472 [2:27:21<16:14:59,  3.44it/s] 46%|████▌     | 170026/371472 [2:27:21<16:12:33,  3.45it/s] 46%|████▌     | 170027/371472 [2:27:22<15:34:33,  3.59it/s] 46%|████▌     | 170028/371472 [2:27:22<14:53:46,  3.76it/s] 46%|████▌     | 170029/371472 [2:27:22<14:56:22,  3.75it/s] 46%|████▌     | 170030/371472 [2:27:22<15:46:50,  3.55it/s] 46%|████▌     | 170031/371472 [2:27:23<16:06:59,  3.47it/s] 46%|████▌     | 170032/371472 [2:27:23<16:06:17,  3.47it/s] 46%|████▌     | 170033/371472 [2:27:23<16:23:04,  3.42it/s] 46%|████▌     | 170034/371472 [2:27:24<15:48:09,  3.54it/s] 46%|████▌     | 170035/371472 [2:27:24<15:39:56,  3.57it/s] 46%|████▌     | 170036/371472 [2:27:24<15:14:10,  3.67it/s] 46%|████▌     | 170037/371472 [2:27:24<15:35:31,  3.59it/s] 46%|████▌     | 170038/371472 [2:27:25<16:58:18,  3.30it/s] 46%|████▌     | 170039/371472 [2:27:25<16:25:35,  3.41it/s] 46%|████▌     | 170040/371472 [2:27:25<16:27:16,  3.40it/s]                                                            {'loss': 3.068, 'learning_rate': 5.882910642332306e-07, 'epoch': 7.32}
 46%|████▌     | 170040/371472 [2:27:25<16:27:16,  3.40it/s] 46%|████▌     | 170041/371472 [2:27:26<17:03:58,  3.28it/s] 46%|████▌     | 170042/371472 [2:27:26<16:11:39,  3.46it/s] 46%|████▌     | 170043/371472 [2:27:26<16:39:45,  3.36it/s] 46%|████▌     | 170044/371472 [2:27:26<15:54:36,  3.52it/s] 46%|████▌     | 170045/371472 [2:27:27<16:55:56,  3.30it/s] 46%|████▌     | 170046/371472 [2:27:27<16:53:09,  3.31it/s] 46%|████▌     | 170047/371472 [2:27:27<16:23:29,  3.41it/s] 46%|████▌     | 170048/371472 [2:27:28<18:17:41,  3.06it/s] 46%|████▌     | 170049/371472 [2:27:28<17:16:13,  3.24it/s] 46%|████▌     | 170050/371472 [2:27:28<16:33:20,  3.38it/s] 46%|████▌     | 170051/371472 [2:27:29<16:44:32,  3.34it/s] 46%|████▌     | 170052/371472 [2:27:29<16:00:00,  3.50it/s] 46%|████▌     | 170053/371472 [2:27:29<15:35:28,  3.59it/s] 46%|████▌     | 170054/371472 [2:27:29<15:47:49,  3.54it/s] 46%|████▌     | 170055/371472 [2:27:30<17:57:13,  3.12it/s] 46%|████▌     | 170056/371472 [2:27:30<17:00:44,  3.29it/s] 46%|████▌     | 170057/371472 [2:27:30<16:43:31,  3.35it/s] 46%|████▌     | 170058/371472 [2:27:31<16:42:32,  3.35it/s] 46%|████▌     | 170059/371472 [2:27:31<16:58:45,  3.30it/s] 46%|████▌     | 170060/371472 [2:27:31<16:28:36,  3.40it/s]                                                            {'loss': 2.9321, 'learning_rate': 5.882425822577517e-07, 'epoch': 7.32}
 46%|████▌     | 170060/371472 [2:27:31<16:28:36,  3.40it/s] 46%|████▌     | 170061/371472 [2:27:32<16:39:31,  3.36it/s] 46%|████▌     | 170062/371472 [2:27:32<16:23:17,  3.41it/s] 46%|████▌     | 170063/371472 [2:27:32<16:06:20,  3.47it/s] 46%|████▌     | 170064/371472 [2:27:32<15:56:14,  3.51it/s] 46%|████▌     | 170065/371472 [2:27:33<16:29:59,  3.39it/s] 46%|████▌     | 170066/371472 [2:27:33<16:11:31,  3.46it/s] 46%|████▌     | 170067/371472 [2:27:33<15:38:04,  3.58it/s] 46%|████▌     | 170068/371472 [2:27:34<15:19:08,  3.65it/s] 46%|████▌     | 170069/371472 [2:27:34<15:50:36,  3.53it/s] 46%|████▌     | 170070/371472 [2:27:34<15:40:19,  3.57it/s] 46%|████▌     | 170071/371472 [2:27:34<15:09:37,  3.69it/s] 46%|████▌     | 170072/371472 [2:27:35<15:10:46,  3.69it/s] 46%|████▌     | 170073/371472 [2:27:35<15:01:47,  3.72it/s] 46%|████▌     | 170074/371472 [2:27:35<15:09:32,  3.69it/s] 46%|████▌     | 170075/371472 [2:27:36<17:16:45,  3.24it/s] 46%|████▌     | 170076/371472 [2:27:36<18:58:32,  2.95it/s] 46%|████▌     | 170077/371472 [2:27:36<18:25:37,  3.04it/s] 46%|████▌     | 170078/371472 [2:27:37<17:44:17,  3.15it/s] 46%|████▌     | 170079/371472 [2:27:37<17:47:30,  3.14it/s] 46%|████▌     | 170080/371472 [2:27:37<16:50:12,  3.32it/s]                                                            {'loss': 3.0032, 'learning_rate': 5.881941002822729e-07, 'epoch': 7.33}
 46%|████▌     | 170080/371472 [2:27:37<16:50:12,  3.32it/s] 46%|████▌     | 170081/371472 [2:27:38<17:25:09,  3.21it/s] 46%|████▌     | 170082/371472 [2:27:38<17:05:42,  3.27it/s] 46%|████▌     | 170083/371472 [2:27:38<16:22:43,  3.42it/s] 46%|████▌     | 170084/371472 [2:27:38<15:44:16,  3.55it/s] 46%|████▌     | 170085/371472 [2:27:39<15:17:09,  3.66it/s] 46%|████▌     | 170086/371472 [2:27:39<15:54:13,  3.52it/s] 46%|████▌     | 170087/371472 [2:27:39<16:18:02,  3.43it/s] 46%|████▌     | 170088/371472 [2:27:40<16:26:34,  3.40it/s] 46%|████▌     | 170089/371472 [2:27:40<16:19:42,  3.43it/s] 46%|████▌     | 170090/371472 [2:27:40<16:42:59,  3.35it/s] 46%|████▌     | 170091/371472 [2:27:40<17:01:23,  3.29it/s] 46%|████▌     | 170092/371472 [2:27:41<16:09:23,  3.46it/s] 46%|████▌     | 170093/371472 [2:27:41<16:05:49,  3.48it/s] 46%|████▌     | 170094/371472 [2:27:41<15:52:34,  3.52it/s] 46%|████▌     | 170095/371472 [2:27:42<15:32:07,  3.60it/s] 46%|████▌     | 170096/371472 [2:27:42<15:09:51,  3.69it/s] 46%|████▌     | 170097/371472 [2:27:42<15:13:33,  3.67it/s] 46%|████▌     | 170098/371472 [2:27:42<15:33:02,  3.60it/s] 46%|████▌     | 170099/371472 [2:27:43<15:33:50,  3.59it/s] 46%|████▌     | 170100/371472 [2:27:43<16:22:57,  3.41it/s]                                                            {'loss': 3.0876, 'learning_rate': 5.88145618306794e-07, 'epoch': 7.33}
 46%|████▌     | 170100/371472 [2:27:43<16:22:57,  3.41it/s] 46%|████▌     | 170101/371472 [2:27:43<16:57:41,  3.30it/s] 46%|████▌     | 170102/371472 [2:27:44<16:20:33,  3.42it/s] 46%|████▌     | 170103/371472 [2:27:44<17:14:02,  3.25it/s] 46%|████▌     | 170104/371472 [2:27:44<18:27:22,  3.03it/s] 46%|████▌     | 170105/371472 [2:27:45<17:17:51,  3.23it/s] 46%|████▌     | 170106/371472 [2:27:45<16:19:13,  3.43it/s] 46%|████▌     | 170107/371472 [2:27:45<15:44:08,  3.55it/s] 46%|████▌     | 170108/371472 [2:27:45<16:02:01,  3.49it/s] 46%|████▌     | 170109/371472 [2:27:46<16:08:10,  3.47it/s] 46%|████▌     | 170110/371472 [2:27:46<16:41:26,  3.35it/s] 46%|████▌     | 170111/371472 [2:27:46<16:00:02,  3.50it/s] 46%|████▌     | 170112/371472 [2:27:47<17:01:30,  3.29it/s] 46%|████▌     | 170113/371472 [2:27:47<16:57:49,  3.30it/s] 46%|████▌     | 170114/371472 [2:27:47<15:55:11,  3.51it/s] 46%|████▌     | 170115/371472 [2:27:47<15:18:13,  3.65it/s] 46%|████▌     | 170116/371472 [2:27:48<15:30:44,  3.61it/s] 46%|████▌     | 170117/371472 [2:27:48<16:00:59,  3.49it/s] 46%|████▌     | 170118/371472 [2:27:48<15:56:30,  3.51it/s] 46%|████▌     | 170119/371472 [2:27:49<16:24:06,  3.41it/s] 46%|████▌     | 170120/371472 [2:27:49<15:24:11,  3.63it/s]                                                            {'loss': 2.8193, 'learning_rate': 5.880971363313149e-07, 'epoch': 7.33}
 46%|████▌     | 170120/371472 [2:27:49<15:24:11,  3.63it/s] 46%|████▌     | 170121/371472 [2:27:49<16:18:18,  3.43it/s] 46%|████▌     | 170122/371472 [2:27:49<15:51:38,  3.53it/s] 46%|████▌     | 170123/371472 [2:27:50<15:30:13,  3.61it/s] 46%|████▌     | 170124/371472 [2:27:50<15:15:35,  3.67it/s] 46%|████▌     | 170125/371472 [2:27:50<15:53:12,  3.52it/s] 46%|████▌     | 170126/371472 [2:27:50<15:51:34,  3.53it/s] 46%|████▌     | 170127/371472 [2:27:51<15:50:16,  3.53it/s] 46%|████▌     | 170128/371472 [2:27:51<15:59:43,  3.50it/s] 46%|████▌     | 170129/371472 [2:27:51<15:57:18,  3.51it/s] 46%|████▌     | 170130/371472 [2:27:52<15:17:55,  3.66it/s] 46%|████▌     | 170131/371472 [2:27:52<15:42:33,  3.56it/s] 46%|████▌     | 170132/371472 [2:27:52<15:18:38,  3.65it/s] 46%|████▌     | 170133/371472 [2:27:52<16:02:41,  3.49it/s] 46%|████▌     | 170134/371472 [2:27:53<15:58:59,  3.50it/s] 46%|████▌     | 170135/371472 [2:27:53<15:31:54,  3.60it/s] 46%|████▌     | 170136/371472 [2:27:53<15:38:12,  3.58it/s] 46%|████▌     | 170137/371472 [2:27:54<15:17:21,  3.66it/s] 46%|████▌     | 170138/371472 [2:27:54<16:57:47,  3.30it/s] 46%|████▌     | 170139/371472 [2:27:54<16:24:14,  3.41it/s] 46%|████▌     | 170140/371472 [2:27:55<17:33:14,  3.19it/s]                                                            {'loss': 3.2259, 'learning_rate': 5.880486543558361e-07, 'epoch': 7.33}
 46%|████▌     | 170140/371472 [2:27:55<17:33:14,  3.19it/s] 46%|████▌     | 170141/371472 [2:27:55<16:52:36,  3.31it/s] 46%|████▌     | 170142/371472 [2:27:55<16:31:18,  3.38it/s] 46%|████▌     | 170143/371472 [2:27:55<16:50:38,  3.32it/s] 46%|████▌     | 170144/371472 [2:27:56<17:56:18,  3.12it/s] 46%|████▌     | 170145/371472 [2:27:56<16:41:24,  3.35it/s] 46%|████▌     | 170146/371472 [2:27:56<16:03:24,  3.48it/s] 46%|████▌     | 170147/371472 [2:27:57<15:58:33,  3.50it/s] 46%|████▌     | 170148/371472 [2:27:57<15:50:10,  3.53it/s] 46%|████▌     | 170149/371472 [2:27:57<15:46:24,  3.55it/s] 46%|████▌     | 170150/371472 [2:27:57<16:39:33,  3.36it/s] 46%|████▌     | 170151/371472 [2:27:58<16:22:52,  3.41it/s] 46%|████▌     | 170152/371472 [2:27:58<16:24:28,  3.41it/s] 46%|████▌     | 170153/371472 [2:27:58<15:58:06,  3.50it/s] 46%|████▌     | 170154/371472 [2:27:59<15:57:03,  3.51it/s] 46%|████▌     | 170155/371472 [2:27:59<15:23:48,  3.63it/s] 46%|████▌     | 170156/371472 [2:27:59<16:13:40,  3.45it/s] 46%|████▌     | 170157/371472 [2:27:59<15:53:49,  3.52it/s] 46%|████▌     | 170158/371472 [2:28:00<16:04:23,  3.48it/s] 46%|████▌     | 170159/371472 [2:28:00<15:43:44,  3.56it/s] 46%|████▌     | 170160/371472 [2:28:00<15:22:30,  3.64it/s]                                                            {'loss': 2.9475, 'learning_rate': 5.880001723803572e-07, 'epoch': 7.33}
 46%|████▌     | 170160/371472 [2:28:00<15:22:30,  3.64it/s] 46%|████▌     | 170161/371472 [2:28:01<15:15:57,  3.66it/s] 46%|████▌     | 170162/371472 [2:28:01<15:10:51,  3.68it/s] 46%|████▌     | 170163/371472 [2:28:01<14:53:34,  3.75it/s] 46%|████▌     | 170164/371472 [2:28:01<15:23:36,  3.63it/s] 46%|████▌     | 170165/371472 [2:28:02<15:35:12,  3.59it/s] 46%|████▌     | 170166/371472 [2:28:02<16:13:36,  3.45it/s] 46%|████▌     | 170167/371472 [2:28:02<15:58:29,  3.50it/s] 46%|████▌     | 170168/371472 [2:28:03<16:33:59,  3.38it/s] 46%|████▌     | 170169/371472 [2:28:03<16:53:47,  3.31it/s] 46%|████▌     | 170170/371472 [2:28:03<16:19:54,  3.42it/s] 46%|████▌     | 170171/371472 [2:28:03<15:37:25,  3.58it/s] 46%|████▌     | 170172/371472 [2:28:04<17:53:58,  3.12it/s] 46%|████▌     | 170173/371472 [2:28:04<17:05:52,  3.27it/s] 46%|████▌     | 170174/371472 [2:28:04<17:01:09,  3.29it/s] 46%|████▌     | 170175/371472 [2:28:05<16:26:01,  3.40it/s] 46%|████▌     | 170176/371472 [2:28:05<16:14:26,  3.44it/s] 46%|████▌     | 170177/371472 [2:28:05<17:14:44,  3.24it/s] 46%|████▌     | 170178/371472 [2:28:06<17:41:50,  3.16it/s] 46%|████▌     | 170179/371472 [2:28:06<16:29:20,  3.39it/s] 46%|████▌     | 170180/371472 [2:28:06<15:58:21,  3.50it/s]                                                            {'loss': 3.102, 'learning_rate': 5.879516904048783e-07, 'epoch': 7.33}
 46%|████▌     | 170180/371472 [2:28:06<15:58:21,  3.50it/s] 46%|████▌     | 170181/371472 [2:28:06<15:25:09,  3.63it/s] 46%|████▌     | 170182/371472 [2:28:07<15:44:12,  3.55it/s] 46%|████▌     | 170183/371472 [2:28:07<15:32:01,  3.60it/s] 46%|████▌     | 170184/371472 [2:28:07<15:51:26,  3.53it/s] 46%|████▌     | 170185/371472 [2:28:08<16:04:59,  3.48it/s] 46%|████▌     | 170186/371472 [2:28:08<16:24:32,  3.41it/s] 46%|████▌     | 170187/371472 [2:28:08<17:07:42,  3.26it/s] 46%|████▌     | 170188/371472 [2:28:08<16:21:57,  3.42it/s] 46%|████▌     | 170189/371472 [2:28:09<15:47:35,  3.54it/s] 46%|████▌     | 170190/371472 [2:28:09<15:37:09,  3.58it/s] 46%|████▌     | 170191/371472 [2:28:09<16:27:02,  3.40it/s] 46%|████▌     | 170192/371472 [2:28:10<16:10:08,  3.46it/s] 46%|████▌     | 170193/371472 [2:28:10<15:49:31,  3.53it/s] 46%|████▌     | 170194/371472 [2:28:10<15:40:29,  3.57it/s] 46%|████▌     | 170195/371472 [2:28:10<15:34:28,  3.59it/s] 46%|████▌     | 170196/371472 [2:28:11<15:52:31,  3.52it/s] 46%|████▌     | 170197/371472 [2:28:11<16:03:22,  3.48it/s] 46%|████▌     | 170198/371472 [2:28:11<16:42:08,  3.35it/s] 46%|████▌     | 170199/371472 [2:28:12<16:09:26,  3.46it/s] 46%|████▌     | 170200/371472 [2:28:12<15:36:24,  3.58it/s]                                                            {'loss': 3.1519, 'learning_rate': 5.879032084293994e-07, 'epoch': 7.33}
 46%|████▌     | 170200/371472 [2:28:12<15:36:24,  3.58it/s] 46%|████▌     | 170201/371472 [2:28:12<15:08:52,  3.69it/s] 46%|████▌     | 170202/371472 [2:28:12<15:09:49,  3.69it/s] 46%|████▌     | 170203/371472 [2:28:13<15:10:27,  3.68it/s] 46%|████▌     | 170204/371472 [2:28:13<15:35:40,  3.59it/s] 46%|████▌     | 170205/371472 [2:28:13<15:55:41,  3.51it/s] 46%|████▌     | 170206/371472 [2:28:14<16:26:58,  3.40it/s] 46%|████▌     | 170207/371472 [2:28:14<17:21:19,  3.22it/s] 46%|████▌     | 170208/371472 [2:28:14<16:39:22,  3.36it/s] 46%|████▌     | 170209/371472 [2:28:14<15:45:06,  3.55it/s] 46%|████▌     | 170210/371472 [2:28:15<15:26:17,  3.62it/s] 46%|████▌     | 170211/371472 [2:28:15<15:31:49,  3.60it/s] 46%|████▌     | 170212/371472 [2:28:15<15:22:17,  3.64it/s] 46%|████▌     | 170213/371472 [2:28:15<15:39:07,  3.57it/s] 46%|████▌     | 170214/371472 [2:28:16<15:45:41,  3.55it/s] 46%|████▌     | 170215/371472 [2:28:16<15:43:36,  3.55it/s] 46%|████▌     | 170216/371472 [2:28:16<15:46:02,  3.55it/s] 46%|████▌     | 170217/371472 [2:28:17<15:40:24,  3.57it/s] 46%|████▌     | 170218/371472 [2:28:17<17:16:49,  3.24it/s] 46%|████▌     | 170219/371472 [2:28:17<16:38:21,  3.36it/s] 46%|████▌     | 170220/371472 [2:28:18<16:27:56,  3.40it/s]                                                            {'loss': 3.1691, 'learning_rate': 5.878547264539206e-07, 'epoch': 7.33}
 46%|████▌     | 170220/371472 [2:28:18<16:27:56,  3.40it/s] 46%|████▌     | 170221/371472 [2:28:18<16:03:44,  3.48it/s] 46%|████▌     | 170222/371472 [2:28:18<16:18:31,  3.43it/s] 46%|████▌     | 170223/371472 [2:28:18<16:14:28,  3.44it/s] 46%|████▌     | 170224/371472 [2:28:19<15:56:24,  3.51it/s] 46%|████▌     | 170225/371472 [2:28:19<16:16:29,  3.43it/s] 46%|████▌     | 170226/371472 [2:28:19<15:35:24,  3.59it/s] 46%|████▌     | 170227/371472 [2:28:20<15:38:00,  3.58it/s] 46%|████▌     | 170228/371472 [2:28:20<15:38:50,  3.57it/s] 46%|████▌     | 170229/371472 [2:28:20<17:19:18,  3.23it/s] 46%|████▌     | 170230/371472 [2:28:20<17:32:01,  3.19it/s] 46%|████▌     | 170231/371472 [2:28:21<17:44:12,  3.15it/s] 46%|████▌     | 170232/371472 [2:28:21<18:07:23,  3.08it/s] 46%|████▌     | 170233/371472 [2:28:21<17:11:25,  3.25it/s] 46%|████▌     | 170234/371472 [2:28:22<17:06:06,  3.27it/s] 46%|████▌     | 170235/371472 [2:28:22<16:50:46,  3.32it/s] 46%|████▌     | 170236/371472 [2:28:22<17:00:55,  3.29it/s] 46%|████▌     | 170237/371472 [2:28:23<16:30:37,  3.39it/s] 46%|████▌     | 170238/371472 [2:28:23<16:25:15,  3.40it/s] 46%|████▌     | 170239/371472 [2:28:23<16:46:31,  3.33it/s] 46%|████▌     | 170240/371472 [2:28:23<16:02:39,  3.48it/s]                                                            {'loss': 3.0255, 'learning_rate': 5.878062444784416e-07, 'epoch': 7.33}
 46%|████▌     | 170240/371472 [2:28:23<16:02:39,  3.48it/s] 46%|████▌     | 170241/371472 [2:28:24<15:46:14,  3.54it/s] 46%|████▌     | 170242/371472 [2:28:24<16:15:36,  3.44it/s] 46%|████▌     | 170243/371472 [2:28:24<17:09:30,  3.26it/s] 46%|████▌     | 170244/371472 [2:28:25<16:57:13,  3.30it/s] 46%|████▌     | 170245/371472 [2:28:25<16:16:19,  3.44it/s] 46%|████▌     | 170246/371472 [2:28:25<16:26:55,  3.40it/s] 46%|████▌     | 170247/371472 [2:28:26<16:47:11,  3.33it/s] 46%|████▌     | 170248/371472 [2:28:26<15:46:20,  3.54it/s] 46%|████▌     | 170249/371472 [2:28:26<16:09:27,  3.46it/s] 46%|████▌     | 170250/371472 [2:28:26<15:44:24,  3.55it/s] 46%|████▌     | 170251/371472 [2:28:27<15:13:16,  3.67it/s] 46%|████▌     | 170252/371472 [2:28:27<16:02:11,  3.49it/s] 46%|████▌     | 170253/371472 [2:28:27<16:05:15,  3.47it/s] 46%|████▌     | 170254/371472 [2:28:28<15:49:36,  3.53it/s] 46%|████▌     | 170255/371472 [2:28:28<15:12:08,  3.68it/s] 46%|████▌     | 170256/371472 [2:28:28<15:01:24,  3.72it/s] 46%|████▌     | 170257/371472 [2:28:28<15:50:24,  3.53it/s] 46%|████▌     | 170258/371472 [2:28:29<16:23:47,  3.41it/s] 46%|████▌     | 170259/371472 [2:28:29<16:15:22,  3.44it/s] 46%|████▌     | 170260/371472 [2:28:29<16:47:11,  3.33it/s]                                                            {'loss': 3.0002, 'learning_rate': 5.877577625029627e-07, 'epoch': 7.33}
 46%|████▌     | 170260/371472 [2:28:29<16:47:11,  3.33it/s] 46%|████▌     | 170261/371472 [2:28:30<16:17:11,  3.43it/s] 46%|████▌     | 170262/371472 [2:28:30<15:41:27,  3.56it/s] 46%|████▌     | 170263/371472 [2:28:30<15:40:54,  3.56it/s] 46%|████▌     | 170264/371472 [2:28:30<15:30:51,  3.60it/s] 46%|████▌     | 170265/371472 [2:28:31<15:11:14,  3.68it/s] 46%|████▌     | 170266/371472 [2:28:31<16:31:00,  3.38it/s] 46%|████▌     | 170267/371472 [2:28:31<16:41:19,  3.35it/s] 46%|████▌     | 170268/371472 [2:28:31<15:49:27,  3.53it/s] 46%|████▌     | 170269/371472 [2:28:32<15:28:13,  3.61it/s] 46%|████▌     | 170270/371472 [2:28:32<15:16:25,  3.66it/s] 46%|████▌     | 170271/371472 [2:28:32<15:27:56,  3.61it/s] 46%|████▌     | 170272/371472 [2:28:33<15:02:35,  3.72it/s] 46%|████▌     | 170273/371472 [2:28:33<15:23:28,  3.63it/s] 46%|████▌     | 170274/371472 [2:28:33<16:55:22,  3.30it/s] 46%|████▌     | 170275/371472 [2:28:34<16:42:39,  3.34it/s] 46%|████▌     | 170276/371472 [2:28:34<16:10:49,  3.45it/s] 46%|████▌     | 170277/371472 [2:28:34<17:07:13,  3.26it/s] 46%|████▌     | 170278/371472 [2:28:34<16:44:25,  3.34it/s] 46%|████▌     | 170279/371472 [2:28:35<16:22:26,  3.41it/s] 46%|████▌     | 170280/371472 [2:28:35<15:47:49,  3.54it/s]                                                            {'loss': 3.1555, 'learning_rate': 5.877092805274838e-07, 'epoch': 7.33}
 46%|████▌     | 170280/371472 [2:28:35<15:47:49,  3.54it/s] 46%|████▌     | 170281/371472 [2:28:35<15:41:49,  3.56it/s] 46%|████▌     | 170282/371472 [2:28:36<15:47:23,  3.54it/s] 46%|████▌     | 170283/371472 [2:28:36<15:20:08,  3.64it/s] 46%|████▌     | 170284/371472 [2:28:36<15:24:36,  3.63it/s] 46%|████▌     | 170285/371472 [2:28:36<15:24:01,  3.63it/s] 46%|████▌     | 170286/371472 [2:28:37<14:54:26,  3.75it/s] 46%|████▌     | 170287/371472 [2:28:37<15:34:37,  3.59it/s] 46%|████▌     | 170288/371472 [2:28:37<15:07:52,  3.69it/s] 46%|████▌     | 170289/371472 [2:28:37<14:52:57,  3.76it/s] 46%|████▌     | 170290/371472 [2:28:38<15:18:54,  3.65it/s] 46%|████▌     | 170291/371472 [2:28:38<15:29:38,  3.61it/s] 46%|████▌     | 170292/371472 [2:28:38<15:37:48,  3.58it/s] 46%|████▌     | 170293/371472 [2:28:38<15:22:25,  3.63it/s] 46%|████▌     | 170294/371472 [2:28:39<15:18:37,  3.65it/s] 46%|████▌     | 170295/371472 [2:28:39<15:26:24,  3.62it/s] 46%|████▌     | 170296/371472 [2:28:39<16:25:47,  3.40it/s] 46%|████▌     | 170297/371472 [2:28:40<16:57:03,  3.30it/s] 46%|████▌     | 170298/371472 [2:28:40<17:15:15,  3.24it/s] 46%|████▌     | 170299/371472 [2:28:40<16:53:42,  3.31it/s] 46%|████▌     | 170300/371472 [2:28:41<16:54:07,  3.31it/s]                                                            {'loss': 3.1502, 'learning_rate': 5.87660798552005e-07, 'epoch': 7.34}
 46%|████▌     | 170300/371472 [2:28:41<16:54:07,  3.31it/s] 46%|████▌     | 170301/371472 [2:28:41<16:37:07,  3.36it/s] 46%|████▌     | 170302/371472 [2:28:41<16:05:55,  3.47it/s] 46%|████▌     | 170303/371472 [2:28:41<16:27:31,  3.40it/s] 46%|████▌     | 170304/371472 [2:28:42<16:01:02,  3.49it/s] 46%|████▌     | 170305/371472 [2:28:42<16:25:14,  3.40it/s] 46%|████▌     | 170306/371472 [2:28:42<16:12:53,  3.45it/s] 46%|████▌     | 170307/371472 [2:28:43<16:24:07,  3.41it/s] 46%|████▌     | 170308/371472 [2:28:43<16:05:21,  3.47it/s] 46%|████▌     | 170309/371472 [2:28:43<15:53:57,  3.51it/s] 46%|████▌     | 170310/371472 [2:28:43<15:57:35,  3.50it/s] 46%|████▌     | 170311/371472 [2:28:44<15:44:00,  3.55it/s] 46%|████▌     | 170312/371472 [2:28:44<15:34:27,  3.59it/s] 46%|████▌     | 170313/371472 [2:28:44<15:11:06,  3.68it/s] 46%|████▌     | 170314/371472 [2:28:45<15:09:41,  3.69it/s] 46%|████▌     | 170315/371472 [2:28:45<16:16:59,  3.43it/s] 46%|████▌     | 170316/371472 [2:28:45<15:34:23,  3.59it/s] 46%|████▌     | 170317/371472 [2:28:45<16:12:38,  3.45it/s] 46%|████▌     | 170318/371472 [2:28:46<15:36:42,  3.58it/s] 46%|████▌     | 170319/371472 [2:28:46<15:24:03,  3.63it/s] 46%|████▌     | 170320/371472 [2:28:46<15:16:08,  3.66it/s]                                                            {'loss': 3.3011, 'learning_rate': 5.876123165765261e-07, 'epoch': 7.34}
 46%|████▌     | 170320/371472 [2:28:46<15:16:08,  3.66it/s] 46%|████▌     | 170321/371472 [2:28:47<14:56:29,  3.74it/s] 46%|████▌     | 170322/371472 [2:28:47<16:02:01,  3.48it/s] 46%|████▌     | 170323/371472 [2:28:47<16:54:35,  3.30it/s] 46%|████▌     | 170324/371472 [2:28:47<17:15:01,  3.24it/s] 46%|████▌     | 170325/371472 [2:28:48<17:00:10,  3.29it/s] 46%|████▌     | 170326/371472 [2:28:48<16:45:18,  3.33it/s] 46%|████▌     | 170327/371472 [2:28:48<17:05:42,  3.27it/s] 46%|████▌     | 170328/371472 [2:28:49<16:21:28,  3.42it/s] 46%|████▌     | 170329/371472 [2:28:49<16:10:24,  3.45it/s] 46%|████▌     | 170330/371472 [2:28:49<16:36:42,  3.36it/s] 46%|████▌     | 170331/371472 [2:28:50<16:05:07,  3.47it/s] 46%|████▌     | 170332/371472 [2:28:50<15:35:52,  3.58it/s] 46%|████▌     | 170333/371472 [2:28:50<14:59:44,  3.73it/s] 46%|████▌     | 170334/371472 [2:28:50<14:57:17,  3.74it/s] 46%|████▌     | 170335/371472 [2:28:51<15:35:23,  3.58it/s] 46%|████▌     | 170336/371472 [2:28:51<15:31:17,  3.60it/s] 46%|████▌     | 170337/371472 [2:28:51<15:26:24,  3.62it/s] 46%|████▌     | 170338/371472 [2:28:51<15:42:58,  3.55it/s] 46%|████▌     | 170339/371472 [2:28:52<15:22:06,  3.64it/s] 46%|████▌     | 170340/371472 [2:28:52<15:55:37,  3.51it/s]                                                            {'loss': 2.9592, 'learning_rate': 5.875638346010472e-07, 'epoch': 7.34}
 46%|████▌     | 170340/371472 [2:28:52<15:55:37,  3.51it/s] 46%|████▌     | 170341/371472 [2:28:52<16:31:47,  3.38it/s] 46%|████▌     | 170342/371472 [2:28:53<15:50:55,  3.53it/s] 46%|████▌     | 170343/371472 [2:28:53<15:34:45,  3.59it/s] 46%|████▌     | 170344/371472 [2:28:53<15:04:23,  3.71it/s] 46%|████▌     | 170345/371472 [2:28:53<15:46:51,  3.54it/s] 46%|████▌     | 170346/371472 [2:28:54<15:09:25,  3.69it/s] 46%|████▌     | 170347/371472 [2:28:54<16:29:48,  3.39it/s] 46%|████▌     | 170348/371472 [2:28:54<18:21:31,  3.04it/s] 46%|████▌     | 170349/371472 [2:28:55<17:11:08,  3.25it/s] 46%|████▌     | 170350/371472 [2:28:55<17:32:25,  3.19it/s] 46%|████▌     | 170351/371472 [2:28:55<16:23:51,  3.41it/s] 46%|████▌     | 170352/371472 [2:28:56<15:38:17,  3.57it/s] 46%|████▌     | 170353/371472 [2:28:56<16:21:47,  3.41it/s] 46%|████▌     | 170354/371472 [2:28:56<15:43:46,  3.55it/s] 46%|████▌     | 170355/371472 [2:28:56<15:38:16,  3.57it/s] 46%|████▌     | 170356/371472 [2:28:57<15:22:10,  3.63it/s] 46%|████▌     | 170357/371472 [2:28:57<16:55:07,  3.30it/s] 46%|████▌     | 170358/371472 [2:28:57<15:54:09,  3.51it/s] 46%|████▌     | 170359/371472 [2:28:58<17:19:39,  3.22it/s] 46%|████▌     | 170360/371472 [2:28:58<16:38:25,  3.36it/s]                                                            {'loss': 3.0836, 'learning_rate': 5.875153526255683e-07, 'epoch': 7.34}
 46%|████▌     | 170360/371472 [2:28:58<16:38:25,  3.36it/s] 46%|████▌     | 170361/371472 [2:28:58<16:06:07,  3.47it/s] 46%|████▌     | 170362/371472 [2:28:58<16:16:02,  3.43it/s] 46%|████▌     | 170363/371472 [2:28:59<16:21:47,  3.41it/s] 46%|████▌     | 170364/371472 [2:28:59<16:02:42,  3.48it/s] 46%|████▌     | 170365/371472 [2:28:59<15:58:50,  3.50it/s] 46%|████▌     | 170366/371472 [2:29:00<15:36:15,  3.58it/s] 46%|████▌     | 170367/371472 [2:29:00<15:25:36,  3.62it/s] 46%|████▌     | 170368/371472 [2:29:00<15:25:18,  3.62it/s] 46%|████▌     | 170369/371472 [2:29:00<15:05:55,  3.70it/s] 46%|████▌     | 170370/371472 [2:29:01<15:40:51,  3.56it/s] 46%|████▌     | 170371/371472 [2:29:01<15:22:42,  3.63it/s] 46%|████▌     | 170372/371472 [2:29:01<18:52:58,  2.96it/s] 46%|████▌     | 170373/371472 [2:29:02<18:21:48,  3.04it/s] 46%|████▌     | 170374/371472 [2:29:02<17:00:33,  3.28it/s] 46%|████▌     | 170375/371472 [2:29:02<17:09:54,  3.25it/s] 46%|████▌     | 170376/371472 [2:29:03<16:17:25,  3.43it/s] 46%|████▌     | 170377/371472 [2:29:03<15:30:50,  3.60it/s] 46%|████▌     | 170378/371472 [2:29:03<15:25:05,  3.62it/s] 46%|████▌     | 170379/371472 [2:29:03<15:17:40,  3.65it/s] 46%|████▌     | 170380/371472 [2:29:04<15:31:51,  3.60it/s]                                                            {'loss': 3.3289, 'learning_rate': 5.874668706500894e-07, 'epoch': 7.34}
 46%|████▌     | 170380/371472 [2:29:04<15:31:51,  3.60it/s] 46%|████▌     | 170381/371472 [2:29:04<15:30:56,  3.60it/s] 46%|████▌     | 170382/371472 [2:29:04<15:06:57,  3.70it/s] 46%|████▌     | 170383/371472 [2:29:04<14:51:40,  3.76it/s] 46%|████▌     | 170384/371472 [2:29:05<14:57:34,  3.73it/s] 46%|████▌     | 170385/371472 [2:29:05<14:52:34,  3.75it/s] 46%|████▌     | 170386/371472 [2:29:05<14:59:43,  3.72it/s] 46%|████▌     | 170387/371472 [2:29:05<14:57:10,  3.74it/s] 46%|████▌     | 170388/371472 [2:29:06<14:56:47,  3.74it/s] 46%|████▌     | 170389/371472 [2:29:06<15:33:09,  3.59it/s] 46%|████▌     | 170390/371472 [2:29:06<15:30:06,  3.60it/s] 46%|████▌     | 170391/371472 [2:29:07<19:02:55,  2.93it/s] 46%|████▌     | 170392/371472 [2:29:07<17:50:00,  3.13it/s] 46%|████▌     | 170393/371472 [2:29:07<18:17:15,  3.05it/s] 46%|████▌     | 170394/371472 [2:29:08<17:26:15,  3.20it/s] 46%|████▌     | 170395/371472 [2:29:08<16:46:24,  3.33it/s] 46%|████▌     | 170396/371472 [2:29:08<15:53:45,  3.51it/s] 46%|████▌     | 170397/371472 [2:29:08<15:49:14,  3.53it/s] 46%|████▌     | 170398/371472 [2:29:09<16:34:14,  3.37it/s] 46%|████▌     | 170399/371472 [2:29:09<16:18:01,  3.43it/s] 46%|████▌     | 170400/371472 [2:29:09<15:53:38,  3.51it/s]                                                            {'loss': 3.0328, 'learning_rate': 5.874183886746105e-07, 'epoch': 7.34}
 46%|████▌     | 170400/371472 [2:29:09<15:53:38,  3.51it/s] 46%|████▌     | 170401/371472 [2:29:10<16:15:21,  3.44it/s] 46%|████▌     | 170402/371472 [2:29:10<16:34:16,  3.37it/s] 46%|████▌     | 170403/371472 [2:29:10<17:06:11,  3.27it/s] 46%|████▌     | 170404/371472 [2:29:11<16:49:20,  3.32it/s] 46%|████▌     | 170405/371472 [2:29:11<16:56:48,  3.30it/s] 46%|████▌     | 170406/371472 [2:29:11<16:08:33,  3.46it/s] 46%|████▌     | 170407/371472 [2:29:11<15:52:51,  3.52it/s] 46%|████▌     | 170408/371472 [2:29:12<15:40:35,  3.56it/s] 46%|████▌     | 170409/371472 [2:29:12<15:59:10,  3.49it/s] 46%|████▌     | 170410/371472 [2:29:12<16:44:39,  3.34it/s] 46%|████▌     | 170411/371472 [2:29:13<16:34:49,  3.37it/s] 46%|████▌     | 170412/371472 [2:29:13<17:14:05,  3.24it/s] 46%|████▌     | 170413/371472 [2:29:13<17:14:23,  3.24it/s] 46%|████▌     | 170414/371472 [2:29:14<16:38:08,  3.36it/s] 46%|████▌     | 170415/371472 [2:29:14<17:00:47,  3.28it/s] 46%|████▌     | 170416/371472 [2:29:14<16:54:41,  3.30it/s] 46%|████▌     | 170417/371472 [2:29:14<17:02:50,  3.28it/s] 46%|████▌     | 170418/371472 [2:29:15<16:37:09,  3.36it/s] 46%|████▌     | 170419/371472 [2:29:15<17:06:33,  3.26it/s] 46%|████▌     | 170420/371472 [2:29:15<16:55:08,  3.30it/s]                                                            {'loss': 3.0268, 'learning_rate': 5.873699066991315e-07, 'epoch': 7.34}
 46%|████▌     | 170420/371472 [2:29:15<16:55:08,  3.30it/s] 46%|████▌     | 170421/371472 [2:29:16<16:15:56,  3.43it/s] 46%|████▌     | 170422/371472 [2:29:16<15:55:43,  3.51it/s] 46%|████▌     | 170423/371472 [2:29:16<15:39:47,  3.57it/s] 46%|████▌     | 170424/371472 [2:29:17<17:41:48,  3.16it/s] 46%|████▌     | 170425/371472 [2:29:17<17:00:14,  3.28it/s] 46%|████▌     | 170426/371472 [2:29:17<16:38:40,  3.36it/s] 46%|████▌     | 170427/371472 [2:29:17<15:39:44,  3.57it/s] 46%|████▌     | 170428/371472 [2:29:18<15:35:56,  3.58it/s] 46%|████▌     | 170429/371472 [2:29:18<16:13:09,  3.44it/s] 46%|████▌     | 170430/371472 [2:29:18<16:01:12,  3.49it/s] 46%|████▌     | 170431/371472 [2:29:19<17:46:55,  3.14it/s] 46%|████▌     | 170432/371472 [2:29:19<17:30:26,  3.19it/s] 46%|████▌     | 170433/371472 [2:29:19<16:21:53,  3.41it/s] 46%|████▌     | 170434/371472 [2:29:20<16:55:22,  3.30it/s] 46%|████▌     | 170435/371472 [2:29:20<16:55:52,  3.30it/s] 46%|████▌     | 170436/371472 [2:29:20<16:28:00,  3.39it/s] 46%|████▌     | 170437/371472 [2:29:20<16:26:16,  3.40it/s] 46%|████▌     | 170438/371472 [2:29:21<16:01:43,  3.48it/s] 46%|████▌     | 170439/371472 [2:29:21<17:07:48,  3.26it/s] 46%|████▌     | 170440/371472 [2:29:21<17:49:30,  3.13it/s]                                                            {'loss': 2.8725, 'learning_rate': 5.873214247236527e-07, 'epoch': 7.34}
 46%|████▌     | 170440/371472 [2:29:21<17:49:30,  3.13it/s] 46%|████▌     | 170441/371472 [2:29:22<17:21:21,  3.22it/s] 46%|████▌     | 170442/371472 [2:29:22<16:37:26,  3.36it/s] 46%|████▌     | 170443/371472 [2:29:22<16:12:22,  3.45it/s] 46%|████▌     | 170444/371472 [2:29:22<15:42:11,  3.56it/s] 46%|████▌     | 170445/371472 [2:29:23<15:22:54,  3.63it/s] 46%|████▌     | 170446/371472 [2:29:23<16:31:03,  3.38it/s] 46%|████▌     | 170447/371472 [2:29:23<16:16:33,  3.43it/s] 46%|████▌     | 170448/371472 [2:29:24<16:42:28,  3.34it/s] 46%|████▌     | 170449/371472 [2:29:24<17:08:09,  3.26it/s] 46%|████▌     | 170450/371472 [2:29:24<16:03:45,  3.48it/s] 46%|████▌     | 170451/371472 [2:29:25<16:18:12,  3.42it/s] 46%|████▌     | 170452/371472 [2:29:25<15:53:03,  3.52it/s] 46%|████▌     | 170453/371472 [2:29:25<15:51:37,  3.52it/s] 46%|████▌     | 170454/371472 [2:29:25<16:46:16,  3.33it/s] 46%|████▌     | 170455/371472 [2:29:26<16:49:09,  3.32it/s] 46%|████▌     | 170456/371472 [2:29:26<17:02:57,  3.28it/s] 46%|████▌     | 170457/371472 [2:29:26<16:41:36,  3.34it/s] 46%|████▌     | 170458/371472 [2:29:27<17:51:32,  3.13it/s] 46%|████▌     | 170459/371472 [2:29:27<18:07:38,  3.08it/s] 46%|████▌     | 170460/371472 [2:29:27<17:00:16,  3.28it/s]                                                            {'loss': 3.1858, 'learning_rate': 5.872729427481739e-07, 'epoch': 7.34}
 46%|████▌     | 170460/371472 [2:29:27<17:00:16,  3.28it/s] 46%|████▌     | 170461/371472 [2:29:28<16:10:02,  3.45it/s] 46%|████▌     | 170462/371472 [2:29:28<15:31:53,  3.60it/s] 46%|████▌     | 170463/371472 [2:29:28<15:35:15,  3.58it/s] 46%|████▌     | 170464/371472 [2:29:28<15:37:02,  3.58it/s] 46%|████▌     | 170465/371472 [2:29:29<15:40:37,  3.56it/s] 46%|████▌     | 170466/371472 [2:29:29<15:23:38,  3.63it/s] 46%|████▌     | 170467/371472 [2:29:29<15:13:45,  3.67it/s] 46%|████▌     | 170468/371472 [2:29:29<15:53:00,  3.52it/s] 46%|████▌     | 170469/371472 [2:29:30<15:30:28,  3.60it/s] 46%|████▌     | 170470/371472 [2:29:30<15:25:54,  3.62it/s] 46%|████▌     | 170471/371472 [2:29:30<16:28:05,  3.39it/s] 46%|████▌     | 170472/371472 [2:29:31<15:42:25,  3.55it/s] 46%|████▌     | 170473/371472 [2:29:31<16:24:55,  3.40it/s] 46%|████▌     | 170474/371472 [2:29:31<16:24:20,  3.40it/s] 46%|████▌     | 170475/371472 [2:29:31<16:02:42,  3.48it/s] 46%|████▌     | 170476/371472 [2:29:32<15:44:31,  3.55it/s] 46%|████▌     | 170477/371472 [2:29:32<17:50:54,  3.13it/s] 46%|████▌     | 170478/371472 [2:29:32<16:47:04,  3.33it/s] 46%|████▌     | 170479/371472 [2:29:33<16:31:46,  3.38it/s] 46%|████▌     | 170480/371472 [2:29:33<16:02:04,  3.48it/s]                                                            {'loss': 2.9311, 'learning_rate': 5.87224460772695e-07, 'epoch': 7.34}
 46%|████▌     | 170480/371472 [2:29:33<16:02:04,  3.48it/s] 46%|████▌     | 170481/371472 [2:29:33<15:28:11,  3.61it/s] 46%|████▌     | 170482/371472 [2:29:34<15:56:33,  3.50it/s] 46%|████▌     | 170483/371472 [2:29:34<16:36:02,  3.36it/s] 46%|████▌     | 170484/371472 [2:29:34<16:54:46,  3.30it/s] 46%|████▌     | 170485/371472 [2:29:35<17:49:08,  3.13it/s] 46%|████▌     | 170486/371472 [2:29:35<16:52:04,  3.31it/s] 46%|████▌     | 170487/371472 [2:29:35<17:33:26,  3.18it/s] 46%|████▌     | 170488/371472 [2:29:35<16:43:42,  3.34it/s] 46%|████▌     | 170489/371472 [2:29:36<17:04:23,  3.27it/s] 46%|████▌     | 170490/371472 [2:29:36<16:21:03,  3.41it/s] 46%|████▌     | 170491/371472 [2:29:36<16:01:44,  3.48it/s] 46%|████▌     | 170492/371472 [2:29:37<15:26:23,  3.62it/s] 46%|████▌     | 170493/371472 [2:29:37<15:22:58,  3.63it/s] 46%|████▌     | 170494/371472 [2:29:37<15:07:02,  3.69it/s] 46%|████▌     | 170495/371472 [2:29:37<16:14:23,  3.44it/s] 46%|████▌     | 170496/371472 [2:29:38<15:43:21,  3.55it/s] 46%|████▌     | 170497/371472 [2:29:38<15:28:45,  3.61it/s] 46%|████▌     | 170498/371472 [2:29:38<15:31:43,  3.59it/s] 46%|████▌     | 170499/371472 [2:29:38<15:50:17,  3.52it/s] 46%|████▌     | 170500/371472 [2:29:39<16:05:29,  3.47it/s]                                                            {'loss': 3.0398, 'learning_rate': 5.871759787972159e-07, 'epoch': 7.34}
 46%|████▌     | 170500/371472 [2:29:39<16:05:29,  3.47it/s] 46%|████▌     | 170501/371472 [2:29:39<15:33:45,  3.59it/s] 46%|████▌     | 170502/371472 [2:29:39<15:26:43,  3.61it/s] 46%|████▌     | 170503/371472 [2:29:40<15:37:29,  3.57it/s] 46%|████▌     | 170504/371472 [2:29:40<15:08:41,  3.69it/s] 46%|████▌     | 170505/371472 [2:29:40<14:59:02,  3.73it/s] 46%|████▌     | 170506/371472 [2:29:40<14:56:31,  3.74it/s] 46%|████▌     | 170507/371472 [2:29:41<15:48:52,  3.53it/s] 46%|████▌     | 170508/371472 [2:29:41<17:21:01,  3.22it/s] 46%|████▌     | 170509/371472 [2:29:41<16:26:36,  3.39it/s] 46%|████▌     | 170510/371472 [2:29:42<16:37:56,  3.36it/s] 46%|████▌     | 170511/371472 [2:29:42<17:23:41,  3.21it/s] 46%|████▌     | 170512/371472 [2:29:42<16:48:57,  3.32it/s] 46%|████▌     | 170513/371472 [2:29:43<16:15:18,  3.43it/s] 46%|████▌     | 170514/371472 [2:29:43<15:49:10,  3.53it/s] 46%|████▌     | 170515/371472 [2:29:43<15:52:18,  3.52it/s] 46%|████▌     | 170516/371472 [2:29:43<15:41:12,  3.56it/s] 46%|████▌     | 170517/371472 [2:29:44<16:04:16,  3.47it/s] 46%|████▌     | 170518/371472 [2:29:44<16:07:27,  3.46it/s] 46%|████▌     | 170519/371472 [2:29:44<15:39:10,  3.57it/s] 46%|████▌     | 170520/371472 [2:29:45<16:21:29,  3.41it/s]                                                            {'loss': 3.0922, 'learning_rate': 5.871274968217371e-07, 'epoch': 7.34}
 46%|████▌     | 170520/371472 [2:29:45<16:21:29,  3.41it/s] 46%|████▌     | 170521/371472 [2:29:45<17:04:13,  3.27it/s] 46%|████▌     | 170522/371472 [2:29:45<16:58:41,  3.29it/s] 46%|████▌     | 170523/371472 [2:29:45<16:38:47,  3.35it/s] 46%|████▌     | 170524/371472 [2:29:46<16:07:58,  3.46it/s] 46%|████▌     | 170525/371472 [2:29:46<17:13:58,  3.24it/s] 46%|████▌     | 170526/371472 [2:29:46<16:57:39,  3.29it/s] 46%|████▌     | 170527/371472 [2:29:47<17:40:29,  3.16it/s] 46%|████▌     | 170528/371472 [2:29:47<16:23:12,  3.41it/s] 46%|████▌     | 170529/371472 [2:29:47<16:06:46,  3.46it/s] 46%|████▌     | 170530/371472 [2:29:47<15:41:26,  3.56it/s] 46%|████▌     | 170531/371472 [2:29:48<15:21:12,  3.64it/s] 46%|████▌     | 170532/371472 [2:29:48<15:32:48,  3.59it/s] 46%|████▌     | 170533/371472 [2:29:48<15:47:49,  3.53it/s] 46%|████▌     | 170534/371472 [2:29:49<15:33:01,  3.59it/s] 46%|████▌     | 170535/371472 [2:29:49<14:52:54,  3.75it/s] 46%|████▌     | 170536/371472 [2:29:49<14:42:30,  3.79it/s] 46%|████▌     | 170537/371472 [2:29:49<14:50:08,  3.76it/s] 46%|████▌     | 170538/371472 [2:29:50<15:44:19,  3.55it/s] 46%|████▌     | 170539/371472 [2:29:50<15:22:47,  3.63it/s] 46%|████▌     | 170540/371472 [2:29:50<15:02:27,  3.71it/s]                                                            {'loss': 3.0457, 'learning_rate': 5.870790148462583e-07, 'epoch': 7.35}
 46%|████▌     | 170540/371472 [2:29:50<15:02:27,  3.71it/s] 46%|████▌     | 170541/371472 [2:29:50<15:32:17,  3.59it/s] 46%|████▌     | 170542/371472 [2:29:51<15:54:27,  3.51it/s] 46%|████▌     | 170543/371472 [2:29:51<15:20:13,  3.64it/s] 46%|████▌     | 170544/371472 [2:29:51<14:49:45,  3.76it/s] 46%|████▌     | 170545/371472 [2:29:52<14:42:19,  3.80it/s] 46%|████▌     | 170546/371472 [2:29:52<15:16:59,  3.65it/s] 46%|████▌     | 170547/371472 [2:29:52<15:29:59,  3.60it/s] 46%|████▌     | 170548/371472 [2:29:52<16:16:33,  3.43it/s] 46%|████▌     | 170549/371472 [2:29:53<15:48:08,  3.53it/s] 46%|████▌     | 170550/371472 [2:29:53<15:29:33,  3.60it/s] 46%|████▌     | 170551/371472 [2:29:53<15:39:21,  3.56it/s] 46%|████▌     | 170552/371472 [2:29:54<15:36:12,  3.58it/s] 46%|████▌     | 170553/371472 [2:29:54<15:25:49,  3.62it/s] 46%|████▌     | 170554/371472 [2:29:54<15:31:33,  3.59it/s] 46%|████▌     | 170555/371472 [2:29:55<17:39:03,  3.16it/s] 46%|████▌     | 170556/371472 [2:29:55<17:40:09,  3.16it/s] 46%|████▌     | 170557/371472 [2:29:55<17:11:35,  3.25it/s] 46%|████▌     | 170558/371472 [2:29:55<16:35:40,  3.36it/s] 46%|████▌     | 170559/371472 [2:29:56<16:12:03,  3.44it/s] 46%|████▌     | 170560/371472 [2:29:56<15:36:13,  3.58it/s]                                                            {'loss': 3.0461, 'learning_rate': 5.870305328707794e-07, 'epoch': 7.35}
 46%|████▌     | 170560/371472 [2:29:56<15:36:13,  3.58it/s] 46%|████▌     | 170561/371472 [2:29:56<15:40:39,  3.56it/s] 46%|████▌     | 170562/371472 [2:29:56<15:35:47,  3.58it/s] 46%|████▌     | 170563/371472 [2:29:57<17:19:29,  3.22it/s] 46%|████▌     | 170564/371472 [2:29:57<16:35:23,  3.36it/s] 46%|████▌     | 170565/371472 [2:29:57<16:15:51,  3.43it/s] 46%|████▌     | 170566/371472 [2:29:58<16:39:20,  3.35it/s] 46%|████▌     | 170567/371472 [2:29:58<16:22:33,  3.41it/s] 46%|████▌     | 170568/371472 [2:29:58<16:27:29,  3.39it/s] 46%|████▌     | 170569/371472 [2:29:59<16:09:21,  3.45it/s] 46%|████▌     | 170570/371472 [2:29:59<15:48:12,  3.53it/s] 46%|████▌     | 170571/371472 [2:29:59<15:54:52,  3.51it/s] 46%|████▌     | 170572/371472 [2:29:59<15:38:14,  3.57it/s] 46%|████▌     | 170573/371472 [2:30:00<16:21:08,  3.41it/s] 46%|████▌     | 170574/371472 [2:30:00<18:00:57,  3.10it/s] 46%|████▌     | 170575/371472 [2:30:00<18:23:21,  3.03it/s] 46%|████▌     | 170576/371472 [2:30:01<17:58:49,  3.10it/s] 46%|████▌     | 170577/371472 [2:30:01<16:52:58,  3.31it/s] 46%|████▌     | 170578/371472 [2:30:01<16:37:01,  3.36it/s] 46%|████▌     | 170579/371472 [2:30:02<16:11:02,  3.45it/s] 46%|████▌     | 170580/371472 [2:30:02<15:43:54,  3.55it/s]                                                            {'loss': 3.169, 'learning_rate': 5.869820508953004e-07, 'epoch': 7.35}
 46%|████▌     | 170580/371472 [2:30:02<15:43:54,  3.55it/s] 46%|████▌     | 170581/371472 [2:30:02<15:58:02,  3.49it/s] 46%|████▌     | 170582/371472 [2:30:02<15:34:05,  3.58it/s] 46%|████▌     | 170583/371472 [2:30:03<15:32:29,  3.59it/s] 46%|████▌     | 170584/371472 [2:30:03<15:20:57,  3.64it/s] 46%|████▌     | 170585/371472 [2:30:03<16:43:13,  3.34it/s] 46%|████▌     | 170586/371472 [2:30:04<16:32:51,  3.37it/s] 46%|████▌     | 170587/371472 [2:30:04<15:48:23,  3.53it/s] 46%|████▌     | 170588/371472 [2:30:04<15:16:01,  3.66it/s] 46%|████▌     | 170589/371472 [2:30:04<15:26:35,  3.61it/s] 46%|████▌     | 170590/371472 [2:30:05<15:08:00,  3.69it/s] 46%|████▌     | 170591/371472 [2:30:05<15:25:19,  3.62it/s] 46%|████▌     | 170592/371472 [2:30:05<15:27:57,  3.61it/s] 46%|████▌     | 170593/371472 [2:30:05<15:25:00,  3.62it/s] 46%|████▌     | 170594/371472 [2:30:06<15:30:20,  3.60it/s] 46%|████▌     | 170595/371472 [2:30:06<15:24:47,  3.62it/s] 46%|████▌     | 170596/371472 [2:30:06<16:02:07,  3.48it/s] 46%|████▌     | 170597/371472 [2:30:07<15:52:48,  3.51it/s] 46%|████▌     | 170598/371472 [2:30:07<17:08:38,  3.25it/s] 46%|████▌     | 170599/371472 [2:30:07<16:32:21,  3.37it/s] 46%|████▌     | 170600/371472 [2:30:08<16:21:42,  3.41it/s]                                                            {'loss': 3.1244, 'learning_rate': 5.869335689198216e-07, 'epoch': 7.35}
 46%|████▌     | 170600/371472 [2:30:08<16:21:42,  3.41it/s] 46%|████▌     | 170601/371472 [2:30:08<16:08:35,  3.46it/s] 46%|████▌     | 170602/371472 [2:30:08<15:39:48,  3.56it/s] 46%|████▌     | 170603/371472 [2:30:08<15:50:51,  3.52it/s] 46%|████▌     | 170604/371472 [2:30:09<15:56:44,  3.50it/s] 46%|████▌     | 170605/371472 [2:30:09<16:13:19,  3.44it/s] 46%|████▌     | 170606/371472 [2:30:09<15:33:35,  3.59it/s] 46%|████▌     | 170607/371472 [2:30:09<14:56:53,  3.73it/s] 46%|████▌     | 170608/371472 [2:30:10<14:47:01,  3.77it/s] 46%|████▌     | 170609/371472 [2:30:10<15:33:19,  3.59it/s] 46%|████▌     | 170610/371472 [2:30:10<15:27:47,  3.61it/s] 46%|████▌     | 170611/371472 [2:30:11<15:57:22,  3.50it/s] 46%|████▌     | 170612/371472 [2:30:11<16:54:30,  3.30it/s] 46%|████▌     | 170613/371472 [2:30:11<16:30:40,  3.38it/s] 46%|████▌     | 170614/371472 [2:30:11<15:41:03,  3.56it/s] 46%|████▌     | 170615/371472 [2:30:12<16:13:49,  3.44it/s] 46%|████▌     | 170616/371472 [2:30:12<15:44:23,  3.54it/s] 46%|████▌     | 170617/371472 [2:30:12<15:40:24,  3.56it/s] 46%|████▌     | 170618/371472 [2:30:13<15:57:06,  3.50it/s] 46%|████▌     | 170619/371472 [2:30:13<15:58:22,  3.49it/s] 46%|████▌     | 170620/371472 [2:30:13<16:00:10,  3.49it/s]                                                            {'loss': 3.2442, 'learning_rate': 5.868850869443427e-07, 'epoch': 7.35}
 46%|████▌     | 170620/371472 [2:30:13<16:00:10,  3.49it/s] 46%|████▌     | 170621/371472 [2:30:14<17:11:03,  3.25it/s] 46%|████▌     | 170622/371472 [2:30:14<16:33:26,  3.37it/s] 46%|████▌     | 170623/371472 [2:30:14<16:34:05,  3.37it/s] 46%|████▌     | 170624/371472 [2:30:14<16:19:39,  3.42it/s] 46%|████▌     | 170625/371472 [2:30:15<16:41:55,  3.34it/s] 46%|████▌     | 170626/371472 [2:30:15<15:48:58,  3.53it/s] 46%|████▌     | 170627/371472 [2:30:15<15:46:00,  3.54it/s] 46%|████▌     | 170628/371472 [2:30:16<16:08:21,  3.46it/s] 46%|████▌     | 170629/371472 [2:30:16<16:08:45,  3.46it/s] 46%|████▌     | 170630/371472 [2:30:16<15:55:08,  3.50it/s] 46%|████▌     | 170631/371472 [2:30:16<16:00:07,  3.49it/s] 46%|████▌     | 170632/371472 [2:30:17<15:44:35,  3.54it/s] 46%|████▌     | 170633/371472 [2:30:17<15:40:17,  3.56it/s] 46%|████▌     | 170634/371472 [2:30:17<15:17:19,  3.65it/s] 46%|████▌     | 170635/371472 [2:30:17<15:09:04,  3.68it/s] 46%|████▌     | 170636/371472 [2:30:18<15:20:01,  3.64it/s] 46%|████▌     | 170637/371472 [2:30:18<15:04:48,  3.70it/s] 46%|████▌     | 170638/371472 [2:30:18<15:44:31,  3.54it/s] 46%|████▌     | 170639/371472 [2:30:19<15:11:23,  3.67it/s] 46%|████▌     | 170640/371472 [2:30:19<15:01:10,  3.71it/s]                                                            {'loss': 2.9271, 'learning_rate': 5.868366049688638e-07, 'epoch': 7.35}
 46%|████▌     | 170640/371472 [2:30:19<15:01:10,  3.71it/s] 46%|████▌     | 170641/371472 [2:30:19<15:35:56,  3.58it/s] 46%|████▌     | 170642/371472 [2:30:19<15:14:41,  3.66it/s] 46%|████▌     | 170643/371472 [2:30:20<15:46:45,  3.54it/s] 46%|████▌     | 170644/371472 [2:30:20<15:28:34,  3.60it/s] 46%|████▌     | 170645/371472 [2:30:20<16:35:03,  3.36it/s] 46%|████▌     | 170646/371472 [2:30:21<15:46:08,  3.54it/s] 46%|████▌     | 170647/371472 [2:30:21<16:24:27,  3.40it/s] 46%|████▌     | 170648/371472 [2:30:21<16:05:17,  3.47it/s] 46%|████▌     | 170649/371472 [2:30:21<16:04:02,  3.47it/s] 46%|████▌     | 170650/371472 [2:30:22<17:02:09,  3.27it/s] 46%|████▌     | 170651/371472 [2:30:22<16:19:20,  3.42it/s] 46%|████▌     | 170652/371472 [2:30:22<15:57:09,  3.50it/s] 46%|████▌     | 170653/371472 [2:30:23<16:08:10,  3.46it/s] 46%|████▌     | 170654/371472 [2:30:23<15:27:36,  3.61it/s] 46%|████▌     | 170655/371472 [2:30:23<14:59:51,  3.72it/s] 46%|████▌     | 170656/371472 [2:30:23<14:24:40,  3.87it/s] 46%|████▌     | 170657/371472 [2:30:24<14:09:47,  3.94it/s] 46%|████▌     | 170658/371472 [2:30:24<14:08:43,  3.94it/s] 46%|████▌     | 170659/371472 [2:30:24<14:24:16,  3.87it/s] 46%|████▌     | 170660/371472 [2:30:24<14:51:43,  3.75it/s]                                                            {'loss': 3.3127, 'learning_rate': 5.867881229933848e-07, 'epoch': 7.35}
 46%|████▌     | 170660/371472 [2:30:24<14:51:43,  3.75it/s] 46%|████▌     | 170661/371472 [2:30:25<14:38:37,  3.81it/s] 46%|████▌     | 170662/371472 [2:30:25<14:39:44,  3.80it/s] 46%|████▌     | 170663/371472 [2:30:25<14:35:32,  3.82it/s] 46%|████▌     | 170664/371472 [2:30:25<14:38:25,  3.81it/s] 46%|████▌     | 170665/371472 [2:30:26<14:35:50,  3.82it/s] 46%|████▌     | 170666/371472 [2:30:26<15:14:08,  3.66it/s] 46%|████▌     | 170667/371472 [2:30:26<15:21:41,  3.63it/s] 46%|████▌     | 170668/371472 [2:30:27<15:14:56,  3.66it/s] 46%|████▌     | 170669/371472 [2:30:27<15:28:59,  3.60it/s] 46%|████▌     | 170670/371472 [2:30:27<15:05:47,  3.69it/s] 46%|████▌     | 170671/371472 [2:30:27<16:40:37,  3.34it/s] 46%|████▌     | 170672/371472 [2:30:28<16:16:57,  3.43it/s] 46%|████▌     | 170673/371472 [2:30:28<16:55:01,  3.30it/s] 46%|████▌     | 170674/371472 [2:30:28<17:12:51,  3.24it/s] 46%|████▌     | 170675/371472 [2:30:29<17:18:24,  3.22it/s] 46%|████▌     | 170676/371472 [2:30:29<17:40:53,  3.15it/s] 46%|████▌     | 170677/371472 [2:30:29<18:01:50,  3.09it/s] 46%|████▌     | 170678/371472 [2:30:30<16:58:49,  3.28it/s] 46%|████▌     | 170679/371472 [2:30:30<18:51:04,  2.96it/s] 46%|████▌     | 170680/371472 [2:30:30<17:32:56,  3.18it/s]                                                            {'loss': 3.021, 'learning_rate': 5.86739641017906e-07, 'epoch': 7.35}
 46%|████▌     | 170680/371472 [2:30:30<17:32:56,  3.18it/s] 46%|████▌     | 170681/371472 [2:30:31<17:02:30,  3.27it/s] 46%|████▌     | 170682/371472 [2:30:31<16:15:46,  3.43it/s] 46%|████▌     | 170683/371472 [2:30:31<15:56:17,  3.50it/s] 46%|████▌     | 170684/371472 [2:30:31<15:49:06,  3.53it/s] 46%|████▌     | 170685/371472 [2:30:32<16:00:22,  3.48it/s] 46%|████▌     | 170686/371472 [2:30:32<15:50:30,  3.52it/s] 46%|████▌     | 170687/371472 [2:30:32<16:07:18,  3.46it/s] 46%|████▌     | 170688/371472 [2:30:33<15:45:57,  3.54it/s] 46%|████▌     | 170689/371472 [2:30:33<15:15:41,  3.65it/s] 46%|████▌     | 170690/371472 [2:30:33<15:10:16,  3.68it/s] 46%|████▌     | 170691/371472 [2:30:33<15:43:15,  3.55it/s] 46%|████▌     | 170692/371472 [2:30:34<15:31:48,  3.59it/s] 46%|████▌     | 170693/371472 [2:30:34<15:59:44,  3.49it/s] 46%|████▌     | 170694/371472 [2:30:34<16:02:32,  3.48it/s] 46%|████▌     | 170695/371472 [2:30:35<15:36:18,  3.57it/s] 46%|████▌     | 170696/371472 [2:30:35<15:34:25,  3.58it/s] 46%|████▌     | 170697/371472 [2:30:35<15:06:39,  3.69it/s] 46%|████▌     | 170698/371472 [2:30:35<15:30:29,  3.60it/s] 46%|████▌     | 170699/371472 [2:30:36<15:37:00,  3.57it/s] 46%|████▌     | 170700/371472 [2:30:36<15:19:15,  3.64it/s]                                                            {'loss': 2.9435, 'learning_rate': 5.866911590424271e-07, 'epoch': 7.35}
 46%|████▌     | 170700/371472 [2:30:36<15:19:15,  3.64it/s] 46%|████▌     | 170701/371472 [2:30:36<15:15:26,  3.66it/s] 46%|████▌     | 170702/371472 [2:30:36<15:16:20,  3.65it/s] 46%|████▌     | 170703/371472 [2:30:37<17:38:31,  3.16it/s] 46%|████▌     | 170704/371472 [2:30:37<16:58:01,  3.29it/s] 46%|████▌     | 170705/371472 [2:30:37<17:18:42,  3.22it/s] 46%|████▌     | 170706/371472 [2:30:38<16:42:55,  3.34it/s] 46%|████▌     | 170707/371472 [2:30:38<16:19:41,  3.42it/s] 46%|████▌     | 170708/371472 [2:30:38<15:47:11,  3.53it/s] 46%|████▌     | 170709/371472 [2:30:39<15:30:42,  3.60it/s] 46%|████▌     | 170710/371472 [2:30:39<15:04:51,  3.70it/s] 46%|████▌     | 170711/371472 [2:30:39<16:23:28,  3.40it/s] 46%|████▌     | 170712/371472 [2:30:39<16:08:05,  3.46it/s] 46%|████▌     | 170713/371472 [2:30:40<16:07:10,  3.46it/s] 46%|████▌     | 170714/371472 [2:30:40<16:58:57,  3.28it/s] 46%|████▌     | 170715/371472 [2:30:40<16:31:32,  3.37it/s] 46%|████▌     | 170716/371472 [2:30:41<15:56:08,  3.50it/s] 46%|████▌     | 170717/371472 [2:30:41<15:21:07,  3.63it/s] 46%|████▌     | 170718/371472 [2:30:41<15:10:13,  3.68it/s] 46%|████▌     | 170719/371472 [2:30:41<16:10:05,  3.45it/s] 46%|████▌     | 170720/371472 [2:30:42<17:54:49,  3.11it/s]                                                            {'loss': 3.3186, 'learning_rate': 5.866426770669481e-07, 'epoch': 7.35}
 46%|████▌     | 170720/371472 [2:30:42<17:54:49,  3.11it/s] 46%|████▌     | 170721/371472 [2:30:42<17:16:07,  3.23it/s] 46%|████▌     | 170722/371472 [2:30:42<18:28:37,  3.02it/s] 46%|████▌     | 170723/371472 [2:30:43<17:43:20,  3.15it/s] 46%|████▌     | 170724/371472 [2:30:43<17:22:09,  3.21it/s] 46%|████▌     | 170725/371472 [2:30:43<17:01:52,  3.27it/s] 46%|████▌     | 170726/371472 [2:30:44<16:15:09,  3.43it/s] 46%|████▌     | 170727/371472 [2:30:44<15:28:59,  3.60it/s] 46%|████▌     | 170728/371472 [2:30:44<15:09:03,  3.68it/s] 46%|████▌     | 170729/371472 [2:30:44<15:05:46,  3.69it/s] 46%|████▌     | 170730/371472 [2:30:45<14:57:32,  3.73it/s] 46%|████▌     | 170731/371472 [2:30:45<14:56:56,  3.73it/s] 46%|████▌     | 170732/371472 [2:30:45<15:13:59,  3.66it/s] 46%|████▌     | 170733/371472 [2:30:45<15:35:20,  3.58it/s] 46%|████▌     | 170734/371472 [2:30:46<15:37:16,  3.57it/s] 46%|████▌     | 170735/371472 [2:30:46<15:17:38,  3.65it/s] 46%|████▌     | 170736/371472 [2:30:46<15:24:54,  3.62it/s] 46%|████▌     | 170737/371472 [2:30:47<15:10:19,  3.68it/s] 46%|████▌     | 170738/371472 [2:30:47<15:28:31,  3.60it/s] 46%|████▌     | 170739/371472 [2:30:47<15:43:12,  3.55it/s] 46%|████▌     | 170740/371472 [2:30:47<15:34:14,  3.58it/s]                                                            {'loss': 3.0323, 'learning_rate': 5.865941950914693e-07, 'epoch': 7.35}
 46%|████▌     | 170740/371472 [2:30:47<15:34:14,  3.58it/s] 46%|████▌     | 170741/371472 [2:30:48<15:15:38,  3.65it/s] 46%|████▌     | 170742/371472 [2:30:48<15:35:49,  3.57it/s] 46%|████▌     | 170743/371472 [2:30:48<15:34:16,  3.58it/s] 46%|████▌     | 170744/371472 [2:30:49<15:45:19,  3.54it/s] 46%|████▌     | 170745/371472 [2:30:49<15:33:47,  3.58it/s] 46%|████▌     | 170746/371472 [2:30:49<16:12:21,  3.44it/s] 46%|████▌     | 170747/371472 [2:30:49<16:20:56,  3.41it/s] 46%|████▌     | 170748/371472 [2:30:50<15:58:01,  3.49it/s] 46%|████▌     | 170749/371472 [2:30:50<16:00:42,  3.48it/s] 46%|████▌     | 170750/371472 [2:30:50<17:32:26,  3.18it/s] 46%|████▌     | 170751/371472 [2:30:51<16:34:18,  3.36it/s] 46%|████▌     | 170752/371472 [2:30:51<17:14:51,  3.23it/s] 46%|████▌     | 170753/371472 [2:30:51<17:08:40,  3.25it/s] 46%|████▌     | 170754/371472 [2:30:52<17:37:18,  3.16it/s] 46%|████▌     | 170755/371472 [2:30:52<17:46:17,  3.14it/s] 46%|████▌     | 170756/371472 [2:30:52<16:52:44,  3.30it/s] 46%|████▌     | 170757/371472 [2:30:52<16:12:17,  3.44it/s] 46%|████▌     | 170758/371472 [2:30:53<15:43:24,  3.55it/s] 46%|████▌     | 170759/371472 [2:30:53<15:45:24,  3.54it/s] 46%|████▌     | 170760/371472 [2:30:53<15:10:14,  3.68it/s]                                                            {'loss': 2.9928, 'learning_rate': 5.865457131159904e-07, 'epoch': 7.35}
 46%|████▌     | 170760/371472 [2:30:53<15:10:14,  3.68it/s] 46%|████▌     | 170761/371472 [2:30:54<15:22:16,  3.63it/s] 46%|████▌     | 170762/371472 [2:30:54<16:36:27,  3.36it/s] 46%|████▌     | 170763/371472 [2:30:54<16:25:14,  3.40it/s] 46%|████▌     | 170764/371472 [2:30:55<17:10:23,  3.25it/s] 46%|████▌     | 170765/371472 [2:30:55<16:41:54,  3.34it/s] 46%|████▌     | 170766/371472 [2:30:55<17:16:59,  3.23it/s] 46%|████▌     | 170767/371472 [2:30:55<16:41:35,  3.34it/s] 46%|████▌     | 170768/371472 [2:30:56<17:49:54,  3.13it/s] 46%|████▌     | 170769/371472 [2:30:56<17:22:28,  3.21it/s] 46%|████▌     | 170770/371472 [2:30:56<16:37:46,  3.35it/s] 46%|████▌     | 170771/371472 [2:30:57<16:59:52,  3.28it/s] 46%|████▌     | 170772/371472 [2:30:57<16:13:10,  3.44it/s] 46%|████▌     | 170773/371472 [2:30:57<16:48:53,  3.32it/s] 46%|████▌     | 170774/371472 [2:30:58<16:14:22,  3.43it/s] 46%|████▌     | 170775/371472 [2:30:58<15:49:01,  3.52it/s] 46%|████▌     | 170776/371472 [2:30:58<15:28:20,  3.60it/s] 46%|████▌     | 170777/371472 [2:30:58<15:13:31,  3.66it/s] 46%|████▌     | 170778/371472 [2:30:59<15:29:37,  3.60it/s] 46%|████▌     | 170779/371472 [2:30:59<16:38:15,  3.35it/s] 46%|████▌     | 170780/371472 [2:30:59<16:01:24,  3.48it/s]                                                            {'loss': 3.2012, 'learning_rate': 5.864972311405115e-07, 'epoch': 7.36}
 46%|████▌     | 170780/371472 [2:30:59<16:01:24,  3.48it/s] 46%|████▌     | 170781/371472 [2:30:59<15:55:31,  3.50it/s] 46%|████▌     | 170782/371472 [2:31:00<15:24:19,  3.62it/s] 46%|████▌     | 170783/371472 [2:31:00<16:45:41,  3.33it/s] 46%|████▌     | 170784/371472 [2:31:00<17:41:10,  3.15it/s] 46%|████▌     | 170785/371472 [2:31:01<17:44:18,  3.14it/s] 46%|████▌     | 170786/371472 [2:31:01<17:18:24,  3.22it/s] 46%|████▌     | 170787/371472 [2:31:01<17:00:11,  3.28it/s] 46%|████▌     | 170788/371472 [2:31:02<16:44:19,  3.33it/s] 46%|████▌     | 170789/371472 [2:31:02<16:30:42,  3.38it/s] 46%|████▌     | 170790/371472 [2:31:02<16:09:29,  3.45it/s] 46%|████▌     | 170791/371472 [2:31:02<15:47:35,  3.53it/s] 46%|████▌     | 170792/371472 [2:31:03<16:16:46,  3.42it/s] 46%|████▌     | 170793/371472 [2:31:03<15:50:51,  3.52it/s] 46%|████▌     | 170794/371472 [2:31:03<15:41:08,  3.55it/s] 46%|████▌     | 170795/371472 [2:31:04<15:15:10,  3.65it/s] 46%|████▌     | 170796/371472 [2:31:04<15:50:59,  3.52it/s] 46%|████▌     | 170797/371472 [2:31:04<15:49:07,  3.52it/s] 46%|████▌     | 170798/371472 [2:31:04<15:30:18,  3.60it/s] 46%|████▌     | 170799/371472 [2:31:05<15:03:50,  3.70it/s] 46%|████▌     | 170800/371472 [2:31:05<16:10:50,  3.45it/s]                                                            {'loss': 3.0069, 'learning_rate': 5.864487491650325e-07, 'epoch': 7.36}
 46%|████▌     | 170800/371472 [2:31:05<16:10:50,  3.45it/s] 46%|████▌     | 170801/371472 [2:31:05<15:31:36,  3.59it/s] 46%|████▌     | 170802/371472 [2:31:06<15:31:51,  3.59it/s] 46%|████▌     | 170803/371472 [2:31:06<15:47:22,  3.53it/s] 46%|████▌     | 170804/371472 [2:31:06<15:22:00,  3.63it/s] 46%|████▌     | 170805/371472 [2:31:06<15:11:15,  3.67it/s] 46%|████▌     | 170806/371472 [2:31:07<15:13:12,  3.66it/s] 46%|████▌     | 170807/371472 [2:31:07<15:55:47,  3.50it/s] 46%|████▌     | 170808/371472 [2:31:07<15:37:02,  3.57it/s] 46%|████▌     | 170809/371472 [2:31:08<15:56:05,  3.50it/s] 46%|████▌     | 170810/371472 [2:31:08<15:32:05,  3.59it/s] 46%|████▌     | 170811/371472 [2:31:08<14:54:47,  3.74it/s] 46%|████▌     | 170812/371472 [2:31:08<14:57:33,  3.73it/s] 46%|████▌     | 170813/371472 [2:31:09<14:31:52,  3.84it/s] 46%|████▌     | 170814/371472 [2:31:09<15:39:52,  3.56it/s] 46%|████▌     | 170815/371472 [2:31:09<16:01:31,  3.48it/s] 46%|████▌     | 170816/371472 [2:31:09<15:19:29,  3.64it/s] 46%|████▌     | 170817/371472 [2:31:10<15:28:21,  3.60it/s] 46%|████▌     | 170818/371472 [2:31:10<15:36:49,  3.57it/s] 46%|████▌     | 170819/371472 [2:31:10<15:18:30,  3.64it/s] 46%|████▌     | 170820/371472 [2:31:11<16:26:36,  3.39it/s]                                                            {'loss': 3.1395, 'learning_rate': 5.864002671895537e-07, 'epoch': 7.36}
 46%|████▌     | 170820/371472 [2:31:11<16:26:36,  3.39it/s] 46%|████▌     | 170821/371472 [2:31:11<16:36:56,  3.35it/s] 46%|████▌     | 170822/371472 [2:31:11<16:12:08,  3.44it/s] 46%|████▌     | 170823/371472 [2:31:11<16:21:55,  3.41it/s] 46%|████▌     | 170824/371472 [2:31:12<18:27:28,  3.02it/s] 46%|████▌     | 170825/371472 [2:31:12<17:21:06,  3.21it/s] 46%|████▌     | 170826/371472 [2:31:13<18:03:02,  3.09it/s] 46%|████▌     | 170827/371472 [2:31:13<17:13:01,  3.24it/s] 46%|████▌     | 170828/371472 [2:31:13<16:20:46,  3.41it/s] 46%|████▌     | 170829/371472 [2:31:13<16:28:21,  3.38it/s] 46%|████▌     | 170830/371472 [2:31:14<16:51:46,  3.31it/s] 46%|████▌     | 170831/371472 [2:31:14<16:06:23,  3.46it/s] 46%|████▌     | 170832/371472 [2:31:14<15:24:45,  3.62it/s] 46%|████▌     | 170833/371472 [2:31:14<16:06:32,  3.46it/s] 46%|████▌     | 170834/371472 [2:31:15<15:58:43,  3.49it/s] 46%|████▌     | 170835/371472 [2:31:15<15:23:43,  3.62it/s] 46%|████▌     | 170836/371472 [2:31:15<15:08:53,  3.68it/s] 46%|████▌     | 170837/371472 [2:31:16<14:56:04,  3.73it/s] 46%|████▌     | 170838/371472 [2:31:16<14:51:36,  3.75it/s] 46%|████▌     | 170839/371472 [2:31:16<15:11:34,  3.67it/s] 46%|████▌     | 170840/371472 [2:31:16<15:47:31,  3.53it/s]                                                            {'loss': 2.9545, 'learning_rate': 5.863517852140749e-07, 'epoch': 7.36}
 46%|████▌     | 170840/371472 [2:31:16<15:47:31,  3.53it/s] 46%|████▌     | 170841/371472 [2:31:17<15:50:19,  3.52it/s] 46%|████▌     | 170842/371472 [2:31:17<15:31:43,  3.59it/s] 46%|████▌     | 170843/371472 [2:31:17<16:06:22,  3.46it/s] 46%|████▌     | 170844/371472 [2:31:18<16:07:37,  3.46it/s] 46%|████▌     | 170845/371472 [2:31:18<15:41:08,  3.55it/s] 46%|████▌     | 170846/371472 [2:31:18<15:02:55,  3.70it/s] 46%|████▌     | 170847/371472 [2:31:18<15:20:17,  3.63it/s] 46%|████▌     | 170848/371472 [2:31:19<15:16:36,  3.65it/s] 46%|████▌     | 170849/371472 [2:31:19<16:00:32,  3.48it/s] 46%|████▌     | 170850/371472 [2:31:19<16:05:13,  3.46it/s] 46%|████▌     | 170851/371472 [2:31:19<15:15:53,  3.65it/s] 46%|████▌     | 170852/371472 [2:31:20<16:08:34,  3.45it/s] 46%|████▌     | 170853/371472 [2:31:20<15:23:57,  3.62it/s] 46%|████▌     | 170854/371472 [2:31:20<16:55:32,  3.29it/s] 46%|████▌     | 170855/371472 [2:31:21<17:35:44,  3.17it/s] 46%|████▌     | 170856/371472 [2:31:21<18:29:34,  3.01it/s] 46%|████▌     | 170857/371472 [2:31:21<17:08:43,  3.25it/s] 46%|████▌     | 170858/371472 [2:31:22<16:25:47,  3.39it/s] 46%|████▌     | 170859/371472 [2:31:22<15:57:59,  3.49it/s] 46%|████▌     | 170860/371472 [2:31:22<15:30:37,  3.59it/s]                                                            {'loss': 2.9415, 'learning_rate': 5.86303303238596e-07, 'epoch': 7.36}
 46%|████▌     | 170860/371472 [2:31:22<15:30:37,  3.59it/s] 46%|████▌     | 170861/371472 [2:31:23<16:41:08,  3.34it/s] 46%|████▌     | 170862/371472 [2:31:23<15:49:14,  3.52it/s] 46%|████▌     | 170863/371472 [2:31:23<15:13:13,  3.66it/s] 46%|████▌     | 170864/371472 [2:31:23<16:16:26,  3.42it/s] 46%|████▌     | 170865/371472 [2:31:24<16:08:51,  3.45it/s] 46%|████▌     | 170866/371472 [2:31:24<15:26:49,  3.61it/s] 46%|████▌     | 170867/371472 [2:31:24<14:54:28,  3.74it/s] 46%|████▌     | 170868/371472 [2:31:24<15:14:13,  3.66it/s] 46%|████▌     | 170869/371472 [2:31:25<15:39:02,  3.56it/s] 46%|████▌     | 170870/371472 [2:31:25<15:00:43,  3.71it/s] 46%|████▌     | 170871/371472 [2:31:25<15:05:03,  3.69it/s] 46%|████▌     | 170872/371472 [2:31:25<14:57:10,  3.73it/s] 46%|████▌     | 170873/371472 [2:31:26<15:32:37,  3.58it/s] 46%|████▌     | 170874/371472 [2:31:26<15:59:07,  3.49it/s] 46%|████▌     | 170875/371472 [2:31:26<15:52:07,  3.51it/s] 46%|████▌     | 170876/371472 [2:31:27<16:36:04,  3.36it/s] 46%|████▌     | 170877/371472 [2:31:27<15:47:41,  3.53it/s] 46%|████▌     | 170878/371472 [2:31:27<15:27:56,  3.60it/s] 46%|████▌     | 170879/371472 [2:31:27<14:59:04,  3.72it/s] 46%|████▌     | 170880/371472 [2:31:28<14:48:34,  3.76it/s]                                                            {'loss': 3.3186, 'learning_rate': 5.862548212631169e-07, 'epoch': 7.36}
 46%|████▌     | 170880/371472 [2:31:28<14:48:34,  3.76it/s] 46%|████▌     | 170881/371472 [2:31:28<16:16:05,  3.43it/s] 46%|████▌     | 170882/371472 [2:31:28<15:49:22,  3.52it/s] 46%|████▌     | 170883/371472 [2:31:29<15:33:42,  3.58it/s] 46%|████▌     | 170884/371472 [2:31:29<16:48:53,  3.31it/s] 46%|████▌     | 170885/371472 [2:31:29<16:13:44,  3.43it/s] 46%|████▌     | 170886/371472 [2:31:30<16:15:10,  3.43it/s] 46%|████▌     | 170887/371472 [2:31:30<16:29:26,  3.38it/s] 46%|████▌     | 170888/371472 [2:31:30<17:00:59,  3.27it/s] 46%|████▌     | 170889/371472 [2:31:30<16:30:44,  3.37it/s] 46%|████▌     | 170890/371472 [2:31:31<16:16:20,  3.42it/s] 46%|████▌     | 170891/371472 [2:31:31<15:57:38,  3.49it/s] 46%|████▌     | 170892/371472 [2:31:31<16:12:02,  3.44it/s] 46%|████▌     | 170893/371472 [2:31:32<16:55:18,  3.29it/s] 46%|████▌     | 170894/371472 [2:31:32<17:39:34,  3.15it/s] 46%|████▌     | 170895/371472 [2:31:32<17:18:33,  3.22it/s] 46%|████▌     | 170896/371472 [2:31:33<17:37:01,  3.16it/s] 46%|████▌     | 170897/371472 [2:31:33<16:58:40,  3.28it/s] 46%|████▌     | 170898/371472 [2:31:33<16:20:25,  3.41it/s] 46%|████▌     | 170899/371472 [2:31:33<16:36:32,  3.35it/s] 46%|████▌     | 170900/371472 [2:31:34<15:59:30,  3.48it/s]                                                            {'loss': 2.9814, 'learning_rate': 5.862063392876381e-07, 'epoch': 7.36}
 46%|████▌     | 170900/371472 [2:31:34<15:59:30,  3.48it/s] 46%|████▌     | 170901/371472 [2:31:34<16:57:06,  3.29it/s] 46%|████▌     | 170902/371472 [2:31:34<16:10:36,  3.44it/s] 46%|████▌     | 170903/371472 [2:31:35<16:26:26,  3.39it/s] 46%|████▌     | 170904/371472 [2:31:35<16:16:09,  3.42it/s] 46%|████▌     | 170905/371472 [2:31:35<15:42:23,  3.55it/s] 46%|████▌     | 170906/371472 [2:31:35<15:03:56,  3.70it/s] 46%|████▌     | 170907/371472 [2:31:36<14:42:57,  3.79it/s] 46%|████▌     | 170908/371472 [2:31:36<14:24:46,  3.87it/s] 46%|████▌     | 170909/371472 [2:31:36<14:50:21,  3.75it/s] 46%|████▌     | 170910/371472 [2:31:36<15:23:03,  3.62it/s] 46%|████▌     | 170911/371472 [2:31:37<15:38:44,  3.56it/s] 46%|████▌     | 170912/371472 [2:31:37<16:43:59,  3.33it/s] 46%|████▌     | 170913/371472 [2:31:37<17:43:48,  3.14it/s] 46%|████▌     | 170914/371472 [2:31:38<17:09:26,  3.25it/s] 46%|████▌     | 170915/371472 [2:31:38<16:16:18,  3.42it/s] 46%|████▌     | 170916/371472 [2:31:38<16:50:20,  3.31it/s] 46%|████▌     | 170917/371472 [2:31:39<16:24:34,  3.39it/s] 46%|████▌     | 170918/371472 [2:31:39<16:21:50,  3.40it/s] 46%|████▌     | 170919/371472 [2:31:39<16:06:11,  3.46it/s] 46%|████▌     | 170920/371472 [2:31:40<16:53:20,  3.30it/s]                                                            {'loss': 3.0287, 'learning_rate': 5.861578573121593e-07, 'epoch': 7.36}
 46%|████▌     | 170920/371472 [2:31:40<16:53:20,  3.30it/s] 46%|████▌     | 170921/371472 [2:31:40<16:08:21,  3.45it/s] 46%|████▌     | 170922/371472 [2:31:40<16:17:04,  3.42it/s] 46%|████▌     | 170923/371472 [2:31:40<15:50:47,  3.52it/s] 46%|████▌     | 170924/371472 [2:31:41<15:40:23,  3.55it/s] 46%|████▌     | 170925/371472 [2:31:41<15:15:13,  3.65it/s] 46%|████▌     | 170926/371472 [2:31:41<15:10:22,  3.67it/s] 46%|████▌     | 170927/371472 [2:31:41<15:28:15,  3.60it/s] 46%|████▌     | 170928/371472 [2:31:42<15:22:41,  3.62it/s] 46%|████▌     | 170929/371472 [2:31:42<14:58:06,  3.72it/s] 46%|████▌     | 170930/371472 [2:31:42<14:45:27,  3.77it/s] 46%|████▌     | 170931/371472 [2:31:42<14:47:29,  3.77it/s] 46%|████▌     | 170932/371472 [2:31:43<15:38:17,  3.56it/s] 46%|████▌     | 170933/371472 [2:31:43<15:10:22,  3.67it/s] 46%|████▌     | 170934/371472 [2:31:43<16:51:38,  3.30it/s] 46%|████▌     | 170935/371472 [2:31:44<16:30:37,  3.37it/s] 46%|████▌     | 170936/371472 [2:31:44<15:56:15,  3.50it/s] 46%|████▌     | 170937/371472 [2:31:44<16:04:19,  3.47it/s] 46%|████▌     | 170938/371472 [2:31:45<20:58:27,  2.66it/s] 46%|████▌     | 170939/371472 [2:31:45<20:50:53,  2.67it/s] 46%|████▌     | 170940/371472 [2:31:46<20:14:55,  2.75it/s]                                                            {'loss': 3.068, 'learning_rate': 5.861093753366804e-07, 'epoch': 7.36}
 46%|████▌     | 170940/371472 [2:31:46<20:14:55,  2.75it/s] 46%|████▌     | 170941/371472 [2:31:46<18:55:18,  2.94it/s] 46%|████▌     | 170942/371472 [2:31:46<17:20:50,  3.21it/s] 46%|████▌     | 170943/371472 [2:31:46<17:21:27,  3.21it/s] 46%|████▌     | 170944/371472 [2:31:47<17:17:55,  3.22it/s] 46%|████▌     | 170945/371472 [2:31:47<16:44:46,  3.33it/s] 46%|████▌     | 170946/371472 [2:31:47<17:15:45,  3.23it/s] 46%|████▌     | 170947/371472 [2:31:48<18:39:09,  2.99it/s] 46%|████▌     | 170948/371472 [2:31:48<17:32:36,  3.18it/s] 46%|████▌     | 170949/371472 [2:31:48<17:27:18,  3.19it/s] 46%|████▌     | 170950/371472 [2:31:49<16:28:39,  3.38it/s] 46%|████▌     | 170951/371472 [2:31:49<16:11:07,  3.44it/s] 46%|████▌     | 170952/371472 [2:31:49<15:59:23,  3.48it/s] 46%|████▌     | 170953/371472 [2:31:49<15:48:27,  3.52it/s] 46%|████▌     | 170954/371472 [2:31:50<15:58:20,  3.49it/s] 46%|████▌     | 170955/371472 [2:31:50<16:18:16,  3.42it/s] 46%|████▌     | 170956/371472 [2:31:50<16:10:27,  3.44it/s] 46%|████▌     | 170957/371472 [2:31:51<15:53:55,  3.50it/s] 46%|████▌     | 170958/371472 [2:31:51<16:01:38,  3.48it/s] 46%|████▌     | 170959/371472 [2:31:51<15:45:38,  3.53it/s] 46%|████▌     | 170960/371472 [2:31:51<16:25:50,  3.39it/s]                                                            {'loss': 2.91, 'learning_rate': 5.860608933612014e-07, 'epoch': 7.36}
 46%|████▌     | 170960/371472 [2:31:51<16:25:50,  3.39it/s] 46%|████▌     | 170961/371472 [2:31:52<15:55:05,  3.50it/s] 46%|████▌     | 170962/371472 [2:31:52<15:34:06,  3.58it/s] 46%|████▌     | 170963/371472 [2:31:52<18:40:51,  2.98it/s] 46%|████▌     | 170964/371472 [2:31:53<17:45:13,  3.14it/s] 46%|████▌     | 170965/371472 [2:31:53<18:36:04,  2.99it/s] 46%|████▌     | 170966/371472 [2:31:53<18:20:23,  3.04it/s] 46%|████▌     | 170967/371472 [2:31:54<17:07:47,  3.25it/s] 46%|████▌     | 170968/371472 [2:31:54<16:53:48,  3.30it/s] 46%|████▌     | 170969/371472 [2:31:54<16:26:55,  3.39it/s] 46%|████▌     | 170970/371472 [2:31:54<15:40:16,  3.55it/s] 46%|████▌     | 170971/371472 [2:31:55<15:21:31,  3.63it/s] 46%|████▌     | 170972/371472 [2:31:55<15:15:20,  3.65it/s] 46%|████▌     | 170973/371472 [2:31:55<16:04:57,  3.46it/s] 46%|████▌     | 170974/371472 [2:31:56<17:43:52,  3.14it/s] 46%|████▌     | 170975/371472 [2:31:56<17:31:00,  3.18it/s] 46%|████▌     | 170976/371472 [2:31:56<17:22:14,  3.21it/s] 46%|████▌     | 170977/371472 [2:31:57<16:47:49,  3.32it/s] 46%|████▌     | 170978/371472 [2:31:57<16:12:50,  3.43it/s] 46%|████▌     | 170979/371472 [2:31:57<16:23:51,  3.40it/s] 46%|████▌     | 170980/371472 [2:31:58<18:13:41,  3.06it/s]                                                            {'loss': 2.9702, 'learning_rate': 5.860124113857227e-07, 'epoch': 7.36}
 46%|████▌     | 170980/371472 [2:31:58<18:13:41,  3.06it/s] 46%|████▌     | 170981/371472 [2:31:58<17:03:04,  3.27it/s] 46%|████▌     | 170982/371472 [2:31:58<16:18:39,  3.41it/s] 46%|████▌     | 170983/371472 [2:31:58<15:35:38,  3.57it/s] 46%|████▌     | 170984/371472 [2:31:59<15:15:32,  3.65it/s] 46%|████▌     | 170985/371472 [2:31:59<14:53:46,  3.74it/s] 46%|████▌     | 170986/371472 [2:31:59<14:52:52,  3.74it/s] 46%|████▌     | 170987/371472 [2:31:59<14:57:31,  3.72it/s] 46%|████▌     | 170988/371472 [2:32:00<17:07:47,  3.25it/s] 46%|████▌     | 170989/371472 [2:32:00<16:29:03,  3.38it/s] 46%|████▌     | 170990/371472 [2:32:00<16:02:37,  3.47it/s] 46%|████▌     | 170991/371472 [2:32:01<16:10:48,  3.44it/s] 46%|████▌     | 170992/371472 [2:32:01<15:28:24,  3.60it/s] 46%|████▌     | 170993/371472 [2:32:01<15:20:10,  3.63it/s] 46%|████▌     | 170994/371472 [2:32:01<15:17:58,  3.64it/s] 46%|████▌     | 170995/371472 [2:32:02<14:44:06,  3.78it/s] 46%|████▌     | 170996/371472 [2:32:02<14:36:29,  3.81it/s] 46%|████▌     | 170997/371472 [2:32:02<14:37:37,  3.81it/s] 46%|████▌     | 170998/371472 [2:32:02<14:16:25,  3.90it/s] 46%|████▌     | 170999/371472 [2:32:03<14:20:10,  3.88it/s] 46%|████▌     | 171000/371472 [2:32:03<15:16:45,  3.64it/s]                                                            {'loss': 3.2186, 'learning_rate': 5.859639294102437e-07, 'epoch': 7.37}
 46%|████▌     | 171000/371472 [2:32:03<15:16:45,  3.64it/s] 46%|████▌     | 171001/371472 [2:32:03<15:35:20,  3.57it/s] 46%|████▌     | 171002/371472 [2:32:04<15:38:53,  3.56it/s] 46%|████▌     | 171003/371472 [2:32:04<16:06:08,  3.46it/s] 46%|████▌     | 171004/371472 [2:32:04<15:33:46,  3.58it/s] 46%|████▌     | 171005/371472 [2:32:04<15:37:42,  3.56it/s] 46%|████▌     | 171006/371472 [2:32:05<15:40:04,  3.55it/s] 46%|████▌     | 171007/371472 [2:32:05<15:33:47,  3.58it/s] 46%|████▌     | 171008/371472 [2:32:05<15:22:52,  3.62it/s] 46%|████▌     | 171009/371472 [2:32:06<15:32:58,  3.58it/s] 46%|████▌     | 171010/371472 [2:32:06<15:06:48,  3.68it/s] 46%|████▌     | 171011/371472 [2:32:06<15:31:18,  3.59it/s] 46%|████▌     | 171012/371472 [2:32:06<16:15:31,  3.42it/s] 46%|████▌     | 171013/371472 [2:32:07<16:31:37,  3.37it/s] 46%|████▌     | 171014/371472 [2:32:07<16:39:54,  3.34it/s] 46%|████▌     | 171015/371472 [2:32:07<16:53:12,  3.30it/s] 46%|████▌     | 171016/371472 [2:32:08<16:56:20,  3.29it/s] 46%|████▌     | 171017/371472 [2:32:08<16:21:52,  3.40it/s] 46%|████▌     | 171018/371472 [2:32:08<15:44:18,  3.54it/s] 46%|████▌     | 171019/371472 [2:32:08<15:25:56,  3.61it/s] 46%|████▌     | 171020/371472 [2:32:09<15:34:11,  3.58it/s]                                                            {'loss': 3.0345, 'learning_rate': 5.859154474347647e-07, 'epoch': 7.37}
 46%|████▌     | 171020/371472 [2:32:09<15:34:11,  3.58it/s] 46%|████▌     | 171021/371472 [2:32:09<15:05:14,  3.69it/s] 46%|████▌     | 171022/371472 [2:32:09<15:05:03,  3.69it/s] 46%|████▌     | 171023/371472 [2:32:10<15:16:41,  3.64it/s] 46%|████▌     | 171024/371472 [2:32:10<15:31:57,  3.58it/s] 46%|████▌     | 171025/371472 [2:32:10<17:32:30,  3.17it/s] 46%|████▌     | 171026/371472 [2:32:10<17:03:18,  3.26it/s] 46%|████▌     | 171027/371472 [2:32:11<16:28:50,  3.38it/s] 46%|████▌     | 171028/371472 [2:32:11<15:53:14,  3.50it/s] 46%|████▌     | 171029/371472 [2:32:11<17:07:28,  3.25it/s] 46%|████▌     | 171030/371472 [2:32:12<16:33:35,  3.36it/s] 46%|████▌     | 171031/371472 [2:32:12<16:18:36,  3.41it/s] 46%|████▌     | 171032/371472 [2:32:12<15:49:47,  3.52it/s] 46%|████▌     | 171033/371472 [2:32:13<16:40:05,  3.34it/s] 46%|████▌     | 171034/371472 [2:32:13<16:57:42,  3.28it/s] 46%|████▌     | 171035/371472 [2:32:13<16:49:09,  3.31it/s] 46%|████▌     | 171036/371472 [2:32:13<16:50:15,  3.31it/s] 46%|████▌     | 171037/371472 [2:32:14<16:32:56,  3.36it/s] 46%|████▌     | 171038/371472 [2:32:14<16:25:24,  3.39it/s] 46%|████▌     | 171039/371472 [2:32:14<17:08:23,  3.25it/s] 46%|████▌     | 171040/371472 [2:32:15<16:17:26,  3.42it/s]                                                            {'loss': 3.0458, 'learning_rate': 5.858669654592858e-07, 'epoch': 7.37}
 46%|████▌     | 171040/371472 [2:32:15<16:17:26,  3.42it/s] 46%|████▌     | 171041/371472 [2:32:15<15:57:35,  3.49it/s] 46%|████▌     | 171042/371472 [2:32:15<15:20:25,  3.63it/s] 46%|████▌     | 171043/371472 [2:32:15<16:06:18,  3.46it/s] 46%|████▌     | 171044/371472 [2:32:16<16:11:22,  3.44it/s] 46%|████▌     | 171045/371472 [2:32:16<15:27:52,  3.60it/s] 46%|████▌     | 171046/371472 [2:32:16<15:26:27,  3.61it/s] 46%|████▌     | 171047/371472 [2:32:17<15:29:44,  3.59it/s] 46%|████▌     | 171048/371472 [2:32:17<15:55:10,  3.50it/s] 46%|████▌     | 171049/371472 [2:32:17<15:58:22,  3.49it/s] 46%|████▌     | 171050/371472 [2:32:17<16:51:07,  3.30it/s] 46%|████▌     | 171051/371472 [2:32:18<16:45:11,  3.32it/s] 46%|████▌     | 171052/371472 [2:32:18<16:10:57,  3.44it/s] 46%|████▌     | 171053/371472 [2:32:18<15:48:00,  3.52it/s] 46%|████▌     | 171054/371472 [2:32:19<16:01:09,  3.48it/s] 46%|████▌     | 171055/371472 [2:32:19<15:55:57,  3.49it/s] 46%|████▌     | 171056/371472 [2:32:19<15:30:37,  3.59it/s] 46%|████▌     | 171057/371472 [2:32:19<16:03:03,  3.47it/s] 46%|████▌     | 171058/371472 [2:32:20<16:17:14,  3.42it/s] 46%|████▌     | 171059/371472 [2:32:20<16:57:47,  3.28it/s] 46%|████▌     | 171060/371472 [2:32:20<17:20:43,  3.21it/s]                                                            {'loss': 3.1395, 'learning_rate': 5.85818483483807e-07, 'epoch': 7.37}
 46%|████▌     | 171060/371472 [2:32:20<17:20:43,  3.21it/s] 46%|████▌     | 171061/371472 [2:32:21<16:33:08,  3.36it/s] 46%|████▌     | 171062/371472 [2:32:21<16:08:48,  3.45it/s] 46%|████▌     | 171063/371472 [2:32:21<15:47:06,  3.53it/s] 46%|████▌     | 171064/371472 [2:32:22<15:57:43,  3.49it/s] 46%|████▌     | 171065/371472 [2:32:22<16:13:19,  3.43it/s] 46%|████▌     | 171066/371472 [2:32:22<15:28:06,  3.60it/s] 46%|████▌     | 171067/371472 [2:32:22<15:02:19,  3.70it/s] 46%|████▌     | 171068/371472 [2:32:23<15:02:12,  3.70it/s] 46%|████▌     | 171069/371472 [2:32:23<15:45:21,  3.53it/s] 46%|████▌     | 171070/371472 [2:32:23<15:17:34,  3.64it/s] 46%|████▌     | 171071/371472 [2:32:23<15:09:58,  3.67it/s] 46%|████▌     | 171072/371472 [2:32:24<15:57:05,  3.49it/s] 46%|████▌     | 171073/371472 [2:32:24<15:50:44,  3.51it/s] 46%|████▌     | 171074/371472 [2:32:24<15:39:51,  3.55it/s] 46%|████▌     | 171075/371472 [2:32:25<15:48:40,  3.52it/s] 46%|████▌     | 171076/371472 [2:32:25<16:06:53,  3.45it/s] 46%|████▌     | 171077/371472 [2:32:25<16:59:37,  3.28it/s] 46%|████▌     | 171078/371472 [2:32:26<16:44:08,  3.33it/s] 46%|████▌     | 171079/371472 [2:32:26<16:22:36,  3.40it/s] 46%|████▌     | 171080/371472 [2:32:26<16:17:39,  3.42it/s]                                                            {'loss': 3.0421, 'learning_rate': 5.857700015083282e-07, 'epoch': 7.37}
 46%|████▌     | 171080/371472 [2:32:26<16:17:39,  3.42it/s] 46%|████▌     | 171081/371472 [2:32:26<15:52:09,  3.51it/s] 46%|████▌     | 171082/371472 [2:32:27<15:42:04,  3.55it/s] 46%|████▌     | 171083/371472 [2:32:27<16:45:11,  3.32it/s] 46%|████▌     | 171084/371472 [2:32:27<17:11:16,  3.24it/s] 46%|████▌     | 171085/371472 [2:32:28<16:36:51,  3.35it/s] 46%|████▌     | 171086/371472 [2:32:28<15:52:08,  3.51it/s] 46%|████▌     | 171087/371472 [2:32:28<15:29:32,  3.59it/s] 46%|████▌     | 171088/371472 [2:32:28<15:54:18,  3.50it/s] 46%|████▌     | 171089/371472 [2:32:29<17:26:29,  3.19it/s] 46%|████▌     | 171090/371472 [2:32:29<17:22:22,  3.20it/s] 46%|████▌     | 171091/371472 [2:32:29<16:28:48,  3.38it/s] 46%|████▌     | 171092/371472 [2:32:30<16:16:02,  3.42it/s] 46%|████▌     | 171093/371472 [2:32:30<15:40:36,  3.55it/s] 46%|████▌     | 171094/371472 [2:32:30<15:33:01,  3.58it/s] 46%|████▌     | 171095/371472 [2:32:30<15:47:27,  3.52it/s] 46%|████▌     | 171096/371472 [2:32:31<15:43:56,  3.54it/s] 46%|████▌     | 171097/371472 [2:32:31<15:26:54,  3.60it/s] 46%|████▌     | 171098/371472 [2:32:31<14:58:52,  3.72it/s] 46%|████▌     | 171099/371472 [2:32:32<14:43:18,  3.78it/s] 46%|████▌     | 171100/371472 [2:32:32<15:26:19,  3.61it/s]                                                            {'loss': 3.0941, 'learning_rate': 5.857215195328492e-07, 'epoch': 7.37}
 46%|████▌     | 171100/371472 [2:32:32<15:26:19,  3.61it/s] 46%|████▌     | 171101/371472 [2:32:32<15:11:36,  3.66it/s] 46%|████▌     | 171102/371472 [2:32:32<15:07:29,  3.68it/s] 46%|████▌     | 171103/371472 [2:32:33<15:41:17,  3.55it/s] 46%|████▌     | 171104/371472 [2:32:33<15:24:28,  3.61it/s] 46%|████▌     | 171105/371472 [2:32:33<15:21:36,  3.62it/s] 46%|████▌     | 171106/371472 [2:32:34<15:40:16,  3.55it/s] 46%|████▌     | 171107/371472 [2:32:34<15:26:55,  3.60it/s] 46%|████▌     | 171108/371472 [2:32:34<15:32:53,  3.58it/s] 46%|████▌     | 171109/371472 [2:32:34<15:35:54,  3.57it/s] 46%|████▌     | 171110/371472 [2:32:35<15:34:59,  3.57it/s] 46%|████▌     | 171111/371472 [2:32:35<15:48:06,  3.52it/s] 46%|████▌     | 171112/371472 [2:32:35<15:56:15,  3.49it/s] 46%|████▌     | 171113/371472 [2:32:36<16:09:31,  3.44it/s] 46%|████▌     | 171114/371472 [2:32:36<15:43:08,  3.54it/s] 46%|████▌     | 171115/371472 [2:32:36<15:50:23,  3.51it/s] 46%|████▌     | 171116/371472 [2:32:36<15:19:29,  3.63it/s] 46%|████▌     | 171117/371472 [2:32:37<15:37:39,  3.56it/s] 46%|████▌     | 171118/371472 [2:32:37<17:24:03,  3.20it/s] 46%|████▌     | 171119/371472 [2:32:37<17:55:40,  3.10it/s] 46%|████▌     | 171120/371472 [2:32:38<16:44:22,  3.32it/s]                                                            {'loss': 3.2164, 'learning_rate': 5.856730375573703e-07, 'epoch': 7.37}
 46%|████▌     | 171120/371472 [2:32:38<16:44:22,  3.32it/s] 46%|████▌     | 171121/371472 [2:32:38<16:11:12,  3.44it/s] 46%|████▌     | 171122/371472 [2:32:38<16:52:40,  3.30it/s] 46%|████▌     | 171123/371472 [2:32:38<17:02:13,  3.27it/s] 46%|████▌     | 171124/371472 [2:32:39<16:53:46,  3.29it/s] 46%|████▌     | 171125/371472 [2:32:39<16:19:47,  3.41it/s] 46%|████▌     | 171126/371472 [2:32:39<16:06:34,  3.45it/s] 46%|████▌     | 171127/371472 [2:32:40<15:46:29,  3.53it/s] 46%|████▌     | 171128/371472 [2:32:40<15:49:17,  3.52it/s] 46%|████▌     | 171129/371472 [2:32:40<16:06:32,  3.45it/s] 46%|████▌     | 171130/371472 [2:32:40<15:40:55,  3.55it/s] 46%|████▌     | 171131/371472 [2:32:41<15:33:40,  3.58it/s] 46%|████▌     | 171132/371472 [2:32:41<16:07:24,  3.45it/s] 46%|████▌     | 171133/371472 [2:32:41<15:31:35,  3.58it/s] 46%|████▌     | 171134/371472 [2:32:42<15:36:20,  3.57it/s] 46%|████▌     | 171135/371472 [2:32:42<16:06:17,  3.46it/s] 46%|████▌     | 171136/371472 [2:32:42<15:51:30,  3.51it/s] 46%|████▌     | 171137/371472 [2:32:42<15:18:41,  3.63it/s] 46%|████▌     | 171138/371472 [2:32:43<14:52:28,  3.74it/s] 46%|████▌     | 171139/371472 [2:32:43<14:29:44,  3.84it/s] 46%|████▌     | 171140/371472 [2:32:43<14:45:28,  3.77it/s]                                                            {'loss': 3.0986, 'learning_rate': 5.856245555818914e-07, 'epoch': 7.37}
 46%|████▌     | 171140/371472 [2:32:43<14:45:28,  3.77it/s] 46%|████▌     | 171141/371472 [2:32:43<15:01:57,  3.70it/s] 46%|████▌     | 171142/371472 [2:32:44<15:07:29,  3.68it/s] 46%|████▌     | 171143/371472 [2:32:44<15:16:43,  3.64it/s] 46%|████▌     | 171144/371472 [2:32:44<14:53:30,  3.74it/s] 46%|████▌     | 171145/371472 [2:32:45<14:57:19,  3.72it/s] 46%|████▌     | 171146/371472 [2:32:45<15:20:19,  3.63it/s] 46%|████▌     | 171147/371472 [2:32:45<15:56:55,  3.49it/s] 46%|████▌     | 171148/371472 [2:32:45<16:30:44,  3.37it/s] 46%|████▌     | 171149/371472 [2:32:46<17:21:59,  3.20it/s] 46%|████▌     | 171150/371472 [2:32:46<16:33:53,  3.36it/s] 46%|████▌     | 171151/371472 [2:32:46<16:20:41,  3.40it/s] 46%|████▌     | 171152/371472 [2:32:47<17:08:33,  3.25it/s] 46%|████▌     | 171153/371472 [2:32:47<17:10:42,  3.24it/s] 46%|████▌     | 171154/371472 [2:32:47<16:52:36,  3.30it/s] 46%|████▌     | 171155/371472 [2:32:48<16:43:54,  3.33it/s] 46%|████▌     | 171156/371472 [2:32:48<16:07:41,  3.45it/s] 46%|████▌     | 171157/371472 [2:32:48<15:26:22,  3.60it/s] 46%|████▌     | 171158/371472 [2:32:48<15:19:56,  3.63it/s] 46%|████▌     | 171159/371472 [2:32:49<16:10:57,  3.44it/s] 46%|████▌     | 171160/371472 [2:32:49<15:57:20,  3.49it/s]                                                            {'loss': 2.8883, 'learning_rate': 5.855760736064126e-07, 'epoch': 7.37}
 46%|████▌     | 171160/371472 [2:32:49<15:57:20,  3.49it/s] 46%|████▌     | 171161/371472 [2:32:49<17:05:38,  3.26it/s] 46%|████▌     | 171162/371472 [2:32:50<16:33:50,  3.36it/s] 46%|████▌     | 171163/371472 [2:32:50<16:32:46,  3.36it/s] 46%|████▌     | 171164/371472 [2:32:50<16:24:00,  3.39it/s] 46%|████▌     | 171165/371472 [2:32:51<16:12:14,  3.43it/s] 46%|████▌     | 171166/371472 [2:32:51<15:29:01,  3.59it/s] 46%|████▌     | 171167/371472 [2:32:51<16:38:16,  3.34it/s] 46%|████▌     | 171168/371472 [2:32:51<15:57:07,  3.49it/s] 46%|████▌     | 171169/371472 [2:32:52<15:45:09,  3.53it/s] 46%|████▌     | 171170/371472 [2:32:52<15:32:14,  3.58it/s] 46%|████▌     | 171171/371472 [2:32:52<15:16:47,  3.64it/s] 46%|████▌     | 171172/371472 [2:32:52<15:32:08,  3.58it/s] 46%|████▌     | 171173/371472 [2:32:53<15:17:47,  3.64it/s] 46%|████▌     | 171174/371472 [2:32:53<15:43:57,  3.54it/s] 46%|████▌     | 171175/371472 [2:32:53<17:18:24,  3.21it/s] 46%|████▌     | 171176/371472 [2:32:54<16:31:55,  3.37it/s] 46%|████▌     | 171177/371472 [2:32:54<15:47:15,  3.52it/s] 46%|████▌     | 171178/371472 [2:32:54<15:40:29,  3.55it/s] 46%|████▌     | 171179/371472 [2:32:54<15:24:43,  3.61it/s] 46%|████▌     | 171180/371472 [2:32:55<15:07:46,  3.68it/s]                                                            {'loss': 3.1073, 'learning_rate': 5.855275916309336e-07, 'epoch': 7.37}
 46%|████▌     | 171180/371472 [2:32:55<15:07:46,  3.68it/s] 46%|████▌     | 171181/371472 [2:32:55<15:14:49,  3.65it/s] 46%|████▌     | 171182/371472 [2:32:55<15:17:39,  3.64it/s] 46%|████▌     | 171183/371472 [2:32:56<16:05:46,  3.46it/s] 46%|████▌     | 171184/371472 [2:32:56<16:37:16,  3.35it/s] 46%|████▌     | 171185/371472 [2:32:56<16:34:33,  3.36it/s] 46%|████▌     | 171186/371472 [2:32:57<17:02:20,  3.27it/s] 46%|████▌     | 171187/371472 [2:32:57<16:58:42,  3.28it/s] 46%|████▌     | 171188/371472 [2:32:57<17:05:07,  3.26it/s] 46%|████▌     | 171189/371472 [2:32:57<17:16:31,  3.22it/s] 46%|████▌     | 171190/371472 [2:32:58<16:18:05,  3.41it/s] 46%|████▌     | 171191/371472 [2:32:58<15:34:06,  3.57it/s] 46%|████▌     | 171192/371472 [2:32:58<15:24:53,  3.61it/s] 46%|████▌     | 171193/371472 [2:32:59<15:05:42,  3.69it/s] 46%|████▌     | 171194/371472 [2:32:59<15:30:39,  3.59it/s] 46%|████▌     | 171195/371472 [2:32:59<15:26:04,  3.60it/s] 46%|████▌     | 171196/371472 [2:32:59<14:51:35,  3.74it/s] 46%|████▌     | 171197/371472 [2:33:00<14:28:37,  3.84it/s] 46%|████▌     | 171198/371472 [2:33:00<15:11:04,  3.66it/s] 46%|████▌     | 171199/371472 [2:33:00<16:43:55,  3.32it/s] 46%|████▌     | 171200/371472 [2:33:00<15:43:28,  3.54it/s]                                                            {'loss': 3.0907, 'learning_rate': 5.854791096554547e-07, 'epoch': 7.37}
 46%|████▌     | 171200/371472 [2:33:00<15:43:28,  3.54it/s] 46%|████▌     | 171201/371472 [2:33:01<15:35:07,  3.57it/s] 46%|████▌     | 171202/371472 [2:33:01<15:31:30,  3.58it/s] 46%|████▌     | 171203/371472 [2:33:01<15:42:28,  3.54it/s] 46%|████▌     | 171204/371472 [2:33:02<16:02:16,  3.47it/s] 46%|████▌     | 171205/371472 [2:33:02<15:20:01,  3.63it/s] 46%|████▌     | 171206/371472 [2:33:02<15:45:22,  3.53it/s] 46%|████▌     | 171207/371472 [2:33:02<15:28:24,  3.60it/s] 46%|████▌     | 171208/371472 [2:33:03<16:12:05,  3.43it/s] 46%|████▌     | 171209/371472 [2:33:03<17:48:52,  3.12it/s] 46%|████▌     | 171210/371472 [2:33:03<18:05:09,  3.08it/s] 46%|████▌     | 171211/371472 [2:33:04<17:30:51,  3.18it/s] 46%|████▌     | 171212/371472 [2:33:04<17:05:08,  3.26it/s] 46%|████▌     | 171213/371472 [2:33:04<17:29:56,  3.18it/s] 46%|████▌     | 171214/371472 [2:33:05<17:03:46,  3.26it/s] 46%|████▌     | 171215/371472 [2:33:05<16:35:59,  3.35it/s] 46%|████▌     | 171216/371472 [2:33:05<15:51:25,  3.51it/s] 46%|████▌     | 171217/371472 [2:33:05<15:28:11,  3.60it/s] 46%|████▌     | 171218/371472 [2:33:06<15:14:14,  3.65it/s] 46%|████▌     | 171219/371472 [2:33:06<14:36:25,  3.81it/s] 46%|████▌     | 171220/371472 [2:33:06<15:33:17,  3.58it/s]                                                            {'loss': 2.9329, 'learning_rate': 5.854306276799759e-07, 'epoch': 7.37}
 46%|████▌     | 171220/371472 [2:33:06<15:33:17,  3.58it/s] 46%|████▌     | 171221/371472 [2:33:07<15:48:38,  3.52it/s] 46%|████▌     | 171222/371472 [2:33:07<16:10:26,  3.44it/s] 46%|████▌     | 171223/371472 [2:33:07<15:49:38,  3.51it/s] 46%|████▌     | 171224/371472 [2:33:07<15:27:15,  3.60it/s] 46%|████▌     | 171225/371472 [2:33:08<14:57:02,  3.72it/s] 46%|████▌     | 171226/371472 [2:33:08<15:01:06,  3.70it/s] 46%|████▌     | 171227/371472 [2:33:08<16:08:47,  3.44it/s] 46%|████▌     | 171228/371472 [2:33:09<15:46:29,  3.53it/s] 46%|████▌     | 171229/371472 [2:33:09<15:50:45,  3.51it/s] 46%|████▌     | 171230/371472 [2:33:09<16:43:33,  3.33it/s] 46%|████▌     | 171231/371472 [2:33:10<17:38:59,  3.15it/s] 46%|████▌     | 171232/371472 [2:33:10<17:28:53,  3.18it/s] 46%|████▌     | 171233/371472 [2:33:10<16:55:56,  3.28it/s] 46%|████▌     | 171234/371472 [2:33:10<16:32:47,  3.36it/s] 46%|████▌     | 171235/371472 [2:33:11<16:16:42,  3.42it/s] 46%|████▌     | 171236/371472 [2:33:11<16:21:32,  3.40it/s] 46%|████▌     | 171237/371472 [2:33:11<16:31:26,  3.37it/s] 46%|████▌     | 171238/371472 [2:33:12<15:42:10,  3.54it/s] 46%|████▌     | 171239/371472 [2:33:12<16:56:50,  3.28it/s] 46%|████▌     | 171240/371472 [2:33:12<16:32:51,  3.36it/s]                                                            {'loss': 3.0015, 'learning_rate': 5.85382145704497e-07, 'epoch': 7.38}
 46%|████▌     | 171240/371472 [2:33:12<16:32:51,  3.36it/s] 46%|████▌     | 171241/371472 [2:33:12<16:04:24,  3.46it/s] 46%|████▌     | 171242/371472 [2:33:13<15:20:36,  3.62it/s] 46%|████▌     | 171243/371472 [2:33:13<15:08:08,  3.67it/s] 46%|████▌     | 171244/371472 [2:33:13<15:09:48,  3.67it/s] 46%|████▌     | 171245/371472 [2:33:14<16:32:42,  3.36it/s] 46%|████▌     | 171246/371472 [2:33:14<16:29:55,  3.37it/s] 46%|████▌     | 171247/371472 [2:33:14<15:51:24,  3.51it/s] 46%|████▌     | 171248/371472 [2:33:14<15:46:40,  3.53it/s] 46%|████▌     | 171249/371472 [2:33:15<15:50:52,  3.51it/s] 46%|████▌     | 171250/371472 [2:33:15<15:54:19,  3.50it/s] 46%|████▌     | 171251/371472 [2:33:15<16:03:04,  3.46it/s] 46%|████▌     | 171252/371472 [2:33:16<17:46:05,  3.13it/s] 46%|████▌     | 171253/371472 [2:33:16<17:14:22,  3.23it/s] 46%|████▌     | 171254/371472 [2:33:16<16:32:04,  3.36it/s] 46%|████▌     | 171255/371472 [2:33:17<16:30:33,  3.37it/s] 46%|████▌     | 171256/371472 [2:33:17<16:49:15,  3.31it/s] 46%|████▌     | 171257/371472 [2:33:17<17:10:33,  3.24it/s] 46%|████▌     | 171258/371472 [2:33:17<16:16:51,  3.42it/s] 46%|████▌     | 171259/371472 [2:33:18<16:02:53,  3.47it/s] 46%|████▌     | 171260/371472 [2:33:18<15:40:14,  3.55it/s]                                                            {'loss': 3.1693, 'learning_rate': 5.85333663729018e-07, 'epoch': 7.38}
 46%|████▌     | 171260/371472 [2:33:18<15:40:14,  3.55it/s] 46%|████▌     | 171261/371472 [2:33:18<15:32:07,  3.58it/s] 46%|████▌     | 171262/371472 [2:33:19<15:59:29,  3.48it/s] 46%|████▌     | 171263/371472 [2:33:19<21:34:27,  2.58it/s] 46%|████▌     | 171264/371472 [2:33:19<20:28:20,  2.72it/s] 46%|████▌     | 171265/371472 [2:33:20<19:14:52,  2.89it/s] 46%|████▌     | 171266/371472 [2:33:20<18:01:21,  3.09it/s] 46%|████▌     | 171267/371472 [2:33:20<17:15:01,  3.22it/s] 46%|████▌     | 171268/371472 [2:33:21<16:36:39,  3.35it/s] 46%|████▌     | 171269/371472 [2:33:21<16:10:39,  3.44it/s] 46%|████▌     | 171270/371472 [2:33:21<15:41:33,  3.54it/s] 46%|████▌     | 171271/371472 [2:33:21<15:39:07,  3.55it/s] 46%|████▌     | 171272/371472 [2:33:22<15:15:11,  3.65it/s] 46%|████▌     | 171273/371472 [2:33:22<14:44:53,  3.77it/s] 46%|████▌     | 171274/371472 [2:33:22<14:51:01,  3.74it/s] 46%|████▌     | 171275/371472 [2:33:23<17:16:21,  3.22it/s] 46%|████▌     | 171276/371472 [2:33:23<17:14:21,  3.23it/s] 46%|████▌     | 171277/371472 [2:33:23<16:25:44,  3.38it/s] 46%|████▌     | 171278/371472 [2:33:23<16:14:06,  3.43it/s] 46%|████▌     | 171279/371472 [2:33:24<15:22:29,  3.62it/s] 46%|████▌     | 171280/371472 [2:33:24<15:05:11,  3.69it/s]                                                            {'loss': 3.1524, 'learning_rate': 5.852851817535391e-07, 'epoch': 7.38}
 46%|████▌     | 171280/371472 [2:33:24<15:05:11,  3.69it/s] 46%|████▌     | 171281/371472 [2:33:24<15:03:20,  3.69it/s] 46%|████▌     | 171282/371472 [2:33:25<15:30:23,  3.59it/s] 46%|████▌     | 171283/371472 [2:33:25<15:16:06,  3.64it/s] 46%|████▌     | 171284/371472 [2:33:25<15:00:17,  3.71it/s] 46%|████▌     | 171285/371472 [2:33:25<16:14:28,  3.42it/s] 46%|████▌     | 171286/371472 [2:33:26<16:46:13,  3.32it/s] 46%|████▌     | 171287/371472 [2:33:26<16:08:10,  3.45it/s] 46%|████▌     | 171288/371472 [2:33:26<17:17:15,  3.22it/s] 46%|████▌     | 171289/371472 [2:33:27<16:21:02,  3.40it/s] 46%|████▌     | 171290/371472 [2:33:27<16:52:20,  3.30it/s] 46%|████▌     | 171291/371472 [2:33:27<17:11:48,  3.23it/s] 46%|████▌     | 171292/371472 [2:33:28<16:31:28,  3.37it/s] 46%|████▌     | 171293/371472 [2:33:28<16:11:02,  3.44it/s] 46%|████▌     | 171294/371472 [2:33:28<15:48:24,  3.52it/s] 46%|████▌     | 171295/371472 [2:33:28<16:21:23,  3.40it/s] 46%|████▌     | 171296/371472 [2:33:29<16:22:57,  3.39it/s] 46%|████▌     | 171297/371472 [2:33:29<16:44:14,  3.32it/s] 46%|████▌     | 171298/371472 [2:33:29<16:03:44,  3.46it/s] 46%|████▌     | 171299/371472 [2:33:29<15:28:30,  3.59it/s] 46%|████▌     | 171300/371472 [2:33:30<15:21:37,  3.62it/s]                                                            {'loss': 2.989, 'learning_rate': 5.852366997780603e-07, 'epoch': 7.38}
 46%|████▌     | 171300/371472 [2:33:30<15:21:37,  3.62it/s] 46%|████▌     | 171301/371472 [2:33:30<15:09:55,  3.67it/s] 46%|████▌     | 171302/371472 [2:33:30<14:43:01,  3.78it/s] 46%|████▌     | 171303/371472 [2:33:31<15:08:09,  3.67it/s] 46%|████▌     | 171304/371472 [2:33:31<14:51:21,  3.74it/s] 46%|████▌     | 171305/371472 [2:33:31<14:48:11,  3.76it/s] 46%|████▌     | 171306/371472 [2:33:31<14:15:47,  3.90it/s] 46%|████▌     | 171307/371472 [2:33:32<14:37:10,  3.80it/s] 46%|████▌     | 171308/371472 [2:33:32<14:49:16,  3.75it/s] 46%|████▌     | 171309/371472 [2:33:32<14:58:40,  3.71it/s] 46%|████▌     | 171310/371472 [2:33:32<14:42:18,  3.78it/s] 46%|████▌     | 171311/371472 [2:33:33<15:37:54,  3.56it/s] 46%|████▌     | 171312/371472 [2:33:33<15:20:15,  3.63it/s] 46%|████▌     | 171313/371472 [2:33:33<15:28:39,  3.59it/s] 46%|████▌     | 171314/371472 [2:33:34<16:00:01,  3.47it/s] 46%|████▌     | 171315/371472 [2:33:34<15:35:09,  3.57it/s] 46%|████▌     | 171316/371472 [2:33:34<16:33:11,  3.36it/s] 46%|████▌     | 171317/371472 [2:33:34<16:18:12,  3.41it/s] 46%|████▌     | 171318/371472 [2:33:35<15:50:19,  3.51it/s] 46%|████▌     | 171319/371472 [2:33:35<15:35:11,  3.57it/s] 46%|████▌     | 171320/371472 [2:33:35<15:21:10,  3.62it/s]                                                            {'loss': 3.2248, 'learning_rate': 5.851882178025814e-07, 'epoch': 7.38}
 46%|████▌     | 171320/371472 [2:33:35<15:21:10,  3.62it/s] 46%|████▌     | 171321/371472 [2:33:36<15:18:05,  3.63it/s] 46%|████▌     | 171322/371472 [2:33:36<16:12:48,  3.43it/s] 46%|████▌     | 171323/371472 [2:33:36<16:40:17,  3.33it/s] 46%|████▌     | 171324/371472 [2:33:36<15:40:35,  3.55it/s] 46%|████▌     | 171325/371472 [2:33:37<15:29:33,  3.59it/s] 46%|████▌     | 171326/371472 [2:33:37<15:58:00,  3.48it/s] 46%|████▌     | 171327/371472 [2:33:37<15:54:11,  3.50it/s] 46%|████▌     | 171328/371472 [2:33:38<16:27:48,  3.38it/s] 46%|████▌     | 171329/371472 [2:33:38<16:32:29,  3.36it/s] 46%|████▌     | 171330/371472 [2:33:38<16:15:56,  3.42it/s] 46%|████▌     | 171331/371472 [2:33:39<18:20:00,  3.03it/s] 46%|████▌     | 171332/371472 [2:33:39<18:52:43,  2.94it/s] 46%|████▌     | 171333/371472 [2:33:39<19:02:25,  2.92it/s] 46%|████▌     | 171334/371472 [2:33:40<17:52:18,  3.11it/s] 46%|████▌     | 171335/371472 [2:33:40<21:40:31,  2.56it/s] 46%|████▌     | 171336/371472 [2:33:40<20:04:47,  2.77it/s] 46%|████▌     | 171337/371472 [2:33:41<18:32:08,  3.00it/s] 46%|████▌     | 171338/371472 [2:33:41<17:23:22,  3.20it/s] 46%|████▌     | 171339/371472 [2:33:41<16:24:27,  3.39it/s] 46%|████▌     | 171340/371472 [2:33:41<15:39:14,  3.55it/s]                                                            {'loss': 3.0116, 'learning_rate': 5.851397358271024e-07, 'epoch': 7.38}
 46%|████▌     | 171340/371472 [2:33:41<15:39:14,  3.55it/s] 46%|████▌     | 171341/371472 [2:33:42<15:34:20,  3.57it/s] 46%|████▌     | 171342/371472 [2:33:42<15:34:41,  3.57it/s] 46%|████▌     | 171343/371472 [2:33:42<15:11:31,  3.66it/s] 46%|████▌     | 171344/371472 [2:33:43<14:46:21,  3.76it/s] 46%|████▌     | 171345/371472 [2:33:43<14:28:27,  3.84it/s] 46%|████▌     | 171346/371472 [2:33:43<15:12:43,  3.65it/s] 46%|████▌     | 171347/371472 [2:33:43<15:26:22,  3.60it/s] 46%|████▌     | 171348/371472 [2:33:44<16:04:44,  3.46it/s] 46%|████▌     | 171349/371472 [2:33:44<16:05:42,  3.45it/s] 46%|████▌     | 171350/371472 [2:33:44<15:37:56,  3.56it/s] 46%|████▌     | 171351/371472 [2:33:45<15:23:30,  3.61it/s] 46%|████▌     | 171352/371472 [2:33:45<16:25:52,  3.38it/s] 46%|████▌     | 171353/371472 [2:33:45<17:28:04,  3.18it/s] 46%|████▌     | 171354/371472 [2:33:46<17:32:52,  3.17it/s] 46%|████▌     | 171355/371472 [2:33:46<17:29:09,  3.18it/s] 46%|████▌     | 171356/371472 [2:33:46<17:03:26,  3.26it/s] 46%|████▌     | 171357/371472 [2:33:46<16:44:15,  3.32it/s] 46%|████▌     | 171358/371472 [2:33:47<16:12:03,  3.43it/s] 46%|████▌     | 171359/371472 [2:33:47<15:37:29,  3.56it/s] 46%|████▌     | 171360/371472 [2:33:47<15:28:30,  3.59it/s]                                                            {'loss': 3.2527, 'learning_rate': 5.850912538516236e-07, 'epoch': 7.38}
 46%|████▌     | 171360/371472 [2:33:47<15:28:30,  3.59it/s] 46%|████▌     | 171361/371472 [2:33:47<15:16:36,  3.64it/s] 46%|████▌     | 171362/371472 [2:33:48<14:47:09,  3.76it/s] 46%|████▌     | 171363/371472 [2:33:48<15:09:26,  3.67it/s] 46%|████▌     | 171364/371472 [2:33:48<14:59:32,  3.71it/s] 46%|████▌     | 171365/371472 [2:33:49<14:45:45,  3.77it/s] 46%|████▌     | 171366/371472 [2:33:49<14:56:55,  3.72it/s] 46%|████▌     | 171367/371472 [2:33:49<14:42:34,  3.78it/s] 46%|████▌     | 171368/371472 [2:33:49<14:56:44,  3.72it/s] 46%|████▌     | 171369/371472 [2:33:50<14:44:27,  3.77it/s] 46%|████▌     | 171370/371472 [2:33:50<15:38:10,  3.55it/s] 46%|████▌     | 171371/371472 [2:33:50<15:19:54,  3.63it/s] 46%|████▌     | 171372/371472 [2:33:50<15:07:52,  3.67it/s] 46%|████▌     | 171373/371472 [2:33:51<15:26:45,  3.60it/s] 46%|████▌     | 171374/371472 [2:33:51<15:15:04,  3.64it/s] 46%|████▌     | 171375/371472 [2:33:51<15:24:27,  3.61it/s] 46%|████▌     | 171376/371472 [2:33:52<15:16:15,  3.64it/s] 46%|████▌     | 171377/371472 [2:33:52<15:26:42,  3.60it/s] 46%|████▌     | 171378/371472 [2:33:52<15:00:36,  3.70it/s] 46%|████▌     | 171379/371472 [2:33:52<15:37:54,  3.56it/s] 46%|████▌     | 171380/371472 [2:33:53<15:18:54,  3.63it/s]                                                            {'loss': 3.2955, 'learning_rate': 5.850427718761448e-07, 'epoch': 7.38}
 46%|████▌     | 171380/371472 [2:33:53<15:18:54,  3.63it/s] 46%|████▌     | 171381/371472 [2:33:53<15:29:08,  3.59it/s] 46%|████▌     | 171382/371472 [2:33:53<15:24:14,  3.61it/s] 46%|████▌     | 171383/371472 [2:33:54<15:38:47,  3.55it/s] 46%|████▌     | 171384/371472 [2:33:54<16:14:46,  3.42it/s] 46%|████▌     | 171385/371472 [2:33:54<15:58:29,  3.48it/s] 46%|████▌     | 171386/371472 [2:33:54<15:56:17,  3.49it/s] 46%|████▌     | 171387/371472 [2:33:55<15:55:39,  3.49it/s] 46%|████▌     | 171388/371472 [2:33:55<15:34:45,  3.57it/s] 46%|████▌     | 171389/371472 [2:33:55<15:43:53,  3.53it/s] 46%|████▌     | 171390/371472 [2:33:56<17:17:46,  3.21it/s] 46%|████▌     | 171391/371472 [2:33:56<16:17:09,  3.41it/s] 46%|████▌     | 171392/371472 [2:33:56<16:28:40,  3.37it/s] 46%|████▌     | 171393/371472 [2:33:56<16:35:00,  3.35it/s] 46%|████▌     | 171394/371472 [2:33:57<16:14:15,  3.42it/s] 46%|████▌     | 171395/371472 [2:33:57<16:11:25,  3.43it/s] 46%|████▌     | 171396/371472 [2:33:57<16:18:16,  3.41it/s] 46%|████▌     | 171397/371472 [2:33:58<16:14:54,  3.42it/s] 46%|████▌     | 171398/371472 [2:33:58<16:37:37,  3.34it/s] 46%|████▌     | 171399/371472 [2:33:58<16:05:27,  3.45it/s] 46%|████▌     | 171400/371472 [2:33:58<15:33:18,  3.57it/s]                                                            {'loss': 3.212, 'learning_rate': 5.849942899006657e-07, 'epoch': 7.38}
 46%|████▌     | 171400/371472 [2:33:58<15:33:18,  3.57it/s] 46%|████▌     | 171401/371472 [2:33:59<15:16:56,  3.64it/s] 46%|████▌     | 171402/371472 [2:33:59<15:04:56,  3.68it/s] 46%|████▌     | 171403/371472 [2:33:59<14:48:36,  3.75it/s] 46%|████▌     | 171404/371472 [2:34:00<15:16:39,  3.64it/s] 46%|████▌     | 171405/371472 [2:34:00<16:58:56,  3.27it/s] 46%|████▌     | 171406/371472 [2:34:00<16:23:42,  3.39it/s] 46%|████▌     | 171407/371472 [2:34:00<16:42:59,  3.32it/s] 46%|████▌     | 171408/371472 [2:34:01<16:36:03,  3.35it/s] 46%|████▌     | 171409/371472 [2:34:01<16:24:51,  3.39it/s] 46%|████▌     | 171410/371472 [2:34:01<15:34:49,  3.57it/s] 46%|████▌     | 171411/371472 [2:34:02<15:20:08,  3.62it/s] 46%|████▌     | 171412/371472 [2:34:02<15:34:50,  3.57it/s] 46%|████▌     | 171413/371472 [2:34:02<15:27:01,  3.60it/s] 46%|████▌     | 171414/371472 [2:34:02<14:56:47,  3.72it/s] 46%|████▌     | 171415/371472 [2:34:03<15:21:36,  3.62it/s] 46%|████▌     | 171416/371472 [2:34:03<15:13:56,  3.65it/s] 46%|████▌     | 171417/371472 [2:34:03<14:53:57,  3.73it/s] 46%|████▌     | 171418/371472 [2:34:03<14:23:48,  3.86it/s] 46%|████▌     | 171419/371472 [2:34:04<14:29:25,  3.83it/s] 46%|████▌     | 171420/371472 [2:34:04<14:18:35,  3.88it/s]                                                            {'loss': 3.2352, 'learning_rate': 5.849458079251868e-07, 'epoch': 7.38}
 46%|████▌     | 171420/371472 [2:34:04<14:18:35,  3.88it/s] 46%|████▌     | 171421/371472 [2:34:04<14:42:19,  3.78it/s] 46%|████▌     | 171422/371472 [2:34:05<14:55:57,  3.72it/s] 46%|████▌     | 171423/371472 [2:34:05<14:45:06,  3.77it/s] 46%|████▌     | 171424/371472 [2:34:05<14:35:53,  3.81it/s] 46%|████▌     | 171425/371472 [2:34:05<16:20:26,  3.40it/s] 46%|████▌     | 171426/371472 [2:34:06<15:46:55,  3.52it/s] 46%|████▌     | 171427/371472 [2:34:06<15:37:18,  3.56it/s] 46%|████▌     | 171428/371472 [2:34:06<14:48:13,  3.75it/s] 46%|████▌     | 171429/371472 [2:34:06<14:54:47,  3.73it/s] 46%|████▌     | 171430/371472 [2:34:07<14:59:55,  3.70it/s] 46%|████▌     | 171431/371472 [2:34:07<15:22:13,  3.62it/s] 46%|████▌     | 171432/371472 [2:34:07<14:59:11,  3.71it/s] 46%|████▌     | 171433/371472 [2:34:08<15:59:39,  3.47it/s] 46%|████▌     | 171434/371472 [2:34:08<15:20:01,  3.62it/s] 46%|████▌     | 171435/371472 [2:34:08<15:15:49,  3.64it/s] 46%|████▌     | 171436/371472 [2:34:08<14:49:06,  3.75it/s] 46%|████▌     | 171437/371472 [2:34:09<14:47:09,  3.76it/s] 46%|████▌     | 171438/371472 [2:34:09<14:50:35,  3.74it/s] 46%|████▌     | 171439/371472 [2:34:09<16:49:45,  3.30it/s] 46%|████▌     | 171440/371472 [2:34:10<17:01:32,  3.26it/s]                                                            {'loss': 3.0283, 'learning_rate': 5.84897325949708e-07, 'epoch': 7.38}
 46%|████▌     | 171440/371472 [2:34:10<17:01:32,  3.26it/s] 46%|████▌     | 171441/371472 [2:34:10<16:17:40,  3.41it/s] 46%|████▌     | 171442/371472 [2:34:10<16:16:42,  3.41it/s] 46%|████▌     | 171443/371472 [2:34:10<15:49:40,  3.51it/s] 46%|████▌     | 171444/371472 [2:34:11<15:49:52,  3.51it/s] 46%|████▌     | 171445/371472 [2:34:11<16:08:51,  3.44it/s] 46%|████▌     | 171446/371472 [2:34:11<15:51:37,  3.50it/s] 46%|████▌     | 171447/371472 [2:34:12<16:12:15,  3.43it/s] 46%|████▌     | 171448/371472 [2:34:12<17:27:10,  3.18it/s] 46%|████▌     | 171449/371472 [2:34:12<16:31:23,  3.36it/s] 46%|████▌     | 171450/371472 [2:34:12<15:58:21,  3.48it/s] 46%|████▌     | 171451/371472 [2:34:13<16:07:39,  3.45it/s] 46%|████▌     | 171452/371472 [2:34:13<15:46:23,  3.52it/s] 46%|████▌     | 171453/371472 [2:34:13<17:13:30,  3.23it/s] 46%|████▌     | 171454/371472 [2:34:14<17:09:16,  3.24it/s] 46%|████▌     | 171455/371472 [2:34:14<16:29:21,  3.37it/s] 46%|████▌     | 171456/371472 [2:34:14<15:32:55,  3.57it/s] 46%|████▌     | 171457/371472 [2:34:15<18:25:53,  3.01it/s] 46%|████▌     | 171458/371472 [2:34:15<18:26:38,  3.01it/s] 46%|████▌     | 171459/371472 [2:34:15<17:27:37,  3.18it/s] 46%|████▌     | 171460/371472 [2:34:16<16:37:17,  3.34it/s]                                                            {'loss': 3.1898, 'learning_rate': 5.848488439742292e-07, 'epoch': 7.39}
 46%|████▌     | 171460/371472 [2:34:16<16:37:17,  3.34it/s] 46%|████▌     | 171461/371472 [2:34:16<16:48:38,  3.30it/s] 46%|████▌     | 171462/371472 [2:34:16<16:14:57,  3.42it/s] 46%|████▌     | 171463/371472 [2:34:16<15:42:10,  3.54it/s] 46%|████▌     | 171464/371472 [2:34:17<16:35:47,  3.35it/s] 46%|████▌     | 171465/371472 [2:34:17<15:59:31,  3.47it/s] 46%|████▌     | 171466/371472 [2:34:17<16:27:52,  3.37it/s] 46%|████▌     | 171467/371472 [2:34:18<16:35:33,  3.35it/s] 46%|████▌     | 171468/371472 [2:34:18<16:03:06,  3.46it/s] 46%|████▌     | 171469/371472 [2:34:18<16:57:26,  3.28it/s] 46%|████▌     | 171470/371472 [2:34:19<16:49:31,  3.30it/s] 46%|████▌     | 171471/371472 [2:34:19<16:34:54,  3.35it/s] 46%|████▌     | 171472/371472 [2:34:19<16:06:11,  3.45it/s] 46%|████▌     | 171473/371472 [2:34:19<15:56:30,  3.48it/s] 46%|████▌     | 171474/371472 [2:34:20<15:30:06,  3.58it/s] 46%|████▌     | 171475/371472 [2:34:20<15:37:57,  3.55it/s] 46%|████▌     | 171476/371472 [2:34:20<15:13:39,  3.65it/s] 46%|████▌     | 171477/371472 [2:34:20<16:11:07,  3.43it/s] 46%|████▌     | 171478/371472 [2:34:21<16:00:35,  3.47it/s] 46%|████▌     | 171479/371472 [2:34:21<16:08:09,  3.44it/s] 46%|████▌     | 171480/371472 [2:34:21<16:11:53,  3.43it/s]                                                            {'loss': 3.0099, 'learning_rate': 5.848003619987502e-07, 'epoch': 7.39}
 46%|████▌     | 171480/371472 [2:34:21<16:11:53,  3.43it/s] 46%|████▌     | 171481/371472 [2:34:22<18:12:37,  3.05it/s] 46%|████▌     | 171482/371472 [2:34:22<17:13:35,  3.22it/s] 46%|████▌     | 171483/371472 [2:34:22<16:41:10,  3.33it/s] 46%|████▌     | 171484/371472 [2:34:23<15:56:00,  3.49it/s] 46%|████▌     | 171485/371472 [2:34:23<15:21:54,  3.62it/s] 46%|████▌     | 171486/371472 [2:34:23<15:27:12,  3.59it/s] 46%|████▌     | 171487/371472 [2:34:23<15:05:47,  3.68it/s] 46%|████▌     | 171488/371472 [2:34:24<14:50:07,  3.74it/s] 46%|████▌     | 171489/371472 [2:34:24<14:40:46,  3.78it/s] 46%|████▌     | 171490/371472 [2:34:24<14:47:55,  3.75it/s] 46%|████▌     | 171491/371472 [2:34:24<14:45:17,  3.76it/s] 46%|████▌     | 171492/371472 [2:34:25<14:52:34,  3.73it/s] 46%|████▌     | 171493/371472 [2:34:25<15:40:08,  3.55it/s] 46%|████▌     | 171494/371472 [2:34:25<15:24:02,  3.61it/s] 46%|████▌     | 171495/371472 [2:34:26<15:57:26,  3.48it/s] 46%|████▌     | 171496/371472 [2:34:26<15:53:54,  3.49it/s] 46%|████▌     | 171497/371472 [2:34:26<15:44:38,  3.53it/s] 46%|████▌     | 171498/371472 [2:34:26<15:34:24,  3.57it/s] 46%|████▌     | 171499/371472 [2:34:27<15:39:56,  3.55it/s] 46%|████▌     | 171500/371472 [2:34:27<15:30:04,  3.58it/s]                                                            {'loss': 3.0234, 'learning_rate': 5.847518800232713e-07, 'epoch': 7.39}
 46%|████▌     | 171500/371472 [2:34:27<15:30:04,  3.58it/s] 46%|████▌     | 171501/371472 [2:34:27<16:02:27,  3.46it/s] 46%|████▌     | 171502/371472 [2:34:28<15:25:52,  3.60it/s] 46%|████▌     | 171503/371472 [2:34:28<15:09:24,  3.66it/s] 46%|████▌     | 171504/371472 [2:34:28<14:47:17,  3.76it/s] 46%|████▌     | 171505/371472 [2:34:28<15:15:21,  3.64it/s] 46%|████▌     | 171506/371472 [2:34:29<15:58:26,  3.48it/s] 46%|████▌     | 171507/371472 [2:34:29<16:01:55,  3.46it/s] 46%|████▌     | 171508/371472 [2:34:29<15:34:27,  3.57it/s] 46%|████▌     | 171509/371472 [2:34:29<15:00:28,  3.70it/s] 46%|████▌     | 171510/371472 [2:34:30<15:01:12,  3.70it/s] 46%|████▌     | 171511/371472 [2:34:30<15:02:43,  3.69it/s] 46%|████▌     | 171512/371472 [2:34:30<15:35:42,  3.56it/s] 46%|████▌     | 171513/371472 [2:34:31<15:18:02,  3.63it/s] 46%|████▌     | 171514/371472 [2:34:31<15:08:04,  3.67it/s] 46%|████▌     | 171515/371472 [2:34:31<15:23:36,  3.61it/s] 46%|████▌     | 171516/371472 [2:34:31<15:17:35,  3.63it/s] 46%|████▌     | 171517/371472 [2:34:32<15:15:45,  3.64it/s] 46%|████▌     | 171518/371472 [2:34:32<15:37:11,  3.56it/s] 46%|████▌     | 171519/371472 [2:34:32<15:24:27,  3.60it/s] 46%|████▌     | 171520/371472 [2:34:33<15:27:46,  3.59it/s]                                                            {'loss': 3.1436, 'learning_rate': 5.847033980477924e-07, 'epoch': 7.39}
 46%|████▌     | 171520/371472 [2:34:33<15:27:46,  3.59it/s] 46%|████▌     | 171521/371472 [2:34:33<15:22:38,  3.61it/s] 46%|████▌     | 171522/371472 [2:34:33<15:12:40,  3.65it/s] 46%|████▌     | 171523/371472 [2:34:33<15:43:59,  3.53it/s] 46%|████▌     | 171524/371472 [2:34:34<17:14:38,  3.22it/s] 46%|████▌     | 171525/371472 [2:34:34<16:21:55,  3.39it/s] 46%|████▌     | 171526/371472 [2:34:34<16:18:14,  3.41it/s] 46%|████▌     | 171527/371472 [2:34:35<15:35:59,  3.56it/s] 46%|████▌     | 171528/371472 [2:34:35<15:24:45,  3.60it/s] 46%|████▌     | 171529/371472 [2:34:35<15:03:12,  3.69it/s] 46%|████▌     | 171530/371472 [2:34:35<15:07:51,  3.67it/s] 46%|████▌     | 171531/371472 [2:34:36<15:18:57,  3.63it/s] 46%|████▌     | 171532/371472 [2:34:36<15:49:32,  3.51it/s] 46%|████▌     | 171533/371472 [2:34:36<15:45:01,  3.53it/s] 46%|████▌     | 171534/371472 [2:34:36<15:40:43,  3.54it/s] 46%|████▌     | 171535/371472 [2:34:37<15:20:54,  3.62it/s] 46%|████▌     | 171536/371472 [2:34:37<15:54:16,  3.49it/s] 46%|████▌     | 171537/371472 [2:34:37<15:51:44,  3.50it/s] 46%|████▌     | 171538/371472 [2:34:38<15:21:30,  3.62it/s] 46%|████▌     | 171539/371472 [2:34:38<15:50:55,  3.50it/s] 46%|████▌     | 171540/371472 [2:34:38<15:11:28,  3.66it/s]                                                            {'loss': 3.0407, 'learning_rate': 5.846549160723136e-07, 'epoch': 7.39}
 46%|████▌     | 171540/371472 [2:34:38<15:11:28,  3.66it/s] 46%|████▌     | 171541/371472 [2:34:38<15:06:21,  3.68it/s] 46%|████▌     | 171542/371472 [2:34:39<15:02:06,  3.69it/s] 46%|████▌     | 171543/371472 [2:34:39<15:01:28,  3.70it/s] 46%|████▌     | 171544/371472 [2:34:39<15:23:09,  3.61it/s] 46%|████▌     | 171545/371472 [2:34:40<16:09:19,  3.44it/s] 46%|████▌     | 171546/371472 [2:34:40<15:38:19,  3.55it/s] 46%|████▌     | 171547/371472 [2:34:40<15:39:33,  3.55it/s] 46%|████▌     | 171548/371472 [2:34:40<15:35:11,  3.56it/s] 46%|████▌     | 171549/371472 [2:34:41<14:59:33,  3.70it/s] 46%|████▌     | 171550/371472 [2:34:41<15:50:06,  3.51it/s] 46%|████▌     | 171551/371472 [2:34:41<16:12:39,  3.43it/s] 46%|████▌     | 171552/371472 [2:34:42<15:22:18,  3.61it/s] 46%|████▌     | 171553/371472 [2:34:42<15:15:42,  3.64it/s] 46%|████▌     | 171554/371472 [2:34:42<15:36:21,  3.56it/s] 46%|████▌     | 171555/371472 [2:34:42<14:54:01,  3.73it/s] 46%|████▌     | 171556/371472 [2:34:43<15:16:29,  3.64it/s] 46%|████▌     | 171557/371472 [2:34:43<15:44:55,  3.53it/s] 46%|████▌     | 171558/371472 [2:34:43<15:40:31,  3.54it/s] 46%|████▌     | 171559/371472 [2:34:43<15:47:35,  3.52it/s] 46%|████▌     | 171560/371472 [2:34:44<15:07:04,  3.67it/s]                                                            {'loss': 3.1203, 'learning_rate': 5.846064340968346e-07, 'epoch': 7.39}
 46%|████▌     | 171560/371472 [2:34:44<15:07:04,  3.67it/s] 46%|████▌     | 171561/371472 [2:34:44<15:47:30,  3.52it/s] 46%|████▌     | 171562/371472 [2:34:44<15:41:10,  3.54it/s] 46%|████▌     | 171563/371472 [2:34:45<15:09:14,  3.66it/s] 46%|████▌     | 171564/371472 [2:34:45<14:39:34,  3.79it/s] 46%|████▌     | 171565/371472 [2:34:45<15:02:55,  3.69it/s] 46%|████▌     | 171566/371472 [2:34:45<14:36:22,  3.80it/s] 46%|████▌     | 171567/371472 [2:34:46<15:44:04,  3.53it/s] 46%|████▌     | 171568/371472 [2:34:46<15:48:33,  3.51it/s] 46%|████▌     | 171569/371472 [2:34:46<15:46:01,  3.52it/s] 46%|████▌     | 171570/371472 [2:34:47<15:42:40,  3.53it/s] 46%|████▌     | 171571/371472 [2:34:47<17:04:42,  3.25it/s] 46%|████▌     | 171572/371472 [2:34:47<17:43:39,  3.13it/s] 46%|████▌     | 171573/371472 [2:34:47<16:48:04,  3.30it/s] 46%|████▌     | 171574/371472 [2:34:48<15:58:29,  3.48it/s] 46%|████▌     | 171575/371472 [2:34:48<15:30:43,  3.58it/s] 46%|████▌     | 171576/371472 [2:34:48<14:41:26,  3.78it/s] 46%|████▌     | 171577/371472 [2:34:48<14:11:49,  3.91it/s] 46%|████▌     | 171578/371472 [2:34:49<14:09:06,  3.92it/s] 46%|████▌     | 171579/371472 [2:34:49<14:02:55,  3.95it/s] 46%|████▌     | 171580/371472 [2:34:49<14:46:53,  3.76it/s]                                                            {'loss': 3.0586, 'learning_rate': 5.845579521213557e-07, 'epoch': 7.39}
 46%|████▌     | 171580/371472 [2:34:49<14:46:53,  3.76it/s] 46%|████▌     | 171581/371472 [2:34:50<15:50:06,  3.51it/s] 46%|████▌     | 171582/371472 [2:34:50<15:50:40,  3.50it/s] 46%|████▌     | 171583/371472 [2:34:50<15:27:44,  3.59it/s] 46%|████▌     | 171584/371472 [2:34:50<15:41:35,  3.54it/s] 46%|████▌     | 171585/371472 [2:34:51<16:26:21,  3.38it/s] 46%|████▌     | 171586/371472 [2:34:51<16:00:39,  3.47it/s] 46%|████▌     | 171587/371472 [2:34:51<15:53:06,  3.50it/s] 46%|████▌     | 171588/371472 [2:34:52<16:35:42,  3.35it/s] 46%|████▌     | 171589/371472 [2:34:52<16:02:47,  3.46it/s] 46%|████▌     | 171590/371472 [2:34:52<15:52:04,  3.50it/s] 46%|████▌     | 171591/371472 [2:34:53<16:16:34,  3.41it/s] 46%|████▌     | 171592/371472 [2:34:53<16:14:26,  3.42it/s] 46%|████▌     | 171593/371472 [2:34:53<15:41:50,  3.54it/s] 46%|████▌     | 171594/371472 [2:34:53<15:58:57,  3.47it/s] 46%|████▌     | 171595/371472 [2:34:54<16:01:56,  3.46it/s] 46%|████▌     | 171596/371472 [2:34:54<15:14:02,  3.64it/s] 46%|████▌     | 171597/371472 [2:34:54<14:42:38,  3.77it/s] 46%|████▌     | 171598/371472 [2:34:54<14:51:26,  3.74it/s] 46%|████▌     | 171599/371472 [2:34:55<14:20:51,  3.87it/s] 46%|████▌     | 171600/371472 [2:34:55<14:16:37,  3.89it/s]                                                            {'loss': 3.0918, 'learning_rate': 5.845094701458769e-07, 'epoch': 7.39}
 46%|████▌     | 171600/371472 [2:34:55<14:16:37,  3.89it/s] 46%|████▌     | 171601/371472 [2:34:55<14:33:03,  3.82it/s] 46%|████▌     | 171602/371472 [2:34:55<14:21:00,  3.87it/s] 46%|████▌     | 171603/371472 [2:34:56<14:28:02,  3.84it/s] 46%|████▌     | 171604/371472 [2:34:56<14:22:50,  3.86it/s] 46%|████▌     | 171605/371472 [2:34:56<14:52:16,  3.73it/s] 46%|████▌     | 171606/371472 [2:34:56<14:50:14,  3.74it/s] 46%|████▌     | 171607/371472 [2:34:57<15:11:57,  3.65it/s] 46%|████▌     | 171608/371472 [2:34:57<15:13:32,  3.65it/s] 46%|████▌     | 171609/371472 [2:34:57<15:28:37,  3.59it/s] 46%|████▌     | 171610/371472 [2:34:58<15:36:24,  3.56it/s] 46%|████▌     | 171611/371472 [2:34:58<16:13:39,  3.42it/s] 46%|████▌     | 171612/371472 [2:34:58<16:33:14,  3.35it/s] 46%|████▌     | 171613/371472 [2:34:59<15:39:58,  3.54it/s] 46%|████▌     | 171614/371472 [2:34:59<16:11:28,  3.43it/s] 46%|████▌     | 171615/371472 [2:34:59<15:37:43,  3.55it/s] 46%|████▌     | 171616/371472 [2:34:59<17:04:56,  3.25it/s] 46%|████▌     | 171617/371472 [2:35:00<17:29:32,  3.17it/s] 46%|████▌     | 171618/371472 [2:35:00<16:44:54,  3.31it/s] 46%|████▌     | 171619/371472 [2:35:00<16:05:16,  3.45it/s] 46%|████▌     | 171620/371472 [2:35:01<15:37:13,  3.55it/s]                                                            {'loss': 3.0353, 'learning_rate': 5.844609881703981e-07, 'epoch': 7.39}
 46%|████▌     | 171620/371472 [2:35:01<15:37:13,  3.55it/s] 46%|████▌     | 171621/371472 [2:35:01<15:57:24,  3.48it/s] 46%|████▌     | 171622/371472 [2:35:01<15:33:33,  3.57it/s] 46%|████▌     | 171623/371472 [2:35:01<16:19:12,  3.40it/s] 46%|████▌     | 171624/371472 [2:35:02<15:45:32,  3.52it/s] 46%|████▌     | 171625/371472 [2:35:02<15:35:17,  3.56it/s] 46%|████▌     | 171626/371472 [2:35:02<15:00:55,  3.70it/s] 46%|████▌     | 171627/371472 [2:35:03<15:58:10,  3.48it/s] 46%|████▌     | 171628/371472 [2:35:03<15:41:13,  3.54it/s] 46%|████▌     | 171629/371472 [2:35:03<15:23:43,  3.61it/s] 46%|████▌     | 171630/371472 [2:35:03<15:51:30,  3.50it/s] 46%|████▌     | 171631/371472 [2:35:04<16:48:06,  3.30it/s] 46%|████▌     | 171632/371472 [2:35:04<16:01:31,  3.46it/s] 46%|████▌     | 171633/371472 [2:35:04<16:26:51,  3.37it/s] 46%|████▌     | 171634/371472 [2:35:05<15:50:12,  3.51it/s] 46%|████▌     | 171635/371472 [2:35:05<16:23:26,  3.39it/s] 46%|████▌     | 171636/371472 [2:35:05<16:19:55,  3.40it/s] 46%|████▌     | 171637/371472 [2:35:05<16:01:59,  3.46it/s] 46%|████▌     | 171638/371472 [2:35:06<15:47:36,  3.51it/s] 46%|████▌     | 171639/371472 [2:35:06<15:22:27,  3.61it/s] 46%|████▌     | 171640/371472 [2:35:06<16:50:36,  3.30it/s]                                                            {'loss': 3.0099, 'learning_rate': 5.84412506194919e-07, 'epoch': 7.39}
 46%|████▌     | 171640/371472 [2:35:06<16:50:36,  3.30it/s] 46%|████▌     | 171641/371472 [2:35:07<16:15:01,  3.42it/s] 46%|████▌     | 171642/371472 [2:35:07<15:51:31,  3.50it/s] 46%|████▌     | 171643/371472 [2:35:07<15:15:53,  3.64it/s] 46%|████▌     | 171644/371472 [2:35:07<15:41:52,  3.54it/s] 46%|████▌     | 171645/371472 [2:35:08<15:44:45,  3.53it/s] 46%|████▌     | 171646/371472 [2:35:08<17:52:52,  3.10it/s] 46%|████▌     | 171647/371472 [2:35:08<17:29:29,  3.17it/s] 46%|████▌     | 171648/371472 [2:35:09<17:30:21,  3.17it/s] 46%|████▌     | 171649/371472 [2:35:09<16:43:43,  3.32it/s] 46%|████▌     | 171650/371472 [2:35:09<16:28:48,  3.37it/s] 46%|████▌     | 171651/371472 [2:35:10<16:12:17,  3.43it/s] 46%|████▌     | 171652/371472 [2:35:10<15:40:29,  3.54it/s] 46%|████▌     | 171653/371472 [2:35:10<15:51:38,  3.50it/s] 46%|████▌     | 171654/371472 [2:35:10<15:36:53,  3.55it/s] 46%|████▌     | 171655/371472 [2:35:11<15:19:39,  3.62it/s] 46%|████▌     | 171656/371472 [2:35:11<15:41:22,  3.54it/s] 46%|████▌     | 171657/371472 [2:35:11<15:27:32,  3.59it/s] 46%|████▌     | 171658/371472 [2:35:12<14:50:54,  3.74it/s] 46%|████▌     | 171659/371472 [2:35:12<16:11:59,  3.43it/s] 46%|████▌     | 171660/371472 [2:35:12<15:28:35,  3.59it/s]                                                            {'loss': 2.928, 'learning_rate': 5.843640242194401e-07, 'epoch': 7.39}
 46%|████▌     | 171660/371472 [2:35:12<15:28:35,  3.59it/s] 46%|████▌     | 171661/371472 [2:35:12<16:30:26,  3.36it/s] 46%|████▌     | 171662/371472 [2:35:13<16:12:09,  3.43it/s] 46%|████▌     | 171663/371472 [2:35:13<16:07:24,  3.44it/s] 46%|████▌     | 171664/371472 [2:35:13<16:09:08,  3.44it/s] 46%|████▌     | 171665/371472 [2:35:14<16:09:25,  3.44it/s] 46%|████▌     | 171666/371472 [2:35:14<15:42:12,  3.53it/s] 46%|████▌     | 171667/371472 [2:35:14<15:27:10,  3.59it/s] 46%|████▌     | 171668/371472 [2:35:14<16:06:26,  3.45it/s] 46%|████▌     | 171669/371472 [2:35:15<15:43:05,  3.53it/s] 46%|████▌     | 171670/371472 [2:35:15<15:20:22,  3.62it/s] 46%|████▌     | 171671/371472 [2:35:15<15:17:48,  3.63it/s] 46%|████▌     | 171672/371472 [2:35:16<15:35:17,  3.56it/s] 46%|████▌     | 171673/371472 [2:35:16<15:21:21,  3.61it/s] 46%|████▌     | 171674/371472 [2:35:16<16:10:55,  3.43it/s] 46%|████▌     | 171675/371472 [2:35:16<15:54:39,  3.49it/s] 46%|████▌     | 171676/371472 [2:35:17<15:54:29,  3.49it/s] 46%|████▌     | 171677/371472 [2:35:17<15:43:17,  3.53it/s] 46%|████▌     | 171678/371472 [2:35:17<16:49:16,  3.30it/s] 46%|████▌     | 171679/371472 [2:35:18<16:36:06,  3.34it/s] 46%|████▌     | 171680/371472 [2:35:18<15:55:01,  3.49it/s]                                                            {'loss': 3.0381, 'learning_rate': 5.843155422439613e-07, 'epoch': 7.39}
 46%|████▌     | 171680/371472 [2:35:18<15:55:01,  3.49it/s] 46%|████▌     | 171681/371472 [2:35:18<15:57:12,  3.48it/s] 46%|████▌     | 171682/371472 [2:35:18<16:07:11,  3.44it/s] 46%|████▌     | 171683/371472 [2:35:19<15:30:03,  3.58it/s] 46%|████▌     | 171684/371472 [2:35:19<14:46:18,  3.76it/s] 46%|████▌     | 171685/371472 [2:35:19<15:32:16,  3.57it/s] 46%|████▌     | 171686/371472 [2:35:20<15:14:30,  3.64it/s] 46%|████▌     | 171687/371472 [2:35:20<15:41:30,  3.54it/s] 46%|████▌     | 171688/371472 [2:35:20<15:17:29,  3.63it/s] 46%|████▌     | 171689/371472 [2:35:20<15:07:12,  3.67it/s] 46%|████▌     | 171690/371472 [2:35:21<15:02:11,  3.69it/s] 46%|████▌     | 171691/371472 [2:35:21<14:41:19,  3.78it/s] 46%|████▌     | 171692/371472 [2:35:21<14:47:44,  3.75it/s] 46%|████▌     | 171693/371472 [2:35:21<15:12:11,  3.65it/s] 46%|████▌     | 171694/371472 [2:35:22<15:02:43,  3.69it/s] 46%|████▌     | 171695/371472 [2:35:22<15:17:55,  3.63it/s] 46%|████▌     | 171696/371472 [2:35:22<15:38:24,  3.55it/s] 46%|████▌     | 171697/371472 [2:35:23<16:39:49,  3.33it/s] 46%|████▌     | 171698/371472 [2:35:23<16:33:54,  3.35it/s] 46%|████▌     | 171699/371472 [2:35:23<15:57:13,  3.48it/s] 46%|████▌     | 171700/371472 [2:35:23<15:26:59,  3.59it/s]                                                            {'loss': 3.0668, 'learning_rate': 5.842670602684825e-07, 'epoch': 7.4}
 46%|████▌     | 171700/371472 [2:35:23<15:26:59,  3.59it/s] 46%|████▌     | 171701/371472 [2:35:24<15:27:54,  3.59it/s] 46%|████▌     | 171702/371472 [2:35:24<16:02:28,  3.46it/s] 46%|████▌     | 171703/371472 [2:35:24<15:34:50,  3.56it/s] 46%|████▌     | 171704/371472 [2:35:25<15:07:45,  3.67it/s] 46%|████▌     | 171705/371472 [2:35:25<15:45:49,  3.52it/s] 46%|████▌     | 171706/371472 [2:35:25<15:29:40,  3.58it/s] 46%|████▌     | 171707/371472 [2:35:25<15:58:16,  3.47it/s] 46%|████▌     | 171708/371472 [2:35:26<16:15:41,  3.41it/s] 46%|████▌     | 171709/371472 [2:35:26<17:49:24,  3.11it/s] 46%|████▌     | 171710/371472 [2:35:26<16:55:31,  3.28it/s] 46%|████▌     | 171711/371472 [2:35:27<16:23:10,  3.39it/s] 46%|████▌     | 171712/371472 [2:35:27<16:21:57,  3.39it/s] 46%|████▌     | 171713/371472 [2:35:27<15:51:42,  3.50it/s] 46%|████▌     | 171714/371472 [2:35:27<15:41:32,  3.54it/s] 46%|████▌     | 171715/371472 [2:35:28<15:29:43,  3.58it/s] 46%|████▌     | 171716/371472 [2:35:28<15:48:35,  3.51it/s] 46%|████▌     | 171717/371472 [2:35:28<15:19:11,  3.62it/s] 46%|████▌     | 171718/371472 [2:35:29<16:36:11,  3.34it/s] 46%|████▌     | 171719/371472 [2:35:29<15:58:40,  3.47it/s] 46%|████▌     | 171720/371472 [2:35:29<15:48:58,  3.51it/s]                                                            {'loss': 2.8669, 'learning_rate': 5.842185782930035e-07, 'epoch': 7.4}
 46%|████▌     | 171720/371472 [2:35:29<15:48:58,  3.51it/s] 46%|████▌     | 171721/371472 [2:35:30<16:07:41,  3.44it/s] 46%|████▌     | 171722/371472 [2:35:30<15:40:35,  3.54it/s] 46%|████▌     | 171723/371472 [2:35:30<15:37:21,  3.55it/s] 46%|████▌     | 171724/371472 [2:35:30<15:37:04,  3.55it/s] 46%|████▌     | 171725/371472 [2:35:31<15:06:08,  3.67it/s] 46%|████▌     | 171726/371472 [2:35:31<15:47:34,  3.51it/s] 46%|████▌     | 171727/371472 [2:35:31<16:18:19,  3.40it/s] 46%|████▌     | 171728/371472 [2:35:32<17:09:02,  3.24it/s] 46%|████▌     | 171729/371472 [2:35:32<17:11:05,  3.23it/s] 46%|████▌     | 171730/371472 [2:35:32<16:33:42,  3.35it/s] 46%|████▌     | 171731/371472 [2:35:32<16:03:12,  3.46it/s] 46%|████▌     | 171732/371472 [2:35:33<16:25:36,  3.38it/s] 46%|████▌     | 171733/371472 [2:35:33<15:41:16,  3.54it/s] 46%|████▌     | 171734/371472 [2:35:33<15:18:53,  3.62it/s] 46%|████▌     | 171735/371472 [2:35:34<15:22:35,  3.61it/s] 46%|████▌     | 171736/371472 [2:35:34<16:39:00,  3.33it/s] 46%|████▌     | 171737/371472 [2:35:34<16:29:44,  3.36it/s] 46%|████▌     | 171738/371472 [2:35:34<16:02:43,  3.46it/s] 46%|████▌     | 171739/371472 [2:35:35<15:41:09,  3.54it/s] 46%|████▌     | 171740/371472 [2:35:35<15:20:25,  3.62it/s]                                                            {'loss': 3.0117, 'learning_rate': 5.841700963175246e-07, 'epoch': 7.4}
 46%|████▌     | 171740/371472 [2:35:35<15:20:25,  3.62it/s] 46%|████▌     | 171741/371472 [2:35:35<15:30:46,  3.58it/s] 46%|████▌     | 171742/371472 [2:35:36<15:14:25,  3.64it/s] 46%|████▌     | 171743/371472 [2:35:36<15:47:27,  3.51it/s] 46%|████▌     | 171744/371472 [2:35:36<15:10:26,  3.66it/s] 46%|████▌     | 171745/371472 [2:35:36<15:53:45,  3.49it/s] 46%|████▌     | 171746/371472 [2:35:37<15:51:53,  3.50it/s] 46%|████▌     | 171747/371472 [2:35:37<15:50:34,  3.50it/s] 46%|████▌     | 171748/371472 [2:35:37<16:04:02,  3.45it/s] 46%|████▌     | 171749/371472 [2:35:38<15:32:06,  3.57it/s] 46%|████▌     | 171750/371472 [2:35:38<15:16:37,  3.63it/s] 46%|████▌     | 171751/371472 [2:35:38<15:55:57,  3.48it/s] 46%|████▌     | 171752/371472 [2:35:38<15:30:34,  3.58it/s] 46%|████▌     | 171753/371472 [2:35:39<15:34:41,  3.56it/s] 46%|████▌     | 171754/371472 [2:35:39<15:19:08,  3.62it/s] 46%|████▌     | 171755/371472 [2:35:39<15:28:12,  3.59it/s] 46%|████▌     | 171756/371472 [2:35:39<15:34:35,  3.56it/s] 46%|████▌     | 171757/371472 [2:35:40<15:50:39,  3.50it/s] 46%|████▌     | 171758/371472 [2:35:40<15:41:24,  3.54it/s] 46%|████▌     | 171759/371472 [2:35:40<15:10:52,  3.65it/s] 46%|████▌     | 171760/371472 [2:35:41<15:52:30,  3.49it/s]                                                            {'loss': 2.9575, 'learning_rate': 5.841216143420458e-07, 'epoch': 7.4}
 46%|████▌     | 171760/371472 [2:35:41<15:52:30,  3.49it/s] 46%|████▌     | 171761/371472 [2:35:41<15:58:49,  3.47it/s] 46%|████▌     | 171762/371472 [2:35:41<16:12:44,  3.42it/s] 46%|████▌     | 171763/371472 [2:35:42<16:52:25,  3.29it/s] 46%|████▌     | 171764/371472 [2:35:42<16:23:05,  3.39it/s] 46%|████▌     | 171765/371472 [2:35:42<16:00:06,  3.47it/s] 46%|████▌     | 171766/371472 [2:35:42<15:54:14,  3.49it/s] 46%|████▌     | 171767/371472 [2:35:43<15:15:30,  3.64it/s] 46%|████▌     | 171768/371472 [2:35:43<15:06:28,  3.67it/s] 46%|████▌     | 171769/371472 [2:35:43<15:19:52,  3.62it/s] 46%|████▌     | 171770/371472 [2:35:43<16:23:18,  3.38it/s] 46%|████▌     | 171771/371472 [2:35:44<17:25:00,  3.19it/s] 46%|████▌     | 171772/371472 [2:35:44<17:29:50,  3.17it/s] 46%|████▌     | 171773/371472 [2:35:45<17:54:38,  3.10it/s] 46%|████▌     | 171774/371472 [2:35:45<17:48:07,  3.12it/s] 46%|████▌     | 171775/371472 [2:35:45<18:02:29,  3.07it/s] 46%|████▌     | 171776/371472 [2:35:45<16:59:51,  3.26it/s] 46%|████▌     | 171777/371472 [2:35:46<16:21:32,  3.39it/s] 46%|████▌     | 171778/371472 [2:35:46<17:04:18,  3.25it/s] 46%|████▌     | 171779/371472 [2:35:46<16:57:22,  3.27it/s] 46%|████▌     | 171780/371472 [2:35:47<16:32:50,  3.35it/s]                                                            {'loss': 2.9268, 'learning_rate': 5.840731323665667e-07, 'epoch': 7.4}
 46%|████▌     | 171780/371472 [2:35:47<16:32:50,  3.35it/s] 46%|████▌     | 171781/371472 [2:35:47<18:06:27,  3.06it/s] 46%|████▌     | 171782/371472 [2:35:47<17:09:33,  3.23it/s] 46%|████▌     | 171783/371472 [2:35:48<16:41:30,  3.32it/s] 46%|████▌     | 171784/371472 [2:35:48<16:03:34,  3.45it/s] 46%|████▌     | 171785/371472 [2:35:48<17:05:29,  3.25it/s] 46%|████▌     | 171786/371472 [2:35:48<16:34:39,  3.35it/s] 46%|████▌     | 171787/371472 [2:35:49<17:09:08,  3.23it/s] 46%|████▌     | 171788/371472 [2:35:49<17:01:12,  3.26it/s] 46%|████▌     | 171789/371472 [2:35:49<16:24:59,  3.38it/s] 46%|████▌     | 171790/371472 [2:35:50<15:34:00,  3.56it/s] 46%|████▌     | 171791/371472 [2:35:50<15:00:56,  3.69it/s] 46%|████▌     | 171792/371472 [2:35:50<14:29:49,  3.83it/s] 46%|████▌     | 171793/371472 [2:35:50<15:13:37,  3.64it/s] 46%|████▌     | 171794/371472 [2:35:51<15:02:10,  3.69it/s] 46%|████▌     | 171795/371472 [2:35:51<16:47:45,  3.30it/s] 46%|████▌     | 171796/371472 [2:35:51<16:07:07,  3.44it/s] 46%|████▌     | 171797/371472 [2:35:52<15:31:35,  3.57it/s] 46%|████▌     | 171798/371472 [2:35:52<16:10:44,  3.43it/s] 46%|████▌     | 171799/371472 [2:35:52<16:14:43,  3.41it/s] 46%|████▌     | 171800/371472 [2:35:52<16:17:54,  3.40it/s]                                                            {'loss': 3.0704, 'learning_rate': 5.840246503910878e-07, 'epoch': 7.4}
 46%|████▌     | 171800/371472 [2:35:52<16:17:54,  3.40it/s] 46%|████▌     | 171801/371472 [2:35:53<15:38:34,  3.55it/s] 46%|████▌     | 171802/371472 [2:35:53<15:24:10,  3.60it/s] 46%|████▌     | 171803/371472 [2:35:53<15:23:57,  3.60it/s] 46%|████▌     | 171804/371472 [2:35:54<15:07:47,  3.67it/s] 46%|████▌     | 171805/371472 [2:35:54<16:43:43,  3.32it/s] 46%|████▋     | 171806/371472 [2:35:54<16:12:01,  3.42it/s] 46%|████▋     | 171807/371472 [2:35:55<17:05:22,  3.25it/s] 46%|████▋     | 171808/371472 [2:35:55<16:31:22,  3.36it/s] 46%|████▋     | 171809/371472 [2:35:55<16:35:43,  3.34it/s] 46%|████▋     | 171810/371472 [2:35:55<16:01:43,  3.46it/s] 46%|████▋     | 171811/371472 [2:35:56<15:35:02,  3.56it/s] 46%|████▋     | 171812/371472 [2:35:56<15:41:36,  3.53it/s] 46%|████▋     | 171813/371472 [2:35:56<15:46:16,  3.52it/s] 46%|████▋     | 171814/371472 [2:35:57<16:33:56,  3.35it/s] 46%|████▋     | 171815/371472 [2:35:57<16:45:31,  3.31it/s] 46%|████▋     | 171816/371472 [2:35:57<16:47:33,  3.30it/s] 46%|████▋     | 171817/371472 [2:35:57<16:02:28,  3.46it/s] 46%|████▋     | 171818/371472 [2:35:58<16:21:36,  3.39it/s] 46%|████▋     | 171819/371472 [2:35:58<16:29:08,  3.36it/s] 46%|████▋     | 171820/371472 [2:35:58<15:30:57,  3.57it/s]                                                            {'loss': 3.0635, 'learning_rate': 5.83976168415609e-07, 'epoch': 7.4}
 46%|████▋     | 171820/371472 [2:35:58<15:30:57,  3.57it/s] 46%|████▋     | 171821/371472 [2:35:59<15:12:32,  3.65it/s] 46%|████▋     | 171822/371472 [2:35:59<15:24:26,  3.60it/s] 46%|████▋     | 171823/371472 [2:35:59<15:17:02,  3.63it/s] 46%|████▋     | 171824/371472 [2:35:59<15:19:23,  3.62it/s] 46%|████▋     | 171825/371472 [2:36:00<15:27:06,  3.59it/s] 46%|████▋     | 171826/371472 [2:36:00<15:41:45,  3.53it/s] 46%|████▋     | 171827/371472 [2:36:00<17:20:45,  3.20it/s] 46%|████▋     | 171828/371472 [2:36:01<16:48:37,  3.30it/s] 46%|████▋     | 171829/371472 [2:36:01<15:56:28,  3.48it/s] 46%|████▋     | 171830/371472 [2:36:01<16:05:57,  3.44it/s] 46%|████▋     | 171831/371472 [2:36:01<16:19:59,  3.40it/s] 46%|████▋     | 171832/371472 [2:36:02<15:52:02,  3.49it/s] 46%|████▋     | 171833/371472 [2:36:02<15:24:10,  3.60it/s] 46%|████▋     | 171834/371472 [2:36:02<14:56:14,  3.71it/s] 46%|████▋     | 171835/371472 [2:36:02<15:07:07,  3.67it/s] 46%|████▋     | 171836/371472 [2:36:03<15:05:32,  3.67it/s] 46%|████▋     | 171837/371472 [2:36:03<15:31:04,  3.57it/s] 46%|████▋     | 171838/371472 [2:36:03<16:52:24,  3.29it/s] 46%|████▋     | 171839/371472 [2:36:04<16:56:03,  3.27it/s] 46%|████▋     | 171840/371472 [2:36:04<16:03:55,  3.45it/s]                                                            {'loss': 3.0799, 'learning_rate': 5.839276864401302e-07, 'epoch': 7.4}
 46%|████▋     | 171840/371472 [2:36:04<16:03:55,  3.45it/s] 46%|████▋     | 171841/371472 [2:36:04<15:34:50,  3.56it/s] 46%|████▋     | 171842/371472 [2:36:05<15:37:49,  3.55it/s] 46%|████▋     | 171843/371472 [2:36:05<15:03:11,  3.68it/s] 46%|████▋     | 171844/371472 [2:36:05<15:16:17,  3.63it/s] 46%|████▋     | 171845/371472 [2:36:05<15:42:55,  3.53it/s] 46%|████▋     | 171846/371472 [2:36:06<15:06:23,  3.67it/s] 46%|████▋     | 171847/371472 [2:36:06<16:33:08,  3.35it/s] 46%|████▋     | 171848/371472 [2:36:06<16:39:00,  3.33it/s] 46%|████▋     | 171849/371472 [2:36:07<16:07:03,  3.44it/s] 46%|████▋     | 171850/371472 [2:36:07<16:32:59,  3.35it/s] 46%|████▋     | 171851/371472 [2:36:07<16:06:01,  3.44it/s] 46%|████▋     | 171852/371472 [2:36:07<16:03:34,  3.45it/s] 46%|████▋     | 171853/371472 [2:36:08<15:48:18,  3.51it/s] 46%|████▋     | 171854/371472 [2:36:08<15:13:51,  3.64it/s] 46%|████▋     | 171855/371472 [2:36:08<15:16:30,  3.63it/s] 46%|████▋     | 171856/371472 [2:36:08<15:26:11,  3.59it/s] 46%|████▋     | 171857/371472 [2:36:09<15:09:34,  3.66it/s] 46%|████▋     | 171858/371472 [2:36:09<16:28:38,  3.37it/s] 46%|████▋     | 171859/371472 [2:36:09<16:11:03,  3.43it/s] 46%|████▋     | 171860/371472 [2:36:10<15:45:29,  3.52it/s]                                                            {'loss': 3.1102, 'learning_rate': 5.838792044646512e-07, 'epoch': 7.4}
 46%|████▋     | 171860/371472 [2:36:10<15:45:29,  3.52it/s] 46%|████▋     | 171861/371472 [2:36:10<16:01:03,  3.46it/s] 46%|████▋     | 171862/371472 [2:36:10<15:33:22,  3.56it/s] 46%|████▋     | 171863/371472 [2:36:11<15:41:51,  3.53it/s] 46%|████▋     | 171864/371472 [2:36:11<15:56:32,  3.48it/s] 46%|████▋     | 171865/371472 [2:36:11<17:25:14,  3.18it/s] 46%|████▋     | 171866/371472 [2:36:12<18:40:44,  2.97it/s] 46%|████▋     | 171867/371472 [2:36:12<18:16:09,  3.03it/s] 46%|████▋     | 171868/371472 [2:36:12<17:13:54,  3.22it/s] 46%|████▋     | 171869/371472 [2:36:12<16:25:08,  3.38it/s] 46%|████▋     | 171870/371472 [2:36:13<15:51:16,  3.50it/s] 46%|████▋     | 171871/371472 [2:36:13<16:32:38,  3.35it/s] 46%|████▋     | 171872/371472 [2:36:13<15:35:30,  3.56it/s] 46%|████▋     | 171873/371472 [2:36:14<15:24:45,  3.60it/s] 46%|████▋     | 171874/371472 [2:36:14<15:28:29,  3.58it/s] 46%|████▋     | 171875/371472 [2:36:14<15:49:05,  3.51it/s] 46%|████▋     | 171876/371472 [2:36:14<16:43:14,  3.32it/s] 46%|████▋     | 171877/371472 [2:36:15<16:22:01,  3.39it/s] 46%|████▋     | 171878/371472 [2:36:15<15:54:58,  3.48it/s] 46%|████▋     | 171879/371472 [2:36:15<15:31:52,  3.57it/s] 46%|████▋     | 171880/371472 [2:36:16<15:38:51,  3.54it/s]                                                            {'loss': 3.0559, 'learning_rate': 5.838307224891723e-07, 'epoch': 7.4}
 46%|████▋     | 171880/371472 [2:36:16<15:38:51,  3.54it/s] 46%|████▋     | 171881/371472 [2:36:16<15:50:54,  3.50it/s] 46%|████▋     | 171882/371472 [2:36:16<15:42:02,  3.53it/s] 46%|████▋     | 171883/371472 [2:36:16<15:08:11,  3.66it/s] 46%|████▋     | 171884/371472 [2:36:17<15:19:31,  3.62it/s] 46%|████▋     | 171885/371472 [2:36:17<15:06:38,  3.67it/s] 46%|████▋     | 171886/371472 [2:36:17<17:18:58,  3.20it/s] 46%|████▋     | 171887/371472 [2:36:18<17:29:53,  3.17it/s] 46%|████▋     | 171888/371472 [2:36:18<16:37:33,  3.33it/s] 46%|████▋     | 171889/371472 [2:36:18<16:01:18,  3.46it/s] 46%|████▋     | 171890/371472 [2:36:18<15:15:07,  3.63it/s] 46%|████▋     | 171891/371472 [2:36:19<15:00:46,  3.69it/s] 46%|████▋     | 171892/371472 [2:36:19<15:55:28,  3.48it/s] 46%|████▋     | 171893/371472 [2:36:19<16:14:26,  3.41it/s] 46%|████▋     | 171894/371472 [2:36:20<15:56:09,  3.48it/s] 46%|████▋     | 171895/371472 [2:36:20<15:30:46,  3.57it/s] 46%|████▋     | 171896/371472 [2:36:20<15:34:15,  3.56it/s] 46%|████▋     | 171897/371472 [2:36:20<15:05:40,  3.67it/s] 46%|████▋     | 171898/371472 [2:36:21<14:54:32,  3.72it/s] 46%|████▋     | 171899/371472 [2:36:21<14:49:16,  3.74it/s] 46%|████▋     | 171900/371472 [2:36:21<14:42:27,  3.77it/s]                                                            {'loss': 3.0831, 'learning_rate': 5.837822405136934e-07, 'epoch': 7.4}
 46%|████▋     | 171900/371472 [2:36:21<14:42:27,  3.77it/s] 46%|████▋     | 171901/371472 [2:36:21<14:53:38,  3.72it/s] 46%|████▋     | 171902/371472 [2:36:22<14:44:16,  3.76it/s] 46%|████▋     | 171903/371472 [2:36:22<15:18:40,  3.62it/s] 46%|████▋     | 171904/371472 [2:36:22<16:03:27,  3.45it/s] 46%|████▋     | 171905/371472 [2:36:23<17:22:23,  3.19it/s] 46%|████▋     | 171906/371472 [2:36:23<16:26:22,  3.37it/s] 46%|████▋     | 171907/371472 [2:36:23<15:40:02,  3.54it/s] 46%|████▋     | 171908/371472 [2:36:23<15:29:42,  3.58it/s] 46%|████▋     | 171909/371472 [2:36:24<14:43:01,  3.77it/s] 46%|████▋     | 171910/371472 [2:36:24<14:28:16,  3.83it/s] 46%|████▋     | 171911/371472 [2:36:24<14:16:40,  3.88it/s] 46%|████▋     | 171912/371472 [2:36:24<14:35:04,  3.80it/s] 46%|████▋     | 171913/371472 [2:36:25<14:45:25,  3.76it/s] 46%|████▋     | 171914/371472 [2:36:25<15:08:19,  3.66it/s] 46%|████▋     | 171915/371472 [2:36:25<14:46:39,  3.75it/s] 46%|████▋     | 171916/371472 [2:36:26<14:11:31,  3.91it/s] 46%|████▋     | 171917/371472 [2:36:26<13:52:51,  3.99it/s] 46%|████▋     | 171918/371472 [2:36:26<14:53:16,  3.72it/s] 46%|████▋     | 171919/371472 [2:36:26<15:27:30,  3.59it/s] 46%|████▋     | 171920/371472 [2:36:27<16:28:25,  3.36it/s]                                                            {'loss': 3.1865, 'learning_rate': 5.837337585382146e-07, 'epoch': 7.4}
 46%|████▋     | 171920/371472 [2:36:27<16:28:25,  3.36it/s] 46%|████▋     | 171921/371472 [2:36:27<16:12:18,  3.42it/s] 46%|████▋     | 171922/371472 [2:36:27<15:46:31,  3.51it/s] 46%|████▋     | 171923/371472 [2:36:28<15:19:50,  3.62it/s] 46%|████▋     | 171924/371472 [2:36:28<18:31:20,  2.99it/s] 46%|████▋     | 171925/371472 [2:36:28<17:24:59,  3.18it/s] 46%|████▋     | 171926/371472 [2:36:29<16:59:58,  3.26it/s] 46%|████▋     | 171927/371472 [2:36:29<16:18:13,  3.40it/s] 46%|████▋     | 171928/371472 [2:36:29<16:48:17,  3.30it/s] 46%|████▋     | 171929/371472 [2:36:29<16:39:44,  3.33it/s] 46%|████▋     | 171930/371472 [2:36:30<16:08:04,  3.44it/s] 46%|████▋     | 171931/371472 [2:36:30<16:27:52,  3.37it/s] 46%|████▋     | 171932/371472 [2:36:30<15:43:14,  3.53it/s] 46%|████▋     | 171933/371472 [2:36:31<15:28:24,  3.58it/s] 46%|████▋     | 171934/371472 [2:36:31<15:15:33,  3.63it/s] 46%|████▋     | 171935/371472 [2:36:31<14:56:05,  3.71it/s] 46%|████▋     | 171936/371472 [2:36:31<14:47:29,  3.75it/s] 46%|████▋     | 171937/371472 [2:36:32<14:39:07,  3.78it/s] 46%|████▋     | 171938/371472 [2:36:32<14:48:37,  3.74it/s] 46%|████▋     | 171939/371472 [2:36:32<14:47:45,  3.75it/s] 46%|████▋     | 171940/371472 [2:36:32<15:07:52,  3.66it/s]                                                            {'loss': 3.0946, 'learning_rate': 5.836852765627356e-07, 'epoch': 7.41}
 46%|████▋     | 171940/371472 [2:36:32<15:07:52,  3.66it/s] 46%|████▋     | 171941/371472 [2:36:33<14:51:21,  3.73it/s] 46%|████▋     | 171942/371472 [2:36:33<14:54:28,  3.72it/s] 46%|████▋     | 171943/371472 [2:36:33<15:39:47,  3.54it/s] 46%|████▋     | 171944/371472 [2:36:34<15:40:21,  3.54it/s] 46%|████▋     | 171945/371472 [2:36:34<16:50:49,  3.29it/s] 46%|████▋     | 171946/371472 [2:36:34<17:13:01,  3.22it/s] 46%|████▋     | 171947/371472 [2:36:34<16:10:12,  3.43it/s] 46%|████▋     | 171948/371472 [2:36:35<15:47:15,  3.51it/s] 46%|████▋     | 171949/371472 [2:36:35<15:23:14,  3.60it/s] 46%|████▋     | 171950/371472 [2:36:35<15:10:25,  3.65it/s] 46%|████▋     | 171951/371472 [2:36:36<15:11:17,  3.65it/s] 46%|████▋     | 171952/371472 [2:36:36<14:53:17,  3.72it/s] 46%|████▋     | 171953/371472 [2:36:36<16:39:33,  3.33it/s] 46%|████▋     | 171954/371472 [2:36:36<15:48:52,  3.50it/s] 46%|████▋     | 171955/371472 [2:36:37<16:19:37,  3.39it/s] 46%|████▋     | 171956/371472 [2:36:37<15:46:58,  3.51it/s] 46%|████▋     | 171957/371472 [2:36:37<16:38:39,  3.33it/s] 46%|████▋     | 171958/371472 [2:36:38<15:50:41,  3.50it/s] 46%|████▋     | 171959/371472 [2:36:38<15:41:58,  3.53it/s] 46%|████▋     | 171960/371472 [2:36:38<15:42:15,  3.53it/s]                                                            {'loss': 3.0158, 'learning_rate': 5.836367945872567e-07, 'epoch': 7.41}
 46%|████▋     | 171960/371472 [2:36:38<15:42:15,  3.53it/s] 46%|████▋     | 171961/371472 [2:36:38<15:39:02,  3.54it/s] 46%|████▋     | 171962/371472 [2:36:39<15:37:44,  3.55it/s] 46%|████▋     | 171963/371472 [2:36:39<15:46:12,  3.51it/s] 46%|████▋     | 171964/371472 [2:36:39<15:12:03,  3.65it/s] 46%|████▋     | 171965/371472 [2:36:39<14:54:57,  3.72it/s] 46%|████▋     | 171966/371472 [2:36:40<14:54:47,  3.72it/s] 46%|████▋     | 171967/371472 [2:36:40<15:07:40,  3.66it/s] 46%|████▋     | 171968/371472 [2:36:40<15:21:04,  3.61it/s] 46%|████▋     | 171969/371472 [2:36:41<16:51:21,  3.29it/s] 46%|████▋     | 171970/371472 [2:36:41<17:05:03,  3.24it/s] 46%|████▋     | 171971/371472 [2:36:41<16:21:40,  3.39it/s] 46%|████▋     | 171972/371472 [2:36:42<16:39:55,  3.33it/s] 46%|████▋     | 171973/371472 [2:36:42<16:17:20,  3.40it/s] 46%|████▋     | 171974/371472 [2:36:42<15:35:56,  3.55it/s] 46%|████▋     | 171975/371472 [2:36:42<14:59:05,  3.70it/s] 46%|████▋     | 171976/371472 [2:36:43<14:40:26,  3.78it/s] 46%|████▋     | 171977/371472 [2:36:43<15:01:58,  3.69it/s] 46%|████▋     | 171978/371472 [2:36:43<14:44:37,  3.76it/s] 46%|████▋     | 171979/371472 [2:36:43<14:43:59,  3.76it/s] 46%|████▋     | 171980/371472 [2:36:44<16:38:34,  3.33it/s]                                                            {'loss': 3.0568, 'learning_rate': 5.835883126117779e-07, 'epoch': 7.41}
 46%|████▋     | 171980/371472 [2:36:44<16:38:34,  3.33it/s] 46%|████▋     | 171981/371472 [2:36:44<16:05:34,  3.44it/s] 46%|████▋     | 171982/371472 [2:36:44<16:10:35,  3.43it/s] 46%|████▋     | 171983/371472 [2:36:45<15:59:03,  3.47it/s] 46%|████▋     | 171984/371472 [2:36:45<17:59:40,  3.08it/s] 46%|████▋     | 171985/371472 [2:36:45<16:55:38,  3.27it/s] 46%|████▋     | 171986/371472 [2:36:46<16:15:05,  3.41it/s] 46%|████▋     | 171987/371472 [2:36:46<16:10:54,  3.42it/s] 46%|████▋     | 171988/371472 [2:36:46<17:47:28,  3.11it/s] 46%|████▋     | 171989/371472 [2:36:47<17:34:53,  3.15it/s] 46%|████▋     | 171990/371472 [2:36:47<17:13:19,  3.22it/s] 46%|████▋     | 171991/371472 [2:36:47<17:49:49,  3.11it/s] 46%|████▋     | 171992/371472 [2:36:47<17:08:28,  3.23it/s] 46%|████▋     | 171993/371472 [2:36:48<17:06:05,  3.24it/s] 46%|████▋     | 171994/371472 [2:36:48<17:02:27,  3.25it/s] 46%|████▋     | 171995/371472 [2:36:48<16:31:16,  3.35it/s] 46%|████▋     | 171996/371472 [2:36:49<16:06:03,  3.44it/s] 46%|████▋     | 171997/371472 [2:36:49<15:18:46,  3.62it/s] 46%|████▋     | 171998/371472 [2:36:49<14:43:06,  3.76it/s] 46%|████▋     | 171999/371472 [2:36:49<14:44:54,  3.76it/s] 46%|████▋     | 172000/371472 [2:36:50<14:59:53,  3.69it/s]                                                            {'loss': 3.0745, 'learning_rate': 5.83539830636299e-07, 'epoch': 7.41}
 46%|████▋     | 172000/371472 [2:36:50<14:59:53,  3.69it/s] 46%|████▋     | 172001/371472 [2:36:50<15:02:13,  3.68it/s] 46%|████▋     | 172002/371472 [2:36:50<15:50:46,  3.50it/s] 46%|████▋     | 172003/371472 [2:36:51<15:02:50,  3.68it/s] 46%|████▋     | 172004/371472 [2:36:51<15:42:33,  3.53it/s] 46%|████▋     | 172005/371472 [2:36:51<16:59:06,  3.26it/s] 46%|████▋     | 172006/371472 [2:36:51<16:49:20,  3.29it/s] 46%|████▋     | 172007/371472 [2:36:52<16:00:27,  3.46it/s] 46%|████▋     | 172008/371472 [2:36:52<15:36:23,  3.55it/s] 46%|████▋     | 172009/371472 [2:36:52<15:14:41,  3.63it/s] 46%|████▋     | 172010/371472 [2:36:53<15:02:52,  3.68it/s] 46%|████▋     | 172011/371472 [2:36:53<15:35:19,  3.55it/s] 46%|████▋     | 172012/371472 [2:36:53<15:03:19,  3.68it/s] 46%|████▋     | 172013/371472 [2:36:53<15:39:06,  3.54it/s] 46%|████▋     | 172014/371472 [2:36:54<15:18:48,  3.62it/s] 46%|████▋     | 172015/371472 [2:36:54<15:17:00,  3.63it/s] 46%|████▋     | 172016/371472 [2:36:54<14:57:06,  3.71it/s] 46%|████▋     | 172017/371472 [2:36:54<14:48:31,  3.74it/s] 46%|████▋     | 172018/371472 [2:36:55<15:21:31,  3.61it/s] 46%|████▋     | 172019/371472 [2:36:55<14:56:31,  3.71it/s] 46%|████▋     | 172020/371472 [2:36:55<14:33:39,  3.80it/s]                                                            {'loss': 3.0889, 'learning_rate': 5.8349134866082e-07, 'epoch': 7.41}
 46%|████▋     | 172020/371472 [2:36:55<14:33:39,  3.80it/s] 46%|████▋     | 172021/371472 [2:36:55<14:13:59,  3.89it/s] 46%|████▋     | 172022/371472 [2:36:56<14:18:38,  3.87it/s] 46%|████▋     | 172023/371472 [2:36:56<14:48:58,  3.74it/s] 46%|████▋     | 172024/371472 [2:36:56<14:37:53,  3.79it/s] 46%|████▋     | 172025/371472 [2:36:57<16:08:01,  3.43it/s] 46%|████▋     | 172026/371472 [2:36:57<16:16:47,  3.40it/s] 46%|████▋     | 172027/371472 [2:36:57<15:49:49,  3.50it/s] 46%|████▋     | 172028/371472 [2:36:57<15:29:49,  3.57it/s] 46%|████▋     | 172029/371472 [2:36:58<15:32:25,  3.56it/s] 46%|████▋     | 172030/371472 [2:36:58<15:12:53,  3.64it/s] 46%|████▋     | 172031/371472 [2:36:58<16:17:01,  3.40it/s] 46%|████▋     | 172032/371472 [2:36:59<15:59:11,  3.47it/s] 46%|████▋     | 172033/371472 [2:36:59<15:36:51,  3.55it/s] 46%|████▋     | 172034/371472 [2:36:59<15:52:21,  3.49it/s] 46%|████▋     | 172035/371472 [2:36:59<15:20:56,  3.61it/s] 46%|████▋     | 172036/371472 [2:37:00<16:13:38,  3.41it/s] 46%|████▋     | 172037/371472 [2:37:00<16:02:50,  3.45it/s] 46%|████▋     | 172038/371472 [2:37:00<15:26:44,  3.59it/s] 46%|████▋     | 172039/371472 [2:37:01<15:11:50,  3.65it/s] 46%|████▋     | 172040/371472 [2:37:01<14:43:55,  3.76it/s]                                                            {'loss': 3.0491, 'learning_rate': 5.834428666853411e-07, 'epoch': 7.41}
 46%|████▋     | 172040/371472 [2:37:01<14:43:55,  3.76it/s] 46%|████▋     | 172041/371472 [2:37:01<15:08:31,  3.66it/s] 46%|████▋     | 172042/371472 [2:37:01<15:24:28,  3.60it/s] 46%|████▋     | 172043/371472 [2:37:02<15:59:28,  3.46it/s] 46%|████▋     | 172044/371472 [2:37:02<16:06:44,  3.44it/s] 46%|████▋     | 172045/371472 [2:37:02<16:55:00,  3.27it/s] 46%|████▋     | 172046/371472 [2:37:03<16:41:23,  3.32it/s] 46%|████▋     | 172047/371472 [2:37:03<16:48:48,  3.29it/s] 46%|████▋     | 172048/371472 [2:37:03<16:08:22,  3.43it/s] 46%|████▋     | 172049/371472 [2:37:04<16:40:21,  3.32it/s] 46%|████▋     | 172050/371472 [2:37:04<16:02:05,  3.45it/s] 46%|████▋     | 172051/371472 [2:37:04<15:16:26,  3.63it/s] 46%|████▋     | 172052/371472 [2:37:04<15:00:19,  3.69it/s] 46%|████▋     | 172053/371472 [2:37:05<16:42:20,  3.32it/s] 46%|████▋     | 172054/371472 [2:37:05<16:04:56,  3.44it/s] 46%|████▋     | 172055/371472 [2:37:05<16:02:18,  3.45it/s] 46%|████▋     | 172056/371472 [2:37:06<16:15:55,  3.41it/s] 46%|████▋     | 172057/371472 [2:37:06<15:53:16,  3.49it/s] 46%|████▋     | 172058/371472 [2:37:06<15:34:46,  3.56it/s] 46%|████▋     | 172059/371472 [2:37:06<17:08:56,  3.23it/s] 46%|████▋     | 172060/371472 [2:37:07<16:42:19,  3.32it/s]                                                            {'loss': 3.0823, 'learning_rate': 5.833943847098623e-07, 'epoch': 7.41}
 46%|████▋     | 172060/371472 [2:37:07<16:42:19,  3.32it/s] 46%|████▋     | 172061/371472 [2:37:07<16:10:22,  3.42it/s] 46%|████▋     | 172062/371472 [2:37:07<15:18:45,  3.62it/s] 46%|████▋     | 172063/371472 [2:37:07<14:40:09,  3.78it/s] 46%|████▋     | 172064/371472 [2:37:08<14:18:59,  3.87it/s] 46%|████▋     | 172065/371472 [2:37:08<15:17:45,  3.62it/s] 46%|████▋     | 172066/371472 [2:37:08<15:40:43,  3.53it/s] 46%|████▋     | 172067/371472 [2:37:09<15:24:47,  3.59it/s] 46%|████▋     | 172068/371472 [2:37:09<14:51:10,  3.73it/s] 46%|████▋     | 172069/371472 [2:37:09<15:13:45,  3.64it/s] 46%|████▋     | 172070/371472 [2:37:09<15:25:20,  3.59it/s] 46%|████▋     | 172071/371472 [2:37:10<14:32:26,  3.81it/s] 46%|████▋     | 172072/371472 [2:37:10<14:41:56,  3.77it/s] 46%|████▋     | 172073/371472 [2:37:10<15:12:15,  3.64it/s] 46%|████▋     | 172074/371472 [2:37:10<15:04:09,  3.68it/s] 46%|████▋     | 172075/371472 [2:37:11<15:49:11,  3.50it/s] 46%|████▋     | 172076/371472 [2:37:11<15:48:06,  3.51it/s] 46%|████▋     | 172077/371472 [2:37:11<15:28:58,  3.58it/s] 46%|████▋     | 172078/371472 [2:37:12<15:31:36,  3.57it/s] 46%|████▋     | 172079/371472 [2:37:12<16:09:30,  3.43it/s] 46%|████▋     | 172080/371472 [2:37:12<16:44:35,  3.31it/s]                                                            {'loss': 3.1285, 'learning_rate': 5.833459027343834e-07, 'epoch': 7.41}
 46%|████▋     | 172080/371472 [2:37:12<16:44:35,  3.31it/s] 46%|████▋     | 172081/371472 [2:37:13<16:22:14,  3.38it/s] 46%|████▋     | 172082/371472 [2:37:13<16:30:19,  3.36it/s] 46%|████▋     | 172083/371472 [2:37:13<15:37:16,  3.55it/s] 46%|████▋     | 172084/371472 [2:37:13<15:15:42,  3.63it/s] 46%|████▋     | 172085/371472 [2:37:14<14:47:43,  3.74it/s] 46%|████▋     | 172086/371472 [2:37:14<15:19:59,  3.61it/s] 46%|████▋     | 172087/371472 [2:37:14<14:57:34,  3.70it/s] 46%|████▋     | 172088/371472 [2:37:14<14:22:43,  3.85it/s] 46%|████▋     | 172089/371472 [2:37:15<15:17:27,  3.62it/s] 46%|████▋     | 172090/371472 [2:37:15<15:57:01,  3.47it/s] 46%|████▋     | 172091/371472 [2:37:15<15:43:49,  3.52it/s] 46%|████▋     | 172092/371472 [2:37:16<15:26:28,  3.59it/s] 46%|████▋     | 172093/371472 [2:37:16<15:27:01,  3.58it/s] 46%|████▋     | 172094/371472 [2:37:16<16:21:00,  3.39it/s] 46%|████▋     | 172095/371472 [2:37:16<16:08:18,  3.43it/s] 46%|████▋     | 172096/371472 [2:37:17<15:39:30,  3.54it/s] 46%|████▋     | 172097/371472 [2:37:17<15:31:09,  3.57it/s] 46%|████▋     | 172098/371472 [2:37:17<15:12:02,  3.64it/s] 46%|████▋     | 172099/371472 [2:37:18<14:59:39,  3.69it/s] 46%|████▋     | 172100/371472 [2:37:18<14:41:10,  3.77it/s]                                                            {'loss': 3.2247, 'learning_rate': 5.832974207589045e-07, 'epoch': 7.41}
 46%|████▋     | 172100/371472 [2:37:18<14:41:10,  3.77it/s] 46%|████▋     | 172101/371472 [2:37:18<14:59:51,  3.69it/s] 46%|████▋     | 172102/371472 [2:37:18<15:16:35,  3.63it/s] 46%|████▋     | 172103/371472 [2:37:19<15:38:48,  3.54it/s] 46%|████▋     | 172104/371472 [2:37:19<15:55:54,  3.48it/s] 46%|████▋     | 172105/371472 [2:37:19<15:41:47,  3.53it/s] 46%|████▋     | 172106/371472 [2:37:19<15:21:52,  3.60it/s] 46%|████▋     | 172107/371472 [2:37:20<16:03:38,  3.45it/s] 46%|████▋     | 172108/371472 [2:37:20<16:00:41,  3.46it/s] 46%|████▋     | 172109/371472 [2:37:20<15:38:42,  3.54it/s] 46%|████▋     | 172110/371472 [2:37:21<15:11:31,  3.65it/s] 46%|████▋     | 172111/371472 [2:37:21<15:05:53,  3.67it/s] 46%|████▋     | 172112/371472 [2:37:21<16:58:03,  3.26it/s] 46%|████▋     | 172113/371472 [2:37:22<15:56:23,  3.47it/s] 46%|████▋     | 172114/371472 [2:37:22<15:54:04,  3.48it/s] 46%|████▋     | 172115/371472 [2:37:22<15:30:22,  3.57it/s] 46%|████▋     | 172116/371472 [2:37:22<15:46:38,  3.51it/s] 46%|████▋     | 172117/371472 [2:37:23<15:33:47,  3.56it/s] 46%|████▋     | 172118/371472 [2:37:23<17:24:03,  3.18it/s] 46%|████▋     | 172119/371472 [2:37:23<18:12:14,  3.04it/s] 46%|████▋     | 172120/371472 [2:37:24<16:49:13,  3.29it/s]                                                            {'loss': 3.1549, 'learning_rate': 5.832489387834256e-07, 'epoch': 7.41}
 46%|████▋     | 172120/371472 [2:37:24<16:49:13,  3.29it/s] 46%|████▋     | 172121/371472 [2:37:24<16:52:48,  3.28it/s] 46%|████▋     | 172122/371472 [2:37:24<17:03:05,  3.25it/s] 46%|████▋     | 172123/371472 [2:37:25<16:25:22,  3.37it/s] 46%|████▋     | 172124/371472 [2:37:25<16:19:23,  3.39it/s] 46%|████▋     | 172125/371472 [2:37:25<15:45:41,  3.51it/s] 46%|████▋     | 172126/371472 [2:37:25<16:56:50,  3.27it/s] 46%|████▋     | 172127/371472 [2:37:26<16:12:17,  3.42it/s] 46%|████▋     | 172128/371472 [2:37:26<15:58:49,  3.47it/s] 46%|████▋     | 172129/371472 [2:37:26<16:22:51,  3.38it/s] 46%|████▋     | 172130/371472 [2:37:27<15:51:26,  3.49it/s] 46%|████▋     | 172131/371472 [2:37:27<15:48:35,  3.50it/s] 46%|████▋     | 172132/371472 [2:37:27<16:38:21,  3.33it/s] 46%|████▋     | 172133/371472 [2:37:27<15:56:43,  3.47it/s] 46%|████▋     | 172134/371472 [2:37:28<15:57:45,  3.47it/s] 46%|████▋     | 172135/371472 [2:37:28<15:34:22,  3.56it/s] 46%|████▋     | 172136/371472 [2:37:28<15:46:19,  3.51it/s] 46%|████▋     | 172137/371472 [2:37:29<15:57:29,  3.47it/s] 46%|████▋     | 172138/371472 [2:37:29<15:31:39,  3.57it/s] 46%|████▋     | 172139/371472 [2:37:29<15:15:27,  3.63it/s] 46%|████▋     | 172140/371472 [2:37:29<15:23:07,  3.60it/s]                                                            {'loss': 3.2031, 'learning_rate': 5.832004568079468e-07, 'epoch': 7.41}
 46%|████▋     | 172140/371472 [2:37:29<15:23:07,  3.60it/s] 46%|████▋     | 172141/371472 [2:37:30<15:34:35,  3.55it/s] 46%|████▋     | 172142/371472 [2:37:30<15:19:13,  3.61it/s] 46%|████▋     | 172143/371472 [2:37:30<15:04:49,  3.67it/s] 46%|████▋     | 172144/371472 [2:37:30<15:12:07,  3.64it/s] 46%|████▋     | 172145/371472 [2:37:31<16:28:13,  3.36it/s] 46%|████▋     | 172146/371472 [2:37:31<15:55:51,  3.48it/s] 46%|████▋     | 172147/371472 [2:37:31<15:50:09,  3.50it/s] 46%|████▋     | 172148/371472 [2:37:32<15:09:04,  3.65it/s] 46%|████▋     | 172149/371472 [2:37:32<15:38:46,  3.54it/s] 46%|████▋     | 172150/371472 [2:37:32<15:54:51,  3.48it/s] 46%|████▋     | 172151/371472 [2:37:33<16:07:19,  3.43it/s] 46%|████▋     | 172152/371472 [2:37:33<15:54:11,  3.48it/s] 46%|████▋     | 172153/371472 [2:37:33<16:49:52,  3.29it/s] 46%|████▋     | 172154/371472 [2:37:33<16:20:49,  3.39it/s] 46%|████▋     | 172155/371472 [2:37:34<16:00:57,  3.46it/s] 46%|████▋     | 172156/371472 [2:37:34<15:31:41,  3.57it/s] 46%|████▋     | 172157/371472 [2:37:34<15:30:27,  3.57it/s] 46%|████▋     | 172158/371472 [2:37:35<15:38:05,  3.54it/s] 46%|████▋     | 172159/371472 [2:37:35<15:12:35,  3.64it/s] 46%|████▋     | 172160/371472 [2:37:35<15:32:08,  3.56it/s]                                                            {'loss': 3.1255, 'learning_rate': 5.831519748324678e-07, 'epoch': 7.42}
 46%|████▋     | 172160/371472 [2:37:35<15:32:08,  3.56it/s] 46%|████▋     | 172161/371472 [2:37:35<15:33:32,  3.56it/s] 46%|████▋     | 172162/371472 [2:37:36<16:35:52,  3.34it/s] 46%|████▋     | 172163/371472 [2:37:36<16:05:47,  3.44it/s] 46%|████▋     | 172164/371472 [2:37:36<15:44:11,  3.52it/s] 46%|████▋     | 172165/371472 [2:37:37<15:34:07,  3.56it/s] 46%|████▋     | 172166/371472 [2:37:37<16:21:19,  3.38it/s] 46%|████▋     | 172167/371472 [2:37:37<15:55:16,  3.48it/s] 46%|████▋     | 172168/371472 [2:37:37<16:03:08,  3.45it/s] 46%|████▋     | 172169/371472 [2:37:38<15:31:08,  3.57it/s] 46%|████▋     | 172170/371472 [2:37:38<15:04:13,  3.67it/s] 46%|████▋     | 172171/371472 [2:37:38<14:57:02,  3.70it/s] 46%|████▋     | 172172/371472 [2:37:38<15:10:36,  3.65it/s] 46%|████▋     | 172173/371472 [2:37:39<15:05:57,  3.67it/s] 46%|████▋     | 172174/371472 [2:37:39<14:40:52,  3.77it/s] 46%|████▋     | 172175/371472 [2:37:39<14:42:15,  3.76it/s] 46%|████▋     | 172176/371472 [2:37:40<14:55:33,  3.71it/s] 46%|████▋     | 172177/371472 [2:37:40<14:50:07,  3.73it/s] 46%|████▋     | 172178/371472 [2:37:40<15:03:42,  3.68it/s] 46%|████▋     | 172179/371472 [2:37:40<15:24:25,  3.59it/s] 46%|████▋     | 172180/371472 [2:37:41<16:05:22,  3.44it/s]                                                            {'loss': 3.2377, 'learning_rate': 5.831034928569889e-07, 'epoch': 7.42}
 46%|████▋     | 172180/371472 [2:37:41<16:05:22,  3.44it/s] 46%|████▋     | 172181/371472 [2:37:41<15:40:49,  3.53it/s] 46%|████▋     | 172182/371472 [2:37:41<15:19:52,  3.61it/s] 46%|████▋     | 172183/371472 [2:37:41<15:14:30,  3.63it/s] 46%|████▋     | 172184/371472 [2:37:42<14:48:44,  3.74it/s] 46%|████▋     | 172185/371472 [2:37:42<14:37:28,  3.79it/s] 46%|████▋     | 172186/371472 [2:37:42<15:22:18,  3.60it/s] 46%|████▋     | 172187/371472 [2:37:43<16:23:22,  3.38it/s] 46%|████▋     | 172188/371472 [2:37:43<16:12:10,  3.42it/s] 46%|████▋     | 172189/371472 [2:37:43<15:50:28,  3.49it/s] 46%|████▋     | 172190/371472 [2:37:43<15:41:34,  3.53it/s] 46%|████▋     | 172191/371472 [2:37:44<15:25:50,  3.59it/s] 46%|████▋     | 172192/371472 [2:37:44<15:42:30,  3.52it/s] 46%|████▋     | 172193/371472 [2:37:44<15:27:39,  3.58it/s] 46%|████▋     | 172194/371472 [2:37:45<15:00:28,  3.69it/s] 46%|████▋     | 172195/371472 [2:37:45<16:06:14,  3.44it/s] 46%|████▋     | 172196/371472 [2:37:45<15:41:41,  3.53it/s] 46%|████▋     | 172197/371472 [2:37:45<16:25:30,  3.37it/s] 46%|████▋     | 172198/371472 [2:37:46<16:33:33,  3.34it/s] 46%|████▋     | 172199/371472 [2:37:46<16:00:00,  3.46it/s] 46%|████▋     | 172200/371472 [2:37:46<15:48:57,  3.50it/s]                                                            {'loss': 3.0252, 'learning_rate': 5.8305501088151e-07, 'epoch': 7.42}
 46%|████▋     | 172200/371472 [2:37:46<15:48:57,  3.50it/s] 46%|████▋     | 172201/371472 [2:37:47<15:47:37,  3.50it/s] 46%|████▋     | 172202/371472 [2:37:47<15:43:32,  3.52it/s] 46%|████▋     | 172203/371472 [2:37:47<15:21:38,  3.60it/s] 46%|████▋     | 172204/371472 [2:37:47<16:03:10,  3.45it/s] 46%|████▋     | 172205/371472 [2:37:48<16:18:30,  3.39it/s] 46%|████▋     | 172206/371472 [2:37:48<16:36:48,  3.33it/s] 46%|████▋     | 172207/371472 [2:37:48<15:52:28,  3.49it/s] 46%|████▋     | 172208/371472 [2:37:49<16:01:48,  3.45it/s] 46%|████▋     | 172209/371472 [2:37:49<16:00:32,  3.46it/s] 46%|████▋     | 172210/371472 [2:37:49<15:18:51,  3.61it/s] 46%|████▋     | 172211/371472 [2:37:49<15:05:32,  3.67it/s] 46%|████▋     | 172212/371472 [2:37:50<15:45:44,  3.51it/s] 46%|████▋     | 172213/371472 [2:37:50<15:44:22,  3.52it/s] 46%|████▋     | 172214/371472 [2:37:50<15:41:24,  3.53it/s] 46%|████▋     | 172215/371472 [2:37:51<16:22:08,  3.38it/s] 46%|████▋     | 172216/371472 [2:37:51<15:39:39,  3.53it/s] 46%|████▋     | 172217/371472 [2:37:51<16:57:41,  3.26it/s] 46%|████▋     | 172218/371472 [2:37:52<16:53:02,  3.28it/s] 46%|████▋     | 172219/371472 [2:37:52<17:13:11,  3.21it/s] 46%|████▋     | 172220/371472 [2:37:52<16:42:40,  3.31it/s]                                                            {'loss': 3.1838, 'learning_rate': 5.830065289060312e-07, 'epoch': 7.42}
 46%|████▋     | 172220/371472 [2:37:52<16:42:40,  3.31it/s] 46%|████▋     | 172221/371472 [2:37:53<17:21:36,  3.19it/s] 46%|████▋     | 172222/371472 [2:37:53<16:40:16,  3.32it/s] 46%|████▋     | 172223/371472 [2:37:53<16:06:14,  3.44it/s] 46%|████▋     | 172224/371472 [2:37:53<15:29:33,  3.57it/s] 46%|████▋     | 172225/371472 [2:37:54<15:17:17,  3.62it/s] 46%|████▋     | 172226/371472 [2:37:54<15:00:09,  3.69it/s] 46%|████▋     | 172227/371472 [2:37:54<14:49:03,  3.74it/s] 46%|████▋     | 172228/371472 [2:37:54<14:53:09,  3.72it/s] 46%|████▋     | 172229/371472 [2:37:55<14:23:15,  3.85it/s] 46%|████▋     | 172230/371472 [2:37:55<14:55:15,  3.71it/s] 46%|████▋     | 172231/371472 [2:37:55<14:58:19,  3.70it/s] 46%|████▋     | 172232/371472 [2:37:55<14:54:39,  3.71it/s] 46%|████▋     | 172233/371472 [2:37:56<15:22:20,  3.60it/s] 46%|████▋     | 172234/371472 [2:37:56<15:28:46,  3.58it/s] 46%|████▋     | 172235/371472 [2:37:56<15:18:13,  3.62it/s] 46%|████▋     | 172236/371472 [2:37:57<16:56:01,  3.27it/s] 46%|████▋     | 172237/371472 [2:37:57<16:10:18,  3.42it/s] 46%|████▋     | 172238/371472 [2:37:57<18:04:17,  3.06it/s] 46%|████▋     | 172239/371472 [2:37:58<18:35:44,  2.98it/s] 46%|████▋     | 172240/371472 [2:37:58<17:40:32,  3.13it/s]                                                            {'loss': 2.8848, 'learning_rate': 5.829580469305523e-07, 'epoch': 7.42}
 46%|████▋     | 172240/371472 [2:37:58<17:40:32,  3.13it/s] 46%|████▋     | 172241/371472 [2:37:58<17:40:40,  3.13it/s] 46%|████▋     | 172242/371472 [2:37:59<16:19:22,  3.39it/s] 46%|████▋     | 172243/371472 [2:37:59<17:21:52,  3.19it/s] 46%|████▋     | 172244/371472 [2:37:59<19:34:21,  2.83it/s] 46%|████▋     | 172245/371472 [2:38:00<17:45:25,  3.12it/s] 46%|████▋     | 172246/371472 [2:38:00<17:46:43,  3.11it/s] 46%|████▋     | 172247/371472 [2:38:00<16:46:27,  3.30it/s] 46%|████▋     | 172248/371472 [2:38:00<16:38:11,  3.33it/s] 46%|████▋     | 172249/371472 [2:38:01<15:41:38,  3.53it/s] 46%|████▋     | 172250/371472 [2:38:01<15:08:51,  3.65it/s] 46%|████▋     | 172251/371472 [2:38:01<14:26:18,  3.83it/s] 46%|████▋     | 172252/371472 [2:38:01<14:26:51,  3.83it/s] 46%|████▋     | 172253/371472 [2:38:02<16:12:15,  3.42it/s] 46%|████▋     | 172254/371472 [2:38:02<16:17:25,  3.40it/s] 46%|████▋     | 172255/371472 [2:38:02<16:14:46,  3.41it/s] 46%|████▋     | 172256/371472 [2:38:03<16:37:05,  3.33it/s] 46%|████▋     | 172257/371472 [2:38:03<16:57:46,  3.26it/s] 46%|████▋     | 172258/371472 [2:38:03<16:38:07,  3.33it/s] 46%|████▋     | 172259/371472 [2:38:04<16:45:23,  3.30it/s] 46%|████▋     | 172260/371472 [2:38:04<16:03:15,  3.45it/s]                                                            {'loss': 3.1046, 'learning_rate': 5.829095649550734e-07, 'epoch': 7.42}
 46%|████▋     | 172260/371472 [2:38:04<16:03:15,  3.45it/s] 46%|████▋     | 172261/371472 [2:38:04<15:32:08,  3.56it/s] 46%|████▋     | 172262/371472 [2:38:04<15:04:36,  3.67it/s] 46%|████▋     | 172263/371472 [2:38:05<14:59:42,  3.69it/s] 46%|████▋     | 172264/371472 [2:38:05<14:27:57,  3.83it/s] 46%|████▋     | 172265/371472 [2:38:05<15:00:38,  3.69it/s] 46%|████▋     | 172266/371472 [2:38:05<15:27:12,  3.58it/s] 46%|████▋     | 172267/371472 [2:38:06<15:46:33,  3.51it/s] 46%|████▋     | 172268/371472 [2:38:06<17:15:48,  3.21it/s] 46%|████▋     | 172269/371472 [2:38:07<17:36:31,  3.14it/s] 46%|████▋     | 172270/371472 [2:38:07<17:08:30,  3.23it/s] 46%|████▋     | 172271/371472 [2:38:07<16:38:36,  3.32it/s] 46%|████▋     | 172272/371472 [2:38:07<16:11:23,  3.42it/s] 46%|████▋     | 172273/371472 [2:38:08<16:36:28,  3.33it/s] 46%|████▋     | 172274/371472 [2:38:08<15:57:15,  3.47it/s] 46%|████▋     | 172275/371472 [2:38:08<16:02:42,  3.45it/s] 46%|████▋     | 172276/371472 [2:38:08<15:38:54,  3.54it/s] 46%|████▋     | 172277/371472 [2:38:09<15:24:51,  3.59it/s] 46%|████▋     | 172278/371472 [2:38:09<15:13:45,  3.63it/s] 46%|████▋     | 172279/371472 [2:38:09<14:50:59,  3.73it/s] 46%|████▋     | 172280/371472 [2:38:10<14:49:39,  3.73it/s]                                                            {'loss': 3.2028, 'learning_rate': 5.828610829795944e-07, 'epoch': 7.42}
 46%|████▋     | 172280/371472 [2:38:10<14:49:39,  3.73it/s] 46%|████▋     | 172281/371472 [2:38:10<14:49:38,  3.73it/s] 46%|████▋     | 172282/371472 [2:38:10<14:43:35,  3.76it/s] 46%|████▋     | 172283/371472 [2:38:10<14:59:23,  3.69it/s] 46%|████▋     | 172284/371472 [2:38:11<15:03:39,  3.67it/s] 46%|████▋     | 172285/371472 [2:38:11<14:49:27,  3.73it/s] 46%|████▋     | 172286/371472 [2:38:11<15:07:58,  3.66it/s] 46%|████▋     | 172287/371472 [2:38:11<14:48:07,  3.74it/s] 46%|████▋     | 172288/371472 [2:38:12<16:03:37,  3.45it/s] 46%|████▋     | 172289/371472 [2:38:12<16:09:49,  3.42it/s] 46%|████▋     | 172290/371472 [2:38:12<16:03:22,  3.45it/s] 46%|████▋     | 172291/371472 [2:38:13<15:50:35,  3.49it/s] 46%|████▋     | 172292/371472 [2:38:13<15:39:40,  3.53it/s] 46%|████▋     | 172293/371472 [2:38:13<15:20:56,  3.60it/s] 46%|████▋     | 172294/371472 [2:38:13<15:03:39,  3.67it/s] 46%|████▋     | 172295/371472 [2:38:14<14:51:33,  3.72it/s] 46%|████▋     | 172296/371472 [2:38:14<15:18:22,  3.61it/s] 46%|████▋     | 172297/371472 [2:38:14<15:25:07,  3.59it/s] 46%|████▋     | 172298/371472 [2:38:15<15:37:07,  3.54it/s] 46%|████▋     | 172299/371472 [2:38:15<15:10:29,  3.65it/s] 46%|████▋     | 172300/371472 [2:38:15<14:52:22,  3.72it/s]                                                            {'loss': 3.1148, 'learning_rate': 5.828126010041155e-07, 'epoch': 7.42}
 46%|████▋     | 172300/371472 [2:38:15<14:52:22,  3.72it/s] 46%|████▋     | 172301/371472 [2:38:15<14:43:02,  3.76it/s] 46%|████▋     | 172302/371472 [2:38:16<15:59:33,  3.46it/s] 46%|████▋     | 172303/371472 [2:38:16<15:22:31,  3.60it/s] 46%|████▋     | 172304/371472 [2:38:16<14:42:47,  3.76it/s] 46%|████▋     | 172305/371472 [2:38:16<14:58:12,  3.70it/s] 46%|████▋     | 172306/371472 [2:38:17<14:52:19,  3.72it/s] 46%|████▋     | 172307/371472 [2:38:17<14:48:42,  3.74it/s] 46%|████▋     | 172308/371472 [2:38:17<14:55:16,  3.71it/s] 46%|████▋     | 172309/371472 [2:38:18<15:40:09,  3.53it/s] 46%|████▋     | 172310/371472 [2:38:18<15:06:57,  3.66it/s] 46%|████▋     | 172311/371472 [2:38:18<14:47:29,  3.74it/s] 46%|████▋     | 172312/371472 [2:38:18<14:45:25,  3.75it/s] 46%|████▋     | 172313/371472 [2:38:19<15:03:38,  3.67it/s] 46%|████▋     | 172314/371472 [2:38:19<15:13:02,  3.64it/s] 46%|████▋     | 172315/371472 [2:38:19<15:43:26,  3.52it/s] 46%|████▋     | 172316/371472 [2:38:19<15:45:56,  3.51it/s] 46%|████▋     | 172317/371472 [2:38:20<16:04:03,  3.44it/s] 46%|████▋     | 172318/371472 [2:38:20<15:48:49,  3.50it/s] 46%|████▋     | 172319/371472 [2:38:20<16:05:05,  3.44it/s] 46%|████▋     | 172320/371472 [2:38:21<16:19:12,  3.39it/s]                                                            {'loss': 3.1751, 'learning_rate': 5.827641190286366e-07, 'epoch': 7.42}
 46%|████▋     | 172320/371472 [2:38:21<16:19:12,  3.39it/s] 46%|████▋     | 172321/371472 [2:38:21<15:50:34,  3.49it/s] 46%|████▋     | 172322/371472 [2:38:21<15:37:30,  3.54it/s] 46%|████▋     | 172323/371472 [2:38:22<16:17:01,  3.40it/s] 46%|████▋     | 172324/371472 [2:38:22<16:59:42,  3.25it/s] 46%|████▋     | 172325/371472 [2:38:22<16:09:46,  3.42it/s] 46%|████▋     | 172326/371472 [2:38:22<16:40:46,  3.32it/s] 46%|████▋     | 172327/371472 [2:38:23<15:42:10,  3.52it/s] 46%|████▋     | 172328/371472 [2:38:23<15:14:01,  3.63it/s] 46%|████▋     | 172329/371472 [2:38:23<15:04:50,  3.67it/s] 46%|████▋     | 172330/371472 [2:38:24<15:25:49,  3.58it/s] 46%|████▋     | 172331/371472 [2:38:24<15:47:35,  3.50it/s] 46%|████▋     | 172332/371472 [2:38:24<16:31:30,  3.35it/s] 46%|████▋     | 172333/371472 [2:38:24<15:57:56,  3.46it/s] 46%|████▋     | 172334/371472 [2:38:25<15:50:58,  3.49it/s] 46%|████▋     | 172335/371472 [2:38:25<16:07:15,  3.43it/s] 46%|████▋     | 172336/371472 [2:38:25<15:45:39,  3.51it/s] 46%|████▋     | 172337/371472 [2:38:26<15:33:48,  3.55it/s] 46%|████▋     | 172338/371472 [2:38:26<15:51:20,  3.49it/s] 46%|████▋     | 172339/371472 [2:38:26<15:38:26,  3.54it/s] 46%|████▋     | 172340/371472 [2:38:26<15:19:18,  3.61it/s]                                                            {'loss': 3.2116, 'learning_rate': 5.827156370531577e-07, 'epoch': 7.42}
 46%|████▋     | 172340/371472 [2:38:26<15:19:18,  3.61it/s] 46%|████▋     | 172341/371472 [2:38:27<16:34:22,  3.34it/s] 46%|████▋     | 172342/371472 [2:38:27<16:13:41,  3.41it/s] 46%|████▋     | 172343/371472 [2:38:27<16:10:49,  3.42it/s] 46%|████▋     | 172344/371472 [2:38:28<15:52:24,  3.48it/s] 46%|████▋     | 172345/371472 [2:38:28<16:09:14,  3.42it/s] 46%|████▋     | 172346/371472 [2:38:28<16:59:19,  3.26it/s] 46%|████▋     | 172347/371472 [2:38:29<17:59:30,  3.07it/s] 46%|████▋     | 172348/371472 [2:38:29<17:04:52,  3.24it/s] 46%|████▋     | 172349/371472 [2:38:29<17:18:59,  3.19it/s] 46%|████▋     | 172350/371472 [2:38:29<16:59:13,  3.26it/s] 46%|████▋     | 172351/371472 [2:38:30<16:25:56,  3.37it/s] 46%|████▋     | 172352/371472 [2:38:30<16:03:43,  3.44it/s] 46%|████▋     | 172353/371472 [2:38:30<15:35:00,  3.55it/s] 46%|████▋     | 172354/371472 [2:38:31<15:36:02,  3.55it/s] 46%|████▋     | 172355/371472 [2:38:31<16:06:55,  3.43it/s] 46%|████▋     | 172356/371472 [2:38:31<16:41:53,  3.31it/s] 46%|████▋     | 172357/371472 [2:38:31<15:50:30,  3.49it/s] 46%|████▋     | 172358/371472 [2:38:32<16:25:49,  3.37it/s] 46%|████▋     | 172359/371472 [2:38:32<16:13:47,  3.41it/s] 46%|████▋     | 172360/371472 [2:38:32<15:57:40,  3.47it/s]                                                            {'loss': 2.9348, 'learning_rate': 5.826671550776789e-07, 'epoch': 7.42}
 46%|████▋     | 172360/371472 [2:38:32<15:57:40,  3.47it/s] 46%|████▋     | 172361/371472 [2:38:33<15:34:23,  3.55it/s] 46%|████▋     | 172362/371472 [2:38:33<15:06:12,  3.66it/s] 46%|████▋     | 172363/371472 [2:38:33<16:04:47,  3.44it/s] 46%|████▋     | 172364/371472 [2:38:33<16:24:45,  3.37it/s] 46%|████▋     | 172365/371472 [2:38:34<16:46:42,  3.30it/s] 46%|████▋     | 172366/371472 [2:38:34<16:46:31,  3.30it/s] 46%|████▋     | 172367/371472 [2:38:34<16:30:53,  3.35it/s] 46%|████▋     | 172368/371472 [2:38:35<16:28:25,  3.36it/s] 46%|████▋     | 172369/371472 [2:38:35<16:00:38,  3.45it/s] 46%|████▋     | 172370/371472 [2:38:35<16:40:40,  3.32it/s] 46%|████▋     | 172371/371472 [2:38:36<17:29:54,  3.16it/s] 46%|████▋     | 172372/371472 [2:38:36<17:43:10,  3.12it/s] 46%|████▋     | 172373/371472 [2:38:36<17:03:08,  3.24it/s] 46%|████▋     | 172374/371472 [2:38:37<16:57:30,  3.26it/s] 46%|████▋     | 172375/371472 [2:38:37<18:37:08,  2.97it/s] 46%|████▋     | 172376/371472 [2:38:37<17:44:33,  3.12it/s] 46%|████▋     | 172377/371472 [2:38:38<17:50:34,  3.10it/s] 46%|████▋     | 172378/371472 [2:38:38<17:09:31,  3.22it/s] 46%|████▋     | 172379/371472 [2:38:38<16:13:24,  3.41it/s] 46%|████▋     | 172380/371472 [2:38:38<17:03:04,  3.24it/s]                                                            {'loss': 3.0276, 'learning_rate': 5.826186731022e-07, 'epoch': 7.42}
 46%|████▋     | 172380/371472 [2:38:38<17:03:04,  3.24it/s] 46%|████▋     | 172381/371472 [2:38:39<17:18:00,  3.20it/s] 46%|████▋     | 172382/371472 [2:38:39<16:35:18,  3.33it/s] 46%|████▋     | 172383/371472 [2:38:39<16:27:23,  3.36it/s] 46%|████▋     | 172384/371472 [2:38:40<16:22:29,  3.38it/s] 46%|████▋     | 172385/371472 [2:38:40<16:55:15,  3.27it/s] 46%|████▋     | 172386/371472 [2:38:40<17:02:13,  3.25it/s] 46%|████▋     | 172387/371472 [2:38:41<16:32:29,  3.34it/s] 46%|████▋     | 172388/371472 [2:38:41<15:58:42,  3.46it/s] 46%|████▋     | 172389/371472 [2:38:41<15:31:17,  3.56it/s] 46%|████▋     | 172390/371472 [2:38:41<16:09:23,  3.42it/s] 46%|████▋     | 172391/371472 [2:38:42<16:02:26,  3.45it/s] 46%|████▋     | 172392/371472 [2:38:42<15:43:14,  3.52it/s] 46%|████▋     | 172393/371472 [2:38:42<18:23:52,  3.01it/s] 46%|████▋     | 172394/371472 [2:38:43<17:35:24,  3.14it/s] 46%|████▋     | 172395/371472 [2:38:43<16:51:54,  3.28it/s] 46%|████▋     | 172396/371472 [2:38:43<16:03:41,  3.44it/s] 46%|████▋     | 172397/371472 [2:38:43<15:44:06,  3.51it/s] 46%|████▋     | 172398/371472 [2:38:44<15:41:50,  3.52it/s] 46%|████▋     | 172399/371472 [2:38:44<15:49:15,  3.50it/s] 46%|████▋     | 172400/371472 [2:38:44<15:18:15,  3.61it/s]                                                            {'loss': 3.0576, 'learning_rate': 5.825701911267211e-07, 'epoch': 7.43}
 46%|████▋     | 172400/371472 [2:38:44<15:18:15,  3.61it/s] 46%|████▋     | 172401/371472 [2:38:45<15:19:08,  3.61it/s] 46%|████▋     | 172402/371472 [2:38:45<15:11:55,  3.64it/s] 46%|████▋     | 172403/371472 [2:38:45<15:55:08,  3.47it/s] 46%|████▋     | 172404/371472 [2:38:45<15:59:23,  3.46it/s] 46%|████▋     | 172405/371472 [2:38:46<15:36:24,  3.54it/s] 46%|████▋     | 172406/371472 [2:38:46<16:48:34,  3.29it/s] 46%|████▋     | 172407/371472 [2:38:46<16:03:10,  3.44it/s] 46%|████▋     | 172408/371472 [2:38:47<16:02:27,  3.45it/s] 46%|████▋     | 172409/371472 [2:38:47<16:26:09,  3.36it/s] 46%|████▋     | 172410/371472 [2:38:47<15:45:02,  3.51it/s] 46%|████▋     | 172411/371472 [2:38:48<15:43:48,  3.52it/s] 46%|████▋     | 172412/371472 [2:38:48<16:28:18,  3.36it/s] 46%|████▋     | 172413/371472 [2:38:48<15:46:12,  3.51it/s] 46%|████▋     | 172414/371472 [2:38:48<17:26:22,  3.17it/s] 46%|████▋     | 172415/371472 [2:38:49<17:03:23,  3.24it/s] 46%|████▋     | 172416/371472 [2:38:49<16:23:21,  3.37it/s] 46%|████▋     | 172417/371472 [2:38:49<18:48:57,  2.94it/s] 46%|████▋     | 172418/371472 [2:38:50<17:37:04,  3.14it/s] 46%|████▋     | 172419/371472 [2:38:50<17:54:51,  3.09it/s] 46%|████▋     | 172420/371472 [2:38:50<17:01:23,  3.25it/s]                                                            {'loss': 3.0438, 'learning_rate': 5.825217091512421e-07, 'epoch': 7.43}
 46%|████▋     | 172420/371472 [2:38:50<17:01:23,  3.25it/s] 46%|████▋     | 172421/371472 [2:38:51<17:55:04,  3.09it/s] 46%|████▋     | 172422/371472 [2:38:51<17:19:53,  3.19it/s] 46%|████▋     | 172423/371472 [2:38:51<16:12:10,  3.41it/s] 46%|████▋     | 172424/371472 [2:38:52<15:37:53,  3.54it/s] 46%|████▋     | 172425/371472 [2:38:52<14:52:55,  3.72it/s] 46%|████▋     | 172426/371472 [2:38:52<16:03:38,  3.44it/s] 46%|████▋     | 172427/371472 [2:38:52<16:10:27,  3.42it/s] 46%|████▋     | 172428/371472 [2:38:53<16:02:41,  3.45it/s] 46%|████▋     | 172429/371472 [2:38:53<15:23:29,  3.59it/s] 46%|████▋     | 172430/371472 [2:38:53<15:41:08,  3.52it/s] 46%|████▋     | 172431/371472 [2:38:53<15:44:36,  3.51it/s] 46%|████▋     | 172432/371472 [2:38:54<15:53:51,  3.48it/s] 46%|████▋     | 172433/371472 [2:38:54<15:50:12,  3.49it/s] 46%|████▋     | 172434/371472 [2:38:54<15:21:57,  3.60it/s] 46%|████▋     | 172435/371472 [2:38:55<15:18:19,  3.61it/s] 46%|████▋     | 172436/371472 [2:38:55<15:06:36,  3.66it/s] 46%|████▋     | 172437/371472 [2:38:55<14:48:35,  3.73it/s] 46%|████▋     | 172438/371472 [2:38:55<14:25:16,  3.83it/s] 46%|████▋     | 172439/371472 [2:38:56<14:37:29,  3.78it/s] 46%|████▋     | 172440/371472 [2:38:56<15:46:28,  3.50it/s]                                                            {'loss': 3.3843, 'learning_rate': 5.824732271757633e-07, 'epoch': 7.43}
 46%|████▋     | 172440/371472 [2:38:56<15:46:28,  3.50it/s] 46%|████▋     | 172441/371472 [2:38:56<18:04:55,  3.06it/s] 46%|████▋     | 172442/371472 [2:38:57<17:04:16,  3.24it/s] 46%|████▋     | 172443/371472 [2:38:57<16:49:43,  3.29it/s] 46%|████▋     | 172444/371472 [2:38:57<15:52:54,  3.48it/s] 46%|████▋     | 172445/371472 [2:38:57<15:30:46,  3.56it/s] 46%|████▋     | 172446/371472 [2:38:58<14:52:08,  3.72it/s] 46%|████▋     | 172447/371472 [2:38:58<15:01:48,  3.68it/s] 46%|████▋     | 172448/371472 [2:38:58<14:27:05,  3.83it/s] 46%|████▋     | 172449/371472 [2:38:59<14:51:20,  3.72it/s] 46%|████▋     | 172450/371472 [2:38:59<15:48:55,  3.50it/s] 46%|████▋     | 172451/371472 [2:38:59<16:52:25,  3.28it/s] 46%|████▋     | 172452/371472 [2:38:59<16:35:44,  3.33it/s] 46%|████▋     | 172453/371472 [2:39:00<15:43:55,  3.51it/s] 46%|████▋     | 172454/371472 [2:39:00<15:41:44,  3.52it/s] 46%|████▋     | 172455/371472 [2:39:00<15:48:31,  3.50it/s] 46%|████▋     | 172456/371472 [2:39:01<15:14:50,  3.63it/s] 46%|████▋     | 172457/371472 [2:39:01<15:10:09,  3.64it/s] 46%|████▋     | 172458/371472 [2:39:01<15:37:07,  3.54it/s] 46%|████▋     | 172459/371472 [2:39:01<15:07:58,  3.65it/s] 46%|████▋     | 172460/371472 [2:39:02<14:55:00,  3.71it/s]                                                            {'loss': 3.1145, 'learning_rate': 5.824247452002844e-07, 'epoch': 7.43}
 46%|████▋     | 172460/371472 [2:39:02<14:55:00,  3.71it/s] 46%|████▋     | 172461/371472 [2:39:02<15:07:12,  3.66it/s] 46%|████▋     | 172462/371472 [2:39:02<15:25:57,  3.58it/s] 46%|████▋     | 172463/371472 [2:39:02<15:23:05,  3.59it/s] 46%|████▋     | 172464/371472 [2:39:03<15:25:44,  3.58it/s] 46%|████▋     | 172465/371472 [2:39:03<16:24:51,  3.37it/s] 46%|████▋     | 172466/371472 [2:39:03<15:57:35,  3.46it/s] 46%|████▋     | 172467/371472 [2:39:04<15:33:32,  3.55it/s] 46%|████▋     | 172468/371472 [2:39:04<15:31:47,  3.56it/s] 46%|████▋     | 172469/371472 [2:39:04<15:14:01,  3.63it/s] 46%|████▋     | 172470/371472 [2:39:04<15:11:34,  3.64it/s] 46%|████▋     | 172471/371472 [2:39:05<14:49:48,  3.73it/s] 46%|████▋     | 172472/371472 [2:39:05<14:41:01,  3.76it/s] 46%|████▋     | 172473/371472 [2:39:05<14:35:31,  3.79it/s] 46%|████▋     | 172474/371472 [2:39:06<14:49:48,  3.73it/s] 46%|████▋     | 172475/371472 [2:39:06<15:09:17,  3.65it/s] 46%|████▋     | 172476/371472 [2:39:06<15:08:59,  3.65it/s] 46%|████▋     | 172477/371472 [2:39:06<15:17:59,  3.61it/s] 46%|████▋     | 172478/371472 [2:39:07<14:59:47,  3.69it/s] 46%|████▋     | 172479/371472 [2:39:07<15:03:22,  3.67it/s] 46%|████▋     | 172480/371472 [2:39:07<15:01:32,  3.68it/s]                                                            {'loss': 3.0778, 'learning_rate': 5.823762632248055e-07, 'epoch': 7.43}
 46%|████▋     | 172480/371472 [2:39:07<15:01:32,  3.68it/s] 46%|████▋     | 172481/371472 [2:39:07<15:11:46,  3.64it/s] 46%|████▋     | 172482/371472 [2:39:08<17:35:11,  3.14it/s] 46%|████▋     | 172483/371472 [2:39:08<16:39:32,  3.32it/s] 46%|████▋     | 172484/371472 [2:39:08<16:07:46,  3.43it/s] 46%|████▋     | 172485/371472 [2:39:09<16:31:34,  3.34it/s] 46%|████▋     | 172486/371472 [2:39:09<16:50:02,  3.28it/s] 46%|████▋     | 172487/371472 [2:39:09<16:19:00,  3.39it/s] 46%|████▋     | 172488/371472 [2:39:10<15:51:36,  3.49it/s] 46%|████▋     | 172489/371472 [2:39:10<15:27:15,  3.58it/s] 46%|████▋     | 172490/371472 [2:39:10<15:40:12,  3.53it/s] 46%|████▋     | 172491/371472 [2:39:10<15:19:40,  3.61it/s] 46%|████▋     | 172492/371472 [2:39:11<15:28:48,  3.57it/s] 46%|████▋     | 172493/371472 [2:39:11<15:48:56,  3.49it/s] 46%|████▋     | 172494/371472 [2:39:11<15:25:03,  3.58it/s] 46%|████▋     | 172495/371472 [2:39:12<15:16:44,  3.62it/s] 46%|████▋     | 172496/371472 [2:39:12<15:54:10,  3.48it/s] 46%|████▋     | 172497/371472 [2:39:12<15:13:57,  3.63it/s] 46%|████▋     | 172498/371472 [2:39:12<15:08:17,  3.65it/s] 46%|████▋     | 172499/371472 [2:39:13<15:06:42,  3.66it/s] 46%|████▋     | 172500/371472 [2:39:13<15:11:32,  3.64it/s]                                                            {'loss': 2.9976, 'learning_rate': 5.823277812493266e-07, 'epoch': 7.43}
 46%|████▋     | 172500/371472 [2:39:13<15:11:32,  3.64it/s] 46%|████▋     | 172501/371472 [2:39:13<15:04:28,  3.67it/s] 46%|████▋     | 172502/371472 [2:39:13<14:46:19,  3.74it/s] 46%|████▋     | 172503/371472 [2:39:14<15:04:23,  3.67it/s] 46%|████▋     | 172504/371472 [2:39:14<19:18:08,  2.86it/s] 46%|████▋     | 172505/371472 [2:39:15<19:10:40,  2.88it/s] 46%|████▋     | 172506/371472 [2:39:15<18:11:50,  3.04it/s] 46%|████▋     | 172507/371472 [2:39:15<18:08:37,  3.05it/s] 46%|████▋     | 172508/371472 [2:39:15<16:46:32,  3.29it/s] 46%|████▋     | 172509/371472 [2:39:16<15:56:59,  3.47it/s] 46%|████▋     | 172510/371472 [2:39:16<15:31:05,  3.56it/s] 46%|████▋     | 172511/371472 [2:39:16<15:56:16,  3.47it/s] 46%|████▋     | 172512/371472 [2:39:17<15:28:51,  3.57it/s] 46%|████▋     | 172513/371472 [2:39:17<15:23:49,  3.59it/s] 46%|████▋     | 172514/371472 [2:39:17<15:25:01,  3.58it/s] 46%|████▋     | 172515/371472 [2:39:17<14:39:30,  3.77it/s] 46%|████▋     | 172516/371472 [2:39:18<15:17:31,  3.61it/s] 46%|████▋     | 172517/371472 [2:39:18<15:03:37,  3.67it/s] 46%|████▋     | 172518/371472 [2:39:18<15:40:05,  3.53it/s] 46%|████▋     | 172519/371472 [2:39:18<15:25:15,  3.58it/s] 46%|████▋     | 172520/371472 [2:39:19<15:30:01,  3.57it/s]                                                            {'loss': 3.043, 'learning_rate': 5.822792992738478e-07, 'epoch': 7.43}
 46%|████▋     | 172520/371472 [2:39:19<15:30:01,  3.57it/s] 46%|████▋     | 172521/371472 [2:39:19<15:07:32,  3.65it/s] 46%|████▋     | 172522/371472 [2:39:19<15:37:37,  3.54it/s] 46%|████▋     | 172523/371472 [2:39:20<15:50:09,  3.49it/s] 46%|████▋     | 172524/371472 [2:39:20<15:25:29,  3.58it/s] 46%|████▋     | 172525/371472 [2:39:20<15:33:45,  3.55it/s] 46%|████▋     | 172526/371472 [2:39:20<15:49:27,  3.49it/s] 46%|████▋     | 172527/371472 [2:39:21<15:29:38,  3.57it/s] 46%|████▋     | 172528/371472 [2:39:21<15:20:50,  3.60it/s] 46%|████▋     | 172529/371472 [2:39:21<15:31:46,  3.56it/s] 46%|████▋     | 172530/371472 [2:39:22<15:46:40,  3.50it/s] 46%|████▋     | 172531/371472 [2:39:22<15:40:15,  3.53it/s] 46%|████▋     | 172532/371472 [2:39:22<15:58:59,  3.46it/s] 46%|████▋     | 172533/371472 [2:39:22<15:23:52,  3.59it/s] 46%|████▋     | 172534/371472 [2:39:23<14:52:39,  3.71it/s] 46%|████▋     | 172535/371472 [2:39:23<14:37:43,  3.78it/s] 46%|████▋     | 172536/371472 [2:39:23<14:23:21,  3.84it/s] 46%|████▋     | 172537/371472 [2:39:24<16:43:32,  3.30it/s] 46%|████▋     | 172538/371472 [2:39:24<16:17:27,  3.39it/s] 46%|████▋     | 172539/371472 [2:39:24<15:58:58,  3.46it/s] 46%|████▋     | 172540/371472 [2:39:24<16:13:12,  3.41it/s]                                                            {'loss': 3.2195, 'learning_rate': 5.822308172983688e-07, 'epoch': 7.43}
 46%|████▋     | 172540/371472 [2:39:24<16:13:12,  3.41it/s] 46%|████▋     | 172541/371472 [2:39:25<17:29:12,  3.16it/s] 46%|████▋     | 172542/371472 [2:39:25<17:08:18,  3.22it/s] 46%|████▋     | 172543/371472 [2:39:25<17:28:35,  3.16it/s] 46%|████▋     | 172544/371472 [2:39:26<17:01:54,  3.24it/s] 46%|████▋     | 172545/371472 [2:39:26<16:44:56,  3.30it/s] 46%|████▋     | 172546/371472 [2:39:26<15:58:53,  3.46it/s] 46%|████▋     | 172547/371472 [2:39:27<15:43:15,  3.51it/s] 46%|████▋     | 172548/371472 [2:39:27<16:12:01,  3.41it/s] 46%|████▋     | 172549/371472 [2:39:27<17:05:33,  3.23it/s] 46%|████▋     | 172550/371472 [2:39:27<16:50:30,  3.28it/s] 46%|████▋     | 172551/371472 [2:39:28<16:55:14,  3.27it/s] 46%|████▋     | 172552/371472 [2:39:28<16:47:37,  3.29it/s] 46%|████▋     | 172553/371472 [2:39:28<16:42:40,  3.31it/s] 46%|████▋     | 172554/371472 [2:39:29<18:29:58,  2.99it/s] 46%|████▋     | 172555/371472 [2:39:29<18:24:07,  3.00it/s] 46%|████▋     | 172556/371472 [2:39:29<17:52:34,  3.09it/s] 46%|████▋     | 172557/371472 [2:39:30<16:32:24,  3.34it/s] 46%|████▋     | 172558/371472 [2:39:30<15:52:24,  3.48it/s] 46%|████▋     | 172559/371472 [2:39:30<15:32:56,  3.55it/s] 46%|████▋     | 172560/371472 [2:39:30<15:03:04,  3.67it/s]                                                            {'loss': 3.1125, 'learning_rate': 5.821823353228899e-07, 'epoch': 7.43}
 46%|████▋     | 172560/371472 [2:39:30<15:03:04,  3.67it/s] 46%|████▋     | 172561/371472 [2:39:31<15:07:01,  3.66it/s] 46%|████▋     | 172562/371472 [2:39:31<15:33:13,  3.55it/s] 46%|████▋     | 172563/371472 [2:39:31<15:41:13,  3.52it/s] 46%|████▋     | 172564/371472 [2:39:32<15:36:33,  3.54it/s] 46%|████▋     | 172565/371472 [2:39:32<15:39:49,  3.53it/s] 46%|████▋     | 172566/371472 [2:39:32<15:32:18,  3.56it/s] 46%|████▋     | 172567/371472 [2:39:32<15:05:44,  3.66it/s] 46%|████▋     | 172568/371472 [2:39:33<15:50:45,  3.49it/s] 46%|████▋     | 172569/371472 [2:39:33<16:05:51,  3.43it/s] 46%|████▋     | 172570/371472 [2:39:33<15:47:10,  3.50it/s] 46%|████▋     | 172571/371472 [2:39:34<15:48:01,  3.50it/s] 46%|████▋     | 172572/371472 [2:39:34<15:43:27,  3.51it/s] 46%|████▋     | 172573/371472 [2:39:34<15:29:02,  3.57it/s] 46%|████▋     | 172574/371472 [2:39:34<15:36:35,  3.54it/s] 46%|████▋     | 172575/371472 [2:39:35<15:31:22,  3.56it/s] 46%|████▋     | 172576/371472 [2:39:35<15:28:46,  3.57it/s] 46%|████▋     | 172577/371472 [2:39:35<15:04:51,  3.66it/s] 46%|████▋     | 172578/371472 [2:39:35<15:06:00,  3.66it/s] 46%|████▋     | 172579/371472 [2:39:36<14:40:32,  3.76it/s] 46%|████▋     | 172580/371472 [2:39:36<16:09:45,  3.42it/s]                                                            {'loss': 3.077, 'learning_rate': 5.82133853347411e-07, 'epoch': 7.43}
 46%|████▋     | 172580/371472 [2:39:36<16:09:45,  3.42it/s] 46%|████▋     | 172581/371472 [2:39:36<15:35:08,  3.54it/s] 46%|████▋     | 172582/371472 [2:39:37<15:42:41,  3.52it/s] 46%|████▋     | 172583/371472 [2:39:37<16:34:44,  3.33it/s] 46%|████▋     | 172584/371472 [2:39:37<15:42:31,  3.52it/s] 46%|████▋     | 172585/371472 [2:39:38<16:14:19,  3.40it/s] 46%|████▋     | 172586/371472 [2:39:38<18:10:46,  3.04it/s] 46%|████▋     | 172587/371472 [2:39:38<18:05:07,  3.05it/s] 46%|████▋     | 172588/371472 [2:39:39<17:49:44,  3.10it/s] 46%|████▋     | 172589/371472 [2:39:39<17:23:54,  3.18it/s] 46%|████▋     | 172590/371472 [2:39:39<16:16:03,  3.40it/s] 46%|████▋     | 172591/371472 [2:39:39<15:28:08,  3.57it/s] 46%|████▋     | 172592/371472 [2:39:40<15:51:39,  3.48it/s] 46%|████▋     | 172593/371472 [2:39:40<15:49:18,  3.49it/s] 46%|████▋     | 172594/371472 [2:39:40<15:46:17,  3.50it/s] 46%|████▋     | 172595/371472 [2:39:41<15:21:49,  3.60it/s] 46%|████▋     | 172596/371472 [2:39:41<15:02:32,  3.67it/s] 46%|████▋     | 172597/371472 [2:39:41<15:49:56,  3.49it/s] 46%|████▋     | 172598/371472 [2:39:41<16:01:29,  3.45it/s] 46%|████▋     | 172599/371472 [2:39:42<15:26:04,  3.58it/s] 46%|████▋     | 172600/371472 [2:39:42<15:07:05,  3.65it/s]                                                            {'loss': 2.9487, 'learning_rate': 5.820853713719322e-07, 'epoch': 7.43}
 46%|████▋     | 172600/371472 [2:39:42<15:07:05,  3.65it/s] 46%|████▋     | 172601/371472 [2:39:42<15:13:52,  3.63it/s] 46%|████▋     | 172602/371472 [2:39:42<15:11:52,  3.63it/s] 46%|████▋     | 172603/371472 [2:39:43<16:28:55,  3.35it/s] 46%|████▋     | 172604/371472 [2:39:43<16:29:15,  3.35it/s] 46%|████▋     | 172605/371472 [2:39:43<16:11:19,  3.41it/s] 46%|████▋     | 172606/371472 [2:39:44<16:45:45,  3.30it/s] 46%|████▋     | 172607/371472 [2:39:44<17:09:18,  3.22it/s] 46%|████▋     | 172608/371472 [2:39:44<16:13:42,  3.40it/s] 46%|████▋     | 172609/371472 [2:39:45<15:47:06,  3.50it/s] 46%|████▋     | 172610/371472 [2:39:45<15:49:02,  3.49it/s] 46%|████▋     | 172611/371472 [2:39:45<15:46:28,  3.50it/s] 46%|████▋     | 172612/371472 [2:39:45<15:40:50,  3.52it/s] 46%|████▋     | 172613/371472 [2:39:46<15:09:15,  3.65it/s] 46%|████▋     | 172614/371472 [2:39:46<14:58:25,  3.69it/s] 46%|████▋     | 172615/371472 [2:39:46<15:00:07,  3.68it/s] 46%|████▋     | 172616/371472 [2:39:47<15:23:31,  3.59it/s] 46%|████▋     | 172617/371472 [2:39:47<15:31:16,  3.56it/s] 46%|████▋     | 172618/371472 [2:39:47<15:09:32,  3.64it/s] 46%|████▋     | 172619/371472 [2:39:47<15:15:57,  3.62it/s] 46%|████▋     | 172620/371472 [2:39:48<15:04:36,  3.66it/s]                                                            {'loss': 3.1892, 'learning_rate': 5.820368893964533e-07, 'epoch': 7.44}
 46%|████▋     | 172620/371472 [2:39:48<15:04:36,  3.66it/s] 46%|████▋     | 172621/371472 [2:39:48<14:56:10,  3.70it/s] 46%|████▋     | 172622/371472 [2:39:48<14:48:54,  3.73it/s] 46%|████▋     | 172623/371472 [2:39:48<15:37:47,  3.53it/s] 46%|████▋     | 172624/371472 [2:39:49<15:31:51,  3.56it/s] 46%|████▋     | 172625/371472 [2:39:49<15:29:01,  3.57it/s] 46%|████▋     | 172626/371472 [2:39:49<15:08:32,  3.65it/s] 46%|████▋     | 172627/371472 [2:39:50<15:36:02,  3.54it/s] 46%|████▋     | 172628/371472 [2:39:50<14:57:54,  3.69it/s] 46%|████▋     | 172629/371472 [2:39:50<15:02:17,  3.67it/s] 46%|████▋     | 172630/371472 [2:39:50<14:21:49,  3.85it/s] 46%|████▋     | 172631/371472 [2:39:51<14:14:56,  3.88it/s] 46%|████▋     | 172632/371472 [2:39:51<16:13:23,  3.40it/s] 46%|████▋     | 172633/371472 [2:39:51<16:16:22,  3.39it/s] 46%|████▋     | 172634/371472 [2:39:52<16:07:00,  3.43it/s] 46%|████▋     | 172635/371472 [2:39:52<15:48:27,  3.49it/s] 46%|████▋     | 172636/371472 [2:39:52<15:40:13,  3.52it/s] 46%|████▋     | 172637/371472 [2:39:52<15:33:59,  3.55it/s] 46%|████▋     | 172638/371472 [2:39:53<16:42:51,  3.30it/s] 46%|████▋     | 172639/371472 [2:39:53<16:09:55,  3.42it/s] 46%|████▋     | 172640/371472 [2:39:53<15:42:21,  3.52it/s]                                                            {'loss': 3.0843, 'learning_rate': 5.819884074209744e-07, 'epoch': 7.44}
 46%|████▋     | 172640/371472 [2:39:53<15:42:21,  3.52it/s] 46%|████▋     | 172641/371472 [2:39:54<16:27:19,  3.36it/s] 46%|████▋     | 172642/371472 [2:39:54<16:37:08,  3.32it/s] 46%|████▋     | 172643/371472 [2:39:54<16:12:22,  3.41it/s] 46%|████▋     | 172644/371472 [2:39:54<15:51:45,  3.48it/s] 46%|████▋     | 172645/371472 [2:39:55<17:13:34,  3.21it/s] 46%|████▋     | 172646/371472 [2:39:55<16:43:56,  3.30it/s] 46%|████▋     | 172647/371472 [2:39:55<16:28:47,  3.35it/s] 46%|████▋     | 172648/371472 [2:39:56<16:06:47,  3.43it/s] 46%|████▋     | 172649/371472 [2:39:56<15:40:31,  3.52it/s] 46%|████▋     | 172650/371472 [2:39:56<16:07:00,  3.43it/s] 46%|████▋     | 172651/371472 [2:39:57<16:30:29,  3.35it/s] 46%|████▋     | 172652/371472 [2:39:57<16:33:29,  3.34it/s] 46%|████▋     | 172653/371472 [2:39:57<15:55:40,  3.47it/s] 46%|████▋     | 172654/371472 [2:39:57<15:51:05,  3.48it/s] 46%|████▋     | 172655/371472 [2:39:58<15:36:05,  3.54it/s] 46%|████▋     | 172656/371472 [2:39:58<15:16:42,  3.61it/s] 46%|████▋     | 172657/371472 [2:39:58<15:40:52,  3.52it/s] 46%|████▋     | 172658/371472 [2:39:58<15:24:30,  3.58it/s] 46%|████▋     | 172659/371472 [2:39:59<15:32:28,  3.55it/s] 46%|████▋     | 172660/371472 [2:39:59<16:36:31,  3.33it/s]                                                            {'loss': 3.054, 'learning_rate': 5.819399254454954e-07, 'epoch': 7.44}
 46%|████▋     | 172660/371472 [2:39:59<16:36:31,  3.33it/s] 46%|████▋     | 172661/371472 [2:39:59<16:36:38,  3.32it/s] 46%|████▋     | 172662/371472 [2:40:00<16:13:48,  3.40it/s] 46%|████▋     | 172663/371472 [2:40:00<16:30:36,  3.34it/s] 46%|████▋     | 172664/371472 [2:40:00<15:57:32,  3.46it/s] 46%|████▋     | 172665/371472 [2:40:01<15:46:25,  3.50it/s] 46%|████▋     | 172666/371472 [2:40:01<16:14:18,  3.40it/s] 46%|████▋     | 172667/371472 [2:40:01<15:30:45,  3.56it/s] 46%|████▋     | 172668/371472 [2:40:01<15:01:21,  3.68it/s] 46%|████▋     | 172669/371472 [2:40:02<14:52:40,  3.71it/s] 46%|████▋     | 172670/371472 [2:40:02<15:02:03,  3.67it/s] 46%|████▋     | 172671/371472 [2:40:02<14:41:41,  3.76it/s] 46%|████▋     | 172672/371472 [2:40:02<15:17:13,  3.61it/s] 46%|████▋     | 172673/371472 [2:40:03<15:17:13,  3.61it/s] 46%|████▋     | 172674/371472 [2:40:03<15:41:26,  3.52it/s] 46%|████▋     | 172675/371472 [2:40:03<15:24:32,  3.58it/s] 46%|████▋     | 172676/371472 [2:40:04<16:12:05,  3.41it/s] 46%|████▋     | 172677/371472 [2:40:04<16:19:33,  3.38it/s] 46%|████▋     | 172678/371472 [2:40:04<16:10:17,  3.41it/s] 46%|████▋     | 172679/371472 [2:40:04<15:42:54,  3.51it/s] 46%|████▋     | 172680/371472 [2:40:05<15:41:11,  3.52it/s]                                                            {'loss': 3.0724, 'learning_rate': 5.818914434700165e-07, 'epoch': 7.44}
 46%|████▋     | 172680/371472 [2:40:05<15:41:11,  3.52it/s] 46%|████▋     | 172681/371472 [2:40:05<16:12:01,  3.41it/s] 46%|████▋     | 172682/371472 [2:40:05<15:48:19,  3.49it/s] 46%|████▋     | 172683/371472 [2:40:06<15:59:44,  3.45it/s] 46%|████▋     | 172684/371472 [2:40:06<16:49:58,  3.28it/s] 46%|████▋     | 172685/371472 [2:40:06<16:16:51,  3.39it/s] 46%|████▋     | 172686/371472 [2:40:07<16:15:24,  3.40it/s] 46%|████▋     | 172687/371472 [2:40:07<15:59:16,  3.45it/s] 46%|████▋     | 172688/371472 [2:40:07<16:09:31,  3.42it/s] 46%|████▋     | 172689/371472 [2:40:07<15:33:40,  3.55it/s] 46%|████▋     | 172690/371472 [2:40:08<15:19:57,  3.60it/s] 46%|████▋     | 172691/371472 [2:40:08<15:53:54,  3.47it/s] 46%|████▋     | 172692/371472 [2:40:08<15:37:14,  3.53it/s] 46%|████▋     | 172693/371472 [2:40:09<15:19:49,  3.60it/s] 46%|████▋     | 172694/371472 [2:40:09<14:47:39,  3.73it/s] 46%|████▋     | 172695/371472 [2:40:09<15:00:58,  3.68it/s] 46%|████▋     | 172696/371472 [2:40:09<15:10:08,  3.64it/s] 46%|████▋     | 172697/371472 [2:40:10<15:28:47,  3.57it/s] 46%|████▋     | 172698/371472 [2:40:10<15:12:03,  3.63it/s] 46%|████▋     | 172699/371472 [2:40:10<15:11:50,  3.63it/s] 46%|████▋     | 172700/371472 [2:40:11<17:40:50,  3.12it/s]                                                            {'loss': 3.126, 'learning_rate': 5.818429614945377e-07, 'epoch': 7.44}
 46%|████▋     | 172700/371472 [2:40:11<17:40:50,  3.12it/s] 46%|████▋     | 172701/371472 [2:40:11<18:26:23,  2.99it/s] 46%|████▋     | 172702/371472 [2:40:11<17:10:20,  3.22it/s] 46%|████▋     | 172703/371472 [2:40:11<16:09:37,  3.42it/s] 46%|████▋     | 172704/371472 [2:40:12<15:45:43,  3.50it/s] 46%|████▋     | 172705/371472 [2:40:12<16:22:46,  3.37it/s] 46%|████▋     | 172706/371472 [2:40:12<15:54:07,  3.47it/s] 46%|████▋     | 172707/371472 [2:40:13<15:34:38,  3.54it/s] 46%|████▋     | 172708/371472 [2:40:13<14:58:35,  3.69it/s] 46%|████▋     | 172709/371472 [2:40:13<14:51:12,  3.72it/s] 46%|████▋     | 172710/371472 [2:40:13<14:51:33,  3.72it/s] 46%|████▋     | 172711/371472 [2:40:14<14:32:51,  3.80it/s] 46%|████▋     | 172712/371472 [2:40:14<14:26:17,  3.82it/s] 46%|████▋     | 172713/371472 [2:40:14<16:09:05,  3.42it/s] 46%|████▋     | 172714/371472 [2:40:14<15:27:15,  3.57it/s] 46%|████▋     | 172715/371472 [2:40:15<15:14:38,  3.62it/s] 46%|████▋     | 172716/371472 [2:40:15<15:17:04,  3.61it/s] 46%|████▋     | 172717/371472 [2:40:15<15:03:21,  3.67it/s] 46%|████▋     | 172718/371472 [2:40:16<14:50:26,  3.72it/s] 46%|████▋     | 172719/371472 [2:40:16<15:52:23,  3.48it/s] 46%|████▋     | 172720/371472 [2:40:16<15:50:09,  3.49it/s]                                                            {'loss': 3.0363, 'learning_rate': 5.817944795190588e-07, 'epoch': 7.44}
 46%|████▋     | 172720/371472 [2:40:16<15:50:09,  3.49it/s] 46%|████▋     | 172721/371472 [2:40:16<15:56:09,  3.46it/s] 46%|████▋     | 172722/371472 [2:40:17<15:30:29,  3.56it/s] 46%|████▋     | 172723/371472 [2:40:17<15:27:04,  3.57it/s] 46%|████▋     | 172724/371472 [2:40:17<15:39:43,  3.52it/s] 46%|████▋     | 172725/371472 [2:40:18<15:11:33,  3.63it/s] 46%|████▋     | 172726/371472 [2:40:18<15:22:21,  3.59it/s] 46%|████▋     | 172727/371472 [2:40:18<15:06:31,  3.65it/s] 46%|████▋     | 172728/371472 [2:40:18<15:02:42,  3.67it/s] 46%|████▋     | 172729/371472 [2:40:19<15:02:55,  3.67it/s] 46%|████▋     | 172730/371472 [2:40:19<15:19:03,  3.60it/s] 46%|████▋     | 172731/371472 [2:40:19<15:05:37,  3.66it/s] 46%|████▋     | 172732/371472 [2:40:19<15:29:28,  3.56it/s] 46%|████▋     | 172733/371472 [2:40:20<15:33:15,  3.55it/s] 46%|████▋     | 172734/371472 [2:40:20<16:15:49,  3.39it/s] 47%|████▋     | 172735/371472 [2:40:20<16:10:16,  3.41it/s] 47%|████▋     | 172736/371472 [2:40:21<16:13:11,  3.40it/s] 47%|████▋     | 172737/371472 [2:40:21<16:00:47,  3.45it/s] 47%|████▋     | 172738/371472 [2:40:21<15:49:39,  3.49it/s] 47%|████▋     | 172739/371472 [2:40:22<16:34:35,  3.33it/s] 47%|████▋     | 172740/371472 [2:40:22<15:54:43,  3.47it/s]                                                            {'loss': 3.023, 'learning_rate': 5.817459975435799e-07, 'epoch': 7.44}
 47%|████▋     | 172740/371472 [2:40:22<15:54:43,  3.47it/s] 47%|████▋     | 172741/371472 [2:40:22<16:33:35,  3.33it/s] 47%|████▋     | 172742/371472 [2:40:22<16:14:28,  3.40it/s] 47%|████▋     | 172743/371472 [2:40:23<15:42:16,  3.52it/s] 47%|████▋     | 172744/371472 [2:40:23<16:12:31,  3.41it/s] 47%|████▋     | 172745/371472 [2:40:23<15:35:27,  3.54it/s] 47%|████▋     | 172746/371472 [2:40:24<15:05:29,  3.66it/s] 47%|████▋     | 172747/371472 [2:40:24<16:10:46,  3.41it/s] 47%|████▋     | 172748/371472 [2:40:24<15:37:57,  3.53it/s] 47%|████▋     | 172749/371472 [2:40:24<15:50:10,  3.49it/s] 47%|████▋     | 172750/371472 [2:40:25<16:48:06,  3.29it/s] 47%|████▋     | 172751/371472 [2:40:25<16:43:19,  3.30it/s] 47%|████▋     | 172752/371472 [2:40:25<17:17:26,  3.19it/s] 47%|████▋     | 172753/371472 [2:40:26<16:14:04,  3.40it/s] 47%|████▋     | 172754/371472 [2:40:26<16:03:40,  3.44it/s] 47%|████▋     | 172755/371472 [2:40:26<16:31:57,  3.34it/s] 47%|████▋     | 172756/371472 [2:40:27<16:17:48,  3.39it/s] 47%|████▋     | 172757/371472 [2:40:27<16:17:53,  3.39it/s] 47%|████▋     | 172758/371472 [2:40:27<15:49:13,  3.49it/s] 47%|████▋     | 172759/371472 [2:40:27<15:58:18,  3.46it/s] 47%|████▋     | 172760/371472 [2:40:28<16:44:58,  3.30it/s]                                                            {'loss': 3.0496, 'learning_rate': 5.816975155681011e-07, 'epoch': 7.44}
 47%|████▋     | 172760/371472 [2:40:28<16:44:58,  3.30it/s] 47%|████▋     | 172761/371472 [2:40:28<16:35:51,  3.33it/s] 47%|████▋     | 172762/371472 [2:40:28<16:08:33,  3.42it/s] 47%|████▋     | 172763/371472 [2:40:29<16:02:47,  3.44it/s] 47%|████▋     | 172764/371472 [2:40:29<15:34:41,  3.54it/s] 47%|████▋     | 172765/371472 [2:40:29<15:07:46,  3.65it/s] 47%|████▋     | 172766/371472 [2:40:29<14:55:24,  3.70it/s] 47%|████▋     | 172767/371472 [2:40:30<14:46:26,  3.74it/s] 47%|████▋     | 172768/371472 [2:40:30<14:47:23,  3.73it/s] 47%|████▋     | 172769/371472 [2:40:30<14:56:10,  3.70it/s] 47%|████▋     | 172770/371472 [2:40:30<14:39:09,  3.77it/s] 47%|████▋     | 172771/371472 [2:40:31<14:20:21,  3.85it/s] 47%|████▋     | 172772/371472 [2:40:31<15:18:58,  3.60it/s] 47%|████▋     | 172773/371472 [2:40:31<15:36:01,  3.54it/s] 47%|████▋     | 172774/371472 [2:40:32<15:22:43,  3.59it/s] 47%|████▋     | 172775/371472 [2:40:32<15:37:05,  3.53it/s] 47%|████▋     | 172776/371472 [2:40:32<15:31:26,  3.56it/s] 47%|████▋     | 172777/371472 [2:40:32<15:07:31,  3.65it/s] 47%|████▋     | 172778/371472 [2:40:33<15:00:33,  3.68it/s] 47%|████▋     | 172779/371472 [2:40:33<16:36:13,  3.32it/s] 47%|████▋     | 172780/371472 [2:40:33<16:02:17,  3.44it/s]                                                            {'loss': 3.0461, 'learning_rate': 5.816490335926221e-07, 'epoch': 7.44}
 47%|████▋     | 172780/371472 [2:40:33<16:02:17,  3.44it/s] 47%|████▋     | 172781/371472 [2:40:34<15:52:17,  3.48it/s] 47%|████▋     | 172782/371472 [2:40:34<16:08:14,  3.42it/s] 47%|████▋     | 172783/371472 [2:40:34<16:11:34,  3.41it/s] 47%|████▋     | 172784/371472 [2:40:34<16:24:08,  3.36it/s] 47%|████▋     | 172785/371472 [2:40:35<16:01:35,  3.44it/s] 47%|████▋     | 172786/371472 [2:40:35<15:40:49,  3.52it/s] 47%|████▋     | 172787/371472 [2:40:35<15:33:31,  3.55it/s] 47%|████▋     | 172788/371472 [2:40:36<14:54:10,  3.70it/s] 47%|████▋     | 172789/371472 [2:40:36<15:38:31,  3.53it/s] 47%|████▋     | 172790/371472 [2:40:36<15:02:08,  3.67it/s] 47%|████▋     | 172791/371472 [2:40:36<15:16:30,  3.61it/s] 47%|████▋     | 172792/371472 [2:40:37<16:15:50,  3.39it/s] 47%|████▋     | 172793/371472 [2:40:37<16:10:30,  3.41it/s] 47%|████▋     | 172794/371472 [2:40:37<16:10:59,  3.41it/s] 47%|████▋     | 172795/371472 [2:40:38<15:30:23,  3.56it/s] 47%|████▋     | 172796/371472 [2:40:38<15:05:25,  3.66it/s] 47%|████▋     | 172797/371472 [2:40:38<14:54:27,  3.70it/s] 47%|████▋     | 172798/371472 [2:40:38<15:12:28,  3.63it/s] 47%|████▋     | 172799/371472 [2:40:39<15:20:48,  3.60it/s] 47%|████▋     | 172800/371472 [2:40:39<15:21:09,  3.59it/s]                                                            {'loss': 3.0398, 'learning_rate': 5.816005516171432e-07, 'epoch': 7.44}
 47%|████▋     | 172800/371472 [2:40:39<15:21:09,  3.59it/s] 47%|████▋     | 172801/371472 [2:40:39<15:02:33,  3.67it/s] 47%|████▋     | 172802/371472 [2:40:40<16:36:13,  3.32it/s] 47%|████▋     | 172803/371472 [2:40:40<15:49:13,  3.49it/s] 47%|████▋     | 172804/371472 [2:40:40<15:51:57,  3.48it/s] 47%|████▋     | 172805/371472 [2:40:40<15:36:20,  3.54it/s] 47%|████▋     | 172806/371472 [2:40:41<15:15:37,  3.62it/s] 47%|████▋     | 172807/371472 [2:40:41<15:19:20,  3.60it/s] 47%|████▋     | 172808/371472 [2:40:41<14:47:29,  3.73it/s] 47%|████▋     | 172809/371472 [2:40:41<14:48:53,  3.72it/s] 47%|████▋     | 172810/371472 [2:40:42<14:59:17,  3.68it/s] 47%|████▋     | 172811/371472 [2:40:42<15:33:04,  3.55it/s] 47%|████▋     | 172812/371472 [2:40:42<15:17:33,  3.61it/s] 47%|████▋     | 172813/371472 [2:40:43<15:31:03,  3.56it/s] 47%|████▋     | 172814/371472 [2:40:43<15:06:15,  3.65it/s] 47%|████▋     | 172815/371472 [2:40:43<14:58:18,  3.69it/s] 47%|████▋     | 172816/371472 [2:40:43<14:58:37,  3.68it/s] 47%|████▋     | 172817/371472 [2:40:44<14:59:23,  3.68it/s] 47%|████▋     | 172818/371472 [2:40:44<14:43:06,  3.75it/s] 47%|████▋     | 172819/371472 [2:40:44<15:18:38,  3.60it/s] 47%|████▋     | 172820/371472 [2:40:45<16:06:44,  3.42it/s]                                                            {'loss': 3.0063, 'learning_rate': 5.815520696416643e-07, 'epoch': 7.44}
 47%|████▋     | 172820/371472 [2:40:45<16:06:44,  3.42it/s] 47%|████▋     | 172821/371472 [2:40:45<15:45:49,  3.50it/s] 47%|████▋     | 172822/371472 [2:40:45<17:01:37,  3.24it/s] 47%|████▋     | 172823/371472 [2:40:45<16:31:31,  3.34it/s] 47%|████▋     | 172824/371472 [2:40:46<15:53:32,  3.47it/s] 47%|████▋     | 172825/371472 [2:40:46<15:54:55,  3.47it/s] 47%|████▋     | 172826/371472 [2:40:46<15:31:16,  3.56it/s] 47%|████▋     | 172827/371472 [2:40:47<16:11:39,  3.41it/s] 47%|████▋     | 172828/371472 [2:40:47<16:22:47,  3.37it/s] 47%|████▋     | 172829/371472 [2:40:47<18:48:17,  2.93it/s] 47%|████▋     | 172830/371472 [2:40:48<17:33:31,  3.14it/s] 47%|████▋     | 172831/371472 [2:40:48<16:37:05,  3.32it/s] 47%|████▋     | 172832/371472 [2:40:48<16:49:31,  3.28it/s] 47%|████▋     | 172833/371472 [2:40:48<16:36:28,  3.32it/s] 47%|████▋     | 172834/371472 [2:40:49<16:00:38,  3.45it/s] 47%|████▋     | 172835/371472 [2:40:49<15:38:14,  3.53it/s] 47%|████▋     | 172836/371472 [2:40:49<16:45:40,  3.29it/s] 47%|████▋     | 172837/371472 [2:40:50<16:43:51,  3.30it/s] 47%|████▋     | 172838/371472 [2:40:50<16:06:44,  3.42it/s] 47%|████▋     | 172839/371472 [2:40:50<17:32:29,  3.15it/s] 47%|████▋     | 172840/371472 [2:40:51<17:43:28,  3.11it/s]                                                            {'loss': 2.8859, 'learning_rate': 5.815035876661854e-07, 'epoch': 7.44}
 47%|████▋     | 172840/371472 [2:40:51<17:43:28,  3.11it/s] 47%|████▋     | 172841/371472 [2:40:51<17:26:01,  3.16it/s] 47%|████▋     | 172842/371472 [2:40:51<17:17:10,  3.19it/s] 47%|████▋     | 172843/371472 [2:40:51<16:31:41,  3.34it/s] 47%|████▋     | 172844/371472 [2:40:52<16:08:50,  3.42it/s] 47%|████▋     | 172845/371472 [2:40:52<16:14:30,  3.40it/s] 47%|████▋     | 172846/371472 [2:40:52<16:29:50,  3.34it/s] 47%|████▋     | 172847/371472 [2:40:53<16:51:02,  3.27it/s] 47%|████▋     | 172848/371472 [2:40:53<15:56:50,  3.46it/s] 47%|████▋     | 172849/371472 [2:40:53<15:21:51,  3.59it/s] 47%|████▋     | 172850/371472 [2:40:53<15:40:28,  3.52it/s] 47%|████▋     | 172851/371472 [2:40:54<16:13:25,  3.40it/s] 47%|████▋     | 172852/371472 [2:40:54<16:58:29,  3.25it/s] 47%|████▋     | 172853/371472 [2:40:54<16:52:14,  3.27it/s] 47%|████▋     | 172854/371472 [2:40:55<16:30:59,  3.34it/s] 47%|████▋     | 172855/371472 [2:40:55<15:43:56,  3.51it/s] 47%|████▋     | 172856/371472 [2:40:55<16:23:50,  3.36it/s] 47%|████▋     | 172857/371472 [2:40:56<16:13:28,  3.40it/s] 47%|████▋     | 172858/371472 [2:40:56<16:49:57,  3.28it/s] 47%|████▋     | 172859/371472 [2:40:56<16:24:57,  3.36it/s] 47%|████▋     | 172860/371472 [2:40:56<15:33:56,  3.54it/s]                                                            {'loss': 3.1786, 'learning_rate': 5.814551056907065e-07, 'epoch': 7.45}
 47%|████▋     | 172860/371472 [2:40:56<15:33:56,  3.54it/s] 47%|████▋     | 172861/371472 [2:40:57<15:00:24,  3.68it/s] 47%|████▋     | 172862/371472 [2:40:57<14:58:26,  3.68it/s] 47%|████▋     | 172863/371472 [2:40:57<16:24:35,  3.36it/s] 47%|████▋     | 172864/371472 [2:40:58<16:00:54,  3.44it/s] 47%|████▋     | 172865/371472 [2:40:58<16:11:29,  3.41it/s] 47%|████▋     | 172866/371472 [2:40:58<15:54:59,  3.47it/s] 47%|████▋     | 172867/371472 [2:40:59<18:13:28,  3.03it/s] 47%|████▋     | 172868/371472 [2:40:59<17:32:38,  3.14it/s] 47%|████▋     | 172869/371472 [2:40:59<16:34:39,  3.33it/s] 47%|████▋     | 172870/371472 [2:40:59<16:40:59,  3.31it/s] 47%|████▋     | 172871/371472 [2:41:00<16:17:57,  3.38it/s] 47%|████▋     | 172872/371472 [2:41:00<16:05:55,  3.43it/s] 47%|████▋     | 172873/371472 [2:41:00<16:02:34,  3.44it/s] 47%|████▋     | 172874/371472 [2:41:01<15:37:48,  3.53it/s] 47%|████▋     | 172875/371472 [2:41:01<16:38:50,  3.31it/s] 47%|████▋     | 172876/371472 [2:41:01<15:54:33,  3.47it/s] 47%|████▋     | 172877/371472 [2:41:01<15:39:11,  3.52it/s] 47%|████▋     | 172878/371472 [2:41:02<15:57:45,  3.46it/s] 47%|████▋     | 172879/371472 [2:41:02<15:47:14,  3.49it/s] 47%|████▋     | 172880/371472 [2:41:02<15:35:01,  3.54it/s]                                                            {'loss': 3.1203, 'learning_rate': 5.814066237152276e-07, 'epoch': 7.45}
 47%|████▋     | 172880/371472 [2:41:02<15:35:01,  3.54it/s] 47%|████▋     | 172881/371472 [2:41:03<15:57:53,  3.46it/s] 47%|████▋     | 172882/371472 [2:41:03<16:13:02,  3.40it/s] 47%|████▋     | 172883/371472 [2:41:03<15:58:47,  3.45it/s] 47%|████▋     | 172884/371472 [2:41:04<16:56:36,  3.26it/s] 47%|████▋     | 172885/371472 [2:41:04<16:21:32,  3.37it/s] 47%|████▋     | 172886/371472 [2:41:04<16:21:19,  3.37it/s] 47%|████▋     | 172887/371472 [2:41:04<16:04:55,  3.43it/s] 47%|████▋     | 172888/371472 [2:41:05<15:54:51,  3.47it/s] 47%|████▋     | 172889/371472 [2:41:05<15:34:15,  3.54it/s] 47%|████▋     | 172890/371472 [2:41:05<15:00:38,  3.67it/s] 47%|████▋     | 172891/371472 [2:41:05<14:36:22,  3.78it/s] 47%|████▋     | 172892/371472 [2:41:06<14:59:56,  3.68it/s] 47%|████▋     | 172893/371472 [2:41:06<15:14:33,  3.62it/s] 47%|████▋     | 172894/371472 [2:41:06<17:09:35,  3.21it/s] 47%|████▋     | 172895/371472 [2:41:07<16:45:15,  3.29it/s] 47%|████▋     | 172896/371472 [2:41:07<18:22:13,  3.00it/s] 47%|████▋     | 172897/371472 [2:41:07<17:17:24,  3.19it/s] 47%|████▋     | 172898/371472 [2:41:08<16:49:54,  3.28it/s] 47%|████▋     | 172899/371472 [2:41:08<16:30:18,  3.34it/s] 47%|████▋     | 172900/371472 [2:41:08<17:15:02,  3.20it/s]                                                            {'loss': 3.0973, 'learning_rate': 5.813581417397488e-07, 'epoch': 7.45}
 47%|████▋     | 172900/371472 [2:41:08<17:15:02,  3.20it/s] 47%|████▋     | 172901/371472 [2:41:09<16:51:30,  3.27it/s] 47%|████▋     | 172902/371472 [2:41:09<18:26:17,  2.99it/s] 47%|████▋     | 172903/371472 [2:41:09<17:42:30,  3.11it/s] 47%|████▋     | 172904/371472 [2:41:10<17:02:17,  3.24it/s] 47%|████▋     | 172905/371472 [2:41:10<17:17:38,  3.19it/s] 47%|████▋     | 172906/371472 [2:41:10<16:50:09,  3.28it/s] 47%|████▋     | 172907/371472 [2:41:10<15:56:11,  3.46it/s] 47%|████▋     | 172908/371472 [2:41:11<15:30:34,  3.56it/s] 47%|████▋     | 172909/371472 [2:41:11<15:09:41,  3.64it/s] 47%|████▋     | 172910/371472 [2:41:11<14:58:12,  3.68it/s] 47%|████▋     | 172911/371472 [2:41:11<14:51:08,  3.71it/s] 47%|████▋     | 172912/371472 [2:41:12<14:59:05,  3.68it/s] 47%|████▋     | 172913/371472 [2:41:12<14:42:44,  3.75it/s] 47%|████▋     | 172914/371472 [2:41:12<14:47:32,  3.73it/s] 47%|████▋     | 172915/371472 [2:41:13<15:18:47,  3.60it/s] 47%|████▋     | 172916/371472 [2:41:13<15:16:44,  3.61it/s] 47%|████▋     | 172917/371472 [2:41:13<15:51:52,  3.48it/s] 47%|████▋     | 172918/371472 [2:41:13<15:41:13,  3.52it/s] 47%|████▋     | 172919/371472 [2:41:14<15:17:54,  3.61it/s] 47%|████▋     | 172920/371472 [2:41:14<15:01:23,  3.67it/s]                                                            {'loss': 3.0491, 'learning_rate': 5.813096597642698e-07, 'epoch': 7.45}
 47%|████▋     | 172920/371472 [2:41:14<15:01:23,  3.67it/s] 47%|████▋     | 172921/371472 [2:41:14<14:42:41,  3.75it/s] 47%|████▋     | 172922/371472 [2:41:14<14:27:45,  3.81it/s] 47%|████▋     | 172923/371472 [2:41:15<14:53:19,  3.70it/s] 47%|████▋     | 172924/371472 [2:41:15<14:47:39,  3.73it/s] 47%|████▋     | 172925/371472 [2:41:15<14:53:17,  3.70it/s] 47%|████▋     | 172926/371472 [2:41:16<16:26:29,  3.35it/s] 47%|████▋     | 172927/371472 [2:41:16<15:33:25,  3.55it/s] 47%|████▋     | 172928/371472 [2:41:16<15:13:15,  3.62it/s] 47%|████▋     | 172929/371472 [2:41:16<16:18:13,  3.38it/s] 47%|████▋     | 172930/371472 [2:41:17<16:20:41,  3.37it/s] 47%|████▋     | 172931/371472 [2:41:17<15:35:30,  3.54it/s] 47%|████▋     | 172932/371472 [2:41:17<16:06:39,  3.42it/s] 47%|████▋     | 172933/371472 [2:41:18<16:38:10,  3.32it/s] 47%|████▋     | 172934/371472 [2:41:18<16:06:48,  3.42it/s] 47%|████▋     | 172935/371472 [2:41:18<16:42:34,  3.30it/s] 47%|████▋     | 172936/371472 [2:41:19<16:46:18,  3.29it/s] 47%|████▋     | 172937/371472 [2:41:19<16:07:08,  3.42it/s] 47%|████▋     | 172938/371472 [2:41:19<15:33:04,  3.55it/s] 47%|████▋     | 172939/371472 [2:41:19<15:08:46,  3.64it/s] 47%|████▋     | 172940/371472 [2:41:20<16:03:58,  3.43it/s]                                                            {'loss': 2.9186, 'learning_rate': 5.812611777887909e-07, 'epoch': 7.45}
 47%|████▋     | 172940/371472 [2:41:20<16:03:58,  3.43it/s] 47%|████▋     | 172941/371472 [2:41:20<16:02:50,  3.44it/s] 47%|████▋     | 172942/371472 [2:41:20<16:08:51,  3.42it/s] 47%|████▋     | 172943/371472 [2:41:21<15:56:35,  3.46it/s] 47%|████▋     | 172944/371472 [2:41:21<16:02:23,  3.44it/s] 47%|████▋     | 172945/371472 [2:41:21<15:20:21,  3.60it/s] 47%|████▋     | 172946/371472 [2:41:21<15:28:46,  3.56it/s] 47%|████▋     | 172947/371472 [2:41:22<15:24:49,  3.58it/s] 47%|████▋     | 172948/371472 [2:41:22<15:59:48,  3.45it/s] 47%|████▋     | 172949/371472 [2:41:22<15:35:34,  3.54it/s] 47%|████▋     | 172950/371472 [2:41:23<15:20:34,  3.59it/s] 47%|████▋     | 172951/371472 [2:41:23<16:08:13,  3.42it/s] 47%|████▋     | 172952/371472 [2:41:23<15:41:28,  3.51it/s] 47%|████▋     | 172953/371472 [2:41:23<15:33:02,  3.55it/s] 47%|████▋     | 172954/371472 [2:41:24<15:15:33,  3.61it/s] 47%|████▋     | 172955/371472 [2:41:24<14:55:07,  3.70it/s] 47%|████▋     | 172956/371472 [2:41:24<15:21:08,  3.59it/s] 47%|████▋     | 172957/371472 [2:41:24<15:26:28,  3.57it/s] 47%|████▋     | 172958/371472 [2:41:25<15:04:59,  3.66it/s] 47%|████▋     | 172959/371472 [2:41:25<15:07:55,  3.64it/s] 47%|████▋     | 172960/371472 [2:41:25<14:50:26,  3.72it/s]                                                            {'loss': 2.9763, 'learning_rate': 5.81212695813312e-07, 'epoch': 7.45}
 47%|████▋     | 172960/371472 [2:41:25<14:50:26,  3.72it/s] 47%|████▋     | 172961/371472 [2:41:26<14:46:07,  3.73it/s] 47%|████▋     | 172962/371472 [2:41:26<14:58:52,  3.68it/s] 47%|████▋     | 172963/371472 [2:41:26<15:06:10,  3.65it/s] 47%|████▋     | 172964/371472 [2:41:26<16:03:45,  3.43it/s] 47%|████▋     | 172965/371472 [2:41:27<15:46:05,  3.50it/s] 47%|████▋     | 172966/371472 [2:41:27<15:40:00,  3.52it/s] 47%|████▋     | 172967/371472 [2:41:27<15:45:04,  3.50it/s] 47%|████▋     | 172968/371472 [2:41:28<16:16:38,  3.39it/s] 47%|████▋     | 172969/371472 [2:41:28<18:11:09,  3.03it/s] 47%|████▋     | 172970/371472 [2:41:28<18:15:32,  3.02it/s] 47%|████▋     | 172971/371472 [2:41:29<17:07:01,  3.22it/s] 47%|████▋     | 172972/371472 [2:41:29<16:37:36,  3.32it/s] 47%|████▋     | 172973/371472 [2:41:29<16:23:43,  3.36it/s] 47%|████▋     | 172974/371472 [2:41:29<15:39:42,  3.52it/s] 47%|████▋     | 172975/371472 [2:41:30<15:45:27,  3.50it/s] 47%|████▋     | 172976/371472 [2:41:30<15:16:27,  3.61it/s] 47%|████▋     | 172977/371472 [2:41:30<15:34:48,  3.54it/s] 47%|████▋     | 172978/371472 [2:41:31<16:21:12,  3.37it/s] 47%|████▋     | 172979/371472 [2:41:31<16:13:05,  3.40it/s] 47%|████▋     | 172980/371472 [2:41:31<16:54:20,  3.26it/s]                                                            {'loss': 3.1714, 'learning_rate': 5.811642138378331e-07, 'epoch': 7.45}
 47%|████▋     | 172980/371472 [2:41:31<16:54:20,  3.26it/s] 47%|████▋     | 172981/371472 [2:41:31<16:23:10,  3.36it/s] 47%|████▋     | 172982/371472 [2:41:32<15:53:32,  3.47it/s] 47%|████▋     | 172983/371472 [2:41:32<15:21:17,  3.59it/s] 47%|████▋     | 172984/371472 [2:41:32<14:40:29,  3.76it/s] 47%|████▋     | 172985/371472 [2:41:33<14:54:53,  3.70it/s] 47%|████▋     | 172986/371472 [2:41:33<15:08:53,  3.64it/s] 47%|████▋     | 172987/371472 [2:41:33<15:36:12,  3.53it/s] 47%|████▋     | 172988/371472 [2:41:33<15:15:33,  3.61it/s] 47%|████▋     | 172989/371472 [2:41:34<15:10:26,  3.63it/s] 47%|████▋     | 172990/371472 [2:41:34<14:58:11,  3.68it/s] 47%|████▋     | 172991/371472 [2:41:34<15:56:26,  3.46it/s] 47%|████▋     | 172992/371472 [2:41:35<15:44:13,  3.50it/s] 47%|████▋     | 172993/371472 [2:41:35<15:19:31,  3.60it/s] 47%|████▋     | 172994/371472 [2:41:35<16:17:07,  3.39it/s] 47%|████▋     | 172995/371472 [2:41:35<15:50:29,  3.48it/s] 47%|████▋     | 172996/371472 [2:41:36<15:26:46,  3.57it/s] 47%|████▋     | 172997/371472 [2:41:36<15:21:11,  3.59it/s] 47%|████▋     | 172998/371472 [2:41:36<15:00:40,  3.67it/s] 47%|████▋     | 172999/371472 [2:41:36<15:17:00,  3.61it/s] 47%|████▋     | 173000/371472 [2:41:37<15:15:24,  3.61it/s]                                                            {'loss': 3.2193, 'learning_rate': 5.811157318623543e-07, 'epoch': 7.45}
 47%|████▋     | 173000/371472 [2:41:37<15:15:24,  3.61it/s] 47%|████▋     | 173001/371472 [2:41:37<15:38:44,  3.52it/s] 47%|████▋     | 173002/371472 [2:41:37<15:33:30,  3.54it/s] 47%|████▋     | 173003/371472 [2:41:38<15:35:22,  3.54it/s] 47%|████▋     | 173004/371472 [2:41:38<15:21:55,  3.59it/s] 47%|████▋     | 173005/371472 [2:41:38<15:58:56,  3.45it/s] 47%|████▋     | 173006/371472 [2:41:38<16:22:45,  3.37it/s] 47%|████▋     | 173007/371472 [2:41:39<15:51:32,  3.48it/s] 47%|████▋     | 173008/371472 [2:41:39<15:41:37,  3.51it/s] 47%|████▋     | 173009/371472 [2:41:39<15:33:49,  3.54it/s] 47%|████▋     | 173010/371472 [2:41:40<16:58:21,  3.25it/s] 47%|████▋     | 173011/371472 [2:41:40<16:53:27,  3.26it/s] 47%|████▋     | 173012/371472 [2:41:40<16:44:37,  3.29it/s] 47%|████▋     | 173013/371472 [2:41:41<16:05:49,  3.42it/s] 47%|████▋     | 173014/371472 [2:41:41<15:42:26,  3.51it/s] 47%|████▋     | 173015/371472 [2:41:41<15:13:06,  3.62it/s] 47%|████▋     | 173016/371472 [2:41:41<15:04:02,  3.66it/s] 47%|████▋     | 173017/371472 [2:41:42<15:05:50,  3.65it/s] 47%|████▋     | 173018/371472 [2:41:42<15:49:07,  3.48it/s] 47%|████▋     | 173019/371472 [2:41:42<15:20:46,  3.59it/s] 47%|████▋     | 173020/371472 [2:41:42<15:04:32,  3.66it/s]                                                            {'loss': 3.1411, 'learning_rate': 5.810672498868754e-07, 'epoch': 7.45}
 47%|████▋     | 173020/371472 [2:41:42<15:04:32,  3.66it/s] 47%|████▋     | 173021/371472 [2:41:43<15:13:39,  3.62it/s] 47%|████▋     | 173022/371472 [2:41:43<16:18:55,  3.38it/s] 47%|████▋     | 173023/371472 [2:41:43<16:54:38,  3.26it/s] 47%|████▋     | 173024/371472 [2:41:44<16:05:04,  3.43it/s] 47%|████▋     | 173025/371472 [2:41:44<15:51:05,  3.48it/s] 47%|████▋     | 173026/371472 [2:41:44<15:59:27,  3.45it/s] 47%|████▋     | 173027/371472 [2:41:44<15:19:25,  3.60it/s] 47%|████▋     | 173028/371472 [2:41:45<14:58:45,  3.68it/s] 47%|████▋     | 173029/371472 [2:41:45<15:14:59,  3.61it/s] 47%|████▋     | 173030/371472 [2:41:45<15:11:52,  3.63it/s] 47%|████▋     | 173031/371472 [2:41:46<16:37:44,  3.31it/s] 47%|████▋     | 173032/371472 [2:41:46<16:05:03,  3.43it/s] 47%|████▋     | 173033/371472 [2:41:46<16:54:52,  3.26it/s] 47%|████▋     | 173034/371472 [2:41:47<16:49:19,  3.28it/s] 47%|████▋     | 173035/371472 [2:41:47<16:32:59,  3.33it/s] 47%|████▋     | 173036/371472 [2:41:47<16:01:57,  3.44it/s] 47%|████▋     | 173037/371472 [2:41:47<15:52:53,  3.47it/s] 47%|████▋     | 173038/371472 [2:41:48<16:26:52,  3.35it/s] 47%|████▋     | 173039/371472 [2:41:48<15:42:09,  3.51it/s] 47%|████▋     | 173040/371472 [2:41:48<16:13:34,  3.40it/s]                                                            {'loss': 3.0933, 'learning_rate': 5.810187679113965e-07, 'epoch': 7.45}
 47%|████▋     | 173040/371472 [2:41:48<16:13:34,  3.40it/s] 47%|████▋     | 173041/371472 [2:41:49<15:32:56,  3.54it/s] 47%|████▋     | 173042/371472 [2:41:49<15:47:48,  3.49it/s] 47%|████▋     | 173043/371472 [2:41:49<15:32:40,  3.55it/s] 47%|████▋     | 173044/371472 [2:41:49<16:33:12,  3.33it/s] 47%|████▋     | 173045/371472 [2:41:50<16:07:48,  3.42it/s] 47%|████▋     | 173046/371472 [2:41:50<16:15:18,  3.39it/s] 47%|████▋     | 173047/371472 [2:41:50<15:47:02,  3.49it/s] 47%|████▋     | 173048/371472 [2:41:51<14:56:04,  3.69it/s] 47%|████▋     | 173049/371472 [2:41:51<14:55:30,  3.69it/s] 47%|████▋     | 173050/371472 [2:41:51<15:06:05,  3.65it/s] 47%|████▋     | 173051/371472 [2:41:51<15:07:41,  3.64it/s] 47%|████▋     | 173052/371472 [2:41:52<15:32:31,  3.55it/s] 47%|████▋     | 173053/371472 [2:41:52<15:26:55,  3.57it/s] 47%|████▋     | 173054/371472 [2:41:52<15:37:57,  3.53it/s] 47%|████▋     | 173055/371472 [2:41:53<15:56:33,  3.46it/s] 47%|████▋     | 173056/371472 [2:41:53<15:47:28,  3.49it/s] 47%|████▋     | 173057/371472 [2:41:53<15:19:46,  3.60it/s] 47%|████▋     | 173058/371472 [2:41:53<15:14:07,  3.62it/s] 47%|████▋     | 173059/371472 [2:41:54<15:19:18,  3.60it/s] 47%|████▋     | 173060/371472 [2:41:54<16:09:30,  3.41it/s]                                                            {'loss': 2.9799, 'learning_rate': 5.809702859359175e-07, 'epoch': 7.45}
 47%|████▋     | 173060/371472 [2:41:54<16:09:30,  3.41it/s] 47%|████▋     | 173061/371472 [2:41:54<17:06:49,  3.22it/s] 47%|████▋     | 173062/371472 [2:41:55<16:40:05,  3.31it/s] 47%|████▋     | 173063/371472 [2:41:55<16:19:54,  3.37it/s] 47%|████▋     | 173064/371472 [2:41:55<15:47:41,  3.49it/s] 47%|████▋     | 173065/371472 [2:41:55<15:08:12,  3.64it/s] 47%|████▋     | 173066/371472 [2:41:56<14:47:13,  3.73it/s] 47%|████▋     | 173067/371472 [2:41:56<14:38:07,  3.77it/s] 47%|████▋     | 173068/371472 [2:41:56<14:47:32,  3.73it/s] 47%|████▋     | 173069/371472 [2:41:56<14:42:41,  3.75it/s] 47%|████▋     | 173070/371472 [2:41:57<15:11:27,  3.63it/s] 47%|████▋     | 173071/371472 [2:41:57<15:49:31,  3.48it/s] 47%|████▋     | 173072/371472 [2:41:57<16:04:53,  3.43it/s] 47%|████▋     | 173073/371472 [2:41:58<15:39:03,  3.52it/s] 47%|████▋     | 173074/371472 [2:41:58<15:47:57,  3.49it/s] 47%|████▋     | 173075/371472 [2:41:58<16:34:36,  3.32it/s] 47%|████▋     | 173076/371472 [2:41:59<16:26:55,  3.35it/s] 47%|████▋     | 173077/371472 [2:41:59<16:52:46,  3.26it/s] 47%|████▋     | 173078/371472 [2:41:59<16:49:31,  3.28it/s] 47%|████▋     | 173079/371472 [2:41:59<16:31:05,  3.34it/s] 47%|████▋     | 173080/371472 [2:42:00<16:23:04,  3.36it/s]                                                            {'loss': 3.11, 'learning_rate': 5.809218039604387e-07, 'epoch': 7.45}
 47%|████▋     | 173080/371472 [2:42:00<16:23:04,  3.36it/s] 47%|████▋     | 173081/371472 [2:42:00<16:05:04,  3.43it/s] 47%|████▋     | 173082/371472 [2:42:00<16:21:55,  3.37it/s] 47%|████▋     | 173083/371472 [2:42:01<15:59:19,  3.45it/s] 47%|████▋     | 173084/371472 [2:42:01<15:32:26,  3.55it/s] 47%|████▋     | 173085/371472 [2:42:01<15:26:04,  3.57it/s] 47%|████▋     | 173086/371472 [2:42:01<15:32:05,  3.55it/s] 47%|████▋     | 173087/371472 [2:42:02<15:27:03,  3.57it/s] 47%|████▋     | 173088/371472 [2:42:02<15:14:55,  3.61it/s] 47%|████▋     | 173089/371472 [2:42:02<15:08:32,  3.64it/s] 47%|████▋     | 173090/371472 [2:42:03<14:52:13,  3.71it/s] 47%|████▋     | 173091/371472 [2:42:03<15:04:11,  3.66it/s] 47%|████▋     | 173092/371472 [2:42:03<15:52:04,  3.47it/s] 47%|████▋     | 173093/371472 [2:42:03<16:18:13,  3.38it/s] 47%|████▋     | 173094/371472 [2:42:04<16:16:19,  3.39it/s] 47%|████▋     | 173095/371472 [2:42:04<15:34:24,  3.54it/s] 47%|████▋     | 173096/371472 [2:42:04<15:41:34,  3.51it/s] 47%|████▋     | 173097/371472 [2:42:05<15:16:00,  3.61it/s] 47%|████▋     | 173098/371472 [2:42:05<16:11:34,  3.40it/s] 47%|████▋     | 173099/371472 [2:42:05<16:46:00,  3.29it/s] 47%|████▋     | 173100/371472 [2:42:05<16:35:21,  3.32it/s]                                                            {'loss': 3.0045, 'learning_rate': 5.808733219849598e-07, 'epoch': 7.46}
 47%|████▋     | 173100/371472 [2:42:05<16:35:21,  3.32it/s] 47%|████▋     | 173101/371472 [2:42:06<16:03:23,  3.43it/s] 47%|████▋     | 173102/371472 [2:42:06<15:44:11,  3.50it/s] 47%|████▋     | 173103/371472 [2:42:06<15:33:09,  3.54it/s] 47%|████▋     | 173104/371472 [2:42:07<15:11:51,  3.63it/s] 47%|████▋     | 173105/371472 [2:42:07<15:20:59,  3.59it/s] 47%|████▋     | 173106/371472 [2:42:07<15:02:32,  3.66it/s] 47%|████▋     | 173107/371472 [2:42:07<16:34:53,  3.32it/s] 47%|████▋     | 173108/371472 [2:42:08<16:17:19,  3.38it/s] 47%|████▋     | 173109/371472 [2:42:08<18:32:48,  2.97it/s] 47%|████▋     | 173110/371472 [2:42:08<18:05:10,  3.05it/s] 47%|████▋     | 173111/371472 [2:42:09<17:04:35,  3.23it/s] 47%|████▋     | 173112/371472 [2:42:09<16:54:45,  3.26it/s] 47%|████▋     | 173113/371472 [2:42:09<16:30:15,  3.34it/s] 47%|████▋     | 173114/371472 [2:42:10<16:22:07,  3.37it/s] 47%|████▋     | 173115/371472 [2:42:10<17:20:53,  3.18it/s] 47%|████▋     | 173116/371472 [2:42:10<16:30:17,  3.34it/s] 47%|████▋     | 173117/371472 [2:42:11<16:03:04,  3.43it/s] 47%|████▋     | 173118/371472 [2:42:11<16:48:27,  3.28it/s] 47%|████▋     | 173119/371472 [2:42:11<16:08:13,  3.41it/s] 47%|████▋     | 173120/371472 [2:42:11<15:19:31,  3.60it/s]                                                            {'loss': 3.1658, 'learning_rate': 5.808248400094809e-07, 'epoch': 7.46}
 47%|████▋     | 173120/371472 [2:42:11<15:19:31,  3.60it/s] 47%|████▋     | 173121/371472 [2:42:12<15:39:52,  3.52it/s] 47%|████▋     | 173122/371472 [2:42:12<15:49:49,  3.48it/s] 47%|████▋     | 173123/371472 [2:42:12<15:22:27,  3.58it/s] 47%|████▋     | 173124/371472 [2:42:13<15:42:17,  3.51it/s] 47%|████▋     | 173125/371472 [2:42:13<15:20:44,  3.59it/s] 47%|████▋     | 173126/371472 [2:42:13<15:08:10,  3.64it/s] 47%|████▋     | 173127/371472 [2:42:13<15:15:10,  3.61it/s] 47%|████▋     | 173128/371472 [2:42:14<14:48:49,  3.72it/s] 47%|████▋     | 173129/371472 [2:42:14<14:46:17,  3.73it/s] 47%|████▋     | 173130/371472 [2:42:14<14:45:15,  3.73it/s] 47%|████▋     | 173131/371472 [2:42:14<14:31:53,  3.79it/s] 47%|████▋     | 173132/371472 [2:42:15<14:33:48,  3.78it/s] 47%|████▋     | 173133/371472 [2:42:15<14:58:02,  3.68it/s] 47%|████▋     | 173134/371472 [2:42:15<14:28:19,  3.81it/s] 47%|████▋     | 173135/371472 [2:42:15<14:25:42,  3.82it/s] 47%|████▋     | 173136/371472 [2:42:16<14:39:15,  3.76it/s] 47%|████▋     | 173137/371472 [2:42:16<14:49:14,  3.72it/s] 47%|████▋     | 173138/371472 [2:42:16<14:48:28,  3.72it/s] 47%|████▋     | 173139/371472 [2:42:17<14:28:59,  3.80it/s] 47%|████▋     | 173140/371472 [2:42:17<14:33:32,  3.78it/s]                                                            {'loss': 2.8771, 'learning_rate': 5.80776358034002e-07, 'epoch': 7.46}
 47%|████▋     | 173140/371472 [2:42:17<14:33:32,  3.78it/s] 47%|████▋     | 173141/371472 [2:42:17<14:28:22,  3.81it/s] 47%|████▋     | 173142/371472 [2:42:17<16:31:46,  3.33it/s] 47%|████▋     | 173143/371472 [2:42:18<15:38:25,  3.52it/s] 47%|████▋     | 173144/371472 [2:42:18<15:44:16,  3.50it/s] 47%|████▋     | 173145/371472 [2:42:18<15:15:01,  3.61it/s] 47%|████▋     | 173146/371472 [2:42:19<16:16:58,  3.38it/s] 47%|████▋     | 173147/371472 [2:42:19<16:09:20,  3.41it/s] 47%|████▋     | 173148/371472 [2:42:19<16:20:52,  3.37it/s] 47%|████▋     | 173149/371472 [2:42:19<16:08:39,  3.41it/s] 47%|████▋     | 173150/371472 [2:42:20<16:21:32,  3.37it/s] 47%|████▋     | 173151/371472 [2:42:20<16:02:40,  3.43it/s] 47%|████▋     | 173152/371472 [2:42:20<15:42:01,  3.51it/s] 47%|████▋     | 173153/371472 [2:42:21<16:26:17,  3.35it/s] 47%|████▋     | 173154/371472 [2:42:21<15:53:25,  3.47it/s] 47%|████▋     | 173155/371472 [2:42:21<15:32:18,  3.55it/s] 47%|████▋     | 173156/371472 [2:42:21<16:02:45,  3.43it/s] 47%|████▋     | 173157/371472 [2:42:22<15:36:36,  3.53it/s] 47%|████▋     | 173158/371472 [2:42:22<15:25:30,  3.57it/s] 47%|████▋     | 173159/371472 [2:42:22<15:57:32,  3.45it/s] 47%|████▋     | 173160/371472 [2:42:23<16:45:54,  3.29it/s]                                                            {'loss': 2.8324, 'learning_rate': 5.807278760585232e-07, 'epoch': 7.46}
 47%|████▋     | 173160/371472 [2:42:23<16:45:54,  3.29it/s] 47%|████▋     | 173161/371472 [2:42:23<16:07:11,  3.42it/s] 47%|████▋     | 173162/371472 [2:42:23<15:18:11,  3.60it/s] 47%|████▋     | 173163/371472 [2:42:23<16:20:36,  3.37it/s] 47%|████▋     | 173164/371472 [2:42:24<16:04:26,  3.43it/s] 47%|████▋     | 173165/371472 [2:42:24<15:26:15,  3.57it/s] 47%|████▋     | 173166/371472 [2:42:24<16:30:35,  3.34it/s] 47%|████▋     | 173167/371472 [2:42:25<15:52:23,  3.47it/s] 47%|████▋     | 173168/371472 [2:42:25<15:16:09,  3.61it/s] 47%|████▋     | 173169/371472 [2:42:25<15:23:32,  3.58it/s] 47%|████▋     | 173170/371472 [2:42:26<16:23:40,  3.36it/s] 47%|████▋     | 173171/371472 [2:42:26<16:21:47,  3.37it/s] 47%|████▋     | 173172/371472 [2:42:26<15:57:31,  3.45it/s] 47%|████▋     | 173173/371472 [2:42:26<15:45:03,  3.50it/s] 47%|████▋     | 173174/371472 [2:42:27<15:17:50,  3.60it/s] 47%|████▋     | 173175/371472 [2:42:27<15:14:00,  3.62it/s] 47%|████▋     | 173176/371472 [2:42:27<15:13:19,  3.62it/s] 47%|████▋     | 173177/371472 [2:42:27<15:28:27,  3.56it/s] 47%|████▋     | 173178/371472 [2:42:28<16:12:39,  3.40it/s] 47%|████▋     | 173179/371472 [2:42:28<16:03:45,  3.43it/s] 47%|████▋     | 173180/371472 [2:42:28<16:05:07,  3.42it/s]                                                            {'loss': 2.9832, 'learning_rate': 5.806793940830442e-07, 'epoch': 7.46}
 47%|████▋     | 173180/371472 [2:42:28<16:05:07,  3.42it/s] 47%|████▋     | 173181/371472 [2:42:29<16:21:38,  3.37it/s] 47%|████▋     | 173182/371472 [2:42:29<15:46:00,  3.49it/s] 47%|████▋     | 173183/371472 [2:42:29<15:23:51,  3.58it/s] 47%|████▋     | 173184/371472 [2:42:29<15:41:32,  3.51it/s] 47%|████▋     | 173185/371472 [2:42:30<15:14:51,  3.61it/s] 47%|████▋     | 173186/371472 [2:42:30<15:03:03,  3.66it/s] 47%|████▋     | 173187/371472 [2:42:30<15:56:41,  3.45it/s] 47%|████▋     | 173188/371472 [2:42:31<15:06:26,  3.65it/s] 47%|████▋     | 173189/371472 [2:42:31<15:11:56,  3.62it/s] 47%|████▋     | 173190/371472 [2:42:31<16:00:40,  3.44it/s] 47%|████▋     | 173191/371472 [2:42:31<16:04:38,  3.43it/s] 47%|████▋     | 173192/371472 [2:42:32<16:36:38,  3.32it/s] 47%|████▋     | 173193/371472 [2:42:32<15:54:03,  3.46it/s] 47%|████▋     | 173194/371472 [2:42:32<15:38:23,  3.52it/s] 47%|████▋     | 173195/371472 [2:42:33<15:32:11,  3.55it/s] 47%|████▋     | 173196/371472 [2:42:33<14:51:30,  3.71it/s] 47%|████▋     | 173197/371472 [2:42:33<14:55:05,  3.69it/s] 47%|████▋     | 173198/371472 [2:42:34<16:38:53,  3.31it/s] 47%|████▋     | 173199/371472 [2:42:34<16:39:09,  3.31it/s] 47%|████▋     | 173200/371472 [2:42:34<16:35:31,  3.32it/s]                                                            {'loss': 3.118, 'learning_rate': 5.806309121075652e-07, 'epoch': 7.46}
 47%|████▋     | 173200/371472 [2:42:34<16:35:31,  3.32it/s] 47%|████▋     | 173201/371472 [2:42:34<17:03:20,  3.23it/s] 47%|████▋     | 173202/371472 [2:42:35<17:06:22,  3.22it/s] 47%|████▋     | 173203/371472 [2:42:35<16:49:20,  3.27it/s] 47%|████▋     | 173204/371472 [2:42:35<17:45:05,  3.10it/s] 47%|████▋     | 173205/371472 [2:42:36<16:22:34,  3.36it/s] 47%|████▋     | 173206/371472 [2:42:36<15:42:27,  3.51it/s] 47%|████▋     | 173207/371472 [2:42:36<16:16:14,  3.38it/s] 47%|████▋     | 173208/371472 [2:42:36<15:34:36,  3.54it/s] 47%|████▋     | 173209/371472 [2:42:37<16:05:52,  3.42it/s] 47%|████▋     | 173210/371472 [2:42:37<15:42:49,  3.50it/s] 47%|████▋     | 173211/371472 [2:42:37<15:13:27,  3.62it/s] 47%|████▋     | 173212/371472 [2:42:38<15:22:36,  3.58it/s] 47%|████▋     | 173213/371472 [2:42:38<16:28:15,  3.34it/s] 47%|████▋     | 173214/371472 [2:42:38<16:05:12,  3.42it/s] 47%|████▋     | 173215/371472 [2:42:38<15:48:45,  3.48it/s] 47%|████▋     | 173216/371472 [2:42:39<16:02:19,  3.43it/s] 47%|████▋     | 173217/371472 [2:42:39<15:32:24,  3.54it/s] 47%|████▋     | 173218/371472 [2:42:39<16:12:56,  3.40it/s] 47%|████▋     | 173219/371472 [2:42:40<15:25:18,  3.57it/s] 47%|████▋     | 173220/371472 [2:42:40<16:19:41,  3.37it/s]                                                            {'loss': 3.2805, 'learning_rate': 5.805824301320864e-07, 'epoch': 7.46}
 47%|████▋     | 173220/371472 [2:42:40<16:19:41,  3.37it/s] 47%|████▋     | 173221/371472 [2:42:40<15:44:59,  3.50it/s] 47%|████▋     | 173222/371472 [2:42:41<15:41:45,  3.51it/s] 47%|████▋     | 173223/371472 [2:42:41<16:15:34,  3.39it/s] 47%|████▋     | 173224/371472 [2:42:41<16:37:59,  3.31it/s] 47%|████▋     | 173225/371472 [2:42:41<16:48:04,  3.28it/s] 47%|████▋     | 173226/371472 [2:42:42<16:30:38,  3.34it/s] 47%|████▋     | 173227/371472 [2:42:42<16:21:22,  3.37it/s] 47%|████▋     | 173228/371472 [2:42:42<16:57:16,  3.25it/s] 47%|████▋     | 173229/371472 [2:42:43<16:58:08,  3.25it/s] 47%|████▋     | 173230/371472 [2:42:43<16:08:37,  3.41it/s] 47%|████▋     | 173231/371472 [2:42:43<15:50:13,  3.48it/s] 47%|████▋     | 173232/371472 [2:42:43<14:58:39,  3.68it/s] 47%|████▋     | 173233/371472 [2:42:44<14:42:29,  3.74it/s] 47%|████▋     | 173234/371472 [2:42:44<15:03:26,  3.66it/s] 47%|████▋     | 173235/371472 [2:42:44<14:56:18,  3.69it/s] 47%|████▋     | 173236/371472 [2:42:44<14:27:46,  3.81it/s] 47%|████▋     | 173237/371472 [2:42:45<14:45:26,  3.73it/s] 47%|████▋     | 173238/371472 [2:42:45<15:08:07,  3.64it/s] 47%|████▋     | 173239/371472 [2:42:45<15:34:36,  3.54it/s] 47%|████▋     | 173240/371472 [2:42:46<15:29:03,  3.56it/s]                                                            {'loss': 3.1266, 'learning_rate': 5.805339481566076e-07, 'epoch': 7.46}
 47%|████▋     | 173240/371472 [2:42:46<15:29:03,  3.56it/s] 47%|████▋     | 173241/371472 [2:42:46<15:18:21,  3.60it/s] 47%|████▋     | 173242/371472 [2:42:46<15:11:54,  3.62it/s] 47%|████▋     | 173243/371472 [2:42:46<15:11:54,  3.62it/s] 47%|████▋     | 173244/371472 [2:42:47<14:44:40,  3.73it/s] 47%|████▋     | 173245/371472 [2:42:47<14:29:27,  3.80it/s] 47%|████▋     | 173246/371472 [2:42:47<14:41:25,  3.75it/s] 47%|████▋     | 173247/371472 [2:42:47<14:30:10,  3.80it/s] 47%|████▋     | 173248/371472 [2:42:48<15:21:57,  3.58it/s] 47%|████▋     | 173249/371472 [2:42:48<15:04:21,  3.65it/s] 47%|████▋     | 173250/371472 [2:42:48<14:53:53,  3.70it/s] 47%|████▋     | 173251/371472 [2:42:49<14:48:11,  3.72it/s] 47%|████▋     | 173252/371472 [2:42:49<15:19:16,  3.59it/s] 47%|████▋     | 173253/371472 [2:42:49<14:57:49,  3.68it/s] 47%|████▋     | 173254/371472 [2:42:49<15:11:35,  3.62it/s] 47%|████▋     | 173255/371472 [2:42:50<15:18:46,  3.60it/s] 47%|████▋     | 173256/371472 [2:42:50<14:44:40,  3.73it/s] 47%|████▋     | 173257/371472 [2:42:50<14:18:31,  3.85it/s] 47%|████▋     | 173258/371472 [2:42:51<14:56:42,  3.68it/s] 47%|████▋     | 173259/371472 [2:42:51<14:40:40,  3.75it/s] 47%|████▋     | 173260/371472 [2:42:51<14:21:52,  3.83it/s]                                                            {'loss': 3.0319, 'learning_rate': 5.804854661811287e-07, 'epoch': 7.46}
 47%|████▋     | 173260/371472 [2:42:51<14:21:52,  3.83it/s] 47%|████▋     | 173261/371472 [2:42:51<15:44:40,  3.50it/s] 47%|████▋     | 173262/371472 [2:42:52<15:32:26,  3.54it/s] 47%|████▋     | 173263/371472 [2:42:52<16:06:15,  3.42it/s] 47%|████▋     | 173264/371472 [2:42:52<15:45:13,  3.49it/s] 47%|████▋     | 173265/371472 [2:42:52<15:06:14,  3.65it/s] 47%|████▋     | 173266/371472 [2:42:53<15:05:53,  3.65it/s] 47%|████▋     | 173267/371472 [2:42:53<14:55:56,  3.69it/s] 47%|████▋     | 173268/371472 [2:42:53<14:55:55,  3.69it/s] 47%|████▋     | 173269/371472 [2:42:54<15:02:16,  3.66it/s] 47%|████▋     | 173270/371472 [2:42:54<15:16:28,  3.60it/s] 47%|████▋     | 173271/371472 [2:42:54<15:22:26,  3.58it/s] 47%|████▋     | 173272/371472 [2:42:54<15:38:57,  3.52it/s] 47%|████▋     | 173273/371472 [2:42:55<15:24:13,  3.57it/s] 47%|████▋     | 173274/371472 [2:42:55<15:09:44,  3.63it/s] 47%|████▋     | 173275/371472 [2:42:55<16:29:40,  3.34it/s] 47%|████▋     | 173276/371472 [2:42:56<16:33:04,  3.33it/s] 47%|████▋     | 173277/371472 [2:42:56<16:37:57,  3.31it/s] 47%|████▋     | 173278/371472 [2:42:56<16:32:55,  3.33it/s] 47%|████▋     | 173279/371472 [2:42:56<16:12:18,  3.40it/s] 47%|████▋     | 173280/371472 [2:42:57<16:39:08,  3.31it/s]                                                            {'loss': 3.1568, 'learning_rate': 5.804369842056497e-07, 'epoch': 7.46}
 47%|████▋     | 173280/371472 [2:42:57<16:39:08,  3.31it/s] 47%|████▋     | 173281/371472 [2:42:57<16:12:40,  3.40it/s] 47%|████▋     | 173282/371472 [2:42:57<16:57:46,  3.25it/s] 47%|████▋     | 173283/371472 [2:42:58<16:03:28,  3.43it/s] 47%|████▋     | 173284/371472 [2:42:58<15:49:50,  3.48it/s] 47%|████▋     | 173285/371472 [2:42:58<16:13:00,  3.39it/s] 47%|████▋     | 173286/371472 [2:42:59<16:05:53,  3.42it/s] 47%|████▋     | 173287/371472 [2:42:59<15:21:21,  3.58it/s] 47%|████▋     | 173288/371472 [2:42:59<14:53:08,  3.70it/s] 47%|████▋     | 173289/371472 [2:42:59<14:39:51,  3.75it/s] 47%|████▋     | 173290/371472 [2:43:00<14:46:17,  3.73it/s] 47%|████▋     | 173291/371472 [2:43:00<14:49:17,  3.71it/s] 47%|████▋     | 173292/371472 [2:43:00<14:49:00,  3.72it/s] 47%|████▋     | 173293/371472 [2:43:00<14:32:04,  3.79it/s] 47%|████▋     | 173294/371472 [2:43:01<14:29:23,  3.80it/s] 47%|████▋     | 173295/371472 [2:43:01<14:34:34,  3.78it/s] 47%|████▋     | 173296/371472 [2:43:01<14:56:21,  3.68it/s] 47%|████▋     | 173297/371472 [2:43:01<14:51:07,  3.71it/s] 47%|████▋     | 173298/371472 [2:43:02<15:31:20,  3.55it/s] 47%|████▋     | 173299/371472 [2:43:02<14:51:35,  3.70it/s] 47%|████▋     | 173300/371472 [2:43:02<16:31:48,  3.33it/s]                                                            {'loss': 3.213, 'learning_rate': 5.803885022301708e-07, 'epoch': 7.46}
 47%|████▋     | 173300/371472 [2:43:02<16:31:48,  3.33it/s] 47%|████▋     | 173301/371472 [2:43:03<16:42:22,  3.30it/s] 47%|████▋     | 173302/371472 [2:43:03<16:06:35,  3.42it/s] 47%|████▋     | 173303/371472 [2:43:03<15:45:38,  3.49it/s] 47%|████▋     | 173304/371472 [2:43:04<16:04:48,  3.42it/s] 47%|████▋     | 173305/371472 [2:43:04<15:55:26,  3.46it/s] 47%|████▋     | 173306/371472 [2:43:04<15:35:26,  3.53it/s] 47%|████▋     | 173307/371472 [2:43:04<16:08:20,  3.41it/s] 47%|████▋     | 173308/371472 [2:43:05<15:44:43,  3.50it/s] 47%|████▋     | 173309/371472 [2:43:05<16:28:49,  3.34it/s] 47%|████▋     | 173310/371472 [2:43:05<16:46:23,  3.28it/s] 47%|████▋     | 173311/371472 [2:43:06<16:05:36,  3.42it/s] 47%|████▋     | 173312/371472 [2:43:06<17:12:07,  3.20it/s] 47%|████▋     | 173313/371472 [2:43:06<17:45:59,  3.10it/s] 47%|████▋     | 173314/371472 [2:43:07<17:14:16,  3.19it/s] 47%|████▋     | 173315/371472 [2:43:07<17:46:16,  3.10it/s] 47%|████▋     | 173316/371472 [2:43:07<17:09:50,  3.21it/s] 47%|████▋     | 173317/371472 [2:43:08<16:50:43,  3.27it/s] 47%|████▋     | 173318/371472 [2:43:08<15:59:07,  3.44it/s] 47%|████▋     | 173319/371472 [2:43:08<16:47:54,  3.28it/s] 47%|████▋     | 173320/371472 [2:43:08<15:50:27,  3.47it/s]                                                            {'loss': 3.1306, 'learning_rate': 5.80340020254692e-07, 'epoch': 7.47}
 47%|████▋     | 173320/371472 [2:43:08<15:50:27,  3.47it/s] 47%|████▋     | 173321/371472 [2:43:09<16:10:05,  3.40it/s] 47%|████▋     | 173322/371472 [2:43:09<15:40:58,  3.51it/s] 47%|████▋     | 173323/371472 [2:43:09<15:49:19,  3.48it/s] 47%|████▋     | 173324/371472 [2:43:10<16:13:30,  3.39it/s] 47%|████▋     | 173325/371472 [2:43:10<15:53:07,  3.46it/s] 47%|████▋     | 173326/371472 [2:43:10<16:56:46,  3.25it/s] 47%|████▋     | 173327/371472 [2:43:10<16:44:20,  3.29it/s] 47%|████▋     | 173328/371472 [2:43:11<17:16:29,  3.19it/s] 47%|████▋     | 173329/371472 [2:43:11<17:13:48,  3.19it/s] 47%|████▋     | 173330/371472 [2:43:11<16:12:26,  3.40it/s] 47%|████▋     | 173331/371472 [2:43:12<15:35:30,  3.53it/s] 47%|████▋     | 173332/371472 [2:43:12<16:27:50,  3.34it/s] 47%|████▋     | 173333/371472 [2:43:12<16:49:56,  3.27it/s] 47%|████▋     | 173334/371472 [2:43:13<15:56:49,  3.45it/s] 47%|████▋     | 173335/371472 [2:43:13<15:50:53,  3.47it/s] 47%|████▋     | 173336/371472 [2:43:13<15:27:58,  3.56it/s] 47%|████▋     | 173337/371472 [2:43:13<15:47:29,  3.49it/s] 47%|████▋     | 173338/371472 [2:43:14<15:43:17,  3.50it/s] 47%|████▋     | 173339/371472 [2:43:14<15:31:47,  3.54it/s] 47%|████▋     | 173340/371472 [2:43:14<15:12:40,  3.62it/s]                                                            {'loss': 3.0205, 'learning_rate': 5.802915382792131e-07, 'epoch': 7.47}
 47%|████▋     | 173340/371472 [2:43:14<15:12:40,  3.62it/s] 47%|████▋     | 173341/371472 [2:43:15<16:07:41,  3.41it/s] 47%|████▋     | 173342/371472 [2:43:15<16:14:21,  3.39it/s] 47%|████▋     | 173343/371472 [2:43:15<17:28:54,  3.15it/s] 47%|████▋     | 173344/371472 [2:43:15<16:28:04,  3.34it/s] 47%|████▋     | 173345/371472 [2:43:16<15:46:32,  3.49it/s] 47%|████▋     | 173346/371472 [2:43:16<15:33:08,  3.54it/s] 47%|████▋     | 173347/371472 [2:43:16<15:29:25,  3.55it/s] 47%|████▋     | 173348/371472 [2:43:16<14:51:04,  3.71it/s] 47%|████▋     | 173349/371472 [2:43:17<15:50:44,  3.47it/s] 47%|████▋     | 173350/371472 [2:43:17<15:38:27,  3.52it/s] 47%|████▋     | 173351/371472 [2:43:17<15:45:36,  3.49it/s] 47%|████▋     | 173352/371472 [2:43:18<16:07:52,  3.41it/s] 47%|████▋     | 173353/371472 [2:43:18<15:31:52,  3.54it/s] 47%|████▋     | 173354/371472 [2:43:18<16:20:53,  3.37it/s] 47%|████▋     | 173355/371472 [2:43:19<15:55:30,  3.46it/s] 47%|████▋     | 173356/371472 [2:43:19<15:54:53,  3.46it/s] 47%|████▋     | 173357/371472 [2:43:19<16:40:42,  3.30it/s] 47%|████▋     | 173358/371472 [2:43:19<16:03:15,  3.43it/s] 47%|████▋     | 173359/371472 [2:43:20<17:19:38,  3.18it/s] 47%|████▋     | 173360/371472 [2:43:20<16:44:12,  3.29it/s]                                                            {'loss': 2.8578, 'learning_rate': 5.802430563037341e-07, 'epoch': 7.47}
 47%|████▋     | 173360/371472 [2:43:20<16:44:12,  3.29it/s] 47%|████▋     | 173361/371472 [2:43:20<15:56:36,  3.45it/s] 47%|████▋     | 173362/371472 [2:43:21<15:40:46,  3.51it/s] 47%|████▋     | 173363/371472 [2:43:21<15:25:29,  3.57it/s] 47%|████▋     | 173364/371472 [2:43:21<17:42:59,  3.11it/s] 47%|████▋     | 173365/371472 [2:43:22<16:49:20,  3.27it/s] 47%|████▋     | 173366/371472 [2:43:22<16:12:41,  3.39it/s] 47%|████▋     | 173367/371472 [2:43:22<16:20:22,  3.37it/s] 47%|████▋     | 173368/371472 [2:43:22<15:49:48,  3.48it/s] 47%|████▋     | 173369/371472 [2:43:23<14:57:10,  3.68it/s] 47%|████▋     | 173370/371472 [2:43:23<14:35:42,  3.77it/s] 47%|████▋     | 173371/371472 [2:43:23<15:46:35,  3.49it/s] 47%|████▋     | 173372/371472 [2:43:23<15:02:11,  3.66it/s] 47%|████▋     | 173373/371472 [2:43:24<15:20:46,  3.59it/s] 47%|████▋     | 173374/371472 [2:43:24<15:25:50,  3.57it/s] 47%|████▋     | 173375/371472 [2:43:24<15:03:21,  3.65it/s] 47%|████▋     | 173376/371472 [2:43:25<15:10:23,  3.63it/s] 47%|████▋     | 173377/371472 [2:43:25<15:16:49,  3.60it/s] 47%|████▋     | 173378/371472 [2:43:25<16:05:37,  3.42it/s] 47%|████▋     | 173379/371472 [2:43:25<15:10:12,  3.63it/s] 47%|████▋     | 173380/371472 [2:43:26<14:54:25,  3.69it/s]                                                            {'loss': 3.08, 'learning_rate': 5.801945743282553e-07, 'epoch': 7.47}
 47%|████▋     | 173380/371472 [2:43:26<14:54:25,  3.69it/s] 47%|████▋     | 173381/371472 [2:43:26<14:38:06,  3.76it/s] 47%|████▋     | 173382/371472 [2:43:26<14:43:31,  3.74it/s] 47%|████▋     | 173383/371472 [2:43:27<15:48:19,  3.48it/s] 47%|████▋     | 173384/371472 [2:43:27<15:51:49,  3.47it/s] 47%|████▋     | 173385/371472 [2:43:27<15:41:01,  3.51it/s] 47%|████▋     | 173386/371472 [2:43:28<17:13:11,  3.20it/s] 47%|████▋     | 173387/371472 [2:43:28<16:21:56,  3.36it/s] 47%|████▋     | 173388/371472 [2:43:28<16:00:28,  3.44it/s] 47%|████▋     | 173389/371472 [2:43:28<15:11:35,  3.62it/s] 47%|████▋     | 173390/371472 [2:43:29<14:35:56,  3.77it/s] 47%|████▋     | 173391/371472 [2:43:29<15:26:44,  3.56it/s] 47%|████▋     | 173392/371472 [2:43:29<15:01:17,  3.66it/s] 47%|████▋     | 173393/371472 [2:43:29<14:59:50,  3.67it/s] 47%|████▋     | 173394/371472 [2:43:30<15:00:28,  3.67it/s] 47%|████▋     | 173395/371472 [2:43:30<15:04:48,  3.65it/s] 47%|████▋     | 173396/371472 [2:43:30<15:45:01,  3.49it/s] 47%|████▋     | 173397/371472 [2:43:31<15:43:57,  3.50it/s] 47%|████▋     | 173398/371472 [2:43:31<15:04:47,  3.65it/s] 47%|████▋     | 173399/371472 [2:43:31<15:11:20,  3.62it/s] 47%|████▋     | 173400/371472 [2:43:31<15:35:42,  3.53it/s]                                                            {'loss': 3.073, 'learning_rate': 5.801460923527764e-07, 'epoch': 7.47}
 47%|████▋     | 173400/371472 [2:43:31<15:35:42,  3.53it/s] 47%|████▋     | 173401/371472 [2:43:32<15:49:00,  3.48it/s] 47%|████▋     | 173402/371472 [2:43:32<15:33:22,  3.54it/s] 47%|████▋     | 173403/371472 [2:43:32<15:30:36,  3.55it/s] 47%|████▋     | 173404/371472 [2:43:32<14:54:38,  3.69it/s] 47%|████▋     | 173405/371472 [2:43:33<15:03:31,  3.65it/s] 47%|████▋     | 173406/371472 [2:43:33<14:38:35,  3.76it/s] 47%|████▋     | 173407/371472 [2:43:33<15:18:16,  3.59it/s] 47%|████▋     | 173408/371472 [2:43:34<15:05:55,  3.64it/s] 47%|████▋     | 173409/371472 [2:43:34<14:35:30,  3.77it/s] 47%|████▋     | 173410/371472 [2:43:34<14:53:00,  3.70it/s] 47%|████▋     | 173411/371472 [2:43:34<15:10:29,  3.63it/s] 47%|████▋     | 173412/371472 [2:43:35<16:21:10,  3.36it/s] 47%|████▋     | 173413/371472 [2:43:35<15:38:31,  3.52it/s] 47%|████▋     | 173414/371472 [2:43:35<15:31:44,  3.54it/s] 47%|████▋     | 173415/371472 [2:43:36<16:19:42,  3.37it/s] 47%|████▋     | 173416/371472 [2:43:36<15:47:55,  3.48it/s] 47%|████▋     | 173417/371472 [2:43:36<15:25:27,  3.57it/s] 47%|████▋     | 173418/371472 [2:43:36<15:09:37,  3.63it/s] 47%|████▋     | 173419/371472 [2:43:37<14:57:07,  3.68it/s] 47%|████▋     | 173420/371472 [2:43:37<15:21:21,  3.58it/s]                                                            {'loss': 3.2624, 'learning_rate': 5.800976103772975e-07, 'epoch': 7.47}
 47%|████▋     | 173420/371472 [2:43:37<15:21:21,  3.58it/s] 47%|████▋     | 173421/371472 [2:43:37<17:54:37,  3.07it/s] 47%|████▋     | 173422/371472 [2:43:38<17:53:19,  3.08it/s] 47%|████▋     | 173423/371472 [2:43:38<17:19:49,  3.17it/s] 47%|████▋     | 173424/371472 [2:43:38<17:35:07,  3.13it/s] 47%|████▋     | 173425/371472 [2:43:39<18:06:14,  3.04it/s] 47%|████▋     | 173426/371472 [2:43:39<17:37:55,  3.12it/s] 47%|████▋     | 173427/371472 [2:43:39<17:22:12,  3.17it/s] 47%|████▋     | 173428/371472 [2:43:40<17:05:18,  3.22it/s] 47%|████▋     | 173429/371472 [2:43:40<16:30:10,  3.33it/s] 47%|████▋     | 173430/371472 [2:43:40<16:11:12,  3.40it/s] 47%|████▋     | 173431/371472 [2:43:40<16:54:11,  3.25it/s] 47%|████▋     | 173432/371472 [2:43:41<16:30:14,  3.33it/s] 47%|████▋     | 173433/371472 [2:43:41<15:39:20,  3.51it/s] 47%|████▋     | 173434/371472 [2:43:41<15:18:56,  3.59it/s] 47%|████▋     | 173435/371472 [2:43:42<15:20:42,  3.58it/s] 47%|████▋     | 173436/371472 [2:43:42<16:43:12,  3.29it/s] 47%|████▋     | 173437/371472 [2:43:42<15:56:57,  3.45it/s] 47%|████▋     | 173438/371472 [2:43:43<17:46:40,  3.09it/s] 47%|████▋     | 173439/371472 [2:43:43<17:03:55,  3.22it/s] 47%|████▋     | 173440/371472 [2:43:43<16:07:10,  3.41it/s]                                                            {'loss': 2.952, 'learning_rate': 5.800491284018185e-07, 'epoch': 7.47}
 47%|████▋     | 173440/371472 [2:43:43<16:07:10,  3.41it/s] 47%|████▋     | 173441/371472 [2:43:43<16:07:02,  3.41it/s] 47%|████▋     | 173442/371472 [2:43:44<15:10:55,  3.62it/s] 47%|████▋     | 173443/371472 [2:43:44<14:45:47,  3.73it/s] 47%|████▋     | 173444/371472 [2:43:44<14:18:20,  3.85it/s] 47%|████▋     | 173445/371472 [2:43:44<15:45:21,  3.49it/s] 47%|████▋     | 173446/371472 [2:43:45<15:32:10,  3.54it/s] 47%|████▋     | 173447/371472 [2:43:45<15:50:10,  3.47it/s] 47%|████▋     | 173448/371472 [2:43:45<15:16:12,  3.60it/s] 47%|████▋     | 173449/371472 [2:43:46<15:12:15,  3.62it/s] 47%|████▋     | 173450/371472 [2:43:46<15:24:09,  3.57it/s] 47%|████▋     | 173451/371472 [2:43:46<15:21:23,  3.58it/s] 47%|████▋     | 173452/371472 [2:43:46<15:11:15,  3.62it/s] 47%|████▋     | 173453/371472 [2:43:47<15:11:14,  3.62it/s] 47%|████▋     | 173454/371472 [2:43:47<16:39:53,  3.30it/s] 47%|████▋     | 173455/371472 [2:43:47<15:40:55,  3.51it/s] 47%|████▋     | 173456/371472 [2:43:48<15:07:45,  3.64it/s] 47%|████▋     | 173457/371472 [2:43:48<14:58:50,  3.67it/s] 47%|████▋     | 173458/371472 [2:43:48<15:07:50,  3.64it/s] 47%|████▋     | 173459/371472 [2:43:48<14:42:23,  3.74it/s] 47%|████▋     | 173460/371472 [2:43:49<15:53:23,  3.46it/s]                                                            {'loss': 3.1947, 'learning_rate': 5.800006464263397e-07, 'epoch': 7.47}
 47%|████▋     | 173460/371472 [2:43:49<15:53:23,  3.46it/s] 47%|████▋     | 173461/371472 [2:43:49<15:07:26,  3.64it/s] 47%|████▋     | 173462/371472 [2:43:49<15:04:51,  3.65it/s] 47%|████▋     | 173463/371472 [2:43:49<15:06:44,  3.64it/s] 47%|████▋     | 173464/371472 [2:43:50<14:33:22,  3.78it/s] 47%|████▋     | 173465/371472 [2:43:50<16:27:10,  3.34it/s] 47%|████▋     | 173466/371472 [2:43:50<15:56:53,  3.45it/s] 47%|████▋     | 173467/371472 [2:43:51<15:22:55,  3.58it/s] 47%|████▋     | 173468/371472 [2:43:51<15:14:16,  3.61it/s] 47%|████▋     | 173469/371472 [2:43:51<14:56:55,  3.68it/s] 47%|████▋     | 173470/371472 [2:43:51<14:47:58,  3.72it/s] 47%|████▋     | 173471/371472 [2:43:52<15:44:40,  3.49it/s] 47%|████▋     | 173472/371472 [2:43:52<14:59:08,  3.67it/s] 47%|████▋     | 173473/371472 [2:43:52<14:47:55,  3.72it/s] 47%|████▋     | 173474/371472 [2:43:53<15:41:33,  3.50it/s] 47%|████▋     | 173475/371472 [2:43:53<15:24:38,  3.57it/s] 47%|████▋     | 173476/371472 [2:43:53<15:51:30,  3.47it/s] 47%|████▋     | 173477/371472 [2:43:53<15:25:54,  3.56it/s] 47%|████▋     | 173478/371472 [2:43:54<15:07:33,  3.64it/s] 47%|████▋     | 173479/371472 [2:43:54<16:34:10,  3.32it/s] 47%|████▋     | 173480/371472 [2:43:54<17:00:47,  3.23it/s]                                                            {'loss': 3.1786, 'learning_rate': 5.799521644508608e-07, 'epoch': 7.47}
 47%|████▋     | 173480/371472 [2:43:54<17:00:47,  3.23it/s] 47%|████▋     | 173481/371472 [2:43:55<16:22:43,  3.36it/s] 47%|████▋     | 173482/371472 [2:43:55<15:28:47,  3.55it/s] 47%|████▋     | 173483/371472 [2:43:55<16:20:17,  3.37it/s] 47%|████▋     | 173484/371472 [2:43:55<15:52:19,  3.46it/s] 47%|████▋     | 173485/371472 [2:43:56<15:22:21,  3.58it/s] 47%|████▋     | 173486/371472 [2:43:56<15:02:39,  3.66it/s] 47%|████▋     | 173487/371472 [2:43:56<15:58:13,  3.44it/s] 47%|████▋     | 173488/371472 [2:43:57<15:39:51,  3.51it/s] 47%|████▋     | 173489/371472 [2:43:57<15:34:37,  3.53it/s] 47%|████▋     | 173490/371472 [2:43:57<15:24:24,  3.57it/s] 47%|████▋     | 173491/371472 [2:43:57<15:06:34,  3.64it/s] 47%|████▋     | 173492/371472 [2:43:58<15:16:47,  3.60it/s] 47%|████▋     | 173493/371472 [2:43:58<15:23:33,  3.57it/s] 47%|████▋     | 173494/371472 [2:43:58<15:31:20,  3.54it/s] 47%|████▋     | 173495/371472 [2:43:59<16:27:39,  3.34it/s] 47%|████▋     | 173496/371472 [2:43:59<16:08:18,  3.41it/s] 47%|████▋     | 173497/371472 [2:43:59<16:09:45,  3.40it/s] 47%|████▋     | 173498/371472 [2:43:59<16:18:12,  3.37it/s] 47%|████▋     | 173499/371472 [2:44:00<15:33:17,  3.54it/s] 47%|████▋     | 173500/371472 [2:44:00<15:18:25,  3.59it/s]                                                            {'loss': 3.0517, 'learning_rate': 5.799036824753817e-07, 'epoch': 7.47}
 47%|████▋     | 173500/371472 [2:44:00<15:18:25,  3.59it/s] 47%|████▋     | 173501/371472 [2:44:00<14:55:46,  3.68it/s] 47%|████▋     | 173502/371472 [2:44:00<14:44:22,  3.73it/s] 47%|████▋     | 173503/371472 [2:44:01<16:03:50,  3.42it/s] 47%|████▋     | 173504/371472 [2:44:01<15:31:30,  3.54it/s] 47%|████▋     | 173505/371472 [2:44:01<15:39:46,  3.51it/s] 47%|████▋     | 173506/371472 [2:44:02<15:24:20,  3.57it/s] 47%|████▋     | 173507/371472 [2:44:02<16:30:19,  3.33it/s] 47%|████▋     | 173508/371472 [2:44:02<16:18:53,  3.37it/s] 47%|████▋     | 173509/371472 [2:44:03<16:06:06,  3.42it/s] 47%|████▋     | 173510/371472 [2:44:03<16:37:20,  3.31it/s] 47%|████▋     | 173511/371472 [2:44:03<17:08:40,  3.21it/s] 47%|████▋     | 173512/371472 [2:44:04<16:30:52,  3.33it/s] 47%|████▋     | 173513/371472 [2:44:04<15:55:37,  3.45it/s] 47%|████▋     | 173514/371472 [2:44:04<16:07:38,  3.41it/s] 47%|████▋     | 173515/371472 [2:44:04<16:06:18,  3.41it/s] 47%|████▋     | 173516/371472 [2:44:05<16:25:13,  3.35it/s] 47%|████▋     | 173517/371472 [2:44:05<16:12:24,  3.39it/s] 47%|████▋     | 173518/371472 [2:44:05<16:08:24,  3.41it/s] 47%|████▋     | 173519/371472 [2:44:06<15:26:03,  3.56it/s] 47%|████▋     | 173520/371472 [2:44:06<15:07:14,  3.64it/s]                                                            {'loss': 3.0156, 'learning_rate': 5.79855200499903e-07, 'epoch': 7.47}
 47%|████▋     | 173520/371472 [2:44:06<15:07:14,  3.64it/s] 47%|████▋     | 173521/371472 [2:44:06<14:50:53,  3.70it/s] 47%|████▋     | 173522/371472 [2:44:06<15:22:57,  3.57it/s] 47%|████▋     | 173523/371472 [2:44:07<14:57:43,  3.68it/s] 47%|████▋     | 173524/371472 [2:44:07<16:07:44,  3.41it/s] 47%|████▋     | 173525/371472 [2:44:07<16:02:31,  3.43it/s] 47%|████▋     | 173526/371472 [2:44:07<15:38:25,  3.52it/s] 47%|████▋     | 173527/371472 [2:44:08<15:20:43,  3.58it/s] 47%|████▋     | 173528/371472 [2:44:08<14:59:34,  3.67it/s] 47%|████▋     | 173529/371472 [2:44:08<15:13:22,  3.61it/s] 47%|████▋     | 173530/371472 [2:44:09<15:08:08,  3.63it/s] 47%|████▋     | 173531/371472 [2:44:09<14:25:39,  3.81it/s] 47%|████▋     | 173532/371472 [2:44:09<14:38:20,  3.76it/s] 47%|████▋     | 173533/371472 [2:44:09<15:06:52,  3.64it/s] 47%|████▋     | 173534/371472 [2:44:10<15:18:07,  3.59it/s] 47%|████▋     | 173535/371472 [2:44:10<15:01:01,  3.66it/s] 47%|████▋     | 173536/371472 [2:44:10<14:58:53,  3.67it/s] 47%|████▋     | 173537/371472 [2:44:10<15:20:29,  3.58it/s] 47%|████▋     | 173538/371472 [2:44:11<17:03:39,  3.22it/s] 47%|████▋     | 173539/371472 [2:44:11<16:13:19,  3.39it/s] 47%|████▋     | 173540/371472 [2:44:11<16:31:31,  3.33it/s]                                                            {'loss': 3.2317, 'learning_rate': 5.798067185244242e-07, 'epoch': 7.47}
 47%|████▋     | 173540/371472 [2:44:11<16:31:31,  3.33it/s] 47%|████▋     | 173541/371472 [2:44:12<16:02:13,  3.43it/s] 47%|████▋     | 173542/371472 [2:44:12<16:06:38,  3.41it/s] 47%|████▋     | 173543/371472 [2:44:12<15:29:22,  3.55it/s] 47%|████▋     | 173544/371472 [2:44:13<16:11:55,  3.39it/s] 47%|████▋     | 173545/371472 [2:44:13<15:40:37,  3.51it/s] 47%|████▋     | 173546/371472 [2:44:13<15:23:07,  3.57it/s] 47%|████▋     | 173547/371472 [2:44:13<14:52:44,  3.70it/s] 47%|████▋     | 173548/371472 [2:44:14<15:01:13,  3.66it/s] 47%|████▋     | 173549/371472 [2:44:14<14:58:58,  3.67it/s] 47%|████▋     | 173550/371472 [2:44:14<15:29:34,  3.55it/s] 47%|████▋     | 173551/371472 [2:44:14<15:27:46,  3.56it/s] 47%|████▋     | 173552/371472 [2:44:15<14:54:47,  3.69it/s] 47%|████▋     | 173553/371472 [2:44:15<14:32:19,  3.78it/s] 47%|████▋     | 173554/371472 [2:44:15<15:26:55,  3.56it/s] 47%|████▋     | 173555/371472 [2:44:16<15:03:27,  3.65it/s] 47%|████▋     | 173556/371472 [2:44:16<15:07:48,  3.63it/s] 47%|████▋     | 173557/371472 [2:44:16<14:43:29,  3.73it/s] 47%|████▋     | 173558/371472 [2:44:16<14:59:51,  3.67it/s] 47%|████▋     | 173559/371472 [2:44:17<15:29:58,  3.55it/s] 47%|████▋     | 173560/371472 [2:44:17<15:31:48,  3.54it/s]                                                            {'loss': 3.0945, 'learning_rate': 5.797582365489452e-07, 'epoch': 7.48}
 47%|████▋     | 173560/371472 [2:44:17<15:31:48,  3.54it/s] 47%|████▋     | 173561/371472 [2:44:17<15:30:58,  3.54it/s] 47%|████▋     | 173562/371472 [2:44:18<15:25:22,  3.56it/s] 47%|████▋     | 173563/371472 [2:44:18<15:53:39,  3.46it/s] 47%|████▋     | 173564/371472 [2:44:18<15:07:30,  3.63it/s] 47%|████▋     | 173565/371472 [2:44:18<15:26:19,  3.56it/s] 47%|████▋     | 173566/371472 [2:44:19<15:33:34,  3.53it/s] 47%|████▋     | 173567/371472 [2:44:19<14:57:10,  3.68it/s] 47%|████▋     | 173568/371472 [2:44:19<14:55:30,  3.68it/s] 47%|████▋     | 173569/371472 [2:44:19<14:31:45,  3.78it/s] 47%|████▋     | 173570/371472 [2:44:20<14:20:39,  3.83it/s] 47%|████▋     | 173571/371472 [2:44:20<14:41:18,  3.74it/s] 47%|████▋     | 173572/371472 [2:44:20<14:53:36,  3.69it/s] 47%|████▋     | 173573/371472 [2:44:21<15:02:11,  3.66it/s] 47%|████▋     | 173574/371472 [2:44:21<15:25:30,  3.56it/s] 47%|████▋     | 173575/371472 [2:44:21<15:33:52,  3.53it/s] 47%|████▋     | 173576/371472 [2:44:21<16:22:42,  3.36it/s] 47%|████▋     | 173577/371472 [2:44:22<15:39:12,  3.51it/s] 47%|████▋     | 173578/371472 [2:44:22<16:06:16,  3.41it/s] 47%|████▋     | 173579/371472 [2:44:22<15:32:55,  3.54it/s] 47%|████▋     | 173580/371472 [2:44:23<15:05:10,  3.64it/s]                                                            {'loss': 3.0666, 'learning_rate': 5.797097545734662e-07, 'epoch': 7.48}
 47%|████▋     | 173580/371472 [2:44:23<15:05:10,  3.64it/s] 47%|████▋     | 173581/371472 [2:44:23<16:21:11,  3.36it/s] 47%|████▋     | 173582/371472 [2:44:23<17:31:22,  3.14it/s] 47%|████▋     | 173583/371472 [2:44:24<16:42:47,  3.29it/s] 47%|████▋     | 173584/371472 [2:44:24<16:56:32,  3.24it/s] 47%|████▋     | 173585/371472 [2:44:24<17:05:54,  3.21it/s] 47%|████▋     | 173586/371472 [2:44:24<16:30:06,  3.33it/s] 47%|████▋     | 173587/371472 [2:44:25<16:37:47,  3.31it/s] 47%|████▋     | 173588/371472 [2:44:25<15:52:46,  3.46it/s] 47%|████▋     | 173589/371472 [2:44:25<17:36:48,  3.12it/s] 47%|████▋     | 173590/371472 [2:44:26<17:15:13,  3.19it/s] 47%|████▋     | 173591/371472 [2:44:26<16:31:31,  3.33it/s] 47%|████▋     | 173592/371472 [2:44:26<16:38:37,  3.30it/s] 47%|████▋     | 173593/371472 [2:44:27<16:16:14,  3.38it/s] 47%|████▋     | 173594/371472 [2:44:27<17:09:12,  3.20it/s] 47%|████▋     | 173595/371472 [2:44:27<16:36:26,  3.31it/s] 47%|████▋     | 173596/371472 [2:44:27<15:44:46,  3.49it/s] 47%|████▋     | 173597/371472 [2:44:28<15:33:43,  3.53it/s] 47%|████▋     | 173598/371472 [2:44:28<16:14:48,  3.38it/s] 47%|████▋     | 173599/371472 [2:44:28<15:39:26,  3.51it/s] 47%|████▋     | 173600/371472 [2:44:29<15:20:50,  3.58it/s]                                                            {'loss': 3.2279, 'learning_rate': 5.796612725979874e-07, 'epoch': 7.48}
 47%|████▋     | 173600/371472 [2:44:29<15:20:50,  3.58it/s] 47%|████▋     | 173601/371472 [2:44:29<16:45:30,  3.28it/s] 47%|████▋     | 173602/371472 [2:44:29<15:50:51,  3.47it/s] 47%|████▋     | 173603/371472 [2:44:29<15:32:53,  3.54it/s] 47%|████▋     | 173604/371472 [2:44:30<15:33:03,  3.53it/s] 47%|████▋     | 173605/371472 [2:44:30<15:59:18,  3.44it/s] 47%|████▋     | 173606/371472 [2:44:30<16:39:01,  3.30it/s] 47%|████▋     | 173607/371472 [2:44:31<17:05:20,  3.22it/s] 47%|████▋     | 173608/371472 [2:44:31<15:59:10,  3.44it/s] 47%|████▋     | 173609/371472 [2:44:31<16:09:59,  3.40it/s] 47%|████▋     | 173610/371472 [2:44:31<15:31:42,  3.54it/s] 47%|████▋     | 173611/371472 [2:44:32<16:11:29,  3.39it/s] 47%|████▋     | 173612/371472 [2:44:32<15:32:50,  3.54it/s] 47%|████▋     | 173613/371472 [2:44:32<15:12:45,  3.61it/s] 47%|████▋     | 173614/371472 [2:44:33<15:14:41,  3.61it/s] 47%|████▋     | 173615/371472 [2:44:33<16:02:22,  3.43it/s] 47%|████▋     | 173616/371472 [2:44:33<16:23:54,  3.35it/s] 47%|████▋     | 173617/371472 [2:44:34<16:30:22,  3.33it/s] 47%|████▋     | 173618/371472 [2:44:34<15:57:04,  3.45it/s] 47%|████▋     | 173619/371472 [2:44:34<15:35:04,  3.53it/s] 47%|████▋     | 173620/371472 [2:44:34<16:34:25,  3.32it/s]                                                            {'loss': 2.9762, 'learning_rate': 5.796127906225086e-07, 'epoch': 7.48}
 47%|████▋     | 173620/371472 [2:44:34<16:34:25,  3.32it/s] 47%|████▋     | 173621/371472 [2:44:35<16:03:12,  3.42it/s] 47%|████▋     | 173622/371472 [2:44:35<16:11:40,  3.39it/s] 47%|████▋     | 173623/371472 [2:44:35<15:33:57,  3.53it/s] 47%|████▋     | 173624/371472 [2:44:36<15:58:11,  3.44it/s] 47%|████▋     | 173625/371472 [2:44:36<15:43:10,  3.50it/s] 47%|████▋     | 173626/371472 [2:44:36<16:48:13,  3.27it/s] 47%|████▋     | 173627/371472 [2:44:37<17:06:07,  3.21it/s] 47%|████▋     | 173628/371472 [2:44:37<16:30:06,  3.33it/s] 47%|████▋     | 173629/371472 [2:44:37<16:12:04,  3.39it/s] 47%|████▋     | 173630/371472 [2:44:37<16:39:44,  3.30it/s] 47%|████▋     | 173631/371472 [2:44:38<16:06:51,  3.41it/s] 47%|████▋     | 173632/371472 [2:44:38<15:26:07,  3.56it/s] 47%|████▋     | 173633/371472 [2:44:38<15:10:51,  3.62it/s] 47%|████▋     | 173634/371472 [2:44:38<15:12:34,  3.61it/s] 47%|████▋     | 173635/371472 [2:44:39<14:49:10,  3.71it/s] 47%|████▋     | 173636/371472 [2:44:39<14:41:14,  3.74it/s] 47%|████▋     | 173637/371472 [2:44:39<14:54:47,  3.68it/s] 47%|████▋     | 173638/371472 [2:44:39<14:26:24,  3.81it/s] 47%|████▋     | 173639/371472 [2:44:40<14:02:25,  3.91it/s] 47%|████▋     | 173640/371472 [2:44:40<13:58:18,  3.93it/s]                                                            {'loss': 3.2364, 'learning_rate': 5.795643086470297e-07, 'epoch': 7.48}
 47%|████▋     | 173640/371472 [2:44:40<13:58:18,  3.93it/s] 47%|████▋     | 173641/371472 [2:44:40<14:21:09,  3.83it/s] 47%|████▋     | 173642/371472 [2:44:41<14:45:56,  3.72it/s] 47%|████▋     | 173643/371472 [2:44:41<15:10:07,  3.62it/s] 47%|████▋     | 173644/371472 [2:44:41<15:25:05,  3.56it/s] 47%|████▋     | 173645/371472 [2:44:41<15:23:53,  3.57it/s] 47%|████▋     | 173646/371472 [2:44:42<16:03:06,  3.42it/s] 47%|████▋     | 173647/371472 [2:44:42<15:30:08,  3.54it/s] 47%|████▋     | 173648/371472 [2:44:42<16:04:38,  3.42it/s] 47%|████▋     | 173649/371472 [2:44:43<15:44:59,  3.49it/s] 47%|████▋     | 173650/371472 [2:44:43<15:55:10,  3.45it/s] 47%|████▋     | 173651/371472 [2:44:43<15:36:25,  3.52it/s] 47%|████▋     | 173652/371472 [2:44:43<16:06:06,  3.41it/s] 47%|████▋     | 173653/371472 [2:44:44<15:46:51,  3.48it/s] 47%|████▋     | 173654/371472 [2:44:44<16:02:04,  3.43it/s] 47%|████▋     | 173655/371472 [2:44:44<15:36:20,  3.52it/s] 47%|████▋     | 173656/371472 [2:44:45<15:39:24,  3.51it/s] 47%|████▋     | 173657/371472 [2:44:45<15:18:13,  3.59it/s] 47%|████▋     | 173658/371472 [2:44:45<15:45:12,  3.49it/s] 47%|████▋     | 173659/371472 [2:44:45<15:26:28,  3.56it/s] 47%|████▋     | 173660/371472 [2:44:46<15:49:54,  3.47it/s]                                                            {'loss': 2.9487, 'learning_rate': 5.795158266715507e-07, 'epoch': 7.48}
 47%|████▋     | 173660/371472 [2:44:46<15:49:54,  3.47it/s] 47%|████▋     | 173661/371472 [2:44:46<15:40:27,  3.51it/s] 47%|████▋     | 173662/371472 [2:44:46<17:13:07,  3.19it/s] 47%|████▋     | 173663/371472 [2:44:47<16:36:30,  3.31it/s] 47%|████▋     | 173664/371472 [2:44:47<16:42:54,  3.29it/s] 47%|████▋     | 173665/371472 [2:44:47<16:28:56,  3.33it/s] 47%|████▋     | 173666/371472 [2:44:48<16:09:16,  3.40it/s] 47%|████▋     | 173667/371472 [2:44:48<15:44:08,  3.49it/s] 47%|████▋     | 173668/371472 [2:44:48<18:07:24,  3.03it/s] 47%|████▋     | 173669/371472 [2:44:49<17:50:38,  3.08it/s] 47%|████▋     | 173670/371472 [2:44:49<18:32:24,  2.96it/s] 47%|████▋     | 173671/371472 [2:44:49<17:44:06,  3.10it/s] 47%|████▋     | 173672/371472 [2:44:49<16:43:29,  3.29it/s] 47%|████▋     | 173673/371472 [2:44:50<16:12:16,  3.39it/s] 47%|████▋     | 173674/371472 [2:44:50<17:24:07,  3.16it/s] 47%|████▋     | 173675/371472 [2:44:50<16:26:43,  3.34it/s] 47%|████▋     | 173676/371472 [2:44:51<15:39:22,  3.51it/s] 47%|████▋     | 173677/371472 [2:44:51<15:15:57,  3.60it/s] 47%|████▋     | 173678/371472 [2:44:51<15:44:04,  3.49it/s] 47%|████▋     | 173679/371472 [2:44:51<15:19:53,  3.58it/s] 47%|████▋     | 173680/371472 [2:44:52<15:28:26,  3.55it/s]                                                            {'loss': 3.0793, 'learning_rate': 5.794673446960718e-07, 'epoch': 7.48}
 47%|████▋     | 173680/371472 [2:44:52<15:28:26,  3.55it/s] 47%|████▋     | 173681/371472 [2:44:52<15:27:13,  3.56it/s] 47%|████▋     | 173682/371472 [2:44:52<15:41:11,  3.50it/s] 47%|████▋     | 173683/371472 [2:44:53<15:21:30,  3.58it/s] 47%|████▋     | 173684/371472 [2:44:53<15:18:45,  3.59it/s] 47%|████▋     | 173685/371472 [2:44:53<15:04:49,  3.64it/s] 47%|████▋     | 173686/371472 [2:44:53<15:25:14,  3.56it/s] 47%|████▋     | 173687/371472 [2:44:54<15:08:06,  3.63it/s] 47%|████▋     | 173688/371472 [2:44:54<14:55:56,  3.68it/s] 47%|████▋     | 173689/371472 [2:44:54<14:39:16,  3.75it/s] 47%|████▋     | 173690/371472 [2:44:54<14:56:32,  3.68it/s] 47%|████▋     | 173691/371472 [2:44:55<14:38:25,  3.75it/s] 47%|████▋     | 173692/371472 [2:44:55<15:42:01,  3.50it/s] 47%|████▋     | 173693/371472 [2:44:55<16:08:41,  3.40it/s] 47%|████▋     | 173694/371472 [2:44:56<15:56:30,  3.45it/s] 47%|████▋     | 173695/371472 [2:44:56<16:00:51,  3.43it/s] 47%|████▋     | 173696/371472 [2:44:56<17:13:19,  3.19it/s] 47%|████▋     | 173697/371472 [2:44:57<16:36:26,  3.31it/s] 47%|████▋     | 173698/371472 [2:44:57<16:19:12,  3.37it/s] 47%|████▋     | 173699/371472 [2:44:57<16:23:31,  3.35it/s] 47%|████▋     | 173700/371472 [2:44:57<15:52:08,  3.46it/s]                                                            {'loss': 2.9685, 'learning_rate': 5.79418862720593e-07, 'epoch': 7.48}
 47%|████▋     | 173700/371472 [2:44:57<15:52:08,  3.46it/s] 47%|████▋     | 173701/371472 [2:44:58<16:05:56,  3.41it/s] 47%|████▋     | 173702/371472 [2:44:58<15:55:20,  3.45it/s] 47%|████▋     | 173703/371472 [2:44:58<15:40:50,  3.50it/s] 47%|████▋     | 173704/371472 [2:44:59<15:19:15,  3.59it/s] 47%|████▋     | 173705/371472 [2:44:59<17:07:36,  3.21it/s] 47%|████▋     | 173706/371472 [2:44:59<16:17:19,  3.37it/s] 47%|████▋     | 173707/371472 [2:44:59<15:24:04,  3.57it/s] 47%|████▋     | 173708/371472 [2:45:00<15:28:53,  3.55it/s] 47%|████▋     | 173709/371472 [2:45:00<16:47:31,  3.27it/s] 47%|████▋     | 173710/371472 [2:45:00<16:20:05,  3.36it/s] 47%|████▋     | 173711/371472 [2:45:01<15:55:25,  3.45it/s] 47%|████▋     | 173712/371472 [2:45:01<15:44:04,  3.49it/s] 47%|████▋     | 173713/371472 [2:45:01<15:18:31,  3.59it/s] 47%|████▋     | 173714/371472 [2:45:01<15:02:47,  3.65it/s] 47%|████▋     | 173715/371472 [2:45:02<14:47:36,  3.71it/s] 47%|████▋     | 173716/371472 [2:45:02<14:46:54,  3.72it/s] 47%|████▋     | 173717/371472 [2:45:02<15:09:29,  3.62it/s] 47%|████▋     | 173718/371472 [2:45:03<14:57:12,  3.67it/s] 47%|████▋     | 173719/371472 [2:45:03<14:59:27,  3.66it/s] 47%|████▋     | 173720/371472 [2:45:03<16:10:09,  3.40it/s]                                                            {'loss': 2.9876, 'learning_rate': 5.793703807451141e-07, 'epoch': 7.48}
 47%|████▋     | 173720/371472 [2:45:03<16:10:09,  3.40it/s] 47%|████▋     | 173721/371472 [2:45:03<16:23:49,  3.35it/s] 47%|████▋     | 173722/371472 [2:45:04<15:52:57,  3.46it/s] 47%|████▋     | 173723/371472 [2:45:04<15:44:20,  3.49it/s] 47%|████▋     | 173724/371472 [2:45:04<15:09:54,  3.62it/s] 47%|████▋     | 173725/371472 [2:45:05<16:08:58,  3.40it/s] 47%|████▋     | 173726/371472 [2:45:05<15:45:00,  3.49it/s] 47%|████▋     | 173727/371472 [2:45:05<15:09:38,  3.62it/s] 47%|████▋     | 173728/371472 [2:45:05<14:57:36,  3.67it/s] 47%|████▋     | 173729/371472 [2:45:06<14:41:47,  3.74it/s] 47%|████▋     | 173730/371472 [2:45:06<14:17:59,  3.84it/s] 47%|████▋     | 173731/371472 [2:45:06<14:34:08,  3.77it/s] 47%|████▋     | 173732/371472 [2:45:06<15:17:20,  3.59it/s] 47%|████▋     | 173733/371472 [2:45:07<16:19:29,  3.36it/s] 47%|████▋     | 173734/371472 [2:45:07<15:59:07,  3.44it/s] 47%|████▋     | 173735/371472 [2:45:07<16:13:24,  3.39it/s] 47%|████▋     | 173736/371472 [2:45:08<17:16:47,  3.18it/s] 47%|████▋     | 173737/371472 [2:45:08<16:24:09,  3.35it/s] 47%|████▋     | 173738/371472 [2:45:08<15:49:06,  3.47it/s] 47%|████▋     | 173739/371472 [2:45:09<15:43:47,  3.49it/s] 47%|████▋     | 173740/371472 [2:45:09<15:10:28,  3.62it/s]                                                            {'loss': 2.974, 'learning_rate': 5.793218987696351e-07, 'epoch': 7.48}
 47%|████▋     | 173740/371472 [2:45:09<15:10:28,  3.62it/s] 47%|████▋     | 173741/371472 [2:45:09<15:32:32,  3.53it/s] 47%|████▋     | 173742/371472 [2:45:09<15:52:25,  3.46it/s] 47%|████▋     | 173743/371472 [2:45:10<15:37:09,  3.52it/s] 47%|████▋     | 173744/371472 [2:45:10<16:48:26,  3.27it/s] 47%|████▋     | 173745/371472 [2:45:10<15:56:57,  3.44it/s] 47%|████▋     | 173746/371472 [2:45:11<16:14:54,  3.38it/s] 47%|████▋     | 173747/371472 [2:45:11<15:57:14,  3.44it/s] 47%|████▋     | 173748/371472 [2:45:11<15:27:36,  3.55it/s] 47%|████▋     | 173749/371472 [2:45:11<15:14:14,  3.60it/s] 47%|████▋     | 173750/371472 [2:45:12<15:10:46,  3.62it/s] 47%|████▋     | 173751/371472 [2:45:12<15:36:06,  3.52it/s] 47%|████▋     | 173752/371472 [2:45:12<15:44:17,  3.49it/s] 47%|████▋     | 173753/371472 [2:45:13<16:57:02,  3.24it/s] 47%|████▋     | 173754/371472 [2:45:13<16:13:38,  3.38it/s] 47%|████▋     | 173755/371472 [2:45:13<16:46:30,  3.27it/s] 47%|████▋     | 173756/371472 [2:45:14<16:07:45,  3.41it/s] 47%|████▋     | 173757/371472 [2:45:14<15:37:34,  3.51it/s] 47%|████▋     | 173758/371472 [2:45:14<16:43:57,  3.28it/s] 47%|████▋     | 173759/371472 [2:45:14<16:39:10,  3.30it/s] 47%|████▋     | 173760/371472 [2:45:15<15:58:31,  3.44it/s]                                                            {'loss': 2.9632, 'learning_rate': 5.792734167941563e-07, 'epoch': 7.48}
 47%|████▋     | 173760/371472 [2:45:15<15:58:31,  3.44it/s] 47%|████▋     | 173761/371472 [2:45:15<15:13:02,  3.61it/s] 47%|████▋     | 173762/371472 [2:45:15<14:56:54,  3.67it/s] 47%|████▋     | 173763/371472 [2:45:15<14:50:38,  3.70it/s] 47%|████▋     | 173764/371472 [2:45:16<14:57:02,  3.67it/s] 47%|████▋     | 173765/371472 [2:45:16<14:40:33,  3.74it/s] 47%|████▋     | 173766/371472 [2:45:16<15:00:02,  3.66it/s] 47%|████▋     | 173767/371472 [2:45:17<14:39:03,  3.75it/s] 47%|████▋     | 173768/371472 [2:45:17<16:02:44,  3.42it/s] 47%|████▋     | 173769/371472 [2:45:17<15:54:07,  3.45it/s] 47%|████▋     | 173770/371472 [2:45:17<15:19:59,  3.58it/s] 47%|████▋     | 173771/371472 [2:45:18<15:59:56,  3.43it/s] 47%|████▋     | 173772/371472 [2:45:18<16:43:20,  3.28it/s] 47%|████▋     | 173773/371472 [2:45:18<16:26:02,  3.34it/s] 47%|████▋     | 173774/371472 [2:45:19<15:47:22,  3.48it/s] 47%|████▋     | 173775/371472 [2:45:19<15:10:38,  3.62it/s] 47%|████▋     | 173776/371472 [2:45:19<14:46:44,  3.72it/s] 47%|████▋     | 173777/371472 [2:45:19<15:31:06,  3.54it/s] 47%|████▋     | 173778/371472 [2:45:20<15:42:01,  3.50it/s] 47%|████▋     | 173779/371472 [2:45:20<15:20:11,  3.58it/s] 47%|████▋     | 173780/371472 [2:45:20<15:41:50,  3.50it/s]                                                            {'loss': 2.9512, 'learning_rate': 5.792249348186775e-07, 'epoch': 7.49}
 47%|████▋     | 173780/371472 [2:45:20<15:41:50,  3.50it/s] 47%|████▋     | 173781/371472 [2:45:21<16:22:12,  3.35it/s] 47%|████▋     | 173782/371472 [2:45:21<17:07:48,  3.21it/s] 47%|████▋     | 173783/371472 [2:45:21<16:40:35,  3.29it/s] 47%|████▋     | 173784/371472 [2:45:22<16:16:08,  3.38it/s] 47%|████▋     | 173785/371472 [2:45:22<16:29:21,  3.33it/s] 47%|████▋     | 173786/371472 [2:45:22<16:29:27,  3.33it/s] 47%|████▋     | 173787/371472 [2:45:22<15:54:19,  3.45it/s] 47%|████▋     | 173788/371472 [2:45:23<16:15:16,  3.38it/s] 47%|████▋     | 173789/371472 [2:45:23<15:52:51,  3.46it/s] 47%|████▋     | 173790/371472 [2:45:23<15:10:37,  3.62it/s] 47%|████▋     | 173791/371472 [2:45:23<14:58:36,  3.67it/s] 47%|████▋     | 173792/371472 [2:45:24<14:49:17,  3.70it/s] 47%|████▋     | 173793/371472 [2:45:24<14:29:58,  3.79it/s] 47%|████▋     | 173794/371472 [2:45:24<15:36:27,  3.52it/s] 47%|████▋     | 173795/371472 [2:45:25<14:59:55,  3.66it/s] 47%|████▋     | 173796/371472 [2:45:25<14:33:07,  3.77it/s] 47%|████▋     | 173797/371472 [2:45:25<15:24:20,  3.56it/s] 47%|████▋     | 173798/371472 [2:45:25<15:38:11,  3.51it/s] 47%|████▋     | 173799/371472 [2:45:26<15:35:40,  3.52it/s] 47%|████▋     | 173800/371472 [2:45:26<15:07:17,  3.63it/s]                                                            {'loss': 3.1582, 'learning_rate': 5.791764528431985e-07, 'epoch': 7.49}
 47%|████▋     | 173800/371472 [2:45:26<15:07:17,  3.63it/s] 47%|████▋     | 173801/371472 [2:45:26<16:10:54,  3.39it/s] 47%|████▋     | 173802/371472 [2:45:27<16:05:49,  3.41it/s] 47%|████▋     | 173803/371472 [2:45:27<16:08:49,  3.40it/s] 47%|████▋     | 173804/371472 [2:45:27<15:50:38,  3.47it/s] 47%|████▋     | 173805/371472 [2:45:28<16:36:46,  3.31it/s] 47%|████▋     | 173806/371472 [2:45:28<15:51:24,  3.46it/s] 47%|████▋     | 173807/371472 [2:45:28<15:28:26,  3.55it/s] 47%|████▋     | 173808/371472 [2:45:28<15:05:15,  3.64it/s] 47%|████▋     | 173809/371472 [2:45:29<16:21:39,  3.36it/s] 47%|████▋     | 173810/371472 [2:45:29<15:55:56,  3.45it/s] 47%|████▋     | 173811/371472 [2:45:29<15:40:55,  3.50it/s] 47%|████▋     | 173812/371472 [2:45:29<15:04:47,  3.64it/s] 47%|████▋     | 173813/371472 [2:45:30<15:22:06,  3.57it/s] 47%|████▋     | 173814/371472 [2:45:30<15:33:56,  3.53it/s] 47%|████▋     | 173815/371472 [2:45:30<15:11:01,  3.62it/s] 47%|████▋     | 173816/371472 [2:45:31<14:50:50,  3.70it/s] 47%|████▋     | 173817/371472 [2:45:31<15:24:46,  3.56it/s] 47%|████▋     | 173818/371472 [2:45:31<15:05:21,  3.64it/s] 47%|████▋     | 173819/371472 [2:45:31<15:21:24,  3.58it/s] 47%|████▋     | 173820/371472 [2:45:32<14:57:10,  3.67it/s]                                                            {'loss': 2.9772, 'learning_rate': 5.791279708677195e-07, 'epoch': 7.49}
 47%|████▋     | 173820/371472 [2:45:32<14:57:10,  3.67it/s] 47%|████▋     | 173821/371472 [2:45:32<15:06:43,  3.63it/s] 47%|████▋     | 173822/371472 [2:45:32<15:33:06,  3.53it/s] 47%|████▋     | 173823/371472 [2:45:33<16:07:44,  3.40it/s] 47%|████▋     | 173824/371472 [2:45:33<15:45:25,  3.48it/s] 47%|████▋     | 173825/371472 [2:45:33<15:40:14,  3.50it/s] 47%|████▋     | 173826/371472 [2:45:33<16:19:25,  3.36it/s] 47%|████▋     | 173827/371472 [2:45:34<16:48:48,  3.27it/s] 47%|████▋     | 173828/371472 [2:45:34<16:17:45,  3.37it/s] 47%|████▋     | 173829/371472 [2:45:34<15:54:58,  3.45it/s] 47%|████▋     | 173830/371472 [2:45:35<16:44:19,  3.28it/s] 47%|████▋     | 173831/371472 [2:45:35<16:34:21,  3.31it/s] 47%|████▋     | 173832/371472 [2:45:35<16:08:54,  3.40it/s] 47%|████▋     | 173833/371472 [2:45:36<17:12:01,  3.19it/s] 47%|████▋     | 173834/371472 [2:45:36<16:23:01,  3.35it/s] 47%|████▋     | 173835/371472 [2:45:36<15:42:22,  3.50it/s] 47%|████▋     | 173836/371472 [2:45:36<15:25:44,  3.56it/s] 47%|████▋     | 173837/371472 [2:45:37<15:01:04,  3.66it/s] 47%|████▋     | 173838/371472 [2:45:37<15:24:17,  3.56it/s] 47%|████▋     | 173839/371472 [2:45:37<15:19:20,  3.58it/s] 47%|████▋     | 173840/371472 [2:45:37<15:18:20,  3.59it/s]                                                            {'loss': 3.0078, 'learning_rate': 5.790794888922407e-07, 'epoch': 7.49}
 47%|████▋     | 173840/371472 [2:45:37<15:18:20,  3.59it/s] 47%|████▋     | 173841/371472 [2:45:38<15:43:11,  3.49it/s] 47%|████▋     | 173842/371472 [2:45:38<15:30:33,  3.54it/s] 47%|████▋     | 173843/371472 [2:45:38<15:05:07,  3.64it/s] 47%|████▋     | 173844/371472 [2:45:39<15:22:17,  3.57it/s] 47%|████▋     | 173845/371472 [2:45:39<16:50:24,  3.26it/s] 47%|████▋     | 173846/371472 [2:45:39<16:20:57,  3.36it/s] 47%|████▋     | 173847/371472 [2:45:40<16:26:42,  3.34it/s] 47%|████▋     | 173848/371472 [2:45:40<16:03:16,  3.42it/s] 47%|████▋     | 173849/371472 [2:45:40<15:24:44,  3.56it/s] 47%|████▋     | 173850/371472 [2:45:40<15:26:28,  3.56it/s] 47%|████▋     | 173851/371472 [2:45:41<15:35:00,  3.52it/s] 47%|████▋     | 173852/371472 [2:45:41<15:23:41,  3.57it/s] 47%|████▋     | 173853/371472 [2:45:41<15:23:07,  3.57it/s] 47%|████▋     | 173854/371472 [2:45:41<14:44:26,  3.72it/s] 47%|████▋     | 173855/371472 [2:45:42<14:51:44,  3.69it/s] 47%|████▋     | 173856/371472 [2:45:42<14:46:59,  3.71it/s] 47%|████▋     | 173857/371472 [2:45:42<15:22:06,  3.57it/s] 47%|████▋     | 173858/371472 [2:45:43<14:58:35,  3.67it/s] 47%|████▋     | 173859/371472 [2:45:43<14:45:17,  3.72it/s] 47%|████▋     | 173860/371472 [2:45:43<14:45:07,  3.72it/s]                                                            {'loss': 3.1705, 'learning_rate': 5.790310069167619e-07, 'epoch': 7.49}
 47%|████▋     | 173860/371472 [2:45:43<14:45:07,  3.72it/s] 47%|████▋     | 173861/371472 [2:45:43<15:42:26,  3.49it/s] 47%|████▋     | 173862/371472 [2:45:44<16:10:33,  3.39it/s] 47%|████▋     | 173863/371472 [2:45:44<16:12:07,  3.39it/s] 47%|████▋     | 173864/371472 [2:45:44<15:48:38,  3.47it/s] 47%|████▋     | 173865/371472 [2:45:45<15:18:16,  3.59it/s] 47%|████▋     | 173866/371472 [2:45:45<15:45:35,  3.48it/s] 47%|████▋     | 173867/371472 [2:45:45<15:31:03,  3.54it/s] 47%|████▋     | 173868/371472 [2:45:45<15:29:17,  3.54it/s] 47%|████▋     | 173869/371472 [2:45:46<15:00:01,  3.66it/s] 47%|████▋     | 173870/371472 [2:45:46<14:55:41,  3.68it/s] 47%|████▋     | 173871/371472 [2:45:46<15:46:16,  3.48it/s] 47%|████▋     | 173872/371472 [2:45:47<15:44:17,  3.49it/s] 47%|████▋     | 173873/371472 [2:45:47<15:59:53,  3.43it/s] 47%|████▋     | 173874/371472 [2:45:47<15:16:09,  3.59it/s] 47%|████▋     | 173875/371472 [2:45:47<15:00:35,  3.66it/s] 47%|████▋     | 173876/371472 [2:45:48<14:29:25,  3.79it/s] 47%|████▋     | 173877/371472 [2:45:48<18:20:07,  2.99it/s] 47%|████▋     | 173878/371472 [2:45:48<16:55:45,  3.24it/s] 47%|████▋     | 173879/371472 [2:45:49<17:06:14,  3.21it/s] 47%|████▋     | 173880/371472 [2:45:49<16:55:38,  3.24it/s]                                                            {'loss': 3.1498, 'learning_rate': 5.78982524941283e-07, 'epoch': 7.49}
 47%|████▋     | 173880/371472 [2:45:49<16:55:38,  3.24it/s] 47%|████▋     | 173881/371472 [2:45:49<16:57:03,  3.24it/s] 47%|████▋     | 173882/371472 [2:45:50<16:18:39,  3.37it/s] 47%|████▋     | 173883/371472 [2:45:50<16:06:05,  3.41it/s] 47%|████▋     | 173884/371472 [2:45:50<15:31:28,  3.54it/s] 47%|████▋     | 173885/371472 [2:45:50<15:07:55,  3.63it/s] 47%|████▋     | 173886/371472 [2:45:51<14:51:32,  3.69it/s] 47%|████▋     | 173887/371472 [2:45:51<15:03:42,  3.64it/s] 47%|████▋     | 173888/371472 [2:45:51<14:50:23,  3.70it/s] 47%|████▋     | 173889/371472 [2:45:51<15:13:13,  3.61it/s] 47%|████▋     | 173890/371472 [2:45:52<14:41:34,  3.74it/s] 47%|████▋     | 173891/371472 [2:45:52<14:20:08,  3.83it/s] 47%|████▋     | 173892/371472 [2:45:52<14:18:04,  3.84it/s] 47%|████▋     | 173893/371472 [2:45:53<15:19:23,  3.58it/s] 47%|████▋     | 173894/371472 [2:45:53<15:00:22,  3.66it/s] 47%|████▋     | 173895/371472 [2:45:53<14:51:23,  3.69it/s] 47%|████▋     | 173896/371472 [2:45:53<15:00:06,  3.66it/s] 47%|████▋     | 173897/371472 [2:45:54<15:26:40,  3.55it/s] 47%|████▋     | 173898/371472 [2:45:54<16:58:50,  3.23it/s] 47%|████▋     | 173899/371472 [2:45:54<16:01:41,  3.42it/s] 47%|████▋     | 173900/371472 [2:45:55<15:28:11,  3.55it/s]                                                            {'loss': 3.0764, 'learning_rate': 5.78934042965804e-07, 'epoch': 7.49}
 47%|████▋     | 173900/371472 [2:45:55<15:28:11,  3.55it/s] 47%|████▋     | 173901/371472 [2:45:55<15:48:17,  3.47it/s] 47%|████▋     | 173902/371472 [2:45:55<15:26:57,  3.55it/s] 47%|████▋     | 173903/371472 [2:45:55<15:40:53,  3.50it/s] 47%|████▋     | 173904/371472 [2:45:56<16:49:09,  3.26it/s] 47%|████▋     | 173905/371472 [2:45:56<17:49:54,  3.08it/s] 47%|████▋     | 173906/371472 [2:45:56<17:38:09,  3.11it/s] 47%|████▋     | 173907/371472 [2:45:57<16:41:21,  3.29it/s] 47%|████▋     | 173908/371472 [2:45:57<16:14:41,  3.38it/s] 47%|████▋     | 173909/371472 [2:45:57<16:43:19,  3.28it/s] 47%|████▋     | 173910/371472 [2:45:58<16:33:13,  3.32it/s] 47%|████▋     | 173911/371472 [2:45:58<16:03:14,  3.42it/s] 47%|████▋     | 173912/371472 [2:45:58<15:38:27,  3.51it/s] 47%|████▋     | 173913/371472 [2:45:58<14:57:03,  3.67it/s] 47%|████▋     | 173914/371472 [2:45:59<15:26:42,  3.55it/s] 47%|████▋     | 173915/371472 [2:45:59<16:21:16,  3.36it/s] 47%|████▋     | 173916/371472 [2:45:59<16:40:59,  3.29it/s] 47%|████▋     | 173917/371472 [2:46:00<16:18:28,  3.37it/s] 47%|████▋     | 173918/371472 [2:46:00<17:04:28,  3.21it/s] 47%|████▋     | 173919/371472 [2:46:00<16:02:06,  3.42it/s] 47%|████▋     | 173920/371472 [2:46:00<16:34:46,  3.31it/s]                                                            {'loss': 3.0321, 'learning_rate': 5.788855609903252e-07, 'epoch': 7.49}
 47%|████▋     | 173920/371472 [2:46:01<16:34:46,  3.31it/s] 47%|████▋     | 173921/371472 [2:46:01<17:24:00,  3.15it/s] 47%|████▋     | 173922/371472 [2:46:01<16:25:09,  3.34it/s] 47%|████▋     | 173923/371472 [2:46:01<16:20:38,  3.36it/s] 47%|████▋     | 173924/371472 [2:46:02<16:13:22,  3.38it/s] 47%|████▋     | 173925/371472 [2:46:02<16:02:00,  3.42it/s] 47%|████▋     | 173926/371472 [2:46:02<15:45:22,  3.48it/s] 47%|████▋     | 173927/371472 [2:46:03<15:20:08,  3.58it/s] 47%|████▋     | 173928/371472 [2:46:03<15:18:43,  3.58it/s] 47%|████▋     | 173929/371472 [2:46:03<17:32:42,  3.13it/s] 47%|████▋     | 173930/371472 [2:46:04<17:29:09,  3.14it/s] 47%|████▋     | 173931/371472 [2:46:04<17:17:00,  3.17it/s] 47%|████▋     | 173932/371472 [2:46:04<16:13:38,  3.38it/s] 47%|████▋     | 173933/371472 [2:46:04<16:18:19,  3.37it/s] 47%|████▋     | 173934/371472 [2:46:05<15:42:42,  3.49it/s] 47%|████▋     | 173935/371472 [2:46:05<15:56:44,  3.44it/s] 47%|████▋     | 173936/371472 [2:46:05<15:56:32,  3.44it/s] 47%|████▋     | 173937/371472 [2:46:05<15:29:08,  3.54it/s] 47%|████▋     | 173938/371472 [2:46:06<16:37:21,  3.30it/s] 47%|████▋     | 173939/371472 [2:46:06<16:36:01,  3.31it/s] 47%|████▋     | 173940/371472 [2:46:06<15:54:49,  3.45it/s]                                                            {'loss': 3.146, 'learning_rate': 5.788370790148462e-07, 'epoch': 7.49}
 47%|████▋     | 173940/371472 [2:46:06<15:54:49,  3.45it/s] 47%|████▋     | 173941/371472 [2:46:07<15:50:06,  3.47it/s] 47%|████▋     | 173942/371472 [2:46:07<15:34:27,  3.52it/s] 47%|████▋     | 173943/371472 [2:46:07<15:06:33,  3.63it/s] 47%|████▋     | 173944/371472 [2:46:08<15:32:27,  3.53it/s] 47%|████▋     | 173945/371472 [2:46:08<16:24:57,  3.34it/s] 47%|████▋     | 173946/371472 [2:46:08<15:57:27,  3.44it/s] 47%|████▋     | 173947/371472 [2:46:08<16:17:18,  3.37it/s] 47%|████▋     | 173948/371472 [2:46:09<15:32:22,  3.53it/s] 47%|████▋     | 173949/371472 [2:46:09<14:49:03,  3.70it/s] 47%|████▋     | 173950/371472 [2:46:09<14:41:23,  3.74it/s] 47%|████▋     | 173951/371472 [2:46:10<15:25:37,  3.56it/s] 47%|████▋     | 173952/371472 [2:46:10<15:08:52,  3.62it/s] 47%|████▋     | 173953/371472 [2:46:10<15:01:28,  3.65it/s] 47%|████▋     | 173954/371472 [2:46:10<16:43:38,  3.28it/s] 47%|████▋     | 173955/371472 [2:46:11<15:49:37,  3.47it/s] 47%|████▋     | 173956/371472 [2:46:11<15:42:00,  3.49it/s] 47%|████▋     | 173957/371472 [2:46:11<15:18:00,  3.59it/s] 47%|████▋     | 173958/371472 [2:46:11<15:07:05,  3.63it/s] 47%|████▋     | 173959/371472 [2:46:12<15:30:52,  3.54it/s] 47%|████▋     | 173960/371472 [2:46:12<15:13:54,  3.60it/s]                                                            {'loss': 3.1568, 'learning_rate': 5.787885970393672e-07, 'epoch': 7.49}
 47%|████▋     | 173960/371472 [2:46:12<15:13:54,  3.60it/s] 47%|████▋     | 173961/371472 [2:46:12<16:00:01,  3.43it/s] 47%|████▋     | 173962/371472 [2:46:13<16:38:27,  3.30it/s] 47%|████▋     | 173963/371472 [2:46:13<15:48:46,  3.47it/s] 47%|████▋     | 173964/371472 [2:46:13<16:16:00,  3.37it/s] 47%|████▋     | 173965/371472 [2:46:14<15:51:33,  3.46it/s] 47%|████▋     | 173966/371472 [2:46:14<15:06:44,  3.63it/s] 47%|████▋     | 173967/371472 [2:46:14<14:26:45,  3.80it/s] 47%|████▋     | 173968/371472 [2:46:14<14:06:59,  3.89it/s] 47%|████▋     | 173969/371472 [2:46:15<14:53:56,  3.68it/s] 47%|████▋     | 173970/371472 [2:46:15<14:46:19,  3.71it/s] 47%|████▋     | 173971/371472 [2:46:15<14:45:39,  3.72it/s] 47%|████▋     | 173972/371472 [2:46:15<14:49:02,  3.70it/s] 47%|████▋     | 173973/371472 [2:46:16<14:43:38,  3.73it/s] 47%|████▋     | 173974/371472 [2:46:16<14:19:51,  3.83it/s] 47%|████▋     | 173975/371472 [2:46:16<16:02:44,  3.42it/s] 47%|████▋     | 173976/371472 [2:46:17<15:38:25,  3.51it/s] 47%|████▋     | 173977/371472 [2:46:17<15:50:01,  3.46it/s] 47%|████▋     | 173978/371472 [2:46:17<16:12:08,  3.39it/s] 47%|████▋     | 173979/371472 [2:46:17<16:30:25,  3.32it/s] 47%|████▋     | 173980/371472 [2:46:18<16:06:25,  3.41it/s]                                                            {'loss': 3.2881, 'learning_rate': 5.787401150638884e-07, 'epoch': 7.49}
 47%|████▋     | 173980/371472 [2:46:18<16:06:25,  3.41it/s] 47%|████▋     | 173981/371472 [2:46:18<16:35:49,  3.31it/s] 47%|████▋     | 173982/371472 [2:46:18<15:34:53,  3.52it/s] 47%|████▋     | 173983/371472 [2:46:19<15:12:14,  3.61it/s] 47%|████▋     | 173984/371472 [2:46:19<14:50:26,  3.70it/s] 47%|████▋     | 173985/371472 [2:46:19<14:51:44,  3.69it/s] 47%|████▋     | 173986/371472 [2:46:19<14:39:21,  3.74it/s] 47%|████▋     | 173987/371472 [2:46:20<14:33:28,  3.77it/s] 47%|████▋     | 173988/371472 [2:46:20<14:14:58,  3.85it/s] 47%|████▋     | 173989/371472 [2:46:20<15:08:50,  3.62it/s] 47%|████▋     | 173990/371472 [2:46:20<14:52:17,  3.69it/s] 47%|████▋     | 173991/371472 [2:46:21<14:16:11,  3.84it/s] 47%|████▋     | 173992/371472 [2:46:21<14:33:35,  3.77it/s] 47%|████▋     | 173993/371472 [2:46:21<17:34:48,  3.12it/s] 47%|████▋     | 173994/371472 [2:46:22<16:18:09,  3.36it/s] 47%|████▋     | 173995/371472 [2:46:22<16:15:16,  3.37it/s] 47%|████▋     | 173996/371472 [2:46:22<15:38:54,  3.51it/s] 47%|████▋     | 173997/371472 [2:46:22<15:28:04,  3.55it/s] 47%|████▋     | 173998/371472 [2:46:23<16:35:55,  3.30it/s] 47%|████▋     | 173999/371472 [2:46:23<15:30:13,  3.54it/s] 47%|████▋     | 174000/371472 [2:46:23<15:59:51,  3.43it/s]                                                            {'loss': 3.1626, 'learning_rate': 5.786916330884096e-07, 'epoch': 7.49}
 47%|████▋     | 174000/371472 [2:46:23<15:59:51,  3.43it/s] 47%|████▋     | 174001/371472 [2:46:24<15:49:14,  3.47it/s] 47%|████▋     | 174002/371472 [2:46:24<18:46:13,  2.92it/s] 47%|████▋     | 174003/371472 [2:46:24<18:36:34,  2.95it/s] 47%|████▋     | 174004/371472 [2:46:25<18:09:19,  3.02it/s] 47%|████▋     | 174005/371472 [2:46:25<17:16:17,  3.18it/s] 47%|████▋     | 174006/371472 [2:46:25<16:10:48,  3.39it/s] 47%|████▋     | 174007/371472 [2:46:26<15:53:54,  3.45it/s] 47%|████▋     | 174008/371472 [2:46:26<15:26:21,  3.55it/s] 47%|████▋     | 174009/371472 [2:46:26<15:03:05,  3.64it/s] 47%|████▋     | 174010/371472 [2:46:26<15:08:06,  3.62it/s] 47%|████▋     | 174011/371472 [2:46:27<15:17:49,  3.59it/s] 47%|████▋     | 174012/371472 [2:46:27<18:53:13,  2.90it/s] 47%|████▋     | 174013/371472 [2:46:27<17:24:54,  3.15it/s] 47%|████▋     | 174014/371472 [2:46:28<17:36:41,  3.11it/s] 47%|████▋     | 174015/371472 [2:46:28<16:53:22,  3.25it/s] 47%|████▋     | 174016/371472 [2:46:28<15:56:14,  3.44it/s] 47%|████▋     | 174017/371472 [2:46:28<15:36:35,  3.51it/s] 47%|████▋     | 174018/371472 [2:46:29<15:08:56,  3.62it/s] 47%|████▋     | 174019/371472 [2:46:29<15:22:08,  3.57it/s] 47%|████▋     | 174020/371472 [2:46:29<15:46:34,  3.48it/s]                                                            {'loss': 2.886, 'learning_rate': 5.786431511129308e-07, 'epoch': 7.5}
 47%|████▋     | 174020/371472 [2:46:29<15:46:34,  3.48it/s] 47%|████▋     | 174021/371472 [2:46:30<15:31:38,  3.53it/s] 47%|████▋     | 174022/371472 [2:46:30<15:36:41,  3.51it/s] 47%|████▋     | 174023/371472 [2:46:30<15:18:20,  3.58it/s] 47%|████▋     | 174024/371472 [2:46:30<16:00:32,  3.43it/s] 47%|████▋     | 174025/371472 [2:46:31<15:39:25,  3.50it/s] 47%|████▋     | 174026/371472 [2:46:31<15:10:27,  3.61it/s] 47%|████▋     | 174027/371472 [2:46:31<14:49:28,  3.70it/s] 47%|████▋     | 174028/371472 [2:46:32<14:54:44,  3.68it/s] 47%|████▋     | 174029/371472 [2:46:32<15:25:03,  3.56it/s] 47%|████▋     | 174030/371472 [2:46:32<15:36:48,  3.51it/s] 47%|████▋     | 174031/371472 [2:46:32<16:24:38,  3.34it/s] 47%|████▋     | 174032/371472 [2:46:33<15:33:14,  3.53it/s] 47%|████▋     | 174033/371472 [2:46:33<16:16:05,  3.37it/s] 47%|████▋     | 174034/371472 [2:46:33<15:56:03,  3.44it/s] 47%|████▋     | 174035/371472 [2:46:34<15:48:38,  3.47it/s] 47%|████▋     | 174036/371472 [2:46:34<15:39:52,  3.50it/s] 47%|████▋     | 174037/371472 [2:46:34<16:09:37,  3.39it/s] 47%|████▋     | 174038/371472 [2:46:34<15:49:03,  3.47it/s] 47%|████▋     | 174039/371472 [2:46:35<15:23:59,  3.56it/s] 47%|████▋     | 174040/371472 [2:46:35<16:41:11,  3.29it/s]                                                            {'loss': 3.1666, 'learning_rate': 5.785946691374517e-07, 'epoch': 7.5}
 47%|████▋     | 174040/371472 [2:46:35<16:41:11,  3.29it/s] 47%|████▋     | 174041/371472 [2:46:35<16:36:45,  3.30it/s] 47%|████▋     | 174042/371472 [2:46:36<15:40:19,  3.50it/s] 47%|████▋     | 174043/371472 [2:46:36<16:05:57,  3.41it/s] 47%|████▋     | 174044/371472 [2:46:36<16:20:31,  3.36it/s] 47%|████▋     | 174045/371472 [2:46:37<15:52:07,  3.46it/s] 47%|████▋     | 174046/371472 [2:46:37<15:54:59,  3.45it/s] 47%|████▋     | 174047/371472 [2:46:37<15:55:13,  3.44it/s] 47%|████▋     | 174048/371472 [2:46:37<15:42:08,  3.49it/s] 47%|████▋     | 174049/371472 [2:46:38<16:01:34,  3.42it/s] 47%|████▋     | 174050/371472 [2:46:38<15:48:18,  3.47it/s] 47%|████▋     | 174051/371472 [2:46:38<15:11:48,  3.61it/s] 47%|████▋     | 174052/371472 [2:46:39<15:18:31,  3.58it/s] 47%|████▋     | 174053/371472 [2:46:39<15:53:08,  3.45it/s] 47%|████▋     | 174054/371472 [2:46:39<15:32:37,  3.53it/s] 47%|████▋     | 174055/371472 [2:46:39<15:18:06,  3.58it/s] 47%|████▋     | 174056/371472 [2:46:40<15:25:02,  3.56it/s] 47%|████▋     | 174057/371472 [2:46:40<15:15:50,  3.59it/s] 47%|████▋     | 174058/371472 [2:46:40<15:06:48,  3.63it/s] 47%|████▋     | 174059/371472 [2:46:40<14:32:16,  3.77it/s] 47%|████▋     | 174060/371472 [2:46:41<14:43:53,  3.72it/s]                                                            {'loss': 3.0405, 'learning_rate': 5.785461871619728e-07, 'epoch': 7.5}
 47%|████▋     | 174060/371472 [2:46:41<14:43:53,  3.72it/s] 47%|████▋     | 174061/371472 [2:46:41<14:29:56,  3.78it/s] 47%|████▋     | 174062/371472 [2:46:41<16:34:08,  3.31it/s] 47%|████▋     | 174063/371472 [2:46:42<16:51:17,  3.25it/s] 47%|████▋     | 174064/371472 [2:46:42<16:05:04,  3.41it/s] 47%|████▋     | 174065/371472 [2:46:42<15:44:28,  3.48it/s] 47%|████▋     | 174066/371472 [2:46:42<15:24:41,  3.56it/s] 47%|████▋     | 174067/371472 [2:46:43<16:04:49,  3.41it/s] 47%|████▋     | 174068/371472 [2:46:43<15:45:00,  3.48it/s] 47%|████▋     | 174069/371472 [2:46:43<15:09:24,  3.62it/s] 47%|████▋     | 174070/371472 [2:46:44<15:33:41,  3.52it/s] 47%|████▋     | 174071/371472 [2:46:44<15:21:06,  3.57it/s] 47%|████▋     | 174072/371472 [2:46:44<16:15:03,  3.37it/s] 47%|████▋     | 174073/371472 [2:46:45<16:33:12,  3.31it/s] 47%|████▋     | 174074/371472 [2:46:45<16:57:00,  3.23it/s] 47%|████▋     | 174075/371472 [2:46:45<17:22:34,  3.16it/s] 47%|████▋     | 174076/371472 [2:46:46<17:05:52,  3.21it/s] 47%|████▋     | 174077/371472 [2:46:46<16:19:18,  3.36it/s] 47%|████▋     | 174078/371472 [2:46:46<16:24:21,  3.34it/s] 47%|████▋     | 174079/371472 [2:46:46<15:47:51,  3.47it/s] 47%|████▋     | 174080/371472 [2:46:47<15:27:25,  3.55it/s]                                                            {'loss': 3.1176, 'learning_rate': 5.78497705186494e-07, 'epoch': 7.5}
 47%|████▋     | 174080/371472 [2:46:47<15:27:25,  3.55it/s] 47%|████▋     | 174081/371472 [2:46:47<15:42:48,  3.49it/s] 47%|████▋     | 174082/371472 [2:46:47<16:00:53,  3.42it/s] 47%|████▋     | 174083/371472 [2:46:47<15:25:52,  3.55it/s] 47%|████▋     | 174084/371472 [2:46:48<15:15:15,  3.59it/s] 47%|████▋     | 174085/371472 [2:46:48<14:58:35,  3.66it/s] 47%|████▋     | 174086/371472 [2:46:48<14:43:56,  3.72it/s] 47%|████▋     | 174087/371472 [2:46:49<14:23:16,  3.81it/s] 47%|████▋     | 174088/371472 [2:46:49<14:48:26,  3.70it/s] 47%|████▋     | 174089/371472 [2:46:49<15:06:02,  3.63it/s] 47%|████▋     | 174090/371472 [2:46:49<14:48:57,  3.70it/s] 47%|████▋     | 174091/371472 [2:46:50<15:08:22,  3.62it/s] 47%|████▋     | 174092/371472 [2:46:50<14:56:53,  3.67it/s] 47%|████▋     | 174093/371472 [2:46:50<14:38:31,  3.74it/s] 47%|████▋     | 174094/371472 [2:46:50<14:39:03,  3.74it/s] 47%|████▋     | 174095/371472 [2:46:51<14:31:49,  3.77it/s] 47%|████▋     | 174096/371472 [2:46:51<15:54:58,  3.44it/s] 47%|████▋     | 174097/371472 [2:46:51<15:36:57,  3.51it/s] 47%|████▋     | 174098/371472 [2:46:52<15:15:50,  3.59it/s] 47%|████▋     | 174099/371472 [2:46:52<14:50:50,  3.69it/s] 47%|████▋     | 174100/371472 [2:46:52<14:28:57,  3.79it/s]                                                            {'loss': 3.0755, 'learning_rate': 5.784492232110151e-07, 'epoch': 7.5}
 47%|████▋     | 174100/371472 [2:46:52<14:28:57,  3.79it/s] 47%|████▋     | 174101/371472 [2:46:52<15:00:35,  3.65it/s] 47%|████▋     | 174102/371472 [2:46:53<15:52:31,  3.45it/s] 47%|████▋     | 174103/371472 [2:46:53<15:43:58,  3.48it/s] 47%|████▋     | 174104/371472 [2:46:53<15:15:05,  3.59it/s] 47%|████▋     | 174105/371472 [2:46:54<15:28:25,  3.54it/s] 47%|████▋     | 174106/371472 [2:46:54<15:37:42,  3.51it/s] 47%|████▋     | 174107/371472 [2:46:54<14:56:27,  3.67it/s] 47%|████▋     | 174108/371472 [2:46:54<17:45:26,  3.09it/s] 47%|████▋     | 174109/371472 [2:46:55<16:40:21,  3.29it/s] 47%|████▋     | 174110/371472 [2:46:55<16:06:20,  3.40it/s] 47%|████▋     | 174111/371472 [2:46:55<15:37:23,  3.51it/s] 47%|████▋     | 174112/371472 [2:46:56<15:28:25,  3.54it/s] 47%|████▋     | 174113/371472 [2:46:56<15:10:56,  3.61it/s] 47%|████▋     | 174114/371472 [2:46:56<16:38:29,  3.29it/s] 47%|████▋     | 174115/371472 [2:46:56<16:17:07,  3.37it/s] 47%|████▋     | 174116/371472 [2:46:57<15:59:09,  3.43it/s] 47%|████▋     | 174117/371472 [2:46:57<17:09:43,  3.19it/s] 47%|████▋     | 174118/371472 [2:46:57<16:35:58,  3.30it/s] 47%|████▋     | 174119/371472 [2:46:58<16:05:35,  3.41it/s] 47%|████▋     | 174120/371472 [2:46:58<16:32:02,  3.32it/s]                                                            {'loss': 3.1125, 'learning_rate': 5.784007412355361e-07, 'epoch': 7.5}
 47%|████▋     | 174120/371472 [2:46:58<16:32:02,  3.32it/s] 47%|████▋     | 174121/371472 [2:46:58<15:43:16,  3.49it/s] 47%|████▋     | 174122/371472 [2:46:59<15:41:37,  3.49it/s] 47%|████▋     | 174123/371472 [2:46:59<15:59:29,  3.43it/s] 47%|████▋     | 174124/371472 [2:46:59<15:42:16,  3.49it/s] 47%|████▋     | 174125/371472 [2:46:59<15:41:00,  3.50it/s] 47%|████▋     | 174126/371472 [2:47:00<15:11:19,  3.61it/s] 47%|████▋     | 174127/371472 [2:47:00<16:35:06,  3.31it/s] 47%|████▋     | 174128/371472 [2:47:00<16:50:11,  3.26it/s] 47%|████▋     | 174129/371472 [2:47:01<16:07:15,  3.40it/s] 47%|████▋     | 174130/371472 [2:47:01<16:28:35,  3.33it/s] 47%|████▋     | 174131/371472 [2:47:01<16:17:42,  3.36it/s] 47%|████▋     | 174132/371472 [2:47:01<15:35:59,  3.51it/s] 47%|████▋     | 174133/371472 [2:47:02<15:15:20,  3.59it/s] 47%|████▋     | 174134/371472 [2:47:02<14:53:23,  3.68it/s] 47%|████▋     | 174135/371472 [2:47:02<14:36:11,  3.75it/s] 47%|████▋     | 174136/371472 [2:47:02<14:39:44,  3.74it/s] 47%|████▋     | 174137/371472 [2:47:03<14:31:40,  3.77it/s] 47%|████▋     | 174138/371472 [2:47:03<14:10:43,  3.87it/s] 47%|████▋     | 174139/371472 [2:47:03<14:47:22,  3.71it/s] 47%|████▋     | 174140/371472 [2:47:04<15:56:39,  3.44it/s]                                                            {'loss': 3.0344, 'learning_rate': 5.783522592600573e-07, 'epoch': 7.5}
 47%|████▋     | 174140/371472 [2:47:04<15:56:39,  3.44it/s] 47%|████▋     | 174141/371472 [2:47:04<15:02:40,  3.64it/s] 47%|████▋     | 174142/371472 [2:47:04<16:02:45,  3.42it/s] 47%|████▋     | 174143/371472 [2:47:05<16:10:12,  3.39it/s] 47%|████▋     | 174144/371472 [2:47:05<15:57:10,  3.44it/s] 47%|████▋     | 174145/371472 [2:47:05<15:21:33,  3.57it/s] 47%|████▋     | 174146/371472 [2:47:05<15:12:50,  3.60it/s] 47%|████▋     | 174147/371472 [2:47:06<16:05:33,  3.41it/s] 47%|████▋     | 174148/371472 [2:47:06<17:06:06,  3.21it/s] 47%|████▋     | 174149/371472 [2:47:06<16:56:15,  3.24it/s] 47%|████▋     | 174150/371472 [2:47:07<16:21:51,  3.35it/s] 47%|████▋     | 174151/371472 [2:47:07<17:20:56,  3.16it/s] 47%|████▋     | 174152/371472 [2:47:07<17:34:50,  3.12it/s] 47%|████▋     | 174153/371472 [2:47:08<16:26:29,  3.33it/s] 47%|████▋     | 174154/371472 [2:47:08<15:46:18,  3.48it/s] 47%|████▋     | 174155/371472 [2:47:08<15:30:21,  3.53it/s] 47%|████▋     | 174156/371472 [2:47:08<15:15:39,  3.59it/s] 47%|████▋     | 174157/371472 [2:47:09<16:09:08,  3.39it/s] 47%|████▋     | 174158/371472 [2:47:09<15:57:59,  3.43it/s] 47%|████▋     | 174159/371472 [2:47:09<15:57:08,  3.44it/s] 47%|████▋     | 174160/371472 [2:47:10<17:15:44,  3.18it/s]                                                            {'loss': 3.0558, 'learning_rate': 5.783037772845785e-07, 'epoch': 7.5}
 47%|████▋     | 174160/371472 [2:47:10<17:15:44,  3.18it/s] 47%|████▋     | 174161/371472 [2:47:10<16:20:27,  3.35it/s] 47%|████▋     | 174162/371472 [2:47:10<15:35:51,  3.51it/s] 47%|████▋     | 174163/371472 [2:47:10<16:51:07,  3.25it/s] 47%|████▋     | 174164/371472 [2:47:11<16:24:22,  3.34it/s] 47%|████▋     | 174165/371472 [2:47:11<16:11:10,  3.39it/s] 47%|████▋     | 174166/371472 [2:47:11<15:52:03,  3.45it/s] 47%|████▋     | 174167/371472 [2:47:12<15:42:21,  3.49it/s] 47%|████▋     | 174168/371472 [2:47:12<16:00:33,  3.42it/s] 47%|████▋     | 174169/371472 [2:47:12<16:19:36,  3.36it/s] 47%|████▋     | 174170/371472 [2:47:12<16:14:27,  3.37it/s] 47%|████▋     | 174171/371472 [2:47:13<16:07:21,  3.40it/s] 47%|████▋     | 174172/371472 [2:47:13<15:42:59,  3.49it/s] 47%|████▋     | 174173/371472 [2:47:13<15:26:32,  3.55it/s] 47%|████▋     | 174174/371472 [2:47:14<15:07:47,  3.62it/s] 47%|████▋     | 174175/371472 [2:47:14<15:04:20,  3.64it/s] 47%|████▋     | 174176/371472 [2:47:14<14:59:35,  3.66it/s] 47%|████▋     | 174177/371472 [2:47:14<15:30:18,  3.53it/s] 47%|████▋     | 174178/371472 [2:47:15<15:41:09,  3.49it/s] 47%|████▋     | 174179/371472 [2:47:15<15:17:54,  3.58it/s] 47%|████▋     | 174180/371472 [2:47:15<14:59:40,  3.65it/s]                                                            {'loss': 3.0114, 'learning_rate': 5.782552953090996e-07, 'epoch': 7.5}
 47%|████▋     | 174180/371472 [2:47:15<14:59:40,  3.65it/s] 47%|████▋     | 174181/371472 [2:47:16<15:31:17,  3.53it/s] 47%|████▋     | 174182/371472 [2:47:16<15:33:28,  3.52it/s] 47%|████▋     | 174183/371472 [2:47:16<15:25:48,  3.55it/s] 47%|████▋     | 174184/371472 [2:47:16<15:16:25,  3.59it/s] 47%|████▋     | 174185/371472 [2:47:17<15:29:41,  3.54it/s] 47%|████▋     | 174186/371472 [2:47:17<16:33:49,  3.31it/s] 47%|████▋     | 174187/371472 [2:47:17<16:52:42,  3.25it/s] 47%|████▋     | 174188/371472 [2:47:18<16:29:48,  3.32it/s] 47%|████▋     | 174189/371472 [2:47:18<15:48:53,  3.47it/s] 47%|████▋     | 174190/371472 [2:47:18<15:36:50,  3.51it/s] 47%|████▋     | 174191/371472 [2:47:18<16:14:54,  3.37it/s] 47%|████▋     | 174192/371472 [2:47:19<16:10:15,  3.39it/s] 47%|████▋     | 174193/371472 [2:47:19<15:37:46,  3.51it/s] 47%|████▋     | 174194/371472 [2:47:19<15:33:29,  3.52it/s] 47%|████▋     | 174195/371472 [2:47:20<15:42:39,  3.49it/s] 47%|████▋     | 174196/371472 [2:47:20<15:47:09,  3.47it/s] 47%|████▋     | 174197/371472 [2:47:20<15:34:00,  3.52it/s] 47%|████▋     | 174198/371472 [2:47:20<15:39:12,  3.50it/s] 47%|████▋     | 174199/371472 [2:47:21<15:48:13,  3.47it/s] 47%|████▋     | 174200/371472 [2:47:21<15:38:18,  3.50it/s]                                                            {'loss': 2.9034, 'learning_rate': 5.782068133336205e-07, 'epoch': 7.5}
 47%|████▋     | 174200/371472 [2:47:21<15:38:18,  3.50it/s] 47%|████▋     | 174201/371472 [2:47:21<15:13:35,  3.60it/s] 47%|████▋     | 174202/371472 [2:47:22<15:32:38,  3.53it/s] 47%|████▋     | 174203/371472 [2:47:22<15:51:20,  3.46it/s] 47%|████▋     | 174204/371472 [2:47:22<15:31:29,  3.53it/s] 47%|████▋     | 174205/371472 [2:47:22<15:24:42,  3.56it/s] 47%|████▋     | 174206/371472 [2:47:23<15:20:19,  3.57it/s] 47%|████▋     | 174207/371472 [2:47:23<14:54:01,  3.68it/s] 47%|████▋     | 174208/371472 [2:47:23<15:48:08,  3.47it/s] 47%|████▋     | 174209/371472 [2:47:24<15:10:57,  3.61it/s] 47%|████▋     | 174210/371472 [2:47:24<16:32:39,  3.31it/s] 47%|████▋     | 174211/371472 [2:47:24<16:26:01,  3.33it/s] 47%|████▋     | 174212/371472 [2:47:24<15:26:04,  3.55it/s] 47%|████▋     | 174213/371472 [2:47:25<15:10:56,  3.61it/s] 47%|████▋     | 174214/371472 [2:47:25<14:54:13,  3.68it/s] 47%|████▋     | 174215/371472 [2:47:25<15:38:47,  3.50it/s] 47%|████▋     | 174216/371472 [2:47:26<17:00:37,  3.22it/s] 47%|████▋     | 174217/371472 [2:47:26<16:29:30,  3.32it/s] 47%|████▋     | 174218/371472 [2:47:26<17:11:31,  3.19it/s] 47%|████▋     | 174219/371472 [2:47:27<17:33:31,  3.12it/s] 47%|████▋     | 174220/371472 [2:47:27<16:53:57,  3.24it/s]                                                            {'loss': 2.9882, 'learning_rate': 5.781583313581417e-07, 'epoch': 7.5}
 47%|████▋     | 174220/371472 [2:47:27<16:53:57,  3.24it/s] 47%|████▋     | 174221/371472 [2:47:27<16:45:51,  3.27it/s] 47%|████▋     | 174222/371472 [2:47:27<16:15:13,  3.37it/s] 47%|████▋     | 174223/371472 [2:47:28<16:05:08,  3.41it/s] 47%|████▋     | 174224/371472 [2:47:28<15:49:15,  3.46it/s] 47%|████▋     | 174225/371472 [2:47:28<15:44:35,  3.48it/s] 47%|████▋     | 174226/371472 [2:47:29<15:36:05,  3.51it/s] 47%|████▋     | 174227/371472 [2:47:29<15:20:50,  3.57it/s] 47%|████▋     | 174228/371472 [2:47:29<14:59:17,  3.66it/s] 47%|████▋     | 174229/371472 [2:47:29<14:40:24,  3.73it/s] 47%|████▋     | 174230/371472 [2:47:30<14:31:38,  3.77it/s] 47%|████▋     | 174231/371472 [2:47:30<14:46:50,  3.71it/s] 47%|████▋     | 174232/371472 [2:47:30<14:49:06,  3.70it/s] 47%|████▋     | 174233/371472 [2:47:30<14:19:53,  3.82it/s] 47%|████▋     | 174234/371472 [2:47:31<14:29:17,  3.78it/s] 47%|████▋     | 174235/371472 [2:47:31<16:07:30,  3.40it/s] 47%|████▋     | 174236/371472 [2:47:31<15:39:26,  3.50it/s] 47%|████▋     | 174237/371472 [2:47:32<15:18:24,  3.58it/s] 47%|████▋     | 174238/371472 [2:47:32<15:10:18,  3.61it/s] 47%|████▋     | 174239/371472 [2:47:32<14:51:05,  3.69it/s] 47%|████▋     | 174240/371472 [2:47:32<15:24:04,  3.56it/s]                                                            {'loss': 3.1813, 'learning_rate': 5.781098493826629e-07, 'epoch': 7.5}
 47%|████▋     | 174240/371472 [2:47:32<15:24:04,  3.56it/s] 47%|████▋     | 174241/371472 [2:47:33<15:35:20,  3.51it/s] 47%|████▋     | 174242/371472 [2:47:33<15:07:04,  3.62it/s] 47%|████▋     | 174243/371472 [2:47:33<15:21:34,  3.57it/s] 47%|████▋     | 174244/371472 [2:47:34<14:48:50,  3.70it/s] 47%|████▋     | 174245/371472 [2:47:34<14:55:55,  3.67it/s] 47%|████▋     | 174246/371472 [2:47:34<14:29:43,  3.78it/s] 47%|████▋     | 174247/371472 [2:47:34<14:24:24,  3.80it/s] 47%|████▋     | 174248/371472 [2:47:35<14:35:55,  3.75it/s] 47%|████▋     | 174249/371472 [2:47:35<16:39:23,  3.29it/s] 47%|████▋     | 174250/371472 [2:47:35<16:23:16,  3.34it/s] 47%|████▋     | 174251/371472 [2:47:36<15:34:33,  3.52it/s] 47%|████▋     | 174252/371472 [2:47:36<15:18:05,  3.58it/s] 47%|████▋     | 174253/371472 [2:47:36<15:46:48,  3.47it/s] 47%|████▋     | 174254/371472 [2:47:36<15:36:19,  3.51it/s] 47%|████▋     | 174255/371472 [2:47:37<15:08:34,  3.62it/s] 47%|████▋     | 174256/371472 [2:47:37<15:18:56,  3.58it/s] 47%|████▋     | 174257/371472 [2:47:37<15:40:46,  3.49it/s] 47%|████▋     | 174258/371472 [2:47:37<15:11:07,  3.61it/s] 47%|████▋     | 174259/371472 [2:47:38<14:56:58,  3.66it/s] 47%|████▋     | 174260/371472 [2:47:38<15:55:43,  3.44it/s]                                                            {'loss': 2.9371, 'learning_rate': 5.780613674071839e-07, 'epoch': 7.51}
 47%|████▋     | 174260/371472 [2:47:38<15:55:43,  3.44it/s] 47%|████▋     | 174261/371472 [2:47:38<15:56:50,  3.44it/s] 47%|████▋     | 174262/371472 [2:47:39<15:31:02,  3.53it/s] 47%|████▋     | 174263/371472 [2:47:39<16:14:56,  3.37it/s] 47%|████▋     | 174264/371472 [2:47:39<15:46:20,  3.47it/s] 47%|████▋     | 174265/371472 [2:47:39<15:31:52,  3.53it/s] 47%|████▋     | 174266/371472 [2:47:40<15:12:26,  3.60it/s] 47%|████▋     | 174267/371472 [2:47:40<14:58:42,  3.66it/s] 47%|████▋     | 174268/371472 [2:47:40<15:18:29,  3.58it/s] 47%|████▋     | 174269/371472 [2:47:41<15:21:38,  3.57it/s] 47%|████▋     | 174270/371472 [2:47:41<15:00:48,  3.65it/s] 47%|████▋     | 174271/371472 [2:47:41<15:35:33,  3.51it/s] 47%|████▋     | 174272/371472 [2:47:41<15:27:00,  3.55it/s] 47%|████▋     | 174273/371472 [2:47:42<16:00:55,  3.42it/s] 47%|████▋     | 174274/371472 [2:47:42<15:29:08,  3.54it/s] 47%|████▋     | 174275/371472 [2:47:42<16:48:39,  3.26it/s] 47%|████▋     | 174276/371472 [2:47:43<16:58:58,  3.23it/s] 47%|████▋     | 174277/371472 [2:47:43<16:13:14,  3.38it/s] 47%|████▋     | 174278/371472 [2:47:43<15:42:55,  3.49it/s] 47%|████▋     | 174279/371472 [2:47:44<15:34:43,  3.52it/s] 47%|████▋     | 174280/371472 [2:47:44<15:43:37,  3.48it/s]                                                            {'loss': 2.9646, 'learning_rate': 5.78012885431705e-07, 'epoch': 7.51}
 47%|████▋     | 174280/371472 [2:47:44<15:43:37,  3.48it/s] 47%|████▋     | 174281/371472 [2:47:44<16:31:49,  3.31it/s] 47%|████▋     | 174282/371472 [2:47:44<16:17:09,  3.36it/s] 47%|████▋     | 174283/371472 [2:47:45<15:55:57,  3.44it/s] 47%|████▋     | 174284/371472 [2:47:45<16:14:01,  3.37it/s] 47%|████▋     | 174285/371472 [2:47:45<15:29:45,  3.53it/s] 47%|████▋     | 174286/371472 [2:47:46<15:40:35,  3.49it/s] 47%|████▋     | 174287/371472 [2:47:46<15:26:18,  3.55it/s] 47%|████▋     | 174288/371472 [2:47:46<15:15:47,  3.59it/s] 47%|████▋     | 174289/371472 [2:47:46<15:07:41,  3.62it/s] 47%|████▋     | 174290/371472 [2:47:47<15:05:15,  3.63it/s] 47%|████▋     | 174291/371472 [2:47:47<15:34:11,  3.52it/s] 47%|████▋     | 174292/371472 [2:47:47<15:11:44,  3.60it/s] 47%|████▋     | 174293/371472 [2:47:48<16:06:03,  3.40it/s] 47%|████▋     | 174294/371472 [2:47:48<16:12:02,  3.38it/s] 47%|████▋     | 174295/371472 [2:47:48<15:21:23,  3.57it/s] 47%|████▋     | 174296/371472 [2:47:48<15:00:51,  3.65it/s] 47%|████▋     | 174297/371472 [2:47:49<15:21:35,  3.57it/s] 47%|████▋     | 174298/371472 [2:47:49<15:03:26,  3.64it/s] 47%|████▋     | 174299/371472 [2:47:49<15:14:51,  3.59it/s] 47%|████▋     | 174300/371472 [2:47:49<15:00:33,  3.65it/s]                                                            {'loss': 3.1272, 'learning_rate': 5.779644034562262e-07, 'epoch': 7.51}
 47%|████▋     | 174300/371472 [2:47:49<15:00:33,  3.65it/s] 47%|████▋     | 174301/371472 [2:47:50<14:49:18,  3.70it/s] 47%|████▋     | 174302/371472 [2:47:50<15:27:35,  3.54it/s] 47%|████▋     | 174303/371472 [2:47:50<15:45:20,  3.48it/s] 47%|████▋     | 174304/371472 [2:47:51<15:11:57,  3.60it/s] 47%|████▋     | 174305/371472 [2:47:51<15:06:39,  3.62it/s] 47%|████▋     | 174306/371472 [2:47:51<14:44:59,  3.71it/s] 47%|████▋     | 174307/371472 [2:47:51<14:26:02,  3.79it/s] 47%|████▋     | 174308/371472 [2:47:52<15:45:16,  3.48it/s] 47%|████▋     | 174309/371472 [2:47:52<15:42:09,  3.49it/s] 47%|████▋     | 174310/371472 [2:47:52<15:35:07,  3.51it/s] 47%|████▋     | 174311/371472 [2:47:53<14:49:42,  3.69it/s] 47%|████▋     | 174312/371472 [2:47:53<14:46:49,  3.71it/s] 47%|████▋     | 174313/371472 [2:47:53<14:38:21,  3.74it/s] 47%|████▋     | 174314/371472 [2:47:53<14:18:52,  3.83it/s] 47%|████▋     | 174315/371472 [2:47:54<14:16:24,  3.84it/s] 47%|████▋     | 174316/371472 [2:47:54<15:19:15,  3.57it/s] 47%|████▋     | 174317/371472 [2:47:54<15:10:43,  3.61it/s] 47%|████▋     | 174318/371472 [2:47:54<15:46:02,  3.47it/s] 47%|████▋     | 174319/371472 [2:47:55<14:57:31,  3.66it/s] 47%|████▋     | 174320/371472 [2:47:55<15:52:48,  3.45it/s]                                                            {'loss': 3.0548, 'learning_rate': 5.779159214807473e-07, 'epoch': 7.51}
 47%|████▋     | 174320/371472 [2:47:55<15:52:48,  3.45it/s] 47%|████▋     | 174321/371472 [2:47:55<15:31:41,  3.53it/s] 47%|████▋     | 174322/371472 [2:47:56<15:16:12,  3.59it/s] 47%|████▋     | 174323/371472 [2:47:56<14:55:45,  3.67it/s] 47%|████▋     | 174324/371472 [2:47:56<14:44:26,  3.72it/s] 47%|████▋     | 174325/371472 [2:47:56<14:16:40,  3.84it/s] 47%|████▋     | 174326/371472 [2:47:57<13:54:14,  3.94it/s] 47%|████▋     | 174327/371472 [2:47:57<14:29:57,  3.78it/s] 47%|████▋     | 174328/371472 [2:47:57<14:21:08,  3.82it/s] 47%|████▋     | 174329/371472 [2:47:57<15:12:27,  3.60it/s] 47%|████▋     | 174330/371472 [2:47:58<16:21:04,  3.35it/s] 47%|████▋     | 174331/371472 [2:47:58<16:10:06,  3.39it/s] 47%|████▋     | 174332/371472 [2:47:58<15:27:05,  3.54it/s] 47%|████▋     | 174333/371472 [2:47:59<14:55:20,  3.67it/s] 47%|████▋     | 174334/371472 [2:47:59<15:04:34,  3.63it/s] 47%|████▋     | 174335/371472 [2:47:59<14:25:08,  3.80it/s] 47%|████▋     | 174336/371472 [2:47:59<14:38:22,  3.74it/s] 47%|████▋     | 174337/371472 [2:48:00<14:44:10,  3.72it/s] 47%|████▋     | 174338/371472 [2:48:00<15:15:13,  3.59it/s] 47%|████▋     | 174339/371472 [2:48:00<15:18:49,  3.58it/s] 47%|████▋     | 174340/371472 [2:48:00<15:27:43,  3.54it/s]                                                            {'loss': 3.2044, 'learning_rate': 5.778674395052683e-07, 'epoch': 7.51}
 47%|████▋     | 174340/371472 [2:48:00<15:27:43,  3.54it/s] 47%|████▋     | 174341/371472 [2:48:01<14:59:32,  3.65it/s] 47%|████▋     | 174342/371472 [2:48:01<14:47:05,  3.70it/s] 47%|████▋     | 174343/371472 [2:48:01<14:30:35,  3.77it/s] 47%|████▋     | 174344/371472 [2:48:01<14:12:32,  3.85it/s] 47%|████▋     | 174345/371472 [2:48:02<14:08:33,  3.87it/s] 47%|████▋     | 174346/371472 [2:48:02<14:15:50,  3.84it/s] 47%|████▋     | 174347/371472 [2:48:02<14:06:40,  3.88it/s] 47%|████▋     | 174348/371472 [2:48:03<14:08:56,  3.87it/s] 47%|████▋     | 174349/371472 [2:48:03<16:27:53,  3.33it/s] 47%|████▋     | 174350/371472 [2:48:03<15:58:55,  3.43it/s] 47%|████▋     | 174351/371472 [2:48:03<15:58:06,  3.43it/s] 47%|████▋     | 174352/371472 [2:48:04<15:36:03,  3.51it/s] 47%|████▋     | 174353/371472 [2:48:04<16:47:53,  3.26it/s] 47%|████▋     | 174354/371472 [2:48:05<19:34:13,  2.80it/s] 47%|████▋     | 174355/371472 [2:48:05<18:05:30,  3.03it/s] 47%|████▋     | 174356/371472 [2:48:05<17:52:13,  3.06it/s] 47%|████▋     | 174357/371472 [2:48:05<17:14:49,  3.17it/s] 47%|████▋     | 174358/371472 [2:48:06<16:47:12,  3.26it/s] 47%|████▋     | 174359/371472 [2:48:06<16:14:28,  3.37it/s] 47%|████▋     | 174360/371472 [2:48:06<15:57:38,  3.43it/s]                                                            {'loss': 3.2039, 'learning_rate': 5.778189575297894e-07, 'epoch': 7.51}
 47%|████▋     | 174360/371472 [2:48:06<15:57:38,  3.43it/s] 47%|████▋     | 174361/371472 [2:48:07<15:38:53,  3.50it/s] 47%|████▋     | 174362/371472 [2:48:07<15:31:13,  3.53it/s] 47%|████▋     | 174363/371472 [2:48:07<15:35:14,  3.51it/s] 47%|████▋     | 174364/371472 [2:48:07<15:35:46,  3.51it/s] 47%|████▋     | 174365/371472 [2:48:08<15:58:11,  3.43it/s] 47%|████▋     | 174366/371472 [2:48:08<15:20:10,  3.57it/s] 47%|████▋     | 174367/371472 [2:48:08<16:03:42,  3.41it/s] 47%|████▋     | 174368/371472 [2:48:09<15:45:16,  3.48it/s] 47%|████▋     | 174369/371472 [2:48:09<15:45:44,  3.47it/s] 47%|████▋     | 174370/371472 [2:48:09<15:14:19,  3.59it/s] 47%|████▋     | 174371/371472 [2:48:09<14:43:04,  3.72it/s] 47%|████▋     | 174372/371472 [2:48:10<14:26:29,  3.79it/s] 47%|████▋     | 174373/371472 [2:48:10<14:38:26,  3.74it/s] 47%|████▋     | 174374/371472 [2:48:10<15:56:12,  3.44it/s] 47%|████▋     | 174375/371472 [2:48:11<16:34:09,  3.30it/s] 47%|████▋     | 174376/371472 [2:48:11<15:56:50,  3.43it/s] 47%|████▋     | 174377/371472 [2:48:11<15:34:42,  3.51it/s] 47%|████▋     | 174378/371472 [2:48:11<16:41:14,  3.28it/s] 47%|████▋     | 174379/371472 [2:48:12<15:42:56,  3.48it/s] 47%|████▋     | 174380/371472 [2:48:12<16:28:52,  3.32it/s]                                                            {'loss': 2.9771, 'learning_rate': 5.777704755543106e-07, 'epoch': 7.51}
 47%|████▋     | 174380/371472 [2:48:12<16:28:52,  3.32it/s] 47%|████▋     | 174381/371472 [2:48:12<15:58:43,  3.43it/s] 47%|████▋     | 174382/371472 [2:48:13<15:55:46,  3.44it/s] 47%|████▋     | 174383/371472 [2:48:13<15:18:15,  3.58it/s] 47%|████▋     | 174384/371472 [2:48:13<15:28:20,  3.54it/s] 47%|████▋     | 174385/371472 [2:48:13<15:25:52,  3.55it/s] 47%|████▋     | 174386/371472 [2:48:14<16:28:11,  3.32it/s] 47%|████▋     | 174387/371472 [2:48:14<16:01:59,  3.41it/s] 47%|████▋     | 174388/371472 [2:48:14<15:45:01,  3.48it/s] 47%|████▋     | 174389/371472 [2:48:15<15:26:03,  3.55it/s] 47%|████▋     | 174390/371472 [2:48:15<15:29:35,  3.53it/s] 47%|████▋     | 174391/371472 [2:48:15<15:36:17,  3.51it/s] 47%|████▋     | 174392/371472 [2:48:15<15:54:57,  3.44it/s] 47%|████▋     | 174393/371472 [2:48:16<16:31:05,  3.31it/s] 47%|████▋     | 174394/371472 [2:48:16<16:19:52,  3.35it/s] 47%|████▋     | 174395/371472 [2:48:16<15:48:58,  3.46it/s] 47%|████▋     | 174396/371472 [2:48:17<15:48:44,  3.46it/s] 47%|████▋     | 174397/371472 [2:48:17<15:52:23,  3.45it/s] 47%|████▋     | 174398/371472 [2:48:17<17:01:53,  3.21it/s] 47%|████▋     | 174399/371472 [2:48:18<16:18:54,  3.36it/s] 47%|████▋     | 174400/371472 [2:48:18<16:10:09,  3.39it/s]                                                            {'loss': 2.9954, 'learning_rate': 5.777219935788318e-07, 'epoch': 7.51}
 47%|████▋     | 174400/371472 [2:48:18<16:10:09,  3.39it/s] 47%|████▋     | 174401/371472 [2:48:18<15:43:47,  3.48it/s] 47%|████▋     | 174402/371472 [2:48:18<15:08:41,  3.61it/s] 47%|████▋     | 174403/371472 [2:48:19<15:36:09,  3.51it/s] 47%|████▋     | 174404/371472 [2:48:19<15:15:48,  3.59it/s] 47%|████▋     | 174405/371472 [2:48:19<15:02:32,  3.64it/s] 47%|████▋     | 174406/371472 [2:48:20<15:51:20,  3.45it/s] 47%|████▋     | 174407/371472 [2:48:20<16:11:37,  3.38it/s] 47%|████▋     | 174408/371472 [2:48:20<15:40:44,  3.49it/s] 47%|████▋     | 174409/371472 [2:48:20<16:06:33,  3.40it/s] 47%|████▋     | 174410/371472 [2:48:21<16:37:13,  3.29it/s] 47%|████▋     | 174411/371472 [2:48:21<15:54:52,  3.44it/s] 47%|████▋     | 174412/371472 [2:48:21<16:02:16,  3.41it/s] 47%|████▋     | 174413/371472 [2:48:22<16:19:41,  3.35it/s] 47%|████▋     | 174414/371472 [2:48:22<15:28:13,  3.54it/s] 47%|████▋     | 174415/371472 [2:48:22<15:17:01,  3.58it/s] 47%|████▋     | 174416/371472 [2:48:22<15:07:48,  3.62it/s] 47%|████▋     | 174417/371472 [2:48:23<15:14:31,  3.59it/s] 47%|████▋     | 174418/371472 [2:48:23<15:11:21,  3.60it/s] 47%|████▋     | 174419/371472 [2:48:23<15:43:23,  3.48it/s] 47%|████▋     | 174420/371472 [2:48:24<15:33:46,  3.52it/s]                                                            {'loss': 3.171, 'learning_rate': 5.776735116033528e-07, 'epoch': 7.51}
 47%|████▋     | 174420/371472 [2:48:24<15:33:46,  3.52it/s] 47%|████▋     | 174421/371472 [2:48:24<15:20:51,  3.57it/s] 47%|████▋     | 174422/371472 [2:48:24<14:53:14,  3.68it/s] 47%|████▋     | 174423/371472 [2:48:24<15:51:27,  3.45it/s] 47%|████▋     | 174424/371472 [2:48:25<15:48:48,  3.46it/s] 47%|████▋     | 174425/371472 [2:48:25<16:28:32,  3.32it/s] 47%|████▋     | 174426/371472 [2:48:25<15:38:07,  3.50it/s] 47%|████▋     | 174427/371472 [2:48:26<16:20:53,  3.35it/s] 47%|████▋     | 174428/371472 [2:48:26<16:28:00,  3.32it/s] 47%|████▋     | 174429/371472 [2:48:26<16:19:37,  3.35it/s] 47%|████▋     | 174430/371472 [2:48:26<15:22:03,  3.56it/s] 47%|████▋     | 174431/371472 [2:48:27<17:25:27,  3.14it/s] 47%|████▋     | 174432/371472 [2:48:27<16:57:08,  3.23it/s] 47%|████▋     | 174433/371472 [2:48:27<16:15:08,  3.37it/s] 47%|████▋     | 174434/371472 [2:48:28<15:50:00,  3.46it/s] 47%|████▋     | 174435/371472 [2:48:28<15:14:14,  3.59it/s] 47%|████▋     | 174436/371472 [2:48:28<15:06:52,  3.62it/s] 47%|████▋     | 174437/371472 [2:48:28<14:44:54,  3.71it/s] 47%|████▋     | 174438/371472 [2:48:29<14:53:24,  3.68it/s] 47%|████▋     | 174439/371472 [2:48:29<14:48:32,  3.70it/s] 47%|████▋     | 174440/371472 [2:48:29<14:47:24,  3.70it/s]                                                            {'loss': 3.1264, 'learning_rate': 5.776250296278738e-07, 'epoch': 7.51}
 47%|████▋     | 174440/371472 [2:48:29<14:47:24,  3.70it/s] 47%|████▋     | 174441/371472 [2:48:30<17:12:30,  3.18it/s] 47%|████▋     | 174442/371472 [2:48:30<16:31:51,  3.31it/s] 47%|████▋     | 174443/371472 [2:48:30<15:42:33,  3.48it/s] 47%|████▋     | 174444/371472 [2:48:30<15:33:43,  3.52it/s] 47%|████▋     | 174445/371472 [2:48:31<15:23:24,  3.56it/s] 47%|████▋     | 174446/371472 [2:48:31<15:56:37,  3.43it/s] 47%|████▋     | 174447/371472 [2:48:31<16:18:29,  3.36it/s] 47%|████▋     | 174448/371472 [2:48:32<15:33:20,  3.52it/s] 47%|████▋     | 174449/371472 [2:48:32<15:01:31,  3.64it/s] 47%|████▋     | 174450/371472 [2:48:32<14:40:23,  3.73it/s] 47%|████▋     | 174451/371472 [2:48:32<15:13:32,  3.59it/s] 47%|████▋     | 174452/371472 [2:48:33<14:54:09,  3.67it/s] 47%|████▋     | 174453/371472 [2:48:33<14:29:25,  3.78it/s] 47%|████▋     | 174454/371472 [2:48:33<14:38:01,  3.74it/s] 47%|████▋     | 174455/371472 [2:48:34<14:44:02,  3.71it/s] 47%|████▋     | 174456/371472 [2:48:34<14:08:07,  3.87it/s] 47%|████▋     | 174457/371472 [2:48:34<14:47:42,  3.70it/s] 47%|████▋     | 174458/371472 [2:48:34<14:48:42,  3.69it/s] 47%|████▋     | 174459/371472 [2:48:35<15:03:42,  3.63it/s] 47%|████▋     | 174460/371472 [2:48:35<15:30:18,  3.53it/s]                                                            {'loss': 3.0471, 'learning_rate': 5.77576547652395e-07, 'epoch': 7.51}
 47%|████▋     | 174460/371472 [2:48:35<15:30:18,  3.53it/s] 47%|████▋     | 174461/371472 [2:48:35<15:07:41,  3.62it/s] 47%|████▋     | 174462/371472 [2:48:35<15:04:55,  3.63it/s] 47%|████▋     | 174463/371472 [2:48:36<15:29:24,  3.53it/s] 47%|████▋     | 174464/371472 [2:48:36<15:50:39,  3.45it/s] 47%|████▋     | 174465/371472 [2:48:36<15:24:08,  3.55it/s] 47%|████▋     | 174466/371472 [2:48:37<15:45:13,  3.47it/s] 47%|████▋     | 174467/371472 [2:48:37<15:53:58,  3.44it/s] 47%|████▋     | 174468/371472 [2:48:37<16:48:45,  3.25it/s] 47%|████▋     | 174469/371472 [2:48:38<16:03:42,  3.41it/s] 47%|████▋     | 174470/371472 [2:48:38<15:29:05,  3.53it/s] 47%|████▋     | 174471/371472 [2:48:38<15:25:43,  3.55it/s] 47%|████▋     | 174472/371472 [2:48:38<16:58:49,  3.22it/s] 47%|████▋     | 174473/371472 [2:48:39<16:38:29,  3.29it/s] 47%|████▋     | 174474/371472 [2:48:39<16:14:42,  3.37it/s] 47%|████▋     | 174475/371472 [2:48:39<15:38:40,  3.50it/s] 47%|████▋     | 174476/371472 [2:48:40<15:24:01,  3.55it/s] 47%|████▋     | 174477/371472 [2:48:40<15:17:25,  3.58it/s] 47%|████▋     | 174478/371472 [2:48:40<14:46:17,  3.70it/s] 47%|████▋     | 174479/371472 [2:48:40<15:04:23,  3.63it/s] 47%|████▋     | 174480/371472 [2:48:41<15:14:47,  3.59it/s]                                                            {'loss': 3.1773, 'learning_rate': 5.77528065676916e-07, 'epoch': 7.52}
 47%|████▋     | 174480/371472 [2:48:41<15:14:47,  3.59it/s] 47%|████▋     | 174481/371472 [2:48:41<14:43:43,  3.72it/s] 47%|████▋     | 174482/371472 [2:48:41<14:25:10,  3.79it/s] 47%|████▋     | 174483/371472 [2:48:41<14:25:18,  3.79it/s] 47%|████▋     | 174484/371472 [2:48:42<14:49:05,  3.69it/s] 47%|████▋     | 174485/371472 [2:48:42<14:47:05,  3.70it/s] 47%|████▋     | 174486/371472 [2:48:42<15:45:23,  3.47it/s] 47%|████▋     | 174487/371472 [2:48:43<16:44:26,  3.27it/s] 47%|████▋     | 174488/371472 [2:48:43<18:28:10,  2.96it/s] 47%|████▋     | 174489/371472 [2:48:43<17:33:20,  3.12it/s] 47%|████▋     | 174490/371472 [2:48:44<17:23:14,  3.15it/s] 47%|████▋     | 174491/371472 [2:48:44<16:50:30,  3.25it/s] 47%|████▋     | 174492/371472 [2:48:44<16:21:27,  3.35it/s] 47%|████▋     | 174493/371472 [2:48:44<16:32:00,  3.31it/s] 47%|████▋     | 174494/371472 [2:48:45<16:01:19,  3.42it/s] 47%|████▋     | 174495/371472 [2:48:45<15:58:15,  3.43it/s] 47%|████▋     | 174496/371472 [2:48:45<15:47:44,  3.46it/s] 47%|████▋     | 174497/371472 [2:48:46<15:02:14,  3.64it/s] 47%|████▋     | 174498/371472 [2:48:46<15:04:07,  3.63it/s] 47%|████▋     | 174499/371472 [2:48:46<14:54:38,  3.67it/s] 47%|████▋     | 174500/371472 [2:48:46<14:25:32,  3.79it/s]                                                            {'loss': 3.1103, 'learning_rate': 5.774795837014371e-07, 'epoch': 7.52}
 47%|████▋     | 174500/371472 [2:48:46<14:25:32,  3.79it/s] 47%|████▋     | 174501/371472 [2:48:47<14:57:21,  3.66it/s] 47%|████▋     | 174502/371472 [2:48:47<14:59:16,  3.65it/s] 47%|████▋     | 174503/371472 [2:48:47<14:25:52,  3.79it/s] 47%|████▋     | 174504/371472 [2:48:47<14:20:31,  3.81it/s] 47%|████▋     | 174505/371472 [2:48:48<14:27:29,  3.78it/s] 47%|████▋     | 174506/371472 [2:48:48<15:45:33,  3.47it/s] 47%|████▋     | 174507/371472 [2:48:48<15:04:34,  3.63it/s] 47%|████▋     | 174508/371472 [2:48:49<14:27:22,  3.78it/s] 47%|████▋     | 174509/371472 [2:48:49<14:04:07,  3.89it/s] 47%|████▋     | 174510/371472 [2:48:49<13:50:24,  3.95it/s] 47%|████▋     | 174511/371472 [2:48:49<13:57:01,  3.92it/s] 47%|████▋     | 174512/371472 [2:48:50<14:28:47,  3.78it/s] 47%|████▋     | 174513/371472 [2:48:50<14:58:47,  3.65it/s] 47%|████▋     | 174514/371472 [2:48:50<15:33:25,  3.52it/s] 47%|████▋     | 174515/371472 [2:48:50<15:37:47,  3.50it/s] 47%|████▋     | 174516/371472 [2:48:51<14:54:29,  3.67it/s] 47%|████▋     | 174517/371472 [2:48:51<14:38:12,  3.74it/s] 47%|████▋     | 174518/371472 [2:48:51<15:09:44,  3.61it/s] 47%|████▋     | 174519/371472 [2:48:51<14:41:52,  3.72it/s] 47%|████▋     | 174520/371472 [2:48:52<14:21:24,  3.81it/s]                                                            {'loss': 3.1294, 'learning_rate': 5.774311017259583e-07, 'epoch': 7.52}
 47%|████▋     | 174520/371472 [2:48:52<14:21:24,  3.81it/s] 47%|████▋     | 174521/371472 [2:48:52<15:04:11,  3.63it/s] 47%|████▋     | 174522/371472 [2:48:52<15:50:33,  3.45it/s] 47%|████▋     | 174523/371472 [2:48:53<15:01:33,  3.64it/s] 47%|████▋     | 174524/371472 [2:48:53<15:15:11,  3.59it/s] 47%|████▋     | 174525/371472 [2:48:53<15:21:34,  3.56it/s] 47%|████▋     | 174526/371472 [2:48:53<15:19:16,  3.57it/s] 47%|████▋     | 174527/371472 [2:48:54<15:07:59,  3.62it/s] 47%|████▋     | 174528/371472 [2:48:54<14:39:49,  3.73it/s] 47%|████▋     | 174529/371472 [2:48:54<14:12:21,  3.85it/s] 47%|████▋     | 174530/371472 [2:48:54<14:15:11,  3.84it/s] 47%|████▋     | 174531/371472 [2:48:55<14:45:19,  3.71it/s] 47%|████▋     | 174532/371472 [2:48:55<14:47:36,  3.70it/s] 47%|████▋     | 174533/371472 [2:48:55<15:06:59,  3.62it/s] 47%|████▋     | 174534/371472 [2:48:56<14:41:24,  3.72it/s] 47%|████▋     | 174535/371472 [2:48:56<14:33:56,  3.76it/s] 47%|████▋     | 174536/371472 [2:48:56<15:14:02,  3.59it/s] 47%|████▋     | 174537/371472 [2:48:56<15:15:39,  3.58it/s] 47%|████▋     | 174538/371472 [2:48:57<15:10:19,  3.61it/s] 47%|████▋     | 174539/371472 [2:48:57<15:02:29,  3.64it/s] 47%|████▋     | 174540/371472 [2:48:57<15:47:48,  3.46it/s]                                                            {'loss': 3.0261, 'learning_rate': 5.773826197504796e-07, 'epoch': 7.52}
 47%|████▋     | 174540/371472 [2:48:57<15:47:48,  3.46it/s] 47%|████▋     | 174541/371472 [2:48:58<16:31:02,  3.31it/s] 47%|████▋     | 174542/371472 [2:48:58<15:47:04,  3.47it/s] 47%|████▋     | 174543/371472 [2:48:58<16:19:10,  3.35it/s] 47%|████▋     | 174544/371472 [2:48:58<16:03:32,  3.41it/s] 47%|████▋     | 174545/371472 [2:48:59<15:41:08,  3.49it/s] 47%|████▋     | 174546/371472 [2:48:59<15:30:50,  3.53it/s] 47%|████▋     | 174547/371472 [2:48:59<15:22:06,  3.56it/s] 47%|████▋     | 174548/371472 [2:49:00<15:38:35,  3.50it/s] 47%|████▋     | 174549/371472 [2:49:00<15:28:29,  3.53it/s] 47%|████▋     | 174550/371472 [2:49:00<14:55:25,  3.67it/s] 47%|████▋     | 174551/371472 [2:49:00<15:29:05,  3.53it/s] 47%|████▋     | 174552/371472 [2:49:01<15:17:06,  3.58it/s] 47%|████▋     | 174553/371472 [2:49:01<14:48:00,  3.70it/s] 47%|████▋     | 174554/371472 [2:49:01<14:29:28,  3.77it/s] 47%|████▋     | 174555/371472 [2:49:02<15:03:14,  3.63it/s] 47%|████▋     | 174556/371472 [2:49:02<15:03:51,  3.63it/s] 47%|████▋     | 174557/371472 [2:49:02<15:19:48,  3.57it/s] 47%|████▋     | 174558/371472 [2:49:02<15:03:58,  3.63it/s] 47%|████▋     | 174559/371472 [2:49:03<15:09:52,  3.61it/s] 47%|████▋     | 174560/371472 [2:49:03<15:49:08,  3.46it/s]                                                            {'loss': 3.0889, 'learning_rate': 5.773341377750005e-07, 'epoch': 7.52}
 47%|████▋     | 174560/371472 [2:49:03<15:49:08,  3.46it/s] 47%|████▋     | 174561/371472 [2:49:03<15:06:23,  3.62it/s] 47%|████▋     | 174562/371472 [2:49:03<15:25:38,  3.55it/s] 47%|████▋     | 174563/371472 [2:49:04<14:55:42,  3.66it/s] 47%|████▋     | 174564/371472 [2:49:04<15:23:45,  3.55it/s] 47%|████▋     | 174565/371472 [2:49:04<15:28:40,  3.53it/s] 47%|████▋     | 174566/371472 [2:49:05<14:54:52,  3.67it/s] 47%|████▋     | 174567/371472 [2:49:05<14:54:21,  3.67it/s] 47%|████▋     | 174568/371472 [2:49:05<14:47:37,  3.70it/s] 47%|████▋     | 174569/371472 [2:49:05<15:01:10,  3.64it/s] 47%|████▋     | 174570/371472 [2:49:06<14:52:58,  3.68it/s] 47%|████▋     | 174571/371472 [2:49:06<14:45:33,  3.71it/s] 47%|████▋     | 174572/371472 [2:49:06<15:14:37,  3.59it/s] 47%|████▋     | 174573/371472 [2:49:07<15:24:37,  3.55it/s] 47%|████▋     | 174574/371472 [2:49:07<15:47:16,  3.46it/s] 47%|████▋     | 174575/371472 [2:49:07<15:22:07,  3.56it/s] 47%|████▋     | 174576/371472 [2:49:07<15:04:56,  3.63it/s] 47%|████▋     | 174577/371472 [2:49:08<15:07:49,  3.61it/s] 47%|████▋     | 174578/371472 [2:49:08<15:28:27,  3.53it/s] 47%|████▋     | 174579/371472 [2:49:08<15:10:20,  3.60it/s] 47%|████▋     | 174580/371472 [2:49:08<15:26:50,  3.54it/s]                                                            {'loss': 3.2916, 'learning_rate': 5.772856557995215e-07, 'epoch': 7.52}
 47%|████▋     | 174580/371472 [2:49:08<15:26:50,  3.54it/s] 47%|████▋     | 174581/371472 [2:49:09<15:38:18,  3.50it/s] 47%|████▋     | 174582/371472 [2:49:09<15:14:08,  3.59it/s] 47%|████▋     | 174583/371472 [2:49:09<16:01:48,  3.41it/s] 47%|████▋     | 174584/371472 [2:49:10<16:33:02,  3.30it/s] 47%|████▋     | 174585/371472 [2:49:10<16:19:53,  3.35it/s] 47%|████▋     | 174586/371472 [2:49:10<16:16:41,  3.36it/s] 47%|████▋     | 174587/371472 [2:49:11<17:07:23,  3.19it/s] 47%|████▋     | 174588/371472 [2:49:11<17:40:08,  3.10it/s] 47%|████▋     | 174589/371472 [2:49:11<18:13:54,  3.00it/s] 47%|████▋     | 174590/371472 [2:49:12<17:26:58,  3.13it/s] 47%|████▋     | 174591/371472 [2:49:12<16:18:43,  3.35it/s] 47%|████▋     | 174592/371472 [2:49:12<15:55:42,  3.43it/s] 47%|████▋     | 174593/371472 [2:49:13<17:15:40,  3.17it/s] 47%|████▋     | 174594/371472 [2:49:13<17:05:51,  3.20it/s] 47%|████▋     | 174595/371472 [2:49:13<17:16:19,  3.17it/s] 47%|████▋     | 174596/371472 [2:49:13<16:48:29,  3.25it/s] 47%|████▋     | 174597/371472 [2:49:14<16:33:45,  3.30it/s] 47%|████▋     | 174598/371472 [2:49:14<16:41:16,  3.28it/s] 47%|████▋     | 174599/371472 [2:49:14<17:14:05,  3.17it/s] 47%|████▋     | 174600/371472 [2:49:15<16:24:33,  3.33it/s]                                                            {'loss': 3.049, 'learning_rate': 5.772371738240427e-07, 'epoch': 7.52}
 47%|████▋     | 174600/371472 [2:49:15<16:24:33,  3.33it/s] 47%|████▋     | 174601/371472 [2:49:15<15:34:54,  3.51it/s] 47%|████▋     | 174602/371472 [2:49:15<15:47:24,  3.46it/s] 47%|████▋     | 174603/371472 [2:49:15<15:17:28,  3.58it/s] 47%|████▋     | 174604/371472 [2:49:16<14:35:22,  3.75it/s] 47%|████▋     | 174605/371472 [2:49:16<14:51:14,  3.68it/s] 47%|████▋     | 174606/371472 [2:49:16<15:28:55,  3.53it/s] 47%|████▋     | 174607/371472 [2:49:17<15:31:07,  3.52it/s] 47%|████▋     | 174608/371472 [2:49:17<15:40:41,  3.49it/s] 47%|████▋     | 174609/371472 [2:49:17<15:34:58,  3.51it/s] 47%|████▋     | 174610/371472 [2:49:17<15:56:25,  3.43it/s] 47%|████▋     | 174611/371472 [2:49:18<15:50:21,  3.45it/s] 47%|████▋     | 174612/371472 [2:49:18<15:31:53,  3.52it/s] 47%|████▋     | 174613/371472 [2:49:18<15:45:25,  3.47it/s] 47%|████▋     | 174614/371472 [2:49:19<16:41:47,  3.28it/s] 47%|████▋     | 174615/371472 [2:49:19<15:40:20,  3.49it/s] 47%|████▋     | 174616/371472 [2:49:19<16:32:17,  3.31it/s] 47%|████▋     | 174617/371472 [2:49:19<15:57:19,  3.43it/s] 47%|████▋     | 174618/371472 [2:49:20<15:14:00,  3.59it/s] 47%|████▋     | 174619/371472 [2:49:20<15:03:27,  3.63it/s] 47%|████▋     | 174620/371472 [2:49:20<14:37:06,  3.74it/s]                                                            {'loss': 3.0765, 'learning_rate': 5.771886918485639e-07, 'epoch': 7.52}
 47%|████▋     | 174620/371472 [2:49:20<14:37:06,  3.74it/s] 47%|████▋     | 174621/371472 [2:49:21<15:05:08,  3.62it/s] 47%|████▋     | 174622/371472 [2:49:21<14:43:39,  3.71it/s] 47%|████▋     | 174623/371472 [2:49:21<14:51:16,  3.68it/s] 47%|████▋     | 174624/371472 [2:49:21<14:57:37,  3.65it/s] 47%|████▋     | 174625/371472 [2:49:22<16:22:21,  3.34it/s] 47%|████▋     | 174626/371472 [2:49:22<15:30:07,  3.53it/s] 47%|████▋     | 174627/371472 [2:49:22<15:10:48,  3.60it/s] 47%|████▋     | 174628/371472 [2:49:23<15:16:16,  3.58it/s] 47%|████▋     | 174629/371472 [2:49:23<14:52:51,  3.67it/s] 47%|████▋     | 174630/371472 [2:49:23<14:59:29,  3.65it/s] 47%|████▋     | 174631/371472 [2:49:23<15:21:55,  3.56it/s] 47%|████▋     | 174632/371472 [2:49:24<15:28:06,  3.53it/s] 47%|████▋     | 174633/371472 [2:49:24<15:43:25,  3.48it/s] 47%|████▋     | 174634/371472 [2:49:24<15:43:23,  3.48it/s] 47%|████▋     | 174635/371472 [2:49:25<16:04:17,  3.40it/s] 47%|████▋     | 174636/371472 [2:49:25<16:08:05,  3.39it/s] 47%|████▋     | 174637/371472 [2:49:25<15:51:23,  3.45it/s] 47%|████▋     | 174638/371472 [2:49:25<15:45:10,  3.47it/s] 47%|████▋     | 174639/371472 [2:49:26<16:32:58,  3.30it/s] 47%|████▋     | 174640/371472 [2:49:26<17:00:01,  3.22it/s]                                                            {'loss': 2.9947, 'learning_rate': 5.771402098730849e-07, 'epoch': 7.52}
 47%|████▋     | 174640/371472 [2:49:26<17:00:01,  3.22it/s] 47%|████▋     | 174641/371472 [2:49:26<16:55:18,  3.23it/s] 47%|████▋     | 174642/371472 [2:49:27<16:44:10,  3.27it/s] 47%|████▋     | 174643/371472 [2:49:27<16:18:50,  3.35it/s] 47%|████▋     | 174644/371472 [2:49:27<16:21:49,  3.34it/s] 47%|████▋     | 174645/371472 [2:49:27<15:43:54,  3.48it/s] 47%|████▋     | 174646/371472 [2:49:28<15:26:12,  3.54it/s] 47%|████▋     | 174647/371472 [2:49:28<16:03:02,  3.41it/s] 47%|████▋     | 174648/371472 [2:49:28<16:34:00,  3.30it/s] 47%|████▋     | 174649/371472 [2:49:29<16:20:43,  3.34it/s] 47%|████▋     | 174650/371472 [2:49:29<15:55:15,  3.43it/s] 47%|████▋     | 174651/371472 [2:49:29<16:54:35,  3.23it/s] 47%|████▋     | 174652/371472 [2:49:30<15:54:59,  3.43it/s] 47%|████▋     | 174653/371472 [2:49:30<15:51:08,  3.45it/s] 47%|████▋     | 174654/371472 [2:49:30<15:53:32,  3.44it/s] 47%|████▋     | 174655/371472 [2:49:30<15:44:20,  3.47it/s] 47%|████▋     | 174656/371472 [2:49:31<15:11:52,  3.60it/s] 47%|████▋     | 174657/371472 [2:49:31<15:08:10,  3.61it/s] 47%|████▋     | 174658/371472 [2:49:31<15:30:36,  3.52it/s] 47%|████▋     | 174659/371472 [2:49:32<15:41:39,  3.48it/s] 47%|████▋     | 174660/371472 [2:49:32<15:28:24,  3.53it/s]                                                            {'loss': 3.2539, 'learning_rate': 5.77091727897606e-07, 'epoch': 7.52}
 47%|████▋     | 174660/371472 [2:49:32<15:28:24,  3.53it/s] 47%|████▋     | 174661/371472 [2:49:32<15:15:06,  3.58it/s] 47%|████▋     | 174662/371472 [2:49:32<15:19:08,  3.57it/s] 47%|████▋     | 174663/371472 [2:49:33<15:58:24,  3.42it/s] 47%|████▋     | 174664/371472 [2:49:33<15:59:34,  3.42it/s] 47%|████▋     | 174665/371472 [2:49:33<15:38:39,  3.49it/s] 47%|████▋     | 174666/371472 [2:49:34<16:17:07,  3.36it/s] 47%|████▋     | 174667/371472 [2:49:34<16:06:03,  3.40it/s] 47%|████▋     | 174668/371472 [2:49:34<16:15:48,  3.36it/s] 47%|████▋     | 174669/371472 [2:49:34<15:58:55,  3.42it/s] 47%|████▋     | 174670/371472 [2:49:35<16:14:08,  3.37it/s] 47%|████▋     | 174671/371472 [2:49:35<15:50:12,  3.45it/s] 47%|████▋     | 174672/371472 [2:49:35<14:59:09,  3.65it/s] 47%|████▋     | 174673/371472 [2:49:36<15:30:07,  3.53it/s] 47%|████▋     | 174674/371472 [2:49:36<14:59:58,  3.64it/s] 47%|████▋     | 174675/371472 [2:49:36<15:06:21,  3.62it/s] 47%|████▋     | 174676/371472 [2:49:36<16:19:54,  3.35it/s] 47%|████▋     | 174677/371472 [2:49:37<15:31:06,  3.52it/s] 47%|████▋     | 174678/371472 [2:49:37<16:05:13,  3.40it/s] 47%|████▋     | 174679/371472 [2:49:37<16:13:52,  3.37it/s] 47%|████▋     | 174680/371472 [2:49:38<15:50:32,  3.45it/s]                                                            {'loss': 3.2712, 'learning_rate': 5.770432459221272e-07, 'epoch': 7.52}
 47%|████▋     | 174680/371472 [2:49:38<15:50:32,  3.45it/s] 47%|████▋     | 174681/371472 [2:49:38<15:24:19,  3.55it/s] 47%|████▋     | 174682/371472 [2:49:38<15:38:32,  3.49it/s] 47%|████▋     | 174683/371472 [2:49:38<15:05:53,  3.62it/s] 47%|████▋     | 174684/371472 [2:49:39<14:43:13,  3.71it/s] 47%|████▋     | 174685/371472 [2:49:39<15:51:41,  3.45it/s] 47%|████▋     | 174686/371472 [2:49:39<15:56:07,  3.43it/s] 47%|████▋     | 174687/371472 [2:49:40<16:51:49,  3.24it/s] 47%|████▋     | 174688/371472 [2:49:40<16:14:28,  3.37it/s] 47%|████▋     | 174689/371472 [2:49:40<15:56:15,  3.43it/s] 47%|████▋     | 174690/371472 [2:49:40<15:15:49,  3.58it/s] 47%|████▋     | 174691/371472 [2:49:41<14:28:22,  3.78it/s] 47%|████▋     | 174692/371472 [2:49:41<14:11:07,  3.85it/s] 47%|████▋     | 174693/371472 [2:49:41<14:16:14,  3.83it/s] 47%|████▋     | 174694/371472 [2:49:41<14:50:57,  3.68it/s] 47%|████▋     | 174695/371472 [2:49:42<15:01:22,  3.64it/s] 47%|████▋     | 174696/371472 [2:49:42<16:21:28,  3.34it/s] 47%|████▋     | 174697/371472 [2:49:42<15:39:41,  3.49it/s] 47%|████▋     | 174698/371472 [2:49:43<15:40:48,  3.49it/s] 47%|████▋     | 174699/371472 [2:49:43<15:12:01,  3.60it/s] 47%|████▋     | 174700/371472 [2:49:43<15:32:41,  3.52it/s]                                                            {'loss': 2.9302, 'learning_rate': 5.769947639466483e-07, 'epoch': 7.52}
 47%|████▋     | 174700/371472 [2:49:43<15:32:41,  3.52it/s] 47%|████▋     | 174701/371472 [2:49:44<16:09:06,  3.38it/s] 47%|████▋     | 174702/371472 [2:49:44<16:05:24,  3.40it/s] 47%|████▋     | 174703/371472 [2:49:44<17:18:48,  3.16it/s] 47%|████▋     | 174704/371472 [2:49:44<15:55:22,  3.43it/s] 47%|████▋     | 174705/371472 [2:49:45<15:49:59,  3.45it/s] 47%|████▋     | 174706/371472 [2:49:45<15:01:28,  3.64it/s] 47%|████▋     | 174707/371472 [2:49:45<16:28:33,  3.32it/s] 47%|████▋     | 174708/371472 [2:49:46<15:45:45,  3.47it/s] 47%|████▋     | 174709/371472 [2:49:46<15:41:35,  3.48it/s] 47%|████▋     | 174710/371472 [2:49:46<15:39:21,  3.49it/s] 47%|████▋     | 174711/371472 [2:49:46<15:03:23,  3.63it/s] 47%|████▋     | 174712/371472 [2:49:47<15:10:21,  3.60it/s] 47%|████▋     | 174713/371472 [2:49:47<15:39:55,  3.49it/s] 47%|████▋     | 174714/371472 [2:49:47<15:45:13,  3.47it/s] 47%|████▋     | 174715/371472 [2:49:48<15:05:45,  3.62it/s] 47%|████▋     | 174716/371472 [2:49:48<15:08:51,  3.61it/s] 47%|████▋     | 174717/371472 [2:49:48<15:20:21,  3.56it/s] 47%|████▋     | 174718/371472 [2:49:49<17:08:05,  3.19it/s] 47%|████▋     | 174719/371472 [2:49:49<17:00:51,  3.21it/s] 47%|████▋     | 174720/371472 [2:49:49<16:25:44,  3.33it/s]                                                            {'loss': 3.2322, 'learning_rate': 5.769462819711693e-07, 'epoch': 7.53}
 47%|████▋     | 174720/371472 [2:49:49<16:25:44,  3.33it/s] 47%|████▋     | 174721/371472 [2:49:49<16:04:19,  3.40it/s] 47%|████▋     | 174722/371472 [2:49:50<15:27:03,  3.54it/s] 47%|████▋     | 174723/371472 [2:49:50<15:59:33,  3.42it/s] 47%|████▋     | 174724/371472 [2:49:50<15:42:15,  3.48it/s] 47%|████▋     | 174725/371472 [2:49:51<15:42:17,  3.48it/s] 47%|████▋     | 174726/371472 [2:49:51<15:33:21,  3.51it/s] 47%|████▋     | 174727/371472 [2:49:51<15:16:57,  3.58it/s] 47%|████▋     | 174728/371472 [2:49:51<15:12:20,  3.59it/s] 47%|████▋     | 174729/371472 [2:49:52<15:55:06,  3.43it/s] 47%|████▋     | 174730/371472 [2:49:52<16:23:13,  3.33it/s] 47%|████▋     | 174731/371472 [2:49:52<16:43:53,  3.27it/s] 47%|████▋     | 174732/371472 [2:49:53<16:14:20,  3.37it/s] 47%|████▋     | 174733/371472 [2:49:53<15:36:11,  3.50it/s] 47%|████▋     | 174734/371472 [2:49:53<15:09:11,  3.61it/s] 47%|████▋     | 174735/371472 [2:49:53<15:26:06,  3.54it/s] 47%|████▋     | 174736/371472 [2:49:54<16:06:51,  3.39it/s] 47%|████▋     | 174737/371472 [2:49:54<15:38:05,  3.50it/s] 47%|████▋     | 174738/371472 [2:49:54<16:00:57,  3.41it/s] 47%|████▋     | 174739/371472 [2:49:55<15:33:26,  3.51it/s] 47%|████▋     | 174740/371472 [2:49:55<15:55:09,  3.43it/s]                                                            {'loss': 2.9909, 'learning_rate': 5.768977999956904e-07, 'epoch': 7.53}
 47%|████▋     | 174740/371472 [2:49:55<15:55:09,  3.43it/s] 47%|████▋     | 174741/371472 [2:49:55<15:32:52,  3.51it/s] 47%|████▋     | 174742/371472 [2:49:55<15:07:12,  3.61it/s] 47%|████▋     | 174743/371472 [2:49:56<15:28:40,  3.53it/s] 47%|████▋     | 174744/371472 [2:49:56<16:13:02,  3.37it/s] 47%|████▋     | 174745/371472 [2:49:56<16:15:00,  3.36it/s] 47%|████▋     | 174746/371472 [2:49:57<15:55:35,  3.43it/s] 47%|████▋     | 174747/371472 [2:49:57<16:25:17,  3.33it/s] 47%|████▋     | 174748/371472 [2:49:57<16:13:20,  3.37it/s] 47%|████▋     | 174749/371472 [2:49:58<17:55:31,  3.05it/s] 47%|████▋     | 174750/371472 [2:49:58<16:41:52,  3.27it/s] 47%|████▋     | 174751/371472 [2:49:58<15:31:33,  3.52it/s] 47%|████▋     | 174752/371472 [2:49:58<15:20:02,  3.56it/s] 47%|████▋     | 174753/371472 [2:49:59<15:28:03,  3.53it/s] 47%|████▋     | 174754/371472 [2:49:59<14:58:38,  3.65it/s] 47%|████▋     | 174755/371472 [2:49:59<14:35:53,  3.74it/s] 47%|████▋     | 174756/371472 [2:49:59<14:35:30,  3.74it/s] 47%|████▋     | 174757/371472 [2:50:00<14:15:18,  3.83it/s] 47%|████▋     | 174758/371472 [2:50:00<14:39:22,  3.73it/s] 47%|████▋     | 174759/371472 [2:50:00<15:43:20,  3.48it/s] 47%|████▋     | 174760/371472 [2:50:01<15:34:02,  3.51it/s]                                                            {'loss': 3.118, 'learning_rate': 5.768493180202116e-07, 'epoch': 7.53}
 47%|████▋     | 174760/371472 [2:50:01<15:34:02,  3.51it/s] 47%|████▋     | 174761/371472 [2:50:01<14:46:59,  3.70it/s] 47%|████▋     | 174762/371472 [2:50:01<15:22:07,  3.56it/s] 47%|████▋     | 174763/371472 [2:50:01<16:44:46,  3.26it/s] 47%|████▋     | 174764/371472 [2:50:02<17:19:00,  3.16it/s] 47%|████▋     | 174765/371472 [2:50:02<17:11:09,  3.18it/s] 47%|████▋     | 174766/371472 [2:50:02<16:30:29,  3.31it/s] 47%|████▋     | 174767/371472 [2:50:03<15:36:48,  3.50it/s] 47%|████▋     | 174768/371472 [2:50:03<15:09:40,  3.60it/s] 47%|████▋     | 174769/371472 [2:50:03<16:41:56,  3.27it/s] 47%|████▋     | 174770/371472 [2:50:04<16:45:05,  3.26it/s] 47%|████▋     | 174771/371472 [2:50:04<16:56:59,  3.22it/s] 47%|████▋     | 174772/371472 [2:50:04<17:08:04,  3.19it/s] 47%|████▋     | 174773/371472 [2:50:05<16:49:32,  3.25it/s] 47%|████▋     | 174774/371472 [2:50:05<16:51:59,  3.24it/s] 47%|████▋     | 174775/371472 [2:50:05<18:12:45,  3.00it/s] 47%|████▋     | 174776/371472 [2:50:05<17:02:20,  3.21it/s] 47%|████▋     | 174777/371472 [2:50:06<16:29:44,  3.31it/s] 47%|████▋     | 174778/371472 [2:50:06<16:47:19,  3.25it/s] 47%|████▋     | 174779/371472 [2:50:06<16:06:26,  3.39it/s] 47%|████▋     | 174780/371472 [2:50:07<16:05:25,  3.40it/s]                                                            {'loss': 3.1759, 'learning_rate': 5.768008360447328e-07, 'epoch': 7.53}
 47%|████▋     | 174780/371472 [2:50:07<16:05:25,  3.40it/s] 47%|████▋     | 174781/371472 [2:50:07<17:18:03,  3.16it/s] 47%|████▋     | 174782/371472 [2:50:07<16:03:41,  3.40it/s] 47%|████▋     | 174783/371472 [2:50:08<15:55:47,  3.43it/s] 47%|████▋     | 174784/371472 [2:50:08<15:41:38,  3.48it/s] 47%|████▋     | 174785/371472 [2:50:08<15:06:03,  3.62it/s] 47%|████▋     | 174786/371472 [2:50:08<15:03:49,  3.63it/s] 47%|████▋     | 174787/371472 [2:50:09<15:19:44,  3.56it/s] 47%|████▋     | 174788/371472 [2:50:09<15:15:43,  3.58it/s] 47%|████▋     | 174789/371472 [2:50:09<15:50:22,  3.45it/s] 47%|████▋     | 174790/371472 [2:50:09<15:40:52,  3.48it/s] 47%|████▋     | 174791/371472 [2:50:10<14:54:22,  3.67it/s] 47%|████▋     | 174792/371472 [2:50:10<14:45:56,  3.70it/s] 47%|████▋     | 174793/371472 [2:50:10<14:36:12,  3.74it/s] 47%|████▋     | 174794/371472 [2:50:11<14:44:16,  3.71it/s] 47%|████▋     | 174795/371472 [2:50:11<14:41:51,  3.72it/s] 47%|████▋     | 174796/371472 [2:50:11<14:15:24,  3.83it/s] 47%|████▋     | 174797/371472 [2:50:11<14:45:53,  3.70it/s] 47%|████▋     | 174798/371472 [2:50:12<15:18:46,  3.57it/s] 47%|████▋     | 174799/371472 [2:50:12<14:48:48,  3.69it/s] 47%|████▋     | 174800/371472 [2:50:12<15:35:12,  3.50it/s]                                                            {'loss': 3.0723, 'learning_rate': 5.767523540692537e-07, 'epoch': 7.53}
 47%|████▋     | 174800/371472 [2:50:12<15:35:12,  3.50it/s] 47%|████▋     | 174801/371472 [2:50:12<15:24:42,  3.54it/s] 47%|████▋     | 174802/371472 [2:50:13<14:59:16,  3.65it/s] 47%|████▋     | 174803/371472 [2:50:13<15:39:36,  3.49it/s] 47%|████▋     | 174804/371472 [2:50:13<15:33:42,  3.51it/s] 47%|████▋     | 174805/371472 [2:50:14<15:31:05,  3.52it/s] 47%|████▋     | 174806/371472 [2:50:14<15:22:11,  3.55it/s] 47%|████▋     | 174807/371472 [2:50:14<15:02:13,  3.63it/s] 47%|████▋     | 174808/371472 [2:50:14<16:22:49,  3.34it/s] 47%|████▋     | 174809/371472 [2:50:15<15:23:50,  3.55it/s] 47%|████▋     | 174810/371472 [2:50:15<14:43:20,  3.71it/s] 47%|████▋     | 174811/371472 [2:50:15<15:52:09,  3.44it/s] 47%|████▋     | 174812/371472 [2:50:16<17:35:52,  3.10it/s] 47%|████▋     | 174813/371472 [2:50:16<17:19:50,  3.15it/s] 47%|████▋     | 174814/371472 [2:50:16<16:21:45,  3.34it/s] 47%|████▋     | 174815/371472 [2:50:17<17:46:30,  3.07it/s] 47%|████▋     | 174816/371472 [2:50:17<17:24:50,  3.14it/s] 47%|████▋     | 174817/371472 [2:50:17<16:57:07,  3.22it/s] 47%|████▋     | 174818/371472 [2:50:18<16:38:41,  3.28it/s] 47%|████▋     | 174819/371472 [2:50:18<15:48:06,  3.46it/s] 47%|████▋     | 174820/371472 [2:50:18<15:41:08,  3.48it/s]                                                            {'loss': 3.0438, 'learning_rate': 5.767038720937748e-07, 'epoch': 7.53}
 47%|████▋     | 174820/371472 [2:50:18<15:41:08,  3.48it/s] 47%|████▋     | 174821/371472 [2:50:18<16:01:40,  3.41it/s] 47%|████▋     | 174822/371472 [2:50:19<16:00:16,  3.41it/s] 47%|████▋     | 174823/371472 [2:50:19<15:08:49,  3.61it/s] 47%|████▋     | 174824/371472 [2:50:19<14:55:52,  3.66it/s] 47%|████▋     | 174825/371472 [2:50:19<14:37:22,  3.74it/s] 47%|████▋     | 174826/371472 [2:50:20<14:35:23,  3.74it/s] 47%|████▋     | 174827/371472 [2:50:20<14:48:50,  3.69it/s] 47%|████▋     | 174828/371472 [2:50:20<14:37:44,  3.73it/s] 47%|████▋     | 174829/371472 [2:50:21<14:22:28,  3.80it/s] 47%|████▋     | 174830/371472 [2:50:21<14:46:27,  3.70it/s] 47%|████▋     | 174831/371472 [2:50:21<14:20:28,  3.81it/s] 47%|████▋     | 174832/371472 [2:50:21<14:20:05,  3.81it/s] 47%|████▋     | 174833/371472 [2:50:22<13:59:57,  3.90it/s] 47%|████▋     | 174834/371472 [2:50:22<14:12:50,  3.84it/s] 47%|████▋     | 174835/371472 [2:50:22<14:26:04,  3.78it/s] 47%|████▋     | 174836/371472 [2:50:22<14:54:39,  3.66it/s] 47%|████▋     | 174837/371472 [2:50:23<15:19:30,  3.56it/s] 47%|████▋     | 174838/371472 [2:50:23<15:27:57,  3.53it/s] 47%|████▋     | 174839/371472 [2:50:23<16:58:54,  3.22it/s] 47%|████▋     | 174840/371472 [2:50:24<16:53:59,  3.23it/s]                                                            {'loss': 3.1363, 'learning_rate': 5.766553901182961e-07, 'epoch': 7.53}
 47%|████▋     | 174840/371472 [2:50:24<16:53:59,  3.23it/s] 47%|████▋     | 174841/371472 [2:50:24<16:22:29,  3.34it/s] 47%|████▋     | 174842/371472 [2:50:24<16:11:44,  3.37it/s] 47%|████▋     | 174843/371472 [2:50:25<16:20:39,  3.34it/s] 47%|████▋     | 174844/371472 [2:50:25<15:45:31,  3.47it/s] 47%|████▋     | 174845/371472 [2:50:25<15:06:27,  3.62it/s] 47%|████▋     | 174846/371472 [2:50:25<15:22:40,  3.55it/s] 47%|████▋     | 174847/371472 [2:50:26<15:04:18,  3.62it/s] 47%|████▋     | 174848/371472 [2:50:26<14:23:46,  3.79it/s] 47%|████▋     | 174849/371472 [2:50:26<14:16:06,  3.83it/s] 47%|████▋     | 174850/371472 [2:50:26<15:36:25,  3.50it/s] 47%|████▋     | 174851/371472 [2:50:27<15:04:04,  3.62it/s] 47%|████▋     | 174852/371472 [2:50:27<15:49:46,  3.45it/s] 47%|████▋     | 174853/371472 [2:50:27<16:55:23,  3.23it/s] 47%|████▋     | 174854/371472 [2:50:28<15:56:57,  3.42it/s] 47%|████▋     | 174855/371472 [2:50:28<15:43:27,  3.47it/s] 47%|████▋     | 174856/371472 [2:50:28<15:18:39,  3.57it/s] 47%|████▋     | 174857/371472 [2:50:28<15:48:53,  3.45it/s] 47%|████▋     | 174858/371472 [2:50:29<15:34:14,  3.51it/s] 47%|████▋     | 174859/371472 [2:50:29<15:16:35,  3.58it/s] 47%|████▋     | 174860/371472 [2:50:29<18:30:42,  2.95it/s]                                                            {'loss': 2.9942, 'learning_rate': 5.766069081428171e-07, 'epoch': 7.53}
 47%|████▋     | 174860/371472 [2:50:29<18:30:42,  2.95it/s] 47%|████▋     | 174861/371472 [2:50:30<17:26:34,  3.13it/s] 47%|████▋     | 174862/371472 [2:50:30<16:31:31,  3.30it/s] 47%|████▋     | 174863/371472 [2:50:30<16:58:10,  3.22it/s] 47%|████▋     | 174864/371472 [2:50:31<18:29:29,  2.95it/s] 47%|████▋     | 174865/371472 [2:50:31<17:15:55,  3.16it/s] 47%|████▋     | 174866/371472 [2:50:31<17:55:29,  3.05it/s] 47%|████▋     | 174867/371472 [2:50:32<16:29:01,  3.31it/s] 47%|████▋     | 174868/371472 [2:50:32<16:56:24,  3.22it/s] 47%|████▋     | 174869/371472 [2:50:32<16:30:31,  3.31it/s] 47%|████▋     | 174870/371472 [2:50:32<16:00:15,  3.41it/s] 47%|████▋     | 174871/371472 [2:50:33<15:35:26,  3.50it/s] 47%|████▋     | 174872/371472 [2:50:33<15:07:11,  3.61it/s] 47%|████▋     | 174873/371472 [2:50:33<14:53:11,  3.67it/s] 47%|████▋     | 174874/371472 [2:50:34<14:21:29,  3.80it/s] 47%|████▋     | 174875/371472 [2:50:34<14:53:39,  3.67it/s] 47%|████▋     | 174876/371472 [2:50:34<15:09:50,  3.60it/s] 47%|████▋     | 174877/371472 [2:50:34<15:38:10,  3.49it/s] 47%|████▋     | 174878/371472 [2:50:35<15:06:41,  3.61it/s] 47%|████▋     | 174879/371472 [2:50:35<15:13:04,  3.59it/s] 47%|████▋     | 174880/371472 [2:50:35<14:49:05,  3.69it/s]                                                            {'loss': 3.0663, 'learning_rate': 5.765584261673382e-07, 'epoch': 7.53}
 47%|████▋     | 174880/371472 [2:50:35<14:49:05,  3.69it/s] 47%|████▋     | 174881/371472 [2:50:35<14:38:49,  3.73it/s] 47%|████▋     | 174882/371472 [2:50:36<15:40:02,  3.49it/s] 47%|████▋     | 174883/371472 [2:50:36<15:58:49,  3.42it/s] 47%|████▋     | 174884/371472 [2:50:36<16:40:54,  3.27it/s] 47%|████▋     | 174885/371472 [2:50:37<16:16:27,  3.36it/s] 47%|████▋     | 174886/371472 [2:50:37<16:01:04,  3.41it/s] 47%|████▋     | 174887/371472 [2:50:37<15:53:36,  3.44it/s] 47%|████▋     | 174888/371472 [2:50:38<16:21:28,  3.34it/s] 47%|████▋     | 174889/371472 [2:50:38<16:55:13,  3.23it/s] 47%|████▋     | 174890/371472 [2:50:38<16:08:40,  3.38it/s] 47%|████▋     | 174891/371472 [2:50:38<15:36:49,  3.50it/s] 47%|████▋     | 174892/371472 [2:50:39<15:34:35,  3.51it/s] 47%|████▋     | 174893/371472 [2:50:39<15:24:28,  3.54it/s] 47%|████▋     | 174894/371472 [2:50:39<14:54:02,  3.66it/s] 47%|████▋     | 174895/371472 [2:50:40<14:50:20,  3.68it/s] 47%|████▋     | 174896/371472 [2:50:40<15:00:46,  3.64it/s] 47%|████▋     | 174897/371472 [2:50:40<15:36:36,  3.50it/s] 47%|████▋     | 174898/371472 [2:50:40<15:37:08,  3.50it/s] 47%|████▋     | 174899/371472 [2:50:41<15:57:37,  3.42it/s] 47%|████▋     | 174900/371472 [2:50:41<15:44:29,  3.47it/s]                                                            {'loss': 3.0361, 'learning_rate': 5.765099441918593e-07, 'epoch': 7.53}
 47%|████▋     | 174900/371472 [2:50:41<15:44:29,  3.47it/s] 47%|████▋     | 174901/371472 [2:50:41<15:40:12,  3.48it/s] 47%|████▋     | 174902/371472 [2:50:42<15:38:18,  3.49it/s] 47%|████▋     | 174903/371472 [2:50:42<16:43:22,  3.27it/s] 47%|████▋     | 174904/371472 [2:50:42<15:49:39,  3.45it/s] 47%|████▋     | 174905/371472 [2:50:42<15:35:07,  3.50it/s] 47%|████▋     | 174906/371472 [2:50:43<15:11:27,  3.59it/s] 47%|████▋     | 174907/371472 [2:50:43<15:46:43,  3.46it/s] 47%|████▋     | 174908/371472 [2:50:43<14:55:52,  3.66it/s] 47%|████▋     | 174909/371472 [2:50:44<14:53:31,  3.67it/s] 47%|████▋     | 174910/371472 [2:50:44<15:53:13,  3.44it/s] 47%|████▋     | 174911/371472 [2:50:44<15:50:50,  3.45it/s] 47%|████▋     | 174912/371472 [2:50:44<15:18:06,  3.57it/s] 47%|████▋     | 174913/371472 [2:50:45<15:42:36,  3.48it/s] 47%|████▋     | 174914/371472 [2:50:45<15:57:45,  3.42it/s] 47%|████▋     | 174915/371472 [2:50:45<15:45:39,  3.46it/s] 47%|████▋     | 174916/371472 [2:50:46<15:36:19,  3.50it/s] 47%|████▋     | 174917/371472 [2:50:46<15:31:52,  3.52it/s] 47%|████▋     | 174918/371472 [2:50:46<15:13:09,  3.59it/s] 47%|████▋     | 174919/371472 [2:50:46<14:43:12,  3.71it/s] 47%|████▋     | 174920/371472 [2:50:47<15:46:34,  3.46it/s]                                                            {'loss': 3.1019, 'learning_rate': 5.764614622163804e-07, 'epoch': 7.53}
 47%|████▋     | 174920/371472 [2:50:47<15:46:34,  3.46it/s] 47%|████▋     | 174921/371472 [2:50:47<15:44:05,  3.47it/s] 47%|████▋     | 174922/371472 [2:50:47<15:07:13,  3.61it/s] 47%|████▋     | 174923/371472 [2:50:48<15:00:50,  3.64it/s] 47%|████▋     | 174924/371472 [2:50:48<15:28:07,  3.53it/s] 47%|████▋     | 174925/371472 [2:50:48<14:54:33,  3.66it/s] 47%|████▋     | 174926/371472 [2:50:48<14:20:58,  3.80it/s] 47%|████▋     | 174927/371472 [2:50:49<14:36:37,  3.74it/s] 47%|████▋     | 174928/371472 [2:50:49<15:13:39,  3.59it/s] 47%|████▋     | 174929/371472 [2:50:49<15:34:48,  3.50it/s] 47%|████▋     | 174930/371472 [2:50:49<15:24:32,  3.54it/s] 47%|████▋     | 174931/371472 [2:50:50<15:20:08,  3.56it/s] 47%|████▋     | 174932/371472 [2:50:50<14:54:32,  3.66it/s] 47%|████▋     | 174933/371472 [2:50:50<15:20:45,  3.56it/s] 47%|████▋     | 174934/371472 [2:50:51<15:02:14,  3.63it/s] 47%|████▋     | 174935/371472 [2:50:51<15:24:54,  3.54it/s] 47%|████▋     | 174936/371472 [2:50:51<15:08:01,  3.61it/s] 47%|████▋     | 174937/371472 [2:50:51<15:13:41,  3.59it/s] 47%|████▋     | 174938/371472 [2:50:52<15:20:20,  3.56it/s] 47%|████▋     | 174939/371472 [2:50:52<15:36:41,  3.50it/s] 47%|████▋     | 174940/371472 [2:50:52<17:00:02,  3.21it/s]                                                            {'loss': 2.8765, 'learning_rate': 5.764129802409016e-07, 'epoch': 7.53}
 47%|████▋     | 174940/371472 [2:50:52<17:00:02,  3.21it/s] 47%|████▋     | 174941/371472 [2:50:53<16:52:39,  3.23it/s] 47%|████▋     | 174942/371472 [2:50:53<16:10:32,  3.37it/s] 47%|████▋     | 174943/371472 [2:50:53<16:02:41,  3.40it/s] 47%|████▋     | 174944/371472 [2:50:54<16:15:56,  3.36it/s] 47%|████▋     | 174945/371472 [2:50:54<17:07:34,  3.19it/s] 47%|████▋     | 174946/371472 [2:50:54<17:29:08,  3.12it/s] 47%|████▋     | 174947/371472 [2:50:54<16:16:02,  3.36it/s] 47%|████▋     | 174948/371472 [2:50:55<15:48:59,  3.45it/s] 47%|████▋     | 174949/371472 [2:50:55<15:50:27,  3.45it/s] 47%|████▋     | 174950/371472 [2:50:55<15:10:11,  3.60it/s] 47%|████▋     | 174951/371472 [2:50:56<15:16:38,  3.57it/s] 47%|████▋     | 174952/371472 [2:50:56<15:06:40,  3.61it/s] 47%|████▋     | 174953/371472 [2:50:56<14:36:48,  3.74it/s] 47%|████▋     | 174954/371472 [2:50:56<14:11:28,  3.85it/s] 47%|████▋     | 174955/371472 [2:50:57<14:32:41,  3.75it/s] 47%|████▋     | 174956/371472 [2:50:57<14:30:08,  3.76it/s] 47%|████▋     | 174957/371472 [2:50:57<14:22:19,  3.80it/s] 47%|████▋     | 174958/371472 [2:50:57<14:22:42,  3.80it/s] 47%|████▋     | 174959/371472 [2:50:58<15:06:14,  3.61it/s] 47%|████▋     | 174960/371472 [2:50:58<16:08:13,  3.38it/s]                                                            {'loss': 3.1559, 'learning_rate': 5.763644982654226e-07, 'epoch': 7.54}
 47%|████▋     | 174960/371472 [2:50:58<16:08:13,  3.38it/s] 47%|████▋     | 174961/371472 [2:50:58<15:51:59,  3.44it/s] 47%|████▋     | 174962/371472 [2:50:59<15:55:43,  3.43it/s] 47%|████▋     | 174963/371472 [2:50:59<16:00:35,  3.41it/s] 47%|████▋     | 174964/371472 [2:50:59<16:45:04,  3.26it/s] 47%|████▋     | 174965/371472 [2:51:00<16:01:57,  3.40it/s] 47%|████▋     | 174966/371472 [2:51:00<16:09:24,  3.38it/s] 47%|████▋     | 174967/371472 [2:51:00<17:19:07,  3.15it/s] 47%|████▋     | 174968/371472 [2:51:00<17:13:51,  3.17it/s] 47%|████▋     | 174969/371472 [2:51:01<16:22:58,  3.33it/s] 47%|████▋     | 174970/371472 [2:51:01<15:48:44,  3.45it/s] 47%|████▋     | 174971/371472 [2:51:01<15:40:24,  3.48it/s] 47%|████▋     | 174972/371472 [2:51:02<15:45:43,  3.46it/s] 47%|████▋     | 174973/371472 [2:51:02<15:14:49,  3.58it/s] 47%|████▋     | 174974/371472 [2:51:02<14:49:31,  3.68it/s] 47%|████▋     | 174975/371472 [2:51:02<14:39:14,  3.72it/s] 47%|████▋     | 174976/371472 [2:51:03<14:17:15,  3.82it/s] 47%|████▋     | 174977/371472 [2:51:03<14:46:49,  3.69it/s] 47%|████▋     | 174978/371472 [2:51:03<14:58:40,  3.64it/s] 47%|████▋     | 174979/371472 [2:51:03<14:52:08,  3.67it/s] 47%|████▋     | 174980/371472 [2:51:04<14:50:30,  3.68it/s]                                                            {'loss': 3.3699, 'learning_rate': 5.763160162899437e-07, 'epoch': 7.54}
 47%|████▋     | 174980/371472 [2:51:04<14:50:30,  3.68it/s] 47%|████▋     | 174981/371472 [2:51:04<15:42:28,  3.47it/s] 47%|████▋     | 174982/371472 [2:51:04<15:02:48,  3.63it/s] 47%|████▋     | 174983/371472 [2:51:05<14:48:33,  3.69it/s] 47%|████▋     | 174984/371472 [2:51:05<14:59:06,  3.64it/s] 47%|████▋     | 174985/371472 [2:51:05<15:47:30,  3.46it/s] 47%|████▋     | 174986/371472 [2:51:05<16:20:32,  3.34it/s] 47%|████▋     | 174987/371472 [2:51:06<16:25:55,  3.32it/s] 47%|████▋     | 174988/371472 [2:51:06<16:38:56,  3.28it/s] 47%|████▋     | 174989/371472 [2:51:06<16:42:58,  3.27it/s] 47%|████▋     | 174990/371472 [2:51:07<16:43:48,  3.26it/s] 47%|████▋     | 174991/371472 [2:51:07<16:49:21,  3.24it/s] 47%|████▋     | 174992/371472 [2:51:07<17:14:37,  3.17it/s] 47%|████▋     | 174993/371472 [2:51:08<16:51:24,  3.24it/s] 47%|████▋     | 174994/371472 [2:51:08<16:43:52,  3.26it/s] 47%|████▋     | 174995/371472 [2:51:08<17:06:02,  3.19it/s] 47%|████▋     | 174996/371472 [2:51:09<16:18:28,  3.35it/s] 47%|████▋     | 174997/371472 [2:51:09<16:15:04,  3.36it/s] 47%|████▋     | 174998/371472 [2:51:09<16:32:47,  3.30it/s] 47%|████▋     | 174999/371472 [2:51:09<16:56:11,  3.22it/s] 47%|████▋     | 175000/371472 [2:51:10<16:27:07,  3.32it/s]                                                            {'loss': 2.9388, 'learning_rate': 5.762675343144649e-07, 'epoch': 7.54}
 47%|████▋     | 175000/371472 [2:51:10<16:27:07,  3.32it/s] 47%|████▋     | 175001/371472 [2:51:10<16:19:08,  3.34it/s] 47%|████▋     | 175002/371472 [2:51:10<16:07:14,  3.39it/s] 47%|████▋     | 175003/371472 [2:51:11<15:37:13,  3.49it/s] 47%|████▋     | 175004/371472 [2:51:11<16:07:53,  3.38it/s] 47%|████▋     | 175005/371472 [2:51:11<16:52:11,  3.24it/s] 47%|████▋     | 175006/371472 [2:51:12<16:36:47,  3.28it/s] 47%|████▋     | 175007/371472 [2:51:12<15:59:08,  3.41it/s] 47%|████▋     | 175008/371472 [2:51:12<15:33:34,  3.51it/s] 47%|████▋     | 175009/371472 [2:51:12<14:57:45,  3.65it/s] 47%|████▋     | 175010/371472 [2:51:13<14:28:26,  3.77it/s] 47%|████▋     | 175011/371472 [2:51:13<14:38:09,  3.73it/s] 47%|████▋     | 175012/371472 [2:51:13<15:15:35,  3.58it/s] 47%|████▋     | 175013/371472 [2:51:13<15:06:43,  3.61it/s] 47%|████▋     | 175014/371472 [2:51:14<14:45:31,  3.70it/s] 47%|████▋     | 175015/371472 [2:51:14<17:13:04,  3.17it/s] 47%|████▋     | 175016/371472 [2:51:14<17:01:17,  3.21it/s] 47%|████▋     | 175017/371472 [2:51:15<16:10:55,  3.37it/s] 47%|████▋     | 175018/371472 [2:51:15<15:32:29,  3.51it/s] 47%|████▋     | 175019/371472 [2:51:15<15:18:25,  3.57it/s] 47%|████▋     | 175020/371472 [2:51:15<15:20:04,  3.56it/s]                                                            {'loss': 3.1983, 'learning_rate': 5.762190523389859e-07, 'epoch': 7.54}
 47%|████▋     | 175020/371472 [2:51:15<15:20:04,  3.56it/s] 47%|████▋     | 175021/371472 [2:51:16<15:41:29,  3.48it/s] 47%|████▋     | 175022/371472 [2:51:16<15:29:58,  3.52it/s] 47%|████▋     | 175023/371472 [2:51:16<15:22:16,  3.55it/s] 47%|████▋     | 175024/371472 [2:51:17<16:32:20,  3.30it/s] 47%|████▋     | 175025/371472 [2:51:17<15:45:11,  3.46it/s] 47%|████▋     | 175026/371472 [2:51:17<15:32:34,  3.51it/s] 47%|████▋     | 175027/371472 [2:51:18<15:36:35,  3.50it/s] 47%|████▋     | 175028/371472 [2:51:18<15:03:05,  3.63it/s] 47%|████▋     | 175029/371472 [2:51:18<14:45:13,  3.70it/s] 47%|████▋     | 175030/371472 [2:51:18<14:46:35,  3.69it/s] 47%|████▋     | 175031/371472 [2:51:19<14:57:47,  3.65it/s] 47%|████▋     | 175032/371472 [2:51:19<14:38:51,  3.73it/s] 47%|████▋     | 175033/371472 [2:51:19<14:25:36,  3.78it/s] 47%|████▋     | 175034/371472 [2:51:19<14:17:33,  3.82it/s] 47%|████▋     | 175035/371472 [2:51:20<14:49:33,  3.68it/s] 47%|████▋     | 175036/371472 [2:51:20<14:35:26,  3.74it/s] 47%|████▋     | 175037/371472 [2:51:20<14:33:18,  3.75it/s] 47%|████▋     | 175038/371472 [2:51:20<14:03:59,  3.88it/s] 47%|████▋     | 175039/371472 [2:51:21<14:03:05,  3.88it/s] 47%|████▋     | 175040/371472 [2:51:21<14:11:30,  3.84it/s]                                                            {'loss': 3.0657, 'learning_rate': 5.76170570363507e-07, 'epoch': 7.54}
 47%|████▋     | 175040/371472 [2:51:21<14:11:30,  3.84it/s] 47%|████▋     | 175041/371472 [2:51:21<13:56:22,  3.91it/s] 47%|████▋     | 175042/371472 [2:51:22<15:43:55,  3.47it/s] 47%|████▋     | 175043/371472 [2:51:22<15:22:43,  3.55it/s] 47%|████▋     | 175044/371472 [2:51:22<15:07:05,  3.61it/s] 47%|████▋     | 175045/371472 [2:51:22<14:48:37,  3.68it/s] 47%|████▋     | 175046/371472 [2:51:23<16:55:45,  3.22it/s] 47%|████▋     | 175047/371472 [2:51:23<16:27:34,  3.31it/s] 47%|████▋     | 175048/371472 [2:51:23<17:29:57,  3.12it/s] 47%|████▋     | 175049/371472 [2:51:24<16:51:45,  3.24it/s] 47%|████▋     | 175050/371472 [2:51:24<16:30:07,  3.31it/s] 47%|████▋     | 175051/371472 [2:51:24<18:21:07,  2.97it/s] 47%|████▋     | 175052/371472 [2:51:25<18:35:34,  2.93it/s] 47%|████▋     | 175053/371472 [2:51:25<17:09:36,  3.18it/s] 47%|████▋     | 175054/371472 [2:51:25<16:35:01,  3.29it/s] 47%|████▋     | 175055/371472 [2:51:26<16:16:13,  3.35it/s] 47%|████▋     | 175056/371472 [2:51:26<16:08:47,  3.38it/s] 47%|████▋     | 175057/371472 [2:51:26<15:22:51,  3.55it/s] 47%|████▋     | 175058/371472 [2:51:26<15:13:28,  3.58it/s] 47%|████▋     | 175059/371472 [2:51:27<14:50:54,  3.67it/s] 47%|████▋     | 175060/371472 [2:51:27<14:55:10,  3.66it/s]                                                            {'loss': 3.1052, 'learning_rate': 5.761220883880281e-07, 'epoch': 7.54}
 47%|████▋     | 175060/371472 [2:51:27<14:55:10,  3.66it/s] 47%|████▋     | 175061/371472 [2:51:27<15:06:38,  3.61it/s] 47%|████▋     | 175062/371472 [2:51:27<15:03:23,  3.62it/s] 47%|████▋     | 175063/371472 [2:51:28<15:07:53,  3.61it/s] 47%|████▋     | 175064/371472 [2:51:28<15:41:14,  3.48it/s] 47%|████▋     | 175065/371472 [2:51:28<15:20:38,  3.56it/s] 47%|████▋     | 175066/371472 [2:51:29<15:53:27,  3.43it/s] 47%|████▋     | 175067/371472 [2:51:29<15:51:24,  3.44it/s] 47%|████▋     | 175068/371472 [2:51:29<15:30:59,  3.52it/s] 47%|████▋     | 175069/371472 [2:51:29<15:57:51,  3.42it/s] 47%|████▋     | 175070/371472 [2:51:30<15:51:05,  3.44it/s] 47%|████▋     | 175071/371472 [2:51:30<15:02:24,  3.63it/s] 47%|████▋     | 175072/371472 [2:51:30<14:38:34,  3.73it/s] 47%|████▋     | 175073/371472 [2:51:31<14:55:46,  3.65it/s] 47%|████▋     | 175074/371472 [2:51:31<15:11:44,  3.59it/s] 47%|████▋     | 175075/371472 [2:51:31<15:39:04,  3.49it/s] 47%|████▋     | 175076/371472 [2:51:31<16:34:30,  3.29it/s] 47%|████▋     | 175077/371472 [2:51:32<17:03:45,  3.20it/s] 47%|████▋     | 175078/371472 [2:51:32<16:11:47,  3.37it/s] 47%|████▋     | 175079/371472 [2:51:32<15:45:54,  3.46it/s] 47%|████▋     | 175080/371472 [2:51:33<16:00:06,  3.41it/s]                                                            {'loss': 2.9341, 'learning_rate': 5.760736064125494e-07, 'epoch': 7.54}
 47%|████▋     | 175080/371472 [2:51:33<16:00:06,  3.41it/s] 47%|████▋     | 175081/371472 [2:51:33<15:35:26,  3.50it/s] 47%|████▋     | 175082/371472 [2:51:33<15:30:52,  3.52it/s] 47%|████▋     | 175083/371472 [2:51:33<15:15:39,  3.57it/s] 47%|████▋     | 175084/371472 [2:51:34<15:39:59,  3.48it/s] 47%|████▋     | 175085/371472 [2:51:34<15:14:15,  3.58it/s] 47%|████▋     | 175086/371472 [2:51:34<15:49:40,  3.45it/s] 47%|████▋     | 175087/371472 [2:51:35<15:01:46,  3.63it/s] 47%|████▋     | 175088/371472 [2:51:35<14:36:23,  3.73it/s] 47%|████▋     | 175089/371472 [2:51:35<14:39:54,  3.72it/s] 47%|████▋     | 175090/371472 [2:51:35<14:43:52,  3.70it/s] 47%|████▋     | 175091/371472 [2:51:36<14:26:36,  3.78it/s] 47%|████▋     | 175092/371472 [2:51:36<15:06:37,  3.61it/s] 47%|████▋     | 175093/371472 [2:51:36<16:10:42,  3.37it/s] 47%|████▋     | 175094/371472 [2:51:37<15:57:33,  3.42it/s] 47%|████▋     | 175095/371472 [2:51:37<15:39:04,  3.49it/s] 47%|████▋     | 175096/371472 [2:51:37<15:50:41,  3.44it/s] 47%|████▋     | 175097/371472 [2:51:37<15:13:38,  3.58it/s] 47%|████▋     | 175098/371472 [2:51:38<15:28:54,  3.52it/s] 47%|████▋     | 175099/371472 [2:51:38<15:35:08,  3.50it/s] 47%|████▋     | 175100/371472 [2:51:38<15:10:41,  3.59it/s]                                                            {'loss': 3.1459, 'learning_rate': 5.760251244370704e-07, 'epoch': 7.54}
 47%|████▋     | 175100/371472 [2:51:38<15:10:41,  3.59it/s] 47%|████▋     | 175101/371472 [2:51:39<16:11:52,  3.37it/s] 47%|████▋     | 175102/371472 [2:51:39<16:27:57,  3.31it/s] 47%|████▋     | 175103/371472 [2:51:39<16:02:40,  3.40it/s] 47%|████▋     | 175104/371472 [2:51:39<15:19:07,  3.56it/s] 47%|████▋     | 175105/371472 [2:51:40<15:32:01,  3.51it/s] 47%|████▋     | 175106/371472 [2:51:40<15:14:11,  3.58it/s] 47%|████▋     | 175107/371472 [2:51:40<15:01:54,  3.63it/s] 47%|████▋     | 175108/371472 [2:51:41<15:08:24,  3.60it/s] 47%|████▋     | 175109/371472 [2:51:41<15:00:01,  3.64it/s] 47%|████▋     | 175110/371472 [2:51:41<16:11:22,  3.37it/s] 47%|████▋     | 175111/371472 [2:51:41<16:04:06,  3.39it/s] 47%|████▋     | 175112/371472 [2:51:42<15:59:15,  3.41it/s] 47%|████▋     | 175113/371472 [2:51:42<16:04:17,  3.39it/s] 47%|████▋     | 175114/371472 [2:51:42<15:34:35,  3.50it/s] 47%|████▋     | 175115/371472 [2:51:43<15:34:41,  3.50it/s] 47%|████▋     | 175116/371472 [2:51:43<14:59:58,  3.64it/s] 47%|████▋     | 175117/371472 [2:51:43<14:21:17,  3.80it/s] 47%|████▋     | 175118/371472 [2:51:43<14:13:38,  3.83it/s] 47%|████▋     | 175119/371472 [2:51:44<14:31:11,  3.76it/s] 47%|████▋     | 175120/371472 [2:51:44<14:34:31,  3.74it/s]                                                            {'loss': 3.0158, 'learning_rate': 5.759766424615914e-07, 'epoch': 7.54}
 47%|████▋     | 175120/371472 [2:51:44<14:34:31,  3.74it/s] 47%|████▋     | 175121/371472 [2:51:44<15:08:56,  3.60it/s] 47%|████▋     | 175122/371472 [2:51:44<14:52:12,  3.67it/s] 47%|████▋     | 175123/371472 [2:51:45<14:36:46,  3.73it/s] 47%|████▋     | 175124/371472 [2:51:45<15:27:42,  3.53it/s] 47%|████▋     | 175125/371472 [2:51:45<15:00:31,  3.63it/s] 47%|████▋     | 175126/371472 [2:51:46<15:08:48,  3.60it/s] 47%|████▋     | 175127/371472 [2:51:46<15:27:02,  3.53it/s] 47%|████▋     | 175128/371472 [2:51:46<16:56:08,  3.22it/s] 47%|████▋     | 175129/371472 [2:51:46<16:10:38,  3.37it/s] 47%|████▋     | 175130/371472 [2:51:47<15:25:55,  3.53it/s] 47%|████▋     | 175131/371472 [2:51:47<15:32:04,  3.51it/s] 47%|████▋     | 175132/371472 [2:51:47<15:11:24,  3.59it/s] 47%|████▋     | 175133/371472 [2:51:48<15:27:12,  3.53it/s] 47%|████▋     | 175134/371472 [2:51:48<15:59:39,  3.41it/s] 47%|████▋     | 175135/371472 [2:51:48<15:35:44,  3.50it/s] 47%|████▋     | 175136/371472 [2:51:48<15:11:30,  3.59it/s] 47%|████▋     | 175137/371472 [2:51:49<15:37:22,  3.49it/s] 47%|████▋     | 175138/371472 [2:51:49<15:36:12,  3.50it/s] 47%|████▋     | 175139/371472 [2:51:49<15:34:20,  3.50it/s] 47%|████▋     | 175140/371472 [2:51:50<15:09:24,  3.60it/s]                                                            {'loss': 3.1293, 'learning_rate': 5.759281604861126e-07, 'epoch': 7.54}
 47%|████▋     | 175140/371472 [2:51:50<15:09:24,  3.60it/s] 47%|████▋     | 175141/371472 [2:51:50<15:04:57,  3.62it/s] 47%|████▋     | 175142/371472 [2:51:50<15:12:51,  3.58it/s] 47%|████▋     | 175143/371472 [2:51:50<15:37:31,  3.49it/s] 47%|████▋     | 175144/371472 [2:51:51<16:44:07,  3.26it/s] 47%|████▋     | 175145/371472 [2:51:51<16:38:11,  3.28it/s] 47%|████▋     | 175146/371472 [2:51:51<16:10:44,  3.37it/s] 47%|████▋     | 175147/371472 [2:51:52<15:40:26,  3.48it/s] 47%|████▋     | 175148/371472 [2:51:52<15:47:12,  3.45it/s] 47%|████▋     | 175149/371472 [2:51:52<15:27:35,  3.53it/s] 47%|████▋     | 175150/371472 [2:51:53<16:25:53,  3.32it/s] 47%|████▋     | 175151/371472 [2:51:53<15:42:27,  3.47it/s] 47%|████▋     | 175152/371472 [2:51:53<15:28:51,  3.52it/s] 47%|████▋     | 175153/371472 [2:51:53<15:21:20,  3.55it/s] 47%|████▋     | 175154/371472 [2:51:54<15:30:58,  3.51it/s] 47%|████▋     | 175155/371472 [2:51:54<16:18:08,  3.35it/s] 47%|████▋     | 175156/371472 [2:51:54<16:33:45,  3.29it/s] 47%|████▋     | 175157/371472 [2:51:55<18:43:59,  2.91it/s] 47%|████▋     | 175158/371472 [2:51:55<17:38:46,  3.09it/s] 47%|████▋     | 175159/371472 [2:51:55<17:19:42,  3.15it/s] 47%|████▋     | 175160/371472 [2:51:56<16:42:55,  3.26it/s]                                                            {'loss': 3.151, 'learning_rate': 5.758796785106337e-07, 'epoch': 7.54}
 47%|████▋     | 175160/371472 [2:51:56<16:42:55,  3.26it/s] 47%|████▋     | 175161/371472 [2:51:56<16:03:05,  3.40it/s] 47%|████▋     | 175162/371472 [2:51:56<15:45:45,  3.46it/s] 47%|████▋     | 175163/371472 [2:51:56<16:05:36,  3.39it/s] 47%|████▋     | 175164/371472 [2:51:57<17:28:46,  3.12it/s] 47%|████▋     | 175165/371472 [2:51:57<16:48:36,  3.24it/s] 47%|████▋     | 175166/371472 [2:51:57<16:49:06,  3.24it/s] 47%|████▋     | 175167/371472 [2:51:58<18:05:16,  3.01it/s] 47%|████▋     | 175168/371472 [2:51:58<17:01:23,  3.20it/s] 47%|████▋     | 175169/371472 [2:51:58<17:14:25,  3.16it/s] 47%|████▋     | 175170/371472 [2:51:59<16:44:41,  3.26it/s] 47%|████▋     | 175171/371472 [2:51:59<16:20:32,  3.34it/s] 47%|████▋     | 175172/371472 [2:51:59<16:53:50,  3.23it/s] 47%|████▋     | 175173/371472 [2:52:00<17:15:02,  3.16it/s] 47%|████▋     | 175174/371472 [2:52:00<17:29:23,  3.12it/s] 47%|████▋     | 175175/371472 [2:52:00<16:59:51,  3.21it/s] 47%|████▋     | 175176/371472 [2:52:00<16:29:24,  3.31it/s] 47%|████▋     | 175177/371472 [2:52:01<16:52:37,  3.23it/s] 47%|████▋     | 175178/371472 [2:52:01<16:08:32,  3.38it/s] 47%|████▋     | 175179/371472 [2:52:01<17:06:16,  3.19it/s] 47%|████▋     | 175180/371472 [2:52:02<16:43:30,  3.26it/s]                                                            {'loss': 3.0546, 'learning_rate': 5.758311965351547e-07, 'epoch': 7.55}
 47%|████▋     | 175180/371472 [2:52:02<16:43:30,  3.26it/s] 47%|████▋     | 175181/371472 [2:52:02<16:57:16,  3.22it/s] 47%|████▋     | 175182/371472 [2:52:02<16:36:11,  3.28it/s] 47%|████▋     | 175183/371472 [2:52:03<16:01:12,  3.40it/s] 47%|████▋     | 175184/371472 [2:52:03<16:03:39,  3.39it/s] 47%|████▋     | 175185/371472 [2:52:03<16:58:07,  3.21it/s] 47%|████▋     | 175186/371472 [2:52:04<16:14:23,  3.36it/s] 47%|████▋     | 175187/371472 [2:52:04<16:19:17,  3.34it/s] 47%|████▋     | 175188/371472 [2:52:04<17:08:52,  3.18it/s] 47%|████▋     | 175189/371472 [2:52:04<17:05:56,  3.19it/s] 47%|████▋     | 175190/371472 [2:52:05<17:51:06,  3.05it/s] 47%|████▋     | 175191/371472 [2:52:05<17:20:39,  3.14it/s] 47%|████▋     | 175192/371472 [2:52:05<16:19:15,  3.34it/s] 47%|████▋     | 175193/371472 [2:52:06<15:51:48,  3.44it/s] 47%|████▋     | 175194/371472 [2:52:06<16:04:38,  3.39it/s] 47%|████▋     | 175195/371472 [2:52:06<16:30:47,  3.30it/s] 47%|████▋     | 175196/371472 [2:52:07<15:57:38,  3.42it/s] 47%|████▋     | 175197/371472 [2:52:07<15:36:23,  3.49it/s] 47%|████▋     | 175198/371472 [2:52:07<15:28:28,  3.52it/s] 47%|████▋     | 175199/371472 [2:52:07<15:33:19,  3.50it/s] 47%|████▋     | 175200/371472 [2:52:08<15:16:58,  3.57it/s]                                                            {'loss': 3.003, 'learning_rate': 5.757827145596758e-07, 'epoch': 7.55}
 47%|████▋     | 175200/371472 [2:52:08<15:16:58,  3.57it/s] 47%|████▋     | 175201/371472 [2:52:08<15:55:41,  3.42it/s] 47%|████▋     | 175202/371472 [2:52:08<15:48:54,  3.45it/s] 47%|████▋     | 175203/371472 [2:52:09<15:56:17,  3.42it/s] 47%|████▋     | 175204/371472 [2:52:09<16:20:32,  3.34it/s] 47%|████▋     | 175205/371472 [2:52:09<16:35:45,  3.29it/s] 47%|████▋     | 175206/371472 [2:52:09<15:47:31,  3.45it/s] 47%|████▋     | 175207/371472 [2:52:10<15:33:57,  3.50it/s] 47%|████▋     | 175208/371472 [2:52:10<16:19:28,  3.34it/s] 47%|████▋     | 175209/371472 [2:52:10<16:30:24,  3.30it/s] 47%|████▋     | 175210/371472 [2:52:11<16:26:50,  3.31it/s] 47%|████▋     | 175211/371472 [2:52:11<15:43:18,  3.47it/s] 47%|████▋     | 175212/371472 [2:52:11<15:43:20,  3.47it/s] 47%|████▋     | 175213/371472 [2:52:11<15:14:54,  3.58it/s] 47%|████▋     | 175214/371472 [2:52:12<15:31:07,  3.51it/s] 47%|████▋     | 175215/371472 [2:52:12<15:40:45,  3.48it/s] 47%|████▋     | 175216/371472 [2:52:12<15:27:46,  3.53it/s] 47%|████▋     | 175217/371472 [2:52:13<15:05:59,  3.61it/s] 47%|████▋     | 175218/371472 [2:52:13<14:53:11,  3.66it/s] 47%|████▋     | 175219/371472 [2:52:13<14:53:03,  3.66it/s] 47%|████▋     | 175220/371472 [2:52:13<15:40:39,  3.48it/s]                                                            {'loss': 3.1477, 'learning_rate': 5.757342325841971e-07, 'epoch': 7.55}
 47%|████▋     | 175220/371472 [2:52:13<15:40:39,  3.48it/s] 47%|████▋     | 175221/371472 [2:52:14<15:14:35,  3.58it/s] 47%|████▋     | 175222/371472 [2:52:14<15:12:46,  3.58it/s] 47%|████▋     | 175223/371472 [2:52:14<15:33:12,  3.50it/s] 47%|████▋     | 175224/371472 [2:52:15<14:58:13,  3.64it/s] 47%|████▋     | 175225/371472 [2:52:15<15:08:30,  3.60it/s] 47%|████▋     | 175226/371472 [2:52:15<14:32:37,  3.75it/s] 47%|████▋     | 175227/371472 [2:52:15<14:39:27,  3.72it/s] 47%|████▋     | 175228/371472 [2:52:16<15:34:33,  3.50it/s] 47%|████▋     | 175229/371472 [2:52:16<15:14:16,  3.58it/s] 47%|████▋     | 175230/371472 [2:52:16<15:04:54,  3.61it/s] 47%|████▋     | 175231/371472 [2:52:17<15:53:35,  3.43it/s] 47%|████▋     | 175232/371472 [2:52:17<16:10:40,  3.37it/s] 47%|████▋     | 175233/371472 [2:52:17<15:36:46,  3.49it/s] 47%|████▋     | 175234/371472 [2:52:17<15:14:33,  3.58it/s] 47%|████▋     | 175235/371472 [2:52:18<15:09:02,  3.60it/s] 47%|████▋     | 175236/371472 [2:52:18<15:01:48,  3.63it/s] 47%|████▋     | 175237/371472 [2:52:18<14:41:54,  3.71it/s] 47%|████▋     | 175238/371472 [2:52:18<15:11:44,  3.59it/s] 47%|████▋     | 175239/371472 [2:52:19<14:50:10,  3.67it/s] 47%|████▋     | 175240/371472 [2:52:19<14:57:17,  3.64it/s]                                                            {'loss': 3.175, 'learning_rate': 5.756857506087181e-07, 'epoch': 7.55}
 47%|████▋     | 175240/371472 [2:52:19<14:57:17,  3.64it/s] 47%|████▋     | 175241/371472 [2:52:19<15:20:22,  3.55it/s] 47%|████▋     | 175242/371472 [2:52:20<15:05:49,  3.61it/s] 47%|████▋     | 175243/371472 [2:52:20<14:47:19,  3.69it/s] 47%|████▋     | 175244/371472 [2:52:20<17:31:04,  3.11it/s] 47%|████▋     | 175245/371472 [2:52:21<16:28:58,  3.31it/s] 47%|████▋     | 175246/371472 [2:52:21<15:52:42,  3.43it/s] 47%|████▋     | 175247/371472 [2:52:21<15:30:44,  3.51it/s] 47%|████▋     | 175248/371472 [2:52:21<15:07:18,  3.60it/s] 47%|████▋     | 175249/371472 [2:52:22<15:09:41,  3.60it/s] 47%|████▋     | 175250/371472 [2:52:22<15:20:35,  3.55it/s] 47%|████▋     | 175251/371472 [2:52:22<15:09:37,  3.60it/s] 47%|████▋     | 175252/371472 [2:52:22<14:29:34,  3.76it/s] 47%|████▋     | 175253/371472 [2:52:23<16:14:38,  3.36it/s] 47%|████▋     | 175254/371472 [2:52:23<15:29:11,  3.52it/s] 47%|████▋     | 175255/371472 [2:52:23<15:44:56,  3.46it/s] 47%|████▋     | 175256/371472 [2:52:24<15:05:19,  3.61it/s] 47%|████▋     | 175257/371472 [2:52:24<15:21:51,  3.55it/s] 47%|████▋     | 175258/371472 [2:52:24<16:02:10,  3.40it/s] 47%|████▋     | 175259/371472 [2:52:24<15:13:32,  3.58it/s] 47%|████▋     | 175260/371472 [2:52:25<15:36:42,  3.49it/s]                                                            {'loss': 2.9625, 'learning_rate': 5.756372686332392e-07, 'epoch': 7.55}
 47%|████▋     | 175260/371472 [2:52:25<15:36:42,  3.49it/s] 47%|████▋     | 175261/371472 [2:52:25<15:28:53,  3.52it/s] 47%|████▋     | 175262/371472 [2:52:25<15:10:28,  3.59it/s] 47%|████▋     | 175263/371472 [2:52:26<14:53:36,  3.66it/s] 47%|████▋     | 175264/371472 [2:52:26<15:58:15,  3.41it/s] 47%|████▋     | 175265/371472 [2:52:26<15:37:05,  3.49it/s] 47%|████▋     | 175266/371472 [2:52:26<15:12:45,  3.58it/s] 47%|████▋     | 175267/371472 [2:52:27<15:12:14,  3.58it/s] 47%|████▋     | 175268/371472 [2:52:27<14:55:21,  3.65it/s] 47%|████▋     | 175269/371472 [2:52:27<14:48:48,  3.68it/s] 47%|████▋     | 175270/371472 [2:52:27<14:40:23,  3.71it/s] 47%|████▋     | 175271/371472 [2:52:28<15:21:47,  3.55it/s] 47%|████▋     | 175272/371472 [2:52:28<15:33:28,  3.50it/s] 47%|████▋     | 175273/371472 [2:52:28<16:20:44,  3.33it/s] 47%|████▋     | 175274/371472 [2:52:29<15:19:55,  3.55it/s] 47%|████▋     | 175275/371472 [2:52:29<14:39:20,  3.72it/s] 47%|████▋     | 175276/371472 [2:52:29<16:10:19,  3.37it/s] 47%|████▋     | 175277/371472 [2:52:30<17:17:51,  3.15it/s] 47%|████▋     | 175278/371472 [2:52:30<17:07:06,  3.18it/s] 47%|████▋     | 175279/371472 [2:52:30<17:24:28,  3.13it/s] 47%|████▋     | 175280/371472 [2:52:31<16:55:59,  3.22it/s]                                                            {'loss': 3.0942, 'learning_rate': 5.755887866577602e-07, 'epoch': 7.55}
 47%|████▋     | 175280/371472 [2:52:31<16:55:59,  3.22it/s] 47%|████▋     | 175281/371472 [2:52:31<16:40:48,  3.27it/s] 47%|████▋     | 175282/371472 [2:52:31<17:11:07,  3.17it/s] 47%|████▋     | 175283/371472 [2:52:31<16:46:05,  3.25it/s] 47%|████▋     | 175284/371472 [2:52:32<16:19:02,  3.34it/s] 47%|████▋     | 175285/371472 [2:52:32<15:42:27,  3.47it/s] 47%|████▋     | 175286/371472 [2:52:32<15:34:43,  3.50it/s] 47%|████▋     | 175287/371472 [2:52:33<15:23:10,  3.54it/s] 47%|████▋     | 175288/371472 [2:52:33<15:23:56,  3.54it/s] 47%|████▋     | 175289/371472 [2:52:33<15:12:31,  3.58it/s] 47%|████▋     | 175290/371472 [2:52:33<15:42:13,  3.47it/s] 47%|████▋     | 175291/371472 [2:52:34<17:16:38,  3.15it/s] 47%|████▋     | 175292/371472 [2:52:34<16:47:36,  3.24it/s] 47%|████▋     | 175293/371472 [2:52:34<16:32:35,  3.29it/s] 47%|████▋     | 175294/371472 [2:52:35<15:44:15,  3.46it/s] 47%|████▋     | 175295/371472 [2:52:35<15:10:24,  3.59it/s] 47%|████▋     | 175296/371472 [2:52:35<14:41:21,  3.71it/s] 47%|████▋     | 175297/371472 [2:52:35<14:48:31,  3.68it/s] 47%|████▋     | 175298/371472 [2:52:36<14:53:27,  3.66it/s] 47%|████▋     | 175299/371472 [2:52:36<14:39:19,  3.72it/s] 47%|████▋     | 175300/371472 [2:52:36<15:11:42,  3.59it/s]                                                            {'loss': 3.0555, 'learning_rate': 5.755403046822814e-07, 'epoch': 7.55}
 47%|████▋     | 175300/371472 [2:52:36<15:11:42,  3.59it/s] 47%|████▋     | 175301/371472 [2:52:37<14:59:52,  3.63it/s] 47%|████▋     | 175302/371472 [2:52:37<14:48:22,  3.68it/s] 47%|████▋     | 175303/371472 [2:52:37<14:33:42,  3.74it/s] 47%|████▋     | 175304/371472 [2:52:38<17:24:06,  3.13it/s] 47%|████▋     | 175305/371472 [2:52:38<16:14:37,  3.35it/s] 47%|████▋     | 175306/371472 [2:52:38<15:52:54,  3.43it/s] 47%|████▋     | 175307/371472 [2:52:38<15:44:17,  3.46it/s] 47%|████▋     | 175308/371472 [2:52:39<15:31:11,  3.51it/s] 47%|████▋     | 175309/371472 [2:52:39<15:55:40,  3.42it/s] 47%|████▋     | 175310/371472 [2:52:39<15:28:16,  3.52it/s] 47%|████▋     | 175311/371472 [2:52:39<15:25:35,  3.53it/s] 47%|████▋     | 175312/371472 [2:52:40<15:09:00,  3.60it/s] 47%|████▋     | 175313/371472 [2:52:40<15:13:30,  3.58it/s] 47%|████▋     | 175314/371472 [2:52:40<14:56:15,  3.65it/s] 47%|████▋     | 175315/371472 [2:52:41<15:31:18,  3.51it/s] 47%|████▋     | 175316/371472 [2:52:41<15:10:29,  3.59it/s] 47%|████▋     | 175317/371472 [2:52:41<16:11:05,  3.37it/s] 47%|████▋     | 175318/371472 [2:52:42<17:59:08,  3.03it/s] 47%|████▋     | 175319/371472 [2:52:42<16:43:18,  3.26it/s] 47%|████▋     | 175320/371472 [2:52:42<16:36:54,  3.28it/s]                                                            {'loss': 3.2251, 'learning_rate': 5.754918227068026e-07, 'epoch': 7.55}
 47%|████▋     | 175320/371472 [2:52:42<16:36:54,  3.28it/s] 47%|████▋     | 175321/371472 [2:52:42<16:32:17,  3.29it/s] 47%|████▋     | 175322/371472 [2:52:43<15:55:27,  3.42it/s] 47%|████▋     | 175323/371472 [2:52:43<15:22:39,  3.54it/s] 47%|████▋     | 175324/371472 [2:52:43<15:43:43,  3.46it/s] 47%|████▋     | 175325/371472 [2:52:44<15:26:23,  3.53it/s] 47%|████▋     | 175326/371472 [2:52:44<15:26:32,  3.53it/s] 47%|████▋     | 175327/371472 [2:52:44<15:34:13,  3.50it/s] 47%|████▋     | 175328/371472 [2:52:44<14:58:58,  3.64it/s] 47%|████▋     | 175329/371472 [2:52:45<14:47:32,  3.68it/s] 47%|████▋     | 175330/371472 [2:52:45<16:01:18,  3.40it/s] 47%|████▋     | 175331/371472 [2:52:45<16:14:21,  3.36it/s] 47%|████▋     | 175332/371472 [2:52:46<15:21:59,  3.55it/s] 47%|████▋     | 175333/371472 [2:52:46<17:35:29,  3.10it/s] 47%|████▋     | 175334/371472 [2:52:46<16:50:52,  3.23it/s] 47%|████▋     | 175335/371472 [2:52:47<16:37:53,  3.28it/s] 47%|████▋     | 175336/371472 [2:52:47<16:39:49,  3.27it/s] 47%|████▋     | 175337/371472 [2:52:47<16:17:52,  3.34it/s] 47%|████▋     | 175338/371472 [2:52:47<15:47:46,  3.45it/s] 47%|████▋     | 175339/371472 [2:52:48<15:56:02,  3.42it/s] 47%|████▋     | 175340/371472 [2:52:48<15:54:00,  3.43it/s]                                                            {'loss': 2.9901, 'learning_rate': 5.754433407313237e-07, 'epoch': 7.55}
 47%|████▋     | 175340/371472 [2:52:48<15:54:00,  3.43it/s] 47%|████▋     | 175341/371472 [2:52:48<15:50:23,  3.44it/s] 47%|████▋     | 175342/371472 [2:52:49<15:48:26,  3.45it/s] 47%|████▋     | 175343/371472 [2:52:49<16:43:11,  3.26it/s] 47%|████▋     | 175344/371472 [2:52:49<16:25:48,  3.32it/s] 47%|████▋     | 175345/371472 [2:52:49<16:17:04,  3.35it/s] 47%|████▋     | 175346/371472 [2:52:50<15:33:22,  3.50it/s] 47%|████▋     | 175347/371472 [2:52:50<15:12:04,  3.58it/s] 47%|████▋     | 175348/371472 [2:52:50<14:31:30,  3.75it/s] 47%|████▋     | 175349/371472 [2:52:50<14:21:10,  3.80it/s] 47%|████▋     | 175350/371472 [2:52:51<15:03:03,  3.62it/s] 47%|████▋     | 175351/371472 [2:52:51<15:09:30,  3.59it/s] 47%|████▋     | 175352/371472 [2:52:51<14:51:30,  3.67it/s] 47%|████▋     | 175353/371472 [2:52:52<15:11:07,  3.59it/s] 47%|████▋     | 175354/371472 [2:52:52<16:07:06,  3.38it/s] 47%|████▋     | 175355/371472 [2:52:52<16:05:35,  3.39it/s] 47%|████▋     | 175356/371472 [2:52:53<16:28:09,  3.31it/s] 47%|████▋     | 175357/371472 [2:52:53<15:47:23,  3.45it/s] 47%|████▋     | 175358/371472 [2:52:53<15:16:18,  3.57it/s] 47%|████▋     | 175359/371472 [2:52:53<16:09:16,  3.37it/s] 47%|████▋     | 175360/371472 [2:52:54<16:17:03,  3.35it/s]                                                            {'loss': 3.1486, 'learning_rate': 5.753948587558448e-07, 'epoch': 7.55}
 47%|████▋     | 175360/371472 [2:52:54<16:17:03,  3.35it/s] 47%|████▋     | 175361/371472 [2:52:54<15:28:33,  3.52it/s] 47%|████▋     | 175362/371472 [2:52:54<15:04:52,  3.61it/s] 47%|████▋     | 175363/371472 [2:52:55<15:01:26,  3.63it/s] 47%|████▋     | 175364/371472 [2:52:55<14:28:17,  3.76it/s] 47%|████▋     | 175365/371472 [2:52:55<14:37:47,  3.72it/s] 47%|████▋     | 175366/371472 [2:52:55<15:43:15,  3.47it/s] 47%|████▋     | 175367/371472 [2:52:56<15:21:42,  3.55it/s] 47%|████▋     | 175368/371472 [2:52:56<16:01:54,  3.40it/s] 47%|████▋     | 175369/371472 [2:52:56<15:45:04,  3.46it/s] 47%|████▋     | 175370/371472 [2:52:56<15:03:35,  3.62it/s] 47%|████▋     | 175371/371472 [2:52:57<14:54:57,  3.65it/s] 47%|████▋     | 175372/371472 [2:52:57<14:45:42,  3.69it/s] 47%|████▋     | 175373/371472 [2:52:57<14:29:55,  3.76it/s] 47%|████▋     | 175374/371472 [2:52:58<14:21:31,  3.79it/s] 47%|████▋     | 175375/371472 [2:52:58<15:15:42,  3.57it/s] 47%|████▋     | 175376/371472 [2:52:58<14:35:51,  3.73it/s] 47%|████▋     | 175377/371472 [2:52:58<14:50:25,  3.67it/s] 47%|████▋     | 175378/371472 [2:52:59<15:58:04,  3.41it/s] 47%|████▋     | 175379/371472 [2:52:59<16:13:04,  3.36it/s] 47%|████▋     | 175380/371472 [2:52:59<15:20:29,  3.55it/s]                                                            {'loss': 3.2631, 'learning_rate': 5.753463767803659e-07, 'epoch': 7.55}
 47%|████▋     | 175380/371472 [2:52:59<15:20:29,  3.55it/s] 47%|████▋     | 175381/371472 [2:53:00<15:24:03,  3.54it/s] 47%|████▋     | 175382/371472 [2:53:00<14:59:58,  3.63it/s] 47%|████▋     | 175383/371472 [2:53:00<14:56:04,  3.65it/s] 47%|████▋     | 175384/371472 [2:53:00<15:11:56,  3.58it/s] 47%|████▋     | 175385/371472 [2:53:01<15:06:10,  3.61it/s] 47%|████▋     | 175386/371472 [2:53:01<15:22:00,  3.54it/s] 47%|████▋     | 175387/371472 [2:53:01<15:43:56,  3.46it/s] 47%|████▋     | 175388/371472 [2:53:02<16:05:35,  3.38it/s] 47%|████▋     | 175389/371472 [2:53:02<15:25:42,  3.53it/s] 47%|████▋     | 175390/371472 [2:53:02<15:01:50,  3.62it/s] 47%|████▋     | 175391/371472 [2:53:02<15:17:58,  3.56it/s] 47%|████▋     | 175392/371472 [2:53:03<15:33:44,  3.50it/s] 47%|████▋     | 175393/371472 [2:53:03<15:29:53,  3.51it/s] 47%|████▋     | 175394/371472 [2:53:03<15:06:29,  3.61it/s] 47%|████▋     | 175395/371472 [2:53:03<15:07:09,  3.60it/s] 47%|████▋     | 175396/371472 [2:53:04<15:24:00,  3.54it/s] 47%|████▋     | 175397/371472 [2:53:04<16:20:21,  3.33it/s] 47%|████▋     | 175398/371472 [2:53:04<16:10:39,  3.37it/s] 47%|████▋     | 175399/371472 [2:53:05<17:06:24,  3.18it/s] 47%|████▋     | 175400/371472 [2:53:05<16:31:22,  3.30it/s]                                                            {'loss': 2.966, 'learning_rate': 5.75297894804887e-07, 'epoch': 7.55}
 47%|████▋     | 175400/371472 [2:53:05<16:31:22,  3.30it/s] 47%|████▋     | 175401/371472 [2:53:05<16:10:56,  3.37it/s] 47%|████▋     | 175402/371472 [2:53:06<15:27:51,  3.52it/s] 47%|████▋     | 175403/371472 [2:53:06<15:17:06,  3.56it/s] 47%|████▋     | 175404/371472 [2:53:06<15:40:19,  3.48it/s] 47%|████▋     | 175405/371472 [2:53:06<15:05:48,  3.61it/s] 47%|████▋     | 175406/371472 [2:53:07<14:45:38,  3.69it/s] 47%|████▋     | 175407/371472 [2:53:07<14:46:39,  3.69it/s] 47%|████▋     | 175408/371472 [2:53:07<14:57:17,  3.64it/s] 47%|████▋     | 175409/371472 [2:53:07<14:42:01,  3.70it/s] 47%|████▋     | 175410/371472 [2:53:08<14:39:39,  3.71it/s] 47%|████▋     | 175411/371472 [2:53:08<15:09:12,  3.59it/s] 47%|████▋     | 175412/371472 [2:53:08<14:49:09,  3.67it/s] 47%|████▋     | 175413/371472 [2:53:09<14:57:08,  3.64it/s] 47%|████▋     | 175414/371472 [2:53:09<15:32:25,  3.50it/s] 47%|████▋     | 175415/371472 [2:53:09<16:37:21,  3.28it/s] 47%|████▋     | 175416/371472 [2:53:10<16:26:26,  3.31it/s] 47%|████▋     | 175417/371472 [2:53:10<15:35:25,  3.49it/s] 47%|████▋     | 175418/371472 [2:53:10<15:38:42,  3.48it/s] 47%|████▋     | 175419/371472 [2:53:10<15:21:46,  3.54it/s] 47%|████▋     | 175420/371472 [2:53:11<15:30:52,  3.51it/s]                                                            {'loss': 3.0762, 'learning_rate': 5.752494128294081e-07, 'epoch': 7.56}
 47%|████▋     | 175420/371472 [2:53:11<15:30:52,  3.51it/s] 47%|████▋     | 175421/371472 [2:53:11<15:16:29,  3.57it/s] 47%|████▋     | 175422/371472 [2:53:11<16:11:30,  3.36it/s] 47%|████▋     | 175423/371472 [2:53:12<15:56:22,  3.42it/s] 47%|████▋     | 175424/371472 [2:53:12<15:07:46,  3.60it/s] 47%|████▋     | 175425/371472 [2:53:12<14:42:32,  3.70it/s] 47%|████▋     | 175426/371472 [2:53:12<14:25:05,  3.78it/s] 47%|████▋     | 175427/371472 [2:53:13<14:42:10,  3.70it/s] 47%|████▋     | 175428/371472 [2:53:13<14:10:50,  3.84it/s] 47%|████▋     | 175429/371472 [2:53:13<14:49:40,  3.67it/s] 47%|████▋     | 175430/371472 [2:53:13<14:33:30,  3.74it/s] 47%|████▋     | 175431/371472 [2:53:14<14:48:37,  3.68it/s] 47%|████▋     | 175432/371472 [2:53:14<14:37:39,  3.72it/s] 47%|████▋     | 175433/371472 [2:53:14<15:25:53,  3.53it/s] 47%|████▋     | 175434/371472 [2:53:14<15:24:35,  3.53it/s] 47%|████▋     | 175435/371472 [2:53:15<16:19:16,  3.34it/s] 47%|████▋     | 175436/371472 [2:53:15<15:42:08,  3.47it/s] 47%|████▋     | 175437/371472 [2:53:15<15:16:40,  3.56it/s] 47%|████▋     | 175438/371472 [2:53:16<15:12:51,  3.58it/s] 47%|████▋     | 175439/371472 [2:53:16<15:37:23,  3.49it/s] 47%|████▋     | 175440/371472 [2:53:16<15:14:40,  3.57it/s]                                                            {'loss': 3.1257, 'learning_rate': 5.752009308539291e-07, 'epoch': 7.56}
 47%|████▋     | 175440/371472 [2:53:16<15:14:40,  3.57it/s] 47%|████▋     | 175441/371472 [2:53:16<15:29:12,  3.52it/s] 47%|████▋     | 175442/371472 [2:53:17<16:12:26,  3.36it/s] 47%|████▋     | 175443/371472 [2:53:17<19:53:38,  2.74it/s] 47%|████▋     | 175444/371472 [2:53:18<18:16:29,  2.98it/s] 47%|████▋     | 175445/371472 [2:53:18<17:06:47,  3.18it/s] 47%|████▋     | 175446/371472 [2:53:18<16:07:48,  3.38it/s] 47%|████▋     | 175447/371472 [2:53:18<15:07:42,  3.60it/s] 47%|████▋     | 175448/371472 [2:53:19<14:39:21,  3.72it/s] 47%|████▋     | 175449/371472 [2:53:19<14:36:27,  3.73it/s] 47%|████▋     | 175450/371472 [2:53:19<14:35:06,  3.73it/s] 47%|████▋     | 175451/371472 [2:53:19<14:39:38,  3.71it/s] 47%|████▋     | 175452/371472 [2:53:20<14:19:13,  3.80it/s] 47%|████▋     | 175453/371472 [2:53:20<14:55:11,  3.65it/s] 47%|████▋     | 175454/371472 [2:53:20<14:35:54,  3.73it/s] 47%|████▋     | 175455/371472 [2:53:20<14:52:12,  3.66it/s] 47%|████▋     | 175456/371472 [2:53:21<14:52:38,  3.66it/s] 47%|████▋     | 175457/371472 [2:53:21<14:30:22,  3.75it/s] 47%|████▋     | 175458/371472 [2:53:21<14:40:41,  3.71it/s] 47%|████▋     | 175459/371472 [2:53:22<14:34:38,  3.74it/s] 47%|████▋     | 175460/371472 [2:53:22<14:56:34,  3.64it/s]                                                            {'loss': 3.1119, 'learning_rate': 5.751524488784504e-07, 'epoch': 7.56}
 47%|████▋     | 175460/371472 [2:53:22<14:56:34,  3.64it/s] 47%|████▋     | 175461/371472 [2:53:22<15:10:52,  3.59it/s] 47%|████▋     | 175462/371472 [2:53:22<15:06:40,  3.60it/s] 47%|████▋     | 175463/371472 [2:53:23<16:42:32,  3.26it/s] 47%|████▋     | 175464/371472 [2:53:23<16:07:00,  3.38it/s] 47%|████▋     | 175465/371472 [2:53:23<15:50:19,  3.44it/s] 47%|████▋     | 175466/371472 [2:53:24<15:35:18,  3.49it/s] 47%|████▋     | 175467/371472 [2:53:24<15:06:37,  3.60it/s] 47%|████▋     | 175468/371472 [2:53:24<14:46:43,  3.68it/s] 47%|████▋     | 175469/371472 [2:53:24<15:18:20,  3.56it/s] 47%|████▋     | 175470/371472 [2:53:25<15:16:48,  3.56it/s] 47%|████▋     | 175471/371472 [2:53:25<14:45:26,  3.69it/s] 47%|████▋     | 175472/371472 [2:53:25<15:12:29,  3.58it/s] 47%|████▋     | 175473/371472 [2:53:26<15:48:00,  3.45it/s] 47%|████▋     | 175474/371472 [2:53:26<15:35:14,  3.49it/s] 47%|████▋     | 175475/371472 [2:53:26<15:51:48,  3.43it/s] 47%|████▋     | 175476/371472 [2:53:26<15:28:53,  3.52it/s] 47%|████▋     | 175477/371472 [2:53:27<15:41:05,  3.47it/s] 47%|████▋     | 175478/371472 [2:53:27<16:18:45,  3.34it/s] 47%|████▋     | 175479/371472 [2:53:27<15:31:13,  3.51it/s] 47%|████▋     | 175480/371472 [2:53:28<15:17:40,  3.56it/s]                                                            {'loss': 3.1259, 'learning_rate': 5.751039669029714e-07, 'epoch': 7.56}
 47%|████▋     | 175480/371472 [2:53:28<15:17:40,  3.56it/s] 47%|████▋     | 175481/371472 [2:53:28<14:44:01,  3.70it/s] 47%|████▋     | 175482/371472 [2:53:28<15:01:49,  3.62it/s] 47%|████▋     | 175483/371472 [2:53:28<14:56:57,  3.64it/s] 47%|████▋     | 175484/371472 [2:53:29<14:53:18,  3.66it/s] 47%|████▋     | 175485/371472 [2:53:29<14:23:44,  3.78it/s] 47%|████▋     | 175486/371472 [2:53:29<15:11:06,  3.59it/s] 47%|████▋     | 175487/371472 [2:53:29<14:54:03,  3.65it/s] 47%|████▋     | 175488/371472 [2:53:30<15:34:16,  3.50it/s] 47%|████▋     | 175489/371472 [2:53:30<15:04:28,  3.61it/s] 47%|████▋     | 175490/371472 [2:53:30<14:55:47,  3.65it/s] 47%|████▋     | 175491/371472 [2:53:31<14:47:45,  3.68it/s] 47%|████▋     | 175492/371472 [2:53:31<14:29:02,  3.76it/s] 47%|████▋     | 175493/371472 [2:53:31<14:39:46,  3.71it/s] 47%|████▋     | 175494/371472 [2:53:31<15:03:35,  3.61it/s] 47%|████▋     | 175495/371472 [2:53:32<15:26:35,  3.53it/s] 47%|████▋     | 175496/371472 [2:53:32<16:12:22,  3.36it/s] 47%|████▋     | 175497/371472 [2:53:32<15:41:57,  3.47it/s] 47%|████▋     | 175498/371472 [2:53:33<15:47:27,  3.45it/s] 47%|████▋     | 175499/371472 [2:53:33<15:42:17,  3.47it/s] 47%|████▋     | 175500/371472 [2:53:33<15:29:14,  3.51it/s]                                                            {'loss': 2.9949, 'learning_rate': 5.750554849274925e-07, 'epoch': 7.56}
 47%|████▋     | 175500/371472 [2:53:33<15:29:14,  3.51it/s] 47%|████▋     | 175501/371472 [2:53:33<15:12:06,  3.58it/s] 47%|████▋     | 175502/371472 [2:53:34<15:29:06,  3.52it/s] 47%|████▋     | 175503/371472 [2:53:34<15:10:55,  3.59it/s] 47%|████▋     | 175504/371472 [2:53:34<15:04:50,  3.61it/s] 47%|████▋     | 175505/371472 [2:53:35<14:46:24,  3.68it/s] 47%|████▋     | 175506/371472 [2:53:35<14:51:23,  3.66it/s] 47%|████▋     | 175507/371472 [2:53:35<15:05:59,  3.60it/s] 47%|████▋     | 175508/371472 [2:53:35<16:32:49,  3.29it/s] 47%|████▋     | 175509/371472 [2:53:36<16:10:01,  3.37it/s] 47%|████▋     | 175510/371472 [2:53:36<16:25:30,  3.31it/s] 47%|████▋     | 175511/371472 [2:53:36<16:36:02,  3.28it/s] 47%|████▋     | 175512/371472 [2:53:37<16:51:27,  3.23it/s] 47%|████▋     | 175513/371472 [2:53:37<17:52:22,  3.05it/s] 47%|████▋     | 175514/371472 [2:53:37<18:52:44,  2.88it/s] 47%|████▋     | 175515/371472 [2:53:38<19:47:24,  2.75it/s] 47%|████▋     | 175516/371472 [2:53:38<20:19:52,  2.68it/s] 47%|████▋     | 175517/371472 [2:53:39<19:52:03,  2.74it/s] 47%|████▋     | 175518/371472 [2:53:39<18:37:56,  2.92it/s] 47%|████▋     | 175519/371472 [2:53:39<17:24:45,  3.13it/s] 47%|████▋     | 175520/371472 [2:53:39<17:00:06,  3.20it/s]                                                            {'loss': 2.8667, 'learning_rate': 5.750070029520136e-07, 'epoch': 7.56}
 47%|████▋     | 175520/371472 [2:53:39<17:00:06,  3.20it/s] 47%|████▋     | 175521/371472 [2:53:40<16:41:48,  3.26it/s] 47%|████▋     | 175522/371472 [2:53:40<16:01:05,  3.40it/s] 47%|████▋     | 175523/371472 [2:53:40<15:40:19,  3.47it/s] 47%|████▋     | 175524/371472 [2:53:41<15:40:09,  3.47it/s] 47%|████▋     | 175525/371472 [2:53:41<15:33:13,  3.50it/s] 47%|████▋     | 175526/371472 [2:53:41<14:59:15,  3.63it/s] 47%|████▋     | 175527/371472 [2:53:41<15:33:50,  3.50it/s] 47%|████▋     | 175528/371472 [2:53:42<15:44:29,  3.46it/s] 47%|████▋     | 175529/371472 [2:53:42<15:42:05,  3.47it/s] 47%|████▋     | 175530/371472 [2:53:42<15:09:02,  3.59it/s] 47%|████▋     | 175531/371472 [2:53:42<14:48:20,  3.68it/s] 47%|████▋     | 175532/371472 [2:53:43<14:41:09,  3.71it/s] 47%|████▋     | 175533/371472 [2:53:43<14:36:32,  3.73it/s] 47%|████▋     | 175534/371472 [2:53:43<15:16:45,  3.56it/s] 47%|████▋     | 175535/371472 [2:53:44<15:13:54,  3.57it/s] 47%|████▋     | 175536/371472 [2:53:44<15:04:46,  3.61it/s] 47%|████▋     | 175537/371472 [2:53:44<16:19:49,  3.33it/s] 47%|████▋     | 175538/371472 [2:53:44<15:35:39,  3.49it/s] 47%|████▋     | 175539/371472 [2:53:45<15:04:00,  3.61it/s] 47%|████▋     | 175540/371472 [2:53:45<15:15:24,  3.57it/s]                                                            {'loss': 3.0229, 'learning_rate': 5.749585209765347e-07, 'epoch': 7.56}
 47%|████▋     | 175540/371472 [2:53:45<15:15:24,  3.57it/s] 47%|████▋     | 175541/371472 [2:53:45<15:27:20,  3.52it/s] 47%|████▋     | 175542/371472 [2:53:46<15:08:14,  3.60it/s] 47%|████▋     | 175543/371472 [2:53:46<15:02:58,  3.62it/s] 47%|████▋     | 175544/371472 [2:53:46<16:20:23,  3.33it/s] 47%|████▋     | 175545/371472 [2:53:47<17:00:35,  3.20it/s] 47%|████▋     | 175546/371472 [2:53:47<16:51:26,  3.23it/s] 47%|████▋     | 175547/371472 [2:53:47<16:39:50,  3.27it/s] 47%|████▋     | 175548/371472 [2:53:47<16:41:41,  3.26it/s] 47%|████▋     | 175549/371472 [2:53:48<16:07:20,  3.38it/s] 47%|████▋     | 175550/371472 [2:53:48<15:29:56,  3.51it/s] 47%|████▋     | 175551/371472 [2:53:48<15:15:24,  3.57it/s] 47%|████▋     | 175552/371472 [2:53:49<15:00:24,  3.63it/s] 47%|████▋     | 175553/371472 [2:53:49<14:44:39,  3.69it/s] 47%|████▋     | 175554/371472 [2:53:49<15:29:30,  3.51it/s] 47%|████▋     | 175555/371472 [2:53:49<14:50:42,  3.67it/s] 47%|████▋     | 175556/371472 [2:53:50<14:34:41,  3.73it/s] 47%|████▋     | 175557/371472 [2:53:50<15:38:16,  3.48it/s] 47%|████▋     | 175558/371472 [2:53:50<15:43:12,  3.46it/s] 47%|████▋     | 175559/371472 [2:53:51<16:15:22,  3.35it/s] 47%|████▋     | 175560/371472 [2:53:51<16:35:31,  3.28it/s]                                                            {'loss': 3.0577, 'learning_rate': 5.749100390010557e-07, 'epoch': 7.56}
 47%|████▋     | 175560/371472 [2:53:51<16:35:31,  3.28it/s] 47%|████▋     | 175561/371472 [2:53:51<16:41:53,  3.26it/s] 47%|████▋     | 175562/371472 [2:53:51<16:12:04,  3.36it/s] 47%|████▋     | 175563/371472 [2:53:52<15:33:11,  3.50it/s] 47%|████▋     | 175564/371472 [2:53:52<15:40:26,  3.47it/s] 47%|████▋     | 175565/371472 [2:53:52<15:18:06,  3.56it/s] 47%|████▋     | 175566/371472 [2:53:53<15:48:38,  3.44it/s] 47%|████▋     | 175567/371472 [2:53:53<16:12:36,  3.36it/s] 47%|████▋     | 175568/371472 [2:53:53<16:40:05,  3.26it/s] 47%|████▋     | 175569/371472 [2:53:53<16:09:51,  3.37it/s] 47%|████▋     | 175570/371472 [2:53:54<15:34:03,  3.50it/s] 47%|████▋     | 175571/371472 [2:53:54<14:59:45,  3.63it/s] 47%|████▋     | 175572/371472 [2:53:54<15:44:32,  3.46it/s] 47%|████▋     | 175573/371472 [2:53:55<16:12:50,  3.36it/s] 47%|████▋     | 175574/371472 [2:53:55<15:33:12,  3.50it/s] 47%|████▋     | 175575/371472 [2:53:55<15:51:05,  3.43it/s] 47%|████▋     | 175576/371472 [2:53:55<15:40:43,  3.47it/s] 47%|████▋     | 175577/371472 [2:53:56<15:34:18,  3.49it/s] 47%|████▋     | 175578/371472 [2:53:56<15:20:56,  3.55it/s] 47%|████▋     | 175579/371472 [2:53:56<15:05:15,  3.61it/s] 47%|████▋     | 175580/371472 [2:53:57<14:42:36,  3.70it/s]                                                            {'loss': 2.9017, 'learning_rate': 5.748615570255768e-07, 'epoch': 7.56}
 47%|████▋     | 175580/371472 [2:53:57<14:42:36,  3.70it/s] 47%|████▋     | 175581/371472 [2:53:57<14:54:37,  3.65it/s] 47%|████▋     | 175582/371472 [2:53:57<15:12:09,  3.58it/s] 47%|████▋     | 175583/371472 [2:53:57<14:47:24,  3.68it/s] 47%|████▋     | 175584/371472 [2:53:58<14:26:04,  3.77it/s] 47%|████▋     | 175585/371472 [2:53:58<14:20:28,  3.79it/s] 47%|████▋     | 175586/371472 [2:53:58<14:54:41,  3.65it/s] 47%|████▋     | 175587/371472 [2:53:58<14:59:39,  3.63it/s] 47%|████▋     | 175588/371472 [2:53:59<14:40:57,  3.71it/s] 47%|████▋     | 175589/371472 [2:53:59<15:21:05,  3.54it/s] 47%|████▋     | 175590/371472 [2:53:59<15:15:58,  3.56it/s] 47%|████▋     | 175591/371472 [2:54:00<15:06:00,  3.60it/s] 47%|████▋     | 175592/371472 [2:54:00<14:48:27,  3.67it/s] 47%|████▋     | 175593/371472 [2:54:00<15:24:58,  3.53it/s] 47%|████▋     | 175594/371472 [2:54:00<15:51:44,  3.43it/s] 47%|████▋     | 175595/371472 [2:54:01<15:30:52,  3.51it/s] 47%|████▋     | 175596/371472 [2:54:01<15:19:09,  3.55it/s] 47%|████▋     | 175597/371472 [2:54:01<14:55:58,  3.64it/s] 47%|████▋     | 175598/371472 [2:54:02<15:57:32,  3.41it/s] 47%|████▋     | 175599/371472 [2:54:02<15:43:15,  3.46it/s] 47%|████▋     | 175600/371472 [2:54:02<15:53:13,  3.42it/s]                                                            {'loss': 3.1439, 'learning_rate': 5.748130750500981e-07, 'epoch': 7.56}
 47%|████▋     | 175600/371472 [2:54:02<15:53:13,  3.42it/s] 47%|████▋     | 175601/371472 [2:54:02<15:58:47,  3.40it/s] 47%|████▋     | 175602/371472 [2:54:03<15:30:42,  3.51it/s] 47%|████▋     | 175603/371472 [2:54:03<16:07:13,  3.38it/s] 47%|████▋     | 175604/371472 [2:54:03<16:03:01,  3.39it/s] 47%|████▋     | 175605/371472 [2:54:04<16:18:59,  3.33it/s] 47%|████▋     | 175606/371472 [2:54:04<15:44:03,  3.46it/s] 47%|████▋     | 175607/371472 [2:54:04<15:04:11,  3.61it/s] 47%|████▋     | 175608/371472 [2:54:04<15:08:57,  3.59it/s] 47%|████▋     | 175609/371472 [2:54:05<14:56:18,  3.64it/s] 47%|████▋     | 175610/371472 [2:54:05<14:58:28,  3.63it/s] 47%|████▋     | 175611/371472 [2:54:05<14:22:07,  3.79it/s] 47%|████▋     | 175612/371472 [2:54:06<14:41:35,  3.70it/s] 47%|████▋     | 175613/371472 [2:54:06<14:32:24,  3.74it/s] 47%|████▋     | 175614/371472 [2:54:06<14:27:23,  3.76it/s] 47%|████▋     | 175615/371472 [2:54:06<14:16:49,  3.81it/s] 47%|████▋     | 175616/371472 [2:54:07<15:58:49,  3.40it/s] 47%|████▋     | 175617/371472 [2:54:07<16:19:30,  3.33it/s] 47%|████▋     | 175618/371472 [2:54:07<16:00:49,  3.40it/s] 47%|████▋     | 175619/371472 [2:54:08<16:18:34,  3.34it/s] 47%|████▋     | 175620/371472 [2:54:08<15:38:14,  3.48it/s]                                                            {'loss': 2.9944, 'learning_rate': 5.747645930746191e-07, 'epoch': 7.56}
 47%|████▋     | 175620/371472 [2:54:08<15:38:14,  3.48it/s] 47%|████▋     | 175621/371472 [2:54:08<16:22:08,  3.32it/s] 47%|████▋     | 175622/371472 [2:54:08<15:24:54,  3.53it/s] 47%|████▋     | 175623/371472 [2:54:09<16:29:58,  3.30it/s] 47%|████▋     | 175624/371472 [2:54:09<15:53:51,  3.42it/s] 47%|████▋     | 175625/371472 [2:54:09<17:03:30,  3.19it/s] 47%|████▋     | 175626/371472 [2:54:10<16:44:40,  3.25it/s] 47%|████▋     | 175627/371472 [2:54:10<16:29:40,  3.30it/s] 47%|████▋     | 175628/371472 [2:54:10<17:00:46,  3.20it/s] 47%|████▋     | 175629/371472 [2:54:11<17:06:16,  3.18it/s] 47%|████▋     | 175630/371472 [2:54:11<16:40:46,  3.26it/s] 47%|████▋     | 175631/371472 [2:54:11<16:13:46,  3.35it/s] 47%|████▋     | 175632/371472 [2:54:12<16:07:22,  3.37it/s] 47%|████▋     | 175633/371472 [2:54:12<15:45:59,  3.45it/s] 47%|████▋     | 175634/371472 [2:54:12<15:18:06,  3.56it/s] 47%|████▋     | 175635/371472 [2:54:12<16:21:54,  3.32it/s] 47%|████▋     | 175636/371472 [2:54:13<16:03:42,  3.39it/s] 47%|████▋     | 175637/371472 [2:54:13<16:08:08,  3.37it/s] 47%|████▋     | 175638/371472 [2:54:13<15:31:07,  3.51it/s] 47%|████▋     | 175639/371472 [2:54:13<14:43:11,  3.70it/s] 47%|████▋     | 175640/371472 [2:54:14<14:30:57,  3.75it/s]                                                            {'loss': 2.9494, 'learning_rate': 5.747161110991402e-07, 'epoch': 7.57}
 47%|████▋     | 175640/371472 [2:54:14<14:30:57,  3.75it/s] 47%|████▋     | 175641/371472 [2:54:14<16:04:08,  3.39it/s] 47%|████▋     | 175642/371472 [2:54:14<15:42:01,  3.46it/s] 47%|████▋     | 175643/371472 [2:54:15<15:13:29,  3.57it/s] 47%|████▋     | 175644/371472 [2:54:15<14:51:13,  3.66it/s] 47%|████▋     | 175645/371472 [2:54:15<14:19:44,  3.80it/s] 47%|████▋     | 175646/371472 [2:54:15<14:24:38,  3.77it/s] 47%|████▋     | 175647/371472 [2:54:16<14:22:11,  3.79it/s] 47%|████▋     | 175648/371472 [2:54:16<14:03:16,  3.87it/s] 47%|████▋     | 175649/371472 [2:54:16<14:20:32,  3.79it/s] 47%|████▋     | 175650/371472 [2:54:16<14:36:15,  3.72it/s] 47%|████▋     | 175651/371472 [2:54:17<15:22:38,  3.54it/s] 47%|████▋     | 175652/371472 [2:54:17<16:35:20,  3.28it/s] 47%|████▋     | 175653/371472 [2:54:17<15:35:56,  3.49it/s] 47%|████▋     | 175654/371472 [2:54:18<15:04:12,  3.61it/s] 47%|████▋     | 175655/371472 [2:54:18<14:55:24,  3.64it/s] 47%|████▋     | 175656/371472 [2:54:18<14:49:28,  3.67it/s] 47%|████▋     | 175657/371472 [2:54:18<15:30:19,  3.51it/s] 47%|████▋     | 175658/371472 [2:54:19<15:08:08,  3.59it/s] 47%|████▋     | 175659/371472 [2:54:19<15:26:15,  3.52it/s] 47%|████▋     | 175660/371472 [2:54:19<15:22:44,  3.54it/s]                                                            {'loss': 3.007, 'learning_rate': 5.746676291236613e-07, 'epoch': 7.57}
 47%|████▋     | 175660/371472 [2:54:19<15:22:44,  3.54it/s] 47%|████▋     | 175661/371472 [2:54:20<15:13:44,  3.57it/s] 47%|████▋     | 175662/371472 [2:54:20<15:39:35,  3.47it/s] 47%|████▋     | 175663/371472 [2:54:20<16:33:18,  3.29it/s] 47%|████▋     | 175664/371472 [2:54:20<15:36:21,  3.49it/s] 47%|████▋     | 175665/371472 [2:54:21<14:58:41,  3.63it/s] 47%|████▋     | 175666/371472 [2:54:21<14:59:33,  3.63it/s] 47%|████▋     | 175667/371472 [2:54:21<14:41:14,  3.70it/s] 47%|████▋     | 175668/371472 [2:54:22<14:44:48,  3.69it/s] 47%|████▋     | 175669/371472 [2:54:22<14:33:30,  3.74it/s] 47%|████▋     | 175670/371472 [2:54:22<14:36:52,  3.72it/s] 47%|████▋     | 175671/371472 [2:54:22<15:15:29,  3.56it/s] 47%|████▋     | 175672/371472 [2:54:23<15:00:49,  3.62it/s] 47%|████▋     | 175673/371472 [2:54:23<15:36:00,  3.49it/s] 47%|████▋     | 175674/371472 [2:54:23<15:20:05,  3.55it/s] 47%|████▋     | 175675/371472 [2:54:24<15:47:03,  3.45it/s] 47%|████▋     | 175676/371472 [2:54:24<16:10:22,  3.36it/s] 47%|████▋     | 175677/371472 [2:54:24<15:59:04,  3.40it/s] 47%|████▋     | 175678/371472 [2:54:24<16:17:51,  3.34it/s] 47%|████▋     | 175679/371472 [2:54:25<16:03:51,  3.39it/s] 47%|████▋     | 175680/371472 [2:54:25<15:36:19,  3.49it/s]                                                            {'loss': 2.9392, 'learning_rate': 5.746191471481823e-07, 'epoch': 7.57}
 47%|████▋     | 175680/371472 [2:54:25<15:36:19,  3.49it/s] 47%|████▋     | 175681/371472 [2:54:25<16:03:35,  3.39it/s] 47%|████▋     | 175682/371472 [2:54:26<15:54:14,  3.42it/s] 47%|████▋     | 175683/371472 [2:54:26<15:16:38,  3.56it/s] 47%|████▋     | 175684/371472 [2:54:26<15:05:05,  3.61it/s] 47%|████▋     | 175685/371472 [2:54:26<14:58:00,  3.63it/s] 47%|████▋     | 175686/371472 [2:54:27<15:44:38,  3.45it/s] 47%|████▋     | 175687/371472 [2:54:27<15:21:09,  3.54it/s] 47%|████▋     | 175688/371472 [2:54:27<15:05:35,  3.60it/s] 47%|████▋     | 175689/371472 [2:54:27<14:46:50,  3.68it/s] 47%|████▋     | 175690/371472 [2:54:28<15:03:59,  3.61it/s] 47%|████▋     | 175691/371472 [2:54:28<14:39:24,  3.71it/s] 47%|████▋     | 175692/371472 [2:54:28<14:43:24,  3.69it/s] 47%|████▋     | 175693/371472 [2:54:29<14:42:14,  3.70it/s] 47%|████▋     | 175694/371472 [2:54:29<14:21:33,  3.79it/s] 47%|████▋     | 175695/371472 [2:54:29<15:44:48,  3.45it/s] 47%|████▋     | 175696/371472 [2:54:29<15:43:54,  3.46it/s] 47%|████▋     | 175697/371472 [2:54:30<15:49:09,  3.44it/s] 47%|████▋     | 175698/371472 [2:54:30<15:46:31,  3.45it/s] 47%|████▋     | 175699/371472 [2:54:30<15:16:55,  3.56it/s] 47%|████▋     | 175700/371472 [2:54:31<14:50:58,  3.66it/s]                                                            {'loss': 3.0222, 'learning_rate': 5.745706651727036e-07, 'epoch': 7.57}
 47%|████▋     | 175700/371472 [2:54:31<14:50:58,  3.66it/s] 47%|████▋     | 175701/371472 [2:54:31<14:36:05,  3.72it/s] 47%|████▋     | 175702/371472 [2:54:31<14:55:46,  3.64it/s] 47%|████▋     | 175703/371472 [2:54:31<14:48:27,  3.67it/s] 47%|████▋     | 175704/371472 [2:54:32<15:10:31,  3.58it/s] 47%|████▋     | 175705/371472 [2:54:32<15:54:13,  3.42it/s] 47%|████▋     | 175706/371472 [2:54:32<17:13:17,  3.16it/s] 47%|████▋     | 175707/371472 [2:54:33<16:10:15,  3.36it/s] 47%|████▋     | 175708/371472 [2:54:33<15:56:32,  3.41it/s] 47%|████▋     | 175709/371472 [2:54:33<15:33:52,  3.49it/s] 47%|████▋     | 175710/371472 [2:54:34<16:52:17,  3.22it/s] 47%|████▋     | 175711/371472 [2:54:34<16:18:40,  3.33it/s] 47%|████▋     | 175712/371472 [2:54:34<16:03:58,  3.38it/s] 47%|████▋     | 175713/371472 [2:54:34<15:50:20,  3.43it/s] 47%|████▋     | 175714/371472 [2:54:35<15:48:39,  3.44it/s] 47%|████▋     | 175715/371472 [2:54:35<16:13:46,  3.35it/s] 47%|████▋     | 175716/371472 [2:54:35<15:35:01,  3.49it/s] 47%|████▋     | 175717/371472 [2:54:36<15:11:14,  3.58it/s] 47%|████▋     | 175718/371472 [2:54:36<14:55:49,  3.64it/s] 47%|████▋     | 175719/371472 [2:54:36<14:29:03,  3.75it/s] 47%|████▋     | 175720/371472 [2:54:36<14:25:13,  3.77it/s]                                                            {'loss': 3.1937, 'learning_rate': 5.745221831972247e-07, 'epoch': 7.57}
 47%|████▋     | 175720/371472 [2:54:36<14:25:13,  3.77it/s] 47%|████▋     | 175721/371472 [2:54:37<14:25:02,  3.77it/s] 47%|████▋     | 175722/371472 [2:54:37<15:32:40,  3.50it/s] 47%|████▋     | 175723/371472 [2:54:37<15:05:56,  3.60it/s] 47%|████▋     | 175724/371472 [2:54:37<16:04:50,  3.38it/s] 47%|████▋     | 175725/371472 [2:54:38<15:40:33,  3.47it/s] 47%|████▋     | 175726/371472 [2:54:38<16:22:50,  3.32it/s] 47%|████▋     | 175727/371472 [2:54:38<15:32:08,  3.50it/s] 47%|████▋     | 175728/371472 [2:54:39<14:59:19,  3.63it/s] 47%|████▋     | 175729/371472 [2:54:39<15:59:18,  3.40it/s] 47%|████▋     | 175730/371472 [2:54:39<15:45:31,  3.45it/s] 47%|████▋     | 175731/371472 [2:54:39<15:20:38,  3.54it/s] 47%|████▋     | 175732/371472 [2:54:40<17:00:20,  3.20it/s] 47%|████▋     | 175733/371472 [2:54:40<16:22:24,  3.32it/s] 47%|████▋     | 175734/371472 [2:54:40<16:10:35,  3.36it/s] 47%|████▋     | 175735/371472 [2:54:41<15:45:25,  3.45it/s] 47%|████▋     | 175736/371472 [2:54:41<15:36:22,  3.48it/s] 47%|████▋     | 175737/371472 [2:54:41<15:45:31,  3.45it/s] 47%|████▋     | 175738/371472 [2:54:42<15:24:52,  3.53it/s] 47%|████▋     | 175739/371472 [2:54:42<15:04:18,  3.61it/s] 47%|████▋     | 175740/371472 [2:54:42<15:17:03,  3.56it/s]                                                            {'loss': 3.0314, 'learning_rate': 5.744737012217458e-07, 'epoch': 7.57}
 47%|████▋     | 175740/371472 [2:54:42<15:17:03,  3.56it/s] 47%|████▋     | 175741/371472 [2:54:42<15:33:44,  3.49it/s] 47%|████▋     | 175742/371472 [2:54:43<18:01:37,  3.02it/s] 47%|████▋     | 175743/371472 [2:54:43<17:48:29,  3.05it/s] 47%|████▋     | 175744/371472 [2:54:43<16:27:59,  3.30it/s] 47%|████▋     | 175745/371472 [2:54:44<16:02:00,  3.39it/s] 47%|████▋     | 175746/371472 [2:54:44<16:07:01,  3.37it/s] 47%|████▋     | 175747/371472 [2:54:44<15:35:25,  3.49it/s] 47%|████▋     | 175748/371472 [2:54:45<15:44:48,  3.45it/s] 47%|████▋     | 175749/371472 [2:54:45<16:45:23,  3.24it/s] 47%|████▋     | 175750/371472 [2:54:45<15:59:33,  3.40it/s] 47%|████▋     | 175751/371472 [2:54:45<15:35:54,  3.49it/s] 47%|████▋     | 175752/371472 [2:54:46<16:03:07,  3.39it/s] 47%|████▋     | 175753/371472 [2:54:46<15:44:40,  3.45it/s] 47%|████▋     | 175754/371472 [2:54:46<16:29:28,  3.30it/s] 47%|████▋     | 175755/371472 [2:54:47<15:46:32,  3.45it/s] 47%|████▋     | 175756/371472 [2:54:47<16:03:06,  3.39it/s] 47%|████▋     | 175757/371472 [2:54:47<15:58:02,  3.40it/s] 47%|████▋     | 175758/371472 [2:54:48<16:46:19,  3.24it/s] 47%|████▋     | 175759/371472 [2:54:48<16:10:05,  3.36it/s] 47%|████▋     | 175760/371472 [2:54:48<15:43:48,  3.46it/s]                                                            {'loss': 2.9518, 'learning_rate': 5.744252192462668e-07, 'epoch': 7.57}
 47%|████▋     | 175760/371472 [2:54:48<15:43:48,  3.46it/s] 47%|████▋     | 175761/371472 [2:54:48<16:06:11,  3.38it/s] 47%|████▋     | 175762/371472 [2:54:49<15:59:59,  3.40it/s] 47%|████▋     | 175763/371472 [2:54:49<15:38:48,  3.47it/s] 47%|████▋     | 175764/371472 [2:54:49<15:41:59,  3.46it/s] 47%|████▋     | 175765/371472 [2:54:50<15:16:00,  3.56it/s] 47%|████▋     | 175766/371472 [2:54:50<15:05:33,  3.60it/s] 47%|████▋     | 175767/371472 [2:54:50<14:46:43,  3.68it/s] 47%|████▋     | 175768/371472 [2:54:50<14:55:32,  3.64it/s] 47%|████▋     | 175769/371472 [2:54:51<14:54:19,  3.65it/s] 47%|████▋     | 175770/371472 [2:54:51<15:09:00,  3.59it/s] 47%|████▋     | 175771/371472 [2:54:51<15:28:02,  3.51it/s] 47%|████▋     | 175772/371472 [2:54:51<15:30:25,  3.51it/s] 47%|████▋     | 175773/371472 [2:54:52<16:29:20,  3.30it/s] 47%|████▋     | 175774/371472 [2:54:52<16:23:32,  3.32it/s] 47%|████▋     | 175775/371472 [2:54:52<15:44:28,  3.45it/s] 47%|████▋     | 175776/371472 [2:54:53<16:12:30,  3.35it/s] 47%|████▋     | 175777/371472 [2:54:53<15:28:41,  3.51it/s] 47%|████▋     | 175778/371472 [2:54:53<15:41:17,  3.46it/s] 47%|████▋     | 175779/371472 [2:54:53<15:13:53,  3.57it/s] 47%|████▋     | 175780/371472 [2:54:54<15:33:03,  3.50it/s]                                                            {'loss': 3.0346, 'learning_rate': 5.74376737270788e-07, 'epoch': 7.57}
 47%|████▋     | 175780/371472 [2:54:54<15:33:03,  3.50it/s] 47%|████▋     | 175781/371472 [2:54:54<15:07:46,  3.59it/s] 47%|████▋     | 175782/371472 [2:54:54<14:48:03,  3.67it/s] 47%|████▋     | 175783/371472 [2:54:55<14:52:28,  3.65it/s] 47%|████▋     | 175784/371472 [2:54:55<15:06:07,  3.60it/s] 47%|████▋     | 175785/371472 [2:54:55<14:54:07,  3.65it/s] 47%|████▋     | 175786/371472 [2:54:55<14:29:12,  3.75it/s] 47%|████▋     | 175787/371472 [2:54:56<14:14:11,  3.82it/s] 47%|████▋     | 175788/371472 [2:54:56<15:01:50,  3.62it/s] 47%|████▋     | 175789/371472 [2:54:56<15:55:46,  3.41it/s] 47%|████▋     | 175790/371472 [2:54:57<15:51:00,  3.43it/s] 47%|████▋     | 175791/371472 [2:54:57<15:44:08,  3.45it/s] 47%|████▋     | 175792/371472 [2:54:57<15:49:54,  3.43it/s] 47%|████▋     | 175793/371472 [2:54:57<15:13:43,  3.57it/s] 47%|████▋     | 175794/371472 [2:54:58<14:39:04,  3.71it/s] 47%|████▋     | 175795/371472 [2:54:58<14:13:22,  3.82it/s] 47%|████▋     | 175796/371472 [2:54:58<14:41:37,  3.70it/s] 47%|████▋     | 175797/371472 [2:54:59<15:33:00,  3.50it/s] 47%|████▋     | 175798/371472 [2:54:59<15:14:18,  3.57it/s] 47%|████▋     | 175799/371472 [2:54:59<14:44:51,  3.69it/s] 47%|████▋     | 175800/371472 [2:54:59<15:11:48,  3.58it/s]                                                            {'loss': 3.1776, 'learning_rate': 5.743282552953092e-07, 'epoch': 7.57}
 47%|████▋     | 175800/371472 [2:54:59<15:11:48,  3.58it/s] 47%|████▋     | 175801/371472 [2:55:00<14:55:07,  3.64it/s] 47%|████▋     | 175802/371472 [2:55:00<15:50:37,  3.43it/s] 47%|████▋     | 175803/371472 [2:55:00<15:35:50,  3.48it/s] 47%|████▋     | 175804/371472 [2:55:01<16:07:30,  3.37it/s] 47%|████▋     | 175805/371472 [2:55:01<16:01:41,  3.39it/s] 47%|████▋     | 175806/371472 [2:55:01<16:04:20,  3.38it/s] 47%|████▋     | 175807/371472 [2:55:01<15:42:24,  3.46it/s] 47%|████▋     | 175808/371472 [2:55:02<14:52:17,  3.65it/s] 47%|████▋     | 175809/371472 [2:55:02<14:28:24,  3.76it/s] 47%|████▋     | 175810/371472 [2:55:02<14:14:25,  3.82it/s] 47%|████▋     | 175811/371472 [2:55:02<14:11:20,  3.83it/s] 47%|████▋     | 175812/371472 [2:55:03<14:34:17,  3.73it/s] 47%|████▋     | 175813/371472 [2:55:03<15:12:18,  3.57it/s] 47%|████▋     | 175814/371472 [2:55:03<15:28:33,  3.51it/s] 47%|████▋     | 175815/371472 [2:55:04<16:53:42,  3.22it/s] 47%|████▋     | 175816/371472 [2:55:04<16:47:06,  3.24it/s] 47%|████▋     | 175817/371472 [2:55:04<18:00:21,  3.02it/s] 47%|████▋     | 175818/371472 [2:55:05<16:50:46,  3.23it/s] 47%|████▋     | 175819/371472 [2:55:05<16:34:21,  3.28it/s] 47%|████▋     | 175820/371472 [2:55:05<16:38:33,  3.27it/s]                                                            {'loss': 2.9133, 'learning_rate': 5.742797733198301e-07, 'epoch': 7.57}
 47%|████▋     | 175820/371472 [2:55:05<16:38:33,  3.27it/s] 47%|████▋     | 175821/371472 [2:55:05<16:30:47,  3.29it/s] 47%|████▋     | 175822/371472 [2:55:06<16:26:47,  3.30it/s] 47%|████▋     | 175823/371472 [2:55:06<15:48:05,  3.44it/s] 47%|████▋     | 175824/371472 [2:55:06<15:05:54,  3.60it/s] 47%|████▋     | 175825/371472 [2:55:07<14:54:57,  3.64it/s] 47%|████▋     | 175826/371472 [2:55:07<15:00:39,  3.62it/s] 47%|████▋     | 175827/371472 [2:55:07<14:49:57,  3.66it/s] 47%|████▋     | 175828/371472 [2:55:07<15:09:33,  3.58it/s] 47%|████▋     | 175829/371472 [2:55:08<14:59:53,  3.62it/s] 47%|████▋     | 175830/371472 [2:55:08<14:45:31,  3.68it/s] 47%|████▋     | 175831/371472 [2:55:08<14:49:57,  3.66it/s] 47%|████▋     | 175832/371472 [2:55:09<15:28:16,  3.51it/s] 47%|████▋     | 175833/371472 [2:55:09<15:01:12,  3.62it/s] 47%|████▋     | 175834/371472 [2:55:09<14:54:18,  3.65it/s] 47%|████▋     | 175835/371472 [2:55:09<14:39:52,  3.71it/s] 47%|████▋     | 175836/371472 [2:55:10<15:07:02,  3.59it/s] 47%|████▋     | 175837/371472 [2:55:10<15:52:31,  3.42it/s] 47%|████▋     | 175838/371472 [2:55:10<15:33:05,  3.49it/s] 47%|████▋     | 175839/371472 [2:55:10<15:38:45,  3.47it/s] 47%|████▋     | 175840/371472 [2:55:11<15:21:06,  3.54it/s]                                                            {'loss': 2.9859, 'learning_rate': 5.742312913443513e-07, 'epoch': 7.57}
 47%|████▋     | 175840/371472 [2:55:11<15:21:06,  3.54it/s] 47%|████▋     | 175841/371472 [2:55:11<14:54:58,  3.64it/s] 47%|████▋     | 175842/371472 [2:55:11<15:06:01,  3.60it/s] 47%|████▋     | 175843/371472 [2:55:12<14:45:55,  3.68it/s] 47%|████▋     | 175844/371472 [2:55:12<14:53:49,  3.65it/s] 47%|████▋     | 175845/371472 [2:55:12<14:47:36,  3.67it/s] 47%|████▋     | 175846/371472 [2:55:12<14:56:07,  3.64it/s] 47%|████▋     | 175847/371472 [2:55:13<15:07:20,  3.59it/s] 47%|████▋     | 175848/371472 [2:55:13<15:07:51,  3.59it/s] 47%|████▋     | 175849/371472 [2:55:13<14:54:26,  3.65it/s] 47%|████▋     | 175850/371472 [2:55:13<14:43:04,  3.69it/s] 47%|████▋     | 175851/371472 [2:55:14<14:36:08,  3.72it/s] 47%|████▋     | 175852/371472 [2:55:14<15:26:27,  3.52it/s] 47%|████▋     | 175853/371472 [2:55:14<14:50:02,  3.66it/s] 47%|████▋     | 175854/371472 [2:55:15<15:45:49,  3.45it/s] 47%|████▋     | 175855/371472 [2:55:15<15:14:04,  3.57it/s] 47%|████▋     | 175856/371472 [2:55:15<14:46:51,  3.68it/s] 47%|████▋     | 175857/371472 [2:55:15<15:24:10,  3.53it/s] 47%|████▋     | 175858/371472 [2:55:16<17:12:35,  3.16it/s] 47%|████▋     | 175859/371472 [2:55:16<16:08:27,  3.37it/s] 47%|████▋     | 175860/371472 [2:55:16<15:42:45,  3.46it/s]                                                            {'loss': 3.1477, 'learning_rate': 5.741828093688724e-07, 'epoch': 7.57}
 47%|████▋     | 175860/371472 [2:55:16<15:42:45,  3.46it/s] 47%|████▋     | 175861/371472 [2:55:17<16:41:02,  3.26it/s] 47%|████▋     | 175862/371472 [2:55:17<16:13:59,  3.35it/s] 47%|████▋     | 175863/371472 [2:55:17<15:40:24,  3.47it/s] 47%|████▋     | 175864/371472 [2:55:18<15:58:53,  3.40it/s] 47%|████▋     | 175865/371472 [2:55:18<15:54:18,  3.42it/s] 47%|████▋     | 175866/371472 [2:55:18<15:05:25,  3.60it/s] 47%|████▋     | 175867/371472 [2:55:18<15:43:24,  3.46it/s] 47%|████▋     | 175868/371472 [2:55:19<15:19:56,  3.54it/s] 47%|████▋     | 175869/371472 [2:55:19<15:09:52,  3.58it/s] 47%|████▋     | 175870/371472 [2:55:19<15:10:28,  3.58it/s] 47%|████▋     | 175871/371472 [2:55:20<15:10:37,  3.58it/s] 47%|████▋     | 175872/371472 [2:55:20<15:01:16,  3.62it/s] 47%|████▋     | 175873/371472 [2:55:20<15:08:31,  3.59it/s] 47%|████▋     | 175874/371472 [2:55:20<15:25:15,  3.52it/s] 47%|████▋     | 175875/371472 [2:55:21<15:07:39,  3.59it/s] 47%|████▋     | 175876/371472 [2:55:21<15:54:15,  3.42it/s] 47%|████▋     | 175877/371472 [2:55:21<15:30:34,  3.50it/s] 47%|████▋     | 175878/371472 [2:55:22<15:31:24,  3.50it/s] 47%|████▋     | 175879/371472 [2:55:22<15:06:20,  3.60it/s] 47%|████▋     | 175880/371472 [2:55:22<15:29:39,  3.51it/s]                                                            {'loss': 3.0834, 'learning_rate': 5.741343273933935e-07, 'epoch': 7.58}
 47%|████▋     | 175880/371472 [2:55:22<15:29:39,  3.51it/s] 47%|████▋     | 175881/371472 [2:55:22<15:37:38,  3.48it/s] 47%|████▋     | 175882/371472 [2:55:23<15:16:08,  3.56it/s] 47%|████▋     | 175883/371472 [2:55:23<15:28:31,  3.51it/s] 47%|████▋     | 175884/371472 [2:55:23<15:14:44,  3.56it/s] 47%|████▋     | 175885/371472 [2:55:23<15:25:59,  3.52it/s] 47%|████▋     | 175886/371472 [2:55:24<15:03:58,  3.61it/s] 47%|████▋     | 175887/371472 [2:55:24<15:00:17,  3.62it/s] 47%|████▋     | 175888/371472 [2:55:24<15:30:24,  3.50it/s] 47%|████▋     | 175889/371472 [2:55:25<15:32:24,  3.50it/s] 47%|████▋     | 175890/371472 [2:55:25<16:09:39,  3.36it/s] 47%|████▋     | 175891/371472 [2:55:25<16:18:37,  3.33it/s] 47%|████▋     | 175892/371472 [2:55:26<16:17:40,  3.33it/s] 47%|████▋     | 175893/371472 [2:55:26<15:55:16,  3.41it/s] 47%|████▋     | 175894/371472 [2:55:26<15:31:28,  3.50it/s] 47%|████▋     | 175895/371472 [2:55:26<15:21:02,  3.54it/s] 47%|████▋     | 175896/371472 [2:55:27<15:09:47,  3.58it/s] 47%|████▋     | 175897/371472 [2:55:27<15:14:17,  3.57it/s] 47%|████▋     | 175898/371472 [2:55:27<15:49:53,  3.43it/s] 47%|████▋     | 175899/371472 [2:55:28<16:14:09,  3.35it/s] 47%|████▋     | 175900/371472 [2:55:28<16:21:59,  3.32it/s]                                                            {'loss': 2.933, 'learning_rate': 5.740858454179146e-07, 'epoch': 7.58}
 47%|████▋     | 175900/371472 [2:55:28<16:21:59,  3.32it/s] 47%|████▋     | 175901/371472 [2:55:28<16:18:41,  3.33it/s] 47%|████▋     | 175902/371472 [2:55:28<16:27:11,  3.30it/s] 47%|████▋     | 175903/371472 [2:55:29<16:30:19,  3.29it/s] 47%|████▋     | 175904/371472 [2:55:29<16:09:52,  3.36it/s] 47%|████▋     | 175905/371472 [2:55:29<15:27:23,  3.51it/s] 47%|████▋     | 175906/371472 [2:55:30<15:22:39,  3.53it/s] 47%|████▋     | 175907/371472 [2:55:30<14:37:04,  3.72it/s] 47%|████▋     | 175908/371472 [2:55:30<15:51:52,  3.42it/s] 47%|████▋     | 175909/371472 [2:55:30<15:51:40,  3.42it/s] 47%|████▋     | 175910/371472 [2:55:31<15:49:20,  3.43it/s] 47%|████▋     | 175911/371472 [2:55:31<15:43:30,  3.45it/s] 47%|████▋     | 175912/371472 [2:55:31<15:37:53,  3.48it/s] 47%|████▋     | 175913/371472 [2:55:32<16:20:11,  3.33it/s] 47%|████▋     | 175914/371472 [2:55:32<15:47:49,  3.44it/s] 47%|████▋     | 175915/371472 [2:55:32<15:06:11,  3.60it/s] 47%|████▋     | 175916/371472 [2:55:32<14:48:22,  3.67it/s] 47%|████▋     | 175917/371472 [2:55:33<15:59:06,  3.40it/s] 47%|████▋     | 175918/371472 [2:55:33<18:25:22,  2.95it/s] 47%|████▋     | 175919/371472 [2:55:34<17:24:11,  3.12it/s] 47%|████▋     | 175920/371472 [2:55:34<17:05:57,  3.18it/s]                                                            {'loss': 2.8387, 'learning_rate': 5.740373634424357e-07, 'epoch': 7.58}
 47%|████▋     | 175920/371472 [2:55:34<17:05:57,  3.18it/s] 47%|████▋     | 175921/371472 [2:55:34<17:04:56,  3.18it/s] 47%|████▋     | 175922/371472 [2:55:34<16:28:59,  3.30it/s] 47%|████▋     | 175923/371472 [2:55:35<16:26:54,  3.30it/s] 47%|████▋     | 175924/371472 [2:55:35<16:48:26,  3.23it/s] 47%|████▋     | 175925/371472 [2:55:35<15:53:02,  3.42it/s] 47%|████▋     | 175926/371472 [2:55:36<16:43:17,  3.25it/s] 47%|████▋     | 175927/371472 [2:55:36<16:13:48,  3.35it/s] 47%|████▋     | 175928/371472 [2:55:36<16:12:12,  3.35it/s] 47%|████▋     | 175929/371472 [2:55:36<15:24:17,  3.53it/s] 47%|████▋     | 175930/371472 [2:55:37<15:18:14,  3.55it/s] 47%|████▋     | 175931/371472 [2:55:37<14:35:00,  3.72it/s] 47%|████▋     | 175932/371472 [2:55:37<14:54:25,  3.64it/s] 47%|████▋     | 175933/371472 [2:55:38<14:47:26,  3.67it/s] 47%|████▋     | 175934/371472 [2:55:38<14:51:23,  3.66it/s] 47%|████▋     | 175935/371472 [2:55:38<15:00:38,  3.62it/s] 47%|████▋     | 175936/371472 [2:55:38<14:58:39,  3.63it/s] 47%|████▋     | 175937/371472 [2:55:39<14:58:01,  3.63it/s] 47%|████▋     | 175938/371472 [2:55:39<17:06:59,  3.17it/s] 47%|████▋     | 175939/371472 [2:55:39<16:09:04,  3.36it/s] 47%|████▋     | 175940/371472 [2:55:40<16:17:15,  3.33it/s]                                                            {'loss': 2.8572, 'learning_rate': 5.739888814669569e-07, 'epoch': 7.58}
 47%|████▋     | 175940/371472 [2:55:40<16:17:15,  3.33it/s] 47%|████▋     | 175941/371472 [2:55:40<16:20:30,  3.32it/s] 47%|████▋     | 175942/371472 [2:55:40<16:28:57,  3.30it/s] 47%|████▋     | 175943/371472 [2:55:41<16:34:07,  3.28it/s] 47%|████▋     | 175944/371472 [2:55:41<16:07:30,  3.37it/s] 47%|████▋     | 175945/371472 [2:55:41<15:13:03,  3.57it/s] 47%|████▋     | 175946/371472 [2:55:41<15:21:04,  3.54it/s] 47%|████▋     | 175947/371472 [2:55:42<15:05:20,  3.60it/s] 47%|████▋     | 175948/371472 [2:55:42<15:07:36,  3.59it/s] 47%|████▋     | 175949/371472 [2:55:42<15:17:37,  3.55it/s] 47%|████▋     | 175950/371472 [2:55:42<15:05:19,  3.60it/s] 47%|████▋     | 175951/371472 [2:55:43<15:16:54,  3.55it/s] 47%|████▋     | 175952/371472 [2:55:43<15:08:46,  3.59it/s] 47%|████▋     | 175953/371472 [2:55:43<15:01:59,  3.61it/s] 47%|████▋     | 175954/371472 [2:55:44<15:11:30,  3.57it/s] 47%|████▋     | 175955/371472 [2:55:44<15:19:01,  3.55it/s] 47%|████▋     | 175956/371472 [2:55:44<14:40:56,  3.70it/s] 47%|████▋     | 175957/371472 [2:55:44<14:50:02,  3.66it/s] 47%|████▋     | 175958/371472 [2:55:45<14:53:06,  3.65it/s] 47%|████▋     | 175959/371472 [2:55:45<14:57:47,  3.63it/s] 47%|████▋     | 175960/371472 [2:55:45<14:36:20,  3.72it/s]                                                            {'loss': 3.0584, 'learning_rate': 5.73940399491478e-07, 'epoch': 7.58}
 47%|████▋     | 175960/371472 [2:55:45<14:36:20,  3.72it/s] 47%|████▋     | 175961/371472 [2:55:45<14:34:49,  3.72it/s] 47%|████▋     | 175962/371472 [2:55:46<15:43:07,  3.46it/s] 47%|████▋     | 175963/371472 [2:55:46<15:07:19,  3.59it/s] 47%|████▋     | 175964/371472 [2:55:46<16:02:03,  3.39it/s] 47%|████▋     | 175965/371472 [2:55:47<15:55:39,  3.41it/s] 47%|████▋     | 175966/371472 [2:55:47<15:56:57,  3.41it/s] 47%|████▋     | 175967/371472 [2:55:47<15:28:31,  3.51it/s] 47%|████▋     | 175968/371472 [2:55:48<15:42:46,  3.46it/s] 47%|████▋     | 175969/371472 [2:55:48<15:10:49,  3.58it/s] 47%|████▋     | 175970/371472 [2:55:48<15:21:11,  3.54it/s] 47%|████▋     | 175971/371472 [2:55:48<14:37:16,  3.71it/s] 47%|████▋     | 175972/371472 [2:55:49<16:13:43,  3.35it/s] 47%|████▋     | 175973/371472 [2:55:49<15:28:03,  3.51it/s] 47%|████▋     | 175974/371472 [2:55:49<15:34:14,  3.49it/s] 47%|████▋     | 175975/371472 [2:55:49<15:07:15,  3.59it/s] 47%|████▋     | 175976/371472 [2:55:50<14:57:54,  3.63it/s] 47%|████▋     | 175977/371472 [2:55:50<14:59:53,  3.62it/s] 47%|████▋     | 175978/371472 [2:55:50<15:05:30,  3.60it/s] 47%|████▋     | 175979/371472 [2:55:51<15:15:17,  3.56it/s] 47%|████▋     | 175980/371472 [2:55:51<15:23:25,  3.53it/s]                                                            {'loss': 3.1662, 'learning_rate': 5.738919175159991e-07, 'epoch': 7.58}
 47%|████▋     | 175980/371472 [2:55:51<15:23:25,  3.53it/s] 47%|████▋     | 175981/371472 [2:55:51<15:48:25,  3.44it/s] 47%|████▋     | 175982/371472 [2:55:51<16:01:14,  3.39it/s] 47%|████▋     | 175983/371472 [2:55:52<15:46:32,  3.44it/s] 47%|████▋     | 175984/371472 [2:55:52<15:38:13,  3.47it/s] 47%|████▋     | 175985/371472 [2:55:52<15:54:39,  3.41it/s] 47%|████▋     | 175986/371472 [2:55:53<16:47:31,  3.23it/s] 47%|████▋     | 175987/371472 [2:55:53<16:07:48,  3.37it/s] 47%|████▋     | 175988/371472 [2:55:53<15:53:03,  3.42it/s] 47%|████▋     | 175989/371472 [2:55:54<16:27:52,  3.30it/s] 47%|████▋     | 175990/371472 [2:55:54<15:47:37,  3.44it/s] 47%|████▋     | 175991/371472 [2:55:54<15:39:13,  3.47it/s] 47%|████▋     | 175992/371472 [2:55:54<15:36:30,  3.48it/s] 47%|████▋     | 175993/371472 [2:55:55<15:15:15,  3.56it/s] 47%|████▋     | 175994/371472 [2:55:55<15:08:01,  3.59it/s] 47%|████▋     | 175995/371472 [2:55:55<15:50:41,  3.43it/s] 47%|████▋     | 175996/371472 [2:55:56<16:13:01,  3.35it/s] 47%|████▋     | 175997/371472 [2:55:56<15:38:40,  3.47it/s] 47%|████▋     | 175998/371472 [2:55:56<16:09:27,  3.36it/s] 47%|████▋     | 175999/371472 [2:55:56<15:32:12,  3.49it/s] 47%|████▋     | 176000/371472 [2:55:57<15:29:20,  3.51it/s]                                                            {'loss': 3.1072, 'learning_rate': 5.738434355405201e-07, 'epoch': 7.58}
 47%|████▋     | 176000/371472 [2:55:57<15:29:20,  3.51it/s] 47%|████▋     | 176001/371472 [2:55:57<15:06:28,  3.59it/s] 47%|████▋     | 176002/371472 [2:55:57<15:13:55,  3.56it/s] 47%|████▋     | 176003/371472 [2:55:58<15:22:27,  3.53it/s] 47%|████▋     | 176004/371472 [2:55:58<15:58:41,  3.40it/s] 47%|████▋     | 176005/371472 [2:55:58<18:11:37,  2.98it/s] 47%|████▋     | 176006/371472 [2:55:59<17:52:07,  3.04it/s] 47%|████▋     | 176007/371472 [2:55:59<16:39:24,  3.26it/s] 47%|████▋     | 176008/371472 [2:55:59<16:08:27,  3.36it/s] 47%|████▋     | 176009/371472 [2:55:59<15:31:58,  3.50it/s] 47%|████▋     | 176010/371472 [2:56:00<15:29:13,  3.51it/s] 47%|████▋     | 176011/371472 [2:56:00<14:49:56,  3.66it/s] 47%|████▋     | 176012/371472 [2:56:00<14:39:04,  3.71it/s] 47%|████▋     | 176013/371472 [2:56:01<15:53:48,  3.42it/s] 47%|████▋     | 176014/371472 [2:56:01<15:45:55,  3.44it/s] 47%|████▋     | 176015/371472 [2:56:01<16:56:22,  3.21it/s] 47%|████▋     | 176016/371472 [2:56:01<16:29:18,  3.29it/s] 47%|████▋     | 176017/371472 [2:56:02<16:58:21,  3.20it/s] 47%|████▋     | 176018/371472 [2:56:02<16:08:04,  3.37it/s] 47%|████▋     | 176019/371472 [2:56:02<15:38:55,  3.47it/s] 47%|████▋     | 176020/371472 [2:56:03<16:16:21,  3.34it/s]                                                            {'loss': 3.311, 'learning_rate': 5.737949535650413e-07, 'epoch': 7.58}
 47%|████▋     | 176020/371472 [2:56:03<16:16:21,  3.34it/s] 47%|████▋     | 176021/371472 [2:56:03<15:42:52,  3.45it/s] 47%|████▋     | 176022/371472 [2:56:03<16:24:38,  3.31it/s] 47%|████▋     | 176023/371472 [2:56:04<16:15:18,  3.34it/s] 47%|████▋     | 176024/371472 [2:56:04<15:40:16,  3.46it/s] 47%|████▋     | 176025/371472 [2:56:04<14:56:24,  3.63it/s] 47%|████▋     | 176026/371472 [2:56:04<14:54:19,  3.64it/s] 47%|████▋     | 176027/371472 [2:56:05<15:18:29,  3.55it/s] 47%|████▋     | 176028/371472 [2:56:05<14:50:25,  3.66it/s] 47%|████▋     | 176029/371472 [2:56:05<15:56:10,  3.41it/s] 47%|████▋     | 176030/371472 [2:56:06<15:51:42,  3.42it/s] 47%|████▋     | 176031/371472 [2:56:06<16:05:25,  3.37it/s] 47%|████▋     | 176032/371472 [2:56:06<15:21:42,  3.53it/s] 47%|████▋     | 176033/371472 [2:56:06<16:49:40,  3.23it/s] 47%|████▋     | 176034/371472 [2:56:07<16:29:46,  3.29it/s] 47%|████▋     | 176035/371472 [2:56:07<17:10:15,  3.16it/s] 47%|████▋     | 176036/371472 [2:56:07<16:21:44,  3.32it/s] 47%|████▋     | 176037/371472 [2:56:08<17:00:29,  3.19it/s] 47%|████▋     | 176038/371472 [2:56:08<16:16:58,  3.33it/s] 47%|████▋     | 176039/371472 [2:56:08<17:12:07,  3.16it/s] 47%|████▋     | 176040/371472 [2:56:09<17:24:52,  3.12it/s]                                                            {'loss': 3.0763, 'learning_rate': 5.737464715895624e-07, 'epoch': 7.58}
 47%|████▋     | 176040/371472 [2:56:09<17:24:52,  3.12it/s] 47%|████▋     | 176041/371472 [2:56:09<16:43:30,  3.25it/s] 47%|████▋     | 176042/371472 [2:56:09<17:02:09,  3.19it/s] 47%|████▋     | 176043/371472 [2:56:10<16:34:58,  3.27it/s] 47%|████▋     | 176044/371472 [2:56:10<16:39:07,  3.26it/s] 47%|████▋     | 176045/371472 [2:56:10<16:03:37,  3.38it/s] 47%|████▋     | 176046/371472 [2:56:10<15:41:41,  3.46it/s] 47%|████▋     | 176047/371472 [2:56:11<15:02:10,  3.61it/s] 47%|████▋     | 176048/371472 [2:56:11<14:49:03,  3.66it/s] 47%|████▋     | 176049/371472 [2:56:11<15:51:10,  3.42it/s] 47%|████▋     | 176050/371472 [2:56:11<15:24:39,  3.52it/s] 47%|████▋     | 176051/371472 [2:56:12<15:24:48,  3.52it/s] 47%|████▋     | 176052/371472 [2:56:12<14:44:39,  3.68it/s] 47%|████▋     | 176053/371472 [2:56:12<15:02:40,  3.61it/s] 47%|████▋     | 176054/371472 [2:56:13<15:34:46,  3.48it/s] 47%|████▋     | 176055/371472 [2:56:13<15:10:13,  3.58it/s] 47%|████▋     | 176056/371472 [2:56:13<16:48:25,  3.23it/s] 47%|████▋     | 176057/371472 [2:56:14<15:53:08,  3.42it/s] 47%|████▋     | 176058/371472 [2:56:14<15:36:01,  3.48it/s] 47%|████▋     | 176059/371472 [2:56:14<14:50:50,  3.66it/s] 47%|████▋     | 176060/371472 [2:56:14<14:20:26,  3.79it/s]                                                            {'loss': 3.1135, 'learning_rate': 5.736979896140834e-07, 'epoch': 7.58}
 47%|████▋     | 176060/371472 [2:56:14<14:20:26,  3.79it/s] 47%|████▋     | 176061/371472 [2:56:15<14:48:00,  3.67it/s] 47%|████▋     | 176062/371472 [2:56:15<14:47:58,  3.67it/s] 47%|████▋     | 176063/371472 [2:56:15<15:12:06,  3.57it/s] 47%|████▋     | 176064/371472 [2:56:15<15:21:52,  3.53it/s] 47%|████▋     | 176065/371472 [2:56:16<15:24:02,  3.52it/s] 47%|████▋     | 176066/371472 [2:56:16<14:52:27,  3.65it/s] 47%|████▋     | 176067/371472 [2:56:16<15:11:08,  3.57it/s] 47%|████▋     | 176068/371472 [2:56:17<15:38:32,  3.47it/s] 47%|████▋     | 176069/371472 [2:56:17<15:52:28,  3.42it/s] 47%|████▋     | 176070/371472 [2:56:17<15:31:40,  3.50it/s] 47%|████▋     | 176071/371472 [2:56:17<15:38:32,  3.47it/s] 47%|████▋     | 176072/371472 [2:56:18<16:08:11,  3.36it/s] 47%|████▋     | 176073/371472 [2:56:18<16:03:07,  3.38it/s] 47%|████▋     | 176074/371472 [2:56:18<16:15:27,  3.34it/s] 47%|████▋     | 176075/371472 [2:56:19<16:39:42,  3.26it/s] 47%|████▋     | 176076/371472 [2:56:19<15:39:24,  3.47it/s] 47%|████▋     | 176077/371472 [2:56:19<15:11:07,  3.57it/s] 47%|████▋     | 176078/371472 [2:56:19<14:54:40,  3.64it/s] 47%|████▋     | 176079/371472 [2:56:20<14:50:24,  3.66it/s] 47%|████▋     | 176080/371472 [2:56:20<14:46:40,  3.67it/s]                                                            {'loss': 3.1313, 'learning_rate': 5.736495076386046e-07, 'epoch': 7.58}
 47%|████▋     | 176080/371472 [2:56:20<14:46:40,  3.67it/s] 47%|████▋     | 176081/371472 [2:56:20<14:48:40,  3.66it/s] 47%|████▋     | 176082/371472 [2:56:21<14:37:35,  3.71it/s] 47%|████▋     | 176083/371472 [2:56:21<15:08:19,  3.59it/s] 47%|████▋     | 176084/371472 [2:56:21<15:45:19,  3.44it/s] 47%|████▋     | 176085/371472 [2:56:21<15:22:37,  3.53it/s] 47%|████▋     | 176086/371472 [2:56:22<15:58:35,  3.40it/s] 47%|████▋     | 176087/371472 [2:56:22<15:49:04,  3.43it/s] 47%|████▋     | 176088/371472 [2:56:22<15:16:39,  3.55it/s] 47%|████▋     | 176089/371472 [2:56:23<15:24:32,  3.52it/s] 47%|████▋     | 176090/371472 [2:56:23<15:22:13,  3.53it/s] 47%|████▋     | 176091/371472 [2:56:23<15:15:03,  3.56it/s] 47%|████▋     | 176092/371472 [2:56:23<15:24:36,  3.52it/s] 47%|████▋     | 176093/371472 [2:56:24<15:35:31,  3.48it/s] 47%|████▋     | 176094/371472 [2:56:24<15:38:49,  3.47it/s] 47%|████▋     | 176095/371472 [2:56:24<16:37:30,  3.26it/s] 47%|████▋     | 176096/371472 [2:56:25<16:22:07,  3.32it/s] 47%|████▋     | 176097/371472 [2:56:25<16:10:03,  3.36it/s] 47%|████▋     | 176098/371472 [2:56:25<15:49:00,  3.43it/s] 47%|████▋     | 176099/371472 [2:56:25<15:40:51,  3.46it/s] 47%|████▋     | 176100/371472 [2:56:26<15:29:15,  3.50it/s]                                                            {'loss': 3.0196, 'learning_rate': 5.736010256631257e-07, 'epoch': 7.58}
 47%|████▋     | 176100/371472 [2:56:26<15:29:15,  3.50it/s] 47%|████▋     | 176101/371472 [2:56:26<17:07:37,  3.17it/s] 47%|████▋     | 176102/371472 [2:56:26<16:34:17,  3.27it/s] 47%|████▋     | 176103/371472 [2:56:27<16:02:24,  3.38it/s] 47%|████▋     | 176104/371472 [2:56:27<15:38:01,  3.47it/s] 47%|████▋     | 176105/371472 [2:56:27<14:59:35,  3.62it/s] 47%|████▋     | 176106/371472 [2:56:28<15:16:10,  3.55it/s] 47%|████▋     | 176107/371472 [2:56:28<15:16:49,  3.55it/s] 47%|████▋     | 176108/371472 [2:56:28<15:10:55,  3.57it/s] 47%|████▋     | 176109/371472 [2:56:28<14:51:10,  3.65it/s] 47%|████▋     | 176110/371472 [2:56:29<15:31:03,  3.50it/s] 47%|████▋     | 176111/371472 [2:56:29<16:15:35,  3.34it/s] 47%|████▋     | 176112/371472 [2:56:29<15:38:17,  3.47it/s] 47%|████▋     | 176113/371472 [2:56:29<15:10:17,  3.58it/s] 47%|████▋     | 176114/371472 [2:56:30<14:56:23,  3.63it/s] 47%|████▋     | 176115/371472 [2:56:30<17:21:13,  3.13it/s] 47%|████▋     | 176116/371472 [2:56:30<16:02:12,  3.38it/s] 47%|████▋     | 176117/371472 [2:56:31<15:46:18,  3.44it/s] 47%|████▋     | 176118/371472 [2:56:31<16:44:41,  3.24it/s] 47%|████▋     | 176119/371472 [2:56:31<15:47:02,  3.44it/s] 47%|████▋     | 176120/371472 [2:56:32<16:16:27,  3.33it/s]                                                            {'loss': 3.0333, 'learning_rate': 5.735525436876468e-07, 'epoch': 7.59}
 47%|████▋     | 176120/371472 [2:56:32<16:16:27,  3.33it/s] 47%|████▋     | 176121/371472 [2:56:32<16:08:31,  3.36it/s] 47%|████▋     | 176122/371472 [2:56:32<16:04:03,  3.38it/s] 47%|████▋     | 176123/371472 [2:56:32<15:37:52,  3.47it/s] 47%|████▋     | 176124/371472 [2:56:33<16:27:33,  3.30it/s] 47%|████▋     | 176125/371472 [2:56:33<15:49:28,  3.43it/s] 47%|████▋     | 176126/371472 [2:56:33<15:36:31,  3.48it/s] 47%|████▋     | 176127/371472 [2:56:34<15:56:58,  3.40it/s] 47%|████▋     | 176128/371472 [2:56:34<15:54:21,  3.41it/s] 47%|████▋     | 176129/371472 [2:56:34<15:28:42,  3.51it/s] 47%|████▋     | 176130/371472 [2:56:35<15:29:07,  3.50it/s] 47%|████▋     | 176131/371472 [2:56:35<15:20:16,  3.54it/s] 47%|████▋     | 176132/371472 [2:56:35<15:35:40,  3.48it/s] 47%|████▋     | 176133/371472 [2:56:35<15:17:26,  3.55it/s] 47%|████▋     | 176134/371472 [2:56:36<15:18:29,  3.54it/s] 47%|████▋     | 176135/371472 [2:56:36<16:13:43,  3.34it/s] 47%|████▋     | 176136/371472 [2:56:36<15:51:07,  3.42it/s] 47%|████▋     | 176137/371472 [2:56:36<14:55:46,  3.63it/s] 47%|████▋     | 176138/371472 [2:56:37<14:48:56,  3.66it/s] 47%|████▋     | 176139/371472 [2:56:37<14:29:26,  3.74it/s] 47%|████▋     | 176140/371472 [2:56:37<14:18:45,  3.79it/s]                                                            {'loss': 2.8852, 'learning_rate': 5.735040617121678e-07, 'epoch': 7.59}
 47%|████▋     | 176140/371472 [2:56:37<14:18:45,  3.79it/s] 47%|████▋     | 176141/371472 [2:56:38<14:28:34,  3.75it/s] 47%|████▋     | 176142/371472 [2:56:38<14:30:46,  3.74it/s] 47%|████▋     | 176143/371472 [2:56:38<16:03:15,  3.38it/s] 47%|████▋     | 176144/371472 [2:56:38<16:22:09,  3.31it/s] 47%|████▋     | 176145/371472 [2:56:39<16:49:51,  3.22it/s] 47%|████▋     | 176146/371472 [2:56:39<17:13:07,  3.15it/s] 47%|████▋     | 176147/371472 [2:56:39<16:31:23,  3.28it/s] 47%|████▋     | 176148/371472 [2:56:40<15:56:40,  3.40it/s] 47%|████▋     | 176149/371472 [2:56:40<15:10:51,  3.57it/s] 47%|████▋     | 176150/371472 [2:56:40<14:50:39,  3.65it/s] 47%|████▋     | 176151/371472 [2:56:40<14:31:13,  3.74it/s] 47%|████▋     | 176152/371472 [2:56:41<14:40:27,  3.70it/s] 47%|████▋     | 176153/371472 [2:56:41<15:24:28,  3.52it/s] 47%|████▋     | 176154/371472 [2:56:41<15:27:49,  3.51it/s] 47%|████▋     | 176155/371472 [2:56:42<15:23:46,  3.52it/s] 47%|████▋     | 176156/371472 [2:56:42<16:49:28,  3.22it/s] 47%|████▋     | 176157/371472 [2:56:42<16:09:02,  3.36it/s] 47%|████▋     | 176158/371472 [2:56:43<16:16:03,  3.34it/s] 47%|████▋     | 176159/371472 [2:56:43<15:52:44,  3.42it/s] 47%|████▋     | 176160/371472 [2:56:43<15:38:26,  3.47it/s]                                                            {'loss': 3.0164, 'learning_rate': 5.73455579736689e-07, 'epoch': 7.59}
 47%|████▋     | 176160/371472 [2:56:43<15:38:26,  3.47it/s] 47%|████▋     | 176161/371472 [2:56:43<16:41:24,  3.25it/s] 47%|████▋     | 176162/371472 [2:56:44<15:51:16,  3.42it/s] 47%|████▋     | 176163/371472 [2:56:44<15:26:57,  3.51it/s] 47%|████▋     | 176164/371472 [2:56:44<15:41:28,  3.46it/s] 47%|████▋     | 176165/371472 [2:56:45<15:12:25,  3.57it/s] 47%|████▋     | 176166/371472 [2:56:45<17:18:30,  3.13it/s] 47%|████▋     | 176167/371472 [2:56:45<16:56:00,  3.20it/s] 47%|████▋     | 176168/371472 [2:56:45<15:47:23,  3.44it/s] 47%|████▋     | 176169/371472 [2:56:46<15:21:47,  3.53it/s] 47%|████▋     | 176170/371472 [2:56:46<14:57:29,  3.63it/s] 47%|████▋     | 176171/371472 [2:56:46<15:53:51,  3.41it/s] 47%|████▋     | 176172/371472 [2:56:47<17:15:27,  3.14it/s] 47%|████▋     | 176173/371472 [2:56:47<16:13:50,  3.34it/s] 47%|████▋     | 176174/371472 [2:56:47<15:52:55,  3.42it/s] 47%|████▋     | 176175/371472 [2:56:48<16:14:40,  3.34it/s] 47%|████▋     | 176176/371472 [2:56:48<15:35:19,  3.48it/s] 47%|████▋     | 176177/371472 [2:56:48<15:53:58,  3.41it/s] 47%|████▋     | 176178/371472 [2:56:48<15:11:39,  3.57it/s] 47%|████▋     | 176179/371472 [2:56:49<14:56:28,  3.63it/s] 47%|████▋     | 176180/371472 [2:56:49<15:21:04,  3.53it/s]                                                            {'loss': 3.207, 'learning_rate': 5.734070977612101e-07, 'epoch': 7.59}
 47%|████▋     | 176180/371472 [2:56:49<15:21:04,  3.53it/s] 47%|████▋     | 176181/371472 [2:56:49<15:08:01,  3.58it/s] 47%|████▋     | 176182/371472 [2:56:49<14:56:37,  3.63it/s] 47%|████▋     | 176183/371472 [2:56:50<15:50:27,  3.42it/s] 47%|████▋     | 176184/371472 [2:56:50<15:09:19,  3.58it/s] 47%|████▋     | 176185/371472 [2:56:50<15:06:33,  3.59it/s] 47%|████▋     | 176186/371472 [2:56:51<15:24:00,  3.52it/s] 47%|████▋     | 176187/371472 [2:56:51<15:13:12,  3.56it/s] 47%|████▋     | 176188/371472 [2:56:51<14:54:31,  3.64it/s] 47%|████▋     | 176189/371472 [2:56:51<15:05:48,  3.59it/s] 47%|████▋     | 176190/371472 [2:56:52<16:36:08,  3.27it/s] 47%|████▋     | 176191/371472 [2:56:52<16:18:18,  3.33it/s] 47%|████▋     | 176192/371472 [2:56:52<16:24:22,  3.31it/s] 47%|████▋     | 176193/371472 [2:56:53<16:54:13,  3.21it/s] 47%|████▋     | 176194/371472 [2:56:53<16:20:37,  3.32it/s] 47%|████▋     | 176195/371472 [2:56:53<16:08:02,  3.36it/s] 47%|████▋     | 176196/371472 [2:56:54<15:59:26,  3.39it/s] 47%|████▋     | 176197/371472 [2:56:54<15:57:23,  3.40it/s] 47%|████▋     | 176198/371472 [2:56:54<15:41:28,  3.46it/s] 47%|████▋     | 176199/371472 [2:56:54<15:40:05,  3.46it/s] 47%|████▋     | 176200/371472 [2:56:55<16:55:09,  3.21it/s]                                                            {'loss': 2.985, 'learning_rate': 5.733586157857311e-07, 'epoch': 7.59}
 47%|████▋     | 176200/371472 [2:56:55<16:55:09,  3.21it/s] 47%|████▋     | 176201/371472 [2:56:55<16:49:32,  3.22it/s] 47%|████▋     | 176202/371472 [2:56:55<16:06:42,  3.37it/s] 47%|████▋     | 176203/371472 [2:56:56<15:20:23,  3.54it/s] 47%|████▋     | 176204/371472 [2:56:56<15:10:13,  3.58it/s] 47%|████▋     | 176205/371472 [2:56:56<16:14:23,  3.34it/s] 47%|████▋     | 176206/371472 [2:56:57<15:43:14,  3.45it/s] 47%|████▋     | 176207/371472 [2:56:57<15:43:22,  3.45it/s] 47%|████▋     | 176208/371472 [2:56:57<15:31:23,  3.49it/s] 47%|████▋     | 176209/371472 [2:56:57<15:17:11,  3.55it/s] 47%|████▋     | 176210/371472 [2:56:58<15:30:15,  3.50it/s] 47%|████▋     | 176211/371472 [2:56:58<14:54:01,  3.64it/s] 47%|████▋     | 176212/371472 [2:56:58<14:48:40,  3.66it/s] 47%|████▋     | 176213/371472 [2:56:58<14:42:58,  3.69it/s] 47%|████▋     | 176214/371472 [2:56:59<14:20:08,  3.78it/s] 47%|████▋     | 176215/371472 [2:56:59<14:38:36,  3.70it/s] 47%|████▋     | 176216/371472 [2:56:59<14:09:06,  3.83it/s] 47%|████▋     | 176217/371472 [2:56:59<14:01:05,  3.87it/s] 47%|████▋     | 176218/371472 [2:57:00<14:04:25,  3.85it/s] 47%|████▋     | 176219/371472 [2:57:00<14:25:16,  3.76it/s] 47%|████▋     | 176220/371472 [2:57:00<14:34:11,  3.72it/s]                                                            {'loss': 3.126, 'learning_rate': 5.733101338102522e-07, 'epoch': 7.59}
 47%|████▋     | 176220/371472 [2:57:00<14:34:11,  3.72it/s] 47%|████▋     | 176221/371472 [2:57:01<16:22:10,  3.31it/s] 47%|████▋     | 176222/371472 [2:57:01<16:54:07,  3.21it/s] 47%|████▋     | 176223/371472 [2:57:01<16:15:15,  3.34it/s] 47%|████▋     | 176224/371472 [2:57:02<16:40:16,  3.25it/s] 47%|████▋     | 176225/371472 [2:57:02<16:16:59,  3.33it/s] 47%|████▋     | 176226/371472 [2:57:02<15:28:46,  3.50it/s] 47%|████▋     | 176227/371472 [2:57:02<15:02:16,  3.61it/s] 47%|████▋     | 176228/371472 [2:57:03<16:18:08,  3.33it/s] 47%|████▋     | 176229/371472 [2:57:03<15:54:46,  3.41it/s] 47%|████▋     | 176230/371472 [2:57:03<15:32:04,  3.49it/s] 47%|████▋     | 176231/371472 [2:57:04<15:19:40,  3.54it/s] 47%|████▋     | 176232/371472 [2:57:04<15:44:37,  3.44it/s] 47%|████▋     | 176233/371472 [2:57:04<15:31:53,  3.49it/s] 47%|████▋     | 176234/371472 [2:57:04<14:52:18,  3.65it/s] 47%|████▋     | 176235/371472 [2:57:05<14:30:04,  3.74it/s] 47%|████▋     | 176236/371472 [2:57:05<14:16:42,  3.80it/s] 47%|████▋     | 176237/371472 [2:57:05<14:20:51,  3.78it/s] 47%|████▋     | 176238/371472 [2:57:05<14:40:37,  3.69it/s] 47%|████▋     | 176239/371472 [2:57:06<14:33:15,  3.73it/s] 47%|████▋     | 176240/371472 [2:57:06<15:11:41,  3.57it/s]                                                            {'loss': 3.0528, 'learning_rate': 5.732616518347734e-07, 'epoch': 7.59}
 47%|████▋     | 176240/371472 [2:57:06<15:11:41,  3.57it/s] 47%|████▋     | 176241/371472 [2:57:06<15:36:34,  3.47it/s] 47%|████▋     | 176242/371472 [2:57:07<15:47:14,  3.44it/s] 47%|████▋     | 176243/371472 [2:57:07<17:07:14,  3.17it/s] 47%|████▋     | 176244/371472 [2:57:07<16:29:45,  3.29it/s] 47%|████▋     | 176245/371472 [2:57:08<15:52:14,  3.42it/s] 47%|████▋     | 176246/371472 [2:57:08<16:15:42,  3.33it/s] 47%|████▋     | 176247/371472 [2:57:08<15:38:17,  3.47it/s] 47%|████▋     | 176248/371472 [2:57:08<15:11:29,  3.57it/s] 47%|████▋     | 176249/371472 [2:57:09<15:23:48,  3.52it/s] 47%|████▋     | 176250/371472 [2:57:09<14:54:03,  3.64it/s] 47%|████▋     | 176251/371472 [2:57:09<16:23:19,  3.31it/s] 47%|████▋     | 176252/371472 [2:57:10<16:36:41,  3.26it/s] 47%|████▋     | 176253/371472 [2:57:10<16:12:54,  3.34it/s] 47%|████▋     | 176254/371472 [2:57:10<16:00:16,  3.39it/s] 47%|████▋     | 176255/371472 [2:57:10<15:39:09,  3.46it/s] 47%|████▋     | 176256/371472 [2:57:11<16:00:15,  3.39it/s] 47%|████▋     | 176257/371472 [2:57:11<15:46:12,  3.44it/s] 47%|████▋     | 176258/371472 [2:57:11<15:28:42,  3.50it/s] 47%|████▋     | 176259/371472 [2:57:12<17:05:55,  3.17it/s] 47%|████▋     | 176260/371472 [2:57:12<16:14:02,  3.34it/s]                                                            {'loss': 3.1816, 'learning_rate': 5.732131698592945e-07, 'epoch': 7.59}
 47%|████▋     | 176260/371472 [2:57:12<16:14:02,  3.34it/s] 47%|████▋     | 176261/371472 [2:57:12<16:07:56,  3.36it/s] 47%|████▋     | 176262/371472 [2:57:13<17:37:31,  3.08it/s] 47%|████▋     | 176263/371472 [2:57:13<17:02:53,  3.18it/s] 47%|████▋     | 176264/371472 [2:57:13<17:17:02,  3.14it/s] 47%|████▋     | 176265/371472 [2:57:14<16:35:48,  3.27it/s] 47%|████▋     | 176266/371472 [2:57:14<16:06:21,  3.37it/s] 47%|████▋     | 176267/371472 [2:57:14<16:20:25,  3.32it/s] 47%|████▋     | 176268/371472 [2:57:15<17:12:34,  3.15it/s] 47%|████▋     | 176269/371472 [2:57:15<16:21:53,  3.31it/s] 47%|████▋     | 176270/371472 [2:57:15<16:59:04,  3.19it/s] 47%|████▋     | 176271/371472 [2:57:15<16:40:53,  3.25it/s] 47%|████▋     | 176272/371472 [2:57:16<16:04:15,  3.37it/s] 47%|████▋     | 176273/371472 [2:57:16<15:21:46,  3.53it/s] 47%|████▋     | 176274/371472 [2:57:16<15:21:43,  3.53it/s] 47%|████▋     | 176275/371472 [2:57:17<16:05:19,  3.37it/s] 47%|████▋     | 176276/371472 [2:57:17<15:56:56,  3.40it/s] 47%|████▋     | 176277/371472 [2:57:17<16:04:05,  3.37it/s] 47%|████▋     | 176278/371472 [2:57:17<15:35:53,  3.48it/s] 47%|████▋     | 176279/371472 [2:57:18<14:49:28,  3.66it/s] 47%|████▋     | 176280/371472 [2:57:18<14:38:31,  3.70it/s]                                                            {'loss': 2.911, 'learning_rate': 5.731646878838156e-07, 'epoch': 7.59}
 47%|████▋     | 176280/371472 [2:57:18<14:38:31,  3.70it/s] 47%|████▋     | 176281/371472 [2:57:18<14:47:54,  3.66it/s] 47%|████▋     | 176282/371472 [2:57:18<15:01:47,  3.61it/s] 47%|████▋     | 176283/371472 [2:57:19<15:09:04,  3.58it/s] 47%|████▋     | 176284/371472 [2:57:19<15:52:37,  3.41it/s] 47%|████▋     | 176285/371472 [2:57:19<16:20:17,  3.32it/s] 47%|████▋     | 176286/371472 [2:57:20<15:42:35,  3.45it/s] 47%|████▋     | 176287/371472 [2:57:20<18:32:07,  2.93it/s] 47%|████▋     | 176288/371472 [2:57:21<22:08:48,  2.45it/s] 47%|████▋     | 176289/371472 [2:57:21<20:56:19,  2.59it/s] 47%|████▋     | 176290/371472 [2:57:21<18:52:03,  2.87it/s] 47%|████▋     | 176291/371472 [2:57:22<17:37:12,  3.08it/s] 47%|████▋     | 176292/371472 [2:57:22<16:37:56,  3.26it/s] 47%|████▋     | 176293/371472 [2:57:22<15:39:59,  3.46it/s] 47%|████▋     | 176294/371472 [2:57:22<15:38:11,  3.47it/s] 47%|████▋     | 176295/371472 [2:57:23<15:04:03,  3.60it/s] 47%|████▋     | 176296/371472 [2:57:23<14:59:17,  3.62it/s] 47%|████▋     | 176297/371472 [2:57:23<14:45:45,  3.67it/s] 47%|████▋     | 176298/371472 [2:57:23<14:42:05,  3.69it/s] 47%|████▋     | 176299/371472 [2:57:24<15:20:29,  3.53it/s] 47%|████▋     | 176300/371472 [2:57:24<15:53:20,  3.41it/s]                                                            {'loss': 2.9205, 'learning_rate': 5.731162059083367e-07, 'epoch': 7.59}
 47%|████▋     | 176300/371472 [2:57:24<15:53:20,  3.41it/s] 47%|████▋     | 176301/371472 [2:57:24<15:36:44,  3.47it/s] 47%|████▋     | 176302/371472 [2:57:25<16:04:39,  3.37it/s] 47%|████▋     | 176303/371472 [2:57:25<16:45:50,  3.23it/s] 47%|████▋     | 176304/371472 [2:57:25<16:14:52,  3.34it/s] 47%|████▋     | 176305/371472 [2:57:26<15:58:18,  3.39it/s] 47%|████▋     | 176306/371472 [2:57:26<15:17:37,  3.54it/s] 47%|████▋     | 176307/371472 [2:57:26<15:45:02,  3.44it/s] 47%|████▋     | 176308/371472 [2:57:26<15:31:03,  3.49it/s] 47%|████▋     | 176309/371472 [2:57:27<16:24:45,  3.30it/s] 47%|████▋     | 176310/371472 [2:57:27<16:38:47,  3.26it/s] 47%|████▋     | 176311/371472 [2:57:27<16:17:00,  3.33it/s] 47%|████▋     | 176312/371472 [2:57:28<16:04:08,  3.37it/s] 47%|████▋     | 176313/371472 [2:57:28<17:39:22,  3.07it/s] 47%|████▋     | 176314/371472 [2:57:28<17:26:46,  3.11it/s] 47%|████▋     | 176315/371472 [2:57:29<16:28:03,  3.29it/s] 47%|████▋     | 176316/371472 [2:57:29<15:44:59,  3.44it/s] 47%|████▋     | 176317/371472 [2:57:29<14:57:12,  3.63it/s] 47%|████▋     | 176318/371472 [2:57:29<14:31:07,  3.73it/s] 47%|████▋     | 176319/371472 [2:57:30<14:23:25,  3.77it/s] 47%|████▋     | 176320/371472 [2:57:30<14:23:57,  3.76it/s]                                                            {'loss': 2.9937, 'learning_rate': 5.73067723932858e-07, 'epoch': 7.59}
 47%|████▋     | 176320/371472 [2:57:30<14:23:57,  3.76it/s] 47%|████▋     | 176321/371472 [2:57:30<14:40:42,  3.69it/s] 47%|████▋     | 176322/371472 [2:57:30<14:49:18,  3.66it/s] 47%|████▋     | 176323/371472 [2:57:31<14:35:02,  3.72it/s] 47%|████▋     | 176324/371472 [2:57:31<14:44:26,  3.68it/s] 47%|████▋     | 176325/371472 [2:57:31<14:30:17,  3.74it/s] 47%|████▋     | 176326/371472 [2:57:31<14:47:35,  3.66it/s] 47%|████▋     | 176327/371472 [2:57:32<15:03:47,  3.60it/s] 47%|████▋     | 176328/371472 [2:57:32<15:10:26,  3.57it/s] 47%|████▋     | 176329/371472 [2:57:32<15:20:40,  3.53it/s] 47%|████▋     | 176330/371472 [2:57:33<15:01:37,  3.61it/s] 47%|████▋     | 176331/371472 [2:57:33<15:02:07,  3.61it/s] 47%|████▋     | 176332/371472 [2:57:33<14:57:42,  3.62it/s] 47%|████▋     | 176333/371472 [2:57:33<14:29:38,  3.74it/s] 47%|████▋     | 176334/371472 [2:57:34<14:29:53,  3.74it/s] 47%|████▋     | 176335/371472 [2:57:34<15:48:48,  3.43it/s] 47%|████▋     | 176336/371472 [2:57:34<15:46:18,  3.44it/s] 47%|████▋     | 176337/371472 [2:57:35<15:24:40,  3.52it/s] 47%|████▋     | 176338/371472 [2:57:35<16:18:41,  3.32it/s] 47%|████▋     | 176339/371472 [2:57:35<16:25:52,  3.30it/s] 47%|████▋     | 176340/371472 [2:57:35<15:25:35,  3.51it/s]                                                            {'loss': 3.1091, 'learning_rate': 5.73019241957379e-07, 'epoch': 7.6}
 47%|████▋     | 176340/371472 [2:57:35<15:25:35,  3.51it/s] 47%|████▋     | 176341/371472 [2:57:36<15:15:54,  3.55it/s] 47%|████▋     | 176342/371472 [2:57:36<14:55:37,  3.63it/s] 47%|████▋     | 176343/371472 [2:57:36<15:23:45,  3.52it/s] 47%|████▋     | 176344/371472 [2:57:37<15:41:34,  3.45it/s] 47%|████▋     | 176345/371472 [2:57:37<15:31:31,  3.49it/s] 47%|████▋     | 176346/371472 [2:57:37<15:04:49,  3.59it/s] 47%|████▋     | 176347/371472 [2:57:37<14:44:24,  3.68it/s] 47%|████▋     | 176348/371472 [2:57:38<15:31:56,  3.49it/s] 47%|████▋     | 176349/371472 [2:57:38<16:04:19,  3.37it/s] 47%|████▋     | 176350/371472 [2:57:38<16:02:34,  3.38it/s] 47%|████▋     | 176351/371472 [2:57:39<15:20:41,  3.53it/s] 47%|████▋     | 176352/371472 [2:57:39<21:18:47,  2.54it/s] 47%|████▋     | 176353/371472 [2:57:40<19:48:28,  2.74it/s] 47%|████▋     | 176354/371472 [2:57:40<18:36:37,  2.91it/s] 47%|████▋     | 176355/371472 [2:57:40<17:07:19,  3.17it/s] 47%|████▋     | 176356/371472 [2:57:40<16:53:05,  3.21it/s] 47%|████▋     | 176357/371472 [2:57:41<16:30:38,  3.28it/s] 47%|████▋     | 176358/371472 [2:57:41<17:35:10,  3.08it/s] 47%|████▋     | 176359/371472 [2:57:41<16:41:49,  3.25it/s] 47%|████▋     | 176360/371472 [2:57:42<15:42:27,  3.45it/s]                                                            {'loss': 2.9882, 'learning_rate': 5.729707599819e-07, 'epoch': 7.6}
 47%|████▋     | 176360/371472 [2:57:42<15:42:27,  3.45it/s] 47%|████▋     | 176361/371472 [2:57:42<15:20:14,  3.53it/s] 47%|████▋     | 176362/371472 [2:57:42<15:07:51,  3.58it/s] 47%|████▋     | 176363/371472 [2:57:42<15:04:47,  3.59it/s] 47%|████▋     | 176364/371472 [2:57:43<14:49:46,  3.65it/s] 47%|████▋     | 176365/371472 [2:57:43<16:07:40,  3.36it/s] 47%|████▋     | 176366/371472 [2:57:43<15:58:49,  3.39it/s] 47%|████▋     | 176367/371472 [2:57:44<15:24:42,  3.52it/s] 47%|████▋     | 176368/371472 [2:57:44<15:19:43,  3.54it/s] 47%|████▋     | 176369/371472 [2:57:44<14:43:55,  3.68it/s] 47%|████▋     | 176370/371472 [2:57:44<14:30:25,  3.74it/s] 47%|████▋     | 176371/371472 [2:57:45<14:36:26,  3.71it/s] 47%|████▋     | 176372/371472 [2:57:45<14:23:31,  3.77it/s] 47%|████▋     | 176373/371472 [2:57:45<15:17:56,  3.54it/s] 47%|████▋     | 176374/371472 [2:57:45<15:03:47,  3.60it/s] 47%|████▋     | 176375/371472 [2:57:46<15:35:13,  3.48it/s] 47%|████▋     | 176376/371472 [2:57:46<15:49:53,  3.42it/s] 47%|████▋     | 176377/371472 [2:57:46<15:30:52,  3.49it/s] 47%|████▋     | 176378/371472 [2:57:47<15:04:39,  3.59it/s] 47%|████▋     | 176379/371472 [2:57:47<15:39:10,  3.46it/s] 47%|████▋     | 176380/371472 [2:57:47<15:28:14,  3.50it/s]                                                            {'loss': 2.9649, 'learning_rate': 5.729222780064211e-07, 'epoch': 7.6}
 47%|████▋     | 176380/371472 [2:57:47<15:28:14,  3.50it/s] 47%|████▋     | 176381/371472 [2:57:47<15:44:21,  3.44it/s] 47%|████▋     | 176382/371472 [2:57:48<16:12:16,  3.34it/s] 47%|████▋     | 176383/371472 [2:57:48<15:42:59,  3.45it/s] 47%|████▋     | 176384/371472 [2:57:48<16:12:08,  3.34it/s] 47%|████▋     | 176385/371472 [2:57:49<15:20:37,  3.53it/s] 47%|████▋     | 176386/371472 [2:57:49<14:43:49,  3.68it/s] 47%|████▋     | 176387/371472 [2:57:49<14:30:22,  3.74it/s] 47%|████▋     | 176388/371472 [2:57:50<16:51:55,  3.21it/s] 47%|████▋     | 176389/371472 [2:57:50<16:39:48,  3.25it/s] 47%|████▋     | 176390/371472 [2:57:50<16:48:36,  3.22it/s] 47%|████▋     | 176391/371472 [2:57:51<17:02:19,  3.18it/s] 47%|████▋     | 176392/371472 [2:57:51<16:40:02,  3.25it/s] 47%|████▋     | 176393/371472 [2:57:51<16:29:26,  3.29it/s] 47%|████▋     | 176394/371472 [2:57:51<17:37:01,  3.08it/s] 47%|████▋     | 176395/371472 [2:57:52<16:40:42,  3.25it/s] 47%|████▋     | 176396/371472 [2:57:52<16:19:36,  3.32it/s] 47%|████▋     | 176397/371472 [2:57:52<18:57:19,  2.86it/s] 47%|████▋     | 176398/371472 [2:57:53<17:18:45,  3.13it/s] 47%|████▋     | 176399/371472 [2:57:53<17:08:54,  3.16it/s] 47%|████▋     | 176400/371472 [2:57:53<16:34:36,  3.27it/s]                                                            {'loss': 2.9093, 'learning_rate': 5.728737960309423e-07, 'epoch': 7.6}
 47%|████▋     | 176400/371472 [2:57:53<16:34:36,  3.27it/s] 47%|████▋     | 176401/371472 [2:57:54<16:07:25,  3.36it/s] 47%|████▋     | 176402/371472 [2:57:54<15:26:43,  3.51it/s] 47%|████▋     | 176403/371472 [2:57:54<15:15:05,  3.55it/s] 47%|████▋     | 176404/371472 [2:57:54<15:29:11,  3.50it/s] 47%|████▋     | 176405/371472 [2:57:55<15:34:18,  3.48it/s] 47%|████▋     | 176406/371472 [2:57:55<15:10:39,  3.57it/s] 47%|████▋     | 176407/371472 [2:57:55<15:24:16,  3.52it/s] 47%|████▋     | 176408/371472 [2:57:56<14:41:56,  3.69it/s] 47%|████▋     | 176409/371472 [2:57:56<14:54:17,  3.64it/s] 47%|████▋     | 176410/371472 [2:57:56<15:08:10,  3.58it/s] 47%|████▋     | 176411/371472 [2:57:56<14:48:06,  3.66it/s] 47%|████▋     | 176412/371472 [2:57:57<14:42:45,  3.68it/s] 47%|████▋     | 176413/371472 [2:57:57<14:41:36,  3.69it/s] 47%|████▋     | 176414/371472 [2:57:57<15:39:27,  3.46it/s] 47%|████▋     | 176415/371472 [2:57:58<15:54:11,  3.41it/s] 47%|████▋     | 176416/371472 [2:57:58<15:59:17,  3.39it/s] 47%|████▋     | 176417/371472 [2:57:58<15:24:05,  3.52it/s] 47%|████▋     | 176418/371472 [2:57:58<15:32:46,  3.49it/s] 47%|████▋     | 176419/371472 [2:57:59<15:48:04,  3.43it/s] 47%|████▋     | 176420/371472 [2:57:59<15:59:37,  3.39it/s]                                                            {'loss': 3.0095, 'learning_rate': 5.728253140554634e-07, 'epoch': 7.6}
 47%|████▋     | 176420/371472 [2:57:59<15:59:37,  3.39it/s] 47%|████▋     | 176421/371472 [2:57:59<16:10:30,  3.35it/s] 47%|████▋     | 176422/371472 [2:58:00<16:03:26,  3.37it/s] 47%|████▋     | 176423/371472 [2:58:00<16:19:29,  3.32it/s] 47%|████▋     | 176424/371472 [2:58:00<16:19:43,  3.32it/s] 47%|████▋     | 176425/371472 [2:58:00<15:37:23,  3.47it/s] 47%|████▋     | 176426/371472 [2:58:01<15:49:05,  3.43it/s] 47%|████▋     | 176427/371472 [2:58:01<15:18:37,  3.54it/s] 47%|████▋     | 176428/371472 [2:58:01<14:50:14,  3.65it/s] 47%|████▋     | 176429/371472 [2:58:02<14:29:40,  3.74it/s] 47%|████▋     | 176430/371472 [2:58:02<14:21:21,  3.77it/s] 47%|████▋     | 176431/371472 [2:58:02<14:36:29,  3.71it/s] 47%|████▋     | 176432/371472 [2:58:02<14:41:16,  3.69it/s] 47%|████▋     | 176433/371472 [2:58:03<14:33:15,  3.72it/s] 47%|████▋     | 176434/371472 [2:58:03<14:39:53,  3.69it/s] 47%|████▋     | 176435/371472 [2:58:03<14:36:29,  3.71it/s] 47%|████▋     | 176436/371472 [2:58:03<14:27:08,  3.75it/s] 47%|████▋     | 176437/371472 [2:58:04<14:16:19,  3.80it/s] 47%|████▋     | 176438/371472 [2:58:04<14:23:03,  3.77it/s] 47%|████▋     | 176439/371472 [2:58:04<14:21:40,  3.77it/s] 47%|████▋     | 176440/371472 [2:58:04<14:39:02,  3.70it/s]                                                            {'loss': 3.2544, 'learning_rate': 5.727768320799844e-07, 'epoch': 7.6}
 47%|████▋     | 176440/371472 [2:58:04<14:39:02,  3.70it/s] 47%|████▋     | 176441/371472 [2:58:05<14:30:49,  3.73it/s] 47%|████▋     | 176442/371472 [2:58:05<15:09:01,  3.58it/s] 47%|████▋     | 176443/371472 [2:58:05<14:44:14,  3.68it/s] 47%|████▋     | 176444/371472 [2:58:06<16:02:07,  3.38it/s] 47%|████▋     | 176445/371472 [2:58:06<15:42:03,  3.45it/s] 47%|████▋     | 176446/371472 [2:58:06<16:00:14,  3.39it/s] 47%|████▋     | 176447/371472 [2:58:07<15:58:30,  3.39it/s] 47%|████▋     | 176448/371472 [2:58:07<16:24:19,  3.30it/s] 47%|████▋     | 176449/371472 [2:58:07<16:24:30,  3.30it/s] 48%|████▊     | 176450/371472 [2:58:07<16:13:51,  3.34it/s] 48%|████▊     | 176451/371472 [2:58:08<15:45:57,  3.44it/s] 48%|████▊     | 176452/371472 [2:58:08<15:26:35,  3.51it/s] 48%|████▊     | 176453/371472 [2:58:08<15:05:09,  3.59it/s] 48%|████▊     | 176454/371472 [2:58:09<15:27:58,  3.50it/s] 48%|████▊     | 176455/371472 [2:58:09<15:47:06,  3.43it/s] 48%|████▊     | 176456/371472 [2:58:09<15:40:06,  3.46it/s] 48%|████▊     | 176457/371472 [2:58:09<15:45:39,  3.44it/s] 48%|████▊     | 176458/371472 [2:58:10<16:10:37,  3.35it/s] 48%|████▊     | 176459/371472 [2:58:10<15:46:08,  3.44it/s] 48%|████▊     | 176460/371472 [2:58:10<15:34:53,  3.48it/s]                                                            {'loss': 3.0068, 'learning_rate': 5.727283501045056e-07, 'epoch': 7.6}
 48%|████▊     | 176460/371472 [2:58:10<15:34:53,  3.48it/s] 48%|████▊     | 176461/371472 [2:58:11<15:29:49,  3.50it/s] 48%|████▊     | 176462/371472 [2:58:11<15:53:09,  3.41it/s] 48%|████▊     | 176463/371472 [2:58:11<15:32:28,  3.49it/s] 48%|████▊     | 176464/371472 [2:58:11<15:48:02,  3.43it/s] 48%|████▊     | 176465/371472 [2:58:12<15:14:07,  3.56it/s] 48%|████▊     | 176466/371472 [2:58:12<15:23:37,  3.52it/s] 48%|████▊     | 176467/371472 [2:58:12<16:45:05,  3.23it/s] 48%|████▊     | 176468/371472 [2:58:13<16:35:02,  3.27it/s] 48%|████▊     | 176469/371472 [2:58:13<17:02:57,  3.18it/s] 48%|████▊     | 176470/371472 [2:58:13<16:31:06,  3.28it/s] 48%|████▊     | 176471/371472 [2:58:14<15:42:58,  3.45it/s] 48%|████▊     | 176472/371472 [2:58:14<15:33:39,  3.48it/s] 48%|████▊     | 176473/371472 [2:58:14<15:11:20,  3.57it/s] 48%|████▊     | 176474/371472 [2:58:14<15:47:52,  3.43it/s] 48%|████▊     | 176475/371472 [2:58:15<15:54:25,  3.41it/s] 48%|████▊     | 176476/371472 [2:58:15<15:36:56,  3.47it/s] 48%|████▊     | 176477/371472 [2:58:15<15:16:30,  3.55it/s] 48%|████▊     | 176478/371472 [2:58:16<15:35:03,  3.48it/s] 48%|████▊     | 176479/371472 [2:58:16<15:10:40,  3.57it/s] 48%|████▊     | 176480/371472 [2:58:16<14:52:13,  3.64it/s]                                                            {'loss': 3.1, 'learning_rate': 5.726798681290267e-07, 'epoch': 7.6}
 48%|████▊     | 176480/371472 [2:58:16<14:52:13,  3.64it/s] 48%|████▊     | 176481/371472 [2:58:16<15:04:18,  3.59it/s] 48%|████▊     | 176482/371472 [2:58:17<15:09:23,  3.57it/s] 48%|████▊     | 176483/371472 [2:58:17<15:34:51,  3.48it/s] 48%|████▊     | 176484/371472 [2:58:17<15:09:56,  3.57it/s] 48%|████▊     | 176485/371472 [2:58:17<14:46:16,  3.67it/s] 48%|████▊     | 176486/371472 [2:58:18<14:36:39,  3.71it/s] 48%|████▊     | 176487/371472 [2:58:18<14:26:57,  3.75it/s] 48%|████▊     | 176488/371472 [2:58:18<14:44:01,  3.68it/s] 48%|████▊     | 176489/371472 [2:58:19<15:06:17,  3.59it/s] 48%|████▊     | 176490/371472 [2:58:19<15:01:55,  3.60it/s] 48%|████▊     | 176491/371472 [2:58:19<14:54:54,  3.63it/s] 48%|████▊     | 176492/371472 [2:58:19<14:39:22,  3.70it/s] 48%|████▊     | 176493/371472 [2:58:20<15:50:28,  3.42it/s] 48%|████▊     | 176494/371472 [2:58:20<15:10:41,  3.57it/s] 48%|████▊     | 176495/371472 [2:58:20<15:03:55,  3.60it/s] 48%|████▊     | 176496/371472 [2:58:21<15:43:11,  3.45it/s] 48%|████▊     | 176497/371472 [2:58:21<15:14:04,  3.56it/s] 48%|████▊     | 176498/371472 [2:58:21<15:25:42,  3.51it/s] 48%|████▊     | 176499/371472 [2:58:21<15:13:33,  3.56it/s] 48%|████▊     | 176500/371472 [2:58:22<15:24:22,  3.52it/s]                                                            {'loss': 2.9663, 'learning_rate': 5.726313861535478e-07, 'epoch': 7.6}
 48%|████▊     | 176500/371472 [2:58:22<15:24:22,  3.52it/s] 48%|████▊     | 176501/371472 [2:58:22<14:51:15,  3.65it/s] 48%|████▊     | 176502/371472 [2:58:22<14:42:39,  3.68it/s] 48%|████▊     | 176503/371472 [2:58:22<14:24:47,  3.76it/s] 48%|████▊     | 176504/371472 [2:58:23<14:20:41,  3.78it/s] 48%|████▊     | 176505/371472 [2:58:23<15:15:10,  3.55it/s] 48%|████▊     | 176506/371472 [2:58:23<16:23:54,  3.30it/s] 48%|████▊     | 176507/371472 [2:58:24<15:42:10,  3.45it/s] 48%|████▊     | 176508/371472 [2:58:24<15:24:30,  3.51it/s] 48%|████▊     | 176509/371472 [2:58:24<15:21:46,  3.53it/s] 48%|████▊     | 176510/371472 [2:58:25<16:01:51,  3.38it/s] 48%|████▊     | 176511/371472 [2:58:25<16:39:57,  3.25it/s] 48%|████▊     | 176512/371472 [2:58:25<16:28:38,  3.29it/s] 48%|████▊     | 176513/371472 [2:58:25<15:32:10,  3.49it/s] 48%|████▊     | 176514/371472 [2:58:26<14:55:50,  3.63it/s] 48%|████▊     | 176515/371472 [2:58:26<14:53:19,  3.64it/s] 48%|████▊     | 176516/371472 [2:58:26<15:45:41,  3.44it/s] 48%|████▊     | 176517/371472 [2:58:27<15:37:36,  3.47it/s] 48%|████▊     | 176518/371472 [2:58:27<15:33:02,  3.48it/s] 48%|████▊     | 176519/371472 [2:58:27<15:32:35,  3.48it/s] 48%|████▊     | 176520/371472 [2:58:27<15:24:46,  3.51it/s]                                                            {'loss': 3.0778, 'learning_rate': 5.725829041780688e-07, 'epoch': 7.6}
 48%|████▊     | 176520/371472 [2:58:27<15:24:46,  3.51it/s] 48%|████▊     | 176521/371472 [2:58:28<15:28:42,  3.50it/s] 48%|████▊     | 176522/371472 [2:58:28<17:05:08,  3.17it/s] 48%|████▊     | 176523/371472 [2:58:28<16:24:40,  3.30it/s] 48%|████▊     | 176524/371472 [2:58:29<16:33:00,  3.27it/s] 48%|████▊     | 176525/371472 [2:58:29<15:50:04,  3.42it/s] 48%|████▊     | 176526/371472 [2:58:29<15:23:01,  3.52it/s] 48%|████▊     | 176527/371472 [2:58:29<14:59:39,  3.61it/s] 48%|████▊     | 176528/371472 [2:58:30<14:25:35,  3.75it/s] 48%|████▊     | 176529/371472 [2:58:30<14:17:19,  3.79it/s] 48%|████▊     | 176530/371472 [2:58:30<14:07:02,  3.84it/s] 48%|████▊     | 176531/371472 [2:58:30<14:17:25,  3.79it/s] 48%|████▊     | 176532/371472 [2:58:31<13:59:40,  3.87it/s] 48%|████▊     | 176533/371472 [2:58:31<14:14:26,  3.80it/s] 48%|████▊     | 176534/371472 [2:58:31<14:20:50,  3.77it/s] 48%|████▊     | 176535/371472 [2:58:32<14:36:00,  3.71it/s] 48%|████▊     | 176536/371472 [2:58:32<14:47:31,  3.66it/s] 48%|████▊     | 176537/371472 [2:58:32<14:57:42,  3.62it/s] 48%|████▊     | 176538/371472 [2:58:32<14:31:54,  3.73it/s] 48%|████▊     | 176539/371472 [2:58:33<15:11:51,  3.56it/s] 48%|████▊     | 176540/371472 [2:58:33<15:36:50,  3.47it/s]                                                            {'loss': 3.0559, 'learning_rate': 5.7253442220259e-07, 'epoch': 7.6}
 48%|████▊     | 176540/371472 [2:58:33<15:36:50,  3.47it/s] 48%|████▊     | 176541/371472 [2:58:33<14:56:13,  3.63it/s] 48%|████▊     | 176542/371472 [2:58:33<14:33:29,  3.72it/s] 48%|████▊     | 176543/371472 [2:58:34<14:38:20,  3.70it/s] 48%|████▊     | 176544/371472 [2:58:34<14:28:20,  3.74it/s] 48%|████▊     | 176545/371472 [2:58:34<14:20:53,  3.77it/s] 48%|████▊     | 176546/371472 [2:58:35<14:45:00,  3.67it/s] 48%|████▊     | 176547/371472 [2:58:35<14:41:46,  3.68it/s] 48%|████▊     | 176548/371472 [2:58:35<14:45:47,  3.67it/s] 48%|████▊     | 176549/371472 [2:58:35<14:42:12,  3.68it/s] 48%|████▊     | 176550/371472 [2:58:36<14:39:30,  3.69it/s] 48%|████▊     | 176551/371472 [2:58:36<14:37:13,  3.70it/s] 48%|████▊     | 176552/371472 [2:58:36<14:26:14,  3.75it/s] 48%|████▊     | 176553/371472 [2:58:36<15:01:31,  3.60it/s] 48%|████▊     | 176554/371472 [2:58:37<14:50:22,  3.65it/s] 48%|████▊     | 176555/371472 [2:58:37<15:01:25,  3.60it/s] 48%|████▊     | 176556/371472 [2:58:37<14:39:01,  3.70it/s] 48%|████▊     | 176557/371472 [2:58:38<15:25:38,  3.51it/s] 48%|████▊     | 176558/371472 [2:58:38<15:03:04,  3.60it/s] 48%|████▊     | 176559/371472 [2:58:38<14:41:14,  3.69it/s] 48%|████▊     | 176560/371472 [2:58:38<15:55:36,  3.40it/s]                                                            {'loss': 3.1372, 'learning_rate': 5.724859402271112e-07, 'epoch': 7.6}
 48%|████▊     | 176560/371472 [2:58:38<15:55:36,  3.40it/s] 48%|████▊     | 176561/371472 [2:58:39<15:33:25,  3.48it/s] 48%|████▊     | 176562/371472 [2:58:39<15:21:17,  3.53it/s] 48%|████▊     | 176563/371472 [2:58:39<14:33:23,  3.72it/s] 48%|████▊     | 176564/371472 [2:58:40<14:58:02,  3.62it/s] 48%|████▊     | 176565/371472 [2:58:40<14:12:40,  3.81it/s] 48%|████▊     | 176566/371472 [2:58:40<14:19:25,  3.78it/s] 48%|████▊     | 176567/371472 [2:58:40<15:07:28,  3.58it/s] 48%|████▊     | 176568/371472 [2:58:41<14:57:33,  3.62it/s] 48%|████▊     | 176569/371472 [2:58:41<15:10:24,  3.57it/s] 48%|████▊     | 176570/371472 [2:58:41<14:34:11,  3.72it/s] 48%|████▊     | 176571/371472 [2:58:41<14:33:41,  3.72it/s] 48%|████▊     | 176572/371472 [2:58:42<14:08:45,  3.83it/s] 48%|████▊     | 176573/371472 [2:58:42<13:59:58,  3.87it/s] 48%|████▊     | 176574/371472 [2:58:42<13:50:06,  3.91it/s] 48%|████▊     | 176575/371472 [2:58:42<13:41:50,  3.95it/s] 48%|████▊     | 176576/371472 [2:58:43<14:58:30,  3.62it/s] 48%|████▊     | 176577/371472 [2:58:43<14:39:12,  3.69it/s] 48%|████▊     | 176578/371472 [2:58:43<15:17:23,  3.54it/s] 48%|████▊     | 176579/371472 [2:58:44<15:09:40,  3.57it/s] 48%|████▊     | 176580/371472 [2:58:44<15:24:34,  3.51it/s]                                                            {'loss': 2.9734, 'learning_rate': 5.724374582516323e-07, 'epoch': 7.61}
 48%|████▊     | 176580/371472 [2:58:44<15:24:34,  3.51it/s] 48%|████▊     | 176581/371472 [2:58:44<15:13:05,  3.56it/s] 48%|████▊     | 176582/371472 [2:58:44<14:28:31,  3.74it/s] 48%|████▊     | 176583/371472 [2:58:45<14:33:18,  3.72it/s] 48%|████▊     | 176584/371472 [2:58:45<16:34:51,  3.26it/s] 48%|████▊     | 176585/371472 [2:58:45<17:09:05,  3.16it/s] 48%|████▊     | 176586/371472 [2:58:46<17:22:54,  3.11it/s] 48%|████▊     | 176587/371472 [2:58:46<16:11:03,  3.34it/s] 48%|████▊     | 176588/371472 [2:58:46<15:25:34,  3.51it/s] 48%|████▊     | 176589/371472 [2:58:47<16:16:58,  3.32it/s] 48%|████▊     | 176590/371472 [2:58:47<15:56:03,  3.40it/s] 48%|████▊     | 176591/371472 [2:58:47<15:32:08,  3.48it/s] 48%|████▊     | 176592/371472 [2:58:47<15:51:11,  3.41it/s] 48%|████▊     | 176593/371472 [2:58:48<15:36:22,  3.47it/s] 48%|████▊     | 176594/371472 [2:58:48<15:38:33,  3.46it/s] 48%|████▊     | 176595/371472 [2:58:48<15:05:12,  3.59it/s] 48%|████▊     | 176596/371472 [2:58:48<14:47:44,  3.66it/s] 48%|████▊     | 176597/371472 [2:58:49<14:32:46,  3.72it/s] 48%|████▊     | 176598/371472 [2:58:49<15:10:55,  3.57it/s] 48%|████▊     | 176599/371472 [2:58:49<14:51:13,  3.64it/s] 48%|████▊     | 176600/371472 [2:58:50<14:54:14,  3.63it/s]                                                            {'loss': 3.0881, 'learning_rate': 5.723889762761533e-07, 'epoch': 7.61}
 48%|████▊     | 176600/371472 [2:58:50<14:54:14,  3.63it/s] 48%|████▊     | 176601/371472 [2:58:50<14:31:05,  3.73it/s] 48%|████▊     | 176602/371472 [2:58:50<14:30:09,  3.73it/s] 48%|████▊     | 176603/371472 [2:58:50<14:43:49,  3.67it/s] 48%|████▊     | 176604/371472 [2:58:51<14:31:35,  3.73it/s] 48%|████▊     | 176605/371472 [2:58:51<14:19:58,  3.78it/s] 48%|████▊     | 176606/371472 [2:58:51<14:38:21,  3.70it/s] 48%|████▊     | 176607/371472 [2:58:51<14:44:36,  3.67it/s] 48%|████▊     | 176608/371472 [2:58:52<15:05:12,  3.59it/s] 48%|████▊     | 176609/371472 [2:58:52<14:47:00,  3.66it/s] 48%|████▊     | 176610/371472 [2:58:52<14:43:11,  3.68it/s] 48%|████▊     | 176611/371472 [2:58:53<15:19:23,  3.53it/s] 48%|████▊     | 176612/371472 [2:58:53<15:25:46,  3.51it/s] 48%|████▊     | 176613/371472 [2:58:53<16:49:11,  3.22it/s] 48%|████▊     | 176614/371472 [2:58:54<16:26:16,  3.29it/s] 48%|████▊     | 176615/371472 [2:58:54<16:43:07,  3.24it/s] 48%|████▊     | 176616/371472 [2:58:54<16:19:52,  3.31it/s] 48%|████▊     | 176617/371472 [2:58:54<15:35:01,  3.47it/s] 48%|████▊     | 176618/371472 [2:58:55<17:38:11,  3.07it/s] 48%|████▊     | 176619/371472 [2:58:55<17:05:57,  3.17it/s] 48%|████▊     | 176620/371472 [2:58:55<16:25:02,  3.30it/s]                                                            {'loss': 3.0703, 'learning_rate': 5.723404943006744e-07, 'epoch': 7.61}
 48%|████▊     | 176620/371472 [2:58:55<16:25:02,  3.30it/s] 48%|████▊     | 176621/371472 [2:58:56<16:08:56,  3.35it/s] 48%|████▊     | 176622/371472 [2:58:56<15:56:38,  3.39it/s] 48%|████▊     | 176623/371472 [2:58:56<15:49:45,  3.42it/s] 48%|████▊     | 176624/371472 [2:58:57<16:11:19,  3.34it/s] 48%|████▊     | 176625/371472 [2:58:57<17:18:01,  3.13it/s] 48%|████▊     | 176626/371472 [2:58:57<16:52:40,  3.21it/s] 48%|████▊     | 176627/371472 [2:58:58<16:22:26,  3.31it/s] 48%|████▊     | 176628/371472 [2:58:58<16:30:06,  3.28it/s] 48%|████▊     | 176629/371472 [2:58:58<16:07:39,  3.36it/s] 48%|████▊     | 176630/371472 [2:58:58<16:02:07,  3.38it/s] 48%|████▊     | 176631/371472 [2:58:59<15:28:11,  3.50it/s] 48%|████▊     | 176632/371472 [2:58:59<15:05:36,  3.59it/s] 48%|████▊     | 176633/371472 [2:58:59<14:46:23,  3.66it/s] 48%|████▊     | 176634/371472 [2:58:59<14:19:20,  3.78it/s] 48%|████▊     | 176635/371472 [2:59:00<14:32:20,  3.72it/s] 48%|████▊     | 176636/371472 [2:59:00<15:32:45,  3.48it/s] 48%|████▊     | 176637/371472 [2:59:00<16:02:15,  3.37it/s] 48%|████▊     | 176638/371472 [2:59:01<15:46:18,  3.43it/s] 48%|████▊     | 176639/371472 [2:59:01<15:47:08,  3.43it/s] 48%|████▊     | 176640/371472 [2:59:01<15:18:38,  3.53it/s]                                                            {'loss': 3.0373, 'learning_rate': 5.722920123251956e-07, 'epoch': 7.61}
 48%|████▊     | 176640/371472 [2:59:01<15:18:38,  3.53it/s] 48%|████▊     | 176641/371472 [2:59:01<15:24:03,  3.51it/s] 48%|████▊     | 176642/371472 [2:59:02<15:14:02,  3.55it/s] 48%|████▊     | 176643/371472 [2:59:02<15:38:46,  3.46it/s] 48%|████▊     | 176644/371472 [2:59:02<15:18:37,  3.53it/s] 48%|████▊     | 176645/371472 [2:59:03<14:45:01,  3.67it/s] 48%|████▊     | 176646/371472 [2:59:03<15:45:35,  3.43it/s] 48%|████▊     | 176647/371472 [2:59:03<15:12:35,  3.56it/s] 48%|████▊     | 176648/371472 [2:59:03<15:17:58,  3.54it/s] 48%|████▊     | 176649/371472 [2:59:04<15:29:24,  3.49it/s] 48%|████▊     | 176650/371472 [2:59:04<15:08:11,  3.58it/s] 48%|████▊     | 176651/371472 [2:59:04<15:10:02,  3.57it/s] 48%|████▊     | 176652/371472 [2:59:05<14:31:46,  3.72it/s] 48%|████▊     | 176653/371472 [2:59:05<14:25:23,  3.75it/s] 48%|████▊     | 176654/371472 [2:59:05<14:49:49,  3.65it/s] 48%|████▊     | 176655/371472 [2:59:05<14:39:58,  3.69it/s] 48%|████▊     | 176656/371472 [2:59:06<14:54:47,  3.63it/s] 48%|████▊     | 176657/371472 [2:59:06<14:31:57,  3.72it/s] 48%|████▊     | 176658/371472 [2:59:06<14:16:33,  3.79it/s] 48%|████▊     | 176659/371472 [2:59:06<14:16:01,  3.79it/s] 48%|████▊     | 176660/371472 [2:59:07<14:19:35,  3.78it/s]                                                            {'loss': 3.1922, 'learning_rate': 5.722435303497165e-07, 'epoch': 7.61}
 48%|████▊     | 176660/371472 [2:59:07<14:19:35,  3.78it/s] 48%|████▊     | 176661/371472 [2:59:07<15:11:50,  3.56it/s] 48%|████▊     | 176662/371472 [2:59:07<15:06:22,  3.58it/s] 48%|████▊     | 176663/371472 [2:59:08<15:47:30,  3.43it/s] 48%|████▊     | 176664/371472 [2:59:08<15:02:54,  3.60it/s] 48%|████▊     | 176665/371472 [2:59:08<15:02:22,  3.60it/s] 48%|████▊     | 176666/371472 [2:59:09<17:20:59,  3.12it/s] 48%|████▊     | 176667/371472 [2:59:09<16:13:30,  3.34it/s] 48%|████▊     | 176668/371472 [2:59:09<15:50:53,  3.41it/s] 48%|████▊     | 176669/371472 [2:59:09<15:42:59,  3.44it/s] 48%|████▊     | 176670/371472 [2:59:10<15:25:08,  3.51it/s] 48%|████▊     | 176671/371472 [2:59:10<14:59:40,  3.61it/s] 48%|████▊     | 176672/371472 [2:59:10<14:53:08,  3.64it/s] 48%|████▊     | 176673/371472 [2:59:10<15:01:06,  3.60it/s] 48%|████▊     | 176674/371472 [2:59:11<14:41:56,  3.68it/s] 48%|████▊     | 176675/371472 [2:59:11<14:58:23,  3.61it/s] 48%|████▊     | 176676/371472 [2:59:11<14:36:33,  3.70it/s] 48%|████▊     | 176677/371472 [2:59:12<15:17:02,  3.54it/s] 48%|████▊     | 176678/371472 [2:59:12<16:22:56,  3.30it/s] 48%|████▊     | 176679/371472 [2:59:12<16:01:22,  3.38it/s] 48%|████▊     | 176680/371472 [2:59:12<15:54:02,  3.40it/s]                                                            {'loss': 2.8881, 'learning_rate': 5.721950483742377e-07, 'epoch': 7.61}
 48%|████▊     | 176680/371472 [2:59:12<15:54:02,  3.40it/s] 48%|████▊     | 176681/371472 [2:59:13<15:50:22,  3.42it/s] 48%|████▊     | 176682/371472 [2:59:13<16:39:00,  3.25it/s] 48%|████▊     | 176683/371472 [2:59:13<17:02:34,  3.17it/s] 48%|████▊     | 176684/371472 [2:59:14<17:30:36,  3.09it/s] 48%|████▊     | 176685/371472 [2:59:14<16:51:52,  3.21it/s] 48%|████▊     | 176686/371472 [2:59:14<16:34:35,  3.26it/s] 48%|████▊     | 176687/371472 [2:59:15<15:53:36,  3.40it/s] 48%|████▊     | 176688/371472 [2:59:15<15:48:34,  3.42it/s] 48%|████▊     | 176689/371472 [2:59:15<15:36:54,  3.46it/s] 48%|████▊     | 176690/371472 [2:59:15<15:18:51,  3.53it/s] 48%|████▊     | 176691/371472 [2:59:16<15:00:57,  3.60it/s] 48%|████▊     | 176692/371472 [2:59:16<16:23:45,  3.30it/s] 48%|████▊     | 176693/371472 [2:59:16<15:39:06,  3.46it/s] 48%|████▊     | 176694/371472 [2:59:17<15:14:33,  3.55it/s] 48%|████▊     | 176695/371472 [2:59:17<15:56:33,  3.39it/s] 48%|████▊     | 176696/371472 [2:59:17<15:42:18,  3.45it/s] 48%|████▊     | 176697/371472 [2:59:17<15:14:24,  3.55it/s] 48%|████▊     | 176698/371472 [2:59:18<15:35:15,  3.47it/s] 48%|████▊     | 176699/371472 [2:59:18<15:12:31,  3.56it/s] 48%|████▊     | 176700/371472 [2:59:18<16:03:28,  3.37it/s]                                                            {'loss': 3.1246, 'learning_rate': 5.721465663987589e-07, 'epoch': 7.61}
 48%|████▊     | 176700/371472 [2:59:18<16:03:28,  3.37it/s] 48%|████▊     | 176701/371472 [2:59:19<15:23:57,  3.51it/s] 48%|████▊     | 176702/371472 [2:59:19<15:28:41,  3.50it/s] 48%|████▊     | 176703/371472 [2:59:19<15:50:33,  3.42it/s] 48%|████▊     | 176704/371472 [2:59:19<15:35:56,  3.47it/s] 48%|████▊     | 176705/371472 [2:59:20<15:21:44,  3.52it/s] 48%|████▊     | 176706/371472 [2:59:20<15:09:31,  3.57it/s] 48%|████▊     | 176707/371472 [2:59:20<14:53:53,  3.63it/s] 48%|████▊     | 176708/371472 [2:59:21<15:06:49,  3.58it/s] 48%|████▊     | 176709/371472 [2:59:21<14:58:37,  3.61it/s] 48%|████▊     | 176710/371472 [2:59:21<14:25:35,  3.75it/s] 48%|████▊     | 176711/371472 [2:59:21<14:49:38,  3.65it/s] 48%|████▊     | 176712/371472 [2:59:22<14:40:42,  3.69it/s] 48%|████▊     | 176713/371472 [2:59:22<14:27:31,  3.74it/s] 48%|████▊     | 176714/371472 [2:59:22<14:20:29,  3.77it/s] 48%|████▊     | 176715/371472 [2:59:22<15:08:06,  3.57it/s] 48%|████▊     | 176716/371472 [2:59:23<15:07:16,  3.58it/s] 48%|████▊     | 176717/371472 [2:59:23<15:31:24,  3.48it/s] 48%|████▊     | 176718/371472 [2:59:23<16:29:51,  3.28it/s] 48%|████▊     | 176719/371472 [2:59:24<16:13:39,  3.33it/s] 48%|████▊     | 176720/371472 [2:59:24<15:49:21,  3.42it/s]                                                            {'loss': 3.0633, 'learning_rate': 5.7209808442328e-07, 'epoch': 7.61}
 48%|████▊     | 176720/371472 [2:59:24<15:49:21,  3.42it/s] 48%|████▊     | 176721/371472 [2:59:24<16:12:31,  3.34it/s] 48%|████▊     | 176722/371472 [2:59:25<15:42:24,  3.44it/s] 48%|████▊     | 176723/371472 [2:59:25<14:58:12,  3.61it/s] 48%|████▊     | 176724/371472 [2:59:25<15:43:28,  3.44it/s] 48%|████▊     | 176725/371472 [2:59:25<15:32:11,  3.48it/s] 48%|████▊     | 176726/371472 [2:59:26<15:00:45,  3.60it/s] 48%|████▊     | 176727/371472 [2:59:26<15:30:14,  3.49it/s] 48%|████▊     | 176728/371472 [2:59:26<15:06:00,  3.58it/s] 48%|████▊     | 176729/371472 [2:59:27<15:49:12,  3.42it/s] 48%|████▊     | 176730/371472 [2:59:27<15:49:44,  3.42it/s] 48%|████▊     | 176731/371472 [2:59:27<15:11:56,  3.56it/s] 48%|████▊     | 176732/371472 [2:59:27<14:46:41,  3.66it/s] 48%|████▊     | 176733/371472 [2:59:28<15:00:47,  3.60it/s] 48%|████▊     | 176734/371472 [2:59:28<17:33:40,  3.08it/s] 48%|████▊     | 176735/371472 [2:59:28<16:33:09,  3.27it/s] 48%|████▊     | 176736/371472 [2:59:29<16:22:14,  3.30it/s] 48%|████▊     | 176737/371472 [2:59:29<15:53:35,  3.40it/s] 48%|████▊     | 176738/371472 [2:59:29<15:43:32,  3.44it/s] 48%|████▊     | 176739/371472 [2:59:29<15:29:30,  3.49it/s] 48%|████▊     | 176740/371472 [2:59:30<15:08:24,  3.57it/s]                                                            {'loss': 2.9593, 'learning_rate': 5.72049602447801e-07, 'epoch': 7.61}
 48%|████▊     | 176740/371472 [2:59:30<15:08:24,  3.57it/s] 48%|████▊     | 176741/371472 [2:59:30<15:55:59,  3.39it/s] 48%|████▊     | 176742/371472 [2:59:30<16:39:01,  3.25it/s] 48%|████▊     | 176743/371472 [2:59:31<16:43:59,  3.23it/s] 48%|████▊     | 176744/371472 [2:59:31<16:19:34,  3.31it/s] 48%|████▊     | 176745/371472 [2:59:31<16:36:22,  3.26it/s] 48%|████▊     | 176746/371472 [2:59:32<16:25:27,  3.29it/s] 48%|████▊     | 176747/371472 [2:59:32<16:38:43,  3.25it/s] 48%|████▊     | 176748/371472 [2:59:32<15:58:27,  3.39it/s] 48%|████▊     | 176749/371472 [2:59:32<15:43:47,  3.44it/s] 48%|████▊     | 176750/371472 [2:59:33<15:35:10,  3.47it/s] 48%|████▊     | 176751/371472 [2:59:33<15:11:35,  3.56it/s] 48%|████▊     | 176752/371472 [2:59:33<14:44:37,  3.67it/s] 48%|████▊     | 176753/371472 [2:59:34<14:15:21,  3.79it/s] 48%|████▊     | 176754/371472 [2:59:34<14:47:21,  3.66it/s] 48%|████▊     | 176755/371472 [2:59:34<16:18:58,  3.31it/s] 48%|████▊     | 176756/371472 [2:59:35<17:14:22,  3.14it/s] 48%|████▊     | 176757/371472 [2:59:35<17:32:28,  3.08it/s] 48%|████▊     | 176758/371472 [2:59:35<16:55:17,  3.20it/s] 48%|████▊     | 176759/371472 [2:59:35<16:23:24,  3.30it/s] 48%|████▊     | 176760/371472 [2:59:36<16:00:47,  3.38it/s]                                                            {'loss': 3.0564, 'learning_rate': 5.720011204723221e-07, 'epoch': 7.61}
 48%|████▊     | 176760/371472 [2:59:36<16:00:47,  3.38it/s] 48%|████▊     | 176761/371472 [2:59:36<16:06:23,  3.36it/s] 48%|████▊     | 176762/371472 [2:59:36<15:28:38,  3.49it/s] 48%|████▊     | 176763/371472 [2:59:37<15:07:35,  3.58it/s] 48%|████▊     | 176764/371472 [2:59:37<16:01:05,  3.38it/s] 48%|████▊     | 176765/371472 [2:59:37<16:18:17,  3.32it/s] 48%|████▊     | 176766/371472 [2:59:37<15:47:21,  3.43it/s] 48%|████▊     | 176767/371472 [2:59:38<15:08:21,  3.57it/s] 48%|████▊     | 176768/371472 [2:59:38<17:00:14,  3.18it/s] 48%|████▊     | 176769/371472 [2:59:38<16:13:43,  3.33it/s] 48%|████▊     | 176770/371472 [2:59:39<15:51:19,  3.41it/s] 48%|████▊     | 176771/371472 [2:59:39<15:53:58,  3.40it/s] 48%|████▊     | 176772/371472 [2:59:39<18:47:58,  2.88it/s] 48%|████▊     | 176773/371472 [2:59:40<17:22:54,  3.11it/s] 48%|████▊     | 176774/371472 [2:59:40<17:20:38,  3.12it/s] 48%|████▊     | 176775/371472 [2:59:40<16:25:24,  3.29it/s] 48%|████▊     | 176776/371472 [2:59:41<16:42:48,  3.24it/s] 48%|████▊     | 176777/371472 [2:59:41<16:07:03,  3.36it/s] 48%|████▊     | 176778/371472 [2:59:41<15:34:29,  3.47it/s] 48%|████▊     | 176779/371472 [2:59:41<15:33:22,  3.48it/s] 48%|████▊     | 176780/371472 [2:59:42<16:45:48,  3.23it/s]                                                            {'loss': 3.1332, 'learning_rate': 5.719526384968433e-07, 'epoch': 7.61}
 48%|████▊     | 176780/371472 [2:59:42<16:45:48,  3.23it/s] 48%|████▊     | 176781/371472 [2:59:42<16:11:19,  3.34it/s] 48%|████▊     | 176782/371472 [2:59:42<16:01:59,  3.37it/s] 48%|████▊     | 176783/371472 [2:59:43<15:25:52,  3.50it/s] 48%|████▊     | 176784/371472 [2:59:43<16:34:10,  3.26it/s] 48%|████▊     | 176785/371472 [2:59:43<16:00:23,  3.38it/s] 48%|████▊     | 176786/371472 [2:59:44<15:37:01,  3.46it/s] 48%|████▊     | 176787/371472 [2:59:44<15:19:51,  3.53it/s] 48%|████▊     | 176788/371472 [2:59:44<15:27:18,  3.50it/s] 48%|████▊     | 176789/371472 [2:59:44<16:33:14,  3.27it/s] 48%|████▊     | 176790/371472 [2:59:45<15:57:00,  3.39it/s] 48%|████▊     | 176791/371472 [2:59:45<16:05:45,  3.36it/s] 48%|████▊     | 176792/371472 [2:59:45<15:30:33,  3.49it/s] 48%|████▊     | 176793/371472 [2:59:46<15:06:23,  3.58it/s] 48%|████▊     | 176794/371472 [2:59:46<14:52:34,  3.64it/s] 48%|████▊     | 176795/371472 [2:59:46<14:33:57,  3.71it/s] 48%|████▊     | 176796/371472 [2:59:46<14:45:58,  3.66it/s] 48%|████▊     | 176797/371472 [2:59:47<14:33:55,  3.71it/s] 48%|████▊     | 176798/371472 [2:59:47<15:34:48,  3.47it/s] 48%|████▊     | 176799/371472 [2:59:47<15:14:11,  3.55it/s] 48%|████▊     | 176800/371472 [2:59:48<16:06:45,  3.36it/s]                                                            {'loss': 3.0011, 'learning_rate': 5.719041565213644e-07, 'epoch': 7.62}
 48%|████▊     | 176800/371472 [2:59:48<16:06:45,  3.36it/s] 48%|████▊     | 176801/371472 [2:59:48<16:16:04,  3.32it/s] 48%|████▊     | 176802/371472 [2:59:48<16:07:43,  3.35it/s] 48%|████▊     | 176803/371472 [2:59:48<15:41:35,  3.45it/s] 48%|████▊     | 176804/371472 [2:59:49<15:36:00,  3.47it/s] 48%|████▊     | 176805/371472 [2:59:49<15:23:03,  3.51it/s] 48%|████▊     | 176806/371472 [2:59:49<16:45:23,  3.23it/s] 48%|████▊     | 176807/371472 [2:59:50<16:10:17,  3.34it/s] 48%|████▊     | 176808/371472 [2:59:50<15:29:57,  3.49it/s] 48%|████▊     | 176809/371472 [2:59:50<14:45:04,  3.67it/s] 48%|████▊     | 176810/371472 [2:59:50<15:56:10,  3.39it/s] 48%|████▊     | 176811/371472 [2:59:51<15:31:18,  3.48it/s] 48%|████▊     | 176812/371472 [2:59:51<15:03:38,  3.59it/s] 48%|████▊     | 176813/371472 [2:59:51<14:25:54,  3.75it/s] 48%|████▊     | 176814/371472 [2:59:52<17:00:00,  3.18it/s] 48%|████▊     | 176815/371472 [2:59:52<16:14:45,  3.33it/s] 48%|████▊     | 176816/371472 [2:59:52<15:26:42,  3.50it/s] 48%|████▊     | 176817/371472 [2:59:52<15:00:52,  3.60it/s] 48%|████▊     | 176818/371472 [2:59:53<15:44:54,  3.43it/s] 48%|████▊     | 176819/371472 [2:59:53<14:57:15,  3.62it/s] 48%|████▊     | 176820/371472 [2:59:53<14:42:14,  3.68it/s]                                                            {'loss': 3.0787, 'learning_rate': 5.718556745458854e-07, 'epoch': 7.62}
 48%|████▊     | 176820/371472 [2:59:53<14:42:14,  3.68it/s] 48%|████▊     | 176821/371472 [2:59:54<15:12:52,  3.55it/s] 48%|████▊     | 176822/371472 [2:59:54<14:43:50,  3.67it/s] 48%|████▊     | 176823/371472 [2:59:54<14:57:05,  3.62it/s] 48%|████▊     | 176824/371472 [2:59:54<14:42:22,  3.68it/s] 48%|████▊     | 176825/371472 [2:59:55<15:05:18,  3.58it/s] 48%|████▊     | 176826/371472 [2:59:55<14:59:34,  3.61it/s] 48%|████▊     | 176827/371472 [2:59:55<14:46:25,  3.66it/s] 48%|████▊     | 176828/371472 [2:59:56<15:49:15,  3.42it/s] 48%|████▊     | 176829/371472 [2:59:56<16:08:41,  3.35it/s] 48%|████▊     | 176830/371472 [2:59:56<15:42:32,  3.44it/s] 48%|████▊     | 176831/371472 [2:59:56<15:22:43,  3.52it/s] 48%|████▊     | 176832/371472 [2:59:57<16:23:18,  3.30it/s] 48%|████▊     | 176833/371472 [2:59:57<16:13:38,  3.33it/s] 48%|████▊     | 176834/371472 [2:59:57<16:36:48,  3.25it/s] 48%|████▊     | 176835/371472 [2:59:58<16:08:41,  3.35it/s] 48%|████▊     | 176836/371472 [2:59:58<15:15:04,  3.54it/s] 48%|████▊     | 176837/371472 [2:59:58<15:20:26,  3.52it/s] 48%|████▊     | 176838/371472 [2:59:58<15:57:40,  3.39it/s] 48%|████▊     | 176839/371472 [2:59:59<15:02:36,  3.59it/s] 48%|████▊     | 176840/371472 [2:59:59<14:56:53,  3.62it/s]                                                            {'loss': 3.0841, 'learning_rate': 5.718071925704066e-07, 'epoch': 7.62}
 48%|████▊     | 176840/371472 [2:59:59<14:56:53,  3.62it/s] 48%|████▊     | 176841/371472 [2:59:59<15:50:14,  3.41it/s] 48%|████▊     | 176842/371472 [3:00:00<15:02:23,  3.59it/s] 48%|████▊     | 176843/371472 [3:00:00<15:13:26,  3.55it/s] 48%|████▊     | 176844/371472 [3:00:00<15:00:56,  3.60it/s] 48%|████▊     | 176845/371472 [3:00:00<14:50:23,  3.64it/s] 48%|████▊     | 176846/371472 [3:00:01<14:22:50,  3.76it/s] 48%|████▊     | 176847/371472 [3:00:01<14:31:15,  3.72it/s] 48%|████▊     | 176848/371472 [3:00:01<14:44:45,  3.67it/s] 48%|████▊     | 176849/371472 [3:00:01<15:07:37,  3.57it/s] 48%|████▊     | 176850/371472 [3:00:02<15:11:02,  3.56it/s] 48%|████▊     | 176851/371472 [3:00:02<15:40:39,  3.45it/s] 48%|████▊     | 176852/371472 [3:00:02<14:59:23,  3.61it/s] 48%|████▊     | 176853/371472 [3:00:03<14:46:42,  3.66it/s] 48%|████▊     | 176854/371472 [3:00:03<14:52:20,  3.63it/s] 48%|████▊     | 176855/371472 [3:00:03<15:31:51,  3.48it/s] 48%|████▊     | 176856/371472 [3:00:04<16:38:34,  3.25it/s] 48%|████▊     | 176857/371472 [3:00:04<16:28:11,  3.28it/s] 48%|████▊     | 176858/371472 [3:00:04<15:43:39,  3.44it/s] 48%|████▊     | 176859/371472 [3:00:04<15:41:36,  3.44it/s] 48%|████▊     | 176860/371472 [3:00:05<15:26:44,  3.50it/s]                                                            {'loss': 3.17, 'learning_rate': 5.717587105949277e-07, 'epoch': 7.62}
 48%|████▊     | 176860/371472 [3:00:05<15:26:44,  3.50it/s] 48%|████▊     | 176861/371472 [3:00:05<15:02:04,  3.60it/s] 48%|████▊     | 176862/371472 [3:00:05<16:09:32,  3.35it/s] 48%|████▊     | 176863/371472 [3:00:06<15:35:22,  3.47it/s] 48%|████▊     | 176864/371472 [3:00:06<14:50:31,  3.64it/s] 48%|████▊     | 176865/371472 [3:00:06<16:18:44,  3.31it/s] 48%|████▊     | 176866/371472 [3:00:06<15:29:09,  3.49it/s] 48%|████▊     | 176867/371472 [3:00:07<15:14:17,  3.55it/s] 48%|████▊     | 176868/371472 [3:00:07<15:23:09,  3.51it/s] 48%|████▊     | 176869/371472 [3:00:07<14:58:42,  3.61it/s] 48%|████▊     | 176870/371472 [3:00:07<14:48:56,  3.65it/s] 48%|████▊     | 176871/371472 [3:00:08<14:51:42,  3.64it/s] 48%|████▊     | 176872/371472 [3:00:08<14:38:40,  3.69it/s] 48%|████▊     | 176873/371472 [3:00:08<14:32:55,  3.72it/s] 48%|████▊     | 176874/371472 [3:00:09<14:17:10,  3.78it/s] 48%|████▊     | 176875/371472 [3:00:09<14:27:21,  3.74it/s] 48%|████▊     | 176876/371472 [3:00:09<14:08:40,  3.82it/s] 48%|████▊     | 176877/371472 [3:00:09<14:28:20,  3.73it/s] 48%|████▊     | 176878/371472 [3:00:10<14:25:44,  3.75it/s] 48%|████▊     | 176879/371472 [3:00:10<15:00:43,  3.60it/s] 48%|████▊     | 176880/371472 [3:00:10<15:19:35,  3.53it/s]                                                            {'loss': 3.1645, 'learning_rate': 5.717102286194488e-07, 'epoch': 7.62}
 48%|████▊     | 176880/371472 [3:00:10<15:19:35,  3.53it/s] 48%|████▊     | 176881/371472 [3:00:10<14:58:08,  3.61it/s] 48%|████▊     | 176882/371472 [3:00:11<14:40:52,  3.68it/s] 48%|████▊     | 176883/371472 [3:00:11<14:52:48,  3.63it/s] 48%|████▊     | 176884/371472 [3:00:11<14:30:40,  3.72it/s] 48%|████▊     | 176885/371472 [3:00:12<15:26:49,  3.50it/s] 48%|████▊     | 176886/371472 [3:00:12<15:32:19,  3.48it/s] 48%|████▊     | 176887/371472 [3:00:12<15:43:34,  3.44it/s] 48%|████▊     | 176888/371472 [3:00:12<15:05:24,  3.58it/s] 48%|████▊     | 176889/371472 [3:00:13<14:42:56,  3.67it/s] 48%|████▊     | 176890/371472 [3:00:13<14:43:58,  3.67it/s] 48%|████▊     | 176891/371472 [3:00:13<14:45:43,  3.66it/s] 48%|████▊     | 176892/371472 [3:00:13<14:39:02,  3.69it/s] 48%|████▊     | 176893/371472 [3:00:14<14:29:43,  3.73it/s] 48%|████▊     | 176894/371472 [3:00:14<14:04:15,  3.84it/s] 48%|████▊     | 176895/371472 [3:00:14<14:04:14,  3.84it/s] 48%|████▊     | 176896/371472 [3:00:15<14:58:27,  3.61it/s] 48%|████▊     | 176897/371472 [3:00:15<15:39:28,  3.45it/s] 48%|████▊     | 176898/371472 [3:00:15<15:14:52,  3.54it/s] 48%|████▊     | 176899/371472 [3:00:15<15:13:44,  3.55it/s] 48%|████▊     | 176900/371472 [3:00:16<15:08:45,  3.57it/s]                                                            {'loss': 3.2458, 'learning_rate': 5.716617466439698e-07, 'epoch': 7.62}
 48%|████▊     | 176900/371472 [3:00:16<15:08:45,  3.57it/s] 48%|████▊     | 176901/371472 [3:00:16<14:38:43,  3.69it/s] 48%|████▊     | 176902/371472 [3:00:16<14:15:21,  3.79it/s] 48%|████▊     | 176903/371472 [3:00:16<14:38:53,  3.69it/s] 48%|████▊     | 176904/371472 [3:00:17<15:41:59,  3.44it/s] 48%|████▊     | 176905/371472 [3:00:17<15:35:49,  3.47it/s] 48%|████▊     | 176906/371472 [3:00:17<15:43:48,  3.44it/s] 48%|████▊     | 176907/371472 [3:00:18<16:33:34,  3.26it/s] 48%|████▊     | 176908/371472 [3:00:18<17:03:01,  3.17it/s] 48%|████▊     | 176909/371472 [3:00:18<16:06:01,  3.36it/s] 48%|████▊     | 176910/371472 [3:00:19<15:34:41,  3.47it/s] 48%|████▊     | 176911/371472 [3:00:19<15:50:03,  3.41it/s] 48%|████▊     | 176912/371472 [3:00:19<15:31:16,  3.48it/s] 48%|████▊     | 176913/371472 [3:00:19<15:33:42,  3.47it/s] 48%|████▊     | 176914/371472 [3:00:20<15:23:38,  3.51it/s] 48%|████▊     | 176915/371472 [3:00:20<15:25:09,  3.50it/s] 48%|████▊     | 176916/371472 [3:00:20<14:55:28,  3.62it/s] 48%|████▊     | 176917/371472 [3:00:21<14:50:02,  3.64it/s] 48%|████▊     | 176918/371472 [3:00:21<14:42:21,  3.67it/s] 48%|████▊     | 176919/371472 [3:00:21<14:33:22,  3.71it/s] 48%|████▊     | 176920/371472 [3:00:21<14:58:06,  3.61it/s]                                                            {'loss': 3.043, 'learning_rate': 5.71613264668491e-07, 'epoch': 7.62}
 48%|████▊     | 176920/371472 [3:00:21<14:58:06,  3.61it/s] 48%|████▊     | 176921/371472 [3:00:22<15:08:46,  3.57it/s] 48%|████▊     | 176922/371472 [3:00:22<15:36:06,  3.46it/s] 48%|████▊     | 176923/371472 [3:00:22<15:53:38,  3.40it/s] 48%|████▊     | 176924/371472 [3:00:23<15:20:18,  3.52it/s] 48%|████▊     | 176925/371472 [3:00:23<14:45:46,  3.66it/s] 48%|████▊     | 176926/371472 [3:00:23<14:48:05,  3.65it/s] 48%|████▊     | 176927/371472 [3:00:23<16:01:00,  3.37it/s] 48%|████▊     | 176928/371472 [3:00:24<15:58:27,  3.38it/s] 48%|████▊     | 176929/371472 [3:00:24<15:27:10,  3.50it/s] 48%|████▊     | 176930/371472 [3:00:24<14:56:37,  3.62it/s] 48%|████▊     | 176931/371472 [3:00:25<14:42:36,  3.67it/s] 48%|████▊     | 176932/371472 [3:00:25<15:21:59,  3.52it/s] 48%|████▊     | 176933/371472 [3:00:25<15:26:23,  3.50it/s] 48%|████▊     | 176934/371472 [3:00:25<15:19:57,  3.52it/s] 48%|████▊     | 176935/371472 [3:00:26<16:30:48,  3.27it/s] 48%|████▊     | 176936/371472 [3:00:26<16:10:05,  3.34it/s] 48%|████▊     | 176937/371472 [3:00:26<15:33:03,  3.47it/s] 48%|████▊     | 176938/371472 [3:00:27<15:30:29,  3.48it/s] 48%|████▊     | 176939/371472 [3:00:27<15:27:06,  3.50it/s] 48%|████▊     | 176940/371472 [3:00:27<15:39:53,  3.45it/s]                                                            {'loss': 3.0591, 'learning_rate': 5.715647826930122e-07, 'epoch': 7.62}
 48%|████▊     | 176940/371472 [3:00:27<15:39:53,  3.45it/s] 48%|████▊     | 176941/371472 [3:00:27<15:36:45,  3.46it/s] 48%|████▊     | 176942/371472 [3:00:28<15:42:11,  3.44it/s] 48%|████▊     | 176943/371472 [3:00:28<16:13:12,  3.33it/s] 48%|████▊     | 176944/371472 [3:00:28<15:47:06,  3.42it/s] 48%|████▊     | 176945/371472 [3:00:29<16:04:18,  3.36it/s] 48%|████▊     | 176946/371472 [3:00:29<16:14:27,  3.33it/s] 48%|████▊     | 176947/371472 [3:00:29<15:17:40,  3.53it/s] 48%|████▊     | 176948/371472 [3:00:29<14:55:26,  3.62it/s] 48%|████▊     | 176949/371472 [3:00:30<14:46:53,  3.66it/s] 48%|████▊     | 176950/371472 [3:00:30<15:20:53,  3.52it/s] 48%|████▊     | 176951/371472 [3:00:30<14:46:33,  3.66it/s] 48%|████▊     | 176952/371472 [3:00:31<14:23:13,  3.76it/s] 48%|████▊     | 176953/371472 [3:00:31<15:35:18,  3.47it/s] 48%|████▊     | 176954/371472 [3:00:31<15:15:08,  3.54it/s] 48%|████▊     | 176955/371472 [3:00:31<15:28:57,  3.49it/s] 48%|████▊     | 176956/371472 [3:00:32<15:21:13,  3.52it/s] 48%|████▊     | 176957/371472 [3:00:32<14:52:50,  3.63it/s] 48%|████▊     | 176958/371472 [3:00:32<14:51:20,  3.64it/s] 48%|████▊     | 176959/371472 [3:00:33<14:46:46,  3.66it/s] 48%|████▊     | 176960/371472 [3:00:33<14:44:03,  3.67it/s]                                                            {'loss': 2.9672, 'learning_rate': 5.715163007175333e-07, 'epoch': 7.62}
 48%|████▊     | 176960/371472 [3:00:33<14:44:03,  3.67it/s] 48%|████▊     | 176961/371472 [3:00:33<14:39:06,  3.69it/s] 48%|████▊     | 176962/371472 [3:00:33<14:55:09,  3.62it/s] 48%|████▊     | 176963/371472 [3:00:34<15:06:35,  3.58it/s] 48%|████▊     | 176964/371472 [3:00:34<14:49:31,  3.64it/s] 48%|████▊     | 176965/371472 [3:00:34<14:57:40,  3.61it/s] 48%|████▊     | 176966/371472 [3:00:34<15:26:37,  3.50it/s] 48%|████▊     | 176967/371472 [3:00:35<14:54:11,  3.63it/s] 48%|████▊     | 176968/371472 [3:00:35<15:23:38,  3.51it/s] 48%|████▊     | 176969/371472 [3:00:35<15:03:29,  3.59it/s] 48%|████▊     | 176970/371472 [3:00:36<14:45:27,  3.66it/s] 48%|████▊     | 176971/371472 [3:00:36<14:44:47,  3.66it/s] 48%|████▊     | 176972/371472 [3:00:36<14:28:30,  3.73it/s] 48%|████▊     | 176973/371472 [3:00:36<14:37:44,  3.69it/s] 48%|████▊     | 176974/371472 [3:00:37<14:55:18,  3.62it/s] 48%|████▊     | 176975/371472 [3:00:37<15:10:48,  3.56it/s] 48%|████▊     | 176976/371472 [3:00:37<14:49:00,  3.65it/s] 48%|████▊     | 176977/371472 [3:00:38<15:36:29,  3.46it/s] 48%|████▊     | 176978/371472 [3:00:38<16:37:24,  3.25it/s] 48%|████▊     | 176979/371472 [3:00:38<16:23:43,  3.30it/s] 48%|████▊     | 176980/371472 [3:00:38<15:53:17,  3.40it/s]                                                            {'loss': 2.9682, 'learning_rate': 5.714678187420543e-07, 'epoch': 7.62}
 48%|████▊     | 176980/371472 [3:00:38<15:53:17,  3.40it/s] 48%|████▊     | 176981/371472 [3:00:39<16:50:50,  3.21it/s] 48%|████▊     | 176982/371472 [3:00:39<16:08:54,  3.35it/s] 48%|████▊     | 176983/371472 [3:00:39<15:48:10,  3.42it/s] 48%|████▊     | 176984/371472 [3:00:40<15:13:02,  3.55it/s] 48%|████▊     | 176985/371472 [3:00:40<15:01:34,  3.60it/s] 48%|████▊     | 176986/371472 [3:00:40<15:10:47,  3.56it/s] 48%|████▊     | 176987/371472 [3:00:40<15:07:44,  3.57it/s] 48%|████▊     | 176988/371472 [3:00:41<15:23:47,  3.51it/s] 48%|████▊     | 176989/371472 [3:00:41<16:19:30,  3.31it/s] 48%|████▊     | 176990/371472 [3:00:41<16:32:24,  3.27it/s] 48%|████▊     | 176991/371472 [3:00:42<16:22:13,  3.30it/s] 48%|████▊     | 176992/371472 [3:00:42<16:14:34,  3.33it/s] 48%|████▊     | 176993/371472 [3:00:42<15:45:05,  3.43it/s] 48%|████▊     | 176994/371472 [3:00:43<15:34:14,  3.47it/s] 48%|████▊     | 176995/371472 [3:00:43<16:07:57,  3.35it/s] 48%|████▊     | 176996/371472 [3:00:43<17:11:29,  3.14it/s] 48%|████▊     | 176997/371472 [3:00:44<16:42:01,  3.23it/s] 48%|████▊     | 176998/371472 [3:00:44<19:28:06,  2.77it/s] 48%|████▊     | 176999/371472 [3:00:44<17:46:43,  3.04it/s] 48%|████▊     | 177000/371472 [3:00:45<16:49:59,  3.21it/s]                                                            {'loss': 2.903, 'learning_rate': 5.714193367665754e-07, 'epoch': 7.62}
 48%|████▊     | 177000/371472 [3:00:45<16:49:59,  3.21it/s] 48%|████▊     | 177001/371472 [3:00:45<16:07:01,  3.35it/s] 48%|████▊     | 177002/371472 [3:00:45<15:32:04,  3.48it/s] 48%|████▊     | 177003/371472 [3:00:45<15:17:29,  3.53it/s] 48%|████▊     | 177004/371472 [3:00:46<15:53:00,  3.40it/s] 48%|████▊     | 177005/371472 [3:00:46<15:23:48,  3.51it/s] 48%|████▊     | 177006/371472 [3:00:46<14:59:07,  3.60it/s] 48%|████▊     | 177007/371472 [3:00:46<14:52:11,  3.63it/s] 48%|████▊     | 177008/371472 [3:00:47<15:43:54,  3.43it/s] 48%|████▊     | 177009/371472 [3:00:47<15:05:38,  3.58it/s] 48%|████▊     | 177010/371472 [3:00:47<14:59:44,  3.60it/s] 48%|████▊     | 177011/371472 [3:00:48<15:07:44,  3.57it/s] 48%|████▊     | 177012/371472 [3:00:48<15:02:38,  3.59it/s] 48%|████▊     | 177013/371472 [3:00:48<15:03:51,  3.59it/s] 48%|████▊     | 177014/371472 [3:00:48<14:36:24,  3.70it/s] 48%|████▊     | 177015/371472 [3:00:49<14:53:52,  3.63it/s] 48%|████▊     | 177016/371472 [3:00:49<15:17:48,  3.53it/s] 48%|████▊     | 177017/371472 [3:00:49<15:27:20,  3.49it/s] 48%|████▊     | 177018/371472 [3:00:50<15:04:58,  3.58it/s] 48%|████▊     | 177019/371472 [3:00:50<14:48:57,  3.65it/s] 48%|████▊     | 177020/371472 [3:00:50<14:47:35,  3.65it/s]                                                            {'loss': 3.0478, 'learning_rate': 5.713708547910966e-07, 'epoch': 7.62}
 48%|████▊     | 177020/371472 [3:00:50<14:47:35,  3.65it/s] 48%|████▊     | 177021/371472 [3:00:50<14:31:03,  3.72it/s] 48%|████▊     | 177022/371472 [3:00:51<15:17:18,  3.53it/s] 48%|████▊     | 177023/371472 [3:00:51<16:01:35,  3.37it/s] 48%|████▊     | 177024/371472 [3:00:51<15:30:50,  3.48it/s] 48%|████▊     | 177025/371472 [3:00:51<15:22:06,  3.51it/s] 48%|████▊     | 177026/371472 [3:00:52<14:57:59,  3.61it/s] 48%|████▊     | 177027/371472 [3:00:52<15:06:59,  3.57it/s] 48%|████▊     | 177028/371472 [3:00:52<14:40:20,  3.68it/s] 48%|████▊     | 177029/371472 [3:00:53<14:32:32,  3.71it/s] 48%|████▊     | 177030/371472 [3:00:53<14:33:31,  3.71it/s] 48%|████▊     | 177031/371472 [3:00:53<14:26:44,  3.74it/s] 48%|████▊     | 177032/371472 [3:00:53<15:37:05,  3.46it/s] 48%|████▊     | 177033/371472 [3:00:54<15:36:57,  3.46it/s] 48%|████▊     | 177034/371472 [3:00:54<15:34:22,  3.47it/s] 48%|████▊     | 177035/371472 [3:00:54<16:35:19,  3.26it/s] 48%|████▊     | 177036/371472 [3:00:55<16:22:05,  3.30it/s] 48%|████▊     | 177037/371472 [3:00:55<15:20:13,  3.52it/s] 48%|████▊     | 177038/371472 [3:00:55<14:52:52,  3.63it/s] 48%|████▊     | 177039/371472 [3:00:55<14:31:35,  3.72it/s] 48%|████▊     | 177040/371472 [3:00:56<14:33:23,  3.71it/s]                                                            {'loss': 3.0482, 'learning_rate': 5.713223728156176e-07, 'epoch': 7.63}
 48%|████▊     | 177040/371472 [3:00:56<14:33:23,  3.71it/s] 48%|████▊     | 177041/371472 [3:00:56<15:32:59,  3.47it/s] 48%|████▊     | 177042/371472 [3:00:56<15:41:06,  3.44it/s] 48%|████▊     | 177043/371472 [3:00:57<14:56:37,  3.61it/s] 48%|████▊     | 177044/371472 [3:00:57<15:32:10,  3.48it/s] 48%|████▊     | 177045/371472 [3:00:57<16:11:41,  3.33it/s] 48%|████▊     | 177046/371472 [3:00:58<19:20:47,  2.79it/s] 48%|████▊     | 177047/371472 [3:00:58<18:07:22,  2.98it/s] 48%|████▊     | 177048/371472 [3:00:58<16:52:38,  3.20it/s] 48%|████▊     | 177049/371472 [3:00:58<16:20:48,  3.30it/s] 48%|████▊     | 177050/371472 [3:00:59<15:31:45,  3.48it/s] 48%|████▊     | 177051/371472 [3:00:59<15:35:58,  3.46it/s] 48%|████▊     | 177052/371472 [3:00:59<16:16:04,  3.32it/s] 48%|████▊     | 177053/371472 [3:01:00<16:25:48,  3.29it/s] 48%|████▊     | 177054/371472 [3:01:00<15:57:15,  3.38it/s] 48%|████▊     | 177055/371472 [3:01:00<15:21:00,  3.52it/s] 48%|████▊     | 177056/371472 [3:01:01<15:53:14,  3.40it/s] 48%|████▊     | 177057/371472 [3:01:01<15:47:50,  3.42it/s] 48%|████▊     | 177058/371472 [3:01:01<15:57:05,  3.39it/s] 48%|████▊     | 177059/371472 [3:01:02<17:20:58,  3.11it/s] 48%|████▊     | 177060/371472 [3:01:02<16:37:27,  3.25it/s]                                                            {'loss': 3.1303, 'learning_rate': 5.712738908401386e-07, 'epoch': 7.63}
 48%|████▊     | 177060/371472 [3:01:02<16:37:27,  3.25it/s] 48%|████▊     | 177061/371472 [3:01:02<16:08:34,  3.35it/s] 48%|████▊     | 177062/371472 [3:01:02<15:44:41,  3.43it/s] 48%|████▊     | 177063/371472 [3:01:03<15:43:36,  3.43it/s] 48%|████▊     | 177064/371472 [3:01:03<15:15:57,  3.54it/s] 48%|████▊     | 177065/371472 [3:01:03<15:22:27,  3.51it/s] 48%|████▊     | 177066/371472 [3:01:03<14:59:06,  3.60it/s] 48%|████▊     | 177067/371472 [3:01:04<14:40:48,  3.68it/s] 48%|████▊     | 177068/371472 [3:01:04<14:58:06,  3.61it/s] 48%|████▊     | 177069/371472 [3:01:04<14:51:50,  3.63it/s] 48%|████▊     | 177070/371472 [3:01:05<14:46:36,  3.65it/s] 48%|████▊     | 177071/371472 [3:01:05<15:41:51,  3.44it/s] 48%|████▊     | 177072/371472 [3:01:05<15:14:07,  3.54it/s] 48%|████▊     | 177073/371472 [3:01:05<15:41:04,  3.44it/s] 48%|████▊     | 177074/371472 [3:01:06<15:54:40,  3.39it/s] 48%|████▊     | 177075/371472 [3:01:06<16:29:31,  3.27it/s] 48%|████▊     | 177076/371472 [3:01:06<15:51:59,  3.40it/s] 48%|████▊     | 177077/371472 [3:01:07<15:58:37,  3.38it/s] 48%|████▊     | 177078/371472 [3:01:07<15:44:54,  3.43it/s] 48%|████▊     | 177079/371472 [3:01:07<16:10:38,  3.34it/s] 48%|████▊     | 177080/371472 [3:01:08<15:51:46,  3.40it/s]                                                            {'loss': 3.178, 'learning_rate': 5.712254088646599e-07, 'epoch': 7.63}
 48%|████▊     | 177080/371472 [3:01:08<15:51:46,  3.40it/s] 48%|████▊     | 177081/371472 [3:01:08<15:52:13,  3.40it/s] 48%|████▊     | 177082/371472 [3:01:08<15:31:42,  3.48it/s] 48%|████▊     | 177083/371472 [3:01:08<15:16:08,  3.54it/s] 48%|████▊     | 177084/371472 [3:01:09<15:08:45,  3.57it/s] 48%|████▊     | 177085/371472 [3:01:09<14:55:13,  3.62it/s] 48%|████▊     | 177086/371472 [3:01:09<15:14:45,  3.54it/s] 48%|████▊     | 177087/371472 [3:01:09<14:44:10,  3.66it/s] 48%|████▊     | 177088/371472 [3:01:10<15:08:14,  3.57it/s] 48%|████▊     | 177089/371472 [3:01:10<14:47:42,  3.65it/s] 48%|████▊     | 177090/371472 [3:01:10<14:33:43,  3.71it/s] 48%|████▊     | 177091/371472 [3:01:11<14:14:11,  3.79it/s] 48%|████▊     | 177092/371472 [3:01:11<14:23:39,  3.75it/s] 48%|████▊     | 177093/371472 [3:01:11<14:07:47,  3.82it/s] 48%|████▊     | 177094/371472 [3:01:11<14:31:22,  3.72it/s] 48%|████▊     | 177095/371472 [3:01:12<15:31:23,  3.48it/s] 48%|████▊     | 177096/371472 [3:01:12<15:17:00,  3.53it/s] 48%|████▊     | 177097/371472 [3:01:12<14:55:18,  3.62it/s] 48%|████▊     | 177098/371472 [3:01:12<14:46:20,  3.65it/s] 48%|████▊     | 177099/371472 [3:01:13<14:19:38,  3.77it/s] 48%|████▊     | 177100/371472 [3:01:13<14:22:31,  3.76it/s]                                                            {'loss': 3.1047, 'learning_rate': 5.71176926889181e-07, 'epoch': 7.63}
 48%|████▊     | 177100/371472 [3:01:13<14:22:31,  3.76it/s] 48%|████▊     | 177101/371472 [3:01:13<14:35:52,  3.70it/s] 48%|████▊     | 177102/371472 [3:01:14<14:55:06,  3.62it/s] 48%|████▊     | 177103/371472 [3:01:14<14:33:18,  3.71it/s] 48%|████▊     | 177104/371472 [3:01:14<14:23:52,  3.75it/s] 48%|████▊     | 177105/371472 [3:01:14<14:52:49,  3.63it/s] 48%|████▊     | 177106/371472 [3:01:15<15:01:30,  3.59it/s] 48%|████▊     | 177107/371472 [3:01:15<15:04:00,  3.58it/s] 48%|████▊     | 177108/371472 [3:01:15<14:56:39,  3.61it/s] 48%|████▊     | 177109/371472 [3:01:15<15:01:06,  3.59it/s] 48%|████▊     | 177110/371472 [3:01:16<14:59:14,  3.60it/s] 48%|████▊     | 177111/371472 [3:01:16<14:38:24,  3.69it/s] 48%|████▊     | 177112/371472 [3:01:16<14:42:44,  3.67it/s] 48%|████▊     | 177113/371472 [3:01:17<14:20:20,  3.77it/s] 48%|████▊     | 177114/371472 [3:01:17<14:37:03,  3.69it/s] 48%|████▊     | 177115/371472 [3:01:17<14:30:09,  3.72it/s] 48%|████▊     | 177116/371472 [3:01:17<14:12:23,  3.80it/s] 48%|████▊     | 177117/371472 [3:01:18<14:22:05,  3.76it/s] 48%|████▊     | 177118/371472 [3:01:18<14:50:14,  3.64it/s] 48%|████▊     | 177119/371472 [3:01:18<14:59:48,  3.60it/s] 48%|████▊     | 177120/371472 [3:01:18<14:51:44,  3.63it/s]                                                            {'loss': 3.1915, 'learning_rate': 5.71128444913702e-07, 'epoch': 7.63}
 48%|████▊     | 177120/371472 [3:01:18<14:51:44,  3.63it/s] 48%|████▊     | 177121/371472 [3:01:19<15:48:08,  3.42it/s] 48%|████▊     | 177122/371472 [3:01:19<15:53:37,  3.40it/s] 48%|████▊     | 177123/371472 [3:01:19<15:30:54,  3.48it/s] 48%|████▊     | 177124/371472 [3:01:20<15:23:47,  3.51it/s] 48%|████▊     | 177125/371472 [3:01:20<16:26:13,  3.28it/s] 48%|████▊     | 177126/371472 [3:01:20<16:02:11,  3.37it/s] 48%|████▊     | 177127/371472 [3:01:21<17:08:28,  3.15it/s] 48%|████▊     | 177128/371472 [3:01:21<16:35:22,  3.25it/s] 48%|████▊     | 177129/371472 [3:01:21<15:57:19,  3.38it/s] 48%|████▊     | 177130/371472 [3:01:21<15:29:59,  3.48it/s] 48%|████▊     | 177131/371472 [3:01:22<15:18:59,  3.52it/s] 48%|████▊     | 177132/371472 [3:01:22<15:06:27,  3.57it/s] 48%|████▊     | 177133/371472 [3:01:22<14:38:21,  3.69it/s] 48%|████▊     | 177134/371472 [3:01:22<14:07:12,  3.82it/s] 48%|████▊     | 177135/371472 [3:01:23<14:06:14,  3.83it/s] 48%|████▊     | 177136/371472 [3:01:23<14:36:21,  3.70it/s] 48%|████▊     | 177137/371472 [3:01:23<14:37:41,  3.69it/s] 48%|████▊     | 177138/371472 [3:01:24<16:03:19,  3.36it/s] 48%|████▊     | 177139/371472 [3:01:24<16:00:52,  3.37it/s] 48%|████▊     | 177140/371472 [3:01:24<15:45:06,  3.43it/s]                                                            {'loss': 3.0791, 'learning_rate': 5.710799629382231e-07, 'epoch': 7.63}
 48%|████▊     | 177140/371472 [3:01:24<15:45:06,  3.43it/s] 48%|████▊     | 177141/371472 [3:01:25<17:14:02,  3.13it/s] 48%|████▊     | 177142/371472 [3:01:25<16:22:30,  3.30it/s] 48%|████▊     | 177143/371472 [3:01:25<16:26:56,  3.28it/s] 48%|████▊     | 177144/371472 [3:01:25<15:56:07,  3.39it/s] 48%|████▊     | 177145/371472 [3:01:26<15:31:40,  3.48it/s] 48%|████▊     | 177146/371472 [3:01:26<16:50:10,  3.21it/s] 48%|████▊     | 177147/371472 [3:01:26<17:12:32,  3.14it/s] 48%|████▊     | 177148/371472 [3:01:27<16:50:10,  3.21it/s] 48%|████▊     | 177149/371472 [3:01:27<16:17:39,  3.31it/s] 48%|████▊     | 177150/371472 [3:01:27<16:14:38,  3.32it/s] 48%|████▊     | 177151/371472 [3:01:28<15:40:18,  3.44it/s] 48%|████▊     | 177152/371472 [3:01:28<15:41:40,  3.44it/s] 48%|████▊     | 177153/371472 [3:01:28<15:25:06,  3.50it/s] 48%|████▊     | 177154/371472 [3:01:28<15:01:00,  3.59it/s] 48%|████▊     | 177155/371472 [3:01:29<15:12:45,  3.55it/s] 48%|████▊     | 177156/371472 [3:01:29<15:20:41,  3.52it/s] 48%|████▊     | 177157/371472 [3:01:29<15:36:20,  3.46it/s] 48%|████▊     | 177158/371472 [3:01:30<14:52:48,  3.63it/s] 48%|████▊     | 177159/371472 [3:01:30<15:17:55,  3.53it/s] 48%|████▊     | 177160/371472 [3:01:30<15:21:32,  3.51it/s]                                                            {'loss': 2.8996, 'learning_rate': 5.710314809627443e-07, 'epoch': 7.63}
 48%|████▊     | 177160/371472 [3:01:30<15:21:32,  3.51it/s] 48%|████▊     | 177161/371472 [3:01:30<16:07:28,  3.35it/s] 48%|████▊     | 177162/371472 [3:01:31<15:19:45,  3.52it/s] 48%|████▊     | 177163/371472 [3:01:31<15:46:35,  3.42it/s] 48%|████▊     | 177164/371472 [3:01:31<15:19:49,  3.52it/s] 48%|████▊     | 177165/371472 [3:01:32<15:24:30,  3.50it/s] 48%|████▊     | 177166/371472 [3:01:32<17:22:28,  3.11it/s] 48%|████▊     | 177167/371472 [3:01:32<17:40:46,  3.05it/s] 48%|████▊     | 177168/371472 [3:01:33<16:39:54,  3.24it/s] 48%|████▊     | 177169/371472 [3:01:33<15:51:12,  3.40it/s] 48%|████▊     | 177170/371472 [3:01:33<15:39:32,  3.45it/s] 48%|████▊     | 177171/371472 [3:01:33<15:55:26,  3.39it/s] 48%|████▊     | 177172/371472 [3:01:34<16:46:33,  3.22it/s] 48%|████▊     | 177173/371472 [3:01:34<16:35:39,  3.25it/s] 48%|████▊     | 177174/371472 [3:01:34<16:15:59,  3.32it/s] 48%|████▊     | 177175/371472 [3:01:35<15:46:28,  3.42it/s] 48%|████▊     | 177176/371472 [3:01:35<15:49:24,  3.41it/s] 48%|████▊     | 177177/371472 [3:01:35<15:27:21,  3.49it/s] 48%|████▊     | 177178/371472 [3:01:35<15:13:03,  3.55it/s] 48%|████▊     | 177179/371472 [3:01:36<14:52:25,  3.63it/s] 48%|████▊     | 177180/371472 [3:01:36<16:03:15,  3.36it/s]                                                            {'loss': 3.0509, 'learning_rate': 5.709829989872654e-07, 'epoch': 7.63}
 48%|████▊     | 177180/371472 [3:01:36<16:03:15,  3.36it/s] 48%|████▊     | 177181/371472 [3:01:36<15:19:28,  3.52it/s] 48%|████▊     | 177182/371472 [3:01:37<15:29:26,  3.48it/s] 48%|████▊     | 177183/371472 [3:01:37<15:53:03,  3.40it/s] 48%|████▊     | 177184/371472 [3:01:37<15:30:56,  3.48it/s] 48%|████▊     | 177185/371472 [3:01:38<15:43:26,  3.43it/s] 48%|████▊     | 177186/371472 [3:01:38<15:11:03,  3.55it/s] 48%|████▊     | 177187/371472 [3:01:38<14:54:05,  3.62it/s] 48%|████▊     | 177188/371472 [3:01:38<14:43:36,  3.66it/s] 48%|████▊     | 177189/371472 [3:01:39<14:09:42,  3.81it/s] 48%|████▊     | 177190/371472 [3:01:39<14:31:40,  3.71it/s] 48%|████▊     | 177191/371472 [3:01:39<14:31:35,  3.72it/s] 48%|████▊     | 177192/371472 [3:01:39<14:09:05,  3.81it/s] 48%|████▊     | 177193/371472 [3:01:40<15:22:15,  3.51it/s] 48%|████▊     | 177194/371472 [3:01:40<15:13:50,  3.54it/s] 48%|████▊     | 177195/371472 [3:01:40<15:20:09,  3.52it/s] 48%|████▊     | 177196/371472 [3:01:41<15:20:36,  3.52it/s] 48%|████▊     | 177197/371472 [3:01:41<16:02:37,  3.36it/s] 48%|████▊     | 177198/371472 [3:01:41<16:15:15,  3.32it/s] 48%|████▊     | 177199/371472 [3:01:42<17:31:33,  3.08it/s] 48%|████▊     | 177200/371472 [3:01:42<16:31:16,  3.27it/s]                                                            {'loss': 3.1199, 'learning_rate': 5.709345170117864e-07, 'epoch': 7.63}
 48%|████▊     | 177200/371472 [3:01:42<16:31:16,  3.27it/s] 48%|████▊     | 177201/371472 [3:01:42<16:20:43,  3.30it/s] 48%|████▊     | 177202/371472 [3:01:42<16:35:02,  3.25it/s] 48%|████▊     | 177203/371472 [3:01:43<17:13:38,  3.13it/s] 48%|████▊     | 177204/371472 [3:01:43<16:42:09,  3.23it/s] 48%|████▊     | 177205/371472 [3:01:43<16:57:22,  3.18it/s] 48%|████▊     | 177206/371472 [3:01:44<16:08:40,  3.34it/s] 48%|████▊     | 177207/371472 [3:01:44<17:56:39,  3.01it/s] 48%|████▊     | 177208/371472 [3:01:44<16:25:08,  3.29it/s] 48%|████▊     | 177209/371472 [3:01:45<15:44:09,  3.43it/s] 48%|████▊     | 177210/371472 [3:01:45<15:38:21,  3.45it/s] 48%|████▊     | 177211/371472 [3:01:45<15:11:00,  3.55it/s] 48%|████▊     | 177212/371472 [3:01:45<14:40:17,  3.68it/s] 48%|████▊     | 177213/371472 [3:01:46<14:23:09,  3.75it/s] 48%|████▊     | 177214/371472 [3:01:46<14:44:58,  3.66it/s] 48%|████▊     | 177215/371472 [3:01:46<14:52:40,  3.63it/s] 48%|████▊     | 177216/371472 [3:01:46<14:18:37,  3.77it/s] 48%|████▊     | 177217/371472 [3:01:47<14:39:28,  3.68it/s] 48%|████▊     | 177218/371472 [3:01:47<15:28:36,  3.49it/s] 48%|████▊     | 177219/371472 [3:01:47<15:38:30,  3.45it/s] 48%|████▊     | 177220/371472 [3:01:48<15:05:41,  3.57it/s]                                                            {'loss': 2.9762, 'learning_rate': 5.708860350363076e-07, 'epoch': 7.63}
 48%|████▊     | 177220/371472 [3:01:48<15:05:41,  3.57it/s] 48%|████▊     | 177221/371472 [3:01:48<14:44:45,  3.66it/s] 48%|████▊     | 177222/371472 [3:01:48<14:24:41,  3.74it/s] 48%|████▊     | 177223/371472 [3:01:48<15:29:51,  3.48it/s] 48%|████▊     | 177224/371472 [3:01:49<16:50:41,  3.20it/s] 48%|████▊     | 177225/371472 [3:01:49<15:39:13,  3.45it/s] 48%|████▊     | 177226/371472 [3:01:49<15:03:11,  3.58it/s] 48%|████▊     | 177227/371472 [3:01:50<14:55:34,  3.61it/s] 48%|████▊     | 177228/371472 [3:01:50<17:44:26,  3.04it/s] 48%|████▊     | 177229/371472 [3:01:50<16:54:25,  3.19it/s] 48%|████▊     | 177230/371472 [3:01:51<16:23:52,  3.29it/s] 48%|████▊     | 177231/371472 [3:01:51<16:04:19,  3.36it/s] 48%|████▊     | 177232/371472 [3:01:51<15:30:34,  3.48it/s] 48%|████▊     | 177233/371472 [3:01:51<15:39:43,  3.44it/s] 48%|████▊     | 177234/371472 [3:01:52<15:06:04,  3.57it/s] 48%|████▊     | 177235/371472 [3:01:52<15:00:45,  3.59it/s] 48%|████▊     | 177236/371472 [3:01:52<14:51:15,  3.63it/s] 48%|████▊     | 177237/371472 [3:01:52<14:47:25,  3.65it/s] 48%|████▊     | 177238/371472 [3:01:53<15:22:50,  3.51it/s] 48%|████▊     | 177239/371472 [3:01:53<16:27:26,  3.28it/s] 48%|████▊     | 177240/371472 [3:01:53<16:11:40,  3.33it/s]                                                            {'loss': 2.9612, 'learning_rate': 5.708375530608287e-07, 'epoch': 7.63}
 48%|████▊     | 177240/371472 [3:01:53<16:11:40,  3.33it/s] 48%|████▊     | 177241/371472 [3:01:54<16:49:04,  3.21it/s] 48%|████▊     | 177242/371472 [3:01:54<16:29:09,  3.27it/s] 48%|████▊     | 177243/371472 [3:01:54<15:38:23,  3.45it/s] 48%|████▊     | 177244/371472 [3:01:55<15:10:34,  3.56it/s] 48%|████▊     | 177245/371472 [3:01:55<14:32:47,  3.71it/s] 48%|████▊     | 177246/371472 [3:01:55<14:08:02,  3.82it/s] 48%|████▊     | 177247/371472 [3:01:55<15:23:23,  3.51it/s] 48%|████▊     | 177248/371472 [3:01:56<15:05:44,  3.57it/s] 48%|████▊     | 177249/371472 [3:01:56<14:32:37,  3.71it/s] 48%|████▊     | 177250/371472 [3:01:56<15:10:51,  3.55it/s] 48%|████▊     | 177251/371472 [3:01:56<14:39:46,  3.68it/s] 48%|████▊     | 177252/371472 [3:01:57<14:13:25,  3.79it/s] 48%|████▊     | 177253/371472 [3:01:57<14:24:40,  3.74it/s] 48%|████▊     | 177254/371472 [3:01:57<14:18:04,  3.77it/s] 48%|████▊     | 177255/371472 [3:01:58<15:04:31,  3.58it/s] 48%|████▊     | 177256/371472 [3:01:58<15:29:31,  3.48it/s] 48%|████▊     | 177257/371472 [3:01:58<15:03:00,  3.58it/s] 48%|████▊     | 177258/371472 [3:01:58<14:50:09,  3.64it/s] 48%|████▊     | 177259/371472 [3:01:59<14:51:20,  3.63it/s] 48%|████▊     | 177260/371472 [3:01:59<15:06:26,  3.57it/s]                                                            {'loss': 3.003, 'learning_rate': 5.707890710853497e-07, 'epoch': 7.63}
 48%|████▊     | 177260/371472 [3:01:59<15:06:26,  3.57it/s] 48%|████▊     | 177261/371472 [3:01:59<15:03:23,  3.58it/s] 48%|████▊     | 177262/371472 [3:01:59<14:41:22,  3.67it/s] 48%|████▊     | 177263/371472 [3:02:00<14:22:36,  3.75it/s] 48%|████▊     | 177264/371472 [3:02:00<14:42:56,  3.67it/s] 48%|████▊     | 177265/371472 [3:02:00<16:20:11,  3.30it/s] 48%|████▊     | 177266/371472 [3:02:01<15:47:31,  3.42it/s] 48%|████▊     | 177267/371472 [3:02:01<15:27:01,  3.49it/s] 48%|████▊     | 177268/371472 [3:02:01<15:59:33,  3.37it/s] 48%|████▊     | 177269/371472 [3:02:02<15:53:09,  3.40it/s] 48%|████▊     | 177270/371472 [3:02:02<15:53:01,  3.40it/s] 48%|████▊     | 177271/371472 [3:02:02<17:19:19,  3.11it/s] 48%|████▊     | 177272/371472 [3:02:02<16:29:20,  3.27it/s] 48%|████▊     | 177273/371472 [3:02:03<15:49:58,  3.41it/s] 48%|████▊     | 177274/371472 [3:02:03<15:28:10,  3.49it/s] 48%|████▊     | 177275/371472 [3:02:03<14:54:19,  3.62it/s] 48%|████▊     | 177276/371472 [3:02:04<14:47:32,  3.65it/s] 48%|████▊     | 177277/371472 [3:02:04<14:30:12,  3.72it/s] 48%|████▊     | 177278/371472 [3:02:04<14:22:18,  3.75it/s] 48%|████▊     | 177279/371472 [3:02:04<14:21:50,  3.76it/s] 48%|████▊     | 177280/371472 [3:02:05<14:46:10,  3.65it/s]                                                            {'loss': 2.9801, 'learning_rate': 5.707405891098708e-07, 'epoch': 7.64}
 48%|████▊     | 177280/371472 [3:02:05<14:46:10,  3.65it/s] 48%|████▊     | 177281/371472 [3:02:05<14:58:55,  3.60it/s] 48%|████▊     | 177282/371472 [3:02:05<14:44:00,  3.66it/s] 48%|████▊     | 177283/371472 [3:02:06<15:41:45,  3.44it/s] 48%|████▊     | 177284/371472 [3:02:06<14:56:01,  3.61it/s] 48%|████▊     | 177285/371472 [3:02:06<16:29:27,  3.27it/s] 48%|████▊     | 177286/371472 [3:02:06<15:33:01,  3.47it/s] 48%|████▊     | 177287/371472 [3:02:07<14:55:42,  3.61it/s] 48%|████▊     | 177288/371472 [3:02:07<15:00:43,  3.59it/s] 48%|████▊     | 177289/371472 [3:02:07<14:54:50,  3.62it/s] 48%|████▊     | 177290/371472 [3:02:07<14:48:36,  3.64it/s] 48%|████▊     | 177291/371472 [3:02:08<15:05:22,  3.57it/s] 48%|████▊     | 177292/371472 [3:02:08<15:10:50,  3.55it/s] 48%|████▊     | 177293/371472 [3:02:08<14:45:16,  3.66it/s] 48%|████▊     | 177294/371472 [3:02:09<14:29:55,  3.72it/s] 48%|████▊     | 177295/371472 [3:02:09<15:46:11,  3.42it/s] 48%|████▊     | 177296/371472 [3:02:09<15:59:31,  3.37it/s] 48%|████▊     | 177297/371472 [3:02:09<15:10:59,  3.55it/s] 48%|████▊     | 177298/371472 [3:02:10<15:00:27,  3.59it/s] 48%|████▊     | 177299/371472 [3:02:10<14:39:30,  3.68it/s] 48%|████▊     | 177300/371472 [3:02:10<14:32:44,  3.71it/s]                                                            {'loss': 2.9986, 'learning_rate': 5.70692107134392e-07, 'epoch': 7.64}
 48%|████▊     | 177300/371472 [3:02:10<14:32:44,  3.71it/s] 48%|████▊     | 177301/371472 [3:02:11<14:53:35,  3.62it/s] 48%|████▊     | 177302/371472 [3:02:11<14:42:58,  3.67it/s] 48%|████▊     | 177303/371472 [3:02:11<15:50:33,  3.40it/s] 48%|████▊     | 177304/371472 [3:02:11<16:27:07,  3.28it/s] 48%|████▊     | 177305/371472 [3:02:12<16:13:55,  3.32it/s] 48%|████▊     | 177306/371472 [3:02:12<16:12:53,  3.33it/s] 48%|████▊     | 177307/371472 [3:02:12<15:23:11,  3.51it/s] 48%|████▊     | 177308/371472 [3:02:13<15:34:36,  3.46it/s] 48%|████▊     | 177309/371472 [3:02:13<15:13:35,  3.54it/s] 48%|████▊     | 177310/371472 [3:02:13<14:39:16,  3.68it/s] 48%|████▊     | 177311/371472 [3:02:13<14:59:26,  3.60it/s] 48%|████▊     | 177312/371472 [3:02:14<14:51:45,  3.63it/s] 48%|████▊     | 177313/371472 [3:02:14<16:12:48,  3.33it/s] 48%|████▊     | 177314/371472 [3:02:14<15:39:10,  3.45it/s] 48%|████▊     | 177315/371472 [3:02:15<16:09:23,  3.34it/s] 48%|████▊     | 177316/371472 [3:02:15<15:28:08,  3.49it/s] 48%|████▊     | 177317/371472 [3:02:15<15:32:05,  3.47it/s] 48%|████▊     | 177318/371472 [3:02:15<15:18:06,  3.52it/s] 48%|████▊     | 177319/371472 [3:02:16<15:33:57,  3.46it/s] 48%|████▊     | 177320/371472 [3:02:16<15:47:28,  3.42it/s]                                                            {'loss': 3.0142, 'learning_rate': 5.706436251589132e-07, 'epoch': 7.64}
 48%|████▊     | 177320/371472 [3:02:16<15:47:28,  3.42it/s] 48%|████▊     | 177321/371472 [3:02:16<15:08:16,  3.56it/s] 48%|████▊     | 177322/371472 [3:02:17<14:24:47,  3.74it/s] 48%|████▊     | 177323/371472 [3:02:17<14:39:25,  3.68it/s] 48%|████▊     | 177324/371472 [3:02:17<15:02:52,  3.58it/s] 48%|████▊     | 177325/371472 [3:02:17<14:37:00,  3.69it/s] 48%|████▊     | 177326/371472 [3:02:18<15:18:54,  3.52it/s] 48%|████▊     | 177327/371472 [3:02:18<15:21:58,  3.51it/s] 48%|████▊     | 177328/371472 [3:02:18<15:08:32,  3.56it/s] 48%|████▊     | 177329/371472 [3:02:19<16:17:59,  3.31it/s] 48%|████▊     | 177330/371472 [3:02:19<15:42:43,  3.43it/s] 48%|████▊     | 177331/371472 [3:02:19<15:03:30,  3.58it/s] 48%|████▊     | 177332/371472 [3:02:19<15:09:45,  3.56it/s] 48%|████▊     | 177333/371472 [3:02:20<15:03:55,  3.58it/s] 48%|████▊     | 177334/371472 [3:02:20<14:47:21,  3.65it/s] 48%|████▊     | 177335/371472 [3:02:20<15:30:08,  3.48it/s] 48%|████▊     | 177336/371472 [3:02:21<15:14:40,  3.54it/s] 48%|████▊     | 177337/371472 [3:02:21<14:58:46,  3.60it/s] 48%|████▊     | 177338/371472 [3:02:21<15:16:29,  3.53it/s] 48%|████▊     | 177339/371472 [3:02:21<14:54:59,  3.62it/s] 48%|████▊     | 177340/371472 [3:02:22<15:30:44,  3.48it/s]                                                            {'loss': 3.1195, 'learning_rate': 5.705951431834342e-07, 'epoch': 7.64}
 48%|████▊     | 177340/371472 [3:02:22<15:30:44,  3.48it/s] 48%|████▊     | 177341/371472 [3:02:22<14:45:14,  3.65it/s] 48%|████▊     | 177342/371472 [3:02:22<15:20:55,  3.51it/s] 48%|████▊     | 177343/371472 [3:02:23<15:40:00,  3.44it/s] 48%|████▊     | 177344/371472 [3:02:23<15:15:50,  3.53it/s] 48%|████▊     | 177345/371472 [3:02:23<15:24:57,  3.50it/s] 48%|████▊     | 177346/371472 [3:02:23<16:17:12,  3.31it/s] 48%|████▊     | 177347/371472 [3:02:24<16:02:15,  3.36it/s] 48%|████▊     | 177348/371472 [3:02:24<15:44:46,  3.42it/s] 48%|████▊     | 177349/371472 [3:02:24<15:44:19,  3.43it/s] 48%|████▊     | 177350/371472 [3:02:25<15:30:14,  3.48it/s] 48%|████▊     | 177351/371472 [3:02:25<15:20:12,  3.52it/s] 48%|████▊     | 177352/371472 [3:02:25<15:23:20,  3.50it/s] 48%|████▊     | 177353/371472 [3:02:25<16:28:17,  3.27it/s] 48%|████▊     | 177354/371472 [3:02:26<15:45:42,  3.42it/s] 48%|████▊     | 177355/371472 [3:02:26<15:19:01,  3.52it/s] 48%|████▊     | 177356/371472 [3:02:26<15:26:12,  3.49it/s] 48%|████▊     | 177357/371472 [3:02:27<15:12:43,  3.54it/s] 48%|████▊     | 177358/371472 [3:02:27<15:21:35,  3.51it/s] 48%|████▊     | 177359/371472 [3:02:27<15:00:49,  3.59it/s] 48%|████▊     | 177360/371472 [3:02:27<14:44:16,  3.66it/s]                                                            {'loss': 2.9594, 'learning_rate': 5.705466612079553e-07, 'epoch': 7.64}
 48%|████▊     | 177360/371472 [3:02:27<14:44:16,  3.66it/s] 48%|████▊     | 177361/371472 [3:02:28<14:49:11,  3.64it/s] 48%|████▊     | 177362/371472 [3:02:28<14:49:57,  3.64it/s] 48%|████▊     | 177363/371472 [3:02:28<14:38:52,  3.68it/s] 48%|████▊     | 177364/371472 [3:02:28<14:34:16,  3.70it/s] 48%|████▊     | 177365/371472 [3:02:29<14:41:00,  3.67it/s] 48%|████▊     | 177366/371472 [3:02:29<14:38:23,  3.68it/s] 48%|████▊     | 177367/371472 [3:02:29<14:03:07,  3.84it/s] 48%|████▊     | 177368/371472 [3:02:30<14:15:42,  3.78it/s] 48%|████▊     | 177369/371472 [3:02:30<14:00:34,  3.85it/s] 48%|████▊     | 177370/371472 [3:02:30<14:11:48,  3.80it/s] 48%|████▊     | 177371/371472 [3:02:30<14:10:30,  3.80it/s] 48%|████▊     | 177372/371472 [3:02:31<14:25:32,  3.74it/s] 48%|████▊     | 177373/371472 [3:02:31<14:25:25,  3.74it/s] 48%|████▊     | 177374/371472 [3:02:31<14:50:07,  3.63it/s] 48%|████▊     | 177375/371472 [3:02:31<14:13:21,  3.79it/s] 48%|████▊     | 177376/371472 [3:02:32<14:11:54,  3.80it/s] 48%|████▊     | 177377/371472 [3:02:32<13:56:02,  3.87it/s] 48%|████▊     | 177378/371472 [3:02:32<14:23:24,  3.75it/s] 48%|████▊     | 177379/371472 [3:02:32<14:32:26,  3.71it/s] 48%|████▊     | 177380/371472 [3:02:33<14:13:28,  3.79it/s]                                                            {'loss': 3.2237, 'learning_rate': 5.704981792324764e-07, 'epoch': 7.64}
 48%|████▊     | 177380/371472 [3:02:33<14:13:28,  3.79it/s] 48%|████▊     | 177381/371472 [3:02:33<14:33:09,  3.70it/s] 48%|████▊     | 177382/371472 [3:02:33<15:15:43,  3.53it/s] 48%|████▊     | 177383/371472 [3:02:34<15:59:59,  3.37it/s] 48%|████▊     | 177384/371472 [3:02:34<16:37:54,  3.24it/s] 48%|████▊     | 177385/371472 [3:02:34<15:59:00,  3.37it/s] 48%|████▊     | 177386/371472 [3:02:35<16:44:40,  3.22it/s] 48%|████▊     | 177387/371472 [3:02:35<15:58:48,  3.37it/s] 48%|████▊     | 177388/371472 [3:02:35<16:40:41,  3.23it/s] 48%|████▊     | 177389/371472 [3:02:35<15:47:47,  3.41it/s] 48%|████▊     | 177390/371472 [3:02:36<15:17:42,  3.52it/s] 48%|████▊     | 177391/371472 [3:02:36<16:23:02,  3.29it/s] 48%|████▊     | 177392/371472 [3:02:36<15:51:21,  3.40it/s] 48%|████▊     | 177393/371472 [3:02:37<16:15:32,  3.32it/s] 48%|████▊     | 177394/371472 [3:02:37<16:09:21,  3.34it/s] 48%|████▊     | 177395/371472 [3:02:37<15:33:37,  3.46it/s] 48%|████▊     | 177396/371472 [3:02:37<15:17:09,  3.53it/s] 48%|████▊     | 177397/371472 [3:02:38<15:07:03,  3.57it/s] 48%|████▊     | 177398/371472 [3:02:38<15:49:16,  3.41it/s] 48%|████▊     | 177399/371472 [3:02:38<15:09:59,  3.55it/s] 48%|████▊     | 177400/371472 [3:02:39<15:41:44,  3.43it/s]                                                            {'loss': 2.9381, 'learning_rate': 5.704496972569976e-07, 'epoch': 7.64}
 48%|████▊     | 177400/371472 [3:02:39<15:41:44,  3.43it/s] 48%|████▊     | 177401/371472 [3:02:39<15:17:58,  3.52it/s] 48%|████▊     | 177402/371472 [3:02:39<15:05:44,  3.57it/s] 48%|████▊     | 177403/371472 [3:02:39<14:58:18,  3.60it/s] 48%|████▊     | 177404/371472 [3:02:40<14:32:48,  3.71it/s] 48%|████▊     | 177405/371472 [3:02:40<14:50:11,  3.63it/s] 48%|████▊     | 177406/371472 [3:02:40<15:43:15,  3.43it/s] 48%|████▊     | 177407/371472 [3:02:41<15:55:36,  3.38it/s] 48%|████▊     | 177408/371472 [3:02:41<15:44:47,  3.42it/s] 48%|████▊     | 177409/371472 [3:02:41<16:36:35,  3.25it/s] 48%|████▊     | 177410/371472 [3:02:42<16:13:01,  3.32it/s] 48%|████▊     | 177411/371472 [3:02:42<15:42:14,  3.43it/s] 48%|████▊     | 177412/371472 [3:02:42<15:35:40,  3.46it/s] 48%|████▊     | 177413/371472 [3:02:42<15:13:11,  3.54it/s] 48%|████▊     | 177414/371472 [3:02:43<14:54:59,  3.61it/s] 48%|████▊     | 177415/371472 [3:02:43<14:51:12,  3.63it/s] 48%|████▊     | 177416/371472 [3:02:43<14:54:10,  3.62it/s] 48%|████▊     | 177417/371472 [3:02:44<16:41:18,  3.23it/s] 48%|████▊     | 177418/371472 [3:02:44<16:59:45,  3.17it/s] 48%|████▊     | 177419/371472 [3:02:44<15:46:41,  3.42it/s] 48%|████▊     | 177420/371472 [3:02:44<15:28:03,  3.48it/s]                                                            {'loss': 3.1489, 'learning_rate': 5.704012152815186e-07, 'epoch': 7.64}
 48%|████▊     | 177420/371472 [3:02:44<15:28:03,  3.48it/s] 48%|████▊     | 177421/371472 [3:02:45<15:18:58,  3.52it/s] 48%|████▊     | 177422/371472 [3:02:45<14:57:17,  3.60it/s] 48%|████▊     | 177423/371472 [3:02:45<15:07:45,  3.56it/s] 48%|████▊     | 177424/371472 [3:02:46<15:21:37,  3.51it/s] 48%|████▊     | 177425/371472 [3:02:46<15:25:17,  3.50it/s] 48%|████▊     | 177426/371472 [3:02:46<14:53:59,  3.62it/s] 48%|████▊     | 177427/371472 [3:02:46<14:45:14,  3.65it/s] 48%|████▊     | 177428/371472 [3:02:47<14:49:05,  3.64it/s] 48%|████▊     | 177429/371472 [3:02:47<15:27:50,  3.49it/s] 48%|████▊     | 177430/371472 [3:02:47<15:01:10,  3.59it/s] 48%|████▊     | 177431/371472 [3:02:47<15:08:21,  3.56it/s] 48%|████▊     | 177432/371472 [3:02:48<14:57:14,  3.60it/s] 48%|████▊     | 177433/371472 [3:02:48<14:37:55,  3.68it/s] 48%|████▊     | 177434/371472 [3:02:48<14:58:27,  3.60it/s] 48%|████▊     | 177435/371472 [3:02:49<15:11:07,  3.55it/s] 48%|████▊     | 177436/371472 [3:02:49<14:44:29,  3.66it/s] 48%|████▊     | 177437/371472 [3:02:49<15:03:00,  3.58it/s] 48%|████▊     | 177438/371472 [3:02:49<14:51:30,  3.63it/s] 48%|████▊     | 177439/371472 [3:02:50<14:56:34,  3.61it/s] 48%|████▊     | 177440/371472 [3:02:50<15:15:26,  3.53it/s]                                                            {'loss': 2.9889, 'learning_rate': 5.703527333060397e-07, 'epoch': 7.64}
 48%|████▊     | 177440/371472 [3:02:50<15:15:26,  3.53it/s] 48%|████▊     | 177441/371472 [3:02:50<15:13:01,  3.54it/s] 48%|████▊     | 177442/371472 [3:02:51<15:07:53,  3.56it/s] 48%|████▊     | 177443/371472 [3:02:51<15:20:08,  3.51it/s] 48%|████▊     | 177444/371472 [3:02:51<14:40:12,  3.67it/s] 48%|████▊     | 177445/371472 [3:02:51<15:55:59,  3.38it/s] 48%|████▊     | 177446/371472 [3:02:52<15:23:14,  3.50it/s] 48%|████▊     | 177447/371472 [3:02:52<15:47:51,  3.41it/s] 48%|████▊     | 177448/371472 [3:02:52<15:06:30,  3.57it/s] 48%|████▊     | 177449/371472 [3:02:52<14:43:25,  3.66it/s] 48%|████▊     | 177450/371472 [3:02:53<14:27:29,  3.73it/s] 48%|████▊     | 177451/371472 [3:02:53<15:06:05,  3.57it/s] 48%|████▊     | 177452/371472 [3:02:53<15:14:43,  3.54it/s] 48%|████▊     | 177453/371472 [3:02:54<14:46:36,  3.65it/s] 48%|████▊     | 177454/371472 [3:02:54<14:39:58,  3.67it/s] 48%|████▊     | 177455/371472 [3:02:54<14:42:48,  3.66it/s] 48%|████▊     | 177456/371472 [3:02:54<14:22:14,  3.75it/s] 48%|████▊     | 177457/371472 [3:02:55<14:41:15,  3.67it/s] 48%|████▊     | 177458/371472 [3:02:55<14:30:34,  3.71it/s] 48%|████▊     | 177459/371472 [3:02:55<16:31:50,  3.26it/s] 48%|████▊     | 177460/371472 [3:02:56<15:47:45,  3.41it/s]                                                            {'loss': 3.1482, 'learning_rate': 5.703042513305609e-07, 'epoch': 7.64}
 48%|████▊     | 177460/371472 [3:02:56<15:47:45,  3.41it/s] 48%|████▊     | 177461/371472 [3:02:56<16:07:43,  3.34it/s] 48%|████▊     | 177462/371472 [3:02:56<17:04:11,  3.16it/s] 48%|████▊     | 177463/371472 [3:02:57<16:16:39,  3.31it/s] 48%|████▊     | 177464/371472 [3:02:57<16:12:40,  3.32it/s] 48%|████▊     | 177465/371472 [3:02:57<17:20:36,  3.11it/s] 48%|████▊     | 177466/371472 [3:02:57<16:00:43,  3.37it/s] 48%|████▊     | 177467/371472 [3:02:58<15:39:46,  3.44it/s] 48%|████▊     | 177468/371472 [3:02:58<15:06:13,  3.57it/s] 48%|████▊     | 177469/371472 [3:02:58<15:28:44,  3.48it/s] 48%|████▊     | 177470/371472 [3:02:59<15:12:00,  3.55it/s] 48%|████▊     | 177471/371472 [3:02:59<14:40:18,  3.67it/s] 48%|████▊     | 177472/371472 [3:02:59<14:19:14,  3.76it/s] 48%|████▊     | 177473/371472 [3:02:59<13:58:10,  3.86it/s] 48%|████▊     | 177474/371472 [3:03:00<14:02:00,  3.84it/s] 48%|████▊     | 177475/371472 [3:03:00<13:53:24,  3.88it/s] 48%|████▊     | 177476/371472 [3:03:00<14:28:10,  3.72it/s] 48%|████▊     | 177477/371472 [3:03:00<14:37:10,  3.69it/s] 48%|████▊     | 177478/371472 [3:03:01<14:42:48,  3.66it/s] 48%|████▊     | 177479/371472 [3:03:01<14:31:49,  3.71it/s] 48%|████▊     | 177480/371472 [3:03:01<14:41:51,  3.67it/s]                                                            {'loss': 3.1016, 'learning_rate': 5.702557693550819e-07, 'epoch': 7.64}
 48%|████▊     | 177480/371472 [3:03:01<14:41:51,  3.67it/s] 48%|████▊     | 177481/371472 [3:03:01<14:32:03,  3.71it/s] 48%|████▊     | 177482/371472 [3:03:02<14:27:28,  3.73it/s] 48%|████▊     | 177483/371472 [3:03:02<14:12:02,  3.79it/s] 48%|████▊     | 177484/371472 [3:03:02<14:14:37,  3.78it/s] 48%|████▊     | 177485/371472 [3:03:02<14:18:26,  3.77it/s] 48%|████▊     | 177486/371472 [3:03:03<15:12:03,  3.54it/s] 48%|████▊     | 177487/371472 [3:03:03<15:05:08,  3.57it/s] 48%|████▊     | 177488/371472 [3:03:03<14:55:48,  3.61it/s] 48%|████▊     | 177489/371472 [3:03:04<15:06:49,  3.57it/s] 48%|████▊     | 177490/371472 [3:03:04<14:33:29,  3.70it/s] 48%|████▊     | 177491/371472 [3:03:04<14:50:42,  3.63it/s] 48%|████▊     | 177492/371472 [3:03:04<14:33:22,  3.70it/s] 48%|████▊     | 177493/371472 [3:03:05<15:02:12,  3.58it/s] 48%|████▊     | 177494/371472 [3:03:05<16:19:49,  3.30it/s] 48%|████▊     | 177495/371472 [3:03:05<16:26:40,  3.28it/s] 48%|████▊     | 177496/371472 [3:03:06<16:07:56,  3.34it/s] 48%|████▊     | 177497/371472 [3:03:06<16:43:37,  3.22it/s] 48%|████▊     | 177498/371472 [3:03:06<16:59:59,  3.17it/s] 48%|████▊     | 177499/371472 [3:03:07<17:04:58,  3.15it/s] 48%|████▊     | 177500/371472 [3:03:07<17:47:52,  3.03it/s]                                                            {'loss': 3.037, 'learning_rate': 5.70207287379603e-07, 'epoch': 7.65}
 48%|████▊     | 177500/371472 [3:03:07<17:47:52,  3.03it/s] 48%|████▊     | 177501/371472 [3:03:07<16:49:03,  3.20it/s] 48%|████▊     | 177502/371472 [3:03:08<16:07:46,  3.34it/s] 48%|████▊     | 177503/371472 [3:03:08<16:25:04,  3.28it/s] 48%|████▊     | 177504/371472 [3:03:08<16:16:17,  3.31it/s] 48%|████▊     | 177505/371472 [3:03:08<15:38:40,  3.44it/s] 48%|████▊     | 177506/371472 [3:03:09<15:25:06,  3.49it/s] 48%|████▊     | 177507/371472 [3:03:09<14:28:51,  3.72it/s] 48%|████▊     | 177508/371472 [3:03:09<14:45:32,  3.65it/s] 48%|████▊     | 177509/371472 [3:03:10<14:22:36,  3.75it/s] 48%|████▊     | 177510/371472 [3:03:10<13:59:17,  3.85it/s] 48%|████▊     | 177511/371472 [3:03:10<13:52:25,  3.88it/s] 48%|████▊     | 177512/371472 [3:03:10<14:35:58,  3.69it/s] 48%|████▊     | 177513/371472 [3:03:11<14:45:19,  3.65it/s] 48%|████▊     | 177514/371472 [3:03:11<14:57:21,  3.60it/s] 48%|████▊     | 177515/371472 [3:03:11<14:59:58,  3.59it/s] 48%|████▊     | 177516/371472 [3:03:11<14:41:25,  3.67it/s] 48%|████▊     | 177517/371472 [3:03:12<14:18:17,  3.77it/s] 48%|████▊     | 177518/371472 [3:03:12<14:11:07,  3.80it/s] 48%|████▊     | 177519/371472 [3:03:12<13:57:21,  3.86it/s] 48%|████▊     | 177520/371472 [3:03:12<14:52:34,  3.62it/s]                                                            {'loss': 3.0969, 'learning_rate': 5.701588054041241e-07, 'epoch': 7.65}
 48%|████▊     | 177520/371472 [3:03:12<14:52:34,  3.62it/s] 48%|████▊     | 177521/371472 [3:03:13<14:52:13,  3.62it/s] 48%|████▊     | 177522/371472 [3:03:13<14:48:07,  3.64it/s] 48%|████▊     | 177523/371472 [3:03:13<15:11:14,  3.55it/s] 48%|████▊     | 177524/371472 [3:03:14<14:58:40,  3.60it/s] 48%|████▊     | 177525/371472 [3:03:14<14:55:18,  3.61it/s] 48%|████▊     | 177526/371472 [3:03:14<14:38:30,  3.68it/s] 48%|████▊     | 177527/371472 [3:03:14<14:27:00,  3.73it/s] 48%|████▊     | 177528/371472 [3:03:15<14:21:47,  3.75it/s] 48%|████▊     | 177529/371472 [3:03:15<14:36:57,  3.69it/s] 48%|████▊     | 177530/371472 [3:03:15<15:26:08,  3.49it/s] 48%|████▊     | 177531/371472 [3:03:16<15:07:04,  3.56it/s] 48%|████▊     | 177532/371472 [3:03:16<14:45:20,  3.65it/s] 48%|████▊     | 177533/371472 [3:03:16<14:46:52,  3.64it/s] 48%|████▊     | 177534/371472 [3:03:16<14:25:14,  3.74it/s] 48%|████▊     | 177535/371472 [3:03:17<14:26:51,  3.73it/s] 48%|████▊     | 177536/371472 [3:03:17<15:03:10,  3.58it/s] 48%|████▊     | 177537/371472 [3:03:17<15:30:30,  3.47it/s] 48%|████▊     | 177538/371472 [3:03:17<14:57:02,  3.60it/s] 48%|████▊     | 177539/371472 [3:03:18<16:25:56,  3.28it/s] 48%|████▊     | 177540/371472 [3:03:18<16:14:41,  3.32it/s]                                                            {'loss': 3.2527, 'learning_rate': 5.701103234286453e-07, 'epoch': 7.65}
 48%|████▊     | 177540/371472 [3:03:18<16:14:41,  3.32it/s] 48%|████▊     | 177541/371472 [3:03:18<15:47:27,  3.41it/s] 48%|████▊     | 177542/371472 [3:03:19<15:37:15,  3.45it/s] 48%|████▊     | 177543/371472 [3:03:19<15:16:12,  3.53it/s] 48%|████▊     | 177544/371472 [3:03:19<15:12:38,  3.54it/s] 48%|████▊     | 177545/371472 [3:03:20<15:30:11,  3.47it/s] 48%|████▊     | 177546/371472 [3:03:20<14:48:03,  3.64it/s] 48%|████▊     | 177547/371472 [3:03:20<14:53:36,  3.62it/s] 48%|████▊     | 177548/371472 [3:03:20<15:04:02,  3.58it/s] 48%|████▊     | 177549/371472 [3:03:21<15:41:19,  3.43it/s] 48%|████▊     | 177550/371472 [3:03:21<14:49:03,  3.64it/s] 48%|████▊     | 177551/371472 [3:03:21<14:38:07,  3.68it/s] 48%|████▊     | 177552/371472 [3:03:21<14:33:14,  3.70it/s] 48%|████▊     | 177553/371472 [3:03:22<14:26:13,  3.73it/s] 48%|████▊     | 177554/371472 [3:03:22<14:09:27,  3.80it/s] 48%|████▊     | 177555/371472 [3:03:22<14:01:22,  3.84it/s] 48%|████▊     | 177556/371472 [3:03:23<15:04:01,  3.58it/s] 48%|████▊     | 177557/371472 [3:03:23<15:04:21,  3.57it/s] 48%|████▊     | 177558/371472 [3:03:23<14:36:06,  3.69it/s] 48%|████▊     | 177559/371472 [3:03:23<14:33:40,  3.70it/s] 48%|████▊     | 177560/371472 [3:03:24<14:00:34,  3.84it/s]                                                            {'loss': 3.1771, 'learning_rate': 5.700618414531665e-07, 'epoch': 7.65}
 48%|████▊     | 177560/371472 [3:03:24<14:00:34,  3.84it/s] 48%|████▊     | 177561/371472 [3:03:24<14:02:08,  3.84it/s] 48%|████▊     | 177562/371472 [3:03:24<14:28:56,  3.72it/s] 48%|████▊     | 177563/371472 [3:03:24<15:05:18,  3.57it/s] 48%|████▊     | 177564/371472 [3:03:25<14:28:22,  3.72it/s] 48%|████▊     | 177565/371472 [3:03:25<14:51:59,  3.62it/s] 48%|████▊     | 177566/371472 [3:03:25<14:55:05,  3.61it/s] 48%|████▊     | 177567/371472 [3:03:26<15:18:20,  3.52it/s] 48%|████▊     | 177568/371472 [3:03:26<15:47:02,  3.41it/s] 48%|████▊     | 177569/371472 [3:03:26<15:29:53,  3.48it/s] 48%|████▊     | 177570/371472 [3:03:26<14:46:49,  3.64it/s] 48%|████▊     | 177571/371472 [3:03:27<14:57:05,  3.60it/s] 48%|████▊     | 177572/371472 [3:03:27<15:17:37,  3.52it/s] 48%|████▊     | 177573/371472 [3:03:27<14:48:17,  3.64it/s] 48%|████▊     | 177574/371472 [3:03:27<14:49:17,  3.63it/s] 48%|████▊     | 177575/371472 [3:03:28<14:53:30,  3.62it/s] 48%|████▊     | 177576/371472 [3:03:28<14:59:00,  3.59it/s] 48%|████▊     | 177577/371472 [3:03:28<14:53:09,  3.62it/s] 48%|████▊     | 177578/371472 [3:03:29<14:44:00,  3.66it/s] 48%|████▊     | 177579/371472 [3:03:29<15:04:21,  3.57it/s] 48%|████▊     | 177580/371472 [3:03:29<15:01:11,  3.59it/s]                                                            {'loss': 3.0907, 'learning_rate': 5.700133594776876e-07, 'epoch': 7.65}
 48%|████▊     | 177580/371472 [3:03:29<15:01:11,  3.59it/s] 48%|████▊     | 177581/371472 [3:03:29<15:20:45,  3.51it/s] 48%|████▊     | 177582/371472 [3:03:30<14:59:24,  3.59it/s] 48%|████▊     | 177583/371472 [3:03:30<14:31:01,  3.71it/s] 48%|████▊     | 177584/371472 [3:03:30<14:29:28,  3.72it/s] 48%|████▊     | 177585/371472 [3:03:31<16:24:29,  3.28it/s] 48%|████▊     | 177586/371472 [3:03:31<15:57:03,  3.38it/s] 48%|████▊     | 177587/371472 [3:03:31<15:29:13,  3.48it/s] 48%|████▊     | 177588/371472 [3:03:31<15:26:50,  3.49it/s] 48%|████▊     | 177589/371472 [3:03:32<15:15:56,  3.53it/s] 48%|████▊     | 177590/371472 [3:03:32<15:47:35,  3.41it/s] 48%|████▊     | 177591/371472 [3:03:32<15:23:32,  3.50it/s] 48%|████▊     | 177592/371472 [3:03:33<14:49:37,  3.63it/s] 48%|████▊     | 177593/371472 [3:03:33<15:02:16,  3.58it/s] 48%|████▊     | 177594/371472 [3:03:33<15:16:04,  3.53it/s] 48%|████▊     | 177595/371472 [3:03:33<15:32:31,  3.47it/s] 48%|████▊     | 177596/371472 [3:03:34<15:31:23,  3.47it/s] 48%|████▊     | 177597/371472 [3:03:34<15:28:18,  3.48it/s] 48%|████▊     | 177598/371472 [3:03:34<15:19:04,  3.52it/s] 48%|████▊     | 177599/371472 [3:03:35<15:48:32,  3.41it/s] 48%|████▊     | 177600/371472 [3:03:35<16:01:40,  3.36it/s]                                                            {'loss': 3.0111, 'learning_rate': 5.699648775022086e-07, 'epoch': 7.65}
 48%|████▊     | 177600/371472 [3:03:35<16:01:40,  3.36it/s] 48%|████▊     | 177601/371472 [3:03:35<15:38:43,  3.44it/s] 48%|████▊     | 177602/371472 [3:03:35<15:34:58,  3.46it/s] 48%|████▊     | 177603/371472 [3:03:36<15:36:09,  3.45it/s] 48%|████▊     | 177604/371472 [3:03:36<14:49:50,  3.63it/s] 48%|████▊     | 177605/371472 [3:03:36<15:54:28,  3.39it/s] 48%|████▊     | 177606/371472 [3:03:37<15:33:07,  3.46it/s] 48%|████▊     | 177607/371472 [3:03:37<15:16:40,  3.52it/s] 48%|████▊     | 177608/371472 [3:03:37<15:02:06,  3.58it/s] 48%|████▊     | 177609/371472 [3:03:37<15:05:23,  3.57it/s] 48%|████▊     | 177610/371472 [3:03:38<14:44:44,  3.65it/s] 48%|████▊     | 177611/371472 [3:03:38<14:26:18,  3.73it/s] 48%|████▊     | 177612/371472 [3:03:38<14:28:39,  3.72it/s] 48%|████▊     | 177613/371472 [3:03:38<14:18:06,  3.77it/s] 48%|████▊     | 177614/371472 [3:03:39<14:25:08,  3.73it/s] 48%|████▊     | 177615/371472 [3:03:39<15:33:55,  3.46it/s] 48%|████▊     | 177616/371472 [3:03:39<15:05:55,  3.57it/s] 48%|████▊     | 177617/371472 [3:03:40<15:02:48,  3.58it/s] 48%|████▊     | 177618/371472 [3:03:40<14:58:20,  3.60it/s] 48%|████▊     | 177619/371472 [3:03:40<15:39:59,  3.44it/s] 48%|████▊     | 177620/371472 [3:03:40<15:14:15,  3.53it/s]                                                            {'loss': 2.9749, 'learning_rate': 5.699163955267297e-07, 'epoch': 7.65}
 48%|████▊     | 177620/371472 [3:03:40<15:14:15,  3.53it/s] 48%|████▊     | 177621/371472 [3:03:41<16:08:35,  3.34it/s] 48%|████▊     | 177622/371472 [3:03:41<15:16:56,  3.52it/s] 48%|████▊     | 177623/371472 [3:03:41<15:10:40,  3.55it/s] 48%|████▊     | 177624/371472 [3:03:42<15:27:22,  3.48it/s] 48%|████▊     | 177625/371472 [3:03:42<15:06:44,  3.56it/s] 48%|████▊     | 177626/371472 [3:03:42<15:01:17,  3.58it/s] 48%|████▊     | 177627/371472 [3:03:42<15:01:34,  3.58it/s] 48%|████▊     | 177628/371472 [3:03:43<15:29:46,  3.47it/s] 48%|████▊     | 177629/371472 [3:03:43<14:57:57,  3.60it/s] 48%|████▊     | 177630/371472 [3:03:43<14:40:42,  3.67it/s] 48%|████▊     | 177631/371472 [3:03:44<14:31:46,  3.71it/s] 48%|████▊     | 177632/371472 [3:03:44<15:32:33,  3.46it/s] 48%|████▊     | 177633/371472 [3:03:44<16:05:46,  3.35it/s] 48%|████▊     | 177634/371472 [3:03:44<15:46:30,  3.41it/s] 48%|████▊     | 177635/371472 [3:03:45<15:05:49,  3.57it/s] 48%|████▊     | 177636/371472 [3:03:45<14:40:16,  3.67it/s] 48%|████▊     | 177637/371472 [3:03:45<14:33:13,  3.70it/s] 48%|████▊     | 177638/371472 [3:03:46<14:54:54,  3.61it/s] 48%|████▊     | 177639/371472 [3:03:46<14:32:57,  3.70it/s] 48%|████▊     | 177640/371472 [3:03:46<15:11:49,  3.54it/s]                                                            {'loss': 3.0287, 'learning_rate': 5.69867913551251e-07, 'epoch': 7.65}
 48%|████▊     | 177640/371472 [3:03:46<15:11:49,  3.54it/s] 48%|████▊     | 177641/371472 [3:03:46<14:48:19,  3.64it/s] 48%|████▊     | 177642/371472 [3:03:47<15:07:43,  3.56it/s] 48%|████▊     | 177643/371472 [3:03:47<15:47:21,  3.41it/s] 48%|████▊     | 177644/371472 [3:03:47<15:24:35,  3.49it/s] 48%|████▊     | 177645/371472 [3:03:48<15:08:34,  3.56it/s] 48%|████▊     | 177646/371472 [3:03:48<15:45:36,  3.42it/s] 48%|████▊     | 177647/371472 [3:03:48<15:56:47,  3.38it/s] 48%|████▊     | 177648/371472 [3:03:48<16:32:01,  3.26it/s] 48%|████▊     | 177649/371472 [3:03:49<16:16:03,  3.31it/s] 48%|████▊     | 177650/371472 [3:03:49<15:43:14,  3.42it/s] 48%|████▊     | 177651/371472 [3:03:49<15:36:30,  3.45it/s] 48%|████▊     | 177652/371472 [3:03:50<15:00:50,  3.59it/s] 48%|████▊     | 177653/371472 [3:03:50<15:07:50,  3.56it/s] 48%|████▊     | 177654/371472 [3:03:50<15:13:25,  3.54it/s] 48%|████▊     | 177655/371472 [3:03:50<15:00:50,  3.59it/s] 48%|████▊     | 177656/371472 [3:03:51<14:24:54,  3.73it/s] 48%|████▊     | 177657/371472 [3:03:51<14:45:02,  3.65it/s] 48%|████▊     | 177658/371472 [3:03:51<14:57:56,  3.60it/s] 48%|████▊     | 177659/371472 [3:03:52<15:48:37,  3.41it/s] 48%|████▊     | 177660/371472 [3:03:52<15:20:05,  3.51it/s]                                                            {'loss': 3.0046, 'learning_rate': 5.698194315757719e-07, 'epoch': 7.65}
 48%|████▊     | 177660/371472 [3:03:52<15:20:05,  3.51it/s] 48%|████▊     | 177661/371472 [3:03:52<15:19:02,  3.51it/s] 48%|████▊     | 177662/371472 [3:03:52<14:43:11,  3.66it/s] 48%|████▊     | 177663/371472 [3:03:53<14:36:52,  3.68it/s] 48%|████▊     | 177664/371472 [3:03:53<14:07:05,  3.81it/s] 48%|████▊     | 177665/371472 [3:03:53<13:56:47,  3.86it/s] 48%|████▊     | 177666/371472 [3:03:53<14:30:40,  3.71it/s] 48%|████▊     | 177667/371472 [3:03:54<14:16:32,  3.77it/s] 48%|████▊     | 177668/371472 [3:03:54<14:06:58,  3.81it/s] 48%|████▊     | 177669/371472 [3:03:54<14:05:19,  3.82it/s] 48%|████▊     | 177670/371472 [3:03:54<14:23:14,  3.74it/s] 48%|████▊     | 177671/371472 [3:03:55<14:58:43,  3.59it/s] 48%|████▊     | 177672/371472 [3:03:55<16:21:45,  3.29it/s] 48%|████▊     | 177673/371472 [3:03:55<15:44:15,  3.42it/s] 48%|████▊     | 177674/371472 [3:03:56<15:03:28,  3.58it/s] 48%|████▊     | 177675/371472 [3:03:56<14:26:10,  3.73it/s] 48%|████▊     | 177676/371472 [3:03:56<14:27:22,  3.72it/s] 48%|████▊     | 177677/371472 [3:03:56<14:35:23,  3.69it/s] 48%|████▊     | 177678/371472 [3:03:57<15:09:50,  3.55it/s] 48%|████▊     | 177679/371472 [3:03:57<14:43:24,  3.66it/s] 48%|████▊     | 177680/371472 [3:03:57<14:45:14,  3.65it/s]                                                            {'loss': 2.9975, 'learning_rate': 5.69770949600293e-07, 'epoch': 7.65}
 48%|████▊     | 177680/371472 [3:03:57<14:45:14,  3.65it/s] 48%|████▊     | 177681/371472 [3:03:58<14:52:23,  3.62it/s] 48%|████▊     | 177682/371472 [3:03:58<14:52:37,  3.62it/s] 48%|████▊     | 177683/371472 [3:03:58<14:37:21,  3.68it/s] 48%|████▊     | 177684/371472 [3:03:58<14:22:57,  3.74it/s] 48%|████▊     | 177685/371472 [3:03:59<14:42:47,  3.66it/s] 48%|████▊     | 177686/371472 [3:03:59<15:00:04,  3.59it/s] 48%|████▊     | 177687/371472 [3:03:59<14:51:38,  3.62it/s] 48%|████▊     | 177688/371472 [3:03:59<14:33:27,  3.70it/s] 48%|████▊     | 177689/371472 [3:04:00<14:38:58,  3.67it/s] 48%|████▊     | 177690/371472 [3:04:00<16:35:16,  3.25it/s] 48%|████▊     | 177691/371472 [3:04:00<16:10:21,  3.33it/s] 48%|████▊     | 177692/371472 [3:04:01<16:16:56,  3.31it/s] 48%|████▊     | 177693/371472 [3:04:01<15:21:53,  3.50it/s] 48%|████▊     | 177694/371472 [3:04:01<15:34:25,  3.46it/s] 48%|████▊     | 177695/371472 [3:04:02<15:43:18,  3.42it/s] 48%|████▊     | 177696/371472 [3:04:02<15:20:18,  3.51it/s] 48%|████▊     | 177697/371472 [3:04:02<15:04:46,  3.57it/s] 48%|████▊     | 177698/371472 [3:04:02<14:41:59,  3.66it/s] 48%|████▊     | 177699/371472 [3:04:03<15:15:35,  3.53it/s] 48%|████▊     | 177700/371472 [3:04:03<14:37:41,  3.68it/s]                                                            {'loss': 3.0807, 'learning_rate': 5.697224676248142e-07, 'epoch': 7.65}
 48%|████▊     | 177700/371472 [3:04:03<14:37:41,  3.68it/s] 48%|████▊     | 177701/371472 [3:04:03<14:51:32,  3.62it/s] 48%|████▊     | 177702/371472 [3:04:03<14:32:11,  3.70it/s] 48%|████▊     | 177703/371472 [3:04:04<14:09:24,  3.80it/s] 48%|████▊     | 177704/371472 [3:04:04<13:49:41,  3.89it/s] 48%|████▊     | 177705/371472 [3:04:04<14:26:05,  3.73it/s] 48%|████▊     | 177706/371472 [3:04:05<15:00:48,  3.59it/s] 48%|████▊     | 177707/371472 [3:04:05<14:33:23,  3.70it/s] 48%|████▊     | 177708/371472 [3:04:05<14:19:31,  3.76it/s] 48%|████▊     | 177709/371472 [3:04:05<14:24:41,  3.73it/s] 48%|████▊     | 177710/371472 [3:04:06<15:38:46,  3.44it/s] 48%|████▊     | 177711/371472 [3:04:06<15:11:38,  3.54it/s] 48%|████▊     | 177712/371472 [3:04:06<15:22:08,  3.50it/s] 48%|████▊     | 177713/371472 [3:04:07<15:59:39,  3.37it/s] 48%|████▊     | 177714/371472 [3:04:07<16:40:28,  3.23it/s] 48%|████▊     | 177715/371472 [3:04:07<15:48:40,  3.40it/s] 48%|████▊     | 177716/371472 [3:04:07<15:45:52,  3.41it/s] 48%|████▊     | 177717/371472 [3:04:08<15:23:46,  3.50it/s] 48%|████▊     | 177718/371472 [3:04:08<16:17:59,  3.30it/s] 48%|████▊     | 177719/371472 [3:04:08<15:35:25,  3.45it/s] 48%|████▊     | 177720/371472 [3:04:09<16:32:19,  3.25it/s]                                                            {'loss': 3.0782, 'learning_rate': 5.696739856493352e-07, 'epoch': 7.65}
 48%|████▊     | 177720/371472 [3:04:09<16:32:19,  3.25it/s] 48%|████▊     | 177721/371472 [3:04:09<15:55:58,  3.38it/s] 48%|████▊     | 177722/371472 [3:04:09<16:49:57,  3.20it/s] 48%|████▊     | 177723/371472 [3:04:10<16:13:56,  3.32it/s] 48%|████▊     | 177724/371472 [3:04:10<15:48:01,  3.41it/s] 48%|████▊     | 177725/371472 [3:04:10<16:07:32,  3.34it/s] 48%|████▊     | 177726/371472 [3:04:10<16:07:33,  3.34it/s] 48%|████▊     | 177727/371472 [3:04:11<17:13:31,  3.12it/s] 48%|████▊     | 177728/371472 [3:04:11<17:28:13,  3.08it/s] 48%|████▊     | 177729/371472 [3:04:11<17:00:12,  3.17it/s] 48%|████▊     | 177730/371472 [3:04:12<16:35:18,  3.24it/s] 48%|████▊     | 177731/371472 [3:04:12<15:43:45,  3.42it/s] 48%|████▊     | 177732/371472 [3:04:12<16:10:07,  3.33it/s] 48%|████▊     | 177733/371472 [3:04:13<15:55:33,  3.38it/s] 48%|████▊     | 177734/371472 [3:04:13<15:35:31,  3.45it/s] 48%|████▊     | 177735/371472 [3:04:13<16:01:10,  3.36it/s] 48%|████▊     | 177736/371472 [3:04:13<15:44:41,  3.42it/s] 48%|████▊     | 177737/371472 [3:04:14<15:45:42,  3.41it/s] 48%|████▊     | 177738/371472 [3:04:14<15:09:18,  3.55it/s] 48%|████▊     | 177739/371472 [3:04:14<15:06:28,  3.56it/s] 48%|████▊     | 177740/371472 [3:04:15<14:50:39,  3.63it/s]                                                            {'loss': 2.9921, 'learning_rate': 5.696255036738563e-07, 'epoch': 7.66}
 48%|████▊     | 177740/371472 [3:04:15<14:50:39,  3.63it/s] 48%|████▊     | 177741/371472 [3:04:15<15:19:28,  3.51it/s] 48%|████▊     | 177742/371472 [3:04:15<14:39:32,  3.67it/s] 48%|████▊     | 177743/371472 [3:04:15<14:44:06,  3.65it/s] 48%|████▊     | 177744/371472 [3:04:16<15:07:35,  3.56it/s] 48%|████▊     | 177745/371472 [3:04:16<14:45:50,  3.64it/s] 48%|████▊     | 177746/371472 [3:04:16<15:04:32,  3.57it/s] 48%|████▊     | 177747/371472 [3:04:16<14:48:15,  3.63it/s] 48%|████▊     | 177748/371472 [3:04:17<14:20:57,  3.75it/s] 48%|████▊     | 177749/371472 [3:04:17<14:33:48,  3.70it/s] 48%|████▊     | 177750/371472 [3:04:17<14:33:02,  3.70it/s] 48%|████▊     | 177751/371472 [3:04:18<14:11:57,  3.79it/s] 48%|████▊     | 177752/371472 [3:04:18<14:22:09,  3.74it/s] 48%|████▊     | 177753/371472 [3:04:18<14:40:29,  3.67it/s] 48%|████▊     | 177754/371472 [3:04:18<15:46:47,  3.41it/s] 48%|████▊     | 177755/371472 [3:04:19<16:03:21,  3.35it/s] 48%|████▊     | 177756/371472 [3:04:19<15:15:43,  3.53it/s] 48%|████▊     | 177757/371472 [3:04:19<15:32:25,  3.46it/s] 48%|████▊     | 177758/371472 [3:04:20<14:56:20,  3.60it/s] 48%|████▊     | 177759/371472 [3:04:20<15:15:46,  3.53it/s] 48%|████▊     | 177760/371472 [3:04:20<15:15:56,  3.52it/s]                                                            {'loss': 3.1803, 'learning_rate': 5.695770216983774e-07, 'epoch': 7.66}
 48%|████▊     | 177760/371472 [3:04:20<15:15:56,  3.52it/s] 48%|████▊     | 177761/371472 [3:04:20<15:25:18,  3.49it/s] 48%|████▊     | 177762/371472 [3:04:21<16:12:12,  3.32it/s] 48%|████▊     | 177763/371472 [3:04:21<16:03:37,  3.35it/s] 48%|████▊     | 177764/371472 [3:04:21<15:57:50,  3.37it/s] 48%|████▊     | 177765/371472 [3:04:22<16:54:06,  3.18it/s] 48%|████▊     | 177766/371472 [3:04:22<16:41:00,  3.23it/s] 48%|████▊     | 177767/371472 [3:04:22<15:44:16,  3.42it/s] 48%|████▊     | 177768/371472 [3:04:23<15:32:04,  3.46it/s] 48%|████▊     | 177769/371472 [3:04:23<15:32:25,  3.46it/s] 48%|████▊     | 177770/371472 [3:04:23<15:24:17,  3.49it/s] 48%|████▊     | 177771/371472 [3:04:23<16:46:00,  3.21it/s] 48%|████▊     | 177772/371472 [3:04:24<16:13:45,  3.32it/s] 48%|████▊     | 177773/371472 [3:04:24<15:41:06,  3.43it/s] 48%|████▊     | 177774/371472 [3:04:24<17:25:32,  3.09it/s] 48%|████▊     | 177775/371472 [3:04:25<16:23:01,  3.28it/s] 48%|████▊     | 177776/371472 [3:04:25<17:15:44,  3.12it/s] 48%|████▊     | 177777/371472 [3:04:25<16:10:41,  3.33it/s] 48%|████▊     | 177778/371472 [3:04:26<15:57:55,  3.37it/s] 48%|████▊     | 177779/371472 [3:04:26<15:31:37,  3.47it/s] 48%|████▊     | 177780/371472 [3:04:26<15:20:54,  3.51it/s]                                                            {'loss': 2.9462, 'learning_rate': 5.695285397228986e-07, 'epoch': 7.66}
 48%|████▊     | 177780/371472 [3:04:26<15:20:54,  3.51it/s] 48%|████▊     | 177781/371472 [3:04:26<15:20:27,  3.51it/s] 48%|████▊     | 177782/371472 [3:04:27<15:25:24,  3.49it/s] 48%|████▊     | 177783/371472 [3:04:27<15:58:54,  3.37it/s] 48%|████▊     | 177784/371472 [3:04:27<15:26:06,  3.49it/s] 48%|████▊     | 177785/371472 [3:04:28<15:16:35,  3.52it/s] 48%|████▊     | 177786/371472 [3:04:28<15:14:17,  3.53it/s] 48%|████▊     | 177787/371472 [3:04:28<14:49:25,  3.63it/s] 48%|████▊     | 177788/371472 [3:04:28<14:22:02,  3.74it/s] 48%|████▊     | 177789/371472 [3:04:29<14:17:24,  3.76it/s] 48%|████▊     | 177790/371472 [3:04:29<14:33:59,  3.69it/s] 48%|████▊     | 177791/371472 [3:04:29<14:33:46,  3.69it/s] 48%|████▊     | 177792/371472 [3:04:29<14:25:10,  3.73it/s] 48%|████▊     | 177793/371472 [3:04:30<14:27:06,  3.72it/s] 48%|████▊     | 177794/371472 [3:04:30<14:29:47,  3.71it/s] 48%|████▊     | 177795/371472 [3:04:30<15:30:32,  3.47it/s] 48%|████▊     | 177796/371472 [3:04:31<15:12:51,  3.54it/s] 48%|████▊     | 177797/371472 [3:04:31<14:38:34,  3.67it/s] 48%|████▊     | 177798/371472 [3:04:31<14:06:24,  3.81it/s] 48%|████▊     | 177799/371472 [3:04:31<14:48:14,  3.63it/s] 48%|████▊     | 177800/371472 [3:04:32<15:21:47,  3.50it/s]                                                            {'loss': 3.1201, 'learning_rate': 5.694800577474196e-07, 'epoch': 7.66}
 48%|████▊     | 177800/371472 [3:04:32<15:21:47,  3.50it/s] 48%|████▊     | 177801/371472 [3:04:32<15:36:39,  3.45it/s] 48%|████▊     | 177802/371472 [3:04:32<15:38:42,  3.44it/s] 48%|████▊     | 177803/371472 [3:04:33<15:16:16,  3.52it/s] 48%|████▊     | 177804/371472 [3:04:33<15:02:17,  3.58it/s] 48%|████▊     | 177805/371472 [3:04:33<14:53:45,  3.61it/s] 48%|████▊     | 177806/371472 [3:04:33<15:23:29,  3.50it/s] 48%|████▊     | 177807/371472 [3:04:34<15:33:33,  3.46it/s] 48%|████▊     | 177808/371472 [3:04:34<15:10:17,  3.55it/s] 48%|████▊     | 177809/371472 [3:04:34<15:41:05,  3.43it/s] 48%|████▊     | 177810/371472 [3:04:35<16:01:33,  3.36it/s] 48%|████▊     | 177811/371472 [3:04:35<15:59:49,  3.36it/s] 48%|████▊     | 177812/371472 [3:04:35<15:56:21,  3.37it/s] 48%|████▊     | 177813/371472 [3:04:35<16:19:59,  3.29it/s] 48%|████▊     | 177814/371472 [3:04:36<15:42:08,  3.43it/s] 48%|████▊     | 177815/371472 [3:04:36<15:17:36,  3.52it/s] 48%|████▊     | 177816/371472 [3:04:36<15:01:24,  3.58it/s] 48%|████▊     | 177817/371472 [3:04:37<15:17:21,  3.52it/s] 48%|████▊     | 177818/371472 [3:04:37<15:43:10,  3.42it/s] 48%|████▊     | 177819/371472 [3:04:37<15:33:32,  3.46it/s] 48%|████▊     | 177820/371472 [3:04:37<15:24:49,  3.49it/s]                                                            {'loss': 3.0472, 'learning_rate': 5.694315757719407e-07, 'epoch': 7.66}
 48%|████▊     | 177820/371472 [3:04:37<15:24:49,  3.49it/s] 48%|████▊     | 177821/371472 [3:04:38<15:36:44,  3.45it/s] 48%|████▊     | 177822/371472 [3:04:38<18:30:07,  2.91it/s] 48%|████▊     | 177823/371472 [3:04:39<18:38:13,  2.89it/s] 48%|████▊     | 177824/371472 [3:04:39<17:23:13,  3.09it/s] 48%|████▊     | 177825/371472 [3:04:39<16:38:51,  3.23it/s] 48%|████▊     | 177826/371472 [3:04:39<15:36:50,  3.45it/s] 48%|████▊     | 177827/371472 [3:04:40<15:01:58,  3.58it/s] 48%|████▊     | 177828/371472 [3:04:40<14:55:44,  3.60it/s] 48%|████▊     | 177829/371472 [3:04:40<15:31:28,  3.46it/s] 48%|████▊     | 177830/371472 [3:04:41<17:35:08,  3.06it/s] 48%|████▊     | 177831/371472 [3:04:41<16:54:28,  3.18it/s] 48%|████▊     | 177832/371472 [3:04:41<15:56:08,  3.38it/s] 48%|████▊     | 177833/371472 [3:04:41<15:41:03,  3.43it/s] 48%|████▊     | 177834/371472 [3:04:42<15:10:50,  3.54it/s] 48%|████▊     | 177835/371472 [3:04:42<15:56:25,  3.37it/s] 48%|████▊     | 177836/371472 [3:04:42<15:58:43,  3.37it/s] 48%|████▊     | 177837/371472 [3:04:43<16:00:35,  3.36it/s] 48%|████▊     | 177838/371472 [3:04:43<15:44:13,  3.42it/s] 48%|████▊     | 177839/371472 [3:04:43<15:26:40,  3.48it/s] 48%|████▊     | 177840/371472 [3:04:43<15:08:58,  3.55it/s]                                                            {'loss': 3.2316, 'learning_rate': 5.693830937964619e-07, 'epoch': 7.66}
 48%|████▊     | 177840/371472 [3:04:43<15:08:58,  3.55it/s] 48%|████▊     | 177841/371472 [3:04:44<16:01:14,  3.36it/s] 48%|████▊     | 177842/371472 [3:04:44<15:33:29,  3.46it/s] 48%|████▊     | 177843/371472 [3:04:44<15:43:11,  3.42it/s] 48%|████▊     | 177844/371472 [3:04:45<15:22:31,  3.50it/s] 48%|████▊     | 177845/371472 [3:04:45<15:06:41,  3.56it/s] 48%|████▊     | 177846/371472 [3:04:45<15:59:21,  3.36it/s] 48%|████▊     | 177847/371472 [3:04:46<16:02:23,  3.35it/s] 48%|████▊     | 177848/371472 [3:04:46<15:10:51,  3.54it/s] 48%|████▊     | 177849/371472 [3:04:46<15:00:06,  3.59it/s] 48%|████▊     | 177850/371472 [3:04:46<14:50:59,  3.62it/s] 48%|████▊     | 177851/371472 [3:04:47<15:15:44,  3.52it/s] 48%|████▊     | 177852/371472 [3:04:47<15:36:31,  3.45it/s] 48%|████▊     | 177853/371472 [3:04:47<15:20:39,  3.51it/s] 48%|████▊     | 177854/371472 [3:04:47<15:24:31,  3.49it/s] 48%|████▊     | 177855/371472 [3:04:48<15:24:42,  3.49it/s] 48%|████▊     | 177856/371472 [3:04:48<15:31:48,  3.46it/s] 48%|████▊     | 177857/371472 [3:04:48<15:13:58,  3.53it/s] 48%|████▊     | 177858/371472 [3:04:49<14:58:35,  3.59it/s] 48%|████▊     | 177859/371472 [3:04:49<15:07:57,  3.55it/s] 48%|████▊     | 177860/371472 [3:04:49<15:47:26,  3.41it/s]                                                            {'loss': 3.0168, 'learning_rate': 5.69334611820983e-07, 'epoch': 7.66}
 48%|████▊     | 177860/371472 [3:04:49<15:47:26,  3.41it/s] 48%|████▊     | 177861/371472 [3:04:49<15:54:49,  3.38it/s] 48%|████▊     | 177862/371472 [3:04:50<15:29:12,  3.47it/s] 48%|████▊     | 177863/371472 [3:04:50<15:19:26,  3.51it/s] 48%|████▊     | 177864/371472 [3:04:50<15:10:47,  3.54it/s] 48%|████▊     | 177865/371472 [3:04:51<15:45:59,  3.41it/s] 48%|████▊     | 177866/371472 [3:04:51<15:52:21,  3.39it/s] 48%|████▊     | 177867/371472 [3:04:51<15:08:59,  3.55it/s] 48%|████▊     | 177868/371472 [3:04:51<15:13:26,  3.53it/s] 48%|████▊     | 177869/371472 [3:04:52<15:40:25,  3.43it/s] 48%|████▊     | 177870/371472 [3:04:52<15:29:44,  3.47it/s] 48%|████▊     | 177871/371472 [3:04:52<15:17:58,  3.51it/s] 48%|████▊     | 177872/371472 [3:04:53<16:26:42,  3.27it/s] 48%|████▊     | 177873/371472 [3:04:53<16:24:13,  3.28it/s] 48%|████▊     | 177874/371472 [3:04:53<15:55:53,  3.38it/s] 48%|████▊     | 177875/371472 [3:04:54<18:16:56,  2.94it/s] 48%|████▊     | 177876/371472 [3:04:54<17:20:47,  3.10it/s] 48%|████▊     | 177877/371472 [3:04:54<16:03:14,  3.35it/s] 48%|████▊     | 177878/371472 [3:04:55<15:43:24,  3.42it/s] 48%|████▊     | 177879/371472 [3:04:55<15:57:24,  3.37it/s] 48%|████▊     | 177880/371472 [3:04:55<16:46:16,  3.21it/s]                                                            {'loss': 2.9376, 'learning_rate': 5.69286129845504e-07, 'epoch': 7.66}
 48%|████▊     | 177880/371472 [3:04:55<16:46:16,  3.21it/s] 48%|████▊     | 177881/371472 [3:04:55<16:14:26,  3.31it/s] 48%|████▊     | 177882/371472 [3:04:56<15:43:07,  3.42it/s] 48%|████▊     | 177883/371472 [3:04:56<17:23:36,  3.09it/s] 48%|████▊     | 177884/371472 [3:04:56<17:09:30,  3.13it/s] 48%|████▊     | 177885/371472 [3:04:57<16:12:25,  3.32it/s] 48%|████▊     | 177886/371472 [3:04:57<16:15:45,  3.31it/s] 48%|████▊     | 177887/371472 [3:04:57<15:47:57,  3.40it/s] 48%|████▊     | 177888/371472 [3:04:58<16:40:28,  3.22it/s] 48%|████▊     | 177889/371472 [3:04:58<17:20:24,  3.10it/s] 48%|████▊     | 177890/371472 [3:04:58<16:41:51,  3.22it/s] 48%|████▊     | 177891/371472 [3:04:59<16:15:57,  3.31it/s] 48%|████▊     | 177892/371472 [3:04:59<15:24:26,  3.49it/s] 48%|████▊     | 177893/371472 [3:04:59<14:53:29,  3.61it/s] 48%|████▊     | 177894/371472 [3:04:59<14:40:20,  3.66it/s] 48%|████▊     | 177895/371472 [3:05:00<14:22:44,  3.74it/s] 48%|████▊     | 177896/371472 [3:05:00<16:28:52,  3.26it/s] 48%|████▊     | 177897/371472 [3:05:00<16:09:00,  3.33it/s] 48%|████▊     | 177898/371472 [3:05:01<15:50:42,  3.39it/s] 48%|████▊     | 177899/371472 [3:05:01<15:42:24,  3.42it/s] 48%|████▊     | 177900/371472 [3:05:01<15:10:09,  3.54it/s]                                                            {'loss': 3.0982, 'learning_rate': 5.692376478700252e-07, 'epoch': 7.66}
 48%|████▊     | 177900/371472 [3:05:01<15:10:09,  3.54it/s] 48%|████▊     | 177901/371472 [3:05:01<14:59:40,  3.59it/s] 48%|████▊     | 177902/371472 [3:05:02<14:37:52,  3.67it/s] 48%|████▊     | 177903/371472 [3:05:02<14:20:15,  3.75it/s] 48%|████▊     | 177904/371472 [3:05:02<14:57:17,  3.60it/s] 48%|████▊     | 177905/371472 [3:05:02<15:13:34,  3.53it/s] 48%|████▊     | 177906/371472 [3:05:03<15:25:46,  3.48it/s] 48%|████▊     | 177907/371472 [3:05:03<14:45:06,  3.64it/s] 48%|████▊     | 177908/371472 [3:05:03<14:25:31,  3.73it/s] 48%|████▊     | 177909/371472 [3:05:04<14:23:15,  3.74it/s] 48%|████▊     | 177910/371472 [3:05:04<14:14:58,  3.77it/s] 48%|████▊     | 177911/371472 [3:05:04<15:37:28,  3.44it/s] 48%|████▊     | 177912/371472 [3:05:04<16:01:46,  3.35it/s] 48%|████▊     | 177913/371472 [3:05:05<15:08:32,  3.55it/s] 48%|████▊     | 177914/371472 [3:05:05<14:52:30,  3.61it/s] 48%|████▊     | 177915/371472 [3:05:05<15:35:11,  3.45it/s] 48%|████▊     | 177916/371472 [3:05:06<15:37:38,  3.44it/s] 48%|████▊     | 177917/371472 [3:05:06<15:10:53,  3.54it/s] 48%|████▊     | 177918/371472 [3:05:06<14:27:48,  3.72it/s] 48%|████▊     | 177919/371472 [3:05:06<14:22:39,  3.74it/s] 48%|████▊     | 177920/371472 [3:05:07<14:41:44,  3.66it/s]                                                            {'loss': 3.1032, 'learning_rate': 5.691891658945463e-07, 'epoch': 7.66}
 48%|████▊     | 177920/371472 [3:05:07<14:41:44,  3.66it/s] 48%|████▊     | 177921/371472 [3:05:07<15:09:25,  3.55it/s] 48%|████▊     | 177922/371472 [3:05:07<14:45:49,  3.64it/s] 48%|████▊     | 177923/371472 [3:05:07<14:15:09,  3.77it/s] 48%|████▊     | 177924/371472 [3:05:08<13:53:52,  3.87it/s] 48%|████▊     | 177925/371472 [3:05:08<13:48:26,  3.89it/s] 48%|████▊     | 177926/371472 [3:05:08<13:59:17,  3.84it/s] 48%|████▊     | 177927/371472 [3:05:08<14:29:27,  3.71it/s] 48%|████▊     | 177928/371472 [3:05:09<14:16:53,  3.76it/s] 48%|████▊     | 177929/371472 [3:05:09<14:40:52,  3.66it/s] 48%|████▊     | 177930/371472 [3:05:09<14:45:53,  3.64it/s] 48%|████▊     | 177931/371472 [3:05:10<14:20:04,  3.75it/s] 48%|████▊     | 177932/371472 [3:05:10<14:25:39,  3.73it/s] 48%|████▊     | 177933/371472 [3:05:10<14:09:19,  3.80it/s] 48%|████▊     | 177934/371472 [3:05:10<15:09:08,  3.55it/s] 48%|████▊     | 177935/371472 [3:05:11<14:44:58,  3.64it/s] 48%|████▊     | 177936/371472 [3:05:11<15:14:52,  3.53it/s] 48%|████▊     | 177937/371472 [3:05:11<15:03:48,  3.57it/s] 48%|████▊     | 177938/371472 [3:05:11<15:04:41,  3.57it/s] 48%|████▊     | 177939/371472 [3:05:12<16:25:11,  3.27it/s] 48%|████▊     | 177940/371472 [3:05:12<15:57:46,  3.37it/s]                                                            {'loss': 2.9848, 'learning_rate': 5.691406839190675e-07, 'epoch': 7.66}
 48%|████▊     | 177940/371472 [3:05:12<15:57:46,  3.37it/s] 48%|████▊     | 177941/371472 [3:05:13<17:00:05,  3.16it/s] 48%|████▊     | 177942/371472 [3:05:13<16:06:16,  3.34it/s] 48%|████▊     | 177943/371472 [3:05:13<15:44:21,  3.42it/s] 48%|████▊     | 177944/371472 [3:05:13<15:04:37,  3.57it/s] 48%|████▊     | 177945/371472 [3:05:14<15:14:42,  3.53it/s] 48%|████▊     | 177946/371472 [3:05:14<14:45:41,  3.64it/s] 48%|████▊     | 177947/371472 [3:05:14<14:44:33,  3.65it/s] 48%|████▊     | 177948/371472 [3:05:14<14:12:54,  3.78it/s] 48%|████▊     | 177949/371472 [3:05:15<14:02:15,  3.83it/s] 48%|████▊     | 177950/371472 [3:05:15<14:27:11,  3.72it/s] 48%|████▊     | 177951/371472 [3:05:15<15:10:44,  3.54it/s] 48%|████▊     | 177952/371472 [3:05:15<14:54:39,  3.61it/s] 48%|████▊     | 177953/371472 [3:05:16<15:31:34,  3.46it/s] 48%|████▊     | 177954/371472 [3:05:16<16:33:20,  3.25it/s] 48%|████▊     | 177955/371472 [3:05:16<16:15:30,  3.31it/s] 48%|████▊     | 177956/371472 [3:05:17<15:43:58,  3.42it/s] 48%|████▊     | 177957/371472 [3:05:17<15:33:36,  3.45it/s] 48%|████▊     | 177958/371472 [3:05:17<17:12:08,  3.12it/s] 48%|████▊     | 177959/371472 [3:05:18<16:14:36,  3.31it/s] 48%|████▊     | 177960/371472 [3:05:18<16:34:23,  3.24it/s]                                                            {'loss': 2.9608, 'learning_rate': 5.690922019435885e-07, 'epoch': 7.67}
 48%|████▊     | 177960/371472 [3:05:18<16:34:23,  3.24it/s] 48%|████▊     | 177961/371472 [3:05:18<16:05:08,  3.34it/s] 48%|████▊     | 177962/371472 [3:05:19<15:37:15,  3.44it/s] 48%|████▊     | 177963/371472 [3:05:19<15:29:19,  3.47it/s] 48%|████▊     | 177964/371472 [3:05:19<15:08:29,  3.55it/s] 48%|████▊     | 177965/371472 [3:05:19<15:11:35,  3.54it/s] 48%|████▊     | 177966/371472 [3:05:20<15:45:02,  3.41it/s] 48%|████▊     | 177967/371472 [3:05:20<16:39:26,  3.23it/s] 48%|████▊     | 177968/371472 [3:05:20<16:08:11,  3.33it/s] 48%|████▊     | 177969/371472 [3:05:21<16:54:09,  3.18it/s] 48%|████▊     | 177970/371472 [3:05:21<16:27:29,  3.27it/s] 48%|████▊     | 177971/371472 [3:05:21<15:59:26,  3.36it/s] 48%|████▊     | 177972/371472 [3:05:21<15:20:33,  3.50it/s] 48%|████▊     | 177973/371472 [3:05:22<14:52:14,  3.61it/s] 48%|████▊     | 177974/371472 [3:05:22<15:19:41,  3.51it/s] 48%|████▊     | 177975/371472 [3:05:22<15:52:22,  3.39it/s] 48%|████▊     | 177976/371472 [3:05:23<16:51:28,  3.19it/s] 48%|████▊     | 177977/371472 [3:05:23<15:51:41,  3.39it/s] 48%|████▊     | 177978/371472 [3:05:23<15:44:40,  3.41it/s] 48%|████▊     | 177979/371472 [3:05:24<15:29:11,  3.47it/s] 48%|████▊     | 177980/371472 [3:05:24<15:01:12,  3.58it/s]                                                            {'loss': 2.9657, 'learning_rate': 5.690437199681096e-07, 'epoch': 7.67}
 48%|████▊     | 177980/371472 [3:05:24<15:01:12,  3.58it/s] 48%|████▊     | 177981/371472 [3:05:24<14:57:10,  3.59it/s] 48%|████▊     | 177982/371472 [3:05:24<14:25:12,  3.73it/s] 48%|████▊     | 177983/371472 [3:05:25<14:05:06,  3.82it/s] 48%|████▊     | 177984/371472 [3:05:25<14:15:47,  3.77it/s] 48%|████▊     | 177985/371472 [3:05:25<16:33:34,  3.25it/s] 48%|████▊     | 177986/371472 [3:05:25<15:43:54,  3.42it/s] 48%|████▊     | 177987/371472 [3:05:26<15:23:21,  3.49it/s] 48%|████▊     | 177988/371472 [3:05:26<15:30:07,  3.47it/s] 48%|████▊     | 177989/371472 [3:05:26<15:12:28,  3.53it/s] 48%|████▊     | 177990/371472 [3:05:27<15:04:13,  3.57it/s] 48%|████▊     | 177991/371472 [3:05:27<14:50:17,  3.62it/s] 48%|████▊     | 177992/371472 [3:05:27<14:39:06,  3.67it/s] 48%|████▊     | 177993/371472 [3:05:27<15:03:45,  3.57it/s] 48%|████▊     | 177994/371472 [3:05:28<15:12:20,  3.53it/s] 48%|████▊     | 177995/371472 [3:05:28<15:00:16,  3.58it/s] 48%|████▊     | 177996/371472 [3:05:28<14:53:26,  3.61it/s] 48%|████▊     | 177997/371472 [3:05:29<16:59:11,  3.16it/s] 48%|████▊     | 177998/371472 [3:05:29<17:07:06,  3.14it/s] 48%|████▊     | 177999/371472 [3:05:29<17:10:01,  3.13it/s] 48%|████▊     | 178000/371472 [3:05:30<18:19:16,  2.93it/s]                                                            {'loss': 3.0079, 'learning_rate': 5.689952379926307e-07, 'epoch': 7.67}
 48%|████▊     | 178000/371472 [3:05:30<18:19:16,  2.93it/s] 48%|████▊     | 178001/371472 [3:05:30<17:35:11,  3.06it/s] 48%|████▊     | 178002/371472 [3:05:30<17:14:22,  3.12it/s] 48%|████▊     | 178003/371472 [3:05:31<15:49:56,  3.39it/s] 48%|████▊     | 178004/371472 [3:05:31<16:03:09,  3.35it/s] 48%|████▊     | 178005/371472 [3:05:31<16:07:02,  3.33it/s] 48%|████▊     | 178006/371472 [3:05:31<15:26:49,  3.48it/s] 48%|████▊     | 178007/371472 [3:05:32<15:15:48,  3.52it/s] 48%|████▊     | 178008/371472 [3:05:32<15:02:43,  3.57it/s] 48%|████▊     | 178009/371472 [3:05:32<15:18:44,  3.51it/s] 48%|████▊     | 178010/371472 [3:05:32<14:52:45,  3.61it/s] 48%|████▊     | 178011/371472 [3:05:33<14:42:26,  3.65it/s] 48%|████▊     | 178012/371472 [3:05:33<14:08:06,  3.80it/s] 48%|████▊     | 178013/371472 [3:05:33<13:57:25,  3.85it/s] 48%|████▊     | 178014/371472 [3:05:34<14:04:59,  3.82it/s] 48%|████▊     | 178015/371472 [3:05:34<14:21:35,  3.74it/s] 48%|████▊     | 178016/371472 [3:05:34<14:19:19,  3.75it/s] 48%|████▊     | 178017/371472 [3:05:34<14:04:46,  3.82it/s] 48%|████▊     | 178018/371472 [3:05:35<14:21:05,  3.74it/s] 48%|████▊     | 178019/371472 [3:05:35<15:13:28,  3.53it/s] 48%|████▊     | 178020/371472 [3:05:35<16:10:42,  3.32it/s]                                                            {'loss': 2.9899, 'learning_rate': 5.68946756017152e-07, 'epoch': 7.67}
 48%|████▊     | 178020/371472 [3:05:35<16:10:42,  3.32it/s] 48%|████▊     | 178021/371472 [3:05:36<16:07:54,  3.33it/s] 48%|████▊     | 178022/371472 [3:05:36<15:44:09,  3.41it/s] 48%|████▊     | 178023/371472 [3:05:36<15:53:21,  3.38it/s] 48%|████▊     | 178024/371472 [3:05:36<15:35:43,  3.45it/s] 48%|████▊     | 178025/371472 [3:05:37<15:20:24,  3.50it/s] 48%|████▊     | 178026/371472 [3:05:37<15:17:15,  3.51it/s] 48%|████▊     | 178027/371472 [3:05:37<14:59:56,  3.58it/s] 48%|████▊     | 178028/371472 [3:05:37<14:39:18,  3.67it/s] 48%|████▊     | 178029/371472 [3:05:38<14:22:15,  3.74it/s] 48%|████▊     | 178030/371472 [3:05:38<14:48:15,  3.63it/s] 48%|████▊     | 178031/371472 [3:05:38<15:27:54,  3.47it/s] 48%|████▊     | 178032/371472 [3:05:39<15:05:08,  3.56it/s] 48%|████▊     | 178033/371472 [3:05:39<15:12:51,  3.53it/s] 48%|████▊     | 178034/371472 [3:05:39<15:06:34,  3.56it/s] 48%|████▊     | 178035/371472 [3:05:39<15:29:13,  3.47it/s] 48%|████▊     | 178036/371472 [3:05:40<14:52:57,  3.61it/s] 48%|████▊     | 178037/371472 [3:05:40<14:26:24,  3.72it/s] 48%|████▊     | 178038/371472 [3:05:40<14:33:10,  3.69it/s] 48%|████▊     | 178039/371472 [3:05:41<14:35:48,  3.68it/s] 48%|████▊     | 178040/371472 [3:05:41<14:44:13,  3.65it/s]                                                            {'loss': 2.951, 'learning_rate': 5.688982740416729e-07, 'epoch': 7.67}
 48%|████▊     | 178040/371472 [3:05:41<14:44:13,  3.65it/s] 48%|████▊     | 178041/371472 [3:05:41<15:08:48,  3.55it/s] 48%|████▊     | 178042/371472 [3:05:41<14:59:10,  3.59it/s] 48%|████▊     | 178043/371472 [3:05:42<15:27:29,  3.48it/s] 48%|████▊     | 178044/371472 [3:05:42<15:10:15,  3.54it/s] 48%|████▊     | 178045/371472 [3:05:42<15:06:20,  3.56it/s] 48%|████▊     | 178046/371472 [3:05:43<15:40:07,  3.43it/s] 48%|████▊     | 178047/371472 [3:05:43<16:20:15,  3.29it/s] 48%|████▊     | 178048/371472 [3:05:43<15:57:05,  3.37it/s] 48%|████▊     | 178049/371472 [3:05:43<16:13:43,  3.31it/s] 48%|████▊     | 178050/371472 [3:05:44<16:04:47,  3.34it/s] 48%|████▊     | 178051/371472 [3:05:44<15:42:06,  3.42it/s] 48%|████▊     | 178052/371472 [3:05:44<15:11:19,  3.54it/s] 48%|████▊     | 178053/371472 [3:05:45<15:35:32,  3.45it/s] 48%|████▊     | 178054/371472 [3:05:45<15:31:43,  3.46it/s] 48%|████▊     | 178055/371472 [3:05:45<15:45:51,  3.41it/s] 48%|████▊     | 178056/371472 [3:05:45<15:28:21,  3.47it/s] 48%|████▊     | 178057/371472 [3:05:46<15:41:10,  3.43it/s] 48%|████▊     | 178058/371472 [3:05:46<16:23:30,  3.28it/s] 48%|████▊     | 178059/371472 [3:05:46<16:12:07,  3.32it/s] 48%|████▊     | 178060/371472 [3:05:47<16:36:09,  3.24it/s]                                                            {'loss': 3.1083, 'learning_rate': 5.68849792066194e-07, 'epoch': 7.67}
 48%|████▊     | 178060/371472 [3:05:47<16:36:09,  3.24it/s] 48%|████▊     | 178061/371472 [3:05:47<16:56:06,  3.17it/s] 48%|████▊     | 178062/371472 [3:05:47<16:53:42,  3.18it/s] 48%|████▊     | 178063/371472 [3:05:48<18:06:17,  2.97it/s] 48%|████▊     | 178064/371472 [3:05:48<16:43:29,  3.21it/s] 48%|████▊     | 178065/371472 [3:05:48<16:14:58,  3.31it/s] 48%|████▊     | 178066/371472 [3:05:49<16:20:57,  3.29it/s] 48%|████▊     | 178067/371472 [3:05:49<15:51:43,  3.39it/s] 48%|████▊     | 178068/371472 [3:05:49<15:35:06,  3.45it/s] 48%|████▊     | 178069/371472 [3:05:49<15:18:41,  3.51it/s] 48%|████▊     | 178070/371472 [3:05:50<15:05:44,  3.56it/s] 48%|████▊     | 178071/371472 [3:05:50<14:47:31,  3.63it/s] 48%|████▊     | 178072/371472 [3:05:50<15:11:58,  3.53it/s] 48%|████▊     | 178073/371472 [3:05:51<15:26:09,  3.48it/s] 48%|████▊     | 178074/371472 [3:05:51<15:21:17,  3.50it/s] 48%|████▊     | 178075/371472 [3:05:51<16:08:41,  3.33it/s] 48%|████▊     | 178076/371472 [3:05:51<15:50:57,  3.39it/s] 48%|████▊     | 178077/371472 [3:05:52<15:21:51,  3.50it/s] 48%|████▊     | 178078/371472 [3:05:52<15:03:52,  3.57it/s] 48%|████▊     | 178079/371472 [3:05:52<15:22:23,  3.49it/s] 48%|████▊     | 178080/371472 [3:05:53<14:40:06,  3.66it/s]                                                            {'loss': 3.0404, 'learning_rate': 5.688013100907152e-07, 'epoch': 7.67}
 48%|████▊     | 178080/371472 [3:05:53<14:40:06,  3.66it/s] 48%|████▊     | 178081/371472 [3:05:53<14:38:14,  3.67it/s] 48%|████▊     | 178082/371472 [3:05:53<14:50:37,  3.62it/s] 48%|████▊     | 178083/371472 [3:05:53<16:12:59,  3.31it/s] 48%|████▊     | 178084/371472 [3:05:54<15:38:07,  3.44it/s] 48%|████▊     | 178085/371472 [3:05:54<15:38:02,  3.44it/s] 48%|████▊     | 178086/371472 [3:05:54<16:05:32,  3.34it/s] 48%|████▊     | 178087/371472 [3:05:55<16:36:38,  3.23it/s] 48%|████▊     | 178088/371472 [3:05:55<16:00:05,  3.36it/s] 48%|████▊     | 178089/371472 [3:05:55<15:33:56,  3.45it/s] 48%|████▊     | 178090/371472 [3:05:56<15:34:37,  3.45it/s] 48%|████▊     | 178091/371472 [3:05:56<15:28:56,  3.47it/s] 48%|████▊     | 178092/371472 [3:05:56<15:05:05,  3.56it/s] 48%|████▊     | 178093/371472 [3:05:56<15:24:51,  3.48it/s] 48%|████▊     | 178094/371472 [3:05:57<14:48:16,  3.63it/s] 48%|████▊     | 178095/371472 [3:05:57<16:00:58,  3.35it/s] 48%|████▊     | 178096/371472 [3:05:57<15:53:48,  3.38it/s] 48%|████▊     | 178097/371472 [3:05:57<15:11:39,  3.54it/s] 48%|████▊     | 178098/371472 [3:05:58<16:44:45,  3.21it/s] 48%|████▊     | 178099/371472 [3:05:58<16:57:51,  3.17it/s] 48%|████▊     | 178100/371472 [3:05:59<17:27:56,  3.08it/s]                                                            {'loss': 3.0165, 'learning_rate': 5.687528281152362e-07, 'epoch': 7.67}
 48%|████▊     | 178100/371472 [3:05:59<17:27:56,  3.08it/s] 48%|████▊     | 178101/371472 [3:05:59<16:13:33,  3.31it/s] 48%|████▊     | 178102/371472 [3:05:59<15:33:03,  3.45it/s] 48%|████▊     | 178103/371472 [3:05:59<15:43:04,  3.42it/s] 48%|████▊     | 178104/371472 [3:06:00<15:18:31,  3.51it/s] 48%|████▊     | 178105/371472 [3:06:00<14:59:56,  3.58it/s] 48%|████▊     | 178106/371472 [3:06:00<14:53:48,  3.61it/s] 48%|████▊     | 178107/371472 [3:06:00<15:23:48,  3.49it/s] 48%|████▊     | 178108/371472 [3:06:01<15:52:24,  3.38it/s] 48%|████▊     | 178109/371472 [3:06:01<15:20:28,  3.50it/s] 48%|████▊     | 178110/371472 [3:06:01<14:40:59,  3.66it/s] 48%|████▊     | 178111/371472 [3:06:02<14:24:00,  3.73it/s] 48%|████▊     | 178112/371472 [3:06:02<14:02:20,  3.83it/s] 48%|████▊     | 178113/371472 [3:06:02<14:31:49,  3.70it/s] 48%|████▊     | 178114/371472 [3:06:02<14:11:20,  3.79it/s] 48%|████▊     | 178115/371472 [3:06:03<14:19:32,  3.75it/s] 48%|████▊     | 178116/371472 [3:06:03<14:21:46,  3.74it/s] 48%|████▊     | 178117/371472 [3:06:03<15:30:26,  3.46it/s] 48%|████▊     | 178118/371472 [3:06:03<14:37:03,  3.67it/s] 48%|████▊     | 178119/371472 [3:06:04<14:23:58,  3.73it/s] 48%|████▊     | 178120/371472 [3:06:04<13:51:18,  3.88it/s]                                                            {'loss': 3.188, 'learning_rate': 5.687043461397573e-07, 'epoch': 7.67}
 48%|████▊     | 178120/371472 [3:06:04<13:51:18,  3.88it/s] 48%|████▊     | 178121/371472 [3:06:04<14:43:08,  3.65it/s] 48%|████▊     | 178122/371472 [3:06:05<15:22:20,  3.49it/s] 48%|████▊     | 178123/371472 [3:06:05<14:48:45,  3.63it/s] 48%|████▊     | 178124/371472 [3:06:05<14:42:02,  3.65it/s] 48%|████▊     | 178125/371472 [3:06:05<15:42:05,  3.42it/s] 48%|████▊     | 178126/371472 [3:06:06<15:25:28,  3.48it/s] 48%|████▊     | 178127/371472 [3:06:06<15:31:28,  3.46it/s] 48%|████▊     | 178128/371472 [3:06:06<15:22:20,  3.49it/s] 48%|████▊     | 178129/371472 [3:06:07<16:13:55,  3.31it/s] 48%|████▊     | 178130/371472 [3:06:07<15:38:16,  3.43it/s] 48%|████▊     | 178131/371472 [3:06:07<16:13:25,  3.31it/s] 48%|████▊     | 178132/371472 [3:06:08<16:30:37,  3.25it/s] 48%|████▊     | 178133/371472 [3:06:08<15:43:15,  3.42it/s] 48%|████▊     | 178134/371472 [3:06:08<15:02:14,  3.57it/s] 48%|████▊     | 178135/371472 [3:06:08<14:37:26,  3.67it/s] 48%|████▊     | 178136/371472 [3:06:09<16:02:05,  3.35it/s] 48%|████▊     | 178137/371472 [3:06:09<15:39:12,  3.43it/s] 48%|████▊     | 178138/371472 [3:06:09<15:19:47,  3.50it/s] 48%|████▊     | 178139/371472 [3:06:10<18:02:08,  2.98it/s] 48%|████▊     | 178140/371472 [3:06:10<18:24:09,  2.92it/s]                                                            {'loss': 2.9729, 'learning_rate': 5.686558641642784e-07, 'epoch': 7.67}
 48%|████▊     | 178140/371472 [3:06:10<18:24:09,  2.92it/s] 48%|████▊     | 178141/371472 [3:06:10<17:23:13,  3.09it/s] 48%|████▊     | 178142/371472 [3:06:11<16:39:35,  3.22it/s] 48%|████▊     | 178143/371472 [3:06:11<16:58:01,  3.17it/s] 48%|████▊     | 178144/371472 [3:06:11<16:10:50,  3.32it/s] 48%|████▊     | 178145/371472 [3:06:11<16:23:44,  3.28it/s] 48%|████▊     | 178146/371472 [3:06:12<15:46:13,  3.41it/s] 48%|████▊     | 178147/371472 [3:06:12<15:14:25,  3.52it/s] 48%|████▊     | 178148/371472 [3:06:12<15:15:44,  3.52it/s] 48%|████▊     | 178149/371472 [3:06:13<14:54:48,  3.60it/s] 48%|████▊     | 178150/371472 [3:06:13<15:17:15,  3.51it/s] 48%|████▊     | 178151/371472 [3:06:13<15:50:49,  3.39it/s] 48%|████▊     | 178152/371472 [3:06:13<15:56:14,  3.37it/s] 48%|████▊     | 178153/371472 [3:06:14<16:47:26,  3.20it/s] 48%|████▊     | 178154/371472 [3:06:14<17:02:50,  3.15it/s] 48%|████▊     | 178155/371472 [3:06:14<16:30:43,  3.25it/s] 48%|████▊     | 178156/371472 [3:06:15<15:48:48,  3.40it/s] 48%|████▊     | 178157/371472 [3:06:15<15:14:10,  3.52it/s] 48%|████▊     | 178158/371472 [3:06:15<14:58:12,  3.59it/s] 48%|████▊     | 178159/371472 [3:06:15<14:43:18,  3.65it/s] 48%|████▊     | 178160/371472 [3:06:16<14:30:18,  3.70it/s]                                                            {'loss': 3.1773, 'learning_rate': 5.686073821887996e-07, 'epoch': 7.67}
 48%|████▊     | 178160/371472 [3:06:16<14:30:18,  3.70it/s] 48%|████▊     | 178161/371472 [3:06:16<14:10:45,  3.79it/s] 48%|████▊     | 178162/371472 [3:06:16<15:17:00,  3.51it/s] 48%|████▊     | 178163/371472 [3:06:17<15:24:06,  3.49it/s] 48%|████▊     | 178164/371472 [3:06:17<15:23:26,  3.49it/s] 48%|████▊     | 178165/371472 [3:06:17<17:35:53,  3.05it/s] 48%|████▊     | 178166/371472 [3:06:18<16:32:34,  3.25it/s] 48%|████▊     | 178167/371472 [3:06:18<16:37:50,  3.23it/s] 48%|████▊     | 178168/371472 [3:06:18<16:25:30,  3.27it/s] 48%|████▊     | 178169/371472 [3:06:18<15:50:36,  3.39it/s] 48%|████▊     | 178170/371472 [3:06:19<15:04:45,  3.56it/s] 48%|████▊     | 178171/371472 [3:06:19<15:15:17,  3.52it/s] 48%|████▊     | 178172/371472 [3:06:19<15:14:35,  3.52it/s] 48%|████▊     | 178173/371472 [3:06:20<14:33:33,  3.69it/s] 48%|████▊     | 178174/371472 [3:06:20<15:01:15,  3.57it/s] 48%|████▊     | 178175/371472 [3:06:20<15:05:24,  3.56it/s] 48%|████▊     | 178176/371472 [3:06:20<14:44:46,  3.64it/s] 48%|████▊     | 178177/371472 [3:06:21<14:41:19,  3.66it/s] 48%|████▊     | 178178/371472 [3:06:21<14:22:20,  3.74it/s] 48%|████▊     | 178179/371472 [3:06:21<14:47:07,  3.63it/s] 48%|████▊     | 178180/371472 [3:06:21<14:49:52,  3.62it/s]                                                            {'loss': 3.0372, 'learning_rate': 5.685589002133207e-07, 'epoch': 7.67}
 48%|████▊     | 178180/371472 [3:06:21<14:49:52,  3.62it/s] 48%|████▊     | 178181/371472 [3:06:22<15:00:03,  3.58it/s] 48%|████▊     | 178182/371472 [3:06:22<15:10:15,  3.54it/s] 48%|████▊     | 178183/371472 [3:06:22<16:11:29,  3.32it/s] 48%|████▊     | 178184/371472 [3:06:23<16:27:05,  3.26it/s] 48%|████▊     | 178185/371472 [3:06:23<17:19:38,  3.10it/s] 48%|████▊     | 178186/371472 [3:06:23<16:06:05,  3.33it/s] 48%|████▊     | 178187/371472 [3:06:24<15:35:53,  3.44it/s] 48%|████▊     | 178188/371472 [3:06:24<15:22:43,  3.49it/s] 48%|████▊     | 178189/371472 [3:06:24<15:38:20,  3.43it/s] 48%|████▊     | 178190/371472 [3:06:24<15:12:35,  3.53it/s] 48%|████▊     | 178191/371472 [3:06:25<15:22:35,  3.49it/s] 48%|████▊     | 178192/371472 [3:06:25<14:48:53,  3.62it/s] 48%|████▊     | 178193/371472 [3:06:25<14:16:19,  3.76it/s] 48%|████▊     | 178194/371472 [3:06:26<15:28:16,  3.47it/s] 48%|████▊     | 178195/371472 [3:06:26<16:31:55,  3.25it/s] 48%|████▊     | 178196/371472 [3:06:26<16:22:09,  3.28it/s] 48%|████▊     | 178197/371472 [3:06:27<16:05:04,  3.34it/s] 48%|████▊     | 178198/371472 [3:06:27<16:45:28,  3.20it/s] 48%|████▊     | 178199/371472 [3:06:27<15:38:02,  3.43it/s] 48%|████▊     | 178200/371472 [3:06:27<15:15:42,  3.52it/s]                                                            {'loss': 2.9062, 'learning_rate': 5.685104182378418e-07, 'epoch': 7.68}
 48%|████▊     | 178200/371472 [3:06:27<15:15:42,  3.52it/s] 48%|████▊     | 178201/371472 [3:06:28<16:44:50,  3.21it/s] 48%|████▊     | 178202/371472 [3:06:28<15:55:37,  3.37it/s] 48%|████▊     | 178203/371472 [3:06:28<15:48:56,  3.39it/s] 48%|████▊     | 178204/371472 [3:06:29<15:26:17,  3.48it/s] 48%|████▊     | 178205/371472 [3:06:29<14:45:28,  3.64it/s] 48%|████▊     | 178206/371472 [3:06:29<14:52:20,  3.61it/s] 48%|████▊     | 178207/371472 [3:06:29<14:51:03,  3.61it/s] 48%|████▊     | 178208/371472 [3:06:30<14:46:42,  3.63it/s] 48%|████▊     | 178209/371472 [3:06:30<14:54:33,  3.60it/s] 48%|████▊     | 178210/371472 [3:06:30<16:33:44,  3.24it/s] 48%|████▊     | 178211/371472 [3:06:31<15:51:31,  3.39it/s] 48%|████▊     | 178212/371472 [3:06:31<15:27:15,  3.47it/s] 48%|████▊     | 178213/371472 [3:06:31<14:54:30,  3.60it/s] 48%|████▊     | 178214/371472 [3:06:31<15:33:54,  3.45it/s] 48%|████▊     | 178215/371472 [3:06:32<16:10:25,  3.32it/s] 48%|████▊     | 178216/371472 [3:06:32<16:50:59,  3.19it/s] 48%|████▊     | 178217/371472 [3:06:32<16:01:19,  3.35it/s] 48%|████▊     | 178218/371472 [3:06:33<16:30:58,  3.25it/s] 48%|████▊     | 178219/371472 [3:06:33<15:54:09,  3.38it/s] 48%|████▊     | 178220/371472 [3:06:33<15:52:38,  3.38it/s]                                                            {'loss': 3.2045, 'learning_rate': 5.684619362623629e-07, 'epoch': 7.68}
 48%|████▊     | 178220/371472 [3:06:33<15:52:38,  3.38it/s] 48%|████▊     | 178221/371472 [3:06:34<15:47:11,  3.40it/s] 48%|████▊     | 178222/371472 [3:06:34<16:21:59,  3.28it/s] 48%|████▊     | 178223/371472 [3:06:34<16:28:59,  3.26it/s] 48%|████▊     | 178224/371472 [3:06:35<17:34:49,  3.05it/s] 48%|████▊     | 178225/371472 [3:06:35<17:49:43,  3.01it/s] 48%|████▊     | 178226/371472 [3:06:35<19:21:30,  2.77it/s] 48%|████▊     | 178227/371472 [3:06:36<17:49:46,  3.01it/s] 48%|████▊     | 178228/371472 [3:06:36<17:27:50,  3.07it/s] 48%|████▊     | 178229/371472 [3:06:36<16:20:17,  3.29it/s] 48%|████▊     | 178230/371472 [3:06:36<16:41:42,  3.22it/s] 48%|████▊     | 178231/371472 [3:06:37<16:42:39,  3.21it/s] 48%|████▊     | 178232/371472 [3:06:37<17:03:14,  3.15it/s] 48%|████▊     | 178233/371472 [3:06:37<16:18:42,  3.29it/s] 48%|████▊     | 178234/371472 [3:06:38<16:07:46,  3.33it/s] 48%|████▊     | 178235/371472 [3:06:38<15:17:45,  3.51it/s] 48%|████▊     | 178236/371472 [3:06:38<14:58:28,  3.58it/s] 48%|████▊     | 178237/371472 [3:06:38<15:06:15,  3.55it/s] 48%|████▊     | 178238/371472 [3:06:39<15:07:10,  3.55it/s] 48%|████▊     | 178239/371472 [3:06:39<14:49:21,  3.62it/s] 48%|████▊     | 178240/371472 [3:06:39<15:39:42,  3.43it/s]                                                            {'loss': 2.9837, 'learning_rate': 5.684134542868839e-07, 'epoch': 7.68}
 48%|████▊     | 178240/371472 [3:06:39<15:39:42,  3.43it/s] 48%|████▊     | 178241/371472 [3:06:40<16:09:54,  3.32it/s] 48%|████▊     | 178242/371472 [3:06:40<16:46:57,  3.20it/s] 48%|████▊     | 178243/371472 [3:06:40<16:39:24,  3.22it/s] 48%|████▊     | 178244/371472 [3:06:41<16:36:19,  3.23it/s] 48%|████▊     | 178245/371472 [3:06:41<16:00:29,  3.35it/s] 48%|████▊     | 178246/371472 [3:06:41<15:16:12,  3.51it/s] 48%|████▊     | 178247/371472 [3:06:41<15:15:20,  3.52it/s] 48%|████▊     | 178248/371472 [3:06:42<14:52:56,  3.61it/s] 48%|████▊     | 178249/371472 [3:06:42<14:22:55,  3.73it/s] 48%|████▊     | 178250/371472 [3:06:42<15:51:01,  3.39it/s] 48%|████▊     | 178251/371472 [3:06:43<15:16:14,  3.51it/s] 48%|████▊     | 178252/371472 [3:06:43<15:13:08,  3.53it/s] 48%|████▊     | 178253/371472 [3:06:43<14:57:39,  3.59it/s] 48%|████▊     | 178254/371472 [3:06:43<15:05:10,  3.56it/s] 48%|████▊     | 178255/371472 [3:06:44<15:35:04,  3.44it/s] 48%|████▊     | 178256/371472 [3:06:44<15:20:49,  3.50it/s] 48%|████▊     | 178257/371472 [3:06:44<15:13:46,  3.52it/s] 48%|████▊     | 178258/371472 [3:06:45<14:58:58,  3.58it/s] 48%|████▊     | 178259/371472 [3:06:45<15:07:08,  3.55it/s] 48%|████▊     | 178260/371472 [3:06:45<14:43:00,  3.65it/s]                                                            {'loss': 3.1097, 'learning_rate': 5.68364972311405e-07, 'epoch': 7.68}
 48%|████▊     | 178260/371472 [3:06:45<14:43:00,  3.65it/s] 48%|████▊     | 178261/371472 [3:06:45<14:24:17,  3.73it/s] 48%|████▊     | 178262/371472 [3:06:46<15:23:09,  3.49it/s] 48%|████▊     | 178263/371472 [3:06:46<15:00:03,  3.58it/s] 48%|████▊     | 178264/371472 [3:06:46<14:53:35,  3.60it/s] 48%|████▊     | 178265/371472 [3:06:47<18:45:06,  2.86it/s] 48%|████▊     | 178266/371472 [3:06:47<18:28:40,  2.90it/s] 48%|████▊     | 178267/371472 [3:06:47<18:01:34,  2.98it/s] 48%|████▊     | 178268/371472 [3:06:48<17:50:03,  3.01it/s] 48%|████▊     | 178269/371472 [3:06:48<17:08:50,  3.13it/s] 48%|████▊     | 178270/371472 [3:06:48<16:43:50,  3.21it/s] 48%|████▊     | 178271/371472 [3:06:49<16:07:36,  3.33it/s] 48%|████▊     | 178272/371472 [3:06:49<15:59:38,  3.36it/s] 48%|████▊     | 178273/371472 [3:06:49<15:39:13,  3.43it/s] 48%|████▊     | 178274/371472 [3:06:49<15:59:48,  3.35it/s] 48%|████▊     | 178275/371472 [3:06:50<16:32:13,  3.25it/s] 48%|████▊     | 178276/371472 [3:06:50<15:41:59,  3.42it/s] 48%|████▊     | 178277/371472 [3:06:50<15:02:59,  3.57it/s] 48%|████▊     | 178278/371472 [3:06:51<15:23:54,  3.49it/s] 48%|████▊     | 178279/371472 [3:06:51<15:00:49,  3.57it/s] 48%|████▊     | 178280/371472 [3:06:51<14:58:18,  3.58it/s]                                                            {'loss': 3.039, 'learning_rate': 5.683164903359261e-07, 'epoch': 7.68}
 48%|████▊     | 178280/371472 [3:06:51<14:58:18,  3.58it/s] 48%|████▊     | 178281/371472 [3:06:51<15:10:38,  3.54it/s] 48%|████▊     | 178282/371472 [3:06:52<15:13:45,  3.52it/s] 48%|████▊     | 178283/371472 [3:06:52<14:36:45,  3.67it/s] 48%|████▊     | 178284/371472 [3:06:52<16:01:52,  3.35it/s] 48%|████▊     | 178285/371472 [3:06:53<15:48:43,  3.39it/s] 48%|████▊     | 178286/371472 [3:06:53<15:11:26,  3.53it/s] 48%|████▊     | 178287/371472 [3:06:53<14:53:16,  3.60it/s] 48%|████▊     | 178288/371472 [3:06:53<14:27:52,  3.71it/s] 48%|████▊     | 178289/371472 [3:06:54<14:30:40,  3.70it/s] 48%|████▊     | 178290/371472 [3:06:54<14:05:47,  3.81it/s] 48%|████▊     | 178291/371472 [3:06:54<16:05:11,  3.34it/s] 48%|████▊     | 178292/371472 [3:06:55<16:51:36,  3.18it/s] 48%|████▊     | 178293/371472 [3:06:55<18:41:56,  2.87it/s] 48%|████▊     | 178294/371472 [3:06:55<18:28:04,  2.91it/s] 48%|████▊     | 178295/371472 [3:06:56<18:13:54,  2.94it/s] 48%|████▊     | 178296/371472 [3:06:56<17:30:38,  3.06it/s] 48%|████▊     | 178297/371472 [3:06:56<17:07:48,  3.13it/s] 48%|████▊     | 178298/371472 [3:06:57<16:21:27,  3.28it/s] 48%|████▊     | 178299/371472 [3:06:57<15:51:37,  3.38it/s] 48%|████▊     | 178300/371472 [3:06:57<15:20:57,  3.50it/s]                                                            {'loss': 2.9569, 'learning_rate': 5.682680083604473e-07, 'epoch': 7.68}
 48%|████▊     | 178300/371472 [3:06:57<15:20:57,  3.50it/s] 48%|████▊     | 178301/371472 [3:06:57<15:34:55,  3.44it/s] 48%|████▊     | 178302/371472 [3:06:58<18:05:04,  2.97it/s] 48%|████▊     | 178303/371472 [3:06:58<17:03:21,  3.15it/s] 48%|████▊     | 178304/371472 [3:06:58<16:30:01,  3.25it/s] 48%|████▊     | 178305/371472 [3:06:59<16:20:00,  3.29it/s] 48%|████▊     | 178306/371472 [3:06:59<15:52:37,  3.38it/s] 48%|████▊     | 178307/371472 [3:06:59<15:54:49,  3.37it/s] 48%|████▊     | 178308/371472 [3:07:00<16:04:54,  3.34it/s] 48%|████▊     | 178309/371472 [3:07:00<15:34:37,  3.44it/s] 48%|████▊     | 178310/371472 [3:07:00<15:41:28,  3.42it/s] 48%|████▊     | 178311/371472 [3:07:00<15:34:22,  3.45it/s] 48%|████▊     | 178312/371472 [3:07:01<15:00:21,  3.58it/s] 48%|████▊     | 178313/371472 [3:07:01<14:57:56,  3.59it/s] 48%|████▊     | 178314/371472 [3:07:01<15:00:54,  3.57it/s] 48%|████▊     | 178315/371472 [3:07:02<14:56:27,  3.59it/s] 48%|████▊     | 178316/371472 [3:07:02<15:03:39,  3.56it/s] 48%|████▊     | 178317/371472 [3:07:02<14:55:36,  3.59it/s] 48%|████▊     | 178318/371472 [3:07:02<15:17:13,  3.51it/s] 48%|████▊     | 178319/371472 [3:07:03<15:12:19,  3.53it/s] 48%|████▊     | 178320/371472 [3:07:03<17:01:30,  3.15it/s]                                                            {'loss': 3.0101, 'learning_rate': 5.682195263849684e-07, 'epoch': 7.68}
 48%|████▊     | 178320/371472 [3:07:03<17:01:30,  3.15it/s] 48%|████▊     | 178321/371472 [3:07:03<15:58:09,  3.36it/s] 48%|████▊     | 178322/371472 [3:07:04<15:31:05,  3.46it/s] 48%|████▊     | 178323/371472 [3:07:04<15:33:38,  3.45it/s] 48%|████▊     | 178324/371472 [3:07:04<15:15:52,  3.51it/s] 48%|████▊     | 178325/371472 [3:07:04<14:43:57,  3.64it/s] 48%|████▊     | 178326/371472 [3:07:05<16:01:10,  3.35it/s] 48%|████▊     | 178327/371472 [3:07:05<15:15:57,  3.51it/s] 48%|████▊     | 178328/371472 [3:07:05<15:00:29,  3.57it/s] 48%|████▊     | 178329/371472 [3:07:06<15:10:20,  3.54it/s] 48%|████▊     | 178330/371472 [3:07:06<14:50:45,  3.61it/s] 48%|████▊     | 178331/371472 [3:07:06<14:21:39,  3.74it/s] 48%|████▊     | 178332/371472 [3:07:06<14:48:40,  3.62it/s] 48%|████▊     | 178333/371472 [3:07:07<15:31:07,  3.46it/s] 48%|████▊     | 178334/371472 [3:07:07<14:59:38,  3.58it/s] 48%|████▊     | 178335/371472 [3:07:07<14:41:17,  3.65it/s] 48%|████▊     | 178336/371472 [3:07:08<16:51:09,  3.18it/s] 48%|████▊     | 178337/371472 [3:07:08<15:56:31,  3.37it/s] 48%|████▊     | 178338/371472 [3:07:08<14:55:33,  3.59it/s] 48%|████▊     | 178339/371472 [3:07:08<15:19:56,  3.50it/s] 48%|████▊     | 178340/371472 [3:07:09<14:57:23,  3.59it/s]                                                            {'loss': 3.0701, 'learning_rate': 5.681710444094895e-07, 'epoch': 7.68}
 48%|████▊     | 178340/371472 [3:07:09<14:57:23,  3.59it/s] 48%|████▊     | 178341/371472 [3:07:09<15:05:00,  3.56it/s] 48%|████▊     | 178342/371472 [3:07:09<15:59:56,  3.35it/s] 48%|████▊     | 178343/371472 [3:07:10<15:24:19,  3.48it/s] 48%|████▊     | 178344/371472 [3:07:10<14:52:38,  3.61it/s] 48%|████▊     | 178345/371472 [3:07:10<15:22:24,  3.49it/s] 48%|████▊     | 178346/371472 [3:07:10<15:31:09,  3.46it/s] 48%|████▊     | 178347/371472 [3:07:11<15:20:14,  3.50it/s] 48%|████▊     | 178348/371472 [3:07:11<15:17:03,  3.51it/s] 48%|████▊     | 178349/371472 [3:07:11<16:21:00,  3.28it/s] 48%|████▊     | 178350/371472 [3:07:12<15:48:09,  3.39it/s] 48%|████▊     | 178351/371472 [3:07:12<15:41:11,  3.42it/s] 48%|████▊     | 178352/371472 [3:07:12<15:04:45,  3.56it/s] 48%|████▊     | 178353/371472 [3:07:12<14:40:32,  3.66it/s] 48%|████▊     | 178354/371472 [3:07:13<15:47:42,  3.40it/s] 48%|████▊     | 178355/371472 [3:07:13<16:27:42,  3.26it/s] 48%|████▊     | 178356/371472 [3:07:13<15:15:37,  3.52it/s] 48%|████▊     | 178357/371472 [3:07:14<15:57:27,  3.36it/s] 48%|████▊     | 178358/371472 [3:07:14<15:41:00,  3.42it/s] 48%|████▊     | 178359/371472 [3:07:14<16:34:45,  3.24it/s] 48%|████▊     | 178360/371472 [3:07:15<16:15:12,  3.30it/s]                                                            {'loss': 3.1548, 'learning_rate': 5.681225624340106e-07, 'epoch': 7.68}
 48%|████▊     | 178360/371472 [3:07:15<16:15:12,  3.30it/s] 48%|████▊     | 178361/371472 [3:07:15<16:23:21,  3.27it/s] 48%|████▊     | 178362/371472 [3:07:15<16:58:34,  3.16it/s] 48%|████▊     | 178363/371472 [3:07:15<16:21:50,  3.28it/s] 48%|████▊     | 178364/371472 [3:07:16<16:45:59,  3.20it/s] 48%|████▊     | 178365/371472 [3:07:16<16:07:00,  3.33it/s] 48%|████▊     | 178366/371472 [3:07:16<16:04:58,  3.34it/s] 48%|████▊     | 178367/371472 [3:07:17<15:25:32,  3.48it/s] 48%|████▊     | 178368/371472 [3:07:17<16:25:56,  3.26it/s] 48%|████▊     | 178369/371472 [3:07:17<16:21:54,  3.28it/s] 48%|████▊     | 178370/371472 [3:07:18<15:45:39,  3.40it/s] 48%|████▊     | 178371/371472 [3:07:18<16:47:41,  3.19it/s] 48%|████▊     | 178372/371472 [3:07:18<16:16:07,  3.30it/s] 48%|████▊     | 178373/371472 [3:07:18<16:15:48,  3.30it/s] 48%|████▊     | 178374/371472 [3:07:19<15:53:47,  3.37it/s] 48%|████▊     | 178375/371472 [3:07:19<15:20:47,  3.50it/s] 48%|████▊     | 178376/371472 [3:07:19<15:08:32,  3.54it/s] 48%|████▊     | 178377/371472 [3:07:20<14:58:18,  3.58it/s] 48%|████▊     | 178378/371472 [3:07:20<14:50:18,  3.61it/s] 48%|████▊     | 178379/371472 [3:07:20<14:32:12,  3.69it/s] 48%|████▊     | 178380/371472 [3:07:20<14:11:43,  3.78it/s]                                                            {'loss': 2.9845, 'learning_rate': 5.680740804585317e-07, 'epoch': 7.68}
 48%|████▊     | 178380/371472 [3:07:20<14:11:43,  3.78it/s] 48%|████▊     | 178381/371472 [3:07:21<15:04:04,  3.56it/s] 48%|████▊     | 178382/371472 [3:07:21<15:01:20,  3.57it/s] 48%|████▊     | 178383/371472 [3:07:21<15:41:47,  3.42it/s] 48%|████▊     | 178384/371472 [3:07:22<15:10:31,  3.53it/s] 48%|████▊     | 178385/371472 [3:07:22<15:08:11,  3.54it/s] 48%|████▊     | 178386/371472 [3:07:22<15:15:24,  3.52it/s] 48%|████▊     | 178387/371472 [3:07:22<15:18:02,  3.51it/s] 48%|████▊     | 178388/371472 [3:07:23<15:07:01,  3.55it/s] 48%|████▊     | 178389/371472 [3:07:23<15:57:24,  3.36it/s] 48%|████▊     | 178390/371472 [3:07:23<15:47:14,  3.40it/s] 48%|████▊     | 178391/371472 [3:07:24<15:07:24,  3.55it/s] 48%|████▊     | 178392/371472 [3:07:24<15:04:12,  3.56it/s] 48%|████▊     | 178393/371472 [3:07:24<14:54:42,  3.60it/s] 48%|████▊     | 178394/371472 [3:07:24<14:33:06,  3.69it/s] 48%|████▊     | 178395/371472 [3:07:25<14:59:22,  3.58it/s] 48%|████▊     | 178396/371472 [3:07:25<15:05:18,  3.55it/s] 48%|████▊     | 178397/371472 [3:07:25<15:50:57,  3.38it/s] 48%|████▊     | 178398/371472 [3:07:26<15:20:38,  3.50it/s] 48%|████▊     | 178399/371472 [3:07:26<15:46:48,  3.40it/s] 48%|████▊     | 178400/371472 [3:07:26<16:34:32,  3.24it/s]                                                            {'loss': 3.064, 'learning_rate': 5.680255984830529e-07, 'epoch': 7.68}
 48%|████▊     | 178400/371472 [3:07:26<16:34:32,  3.24it/s] 48%|████▊     | 178401/371472 [3:07:27<16:55:13,  3.17it/s] 48%|████▊     | 178402/371472 [3:07:27<16:30:07,  3.25it/s] 48%|████▊     | 178403/371472 [3:07:27<15:47:25,  3.40it/s] 48%|████▊     | 178404/371472 [3:07:27<15:32:00,  3.45it/s] 48%|████▊     | 178405/371472 [3:07:28<14:49:34,  3.62it/s] 48%|████▊     | 178406/371472 [3:07:28<14:26:26,  3.71it/s] 48%|████▊     | 178407/371472 [3:07:28<14:44:31,  3.64it/s] 48%|████▊     | 178408/371472 [3:07:28<14:48:17,  3.62it/s] 48%|████▊     | 178409/371472 [3:07:29<14:55:13,  3.59it/s] 48%|████▊     | 178410/371472 [3:07:29<14:25:30,  3.72it/s] 48%|████▊     | 178411/371472 [3:07:29<15:20:06,  3.50it/s] 48%|████▊     | 178412/371472 [3:07:30<15:55:31,  3.37it/s] 48%|████▊     | 178413/371472 [3:07:30<15:57:04,  3.36it/s] 48%|████▊     | 178414/371472 [3:07:30<15:40:17,  3.42it/s] 48%|████▊     | 178415/371472 [3:07:30<15:10:06,  3.54it/s] 48%|████▊     | 178416/371472 [3:07:31<14:54:38,  3.60it/s] 48%|████▊     | 178417/371472 [3:07:31<14:43:26,  3.64it/s] 48%|████▊     | 178418/371472 [3:07:31<14:39:01,  3.66it/s] 48%|████▊     | 178419/371472 [3:07:32<14:53:46,  3.60it/s] 48%|████▊     | 178420/371472 [3:07:32<14:47:02,  3.63it/s]                                                            {'loss': 2.9072, 'learning_rate': 5.67977116507574e-07, 'epoch': 7.68}
 48%|████▊     | 178420/371472 [3:07:32<14:47:02,  3.63it/s] 48%|████▊     | 178421/371472 [3:07:32<14:50:20,  3.61it/s] 48%|████▊     | 178422/371472 [3:07:32<14:43:34,  3.64it/s] 48%|████▊     | 178423/371472 [3:07:33<15:03:47,  3.56it/s] 48%|████▊     | 178424/371472 [3:07:33<15:29:36,  3.46it/s] 48%|████▊     | 178425/371472 [3:07:33<15:25:51,  3.48it/s] 48%|████▊     | 178426/371472 [3:07:33<14:55:18,  3.59it/s] 48%|████▊     | 178427/371472 [3:07:34<14:30:53,  3.69it/s] 48%|████▊     | 178428/371472 [3:07:34<14:18:38,  3.75it/s] 48%|████▊     | 178429/371472 [3:07:34<14:04:56,  3.81it/s] 48%|████▊     | 178430/371472 [3:07:34<13:49:19,  3.88it/s] 48%|████▊     | 178431/371472 [3:07:35<14:10:19,  3.78it/s] 48%|████▊     | 178432/371472 [3:07:35<14:18:18,  3.75it/s] 48%|████▊     | 178433/371472 [3:07:35<14:44:05,  3.64it/s] 48%|████▊     | 178434/371472 [3:07:36<15:23:19,  3.48it/s] 48%|████▊     | 178435/371472 [3:07:36<15:32:34,  3.45it/s] 48%|████▊     | 178436/371472 [3:07:36<15:29:29,  3.46it/s] 48%|████▊     | 178437/371472 [3:07:37<15:18:10,  3.50it/s] 48%|████▊     | 178438/371472 [3:07:37<15:38:17,  3.43it/s] 48%|████▊     | 178439/371472 [3:07:37<16:01:27,  3.35it/s] 48%|████▊     | 178440/371472 [3:07:37<15:45:57,  3.40it/s]                                                            {'loss': 3.0516, 'learning_rate': 5.67928634532095e-07, 'epoch': 7.69}
 48%|████▊     | 178440/371472 [3:07:37<15:45:57,  3.40it/s] 48%|████▊     | 178441/371472 [3:07:38<15:36:19,  3.44it/s] 48%|████▊     | 178442/371472 [3:07:38<16:26:04,  3.26it/s] 48%|████▊     | 178443/371472 [3:07:38<16:11:49,  3.31it/s] 48%|████▊     | 178444/371472 [3:07:39<15:36:26,  3.44it/s] 48%|████▊     | 178445/371472 [3:07:39<15:25:08,  3.48it/s] 48%|████▊     | 178446/371472 [3:07:39<15:16:08,  3.51it/s] 48%|████▊     | 178447/371472 [3:07:39<14:56:53,  3.59it/s] 48%|████▊     | 178448/371472 [3:07:40<15:27:42,  3.47it/s] 48%|████▊     | 178449/371472 [3:07:40<15:14:04,  3.52it/s] 48%|████▊     | 178450/371472 [3:07:40<16:15:10,  3.30it/s] 48%|████▊     | 178451/371472 [3:07:41<16:20:23,  3.28it/s] 48%|████▊     | 178452/371472 [3:07:41<20:16:13,  2.65it/s] 48%|████▊     | 178453/371472 [3:07:42<19:04:57,  2.81it/s] 48%|████▊     | 178454/371472 [3:07:42<17:31:17,  3.06it/s] 48%|████▊     | 178455/371472 [3:07:42<16:30:05,  3.25it/s] 48%|████▊     | 178456/371472 [3:07:42<16:00:52,  3.35it/s] 48%|████▊     | 178457/371472 [3:07:43<16:06:57,  3.33it/s] 48%|████▊     | 178458/371472 [3:07:43<15:33:34,  3.45it/s] 48%|████▊     | 178459/371472 [3:07:43<14:54:19,  3.60it/s] 48%|████▊     | 178460/371472 [3:07:43<14:50:22,  3.61it/s]                                                            {'loss': 3.0168, 'learning_rate': 5.678801525566162e-07, 'epoch': 7.69}
 48%|████▊     | 178460/371472 [3:07:43<14:50:22,  3.61it/s] 48%|████▊     | 178461/371472 [3:07:44<14:27:30,  3.71it/s] 48%|████▊     | 178462/371472 [3:07:44<15:22:17,  3.49it/s] 48%|████▊     | 178463/371472 [3:07:44<15:32:17,  3.45it/s] 48%|████▊     | 178464/371472 [3:07:45<15:23:37,  3.48it/s] 48%|████▊     | 178465/371472 [3:07:45<14:45:06,  3.63it/s] 48%|████▊     | 178466/371472 [3:07:45<14:59:29,  3.58it/s] 48%|████▊     | 178467/371472 [3:07:45<14:35:32,  3.67it/s] 48%|████▊     | 178468/371472 [3:07:46<15:28:53,  3.46it/s] 48%|████▊     | 178469/371472 [3:07:46<15:38:33,  3.43it/s] 48%|████▊     | 178470/371472 [3:07:46<15:09:14,  3.54it/s] 48%|████▊     | 178471/371472 [3:07:47<14:54:39,  3.60it/s] 48%|████▊     | 178472/371472 [3:07:47<15:16:28,  3.51it/s] 48%|████▊     | 178473/371472 [3:07:47<14:36:12,  3.67it/s] 48%|████▊     | 178474/371472 [3:07:47<14:35:55,  3.67it/s] 48%|████▊     | 178475/371472 [3:07:48<15:04:47,  3.56it/s] 48%|████▊     | 178476/371472 [3:07:48<14:41:08,  3.65it/s] 48%|████▊     | 178477/371472 [3:07:48<15:31:58,  3.45it/s] 48%|████▊     | 178478/371472 [3:07:49<15:50:30,  3.38it/s] 48%|████▊     | 178479/371472 [3:07:49<15:09:42,  3.54it/s] 48%|████▊     | 178480/371472 [3:07:49<14:53:04,  3.60it/s]                                                            {'loss': 2.9465, 'learning_rate': 5.678316705811372e-07, 'epoch': 7.69}
 48%|████▊     | 178480/371472 [3:07:49<14:53:04,  3.60it/s] 48%|████▊     | 178481/371472 [3:07:49<15:53:24,  3.37it/s] 48%|████▊     | 178482/371472 [3:07:50<15:16:36,  3.51it/s] 48%|████▊     | 178483/371472 [3:07:50<15:06:03,  3.55it/s] 48%|████▊     | 178484/371472 [3:07:50<14:42:04,  3.65it/s] 48%|████▊     | 178485/371472 [3:07:50<14:12:09,  3.77it/s] 48%|████▊     | 178486/371472 [3:07:51<15:36:06,  3.44it/s] 48%|████▊     | 178487/371472 [3:07:51<15:40:29,  3.42it/s] 48%|████▊     | 178488/371472 [3:07:51<15:01:26,  3.57it/s] 48%|████▊     | 178489/371472 [3:07:52<14:38:37,  3.66it/s] 48%|████▊     | 178490/371472 [3:07:52<15:21:46,  3.49it/s] 48%|████▊     | 178491/371472 [3:07:52<15:47:26,  3.39it/s] 48%|████▊     | 178492/371472 [3:07:52<15:12:31,  3.52it/s] 48%|████▊     | 178493/371472 [3:07:53<14:49:40,  3.62it/s] 48%|████▊     | 178494/371472 [3:07:53<15:33:52,  3.44it/s] 48%|████▊     | 178495/371472 [3:07:53<14:59:38,  3.58it/s] 48%|████▊     | 178496/371472 [3:07:54<14:33:28,  3.68it/s] 48%|████▊     | 178497/371472 [3:07:54<14:40:29,  3.65it/s] 48%|████▊     | 178498/371472 [3:07:54<15:10:28,  3.53it/s] 48%|████▊     | 178499/371472 [3:07:54<15:51:15,  3.38it/s] 48%|████▊     | 178500/371472 [3:07:55<16:04:38,  3.33it/s]                                                            {'loss': 3.0313, 'learning_rate': 5.677831886056583e-07, 'epoch': 7.69}
 48%|████▊     | 178500/371472 [3:07:55<16:04:38,  3.33it/s] 48%|████▊     | 178501/371472 [3:07:55<15:45:30,  3.40it/s] 48%|████▊     | 178502/371472 [3:07:55<15:30:51,  3.46it/s] 48%|████▊     | 178503/371472 [3:07:56<16:13:15,  3.30it/s] 48%|████▊     | 178504/371472 [3:07:56<15:24:57,  3.48it/s] 48%|████▊     | 178505/371472 [3:07:56<15:42:30,  3.41it/s] 48%|████▊     | 178506/371472 [3:07:57<16:19:05,  3.28it/s] 48%|████▊     | 178507/371472 [3:07:57<16:13:09,  3.30it/s] 48%|████▊     | 178508/371472 [3:07:57<17:29:54,  3.06it/s] 48%|████▊     | 178509/371472 [3:07:58<16:35:14,  3.23it/s] 48%|████▊     | 178510/371472 [3:07:58<16:11:46,  3.31it/s] 48%|████▊     | 178511/371472 [3:07:58<15:37:42,  3.43it/s] 48%|████▊     | 178512/371472 [3:07:58<15:16:07,  3.51it/s] 48%|████▊     | 178513/371472 [3:07:59<15:20:36,  3.49it/s] 48%|████▊     | 178514/371472 [3:07:59<14:53:23,  3.60it/s] 48%|████▊     | 178515/371472 [3:07:59<14:51:59,  3.61it/s] 48%|████▊     | 178516/371472 [3:07:59<15:03:47,  3.56it/s] 48%|████▊     | 178517/371472 [3:08:00<14:28:40,  3.70it/s] 48%|████▊     | 178518/371472 [3:08:00<14:52:34,  3.60it/s] 48%|████▊     | 178519/371472 [3:08:00<14:49:20,  3.62it/s] 48%|████▊     | 178520/371472 [3:08:01<14:35:42,  3.67it/s]                                                            {'loss': 2.9282, 'learning_rate': 5.677347066301794e-07, 'epoch': 7.69}
 48%|████▊     | 178520/371472 [3:08:01<14:35:42,  3.67it/s] 48%|████▊     | 178521/371472 [3:08:01<14:34:28,  3.68it/s] 48%|████▊     | 178522/371472 [3:08:01<14:40:07,  3.65it/s] 48%|████▊     | 178523/371472 [3:08:01<14:55:01,  3.59it/s] 48%|████▊     | 178524/371472 [3:08:02<15:17:55,  3.50it/s] 48%|████▊     | 178525/371472 [3:08:02<15:46:36,  3.40it/s] 48%|████▊     | 178526/371472 [3:08:02<15:45:52,  3.40it/s] 48%|████▊     | 178527/371472 [3:08:03<16:22:40,  3.27it/s] 48%|████▊     | 178528/371472 [3:08:03<15:24:20,  3.48it/s] 48%|████▊     | 178529/371472 [3:08:03<15:31:23,  3.45it/s] 48%|████▊     | 178530/371472 [3:08:04<16:47:02,  3.19it/s] 48%|████▊     | 178531/371472 [3:08:04<17:00:25,  3.15it/s] 48%|████▊     | 178532/371472 [3:08:04<15:56:53,  3.36it/s] 48%|████▊     | 178533/371472 [3:08:04<15:19:28,  3.50it/s] 48%|████▊     | 178534/371472 [3:08:05<15:26:44,  3.47it/s] 48%|████▊     | 178535/371472 [3:08:05<15:15:36,  3.51it/s] 48%|████▊     | 178536/371472 [3:08:05<14:55:08,  3.59it/s] 48%|████▊     | 178537/371472 [3:08:05<14:24:20,  3.72it/s] 48%|████▊     | 178538/371472 [3:08:06<15:22:49,  3.48it/s] 48%|████▊     | 178539/371472 [3:08:06<14:51:17,  3.61it/s] 48%|████▊     | 178540/371472 [3:08:06<16:19:07,  3.28it/s]                                                            {'loss': 3.0842, 'learning_rate': 5.676862246547005e-07, 'epoch': 7.69}
 48%|████▊     | 178540/371472 [3:08:06<16:19:07,  3.28it/s] 48%|████▊     | 178541/371472 [3:08:07<16:25:35,  3.26it/s] 48%|████▊     | 178542/371472 [3:08:07<15:49:16,  3.39it/s] 48%|████▊     | 178543/371472 [3:08:07<15:08:45,  3.54it/s] 48%|████▊     | 178544/371472 [3:08:07<14:50:53,  3.61it/s] 48%|████▊     | 178545/371472 [3:08:08<15:10:35,  3.53it/s] 48%|████▊     | 178546/371472 [3:08:08<15:24:39,  3.48it/s] 48%|████▊     | 178547/371472 [3:08:08<15:21:21,  3.49it/s] 48%|████▊     | 178548/371472 [3:08:09<15:05:06,  3.55it/s] 48%|████▊     | 178549/371472 [3:08:09<14:45:15,  3.63it/s] 48%|████▊     | 178550/371472 [3:08:09<14:30:26,  3.69it/s] 48%|████▊     | 178551/371472 [3:08:09<14:30:48,  3.69it/s] 48%|████▊     | 178552/371472 [3:08:10<15:22:35,  3.49it/s] 48%|████▊     | 178553/371472 [3:08:10<15:33:13,  3.45it/s] 48%|████▊     | 178554/371472 [3:08:10<15:11:03,  3.53it/s] 48%|████▊     | 178555/371472 [3:08:11<15:39:43,  3.42it/s] 48%|████▊     | 178556/371472 [3:08:11<15:00:42,  3.57it/s] 48%|████▊     | 178557/371472 [3:08:11<14:48:27,  3.62it/s] 48%|████▊     | 178558/371472 [3:08:11<15:31:56,  3.45it/s] 48%|████▊     | 178559/371472 [3:08:12<15:27:17,  3.47it/s] 48%|████▊     | 178560/371472 [3:08:12<16:08:21,  3.32it/s]                                                            {'loss': 3.067, 'learning_rate': 5.676377426792217e-07, 'epoch': 7.69}
 48%|████▊     | 178560/371472 [3:08:12<16:08:21,  3.32it/s] 48%|████▊     | 178561/371472 [3:08:12<16:37:12,  3.22it/s] 48%|████▊     | 178562/371472 [3:08:13<16:11:33,  3.31it/s] 48%|████▊     | 178563/371472 [3:08:13<15:30:14,  3.46it/s] 48%|████▊     | 178564/371472 [3:08:13<15:14:10,  3.52it/s] 48%|████▊     | 178565/371472 [3:08:13<15:01:31,  3.57it/s] 48%|████▊     | 178566/371472 [3:08:14<14:27:27,  3.71it/s] 48%|████▊     | 178567/371472 [3:08:14<15:39:10,  3.42it/s] 48%|████▊     | 178568/371472 [3:08:14<16:02:07,  3.34it/s] 48%|████▊     | 178569/371472 [3:08:15<16:52:58,  3.17it/s] 48%|████▊     | 178570/371472 [3:08:15<16:18:08,  3.29it/s] 48%|████▊     | 178571/371472 [3:08:15<15:44:33,  3.40it/s] 48%|████▊     | 178572/371472 [3:08:16<15:49:10,  3.39it/s] 48%|████▊     | 178573/371472 [3:08:16<15:15:39,  3.51it/s] 48%|████▊     | 178574/371472 [3:08:16<15:56:33,  3.36it/s] 48%|████▊     | 178575/371472 [3:08:16<15:29:46,  3.46it/s] 48%|████▊     | 178576/371472 [3:08:17<15:50:25,  3.38it/s] 48%|████▊     | 178577/371472 [3:08:17<15:17:54,  3.50it/s] 48%|████▊     | 178578/371472 [3:08:17<14:40:17,  3.65it/s] 48%|████▊     | 178579/371472 [3:08:18<14:43:51,  3.64it/s] 48%|████▊     | 178580/371472 [3:08:18<15:47:45,  3.39it/s]                                                            {'loss': 2.9862, 'learning_rate': 5.675892607037428e-07, 'epoch': 7.69}
 48%|████▊     | 178580/371472 [3:08:18<15:47:45,  3.39it/s] 48%|████▊     | 178581/371472 [3:08:18<16:25:16,  3.26it/s] 48%|████▊     | 178582/371472 [3:08:19<15:50:55,  3.38it/s] 48%|████▊     | 178583/371472 [3:08:19<15:26:52,  3.47it/s] 48%|████▊     | 178584/371472 [3:08:19<15:37:01,  3.43it/s] 48%|████▊     | 178585/371472 [3:08:19<15:04:26,  3.55it/s] 48%|████▊     | 178586/371472 [3:08:20<14:47:10,  3.62it/s] 48%|████▊     | 178587/371472 [3:08:20<14:48:04,  3.62it/s] 48%|████▊     | 178588/371472 [3:08:20<14:37:15,  3.66it/s] 48%|████▊     | 178589/371472 [3:08:20<14:44:59,  3.63it/s] 48%|████▊     | 178590/371472 [3:08:21<15:07:44,  3.54it/s] 48%|████▊     | 178591/371472 [3:08:21<14:54:03,  3.60it/s] 48%|████▊     | 178592/371472 [3:08:21<14:34:41,  3.68it/s] 48%|████▊     | 178593/371472 [3:08:22<14:27:25,  3.71it/s] 48%|████▊     | 178594/371472 [3:08:22<15:56:29,  3.36it/s] 48%|████▊     | 178595/371472 [3:08:22<15:24:33,  3.48it/s] 48%|████▊     | 178596/371472 [3:08:22<15:54:10,  3.37it/s] 48%|████▊     | 178597/371472 [3:08:23<16:04:34,  3.33it/s] 48%|████▊     | 178598/371472 [3:08:23<15:42:13,  3.41it/s] 48%|████▊     | 178599/371472 [3:08:23<15:08:44,  3.54it/s] 48%|████▊     | 178600/371472 [3:08:24<15:19:43,  3.50it/s]                                                            {'loss': 3.1576, 'learning_rate': 5.675407787282639e-07, 'epoch': 7.69}
 48%|████▊     | 178600/371472 [3:08:24<15:19:43,  3.50it/s] 48%|████▊     | 178601/371472 [3:08:24<22:12:24,  2.41it/s] 48%|████▊     | 178602/371472 [3:08:25<20:20:30,  2.63it/s] 48%|████▊     | 178603/371472 [3:08:25<19:32:54,  2.74it/s] 48%|████▊     | 178604/371472 [3:08:25<18:20:59,  2.92it/s] 48%|████▊     | 178605/371472 [3:08:26<17:30:30,  3.06it/s] 48%|████▊     | 178606/371472 [3:08:26<16:35:38,  3.23it/s] 48%|████▊     | 178607/371472 [3:08:26<15:58:00,  3.36it/s] 48%|████▊     | 178608/371472 [3:08:26<15:24:31,  3.48it/s] 48%|████▊     | 178609/371472 [3:08:27<14:55:02,  3.59it/s] 48%|████▊     | 178610/371472 [3:08:27<15:09:33,  3.53it/s] 48%|████▊     | 178611/371472 [3:08:27<14:46:04,  3.63it/s] 48%|████▊     | 178612/371472 [3:08:27<14:46:42,  3.63it/s] 48%|████▊     | 178613/371472 [3:08:28<15:09:58,  3.53it/s] 48%|████▊     | 178614/371472 [3:08:28<15:18:32,  3.50it/s] 48%|████▊     | 178615/371472 [3:08:28<14:59:11,  3.57it/s] 48%|████▊     | 178616/371472 [3:08:29<14:33:26,  3.68it/s] 48%|████▊     | 178617/371472 [3:08:29<15:10:17,  3.53it/s] 48%|████▊     | 178618/371472 [3:08:29<14:47:57,  3.62it/s] 48%|████▊     | 178619/371472 [3:08:29<14:51:02,  3.61it/s] 48%|████▊     | 178620/371472 [3:08:30<14:54:38,  3.59it/s]                                                            {'loss': 3.0314, 'learning_rate': 5.674922967527849e-07, 'epoch': 7.69}
 48%|████▊     | 178620/371472 [3:08:30<14:54:38,  3.59it/s] 48%|████▊     | 178621/371472 [3:08:30<15:15:18,  3.51it/s] 48%|████▊     | 178622/371472 [3:08:30<16:25:04,  3.26it/s] 48%|████▊     | 178623/371472 [3:08:31<16:17:53,  3.29it/s] 48%|████▊     | 178624/371472 [3:08:31<16:16:14,  3.29it/s] 48%|████▊     | 178625/371472 [3:08:31<16:46:28,  3.19it/s] 48%|████▊     | 178626/371472 [3:08:32<16:15:21,  3.30it/s] 48%|████▊     | 178627/371472 [3:08:32<15:47:05,  3.39it/s] 48%|████▊     | 178628/371472 [3:08:32<15:09:18,  3.53it/s] 48%|████▊     | 178629/371472 [3:08:32<14:40:41,  3.65it/s] 48%|████▊     | 178630/371472 [3:08:33<14:39:31,  3.65it/s] 48%|████▊     | 178631/371472 [3:08:33<14:47:28,  3.62it/s] 48%|████▊     | 178632/371472 [3:08:33<14:47:26,  3.62it/s] 48%|████▊     | 178633/371472 [3:08:33<15:26:41,  3.47it/s] 48%|████▊     | 178634/371472 [3:08:34<15:20:10,  3.49it/s] 48%|████▊     | 178635/371472 [3:08:34<15:49:06,  3.39it/s] 48%|████▊     | 178636/371472 [3:08:34<15:28:11,  3.46it/s] 48%|████▊     | 178637/371472 [3:08:35<15:16:03,  3.51it/s] 48%|████▊     | 178638/371472 [3:08:35<15:22:07,  3.49it/s] 48%|████▊     | 178639/371472 [3:08:35<16:01:11,  3.34it/s] 48%|████▊     | 178640/371472 [3:08:35<15:48:06,  3.39it/s]                                                            {'loss': 3.1315, 'learning_rate': 5.674438147773062e-07, 'epoch': 7.69}
 48%|████▊     | 178640/371472 [3:08:36<15:48:06,  3.39it/s] 48%|████▊     | 178641/371472 [3:08:36<15:53:58,  3.37it/s] 48%|████▊     | 178642/371472 [3:08:36<16:11:34,  3.31it/s] 48%|████▊     | 178643/371472 [3:08:36<15:45:51,  3.40it/s] 48%|████▊     | 178644/371472 [3:08:37<15:44:31,  3.40it/s] 48%|████▊     | 178645/371472 [3:08:37<16:04:28,  3.33it/s] 48%|████▊     | 178646/371472 [3:08:37<15:20:27,  3.49it/s] 48%|████▊     | 178647/371472 [3:08:38<16:26:36,  3.26it/s] 48%|████▊     | 178648/371472 [3:08:38<16:11:35,  3.31it/s] 48%|████▊     | 178649/371472 [3:08:38<15:59:10,  3.35it/s] 48%|████▊     | 178650/371472 [3:08:38<15:43:39,  3.41it/s] 48%|████▊     | 178651/371472 [3:08:39<15:58:16,  3.35it/s] 48%|████▊     | 178652/371472 [3:08:39<16:39:31,  3.22it/s] 48%|████▊     | 178653/371472 [3:08:39<16:53:53,  3.17it/s] 48%|████▊     | 178654/371472 [3:08:40<16:24:58,  3.26it/s] 48%|████▊     | 178655/371472 [3:08:40<15:30:36,  3.45it/s] 48%|████▊     | 178656/371472 [3:08:40<15:15:07,  3.51it/s] 48%|████▊     | 178657/371472 [3:08:41<14:48:24,  3.62it/s] 48%|████▊     | 178658/371472 [3:08:41<14:19:46,  3.74it/s] 48%|████▊     | 178659/371472 [3:08:41<14:15:02,  3.76it/s] 48%|████▊     | 178660/371472 [3:08:41<14:06:18,  3.80it/s]                                                            {'loss': 3.1554, 'learning_rate': 5.673953328018273e-07, 'epoch': 7.7}
 48%|████▊     | 178660/371472 [3:08:41<14:06:18,  3.80it/s] 48%|████▊     | 178661/371472 [3:08:42<14:11:31,  3.77it/s] 48%|████▊     | 178662/371472 [3:08:42<14:45:27,  3.63it/s] 48%|████▊     | 178663/371472 [3:08:42<14:30:27,  3.69it/s] 48%|████▊     | 178664/371472 [3:08:42<14:41:25,  3.65it/s] 48%|████▊     | 178665/371472 [3:08:43<15:37:34,  3.43it/s] 48%|████▊     | 178666/371472 [3:08:43<15:25:03,  3.47it/s] 48%|████▊     | 178667/371472 [3:08:43<15:21:02,  3.49it/s] 48%|████▊     | 178668/371472 [3:08:44<16:19:46,  3.28it/s] 48%|████▊     | 178669/371472 [3:08:44<15:58:32,  3.35it/s] 48%|████▊     | 178670/371472 [3:08:44<16:43:28,  3.20it/s] 48%|████▊     | 178671/371472 [3:08:45<16:35:42,  3.23it/s] 48%|████▊     | 178672/371472 [3:08:45<17:34:27,  3.05it/s] 48%|████▊     | 178673/371472 [3:08:45<16:20:12,  3.28it/s] 48%|████▊     | 178674/371472 [3:08:45<15:41:59,  3.41it/s] 48%|████▊     | 178675/371472 [3:08:46<15:17:46,  3.50it/s] 48%|████▊     | 178676/371472 [3:08:46<15:33:51,  3.44it/s] 48%|████▊     | 178677/371472 [3:08:46<14:56:17,  3.59it/s] 48%|████▊     | 178678/371472 [3:08:47<15:48:04,  3.39it/s] 48%|████▊     | 178679/371472 [3:08:47<16:27:48,  3.25it/s] 48%|████▊     | 178680/371472 [3:08:47<15:39:01,  3.42it/s]                                                            {'loss': 3.1704, 'learning_rate': 5.673468508263483e-07, 'epoch': 7.7}
 48%|████▊     | 178680/371472 [3:08:47<15:39:01,  3.42it/s] 48%|████▊     | 178681/371472 [3:08:47<15:22:39,  3.48it/s] 48%|████▊     | 178682/371472 [3:08:48<14:56:32,  3.58it/s] 48%|████▊     | 178683/371472 [3:08:48<14:41:02,  3.65it/s] 48%|████▊     | 178684/371472 [3:08:48<15:00:25,  3.57it/s] 48%|████▊     | 178685/371472 [3:08:49<14:58:14,  3.58it/s] 48%|████▊     | 178686/371472 [3:08:49<15:11:41,  3.52it/s] 48%|████▊     | 178687/371472 [3:08:49<14:41:37,  3.64it/s] 48%|████▊     | 178688/371472 [3:08:49<14:30:17,  3.69it/s] 48%|████▊     | 178689/371472 [3:08:50<14:11:08,  3.78it/s] 48%|████▊     | 178690/371472 [3:08:50<14:12:32,  3.77it/s] 48%|████▊     | 178691/371472 [3:08:50<14:41:37,  3.64it/s] 48%|████▊     | 178692/371472 [3:08:50<14:29:21,  3.70it/s] 48%|████▊     | 178693/371472 [3:08:51<14:32:41,  3.68it/s] 48%|████▊     | 178694/371472 [3:08:51<14:13:50,  3.76it/s] 48%|████▊     | 178695/371472 [3:08:51<14:24:40,  3.72it/s] 48%|████▊     | 178696/371472 [3:08:52<15:47:39,  3.39it/s] 48%|████▊     | 178697/371472 [3:08:52<16:04:38,  3.33it/s] 48%|████▊     | 178698/371472 [3:08:52<15:54:57,  3.36it/s] 48%|████▊     | 178699/371472 [3:08:52<15:30:31,  3.45it/s] 48%|████▊     | 178700/371472 [3:08:53<15:05:44,  3.55it/s]                                                            {'loss': 3.0276, 'learning_rate': 5.672983688508694e-07, 'epoch': 7.7}
 48%|████▊     | 178700/371472 [3:08:53<15:05:44,  3.55it/s] 48%|████▊     | 178701/371472 [3:08:53<14:26:51,  3.71it/s] 48%|████▊     | 178702/371472 [3:08:53<14:25:38,  3.71it/s] 48%|████▊     | 178703/371472 [3:08:54<14:41:51,  3.64it/s] 48%|████▊     | 178704/371472 [3:08:54<14:36:52,  3.66it/s] 48%|████▊     | 178705/371472 [3:08:54<14:37:15,  3.66it/s] 48%|████▊     | 178706/371472 [3:08:54<15:19:42,  3.49it/s] 48%|████▊     | 178707/371472 [3:08:55<14:44:40,  3.63it/s] 48%|████▊     | 178708/371472 [3:08:55<14:55:28,  3.59it/s] 48%|████▊     | 178709/371472 [3:08:55<14:54:21,  3.59it/s] 48%|████▊     | 178710/371472 [3:08:55<14:34:26,  3.67it/s] 48%|████▊     | 178711/371472 [3:08:56<14:22:08,  3.73it/s] 48%|████▊     | 178712/371472 [3:08:56<15:16:12,  3.51it/s] 48%|████▊     | 178713/371472 [3:08:56<15:33:44,  3.44it/s] 48%|████▊     | 178714/371472 [3:08:57<15:50:04,  3.38it/s] 48%|████▊     | 178715/371472 [3:08:57<15:33:12,  3.44it/s] 48%|████▊     | 178716/371472 [3:08:57<15:07:35,  3.54it/s] 48%|████▊     | 178717/371472 [3:08:58<15:17:19,  3.50it/s] 48%|████▊     | 178718/371472 [3:08:58<14:59:59,  3.57it/s] 48%|████▊     | 178719/371472 [3:08:58<14:59:13,  3.57it/s] 48%|████▊     | 178720/371472 [3:08:58<14:54:35,  3.59it/s]                                                            {'loss': 3.1772, 'learning_rate': 5.672498868753906e-07, 'epoch': 7.7}
 48%|████▊     | 178720/371472 [3:08:58<14:54:35,  3.59it/s] 48%|████▊     | 178721/371472 [3:08:59<14:18:04,  3.74it/s] 48%|████▊     | 178722/371472 [3:08:59<15:18:36,  3.50it/s] 48%|████▊     | 178723/371472 [3:08:59<14:48:10,  3.62it/s] 48%|████▊     | 178724/371472 [3:08:59<14:18:11,  3.74it/s] 48%|████▊     | 178725/371472 [3:09:00<14:37:57,  3.66it/s] 48%|████▊     | 178726/371472 [3:09:00<14:16:05,  3.75it/s] 48%|████▊     | 178727/371472 [3:09:00<14:54:49,  3.59it/s] 48%|████▊     | 178728/371472 [3:09:01<16:59:54,  3.15it/s] 48%|████▊     | 178729/371472 [3:09:01<17:46:09,  3.01it/s] 48%|████▊     | 178730/371472 [3:09:01<16:46:43,  3.19it/s] 48%|████▊     | 178731/371472 [3:09:02<16:31:26,  3.24it/s] 48%|████▊     | 178732/371472 [3:09:02<16:14:06,  3.30it/s] 48%|████▊     | 178733/371472 [3:09:02<15:59:37,  3.35it/s] 48%|████▊     | 178734/371472 [3:09:02<15:54:29,  3.37it/s] 48%|████▊     | 178735/371472 [3:09:03<15:19:28,  3.49it/s] 48%|████▊     | 178736/371472 [3:09:03<15:12:54,  3.52it/s] 48%|████▊     | 178737/371472 [3:09:03<15:16:43,  3.50it/s] 48%|████▊     | 178738/371472 [3:09:04<15:42:10,  3.41it/s] 48%|████▊     | 178739/371472 [3:09:04<15:30:31,  3.45it/s] 48%|████▊     | 178740/371472 [3:09:04<16:01:24,  3.34it/s]                                                            {'loss': 2.9927, 'learning_rate': 5.672014048999116e-07, 'epoch': 7.7}
 48%|████▊     | 178740/371472 [3:09:04<16:01:24,  3.34it/s] 48%|████▊     | 178741/371472 [3:09:04<15:40:59,  3.41it/s] 48%|████▊     | 178742/371472 [3:09:05<15:12:15,  3.52it/s] 48%|████▊     | 178743/371472 [3:09:05<17:05:50,  3.13it/s] 48%|████▊     | 178744/371472 [3:09:05<17:37:04,  3.04it/s] 48%|████▊     | 178745/371472 [3:09:06<16:38:56,  3.22it/s] 48%|████▊     | 178746/371472 [3:09:06<15:40:45,  3.41it/s] 48%|████▊     | 178747/371472 [3:09:06<15:08:01,  3.54it/s] 48%|████▊     | 178748/371472 [3:09:07<14:38:12,  3.66it/s] 48%|████▊     | 178749/371472 [3:09:07<16:03:05,  3.34it/s] 48%|████▊     | 178750/371472 [3:09:07<15:22:06,  3.48it/s] 48%|████▊     | 178751/371472 [3:09:07<15:02:37,  3.56it/s] 48%|████▊     | 178752/371472 [3:09:08<14:38:13,  3.66it/s] 48%|████▊     | 178753/371472 [3:09:08<14:22:15,  3.73it/s] 48%|████▊     | 178754/371472 [3:09:08<14:06:18,  3.80it/s] 48%|████▊     | 178755/371472 [3:09:09<15:25:08,  3.47it/s] 48%|████▊     | 178756/371472 [3:09:09<15:05:33,  3.55it/s] 48%|████▊     | 178757/371472 [3:09:09<15:29:58,  3.45it/s] 48%|████▊     | 178758/371472 [3:09:09<15:36:05,  3.43it/s] 48%|████▊     | 178759/371472 [3:09:10<15:57:57,  3.35it/s] 48%|████▊     | 178760/371472 [3:09:10<16:03:19,  3.33it/s]                                                            {'loss': 3.0666, 'learning_rate': 5.671529229244327e-07, 'epoch': 7.7}
 48%|████▊     | 178760/371472 [3:09:10<16:03:19,  3.33it/s] 48%|████▊     | 178761/371472 [3:09:10<15:16:21,  3.51it/s] 48%|████▊     | 178762/371472 [3:09:11<16:36:15,  3.22it/s] 48%|████▊     | 178763/371472 [3:09:11<17:12:30,  3.11it/s] 48%|████▊     | 178764/371472 [3:09:11<16:11:18,  3.31it/s] 48%|████▊     | 178765/371472 [3:09:11<15:28:42,  3.46it/s] 48%|████▊     | 178766/371472 [3:09:12<16:17:27,  3.29it/s] 48%|████▊     | 178767/371472 [3:09:12<15:56:01,  3.36it/s] 48%|████▊     | 178768/371472 [3:09:12<15:22:51,  3.48it/s] 48%|████▊     | 178769/371472 [3:09:13<15:16:19,  3.51it/s] 48%|████▊     | 178770/371472 [3:09:13<16:30:10,  3.24it/s] 48%|████▊     | 178771/371472 [3:09:13<16:21:58,  3.27it/s] 48%|████▊     | 178772/371472 [3:09:14<15:47:34,  3.39it/s] 48%|████▊     | 178773/371472 [3:09:14<15:17:23,  3.50it/s] 48%|████▊     | 178774/371472 [3:09:14<15:12:36,  3.52it/s] 48%|████▊     | 178775/371472 [3:09:14<14:54:26,  3.59it/s] 48%|████▊     | 178776/371472 [3:09:15<15:17:39,  3.50it/s] 48%|████▊     | 178777/371472 [3:09:15<14:39:14,  3.65it/s] 48%|████▊     | 178778/371472 [3:09:15<14:10:00,  3.78it/s] 48%|████▊     | 178779/371472 [3:09:15<14:08:59,  3.78it/s] 48%|████▊     | 178780/371472 [3:09:16<15:00:03,  3.57it/s]                                                            {'loss': 3.0486, 'learning_rate': 5.671044409489539e-07, 'epoch': 7.7}
 48%|████▊     | 178780/371472 [3:09:16<15:00:03,  3.57it/s] 48%|████▊     | 178781/371472 [3:09:16<15:56:44,  3.36it/s] 48%|████▊     | 178782/371472 [3:09:16<16:25:44,  3.26it/s] 48%|████▊     | 178783/371472 [3:09:17<16:03:00,  3.33it/s] 48%|████▊     | 178784/371472 [3:09:17<15:47:18,  3.39it/s] 48%|████▊     | 178785/371472 [3:09:17<15:17:59,  3.50it/s] 48%|████▊     | 178786/371472 [3:09:18<15:39:13,  3.42it/s] 48%|████▊     | 178787/371472 [3:09:18<17:04:12,  3.14it/s] 48%|████▊     | 178788/371472 [3:09:18<16:27:09,  3.25it/s] 48%|████▊     | 178789/371472 [3:09:19<16:24:06,  3.26it/s] 48%|████▊     | 178790/371472 [3:09:19<15:54:18,  3.37it/s] 48%|████▊     | 178791/371472 [3:09:19<16:04:55,  3.33it/s] 48%|████▊     | 178792/371472 [3:09:19<16:11:56,  3.30it/s] 48%|████▊     | 178793/371472 [3:09:20<15:50:12,  3.38it/s] 48%|████▊     | 178794/371472 [3:09:20<16:50:22,  3.18it/s] 48%|████▊     | 178795/371472 [3:09:20<16:55:45,  3.16it/s] 48%|████▊     | 178796/371472 [3:09:21<16:40:14,  3.21it/s] 48%|████▊     | 178797/371472 [3:09:21<16:56:58,  3.16it/s] 48%|████▊     | 178798/371472 [3:09:21<15:55:06,  3.36it/s] 48%|████▊     | 178799/371472 [3:09:22<16:37:56,  3.22it/s] 48%|████▊     | 178800/371472 [3:09:22<15:37:57,  3.42it/s]                                                            {'loss': 2.8546, 'learning_rate': 5.670559589734749e-07, 'epoch': 7.7}
 48%|████▊     | 178800/371472 [3:09:22<15:37:57,  3.42it/s] 48%|████▊     | 178801/371472 [3:09:22<15:08:34,  3.53it/s] 48%|████▊     | 178802/371472 [3:09:23<16:46:28,  3.19it/s] 48%|████▊     | 178803/371472 [3:09:23<16:53:24,  3.17it/s] 48%|████▊     | 178804/371472 [3:09:23<17:17:55,  3.09it/s] 48%|████▊     | 178805/371472 [3:09:23<16:50:02,  3.18it/s] 48%|████▊     | 178806/371472 [3:09:24<16:26:44,  3.25it/s] 48%|████▊     | 178807/371472 [3:09:24<17:02:12,  3.14it/s] 48%|████▊     | 178808/371472 [3:09:24<15:56:12,  3.36it/s] 48%|████▊     | 178809/371472 [3:09:25<15:12:37,  3.52it/s] 48%|████▊     | 178810/371472 [3:09:25<15:02:25,  3.56it/s] 48%|████▊     | 178811/371472 [3:09:25<14:54:55,  3.59it/s] 48%|████▊     | 178812/371472 [3:09:25<15:47:55,  3.39it/s] 48%|████▊     | 178813/371472 [3:09:26<15:11:21,  3.52it/s] 48%|████▊     | 178814/371472 [3:09:26<16:13:16,  3.30it/s] 48%|████▊     | 178815/371472 [3:09:26<15:59:15,  3.35it/s] 48%|████▊     | 178816/371472 [3:09:27<15:33:03,  3.44it/s] 48%|████▊     | 178817/371472 [3:09:27<15:36:11,  3.43it/s] 48%|████▊     | 178818/371472 [3:09:27<15:14:33,  3.51it/s] 48%|████▊     | 178819/371472 [3:09:27<15:11:36,  3.52it/s] 48%|████▊     | 178820/371472 [3:09:28<15:31:42,  3.45it/s]                                                            {'loss': 2.9339, 'learning_rate': 5.67007476997996e-07, 'epoch': 7.7}
 48%|████▊     | 178820/371472 [3:09:28<15:31:42,  3.45it/s] 48%|████▊     | 178821/371472 [3:09:28<15:15:01,  3.51it/s] 48%|████▊     | 178822/371472 [3:09:28<15:07:27,  3.54it/s] 48%|████▊     | 178823/371472 [3:09:29<14:43:46,  3.63it/s] 48%|████▊     | 178824/371472 [3:09:29<15:50:10,  3.38it/s] 48%|████▊     | 178825/371472 [3:09:29<15:50:49,  3.38it/s] 48%|████▊     | 178826/371472 [3:09:30<15:14:08,  3.51it/s] 48%|████▊     | 178827/371472 [3:09:30<15:02:42,  3.56it/s] 48%|████▊     | 178828/371472 [3:09:30<15:33:09,  3.44it/s] 48%|████▊     | 178829/371472 [3:09:30<15:45:00,  3.40it/s] 48%|████▊     | 178830/371472 [3:09:31<15:32:10,  3.44it/s] 48%|████▊     | 178831/371472 [3:09:31<15:11:22,  3.52it/s] 48%|████▊     | 178832/371472 [3:09:31<15:34:21,  3.44it/s] 48%|████▊     | 178833/371472 [3:09:32<15:19:09,  3.49it/s] 48%|████▊     | 178834/371472 [3:09:32<15:10:54,  3.52it/s] 48%|████▊     | 178835/371472 [3:09:32<15:10:48,  3.52it/s] 48%|████▊     | 178836/371472 [3:09:32<14:44:40,  3.63it/s] 48%|████▊     | 178837/371472 [3:09:33<14:25:15,  3.71it/s] 48%|████▊     | 178838/371472 [3:09:33<14:05:44,  3.80it/s] 48%|████▊     | 178839/371472 [3:09:33<15:03:20,  3.55it/s] 48%|████▊     | 178840/371472 [3:09:34<16:15:21,  3.29it/s]                                                            {'loss': 3.255, 'learning_rate': 5.66958995022517e-07, 'epoch': 7.7}
 48%|████▊     | 178840/371472 [3:09:34<16:15:21,  3.29it/s] 48%|████▊     | 178841/371472 [3:09:34<15:49:43,  3.38it/s] 48%|████▊     | 178842/371472 [3:09:34<15:20:57,  3.49it/s] 48%|████▊     | 178843/371472 [3:09:34<15:19:32,  3.49it/s] 48%|████▊     | 178844/371472 [3:09:35<15:23:52,  3.48it/s] 48%|████▊     | 178845/371472 [3:09:35<15:47:40,  3.39it/s] 48%|████▊     | 178846/371472 [3:09:35<15:31:33,  3.45it/s] 48%|████▊     | 178847/371472 [3:09:35<14:50:43,  3.60it/s] 48%|████▊     | 178848/371472 [3:09:36<14:38:26,  3.65it/s] 48%|████▊     | 178849/371472 [3:09:36<14:56:54,  3.58it/s] 48%|████▊     | 178850/371472 [3:09:36<14:52:54,  3.60it/s] 48%|████▊     | 178851/371472 [3:09:37<14:52:38,  3.60it/s] 48%|████▊     | 178852/371472 [3:09:37<14:42:45,  3.64it/s] 48%|████▊     | 178853/371472 [3:09:37<14:47:14,  3.62it/s] 48%|████▊     | 178854/371472 [3:09:37<14:15:34,  3.75it/s] 48%|████▊     | 178855/371472 [3:09:38<13:53:19,  3.85it/s] 48%|████▊     | 178856/371472 [3:09:38<13:48:53,  3.87it/s] 48%|████▊     | 178857/371472 [3:09:38<14:57:51,  3.58it/s] 48%|████▊     | 178858/371472 [3:09:38<14:36:31,  3.66it/s] 48%|████▊     | 178859/371472 [3:09:39<15:30:49,  3.45it/s] 48%|████▊     | 178860/371472 [3:09:39<14:57:49,  3.58it/s]                                                            {'loss': 3.0515, 'learning_rate': 5.669105130470382e-07, 'epoch': 7.7}
 48%|████▊     | 178860/371472 [3:09:39<14:57:49,  3.58it/s] 48%|████▊     | 178861/371472 [3:09:39<15:14:57,  3.51it/s] 48%|████▊     | 178862/371472 [3:09:40<15:05:06,  3.55it/s] 48%|████▊     | 178863/371472 [3:09:40<14:32:22,  3.68it/s] 48%|████▊     | 178864/371472 [3:09:40<14:19:05,  3.74it/s] 48%|████▊     | 178865/371472 [3:09:40<15:07:31,  3.54it/s] 48%|████▊     | 178866/371472 [3:09:41<15:15:52,  3.50it/s] 48%|████▊     | 178867/371472 [3:09:41<16:29:36,  3.24it/s] 48%|████▊     | 178868/371472 [3:09:41<15:54:42,  3.36it/s] 48%|████▊     | 178869/371472 [3:09:42<15:00:58,  3.56it/s] 48%|████▊     | 178870/371472 [3:09:42<14:37:46,  3.66it/s] 48%|████▊     | 178871/371472 [3:09:42<15:17:37,  3.50it/s] 48%|████▊     | 178872/371472 [3:09:43<16:01:02,  3.34it/s] 48%|████▊     | 178873/371472 [3:09:43<15:39:51,  3.42it/s] 48%|████▊     | 178874/371472 [3:09:43<16:36:01,  3.22it/s] 48%|████▊     | 178875/371472 [3:09:43<16:00:49,  3.34it/s] 48%|████▊     | 178876/371472 [3:09:44<15:19:31,  3.49it/s] 48%|████▊     | 178877/371472 [3:09:44<15:25:29,  3.47it/s] 48%|████▊     | 178878/371472 [3:09:44<15:08:23,  3.53it/s] 48%|████▊     | 178879/371472 [3:09:45<15:24:35,  3.47it/s] 48%|████▊     | 178880/371472 [3:09:45<15:00:36,  3.56it/s]                                                            {'loss': 3.2375, 'learning_rate': 5.668620310715593e-07, 'epoch': 7.7}
 48%|████▊     | 178880/371472 [3:09:45<15:00:36,  3.56it/s] 48%|████▊     | 178881/371472 [3:09:45<14:52:37,  3.60it/s] 48%|████▊     | 178882/371472 [3:09:45<14:37:33,  3.66it/s] 48%|████▊     | 178883/371472 [3:09:46<15:41:42,  3.41it/s] 48%|████▊     | 178884/371472 [3:09:46<14:58:25,  3.57it/s] 48%|████▊     | 178885/371472 [3:09:46<16:05:47,  3.32it/s] 48%|████▊     | 178886/371472 [3:09:47<16:00:01,  3.34it/s] 48%|████▊     | 178887/371472 [3:09:47<15:51:41,  3.37it/s] 48%|████▊     | 178888/371472 [3:09:47<15:53:45,  3.37it/s] 48%|████▊     | 178889/371472 [3:09:47<15:27:49,  3.46it/s] 48%|████▊     | 178890/371472 [3:09:48<15:31:43,  3.44it/s] 48%|████▊     | 178891/371472 [3:09:48<15:25:45,  3.47it/s] 48%|████▊     | 178892/371472 [3:09:48<16:19:08,  3.28it/s] 48%|████▊     | 178893/371472 [3:09:49<16:28:48,  3.25it/s] 48%|████▊     | 178894/371472 [3:09:49<16:18:25,  3.28it/s] 48%|████▊     | 178895/371472 [3:09:49<16:18:11,  3.28it/s] 48%|████▊     | 178896/371472 [3:09:50<15:44:43,  3.40it/s] 48%|████▊     | 178897/371472 [3:09:50<15:33:44,  3.44it/s] 48%|████▊     | 178898/371472 [3:09:50<15:19:17,  3.49it/s] 48%|████▊     | 178899/371472 [3:09:50<15:27:40,  3.46it/s] 48%|████▊     | 178900/371472 [3:09:51<15:52:15,  3.37it/s]                                                            {'loss': 3.0111, 'learning_rate': 5.668135490960804e-07, 'epoch': 7.71}
 48%|████▊     | 178900/371472 [3:09:51<15:52:15,  3.37it/s] 48%|████▊     | 178901/371472 [3:09:51<16:05:56,  3.32it/s] 48%|████▊     | 178902/371472 [3:09:51<16:03:15,  3.33it/s] 48%|████▊     | 178903/371472 [3:09:52<15:23:04,  3.48it/s] 48%|████▊     | 178904/371472 [3:09:52<16:05:17,  3.32it/s] 48%|████▊     | 178905/371472 [3:09:52<16:13:36,  3.30it/s] 48%|████▊     | 178906/371472 [3:09:53<15:47:41,  3.39it/s] 48%|████▊     | 178907/371472 [3:09:53<15:17:13,  3.50it/s] 48%|████▊     | 178908/371472 [3:09:53<15:05:24,  3.54it/s] 48%|████▊     | 178909/371472 [3:09:53<15:24:44,  3.47it/s] 48%|████▊     | 178910/371472 [3:09:54<15:56:57,  3.35it/s] 48%|████▊     | 178911/371472 [3:09:54<15:24:02,  3.47it/s] 48%|████▊     | 178912/371472 [3:09:54<15:53:08,  3.37it/s] 48%|████▊     | 178913/371472 [3:09:54<15:00:39,  3.56it/s] 48%|████▊     | 178914/371472 [3:09:55<14:58:16,  3.57it/s] 48%|████▊     | 178915/371472 [3:09:55<14:53:15,  3.59it/s] 48%|████▊     | 178916/371472 [3:09:55<15:53:55,  3.36it/s] 48%|████▊     | 178917/371472 [3:09:56<16:48:06,  3.18it/s] 48%|████▊     | 178918/371472 [3:09:56<16:23:09,  3.26it/s] 48%|████▊     | 178919/371472 [3:09:56<16:24:03,  3.26it/s] 48%|████▊     | 178920/371472 [3:09:57<16:36:07,  3.22it/s]                                                            {'loss': 3.1484, 'learning_rate': 5.667650671206016e-07, 'epoch': 7.71}
 48%|████▊     | 178920/371472 [3:09:57<16:36:07,  3.22it/s] 48%|████▊     | 178921/371472 [3:09:57<16:18:32,  3.28it/s] 48%|████▊     | 178922/371472 [3:09:57<15:35:13,  3.43it/s] 48%|████▊     | 178923/371472 [3:09:58<15:43:29,  3.40it/s] 48%|████▊     | 178924/371472 [3:09:58<14:53:11,  3.59it/s] 48%|████▊     | 178925/371472 [3:09:58<16:36:36,  3.22it/s] 48%|████▊     | 178926/371472 [3:09:58<15:57:49,  3.35it/s] 48%|████▊     | 178927/371472 [3:09:59<16:04:59,  3.33it/s] 48%|████▊     | 178928/371472 [3:09:59<15:33:02,  3.44it/s] 48%|████▊     | 178929/371472 [3:09:59<15:40:28,  3.41it/s] 48%|████▊     | 178930/371472 [3:10:00<14:57:57,  3.57it/s] 48%|████▊     | 178931/371472 [3:10:00<15:08:34,  3.53it/s] 48%|████▊     | 178932/371472 [3:10:00<15:44:54,  3.40it/s] 48%|████▊     | 178933/371472 [3:10:00<15:14:28,  3.51it/s] 48%|████▊     | 178934/371472 [3:10:01<15:20:21,  3.49it/s] 48%|████▊     | 178935/371472 [3:10:01<16:01:35,  3.34it/s] 48%|████▊     | 178936/371472 [3:10:01<15:02:12,  3.56it/s] 48%|████▊     | 178937/371472 [3:10:02<14:58:14,  3.57it/s] 48%|████▊     | 178938/371472 [3:10:02<16:13:59,  3.29it/s] 48%|████▊     | 178939/371472 [3:10:02<15:53:38,  3.36it/s] 48%|████▊     | 178940/371472 [3:10:03<16:24:07,  3.26it/s]                                                            {'loss': 3.1917, 'learning_rate': 5.667165851451227e-07, 'epoch': 7.71}
 48%|████▊     | 178940/371472 [3:10:03<16:24:07,  3.26it/s] 48%|████▊     | 178941/371472 [3:10:03<16:32:20,  3.23it/s] 48%|████▊     | 178942/371472 [3:10:03<15:50:18,  3.38it/s] 48%|████▊     | 178943/371472 [3:10:03<15:08:15,  3.53it/s] 48%|████▊     | 178944/371472 [3:10:04<14:53:38,  3.59it/s] 48%|████▊     | 178945/371472 [3:10:04<14:42:08,  3.64it/s] 48%|████▊     | 178946/371472 [3:10:04<14:06:15,  3.79it/s] 48%|████▊     | 178947/371472 [3:10:04<14:26:31,  3.70it/s] 48%|████▊     | 178948/371472 [3:10:05<14:39:00,  3.65it/s] 48%|████▊     | 178949/371472 [3:10:05<14:31:47,  3.68it/s] 48%|████▊     | 178950/371472 [3:10:05<14:16:14,  3.75it/s] 48%|████▊     | 178951/371472 [3:10:06<14:54:08,  3.59it/s] 48%|████▊     | 178952/371472 [3:10:06<15:14:59,  3.51it/s] 48%|████▊     | 178953/371472 [3:10:06<14:43:43,  3.63it/s] 48%|████▊     | 178954/371472 [3:10:06<14:17:10,  3.74it/s] 48%|████▊     | 178955/371472 [3:10:07<14:15:33,  3.75it/s] 48%|████▊     | 178956/371472 [3:10:07<14:41:15,  3.64it/s] 48%|████▊     | 178957/371472 [3:10:07<15:01:26,  3.56it/s] 48%|████▊     | 178958/371472 [3:10:07<14:57:12,  3.58it/s] 48%|████▊     | 178959/371472 [3:10:08<14:44:00,  3.63it/s] 48%|████▊     | 178960/371472 [3:10:08<14:44:51,  3.63it/s]                                                            {'loss': 2.9161, 'learning_rate': 5.666681031696438e-07, 'epoch': 7.71}
 48%|████▊     | 178960/371472 [3:10:08<14:44:51,  3.63it/s] 48%|████▊     | 178961/371472 [3:10:08<14:45:22,  3.62it/s] 48%|████▊     | 178962/371472 [3:10:09<14:51:00,  3.60it/s] 48%|████▊     | 178963/371472 [3:10:09<14:32:35,  3.68it/s] 48%|████▊     | 178964/371472 [3:10:09<14:44:48,  3.63it/s] 48%|████▊     | 178965/371472 [3:10:09<15:29:11,  3.45it/s] 48%|████▊     | 178966/371472 [3:10:10<15:13:34,  3.51it/s] 48%|████▊     | 178967/371472 [3:10:10<15:04:09,  3.55it/s] 48%|████▊     | 178968/371472 [3:10:10<14:45:39,  3.62it/s] 48%|████▊     | 178969/371472 [3:10:10<14:27:10,  3.70it/s] 48%|████▊     | 178970/371472 [3:10:11<14:14:18,  3.76it/s] 48%|████▊     | 178971/371472 [3:10:11<15:05:34,  3.54it/s] 48%|████▊     | 178972/371472 [3:10:11<15:28:56,  3.45it/s] 48%|████▊     | 178973/371472 [3:10:12<15:31:48,  3.44it/s] 48%|████▊     | 178974/371472 [3:10:12<15:43:16,  3.40it/s] 48%|████▊     | 178975/371472 [3:10:12<15:10:38,  3.52it/s] 48%|████▊     | 178976/371472 [3:10:13<15:50:22,  3.38it/s] 48%|████▊     | 178977/371472 [3:10:13<15:31:39,  3.44it/s] 48%|████▊     | 178978/371472 [3:10:13<15:28:32,  3.46it/s] 48%|████▊     | 178979/371472 [3:10:13<15:23:32,  3.47it/s] 48%|████▊     | 178980/371472 [3:10:14<15:59:24,  3.34it/s]                                                            {'loss': 3.1419, 'learning_rate': 5.666196211941649e-07, 'epoch': 7.71}
 48%|████▊     | 178980/371472 [3:10:14<15:59:24,  3.34it/s] 48%|████▊     | 178981/371472 [3:10:14<15:40:39,  3.41it/s] 48%|████▊     | 178982/371472 [3:10:14<15:56:19,  3.35it/s] 48%|████▊     | 178983/371472 [3:10:15<16:32:23,  3.23it/s] 48%|████▊     | 178984/371472 [3:10:15<16:14:48,  3.29it/s] 48%|████▊     | 178985/371472 [3:10:15<16:36:23,  3.22it/s] 48%|████▊     | 178986/371472 [3:10:16<16:49:36,  3.18it/s] 48%|████▊     | 178987/371472 [3:10:16<15:52:56,  3.37it/s] 48%|████▊     | 178988/371472 [3:10:16<15:47:40,  3.39it/s] 48%|████▊     | 178989/371472 [3:10:16<15:16:29,  3.50it/s] 48%|████▊     | 178990/371472 [3:10:17<15:54:05,  3.36it/s] 48%|████▊     | 178991/371472 [3:10:17<15:38:08,  3.42it/s] 48%|████▊     | 178992/371472 [3:10:17<15:16:36,  3.50it/s] 48%|████▊     | 178993/371472 [3:10:18<15:17:08,  3.50it/s] 48%|████▊     | 178994/371472 [3:10:18<15:26:54,  3.46it/s] 48%|████▊     | 178995/371472 [3:10:18<16:13:19,  3.30it/s] 48%|████▊     | 178996/371472 [3:10:18<15:59:22,  3.34it/s] 48%|████▊     | 178997/371472 [3:10:19<15:45:58,  3.39it/s] 48%|████▊     | 178998/371472 [3:10:19<15:02:00,  3.56it/s] 48%|████▊     | 178999/371472 [3:10:19<15:20:38,  3.48it/s] 48%|████▊     | 179000/371472 [3:10:20<15:09:34,  3.53it/s]                                                            {'loss': 3.0458, 'learning_rate': 5.665711392186859e-07, 'epoch': 7.71}
 48%|████▊     | 179000/371472 [3:10:20<15:09:34,  3.53it/s] 48%|████▊     | 179001/371472 [3:10:20<15:29:35,  3.45it/s] 48%|████▊     | 179002/371472 [3:10:20<15:23:09,  3.47it/s] 48%|████▊     | 179003/371472 [3:10:20<15:04:06,  3.55it/s] 48%|████▊     | 179004/371472 [3:10:21<15:55:56,  3.36it/s] 48%|████▊     | 179005/371472 [3:10:21<15:06:55,  3.54it/s] 48%|████▊     | 179006/371472 [3:10:21<14:54:51,  3.58it/s] 48%|████▊     | 179007/371472 [3:10:22<17:15:41,  3.10it/s] 48%|████▊     | 179008/371472 [3:10:22<16:27:09,  3.25it/s] 48%|████▊     | 179009/371472 [3:10:22<15:55:00,  3.36it/s] 48%|████▊     | 179010/371472 [3:10:23<15:57:27,  3.35it/s] 48%|████▊     | 179011/371472 [3:10:23<15:39:32,  3.41it/s] 48%|████▊     | 179012/371472 [3:10:23<15:27:48,  3.46it/s] 48%|████▊     | 179013/371472 [3:10:23<14:44:36,  3.63it/s] 48%|████▊     | 179014/371472 [3:10:24<15:01:03,  3.56it/s] 48%|████▊     | 179015/371472 [3:10:24<14:47:37,  3.61it/s] 48%|████▊     | 179016/371472 [3:10:24<14:41:23,  3.64it/s] 48%|████▊     | 179017/371472 [3:10:24<14:28:53,  3.69it/s] 48%|████▊     | 179018/371472 [3:10:25<14:06:58,  3.79it/s] 48%|████▊     | 179019/371472 [3:10:25<14:57:17,  3.57it/s] 48%|████▊     | 179020/371472 [3:10:25<14:52:22,  3.59it/s]                                                            {'loss': 3.1874, 'learning_rate': 5.665226572432072e-07, 'epoch': 7.71}
 48%|████▊     | 179020/371472 [3:10:25<14:52:22,  3.59it/s] 48%|████▊     | 179021/371472 [3:10:26<14:34:15,  3.67it/s] 48%|████▊     | 179022/371472 [3:10:26<14:53:02,  3.59it/s] 48%|████▊     | 179023/371472 [3:10:26<14:47:21,  3.61it/s] 48%|████▊     | 179024/371472 [3:10:26<14:54:08,  3.59it/s] 48%|████▊     | 179025/371472 [3:10:27<14:55:33,  3.58it/s] 48%|████▊     | 179026/371472 [3:10:27<15:22:24,  3.48it/s] 48%|████▊     | 179027/371472 [3:10:27<15:23:24,  3.47it/s] 48%|████▊     | 179028/371472 [3:10:28<14:43:55,  3.63it/s] 48%|████▊     | 179029/371472 [3:10:28<14:56:57,  3.58it/s] 48%|████▊     | 179030/371472 [3:10:28<14:52:35,  3.59it/s] 48%|████▊     | 179031/371472 [3:10:28<14:47:00,  3.62it/s] 48%|████▊     | 179032/371472 [3:10:29<14:41:20,  3.64it/s] 48%|████▊     | 179033/371472 [3:10:29<14:01:53,  3.81it/s] 48%|████▊     | 179034/371472 [3:10:29<13:38:34,  3.92it/s] 48%|████▊     | 179035/371472 [3:10:29<14:17:08,  3.74it/s] 48%|████▊     | 179036/371472 [3:10:30<14:13:55,  3.76it/s] 48%|████▊     | 179037/371472 [3:10:30<14:57:39,  3.57it/s] 48%|████▊     | 179038/371472 [3:10:30<15:46:36,  3.39it/s] 48%|████▊     | 179039/371472 [3:10:31<15:07:01,  3.54it/s] 48%|████▊     | 179040/371472 [3:10:31<15:00:46,  3.56it/s]                                                            {'loss': 3.0239, 'learning_rate': 5.664741752677283e-07, 'epoch': 7.71}
 48%|████▊     | 179040/371472 [3:10:31<15:00:46,  3.56it/s] 48%|████▊     | 179041/371472 [3:10:31<14:49:56,  3.60it/s] 48%|████▊     | 179042/371472 [3:10:31<14:25:45,  3.70it/s] 48%|████▊     | 179043/371472 [3:10:32<14:41:01,  3.64it/s] 48%|████▊     | 179044/371472 [3:10:32<14:51:16,  3.60it/s] 48%|████▊     | 179045/371472 [3:10:32<14:17:03,  3.74it/s] 48%|████▊     | 179046/371472 [3:10:33<15:33:11,  3.44it/s] 48%|████▊     | 179047/371472 [3:10:33<15:22:32,  3.48it/s] 48%|████▊     | 179048/371472 [3:10:33<14:49:20,  3.61it/s] 48%|████▊     | 179049/371472 [3:10:33<14:24:52,  3.71it/s] 48%|████▊     | 179050/371472 [3:10:34<14:01:13,  3.81it/s] 48%|████▊     | 179051/371472 [3:10:34<14:17:12,  3.74it/s] 48%|████▊     | 179052/371472 [3:10:34<14:03:05,  3.80it/s] 48%|████▊     | 179053/371472 [3:10:34<14:03:55,  3.80it/s] 48%|████▊     | 179054/371472 [3:10:35<13:55:11,  3.84it/s] 48%|████▊     | 179055/371472 [3:10:35<13:53:16,  3.85it/s] 48%|████▊     | 179056/371472 [3:10:35<13:52:13,  3.85it/s] 48%|████▊     | 179057/371472 [3:10:35<14:12:35,  3.76it/s] 48%|████▊     | 179058/371472 [3:10:36<14:10:46,  3.77it/s] 48%|████▊     | 179059/371472 [3:10:36<14:19:08,  3.73it/s] 48%|████▊     | 179060/371472 [3:10:36<14:44:47,  3.62it/s]                                                            {'loss': 3.044, 'learning_rate': 5.664256932922493e-07, 'epoch': 7.71}
 48%|████▊     | 179060/371472 [3:10:36<14:44:47,  3.62it/s] 48%|████▊     | 179061/371472 [3:10:36<14:35:35,  3.66it/s] 48%|████▊     | 179062/371472 [3:10:37<14:41:18,  3.64it/s] 48%|████▊     | 179063/371472 [3:10:37<14:47:22,  3.61it/s] 48%|████▊     | 179064/371472 [3:10:37<14:18:39,  3.73it/s] 48%|████▊     | 179065/371472 [3:10:38<14:26:38,  3.70it/s] 48%|████▊     | 179066/371472 [3:10:38<15:09:24,  3.53it/s] 48%|████▊     | 179067/371472 [3:10:38<15:37:42,  3.42it/s] 48%|████▊     | 179068/371472 [3:10:38<15:08:42,  3.53it/s] 48%|████▊     | 179069/371472 [3:10:39<14:45:33,  3.62it/s] 48%|████▊     | 179070/371472 [3:10:39<14:41:16,  3.64it/s] 48%|████▊     | 179071/371472 [3:10:39<14:29:01,  3.69it/s] 48%|████▊     | 179072/371472 [3:10:40<14:17:52,  3.74it/s] 48%|████▊     | 179073/371472 [3:10:40<13:57:48,  3.83it/s] 48%|████▊     | 179074/371472 [3:10:40<14:24:49,  3.71it/s] 48%|████▊     | 179075/371472 [3:10:40<14:36:52,  3.66it/s] 48%|████▊     | 179076/371472 [3:10:41<14:34:09,  3.67it/s] 48%|████▊     | 179077/371472 [3:10:41<14:13:15,  3.76it/s] 48%|████▊     | 179078/371472 [3:10:41<14:30:16,  3.68it/s] 48%|████▊     | 179079/371472 [3:10:41<14:32:14,  3.68it/s] 48%|████▊     | 179080/371472 [3:10:42<14:45:44,  3.62it/s]                                                            {'loss': 2.9512, 'learning_rate': 5.663772113167704e-07, 'epoch': 7.71}
 48%|████▊     | 179080/371472 [3:10:42<14:45:44,  3.62it/s] 48%|████▊     | 179081/371472 [3:10:42<14:22:52,  3.72it/s] 48%|████▊     | 179082/371472 [3:10:42<14:43:34,  3.63it/s] 48%|████▊     | 179083/371472 [3:10:43<15:19:36,  3.49it/s] 48%|████▊     | 179084/371472 [3:10:43<15:24:21,  3.47it/s] 48%|████▊     | 179085/371472 [3:10:43<16:12:02,  3.30it/s] 48%|████▊     | 179086/371472 [3:10:44<16:47:43,  3.18it/s] 48%|████▊     | 179087/371472 [3:10:44<16:35:34,  3.22it/s] 48%|████▊     | 179088/371472 [3:10:44<16:05:13,  3.32it/s] 48%|████▊     | 179089/371472 [3:10:44<16:16:57,  3.28it/s] 48%|████▊     | 179090/371472 [3:10:45<15:29:37,  3.45it/s] 48%|████▊     | 179091/371472 [3:10:45<14:50:46,  3.60it/s] 48%|████▊     | 179092/371472 [3:10:45<15:06:12,  3.54it/s] 48%|████▊     | 179093/371472 [3:10:45<14:48:20,  3.61it/s] 48%|████▊     | 179094/371472 [3:10:46<14:32:46,  3.67it/s] 48%|████▊     | 179095/371472 [3:10:46<14:15:40,  3.75it/s] 48%|████▊     | 179096/371472 [3:10:46<14:36:22,  3.66it/s] 48%|████▊     | 179097/371472 [3:10:47<14:44:17,  3.63it/s] 48%|████▊     | 179098/371472 [3:10:47<15:10:55,  3.52it/s] 48%|████▊     | 179099/371472 [3:10:47<15:49:57,  3.38it/s] 48%|████▊     | 179100/371472 [3:10:47<15:28:33,  3.45it/s]                                                            {'loss': 3.0736, 'learning_rate': 5.663287293412916e-07, 'epoch': 7.71}
 48%|████▊     | 179100/371472 [3:10:47<15:28:33,  3.45it/s] 48%|████▊     | 179101/371472 [3:10:48<15:48:13,  3.38it/s] 48%|████▊     | 179102/371472 [3:10:48<15:22:53,  3.47it/s] 48%|████▊     | 179103/371472 [3:10:48<15:08:59,  3.53it/s] 48%|████▊     | 179104/371472 [3:10:49<14:51:56,  3.59it/s] 48%|████▊     | 179105/371472 [3:10:49<16:00:28,  3.34it/s] 48%|████▊     | 179106/371472 [3:10:49<16:08:22,  3.31it/s] 48%|████▊     | 179107/371472 [3:10:50<15:21:03,  3.48it/s] 48%|████▊     | 179108/371472 [3:10:50<14:55:22,  3.58it/s] 48%|████▊     | 179109/371472 [3:10:50<15:05:16,  3.54it/s] 48%|████▊     | 179110/371472 [3:10:50<14:54:53,  3.58it/s] 48%|████▊     | 179111/371472 [3:10:51<14:39:14,  3.65it/s] 48%|████▊     | 179112/371472 [3:10:51<14:24:48,  3.71it/s] 48%|████▊     | 179113/371472 [3:10:51<14:23:05,  3.71it/s] 48%|████▊     | 179114/371472 [3:10:51<14:08:41,  3.78it/s] 48%|████▊     | 179115/371472 [3:10:52<16:30:50,  3.24it/s] 48%|████▊     | 179116/371472 [3:10:52<16:35:00,  3.22it/s] 48%|████▊     | 179117/371472 [3:10:52<16:09:15,  3.31it/s] 48%|████▊     | 179118/371472 [3:10:53<16:42:54,  3.20it/s] 48%|████▊     | 179119/371472 [3:10:53<15:59:00,  3.34it/s] 48%|████▊     | 179120/371472 [3:10:53<15:17:45,  3.49it/s]                                                            {'loss': 3.0116, 'learning_rate': 5.662802473658126e-07, 'epoch': 7.72}
 48%|████▊     | 179120/371472 [3:10:53<15:17:45,  3.49it/s] 48%|████▊     | 179121/371472 [3:10:53<14:45:07,  3.62it/s] 48%|████▊     | 179122/371472 [3:10:54<14:37:37,  3.65it/s] 48%|████▊     | 179123/371472 [3:10:54<14:41:19,  3.64it/s] 48%|████▊     | 179124/371472 [3:10:54<14:17:05,  3.74it/s] 48%|████▊     | 179125/371472 [3:10:55<14:20:25,  3.73it/s] 48%|████▊     | 179126/371472 [3:10:55<14:06:48,  3.79it/s] 48%|████▊     | 179127/371472 [3:10:55<14:16:19,  3.74it/s] 48%|████▊     | 179128/371472 [3:10:55<14:32:38,  3.67it/s] 48%|████▊     | 179129/371472 [3:10:56<14:37:17,  3.65it/s] 48%|████▊     | 179130/371472 [3:10:56<14:37:11,  3.65it/s] 48%|████▊     | 179131/371472 [3:10:56<15:54:07,  3.36it/s] 48%|████▊     | 179132/371472 [3:10:57<17:46:37,  3.01it/s] 48%|████▊     | 179133/371472 [3:10:57<17:19:54,  3.08it/s] 48%|████▊     | 179134/371472 [3:10:57<16:59:42,  3.14it/s] 48%|████▊     | 179135/371472 [3:10:58<16:06:14,  3.32it/s] 48%|████▊     | 179136/371472 [3:10:58<15:44:11,  3.40it/s] 48%|████▊     | 179137/371472 [3:10:58<16:09:48,  3.31it/s] 48%|████▊     | 179138/371472 [3:10:59<16:59:18,  3.14it/s] 48%|████▊     | 179139/371472 [3:10:59<17:32:03,  3.05it/s] 48%|████▊     | 179140/371472 [3:10:59<16:32:51,  3.23it/s]                                                            {'loss': 2.8403, 'learning_rate': 5.662317653903336e-07, 'epoch': 7.72}
 48%|████▊     | 179140/371472 [3:10:59<16:32:51,  3.23it/s] 48%|████▊     | 179141/371472 [3:10:59<17:16:23,  3.09it/s] 48%|████▊     | 179142/371472 [3:11:00<17:20:40,  3.08it/s] 48%|████▊     | 179143/371472 [3:11:00<16:16:27,  3.28it/s] 48%|████▊     | 179144/371472 [3:11:00<16:09:04,  3.31it/s] 48%|████▊     | 179145/371472 [3:11:01<17:20:03,  3.08it/s] 48%|████▊     | 179146/371472 [3:11:01<21:12:38,  2.52it/s] 48%|████▊     | 179147/371472 [3:11:02<19:36:34,  2.72it/s] 48%|████▊     | 179148/371472 [3:11:02<17:58:22,  2.97it/s] 48%|████▊     | 179149/371472 [3:11:02<17:36:03,  3.04it/s] 48%|████▊     | 179150/371472 [3:11:02<16:05:23,  3.32it/s] 48%|████▊     | 179151/371472 [3:11:03<15:36:53,  3.42it/s] 48%|████▊     | 179152/371472 [3:11:03<15:55:25,  3.35it/s] 48%|████▊     | 179153/371472 [3:11:03<16:16:02,  3.28it/s] 48%|████▊     | 179154/371472 [3:11:04<15:25:27,  3.46it/s] 48%|████▊     | 179155/371472 [3:11:04<16:00:43,  3.34it/s] 48%|████▊     | 179156/371472 [3:11:04<16:10:45,  3.30it/s] 48%|████▊     | 179157/371472 [3:11:04<15:33:27,  3.43it/s] 48%|████▊     | 179158/371472 [3:11:05<15:27:59,  3.45it/s] 48%|████▊     | 179159/371472 [3:11:05<16:10:40,  3.30it/s] 48%|████▊     | 179160/371472 [3:11:05<15:48:37,  3.38it/s]                                                            {'loss': 3.0471, 'learning_rate': 5.661832834148549e-07, 'epoch': 7.72}
 48%|████▊     | 179160/371472 [3:11:05<15:48:37,  3.38it/s] 48%|████▊     | 179161/371472 [3:11:06<16:14:20,  3.29it/s] 48%|████▊     | 179162/371472 [3:11:06<15:44:41,  3.39it/s] 48%|████▊     | 179163/371472 [3:11:06<15:13:38,  3.51it/s] 48%|████▊     | 179164/371472 [3:11:06<14:35:48,  3.66it/s] 48%|████▊     | 179165/371472 [3:11:07<14:34:15,  3.67it/s] 48%|████▊     | 179166/371472 [3:11:07<14:15:49,  3.75it/s] 48%|████▊     | 179167/371472 [3:11:07<15:05:10,  3.54it/s] 48%|████▊     | 179168/371472 [3:11:08<14:42:32,  3.63it/s] 48%|████▊     | 179169/371472 [3:11:08<15:15:06,  3.50it/s] 48%|████▊     | 179170/371472 [3:11:08<14:40:35,  3.64it/s] 48%|████▊     | 179171/371472 [3:11:08<14:30:18,  3.68it/s] 48%|████▊     | 179172/371472 [3:11:09<16:04:13,  3.32it/s] 48%|████▊     | 179173/371472 [3:11:09<16:04:04,  3.32it/s] 48%|████▊     | 179174/371472 [3:11:09<15:37:29,  3.42it/s] 48%|████▊     | 179175/371472 [3:11:10<15:56:49,  3.35it/s] 48%|████▊     | 179176/371472 [3:11:10<15:13:31,  3.51it/s] 48%|████▊     | 179177/371472 [3:11:10<16:59:38,  3.14it/s] 48%|████▊     | 179178/371472 [3:11:11<16:07:27,  3.31it/s] 48%|████▊     | 179179/371472 [3:11:11<16:16:32,  3.28it/s] 48%|████▊     | 179180/371472 [3:11:11<16:16:04,  3.28it/s]                                                            {'loss': 3.1596, 'learning_rate': 5.66134801439376e-07, 'epoch': 7.72}
 48%|████▊     | 179180/371472 [3:11:11<16:16:04,  3.28it/s] 48%|████▊     | 179181/371472 [3:11:11<15:41:21,  3.40it/s] 48%|████▊     | 179182/371472 [3:11:12<15:41:38,  3.40it/s] 48%|████▊     | 179183/371472 [3:11:12<15:06:27,  3.54it/s] 48%|████▊     | 179184/371472 [3:11:13<19:07:51,  2.79it/s] 48%|████▊     | 179185/371472 [3:11:13<19:00:12,  2.81it/s] 48%|████▊     | 179186/371472 [3:11:13<17:48:43,  3.00it/s] 48%|████▊     | 179187/371472 [3:11:13<17:03:15,  3.13it/s] 48%|████▊     | 179188/371472 [3:11:14<16:28:20,  3.24it/s] 48%|████▊     | 179189/371472 [3:11:14<16:17:39,  3.28it/s] 48%|████▊     | 179190/371472 [3:11:14<15:45:32,  3.39it/s] 48%|████▊     | 179191/371472 [3:11:15<15:36:47,  3.42it/s] 48%|████▊     | 179192/371472 [3:11:15<15:00:32,  3.56it/s] 48%|████▊     | 179193/371472 [3:11:15<15:50:14,  3.37it/s] 48%|████▊     | 179194/371472 [3:11:16<16:37:10,  3.21it/s] 48%|████▊     | 179195/371472 [3:11:16<16:00:33,  3.34it/s] 48%|████▊     | 179196/371472 [3:11:16<16:23:55,  3.26it/s] 48%|████▊     | 179197/371472 [3:11:16<15:51:49,  3.37it/s] 48%|████▊     | 179198/371472 [3:11:17<15:32:30,  3.44it/s] 48%|████▊     | 179199/371472 [3:11:17<15:43:11,  3.40it/s] 48%|████▊     | 179200/371472 [3:11:17<15:38:55,  3.41it/s]                                                            {'loss': 3.0092, 'learning_rate': 5.660863194638971e-07, 'epoch': 7.72}
 48%|████▊     | 179200/371472 [3:11:17<15:38:55,  3.41it/s] 48%|████▊     | 179201/371472 [3:11:18<16:09:11,  3.31it/s] 48%|████▊     | 179202/371472 [3:11:18<16:06:39,  3.32it/s] 48%|████▊     | 179203/371472 [3:11:18<15:12:11,  3.51it/s] 48%|████▊     | 179204/371472 [3:11:18<14:39:52,  3.64it/s] 48%|████▊     | 179205/371472 [3:11:19<15:29:01,  3.45it/s] 48%|████▊     | 179206/371472 [3:11:19<15:48:59,  3.38it/s] 48%|████▊     | 179207/371472 [3:11:19<15:18:07,  3.49it/s] 48%|████▊     | 179208/371472 [3:11:20<14:38:11,  3.65it/s] 48%|████▊     | 179209/371472 [3:11:20<14:05:53,  3.79it/s] 48%|████▊     | 179210/371472 [3:11:20<14:27:15,  3.69it/s] 48%|████▊     | 179211/371472 [3:11:20<14:04:23,  3.79it/s] 48%|████▊     | 179212/371472 [3:11:21<15:08:52,  3.53it/s] 48%|████▊     | 179213/371472 [3:11:21<14:44:22,  3.62it/s] 48%|████▊     | 179214/371472 [3:11:21<14:37:33,  3.65it/s] 48%|████▊     | 179215/371472 [3:11:21<14:19:49,  3.73it/s] 48%|████▊     | 179216/371472 [3:11:22<14:46:14,  3.62it/s] 48%|████▊     | 179217/371472 [3:11:22<15:19:05,  3.49it/s] 48%|████▊     | 179218/371472 [3:11:22<15:41:35,  3.40it/s] 48%|████▊     | 179219/371472 [3:11:23<15:14:54,  3.50it/s] 48%|████▊     | 179220/371472 [3:11:23<14:38:16,  3.65it/s]                                                            {'loss': 3.1072, 'learning_rate': 5.660378374884181e-07, 'epoch': 7.72}
 48%|████▊     | 179220/371472 [3:11:23<14:38:16,  3.65it/s] 48%|████▊     | 179221/371472 [3:11:23<15:31:02,  3.44it/s] 48%|████▊     | 179222/371472 [3:11:23<15:23:06,  3.47it/s] 48%|████▊     | 179223/371472 [3:11:24<14:31:17,  3.68it/s] 48%|████▊     | 179224/371472 [3:11:24<14:58:01,  3.57it/s] 48%|████▊     | 179225/371472 [3:11:24<14:17:45,  3.74it/s] 48%|████▊     | 179226/371472 [3:11:24<13:53:28,  3.84it/s] 48%|████▊     | 179227/371472 [3:11:25<13:50:22,  3.86it/s] 48%|████▊     | 179228/371472 [3:11:25<14:15:47,  3.74it/s] 48%|████▊     | 179229/371472 [3:11:25<14:49:22,  3.60it/s] 48%|████▊     | 179230/371472 [3:11:26<14:31:59,  3.67it/s] 48%|████▊     | 179231/371472 [3:11:26<14:50:09,  3.60it/s] 48%|████▊     | 179232/371472 [3:11:26<14:37:34,  3.65it/s] 48%|████▊     | 179233/371472 [3:11:26<14:52:41,  3.59it/s] 48%|████▊     | 179234/371472 [3:11:27<14:36:58,  3.65it/s] 48%|████▊     | 179235/371472 [3:11:27<14:32:58,  3.67it/s] 48%|████▊     | 179236/371472 [3:11:27<14:47:30,  3.61it/s] 48%|████▊     | 179237/371472 [3:11:28<15:07:58,  3.53it/s] 48%|████▊     | 179238/371472 [3:11:28<14:39:00,  3.64it/s] 48%|████▊     | 179239/371472 [3:11:28<15:17:18,  3.49it/s] 48%|████▊     | 179240/371472 [3:11:28<14:35:01,  3.66it/s]                                                            {'loss': 3.085, 'learning_rate': 5.659893555129392e-07, 'epoch': 7.72}
 48%|████▊     | 179240/371472 [3:11:28<14:35:01,  3.66it/s] 48%|████▊     | 179241/371472 [3:11:29<14:58:35,  3.57it/s] 48%|████▊     | 179242/371472 [3:11:29<15:04:20,  3.54it/s] 48%|████▊     | 179243/371472 [3:11:29<15:41:01,  3.40it/s] 48%|████▊     | 179244/371472 [3:11:30<15:33:05,  3.43it/s] 48%|████▊     | 179245/371472 [3:11:30<15:42:54,  3.40it/s] 48%|████▊     | 179246/371472 [3:11:30<16:54:32,  3.16it/s] 48%|████▊     | 179247/371472 [3:11:31<17:06:11,  3.12it/s] 48%|████▊     | 179248/371472 [3:11:31<17:18:20,  3.09it/s] 48%|████▊     | 179249/371472 [3:11:31<17:06:30,  3.12it/s] 48%|████▊     | 179250/371472 [3:11:31<16:27:30,  3.24it/s] 48%|████▊     | 179251/371472 [3:11:32<16:34:03,  3.22it/s] 48%|████▊     | 179252/371472 [3:11:32<15:39:20,  3.41it/s] 48%|████▊     | 179253/371472 [3:11:32<15:51:40,  3.37it/s] 48%|████▊     | 179254/371472 [3:11:33<15:16:59,  3.49it/s] 48%|████▊     | 179255/371472 [3:11:33<15:33:50,  3.43it/s] 48%|████▊     | 179256/371472 [3:11:33<15:22:06,  3.47it/s] 48%|████▊     | 179257/371472 [3:11:33<15:12:14,  3.51it/s] 48%|████▊     | 179258/371472 [3:11:34<15:12:31,  3.51it/s] 48%|████▊     | 179259/371472 [3:11:34<15:02:59,  3.55it/s] 48%|████▊     | 179260/371472 [3:11:34<14:51:19,  3.59it/s]                                                            {'loss': 3.1446, 'learning_rate': 5.659408735374605e-07, 'epoch': 7.72}
 48%|████▊     | 179260/371472 [3:11:34<14:51:19,  3.59it/s] 48%|████▊     | 179261/371472 [3:11:35<14:51:37,  3.59it/s] 48%|████▊     | 179262/371472 [3:11:35<15:15:55,  3.50it/s] 48%|████▊     | 179263/371472 [3:11:35<15:56:57,  3.35it/s] 48%|████▊     | 179264/371472 [3:11:35<15:11:17,  3.52it/s] 48%|████▊     | 179265/371472 [3:11:36<16:56:16,  3.15it/s] 48%|████▊     | 179266/371472 [3:11:36<16:45:46,  3.19it/s] 48%|████▊     | 179267/371472 [3:11:36<16:03:36,  3.32it/s] 48%|████▊     | 179268/371472 [3:11:37<15:38:51,  3.41it/s] 48%|████▊     | 179269/371472 [3:11:37<15:11:39,  3.51it/s] 48%|████▊     | 179270/371472 [3:11:37<15:58:53,  3.34it/s] 48%|████▊     | 179271/371472 [3:11:38<16:14:21,  3.29it/s] 48%|████▊     | 179272/371472 [3:11:38<18:18:27,  2.92it/s] 48%|████▊     | 179273/371472 [3:11:38<17:56:56,  2.97it/s] 48%|████▊     | 179274/371472 [3:11:39<16:32:07,  3.23it/s] 48%|████▊     | 179275/371472 [3:11:39<16:55:59,  3.15it/s] 48%|████▊     | 179276/371472 [3:11:39<17:06:02,  3.12it/s] 48%|████▊     | 179277/371472 [3:11:40<16:03:21,  3.33it/s] 48%|████▊     | 179278/371472 [3:11:40<15:31:48,  3.44it/s] 48%|████▊     | 179279/371472 [3:11:40<15:07:27,  3.53it/s] 48%|████▊     | 179280/371472 [3:11:40<15:18:57,  3.49it/s]                                                            {'loss': 3.1533, 'learning_rate': 5.658923915619816e-07, 'epoch': 7.72}
 48%|████▊     | 179280/371472 [3:11:40<15:18:57,  3.49it/s] 48%|████▊     | 179281/371472 [3:11:41<14:53:03,  3.59it/s] 48%|████▊     | 179282/371472 [3:11:41<14:40:29,  3.64it/s] 48%|████▊     | 179283/371472 [3:11:41<14:34:34,  3.66it/s] 48%|████▊     | 179284/371472 [3:11:41<14:42:17,  3.63it/s] 48%|████▊     | 179285/371472 [3:11:42<14:37:33,  3.65it/s] 48%|████▊     | 179286/371472 [3:11:42<15:41:14,  3.40it/s] 48%|████▊     | 179287/371472 [3:11:42<14:54:20,  3.58it/s] 48%|████▊     | 179288/371472 [3:11:43<15:51:40,  3.37it/s] 48%|████▊     | 179289/371472 [3:11:43<15:06:39,  3.53it/s] 48%|████▊     | 179290/371472 [3:11:43<14:38:34,  3.65it/s] 48%|████▊     | 179291/371472 [3:11:43<14:57:55,  3.57it/s] 48%|████▊     | 179292/371472 [3:11:44<14:47:18,  3.61it/s] 48%|████▊     | 179293/371472 [3:11:44<14:58:58,  3.56it/s] 48%|████▊     | 179294/371472 [3:11:44<15:22:56,  3.47it/s] 48%|████▊     | 179295/371472 [3:11:45<15:28:37,  3.45it/s] 48%|████▊     | 179296/371472 [3:11:45<16:19:11,  3.27it/s] 48%|████▊     | 179297/371472 [3:11:45<15:49:13,  3.37it/s] 48%|████▊     | 179298/371472 [3:11:45<15:23:14,  3.47it/s] 48%|████▊     | 179299/371472 [3:11:46<15:07:01,  3.53it/s] 48%|████▊     | 179300/371472 [3:11:46<15:11:02,  3.52it/s]                                                            {'loss': 2.8801, 'learning_rate': 5.658439095865026e-07, 'epoch': 7.72}
 48%|████▊     | 179300/371472 [3:11:46<15:11:02,  3.52it/s] 48%|████▊     | 179301/371472 [3:11:46<14:37:25,  3.65it/s] 48%|████▊     | 179302/371472 [3:11:47<14:44:46,  3.62it/s] 48%|████▊     | 179303/371472 [3:11:47<14:37:27,  3.65it/s] 48%|████▊     | 179304/371472 [3:11:47<14:55:25,  3.58it/s] 48%|████▊     | 179305/371472 [3:11:47<14:32:49,  3.67it/s] 48%|████▊     | 179306/371472 [3:11:48<14:15:14,  3.74it/s] 48%|████▊     | 179307/371472 [3:11:48<15:17:06,  3.49it/s] 48%|████▊     | 179308/371472 [3:11:48<15:00:35,  3.56it/s] 48%|████▊     | 179309/371472 [3:11:48<14:38:03,  3.65it/s] 48%|████▊     | 179310/371472 [3:11:49<14:18:56,  3.73it/s] 48%|████▊     | 179311/371472 [3:11:49<14:33:15,  3.67it/s] 48%|████▊     | 179312/371472 [3:11:49<14:08:08,  3.78it/s] 48%|████▊     | 179313/371472 [3:11:50<14:19:09,  3.73it/s] 48%|████▊     | 179314/371472 [3:11:50<14:28:01,  3.69it/s] 48%|████▊     | 179315/371472 [3:11:50<15:07:24,  3.53it/s] 48%|████▊     | 179316/371472 [3:11:50<14:48:33,  3.60it/s] 48%|████▊     | 179317/371472 [3:11:51<15:31:48,  3.44it/s] 48%|████▊     | 179318/371472 [3:11:51<16:10:14,  3.30it/s] 48%|████▊     | 179319/371472 [3:11:51<15:43:37,  3.39it/s] 48%|████▊     | 179320/371472 [3:11:52<15:17:04,  3.49it/s]                                                            {'loss': 3.2634, 'learning_rate': 5.657954276110237e-07, 'epoch': 7.72}
 48%|████▊     | 179320/371472 [3:11:52<15:17:04,  3.49it/s] 48%|████▊     | 179321/371472 [3:11:52<16:46:19,  3.18it/s] 48%|████▊     | 179322/371472 [3:11:52<17:05:31,  3.12it/s] 48%|████▊     | 179323/371472 [3:11:53<16:46:30,  3.18it/s] 48%|████▊     | 179324/371472 [3:11:53<16:09:39,  3.30it/s] 48%|████▊     | 179325/371472 [3:11:53<15:17:58,  3.49it/s] 48%|████▊     | 179326/371472 [3:11:54<16:43:43,  3.19it/s] 48%|████▊     | 179327/371472 [3:11:54<16:06:58,  3.31it/s] 48%|████▊     | 179328/371472 [3:11:54<16:30:52,  3.23it/s] 48%|████▊     | 179329/371472 [3:11:54<15:51:05,  3.37it/s] 48%|████▊     | 179330/371472 [3:11:55<15:28:40,  3.45it/s] 48%|████▊     | 179331/371472 [3:11:55<15:50:54,  3.37it/s] 48%|████▊     | 179332/371472 [3:11:55<15:22:25,  3.47it/s] 48%|████▊     | 179333/371472 [3:11:56<15:08:53,  3.52it/s] 48%|████▊     | 179334/371472 [3:11:56<15:35:13,  3.42it/s] 48%|████▊     | 179335/371472 [3:11:56<15:08:39,  3.52it/s] 48%|████▊     | 179336/371472 [3:11:56<14:56:14,  3.57it/s] 48%|████▊     | 179337/371472 [3:11:57<15:05:49,  3.54it/s] 48%|████▊     | 179338/371472 [3:11:57<14:47:42,  3.61it/s] 48%|████▊     | 179339/371472 [3:11:57<15:03:20,  3.54it/s] 48%|████▊     | 179340/371472 [3:11:57<14:58:15,  3.56it/s]                                                            {'loss': 3.1914, 'learning_rate': 5.657469456355448e-07, 'epoch': 7.72}
 48%|████▊     | 179340/371472 [3:11:57<14:58:15,  3.56it/s] 48%|████▊     | 179341/371472 [3:11:58<15:13:36,  3.50it/s] 48%|████▊     | 179342/371472 [3:11:58<14:53:08,  3.59it/s] 48%|████▊     | 179343/371472 [3:11:58<14:30:44,  3.68it/s] 48%|████▊     | 179344/371472 [3:11:59<14:40:46,  3.64it/s] 48%|████▊     | 179345/371472 [3:11:59<15:18:39,  3.49it/s] 48%|████▊     | 179346/371472 [3:11:59<14:56:34,  3.57it/s] 48%|████▊     | 179347/371472 [3:11:59<14:35:00,  3.66it/s] 48%|████▊     | 179348/371472 [3:12:00<15:21:40,  3.47it/s] 48%|████▊     | 179349/371472 [3:12:00<15:24:35,  3.46it/s] 48%|████▊     | 179350/371472 [3:12:00<15:19:56,  3.48it/s] 48%|████▊     | 179351/371472 [3:12:01<15:30:12,  3.44it/s] 48%|████▊     | 179352/371472 [3:12:01<15:41:23,  3.40it/s] 48%|████▊     | 179353/371472 [3:12:01<15:19:38,  3.48it/s] 48%|████▊     | 179354/371472 [3:12:01<15:17:32,  3.49it/s] 48%|████▊     | 179355/371472 [3:12:02<16:22:30,  3.26it/s] 48%|████▊     | 179356/371472 [3:12:02<15:55:58,  3.35it/s] 48%|████▊     | 179357/371472 [3:12:02<15:28:28,  3.45it/s] 48%|████▊     | 179358/371472 [3:12:03<16:13:15,  3.29it/s] 48%|████▊     | 179359/371472 [3:12:03<15:49:12,  3.37it/s] 48%|████▊     | 179360/371472 [3:12:03<15:17:56,  3.49it/s]                                                            {'loss': 3.2524, 'learning_rate': 5.656984636600659e-07, 'epoch': 7.73}
 48%|████▊     | 179360/371472 [3:12:03<15:17:56,  3.49it/s] 48%|████▊     | 179361/371472 [3:12:04<15:19:21,  3.48it/s] 48%|████▊     | 179362/371472 [3:12:04<15:33:33,  3.43it/s] 48%|████▊     | 179363/371472 [3:12:04<15:37:38,  3.41it/s] 48%|████▊     | 179364/371472 [3:12:04<14:58:19,  3.56it/s] 48%|████▊     | 179365/371472 [3:12:05<16:47:28,  3.18it/s] 48%|████▊     | 179366/371472 [3:12:05<16:00:50,  3.33it/s] 48%|████▊     | 179367/371472 [3:12:05<16:43:54,  3.19it/s] 48%|████▊     | 179368/371472 [3:12:06<16:13:18,  3.29it/s] 48%|████▊     | 179369/371472 [3:12:06<16:57:31,  3.15it/s] 48%|████▊     | 179370/371472 [3:12:06<16:02:03,  3.33it/s] 48%|████▊     | 179371/371472 [3:12:07<15:31:09,  3.44it/s] 48%|████▊     | 179372/371472 [3:12:07<15:49:09,  3.37it/s] 48%|████▊     | 179373/371472 [3:12:07<15:14:22,  3.50it/s] 48%|████▊     | 179374/371472 [3:12:07<14:45:56,  3.61it/s] 48%|████▊     | 179375/371472 [3:12:08<14:57:02,  3.57it/s] 48%|████▊     | 179376/371472 [3:12:08<16:30:36,  3.23it/s] 48%|████▊     | 179377/371472 [3:12:08<15:38:10,  3.41it/s] 48%|████▊     | 179378/371472 [3:12:09<15:18:27,  3.49it/s] 48%|████▊     | 179379/371472 [3:12:09<15:28:14,  3.45it/s] 48%|████▊     | 179380/371472 [3:12:09<14:52:06,  3.59it/s]                                                            {'loss': 2.9116, 'learning_rate': 5.656499816845869e-07, 'epoch': 7.73}
 48%|████▊     | 179380/371472 [3:12:09<14:52:06,  3.59it/s] 48%|████▊     | 179381/371472 [3:12:09<14:53:39,  3.58it/s] 48%|████▊     | 179382/371472 [3:12:10<14:53:33,  3.58it/s] 48%|████▊     | 179383/371472 [3:12:10<14:32:50,  3.67it/s] 48%|████▊     | 179384/371472 [3:12:10<14:46:31,  3.61it/s] 48%|████▊     | 179385/371472 [3:12:10<14:31:21,  3.67it/s] 48%|████▊     | 179386/371472 [3:12:11<14:49:21,  3.60it/s] 48%|████▊     | 179387/371472 [3:12:11<14:30:36,  3.68it/s] 48%|████▊     | 179388/371472 [3:12:11<14:46:59,  3.61it/s] 48%|████▊     | 179389/371472 [3:12:12<14:19:10,  3.73it/s] 48%|████▊     | 179390/371472 [3:12:12<14:05:32,  3.79it/s] 48%|████▊     | 179391/371472 [3:12:12<14:02:52,  3.80it/s] 48%|████▊     | 179392/371472 [3:12:12<15:19:53,  3.48it/s] 48%|████▊     | 179393/371472 [3:12:13<15:11:45,  3.51it/s] 48%|████▊     | 179394/371472 [3:12:13<14:50:42,  3.59it/s] 48%|████▊     | 179395/371472 [3:12:13<14:38:11,  3.65it/s] 48%|████▊     | 179396/371472 [3:12:14<14:24:16,  3.70it/s] 48%|████▊     | 179397/371472 [3:12:14<14:48:06,  3.60it/s] 48%|████▊     | 179398/371472 [3:12:14<15:03:50,  3.54it/s] 48%|████▊     | 179399/371472 [3:12:14<15:07:53,  3.53it/s] 48%|████▊     | 179400/371472 [3:12:15<14:57:19,  3.57it/s]                                                            {'loss': 2.9591, 'learning_rate': 5.656014997091082e-07, 'epoch': 7.73}
 48%|████▊     | 179400/371472 [3:12:15<14:57:19,  3.57it/s] 48%|████▊     | 179401/371472 [3:12:15<14:59:51,  3.56it/s] 48%|████▊     | 179402/371472 [3:12:15<14:36:33,  3.65it/s] 48%|████▊     | 179403/371472 [3:12:16<16:09:37,  3.30it/s] 48%|████▊     | 179404/371472 [3:12:16<15:47:14,  3.38it/s] 48%|████▊     | 179405/371472 [3:12:16<16:03:43,  3.32it/s] 48%|████▊     | 179406/371472 [3:12:16<15:28:41,  3.45it/s] 48%|████▊     | 179407/371472 [3:12:17<14:52:43,  3.59it/s] 48%|████▊     | 179408/371472 [3:12:17<15:43:11,  3.39it/s] 48%|████▊     | 179409/371472 [3:12:17<14:53:58,  3.58it/s] 48%|████▊     | 179410/371472 [3:12:18<14:23:03,  3.71it/s] 48%|████▊     | 179411/371472 [3:12:18<13:54:26,  3.84it/s] 48%|████▊     | 179412/371472 [3:12:18<15:07:06,  3.53it/s] 48%|████▊     | 179413/371472 [3:12:18<14:58:59,  3.56it/s] 48%|████▊     | 179414/371472 [3:12:19<15:42:55,  3.39it/s] 48%|████▊     | 179415/371472 [3:12:19<15:15:16,  3.50it/s] 48%|████▊     | 179416/371472 [3:12:19<14:58:37,  3.56it/s] 48%|████▊     | 179417/371472 [3:12:20<16:30:46,  3.23it/s] 48%|████▊     | 179418/371472 [3:12:20<15:56:39,  3.35it/s] 48%|████▊     | 179419/371472 [3:12:20<15:05:07,  3.54it/s] 48%|████▊     | 179420/371472 [3:12:20<15:00:31,  3.55it/s]                                                            {'loss': 3.0715, 'learning_rate': 5.655530177336293e-07, 'epoch': 7.73}
 48%|████▊     | 179420/371472 [3:12:20<15:00:31,  3.55it/s] 48%|████▊     | 179421/371472 [3:12:21<14:43:43,  3.62it/s] 48%|████▊     | 179422/371472 [3:12:21<14:40:12,  3.64it/s] 48%|████▊     | 179423/371472 [3:12:21<14:37:58,  3.65it/s] 48%|████▊     | 179424/371472 [3:12:21<14:22:43,  3.71it/s] 48%|████▊     | 179425/371472 [3:12:22<14:17:05,  3.73it/s] 48%|████▊     | 179426/371472 [3:12:22<14:12:01,  3.76it/s] 48%|████▊     | 179427/371472 [3:12:22<13:56:03,  3.83it/s] 48%|████▊     | 179428/371472 [3:12:23<14:31:53,  3.67it/s] 48%|████▊     | 179429/371472 [3:12:23<14:27:49,  3.69it/s] 48%|████▊     | 179430/371472 [3:12:23<14:53:09,  3.58it/s] 48%|████▊     | 179431/371472 [3:12:23<14:47:47,  3.61it/s] 48%|████▊     | 179432/371472 [3:12:24<14:48:39,  3.60it/s] 48%|████▊     | 179433/371472 [3:12:24<15:48:34,  3.37it/s] 48%|████▊     | 179434/371472 [3:12:24<15:27:34,  3.45it/s] 48%|████▊     | 179435/371472 [3:12:25<14:45:20,  3.62it/s] 48%|████▊     | 179436/371472 [3:12:25<15:48:55,  3.37it/s] 48%|████▊     | 179437/371472 [3:12:25<15:38:44,  3.41it/s] 48%|████▊     | 179438/371472 [3:12:25<16:21:26,  3.26it/s] 48%|████▊     | 179439/371472 [3:12:26<16:42:52,  3.19it/s] 48%|████▊     | 179440/371472 [3:12:26<15:46:28,  3.38it/s]                                                            {'loss': 2.9394, 'learning_rate': 5.655045357581502e-07, 'epoch': 7.73}
 48%|████▊     | 179440/371472 [3:12:26<15:46:28,  3.38it/s] 48%|████▊     | 179441/371472 [3:12:26<15:21:46,  3.47it/s] 48%|████▊     | 179442/371472 [3:12:27<16:34:48,  3.22it/s] 48%|████▊     | 179443/371472 [3:12:27<16:24:43,  3.25it/s] 48%|████▊     | 179444/371472 [3:12:27<16:50:43,  3.17it/s] 48%|████▊     | 179445/371472 [3:12:28<16:05:51,  3.31it/s] 48%|████▊     | 179446/371472 [3:12:28<15:50:43,  3.37it/s] 48%|████▊     | 179447/371472 [3:12:28<15:15:05,  3.50it/s] 48%|████▊     | 179448/371472 [3:12:28<14:35:11,  3.66it/s] 48%|████▊     | 179449/371472 [3:12:29<15:01:10,  3.55it/s] 48%|████▊     | 179450/371472 [3:12:29<15:16:25,  3.49it/s] 48%|████▊     | 179451/371472 [3:12:29<15:48:45,  3.37it/s] 48%|████▊     | 179452/371472 [3:12:30<15:47:59,  3.38it/s] 48%|████▊     | 179453/371472 [3:12:30<15:43:29,  3.39it/s] 48%|████▊     | 179454/371472 [3:12:30<15:16:35,  3.49it/s] 48%|████▊     | 179455/371472 [3:12:30<15:24:01,  3.46it/s] 48%|████▊     | 179456/371472 [3:12:31<14:55:26,  3.57it/s] 48%|████▊     | 179457/371472 [3:12:31<15:30:12,  3.44it/s] 48%|████▊     | 179458/371472 [3:12:31<15:12:23,  3.51it/s] 48%|████▊     | 179459/371472 [3:12:32<14:54:46,  3.58it/s] 48%|████▊     | 179460/371472 [3:12:32<14:52:17,  3.59it/s]                                                            {'loss': 2.9876, 'learning_rate': 5.654560537826714e-07, 'epoch': 7.73}
 48%|████▊     | 179460/371472 [3:12:32<14:52:17,  3.59it/s] 48%|████▊     | 179461/371472 [3:12:32<15:36:52,  3.42it/s] 48%|████▊     | 179462/371472 [3:12:32<15:04:18,  3.54it/s] 48%|████▊     | 179463/371472 [3:12:33<14:39:18,  3.64it/s] 48%|████▊     | 179464/371472 [3:12:33<14:34:10,  3.66it/s] 48%|████▊     | 179465/371472 [3:12:33<15:41:24,  3.40it/s] 48%|████▊     | 179466/371472 [3:12:34<15:43:40,  3.39it/s] 48%|████▊     | 179467/371472 [3:12:34<15:16:21,  3.49it/s] 48%|████▊     | 179468/371472 [3:12:34<16:26:35,  3.24it/s] 48%|████▊     | 179469/371472 [3:12:35<16:48:18,  3.17it/s] 48%|████▊     | 179470/371472 [3:12:35<16:41:31,  3.20it/s] 48%|████▊     | 179471/371472 [3:12:35<16:48:30,  3.17it/s] 48%|████▊     | 179472/371472 [3:12:35<15:55:26,  3.35it/s] 48%|████▊     | 179473/371472 [3:12:36<15:08:56,  3.52it/s] 48%|████▊     | 179474/371472 [3:12:36<15:31:37,  3.43it/s] 48%|████▊     | 179475/371472 [3:12:36<15:18:46,  3.48it/s] 48%|████▊     | 179476/371472 [3:12:37<16:10:27,  3.30it/s] 48%|████▊     | 179477/371472 [3:12:37<16:17:00,  3.28it/s] 48%|████▊     | 179478/371472 [3:12:37<15:33:18,  3.43it/s] 48%|████▊     | 179479/371472 [3:12:37<15:10:45,  3.51it/s] 48%|████▊     | 179480/371472 [3:12:38<14:49:16,  3.60it/s]                                                            {'loss': 3.1886, 'learning_rate': 5.654075718071926e-07, 'epoch': 7.73}
 48%|████▊     | 179480/371472 [3:12:38<14:49:16,  3.60it/s] 48%|████▊     | 179481/371472 [3:12:38<14:45:44,  3.61it/s] 48%|████▊     | 179482/371472 [3:12:38<14:43:30,  3.62it/s] 48%|████▊     | 179483/371472 [3:12:39<15:13:16,  3.50it/s] 48%|████▊     | 179484/371472 [3:12:39<15:10:22,  3.51it/s] 48%|████▊     | 179485/371472 [3:12:39<15:37:12,  3.41it/s] 48%|████▊     | 179486/371472 [3:12:39<15:34:32,  3.42it/s] 48%|████▊     | 179487/371472 [3:12:40<16:08:47,  3.30it/s] 48%|████▊     | 179488/371472 [3:12:40<16:23:24,  3.25it/s] 48%|████▊     | 179489/371472 [3:12:40<16:53:23,  3.16it/s] 48%|████▊     | 179490/371472 [3:12:41<16:18:54,  3.27it/s] 48%|████▊     | 179491/371472 [3:12:41<15:45:34,  3.38it/s] 48%|████▊     | 179492/371472 [3:12:41<16:02:18,  3.33it/s] 48%|████▊     | 179493/371472 [3:12:42<16:06:57,  3.31it/s] 48%|████▊     | 179494/371472 [3:12:42<15:30:11,  3.44it/s] 48%|████▊     | 179495/371472 [3:12:42<15:19:17,  3.48it/s] 48%|████▊     | 179496/371472 [3:12:42<14:57:32,  3.56it/s] 48%|████▊     | 179497/371472 [3:12:43<15:10:02,  3.52it/s] 48%|████▊     | 179498/371472 [3:12:43<15:06:20,  3.53it/s] 48%|████▊     | 179499/371472 [3:12:43<14:33:02,  3.66it/s] 48%|████▊     | 179500/371472 [3:12:44<15:26:52,  3.45it/s]                                                            {'loss': 3.0601, 'learning_rate': 5.653590898317136e-07, 'epoch': 7.73}
 48%|████▊     | 179500/371472 [3:12:44<15:26:52,  3.45it/s] 48%|████▊     | 179501/371472 [3:12:44<15:30:43,  3.44it/s] 48%|████▊     | 179502/371472 [3:12:44<15:38:53,  3.41it/s] 48%|████▊     | 179503/371472 [3:12:44<15:18:26,  3.48it/s] 48%|████▊     | 179504/371472 [3:12:45<14:48:15,  3.60it/s] 48%|████▊     | 179505/371472 [3:12:45<14:36:26,  3.65it/s] 48%|████▊     | 179506/371472 [3:12:45<14:40:50,  3.63it/s] 48%|████▊     | 179507/371472 [3:12:46<15:27:02,  3.45it/s] 48%|████▊     | 179508/371472 [3:12:46<14:51:26,  3.59it/s] 48%|████▊     | 179509/371472 [3:12:46<15:42:03,  3.40it/s] 48%|████▊     | 179510/371472 [3:12:46<15:03:58,  3.54it/s] 48%|████▊     | 179511/371472 [3:12:47<15:08:12,  3.52it/s] 48%|████▊     | 179512/371472 [3:12:47<14:49:43,  3.60it/s] 48%|████▊     | 179513/371472 [3:12:47<14:39:03,  3.64it/s] 48%|████▊     | 179514/371472 [3:12:47<14:32:38,  3.67it/s] 48%|████▊     | 179515/371472 [3:12:48<14:38:49,  3.64it/s] 48%|████▊     | 179516/371472 [3:12:48<15:09:50,  3.52it/s] 48%|████▊     | 179517/371472 [3:12:48<15:18:44,  3.48it/s] 48%|████▊     | 179518/371472 [3:12:49<15:09:28,  3.52it/s] 48%|████▊     | 179519/371472 [3:12:49<15:31:39,  3.43it/s] 48%|████▊     | 179520/371472 [3:12:49<15:16:28,  3.49it/s]                                                            {'loss': 3.0378, 'learning_rate': 5.653106078562346e-07, 'epoch': 7.73}
 48%|████▊     | 179520/371472 [3:12:49<15:16:28,  3.49it/s] 48%|████▊     | 179521/371472 [3:12:49<14:59:20,  3.56it/s] 48%|████▊     | 179522/371472 [3:12:50<15:35:11,  3.42it/s] 48%|████▊     | 179523/371472 [3:12:50<15:17:40,  3.49it/s] 48%|████▊     | 179524/371472 [3:12:50<15:08:53,  3.52it/s] 48%|████▊     | 179525/371472 [3:12:51<15:56:47,  3.34it/s] 48%|████▊     | 179526/371472 [3:12:51<15:18:34,  3.48it/s] 48%|████▊     | 179527/371472 [3:12:51<15:50:29,  3.37it/s] 48%|████▊     | 179528/371472 [3:12:52<15:16:37,  3.49it/s] 48%|████▊     | 179529/371472 [3:12:52<15:32:46,  3.43it/s] 48%|████▊     | 179530/371472 [3:12:52<15:14:49,  3.50it/s] 48%|████▊     | 179531/371472 [3:12:52<15:13:35,  3.50it/s] 48%|████▊     | 179532/371472 [3:12:53<14:57:21,  3.56it/s] 48%|████▊     | 179533/371472 [3:12:53<15:31:49,  3.43it/s] 48%|████▊     | 179534/371472 [3:12:53<15:48:58,  3.37it/s] 48%|████▊     | 179535/371472 [3:12:54<16:09:56,  3.30it/s] 48%|████▊     | 179536/371472 [3:12:54<16:07:03,  3.31it/s] 48%|████▊     | 179537/371472 [3:12:54<15:36:38,  3.42it/s] 48%|████▊     | 179538/371472 [3:12:54<15:30:48,  3.44it/s] 48%|████▊     | 179539/371472 [3:12:55<15:53:17,  3.36it/s] 48%|████▊     | 179540/371472 [3:12:55<16:14:52,  3.28it/s]                                                            {'loss': 2.9246, 'learning_rate': 5.652621258807559e-07, 'epoch': 7.73}
 48%|████▊     | 179540/371472 [3:12:55<16:14:52,  3.28it/s] 48%|████▊     | 179541/371472 [3:12:55<15:36:32,  3.42it/s] 48%|████▊     | 179542/371472 [3:12:56<15:15:45,  3.49it/s] 48%|████▊     | 179543/371472 [3:12:56<14:52:28,  3.58it/s] 48%|████▊     | 179544/371472 [3:12:56<16:40:32,  3.20it/s] 48%|████▊     | 179545/371472 [3:12:57<16:10:08,  3.30it/s] 48%|████▊     | 179546/371472 [3:12:57<15:34:35,  3.42it/s] 48%|████▊     | 179547/371472 [3:12:57<15:39:23,  3.41it/s] 48%|████▊     | 179548/371472 [3:12:57<16:08:44,  3.30it/s] 48%|████▊     | 179549/371472 [3:12:58<15:55:36,  3.35it/s] 48%|████▊     | 179550/371472 [3:12:58<16:14:57,  3.28it/s] 48%|████▊     | 179551/371472 [3:12:58<15:48:38,  3.37it/s] 48%|████▊     | 179552/371472 [3:12:59<16:39:24,  3.20it/s] 48%|████▊     | 179553/371472 [3:12:59<15:57:05,  3.34it/s] 48%|████▊     | 179554/371472 [3:12:59<14:59:47,  3.55it/s] 48%|████▊     | 179555/371472 [3:12:59<14:31:32,  3.67it/s] 48%|████▊     | 179556/371472 [3:13:00<14:21:26,  3.71it/s] 48%|████▊     | 179557/371472 [3:13:00<14:21:13,  3.71it/s] 48%|████▊     | 179558/371472 [3:13:00<14:08:16,  3.77it/s] 48%|████▊     | 179559/371472 [3:13:01<15:18:41,  3.48it/s] 48%|████▊     | 179560/371472 [3:13:01<15:41:00,  3.40it/s]                                                            {'loss': 3.2498, 'learning_rate': 5.65213643905277e-07, 'epoch': 7.73}
 48%|████▊     | 179560/371472 [3:13:01<15:41:00,  3.40it/s] 48%|████▊     | 179561/371472 [3:13:01<15:08:20,  3.52it/s] 48%|████▊     | 179562/371472 [3:13:01<15:12:23,  3.51it/s] 48%|████▊     | 179563/371472 [3:13:02<15:04:40,  3.54it/s] 48%|████▊     | 179564/371472 [3:13:02<15:43:57,  3.39it/s] 48%|████▊     | 179565/371472 [3:13:02<15:02:42,  3.54it/s] 48%|████▊     | 179566/371472 [3:13:03<15:25:30,  3.46it/s] 48%|████▊     | 179567/371472 [3:13:03<15:45:18,  3.38it/s] 48%|████▊     | 179568/371472 [3:13:03<15:38:18,  3.41it/s] 48%|████▊     | 179569/371472 [3:13:04<16:02:10,  3.32it/s] 48%|████▊     | 179570/371472 [3:13:04<15:34:03,  3.42it/s] 48%|████▊     | 179571/371472 [3:13:04<16:28:08,  3.24it/s] 48%|████▊     | 179572/371472 [3:13:04<16:18:46,  3.27it/s] 48%|████▊     | 179573/371472 [3:13:05<16:16:16,  3.28it/s] 48%|████▊     | 179574/371472 [3:13:05<15:55:32,  3.35it/s] 48%|████▊     | 179575/371472 [3:13:05<16:23:06,  3.25it/s] 48%|████▊     | 179576/371472 [3:13:06<15:59:35,  3.33it/s] 48%|████▊     | 179577/371472 [3:13:06<16:02:42,  3.32it/s] 48%|████▊     | 179578/371472 [3:13:06<15:58:34,  3.34it/s] 48%|████▊     | 179579/371472 [3:13:06<15:23:06,  3.46it/s] 48%|████▊     | 179580/371472 [3:13:07<16:27:38,  3.24it/s]                                                            {'loss': 2.8432, 'learning_rate': 5.651651619297981e-07, 'epoch': 7.73}
 48%|████▊     | 179580/371472 [3:13:07<16:27:38,  3.24it/s] 48%|████▊     | 179581/371472 [3:13:07<16:03:15,  3.32it/s] 48%|████▊     | 179582/371472 [3:13:07<15:38:08,  3.41it/s] 48%|████▊     | 179583/371472 [3:13:08<15:29:50,  3.44it/s] 48%|████▊     | 179584/371472 [3:13:08<14:50:29,  3.59it/s] 48%|████▊     | 179585/371472 [3:13:08<16:07:09,  3.31it/s] 48%|████▊     | 179586/371472 [3:13:09<16:46:35,  3.18it/s] 48%|████▊     | 179587/371472 [3:13:09<17:15:17,  3.09it/s] 48%|████▊     | 179588/371472 [3:13:09<18:53:39,  2.82it/s] 48%|████▊     | 179589/371472 [3:13:10<18:08:48,  2.94it/s] 48%|████▊     | 179590/371472 [3:13:10<17:11:49,  3.10it/s] 48%|████▊     | 179591/371472 [3:13:10<16:39:44,  3.20it/s] 48%|████▊     | 179592/371472 [3:13:11<16:11:01,  3.29it/s] 48%|████▊     | 179593/371472 [3:13:11<15:07:04,  3.53it/s] 48%|████▊     | 179594/371472 [3:13:11<15:10:07,  3.51it/s] 48%|████▊     | 179595/371472 [3:13:11<14:50:27,  3.59it/s] 48%|████▊     | 179596/371472 [3:13:12<14:48:09,  3.60it/s] 48%|████▊     | 179597/371472 [3:13:12<14:28:32,  3.68it/s] 48%|████▊     | 179598/371472 [3:13:12<14:43:31,  3.62it/s] 48%|████▊     | 179599/371472 [3:13:13<15:41:00,  3.40it/s] 48%|████▊     | 179600/371472 [3:13:13<14:52:17,  3.58it/s]                                                            {'loss': 3.1892, 'learning_rate': 5.651166799543191e-07, 'epoch': 7.74}
 48%|████▊     | 179600/371472 [3:13:13<14:52:17,  3.58it/s] 48%|████▊     | 179601/371472 [3:13:13<16:11:24,  3.29it/s] 48%|████▊     | 179602/371472 [3:13:13<15:25:55,  3.45it/s] 48%|████▊     | 179603/371472 [3:13:14<14:55:17,  3.57it/s] 48%|████▊     | 179604/371472 [3:13:14<14:33:59,  3.66it/s] 48%|████▊     | 179605/371472 [3:13:14<15:55:45,  3.35it/s] 48%|████▊     | 179606/371472 [3:13:15<15:49:55,  3.37it/s] 48%|████▊     | 179607/371472 [3:13:15<14:59:44,  3.55it/s] 48%|████▊     | 179608/371472 [3:13:15<14:55:43,  3.57it/s] 48%|████▊     | 179609/371472 [3:13:15<15:36:12,  3.42it/s] 48%|████▊     | 179610/371472 [3:13:16<15:28:48,  3.44it/s] 48%|████▊     | 179611/371472 [3:13:16<15:31:35,  3.43it/s] 48%|████▊     | 179612/371472 [3:13:16<15:12:08,  3.51it/s] 48%|████▊     | 179613/371472 [3:13:17<15:32:20,  3.43it/s] 48%|████▊     | 179614/371472 [3:13:17<15:39:59,  3.40it/s] 48%|████▊     | 179615/371472 [3:13:17<15:04:05,  3.54it/s] 48%|████▊     | 179616/371472 [3:13:17<14:44:41,  3.61it/s] 48%|████▊     | 179617/371472 [3:13:18<15:07:24,  3.52it/s] 48%|████▊     | 179618/371472 [3:13:18<14:46:05,  3.61it/s] 48%|████▊     | 179619/371472 [3:13:18<15:47:39,  3.37it/s] 48%|████▊     | 179620/371472 [3:13:19<15:19:59,  3.48it/s]                                                            {'loss': 3.0963, 'learning_rate': 5.650681979788403e-07, 'epoch': 7.74}
 48%|████▊     | 179620/371472 [3:13:19<15:19:59,  3.48it/s] 48%|████▊     | 179621/371472 [3:13:19<16:01:28,  3.33it/s] 48%|████▊     | 179622/371472 [3:13:19<16:53:55,  3.15it/s] 48%|████▊     | 179623/371472 [3:13:19<16:03:38,  3.32it/s] 48%|████▊     | 179624/371472 [3:13:20<15:11:15,  3.51it/s] 48%|████▊     | 179625/371472 [3:13:20<15:22:29,  3.47it/s] 48%|████▊     | 179626/371472 [3:13:20<16:02:26,  3.32it/s] 48%|████▊     | 179627/371472 [3:13:21<16:45:05,  3.18it/s] 48%|████▊     | 179628/371472 [3:13:21<16:06:50,  3.31it/s] 48%|████▊     | 179629/371472 [3:13:21<17:36:44,  3.03it/s] 48%|████▊     | 179630/371472 [3:13:22<18:00:38,  2.96it/s] 48%|████▊     | 179631/371472 [3:13:22<17:15:43,  3.09it/s] 48%|████▊     | 179632/371472 [3:13:22<17:11:42,  3.10it/s] 48%|████▊     | 179633/371472 [3:13:23<17:30:42,  3.04it/s] 48%|████▊     | 179634/371472 [3:13:23<16:26:55,  3.24it/s] 48%|████▊     | 179635/371472 [3:13:23<15:59:23,  3.33it/s] 48%|████▊     | 179636/371472 [3:13:24<15:32:03,  3.43it/s] 48%|████▊     | 179637/371472 [3:13:24<16:05:48,  3.31it/s] 48%|████▊     | 179638/371472 [3:13:24<15:45:44,  3.38it/s] 48%|████▊     | 179639/371472 [3:13:24<16:09:50,  3.30it/s] 48%|████▊     | 179640/371472 [3:13:25<15:21:52,  3.47it/s]                                                            {'loss': 2.9085, 'learning_rate': 5.650197160033615e-07, 'epoch': 7.74}
 48%|████▊     | 179640/371472 [3:13:25<15:21:52,  3.47it/s] 48%|████▊     | 179641/371472 [3:13:25<15:12:02,  3.51it/s] 48%|████▊     | 179642/371472 [3:13:25<14:40:25,  3.63it/s] 48%|████▊     | 179643/371472 [3:13:25<14:16:03,  3.73it/s] 48%|████▊     | 179644/371472 [3:13:26<14:30:26,  3.67it/s] 48%|████▊     | 179645/371472 [3:13:26<15:05:21,  3.53it/s] 48%|████▊     | 179646/371472 [3:13:26<15:21:53,  3.47it/s] 48%|████▊     | 179647/371472 [3:13:27<14:49:03,  3.60it/s] 48%|████▊     | 179648/371472 [3:13:27<15:12:05,  3.51it/s] 48%|████▊     | 179649/371472 [3:13:27<14:40:53,  3.63it/s] 48%|████▊     | 179650/371472 [3:13:27<14:38:32,  3.64it/s] 48%|████▊     | 179651/371472 [3:13:28<14:17:32,  3.73it/s] 48%|████▊     | 179652/371472 [3:13:28<13:54:14,  3.83it/s] 48%|████▊     | 179653/371472 [3:13:28<14:46:07,  3.61it/s] 48%|████▊     | 179654/371472 [3:13:29<15:07:59,  3.52it/s] 48%|████▊     | 179655/371472 [3:13:29<14:27:54,  3.68it/s] 48%|████▊     | 179656/371472 [3:13:29<14:08:23,  3.77it/s] 48%|████▊     | 179657/371472 [3:13:29<14:16:04,  3.73it/s] 48%|████▊     | 179658/371472 [3:13:30<14:15:55,  3.74it/s] 48%|████▊     | 179659/371472 [3:13:30<14:36:27,  3.65it/s] 48%|████▊     | 179660/371472 [3:13:30<15:51:58,  3.36it/s]                                                            {'loss': 3.1324, 'learning_rate': 5.649712340278826e-07, 'epoch': 7.74}
 48%|████▊     | 179660/371472 [3:13:30<15:51:58,  3.36it/s] 48%|████▊     | 179661/371472 [3:13:31<15:37:49,  3.41it/s] 48%|████▊     | 179662/371472 [3:13:31<16:22:20,  3.25it/s] 48%|████▊     | 179663/371472 [3:13:31<16:06:21,  3.31it/s] 48%|████▊     | 179664/371472 [3:13:31<15:34:01,  3.42it/s] 48%|████▊     | 179665/371472 [3:13:32<15:21:04,  3.47it/s] 48%|████▊     | 179666/371472 [3:13:32<16:02:08,  3.32it/s] 48%|████▊     | 179667/371472 [3:13:32<15:50:29,  3.36it/s] 48%|████▊     | 179668/371472 [3:13:33<15:31:50,  3.43it/s] 48%|████▊     | 179669/371472 [3:13:33<15:07:12,  3.52it/s] 48%|████▊     | 179670/371472 [3:13:33<14:58:39,  3.56it/s] 48%|████▊     | 179671/371472 [3:13:33<14:28:53,  3.68it/s] 48%|████▊     | 179672/371472 [3:13:34<16:10:37,  3.29it/s] 48%|████▊     | 179673/371472 [3:13:34<15:24:03,  3.46it/s] 48%|████▊     | 179674/371472 [3:13:34<15:28:14,  3.44it/s] 48%|████▊     | 179675/371472 [3:13:35<15:34:26,  3.42it/s] 48%|████▊     | 179676/371472 [3:13:35<16:07:15,  3.30it/s] 48%|████▊     | 179677/371472 [3:13:35<15:23:53,  3.46it/s] 48%|████▊     | 179678/371472 [3:13:35<14:53:11,  3.58it/s] 48%|████▊     | 179679/371472 [3:13:36<14:37:21,  3.64it/s] 48%|████▊     | 179680/371472 [3:13:36<15:15:24,  3.49it/s]                                                            {'loss': 2.9755, 'learning_rate': 5.649227520524036e-07, 'epoch': 7.74}
 48%|████▊     | 179680/371472 [3:13:36<15:15:24,  3.49it/s] 48%|████▊     | 179681/371472 [3:13:36<15:36:05,  3.41it/s] 48%|████▊     | 179682/371472 [3:13:37<15:20:30,  3.47it/s] 48%|████▊     | 179683/371472 [3:13:37<15:24:35,  3.46it/s] 48%|████▊     | 179684/371472 [3:13:37<16:31:44,  3.22it/s] 48%|████▊     | 179685/371472 [3:13:38<16:30:00,  3.23it/s] 48%|████▊     | 179686/371472 [3:13:38<15:40:11,  3.40it/s] 48%|████▊     | 179687/371472 [3:13:38<15:11:04,  3.51it/s] 48%|████▊     | 179688/371472 [3:13:38<14:42:35,  3.62it/s] 48%|████▊     | 179689/371472 [3:13:39<14:48:54,  3.60it/s] 48%|████▊     | 179690/371472 [3:13:39<14:54:30,  3.57it/s] 48%|████▊     | 179691/371472 [3:13:39<15:42:06,  3.39it/s] 48%|████▊     | 179692/371472 [3:13:39<14:54:39,  3.57it/s] 48%|████▊     | 179693/371472 [3:13:40<15:02:44,  3.54it/s] 48%|████▊     | 179694/371472 [3:13:40<15:31:19,  3.43it/s] 48%|████▊     | 179695/371472 [3:13:40<15:49:19,  3.37it/s] 48%|████▊     | 179696/371472 [3:13:41<15:33:08,  3.43it/s] 48%|████▊     | 179697/371472 [3:13:41<16:54:35,  3.15it/s] 48%|████▊     | 179698/371472 [3:13:41<16:43:00,  3.19it/s] 48%|████▊     | 179699/371472 [3:13:42<17:10:39,  3.10it/s] 48%|████▊     | 179700/371472 [3:13:42<16:22:03,  3.25it/s]                                                            {'loss': 3.2457, 'learning_rate': 5.648742700769247e-07, 'epoch': 7.74}
 48%|████▊     | 179700/371472 [3:13:42<16:22:03,  3.25it/s] 48%|████▊     | 179701/371472 [3:13:42<15:49:39,  3.37it/s] 48%|████▊     | 179702/371472 [3:13:43<15:45:20,  3.38it/s] 48%|████▊     | 179703/371472 [3:13:43<15:15:54,  3.49it/s] 48%|████▊     | 179704/371472 [3:13:43<15:17:26,  3.48it/s] 48%|████▊     | 179705/371472 [3:13:43<15:11:18,  3.51it/s] 48%|████▊     | 179706/371472 [3:13:44<15:39:29,  3.40it/s] 48%|████▊     | 179707/371472 [3:13:44<15:33:26,  3.42it/s] 48%|████▊     | 179708/371472 [3:13:44<15:35:32,  3.42it/s] 48%|████▊     | 179709/371472 [3:13:45<16:05:30,  3.31it/s] 48%|████▊     | 179710/371472 [3:13:45<16:11:33,  3.29it/s] 48%|████▊     | 179711/371472 [3:13:45<16:07:27,  3.30it/s] 48%|████▊     | 179712/371472 [3:13:45<15:50:34,  3.36it/s] 48%|████▊     | 179713/371472 [3:13:46<15:23:42,  3.46it/s] 48%|████▊     | 179714/371472 [3:13:46<15:17:46,  3.48it/s] 48%|████▊     | 179715/371472 [3:13:46<15:01:48,  3.54it/s] 48%|████▊     | 179716/371472 [3:13:47<14:49:26,  3.59it/s] 48%|████▊     | 179717/371472 [3:13:47<15:38:05,  3.41it/s] 48%|████▊     | 179718/371472 [3:13:47<16:03:57,  3.32it/s] 48%|████▊     | 179719/371472 [3:13:48<15:48:53,  3.37it/s] 48%|████▊     | 179720/371472 [3:13:48<15:44:40,  3.38it/s]                                                            {'loss': 2.8438, 'learning_rate': 5.648257881014459e-07, 'epoch': 7.74}
 48%|████▊     | 179720/371472 [3:13:48<15:44:40,  3.38it/s] 48%|████▊     | 179721/371472 [3:13:48<16:58:54,  3.14it/s] 48%|████▊     | 179722/371472 [3:13:48<16:28:00,  3.23it/s] 48%|████▊     | 179723/371472 [3:13:49<16:39:49,  3.20it/s] 48%|████▊     | 179724/371472 [3:13:49<17:16:04,  3.08it/s] 48%|████▊     | 179725/371472 [3:13:49<16:55:37,  3.15it/s] 48%|████▊     | 179726/371472 [3:13:50<17:32:42,  3.04it/s] 48%|████▊     | 179727/371472 [3:13:50<17:40:07,  3.01it/s] 48%|████▊     | 179728/371472 [3:13:50<16:23:22,  3.25it/s] 48%|████▊     | 179729/371472 [3:13:51<15:52:26,  3.36it/s] 48%|████▊     | 179730/371472 [3:13:51<15:22:51,  3.46it/s] 48%|████▊     | 179731/371472 [3:13:51<15:21:26,  3.47it/s] 48%|████▊     | 179732/371472 [3:13:51<14:50:16,  3.59it/s] 48%|████▊     | 179733/371472 [3:13:52<14:50:06,  3.59it/s] 48%|████▊     | 179734/371472 [3:13:52<14:45:36,  3.61it/s] 48%|████▊     | 179735/371472 [3:13:52<14:26:12,  3.69it/s] 48%|████▊     | 179736/371472 [3:13:53<15:12:33,  3.50it/s] 48%|████▊     | 179737/371472 [3:13:53<14:55:42,  3.57it/s] 48%|████▊     | 179738/371472 [3:13:53<16:28:59,  3.23it/s] 48%|████▊     | 179739/371472 [3:13:54<16:36:13,  3.21it/s] 48%|████▊     | 179740/371472 [3:13:54<16:26:17,  3.24it/s]                                                            {'loss': 2.8969, 'learning_rate': 5.64777306125967e-07, 'epoch': 7.74}
 48%|████▊     | 179740/371472 [3:13:54<16:26:17,  3.24it/s] 48%|████▊     | 179741/371472 [3:13:54<19:08:42,  2.78it/s] 48%|████▊     | 179742/371472 [3:13:55<17:53:08,  2.98it/s] 48%|████▊     | 179743/371472 [3:13:55<18:00:38,  2.96it/s] 48%|████▊     | 179744/371472 [3:13:55<16:33:51,  3.22it/s] 48%|████▊     | 179745/371472 [3:13:56<16:18:29,  3.27it/s] 48%|████▊     | 179746/371472 [3:13:56<15:21:40,  3.47it/s] 48%|████▊     | 179747/371472 [3:13:56<15:31:59,  3.43it/s] 48%|████▊     | 179748/371472 [3:13:56<15:24:08,  3.46it/s] 48%|████▊     | 179749/371472 [3:13:57<15:26:48,  3.45it/s] 48%|████▊     | 179750/371472 [3:13:57<15:23:20,  3.46it/s] 48%|████▊     | 179751/371472 [3:13:57<16:10:01,  3.29it/s] 48%|████▊     | 179752/371472 [3:13:57<15:03:16,  3.54it/s] 48%|████▊     | 179753/371472 [3:13:58<16:23:52,  3.25it/s] 48%|████▊     | 179754/371472 [3:13:58<16:43:04,  3.19it/s] 48%|████▊     | 179755/371472 [3:13:58<16:09:46,  3.29it/s] 48%|████▊     | 179756/371472 [3:13:59<15:26:33,  3.45it/s] 48%|████▊     | 179757/371472 [3:13:59<14:29:51,  3.67it/s] 48%|████▊     | 179758/371472 [3:13:59<14:02:15,  3.79it/s] 48%|████▊     | 179759/371472 [3:13:59<13:54:09,  3.83it/s] 48%|████▊     | 179760/371472 [3:14:00<13:54:18,  3.83it/s]                                                            {'loss': 3.1159, 'learning_rate': 5.647288241504879e-07, 'epoch': 7.74}
 48%|████▊     | 179760/371472 [3:14:00<13:54:18,  3.83it/s] 48%|████▊     | 179761/371472 [3:14:00<14:31:23,  3.67it/s] 48%|████▊     | 179762/371472 [3:14:00<14:42:38,  3.62it/s] 48%|████▊     | 179763/371472 [3:14:01<15:39:39,  3.40it/s] 48%|████▊     | 179764/371472 [3:14:01<15:51:44,  3.36it/s] 48%|████▊     | 179765/371472 [3:14:01<14:47:03,  3.60it/s] 48%|████▊     | 179766/371472 [3:14:01<14:37:51,  3.64it/s] 48%|████▊     | 179767/371472 [3:14:02<14:23:53,  3.70it/s] 48%|████▊     | 179768/371472 [3:14:02<13:50:33,  3.85it/s] 48%|████▊     | 179769/371472 [3:14:02<14:28:59,  3.68it/s] 48%|████▊     | 179770/371472 [3:14:02<13:57:00,  3.82it/s] 48%|████▊     | 179771/371472 [3:14:03<13:43:09,  3.88it/s] 48%|████▊     | 179772/371472 [3:14:03<14:02:56,  3.79it/s] 48%|████▊     | 179773/371472 [3:14:03<14:09:44,  3.76it/s] 48%|████▊     | 179774/371472 [3:14:04<14:13:52,  3.74it/s] 48%|████▊     | 179775/371472 [3:14:04<15:28:36,  3.44it/s] 48%|████▊     | 179776/371472 [3:14:04<15:57:08,  3.34it/s] 48%|████▊     | 179777/371472 [3:14:04<15:29:42,  3.44it/s] 48%|████▊     | 179778/371472 [3:14:05<15:03:36,  3.54it/s] 48%|████▊     | 179779/371472 [3:14:05<15:00:39,  3.55it/s] 48%|████▊     | 179780/371472 [3:14:05<15:19:52,  3.47it/s]                                                            {'loss': 3.1421, 'learning_rate': 5.646803421750091e-07, 'epoch': 7.74}
 48%|████▊     | 179780/371472 [3:14:05<15:19:52,  3.47it/s] 48%|████▊     | 179781/371472 [3:14:06<15:15:21,  3.49it/s] 48%|████▊     | 179782/371472 [3:14:06<15:03:50,  3.53it/s] 48%|████▊     | 179783/371472 [3:14:06<17:54:33,  2.97it/s] 48%|████▊     | 179784/371472 [3:14:07<16:39:46,  3.20it/s] 48%|████▊     | 179785/371472 [3:14:07<16:30:36,  3.23it/s] 48%|████▊     | 179786/371472 [3:14:07<16:19:50,  3.26it/s] 48%|████▊     | 179787/371472 [3:14:07<15:40:39,  3.40it/s] 48%|████▊     | 179788/371472 [3:14:08<15:31:47,  3.43it/s] 48%|████▊     | 179789/371472 [3:14:08<15:52:43,  3.35it/s] 48%|████▊     | 179790/371472 [3:14:08<17:22:39,  3.06it/s] 48%|████▊     | 179791/371472 [3:14:09<16:49:25,  3.16it/s] 48%|████▊     | 179792/371472 [3:14:09<16:29:45,  3.23it/s] 48%|████▊     | 179793/371472 [3:14:09<15:46:51,  3.37it/s] 48%|████▊     | 179794/371472 [3:14:10<15:03:37,  3.54it/s] 48%|████▊     | 179795/371472 [3:14:10<14:28:50,  3.68it/s] 48%|████▊     | 179796/371472 [3:14:10<14:36:10,  3.65it/s] 48%|████▊     | 179797/371472 [3:14:10<15:32:57,  3.42it/s] 48%|████▊     | 179798/371472 [3:14:11<15:01:08,  3.55it/s] 48%|████▊     | 179799/371472 [3:14:11<14:49:07,  3.59it/s] 48%|████▊     | 179800/371472 [3:14:11<14:47:40,  3.60it/s]                                                            {'loss': 3.0813, 'learning_rate': 5.646318601995303e-07, 'epoch': 7.74}
 48%|████▊     | 179800/371472 [3:14:11<14:47:40,  3.60it/s] 48%|████▊     | 179801/371472 [3:14:12<15:10:32,  3.51it/s] 48%|████▊     | 179802/371472 [3:14:12<14:24:28,  3.70it/s] 48%|████▊     | 179803/371472 [3:14:12<15:11:43,  3.50it/s] 48%|████▊     | 179804/371472 [3:14:12<14:54:19,  3.57it/s] 48%|████▊     | 179805/371472 [3:14:13<14:46:55,  3.60it/s] 48%|████▊     | 179806/371472 [3:14:13<15:04:50,  3.53it/s] 48%|████▊     | 179807/371472 [3:14:13<15:55:51,  3.34it/s] 48%|████▊     | 179808/371472 [3:14:14<15:20:00,  3.47it/s] 48%|████▊     | 179809/371472 [3:14:14<15:17:01,  3.48it/s] 48%|████▊     | 179810/371472 [3:14:14<14:55:13,  3.57it/s] 48%|████▊     | 179811/371472 [3:14:14<14:37:14,  3.64it/s] 48%|████▊     | 179812/371472 [3:14:15<14:23:02,  3.70it/s] 48%|████▊     | 179813/371472 [3:14:15<14:15:10,  3.74it/s] 48%|████▊     | 179814/371472 [3:14:15<15:31:01,  3.43it/s] 48%|████▊     | 179815/371472 [3:14:15<15:08:10,  3.52it/s] 48%|████▊     | 179816/371472 [3:14:16<14:51:15,  3.58it/s] 48%|████▊     | 179817/371472 [3:14:16<14:47:41,  3.60it/s] 48%|████▊     | 179818/371472 [3:14:16<14:21:44,  3.71it/s] 48%|████▊     | 179819/371472 [3:14:17<14:48:44,  3.59it/s] 48%|████▊     | 179820/371472 [3:14:17<15:12:01,  3.50it/s]                                                            {'loss': 2.9585, 'learning_rate': 5.645833782240513e-07, 'epoch': 7.75}
 48%|████▊     | 179820/371472 [3:14:17<15:12:01,  3.50it/s] 48%|████▊     | 179821/371472 [3:14:17<14:41:17,  3.62it/s] 48%|████▊     | 179822/371472 [3:14:17<14:43:09,  3.62it/s] 48%|████▊     | 179823/371472 [3:14:18<14:25:33,  3.69it/s] 48%|████▊     | 179824/371472 [3:14:18<15:14:44,  3.49it/s] 48%|████▊     | 179825/371472 [3:14:18<14:49:00,  3.59it/s] 48%|████▊     | 179826/371472 [3:14:18<14:13:18,  3.74it/s] 48%|████▊     | 179827/371472 [3:14:19<14:14:46,  3.74it/s] 48%|████▊     | 179828/371472 [3:14:19<14:56:29,  3.56it/s] 48%|████▊     | 179829/371472 [3:14:19<14:31:51,  3.66it/s] 48%|████▊     | 179830/371472 [3:14:20<14:11:10,  3.75it/s] 48%|████▊     | 179831/371472 [3:14:20<14:26:18,  3.69it/s] 48%|████▊     | 179832/371472 [3:14:20<14:20:01,  3.71it/s] 48%|████▊     | 179833/371472 [3:14:20<14:07:49,  3.77it/s] 48%|████▊     | 179834/371472 [3:14:21<16:15:27,  3.27it/s] 48%|████▊     | 179835/371472 [3:14:21<17:25:38,  3.05it/s] 48%|████▊     | 179836/371472 [3:14:21<16:58:22,  3.14it/s] 48%|████▊     | 179837/371472 [3:14:22<16:27:01,  3.24it/s] 48%|████▊     | 179838/371472 [3:14:22<16:35:21,  3.21it/s] 48%|████▊     | 179839/371472 [3:14:22<15:42:57,  3.39it/s] 48%|████▊     | 179840/371472 [3:14:23<15:55:29,  3.34it/s]                                                            {'loss': 3.0475, 'learning_rate': 5.645348962485724e-07, 'epoch': 7.75}
 48%|████▊     | 179840/371472 [3:14:23<15:55:29,  3.34it/s] 48%|████▊     | 179841/371472 [3:14:23<16:09:47,  3.29it/s] 48%|████▊     | 179842/371472 [3:14:23<15:41:08,  3.39it/s] 48%|████▊     | 179843/371472 [3:14:23<15:38:52,  3.40it/s] 48%|████▊     | 179844/371472 [3:14:24<15:11:30,  3.50it/s] 48%|████▊     | 179845/371472 [3:14:24<15:09:54,  3.51it/s] 48%|████▊     | 179846/371472 [3:14:24<15:01:46,  3.54it/s] 48%|████▊     | 179847/371472 [3:14:25<14:54:07,  3.57it/s] 48%|████▊     | 179848/371472 [3:14:25<15:22:56,  3.46it/s] 48%|████▊     | 179849/371472 [3:14:25<15:10:00,  3.51it/s] 48%|████▊     | 179850/371472 [3:14:25<15:08:37,  3.51it/s] 48%|████▊     | 179851/371472 [3:14:26<14:56:35,  3.56it/s] 48%|████▊     | 179852/371472 [3:14:26<14:59:31,  3.55it/s] 48%|████▊     | 179853/371472 [3:14:26<14:49:21,  3.59it/s] 48%|████▊     | 179854/371472 [3:14:27<14:38:34,  3.64it/s] 48%|████▊     | 179855/371472 [3:14:27<14:38:38,  3.63it/s] 48%|████▊     | 179856/371472 [3:14:27<14:22:50,  3.70it/s] 48%|████▊     | 179857/371472 [3:14:27<14:59:12,  3.55it/s] 48%|████▊     | 179858/371472 [3:14:28<15:49:13,  3.36it/s] 48%|████▊     | 179859/371472 [3:14:28<16:16:41,  3.27it/s] 48%|████▊     | 179860/371472 [3:14:28<15:48:00,  3.37it/s]                                                            {'loss': 3.0776, 'learning_rate': 5.644864142730936e-07, 'epoch': 7.75}
 48%|████▊     | 179860/371472 [3:14:28<15:48:00,  3.37it/s] 48%|████▊     | 179861/371472 [3:14:29<16:05:10,  3.31it/s] 48%|████▊     | 179862/371472 [3:14:29<16:26:49,  3.24it/s] 48%|████▊     | 179863/371472 [3:14:29<16:20:03,  3.26it/s] 48%|████▊     | 179864/371472 [3:14:30<15:29:03,  3.44it/s] 48%|████▊     | 179865/371472 [3:14:30<15:17:18,  3.48it/s] 48%|████▊     | 179866/371472 [3:14:30<14:39:54,  3.63it/s] 48%|████▊     | 179867/371472 [3:14:30<14:50:32,  3.59it/s] 48%|████▊     | 179868/371472 [3:14:31<14:47:41,  3.60it/s] 48%|████▊     | 179869/371472 [3:14:31<14:28:25,  3.68it/s] 48%|████▊     | 179870/371472 [3:14:31<14:42:19,  3.62it/s] 48%|████▊     | 179871/371472 [3:14:31<15:21:21,  3.47it/s] 48%|████▊     | 179872/371472 [3:14:32<14:38:31,  3.63it/s] 48%|████▊     | 179873/371472 [3:14:32<14:53:43,  3.57it/s] 48%|████▊     | 179874/371472 [3:14:32<14:32:45,  3.66it/s] 48%|████▊     | 179875/371472 [3:14:33<14:19:07,  3.72it/s] 48%|████▊     | 179876/371472 [3:14:33<15:18:23,  3.48it/s] 48%|████▊     | 179877/371472 [3:14:33<14:44:39,  3.61it/s] 48%|████▊     | 179878/371472 [3:14:33<14:50:09,  3.59it/s] 48%|████▊     | 179879/371472 [3:14:34<14:57:42,  3.56it/s] 48%|████▊     | 179880/371472 [3:14:34<14:41:08,  3.62it/s]                                                            {'loss': 3.1136, 'learning_rate': 5.644379322976146e-07, 'epoch': 7.75}
 48%|████▊     | 179880/371472 [3:14:34<14:41:08,  3.62it/s] 48%|████▊     | 179881/371472 [3:14:34<14:58:08,  3.56it/s] 48%|████▊     | 179882/371472 [3:14:35<14:52:23,  3.58it/s] 48%|████▊     | 179883/371472 [3:14:35<14:49:45,  3.59it/s] 48%|████▊     | 179884/371472 [3:14:35<14:27:52,  3.68it/s] 48%|████▊     | 179885/371472 [3:14:35<14:04:13,  3.78it/s] 48%|████▊     | 179886/371472 [3:14:36<14:28:59,  3.67it/s] 48%|████▊     | 179887/371472 [3:14:36<14:13:56,  3.74it/s] 48%|████▊     | 179888/371472 [3:14:36<14:14:38,  3.74it/s] 48%|████▊     | 179889/371472 [3:14:36<15:11:30,  3.50it/s] 48%|████▊     | 179890/371472 [3:14:37<15:12:59,  3.50it/s] 48%|████▊     | 179891/371472 [3:14:37<15:29:45,  3.43it/s] 48%|████▊     | 179892/371472 [3:14:37<15:21:17,  3.47it/s] 48%|████▊     | 179893/371472 [3:14:38<15:58:20,  3.33it/s] 48%|████▊     | 179894/371472 [3:14:38<15:22:24,  3.46it/s] 48%|████▊     | 179895/371472 [3:14:38<15:16:55,  3.48it/s] 48%|████▊     | 179896/371472 [3:14:38<14:46:50,  3.60it/s] 48%|████▊     | 179897/371472 [3:14:39<15:58:40,  3.33it/s] 48%|████▊     | 179898/371472 [3:14:39<15:25:54,  3.45it/s] 48%|████▊     | 179899/371472 [3:14:39<15:51:34,  3.36it/s] 48%|████▊     | 179900/371472 [3:14:40<15:50:45,  3.36it/s]                                                            {'loss': 2.985, 'learning_rate': 5.643894503221356e-07, 'epoch': 7.75}
 48%|████▊     | 179900/371472 [3:14:40<15:50:45,  3.36it/s] 48%|████▊     | 179901/371472 [3:14:40<16:15:23,  3.27it/s] 48%|████▊     | 179902/371472 [3:14:40<15:52:27,  3.35it/s] 48%|████▊     | 179903/371472 [3:14:41<15:56:48,  3.34it/s] 48%|████▊     | 179904/371472 [3:14:41<15:27:58,  3.44it/s] 48%|████▊     | 179905/371472 [3:14:41<15:16:26,  3.48it/s] 48%|████▊     | 179906/371472 [3:14:41<14:56:04,  3.56it/s] 48%|████▊     | 179907/371472 [3:14:42<14:29:07,  3.67it/s] 48%|████▊     | 179908/371472 [3:14:42<14:46:32,  3.60it/s] 48%|████▊     | 179909/371472 [3:14:42<14:22:00,  3.70it/s] 48%|████▊     | 179910/371472 [3:14:43<15:10:44,  3.51it/s] 48%|████▊     | 179911/371472 [3:14:43<14:50:42,  3.58it/s] 48%|████▊     | 179912/371472 [3:14:43<15:26:17,  3.45it/s] 48%|████▊     | 179913/371472 [3:14:43<15:53:19,  3.35it/s] 48%|████▊     | 179914/371472 [3:14:44<15:02:45,  3.54it/s] 48%|████▊     | 179915/371472 [3:14:44<14:45:33,  3.61it/s] 48%|████▊     | 179916/371472 [3:14:44<14:44:33,  3.61it/s] 48%|████▊     | 179917/371472 [3:14:44<14:28:00,  3.68it/s] 48%|████▊     | 179918/371472 [3:14:45<14:26:54,  3.68it/s] 48%|████▊     | 179919/371472 [3:14:45<15:04:23,  3.53it/s] 48%|████▊     | 179920/371472 [3:14:45<15:09:00,  3.51it/s]                                                            {'loss': 3.1576, 'learning_rate': 5.643409683466569e-07, 'epoch': 7.75}
 48%|████▊     | 179920/371472 [3:14:45<15:09:00,  3.51it/s] 48%|████▊     | 179921/371472 [3:14:46<15:42:44,  3.39it/s] 48%|████▊     | 179922/371472 [3:14:46<15:45:22,  3.38it/s] 48%|████▊     | 179923/371472 [3:14:46<16:23:02,  3.25it/s] 48%|████▊     | 179924/371472 [3:14:47<15:49:04,  3.36it/s] 48%|████▊     | 179925/371472 [3:14:47<16:11:10,  3.29it/s] 48%|████▊     | 179926/371472 [3:14:47<15:20:21,  3.47it/s] 48%|████▊     | 179927/371472 [3:14:47<15:11:05,  3.50it/s] 48%|████▊     | 179928/371472 [3:14:48<14:42:30,  3.62it/s] 48%|████▊     | 179929/371472 [3:14:48<14:48:12,  3.59it/s] 48%|████▊     | 179930/371472 [3:14:48<15:41:04,  3.39it/s] 48%|████▊     | 179931/371472 [3:14:49<15:37:11,  3.41it/s] 48%|████▊     | 179932/371472 [3:14:49<15:15:06,  3.49it/s] 48%|████▊     | 179933/371472 [3:14:49<15:03:00,  3.54it/s] 48%|████▊     | 179934/371472 [3:14:49<14:37:31,  3.64it/s] 48%|████▊     | 179935/371472 [3:14:50<15:16:41,  3.48it/s] 48%|████▊     | 179936/371472 [3:14:50<16:09:54,  3.29it/s] 48%|████▊     | 179937/371472 [3:14:50<15:41:42,  3.39it/s] 48%|████▊     | 179938/371472 [3:14:51<15:32:49,  3.42it/s] 48%|████▊     | 179939/371472 [3:14:51<15:39:07,  3.40it/s] 48%|████▊     | 179940/371472 [3:14:51<14:51:31,  3.58it/s]                                                            {'loss': 3.157, 'learning_rate': 5.64292486371178e-07, 'epoch': 7.75}
 48%|████▊     | 179940/371472 [3:14:51<14:51:31,  3.58it/s] 48%|████▊     | 179941/371472 [3:14:51<14:59:44,  3.55it/s] 48%|████▊     | 179942/371472 [3:14:52<15:11:32,  3.50it/s] 48%|████▊     | 179943/371472 [3:14:52<14:48:19,  3.59it/s] 48%|████▊     | 179944/371472 [3:14:52<14:14:01,  3.74it/s] 48%|████▊     | 179945/371472 [3:14:52<14:19:56,  3.71it/s] 48%|████▊     | 179946/371472 [3:14:53<14:00:14,  3.80it/s] 48%|████▊     | 179947/371472 [3:14:53<14:53:02,  3.57it/s] 48%|████▊     | 179948/371472 [3:14:53<14:15:43,  3.73it/s] 48%|████▊     | 179949/371472 [3:14:54<13:59:55,  3.80it/s] 48%|████▊     | 179950/371472 [3:14:54<14:29:21,  3.67it/s] 48%|████▊     | 179951/371472 [3:14:54<14:09:34,  3.76it/s] 48%|████▊     | 179952/371472 [3:14:54<13:54:40,  3.82it/s] 48%|████▊     | 179953/371472 [3:14:55<14:46:40,  3.60it/s] 48%|████▊     | 179954/371472 [3:14:55<15:34:46,  3.41it/s] 48%|████▊     | 179955/371472 [3:14:55<15:33:56,  3.42it/s] 48%|████▊     | 179956/371472 [3:14:56<14:48:29,  3.59it/s] 48%|████▊     | 179957/371472 [3:14:56<14:38:39,  3.63it/s] 48%|████▊     | 179958/371472 [3:14:56<14:08:10,  3.76it/s] 48%|████▊     | 179959/371472 [3:14:56<13:55:55,  3.82it/s] 48%|████▊     | 179960/371472 [3:14:57<13:59:42,  3.80it/s]                                                            {'loss': 3.2823, 'learning_rate': 5.642440043956991e-07, 'epoch': 7.75}
 48%|████▊     | 179960/371472 [3:14:57<13:59:42,  3.80it/s] 48%|████▊     | 179961/371472 [3:14:57<14:15:08,  3.73it/s] 48%|████▊     | 179962/371472 [3:14:57<15:03:05,  3.53it/s] 48%|████▊     | 179963/371472 [3:14:58<16:47:21,  3.17it/s] 48%|████▊     | 179964/371472 [3:14:58<17:31:59,  3.03it/s] 48%|████▊     | 179965/371472 [3:14:58<16:38:14,  3.20it/s] 48%|████▊     | 179966/371472 [3:14:59<17:50:31,  2.98it/s] 48%|████▊     | 179967/371472 [3:14:59<16:27:24,  3.23it/s] 48%|████▊     | 179968/371472 [3:14:59<15:09:28,  3.51it/s] 48%|████▊     | 179969/371472 [3:14:59<14:49:07,  3.59it/s] 48%|████▊     | 179970/371472 [3:15:00<14:24:42,  3.69it/s] 48%|████▊     | 179971/371472 [3:15:00<14:17:06,  3.72it/s] 48%|████▊     | 179972/371472 [3:15:00<13:55:36,  3.82it/s] 48%|████▊     | 179973/371472 [3:15:00<13:44:46,  3.87it/s] 48%|████▊     | 179974/371472 [3:15:01<13:48:31,  3.85it/s] 48%|████▊     | 179975/371472 [3:15:01<13:48:08,  3.85it/s] 48%|████▊     | 179976/371472 [3:15:01<13:43:52,  3.87it/s] 48%|████▊     | 179977/371472 [3:15:01<14:12:52,  3.74it/s] 48%|████▊     | 179978/371472 [3:15:02<14:25:08,  3.69it/s] 48%|████▊     | 179979/371472 [3:15:02<14:37:42,  3.64it/s] 48%|████▊     | 179980/371472 [3:15:02<16:50:57,  3.16it/s]                                                            {'loss': 3.1216, 'learning_rate': 5.641955224202201e-07, 'epoch': 7.75}
 48%|████▊     | 179980/371472 [3:15:02<16:50:57,  3.16it/s] 48%|████▊     | 179981/371472 [3:15:03<16:02:03,  3.32it/s] 48%|████▊     | 179982/371472 [3:15:03<15:06:12,  3.52it/s] 48%|████▊     | 179983/371472 [3:15:03<14:54:33,  3.57it/s] 48%|████▊     | 179984/371472 [3:15:03<14:45:46,  3.60it/s] 48%|████▊     | 179985/371472 [3:15:04<14:51:30,  3.58it/s] 48%|████▊     | 179986/371472 [3:15:04<16:11:20,  3.29it/s] 48%|████▊     | 179987/371472 [3:15:04<15:46:18,  3.37it/s] 48%|████▊     | 179988/371472 [3:15:05<15:15:08,  3.49it/s] 48%|████▊     | 179989/371472 [3:15:05<16:33:22,  3.21it/s] 48%|████▊     | 179990/371472 [3:15:05<16:11:39,  3.28it/s] 48%|████▊     | 179991/371472 [3:15:06<15:31:05,  3.43it/s] 48%|████▊     | 179992/371472 [3:15:06<16:31:31,  3.22it/s] 48%|████▊     | 179993/371472 [3:15:06<16:21:00,  3.25it/s] 48%|████▊     | 179994/371472 [3:15:06<16:01:29,  3.32it/s] 48%|████▊     | 179995/371472 [3:15:07<16:26:20,  3.24it/s] 48%|████▊     | 179996/371472 [3:15:07<16:39:17,  3.19it/s] 48%|████▊     | 179997/371472 [3:15:07<17:42:29,  3.00it/s] 48%|████▊     | 179998/371472 [3:15:08<16:14:55,  3.27it/s] 48%|████▊     | 179999/371472 [3:15:08<15:38:38,  3.40it/s] 48%|████▊     | 180000/371472 [3:15:08<16:06:27,  3.30it/s]                                                            {'loss': 2.916, 'learning_rate': 5.641470404447413e-07, 'epoch': 7.75}
 48%|████▊     | 180000/371472 [3:15:08<16:06:27,  3.30it/s] 48%|████▊     | 180001/371472 [3:15:09<16:22:08,  3.25it/s] 48%|████▊     | 180002/371472 [3:15:09<15:23:27,  3.46it/s] 48%|████▊     | 180003/371472 [3:15:09<14:50:25,  3.58it/s] 48%|████▊     | 180004/371472 [3:15:09<15:01:58,  3.54it/s] 48%|████▊     | 180005/371472 [3:15:10<14:43:26,  3.61it/s] 48%|████▊     | 180006/371472 [3:15:10<14:55:04,  3.57it/s] 48%|████▊     | 180007/371472 [3:15:10<15:16:08,  3.48it/s] 48%|████▊     | 180008/371472 [3:15:11<15:03:10,  3.53it/s] 48%|████▊     | 180009/371472 [3:15:11<15:12:46,  3.50it/s] 48%|████▊     | 180010/371472 [3:15:11<15:33:45,  3.42it/s] 48%|████▊     | 180011/371472 [3:15:11<15:44:59,  3.38it/s] 48%|████▊     | 180012/371472 [3:15:12<15:10:26,  3.50it/s] 48%|████▊     | 180013/371472 [3:15:12<15:45:48,  3.37it/s] 48%|████▊     | 180014/371472 [3:15:12<15:15:06,  3.49it/s] 48%|████▊     | 180015/371472 [3:15:13<14:53:11,  3.57it/s] 48%|████▊     | 180016/371472 [3:15:13<14:31:42,  3.66it/s] 48%|████▊     | 180017/371472 [3:15:13<14:16:57,  3.72it/s] 48%|████▊     | 180018/371472 [3:15:13<14:37:11,  3.64it/s] 48%|████▊     | 180019/371472 [3:15:14<14:42:26,  3.62it/s] 48%|████▊     | 180020/371472 [3:15:14<15:28:49,  3.44it/s]                                                            {'loss': 3.0128, 'learning_rate': 5.640985584692625e-07, 'epoch': 7.75}
 48%|████▊     | 180020/371472 [3:15:14<15:28:49,  3.44it/s] 48%|████▊     | 180021/371472 [3:15:14<14:41:24,  3.62it/s] 48%|████▊     | 180022/371472 [3:15:14<14:26:16,  3.68it/s] 48%|████▊     | 180023/371472 [3:15:15<15:19:03,  3.47it/s] 48%|████▊     | 180024/371472 [3:15:15<14:59:18,  3.55it/s] 48%|████▊     | 180025/371472 [3:15:15<14:47:20,  3.60it/s] 48%|████▊     | 180026/371472 [3:15:16<14:33:46,  3.65it/s] 48%|████▊     | 180027/371472 [3:15:16<15:06:16,  3.52it/s] 48%|████▊     | 180028/371472 [3:15:16<14:45:32,  3.60it/s] 48%|████▊     | 180029/371472 [3:15:17<15:25:48,  3.45it/s] 48%|████▊     | 180030/371472 [3:15:17<16:17:03,  3.27it/s] 48%|████▊     | 180031/371472 [3:15:17<15:41:09,  3.39it/s] 48%|████▊     | 180032/371472 [3:15:17<15:08:26,  3.51it/s] 48%|████▊     | 180033/371472 [3:15:18<15:26:08,  3.45it/s] 48%|████▊     | 180034/371472 [3:15:18<14:47:51,  3.59it/s] 48%|████▊     | 180035/371472 [3:15:18<15:22:11,  3.46it/s] 48%|████▊     | 180036/371472 [3:15:18<14:50:15,  3.58it/s] 48%|████▊     | 180037/371472 [3:15:19<14:41:53,  3.62it/s] 48%|████▊     | 180038/371472 [3:15:19<14:21:46,  3.70it/s] 48%|████▊     | 180039/371472 [3:15:19<14:47:46,  3.59it/s] 48%|████▊     | 180040/371472 [3:15:20<14:51:08,  3.58it/s]                                                            {'loss': 3.0579, 'learning_rate': 5.640500764937836e-07, 'epoch': 7.75}
 48%|████▊     | 180040/371472 [3:15:20<14:51:08,  3.58it/s] 48%|████▊     | 180041/371472 [3:15:20<14:36:30,  3.64it/s] 48%|████▊     | 180042/371472 [3:15:20<14:12:32,  3.74it/s] 48%|████▊     | 180043/371472 [3:15:20<15:58:46,  3.33it/s] 48%|████▊     | 180044/371472 [3:15:21<15:09:13,  3.51it/s] 48%|████▊     | 180045/371472 [3:15:21<15:25:11,  3.45it/s] 48%|████▊     | 180046/371472 [3:15:21<14:35:25,  3.64it/s] 48%|████▊     | 180047/371472 [3:15:22<14:46:01,  3.60it/s] 48%|████▊     | 180048/371472 [3:15:22<15:19:04,  3.47it/s] 48%|████▊     | 180049/371472 [3:15:22<15:42:50,  3.38it/s] 48%|████▊     | 180050/371472 [3:15:22<15:29:16,  3.43it/s] 48%|████▊     | 180051/371472 [3:15:23<14:59:02,  3.55it/s] 48%|████▊     | 180052/371472 [3:15:23<14:25:50,  3.68it/s] 48%|████▊     | 180053/371472 [3:15:23<14:41:54,  3.62it/s] 48%|████▊     | 180054/371472 [3:15:24<14:27:41,  3.68it/s] 48%|████▊     | 180055/371472 [3:15:24<15:07:53,  3.51it/s] 48%|████▊     | 180056/371472 [3:15:24<16:27:36,  3.23it/s] 48%|████▊     | 180057/371472 [3:15:24<15:30:20,  3.43it/s] 48%|████▊     | 180058/371472 [3:15:25<14:58:00,  3.55it/s] 48%|████▊     | 180059/371472 [3:15:25<14:26:02,  3.68it/s] 48%|████▊     | 180060/371472 [3:15:25<15:06:43,  3.52it/s]                                                            {'loss': 3.1859, 'learning_rate': 5.640015945183046e-07, 'epoch': 7.76}
 48%|████▊     | 180060/371472 [3:15:25<15:06:43,  3.52it/s] 48%|████▊     | 180061/371472 [3:15:26<15:38:23,  3.40it/s] 48%|████▊     | 180062/371472 [3:15:26<16:56:12,  3.14it/s] 48%|████▊     | 180063/371472 [3:15:26<16:30:22,  3.22it/s] 48%|████▊     | 180064/371472 [3:15:27<15:50:28,  3.36it/s] 48%|████▊     | 180065/371472 [3:15:27<16:17:55,  3.26it/s] 48%|████▊     | 180066/371472 [3:15:27<15:28:31,  3.44it/s] 48%|████▊     | 180067/371472 [3:15:27<15:02:56,  3.53it/s] 48%|████▊     | 180068/371472 [3:15:28<14:58:00,  3.55it/s] 48%|████▊     | 180069/371472 [3:15:28<15:20:28,  3.47it/s] 48%|████▊     | 180070/371472 [3:15:28<15:30:47,  3.43it/s] 48%|████▊     | 180071/371472 [3:15:29<14:58:03,  3.55it/s] 48%|████▊     | 180072/371472 [3:15:29<14:40:51,  3.62it/s] 48%|████▊     | 180073/371472 [3:15:29<14:20:17,  3.71it/s] 48%|████▊     | 180074/371472 [3:15:29<14:26:27,  3.68it/s] 48%|████▊     | 180075/371472 [3:15:30<14:43:12,  3.61it/s] 48%|████▊     | 180076/371472 [3:15:30<15:45:42,  3.37it/s] 48%|████▊     | 180077/371472 [3:15:30<16:22:08,  3.25it/s] 48%|████▊     | 180078/371472 [3:15:31<18:29:55,  2.87it/s] 48%|████▊     | 180079/371472 [3:15:31<17:20:05,  3.07it/s] 48%|████▊     | 180080/371472 [3:15:31<16:20:50,  3.25it/s]                                                            {'loss': 3.1091, 'learning_rate': 5.639531125428257e-07, 'epoch': 7.76}
 48%|████▊     | 180080/371472 [3:15:31<16:20:50,  3.25it/s] 48%|████▊     | 180081/371472 [3:15:32<16:19:18,  3.26it/s] 48%|████▊     | 180082/371472 [3:15:32<16:04:49,  3.31it/s] 48%|████▊     | 180083/371472 [3:15:32<15:46:34,  3.37it/s] 48%|████▊     | 180084/371472 [3:15:32<14:59:46,  3.55it/s] 48%|████▊     | 180085/371472 [3:15:33<14:22:03,  3.70it/s] 48%|████▊     | 180086/371472 [3:15:33<14:25:56,  3.68it/s] 48%|████▊     | 180087/371472 [3:15:33<15:49:23,  3.36it/s] 48%|████▊     | 180088/371472 [3:15:34<15:28:51,  3.43it/s] 48%|████▊     | 180089/371472 [3:15:34<15:11:04,  3.50it/s] 48%|████▊     | 180090/371472 [3:15:34<15:02:31,  3.53it/s] 48%|████▊     | 180091/371472 [3:15:34<16:12:51,  3.28it/s] 48%|████▊     | 180092/371472 [3:15:35<15:40:16,  3.39it/s] 48%|████▊     | 180093/371472 [3:15:35<16:48:35,  3.16it/s] 48%|████▊     | 180094/371472 [3:15:35<16:04:11,  3.31it/s] 48%|████▊     | 180095/371472 [3:15:36<16:30:33,  3.22it/s] 48%|████▊     | 180096/371472 [3:15:36<16:36:18,  3.20it/s] 48%|████▊     | 180097/371472 [3:15:36<17:26:44,  3.05it/s] 48%|████▊     | 180098/371472 [3:15:37<16:27:22,  3.23it/s] 48%|████▊     | 180099/371472 [3:15:37<15:46:37,  3.37it/s] 48%|████▊     | 180100/371472 [3:15:37<16:45:48,  3.17it/s]                                                            {'loss': 2.9855, 'learning_rate': 5.639046305673469e-07, 'epoch': 7.76}
 48%|████▊     | 180100/371472 [3:15:37<16:45:48,  3.17it/s] 48%|████▊     | 180101/371472 [3:15:38<17:12:15,  3.09it/s] 48%|████▊     | 180102/371472 [3:15:38<16:21:19,  3.25it/s] 48%|████▊     | 180103/371472 [3:15:38<15:46:30,  3.37it/s] 48%|████▊     | 180104/371472 [3:15:38<15:58:29,  3.33it/s] 48%|████▊     | 180105/371472 [3:15:39<15:47:16,  3.37it/s] 48%|████▊     | 180106/371472 [3:15:39<15:43:56,  3.38it/s] 48%|████▊     | 180107/371472 [3:15:39<16:33:02,  3.21it/s] 48%|████▊     | 180108/371472 [3:15:40<15:38:40,  3.40it/s] 48%|████▊     | 180109/371472 [3:15:40<15:03:16,  3.53it/s] 48%|████▊     | 180110/371472 [3:15:40<15:16:29,  3.48it/s] 48%|████▊     | 180111/371472 [3:15:40<14:41:03,  3.62it/s] 48%|████▊     | 180112/371472 [3:15:41<14:31:55,  3.66it/s] 48%|████▊     | 180113/371472 [3:15:41<15:10:16,  3.50it/s] 48%|████▊     | 180114/371472 [3:15:41<14:34:49,  3.65it/s] 48%|████▊     | 180115/371472 [3:15:42<14:26:35,  3.68it/s] 48%|████▊     | 180116/371472 [3:15:42<14:17:24,  3.72it/s] 48%|████▊     | 180117/371472 [3:15:42<14:30:54,  3.66it/s] 48%|████▊     | 180118/371472 [3:15:42<14:51:54,  3.58it/s] 48%|████▊     | 180119/371472 [3:15:43<14:47:41,  3.59it/s] 48%|████▊     | 180120/371472 [3:15:43<14:46:44,  3.60it/s]                                                            {'loss': 3.0679, 'learning_rate': 5.63856148591868e-07, 'epoch': 7.76}
 48%|████▊     | 180120/371472 [3:15:43<14:46:44,  3.60it/s] 48%|████▊     | 180121/371472 [3:15:43<14:31:32,  3.66it/s] 48%|████▊     | 180122/371472 [3:15:43<14:20:34,  3.71it/s] 48%|████▊     | 180123/371472 [3:15:44<15:17:17,  3.48it/s] 48%|████▊     | 180124/371472 [3:15:44<14:58:21,  3.55it/s] 48%|████▊     | 180125/371472 [3:15:44<14:51:39,  3.58it/s] 48%|████▊     | 180126/371472 [3:15:45<14:20:54,  3.70it/s] 48%|████▊     | 180127/371472 [3:15:45<15:19:50,  3.47it/s] 48%|████▊     | 180128/371472 [3:15:45<14:33:01,  3.65it/s] 48%|████▊     | 180129/371472 [3:15:45<14:22:46,  3.70it/s] 48%|████▊     | 180130/371472 [3:15:46<14:11:50,  3.74it/s] 48%|████▊     | 180131/371472 [3:15:46<15:15:52,  3.48it/s] 48%|████▊     | 180132/371472 [3:15:46<15:55:15,  3.34it/s] 48%|████▊     | 180133/371472 [3:15:47<15:02:11,  3.53it/s] 48%|████▊     | 180134/371472 [3:15:47<14:39:02,  3.63it/s] 48%|████▊     | 180135/371472 [3:15:47<14:47:50,  3.59it/s] 48%|████▊     | 180136/371472 [3:15:47<15:18:44,  3.47it/s] 48%|████▊     | 180137/371472 [3:15:48<14:57:04,  3.55it/s] 48%|████▊     | 180138/371472 [3:15:48<15:14:00,  3.49it/s] 48%|████▊     | 180139/371472 [3:15:48<14:57:51,  3.55it/s] 48%|████▊     | 180140/371472 [3:15:49<15:02:17,  3.53it/s]                                                            {'loss': 3.2, 'learning_rate': 5.638076666163889e-07, 'epoch': 7.76}
 48%|████▊     | 180140/371472 [3:15:49<15:02:17,  3.53it/s] 48%|████▊     | 180141/371472 [3:15:49<15:06:50,  3.52it/s] 48%|████▊     | 180142/371472 [3:15:49<15:04:48,  3.52it/s] 48%|████▊     | 180143/371472 [3:15:49<15:26:36,  3.44it/s] 48%|████▊     | 180144/371472 [3:15:50<14:55:58,  3.56it/s] 48%|████▊     | 180145/371472 [3:15:50<14:33:53,  3.65it/s] 48%|████▊     | 180146/371472 [3:15:50<14:52:24,  3.57it/s] 48%|████▊     | 180147/371472 [3:15:50<14:23:37,  3.69it/s] 48%|████▊     | 180148/371472 [3:15:51<14:48:01,  3.59it/s] 48%|████▊     | 180149/371472 [3:15:51<15:16:36,  3.48it/s] 48%|████▊     | 180150/371472 [3:15:51<15:07:41,  3.51it/s] 48%|████▊     | 180151/371472 [3:15:52<14:33:07,  3.65it/s] 48%|████▊     | 180152/371472 [3:15:52<14:47:53,  3.59it/s] 48%|████▊     | 180153/371472 [3:15:52<15:00:39,  3.54it/s] 48%|████▊     | 180154/371472 [3:15:52<14:29:53,  3.67it/s] 48%|████▊     | 180155/371472 [3:15:53<13:54:38,  3.82it/s] 48%|████▊     | 180156/371472 [3:15:53<14:25:53,  3.68it/s] 48%|████▊     | 180157/371472 [3:15:53<15:32:05,  3.42it/s] 48%|████▊     | 180158/371472 [3:15:54<15:13:57,  3.49it/s] 48%|████▊     | 180159/371472 [3:15:54<15:04:46,  3.52it/s] 48%|████▊     | 180160/371472 [3:15:54<15:04:44,  3.52it/s]                                                            {'loss': 2.9331, 'learning_rate': 5.637591846409102e-07, 'epoch': 7.76}
 48%|████▊     | 180160/371472 [3:15:54<15:04:44,  3.52it/s] 48%|████▊     | 180161/371472 [3:15:54<15:25:45,  3.44it/s] 48%|████▊     | 180162/371472 [3:15:55<15:09:43,  3.50it/s] 48%|████▊     | 180163/371472 [3:15:55<14:18:36,  3.71it/s] 49%|████▊     | 180164/371472 [3:15:55<13:42:45,  3.88it/s] 49%|████▊     | 180165/371472 [3:15:55<13:45:43,  3.86it/s] 49%|████▊     | 180166/371472 [3:15:56<14:48:24,  3.59it/s] 49%|████▊     | 180167/371472 [3:15:56<14:20:23,  3.71it/s] 49%|████▊     | 180168/371472 [3:15:56<13:46:33,  3.86it/s] 49%|████▊     | 180169/371472 [3:15:57<14:08:37,  3.76it/s] 49%|████▊     | 180170/371472 [3:15:57<14:18:30,  3.71it/s] 49%|████▊     | 180171/371472 [3:15:57<14:16:50,  3.72it/s] 49%|████▊     | 180172/371472 [3:15:57<14:02:03,  3.79it/s] 49%|████▊     | 180173/371472 [3:15:58<14:10:48,  3.75it/s] 49%|████▊     | 180174/371472 [3:15:58<13:59:30,  3.80it/s] 49%|████▊     | 180175/371472 [3:15:58<14:01:40,  3.79it/s] 49%|████▊     | 180176/371472 [3:15:58<14:07:10,  3.76it/s] 49%|████▊     | 180177/371472 [3:15:59<14:07:19,  3.76it/s] 49%|████▊     | 180178/371472 [3:15:59<14:37:38,  3.63it/s] 49%|████▊     | 180179/371472 [3:15:59<14:20:24,  3.71it/s] 49%|████▊     | 180180/371472 [3:16:00<14:31:24,  3.66it/s]                                                            {'loss': 3.0296, 'learning_rate': 5.637107026654313e-07, 'epoch': 7.76}
 49%|████▊     | 180180/371472 [3:16:00<14:31:24,  3.66it/s] 49%|████▊     | 180181/371472 [3:16:00<15:01:18,  3.54it/s] 49%|████▊     | 180182/371472 [3:16:00<16:37:04,  3.20it/s] 49%|████▊     | 180183/371472 [3:16:01<17:20:29,  3.06it/s] 49%|████▊     | 180184/371472 [3:16:01<17:09:04,  3.10it/s] 49%|████▊     | 180185/371472 [3:16:01<16:17:55,  3.26it/s] 49%|████▊     | 180186/371472 [3:16:01<15:33:13,  3.42it/s] 49%|████▊     | 180187/371472 [3:16:02<15:00:44,  3.54it/s] 49%|████▊     | 180188/371472 [3:16:02<14:42:01,  3.61it/s] 49%|████▊     | 180189/371472 [3:16:02<15:00:12,  3.54it/s] 49%|████▊     | 180190/371472 [3:16:03<15:03:05,  3.53it/s] 49%|████▊     | 180191/371472 [3:16:03<15:52:46,  3.35it/s] 49%|████▊     | 180192/371472 [3:16:03<15:12:52,  3.49it/s] 49%|████▊     | 180193/371472 [3:16:03<15:19:02,  3.47it/s] 49%|████▊     | 180194/371472 [3:16:04<15:35:25,  3.41it/s] 49%|████▊     | 180195/371472 [3:16:04<15:11:19,  3.50it/s] 49%|████▊     | 180196/371472 [3:16:04<14:54:32,  3.56it/s] 49%|████▊     | 180197/371472 [3:16:05<15:52:26,  3.35it/s] 49%|████▊     | 180198/371472 [3:16:05<15:25:31,  3.44it/s] 49%|████▊     | 180199/371472 [3:16:05<15:18:28,  3.47it/s] 49%|████▊     | 180200/371472 [3:16:05<15:42:50,  3.38it/s]                                                            {'loss': 3.1093, 'learning_rate': 5.636622206899524e-07, 'epoch': 7.76}
 49%|████▊     | 180200/371472 [3:16:05<15:42:50,  3.38it/s] 49%|████▊     | 180201/371472 [3:16:06<15:24:32,  3.45it/s] 49%|████▊     | 180202/371472 [3:16:06<15:06:15,  3.52it/s] 49%|████▊     | 180203/371472 [3:16:06<15:57:18,  3.33it/s] 49%|████▊     | 180204/371472 [3:16:07<15:36:43,  3.40it/s] 49%|████▊     | 180205/371472 [3:16:07<17:37:44,  3.01it/s] 49%|████▊     | 180206/371472 [3:16:07<17:15:08,  3.08it/s] 49%|████▊     | 180207/371472 [3:16:08<16:41:46,  3.18it/s] 49%|████▊     | 180208/371472 [3:16:08<15:44:19,  3.38it/s] 49%|████▊     | 180209/371472 [3:16:08<15:53:17,  3.34it/s] 49%|████▊     | 180210/371472 [3:16:08<15:44:05,  3.38it/s] 49%|████▊     | 180211/371472 [3:16:09<15:16:04,  3.48it/s] 49%|████▊     | 180212/371472 [3:16:09<15:17:20,  3.47it/s] 49%|████▊     | 180213/371472 [3:16:09<15:22:58,  3.45it/s] 49%|████▊     | 180214/371472 [3:16:10<16:09:29,  3.29it/s] 49%|████▊     | 180215/371472 [3:16:10<15:42:14,  3.38it/s] 49%|████▊     | 180216/371472 [3:16:10<15:17:24,  3.47it/s] 49%|████▊     | 180217/371472 [3:16:11<15:38:43,  3.40it/s] 49%|████▊     | 180218/371472 [3:16:11<15:08:35,  3.51it/s] 49%|████▊     | 180219/371472 [3:16:11<15:35:35,  3.41it/s] 49%|████▊     | 180220/371472 [3:16:11<15:45:32,  3.37it/s]                                                            {'loss': 2.9738, 'learning_rate': 5.636137387144734e-07, 'epoch': 7.76}
 49%|████▊     | 180220/371472 [3:16:11<15:45:32,  3.37it/s] 49%|████▊     | 180221/371472 [3:16:12<15:39:43,  3.39it/s] 49%|████▊     | 180222/371472 [3:16:12<15:26:42,  3.44it/s] 49%|████▊     | 180223/371472 [3:16:12<15:13:22,  3.49it/s] 49%|████▊     | 180224/371472 [3:16:13<15:21:00,  3.46it/s] 49%|████▊     | 180225/371472 [3:16:13<14:51:40,  3.57it/s] 49%|████▊     | 180226/371472 [3:16:13<14:56:56,  3.55it/s] 49%|████▊     | 180227/371472 [3:16:13<14:40:37,  3.62it/s] 49%|████▊     | 180228/371472 [3:16:14<15:11:20,  3.50it/s] 49%|████▊     | 180229/371472 [3:16:14<15:23:28,  3.45it/s] 49%|████▊     | 180230/371472 [3:16:14<15:17:36,  3.47it/s] 49%|████▊     | 180231/371472 [3:16:15<15:14:10,  3.49it/s] 49%|████▊     | 180232/371472 [3:16:15<15:58:03,  3.33it/s] 49%|████▊     | 180233/371472 [3:16:15<15:22:15,  3.46it/s] 49%|████▊     | 180234/371472 [3:16:15<15:17:15,  3.47it/s] 49%|████▊     | 180235/371472 [3:16:16<15:30:17,  3.43it/s] 49%|████▊     | 180236/371472 [3:16:16<15:31:06,  3.42it/s] 49%|████▊     | 180237/371472 [3:16:16<15:01:10,  3.54it/s] 49%|████▊     | 180238/371472 [3:16:17<14:43:20,  3.61it/s] 49%|████▊     | 180239/371472 [3:16:17<15:41:06,  3.39it/s] 49%|████▊     | 180240/371472 [3:16:17<15:00:01,  3.54it/s]                                                            {'loss': 3.1412, 'learning_rate': 5.635652567389946e-07, 'epoch': 7.76}
 49%|████▊     | 180240/371472 [3:16:17<15:00:01,  3.54it/s] 49%|████▊     | 180241/371472 [3:16:17<14:42:00,  3.61it/s] 49%|████▊     | 180242/371472 [3:16:18<14:36:57,  3.63it/s] 49%|████▊     | 180243/371472 [3:16:18<15:15:52,  3.48it/s] 49%|████▊     | 180244/371472 [3:16:18<15:38:07,  3.40it/s] 49%|████▊     | 180245/371472 [3:16:19<15:20:24,  3.46it/s] 49%|████▊     | 180246/371472 [3:16:19<15:25:42,  3.44it/s] 49%|████▊     | 180247/371472 [3:16:19<15:05:48,  3.52it/s] 49%|████▊     | 180248/371472 [3:16:19<14:57:38,  3.55it/s] 49%|████▊     | 180249/371472 [3:16:20<15:17:34,  3.47it/s] 49%|████▊     | 180250/371472 [3:16:20<14:58:09,  3.55it/s] 49%|████▊     | 180251/371472 [3:16:20<14:55:47,  3.56it/s] 49%|████▊     | 180252/371472 [3:16:20<14:23:06,  3.69it/s] 49%|████▊     | 180253/371472 [3:16:21<15:12:11,  3.49it/s] 49%|████▊     | 180254/371472 [3:16:21<14:51:26,  3.58it/s] 49%|████▊     | 180255/371472 [3:16:21<14:42:26,  3.61it/s] 49%|████▊     | 180256/371472 [3:16:22<14:39:26,  3.62it/s] 49%|████▊     | 180257/371472 [3:16:22<14:37:51,  3.63it/s] 49%|████▊     | 180258/371472 [3:16:22<14:50:30,  3.58it/s] 49%|████▊     | 180259/371472 [3:16:22<15:09:52,  3.50it/s] 49%|████▊     | 180260/371472 [3:16:23<15:13:16,  3.49it/s]                                                            {'loss': 3.1041, 'learning_rate': 5.635167747635158e-07, 'epoch': 7.76}
 49%|████▊     | 180260/371472 [3:16:23<15:13:16,  3.49it/s] 49%|████▊     | 180261/371472 [3:16:23<15:24:40,  3.45it/s] 49%|████▊     | 180262/371472 [3:16:23<14:58:47,  3.55it/s] 49%|████▊     | 180263/371472 [3:16:24<15:21:43,  3.46it/s] 49%|████▊     | 180264/371472 [3:16:24<15:14:43,  3.48it/s] 49%|████▊     | 180265/371472 [3:16:24<14:31:08,  3.66it/s] 49%|████▊     | 180266/371472 [3:16:24<14:37:36,  3.63it/s] 49%|████▊     | 180267/371472 [3:16:25<14:33:33,  3.65it/s] 49%|████▊     | 180268/371472 [3:16:25<15:04:46,  3.52it/s] 49%|████▊     | 180269/371472 [3:16:25<15:05:33,  3.52it/s] 49%|████▊     | 180270/371472 [3:16:26<15:01:27,  3.54it/s] 49%|████▊     | 180271/371472 [3:16:26<14:32:54,  3.65it/s] 49%|████▊     | 180272/371472 [3:16:26<15:27:18,  3.44it/s] 49%|████▊     | 180273/371472 [3:16:26<14:51:18,  3.58it/s] 49%|████▊     | 180274/371472 [3:16:27<14:36:31,  3.64it/s] 49%|████▊     | 180275/371472 [3:16:27<14:51:30,  3.57it/s] 49%|████▊     | 180276/371472 [3:16:27<15:10:06,  3.50it/s] 49%|████▊     | 180277/371472 [3:16:28<15:00:15,  3.54it/s] 49%|████▊     | 180278/371472 [3:16:28<14:46:14,  3.60it/s] 49%|████▊     | 180279/371472 [3:16:28<14:34:41,  3.64it/s] 49%|████▊     | 180280/371472 [3:16:28<15:01:20,  3.54it/s]                                                            {'loss': 3.1667, 'learning_rate': 5.634682927880368e-07, 'epoch': 7.76}
 49%|████▊     | 180280/371472 [3:16:28<15:01:20,  3.54it/s] 49%|████▊     | 180281/371472 [3:16:29<16:45:34,  3.17it/s] 49%|████▊     | 180282/371472 [3:16:29<15:50:14,  3.35it/s] 49%|████▊     | 180283/371472 [3:16:29<15:13:57,  3.49it/s] 49%|████▊     | 180284/371472 [3:16:30<15:08:47,  3.51it/s] 49%|████▊     | 180285/371472 [3:16:30<15:02:38,  3.53it/s] 49%|████▊     | 180286/371472 [3:16:30<14:55:46,  3.56it/s] 49%|████▊     | 180287/371472 [3:16:30<14:53:42,  3.57it/s] 49%|████▊     | 180288/371472 [3:16:31<15:16:34,  3.48it/s] 49%|████▊     | 180289/371472 [3:16:31<15:42:16,  3.38it/s] 49%|████▊     | 180290/371472 [3:16:31<15:08:11,  3.51it/s] 49%|████▊     | 180291/371472 [3:16:32<14:45:45,  3.60it/s] 49%|████▊     | 180292/371472 [3:16:32<14:25:19,  3.68it/s] 49%|████▊     | 180293/371472 [3:16:32<14:21:35,  3.70it/s] 49%|████▊     | 180294/371472 [3:16:32<14:09:00,  3.75it/s] 49%|████▊     | 180295/371472 [3:16:33<15:38:37,  3.39it/s] 49%|████▊     | 180296/371472 [3:16:33<15:23:03,  3.45it/s] 49%|████▊     | 180297/371472 [3:16:33<15:14:01,  3.49it/s] 49%|████▊     | 180298/371472 [3:16:34<15:11:30,  3.50it/s] 49%|████▊     | 180299/371472 [3:16:34<14:46:20,  3.59it/s] 49%|████▊     | 180300/371472 [3:16:34<15:55:32,  3.33it/s]                                                            {'loss': 2.9719, 'learning_rate': 5.634198108125579e-07, 'epoch': 7.77}
 49%|████▊     | 180300/371472 [3:16:34<15:55:32,  3.33it/s] 49%|████▊     | 180301/371472 [3:16:34<15:25:11,  3.44it/s] 49%|████▊     | 180302/371472 [3:16:35<15:46:17,  3.37it/s] 49%|████▊     | 180303/371472 [3:16:35<15:25:15,  3.44it/s] 49%|████▊     | 180304/371472 [3:16:35<15:05:33,  3.52it/s] 49%|████▊     | 180305/371472 [3:16:36<15:14:51,  3.48it/s] 49%|████▊     | 180306/371472 [3:16:36<14:40:40,  3.62it/s] 49%|████▊     | 180307/371472 [3:16:36<15:43:18,  3.38it/s] 49%|████▊     | 180308/371472 [3:16:36<15:31:32,  3.42it/s] 49%|████▊     | 180309/371472 [3:16:37<15:30:13,  3.43it/s] 49%|████▊     | 180310/371472 [3:16:37<15:07:40,  3.51it/s] 49%|████▊     | 180311/371472 [3:16:37<14:43:32,  3.61it/s] 49%|████▊     | 180312/371472 [3:16:38<14:38:25,  3.63it/s] 49%|████▊     | 180313/371472 [3:16:38<16:55:32,  3.14it/s] 49%|████▊     | 180314/371472 [3:16:38<16:15:26,  3.27it/s] 49%|████▊     | 180315/371472 [3:16:38<15:45:52,  3.37it/s] 49%|████▊     | 180316/371472 [3:16:39<15:09:28,  3.50it/s] 49%|████▊     | 180317/371472 [3:16:39<15:01:06,  3.54it/s] 49%|████▊     | 180318/371472 [3:16:39<15:11:30,  3.50it/s] 49%|████▊     | 180319/371472 [3:16:40<16:51:37,  3.15it/s] 49%|████▊     | 180320/371472 [3:16:40<15:39:04,  3.39it/s]                                                            {'loss': 3.027, 'learning_rate': 5.63371328837079e-07, 'epoch': 7.77}
 49%|████▊     | 180320/371472 [3:16:40<15:39:04,  3.39it/s] 49%|████▊     | 180321/371472 [3:16:40<16:36:47,  3.20it/s] 49%|████▊     | 180322/371472 [3:16:41<16:40:42,  3.18it/s] 49%|████▊     | 180323/371472 [3:16:41<15:52:51,  3.34it/s] 49%|████▊     | 180324/371472 [3:16:41<16:03:13,  3.31it/s] 49%|████▊     | 180325/371472 [3:16:42<16:46:15,  3.17it/s] 49%|████▊     | 180326/371472 [3:16:42<15:56:39,  3.33it/s] 49%|████▊     | 180327/371472 [3:16:42<15:25:47,  3.44it/s] 49%|████▊     | 180328/371472 [3:16:42<15:26:45,  3.44it/s] 49%|████▊     | 180329/371472 [3:16:43<15:37:31,  3.40it/s] 49%|████▊     | 180330/371472 [3:16:43<15:26:49,  3.44it/s] 49%|████▊     | 180331/371472 [3:16:43<15:09:13,  3.50it/s] 49%|████▊     | 180332/371472 [3:16:43<14:41:58,  3.61it/s] 49%|████▊     | 180333/371472 [3:16:44<15:19:09,  3.47it/s] 49%|████▊     | 180334/371472 [3:16:44<14:36:02,  3.64it/s] 49%|████▊     | 180335/371472 [3:16:44<14:23:54,  3.69it/s] 49%|████▊     | 180336/371472 [3:16:45<14:23:53,  3.69it/s] 49%|████▊     | 180337/371472 [3:16:45<15:06:24,  3.51it/s] 49%|████▊     | 180338/371472 [3:16:45<14:35:20,  3.64it/s] 49%|████▊     | 180339/371472 [3:16:45<14:48:26,  3.59it/s] 49%|████▊     | 180340/371472 [3:16:46<15:01:37,  3.53it/s]                                                            {'loss': 2.9877, 'learning_rate': 5.633228468616002e-07, 'epoch': 7.77}
 49%|████▊     | 180340/371472 [3:16:46<15:01:37,  3.53it/s] 49%|████▊     | 180341/371472 [3:16:46<14:56:53,  3.55it/s] 49%|████▊     | 180342/371472 [3:16:46<14:46:55,  3.59it/s] 49%|████▊     | 180343/371472 [3:16:47<14:52:48,  3.57it/s] 49%|████▊     | 180344/371472 [3:16:47<15:05:59,  3.52it/s] 49%|████▊     | 180345/371472 [3:16:47<15:31:05,  3.42it/s] 49%|████▊     | 180346/371472 [3:16:47<15:26:30,  3.44it/s] 49%|████▊     | 180347/371472 [3:16:48<14:47:17,  3.59it/s] 49%|████▊     | 180348/371472 [3:16:48<14:25:50,  3.68it/s] 49%|████▊     | 180349/371472 [3:16:48<14:34:02,  3.64it/s] 49%|████▊     | 180350/371472 [3:16:49<14:50:35,  3.58it/s] 49%|████▊     | 180351/371472 [3:16:49<14:43:25,  3.61it/s] 49%|████▊     | 180352/371472 [3:16:49<15:18:55,  3.47it/s] 49%|████▊     | 180353/371472 [3:16:49<15:58:13,  3.32it/s] 49%|████▊     | 180354/371472 [3:16:50<15:34:38,  3.41it/s] 49%|████▊     | 180355/371472 [3:16:50<15:19:58,  3.46it/s] 49%|████▊     | 180356/371472 [3:16:50<14:59:46,  3.54it/s] 49%|████▊     | 180357/371472 [3:16:51<16:23:53,  3.24it/s] 49%|████▊     | 180358/371472 [3:16:51<16:27:42,  3.22it/s] 49%|████▊     | 180359/371472 [3:16:51<16:30:03,  3.22it/s] 49%|████▊     | 180360/371472 [3:16:52<15:39:43,  3.39it/s]                                                            {'loss': 3.0899, 'learning_rate': 5.632743648861212e-07, 'epoch': 7.77}
 49%|████▊     | 180360/371472 [3:16:52<15:39:43,  3.39it/s] 49%|████▊     | 180361/371472 [3:16:52<15:34:27,  3.41it/s] 49%|████▊     | 180362/371472 [3:16:52<15:19:24,  3.46it/s] 49%|████▊     | 180363/371472 [3:16:52<15:06:47,  3.51it/s] 49%|████▊     | 180364/371472 [3:16:53<14:38:28,  3.63it/s] 49%|████▊     | 180365/371472 [3:16:53<14:27:00,  3.67it/s] 49%|████▊     | 180366/371472 [3:16:53<16:00:18,  3.32it/s] 49%|████▊     | 180367/371472 [3:16:54<15:34:22,  3.41it/s] 49%|████▊     | 180368/371472 [3:16:54<14:53:41,  3.56it/s] 49%|████▊     | 180369/371472 [3:16:54<15:48:16,  3.36it/s] 49%|████▊     | 180370/371472 [3:16:54<16:16:50,  3.26it/s] 49%|████▊     | 180371/371472 [3:16:55<16:21:47,  3.24it/s] 49%|████▊     | 180372/371472 [3:16:55<15:49:24,  3.35it/s] 49%|████▊     | 180373/371472 [3:16:55<15:32:09,  3.42it/s] 49%|████▊     | 180374/371472 [3:16:56<15:42:47,  3.38it/s] 49%|████▊     | 180375/371472 [3:16:56<15:12:39,  3.49it/s] 49%|████▊     | 180376/371472 [3:16:56<14:51:25,  3.57it/s] 49%|████▊     | 180377/371472 [3:16:56<14:28:56,  3.67it/s] 49%|████▊     | 180378/371472 [3:16:57<14:27:32,  3.67it/s] 49%|████▊     | 180379/371472 [3:16:57<15:00:51,  3.54it/s] 49%|████▊     | 180380/371472 [3:16:57<15:14:01,  3.48it/s]                                                            {'loss': 2.9889, 'learning_rate': 5.632258829106423e-07, 'epoch': 7.77}
 49%|████▊     | 180380/371472 [3:16:57<15:14:01,  3.48it/s] 49%|████▊     | 180381/371472 [3:16:58<16:29:32,  3.22it/s] 49%|████▊     | 180382/371472 [3:16:58<16:28:58,  3.22it/s] 49%|████▊     | 180383/371472 [3:16:58<15:53:57,  3.34it/s] 49%|████▊     | 180384/371472 [3:16:59<16:24:26,  3.24it/s] 49%|████▊     | 180385/371472 [3:16:59<15:22:21,  3.45it/s] 49%|████▊     | 180386/371472 [3:16:59<15:26:53,  3.44it/s] 49%|████▊     | 180387/371472 [3:16:59<14:50:35,  3.58it/s] 49%|████▊     | 180388/371472 [3:17:00<14:52:49,  3.57it/s] 49%|████▊     | 180389/371472 [3:17:00<14:35:56,  3.64it/s] 49%|████▊     | 180390/371472 [3:17:00<14:30:20,  3.66it/s] 49%|████▊     | 180391/371472 [3:17:00<14:33:42,  3.65it/s] 49%|████▊     | 180392/371472 [3:17:01<14:27:19,  3.67it/s] 49%|████▊     | 180393/371472 [3:17:01<14:32:02,  3.65it/s] 49%|████▊     | 180394/371472 [3:17:01<14:24:36,  3.68it/s] 49%|████▊     | 180395/371472 [3:17:02<14:03:49,  3.77it/s] 49%|████▊     | 180396/371472 [3:17:02<14:31:30,  3.65it/s] 49%|████▊     | 180397/371472 [3:17:02<14:20:16,  3.70it/s] 49%|████▊     | 180398/371472 [3:17:02<14:17:17,  3.71it/s] 49%|████▊     | 180399/371472 [3:17:03<14:04:02,  3.77it/s] 49%|████▊     | 180400/371472 [3:17:03<14:00:57,  3.79it/s]                                                            {'loss': 2.9301, 'learning_rate': 5.631774009351635e-07, 'epoch': 7.77}
 49%|████▊     | 180400/371472 [3:17:03<14:00:57,  3.79it/s] 49%|████▊     | 180401/371472 [3:17:03<14:32:44,  3.65it/s] 49%|████▊     | 180402/371472 [3:17:03<14:41:50,  3.61it/s] 49%|████▊     | 180403/371472 [3:17:04<14:24:10,  3.69it/s] 49%|████▊     | 180404/371472 [3:17:04<14:24:01,  3.69it/s] 49%|████▊     | 180405/371472 [3:17:04<14:21:57,  3.69it/s] 49%|████▊     | 180406/371472 [3:17:05<15:14:26,  3.48it/s] 49%|████▊     | 180407/371472 [3:17:05<15:09:02,  3.50it/s] 49%|████▊     | 180408/371472 [3:17:05<14:49:49,  3.58it/s] 49%|████▊     | 180409/371472 [3:17:05<14:44:06,  3.60it/s] 49%|████▊     | 180410/371472 [3:17:06<14:35:01,  3.64it/s] 49%|████▊     | 180411/371472 [3:17:06<15:57:54,  3.32it/s] 49%|████▊     | 180412/371472 [3:17:06<16:15:33,  3.26it/s] 49%|████▊     | 180413/371472 [3:17:07<15:19:00,  3.46it/s] 49%|████▊     | 180414/371472 [3:17:07<15:41:45,  3.38it/s] 49%|████▊     | 180415/371472 [3:17:07<15:36:10,  3.40it/s] 49%|████▊     | 180416/371472 [3:17:07<15:47:05,  3.36it/s] 49%|████▊     | 180417/371472 [3:17:08<15:08:42,  3.50it/s] 49%|████▊     | 180418/371472 [3:17:08<15:45:23,  3.37it/s] 49%|████▊     | 180419/371472 [3:17:08<14:57:23,  3.55it/s] 49%|████▊     | 180420/371472 [3:17:09<14:46:35,  3.59it/s]                                                            {'loss': 3.0804, 'learning_rate': 5.631289189596846e-07, 'epoch': 7.77}
 49%|████▊     | 180420/371472 [3:17:09<14:46:35,  3.59it/s] 49%|████▊     | 180421/371472 [3:17:09<14:39:50,  3.62it/s] 49%|████▊     | 180422/371472 [3:17:09<14:17:23,  3.71it/s] 49%|████▊     | 180423/371472 [3:17:09<13:55:53,  3.81it/s] 49%|████▊     | 180424/371472 [3:17:10<14:06:14,  3.76it/s] 49%|████▊     | 180425/371472 [3:17:10<14:13:26,  3.73it/s] 49%|████▊     | 180426/371472 [3:17:10<14:19:23,  3.71it/s] 49%|████▊     | 180427/371472 [3:17:10<14:29:22,  3.66it/s] 49%|████▊     | 180428/371472 [3:17:11<14:10:22,  3.74it/s] 49%|████▊     | 180429/371472 [3:17:11<13:41:57,  3.87it/s] 49%|████▊     | 180430/371472 [3:17:11<14:18:01,  3.71it/s] 49%|████▊     | 180431/371472 [3:17:12<15:17:23,  3.47it/s] 49%|████▊     | 180432/371472 [3:17:12<15:27:11,  3.43it/s] 49%|████▊     | 180433/371472 [3:17:12<15:26:11,  3.44it/s] 49%|████▊     | 180434/371472 [3:17:12<14:56:48,  3.55it/s] 49%|████▊     | 180435/371472 [3:17:13<14:59:26,  3.54it/s] 49%|████▊     | 180436/371472 [3:17:13<14:35:26,  3.64it/s] 49%|████▊     | 180437/371472 [3:17:13<15:54:17,  3.34it/s] 49%|████▊     | 180438/371472 [3:17:14<15:22:45,  3.45it/s] 49%|████▊     | 180439/371472 [3:17:14<16:44:16,  3.17it/s] 49%|████▊     | 180440/371472 [3:17:14<15:47:26,  3.36it/s]                                                            {'loss': 3.2418, 'learning_rate': 5.630804369842056e-07, 'epoch': 7.77}
 49%|████▊     | 180440/371472 [3:17:14<15:47:26,  3.36it/s] 49%|████▊     | 180441/371472 [3:17:15<15:49:14,  3.35it/s] 49%|████▊     | 180442/371472 [3:17:15<16:08:59,  3.29it/s] 49%|████▊     | 180443/371472 [3:17:15<16:34:55,  3.20it/s] 49%|████▊     | 180444/371472 [3:17:16<17:01:17,  3.12it/s] 49%|████▊     | 180445/371472 [3:17:16<16:15:25,  3.26it/s] 49%|████▊     | 180446/371472 [3:17:16<16:08:52,  3.29it/s] 49%|████▊     | 180447/371472 [3:17:16<15:35:03,  3.40it/s] 49%|████▊     | 180448/371472 [3:17:17<14:59:29,  3.54it/s] 49%|████▊     | 180449/371472 [3:17:17<16:41:39,  3.18it/s] 49%|████▊     | 180450/371472 [3:17:17<17:25:00,  3.05it/s] 49%|████▊     | 180451/371472 [3:17:18<16:23:24,  3.24it/s] 49%|████▊     | 180452/371472 [3:17:18<15:32:01,  3.42it/s] 49%|████▊     | 180453/371472 [3:17:18<15:03:50,  3.52it/s] 49%|████▊     | 180454/371472 [3:17:18<15:59:21,  3.32it/s] 49%|████▊     | 180455/371472 [3:17:19<15:15:45,  3.48it/s] 49%|████▊     | 180456/371472 [3:17:19<15:31:36,  3.42it/s] 49%|████▊     | 180457/371472 [3:17:19<15:52:42,  3.34it/s] 49%|████▊     | 180458/371472 [3:17:20<16:07:19,  3.29it/s] 49%|████▊     | 180459/371472 [3:17:20<15:39:52,  3.39it/s] 49%|████▊     | 180460/371472 [3:17:20<16:11:52,  3.28it/s]                                                            {'loss': 2.9494, 'learning_rate': 5.630319550087267e-07, 'epoch': 7.77}
 49%|████▊     | 180460/371472 [3:17:20<16:11:52,  3.28it/s] 49%|████▊     | 180461/371472 [3:17:21<15:30:41,  3.42it/s] 49%|████▊     | 180462/371472 [3:17:21<15:04:25,  3.52it/s] 49%|████▊     | 180463/371472 [3:17:21<14:59:01,  3.54it/s] 49%|████▊     | 180464/371472 [3:17:21<15:39:53,  3.39it/s] 49%|████▊     | 180465/371472 [3:17:22<15:31:20,  3.42it/s] 49%|████▊     | 180466/371472 [3:17:22<15:30:26,  3.42it/s] 49%|████▊     | 180467/371472 [3:17:22<14:53:06,  3.56it/s] 49%|████▊     | 180468/371472 [3:17:23<15:04:07,  3.52it/s] 49%|████▊     | 180469/371472 [3:17:23<14:33:14,  3.65it/s] 49%|████▊     | 180470/371472 [3:17:23<15:29:00,  3.43it/s] 49%|████▊     | 180471/371472 [3:17:23<16:10:32,  3.28it/s] 49%|████▊     | 180472/371472 [3:17:24<16:02:48,  3.31it/s] 49%|████▊     | 180473/371472 [3:17:24<16:37:54,  3.19it/s] 49%|████▊     | 180474/371472 [3:17:24<15:48:59,  3.35it/s] 49%|████▊     | 180475/371472 [3:17:25<15:18:15,  3.47it/s] 49%|████▊     | 180476/371472 [3:17:25<15:43:52,  3.37it/s] 49%|████▊     | 180477/371472 [3:17:25<15:12:19,  3.49it/s] 49%|████▊     | 180478/371472 [3:17:25<15:02:50,  3.53it/s] 49%|████▊     | 180479/371472 [3:17:26<15:12:26,  3.49it/s] 49%|████▊     | 180480/371472 [3:17:26<15:14:28,  3.48it/s]                                                            {'loss': 3.1043, 'learning_rate': 5.629834730332479e-07, 'epoch': 7.77}
 49%|████▊     | 180480/371472 [3:17:26<15:14:28,  3.48it/s] 49%|████▊     | 180481/371472 [3:17:26<14:54:00,  3.56it/s] 49%|████▊     | 180482/371472 [3:17:27<14:28:36,  3.66it/s] 49%|████▊     | 180483/371472 [3:17:27<14:50:49,  3.57it/s] 49%|████▊     | 180484/371472 [3:17:27<14:52:42,  3.57it/s] 49%|████▊     | 180485/371472 [3:17:27<14:25:12,  3.68it/s] 49%|████▊     | 180486/371472 [3:17:28<14:14:56,  3.72it/s] 49%|████▊     | 180487/371472 [3:17:28<13:53:26,  3.82it/s] 49%|████▊     | 180488/371472 [3:17:28<14:08:46,  3.75it/s] 49%|████▊     | 180489/371472 [3:17:28<14:30:23,  3.66it/s] 49%|████▊     | 180490/371472 [3:17:29<15:54:20,  3.34it/s] 49%|████▊     | 180491/371472 [3:17:29<15:37:32,  3.40it/s] 49%|████▊     | 180492/371472 [3:17:29<16:23:56,  3.23it/s] 49%|████▊     | 180493/371472 [3:17:30<15:56:56,  3.33it/s] 49%|████▊     | 180494/371472 [3:17:30<15:20:08,  3.46it/s] 49%|████▊     | 180495/371472 [3:17:30<17:06:27,  3.10it/s] 49%|████▊     | 180496/371472 [3:17:31<15:56:51,  3.33it/s] 49%|████▊     | 180497/371472 [3:17:31<15:48:26,  3.36it/s] 49%|████▊     | 180498/371472 [3:17:31<15:23:04,  3.45it/s] 49%|████▊     | 180499/371472 [3:17:31<15:08:58,  3.50it/s] 49%|████▊     | 180500/371472 [3:17:32<15:54:21,  3.34it/s]                                                            {'loss': 2.814, 'learning_rate': 5.629349910577689e-07, 'epoch': 7.77}
 49%|████▊     | 180500/371472 [3:17:32<15:54:21,  3.34it/s] 49%|████▊     | 180501/371472 [3:17:32<15:50:09,  3.35it/s] 49%|████▊     | 180502/371472 [3:17:32<15:31:01,  3.42it/s] 49%|████▊     | 180503/371472 [3:17:33<15:34:48,  3.40it/s] 49%|████▊     | 180504/371472 [3:17:33<16:05:44,  3.30it/s] 49%|████▊     | 180505/371472 [3:17:33<15:13:12,  3.49it/s] 49%|████▊     | 180506/371472 [3:17:34<17:03:02,  3.11it/s] 49%|████▊     | 180507/371472 [3:17:34<16:55:15,  3.13it/s] 49%|████▊     | 180508/371472 [3:17:34<15:57:25,  3.32it/s] 49%|████▊     | 180509/371472 [3:17:35<17:27:25,  3.04it/s] 49%|████▊     | 180510/371472 [3:17:35<16:57:39,  3.13it/s] 49%|████▊     | 180511/371472 [3:17:35<15:53:38,  3.34it/s] 49%|████▊     | 180512/371472 [3:17:35<15:52:40,  3.34it/s] 49%|████▊     | 180513/371472 [3:17:36<15:14:12,  3.48it/s] 49%|████▊     | 180514/371472 [3:17:36<15:03:36,  3.52it/s] 49%|████▊     | 180515/371472 [3:17:36<14:59:42,  3.54it/s] 49%|████▊     | 180516/371472 [3:17:37<14:53:47,  3.56it/s] 49%|████▊     | 180517/371472 [3:17:37<14:46:03,  3.59it/s] 49%|████▊     | 180518/371472 [3:17:37<14:45:53,  3.59it/s] 49%|████▊     | 180519/371472 [3:17:37<14:45:37,  3.59it/s] 49%|████▊     | 180520/371472 [3:17:38<15:05:32,  3.51it/s]                                                            {'loss': 2.917, 'learning_rate': 5.6288650908229e-07, 'epoch': 7.78}
 49%|████▊     | 180520/371472 [3:17:38<15:05:32,  3.51it/s] 49%|████▊     | 180521/371472 [3:17:38<14:31:58,  3.65it/s] 49%|████▊     | 180522/371472 [3:17:38<14:25:38,  3.68it/s] 49%|████▊     | 180523/371472 [3:17:39<14:42:45,  3.61it/s] 49%|████▊     | 180524/371472 [3:17:39<14:42:17,  3.61it/s] 49%|████▊     | 180525/371472 [3:17:39<14:37:29,  3.63it/s] 49%|████▊     | 180526/371472 [3:17:39<14:46:41,  3.59it/s] 49%|████▊     | 180527/371472 [3:17:40<14:37:41,  3.63it/s] 49%|████▊     | 180528/371472 [3:17:40<14:16:56,  3.71it/s] 49%|████▊     | 180529/371472 [3:17:40<14:20:27,  3.70it/s] 49%|████▊     | 180530/371472 [3:17:40<14:44:26,  3.60it/s] 49%|████▊     | 180531/371472 [3:17:41<14:39:57,  3.62it/s] 49%|████▊     | 180532/371472 [3:17:41<14:55:21,  3.55it/s] 49%|████▊     | 180533/371472 [3:17:41<14:38:45,  3.62it/s] 49%|████▊     | 180534/371472 [3:17:42<15:00:56,  3.53it/s] 49%|████▊     | 180535/371472 [3:17:42<15:39:43,  3.39it/s] 49%|████▊     | 180536/371472 [3:17:42<15:11:29,  3.49it/s] 49%|████▊     | 180537/371472 [3:17:43<19:45:23,  2.68it/s] 49%|████▊     | 180538/371472 [3:17:43<17:54:34,  2.96it/s] 49%|████▊     | 180539/371472 [3:17:43<16:37:20,  3.19it/s] 49%|████▊     | 180540/371472 [3:17:44<17:31:22,  3.03it/s]                                                            {'loss': 3.0473, 'learning_rate': 5.628380271068112e-07, 'epoch': 7.78}
 49%|████▊     | 180540/371472 [3:17:44<17:31:22,  3.03it/s] 49%|████▊     | 180541/371472 [3:17:44<16:41:02,  3.18it/s] 49%|████▊     | 180542/371472 [3:17:44<15:47:32,  3.36it/s] 49%|████▊     | 180543/371472 [3:17:44<16:00:32,  3.31it/s] 49%|████▊     | 180544/371472 [3:17:45<15:51:14,  3.35it/s] 49%|████▊     | 180545/371472 [3:17:45<18:30:43,  2.86it/s] 49%|████▊     | 180546/371472 [3:17:45<17:13:07,  3.08it/s] 49%|████▊     | 180547/371472 [3:17:46<16:48:27,  3.16it/s] 49%|████▊     | 180548/371472 [3:17:46<16:27:58,  3.22it/s] 49%|████▊     | 180549/371472 [3:17:46<15:28:27,  3.43it/s] 49%|████▊     | 180550/371472 [3:17:47<15:09:32,  3.50it/s] 49%|████▊     | 180551/371472 [3:17:47<15:11:49,  3.49it/s] 49%|████▊     | 180552/371472 [3:17:47<16:03:48,  3.30it/s] 49%|████▊     | 180553/371472 [3:17:48<16:20:14,  3.25it/s] 49%|████▊     | 180554/371472 [3:17:48<16:03:54,  3.30it/s] 49%|████▊     | 180555/371472 [3:17:48<16:02:55,  3.30it/s] 49%|████▊     | 180556/371472 [3:17:48<15:43:07,  3.37it/s] 49%|████▊     | 180557/371472 [3:17:49<15:45:53,  3.36it/s] 49%|████▊     | 180558/371472 [3:17:49<15:18:26,  3.46it/s] 49%|████▊     | 180559/371472 [3:17:49<15:40:48,  3.38it/s] 49%|████▊     | 180560/371472 [3:17:50<16:17:15,  3.26it/s]                                                            {'loss': 2.9938, 'learning_rate': 5.627895451313323e-07, 'epoch': 7.78}
 49%|████▊     | 180560/371472 [3:17:50<16:17:15,  3.26it/s] 49%|████▊     | 180561/371472 [3:17:50<15:38:16,  3.39it/s] 49%|████▊     | 180562/371472 [3:17:50<16:11:11,  3.28it/s] 49%|████▊     | 180563/371472 [3:17:50<15:25:51,  3.44it/s] 49%|████▊     | 180564/371472 [3:17:51<14:55:19,  3.55it/s] 49%|████▊     | 180565/371472 [3:17:51<14:42:00,  3.61it/s] 49%|████▊     | 180566/371472 [3:17:51<15:01:20,  3.53it/s] 49%|████▊     | 180567/371472 [3:17:52<14:48:05,  3.58it/s] 49%|████▊     | 180568/371472 [3:17:52<14:50:46,  3.57it/s] 49%|████▊     | 180569/371472 [3:17:52<14:42:27,  3.61it/s] 49%|████▊     | 180570/371472 [3:17:53<16:11:26,  3.28it/s] 49%|████▊     | 180571/371472 [3:17:53<16:10:55,  3.28it/s] 49%|████▊     | 180572/371472 [3:17:53<15:53:00,  3.34it/s] 49%|████▊     | 180573/371472 [3:17:53<15:29:41,  3.42it/s] 49%|████▊     | 180574/371472 [3:17:54<15:15:08,  3.48it/s] 49%|████▊     | 180575/371472 [3:17:54<14:59:48,  3.54it/s] 49%|████▊     | 180576/371472 [3:17:54<14:58:22,  3.54it/s] 49%|████▊     | 180577/371472 [3:17:55<15:58:39,  3.32it/s] 49%|████▊     | 180578/371472 [3:17:55<15:24:33,  3.44it/s] 49%|████▊     | 180579/371472 [3:17:55<15:10:31,  3.49it/s] 49%|████▊     | 180580/371472 [3:17:55<15:13:18,  3.48it/s]                                                            {'loss': 2.9313, 'learning_rate': 5.627410631558533e-07, 'epoch': 7.78}
 49%|████▊     | 180580/371472 [3:17:55<15:13:18,  3.48it/s] 49%|████▊     | 180581/371472 [3:17:56<15:15:17,  3.48it/s] 49%|████▊     | 180582/371472 [3:17:56<15:37:20,  3.39it/s] 49%|████▊     | 180583/371472 [3:17:56<16:01:20,  3.31it/s] 49%|████▊     | 180584/371472 [3:17:57<15:57:07,  3.32it/s] 49%|████▊     | 180585/371472 [3:17:57<15:45:29,  3.36it/s] 49%|████▊     | 180586/371472 [3:17:57<16:46:05,  3.16it/s] 49%|████▊     | 180587/371472 [3:17:58<15:58:18,  3.32it/s] 49%|████▊     | 180588/371472 [3:17:58<15:50:59,  3.35it/s] 49%|████▊     | 180589/371472 [3:17:58<16:13:54,  3.27it/s] 49%|████▊     | 180590/371472 [3:17:58<15:47:39,  3.36it/s] 49%|████▊     | 180591/371472 [3:17:59<15:28:58,  3.42it/s] 49%|████▊     | 180592/371472 [3:17:59<16:26:29,  3.22it/s] 49%|████▊     | 180593/371472 [3:17:59<15:35:34,  3.40it/s] 49%|████▊     | 180594/371472 [3:18:00<15:19:15,  3.46it/s] 49%|████▊     | 180595/371472 [3:18:00<15:10:10,  3.50it/s] 49%|████▊     | 180596/371472 [3:18:00<15:03:27,  3.52it/s] 49%|████▊     | 180597/371472 [3:18:00<15:31:29,  3.42it/s] 49%|████▊     | 180598/371472 [3:18:01<16:39:32,  3.18it/s] 49%|████▊     | 180599/371472 [3:18:01<15:43:47,  3.37it/s] 49%|████▊     | 180600/371472 [3:18:01<15:48:48,  3.35it/s]                                                            {'loss': 2.9695, 'learning_rate': 5.626925811803744e-07, 'epoch': 7.78}
 49%|████▊     | 180600/371472 [3:18:01<15:48:48,  3.35it/s] 49%|████▊     | 180601/371472 [3:18:02<15:29:43,  3.42it/s] 49%|████▊     | 180602/371472 [3:18:02<15:22:11,  3.45it/s] 49%|████▊     | 180603/371472 [3:18:02<15:22:32,  3.45it/s] 49%|████▊     | 180604/371472 [3:18:02<15:10:10,  3.50it/s] 49%|████▊     | 180605/371472 [3:18:03<15:03:17,  3.52it/s] 49%|████▊     | 180606/371472 [3:18:03<15:06:28,  3.51it/s] 49%|████▊     | 180607/371472 [3:18:03<14:34:15,  3.64it/s] 49%|████▊     | 180608/371472 [3:18:04<14:31:34,  3.65it/s] 49%|████▊     | 180609/371472 [3:18:04<14:42:48,  3.60it/s] 49%|████▊     | 180610/371472 [3:18:04<14:17:06,  3.71it/s] 49%|████▊     | 180611/371472 [3:18:04<14:02:09,  3.78it/s] 49%|████▊     | 180612/371472 [3:18:05<14:33:07,  3.64it/s] 49%|████▊     | 180613/371472 [3:18:05<14:25:20,  3.68it/s] 49%|████▊     | 180614/371472 [3:18:05<15:14:50,  3.48it/s] 49%|████▊     | 180615/371472 [3:18:06<14:51:19,  3.57it/s] 49%|████▊     | 180616/371472 [3:18:06<14:24:22,  3.68it/s] 49%|████▊     | 180617/371472 [3:18:06<15:55:14,  3.33it/s] 49%|████▊     | 180618/371472 [3:18:06<15:28:27,  3.43it/s] 49%|████▊     | 180619/371472 [3:18:07<16:05:19,  3.30it/s] 49%|████▊     | 180620/371472 [3:18:07<16:14:10,  3.27it/s]                                                            {'loss': 3.1512, 'learning_rate': 5.626440992048955e-07, 'epoch': 7.78}
 49%|████▊     | 180620/371472 [3:18:07<16:14:10,  3.27it/s] 49%|████▊     | 180621/371472 [3:18:07<16:09:36,  3.28it/s] 49%|████▊     | 180622/371472 [3:18:08<15:26:53,  3.43it/s] 49%|████▊     | 180623/371472 [3:18:08<15:24:14,  3.44it/s] 49%|████▊     | 180624/371472 [3:18:08<16:05:04,  3.30it/s] 49%|████▊     | 180625/371472 [3:18:09<15:47:34,  3.36it/s] 49%|████▊     | 180626/371472 [3:18:09<16:16:59,  3.26it/s] 49%|████▊     | 180627/371472 [3:18:09<16:12:25,  3.27it/s] 49%|████▊     | 180628/371472 [3:18:09<15:29:05,  3.42it/s] 49%|████▊     | 180629/371472 [3:18:10<14:55:14,  3.55it/s] 49%|████▊     | 180630/371472 [3:18:10<14:25:42,  3.67it/s] 49%|████▊     | 180631/371472 [3:18:10<14:36:20,  3.63it/s] 49%|████▊     | 180632/371472 [3:18:10<14:38:00,  3.62it/s] 49%|████▊     | 180633/371472 [3:18:11<14:35:53,  3.63it/s] 49%|████▊     | 180634/371472 [3:18:11<14:39:33,  3.62it/s] 49%|████▊     | 180635/371472 [3:18:11<15:10:10,  3.49it/s] 49%|████▊     | 180636/371472 [3:18:12<15:10:06,  3.49it/s] 49%|████▊     | 180637/371472 [3:18:12<14:42:01,  3.61it/s] 49%|████▊     | 180638/371472 [3:18:12<14:54:03,  3.56it/s] 49%|████▊     | 180639/371472 [3:18:12<14:57:44,  3.54it/s] 49%|████▊     | 180640/371472 [3:18:13<15:02:11,  3.53it/s]                                                            {'loss': 2.9441, 'learning_rate': 5.625956172294168e-07, 'epoch': 7.78}
 49%|████▊     | 180640/371472 [3:18:13<15:02:11,  3.53it/s] 49%|████▊     | 180641/371472 [3:18:13<15:31:47,  3.41it/s] 49%|████▊     | 180642/371472 [3:18:13<15:15:10,  3.48it/s] 49%|████▊     | 180643/371472 [3:18:14<15:26:26,  3.43it/s] 49%|████▊     | 180644/371472 [3:18:14<16:42:25,  3.17it/s] 49%|████▊     | 180645/371472 [3:18:14<16:18:46,  3.25it/s] 49%|████▊     | 180646/371472 [3:18:15<15:54:37,  3.33it/s] 49%|████▊     | 180647/371472 [3:18:15<15:30:06,  3.42it/s] 49%|████▊     | 180648/371472 [3:18:15<15:03:16,  3.52it/s] 49%|████▊     | 180649/371472 [3:18:15<15:14:43,  3.48it/s] 49%|████▊     | 180650/371472 [3:18:16<14:58:37,  3.54it/s] 49%|████▊     | 180651/371472 [3:18:16<15:26:00,  3.43it/s] 49%|████▊     | 180652/371472 [3:18:16<15:08:21,  3.50it/s] 49%|████▊     | 180653/371472 [3:18:17<15:06:58,  3.51it/s] 49%|████▊     | 180654/371472 [3:18:17<15:42:55,  3.37it/s] 49%|████▊     | 180655/371472 [3:18:17<15:21:45,  3.45it/s] 49%|████▊     | 180656/371472 [3:18:17<15:08:22,  3.50it/s] 49%|████▊     | 180657/371472 [3:18:18<16:41:47,  3.17it/s] 49%|████▊     | 180658/371472 [3:18:18<15:42:27,  3.37it/s] 49%|████▊     | 180659/371472 [3:18:18<15:10:03,  3.49it/s] 49%|████▊     | 180660/371472 [3:18:19<17:53:16,  2.96it/s]                                                            {'loss': 2.878, 'learning_rate': 5.625471352539378e-07, 'epoch': 7.78}
 49%|████▊     | 180660/371472 [3:18:19<17:53:16,  2.96it/s] 49%|████▊     | 180661/371472 [3:18:19<16:32:11,  3.21it/s] 49%|████▊     | 180662/371472 [3:18:19<15:36:19,  3.40it/s] 49%|████▊     | 180663/371472 [3:18:20<15:51:42,  3.34it/s] 49%|████▊     | 180664/371472 [3:18:20<15:22:23,  3.45it/s] 49%|████▊     | 180665/371472 [3:18:20<16:19:47,  3.25it/s] 49%|████▊     | 180666/371472 [3:18:21<16:06:08,  3.29it/s] 49%|████▊     | 180667/371472 [3:18:21<15:22:16,  3.45it/s] 49%|████▊     | 180668/371472 [3:18:21<15:29:26,  3.42it/s] 49%|████▊     | 180669/371472 [3:18:21<15:00:29,  3.53it/s] 49%|████▊     | 180670/371472 [3:18:22<14:56:17,  3.55it/s] 49%|████▊     | 180671/371472 [3:18:22<14:22:24,  3.69it/s] 49%|████▊     | 180672/371472 [3:18:22<14:44:19,  3.60it/s] 49%|████▊     | 180673/371472 [3:18:22<14:17:28,  3.71it/s] 49%|████▊     | 180674/371472 [3:18:23<14:27:28,  3.67it/s] 49%|████▊     | 180675/371472 [3:18:23<14:12:32,  3.73it/s] 49%|████▊     | 180676/371472 [3:18:23<14:20:02,  3.70it/s] 49%|████▊     | 180677/371472 [3:18:24<14:40:14,  3.61it/s] 49%|████▊     | 180678/371472 [3:18:24<14:25:24,  3.67it/s] 49%|████▊     | 180679/371472 [3:18:24<14:16:15,  3.71it/s] 49%|████▊     | 180680/371472 [3:18:24<15:00:48,  3.53it/s]                                                            {'loss': 3.1815, 'learning_rate': 5.624986532784589e-07, 'epoch': 7.78}
 49%|████▊     | 180680/371472 [3:18:24<15:00:48,  3.53it/s] 49%|████▊     | 180681/371472 [3:18:25<16:09:01,  3.28it/s] 49%|████▊     | 180682/371472 [3:18:25<16:29:04,  3.21it/s] 49%|████▊     | 180683/371472 [3:18:25<16:16:06,  3.26it/s] 49%|████▊     | 180684/371472 [3:18:26<15:24:51,  3.44it/s] 49%|████▊     | 180685/371472 [3:18:26<14:56:57,  3.55it/s] 49%|████▊     | 180686/371472 [3:18:26<14:49:46,  3.57it/s] 49%|████▊     | 180687/371472 [3:18:26<15:19:18,  3.46it/s] 49%|████▊     | 180688/371472 [3:18:27<15:44:53,  3.37it/s] 49%|████▊     | 180689/371472 [3:18:27<15:46:15,  3.36it/s] 49%|████▊     | 180690/371472 [3:18:27<15:33:56,  3.40it/s] 49%|████▊     | 180691/371472 [3:18:28<15:13:26,  3.48it/s] 49%|████▊     | 180692/371472 [3:18:28<14:44:02,  3.60it/s] 49%|████▊     | 180693/371472 [3:18:28<14:30:23,  3.65it/s] 49%|████▊     | 180694/371472 [3:18:28<15:03:21,  3.52it/s] 49%|████▊     | 180695/371472 [3:18:29<15:23:30,  3.44it/s] 49%|████▊     | 180696/371472 [3:18:29<15:17:37,  3.47it/s] 49%|████▊     | 180697/371472 [3:18:29<15:06:06,  3.51it/s] 49%|████▊     | 180698/371472 [3:18:30<14:40:37,  3.61it/s] 49%|████▊     | 180699/371472 [3:18:30<14:27:27,  3.67it/s] 49%|████▊     | 180700/371472 [3:18:30<14:47:32,  3.58it/s]                                                            {'loss': 2.9063, 'learning_rate': 5.6245017130298e-07, 'epoch': 7.78}
 49%|████▊     | 180700/371472 [3:18:30<14:47:32,  3.58it/s] 49%|████▊     | 180701/371472 [3:18:30<14:54:17,  3.56it/s] 49%|████▊     | 180702/371472 [3:18:31<15:18:37,  3.46it/s] 49%|████▊     | 180703/371472 [3:18:31<14:54:03,  3.56it/s] 49%|████▊     | 180704/371472 [3:18:31<15:03:42,  3.52it/s] 49%|████▊     | 180705/371472 [3:18:32<16:23:08,  3.23it/s] 49%|████▊     | 180706/371472 [3:18:32<15:47:29,  3.36it/s] 49%|████▊     | 180707/371472 [3:18:32<16:30:41,  3.21it/s] 49%|████▊     | 180708/371472 [3:18:33<15:53:02,  3.34it/s] 49%|████▊     | 180709/371472 [3:18:33<15:06:12,  3.51it/s] 49%|████▊     | 180710/371472 [3:18:33<15:10:35,  3.49it/s] 49%|████▊     | 180711/371472 [3:18:33<15:38:17,  3.39it/s] 49%|████▊     | 180712/371472 [3:18:34<15:43:57,  3.37it/s] 49%|████▊     | 180713/371472 [3:18:34<15:40:17,  3.38it/s] 49%|████▊     | 180714/371472 [3:18:34<15:03:51,  3.52it/s] 49%|████▊     | 180715/371472 [3:18:35<15:34:56,  3.40it/s] 49%|████▊     | 180716/371472 [3:18:35<14:58:34,  3.54it/s] 49%|████▊     | 180717/371472 [3:18:35<14:48:15,  3.58it/s] 49%|████▊     | 180718/371472 [3:18:35<15:35:56,  3.40it/s] 49%|████▊     | 180719/371472 [3:18:36<15:02:08,  3.52it/s] 49%|████▊     | 180720/371472 [3:18:36<14:20:26,  3.69it/s]                                                            {'loss': 2.9413, 'learning_rate': 5.624016893275013e-07, 'epoch': 7.78}
 49%|████▊     | 180720/371472 [3:18:36<14:20:26,  3.69it/s] 49%|████▊     | 180721/371472 [3:18:36<13:59:07,  3.79it/s] 49%|████▊     | 180722/371472 [3:18:36<13:53:46,  3.81it/s] 49%|████▊     | 180723/371472 [3:18:37<15:58:32,  3.32it/s] 49%|████▊     | 180724/371472 [3:18:37<15:38:58,  3.39it/s] 49%|████▊     | 180725/371472 [3:18:37<15:09:04,  3.50it/s] 49%|████▊     | 180726/371472 [3:18:38<16:38:13,  3.18it/s] 49%|████▊     | 180727/371472 [3:18:38<16:59:13,  3.12it/s] 49%|████▊     | 180728/371472 [3:18:38<16:29:49,  3.21it/s] 49%|████▊     | 180729/371472 [3:18:39<16:19:53,  3.24it/s] 49%|████▊     | 180730/371472 [3:18:39<15:21:27,  3.45it/s] 49%|████▊     | 180731/371472 [3:18:39<15:17:18,  3.47it/s] 49%|████▊     | 180732/371472 [3:18:39<15:05:27,  3.51it/s] 49%|████▊     | 180733/371472 [3:18:40<14:31:39,  3.65it/s] 49%|████▊     | 180734/371472 [3:18:40<15:25:17,  3.44it/s] 49%|████▊     | 180735/371472 [3:18:40<14:56:55,  3.54it/s] 49%|████▊     | 180736/371472 [3:18:41<14:41:19,  3.61it/s] 49%|████▊     | 180737/371472 [3:18:41<14:34:21,  3.64it/s] 49%|████▊     | 180738/371472 [3:18:41<15:50:32,  3.34it/s] 49%|████▊     | 180739/371472 [3:18:42<16:30:18,  3.21it/s] 49%|████▊     | 180740/371472 [3:18:42<16:14:28,  3.26it/s]                                                            {'loss': 2.9818, 'learning_rate': 5.623532073520222e-07, 'epoch': 7.78}
 49%|████▊     | 180740/371472 [3:18:42<16:14:28,  3.26it/s] 49%|████▊     | 180741/371472 [3:18:42<16:06:14,  3.29it/s] 49%|████▊     | 180742/371472 [3:18:42<15:36:39,  3.39it/s] 49%|████▊     | 180743/371472 [3:18:43<15:16:07,  3.47it/s] 49%|████▊     | 180744/371472 [3:18:43<15:38:56,  3.39it/s] 49%|████▊     | 180745/371472 [3:18:43<14:48:11,  3.58it/s] 49%|████▊     | 180746/371472 [3:18:43<14:17:39,  3.71it/s] 49%|████▊     | 180747/371472 [3:18:44<14:35:17,  3.63it/s] 49%|████▊     | 180748/371472 [3:18:44<15:49:37,  3.35it/s] 49%|████▊     | 180749/371472 [3:18:44<15:40:31,  3.38it/s] 49%|████▊     | 180750/371472 [3:18:45<15:27:32,  3.43it/s] 49%|████▊     | 180751/371472 [3:18:45<15:01:43,  3.53it/s] 49%|████▊     | 180752/371472 [3:18:45<14:54:18,  3.55it/s] 49%|████▊     | 180753/371472 [3:18:45<14:26:34,  3.67it/s] 49%|████▊     | 180754/371472 [3:18:46<14:43:06,  3.60it/s] 49%|████▊     | 180755/371472 [3:18:46<14:38:04,  3.62it/s] 49%|████▊     | 180756/371472 [3:18:46<15:11:34,  3.49it/s] 49%|████▊     | 180757/371472 [3:18:47<14:31:58,  3.65it/s] 49%|████▊     | 180758/371472 [3:18:47<14:57:27,  3.54it/s] 49%|████▊     | 180759/371472 [3:18:47<15:28:08,  3.42it/s] 49%|████▊     | 180760/371472 [3:18:47<14:53:58,  3.56it/s]                                                            {'loss': 2.9521, 'learning_rate': 5.623047253765433e-07, 'epoch': 7.79}
 49%|████▊     | 180760/371472 [3:18:47<14:53:58,  3.56it/s] 49%|████▊     | 180761/371472 [3:18:48<14:44:59,  3.59it/s] 49%|████▊     | 180762/371472 [3:18:48<14:41:26,  3.61it/s] 49%|████▊     | 180763/371472 [3:18:48<14:38:37,  3.62it/s] 49%|████▊     | 180764/371472 [3:18:49<14:32:26,  3.64it/s] 49%|████▊     | 180765/371472 [3:18:49<14:45:11,  3.59it/s] 49%|████▊     | 180766/371472 [3:18:49<15:09:39,  3.49it/s] 49%|████▊     | 180767/371472 [3:18:49<15:21:10,  3.45it/s] 49%|████▊     | 180768/371472 [3:18:50<15:06:54,  3.50it/s] 49%|████▊     | 180769/371472 [3:18:50<15:34:58,  3.40it/s] 49%|████▊     | 180770/371472 [3:18:50<15:28:08,  3.42it/s] 49%|████▊     | 180771/371472 [3:18:51<14:44:23,  3.59it/s] 49%|████▊     | 180772/371472 [3:18:51<14:50:01,  3.57it/s] 49%|████▊     | 180773/371472 [3:18:51<14:41:32,  3.61it/s] 49%|████▊     | 180774/371472 [3:18:52<16:32:44,  3.20it/s] 49%|████▊     | 180775/371472 [3:18:52<16:04:27,  3.30it/s] 49%|████▊     | 180776/371472 [3:18:52<15:49:46,  3.35it/s] 49%|████▊     | 180777/371472 [3:18:52<15:31:58,  3.41it/s] 49%|████▊     | 180778/371472 [3:18:53<15:24:44,  3.44it/s] 49%|████▊     | 180779/371472 [3:18:53<15:38:55,  3.38it/s] 49%|████▊     | 180780/371472 [3:18:53<15:11:23,  3.49it/s]                                                            {'loss': 3.11, 'learning_rate': 5.622562434010645e-07, 'epoch': 7.79}
 49%|████▊     | 180780/371472 [3:18:53<15:11:23,  3.49it/s] 49%|████▊     | 180781/371472 [3:18:53<14:27:59,  3.66it/s] 49%|████▊     | 180782/371472 [3:18:54<14:35:12,  3.63it/s] 49%|████▊     | 180783/371472 [3:18:54<14:42:30,  3.60it/s] 49%|████▊     | 180784/371472 [3:18:54<15:41:43,  3.37it/s] 49%|████▊     | 180785/371472 [3:18:55<15:41:53,  3.37it/s] 49%|████▊     | 180786/371472 [3:18:55<14:55:07,  3.55it/s] 49%|████▊     | 180787/371472 [3:18:55<14:43:48,  3.60it/s] 49%|████▊     | 180788/371472 [3:18:55<14:31:24,  3.65it/s] 49%|████▊     | 180789/371472 [3:18:56<14:56:45,  3.54it/s] 49%|████▊     | 180790/371472 [3:18:56<15:24:27,  3.44it/s] 49%|████▊     | 180791/371472 [3:18:56<15:51:38,  3.34it/s] 49%|████▊     | 180792/371472 [3:18:57<15:05:39,  3.51it/s] 49%|████▊     | 180793/371472 [3:18:57<15:28:31,  3.42it/s] 49%|████▊     | 180794/371472 [3:18:57<16:07:54,  3.28it/s] 49%|████▊     | 180795/371472 [3:18:58<16:14:29,  3.26it/s] 49%|████▊     | 180796/371472 [3:18:58<15:52:46,  3.34it/s] 49%|████▊     | 180797/371472 [3:18:58<15:09:10,  3.50it/s] 49%|████▊     | 180798/371472 [3:18:58<14:35:01,  3.63it/s] 49%|████▊     | 180799/371472 [3:18:59<14:19:10,  3.70it/s] 49%|████▊     | 180800/371472 [3:18:59<15:09:56,  3.49it/s]                                                            {'loss': 3.0029, 'learning_rate': 5.622077614255855e-07, 'epoch': 7.79}
 49%|████▊     | 180800/371472 [3:18:59<15:09:56,  3.49it/s] 49%|████▊     | 180801/371472 [3:18:59<14:44:18,  3.59it/s] 49%|████▊     | 180802/371472 [3:19:00<15:06:39,  3.51it/s] 49%|████▊     | 180803/371472 [3:19:00<15:59:27,  3.31it/s] 49%|████▊     | 180804/371472 [3:19:00<15:10:56,  3.49it/s] 49%|████▊     | 180805/371472 [3:19:00<14:46:56,  3.58it/s] 49%|████▊     | 180806/371472 [3:19:01<14:22:37,  3.68it/s] 49%|████▊     | 180807/371472 [3:19:01<14:13:52,  3.72it/s] 49%|████▊     | 180808/371472 [3:19:01<14:11:10,  3.73it/s] 49%|████▊     | 180809/371472 [3:19:01<14:17:58,  3.70it/s] 49%|████▊     | 180810/371472 [3:19:02<14:01:22,  3.78it/s] 49%|████▊     | 180811/371472 [3:19:02<14:28:15,  3.66it/s] 49%|████▊     | 180812/371472 [3:19:02<14:18:17,  3.70it/s] 49%|████▊     | 180813/371472 [3:19:03<14:23:19,  3.68it/s] 49%|████▊     | 180814/371472 [3:19:03<14:59:24,  3.53it/s] 49%|████▊     | 180815/371472 [3:19:03<15:23:06,  3.44it/s] 49%|████▊     | 180816/371472 [3:19:03<15:52:13,  3.34it/s] 49%|████▊     | 180817/371472 [3:19:04<15:17:43,  3.46it/s] 49%|████▊     | 180818/371472 [3:19:04<18:17:40,  2.89it/s] 49%|████▊     | 180819/371472 [3:19:04<17:09:06,  3.09it/s] 49%|████▊     | 180820/371472 [3:19:05<16:18:49,  3.25it/s]                                                            {'loss': 3.0695, 'learning_rate': 5.621592794501066e-07, 'epoch': 7.79}
 49%|████▊     | 180820/371472 [3:19:05<16:18:49,  3.25it/s] 49%|████▊     | 180821/371472 [3:19:05<16:30:31,  3.21it/s] 49%|████▊     | 180822/371472 [3:19:05<16:39:48,  3.18it/s] 49%|████▊     | 180823/371472 [3:19:06<15:55:00,  3.33it/s] 49%|████▊     | 180824/371472 [3:19:06<15:29:28,  3.42it/s] 49%|████▊     | 180825/371472 [3:19:06<15:27:04,  3.43it/s] 49%|████▊     | 180826/371472 [3:19:06<15:16:08,  3.47it/s] 49%|████▊     | 180827/371472 [3:19:07<14:54:42,  3.55it/s] 49%|████▊     | 180828/371472 [3:19:07<14:22:50,  3.68it/s] 49%|████▊     | 180829/371472 [3:19:07<15:28:00,  3.42it/s] 49%|████▊     | 180830/371472 [3:19:08<15:53:35,  3.33it/s] 49%|████▊     | 180831/371472 [3:19:08<15:02:34,  3.52it/s] 49%|████▊     | 180832/371472 [3:19:08<15:08:24,  3.50it/s] 49%|████▊     | 180833/371472 [3:19:08<14:44:17,  3.59it/s] 49%|████▊     | 180834/371472 [3:19:09<14:14:34,  3.72it/s] 49%|████▊     | 180835/371472 [3:19:09<14:13:30,  3.72it/s] 49%|████▊     | 180836/371472 [3:19:09<14:17:03,  3.71it/s] 49%|████▊     | 180837/371472 [3:19:10<14:30:29,  3.65it/s] 49%|████▊     | 180838/371472 [3:19:10<14:02:03,  3.77it/s] 49%|████▊     | 180839/371472 [3:19:10<14:04:48,  3.76it/s] 49%|████▊     | 180840/371472 [3:19:10<15:19:55,  3.45it/s]                                                            {'loss': 3.1362, 'learning_rate': 5.621107974746277e-07, 'epoch': 7.79}
 49%|████▊     | 180840/371472 [3:19:10<15:19:55,  3.45it/s] 49%|████▊     | 180841/371472 [3:19:11<15:11:03,  3.49it/s] 49%|████▊     | 180842/371472 [3:19:11<15:07:18,  3.50it/s] 49%|████▊     | 180843/371472 [3:19:11<16:28:42,  3.21it/s] 49%|████▊     | 180844/371472 [3:19:12<16:22:38,  3.23it/s] 49%|████▊     | 180845/371472 [3:19:12<15:39:31,  3.38it/s] 49%|████▊     | 180846/371472 [3:19:12<15:16:50,  3.47it/s] 49%|████▊     | 180847/371472 [3:19:12<14:58:38,  3.54it/s] 49%|████▊     | 180848/371472 [3:19:13<14:58:29,  3.54it/s] 49%|████▊     | 180849/371472 [3:19:13<15:22:28,  3.44it/s] 49%|████▊     | 180850/371472 [3:19:13<15:05:09,  3.51it/s] 49%|████▊     | 180851/371472 [3:19:14<14:39:22,  3.61it/s] 49%|████▊     | 180852/371472 [3:19:14<14:36:42,  3.62it/s] 49%|████▊     | 180853/371472 [3:19:14<14:04:14,  3.76it/s] 49%|████▊     | 180854/371472 [3:19:14<14:05:37,  3.76it/s] 49%|████▊     | 180855/371472 [3:19:15<15:14:59,  3.47it/s] 49%|████▊     | 180856/371472 [3:19:15<14:34:07,  3.63it/s] 49%|████▊     | 180857/371472 [3:19:15<15:36:38,  3.39it/s] 49%|████▊     | 180858/371472 [3:19:16<15:19:19,  3.46it/s] 49%|████▊     | 180859/371472 [3:19:16<15:06:03,  3.51it/s] 49%|████▊     | 180860/371472 [3:19:16<14:22:54,  3.68it/s]                                                            {'loss': 3.0976, 'learning_rate': 5.620623154991489e-07, 'epoch': 7.79}
 49%|████▊     | 180860/371472 [3:19:16<14:22:54,  3.68it/s] 49%|████▊     | 180861/371472 [3:19:16<14:10:15,  3.74it/s] 49%|████▊     | 180862/371472 [3:19:17<13:53:34,  3.81it/s] 49%|████▊     | 180863/371472 [3:19:17<14:17:16,  3.71it/s] 49%|████▊     | 180864/371472 [3:19:17<14:22:19,  3.68it/s] 49%|████▊     | 180865/371472 [3:19:17<15:15:06,  3.47it/s] 49%|████▊     | 180866/371472 [3:19:18<15:29:12,  3.42it/s] 49%|████▊     | 180867/371472 [3:19:18<15:02:04,  3.52it/s] 49%|████▊     | 180868/371472 [3:19:18<14:31:30,  3.65it/s] 49%|████▊     | 180869/371472 [3:19:19<15:11:56,  3.48it/s] 49%|████▊     | 180870/371472 [3:19:19<16:51:14,  3.14it/s] 49%|████▊     | 180871/371472 [3:19:19<16:15:26,  3.26it/s] 49%|████▊     | 180872/371472 [3:19:20<15:29:57,  3.42it/s] 49%|████▊     | 180873/371472 [3:19:20<16:53:51,  3.13it/s] 49%|████▊     | 180874/371472 [3:19:20<15:58:16,  3.31it/s] 49%|████▊     | 180875/371472 [3:19:20<15:49:53,  3.34it/s] 49%|████▊     | 180876/371472 [3:19:21<15:25:19,  3.43it/s] 49%|████▊     | 180877/371472 [3:19:21<15:28:22,  3.42it/s] 49%|████▊     | 180878/371472 [3:19:21<15:01:51,  3.52it/s] 49%|████▊     | 180879/371472 [3:19:22<14:38:06,  3.62it/s] 49%|████▊     | 180880/371472 [3:19:22<14:37:38,  3.62it/s]                                                            {'loss': 3.2533, 'learning_rate': 5.6201383352367e-07, 'epoch': 7.79}
 49%|████▊     | 180880/371472 [3:19:22<14:37:38,  3.62it/s] 49%|████▊     | 180881/371472 [3:19:22<15:14:50,  3.47it/s] 49%|████▊     | 180882/371472 [3:19:22<15:24:37,  3.44it/s] 49%|████▊     | 180883/371472 [3:19:23<15:45:36,  3.36it/s] 49%|████▊     | 180884/371472 [3:19:23<15:49:15,  3.35it/s] 49%|████▊     | 180885/371472 [3:19:23<15:43:56,  3.37it/s] 49%|████▊     | 180886/371472 [3:19:24<16:07:29,  3.28it/s] 49%|████▊     | 180887/371472 [3:19:24<16:07:35,  3.28it/s] 49%|████▊     | 180888/371472 [3:19:24<16:07:34,  3.28it/s] 49%|████▊     | 180889/371472 [3:19:25<15:31:26,  3.41it/s] 49%|████▊     | 180890/371472 [3:19:25<16:13:14,  3.26it/s] 49%|████▊     | 180891/371472 [3:19:25<15:38:04,  3.39it/s] 49%|████▊     | 180892/371472 [3:19:25<15:58:16,  3.31it/s] 49%|████▊     | 180893/371472 [3:19:26<15:10:31,  3.49it/s] 49%|████▊     | 180894/371472 [3:19:26<14:24:20,  3.67it/s] 49%|████▊     | 180895/371472 [3:19:26<14:05:11,  3.76it/s] 49%|████▊     | 180896/371472 [3:19:27<14:48:45,  3.57it/s] 49%|████▊     | 180897/371472 [3:19:27<15:23:04,  3.44it/s] 49%|████▊     | 180898/371472 [3:19:27<14:36:45,  3.62it/s] 49%|████▊     | 180899/371472 [3:19:27<14:28:35,  3.66it/s] 49%|████▊     | 180900/371472 [3:19:28<14:41:59,  3.60it/s]                                                            {'loss': 2.8974, 'learning_rate': 5.619653515481911e-07, 'epoch': 7.79}
 49%|████▊     | 180900/371472 [3:19:28<14:41:59,  3.60it/s] 49%|████▊     | 180901/371472 [3:19:28<14:46:32,  3.58it/s] 49%|████▊     | 180902/371472 [3:19:28<14:31:07,  3.65it/s] 49%|████▊     | 180903/371472 [3:19:28<14:54:08,  3.55it/s] 49%|████▊     | 180904/371472 [3:19:29<14:13:50,  3.72it/s] 49%|████▊     | 180905/371472 [3:19:29<14:11:08,  3.73it/s] 49%|████▊     | 180906/371472 [3:19:29<14:28:44,  3.66it/s] 49%|████▊     | 180907/371472 [3:19:30<15:25:14,  3.43it/s] 49%|████▊     | 180908/371472 [3:19:30<15:18:15,  3.46it/s] 49%|████▊     | 180909/371472 [3:19:30<15:13:38,  3.48it/s] 49%|████▊     | 180910/371472 [3:19:30<15:08:08,  3.50it/s] 49%|████▊     | 180911/371472 [3:19:31<15:07:26,  3.50it/s] 49%|████▊     | 180912/371472 [3:19:31<15:37:31,  3.39it/s] 49%|████▊     | 180913/371472 [3:19:31<15:21:30,  3.45it/s] 49%|████▊     | 180914/371472 [3:19:32<14:46:23,  3.58it/s] 49%|████▊     | 180915/371472 [3:19:32<16:07:42,  3.28it/s] 49%|████▊     | 180916/371472 [3:19:32<16:57:45,  3.12it/s] 49%|████▊     | 180917/371472 [3:19:33<16:17:43,  3.25it/s] 49%|████▊     | 180918/371472 [3:19:33<16:44:23,  3.16it/s] 49%|████▊     | 180919/371472 [3:19:33<15:50:54,  3.34it/s] 49%|████▊     | 180920/371472 [3:19:33<15:37:46,  3.39it/s]                                                            {'loss': 2.9783, 'learning_rate': 5.619168695727122e-07, 'epoch': 7.79}
 49%|████▊     | 180920/371472 [3:19:33<15:37:46,  3.39it/s] 49%|████▊     | 180921/371472 [3:19:34<15:05:45,  3.51it/s] 49%|████▊     | 180922/371472 [3:19:34<14:54:33,  3.55it/s] 49%|████▊     | 180923/371472 [3:19:34<14:23:29,  3.68it/s] 49%|████▊     | 180924/371472 [3:19:35<14:12:29,  3.73it/s] 49%|████▊     | 180925/371472 [3:19:35<14:27:02,  3.66it/s] 49%|████▊     | 180926/371472 [3:19:35<14:43:43,  3.59it/s] 49%|████▊     | 180927/371472 [3:19:35<14:37:58,  3.62it/s] 49%|████▊     | 180928/371472 [3:19:36<14:45:33,  3.59it/s] 49%|████▊     | 180929/371472 [3:19:36<15:26:25,  3.43it/s] 49%|████▊     | 180930/371472 [3:19:36<15:48:44,  3.35it/s] 49%|████▊     | 180931/371472 [3:19:37<16:35:47,  3.19it/s] 49%|████▊     | 180932/371472 [3:19:37<16:33:44,  3.20it/s] 49%|████▊     | 180933/371472 [3:19:37<15:48:38,  3.35it/s] 49%|████▊     | 180934/371472 [3:19:38<16:54:32,  3.13it/s] 49%|████▊     | 180935/371472 [3:19:38<17:10:50,  3.08it/s] 49%|████▊     | 180936/371472 [3:19:38<18:26:47,  2.87it/s] 49%|████▊     | 180937/371472 [3:19:39<19:12:31,  2.76it/s] 49%|████▊     | 180938/371472 [3:19:39<18:44:22,  2.82it/s] 49%|████▊     | 180939/371472 [3:19:39<17:32:05,  3.02it/s] 49%|████▊     | 180940/371472 [3:19:40<16:46:21,  3.16it/s]                                                            {'loss': 2.9674, 'learning_rate': 5.618683875972333e-07, 'epoch': 7.79}
 49%|████▊     | 180940/371472 [3:19:40<16:46:21,  3.16it/s] 49%|████▊     | 180941/371472 [3:19:40<15:59:43,  3.31it/s] 49%|████▊     | 180942/371472 [3:19:40<15:08:49,  3.49it/s] 49%|████▊     | 180943/371472 [3:19:40<14:52:26,  3.56it/s] 49%|████▊     | 180944/371472 [3:19:41<15:06:14,  3.50it/s] 49%|████▊     | 180945/371472 [3:19:41<14:55:18,  3.55it/s] 49%|████▊     | 180946/371472 [3:19:41<15:38:17,  3.38it/s] 49%|████▊     | 180947/371472 [3:19:42<15:21:34,  3.45it/s] 49%|████▊     | 180948/371472 [3:19:42<14:49:56,  3.57it/s] 49%|████▊     | 180949/371472 [3:19:42<14:55:39,  3.55it/s] 49%|████▊     | 180950/371472 [3:19:42<15:03:33,  3.51it/s] 49%|████▊     | 180951/371472 [3:19:43<15:11:49,  3.48it/s] 49%|████▊     | 180952/371472 [3:19:43<14:54:03,  3.55it/s] 49%|████▊     | 180953/371472 [3:19:43<15:27:01,  3.43it/s] 49%|████▊     | 180954/371472 [3:19:44<14:47:29,  3.58it/s] 49%|████▊     | 180955/371472 [3:19:44<14:37:10,  3.62it/s] 49%|████▊     | 180956/371472 [3:19:44<15:06:25,  3.50it/s] 49%|████▊     | 180957/371472 [3:19:44<15:11:30,  3.48it/s] 49%|████▊     | 180958/371472 [3:19:45<14:40:08,  3.61it/s] 49%|████▊     | 180959/371472 [3:19:45<15:26:36,  3.43it/s] 49%|████▊     | 180960/371472 [3:19:45<15:02:59,  3.52it/s]                                                            {'loss': 3.0571, 'learning_rate': 5.618199056217543e-07, 'epoch': 7.79}
 49%|████▊     | 180960/371472 [3:19:45<15:02:59,  3.52it/s] 49%|████▊     | 180961/371472 [3:19:46<15:06:05,  3.50it/s] 49%|████▊     | 180962/371472 [3:19:46<14:57:44,  3.54it/s] 49%|████▊     | 180963/371472 [3:19:46<14:51:11,  3.56it/s] 49%|████▊     | 180964/371472 [3:19:46<15:36:00,  3.39it/s] 49%|████▊     | 180965/371472 [3:19:47<15:33:58,  3.40it/s] 49%|████▊     | 180966/371472 [3:19:47<16:24:20,  3.23it/s] 49%|████▊     | 180967/371472 [3:19:47<15:45:00,  3.36it/s] 49%|████▊     | 180968/371472 [3:19:48<15:18:48,  3.46it/s] 49%|████▊     | 180969/371472 [3:19:48<15:24:35,  3.43it/s] 49%|████▊     | 180970/371472 [3:19:48<15:14:45,  3.47it/s] 49%|████▊     | 180971/371472 [3:19:48<15:55:09,  3.32it/s] 49%|████▊     | 180972/371472 [3:19:49<15:40:58,  3.37it/s] 49%|████▊     | 180973/371472 [3:19:49<14:46:57,  3.58it/s] 49%|████▊     | 180974/371472 [3:19:49<14:38:31,  3.61it/s] 49%|████▊     | 180975/371472 [3:19:50<14:51:06,  3.56it/s] 49%|████▊     | 180976/371472 [3:19:50<14:36:28,  3.62it/s] 49%|████▊     | 180977/371472 [3:19:50<14:13:19,  3.72it/s] 49%|████▊     | 180978/371472 [3:19:50<14:40:29,  3.61it/s] 49%|████▊     | 180979/371472 [3:19:51<16:16:04,  3.25it/s] 49%|████▊     | 180980/371472 [3:19:51<15:48:46,  3.35it/s]                                                            {'loss': 2.9052, 'learning_rate': 5.617714236462754e-07, 'epoch': 7.8}
 49%|████▊     | 180980/371472 [3:19:51<15:48:46,  3.35it/s] 49%|████▊     | 180981/371472 [3:19:51<15:07:48,  3.50it/s] 49%|████▊     | 180982/371472 [3:19:52<15:10:22,  3.49it/s] 49%|████▊     | 180983/371472 [3:19:52<15:48:17,  3.35it/s] 49%|████▊     | 180984/371472 [3:19:52<15:03:46,  3.51it/s] 49%|████▊     | 180985/371472 [3:19:52<14:34:05,  3.63it/s] 49%|████▊     | 180986/371472 [3:19:53<14:12:34,  3.72it/s] 49%|████▊     | 180987/371472 [3:19:53<14:46:40,  3.58it/s] 49%|████▊     | 180988/371472 [3:19:53<15:46:58,  3.35it/s] 49%|████▊     | 180989/371472 [3:19:54<15:17:56,  3.46it/s] 49%|████▊     | 180990/371472 [3:19:54<14:46:06,  3.58it/s] 49%|████▊     | 180991/371472 [3:19:54<14:38:28,  3.61it/s] 49%|████▊     | 180992/371472 [3:19:54<14:40:12,  3.61it/s] 49%|████▊     | 180993/371472 [3:19:55<14:24:19,  3.67it/s] 49%|████▊     | 180994/371472 [3:19:55<15:47:26,  3.35it/s] 49%|████▊     | 180995/371472 [3:19:55<16:30:45,  3.20it/s] 49%|████▊     | 180996/371472 [3:19:56<16:32:24,  3.20it/s] 49%|████▊     | 180997/371472 [3:19:56<16:31:30,  3.20it/s] 49%|████▊     | 180998/371472 [3:19:56<15:39:14,  3.38it/s] 49%|████▊     | 180999/371472 [3:19:57<15:10:49,  3.49it/s] 49%|████▊     | 181000/371472 [3:19:57<15:41:41,  3.37it/s]                                                            {'loss': 3.0575, 'learning_rate': 5.617229416707966e-07, 'epoch': 7.8}
 49%|████▊     | 181000/371472 [3:19:57<15:41:41,  3.37it/s] 49%|████▊     | 181001/371472 [3:19:57<15:36:44,  3.39it/s] 49%|████▊     | 181002/371472 [3:19:57<15:14:04,  3.47it/s] 49%|████▊     | 181003/371472 [3:19:58<15:08:35,  3.49it/s] 49%|████▊     | 181004/371472 [3:19:58<15:38:12,  3.38it/s] 49%|████▊     | 181005/371472 [3:19:58<15:31:24,  3.41it/s] 49%|████▊     | 181006/371472 [3:19:59<16:08:13,  3.28it/s] 49%|████▊     | 181007/371472 [3:19:59<17:17:36,  3.06it/s] 49%|████▊     | 181008/371472 [3:19:59<16:37:20,  3.18it/s] 49%|████▊     | 181009/371472 [3:20:00<16:10:58,  3.27it/s] 49%|████▊     | 181010/371472 [3:20:00<17:19:33,  3.05it/s] 49%|████▊     | 181011/371472 [3:20:00<16:54:13,  3.13it/s] 49%|████▊     | 181012/371472 [3:20:01<16:11:29,  3.27it/s] 49%|████▊     | 181013/371472 [3:20:01<15:42:41,  3.37it/s] 49%|████▊     | 181014/371472 [3:20:01<17:31:57,  3.02it/s] 49%|████▊     | 181015/371472 [3:20:01<16:32:14,  3.20it/s] 49%|████▊     | 181016/371472 [3:20:02<15:53:24,  3.33it/s] 49%|████▊     | 181017/371472 [3:20:02<15:26:38,  3.43it/s] 49%|████▊     | 181018/371472 [3:20:02<14:56:55,  3.54it/s] 49%|████▊     | 181019/371472 [3:20:03<16:14:47,  3.26it/s] 49%|████▊     | 181020/371472 [3:20:03<16:05:09,  3.29it/s]                                                            {'loss': 2.9459, 'learning_rate': 5.616744596953178e-07, 'epoch': 7.8}
 49%|████▊     | 181020/371472 [3:20:03<16:05:09,  3.29it/s] 49%|████▊     | 181021/371472 [3:20:03<15:51:47,  3.33it/s] 49%|████▊     | 181022/371472 [3:20:03<15:09:18,  3.49it/s] 49%|████▊     | 181023/371472 [3:20:04<15:40:23,  3.38it/s] 49%|████▊     | 181024/371472 [3:20:04<15:28:17,  3.42it/s] 49%|████▊     | 181025/371472 [3:20:04<15:23:22,  3.44it/s] 49%|████▊     | 181026/371472 [3:20:05<14:45:42,  3.58it/s] 49%|████▊     | 181027/371472 [3:20:05<14:46:37,  3.58it/s] 49%|████▊     | 181028/371472 [3:20:05<15:20:00,  3.45it/s] 49%|████▊     | 181029/371472 [3:20:05<14:55:00,  3.55it/s] 49%|████▊     | 181030/371472 [3:20:06<15:15:29,  3.47it/s] 49%|████▊     | 181031/371472 [3:20:06<15:39:47,  3.38it/s] 49%|████▊     | 181032/371472 [3:20:06<15:00:35,  3.52it/s] 49%|████▊     | 181033/371472 [3:20:07<14:21:28,  3.68it/s] 49%|████▊     | 181034/371472 [3:20:07<15:01:14,  3.52it/s] 49%|████▊     | 181035/371472 [3:20:07<17:24:27,  3.04it/s] 49%|████▊     | 181036/371472 [3:20:08<16:42:18,  3.17it/s] 49%|████▊     | 181037/371472 [3:20:08<15:55:55,  3.32it/s] 49%|████▊     | 181038/371472 [3:20:08<15:21:01,  3.45it/s] 49%|████▊     | 181039/371472 [3:20:08<15:11:30,  3.48it/s] 49%|████▊     | 181040/371472 [3:20:09<16:17:02,  3.25it/s]                                                            {'loss': 3.0379, 'learning_rate': 5.616259777198388e-07, 'epoch': 7.8}
 49%|████▊     | 181040/371472 [3:20:09<16:17:02,  3.25it/s] 49%|████▊     | 181041/371472 [3:20:09<15:54:15,  3.33it/s] 49%|████▊     | 181042/371472 [3:20:09<15:13:01,  3.48it/s] 49%|████▊     | 181043/371472 [3:20:10<14:42:08,  3.60it/s] 49%|████▊     | 181044/371472 [3:20:10<15:07:17,  3.50it/s] 49%|████▊     | 181045/371472 [3:20:10<16:03:36,  3.29it/s] 49%|████▊     | 181046/371472 [3:20:11<16:07:21,  3.28it/s] 49%|████▊     | 181047/371472 [3:20:11<15:48:08,  3.35it/s] 49%|████▊     | 181048/371472 [3:20:11<15:10:41,  3.48it/s] 49%|████▊     | 181049/371472 [3:20:11<14:33:10,  3.63it/s] 49%|████▊     | 181050/371472 [3:20:12<14:07:32,  3.74it/s] 49%|████▊     | 181051/371472 [3:20:12<14:08:24,  3.74it/s] 49%|████▊     | 181052/371472 [3:20:12<15:02:12,  3.52it/s] 49%|████▊     | 181053/371472 [3:20:12<14:25:13,  3.67it/s] 49%|████▊     | 181054/371472 [3:20:13<14:27:11,  3.66it/s] 49%|████▊     | 181055/371472 [3:20:13<14:20:21,  3.69it/s] 49%|████▊     | 181056/371472 [3:20:13<14:42:42,  3.60it/s] 49%|████▊     | 181057/371472 [3:20:14<14:41:18,  3.60it/s] 49%|████▊     | 181058/371472 [3:20:14<14:20:20,  3.69it/s] 49%|████▊     | 181059/371472 [3:20:14<14:49:28,  3.57it/s] 49%|████▊     | 181060/371472 [3:20:14<14:35:47,  3.62it/s]                                                            {'loss': 3.138, 'learning_rate': 5.615774957443599e-07, 'epoch': 7.8}
 49%|████▊     | 181060/371472 [3:20:14<14:35:47,  3.62it/s] 49%|████▊     | 181061/371472 [3:20:15<14:08:26,  3.74it/s] 49%|████▊     | 181062/371472 [3:20:15<13:56:56,  3.79it/s] 49%|████▊     | 181063/371472 [3:20:15<13:59:59,  3.78it/s] 49%|████▊     | 181064/371472 [3:20:15<14:33:18,  3.63it/s] 49%|████▊     | 181065/371472 [3:20:16<14:30:22,  3.65it/s] 49%|████▊     | 181066/371472 [3:20:16<14:52:25,  3.56it/s] 49%|████▊     | 181067/371472 [3:20:16<14:45:47,  3.58it/s] 49%|████▊     | 181068/371472 [3:20:17<14:47:48,  3.57it/s] 49%|████▊     | 181069/371472 [3:20:17<15:11:01,  3.48it/s] 49%|████▊     | 181070/371472 [3:20:17<15:12:12,  3.48it/s] 49%|████▊     | 181071/371472 [3:20:17<15:51:43,  3.33it/s] 49%|████▊     | 181072/371472 [3:20:18<15:18:44,  3.45it/s] 49%|████▊     | 181073/371472 [3:20:18<14:33:31,  3.63it/s] 49%|████▊     | 181074/371472 [3:20:18<15:01:49,  3.52it/s] 49%|████▊     | 181075/371472 [3:20:19<14:15:36,  3.71it/s] 49%|████▊     | 181076/371472 [3:20:19<13:56:03,  3.80it/s] 49%|████▊     | 181077/371472 [3:20:19<14:42:33,  3.60it/s] 49%|████▊     | 181078/371472 [3:20:19<15:04:53,  3.51it/s] 49%|████▊     | 181079/371472 [3:20:20<14:52:49,  3.55it/s] 49%|████▊     | 181080/371472 [3:20:20<15:23:58,  3.43it/s]                                                            {'loss': 2.9933, 'learning_rate': 5.61529013768881e-07, 'epoch': 7.8}
 49%|████▊     | 181080/371472 [3:20:20<15:23:58,  3.43it/s] 49%|████▊     | 181081/371472 [3:20:20<14:46:43,  3.58it/s] 49%|████▊     | 181082/371472 [3:20:21<15:49:12,  3.34it/s] 49%|████▊     | 181083/371472 [3:20:21<15:35:09,  3.39it/s] 49%|████▊     | 181084/371472 [3:20:21<15:07:55,  3.49it/s] 49%|████▊     | 181085/371472 [3:20:21<14:47:30,  3.58it/s] 49%|████▊     | 181086/371472 [3:20:22<14:11:43,  3.73it/s] 49%|████▊     | 181087/371472 [3:20:22<14:50:55,  3.56it/s] 49%|████▊     | 181088/371472 [3:20:22<14:35:52,  3.62it/s] 49%|████▊     | 181089/371472 [3:20:22<14:40:10,  3.61it/s] 49%|████▊     | 181090/371472 [3:20:23<15:13:39,  3.47it/s] 49%|████▊     | 181091/371472 [3:20:23<16:42:27,  3.17it/s] 49%|████▊     | 181092/371472 [3:20:23<16:23:32,  3.23it/s] 49%|████▉     | 181093/371472 [3:20:24<15:33:15,  3.40it/s] 49%|████▉     | 181094/371472 [3:20:24<15:05:10,  3.51it/s] 49%|████▉     | 181095/371472 [3:20:24<14:50:22,  3.56it/s] 49%|████▉     | 181096/371472 [3:20:25<14:40:18,  3.60it/s] 49%|████▉     | 181097/371472 [3:20:25<14:42:21,  3.60it/s] 49%|████▉     | 181098/371472 [3:20:25<14:40:00,  3.61it/s] 49%|████▉     | 181099/371472 [3:20:25<14:20:29,  3.69it/s] 49%|████▉     | 181100/371472 [3:20:26<14:38:34,  3.61it/s]                                                            {'loss': 3.1191, 'learning_rate': 5.614805317934021e-07, 'epoch': 7.8}
 49%|████▉     | 181100/371472 [3:20:26<14:38:34,  3.61it/s] 49%|████▉     | 181101/371472 [3:20:26<14:55:41,  3.54it/s] 49%|████▉     | 181102/371472 [3:20:26<15:23:44,  3.43it/s] 49%|████▉     | 181103/371472 [3:20:27<15:16:44,  3.46it/s] 49%|████▉     | 181104/371472 [3:20:27<15:35:10,  3.39it/s] 49%|████▉     | 181105/371472 [3:20:27<15:17:29,  3.46it/s] 49%|████▉     | 181106/371472 [3:20:27<15:06:21,  3.50it/s] 49%|████▉     | 181107/371472 [3:20:28<14:50:42,  3.56it/s] 49%|████▉     | 181108/371472 [3:20:28<14:37:09,  3.62it/s] 49%|████▉     | 181109/371472 [3:20:28<14:13:36,  3.72it/s] 49%|████▉     | 181110/371472 [3:20:28<14:30:33,  3.64it/s] 49%|████▉     | 181111/371472 [3:20:29<15:01:48,  3.52it/s] 49%|████▉     | 181112/371472 [3:20:29<15:04:32,  3.51it/s] 49%|████▉     | 181113/371472 [3:20:29<14:49:32,  3.57it/s] 49%|████▉     | 181114/371472 [3:20:30<14:45:20,  3.58it/s] 49%|████▉     | 181115/371472 [3:20:30<14:33:18,  3.63it/s] 49%|████▉     | 181116/371472 [3:20:30<15:07:55,  3.49it/s] 49%|████▉     | 181117/371472 [3:20:30<15:28:42,  3.42it/s] 49%|████▉     | 181118/371472 [3:20:31<15:32:35,  3.40it/s] 49%|████▉     | 181119/371472 [3:20:31<14:54:19,  3.55it/s] 49%|████▉     | 181120/371472 [3:20:31<14:45:47,  3.58it/s]                                                            {'loss': 3.0851, 'learning_rate': 5.614320498179232e-07, 'epoch': 7.8}
 49%|████▉     | 181120/371472 [3:20:31<14:45:47,  3.58it/s] 49%|████▉     | 181121/371472 [3:20:32<14:35:02,  3.63it/s] 49%|████▉     | 181122/371472 [3:20:32<14:34:25,  3.63it/s] 49%|████▉     | 181123/371472 [3:20:32<14:37:19,  3.62it/s] 49%|████▉     | 181124/371472 [3:20:32<14:35:13,  3.62it/s] 49%|████▉     | 181125/371472 [3:20:33<15:45:40,  3.35it/s] 49%|████▉     | 181126/371472 [3:20:33<14:59:55,  3.53it/s] 49%|████▉     | 181127/371472 [3:20:33<14:58:16,  3.53it/s] 49%|████▉     | 181128/371472 [3:20:34<15:09:15,  3.49it/s] 49%|████▉     | 181129/371472 [3:20:34<14:50:17,  3.56it/s] 49%|████▉     | 181130/371472 [3:20:34<14:51:13,  3.56it/s] 49%|████▉     | 181131/371472 [3:20:34<15:01:55,  3.52it/s] 49%|████▉     | 181132/371472 [3:20:35<14:45:37,  3.58it/s] 49%|████▉     | 181133/371472 [3:20:35<14:57:35,  3.53it/s] 49%|████▉     | 181134/371472 [3:20:35<14:43:01,  3.59it/s] 49%|████▉     | 181135/371472 [3:20:36<15:11:29,  3.48it/s] 49%|████▉     | 181136/371472 [3:20:36<14:52:03,  3.56it/s] 49%|████▉     | 181137/371472 [3:20:36<15:01:00,  3.52it/s] 49%|████▉     | 181138/371472 [3:20:36<15:25:39,  3.43it/s] 49%|████▉     | 181139/371472 [3:20:37<17:49:34,  2.97it/s] 49%|████▉     | 181140/371472 [3:20:37<16:25:48,  3.22it/s]                                                            {'loss': 3.058, 'learning_rate': 5.613835678424443e-07, 'epoch': 7.8}
 49%|████▉     | 181140/371472 [3:20:37<16:25:48,  3.22it/s] 49%|████▉     | 181141/371472 [3:20:37<16:00:12,  3.30it/s] 49%|████▉     | 181142/371472 [3:20:38<15:27:38,  3.42it/s] 49%|████▉     | 181143/371472 [3:20:38<15:00:47,  3.52it/s] 49%|████▉     | 181144/371472 [3:20:38<14:43:51,  3.59it/s] 49%|████▉     | 181145/371472 [3:20:39<15:09:58,  3.49it/s] 49%|████▉     | 181146/371472 [3:20:39<15:13:18,  3.47it/s] 49%|████▉     | 181147/371472 [3:20:39<14:27:45,  3.66it/s] 49%|████▉     | 181148/371472 [3:20:39<14:33:14,  3.63it/s] 49%|████▉     | 181149/371472 [3:20:40<14:33:56,  3.63it/s] 49%|████▉     | 181150/371472 [3:20:40<14:14:06,  3.71it/s] 49%|████▉     | 181151/371472 [3:20:40<15:43:43,  3.36it/s] 49%|████▉     | 181152/371472 [3:20:41<15:42:36,  3.37it/s] 49%|████▉     | 181153/371472 [3:20:41<15:16:54,  3.46it/s] 49%|████▉     | 181154/371472 [3:20:41<15:02:31,  3.51it/s] 49%|████▉     | 181155/371472 [3:20:41<15:00:44,  3.52it/s] 49%|████▉     | 181156/371472 [3:20:42<14:55:24,  3.54it/s] 49%|████▉     | 181157/371472 [3:20:42<14:57:39,  3.53it/s] 49%|████▉     | 181158/371472 [3:20:42<14:55:27,  3.54it/s] 49%|████▉     | 181159/371472 [3:20:42<14:34:27,  3.63it/s] 49%|████▉     | 181160/371472 [3:20:43<14:43:36,  3.59it/s]                                                            {'loss': 2.9763, 'learning_rate': 5.613350858669655e-07, 'epoch': 7.8}
 49%|████▉     | 181160/371472 [3:20:43<14:43:36,  3.59it/s] 49%|████▉     | 181161/371472 [3:20:43<14:44:06,  3.59it/s] 49%|████▉     | 181162/371472 [3:20:43<14:55:21,  3.54it/s] 49%|████▉     | 181163/371472 [3:20:44<14:32:41,  3.63it/s] 49%|████▉     | 181164/371472 [3:20:44<15:15:19,  3.47it/s] 49%|████▉     | 181165/371472 [3:20:44<15:15:35,  3.46it/s] 49%|████▉     | 181166/371472 [3:20:44<15:06:02,  3.50it/s] 49%|████▉     | 181167/371472 [3:20:45<14:27:30,  3.66it/s] 49%|████▉     | 181168/371472 [3:20:45<15:05:40,  3.50it/s] 49%|████▉     | 181169/371472 [3:20:45<15:42:28,  3.37it/s] 49%|████▉     | 181170/371472 [3:20:46<16:08:38,  3.27it/s] 49%|████▉     | 181171/371472 [3:20:46<15:30:27,  3.41it/s] 49%|████▉     | 181172/371472 [3:20:46<15:25:38,  3.43it/s] 49%|████▉     | 181173/371472 [3:20:46<15:13:47,  3.47it/s] 49%|████▉     | 181174/371472 [3:20:47<15:01:20,  3.52it/s] 49%|████▉     | 181175/371472 [3:20:47<14:58:36,  3.53it/s] 49%|████▉     | 181176/371472 [3:20:47<16:21:11,  3.23it/s] 49%|████▉     | 181177/371472 [3:20:48<16:02:10,  3.30it/s] 49%|████▉     | 181178/371472 [3:20:48<15:16:04,  3.46it/s] 49%|████▉     | 181179/371472 [3:20:48<14:49:02,  3.57it/s] 49%|████▉     | 181180/371472 [3:20:48<14:47:45,  3.57it/s]                                                            {'loss': 3.1539, 'learning_rate': 5.612866038914865e-07, 'epoch': 7.8}
 49%|████▉     | 181180/371472 [3:20:48<14:47:45,  3.57it/s] 49%|████▉     | 181181/371472 [3:20:49<14:26:34,  3.66it/s] 49%|████▉     | 181182/371472 [3:20:49<14:14:52,  3.71it/s] 49%|████▉     | 181183/371472 [3:20:49<14:51:44,  3.56it/s] 49%|████▉     | 181184/371472 [3:20:50<15:16:49,  3.46it/s] 49%|████▉     | 181185/371472 [3:20:50<14:49:51,  3.56it/s] 49%|████▉     | 181186/371472 [3:20:50<14:14:38,  3.71it/s] 49%|████▉     | 181187/371472 [3:20:50<14:10:51,  3.73it/s] 49%|████▉     | 181188/371472 [3:20:51<13:50:45,  3.82it/s] 49%|████▉     | 181189/371472 [3:20:51<13:52:13,  3.81it/s] 49%|████▉     | 181190/371472 [3:20:51<13:59:14,  3.78it/s] 49%|████▉     | 181191/371472 [3:20:51<14:45:03,  3.58it/s] 49%|████▉     | 181192/371472 [3:20:52<14:49:28,  3.57it/s] 49%|████▉     | 181193/371472 [3:20:52<15:09:38,  3.49it/s] 49%|████▉     | 181194/371472 [3:20:52<14:40:47,  3.60it/s] 49%|████▉     | 181195/371472 [3:20:53<15:14:33,  3.47it/s] 49%|████▉     | 181196/371472 [3:20:53<15:15:02,  3.47it/s] 49%|████▉     | 181197/371472 [3:20:53<16:03:14,  3.29it/s] 49%|████▉     | 181198/371472 [3:20:54<16:09:48,  3.27it/s] 49%|████▉     | 181199/371472 [3:20:54<15:28:35,  3.42it/s] 49%|████▉     | 181200/371472 [3:20:54<15:36:51,  3.38it/s]                                                            {'loss': 3.1148, 'learning_rate': 5.612381219160076e-07, 'epoch': 7.8}
 49%|████▉     | 181200/371472 [3:20:54<15:36:51,  3.38it/s] 49%|████▉     | 181201/371472 [3:20:54<14:57:08,  3.53it/s] 49%|████▉     | 181202/371472 [3:20:55<15:03:09,  3.51it/s] 49%|████▉     | 181203/371472 [3:20:55<14:59:43,  3.52it/s] 49%|████▉     | 181204/371472 [3:20:55<15:11:08,  3.48it/s] 49%|████▉     | 181205/371472 [3:20:56<15:01:32,  3.52it/s] 49%|████▉     | 181206/371472 [3:20:56<15:05:34,  3.50it/s] 49%|████▉     | 181207/371472 [3:20:56<14:40:34,  3.60it/s] 49%|████▉     | 181208/371472 [3:20:56<14:09:00,  3.74it/s] 49%|████▉     | 181209/371472 [3:20:57<14:56:08,  3.54it/s] 49%|████▉     | 181210/371472 [3:20:57<15:12:29,  3.48it/s] 49%|████▉     | 181211/371472 [3:20:57<15:37:21,  3.38it/s] 49%|████▉     | 181212/371472 [3:20:58<15:27:12,  3.42it/s] 49%|████▉     | 181213/371472 [3:20:58<14:44:48,  3.58it/s] 49%|████▉     | 181214/371472 [3:20:58<15:10:23,  3.48it/s] 49%|████▉     | 181215/371472 [3:20:58<15:17:00,  3.46it/s] 49%|████▉     | 181216/371472 [3:20:59<15:11:49,  3.48it/s] 49%|████▉     | 181217/371472 [3:20:59<15:24:46,  3.43it/s] 49%|████▉     | 181218/371472 [3:20:59<15:11:49,  3.48it/s] 49%|████▉     | 181219/371472 [3:21:00<15:41:15,  3.37it/s] 49%|████▉     | 181220/371472 [3:21:00<14:55:01,  3.54it/s]                                                            {'loss': 3.2175, 'learning_rate': 5.611896399405287e-07, 'epoch': 7.81}
 49%|████▉     | 181220/371472 [3:21:00<14:55:01,  3.54it/s] 49%|████▉     | 181221/371472 [3:21:00<15:43:02,  3.36it/s] 49%|████▉     | 181222/371472 [3:21:00<15:30:56,  3.41it/s] 49%|████▉     | 181223/371472 [3:21:01<15:07:57,  3.49it/s] 49%|████▉     | 181224/371472 [3:21:01<14:46:01,  3.58it/s] 49%|████▉     | 181225/371472 [3:21:01<15:35:50,  3.39it/s] 49%|████▉     | 181226/371472 [3:21:02<15:12:01,  3.48it/s] 49%|████▉     | 181227/371472 [3:21:02<15:00:06,  3.52it/s] 49%|████▉     | 181228/371472 [3:21:02<14:45:44,  3.58it/s] 49%|████▉     | 181229/371472 [3:21:02<14:31:51,  3.64it/s] 49%|████▉     | 181230/371472 [3:21:03<14:16:11,  3.70it/s] 49%|████▉     | 181231/371472 [3:21:03<14:18:32,  3.69it/s] 49%|████▉     | 181232/371472 [3:21:03<14:12:09,  3.72it/s] 49%|████▉     | 181233/371472 [3:21:03<13:47:36,  3.83it/s] 49%|████▉     | 181234/371472 [3:21:04<13:38:05,  3.88it/s] 49%|████▉     | 181235/371472 [3:21:04<13:34:43,  3.89it/s] 49%|████▉     | 181236/371472 [3:21:04<13:55:44,  3.79it/s] 49%|████▉     | 181237/371472 [3:21:04<14:00:41,  3.77it/s] 49%|████▉     | 181238/371472 [3:21:05<14:34:31,  3.63it/s] 49%|████▉     | 181239/371472 [3:21:05<14:02:42,  3.76it/s] 49%|████▉     | 181240/371472 [3:21:05<13:50:49,  3.82it/s]                                                            {'loss': 3.1229, 'learning_rate': 5.611411579650499e-07, 'epoch': 7.81}
 49%|████▉     | 181240/371472 [3:21:05<13:50:49,  3.82it/s] 49%|████▉     | 181241/371472 [3:21:06<14:20:18,  3.69it/s] 49%|████▉     | 181242/371472 [3:21:06<14:24:53,  3.67it/s] 49%|████▉     | 181243/371472 [3:21:06<14:02:19,  3.76it/s] 49%|████▉     | 181244/371472 [3:21:06<14:01:01,  3.77it/s] 49%|████▉     | 181245/371472 [3:21:07<13:57:06,  3.79it/s] 49%|████▉     | 181246/371472 [3:21:07<14:08:08,  3.74it/s] 49%|████▉     | 181247/371472 [3:21:07<14:17:14,  3.70it/s] 49%|████▉     | 181248/371472 [3:21:07<14:00:05,  3.77it/s] 49%|████▉     | 181249/371472 [3:21:08<14:02:29,  3.76it/s] 49%|████▉     | 181250/371472 [3:21:08<13:54:27,  3.80it/s] 49%|████▉     | 181251/371472 [3:21:08<14:13:47,  3.71it/s] 49%|████▉     | 181252/371472 [3:21:09<14:54:22,  3.54it/s] 49%|████▉     | 181253/371472 [3:21:09<14:26:51,  3.66it/s] 49%|████▉     | 181254/371472 [3:21:09<14:34:02,  3.63it/s] 49%|████▉     | 181255/371472 [3:21:09<14:32:29,  3.63it/s] 49%|████▉     | 181256/371472 [3:21:10<14:53:42,  3.55it/s] 49%|████▉     | 181257/371472 [3:21:10<14:32:24,  3.63it/s] 49%|████▉     | 181258/371472 [3:21:10<15:23:26,  3.43it/s] 49%|████▉     | 181259/371472 [3:21:11<15:16:15,  3.46it/s] 49%|████▉     | 181260/371472 [3:21:11<15:01:07,  3.52it/s]                                                            {'loss': 3.1282, 'learning_rate': 5.61092675989571e-07, 'epoch': 7.81}
 49%|████▉     | 181260/371472 [3:21:11<15:01:07,  3.52it/s] 49%|████▉     | 181261/371472 [3:21:11<14:38:20,  3.61it/s] 49%|████▉     | 181262/371472 [3:21:11<15:20:40,  3.44it/s] 49%|████▉     | 181263/371472 [3:21:12<15:01:42,  3.52it/s] 49%|████▉     | 181264/371472 [3:21:12<15:22:36,  3.44it/s] 49%|████▉     | 181265/371472 [3:21:12<15:40:51,  3.37it/s] 49%|████▉     | 181266/371472 [3:21:13<14:52:37,  3.55it/s] 49%|████▉     | 181267/371472 [3:21:13<14:26:19,  3.66it/s] 49%|████▉     | 181268/371472 [3:21:13<14:31:11,  3.64it/s] 49%|████▉     | 181269/371472 [3:21:13<15:27:31,  3.42it/s] 49%|████▉     | 181270/371472 [3:21:14<15:00:25,  3.52it/s] 49%|████▉     | 181271/371472 [3:21:14<16:51:03,  3.14it/s] 49%|████▉     | 181272/371472 [3:21:14<15:57:38,  3.31it/s] 49%|████▉     | 181273/371472 [3:21:15<15:31:17,  3.40it/s] 49%|████▉     | 181274/371472 [3:21:15<15:12:50,  3.47it/s] 49%|████▉     | 181275/371472 [3:21:15<15:29:25,  3.41it/s] 49%|████▉     | 181276/371472 [3:21:15<14:48:07,  3.57it/s] 49%|████▉     | 181277/371472 [3:21:16<15:30:49,  3.41it/s] 49%|████▉     | 181278/371472 [3:21:16<15:34:33,  3.39it/s] 49%|████▉     | 181279/371472 [3:21:16<15:34:10,  3.39it/s] 49%|████▉     | 181280/371472 [3:21:17<15:07:51,  3.49it/s]                                                            {'loss': 3.0332, 'learning_rate': 5.610441940140921e-07, 'epoch': 7.81}
 49%|████▉     | 181280/371472 [3:21:17<15:07:51,  3.49it/s] 49%|████▉     | 181281/371472 [3:21:17<15:26:09,  3.42it/s] 49%|████▉     | 181282/371472 [3:21:17<15:35:09,  3.39it/s] 49%|████▉     | 181283/371472 [3:21:17<15:33:43,  3.39it/s] 49%|████▉     | 181284/371472 [3:21:18<14:59:46,  3.52it/s] 49%|████▉     | 181285/371472 [3:21:18<14:41:42,  3.60it/s] 49%|████▉     | 181286/371472 [3:21:18<14:23:35,  3.67it/s] 49%|████▉     | 181287/371472 [3:21:19<15:45:34,  3.35it/s] 49%|████▉     | 181288/371472 [3:21:19<15:15:48,  3.46it/s] 49%|████▉     | 181289/371472 [3:21:19<14:57:05,  3.53it/s] 49%|████▉     | 181290/371472 [3:21:19<15:03:56,  3.51it/s] 49%|████▉     | 181291/371472 [3:21:20<14:57:20,  3.53it/s] 49%|████▉     | 181292/371472 [3:21:20<15:27:22,  3.42it/s] 49%|████▉     | 181293/371472 [3:21:20<16:03:53,  3.29it/s] 49%|████▉     | 181294/371472 [3:21:21<16:33:17,  3.19it/s] 49%|████▉     | 181295/371472 [3:21:21<15:34:39,  3.39it/s] 49%|████▉     | 181296/371472 [3:21:21<15:05:57,  3.50it/s] 49%|████▉     | 181297/371472 [3:21:22<14:50:59,  3.56it/s] 49%|████▉     | 181298/371472 [3:21:22<15:45:42,  3.35it/s] 49%|████▉     | 181299/371472 [3:21:22<15:15:31,  3.46it/s] 49%|████▉     | 181300/371472 [3:21:22<14:52:48,  3.55it/s]                                                            {'loss': 3.1625, 'learning_rate': 5.609957120386132e-07, 'epoch': 7.81}
 49%|████▉     | 181300/371472 [3:21:22<14:52:48,  3.55it/s] 49%|████▉     | 181301/371472 [3:21:23<15:24:35,  3.43it/s] 49%|████▉     | 181302/371472 [3:21:23<15:12:56,  3.47it/s] 49%|████▉     | 181303/371472 [3:21:23<14:44:21,  3.58it/s] 49%|████▉     | 181304/371472 [3:21:24<15:51:16,  3.33it/s] 49%|████▉     | 181305/371472 [3:21:24<16:51:32,  3.13it/s] 49%|████▉     | 181306/371472 [3:21:24<15:57:29,  3.31it/s] 49%|████▉     | 181307/371472 [3:21:24<15:12:14,  3.47it/s] 49%|████▉     | 181308/371472 [3:21:25<14:30:35,  3.64it/s] 49%|████▉     | 181309/371472 [3:21:25<14:24:41,  3.67it/s] 49%|████▉     | 181310/371472 [3:21:25<14:20:56,  3.68it/s] 49%|████▉     | 181311/371472 [3:21:25<13:58:26,  3.78it/s] 49%|████▉     | 181312/371472 [3:21:26<14:27:26,  3.65it/s] 49%|████▉     | 181313/371472 [3:21:26<14:04:01,  3.76it/s] 49%|████▉     | 181314/371472 [3:21:26<14:08:08,  3.74it/s] 49%|████▉     | 181315/371472 [3:21:27<14:02:40,  3.76it/s] 49%|████▉     | 181316/371472 [3:21:27<14:33:42,  3.63it/s] 49%|████▉     | 181317/371472 [3:21:27<14:15:20,  3.71it/s] 49%|████▉     | 181318/371472 [3:21:27<14:04:45,  3.75it/s] 49%|████▉     | 181319/371472 [3:21:28<14:48:40,  3.57it/s] 49%|████▉     | 181320/371472 [3:21:28<14:33:16,  3.63it/s]                                                            {'loss': 2.9624, 'learning_rate': 5.609472300631343e-07, 'epoch': 7.81}
 49%|████▉     | 181320/371472 [3:21:28<14:33:16,  3.63it/s] 49%|████▉     | 181321/371472 [3:21:28<14:18:12,  3.69it/s] 49%|████▉     | 181322/371472 [3:21:28<14:14:36,  3.71it/s] 49%|████▉     | 181323/371472 [3:21:29<14:53:12,  3.55it/s] 49%|████▉     | 181324/371472 [3:21:29<15:01:38,  3.51it/s] 49%|████▉     | 181325/371472 [3:21:29<15:07:56,  3.49it/s] 49%|████▉     | 181326/371472 [3:21:30<15:27:20,  3.42it/s] 49%|████▉     | 181327/371472 [3:21:30<15:26:32,  3.42it/s] 49%|████▉     | 181328/371472 [3:21:30<15:11:54,  3.48it/s] 49%|████▉     | 181329/371472 [3:21:31<14:48:01,  3.57it/s] 49%|████▉     | 181330/371472 [3:21:31<14:38:16,  3.61it/s] 49%|████▉     | 181331/371472 [3:21:31<14:39:41,  3.60it/s] 49%|████▉     | 181332/371472 [3:21:31<14:30:16,  3.64it/s] 49%|████▉     | 181333/371472 [3:21:32<14:19:05,  3.69it/s] 49%|████▉     | 181334/371472 [3:21:32<14:18:34,  3.69it/s] 49%|████▉     | 181335/371472 [3:21:32<14:36:38,  3.61it/s] 49%|████▉     | 181336/371472 [3:21:32<14:38:29,  3.61it/s] 49%|████▉     | 181337/371472 [3:21:33<15:43:59,  3.36it/s] 49%|████▉     | 181338/371472 [3:21:33<15:47:30,  3.34it/s] 49%|████▉     | 181339/371472 [3:21:33<15:15:58,  3.46it/s] 49%|████▉     | 181340/371472 [3:21:34<15:20:46,  3.44it/s]                                                            {'loss': 3.1607, 'learning_rate': 5.608987480876554e-07, 'epoch': 7.81}
 49%|████▉     | 181340/371472 [3:21:34<15:20:46,  3.44it/s] 49%|████▉     | 181341/371472 [3:21:34<14:45:33,  3.58it/s] 49%|████▉     | 181342/371472 [3:21:34<15:07:09,  3.49it/s] 49%|████▉     | 181343/371472 [3:21:34<14:38:34,  3.61it/s] 49%|████▉     | 181344/371472 [3:21:35<14:33:15,  3.63it/s] 49%|████▉     | 181345/371472 [3:21:35<14:05:16,  3.75it/s] 49%|████▉     | 181346/371472 [3:21:35<14:17:08,  3.70it/s] 49%|████▉     | 181347/371472 [3:21:36<14:18:01,  3.69it/s] 49%|████▉     | 181348/371472 [3:21:36<14:32:59,  3.63it/s] 49%|████▉     | 181349/371472 [3:21:36<14:28:52,  3.65it/s] 49%|████▉     | 181350/371472 [3:21:36<14:45:42,  3.58it/s] 49%|████▉     | 181351/371472 [3:21:37<15:06:19,  3.50it/s] 49%|████▉     | 181352/371472 [3:21:37<14:47:14,  3.57it/s] 49%|████▉     | 181353/371472 [3:21:37<15:23:28,  3.43it/s] 49%|████▉     | 181354/371472 [3:21:38<16:08:25,  3.27it/s] 49%|████▉     | 181355/371472 [3:21:38<15:14:30,  3.46it/s] 49%|████▉     | 181356/371472 [3:21:38<14:58:41,  3.53it/s] 49%|████▉     | 181357/371472 [3:21:38<15:13:54,  3.47it/s] 49%|████▉     | 181358/371472 [3:21:39<14:46:00,  3.58it/s] 49%|████▉     | 181359/371472 [3:21:39<15:04:34,  3.50it/s] 49%|████▉     | 181360/371472 [3:21:39<14:31:36,  3.64it/s]                                                            {'loss': 3.0783, 'learning_rate': 5.608502661121765e-07, 'epoch': 7.81}
 49%|████▉     | 181360/371472 [3:21:39<14:31:36,  3.64it/s] 49%|████▉     | 181361/371472 [3:21:40<15:03:44,  3.51it/s] 49%|████▉     | 181362/371472 [3:21:40<15:10:44,  3.48it/s] 49%|████▉     | 181363/371472 [3:21:40<14:29:51,  3.64it/s] 49%|████▉     | 181364/371472 [3:21:40<13:58:42,  3.78it/s] 49%|████▉     | 181365/371472 [3:21:41<14:54:46,  3.54it/s] 49%|████▉     | 181366/371472 [3:21:41<17:17:48,  3.05it/s] 49%|████▉     | 181367/371472 [3:21:41<16:14:50,  3.25it/s] 49%|████▉     | 181368/371472 [3:21:42<16:03:58,  3.29it/s] 49%|████▉     | 181369/371472 [3:21:42<15:57:16,  3.31it/s] 49%|████▉     | 181370/371472 [3:21:42<15:04:36,  3.50it/s] 49%|████▉     | 181371/371472 [3:21:42<14:41:11,  3.60it/s] 49%|████▉     | 181372/371472 [3:21:43<14:23:20,  3.67it/s] 49%|████▉     | 181373/371472 [3:21:43<15:11:16,  3.48it/s] 49%|████▉     | 181374/371472 [3:21:43<14:36:29,  3.61it/s] 49%|████▉     | 181375/371472 [3:21:44<14:56:25,  3.53it/s] 49%|████▉     | 181376/371472 [3:21:44<14:45:29,  3.58it/s] 49%|████▉     | 181377/371472 [3:21:44<14:38:42,  3.61it/s] 49%|████▉     | 181378/371472 [3:21:44<14:32:13,  3.63it/s] 49%|████▉     | 181379/371472 [3:21:45<14:13:39,  3.71it/s] 49%|████▉     | 181380/371472 [3:21:45<14:24:53,  3.66it/s]                                                            {'loss': 2.9536, 'learning_rate': 5.608017841366976e-07, 'epoch': 7.81}
 49%|████▉     | 181380/371472 [3:21:45<14:24:53,  3.66it/s] 49%|████▉     | 181381/371472 [3:21:45<14:51:34,  3.55it/s] 49%|████▉     | 181382/371472 [3:21:45<14:54:23,  3.54it/s] 49%|████▉     | 181383/371472 [3:21:46<15:15:35,  3.46it/s] 49%|████▉     | 181384/371472 [3:21:46<14:48:33,  3.57it/s] 49%|████▉     | 181385/371472 [3:21:46<14:28:52,  3.65it/s] 49%|████▉     | 181386/371472 [3:21:47<14:29:32,  3.64it/s] 49%|████▉     | 181387/371472 [3:21:47<14:39:45,  3.60it/s] 49%|████▉     | 181388/371472 [3:21:47<15:09:03,  3.49it/s] 49%|████▉     | 181389/371472 [3:21:47<14:46:56,  3.57it/s] 49%|████▉     | 181390/371472 [3:21:48<14:29:59,  3.64it/s] 49%|████▉     | 181391/371472 [3:21:48<14:25:21,  3.66it/s] 49%|████▉     | 181392/371472 [3:21:48<14:40:19,  3.60it/s] 49%|████▉     | 181393/371472 [3:21:49<16:16:58,  3.24it/s] 49%|████▉     | 181394/371472 [3:21:49<16:15:32,  3.25it/s] 49%|████▉     | 181395/371472 [3:21:49<16:20:35,  3.23it/s] 49%|████▉     | 181396/371472 [3:21:50<15:44:57,  3.35it/s] 49%|████▉     | 181397/371472 [3:21:50<15:01:55,  3.51it/s] 49%|████▉     | 181398/371472 [3:21:50<15:35:36,  3.39it/s] 49%|████▉     | 181399/371472 [3:21:50<15:06:53,  3.49it/s] 49%|████▉     | 181400/371472 [3:21:51<15:51:53,  3.33it/s]                                                            {'loss': 3.0454, 'learning_rate': 5.607533021612187e-07, 'epoch': 7.81}
 49%|████▉     | 181400/371472 [3:21:51<15:51:53,  3.33it/s] 49%|████▉     | 181401/371472 [3:21:51<16:04:02,  3.29it/s] 49%|████▉     | 181402/371472 [3:21:51<15:15:24,  3.46it/s] 49%|████▉     | 181403/371472 [3:21:52<14:57:41,  3.53it/s] 49%|████▉     | 181404/371472 [3:21:52<14:55:36,  3.54it/s] 49%|████▉     | 181405/371472 [3:21:52<14:16:14,  3.70it/s] 49%|████▉     | 181406/371472 [3:21:52<15:16:28,  3.46it/s] 49%|████▉     | 181407/371472 [3:21:53<15:22:41,  3.43it/s] 49%|████▉     | 181408/371472 [3:21:53<15:10:00,  3.48it/s] 49%|████▉     | 181409/371472 [3:21:53<15:38:11,  3.38it/s] 49%|████▉     | 181410/371472 [3:21:54<15:02:12,  3.51it/s] 49%|████▉     | 181411/371472 [3:21:54<15:04:40,  3.50it/s] 49%|████▉     | 181412/371472 [3:21:54<15:34:12,  3.39it/s] 49%|████▉     | 181413/371472 [3:21:54<15:23:20,  3.43it/s] 49%|████▉     | 181414/371472 [3:21:55<15:23:08,  3.43it/s] 49%|████▉     | 181415/371472 [3:21:55<15:38:05,  3.38it/s] 49%|████▉     | 181416/371472 [3:21:55<15:28:40,  3.41it/s] 49%|████▉     | 181417/371472 [3:21:56<15:24:27,  3.43it/s] 49%|████▉     | 181418/371472 [3:21:56<16:14:03,  3.25it/s] 49%|████▉     | 181419/371472 [3:21:56<15:43:03,  3.36it/s] 49%|████▉     | 181420/371472 [3:21:56<14:53:15,  3.55it/s]                                                            {'loss': 2.9798, 'learning_rate': 5.607048201857398e-07, 'epoch': 7.81}
 49%|████▉     | 181420/371472 [3:21:56<14:53:15,  3.55it/s] 49%|████▉     | 181421/371472 [3:21:57<16:13:46,  3.25it/s] 49%|████▉     | 181422/371472 [3:21:57<15:45:40,  3.35it/s] 49%|████▉     | 181423/371472 [3:21:57<15:24:14,  3.43it/s] 49%|████▉     | 181424/371472 [3:21:58<15:04:14,  3.50it/s] 49%|████▉     | 181425/371472 [3:21:58<17:58:00,  2.94it/s] 49%|████▉     | 181426/371472 [3:21:58<16:52:04,  3.13it/s] 49%|████▉     | 181427/371472 [3:21:59<16:25:41,  3.21it/s] 49%|████▉     | 181428/371472 [3:21:59<16:05:49,  3.28it/s] 49%|████▉     | 181429/371472 [3:21:59<15:16:42,  3.46it/s] 49%|████▉     | 181430/371472 [3:22:00<15:16:55,  3.45it/s] 49%|████▉     | 181431/371472 [3:22:00<14:51:36,  3.55it/s] 49%|████▉     | 181432/371472 [3:22:00<14:46:27,  3.57it/s] 49%|████▉     | 181433/371472 [3:22:00<14:28:40,  3.65it/s] 49%|████▉     | 181434/371472 [3:22:01<14:12:21,  3.72it/s] 49%|████▉     | 181435/371472 [3:22:01<14:09:37,  3.73it/s] 49%|████▉     | 181436/371472 [3:22:01<14:18:08,  3.69it/s] 49%|████▉     | 181437/371472 [3:22:01<14:14:26,  3.71it/s] 49%|████▉     | 181438/371472 [3:22:02<14:49:55,  3.56it/s] 49%|████▉     | 181439/371472 [3:22:02<14:50:56,  3.55it/s] 49%|████▉     | 181440/371472 [3:22:02<15:42:54,  3.36it/s]                                                            {'loss': 3.046, 'learning_rate': 5.606563382102609e-07, 'epoch': 7.81}
 49%|████▉     | 181440/371472 [3:22:02<15:42:54,  3.36it/s] 49%|████▉     | 181441/371472 [3:22:03<15:26:06,  3.42it/s] 49%|████▉     | 181442/371472 [3:22:03<15:13:23,  3.47it/s] 49%|████▉     | 181443/371472 [3:22:03<14:30:06,  3.64it/s] 49%|████▉     | 181444/371472 [3:22:03<14:17:47,  3.69it/s] 49%|████▉     | 181445/371472 [3:22:04<14:44:59,  3.58it/s] 49%|████▉     | 181446/371472 [3:22:04<14:29:50,  3.64it/s] 49%|████▉     | 181447/371472 [3:22:04<14:07:39,  3.74it/s] 49%|████▉     | 181448/371472 [3:22:04<14:03:51,  3.75it/s] 49%|████▉     | 181449/371472 [3:22:05<14:40:41,  3.60it/s] 49%|████▉     | 181450/371472 [3:22:05<14:30:42,  3.64it/s] 49%|████▉     | 181451/371472 [3:22:05<14:05:45,  3.74it/s] 49%|████▉     | 181452/371472 [3:22:06<14:22:18,  3.67it/s] 49%|████▉     | 181453/371472 [3:22:06<14:09:37,  3.73it/s] 49%|████▉     | 181454/371472 [3:22:06<14:11:44,  3.72it/s] 49%|████▉     | 181455/371472 [3:22:06<14:35:32,  3.62it/s] 49%|████▉     | 181456/371472 [3:22:07<14:52:34,  3.55it/s] 49%|████▉     | 181457/371472 [3:22:07<15:03:42,  3.50it/s] 49%|████▉     | 181458/371472 [3:22:07<14:45:47,  3.58it/s] 49%|████▉     | 181459/371472 [3:22:08<14:32:39,  3.63it/s] 49%|████▉     | 181460/371472 [3:22:08<14:17:10,  3.69it/s]                                                            {'loss': 2.9922, 'learning_rate': 5.606078562347821e-07, 'epoch': 7.82}
 49%|████▉     | 181460/371472 [3:22:08<14:17:10,  3.69it/s] 49%|████▉     | 181461/371472 [3:22:08<14:17:07,  3.69it/s] 49%|████▉     | 181462/371472 [3:22:08<13:58:09,  3.78it/s] 49%|████▉     | 181463/371472 [3:22:09<14:59:39,  3.52it/s] 49%|████▉     | 181464/371472 [3:22:09<14:39:33,  3.60it/s] 49%|████▉     | 181465/371472 [3:22:09<14:41:55,  3.59it/s] 49%|████▉     | 181466/371472 [3:22:09<15:09:17,  3.48it/s] 49%|████▉     | 181467/371472 [3:22:10<15:31:38,  3.40it/s] 49%|████▉     | 181468/371472 [3:22:10<15:35:33,  3.38it/s] 49%|████▉     | 181469/371472 [3:22:10<15:26:53,  3.42it/s] 49%|████▉     | 181470/371472 [3:22:11<15:47:15,  3.34it/s] 49%|████▉     | 181471/371472 [3:22:11<15:15:30,  3.46it/s] 49%|████▉     | 181472/371472 [3:22:11<14:59:25,  3.52it/s] 49%|████▉     | 181473/371472 [3:22:12<14:47:51,  3.57it/s] 49%|████▉     | 181474/371472 [3:22:12<15:27:50,  3.41it/s] 49%|████▉     | 181475/371472 [3:22:12<14:50:34,  3.56it/s] 49%|████▉     | 181476/371472 [3:22:12<14:46:07,  3.57it/s] 49%|████▉     | 181477/371472 [3:22:13<15:01:16,  3.51it/s] 49%|████▉     | 181478/371472 [3:22:13<15:29:27,  3.41it/s] 49%|████▉     | 181479/371472 [3:22:13<15:23:02,  3.43it/s] 49%|████▉     | 181480/371472 [3:22:14<15:18:23,  3.45it/s]                                                            {'loss': 2.9957, 'learning_rate': 5.605593742593031e-07, 'epoch': 7.82}
 49%|████▉     | 181480/371472 [3:22:14<15:18:23,  3.45it/s] 49%|████▉     | 181481/371472 [3:22:14<15:12:42,  3.47it/s] 49%|████▉     | 181482/371472 [3:22:14<16:22:47,  3.22it/s] 49%|████▉     | 181483/371472 [3:22:15<17:04:50,  3.09it/s] 49%|████▉     | 181484/371472 [3:22:15<16:12:19,  3.26it/s] 49%|████▉     | 181485/371472 [3:22:15<15:23:18,  3.43it/s] 49%|████▉     | 181486/371472 [3:22:15<14:45:19,  3.58it/s] 49%|████▉     | 181487/371472 [3:22:16<14:28:41,  3.65it/s] 49%|████▉     | 181488/371472 [3:22:16<14:10:48,  3.72it/s] 49%|████▉     | 181489/371472 [3:22:16<14:11:23,  3.72it/s] 49%|████▉     | 181490/371472 [3:22:16<14:42:24,  3.59it/s] 49%|████▉     | 181491/371472 [3:22:17<14:34:29,  3.62it/s] 49%|████▉     | 181492/371472 [3:22:17<14:38:40,  3.60it/s] 49%|████▉     | 181493/371472 [3:22:17<15:30:56,  3.40it/s] 49%|████▉     | 181494/371472 [3:22:18<15:06:22,  3.49it/s] 49%|████▉     | 181495/371472 [3:22:18<14:36:33,  3.61it/s] 49%|████▉     | 181496/371472 [3:22:18<15:24:52,  3.42it/s] 49%|████▉     | 181497/371472 [3:22:18<14:57:15,  3.53it/s] 49%|████▉     | 181498/371472 [3:22:19<14:58:42,  3.52it/s] 49%|████▉     | 181499/371472 [3:22:19<14:27:24,  3.65it/s] 49%|████▉     | 181500/371472 [3:22:19<14:03:41,  3.75it/s]                                                            {'loss': 3.1255, 'learning_rate': 5.605108922838242e-07, 'epoch': 7.82}
 49%|████▉     | 181500/371472 [3:22:19<14:03:41,  3.75it/s] 49%|████▉     | 181501/371472 [3:22:19<13:57:04,  3.78it/s] 49%|████▉     | 181502/371472 [3:22:20<13:58:26,  3.78it/s] 49%|████▉     | 181503/371472 [3:22:20<13:53:42,  3.80it/s] 49%|████▉     | 181504/371472 [3:22:20<14:51:41,  3.55it/s] 49%|████▉     | 181505/371472 [3:22:21<14:30:35,  3.64it/s] 49%|████▉     | 181506/371472 [3:22:21<14:48:47,  3.56it/s] 49%|████▉     | 181507/371472 [3:22:21<14:25:12,  3.66it/s] 49%|████▉     | 181508/371472 [3:22:21<15:38:56,  3.37it/s] 49%|████▉     | 181509/371472 [3:22:22<15:04:31,  3.50it/s] 49%|████▉     | 181510/371472 [3:22:22<15:12:08,  3.47it/s] 49%|████▉     | 181511/371472 [3:22:22<14:38:06,  3.61it/s] 49%|████▉     | 181512/371472 [3:22:23<15:49:30,  3.33it/s] 49%|████▉     | 181513/371472 [3:22:23<15:05:36,  3.50it/s] 49%|████▉     | 181514/371472 [3:22:23<15:48:00,  3.34it/s] 49%|████▉     | 181515/371472 [3:22:24<16:08:53,  3.27it/s] 49%|████▉     | 181516/371472 [3:22:24<16:45:23,  3.15it/s] 49%|████▉     | 181517/371472 [3:22:24<17:43:50,  2.98it/s] 49%|████▉     | 181518/371472 [3:22:25<16:57:51,  3.11it/s] 49%|████▉     | 181519/371472 [3:22:25<17:13:36,  3.06it/s] 49%|████▉     | 181520/371472 [3:22:25<16:20:43,  3.23it/s]                                                            {'loss': 3.1788, 'learning_rate': 5.604624103083453e-07, 'epoch': 7.82}
 49%|████▉     | 181520/371472 [3:22:25<16:20:43,  3.23it/s] 49%|████▉     | 181521/371472 [3:22:25<15:40:41,  3.37it/s] 49%|████▉     | 181522/371472 [3:22:26<15:59:10,  3.30it/s] 49%|████▉     | 181523/371472 [3:22:26<15:13:51,  3.46it/s] 49%|████▉     | 181524/371472 [3:22:26<15:15:37,  3.46it/s] 49%|████▉     | 181525/371472 [3:22:27<15:26:12,  3.42it/s] 49%|████▉     | 181526/371472 [3:22:27<15:03:11,  3.51it/s] 49%|████▉     | 181527/371472 [3:22:27<14:49:50,  3.56it/s] 49%|████▉     | 181528/371472 [3:22:27<14:48:38,  3.56it/s] 49%|████▉     | 181529/371472 [3:22:28<14:49:46,  3.56it/s] 49%|████▉     | 181530/371472 [3:22:28<15:11:32,  3.47it/s] 49%|████▉     | 181531/371472 [3:22:28<15:08:22,  3.48it/s] 49%|████▉     | 181532/371472 [3:22:29<15:13:25,  3.47it/s] 49%|████▉     | 181533/371472 [3:22:29<15:43:58,  3.35it/s] 49%|████▉     | 181534/371472 [3:22:29<15:14:10,  3.46it/s] 49%|████▉     | 181535/371472 [3:22:29<15:05:11,  3.50it/s] 49%|████▉     | 181536/371472 [3:22:30<15:12:25,  3.47it/s] 49%|████▉     | 181537/371472 [3:22:30<15:05:59,  3.49it/s] 49%|████▉     | 181538/371472 [3:22:30<14:29:58,  3.64it/s] 49%|████▉     | 181539/371472 [3:22:31<14:28:26,  3.65it/s] 49%|████▉     | 181540/371472 [3:22:31<14:45:14,  3.58it/s]                                                            {'loss': 3.1474, 'learning_rate': 5.604139283328665e-07, 'epoch': 7.82}
 49%|████▉     | 181540/371472 [3:22:31<14:45:14,  3.58it/s] 49%|████▉     | 181541/371472 [3:22:31<14:23:03,  3.67it/s] 49%|████▉     | 181542/371472 [3:22:31<15:14:20,  3.46it/s] 49%|████▉     | 181543/371472 [3:22:32<14:52:24,  3.55it/s] 49%|████▉     | 181544/371472 [3:22:32<14:57:28,  3.53it/s] 49%|████▉     | 181545/371472 [3:22:32<15:04:33,  3.50it/s] 49%|████▉     | 181546/371472 [3:22:33<15:02:25,  3.51it/s] 49%|████▉     | 181547/371472 [3:22:33<15:02:05,  3.51it/s] 49%|████▉     | 181548/371472 [3:22:33<14:48:16,  3.56it/s] 49%|████▉     | 181549/371472 [3:22:33<16:51:03,  3.13it/s] 49%|████▉     | 181550/371472 [3:22:34<15:59:10,  3.30it/s] 49%|████▉     | 181551/371472 [3:22:34<15:32:02,  3.40it/s] 49%|████▉     | 181552/371472 [3:22:34<15:19:48,  3.44it/s] 49%|████▉     | 181553/371472 [3:22:35<14:58:00,  3.52it/s] 49%|████▉     | 181554/371472 [3:22:35<14:23:13,  3.67it/s] 49%|████▉     | 181555/371472 [3:22:35<14:25:46,  3.66it/s] 49%|████▉     | 181556/371472 [3:22:35<14:52:45,  3.55it/s] 49%|████▉     | 181557/371472 [3:22:36<14:24:54,  3.66it/s] 49%|████▉     | 181558/371472 [3:22:36<14:09:21,  3.73it/s] 49%|████▉     | 181559/371472 [3:22:36<14:58:08,  3.52it/s] 49%|████▉     | 181560/371472 [3:22:37<14:52:54,  3.54it/s]                                                            {'loss': 2.9377, 'learning_rate': 5.603654463573875e-07, 'epoch': 7.82}
 49%|████▉     | 181560/371472 [3:22:37<14:52:54,  3.54it/s] 49%|████▉     | 181561/371472 [3:22:37<14:45:25,  3.57it/s] 49%|████▉     | 181562/371472 [3:22:37<14:33:44,  3.62it/s] 49%|████▉     | 181563/371472 [3:22:37<14:04:02,  3.75it/s] 49%|████▉     | 181564/371472 [3:22:38<14:40:35,  3.59it/s] 49%|████▉     | 181565/371472 [3:22:38<14:18:17,  3.69it/s] 49%|████▉     | 181566/371472 [3:22:38<14:34:29,  3.62it/s] 49%|████▉     | 181567/371472 [3:22:38<14:21:48,  3.67it/s] 49%|████▉     | 181568/371472 [3:22:39<13:59:50,  3.77it/s] 49%|████▉     | 181569/371472 [3:22:39<13:39:42,  3.86it/s] 49%|████▉     | 181570/371472 [3:22:39<14:20:10,  3.68it/s] 49%|████▉     | 181571/371472 [3:22:39<14:38:14,  3.60it/s] 49%|████▉     | 181572/371472 [3:22:40<14:13:25,  3.71it/s] 49%|████▉     | 181573/371472 [3:22:40<15:12:03,  3.47it/s] 49%|████▉     | 181574/371472 [3:22:40<14:44:44,  3.58it/s] 49%|████▉     | 181575/371472 [3:22:41<14:31:04,  3.63it/s] 49%|████▉     | 181576/371472 [3:22:41<14:47:26,  3.57it/s] 49%|████▉     | 181577/371472 [3:22:41<14:31:54,  3.63it/s] 49%|████▉     | 181578/371472 [3:22:41<14:03:42,  3.75it/s] 49%|████▉     | 181579/371472 [3:22:42<14:02:43,  3.76it/s] 49%|████▉     | 181580/371472 [3:22:42<14:53:11,  3.54it/s]                                                            {'loss': 3.018, 'learning_rate': 5.603169643819086e-07, 'epoch': 7.82}
 49%|████▉     | 181580/371472 [3:22:42<14:53:11,  3.54it/s] 49%|████▉     | 181581/371472 [3:22:42<14:16:02,  3.70it/s] 49%|████▉     | 181582/371472 [3:22:43<14:50:49,  3.55it/s] 49%|████▉     | 181583/371472 [3:22:43<14:26:40,  3.65it/s] 49%|████▉     | 181584/371472 [3:22:43<14:20:31,  3.68it/s] 49%|████▉     | 181585/371472 [3:22:43<13:58:45,  3.77it/s] 49%|████▉     | 181586/371472 [3:22:44<14:07:56,  3.73it/s] 49%|████▉     | 181587/371472 [3:22:44<15:05:51,  3.49it/s] 49%|████▉     | 181588/371472 [3:22:44<15:21:47,  3.43it/s] 49%|████▉     | 181589/371472 [3:22:44<15:10:31,  3.48it/s] 49%|████▉     | 181590/371472 [3:22:45<15:11:24,  3.47it/s] 49%|████▉     | 181591/371472 [3:22:45<15:11:07,  3.47it/s] 49%|████▉     | 181592/371472 [3:22:45<15:11:24,  3.47it/s] 49%|████▉     | 181593/371472 [3:22:46<14:46:36,  3.57it/s] 49%|████▉     | 181594/371472 [3:22:46<14:40:48,  3.59it/s] 49%|████▉     | 181595/371472 [3:22:46<15:29:12,  3.41it/s] 49%|████▉     | 181596/371472 [3:22:47<15:59:13,  3.30it/s] 49%|████▉     | 181597/371472 [3:22:47<15:33:56,  3.39it/s] 49%|████▉     | 181598/371472 [3:22:47<15:44:10,  3.35it/s] 49%|████▉     | 181599/371472 [3:22:47<16:28:21,  3.20it/s] 49%|████▉     | 181600/371472 [3:22:48<16:35:41,  3.18it/s]                                                            {'loss': 3.0034, 'learning_rate': 5.602684824064297e-07, 'epoch': 7.82}
 49%|████▉     | 181600/371472 [3:22:48<16:35:41,  3.18it/s] 49%|████▉     | 181601/371472 [3:22:48<15:54:38,  3.31it/s] 49%|████▉     | 181602/371472 [3:22:48<15:19:25,  3.44it/s] 49%|████▉     | 181603/371472 [3:22:49<15:12:51,  3.47it/s] 49%|████▉     | 181604/371472 [3:22:49<14:38:02,  3.60it/s] 49%|████▉     | 181605/371472 [3:22:49<14:33:58,  3.62it/s] 49%|████▉     | 181606/371472 [3:22:49<14:19:12,  3.68it/s] 49%|████▉     | 181607/371472 [3:22:50<14:39:13,  3.60it/s] 49%|████▉     | 181608/371472 [3:22:50<14:42:49,  3.58it/s] 49%|████▉     | 181609/371472 [3:22:50<14:37:36,  3.61it/s] 49%|████▉     | 181610/371472 [3:22:51<14:32:40,  3.63it/s] 49%|████▉     | 181611/371472 [3:22:51<14:12:40,  3.71it/s] 49%|████▉     | 181612/371472 [3:22:51<14:31:45,  3.63it/s] 49%|████▉     | 181613/371472 [3:22:51<14:45:17,  3.57it/s] 49%|████▉     | 181614/371472 [3:22:52<14:31:39,  3.63it/s] 49%|████▉     | 181615/371472 [3:22:52<16:24:44,  3.21it/s] 49%|████▉     | 181616/371472 [3:22:52<15:53:28,  3.32it/s] 49%|████▉     | 181617/371472 [3:22:53<15:37:35,  3.37it/s] 49%|████▉     | 181618/371472 [3:22:53<15:35:28,  3.38it/s] 49%|████▉     | 181619/371472 [3:22:53<14:52:22,  3.55it/s] 49%|████▉     | 181620/371472 [3:22:53<14:29:21,  3.64it/s]                                                            {'loss': 3.1488, 'learning_rate': 5.602200004309509e-07, 'epoch': 7.82}
 49%|████▉     | 181620/371472 [3:22:53<14:29:21,  3.64it/s] 49%|████▉     | 181621/371472 [3:22:54<14:21:30,  3.67it/s] 49%|████▉     | 181622/371472 [3:22:54<14:39:38,  3.60it/s] 49%|████▉     | 181623/371472 [3:22:54<14:21:25,  3.67it/s] 49%|████▉     | 181624/371472 [3:22:54<14:16:40,  3.69it/s] 49%|████▉     | 181625/371472 [3:22:55<14:48:33,  3.56it/s] 49%|████▉     | 181626/371472 [3:22:55<14:46:41,  3.57it/s] 49%|████▉     | 181627/371472 [3:22:55<14:55:12,  3.53it/s] 49%|████▉     | 181628/371472 [3:22:56<14:48:27,  3.56it/s] 49%|████▉     | 181629/371472 [3:22:56<14:37:44,  3.60it/s] 49%|████▉     | 181630/371472 [3:22:56<14:46:58,  3.57it/s] 49%|████▉     | 181631/371472 [3:22:57<15:42:49,  3.36it/s] 49%|████▉     | 181632/371472 [3:22:57<15:21:19,  3.43it/s] 49%|████▉     | 181633/371472 [3:22:57<14:56:33,  3.53it/s] 49%|████▉     | 181634/371472 [3:22:57<15:57:15,  3.31it/s] 49%|████▉     | 181635/371472 [3:22:58<16:37:30,  3.17it/s] 49%|████▉     | 181636/371472 [3:22:58<15:52:22,  3.32it/s] 49%|████▉     | 181637/371472 [3:22:58<15:26:35,  3.41it/s] 49%|████▉     | 181638/371472 [3:22:59<15:14:51,  3.46it/s] 49%|████▉     | 181639/371472 [3:22:59<15:12:05,  3.47it/s] 49%|████▉     | 181640/371472 [3:22:59<15:20:23,  3.44it/s]                                                            {'loss': 2.914, 'learning_rate': 5.60171518455472e-07, 'epoch': 7.82}
 49%|████▉     | 181640/371472 [3:22:59<15:20:23,  3.44it/s] 49%|████▉     | 181641/371472 [3:22:59<15:21:12,  3.43it/s] 49%|████▉     | 181642/371472 [3:23:00<15:08:48,  3.48it/s] 49%|████▉     | 181643/371472 [3:23:00<15:47:39,  3.34it/s] 49%|████▉     | 181644/371472 [3:23:00<15:47:39,  3.34it/s] 49%|████▉     | 181645/371472 [3:23:01<15:32:25,  3.39it/s] 49%|████▉     | 181646/371472 [3:23:01<15:43:02,  3.35it/s] 49%|████▉     | 181647/371472 [3:23:01<15:32:28,  3.39it/s] 49%|████▉     | 181648/371472 [3:23:01<15:09:49,  3.48it/s] 49%|████▉     | 181649/371472 [3:23:02<14:49:34,  3.56it/s] 49%|████▉     | 181650/371472 [3:23:02<15:26:00,  3.42it/s] 49%|████▉     | 181651/371472 [3:23:02<15:22:24,  3.43it/s] 49%|████▉     | 181652/371472 [3:23:03<14:58:54,  3.52it/s] 49%|████▉     | 181653/371472 [3:23:03<14:34:27,  3.62it/s] 49%|████▉     | 181654/371472 [3:23:03<14:43:33,  3.58it/s] 49%|████▉     | 181655/371472 [3:23:03<14:17:23,  3.69it/s] 49%|████▉     | 181656/371472 [3:23:04<14:02:39,  3.75it/s] 49%|████▉     | 181657/371472 [3:23:04<14:09:11,  3.73it/s] 49%|████▉     | 181658/371472 [3:23:04<14:44:32,  3.58it/s] 49%|████▉     | 181659/371472 [3:23:05<15:10:43,  3.47it/s] 49%|████▉     | 181660/371472 [3:23:05<14:58:15,  3.52it/s]                                                            {'loss': 2.9722, 'learning_rate': 5.601230364799931e-07, 'epoch': 7.82}
 49%|████▉     | 181660/371472 [3:23:05<14:58:15,  3.52it/s] 49%|████▉     | 181661/371472 [3:23:05<15:28:47,  3.41it/s] 49%|████▉     | 181662/371472 [3:23:05<15:57:49,  3.30it/s] 49%|████▉     | 181663/371472 [3:23:06<15:54:02,  3.32it/s] 49%|████▉     | 181664/371472 [3:23:06<15:59:40,  3.30it/s] 49%|████▉     | 181665/371472 [3:23:06<15:48:28,  3.34it/s] 49%|████▉     | 181666/371472 [3:23:07<15:55:21,  3.31it/s] 49%|████▉     | 181667/371472 [3:23:07<15:52:47,  3.32it/s] 49%|████▉     | 181668/371472 [3:23:07<15:08:05,  3.48it/s] 49%|████▉     | 181669/371472 [3:23:07<14:31:42,  3.63it/s] 49%|████▉     | 181670/371472 [3:23:08<13:58:33,  3.77it/s] 49%|████▉     | 181671/371472 [3:23:08<14:10:02,  3.72it/s] 49%|████▉     | 181672/371472 [3:23:08<14:27:48,  3.65it/s] 49%|████▉     | 181673/371472 [3:23:09<15:40:36,  3.36it/s] 49%|████▉     | 181674/371472 [3:23:09<14:54:53,  3.53it/s] 49%|████▉     | 181675/371472 [3:23:09<15:09:48,  3.48it/s] 49%|████▉     | 181676/371472 [3:23:09<15:20:59,  3.43it/s] 49%|████▉     | 181677/371472 [3:23:10<14:58:01,  3.52it/s] 49%|████▉     | 181678/371472 [3:23:10<14:36:52,  3.61it/s] 49%|████▉     | 181679/371472 [3:23:10<14:15:45,  3.70it/s] 49%|████▉     | 181680/371472 [3:23:11<14:09:41,  3.72it/s]                                                            {'loss': 3.1321, 'learning_rate': 5.600745545045142e-07, 'epoch': 7.83}
 49%|████▉     | 181680/371472 [3:23:11<14:09:41,  3.72it/s] 49%|████▉     | 181681/371472 [3:23:11<14:36:33,  3.61it/s] 49%|████▉     | 181682/371472 [3:23:11<14:43:56,  3.58it/s] 49%|████▉     | 181683/371472 [3:23:12<16:30:34,  3.19it/s] 49%|████▉     | 181684/371472 [3:23:12<16:43:13,  3.15it/s] 49%|████▉     | 181685/371472 [3:23:12<16:14:32,  3.25it/s] 49%|████▉     | 181686/371472 [3:23:12<16:12:48,  3.25it/s] 49%|████▉     | 181687/371472 [3:23:13<16:30:09,  3.19it/s] 49%|████▉     | 181688/371472 [3:23:13<16:14:37,  3.25it/s] 49%|████▉     | 181689/371472 [3:23:13<16:26:18,  3.21it/s] 49%|████▉     | 181690/371472 [3:23:14<15:35:21,  3.38it/s] 49%|████▉     | 181691/371472 [3:23:14<15:04:33,  3.50it/s] 49%|████▉     | 181692/371472 [3:23:14<15:03:00,  3.50it/s] 49%|████▉     | 181693/371472 [3:23:14<14:47:35,  3.56it/s] 49%|████▉     | 181694/371472 [3:23:15<14:39:52,  3.59it/s] 49%|████▉     | 181695/371472 [3:23:15<15:06:58,  3.49it/s] 49%|████▉     | 181696/371472 [3:23:15<14:47:41,  3.56it/s] 49%|████▉     | 181697/371472 [3:23:16<15:15:58,  3.45it/s] 49%|████▉     | 181698/371472 [3:23:16<15:32:05,  3.39it/s] 49%|████▉     | 181699/371472 [3:23:16<15:24:35,  3.42it/s] 49%|████▉     | 181700/371472 [3:23:16<15:07:57,  3.48it/s]                                                            {'loss': 2.976, 'learning_rate': 5.600260725290352e-07, 'epoch': 7.83}
 49%|████▉     | 181700/371472 [3:23:16<15:07:57,  3.48it/s] 49%|████▉     | 181701/371472 [3:23:17<15:00:26,  3.51it/s] 49%|████▉     | 181702/371472 [3:23:17<14:46:48,  3.57it/s] 49%|████▉     | 181703/371472 [3:23:17<14:37:25,  3.60it/s] 49%|████▉     | 181704/371472 [3:23:18<14:27:59,  3.64it/s] 49%|████▉     | 181705/371472 [3:23:18<15:33:02,  3.39it/s] 49%|████▉     | 181706/371472 [3:23:18<15:13:14,  3.46it/s] 49%|████▉     | 181707/371472 [3:23:18<14:34:04,  3.62it/s] 49%|████▉     | 181708/371472 [3:23:19<15:32:34,  3.39it/s] 49%|████▉     | 181709/371472 [3:23:19<15:20:45,  3.43it/s] 49%|████▉     | 181710/371472 [3:23:19<15:01:50,  3.51it/s] 49%|████▉     | 181711/371472 [3:23:20<14:48:30,  3.56it/s] 49%|████▉     | 181712/371472 [3:23:20<15:00:54,  3.51it/s] 49%|████▉     | 181713/371472 [3:23:20<15:17:54,  3.45it/s] 49%|████▉     | 181714/371472 [3:23:20<15:17:45,  3.45it/s] 49%|████▉     | 181715/371472 [3:23:21<15:08:26,  3.48it/s] 49%|████▉     | 181716/371472 [3:23:21<14:47:27,  3.56it/s] 49%|████▉     | 181717/371472 [3:23:21<14:23:55,  3.66it/s] 49%|████▉     | 181718/371472 [3:23:22<15:07:34,  3.48it/s] 49%|████▉     | 181719/371472 [3:23:22<15:07:43,  3.48it/s] 49%|████▉     | 181720/371472 [3:23:22<15:17:22,  3.45it/s]                                                            {'loss': 3.0725, 'learning_rate': 5.599775905535564e-07, 'epoch': 7.83}
 49%|████▉     | 181720/371472 [3:23:22<15:17:22,  3.45it/s] 49%|████▉     | 181721/371472 [3:23:22<14:48:37,  3.56it/s] 49%|████▉     | 181722/371472 [3:23:23<14:41:18,  3.59it/s] 49%|████▉     | 181723/371472 [3:23:23<14:15:30,  3.70it/s] 49%|████▉     | 181724/371472 [3:23:23<14:00:20,  3.76it/s] 49%|████▉     | 181725/371472 [3:23:23<14:06:58,  3.73it/s] 49%|████▉     | 181726/371472 [3:23:24<13:57:04,  3.78it/s] 49%|████▉     | 181727/371472 [3:23:24<14:13:11,  3.71it/s] 49%|████▉     | 181728/371472 [3:23:24<14:34:05,  3.62it/s] 49%|████▉     | 181729/371472 [3:23:25<14:33:35,  3.62it/s] 49%|████▉     | 181730/371472 [3:23:25<14:54:35,  3.53it/s] 49%|████▉     | 181731/371472 [3:23:25<14:23:22,  3.66it/s] 49%|████▉     | 181732/371472 [3:23:25<14:50:39,  3.55it/s] 49%|████▉     | 181733/371472 [3:23:26<14:59:47,  3.51it/s] 49%|████▉     | 181734/371472 [3:23:26<14:40:31,  3.59it/s] 49%|████▉     | 181735/371472 [3:23:26<15:15:13,  3.46it/s] 49%|████▉     | 181736/371472 [3:23:27<14:50:31,  3.55it/s] 49%|████▉     | 181737/371472 [3:23:27<14:45:48,  3.57it/s] 49%|████▉     | 181738/371472 [3:23:27<14:43:06,  3.58it/s] 49%|████▉     | 181739/371472 [3:23:27<14:21:44,  3.67it/s] 49%|████▉     | 181740/371472 [3:23:28<14:48:46,  3.56it/s]                                                            {'loss': 3.0915, 'learning_rate': 5.599291085780775e-07, 'epoch': 7.83}
 49%|████▉     | 181740/371472 [3:23:28<14:48:46,  3.56it/s] 49%|████▉     | 181741/371472 [3:23:28<15:01:16,  3.51it/s] 49%|████▉     | 181742/371472 [3:23:28<14:59:57,  3.51it/s] 49%|████▉     | 181743/371472 [3:23:29<15:19:23,  3.44it/s] 49%|████▉     | 181744/371472 [3:23:29<15:34:51,  3.38it/s] 49%|████▉     | 181745/371472 [3:23:29<15:16:29,  3.45it/s] 49%|████▉     | 181746/371472 [3:23:29<14:40:24,  3.59it/s] 49%|████▉     | 181747/371472 [3:23:30<14:14:03,  3.70it/s] 49%|████▉     | 181748/371472 [3:23:30<14:12:33,  3.71it/s] 49%|████▉     | 181749/371472 [3:23:30<14:06:38,  3.73it/s] 49%|████▉     | 181750/371472 [3:23:30<14:05:58,  3.74it/s] 49%|████▉     | 181751/371472 [3:23:31<13:52:31,  3.80it/s] 49%|████▉     | 181752/371472 [3:23:31<15:10:04,  3.47it/s] 49%|████▉     | 181753/371472 [3:23:31<14:56:12,  3.53it/s] 49%|████▉     | 181754/371472 [3:23:32<14:23:15,  3.66it/s] 49%|████▉     | 181755/371472 [3:23:32<14:13:24,  3.71it/s] 49%|████▉     | 181756/371472 [3:23:32<14:59:36,  3.51it/s] 49%|████▉     | 181757/371472 [3:23:32<14:30:04,  3.63it/s] 49%|████▉     | 181758/371472 [3:23:33<14:17:46,  3.69it/s] 49%|████▉     | 181759/371472 [3:23:33<14:05:34,  3.74it/s] 49%|████▉     | 181760/371472 [3:23:33<14:58:03,  3.52it/s]                                                            {'loss': 3.1724, 'learning_rate': 5.598806266025986e-07, 'epoch': 7.83}
 49%|████▉     | 181760/371472 [3:23:33<14:58:03,  3.52it/s] 49%|████▉     | 181761/371472 [3:23:34<14:48:22,  3.56it/s] 49%|████▉     | 181762/371472 [3:23:34<14:46:05,  3.57it/s] 49%|████▉     | 181763/371472 [3:23:34<14:59:04,  3.52it/s] 49%|████▉     | 181764/371472 [3:23:34<15:07:54,  3.48it/s] 49%|████▉     | 181765/371472 [3:23:35<14:59:27,  3.52it/s] 49%|████▉     | 181766/371472 [3:23:35<14:27:26,  3.64it/s] 49%|████▉     | 181767/371472 [3:23:35<14:19:27,  3.68it/s] 49%|████▉     | 181768/371472 [3:23:35<14:12:00,  3.71it/s] 49%|████▉     | 181769/371472 [3:23:36<14:43:36,  3.58it/s] 49%|████▉     | 181770/371472 [3:23:36<14:28:23,  3.64it/s] 49%|████▉     | 181771/371472 [3:23:36<14:21:58,  3.67it/s] 49%|████▉     | 181772/371472 [3:23:37<14:31:27,  3.63it/s] 49%|████▉     | 181773/371472 [3:23:37<14:49:29,  3.55it/s] 49%|████▉     | 181774/371472 [3:23:37<15:03:24,  3.50it/s] 49%|████▉     | 181775/371472 [3:23:37<15:09:48,  3.48it/s] 49%|████▉     | 181776/371472 [3:23:38<15:17:16,  3.45it/s] 49%|████▉     | 181777/371472 [3:23:38<15:23:33,  3.42it/s] 49%|████▉     | 181778/371472 [3:23:38<15:08:14,  3.48it/s] 49%|████▉     | 181779/371472 [3:23:39<14:50:21,  3.55it/s] 49%|████▉     | 181780/371472 [3:23:39<14:34:43,  3.61it/s]                                                            {'loss': 3.0377, 'learning_rate': 5.598321446271197e-07, 'epoch': 7.83}
 49%|████▉     | 181780/371472 [3:23:39<14:34:43,  3.61it/s] 49%|████▉     | 181781/371472 [3:23:39<14:07:53,  3.73it/s] 49%|████▉     | 181782/371472 [3:23:39<14:19:51,  3.68it/s] 49%|████▉     | 181783/371472 [3:23:40<13:58:53,  3.77it/s] 49%|████▉     | 181784/371472 [3:23:40<13:59:19,  3.77it/s] 49%|████▉     | 181785/371472 [3:23:40<14:25:54,  3.65it/s] 49%|████▉     | 181786/371472 [3:23:40<14:15:08,  3.70it/s] 49%|████▉     | 181787/371472 [3:23:41<14:02:53,  3.75it/s] 49%|████▉     | 181788/371472 [3:23:41<13:51:32,  3.80it/s] 49%|████▉     | 181789/371472 [3:23:41<13:56:16,  3.78it/s] 49%|████▉     | 181790/371472 [3:23:42<13:51:41,  3.80it/s] 49%|████▉     | 181791/371472 [3:23:42<14:15:07,  3.70it/s] 49%|████▉     | 181792/371472 [3:23:42<15:34:46,  3.38it/s] 49%|████▉     | 181793/371472 [3:23:42<15:11:42,  3.47it/s] 49%|████▉     | 181794/371472 [3:23:43<15:22:01,  3.43it/s] 49%|████▉     | 181795/371472 [3:23:43<15:08:05,  3.48it/s] 49%|████▉     | 181796/371472 [3:23:43<14:58:57,  3.52it/s] 49%|████▉     | 181797/371472 [3:23:44<14:33:09,  3.62it/s] 49%|████▉     | 181798/371472 [3:23:44<14:50:26,  3.55it/s] 49%|████▉     | 181799/371472 [3:23:44<15:34:38,  3.38it/s] 49%|████▉     | 181800/371472 [3:23:45<16:24:04,  3.21it/s]                                                            {'loss': 2.8762, 'learning_rate': 5.597836626516408e-07, 'epoch': 7.83}
 49%|████▉     | 181800/371472 [3:23:45<16:24:04,  3.21it/s] 49%|████▉     | 181801/371472 [3:23:45<15:28:54,  3.40it/s] 49%|████▉     | 181802/371472 [3:23:45<15:00:50,  3.51it/s] 49%|████▉     | 181803/371472 [3:23:45<15:25:33,  3.42it/s] 49%|████▉     | 181804/371472 [3:23:46<15:03:58,  3.50it/s] 49%|████▉     | 181805/371472 [3:23:46<15:25:28,  3.42it/s] 49%|████▉     | 181806/371472 [3:23:46<15:23:39,  3.42it/s] 49%|████▉     | 181807/371472 [3:23:46<14:52:46,  3.54it/s] 49%|████▉     | 181808/371472 [3:23:47<15:04:19,  3.50it/s] 49%|████▉     | 181809/371472 [3:23:47<14:40:03,  3.59it/s] 49%|████▉     | 181810/371472 [3:23:47<14:21:07,  3.67it/s] 49%|████▉     | 181811/371472 [3:23:48<14:44:56,  3.57it/s] 49%|████▉     | 181812/371472 [3:23:48<16:07:17,  3.27it/s] 49%|████▉     | 181813/371472 [3:23:48<16:09:47,  3.26it/s] 49%|████▉     | 181814/371472 [3:23:49<15:22:45,  3.43it/s] 49%|████▉     | 181815/371472 [3:23:49<14:53:03,  3.54it/s] 49%|████▉     | 181816/371472 [3:23:49<14:44:53,  3.57it/s] 49%|████▉     | 181817/371472 [3:23:49<14:22:44,  3.66it/s] 49%|████▉     | 181818/371472 [3:23:50<14:22:35,  3.66it/s] 49%|████▉     | 181819/371472 [3:23:50<14:40:28,  3.59it/s] 49%|████▉     | 181820/371472 [3:23:50<14:38:55,  3.60it/s]                                                            {'loss': 2.9651, 'learning_rate': 5.597351806761619e-07, 'epoch': 7.83}
 49%|████▉     | 181820/371472 [3:23:50<14:38:55,  3.60it/s] 49%|████▉     | 181821/371472 [3:23:50<14:22:43,  3.66it/s] 49%|████▉     | 181822/371472 [3:23:51<15:29:02,  3.40it/s] 49%|████▉     | 181823/371472 [3:23:51<15:02:32,  3.50it/s] 49%|████▉     | 181824/371472 [3:23:51<15:27:09,  3.41it/s] 49%|████▉     | 181825/371472 [3:23:52<15:30:35,  3.40it/s] 49%|████▉     | 181826/371472 [3:23:52<15:08:33,  3.48it/s] 49%|████▉     | 181827/371472 [3:23:52<15:12:19,  3.46it/s] 49%|████▉     | 181828/371472 [3:23:52<14:50:12,  3.55it/s] 49%|████▉     | 181829/371472 [3:23:53<15:41:43,  3.36it/s] 49%|████▉     | 181830/371472 [3:23:53<16:26:15,  3.20it/s] 49%|████▉     | 181831/371472 [3:23:53<15:40:38,  3.36it/s] 49%|████▉     | 181832/371472 [3:23:54<15:30:27,  3.40it/s] 49%|████▉     | 181833/371472 [3:23:54<15:12:06,  3.47it/s] 49%|████▉     | 181834/371472 [3:23:54<15:05:11,  3.49it/s] 49%|████▉     | 181835/371472 [3:23:54<14:39:12,  3.59it/s] 49%|████▉     | 181836/371472 [3:23:55<14:11:53,  3.71it/s] 49%|████▉     | 181837/371472 [3:23:55<14:25:24,  3.65it/s] 49%|████▉     | 181838/371472 [3:23:56<19:11:24,  2.74it/s] 49%|████▉     | 181839/371472 [3:23:56<18:04:20,  2.91it/s] 49%|████▉     | 181840/371472 [3:23:56<18:45:07,  2.81it/s]                                                            {'loss': 3.014, 'learning_rate': 5.59686698700683e-07, 'epoch': 7.83}
 49%|████▉     | 181840/371472 [3:23:56<18:45:07,  2.81it/s] 49%|████▉     | 181841/371472 [3:23:57<17:31:09,  3.01it/s] 49%|████▉     | 181842/371472 [3:23:57<16:28:59,  3.20it/s] 49%|████▉     | 181843/371472 [3:23:57<16:17:49,  3.23it/s] 49%|████▉     | 181844/371472 [3:23:57<15:42:27,  3.35it/s] 49%|████▉     | 181845/371472 [3:23:58<15:10:01,  3.47it/s] 49%|████▉     | 181846/371472 [3:23:58<15:14:20,  3.46it/s] 49%|████▉     | 181847/371472 [3:23:58<15:35:36,  3.38it/s] 49%|████▉     | 181848/371472 [3:23:59<15:19:59,  3.44it/s] 49%|████▉     | 181849/371472 [3:23:59<15:05:47,  3.49it/s] 49%|████▉     | 181850/371472 [3:23:59<14:42:14,  3.58it/s] 49%|████▉     | 181851/371472 [3:23:59<14:16:49,  3.69it/s] 49%|████▉     | 181852/371472 [3:24:00<13:54:18,  3.79it/s] 49%|████▉     | 181853/371472 [3:24:00<13:47:23,  3.82it/s] 49%|████▉     | 181854/371472 [3:24:00<14:00:17,  3.76it/s] 49%|████▉     | 181855/371472 [3:24:00<14:28:31,  3.64it/s] 49%|████▉     | 181856/371472 [3:24:01<14:29:04,  3.64it/s] 49%|████▉     | 181857/371472 [3:24:01<14:21:14,  3.67it/s] 49%|████▉     | 181858/371472 [3:24:01<14:16:14,  3.69it/s] 49%|████▉     | 181859/371472 [3:24:01<13:57:48,  3.77it/s] 49%|████▉     | 181860/371472 [3:24:02<16:01:10,  3.29it/s]                                                            {'loss': 2.8954, 'learning_rate': 5.596382167252041e-07, 'epoch': 7.83}
 49%|████▉     | 181860/371472 [3:24:02<16:01:10,  3.29it/s] 49%|████▉     | 181861/371472 [3:24:02<15:17:23,  3.44it/s] 49%|████▉     | 181862/371472 [3:24:02<15:32:27,  3.39it/s] 49%|████▉     | 181863/371472 [3:24:03<15:39:02,  3.37it/s] 49%|████▉     | 181864/371472 [3:24:03<15:40:47,  3.36it/s] 49%|████▉     | 181865/371472 [3:24:03<15:08:26,  3.48it/s] 49%|████▉     | 181866/371472 [3:24:04<14:33:47,  3.62it/s] 49%|████▉     | 181867/371472 [3:24:04<14:39:10,  3.59it/s] 49%|████▉     | 181868/371472 [3:24:04<14:11:28,  3.71it/s] 49%|████▉     | 181869/371472 [3:24:04<14:19:11,  3.68it/s] 49%|████▉     | 181870/371472 [3:24:05<13:56:07,  3.78it/s] 49%|████▉     | 181871/371472 [3:24:05<14:39:59,  3.59it/s] 49%|████▉     | 181872/371472 [3:24:05<14:40:19,  3.59it/s] 49%|████▉     | 181873/371472 [3:24:05<14:53:18,  3.54it/s] 49%|████▉     | 181874/371472 [3:24:06<14:40:36,  3.59it/s] 49%|████▉     | 181875/371472 [3:24:06<14:20:53,  3.67it/s] 49%|████▉     | 181876/371472 [3:24:06<14:40:49,  3.59it/s] 49%|████▉     | 181877/371472 [3:24:07<14:51:15,  3.55it/s] 49%|████▉     | 181878/371472 [3:24:07<15:11:31,  3.47it/s] 49%|████▉     | 181879/371472 [3:24:07<15:53:15,  3.31it/s] 49%|████▉     | 181880/371472 [3:24:08<15:29:42,  3.40it/s]                                                            {'loss': 2.8578, 'learning_rate': 5.595897347497253e-07, 'epoch': 7.83}
 49%|████▉     | 181880/371472 [3:24:08<15:29:42,  3.40it/s] 49%|████▉     | 181881/371472 [3:24:08<15:46:14,  3.34it/s] 49%|████▉     | 181882/371472 [3:24:08<15:37:37,  3.37it/s] 49%|████▉     | 181883/371472 [3:24:08<14:55:55,  3.53it/s] 49%|████▉     | 181884/371472 [3:24:09<15:16:49,  3.45it/s] 49%|████▉     | 181885/371472 [3:24:09<15:26:18,  3.41it/s] 49%|████▉     | 181886/371472 [3:24:09<16:32:41,  3.18it/s] 49%|████▉     | 181887/371472 [3:24:10<16:00:02,  3.29it/s] 49%|████▉     | 181888/371472 [3:24:10<15:40:06,  3.36it/s] 49%|████▉     | 181889/371472 [3:24:10<15:23:08,  3.42it/s] 49%|████▉     | 181890/371472 [3:24:10<15:15:26,  3.45it/s] 49%|████▉     | 181891/371472 [3:24:11<15:00:35,  3.51it/s] 49%|████▉     | 181892/371472 [3:24:11<14:32:53,  3.62it/s] 49%|████▉     | 181893/371472 [3:24:11<14:40:34,  3.59it/s] 49%|████▉     | 181894/371472 [3:24:12<14:38:16,  3.60it/s] 49%|████▉     | 181895/371472 [3:24:12<14:33:54,  3.62it/s] 49%|████▉     | 181896/371472 [3:24:12<14:23:24,  3.66it/s] 49%|████▉     | 181897/371472 [3:24:12<14:27:56,  3.64it/s] 49%|████▉     | 181898/371472 [3:24:13<14:18:08,  3.68it/s] 49%|████▉     | 181899/371472 [3:24:13<14:52:46,  3.54it/s] 49%|████▉     | 181900/371472 [3:24:13<14:17:50,  3.68it/s]                                                            {'loss': 3.0725, 'learning_rate': 5.595412527742464e-07, 'epoch': 7.83}
 49%|████▉     | 181900/371472 [3:24:13<14:17:50,  3.68it/s] 49%|████▉     | 181901/371472 [3:24:13<14:38:17,  3.60it/s] 49%|████▉     | 181902/371472 [3:24:14<14:25:05,  3.65it/s] 49%|████▉     | 181903/371472 [3:24:14<14:15:59,  3.69it/s] 49%|████▉     | 181904/371472 [3:24:14<14:11:19,  3.71it/s] 49%|████▉     | 181905/371472 [3:24:15<13:42:07,  3.84it/s] 49%|████▉     | 181906/371472 [3:24:15<13:47:07,  3.82it/s] 49%|████▉     | 181907/371472 [3:24:15<14:39:10,  3.59it/s] 49%|████▉     | 181908/371472 [3:24:15<15:40:25,  3.36it/s] 49%|████▉     | 181909/371472 [3:24:16<15:11:08,  3.47it/s] 49%|████▉     | 181910/371472 [3:24:16<15:02:38,  3.50it/s] 49%|████▉     | 181911/371472 [3:24:16<14:28:02,  3.64it/s] 49%|████▉     | 181912/371472 [3:24:16<14:17:02,  3.69it/s] 49%|████▉     | 181913/371472 [3:24:17<14:31:20,  3.63it/s] 49%|████▉     | 181914/371472 [3:24:17<14:32:02,  3.62it/s] 49%|████▉     | 181915/371472 [3:24:17<14:38:38,  3.60it/s] 49%|████▉     | 181916/371472 [3:24:18<14:04:34,  3.74it/s] 49%|████▉     | 181917/371472 [3:24:18<14:19:09,  3.68it/s] 49%|████▉     | 181918/371472 [3:24:18<14:16:37,  3.69it/s] 49%|████▉     | 181919/371472 [3:24:18<14:21:48,  3.67it/s] 49%|████▉     | 181920/371472 [3:24:19<14:14:43,  3.70it/s]                                                            {'loss': 2.9616, 'learning_rate': 5.594927707987675e-07, 'epoch': 7.84}
 49%|████▉     | 181920/371472 [3:24:19<14:14:43,  3.70it/s] 49%|████▉     | 181921/371472 [3:24:19<14:04:09,  3.74it/s] 49%|████▉     | 181922/371472 [3:24:19<14:35:27,  3.61it/s] 49%|████▉     | 181923/371472 [3:24:20<14:34:28,  3.61it/s] 49%|████▉     | 181924/371472 [3:24:20<15:22:53,  3.42it/s] 49%|████▉     | 181925/371472 [3:24:20<16:13:24,  3.25it/s] 49%|████▉     | 181926/371472 [3:24:20<15:34:00,  3.38it/s] 49%|████▉     | 181927/371472 [3:24:21<16:13:20,  3.25it/s] 49%|████▉     | 181928/371472 [3:24:21<15:18:01,  3.44it/s] 49%|████▉     | 181929/371472 [3:24:21<14:43:45,  3.57it/s] 49%|████▉     | 181930/371472 [3:24:22<14:43:19,  3.58it/s] 49%|████▉     | 181931/371472 [3:24:22<14:20:19,  3.67it/s] 49%|████▉     | 181932/371472 [3:24:22<14:21:18,  3.67it/s] 49%|████▉     | 181933/371472 [3:24:22<14:03:45,  3.74it/s] 49%|████▉     | 181934/371472 [3:24:23<13:59:24,  3.76it/s] 49%|████▉     | 181935/371472 [3:24:23<13:29:54,  3.90it/s] 49%|████▉     | 181936/371472 [3:24:23<14:05:28,  3.74it/s] 49%|████▉     | 181937/371472 [3:24:23<13:49:37,  3.81it/s] 49%|████▉     | 181938/371472 [3:24:24<13:35:41,  3.87it/s] 49%|████▉     | 181939/371472 [3:24:24<14:27:38,  3.64it/s] 49%|████▉     | 181940/371472 [3:24:24<14:55:46,  3.53it/s]                                                            {'loss': 3.1422, 'learning_rate': 5.594442888232885e-07, 'epoch': 7.84}
 49%|████▉     | 181940/371472 [3:24:24<14:55:46,  3.53it/s] 49%|████▉     | 181941/371472 [3:24:25<15:02:25,  3.50it/s] 49%|████▉     | 181942/371472 [3:24:25<14:47:26,  3.56it/s] 49%|████▉     | 181943/371472 [3:24:25<14:34:42,  3.61it/s] 49%|████▉     | 181944/371472 [3:24:25<14:21:01,  3.67it/s] 49%|████▉     | 181945/371472 [3:24:26<14:43:32,  3.58it/s] 49%|████▉     | 181946/371472 [3:24:26<14:34:33,  3.61it/s] 49%|████▉     | 181947/371472 [3:24:26<15:13:47,  3.46it/s] 49%|████▉     | 181948/371472 [3:24:27<15:19:07,  3.44it/s] 49%|████▉     | 181949/371472 [3:24:27<15:27:19,  3.41it/s] 49%|████▉     | 181950/371472 [3:24:27<15:18:18,  3.44it/s] 49%|████▉     | 181951/371472 [3:24:27<15:14:57,  3.45it/s] 49%|████▉     | 181952/371472 [3:24:28<14:50:13,  3.55it/s] 49%|████▉     | 181953/371472 [3:24:28<14:48:06,  3.56it/s] 49%|████▉     | 181954/371472 [3:24:28<14:21:56,  3.66it/s] 49%|████▉     | 181955/371472 [3:24:28<14:38:34,  3.60it/s] 49%|████▉     | 181956/371472 [3:24:29<14:05:49,  3.73it/s] 49%|████▉     | 181957/371472 [3:24:29<14:12:08,  3.71it/s] 49%|████▉     | 181958/371472 [3:24:29<15:22:38,  3.42it/s] 49%|████▉     | 181959/371472 [3:24:30<15:03:25,  3.50it/s] 49%|████▉     | 181960/371472 [3:24:30<15:27:13,  3.41it/s]                                                            {'loss': 2.9828, 'learning_rate': 5.593958068478098e-07, 'epoch': 7.84}
 49%|████▉     | 181960/371472 [3:24:30<15:27:13,  3.41it/s] 49%|████▉     | 181961/371472 [3:24:30<15:00:11,  3.51it/s] 49%|████▉     | 181962/371472 [3:24:31<15:16:16,  3.45it/s] 49%|████▉     | 181963/371472 [3:24:31<15:25:40,  3.41it/s] 49%|████▉     | 181964/371472 [3:24:31<15:38:27,  3.37it/s] 49%|████▉     | 181965/371472 [3:24:31<14:56:52,  3.52it/s] 49%|████▉     | 181966/371472 [3:24:32<14:39:55,  3.59it/s] 49%|████▉     | 181967/371472 [3:24:32<14:32:33,  3.62it/s] 49%|████▉     | 181968/371472 [3:24:32<14:25:27,  3.65it/s] 49%|████▉     | 181969/371472 [3:24:32<14:32:01,  3.62it/s] 49%|████▉     | 181970/371472 [3:24:33<14:26:50,  3.64it/s] 49%|████▉     | 181971/371472 [3:24:33<15:05:24,  3.49it/s] 49%|████▉     | 181972/371472 [3:24:33<15:59:34,  3.29it/s] 49%|████▉     | 181973/371472 [3:24:34<15:38:24,  3.37it/s] 49%|████▉     | 181974/371472 [3:24:34<16:02:00,  3.28it/s] 49%|████▉     | 181975/371472 [3:24:34<15:15:52,  3.45it/s] 49%|████▉     | 181976/371472 [3:24:34<14:46:51,  3.56it/s] 49%|████▉     | 181977/371472 [3:24:35<15:46:42,  3.34it/s] 49%|████▉     | 181978/371472 [3:24:35<15:16:31,  3.45it/s] 49%|████▉     | 181979/371472 [3:24:35<15:37:01,  3.37it/s] 49%|████▉     | 181980/371472 [3:24:36<17:07:07,  3.07it/s]                                                            {'loss': 3.221, 'learning_rate': 5.593473248723309e-07, 'epoch': 7.84}
 49%|████▉     | 181980/371472 [3:24:36<17:07:07,  3.07it/s] 49%|████▉     | 181981/371472 [3:24:36<16:12:50,  3.25it/s] 49%|████▉     | 181982/371472 [3:24:36<15:37:30,  3.37it/s] 49%|████▉     | 181983/371472 [3:24:37<15:16:02,  3.45it/s] 49%|████▉     | 181984/371472 [3:24:37<15:12:39,  3.46it/s] 49%|████▉     | 181985/371472 [3:24:37<14:57:15,  3.52it/s] 49%|████▉     | 181986/371472 [3:24:38<15:44:31,  3.34it/s] 49%|████▉     | 181987/371472 [3:24:38<15:11:23,  3.47it/s] 49%|████▉     | 181988/371472 [3:24:38<14:41:18,  3.58it/s] 49%|████▉     | 181989/371472 [3:24:38<14:38:01,  3.60it/s] 49%|████▉     | 181990/371472 [3:24:39<14:19:36,  3.67it/s] 49%|████▉     | 181991/371472 [3:24:39<15:20:16,  3.43it/s] 49%|████▉     | 181992/371472 [3:24:39<15:28:02,  3.40it/s] 49%|████▉     | 181993/371472 [3:24:39<15:20:29,  3.43it/s] 49%|████▉     | 181994/371472 [3:24:40<15:08:02,  3.48it/s] 49%|████▉     | 181995/371472 [3:24:40<14:52:07,  3.54it/s] 49%|████▉     | 181996/371472 [3:24:40<14:10:20,  3.71it/s] 49%|████▉     | 181997/371472 [3:24:41<14:01:47,  3.75it/s] 49%|████▉     | 181998/371472 [3:24:41<13:51:19,  3.80it/s] 49%|████▉     | 181999/371472 [3:24:41<13:42:29,  3.84it/s] 49%|████▉     | 182000/371472 [3:24:41<14:55:21,  3.53it/s]                                                            {'loss': 2.9749, 'learning_rate': 5.592988428968518e-07, 'epoch': 7.84}
 49%|████▉     | 182000/371472 [3:24:41<14:55:21,  3.53it/s] 49%|████▉     | 182001/371472 [3:24:42<14:40:09,  3.59it/s] 49%|████▉     | 182002/371472 [3:24:42<14:44:20,  3.57it/s] 49%|████▉     | 182003/371472 [3:24:42<16:15:55,  3.24it/s] 49%|████▉     | 182004/371472 [3:24:43<15:32:24,  3.39it/s] 49%|████▉     | 182005/371472 [3:24:43<16:38:24,  3.16it/s] 49%|████▉     | 182006/371472 [3:24:43<16:07:07,  3.27it/s] 49%|████▉     | 182007/371472 [3:24:44<15:41:33,  3.35it/s] 49%|████▉     | 182008/371472 [3:24:44<15:11:24,  3.46it/s] 49%|████▉     | 182009/371472 [3:24:44<14:54:21,  3.53it/s] 49%|████▉     | 182010/371472 [3:24:44<15:20:06,  3.43it/s] 49%|████▉     | 182011/371472 [3:24:45<15:51:27,  3.32it/s] 49%|████▉     | 182012/371472 [3:24:45<15:05:41,  3.49it/s] 49%|████▉     | 182013/371472 [3:24:45<15:00:55,  3.50it/s] 49%|████▉     | 182014/371472 [3:24:46<15:10:55,  3.47it/s] 49%|████▉     | 182015/371472 [3:24:46<15:37:12,  3.37it/s] 49%|████▉     | 182016/371472 [3:24:46<14:44:05,  3.57it/s] 49%|████▉     | 182017/371472 [3:24:46<14:51:52,  3.54it/s] 49%|████▉     | 182018/371472 [3:24:47<15:00:07,  3.51it/s] 49%|████▉     | 182019/371472 [3:24:47<15:54:09,  3.31it/s] 49%|████▉     | 182020/371472 [3:24:47<15:24:43,  3.41it/s]                                                            {'loss': 2.9997, 'learning_rate': 5.59250360921373e-07, 'epoch': 7.84}
 49%|████▉     | 182020/371472 [3:24:47<15:24:43,  3.41it/s] 49%|████▉     | 182021/371472 [3:24:48<15:17:35,  3.44it/s] 49%|████▉     | 182022/371472 [3:24:48<14:45:26,  3.57it/s] 49%|████▉     | 182023/371472 [3:24:48<14:51:54,  3.54it/s] 49%|████▉     | 182024/371472 [3:24:48<15:07:48,  3.48it/s] 49%|████▉     | 182025/371472 [3:24:49<14:58:58,  3.51it/s] 49%|████▉     | 182026/371472 [3:24:49<14:43:38,  3.57it/s] 49%|████▉     | 182027/371472 [3:24:49<15:44:24,  3.34it/s] 49%|████▉     | 182028/371472 [3:24:50<15:17:00,  3.44it/s] 49%|████▉     | 182029/371472 [3:24:50<14:29:48,  3.63it/s] 49%|████▉     | 182030/371472 [3:24:50<14:29:23,  3.63it/s] 49%|████▉     | 182031/371472 [3:24:50<14:32:14,  3.62it/s] 49%|████▉     | 182032/371472 [3:24:51<14:35:53,  3.60it/s] 49%|████▉     | 182033/371472 [3:24:51<14:24:00,  3.65it/s] 49%|████▉     | 182034/371472 [3:24:51<14:20:41,  3.67it/s] 49%|████▉     | 182035/371472 [3:24:51<14:25:21,  3.65it/s] 49%|████▉     | 182036/371472 [3:24:52<14:27:30,  3.64it/s] 49%|████▉     | 182037/371472 [3:24:52<15:46:40,  3.34it/s] 49%|████▉     | 182038/371472 [3:24:52<15:44:30,  3.34it/s] 49%|████▉     | 182039/371472 [3:24:53<16:30:23,  3.19it/s] 49%|████▉     | 182040/371472 [3:24:53<15:46:08,  3.34it/s]                                                            {'loss': 2.9814, 'learning_rate': 5.592018789458941e-07, 'epoch': 7.84}
 49%|████▉     | 182040/371472 [3:24:53<15:46:08,  3.34it/s] 49%|████▉     | 182041/371472 [3:24:53<15:01:20,  3.50it/s] 49%|████▉     | 182042/371472 [3:24:53<14:35:03,  3.61it/s] 49%|████▉     | 182043/371472 [3:24:54<14:37:08,  3.60it/s] 49%|████▉     | 182044/371472 [3:24:54<15:00:59,  3.50it/s] 49%|████▉     | 182045/371472 [3:24:54<14:42:58,  3.58it/s] 49%|████▉     | 182046/371472 [3:24:55<14:32:34,  3.62it/s] 49%|████▉     | 182047/371472 [3:24:55<14:17:06,  3.68it/s] 49%|████▉     | 182048/371472 [3:24:55<14:11:13,  3.71it/s] 49%|████▉     | 182049/371472 [3:24:55<14:18:41,  3.68it/s] 49%|████▉     | 182050/371472 [3:24:56<14:34:11,  3.61it/s] 49%|████▉     | 182051/371472 [3:24:56<15:22:57,  3.42it/s] 49%|████▉     | 182052/371472 [3:24:56<16:24:15,  3.21it/s] 49%|████▉     | 182053/371472 [3:24:57<16:04:10,  3.27it/s] 49%|████▉     | 182054/371472 [3:24:57<15:23:12,  3.42it/s] 49%|████▉     | 182055/371472 [3:24:57<15:27:15,  3.40it/s] 49%|████▉     | 182056/371472 [3:24:57<14:52:19,  3.54it/s] 49%|████▉     | 182057/371472 [3:24:58<14:41:07,  3.58it/s] 49%|████▉     | 182058/371472 [3:24:58<14:47:58,  3.56it/s] 49%|████▉     | 182059/371472 [3:24:58<14:50:59,  3.54it/s] 49%|████▉     | 182060/371472 [3:24:59<15:03:15,  3.49it/s]                                                            {'loss': 3.0743, 'learning_rate': 5.591533969704152e-07, 'epoch': 7.84}
 49%|████▉     | 182060/371472 [3:24:59<15:03:15,  3.49it/s] 49%|████▉     | 182061/371472 [3:24:59<15:08:21,  3.48it/s] 49%|████▉     | 182062/371472 [3:24:59<15:52:59,  3.31it/s] 49%|████▉     | 182063/371472 [3:25:00<15:41:47,  3.35it/s] 49%|████▉     | 182064/371472 [3:25:00<15:48:18,  3.33it/s] 49%|████▉     | 182065/371472 [3:25:00<15:17:50,  3.44it/s] 49%|████▉     | 182066/371472 [3:25:00<14:48:53,  3.55it/s] 49%|████▉     | 182067/371472 [3:25:01<14:27:13,  3.64it/s] 49%|████▉     | 182068/371472 [3:25:01<14:15:39,  3.69it/s] 49%|████▉     | 182069/371472 [3:25:01<14:00:51,  3.75it/s] 49%|████▉     | 182070/371472 [3:25:02<15:13:15,  3.46it/s] 49%|████▉     | 182071/371472 [3:25:02<15:08:13,  3.48it/s] 49%|████▉     | 182072/371472 [3:25:02<14:59:45,  3.51it/s] 49%|████▉     | 182073/371472 [3:25:02<14:30:39,  3.63it/s] 49%|████▉     | 182074/371472 [3:25:03<14:13:51,  3.70it/s] 49%|████▉     | 182075/371472 [3:25:03<14:06:14,  3.73it/s] 49%|████▉     | 182076/371472 [3:25:03<14:45:14,  3.57it/s] 49%|████▉     | 182077/371472 [3:25:03<14:29:27,  3.63it/s] 49%|████▉     | 182078/371472 [3:25:04<14:48:04,  3.55it/s] 49%|████▉     | 182079/371472 [3:25:04<14:32:28,  3.62it/s] 49%|████▉     | 182080/371472 [3:25:04<15:16:22,  3.44it/s]                                                            {'loss': 3.2492, 'learning_rate': 5.591049149949362e-07, 'epoch': 7.84}
 49%|████▉     | 182080/371472 [3:25:04<15:16:22,  3.44it/s] 49%|████▉     | 182081/371472 [3:25:05<15:08:27,  3.47it/s] 49%|████▉     | 182082/371472 [3:25:05<14:39:39,  3.59it/s] 49%|████▉     | 182083/371472 [3:25:05<14:29:08,  3.63it/s] 49%|████▉     | 182084/371472 [3:25:05<15:37:22,  3.37it/s] 49%|████▉     | 182085/371472 [3:25:06<15:43:00,  3.35it/s] 49%|████▉     | 182086/371472 [3:25:06<16:43:32,  3.15it/s] 49%|████▉     | 182087/371472 [3:25:06<16:47:22,  3.13it/s] 49%|████▉     | 182088/371472 [3:25:07<16:02:21,  3.28it/s] 49%|████▉     | 182089/371472 [3:25:07<15:15:00,  3.45it/s] 49%|████▉     | 182090/371472 [3:25:07<15:01:55,  3.50it/s] 49%|████▉     | 182091/371472 [3:25:08<14:47:59,  3.55it/s] 49%|████▉     | 182092/371472 [3:25:08<14:14:05,  3.70it/s] 49%|████▉     | 182093/371472 [3:25:08<14:33:47,  3.61it/s] 49%|████▉     | 182094/371472 [3:25:08<14:38:20,  3.59it/s] 49%|████▉     | 182095/371472 [3:25:09<15:54:13,  3.31it/s] 49%|████▉     | 182096/371472 [3:25:09<16:25:50,  3.20it/s] 49%|████▉     | 182097/371472 [3:25:09<15:51:42,  3.32it/s] 49%|████▉     | 182098/371472 [3:25:10<15:55:42,  3.30it/s] 49%|████▉     | 182099/371472 [3:25:10<16:52:17,  3.12it/s] 49%|████▉     | 182100/371472 [3:25:10<17:03:14,  3.08it/s]                                                            {'loss': 3.0442, 'learning_rate': 5.590564330194574e-07, 'epoch': 7.84}
 49%|████▉     | 182100/371472 [3:25:10<17:03:14,  3.08it/s] 49%|████▉     | 182101/371472 [3:25:11<17:02:42,  3.09it/s] 49%|████▉     | 182102/371472 [3:25:11<16:03:36,  3.28it/s] 49%|████▉     | 182103/371472 [3:25:11<15:48:08,  3.33it/s] 49%|████▉     | 182104/371472 [3:25:11<15:22:13,  3.42it/s] 49%|████▉     | 182105/371472 [3:25:12<15:25:03,  3.41it/s] 49%|████▉     | 182106/371472 [3:25:12<16:07:00,  3.26it/s] 49%|████▉     | 182107/371472 [3:25:12<15:39:09,  3.36it/s] 49%|████▉     | 182108/371472 [3:25:13<14:58:41,  3.51it/s] 49%|████▉     | 182109/371472 [3:25:13<14:31:17,  3.62it/s] 49%|████▉     | 182110/371472 [3:25:13<14:44:24,  3.57it/s] 49%|████▉     | 182111/371472 [3:25:13<14:42:04,  3.58it/s] 49%|████▉     | 182112/371472 [3:25:14<14:58:09,  3.51it/s] 49%|████▉     | 182113/371472 [3:25:14<16:00:41,  3.29it/s] 49%|████▉     | 182114/371472 [3:25:14<16:03:23,  3.28it/s] 49%|████▉     | 182115/371472 [3:25:15<16:42:23,  3.15it/s] 49%|████▉     | 182116/371472 [3:25:15<16:24:59,  3.20it/s] 49%|████▉     | 182117/371472 [3:25:15<15:23:08,  3.42it/s] 49%|████▉     | 182118/371472 [3:25:16<17:17:54,  3.04it/s] 49%|████▉     | 182119/371472 [3:25:16<17:02:43,  3.09it/s] 49%|████▉     | 182120/371472 [3:25:16<16:05:44,  3.27it/s]                                                            {'loss': 3.1358, 'learning_rate': 5.590079510439785e-07, 'epoch': 7.84}
 49%|████▉     | 182120/371472 [3:25:16<16:05:44,  3.27it/s] 49%|████▉     | 182121/371472 [3:25:17<16:17:05,  3.23it/s] 49%|████▉     | 182122/371472 [3:25:17<15:57:01,  3.30it/s] 49%|████▉     | 182123/371472 [3:25:17<18:31:04,  2.84it/s] 49%|████▉     | 182124/371472 [3:25:18<17:19:35,  3.04it/s] 49%|████▉     | 182125/371472 [3:25:18<16:51:30,  3.12it/s] 49%|████▉     | 182126/371472 [3:25:18<16:38:42,  3.16it/s] 49%|████▉     | 182127/371472 [3:25:18<15:37:58,  3.36it/s] 49%|████▉     | 182128/371472 [3:25:19<16:21:07,  3.22it/s] 49%|████▉     | 182129/371472 [3:25:19<17:33:13,  3.00it/s] 49%|████▉     | 182130/371472 [3:25:19<16:42:57,  3.15it/s] 49%|████▉     | 182131/371472 [3:25:20<15:58:29,  3.29it/s] 49%|████▉     | 182132/371472 [3:25:20<15:26:59,  3.40it/s] 49%|████▉     | 182133/371472 [3:25:20<15:39:09,  3.36it/s] 49%|████▉     | 182134/371472 [3:25:21<14:55:36,  3.52it/s] 49%|████▉     | 182135/371472 [3:25:21<14:50:54,  3.54it/s] 49%|████▉     | 182136/371472 [3:25:21<15:03:29,  3.49it/s] 49%|████▉     | 182137/371472 [3:25:21<15:11:01,  3.46it/s] 49%|████▉     | 182138/371472 [3:25:22<14:27:07,  3.64it/s] 49%|████▉     | 182139/371472 [3:25:22<14:17:55,  3.68it/s] 49%|████▉     | 182140/371472 [3:25:22<14:05:15,  3.73it/s]                                                            {'loss': 2.9702, 'learning_rate': 5.589594690684996e-07, 'epoch': 7.85}
 49%|████▉     | 182140/371472 [3:25:22<14:05:15,  3.73it/s] 49%|████▉     | 182141/371472 [3:25:23<14:23:28,  3.65it/s] 49%|████▉     | 182142/371472 [3:25:23<14:00:53,  3.75it/s] 49%|████▉     | 182143/371472 [3:25:23<14:14:12,  3.69it/s] 49%|████▉     | 182144/371472 [3:25:23<13:49:24,  3.80it/s] 49%|████▉     | 182145/371472 [3:25:24<13:42:20,  3.84it/s] 49%|████▉     | 182146/371472 [3:25:24<13:35:27,  3.87it/s] 49%|████▉     | 182147/371472 [3:25:24<13:27:59,  3.91it/s] 49%|████▉     | 182148/371472 [3:25:24<14:57:08,  3.52it/s] 49%|████▉     | 182149/371472 [3:25:25<15:56:50,  3.30it/s] 49%|████▉     | 182150/371472 [3:25:25<15:22:51,  3.42it/s] 49%|████▉     | 182151/371472 [3:25:25<14:48:04,  3.55it/s] 49%|████▉     | 182152/371472 [3:25:26<14:36:14,  3.60it/s] 49%|████▉     | 182153/371472 [3:25:26<14:31:40,  3.62it/s] 49%|████▉     | 182154/371472 [3:25:26<14:10:56,  3.71it/s] 49%|████▉     | 182155/371472 [3:25:26<13:47:58,  3.81it/s] 49%|████▉     | 182156/371472 [3:25:27<13:37:15,  3.86it/s] 49%|████▉     | 182157/371472 [3:25:27<13:26:18,  3.91it/s] 49%|████▉     | 182158/371472 [3:25:27<14:17:01,  3.68it/s] 49%|████▉     | 182159/371472 [3:25:27<14:07:47,  3.72it/s] 49%|████▉     | 182160/371472 [3:25:28<13:48:05,  3.81it/s]                                                            {'loss': 3.2464, 'learning_rate': 5.589109870930207e-07, 'epoch': 7.85}
 49%|████▉     | 182160/371472 [3:25:28<13:48:05,  3.81it/s] 49%|████▉     | 182161/371472 [3:25:28<13:41:17,  3.84it/s] 49%|████▉     | 182162/371472 [3:25:28<13:56:37,  3.77it/s] 49%|████▉     | 182163/371472 [3:25:28<14:13:52,  3.70it/s] 49%|████▉     | 182164/371472 [3:25:29<14:31:52,  3.62it/s] 49%|████▉     | 182165/371472 [3:25:29<14:20:58,  3.66it/s] 49%|████▉     | 182166/371472 [3:25:29<14:15:29,  3.69it/s] 49%|████▉     | 182167/371472 [3:25:30<14:38:40,  3.59it/s] 49%|████▉     | 182168/371472 [3:25:30<15:06:08,  3.48it/s] 49%|████▉     | 182169/371472 [3:25:30<14:56:42,  3.52it/s] 49%|████▉     | 182170/371472 [3:25:30<15:27:57,  3.40it/s] 49%|████▉     | 182171/371472 [3:25:31<15:47:15,  3.33it/s] 49%|████▉     | 182172/371472 [3:25:31<15:19:28,  3.43it/s] 49%|████▉     | 182173/371472 [3:25:31<15:20:07,  3.43it/s] 49%|████▉     | 182174/371472 [3:25:32<15:56:01,  3.30it/s] 49%|████▉     | 182175/371472 [3:25:32<15:05:17,  3.49it/s] 49%|████▉     | 182176/371472 [3:25:32<15:01:41,  3.50it/s] 49%|████▉     | 182177/371472 [3:25:32<14:27:11,  3.64it/s] 49%|████▉     | 182178/371472 [3:25:33<14:34:24,  3.61it/s] 49%|████▉     | 182179/371472 [3:25:33<14:06:05,  3.73it/s] 49%|████▉     | 182180/371472 [3:25:33<16:00:13,  3.29it/s]                                                            {'loss': 2.985, 'learning_rate': 5.588625051175418e-07, 'epoch': 7.85}
 49%|████▉     | 182180/371472 [3:25:33<16:00:13,  3.29it/s] 49%|████▉     | 182181/371472 [3:25:34<15:25:47,  3.41it/s] 49%|████▉     | 182182/371472 [3:25:34<15:33:40,  3.38it/s] 49%|████▉     | 182183/371472 [3:25:34<15:36:21,  3.37it/s] 49%|████▉     | 182184/371472 [3:25:35<15:46:36,  3.33it/s] 49%|████▉     | 182185/371472 [3:25:35<15:54:04,  3.31it/s] 49%|████▉     | 182186/371472 [3:25:35<15:18:03,  3.44it/s] 49%|████▉     | 182187/371472 [3:25:35<14:33:18,  3.61it/s] 49%|████▉     | 182188/371472 [3:25:36<14:06:22,  3.73it/s] 49%|████▉     | 182189/371472 [3:25:36<14:17:48,  3.68it/s] 49%|████▉     | 182190/371472 [3:25:36<14:31:33,  3.62it/s] 49%|████▉     | 182191/371472 [3:25:36<14:44:53,  3.57it/s] 49%|████▉     | 182192/371472 [3:25:37<14:31:50,  3.62it/s] 49%|████▉     | 182193/371472 [3:25:37<14:30:37,  3.62it/s] 49%|████▉     | 182194/371472 [3:25:37<14:35:01,  3.61it/s] 49%|████▉     | 182195/371472 [3:25:38<14:30:17,  3.62it/s] 49%|████▉     | 182196/371472 [3:25:38<15:14:42,  3.45it/s] 49%|████▉     | 182197/371472 [3:25:38<14:56:39,  3.52it/s] 49%|████▉     | 182198/371472 [3:25:38<14:43:14,  3.57it/s] 49%|████▉     | 182199/371472 [3:25:39<15:07:25,  3.48it/s] 49%|████▉     | 182200/371472 [3:25:39<14:32:58,  3.61it/s]                                                            {'loss': 2.9114, 'learning_rate': 5.588140231420629e-07, 'epoch': 7.85}
 49%|████▉     | 182200/371472 [3:25:39<14:32:58,  3.61it/s] 49%|████▉     | 182201/371472 [3:25:39<15:39:33,  3.36it/s] 49%|████▉     | 182202/371472 [3:25:40<15:25:28,  3.41it/s] 49%|████▉     | 182203/371472 [3:25:40<15:43:59,  3.34it/s] 49%|████▉     | 182204/371472 [3:25:40<15:29:24,  3.39it/s] 49%|████▉     | 182205/371472 [3:25:40<15:07:18,  3.48it/s] 49%|████▉     | 182206/371472 [3:25:41<19:52:26,  2.65it/s] 49%|████▉     | 182207/371472 [3:25:41<18:14:16,  2.88it/s] 49%|████▉     | 182208/371472 [3:25:42<16:59:47,  3.09it/s] 49%|████▉     | 182209/371472 [3:25:42<16:21:58,  3.21it/s] 49%|████▉     | 182210/371472 [3:25:42<16:17:48,  3.23it/s] 49%|████▉     | 182211/371472 [3:25:42<15:50:43,  3.32it/s] 49%|████▉     | 182212/371472 [3:25:43<15:24:04,  3.41it/s] 49%|████▉     | 182213/371472 [3:25:43<15:35:31,  3.37it/s] 49%|████▉     | 182214/371472 [3:25:43<15:38:09,  3.36it/s] 49%|████▉     | 182215/371472 [3:25:44<15:51:22,  3.32it/s] 49%|████▉     | 182216/371472 [3:25:44<16:07:33,  3.26it/s] 49%|████▉     | 182217/371472 [3:25:44<15:33:46,  3.38it/s] 49%|████▉     | 182218/371472 [3:25:45<15:15:55,  3.44it/s] 49%|████▉     | 182219/371472 [3:25:45<14:55:30,  3.52it/s] 49%|████▉     | 182220/371472 [3:25:45<14:17:57,  3.68it/s]                                                            {'loss': 3.0938, 'learning_rate': 5.58765541166584e-07, 'epoch': 7.85}
 49%|████▉     | 182220/371472 [3:25:45<14:17:57,  3.68it/s] 49%|████▉     | 182221/371472 [3:25:45<13:46:02,  3.82it/s] 49%|████▉     | 182222/371472 [3:25:46<13:32:35,  3.88it/s] 49%|████▉     | 182223/371472 [3:25:46<14:35:05,  3.60it/s] 49%|████▉     | 182224/371472 [3:25:46<14:40:45,  3.58it/s] 49%|████▉     | 182225/371472 [3:25:46<14:28:55,  3.63it/s] 49%|████▉     | 182226/371472 [3:25:47<14:48:15,  3.55it/s] 49%|████▉     | 182227/371472 [3:25:47<14:41:51,  3.58it/s] 49%|████▉     | 182228/371472 [3:25:47<14:32:19,  3.62it/s] 49%|████▉     | 182229/371472 [3:25:48<14:20:13,  3.67it/s] 49%|████▉     | 182230/371472 [3:25:48<14:04:35,  3.73it/s] 49%|████▉     | 182231/371472 [3:25:48<13:44:20,  3.83it/s] 49%|████▉     | 182232/371472 [3:25:48<14:22:08,  3.66it/s] 49%|████▉     | 182233/371472 [3:25:49<14:17:15,  3.68it/s] 49%|████▉     | 182234/371472 [3:25:49<14:06:08,  3.73it/s] 49%|████▉     | 182235/371472 [3:25:49<14:00:09,  3.75it/s] 49%|████▉     | 182236/371472 [3:25:49<14:42:52,  3.57it/s] 49%|████▉     | 182237/371472 [3:25:50<14:26:04,  3.64it/s] 49%|████▉     | 182238/371472 [3:25:50<14:52:07,  3.54it/s] 49%|████▉     | 182239/371472 [3:25:50<15:01:16,  3.50it/s] 49%|████▉     | 182240/371472 [3:25:51<14:43:29,  3.57it/s]                                                            {'loss': 3.2254, 'learning_rate': 5.587170591911051e-07, 'epoch': 7.85}
 49%|████▉     | 182240/371472 [3:25:51<14:43:29,  3.57it/s] 49%|████▉     | 182241/371472 [3:25:51<14:35:54,  3.60it/s] 49%|████▉     | 182242/371472 [3:25:51<14:51:45,  3.54it/s] 49%|████▉     | 182243/371472 [3:25:51<14:48:54,  3.55it/s] 49%|████▉     | 182244/371472 [3:25:52<14:34:15,  3.61it/s] 49%|████▉     | 182245/371472 [3:25:52<14:56:05,  3.52it/s] 49%|████▉     | 182246/371472 [3:25:52<15:01:22,  3.50it/s] 49%|████▉     | 182247/371472 [3:25:53<15:04:18,  3.49it/s] 49%|████▉     | 182248/371472 [3:25:53<15:18:46,  3.43it/s] 49%|████▉     | 182249/371472 [3:25:53<14:40:50,  3.58it/s] 49%|████▉     | 182250/371472 [3:25:53<14:26:54,  3.64it/s] 49%|████▉     | 182251/371472 [3:25:54<15:03:50,  3.49it/s] 49%|████▉     | 182252/371472 [3:25:54<14:52:18,  3.53it/s] 49%|████▉     | 182253/371472 [3:25:54<15:07:22,  3.48it/s] 49%|████▉     | 182254/371472 [3:25:55<15:00:20,  3.50it/s] 49%|████▉     | 182255/371472 [3:25:55<14:49:35,  3.55it/s] 49%|████▉     | 182256/371472 [3:25:55<14:13:15,  3.70it/s] 49%|████▉     | 182257/371472 [3:25:55<14:12:46,  3.70it/s] 49%|████▉     | 182258/371472 [3:25:56<14:29:28,  3.63it/s] 49%|████▉     | 182259/371472 [3:25:56<14:32:48,  3.61it/s] 49%|████▉     | 182260/371472 [3:25:56<14:33:19,  3.61it/s]                                                            {'loss': 3.0848, 'learning_rate': 5.586685772156263e-07, 'epoch': 7.85}
 49%|████▉     | 182260/371472 [3:25:56<14:33:19,  3.61it/s] 49%|████▉     | 182261/371472 [3:25:56<14:32:54,  3.61it/s] 49%|████▉     | 182262/371472 [3:25:57<14:19:30,  3.67it/s] 49%|████▉     | 182263/371472 [3:25:57<14:03:26,  3.74it/s] 49%|████▉     | 182264/371472 [3:25:57<15:12:21,  3.46it/s] 49%|████▉     | 182265/371472 [3:25:58<16:37:50,  3.16it/s] 49%|████▉     | 182266/371472 [3:25:58<15:44:17,  3.34it/s] 49%|████▉     | 182267/371472 [3:25:58<15:27:47,  3.40it/s] 49%|████▉     | 182268/371472 [3:25:58<14:46:11,  3.56it/s] 49%|████▉     | 182269/371472 [3:25:59<15:51:07,  3.32it/s] 49%|████▉     | 182270/371472 [3:25:59<15:33:09,  3.38it/s] 49%|████▉     | 182271/371472 [3:25:59<15:27:27,  3.40it/s] 49%|████▉     | 182272/371472 [3:26:00<15:19:21,  3.43it/s] 49%|████▉     | 182273/371472 [3:26:00<15:43:39,  3.34it/s] 49%|████▉     | 182274/371472 [3:26:00<15:11:25,  3.46it/s] 49%|████▉     | 182275/371472 [3:26:01<15:21:11,  3.42it/s] 49%|████▉     | 182276/371472 [3:26:01<15:50:54,  3.32it/s] 49%|████▉     | 182277/371472 [3:26:01<15:10:59,  3.46it/s] 49%|████▉     | 182278/371472 [3:26:01<14:44:59,  3.56it/s] 49%|████▉     | 182279/371472 [3:26:02<14:51:41,  3.54it/s] 49%|████▉     | 182280/371472 [3:26:02<14:35:05,  3.60it/s]                                                            {'loss': 2.9967, 'learning_rate': 5.586200952401474e-07, 'epoch': 7.85}
 49%|████▉     | 182280/371472 [3:26:02<14:35:05,  3.60it/s] 49%|████▉     | 182281/371472 [3:26:02<14:56:39,  3.52it/s] 49%|████▉     | 182282/371472 [3:26:03<14:29:08,  3.63it/s] 49%|████▉     | 182283/371472 [3:26:03<14:41:23,  3.58it/s] 49%|████▉     | 182284/371472 [3:26:03<14:39:07,  3.59it/s] 49%|████▉     | 182285/371472 [3:26:03<14:54:36,  3.52it/s] 49%|████▉     | 182286/371472 [3:26:04<15:23:44,  3.41it/s] 49%|████▉     | 182287/371472 [3:26:04<14:59:43,  3.50it/s] 49%|████▉     | 182288/371472 [3:26:04<14:16:31,  3.68it/s] 49%|████▉     | 182289/371472 [3:26:04<13:51:52,  3.79it/s] 49%|████▉     | 182290/371472 [3:26:05<13:44:44,  3.82it/s] 49%|████▉     | 182291/371472 [3:26:05<14:19:30,  3.67it/s] 49%|████▉     | 182292/371472 [3:26:05<16:14:25,  3.24it/s] 49%|████▉     | 182293/371472 [3:26:06<15:17:26,  3.44it/s] 49%|████▉     | 182294/371472 [3:26:06<15:29:25,  3.39it/s] 49%|████▉     | 182295/371472 [3:26:06<15:07:36,  3.47it/s] 49%|████▉     | 182296/371472 [3:26:06<14:58:35,  3.51it/s] 49%|████▉     | 182297/371472 [3:26:07<16:19:51,  3.22it/s] 49%|████▉     | 182298/371472 [3:26:07<15:27:57,  3.40it/s] 49%|████▉     | 182299/371472 [3:26:07<15:22:13,  3.42it/s] 49%|████▉     | 182300/371472 [3:26:08<15:19:53,  3.43it/s]                                                            {'loss': 2.9892, 'learning_rate': 5.585716132646684e-07, 'epoch': 7.85}
 49%|████▉     | 182300/371472 [3:26:08<15:19:53,  3.43it/s] 49%|████▉     | 182301/371472 [3:26:08<15:20:56,  3.42it/s] 49%|████▉     | 182302/371472 [3:26:08<15:03:11,  3.49it/s] 49%|████▉     | 182303/371472 [3:26:09<15:42:42,  3.34it/s] 49%|████▉     | 182304/371472 [3:26:09<15:10:57,  3.46it/s] 49%|████▉     | 182305/371472 [3:26:09<14:36:52,  3.60it/s] 49%|████▉     | 182306/371472 [3:26:09<15:17:46,  3.44it/s] 49%|████▉     | 182307/371472 [3:26:10<14:57:07,  3.51it/s] 49%|████▉     | 182308/371472 [3:26:10<15:08:09,  3.47it/s] 49%|████▉     | 182309/371472 [3:26:10<15:06:52,  3.48it/s] 49%|████▉     | 182310/371472 [3:26:11<14:38:28,  3.59it/s] 49%|████▉     | 182311/371472 [3:26:11<14:14:37,  3.69it/s] 49%|████▉     | 182312/371472 [3:26:11<14:14:01,  3.69it/s] 49%|████▉     | 182313/371472 [3:26:11<15:10:22,  3.46it/s] 49%|████▉     | 182314/371472 [3:26:12<15:34:57,  3.37it/s] 49%|████▉     | 182315/371472 [3:26:12<16:09:09,  3.25it/s] 49%|████▉     | 182316/371472 [3:26:12<15:24:31,  3.41it/s] 49%|████▉     | 182317/371472 [3:26:13<14:33:54,  3.61it/s] 49%|████▉     | 182318/371472 [3:26:13<14:37:10,  3.59it/s] 49%|████▉     | 182319/371472 [3:26:13<14:38:25,  3.59it/s] 49%|████▉     | 182320/371472 [3:26:13<14:41:23,  3.58it/s]                                                            {'loss': 3.0164, 'learning_rate': 5.585231312891895e-07, 'epoch': 7.85}
 49%|████▉     | 182320/371472 [3:26:13<14:41:23,  3.58it/s] 49%|████▉     | 182321/371472 [3:26:14<14:52:14,  3.53it/s] 49%|████▉     | 182322/371472 [3:26:14<14:49:45,  3.54it/s] 49%|████▉     | 182323/371472 [3:26:14<14:48:03,  3.55it/s] 49%|████▉     | 182324/371472 [3:26:14<14:20:41,  3.66it/s] 49%|████▉     | 182325/371472 [3:26:15<13:45:10,  3.82it/s] 49%|████▉     | 182326/371472 [3:26:15<14:12:34,  3.70it/s] 49%|████▉     | 182327/371472 [3:26:15<16:02:31,  3.28it/s] 49%|████▉     | 182328/371472 [3:26:16<16:26:04,  3.20it/s] 49%|████▉     | 182329/371472 [3:26:16<15:32:15,  3.38it/s] 49%|████▉     | 182330/371472 [3:26:16<15:24:22,  3.41it/s] 49%|████▉     | 182331/371472 [3:26:17<14:44:53,  3.56it/s] 49%|████▉     | 182332/371472 [3:26:17<14:52:55,  3.53it/s] 49%|████▉     | 182333/371472 [3:26:17<14:43:03,  3.57it/s] 49%|████▉     | 182334/371472 [3:26:17<15:58:55,  3.29it/s] 49%|████▉     | 182335/371472 [3:26:18<15:22:38,  3.42it/s] 49%|████▉     | 182336/371472 [3:26:18<14:42:38,  3.57it/s] 49%|████▉     | 182337/371472 [3:26:18<14:16:06,  3.68it/s] 49%|████▉     | 182338/371472 [3:26:18<13:52:07,  3.79it/s] 49%|████▉     | 182339/371472 [3:26:19<13:48:55,  3.80it/s] 49%|████▉     | 182340/371472 [3:26:19<14:06:01,  3.73it/s]                                                            {'loss': 3.0622, 'learning_rate': 5.584746493137108e-07, 'epoch': 7.85}
 49%|████▉     | 182340/371472 [3:26:19<14:06:01,  3.73it/s] 49%|████▉     | 182341/371472 [3:26:19<14:26:06,  3.64it/s] 49%|████▉     | 182342/371472 [3:26:20<13:50:52,  3.79it/s] 49%|████▉     | 182343/371472 [3:26:20<13:43:47,  3.83it/s] 49%|████▉     | 182344/371472 [3:26:20<15:38:08,  3.36it/s] 49%|████▉     | 182345/371472 [3:26:20<14:39:43,  3.58it/s] 49%|████▉     | 182346/371472 [3:26:21<14:05:36,  3.73it/s] 49%|████▉     | 182347/371472 [3:26:21<15:41:08,  3.35it/s] 49%|████▉     | 182348/371472 [3:26:21<15:25:51,  3.40it/s] 49%|████▉     | 182349/371472 [3:26:22<14:36:41,  3.60it/s] 49%|████▉     | 182350/371472 [3:26:22<14:13:42,  3.69it/s] 49%|████▉     | 182351/371472 [3:26:22<14:49:42,  3.54it/s] 49%|████▉     | 182352/371472 [3:26:22<14:28:58,  3.63it/s] 49%|████▉     | 182353/371472 [3:26:23<13:50:47,  3.79it/s] 49%|████▉     | 182354/371472 [3:26:23<13:36:29,  3.86it/s] 49%|████▉     | 182355/371472 [3:26:23<13:29:19,  3.89it/s] 49%|████▉     | 182356/371472 [3:26:23<14:06:53,  3.72it/s] 49%|████▉     | 182357/371472 [3:26:24<15:02:34,  3.49it/s] 49%|████▉     | 182358/371472 [3:26:24<14:50:14,  3.54it/s] 49%|████▉     | 182359/371472 [3:26:24<14:28:14,  3.63it/s] 49%|████▉     | 182360/371472 [3:26:25<14:03:33,  3.74it/s]                                                            {'loss': 3.1121, 'learning_rate': 5.584261673382318e-07, 'epoch': 7.85}
 49%|████▉     | 182360/371472 [3:26:25<14:03:33,  3.74it/s] 49%|████▉     | 182361/371472 [3:26:25<13:31:00,  3.89it/s] 49%|████▉     | 182362/371472 [3:26:25<13:46:39,  3.81it/s] 49%|████▉     | 182363/371472 [3:26:25<14:28:49,  3.63it/s] 49%|████▉     | 182364/371472 [3:26:26<15:16:36,  3.44it/s] 49%|████▉     | 182365/371472 [3:26:26<14:51:31,  3.54it/s] 49%|████▉     | 182366/371472 [3:26:26<16:26:51,  3.19it/s] 49%|████▉     | 182367/371472 [3:26:27<15:48:40,  3.32it/s] 49%|████▉     | 182368/371472 [3:26:27<15:12:44,  3.45it/s] 49%|████▉     | 182369/371472 [3:26:27<15:53:51,  3.30it/s] 49%|████▉     | 182370/371472 [3:26:27<15:46:21,  3.33it/s] 49%|████▉     | 182371/371472 [3:26:28<15:10:03,  3.46it/s] 49%|████▉     | 182372/371472 [3:26:28<15:29:05,  3.39it/s] 49%|████▉     | 182373/371472 [3:26:28<15:01:28,  3.50it/s] 49%|████▉     | 182374/371472 [3:26:29<15:19:38,  3.43it/s] 49%|████▉     | 182375/371472 [3:26:29<14:57:38,  3.51it/s] 49%|████▉     | 182376/371472 [3:26:29<14:53:46,  3.53it/s] 49%|████▉     | 182377/371472 [3:26:29<14:29:44,  3.62it/s] 49%|████▉     | 182378/371472 [3:26:30<15:28:14,  3.40it/s] 49%|████▉     | 182379/371472 [3:26:30<15:35:48,  3.37it/s] 49%|████▉     | 182380/371472 [3:26:30<15:42:43,  3.34it/s]                                                            {'loss': 3.0547, 'learning_rate': 5.583776853627528e-07, 'epoch': 7.86}
 49%|████▉     | 182380/371472 [3:26:30<15:42:43,  3.34it/s] 49%|████▉     | 182381/371472 [3:26:31<15:07:26,  3.47it/s] 49%|████▉     | 182382/371472 [3:26:31<15:11:26,  3.46it/s] 49%|████▉     | 182383/371472 [3:26:31<16:29:19,  3.19it/s] 49%|████▉     | 182384/371472 [3:26:32<16:11:36,  3.24it/s] 49%|████▉     | 182385/371472 [3:26:32<16:35:14,  3.17it/s] 49%|████▉     | 182386/371472 [3:26:32<17:25:37,  3.01it/s] 49%|████▉     | 182387/371472 [3:26:33<16:20:44,  3.21it/s] 49%|████▉     | 182388/371472 [3:26:33<15:36:10,  3.37it/s] 49%|████▉     | 182389/371472 [3:26:33<15:57:29,  3.29it/s] 49%|████▉     | 182390/371472 [3:26:33<15:27:47,  3.40it/s] 49%|████▉     | 182391/371472 [3:26:34<15:10:47,  3.46it/s] 49%|████▉     | 182392/371472 [3:26:34<15:49:58,  3.32it/s] 49%|████▉     | 182393/371472 [3:26:34<15:00:50,  3.50it/s] 49%|████▉     | 182394/371472 [3:26:35<15:26:10,  3.40it/s] 49%|████▉     | 182395/371472 [3:26:35<16:49:32,  3.12it/s] 49%|████▉     | 182396/371472 [3:26:35<16:04:23,  3.27it/s] 49%|████▉     | 182397/371472 [3:26:36<16:05:16,  3.26it/s] 49%|████▉     | 182398/371472 [3:26:36<15:42:12,  3.34it/s] 49%|████▉     | 182399/371472 [3:26:36<16:27:36,  3.19it/s] 49%|████▉     | 182400/371472 [3:26:36<15:49:43,  3.32it/s]                                                            {'loss': 3.0318, 'learning_rate': 5.583292033872739e-07, 'epoch': 7.86}
 49%|████▉     | 182400/371472 [3:26:36<15:49:43,  3.32it/s] 49%|████▉     | 182401/371472 [3:26:37<15:13:10,  3.45it/s] 49%|████▉     | 182402/371472 [3:26:37<14:58:55,  3.51it/s] 49%|████▉     | 182403/371472 [3:26:37<14:34:59,  3.60it/s] 49%|████▉     | 182404/371472 [3:26:37<14:27:42,  3.63it/s] 49%|████▉     | 182405/371472 [3:26:38<14:09:10,  3.71it/s] 49%|████▉     | 182406/371472 [3:26:38<13:43:58,  3.82it/s] 49%|████▉     | 182407/371472 [3:26:38<13:28:19,  3.90it/s] 49%|████▉     | 182408/371472 [3:26:38<13:36:54,  3.86it/s] 49%|████▉     | 182409/371472 [3:26:39<13:58:02,  3.76it/s] 49%|████▉     | 182410/371472 [3:26:39<13:48:58,  3.80it/s] 49%|████▉     | 182411/371472 [3:26:39<14:23:42,  3.65it/s] 49%|████▉     | 182412/371472 [3:26:40<14:40:06,  3.58it/s] 49%|████▉     | 182413/371472 [3:26:40<14:47:09,  3.55it/s] 49%|████▉     | 182414/371472 [3:26:40<14:24:15,  3.65it/s] 49%|████▉     | 182415/371472 [3:26:40<14:24:24,  3.65it/s] 49%|████▉     | 182416/371472 [3:26:41<14:45:51,  3.56it/s] 49%|████▉     | 182417/371472 [3:26:41<14:21:14,  3.66it/s] 49%|████▉     | 182418/371472 [3:26:41<14:25:53,  3.64it/s] 49%|████▉     | 182419/371472 [3:26:42<14:14:16,  3.69it/s] 49%|████▉     | 182420/371472 [3:26:42<14:23:17,  3.65it/s]                                                            {'loss': 3.1261, 'learning_rate': 5.582807214117951e-07, 'epoch': 7.86}
 49%|████▉     | 182420/371472 [3:26:42<14:23:17,  3.65it/s] 49%|████▉     | 182421/371472 [3:26:42<14:44:34,  3.56it/s] 49%|████▉     | 182422/371472 [3:26:42<14:41:09,  3.58it/s] 49%|████▉     | 182423/371472 [3:26:43<14:19:28,  3.67it/s] 49%|████▉     | 182424/371472 [3:26:43<14:58:20,  3.51it/s] 49%|████▉     | 182425/371472 [3:26:43<14:59:21,  3.50it/s] 49%|████▉     | 182426/371472 [3:26:44<15:34:31,  3.37it/s] 49%|████▉     | 182427/371472 [3:26:44<15:01:42,  3.49it/s] 49%|████▉     | 182428/371472 [3:26:44<14:28:57,  3.63it/s] 49%|████▉     | 182429/371472 [3:26:44<15:22:32,  3.42it/s] 49%|████▉     | 182430/371472 [3:26:45<14:40:24,  3.58it/s] 49%|████▉     | 182431/371472 [3:26:45<15:21:52,  3.42it/s] 49%|████▉     | 182432/371472 [3:26:45<16:09:37,  3.25it/s] 49%|████▉     | 182433/371472 [3:26:46<15:32:08,  3.38it/s] 49%|████▉     | 182434/371472 [3:26:46<15:12:34,  3.45it/s] 49%|████▉     | 182435/371472 [3:26:46<15:04:11,  3.48it/s] 49%|████▉     | 182436/371472 [3:26:47<16:14:25,  3.23it/s] 49%|████▉     | 182437/371472 [3:26:47<15:36:00,  3.37it/s] 49%|████▉     | 182438/371472 [3:26:47<16:11:10,  3.24it/s] 49%|████▉     | 182439/371472 [3:26:47<15:31:39,  3.38it/s] 49%|████▉     | 182440/371472 [3:26:48<16:11:39,  3.24it/s]                                                            {'loss': 3.0668, 'learning_rate': 5.582322394363162e-07, 'epoch': 7.86}
 49%|████▉     | 182440/371472 [3:26:48<16:11:39,  3.24it/s] 49%|████▉     | 182441/371472 [3:26:48<15:49:25,  3.32it/s] 49%|████▉     | 182442/371472 [3:26:48<15:40:49,  3.35it/s] 49%|████▉     | 182443/371472 [3:26:49<16:12:18,  3.24it/s] 49%|████▉     | 182444/371472 [3:26:49<15:24:38,  3.41it/s] 49%|████▉     | 182445/371472 [3:26:49<15:19:27,  3.43it/s] 49%|████▉     | 182446/371472 [3:26:49<15:09:09,  3.47it/s] 49%|████▉     | 182447/371472 [3:26:50<15:41:24,  3.35it/s] 49%|████▉     | 182448/371472 [3:26:50<15:04:54,  3.48it/s] 49%|████▉     | 182449/371472 [3:26:50<15:34:02,  3.37it/s] 49%|████▉     | 182450/371472 [3:26:51<16:19:10,  3.22it/s] 49%|████▉     | 182451/371472 [3:26:51<15:36:27,  3.36it/s] 49%|████▉     | 182452/371472 [3:26:51<15:11:34,  3.46it/s] 49%|████▉     | 182453/371472 [3:26:52<15:36:17,  3.36it/s] 49%|████▉     | 182454/371472 [3:26:52<14:50:17,  3.54it/s] 49%|████▉     | 182455/371472 [3:26:52<14:53:46,  3.52it/s] 49%|████▉     | 182456/371472 [3:26:52<15:07:31,  3.47it/s] 49%|████▉     | 182457/371472 [3:26:53<14:23:51,  3.65it/s] 49%|████▉     | 182458/371472 [3:26:53<14:46:39,  3.55it/s] 49%|████▉     | 182459/371472 [3:26:53<14:26:55,  3.63it/s] 49%|████▉     | 182460/371472 [3:26:53<14:15:15,  3.68it/s]                                                            {'loss': 3.0498, 'learning_rate': 5.581837574608372e-07, 'epoch': 7.86}
 49%|████▉     | 182460/371472 [3:26:53<14:15:15,  3.68it/s] 49%|████▉     | 182461/371472 [3:26:54<14:36:29,  3.59it/s] 49%|████▉     | 182462/371472 [3:26:54<14:36:49,  3.59it/s] 49%|████▉     | 182463/371472 [3:26:54<14:35:34,  3.60it/s] 49%|████▉     | 182464/371472 [3:26:55<15:14:09,  3.45it/s] 49%|████▉     | 182465/371472 [3:26:55<15:52:06,  3.31it/s] 49%|████▉     | 182466/371472 [3:26:55<15:03:56,  3.48it/s] 49%|████▉     | 182467/371472 [3:26:55<14:29:50,  3.62it/s] 49%|████▉     | 182468/371472 [3:26:56<14:16:03,  3.68it/s] 49%|████▉     | 182469/371472 [3:26:56<14:05:19,  3.73it/s] 49%|████▉     | 182470/371472 [3:26:56<13:54:25,  3.78it/s] 49%|████▉     | 182471/371472 [3:26:57<14:22:02,  3.65it/s] 49%|████▉     | 182472/371472 [3:26:57<14:40:44,  3.58it/s] 49%|████▉     | 182473/371472 [3:26:57<14:36:22,  3.59it/s] 49%|████▉     | 182474/371472 [3:26:57<14:36:40,  3.59it/s] 49%|████▉     | 182475/371472 [3:26:58<14:10:42,  3.70it/s] 49%|████▉     | 182476/371472 [3:26:58<13:52:09,  3.79it/s] 49%|████▉     | 182477/371472 [3:26:58<14:01:39,  3.74it/s] 49%|████▉     | 182478/371472 [3:26:58<14:04:01,  3.73it/s] 49%|████▉     | 182479/371472 [3:26:59<14:14:41,  3.69it/s] 49%|████▉     | 182480/371472 [3:26:59<14:47:14,  3.55it/s]                                                            {'loss': 3.2061, 'learning_rate': 5.581352754853585e-07, 'epoch': 7.86}
 49%|████▉     | 182480/371472 [3:26:59<14:47:14,  3.55it/s] 49%|████▉     | 182481/371472 [3:26:59<15:21:23,  3.42it/s] 49%|████▉     | 182482/371472 [3:27:00<14:36:31,  3.59it/s] 49%|████▉     | 182483/371472 [3:27:00<14:31:51,  3.61it/s] 49%|████▉     | 182484/371472 [3:27:00<14:46:45,  3.55it/s] 49%|████▉     | 182485/371472 [3:27:00<15:25:55,  3.40it/s] 49%|████▉     | 182486/371472 [3:27:01<15:28:59,  3.39it/s] 49%|████▉     | 182487/371472 [3:27:01<15:07:50,  3.47it/s] 49%|████▉     | 182488/371472 [3:27:01<14:22:30,  3.65it/s] 49%|████▉     | 182489/371472 [3:27:02<15:35:31,  3.37it/s] 49%|████▉     | 182490/371472 [3:27:02<16:06:51,  3.26it/s] 49%|████▉     | 182491/371472 [3:27:02<15:14:58,  3.44it/s] 49%|████▉     | 182492/371472 [3:27:02<14:48:42,  3.54it/s] 49%|████▉     | 182493/371472 [3:27:03<14:34:05,  3.60it/s] 49%|████▉     | 182494/371472 [3:27:03<15:28:01,  3.39it/s] 49%|████▉     | 182495/371472 [3:27:03<15:50:53,  3.31it/s] 49%|████▉     | 182496/371472 [3:27:04<15:18:46,  3.43it/s] 49%|████▉     | 182497/371472 [3:27:04<15:16:13,  3.44it/s] 49%|████▉     | 182498/371472 [3:27:04<15:30:49,  3.38it/s] 49%|████▉     | 182499/371472 [3:27:05<15:30:27,  3.38it/s] 49%|████▉     | 182500/371472 [3:27:05<15:23:52,  3.41it/s]                                                            {'loss': 2.8276, 'learning_rate': 5.580867935098797e-07, 'epoch': 7.86}
 49%|████▉     | 182500/371472 [3:27:05<15:23:52,  3.41it/s] 49%|████▉     | 182501/371472 [3:27:05<15:32:46,  3.38it/s] 49%|████▉     | 182502/371472 [3:27:05<15:19:05,  3.43it/s] 49%|████▉     | 182503/371472 [3:27:06<16:57:35,  3.10it/s] 49%|████▉     | 182504/371472 [3:27:06<16:00:12,  3.28it/s] 49%|████▉     | 182505/371472 [3:27:06<15:54:14,  3.30it/s] 49%|████▉     | 182506/371472 [3:27:07<15:29:02,  3.39it/s] 49%|████▉     | 182507/371472 [3:27:07<15:18:34,  3.43it/s] 49%|████▉     | 182508/371472 [3:27:07<14:37:13,  3.59it/s] 49%|████▉     | 182509/371472 [3:27:07<14:09:33,  3.71it/s] 49%|████▉     | 182510/371472 [3:27:08<13:35:39,  3.86it/s] 49%|████▉     | 182511/371472 [3:27:08<13:25:18,  3.91it/s] 49%|████▉     | 182512/371472 [3:27:08<13:29:24,  3.89it/s] 49%|████▉     | 182513/371472 [3:27:08<13:25:42,  3.91it/s] 49%|████▉     | 182514/371472 [3:27:09<14:21:12,  3.66it/s] 49%|████▉     | 182515/371472 [3:27:09<13:52:19,  3.78it/s] 49%|████▉     | 182516/371472 [3:27:09<13:47:32,  3.81it/s] 49%|████▉     | 182517/371472 [3:27:10<14:54:26,  3.52it/s] 49%|████▉     | 182518/371472 [3:27:10<14:41:08,  3.57it/s] 49%|████▉     | 182519/371472 [3:27:10<14:28:56,  3.62it/s] 49%|████▉     | 182520/371472 [3:27:10<14:34:23,  3.60it/s]                                                            {'loss': 3.2113, 'learning_rate': 5.580383115344007e-07, 'epoch': 7.86}
 49%|████▉     | 182520/371472 [3:27:10<14:34:23,  3.60it/s] 49%|████▉     | 182521/371472 [3:27:11<14:55:44,  3.52it/s] 49%|████▉     | 182522/371472 [3:27:11<14:47:20,  3.55it/s] 49%|████▉     | 182523/371472 [3:27:11<15:41:03,  3.35it/s] 49%|████▉     | 182524/371472 [3:27:12<14:58:46,  3.50it/s] 49%|████▉     | 182525/371472 [3:27:12<15:04:44,  3.48it/s] 49%|████▉     | 182526/371472 [3:27:12<14:42:56,  3.57it/s] 49%|████▉     | 182527/371472 [3:27:12<14:27:09,  3.63it/s] 49%|████▉     | 182528/371472 [3:27:13<13:57:55,  3.76it/s] 49%|████▉     | 182529/371472 [3:27:13<14:05:28,  3.72it/s] 49%|████▉     | 182530/371472 [3:27:13<14:09:02,  3.71it/s] 49%|████▉     | 182531/371472 [3:27:13<14:04:35,  3.73it/s] 49%|████▉     | 182532/371472 [3:27:14<14:26:17,  3.64it/s] 49%|████▉     | 182533/371472 [3:27:14<14:25:30,  3.64it/s] 49%|████▉     | 182534/371472 [3:27:14<14:26:35,  3.63it/s] 49%|████▉     | 182535/371472 [3:27:15<14:11:21,  3.70it/s] 49%|████▉     | 182536/371472 [3:27:15<14:16:42,  3.68it/s] 49%|████▉     | 182537/371472 [3:27:15<14:25:13,  3.64it/s] 49%|████▉     | 182538/371472 [3:27:15<15:06:30,  3.47it/s] 49%|████▉     | 182539/371472 [3:27:16<15:00:36,  3.50it/s] 49%|████▉     | 182540/371472 [3:27:16<15:04:35,  3.48it/s]                                                            {'loss': 3.1549, 'learning_rate': 5.579898295589217e-07, 'epoch': 7.86}
 49%|████▉     | 182540/371472 [3:27:16<15:04:35,  3.48it/s] 49%|████▉     | 182541/371472 [3:27:16<15:22:11,  3.41it/s] 49%|████▉     | 182542/371472 [3:27:17<16:44:53,  3.13it/s] 49%|████▉     | 182543/371472 [3:27:17<16:54:44,  3.10it/s] 49%|████▉     | 182544/371472 [3:27:17<16:48:01,  3.12it/s] 49%|████▉     | 182545/371472 [3:27:18<16:35:13,  3.16it/s] 49%|████▉     | 182546/371472 [3:27:18<15:48:54,  3.32it/s] 49%|████▉     | 182547/371472 [3:27:18<15:07:34,  3.47it/s] 49%|████▉     | 182548/371472 [3:27:18<14:48:43,  3.54it/s] 49%|████▉     | 182549/371472 [3:27:19<14:51:24,  3.53it/s] 49%|████▉     | 182550/371472 [3:27:19<15:08:29,  3.47it/s] 49%|████▉     | 182551/371472 [3:27:19<14:44:05,  3.56it/s] 49%|████▉     | 182552/371472 [3:27:20<15:36:02,  3.36it/s] 49%|████▉     | 182553/371472 [3:27:20<15:53:55,  3.30it/s] 49%|████▉     | 182554/371472 [3:27:20<15:38:06,  3.36it/s] 49%|████▉     | 182555/371472 [3:27:20<14:38:55,  3.58it/s] 49%|████▉     | 182556/371472 [3:27:21<14:27:08,  3.63it/s] 49%|████▉     | 182557/371472 [3:27:21<14:44:34,  3.56it/s] 49%|████▉     | 182558/371472 [3:27:21<14:54:00,  3.52it/s] 49%|████▉     | 182559/371472 [3:27:22<15:24:52,  3.40it/s] 49%|████▉     | 182560/371472 [3:27:22<16:56:39,  3.10it/s]                                                            {'loss': 3.1104, 'learning_rate': 5.579413475834428e-07, 'epoch': 7.86}
 49%|████▉     | 182560/371472 [3:27:22<16:56:39,  3.10it/s] 49%|████▉     | 182561/371472 [3:27:22<15:46:28,  3.33it/s] 49%|████▉     | 182562/371472 [3:27:23<15:12:39,  3.45it/s] 49%|████▉     | 182563/371472 [3:27:23<15:44:51,  3.33it/s] 49%|████▉     | 182564/371472 [3:27:23<15:22:24,  3.41it/s] 49%|████▉     | 182565/371472 [3:27:23<15:32:33,  3.38it/s] 49%|████▉     | 182566/371472 [3:27:24<14:42:57,  3.57it/s] 49%|████▉     | 182567/371472 [3:27:24<14:14:49,  3.68it/s] 49%|████▉     | 182568/371472 [3:27:24<13:55:52,  3.77it/s] 49%|████▉     | 182569/371472 [3:27:25<15:41:48,  3.34it/s] 49%|████▉     | 182570/371472 [3:27:25<15:08:02,  3.47it/s] 49%|████▉     | 182571/371472 [3:27:25<15:10:45,  3.46it/s] 49%|████▉     | 182572/371472 [3:27:25<14:34:55,  3.60it/s] 49%|████▉     | 182573/371472 [3:27:26<14:20:11,  3.66it/s] 49%|████▉     | 182574/371472 [3:27:26<14:04:00,  3.73it/s] 49%|████▉     | 182575/371472 [3:27:26<13:52:47,  3.78it/s] 49%|████▉     | 182576/371472 [3:27:26<15:23:17,  3.41it/s] 49%|████▉     | 182577/371472 [3:27:27<15:48:44,  3.32it/s] 49%|████▉     | 182578/371472 [3:27:27<15:14:23,  3.44it/s] 49%|████▉     | 182579/371472 [3:27:28<17:36:41,  2.98it/s] 49%|████▉     | 182580/371472 [3:27:28<17:34:14,  2.99it/s]                                                            {'loss': 3.0458, 'learning_rate': 5.578928656079639e-07, 'epoch': 7.86}
 49%|████▉     | 182580/371472 [3:27:28<17:34:14,  2.99it/s] 49%|████▉     | 182581/371472 [3:27:28<16:27:29,  3.19it/s] 49%|████▉     | 182582/371472 [3:27:28<16:14:13,  3.23it/s] 49%|████▉     | 182583/371472 [3:27:29<15:42:08,  3.34it/s] 49%|████▉     | 182584/371472 [3:27:29<15:52:37,  3.30it/s] 49%|████▉     | 182585/371472 [3:27:29<15:17:26,  3.43it/s] 49%|████▉     | 182586/371472 [3:27:30<15:33:36,  3.37it/s] 49%|████▉     | 182587/371472 [3:27:30<15:05:12,  3.48it/s] 49%|████▉     | 182588/371472 [3:27:30<14:41:27,  3.57it/s] 49%|████▉     | 182589/371472 [3:27:30<15:41:29,  3.34it/s] 49%|████▉     | 182590/371472 [3:27:31<15:04:58,  3.48it/s] 49%|████▉     | 182591/371472 [3:27:31<14:48:54,  3.54it/s] 49%|████▉     | 182592/371472 [3:27:31<15:07:19,  3.47it/s] 49%|████▉     | 182593/371472 [3:27:32<15:15:00,  3.44it/s] 49%|████▉     | 182594/371472 [3:27:32<14:58:09,  3.50it/s] 49%|████▉     | 182595/371472 [3:27:32<14:40:07,  3.58it/s] 49%|████▉     | 182596/371472 [3:27:32<14:11:57,  3.69it/s] 49%|████▉     | 182597/371472 [3:27:33<14:10:29,  3.70it/s] 49%|████▉     | 182598/371472 [3:27:33<13:44:28,  3.82it/s] 49%|████▉     | 182599/371472 [3:27:33<14:01:50,  3.74it/s] 49%|████▉     | 182600/371472 [3:27:33<14:18:54,  3.66it/s]                                                            {'loss': 3.0029, 'learning_rate': 5.578443836324849e-07, 'epoch': 7.86}
 49%|████▉     | 182600/371472 [3:27:33<14:18:54,  3.66it/s] 49%|████▉     | 182601/371472 [3:27:34<14:24:22,  3.64it/s] 49%|████▉     | 182602/371472 [3:27:34<14:09:49,  3.70it/s] 49%|████▉     | 182603/371472 [3:27:34<14:06:01,  3.72it/s] 49%|████▉     | 182604/371472 [3:27:34<13:52:38,  3.78it/s] 49%|████▉     | 182605/371472 [3:27:35<14:08:10,  3.71it/s] 49%|████▉     | 182606/371472 [3:27:35<13:56:47,  3.76it/s] 49%|████▉     | 182607/371472 [3:27:35<14:05:46,  3.72it/s] 49%|████▉     | 182608/371472 [3:27:36<14:09:43,  3.70it/s] 49%|████▉     | 182609/371472 [3:27:36<14:17:07,  3.67it/s] 49%|████▉     | 182610/371472 [3:27:36<14:03:23,  3.73it/s] 49%|████▉     | 182611/371472 [3:27:36<14:29:57,  3.62it/s] 49%|████▉     | 182612/371472 [3:27:37<14:40:43,  3.57it/s] 49%|████▉     | 182613/371472 [3:27:37<14:32:18,  3.61it/s] 49%|████▉     | 182614/371472 [3:27:37<14:37:56,  3.59it/s] 49%|████▉     | 182615/371472 [3:27:38<14:11:24,  3.70it/s] 49%|████▉     | 182616/371472 [3:27:38<13:41:56,  3.83it/s] 49%|████▉     | 182617/371472 [3:27:38<15:54:55,  3.30it/s] 49%|████▉     | 182618/371472 [3:27:38<15:00:35,  3.49it/s] 49%|████▉     | 182619/371472 [3:27:39<14:23:09,  3.65it/s] 49%|████▉     | 182620/371472 [3:27:39<14:34:36,  3.60it/s]                                                            {'loss': 3.0611, 'learning_rate': 5.577959016570061e-07, 'epoch': 7.87}
 49%|████▉     | 182620/371472 [3:27:39<14:34:36,  3.60it/s] 49%|████▉     | 182621/371472 [3:27:39<14:17:42,  3.67it/s] 49%|████▉     | 182622/371472 [3:27:39<14:21:14,  3.65it/s] 49%|████▉     | 182623/371472 [3:27:40<14:36:47,  3.59it/s] 49%|████▉     | 182624/371472 [3:27:40<14:26:25,  3.63it/s] 49%|████▉     | 182625/371472 [3:27:40<16:18:40,  3.22it/s] 49%|████▉     | 182626/371472 [3:27:41<16:18:27,  3.22it/s] 49%|████▉     | 182627/371472 [3:27:41<15:12:30,  3.45it/s] 49%|████▉     | 182628/371472 [3:27:41<15:13:07,  3.45it/s] 49%|████▉     | 182629/371472 [3:27:42<16:09:35,  3.25it/s] 49%|████▉     | 182630/371472 [3:27:42<15:10:19,  3.46it/s] 49%|████▉     | 182631/371472 [3:27:42<15:00:42,  3.49it/s] 49%|████▉     | 182632/371472 [3:27:42<14:54:53,  3.52it/s] 49%|████▉     | 182633/371472 [3:27:43<15:07:04,  3.47it/s] 49%|████▉     | 182634/371472 [3:27:43<14:52:21,  3.53it/s] 49%|████▉     | 182635/371472 [3:27:43<14:26:41,  3.63it/s] 49%|████▉     | 182636/371472 [3:27:44<14:47:33,  3.55it/s] 49%|████▉     | 182637/371472 [3:27:44<14:23:02,  3.65it/s] 49%|████▉     | 182638/371472 [3:27:44<14:57:44,  3.51it/s] 49%|████▉     | 182639/371472 [3:27:44<14:41:05,  3.57it/s] 49%|████▉     | 182640/371472 [3:27:45<14:48:44,  3.54it/s]                                                            {'loss': 3.2946, 'learning_rate': 5.577474196815273e-07, 'epoch': 7.87}
 49%|████▉     | 182640/371472 [3:27:45<14:48:44,  3.54it/s] 49%|████▉     | 182641/371472 [3:27:45<14:53:20,  3.52it/s] 49%|████▉     | 182642/371472 [3:27:45<14:56:48,  3.51it/s] 49%|████▉     | 182643/371472 [3:27:45<14:30:09,  3.62it/s] 49%|████▉     | 182644/371472 [3:27:46<14:16:38,  3.67it/s] 49%|████▉     | 182645/371472 [3:27:46<14:29:37,  3.62it/s] 49%|████▉     | 182646/371472 [3:27:46<14:39:06,  3.58it/s] 49%|████▉     | 182647/371472 [3:27:47<14:18:02,  3.67it/s] 49%|████▉     | 182648/371472 [3:27:47<14:55:01,  3.52it/s] 49%|████▉     | 182649/371472 [3:27:47<14:31:28,  3.61it/s] 49%|████▉     | 182650/371472 [3:27:47<13:56:23,  3.76it/s] 49%|████▉     | 182651/371472 [3:27:48<13:58:06,  3.75it/s] 49%|████▉     | 182652/371472 [3:27:48<15:22:23,  3.41it/s] 49%|████▉     | 182653/371472 [3:27:48<15:36:01,  3.36it/s] 49%|████▉     | 182654/371472 [3:27:49<15:28:47,  3.39it/s] 49%|████▉     | 182655/371472 [3:27:49<14:54:38,  3.52it/s] 49%|████▉     | 182656/371472 [3:27:49<15:31:40,  3.38it/s] 49%|████▉     | 182657/371472 [3:27:49<14:54:38,  3.52it/s] 49%|████▉     | 182658/371472 [3:27:50<15:45:50,  3.33it/s] 49%|████▉     | 182659/371472 [3:27:50<15:16:50,  3.43it/s] 49%|████▉     | 182660/371472 [3:27:50<14:50:22,  3.53it/s]                                                            {'loss': 3.0735, 'learning_rate': 5.576989377060484e-07, 'epoch': 7.87}
 49%|████▉     | 182660/371472 [3:27:50<14:50:22,  3.53it/s] 49%|████▉     | 182661/371472 [3:27:51<15:25:19,  3.40it/s] 49%|████▉     | 182662/371472 [3:27:51<15:22:25,  3.41it/s] 49%|████▉     | 182663/371472 [3:27:51<15:22:49,  3.41it/s] 49%|████▉     | 182664/371472 [3:27:52<15:19:11,  3.42it/s] 49%|████▉     | 182665/371472 [3:27:52<15:13:56,  3.44it/s] 49%|████▉     | 182666/371472 [3:27:52<14:57:21,  3.51it/s] 49%|████▉     | 182667/371472 [3:27:52<14:39:52,  3.58it/s] 49%|████▉     | 182668/371472 [3:27:53<14:12:01,  3.69it/s] 49%|████▉     | 182669/371472 [3:27:53<14:05:50,  3.72it/s] 49%|████▉     | 182670/371472 [3:27:53<14:05:55,  3.72it/s] 49%|████▉     | 182671/371472 [3:27:53<13:59:37,  3.75it/s] 49%|████▉     | 182672/371472 [3:27:54<14:01:05,  3.74it/s] 49%|████▉     | 182673/371472 [3:27:54<14:37:16,  3.59it/s] 49%|████▉     | 182674/371472 [3:27:54<15:06:02,  3.47it/s] 49%|████▉     | 182675/371472 [3:27:55<14:48:28,  3.54it/s] 49%|████▉     | 182676/371472 [3:27:55<14:51:28,  3.53it/s] 49%|████▉     | 182677/371472 [3:27:55<15:55:31,  3.29it/s] 49%|████▉     | 182678/371472 [3:27:56<17:08:34,  3.06it/s] 49%|████▉     | 182679/371472 [3:27:56<16:37:18,  3.16it/s] 49%|████▉     | 182680/371472 [3:27:56<16:24:16,  3.20it/s]                                                            {'loss': 3.0872, 'learning_rate': 5.576504557305694e-07, 'epoch': 7.87}
 49%|████▉     | 182680/371472 [3:27:56<16:24:16,  3.20it/s] 49%|████▉     | 182681/371472 [3:27:56<15:39:54,  3.35it/s] 49%|████▉     | 182682/371472 [3:27:57<15:12:15,  3.45it/s] 49%|████▉     | 182683/371472 [3:27:57<14:40:28,  3.57it/s] 49%|████▉     | 182684/371472 [3:27:57<14:53:19,  3.52it/s] 49%|████▉     | 182685/371472 [3:27:58<14:39:05,  3.58it/s] 49%|████▉     | 182686/371472 [3:27:58<14:35:51,  3.59it/s] 49%|████▉     | 182687/371472 [3:27:58<15:17:22,  3.43it/s] 49%|████▉     | 182688/371472 [3:27:58<15:03:34,  3.48it/s] 49%|████▉     | 182689/371472 [3:27:59<14:41:23,  3.57it/s] 49%|████▉     | 182690/371472 [3:27:59<14:57:46,  3.50it/s] 49%|████▉     | 182691/371472 [3:27:59<15:15:58,  3.43it/s] 49%|████▉     | 182692/371472 [3:28:00<15:01:52,  3.49it/s] 49%|████▉     | 182693/371472 [3:28:00<14:47:36,  3.54it/s] 49%|████▉     | 182694/371472 [3:28:00<15:13:43,  3.44it/s] 49%|████▉     | 182695/371472 [3:28:00<15:11:45,  3.45it/s] 49%|████▉     | 182696/371472 [3:28:01<15:13:25,  3.44it/s] 49%|████▉     | 182697/371472 [3:28:01<14:45:03,  3.55it/s] 49%|████▉     | 182698/371472 [3:28:01<14:43:23,  3.56it/s] 49%|████▉     | 182699/371472 [3:28:01<14:09:06,  3.71it/s] 49%|████▉     | 182700/371472 [3:28:02<13:48:55,  3.80it/s]                                                            {'loss': 2.904, 'learning_rate': 5.576019737550905e-07, 'epoch': 7.87}
 49%|████▉     | 182700/371472 [3:28:02<13:48:55,  3.80it/s] 49%|████▉     | 182701/371472 [3:28:02<14:31:33,  3.61it/s] 49%|████▉     | 182702/371472 [3:28:02<14:15:30,  3.68it/s] 49%|████▉     | 182703/371472 [3:28:03<13:40:28,  3.83it/s] 49%|████▉     | 182704/371472 [3:28:03<13:30:59,  3.88it/s] 49%|████▉     | 182705/371472 [3:28:03<13:46:16,  3.81it/s] 49%|████▉     | 182706/371472 [3:28:03<14:26:05,  3.63it/s] 49%|████▉     | 182707/371472 [3:28:04<14:01:30,  3.74it/s] 49%|████▉     | 182708/371472 [3:28:04<14:19:41,  3.66it/s] 49%|████▉     | 182709/371472 [3:28:04<14:57:43,  3.50it/s] 49%|████▉     | 182710/371472 [3:28:04<14:27:14,  3.63it/s] 49%|████▉     | 182711/371472 [3:28:05<14:12:13,  3.69it/s] 49%|████▉     | 182712/371472 [3:28:05<13:59:42,  3.75it/s] 49%|████▉     | 182713/371472 [3:28:05<13:42:21,  3.83it/s] 49%|████▉     | 182714/371472 [3:28:05<13:40:45,  3.83it/s] 49%|████▉     | 182715/371472 [3:28:06<13:37:50,  3.85it/s] 49%|████▉     | 182716/371472 [3:28:06<13:47:15,  3.80it/s] 49%|████▉     | 182717/371472 [3:28:06<14:43:19,  3.56it/s] 49%|████▉     | 182718/371472 [3:28:07<16:03:05,  3.27it/s] 49%|████▉     | 182719/371472 [3:28:07<15:05:47,  3.47it/s] 49%|████▉     | 182720/371472 [3:28:07<14:38:53,  3.58it/s]                                                            {'loss': 3.1883, 'learning_rate': 5.575534917796118e-07, 'epoch': 7.87}
 49%|████▉     | 182720/371472 [3:28:07<14:38:53,  3.58it/s] 49%|████▉     | 182721/371472 [3:28:08<15:45:16,  3.33it/s] 49%|████▉     | 182722/371472 [3:28:08<15:01:52,  3.49it/s] 49%|████▉     | 182723/371472 [3:28:08<14:25:39,  3.63it/s] 49%|████▉     | 182724/371472 [3:28:08<14:05:54,  3.72it/s] 49%|████▉     | 182725/371472 [3:28:09<13:57:59,  3.75it/s] 49%|████▉     | 182726/371472 [3:28:09<14:19:48,  3.66it/s] 49%|████▉     | 182727/371472 [3:28:09<14:07:46,  3.71it/s] 49%|████▉     | 182728/371472 [3:28:09<14:43:44,  3.56it/s] 49%|████▉     | 182729/371472 [3:28:10<14:15:47,  3.68it/s] 49%|████▉     | 182730/371472 [3:28:10<14:39:01,  3.58it/s] 49%|████▉     | 182731/371472 [3:28:10<14:38:29,  3.58it/s] 49%|████▉     | 182732/371472 [3:28:11<14:31:04,  3.61it/s] 49%|████▉     | 182733/371472 [3:28:11<14:41:34,  3.57it/s] 49%|████▉     | 182734/371472 [3:28:11<15:28:42,  3.39it/s] 49%|████▉     | 182735/371472 [3:28:11<14:43:18,  3.56it/s] 49%|████▉     | 182736/371472 [3:28:12<15:28:13,  3.39it/s] 49%|████▉     | 182737/371472 [3:28:12<15:09:12,  3.46it/s] 49%|████▉     | 182738/371472 [3:28:12<14:51:54,  3.53it/s] 49%|████▉     | 182739/371472 [3:28:13<14:46:07,  3.55it/s] 49%|████▉     | 182740/371472 [3:28:13<14:46:34,  3.55it/s]                                                            {'loss': 2.9817, 'learning_rate': 5.575050098041328e-07, 'epoch': 7.87}
 49%|████▉     | 182740/371472 [3:28:13<14:46:34,  3.55it/s] 49%|████▉     | 182741/371472 [3:28:13<14:50:46,  3.53it/s] 49%|████▉     | 182742/371472 [3:28:13<15:06:46,  3.47it/s] 49%|████▉     | 182743/371472 [3:28:14<15:04:51,  3.48it/s] 49%|████▉     | 182744/371472 [3:28:14<14:52:19,  3.53it/s] 49%|████▉     | 182745/371472 [3:28:14<15:06:05,  3.47it/s] 49%|████▉     | 182746/371472 [3:28:15<14:48:29,  3.54it/s] 49%|████▉     | 182747/371472 [3:28:15<15:07:09,  3.47it/s] 49%|████▉     | 182748/371472 [3:28:15<15:01:23,  3.49it/s] 49%|████▉     | 182749/371472 [3:28:15<15:15:40,  3.44it/s] 49%|████▉     | 182750/371472 [3:28:16<14:40:53,  3.57it/s] 49%|████▉     | 182751/371472 [3:28:16<14:41:38,  3.57it/s] 49%|████▉     | 182752/371472 [3:28:16<14:24:17,  3.64it/s] 49%|████▉     | 182753/371472 [3:28:16<14:20:41,  3.65it/s] 49%|████▉     | 182754/371472 [3:28:17<14:53:44,  3.52it/s] 49%|████▉     | 182755/371472 [3:28:17<14:39:41,  3.58it/s] 49%|████▉     | 182756/371472 [3:28:17<15:24:59,  3.40it/s] 49%|████▉     | 182757/371472 [3:28:18<15:18:47,  3.42it/s] 49%|████▉     | 182758/371472 [3:28:18<14:58:17,  3.50it/s] 49%|████▉     | 182759/371472 [3:28:18<14:38:22,  3.58it/s] 49%|████▉     | 182760/371472 [3:28:19<15:01:57,  3.49it/s]                                                            {'loss': 3.1361, 'learning_rate': 5.574565278286538e-07, 'epoch': 7.87}
 49%|████▉     | 182760/371472 [3:28:19<15:01:57,  3.49it/s] 49%|████▉     | 182761/371472 [3:28:19<16:39:04,  3.15it/s] 49%|████▉     | 182762/371472 [3:28:19<15:58:18,  3.28it/s] 49%|████▉     | 182763/371472 [3:28:19<15:26:51,  3.39it/s] 49%|████▉     | 182764/371472 [3:28:20<15:01:52,  3.49it/s] 49%|████▉     | 182765/371472 [3:28:20<16:16:44,  3.22it/s] 49%|████▉     | 182766/371472 [3:28:20<16:27:28,  3.18it/s] 49%|████▉     | 182767/371472 [3:28:21<15:54:11,  3.30it/s] 49%|████▉     | 182768/371472 [3:28:21<15:29:07,  3.38it/s] 49%|████▉     | 182769/371472 [3:28:21<15:03:04,  3.48it/s] 49%|████▉     | 182770/371472 [3:28:22<14:51:33,  3.53it/s] 49%|████▉     | 182771/371472 [3:28:22<14:57:56,  3.50it/s] 49%|████▉     | 182772/371472 [3:28:22<14:36:33,  3.59it/s] 49%|████▉     | 182773/371472 [3:28:22<14:23:02,  3.64it/s] 49%|████▉     | 182774/371472 [3:28:23<14:00:53,  3.74it/s] 49%|████▉     | 182775/371472 [3:28:23<14:33:56,  3.60it/s] 49%|████▉     | 182776/371472 [3:28:23<14:36:36,  3.59it/s] 49%|████▉     | 182777/371472 [3:28:23<14:20:47,  3.65it/s] 49%|████▉     | 182778/371472 [3:28:24<13:58:22,  3.75it/s] 49%|████▉     | 182779/371472 [3:28:24<14:04:18,  3.72it/s] 49%|████▉     | 182780/371472 [3:28:24<14:38:06,  3.58it/s]                                                            {'loss': 3.0273, 'learning_rate': 5.57408045853175e-07, 'epoch': 7.87}
 49%|████▉     | 182780/371472 [3:28:24<14:38:06,  3.58it/s] 49%|████▉     | 182781/371472 [3:28:25<14:40:22,  3.57it/s] 49%|████▉     | 182782/371472 [3:28:25<14:45:36,  3.55it/s] 49%|████▉     | 182783/371472 [3:28:25<15:24:00,  3.40it/s] 49%|████▉     | 182784/371472 [3:28:25<15:14:39,  3.44it/s] 49%|████▉     | 182785/371472 [3:28:26<14:59:34,  3.50it/s] 49%|████▉     | 182786/371472 [3:28:26<14:38:42,  3.58it/s] 49%|████▉     | 182787/371472 [3:28:26<15:34:35,  3.36it/s] 49%|████▉     | 182788/371472 [3:28:27<15:18:49,  3.42it/s] 49%|████▉     | 182789/371472 [3:28:27<15:17:33,  3.43it/s] 49%|████▉     | 182790/371472 [3:28:27<15:25:41,  3.40it/s] 49%|████▉     | 182791/371472 [3:28:27<15:21:04,  3.41it/s] 49%|████▉     | 182792/371472 [3:28:28<14:58:52,  3.50it/s] 49%|████▉     | 182793/371472 [3:28:28<14:46:15,  3.55it/s] 49%|████▉     | 182794/371472 [3:28:28<14:28:17,  3.62it/s] 49%|████▉     | 182795/371472 [3:28:29<14:23:53,  3.64it/s] 49%|████▉     | 182796/371472 [3:28:29<14:06:33,  3.71it/s] 49%|████▉     | 182797/371472 [3:28:29<14:06:42,  3.71it/s] 49%|████▉     | 182798/371472 [3:28:29<14:49:03,  3.54it/s] 49%|████▉     | 182799/371472 [3:28:30<15:01:42,  3.49it/s] 49%|████▉     | 182800/371472 [3:28:30<14:27:40,  3.62it/s]                                                            {'loss': 2.8893, 'learning_rate': 5.573595638776961e-07, 'epoch': 7.87}
 49%|████▉     | 182800/371472 [3:28:30<14:27:40,  3.62it/s] 49%|████▉     | 182801/371472 [3:28:30<15:16:57,  3.43it/s] 49%|████▉     | 182802/371472 [3:28:31<15:07:28,  3.47it/s] 49%|████▉     | 182803/371472 [3:28:31<14:59:51,  3.49it/s] 49%|████▉     | 182804/371472 [3:28:31<14:27:34,  3.62it/s] 49%|████▉     | 182805/371472 [3:28:31<14:02:06,  3.73it/s] 49%|████▉     | 182806/371472 [3:28:32<13:38:41,  3.84it/s] 49%|████▉     | 182807/371472 [3:28:32<13:32:50,  3.87it/s] 49%|████▉     | 182808/371472 [3:28:32<13:39:30,  3.84it/s] 49%|████▉     | 182809/371472 [3:28:32<13:59:53,  3.74it/s] 49%|████▉     | 182810/371472 [3:28:33<14:01:53,  3.73it/s] 49%|████▉     | 182811/371472 [3:28:33<14:11:06,  3.69it/s] 49%|████▉     | 182812/371472 [3:28:33<14:52:16,  3.52it/s] 49%|████▉     | 182813/371472 [3:28:34<15:07:30,  3.46it/s] 49%|████▉     | 182814/371472 [3:28:34<14:48:19,  3.54it/s] 49%|████▉     | 182815/371472 [3:28:34<15:09:28,  3.46it/s] 49%|████▉     | 182816/371472 [3:28:34<15:21:11,  3.41it/s] 49%|████▉     | 182817/371472 [3:28:35<15:13:09,  3.44it/s] 49%|████▉     | 182818/371472 [3:28:35<14:57:27,  3.50it/s] 49%|████▉     | 182819/371472 [3:28:35<14:49:05,  3.54it/s] 49%|████▉     | 182820/371472 [3:28:36<14:58:51,  3.50it/s]                                                            {'loss': 3.0061, 'learning_rate': 5.573110819022173e-07, 'epoch': 7.87}
 49%|████▉     | 182820/371472 [3:28:36<14:58:51,  3.50it/s] 49%|████▉     | 182821/371472 [3:28:36<15:00:37,  3.49it/s] 49%|████▉     | 182822/371472 [3:28:36<15:15:50,  3.43it/s] 49%|████▉     | 182823/371472 [3:28:36<14:59:29,  3.50it/s] 49%|████▉     | 182824/371472 [3:28:37<14:43:54,  3.56it/s] 49%|████▉     | 182825/371472 [3:28:37<14:22:52,  3.64it/s] 49%|████▉     | 182826/371472 [3:28:37<14:44:46,  3.55it/s] 49%|████▉     | 182827/371472 [3:28:37<14:30:06,  3.61it/s] 49%|████▉     | 182828/371472 [3:28:38<15:07:31,  3.46it/s] 49%|████▉     | 182829/371472 [3:28:38<16:22:15,  3.20it/s] 49%|████▉     | 182830/371472 [3:28:38<15:44:01,  3.33it/s] 49%|████▉     | 182831/371472 [3:28:39<15:29:31,  3.38it/s] 49%|████▉     | 182832/371472 [3:28:39<15:57:59,  3.28it/s] 49%|████▉     | 182833/371472 [3:28:39<17:26:13,  3.01it/s] 49%|████▉     | 182834/371472 [3:28:40<16:36:00,  3.16it/s] 49%|████▉     | 182835/371472 [3:28:40<15:47:59,  3.32it/s] 49%|████▉     | 182836/371472 [3:28:40<16:29:20,  3.18it/s] 49%|████▉     | 182837/371472 [3:28:41<15:17:43,  3.43it/s] 49%|████▉     | 182838/371472 [3:28:41<14:58:30,  3.50it/s] 49%|████▉     | 182839/371472 [3:28:41<14:22:41,  3.64it/s] 49%|████▉     | 182840/371472 [3:28:41<14:38:22,  3.58it/s]                                                            {'loss': 3.1643, 'learning_rate': 5.572625999267382e-07, 'epoch': 7.88}
 49%|████▉     | 182840/371472 [3:28:41<14:38:22,  3.58it/s] 49%|████▉     | 182841/371472 [3:28:42<14:22:27,  3.65it/s] 49%|████▉     | 182842/371472 [3:28:42<14:30:16,  3.61it/s] 49%|████▉     | 182843/371472 [3:28:42<13:55:34,  3.76it/s] 49%|████▉     | 182844/371472 [3:28:42<14:17:01,  3.67it/s] 49%|████▉     | 182845/371472 [3:28:43<14:00:24,  3.74it/s] 49%|████▉     | 182846/371472 [3:28:43<13:44:43,  3.81it/s] 49%|████▉     | 182847/371472 [3:28:43<13:24:52,  3.91it/s] 49%|████▉     | 182848/371472 [3:28:43<13:44:12,  3.81it/s] 49%|████▉     | 182849/371472 [3:28:44<13:28:58,  3.89it/s] 49%|████▉     | 182850/371472 [3:28:44<13:49:34,  3.79it/s] 49%|████▉     | 182851/371472 [3:28:44<13:52:20,  3.78it/s] 49%|████▉     | 182852/371472 [3:28:45<13:45:12,  3.81it/s] 49%|████▉     | 182853/371472 [3:28:45<14:23:22,  3.64it/s] 49%|████▉     | 182854/371472 [3:28:45<15:32:00,  3.37it/s] 49%|████▉     | 182855/371472 [3:28:46<16:00:22,  3.27it/s] 49%|████▉     | 182856/371472 [3:28:46<15:16:28,  3.43it/s] 49%|████▉     | 182857/371472 [3:28:46<14:46:32,  3.55it/s] 49%|████▉     | 182858/371472 [3:28:46<14:50:16,  3.53it/s] 49%|████▉     | 182859/371472 [3:28:47<14:35:48,  3.59it/s] 49%|████▉     | 182860/371472 [3:28:47<14:33:12,  3.60it/s]                                                            {'loss': 3.2528, 'learning_rate': 5.572141179512595e-07, 'epoch': 7.88}
 49%|████▉     | 182860/371472 [3:28:47<14:33:12,  3.60it/s] 49%|████▉     | 182861/371472 [3:28:47<14:27:59,  3.62it/s] 49%|████▉     | 182862/371472 [3:28:48<15:55:50,  3.29it/s] 49%|████▉     | 182863/371472 [3:28:48<15:07:55,  3.46it/s] 49%|████▉     | 182864/371472 [3:28:48<14:58:01,  3.50it/s] 49%|████▉     | 182865/371472 [3:28:48<14:49:14,  3.53it/s] 49%|████▉     | 182866/371472 [3:28:49<14:45:48,  3.55it/s] 49%|████▉     | 182867/371472 [3:28:49<16:18:56,  3.21it/s] 49%|████▉     | 182868/371472 [3:28:49<15:56:08,  3.29it/s] 49%|████▉     | 182869/371472 [3:28:50<15:41:23,  3.34it/s] 49%|████▉     | 182870/371472 [3:28:50<15:07:07,  3.47it/s] 49%|████▉     | 182871/371472 [3:28:50<14:44:16,  3.55it/s] 49%|████▉     | 182872/371472 [3:28:50<14:43:54,  3.56it/s] 49%|████▉     | 182873/371472 [3:28:51<15:09:19,  3.46it/s] 49%|████▉     | 182874/371472 [3:28:51<14:53:19,  3.52it/s] 49%|████▉     | 182875/371472 [3:28:51<15:34:20,  3.36it/s] 49%|████▉     | 182876/371472 [3:28:52<15:24:10,  3.40it/s] 49%|████▉     | 182877/371472 [3:28:52<16:55:07,  3.10it/s] 49%|████▉     | 182878/371472 [3:28:52<16:15:10,  3.22it/s] 49%|████▉     | 182879/371472 [3:28:52<15:39:41,  3.34it/s] 49%|████▉     | 182880/371472 [3:28:53<15:28:44,  3.38it/s]                                                            {'loss': 3.0489, 'learning_rate': 5.571656359757806e-07, 'epoch': 7.88}
 49%|████▉     | 182880/371472 [3:28:53<15:28:44,  3.38it/s] 49%|████▉     | 182881/371472 [3:28:53<15:35:45,  3.36it/s] 49%|████▉     | 182882/371472 [3:28:53<15:42:47,  3.33it/s] 49%|████▉     | 182883/371472 [3:28:54<15:57:50,  3.28it/s] 49%|████▉     | 182884/371472 [3:28:54<15:17:54,  3.42it/s] 49%|████▉     | 182885/371472 [3:28:54<15:10:16,  3.45it/s] 49%|████▉     | 182886/371472 [3:28:55<14:50:26,  3.53it/s] 49%|████▉     | 182887/371472 [3:28:55<15:00:40,  3.49it/s] 49%|████▉     | 182888/371472 [3:28:55<14:30:34,  3.61it/s] 49%|████▉     | 182889/371472 [3:28:55<14:28:37,  3.62it/s] 49%|████▉     | 182890/371472 [3:28:56<15:25:56,  3.39it/s] 49%|████▉     | 182891/371472 [3:28:56<15:45:48,  3.32it/s] 49%|████▉     | 182892/371472 [3:28:56<15:27:43,  3.39it/s] 49%|████▉     | 182893/371472 [3:28:57<14:41:34,  3.57it/s] 49%|████▉     | 182894/371472 [3:28:57<14:46:45,  3.54it/s] 49%|████▉     | 182895/371472 [3:28:57<14:55:30,  3.51it/s] 49%|████▉     | 182896/371472 [3:28:57<14:57:08,  3.50it/s] 49%|████▉     | 182897/371472 [3:28:58<15:12:36,  3.44it/s] 49%|████▉     | 182898/371472 [3:28:58<15:25:54,  3.39it/s] 49%|████▉     | 182899/371472 [3:28:58<15:04:36,  3.47it/s] 49%|████▉     | 182900/371472 [3:28:59<15:41:11,  3.34it/s]                                                            {'loss': 3.0746, 'learning_rate': 5.571171540003017e-07, 'epoch': 7.88}
 49%|████▉     | 182900/371472 [3:28:59<15:41:11,  3.34it/s] 49%|████▉     | 182901/371472 [3:28:59<16:31:01,  3.17it/s] 49%|████▉     | 182902/371472 [3:28:59<16:58:51,  3.08it/s] 49%|████▉     | 182903/371472 [3:29:00<16:25:28,  3.19it/s] 49%|████▉     | 182904/371472 [3:29:00<16:08:23,  3.25it/s] 49%|████▉     | 182905/371472 [3:29:00<16:50:55,  3.11it/s] 49%|████▉     | 182906/371472 [3:29:01<16:53:21,  3.10it/s] 49%|████▉     | 182907/371472 [3:29:01<16:27:20,  3.18it/s] 49%|████▉     | 182908/371472 [3:29:01<15:38:35,  3.35it/s] 49%|████▉     | 182909/371472 [3:29:01<14:54:52,  3.51it/s] 49%|████▉     | 182910/371472 [3:29:02<15:53:34,  3.30it/s] 49%|████▉     | 182911/371472 [3:29:02<15:26:00,  3.39it/s] 49%|████▉     | 182912/371472 [3:29:02<15:23:52,  3.40it/s] 49%|████▉     | 182913/371472 [3:29:03<15:14:59,  3.43it/s] 49%|████▉     | 182914/371472 [3:29:03<14:52:21,  3.52it/s] 49%|████▉     | 182915/371472 [3:29:03<15:35:11,  3.36it/s] 49%|████▉     | 182916/371472 [3:29:03<16:09:23,  3.24it/s] 49%|████▉     | 182917/371472 [3:29:04<17:01:40,  3.08it/s] 49%|████▉     | 182918/371472 [3:29:04<16:29:04,  3.18it/s] 49%|████▉     | 182919/371472 [3:29:04<15:55:00,  3.29it/s] 49%|████▉     | 182920/371472 [3:29:05<15:02:32,  3.48it/s]                                                            {'loss': 3.0596, 'learning_rate': 5.570686720248227e-07, 'epoch': 7.88}
 49%|████▉     | 182920/371472 [3:29:05<15:02:32,  3.48it/s] 49%|████▉     | 182921/371472 [3:29:05<14:52:41,  3.52it/s] 49%|████▉     | 182922/371472 [3:29:05<14:30:58,  3.61it/s] 49%|████▉     | 182923/371472 [3:29:06<14:53:29,  3.52it/s] 49%|████▉     | 182924/371472 [3:29:06<14:55:29,  3.51it/s] 49%|████▉     | 182925/371472 [3:29:06<15:02:44,  3.48it/s] 49%|████▉     | 182926/371472 [3:29:06<14:52:06,  3.52it/s] 49%|████▉     | 182927/371472 [3:29:07<15:46:06,  3.32it/s] 49%|████▉     | 182928/371472 [3:29:07<14:54:23,  3.51it/s] 49%|████▉     | 182929/371472 [3:29:07<14:37:16,  3.58it/s] 49%|████▉     | 182930/371472 [3:29:08<15:57:02,  3.28it/s] 49%|████▉     | 182931/371472 [3:29:08<16:08:27,  3.24it/s] 49%|████▉     | 182932/371472 [3:29:08<15:34:31,  3.36it/s] 49%|████▉     | 182933/371472 [3:29:08<15:48:02,  3.31it/s] 49%|████▉     | 182934/371472 [3:29:09<15:12:21,  3.44it/s] 49%|████▉     | 182935/371472 [3:29:09<15:12:07,  3.45it/s] 49%|████▉     | 182936/371472 [3:29:09<14:57:02,  3.50it/s] 49%|████▉     | 182937/371472 [3:29:10<15:08:41,  3.46it/s] 49%|████▉     | 182938/371472 [3:29:10<15:49:42,  3.31it/s] 49%|████▉     | 182939/371472 [3:29:10<16:36:07,  3.15it/s] 49%|████▉     | 182940/371472 [3:29:11<16:27:06,  3.18it/s]                                                            {'loss': 2.8028, 'learning_rate': 5.570201900493438e-07, 'epoch': 7.88}
 49%|████▉     | 182940/371472 [3:29:11<16:27:06,  3.18it/s] 49%|████▉     | 182941/371472 [3:29:11<16:09:35,  3.24it/s] 49%|████▉     | 182942/371472 [3:29:11<15:09:37,  3.45it/s] 49%|████▉     | 182943/371472 [3:29:11<14:48:09,  3.54it/s] 49%|████▉     | 182944/371472 [3:29:12<14:49:35,  3.53it/s] 49%|████▉     | 182945/371472 [3:29:12<14:15:50,  3.67it/s] 49%|████▉     | 182946/371472 [3:29:12<14:25:15,  3.63it/s] 49%|████▉     | 182947/371472 [3:29:13<14:49:40,  3.53it/s] 49%|████▉     | 182948/371472 [3:29:13<14:54:45,  3.51it/s] 49%|████▉     | 182949/371472 [3:29:13<14:11:15,  3.69it/s] 49%|████▉     | 182950/371472 [3:29:13<14:48:26,  3.54it/s] 49%|████▉     | 182951/371472 [3:29:14<15:23:40,  3.40it/s] 49%|████▉     | 182952/371472 [3:29:14<14:51:43,  3.52it/s] 49%|████▉     | 182953/371472 [3:29:14<14:33:33,  3.60it/s] 49%|████▉     | 182954/371472 [3:29:14<14:28:34,  3.62it/s] 49%|████▉     | 182955/371472 [3:29:15<14:30:21,  3.61it/s] 49%|████▉     | 182956/371472 [3:29:15<14:18:06,  3.66it/s] 49%|████▉     | 182957/371472 [3:29:15<14:06:08,  3.71it/s] 49%|████▉     | 182958/371472 [3:29:16<14:07:49,  3.71it/s] 49%|████▉     | 182959/371472 [3:29:16<13:44:55,  3.81it/s] 49%|████▉     | 182960/371472 [3:29:16<13:57:14,  3.75it/s]                                                            {'loss': 2.9941, 'learning_rate': 5.569717080738651e-07, 'epoch': 7.88}
 49%|████▉     | 182960/371472 [3:29:16<13:57:14,  3.75it/s] 49%|████▉     | 182961/371472 [3:29:16<13:45:48,  3.80it/s] 49%|████▉     | 182962/371472 [3:29:17<13:39:56,  3.83it/s] 49%|████▉     | 182963/371472 [3:29:17<13:46:33,  3.80it/s] 49%|████▉     | 182964/371472 [3:29:17<13:29:20,  3.88it/s] 49%|████▉     | 182965/371472 [3:29:18<16:25:47,  3.19it/s] 49%|████▉     | 182966/371472 [3:29:18<16:20:48,  3.20it/s] 49%|████▉     | 182967/371472 [3:29:18<15:18:13,  3.42it/s] 49%|████▉     | 182968/371472 [3:29:18<15:17:57,  3.42it/s] 49%|████▉     | 182969/371472 [3:29:19<15:33:31,  3.37it/s] 49%|████▉     | 182970/371472 [3:29:19<14:47:12,  3.54it/s] 49%|████▉     | 182971/371472 [3:29:19<14:38:33,  3.58it/s] 49%|████▉     | 182972/371472 [3:29:20<14:47:56,  3.54it/s] 49%|████▉     | 182973/371472 [3:29:20<14:29:59,  3.61it/s] 49%|████▉     | 182974/371472 [3:29:20<15:15:00,  3.43it/s] 49%|████▉     | 182975/371472 [3:29:20<14:37:48,  3.58it/s] 49%|████▉     | 182976/371472 [3:29:21<14:05:29,  3.72it/s] 49%|████▉     | 182977/371472 [3:29:21<14:37:56,  3.58it/s] 49%|████▉     | 182978/371472 [3:29:21<14:33:11,  3.60it/s] 49%|████▉     | 182979/371472 [3:29:21<14:32:48,  3.60it/s] 49%|████▉     | 182980/371472 [3:29:22<14:31:06,  3.61it/s]                                                            {'loss': 3.1166, 'learning_rate': 5.569232260983861e-07, 'epoch': 7.88}
 49%|████▉     | 182980/371472 [3:29:22<14:31:06,  3.61it/s] 49%|████▉     | 182981/371472 [3:29:22<14:41:39,  3.56it/s] 49%|████▉     | 182982/371472 [3:29:22<14:14:30,  3.68it/s] 49%|████▉     | 182983/371472 [3:29:23<15:04:03,  3.47it/s] 49%|████▉     | 182984/371472 [3:29:23<15:47:38,  3.32it/s] 49%|████▉     | 182985/371472 [3:29:23<15:52:44,  3.30it/s] 49%|████▉     | 182986/371472 [3:29:23<15:12:16,  3.44it/s] 49%|████▉     | 182987/371472 [3:29:24<15:16:25,  3.43it/s] 49%|████▉     | 182988/371472 [3:29:24<14:50:53,  3.53it/s] 49%|████▉     | 182989/371472 [3:29:24<14:49:59,  3.53it/s] 49%|████▉     | 182990/371472 [3:29:25<14:19:33,  3.65it/s] 49%|████▉     | 182991/371472 [3:29:25<14:23:40,  3.64it/s] 49%|████▉     | 182992/371472 [3:29:25<13:53:37,  3.77it/s] 49%|████▉     | 182993/371472 [3:29:25<13:59:25,  3.74it/s] 49%|████▉     | 182994/371472 [3:29:26<13:31:44,  3.87it/s] 49%|████▉     | 182995/371472 [3:29:26<13:35:20,  3.85it/s] 49%|████▉     | 182996/371472 [3:29:26<13:26:24,  3.90it/s] 49%|████▉     | 182997/371472 [3:29:26<13:29:22,  3.88it/s] 49%|████▉     | 182998/371472 [3:29:27<13:58:01,  3.75it/s] 49%|████▉     | 182999/371472 [3:29:27<14:07:56,  3.70it/s] 49%|████▉     | 183000/371472 [3:29:27<14:01:03,  3.73it/s]                                                            {'loss': 3.1548, 'learning_rate': 5.568747441229071e-07, 'epoch': 7.88}
 49%|████▉     | 183000/371472 [3:29:27<14:01:03,  3.73it/s] 49%|████▉     | 183001/371472 [3:29:27<13:55:26,  3.76it/s] 49%|████▉     | 183002/371472 [3:29:28<13:50:44,  3.78it/s] 49%|████▉     | 183003/371472 [3:29:28<13:54:36,  3.76it/s] 49%|████▉     | 183004/371472 [3:29:28<14:38:25,  3.58it/s] 49%|████▉     | 183005/371472 [3:29:29<15:14:03,  3.44it/s] 49%|████▉     | 183006/371472 [3:29:29<14:53:44,  3.51it/s] 49%|████▉     | 183007/371472 [3:29:29<14:26:31,  3.62it/s] 49%|████▉     | 183008/371472 [3:29:29<14:20:55,  3.65it/s] 49%|████▉     | 183009/371472 [3:29:30<13:56:55,  3.75it/s] 49%|████▉     | 183010/371472 [3:29:30<13:59:46,  3.74it/s] 49%|████▉     | 183011/371472 [3:29:30<14:22:41,  3.64it/s] 49%|████▉     | 183012/371472 [3:29:31<16:13:23,  3.23it/s] 49%|████▉     | 183013/371472 [3:29:31<16:21:47,  3.20it/s] 49%|████▉     | 183014/371472 [3:29:31<15:21:21,  3.41it/s] 49%|████▉     | 183015/371472 [3:29:31<15:12:16,  3.44it/s] 49%|████▉     | 183016/371472 [3:29:32<15:07:07,  3.46it/s] 49%|████▉     | 183017/371472 [3:29:32<14:45:07,  3.55it/s] 49%|████▉     | 183018/371472 [3:29:32<15:23:53,  3.40it/s] 49%|████▉     | 183019/371472 [3:29:33<14:55:41,  3.51it/s] 49%|████▉     | 183020/371472 [3:29:33<14:56:54,  3.50it/s]                                                            {'loss': 2.9656, 'learning_rate': 5.568262621474283e-07, 'epoch': 7.88}
 49%|████▉     | 183020/371472 [3:29:33<14:56:54,  3.50it/s] 49%|████▉     | 183021/371472 [3:29:33<14:48:48,  3.53it/s] 49%|████▉     | 183022/371472 [3:29:34<15:36:39,  3.35it/s] 49%|████▉     | 183023/371472 [3:29:34<15:05:48,  3.47it/s] 49%|████▉     | 183024/371472 [3:29:34<15:10:03,  3.45it/s] 49%|████▉     | 183025/371472 [3:29:34<15:03:27,  3.48it/s] 49%|████▉     | 183026/371472 [3:29:35<16:06:36,  3.25it/s] 49%|████▉     | 183027/371472 [3:29:35<15:34:30,  3.36it/s] 49%|████▉     | 183028/371472 [3:29:35<15:00:59,  3.49it/s] 49%|████▉     | 183029/371472 [3:29:36<14:49:06,  3.53it/s] 49%|████▉     | 183030/371472 [3:29:36<14:55:18,  3.51it/s] 49%|████▉     | 183031/371472 [3:29:36<14:45:08,  3.55it/s] 49%|████▉     | 183032/371472 [3:29:36<14:53:39,  3.51it/s] 49%|████▉     | 183033/371472 [3:29:37<15:13:02,  3.44it/s] 49%|████▉     | 183034/371472 [3:29:37<14:54:06,  3.51it/s] 49%|████▉     | 183035/371472 [3:29:37<17:51:50,  2.93it/s] 49%|████▉     | 183036/371472 [3:29:38<16:32:07,  3.17it/s] 49%|████▉     | 183037/371472 [3:29:38<15:49:08,  3.31it/s] 49%|████▉     | 183038/371472 [3:29:38<15:21:07,  3.41it/s] 49%|████▉     | 183039/371472 [3:29:39<15:01:48,  3.48it/s] 49%|████▉     | 183040/371472 [3:29:39<16:06:52,  3.25it/s]                                                            {'loss': 2.9604, 'learning_rate': 5.567777801719495e-07, 'epoch': 7.88}
 49%|████▉     | 183040/371472 [3:29:39<16:06:52,  3.25it/s] 49%|████▉     | 183041/371472 [3:29:39<15:15:44,  3.43it/s] 49%|████▉     | 183042/371472 [3:29:39<14:38:10,  3.58it/s] 49%|████▉     | 183043/371472 [3:29:40<15:15:33,  3.43it/s] 49%|████▉     | 183044/371472 [3:29:40<16:01:34,  3.27it/s] 49%|████▉     | 183045/371472 [3:29:40<15:57:29,  3.28it/s] 49%|████▉     | 183046/371472 [3:29:41<15:33:46,  3.36it/s] 49%|████▉     | 183047/371472 [3:29:41<14:43:29,  3.55it/s] 49%|████▉     | 183048/371472 [3:29:41<14:24:31,  3.63it/s] 49%|████▉     | 183049/371472 [3:29:42<16:25:40,  3.19it/s] 49%|████▉     | 183050/371472 [3:29:42<15:57:40,  3.28it/s] 49%|████▉     | 183051/371472 [3:29:42<15:15:46,  3.43it/s] 49%|████▉     | 183052/371472 [3:29:42<14:46:15,  3.54it/s] 49%|████▉     | 183053/371472 [3:29:43<14:20:52,  3.65it/s] 49%|████▉     | 183054/371472 [3:29:43<14:02:06,  3.73it/s] 49%|████▉     | 183055/371472 [3:29:43<13:59:16,  3.74it/s] 49%|████▉     | 183056/371472 [3:29:43<13:50:36,  3.78it/s] 49%|████▉     | 183057/371472 [3:29:44<13:56:21,  3.75it/s] 49%|████▉     | 183058/371472 [3:29:44<14:04:45,  3.72it/s] 49%|████▉     | 183059/371472 [3:29:44<13:52:50,  3.77it/s] 49%|████▉     | 183060/371472 [3:29:44<14:17:37,  3.66it/s]                                                            {'loss': 3.2081, 'learning_rate': 5.567292981964704e-07, 'epoch': 7.88}
 49%|████▉     | 183060/371472 [3:29:44<14:17:37,  3.66it/s] 49%|████▉     | 183061/371472 [3:29:45<14:07:57,  3.70it/s] 49%|████▉     | 183062/371472 [3:29:45<14:19:33,  3.65it/s] 49%|████▉     | 183063/371472 [3:29:45<14:08:49,  3.70it/s] 49%|████▉     | 183064/371472 [3:29:46<14:09:57,  3.69it/s] 49%|████▉     | 183065/371472 [3:29:46<14:55:16,  3.51it/s] 49%|████▉     | 183066/371472 [3:29:46<14:39:20,  3.57it/s] 49%|████▉     | 183067/371472 [3:29:46<14:55:51,  3.51it/s] 49%|████▉     | 183068/371472 [3:29:47<14:49:20,  3.53it/s] 49%|████▉     | 183069/371472 [3:29:47<15:11:35,  3.44it/s] 49%|████▉     | 183070/371472 [3:29:47<14:57:57,  3.50it/s] 49%|████▉     | 183071/371472 [3:29:48<15:01:02,  3.48it/s] 49%|████▉     | 183072/371472 [3:29:48<14:36:35,  3.58it/s] 49%|████▉     | 183073/371472 [3:29:48<15:12:51,  3.44it/s] 49%|████▉     | 183074/371472 [3:29:48<15:01:51,  3.48it/s] 49%|████▉     | 183075/371472 [3:29:49<14:19:47,  3.65it/s] 49%|████▉     | 183076/371472 [3:29:49<15:37:44,  3.35it/s] 49%|████▉     | 183077/371472 [3:29:49<14:59:35,  3.49it/s] 49%|████▉     | 183078/371472 [3:29:50<14:26:47,  3.62it/s] 49%|████▉     | 183079/371472 [3:29:50<15:08:41,  3.46it/s] 49%|████▉     | 183080/371472 [3:29:50<15:49:23,  3.31it/s]                                                            {'loss': 3.0367, 'learning_rate': 5.566808162209915e-07, 'epoch': 7.89}
 49%|████▉     | 183080/371472 [3:29:50<15:49:23,  3.31it/s] 49%|████▉     | 183081/371472 [3:29:50<15:25:16,  3.39it/s] 49%|████▉     | 183082/371472 [3:29:51<15:22:26,  3.40it/s] 49%|████▉     | 183083/371472 [3:29:51<16:12:35,  3.23it/s] 49%|████▉     | 183084/371472 [3:29:51<15:38:02,  3.35it/s] 49%|████▉     | 183085/371472 [3:29:52<15:17:29,  3.42it/s] 49%|████▉     | 183086/371472 [3:29:52<14:51:59,  3.52it/s] 49%|████▉     | 183087/371472 [3:29:52<17:49:07,  2.94it/s] 49%|████▉     | 183088/371472 [3:29:53<16:22:24,  3.20it/s] 49%|████▉     | 183089/371472 [3:29:53<15:33:49,  3.36it/s] 49%|████▉     | 183090/371472 [3:29:53<15:44:25,  3.32it/s] 49%|████▉     | 183091/371472 [3:29:53<15:04:07,  3.47it/s] 49%|████▉     | 183092/371472 [3:29:54<15:24:46,  3.40it/s] 49%|████▉     | 183093/371472 [3:29:54<14:58:35,  3.49it/s] 49%|████▉     | 183094/371472 [3:29:54<14:37:29,  3.58it/s] 49%|████▉     | 183095/371472 [3:29:55<14:37:03,  3.58it/s] 49%|████▉     | 183096/371472 [3:29:55<14:32:33,  3.60it/s] 49%|████▉     | 183097/371472 [3:29:55<14:23:34,  3.64it/s] 49%|████▉     | 183098/371472 [3:29:55<14:00:57,  3.73it/s] 49%|████▉     | 183099/371472 [3:29:56<13:44:30,  3.81it/s] 49%|████▉     | 183100/371472 [3:29:56<14:23:57,  3.63it/s]                                                            {'loss': 3.1247, 'learning_rate': 5.566323342455128e-07, 'epoch': 7.89}
 49%|████▉     | 183100/371472 [3:29:56<14:23:57,  3.63it/s] 49%|████▉     | 183101/371472 [3:29:56<14:37:54,  3.58it/s] 49%|████▉     | 183102/371472 [3:29:57<14:45:50,  3.54it/s] 49%|████▉     | 183103/371472 [3:29:57<14:39:30,  3.57it/s] 49%|████▉     | 183104/371472 [3:29:57<15:10:37,  3.45it/s] 49%|████▉     | 183105/371472 [3:29:57<15:07:20,  3.46it/s] 49%|████▉     | 183106/371472 [3:29:58<15:13:14,  3.44it/s] 49%|████▉     | 183107/371472 [3:29:58<15:18:36,  3.42it/s] 49%|████▉     | 183108/371472 [3:29:58<15:30:47,  3.37it/s] 49%|████▉     | 183109/371472 [3:29:59<14:55:03,  3.51it/s] 49%|████▉     | 183110/371472 [3:29:59<14:44:44,  3.55it/s] 49%|████▉     | 183111/371472 [3:29:59<14:35:42,  3.58it/s] 49%|████▉     | 183112/371472 [3:29:59<14:10:08,  3.69it/s] 49%|████▉     | 183113/371472 [3:30:00<15:17:58,  3.42it/s] 49%|████▉     | 183114/371472 [3:30:00<15:07:19,  3.46it/s] 49%|████▉     | 183115/371472 [3:30:00<14:53:58,  3.51it/s] 49%|████▉     | 183116/371472 [3:30:01<14:46:52,  3.54it/s] 49%|████▉     | 183117/371472 [3:30:01<14:11:36,  3.69it/s] 49%|████▉     | 183118/371472 [3:30:01<14:39:37,  3.57it/s] 49%|████▉     | 183119/371472 [3:30:01<14:43:32,  3.55it/s] 49%|████▉     | 183120/371472 [3:30:02<15:42:37,  3.33it/s]                                                            {'loss': 3.1239, 'learning_rate': 5.565838522700339e-07, 'epoch': 7.89}
 49%|████▉     | 183120/371472 [3:30:02<15:42:37,  3.33it/s] 49%|████▉     | 183121/371472 [3:30:02<16:18:46,  3.21it/s] 49%|████▉     | 183122/371472 [3:30:02<15:46:38,  3.32it/s] 49%|████▉     | 183123/371472 [3:30:03<14:43:39,  3.55it/s] 49%|████▉     | 183124/371472 [3:30:03<14:21:45,  3.64it/s] 49%|████▉     | 183125/371472 [3:30:03<14:46:01,  3.54it/s] 49%|████▉     | 183126/371472 [3:30:03<14:31:08,  3.60it/s] 49%|████▉     | 183127/371472 [3:30:04<15:10:40,  3.45it/s] 49%|████▉     | 183128/371472 [3:30:04<14:35:39,  3.58it/s] 49%|████▉     | 183129/371472 [3:30:04<14:48:12,  3.53it/s] 49%|████▉     | 183130/371472 [3:30:04<14:09:05,  3.70it/s] 49%|████▉     | 183131/371472 [3:30:05<13:40:00,  3.83it/s] 49%|████▉     | 183132/371472 [3:30:05<13:44:17,  3.81it/s] 49%|████▉     | 183133/371472 [3:30:05<13:59:54,  3.74it/s] 49%|████▉     | 183134/371472 [3:30:06<14:01:30,  3.73it/s] 49%|████▉     | 183135/371472 [3:30:06<13:49:52,  3.78it/s] 49%|████▉     | 183136/371472 [3:30:06<14:42:37,  3.56it/s] 49%|████▉     | 183137/371472 [3:30:06<14:13:47,  3.68it/s] 49%|████▉     | 183138/371472 [3:30:07<13:51:22,  3.78it/s] 49%|████▉     | 183139/371472 [3:30:07<14:07:11,  3.71it/s] 49%|████▉     | 183140/371472 [3:30:07<14:06:54,  3.71it/s]                                                            {'loss': 3.3193, 'learning_rate': 5.565353702945548e-07, 'epoch': 7.89}
 49%|████▉     | 183140/371472 [3:30:07<14:06:54,  3.71it/s] 49%|████▉     | 183141/371472 [3:30:07<15:09:36,  3.45it/s] 49%|████▉     | 183142/371472 [3:30:08<16:13:25,  3.22it/s] 49%|████▉     | 183143/371472 [3:30:08<15:49:44,  3.30it/s] 49%|████▉     | 183144/371472 [3:30:08<16:18:27,  3.21it/s] 49%|████▉     | 183145/371472 [3:30:09<16:25:54,  3.18it/s] 49%|████▉     | 183146/371472 [3:30:09<16:29:21,  3.17it/s] 49%|████▉     | 183147/371472 [3:30:09<15:34:39,  3.36it/s] 49%|████▉     | 183148/371472 [3:30:10<15:12:38,  3.44it/s] 49%|████▉     | 183149/371472 [3:30:10<15:43:02,  3.33it/s] 49%|████▉     | 183150/371472 [3:30:10<16:52:40,  3.10it/s] 49%|████▉     | 183151/371472 [3:30:11<16:04:10,  3.26it/s] 49%|████▉     | 183152/371472 [3:30:11<15:30:25,  3.37it/s] 49%|████▉     | 183153/371472 [3:30:11<15:03:52,  3.47it/s] 49%|████▉     | 183154/371472 [3:30:11<14:51:26,  3.52it/s] 49%|████▉     | 183155/371472 [3:30:12<14:34:14,  3.59it/s] 49%|████▉     | 183156/371472 [3:30:12<15:11:33,  3.44it/s] 49%|████▉     | 183157/371472 [3:30:12<14:52:08,  3.52it/s] 49%|████▉     | 183158/371472 [3:30:13<15:17:21,  3.42it/s] 49%|████▉     | 183159/371472 [3:30:13<14:57:54,  3.50it/s] 49%|████▉     | 183160/371472 [3:30:13<14:22:21,  3.64it/s]                                                            {'loss': 3.0809, 'learning_rate': 5.56486888319076e-07, 'epoch': 7.89}
 49%|████▉     | 183160/371472 [3:30:13<14:22:21,  3.64it/s] 49%|████▉     | 183161/371472 [3:30:13<14:43:18,  3.55it/s] 49%|████▉     | 183162/371472 [3:30:14<14:28:06,  3.62it/s] 49%|████▉     | 183163/371472 [3:30:14<14:28:02,  3.62it/s] 49%|████▉     | 183164/371472 [3:30:14<14:32:09,  3.60it/s] 49%|████▉     | 183165/371472 [3:30:15<14:47:32,  3.54it/s] 49%|████▉     | 183166/371472 [3:30:15<14:21:30,  3.64it/s] 49%|████▉     | 183167/371472 [3:30:15<14:10:31,  3.69it/s] 49%|████▉     | 183168/371472 [3:30:15<13:49:26,  3.78it/s] 49%|████▉     | 183169/371472 [3:30:16<14:35:47,  3.58it/s] 49%|████▉     | 183170/371472 [3:30:16<14:14:38,  3.67it/s] 49%|████▉     | 183171/371472 [3:30:16<14:04:28,  3.72it/s] 49%|████▉     | 183172/371472 [3:30:16<13:35:05,  3.85it/s] 49%|████▉     | 183173/371472 [3:30:17<13:51:08,  3.78it/s] 49%|████▉     | 183174/371472 [3:30:17<13:57:16,  3.75it/s] 49%|████▉     | 183175/371472 [3:30:17<13:48:31,  3.79it/s] 49%|████▉     | 183176/371472 [3:30:17<13:50:16,  3.78it/s] 49%|████▉     | 183177/371472 [3:30:18<13:47:12,  3.79it/s] 49%|████▉     | 183178/371472 [3:30:18<13:30:32,  3.87it/s] 49%|████▉     | 183179/371472 [3:30:18<13:58:30,  3.74it/s] 49%|████▉     | 183180/371472 [3:30:18<14:05:07,  3.71it/s]                                                            {'loss': 3.0773, 'learning_rate': 5.564384063435972e-07, 'epoch': 7.89}
 49%|████▉     | 183180/371472 [3:30:18<14:05:07,  3.71it/s] 49%|████▉     | 183181/371472 [3:30:19<14:10:14,  3.69it/s] 49%|████▉     | 183182/371472 [3:30:19<13:58:56,  3.74it/s] 49%|████▉     | 183183/371472 [3:30:19<13:31:55,  3.87it/s] 49%|████▉     | 183184/371472 [3:30:20<13:45:48,  3.80it/s] 49%|████▉     | 183185/371472 [3:30:20<13:34:11,  3.85it/s] 49%|████▉     | 183186/371472 [3:30:20<14:10:09,  3.69it/s] 49%|████▉     | 183187/371472 [3:30:20<14:29:10,  3.61it/s] 49%|████▉     | 183188/371472 [3:30:21<14:13:22,  3.68it/s] 49%|████▉     | 183189/371472 [3:30:21<16:17:15,  3.21it/s] 49%|████▉     | 183190/371472 [3:30:21<15:52:17,  3.30it/s] 49%|████▉     | 183191/371472 [3:30:22<15:15:56,  3.43it/s] 49%|████▉     | 183192/371472 [3:30:22<14:58:14,  3.49it/s] 49%|████▉     | 183193/371472 [3:30:22<14:46:36,  3.54it/s] 49%|████▉     | 183194/371472 [3:30:22<14:29:42,  3.61it/s] 49%|████▉     | 183195/371472 [3:30:23<14:07:48,  3.70it/s] 49%|████▉     | 183196/371472 [3:30:23<15:33:20,  3.36it/s] 49%|████▉     | 183197/371472 [3:30:23<15:08:46,  3.45it/s] 49%|████▉     | 183198/371472 [3:30:24<14:37:23,  3.58it/s] 49%|████▉     | 183199/371472 [3:30:24<16:11:28,  3.23it/s] 49%|████▉     | 183200/371472 [3:30:24<16:00:40,  3.27it/s]                                                            {'loss': 2.9781, 'learning_rate': 5.563899243681181e-07, 'epoch': 7.89}
 49%|████▉     | 183200/371472 [3:30:24<16:00:40,  3.27it/s] 49%|████▉     | 183201/371472 [3:30:24<15:26:54,  3.39it/s] 49%|████▉     | 183202/371472 [3:30:25<14:53:32,  3.51it/s] 49%|████▉     | 183203/371472 [3:30:25<14:32:42,  3.60it/s] 49%|████▉     | 183204/371472 [3:30:25<13:50:58,  3.78it/s] 49%|████▉     | 183205/371472 [3:30:25<13:41:32,  3.82it/s] 49%|████▉     | 183206/371472 [3:30:26<14:06:43,  3.71it/s] 49%|████▉     | 183207/371472 [3:30:26<15:02:48,  3.48it/s] 49%|████▉     | 183208/371472 [3:30:26<15:00:51,  3.48it/s] 49%|████▉     | 183209/371472 [3:30:27<15:04:00,  3.47it/s] 49%|████▉     | 183210/371472 [3:30:27<14:43:24,  3.55it/s] 49%|████▉     | 183211/371472 [3:30:27<14:42:14,  3.56it/s] 49%|████▉     | 183212/371472 [3:30:27<14:09:33,  3.69it/s] 49%|████▉     | 183213/371472 [3:30:28<14:28:26,  3.61it/s] 49%|████▉     | 183214/371472 [3:30:28<14:00:56,  3.73it/s] 49%|████▉     | 183215/371472 [3:30:28<14:03:36,  3.72it/s] 49%|████▉     | 183216/371472 [3:30:29<14:42:25,  3.56it/s] 49%|████▉     | 183217/371472 [3:30:29<14:29:28,  3.61it/s] 49%|████▉     | 183218/371472 [3:30:29<15:01:17,  3.48it/s] 49%|████▉     | 183219/371472 [3:30:30<15:31:50,  3.37it/s] 49%|████▉     | 183220/371472 [3:30:30<15:30:01,  3.37it/s]                                                            {'loss': 2.9497, 'learning_rate': 5.563414423926392e-07, 'epoch': 7.89}
 49%|████▉     | 183220/371472 [3:30:30<15:30:01,  3.37it/s] 49%|████▉     | 183221/371472 [3:30:30<15:13:22,  3.44it/s] 49%|████▉     | 183222/371472 [3:30:30<15:29:00,  3.38it/s] 49%|████▉     | 183223/371472 [3:30:31<15:32:32,  3.36it/s] 49%|████▉     | 183224/371472 [3:30:31<14:52:04,  3.52it/s] 49%|████▉     | 183225/371472 [3:30:31<15:47:52,  3.31it/s] 49%|████▉     | 183226/371472 [3:30:32<15:29:56,  3.37it/s] 49%|████▉     | 183227/371472 [3:30:32<14:57:24,  3.50it/s] 49%|████▉     | 183228/371472 [3:30:32<14:39:21,  3.57it/s] 49%|████▉     | 183229/371472 [3:30:32<14:19:37,  3.65it/s] 49%|████▉     | 183230/371472 [3:30:33<14:56:41,  3.50it/s] 49%|████▉     | 183231/371472 [3:30:33<14:24:57,  3.63it/s] 49%|████▉     | 183232/371472 [3:30:33<14:40:48,  3.56it/s] 49%|████▉     | 183233/371472 [3:30:34<16:11:25,  3.23it/s] 49%|████▉     | 183234/371472 [3:30:34<17:16:43,  3.03it/s] 49%|████▉     | 183235/371472 [3:30:34<16:09:09,  3.24it/s] 49%|████▉     | 183236/371472 [3:30:35<15:40:01,  3.34it/s] 49%|████▉     | 183237/371472 [3:30:35<15:29:45,  3.37it/s] 49%|████▉     | 183238/371472 [3:30:35<15:17:28,  3.42it/s] 49%|████▉     | 183239/371472 [3:30:35<14:40:12,  3.56it/s] 49%|████▉     | 183240/371472 [3:30:36<14:40:51,  3.56it/s]                                                            {'loss': 3.0616, 'learning_rate': 5.562929604171605e-07, 'epoch': 7.89}
 49%|████▉     | 183240/371472 [3:30:36<14:40:51,  3.56it/s] 49%|████▉     | 183241/371472 [3:30:36<15:07:09,  3.46it/s] 49%|████▉     | 183242/371472 [3:30:36<14:21:55,  3.64it/s] 49%|████▉     | 183243/371472 [3:30:36<14:02:44,  3.72it/s] 49%|████▉     | 183244/371472 [3:30:37<14:35:18,  3.58it/s] 49%|████▉     | 183245/371472 [3:30:37<15:43:47,  3.32it/s] 49%|████▉     | 183246/371472 [3:30:37<14:52:29,  3.51it/s] 49%|████▉     | 183247/371472 [3:30:38<14:42:29,  3.55it/s] 49%|████▉     | 183248/371472 [3:30:38<15:02:01,  3.48it/s] 49%|████▉     | 183249/371472 [3:30:38<14:54:42,  3.51it/s] 49%|████▉     | 183250/371472 [3:30:38<14:53:14,  3.51it/s] 49%|████▉     | 183251/371472 [3:30:39<14:31:49,  3.60it/s] 49%|████▉     | 183252/371472 [3:30:39<14:26:44,  3.62it/s] 49%|████▉     | 183253/371472 [3:30:39<14:06:08,  3.71it/s] 49%|████▉     | 183254/371472 [3:30:40<14:24:03,  3.63it/s] 49%|████▉     | 183255/371472 [3:30:40<14:38:34,  3.57it/s] 49%|████▉     | 183256/371472 [3:30:40<14:36:59,  3.58it/s] 49%|████▉     | 183257/371472 [3:30:40<14:44:25,  3.55it/s] 49%|████▉     | 183258/371472 [3:30:41<14:47:44,  3.53it/s] 49%|████▉     | 183259/371472 [3:30:41<14:44:45,  3.55it/s] 49%|████▉     | 183260/371472 [3:30:41<14:50:45,  3.52it/s]                                                            {'loss': 3.1664, 'learning_rate': 5.562444784416816e-07, 'epoch': 7.89}
 49%|████▉     | 183260/371472 [3:30:41<14:50:45,  3.52it/s] 49%|████▉     | 183261/371472 [3:30:41<14:24:32,  3.63it/s] 49%|████▉     | 183262/371472 [3:30:42<14:42:06,  3.56it/s] 49%|████▉     | 183263/371472 [3:30:42<16:49:31,  3.11it/s] 49%|████▉     | 183264/371472 [3:30:42<16:14:40,  3.22it/s] 49%|████▉     | 183265/371472 [3:30:43<17:01:54,  3.07it/s] 49%|████▉     | 183266/371472 [3:30:43<16:35:33,  3.15it/s] 49%|████▉     | 183267/371472 [3:30:43<16:14:59,  3.22it/s] 49%|████▉     | 183268/371472 [3:30:44<15:12:48,  3.44it/s] 49%|████▉     | 183269/371472 [3:30:44<15:29:07,  3.38it/s] 49%|████▉     | 183270/371472 [3:30:44<14:49:46,  3.53it/s] 49%|████▉     | 183271/371472 [3:30:45<14:21:19,  3.64it/s] 49%|████▉     | 183272/371472 [3:30:45<14:22:27,  3.64it/s] 49%|████▉     | 183273/371472 [3:30:45<14:25:31,  3.62it/s] 49%|████▉     | 183274/371472 [3:30:45<14:32:10,  3.60it/s] 49%|████▉     | 183275/371472 [3:30:46<14:24:13,  3.63it/s] 49%|████▉     | 183276/371472 [3:30:46<14:43:48,  3.55it/s] 49%|████▉     | 183277/371472 [3:30:46<14:04:03,  3.72it/s] 49%|████▉     | 183278/371472 [3:30:46<14:44:13,  3.55it/s] 49%|████▉     | 183279/371472 [3:30:47<15:40:05,  3.34it/s] 49%|████▉     | 183280/371472 [3:30:47<14:56:23,  3.50it/s]                                                            {'loss': 3.0023, 'learning_rate': 5.561959964662026e-07, 'epoch': 7.89}
 49%|████▉     | 183280/371472 [3:30:47<14:56:23,  3.50it/s] 49%|████▉     | 183281/371472 [3:30:47<16:10:46,  3.23it/s] 49%|████▉     | 183282/371472 [3:30:48<16:26:32,  3.18it/s] 49%|████▉     | 183283/371472 [3:30:48<15:23:45,  3.40it/s] 49%|████▉     | 183284/371472 [3:30:48<15:03:06,  3.47it/s] 49%|████▉     | 183285/371472 [3:30:49<15:46:34,  3.31it/s] 49%|████▉     | 183286/371472 [3:30:49<15:12:11,  3.44it/s] 49%|████▉     | 183287/371472 [3:30:49<16:00:10,  3.27it/s] 49%|████▉     | 183288/371472 [3:30:49<15:31:57,  3.37it/s] 49%|████▉     | 183289/371472 [3:30:50<15:09:41,  3.45it/s] 49%|████▉     | 183290/371472 [3:30:50<14:53:09,  3.51it/s] 49%|████▉     | 183291/371472 [3:30:50<14:33:59,  3.59it/s] 49%|████▉     | 183292/371472 [3:30:51<14:55:20,  3.50it/s] 49%|████▉     | 183293/371472 [3:30:51<16:11:57,  3.23it/s] 49%|████▉     | 183294/371472 [3:30:51<15:44:51,  3.32it/s] 49%|████▉     | 183295/371472 [3:30:52<15:27:10,  3.38it/s] 49%|████▉     | 183296/371472 [3:30:52<14:44:40,  3.55it/s] 49%|████▉     | 183297/371472 [3:30:52<14:36:35,  3.58it/s] 49%|████▉     | 183298/371472 [3:30:52<14:35:44,  3.58it/s] 49%|████▉     | 183299/371472 [3:30:53<14:24:55,  3.63it/s] 49%|████▉     | 183300/371472 [3:30:53<13:58:19,  3.74it/s]                                                            {'loss': 3.0391, 'learning_rate': 5.561475144907237e-07, 'epoch': 7.9}
 49%|████▉     | 183300/371472 [3:30:53<13:58:19,  3.74it/s] 49%|████▉     | 183301/371472 [3:30:53<13:53:10,  3.76it/s] 49%|████▉     | 183302/371472 [3:30:53<15:22:54,  3.40it/s] 49%|████▉     | 183303/371472 [3:30:54<14:57:34,  3.49it/s] 49%|████▉     | 183304/371472 [3:30:54<14:48:31,  3.53it/s] 49%|████▉     | 183305/371472 [3:30:54<15:09:08,  3.45it/s] 49%|████▉     | 183306/371472 [3:30:55<14:39:49,  3.56it/s] 49%|████▉     | 183307/371472 [3:30:55<15:33:53,  3.36it/s] 49%|████▉     | 183308/371472 [3:30:55<15:06:09,  3.46it/s] 49%|████▉     | 183309/371472 [3:30:55<14:29:57,  3.60it/s] 49%|████▉     | 183310/371472 [3:30:56<14:17:06,  3.66it/s] 49%|████▉     | 183311/371472 [3:30:56<14:34:21,  3.59it/s] 49%|████▉     | 183312/371472 [3:30:56<14:27:32,  3.61it/s] 49%|████▉     | 183313/371472 [3:30:57<14:26:41,  3.62it/s] 49%|████▉     | 183314/371472 [3:30:57<14:56:55,  3.50it/s] 49%|████▉     | 183315/371472 [3:30:57<14:48:06,  3.53it/s] 49%|████▉     | 183316/371472 [3:30:57<15:31:39,  3.37it/s] 49%|████▉     | 183317/371472 [3:30:58<15:09:29,  3.45it/s] 49%|████▉     | 183318/371472 [3:30:58<14:58:51,  3.49it/s] 49%|████▉     | 183319/371472 [3:30:58<14:24:12,  3.63it/s] 49%|████▉     | 183320/371472 [3:30:59<14:18:04,  3.65it/s]                                                            {'loss': 2.9871, 'learning_rate': 5.560990325152448e-07, 'epoch': 7.9}
 49%|████▉     | 183320/371472 [3:30:59<14:18:04,  3.65it/s] 49%|████▉     | 183321/371472 [3:30:59<14:01:31,  3.73it/s] 49%|████▉     | 183322/371472 [3:30:59<14:37:48,  3.57it/s] 49%|████▉     | 183323/371472 [3:30:59<14:25:31,  3.62it/s] 49%|████▉     | 183324/371472 [3:31:00<14:18:46,  3.65it/s] 49%|████▉     | 183325/371472 [3:31:00<14:28:11,  3.61it/s] 49%|████▉     | 183326/371472 [3:31:00<15:47:04,  3.31it/s] 49%|████▉     | 183327/371472 [3:31:01<15:31:28,  3.37it/s] 49%|████▉     | 183328/371472 [3:31:01<15:14:26,  3.43it/s] 49%|████▉     | 183329/371472 [3:31:01<14:41:12,  3.56it/s] 49%|████▉     | 183330/371472 [3:31:01<14:15:49,  3.66it/s] 49%|████▉     | 183331/371472 [3:31:02<13:53:48,  3.76it/s] 49%|████▉     | 183332/371472 [3:31:02<13:24:09,  3.90it/s] 49%|████▉     | 183333/371472 [3:31:02<13:34:04,  3.85it/s] 49%|████▉     | 183334/371472 [3:31:02<13:52:21,  3.77it/s] 49%|████▉     | 183335/371472 [3:31:03<14:10:11,  3.69it/s] 49%|████▉     | 183336/371472 [3:31:03<14:57:42,  3.49it/s] 49%|████▉     | 183337/371472 [3:31:03<15:15:23,  3.43it/s] 49%|████▉     | 183338/371472 [3:31:04<14:52:02,  3.52it/s] 49%|████▉     | 183339/371472 [3:31:04<14:35:25,  3.58it/s] 49%|████▉     | 183340/371472 [3:31:04<14:01:51,  3.72it/s]                                                            {'loss': 3.0278, 'learning_rate': 5.56050550539766e-07, 'epoch': 7.9}
 49%|████▉     | 183340/371472 [3:31:04<14:01:51,  3.72it/s] 49%|████▉     | 183341/371472 [3:31:04<14:41:39,  3.56it/s] 49%|████▉     | 183342/371472 [3:31:05<14:04:01,  3.71it/s] 49%|████▉     | 183343/371472 [3:31:05<13:56:23,  3.75it/s] 49%|████▉     | 183344/371472 [3:31:05<14:19:34,  3.65it/s] 49%|████▉     | 183345/371472 [3:31:05<14:24:04,  3.63it/s] 49%|████▉     | 183346/371472 [3:31:06<14:42:44,  3.55it/s] 49%|████▉     | 183347/371472 [3:31:06<16:16:09,  3.21it/s] 49%|████▉     | 183348/371472 [3:31:06<15:55:07,  3.28it/s] 49%|████▉     | 183349/371472 [3:31:07<15:53:47,  3.29it/s] 49%|████▉     | 183350/371472 [3:31:07<15:26:20,  3.38it/s] 49%|████▉     | 183351/371472 [3:31:07<15:06:15,  3.46it/s] 49%|████▉     | 183352/371472 [3:31:08<15:03:22,  3.47it/s] 49%|████▉     | 183353/371472 [3:31:08<15:07:38,  3.45it/s] 49%|████▉     | 183354/371472 [3:31:08<14:24:02,  3.63it/s] 49%|████▉     | 183355/371472 [3:31:08<14:56:27,  3.50it/s] 49%|████▉     | 183356/371472 [3:31:09<14:46:59,  3.53it/s] 49%|████▉     | 183357/371472 [3:31:09<14:32:07,  3.59it/s] 49%|████▉     | 183358/371472 [3:31:09<15:26:08,  3.39it/s] 49%|████▉     | 183359/371472 [3:31:10<15:13:32,  3.43it/s] 49%|████▉     | 183360/371472 [3:31:10<15:30:22,  3.37it/s]                                                            {'loss': 2.9089, 'learning_rate': 5.560020685642871e-07, 'epoch': 7.9}
 49%|████▉     | 183360/371472 [3:31:10<15:30:22,  3.37it/s] 49%|████▉     | 183361/371472 [3:31:10<16:30:43,  3.16it/s] 49%|████▉     | 183362/371472 [3:31:11<16:40:05,  3.13it/s] 49%|████▉     | 183363/371472 [3:31:11<15:40:07,  3.33it/s] 49%|████▉     | 183364/371472 [3:31:11<15:09:02,  3.45it/s] 49%|████▉     | 183365/371472 [3:31:11<14:42:44,  3.55it/s] 49%|████▉     | 183366/371472 [3:31:12<14:58:39,  3.49it/s] 49%|████▉     | 183367/371472 [3:31:12<15:54:22,  3.28it/s] 49%|████▉     | 183368/371472 [3:31:12<15:48:16,  3.31it/s] 49%|████▉     | 183369/371472 [3:31:13<16:18:48,  3.20it/s] 49%|████▉     | 183370/371472 [3:31:13<15:35:05,  3.35it/s] 49%|████▉     | 183371/371472 [3:31:13<15:17:51,  3.42it/s] 49%|████▉     | 183372/371472 [3:31:13<14:33:09,  3.59it/s] 49%|████▉     | 183373/371472 [3:31:14<15:11:47,  3.44it/s] 49%|████▉     | 183374/371472 [3:31:14<15:23:54,  3.39it/s] 49%|████▉     | 183375/371472 [3:31:14<15:34:39,  3.35it/s] 49%|████▉     | 183376/371472 [3:31:15<15:07:34,  3.45it/s] 49%|████▉     | 183377/371472 [3:31:15<15:01:16,  3.48it/s] 49%|████▉     | 183378/371472 [3:31:15<16:03:16,  3.25it/s] 49%|████▉     | 183379/371472 [3:31:16<15:46:34,  3.31it/s] 49%|████▉     | 183380/371472 [3:31:16<16:00:21,  3.26it/s]                                                            {'loss': 2.9813, 'learning_rate': 5.559535865888081e-07, 'epoch': 7.9}
 49%|████▉     | 183380/371472 [3:31:16<16:00:21,  3.26it/s] 49%|████▉     | 183381/371472 [3:31:16<16:30:48,  3.16it/s] 49%|████▉     | 183382/371472 [3:31:17<17:10:53,  3.04it/s] 49%|████▉     | 183383/371472 [3:31:17<17:08:19,  3.05it/s] 49%|████▉     | 183384/371472 [3:31:17<16:28:44,  3.17it/s] 49%|████▉     | 183385/371472 [3:31:17<15:36:44,  3.35it/s] 49%|████▉     | 183386/371472 [3:31:18<15:03:01,  3.47it/s] 49%|████▉     | 183387/371472 [3:31:18<15:37:23,  3.34it/s] 49%|████▉     | 183388/371472 [3:31:18<15:35:26,  3.35it/s] 49%|████▉     | 183389/371472 [3:31:19<15:09:03,  3.45it/s] 49%|████▉     | 183390/371472 [3:31:19<15:27:23,  3.38it/s] 49%|████▉     | 183391/371472 [3:31:19<15:15:47,  3.42it/s] 49%|████▉     | 183392/371472 [3:31:19<15:12:14,  3.44it/s] 49%|████▉     | 183393/371472 [3:31:20<15:17:56,  3.41it/s] 49%|████▉     | 183394/371472 [3:31:20<15:37:37,  3.34it/s] 49%|████▉     | 183395/371472 [3:31:20<15:18:13,  3.41it/s] 49%|████▉     | 183396/371472 [3:31:21<14:58:22,  3.49it/s] 49%|████▉     | 183397/371472 [3:31:21<14:49:24,  3.52it/s] 49%|████▉     | 183398/371472 [3:31:21<15:05:29,  3.46it/s] 49%|████▉     | 183399/371472 [3:31:21<14:48:58,  3.53it/s] 49%|████▉     | 183400/371472 [3:31:22<14:21:57,  3.64it/s]                                                            {'loss': 2.967, 'learning_rate': 5.559051046133293e-07, 'epoch': 7.9}
 49%|████▉     | 183400/371472 [3:31:22<14:21:57,  3.64it/s] 49%|████▉     | 183401/371472 [3:31:22<14:32:35,  3.59it/s] 49%|████▉     | 183402/371472 [3:31:22<16:03:32,  3.25it/s] 49%|████▉     | 183403/371472 [3:31:23<15:28:56,  3.37it/s] 49%|████▉     | 183404/371472 [3:31:23<14:47:22,  3.53it/s] 49%|████▉     | 183405/371472 [3:31:23<15:00:21,  3.48it/s] 49%|████▉     | 183406/371472 [3:31:23<15:06:03,  3.46it/s] 49%|████▉     | 183407/371472 [3:31:24<17:08:21,  3.05it/s] 49%|████▉     | 183408/371472 [3:31:24<16:07:54,  3.24it/s] 49%|████▉     | 183409/371472 [3:31:24<15:28:50,  3.37it/s] 49%|████▉     | 183410/371472 [3:31:25<15:09:06,  3.45it/s] 49%|████▉     | 183411/371472 [3:31:25<14:35:08,  3.58it/s] 49%|████▉     | 183412/371472 [3:31:25<14:38:14,  3.57it/s] 49%|████▉     | 183413/371472 [3:31:26<16:26:03,  3.18it/s] 49%|████▉     | 183414/371472 [3:31:26<16:43:58,  3.12it/s] 49%|████▉     | 183415/371472 [3:31:26<17:55:39,  2.91it/s] 49%|████▉     | 183416/371472 [3:31:27<16:58:21,  3.08it/s] 49%|████▉     | 183417/371472 [3:31:27<16:38:00,  3.14it/s] 49%|████▉     | 183418/371472 [3:31:27<15:44:58,  3.32it/s] 49%|████▉     | 183419/371472 [3:31:28<15:29:46,  3.37it/s] 49%|████▉     | 183420/371472 [3:31:28<15:20:14,  3.41it/s]                                                            {'loss': 3.0948, 'learning_rate': 5.558566226378505e-07, 'epoch': 7.9}
 49%|████▉     | 183420/371472 [3:31:28<15:20:14,  3.41it/s] 49%|████▉     | 183421/371472 [3:31:28<15:33:12,  3.36it/s] 49%|████▉     | 183422/371472 [3:31:28<16:13:45,  3.22it/s] 49%|████▉     | 183423/371472 [3:31:29<16:01:19,  3.26it/s] 49%|████▉     | 183424/371472 [3:31:29<16:08:29,  3.24it/s] 49%|████▉     | 183425/371472 [3:31:29<16:03:41,  3.25it/s] 49%|████▉     | 183426/371472 [3:31:30<16:58:50,  3.08it/s] 49%|████▉     | 183427/371472 [3:31:30<17:16:20,  3.02it/s] 49%|████▉     | 183428/371472 [3:31:30<16:18:00,  3.20it/s] 49%|████▉     | 183429/371472 [3:31:31<15:49:37,  3.30it/s] 49%|████▉     | 183430/371472 [3:31:31<15:32:18,  3.36it/s] 49%|████▉     | 183431/371472 [3:31:31<15:03:04,  3.47it/s] 49%|████▉     | 183432/371472 [3:31:32<15:48:39,  3.30it/s] 49%|████▉     | 183433/371472 [3:31:32<15:18:40,  3.41it/s] 49%|████▉     | 183434/371472 [3:31:32<14:36:11,  3.58it/s] 49%|████▉     | 183435/371472 [3:31:32<14:16:28,  3.66it/s] 49%|████▉     | 183436/371472 [3:31:33<15:03:57,  3.47it/s] 49%|████▉     | 183437/371472 [3:31:33<14:38:02,  3.57it/s] 49%|████▉     | 183438/371472 [3:31:33<14:37:23,  3.57it/s] 49%|████▉     | 183439/371472 [3:31:33<15:34:48,  3.35it/s] 49%|████▉     | 183440/371472 [3:31:34<16:23:42,  3.19it/s]                                                            {'loss': 2.8508, 'learning_rate': 5.558081406623714e-07, 'epoch': 7.9}
 49%|████▉     | 183440/371472 [3:31:34<16:23:42,  3.19it/s] 49%|████▉     | 183441/371472 [3:31:34<16:09:29,  3.23it/s] 49%|████▉     | 183442/371472 [3:31:34<15:50:12,  3.30it/s] 49%|████▉     | 183443/371472 [3:31:35<15:33:53,  3.36it/s] 49%|████▉     | 183444/371472 [3:31:35<15:26:10,  3.38it/s] 49%|████▉     | 183445/371472 [3:31:35<15:10:10,  3.44it/s] 49%|████▉     | 183446/371472 [3:31:36<15:19:27,  3.41it/s] 49%|████▉     | 183447/371472 [3:31:36<15:48:58,  3.30it/s] 49%|████▉     | 183448/371472 [3:31:36<14:56:15,  3.50it/s] 49%|████▉     | 183449/371472 [3:31:36<14:32:44,  3.59it/s] 49%|████▉     | 183450/371472 [3:31:37<14:14:40,  3.67it/s] 49%|████▉     | 183451/371472 [3:31:37<14:18:50,  3.65it/s] 49%|████▉     | 183452/371472 [3:31:37<14:13:37,  3.67it/s] 49%|████▉     | 183453/371472 [3:31:37<14:01:15,  3.72it/s] 49%|████▉     | 183454/371472 [3:31:38<14:21:20,  3.64it/s] 49%|████▉     | 183455/371472 [3:31:38<14:38:41,  3.57it/s] 49%|████▉     | 183456/371472 [3:31:38<15:11:23,  3.44it/s] 49%|████▉     | 183457/371472 [3:31:39<15:39:36,  3.33it/s] 49%|████▉     | 183458/371472 [3:31:39<16:53:26,  3.09it/s] 49%|████▉     | 183459/371472 [3:31:39<16:16:41,  3.21it/s] 49%|████▉     | 183460/371472 [3:31:40<16:00:22,  3.26it/s]                                                            {'loss': 3.1643, 'learning_rate': 5.557596586868925e-07, 'epoch': 7.9}
 49%|████▉     | 183460/371472 [3:31:40<16:00:22,  3.26it/s] 49%|████▉     | 183461/371472 [3:31:40<15:15:04,  3.42it/s] 49%|████▉     | 183462/371472 [3:31:40<15:00:09,  3.48it/s] 49%|████▉     | 183463/371472 [3:31:40<15:02:03,  3.47it/s] 49%|████▉     | 183464/371472 [3:31:41<14:49:03,  3.52it/s] 49%|████▉     | 183465/371472 [3:31:41<14:21:38,  3.64it/s] 49%|████▉     | 183466/371472 [3:31:41<14:22:40,  3.63it/s] 49%|████▉     | 183467/371472 [3:31:42<14:09:48,  3.69it/s] 49%|████▉     | 183468/371472 [3:31:42<14:14:58,  3.66it/s] 49%|████▉     | 183469/371472 [3:31:42<13:59:22,  3.73it/s] 49%|████▉     | 183470/371472 [3:31:42<14:59:00,  3.49it/s] 49%|████▉     | 183471/371472 [3:31:43<14:36:44,  3.57it/s] 49%|████▉     | 183472/371472 [3:31:43<16:22:40,  3.19it/s] 49%|████▉     | 183473/371472 [3:31:43<16:01:58,  3.26it/s] 49%|████▉     | 183474/371472 [3:31:44<16:08:18,  3.24it/s] 49%|████▉     | 183475/371472 [3:31:44<15:08:12,  3.45it/s] 49%|████▉     | 183476/371472 [3:31:44<15:14:16,  3.43it/s] 49%|████▉     | 183477/371472 [3:31:44<14:58:29,  3.49it/s] 49%|████▉     | 183478/371472 [3:31:45<15:03:38,  3.47it/s] 49%|████▉     | 183479/371472 [3:31:45<14:49:47,  3.52it/s] 49%|████▉     | 183480/371472 [3:31:45<14:21:56,  3.64it/s]                                                            {'loss': 3.1734, 'learning_rate': 5.557111767114138e-07, 'epoch': 7.9}
 49%|████▉     | 183480/371472 [3:31:45<14:21:56,  3.64it/s] 49%|████▉     | 183481/371472 [3:31:46<14:06:50,  3.70it/s] 49%|████▉     | 183482/371472 [3:31:46<14:15:17,  3.66it/s] 49%|████▉     | 183483/371472 [3:31:46<14:16:26,  3.66it/s] 49%|████▉     | 183484/371472 [3:31:46<15:29:45,  3.37it/s] 49%|████▉     | 183485/371472 [3:31:47<15:34:55,  3.35it/s] 49%|████▉     | 183486/371472 [3:31:47<15:06:57,  3.45it/s] 49%|████▉     | 183487/371472 [3:31:47<14:24:00,  3.63it/s] 49%|████▉     | 183488/371472 [3:31:48<14:10:12,  3.69it/s] 49%|████▉     | 183489/371472 [3:31:48<14:16:32,  3.66it/s] 49%|████▉     | 183490/371472 [3:31:48<14:40:22,  3.56it/s] 49%|████▉     | 183491/371472 [3:31:48<14:47:40,  3.53it/s] 49%|████▉     | 183492/371472 [3:31:49<14:17:20,  3.65it/s] 49%|████▉     | 183493/371472 [3:31:49<13:58:22,  3.74it/s] 49%|████▉     | 183494/371472 [3:31:49<13:56:21,  3.75it/s] 49%|████▉     | 183495/371472 [3:31:49<14:22:19,  3.63it/s] 49%|████▉     | 183496/371472 [3:31:50<14:30:57,  3.60it/s] 49%|████▉     | 183497/371472 [3:31:50<14:22:06,  3.63it/s] 49%|████▉     | 183498/371472 [3:31:50<14:18:19,  3.65it/s] 49%|████▉     | 183499/371472 [3:31:51<14:10:13,  3.68it/s] 49%|████▉     | 183500/371472 [3:31:51<14:15:01,  3.66it/s]                                                            {'loss': 2.9962, 'learning_rate': 5.556626947359349e-07, 'epoch': 7.9}
 49%|████▉     | 183500/371472 [3:31:51<14:15:01,  3.66it/s] 49%|████▉     | 183501/371472 [3:31:51<14:05:04,  3.71it/s] 49%|████▉     | 183502/371472 [3:31:51<14:19:59,  3.64it/s] 49%|████▉     | 183503/371472 [3:31:52<13:40:39,  3.82it/s] 49%|████▉     | 183504/371472 [3:31:52<14:49:03,  3.52it/s] 49%|████▉     | 183505/371472 [3:31:52<14:30:41,  3.60it/s] 49%|████▉     | 183506/371472 [3:31:53<15:36:48,  3.34it/s] 49%|████▉     | 183507/371472 [3:31:53<15:11:56,  3.44it/s] 49%|████▉     | 183508/371472 [3:31:53<15:29:56,  3.37it/s] 49%|████▉     | 183509/371472 [3:31:53<15:23:41,  3.39it/s] 49%|████▉     | 183510/371472 [3:31:54<14:54:47,  3.50it/s] 49%|████▉     | 183511/371472 [3:31:54<14:30:35,  3.60it/s] 49%|████▉     | 183512/371472 [3:31:54<14:42:55,  3.55it/s] 49%|████▉     | 183513/371472 [3:31:55<15:00:09,  3.48it/s] 49%|████▉     | 183514/371472 [3:31:55<14:34:40,  3.58it/s] 49%|████▉     | 183515/371472 [3:31:55<15:29:12,  3.37it/s] 49%|████▉     | 183516/371472 [3:31:55<14:54:29,  3.50it/s] 49%|████▉     | 183517/371472 [3:31:56<14:36:15,  3.57it/s] 49%|████▉     | 183518/371472 [3:31:56<14:13:55,  3.67it/s] 49%|████▉     | 183519/371472 [3:31:56<13:54:25,  3.75it/s] 49%|████▉     | 183520/371472 [3:31:56<14:06:07,  3.70it/s]                                                            {'loss': 3.0719, 'learning_rate': 5.556142127604559e-07, 'epoch': 7.9}
 49%|████▉     | 183520/371472 [3:31:56<14:06:07,  3.70it/s] 49%|████▉     | 183521/371472 [3:31:57<14:03:17,  3.71it/s] 49%|████▉     | 183522/371472 [3:31:57<13:50:06,  3.77it/s] 49%|████▉     | 183523/371472 [3:31:57<13:32:25,  3.86it/s] 49%|████▉     | 183524/371472 [3:31:57<13:24:36,  3.89it/s] 49%|████▉     | 183525/371472 [3:31:58<13:49:50,  3.77it/s] 49%|████▉     | 183526/371472 [3:31:58<14:10:00,  3.69it/s] 49%|████▉     | 183527/371472 [3:31:58<14:01:01,  3.72it/s] 49%|████▉     | 183528/371472 [3:31:59<13:55:16,  3.75it/s] 49%|████▉     | 183529/371472 [3:31:59<14:00:45,  3.73it/s] 49%|████▉     | 183530/371472 [3:31:59<13:40:26,  3.82it/s] 49%|████▉     | 183531/371472 [3:31:59<14:31:21,  3.59it/s] 49%|████▉     | 183532/371472 [3:32:00<14:44:09,  3.54it/s] 49%|████▉     | 183533/371472 [3:32:00<14:34:15,  3.58it/s] 49%|████▉     | 183534/371472 [3:32:00<16:03:29,  3.25it/s] 49%|████▉     | 183535/371472 [3:32:01<15:14:13,  3.43it/s] 49%|████▉     | 183536/371472 [3:32:01<14:57:55,  3.49it/s] 49%|████▉     | 183537/371472 [3:32:01<14:41:30,  3.55it/s] 49%|████▉     | 183538/371472 [3:32:01<14:40:28,  3.56it/s] 49%|████▉     | 183539/371472 [3:32:02<15:21:01,  3.40it/s] 49%|████▉     | 183540/371472 [3:32:02<15:26:55,  3.38it/s]                                                            {'loss': 3.1168, 'learning_rate': 5.55565730784977e-07, 'epoch': 7.91}
 49%|████▉     | 183540/371472 [3:32:02<15:26:55,  3.38it/s] 49%|████▉     | 183541/371472 [3:32:02<14:45:52,  3.54it/s] 49%|████▉     | 183542/371472 [3:32:03<14:50:05,  3.52it/s] 49%|████▉     | 183543/371472 [3:32:03<15:16:47,  3.42it/s] 49%|████▉     | 183544/371472 [3:32:03<14:49:34,  3.52it/s] 49%|████▉     | 183545/371472 [3:32:03<14:33:52,  3.58it/s] 49%|████▉     | 183546/371472 [3:32:04<14:16:55,  3.66it/s] 49%|████▉     | 183547/371472 [3:32:04<14:25:07,  3.62it/s] 49%|████▉     | 183548/371472 [3:32:04<14:26:01,  3.62it/s] 49%|████▉     | 183549/371472 [3:32:05<14:19:55,  3.64it/s] 49%|████▉     | 183550/371472 [3:32:05<13:49:12,  3.78it/s] 49%|████▉     | 183551/371472 [3:32:05<14:49:48,  3.52it/s] 49%|████▉     | 183552/371472 [3:32:05<14:27:49,  3.61it/s] 49%|████▉     | 183553/371472 [3:32:06<14:32:53,  3.59it/s] 49%|████▉     | 183554/371472 [3:32:06<14:30:48,  3.60it/s] 49%|████▉     | 183555/371472 [3:32:06<14:40:07,  3.56it/s] 49%|████▉     | 183556/371472 [3:32:07<15:04:58,  3.46it/s] 49%|████▉     | 183557/371472 [3:32:07<15:50:06,  3.30it/s] 49%|████▉     | 183558/371472 [3:32:07<15:28:35,  3.37it/s] 49%|████▉     | 183559/371472 [3:32:07<14:39:21,  3.56it/s] 49%|████▉     | 183560/371472 [3:32:08<14:37:46,  3.57it/s]                                                            {'loss': 3.1568, 'learning_rate': 5.555172488094982e-07, 'epoch': 7.91}
 49%|████▉     | 183560/371472 [3:32:08<14:37:46,  3.57it/s] 49%|████▉     | 183561/371472 [3:32:08<14:39:33,  3.56it/s] 49%|████▉     | 183562/371472 [3:32:08<14:27:37,  3.61it/s] 49%|████▉     | 183563/371472 [3:32:08<14:06:25,  3.70it/s] 49%|████▉     | 183564/371472 [3:32:09<13:59:10,  3.73it/s] 49%|████▉     | 183565/371472 [3:32:09<13:38:11,  3.83it/s] 49%|████▉     | 183566/371472 [3:32:09<13:29:24,  3.87it/s] 49%|████▉     | 183567/371472 [3:32:10<13:43:43,  3.80it/s] 49%|████▉     | 183568/371472 [3:32:10<14:33:31,  3.59it/s] 49%|████▉     | 183569/371472 [3:32:10<14:12:44,  3.67it/s] 49%|████▉     | 183570/371472 [3:32:10<14:29:26,  3.60it/s] 49%|████▉     | 183571/371472 [3:32:11<15:06:37,  3.45it/s] 49%|████▉     | 183572/371472 [3:32:11<15:06:38,  3.45it/s] 49%|████▉     | 183573/371472 [3:32:11<15:28:55,  3.37it/s] 49%|████▉     | 183574/371472 [3:32:12<15:21:01,  3.40it/s] 49%|████▉     | 183575/371472 [3:32:12<15:17:18,  3.41it/s] 49%|████▉     | 183576/371472 [3:32:12<14:45:11,  3.54it/s] 49%|████▉     | 183577/371472 [3:32:12<14:39:55,  3.56it/s] 49%|████▉     | 183578/371472 [3:32:13<14:30:33,  3.60it/s] 49%|████▉     | 183579/371472 [3:32:13<13:55:44,  3.75it/s] 49%|████▉     | 183580/371472 [3:32:13<14:16:07,  3.66it/s]                                                            {'loss': 3.1154, 'learning_rate': 5.554687668340194e-07, 'epoch': 7.91}
 49%|████▉     | 183580/371472 [3:32:13<14:16:07,  3.66it/s] 49%|████▉     | 183581/371472 [3:32:13<14:31:09,  3.59it/s] 49%|████▉     | 183582/371472 [3:32:14<15:03:58,  3.46it/s] 49%|████▉     | 183583/371472 [3:32:14<14:45:02,  3.54it/s] 49%|████▉     | 183584/371472 [3:32:14<14:47:23,  3.53it/s] 49%|████▉     | 183585/371472 [3:32:15<14:28:36,  3.61it/s] 49%|████▉     | 183586/371472 [3:32:15<14:24:46,  3.62it/s] 49%|████▉     | 183587/371472 [3:32:15<15:44:08,  3.32it/s] 49%|████▉     | 183588/371472 [3:32:16<14:56:57,  3.49it/s] 49%|████▉     | 183589/371472 [3:32:16<15:06:17,  3.46it/s] 49%|████▉     | 183590/371472 [3:32:16<14:18:54,  3.65it/s] 49%|████▉     | 183591/371472 [3:32:16<15:22:13,  3.40it/s] 49%|████▉     | 183592/371472 [3:32:17<15:02:03,  3.47it/s] 49%|████▉     | 183593/371472 [3:32:17<14:50:55,  3.51it/s] 49%|████▉     | 183594/371472 [3:32:17<14:45:05,  3.54it/s] 49%|████▉     | 183595/371472 [3:32:17<14:54:04,  3.50it/s] 49%|████▉     | 183596/371472 [3:32:18<14:32:31,  3.59it/s] 49%|████▉     | 183597/371472 [3:32:18<14:51:45,  3.51it/s] 49%|████▉     | 183598/371472 [3:32:18<14:39:46,  3.56it/s] 49%|████▉     | 183599/371472 [3:32:19<14:20:28,  3.64it/s] 49%|████▉     | 183600/371472 [3:32:19<14:29:39,  3.60it/s]                                                            {'loss': 3.0838, 'learning_rate': 5.554202848585404e-07, 'epoch': 7.91}
 49%|████▉     | 183600/371472 [3:32:19<14:29:39,  3.60it/s] 49%|████▉     | 183601/371472 [3:32:19<15:24:08,  3.39it/s] 49%|████▉     | 183602/371472 [3:32:19<14:42:55,  3.55it/s] 49%|████▉     | 183603/371472 [3:32:20<14:42:56,  3.55it/s] 49%|████▉     | 183604/371472 [3:32:20<14:53:16,  3.51it/s] 49%|████▉     | 183605/371472 [3:32:20<14:34:23,  3.58it/s] 49%|████▉     | 183606/371472 [3:32:21<14:55:08,  3.50it/s] 49%|████▉     | 183607/371472 [3:32:21<14:38:27,  3.56it/s] 49%|████▉     | 183608/371472 [3:32:21<15:10:08,  3.44it/s] 49%|████▉     | 183609/371472 [3:32:21<14:48:02,  3.53it/s] 49%|████▉     | 183610/371472 [3:32:22<14:44:38,  3.54it/s] 49%|████▉     | 183611/371472 [3:32:22<15:07:14,  3.45it/s] 49%|████▉     | 183612/371472 [3:32:22<14:38:28,  3.56it/s] 49%|████▉     | 183613/371472 [3:32:23<14:44:13,  3.54it/s] 49%|████▉     | 183614/371472 [3:32:23<15:08:33,  3.45it/s] 49%|████▉     | 183615/371472 [3:32:23<15:12:17,  3.43it/s] 49%|████▉     | 183616/371472 [3:32:24<15:41:19,  3.33it/s] 49%|████▉     | 183617/371472 [3:32:24<15:16:37,  3.42it/s] 49%|████▉     | 183618/371472 [3:32:24<15:52:16,  3.29it/s] 49%|████▉     | 183619/371472 [3:32:24<15:12:09,  3.43it/s] 49%|████▉     | 183620/371472 [3:32:25<15:12:22,  3.43it/s]                                                            {'loss': 2.9069, 'learning_rate': 5.553718028830615e-07, 'epoch': 7.91}
 49%|████▉     | 183620/371472 [3:32:25<15:12:22,  3.43it/s] 49%|████▉     | 183621/371472 [3:32:25<15:15:06,  3.42it/s] 49%|████▉     | 183622/371472 [3:32:25<15:07:59,  3.45it/s] 49%|████▉     | 183623/371472 [3:32:26<15:05:41,  3.46it/s] 49%|████▉     | 183624/371472 [3:32:26<15:06:07,  3.46it/s] 49%|████▉     | 183625/371472 [3:32:26<14:36:01,  3.57it/s] 49%|████▉     | 183626/371472 [3:32:26<13:56:20,  3.74it/s] 49%|████▉     | 183627/371472 [3:32:27<14:22:05,  3.63it/s] 49%|████▉     | 183628/371472 [3:32:27<14:21:36,  3.63it/s] 49%|████▉     | 183629/371472 [3:32:27<14:05:32,  3.70it/s] 49%|████▉     | 183630/371472 [3:32:28<16:15:57,  3.21it/s] 49%|████▉     | 183631/371472 [3:32:28<15:28:55,  3.37it/s] 49%|████▉     | 183632/371472 [3:32:28<15:15:00,  3.42it/s] 49%|████▉     | 183633/371472 [3:32:28<14:53:05,  3.51it/s] 49%|████▉     | 183634/371472 [3:32:29<14:30:06,  3.60it/s] 49%|████▉     | 183635/371472 [3:32:29<14:13:18,  3.67it/s] 49%|████▉     | 183636/371472 [3:32:29<17:26:12,  2.99it/s] 49%|████▉     | 183637/371472 [3:32:30<16:32:20,  3.15it/s] 49%|████▉     | 183638/371472 [3:32:30<17:13:54,  3.03it/s] 49%|████▉     | 183639/371472 [3:32:30<15:59:29,  3.26it/s] 49%|████▉     | 183640/371472 [3:32:31<15:34:54,  3.35it/s]                                                            {'loss': 3.1122, 'learning_rate': 5.553233209075826e-07, 'epoch': 7.91}
 49%|████▉     | 183640/371472 [3:32:31<15:34:54,  3.35it/s] 49%|████▉     | 183641/371472 [3:32:31<15:09:56,  3.44it/s] 49%|████▉     | 183642/371472 [3:32:31<14:55:51,  3.49it/s] 49%|████▉     | 183643/371472 [3:32:31<14:22:11,  3.63it/s] 49%|████▉     | 183644/371472 [3:32:32<14:29:21,  3.60it/s] 49%|████▉     | 183645/371472 [3:32:32<14:28:34,  3.60it/s] 49%|████▉     | 183646/371472 [3:32:32<14:37:50,  3.57it/s] 49%|████▉     | 183647/371472 [3:32:32<14:32:40,  3.59it/s] 49%|████▉     | 183648/371472 [3:32:33<14:43:39,  3.54it/s] 49%|████▉     | 183649/371472 [3:32:33<14:51:43,  3.51it/s] 49%|████▉     | 183650/371472 [3:32:33<15:34:32,  3.35it/s] 49%|████▉     | 183651/371472 [3:32:34<14:33:42,  3.58it/s] 49%|████▉     | 183652/371472 [3:32:34<14:53:09,  3.50it/s] 49%|████▉     | 183653/371472 [3:32:34<14:33:26,  3.58it/s] 49%|████▉     | 183654/371472 [3:32:35<15:29:13,  3.37it/s] 49%|████▉     | 183655/371472 [3:32:35<15:12:42,  3.43it/s] 49%|████▉     | 183656/371472 [3:32:35<14:42:01,  3.55it/s] 49%|████▉     | 183657/371472 [3:32:35<14:16:06,  3.66it/s] 49%|████▉     | 183658/371472 [3:32:36<14:49:28,  3.52it/s] 49%|████▉     | 183659/371472 [3:32:36<14:57:50,  3.49it/s] 49%|████▉     | 183660/371472 [3:32:36<14:48:08,  3.52it/s]                                                            {'loss': 3.0803, 'learning_rate': 5.552748389321035e-07, 'epoch': 7.91}
 49%|████▉     | 183660/371472 [3:32:36<14:48:08,  3.52it/s] 49%|████▉     | 183661/371472 [3:32:36<15:04:58,  3.46it/s] 49%|████▉     | 183662/371472 [3:32:37<15:13:09,  3.43it/s] 49%|████▉     | 183663/371472 [3:32:37<15:17:56,  3.41it/s] 49%|████▉     | 183664/371472 [3:32:37<14:36:25,  3.57it/s] 49%|████▉     | 183665/371472 [3:32:38<14:12:58,  3.67it/s] 49%|████▉     | 183666/371472 [3:32:38<14:00:14,  3.73it/s] 49%|████▉     | 183667/371472 [3:32:38<14:16:39,  3.65it/s] 49%|████▉     | 183668/371472 [3:32:38<14:18:28,  3.65it/s] 49%|████▉     | 183669/371472 [3:32:39<14:02:18,  3.72it/s] 49%|████▉     | 183670/371472 [3:32:39<15:00:32,  3.48it/s] 49%|████▉     | 183671/371472 [3:32:39<15:29:30,  3.37it/s] 49%|████▉     | 183672/371472 [3:32:40<14:51:48,  3.51it/s] 49%|████▉     | 183673/371472 [3:32:40<15:11:40,  3.43it/s] 49%|████▉     | 183674/371472 [3:32:40<15:03:50,  3.46it/s] 49%|████▉     | 183675/371472 [3:32:40<15:40:20,  3.33it/s] 49%|████▉     | 183676/371472 [3:32:41<15:35:03,  3.35it/s] 49%|████▉     | 183677/371472 [3:32:41<15:04:13,  3.46it/s] 49%|████▉     | 183678/371472 [3:32:41<14:39:07,  3.56it/s] 49%|████▉     | 183679/371472 [3:32:42<14:15:58,  3.66it/s] 49%|████▉     | 183680/371472 [3:32:42<14:07:57,  3.69it/s]                                                            {'loss': 2.929, 'learning_rate': 5.552263569566247e-07, 'epoch': 7.91}
 49%|████▉     | 183680/371472 [3:32:42<14:07:57,  3.69it/s] 49%|████▉     | 183681/371472 [3:32:42<14:31:35,  3.59it/s] 49%|████▉     | 183682/371472 [3:32:42<14:26:46,  3.61it/s] 49%|████▉     | 183683/371472 [3:32:43<14:36:13,  3.57it/s] 49%|████▉     | 183684/371472 [3:32:43<14:28:55,  3.60it/s] 49%|████▉     | 183685/371472 [3:32:43<14:04:24,  3.71it/s] 49%|████▉     | 183686/371472 [3:32:43<14:13:41,  3.67it/s] 49%|████▉     | 183687/371472 [3:32:44<14:56:14,  3.49it/s] 49%|████▉     | 183688/371472 [3:32:44<14:34:25,  3.58it/s] 49%|████▉     | 183689/371472 [3:32:44<14:48:42,  3.52it/s] 49%|████▉     | 183690/371472 [3:32:45<14:33:34,  3.58it/s] 49%|████▉     | 183691/371472 [3:32:45<21:13:21,  2.46it/s] 49%|████▉     | 183692/371472 [3:32:46<19:17:24,  2.70it/s] 49%|████▉     | 183693/371472 [3:32:46<18:00:37,  2.90it/s] 49%|████▉     | 183694/371472 [3:32:46<17:02:14,  3.06it/s] 49%|████▉     | 183695/371472 [3:32:46<15:49:51,  3.29it/s] 49%|████▉     | 183696/371472 [3:32:47<17:50:23,  2.92it/s] 49%|████▉     | 183697/371472 [3:32:47<17:32:44,  2.97it/s] 49%|████▉     | 183698/371472 [3:32:47<16:44:40,  3.12it/s] 49%|████▉     | 183699/371472 [3:32:48<15:55:46,  3.27it/s] 49%|████▉     | 183700/371472 [3:32:48<15:30:23,  3.36it/s]                                                            {'loss': 3.1441, 'learning_rate': 5.551778749811458e-07, 'epoch': 7.91}
 49%|████▉     | 183700/371472 [3:32:48<15:30:23,  3.36it/s] 49%|████▉     | 183701/371472 [3:32:48<14:38:02,  3.56it/s] 49%|████▉     | 183702/371472 [3:32:49<14:18:56,  3.64it/s] 49%|████▉     | 183703/371472 [3:32:49<14:40:30,  3.55it/s] 49%|████▉     | 183704/371472 [3:32:49<14:10:48,  3.68it/s] 49%|████▉     | 183705/371472 [3:32:49<14:28:59,  3.60it/s] 49%|████▉     | 183706/371472 [3:32:50<14:29:53,  3.60it/s] 49%|████▉     | 183707/371472 [3:32:50<14:47:05,  3.53it/s] 49%|████▉     | 183708/371472 [3:32:50<14:32:56,  3.58it/s] 49%|████▉     | 183709/371472 [3:32:51<14:54:05,  3.50it/s] 49%|████▉     | 183710/371472 [3:32:51<14:30:33,  3.59it/s] 49%|████▉     | 183711/371472 [3:32:51<14:52:20,  3.51it/s] 49%|████▉     | 183712/371472 [3:32:51<14:22:06,  3.63it/s] 49%|████▉     | 183713/371472 [3:32:52<14:11:52,  3.67it/s] 49%|████▉     | 183714/371472 [3:32:52<14:38:10,  3.56it/s] 49%|████▉     | 183715/371472 [3:32:52<14:28:41,  3.60it/s] 49%|████▉     | 183716/371472 [3:32:52<14:22:15,  3.63it/s] 49%|████▉     | 183717/371472 [3:32:53<14:06:09,  3.70it/s] 49%|████▉     | 183718/371472 [3:32:53<14:10:52,  3.68it/s] 49%|████▉     | 183719/371472 [3:32:53<15:36:49,  3.34it/s] 49%|████▉     | 183720/371472 [3:32:54<14:59:12,  3.48it/s]                                                            {'loss': 2.8817, 'learning_rate': 5.551293930056671e-07, 'epoch': 7.91}
 49%|████▉     | 183720/371472 [3:32:54<14:59:12,  3.48it/s] 49%|████▉     | 183721/371472 [3:32:54<15:28:54,  3.37it/s] 49%|████▉     | 183722/371472 [3:32:54<15:46:52,  3.30it/s] 49%|████▉     | 183723/371472 [3:32:54<15:02:59,  3.47it/s] 49%|████▉     | 183724/371472 [3:32:55<14:22:10,  3.63it/s] 49%|████▉     | 183725/371472 [3:32:55<14:18:36,  3.64it/s] 49%|████▉     | 183726/371472 [3:32:55<15:16:54,  3.41it/s] 49%|████▉     | 183727/371472 [3:32:56<14:59:51,  3.48it/s] 49%|████▉     | 183728/371472 [3:32:56<14:33:54,  3.58it/s] 49%|████▉     | 183729/371472 [3:32:56<14:34:51,  3.58it/s] 49%|████▉     | 183730/371472 [3:32:56<14:42:48,  3.54it/s] 49%|████▉     | 183731/371472 [3:32:57<14:50:50,  3.51it/s] 49%|████▉     | 183732/371472 [3:32:57<17:38:22,  2.96it/s] 49%|████▉     | 183733/371472 [3:32:58<17:15:02,  3.02it/s] 49%|████▉     | 183734/371472 [3:32:58<16:17:15,  3.20it/s] 49%|████▉     | 183735/371472 [3:32:58<16:44:33,  3.11it/s] 49%|████▉     | 183736/371472 [3:32:58<16:46:58,  3.11it/s] 49%|████▉     | 183737/371472 [3:32:59<15:57:38,  3.27it/s] 49%|████▉     | 183738/371472 [3:32:59<15:21:56,  3.39it/s] 49%|████▉     | 183739/371472 [3:32:59<16:38:30,  3.13it/s] 49%|████▉     | 183740/371472 [3:33:00<15:50:41,  3.29it/s]                                                            {'loss': 3.1113, 'learning_rate': 5.550809110301881e-07, 'epoch': 7.91}
 49%|████▉     | 183740/371472 [3:33:00<15:50:41,  3.29it/s] 49%|████▉     | 183741/371472 [3:33:00<15:10:34,  3.44it/s] 49%|████▉     | 183742/371472 [3:33:00<15:05:39,  3.45it/s] 49%|████▉     | 183743/371472 [3:33:00<15:20:20,  3.40it/s] 49%|████▉     | 183744/371472 [3:33:01<14:48:18,  3.52it/s] 49%|████▉     | 183745/371472 [3:33:01<14:40:24,  3.55it/s] 49%|████▉     | 183746/371472 [3:33:01<14:07:21,  3.69it/s] 49%|████▉     | 183747/371472 [3:33:02<14:50:33,  3.51it/s] 49%|████▉     | 183748/371472 [3:33:02<14:16:01,  3.65it/s] 49%|████▉     | 183749/371472 [3:33:02<14:50:37,  3.51it/s] 49%|████▉     | 183750/371472 [3:33:02<15:34:03,  3.35it/s] 49%|████▉     | 183751/371472 [3:33:03<15:23:05,  3.39it/s] 49%|████▉     | 183752/371472 [3:33:03<15:35:32,  3.34it/s] 49%|████▉     | 183753/371472 [3:33:03<14:49:33,  3.52it/s] 49%|████▉     | 183754/371472 [3:33:04<15:03:14,  3.46it/s] 49%|████▉     | 183755/371472 [3:33:04<15:28:09,  3.37it/s] 49%|████▉     | 183756/371472 [3:33:04<15:38:22,  3.33it/s] 49%|████▉     | 183757/371472 [3:33:04<15:06:06,  3.45it/s] 49%|████▉     | 183758/371472 [3:33:05<15:44:51,  3.31it/s] 49%|████▉     | 183759/371472 [3:33:05<14:56:03,  3.49it/s] 49%|████▉     | 183760/371472 [3:33:05<14:42:08,  3.55it/s]                                                            {'loss': 2.942, 'learning_rate': 5.550324290547093e-07, 'epoch': 7.91}
 49%|████▉     | 183760/371472 [3:33:05<14:42:08,  3.55it/s] 49%|████▉     | 183761/371472 [3:33:06<14:32:57,  3.58it/s] 49%|████▉     | 183762/371472 [3:33:06<14:37:56,  3.56it/s] 49%|████▉     | 183763/371472 [3:33:06<14:08:45,  3.69it/s] 49%|████▉     | 183764/371472 [3:33:06<14:11:42,  3.67it/s] 49%|████▉     | 183765/371472 [3:33:07<14:25:54,  3.61it/s] 49%|████▉     | 183766/371472 [3:33:07<13:59:19,  3.73it/s] 49%|████▉     | 183767/371472 [3:33:07<13:34:07,  3.84it/s] 49%|████▉     | 183768/371472 [3:33:07<14:05:09,  3.70it/s] 49%|████▉     | 183769/371472 [3:33:08<13:58:53,  3.73it/s] 49%|████▉     | 183770/371472 [3:33:08<14:29:46,  3.60it/s] 49%|████▉     | 183771/371472 [3:33:08<14:02:21,  3.71it/s] 49%|████▉     | 183772/371472 [3:33:09<14:09:06,  3.68it/s] 49%|████▉     | 183773/371472 [3:33:09<14:45:47,  3.53it/s] 49%|████▉     | 183774/371472 [3:33:09<14:57:45,  3.48it/s] 49%|████▉     | 183775/371472 [3:33:09<14:17:30,  3.65it/s] 49%|████▉     | 183776/371472 [3:33:10<14:59:09,  3.48it/s] 49%|████▉     | 183777/371472 [3:33:10<15:09:41,  3.44it/s] 49%|████▉     | 183778/371472 [3:33:10<15:12:54,  3.43it/s] 49%|████▉     | 183779/371472 [3:33:11<15:05:30,  3.45it/s] 49%|████▉     | 183780/371472 [3:33:11<14:25:30,  3.61it/s]                                                            {'loss': 3.1521, 'learning_rate': 5.549839470792303e-07, 'epoch': 7.92}
 49%|████▉     | 183780/371472 [3:33:11<14:25:30,  3.61it/s] 49%|████▉     | 183781/371472 [3:33:11<15:08:11,  3.44it/s] 49%|████▉     | 183782/371472 [3:33:11<14:46:06,  3.53it/s] 49%|████▉     | 183783/371472 [3:33:12<14:26:47,  3.61it/s] 49%|████▉     | 183784/371472 [3:33:12<14:29:18,  3.60it/s] 49%|████▉     | 183785/371472 [3:33:12<14:23:39,  3.62it/s] 49%|████▉     | 183786/371472 [3:33:13<15:21:17,  3.40it/s] 49%|████▉     | 183787/371472 [3:33:13<16:05:10,  3.24it/s] 49%|████▉     | 183788/371472 [3:33:13<15:37:12,  3.34it/s] 49%|████▉     | 183789/371472 [3:33:14<15:13:59,  3.42it/s] 49%|████▉     | 183790/371472 [3:33:14<14:36:36,  3.57it/s] 49%|████▉     | 183791/371472 [3:33:14<15:05:59,  3.45it/s] 49%|████▉     | 183792/371472 [3:33:14<15:43:45,  3.31it/s] 49%|████▉     | 183793/371472 [3:33:15<15:10:26,  3.44it/s] 49%|████▉     | 183794/371472 [3:33:15<16:07:21,  3.23it/s] 49%|████▉     | 183795/371472 [3:33:15<16:13:55,  3.21it/s] 49%|████▉     | 183796/371472 [3:33:16<15:59:42,  3.26it/s] 49%|████▉     | 183797/371472 [3:33:16<15:21:06,  3.40it/s] 49%|████▉     | 183798/371472 [3:33:16<15:02:46,  3.46it/s] 49%|████▉     | 183799/371472 [3:33:17<16:13:23,  3.21it/s] 49%|████▉     | 183800/371472 [3:33:17<15:59:33,  3.26it/s]                                                            {'loss': 2.9165, 'learning_rate': 5.549354651037515e-07, 'epoch': 7.92}
 49%|████▉     | 183800/371472 [3:33:17<15:59:33,  3.26it/s] 49%|████▉     | 183801/371472 [3:33:17<15:36:48,  3.34it/s] 49%|████▉     | 183802/371472 [3:33:17<14:57:20,  3.49it/s] 49%|████▉     | 183803/371472 [3:33:18<15:03:05,  3.46it/s] 49%|████▉     | 183804/371472 [3:33:18<14:51:27,  3.51it/s] 49%|████▉     | 183805/371472 [3:33:18<14:40:40,  3.55it/s] 49%|████▉     | 183806/371472 [3:33:18<14:06:57,  3.69it/s] 49%|████▉     | 183807/371472 [3:33:19<14:02:59,  3.71it/s] 49%|████▉     | 183808/371472 [3:33:19<14:29:57,  3.60it/s] 49%|████▉     | 183809/371472 [3:33:19<14:21:43,  3.63it/s] 49%|████▉     | 183810/371472 [3:33:20<14:45:13,  3.53it/s] 49%|████▉     | 183811/371472 [3:33:20<14:49:57,  3.51it/s] 49%|████▉     | 183812/371472 [3:33:20<14:44:58,  3.53it/s] 49%|████▉     | 183813/371472 [3:33:20<14:36:32,  3.57it/s] 49%|████▉     | 183814/371472 [3:33:21<15:20:33,  3.40it/s] 49%|████▉     | 183815/371472 [3:33:21<15:11:51,  3.43it/s] 49%|████▉     | 183816/371472 [3:33:21<15:23:16,  3.39it/s] 49%|████▉     | 183817/371472 [3:33:22<17:44:12,  2.94it/s] 49%|████▉     | 183818/371472 [3:33:22<16:34:48,  3.14it/s] 49%|████▉     | 183819/371472 [3:33:22<16:23:54,  3.18it/s] 49%|████▉     | 183820/371472 [3:33:23<15:54:29,  3.28it/s]                                                            {'loss': 3.1663, 'learning_rate': 5.548869831282724e-07, 'epoch': 7.92}
 49%|████▉     | 183820/371472 [3:33:23<15:54:29,  3.28it/s] 49%|████▉     | 183821/371472 [3:33:23<15:51:35,  3.29it/s] 49%|████▉     | 183822/371472 [3:33:23<16:03:23,  3.25it/s] 49%|████▉     | 183823/371472 [3:33:24<15:27:53,  3.37it/s] 49%|████▉     | 183824/371472 [3:33:24<15:42:19,  3.32it/s] 49%|████▉     | 183825/371472 [3:33:24<14:54:22,  3.50it/s] 49%|████▉     | 183826/371472 [3:33:24<14:07:47,  3.69it/s] 49%|████▉     | 183827/371472 [3:33:25<13:42:44,  3.80it/s] 49%|████▉     | 183828/371472 [3:33:25<13:48:44,  3.77it/s] 49%|████▉     | 183829/371472 [3:33:25<13:51:47,  3.76it/s] 49%|████▉     | 183830/371472 [3:33:25<13:48:29,  3.77it/s] 49%|████▉     | 183831/371472 [3:33:26<13:27:47,  3.87it/s] 49%|████▉     | 183832/371472 [3:33:26<13:25:50,  3.88it/s] 49%|████▉     | 183833/371472 [3:33:26<13:27:56,  3.87it/s] 49%|████▉     | 183834/371472 [3:33:26<14:47:06,  3.53it/s] 49%|████▉     | 183835/371472 [3:33:27<15:43:18,  3.32it/s] 49%|████▉     | 183836/371472 [3:33:27<15:29:58,  3.36it/s] 49%|████▉     | 183837/371472 [3:33:27<16:10:44,  3.22it/s] 49%|████▉     | 183838/371472 [3:33:28<15:40:20,  3.33it/s] 49%|████▉     | 183839/371472 [3:33:28<15:09:16,  3.44it/s] 49%|████▉     | 183840/371472 [3:33:28<14:56:30,  3.49it/s]                                                            {'loss': 2.9153, 'learning_rate': 5.548385011527935e-07, 'epoch': 7.92}
 49%|████▉     | 183840/371472 [3:33:28<14:56:30,  3.49it/s] 49%|████▉     | 183841/371472 [3:33:29<15:20:03,  3.40it/s] 49%|████▉     | 183842/371472 [3:33:29<15:02:22,  3.47it/s] 49%|████▉     | 183843/371472 [3:33:29<15:10:13,  3.44it/s] 49%|████▉     | 183844/371472 [3:33:29<14:31:48,  3.59it/s] 49%|████▉     | 183845/371472 [3:33:30<14:29:27,  3.60it/s] 49%|████▉     | 183846/371472 [3:33:30<14:08:44,  3.68it/s] 49%|████▉     | 183847/371472 [3:33:30<14:14:38,  3.66it/s] 49%|████▉     | 183848/371472 [3:33:31<15:01:40,  3.47it/s] 49%|████▉     | 183849/371472 [3:33:31<15:20:14,  3.40it/s] 49%|████▉     | 183850/371472 [3:33:31<15:28:26,  3.37it/s] 49%|████▉     | 183851/371472 [3:33:31<14:43:28,  3.54it/s] 49%|████▉     | 183852/371472 [3:33:32<14:47:58,  3.52it/s] 49%|████▉     | 183853/371472 [3:33:32<14:49:02,  3.52it/s] 49%|████▉     | 183854/371472 [3:33:32<15:29:11,  3.37it/s] 49%|████▉     | 183855/371472 [3:33:33<15:20:04,  3.40it/s] 49%|████▉     | 183856/371472 [3:33:33<15:50:31,  3.29it/s] 49%|████▉     | 183857/371472 [3:33:33<14:58:29,  3.48it/s] 49%|████▉     | 183858/371472 [3:33:33<14:29:01,  3.60it/s] 49%|████▉     | 183859/371472 [3:33:34<14:52:05,  3.51it/s] 49%|████▉     | 183860/371472 [3:33:34<14:19:30,  3.64it/s]                                                            {'loss': 2.9757, 'learning_rate': 5.547900191773148e-07, 'epoch': 7.92}
 49%|████▉     | 183860/371472 [3:33:34<14:19:30,  3.64it/s] 49%|████▉     | 183861/371472 [3:33:34<14:48:36,  3.52it/s] 49%|████▉     | 183862/371472 [3:33:35<14:30:42,  3.59it/s] 49%|████▉     | 183863/371472 [3:33:35<16:53:33,  3.08it/s] 49%|████▉     | 183864/371472 [3:33:35<16:28:54,  3.16it/s] 49%|████▉     | 183865/371472 [3:33:36<16:00:46,  3.25it/s] 49%|████▉     | 183866/371472 [3:33:36<15:42:49,  3.32it/s] 49%|████▉     | 183867/371472 [3:33:36<14:54:40,  3.49it/s] 49%|████▉     | 183868/371472 [3:33:36<14:41:21,  3.55it/s] 49%|████▉     | 183869/371472 [3:33:37<14:46:36,  3.53it/s] 49%|████▉     | 183870/371472 [3:33:37<14:30:42,  3.59it/s] 49%|████▉     | 183871/371472 [3:33:37<14:50:40,  3.51it/s] 49%|████▉     | 183872/371472 [3:33:38<15:02:30,  3.46it/s] 49%|████▉     | 183873/371472 [3:33:38<14:40:48,  3.55it/s] 49%|████▉     | 183874/371472 [3:33:38<14:17:42,  3.65it/s] 49%|████▉     | 183875/371472 [3:33:38<14:01:21,  3.72it/s] 49%|████▉     | 183876/371472 [3:33:39<14:00:47,  3.72it/s] 49%|████▉     | 183877/371472 [3:33:39<14:13:53,  3.66it/s] 49%|████▉     | 183878/371472 [3:33:39<14:27:54,  3.60it/s] 50%|████▉     | 183879/371472 [3:33:39<14:02:09,  3.71it/s] 50%|████▉     | 183880/371472 [3:33:40<14:33:32,  3.58it/s]                                                            {'loss': 3.0449, 'learning_rate': 5.547415372018358e-07, 'epoch': 7.92}
 50%|████▉     | 183880/371472 [3:33:40<14:33:32,  3.58it/s] 50%|████▉     | 183881/371472 [3:33:40<14:55:23,  3.49it/s] 50%|████▉     | 183882/371472 [3:33:40<14:43:29,  3.54it/s] 50%|████▉     | 183883/371472 [3:33:41<15:11:53,  3.43it/s] 50%|████▉     | 183884/371472 [3:33:41<15:09:14,  3.44it/s] 50%|████▉     | 183885/371472 [3:33:41<14:26:02,  3.61it/s] 50%|████▉     | 183886/371472 [3:33:41<14:37:50,  3.56it/s] 50%|████▉     | 183887/371472 [3:33:42<15:20:48,  3.40it/s] 50%|████▉     | 183888/371472 [3:33:42<15:04:44,  3.46it/s] 50%|████▉     | 183889/371472 [3:33:42<15:00:14,  3.47it/s] 50%|████▉     | 183890/371472 [3:33:43<14:57:11,  3.48it/s] 50%|████▉     | 183891/371472 [3:33:43<16:39:50,  3.13it/s] 50%|████▉     | 183892/371472 [3:33:43<16:55:26,  3.08it/s] 50%|████▉     | 183893/371472 [3:33:44<15:44:50,  3.31it/s] 50%|████▉     | 183894/371472 [3:33:44<15:34:50,  3.34it/s] 50%|████▉     | 183895/371472 [3:33:44<15:18:40,  3.40it/s] 50%|████▉     | 183896/371472 [3:33:45<16:14:27,  3.21it/s] 50%|████▉     | 183897/371472 [3:33:45<15:34:14,  3.35it/s] 50%|████▉     | 183898/371472 [3:33:45<15:55:24,  3.27it/s] 50%|████▉     | 183899/371472 [3:33:45<15:28:06,  3.37it/s] 50%|████▉     | 183900/371472 [3:33:46<15:09:28,  3.44it/s]                                                            {'loss': 2.9811, 'learning_rate': 5.546930552263569e-07, 'epoch': 7.92}
 50%|████▉     | 183900/371472 [3:33:46<15:09:28,  3.44it/s] 50%|████▉     | 183901/371472 [3:33:46<15:11:34,  3.43it/s] 50%|████▉     | 183902/371472 [3:33:46<15:06:10,  3.45it/s] 50%|████▉     | 183903/371472 [3:33:46<14:30:59,  3.59it/s] 50%|████▉     | 183904/371472 [3:33:47<14:23:10,  3.62it/s] 50%|████▉     | 183905/371472 [3:33:47<14:10:52,  3.67it/s] 50%|████▉     | 183906/371472 [3:33:47<14:49:28,  3.51it/s] 50%|████▉     | 183907/371472 [3:33:48<14:26:17,  3.61it/s] 50%|████▉     | 183908/371472 [3:33:48<14:06:35,  3.69it/s] 50%|████▉     | 183909/371472 [3:33:48<13:44:01,  3.79it/s] 50%|████▉     | 183910/371472 [3:33:48<13:56:36,  3.74it/s] 50%|████▉     | 183911/371472 [3:33:49<14:42:24,  3.54it/s] 50%|████▉     | 183912/371472 [3:33:49<14:36:27,  3.57it/s] 50%|████▉     | 183913/371472 [3:33:49<15:43:55,  3.31it/s] 50%|████▉     | 183914/371472 [3:33:50<15:24:50,  3.38it/s] 50%|████▉     | 183915/371472 [3:33:50<15:22:03,  3.39it/s] 50%|████▉     | 183916/371472 [3:33:50<14:47:22,  3.52it/s] 50%|████▉     | 183917/371472 [3:33:50<14:56:51,  3.49it/s] 50%|████▉     | 183918/371472 [3:33:51<14:55:49,  3.49it/s] 50%|████▉     | 183919/371472 [3:33:51<14:37:47,  3.56it/s] 50%|████▉     | 183920/371472 [3:33:51<16:30:02,  3.16it/s]                                                            {'loss': 3.1458, 'learning_rate': 5.54644573250878e-07, 'epoch': 7.92}
 50%|████▉     | 183920/371472 [3:33:51<16:30:02,  3.16it/s] 50%|████▉     | 183921/371472 [3:33:52<15:35:50,  3.34it/s] 50%|████▉     | 183922/371472 [3:33:52<15:21:21,  3.39it/s] 50%|████▉     | 183923/371472 [3:33:52<16:02:35,  3.25it/s] 50%|████▉     | 183924/371472 [3:33:53<15:16:59,  3.41it/s] 50%|████▉     | 183925/371472 [3:33:53<15:41:19,  3.32it/s] 50%|████▉     | 183926/371472 [3:33:53<15:03:50,  3.46it/s] 50%|████▉     | 183927/371472 [3:33:53<15:26:54,  3.37it/s] 50%|████▉     | 183928/371472 [3:33:54<14:50:29,  3.51it/s] 50%|████▉     | 183929/371472 [3:33:54<15:36:09,  3.34it/s] 50%|████▉     | 183930/371472 [3:33:54<15:08:16,  3.44it/s] 50%|████▉     | 183931/371472 [3:33:55<14:47:18,  3.52it/s] 50%|████▉     | 183932/371472 [3:33:55<15:07:28,  3.44it/s] 50%|████▉     | 183933/371472 [3:33:55<15:25:47,  3.38it/s] 50%|████▉     | 183934/371472 [3:33:55<14:46:45,  3.52it/s] 50%|████▉     | 183935/371472 [3:33:56<14:42:52,  3.54it/s] 50%|████▉     | 183936/371472 [3:33:56<14:44:04,  3.54it/s] 50%|████▉     | 183937/371472 [3:33:56<15:21:58,  3.39it/s] 50%|████▉     | 183938/371472 [3:33:57<15:14:27,  3.42it/s] 50%|████▉     | 183939/371472 [3:33:57<16:25:50,  3.17it/s] 50%|████▉     | 183940/371472 [3:33:57<15:27:37,  3.37it/s]                                                            {'loss': 3.0507, 'learning_rate': 5.545960912753992e-07, 'epoch': 7.92}
 50%|████▉     | 183940/371472 [3:33:57<15:27:37,  3.37it/s] 50%|████▉     | 183941/371472 [3:33:57<15:09:07,  3.44it/s] 50%|████▉     | 183942/371472 [3:33:58<14:30:15,  3.59it/s] 50%|████▉     | 183943/371472 [3:33:58<15:26:32,  3.37it/s] 50%|████▉     | 183944/371472 [3:33:58<15:37:34,  3.33it/s] 50%|████▉     | 183945/371472 [3:33:59<15:00:48,  3.47it/s] 50%|████▉     | 183946/371472 [3:33:59<14:54:22,  3.49it/s] 50%|████▉     | 183947/371472 [3:33:59<15:09:14,  3.44it/s] 50%|████▉     | 183948/371472 [3:34:00<14:55:06,  3.49it/s] 50%|████▉     | 183949/371472 [3:34:00<15:46:08,  3.30it/s] 50%|████▉     | 183950/371472 [3:34:00<14:47:31,  3.52it/s] 50%|████▉     | 183951/371472 [3:34:00<14:20:45,  3.63it/s] 50%|████▉     | 183952/371472 [3:34:01<14:15:32,  3.65it/s] 50%|████▉     | 183953/371472 [3:34:01<14:06:26,  3.69it/s] 50%|████▉     | 183954/371472 [3:34:01<14:22:40,  3.62it/s] 50%|████▉     | 183955/371472 [3:34:01<14:03:25,  3.71it/s] 50%|████▉     | 183956/371472 [3:34:02<13:55:36,  3.74it/s] 50%|████▉     | 183957/371472 [3:34:02<13:52:19,  3.75it/s] 50%|████▉     | 183958/371472 [3:34:02<14:40:52,  3.55it/s] 50%|████▉     | 183959/371472 [3:34:03<14:33:54,  3.58it/s] 50%|████▉     | 183960/371472 [3:34:03<15:26:37,  3.37it/s]                                                            {'loss': 3.2015, 'learning_rate': 5.545476092999203e-07, 'epoch': 7.92}
 50%|████▉     | 183960/371472 [3:34:03<15:26:37,  3.37it/s] 50%|████▉     | 183961/371472 [3:34:03<15:08:01,  3.44it/s] 50%|████▉     | 183962/371472 [3:34:03<14:30:38,  3.59it/s] 50%|████▉     | 183963/371472 [3:34:04<15:46:14,  3.30it/s] 50%|████▉     | 183964/371472 [3:34:04<15:04:04,  3.46it/s] 50%|████▉     | 183965/371472 [3:34:04<14:53:34,  3.50it/s] 50%|████▉     | 183966/371472 [3:34:05<14:32:19,  3.58it/s] 50%|████▉     | 183967/371472 [3:34:05<14:50:00,  3.51it/s] 50%|████▉     | 183968/371472 [3:34:05<15:13:08,  3.42it/s] 50%|████▉     | 183969/371472 [3:34:05<14:42:07,  3.54it/s] 50%|████▉     | 183970/371472 [3:34:06<15:18:20,  3.40it/s] 50%|████▉     | 183971/371472 [3:34:06<14:57:26,  3.48it/s] 50%|████▉     | 183972/371472 [3:34:06<15:06:35,  3.45it/s] 50%|████▉     | 183973/371472 [3:34:07<15:52:30,  3.28it/s] 50%|████▉     | 183974/371472 [3:34:07<15:57:49,  3.26it/s] 50%|████▉     | 183975/371472 [3:34:07<15:22:39,  3.39it/s] 50%|████▉     | 183976/371472 [3:34:08<15:23:53,  3.38it/s] 50%|████▉     | 183977/371472 [3:34:08<14:41:07,  3.55it/s] 50%|████▉     | 183978/371472 [3:34:08<14:17:48,  3.64it/s] 50%|████▉     | 183979/371472 [3:34:08<14:34:20,  3.57it/s] 50%|████▉     | 183980/371472 [3:34:09<14:57:42,  3.48it/s]                                                            {'loss': 3.258, 'learning_rate': 5.544991273244414e-07, 'epoch': 7.92}
 50%|████▉     | 183980/371472 [3:34:09<14:57:42,  3.48it/s] 50%|████▉     | 183981/371472 [3:34:09<14:32:12,  3.58it/s] 50%|████▉     | 183982/371472 [3:34:09<14:22:18,  3.62it/s] 50%|████▉     | 183983/371472 [3:34:09<14:39:46,  3.55it/s] 50%|████▉     | 183984/371472 [3:34:10<14:50:23,  3.51it/s] 50%|████▉     | 183985/371472 [3:34:10<15:13:07,  3.42it/s] 50%|████▉     | 183986/371472 [3:34:10<14:48:24,  3.52it/s] 50%|████▉     | 183987/371472 [3:34:11<14:48:20,  3.52it/s] 50%|████▉     | 183988/371472 [3:34:11<17:58:26,  2.90it/s] 50%|████▉     | 183989/371472 [3:34:11<16:39:55,  3.12it/s] 50%|████▉     | 183990/371472 [3:34:12<15:45:07,  3.31it/s] 50%|████▉     | 183991/371472 [3:34:12<14:53:33,  3.50it/s] 50%|████▉     | 183992/371472 [3:34:12<15:08:02,  3.44it/s] 50%|████▉     | 183993/371472 [3:34:12<15:24:50,  3.38it/s] 50%|████▉     | 183994/371472 [3:34:13<15:39:21,  3.33it/s] 50%|████▉     | 183995/371472 [3:34:13<14:59:43,  3.47it/s] 50%|████▉     | 183996/371472 [3:34:13<15:41:13,  3.32it/s] 50%|████▉     | 183997/371472 [3:34:14<14:54:09,  3.49it/s] 50%|████▉     | 183998/371472 [3:34:14<15:01:16,  3.47it/s] 50%|████▉     | 183999/371472 [3:34:14<15:10:23,  3.43it/s] 50%|████▉     | 184000/371472 [3:34:15<15:05:46,  3.45it/s]                                                            {'loss': 2.9542, 'learning_rate': 5.544506453489625e-07, 'epoch': 7.93}
 50%|████▉     | 184000/371472 [3:34:15<15:05:46,  3.45it/s] 50%|████▉     | 184001/371472 [3:34:15<15:39:46,  3.32it/s] 50%|████▉     | 184002/371472 [3:34:15<15:16:31,  3.41it/s] 50%|████▉     | 184003/371472 [3:34:15<15:29:31,  3.36it/s] 50%|████▉     | 184004/371472 [3:34:16<14:58:35,  3.48it/s] 50%|████▉     | 184005/371472 [3:34:16<14:53:45,  3.50it/s] 50%|████▉     | 184006/371472 [3:34:16<14:47:18,  3.52it/s] 50%|████▉     | 184007/371472 [3:34:17<14:33:01,  3.58it/s] 50%|████▉     | 184008/371472 [3:34:17<15:14:37,  3.42it/s] 50%|████▉     | 184009/371472 [3:34:17<15:09:25,  3.44it/s] 50%|████▉     | 184010/371472 [3:34:17<15:13:39,  3.42it/s] 50%|████▉     | 184011/371472 [3:34:18<15:48:49,  3.29it/s] 50%|████▉     | 184012/371472 [3:34:18<15:02:15,  3.46it/s] 50%|████▉     | 184013/371472 [3:34:18<14:36:29,  3.56it/s] 50%|████▉     | 184014/371472 [3:34:19<14:25:21,  3.61it/s] 50%|████▉     | 184015/371472 [3:34:19<14:39:05,  3.55it/s] 50%|████▉     | 184016/371472 [3:34:19<15:09:58,  3.43it/s] 50%|████▉     | 184017/371472 [3:34:19<14:49:56,  3.51it/s] 50%|████▉     | 184018/371472 [3:34:20<14:25:47,  3.61it/s] 50%|████▉     | 184019/371472 [3:34:20<14:53:39,  3.50it/s] 50%|████▉     | 184020/371472 [3:34:20<15:26:06,  3.37it/s]                                                            {'loss': 3.0632, 'learning_rate': 5.544021633734836e-07, 'epoch': 7.93}
 50%|████▉     | 184020/371472 [3:34:20<15:26:06,  3.37it/s] 50%|████▉     | 184021/371472 [3:34:21<17:24:07,  2.99it/s] 50%|████▉     | 184022/371472 [3:34:21<16:25:06,  3.17it/s] 50%|████▉     | 184023/371472 [3:34:21<15:45:26,  3.30it/s] 50%|████▉     | 184024/371472 [3:34:22<15:59:07,  3.26it/s] 50%|████▉     | 184025/371472 [3:34:22<16:36:09,  3.14it/s] 50%|████▉     | 184026/371472 [3:34:22<15:54:56,  3.27it/s] 50%|████▉     | 184027/371472 [3:34:22<15:21:52,  3.39it/s] 50%|████▉     | 184028/371472 [3:34:23<14:44:36,  3.53it/s] 50%|████▉     | 184029/371472 [3:34:23<15:00:54,  3.47it/s] 50%|████▉     | 184030/371472 [3:34:23<14:39:59,  3.55it/s] 50%|████▉     | 184031/371472 [3:34:24<15:00:03,  3.47it/s] 50%|████▉     | 184032/371472 [3:34:24<14:50:49,  3.51it/s] 50%|████▉     | 184033/371472 [3:34:24<14:22:27,  3.62it/s] 50%|████▉     | 184034/371472 [3:34:24<13:41:59,  3.80it/s] 50%|████▉     | 184035/371472 [3:34:25<14:04:18,  3.70it/s] 50%|████▉     | 184036/371472 [3:34:25<15:53:26,  3.28it/s] 50%|████▉     | 184037/371472 [3:34:25<14:54:31,  3.49it/s] 50%|████▉     | 184038/371472 [3:34:26<14:13:36,  3.66it/s] 50%|████▉     | 184039/371472 [3:34:26<15:05:15,  3.45it/s] 50%|████▉     | 184040/371472 [3:34:26<15:03:32,  3.46it/s]                                                            {'loss': 3.0106, 'learning_rate': 5.543536813980047e-07, 'epoch': 7.93}
 50%|████▉     | 184040/371472 [3:34:26<15:03:32,  3.46it/s] 50%|████▉     | 184041/371472 [3:34:27<16:27:03,  3.16it/s] 50%|████▉     | 184042/371472 [3:34:27<15:50:32,  3.29it/s] 50%|████▉     | 184043/371472 [3:34:27<15:41:38,  3.32it/s] 50%|████▉     | 184044/371472 [3:34:27<16:15:26,  3.20it/s] 50%|████▉     | 184045/371472 [3:34:28<15:59:57,  3.25it/s] 50%|████▉     | 184046/371472 [3:34:28<15:24:25,  3.38it/s] 50%|████▉     | 184047/371472 [3:34:28<15:20:40,  3.39it/s] 50%|████▉     | 184048/371472 [3:34:29<15:24:01,  3.38it/s] 50%|████▉     | 184049/371472 [3:34:29<15:10:42,  3.43it/s] 50%|████▉     | 184050/371472 [3:34:29<14:39:03,  3.55it/s] 50%|████▉     | 184051/371472 [3:34:29<14:28:56,  3.59it/s] 50%|████▉     | 184052/371472 [3:34:30<14:02:49,  3.71it/s] 50%|████▉     | 184053/371472 [3:34:30<13:34:13,  3.84it/s] 50%|████▉     | 184054/371472 [3:34:30<13:55:48,  3.74it/s] 50%|████▉     | 184055/371472 [3:34:31<15:26:38,  3.37it/s] 50%|████▉     | 184056/371472 [3:34:31<15:02:42,  3.46it/s] 50%|████▉     | 184057/371472 [3:34:31<14:50:13,  3.51it/s] 50%|████▉     | 184058/371472 [3:34:31<15:02:40,  3.46it/s] 50%|████▉     | 184059/371472 [3:34:32<14:44:10,  3.53it/s] 50%|████▉     | 184060/371472 [3:34:32<14:57:00,  3.48it/s]                                                            {'loss': 3.0332, 'learning_rate': 5.543051994225258e-07, 'epoch': 7.93}
 50%|████▉     | 184060/371472 [3:34:32<14:57:00,  3.48it/s] 50%|████▉     | 184061/371472 [3:34:32<14:25:17,  3.61it/s] 50%|████▉     | 184062/371472 [3:34:32<14:26:05,  3.61it/s] 50%|████▉     | 184063/371472 [3:34:33<15:47:56,  3.30it/s] 50%|████▉     | 184064/371472 [3:34:33<15:36:52,  3.33it/s] 50%|████▉     | 184065/371472 [3:34:33<14:48:37,  3.51it/s] 50%|████▉     | 184066/371472 [3:34:34<14:45:28,  3.53it/s] 50%|████▉     | 184067/371472 [3:34:34<14:19:33,  3.63it/s] 50%|████▉     | 184068/371472 [3:34:34<14:24:14,  3.61it/s] 50%|████▉     | 184069/371472 [3:34:34<14:08:41,  3.68it/s] 50%|████▉     | 184070/371472 [3:34:35<14:24:03,  3.61it/s] 50%|████▉     | 184071/371472 [3:34:35<14:35:33,  3.57it/s] 50%|████▉     | 184072/371472 [3:34:35<14:42:44,  3.54it/s] 50%|████▉     | 184073/371472 [3:34:36<14:19:34,  3.63it/s] 50%|████▉     | 184074/371472 [3:34:36<14:07:21,  3.69it/s] 50%|████▉     | 184075/371472 [3:34:36<14:05:57,  3.69it/s] 50%|████▉     | 184076/371472 [3:34:36<15:27:05,  3.37it/s] 50%|████▉     | 184077/371472 [3:34:37<15:22:45,  3.38it/s] 50%|████▉     | 184078/371472 [3:34:37<15:34:39,  3.34it/s] 50%|████▉     | 184079/371472 [3:34:37<15:23:49,  3.38it/s] 50%|████▉     | 184080/371472 [3:34:38<15:55:23,  3.27it/s]                                                            {'loss': 3.0441, 'learning_rate': 5.542567174470469e-07, 'epoch': 7.93}
 50%|████▉     | 184080/371472 [3:34:38<15:55:23,  3.27it/s] 50%|████▉     | 184081/371472 [3:34:38<15:27:59,  3.37it/s] 50%|████▉     | 184082/371472 [3:34:38<16:24:33,  3.17it/s] 50%|████▉     | 184083/371472 [3:34:39<16:26:04,  3.17it/s] 50%|████▉     | 184084/371472 [3:34:39<16:45:28,  3.11it/s] 50%|████▉     | 184085/371472 [3:34:39<17:08:04,  3.04it/s] 50%|████▉     | 184086/371472 [3:34:40<16:08:33,  3.22it/s] 50%|████▉     | 184087/371472 [3:34:40<16:01:55,  3.25it/s] 50%|████▉     | 184088/371472 [3:34:40<15:33:39,  3.34it/s] 50%|████▉     | 184089/371472 [3:34:40<15:10:48,  3.43it/s] 50%|████▉     | 184090/371472 [3:34:41<14:49:32,  3.51it/s] 50%|████▉     | 184091/371472 [3:34:41<15:27:37,  3.37it/s] 50%|████▉     | 184092/371472 [3:34:41<14:48:51,  3.51it/s] 50%|████▉     | 184093/371472 [3:34:42<15:18:29,  3.40it/s] 50%|████▉     | 184094/371472 [3:34:42<16:04:02,  3.24it/s] 50%|████▉     | 184095/371472 [3:34:42<16:08:03,  3.23it/s] 50%|████▉     | 184096/371472 [3:34:43<16:38:02,  3.13it/s] 50%|████▉     | 184097/371472 [3:34:43<15:58:50,  3.26it/s] 50%|████▉     | 184098/371472 [3:34:43<16:12:35,  3.21it/s] 50%|████▉     | 184099/371472 [3:34:44<15:56:20,  3.27it/s] 50%|████▉     | 184100/371472 [3:34:44<15:59:15,  3.26it/s]                                                            {'loss': 3.0083, 'learning_rate': 5.542082354715681e-07, 'epoch': 7.93}
 50%|████▉     | 184100/371472 [3:34:44<15:59:15,  3.26it/s] 50%|████▉     | 184101/371472 [3:34:44<15:46:45,  3.30it/s] 50%|████▉     | 184102/371472 [3:34:44<15:50:05,  3.29it/s] 50%|████▉     | 184103/371472 [3:34:45<15:25:24,  3.37it/s] 50%|████▉     | 184104/371472 [3:34:45<14:46:04,  3.52it/s] 50%|████▉     | 184105/371472 [3:34:45<14:45:01,  3.53it/s] 50%|████▉     | 184106/371472 [3:34:46<14:40:51,  3.55it/s] 50%|████▉     | 184107/371472 [3:34:46<15:37:41,  3.33it/s] 50%|████▉     | 184108/371472 [3:34:46<15:16:09,  3.41it/s] 50%|████▉     | 184109/371472 [3:34:46<15:02:06,  3.46it/s] 50%|████▉     | 184110/371472 [3:34:47<15:06:14,  3.45it/s] 50%|████▉     | 184111/371472 [3:34:47<14:40:43,  3.55it/s] 50%|████▉     | 184112/371472 [3:34:47<14:25:29,  3.61it/s] 50%|████▉     | 184113/371472 [3:34:47<14:13:15,  3.66it/s] 50%|████▉     | 184114/371472 [3:34:48<14:11:41,  3.67it/s] 50%|████▉     | 184115/371472 [3:34:48<14:11:05,  3.67it/s] 50%|████▉     | 184116/371472 [3:34:48<14:02:58,  3.70it/s] 50%|████▉     | 184117/371472 [3:34:49<13:42:38,  3.80it/s] 50%|████▉     | 184118/371472 [3:34:49<13:55:50,  3.74it/s] 50%|████▉     | 184119/371472 [3:34:49<14:22:35,  3.62it/s] 50%|████▉     | 184120/371472 [3:34:49<14:08:18,  3.68it/s]                                                            {'loss': 3.2, 'learning_rate': 5.541597534960891e-07, 'epoch': 7.93}
 50%|████▉     | 184120/371472 [3:34:49<14:08:18,  3.68it/s] 50%|████▉     | 184121/371472 [3:34:50<14:16:29,  3.65it/s] 50%|████▉     | 184122/371472 [3:34:50<15:44:14,  3.31it/s] 50%|████▉     | 184123/371472 [3:34:50<15:07:54,  3.44it/s] 50%|████▉     | 184124/371472 [3:34:51<14:50:45,  3.51it/s] 50%|████▉     | 184125/371472 [3:34:51<14:30:09,  3.59it/s] 50%|████▉     | 184126/371472 [3:34:51<14:28:38,  3.59it/s] 50%|████▉     | 184127/371472 [3:34:51<14:25:18,  3.61it/s] 50%|████▉     | 184128/371472 [3:34:52<14:18:35,  3.64it/s] 50%|████▉     | 184129/371472 [3:34:52<15:21:48,  3.39it/s] 50%|████▉     | 184130/371472 [3:34:52<15:32:50,  3.35it/s] 50%|████▉     | 184131/371472 [3:34:53<17:00:44,  3.06it/s] 50%|████▉     | 184132/371472 [3:34:53<16:31:08,  3.15it/s] 50%|████▉     | 184133/371472 [3:34:53<15:40:41,  3.32it/s] 50%|████▉     | 184134/371472 [3:34:54<15:03:32,  3.46it/s] 50%|████▉     | 184135/371472 [3:34:54<14:46:02,  3.52it/s] 50%|████▉     | 184136/371472 [3:34:54<14:16:41,  3.64it/s] 50%|████▉     | 184137/371472 [3:34:54<14:18:42,  3.64it/s] 50%|████▉     | 184138/371472 [3:34:55<14:17:35,  3.64it/s] 50%|████▉     | 184139/371472 [3:34:55<14:33:36,  3.57it/s] 50%|████▉     | 184140/371472 [3:34:55<14:03:02,  3.70it/s]                                                            {'loss': 3.0351, 'learning_rate': 5.541112715206102e-07, 'epoch': 7.93}
 50%|████▉     | 184140/371472 [3:34:55<14:03:02,  3.70it/s] 50%|████▉     | 184141/371472 [3:34:55<14:12:23,  3.66it/s] 50%|████▉     | 184142/371472 [3:34:56<13:49:45,  3.76it/s] 50%|████▉     | 184143/371472 [3:34:56<13:44:07,  3.79it/s] 50%|████▉     | 184144/371472 [3:34:56<14:26:27,  3.60it/s] 50%|████▉     | 184145/371472 [3:34:57<15:36:44,  3.33it/s] 50%|████▉     | 184146/371472 [3:34:57<15:19:45,  3.39it/s] 50%|████▉     | 184147/371472 [3:34:57<15:18:55,  3.40it/s] 50%|████▉     | 184148/371472 [3:34:57<15:52:06,  3.28it/s] 50%|████▉     | 184149/371472 [3:34:58<15:17:26,  3.40it/s] 50%|████▉     | 184150/371472 [3:34:58<14:59:23,  3.47it/s] 50%|████▉     | 184151/371472 [3:34:58<14:48:46,  3.51it/s] 50%|████▉     | 184152/371472 [3:34:59<14:40:13,  3.55it/s] 50%|████▉     | 184153/371472 [3:34:59<14:47:10,  3.52it/s] 50%|████▉     | 184154/371472 [3:34:59<14:21:58,  3.62it/s] 50%|████▉     | 184155/371472 [3:34:59<14:41:42,  3.54it/s] 50%|████▉     | 184156/371472 [3:35:00<14:15:40,  3.65it/s] 50%|████▉     | 184157/371472 [3:35:00<15:41:29,  3.32it/s] 50%|████▉     | 184158/371472 [3:35:00<15:01:30,  3.46it/s] 50%|████▉     | 184159/371472 [3:35:01<14:41:27,  3.54it/s] 50%|████▉     | 184160/371472 [3:35:01<14:20:30,  3.63it/s]                                                            {'loss': 3.0604, 'learning_rate': 5.540627895451313e-07, 'epoch': 7.93}
 50%|████▉     | 184160/371472 [3:35:01<14:20:30,  3.63it/s] 50%|████▉     | 184161/371472 [3:35:01<15:05:25,  3.45it/s] 50%|████▉     | 184162/371472 [3:35:01<14:27:33,  3.60it/s] 50%|████▉     | 184163/371472 [3:35:02<14:36:46,  3.56it/s] 50%|████▉     | 184164/371472 [3:35:02<15:06:01,  3.45it/s] 50%|████▉     | 184165/371472 [3:35:02<14:32:11,  3.58it/s] 50%|████▉     | 184166/371472 [3:35:03<14:25:48,  3.61it/s] 50%|████▉     | 184167/371472 [3:35:03<14:04:14,  3.70it/s] 50%|████▉     | 184168/371472 [3:35:03<14:05:32,  3.69it/s] 50%|████▉     | 184169/371472 [3:35:03<14:31:58,  3.58it/s] 50%|████▉     | 184170/371472 [3:35:04<14:43:05,  3.53it/s] 50%|████▉     | 184171/371472 [3:35:04<14:34:18,  3.57it/s] 50%|████▉     | 184172/371472 [3:35:04<14:14:42,  3.65it/s] 50%|████▉     | 184173/371472 [3:35:04<14:14:06,  3.65it/s] 50%|████▉     | 184174/371472 [3:35:05<14:59:11,  3.47it/s] 50%|████▉     | 184175/371472 [3:35:05<15:24:17,  3.38it/s] 50%|████▉     | 184176/371472 [3:35:05<14:41:56,  3.54it/s] 50%|████▉     | 184177/371472 [3:35:06<14:58:49,  3.47it/s] 50%|████▉     | 184178/371472 [3:35:06<14:50:43,  3.50it/s] 50%|████▉     | 184179/371472 [3:35:06<14:51:33,  3.50it/s] 50%|████▉     | 184180/371472 [3:35:06<14:56:16,  3.48it/s]                                                            {'loss': 2.9244, 'learning_rate': 5.540143075696523e-07, 'epoch': 7.93}
 50%|████▉     | 184180/371472 [3:35:06<14:56:16,  3.48it/s] 50%|████▉     | 184181/371472 [3:35:07<15:12:17,  3.42it/s] 50%|████▉     | 184182/371472 [3:35:07<14:41:41,  3.54it/s] 50%|████▉     | 184183/371472 [3:35:07<15:11:00,  3.43it/s] 50%|████▉     | 184184/371472 [3:35:08<14:55:31,  3.49it/s] 50%|████▉     | 184185/371472 [3:35:08<15:08:44,  3.43it/s] 50%|████▉     | 184186/371472 [3:35:08<14:25:41,  3.61it/s] 50%|████▉     | 184187/371472 [3:35:08<14:36:09,  3.56it/s] 50%|████▉     | 184188/371472 [3:35:09<14:08:45,  3.68it/s] 50%|████▉     | 184189/371472 [3:35:09<13:46:18,  3.78it/s] 50%|████▉     | 184190/371472 [3:35:09<13:46:45,  3.78it/s] 50%|████▉     | 184191/371472 [3:35:09<13:32:32,  3.84it/s] 50%|████▉     | 184192/371472 [3:35:10<13:50:13,  3.76it/s] 50%|████▉     | 184193/371472 [3:35:10<13:45:32,  3.78it/s] 50%|████▉     | 184194/371472 [3:35:10<14:26:07,  3.60it/s] 50%|████▉     | 184195/371472 [3:35:11<14:12:32,  3.66it/s] 50%|████▉     | 184196/371472 [3:35:11<14:53:29,  3.49it/s] 50%|████▉     | 184197/371472 [3:35:11<15:00:03,  3.47it/s] 50%|████▉     | 184198/371472 [3:35:11<14:23:10,  3.62it/s] 50%|████▉     | 184199/371472 [3:35:12<14:39:27,  3.55it/s] 50%|████▉     | 184200/371472 [3:35:12<15:07:35,  3.44it/s]                                                            {'loss': 3.2223, 'learning_rate': 5.539658255941735e-07, 'epoch': 7.93}
 50%|████▉     | 184200/371472 [3:35:12<15:07:35,  3.44it/s] 50%|████▉     | 184201/371472 [3:35:12<14:37:15,  3.56it/s] 50%|████▉     | 184202/371472 [3:35:13<14:47:30,  3.52it/s] 50%|████▉     | 184203/371472 [3:35:13<15:11:32,  3.42it/s] 50%|████▉     | 184204/371472 [3:35:13<14:56:23,  3.48it/s] 50%|████▉     | 184205/371472 [3:35:14<15:06:13,  3.44it/s] 50%|████▉     | 184206/371472 [3:35:14<14:49:30,  3.51it/s] 50%|████▉     | 184207/371472 [3:35:14<14:38:26,  3.55it/s] 50%|████▉     | 184208/371472 [3:35:14<14:22:18,  3.62it/s] 50%|████▉     | 184209/371472 [3:35:15<15:42:48,  3.31it/s] 50%|████▉     | 184210/371472 [3:35:15<15:03:23,  3.45it/s] 50%|████▉     | 184211/371472 [3:35:15<15:03:55,  3.45it/s] 50%|████▉     | 184212/371472 [3:35:15<14:32:23,  3.58it/s] 50%|████▉     | 184213/371472 [3:35:16<14:43:32,  3.53it/s] 50%|████▉     | 184214/371472 [3:35:16<15:41:23,  3.32it/s] 50%|████▉     | 184215/371472 [3:35:16<14:58:44,  3.47it/s] 50%|████▉     | 184216/371472 [3:35:17<14:56:51,  3.48it/s] 50%|████▉     | 184217/371472 [3:35:17<14:54:54,  3.49it/s] 50%|████▉     | 184218/371472 [3:35:17<14:27:39,  3.60it/s] 50%|████▉     | 184219/371472 [3:35:17<14:34:00,  3.57it/s] 50%|████▉     | 184220/371472 [3:35:18<14:22:33,  3.62it/s]                                                            {'loss': 3.2044, 'learning_rate': 5.539173436186945e-07, 'epoch': 7.93}
 50%|████▉     | 184220/371472 [3:35:18<14:22:33,  3.62it/s] 50%|████▉     | 184221/371472 [3:35:18<14:15:02,  3.65it/s] 50%|████▉     | 184222/371472 [3:35:18<14:37:32,  3.56it/s] 50%|████▉     | 184223/371472 [3:35:19<14:38:20,  3.55it/s] 50%|████▉     | 184224/371472 [3:35:19<15:07:51,  3.44it/s] 50%|████▉     | 184225/371472 [3:35:19<15:16:30,  3.41it/s] 50%|████▉     | 184226/371472 [3:35:20<15:35:50,  3.33it/s] 50%|████▉     | 184227/371472 [3:35:20<14:53:48,  3.49it/s] 50%|████▉     | 184228/371472 [3:35:20<14:41:26,  3.54it/s] 50%|████▉     | 184229/371472 [3:35:20<14:13:40,  3.66it/s] 50%|████▉     | 184230/371472 [3:35:21<13:45:33,  3.78it/s] 50%|████▉     | 184231/371472 [3:35:21<13:33:59,  3.83it/s] 50%|████▉     | 184232/371472 [3:35:21<16:11:29,  3.21it/s] 50%|████▉     | 184233/371472 [3:35:22<15:30:17,  3.35it/s] 50%|████▉     | 184234/371472 [3:35:22<15:01:03,  3.46it/s] 50%|████▉     | 184235/371472 [3:35:22<14:29:21,  3.59it/s] 50%|████▉     | 184236/371472 [3:35:22<15:22:13,  3.38it/s] 50%|████▉     | 184237/371472 [3:35:23<14:31:36,  3.58it/s] 50%|████▉     | 184238/371472 [3:35:23<13:55:02,  3.74it/s] 50%|████▉     | 184239/371472 [3:35:23<13:44:29,  3.78it/s] 50%|████▉     | 184240/371472 [3:35:23<14:04:37,  3.69it/s]                                                            {'loss': 3.1575, 'learning_rate': 5.538688616432158e-07, 'epoch': 7.94}
 50%|████▉     | 184240/371472 [3:35:23<14:04:37,  3.69it/s] 50%|████▉     | 184241/371472 [3:35:24<13:57:35,  3.73it/s] 50%|████▉     | 184242/371472 [3:35:24<13:57:02,  3.73it/s] 50%|████▉     | 184243/371472 [3:35:24<13:26:02,  3.87it/s] 50%|████▉     | 184244/371472 [3:35:24<13:42:54,  3.79it/s] 50%|████▉     | 184245/371472 [3:35:25<13:34:37,  3.83it/s] 50%|████▉     | 184246/371472 [3:35:25<13:42:08,  3.80it/s] 50%|████▉     | 184247/371472 [3:35:25<14:06:45,  3.69it/s] 50%|████▉     | 184248/371472 [3:35:26<13:56:53,  3.73it/s] 50%|████▉     | 184249/371472 [3:35:26<13:34:14,  3.83it/s] 50%|████▉     | 184250/371472 [3:35:26<15:04:01,  3.45it/s] 50%|████▉     | 184251/371472 [3:35:26<14:36:17,  3.56it/s] 50%|████▉     | 184252/371472 [3:35:27<14:25:26,  3.61it/s] 50%|████▉     | 184253/371472 [3:35:27<14:43:35,  3.53it/s] 50%|████▉     | 184254/371472 [3:35:27<14:28:20,  3.59it/s] 50%|████▉     | 184255/371472 [3:35:28<15:14:14,  3.41it/s] 50%|████▉     | 184256/371472 [3:35:28<14:29:12,  3.59it/s] 50%|████▉     | 184257/371472 [3:35:28<14:10:50,  3.67it/s] 50%|████▉     | 184258/371472 [3:35:28<15:04:22,  3.45it/s] 50%|████▉     | 184259/371472 [3:35:29<15:08:35,  3.43it/s] 50%|████▉     | 184260/371472 [3:35:29<15:35:32,  3.34it/s]                                                            {'loss': 3.2727, 'learning_rate': 5.538203796677368e-07, 'epoch': 7.94}
 50%|████▉     | 184260/371472 [3:35:29<15:35:32,  3.34it/s] 50%|████▉     | 184261/371472 [3:35:29<14:58:49,  3.47it/s] 50%|████▉     | 184262/371472 [3:35:29<14:29:50,  3.59it/s] 50%|████▉     | 184263/371472 [3:35:30<15:01:56,  3.46it/s] 50%|████▉     | 184264/371472 [3:35:30<14:48:04,  3.51it/s] 50%|████▉     | 184265/371472 [3:35:30<15:02:24,  3.46it/s] 50%|████▉     | 184266/371472 [3:35:31<15:01:07,  3.46it/s] 50%|████▉     | 184267/371472 [3:35:31<14:36:17,  3.56it/s] 50%|████▉     | 184268/371472 [3:35:31<14:34:13,  3.57it/s] 50%|████▉     | 184269/371472 [3:35:31<14:45:42,  3.52it/s] 50%|████▉     | 184270/371472 [3:35:32<14:33:44,  3.57it/s] 50%|████▉     | 184271/371472 [3:35:32<14:01:35,  3.71it/s] 50%|████▉     | 184272/371472 [3:35:32<14:19:59,  3.63it/s] 50%|████▉     | 184273/371472 [3:35:33<15:15:39,  3.41it/s] 50%|████▉     | 184274/371472 [3:35:33<14:24:22,  3.61it/s] 50%|████▉     | 184275/371472 [3:35:33<14:12:49,  3.66it/s] 50%|████▉     | 184276/371472 [3:35:33<13:49:19,  3.76it/s] 50%|████▉     | 184277/371472 [3:35:34<14:41:44,  3.54it/s] 50%|████▉     | 184278/371472 [3:35:34<14:34:38,  3.57it/s] 50%|████▉     | 184279/371472 [3:35:34<13:57:11,  3.73it/s] 50%|████▉     | 184280/371472 [3:35:35<14:01:59,  3.71it/s]                                                            {'loss': 2.9761, 'learning_rate': 5.537718976922579e-07, 'epoch': 7.94}
 50%|████▉     | 184280/371472 [3:35:35<14:01:59,  3.71it/s] 50%|████▉     | 184281/371472 [3:35:35<14:39:32,  3.55it/s] 50%|████▉     | 184282/371472 [3:35:35<14:12:33,  3.66it/s] 50%|████▉     | 184283/371472 [3:35:35<15:15:23,  3.41it/s] 50%|████▉     | 184284/371472 [3:35:36<14:59:35,  3.47it/s] 50%|████▉     | 184285/371472 [3:35:36<14:40:58,  3.54it/s] 50%|████▉     | 184286/371472 [3:35:36<14:51:23,  3.50it/s] 50%|████▉     | 184287/371472 [3:35:37<14:39:52,  3.55it/s] 50%|████▉     | 184288/371472 [3:35:37<14:36:45,  3.56it/s] 50%|████▉     | 184289/371472 [3:35:37<16:04:05,  3.24it/s] 50%|████▉     | 184290/371472 [3:35:37<16:01:45,  3.24it/s] 50%|████▉     | 184291/371472 [3:35:38<16:19:06,  3.19it/s] 50%|████▉     | 184292/371472 [3:35:38<15:53:41,  3.27it/s] 50%|████▉     | 184293/371472 [3:35:38<16:22:29,  3.18it/s] 50%|████▉     | 184294/371472 [3:35:39<15:46:14,  3.30it/s] 50%|████▉     | 184295/371472 [3:35:39<15:05:53,  3.44it/s] 50%|████▉     | 184296/371472 [3:35:39<15:01:31,  3.46it/s] 50%|████▉     | 184297/371472 [3:35:40<14:41:30,  3.54it/s] 50%|████▉     | 184298/371472 [3:35:40<14:31:46,  3.58it/s] 50%|████▉     | 184299/371472 [3:35:40<15:25:37,  3.37it/s] 50%|████▉     | 184300/371472 [3:35:40<15:11:28,  3.42it/s]                                                            {'loss': 2.7781, 'learning_rate': 5.53723415716779e-07, 'epoch': 7.94}
 50%|████▉     | 184300/371472 [3:35:40<15:11:28,  3.42it/s] 50%|████▉     | 184301/371472 [3:35:41<14:30:04,  3.59it/s] 50%|████▉     | 184302/371472 [3:35:41<14:32:49,  3.57it/s] 50%|████▉     | 184303/371472 [3:35:41<16:17:24,  3.19it/s] 50%|████▉     | 184304/371472 [3:35:42<16:20:37,  3.18it/s] 50%|████▉     | 184305/371472 [3:35:42<16:26:13,  3.16it/s] 50%|████▉     | 184306/371472 [3:35:42<15:51:46,  3.28it/s] 50%|████▉     | 184307/371472 [3:35:43<15:04:40,  3.45it/s] 50%|████▉     | 184308/371472 [3:35:43<15:01:08,  3.46it/s] 50%|████▉     | 184309/371472 [3:35:43<14:41:47,  3.54it/s] 50%|████▉     | 184310/371472 [3:35:43<14:16:52,  3.64it/s] 50%|████▉     | 184311/371472 [3:35:44<15:51:56,  3.28it/s] 50%|████▉     | 184312/371472 [3:35:44<15:37:34,  3.33it/s] 50%|████▉     | 184313/371472 [3:35:44<15:51:59,  3.28it/s] 50%|████▉     | 184314/371472 [3:35:45<15:11:23,  3.42it/s] 50%|████▉     | 184315/371472 [3:35:45<14:39:45,  3.55it/s] 50%|████▉     | 184316/371472 [3:35:45<14:38:04,  3.55it/s] 50%|████▉     | 184317/371472 [3:35:45<15:12:28,  3.42it/s] 50%|████▉     | 184318/371472 [3:35:46<14:55:40,  3.48it/s] 50%|████▉     | 184319/371472 [3:35:46<14:48:38,  3.51it/s] 50%|████▉     | 184320/371472 [3:35:46<14:48:52,  3.51it/s]                                                            {'loss': 3.0028, 'learning_rate': 5.536749337413002e-07, 'epoch': 7.94}
 50%|████▉     | 184320/371472 [3:35:46<14:48:52,  3.51it/s] 50%|████▉     | 184321/371472 [3:35:47<15:10:36,  3.43it/s] 50%|████▉     | 184322/371472 [3:35:47<15:42:43,  3.31it/s] 50%|████▉     | 184323/371472 [3:35:47<15:12:01,  3.42it/s] 50%|████▉     | 184324/371472 [3:35:47<15:15:59,  3.41it/s] 50%|████▉     | 184325/371472 [3:35:48<16:49:41,  3.09it/s] 50%|████▉     | 184326/371472 [3:35:48<15:55:33,  3.26it/s] 50%|████▉     | 184327/371472 [3:35:48<15:11:50,  3.42it/s] 50%|████▉     | 184328/371472 [3:35:49<15:45:49,  3.30it/s] 50%|████▉     | 184329/371472 [3:35:49<17:45:11,  2.93it/s] 50%|████▉     | 184330/371472 [3:35:49<17:14:43,  3.01it/s] 50%|████▉     | 184331/371472 [3:35:50<17:51:56,  2.91it/s] 50%|████▉     | 184332/371472 [3:35:50<17:12:39,  3.02it/s] 50%|████▉     | 184333/371472 [3:35:50<16:46:08,  3.10it/s] 50%|████▉     | 184334/371472 [3:35:51<17:36:43,  2.95it/s] 50%|████▉     | 184335/371472 [3:35:51<16:14:05,  3.20it/s] 50%|████▉     | 184336/371472 [3:35:51<15:36:46,  3.33it/s] 50%|████▉     | 184337/371472 [3:35:52<15:44:19,  3.30it/s] 50%|████▉     | 184338/371472 [3:35:52<15:49:32,  3.28it/s] 50%|████▉     | 184339/371472 [3:35:52<15:17:49,  3.40it/s] 50%|████▉     | 184340/371472 [3:35:52<15:09:24,  3.43it/s]                                                            {'loss': 3.066, 'learning_rate': 5.536264517658213e-07, 'epoch': 7.94}
 50%|████▉     | 184340/371472 [3:35:52<15:09:24,  3.43it/s] 50%|████▉     | 184341/371472 [3:35:53<15:29:02,  3.36it/s] 50%|████▉     | 184342/371472 [3:35:53<15:13:45,  3.41it/s] 50%|████▉     | 184343/371472 [3:35:53<15:58:27,  3.25it/s] 50%|████▉     | 184344/371472 [3:35:54<16:06:00,  3.23it/s] 50%|████▉     | 184345/371472 [3:35:54<15:42:59,  3.31it/s] 50%|████▉     | 184346/371472 [3:35:54<15:32:21,  3.35it/s] 50%|████▉     | 184347/371472 [3:35:55<15:12:48,  3.42it/s] 50%|████▉     | 184348/371472 [3:35:55<14:38:07,  3.55it/s] 50%|████▉     | 184349/371472 [3:35:55<14:48:30,  3.51it/s] 50%|████▉     | 184350/371472 [3:35:55<15:19:10,  3.39it/s] 50%|████▉     | 184351/371472 [3:35:56<15:23:12,  3.38it/s] 50%|████▉     | 184352/371472 [3:35:56<15:32:04,  3.35it/s] 50%|████▉     | 184353/371472 [3:35:56<15:14:29,  3.41it/s] 50%|████▉     | 184354/371472 [3:35:57<15:16:08,  3.40it/s] 50%|████▉     | 184355/371472 [3:35:57<15:28:10,  3.36it/s] 50%|████▉     | 184356/371472 [3:35:57<14:57:24,  3.48it/s] 50%|████▉     | 184357/371472 [3:35:58<15:00:42,  3.46it/s] 50%|████▉     | 184358/371472 [3:35:58<15:26:40,  3.37it/s] 50%|████▉     | 184359/371472 [3:35:58<15:10:03,  3.43it/s] 50%|████▉     | 184360/371472 [3:35:58<14:41:08,  3.54it/s]                                                            {'loss': 2.9422, 'learning_rate': 5.535779697903424e-07, 'epoch': 7.94}
 50%|████▉     | 184360/371472 [3:35:58<14:41:08,  3.54it/s] 50%|████▉     | 184361/371472 [3:35:59<14:49:16,  3.51it/s] 50%|████▉     | 184362/371472 [3:35:59<14:58:35,  3.47it/s] 50%|████▉     | 184363/371472 [3:35:59<16:03:33,  3.24it/s] 50%|████▉     | 184364/371472 [3:36:00<15:33:25,  3.34it/s] 50%|████▉     | 184365/371472 [3:36:00<15:02:08,  3.46it/s] 50%|████▉     | 184366/371472 [3:36:00<15:05:04,  3.45it/s] 50%|████▉     | 184367/371472 [3:36:00<14:44:08,  3.53it/s] 50%|████▉     | 184368/371472 [3:36:01<14:08:00,  3.68it/s] 50%|████▉     | 184369/371472 [3:36:01<14:28:58,  3.59it/s] 50%|████▉     | 184370/371472 [3:36:01<14:02:17,  3.70it/s] 50%|████▉     | 184371/371472 [3:36:02<15:18:27,  3.40it/s] 50%|████▉     | 184372/371472 [3:36:02<14:58:40,  3.47it/s] 50%|████▉     | 184373/371472 [3:36:02<15:29:25,  3.36it/s] 50%|████▉     | 184374/371472 [3:36:02<14:44:48,  3.52it/s] 50%|████▉     | 184375/371472 [3:36:03<14:44:24,  3.53it/s] 50%|████▉     | 184376/371472 [3:36:03<14:18:27,  3.63it/s] 50%|████▉     | 184377/371472 [3:36:03<14:15:22,  3.65it/s] 50%|████▉     | 184378/371472 [3:36:03<14:06:50,  3.68it/s] 50%|████▉     | 184379/371472 [3:36:04<14:13:31,  3.65it/s] 50%|████▉     | 184380/371472 [3:36:04<15:16:11,  3.40it/s]                                                            {'loss': 2.9431, 'learning_rate': 5.535294878148635e-07, 'epoch': 7.94}
 50%|████▉     | 184380/371472 [3:36:04<15:16:11,  3.40it/s] 50%|████▉     | 184381/371472 [3:36:04<14:52:33,  3.49it/s] 50%|████▉     | 184382/371472 [3:36:05<15:03:58,  3.45it/s] 50%|████▉     | 184383/371472 [3:36:05<14:48:51,  3.51it/s] 50%|████▉     | 184384/371472 [3:36:05<15:03:51,  3.45it/s] 50%|████▉     | 184385/371472 [3:36:06<14:48:37,  3.51it/s] 50%|████▉     | 184386/371472 [3:36:06<14:44:12,  3.53it/s] 50%|████▉     | 184387/371472 [3:36:06<14:14:54,  3.65it/s] 50%|████▉     | 184388/371472 [3:36:06<14:45:52,  3.52it/s] 50%|████▉     | 184389/371472 [3:36:07<14:37:48,  3.55it/s] 50%|████▉     | 184390/371472 [3:36:07<15:02:57,  3.45it/s] 50%|████▉     | 184391/371472 [3:36:07<14:28:08,  3.59it/s] 50%|████▉     | 184392/371472 [3:36:07<14:11:11,  3.66it/s] 50%|████▉     | 184393/371472 [3:36:08<14:11:12,  3.66it/s] 50%|████▉     | 184394/371472 [3:36:08<14:20:19,  3.62it/s] 50%|████▉     | 184395/371472 [3:36:08<14:09:55,  3.67it/s] 50%|████▉     | 184396/371472 [3:36:09<15:49:08,  3.29it/s] 50%|████▉     | 184397/371472 [3:36:09<15:21:00,  3.39it/s] 50%|████▉     | 184398/371472 [3:36:09<14:46:23,  3.52it/s] 50%|████▉     | 184399/371472 [3:36:09<14:36:49,  3.56it/s] 50%|████▉     | 184400/371472 [3:36:10<14:37:30,  3.55it/s]                                                            {'loss': 3.0137, 'learning_rate': 5.534810058393846e-07, 'epoch': 7.94}
 50%|████▉     | 184400/371472 [3:36:10<14:37:30,  3.55it/s] 50%|████▉     | 184401/371472 [3:36:10<14:43:28,  3.53it/s] 50%|████▉     | 184402/371472 [3:36:10<14:25:45,  3.60it/s] 50%|████▉     | 184403/371472 [3:36:11<14:13:00,  3.66it/s] 50%|████▉     | 184404/371472 [3:36:11<13:41:40,  3.79it/s] 50%|████▉     | 184405/371472 [3:36:11<14:01:15,  3.71it/s] 50%|████▉     | 184406/371472 [3:36:11<13:57:12,  3.72it/s] 50%|████▉     | 184407/371472 [3:36:12<14:01:50,  3.70it/s] 50%|████▉     | 184408/371472 [3:36:12<14:31:09,  3.58it/s] 50%|████▉     | 184409/371472 [3:36:12<14:23:29,  3.61it/s] 50%|████▉     | 184410/371472 [3:36:12<14:29:49,  3.58it/s] 50%|████▉     | 184411/371472 [3:36:13<15:33:16,  3.34it/s] 50%|████▉     | 184412/371472 [3:36:13<15:02:45,  3.45it/s] 50%|████▉     | 184413/371472 [3:36:13<14:49:35,  3.50it/s] 50%|████▉     | 184414/371472 [3:36:14<14:40:42,  3.54it/s] 50%|████▉     | 184415/371472 [3:36:14<14:36:18,  3.56it/s] 50%|████▉     | 184416/371472 [3:36:14<14:34:27,  3.57it/s] 50%|████▉     | 184417/371472 [3:36:14<14:08:09,  3.68it/s] 50%|████▉     | 184418/371472 [3:36:15<15:10:54,  3.42it/s] 50%|████▉     | 184419/371472 [3:36:15<14:37:36,  3.55it/s] 50%|████▉     | 184420/371472 [3:36:15<15:10:04,  3.43it/s]                                                            {'loss': 3.0031, 'learning_rate': 5.534325238639057e-07, 'epoch': 7.94}
 50%|████▉     | 184420/371472 [3:36:15<15:10:04,  3.43it/s] 50%|████▉     | 184421/371472 [3:36:16<14:56:00,  3.48it/s] 50%|████▉     | 184422/371472 [3:36:16<14:11:44,  3.66it/s] 50%|████▉     | 184423/371472 [3:36:16<13:42:15,  3.79it/s] 50%|████▉     | 184424/371472 [3:36:16<15:03:56,  3.45it/s] 50%|████▉     | 184425/371472 [3:36:17<15:05:20,  3.44it/s] 50%|████▉     | 184426/371472 [3:36:17<15:05:42,  3.44it/s] 50%|████▉     | 184427/371472 [3:36:17<15:31:03,  3.35it/s] 50%|████▉     | 184428/371472 [3:36:18<15:17:52,  3.40it/s] 50%|████▉     | 184429/371472 [3:36:18<15:12:14,  3.42it/s] 50%|████▉     | 184430/371472 [3:36:18<15:44:47,  3.30it/s] 50%|████▉     | 184431/371472 [3:36:19<15:38:52,  3.32it/s] 50%|████▉     | 184432/371472 [3:36:19<15:50:19,  3.28it/s] 50%|████▉     | 184433/371472 [3:36:19<15:32:49,  3.34it/s] 50%|████▉     | 184434/371472 [3:36:19<15:15:40,  3.40it/s] 50%|████▉     | 184435/371472 [3:36:20<15:19:34,  3.39it/s] 50%|████▉     | 184436/371472 [3:36:20<15:08:59,  3.43it/s] 50%|████▉     | 184437/371472 [3:36:20<15:02:30,  3.45it/s] 50%|████▉     | 184438/371472 [3:36:21<15:54:20,  3.27it/s] 50%|████▉     | 184439/371472 [3:36:21<15:16:05,  3.40it/s] 50%|████▉     | 184440/371472 [3:36:21<14:31:54,  3.58it/s]                                                            {'loss': 3.0591, 'learning_rate': 5.533840418884268e-07, 'epoch': 7.94}
 50%|████▉     | 184440/371472 [3:36:21<14:31:54,  3.58it/s] 50%|████▉     | 184441/371472 [3:36:21<14:49:34,  3.50it/s] 50%|████▉     | 184442/371472 [3:36:22<14:52:54,  3.49it/s] 50%|████▉     | 184443/371472 [3:36:22<14:51:32,  3.50it/s] 50%|████▉     | 184444/371472 [3:36:22<14:43:08,  3.53it/s] 50%|████▉     | 184445/371472 [3:36:23<14:49:36,  3.50it/s] 50%|████▉     | 184446/371472 [3:36:23<15:11:59,  3.42it/s] 50%|████▉     | 184447/371472 [3:36:23<14:45:12,  3.52it/s] 50%|████▉     | 184448/371472 [3:36:23<14:29:26,  3.59it/s] 50%|████▉     | 184449/371472 [3:36:24<14:42:02,  3.53it/s] 50%|████▉     | 184450/371472 [3:36:24<14:52:59,  3.49it/s] 50%|████▉     | 184451/371472 [3:36:24<14:54:55,  3.48it/s] 50%|████▉     | 184452/371472 [3:36:25<14:25:47,  3.60it/s] 50%|████▉     | 184453/371472 [3:36:25<15:50:57,  3.28it/s] 50%|████▉     | 184454/371472 [3:36:25<18:19:18,  2.84it/s] 50%|████▉     | 184455/371472 [3:36:26<16:50:14,  3.09it/s] 50%|████▉     | 184456/371472 [3:36:26<15:48:46,  3.29it/s] 50%|████▉     | 184457/371472 [3:36:26<16:04:30,  3.23it/s] 50%|████▉     | 184458/371472 [3:36:27<15:34:06,  3.34it/s] 50%|████▉     | 184459/371472 [3:36:27<15:43:25,  3.30it/s] 50%|████▉     | 184460/371472 [3:36:27<15:12:01,  3.42it/s]                                                            {'loss': 3.0731, 'learning_rate': 5.533355599129478e-07, 'epoch': 7.95}
 50%|████▉     | 184460/371472 [3:36:27<15:12:01,  3.42it/s] 50%|████▉     | 184461/371472 [3:36:27<15:10:19,  3.42it/s] 50%|████▉     | 184462/371472 [3:36:28<14:56:04,  3.48it/s] 50%|████▉     | 184463/371472 [3:36:28<14:52:44,  3.49it/s] 50%|████▉     | 184464/371472 [3:36:28<14:33:42,  3.57it/s] 50%|████▉     | 184465/371472 [3:36:28<14:21:04,  3.62it/s] 50%|████▉     | 184466/371472 [3:36:29<14:13:13,  3.65it/s] 50%|████▉     | 184467/371472 [3:36:29<14:03:27,  3.70it/s] 50%|████▉     | 184468/371472 [3:36:29<14:22:37,  3.61it/s] 50%|████▉     | 184469/371472 [3:36:30<15:32:45,  3.34it/s] 50%|████▉     | 184470/371472 [3:36:30<15:53:40,  3.27it/s] 50%|████▉     | 184471/371472 [3:36:30<15:20:06,  3.39it/s] 50%|████▉     | 184472/371472 [3:36:31<14:57:10,  3.47it/s] 50%|████▉     | 184473/371472 [3:36:31<14:53:43,  3.49it/s] 50%|████▉     | 184474/371472 [3:36:31<15:22:20,  3.38it/s] 50%|████▉     | 184475/371472 [3:36:31<15:07:20,  3.43it/s] 50%|████▉     | 184476/371472 [3:36:32<15:08:07,  3.43it/s] 50%|████▉     | 184477/371472 [3:36:32<14:47:07,  3.51it/s] 50%|████▉     | 184478/371472 [3:36:32<14:27:51,  3.59it/s] 50%|████▉     | 184479/371472 [3:36:32<14:25:26,  3.60it/s] 50%|████▉     | 184480/371472 [3:36:33<14:00:17,  3.71it/s]                                                            {'loss': 3.0527, 'learning_rate': 5.53287077937469e-07, 'epoch': 7.95}
 50%|████▉     | 184480/371472 [3:36:33<14:00:17,  3.71it/s] 50%|████▉     | 184481/371472 [3:36:33<14:09:27,  3.67it/s] 50%|████▉     | 184482/371472 [3:36:33<14:00:45,  3.71it/s] 50%|████▉     | 184483/371472 [3:36:34<14:41:46,  3.53it/s] 50%|████▉     | 184484/371472 [3:36:34<14:37:50,  3.55it/s] 50%|████▉     | 184485/371472 [3:36:34<14:28:04,  3.59it/s] 50%|████▉     | 184486/371472 [3:36:34<15:13:00,  3.41it/s] 50%|████▉     | 184487/371472 [3:36:35<15:06:31,  3.44it/s] 50%|████▉     | 184488/371472 [3:36:35<15:23:40,  3.37it/s] 50%|████▉     | 184489/371472 [3:36:35<14:57:38,  3.47it/s] 50%|████▉     | 184490/371472 [3:36:36<15:48:02,  3.29it/s] 50%|████▉     | 184491/371472 [3:36:36<16:26:17,  3.16it/s] 50%|████▉     | 184492/371472 [3:36:36<15:37:03,  3.33it/s] 50%|████▉     | 184493/371472 [3:36:37<15:12:53,  3.41it/s] 50%|████▉     | 184494/371472 [3:36:37<14:59:09,  3.47it/s] 50%|████▉     | 184495/371472 [3:36:37<14:58:42,  3.47it/s] 50%|████▉     | 184496/371472 [3:36:37<14:49:15,  3.50it/s] 50%|████▉     | 184497/371472 [3:36:38<15:06:31,  3.44it/s] 50%|████▉     | 184498/371472 [3:36:38<14:48:41,  3.51it/s] 50%|████▉     | 184499/371472 [3:36:38<15:00:39,  3.46it/s] 50%|████▉     | 184500/371472 [3:36:39<14:26:10,  3.60it/s]                                                            {'loss': 3.1286, 'learning_rate': 5.532385959619901e-07, 'epoch': 7.95}
 50%|████▉     | 184500/371472 [3:36:39<14:26:10,  3.60it/s] 50%|████▉     | 184501/371472 [3:36:39<14:25:26,  3.60it/s] 50%|████▉     | 184502/371472 [3:36:39<14:06:10,  3.68it/s] 50%|████▉     | 184503/371472 [3:36:39<14:01:26,  3.70it/s] 50%|████▉     | 184504/371472 [3:36:40<14:04:12,  3.69it/s] 50%|████▉     | 184505/371472 [3:36:40<14:15:17,  3.64it/s] 50%|████▉     | 184506/371472 [3:36:40<14:40:08,  3.54it/s] 50%|████▉     | 184507/371472 [3:36:40<14:11:59,  3.66it/s] 50%|████▉     | 184508/371472 [3:36:41<13:54:57,  3.73it/s] 50%|████▉     | 184509/371472 [3:36:41<13:48:18,  3.76it/s] 50%|████▉     | 184510/371472 [3:36:41<13:46:40,  3.77it/s] 50%|████▉     | 184511/371472 [3:36:42<14:11:17,  3.66it/s] 50%|████▉     | 184512/371472 [3:36:42<14:40:30,  3.54it/s] 50%|████▉     | 184513/371472 [3:36:42<14:55:35,  3.48it/s] 50%|████▉     | 184514/371472 [3:36:42<14:33:07,  3.57it/s] 50%|████▉     | 184515/371472 [3:36:43<14:03:24,  3.69it/s] 50%|████▉     | 184516/371472 [3:36:43<14:26:04,  3.60it/s] 50%|████▉     | 184517/371472 [3:36:43<14:41:31,  3.53it/s] 50%|████▉     | 184518/371472 [3:36:44<14:33:22,  3.57it/s] 50%|████▉     | 184519/371472 [3:36:44<14:17:40,  3.63it/s] 50%|████▉     | 184520/371472 [3:36:44<14:05:42,  3.68it/s]                                                            {'loss': 3.0661, 'learning_rate': 5.531901139865112e-07, 'epoch': 7.95}
 50%|████▉     | 184520/371472 [3:36:44<14:05:42,  3.68it/s] 50%|████▉     | 184521/371472 [3:36:44<14:07:38,  3.68it/s] 50%|████▉     | 184522/371472 [3:36:45<14:41:16,  3.54it/s] 50%|████▉     | 184523/371472 [3:36:45<14:47:27,  3.51it/s] 50%|████▉     | 184524/371472 [3:36:45<14:18:07,  3.63it/s] 50%|████▉     | 184525/371472 [3:36:45<14:46:31,  3.51it/s] 50%|████▉     | 184526/371472 [3:36:46<14:16:08,  3.64it/s] 50%|████▉     | 184527/371472 [3:36:46<14:05:17,  3.69it/s] 50%|████▉     | 184528/371472 [3:36:46<13:48:40,  3.76it/s] 50%|████▉     | 184529/371472 [3:36:46<13:37:37,  3.81it/s] 50%|████▉     | 184530/371472 [3:36:47<14:20:31,  3.62it/s] 50%|████▉     | 184531/371472 [3:36:47<14:31:43,  3.57it/s] 50%|████▉     | 184532/371472 [3:36:47<14:20:39,  3.62it/s] 50%|████▉     | 184533/371472 [3:36:48<15:53:30,  3.27it/s] 50%|████▉     | 184534/371472 [3:36:48<16:44:07,  3.10it/s] 50%|████▉     | 184535/371472 [3:36:48<15:50:34,  3.28it/s] 50%|████▉     | 184536/371472 [3:36:49<15:29:05,  3.35it/s] 50%|████▉     | 184537/371472 [3:36:49<16:15:51,  3.19it/s] 50%|████▉     | 184538/371472 [3:36:49<15:15:00,  3.40it/s] 50%|████▉     | 184539/371472 [3:36:50<15:43:59,  3.30it/s] 50%|████▉     | 184540/371472 [3:36:50<15:19:51,  3.39it/s]                                                            {'loss': 3.1924, 'learning_rate': 5.531416320110323e-07, 'epoch': 7.95}
 50%|████▉     | 184540/371472 [3:36:50<15:19:51,  3.39it/s] 50%|████▉     | 184541/371472 [3:36:50<15:18:28,  3.39it/s] 50%|████▉     | 184542/371472 [3:36:50<15:03:27,  3.45it/s] 50%|████▉     | 184543/371472 [3:36:51<14:55:32,  3.48it/s] 50%|████▉     | 184544/371472 [3:36:51<14:15:29,  3.64it/s] 50%|████▉     | 184545/371472 [3:36:51<14:10:54,  3.66it/s] 50%|████▉     | 184546/371472 [3:36:51<14:05:09,  3.69it/s] 50%|████▉     | 184547/371472 [3:36:52<14:09:05,  3.67it/s] 50%|████▉     | 184548/371472 [3:36:52<13:57:10,  3.72it/s] 50%|████▉     | 184549/371472 [3:36:52<14:04:40,  3.69it/s] 50%|████▉     | 184550/371472 [3:36:53<14:16:57,  3.64it/s] 50%|████▉     | 184551/371472 [3:36:53<15:43:44,  3.30it/s] 50%|████▉     | 184552/371472 [3:36:53<16:40:14,  3.11it/s] 50%|████▉     | 184553/371472 [3:36:54<16:07:45,  3.22it/s] 50%|████▉     | 184554/371472 [3:36:54<15:45:47,  3.29it/s] 50%|████▉     | 184555/371472 [3:36:54<15:18:11,  3.39it/s] 50%|████▉     | 184556/371472 [3:36:54<15:38:08,  3.32it/s] 50%|████▉     | 184557/371472 [3:36:55<15:14:25,  3.41it/s] 50%|████▉     | 184558/371472 [3:36:55<14:53:53,  3.49it/s] 50%|████▉     | 184559/371472 [3:36:55<14:48:48,  3.50it/s] 50%|████▉     | 184560/371472 [3:36:56<14:46:38,  3.51it/s]                                                            {'loss': 2.9238, 'learning_rate': 5.530931500355534e-07, 'epoch': 7.95}
 50%|████▉     | 184560/371472 [3:36:56<14:46:38,  3.51it/s] 50%|████▉     | 184561/371472 [3:36:56<14:37:29,  3.55it/s] 50%|████▉     | 184562/371472 [3:36:56<14:18:33,  3.63it/s] 50%|████▉     | 184563/371472 [3:36:56<14:12:56,  3.65it/s] 50%|████▉     | 184564/371472 [3:36:57<14:42:00,  3.53it/s] 50%|████▉     | 184565/371472 [3:36:57<15:54:41,  3.26it/s] 50%|████▉     | 184566/371472 [3:36:57<15:18:48,  3.39it/s] 50%|████▉     | 184567/371472 [3:36:58<15:04:04,  3.45it/s] 50%|████▉     | 184568/371472 [3:36:58<14:32:53,  3.57it/s] 50%|████▉     | 184569/371472 [3:36:58<14:17:35,  3.63it/s] 50%|████▉     | 184570/371472 [3:36:58<14:14:59,  3.64it/s] 50%|████▉     | 184571/371472 [3:36:59<14:08:00,  3.67it/s] 50%|████▉     | 184572/371472 [3:36:59<14:47:08,  3.51it/s] 50%|████▉     | 184573/371472 [3:36:59<14:17:09,  3.63it/s] 50%|████▉     | 184574/371472 [3:36:59<14:09:23,  3.67it/s] 50%|████▉     | 184575/371472 [3:37:00<14:00:46,  3.70it/s] 50%|████▉     | 184576/371472 [3:37:00<15:12:58,  3.41it/s] 50%|████▉     | 184577/371472 [3:37:00<14:42:33,  3.53it/s] 50%|████▉     | 184578/371472 [3:37:01<15:32:58,  3.34it/s] 50%|████▉     | 184579/371472 [3:37:01<14:50:17,  3.50it/s] 50%|████▉     | 184580/371472 [3:37:01<14:34:20,  3.56it/s]                                                            {'loss': 2.9428, 'learning_rate': 5.530446680600746e-07, 'epoch': 7.95}
 50%|████▉     | 184580/371472 [3:37:01<14:34:20,  3.56it/s] 50%|████▉     | 184581/371472 [3:37:01<14:04:14,  3.69it/s] 50%|████▉     | 184582/371472 [3:37:02<13:46:23,  3.77it/s] 50%|████▉     | 184583/371472 [3:37:02<14:06:31,  3.68it/s] 50%|████▉     | 184584/371472 [3:37:02<14:08:43,  3.67it/s] 50%|████▉     | 184585/371472 [3:37:03<14:36:44,  3.55it/s] 50%|████▉     | 184586/371472 [3:37:03<14:26:37,  3.59it/s] 50%|████▉     | 184587/371472 [3:37:03<14:12:39,  3.65it/s] 50%|████▉     | 184588/371472 [3:37:03<14:36:43,  3.55it/s] 50%|████▉     | 184589/371472 [3:37:04<14:21:53,  3.61it/s] 50%|████▉     | 184590/371472 [3:37:04<13:58:27,  3.71it/s] 50%|████▉     | 184591/371472 [3:37:04<14:17:42,  3.63it/s] 50%|████▉     | 184592/371472 [3:37:05<14:59:14,  3.46it/s] 50%|████▉     | 184593/371472 [3:37:05<14:23:54,  3.61it/s] 50%|████▉     | 184594/371472 [3:37:05<14:07:21,  3.68it/s] 50%|████▉     | 184595/371472 [3:37:05<13:52:19,  3.74it/s] 50%|████▉     | 184596/371472 [3:37:06<14:14:08,  3.65it/s] 50%|████▉     | 184597/371472 [3:37:06<14:12:21,  3.65it/s] 50%|████▉     | 184598/371472 [3:37:06<14:11:29,  3.66it/s] 50%|████▉     | 184599/371472 [3:37:06<14:28:49,  3.58it/s] 50%|████▉     | 184600/371472 [3:37:07<14:39:41,  3.54it/s]                                                            {'loss': 3.0346, 'learning_rate': 5.529961860845957e-07, 'epoch': 7.95}
 50%|████▉     | 184600/371472 [3:37:07<14:39:41,  3.54it/s] 50%|████▉     | 184601/371472 [3:37:07<14:40:11,  3.54it/s] 50%|████▉     | 184602/371472 [3:37:07<14:28:53,  3.58it/s] 50%|████▉     | 184603/371472 [3:37:08<14:03:14,  3.69it/s] 50%|████▉     | 184604/371472 [3:37:08<14:10:36,  3.66it/s] 50%|████▉     | 184605/371472 [3:37:08<14:04:32,  3.69it/s] 50%|████▉     | 184606/371472 [3:37:08<14:34:15,  3.56it/s] 50%|████▉     | 184607/371472 [3:37:09<15:37:41,  3.32it/s] 50%|████▉     | 184608/371472 [3:37:09<15:37:39,  3.32it/s] 50%|████▉     | 184609/371472 [3:37:09<15:20:52,  3.38it/s] 50%|████▉     | 184610/371472 [3:37:10<15:18:06,  3.39it/s] 50%|████▉     | 184611/371472 [3:37:10<14:26:25,  3.59it/s] 50%|████▉     | 184612/371472 [3:37:10<14:26:54,  3.59it/s] 50%|████▉     | 184613/371472 [3:37:10<14:33:59,  3.56it/s] 50%|████▉     | 184614/371472 [3:37:11<14:53:19,  3.49it/s] 50%|████▉     | 184615/371472 [3:37:11<14:39:06,  3.54it/s] 50%|████▉     | 184616/371472 [3:37:11<14:05:31,  3.68it/s] 50%|████▉     | 184617/371472 [3:37:11<13:47:08,  3.77it/s] 50%|████▉     | 184618/371472 [3:37:12<13:56:46,  3.72it/s] 50%|████▉     | 184619/371472 [3:37:12<14:19:58,  3.62it/s] 50%|████▉     | 184620/371472 [3:37:12<14:48:11,  3.51it/s]                                                            {'loss': 2.9482, 'learning_rate': 5.529477041091168e-07, 'epoch': 7.95}
 50%|████▉     | 184620/371472 [3:37:12<14:48:11,  3.51it/s] 50%|████▉     | 184621/371472 [3:37:13<14:53:53,  3.48it/s] 50%|████▉     | 184622/371472 [3:37:13<14:37:21,  3.55it/s] 50%|████▉     | 184623/371472 [3:37:13<14:37:46,  3.55it/s] 50%|████▉     | 184624/371472 [3:37:13<14:12:23,  3.65it/s] 50%|████▉     | 184625/371472 [3:37:14<13:53:07,  3.74it/s] 50%|████▉     | 184626/371472 [3:37:14<13:46:59,  3.77it/s] 50%|████▉     | 184627/371472 [3:37:14<14:42:38,  3.53it/s] 50%|████▉     | 184628/371472 [3:37:15<14:04:56,  3.69it/s] 50%|████▉     | 184629/371472 [3:37:15<14:03:47,  3.69it/s] 50%|████▉     | 184630/371472 [3:37:15<14:13:21,  3.65it/s] 50%|████▉     | 184631/371472 [3:37:15<14:39:10,  3.54it/s] 50%|████▉     | 184632/371472 [3:37:16<14:16:58,  3.63it/s] 50%|████▉     | 184633/371472 [3:37:16<15:14:13,  3.41it/s] 50%|████▉     | 184634/371472 [3:37:16<15:38:35,  3.32it/s] 50%|████▉     | 184635/371472 [3:37:17<15:04:04,  3.44it/s] 50%|████▉     | 184636/371472 [3:37:17<14:45:03,  3.52it/s] 50%|████▉     | 184637/371472 [3:37:17<14:20:57,  3.62it/s] 50%|████▉     | 184638/371472 [3:37:17<14:24:31,  3.60it/s] 50%|████▉     | 184639/371472 [3:37:18<14:56:29,  3.47it/s] 50%|████▉     | 184640/371472 [3:37:18<14:30:45,  3.58it/s]                                                            {'loss': 2.9996, 'learning_rate': 5.528992221336378e-07, 'epoch': 7.95}
 50%|████▉     | 184640/371472 [3:37:18<14:30:45,  3.58it/s] 50%|████▉     | 184641/371472 [3:37:18<14:22:19,  3.61it/s] 50%|████▉     | 184642/371472 [3:37:19<15:12:00,  3.41it/s] 50%|████▉     | 184643/371472 [3:37:19<14:51:54,  3.49it/s] 50%|████▉     | 184644/371472 [3:37:19<15:15:34,  3.40it/s] 50%|████▉     | 184645/371472 [3:37:19<15:06:42,  3.43it/s] 50%|████▉     | 184646/371472 [3:37:20<14:52:18,  3.49it/s] 50%|████▉     | 184647/371472 [3:37:20<14:34:11,  3.56it/s] 50%|████▉     | 184648/371472 [3:37:20<15:12:39,  3.41it/s] 50%|████▉     | 184649/371472 [3:37:21<14:56:25,  3.47it/s] 50%|████▉     | 184650/371472 [3:37:21<14:34:22,  3.56it/s] 50%|████▉     | 184651/371472 [3:37:21<16:07:49,  3.22it/s] 50%|████▉     | 184652/371472 [3:37:21<15:40:50,  3.31it/s] 50%|████▉     | 184653/371472 [3:37:22<15:18:28,  3.39it/s] 50%|████▉     | 184654/371472 [3:37:22<15:41:22,  3.31it/s] 50%|████▉     | 184655/371472 [3:37:22<15:23:39,  3.37it/s] 50%|████▉     | 184656/371472 [3:37:23<15:05:07,  3.44it/s] 50%|████▉     | 184657/371472 [3:37:23<14:38:23,  3.54it/s] 50%|████▉     | 184658/371472 [3:37:23<14:22:16,  3.61it/s] 50%|████▉     | 184659/371472 [3:37:23<14:18:51,  3.63it/s] 50%|████▉     | 184660/371472 [3:37:24<14:20:48,  3.62it/s]                                                            {'loss': 2.9538, 'learning_rate': 5.52850740158159e-07, 'epoch': 7.95}
 50%|████▉     | 184660/371472 [3:37:24<14:20:48,  3.62it/s] 50%|████▉     | 184661/371472 [3:37:24<15:18:18,  3.39it/s] 50%|████▉     | 184662/371472 [3:37:24<14:55:12,  3.48it/s] 50%|████▉     | 184663/371472 [3:37:25<14:32:48,  3.57it/s] 50%|████▉     | 184664/371472 [3:37:25<14:50:37,  3.50it/s] 50%|████▉     | 184665/371472 [3:37:25<15:34:49,  3.33it/s] 50%|████▉     | 184666/371472 [3:37:25<14:59:59,  3.46it/s] 50%|████▉     | 184667/371472 [3:37:26<15:09:27,  3.42it/s] 50%|████▉     | 184668/371472 [3:37:26<14:46:23,  3.51it/s] 50%|████▉     | 184669/371472 [3:37:26<14:52:22,  3.49it/s] 50%|████▉     | 184670/371472 [3:37:27<15:47:28,  3.29it/s] 50%|████▉     | 184671/371472 [3:37:27<15:00:26,  3.46it/s] 50%|████▉     | 184672/371472 [3:37:27<14:31:48,  3.57it/s] 50%|████▉     | 184673/371472 [3:37:27<14:13:33,  3.65it/s] 50%|████▉     | 184674/371472 [3:37:28<15:08:27,  3.43it/s] 50%|████▉     | 184675/371472 [3:37:28<14:52:41,  3.49it/s] 50%|████▉     | 184676/371472 [3:37:28<15:18:50,  3.39it/s] 50%|████▉     | 184677/371472 [3:37:29<14:58:58,  3.46it/s] 50%|████▉     | 184678/371472 [3:37:29<14:46:24,  3.51it/s] 50%|████▉     | 184679/371472 [3:37:29<14:39:38,  3.54it/s] 50%|████▉     | 184680/371472 [3:37:30<14:51:34,  3.49it/s]                                                            {'loss': 3.2985, 'learning_rate': 5.528022581826801e-07, 'epoch': 7.95}
 50%|████▉     | 184680/371472 [3:37:30<14:51:34,  3.49it/s] 50%|████▉     | 184681/371472 [3:37:30<14:55:06,  3.48it/s] 50%|████▉     | 184682/371472 [3:37:30<15:02:14,  3.45it/s] 50%|████▉     | 184683/371472 [3:37:30<14:44:34,  3.52it/s] 50%|████▉     | 184684/371472 [3:37:31<14:33:19,  3.56it/s] 50%|████▉     | 184685/371472 [3:37:31<14:44:34,  3.52it/s] 50%|████▉     | 184686/371472 [3:37:31<14:26:40,  3.59it/s] 50%|████▉     | 184687/371472 [3:37:31<13:56:16,  3.72it/s] 50%|████▉     | 184688/371472 [3:37:32<14:30:07,  3.58it/s] 50%|████▉     | 184689/371472 [3:37:32<14:04:37,  3.69it/s] 50%|████▉     | 184690/371472 [3:37:32<13:48:15,  3.76it/s] 50%|████▉     | 184691/371472 [3:37:33<13:56:24,  3.72it/s] 50%|████▉     | 184692/371472 [3:37:33<13:32:46,  3.83it/s] 50%|████▉     | 184693/371472 [3:37:33<13:20:03,  3.89it/s] 50%|████▉     | 184694/371472 [3:37:33<13:48:57,  3.76it/s] 50%|████▉     | 184695/371472 [3:37:34<14:40:25,  3.54it/s] 50%|████▉     | 184696/371472 [3:37:34<14:19:27,  3.62it/s] 50%|████▉     | 184697/371472 [3:37:34<14:02:52,  3.69it/s] 50%|████▉     | 184698/371472 [3:37:34<14:04:55,  3.68it/s] 50%|████▉     | 184699/371472 [3:37:35<13:54:26,  3.73it/s] 50%|████▉     | 184700/371472 [3:37:35<14:39:15,  3.54it/s]                                                            {'loss': 3.0879, 'learning_rate': 5.527537762072012e-07, 'epoch': 7.96}
 50%|████▉     | 184700/371472 [3:37:35<14:39:15,  3.54it/s] 50%|████▉     | 184701/371472 [3:37:35<14:31:23,  3.57it/s] 50%|████▉     | 184702/371472 [3:37:36<14:22:43,  3.61it/s] 50%|████▉     | 184703/371472 [3:37:36<14:37:07,  3.55it/s] 50%|████▉     | 184704/371472 [3:37:36<15:01:57,  3.45it/s] 50%|████▉     | 184705/371472 [3:37:36<14:48:45,  3.50it/s] 50%|████▉     | 184706/371472 [3:37:37<14:51:00,  3.49it/s] 50%|████▉     | 184707/371472 [3:37:37<14:23:08,  3.61it/s] 50%|████▉     | 184708/371472 [3:37:37<14:07:05,  3.67it/s] 50%|████▉     | 184709/371472 [3:37:38<14:25:50,  3.59it/s] 50%|████▉     | 184710/371472 [3:37:38<14:21:59,  3.61it/s] 50%|████▉     | 184711/371472 [3:37:38<14:17:29,  3.63it/s] 50%|████▉     | 184712/371472 [3:37:38<14:11:17,  3.66it/s] 50%|████▉     | 184713/371472 [3:37:39<13:59:19,  3.71it/s] 50%|████▉     | 184714/371472 [3:37:39<13:58:54,  3.71it/s] 50%|████▉     | 184715/371472 [3:37:39<14:05:55,  3.68it/s] 50%|████▉     | 184716/371472 [3:37:39<13:58:51,  3.71it/s] 50%|████▉     | 184717/371472 [3:37:40<13:41:36,  3.79it/s] 50%|████▉     | 184718/371472 [3:37:40<13:54:51,  3.73it/s] 50%|████▉     | 184719/371472 [3:37:40<14:04:59,  3.68it/s] 50%|████▉     | 184720/371472 [3:37:40<14:19:04,  3.62it/s]                                                            {'loss': 2.9238, 'learning_rate': 5.527052942317223e-07, 'epoch': 7.96}
 50%|████▉     | 184720/371472 [3:37:40<14:19:04,  3.62it/s] 50%|████▉     | 184721/371472 [3:37:41<14:19:15,  3.62it/s] 50%|████▉     | 184722/371472 [3:37:41<14:30:33,  3.58it/s] 50%|████▉     | 184723/371472 [3:37:41<14:11:52,  3.65it/s] 50%|████▉     | 184724/371472 [3:37:42<15:04:33,  3.44it/s] 50%|████▉     | 184725/371472 [3:37:42<14:48:53,  3.50it/s] 50%|████▉     | 184726/371472 [3:37:42<14:26:41,  3.59it/s] 50%|████▉     | 184727/371472 [3:37:42<14:49:52,  3.50it/s] 50%|████▉     | 184728/371472 [3:37:43<14:38:00,  3.54it/s] 50%|████▉     | 184729/371472 [3:37:43<14:21:40,  3.61it/s] 50%|████▉     | 184730/371472 [3:37:43<14:18:07,  3.63it/s] 50%|████▉     | 184731/371472 [3:37:44<14:12:58,  3.65it/s] 50%|████▉     | 184732/371472 [3:37:44<14:32:29,  3.57it/s] 50%|████▉     | 184733/371472 [3:37:44<14:02:31,  3.69it/s] 50%|████▉     | 184734/371472 [3:37:44<13:55:07,  3.73it/s] 50%|████▉     | 184735/371472 [3:37:45<14:24:21,  3.60it/s] 50%|████▉     | 184736/371472 [3:37:45<14:17:02,  3.63it/s] 50%|████▉     | 184737/371472 [3:37:45<13:57:18,  3.72it/s] 50%|████▉     | 184738/371472 [3:37:45<14:23:55,  3.60it/s] 50%|████▉     | 184739/371472 [3:37:46<15:03:59,  3.44it/s] 50%|████▉     | 184740/371472 [3:37:46<14:24:18,  3.60it/s]                                                            {'loss': 3.1176, 'learning_rate': 5.526568122562434e-07, 'epoch': 7.96}
 50%|████▉     | 184740/371472 [3:37:46<14:24:18,  3.60it/s] 50%|████▉     | 184741/371472 [3:37:46<14:35:45,  3.55it/s] 50%|████▉     | 184742/371472 [3:37:47<14:54:51,  3.48it/s] 50%|████▉     | 184743/371472 [3:37:47<15:11:27,  3.41it/s] 50%|████▉     | 184744/371472 [3:37:47<14:43:21,  3.52it/s] 50%|████▉     | 184745/371472 [3:37:48<15:30:01,  3.35it/s] 50%|████▉     | 184746/371472 [3:37:48<15:41:27,  3.31it/s] 50%|████▉     | 184747/371472 [3:37:48<15:07:45,  3.43it/s] 50%|████▉     | 184748/371472 [3:37:48<14:40:55,  3.53it/s] 50%|████▉     | 184749/371472 [3:37:49<14:31:59,  3.57it/s] 50%|████▉     | 184750/371472 [3:37:49<14:51:18,  3.49it/s] 50%|████▉     | 184751/371472 [3:37:49<14:51:23,  3.49it/s] 50%|████▉     | 184752/371472 [3:37:50<14:19:42,  3.62it/s] 50%|████▉     | 184753/371472 [3:37:50<16:31:31,  3.14it/s] 50%|████▉     | 184754/371472 [3:37:50<15:27:53,  3.35it/s] 50%|████▉     | 184755/371472 [3:37:50<15:06:49,  3.43it/s] 50%|████▉     | 184756/371472 [3:37:51<14:34:08,  3.56it/s] 50%|████▉     | 184757/371472 [3:37:51<14:20:05,  3.62it/s] 50%|████▉     | 184758/371472 [3:37:51<14:53:14,  3.48it/s] 50%|████▉     | 184759/371472 [3:37:52<14:28:21,  3.58it/s] 50%|████▉     | 184760/371472 [3:37:52<14:47:44,  3.51it/s]                                                            {'loss': 2.9949, 'learning_rate': 5.526083302807645e-07, 'epoch': 7.96}
 50%|████▉     | 184760/371472 [3:37:52<14:47:44,  3.51it/s] 50%|████▉     | 184761/371472 [3:37:52<14:34:54,  3.56it/s] 50%|████▉     | 184762/371472 [3:37:52<15:06:54,  3.43it/s] 50%|████▉     | 184763/371472 [3:37:53<15:35:21,  3.33it/s] 50%|████▉     | 184764/371472 [3:37:53<15:22:59,  3.37it/s] 50%|████▉     | 184765/371472 [3:37:53<15:20:27,  3.38it/s] 50%|████▉     | 184766/371472 [3:37:54<14:51:13,  3.49it/s] 50%|████▉     | 184767/371472 [3:37:54<14:35:24,  3.55it/s] 50%|████▉     | 184768/371472 [3:37:54<13:55:18,  3.73it/s] 50%|████▉     | 184769/371472 [3:37:54<14:02:02,  3.70it/s] 50%|████▉     | 184770/371472 [3:37:55<14:04:01,  3.69it/s] 50%|████▉     | 184771/371472 [3:37:55<13:41:01,  3.79it/s] 50%|████▉     | 184772/371472 [3:37:55<14:07:42,  3.67it/s] 50%|████▉     | 184773/371472 [3:37:56<16:16:16,  3.19it/s] 50%|████▉     | 184774/371472 [3:37:56<15:50:31,  3.27it/s] 50%|████▉     | 184775/371472 [3:37:56<15:15:18,  3.40it/s] 50%|████▉     | 184776/371472 [3:37:56<14:54:11,  3.48it/s] 50%|████▉     | 184777/371472 [3:37:57<14:23:41,  3.60it/s] 50%|████▉     | 184778/371472 [3:37:57<15:49:28,  3.28it/s] 50%|████▉     | 184779/371472 [3:37:57<14:51:09,  3.49it/s] 50%|████▉     | 184780/371472 [3:37:58<15:33:47,  3.33it/s]                                                            {'loss': 2.8996, 'learning_rate': 5.525598483052855e-07, 'epoch': 7.96}
 50%|████▉     | 184780/371472 [3:37:58<15:33:47,  3.33it/s] 50%|████▉     | 184781/371472 [3:37:58<15:22:07,  3.37it/s] 50%|████▉     | 184782/371472 [3:37:58<14:47:59,  3.50it/s] 50%|████▉     | 184783/371472 [3:37:58<14:32:48,  3.56it/s] 50%|████▉     | 184784/371472 [3:37:59<14:31:28,  3.57it/s] 50%|████▉     | 184785/371472 [3:37:59<14:40:17,  3.53it/s] 50%|████▉     | 184786/371472 [3:37:59<14:23:45,  3.60it/s] 50%|████▉     | 184787/371472 [3:38:00<14:51:13,  3.49it/s] 50%|████▉     | 184788/371472 [3:38:00<14:01:37,  3.70it/s] 50%|████▉     | 184789/371472 [3:38:00<13:49:52,  3.75it/s] 50%|████▉     | 184790/371472 [3:38:00<14:21:07,  3.61it/s] 50%|████▉     | 184791/371472 [3:38:01<14:41:06,  3.53it/s] 50%|████▉     | 184792/371472 [3:38:01<15:58:17,  3.25it/s] 50%|████▉     | 184793/371472 [3:38:01<15:00:36,  3.45it/s] 50%|████▉     | 184794/371472 [3:38:02<14:48:21,  3.50it/s] 50%|████▉     | 184795/371472 [3:38:02<16:24:31,  3.16it/s] 50%|████▉     | 184796/371472 [3:38:02<15:55:49,  3.26it/s] 50%|████▉     | 184797/371472 [3:38:03<15:41:08,  3.31it/s] 50%|████▉     | 184798/371472 [3:38:03<15:28:43,  3.35it/s] 50%|████▉     | 184799/371472 [3:38:03<15:36:46,  3.32it/s] 50%|████▉     | 184800/371472 [3:38:03<15:21:54,  3.37it/s]                                                            {'loss': 2.9342, 'learning_rate': 5.525113663298067e-07, 'epoch': 7.96}
 50%|████▉     | 184800/371472 [3:38:03<15:21:54,  3.37it/s] 50%|████▉     | 184801/371472 [3:38:04<15:43:15,  3.30it/s] 50%|████▉     | 184802/371472 [3:38:04<15:08:55,  3.42it/s] 50%|████▉     | 184803/371472 [3:38:04<14:47:57,  3.50it/s] 50%|████▉     | 184804/371472 [3:38:05<14:09:04,  3.66it/s] 50%|████▉     | 184805/371472 [3:38:05<14:37:51,  3.54it/s] 50%|████▉     | 184806/371472 [3:38:05<14:52:50,  3.48it/s] 50%|████▉     | 184807/371472 [3:38:05<14:23:37,  3.60it/s] 50%|████▉     | 184808/371472 [3:38:06<14:17:30,  3.63it/s] 50%|████▉     | 184809/371472 [3:38:06<16:23:58,  3.16it/s] 50%|████▉     | 184810/371472 [3:38:06<15:35:23,  3.33it/s] 50%|████▉     | 184811/371472 [3:38:07<15:04:11,  3.44it/s] 50%|████▉     | 184812/371472 [3:38:07<15:03:12,  3.44it/s] 50%|████▉     | 184813/371472 [3:38:07<14:30:24,  3.57it/s] 50%|████▉     | 184814/371472 [3:38:07<14:02:35,  3.69it/s] 50%|████▉     | 184815/371472 [3:38:08<13:55:22,  3.72it/s] 50%|████▉     | 184816/371472 [3:38:08<13:49:48,  3.75it/s] 50%|████▉     | 184817/371472 [3:38:08<14:21:07,  3.61it/s] 50%|████▉     | 184818/371472 [3:38:08<14:05:10,  3.68it/s] 50%|████▉     | 184819/371472 [3:38:09<14:01:34,  3.70it/s] 50%|████▉     | 184820/371472 [3:38:09<13:47:52,  3.76it/s]                                                            {'loss': 3.028, 'learning_rate': 5.524628843543278e-07, 'epoch': 7.96}
 50%|████▉     | 184820/371472 [3:38:09<13:47:52,  3.76it/s] 50%|████▉     | 184821/371472 [3:38:09<13:52:32,  3.74it/s] 50%|████▉     | 184822/371472 [3:38:10<13:46:45,  3.76it/s] 50%|████▉     | 184823/371472 [3:38:10<14:07:44,  3.67it/s] 50%|████▉     | 184824/371472 [3:38:10<13:58:08,  3.71it/s] 50%|████▉     | 184825/371472 [3:38:10<14:01:39,  3.70it/s] 50%|████▉     | 184826/371472 [3:38:11<13:56:47,  3.72it/s] 50%|████▉     | 184827/371472 [3:38:11<14:09:46,  3.66it/s] 50%|████▉     | 184828/371472 [3:38:11<14:41:54,  3.53it/s] 50%|████▉     | 184829/371472 [3:38:12<15:34:32,  3.33it/s] 50%|████▉     | 184830/371472 [3:38:12<15:10:30,  3.42it/s] 50%|████▉     | 184831/371472 [3:38:12<15:38:29,  3.31it/s] 50%|████▉     | 184832/371472 [3:38:12<16:22:39,  3.17it/s] 50%|████▉     | 184833/371472 [3:38:13<15:28:08,  3.35it/s] 50%|████▉     | 184834/371472 [3:38:13<15:04:00,  3.44it/s] 50%|████▉     | 184835/371472 [3:38:13<14:38:31,  3.54it/s] 50%|████▉     | 184836/371472 [3:38:14<14:34:51,  3.56it/s] 50%|████▉     | 184837/371472 [3:38:14<14:42:35,  3.52it/s] 50%|████▉     | 184838/371472 [3:38:14<15:05:03,  3.44it/s] 50%|████▉     | 184839/371472 [3:38:14<14:37:41,  3.54it/s] 50%|████▉     | 184840/371472 [3:38:15<14:26:26,  3.59it/s]                                                            {'loss': 3.0539, 'learning_rate': 5.524144023788489e-07, 'epoch': 7.96}
 50%|████▉     | 184840/371472 [3:38:15<14:26:26,  3.59it/s] 50%|████▉     | 184841/371472 [3:38:15<14:44:32,  3.52it/s] 50%|████▉     | 184842/371472 [3:38:15<14:28:34,  3.58it/s] 50%|████▉     | 184843/371472 [3:38:16<14:21:34,  3.61it/s] 50%|████▉     | 184844/371472 [3:38:16<14:38:01,  3.54it/s] 50%|████▉     | 184845/371472 [3:38:16<15:35:58,  3.32it/s] 50%|████▉     | 184846/371472 [3:38:16<15:00:30,  3.45it/s] 50%|████▉     | 184847/371472 [3:38:17<15:52:52,  3.26it/s] 50%|████▉     | 184848/371472 [3:38:17<15:26:15,  3.36it/s] 50%|████▉     | 184849/371472 [3:38:17<15:12:02,  3.41it/s] 50%|████▉     | 184850/371472 [3:38:18<15:12:12,  3.41it/s] 50%|████▉     | 184851/371472 [3:38:18<15:16:44,  3.39it/s] 50%|████▉     | 184852/371472 [3:38:18<14:58:04,  3.46it/s] 50%|████▉     | 184853/371472 [3:38:18<14:33:46,  3.56it/s] 50%|████▉     | 184854/371472 [3:38:19<14:01:48,  3.69it/s] 50%|████▉     | 184855/371472 [3:38:19<14:46:45,  3.51it/s] 50%|████▉     | 184856/371472 [3:38:19<14:50:59,  3.49it/s] 50%|████▉     | 184857/371472 [3:38:20<15:11:55,  3.41it/s] 50%|████▉     | 184858/371472 [3:38:20<14:51:51,  3.49it/s] 50%|████▉     | 184859/371472 [3:38:20<15:25:36,  3.36it/s] 50%|████▉     | 184860/371472 [3:38:20<14:53:26,  3.48it/s]                                                            {'loss': 3.0811, 'learning_rate': 5.5236592040337e-07, 'epoch': 7.96}
 50%|████▉     | 184860/371472 [3:38:20<14:53:26,  3.48it/s] 50%|████▉     | 184861/371472 [3:38:21<15:34:27,  3.33it/s] 50%|████▉     | 184862/371472 [3:38:21<15:27:52,  3.35it/s] 50%|████▉     | 184863/371472 [3:38:21<15:04:24,  3.44it/s] 50%|████▉     | 184864/371472 [3:38:22<16:01:30,  3.23it/s] 50%|████▉     | 184865/371472 [3:38:22<15:49:17,  3.28it/s] 50%|████▉     | 184866/371472 [3:38:22<16:07:06,  3.22it/s] 50%|████▉     | 184867/371472 [3:38:23<15:23:44,  3.37it/s] 50%|████▉     | 184868/371472 [3:38:23<14:50:29,  3.49it/s] 50%|████▉     | 184869/371472 [3:38:23<14:43:44,  3.52it/s] 50%|████▉     | 184870/371472 [3:38:23<14:52:05,  3.49it/s] 50%|████▉     | 184871/371472 [3:38:24<14:29:38,  3.58it/s] 50%|████▉     | 184872/371472 [3:38:24<14:50:19,  3.49it/s] 50%|████▉     | 184873/371472 [3:38:24<14:48:56,  3.50it/s] 50%|████▉     | 184874/371472 [3:38:25<14:27:03,  3.59it/s] 50%|████▉     | 184875/371472 [3:38:25<14:14:08,  3.64it/s] 50%|████▉     | 184876/371472 [3:38:25<14:10:39,  3.66it/s] 50%|████▉     | 184877/371472 [3:38:25<14:09:35,  3.66it/s] 50%|████▉     | 184878/371472 [3:38:26<14:59:01,  3.46it/s] 50%|████▉     | 184879/371472 [3:38:26<14:28:59,  3.58it/s] 50%|████▉     | 184880/371472 [3:38:26<14:29:31,  3.58it/s]                                                            {'loss': 3.0848, 'learning_rate': 5.523174384278911e-07, 'epoch': 7.96}
 50%|████▉     | 184880/371472 [3:38:26<14:29:31,  3.58it/s] 50%|████▉     | 184881/371472 [3:38:27<14:19:53,  3.62it/s] 50%|████▉     | 184882/371472 [3:38:27<14:52:22,  3.48it/s] 50%|████▉     | 184883/371472 [3:38:27<14:21:38,  3.61it/s] 50%|████▉     | 184884/371472 [3:38:27<14:17:04,  3.63it/s] 50%|████▉     | 184885/371472 [3:38:28<14:24:49,  3.60it/s] 50%|████▉     | 184886/371472 [3:38:28<14:08:10,  3.67it/s] 50%|████▉     | 184887/371472 [3:38:28<14:45:24,  3.51it/s] 50%|████▉     | 184888/371472 [3:38:28<14:20:12,  3.62it/s] 50%|████▉     | 184889/371472 [3:38:29<14:13:48,  3.64it/s] 50%|████▉     | 184890/371472 [3:38:29<14:10:03,  3.66it/s] 50%|████▉     | 184891/371472 [3:38:29<14:17:37,  3.63it/s] 50%|████▉     | 184892/371472 [3:38:30<14:09:45,  3.66it/s] 50%|████▉     | 184893/371472 [3:38:30<13:58:48,  3.71it/s] 50%|████▉     | 184894/371472 [3:38:30<14:14:17,  3.64it/s] 50%|████▉     | 184895/371472 [3:38:30<14:13:35,  3.64it/s] 50%|████▉     | 184896/371472 [3:38:31<14:05:41,  3.68it/s] 50%|████▉     | 184897/371472 [3:38:31<14:05:46,  3.68it/s] 50%|████▉     | 184898/371472 [3:38:31<14:24:06,  3.60it/s] 50%|████▉     | 184899/371472 [3:38:31<14:24:40,  3.60it/s] 50%|████▉     | 184900/371472 [3:38:32<14:10:52,  3.65it/s]                                                            {'loss': 3.0047, 'learning_rate': 5.522689564524122e-07, 'epoch': 7.96}
 50%|████▉     | 184900/371472 [3:38:32<14:10:52,  3.65it/s] 50%|████▉     | 184901/371472 [3:38:32<14:05:47,  3.68it/s] 50%|████▉     | 184902/371472 [3:38:32<13:49:50,  3.75it/s] 50%|████▉     | 184903/371472 [3:38:33<14:02:52,  3.69it/s] 50%|████▉     | 184904/371472 [3:38:33<13:46:40,  3.76it/s] 50%|████▉     | 184905/371472 [3:38:33<14:00:41,  3.70it/s] 50%|████▉     | 184906/371472 [3:38:33<13:51:48,  3.74it/s] 50%|████▉     | 184907/371472 [3:38:34<14:21:40,  3.61it/s] 50%|████▉     | 184908/371472 [3:38:34<14:10:39,  3.66it/s] 50%|████▉     | 184909/371472 [3:38:34<13:39:49,  3.79it/s] 50%|████▉     | 184910/371472 [3:38:34<13:25:55,  3.86it/s] 50%|████▉     | 184911/371472 [3:38:35<13:17:47,  3.90it/s] 50%|████▉     | 184912/371472 [3:38:35<13:11:21,  3.93it/s] 50%|████▉     | 184913/371472 [3:38:35<13:24:28,  3.87it/s] 50%|████▉     | 184914/371472 [3:38:35<14:01:25,  3.70it/s] 50%|████▉     | 184915/371472 [3:38:36<15:15:34,  3.40it/s] 50%|████▉     | 184916/371472 [3:38:36<14:34:42,  3.55it/s] 50%|████▉     | 184917/371472 [3:38:36<15:01:16,  3.45it/s] 50%|████▉     | 184918/371472 [3:38:37<15:17:57,  3.39it/s] 50%|████▉     | 184919/371472 [3:38:37<15:21:35,  3.37it/s] 50%|████▉     | 184920/371472 [3:38:37<15:50:15,  3.27it/s]                                                            {'loss': 3.2033, 'learning_rate': 5.522204744769333e-07, 'epoch': 7.96}
 50%|████▉     | 184920/371472 [3:38:37<15:50:15,  3.27it/s] 50%|████▉     | 184921/371472 [3:38:38<15:40:14,  3.31it/s] 50%|████▉     | 184922/371472 [3:38:38<15:10:04,  3.42it/s] 50%|████▉     | 184923/371472 [3:38:38<14:58:33,  3.46it/s] 50%|████▉     | 184924/371472 [3:38:38<14:29:06,  3.58it/s] 50%|████▉     | 184925/371472 [3:38:39<14:09:58,  3.66it/s] 50%|████▉     | 184926/371472 [3:38:39<14:02:43,  3.69it/s] 50%|████▉     | 184927/371472 [3:38:39<13:56:09,  3.72it/s] 50%|████▉     | 184928/371472 [3:38:39<13:51:35,  3.74it/s] 50%|████▉     | 184929/371472 [3:38:40<14:35:55,  3.55it/s] 50%|████▉     | 184930/371472 [3:38:40<14:46:32,  3.51it/s] 50%|████▉     | 184931/371472 [3:38:40<14:18:30,  3.62it/s] 50%|████▉     | 184932/371472 [3:38:41<14:16:28,  3.63it/s] 50%|████▉     | 184933/371472 [3:38:41<15:54:34,  3.26it/s] 50%|████▉     | 184934/371472 [3:38:41<16:11:37,  3.20it/s] 50%|████▉     | 184935/371472 [3:38:42<16:29:24,  3.14it/s] 50%|████▉     | 184936/371472 [3:38:42<15:55:40,  3.25it/s] 50%|████▉     | 184937/371472 [3:38:42<15:12:12,  3.41it/s] 50%|████▉     | 184938/371472 [3:38:42<14:48:54,  3.50it/s] 50%|████▉     | 184939/371472 [3:38:43<15:09:13,  3.42it/s] 50%|████▉     | 184940/371472 [3:38:43<16:21:35,  3.17it/s]                                                            {'loss': 3.0241, 'learning_rate': 5.521719925014544e-07, 'epoch': 7.97}
 50%|████▉     | 184940/371472 [3:38:43<16:21:35,  3.17it/s] 50%|████▉     | 184941/371472 [3:38:43<15:15:50,  3.39it/s] 50%|████▉     | 184942/371472 [3:38:44<14:59:26,  3.46it/s] 50%|████▉     | 184943/371472 [3:38:44<14:20:56,  3.61it/s] 50%|████▉     | 184944/371472 [3:38:44<14:11:34,  3.65it/s] 50%|████▉     | 184945/371472 [3:38:44<14:45:22,  3.51it/s] 50%|████▉     | 184946/371472 [3:38:45<15:06:34,  3.43it/s] 50%|████▉     | 184947/371472 [3:38:45<16:34:32,  3.13it/s] 50%|████▉     | 184948/371472 [3:38:45<15:52:44,  3.26it/s] 50%|████▉     | 184949/371472 [3:38:46<16:20:09,  3.17it/s] 50%|████▉     | 184950/371472 [3:38:46<15:48:48,  3.28it/s] 50%|████▉     | 184951/371472 [3:38:46<15:09:01,  3.42it/s] 50%|████▉     | 184952/371472 [3:38:47<15:17:37,  3.39it/s] 50%|████▉     | 184953/371472 [3:38:47<14:49:11,  3.50it/s] 50%|████▉     | 184954/371472 [3:38:47<15:28:31,  3.35it/s] 50%|████▉     | 184955/371472 [3:38:48<15:51:06,  3.27it/s] 50%|████▉     | 184956/371472 [3:38:48<15:29:30,  3.34it/s] 50%|████▉     | 184957/371472 [3:38:48<15:23:11,  3.37it/s] 50%|████▉     | 184958/371472 [3:38:48<14:36:16,  3.55it/s] 50%|████▉     | 184959/371472 [3:38:49<14:53:33,  3.48it/s] 50%|████▉     | 184960/371472 [3:38:49<14:33:31,  3.56it/s]                                                            {'loss': 2.9771, 'learning_rate': 5.521235105259756e-07, 'epoch': 7.97}
 50%|████▉     | 184960/371472 [3:38:49<14:33:31,  3.56it/s] 50%|████▉     | 184961/371472 [3:38:49<14:42:15,  3.52it/s] 50%|████▉     | 184962/371472 [3:38:49<14:18:28,  3.62it/s] 50%|████▉     | 184963/371472 [3:38:50<13:57:28,  3.71it/s] 50%|████▉     | 184964/371472 [3:38:50<14:17:11,  3.63it/s] 50%|████▉     | 184965/371472 [3:38:50<14:07:25,  3.67it/s] 50%|████▉     | 184966/371472 [3:38:51<14:44:18,  3.52it/s] 50%|████▉     | 184967/371472 [3:38:51<14:42:23,  3.52it/s] 50%|████▉     | 184968/371472 [3:38:51<14:19:06,  3.62it/s] 50%|████▉     | 184969/371472 [3:38:51<14:18:17,  3.62it/s] 50%|████▉     | 184970/371472 [3:38:52<14:22:43,  3.60it/s] 50%|████▉     | 184971/371472 [3:38:52<14:45:30,  3.51it/s] 50%|████▉     | 184972/371472 [3:38:52<14:15:08,  3.63it/s] 50%|████▉     | 184973/371472 [3:38:53<14:01:33,  3.69it/s] 50%|████▉     | 184974/371472 [3:38:53<14:34:56,  3.55it/s] 50%|████▉     | 184975/371472 [3:38:53<14:57:53,  3.46it/s] 50%|████▉     | 184976/371472 [3:38:53<14:36:33,  3.55it/s] 50%|████▉     | 184977/371472 [3:38:54<15:04:16,  3.44it/s] 50%|████▉     | 184978/371472 [3:38:54<16:16:43,  3.18it/s] 50%|████▉     | 184979/371472 [3:38:54<15:18:27,  3.38it/s] 50%|████▉     | 184980/371472 [3:38:55<14:47:37,  3.50it/s]                                                            {'loss': 3.0637, 'learning_rate': 5.520750285504967e-07, 'epoch': 7.97}
 50%|████▉     | 184980/371472 [3:38:55<14:47:37,  3.50it/s] 50%|████▉     | 184981/371472 [3:38:55<14:33:10,  3.56it/s] 50%|████▉     | 184982/371472 [3:38:55<14:21:52,  3.61it/s] 50%|████▉     | 184983/371472 [3:38:55<13:50:31,  3.74it/s] 50%|████▉     | 184984/371472 [3:38:56<13:39:57,  3.79it/s] 50%|████▉     | 184985/371472 [3:38:56<13:40:35,  3.79it/s] 50%|████▉     | 184986/371472 [3:38:56<13:56:43,  3.71it/s] 50%|████▉     | 184987/371472 [3:38:57<15:20:12,  3.38it/s] 50%|████▉     | 184988/371472 [3:38:57<15:56:57,  3.25it/s] 50%|████▉     | 184989/371472 [3:38:57<15:25:29,  3.36it/s] 50%|████▉     | 184990/371472 [3:38:57<15:12:11,  3.41it/s] 50%|████▉     | 184991/371472 [3:38:58<14:45:21,  3.51it/s] 50%|████▉     | 184992/371472 [3:38:58<14:23:14,  3.60it/s] 50%|████▉     | 184993/371472 [3:38:58<14:24:07,  3.60it/s] 50%|████▉     | 184994/371472 [3:38:58<14:19:31,  3.62it/s] 50%|████▉     | 184995/371472 [3:38:59<14:14:59,  3.64it/s] 50%|████▉     | 184996/371472 [3:38:59<13:41:03,  3.79it/s] 50%|████▉     | 184997/371472 [3:38:59<13:39:54,  3.79it/s] 50%|████▉     | 184998/371472 [3:39:00<14:22:07,  3.60it/s] 50%|████▉     | 184999/371472 [3:39:00<13:47:29,  3.76it/s] 50%|████▉     | 185000/371472 [3:39:00<14:41:20,  3.53it/s]                                                            {'loss': 3.0439, 'learning_rate': 5.520265465750178e-07, 'epoch': 7.97}
 50%|████▉     | 185000/371472 [3:39:00<14:41:20,  3.53it/s] 50%|████▉     | 185001/371472 [3:39:00<14:08:44,  3.66it/s] 50%|████▉     | 185002/371472 [3:39:01<13:43:16,  3.77it/s] 50%|████▉     | 185003/371472 [3:39:01<14:00:26,  3.70it/s] 50%|████▉     | 185004/371472 [3:39:01<13:56:43,  3.71it/s] 50%|████▉     | 185005/371472 [3:39:01<13:55:51,  3.72it/s] 50%|████▉     | 185006/371472 [3:39:02<13:39:27,  3.79it/s] 50%|████▉     | 185007/371472 [3:39:02<14:06:48,  3.67it/s] 50%|████▉     | 185008/371472 [3:39:02<13:47:43,  3.75it/s] 50%|████▉     | 185009/371472 [3:39:03<14:41:36,  3.53it/s] 50%|████▉     | 185010/371472 [3:39:03<14:57:12,  3.46it/s] 50%|████▉     | 185011/371472 [3:39:03<15:22:53,  3.37it/s] 50%|████▉     | 185012/371472 [3:39:04<15:45:34,  3.29it/s] 50%|████▉     | 185013/371472 [3:39:04<15:17:08,  3.39it/s] 50%|████▉     | 185014/371472 [3:39:04<14:34:43,  3.55it/s] 50%|████▉     | 185015/371472 [3:39:04<15:17:15,  3.39it/s] 50%|████▉     | 185016/371472 [3:39:05<14:57:20,  3.46it/s] 50%|████▉     | 185017/371472 [3:39:05<14:25:36,  3.59it/s] 50%|████▉     | 185018/371472 [3:39:05<14:28:16,  3.58it/s] 50%|████▉     | 185019/371472 [3:39:05<14:54:21,  3.47it/s] 50%|████▉     | 185020/371472 [3:39:06<14:32:53,  3.56it/s]                                                            {'loss': 2.7719, 'learning_rate': 5.519780645995389e-07, 'epoch': 7.97}
 50%|████▉     | 185020/371472 [3:39:06<14:32:53,  3.56it/s] 50%|████▉     | 185021/371472 [3:39:06<14:24:20,  3.60it/s] 50%|████▉     | 185022/371472 [3:39:06<13:53:37,  3.73it/s] 50%|████▉     | 185023/371472 [3:39:07<14:26:10,  3.59it/s] 50%|████▉     | 185024/371472 [3:39:07<14:40:49,  3.53it/s] 50%|████▉     | 185025/371472 [3:39:07<14:43:42,  3.52it/s] 50%|████▉     | 185026/371472 [3:39:07<14:43:41,  3.52it/s] 50%|████▉     | 185027/371472 [3:39:08<14:46:55,  3.50it/s] 50%|████▉     | 185028/371472 [3:39:08<14:31:51,  3.56it/s] 50%|████▉     | 185029/371472 [3:39:08<14:36:31,  3.55it/s] 50%|████▉     | 185030/371472 [3:39:09<14:34:51,  3.55it/s] 50%|████▉     | 185031/371472 [3:39:09<14:00:28,  3.70it/s] 50%|████▉     | 185032/371472 [3:39:09<13:55:43,  3.72it/s] 50%|████▉     | 185033/371472 [3:39:09<14:13:28,  3.64it/s] 50%|████▉     | 185034/371472 [3:39:10<13:45:11,  3.77it/s] 50%|████▉     | 185035/371472 [3:39:10<13:38:50,  3.79it/s] 50%|████▉     | 185036/371472 [3:39:10<14:38:25,  3.54it/s] 50%|████▉     | 185037/371472 [3:39:10<14:42:25,  3.52it/s] 50%|████▉     | 185038/371472 [3:39:11<14:19:18,  3.62it/s] 50%|████▉     | 185039/371472 [3:39:11<14:40:33,  3.53it/s] 50%|████▉     | 185040/371472 [3:39:11<14:53:54,  3.48it/s]                                                            {'loss': 3.0392, 'learning_rate': 5.5192958262406e-07, 'epoch': 7.97}
 50%|████▉     | 185040/371472 [3:39:11<14:53:54,  3.48it/s] 50%|████▉     | 185041/371472 [3:39:12<14:37:47,  3.54it/s] 50%|████▉     | 185042/371472 [3:39:12<14:08:21,  3.66it/s] 50%|████▉     | 185043/371472 [3:39:12<13:57:55,  3.71it/s] 50%|████▉     | 185044/371472 [3:39:12<13:33:36,  3.82it/s] 50%|████▉     | 185045/371472 [3:39:13<14:33:33,  3.56it/s] 50%|████▉     | 185046/371472 [3:39:13<14:37:40,  3.54it/s] 50%|████▉     | 185047/371472 [3:39:13<14:31:38,  3.56it/s] 50%|████▉     | 185048/371472 [3:39:14<14:22:53,  3.60it/s] 50%|████▉     | 185049/371472 [3:39:14<14:57:48,  3.46it/s] 50%|████▉     | 185050/371472 [3:39:14<14:53:35,  3.48it/s] 50%|████▉     | 185051/371472 [3:39:14<15:02:36,  3.44it/s] 50%|████▉     | 185052/371472 [3:39:15<14:35:08,  3.55it/s] 50%|████▉     | 185053/371472 [3:39:15<14:47:21,  3.50it/s] 50%|████▉     | 185054/371472 [3:39:15<15:00:08,  3.45it/s] 50%|████▉     | 185055/371472 [3:39:16<16:10:41,  3.20it/s] 50%|████▉     | 185056/371472 [3:39:16<15:46:09,  3.28it/s] 50%|████▉     | 185057/371472 [3:39:16<16:24:35,  3.16it/s] 50%|████▉     | 185058/371472 [3:39:17<16:22:43,  3.16it/s] 50%|████▉     | 185059/371472 [3:39:17<16:43:25,  3.10it/s] 50%|████▉     | 185060/371472 [3:39:17<15:57:24,  3.25it/s]                                                            {'loss': 3.0552, 'learning_rate': 5.518811006485811e-07, 'epoch': 7.97}
 50%|████▉     | 185060/371472 [3:39:17<15:57:24,  3.25it/s] 50%|████▉     | 185061/371472 [3:39:17<15:23:07,  3.37it/s] 50%|████▉     | 185062/371472 [3:39:18<16:00:26,  3.23it/s] 50%|████▉     | 185063/371472 [3:39:18<15:20:48,  3.37it/s] 50%|████▉     | 185064/371472 [3:39:18<14:52:01,  3.48it/s] 50%|████▉     | 185065/371472 [3:39:19<15:54:14,  3.26it/s] 50%|████▉     | 185066/371472 [3:39:19<15:56:51,  3.25it/s] 50%|████▉     | 185067/371472 [3:39:19<16:19:35,  3.17it/s] 50%|████▉     | 185068/371472 [3:39:20<15:32:41,  3.33it/s] 50%|████▉     | 185069/371472 [3:39:20<14:54:38,  3.47it/s] 50%|████▉     | 185070/371472 [3:39:20<14:46:21,  3.51it/s] 50%|████▉     | 185071/371472 [3:39:20<14:52:10,  3.48it/s] 50%|████▉     | 185072/371472 [3:39:21<14:14:35,  3.64it/s] 50%|████▉     | 185073/371472 [3:39:21<14:13:18,  3.64it/s] 50%|████▉     | 185074/371472 [3:39:21<14:42:13,  3.52it/s] 50%|████▉     | 185075/371472 [3:39:22<14:42:42,  3.52it/s] 50%|████▉     | 185076/371472 [3:39:22<14:36:27,  3.54it/s] 50%|████▉     | 185077/371472 [3:39:22<14:53:02,  3.48it/s] 50%|████▉     | 185078/371472 [3:39:22<15:56:15,  3.25it/s] 50%|████▉     | 185079/371472 [3:39:23<15:38:39,  3.31it/s] 50%|████▉     | 185080/371472 [3:39:23<16:20:19,  3.17it/s]                                                            {'loss': 2.8601, 'learning_rate': 5.518326186731021e-07, 'epoch': 7.97}
 50%|████▉     | 185080/371472 [3:39:23<16:20:19,  3.17it/s] 50%|████▉     | 185081/371472 [3:39:23<16:26:58,  3.15it/s] 50%|████▉     | 185082/371472 [3:39:24<15:36:18,  3.32it/s] 50%|████▉     | 185083/371472 [3:39:24<15:19:07,  3.38it/s] 50%|████▉     | 185084/371472 [3:39:24<15:18:56,  3.38it/s] 50%|████▉     | 185085/371472 [3:39:25<15:54:19,  3.26it/s] 50%|████▉     | 185086/371472 [3:39:25<15:05:48,  3.43it/s] 50%|████▉     | 185087/371472 [3:39:25<15:49:18,  3.27it/s] 50%|████▉     | 185088/371472 [3:39:25<15:21:09,  3.37it/s] 50%|████▉     | 185089/371472 [3:39:26<14:48:00,  3.50it/s] 50%|████▉     | 185090/371472 [3:39:26<14:27:09,  3.58it/s] 50%|████▉     | 185091/371472 [3:39:26<14:27:52,  3.58it/s] 50%|████▉     | 185092/371472 [3:39:27<14:45:04,  3.51it/s] 50%|████▉     | 185093/371472 [3:39:27<15:03:24,  3.44it/s] 50%|████▉     | 185094/371472 [3:39:27<14:36:26,  3.54it/s] 50%|████▉     | 185095/371472 [3:39:27<13:59:24,  3.70it/s] 50%|████▉     | 185096/371472 [3:39:28<14:07:46,  3.66it/s] 50%|████▉     | 185097/371472 [3:39:28<13:52:18,  3.73it/s] 50%|████▉     | 185098/371472 [3:39:28<14:23:37,  3.60it/s] 50%|████▉     | 185099/371472 [3:39:28<14:29:17,  3.57it/s] 50%|████▉     | 185100/371472 [3:39:29<14:51:24,  3.48it/s]                                                            {'loss': 3.1136, 'learning_rate': 5.517841366976233e-07, 'epoch': 7.97}
 50%|████▉     | 185100/371472 [3:39:29<14:51:24,  3.48it/s] 50%|████▉     | 185101/371472 [3:39:29<15:10:47,  3.41it/s] 50%|████▉     | 185102/371472 [3:39:29<14:32:30,  3.56it/s] 50%|████▉     | 185103/371472 [3:39:30<14:24:26,  3.59it/s] 50%|████▉     | 185104/371472 [3:39:30<14:51:47,  3.48it/s] 50%|████▉     | 185105/371472 [3:39:30<16:13:54,  3.19it/s] 50%|████▉     | 185106/371472 [3:39:31<15:41:23,  3.30it/s] 50%|████▉     | 185107/371472 [3:39:31<15:52:11,  3.26it/s] 50%|████▉     | 185108/371472 [3:39:31<15:04:26,  3.43it/s] 50%|████▉     | 185109/371472 [3:39:31<15:28:03,  3.35it/s] 50%|████▉     | 185110/371472 [3:39:32<15:24:27,  3.36it/s] 50%|████▉     | 185111/371472 [3:39:32<17:17:04,  2.99it/s] 50%|████▉     | 185112/371472 [3:39:32<16:35:04,  3.12it/s] 50%|████▉     | 185113/371472 [3:39:33<16:33:45,  3.13it/s] 50%|████▉     | 185114/371472 [3:39:33<15:19:11,  3.38it/s] 50%|████▉     | 185115/371472 [3:39:33<15:41:47,  3.30it/s] 50%|████▉     | 185116/371472 [3:39:34<14:48:34,  3.50it/s] 50%|████▉     | 185117/371472 [3:39:34<15:18:35,  3.38it/s] 50%|████▉     | 185118/371472 [3:39:34<15:43:07,  3.29it/s] 50%|████▉     | 185119/371472 [3:39:35<15:25:57,  3.35it/s] 50%|████▉     | 185120/371472 [3:39:35<15:19:17,  3.38it/s]                                                            {'loss': 3.0147, 'learning_rate': 5.517356547221444e-07, 'epoch': 7.97}
 50%|████▉     | 185120/371472 [3:39:35<15:19:17,  3.38it/s] 50%|████▉     | 185121/371472 [3:39:35<15:01:59,  3.44it/s] 50%|████▉     | 185122/371472 [3:39:35<14:52:40,  3.48it/s] 50%|████▉     | 185123/371472 [3:39:36<14:38:52,  3.53it/s] 50%|████▉     | 185124/371472 [3:39:36<14:37:31,  3.54it/s] 50%|████▉     | 185125/371472 [3:39:36<14:54:09,  3.47it/s] 50%|████▉     | 185126/371472 [3:39:37<14:36:54,  3.54it/s] 50%|████▉     | 185127/371472 [3:39:37<15:11:44,  3.41it/s] 50%|████▉     | 185128/371472 [3:39:37<14:44:29,  3.51it/s] 50%|████▉     | 185129/371472 [3:39:37<14:33:19,  3.56it/s] 50%|████▉     | 185130/371472 [3:39:38<14:58:57,  3.45it/s] 50%|████▉     | 185131/371472 [3:39:38<14:57:56,  3.46it/s] 50%|████▉     | 185132/371472 [3:39:38<14:27:31,  3.58it/s] 50%|████▉     | 185133/371472 [3:39:39<15:06:19,  3.43it/s] 50%|████▉     | 185134/371472 [3:39:39<15:41:13,  3.30it/s] 50%|████▉     | 185135/371472 [3:39:39<16:38:09,  3.11it/s] 50%|████▉     | 185136/371472 [3:39:40<16:22:02,  3.16it/s] 50%|████▉     | 185137/371472 [3:39:40<15:39:25,  3.31it/s] 50%|████▉     | 185138/371472 [3:39:40<15:25:38,  3.36it/s] 50%|████▉     | 185139/371472 [3:39:40<15:15:29,  3.39it/s] 50%|████▉     | 185140/371472 [3:39:41<14:54:41,  3.47it/s]                                                            {'loss': 3.0082, 'learning_rate': 5.516871727466655e-07, 'epoch': 7.97}
 50%|████▉     | 185140/371472 [3:39:41<14:54:41,  3.47it/s] 50%|████▉     | 185141/371472 [3:39:41<14:38:05,  3.54it/s] 50%|████▉     | 185142/371472 [3:39:41<14:14:08,  3.64it/s] 50%|████▉     | 185143/371472 [3:39:41<13:41:28,  3.78it/s] 50%|████▉     | 185144/371472 [3:39:42<14:11:07,  3.65it/s] 50%|████▉     | 185145/371472 [3:39:42<13:47:40,  3.75it/s] 50%|████▉     | 185146/371472 [3:39:42<14:09:50,  3.65it/s] 50%|████▉     | 185147/371472 [3:39:43<14:13:29,  3.64it/s] 50%|████▉     | 185148/371472 [3:39:43<13:57:54,  3.71it/s] 50%|████▉     | 185149/371472 [3:39:43<14:48:42,  3.49it/s] 50%|████▉     | 185150/371472 [3:39:43<14:24:18,  3.59it/s] 50%|████▉     | 185151/371472 [3:39:44<13:46:00,  3.76it/s] 50%|████▉     | 185152/371472 [3:39:44<14:27:56,  3.58it/s] 50%|████▉     | 185153/371472 [3:39:44<15:31:41,  3.33it/s] 50%|████▉     | 185154/371472 [3:39:45<15:07:05,  3.42it/s] 50%|████▉     | 185155/371472 [3:39:45<15:01:38,  3.44it/s] 50%|████▉     | 185156/371472 [3:39:45<14:53:27,  3.48it/s] 50%|████▉     | 185157/371472 [3:39:45<14:38:32,  3.53it/s] 50%|████▉     | 185158/371472 [3:39:46<14:37:14,  3.54it/s] 50%|████▉     | 185159/371472 [3:39:46<14:45:55,  3.51it/s] 50%|████▉     | 185160/371472 [3:39:46<14:31:09,  3.56it/s]                                                            {'loss': 3.1896, 'learning_rate': 5.516386907711865e-07, 'epoch': 7.98}
 50%|████▉     | 185160/371472 [3:39:46<14:31:09,  3.56it/s] 50%|████▉     | 185161/371472 [3:39:47<14:35:20,  3.55it/s] 50%|████▉     | 185162/371472 [3:39:47<14:49:49,  3.49it/s] 50%|████▉     | 185163/371472 [3:39:47<15:05:12,  3.43it/s] 50%|████▉     | 185164/371472 [3:39:47<15:02:11,  3.44it/s] 50%|████▉     | 185165/371472 [3:39:48<16:23:56,  3.16it/s] 50%|████▉     | 185166/371472 [3:39:48<15:36:53,  3.31it/s] 50%|████▉     | 185167/371472 [3:39:48<15:41:45,  3.30it/s] 50%|████▉     | 185168/371472 [3:39:49<15:22:27,  3.37it/s] 50%|████▉     | 185169/371472 [3:39:49<15:16:37,  3.39it/s] 50%|████▉     | 185170/371472 [3:39:49<14:57:16,  3.46it/s] 50%|████▉     | 185171/371472 [3:39:49<14:59:24,  3.45it/s] 50%|████▉     | 185172/371472 [3:39:50<14:42:24,  3.52it/s] 50%|████▉     | 185173/371472 [3:39:50<15:40:10,  3.30it/s] 50%|████▉     | 185174/371472 [3:39:50<15:06:50,  3.42it/s] 50%|████▉     | 185175/371472 [3:39:51<15:37:20,  3.31it/s] 50%|████▉     | 185176/371472 [3:39:51<16:10:13,  3.20it/s] 50%|████▉     | 185177/371472 [3:39:51<15:45:20,  3.28it/s] 50%|████▉     | 185178/371472 [3:39:52<15:33:03,  3.33it/s] 50%|████▉     | 185179/371472 [3:39:52<15:34:51,  3.32it/s] 50%|████▉     | 185180/371472 [3:39:52<15:12:09,  3.40it/s]                                                            {'loss': 3.0184, 'learning_rate': 5.515902087957077e-07, 'epoch': 7.98}
 50%|████▉     | 185180/371472 [3:39:52<15:12:09,  3.40it/s] 50%|████▉     | 185181/371472 [3:39:52<15:13:58,  3.40it/s] 50%|████▉     | 185182/371472 [3:39:53<17:50:54,  2.90it/s] 50%|████▉     | 185183/371472 [3:39:53<16:15:31,  3.18it/s] 50%|████▉     | 185184/371472 [3:39:53<15:33:36,  3.33it/s] 50%|████▉     | 185185/371472 [3:39:54<15:22:33,  3.37it/s] 50%|████▉     | 185186/371472 [3:39:54<15:10:13,  3.41it/s] 50%|████▉     | 185187/371472 [3:39:54<14:33:12,  3.56it/s] 50%|████▉     | 185188/371472 [3:39:55<15:00:31,  3.45it/s] 50%|████▉     | 185189/371472 [3:39:55<14:55:05,  3.47it/s] 50%|████▉     | 185190/371472 [3:39:55<14:23:29,  3.60it/s] 50%|████▉     | 185191/371472 [3:39:55<14:00:53,  3.69it/s] 50%|████▉     | 185192/371472 [3:39:56<14:02:03,  3.69it/s] 50%|████▉     | 185193/371472 [3:39:56<14:19:00,  3.61it/s] 50%|████▉     | 185194/371472 [3:39:56<14:06:49,  3.67it/s] 50%|████▉     | 185195/371472 [3:39:57<15:01:39,  3.44it/s] 50%|████▉     | 185196/371472 [3:39:57<14:49:45,  3.49it/s] 50%|████▉     | 185197/371472 [3:39:57<14:58:08,  3.46it/s] 50%|████▉     | 185198/371472 [3:39:57<14:27:35,  3.58it/s] 50%|████▉     | 185199/371472 [3:39:58<14:42:04,  3.52it/s] 50%|████▉     | 185200/371472 [3:39:58<14:32:14,  3.56it/s]                                                            {'loss': 3.2303, 'learning_rate': 5.515417268202289e-07, 'epoch': 7.98}
 50%|████▉     | 185200/371472 [3:39:58<14:32:14,  3.56it/s] 50%|████▉     | 185201/371472 [3:39:58<14:44:40,  3.51it/s] 50%|████▉     | 185202/371472 [3:39:59<16:29:01,  3.14it/s] 50%|████▉     | 185203/371472 [3:39:59<16:21:49,  3.16it/s] 50%|████▉     | 185204/371472 [3:39:59<15:51:59,  3.26it/s] 50%|████▉     | 185205/371472 [3:40:00<15:49:29,  3.27it/s] 50%|████▉     | 185206/371472 [3:40:00<15:31:05,  3.33it/s] 50%|████▉     | 185207/371472 [3:40:00<15:17:43,  3.38it/s] 50%|████▉     | 185208/371472 [3:40:00<15:41:12,  3.30it/s] 50%|████▉     | 185209/371472 [3:40:01<15:42:18,  3.29it/s] 50%|████▉     | 185210/371472 [3:40:01<15:20:40,  3.37it/s] 50%|████▉     | 185211/371472 [3:40:01<14:38:44,  3.53it/s] 50%|████▉     | 185212/371472 [3:40:02<14:27:59,  3.58it/s] 50%|████▉     | 185213/371472 [3:40:02<15:43:18,  3.29it/s] 50%|████▉     | 185214/371472 [3:40:02<15:16:26,  3.39it/s] 50%|████▉     | 185215/371472 [3:40:02<14:57:54,  3.46it/s] 50%|████▉     | 185216/371472 [3:40:03<14:33:16,  3.55it/s] 50%|████▉     | 185217/371472 [3:40:03<14:20:10,  3.61it/s] 50%|████▉     | 185218/371472 [3:40:03<14:33:55,  3.55it/s] 50%|████▉     | 185219/371472 [3:40:04<14:42:07,  3.52it/s] 50%|████▉     | 185220/371472 [3:40:04<14:07:30,  3.66it/s]                                                            {'loss': 3.1401, 'learning_rate': 5.5149324484475e-07, 'epoch': 7.98}
 50%|████▉     | 185220/371472 [3:40:04<14:07:30,  3.66it/s] 50%|████▉     | 185221/371472 [3:40:04<14:17:40,  3.62it/s] 50%|████▉     | 185222/371472 [3:40:04<14:41:59,  3.52it/s] 50%|████▉     | 185223/371472 [3:40:05<14:52:32,  3.48it/s] 50%|████▉     | 185224/371472 [3:40:05<14:45:58,  3.50it/s] 50%|████▉     | 185225/371472 [3:40:05<14:45:39,  3.50it/s] 50%|████▉     | 185226/371472 [3:40:06<14:13:38,  3.64it/s] 50%|████▉     | 185227/371472 [3:40:06<14:14:18,  3.63it/s] 50%|████▉     | 185228/371472 [3:40:06<13:43:47,  3.77it/s] 50%|████▉     | 185229/371472 [3:40:06<14:06:52,  3.67it/s] 50%|████▉     | 185230/371472 [3:40:07<14:09:47,  3.65it/s] 50%|████▉     | 185231/371472 [3:40:07<14:16:54,  3.62it/s] 50%|████▉     | 185232/371472 [3:40:07<14:21:08,  3.60it/s] 50%|████▉     | 185233/371472 [3:40:07<14:10:54,  3.65it/s] 50%|████▉     | 185234/371472 [3:40:08<14:22:03,  3.60it/s] 50%|████▉     | 185235/371472 [3:40:08<16:03:27,  3.22it/s] 50%|████▉     | 185236/371472 [3:40:08<15:54:45,  3.25it/s] 50%|████▉     | 185237/371472 [3:40:09<14:57:10,  3.46it/s] 50%|████▉     | 185238/371472 [3:40:09<16:05:43,  3.21it/s] 50%|████▉     | 185239/371472 [3:40:09<16:49:33,  3.07it/s] 50%|████▉     | 185240/371472 [3:40:10<15:43:58,  3.29it/s]                                                            {'loss': 3.0405, 'learning_rate': 5.51444762869271e-07, 'epoch': 7.98}
 50%|████▉     | 185240/371472 [3:40:10<15:43:58,  3.29it/s] 50%|████▉     | 185241/371472 [3:40:10<16:02:12,  3.23it/s] 50%|████▉     | 185242/371472 [3:40:10<16:04:58,  3.22it/s] 50%|████▉     | 185243/371472 [3:40:11<15:41:20,  3.30it/s] 50%|████▉     | 185244/371472 [3:40:11<17:54:25,  2.89it/s] 50%|████▉     | 185245/371472 [3:40:11<17:51:45,  2.90it/s] 50%|████▉     | 185246/371472 [3:40:12<16:40:01,  3.10it/s] 50%|████▉     | 185247/371472 [3:40:12<16:08:51,  3.20it/s] 50%|████▉     | 185248/371472 [3:40:12<16:07:11,  3.21it/s] 50%|████▉     | 185249/371472 [3:40:13<16:36:51,  3.11it/s] 50%|████▉     | 185250/371472 [3:40:13<16:09:55,  3.20it/s] 50%|████▉     | 185251/371472 [3:40:13<15:35:06,  3.32it/s] 50%|████▉     | 185252/371472 [3:40:13<15:28:39,  3.34it/s] 50%|████▉     | 185253/371472 [3:40:14<14:48:59,  3.49it/s] 50%|████▉     | 185254/371472 [3:40:14<14:24:38,  3.59it/s] 50%|████▉     | 185255/371472 [3:40:14<14:12:53,  3.64it/s] 50%|████▉     | 185256/371472 [3:40:14<14:11:37,  3.64it/s] 50%|████▉     | 185257/371472 [3:40:15<14:02:21,  3.68it/s] 50%|████▉     | 185258/371472 [3:40:15<13:35:40,  3.80it/s] 50%|████▉     | 185259/371472 [3:40:15<13:39:29,  3.79it/s] 50%|████▉     | 185260/371472 [3:40:15<13:27:26,  3.84it/s]                                                            {'loss': 3.12, 'learning_rate': 5.513962808937921e-07, 'epoch': 7.98}
 50%|████▉     | 185260/371472 [3:40:15<13:27:26,  3.84it/s] 50%|████▉     | 185261/371472 [3:40:16<14:28:34,  3.57it/s] 50%|████▉     | 185262/371472 [3:40:16<14:03:33,  3.68it/s] 50%|████▉     | 185263/371472 [3:40:16<13:49:13,  3.74it/s] 50%|████▉     | 185264/371472 [3:40:17<14:03:12,  3.68it/s] 50%|████▉     | 185265/371472 [3:40:17<14:27:12,  3.58it/s] 50%|████▉     | 185266/371472 [3:40:17<14:30:22,  3.57it/s] 50%|████▉     | 185267/371472 [3:40:17<14:34:29,  3.55it/s] 50%|████▉     | 185268/371472 [3:40:18<14:04:15,  3.68it/s] 50%|████▉     | 185269/371472 [3:40:18<16:08:07,  3.21it/s] 50%|████▉     | 185270/371472 [3:40:18<15:33:38,  3.32it/s] 50%|████▉     | 185271/371472 [3:40:19<15:33:15,  3.33it/s] 50%|████▉     | 185272/371472 [3:40:19<15:16:00,  3.39it/s] 50%|████▉     | 185273/371472 [3:40:19<14:52:43,  3.48it/s] 50%|████▉     | 185274/371472 [3:40:20<14:40:46,  3.52it/s] 50%|████▉     | 185275/371472 [3:40:20<14:43:54,  3.51it/s] 50%|████▉     | 185276/371472 [3:40:20<14:49:22,  3.49it/s] 50%|████▉     | 185277/371472 [3:40:20<14:22:23,  3.60it/s] 50%|████▉     | 185278/371472 [3:40:21<14:53:30,  3.47it/s] 50%|████▉     | 185279/371472 [3:40:21<14:36:14,  3.54it/s] 50%|████▉     | 185280/371472 [3:40:21<14:29:36,  3.57it/s]                                                            {'loss': 2.9505, 'learning_rate': 5.513477989183132e-07, 'epoch': 7.98}
 50%|████▉     | 185280/371472 [3:40:21<14:29:36,  3.57it/s] 50%|████▉     | 185281/371472 [3:40:21<14:33:35,  3.55it/s] 50%|████▉     | 185282/371472 [3:40:22<14:41:10,  3.52it/s] 50%|████▉     | 185283/371472 [3:40:22<14:23:38,  3.59it/s] 50%|████▉     | 185284/371472 [3:40:22<14:16:36,  3.62it/s] 50%|████▉     | 185285/371472 [3:40:23<13:48:39,  3.74it/s] 50%|████▉     | 185286/371472 [3:40:23<14:05:38,  3.67it/s] 50%|████▉     | 185287/371472 [3:40:23<14:50:21,  3.49it/s] 50%|████▉     | 185288/371472 [3:40:23<14:21:04,  3.60it/s] 50%|████▉     | 185289/371472 [3:40:24<15:13:05,  3.40it/s] 50%|████▉     | 185290/371472 [3:40:24<14:44:37,  3.51it/s] 50%|████▉     | 185291/371472 [3:40:24<15:14:27,  3.39it/s] 50%|████▉     | 185292/371472 [3:40:25<15:32:26,  3.33it/s] 50%|████▉     | 185293/371472 [3:40:25<15:14:19,  3.39it/s] 50%|████▉     | 185294/371472 [3:40:25<15:23:46,  3.36it/s] 50%|████▉     | 185295/371472 [3:40:26<15:31:29,  3.33it/s] 50%|████▉     | 185296/371472 [3:40:26<14:47:39,  3.50it/s] 50%|████▉     | 185297/371472 [3:40:26<15:03:29,  3.43it/s] 50%|████▉     | 185298/371472 [3:40:26<14:30:18,  3.57it/s] 50%|████▉     | 185299/371472 [3:40:27<14:07:19,  3.66it/s] 50%|████▉     | 185300/371472 [3:40:27<14:53:30,  3.47it/s]                                                            {'loss': 2.9492, 'learning_rate': 5.512993169428343e-07, 'epoch': 7.98}
 50%|████▉     | 185300/371472 [3:40:27<14:53:30,  3.47it/s] 50%|████▉     | 185301/371472 [3:40:27<15:40:52,  3.30it/s] 50%|████▉     | 185302/371472 [3:40:28<15:28:06,  3.34it/s] 50%|████▉     | 185303/371472 [3:40:28<14:58:27,  3.45it/s] 50%|████▉     | 185304/371472 [3:40:28<14:40:29,  3.52it/s] 50%|████▉     | 185305/371472 [3:40:28<14:04:52,  3.67it/s] 50%|████▉     | 185306/371472 [3:40:29<14:08:03,  3.66it/s] 50%|████▉     | 185307/371472 [3:40:29<14:36:27,  3.54it/s] 50%|████▉     | 185308/371472 [3:40:29<14:44:08,  3.51it/s] 50%|████▉     | 185309/371472 [3:40:30<15:30:48,  3.33it/s] 50%|████▉     | 185310/371472 [3:40:30<14:56:09,  3.46it/s] 50%|████▉     | 185311/371472 [3:40:30<14:24:48,  3.59it/s] 50%|████▉     | 185312/371472 [3:40:30<15:17:28,  3.38it/s] 50%|████▉     | 185313/371472 [3:40:31<14:51:28,  3.48it/s] 50%|████▉     | 185314/371472 [3:40:31<15:50:14,  3.27it/s] 50%|████▉     | 185315/371472 [3:40:31<15:08:12,  3.42it/s] 50%|████▉     | 185316/371472 [3:40:32<14:35:55,  3.54it/s] 50%|████▉     | 185317/371472 [3:40:32<14:58:35,  3.45it/s] 50%|████▉     | 185318/371472 [3:40:32<14:44:30,  3.51it/s] 50%|████▉     | 185319/371472 [3:40:32<14:17:06,  3.62it/s] 50%|████▉     | 185320/371472 [3:40:33<13:48:24,  3.75it/s]                                                            {'loss': 3.1098, 'learning_rate': 5.512508349673554e-07, 'epoch': 7.98}
 50%|████▉     | 185320/371472 [3:40:33<13:48:24,  3.75it/s] 50%|████▉     | 185321/371472 [3:40:33<14:01:28,  3.69it/s] 50%|████▉     | 185322/371472 [3:40:33<14:03:02,  3.68it/s] 50%|████▉     | 185323/371472 [3:40:33<14:09:19,  3.65it/s] 50%|████▉     | 185324/371472 [3:40:34<14:01:18,  3.69it/s] 50%|████▉     | 185325/371472 [3:40:34<14:03:36,  3.68it/s] 50%|████▉     | 185326/371472 [3:40:34<13:39:50,  3.78it/s] 50%|████▉     | 185327/371472 [3:40:35<13:58:41,  3.70it/s] 50%|████▉     | 185328/371472 [3:40:35<13:42:46,  3.77it/s] 50%|████▉     | 185329/371472 [3:40:35<13:29:10,  3.83it/s] 50%|████▉     | 185330/371472 [3:40:35<13:33:42,  3.81it/s] 50%|████▉     | 185331/371472 [3:40:36<13:54:01,  3.72it/s] 50%|████▉     | 185332/371472 [3:40:36<13:24:28,  3.86it/s] 50%|████▉     | 185333/371472 [3:40:36<13:15:38,  3.90it/s] 50%|████▉     | 185334/371472 [3:40:36<14:02:42,  3.68it/s] 50%|████▉     | 185335/371472 [3:40:37<13:39:15,  3.79it/s] 50%|████▉     | 185336/371472 [3:40:37<14:41:56,  3.52it/s] 50%|████▉     | 185337/371472 [3:40:37<14:02:16,  3.68it/s] 50%|████▉     | 185338/371472 [3:40:37<13:51:25,  3.73it/s] 50%|████▉     | 185339/371472 [3:40:38<14:06:53,  3.66it/s] 50%|████▉     | 185340/371472 [3:40:38<13:58:32,  3.70it/s]                                                            {'loss': 3.0939, 'learning_rate': 5.512023529918766e-07, 'epoch': 7.98}
 50%|████▉     | 185340/371472 [3:40:38<13:58:32,  3.70it/s] 50%|████▉     | 185341/371472 [3:40:38<13:55:44,  3.71it/s] 50%|████▉     | 185342/371472 [3:40:39<14:51:23,  3.48it/s] 50%|████▉     | 185343/371472 [3:40:39<14:59:05,  3.45it/s] 50%|████▉     | 185344/371472 [3:40:39<15:23:28,  3.36it/s] 50%|████▉     | 185345/371472 [3:40:39<14:46:44,  3.50it/s] 50%|████▉     | 185346/371472 [3:40:40<14:26:04,  3.58it/s] 50%|████▉     | 185347/371472 [3:40:40<14:19:22,  3.61it/s] 50%|████▉     | 185348/371472 [3:40:40<14:53:40,  3.47it/s] 50%|████▉     | 185349/371472 [3:40:41<14:52:23,  3.48it/s] 50%|████▉     | 185350/371472 [3:40:41<14:43:21,  3.51it/s] 50%|████▉     | 185351/371472 [3:40:41<15:28:31,  3.34it/s] 50%|████▉     | 185352/371472 [3:40:42<15:30:39,  3.33it/s] 50%|████▉     | 185353/371472 [3:40:42<15:39:15,  3.30it/s] 50%|████▉     | 185354/371472 [3:40:42<15:10:57,  3.41it/s] 50%|████▉     | 185355/371472 [3:40:42<14:56:49,  3.46it/s] 50%|████▉     | 185356/371472 [3:40:43<14:25:53,  3.58it/s] 50%|████▉     | 185357/371472 [3:40:43<14:22:24,  3.60it/s] 50%|████▉     | 185358/371472 [3:40:43<14:21:31,  3.60it/s] 50%|████▉     | 185359/371472 [3:40:43<14:09:37,  3.65it/s] 50%|████▉     | 185360/371472 [3:40:44<13:46:27,  3.75it/s]                                                            {'loss': 2.9043, 'learning_rate': 5.511538710163977e-07, 'epoch': 7.98}
 50%|████▉     | 185360/371472 [3:40:44<13:46:27,  3.75it/s] 50%|████▉     | 185361/371472 [3:40:44<13:45:40,  3.76it/s] 50%|████▉     | 185362/371472 [3:40:44<13:39:52,  3.78it/s] 50%|████▉     | 185363/371472 [3:40:45<15:32:42,  3.33it/s] 50%|████▉     | 185364/371472 [3:40:45<15:41:17,  3.30it/s] 50%|████▉     | 185365/371472 [3:40:45<14:57:45,  3.46it/s] 50%|████▉     | 185366/371472 [3:40:45<14:45:55,  3.50it/s] 50%|████▉     | 185367/371472 [3:40:46<14:24:12,  3.59it/s] 50%|████▉     | 185368/371472 [3:40:46<14:10:24,  3.65it/s] 50%|████▉     | 185369/371472 [3:40:46<14:16:03,  3.62it/s] 50%|████▉     | 185370/371472 [3:40:47<14:23:37,  3.59it/s] 50%|████▉     | 185371/371472 [3:40:47<14:36:31,  3.54it/s] 50%|████▉     | 185372/371472 [3:40:47<15:32:06,  3.33it/s] 50%|████▉     | 185373/371472 [3:40:47<15:07:28,  3.42it/s] 50%|████▉     | 185374/371472 [3:40:48<14:41:05,  3.52it/s] 50%|████▉     | 185375/371472 [3:40:48<14:11:30,  3.64it/s] 50%|████▉     | 185376/371472 [3:40:48<14:01:50,  3.68it/s] 50%|████▉     | 185377/371472 [3:40:49<14:10:21,  3.65it/s] 50%|████▉     | 185378/371472 [3:40:49<13:56:46,  3.71it/s] 50%|████▉     | 185379/371472 [3:40:49<14:11:41,  3.64it/s] 50%|████▉     | 185380/371472 [3:40:49<13:53:18,  3.72it/s]                                                            {'loss': 2.8831, 'learning_rate': 5.511053890409188e-07, 'epoch': 7.98}
 50%|████▉     | 185380/371472 [3:40:49<13:53:18,  3.72it/s] 50%|████▉     | 185381/371472 [3:40:50<14:07:39,  3.66it/s] 50%|████▉     | 185382/371472 [3:40:50<13:42:32,  3.77it/s] 50%|████▉     | 185383/371472 [3:40:50<13:51:14,  3.73it/s] 50%|████▉     | 185384/371472 [3:40:50<13:47:19,  3.75it/s] 50%|████▉     | 185385/371472 [3:40:51<13:22:51,  3.86it/s] 50%|████▉     | 185386/371472 [3:40:51<14:13:09,  3.64it/s] 50%|████▉     | 185387/371472 [3:40:51<13:41:57,  3.77it/s] 50%|████▉     | 185388/371472 [3:40:52<15:29:23,  3.34it/s] 50%|████▉     | 185389/371472 [3:40:52<15:05:06,  3.43it/s] 50%|████▉     | 185390/371472 [3:40:52<15:12:45,  3.40it/s] 50%|████▉     | 185391/371472 [3:40:52<14:38:24,  3.53it/s] 50%|████▉     | 185392/371472 [3:40:53<14:52:35,  3.47it/s] 50%|████▉     | 185393/371472 [3:40:53<15:12:51,  3.40it/s] 50%|████▉     | 185394/371472 [3:40:53<14:43:02,  3.51it/s] 50%|████▉     | 185395/371472 [3:40:54<15:18:44,  3.38it/s] 50%|████▉     | 185396/371472 [3:40:54<14:48:36,  3.49it/s] 50%|████▉     | 185397/371472 [3:40:54<14:38:17,  3.53it/s] 50%|████▉     | 185398/371472 [3:40:54<14:31:02,  3.56it/s] 50%|████▉     | 185399/371472 [3:40:55<14:09:36,  3.65it/s] 50%|████▉     | 185400/371472 [3:40:55<14:20:12,  3.61it/s]                                                            {'loss': 3.1873, 'learning_rate': 5.510569070654398e-07, 'epoch': 7.99}
 50%|████▉     | 185400/371472 [3:40:55<14:20:12,  3.61it/s] 50%|████▉     | 185401/371472 [3:40:55<14:48:50,  3.49it/s] 50%|████▉     | 185402/371472 [3:40:56<14:54:01,  3.47it/s] 50%|████▉     | 185403/371472 [3:40:56<15:03:33,  3.43it/s] 50%|████▉     | 185404/371472 [3:40:56<16:02:23,  3.22it/s] 50%|████▉     | 185405/371472 [3:40:57<16:07:39,  3.20it/s] 50%|████▉     | 185406/371472 [3:40:57<16:39:04,  3.10it/s] 50%|████▉     | 185407/371472 [3:40:57<16:20:39,  3.16it/s] 50%|████▉     | 185408/371472 [3:40:57<15:48:23,  3.27it/s] 50%|████▉     | 185409/371472 [3:40:58<15:27:34,  3.34it/s] 50%|████▉     | 185410/371472 [3:40:58<14:44:48,  3.50it/s] 50%|████▉     | 185411/371472 [3:40:58<15:00:25,  3.44it/s] 50%|████▉     | 185412/371472 [3:40:59<16:16:49,  3.17it/s] 50%|████▉     | 185413/371472 [3:40:59<15:22:26,  3.36it/s] 50%|████▉     | 185414/371472 [3:40:59<14:38:52,  3.53it/s] 50%|████▉     | 185415/371472 [3:40:59<14:35:04,  3.54it/s] 50%|████▉     | 185416/371472 [3:41:00<14:16:02,  3.62it/s] 50%|████▉     | 185417/371472 [3:41:00<13:59:29,  3.69it/s] 50%|████▉     | 185418/371472 [3:41:00<14:59:11,  3.45it/s] 50%|████▉     | 185419/371472 [3:41:01<15:05:47,  3.42it/s] 50%|████▉     | 185420/371472 [3:41:01<15:24:25,  3.35it/s]                                                            {'loss': 3.1169, 'learning_rate': 5.51008425089961e-07, 'epoch': 7.99}
 50%|████▉     | 185420/371472 [3:41:01<15:24:25,  3.35it/s] 50%|████▉     | 185421/371472 [3:41:01<14:57:39,  3.45it/s] 50%|████▉     | 185422/371472 [3:41:01<15:08:20,  3.41it/s] 50%|████▉     | 185423/371472 [3:41:02<14:38:22,  3.53it/s] 50%|████▉     | 185424/371472 [3:41:02<14:05:40,  3.67it/s] 50%|████▉     | 185425/371472 [3:41:02<14:46:59,  3.50it/s] 50%|████▉     | 185426/371472 [3:41:03<14:18:38,  3.61it/s] 50%|████▉     | 185427/371472 [3:41:03<14:06:17,  3.66it/s] 50%|████▉     | 185428/371472 [3:41:03<14:15:42,  3.62it/s] 50%|████▉     | 185429/371472 [3:41:03<14:19:01,  3.61it/s] 50%|████▉     | 185430/371472 [3:41:04<14:05:55,  3.67it/s] 50%|████▉     | 185431/371472 [3:41:04<14:35:43,  3.54it/s] 50%|████▉     | 185432/371472 [3:41:04<14:32:11,  3.56it/s] 50%|████▉     | 185433/371472 [3:41:04<14:07:19,  3.66it/s] 50%|████▉     | 185434/371472 [3:41:05<14:03:21,  3.68it/s] 50%|████▉     | 185435/371472 [3:41:05<14:51:22,  3.48it/s] 50%|████▉     | 185436/371472 [3:41:05<14:31:41,  3.56it/s] 50%|████▉     | 185437/371472 [3:41:06<14:16:31,  3.62it/s] 50%|████▉     | 185438/371472 [3:41:06<13:44:02,  3.76it/s] 50%|████▉     | 185439/371472 [3:41:06<15:24:04,  3.36it/s] 50%|████▉     | 185440/371472 [3:41:07<16:32:51,  3.12it/s]                                                            {'loss': 3.0015, 'learning_rate': 5.50959943114482e-07, 'epoch': 7.99}
 50%|████▉     | 185440/371472 [3:41:07<16:32:51,  3.12it/s] 50%|████▉     | 185441/371472 [3:41:07<16:01:42,  3.22it/s] 50%|████▉     | 185442/371472 [3:41:07<15:38:44,  3.30it/s] 50%|████▉     | 185443/371472 [3:41:07<15:57:54,  3.24it/s] 50%|████▉     | 185444/371472 [3:41:08<14:50:17,  3.48it/s] 50%|████▉     | 185445/371472 [3:41:08<15:13:09,  3.40it/s] 50%|████▉     | 185446/371472 [3:41:08<14:56:22,  3.46it/s] 50%|████▉     | 185447/371472 [3:41:09<15:23:01,  3.36it/s] 50%|████▉     | 185448/371472 [3:41:09<15:04:04,  3.43it/s] 50%|████▉     | 185449/371472 [3:41:09<16:19:12,  3.17it/s] 50%|████▉     | 185450/371472 [3:41:10<17:17:52,  2.99it/s] 50%|████▉     | 185451/371472 [3:41:10<16:10:17,  3.20it/s] 50%|████▉     | 185452/371472 [3:41:10<15:28:01,  3.34it/s] 50%|████▉     | 185453/371472 [3:41:10<15:31:10,  3.33it/s] 50%|████▉     | 185454/371472 [3:41:11<15:00:34,  3.44it/s] 50%|████▉     | 185455/371472 [3:41:11<16:04:04,  3.22it/s] 50%|████▉     | 185456/371472 [3:41:11<15:03:33,  3.43it/s] 50%|████▉     | 185457/371472 [3:41:12<15:24:05,  3.35it/s] 50%|████▉     | 185458/371472 [3:41:12<14:42:11,  3.51it/s] 50%|████▉     | 185459/371472 [3:41:12<14:33:45,  3.55it/s] 50%|████▉     | 185460/371472 [3:41:12<14:21:45,  3.60it/s]                                                            {'loss': 2.9161, 'learning_rate': 5.509114611390031e-07, 'epoch': 7.99}
 50%|████▉     | 185460/371472 [3:41:12<14:21:45,  3.60it/s] 50%|████▉     | 185461/371472 [3:41:13<13:46:26,  3.75it/s] 50%|████▉     | 185462/371472 [3:41:13<13:42:27,  3.77it/s] 50%|████▉     | 185463/371472 [3:41:13<13:36:50,  3.80it/s] 50%|████▉     | 185464/371472 [3:41:14<13:39:25,  3.78it/s] 50%|████▉     | 185465/371472 [3:41:14<13:38:33,  3.79it/s] 50%|████▉     | 185466/371472 [3:41:14<13:17:41,  3.89it/s] 50%|████▉     | 185467/371472 [3:41:14<13:02:18,  3.96it/s] 50%|████▉     | 185468/371472 [3:41:15<13:36:25,  3.80it/s] 50%|████▉     | 185469/371472 [3:41:15<14:00:34,  3.69it/s] 50%|████▉     | 185470/371472 [3:41:15<14:45:39,  3.50it/s] 50%|████▉     | 185471/371472 [3:41:15<14:36:43,  3.54it/s] 50%|████▉     | 185472/371472 [3:41:16<15:14:07,  3.39it/s] 50%|████▉     | 185473/371472 [3:41:16<14:44:44,  3.50it/s] 50%|████▉     | 185474/371472 [3:41:16<14:36:00,  3.54it/s] 50%|████▉     | 185475/371472 [3:41:17<15:00:36,  3.44it/s] 50%|████▉     | 185476/371472 [3:41:17<15:29:20,  3.34it/s] 50%|████▉     | 185477/371472 [3:41:17<15:27:50,  3.34it/s] 50%|████▉     | 185478/371472 [3:41:17<14:54:31,  3.47it/s] 50%|████▉     | 185479/371472 [3:41:18<15:03:43,  3.43it/s] 50%|████▉     | 185480/371472 [3:41:18<14:34:57,  3.54it/s]                                                            {'loss': 3.0065, 'learning_rate': 5.508629791635243e-07, 'epoch': 7.99}
 50%|████▉     | 185480/371472 [3:41:18<14:34:57,  3.54it/s] 50%|████▉     | 185481/371472 [3:41:18<15:15:06,  3.39it/s] 50%|████▉     | 185482/371472 [3:41:19<15:36:29,  3.31it/s] 50%|████▉     | 185483/371472 [3:41:19<14:49:06,  3.49it/s] 50%|████▉     | 185484/371472 [3:41:19<15:30:15,  3.33it/s] 50%|████▉     | 185485/371472 [3:41:20<15:30:10,  3.33it/s] 50%|████▉     | 185486/371472 [3:41:20<14:56:22,  3.46it/s] 50%|████▉     | 185487/371472 [3:41:20<14:52:38,  3.47it/s] 50%|████▉     | 185488/371472 [3:41:20<14:41:13,  3.52it/s] 50%|████▉     | 185489/371472 [3:41:21<14:25:40,  3.58it/s] 50%|████▉     | 185490/371472 [3:41:21<15:09:14,  3.41it/s] 50%|████▉     | 185491/371472 [3:41:21<14:41:38,  3.52it/s] 50%|████▉     | 185492/371472 [3:41:22<14:30:23,  3.56it/s] 50%|████▉     | 185493/371472 [3:41:22<14:27:31,  3.57it/s] 50%|████▉     | 185494/371472 [3:41:22<14:09:38,  3.65it/s] 50%|████▉     | 185495/371472 [3:41:22<14:01:25,  3.68it/s] 50%|████▉     | 185496/371472 [3:41:23<13:56:38,  3.70it/s] 50%|████▉     | 185497/371472 [3:41:23<14:56:09,  3.46it/s] 50%|████▉     | 185498/371472 [3:41:23<16:03:48,  3.22it/s] 50%|████▉     | 185499/371472 [3:41:24<15:39:03,  3.30it/s] 50%|████▉     | 185500/371472 [3:41:24<15:38:46,  3.30it/s]                                                            {'loss': 3.0564, 'learning_rate': 5.508144971880454e-07, 'epoch': 7.99}
 50%|████▉     | 185500/371472 [3:41:24<15:38:46,  3.30it/s] 50%|████▉     | 185501/371472 [3:41:24<14:39:18,  3.52it/s] 50%|████▉     | 185502/371472 [3:41:24<14:32:29,  3.55it/s] 50%|████▉     | 185503/371472 [3:41:25<14:10:57,  3.64it/s] 50%|████▉     | 185504/371472 [3:41:25<13:58:16,  3.70it/s] 50%|████▉     | 185505/371472 [3:41:25<14:09:25,  3.65it/s] 50%|████▉     | 185506/371472 [3:41:25<14:23:15,  3.59it/s] 50%|████▉     | 185507/371472 [3:41:26<14:26:29,  3.58it/s] 50%|████▉     | 185508/371472 [3:41:26<13:50:31,  3.73it/s] 50%|████▉     | 185509/371472 [3:41:26<14:08:26,  3.65it/s] 50%|████▉     | 185510/371472 [3:41:27<14:13:23,  3.63it/s] 50%|████▉     | 185511/371472 [3:41:27<14:30:58,  3.56it/s] 50%|████▉     | 185512/371472 [3:41:27<14:20:04,  3.60it/s] 50%|████▉     | 185513/371472 [3:41:27<13:57:21,  3.70it/s] 50%|████▉     | 185514/371472 [3:41:28<13:51:25,  3.73it/s] 50%|████▉     | 185515/371472 [3:41:28<13:39:21,  3.78it/s] 50%|████▉     | 185516/371472 [3:41:28<15:20:55,  3.37it/s] 50%|████▉     | 185517/371472 [3:41:29<16:02:10,  3.22it/s] 50%|████▉     | 185518/371472 [3:41:29<15:34:37,  3.32it/s] 50%|████▉     | 185519/371472 [3:41:29<15:22:16,  3.36it/s] 50%|████▉     | 185520/371472 [3:41:30<15:37:46,  3.30it/s]                                                            {'loss': 3.1632, 'learning_rate': 5.507660152125665e-07, 'epoch': 7.99}
 50%|████▉     | 185520/371472 [3:41:30<15:37:46,  3.30it/s] 50%|████▉     | 185521/371472 [3:41:30<15:17:41,  3.38it/s] 50%|████▉     | 185522/371472 [3:41:30<15:19:33,  3.37it/s] 50%|████▉     | 185523/371472 [3:41:30<15:13:37,  3.39it/s] 50%|████▉     | 185524/371472 [3:41:31<14:29:44,  3.56it/s] 50%|████▉     | 185525/371472 [3:41:31<14:54:49,  3.46it/s] 50%|████▉     | 185526/371472 [3:41:31<14:43:34,  3.51it/s] 50%|████▉     | 185527/371472 [3:41:31<14:11:56,  3.64it/s] 50%|████▉     | 185528/371472 [3:41:32<14:38:03,  3.53it/s] 50%|████▉     | 185529/371472 [3:41:32<13:56:37,  3.70it/s] 50%|████▉     | 185530/371472 [3:41:32<13:55:08,  3.71it/s] 50%|████▉     | 185531/371472 [3:41:33<13:35:10,  3.80it/s] 50%|████▉     | 185532/371472 [3:41:33<13:55:32,  3.71it/s] 50%|████▉     | 185533/371472 [3:41:33<15:39:24,  3.30it/s] 50%|████▉     | 185534/371472 [3:41:33<14:34:18,  3.54it/s] 50%|████▉     | 185535/371472 [3:41:34<14:21:09,  3.60it/s] 50%|████▉     | 185536/371472 [3:41:34<13:54:11,  3.71it/s] 50%|████▉     | 185537/371472 [3:41:34<14:09:08,  3.65it/s] 50%|████▉     | 185538/371472 [3:41:35<14:45:49,  3.50it/s] 50%|████▉     | 185539/371472 [3:41:35<14:31:37,  3.56it/s] 50%|████▉     | 185540/371472 [3:41:35<14:09:11,  3.65it/s]                                                            {'loss': 2.9346, 'learning_rate': 5.507175332370875e-07, 'epoch': 7.99}
 50%|████▉     | 185540/371472 [3:41:35<14:09:11,  3.65it/s] 50%|████▉     | 185541/371472 [3:41:35<14:24:39,  3.58it/s] 50%|████▉     | 185542/371472 [3:41:36<15:19:10,  3.37it/s] 50%|████▉     | 185543/371472 [3:41:36<16:04:29,  3.21it/s] 50%|████▉     | 185544/371472 [3:41:36<15:24:13,  3.35it/s] 50%|████▉     | 185545/371472 [3:41:37<14:44:15,  3.50it/s] 50%|████▉     | 185546/371472 [3:41:37<14:27:23,  3.57it/s] 50%|████▉     | 185547/371472 [3:41:37<14:47:11,  3.49it/s] 50%|████▉     | 185548/371472 [3:41:37<14:29:00,  3.57it/s] 50%|████▉     | 185549/371472 [3:41:38<14:33:05,  3.55it/s] 50%|████▉     | 185550/371472 [3:41:38<14:13:04,  3.63it/s] 50%|████▉     | 185551/371472 [3:41:38<15:20:43,  3.37it/s] 50%|████▉     | 185552/371472 [3:41:39<14:41:51,  3.51it/s] 50%|████▉     | 185553/371472 [3:41:39<14:29:54,  3.56it/s] 50%|████▉     | 185554/371472 [3:41:39<14:32:49,  3.55it/s] 50%|████▉     | 185555/371472 [3:41:39<15:28:06,  3.34it/s] 50%|████▉     | 185556/371472 [3:41:40<15:04:05,  3.43it/s] 50%|████▉     | 185557/371472 [3:41:40<14:31:18,  3.56it/s] 50%|████▉     | 185558/371472 [3:41:40<14:43:26,  3.51it/s] 50%|████▉     | 185559/371472 [3:41:41<14:03:03,  3.68it/s] 50%|████▉     | 185560/371472 [3:41:41<14:53:32,  3.47it/s]                                                            {'loss': 2.9314, 'learning_rate': 5.506690512616087e-07, 'epoch': 7.99}
 50%|████▉     | 185560/371472 [3:41:41<14:53:32,  3.47it/s] 50%|████▉     | 185561/371472 [3:41:41<14:29:12,  3.56it/s] 50%|████▉     | 185562/371472 [3:41:41<14:02:53,  3.68it/s] 50%|████▉     | 185563/371472 [3:41:42<14:01:08,  3.68it/s] 50%|████▉     | 185564/371472 [3:41:42<14:00:40,  3.69it/s] 50%|████▉     | 185565/371472 [3:41:42<14:00:42,  3.69it/s] 50%|████▉     | 185566/371472 [3:41:42<14:32:38,  3.55it/s] 50%|████▉     | 185567/371472 [3:41:43<14:20:50,  3.60it/s] 50%|████▉     | 185568/371472 [3:41:43<14:41:08,  3.52it/s] 50%|████▉     | 185569/371472 [3:41:43<14:53:46,  3.47it/s] 50%|████▉     | 185570/371472 [3:41:44<14:15:25,  3.62it/s] 50%|████▉     | 185571/371472 [3:41:44<13:53:49,  3.72it/s] 50%|████▉     | 185572/371472 [3:41:44<14:51:56,  3.47it/s] 50%|████▉     | 185573/371472 [3:41:44<15:01:14,  3.44it/s] 50%|████▉     | 185574/371472 [3:41:45<15:27:20,  3.34it/s] 50%|████▉     | 185575/371472 [3:41:45<15:25:46,  3.35it/s] 50%|████▉     | 185576/371472 [3:41:45<16:22:19,  3.15it/s] 50%|████▉     | 185577/371472 [3:41:46<15:55:14,  3.24it/s] 50%|████▉     | 185578/371472 [3:41:46<15:09:14,  3.41it/s] 50%|████▉     | 185579/371472 [3:41:46<14:27:02,  3.57it/s] 50%|████▉     | 185580/371472 [3:41:47<14:39:07,  3.52it/s]                                                            {'loss': 2.9579, 'learning_rate': 5.506205692861299e-07, 'epoch': 7.99}
 50%|████▉     | 185580/371472 [3:41:47<14:39:07,  3.52it/s] 50%|████▉     | 185581/371472 [3:41:47<14:51:28,  3.48it/s] 50%|████▉     | 185582/371472 [3:41:47<16:19:29,  3.16it/s] 50%|████▉     | 185583/371472 [3:41:47<15:29:01,  3.33it/s] 50%|████▉     | 185584/371472 [3:41:48<15:57:15,  3.24it/s] 50%|████▉     | 185585/371472 [3:41:48<15:19:14,  3.37it/s] 50%|████▉     | 185586/371472 [3:41:48<14:36:02,  3.54it/s] 50%|████▉     | 185587/371472 [3:41:49<14:08:38,  3.65it/s] 50%|████▉     | 185588/371472 [3:41:49<13:49:51,  3.73it/s] 50%|████▉     | 185589/371472 [3:41:49<13:49:25,  3.74it/s] 50%|████▉     | 185590/371472 [3:41:49<13:51:41,  3.72it/s] 50%|████▉     | 185591/371472 [3:41:50<13:53:52,  3.72it/s] 50%|████▉     | 185592/371472 [3:41:50<13:42:50,  3.76it/s] 50%|████▉     | 185593/371472 [3:41:50<13:54:35,  3.71it/s] 50%|████▉     | 185594/371472 [3:41:50<13:52:58,  3.72it/s] 50%|████▉     | 185595/371472 [3:41:51<14:07:20,  3.66it/s] 50%|████▉     | 185596/371472 [3:41:51<14:39:26,  3.52it/s] 50%|████▉     | 185597/371472 [3:41:51<14:22:57,  3.59it/s] 50%|████▉     | 185598/371472 [3:41:52<14:07:38,  3.65it/s] 50%|████▉     | 185599/371472 [3:41:52<14:20:45,  3.60it/s] 50%|████▉     | 185600/371472 [3:41:52<14:14:28,  3.63it/s]                                                            {'loss': 3.1616, 'learning_rate': 5.50572087310651e-07, 'epoch': 7.99}
 50%|████▉     | 185600/371472 [3:41:52<14:14:28,  3.63it/s] 50%|████▉     | 185601/371472 [3:41:52<15:05:46,  3.42it/s] 50%|████▉     | 185602/371472 [3:41:53<15:03:11,  3.43it/s] 50%|████▉     | 185603/371472 [3:41:53<14:37:06,  3.53it/s] 50%|████▉     | 185604/371472 [3:41:53<16:45:58,  3.08it/s] 50%|████▉     | 185605/371472 [3:41:54<15:51:17,  3.26it/s] 50%|████▉     | 185606/371472 [3:41:54<15:09:51,  3.40it/s] 50%|████▉     | 185607/371472 [3:41:54<14:55:42,  3.46it/s] 50%|████▉     | 185608/371472 [3:41:54<14:23:58,  3.59it/s] 50%|████▉     | 185609/371472 [3:41:55<14:25:19,  3.58it/s] 50%|████▉     | 185610/371472 [3:41:55<14:08:48,  3.65it/s] 50%|████▉     | 185611/371472 [3:41:55<14:24:02,  3.59it/s] 50%|████▉     | 185612/371472 [3:41:56<14:38:35,  3.53it/s] 50%|████▉     | 185613/371472 [3:41:56<14:24:31,  3.58it/s] 50%|████▉     | 185614/371472 [3:41:56<14:28:23,  3.57it/s] 50%|████▉     | 185615/371472 [3:41:56<14:31:15,  3.56it/s] 50%|████▉     | 185616/371472 [3:41:57<14:35:58,  3.54it/s] 50%|████▉     | 185617/371472 [3:41:57<14:19:46,  3.60it/s] 50%|████▉     | 185618/371472 [3:41:57<14:07:12,  3.66it/s] 50%|████▉     | 185619/371472 [3:41:58<14:13:04,  3.63it/s] 50%|████▉     | 185620/371472 [3:41:58<14:01:00,  3.68it/s]                                                            {'loss': 3.1027, 'learning_rate': 5.50523605335172e-07, 'epoch': 8.0}
 50%|████▉     | 185620/371472 [3:41:58<14:01:00,  3.68it/s] 50%|████▉     | 185621/371472 [3:41:58<14:06:23,  3.66it/s] 50%|████▉     | 185622/371472 [3:41:58<13:36:18,  3.79it/s] 50%|████▉     | 185623/371472 [3:41:59<14:03:55,  3.67it/s] 50%|████▉     | 185624/371472 [3:41:59<15:24:58,  3.35it/s] 50%|████▉     | 185625/371472 [3:41:59<15:51:03,  3.26it/s] 50%|████▉     | 185626/371472 [3:42:00<15:47:24,  3.27it/s] 50%|████▉     | 185627/371472 [3:42:00<15:49:13,  3.26it/s] 50%|████▉     | 185628/371472 [3:42:00<15:04:25,  3.42it/s] 50%|████▉     | 185629/371472 [3:42:00<15:00:28,  3.44it/s] 50%|████▉     | 185630/371472 [3:42:01<15:25:09,  3.35it/s] 50%|████▉     | 185631/371472 [3:42:01<16:22:12,  3.15it/s] 50%|████▉     | 185632/371472 [3:42:01<15:30:50,  3.33it/s] 50%|████▉     | 185633/371472 [3:42:02<14:45:16,  3.50it/s] 50%|████▉     | 185634/371472 [3:42:02<15:07:11,  3.41it/s] 50%|████▉     | 185635/371472 [3:42:02<14:51:47,  3.47it/s] 50%|████▉     | 185636/371472 [3:42:02<14:27:44,  3.57it/s] 50%|████▉     | 185637/371472 [3:42:03<14:49:18,  3.48it/s] 50%|████▉     | 185638/371472 [3:42:03<14:31:10,  3.56it/s] 50%|████▉     | 185639/371472 [3:42:03<15:10:17,  3.40it/s] 50%|████▉     | 185640/371472 [3:42:04<14:42:13,  3.51it/s]                                                            {'loss': 3.0825, 'learning_rate': 5.504751233596931e-07, 'epoch': 8.0}
 50%|████▉     | 185640/371472 [3:42:04<14:42:13,  3.51it/s] 50%|████▉     | 185641/371472 [3:42:04<14:32:09,  3.55it/s] 50%|████▉     | 185642/371472 [3:42:04<13:55:27,  3.71it/s] 50%|████▉     | 185643/371472 [3:42:04<13:53:40,  3.72it/s] 50%|████▉     | 185644/371472 [3:42:05<14:10:44,  3.64it/s] 50%|████▉     | 185645/371472 [3:42:05<14:04:34,  3.67it/s] 50%|████▉     | 185646/371472 [3:42:05<14:03:59,  3.67it/s] 50%|████▉     | 185647/371472 [3:42:06<15:32:46,  3.32it/s] 50%|████▉     | 185648/371472 [3:42:06<15:14:59,  3.38it/s] 50%|████▉     | 185649/371472 [3:42:06<14:50:30,  3.48it/s] 50%|████▉     | 185650/371472 [3:42:06<14:41:58,  3.51it/s] 50%|████▉     | 185651/371472 [3:42:07<14:33:37,  3.55it/s] 50%|████▉     | 185652/371472 [3:42:07<15:14:02,  3.39it/s] 50%|████▉     | 185653/371472 [3:42:07<15:06:40,  3.42it/s] 50%|████▉     | 185654/371472 [3:42:08<14:32:59,  3.55it/s] 50%|████▉     | 185655/371472 [3:42:08<14:05:02,  3.66it/s] 50%|████▉     | 185656/371472 [3:42:08<14:08:58,  3.65it/s] 50%|████▉     | 185657/371472 [3:42:08<14:29:59,  3.56it/s] 50%|████▉     | 185658/371472 [3:42:09<13:56:46,  3.70it/s] 50%|████▉     | 185659/371472 [3:42:09<13:59:38,  3.69it/s] 50%|████▉     | 185660/371472 [3:42:09<15:00:33,  3.44it/s]                                                            {'loss': 3.1664, 'learning_rate': 5.504266413842143e-07, 'epoch': 8.0}
 50%|████▉     | 185660/371472 [3:42:09<15:00:33,  3.44it/s] 50%|████▉     | 185661/371472 [3:42:10<14:45:44,  3.50it/s] 50%|████▉     | 185662/371472 [3:42:10<14:26:43,  3.57it/s] 50%|████▉     | 185663/371472 [3:42:10<14:10:58,  3.64it/s] 50%|████▉     | 185664/371472 [3:42:10<13:44:29,  3.76it/s] 50%|████▉     | 185665/371472 [3:42:11<13:40:34,  3.77it/s] 50%|████▉     | 185666/371472 [3:42:11<17:41:34,  2.92it/s] 50%|████▉     | 185667/371472 [3:42:11<16:33:59,  3.12it/s] 50%|████▉     | 185668/371472 [3:42:12<15:41:18,  3.29it/s] 50%|████▉     | 185669/371472 [3:42:12<15:19:24,  3.37it/s] 50%|████▉     | 185670/371472 [3:42:12<15:05:34,  3.42it/s] 50%|████▉     | 185671/371472 [3:42:13<16:00:24,  3.22it/s] 50%|████▉     | 185672/371472 [3:42:13<16:30:33,  3.13it/s] 50%|████▉     | 185673/371472 [3:42:13<16:31:37,  3.12it/s] 50%|████▉     | 185674/371472 [3:42:13<15:22:43,  3.36it/s] 50%|████▉     | 185675/371472 [3:42:14<14:55:50,  3.46it/s] 50%|████▉     | 185676/371472 [3:42:14<14:29:27,  3.56it/s] 50%|████▉     | 185677/371472 [3:42:14<14:19:53,  3.60it/s] 50%|████▉     | 185678/371472 [3:42:15<13:55:03,  3.71it/s] 50%|████▉     | 185679/371472 [3:42:15<13:54:47,  3.71it/s] 50%|████▉     | 185680/371472 [3:42:15<14:18:14,  3.61it/s]                                                            {'loss': 3.0717, 'learning_rate': 5.503781594087354e-07, 'epoch': 8.0}
 50%|████▉     | 185680/371472 [3:42:15<14:18:14,  3.61it/s] 50%|████▉     | 185681/371472 [3:42:15<14:06:58,  3.66it/s] 50%|████▉     | 185682/371472 [3:42:16<13:42:28,  3.76it/s] 50%|████▉     | 185683/371472 [3:42:16<13:56:21,  3.70it/s] 50%|████▉     | 185684/371472 [3:42:16<14:51:52,  3.47it/s] 50%|████▉     | 185685/371472 [3:42:16<14:27:02,  3.57it/s] 50%|████▉     | 185686/371472 [3:42:17<14:23:35,  3.59it/s] 50%|████▉     | 185687/371472 [3:42:17<14:35:57,  3.53it/s] 50%|████▉     | 185688/371472 [3:42:17<13:45:27,  3.75it/s] 50%|████▉     | 185689/371472 [3:42:18<14:08:29,  3.65it/s] 50%|████▉     | 185690/371472 [3:42:18<14:09:52,  3.64it/s] 50%|████▉     | 185691/371472 [3:42:18<15:27:21,  3.34it/s] 50%|████▉     | 185692/371472 [3:42:18<14:59:10,  3.44it/s] 50%|████▉     | 185693/371472 [3:42:19<14:31:55,  3.55it/s] 50%|████▉     | 185694/371472 [3:42:19<14:33:55,  3.54it/s] 50%|████▉     | 185695/371472 [3:42:19<15:24:56,  3.35it/s] 50%|████▉     | 185696/371472 [3:42:20<15:10:16,  3.40it/s] 50%|████▉     | 185697/371472 [3:42:20<14:47:34,  3.49it/s] 50%|████▉     | 185698/371472 [3:42:20<14:54:59,  3.46it/s] 50%|████▉     | 185699/371472 [3:42:20<14:33:54,  3.54it/s] 50%|████▉     | 185700/371472 [3:42:21<15:30:47,  3.33it/s]                                                            {'loss': 3.023, 'learning_rate': 5.503296774332564e-07, 'epoch': 8.0}
 50%|████▉     | 185700/371472 [3:42:21<15:30:47,  3.33it/s] 50%|████▉     | 185701/371472 [3:42:21<15:10:45,  3.40it/s] 50%|████▉     | 185702/371472 [3:42:21<14:11:46,  3.63it/s] 50%|████▉     | 185703/371472 [3:42:22<14:05:37,  3.66it/s] 50%|████▉     | 185704/371472 [3:42:22<13:52:19,  3.72it/s] 50%|████▉     | 185705/371472 [3:42:22<14:03:54,  3.67it/s] 50%|████▉     | 185706/371472 [3:42:22<14:34:54,  3.54it/s] 50%|████▉     | 185707/371472 [3:42:23<14:40:57,  3.51it/s] 50%|████▉     | 185708/371472 [3:42:23<14:11:08,  3.64it/s] 50%|████▉     | 185709/371472 [3:42:23<15:24:50,  3.35it/s] 50%|████▉     | 185710/371472 [3:42:24<16:34:27,  3.11it/s] 50%|████▉     | 185711/371472 [3:42:24<16:01:02,  3.22it/s] 50%|████▉     | 185712/371472 [3:42:24<16:18:08,  3.17it/s] 50%|████▉     | 185713/371472 [3:42:25<15:40:00,  3.29it/s] 50%|████▉     | 185714/371472 [3:42:25<15:34:49,  3.31it/s] 50%|████▉     | 185715/371472 [3:42:25<14:55:18,  3.46it/s] 50%|████▉     | 185716/371472 [3:42:25<15:39:28,  3.30it/s] 50%|████▉     | 185717/371472 [3:42:26<15:16:06,  3.38it/s] 50%|████▉     | 185718/371472 [3:42:26<14:39:35,  3.52it/s] 50%|████▉     | 185719/371472 [3:42:26<14:56:53,  3.45it/s] 50%|████▉     | 185720/371472 [3:42:27<14:52:41,  3.47it/s]                                                            {'loss': 3.1252, 'learning_rate': 5.502811954577776e-07, 'epoch': 8.0}
 50%|████▉     | 185720/371472 [3:42:27<14:52:41,  3.47it/s] 50%|████▉     | 185721/371472 [3:42:27<15:00:43,  3.44it/s] 50%|████▉     | 185722/371472 [3:42:27<14:57:55,  3.45it/s] 50%|████▉     | 185723/371472 [3:42:28<15:28:56,  3.33it/s] 50%|████▉     | 185724/371472 [3:42:28<15:22:35,  3.36it/s] 50%|████▉     | 185725/371472 [3:42:28<15:46:01,  3.27it/s] 50%|████▉     | 185726/371472 [3:42:28<14:58:18,  3.45it/s] 50%|████▉     | 185727/371472 [3:42:29<14:43:07,  3.51it/s] 50%|████▉     | 185728/371472 [3:42:29<14:30:27,  3.56it/s] 50%|████▉     | 185729/371472 [3:42:29<14:18:13,  3.61it/s] 50%|████▉     | 185730/371472 [3:42:29<14:11:08,  3.64it/s] 50%|████▉     | 185731/371472 [3:42:30<16:03:03,  3.21it/s] 50%|████▉     | 185732/371472 [3:42:30<15:38:11,  3.30it/s] 50%|████▉     | 185733/371472 [3:42:30<14:54:16,  3.46it/s] 50%|████▉     | 185734/371472 [3:42:31<14:29:09,  3.56it/s] 50%|████▉     | 185735/371472 [3:42:31<14:31:52,  3.55it/s] 50%|█████     | 185736/371472 [3:42:31<14:55:39,  3.46it/s]Some non-default generation parameters are set in the model config. These should go into a GenerationConfig file (https://huggingface.co./docs/transformers/generation_strategies#save-a-custom-decoding-strategy-with-your-model) instead. This warning will be raised to an exception in v4.41.
Non-default generation parameters: {'max_length': 200, 'early_stopping': True, 'num_beams': 5, 'forced_eos_token_id': 2}
/opt/conda/lib/python3.10/multiprocessing/popen_fork.py:66: RuntimeWarning: os.fork() was called. os.fork() is incompatible with multithreaded code, and JAX is multithreaded, so this will likely lead to a deadlock.
  self.pid = os.fork()
 50%|█████     | 185737/371472 [3:43:01<469:21:20,  9.10s/it] 50%|█████     | 185738/371472 [3:43:01<333:29:46,  6.46s/it] 50%|█████     | 185739/371472 [3:43:02<237:54:36,  4.61s/it] 50%|█████     | 185740/371472 [3:43:02<173:48:21,  3.37s/it]                                                             {'loss': 3.0125, 'learning_rate': 5.502327134822987e-07, 'epoch': 8.0}
 50%|█████     | 185740/371472 [3:43:02<173:48:21,  3.37s/it] 50%|█████     | 185741/371472 [3:43:02<126:36:48,  2.45s/it] 50%|█████     | 185742/371472 [3:43:03<93:41:49,  1.82s/it]  50%|█████     | 185743/371472 [3:43:03<70:47:23,  1.37s/it] 50%|█████     | 185744/371472 [3:43:03<55:14:12,  1.07s/it] 50%|█████     | 185745/371472 [3:43:04<44:39:19,  1.16it/s] 50%|█████     | 185746/371472 [3:43:04<36:23:40,  1.42it/s] 50%|█████     | 185747/371472 [3:43:04<30:27:16,  1.69it/s] 50%|█████     | 185748/371472 [3:43:05<26:34:25,  1.94it/s] 50%|█████     | 185749/371472 [3:43:05<23:49:06,  2.17it/s] 50%|█████     | 185750/371472 [3:43:05<22:29:47,  2.29it/s] 50%|█████     | 185751/371472 [3:43:06<20:56:02,  2.46it/s] 50%|█████     | 185752/371472 [3:43:06<18:48:59,  2.74it/s] 50%|█████     | 185753/371472 [3:43:06<17:51:03,  2.89it/s] 50%|█████     | 185754/371472 [3:43:07<16:48:33,  3.07it/s] 50%|█████     | 185755/371472 [3:43:07<16:17:02,  3.17it/s] 50%|█████     | 185756/371472 [3:43:07<17:18:24,  2.98it/s] 50%|█████     | 185757/371472 [3:43:08<15:54:23,  3.24it/s] 50%|█████     | 185758/371472 [3:43:08<16:18:57,  3.16it/s] 50%|█████     | 185759/371472 [3:43:08<15:54:33,  3.24it/s] 50%|█████     | 185760/371472 [3:43:08<15:31:24,  3.32it/s]                                                            {'loss': 2.8844, 'learning_rate': 5.501842315068197e-07, 'epoch': 8.0}
 50%|█████     | 185760/371472 [3:43:08<15:31:24,  3.32it/s] 50%|█████     | 185761/371472 [3:43:09<15:11:12,  3.40it/s] 50%|█████     | 185762/371472 [3:43:09<14:26:33,  3.57it/s] 50%|█████     | 185763/371472 [3:43:09<14:42:35,  3.51it/s] 50%|█████     | 185764/371472 [3:43:10<15:03:33,  3.43it/s] 50%|█████     | 185765/371472 [3:43:10<14:24:00,  3.58it/s] 50%|█████     | 185766/371472 [3:43:10<14:43:19,  3.50it/s] 50%|█████     | 185767/371472 [3:43:10<14:47:33,  3.49it/s] 50%|█████     | 185768/371472 [3:43:11<14:17:20,  3.61it/s] 50%|█████     | 185769/371472 [3:43:11<14:25:18,  3.58it/s] 50%|█████     | 185770/371472 [3:43:11<14:23:35,  3.58it/s] 50%|█████     | 185771/371472 [3:43:11<14:13:12,  3.63it/s] 50%|█████     | 185772/371472 [3:43:12<13:46:57,  3.74it/s] 50%|█████     | 185773/371472 [3:43:12<14:07:24,  3.65it/s] 50%|█████     | 185774/371472 [3:43:12<13:58:44,  3.69it/s] 50%|█████     | 185775/371472 [3:43:13<13:45:13,  3.75it/s] 50%|█████     | 185776/371472 [3:43:13<13:30:27,  3.82it/s] 50%|█████     | 185777/371472 [3:43:13<13:53:01,  3.72it/s] 50%|█████     | 185778/371472 [3:43:13<13:52:50,  3.72it/s] 50%|█████     | 185779/371472 [3:43:14<14:33:10,  3.54it/s] 50%|█████     | 185780/371472 [3:43:14<14:21:58,  3.59it/s]                                                            {'loss': 2.9992, 'learning_rate': 5.501357495313408e-07, 'epoch': 8.0}
 50%|█████     | 185780/371472 [3:43:14<14:21:58,  3.59it/s] 50%|█████     | 185781/371472 [3:43:14<14:34:56,  3.54it/s] 50%|█████     | 185782/371472 [3:43:15<14:32:21,  3.55it/s] 50%|█████     | 185783/371472 [3:43:15<15:59:32,  3.23it/s] 50%|█████     | 185784/371472 [3:43:15<16:18:59,  3.16it/s] 50%|█████     | 185785/371472 [3:43:15<15:32:30,  3.32it/s] 50%|█████     | 185786/371472 [3:43:16<15:28:06,  3.33it/s] 50%|█████     | 185787/371472 [3:43:16<15:29:58,  3.33it/s] 50%|█████     | 185788/371472 [3:43:16<14:39:29,  3.52it/s] 50%|█████     | 185789/371472 [3:43:17<14:41:46,  3.51it/s] 50%|█████     | 185790/371472 [3:43:17<15:13:33,  3.39it/s] 50%|█████     | 185791/371472 [3:43:17<15:01:06,  3.43it/s] 50%|█████     | 185792/371472 [3:43:18<16:02:13,  3.22it/s] 50%|█████     | 185793/371472 [3:43:18<16:46:55,  3.07it/s] 50%|█████     | 185794/371472 [3:43:18<16:30:51,  3.12it/s] 50%|█████     | 185795/371472 [3:43:18<15:26:21,  3.34it/s] 50%|█████     | 185796/371472 [3:43:19<16:29:23,  3.13it/s] 50%|█████     | 185797/371472 [3:43:19<16:56:52,  3.04it/s] 50%|█████     | 185798/371472 [3:43:20<16:55:53,  3.05it/s] 50%|█████     | 185799/371472 [3:43:20<15:47:20,  3.27it/s] 50%|█████     | 185800/371472 [3:43:20<16:54:11,  3.05it/s]                                                            {'loss': 2.9928, 'learning_rate': 5.50087267555862e-07, 'epoch': 8.0}
 50%|█████     | 185800/371472 [3:43:20<16:54:11,  3.05it/s] 50%|█████     | 185801/371472 [3:43:21<17:10:22,  3.00it/s] 50%|█████     | 185802/371472 [3:43:21<16:39:50,  3.09it/s] 50%|█████     | 185803/371472 [3:43:21<16:23:54,  3.15it/s] 50%|█████     | 185804/371472 [3:43:21<16:14:47,  3.17it/s] 50%|█████     | 185805/371472 [3:43:22<15:46:03,  3.27it/s] 50%|█████     | 185806/371472 [3:43:22<14:59:40,  3.44it/s] 50%|█████     | 185807/371472 [3:43:22<14:46:38,  3.49it/s] 50%|█████     | 185808/371472 [3:43:23<14:24:26,  3.58it/s] 50%|█████     | 185809/371472 [3:43:23<14:24:39,  3.58it/s] 50%|█████     | 185810/371472 [3:43:23<14:09:52,  3.64it/s] 50%|█████     | 185811/371472 [3:43:23<14:47:20,  3.49it/s] 50%|█████     | 185812/371472 [3:43:24<14:22:51,  3.59it/s] 50%|█████     | 185813/371472 [3:43:24<13:52:32,  3.72it/s] 50%|█████     | 185814/371472 [3:43:24<14:21:19,  3.59it/s] 50%|█████     | 185815/371472 [3:43:24<14:07:38,  3.65it/s] 50%|█████     | 185816/371472 [3:43:25<14:05:44,  3.66it/s] 50%|█████     | 185817/371472 [3:43:25<14:06:18,  3.66it/s] 50%|█████     | 185818/371472 [3:43:25<14:17:51,  3.61it/s] 50%|█████     | 185819/371472 [3:43:26<14:57:48,  3.45it/s] 50%|█████     | 185820/371472 [3:43:26<15:57:41,  3.23it/s]                                                            {'loss': 2.8046, 'learning_rate': 5.500387855803831e-07, 'epoch': 8.0}
 50%|█████     | 185820/371472 [3:43:26<15:57:41,  3.23it/s] 50%|█████     | 185821/371472 [3:43:26<15:19:46,  3.36it/s] 50%|█████     | 185822/371472 [3:43:26<14:58:10,  3.44it/s] 50%|█████     | 185823/371472 [3:43:27<14:19:52,  3.60it/s] 50%|█████     | 185824/371472 [3:43:27<14:13:15,  3.63it/s] 50%|█████     | 185825/371472 [3:43:27<14:21:37,  3.59it/s] 50%|█████     | 185826/371472 [3:43:28<15:03:24,  3.42it/s] 50%|█████     | 185827/371472 [3:43:28<15:00:24,  3.44it/s] 50%|█████     | 185828/371472 [3:43:28<15:14:06,  3.38it/s] 50%|█████     | 185829/371472 [3:43:28<14:50:13,  3.48it/s] 50%|█████     | 185830/371472 [3:43:29<14:28:53,  3.56it/s] 50%|█████     | 185831/371472 [3:43:29<14:59:31,  3.44it/s] 50%|█████     | 185832/371472 [3:43:29<14:25:20,  3.58it/s] 50%|█████     | 185833/371472 [3:43:30<15:09:18,  3.40it/s] 50%|█████     | 185834/371472 [3:43:30<14:59:23,  3.44it/s] 50%|█████     | 185835/371472 [3:43:30<15:22:11,  3.36it/s] 50%|█████     | 185836/371472 [3:43:31<14:49:36,  3.48it/s] 50%|█████     | 185837/371472 [3:43:31<15:46:46,  3.27it/s] 50%|█████     | 185838/371472 [3:43:31<15:17:49,  3.37it/s] 50%|█████     | 185839/371472 [3:43:31<15:09:41,  3.40it/s] 50%|█████     | 185840/371472 [3:43:32<14:57:53,  3.45it/s]                                                            {'loss': 2.7886, 'learning_rate': 5.499903036049042e-07, 'epoch': 8.0}
 50%|█████     | 185840/371472 [3:43:32<14:57:53,  3.45it/s] 50%|█████     | 185841/371472 [3:43:32<15:31:33,  3.32it/s] 50%|█████     | 185842/371472 [3:43:32<14:44:29,  3.50it/s] 50%|█████     | 185843/371472 [3:43:33<14:36:16,  3.53it/s] 50%|█████     | 185844/371472 [3:43:33<14:33:35,  3.54it/s] 50%|█████     | 185845/371472 [3:43:33<14:26:07,  3.57it/s] 50%|█████     | 185846/371472 [3:43:33<14:48:31,  3.48it/s] 50%|█████     | 185847/371472 [3:43:34<14:38:55,  3.52it/s] 50%|█████     | 185848/371472 [3:43:34<14:25:02,  3.58it/s] 50%|█████     | 185849/371472 [3:43:34<15:05:29,  3.42it/s] 50%|█████     | 185850/371472 [3:43:35<15:19:07,  3.37it/s] 50%|█████     | 185851/371472 [3:43:35<15:15:52,  3.38it/s] 50%|█████     | 185852/371472 [3:43:35<14:54:28,  3.46it/s] 50%|█████     | 185853/371472 [3:43:35<15:23:03,  3.35it/s] 50%|█████     | 185854/371472 [3:43:36<16:38:48,  3.10it/s] 50%|█████     | 185855/371472 [3:43:36<16:38:10,  3.10it/s] 50%|█████     | 185856/371472 [3:43:36<16:40:15,  3.09it/s] 50%|█████     | 185857/371472 [3:43:37<15:49:09,  3.26it/s] 50%|█████     | 185858/371472 [3:43:37<15:44:46,  3.27it/s] 50%|█████     | 185859/371472 [3:43:37<15:01:31,  3.43it/s] 50%|█████     | 185860/371472 [3:43:38<14:50:32,  3.47it/s]                                                            {'loss': 3.1117, 'learning_rate': 5.499418216294253e-07, 'epoch': 8.01}
 50%|█████     | 185860/371472 [3:43:38<14:50:32,  3.47it/s] 50%|█████     | 185861/371472 [3:43:38<15:42:56,  3.28it/s] 50%|█████     | 185862/371472 [3:43:38<15:34:01,  3.31it/s] 50%|█████     | 185863/371472 [3:43:39<15:34:03,  3.31it/s] 50%|█████     | 185864/371472 [3:43:39<16:20:31,  3.15it/s] 50%|█████     | 185865/371472 [3:43:39<15:59:20,  3.22it/s] 50%|█████     | 185866/371472 [3:43:39<15:30:52,  3.32it/s] 50%|█████     | 185867/371472 [3:43:40<15:15:05,  3.38it/s] 50%|█████     | 185868/371472 [3:43:40<15:20:30,  3.36it/s] 50%|█████     | 185869/371472 [3:43:40<15:12:10,  3.39it/s] 50%|█████     | 185870/371472 [3:43:41<16:54:38,  3.05it/s] 50%|█████     | 185871/371472 [3:43:41<15:54:53,  3.24it/s] 50%|█████     | 185872/371472 [3:43:41<15:21:52,  3.36it/s] 50%|█████     | 185873/371472 [3:43:42<15:34:17,  3.31it/s] 50%|█████     | 185874/371472 [3:43:42<16:03:21,  3.21it/s] 50%|█████     | 185875/371472 [3:43:42<15:35:09,  3.31it/s] 50%|█████     | 185876/371472 [3:43:42<15:11:36,  3.39it/s] 50%|█████     | 185877/371472 [3:43:43<15:06:50,  3.41it/s] 50%|█████     | 185878/371472 [3:43:43<16:50:03,  3.06it/s] 50%|█████     | 185879/371472 [3:43:43<16:09:20,  3.19it/s] 50%|█████     | 185880/371472 [3:43:44<15:58:56,  3.23it/s]                                                            {'loss': 2.9099, 'learning_rate': 5.498933396539464e-07, 'epoch': 8.01}
 50%|█████     | 185880/371472 [3:43:44<15:58:56,  3.23it/s] 50%|█████     | 185881/371472 [3:43:44<16:16:13,  3.17it/s] 50%|█████     | 185882/371472 [3:43:44<15:38:41,  3.30it/s] 50%|█████     | 185883/371472 [3:43:45<16:12:18,  3.18it/s] 50%|█████     | 185884/371472 [3:43:45<15:14:59,  3.38it/s] 50%|█████     | 185885/371472 [3:43:45<15:17:53,  3.37it/s] 50%|█████     | 185886/371472 [3:43:46<14:56:46,  3.45it/s] 50%|█████     | 185887/371472 [3:43:46<14:35:29,  3.53it/s] 50%|█████     | 185888/371472 [3:43:46<14:30:20,  3.55it/s] 50%|█████     | 185889/371472 [3:43:46<13:53:28,  3.71it/s] 50%|█████     | 185890/371472 [3:43:47<15:50:19,  3.25it/s] 50%|█████     | 185891/371472 [3:43:47<15:23:17,  3.35it/s] 50%|█████     | 185892/371472 [3:43:47<15:55:19,  3.24it/s] 50%|█████     | 185893/371472 [3:43:48<15:43:29,  3.28it/s] 50%|█████     | 185894/371472 [3:43:48<15:08:31,  3.40it/s] 50%|█████     | 185895/371472 [3:43:48<15:05:49,  3.41it/s] 50%|█████     | 185896/371472 [3:43:48<14:48:11,  3.48it/s] 50%|█████     | 185897/371472 [3:43:49<14:43:35,  3.50it/s] 50%|█████     | 185898/371472 [3:43:49<14:36:15,  3.53it/s] 50%|█████     | 185899/371472 [3:43:49<14:10:58,  3.63it/s] 50%|█████     | 185900/371472 [3:43:50<14:31:08,  3.55it/s]                                                            {'loss': 3.054, 'learning_rate': 5.498448576784675e-07, 'epoch': 8.01}
 50%|█████     | 185900/371472 [3:43:50<14:31:08,  3.55it/s] 50%|█████     | 185901/371472 [3:43:50<14:28:22,  3.56it/s] 50%|█████     | 185902/371472 [3:43:50<14:36:00,  3.53it/s] 50%|█████     | 185903/371472 [3:43:50<15:42:45,  3.28it/s] 50%|█████     | 185904/371472 [3:43:51<16:35:01,  3.11it/s] 50%|█████     | 185905/371472 [3:43:51<15:59:51,  3.22it/s] 50%|█████     | 185906/371472 [3:43:51<15:14:46,  3.38it/s] 50%|█████     | 185907/371472 [3:43:52<15:48:15,  3.26it/s] 50%|█████     | 185908/371472 [3:43:52<15:58:44,  3.23it/s] 50%|█████     | 185909/371472 [3:43:52<15:37:41,  3.30it/s] 50%|█████     | 185910/371472 [3:43:53<15:27:13,  3.34it/s] 50%|█████     | 185911/371472 [3:43:53<14:38:41,  3.52it/s] 50%|█████     | 185912/371472 [3:43:53<14:29:27,  3.56it/s] 50%|█████     | 185913/371472 [3:43:53<14:19:03,  3.60it/s] 50%|█████     | 185914/371472 [3:43:54<14:23:14,  3.58it/s] 50%|█████     | 185915/371472 [3:43:54<14:18:56,  3.60it/s] 50%|█████     | 185916/371472 [3:43:54<14:49:45,  3.48it/s] 50%|█████     | 185917/371472 [3:43:55<14:52:56,  3.46it/s] 50%|█████     | 185918/371472 [3:43:55<14:45:15,  3.49it/s] 50%|█████     | 185919/371472 [3:43:55<16:13:10,  3.18it/s] 50%|█████     | 185920/371472 [3:43:56<15:27:14,  3.34it/s]                                                            {'loss': 3.0408, 'learning_rate': 5.497963757029886e-07, 'epoch': 8.01}
 50%|█████     | 185920/371472 [3:43:56<15:27:14,  3.34it/s] 50%|█████     | 185921/371472 [3:43:56<15:30:18,  3.32it/s] 50%|█████     | 185922/371472 [3:43:56<15:30:29,  3.32it/s] 50%|█████     | 185923/371472 [3:43:56<15:51:53,  3.25it/s] 50%|█████     | 185924/371472 [3:43:57<15:46:37,  3.27it/s] 50%|█████     | 185925/371472 [3:43:57<15:17:42,  3.37it/s] 50%|█████     | 185926/371472 [3:43:57<14:43:17,  3.50it/s] 50%|█████     | 185927/371472 [3:43:58<14:20:52,  3.59it/s] 50%|█████     | 185928/371472 [3:43:58<13:54:25,  3.71it/s] 50%|█████     | 185929/371472 [3:43:58<14:41:50,  3.51it/s] 50%|█████     | 185930/371472 [3:43:58<14:30:05,  3.55it/s] 50%|█████     | 185931/371472 [3:43:59<14:44:20,  3.50it/s] 50%|█████     | 185932/371472 [3:43:59<14:30:13,  3.55it/s] 50%|█████     | 185933/371472 [3:43:59<14:57:11,  3.45it/s] 50%|█████     | 185934/371472 [3:44:00<15:23:38,  3.35it/s] 50%|█████     | 185935/371472 [3:44:00<14:51:21,  3.47it/s] 50%|█████     | 185936/371472 [3:44:00<16:10:00,  3.19it/s] 50%|█████     | 185937/371472 [3:44:01<17:04:45,  3.02it/s] 50%|█████     | 185938/371472 [3:44:01<16:01:57,  3.21it/s] 50%|█████     | 185939/371472 [3:44:01<15:24:33,  3.34it/s] 50%|█████     | 185940/371472 [3:44:01<14:48:44,  3.48it/s]                                                            {'loss': 2.8832, 'learning_rate': 5.497478937275097e-07, 'epoch': 8.01}
 50%|█████     | 185940/371472 [3:44:01<14:48:44,  3.48it/s] 50%|█████     | 185941/371472 [3:44:02<15:02:27,  3.43it/s] 50%|█████     | 185942/371472 [3:44:02<14:30:57,  3.55it/s] 50%|█████     | 185943/371472 [3:44:02<14:26:54,  3.57it/s] 50%|█████     | 185944/371472 [3:44:03<14:55:53,  3.45it/s] 50%|█████     | 185945/371472 [3:44:03<14:51:20,  3.47it/s] 50%|█████     | 185946/371472 [3:44:03<15:29:50,  3.33it/s] 50%|█████     | 185947/371472 [3:44:03<15:16:15,  3.37it/s] 50%|█████     | 185948/371472 [3:44:04<15:19:51,  3.36it/s] 50%|█████     | 185949/371472 [3:44:04<15:09:10,  3.40it/s] 50%|█████     | 185950/371472 [3:44:04<15:02:47,  3.42it/s] 50%|█████     | 185951/371472 [3:44:05<15:30:24,  3.32it/s] 50%|█████     | 185952/371472 [3:44:05<15:08:37,  3.40it/s] 50%|█████     | 185953/371472 [3:44:05<14:57:56,  3.44it/s] 50%|█████     | 185954/371472 [3:44:05<14:43:15,  3.50it/s] 50%|█████     | 185955/371472 [3:44:06<14:47:52,  3.48it/s] 50%|█████     | 185956/371472 [3:44:06<14:42:34,  3.50it/s] 50%|█████     | 185957/371472 [3:44:06<14:46:18,  3.49it/s] 50%|█████     | 185958/371472 [3:44:07<14:25:40,  3.57it/s] 50%|█████     | 185959/371472 [3:44:07<14:53:41,  3.46it/s] 50%|█████     | 185960/371472 [3:44:07<15:03:44,  3.42it/s]                                                            {'loss': 3.1085, 'learning_rate': 5.496994117520308e-07, 'epoch': 8.01}
 50%|█████     | 185960/371472 [3:44:07<15:03:44,  3.42it/s] 50%|█████     | 185961/371472 [3:44:08<15:17:29,  3.37it/s] 50%|█████     | 185962/371472 [3:44:08<14:33:00,  3.54it/s] 50%|█████     | 185963/371472 [3:44:08<14:36:06,  3.53it/s] 50%|█████     | 185964/371472 [3:44:08<14:21:19,  3.59it/s] 50%|█████     | 185965/371472 [3:44:09<15:28:40,  3.33it/s] 50%|█████     | 185966/371472 [3:44:09<15:41:38,  3.28it/s] 50%|█████     | 185967/371472 [3:44:09<15:21:46,  3.35it/s] 50%|█████     | 185968/371472 [3:44:10<15:24:19,  3.34it/s] 50%|█████     | 185969/371472 [3:44:10<14:25:43,  3.57it/s] 50%|█████     | 185970/371472 [3:44:10<14:26:47,  3.57it/s] 50%|█████     | 185971/371472 [3:44:10<14:34:06,  3.54it/s] 50%|█████     | 185972/371472 [3:44:11<14:18:14,  3.60it/s] 50%|█████     | 185973/371472 [3:44:11<14:14:03,  3.62it/s] 50%|█████     | 185974/371472 [3:44:11<15:47:32,  3.26it/s] 50%|█████     | 185975/371472 [3:44:12<15:08:23,  3.40it/s] 50%|█████     | 185976/371472 [3:44:12<17:39:06,  2.92it/s] 50%|█████     | 185977/371472 [3:44:12<16:46:56,  3.07it/s] 50%|█████     | 185978/371472 [3:44:13<16:01:26,  3.22it/s] 50%|█████     | 185979/371472 [3:44:13<15:30:13,  3.32it/s] 50%|█████     | 185980/371472 [3:44:13<15:27:49,  3.33it/s]                                                            {'loss': 3.1403, 'learning_rate': 5.49650929776552e-07, 'epoch': 8.01}
 50%|█████     | 185980/371472 [3:44:13<15:27:49,  3.33it/s] 50%|█████     | 185981/371472 [3:44:13<14:42:39,  3.50it/s] 50%|█████     | 185982/371472 [3:44:14<14:36:23,  3.53it/s] 50%|█████     | 185983/371472 [3:44:14<14:27:21,  3.56it/s] 50%|█████     | 185984/371472 [3:44:14<14:09:28,  3.64it/s] 50%|█████     | 185985/371472 [3:44:15<14:52:41,  3.46it/s] 50%|█████     | 185986/371472 [3:44:15<14:17:57,  3.60it/s] 50%|█████     | 185987/371472 [3:44:15<13:45:14,  3.75it/s] 50%|█████     | 185988/371472 [3:44:15<13:41:55,  3.76it/s] 50%|█████     | 185989/371472 [3:44:16<14:01:40,  3.67it/s] 50%|█████     | 185990/371472 [3:44:16<14:00:38,  3.68it/s] 50%|█████     | 185991/371472 [3:44:16<13:45:41,  3.74it/s] 50%|█████     | 185992/371472 [3:44:16<13:53:25,  3.71it/s] 50%|█████     | 185993/371472 [3:44:17<14:42:35,  3.50it/s] 50%|█████     | 185994/371472 [3:44:17<16:08:52,  3.19it/s] 50%|█████     | 185995/371472 [3:44:17<15:44:47,  3.27it/s] 50%|█████     | 185996/371472 [3:44:18<15:03:51,  3.42it/s] 50%|█████     | 185997/371472 [3:44:18<15:03:20,  3.42it/s] 50%|█████     | 185998/371472 [3:44:18<15:00:27,  3.43it/s] 50%|█████     | 185999/371472 [3:44:18<14:27:28,  3.56it/s] 50%|█████     | 186000/371472 [3:44:19<14:07:57,  3.65it/s]                                                            {'loss': 3.0778, 'learning_rate': 5.49602447801073e-07, 'epoch': 8.01}
 50%|█████     | 186000/371472 [3:44:19<14:07:57,  3.65it/s] 50%|█████     | 186001/371472 [3:44:19<13:52:02,  3.72it/s] 50%|█████     | 186002/371472 [3:44:19<13:42:25,  3.76it/s] 50%|█████     | 186003/371472 [3:44:20<14:05:50,  3.65it/s] 50%|█████     | 186004/371472 [3:44:20<14:20:58,  3.59it/s] 50%|█████     | 186005/371472 [3:44:20<13:39:58,  3.77it/s] 50%|█████     | 186006/371472 [3:44:20<14:59:49,  3.44it/s] 50%|█████     | 186007/371472 [3:44:21<14:45:26,  3.49it/s] 50%|█████     | 186008/371472 [3:44:21<15:28:06,  3.33it/s] 50%|█████     | 186009/371472 [3:44:21<14:51:27,  3.47it/s] 50%|█████     | 186010/371472 [3:44:22<14:35:02,  3.53it/s] 50%|█████     | 186011/371472 [3:44:22<14:59:35,  3.44it/s] 50%|█████     | 186012/371472 [3:44:22<14:42:03,  3.50it/s] 50%|█████     | 186013/371472 [3:44:22<14:21:46,  3.59it/s] 50%|█████     | 186014/371472 [3:44:23<14:20:00,  3.59it/s] 50%|█████     | 186015/371472 [3:44:23<14:23:17,  3.58it/s] 50%|█████     | 186016/371472 [3:44:23<14:35:26,  3.53it/s] 50%|█████     | 186017/371472 [3:44:24<14:22:13,  3.58it/s] 50%|█████     | 186018/371472 [3:44:24<14:56:52,  3.45it/s] 50%|█████     | 186019/371472 [3:44:24<14:37:18,  3.52it/s] 50%|█████     | 186020/371472 [3:44:24<15:08:07,  3.40it/s]                                                            {'loss': 2.8438, 'learning_rate': 5.495539658255941e-07, 'epoch': 8.01}
 50%|█████     | 186020/371472 [3:44:24<15:08:07,  3.40it/s] 50%|█████     | 186021/371472 [3:44:25<15:21:15,  3.36it/s] 50%|█████     | 186022/371472 [3:44:25<15:33:43,  3.31it/s] 50%|█████     | 186023/371472 [3:44:25<15:05:48,  3.41it/s] 50%|█████     | 186024/371472 [3:44:26<14:17:33,  3.60it/s] 50%|█████     | 186025/371472 [3:44:26<15:26:33,  3.34it/s] 50%|█████     | 186026/371472 [3:44:26<14:56:48,  3.45it/s] 50%|█████     | 186027/371472 [3:44:26<15:06:58,  3.41it/s] 50%|█████     | 186028/371472 [3:44:27<17:13:41,  2.99it/s] 50%|█████     | 186029/371472 [3:44:27<16:25:14,  3.14it/s] 50%|█████     | 186030/371472 [3:44:27<15:55:38,  3.23it/s] 50%|█████     | 186031/371472 [3:44:28<16:01:20,  3.21it/s] 50%|█████     | 186032/371472 [3:44:28<15:54:42,  3.24it/s] 50%|█████     | 186033/371472 [3:44:28<16:48:09,  3.07it/s] 50%|█████     | 186034/371472 [3:44:29<16:24:16,  3.14it/s] 50%|█████     | 186035/371472 [3:44:29<15:52:42,  3.24it/s] 50%|█████     | 186036/371472 [3:44:29<15:44:32,  3.27it/s] 50%|█████     | 186037/371472 [3:44:30<15:13:12,  3.38it/s] 50%|█████     | 186038/371472 [3:44:30<15:07:13,  3.41it/s] 50%|█████     | 186039/371472 [3:44:30<15:05:28,  3.41it/s] 50%|█████     | 186040/371472 [3:44:30<14:21:30,  3.59it/s]                                                            {'loss': 2.9244, 'learning_rate': 5.495054838501154e-07, 'epoch': 8.01}
 50%|█████     | 186040/371472 [3:44:30<14:21:30,  3.59it/s] 50%|█████     | 186041/371472 [3:44:31<14:17:56,  3.60it/s] 50%|█████     | 186042/371472 [3:44:31<15:04:09,  3.42it/s] 50%|█████     | 186043/371472 [3:44:31<14:26:03,  3.57it/s] 50%|█████     | 186044/371472 [3:44:32<14:07:10,  3.65it/s] 50%|█████     | 186045/371472 [3:44:32<14:33:33,  3.54it/s] 50%|█████     | 186046/371472 [3:44:32<14:07:18,  3.65it/s] 50%|█████     | 186047/371472 [3:44:32<14:03:36,  3.66it/s] 50%|█████     | 186048/371472 [3:44:33<15:31:46,  3.32it/s] 50%|█████     | 186049/371472 [3:44:33<15:00:51,  3.43it/s] 50%|█████     | 186050/371472 [3:44:33<14:29:34,  3.55it/s] 50%|█████     | 186051/371472 [3:44:34<14:22:35,  3.58it/s] 50%|█████     | 186052/371472 [3:44:34<14:14:14,  3.62it/s] 50%|█████     | 186053/371472 [3:44:34<14:04:26,  3.66it/s] 50%|█████     | 186054/371472 [3:44:34<14:23:19,  3.58it/s] 50%|█████     | 186055/371472 [3:44:35<14:16:34,  3.61it/s] 50%|█████     | 186056/371472 [3:44:35<13:53:32,  3.71it/s] 50%|█████     | 186057/371472 [3:44:35<13:52:17,  3.71it/s] 50%|█████     | 186058/371472 [3:44:35<13:36:17,  3.79it/s] 50%|█████     | 186059/371472 [3:44:36<14:13:59,  3.62it/s] 50%|█████     | 186060/371472 [3:44:36<14:32:55,  3.54it/s]                                                            {'loss': 2.9812, 'learning_rate': 5.494570018746363e-07, 'epoch': 8.01}
 50%|█████     | 186060/371472 [3:44:36<14:32:55,  3.54it/s] 50%|█████     | 186061/371472 [3:44:36<14:06:59,  3.65it/s] 50%|█████     | 186062/371472 [3:44:37<13:59:50,  3.68it/s] 50%|█████     | 186063/371472 [3:44:37<14:01:14,  3.67it/s] 50%|█████     | 186064/371472 [3:44:37<14:12:04,  3.63it/s] 50%|█████     | 186065/371472 [3:44:37<14:43:47,  3.50it/s] 50%|█████     | 186066/371472 [3:44:38<14:15:43,  3.61it/s] 50%|█████     | 186067/371472 [3:44:38<14:24:23,  3.57it/s] 50%|█████     | 186068/371472 [3:44:38<14:52:45,  3.46it/s] 50%|█████     | 186069/371472 [3:44:39<15:10:07,  3.40it/s] 50%|█████     | 186070/371472 [3:44:39<15:19:05,  3.36it/s] 50%|█████     | 186071/371472 [3:44:39<15:06:52,  3.41it/s] 50%|█████     | 186072/371472 [3:44:39<14:57:01,  3.44it/s] 50%|█████     | 186073/371472 [3:44:40<15:27:53,  3.33it/s] 50%|█████     | 186074/371472 [3:44:40<16:54:53,  3.04it/s] 50%|█████     | 186075/371472 [3:44:40<16:01:55,  3.21it/s] 50%|█████     | 186076/371472 [3:44:41<15:35:52,  3.30it/s] 50%|█████     | 186077/371472 [3:44:41<16:48:22,  3.06it/s] 50%|█████     | 186078/371472 [3:44:41<15:36:47,  3.30it/s] 50%|█████     | 186079/371472 [3:44:42<20:01:10,  2.57it/s] 50%|█████     | 186080/371472 [3:44:42<17:53:29,  2.88it/s]                                                            {'loss': 3.0076, 'learning_rate': 5.494085198991574e-07, 'epoch': 8.01}
 50%|█████     | 186080/371472 [3:44:42<17:53:29,  2.88it/s] 50%|█████     | 186081/371472 [3:44:43<18:28:56,  2.79it/s] 50%|█████     | 186082/371472 [3:44:43<17:19:50,  2.97it/s] 50%|█████     | 186083/371472 [3:44:43<16:11:19,  3.18it/s] 50%|█████     | 186084/371472 [3:44:43<15:23:01,  3.35it/s] 50%|█████     | 186085/371472 [3:44:44<15:09:26,  3.40it/s] 50%|█████     | 186086/371472 [3:44:44<15:08:12,  3.40it/s] 50%|█████     | 186087/371472 [3:44:44<17:34:01,  2.93it/s] 50%|█████     | 186088/371472 [3:44:45<17:15:18,  2.98it/s] 50%|█████     | 186089/371472 [3:44:45<16:08:48,  3.19it/s] 50%|█████     | 186090/371472 [3:44:45<15:11:36,  3.39it/s] 50%|█████     | 186091/371472 [3:44:45<14:38:26,  3.52it/s] 50%|█████     | 186092/371472 [3:44:46<14:17:36,  3.60it/s] 50%|█████     | 186093/371472 [3:44:46<15:24:14,  3.34it/s] 50%|█████     | 186094/371472 [3:44:46<15:10:46,  3.39it/s] 50%|█████     | 186095/371472 [3:44:47<15:17:04,  3.37it/s] 50%|█████     | 186096/371472 [3:44:47<14:36:08,  3.53it/s] 50%|█████     | 186097/371472 [3:44:47<15:32:40,  3.31it/s] 50%|█████     | 186098/371472 [3:44:48<15:20:20,  3.36it/s] 50%|█████     | 186099/371472 [3:44:48<16:34:22,  3.11it/s] 50%|█████     | 186100/371472 [3:44:48<16:38:17,  3.09it/s]                                                            {'loss': 2.9266, 'learning_rate': 5.493600379236786e-07, 'epoch': 8.02}
 50%|█████     | 186100/371472 [3:44:48<16:38:17,  3.09it/s] 50%|█████     | 186101/371472 [3:44:49<16:18:38,  3.16it/s] 50%|█████     | 186102/371472 [3:44:49<15:42:31,  3.28it/s] 50%|█████     | 186103/371472 [3:44:49<15:00:21,  3.43it/s] 50%|█████     | 186104/371472 [3:44:49<15:43:10,  3.28it/s] 50%|█████     | 186105/371472 [3:44:50<14:46:13,  3.49it/s] 50%|█████     | 186106/371472 [3:44:50<14:35:50,  3.53it/s] 50%|█████     | 186107/371472 [3:44:50<14:06:57,  3.65it/s] 50%|█████     | 186108/371472 [3:44:50<13:57:49,  3.69it/s] 50%|█████     | 186109/371472 [3:44:51<14:07:45,  3.64it/s] 50%|█████     | 186110/371472 [3:44:51<14:15:24,  3.61it/s] 50%|█████     | 186111/371472 [3:44:51<14:05:11,  3.66it/s] 50%|█████     | 186112/371472 [3:44:52<15:03:18,  3.42it/s] 50%|█████     | 186113/371472 [3:44:52<14:39:24,  3.51it/s] 50%|█████     | 186114/371472 [3:44:52<15:04:57,  3.41it/s] 50%|█████     | 186115/371472 [3:44:53<15:33:08,  3.31it/s] 50%|█████     | 186116/371472 [3:44:53<15:25:14,  3.34it/s] 50%|█████     | 186117/371472 [3:44:53<15:17:21,  3.37it/s] 50%|█████     | 186118/371472 [3:44:53<14:46:43,  3.48it/s] 50%|█████     | 186119/371472 [3:44:54<14:43:16,  3.50it/s] 50%|█████     | 186120/371472 [3:44:54<14:59:08,  3.44it/s]                                                            {'loss': 2.8821, 'learning_rate': 5.493115559481997e-07, 'epoch': 8.02}
 50%|█████     | 186120/371472 [3:44:54<14:59:08,  3.44it/s] 50%|█████     | 186121/371472 [3:44:54<14:11:26,  3.63it/s] 50%|█████     | 186122/371472 [3:44:55<14:22:08,  3.58it/s] 50%|█████     | 186123/371472 [3:44:55<14:14:41,  3.61it/s] 50%|█████     | 186124/371472 [3:44:55<14:02:40,  3.67it/s] 50%|█████     | 186125/371472 [3:44:55<14:32:46,  3.54it/s] 50%|█████     | 186126/371472 [3:44:56<14:53:25,  3.46it/s] 50%|█████     | 186127/371472 [3:44:56<15:11:17,  3.39it/s] 50%|█████     | 186128/371472 [3:44:56<14:24:24,  3.57it/s] 50%|█████     | 186129/371472 [3:44:56<14:11:05,  3.63it/s] 50%|█████     | 186130/371472 [3:44:57<13:57:42,  3.69it/s] 50%|█████     | 186131/371472 [3:44:57<14:39:31,  3.51it/s] 50%|█████     | 186132/371472 [3:44:57<14:47:16,  3.48it/s] 50%|█████     | 186133/371472 [3:44:58<15:31:41,  3.32it/s] 50%|█████     | 186134/371472 [3:44:58<15:03:08,  3.42it/s] 50%|█████     | 186135/371472 [3:44:58<14:38:04,  3.52it/s] 50%|█████     | 186136/371472 [3:44:58<14:16:00,  3.61it/s] 50%|█████     | 186137/371472 [3:44:59<14:04:40,  3.66it/s] 50%|█████     | 186138/371472 [3:44:59<13:48:11,  3.73it/s] 50%|█████     | 186139/371472 [3:44:59<13:27:11,  3.83it/s] 50%|█████     | 186140/371472 [3:45:00<13:15:46,  3.88it/s]                                                            {'loss': 2.917, 'learning_rate': 5.492630739727207e-07, 'epoch': 8.02}
 50%|█████     | 186140/371472 [3:45:00<13:15:46,  3.88it/s] 50%|█████     | 186141/371472 [3:45:00<13:42:26,  3.76it/s] 50%|█████     | 186142/371472 [3:45:00<14:17:47,  3.60it/s] 50%|█████     | 186143/371472 [3:45:00<14:26:46,  3.56it/s] 50%|█████     | 186144/371472 [3:45:01<14:46:02,  3.49it/s] 50%|█████     | 186145/371472 [3:45:01<13:54:55,  3.70it/s] 50%|█████     | 186146/371472 [3:45:01<13:48:18,  3.73it/s] 50%|█████     | 186147/371472 [3:45:02<14:57:52,  3.44it/s] 50%|█████     | 186148/371472 [3:45:02<15:00:59,  3.43it/s] 50%|█████     | 186149/371472 [3:45:02<14:05:42,  3.65it/s] 50%|█████     | 186150/371472 [3:45:02<14:03:02,  3.66it/s] 50%|█████     | 186151/371472 [3:45:03<13:52:17,  3.71it/s] 50%|█████     | 186152/371472 [3:45:03<15:04:39,  3.41it/s] 50%|█████     | 186153/371472 [3:45:03<14:36:01,  3.53it/s] 50%|█████     | 186154/371472 [3:45:04<15:38:36,  3.29it/s] 50%|█████     | 186155/371472 [3:45:04<15:11:07,  3.39it/s] 50%|█████     | 186156/371472 [3:45:04<15:11:58,  3.39it/s] 50%|█████     | 186157/371472 [3:45:04<15:26:47,  3.33it/s] 50%|█████     | 186158/371472 [3:45:05<14:51:17,  3.47it/s] 50%|█████     | 186159/371472 [3:45:05<15:11:28,  3.39it/s] 50%|█████     | 186160/371472 [3:45:05<15:36:18,  3.30it/s]                                                            {'loss': 2.996, 'learning_rate': 5.492145919972418e-07, 'epoch': 8.02}
 50%|█████     | 186160/371472 [3:45:05<15:36:18,  3.30it/s] 50%|█████     | 186161/371472 [3:45:06<15:36:30,  3.30it/s] 50%|█████     | 186162/371472 [3:45:06<15:48:17,  3.26it/s] 50%|█████     | 186163/371472 [3:45:06<15:53:39,  3.24it/s] 50%|█████     | 186164/371472 [3:45:06<14:54:39,  3.45it/s] 50%|█████     | 186165/371472 [3:45:07<14:52:23,  3.46it/s] 50%|█████     | 186166/371472 [3:45:07<14:50:05,  3.47it/s] 50%|█████     | 186167/371472 [3:45:07<14:15:26,  3.61it/s] 50%|█████     | 186168/371472 [3:45:08<14:23:45,  3.58it/s] 50%|█████     | 186169/371472 [3:45:08<14:40:33,  3.51it/s] 50%|█████     | 186170/371472 [3:45:08<14:28:36,  3.56it/s] 50%|█████     | 186171/371472 [3:45:08<14:32:28,  3.54it/s] 50%|█████     | 186172/371472 [3:45:09<14:17:22,  3.60it/s] 50%|█████     | 186173/371472 [3:45:09<14:09:34,  3.64it/s] 50%|█████     | 186174/371472 [3:45:09<14:17:14,  3.60it/s] 50%|█████     | 186175/371472 [3:45:10<14:14:10,  3.62it/s] 50%|█████     | 186176/371472 [3:45:10<15:02:45,  3.42it/s] 50%|█████     | 186177/371472 [3:45:10<15:04:43,  3.41it/s] 50%|█████     | 186178/371472 [3:45:10<14:53:57,  3.45it/s] 50%|█████     | 186179/371472 [3:45:11<14:41:11,  3.50it/s] 50%|█████     | 186180/371472 [3:45:11<14:33:42,  3.53it/s]                                                            {'loss': 2.9502, 'learning_rate': 5.49166110021763e-07, 'epoch': 8.02}
 50%|█████     | 186180/371472 [3:45:11<14:33:42,  3.53it/s] 50%|█████     | 186181/371472 [3:45:11<14:25:49,  3.57it/s] 50%|█████     | 186182/371472 [3:45:12<14:37:32,  3.52it/s] 50%|█████     | 186183/371472 [3:45:12<14:51:01,  3.47it/s] 50%|█████     | 186184/371472 [3:45:12<14:31:59,  3.54it/s] 50%|█████     | 186185/371472 [3:45:12<14:45:04,  3.49it/s] 50%|█████     | 186186/371472 [3:45:13<14:30:57,  3.55it/s] 50%|█████     | 186187/371472 [3:45:13<14:17:37,  3.60it/s] 50%|█████     | 186188/371472 [3:45:13<14:51:51,  3.46it/s] 50%|█████     | 186189/371472 [3:45:14<14:25:04,  3.57it/s] 50%|█████     | 186190/371472 [3:45:14<14:45:51,  3.49it/s] 50%|█████     | 186191/371472 [3:45:14<14:27:08,  3.56it/s] 50%|█████     | 186192/371472 [3:45:14<14:09:13,  3.64it/s] 50%|█████     | 186193/371472 [3:45:15<13:53:27,  3.70it/s] 50%|█████     | 186194/371472 [3:45:15<14:01:28,  3.67it/s] 50%|█████     | 186195/371472 [3:45:15<14:33:45,  3.53it/s] 50%|█████     | 186196/371472 [3:45:16<16:15:37,  3.17it/s] 50%|█████     | 186197/371472 [3:45:16<16:18:47,  3.15it/s] 50%|█████     | 186198/371472 [3:45:16<16:02:29,  3.21it/s] 50%|█████     | 186199/371472 [3:45:17<15:29:54,  3.32it/s] 50%|█████     | 186200/371472 [3:45:17<15:30:48,  3.32it/s]                                                            {'loss': 2.9805, 'learning_rate': 5.491176280462841e-07, 'epoch': 8.02}
 50%|█████     | 186200/371472 [3:45:17<15:30:48,  3.32it/s] 50%|█████     | 186201/371472 [3:45:17<15:57:02,  3.23it/s] 50%|█████     | 186202/371472 [3:45:17<15:44:24,  3.27it/s] 50%|█████     | 186203/371472 [3:45:18<14:52:19,  3.46it/s] 50%|█████     | 186204/371472 [3:45:18<15:01:49,  3.42it/s] 50%|█████     | 186205/371472 [3:45:18<15:19:30,  3.36it/s] 50%|█████     | 186206/371472 [3:45:19<15:22:13,  3.35it/s] 50%|█████     | 186207/371472 [3:45:19<14:42:57,  3.50it/s] 50%|█████     | 186208/371472 [3:45:19<14:19:45,  3.59it/s] 50%|█████     | 186209/371472 [3:45:19<15:22:32,  3.35it/s] 50%|█████     | 186210/371472 [3:45:20<15:50:43,  3.25it/s] 50%|█████     | 186211/371472 [3:45:20<15:07:11,  3.40it/s] 50%|█████     | 186212/371472 [3:45:20<15:14:23,  3.38it/s] 50%|█████     | 186213/371472 [3:45:21<15:16:15,  3.37it/s] 50%|█████     | 186214/371472 [3:45:21<15:33:37,  3.31it/s] 50%|█████     | 186215/371472 [3:45:21<15:42:50,  3.27it/s] 50%|█████     | 186216/371472 [3:45:22<15:16:50,  3.37it/s] 50%|█████     | 186217/371472 [3:45:22<15:53:23,  3.24it/s] 50%|█████     | 186218/371472 [3:45:22<15:52:34,  3.24it/s] 50%|█████     | 186219/371472 [3:45:22<15:12:04,  3.39it/s] 50%|█████     | 186220/371472 [3:45:23<14:58:32,  3.44it/s]                                                            {'loss': 3.0747, 'learning_rate': 5.490691460708052e-07, 'epoch': 8.02}
 50%|█████     | 186220/371472 [3:45:23<14:58:32,  3.44it/s] 50%|█████     | 186221/371472 [3:45:23<15:42:41,  3.28it/s] 50%|█████     | 186222/371472 [3:45:23<15:33:54,  3.31it/s] 50%|█████     | 186223/371472 [3:45:24<15:29:34,  3.32it/s] 50%|█████     | 186224/371472 [3:45:24<14:47:49,  3.48it/s] 50%|█████     | 186225/371472 [3:45:24<15:11:21,  3.39it/s] 50%|█████     | 186226/371472 [3:45:24<14:21:55,  3.58it/s] 50%|█████     | 186227/371472 [3:45:25<14:49:07,  3.47it/s] 50%|█████     | 186228/371472 [3:45:25<15:07:37,  3.40it/s] 50%|█████     | 186229/371472 [3:45:25<15:03:41,  3.42it/s] 50%|█████     | 186230/371472 [3:45:26<14:58:02,  3.44it/s] 50%|█████     | 186231/371472 [3:45:26<14:28:53,  3.55it/s] 50%|█████     | 186232/371472 [3:45:26<16:42:31,  3.08it/s] 50%|█████     | 186233/371472 [3:45:27<15:50:52,  3.25it/s] 50%|█████     | 186234/371472 [3:45:27<16:02:22,  3.21it/s] 50%|█████     | 186235/371472 [3:45:27<15:15:37,  3.37it/s] 50%|█████     | 186236/371472 [3:45:28<15:56:17,  3.23it/s] 50%|█████     | 186237/371472 [3:45:28<15:01:58,  3.42it/s] 50%|█████     | 186238/371472 [3:45:28<14:40:57,  3.50it/s] 50%|█████     | 186239/371472 [3:45:28<14:49:15,  3.47it/s] 50%|█████     | 186240/371472 [3:45:29<15:17:29,  3.36it/s]                                                            {'loss': 3.0884, 'learning_rate': 5.490206640953263e-07, 'epoch': 8.02}
 50%|█████     | 186240/371472 [3:45:29<15:17:29,  3.36it/s] 50%|█████     | 186241/371472 [3:45:29<14:41:25,  3.50it/s] 50%|█████     | 186242/371472 [3:45:29<13:56:25,  3.69it/s] 50%|█████     | 186243/371472 [3:45:29<14:05:48,  3.65it/s] 50%|█████     | 186244/371472 [3:45:30<13:46:13,  3.74it/s] 50%|█████     | 186245/371472 [3:45:30<14:09:17,  3.63it/s] 50%|█████     | 186246/371472 [3:45:30<14:14:44,  3.61it/s] 50%|█████     | 186247/371472 [3:45:31<14:15:52,  3.61it/s] 50%|█████     | 186248/371472 [3:45:31<15:19:39,  3.36it/s] 50%|█████     | 186249/371472 [3:45:31<14:48:32,  3.47it/s] 50%|█████     | 186250/371472 [3:45:31<14:57:29,  3.44it/s] 50%|█████     | 186251/371472 [3:45:32<16:10:29,  3.18it/s] 50%|█████     | 186252/371472 [3:45:32<15:54:50,  3.23it/s] 50%|█████     | 186253/371472 [3:45:32<15:32:08,  3.31it/s] 50%|█████     | 186254/371472 [3:45:33<15:53:34,  3.24it/s] 50%|█████     | 186255/371472 [3:45:33<14:58:33,  3.44it/s] 50%|█████     | 186256/371472 [3:45:33<14:42:27,  3.50it/s] 50%|█████     | 186257/371472 [3:45:34<14:41:31,  3.50it/s] 50%|█████     | 186258/371472 [3:45:34<14:47:35,  3.48it/s] 50%|█████     | 186259/371472 [3:45:34<14:34:59,  3.53it/s] 50%|█████     | 186260/371472 [3:45:34<14:51:42,  3.46it/s]                                                            {'loss': 3.2654, 'learning_rate': 5.489721821198474e-07, 'epoch': 8.02}
 50%|█████     | 186260/371472 [3:45:34<14:51:42,  3.46it/s] 50%|█████     | 186261/371472 [3:45:35<15:50:13,  3.25it/s] 50%|█████     | 186262/371472 [3:45:35<15:45:59,  3.26it/s] 50%|█████     | 186263/371472 [3:45:35<16:20:54,  3.15it/s] 50%|█████     | 186264/371472 [3:45:36<15:33:23,  3.31it/s] 50%|█████     | 186265/371472 [3:45:36<14:54:04,  3.45it/s] 50%|█████     | 186266/371472 [3:45:36<14:28:31,  3.55it/s] 50%|█████     | 186267/371472 [3:45:37<14:31:27,  3.54it/s] 50%|█████     | 186268/371472 [3:45:37<14:49:02,  3.47it/s] 50%|█████     | 186269/371472 [3:45:37<15:07:54,  3.40it/s] 50%|█████     | 186270/371472 [3:45:37<14:52:20,  3.46it/s] 50%|█████     | 186271/371472 [3:45:38<14:49:37,  3.47it/s] 50%|█████     | 186272/371472 [3:45:38<15:09:28,  3.39it/s] 50%|█████     | 186273/371472 [3:45:38<14:54:30,  3.45it/s] 50%|█████     | 186274/371472 [3:45:39<15:48:49,  3.25it/s] 50%|█████     | 186275/371472 [3:45:39<15:22:38,  3.35it/s] 50%|█████     | 186276/371472 [3:45:39<15:29:27,  3.32it/s] 50%|█████     | 186277/371472 [3:45:39<15:11:58,  3.38it/s] 50%|█████     | 186278/371472 [3:45:40<15:22:24,  3.35it/s] 50%|█████     | 186279/371472 [3:45:40<14:53:13,  3.46it/s] 50%|█████     | 186280/371472 [3:45:40<15:14:49,  3.37it/s]                                                            {'loss': 2.9745, 'learning_rate': 5.489237001443683e-07, 'epoch': 8.02}
 50%|█████     | 186280/371472 [3:45:40<15:14:49,  3.37it/s] 50%|█████     | 186281/371472 [3:45:41<15:00:59,  3.43it/s] 50%|█████     | 186282/371472 [3:45:41<16:18:02,  3.16it/s] 50%|█████     | 186283/371472 [3:45:41<15:23:57,  3.34it/s] 50%|█████     | 186284/371472 [3:45:42<15:36:46,  3.29it/s] 50%|█████     | 186285/371472 [3:45:42<15:33:43,  3.31it/s] 50%|█████     | 186286/371472 [3:45:42<17:03:03,  3.02it/s] 50%|█████     | 186287/371472 [3:45:43<15:56:36,  3.23it/s] 50%|█████     | 186288/371472 [3:45:43<16:12:30,  3.17it/s] 50%|█████     | 186289/371472 [3:45:43<16:02:26,  3.21it/s] 50%|█████     | 186290/371472 [3:45:44<16:12:32,  3.17it/s] 50%|█████     | 186291/371472 [3:45:44<15:47:27,  3.26it/s] 50%|█████     | 186292/371472 [3:45:44<14:54:26,  3.45it/s] 50%|█████     | 186293/371472 [3:45:44<15:27:48,  3.33it/s] 50%|█████     | 186294/371472 [3:45:45<15:13:31,  3.38it/s] 50%|█████     | 186295/371472 [3:45:45<16:09:59,  3.18it/s] 50%|█████     | 186296/371472 [3:45:45<15:33:26,  3.31it/s] 50%|█████     | 186297/371472 [3:45:46<15:04:57,  3.41it/s] 50%|█████     | 186298/371472 [3:45:46<15:14:50,  3.37it/s] 50%|█████     | 186299/371472 [3:45:46<14:36:37,  3.52it/s] 50%|█████     | 186300/371472 [3:45:46<15:55:29,  3.23it/s]                                                            {'loss': 2.9592, 'learning_rate': 5.488752181688896e-07, 'epoch': 8.02}
 50%|█████     | 186300/371472 [3:45:47<15:55:29,  3.23it/s] 50%|█████     | 186301/371472 [3:45:47<15:27:18,  3.33it/s] 50%|█████     | 186302/371472 [3:45:47<15:43:57,  3.27it/s] 50%|█████     | 186303/371472 [3:45:47<15:14:10,  3.38it/s] 50%|█████     | 186304/371472 [3:45:48<15:11:22,  3.39it/s] 50%|█████     | 186305/371472 [3:45:48<14:49:49,  3.47it/s] 50%|█████     | 186306/371472 [3:45:48<14:32:21,  3.54it/s] 50%|█████     | 186307/371472 [3:45:49<14:47:34,  3.48it/s] 50%|█████     | 186308/371472 [3:45:49<14:52:07,  3.46it/s] 50%|█████     | 186309/371472 [3:45:49<15:42:34,  3.27it/s] 50%|█████     | 186310/371472 [3:45:49<16:02:14,  3.21it/s] 50%|█████     | 186311/371472 [3:45:50<15:27:56,  3.33it/s] 50%|█████     | 186312/371472 [3:45:50<14:59:48,  3.43it/s] 50%|█████     | 186313/371472 [3:45:50<14:54:37,  3.45it/s] 50%|█████     | 186314/371472 [3:45:51<14:51:44,  3.46it/s] 50%|█████     | 186315/371472 [3:45:51<16:35:22,  3.10it/s] 50%|█████     | 186316/371472 [3:45:51<15:52:39,  3.24it/s] 50%|█████     | 186317/371472 [3:45:52<14:56:27,  3.44it/s] 50%|█████     | 186318/371472 [3:45:52<15:00:05,  3.43it/s] 50%|█████     | 186319/371472 [3:45:52<14:33:01,  3.53it/s] 50%|█████     | 186320/371472 [3:45:52<14:29:24,  3.55it/s]                                                            {'loss': 3.1081, 'learning_rate': 5.488267361934107e-07, 'epoch': 8.03}
 50%|█████     | 186320/371472 [3:45:52<14:29:24,  3.55it/s] 50%|█████     | 186321/371472 [3:45:53<14:09:59,  3.63it/s] 50%|█████     | 186322/371472 [3:45:53<13:55:05,  3.70it/s] 50%|█████     | 186323/371472 [3:45:53<14:59:04,  3.43it/s] 50%|█████     | 186324/371472 [3:45:54<15:29:49,  3.32it/s] 50%|█████     | 186325/371472 [3:45:54<15:52:09,  3.24it/s] 50%|█████     | 186326/371472 [3:45:54<15:30:10,  3.32it/s] 50%|█████     | 186327/371472 [3:45:54<15:04:20,  3.41it/s] 50%|█████     | 186328/371472 [3:45:55<14:55:18,  3.45it/s] 50%|█████     | 186329/371472 [3:45:55<15:08:45,  3.40it/s] 50%|█████     | 186330/371472 [3:45:55<14:41:08,  3.50it/s] 50%|█████     | 186331/371472 [3:45:56<14:31:40,  3.54it/s] 50%|█████     | 186332/371472 [3:45:56<14:34:43,  3.53it/s] 50%|█████     | 186333/371472 [3:45:56<14:51:47,  3.46it/s] 50%|█████     | 186334/371472 [3:45:57<16:16:08,  3.16it/s] 50%|█████     | 186335/371472 [3:45:57<16:21:05,  3.15it/s] 50%|█████     | 186336/371472 [3:45:57<15:37:10,  3.29it/s] 50%|█████     | 186337/371472 [3:45:57<16:17:02,  3.16it/s] 50%|█████     | 186338/371472 [3:45:58<15:24:26,  3.34it/s] 50%|█████     | 186339/371472 [3:45:58<14:56:13,  3.44it/s] 50%|█████     | 186340/371472 [3:45:58<15:38:37,  3.29it/s]                                                            {'loss': 2.9629, 'learning_rate': 5.487782542179319e-07, 'epoch': 8.03}
 50%|█████     | 186340/371472 [3:45:58<15:38:37,  3.29it/s] 50%|█████     | 186341/371472 [3:45:59<15:35:59,  3.30it/s] 50%|█████     | 186342/371472 [3:45:59<15:55:18,  3.23it/s] 50%|█████     | 186343/371472 [3:45:59<15:55:40,  3.23it/s] 50%|█████     | 186344/371472 [3:46:00<15:33:40,  3.30it/s] 50%|█████     | 186345/371472 [3:46:00<15:18:02,  3.36it/s] 50%|█████     | 186346/371472 [3:46:00<17:06:36,  3.01it/s] 50%|█████     | 186347/371472 [3:46:01<16:10:26,  3.18it/s] 50%|█████     | 186348/371472 [3:46:01<16:05:17,  3.20it/s] 50%|█████     | 186349/371472 [3:46:01<15:14:59,  3.37it/s] 50%|█████     | 186350/371472 [3:46:01<14:56:25,  3.44it/s] 50%|█████     | 186351/371472 [3:46:02<14:41:06,  3.50it/s] 50%|█████     | 186352/371472 [3:46:02<14:56:30,  3.44it/s] 50%|█████     | 186353/371472 [3:46:02<15:09:43,  3.39it/s] 50%|█████     | 186354/371472 [3:46:03<15:31:23,  3.31it/s] 50%|█████     | 186355/371472 [3:46:03<15:26:34,  3.33it/s] 50%|█████     | 186356/371472 [3:46:03<14:51:00,  3.46it/s] 50%|█████     | 186357/371472 [3:46:03<14:08:24,  3.64it/s] 50%|█████     | 186358/371472 [3:46:04<14:20:30,  3.59it/s] 50%|█████     | 186359/371472 [3:46:04<14:54:46,  3.45it/s] 50%|█████     | 186360/371472 [3:46:04<14:58:17,  3.43it/s]                                                            {'loss': 2.9465, 'learning_rate': 5.48729772242453e-07, 'epoch': 8.03}
 50%|█████     | 186360/371472 [3:46:04<14:58:17,  3.43it/s] 50%|█████     | 186361/371472 [3:46:05<19:18:52,  2.66it/s] 50%|█████     | 186362/371472 [3:46:05<17:20:13,  2.97it/s] 50%|█████     | 186363/371472 [3:46:05<16:25:54,  3.13it/s] 50%|█████     | 186364/371472 [3:46:06<16:28:10,  3.12it/s] 50%|█████     | 186365/371472 [3:46:06<16:01:14,  3.21it/s] 50%|█████     | 186366/371472 [3:46:06<15:48:19,  3.25it/s] 50%|█████     | 186367/371472 [3:46:07<15:36:31,  3.29it/s] 50%|█████     | 186368/371472 [3:46:07<15:52:55,  3.24it/s] 50%|█████     | 186369/371472 [3:46:07<15:39:38,  3.28it/s] 50%|█████     | 186370/371472 [3:46:07<15:21:40,  3.35it/s] 50%|█████     | 186371/371472 [3:46:08<15:03:27,  3.41it/s] 50%|█████     | 186372/371472 [3:46:08<14:45:15,  3.48it/s] 50%|█████     | 186373/371472 [3:46:08<14:41:36,  3.50it/s] 50%|█████     | 186374/371472 [3:46:09<14:24:40,  3.57it/s] 50%|█████     | 186375/371472 [3:46:09<14:45:04,  3.49it/s] 50%|█████     | 186376/371472 [3:46:09<14:11:26,  3.62it/s] 50%|█████     | 186377/371472 [3:46:10<16:08:07,  3.19it/s] 50%|█████     | 186378/371472 [3:46:10<16:27:45,  3.12it/s] 50%|█████     | 186379/371472 [3:46:10<15:55:52,  3.23it/s] 50%|█████     | 186380/371472 [3:46:10<15:07:58,  3.40it/s]                                                            {'loss': 2.8515, 'learning_rate': 5.486812902669741e-07, 'epoch': 8.03}
 50%|█████     | 186380/371472 [3:46:10<15:07:58,  3.40it/s] 50%|█████     | 186381/371472 [3:46:11<14:52:46,  3.46it/s] 50%|█████     | 186382/371472 [3:46:11<14:33:36,  3.53it/s] 50%|█████     | 186383/371472 [3:46:11<15:11:39,  3.38it/s] 50%|█████     | 186384/371472 [3:46:12<14:52:55,  3.45it/s] 50%|█████     | 186385/371472 [3:46:12<14:17:42,  3.60it/s] 50%|█████     | 186386/371472 [3:46:12<14:36:35,  3.52it/s] 50%|█████     | 186387/371472 [3:46:12<15:00:27,  3.43it/s] 50%|█████     | 186388/371472 [3:46:13<15:30:13,  3.32it/s] 50%|█████     | 186389/371472 [3:46:13<16:24:54,  3.13it/s] 50%|█████     | 186390/371472 [3:46:13<16:05:56,  3.19it/s] 50%|█████     | 186391/371472 [3:46:14<16:32:18,  3.11it/s] 50%|█████     | 186392/371472 [3:46:14<16:11:25,  3.18it/s] 50%|█████     | 186393/371472 [3:46:14<15:46:53,  3.26it/s] 50%|█████     | 186394/371472 [3:46:15<15:50:28,  3.25it/s] 50%|█████     | 186395/371472 [3:46:15<16:48:46,  3.06it/s] 50%|█████     | 186396/371472 [3:46:15<16:38:45,  3.09it/s] 50%|█████     | 186397/371472 [3:46:16<15:32:57,  3.31it/s] 50%|█████     | 186398/371472 [3:46:16<15:02:24,  3.42it/s] 50%|█████     | 186399/371472 [3:46:16<15:05:51,  3.41it/s] 50%|█████     | 186400/371472 [3:46:16<15:17:35,  3.36it/s]                                                            {'loss': 3.0912, 'learning_rate': 5.486328082914951e-07, 'epoch': 8.03}
 50%|█████     | 186400/371472 [3:46:16<15:17:35,  3.36it/s] 50%|█████     | 186401/371472 [3:46:17<15:07:16,  3.40it/s] 50%|█████     | 186402/371472 [3:46:17<15:41:25,  3.28it/s] 50%|█████     | 186403/371472 [3:46:17<15:48:37,  3.25it/s] 50%|█████     | 186404/371472 [3:46:18<14:47:13,  3.48it/s] 50%|█████     | 186405/371472 [3:46:18<14:52:13,  3.46it/s] 50%|█████     | 186406/371472 [3:46:18<14:31:01,  3.54it/s] 50%|█████     | 186407/371472 [3:46:18<14:56:42,  3.44it/s] 50%|█████     | 186408/371472 [3:46:19<14:21:56,  3.58it/s] 50%|█████     | 186409/371472 [3:46:19<14:17:36,  3.60it/s] 50%|█████     | 186410/371472 [3:46:19<14:05:24,  3.65it/s] 50%|█████     | 186411/371472 [3:46:20<14:27:13,  3.56it/s] 50%|█████     | 186412/371472 [3:46:20<14:03:22,  3.66it/s] 50%|█████     | 186413/371472 [3:46:20<14:14:41,  3.61it/s] 50%|█████     | 186414/371472 [3:46:20<13:59:14,  3.68it/s] 50%|█████     | 186415/371472 [3:46:21<13:56:33,  3.69it/s] 50%|█████     | 186416/371472 [3:46:21<14:16:12,  3.60it/s] 50%|█████     | 186417/371472 [3:46:21<14:22:42,  3.58it/s] 50%|█████     | 186418/371472 [3:46:22<15:03:50,  3.41it/s] 50%|█████     | 186419/371472 [3:46:22<15:09:35,  3.39it/s] 50%|█████     | 186420/371472 [3:46:22<14:39:42,  3.51it/s]                                                            {'loss': 2.9451, 'learning_rate': 5.485843263160164e-07, 'epoch': 8.03}
 50%|█████     | 186420/371472 [3:46:22<14:39:42,  3.51it/s] 50%|█████     | 186421/371472 [3:46:22<14:44:00,  3.49it/s] 50%|█████     | 186422/371472 [3:46:23<14:23:20,  3.57it/s] 50%|█████     | 186423/371472 [3:46:23<14:33:25,  3.53it/s] 50%|█████     | 186424/371472 [3:46:23<15:47:40,  3.25it/s] 50%|█████     | 186425/371472 [3:46:24<15:10:43,  3.39it/s] 50%|█████     | 186426/371472 [3:46:24<14:51:09,  3.46it/s] 50%|█████     | 186427/371472 [3:46:24<15:24:08,  3.34it/s] 50%|█████     | 186428/371472 [3:46:25<15:52:22,  3.24it/s] 50%|█████     | 186429/371472 [3:46:25<17:12:57,  2.99it/s] 50%|█████     | 186430/371472 [3:46:25<16:45:40,  3.07it/s] 50%|█████     | 186431/371472 [3:46:25<15:50:45,  3.24it/s] 50%|█████     | 186432/371472 [3:46:26<15:13:52,  3.37it/s] 50%|█████     | 186433/371472 [3:46:26<14:49:38,  3.47it/s] 50%|█████     | 186434/371472 [3:46:26<15:06:21,  3.40it/s] 50%|█████     | 186435/371472 [3:46:27<14:35:50,  3.52it/s] 50%|█████     | 186436/371472 [3:46:27<14:41:55,  3.50it/s] 50%|█████     | 186437/371472 [3:46:27<14:51:34,  3.46it/s] 50%|█████     | 186438/371472 [3:46:27<14:41:47,  3.50it/s] 50%|█████     | 186439/371472 [3:46:28<14:33:46,  3.53it/s] 50%|█████     | 186440/371472 [3:46:28<14:20:09,  3.59it/s]                                                            {'loss': 3.0756, 'learning_rate': 5.485358443405373e-07, 'epoch': 8.03}
 50%|█████     | 186440/371472 [3:46:28<14:20:09,  3.59it/s] 50%|█████     | 186441/371472 [3:46:28<14:15:46,  3.60it/s] 50%|█████     | 186442/371472 [3:46:29<13:53:49,  3.70it/s] 50%|█████     | 186443/371472 [3:46:29<13:56:43,  3.69it/s] 50%|█████     | 186444/371472 [3:46:29<13:59:19,  3.67it/s] 50%|█████     | 186445/371472 [3:46:29<13:56:10,  3.69it/s] 50%|█████     | 186446/371472 [3:46:30<14:08:19,  3.64it/s] 50%|█████     | 186447/371472 [3:46:30<14:43:20,  3.49it/s] 50%|█████     | 186448/371472 [3:46:30<14:15:27,  3.60it/s] 50%|█████     | 186449/371472 [3:46:30<13:57:14,  3.68it/s] 50%|█████     | 186450/371472 [3:46:31<14:27:23,  3.56it/s] 50%|█████     | 186451/371472 [3:46:31<15:35:29,  3.30it/s] 50%|█████     | 186452/371472 [3:46:31<15:28:14,  3.32it/s] 50%|█████     | 186453/371472 [3:46:32<15:19:10,  3.35it/s] 50%|█████     | 186454/371472 [3:46:32<14:54:33,  3.45it/s] 50%|█████     | 186455/371472 [3:46:32<15:29:28,  3.32it/s] 50%|█████     | 186456/371472 [3:46:33<14:59:29,  3.43it/s] 50%|█████     | 186457/371472 [3:46:33<14:26:33,  3.56it/s] 50%|█████     | 186458/371472 [3:46:33<15:06:03,  3.40it/s] 50%|█████     | 186459/371472 [3:46:33<14:27:41,  3.55it/s] 50%|█████     | 186460/371472 [3:46:34<14:29:56,  3.54it/s]                                                            {'loss': 2.9307, 'learning_rate': 5.484873623650585e-07, 'epoch': 8.03}
 50%|█████     | 186460/371472 [3:46:34<14:29:56,  3.54it/s] 50%|█████     | 186461/371472 [3:46:34<15:38:09,  3.29it/s] 50%|█████     | 186462/371472 [3:46:34<15:37:59,  3.29it/s] 50%|█████     | 186463/371472 [3:46:35<14:52:36,  3.45it/s] 50%|█████     | 186464/371472 [3:46:35<14:14:13,  3.61it/s] 50%|█████     | 186465/371472 [3:46:35<14:11:13,  3.62it/s] 50%|█████     | 186466/371472 [3:46:35<14:28:39,  3.55it/s] 50%|█████     | 186467/371472 [3:46:36<15:05:38,  3.40it/s] 50%|█████     | 186468/371472 [3:46:36<14:58:43,  3.43it/s] 50%|█████     | 186469/371472 [3:46:36<15:46:30,  3.26it/s] 50%|█████     | 186470/371472 [3:46:37<15:08:03,  3.40it/s] 50%|█████     | 186471/371472 [3:46:37<14:58:54,  3.43it/s] 50%|█████     | 186472/371472 [3:46:37<15:59:50,  3.21it/s] 50%|█████     | 186473/371472 [3:46:38<15:14:12,  3.37it/s] 50%|█████     | 186474/371472 [3:46:38<14:52:13,  3.46it/s] 50%|█████     | 186475/371472 [3:46:38<15:05:07,  3.41it/s] 50%|█████     | 186476/371472 [3:46:38<15:51:19,  3.24it/s] 50%|█████     | 186477/371472 [3:46:39<14:56:35,  3.44it/s] 50%|█████     | 186478/371472 [3:46:39<14:18:39,  3.59it/s] 50%|█████     | 186479/371472 [3:46:39<15:25:13,  3.33it/s] 50%|█████     | 186480/371472 [3:46:40<14:32:15,  3.53it/s]                                                            {'loss': 3.2497, 'learning_rate': 5.484388803895796e-07, 'epoch': 8.03}
 50%|█████     | 186480/371472 [3:46:40<14:32:15,  3.53it/s] 50%|█████     | 186481/371472 [3:46:40<14:41:07,  3.50it/s] 50%|█████     | 186482/371472 [3:46:40<14:50:19,  3.46it/s] 50%|█████     | 186483/371472 [3:46:40<14:35:52,  3.52it/s] 50%|█████     | 186484/371472 [3:46:41<14:44:22,  3.49it/s] 50%|█████     | 186485/371472 [3:46:41<14:02:06,  3.66it/s] 50%|█████     | 186486/371472 [3:46:41<15:08:18,  3.39it/s] 50%|█████     | 186487/371472 [3:46:42<14:48:47,  3.47it/s] 50%|█████     | 186488/371472 [3:46:42<14:35:14,  3.52it/s] 50%|█████     | 186489/371472 [3:46:42<14:11:54,  3.62it/s] 50%|█████     | 186490/371472 [3:46:42<13:50:15,  3.71it/s] 50%|█████     | 186491/371472 [3:46:43<13:58:14,  3.68it/s] 50%|█████     | 186492/371472 [3:46:43<13:46:54,  3.73it/s] 50%|█████     | 186493/371472 [3:46:43<14:16:27,  3.60it/s] 50%|█████     | 186494/371472 [3:46:43<14:25:09,  3.56it/s] 50%|█████     | 186495/371472 [3:46:44<13:57:56,  3.68it/s] 50%|█████     | 186496/371472 [3:46:44<14:13:51,  3.61it/s] 50%|█████     | 186497/371472 [3:46:44<14:52:36,  3.45it/s] 50%|█████     | 186498/371472 [3:46:45<14:40:06,  3.50it/s] 50%|█████     | 186499/371472 [3:46:45<14:56:30,  3.44it/s] 50%|█████     | 186500/371472 [3:46:45<14:20:54,  3.58it/s]                                                            {'loss': 3.088, 'learning_rate': 5.483903984141007e-07, 'epoch': 8.03}
 50%|█████     | 186500/371472 [3:46:45<14:20:54,  3.58it/s] 50%|█████     | 186501/371472 [3:46:45<14:02:30,  3.66it/s] 50%|█████     | 186502/371472 [3:46:46<14:03:42,  3.65it/s] 50%|█████     | 186503/371472 [3:46:46<14:03:26,  3.66it/s] 50%|█████     | 186504/371472 [3:46:46<14:27:26,  3.55it/s] 50%|█████     | 186505/371472 [3:46:47<14:27:19,  3.55it/s] 50%|█████     | 186506/371472 [3:46:47<14:31:08,  3.54it/s] 50%|█████     | 186507/371472 [3:46:47<14:53:54,  3.45it/s] 50%|█████     | 186508/371472 [3:46:47<14:21:01,  3.58it/s] 50%|█████     | 186509/371472 [3:46:48<14:17:39,  3.59it/s] 50%|█████     | 186510/371472 [3:46:48<14:29:25,  3.55it/s] 50%|█████     | 186511/371472 [3:46:48<14:53:37,  3.45it/s] 50%|█████     | 186512/371472 [3:46:49<14:26:01,  3.56it/s] 50%|█████     | 186513/371472 [3:46:49<14:54:09,  3.45it/s] 50%|█████     | 186514/371472 [3:46:49<14:17:04,  3.60it/s] 50%|█████     | 186515/371472 [3:46:49<13:56:31,  3.69it/s] 50%|█████     | 186516/371472 [3:46:50<14:54:01,  3.45it/s] 50%|█████     | 186517/371472 [3:46:50<14:47:28,  3.47it/s] 50%|█████     | 186518/371472 [3:46:50<14:28:07,  3.55it/s] 50%|█████     | 186519/371472 [3:46:51<14:51:06,  3.46it/s] 50%|█████     | 186520/371472 [3:46:51<14:31:12,  3.54it/s]                                                            {'loss': 2.9691, 'learning_rate': 5.483419164386217e-07, 'epoch': 8.03}
 50%|█████     | 186520/371472 [3:46:51<14:31:12,  3.54it/s] 50%|█████     | 186521/371472 [3:46:51<13:53:08,  3.70it/s] 50%|█████     | 186522/371472 [3:46:51<13:56:58,  3.68it/s] 50%|█████     | 186523/371472 [3:46:52<14:35:36,  3.52it/s] 50%|█████     | 186524/371472 [3:46:52<14:38:16,  3.51it/s] 50%|█████     | 186525/371472 [3:46:52<14:25:57,  3.56it/s] 50%|█████     | 186526/371472 [3:46:52<14:39:05,  3.51it/s] 50%|█████     | 186527/371472 [3:46:53<14:27:26,  3.55it/s] 50%|█████     | 186528/371472 [3:46:53<14:55:42,  3.44it/s] 50%|█████     | 186529/371472 [3:46:53<14:29:00,  3.55it/s] 50%|█████     | 186530/371472 [3:46:54<14:17:48,  3.59it/s] 50%|█████     | 186531/371472 [3:46:54<14:31:22,  3.54it/s] 50%|█████     | 186532/371472 [3:46:54<14:14:05,  3.61it/s] 50%|█████     | 186533/371472 [3:46:54<13:59:14,  3.67it/s] 50%|█████     | 186534/371472 [3:46:55<14:01:06,  3.66it/s] 50%|█████     | 186535/371472 [3:46:55<13:44:05,  3.74it/s] 50%|█████     | 186536/371472 [3:46:55<14:31:29,  3.54it/s] 50%|█████     | 186537/371472 [3:46:56<15:00:26,  3.42it/s] 50%|█████     | 186538/371472 [3:46:56<14:31:07,  3.54it/s] 50%|█████     | 186539/371472 [3:46:56<14:45:51,  3.48it/s] 50%|█████     | 186540/371472 [3:46:56<14:21:14,  3.58it/s]                                                            {'loss': 2.9983, 'learning_rate': 5.48293434463143e-07, 'epoch': 8.03}
 50%|█████     | 186540/371472 [3:46:56<14:21:14,  3.58it/s] 50%|█████     | 186541/371472 [3:46:57<14:00:05,  3.67it/s] 50%|█████     | 186542/371472 [3:46:57<14:23:35,  3.57it/s] 50%|█████     | 186543/371472 [3:46:57<14:43:52,  3.49it/s] 50%|█████     | 186544/371472 [3:46:58<14:07:36,  3.64it/s] 50%|█████     | 186545/371472 [3:46:58<13:52:32,  3.70it/s] 50%|█████     | 186546/371472 [3:46:58<13:37:04,  3.77it/s] 50%|█████     | 186547/371472 [3:46:58<14:01:29,  3.66it/s] 50%|█████     | 186548/371472 [3:46:59<14:41:46,  3.50it/s] 50%|█████     | 186549/371472 [3:46:59<14:17:23,  3.59it/s] 50%|█████     | 186550/371472 [3:46:59<14:45:52,  3.48it/s] 50%|█████     | 186551/371472 [3:46:59<14:19:25,  3.59it/s] 50%|█████     | 186552/371472 [3:47:00<14:14:13,  3.61it/s] 50%|█████     | 186553/371472 [3:47:00<13:58:10,  3.68it/s] 50%|█████     | 186554/371472 [3:47:00<13:55:32,  3.69it/s] 50%|█████     | 186555/371472 [3:47:01<13:38:16,  3.77it/s] 50%|█████     | 186556/371472 [3:47:01<14:20:36,  3.58it/s] 50%|█████     | 186557/371472 [3:47:01<14:05:25,  3.65it/s] 50%|█████     | 186558/371472 [3:47:01<13:59:07,  3.67it/s] 50%|█████     | 186559/371472 [3:47:02<14:20:15,  3.58it/s] 50%|█████     | 186560/371472 [3:47:02<14:36:09,  3.52it/s]                                                            {'loss': 2.9272, 'learning_rate': 5.48244952487664e-07, 'epoch': 8.04}
 50%|█████     | 186560/371472 [3:47:02<14:36:09,  3.52it/s] 50%|█████     | 186561/371472 [3:47:02<14:20:43,  3.58it/s] 50%|█████     | 186562/371472 [3:47:03<15:20:55,  3.35it/s] 50%|█████     | 186563/371472 [3:47:03<14:59:32,  3.43it/s] 50%|█████     | 186564/371472 [3:47:03<15:05:17,  3.40it/s] 50%|█████     | 186565/371472 [3:47:03<15:23:13,  3.34it/s] 50%|█████     | 186566/371472 [3:47:04<15:14:44,  3.37it/s] 50%|█████     | 186567/371472 [3:47:04<15:04:33,  3.41it/s] 50%|█████     | 186568/371472 [3:47:04<14:28:25,  3.55it/s] 50%|█████     | 186569/371472 [3:47:05<14:22:39,  3.57it/s] 50%|█████     | 186570/371472 [3:47:05<14:36:45,  3.51it/s] 50%|█████     | 186571/371472 [3:47:05<15:08:56,  3.39it/s] 50%|█████     | 186572/371472 [3:47:05<15:05:50,  3.40it/s] 50%|█████     | 186573/371472 [3:47:06<14:29:28,  3.54it/s] 50%|█████     | 186574/371472 [3:47:06<14:12:52,  3.61it/s] 50%|█████     | 186575/371472 [3:47:06<14:25:25,  3.56it/s] 50%|█████     | 186576/371472 [3:47:07<14:22:25,  3.57it/s] 50%|█████     | 186577/371472 [3:47:07<14:36:06,  3.52it/s] 50%|█████     | 186578/371472 [3:47:07<14:20:28,  3.58it/s] 50%|█████     | 186579/371472 [3:47:07<14:07:04,  3.64it/s] 50%|█████     | 186580/371472 [3:47:08<14:06:48,  3.64it/s]                                                            {'loss': 2.9782, 'learning_rate': 5.481964705121852e-07, 'epoch': 8.04}
 50%|█████     | 186580/371472 [3:47:08<14:06:48,  3.64it/s] 50%|█████     | 186581/371472 [3:47:08<15:05:46,  3.40it/s] 50%|█████     | 186582/371472 [3:47:08<14:54:47,  3.44it/s] 50%|█████     | 186583/371472 [3:47:09<14:11:22,  3.62it/s] 50%|█████     | 186584/371472 [3:47:09<14:07:13,  3.64it/s] 50%|█████     | 186585/371472 [3:47:09<14:27:35,  3.55it/s] 50%|█████     | 186586/371472 [3:47:09<14:57:54,  3.43it/s] 50%|█████     | 186587/371472 [3:47:10<14:48:44,  3.47it/s] 50%|█████     | 186588/371472 [3:47:10<14:40:21,  3.50it/s] 50%|█████     | 186589/371472 [3:47:10<14:09:16,  3.63it/s] 50%|█████     | 186590/371472 [3:47:10<14:02:37,  3.66it/s] 50%|█████     | 186591/371472 [3:47:11<14:10:40,  3.62it/s] 50%|█████     | 186592/371472 [3:47:11<14:47:02,  3.47it/s] 50%|█████     | 186593/371472 [3:47:11<14:23:18,  3.57it/s] 50%|█████     | 186594/371472 [3:47:12<14:56:26,  3.44it/s] 50%|█████     | 186595/371472 [3:47:12<14:29:47,  3.54it/s] 50%|█████     | 186596/371472 [3:47:12<14:16:38,  3.60it/s] 50%|█████     | 186597/371472 [3:47:12<13:48:32,  3.72it/s] 50%|█████     | 186598/371472 [3:47:13<13:37:54,  3.77it/s] 50%|█████     | 186599/371472 [3:47:13<13:52:13,  3.70it/s] 50%|█████     | 186600/371472 [3:47:13<14:25:44,  3.56it/s]                                                            {'loss': 3.1723, 'learning_rate': 5.481479885367062e-07, 'epoch': 8.04}
 50%|█████     | 186600/371472 [3:47:13<14:25:44,  3.56it/s] 50%|█████     | 186601/371472 [3:47:14<14:34:12,  3.52it/s] 50%|█████     | 186602/371472 [3:47:14<14:17:53,  3.59it/s] 50%|█████     | 186603/371472 [3:47:14<14:25:27,  3.56it/s] 50%|█████     | 186604/371472 [3:47:14<14:10:15,  3.62it/s] 50%|█████     | 186605/371472 [3:47:15<14:51:17,  3.46it/s] 50%|█████     | 186606/371472 [3:47:15<14:31:48,  3.53it/s] 50%|█████     | 186607/371472 [3:47:15<14:11:47,  3.62it/s] 50%|█████     | 186608/371472 [3:47:16<14:35:36,  3.52it/s] 50%|█████     | 186609/371472 [3:47:16<14:09:10,  3.63it/s] 50%|█████     | 186610/371472 [3:47:16<14:33:56,  3.53it/s] 50%|█████     | 186611/371472 [3:47:16<15:23:18,  3.34it/s] 50%|█████     | 186612/371472 [3:47:17<14:49:45,  3.46it/s] 50%|█████     | 186613/371472 [3:47:17<15:35:21,  3.29it/s] 50%|█████     | 186614/371472 [3:47:17<14:52:47,  3.45it/s] 50%|█████     | 186615/371472 [3:47:18<14:25:30,  3.56it/s] 50%|█████     | 186616/371472 [3:47:18<14:20:48,  3.58it/s] 50%|█████     | 186617/371472 [3:47:18<14:09:25,  3.63it/s] 50%|█████     | 186618/371472 [3:47:18<14:04:25,  3.65it/s] 50%|█████     | 186619/371472 [3:47:19<13:48:06,  3.72it/s] 50%|█████     | 186620/371472 [3:47:19<13:46:33,  3.73it/s]                                                            {'loss': 3.1504, 'learning_rate': 5.480995065612273e-07, 'epoch': 8.04}
 50%|█████     | 186620/371472 [3:47:19<13:46:33,  3.73it/s] 50%|█████     | 186621/371472 [3:47:19<13:43:55,  3.74it/s] 50%|█████     | 186622/371472 [3:47:19<14:10:13,  3.62it/s] 50%|█████     | 186623/371472 [3:47:20<13:55:49,  3.69it/s] 50%|█████     | 186624/371472 [3:47:20<13:57:47,  3.68it/s] 50%|█████     | 186625/371472 [3:47:20<13:44:03,  3.74it/s] 50%|█████     | 186626/371472 [3:47:21<14:22:36,  3.57it/s] 50%|█████     | 186627/371472 [3:47:21<14:01:01,  3.66it/s] 50%|█████     | 186628/371472 [3:47:21<14:43:55,  3.49it/s] 50%|█████     | 186629/371472 [3:47:21<14:20:47,  3.58it/s] 50%|█████     | 186630/371472 [3:47:22<14:33:13,  3.53it/s] 50%|█████     | 186631/371472 [3:47:22<13:59:16,  3.67it/s] 50%|█████     | 186632/371472 [3:47:22<13:49:33,  3.71it/s] 50%|█████     | 186633/371472 [3:47:22<13:49:23,  3.71it/s] 50%|█████     | 186634/371472 [3:47:23<14:46:53,  3.47it/s] 50%|█████     | 186635/371472 [3:47:23<14:27:29,  3.55it/s] 50%|█████     | 186636/371472 [3:47:23<13:50:16,  3.71it/s] 50%|█████     | 186637/371472 [3:47:24<14:06:19,  3.64it/s] 50%|█████     | 186638/371472 [3:47:24<14:50:10,  3.46it/s] 50%|█████     | 186639/371472 [3:47:24<14:59:12,  3.43it/s] 50%|█████     | 186640/371472 [3:47:24<14:21:40,  3.58it/s]                                                            {'loss': 2.9135, 'learning_rate': 5.480510245857484e-07, 'epoch': 8.04}
 50%|█████     | 186640/371472 [3:47:24<14:21:40,  3.58it/s] 50%|█████     | 186641/371472 [3:47:25<14:24:09,  3.56it/s] 50%|█████     | 186642/371472 [3:47:25<14:23:04,  3.57it/s] 50%|█████     | 186643/371472 [3:47:25<14:03:32,  3.65it/s] 50%|█████     | 186644/371472 [3:47:26<13:42:42,  3.74it/s] 50%|█████     | 186645/371472 [3:47:26<13:49:28,  3.71it/s] 50%|█████     | 186646/371472 [3:47:26<14:56:22,  3.44it/s] 50%|█████     | 186647/371472 [3:47:26<14:50:55,  3.46it/s] 50%|█████     | 186648/371472 [3:47:27<15:17:13,  3.36it/s] 50%|█████     | 186649/371472 [3:47:27<15:08:20,  3.39it/s] 50%|█████     | 186650/371472 [3:47:27<15:03:49,  3.41it/s] 50%|█████     | 186651/371472 [3:47:28<14:48:30,  3.47it/s] 50%|█████     | 186652/371472 [3:47:28<14:15:34,  3.60it/s] 50%|█████     | 186653/371472 [3:47:28<13:45:17,  3.73it/s] 50%|█████     | 186654/371472 [3:47:28<14:23:37,  3.57it/s] 50%|█████     | 186655/371472 [3:47:29<14:09:13,  3.63it/s] 50%|█████     | 186656/371472 [3:47:29<13:54:59,  3.69it/s] 50%|█████     | 186657/371472 [3:47:29<13:55:15,  3.69it/s] 50%|█████     | 186658/371472 [3:47:29<13:27:40,  3.81it/s] 50%|█████     | 186659/371472 [3:47:30<13:11:38,  3.89it/s] 50%|█████     | 186660/371472 [3:47:30<13:43:02,  3.74it/s]                                                            {'loss': 3.1746, 'learning_rate': 5.480025426102694e-07, 'epoch': 8.04}
 50%|█████     | 186660/371472 [3:47:30<13:43:02,  3.74it/s] 50%|█████     | 186661/371472 [3:47:30<13:52:24,  3.70it/s] 50%|█████     | 186662/371472 [3:47:31<14:22:03,  3.57it/s] 50%|█████     | 186663/371472 [3:47:31<14:10:11,  3.62it/s] 50%|█████     | 186664/371472 [3:47:31<14:21:48,  3.57it/s] 50%|█████     | 186665/371472 [3:47:31<13:57:38,  3.68it/s] 50%|█████     | 186666/371472 [3:47:32<14:00:28,  3.66it/s] 50%|█████     | 186667/371472 [3:47:32<14:18:09,  3.59it/s] 50%|█████     | 186668/371472 [3:47:32<14:43:22,  3.49it/s] 50%|█████     | 186669/371472 [3:47:33<15:21:50,  3.34it/s] 50%|█████     | 186670/371472 [3:47:33<14:55:19,  3.44it/s] 50%|█████     | 186671/371472 [3:47:33<15:27:19,  3.32it/s] 50%|█████     | 186672/371472 [3:47:33<15:00:04,  3.42it/s] 50%|█████     | 186673/371472 [3:47:34<15:00:04,  3.42it/s] 50%|█████     | 186674/371472 [3:47:34<14:43:18,  3.49it/s] 50%|█████     | 186675/371472 [3:47:34<15:08:43,  3.39it/s] 50%|█████     | 186676/371472 [3:47:35<14:31:34,  3.53it/s] 50%|█████     | 186677/371472 [3:47:35<14:06:49,  3.64it/s] 50%|█████     | 186678/371472 [3:47:35<13:37:01,  3.77it/s] 50%|█████     | 186679/371472 [3:47:35<13:27:30,  3.81it/s] 50%|█████     | 186680/371472 [3:47:36<13:33:09,  3.79it/s]                                                            {'loss': 3.3244, 'learning_rate': 5.479540606347907e-07, 'epoch': 8.04}
 50%|█████     | 186680/371472 [3:47:36<13:33:09,  3.79it/s] 50%|█████     | 186681/371472 [3:47:36<13:48:34,  3.72it/s] 50%|█████     | 186682/371472 [3:47:36<13:50:59,  3.71it/s] 50%|█████     | 186683/371472 [3:47:37<16:02:47,  3.20it/s] 50%|█████     | 186684/371472 [3:47:37<16:05:13,  3.19it/s] 50%|█████     | 186685/371472 [3:47:37<15:30:10,  3.31it/s] 50%|█████     | 186686/371472 [3:47:37<15:35:19,  3.29it/s] 50%|█████     | 186687/371472 [3:47:38<15:11:05,  3.38it/s] 50%|█████     | 186688/371472 [3:47:38<14:43:21,  3.49it/s] 50%|█████     | 186689/371472 [3:47:38<14:26:21,  3.55it/s] 50%|█████     | 186690/371472 [3:47:39<14:33:12,  3.53it/s] 50%|█████     | 186691/371472 [3:47:39<14:06:06,  3.64it/s] 50%|█████     | 186692/371472 [3:47:39<14:30:40,  3.54it/s] 50%|█████     | 186693/371472 [3:47:39<15:09:01,  3.39it/s] 50%|█████     | 186694/371472 [3:47:40<14:36:35,  3.51it/s] 50%|█████     | 186695/371472 [3:47:40<15:17:59,  3.35it/s] 50%|█████     | 186696/371472 [3:47:40<15:04:22,  3.41it/s] 50%|█████     | 186697/371472 [3:47:41<14:41:18,  3.49it/s] 50%|█████     | 186698/371472 [3:47:41<14:31:28,  3.53it/s] 50%|█████     | 186699/371472 [3:47:41<14:06:30,  3.64it/s] 50%|█████     | 186700/371472 [3:47:41<14:14:57,  3.60it/s]                                                            {'loss': 3.0525, 'learning_rate': 5.479055786593117e-07, 'epoch': 8.04}
 50%|█████     | 186700/371472 [3:47:41<14:14:57,  3.60it/s] 50%|█████     | 186701/371472 [3:47:42<13:47:12,  3.72it/s] 50%|█████     | 186702/371472 [3:47:42<14:13:46,  3.61it/s] 50%|█████     | 186703/371472 [3:47:42<14:39:26,  3.50it/s] 50%|█████     | 186704/371472 [3:47:43<15:06:51,  3.40it/s] 50%|█████     | 186705/371472 [3:47:43<15:59:14,  3.21it/s] 50%|█████     | 186706/371472 [3:47:43<15:16:47,  3.36it/s] 50%|█████     | 186707/371472 [3:47:43<14:45:10,  3.48it/s] 50%|█████     | 186708/371472 [3:47:44<14:27:33,  3.55it/s] 50%|█████     | 186709/371472 [3:47:44<14:17:42,  3.59it/s] 50%|█████     | 186710/371472 [3:47:44<16:30:32,  3.11it/s] 50%|█████     | 186711/371472 [3:47:45<15:40:46,  3.27it/s] 50%|█████     | 186712/371472 [3:47:45<14:38:12,  3.51it/s] 50%|█████     | 186713/371472 [3:47:45<14:17:18,  3.59it/s] 50%|█████     | 186714/371472 [3:47:45<14:22:41,  3.57it/s] 50%|█████     | 186715/371472 [3:47:46<13:50:42,  3.71it/s] 50%|█████     | 186716/371472 [3:47:46<15:18:55,  3.35it/s] 50%|█████     | 186717/371472 [3:47:46<14:39:45,  3.50it/s] 50%|█████     | 186718/371472 [3:47:47<14:05:17,  3.64it/s] 50%|█████     | 186719/371472 [3:47:47<13:48:02,  3.72it/s] 50%|█████     | 186720/371472 [3:47:47<13:38:53,  3.76it/s]                                                            {'loss': 3.027, 'learning_rate': 5.478570966838329e-07, 'epoch': 8.04}
 50%|█████     | 186720/371472 [3:47:47<13:38:53,  3.76it/s] 50%|█████     | 186721/371472 [3:47:47<14:12:37,  3.61it/s] 50%|█████     | 186722/371472 [3:47:48<14:08:48,  3.63it/s] 50%|█████     | 186723/371472 [3:47:48<14:54:20,  3.44it/s] 50%|█████     | 186724/371472 [3:47:48<14:33:23,  3.53it/s] 50%|█████     | 186725/371472 [3:47:49<14:37:39,  3.51it/s] 50%|█████     | 186726/371472 [3:47:49<14:09:56,  3.62it/s] 50%|█████     | 186727/371472 [3:47:49<13:48:20,  3.72it/s] 50%|█████     | 186728/371472 [3:47:49<13:38:14,  3.76it/s] 50%|█████     | 186729/371472 [3:47:50<13:20:14,  3.85it/s] 50%|█████     | 186730/371472 [3:47:50<14:19:00,  3.58it/s] 50%|█████     | 186731/371472 [3:47:50<14:03:12,  3.65it/s] 50%|█████     | 186732/371472 [3:47:50<14:53:40,  3.45it/s] 50%|█████     | 186733/371472 [3:47:51<14:49:51,  3.46it/s] 50%|█████     | 186734/371472 [3:47:51<14:35:56,  3.52it/s] 50%|█████     | 186735/371472 [3:47:51<14:41:45,  3.49it/s] 50%|█████     | 186736/371472 [3:47:52<14:33:18,  3.53it/s] 50%|█████     | 186737/371472 [3:47:52<14:10:44,  3.62it/s] 50%|█████     | 186738/371472 [3:47:52<14:04:34,  3.65it/s] 50%|█████     | 186739/371472 [3:47:52<14:56:59,  3.43it/s] 50%|█████     | 186740/371472 [3:47:53<14:13:37,  3.61it/s]                                                            {'loss': 2.9954, 'learning_rate': 5.478086147083539e-07, 'epoch': 8.04}
 50%|█████     | 186740/371472 [3:47:53<14:13:37,  3.61it/s] 50%|█████     | 186741/371472 [3:47:53<14:02:52,  3.65it/s] 50%|█████     | 186742/371472 [3:47:53<14:12:22,  3.61it/s] 50%|█████     | 186743/371472 [3:47:54<14:04:00,  3.65it/s] 50%|█████     | 186744/371472 [3:47:54<14:27:05,  3.55it/s] 50%|█████     | 186745/371472 [3:47:54<14:21:35,  3.57it/s] 50%|█████     | 186746/371472 [3:47:54<15:44:11,  3.26it/s] 50%|█████     | 186747/371472 [3:47:55<15:36:32,  3.29it/s] 50%|█████     | 186748/371472 [3:47:55<14:43:48,  3.48it/s] 50%|█████     | 186749/371472 [3:47:55<14:18:55,  3.58it/s] 50%|█████     | 186750/371472 [3:47:56<14:23:05,  3.57it/s] 50%|█████     | 186751/371472 [3:47:56<14:53:24,  3.45it/s] 50%|█████     | 186752/371472 [3:47:56<15:21:54,  3.34it/s] 50%|█████     | 186753/371472 [3:47:56<15:04:51,  3.40it/s] 50%|█████     | 186754/371472 [3:47:57<14:49:23,  3.46it/s] 50%|█████     | 186755/371472 [3:47:57<14:57:30,  3.43it/s] 50%|█████     | 186756/371472 [3:47:57<15:14:24,  3.37it/s] 50%|█████     | 186757/371472 [3:47:58<14:41:51,  3.49it/s] 50%|█████     | 186758/371472 [3:47:58<14:23:39,  3.56it/s] 50%|█████     | 186759/371472 [3:47:58<14:05:07,  3.64it/s] 50%|█████     | 186760/371472 [3:47:58<13:52:33,  3.70it/s]                                                            {'loss': 2.87, 'learning_rate': 5.47760132732875e-07, 'epoch': 8.04}
 50%|█████     | 186760/371472 [3:47:58<13:52:33,  3.70it/s] 50%|█████     | 186761/371472 [3:47:59<13:59:44,  3.67it/s] 50%|█████     | 186762/371472 [3:47:59<14:45:49,  3.48it/s] 50%|█████     | 186763/371472 [3:47:59<14:58:22,  3.43it/s] 50%|█████     | 186764/371472 [3:48:00<14:32:19,  3.53it/s] 50%|█████     | 186765/371472 [3:48:00<15:04:18,  3.40it/s] 50%|█████     | 186766/371472 [3:48:00<14:57:42,  3.43it/s] 50%|█████     | 186767/371472 [3:48:00<15:13:15,  3.37it/s] 50%|█████     | 186768/371472 [3:48:01<15:04:46,  3.40it/s] 50%|█████     | 186769/371472 [3:48:01<14:32:19,  3.53it/s] 50%|█████     | 186770/371472 [3:48:01<14:30:46,  3.54it/s] 50%|█████     | 186771/371472 [3:48:02<14:09:00,  3.63it/s] 50%|█████     | 186772/371472 [3:48:02<14:01:04,  3.66it/s] 50%|█████     | 186773/371472 [3:48:02<13:33:33,  3.78it/s] 50%|█████     | 186774/371472 [3:48:02<14:18:03,  3.59it/s] 50%|█████     | 186775/371472 [3:48:03<14:16:55,  3.59it/s] 50%|█████     | 186776/371472 [3:48:03<14:16:16,  3.59it/s] 50%|█████     | 186777/371472 [3:48:03<14:03:39,  3.65it/s] 50%|█████     | 186778/371472 [3:48:03<13:42:23,  3.74it/s] 50%|█████     | 186779/371472 [3:48:04<14:52:12,  3.45it/s] 50%|█████     | 186780/371472 [3:48:04<15:26:16,  3.32it/s]                                                            {'loss': 2.7862, 'learning_rate': 5.477116507573961e-07, 'epoch': 8.04}
 50%|█████     | 186780/371472 [3:48:04<15:26:16,  3.32it/s] 50%|█████     | 186781/371472 [3:48:04<14:58:25,  3.43it/s] 50%|█████     | 186782/371472 [3:48:05<14:20:42,  3.58it/s] 50%|█████     | 186783/371472 [3:48:05<14:15:14,  3.60it/s] 50%|█████     | 186784/371472 [3:48:05<14:50:41,  3.46it/s] 50%|█████     | 186785/371472 [3:48:05<14:26:13,  3.55it/s] 50%|█████     | 186786/371472 [3:48:06<14:26:22,  3.55it/s] 50%|█████     | 186787/371472 [3:48:06<14:05:25,  3.64it/s] 50%|█████     | 186788/371472 [3:48:06<14:12:06,  3.61it/s] 50%|█████     | 186789/371472 [3:48:07<14:17:26,  3.59it/s] 50%|█████     | 186790/371472 [3:48:07<14:12:18,  3.61it/s] 50%|█████     | 186791/371472 [3:48:07<14:16:53,  3.59it/s] 50%|█████     | 186792/371472 [3:48:07<14:10:27,  3.62it/s] 50%|█████     | 186793/371472 [3:48:08<14:34:22,  3.52it/s] 50%|█████     | 186794/371472 [3:48:08<14:53:34,  3.44it/s] 50%|█████     | 186795/371472 [3:48:08<14:23:04,  3.57it/s] 50%|█████     | 186796/371472 [3:48:09<14:28:06,  3.55it/s] 50%|█████     | 186797/371472 [3:48:09<15:39:25,  3.28it/s] 50%|█████     | 186798/371472 [3:48:09<14:59:47,  3.42it/s] 50%|█████     | 186799/371472 [3:48:09<15:06:34,  3.40it/s] 50%|█████     | 186800/371472 [3:48:10<15:06:34,  3.40it/s]                                                            {'loss': 3.1019, 'learning_rate': 5.476631687819174e-07, 'epoch': 8.05}
 50%|█████     | 186800/371472 [3:48:10<15:06:34,  3.40it/s] 50%|█████     | 186801/371472 [3:48:10<14:44:38,  3.48it/s] 50%|█████     | 186802/371472 [3:48:10<14:43:32,  3.48it/s] 50%|█████     | 186803/371472 [3:48:11<14:42:40,  3.49it/s] 50%|█████     | 186804/371472 [3:48:11<14:28:34,  3.54it/s] 50%|█████     | 186805/371472 [3:48:11<14:13:35,  3.61it/s] 50%|█████     | 186806/371472 [3:48:11<14:24:17,  3.56it/s] 50%|█████     | 186807/371472 [3:48:12<14:03:49,  3.65it/s] 50%|█████     | 186808/371472 [3:48:12<14:12:55,  3.61it/s] 50%|█████     | 186809/371472 [3:48:12<14:17:42,  3.59it/s] 50%|█████     | 186810/371472 [3:48:13<13:52:57,  3.69it/s] 50%|█████     | 186811/371472 [3:48:13<14:12:37,  3.61it/s] 50%|█████     | 186812/371472 [3:48:13<13:54:37,  3.69it/s] 50%|█████     | 186813/371472 [3:48:13<14:31:49,  3.53it/s] 50%|█████     | 186814/371472 [3:48:14<14:49:18,  3.46it/s] 50%|█████     | 186815/371472 [3:48:14<15:29:51,  3.31it/s] 50%|█████     | 186816/371472 [3:48:14<14:37:32,  3.51it/s] 50%|█████     | 186817/371472 [3:48:15<14:22:24,  3.57it/s] 50%|█████     | 186818/371472 [3:48:15<14:20:36,  3.58it/s] 50%|█████     | 186819/371472 [3:48:15<14:27:35,  3.55it/s] 50%|█████     | 186820/371472 [3:48:15<13:52:07,  3.70it/s]                                                            {'loss': 2.9575, 'learning_rate': 5.476146868064383e-07, 'epoch': 8.05}
 50%|█████     | 186820/371472 [3:48:15<13:52:07,  3.70it/s] 50%|█████     | 186821/371472 [3:48:16<13:50:00,  3.71it/s] 50%|█████     | 186822/371472 [3:48:16<14:35:23,  3.52it/s] 50%|█████     | 186823/371472 [3:48:16<14:21:05,  3.57it/s] 50%|█████     | 186824/371472 [3:48:16<14:20:51,  3.57it/s] 50%|█████     | 186825/371472 [3:48:17<14:28:55,  3.54it/s] 50%|█████     | 186826/371472 [3:48:17<15:50:51,  3.24it/s] 50%|█████     | 186827/371472 [3:48:17<15:10:51,  3.38it/s] 50%|█████     | 186828/371472 [3:48:18<14:59:09,  3.42it/s] 50%|█████     | 186829/371472 [3:48:18<15:22:01,  3.34it/s] 50%|█████     | 186830/371472 [3:48:18<14:54:13,  3.44it/s] 50%|█████     | 186831/371472 [3:48:19<14:44:25,  3.48it/s] 50%|█████     | 186832/371472 [3:48:19<14:34:54,  3.52it/s] 50%|█████     | 186833/371472 [3:48:19<15:01:51,  3.41it/s] 50%|█████     | 186834/371472 [3:48:19<14:35:04,  3.52it/s] 50%|█████     | 186835/371472 [3:48:20<13:57:48,  3.67it/s] 50%|█████     | 186836/371472 [3:48:20<14:27:16,  3.55it/s] 50%|█████     | 186837/371472 [3:48:20<14:39:10,  3.50it/s] 50%|█████     | 186838/371472 [3:48:21<14:55:12,  3.44it/s] 50%|█████     | 186839/371472 [3:48:21<15:23:53,  3.33it/s] 50%|█████     | 186840/371472 [3:48:21<15:30:03,  3.31it/s]                                                            {'loss': 2.9104, 'learning_rate': 5.475662048309595e-07, 'epoch': 8.05}
 50%|█████     | 186840/371472 [3:48:21<15:30:03,  3.31it/s] 50%|█████     | 186841/371472 [3:48:21<15:21:34,  3.34it/s] 50%|█████     | 186842/371472 [3:48:22<15:07:22,  3.39it/s] 50%|█████     | 186843/371472 [3:48:22<14:34:21,  3.52it/s] 50%|█████     | 186844/371472 [3:48:22<13:55:38,  3.68it/s] 50%|█████     | 186845/371472 [3:48:23<13:49:42,  3.71it/s] 50%|█████     | 186846/371472 [3:48:23<13:53:16,  3.69it/s] 50%|█████     | 186847/371472 [3:48:23<14:16:34,  3.59it/s] 50%|█████     | 186848/371472 [3:48:23<14:55:21,  3.44it/s] 50%|█████     | 186849/371472 [3:48:24<15:21:28,  3.34it/s] 50%|█████     | 186850/371472 [3:48:24<15:27:52,  3.32it/s] 50%|█████     | 186851/371472 [3:48:24<15:18:47,  3.35it/s] 50%|█████     | 186852/371472 [3:48:25<14:28:59,  3.54it/s] 50%|█████     | 186853/371472 [3:48:25<14:40:26,  3.49it/s] 50%|█████     | 186854/371472 [3:48:25<14:42:25,  3.49it/s] 50%|█████     | 186855/371472 [3:48:25<14:34:16,  3.52it/s] 50%|█████     | 186856/371472 [3:48:26<14:51:56,  3.45it/s] 50%|█████     | 186857/371472 [3:48:26<14:36:57,  3.51it/s] 50%|█████     | 186858/371472 [3:48:26<14:50:42,  3.45it/s] 50%|█████     | 186859/371472 [3:48:27<15:06:43,  3.39it/s] 50%|█████     | 186860/371472 [3:48:27<21:59:07,  2.33it/s]                                                            {'loss': 2.9015, 'learning_rate': 5.475177228554806e-07, 'epoch': 8.05}
 50%|█████     | 186860/371472 [3:48:27<21:59:07,  2.33it/s] 50%|█████     | 186861/371472 [3:48:28<20:13:37,  2.54it/s] 50%|█████     | 186862/371472 [3:48:28<18:27:25,  2.78it/s] 50%|█████     | 186863/371472 [3:48:28<17:03:08,  3.01it/s] 50%|█████     | 186864/371472 [3:48:29<16:02:11,  3.20it/s] 50%|█████     | 186865/371472 [3:48:29<15:08:09,  3.39it/s] 50%|█████     | 186866/371472 [3:48:29<15:05:30,  3.40it/s] 50%|█████     | 186867/371472 [3:48:29<14:31:31,  3.53it/s] 50%|█████     | 186868/371472 [3:48:30<15:04:52,  3.40it/s] 50%|█████     | 186869/371472 [3:48:30<15:11:50,  3.37it/s] 50%|█████     | 186870/371472 [3:48:30<15:04:09,  3.40it/s] 50%|█████     | 186871/371472 [3:48:31<15:22:23,  3.34it/s] 50%|█████     | 186872/371472 [3:48:31<15:26:00,  3.32it/s] 50%|█████     | 186873/371472 [3:48:31<14:29:04,  3.54it/s] 50%|█████     | 186874/371472 [3:48:31<14:03:13,  3.65it/s] 50%|█████     | 186875/371472 [3:48:32<14:06:35,  3.63it/s] 50%|█████     | 186876/371472 [3:48:32<13:52:54,  3.69it/s] 50%|█████     | 186877/371472 [3:48:32<14:06:29,  3.63it/s] 50%|█████     | 186878/371472 [3:48:32<14:22:24,  3.57it/s] 50%|█████     | 186879/371472 [3:48:33<14:10:35,  3.62it/s] 50%|█████     | 186880/371472 [3:48:33<16:23:30,  3.13it/s]                                                            {'loss': 2.8355, 'learning_rate': 5.474692408800017e-07, 'epoch': 8.05}
 50%|█████     | 186880/371472 [3:48:33<16:23:30,  3.13it/s] 50%|█████     | 186881/371472 [3:48:33<15:35:02,  3.29it/s] 50%|█████     | 186882/371472 [3:48:34<15:25:00,  3.33it/s] 50%|█████     | 186883/371472 [3:48:34<15:09:03,  3.38it/s] 50%|█████     | 186884/371472 [3:48:34<14:41:25,  3.49it/s] 50%|█████     | 186885/371472 [3:48:35<15:13:44,  3.37it/s] 50%|█████     | 186886/371472 [3:48:35<14:42:35,  3.49it/s] 50%|█████     | 186887/371472 [3:48:35<14:15:52,  3.59it/s] 50%|█████     | 186888/371472 [3:48:35<14:25:55,  3.55it/s] 50%|█████     | 186889/371472 [3:48:36<14:19:44,  3.58it/s] 50%|█████     | 186890/371472 [3:48:36<14:46:37,  3.47it/s] 50%|█████     | 186891/371472 [3:48:36<14:05:09,  3.64it/s] 50%|█████     | 186892/371472 [3:48:36<13:52:51,  3.69it/s] 50%|█████     | 186893/371472 [3:48:37<13:35:10,  3.77it/s] 50%|█████     | 186894/371472 [3:48:37<13:43:31,  3.74it/s] 50%|█████     | 186895/371472 [3:48:37<13:37:33,  3.76it/s] 50%|█████     | 186896/371472 [3:48:38<14:41:12,  3.49it/s] 50%|█████     | 186897/371472 [3:48:38<14:29:27,  3.54it/s] 50%|█████     | 186898/371472 [3:48:38<13:48:01,  3.72it/s] 50%|█████     | 186899/371472 [3:48:38<13:40:12,  3.75it/s] 50%|█████     | 186900/371472 [3:48:39<14:11:35,  3.61it/s]                                                            {'loss': 2.8788, 'learning_rate': 5.474207589045227e-07, 'epoch': 8.05}
 50%|█████     | 186900/371472 [3:48:39<14:11:35,  3.61it/s] 50%|█████     | 186901/371472 [3:48:39<14:41:18,  3.49it/s] 50%|█████     | 186902/371472 [3:48:39<14:48:06,  3.46it/s] 50%|█████     | 186903/371472 [3:48:40<15:26:04,  3.32it/s] 50%|█████     | 186904/371472 [3:48:40<14:40:52,  3.49it/s] 50%|█████     | 186905/371472 [3:48:40<14:34:38,  3.52it/s] 50%|█████     | 186906/371472 [3:48:40<15:40:55,  3.27it/s] 50%|█████     | 186907/371472 [3:48:41<15:07:15,  3.39it/s] 50%|█████     | 186908/371472 [3:48:41<14:44:35,  3.48it/s] 50%|█████     | 186909/371472 [3:48:41<15:23:35,  3.33it/s] 50%|█████     | 186910/371472 [3:48:42<15:12:14,  3.37it/s] 50%|█████     | 186911/371472 [3:48:42<14:33:14,  3.52it/s] 50%|█████     | 186912/371472 [3:48:42<14:02:04,  3.65it/s] 50%|█████     | 186913/371472 [3:48:42<13:51:24,  3.70it/s] 50%|█████     | 186914/371472 [3:48:43<13:25:27,  3.82it/s] 50%|█████     | 186915/371472 [3:48:43<13:16:08,  3.86it/s] 50%|█████     | 186916/371472 [3:48:43<13:46:35,  3.72it/s] 50%|█████     | 186917/371472 [3:48:43<13:44:50,  3.73it/s] 50%|█████     | 186918/371472 [3:48:44<14:14:01,  3.60it/s] 50%|█████     | 186919/371472 [3:48:44<14:32:51,  3.52it/s] 50%|█████     | 186920/371472 [3:48:44<15:00:56,  3.41it/s]                                                            {'loss': 2.9365, 'learning_rate': 5.47372276929044e-07, 'epoch': 8.05}
 50%|█████     | 186920/371472 [3:48:44<15:00:56,  3.41it/s] 50%|█████     | 186921/371472 [3:48:45<15:22:55,  3.33it/s] 50%|█████     | 186922/371472 [3:48:45<15:21:43,  3.34it/s] 50%|█████     | 186923/371472 [3:48:45<14:44:25,  3.48it/s] 50%|█████     | 186924/371472 [3:48:46<15:46:48,  3.25it/s] 50%|█████     | 186925/371472 [3:48:46<18:29:04,  2.77it/s] 50%|█████     | 186926/371472 [3:48:46<16:47:22,  3.05it/s] 50%|█████     | 186927/371472 [3:48:47<16:15:40,  3.15it/s] 50%|█████     | 186928/371472 [3:48:47<16:11:08,  3.17it/s] 50%|█████     | 186929/371472 [3:48:47<15:30:30,  3.31it/s] 50%|█████     | 186930/371472 [3:48:47<15:02:53,  3.41it/s] 50%|█████     | 186931/371472 [3:48:48<14:35:54,  3.51it/s] 50%|█████     | 186932/371472 [3:48:48<15:05:19,  3.40it/s] 50%|█████     | 186933/371472 [3:48:48<14:26:18,  3.55it/s] 50%|█████     | 186934/371472 [3:48:49<15:20:25,  3.34it/s] 50%|█████     | 186935/371472 [3:48:49<15:11:00,  3.38it/s] 50%|█████     | 186936/371472 [3:48:49<15:00:06,  3.42it/s] 50%|█████     | 186937/371472 [3:48:50<16:45:07,  3.06it/s] 50%|█████     | 186938/371472 [3:48:50<16:16:48,  3.15it/s] 50%|█████     | 186939/371472 [3:48:50<16:53:15,  3.04it/s] 50%|█████     | 186940/371472 [3:48:51<17:08:58,  2.99it/s]                                                            {'loss': 2.8819, 'learning_rate': 5.47323794953565e-07, 'epoch': 8.05}
 50%|█████     | 186940/371472 [3:48:51<17:08:58,  2.99it/s] 50%|█████     | 186941/371472 [3:48:51<16:44:29,  3.06it/s] 50%|█████     | 186942/371472 [3:48:51<15:52:31,  3.23it/s] 50%|█████     | 186943/371472 [3:48:52<16:09:15,  3.17it/s] 50%|█████     | 186944/371472 [3:48:52<16:21:59,  3.13it/s] 50%|█████     | 186945/371472 [3:48:52<15:23:59,  3.33it/s] 50%|█████     | 186946/371472 [3:48:52<15:38:57,  3.28it/s] 50%|█████     | 186947/371472 [3:48:53<14:52:56,  3.44it/s] 50%|█████     | 186948/371472 [3:48:53<15:04:51,  3.40it/s] 50%|█████     | 186949/371472 [3:48:53<15:30:50,  3.30it/s] 50%|█████     | 186950/371472 [3:48:54<14:55:33,  3.43it/s] 50%|█████     | 186951/371472 [3:48:54<15:37:28,  3.28it/s] 50%|█████     | 186952/371472 [3:48:54<15:29:40,  3.31it/s] 50%|█████     | 186953/371472 [3:48:55<15:17:50,  3.35it/s] 50%|█████     | 186954/371472 [3:48:55<14:45:56,  3.47it/s] 50%|█████     | 186955/371472 [3:48:55<14:36:47,  3.51it/s] 50%|█████     | 186956/371472 [3:48:55<15:22:11,  3.33it/s] 50%|█████     | 186957/371472 [3:48:56<15:13:02,  3.37it/s] 50%|█████     | 186958/371472 [3:48:56<15:48:15,  3.24it/s] 50%|█████     | 186959/371472 [3:48:56<15:43:09,  3.26it/s] 50%|█████     | 186960/371472 [3:48:57<16:01:57,  3.20it/s]                                                            {'loss': 2.9973, 'learning_rate': 5.472753129780862e-07, 'epoch': 8.05}
 50%|█████     | 186960/371472 [3:48:57<16:01:57,  3.20it/s] 50%|█████     | 186961/371472 [3:48:57<15:25:43,  3.32it/s] 50%|█████     | 186962/371472 [3:48:57<15:37:06,  3.28it/s] 50%|█████     | 186963/371472 [3:48:58<15:56:29,  3.22it/s] 50%|█████     | 186964/371472 [3:48:58<15:19:56,  3.34it/s] 50%|█████     | 186965/371472 [3:48:58<14:43:52,  3.48it/s] 50%|█████     | 186966/371472 [3:48:58<15:18:58,  3.35it/s] 50%|█████     | 186967/371472 [3:48:59<15:13:13,  3.37it/s] 50%|█████     | 186968/371472 [3:48:59<14:31:46,  3.53it/s] 50%|█████     | 186969/371472 [3:48:59<14:27:31,  3.54it/s] 50%|█████     | 186970/371472 [3:49:00<14:33:01,  3.52it/s] 50%|█████     | 186971/371472 [3:49:00<14:39:25,  3.50it/s] 50%|█████     | 186972/371472 [3:49:00<14:49:49,  3.46it/s] 50%|█████     | 186973/371472 [3:49:00<14:59:08,  3.42it/s] 50%|█████     | 186974/371472 [3:49:01<15:50:51,  3.23it/s] 50%|█████     | 186975/371472 [3:49:01<15:13:55,  3.36it/s] 50%|█████     | 186976/371472 [3:49:01<15:16:15,  3.36it/s] 50%|█████     | 186977/371472 [3:49:02<15:23:46,  3.33it/s] 50%|█████     | 186978/371472 [3:49:02<15:00:47,  3.41it/s] 50%|█████     | 186979/371472 [3:49:02<15:07:54,  3.39it/s] 50%|█████     | 186980/371472 [3:49:03<15:31:01,  3.30it/s]                                                            {'loss': 3.1022, 'learning_rate': 5.472268310026072e-07, 'epoch': 8.05}
 50%|█████     | 186980/371472 [3:49:03<15:31:01,  3.30it/s] 50%|█████     | 186981/371472 [3:49:03<15:59:19,  3.21it/s] 50%|█████     | 186982/371472 [3:49:03<14:56:11,  3.43it/s] 50%|█████     | 186983/371472 [3:49:03<15:25:54,  3.32it/s] 50%|█████     | 186984/371472 [3:49:04<15:05:35,  3.40it/s] 50%|█████     | 186985/371472 [3:49:04<14:57:23,  3.43it/s] 50%|█████     | 186986/371472 [3:49:04<14:50:31,  3.45it/s] 50%|█████     | 186987/371472 [3:49:05<14:21:37,  3.57it/s] 50%|█████     | 186988/371472 [3:49:05<14:28:05,  3.54it/s] 50%|█████     | 186989/371472 [3:49:05<14:46:38,  3.47it/s] 50%|█████     | 186990/371472 [3:49:05<15:01:52,  3.41it/s] 50%|█████     | 186991/371472 [3:49:06<15:10:43,  3.38it/s] 50%|█████     | 186992/371472 [3:49:06<14:39:27,  3.50it/s] 50%|█████     | 186993/371472 [3:49:06<14:36:13,  3.51it/s] 50%|█████     | 186994/371472 [3:49:07<14:45:56,  3.47it/s] 50%|█████     | 186995/371472 [3:49:07<14:55:47,  3.43it/s] 50%|█████     | 186996/371472 [3:49:07<14:14:37,  3.60it/s] 50%|█████     | 186997/371472 [3:49:07<13:47:56,  3.71it/s] 50%|█████     | 186998/371472 [3:49:08<14:26:29,  3.55it/s] 50%|█████     | 186999/371472 [3:49:08<15:22:13,  3.33it/s] 50%|█████     | 187000/371472 [3:49:08<15:05:58,  3.39it/s]                                                            {'loss': 3.0107, 'learning_rate': 5.471783490271283e-07, 'epoch': 8.05}
 50%|█████     | 187000/371472 [3:49:08<15:05:58,  3.39it/s] 50%|█████     | 187001/371472 [3:49:09<16:09:06,  3.17it/s] 50%|█████     | 187002/371472 [3:49:09<15:44:07,  3.26it/s] 50%|█████     | 187003/371472 [3:49:09<15:47:15,  3.25it/s] 50%|█████     | 187004/371472 [3:49:10<16:24:56,  3.12it/s] 50%|█████     | 187005/371472 [3:49:10<16:29:32,  3.11it/s] 50%|█████     | 187006/371472 [3:49:10<15:43:37,  3.26it/s] 50%|█████     | 187007/371472 [3:49:11<15:41:42,  3.26it/s] 50%|█████     | 187008/371472 [3:49:11<15:33:20,  3.29it/s] 50%|█████     | 187009/371472 [3:49:11<15:22:08,  3.33it/s] 50%|█████     | 187010/371472 [3:49:11<14:43:10,  3.48it/s] 50%|█████     | 187011/371472 [3:49:12<14:48:20,  3.46it/s] 50%|█████     | 187012/371472 [3:49:12<14:14:32,  3.60it/s] 50%|█████     | 187013/371472 [3:49:12<15:42:21,  3.26it/s] 50%|█████     | 187014/371472 [3:49:13<14:59:46,  3.42it/s] 50%|█████     | 187015/371472 [3:49:13<15:15:49,  3.36it/s] 50%|█████     | 187016/371472 [3:49:13<15:04:38,  3.40it/s] 50%|█████     | 187017/371472 [3:49:13<14:18:54,  3.58it/s] 50%|█████     | 187018/371472 [3:49:14<14:14:29,  3.60it/s] 50%|█████     | 187019/371472 [3:49:14<14:01:35,  3.65it/s] 50%|█████     | 187020/371472 [3:49:14<14:39:24,  3.50it/s]                                                            {'loss': 2.9145, 'learning_rate': 5.471298670516494e-07, 'epoch': 8.06}
 50%|█████     | 187020/371472 [3:49:14<14:39:24,  3.50it/s] 50%|█████     | 187021/371472 [3:49:15<14:38:42,  3.50it/s] 50%|█████     | 187022/371472 [3:49:15<14:15:17,  3.59it/s] 50%|█████     | 187023/371472 [3:49:15<14:54:46,  3.44it/s] 50%|█████     | 187024/371472 [3:49:15<14:28:32,  3.54it/s] 50%|█████     | 187025/371472 [3:49:16<14:20:53,  3.57it/s] 50%|█████     | 187026/371472 [3:49:16<14:30:58,  3.53it/s] 50%|█████     | 187027/371472 [3:49:16<14:36:17,  3.51it/s] 50%|█████     | 187028/371472 [3:49:17<15:21:44,  3.34it/s] 50%|█████     | 187029/371472 [3:49:17<15:02:02,  3.41it/s] 50%|█████     | 187030/371472 [3:49:17<14:18:31,  3.58it/s] 50%|█████     | 187031/371472 [3:49:17<14:34:10,  3.52it/s] 50%|█████     | 187032/371472 [3:49:18<14:15:46,  3.59it/s] 50%|█████     | 187033/371472 [3:49:18<14:33:15,  3.52it/s] 50%|█████     | 187034/371472 [3:49:18<14:57:44,  3.42it/s] 50%|█████     | 187035/371472 [3:49:19<15:15:29,  3.36it/s] 50%|█████     | 187036/371472 [3:49:19<15:09:39,  3.38it/s] 50%|█████     | 187037/371472 [3:49:19<15:09:15,  3.38it/s] 50%|█████     | 187038/371472 [3:49:19<14:36:41,  3.51it/s] 50%|█████     | 187039/371472 [3:49:20<14:31:10,  3.53it/s] 50%|█████     | 187040/371472 [3:49:20<14:40:49,  3.49it/s]                                                            {'loss': 3.055, 'learning_rate': 5.470813850761706e-07, 'epoch': 8.06}
 50%|█████     | 187040/371472 [3:49:20<14:40:49,  3.49it/s] 50%|█████     | 187041/371472 [3:49:20<14:37:27,  3.50it/s] 50%|█████     | 187042/371472 [3:49:21<16:06:21,  3.18it/s] 50%|█████     | 187043/371472 [3:49:21<15:50:43,  3.23it/s] 50%|█████     | 187044/371472 [3:49:21<16:13:37,  3.16it/s] 50%|█████     | 187045/371472 [3:49:22<15:57:49,  3.21it/s] 50%|█████     | 187046/371472 [3:49:22<16:48:13,  3.05it/s] 50%|█████     | 187047/371472 [3:49:22<17:04:22,  3.00it/s] 50%|█████     | 187048/371472 [3:49:23<16:59:59,  3.01it/s] 50%|█████     | 187049/371472 [3:49:23<16:39:42,  3.07it/s] 50%|█████     | 187050/371472 [3:49:23<16:35:03,  3.09it/s] 50%|█████     | 187051/371472 [3:49:24<16:07:06,  3.18it/s] 50%|█████     | 187052/371472 [3:49:24<16:34:44,  3.09it/s] 50%|█████     | 187053/371472 [3:49:24<16:15:57,  3.15it/s] 50%|█████     | 187054/371472 [3:49:24<15:14:36,  3.36it/s] 50%|█████     | 187055/371472 [3:49:25<15:11:28,  3.37it/s] 50%|█████     | 187056/371472 [3:49:25<15:04:16,  3.40it/s] 50%|█████     | 187057/371472 [3:49:25<14:47:04,  3.46it/s] 50%|█████     | 187058/371472 [3:49:26<14:47:06,  3.46it/s] 50%|█████     | 187059/371472 [3:49:26<14:42:14,  3.48it/s] 50%|█████     | 187060/371472 [3:49:26<14:37:29,  3.50it/s]                                                            {'loss': 2.9617, 'learning_rate': 5.470329031006917e-07, 'epoch': 8.06}
 50%|█████     | 187060/371472 [3:49:26<14:37:29,  3.50it/s] 50%|█████     | 187061/371472 [3:49:26<15:01:21,  3.41it/s] 50%|█████     | 187062/371472 [3:49:27<15:03:42,  3.40it/s] 50%|█████     | 187063/371472 [3:49:27<14:58:41,  3.42it/s] 50%|█████     | 187064/371472 [3:49:27<15:50:56,  3.23it/s] 50%|█████     | 187065/371472 [3:49:28<15:12:33,  3.37it/s] 50%|█████     | 187066/371472 [3:49:28<14:34:06,  3.52it/s] 50%|█████     | 187067/371472 [3:49:28<14:35:45,  3.51it/s] 50%|█████     | 187068/371472 [3:49:28<14:03:16,  3.64it/s] 50%|█████     | 187069/371472 [3:49:29<15:03:32,  3.40it/s] 50%|█████     | 187070/371472 [3:49:29<14:30:45,  3.53it/s] 50%|█████     | 187071/371472 [3:49:29<13:58:24,  3.67it/s] 50%|█████     | 187072/371472 [3:49:30<14:13:40,  3.60it/s] 50%|█████     | 187073/371472 [3:49:30<14:28:36,  3.54it/s] 50%|█████     | 187074/371472 [3:49:30<14:35:01,  3.51it/s] 50%|█████     | 187075/371472 [3:49:30<14:15:19,  3.59it/s] 50%|█████     | 187076/371472 [3:49:31<15:21:12,  3.34it/s] 50%|█████     | 187077/371472 [3:49:31<15:33:46,  3.29it/s] 50%|█████     | 187078/371472 [3:49:31<14:54:46,  3.43it/s] 50%|█████     | 187079/371472 [3:49:32<15:27:46,  3.31it/s] 50%|█████     | 187080/371472 [3:49:32<14:40:06,  3.49it/s]                                                            {'loss': 2.9555, 'learning_rate': 5.469844211252128e-07, 'epoch': 8.06}
 50%|█████     | 187080/371472 [3:49:32<14:40:06,  3.49it/s] 50%|█████     | 187081/371472 [3:49:32<14:10:38,  3.61it/s] 50%|█████     | 187082/371472 [3:49:32<14:21:36,  3.57it/s] 50%|█████     | 187083/371472 [3:49:33<14:19:15,  3.58it/s] 50%|█████     | 187084/371472 [3:49:33<14:07:06,  3.63it/s] 50%|█████     | 187085/371472 [3:49:33<14:21:11,  3.57it/s] 50%|█████     | 187086/371472 [3:49:34<15:30:02,  3.30it/s] 50%|█████     | 187087/371472 [3:49:34<15:48:46,  3.24it/s] 50%|█████     | 187088/371472 [3:49:34<15:07:41,  3.39it/s] 50%|█████     | 187089/371472 [3:49:35<15:16:51,  3.35it/s] 50%|█████     | 187090/371472 [3:49:35<17:13:50,  2.97it/s] 50%|█████     | 187091/371472 [3:49:35<16:36:29,  3.08it/s] 50%|█████     | 187092/371472 [3:49:36<16:41:45,  3.07it/s] 50%|█████     | 187093/371472 [3:49:36<15:42:20,  3.26it/s] 50%|█████     | 187094/371472 [3:49:36<15:36:37,  3.28it/s] 50%|█████     | 187095/371472 [3:49:36<15:32:01,  3.30it/s] 50%|█████     | 187096/371472 [3:49:37<15:14:31,  3.36it/s] 50%|█████     | 187097/371472 [3:49:37<14:59:23,  3.42it/s] 50%|█████     | 187098/371472 [3:49:37<14:51:47,  3.45it/s] 50%|█████     | 187099/371472 [3:49:38<14:22:21,  3.56it/s] 50%|█████     | 187100/371472 [3:49:38<13:55:54,  3.68it/s]                                                            {'loss': 3.0445, 'learning_rate': 5.469359391497339e-07, 'epoch': 8.06}
 50%|█████     | 187100/371472 [3:49:38<13:55:54,  3.68it/s] 50%|█████     | 187101/371472 [3:49:38<13:40:22,  3.75it/s] 50%|█████     | 187102/371472 [3:49:38<13:42:02,  3.74it/s] 50%|█████     | 187103/371472 [3:49:39<14:08:23,  3.62it/s] 50%|█████     | 187104/371472 [3:49:39<14:04:02,  3.64it/s] 50%|█████     | 187105/371472 [3:49:39<14:19:18,  3.58it/s] 50%|█████     | 187106/371472 [3:49:40<14:25:55,  3.55it/s] 50%|█████     | 187107/371472 [3:49:40<14:11:48,  3.61it/s] 50%|█████     | 187108/371472 [3:49:40<14:26:58,  3.54it/s] 50%|█████     | 187109/371472 [3:49:40<15:44:02,  3.25it/s] 50%|█████     | 187110/371472 [3:49:41<14:44:59,  3.47it/s] 50%|█████     | 187111/371472 [3:49:41<14:06:27,  3.63it/s] 50%|█████     | 187112/371472 [3:49:41<14:32:07,  3.52it/s] 50%|█████     | 187113/371472 [3:49:42<14:27:41,  3.54it/s] 50%|█████     | 187114/371472 [3:49:42<14:44:42,  3.47it/s] 50%|█████     | 187115/371472 [3:49:42<15:40:33,  3.27it/s] 50%|█████     | 187116/371472 [3:49:42<14:49:12,  3.46it/s] 50%|█████     | 187117/371472 [3:49:43<14:20:32,  3.57it/s] 50%|█████     | 187118/371472 [3:49:43<14:11:46,  3.61it/s] 50%|█████     | 187119/371472 [3:49:43<14:19:13,  3.58it/s] 50%|█████     | 187120/371472 [3:49:44<14:13:19,  3.60it/s]                                                            {'loss': 3.0149, 'learning_rate': 5.46887457174255e-07, 'epoch': 8.06}
 50%|█████     | 187120/371472 [3:49:44<14:13:19,  3.60it/s] 50%|█████     | 187121/371472 [3:49:44<13:58:58,  3.66it/s] 50%|█████     | 187122/371472 [3:49:44<13:45:18,  3.72it/s] 50%|█████     | 187123/371472 [3:49:44<14:04:35,  3.64it/s] 50%|█████     | 187124/371472 [3:49:45<13:56:04,  3.67it/s] 50%|█████     | 187125/371472 [3:49:45<14:05:25,  3.63it/s] 50%|█████     | 187126/371472 [3:49:45<14:28:16,  3.54it/s] 50%|█████     | 187127/371472 [3:49:45<15:11:20,  3.37it/s] 50%|█████     | 187128/371472 [3:49:46<14:44:49,  3.47it/s] 50%|█████     | 187129/371472 [3:49:46<15:31:29,  3.30it/s] 50%|█████     | 187130/371472 [3:49:46<15:24:49,  3.32it/s] 50%|█████     | 187131/371472 [3:49:47<14:48:02,  3.46it/s] 50%|█████     | 187132/371472 [3:49:47<14:59:03,  3.42it/s] 50%|█████     | 187133/371472 [3:49:47<14:25:30,  3.55it/s] 50%|█████     | 187134/371472 [3:49:47<14:32:52,  3.52it/s] 50%|█████     | 187135/371472 [3:49:48<14:35:11,  3.51it/s] 50%|█████     | 187136/371472 [3:49:48<14:05:33,  3.63it/s] 50%|█████     | 187137/371472 [3:49:48<14:18:48,  3.58it/s] 50%|█████     | 187138/371472 [3:49:49<13:53:28,  3.69it/s] 50%|█████     | 187139/371472 [3:49:49<13:42:25,  3.74it/s] 50%|█████     | 187140/371472 [3:49:49<14:03:22,  3.64it/s]                                                            {'loss': 3.074, 'learning_rate': 5.46838975198776e-07, 'epoch': 8.06}
 50%|█████     | 187140/371472 [3:49:49<14:03:22,  3.64it/s] 50%|█████     | 187141/371472 [3:49:49<15:05:39,  3.39it/s] 50%|█████     | 187142/371472 [3:49:50<14:52:55,  3.44it/s] 50%|█████     | 187143/371472 [3:49:50<14:38:35,  3.50it/s] 50%|█████     | 187144/371472 [3:49:50<14:55:56,  3.43it/s] 50%|█████     | 187145/371472 [3:49:51<14:41:13,  3.49it/s] 50%|█████     | 187146/371472 [3:49:51<14:36:37,  3.50it/s] 50%|█████     | 187147/371472 [3:49:51<14:32:07,  3.52it/s] 50%|█████     | 187148/371472 [3:49:51<14:22:21,  3.56it/s] 50%|█████     | 187149/371472 [3:49:52<14:01:54,  3.65it/s] 50%|█████     | 187150/371472 [3:49:52<14:34:40,  3.51it/s] 50%|█████     | 187151/371472 [3:49:52<14:58:29,  3.42it/s] 50%|█████     | 187152/371472 [3:49:53<14:29:06,  3.53it/s] 50%|█████     | 187153/371472 [3:49:53<15:22:15,  3.33it/s] 50%|█████     | 187154/371472 [3:49:53<16:00:54,  3.20it/s] 50%|█████     | 187155/371472 [3:49:54<15:26:57,  3.31it/s] 50%|█████     | 187156/371472 [3:49:54<15:12:54,  3.37it/s] 50%|█████     | 187157/371472 [3:49:54<14:52:57,  3.44it/s] 50%|█████     | 187158/371472 [3:49:54<15:25:45,  3.32it/s] 50%|█████     | 187159/371472 [3:49:55<14:45:09,  3.47it/s] 50%|█████     | 187160/371472 [3:49:55<14:55:03,  3.43it/s]                                                            {'loss': 2.9085, 'learning_rate': 5.467904932232971e-07, 'epoch': 8.06}
 50%|█████     | 187160/371472 [3:49:55<14:55:03,  3.43it/s] 50%|█████     | 187161/371472 [3:49:55<15:27:21,  3.31it/s] 50%|█████     | 187162/371472 [3:49:56<15:58:33,  3.20it/s] 50%|█████     | 187163/371472 [3:49:56<15:58:34,  3.20it/s] 50%|█████     | 187164/371472 [3:49:56<15:39:18,  3.27it/s] 50%|█████     | 187165/371472 [3:49:56<14:39:17,  3.49it/s] 50%|█████     | 187166/371472 [3:49:57<15:14:43,  3.36it/s] 50%|█████     | 187167/371472 [3:49:57<15:40:00,  3.27it/s] 50%|█████     | 187168/371472 [3:49:57<15:05:03,  3.39it/s] 50%|█████     | 187169/371472 [3:49:58<14:53:33,  3.44it/s] 50%|█████     | 187170/371472 [3:49:58<14:36:55,  3.50it/s] 50%|█████     | 187171/371472 [3:49:58<14:05:19,  3.63it/s] 50%|█████     | 187172/371472 [3:49:59<14:18:07,  3.58it/s] 50%|█████     | 187173/371472 [3:49:59<14:02:31,  3.65it/s] 50%|█████     | 187174/371472 [3:49:59<14:28:09,  3.54it/s] 50%|█████     | 187175/371472 [3:49:59<14:50:05,  3.45it/s] 50%|█████     | 187176/371472 [3:50:00<14:27:34,  3.54it/s] 50%|█████     | 187177/371472 [3:50:00<14:23:16,  3.56it/s] 50%|█████     | 187178/371472 [3:50:00<14:19:32,  3.57it/s] 50%|█████     | 187179/371472 [3:50:00<14:10:06,  3.61it/s] 50%|█████     | 187180/371472 [3:50:01<14:20:11,  3.57it/s]                                                            {'loss': 3.1296, 'learning_rate': 5.467420112478184e-07, 'epoch': 8.06}
 50%|█████     | 187180/371472 [3:50:01<14:20:11,  3.57it/s] 50%|█████     | 187181/371472 [3:50:01<14:44:53,  3.47it/s] 50%|█████     | 187182/371472 [3:50:01<14:18:59,  3.58it/s] 50%|█████     | 187183/371472 [3:50:02<14:41:06,  3.49it/s] 50%|█████     | 187184/371472 [3:50:02<14:56:15,  3.43it/s] 50%|█████     | 187185/371472 [3:50:02<14:53:51,  3.44it/s] 50%|█████     | 187186/371472 [3:50:03<16:20:37,  3.13it/s] 50%|█████     | 187187/371472 [3:50:03<17:00:57,  3.01it/s] 50%|█████     | 187188/371472 [3:50:03<15:55:43,  3.21it/s] 50%|█████     | 187189/371472 [3:50:03<15:09:58,  3.38it/s] 50%|█████     | 187190/371472 [3:50:04<14:59:19,  3.42it/s] 50%|█████     | 187191/371472 [3:50:04<14:41:39,  3.48it/s] 50%|█████     | 187192/371472 [3:50:04<15:37:10,  3.28it/s] 50%|█████     | 187193/371472 [3:50:05<14:56:37,  3.43it/s] 50%|█████     | 187194/371472 [3:50:05<14:30:19,  3.53it/s] 50%|█████     | 187195/371472 [3:50:05<14:21:39,  3.56it/s] 50%|█████     | 187196/371472 [3:50:05<14:25:44,  3.55it/s] 50%|█████     | 187197/371472 [3:50:06<14:14:20,  3.59it/s] 50%|█████     | 187198/371472 [3:50:06<14:05:55,  3.63it/s] 50%|█████     | 187199/371472 [3:50:06<13:50:46,  3.70it/s] 50%|█████     | 187200/371472 [3:50:07<14:06:48,  3.63it/s]                                                            {'loss': 3.1612, 'learning_rate': 5.466935292723393e-07, 'epoch': 8.06}
 50%|█████     | 187200/371472 [3:50:07<14:06:48,  3.63it/s] 50%|█████     | 187201/371472 [3:50:07<14:41:37,  3.48it/s] 50%|█████     | 187202/371472 [3:50:07<14:26:25,  3.54it/s] 50%|█████     | 187203/371472 [3:50:07<14:28:37,  3.54it/s] 50%|█████     | 187204/371472 [3:50:08<14:48:45,  3.46it/s] 50%|█████     | 187205/371472 [3:50:08<14:38:29,  3.50it/s] 50%|█████     | 187206/371472 [3:50:08<14:08:30,  3.62it/s] 50%|█████     | 187207/371472 [3:50:09<13:34:57,  3.77it/s] 50%|█████     | 187208/371472 [3:50:09<14:07:41,  3.62it/s] 50%|█████     | 187209/371472 [3:50:09<16:12:38,  3.16it/s] 50%|█████     | 187210/371472 [3:50:09<15:19:44,  3.34it/s] 50%|█████     | 187211/371472 [3:50:10<15:12:28,  3.37it/s] 50%|█████     | 187212/371472 [3:50:10<15:22:41,  3.33it/s] 50%|█████     | 187213/371472 [3:50:10<15:22:21,  3.33it/s] 50%|█████     | 187214/371472 [3:50:11<15:07:25,  3.38it/s] 50%|█████     | 187215/371472 [3:50:11<14:38:09,  3.50it/s] 50%|█████     | 187216/371472 [3:50:11<15:02:54,  3.40it/s] 50%|█████     | 187217/371472 [3:50:12<15:04:33,  3.39it/s] 50%|█████     | 187218/371472 [3:50:12<15:47:04,  3.24it/s] 50%|█████     | 187219/371472 [3:50:12<15:33:00,  3.29it/s] 50%|█████     | 187220/371472 [3:50:12<14:40:59,  3.49it/s]                                                            {'loss': 3.1445, 'learning_rate': 5.466450472968604e-07, 'epoch': 8.06}
 50%|█████     | 187220/371472 [3:50:12<14:40:59,  3.49it/s] 50%|█████     | 187221/371472 [3:50:13<14:23:14,  3.56it/s] 50%|█████     | 187222/371472 [3:50:13<15:11:43,  3.37it/s] 50%|█████     | 187223/371472 [3:50:13<14:33:08,  3.52it/s] 50%|█████     | 187224/371472 [3:50:14<14:21:16,  3.57it/s] 50%|█████     | 187225/371472 [3:50:14<14:15:08,  3.59it/s] 50%|█████     | 187226/371472 [3:50:14<13:46:21,  3.72it/s] 50%|█████     | 187227/371472 [3:50:14<14:59:18,  3.41it/s] 50%|█████     | 187228/371472 [3:50:15<14:46:01,  3.47it/s] 50%|█████     | 187229/371472 [3:50:15<14:36:36,  3.50it/s] 50%|█████     | 187230/371472 [3:50:15<14:53:34,  3.44it/s] 50%|█████     | 187231/371472 [3:50:16<14:46:15,  3.46it/s] 50%|█████     | 187232/371472 [3:50:16<15:01:18,  3.41it/s] 50%|█████     | 187233/371472 [3:50:16<14:30:53,  3.53it/s] 50%|█████     | 187234/371472 [3:50:16<14:07:49,  3.62it/s] 50%|█████     | 187235/371472 [3:50:17<14:08:22,  3.62it/s] 50%|█████     | 187236/371472 [3:50:17<14:31:28,  3.52it/s] 50%|█████     | 187237/371472 [3:50:17<14:35:16,  3.51it/s] 50%|█████     | 187238/371472 [3:50:18<15:16:31,  3.35it/s] 50%|█████     | 187239/371472 [3:50:18<15:12:23,  3.37it/s] 50%|█████     | 187240/371472 [3:50:18<14:26:27,  3.54it/s]                                                            {'loss': 3.0316, 'learning_rate': 5.465965653213816e-07, 'epoch': 8.06}
 50%|█████     | 187240/371472 [3:50:18<14:26:27,  3.54it/s] 50%|█████     | 187241/371472 [3:50:18<14:46:00,  3.47it/s] 50%|█████     | 187242/371472 [3:50:19<14:23:20,  3.56it/s] 50%|█████     | 187243/371472 [3:50:19<14:29:40,  3.53it/s] 50%|█████     | 187244/371472 [3:50:19<14:23:38,  3.56it/s] 50%|█████     | 187245/371472 [3:50:20<15:21:29,  3.33it/s] 50%|█████     | 187246/371472 [3:50:20<15:36:01,  3.28it/s] 50%|█████     | 187247/371472 [3:50:20<14:53:15,  3.44it/s] 50%|█████     | 187248/371472 [3:50:20<14:46:02,  3.47it/s] 50%|█████     | 187249/371472 [3:50:21<14:29:14,  3.53it/s] 50%|█████     | 187250/371472 [3:50:21<14:13:08,  3.60it/s] 50%|█████     | 187251/371472 [3:50:21<13:58:14,  3.66it/s] 50%|█████     | 187252/371472 [3:50:22<14:06:16,  3.63it/s] 50%|█████     | 187253/371472 [3:50:22<14:53:16,  3.44it/s] 50%|█████     | 187254/371472 [3:50:22<14:22:20,  3.56it/s] 50%|█████     | 187255/371472 [3:50:22<13:56:28,  3.67it/s] 50%|█████     | 187256/371472 [3:50:23<13:57:24,  3.67it/s] 50%|█████     | 187257/371472 [3:50:23<14:20:33,  3.57it/s] 50%|█████     | 187258/371472 [3:50:23<14:08:34,  3.62it/s] 50%|█████     | 187259/371472 [3:50:23<14:17:51,  3.58it/s] 50%|█████     | 187260/371472 [3:50:24<14:25:23,  3.55it/s]                                                            {'loss': 2.975, 'learning_rate': 5.465480833459026e-07, 'epoch': 8.07}
 50%|█████     | 187260/371472 [3:50:24<14:25:23,  3.55it/s] 50%|█████     | 187261/371472 [3:50:24<15:16:35,  3.35it/s] 50%|█████     | 187262/371472 [3:50:24<14:49:05,  3.45it/s] 50%|█████     | 187263/371472 [3:50:25<14:48:00,  3.46it/s] 50%|█████     | 187264/371472 [3:50:25<14:21:34,  3.56it/s] 50%|█████     | 187265/371472 [3:50:25<14:44:32,  3.47it/s] 50%|█████     | 187266/371472 [3:50:26<14:56:51,  3.42it/s] 50%|█████     | 187267/371472 [3:50:26<14:26:10,  3.54it/s] 50%|█████     | 187268/371472 [3:50:26<14:53:06,  3.44it/s] 50%|█████     | 187269/371472 [3:50:26<14:37:50,  3.50it/s] 50%|█████     | 187270/371472 [3:50:27<14:59:08,  3.41it/s] 50%|█████     | 187271/371472 [3:50:27<14:40:26,  3.49it/s] 50%|█████     | 187272/371472 [3:50:27<14:01:22,  3.65it/s] 50%|█████     | 187273/371472 [3:50:27<14:09:40,  3.61it/s] 50%|█████     | 187274/371472 [3:50:28<14:36:41,  3.50it/s] 50%|█████     | 187275/371472 [3:50:28<14:18:06,  3.58it/s] 50%|█████     | 187276/371472 [3:50:28<14:14:11,  3.59it/s] 50%|█████     | 187277/371472 [3:50:29<14:37:47,  3.50it/s] 50%|█████     | 187278/371472 [3:50:29<14:12:03,  3.60it/s] 50%|█████     | 187279/371472 [3:50:29<14:17:07,  3.58it/s] 50%|█████     | 187280/371472 [3:50:29<14:15:43,  3.59it/s]                                                            {'loss': 3.0417, 'learning_rate': 5.464996013704237e-07, 'epoch': 8.07}
 50%|█████     | 187280/371472 [3:50:29<14:15:43,  3.59it/s] 50%|█████     | 187281/371472 [3:50:30<14:47:21,  3.46it/s] 50%|█████     | 187282/371472 [3:50:30<14:44:38,  3.47it/s] 50%|█████     | 187283/371472 [3:50:30<14:59:12,  3.41it/s] 50%|█████     | 187284/371472 [3:50:31<14:14:22,  3.59it/s] 50%|█████     | 187285/371472 [3:50:31<14:33:04,  3.52it/s] 50%|█████     | 187286/371472 [3:50:31<14:22:47,  3.56it/s] 50%|█████     | 187287/371472 [3:50:31<14:15:58,  3.59it/s] 50%|█████     | 187288/371472 [3:50:32<14:16:07,  3.59it/s] 50%|█████     | 187289/371472 [3:50:32<14:11:22,  3.61it/s] 50%|█████     | 187290/371472 [3:50:32<14:56:52,  3.42it/s] 50%|█████     | 187291/371472 [3:50:33<14:49:57,  3.45it/s] 50%|█████     | 187292/371472 [3:50:33<14:28:47,  3.53it/s] 50%|█████     | 187293/371472 [3:50:33<13:54:04,  3.68it/s] 50%|█████     | 187294/371472 [3:50:33<13:38:05,  3.75it/s] 50%|█████     | 187295/371472 [3:50:34<14:18:15,  3.58it/s] 50%|█████     | 187296/371472 [3:50:34<14:38:56,  3.49it/s] 50%|█████     | 187297/371472 [3:50:34<14:19:05,  3.57it/s] 50%|█████     | 187298/371472 [3:50:35<13:58:58,  3.66it/s] 50%|█████     | 187299/371472 [3:50:35<15:11:06,  3.37it/s] 50%|█████     | 187300/371472 [3:50:35<15:05:19,  3.39it/s]                                                            {'loss': 3.0874, 'learning_rate': 5.46451119394945e-07, 'epoch': 8.07}
 50%|█████     | 187300/371472 [3:50:35<15:05:19,  3.39it/s] 50%|█████     | 187301/371472 [3:50:35<14:52:42,  3.44it/s] 50%|█████     | 187302/371472 [3:50:36<14:53:13,  3.44it/s] 50%|█████     | 187303/371472 [3:50:36<14:34:00,  3.51it/s] 50%|█████     | 187304/371472 [3:50:36<14:49:16,  3.45it/s] 50%|█████     | 187305/371472 [3:50:37<15:50:45,  3.23it/s] 50%|█████     | 187306/371472 [3:50:37<15:32:34,  3.29it/s] 50%|█████     | 187307/371472 [3:50:37<15:06:14,  3.39it/s] 50%|█████     | 187308/371472 [3:50:38<14:39:07,  3.49it/s] 50%|█████     | 187309/371472 [3:50:38<14:46:28,  3.46it/s] 50%|█████     | 187310/371472 [3:50:38<15:26:27,  3.31it/s] 50%|█████     | 187311/371472 [3:50:38<14:49:28,  3.45it/s] 50%|█████     | 187312/371472 [3:50:39<14:22:00,  3.56it/s] 50%|█████     | 187313/371472 [3:50:39<14:23:42,  3.55it/s] 50%|█████     | 187314/371472 [3:50:39<14:33:10,  3.52it/s] 50%|█████     | 187315/371472 [3:50:39<13:56:32,  3.67it/s] 50%|█████     | 187316/371472 [3:50:40<14:18:50,  3.57it/s] 50%|█████     | 187317/371472 [3:50:40<14:06:56,  3.62it/s] 50%|█████     | 187318/371472 [3:50:40<14:25:50,  3.54it/s] 50%|█████     | 187319/371472 [3:50:41<14:33:43,  3.51it/s] 50%|█████     | 187320/371472 [3:50:41<14:50:58,  3.44it/s]                                                            {'loss': 3.0626, 'learning_rate': 5.464026374194662e-07, 'epoch': 8.07}
 50%|█████     | 187320/371472 [3:50:41<14:50:58,  3.44it/s] 50%|█████     | 187321/371472 [3:50:41<14:06:46,  3.62it/s] 50%|█████     | 187322/371472 [3:50:42<15:12:00,  3.37it/s] 50%|█████     | 187323/371472 [3:50:42<14:54:02,  3.43it/s] 50%|█████     | 187324/371472 [3:50:42<14:32:17,  3.52it/s] 50%|█████     | 187325/371472 [3:50:42<14:25:07,  3.55it/s] 50%|█████     | 187326/371472 [3:50:43<14:37:15,  3.50it/s] 50%|█████     | 187327/371472 [3:50:43<14:13:44,  3.59it/s] 50%|█████     | 187328/371472 [3:50:43<14:48:19,  3.45it/s] 50%|█████     | 187329/371472 [3:50:43<14:07:30,  3.62it/s] 50%|█████     | 187330/371472 [3:50:44<13:57:39,  3.66it/s] 50%|█████     | 187331/371472 [3:50:44<13:44:58,  3.72it/s] 50%|█████     | 187332/371472 [3:50:44<14:52:25,  3.44it/s] 50%|█████     | 187333/371472 [3:50:45<14:30:06,  3.53it/s] 50%|█████     | 187334/371472 [3:50:45<14:43:20,  3.47it/s] 50%|█████     | 187335/371472 [3:50:45<14:45:26,  3.47it/s] 50%|█████     | 187336/371472 [3:50:45<14:35:01,  3.51it/s] 50%|█████     | 187337/371472 [3:50:46<14:51:06,  3.44it/s] 50%|█████     | 187338/371472 [3:50:46<14:27:38,  3.54it/s] 50%|█████     | 187339/371472 [3:50:46<14:18:17,  3.58it/s] 50%|█████     | 187340/371472 [3:50:47<15:08:40,  3.38it/s]                                                            {'loss': 2.9852, 'learning_rate': 5.463541554439871e-07, 'epoch': 8.07}
 50%|█████     | 187340/371472 [3:50:47<15:08:40,  3.38it/s] 50%|█████     | 187341/371472 [3:50:47<15:34:58,  3.28it/s] 50%|█████     | 187342/371472 [3:50:47<14:57:31,  3.42it/s] 50%|█████     | 187343/371472 [3:50:48<15:57:04,  3.21it/s] 50%|█████     | 187344/371472 [3:50:48<15:41:11,  3.26it/s] 50%|█████     | 187345/371472 [3:50:48<15:11:12,  3.37it/s] 50%|█████     | 187346/371472 [3:50:48<14:35:42,  3.50it/s] 50%|█████     | 187347/371472 [3:50:49<14:01:58,  3.64it/s] 50%|█████     | 187348/371472 [3:50:49<14:58:17,  3.42it/s] 50%|█████     | 187349/371472 [3:50:49<14:12:52,  3.60it/s] 50%|█████     | 187350/371472 [3:50:50<14:33:10,  3.51it/s] 50%|█████     | 187351/371472 [3:50:50<14:20:58,  3.56it/s] 50%|█████     | 187352/371472 [3:50:50<13:47:42,  3.71it/s] 50%|█████     | 187353/371472 [3:50:50<13:23:14,  3.82it/s] 50%|█████     | 187354/371472 [3:50:51<14:45:50,  3.46it/s] 50%|█████     | 187355/371472 [3:50:51<14:17:31,  3.58it/s] 50%|█████     | 187356/371472 [3:50:51<14:43:53,  3.47it/s] 50%|█████     | 187357/371472 [3:50:51<14:09:11,  3.61it/s] 50%|█████     | 187358/371472 [3:50:52<14:17:58,  3.58it/s] 50%|█████     | 187359/371472 [3:50:52<14:03:46,  3.64it/s] 50%|█████     | 187360/371472 [3:50:52<13:56:27,  3.67it/s]                                                            {'loss': 2.9397, 'learning_rate': 5.463056734685082e-07, 'epoch': 8.07}
 50%|█████     | 187360/371472 [3:50:52<13:56:27,  3.67it/s] 50%|█████     | 187361/371472 [3:50:53<13:34:42,  3.77it/s] 50%|█████     | 187362/371472 [3:50:53<13:29:04,  3.79it/s] 50%|█████     | 187363/371472 [3:50:53<13:38:28,  3.75it/s] 50%|█████     | 187364/371472 [3:50:54<17:54:51,  2.85it/s] 50%|█████     | 187365/371472 [3:50:54<16:10:38,  3.16it/s] 50%|█████     | 187366/371472 [3:50:54<15:47:42,  3.24it/s] 50%|█████     | 187367/371472 [3:50:54<15:10:52,  3.37it/s] 50%|█████     | 187368/371472 [3:50:55<15:07:03,  3.38it/s] 50%|█████     | 187369/371472 [3:50:55<14:28:27,  3.53it/s] 50%|█████     | 187370/371472 [3:50:55<14:21:49,  3.56it/s] 50%|█████     | 187371/371472 [3:50:55<14:19:54,  3.57it/s] 50%|█████     | 187372/371472 [3:50:56<14:08:11,  3.62it/s] 50%|█████     | 187373/371472 [3:50:56<13:48:19,  3.70it/s] 50%|█████     | 187374/371472 [3:50:56<15:27:27,  3.31it/s] 50%|█████     | 187375/371472 [3:50:57<14:51:07,  3.44it/s] 50%|█████     | 187376/371472 [3:50:57<14:33:11,  3.51it/s] 50%|█████     | 187377/371472 [3:50:57<14:30:43,  3.52it/s] 50%|█████     | 187378/371472 [3:50:57<14:16:23,  3.58it/s] 50%|█████     | 187379/371472 [3:50:58<14:17:18,  3.58it/s] 50%|█████     | 187380/371472 [3:50:58<14:25:19,  3.55it/s]                                                            {'loss': 3.0377, 'learning_rate': 5.462571914930294e-07, 'epoch': 8.07}
 50%|█████     | 187380/371472 [3:50:58<14:25:19,  3.55it/s] 50%|█████     | 187381/371472 [3:50:58<14:07:45,  3.62it/s] 50%|█████     | 187382/371472 [3:50:59<14:19:36,  3.57it/s] 50%|█████     | 187383/371472 [3:50:59<14:04:00,  3.64it/s] 50%|█████     | 187384/371472 [3:50:59<14:09:37,  3.61it/s] 50%|█████     | 187385/371472 [3:50:59<14:30:38,  3.52it/s] 50%|█████     | 187386/371472 [3:51:00<14:24:18,  3.55it/s] 50%|█████     | 187387/371472 [3:51:00<16:06:56,  3.17it/s] 50%|█████     | 187388/371472 [3:51:00<16:03:11,  3.19it/s] 50%|█████     | 187389/371472 [3:51:01<15:34:49,  3.28it/s] 50%|█████     | 187390/371472 [3:51:01<15:25:50,  3.31it/s] 50%|█████     | 187391/371472 [3:51:01<15:07:52,  3.38it/s] 50%|█████     | 187392/371472 [3:51:02<14:46:55,  3.46it/s] 50%|█████     | 187393/371472 [3:51:02<15:03:06,  3.40it/s] 50%|█████     | 187394/371472 [3:51:02<14:19:44,  3.57it/s] 50%|█████     | 187395/371472 [3:51:02<13:53:43,  3.68it/s] 50%|█████     | 187396/371472 [3:51:03<14:19:08,  3.57it/s] 50%|█████     | 187397/371472 [3:51:03<14:37:00,  3.50it/s] 50%|█████     | 187398/371472 [3:51:03<14:50:15,  3.45it/s] 50%|█████     | 187399/371472 [3:51:04<14:10:12,  3.61it/s] 50%|█████     | 187400/371472 [3:51:04<14:17:16,  3.58it/s]                                                            {'loss': 3.094, 'learning_rate': 5.462087095175504e-07, 'epoch': 8.07}
 50%|█████     | 187400/371472 [3:51:04<14:17:16,  3.58it/s] 50%|█████     | 187401/371472 [3:51:04<14:38:22,  3.49it/s] 50%|█████     | 187402/371472 [3:51:04<14:03:28,  3.64it/s] 50%|█████     | 187403/371472 [3:51:05<15:08:54,  3.38it/s] 50%|█████     | 187404/371472 [3:51:05<15:04:07,  3.39it/s] 50%|█████     | 187405/371472 [3:51:05<14:44:52,  3.47it/s] 50%|█████     | 187406/371472 [3:51:06<14:48:50,  3.45it/s] 50%|█████     | 187407/371472 [3:51:06<15:37:16,  3.27it/s] 50%|█████     | 187408/371472 [3:51:06<15:09:59,  3.37it/s] 50%|█████     | 187409/371472 [3:51:06<14:42:25,  3.48it/s] 50%|█████     | 187410/371472 [3:51:07<15:45:48,  3.24it/s] 50%|█████     | 187411/371472 [3:51:07<15:21:54,  3.33it/s] 50%|█████     | 187412/371472 [3:51:07<15:32:36,  3.29it/s] 50%|█████     | 187413/371472 [3:51:08<15:26:01,  3.31it/s] 50%|█████     | 187414/371472 [3:51:08<15:22:15,  3.33it/s] 50%|█████     | 187415/371472 [3:51:08<14:45:29,  3.46it/s] 50%|█████     | 187416/371472 [3:51:09<14:32:22,  3.52it/s] 50%|█████     | 187417/371472 [3:51:09<14:47:33,  3.46it/s] 50%|█████     | 187418/371472 [3:51:09<13:54:19,  3.68it/s] 50%|█████     | 187419/371472 [3:51:09<13:55:10,  3.67it/s] 50%|█████     | 187420/371472 [3:51:10<13:37:08,  3.75it/s]                                                            {'loss': 3.0488, 'learning_rate': 5.461602275420716e-07, 'epoch': 8.07}
 50%|█████     | 187420/371472 [3:51:10<13:37:08,  3.75it/s] 50%|█████     | 187421/371472 [3:51:10<14:03:25,  3.64it/s] 50%|█████     | 187422/371472 [3:51:10<13:57:32,  3.66it/s] 50%|█████     | 187423/371472 [3:51:10<14:08:30,  3.62it/s] 50%|█████     | 187424/371472 [3:51:11<13:55:19,  3.67it/s] 50%|█████     | 187425/371472 [3:51:11<13:54:23,  3.68it/s] 50%|█████     | 187426/371472 [3:51:11<13:51:01,  3.69it/s] 50%|█████     | 187427/371472 [3:51:11<13:52:14,  3.69it/s] 50%|█████     | 187428/371472 [3:51:12<13:55:44,  3.67it/s] 50%|█████     | 187429/371472 [3:51:12<14:48:38,  3.45it/s] 50%|█████     | 187430/371472 [3:51:12<14:48:40,  3.45it/s] 50%|█████     | 187431/371472 [3:51:13<14:26:22,  3.54it/s] 50%|█████     | 187432/371472 [3:51:13<14:26:32,  3.54it/s] 50%|█████     | 187433/371472 [3:51:13<15:05:29,  3.39it/s] 50%|█████     | 187434/371472 [3:51:14<16:18:09,  3.14it/s] 50%|█████     | 187435/371472 [3:51:14<16:00:44,  3.19it/s] 50%|█████     | 187436/371472 [3:51:14<15:46:21,  3.24it/s] 50%|█████     | 187437/371472 [3:51:15<15:58:24,  3.20it/s] 50%|█████     | 187438/371472 [3:51:15<16:02:14,  3.19it/s] 50%|█████     | 187439/371472 [3:51:15<16:29:30,  3.10it/s] 50%|█████     | 187440/371472 [3:51:15<15:25:28,  3.31it/s]                                                            {'loss': 3.0807, 'learning_rate': 5.461117455665927e-07, 'epoch': 8.07}
 50%|█████     | 187440/371472 [3:51:15<15:25:28,  3.31it/s] 50%|█████     | 187441/371472 [3:51:16<15:13:26,  3.36it/s] 50%|█████     | 187442/371472 [3:51:16<15:49:03,  3.23it/s] 50%|█████     | 187443/371472 [3:51:16<15:03:06,  3.40it/s] 50%|█████     | 187444/371472 [3:51:17<14:50:33,  3.44it/s] 50%|█████     | 187445/371472 [3:51:17<15:40:14,  3.26it/s] 50%|█████     | 187446/371472 [3:51:17<15:12:08,  3.36it/s] 50%|█████     | 187447/371472 [3:51:18<14:53:07,  3.43it/s] 50%|█████     | 187448/371472 [3:51:18<14:19:48,  3.57it/s] 50%|█████     | 187449/371472 [3:51:18<14:05:13,  3.63it/s] 50%|█████     | 187450/371472 [3:51:18<14:32:14,  3.52it/s] 50%|█████     | 187451/371472 [3:51:19<15:09:48,  3.37it/s] 50%|█████     | 187452/371472 [3:51:19<14:38:21,  3.49it/s] 50%|█████     | 187453/371472 [3:51:19<14:19:24,  3.57it/s] 50%|█████     | 187454/371472 [3:51:20<14:34:26,  3.51it/s] 50%|█████     | 187455/371472 [3:51:20<14:54:44,  3.43it/s] 50%|█████     | 187456/371472 [3:51:20<15:50:39,  3.23it/s] 50%|█████     | 187457/371472 [3:51:20<15:24:53,  3.32it/s] 50%|█████     | 187458/371472 [3:51:21<14:47:27,  3.46it/s] 50%|█████     | 187459/371472 [3:51:21<15:17:49,  3.34it/s] 50%|█████     | 187460/371472 [3:51:21<14:46:41,  3.46it/s]                                                            {'loss': 3.0084, 'learning_rate': 5.460632635911138e-07, 'epoch': 8.07}
 50%|█████     | 187460/371472 [3:51:21<14:46:41,  3.46it/s] 50%|█████     | 187461/371472 [3:51:22<15:06:51,  3.38it/s] 50%|█████     | 187462/371472 [3:51:22<15:19:00,  3.34it/s] 50%|█████     | 187463/371472 [3:51:22<14:45:14,  3.46it/s] 50%|█████     | 187464/371472 [3:51:22<15:02:52,  3.40it/s] 50%|█████     | 187465/371472 [3:51:23<14:30:18,  3.52it/s] 50%|█████     | 187466/371472 [3:51:23<13:56:06,  3.67it/s] 50%|█████     | 187467/371472 [3:51:23<14:11:46,  3.60it/s] 50%|█████     | 187468/371472 [3:51:24<13:55:40,  3.67it/s] 50%|█████     | 187469/371472 [3:51:24<13:27:47,  3.80it/s] 50%|█████     | 187470/371472 [3:51:24<13:39:16,  3.74it/s] 50%|█████     | 187471/371472 [3:51:24<13:36:44,  3.75it/s] 50%|█████     | 187472/371472 [3:51:25<13:54:13,  3.68it/s] 50%|█████     | 187473/371472 [3:51:25<13:30:59,  3.78it/s] 50%|█████     | 187474/371472 [3:51:25<13:18:26,  3.84it/s] 50%|█████     | 187475/371472 [3:51:25<14:48:40,  3.45it/s] 50%|█████     | 187476/371472 [3:51:26<14:29:07,  3.53it/s] 50%|█████     | 187477/371472 [3:51:26<14:41:59,  3.48it/s] 50%|█████     | 187478/371472 [3:51:26<14:19:41,  3.57it/s] 50%|█████     | 187479/371472 [3:51:27<14:31:45,  3.52it/s] 50%|█████     | 187480/371472 [3:51:27<14:37:27,  3.49it/s]                                                            {'loss': 2.9941, 'learning_rate': 5.460147816156349e-07, 'epoch': 8.08}
 50%|█████     | 187480/371472 [3:51:27<14:37:27,  3.49it/s] 50%|█████     | 187481/371472 [3:51:27<15:36:52,  3.27it/s] 50%|█████     | 187482/371472 [3:51:27<14:39:00,  3.49it/s] 50%|█████     | 187483/371472 [3:51:28<14:34:00,  3.51it/s] 50%|█████     | 187484/371472 [3:51:28<14:14:43,  3.59it/s] 50%|█████     | 187485/371472 [3:51:28<14:00:54,  3.65it/s] 50%|█████     | 187486/371472 [3:51:29<14:08:57,  3.61it/s] 50%|█████     | 187487/371472 [3:51:29<14:03:00,  3.64it/s] 50%|█████     | 187488/371472 [3:51:29<15:00:28,  3.41it/s] 50%|█████     | 187489/371472 [3:51:29<14:50:23,  3.44it/s] 50%|█████     | 187490/371472 [3:51:30<14:58:46,  3.41it/s] 50%|█████     | 187491/371472 [3:51:30<15:28:50,  3.30it/s] 50%|█████     | 187492/371472 [3:51:30<15:00:03,  3.41it/s] 50%|█████     | 187493/371472 [3:51:31<15:33:31,  3.28it/s] 50%|█████     | 187494/371472 [3:51:31<14:36:02,  3.50it/s] 50%|█████     | 187495/371472 [3:51:31<14:14:55,  3.59it/s] 50%|█████     | 187496/371472 [3:51:32<14:54:21,  3.43it/s] 50%|█████     | 187497/371472 [3:51:32<14:55:33,  3.42it/s] 50%|█████     | 187498/371472 [3:51:32<14:36:41,  3.50it/s] 50%|█████     | 187499/371472 [3:51:32<14:13:28,  3.59it/s] 50%|█████     | 187500/371472 [3:51:33<13:38:35,  3.75it/s]                                                            {'loss': 2.976, 'learning_rate': 5.45966299640156e-07, 'epoch': 8.08}
 50%|█████     | 187500/371472 [3:51:33<13:38:35,  3.75it/s] 50%|█████     | 187501/371472 [3:51:33<13:41:15,  3.73it/s] 50%|█████     | 187502/371472 [3:51:33<13:53:39,  3.68it/s] 50%|█████     | 187503/371472 [3:51:33<13:55:53,  3.67it/s] 50%|█████     | 187504/371472 [3:51:34<16:11:26,  3.16it/s] 50%|█████     | 187505/371472 [3:51:34<15:16:41,  3.34it/s] 50%|█████     | 187506/371472 [3:51:34<14:55:13,  3.42it/s] 50%|█████     | 187507/371472 [3:51:35<15:31:23,  3.29it/s] 50%|█████     | 187508/371472 [3:51:35<14:40:34,  3.48it/s] 50%|█████     | 187509/371472 [3:51:35<15:36:20,  3.27it/s] 50%|█████     | 187510/371472 [3:51:36<14:59:00,  3.41it/s] 50%|█████     | 187511/371472 [3:51:36<14:28:16,  3.53it/s] 50%|█████     | 187512/371472 [3:51:36<14:03:14,  3.64it/s] 50%|█████     | 187513/371472 [3:51:36<14:00:48,  3.65it/s] 50%|█████     | 187514/371472 [3:51:37<13:47:15,  3.71it/s] 50%|█████     | 187515/371472 [3:51:37<14:09:04,  3.61it/s] 50%|█████     | 187516/371472 [3:51:37<13:53:34,  3.68it/s] 50%|█████     | 187517/371472 [3:51:37<13:34:40,  3.76it/s] 50%|█████     | 187518/371472 [3:51:38<13:33:45,  3.77it/s] 50%|█████     | 187519/371472 [3:51:38<13:48:37,  3.70it/s] 50%|█████     | 187520/371472 [3:51:38<13:48:53,  3.70it/s]                                                            {'loss': 3.0575, 'learning_rate': 5.45917817664677e-07, 'epoch': 8.08}
 50%|█████     | 187520/371472 [3:51:38<13:48:53,  3.70it/s] 50%|█████     | 187521/371472 [3:51:38<13:24:26,  3.81it/s] 50%|█████     | 187522/371472 [3:51:39<13:28:38,  3.79it/s] 50%|█████     | 187523/371472 [3:51:39<13:57:04,  3.66it/s] 50%|█████     | 187524/371472 [3:51:39<13:27:24,  3.80it/s] 50%|█████     | 187525/371472 [3:51:40<13:14:35,  3.86it/s] 50%|█████     | 187526/371472 [3:51:40<13:05:21,  3.90it/s] 50%|█████     | 187527/371472 [3:51:40<13:47:26,  3.71it/s] 50%|█████     | 187528/371472 [3:51:40<14:36:15,  3.50it/s] 50%|█████     | 187529/371472 [3:51:41<15:00:21,  3.40it/s] 50%|█████     | 187530/371472 [3:51:41<15:45:02,  3.24it/s] 50%|█████     | 187531/371472 [3:51:41<15:52:38,  3.22it/s] 50%|█████     | 187532/371472 [3:51:42<15:14:32,  3.35it/s] 50%|█████     | 187533/371472 [3:51:42<15:45:07,  3.24it/s] 50%|█████     | 187534/371472 [3:51:42<15:37:36,  3.27it/s] 50%|█████     | 187535/371472 [3:51:43<15:33:45,  3.28it/s] 50%|█████     | 187536/371472 [3:51:43<15:40:39,  3.26it/s] 50%|█████     | 187537/371472 [3:51:43<15:19:29,  3.33it/s] 50%|█████     | 187538/371472 [3:51:43<15:34:21,  3.28it/s] 50%|█████     | 187539/371472 [3:51:44<14:47:18,  3.45it/s] 50%|█████     | 187540/371472 [3:51:44<14:23:04,  3.55it/s]                                                            {'loss': 2.9583, 'learning_rate': 5.458693356891983e-07, 'epoch': 8.08}
 50%|█████     | 187540/371472 [3:51:44<14:23:04,  3.55it/s] 50%|█████     | 187541/371472 [3:51:44<14:35:05,  3.50it/s] 50%|█████     | 187542/371472 [3:51:45<14:12:25,  3.60it/s] 50%|█████     | 187543/371472 [3:51:45<13:48:54,  3.70it/s] 50%|█████     | 187544/371472 [3:51:45<14:00:08,  3.65it/s] 50%|█████     | 187545/371472 [3:51:45<13:58:21,  3.66it/s] 50%|█████     | 187546/371472 [3:51:46<14:55:58,  3.42it/s] 50%|█████     | 187547/371472 [3:51:46<15:24:26,  3.32it/s] 50%|█████     | 187548/371472 [3:51:46<14:44:20,  3.47it/s] 50%|█████     | 187549/371472 [3:51:47<15:26:51,  3.31it/s] 50%|█████     | 187550/371472 [3:51:47<15:33:46,  3.28it/s] 50%|█████     | 187551/371472 [3:51:47<14:45:23,  3.46it/s] 50%|█████     | 187552/371472 [3:51:48<15:43:30,  3.25it/s] 50%|█████     | 187553/371472 [3:51:48<15:58:29,  3.20it/s] 50%|█████     | 187554/371472 [3:51:48<15:22:05,  3.32it/s] 50%|█████     | 187555/371472 [3:51:48<14:34:38,  3.50it/s] 50%|█████     | 187556/371472 [3:51:49<14:08:23,  3.61it/s] 50%|█████     | 187557/371472 [3:51:49<14:08:42,  3.61it/s] 50%|█████     | 187558/371472 [3:51:49<14:47:19,  3.45it/s] 50%|█████     | 187559/371472 [3:51:49<14:13:09,  3.59it/s] 50%|█████     | 187560/371472 [3:51:50<14:23:30,  3.55it/s]                                                            {'loss': 3.1807, 'learning_rate': 5.458208537137194e-07, 'epoch': 8.08}
 50%|█████     | 187560/371472 [3:51:50<14:23:30,  3.55it/s] 50%|█████     | 187561/371472 [3:51:50<14:58:52,  3.41it/s] 50%|█████     | 187562/371472 [3:51:50<15:01:40,  3.40it/s] 50%|█████     | 187563/371472 [3:51:51<14:36:04,  3.50it/s] 50%|█████     | 187564/371472 [3:51:51<14:23:54,  3.55it/s] 50%|█████     | 187565/371472 [3:51:51<14:54:00,  3.43it/s] 50%|█████     | 187566/371472 [3:51:51<14:23:09,  3.55it/s] 50%|█████     | 187567/371472 [3:51:52<13:51:32,  3.69it/s] 50%|█████     | 187568/371472 [3:51:52<14:18:05,  3.57it/s] 50%|█████     | 187569/371472 [3:51:52<14:43:22,  3.47it/s] 50%|█████     | 187570/371472 [3:51:53<13:53:49,  3.68it/s] 50%|█████     | 187571/371472 [3:51:53<14:14:35,  3.59it/s] 50%|█████     | 187572/371472 [3:51:53<14:05:56,  3.62it/s] 50%|█████     | 187573/371472 [3:51:53<14:01:25,  3.64it/s] 50%|█████     | 187574/371472 [3:51:54<13:41:05,  3.73it/s] 50%|█████     | 187575/371472 [3:51:54<13:43:00,  3.72it/s] 50%|█████     | 187576/371472 [3:51:54<13:30:42,  3.78it/s] 50%|█████     | 187577/371472 [3:51:54<13:59:02,  3.65it/s] 50%|█████     | 187578/371472 [3:51:55<13:46:00,  3.71it/s] 50%|█████     | 187579/371472 [3:51:55<13:53:02,  3.68it/s] 50%|█████     | 187580/371472 [3:51:55<14:08:32,  3.61it/s]                                                            {'loss': 3.1256, 'learning_rate': 5.457723717382404e-07, 'epoch': 8.08}
 50%|█████     | 187580/371472 [3:51:55<14:08:32,  3.61it/s] 50%|█████     | 187581/371472 [3:51:56<14:17:08,  3.58it/s] 50%|█████     | 187582/371472 [3:51:56<14:13:32,  3.59it/s] 50%|█████     | 187583/371472 [3:51:56<14:11:27,  3.60it/s] 50%|█████     | 187584/371472 [3:51:56<14:11:51,  3.60it/s] 50%|█████     | 187585/371472 [3:51:57<14:30:27,  3.52it/s] 50%|█████     | 187586/371472 [3:51:57<15:02:09,  3.40it/s] 50%|█████     | 187587/371472 [3:51:57<14:30:11,  3.52it/s] 50%|█████     | 187588/371472 [3:51:58<14:31:08,  3.52it/s] 50%|█████     | 187589/371472 [3:51:58<14:54:06,  3.43it/s] 50%|█████     | 187590/371472 [3:51:58<14:46:39,  3.46it/s] 50%|█████     | 187591/371472 [3:51:58<14:24:57,  3.54it/s] 50%|█████     | 187592/371472 [3:51:59<14:32:01,  3.51it/s] 50%|█████     | 187593/371472 [3:51:59<14:51:06,  3.44it/s] 51%|█████     | 187594/371472 [3:51:59<15:32:01,  3.29it/s] 51%|█████     | 187595/371472 [3:52:00<15:47:46,  3.23it/s] 51%|█████     | 187596/371472 [3:52:00<15:05:47,  3.38it/s] 51%|█████     | 187597/371472 [3:52:00<15:03:14,  3.39it/s] 51%|█████     | 187598/371472 [3:52:01<14:39:58,  3.48it/s] 51%|█████     | 187599/371472 [3:52:01<14:19:31,  3.57it/s] 51%|█████     | 187600/371472 [3:52:01<14:11:12,  3.60it/s]                                                            {'loss': 2.9108, 'learning_rate': 5.457238897627615e-07, 'epoch': 8.08}
 51%|█████     | 187600/371472 [3:52:01<14:11:12,  3.60it/s] 51%|█████     | 187601/371472 [3:52:01<14:06:16,  3.62it/s] 51%|█████     | 187602/371472 [3:52:02<14:06:59,  3.62it/s] 51%|█████     | 187603/371472 [3:52:02<13:59:07,  3.65it/s] 51%|█████     | 187604/371472 [3:52:02<14:04:25,  3.63it/s] 51%|█████     | 187605/371472 [3:52:02<13:52:37,  3.68it/s] 51%|█████     | 187606/371472 [3:52:03<13:53:39,  3.68it/s] 51%|█████     | 187607/371472 [3:52:03<13:28:14,  3.79it/s] 51%|█████     | 187608/371472 [3:52:03<16:17:15,  3.14it/s] 51%|█████     | 187609/371472 [3:52:04<16:54:45,  3.02it/s] 51%|█████     | 187610/371472 [3:52:04<16:00:36,  3.19it/s] 51%|█████     | 187611/371472 [3:52:04<15:55:51,  3.21it/s] 51%|█████     | 187612/371472 [3:52:05<15:35:22,  3.28it/s] 51%|█████     | 187613/371472 [3:52:05<15:42:48,  3.25it/s] 51%|█████     | 187614/371472 [3:52:05<15:17:39,  3.34it/s] 51%|█████     | 187615/371472 [3:52:05<15:03:26,  3.39it/s] 51%|█████     | 187616/371472 [3:52:06<15:02:20,  3.40it/s] 51%|█████     | 187617/371472 [3:52:06<14:40:07,  3.48it/s] 51%|█████     | 187618/371472 [3:52:06<14:42:46,  3.47it/s] 51%|█████     | 187619/371472 [3:52:07<14:16:24,  3.58it/s] 51%|█████     | 187620/371472 [3:52:07<14:03:33,  3.63it/s]                                                            {'loss': 3.1384, 'learning_rate': 5.456754077872827e-07, 'epoch': 8.08}
 51%|█████     | 187620/371472 [3:52:07<14:03:33,  3.63it/s] 51%|█████     | 187621/371472 [3:52:07<14:15:31,  3.58it/s] 51%|█████     | 187622/371472 [3:52:07<14:15:51,  3.58it/s] 51%|█████     | 187623/371472 [3:52:08<14:02:03,  3.64it/s] 51%|█████     | 187624/371472 [3:52:08<14:32:55,  3.51it/s] 51%|█████     | 187625/371472 [3:52:08<14:10:20,  3.60it/s] 51%|█████     | 187626/371472 [3:52:09<14:11:41,  3.60it/s] 51%|█████     | 187627/371472 [3:52:09<13:41:51,  3.73it/s] 51%|█████     | 187628/371472 [3:52:09<13:36:11,  3.75it/s] 51%|█████     | 187629/371472 [3:52:09<13:45:08,  3.71it/s] 51%|█████     | 187630/371472 [3:52:10<13:41:40,  3.73it/s] 51%|█████     | 187631/371472 [3:52:10<13:52:30,  3.68it/s] 51%|█████     | 187632/371472 [3:52:10<14:18:24,  3.57it/s] 51%|█████     | 187633/371472 [3:52:10<14:07:46,  3.61it/s] 51%|█████     | 187634/371472 [3:52:11<14:02:12,  3.64it/s] 51%|█████     | 187635/371472 [3:52:11<15:05:56,  3.38it/s] 51%|█████     | 187636/371472 [3:52:11<15:12:47,  3.36it/s] 51%|█████     | 187637/371472 [3:52:12<15:45:41,  3.24it/s] 51%|█████     | 187638/371472 [3:52:12<15:39:00,  3.26it/s] 51%|█████     | 187639/371472 [3:52:12<15:19:54,  3.33it/s] 51%|█████     | 187640/371472 [3:52:13<15:58:46,  3.20it/s]                                                            {'loss': 3.0039, 'learning_rate': 5.456269258118037e-07, 'epoch': 8.08}
 51%|█████     | 187640/371472 [3:52:13<15:58:46,  3.20it/s] 51%|█████     | 187641/371472 [3:52:13<16:34:14,  3.08it/s] 51%|█████     | 187642/371472 [3:52:13<15:42:38,  3.25it/s] 51%|█████     | 187643/371472 [3:52:14<15:18:38,  3.34it/s] 51%|█████     | 187644/371472 [3:52:14<14:57:07,  3.42it/s] 51%|█████     | 187645/371472 [3:52:14<15:20:52,  3.33it/s] 51%|█████     | 187646/371472 [3:52:14<15:24:22,  3.31it/s] 51%|█████     | 187647/371472 [3:52:15<14:33:33,  3.51it/s] 51%|█████     | 187648/371472 [3:52:15<14:18:10,  3.57it/s] 51%|█████     | 187649/371472 [3:52:15<14:31:15,  3.52it/s] 51%|█████     | 187650/371472 [3:52:16<14:15:53,  3.58it/s] 51%|█████     | 187651/371472 [3:52:16<14:01:18,  3.64it/s] 51%|█████     | 187652/371472 [3:52:16<14:57:09,  3.41it/s] 51%|█████     | 187653/371472 [3:52:16<14:33:32,  3.51it/s] 51%|█████     | 187654/371472 [3:52:17<15:23:16,  3.32it/s] 51%|█████     | 187655/371472 [3:52:17<14:43:09,  3.47it/s] 51%|█████     | 187656/371472 [3:52:17<14:44:40,  3.46it/s] 51%|█████     | 187657/371472 [3:52:18<15:05:45,  3.38it/s] 51%|█████     | 187658/371472 [3:52:18<15:24:00,  3.32it/s] 51%|█████     | 187659/371472 [3:52:18<14:47:57,  3.45it/s] 51%|█████     | 187660/371472 [3:52:18<15:01:13,  3.40it/s]                                                            {'loss': 3.0638, 'learning_rate': 5.455784438363249e-07, 'epoch': 8.08}
 51%|█████     | 187660/371472 [3:52:18<15:01:13,  3.40it/s] 51%|█████     | 187661/371472 [3:52:19<14:48:23,  3.45it/s] 51%|█████     | 187662/371472 [3:52:19<14:41:55,  3.47it/s] 51%|█████     | 187663/371472 [3:52:19<13:59:38,  3.65it/s] 51%|█████     | 187664/371472 [3:52:20<14:15:51,  3.58it/s] 51%|█████     | 187665/371472 [3:52:20<14:26:18,  3.54it/s] 51%|█████     | 187666/371472 [3:52:20<13:56:56,  3.66it/s] 51%|█████     | 187667/371472 [3:52:20<13:37:03,  3.75it/s] 51%|█████     | 187668/371472 [3:52:21<15:07:16,  3.38it/s] 51%|█████     | 187669/371472 [3:52:21<14:49:32,  3.44it/s] 51%|█████     | 187670/371472 [3:52:21<14:42:54,  3.47it/s] 51%|█████     | 187671/371472 [3:52:22<14:28:37,  3.53it/s] 51%|█████     | 187672/371472 [3:52:22<14:30:26,  3.52it/s] 51%|█████     | 187673/371472 [3:52:22<13:56:14,  3.66it/s] 51%|█████     | 187674/371472 [3:52:22<16:07:00,  3.17it/s] 51%|█████     | 187675/371472 [3:52:23<15:52:32,  3.22it/s] 51%|█████     | 187676/371472 [3:52:23<15:28:04,  3.30it/s] 51%|█████     | 187677/371472 [3:52:23<14:48:12,  3.45it/s] 51%|█████     | 187678/371472 [3:52:24<15:00:58,  3.40it/s] 51%|█████     | 187679/371472 [3:52:24<14:34:41,  3.50it/s] 51%|█████     | 187680/371472 [3:52:24<14:14:47,  3.58it/s]                                                            {'loss': 2.8738, 'learning_rate': 5.45529961860846e-07, 'epoch': 8.08}
 51%|█████     | 187680/371472 [3:52:24<14:14:47,  3.58it/s] 51%|█████     | 187681/371472 [3:52:24<14:52:51,  3.43it/s] 51%|█████     | 187682/371472 [3:52:25<14:13:46,  3.59it/s] 51%|█████     | 187683/371472 [3:52:25<14:10:29,  3.60it/s] 51%|█████     | 187684/371472 [3:52:25<14:12:18,  3.59it/s] 51%|█████     | 187685/371472 [3:52:26<14:06:33,  3.62it/s] 51%|█████     | 187686/371472 [3:52:26<14:27:14,  3.53it/s] 51%|█████     | 187687/371472 [3:52:26<15:56:34,  3.20it/s] 51%|█████     | 187688/371472 [3:52:27<15:19:11,  3.33it/s] 51%|█████     | 187689/371472 [3:52:27<15:05:23,  3.38it/s] 51%|█████     | 187690/371472 [3:52:27<14:35:11,  3.50it/s] 51%|█████     | 187691/371472 [3:52:27<14:43:36,  3.47it/s] 51%|█████     | 187692/371472 [3:52:28<14:56:29,  3.42it/s] 51%|█████     | 187693/371472 [3:52:28<14:57:35,  3.41it/s] 51%|█████     | 187694/371472 [3:52:28<14:30:05,  3.52it/s] 51%|█████     | 187695/371472 [3:52:28<14:05:17,  3.62it/s] 51%|█████     | 187696/371472 [3:52:29<14:00:39,  3.64it/s] 51%|█████     | 187697/371472 [3:52:29<13:49:55,  3.69it/s] 51%|█████     | 187698/371472 [3:52:29<13:39:36,  3.74it/s] 51%|█████     | 187699/371472 [3:52:30<14:08:39,  3.61it/s] 51%|█████     | 187700/371472 [3:52:30<15:16:04,  3.34it/s]                                                            {'loss': 2.977, 'learning_rate': 5.454814798853671e-07, 'epoch': 8.08}
 51%|█████     | 187700/371472 [3:52:30<15:16:04,  3.34it/s] 51%|█████     | 187701/371472 [3:52:30<14:54:26,  3.42it/s] 51%|█████     | 187702/371472 [3:52:31<15:35:01,  3.28it/s] 51%|█████     | 187703/371472 [3:52:31<14:55:48,  3.42it/s] 51%|█████     | 187704/371472 [3:52:31<15:28:07,  3.30it/s] 51%|█████     | 187705/371472 [3:52:31<15:36:32,  3.27it/s] 51%|█████     | 187706/371472 [3:52:32<15:34:07,  3.28it/s] 51%|█████     | 187707/371472 [3:52:32<15:24:53,  3.31it/s] 51%|█████     | 187708/371472 [3:52:32<15:28:38,  3.30it/s] 51%|█████     | 187709/371472 [3:52:33<15:30:12,  3.29it/s] 51%|█████     | 187710/371472 [3:52:33<14:55:22,  3.42it/s] 51%|█████     | 187711/371472 [3:52:33<14:19:44,  3.56it/s] 51%|█████     | 187712/371472 [3:52:33<14:03:00,  3.63it/s] 51%|█████     | 187713/371472 [3:52:34<14:02:46,  3.63it/s] 51%|█████     | 187714/371472 [3:52:34<14:11:21,  3.60it/s] 51%|█████     | 187715/371472 [3:52:34<14:43:06,  3.47it/s] 51%|█████     | 187716/371472 [3:52:35<14:31:37,  3.51it/s] 51%|█████     | 187717/371472 [3:52:35<14:22:31,  3.55it/s] 51%|█████     | 187718/371472 [3:52:35<14:38:55,  3.48it/s] 51%|█████     | 187719/371472 [3:52:35<14:17:05,  3.57it/s] 51%|█████     | 187720/371472 [3:52:36<14:27:48,  3.53it/s]                                                            {'loss': 3.0342, 'learning_rate': 5.454329979098881e-07, 'epoch': 8.09}
 51%|█████     | 187720/371472 [3:52:36<14:27:48,  3.53it/s] 51%|█████     | 187721/371472 [3:52:36<14:43:11,  3.47it/s] 51%|█████     | 187722/371472 [3:52:36<14:41:57,  3.47it/s] 51%|█████     | 187723/371472 [3:52:37<15:16:34,  3.34it/s] 51%|█████     | 187724/371472 [3:52:37<14:58:00,  3.41it/s] 51%|█████     | 187725/371472 [3:52:37<14:53:15,  3.43it/s] 51%|█████     | 187726/371472 [3:52:37<14:50:19,  3.44it/s] 51%|█████     | 187727/371472 [3:52:38<14:51:14,  3.44it/s] 51%|█████     | 187728/371472 [3:52:38<14:30:34,  3.52it/s] 51%|█████     | 187729/371472 [3:52:38<14:14:28,  3.58it/s] 51%|█████     | 187730/371472 [3:52:39<13:51:00,  3.69it/s] 51%|█████     | 187731/371472 [3:52:39<14:03:20,  3.63it/s] 51%|█████     | 187732/371472 [3:52:39<14:00:17,  3.64it/s] 51%|█████     | 187733/371472 [3:52:39<13:38:34,  3.74it/s] 51%|█████     | 187734/371472 [3:52:40<13:10:30,  3.87it/s] 51%|█████     | 187735/371472 [3:52:40<13:04:02,  3.91it/s] 51%|█████     | 187736/371472 [3:52:40<13:51:05,  3.68it/s] 51%|█████     | 187737/371472 [3:52:40<14:03:48,  3.63it/s] 51%|█████     | 187738/371472 [3:52:41<13:55:45,  3.66it/s] 51%|█████     | 187739/371472 [3:52:41<14:30:51,  3.52it/s] 51%|█████     | 187740/371472 [3:52:41<13:45:09,  3.71it/s]                                                            {'loss': 2.85, 'learning_rate': 5.453845159344092e-07, 'epoch': 8.09}
 51%|█████     | 187740/371472 [3:52:41<13:45:09,  3.71it/s] 51%|█████     | 187741/371472 [3:52:42<13:41:35,  3.73it/s] 51%|█████     | 187742/371472 [3:52:42<14:09:41,  3.60it/s] 51%|█████     | 187743/371472 [3:52:42<13:41:53,  3.73it/s] 51%|█████     | 187744/371472 [3:52:42<13:24:57,  3.80it/s] 51%|█████     | 187745/371472 [3:52:43<13:45:29,  3.71it/s] 51%|█████     | 187746/371472 [3:52:43<14:06:53,  3.62it/s] 51%|█████     | 187747/371472 [3:52:43<13:30:40,  3.78it/s] 51%|█████     | 187748/371472 [3:52:43<13:09:42,  3.88it/s] 51%|█████     | 187749/371472 [3:52:44<13:56:05,  3.66it/s] 51%|█████     | 187750/371472 [3:52:44<14:20:45,  3.56it/s] 51%|█████     | 187751/371472 [3:52:44<13:55:52,  3.66it/s] 51%|█████     | 187752/371472 [3:52:44<13:50:29,  3.69it/s] 51%|█████     | 187753/371472 [3:52:45<13:35:20,  3.76it/s] 51%|█████     | 187754/371472 [3:52:45<14:22:24,  3.55it/s] 51%|█████     | 187755/371472 [3:52:45<13:48:32,  3.70it/s] 51%|█████     | 187756/371472 [3:52:46<13:44:15,  3.71it/s] 51%|█████     | 187757/371472 [3:52:46<13:46:32,  3.70it/s] 51%|█████     | 187758/371472 [3:52:46<13:27:25,  3.79it/s] 51%|█████     | 187759/371472 [3:52:46<13:37:21,  3.75it/s] 51%|█████     | 187760/371472 [3:52:47<14:56:48,  3.41it/s]                                                            {'loss': 3.1893, 'learning_rate': 5.453360339589304e-07, 'epoch': 8.09}
 51%|█████     | 187760/371472 [3:52:47<14:56:48,  3.41it/s] 51%|█████     | 187761/371472 [3:52:47<15:18:14,  3.33it/s] 51%|█████     | 187762/371472 [3:52:47<14:27:45,  3.53it/s] 51%|█████     | 187763/371472 [3:52:48<14:49:56,  3.44it/s] 51%|█████     | 187764/371472 [3:52:48<15:37:22,  3.27it/s] 51%|█████     | 187765/371472 [3:52:48<15:24:19,  3.31it/s] 51%|█████     | 187766/371472 [3:52:49<15:10:09,  3.36it/s] 51%|█████     | 187767/371472 [3:52:49<15:07:29,  3.37it/s] 51%|█████     | 187768/371472 [3:52:49<15:05:03,  3.38it/s] 51%|█████     | 187769/371472 [3:52:49<15:05:42,  3.38it/s] 51%|█████     | 187770/371472 [3:52:50<15:00:42,  3.40it/s] 51%|█████     | 187771/371472 [3:52:50<14:38:19,  3.49it/s] 51%|█████     | 187772/371472 [3:52:50<14:52:48,  3.43it/s] 51%|█████     | 187773/371472 [3:52:51<14:52:17,  3.43it/s] 51%|█████     | 187774/371472 [3:52:51<14:10:18,  3.60it/s] 51%|█████     | 187775/371472 [3:52:51<13:57:42,  3.65it/s] 51%|█████     | 187776/371472 [3:52:51<15:09:53,  3.36it/s] 51%|█████     | 187777/371472 [3:52:52<14:50:53,  3.44it/s] 51%|█████     | 187778/371472 [3:52:52<15:06:39,  3.38it/s] 51%|█████     | 187779/371472 [3:52:52<14:55:09,  3.42it/s] 51%|█████     | 187780/371472 [3:52:53<14:27:48,  3.53it/s]                                                            {'loss': 3.0002, 'learning_rate': 5.452875519834514e-07, 'epoch': 8.09}
 51%|█████     | 187780/371472 [3:52:53<14:27:48,  3.53it/s] 51%|█████     | 187781/371472 [3:52:53<14:22:22,  3.55it/s] 51%|█████     | 187782/371472 [3:52:53<14:03:06,  3.63it/s] 51%|█████     | 187783/371472 [3:52:53<14:58:44,  3.41it/s] 51%|█████     | 187784/371472 [3:52:54<14:47:21,  3.45it/s] 51%|█████     | 187785/371472 [3:52:54<14:10:49,  3.60it/s] 51%|█████     | 187786/371472 [3:52:54<15:06:52,  3.38it/s] 51%|█████     | 187787/371472 [3:52:55<14:56:31,  3.41it/s] 51%|█████     | 187788/371472 [3:52:55<14:47:33,  3.45it/s] 51%|█████     | 187789/371472 [3:52:55<14:35:23,  3.50it/s] 51%|█████     | 187790/371472 [3:52:55<14:23:57,  3.54it/s] 51%|█████     | 187791/371472 [3:52:56<14:06:04,  3.62it/s] 51%|█████     | 187792/371472 [3:52:56<13:58:01,  3.65it/s] 51%|█████     | 187793/371472 [3:52:56<13:46:04,  3.71it/s] 51%|█████     | 187794/371472 [3:52:56<13:34:00,  3.76it/s] 51%|█████     | 187795/371472 [3:52:57<13:52:14,  3.68it/s] 51%|█████     | 187796/371472 [3:52:57<14:22:31,  3.55it/s] 51%|█████     | 187797/371472 [3:52:57<14:11:10,  3.60it/s] 51%|█████     | 187798/371472 [3:52:58<14:40:25,  3.48it/s] 51%|█████     | 187799/371472 [3:52:58<16:27:56,  3.10it/s] 51%|█████     | 187800/371472 [3:52:58<15:33:39,  3.28it/s]                                                            {'loss': 3.0288, 'learning_rate': 5.452390700079726e-07, 'epoch': 8.09}
 51%|█████     | 187800/371472 [3:52:58<15:33:39,  3.28it/s] 51%|█████     | 187801/371472 [3:52:59<15:31:09,  3.29it/s] 51%|█████     | 187802/371472 [3:52:59<14:33:36,  3.50it/s] 51%|█████     | 187803/371472 [3:52:59<14:59:45,  3.40it/s] 51%|█████     | 187804/371472 [3:52:59<14:58:55,  3.41it/s] 51%|█████     | 187805/371472 [3:53:00<15:06:04,  3.38it/s] 51%|█████     | 187806/371472 [3:53:00<15:04:52,  3.38it/s] 51%|█████     | 187807/371472 [3:53:00<14:42:09,  3.47it/s] 51%|█████     | 187808/371472 [3:53:01<14:27:41,  3.53it/s] 51%|█████     | 187809/371472 [3:53:01<14:03:44,  3.63it/s] 51%|█████     | 187810/371472 [3:53:01<14:10:52,  3.60it/s] 51%|█████     | 187811/371472 [3:53:01<14:30:20,  3.52it/s] 51%|█████     | 187812/371472 [3:53:02<14:19:19,  3.56it/s] 51%|█████     | 187813/371472 [3:53:02<14:37:17,  3.49it/s] 51%|█████     | 187814/371472 [3:53:02<14:15:01,  3.58it/s] 51%|█████     | 187815/371472 [3:53:03<14:41:45,  3.47it/s] 51%|█████     | 187816/371472 [3:53:03<14:34:37,  3.50it/s] 51%|█████     | 187817/371472 [3:53:03<14:13:29,  3.59it/s] 51%|█████     | 187818/371472 [3:53:03<14:16:51,  3.57it/s] 51%|█████     | 187819/371472 [3:53:04<15:08:58,  3.37it/s] 51%|█████     | 187820/371472 [3:53:04<14:52:30,  3.43it/s]                                                            {'loss': 2.9712, 'learning_rate': 5.451905880324937e-07, 'epoch': 8.09}
 51%|█████     | 187820/371472 [3:53:04<14:52:30,  3.43it/s] 51%|█████     | 187821/371472 [3:53:04<14:48:34,  3.44it/s] 51%|█████     | 187822/371472 [3:53:05<15:06:41,  3.38it/s] 51%|█████     | 187823/371472 [3:53:05<14:49:50,  3.44it/s] 51%|█████     | 187824/371472 [3:53:05<14:06:16,  3.62it/s] 51%|█████     | 187825/371472 [3:53:05<14:27:43,  3.53it/s] 51%|█████     | 187826/371472 [3:53:06<15:25:32,  3.31it/s] 51%|█████     | 187827/371472 [3:53:06<14:26:51,  3.53it/s] 51%|█████     | 187828/371472 [3:53:06<14:03:03,  3.63it/s] 51%|█████     | 187829/371472 [3:53:07<14:32:57,  3.51it/s] 51%|█████     | 187830/371472 [3:53:07<16:03:33,  3.18it/s] 51%|█████     | 187831/371472 [3:53:07<15:36:30,  3.27it/s] 51%|█████     | 187832/371472 [3:53:08<16:50:16,  3.03it/s] 51%|█████     | 187833/371472 [3:53:08<16:25:12,  3.11it/s] 51%|█████     | 187834/371472 [3:53:08<15:42:25,  3.25it/s] 51%|█████     | 187835/371472 [3:53:08<15:19:07,  3.33it/s] 51%|█████     | 187836/371472 [3:53:09<16:43:26,  3.05it/s] 51%|█████     | 187837/371472 [3:53:09<16:55:33,  3.01it/s] 51%|█████     | 187838/371472 [3:53:10<16:13:05,  3.15it/s] 51%|█████     | 187839/371472 [3:53:10<16:26:45,  3.10it/s] 51%|█████     | 187840/371472 [3:53:10<16:35:32,  3.07it/s]                                                            {'loss': 3.0677, 'learning_rate': 5.451421060570148e-07, 'epoch': 8.09}
 51%|█████     | 187840/371472 [3:53:10<16:35:32,  3.07it/s] 51%|█████     | 187841/371472 [3:53:10<15:21:00,  3.32it/s] 51%|█████     | 187842/371472 [3:53:11<15:07:14,  3.37it/s] 51%|█████     | 187843/371472 [3:53:11<14:48:38,  3.44it/s] 51%|█████     | 187844/371472 [3:53:11<15:03:16,  3.39it/s] 51%|█████     | 187845/371472 [3:53:12<14:35:37,  3.50it/s] 51%|█████     | 187846/371472 [3:53:12<14:48:09,  3.45it/s] 51%|█████     | 187847/371472 [3:53:12<14:58:04,  3.41it/s] 51%|█████     | 187848/371472 [3:53:13<15:52:21,  3.21it/s] 51%|█████     | 187849/371472 [3:53:13<15:54:02,  3.21it/s] 51%|█████     | 187850/371472 [3:53:13<16:22:32,  3.11it/s] 51%|█████     | 187851/371472 [3:53:14<16:44:44,  3.05it/s] 51%|█████     | 187852/371472 [3:53:14<15:43:17,  3.24it/s] 51%|█████     | 187853/371472 [3:53:14<15:26:42,  3.30it/s] 51%|█████     | 187854/371472 [3:53:14<15:40:49,  3.25it/s] 51%|█████     | 187855/371472 [3:53:15<15:31:04,  3.29it/s] 51%|█████     | 187856/371472 [3:53:15<15:24:14,  3.31it/s] 51%|█████     | 187857/371472 [3:53:15<16:22:34,  3.11it/s] 51%|█████     | 187858/371472 [3:53:16<15:30:27,  3.29it/s] 51%|█████     | 187859/371472 [3:53:16<15:10:10,  3.36it/s] 51%|█████     | 187860/371472 [3:53:16<14:53:19,  3.43it/s]                                                            {'loss': 2.9584, 'learning_rate': 5.450936240815359e-07, 'epoch': 8.09}
 51%|█████     | 187860/371472 [3:53:16<14:53:19,  3.43it/s] 51%|█████     | 187861/371472 [3:53:16<15:20:24,  3.32it/s] 51%|█████     | 187862/371472 [3:53:17<14:43:47,  3.46it/s] 51%|█████     | 187863/371472 [3:53:17<14:49:36,  3.44it/s] 51%|█████     | 187864/371472 [3:53:17<14:37:03,  3.49it/s] 51%|█████     | 187865/371472 [3:53:18<14:44:39,  3.46it/s] 51%|█████     | 187866/371472 [3:53:18<14:21:52,  3.55it/s] 51%|█████     | 187867/371472 [3:53:18<14:01:18,  3.64it/s] 51%|█████     | 187868/371472 [3:53:18<13:47:45,  3.70it/s] 51%|█████     | 187869/371472 [3:53:19<14:15:25,  3.58it/s] 51%|█████     | 187870/371472 [3:53:19<14:17:53,  3.57it/s] 51%|█████     | 187871/371472 [3:53:19<13:55:40,  3.66it/s] 51%|█████     | 187872/371472 [3:53:20<14:49:11,  3.44it/s] 51%|█████     | 187873/371472 [3:53:20<14:33:59,  3.50it/s] 51%|█████     | 187874/371472 [3:53:20<14:42:41,  3.47it/s] 51%|█████     | 187875/371472 [3:53:20<14:39:28,  3.48it/s] 51%|█████     | 187876/371472 [3:53:21<14:30:09,  3.52it/s] 51%|█████     | 187877/371472 [3:53:21<14:24:05,  3.54it/s] 51%|█████     | 187878/371472 [3:53:21<14:06:03,  3.62it/s] 51%|█████     | 187879/371472 [3:53:22<14:20:22,  3.56it/s] 51%|█████     | 187880/371472 [3:53:22<14:26:53,  3.53it/s]                                                            {'loss': 3.0504, 'learning_rate': 5.45045142106057e-07, 'epoch': 8.09}
 51%|█████     | 187880/371472 [3:53:22<14:26:53,  3.53it/s] 51%|█████     | 187881/371472 [3:53:22<14:49:06,  3.44it/s] 51%|█████     | 187882/371472 [3:53:22<14:27:34,  3.53it/s] 51%|█████     | 187883/371472 [3:53:23<14:21:59,  3.55it/s] 51%|█████     | 187884/371472 [3:53:23<15:35:49,  3.27it/s] 51%|█████     | 187885/371472 [3:53:23<15:52:06,  3.21it/s] 51%|█████     | 187886/371472 [3:53:24<15:05:58,  3.38it/s] 51%|█████     | 187887/371472 [3:53:24<15:37:12,  3.26it/s] 51%|█████     | 187888/371472 [3:53:24<15:08:34,  3.37it/s] 51%|█████     | 187889/371472 [3:53:24<14:46:18,  3.45it/s] 51%|█████     | 187890/371472 [3:53:25<15:08:48,  3.37it/s] 51%|█████     | 187891/371472 [3:53:25<14:48:12,  3.44it/s] 51%|█████     | 187892/371472 [3:53:25<14:13:41,  3.58it/s] 51%|█████     | 187893/371472 [3:53:26<15:55:08,  3.20it/s] 51%|█████     | 187894/371472 [3:53:26<15:52:52,  3.21it/s] 51%|█████     | 187895/371472 [3:53:26<15:34:24,  3.27it/s] 51%|█████     | 187896/371472 [3:53:27<15:19:54,  3.33it/s] 51%|█████     | 187897/371472 [3:53:27<15:05:46,  3.38it/s] 51%|█████     | 187898/371472 [3:53:27<14:57:41,  3.41it/s] 51%|█████     | 187899/371472 [3:53:27<14:35:28,  3.49it/s] 51%|█████     | 187900/371472 [3:53:28<14:37:56,  3.48it/s]                                                            {'loss': 2.9321, 'learning_rate': 5.44996660130578e-07, 'epoch': 8.09}
 51%|█████     | 187900/371472 [3:53:28<14:37:56,  3.48it/s] 51%|█████     | 187901/371472 [3:53:28<15:33:43,  3.28it/s] 51%|█████     | 187902/371472 [3:53:28<14:44:15,  3.46it/s] 51%|█████     | 187903/371472 [3:53:29<15:00:55,  3.40it/s] 51%|█████     | 187904/371472 [3:53:29<15:34:45,  3.27it/s] 51%|█████     | 187905/371472 [3:53:29<14:44:43,  3.46it/s] 51%|█████     | 187906/371472 [3:53:29<13:59:16,  3.65it/s] 51%|█████     | 187907/371472 [3:53:30<14:56:33,  3.41it/s] 51%|█████     | 187908/371472 [3:53:30<14:45:45,  3.45it/s] 51%|█████     | 187909/371472 [3:53:30<14:35:27,  3.49it/s] 51%|█████     | 187910/371472 [3:53:31<14:55:18,  3.42it/s] 51%|█████     | 187911/371472 [3:53:31<14:24:56,  3.54it/s] 51%|█████     | 187912/371472 [3:53:31<14:42:19,  3.47it/s] 51%|█████     | 187913/371472 [3:53:32<14:34:14,  3.50it/s] 51%|█████     | 187914/371472 [3:53:32<15:30:50,  3.29it/s] 51%|█████     | 187915/371472 [3:53:32<15:19:16,  3.33it/s] 51%|█████     | 187916/371472 [3:53:32<15:25:01,  3.31it/s] 51%|█████     | 187917/371472 [3:53:33<15:57:11,  3.20it/s] 51%|█████     | 187918/371472 [3:53:33<15:31:11,  3.29it/s] 51%|█████     | 187919/371472 [3:53:33<15:22:26,  3.32it/s] 51%|█████     | 187920/371472 [3:53:34<14:33:00,  3.50it/s]                                                            {'loss': 2.9666, 'learning_rate': 5.449481781550993e-07, 'epoch': 8.09}
 51%|█████     | 187920/371472 [3:53:34<14:33:00,  3.50it/s] 51%|█████     | 187921/371472 [3:53:34<14:23:27,  3.54it/s] 51%|█████     | 187922/371472 [3:53:34<13:46:52,  3.70it/s] 51%|█████     | 187923/371472 [3:53:34<13:46:57,  3.70it/s] 51%|█████     | 187924/371472 [3:53:35<14:22:14,  3.55it/s] 51%|█████     | 187925/371472 [3:53:35<14:52:57,  3.43it/s] 51%|█████     | 187926/371472 [3:53:35<15:14:40,  3.34it/s] 51%|█████     | 187927/371472 [3:53:36<15:08:47,  3.37it/s] 51%|█████     | 187928/371472 [3:53:36<15:51:44,  3.21it/s] 51%|█████     | 187929/371472 [3:53:36<15:18:16,  3.33it/s] 51%|█████     | 187930/371472 [3:53:37<15:40:19,  3.25it/s] 51%|█████     | 187931/371472 [3:53:37<15:05:23,  3.38it/s] 51%|█████     | 187932/371472 [3:53:37<15:11:23,  3.36it/s] 51%|█████     | 187933/371472 [3:53:37<14:38:08,  3.48it/s] 51%|█████     | 187934/371472 [3:53:38<14:37:08,  3.49it/s] 51%|█████     | 187935/371472 [3:53:38<14:41:46,  3.47it/s] 51%|█████     | 187936/371472 [3:53:38<14:28:22,  3.52it/s] 51%|█████     | 187937/371472 [3:53:39<14:22:35,  3.55it/s] 51%|█████     | 187938/371472 [3:53:39<14:32:24,  3.51it/s] 51%|█████     | 187939/371472 [3:53:39<14:18:01,  3.57it/s] 51%|█████     | 187940/371472 [3:53:39<15:14:58,  3.34it/s]                                                            {'loss': 3.0064, 'learning_rate': 5.448996961796203e-07, 'epoch': 8.09}
 51%|█████     | 187940/371472 [3:53:39<15:14:58,  3.34it/s] 51%|█████     | 187941/371472 [3:53:40<15:07:56,  3.37it/s] 51%|█████     | 187942/371472 [3:53:40<15:09:02,  3.36it/s] 51%|█████     | 187943/371472 [3:53:40<15:14:11,  3.35it/s] 51%|█████     | 187944/371472 [3:53:41<14:48:11,  3.44it/s] 51%|█████     | 187945/371472 [3:53:41<14:24:26,  3.54it/s] 51%|█████     | 187946/371472 [3:53:41<14:13:55,  3.58it/s] 51%|█████     | 187947/371472 [3:53:41<13:45:54,  3.70it/s] 51%|█████     | 187948/371472 [3:53:42<14:35:26,  3.49it/s] 51%|█████     | 187949/371472 [3:53:42<14:03:24,  3.63it/s] 51%|█████     | 187950/371472 [3:53:42<15:07:44,  3.37it/s] 51%|█████     | 187951/371472 [3:53:43<15:41:33,  3.25it/s] 51%|█████     | 187952/371472 [3:53:43<15:40:46,  3.25it/s] 51%|█████     | 187953/371472 [3:53:43<16:02:44,  3.18it/s] 51%|█████     | 187954/371472 [3:53:44<15:04:46,  3.38it/s] 51%|█████     | 187955/371472 [3:53:44<14:43:08,  3.46it/s] 51%|█████     | 187956/371472 [3:53:44<14:00:16,  3.64it/s] 51%|█████     | 187957/371472 [3:53:44<14:30:39,  3.51it/s] 51%|█████     | 187958/371472 [3:53:45<14:15:09,  3.58it/s] 51%|█████     | 187959/371472 [3:53:45<14:04:34,  3.62it/s] 51%|█████     | 187960/371472 [3:53:45<13:50:15,  3.68it/s]                                                            {'loss': 2.7548, 'learning_rate': 5.448512142041414e-07, 'epoch': 8.1}
 51%|█████     | 187960/371472 [3:53:45<13:50:15,  3.68it/s] 51%|█████     | 187961/371472 [3:53:45<14:23:52,  3.54it/s] 51%|█████     | 187962/371472 [3:53:46<14:03:57,  3.62it/s] 51%|█████     | 187963/371472 [3:53:46<14:28:50,  3.52it/s] 51%|█████     | 187964/371472 [3:53:46<14:52:53,  3.43it/s] 51%|█████     | 187965/371472 [3:53:47<14:45:09,  3.46it/s] 51%|█████     | 187966/371472 [3:53:47<14:47:47,  3.45it/s] 51%|█████     | 187967/371472 [3:53:47<14:24:38,  3.54it/s] 51%|█████     | 187968/371472 [3:53:47<14:17:21,  3.57it/s] 51%|█████     | 187969/371472 [3:53:48<14:28:53,  3.52it/s] 51%|█████     | 187970/371472 [3:53:48<14:35:18,  3.49it/s] 51%|█████     | 187971/371472 [3:53:48<14:54:59,  3.42it/s] 51%|█████     | 187972/371472 [3:53:49<14:28:55,  3.52it/s] 51%|█████     | 187973/371472 [3:53:49<15:33:48,  3.28it/s] 51%|█████     | 187974/371472 [3:53:49<15:32:16,  3.28it/s] 51%|█████     | 187975/371472 [3:53:50<14:59:54,  3.40it/s] 51%|█████     | 187976/371472 [3:53:50<15:12:49,  3.35it/s] 51%|█████     | 187977/371472 [3:53:50<14:42:18,  3.47it/s] 51%|█████     | 187978/371472 [3:53:50<14:21:53,  3.55it/s] 51%|█████     | 187979/371472 [3:53:51<14:22:44,  3.54it/s] 51%|█████     | 187980/371472 [3:53:51<14:08:13,  3.61it/s]                                                            {'loss': 3.1157, 'learning_rate': 5.448027322286625e-07, 'epoch': 8.1}
 51%|█████     | 187980/371472 [3:53:51<14:08:13,  3.61it/s] 51%|█████     | 187981/371472 [3:53:51<13:44:13,  3.71it/s] 51%|█████     | 187982/371472 [3:53:51<13:16:02,  3.84it/s] 51%|█████     | 187983/371472 [3:53:52<14:06:11,  3.61it/s] 51%|█████     | 187984/371472 [3:53:52<13:51:02,  3.68it/s] 51%|█████     | 187985/371472 [3:53:52<13:49:22,  3.69it/s] 51%|█████     | 187986/371472 [3:53:53<13:58:16,  3.65it/s] 51%|█████     | 187987/371472 [3:53:53<13:49:03,  3.69it/s] 51%|█████     | 187988/371472 [3:53:53<13:31:18,  3.77it/s] 51%|█████     | 187989/371472 [3:53:53<14:03:20,  3.63it/s] 51%|█████     | 187990/371472 [3:53:54<13:28:10,  3.78it/s] 51%|█████     | 187991/371472 [3:53:54<13:33:47,  3.76it/s] 51%|█████     | 187992/371472 [3:53:54<13:17:02,  3.84it/s] 51%|█████     | 187993/371472 [3:53:54<13:01:50,  3.91it/s] 51%|█████     | 187994/371472 [3:53:55<12:54:50,  3.95it/s] 51%|█████     | 187995/371472 [3:53:55<13:04:50,  3.90it/s] 51%|█████     | 187996/371472 [3:53:55<14:09:19,  3.60it/s] 51%|█████     | 187997/371472 [3:53:55<14:01:57,  3.63it/s] 51%|█████     | 187998/371472 [3:53:56<13:59:25,  3.64it/s] 51%|█████     | 187999/371472 [3:53:56<13:26:09,  3.79it/s] 51%|█████     | 188000/371472 [3:53:56<14:21:09,  3.55it/s]                                                            {'loss': 3.1209, 'learning_rate': 5.447542502531837e-07, 'epoch': 8.1}
 51%|█████     | 188000/371472 [3:53:56<14:21:09,  3.55it/s] 51%|█████     | 188001/371472 [3:53:57<14:01:37,  3.63it/s] 51%|█████     | 188002/371472 [3:53:57<14:06:21,  3.61it/s] 51%|█████     | 188003/371472 [3:53:57<14:06:37,  3.61it/s] 51%|█████     | 188004/371472 [3:53:57<14:12:03,  3.59it/s] 51%|█████     | 188005/371472 [3:53:58<17:09:32,  2.97it/s] 51%|█████     | 188006/371472 [3:53:58<17:20:53,  2.94it/s] 51%|█████     | 188007/371472 [3:53:59<16:19:22,  3.12it/s] 51%|█████     | 188008/371472 [3:53:59<15:16:25,  3.34it/s] 51%|█████     | 188009/371472 [3:53:59<14:28:10,  3.52it/s] 51%|█████     | 188010/371472 [3:53:59<14:47:30,  3.45it/s] 51%|█████     | 188011/371472 [3:54:00<16:13:30,  3.14it/s] 51%|█████     | 188012/371472 [3:54:00<15:13:46,  3.35it/s] 51%|█████     | 188013/371472 [3:54:00<14:41:55,  3.47it/s] 51%|█████     | 188014/371472 [3:54:00<14:02:01,  3.63it/s] 51%|█████     | 188015/371472 [3:54:01<14:16:50,  3.57it/s] 51%|█████     | 188016/371472 [3:54:01<14:35:06,  3.49it/s] 51%|█████     | 188017/371472 [3:54:01<15:22:16,  3.32it/s] 51%|█████     | 188018/371472 [3:54:02<15:53:39,  3.21it/s] 51%|█████     | 188019/371472 [3:54:02<15:39:39,  3.25it/s] 51%|█████     | 188020/371472 [3:54:02<15:21:01,  3.32it/s]                                                            {'loss': 3.1892, 'learning_rate': 5.447057682777046e-07, 'epoch': 8.1}
 51%|█████     | 188020/371472 [3:54:02<15:21:01,  3.32it/s] 51%|█████     | 188021/371472 [3:54:03<15:36:04,  3.27it/s] 51%|█████     | 188022/371472 [3:54:03<15:13:27,  3.35it/s] 51%|█████     | 188023/371472 [3:54:03<14:54:32,  3.42it/s] 51%|█████     | 188024/371472 [3:54:03<15:07:07,  3.37it/s] 51%|█████     | 188025/371472 [3:54:04<14:42:00,  3.47it/s] 51%|█████     | 188026/371472 [3:54:04<14:35:09,  3.49it/s] 51%|█████     | 188027/371472 [3:54:04<14:24:22,  3.54it/s] 51%|█████     | 188028/371472 [3:54:05<14:21:41,  3.55it/s] 51%|█████     | 188029/371472 [3:54:05<14:24:22,  3.54it/s] 51%|█████     | 188030/371472 [3:54:05<14:02:59,  3.63it/s] 51%|█████     | 188031/371472 [3:54:05<13:40:46,  3.72it/s] 51%|█████     | 188032/371472 [3:54:06<14:09:02,  3.60it/s] 51%|█████     | 188033/371472 [3:54:06<13:34:29,  3.75it/s] 51%|█████     | 188034/371472 [3:54:06<13:30:59,  3.77it/s] 51%|█████     | 188035/371472 [3:54:06<13:45:29,  3.70it/s] 51%|█████     | 188036/371472 [3:54:07<14:34:32,  3.50it/s] 51%|█████     | 188037/371472 [3:54:07<14:44:35,  3.46it/s] 51%|█████     | 188038/371472 [3:54:07<14:30:30,  3.51it/s] 51%|█████     | 188039/371472 [3:54:08<14:13:34,  3.58it/s] 51%|█████     | 188040/371472 [3:54:08<14:26:24,  3.53it/s]                                                            {'loss': 2.9619, 'learning_rate': 5.446572863022259e-07, 'epoch': 8.1}
 51%|█████     | 188040/371472 [3:54:08<14:26:24,  3.53it/s] 51%|█████     | 188041/371472 [3:54:08<14:10:32,  3.59it/s] 51%|█████     | 188042/371472 [3:54:08<14:00:26,  3.64it/s] 51%|█████     | 188043/371472 [3:54:09<14:29:50,  3.51it/s] 51%|█████     | 188044/371472 [3:54:09<14:09:05,  3.60it/s] 51%|█████     | 188045/371472 [3:54:09<14:52:50,  3.42it/s] 51%|█████     | 188046/371472 [3:54:10<14:39:31,  3.48it/s] 51%|█████     | 188047/371472 [3:54:10<14:46:09,  3.45it/s] 51%|█████     | 188048/371472 [3:54:10<14:14:40,  3.58it/s] 51%|█████     | 188049/371472 [3:54:10<14:25:22,  3.53it/s] 51%|█████     | 188050/371472 [3:54:11<14:44:25,  3.46it/s] 51%|█████     | 188051/371472 [3:54:11<14:56:15,  3.41it/s] 51%|█████     | 188052/371472 [3:54:11<15:01:38,  3.39it/s] 51%|█████     | 188053/371472 [3:54:12<15:08:50,  3.36it/s] 51%|█████     | 188054/371472 [3:54:12<14:42:22,  3.46it/s] 51%|█████     | 188055/371472 [3:54:12<14:14:27,  3.58it/s] 51%|█████     | 188056/371472 [3:54:13<14:37:03,  3.49it/s] 51%|█████     | 188057/371472 [3:54:13<14:07:10,  3.61it/s] 51%|█████     | 188058/371472 [3:54:13<14:11:26,  3.59it/s] 51%|█████     | 188059/371472 [3:54:13<13:43:31,  3.71it/s] 51%|█████     | 188060/371472 [3:54:14<13:31:46,  3.77it/s]                                                            {'loss': 2.9308, 'learning_rate': 5.44608804326747e-07, 'epoch': 8.1}
 51%|█████     | 188060/371472 [3:54:14<13:31:46,  3.77it/s] 51%|█████     | 188061/371472 [3:54:14<14:19:21,  3.56it/s] 51%|█████     | 188062/371472 [3:54:14<14:12:28,  3.59it/s] 51%|█████     | 188063/371472 [3:54:14<14:07:57,  3.60it/s] 51%|█████     | 188064/371472 [3:54:15<13:55:02,  3.66it/s] 51%|█████     | 188065/371472 [3:54:15<14:05:37,  3.61it/s] 51%|█████     | 188066/371472 [3:54:15<13:42:36,  3.72it/s] 51%|█████     | 188067/371472 [3:54:16<14:14:10,  3.58it/s] 51%|█████     | 188068/371472 [3:54:16<13:57:55,  3.65it/s] 51%|█████     | 188069/371472 [3:54:16<14:14:55,  3.58it/s] 51%|█████     | 188070/371472 [3:54:16<13:42:09,  3.72it/s] 51%|█████     | 188071/371472 [3:54:17<14:10:23,  3.59it/s] 51%|█████     | 188072/371472 [3:54:17<14:32:40,  3.50it/s] 51%|█████     | 188073/371472 [3:54:17<14:53:37,  3.42it/s] 51%|█████     | 188074/371472 [3:54:18<14:34:13,  3.50it/s] 51%|█████     | 188075/371472 [3:54:18<14:50:25,  3.43it/s] 51%|█████     | 188076/371472 [3:54:18<14:32:00,  3.51it/s] 51%|█████     | 188077/371472 [3:54:18<14:01:05,  3.63it/s] 51%|█████     | 188078/371472 [3:54:19<15:38:45,  3.26it/s] 51%|█████     | 188079/371472 [3:54:19<14:51:52,  3.43it/s] 51%|█████     | 188080/371472 [3:54:19<14:30:03,  3.51it/s]                                                            {'loss': 3.0268, 'learning_rate': 5.445603223512681e-07, 'epoch': 8.1}
 51%|█████     | 188080/371472 [3:54:19<14:30:03,  3.51it/s] 51%|█████     | 188081/371472 [3:54:20<15:32:02,  3.28it/s] 51%|█████     | 188082/371472 [3:54:20<15:10:11,  3.36it/s] 51%|█████     | 188083/371472 [3:54:20<14:30:11,  3.51it/s] 51%|█████     | 188084/371472 [3:54:20<14:45:19,  3.45it/s] 51%|█████     | 188085/371472 [3:54:21<14:29:49,  3.51it/s] 51%|█████     | 188086/371472 [3:54:21<14:23:48,  3.54it/s] 51%|█████     | 188087/371472 [3:54:21<14:20:48,  3.55it/s] 51%|█████     | 188088/371472 [3:54:22<14:39:23,  3.48it/s] 51%|█████     | 188089/371472 [3:54:22<14:53:46,  3.42it/s] 51%|█████     | 188090/371472 [3:54:22<14:55:06,  3.41it/s] 51%|█████     | 188091/371472 [3:54:22<14:27:56,  3.52it/s] 51%|█████     | 188092/371472 [3:54:23<14:02:11,  3.63it/s] 51%|█████     | 188093/371472 [3:54:23<13:41:39,  3.72it/s] 51%|█████     | 188094/371472 [3:54:23<13:51:47,  3.67it/s] 51%|█████     | 188095/371472 [3:54:23<13:20:52,  3.82it/s] 51%|█████     | 188096/371472 [3:54:24<13:38:19,  3.73it/s] 51%|█████     | 188097/371472 [3:54:24<14:48:50,  3.44it/s] 51%|█████     | 188098/371472 [3:54:24<15:12:58,  3.35it/s] 51%|█████     | 188099/371472 [3:54:25<14:59:51,  3.40it/s] 51%|█████     | 188100/371472 [3:54:25<14:43:28,  3.46it/s]                                                            {'loss': 2.9405, 'learning_rate': 5.445118403757891e-07, 'epoch': 8.1}
 51%|█████     | 188100/371472 [3:54:25<14:43:28,  3.46it/s] 51%|█████     | 188101/371472 [3:54:25<14:36:28,  3.49it/s] 51%|█████     | 188102/371472 [3:54:26<14:23:51,  3.54it/s] 51%|█████     | 188103/371472 [3:54:26<16:15:21,  3.13it/s] 51%|█████     | 188104/371472 [3:54:26<15:32:06,  3.28it/s] 51%|█████     | 188105/371472 [3:54:26<15:28:51,  3.29it/s] 51%|█████     | 188106/371472 [3:54:27<15:11:36,  3.35it/s] 51%|█████     | 188107/371472 [3:54:27<14:29:17,  3.52it/s] 51%|█████     | 188108/371472 [3:54:27<14:44:21,  3.46it/s] 51%|█████     | 188109/371472 [3:54:28<14:08:27,  3.60it/s] 51%|█████     | 188110/371472 [3:54:28<14:21:17,  3.55it/s] 51%|█████     | 188111/371472 [3:54:28<14:53:46,  3.42it/s] 51%|█████     | 188112/371472 [3:54:29<15:39:35,  3.25it/s] 51%|█████     | 188113/371472 [3:54:29<15:13:18,  3.35it/s] 51%|█████     | 188114/371472 [3:54:29<14:46:48,  3.45it/s] 51%|█████     | 188115/371472 [3:54:29<15:04:12,  3.38it/s] 51%|█████     | 188116/371472 [3:54:30<14:35:59,  3.49it/s] 51%|█████     | 188117/371472 [3:54:30<14:22:54,  3.54it/s] 51%|█████     | 188118/371472 [3:54:30<15:55:38,  3.20it/s] 51%|█████     | 188119/371472 [3:54:31<15:11:49,  3.35it/s] 51%|█████     | 188120/371472 [3:54:31<15:15:56,  3.34it/s]                                                            {'loss': 3.0507, 'learning_rate': 5.444633584003103e-07, 'epoch': 8.1}
 51%|█████     | 188120/371472 [3:54:31<15:15:56,  3.34it/s] 51%|█████     | 188121/371472 [3:54:31<14:37:40,  3.48it/s] 51%|█████     | 188122/371472 [3:54:31<14:32:24,  3.50it/s] 51%|█████     | 188123/371472 [3:54:32<14:05:57,  3.61it/s] 51%|█████     | 188124/371472 [3:54:32<14:51:29,  3.43it/s] 51%|█████     | 188125/371472 [3:54:32<14:50:46,  3.43it/s] 51%|█████     | 188126/371472 [3:54:33<15:15:50,  3.34it/s] 51%|█████     | 188127/371472 [3:54:33<15:12:09,  3.35it/s] 51%|█████     | 188128/371472 [3:54:33<14:21:48,  3.55it/s] 51%|█████     | 188129/371472 [3:54:33<14:11:37,  3.59it/s] 51%|█████     | 188130/371472 [3:54:34<17:08:43,  2.97it/s] 51%|█████     | 188131/371472 [3:54:34<15:56:56,  3.19it/s] 51%|█████     | 188132/371472 [3:54:34<14:51:52,  3.43it/s] 51%|█████     | 188133/371472 [3:54:35<14:23:58,  3.54it/s] 51%|█████     | 188134/371472 [3:54:35<14:08:12,  3.60it/s] 51%|█████     | 188135/371472 [3:54:35<14:42:32,  3.46it/s] 51%|█████     | 188136/371472 [3:54:35<14:09:06,  3.60it/s] 51%|█████     | 188137/371472 [3:54:36<13:53:07,  3.67it/s] 51%|█████     | 188138/371472 [3:54:36<13:42:13,  3.72it/s] 51%|█████     | 188139/371472 [3:54:36<14:23:48,  3.54it/s] 51%|█████     | 188140/371472 [3:54:37<14:05:14,  3.61it/s]                                                            {'loss': 2.9462, 'learning_rate': 5.444148764248314e-07, 'epoch': 8.1}
 51%|█████     | 188140/371472 [3:54:37<14:05:14,  3.61it/s] 51%|█████     | 188141/371472 [3:54:37<14:07:15,  3.61it/s] 51%|█████     | 188142/371472 [3:54:37<14:15:02,  3.57it/s] 51%|█████     | 188143/371472 [3:54:37<14:34:14,  3.50it/s] 51%|█████     | 188144/371472 [3:54:38<14:09:17,  3.60it/s] 51%|█████     | 188145/371472 [3:54:38<14:53:48,  3.42it/s] 51%|█████     | 188146/371472 [3:54:38<15:11:06,  3.35it/s] 51%|█████     | 188147/371472 [3:54:39<15:20:03,  3.32it/s] 51%|█████     | 188148/371472 [3:54:39<15:06:00,  3.37it/s] 51%|█████     | 188149/371472 [3:54:39<15:00:11,  3.39it/s] 51%|█████     | 188150/371472 [3:54:40<15:18:11,  3.33it/s] 51%|█████     | 188151/371472 [3:54:40<16:04:32,  3.17it/s] 51%|█████     | 188152/371472 [3:54:40<16:41:02,  3.05it/s] 51%|█████     | 188153/371472 [3:54:41<16:03:42,  3.17it/s] 51%|█████     | 188154/371472 [3:54:41<16:06:58,  3.16it/s] 51%|█████     | 188155/371472 [3:54:41<16:03:22,  3.17it/s] 51%|█████     | 188156/371472 [3:54:41<15:21:13,  3.32it/s] 51%|█████     | 188157/371472 [3:54:42<15:19:12,  3.32it/s] 51%|█████     | 188158/371472 [3:54:42<15:23:25,  3.31it/s] 51%|█████     | 188159/371472 [3:54:42<14:41:43,  3.47it/s] 51%|█████     | 188160/371472 [3:54:43<14:31:01,  3.51it/s]                                                            {'loss': 2.9398, 'learning_rate': 5.443663944493526e-07, 'epoch': 8.1}
 51%|█████     | 188160/371472 [3:54:43<14:31:01,  3.51it/s] 51%|█████     | 188161/371472 [3:54:43<15:15:22,  3.34it/s] 51%|█████     | 188162/371472 [3:54:43<14:47:10,  3.44it/s] 51%|█████     | 188163/371472 [3:54:43<14:52:53,  3.42it/s] 51%|█████     | 188164/371472 [3:54:44<14:53:41,  3.42it/s] 51%|█████     | 188165/371472 [3:54:44<14:44:13,  3.46it/s] 51%|█████     | 188166/371472 [3:54:44<14:37:23,  3.48it/s] 51%|█████     | 188167/371472 [3:54:45<14:25:18,  3.53it/s] 51%|█████     | 188168/371472 [3:54:45<15:16:46,  3.33it/s] 51%|█████     | 188169/371472 [3:54:45<15:36:01,  3.26it/s] 51%|█████     | 188170/371472 [3:54:46<14:49:02,  3.44it/s] 51%|█████     | 188171/371472 [3:54:46<14:58:13,  3.40it/s] 51%|█████     | 188172/371472 [3:54:46<15:02:53,  3.38it/s] 51%|█████     | 188173/371472 [3:54:46<14:43:56,  3.46it/s] 51%|█████     | 188174/371472 [3:54:47<14:37:41,  3.48it/s] 51%|█████     | 188175/371472 [3:54:47<14:57:22,  3.40it/s] 51%|█████     | 188176/371472 [3:54:47<14:36:10,  3.49it/s] 51%|█████     | 188177/371472 [3:54:48<14:59:13,  3.40it/s] 51%|█████     | 188178/371472 [3:54:48<14:40:57,  3.47it/s] 51%|█████     | 188179/371472 [3:54:48<14:24:43,  3.53it/s] 51%|█████     | 188180/371472 [3:54:48<14:12:44,  3.58it/s]                                                            {'loss': 2.9809, 'learning_rate': 5.443179124738736e-07, 'epoch': 8.11}
 51%|█████     | 188180/371472 [3:54:48<14:12:44,  3.58it/s] 51%|█████     | 188181/371472 [3:54:49<14:16:37,  3.57it/s] 51%|█████     | 188182/371472 [3:54:49<13:59:26,  3.64it/s] 51%|█████     | 188183/371472 [3:54:49<14:01:43,  3.63it/s] 51%|█████     | 188184/371472 [3:54:49<14:04:24,  3.62it/s] 51%|█████     | 188185/371472 [3:54:50<13:42:00,  3.72it/s] 51%|█████     | 188186/371472 [3:54:50<14:30:18,  3.51it/s] 51%|█████     | 188187/371472 [3:54:50<14:14:52,  3.57it/s] 51%|█████     | 188188/371472 [3:54:51<14:10:40,  3.59it/s] 51%|█████     | 188189/371472 [3:54:51<14:05:49,  3.61it/s] 51%|█████     | 188190/371472 [3:54:51<13:51:49,  3.67it/s] 51%|█████     | 188191/371472 [3:54:51<14:15:44,  3.57it/s] 51%|█████     | 188192/371472 [3:54:52<14:31:38,  3.50it/s] 51%|█████     | 188193/371472 [3:54:52<14:15:54,  3.57it/s] 51%|█████     | 188194/371472 [3:54:52<14:02:43,  3.62it/s] 51%|█████     | 188195/371472 [3:54:53<14:07:37,  3.60it/s] 51%|█████     | 188196/371472 [3:54:53<14:35:00,  3.49it/s] 51%|█████     | 188197/371472 [3:54:53<14:42:12,  3.46it/s] 51%|█████     | 188198/371472 [3:54:53<15:29:41,  3.29it/s] 51%|█████     | 188199/371472 [3:54:54<14:57:58,  3.40it/s] 51%|█████     | 188200/371472 [3:54:54<14:18:22,  3.56it/s]                                                            {'loss': 3.2695, 'learning_rate': 5.442694304983947e-07, 'epoch': 8.11}
 51%|█████     | 188200/371472 [3:54:54<14:18:22,  3.56it/s] 51%|█████     | 188201/371472 [3:54:54<14:06:06,  3.61it/s] 51%|█████     | 188202/371472 [3:54:55<15:05:14,  3.37it/s] 51%|█████     | 188203/371472 [3:54:55<15:43:55,  3.24it/s] 51%|█████     | 188204/371472 [3:54:55<15:18:55,  3.32it/s] 51%|█████     | 188205/371472 [3:54:56<14:44:04,  3.45it/s] 51%|█████     | 188206/371472 [3:54:56<14:25:00,  3.53it/s] 51%|█████     | 188207/371472 [3:54:56<14:17:43,  3.56it/s] 51%|█████     | 188208/371472 [3:54:56<14:42:20,  3.46it/s] 51%|█████     | 188209/371472 [3:54:57<14:22:06,  3.54it/s] 51%|█████     | 188210/371472 [3:54:57<15:32:10,  3.28it/s] 51%|█████     | 188211/371472 [3:54:57<16:49:26,  3.03it/s] 51%|█████     | 188212/371472 [3:54:58<15:43:46,  3.24it/s] 51%|█████     | 188213/371472 [3:54:58<15:40:36,  3.25it/s] 51%|█████     | 188214/371472 [3:54:58<15:29:35,  3.29it/s] 51%|█████     | 188215/371472 [3:54:59<15:50:11,  3.21it/s] 51%|█████     | 188216/371472 [3:54:59<16:06:21,  3.16it/s] 51%|█████     | 188217/371472 [3:54:59<16:12:01,  3.14it/s] 51%|█████     | 188218/371472 [3:55:00<16:15:20,  3.13it/s] 51%|█████     | 188219/371472 [3:55:00<16:42:41,  3.05it/s] 51%|█████     | 188220/371472 [3:55:00<15:49:10,  3.22it/s]                                                            {'loss': 2.9889, 'learning_rate': 5.442209485229158e-07, 'epoch': 8.11}
 51%|█████     | 188220/371472 [3:55:00<15:49:10,  3.22it/s] 51%|█████     | 188221/371472 [3:55:00<15:12:38,  3.35it/s] 51%|█████     | 188222/371472 [3:55:01<14:54:14,  3.42it/s] 51%|█████     | 188223/371472 [3:55:01<14:50:34,  3.43it/s] 51%|█████     | 188224/371472 [3:55:01<15:00:21,  3.39it/s] 51%|█████     | 188225/371472 [3:55:02<14:36:57,  3.48it/s] 51%|█████     | 188226/371472 [3:55:02<13:59:03,  3.64it/s] 51%|█████     | 188227/371472 [3:55:02<13:54:14,  3.66it/s] 51%|█████     | 188228/371472 [3:55:02<13:43:17,  3.71it/s] 51%|█████     | 188229/371472 [3:55:03<14:07:21,  3.60it/s] 51%|█████     | 188230/371472 [3:55:03<13:33:00,  3.76it/s] 51%|█████     | 188231/371472 [3:55:03<14:43:34,  3.46it/s] 51%|█████     | 188232/371472 [3:55:04<14:57:48,  3.40it/s] 51%|█████     | 188233/371472 [3:55:04<14:35:55,  3.49it/s] 51%|█████     | 188234/371472 [3:55:04<14:29:30,  3.51it/s] 51%|█████     | 188235/371472 [3:55:04<14:37:52,  3.48it/s] 51%|█████     | 188236/371472 [3:55:05<14:16:31,  3.57it/s] 51%|█████     | 188237/371472 [3:55:05<14:37:09,  3.48it/s] 51%|█████     | 188238/371472 [3:55:05<14:37:03,  3.48it/s] 51%|█████     | 188239/371472 [3:55:05<14:10:55,  3.59it/s] 51%|█████     | 188240/371472 [3:55:06<13:43:05,  3.71it/s]                                                            {'loss': 2.9569, 'learning_rate': 5.441724665474368e-07, 'epoch': 8.11}
 51%|█████     | 188240/371472 [3:55:06<13:43:05,  3.71it/s] 51%|█████     | 188241/371472 [3:55:06<13:33:01,  3.76it/s] 51%|█████     | 188242/371472 [3:55:06<14:26:44,  3.52it/s] 51%|█████     | 188243/371472 [3:55:07<13:55:30,  3.66it/s] 51%|█████     | 188244/371472 [3:55:07<14:05:41,  3.61it/s] 51%|█████     | 188245/371472 [3:55:07<15:02:39,  3.38it/s] 51%|█████     | 188246/371472 [3:55:07<14:42:43,  3.46it/s] 51%|█████     | 188247/371472 [3:55:08<14:34:01,  3.49it/s] 51%|█████     | 188248/371472 [3:55:08<14:15:15,  3.57it/s] 51%|█████     | 188249/371472 [3:55:08<14:28:49,  3.51it/s] 51%|█████     | 188250/371472 [3:55:09<13:56:25,  3.65it/s] 51%|█████     | 188251/371472 [3:55:09<14:07:58,  3.60it/s] 51%|█████     | 188252/371472 [3:55:09<13:41:19,  3.72it/s] 51%|█████     | 188253/371472 [3:55:09<15:41:44,  3.24it/s] 51%|█████     | 188254/371472 [3:55:10<15:01:07,  3.39it/s] 51%|█████     | 188255/371472 [3:55:10<14:39:05,  3.47it/s] 51%|█████     | 188256/371472 [3:55:10<14:42:06,  3.46it/s] 51%|█████     | 188257/371472 [3:55:11<14:28:59,  3.51it/s] 51%|█████     | 188258/371472 [3:55:11<14:15:48,  3.57it/s] 51%|█████     | 188259/371472 [3:55:11<15:22:16,  3.31it/s] 51%|█████     | 188260/371472 [3:55:11<14:45:57,  3.45it/s]                                                            {'loss': 3.0294, 'learning_rate': 5.44123984571958e-07, 'epoch': 8.11}
 51%|█████     | 188260/371472 [3:55:11<14:45:57,  3.45it/s] 51%|█████     | 188261/371472 [3:55:12<14:49:41,  3.43it/s] 51%|█████     | 188262/371472 [3:55:12<14:18:49,  3.56it/s] 51%|█████     | 188263/371472 [3:55:12<14:36:48,  3.48it/s] 51%|█████     | 188264/371472 [3:55:13<15:25:20,  3.30it/s] 51%|█████     | 188265/371472 [3:55:13<14:58:49,  3.40it/s] 51%|█████     | 188266/371472 [3:55:13<14:25:21,  3.53it/s] 51%|█████     | 188267/371472 [3:55:13<14:18:29,  3.56it/s] 51%|█████     | 188268/371472 [3:55:14<15:27:53,  3.29it/s] 51%|█████     | 188269/371472 [3:55:14<15:13:53,  3.34it/s] 51%|█████     | 188270/371472 [3:55:14<14:54:20,  3.41it/s] 51%|█████     | 188271/371472 [3:55:15<14:26:26,  3.52it/s] 51%|█████     | 188272/371472 [3:55:15<15:22:45,  3.31it/s] 51%|█████     | 188273/371472 [3:55:15<15:57:57,  3.19it/s] 51%|█████     | 188274/371472 [3:55:16<16:21:22,  3.11it/s] 51%|█████     | 188275/371472 [3:55:16<15:18:06,  3.33it/s] 51%|█████     | 188276/371472 [3:55:16<15:00:34,  3.39it/s] 51%|█████     | 188277/371472 [3:55:16<14:19:38,  3.55it/s] 51%|█████     | 188278/371472 [3:55:17<15:01:04,  3.39it/s] 51%|█████     | 188279/371472 [3:55:17<15:07:23,  3.36it/s] 51%|█████     | 188280/371472 [3:55:17<14:27:49,  3.52it/s]                                                            {'loss': 3.0249, 'learning_rate': 5.44075502596479e-07, 'epoch': 8.11}
 51%|█████     | 188280/371472 [3:55:17<14:27:49,  3.52it/s] 51%|█████     | 188281/371472 [3:55:18<14:10:02,  3.59it/s] 51%|█████     | 188282/371472 [3:55:18<13:54:52,  3.66it/s] 51%|█████     | 188283/371472 [3:55:18<13:47:58,  3.69it/s] 51%|█████     | 188284/371472 [3:55:18<14:00:48,  3.63it/s] 51%|█████     | 188285/371472 [3:55:19<15:21:43,  3.31it/s] 51%|█████     | 188286/371472 [3:55:19<14:47:50,  3.44it/s] 51%|█████     | 188287/371472 [3:55:19<14:39:54,  3.47it/s] 51%|█████     | 188288/371472 [3:55:20<14:48:02,  3.44it/s] 51%|█████     | 188289/371472 [3:55:20<14:14:23,  3.57it/s] 51%|█████     | 188290/371472 [3:55:20<14:36:42,  3.48it/s] 51%|█████     | 188291/371472 [3:55:20<14:23:17,  3.54it/s] 51%|█████     | 188292/371472 [3:55:21<14:05:55,  3.61it/s] 51%|█████     | 188293/371472 [3:55:21<14:19:41,  3.55it/s] 51%|█████     | 188294/371472 [3:55:21<14:08:44,  3.60it/s] 51%|█████     | 188295/371472 [3:55:22<13:41:25,  3.72it/s] 51%|█████     | 188296/371472 [3:55:22<13:53:55,  3.66it/s] 51%|█████     | 188297/371472 [3:55:22<14:10:47,  3.59it/s] 51%|█████     | 188298/371472 [3:55:22<14:06:48,  3.61it/s] 51%|█████     | 188299/371472 [3:55:23<13:45:57,  3.70it/s] 51%|█████     | 188300/371472 [3:55:23<13:33:56,  3.75it/s]                                                            {'loss': 2.9925, 'learning_rate': 5.440270206210003e-07, 'epoch': 8.11}
 51%|█████     | 188300/371472 [3:55:23<13:33:56,  3.75it/s] 51%|█████     | 188301/371472 [3:55:23<14:12:31,  3.58it/s] 51%|█████     | 188302/371472 [3:55:23<14:15:24,  3.57it/s] 51%|█████     | 188303/371472 [3:55:24<14:44:34,  3.45it/s] 51%|█████     | 188304/371472 [3:55:24<14:31:45,  3.50it/s] 51%|█████     | 188305/371472 [3:55:24<14:31:25,  3.50it/s] 51%|█████     | 188306/371472 [3:55:25<15:00:22,  3.39it/s] 51%|█████     | 188307/371472 [3:55:25<15:41:31,  3.24it/s] 51%|█████     | 188308/371472 [3:55:25<14:53:25,  3.42it/s] 51%|█████     | 188309/371472 [3:55:26<15:15:51,  3.33it/s] 51%|█████     | 188310/371472 [3:55:26<15:08:29,  3.36it/s] 51%|█████     | 188311/371472 [3:55:26<16:04:58,  3.16it/s] 51%|█████     | 188312/371472 [3:55:27<15:15:02,  3.34it/s] 51%|█████     | 188313/371472 [3:55:27<15:14:43,  3.34it/s] 51%|█████     | 188314/371472 [3:55:27<15:31:31,  3.28it/s] 51%|█████     | 188315/371472 [3:55:27<15:03:52,  3.38it/s] 51%|█████     | 188316/371472 [3:55:28<14:36:53,  3.48it/s] 51%|█████     | 188317/371472 [3:55:28<14:03:43,  3.62it/s] 51%|█████     | 188318/371472 [3:55:28<13:55:23,  3.65it/s] 51%|█████     | 188319/371472 [3:55:28<14:27:44,  3.52it/s] 51%|█████     | 188320/371472 [3:55:29<14:00:24,  3.63it/s]                                                            {'loss': 3.0436, 'learning_rate': 5.439785386455213e-07, 'epoch': 8.11}
 51%|█████     | 188320/371472 [3:55:29<14:00:24,  3.63it/s] 51%|█████     | 188321/371472 [3:55:29<14:02:48,  3.62it/s] 51%|█████     | 188322/371472 [3:55:29<13:49:49,  3.68it/s] 51%|█████     | 188323/371472 [3:55:30<13:32:35,  3.76it/s] 51%|█████     | 188324/371472 [3:55:30<13:25:32,  3.79it/s] 51%|█████     | 188325/371472 [3:55:30<13:20:29,  3.81it/s] 51%|█████     | 188326/371472 [3:55:30<13:47:12,  3.69it/s] 51%|█████     | 188327/371472 [3:55:31<13:27:56,  3.78it/s] 51%|█████     | 188328/371472 [3:55:31<13:32:20,  3.76it/s] 51%|█████     | 188329/371472 [3:55:31<14:17:07,  3.56it/s] 51%|█████     | 188330/371472 [3:55:31<14:04:07,  3.62it/s] 51%|█████     | 188331/371472 [3:55:32<13:49:33,  3.68it/s] 51%|█████     | 188332/371472 [3:55:32<13:43:00,  3.71it/s] 51%|█████     | 188333/371472 [3:55:32<13:46:50,  3.69it/s] 51%|█████     | 188334/371472 [3:55:33<14:06:04,  3.61it/s] 51%|█████     | 188335/371472 [3:55:33<13:46:23,  3.69it/s] 51%|█████     | 188336/371472 [3:55:33<13:44:31,  3.70it/s] 51%|█████     | 188337/371472 [3:55:33<14:15:22,  3.57it/s] 51%|█████     | 188338/371472 [3:55:34<13:54:50,  3.66it/s] 51%|█████     | 188339/371472 [3:55:34<13:56:56,  3.65it/s] 51%|█████     | 188340/371472 [3:55:34<14:45:58,  3.45it/s]                                                            {'loss': 3.1637, 'learning_rate': 5.439300566700424e-07, 'epoch': 8.11}
 51%|█████     | 188340/371472 [3:55:34<14:45:58,  3.45it/s] 51%|█████     | 188341/371472 [3:55:35<14:37:42,  3.48it/s] 51%|█████     | 188342/371472 [3:55:35<14:16:58,  3.56it/s] 51%|█████     | 188343/371472 [3:55:35<13:46:17,  3.69it/s] 51%|█████     | 188344/371472 [3:55:35<13:53:52,  3.66it/s] 51%|█████     | 188345/371472 [3:55:36<13:34:10,  3.75it/s] 51%|█████     | 188346/371472 [3:55:36<13:22:43,  3.80it/s] 51%|█████     | 188347/371472 [3:55:36<13:23:19,  3.80it/s] 51%|█████     | 188348/371472 [3:55:36<13:30:01,  3.77it/s] 51%|█████     | 188349/371472 [3:55:37<13:40:33,  3.72it/s] 51%|█████     | 188350/371472 [3:55:37<14:26:04,  3.52it/s] 51%|█████     | 188351/371472 [3:55:37<15:03:29,  3.38it/s] 51%|█████     | 188352/371472 [3:55:38<14:22:17,  3.54it/s] 51%|█████     | 188353/371472 [3:55:38<14:00:33,  3.63it/s] 51%|█████     | 188354/371472 [3:55:38<14:17:32,  3.56it/s] 51%|█████     | 188355/371472 [3:55:38<13:54:27,  3.66it/s] 51%|█████     | 188356/371472 [3:55:39<14:16:16,  3.56it/s] 51%|█████     | 188357/371472 [3:55:39<14:07:55,  3.60it/s] 51%|█████     | 188358/371472 [3:55:39<13:54:46,  3.66it/s] 51%|█████     | 188359/371472 [3:55:39<13:59:02,  3.64it/s] 51%|█████     | 188360/371472 [3:55:40<14:23:19,  3.54it/s]                                                            {'loss': 3.1494, 'learning_rate': 5.438815746945635e-07, 'epoch': 8.11}
 51%|█████     | 188360/371472 [3:55:40<14:23:19,  3.54it/s] 51%|█████     | 188361/371472 [3:55:40<14:07:18,  3.60it/s] 51%|█████     | 188362/371472 [3:55:40<13:48:44,  3.68it/s] 51%|█████     | 188363/371472 [3:55:41<14:14:19,  3.57it/s] 51%|█████     | 188364/371472 [3:55:41<14:31:44,  3.50it/s] 51%|█████     | 188365/371472 [3:55:41<14:07:51,  3.60it/s] 51%|█████     | 188366/371472 [3:55:41<15:15:41,  3.33it/s] 51%|█████     | 188367/371472 [3:55:42<15:12:17,  3.35it/s] 51%|█████     | 188368/371472 [3:55:42<15:04:25,  3.37it/s] 51%|█████     | 188369/371472 [3:55:42<15:05:21,  3.37it/s] 51%|█████     | 188370/371472 [3:55:43<15:40:42,  3.24it/s] 51%|█████     | 188371/371472 [3:55:43<15:53:22,  3.20it/s] 51%|█████     | 188372/371472 [3:55:43<15:17:10,  3.33it/s] 51%|█████     | 188373/371472 [3:55:44<14:28:01,  3.52it/s] 51%|█████     | 188374/371472 [3:55:44<14:06:36,  3.60it/s] 51%|█████     | 188375/371472 [3:55:44<14:50:19,  3.43it/s] 51%|█████     | 188376/371472 [3:55:44<15:02:08,  3.38it/s] 51%|█████     | 188377/371472 [3:55:45<14:56:31,  3.40it/s] 51%|█████     | 188378/371472 [3:55:45<14:37:32,  3.48it/s] 51%|█████     | 188379/371472 [3:55:45<15:04:45,  3.37it/s] 51%|█████     | 188380/371472 [3:55:46<15:43:04,  3.24it/s]                                                            {'loss': 3.0414, 'learning_rate': 5.438330927190847e-07, 'epoch': 8.11}
 51%|█████     | 188380/371472 [3:55:46<15:43:04,  3.24it/s] 51%|█████     | 188381/371472 [3:55:46<15:12:36,  3.34it/s] 51%|█████     | 188382/371472 [3:55:46<14:48:02,  3.44it/s] 51%|█████     | 188383/371472 [3:55:46<14:52:43,  3.42it/s] 51%|█████     | 188384/371472 [3:55:47<14:27:16,  3.52it/s] 51%|█████     | 188385/371472 [3:55:47<14:23:29,  3.53it/s] 51%|█████     | 188386/371472 [3:55:47<14:11:33,  3.58it/s] 51%|█████     | 188387/371472 [3:55:48<14:06:19,  3.61it/s] 51%|█████     | 188388/371472 [3:55:48<15:09:36,  3.35it/s] 51%|█████     | 188389/371472 [3:55:48<14:47:52,  3.44it/s] 51%|█████     | 188390/371472 [3:55:48<14:44:21,  3.45it/s] 51%|█████     | 188391/371472 [3:55:49<14:22:37,  3.54it/s] 51%|█████     | 188392/371472 [3:55:49<14:08:19,  3.60it/s] 51%|█████     | 188393/371472 [3:55:49<14:08:47,  3.59it/s] 51%|█████     | 188394/371472 [3:55:50<13:44:58,  3.70it/s] 51%|█████     | 188395/371472 [3:55:50<14:12:05,  3.58it/s] 51%|█████     | 188396/371472 [3:55:50<13:57:20,  3.64it/s] 51%|█████     | 188397/371472 [3:55:50<13:31:53,  3.76it/s] 51%|█████     | 188398/371472 [3:55:51<13:47:19,  3.69it/s] 51%|█████     | 188399/371472 [3:55:51<13:45:51,  3.69it/s] 51%|█████     | 188400/371472 [3:55:51<14:25:51,  3.52it/s]                                                            {'loss': 2.8859, 'learning_rate': 5.437846107436057e-07, 'epoch': 8.11}
 51%|█████     | 188400/371472 [3:55:51<14:25:51,  3.52it/s] 51%|█████     | 188401/371472 [3:55:52<14:48:26,  3.43it/s] 51%|█████     | 188402/371472 [3:55:52<14:38:01,  3.48it/s] 51%|█████     | 188403/371472 [3:55:52<14:10:33,  3.59it/s] 51%|█████     | 188404/371472 [3:55:52<13:55:45,  3.65it/s] 51%|█████     | 188405/371472 [3:55:53<14:00:04,  3.63it/s] 51%|█████     | 188406/371472 [3:55:53<14:05:01,  3.61it/s] 51%|█████     | 188407/371472 [3:55:53<13:44:49,  3.70it/s] 51%|█████     | 188408/371472 [3:55:53<13:30:46,  3.76it/s] 51%|█████     | 188409/371472 [3:55:54<13:44:14,  3.70it/s] 51%|█████     | 188410/371472 [3:55:54<13:28:05,  3.78it/s] 51%|█████     | 188411/371472 [3:55:54<13:14:32,  3.84it/s] 51%|█████     | 188412/371472 [3:55:54<13:14:44,  3.84it/s] 51%|█████     | 188413/371472 [3:55:55<13:35:54,  3.74it/s] 51%|█████     | 188414/371472 [3:55:55<13:15:11,  3.84it/s] 51%|█████     | 188415/371472 [3:55:55<15:07:58,  3.36it/s] 51%|█████     | 188416/371472 [3:55:56<16:13:25,  3.13it/s] 51%|█████     | 188417/371472 [3:55:56<15:12:22,  3.34it/s] 51%|█████     | 188418/371472 [3:55:56<14:33:48,  3.49it/s] 51%|█████     | 188419/371472 [3:55:56<13:56:49,  3.65it/s] 51%|█████     | 188420/371472 [3:55:57<13:57:11,  3.64it/s]                                                            {'loss': 3.0725, 'learning_rate': 5.437361287681269e-07, 'epoch': 8.12}
 51%|█████     | 188420/371472 [3:55:57<13:57:11,  3.64it/s] 51%|█████     | 188421/371472 [3:55:57<13:39:13,  3.72it/s] 51%|█████     | 188422/371472 [3:55:57<13:19:05,  3.82it/s] 51%|█████     | 188423/371472 [3:55:58<14:13:28,  3.57it/s] 51%|█████     | 188424/371472 [3:55:58<13:48:50,  3.68it/s] 51%|█████     | 188425/371472 [3:55:58<13:37:25,  3.73it/s] 51%|█████     | 188426/371472 [3:55:58<13:36:11,  3.74it/s] 51%|█████     | 188427/371472 [3:55:59<13:34:26,  3.75it/s] 51%|█████     | 188428/371472 [3:55:59<13:04:42,  3.89it/s] 51%|█████     | 188429/371472 [3:55:59<13:10:39,  3.86it/s] 51%|█████     | 188430/371472 [3:55:59<13:47:22,  3.69it/s] 51%|█████     | 188431/371472 [3:56:00<14:35:12,  3.49it/s] 51%|█████     | 188432/371472 [3:56:00<15:25:13,  3.30it/s] 51%|█████     | 188433/371472 [3:56:00<15:08:53,  3.36it/s] 51%|█████     | 188434/371472 [3:56:01<14:36:32,  3.48it/s] 51%|█████     | 188435/371472 [3:56:01<14:50:52,  3.42it/s] 51%|█████     | 188436/371472 [3:56:01<14:32:04,  3.50it/s] 51%|█████     | 188437/371472 [3:56:01<14:10:47,  3.59it/s] 51%|█████     | 188438/371472 [3:56:02<15:08:51,  3.36it/s] 51%|█████     | 188439/371472 [3:56:02<15:31:37,  3.27it/s] 51%|█████     | 188440/371472 [3:56:02<15:09:10,  3.36it/s]                                                            {'loss': 3.0757, 'learning_rate': 5.43687646792648e-07, 'epoch': 8.12}
 51%|█████     | 188440/371472 [3:56:02<15:09:10,  3.36it/s] 51%|█████     | 188441/371472 [3:56:03<15:03:02,  3.38it/s] 51%|█████     | 188442/371472 [3:56:03<15:32:57,  3.27it/s] 51%|█████     | 188443/371472 [3:56:03<15:14:31,  3.34it/s] 51%|█████     | 188444/371472 [3:56:04<14:45:31,  3.44it/s] 51%|█████     | 188445/371472 [3:56:04<15:26:52,  3.29it/s] 51%|█████     | 188446/371472 [3:56:04<15:33:34,  3.27it/s] 51%|█████     | 188447/371472 [3:56:04<14:59:02,  3.39it/s] 51%|█████     | 188448/371472 [3:56:05<14:22:50,  3.54it/s] 51%|█████     | 188449/371472 [3:56:05<15:27:52,  3.29it/s] 51%|█████     | 188450/371472 [3:56:05<14:58:41,  3.39it/s] 51%|█████     | 188451/371472 [3:56:06<15:15:33,  3.33it/s] 51%|█████     | 188452/371472 [3:56:06<15:45:45,  3.23it/s] 51%|█████     | 188453/371472 [3:56:06<14:44:58,  3.45it/s] 51%|█████     | 188454/371472 [3:56:07<15:24:07,  3.30it/s] 51%|█████     | 188455/371472 [3:56:07<15:13:49,  3.34it/s] 51%|█████     | 188456/371472 [3:56:07<14:53:52,  3.41it/s] 51%|█████     | 188457/371472 [3:56:07<14:41:28,  3.46it/s] 51%|█████     | 188458/371472 [3:56:08<14:44:29,  3.45it/s] 51%|█████     | 188459/371472 [3:56:08<14:21:19,  3.54it/s] 51%|█████     | 188460/371472 [3:56:08<14:06:05,  3.61it/s]                                                            {'loss': 2.8361, 'learning_rate': 5.436391648171691e-07, 'epoch': 8.12}
 51%|█████     | 188460/371472 [3:56:08<14:06:05,  3.61it/s] 51%|█████     | 188461/371472 [3:56:09<14:05:25,  3.61it/s] 51%|█████     | 188462/371472 [3:56:09<14:03:59,  3.61it/s] 51%|█████     | 188463/371472 [3:56:09<14:11:17,  3.58it/s] 51%|█████     | 188464/371472 [3:56:09<13:38:46,  3.73it/s] 51%|█████     | 188465/371472 [3:56:10<13:36:00,  3.74it/s] 51%|█████     | 188466/371472 [3:56:10<13:38:01,  3.73it/s] 51%|█████     | 188467/371472 [3:56:10<13:58:35,  3.64it/s] 51%|█████     | 188468/371472 [3:56:10<13:32:57,  3.75it/s] 51%|█████     | 188469/371472 [3:56:11<14:06:04,  3.60it/s] 51%|█████     | 188470/371472 [3:56:11<13:54:09,  3.66it/s] 51%|█████     | 188471/371472 [3:56:11<14:08:00,  3.60it/s] 51%|█████     | 188472/371472 [3:56:12<14:11:43,  3.58it/s] 51%|█████     | 188473/371472 [3:56:12<14:19:06,  3.55it/s] 51%|█████     | 188474/371472 [3:56:12<14:28:02,  3.51it/s] 51%|█████     | 188475/371472 [3:56:12<15:07:10,  3.36it/s] 51%|█████     | 188476/371472 [3:56:13<15:12:33,  3.34it/s] 51%|█████     | 188477/371472 [3:56:13<15:14:35,  3.33it/s] 51%|█████     | 188478/371472 [3:56:13<16:21:57,  3.11it/s] 51%|█████     | 188479/371472 [3:56:14<16:34:30,  3.07it/s] 51%|█████     | 188480/371472 [3:56:14<16:42:45,  3.04it/s]                                                            {'loss': 2.9763, 'learning_rate': 5.435906828416901e-07, 'epoch': 8.12}
 51%|█████     | 188480/371472 [3:56:14<16:42:45,  3.04it/s] 51%|█████     | 188481/371472 [3:56:15<18:29:41,  2.75it/s] 51%|█████     | 188482/371472 [3:56:15<17:11:55,  2.96it/s] 51%|█████     | 188483/371472 [3:56:15<16:16:28,  3.12it/s] 51%|█████     | 188484/371472 [3:56:15<15:11:43,  3.35it/s] 51%|█████     | 188485/371472 [3:56:16<14:45:18,  3.44it/s] 51%|█████     | 188486/371472 [3:56:16<14:21:51,  3.54it/s] 51%|█████     | 188487/371472 [3:56:16<14:05:46,  3.61it/s] 51%|█████     | 188488/371472 [3:56:16<14:09:40,  3.59it/s] 51%|█████     | 188489/371472 [3:56:17<13:51:52,  3.67it/s] 51%|█████     | 188490/371472 [3:56:17<14:05:59,  3.60it/s] 51%|█████     | 188491/371472 [3:56:17<14:29:11,  3.51it/s] 51%|█████     | 188492/371472 [3:56:18<13:55:27,  3.65it/s] 51%|█████     | 188493/371472 [3:56:18<13:47:19,  3.69it/s] 51%|█████     | 188494/371472 [3:56:18<14:01:27,  3.62it/s] 51%|█████     | 188495/371472 [3:56:18<14:00:23,  3.63it/s] 51%|█████     | 188496/371472 [3:56:19<13:50:19,  3.67it/s] 51%|█████     | 188497/371472 [3:56:19<13:46:38,  3.69it/s] 51%|█████     | 188498/371472 [3:56:19<14:15:59,  3.56it/s] 51%|█████     | 188499/371472 [3:56:19<14:01:50,  3.62it/s] 51%|█████     | 188500/371472 [3:56:20<13:36:41,  3.73it/s]                                                            {'loss': 3.1511, 'learning_rate': 5.435422008662113e-07, 'epoch': 8.12}
 51%|█████     | 188500/371472 [3:56:20<13:36:41,  3.73it/s] 51%|█████     | 188501/371472 [3:56:20<13:52:09,  3.66it/s] 51%|█████     | 188502/371472 [3:56:20<14:21:46,  3.54it/s] 51%|█████     | 188503/371472 [3:56:21<14:06:13,  3.60it/s] 51%|█████     | 188504/371472 [3:56:21<14:20:14,  3.54it/s] 51%|█████     | 188505/371472 [3:56:21<13:54:46,  3.65it/s] 51%|█████     | 188506/371472 [3:56:21<14:29:02,  3.51it/s] 51%|█████     | 188507/371472 [3:56:22<14:11:02,  3.58it/s] 51%|█████     | 188508/371472 [3:56:22<14:15:49,  3.56it/s] 51%|█████     | 188509/371472 [3:56:22<15:11:59,  3.34it/s] 51%|█████     | 188510/371472 [3:56:23<15:23:49,  3.30it/s] 51%|█████     | 188511/371472 [3:56:23<15:00:17,  3.39it/s] 51%|█████     | 188512/371472 [3:56:23<14:28:43,  3.51it/s] 51%|█████     | 188513/371472 [3:56:23<14:34:23,  3.49it/s] 51%|█████     | 188514/371472 [3:56:24<14:27:01,  3.52it/s] 51%|█████     | 188515/371472 [3:56:24<14:19:25,  3.55it/s] 51%|█████     | 188516/371472 [3:56:24<14:35:01,  3.48it/s] 51%|█████     | 188517/371472 [3:56:25<14:06:15,  3.60it/s] 51%|█████     | 188518/371472 [3:56:25<14:06:51,  3.60it/s] 51%|█████     | 188519/371472 [3:56:25<14:12:48,  3.58it/s] 51%|█████     | 188520/371472 [3:56:25<13:37:47,  3.73it/s]                                                            {'loss': 2.9863, 'learning_rate': 5.434937188907324e-07, 'epoch': 8.12}
 51%|█████     | 188520/371472 [3:56:25<13:37:47,  3.73it/s] 51%|█████     | 188521/371472 [3:56:26<13:47:04,  3.69it/s] 51%|█████     | 188522/371472 [3:56:26<13:15:49,  3.83it/s] 51%|█████     | 188523/371472 [3:56:26<13:12:47,  3.85it/s] 51%|█████     | 188524/371472 [3:56:27<14:32:22,  3.50it/s] 51%|█████     | 188525/371472 [3:56:27<14:32:01,  3.50it/s] 51%|█████     | 188526/371472 [3:56:27<14:20:32,  3.54it/s] 51%|█████     | 188527/371472 [3:56:27<13:53:45,  3.66it/s] 51%|█████     | 188528/371472 [3:56:28<13:38:45,  3.72it/s] 51%|█████     | 188529/371472 [3:56:28<13:27:18,  3.78it/s] 51%|█████     | 188530/371472 [3:56:28<14:06:48,  3.60it/s] 51%|█████     | 188531/371472 [3:56:28<14:05:53,  3.60it/s] 51%|█████     | 188532/371472 [3:56:29<14:32:48,  3.49it/s] 51%|█████     | 188533/371472 [3:56:29<14:05:20,  3.61it/s] 51%|█████     | 188534/371472 [3:56:29<14:13:39,  3.57it/s] 51%|█████     | 188535/371472 [3:56:30<14:53:17,  3.41it/s] 51%|█████     | 188536/371472 [3:56:30<14:25:21,  3.52it/s] 51%|█████     | 188537/371472 [3:56:30<14:29:24,  3.51it/s] 51%|█████     | 188538/371472 [3:56:30<15:15:19,  3.33it/s] 51%|█████     | 188539/371472 [3:56:31<14:51:02,  3.42it/s] 51%|█████     | 188540/371472 [3:56:31<14:17:23,  3.56it/s]                                                            {'loss': 2.7851, 'learning_rate': 5.434452369152536e-07, 'epoch': 8.12}
 51%|█████     | 188540/371472 [3:56:31<14:17:23,  3.56it/s] 51%|█████     | 188541/371472 [3:56:31<13:53:19,  3.66it/s] 51%|█████     | 188542/371472 [3:56:32<13:56:14,  3.65it/s] 51%|█████     | 188543/371472 [3:56:32<13:46:15,  3.69it/s] 51%|█████     | 188544/371472 [3:56:32<13:52:20,  3.66it/s] 51%|█████     | 188545/371472 [3:56:32<14:06:52,  3.60it/s] 51%|█████     | 188546/371472 [3:56:33<13:41:03,  3.71it/s] 51%|█████     | 188547/371472 [3:56:33<14:04:06,  3.61it/s] 51%|█████     | 188548/371472 [3:56:33<14:06:14,  3.60it/s] 51%|█████     | 188549/371472 [3:56:34<14:47:27,  3.44it/s] 51%|█████     | 188550/371472 [3:56:34<14:13:40,  3.57it/s] 51%|█████     | 188551/371472 [3:56:34<14:25:51,  3.52it/s] 51%|█████     | 188552/371472 [3:56:34<14:21:51,  3.54it/s] 51%|█████     | 188553/371472 [3:56:35<13:53:11,  3.66it/s] 51%|█████     | 188554/371472 [3:56:35<14:10:47,  3.58it/s] 51%|█████     | 188555/371472 [3:56:35<14:13:22,  3.57it/s] 51%|█████     | 188556/371472 [3:56:35<15:00:15,  3.39it/s] 51%|█████     | 188557/371472 [3:56:36<14:45:09,  3.44it/s] 51%|█████     | 188558/371472 [3:56:36<14:24:18,  3.53it/s] 51%|█████     | 188559/371472 [3:56:36<14:17:28,  3.56it/s] 51%|█████     | 188560/371472 [3:56:37<21:25:53,  2.37it/s]                                                            {'loss': 2.9507, 'learning_rate': 5.433967549397746e-07, 'epoch': 8.12}
 51%|█████     | 188560/371472 [3:56:37<21:25:53,  2.37it/s] 51%|█████     | 188561/371472 [3:56:37<19:24:58,  2.62it/s] 51%|█████     | 188562/371472 [3:56:38<17:26:25,  2.91it/s] 51%|█████     | 188563/371472 [3:56:38<16:02:58,  3.17it/s] 51%|█████     | 188564/371472 [3:56:38<16:05:40,  3.16it/s] 51%|█████     | 188565/371472 [3:56:38<15:29:01,  3.28it/s] 51%|█████     | 188566/371472 [3:56:39<15:07:37,  3.36it/s] 51%|█████     | 188567/371472 [3:56:39<15:24:30,  3.30it/s] 51%|█████     | 188568/371472 [3:56:39<16:08:50,  3.15it/s] 51%|█████     | 188569/371472 [3:56:40<15:31:33,  3.27it/s] 51%|█████     | 188570/371472 [3:56:40<14:37:21,  3.47it/s] 51%|█████     | 188571/371472 [3:56:40<14:40:47,  3.46it/s] 51%|█████     | 188572/371472 [3:56:40<14:17:47,  3.55it/s] 51%|█████     | 188573/371472 [3:56:41<14:18:42,  3.55it/s] 51%|█████     | 188574/371472 [3:56:41<14:29:50,  3.50it/s] 51%|█████     | 188575/371472 [3:56:41<13:47:53,  3.68it/s] 51%|█████     | 188576/371472 [3:56:42<14:26:01,  3.52it/s] 51%|█████     | 188577/371472 [3:56:42<14:12:04,  3.58it/s] 51%|█████     | 188578/371472 [3:56:42<13:40:10,  3.72it/s] 51%|█████     | 188579/371472 [3:56:42<13:55:28,  3.65it/s] 51%|█████     | 188580/371472 [3:56:43<14:13:06,  3.57it/s]                                                            {'loss': 3.1987, 'learning_rate': 5.433482729642958e-07, 'epoch': 8.12}
 51%|█████     | 188580/371472 [3:56:43<14:13:06,  3.57it/s] 51%|█████     | 188581/371472 [3:56:43<14:10:20,  3.58it/s] 51%|█████     | 188582/371472 [3:56:43<14:16:36,  3.56it/s] 51%|█████     | 188583/371472 [3:56:44<14:08:40,  3.59it/s] 51%|█████     | 188584/371472 [3:56:44<14:15:35,  3.56it/s] 51%|█████     | 188585/371472 [3:56:44<14:28:04,  3.51it/s] 51%|█████     | 188586/371472 [3:56:44<14:25:42,  3.52it/s] 51%|█████     | 188587/371472 [3:56:45<13:51:52,  3.66it/s] 51%|█████     | 188588/371472 [3:56:45<14:17:30,  3.55it/s] 51%|█████     | 188589/371472 [3:56:45<14:30:24,  3.50it/s] 51%|█████     | 188590/371472 [3:56:45<13:54:49,  3.65it/s] 51%|█████     | 188591/371472 [3:56:46<13:51:18,  3.67it/s] 51%|█████     | 188592/371472 [3:56:46<13:40:43,  3.71it/s] 51%|█████     | 188593/371472 [3:56:46<14:02:43,  3.62it/s] 51%|█████     | 188594/371472 [3:56:47<13:43:27,  3.70it/s] 51%|█████     | 188595/371472 [3:56:47<14:06:25,  3.60it/s] 51%|█████     | 188596/371472 [3:56:47<15:18:55,  3.32it/s] 51%|█████     | 188597/371472 [3:56:47<14:35:51,  3.48it/s] 51%|█████     | 188598/371472 [3:56:48<14:27:04,  3.52it/s] 51%|█████     | 188599/371472 [3:56:48<14:35:24,  3.48it/s] 51%|█████     | 188600/371472 [3:56:48<15:03:04,  3.37it/s]                                                            {'loss': 3.1273, 'learning_rate': 5.432997909888168e-07, 'epoch': 8.12}
 51%|█████     | 188600/371472 [3:56:48<15:03:04,  3.37it/s] 51%|█████     | 188601/371472 [3:56:49<14:35:32,  3.48it/s] 51%|█████     | 188602/371472 [3:56:49<14:32:48,  3.49it/s] 51%|█████     | 188603/371472 [3:56:49<14:15:40,  3.56it/s] 51%|█████     | 188604/371472 [3:56:50<15:11:34,  3.34it/s] 51%|█████     | 188605/371472 [3:56:50<15:05:19,  3.37it/s] 51%|█████     | 188606/371472 [3:56:50<14:53:17,  3.41it/s] 51%|█████     | 188607/371472 [3:56:50<14:02:26,  3.62it/s] 51%|█████     | 188608/371472 [3:56:51<17:54:51,  2.84it/s] 51%|█████     | 188609/371472 [3:56:51<16:13:48,  3.13it/s] 51%|█████     | 188610/371472 [3:56:51<15:09:29,  3.35it/s] 51%|█████     | 188611/371472 [3:56:52<15:38:23,  3.25it/s] 51%|█████     | 188612/371472 [3:56:52<16:03:57,  3.16it/s] 51%|█████     | 188613/371472 [3:56:52<15:06:38,  3.36it/s] 51%|█████     | 188614/371472 [3:56:53<15:01:17,  3.38it/s] 51%|█████     | 188615/371472 [3:56:53<15:03:09,  3.37it/s] 51%|█████     | 188616/371472 [3:56:53<14:51:25,  3.42it/s] 51%|█████     | 188617/371472 [3:56:53<14:50:07,  3.42it/s] 51%|█████     | 188618/371472 [3:56:54<14:10:35,  3.58it/s] 51%|█████     | 188619/371472 [3:56:54<13:54:55,  3.65it/s] 51%|█████     | 188620/371472 [3:56:54<13:41:54,  3.71it/s]                                                            {'loss': 2.8289, 'learning_rate': 5.432513090133379e-07, 'epoch': 8.12}
 51%|█████     | 188620/371472 [3:56:54<13:41:54,  3.71it/s] 51%|█████     | 188621/371472 [3:56:55<14:22:32,  3.53it/s] 51%|█████     | 188622/371472 [3:56:55<13:47:48,  3.68it/s] 51%|█████     | 188623/371472 [3:56:55<13:28:18,  3.77it/s] 51%|█████     | 188624/371472 [3:56:55<13:40:11,  3.72it/s] 51%|█████     | 188625/371472 [3:56:56<13:46:10,  3.69it/s] 51%|█████     | 188626/371472 [3:56:56<13:43:06,  3.70it/s] 51%|█████     | 188627/371472 [3:56:56<14:03:05,  3.61it/s] 51%|█████     | 188628/371472 [3:56:56<13:56:44,  3.64it/s] 51%|█████     | 188629/371472 [3:56:57<14:29:09,  3.51it/s] 51%|█████     | 188630/371472 [3:56:57<14:01:06,  3.62it/s] 51%|█████     | 188631/371472 [3:56:57<14:04:48,  3.61it/s] 51%|█████     | 188632/371472 [3:56:58<13:38:47,  3.72it/s] 51%|█████     | 188633/371472 [3:56:58<13:47:20,  3.68it/s] 51%|█████     | 188634/371472 [3:56:58<14:00:07,  3.63it/s] 51%|█████     | 188635/371472 [3:56:58<13:35:46,  3.74it/s] 51%|█████     | 188636/371472 [3:56:59<13:45:25,  3.69it/s] 51%|█████     | 188637/371472 [3:56:59<14:40:49,  3.46it/s] 51%|█████     | 188638/371472 [3:56:59<14:26:02,  3.52it/s] 51%|█████     | 188639/371472 [3:56:59<14:05:52,  3.60it/s] 51%|█████     | 188640/371472 [3:57:00<13:58:09,  3.64it/s]                                                            {'loss': 2.8759, 'learning_rate': 5.43202827037859e-07, 'epoch': 8.13}
 51%|█████     | 188640/371472 [3:57:00<13:58:09,  3.64it/s] 51%|█████     | 188641/371472 [3:57:00<13:59:39,  3.63it/s] 51%|█████     | 188642/371472 [3:57:00<14:15:19,  3.56it/s] 51%|█████     | 188643/371472 [3:57:01<14:19:02,  3.55it/s] 51%|█████     | 188644/371472 [3:57:01<15:43:09,  3.23it/s] 51%|█████     | 188645/371472 [3:57:01<15:55:14,  3.19it/s] 51%|█████     | 188646/371472 [3:57:02<16:01:19,  3.17it/s] 51%|█████     | 188647/371472 [3:57:02<15:18:27,  3.32it/s] 51%|█████     | 188648/371472 [3:57:02<14:35:21,  3.48it/s] 51%|█████     | 188649/371472 [3:57:02<14:20:14,  3.54it/s] 51%|█████     | 188650/371472 [3:57:03<14:07:27,  3.60it/s] 51%|█████     | 188651/371472 [3:57:03<13:48:03,  3.68it/s] 51%|█████     | 188652/371472 [3:57:03<14:19:36,  3.54it/s] 51%|█████     | 188653/371472 [3:57:04<14:34:25,  3.48it/s] 51%|█████     | 188654/371472 [3:57:04<13:55:33,  3.65it/s] 51%|█████     | 188655/371472 [3:57:04<13:45:58,  3.69it/s] 51%|█████     | 188656/371472 [3:57:04<15:15:21,  3.33it/s] 51%|█████     | 188657/371472 [3:57:05<14:36:05,  3.48it/s] 51%|█████     | 188658/371472 [3:57:05<14:00:28,  3.63it/s] 51%|█████     | 188659/371472 [3:57:05<14:00:48,  3.62it/s] 51%|█████     | 188660/371472 [3:57:05<14:27:15,  3.51it/s]                                                            {'loss': 3.0069, 'learning_rate': 5.431543450623802e-07, 'epoch': 8.13}
 51%|█████     | 188660/371472 [3:57:05<14:27:15,  3.51it/s] 51%|█████     | 188661/371472 [3:57:06<14:37:11,  3.47it/s] 51%|█████     | 188662/371472 [3:57:06<14:59:45,  3.39it/s] 51%|█████     | 188663/371472 [3:57:06<14:32:09,  3.49it/s] 51%|█████     | 188664/371472 [3:57:07<14:11:33,  3.58it/s] 51%|█████     | 188665/371472 [3:57:07<14:27:45,  3.51it/s] 51%|█████     | 188666/371472 [3:57:07<15:11:50,  3.34it/s] 51%|█████     | 188667/371472 [3:57:08<15:16:17,  3.33it/s] 51%|█████     | 188668/371472 [3:57:08<15:23:10,  3.30it/s] 51%|█████     | 188669/371472 [3:57:08<15:23:51,  3.30it/s] 51%|█████     | 188670/371472 [3:57:08<14:51:14,  3.42it/s] 51%|█████     | 188671/371472 [3:57:09<14:12:07,  3.58it/s] 51%|█████     | 188672/371472 [3:57:09<14:04:09,  3.61it/s] 51%|█████     | 188673/371472 [3:57:09<13:49:51,  3.67it/s] 51%|█████     | 188674/371472 [3:57:10<14:58:13,  3.39it/s] 51%|█████     | 188675/371472 [3:57:10<14:21:16,  3.54it/s] 51%|█████     | 188676/371472 [3:57:10<13:52:08,  3.66it/s] 51%|█████     | 188677/371472 [3:57:10<13:29:12,  3.76it/s] 51%|█████     | 188678/371472 [3:57:11<13:38:31,  3.72it/s] 51%|█████     | 188679/371472 [3:57:11<13:21:51,  3.80it/s] 51%|█████     | 188680/371472 [3:57:11<13:59:37,  3.63it/s]                                                            {'loss': 2.8903, 'learning_rate': 5.431058630869013e-07, 'epoch': 8.13}
 51%|█████     | 188680/371472 [3:57:11<13:59:37,  3.63it/s] 51%|█████     | 188681/371472 [3:57:11<13:48:18,  3.68it/s] 51%|█████     | 188682/371472 [3:57:12<13:49:23,  3.67it/s] 51%|█████     | 188683/371472 [3:57:12<14:31:03,  3.50it/s] 51%|█████     | 188684/371472 [3:57:12<14:21:32,  3.54it/s] 51%|█████     | 188685/371472 [3:57:13<14:25:56,  3.52it/s] 51%|█████     | 188686/371472 [3:57:13<14:14:32,  3.57it/s] 51%|█████     | 188687/371472 [3:57:13<14:12:23,  3.57it/s] 51%|█████     | 188688/371472 [3:57:13<14:35:13,  3.48it/s] 51%|█████     | 188689/371472 [3:57:14<14:34:13,  3.48it/s] 51%|█████     | 188690/371472 [3:57:14<14:10:38,  3.58it/s] 51%|█████     | 188691/371472 [3:57:14<13:36:51,  3.73it/s] 51%|█████     | 188692/371472 [3:57:14<13:20:47,  3.80it/s] 51%|█████     | 188693/371472 [3:57:15<14:03:03,  3.61it/s] 51%|█████     | 188694/371472 [3:57:15<14:07:58,  3.59it/s] 51%|█████     | 188695/371472 [3:57:15<13:33:26,  3.74it/s] 51%|█████     | 188696/371472 [3:57:16<14:18:00,  3.55it/s] 51%|█████     | 188697/371472 [3:57:16<14:40:49,  3.46it/s] 51%|█████     | 188698/371472 [3:57:16<14:11:00,  3.58it/s] 51%|█████     | 188699/371472 [3:57:16<14:30:38,  3.50it/s] 51%|█████     | 188700/371472 [3:57:17<14:38:54,  3.47it/s]                                                            {'loss': 3.0742, 'learning_rate': 5.430573811114223e-07, 'epoch': 8.13}
 51%|█████     | 188700/371472 [3:57:17<14:38:54,  3.47it/s] 51%|█████     | 188701/371472 [3:57:17<14:11:46,  3.58it/s] 51%|█████     | 188702/371472 [3:57:17<14:03:55,  3.61it/s] 51%|█████     | 188703/371472 [3:57:18<14:03:10,  3.61it/s] 51%|█████     | 188704/371472 [3:57:18<13:49:34,  3.67it/s] 51%|█████     | 188705/371472 [3:57:18<13:59:13,  3.63it/s] 51%|█████     | 188706/371472 [3:57:18<13:38:03,  3.72it/s] 51%|█████     | 188707/371472 [3:57:19<15:14:22,  3.33it/s] 51%|█████     | 188708/371472 [3:57:19<15:46:55,  3.22it/s] 51%|█████     | 188709/371472 [3:57:19<15:26:05,  3.29it/s] 51%|█████     | 188710/371472 [3:57:20<14:35:51,  3.48it/s] 51%|█████     | 188711/371472 [3:57:20<15:24:04,  3.30it/s] 51%|█████     | 188712/371472 [3:57:20<14:39:56,  3.46it/s] 51%|█████     | 188713/371472 [3:57:20<14:15:24,  3.56it/s] 51%|█████     | 188714/371472 [3:57:21<14:40:57,  3.46it/s] 51%|█████     | 188715/371472 [3:57:21<14:43:59,  3.45it/s] 51%|█████     | 188716/371472 [3:57:21<14:15:33,  3.56it/s] 51%|█████     | 188717/371472 [3:57:22<14:28:25,  3.51it/s] 51%|█████     | 188718/371472 [3:57:22<14:43:08,  3.45it/s] 51%|█████     | 188719/371472 [3:57:22<14:23:00,  3.53it/s] 51%|█████     | 188720/371472 [3:57:23<15:37:21,  3.25it/s]                                                            {'loss': 3.017, 'learning_rate': 5.430088991359434e-07, 'epoch': 8.13}
 51%|█████     | 188720/371472 [3:57:23<15:37:21,  3.25it/s] 51%|█████     | 188721/371472 [3:57:23<16:38:10,  3.05it/s] 51%|█████     | 188722/371472 [3:57:23<15:28:56,  3.28it/s] 51%|█████     | 188723/371472 [3:57:23<14:56:02,  3.40it/s] 51%|█████     | 188724/371472 [3:57:24<14:25:44,  3.52it/s] 51%|█████     | 188725/371472 [3:57:24<14:19:02,  3.55it/s] 51%|█████     | 188726/371472 [3:57:24<14:11:17,  3.58it/s] 51%|█████     | 188727/371472 [3:57:25<13:50:05,  3.67it/s] 51%|█████     | 188728/371472 [3:57:25<13:26:24,  3.78it/s] 51%|█████     | 188729/371472 [3:57:25<14:13:23,  3.57it/s] 51%|█████     | 188730/371472 [3:57:25<14:18:23,  3.55it/s] 51%|█████     | 188731/371472 [3:57:26<13:57:22,  3.64it/s] 51%|█████     | 188732/371472 [3:57:26<13:50:40,  3.67it/s] 51%|█████     | 188733/371472 [3:57:26<14:02:52,  3.61it/s] 51%|█████     | 188734/371472 [3:57:26<14:15:38,  3.56it/s] 51%|█████     | 188735/371472 [3:57:27<14:20:24,  3.54it/s] 51%|█████     | 188736/371472 [3:57:27<14:38:24,  3.47it/s] 51%|█████     | 188737/371472 [3:57:27<14:37:11,  3.47it/s] 51%|█████     | 188738/371472 [3:57:28<14:19:31,  3.54it/s] 51%|█████     | 188739/371472 [3:57:28<15:18:23,  3.32it/s] 51%|█████     | 188740/371472 [3:57:28<15:13:34,  3.33it/s]                                                            {'loss': 2.9696, 'learning_rate': 5.429604171604646e-07, 'epoch': 8.13}
 51%|█████     | 188740/371472 [3:57:28<15:13:34,  3.33it/s] 51%|█████     | 188741/371472 [3:57:29<14:42:38,  3.45it/s] 51%|█████     | 188742/371472 [3:57:29<15:00:47,  3.38it/s] 51%|█████     | 188743/371472 [3:57:29<14:34:13,  3.48it/s] 51%|█████     | 188744/371472 [3:57:29<14:05:17,  3.60it/s] 51%|█████     | 188745/371472 [3:57:30<13:35:52,  3.73it/s] 51%|█████     | 188746/371472 [3:57:30<13:49:17,  3.67it/s] 51%|█████     | 188747/371472 [3:57:30<13:42:45,  3.70it/s] 51%|█████     | 188748/371472 [3:57:30<14:34:50,  3.48it/s] 51%|█████     | 188749/371472 [3:57:31<14:14:17,  3.56it/s] 51%|█████     | 188750/371472 [3:57:31<14:10:10,  3.58it/s] 51%|█████     | 188751/371472 [3:57:31<14:54:11,  3.41it/s] 51%|█████     | 188752/371472 [3:57:32<14:28:10,  3.51it/s] 51%|█████     | 188753/371472 [3:57:32<14:19:24,  3.54it/s] 51%|█████     | 188754/371472 [3:57:32<14:31:12,  3.50it/s] 51%|█████     | 188755/371472 [3:57:33<15:06:58,  3.36it/s] 51%|█████     | 188756/371472 [3:57:33<14:35:23,  3.48it/s] 51%|█████     | 188757/371472 [3:57:33<14:36:28,  3.47it/s] 51%|█████     | 188758/371472 [3:57:33<15:21:13,  3.31it/s] 51%|█████     | 188759/371472 [3:57:34<15:38:21,  3.25it/s] 51%|█████     | 188760/371472 [3:57:34<15:38:49,  3.24it/s]                                                            {'loss': 3.0506, 'learning_rate': 5.429119351849857e-07, 'epoch': 8.13}
 51%|█████     | 188760/371472 [3:57:34<15:38:49,  3.24it/s] 51%|█████     | 188761/371472 [3:57:34<14:45:38,  3.44it/s] 51%|█████     | 188762/371472 [3:57:35<14:35:24,  3.48it/s] 51%|█████     | 188763/371472 [3:57:35<15:22:44,  3.30it/s] 51%|█████     | 188764/371472 [3:57:35<14:46:19,  3.44it/s] 51%|█████     | 188765/371472 [3:57:35<14:32:31,  3.49it/s] 51%|█████     | 188766/371472 [3:57:36<17:26:31,  2.91it/s] 51%|█████     | 188767/371472 [3:57:36<16:25:57,  3.09it/s] 51%|█████     | 188768/371472 [3:57:36<15:28:06,  3.28it/s] 51%|█████     | 188769/371472 [3:57:37<15:13:38,  3.33it/s] 51%|█████     | 188770/371472 [3:57:37<14:33:46,  3.48it/s] 51%|█████     | 188771/371472 [3:57:37<14:39:34,  3.46it/s] 51%|█████     | 188772/371472 [3:57:38<14:40:17,  3.46it/s] 51%|█████     | 188773/371472 [3:57:38<15:06:10,  3.36it/s] 51%|█████     | 188774/371472 [3:57:38<14:45:57,  3.44it/s] 51%|█████     | 188775/371472 [3:57:38<14:11:19,  3.58it/s] 51%|█████     | 188776/371472 [3:57:39<14:18:34,  3.55it/s] 51%|█████     | 188777/371472 [3:57:39<13:45:48,  3.69it/s] 51%|█████     | 188778/371472 [3:57:39<13:55:53,  3.64it/s] 51%|█████     | 188779/371472 [3:57:40<14:37:45,  3.47it/s] 51%|█████     | 188780/371472 [3:57:40<14:05:02,  3.60it/s]                                                            {'loss': 3.0246, 'learning_rate': 5.428634532095067e-07, 'epoch': 8.13}
 51%|█████     | 188780/371472 [3:57:40<14:05:02,  3.60it/s] 51%|█████     | 188781/371472 [3:57:40<14:42:49,  3.45it/s] 51%|█████     | 188782/371472 [3:57:40<14:47:26,  3.43it/s] 51%|█████     | 188783/371472 [3:57:41<14:50:38,  3.42it/s] 51%|█████     | 188784/371472 [3:57:41<14:29:08,  3.50it/s] 51%|█████     | 188785/371472 [3:57:41<14:17:58,  3.55it/s] 51%|█████     | 188786/371472 [3:57:42<13:58:00,  3.63it/s] 51%|█████     | 188787/371472 [3:57:42<13:49:04,  3.67it/s] 51%|█████     | 188788/371472 [3:57:42<13:54:06,  3.65it/s] 51%|█████     | 188789/371472 [3:57:42<13:49:17,  3.67it/s] 51%|█████     | 188790/371472 [3:57:43<14:39:07,  3.46it/s] 51%|█████     | 188791/371472 [3:57:43<14:22:20,  3.53it/s] 51%|█████     | 188792/371472 [3:57:43<14:14:56,  3.56it/s] 51%|█████     | 188793/371472 [3:57:44<14:25:36,  3.52it/s] 51%|█████     | 188794/371472 [3:57:44<14:01:16,  3.62it/s] 51%|█████     | 188795/371472 [3:57:44<14:56:38,  3.40it/s] 51%|█████     | 188796/371472 [3:57:44<14:12:08,  3.57it/s] 51%|█████     | 188797/371472 [3:57:45<14:25:26,  3.52it/s] 51%|█████     | 188798/371472 [3:57:45<14:33:38,  3.48it/s] 51%|█████     | 188799/371472 [3:57:45<14:14:44,  3.56it/s] 51%|█████     | 188800/371472 [3:57:46<14:28:09,  3.51it/s]                                                            {'loss': 2.8624, 'learning_rate': 5.428149712340279e-07, 'epoch': 8.13}
 51%|█████     | 188800/371472 [3:57:46<14:28:09,  3.51it/s] 51%|█████     | 188801/371472 [3:57:46<14:31:26,  3.49it/s] 51%|█████     | 188802/371472 [3:57:46<15:19:26,  3.31it/s] 51%|█████     | 188803/371472 [3:57:46<14:31:54,  3.49it/s] 51%|█████     | 188804/371472 [3:57:47<14:37:48,  3.47it/s] 51%|█████     | 188805/371472 [3:57:47<16:19:35,  3.11it/s] 51%|█████     | 188806/371472 [3:57:47<15:44:38,  3.22it/s] 51%|█████     | 188807/371472 [3:57:48<16:19:07,  3.11it/s] 51%|█████     | 188808/371472 [3:57:48<15:43:00,  3.23it/s] 51%|█████     | 188809/371472 [3:57:48<15:52:34,  3.20it/s] 51%|█████     | 188810/371472 [3:57:49<15:02:36,  3.37it/s] 51%|█████     | 188811/371472 [3:57:49<14:13:08,  3.57it/s] 51%|█████     | 188812/371472 [3:57:49<13:51:30,  3.66it/s] 51%|█████     | 188813/371472 [3:57:49<13:38:41,  3.72it/s] 51%|█████     | 188814/371472 [3:57:50<13:51:14,  3.66it/s] 51%|█████     | 188815/371472 [3:57:50<13:49:34,  3.67it/s] 51%|█████     | 188816/371472 [3:57:50<14:02:35,  3.61it/s] 51%|█████     | 188817/371472 [3:57:50<14:20:31,  3.54it/s] 51%|█████     | 188818/371472 [3:57:51<13:52:12,  3.66it/s] 51%|█████     | 188819/371472 [3:57:51<13:59:34,  3.63it/s] 51%|█████     | 188820/371472 [3:57:51<13:48:24,  3.67it/s]                                                            {'loss': 3.044, 'learning_rate': 5.42766489258549e-07, 'epoch': 8.13}
 51%|█████     | 188820/371472 [3:57:51<13:48:24,  3.67it/s] 51%|█████     | 188821/371472 [3:57:52<13:23:34,  3.79it/s] 51%|█████     | 188822/371472 [3:57:52<12:57:25,  3.92it/s] 51%|█████     | 188823/371472 [3:57:52<14:23:55,  3.52it/s] 51%|█████     | 188824/371472 [3:57:52<13:51:14,  3.66it/s] 51%|█████     | 188825/371472 [3:57:53<14:49:52,  3.42it/s] 51%|█████     | 188826/371472 [3:57:53<14:25:39,  3.52it/s] 51%|█████     | 188827/371472 [3:57:53<14:37:24,  3.47it/s] 51%|█████     | 188828/371472 [3:57:54<14:27:34,  3.51it/s] 51%|█████     | 188829/371472 [3:57:54<14:02:38,  3.61it/s] 51%|█████     | 188830/371472 [3:57:54<14:28:34,  3.50it/s] 51%|█████     | 188831/371472 [3:57:54<15:08:44,  3.35it/s] 51%|█████     | 188832/371472 [3:57:55<15:10:57,  3.34it/s] 51%|█████     | 188833/371472 [3:57:55<15:14:13,  3.33it/s] 51%|█████     | 188834/371472 [3:57:55<14:44:23,  3.44it/s] 51%|█████     | 188835/371472 [3:57:56<14:09:57,  3.58it/s] 51%|█████     | 188836/371472 [3:57:56<15:02:51,  3.37it/s] 51%|█████     | 188837/371472 [3:57:56<14:39:13,  3.46it/s] 51%|█████     | 188838/371472 [3:57:56<14:19:49,  3.54it/s] 51%|█████     | 188839/371472 [3:57:57<14:54:35,  3.40it/s] 51%|█████     | 188840/371472 [3:57:57<15:45:47,  3.22it/s]                                                            {'loss': 2.9093, 'learning_rate': 5.4271800728307e-07, 'epoch': 8.13}
 51%|█████     | 188840/371472 [3:57:57<15:45:47,  3.22it/s] 51%|█████     | 188841/371472 [3:57:57<16:14:07,  3.12it/s] 51%|█████     | 188842/371472 [3:57:58<15:33:25,  3.26it/s] 51%|█████     | 188843/371472 [3:57:58<14:53:47,  3.41it/s] 51%|█████     | 188844/371472 [3:57:58<14:45:43,  3.44it/s] 51%|█████     | 188845/371472 [3:57:59<15:48:05,  3.21it/s] 51%|█████     | 188846/371472 [3:57:59<15:28:32,  3.28it/s] 51%|█████     | 188847/371472 [3:57:59<15:03:59,  3.37it/s] 51%|█████     | 188848/371472 [3:58:00<16:33:51,  3.06it/s] 51%|█████     | 188849/371472 [3:58:00<16:48:16,  3.02it/s] 51%|█████     | 188850/371472 [3:58:00<16:20:48,  3.10it/s] 51%|█████     | 188851/371472 [3:58:00<15:36:04,  3.25it/s] 51%|█████     | 188852/371472 [3:58:01<15:17:08,  3.32it/s] 51%|█████     | 188853/371472 [3:58:01<15:21:52,  3.30it/s] 51%|█████     | 188854/371472 [3:58:01<15:10:23,  3.34it/s] 51%|█████     | 188855/371472 [3:58:02<14:29:51,  3.50it/s] 51%|█████     | 188856/371472 [3:58:02<14:34:23,  3.48it/s] 51%|█████     | 188857/371472 [3:58:02<14:50:30,  3.42it/s] 51%|█████     | 188858/371472 [3:58:03<14:50:18,  3.42it/s] 51%|█████     | 188859/371472 [3:58:03<14:42:17,  3.45it/s] 51%|█████     | 188860/371472 [3:58:03<14:30:51,  3.49it/s]                                                            {'loss': 3.0679, 'learning_rate': 5.426695253075911e-07, 'epoch': 8.13}
 51%|█████     | 188860/371472 [3:58:03<14:30:51,  3.49it/s] 51%|█████     | 188861/371472 [3:58:03<15:25:08,  3.29it/s] 51%|█████     | 188862/371472 [3:58:04<15:15:03,  3.33it/s] 51%|█████     | 188863/371472 [3:58:04<15:47:40,  3.21it/s] 51%|█████     | 188864/371472 [3:58:04<15:25:18,  3.29it/s] 51%|█████     | 188865/371472 [3:58:05<15:11:49,  3.34it/s] 51%|█████     | 188866/371472 [3:58:05<15:08:08,  3.35it/s] 51%|█████     | 188867/371472 [3:58:05<14:46:28,  3.43it/s] 51%|█████     | 188868/371472 [3:58:06<15:51:59,  3.20it/s] 51%|█████     | 188869/371472 [3:58:06<15:08:30,  3.35it/s] 51%|█████     | 188870/371472 [3:58:06<14:37:39,  3.47it/s] 51%|█████     | 188871/371472 [3:58:06<14:25:09,  3.52it/s] 51%|█████     | 188872/371472 [3:58:07<15:04:33,  3.36it/s] 51%|█████     | 188873/371472 [3:58:07<15:17:29,  3.32it/s] 51%|█████     | 188874/371472 [3:58:07<16:22:09,  3.10it/s] 51%|█████     | 188875/371472 [3:58:08<15:41:45,  3.23it/s] 51%|█████     | 188876/371472 [3:58:08<16:05:34,  3.15it/s] 51%|█████     | 188877/371472 [3:58:08<16:22:04,  3.10it/s] 51%|█████     | 188878/371472 [3:58:09<15:15:35,  3.32it/s] 51%|█████     | 188879/371472 [3:58:09<15:00:40,  3.38it/s] 51%|█████     | 188880/371472 [3:58:09<15:32:58,  3.26it/s]                                                            {'loss': 2.8244, 'learning_rate': 5.426210433321123e-07, 'epoch': 8.14}
 51%|█████     | 188880/371472 [3:58:09<15:32:58,  3.26it/s] 51%|█████     | 188881/371472 [3:58:10<16:06:08,  3.15it/s] 51%|█████     | 188882/371472 [3:58:10<15:21:02,  3.30it/s] 51%|█████     | 188883/371472 [3:58:10<15:50:09,  3.20it/s] 51%|█████     | 188884/371472 [3:58:10<16:03:45,  3.16it/s] 51%|█████     | 188885/371472 [3:58:11<15:34:17,  3.26it/s] 51%|█████     | 188886/371472 [3:58:11<15:40:52,  3.23it/s] 51%|█████     | 188887/371472 [3:58:11<17:00:42,  2.98it/s] 51%|█████     | 188888/371472 [3:58:12<16:29:03,  3.08it/s] 51%|█████     | 188889/371472 [3:58:12<15:26:30,  3.28it/s] 51%|█████     | 188890/371472 [3:58:12<14:32:47,  3.49it/s] 51%|█████     | 188891/371472 [3:58:13<14:35:12,  3.48it/s] 51%|█████     | 188892/371472 [3:58:13<14:39:12,  3.46it/s] 51%|█████     | 188893/371472 [3:58:13<14:20:34,  3.54it/s] 51%|█████     | 188894/371472 [3:58:13<14:01:07,  3.62it/s] 51%|█████     | 188895/371472 [3:58:14<14:13:19,  3.57it/s] 51%|█████     | 188896/371472 [3:58:14<14:30:20,  3.50it/s] 51%|█████     | 188897/371472 [3:58:14<14:03:13,  3.61it/s] 51%|█████     | 188898/371472 [3:58:14<14:11:54,  3.57it/s] 51%|█████     | 188899/371472 [3:58:15<15:28:04,  3.28it/s] 51%|█████     | 188900/371472 [3:58:15<15:34:31,  3.26it/s]                                                            {'loss': 2.9378, 'learning_rate': 5.425725613566334e-07, 'epoch': 8.14}
 51%|█████     | 188900/371472 [3:58:15<15:34:31,  3.26it/s] 51%|█████     | 188901/371472 [3:58:15<15:27:48,  3.28it/s] 51%|█████     | 188902/371472 [3:58:16<14:54:48,  3.40it/s] 51%|█████     | 188903/371472 [3:58:16<15:20:38,  3.31it/s] 51%|█████     | 188904/371472 [3:58:16<15:03:51,  3.37it/s] 51%|█████     | 188905/371472 [3:58:17<14:43:33,  3.44it/s] 51%|█████     | 188906/371472 [3:58:17<14:42:54,  3.45it/s] 51%|█████     | 188907/371472 [3:58:17<14:31:33,  3.49it/s] 51%|█████     | 188908/371472 [3:58:17<14:01:51,  3.61it/s] 51%|█████     | 188909/371472 [3:58:18<14:04:08,  3.60it/s] 51%|█████     | 188910/371472 [3:58:18<13:53:10,  3.65it/s] 51%|█████     | 188911/371472 [3:58:18<13:41:27,  3.70it/s] 51%|█████     | 188912/371472 [3:58:19<13:32:19,  3.75it/s] 51%|█████     | 188913/371472 [3:58:19<13:24:30,  3.78it/s] 51%|█████     | 188914/371472 [3:58:19<13:26:29,  3.77it/s] 51%|█████     | 188915/371472 [3:58:19<13:49:44,  3.67it/s] 51%|█████     | 188916/371472 [3:58:20<14:11:01,  3.58it/s] 51%|█████     | 188917/371472 [3:58:20<14:44:29,  3.44it/s] 51%|█████     | 188918/371472 [3:58:20<14:32:37,  3.49it/s] 51%|█████     | 188919/371472 [3:58:21<14:35:00,  3.48it/s] 51%|█████     | 188920/371472 [3:58:21<14:31:45,  3.49it/s]                                                            {'loss': 3.089, 'learning_rate': 5.425240793811545e-07, 'epoch': 8.14}
 51%|█████     | 188920/371472 [3:58:21<14:31:45,  3.49it/s] 51%|█████     | 188921/371472 [3:58:21<14:09:42,  3.58it/s] 51%|█████     | 188922/371472 [3:58:21<14:03:16,  3.61it/s] 51%|█████     | 188923/371472 [3:58:22<14:18:22,  3.54it/s] 51%|█████     | 188924/371472 [3:58:22<13:38:48,  3.72it/s] 51%|█████     | 188925/371472 [3:58:22<13:27:00,  3.77it/s] 51%|█████     | 188926/371472 [3:58:22<13:17:37,  3.81it/s] 51%|█████     | 188927/371472 [3:58:23<13:18:22,  3.81it/s] 51%|█████     | 188928/371472 [3:58:23<12:59:39,  3.90it/s] 51%|█████     | 188929/371472 [3:58:23<13:04:14,  3.88it/s] 51%|█████     | 188930/371472 [3:58:23<13:11:42,  3.84it/s] 51%|█████     | 188931/371472 [3:58:24<13:19:36,  3.80it/s] 51%|█████     | 188932/371472 [3:58:24<14:04:29,  3.60it/s] 51%|█████     | 188933/371472 [3:58:24<13:51:45,  3.66it/s] 51%|█████     | 188934/371472 [3:58:25<14:06:11,  3.60it/s] 51%|█████     | 188935/371472 [3:58:25<14:34:37,  3.48it/s] 51%|█████     | 188936/371472 [3:58:25<14:37:31,  3.47it/s] 51%|█████     | 188937/371472 [3:58:25<14:13:15,  3.57it/s] 51%|█████     | 188938/371472 [3:58:26<14:12:03,  3.57it/s] 51%|█████     | 188939/371472 [3:58:26<15:32:24,  3.26it/s] 51%|█████     | 188940/371472 [3:58:26<15:17:49,  3.31it/s]                                                            {'loss': 2.8751, 'learning_rate': 5.424755974056756e-07, 'epoch': 8.14}
 51%|█████     | 188940/371472 [3:58:26<15:17:49,  3.31it/s] 51%|█████     | 188941/371472 [3:58:27<14:47:26,  3.43it/s] 51%|█████     | 188942/371472 [3:58:27<15:10:15,  3.34it/s] 51%|█████     | 188943/371472 [3:58:27<14:41:08,  3.45it/s] 51%|█████     | 188944/371472 [3:58:27<14:40:51,  3.45it/s] 51%|█████     | 188945/371472 [3:58:28<14:12:15,  3.57it/s] 51%|█████     | 188946/371472 [3:58:28<15:21:10,  3.30it/s] 51%|█████     | 188947/371472 [3:58:28<14:37:41,  3.47it/s] 51%|█████     | 188948/371472 [3:58:29<14:29:27,  3.50it/s] 51%|█████     | 188949/371472 [3:58:29<14:26:17,  3.51it/s] 51%|█████     | 188950/371472 [3:58:29<15:55:14,  3.18it/s] 51%|█████     | 188951/371472 [3:58:30<15:34:38,  3.25it/s] 51%|█████     | 188952/371472 [3:58:30<14:45:05,  3.44it/s] 51%|█████     | 188953/371472 [3:58:30<14:10:16,  3.58it/s] 51%|█████     | 188954/371472 [3:58:30<14:00:11,  3.62it/s] 51%|█████     | 188955/371472 [3:58:31<14:22:30,  3.53it/s] 51%|█████     | 188956/371472 [3:58:31<14:25:45,  3.51it/s] 51%|█████     | 188957/371472 [3:58:31<14:22:54,  3.53it/s] 51%|█████     | 188958/371472 [3:58:32<14:25:34,  3.51it/s] 51%|█████     | 188959/371472 [3:58:32<14:07:36,  3.59it/s] 51%|█████     | 188960/371472 [3:58:32<14:26:09,  3.51it/s]                                                            {'loss': 3.0949, 'learning_rate': 5.424271154301967e-07, 'epoch': 8.14}
 51%|█████     | 188960/371472 [3:58:32<14:26:09,  3.51it/s] 51%|█████     | 188961/371472 [3:58:32<14:17:56,  3.55it/s] 51%|█████     | 188962/371472 [3:58:33<15:42:38,  3.23it/s] 51%|█████     | 188963/371472 [3:58:33<14:58:05,  3.39it/s] 51%|█████     | 188964/371472 [3:58:33<14:40:30,  3.45it/s] 51%|█████     | 188965/371472 [3:58:34<14:16:42,  3.55it/s] 51%|█████     | 188966/371472 [3:58:34<13:54:29,  3.65it/s] 51%|█████     | 188967/371472 [3:58:34<13:45:20,  3.69it/s] 51%|█████     | 188968/371472 [3:58:34<13:37:42,  3.72it/s] 51%|█████     | 188969/371472 [3:58:35<13:33:53,  3.74it/s] 51%|█████     | 188970/371472 [3:58:35<14:36:15,  3.47it/s] 51%|█████     | 188971/371472 [3:58:35<14:28:05,  3.50it/s] 51%|█████     | 188972/371472 [3:58:35<14:22:59,  3.52it/s] 51%|█████     | 188973/371472 [3:58:36<14:31:31,  3.49it/s] 51%|█████     | 188974/371472 [3:58:36<14:14:05,  3.56it/s] 51%|█████     | 188975/371472 [3:58:36<13:59:40,  3.62it/s] 51%|█████     | 188976/371472 [3:58:37<13:31:26,  3.75it/s] 51%|█████     | 188977/371472 [3:58:37<13:54:33,  3.64it/s] 51%|█████     | 188978/371472 [3:58:37<13:36:33,  3.72it/s] 51%|█████     | 188979/371472 [3:58:37<14:34:55,  3.48it/s] 51%|█████     | 188980/371472 [3:58:38<13:55:16,  3.64it/s]                                                            {'loss': 2.8177, 'learning_rate': 5.423786334547178e-07, 'epoch': 8.14}
 51%|█████     | 188980/371472 [3:58:38<13:55:16,  3.64it/s] 51%|█████     | 188981/371472 [3:58:38<13:48:28,  3.67it/s] 51%|█████     | 188982/371472 [3:58:38<13:41:31,  3.70it/s] 51%|█████     | 188983/371472 [3:58:39<14:41:16,  3.45it/s] 51%|█████     | 188984/371472 [3:58:39<15:37:58,  3.24it/s] 51%|█████     | 188985/371472 [3:58:39<15:27:11,  3.28it/s] 51%|█████     | 188986/371472 [3:58:39<14:53:44,  3.40it/s] 51%|█████     | 188987/371472 [3:58:40<15:27:04,  3.28it/s] 51%|█████     | 188988/371472 [3:58:40<16:08:48,  3.14it/s] 51%|█████     | 188989/371472 [3:58:40<15:58:18,  3.17it/s] 51%|█████     | 188990/371472 [3:58:41<15:19:51,  3.31it/s] 51%|█████     | 188991/371472 [3:58:41<14:37:44,  3.46it/s] 51%|█████     | 188992/371472 [3:58:41<14:06:19,  3.59it/s] 51%|█████     | 188993/371472 [3:58:42<14:27:05,  3.51it/s] 51%|█████     | 188994/371472 [3:58:42<14:09:54,  3.58it/s] 51%|█████     | 188995/371472 [3:58:42<14:24:54,  3.52it/s] 51%|█████     | 188996/371472 [3:58:42<14:18:52,  3.54it/s] 51%|█████     | 188997/371472 [3:58:43<15:45:29,  3.22it/s] 51%|█████     | 188998/371472 [3:58:43<15:12:23,  3.33it/s] 51%|█████     | 188999/371472 [3:58:43<14:31:42,  3.49it/s] 51%|█████     | 189000/371472 [3:58:44<14:30:21,  3.49it/s]                                                            {'loss': 2.7026, 'learning_rate': 5.423301514792388e-07, 'epoch': 8.14}
 51%|█████     | 189000/371472 [3:58:44<14:30:21,  3.49it/s] 51%|█████     | 189001/371472 [3:58:44<15:40:04,  3.24it/s] 51%|█████     | 189002/371472 [3:58:44<16:39:48,  3.04it/s] 51%|█████     | 189003/371472 [3:58:45<15:19:00,  3.31it/s] 51%|█████     | 189004/371472 [3:58:45<14:51:50,  3.41it/s] 51%|█████     | 189005/371472 [3:58:45<14:18:10,  3.54it/s] 51%|█████     | 189006/371472 [3:58:45<14:11:00,  3.57it/s] 51%|█████     | 189007/371472 [3:58:46<13:50:30,  3.66it/s] 51%|█████     | 189008/371472 [3:58:46<14:17:52,  3.54it/s] 51%|█████     | 189009/371472 [3:58:46<14:24:33,  3.52it/s] 51%|█████     | 189010/371472 [3:58:46<14:17:39,  3.55it/s] 51%|█████     | 189011/371472 [3:58:47<14:54:01,  3.40it/s] 51%|█████     | 189012/371472 [3:58:47<15:15:55,  3.32it/s] 51%|█████     | 189013/371472 [3:58:47<14:43:41,  3.44it/s] 51%|█████     | 189014/371472 [3:58:48<14:45:12,  3.44it/s] 51%|█████     | 189015/371472 [3:58:48<14:11:33,  3.57it/s] 51%|█████     | 189016/371472 [3:58:48<14:14:56,  3.56it/s] 51%|█████     | 189017/371472 [3:58:48<14:28:11,  3.50it/s] 51%|█████     | 189018/371472 [3:58:49<14:09:55,  3.58it/s] 51%|█████     | 189019/371472 [3:58:49<15:08:53,  3.35it/s] 51%|█████     | 189020/371472 [3:58:49<14:31:01,  3.49it/s]                                                            {'loss': 2.8686, 'learning_rate': 5.4228166950376e-07, 'epoch': 8.14}
 51%|█████     | 189020/371472 [3:58:49<14:31:01,  3.49it/s] 51%|█████     | 189021/371472 [3:58:50<14:46:27,  3.43it/s] 51%|█████     | 189022/371472 [3:58:50<18:00:17,  2.81it/s] 51%|█████     | 189023/371472 [3:58:50<16:40:08,  3.04it/s] 51%|█████     | 189024/371472 [3:58:51<16:00:59,  3.16it/s] 51%|█████     | 189025/371472 [3:58:51<16:33:11,  3.06it/s] 51%|█████     | 189026/371472 [3:58:51<15:50:26,  3.20it/s] 51%|█████     | 189027/371472 [3:58:52<16:05:43,  3.15it/s] 51%|█████     | 189028/371472 [3:58:52<15:13:57,  3.33it/s] 51%|█████     | 189029/371472 [3:58:52<15:06:28,  3.35it/s] 51%|█████     | 189030/371472 [3:58:53<15:01:12,  3.37it/s] 51%|█████     | 189031/371472 [3:58:53<15:51:59,  3.19it/s] 51%|█████     | 189032/371472 [3:58:53<15:30:55,  3.27it/s] 51%|█████     | 189033/371472 [3:58:53<14:42:14,  3.45it/s] 51%|█████     | 189034/371472 [3:58:54<14:05:07,  3.60it/s] 51%|█████     | 189035/371472 [3:58:54<14:22:22,  3.53it/s] 51%|█████     | 189036/371472 [3:58:54<13:57:53,  3.63it/s] 51%|█████     | 189037/371472 [3:58:54<13:57:26,  3.63it/s] 51%|█████     | 189038/371472 [3:58:55<14:40:51,  3.45it/s] 51%|█████     | 189039/371472 [3:58:55<14:14:04,  3.56it/s] 51%|█████     | 189040/371472 [3:58:55<14:22:05,  3.53it/s]                                                            {'loss': 2.9511, 'learning_rate': 5.422331875282812e-07, 'epoch': 8.14}
 51%|█████     | 189040/371472 [3:58:55<14:22:05,  3.53it/s] 51%|█████     | 189041/371472 [3:58:56<13:58:41,  3.63it/s] 51%|█████     | 189042/371472 [3:58:56<13:45:36,  3.68it/s] 51%|█████     | 189043/371472 [3:58:56<14:21:36,  3.53it/s] 51%|█████     | 189044/371472 [3:58:56<14:05:41,  3.60it/s] 51%|█████     | 189045/371472 [3:58:57<13:49:29,  3.67it/s] 51%|█████     | 189046/371472 [3:58:57<13:35:10,  3.73it/s] 51%|█████     | 189047/371472 [3:58:57<13:25:48,  3.77it/s] 51%|█████     | 189048/371472 [3:58:58<14:19:38,  3.54it/s] 51%|█████     | 189049/371472 [3:58:58<13:55:05,  3.64it/s] 51%|█████     | 189050/371472 [3:58:58<13:45:03,  3.69it/s] 51%|█████     | 189051/371472 [3:58:58<13:19:30,  3.80it/s] 51%|█████     | 189052/371472 [3:58:59<13:30:02,  3.75it/s] 51%|█████     | 189053/371472 [3:58:59<13:21:46,  3.79it/s] 51%|█████     | 189054/371472 [3:58:59<13:09:08,  3.85it/s] 51%|█████     | 189055/371472 [3:58:59<13:48:56,  3.67it/s] 51%|█████     | 189056/371472 [3:59:00<14:18:15,  3.54it/s] 51%|█████     | 189057/371472 [3:59:00<13:46:16,  3.68it/s] 51%|█████     | 189058/371472 [3:59:00<14:53:09,  3.40it/s] 51%|█████     | 189059/371472 [3:59:01<14:34:10,  3.48it/s] 51%|█████     | 189060/371472 [3:59:01<14:29:42,  3.50it/s]                                                            {'loss': 3.0259, 'learning_rate': 5.421847055528023e-07, 'epoch': 8.14}
 51%|█████     | 189060/371472 [3:59:01<14:29:42,  3.50it/s] 51%|█████     | 189061/371472 [3:59:01<14:07:16,  3.59it/s] 51%|█████     | 189062/371472 [3:59:01<14:20:15,  3.53it/s] 51%|█████     | 189063/371472 [3:59:02<14:20:38,  3.53it/s] 51%|█████     | 189064/371472 [3:59:02<14:04:19,  3.60it/s] 51%|█████     | 189065/371472 [3:59:02<14:25:04,  3.51it/s] 51%|█████     | 189066/371472 [3:59:03<14:15:54,  3.55it/s] 51%|█████     | 189067/371472 [3:59:03<14:41:49,  3.45it/s] 51%|█████     | 189068/371472 [3:59:03<14:43:16,  3.44it/s] 51%|█████     | 189069/371472 [3:59:03<14:35:02,  3.47it/s] 51%|█████     | 189070/371472 [3:59:04<14:12:51,  3.56it/s] 51%|█████     | 189071/371472 [3:59:04<14:28:01,  3.50it/s] 51%|█████     | 189072/371472 [3:59:04<15:29:22,  3.27it/s] 51%|█████     | 189073/371472 [3:59:05<15:11:13,  3.34it/s] 51%|█████     | 189074/371472 [3:59:05<15:28:41,  3.27it/s] 51%|█████     | 189075/371472 [3:59:05<16:04:39,  3.15it/s] 51%|█████     | 189076/371472 [3:59:06<15:33:25,  3.26it/s] 51%|█████     | 189077/371472 [3:59:06<16:36:17,  3.05it/s] 51%|█████     | 189078/371472 [3:59:06<15:40:59,  3.23it/s] 51%|█████     | 189079/371472 [3:59:06<14:50:47,  3.41it/s] 51%|█████     | 189080/371472 [3:59:07<15:09:30,  3.34it/s]                                                            {'loss': 2.8525, 'learning_rate': 5.421362235773233e-07, 'epoch': 8.14}
 51%|█████     | 189080/371472 [3:59:07<15:09:30,  3.34it/s] 51%|█████     | 189081/371472 [3:59:07<15:30:27,  3.27it/s] 51%|█████     | 189082/371472 [3:59:07<16:28:17,  3.08it/s] 51%|█████     | 189083/371472 [3:59:08<15:34:09,  3.25it/s] 51%|█████     | 189084/371472 [3:59:08<15:15:55,  3.32it/s] 51%|█████     | 189085/371472 [3:59:08<14:54:18,  3.40it/s] 51%|█████     | 189086/371472 [3:59:09<14:37:01,  3.47it/s] 51%|█████     | 189087/371472 [3:59:09<14:56:01,  3.39it/s] 51%|█████     | 189088/371472 [3:59:09<15:31:38,  3.26it/s] 51%|█████     | 189089/371472 [3:59:10<15:28:24,  3.27it/s] 51%|█████     | 189090/371472 [3:59:10<15:08:34,  3.35it/s] 51%|█████     | 189091/371472 [3:59:10<15:12:32,  3.33it/s] 51%|█████     | 189092/371472 [3:59:10<14:54:24,  3.40it/s] 51%|█████     | 189093/371472 [3:59:11<14:17:28,  3.54it/s] 51%|█████     | 189094/371472 [3:59:11<14:12:08,  3.57it/s] 51%|█████     | 189095/371472 [3:59:11<14:14:16,  3.56it/s] 51%|█████     | 189096/371472 [3:59:11<13:52:31,  3.65it/s] 51%|█████     | 189097/371472 [3:59:12<14:17:14,  3.55it/s] 51%|█████     | 189098/371472 [3:59:12<15:35:51,  3.25it/s] 51%|█████     | 189099/371472 [3:59:12<15:18:18,  3.31it/s] 51%|█████     | 189100/371472 [3:59:13<15:02:22,  3.37it/s]                                                            {'loss': 3.0765, 'learning_rate': 5.420877416018444e-07, 'epoch': 8.14}
 51%|█████     | 189100/371472 [3:59:13<15:02:22,  3.37it/s] 51%|█████     | 189101/371472 [3:59:13<15:14:21,  3.32it/s] 51%|█████     | 189102/371472 [3:59:13<16:24:19,  3.09it/s] 51%|█████     | 189103/371472 [3:59:14<16:40:07,  3.04it/s] 51%|█████     | 189104/371472 [3:59:14<16:14:01,  3.12it/s] 51%|█████     | 189105/371472 [3:59:14<15:56:10,  3.18it/s] 51%|█████     | 189106/371472 [3:59:15<15:42:23,  3.23it/s] 51%|█████     | 189107/371472 [3:59:15<15:15:35,  3.32it/s] 51%|█████     | 189108/371472 [3:59:15<15:24:44,  3.29it/s] 51%|█████     | 189109/371472 [3:59:15<14:47:30,  3.42it/s] 51%|█████     | 189110/371472 [3:59:16<14:40:32,  3.45it/s] 51%|█████     | 189111/371472 [3:59:16<14:09:52,  3.58it/s] 51%|█████     | 189112/371472 [3:59:16<13:52:50,  3.65it/s] 51%|█████     | 189113/371472 [3:59:17<14:11:16,  3.57it/s] 51%|█████     | 189114/371472 [3:59:17<14:13:09,  3.56it/s] 51%|█████     | 189115/371472 [3:59:17<14:19:43,  3.54it/s] 51%|█████     | 189116/371472 [3:59:17<14:31:48,  3.49it/s] 51%|█████     | 189117/371472 [3:59:18<14:30:18,  3.49it/s] 51%|█████     | 189118/371472 [3:59:18<14:53:00,  3.40it/s] 51%|█████     | 189119/371472 [3:59:18<14:20:55,  3.53it/s] 51%|█████     | 189120/371472 [3:59:19<15:04:29,  3.36it/s]                                                            {'loss': 2.8253, 'learning_rate': 5.420392596263656e-07, 'epoch': 8.15}
 51%|█████     | 189120/371472 [3:59:19<15:04:29,  3.36it/s] 51%|█████     | 189121/371472 [3:59:19<15:15:48,  3.32it/s] 51%|█████     | 189122/371472 [3:59:19<15:37:21,  3.24it/s] 51%|█████     | 189123/371472 [3:59:20<14:58:03,  3.38it/s] 51%|█████     | 189124/371472 [3:59:20<14:28:32,  3.50it/s] 51%|█████     | 189125/371472 [3:59:20<14:00:18,  3.62it/s] 51%|█████     | 189126/371472 [3:59:20<13:56:11,  3.63it/s] 51%|█████     | 189127/371472 [3:59:21<13:29:08,  3.76it/s] 51%|█████     | 189128/371472 [3:59:21<14:48:40,  3.42it/s] 51%|█████     | 189129/371472 [3:59:21<14:20:54,  3.53it/s] 51%|█████     | 189130/371472 [3:59:22<14:48:18,  3.42it/s] 51%|█████     | 189131/371472 [3:59:22<14:34:20,  3.48it/s] 51%|█████     | 189132/371472 [3:59:22<14:26:07,  3.51it/s] 51%|█████     | 189133/371472 [3:59:22<14:57:00,  3.39it/s] 51%|█████     | 189134/371472 [3:59:23<15:27:04,  3.28it/s] 51%|█████     | 189135/371472 [3:59:23<14:39:43,  3.45it/s] 51%|█████     | 189136/371472 [3:59:23<14:36:54,  3.47it/s] 51%|█████     | 189137/371472 [3:59:24<14:14:36,  3.56it/s] 51%|█████     | 189138/371472 [3:59:24<14:25:03,  3.51it/s] 51%|█████     | 189139/371472 [3:59:24<14:22:33,  3.52it/s] 51%|█████     | 189140/371472 [3:59:24<15:05:15,  3.36it/s]                                                            {'loss': 2.8713, 'learning_rate': 5.419907776508867e-07, 'epoch': 8.15}
 51%|█████     | 189140/371472 [3:59:24<15:05:15,  3.36it/s] 51%|█████     | 189141/371472 [3:59:25<16:12:03,  3.13it/s] 51%|█████     | 189142/371472 [3:59:25<15:54:58,  3.18it/s] 51%|█████     | 189143/371472 [3:59:25<15:42:08,  3.23it/s] 51%|█████     | 189144/371472 [3:59:26<16:13:22,  3.12it/s] 51%|█████     | 189145/371472 [3:59:26<15:53:58,  3.19it/s] 51%|█████     | 189146/371472 [3:59:26<15:24:13,  3.29it/s] 51%|█████     | 189147/371472 [3:59:27<14:53:59,  3.40it/s] 51%|█████     | 189148/371472 [3:59:27<14:41:14,  3.45it/s] 51%|█████     | 189149/371472 [3:59:27<15:02:40,  3.37it/s] 51%|█████     | 189150/371472 [3:59:27<14:24:58,  3.51it/s] 51%|█████     | 189151/371472 [3:59:28<14:17:59,  3.54it/s] 51%|█████     | 189152/371472 [3:59:28<14:26:29,  3.51it/s] 51%|█████     | 189153/371472 [3:59:28<13:59:07,  3.62it/s] 51%|█████     | 189154/371472 [3:59:29<13:48:18,  3.67it/s] 51%|█████     | 189155/371472 [3:59:29<13:24:01,  3.78it/s] 51%|█████     | 189156/371472 [3:59:29<13:13:10,  3.83it/s] 51%|█████     | 189157/371472 [3:59:29<13:38:40,  3.71it/s] 51%|█████     | 189158/371472 [3:59:30<14:24:57,  3.51it/s] 51%|█████     | 189159/371472 [3:59:30<14:38:23,  3.46it/s] 51%|█████     | 189160/371472 [3:59:30<14:31:00,  3.49it/s]                                                            {'loss': 2.8868, 'learning_rate': 5.419422956754078e-07, 'epoch': 8.15}
 51%|█████     | 189160/371472 [3:59:30<14:31:00,  3.49it/s] 51%|█████     | 189161/371472 [3:59:30<14:14:05,  3.56it/s] 51%|█████     | 189162/371472 [3:59:31<14:25:13,  3.51it/s] 51%|█████     | 189163/371472 [3:59:31<14:18:17,  3.54it/s] 51%|█████     | 189164/371472 [3:59:31<14:08:23,  3.58it/s] 51%|█████     | 189165/371472 [3:59:32<13:56:24,  3.63it/s] 51%|█████     | 189166/371472 [3:59:32<13:40:51,  3.70it/s] 51%|█████     | 189167/371472 [3:59:32<14:33:40,  3.48it/s] 51%|█████     | 189168/371472 [3:59:32<14:38:53,  3.46it/s] 51%|█████     | 189169/371472 [3:59:33<14:39:00,  3.46it/s] 51%|█████     | 189170/371472 [3:59:33<14:19:45,  3.53it/s] 51%|█████     | 189171/371472 [3:59:33<15:10:38,  3.34it/s] 51%|█████     | 189172/371472 [3:59:34<14:44:14,  3.44it/s] 51%|█████     | 189173/371472 [3:59:34<15:04:39,  3.36it/s] 51%|█████     | 189174/371472 [3:59:34<14:08:17,  3.58it/s] 51%|█████     | 189175/371472 [3:59:34<13:45:38,  3.68it/s] 51%|█████     | 189176/371472 [3:59:35<14:04:29,  3.60it/s] 51%|█████     | 189177/371472 [3:59:35<14:31:49,  3.48it/s] 51%|█████     | 189178/371472 [3:59:35<14:35:08,  3.47it/s] 51%|█████     | 189179/371472 [3:59:36<14:06:14,  3.59it/s] 51%|█████     | 189180/371472 [3:59:36<13:55:16,  3.64it/s]                                                            {'loss': 2.9212, 'learning_rate': 5.418938136999289e-07, 'epoch': 8.15}
 51%|█████     | 189180/371472 [3:59:36<13:55:16,  3.64it/s] 51%|█████     | 189181/371472 [3:59:36<13:31:08,  3.75it/s] 51%|█████     | 189182/371472 [3:59:36<14:34:03,  3.48it/s] 51%|█████     | 189183/371472 [3:59:37<14:47:37,  3.42it/s] 51%|█████     | 189184/371472 [3:59:37<14:46:05,  3.43it/s] 51%|█████     | 189185/371472 [3:59:37<14:33:44,  3.48it/s] 51%|█████     | 189186/371472 [3:59:38<14:57:15,  3.39it/s] 51%|█████     | 189187/371472 [3:59:38<14:12:14,  3.56it/s] 51%|█████     | 189188/371472 [3:59:38<13:54:57,  3.64it/s] 51%|█████     | 189189/371472 [3:59:38<13:36:25,  3.72it/s] 51%|█████     | 189190/371472 [3:59:39<13:53:57,  3.64it/s] 51%|█████     | 189191/371472 [3:59:39<13:42:45,  3.69it/s] 51%|█████     | 189192/371472 [3:59:39<13:29:29,  3.75it/s] 51%|█████     | 189193/371472 [3:59:39<13:35:35,  3.72it/s] 51%|█████     | 189194/371472 [3:59:40<13:44:07,  3.69it/s] 51%|█████     | 189195/371472 [3:59:40<13:23:17,  3.78it/s] 51%|█████     | 189196/371472 [3:59:40<13:28:03,  3.76it/s] 51%|█████     | 189197/371472 [3:59:41<14:21:41,  3.53it/s] 51%|█████     | 189198/371472 [3:59:41<15:09:54,  3.34it/s] 51%|█████     | 189199/371472 [3:59:41<14:41:06,  3.45it/s] 51%|█████     | 189200/371472 [3:59:41<14:10:50,  3.57it/s]                                                            {'loss': 2.9765, 'learning_rate': 5.4184533172445e-07, 'epoch': 8.15}
 51%|█████     | 189200/371472 [3:59:41<14:10:50,  3.57it/s] 51%|█████     | 189201/371472 [3:59:42<15:18:21,  3.31it/s] 51%|█████     | 189202/371472 [3:59:42<15:10:24,  3.34it/s] 51%|█████     | 189203/371472 [3:59:42<14:20:34,  3.53it/s] 51%|█████     | 189204/371472 [3:59:43<14:26:30,  3.51it/s] 51%|█████     | 189205/371472 [3:59:43<15:13:01,  3.33it/s] 51%|█████     | 189206/371472 [3:59:43<15:09:44,  3.34it/s] 51%|█████     | 189207/371472 [3:59:44<15:00:41,  3.37it/s] 51%|█████     | 189208/371472 [3:59:44<14:50:53,  3.41it/s] 51%|█████     | 189209/371472 [3:59:44<16:04:33,  3.15it/s] 51%|█████     | 189210/371472 [3:59:45<16:21:27,  3.10it/s] 51%|█████     | 189211/371472 [3:59:45<16:18:57,  3.10it/s] 51%|█████     | 189212/371472 [3:59:45<15:27:57,  3.27it/s] 51%|█████     | 189213/371472 [3:59:46<16:22:55,  3.09it/s] 51%|█████     | 189214/371472 [3:59:46<15:33:22,  3.25it/s] 51%|█████     | 189215/371472 [3:59:46<14:49:51,  3.41it/s] 51%|█████     | 189216/371472 [3:59:46<14:32:07,  3.48it/s] 51%|█████     | 189217/371472 [3:59:47<14:05:31,  3.59it/s] 51%|█████     | 189218/371472 [3:59:47<14:14:59,  3.55it/s] 51%|█████     | 189219/371472 [3:59:47<13:53:54,  3.64it/s] 51%|█████     | 189220/371472 [3:59:47<14:04:45,  3.60it/s]                                                            {'loss': 2.9552, 'learning_rate': 5.41796849748971e-07, 'epoch': 8.15}
 51%|█████     | 189220/371472 [3:59:47<14:04:45,  3.60it/s] 51%|█████     | 189221/371472 [3:59:48<14:34:21,  3.47it/s] 51%|█████     | 189222/371472 [3:59:48<14:13:56,  3.56it/s] 51%|█████     | 189223/371472 [3:59:48<13:56:34,  3.63it/s] 51%|█████     | 189224/371472 [3:59:48<13:45:33,  3.68it/s] 51%|█████     | 189225/371472 [3:59:49<13:37:13,  3.72it/s] 51%|█████     | 189226/371472 [3:59:49<13:33:15,  3.73it/s] 51%|█████     | 189227/371472 [3:59:49<14:05:47,  3.59it/s] 51%|█████     | 189228/371472 [3:59:50<13:31:11,  3.74it/s] 51%|█████     | 189229/371472 [3:59:50<13:22:54,  3.78it/s] 51%|█████     | 189230/371472 [3:59:50<13:13:09,  3.83it/s] 51%|█████     | 189231/371472 [3:59:50<13:26:10,  3.77it/s] 51%|█████     | 189232/371472 [3:59:51<13:45:54,  3.68it/s] 51%|█████     | 189233/371472 [3:59:51<13:31:46,  3.74it/s] 51%|█████     | 189234/371472 [3:59:51<14:05:10,  3.59it/s] 51%|█████     | 189235/371472 [3:59:52<14:44:09,  3.44it/s] 51%|█████     | 189236/371472 [3:59:52<15:19:06,  3.30it/s] 51%|█████     | 189237/371472 [3:59:52<14:29:23,  3.49it/s] 51%|█████     | 189238/371472 [3:59:52<13:55:27,  3.64it/s] 51%|█████     | 189239/371472 [3:59:53<14:00:18,  3.61it/s] 51%|█████     | 189240/371472 [3:59:53<14:10:20,  3.57it/s]                                                            {'loss': 2.9243, 'learning_rate': 5.417483677734922e-07, 'epoch': 8.15}
 51%|█████     | 189240/371472 [3:59:53<14:10:20,  3.57it/s] 51%|█████     | 189241/371472 [3:59:53<14:07:04,  3.59it/s] 51%|█████     | 189242/371472 [3:59:53<13:55:58,  3.63it/s] 51%|█████     | 189243/371472 [3:59:54<13:44:49,  3.68it/s] 51%|█████     | 189244/371472 [3:59:54<14:17:15,  3.54it/s] 51%|█████     | 189245/371472 [3:59:54<14:30:59,  3.49it/s] 51%|█████     | 189246/371472 [3:59:55<14:11:36,  3.57it/s] 51%|█████     | 189247/371472 [3:59:55<13:49:04,  3.66it/s] 51%|█████     | 189248/371472 [3:59:55<14:07:46,  3.58it/s] 51%|█████     | 189249/371472 [3:59:55<13:57:01,  3.63it/s] 51%|█████     | 189250/371472 [3:59:56<14:09:30,  3.58it/s] 51%|█████     | 189251/371472 [3:59:56<14:40:27,  3.45it/s] 51%|█████     | 189252/371472 [3:59:56<14:19:35,  3.53it/s] 51%|█████     | 189253/371472 [3:59:57<14:37:17,  3.46it/s] 51%|█████     | 189254/371472 [3:59:57<15:24:45,  3.28it/s] 51%|█████     | 189255/371472 [3:59:57<15:17:46,  3.31it/s] 51%|█████     | 189256/371472 [3:59:57<14:45:40,  3.43it/s] 51%|█████     | 189257/371472 [3:59:58<15:32:05,  3.26it/s] 51%|█████     | 189258/371472 [3:59:58<15:25:35,  3.28it/s] 51%|█████     | 189259/371472 [3:59:58<14:51:25,  3.41it/s] 51%|█████     | 189260/371472 [3:59:59<14:45:05,  3.43it/s]                                                            {'loss': 2.7929, 'learning_rate': 5.416998857980133e-07, 'epoch': 8.15}
 51%|█████     | 189260/371472 [3:59:59<14:45:05,  3.43it/s] 51%|█████     | 189261/371472 [3:59:59<14:47:55,  3.42it/s] 51%|█████     | 189262/371472 [3:59:59<15:00:31,  3.37it/s] 51%|█████     | 189263/371472 [4:00:00<14:42:03,  3.44it/s] 51%|█████     | 189264/371472 [4:00:00<14:26:30,  3.50it/s] 51%|█████     | 189265/371472 [4:00:00<14:57:18,  3.38it/s] 51%|█████     | 189266/371472 [4:00:00<14:40:28,  3.45it/s] 51%|█████     | 189267/371472 [4:00:01<13:56:12,  3.63it/s] 51%|█████     | 189268/371472 [4:00:01<15:16:07,  3.31it/s] 51%|█████     | 189269/371472 [4:00:01<14:52:03,  3.40it/s] 51%|█████     | 189270/371472 [4:00:02<14:15:31,  3.55it/s] 51%|█████     | 189271/371472 [4:00:02<14:42:51,  3.44it/s] 51%|█████     | 189272/371472 [4:00:02<16:29:08,  3.07it/s] 51%|█████     | 189273/371472 [4:00:03<15:21:10,  3.30it/s] 51%|█████     | 189274/371472 [4:00:03<15:18:59,  3.30it/s] 51%|█████     | 189275/371472 [4:00:03<14:46:18,  3.43it/s] 51%|█████     | 189276/371472 [4:00:03<14:15:07,  3.55it/s] 51%|█████     | 189277/371472 [4:00:04<14:29:07,  3.49it/s] 51%|█████     | 189278/371472 [4:00:04<14:17:24,  3.54it/s] 51%|█████     | 189279/371472 [4:00:04<13:46:21,  3.67it/s] 51%|█████     | 189280/371472 [4:00:04<13:31:55,  3.74it/s]                                                            {'loss': 3.0493, 'learning_rate': 5.416514038225345e-07, 'epoch': 8.15}
 51%|█████     | 189280/371472 [4:00:04<13:31:55,  3.74it/s] 51%|█████     | 189281/371472 [4:00:05<14:30:58,  3.49it/s] 51%|█████     | 189282/371472 [4:00:05<14:05:20,  3.59it/s] 51%|█████     | 189283/371472 [4:00:05<13:42:37,  3.69it/s] 51%|█████     | 189284/371472 [4:00:06<14:30:09,  3.49it/s] 51%|█████     | 189285/371472 [4:00:06<13:53:21,  3.64it/s] 51%|█████     | 189286/371472 [4:00:06<13:25:19,  3.77it/s] 51%|█████     | 189287/371472 [4:00:06<13:08:34,  3.85it/s] 51%|█████     | 189288/371472 [4:00:07<13:40:14,  3.70it/s] 51%|█████     | 189289/371472 [4:00:07<14:19:34,  3.53it/s] 51%|█████     | 189290/371472 [4:00:07<13:38:34,  3.71it/s] 51%|█████     | 189291/371472 [4:00:07<13:36:28,  3.72it/s] 51%|█████     | 189292/371472 [4:00:08<13:42:27,  3.69it/s] 51%|█████     | 189293/371472 [4:00:08<14:21:39,  3.52it/s] 51%|█████     | 189294/371472 [4:00:08<13:59:15,  3.62it/s] 51%|█████     | 189295/371472 [4:00:09<13:30:57,  3.74it/s] 51%|█████     | 189296/371472 [4:00:09<13:20:05,  3.79it/s] 51%|█████     | 189297/371472 [4:00:09<13:24:39,  3.77it/s] 51%|█████     | 189298/371472 [4:00:09<14:44:34,  3.43it/s] 51%|█████     | 189299/371472 [4:00:10<14:00:24,  3.61it/s] 51%|█████     | 189300/371472 [4:00:10<14:01:37,  3.61it/s]                                                            {'loss': 3.024, 'learning_rate': 5.416029218470555e-07, 'epoch': 8.15}
 51%|█████     | 189300/371472 [4:00:10<14:01:37,  3.61it/s] 51%|█████     | 189301/371472 [4:00:10<13:57:33,  3.63it/s] 51%|█████     | 189302/371472 [4:00:11<14:40:55,  3.45it/s] 51%|█████     | 189303/371472 [4:00:11<14:12:01,  3.56it/s] 51%|█████     | 189304/371472 [4:00:11<13:57:03,  3.63it/s] 51%|█████     | 189305/371472 [4:00:11<13:51:48,  3.65it/s] 51%|█████     | 189306/371472 [4:00:12<13:49:05,  3.66it/s] 51%|█████     | 189307/371472 [4:00:12<13:47:53,  3.67it/s] 51%|█████     | 189308/371472 [4:00:12<14:39:24,  3.45it/s] 51%|█████     | 189309/371472 [4:00:12<14:16:32,  3.54it/s] 51%|█████     | 189310/371472 [4:00:13<14:14:17,  3.55it/s] 51%|█████     | 189311/371472 [4:00:13<14:38:43,  3.46it/s] 51%|█████     | 189312/371472 [4:00:13<16:22:46,  3.09it/s] 51%|█████     | 189313/371472 [4:00:14<15:41:05,  3.23it/s] 51%|█████     | 189314/371472 [4:00:14<14:49:58,  3.41it/s] 51%|█████     | 189315/371472 [4:00:14<14:42:11,  3.44it/s] 51%|█████     | 189316/371472 [4:00:15<14:22:16,  3.52it/s] 51%|█████     | 189317/371472 [4:00:15<14:22:06,  3.52it/s] 51%|█████     | 189318/371472 [4:00:15<14:12:59,  3.56it/s] 51%|█████     | 189319/371472 [4:00:15<14:32:50,  3.48it/s] 51%|█████     | 189320/371472 [4:00:16<14:08:51,  3.58it/s]                                                            {'loss': 2.9679, 'learning_rate': 5.415544398715766e-07, 'epoch': 8.15}
 51%|█████     | 189320/371472 [4:00:16<14:08:51,  3.58it/s] 51%|█████     | 189321/371472 [4:00:16<14:31:19,  3.48it/s] 51%|█████     | 189322/371472 [4:00:16<14:46:53,  3.42it/s] 51%|█████     | 189323/371472 [4:00:17<14:28:34,  3.50it/s] 51%|█████     | 189324/371472 [4:00:17<14:39:47,  3.45it/s] 51%|█████     | 189325/371472 [4:00:17<14:37:03,  3.46it/s] 51%|█████     | 189326/371472 [4:00:17<14:17:48,  3.54it/s] 51%|█████     | 189327/371472 [4:00:18<14:24:30,  3.51it/s] 51%|█████     | 189328/371472 [4:00:18<14:18:30,  3.54it/s] 51%|█████     | 189329/371472 [4:00:18<13:47:49,  3.67it/s] 51%|█████     | 189330/371472 [4:00:19<14:52:25,  3.40it/s] 51%|█████     | 189331/371472 [4:00:19<14:33:12,  3.48it/s] 51%|█████     | 189332/371472 [4:00:19<14:19:32,  3.53it/s] 51%|█████     | 189333/371472 [4:00:19<13:58:08,  3.62it/s] 51%|█████     | 189334/371472 [4:00:20<14:13:15,  3.56it/s] 51%|█████     | 189335/371472 [4:00:20<14:08:03,  3.58it/s] 51%|█████     | 189336/371472 [4:00:20<14:05:09,  3.59it/s] 51%|█████     | 189337/371472 [4:00:20<13:52:00,  3.65it/s] 51%|█████     | 189338/371472 [4:00:21<14:10:15,  3.57it/s] 51%|█████     | 189339/371472 [4:00:21<13:44:19,  3.68it/s] 51%|█████     | 189340/371472 [4:00:21<13:36:53,  3.72it/s]                                                            {'loss': 3.0346, 'learning_rate': 5.415059578960977e-07, 'epoch': 8.16}
 51%|█████     | 189340/371472 [4:00:21<13:36:53,  3.72it/s] 51%|█████     | 189341/371472 [4:00:22<13:41:04,  3.70it/s] 51%|█████     | 189342/371472 [4:00:22<14:13:40,  3.56it/s] 51%|█████     | 189343/371472 [4:00:22<13:52:05,  3.65it/s] 51%|█████     | 189344/371472 [4:00:22<13:47:28,  3.67it/s] 51%|█████     | 189345/371472 [4:00:23<13:31:09,  3.74it/s] 51%|█████     | 189346/371472 [4:00:23<13:57:11,  3.63it/s] 51%|█████     | 189347/371472 [4:00:23<15:14:36,  3.32it/s] 51%|█████     | 189348/371472 [4:00:24<14:33:53,  3.47it/s] 51%|█████     | 189349/371472 [4:00:24<14:30:45,  3.49it/s] 51%|█████     | 189350/371472 [4:00:24<15:09:45,  3.34it/s] 51%|█████     | 189351/371472 [4:00:24<14:33:13,  3.48it/s] 51%|█████     | 189352/371472 [4:00:25<14:11:13,  3.57it/s] 51%|█████     | 189353/371472 [4:00:25<14:02:09,  3.60it/s] 51%|█████     | 189354/371472 [4:00:25<14:21:54,  3.52it/s] 51%|█████     | 189355/371472 [4:00:26<14:32:34,  3.48it/s] 51%|█████     | 189356/371472 [4:00:26<14:34:08,  3.47it/s] 51%|█████     | 189357/371472 [4:00:26<14:16:43,  3.54it/s] 51%|█████     | 189358/371472 [4:00:26<14:05:40,  3.59it/s] 51%|█████     | 189359/371472 [4:00:27<14:01:14,  3.61it/s] 51%|█████     | 189360/371472 [4:00:27<14:01:16,  3.61it/s]                                                            {'loss': 2.9887, 'learning_rate': 5.414574759206188e-07, 'epoch': 8.16}
 51%|█████     | 189360/371472 [4:00:27<14:01:16,  3.61it/s] 51%|█████     | 189361/371472 [4:00:27<13:47:46,  3.67it/s] 51%|█████     | 189362/371472 [4:00:27<14:05:07,  3.59it/s] 51%|█████     | 189363/371472 [4:00:28<14:40:58,  3.45it/s] 51%|█████     | 189364/371472 [4:00:28<14:10:45,  3.57it/s] 51%|█████     | 189365/371472 [4:00:28<13:57:58,  3.62it/s] 51%|█████     | 189366/371472 [4:00:29<13:39:22,  3.70it/s] 51%|█████     | 189367/371472 [4:00:29<13:38:53,  3.71it/s] 51%|█████     | 189368/371472 [4:00:29<13:47:19,  3.67it/s] 51%|█████     | 189369/371472 [4:00:29<14:28:07,  3.50it/s] 51%|█████     | 189370/371472 [4:00:30<14:14:40,  3.55it/s] 51%|█████     | 189371/371472 [4:00:30<14:10:39,  3.57it/s] 51%|█████     | 189372/371472 [4:00:30<14:15:29,  3.55it/s] 51%|█████     | 189373/371472 [4:00:31<14:17:53,  3.54it/s] 51%|█████     | 189374/371472 [4:00:31<13:52:40,  3.64it/s] 51%|█████     | 189375/371472 [4:00:31<13:52:18,  3.65it/s] 51%|█████     | 189376/371472 [4:00:31<13:43:25,  3.69it/s] 51%|█████     | 189377/371472 [4:00:32<14:10:30,  3.57it/s] 51%|█████     | 189378/371472 [4:00:32<14:24:35,  3.51it/s] 51%|█████     | 189379/371472 [4:00:32<15:09:21,  3.34it/s] 51%|█████     | 189380/371472 [4:00:33<14:45:37,  3.43it/s]                                                            {'loss': 2.9651, 'learning_rate': 5.414089939451399e-07, 'epoch': 8.16}
 51%|█████     | 189380/371472 [4:00:33<14:45:37,  3.43it/s] 51%|█████     | 189381/371472 [4:00:33<15:17:39,  3.31it/s] 51%|█████     | 189382/371472 [4:00:33<15:05:49,  3.35it/s] 51%|█████     | 189383/371472 [4:00:33<14:27:36,  3.50it/s] 51%|█████     | 189384/371472 [4:00:34<14:06:06,  3.59it/s] 51%|█████     | 189385/371472 [4:00:34<15:45:28,  3.21it/s] 51%|█████     | 189386/371472 [4:00:34<15:53:57,  3.18it/s] 51%|█████     | 189387/371472 [4:00:35<15:45:17,  3.21it/s] 51%|█████     | 189388/371472 [4:00:35<15:03:30,  3.36it/s] 51%|█████     | 189389/371472 [4:00:35<14:59:55,  3.37it/s] 51%|█████     | 189390/371472 [4:00:36<14:58:54,  3.38it/s] 51%|█████     | 189391/371472 [4:00:36<15:01:30,  3.37it/s] 51%|█████     | 189392/371472 [4:00:36<15:05:54,  3.35it/s] 51%|█████     | 189393/371472 [4:00:36<15:07:28,  3.34it/s] 51%|█████     | 189394/371472 [4:00:37<14:24:28,  3.51it/s] 51%|█████     | 189395/371472 [4:00:37<16:00:45,  3.16it/s] 51%|█████     | 189396/371472 [4:00:37<15:05:53,  3.35it/s] 51%|█████     | 189397/371472 [4:00:38<14:34:17,  3.47it/s] 51%|█████     | 189398/371472 [4:00:38<14:07:57,  3.58it/s] 51%|█████     | 189399/371472 [4:00:38<13:38:57,  3.71it/s] 51%|█████     | 189400/371472 [4:00:38<14:38:56,  3.45it/s]                                                            {'loss': 2.9423, 'learning_rate': 5.41360511969661e-07, 'epoch': 8.16}
 51%|█████     | 189400/371472 [4:00:38<14:38:56,  3.45it/s] 51%|█████     | 189401/371472 [4:00:39<14:44:37,  3.43it/s] 51%|█████     | 189402/371472 [4:00:39<14:58:22,  3.38it/s] 51%|█████     | 189403/371472 [4:00:39<14:30:49,  3.48it/s] 51%|█████     | 189404/371472 [4:00:40<14:31:38,  3.48it/s] 51%|█████     | 189405/371472 [4:00:40<14:18:32,  3.53it/s] 51%|█████     | 189406/371472 [4:00:40<14:36:09,  3.46it/s] 51%|█████     | 189407/371472 [4:00:41<14:43:39,  3.43it/s] 51%|█████     | 189408/371472 [4:00:41<14:33:54,  3.47it/s] 51%|█████     | 189409/371472 [4:00:41<14:27:04,  3.50it/s] 51%|█████     | 189410/371472 [4:00:41<13:59:16,  3.62it/s] 51%|█████     | 189411/371472 [4:00:42<13:51:52,  3.65it/s] 51%|█████     | 189412/371472 [4:00:42<13:39:30,  3.70it/s] 51%|█████     | 189413/371472 [4:00:42<13:40:46,  3.70it/s] 51%|█████     | 189414/371472 [4:00:42<13:18:34,  3.80it/s] 51%|█████     | 189415/371472 [4:00:43<15:09:35,  3.34it/s] 51%|█████     | 189416/371472 [4:00:43<14:47:22,  3.42it/s] 51%|█████     | 189417/371472 [4:00:43<14:20:16,  3.53it/s] 51%|█████     | 189418/371472 [4:00:44<13:58:18,  3.62it/s] 51%|█████     | 189419/371472 [4:00:44<13:48:03,  3.66it/s] 51%|█████     | 189420/371472 [4:00:44<13:23:07,  3.78it/s]                                                            {'loss': 3.0025, 'learning_rate': 5.413120299941822e-07, 'epoch': 8.16}
 51%|█████     | 189420/371472 [4:00:44<13:23:07,  3.78it/s] 51%|█████     | 189421/371472 [4:00:44<13:12:43,  3.83it/s] 51%|█████     | 189422/371472 [4:00:45<13:10:16,  3.84it/s] 51%|█████     | 189423/371472 [4:00:45<13:21:08,  3.79it/s] 51%|█████     | 189424/371472 [4:00:45<13:17:49,  3.80it/s] 51%|█████     | 189425/371472 [4:00:45<14:20:14,  3.53it/s] 51%|█████     | 189426/371472 [4:00:46<14:27:35,  3.50it/s] 51%|█████     | 189427/371472 [4:00:46<14:12:10,  3.56it/s] 51%|█████     | 189428/371472 [4:00:46<14:30:01,  3.49it/s] 51%|█████     | 189429/371472 [4:00:47<14:22:43,  3.52it/s] 51%|█████     | 189430/371472 [4:00:47<14:11:18,  3.56it/s] 51%|█████     | 189431/371472 [4:00:47<13:54:55,  3.63it/s] 51%|█████     | 189432/371472 [4:00:47<13:46:56,  3.67it/s] 51%|█████     | 189433/371472 [4:00:48<13:33:27,  3.73it/s] 51%|█████     | 189434/371472 [4:00:48<13:31:50,  3.74it/s] 51%|█████     | 189435/371472 [4:00:48<13:37:21,  3.71it/s] 51%|█████     | 189436/371472 [4:00:48<13:31:39,  3.74it/s] 51%|█████     | 189437/371472 [4:00:49<13:27:20,  3.76it/s] 51%|█████     | 189438/371472 [4:00:49<13:42:56,  3.69it/s] 51%|█████     | 189439/371472 [4:00:49<14:15:53,  3.54it/s] 51%|█████     | 189440/371472 [4:00:50<14:19:24,  3.53it/s]                                                            {'loss': 3.126, 'learning_rate': 5.412635480187033e-07, 'epoch': 8.16}
 51%|█████     | 189440/371472 [4:00:50<14:19:24,  3.53it/s] 51%|█████     | 189441/371472 [4:00:50<15:03:21,  3.36it/s] 51%|█████     | 189442/371472 [4:00:50<14:54:38,  3.39it/s] 51%|█████     | 189443/371472 [4:00:51<15:38:29,  3.23it/s] 51%|█████     | 189444/371472 [4:00:51<14:54:50,  3.39it/s] 51%|█████     | 189445/371472 [4:00:51<14:43:40,  3.43it/s] 51%|█████     | 189446/371472 [4:00:51<14:54:53,  3.39it/s] 51%|█████     | 189447/371472 [4:00:52<14:40:14,  3.45it/s] 51%|█████     | 189448/371472 [4:00:52<14:22:00,  3.52it/s] 51%|█████     | 189449/371472 [4:00:52<14:19:22,  3.53it/s] 51%|█████     | 189450/371472 [4:00:53<14:38:40,  3.45it/s] 51%|█████     | 189451/371472 [4:00:53<14:35:17,  3.47it/s] 51%|█████     | 189452/371472 [4:00:53<14:06:19,  3.58it/s] 51%|█████     | 189453/371472 [4:00:53<13:54:10,  3.64it/s] 51%|█████     | 189454/371472 [4:00:54<15:07:46,  3.34it/s] 51%|█████     | 189455/371472 [4:00:54<14:26:39,  3.50it/s] 51%|█████     | 189456/371472 [4:00:54<14:22:37,  3.52it/s] 51%|█████     | 189457/371472 [4:00:54<14:05:13,  3.59it/s] 51%|█████     | 189458/371472 [4:00:55<15:36:28,  3.24it/s] 51%|█████     | 189459/371472 [4:00:55<14:57:17,  3.38it/s] 51%|█████     | 189460/371472 [4:00:55<14:30:05,  3.49it/s]                                                            {'loss': 2.9975, 'learning_rate': 5.412150660432243e-07, 'epoch': 8.16}
 51%|█████     | 189460/371472 [4:00:55<14:30:05,  3.49it/s] 51%|█████     | 189461/371472 [4:00:56<14:49:16,  3.41it/s] 51%|█████     | 189462/371472 [4:00:56<15:01:39,  3.36it/s] 51%|█████     | 189463/371472 [4:00:56<14:48:52,  3.41it/s] 51%|█████     | 189464/371472 [4:00:57<14:19:42,  3.53it/s] 51%|█████     | 189465/371472 [4:00:57<14:21:37,  3.52it/s] 51%|█████     | 189466/371472 [4:00:57<15:11:24,  3.33it/s] 51%|█████     | 189467/371472 [4:00:57<14:35:27,  3.46it/s] 51%|█████     | 189468/371472 [4:00:58<15:56:22,  3.17it/s] 51%|█████     | 189469/371472 [4:00:58<15:39:02,  3.23it/s] 51%|█████     | 189470/371472 [4:00:58<15:34:05,  3.25it/s] 51%|█████     | 189471/371472 [4:00:59<15:08:46,  3.34it/s] 51%|█████     | 189472/371472 [4:00:59<15:02:40,  3.36it/s] 51%|█████     | 189473/371472 [4:00:59<15:47:27,  3.20it/s] 51%|█████     | 189474/371472 [4:01:00<14:52:39,  3.40it/s] 51%|█████     | 189475/371472 [4:01:00<18:07:50,  2.79it/s] 51%|█████     | 189476/371472 [4:01:00<17:10:50,  2.94it/s] 51%|█████     | 189477/371472 [4:01:01<16:22:25,  3.09it/s] 51%|█████     | 189478/371472 [4:01:01<15:22:59,  3.29it/s] 51%|█████     | 189479/371472 [4:01:01<15:16:09,  3.31it/s] 51%|█████     | 189480/371472 [4:01:02<14:35:56,  3.46it/s]                                                            {'loss': 2.9879, 'learning_rate': 5.411665840677454e-07, 'epoch': 8.16}
 51%|█████     | 189480/371472 [4:01:02<14:35:56,  3.46it/s] 51%|█████     | 189481/371472 [4:01:02<15:16:38,  3.31it/s] 51%|█████     | 189482/371472 [4:01:02<14:37:21,  3.46it/s] 51%|█████     | 189483/371472 [4:01:02<14:27:20,  3.50it/s] 51%|█████     | 189484/371472 [4:01:03<14:00:01,  3.61it/s] 51%|█████     | 189485/371472 [4:01:03<13:53:20,  3.64it/s] 51%|█████     | 189486/371472 [4:01:03<13:58:16,  3.62it/s] 51%|█████     | 189487/371472 [4:01:03<14:17:38,  3.54it/s] 51%|█████     | 189488/371472 [4:01:04<13:39:06,  3.70it/s] 51%|█████     | 189489/371472 [4:01:04<14:07:22,  3.58it/s] 51%|█████     | 189490/371472 [4:01:04<15:49:29,  3.19it/s] 51%|█████     | 189491/371472 [4:01:05<15:42:56,  3.22it/s] 51%|█████     | 189492/371472 [4:01:05<14:58:50,  3.37it/s] 51%|█████     | 189493/371472 [4:01:05<14:44:13,  3.43it/s] 51%|█████     | 189494/371472 [4:01:06<14:47:38,  3.42it/s] 51%|█████     | 189495/371472 [4:01:06<15:42:56,  3.22it/s] 51%|█████     | 189496/371472 [4:01:06<15:17:05,  3.31it/s] 51%|█████     | 189497/371472 [4:01:06<14:45:13,  3.43it/s] 51%|█████     | 189498/371472 [4:01:07<14:42:16,  3.44it/s] 51%|█████     | 189499/371472 [4:01:07<14:24:33,  3.51it/s] 51%|█████     | 189500/371472 [4:01:07<14:42:44,  3.44it/s]                                                            {'loss': 2.9561, 'learning_rate': 5.411181020922666e-07, 'epoch': 8.16}
 51%|█████     | 189500/371472 [4:01:07<14:42:44,  3.44it/s] 51%|█████     | 189501/371472 [4:01:08<14:42:55,  3.43it/s] 51%|█████     | 189502/371472 [4:01:08<15:02:05,  3.36it/s] 51%|█████     | 189503/371472 [4:01:08<14:17:36,  3.54it/s] 51%|█████     | 189504/371472 [4:01:08<14:40:09,  3.45it/s] 51%|█████     | 189505/371472 [4:01:09<14:20:30,  3.52it/s] 51%|█████     | 189506/371472 [4:01:09<14:06:05,  3.58it/s] 51%|█████     | 189507/371472 [4:01:09<13:59:45,  3.61it/s] 51%|█████     | 189508/371472 [4:01:10<14:26:00,  3.50it/s] 51%|█████     | 189509/371472 [4:01:10<13:53:03,  3.64it/s] 51%|█████     | 189510/371472 [4:01:10<14:04:47,  3.59it/s] 51%|█████     | 189511/371472 [4:01:10<14:45:37,  3.42it/s] 51%|█████     | 189512/371472 [4:01:11<14:34:54,  3.47it/s] 51%|█████     | 189513/371472 [4:01:11<14:09:56,  3.57it/s] 51%|█████     | 189514/371472 [4:01:11<14:43:47,  3.43it/s] 51%|█████     | 189515/371472 [4:01:12<14:27:39,  3.50it/s] 51%|█████     | 189516/371472 [4:01:12<14:11:21,  3.56it/s] 51%|█████     | 189517/371472 [4:01:12<14:06:29,  3.58it/s] 51%|█████     | 189518/371472 [4:01:12<13:47:42,  3.66it/s] 51%|█████     | 189519/371472 [4:01:13<13:53:48,  3.64it/s] 51%|█████     | 189520/371472 [4:01:13<14:35:26,  3.46it/s]                                                            {'loss': 3.0525, 'learning_rate': 5.410696201167876e-07, 'epoch': 8.16}
 51%|█████     | 189520/371472 [4:01:13<14:35:26,  3.46it/s] 51%|█████     | 189521/371472 [4:01:13<14:21:08,  3.52it/s] 51%|█████     | 189522/371472 [4:01:14<13:43:42,  3.68it/s] 51%|█████     | 189523/371472 [4:01:14<13:48:57,  3.66it/s] 51%|█████     | 189524/371472 [4:01:14<13:51:29,  3.65it/s] 51%|█████     | 189525/371472 [4:01:14<14:27:30,  3.50it/s] 51%|█████     | 189526/371472 [4:01:15<14:21:36,  3.52it/s] 51%|█████     | 189527/371472 [4:01:15<14:07:40,  3.58it/s] 51%|█████     | 189528/371472 [4:01:15<13:53:42,  3.64it/s] 51%|█████     | 189529/371472 [4:01:15<14:13:00,  3.55it/s] 51%|█████     | 189530/371472 [4:01:16<14:24:31,  3.51it/s] 51%|█████     | 189531/371472 [4:01:16<14:38:36,  3.45it/s] 51%|█████     | 189532/371472 [4:01:16<14:10:54,  3.56it/s] 51%|█████     | 189533/371472 [4:01:17<13:39:57,  3.70it/s] 51%|█████     | 189534/371472 [4:01:17<14:02:49,  3.60it/s] 51%|█████     | 189535/371472 [4:01:17<13:41:40,  3.69it/s] 51%|█████     | 189536/371472 [4:01:17<14:36:54,  3.46it/s] 51%|█████     | 189537/371472 [4:01:18<14:24:56,  3.51it/s] 51%|█████     | 189538/371472 [4:01:18<14:28:19,  3.49it/s] 51%|█████     | 189539/371472 [4:01:18<14:00:13,  3.61it/s] 51%|█████     | 189540/371472 [4:01:19<13:30:06,  3.74it/s]                                                            {'loss': 3.0216, 'learning_rate': 5.410211381413088e-07, 'epoch': 8.16}
 51%|█████     | 189540/371472 [4:01:19<13:30:06,  3.74it/s] 51%|█████     | 189541/371472 [4:01:19<14:00:34,  3.61it/s] 51%|█████     | 189542/371472 [4:01:19<14:29:27,  3.49it/s] 51%|█████     | 189543/371472 [4:01:19<14:12:24,  3.56it/s] 51%|█████     | 189544/371472 [4:01:20<13:53:34,  3.64it/s] 51%|█████     | 189545/371472 [4:01:20<13:35:55,  3.72it/s] 51%|█████     | 189546/371472 [4:01:20<13:53:23,  3.64it/s] 51%|█████     | 189547/371472 [4:01:20<13:41:15,  3.69it/s] 51%|█████     | 189548/371472 [4:01:21<13:28:09,  3.75it/s] 51%|█████     | 189549/371472 [4:01:21<13:11:39,  3.83it/s] 51%|█████     | 189550/371472 [4:01:21<14:02:11,  3.60it/s] 51%|█████     | 189551/371472 [4:01:22<13:50:56,  3.65it/s] 51%|█████     | 189552/371472 [4:01:22<14:27:06,  3.50it/s] 51%|█████     | 189553/371472 [4:01:22<14:30:53,  3.48it/s] 51%|█████     | 189554/371472 [4:01:22<14:14:41,  3.55it/s] 51%|█████     | 189555/371472 [4:01:23<14:00:02,  3.61it/s] 51%|█████     | 189556/371472 [4:01:23<13:34:04,  3.72it/s] 51%|█████     | 189557/371472 [4:01:23<13:45:38,  3.67it/s] 51%|█████     | 189558/371472 [4:01:24<14:24:13,  3.51it/s] 51%|█████     | 189559/371472 [4:01:24<14:44:45,  3.43it/s] 51%|█████     | 189560/371472 [4:01:24<14:30:28,  3.48it/s]                                                            {'loss': 3.0936, 'learning_rate': 5.409726561658299e-07, 'epoch': 8.16}
 51%|█████     | 189560/371472 [4:01:24<14:30:28,  3.48it/s] 51%|█████     | 189561/371472 [4:01:24<14:17:20,  3.54it/s] 51%|█████     | 189562/371472 [4:01:25<14:05:12,  3.59it/s] 51%|█████     | 189563/371472 [4:01:25<13:51:07,  3.65it/s] 51%|█████     | 189564/371472 [4:01:25<13:39:24,  3.70it/s] 51%|█████     | 189565/371472 [4:01:26<14:14:14,  3.55it/s] 51%|█████     | 189566/371472 [4:01:26<14:18:10,  3.53it/s] 51%|█████     | 189567/371472 [4:01:26<15:13:46,  3.32it/s] 51%|█████     | 189568/371472 [4:01:26<15:21:22,  3.29it/s] 51%|█████     | 189569/371472 [4:01:27<14:38:51,  3.45it/s] 51%|█████     | 189570/371472 [4:01:27<14:24:59,  3.50it/s] 51%|█████     | 189571/371472 [4:01:27<14:02:28,  3.60it/s] 51%|█████     | 189572/371472 [4:01:28<15:07:05,  3.34it/s] 51%|█████     | 189573/371472 [4:01:28<15:17:20,  3.30it/s] 51%|█████     | 189574/371472 [4:01:28<15:06:40,  3.34it/s] 51%|█████     | 189575/371472 [4:01:28<15:05:04,  3.35it/s] 51%|█████     | 189576/371472 [4:01:29<15:00:16,  3.37it/s] 51%|█████     | 189577/371472 [4:01:29<14:46:29,  3.42it/s] 51%|█████     | 189578/371472 [4:01:29<14:49:47,  3.41it/s] 51%|█████     | 189579/371472 [4:01:30<14:21:43,  3.52it/s] 51%|█████     | 189580/371472 [4:01:30<14:01:31,  3.60it/s]                                                            {'loss': 2.8149, 'learning_rate': 5.40924174190351e-07, 'epoch': 8.17}
 51%|█████     | 189580/371472 [4:01:30<14:01:31,  3.60it/s] 51%|█████     | 189581/371472 [4:01:30<15:13:03,  3.32it/s] 51%|█████     | 189582/371472 [4:01:31<14:49:08,  3.41it/s] 51%|█████     | 189583/371472 [4:01:31<14:45:30,  3.42it/s] 51%|█████     | 189584/371472 [4:01:31<14:44:53,  3.43it/s] 51%|█████     | 189585/371472 [4:01:31<14:32:16,  3.48it/s] 51%|█████     | 189586/371472 [4:01:32<14:28:16,  3.49it/s] 51%|█████     | 189587/371472 [4:01:32<14:19:26,  3.53it/s] 51%|█████     | 189588/371472 [4:01:32<15:06:25,  3.34it/s] 51%|█████     | 189589/371472 [4:01:33<14:53:48,  3.39it/s] 51%|█████     | 189590/371472 [4:01:33<14:32:41,  3.47it/s] 51%|█████     | 189591/371472 [4:01:33<14:11:47,  3.56it/s] 51%|█████     | 189592/371472 [4:01:33<13:48:39,  3.66it/s] 51%|█████     | 189593/371472 [4:01:34<13:45:46,  3.67it/s] 51%|█████     | 189594/371472 [4:01:34<14:16:47,  3.54it/s] 51%|█████     | 189595/371472 [4:01:34<15:21:36,  3.29it/s] 51%|█████     | 189596/371472 [4:01:35<14:45:44,  3.42it/s] 51%|█████     | 189597/371472 [4:01:35<13:59:13,  3.61it/s] 51%|█████     | 189598/371472 [4:01:35<13:52:01,  3.64it/s] 51%|█████     | 189599/371472 [4:01:35<13:59:18,  3.61it/s] 51%|█████     | 189600/371472 [4:01:36<13:45:51,  3.67it/s]                                                            {'loss': 3.0769, 'learning_rate': 5.40875692214872e-07, 'epoch': 8.17}
 51%|█████     | 189600/371472 [4:01:36<13:45:51,  3.67it/s] 51%|█████     | 189601/371472 [4:01:36<14:03:03,  3.60it/s] 51%|█████     | 189602/371472 [4:01:36<13:47:31,  3.66it/s] 51%|█████     | 189603/371472 [4:01:36<14:26:59,  3.50it/s] 51%|█████     | 189604/371472 [4:01:37<14:07:34,  3.58it/s] 51%|█████     | 189605/371472 [4:01:37<14:26:03,  3.50it/s] 51%|█████     | 189606/371472 [4:01:37<14:59:16,  3.37it/s] 51%|█████     | 189607/371472 [4:01:38<14:36:48,  3.46it/s] 51%|█████     | 189608/371472 [4:01:38<14:41:01,  3.44it/s] 51%|█████     | 189609/371472 [4:01:38<14:37:37,  3.45it/s] 51%|█████     | 189610/371472 [4:01:38<14:05:02,  3.59it/s] 51%|█████     | 189611/371472 [4:01:39<16:12:56,  3.12it/s] 51%|█████     | 189612/371472 [4:01:39<15:36:34,  3.24it/s] 51%|█████     | 189613/371472 [4:01:39<14:53:24,  3.39it/s] 51%|█████     | 189614/371472 [4:01:40<14:19:20,  3.53it/s] 51%|█████     | 189615/371472 [4:01:40<13:51:27,  3.65it/s] 51%|█████     | 189616/371472 [4:01:40<14:12:35,  3.55it/s] 51%|█████     | 189617/371472 [4:01:41<15:04:59,  3.35it/s] 51%|█████     | 189618/371472 [4:01:41<14:28:36,  3.49it/s] 51%|█████     | 189619/371472 [4:01:41<14:12:43,  3.55it/s] 51%|█████     | 189620/371472 [4:01:41<13:54:17,  3.63it/s]                                                            {'loss': 3.1245, 'learning_rate': 5.408272102393932e-07, 'epoch': 8.17}
 51%|█████     | 189620/371472 [4:01:41<13:54:17,  3.63it/s] 51%|█████     | 189621/371472 [4:01:42<14:15:10,  3.54it/s] 51%|█████     | 189622/371472 [4:01:42<14:04:15,  3.59it/s] 51%|█████     | 189623/371472 [4:01:42<14:29:41,  3.48it/s] 51%|█████     | 189624/371472 [4:01:43<14:23:24,  3.51it/s] 51%|█████     | 189625/371472 [4:01:43<15:25:46,  3.27it/s] 51%|█████     | 189626/371472 [4:01:43<15:23:10,  3.28it/s] 51%|█████     | 189627/371472 [4:01:43<14:40:50,  3.44it/s] 51%|█████     | 189628/371472 [4:01:44<14:08:41,  3.57it/s] 51%|█████     | 189629/371472 [4:01:44<13:43:26,  3.68it/s] 51%|█████     | 189630/371472 [4:01:44<13:38:15,  3.70it/s] 51%|█████     | 189631/371472 [4:01:44<13:27:36,  3.75it/s] 51%|█████     | 189632/371472 [4:01:45<13:59:02,  3.61it/s] 51%|█████     | 189633/371472 [4:01:45<13:59:59,  3.61it/s] 51%|█████     | 189634/371472 [4:01:45<13:57:06,  3.62it/s] 51%|█████     | 189635/371472 [4:01:46<14:24:37,  3.51it/s] 51%|█████     | 189636/371472 [4:01:46<14:10:15,  3.56it/s] 51%|█████     | 189637/371472 [4:01:46<14:04:28,  3.59it/s] 51%|█████     | 189638/371472 [4:01:46<14:14:27,  3.55it/s] 51%|█████     | 189639/371472 [4:01:47<14:12:29,  3.55it/s] 51%|█████     | 189640/371472 [4:01:47<14:28:22,  3.49it/s]                                                            {'loss': 3.0262, 'learning_rate': 5.407787282639143e-07, 'epoch': 8.17}
 51%|█████     | 189640/371472 [4:01:47<14:28:22,  3.49it/s] 51%|█████     | 189641/371472 [4:01:47<13:51:13,  3.65it/s] 51%|█████     | 189642/371472 [4:01:48<13:29:42,  3.74it/s] 51%|█████     | 189643/371472 [4:01:48<13:22:25,  3.78it/s] 51%|█████     | 189644/371472 [4:01:48<13:06:47,  3.85it/s] 51%|█████     | 189645/371472 [4:01:48<13:22:34,  3.78it/s] 51%|█████     | 189646/371472 [4:01:49<13:27:23,  3.75it/s] 51%|█████     | 189647/371472 [4:01:49<13:41:52,  3.69it/s] 51%|█████     | 189648/371472 [4:01:49<14:07:35,  3.58it/s] 51%|█████     | 189649/371472 [4:01:49<14:07:41,  3.57it/s] 51%|█████     | 189650/371472 [4:01:50<13:55:02,  3.63it/s] 51%|█████     | 189651/371472 [4:01:50<14:02:20,  3.60it/s] 51%|█████     | 189652/371472 [4:01:50<13:58:17,  3.61it/s] 51%|█████     | 189653/371472 [4:01:51<14:07:24,  3.58it/s] 51%|█████     | 189654/371472 [4:01:51<14:29:09,  3.49it/s] 51%|█████     | 189655/371472 [4:01:51<14:05:14,  3.59it/s] 51%|█████     | 189656/371472 [4:01:51<14:14:19,  3.55it/s] 51%|█████     | 189657/371472 [4:01:52<14:40:53,  3.44it/s] 51%|█████     | 189658/371472 [4:01:52<14:24:33,  3.50it/s] 51%|█████     | 189659/371472 [4:01:52<14:43:54,  3.43it/s] 51%|█████     | 189660/371472 [4:01:53<14:36:59,  3.46it/s]                                                            {'loss': 2.9826, 'learning_rate': 5.407302462884355e-07, 'epoch': 8.17}
 51%|█████     | 189660/371472 [4:01:53<14:36:59,  3.46it/s] 51%|█████     | 189661/371472 [4:01:53<15:28:56,  3.26it/s] 51%|█████     | 189662/371472 [4:01:53<14:52:19,  3.40it/s] 51%|█████     | 189663/371472 [4:01:53<14:10:58,  3.56it/s] 51%|█████     | 189664/371472 [4:01:54<13:48:27,  3.66it/s] 51%|█████     | 189665/371472 [4:01:54<13:34:31,  3.72it/s] 51%|█████     | 189666/371472 [4:01:54<13:42:14,  3.69it/s] 51%|█████     | 189667/371472 [4:01:55<13:52:54,  3.64it/s] 51%|█████     | 189668/371472 [4:01:55<13:39:24,  3.70it/s] 51%|█████     | 189669/371472 [4:01:55<14:07:58,  3.57it/s] 51%|█████     | 189670/371472 [4:01:55<15:35:35,  3.24it/s] 51%|█████     | 189671/371472 [4:01:56<14:56:01,  3.38it/s] 51%|█████     | 189672/371472 [4:01:56<14:40:07,  3.44it/s] 51%|█████     | 189673/371472 [4:01:56<14:31:05,  3.48it/s] 51%|█████     | 189674/371472 [4:01:57<15:22:38,  3.28it/s] 51%|█████     | 189675/371472 [4:01:57<15:58:02,  3.16it/s] 51%|█████     | 189676/371472 [4:01:57<15:42:35,  3.21it/s] 51%|█████     | 189677/371472 [4:01:58<14:56:13,  3.38it/s] 51%|█████     | 189678/371472 [4:01:58<14:11:59,  3.56it/s] 51%|█████     | 189679/371472 [4:01:58<14:40:41,  3.44it/s] 51%|█████     | 189680/371472 [4:01:58<14:18:22,  3.53it/s]                                                            {'loss': 3.0595, 'learning_rate': 5.406817643129565e-07, 'epoch': 8.17}
 51%|█████     | 189680/371472 [4:01:58<14:18:22,  3.53it/s] 51%|█████     | 189681/371472 [4:01:59<14:15:22,  3.54it/s] 51%|█████     | 189682/371472 [4:01:59<14:13:46,  3.55it/s] 51%|█████     | 189683/371472 [4:01:59<15:40:00,  3.22it/s] 51%|█████     | 189684/371472 [4:02:00<15:05:48,  3.34it/s] 51%|█████     | 189685/371472 [4:02:00<15:15:25,  3.31it/s] 51%|█████     | 189686/371472 [4:02:00<15:26:25,  3.27it/s] 51%|█████     | 189687/371472 [4:02:01<15:51:49,  3.18it/s] 51%|█████     | 189688/371472 [4:02:01<16:11:44,  3.12it/s] 51%|█████     | 189689/371472 [4:02:01<16:16:17,  3.10it/s] 51%|█████     | 189690/371472 [4:02:01<16:16:53,  3.10it/s] 51%|█████     | 189691/371472 [4:02:02<16:13:03,  3.11it/s] 51%|█████     | 189692/371472 [4:02:02<15:37:05,  3.23it/s] 51%|█████     | 189693/371472 [4:02:02<15:00:49,  3.36it/s] 51%|█████     | 189694/371472 [4:02:03<15:27:05,  3.27it/s] 51%|█████     | 189695/371472 [4:02:03<14:43:23,  3.43it/s] 51%|█████     | 189696/371472 [4:02:03<14:03:17,  3.59it/s] 51%|█████     | 189697/371472 [4:02:04<14:40:52,  3.44it/s] 51%|█████     | 189698/371472 [4:02:04<14:42:41,  3.43it/s] 51%|█████     | 189699/371472 [4:02:04<14:48:12,  3.41it/s] 51%|█████     | 189700/371472 [4:02:04<14:29:52,  3.48it/s]                                                            {'loss': 2.933, 'learning_rate': 5.406332823374776e-07, 'epoch': 8.17}
 51%|█████     | 189700/371472 [4:02:04<14:29:52,  3.48it/s] 51%|█████     | 189701/371472 [4:02:05<14:44:30,  3.43it/s] 51%|█████     | 189702/371472 [4:02:05<14:31:32,  3.48it/s] 51%|█████     | 189703/371472 [4:02:05<14:18:10,  3.53it/s] 51%|█████     | 189704/371472 [4:02:06<14:54:26,  3.39it/s] 51%|█████     | 189705/371472 [4:02:06<14:49:46,  3.40it/s] 51%|█████     | 189706/371472 [4:02:06<14:12:09,  3.56it/s] 51%|█████     | 189707/371472 [4:02:06<13:48:46,  3.66it/s] 51%|█████     | 189708/371472 [4:02:07<14:55:28,  3.38it/s] 51%|█████     | 189709/371472 [4:02:07<14:30:17,  3.48it/s] 51%|█████     | 189710/371472 [4:02:07<14:11:28,  3.56it/s] 51%|█████     | 189711/371472 [4:02:08<15:20:02,  3.29it/s] 51%|█████     | 189712/371472 [4:02:08<14:47:19,  3.41it/s] 51%|█████     | 189713/371472 [4:02:08<14:24:44,  3.50it/s] 51%|█████     | 189714/371472 [4:02:08<14:29:57,  3.48it/s] 51%|█████     | 189715/371472 [4:02:09<14:36:38,  3.46it/s] 51%|█████     | 189716/371472 [4:02:09<14:16:37,  3.54it/s] 51%|█████     | 189717/371472 [4:02:09<13:35:43,  3.71it/s] 51%|█████     | 189718/371472 [4:02:10<14:02:39,  3.59it/s] 51%|█████     | 189719/371472 [4:02:10<14:03:17,  3.59it/s] 51%|█████     | 189720/371472 [4:02:10<14:12:46,  3.55it/s]                                                            {'loss': 2.8256, 'learning_rate': 5.405848003619987e-07, 'epoch': 8.17}
 51%|█████     | 189720/371472 [4:02:10<14:12:46,  3.55it/s] 51%|█████     | 189721/371472 [4:02:10<14:01:39,  3.60it/s] 51%|█████     | 189722/371472 [4:02:11<14:26:42,  3.50it/s] 51%|█████     | 189723/371472 [4:02:11<16:09:15,  3.13it/s] 51%|█████     | 189724/371472 [4:02:11<16:16:05,  3.10it/s] 51%|█████     | 189725/371472 [4:02:12<15:45:53,  3.20it/s] 51%|█████     | 189726/371472 [4:02:12<15:50:07,  3.19it/s] 51%|█████     | 189727/371472 [4:02:12<14:55:45,  3.38it/s] 51%|█████     | 189728/371472 [4:02:12<14:11:45,  3.56it/s] 51%|█████     | 189729/371472 [4:02:13<13:47:59,  3.66it/s] 51%|█████     | 189730/371472 [4:02:13<13:16:03,  3.81it/s] 51%|█████     | 189731/371472 [4:02:13<14:38:30,  3.45it/s] 51%|█████     | 189732/371472 [4:02:14<14:12:02,  3.55it/s] 51%|█████     | 189733/371472 [4:02:14<14:10:58,  3.56it/s] 51%|█████     | 189734/371472 [4:02:14<13:43:13,  3.68it/s] 51%|█████     | 189735/371472 [4:02:14<13:37:25,  3.71it/s] 51%|█████     | 189736/371472 [4:02:15<14:09:39,  3.56it/s] 51%|█████     | 189737/371472 [4:02:15<14:26:39,  3.49it/s] 51%|█████     | 189738/371472 [4:02:15<14:28:47,  3.49it/s] 51%|█████     | 189739/371472 [4:02:16<14:15:05,  3.54it/s] 51%|█████     | 189740/371472 [4:02:16<13:45:14,  3.67it/s]                                                            {'loss': 2.8838, 'learning_rate': 5.405363183865199e-07, 'epoch': 8.17}
 51%|█████     | 189740/371472 [4:02:16<13:45:14,  3.67it/s] 51%|█████     | 189741/371472 [4:02:16<13:58:19,  3.61it/s] 51%|█████     | 189742/371472 [4:02:16<13:56:46,  3.62it/s] 51%|█████     | 189743/371472 [4:02:17<13:46:52,  3.66it/s] 51%|█████     | 189744/371472 [4:02:17<13:41:59,  3.68it/s] 51%|█████     | 189745/371472 [4:02:17<13:23:38,  3.77it/s] 51%|█████     | 189746/371472 [4:02:17<13:52:06,  3.64it/s] 51%|█████     | 189747/371472 [4:02:18<15:04:52,  3.35it/s] 51%|█████     | 189748/371472 [4:02:18<14:31:18,  3.48it/s] 51%|█████     | 189749/371472 [4:02:18<13:54:17,  3.63it/s] 51%|█████     | 189750/371472 [4:02:19<14:07:49,  3.57it/s] 51%|█████     | 189751/371472 [4:02:19<13:43:30,  3.68it/s] 51%|█████     | 189752/371472 [4:02:19<13:11:25,  3.83it/s] 51%|█████     | 189753/371472 [4:02:19<13:20:29,  3.78it/s] 51%|█████     | 189754/371472 [4:02:20<13:11:58,  3.82it/s] 51%|█████     | 189755/371472 [4:02:20<13:53:40,  3.63it/s] 51%|█████     | 189756/371472 [4:02:20<13:41:18,  3.69it/s] 51%|█████     | 189757/371472 [4:02:20<13:58:12,  3.61it/s] 51%|█████     | 189758/371472 [4:02:21<13:34:45,  3.72it/s] 51%|█████     | 189759/371472 [4:02:21<13:36:22,  3.71it/s] 51%|█████     | 189760/371472 [4:02:21<13:55:52,  3.62it/s]                                                            {'loss': 2.9813, 'learning_rate': 5.404878364110409e-07, 'epoch': 8.17}
 51%|█████     | 189760/371472 [4:02:21<13:55:52,  3.62it/s] 51%|█████     | 189761/371472 [4:02:22<13:50:10,  3.65it/s] 51%|█████     | 189762/371472 [4:02:22<13:36:30,  3.71it/s] 51%|█████     | 189763/371472 [4:02:22<13:51:11,  3.64it/s] 51%|█████     | 189764/371472 [4:02:22<13:36:30,  3.71it/s] 51%|█████     | 189765/371472 [4:02:23<14:03:41,  3.59it/s] 51%|█████     | 189766/371472 [4:02:23<13:42:07,  3.68it/s] 51%|█████     | 189767/371472 [4:02:23<13:51:50,  3.64it/s] 51%|█████     | 189768/371472 [4:02:23<13:53:15,  3.63it/s] 51%|█████     | 189769/371472 [4:02:24<13:49:57,  3.65it/s] 51%|█████     | 189770/371472 [4:02:24<14:29:08,  3.48it/s] 51%|█████     | 189771/371472 [4:02:24<15:10:24,  3.33it/s] 51%|█████     | 189772/371472 [4:02:25<14:41:02,  3.44it/s] 51%|█████     | 189773/371472 [4:02:25<15:06:15,  3.34it/s] 51%|█████     | 189774/371472 [4:02:25<15:02:18,  3.36it/s] 51%|█████     | 189775/371472 [4:02:26<15:55:02,  3.17it/s] 51%|█████     | 189776/371472 [4:02:26<16:10:28,  3.12it/s] 51%|█████     | 189777/371472 [4:02:26<16:49:45,  3.00it/s] 51%|█████     | 189778/371472 [4:02:27<15:29:42,  3.26it/s] 51%|█████     | 189779/371472 [4:02:27<15:08:21,  3.33it/s] 51%|█████     | 189780/371472 [4:02:27<14:36:40,  3.45it/s]                                                            {'loss': 3.046, 'learning_rate': 5.404393544355621e-07, 'epoch': 8.17}
 51%|█████     | 189780/371472 [4:02:27<14:36:40,  3.45it/s] 51%|█████     | 189781/371472 [4:02:27<13:55:24,  3.62it/s] 51%|█████     | 189782/371472 [4:02:28<13:22:54,  3.77it/s] 51%|█████     | 189783/371472 [4:02:28<13:25:12,  3.76it/s] 51%|█████     | 189784/371472 [4:02:28<14:09:39,  3.56it/s] 51%|█████     | 189785/371472 [4:02:28<13:59:04,  3.61it/s] 51%|█████     | 189786/371472 [4:02:29<14:06:01,  3.58it/s] 51%|█████     | 189787/371472 [4:02:29<15:13:22,  3.32it/s] 51%|█████     | 189788/371472 [4:02:29<16:08:08,  3.13it/s] 51%|█████     | 189789/371472 [4:02:30<15:16:03,  3.31it/s] 51%|█████     | 189790/371472 [4:02:30<14:43:50,  3.43it/s] 51%|█████     | 189791/371472 [4:02:30<14:39:51,  3.44it/s] 51%|█████     | 189792/371472 [4:02:31<14:19:25,  3.52it/s] 51%|█████     | 189793/371472 [4:02:31<14:17:36,  3.53it/s] 51%|█████     | 189794/371472 [4:02:31<14:01:46,  3.60it/s] 51%|█████     | 189795/371472 [4:02:31<13:44:00,  3.67it/s] 51%|█████     | 189796/371472 [4:02:32<13:42:39,  3.68it/s] 51%|█████     | 189797/371472 [4:02:32<15:01:43,  3.36it/s] 51%|█████     | 189798/371472 [4:02:32<14:31:31,  3.47it/s] 51%|█████     | 189799/371472 [4:02:33<15:37:37,  3.23it/s] 51%|█████     | 189800/371472 [4:02:33<14:43:50,  3.43it/s]                                                            {'loss': 2.959, 'learning_rate': 5.403908724600832e-07, 'epoch': 8.18}
 51%|█████     | 189800/371472 [4:02:33<14:43:50,  3.43it/s] 51%|█████     | 189801/371472 [4:02:33<14:20:31,  3.52it/s] 51%|█████     | 189802/371472 [4:02:33<14:17:03,  3.53it/s] 51%|█████     | 189803/371472 [4:02:34<14:00:17,  3.60it/s] 51%|█████     | 189804/371472 [4:02:34<15:39:48,  3.22it/s] 51%|█████     | 189805/371472 [4:02:34<15:09:14,  3.33it/s] 51%|█████     | 189806/371472 [4:02:35<15:02:10,  3.36it/s] 51%|█████     | 189807/371472 [4:02:35<14:35:31,  3.46it/s] 51%|█████     | 189808/371472 [4:02:35<13:58:20,  3.61it/s] 51%|█████     | 189809/371472 [4:02:35<13:38:48,  3.70it/s] 51%|█████     | 189810/371472 [4:02:36<14:11:53,  3.55it/s] 51%|█████     | 189811/371472 [4:02:36<14:01:32,  3.60it/s] 51%|█████     | 189812/371472 [4:02:36<14:19:09,  3.52it/s] 51%|█████     | 189813/371472 [4:02:37<14:06:08,  3.58it/s] 51%|█████     | 189814/371472 [4:02:37<14:49:41,  3.40it/s] 51%|█████     | 189815/371472 [4:02:37<14:41:54,  3.43it/s] 51%|█████     | 189816/371472 [4:02:37<14:42:52,  3.43it/s] 51%|█████     | 189817/371472 [4:02:38<14:15:46,  3.54it/s] 51%|█████     | 189818/371472 [4:02:38<15:04:54,  3.35it/s] 51%|█████     | 189819/371472 [4:02:38<14:39:27,  3.44it/s] 51%|█████     | 189820/371472 [4:02:39<14:46:16,  3.42it/s]                                                            {'loss': 3.0036, 'learning_rate': 5.403423904846042e-07, 'epoch': 8.18}
 51%|█████     | 189820/371472 [4:02:39<14:46:16,  3.42it/s] 51%|█████     | 189821/371472 [4:02:39<14:26:13,  3.50it/s] 51%|█████     | 189822/371472 [4:02:39<13:52:52,  3.63it/s] 51%|█████     | 189823/371472 [4:02:39<13:32:28,  3.73it/s] 51%|█████     | 189824/371472 [4:02:40<13:56:28,  3.62it/s] 51%|█████     | 189825/371472 [4:02:40<14:32:07,  3.47it/s] 51%|█████     | 189826/371472 [4:02:40<15:01:36,  3.36it/s] 51%|█████     | 189827/371472 [4:02:41<14:37:12,  3.45it/s] 51%|█████     | 189828/371472 [4:02:41<14:55:31,  3.38it/s] 51%|█████     | 189829/371472 [4:02:41<16:12:13,  3.11it/s] 51%|█████     | 189830/371472 [4:02:42<16:23:01,  3.08it/s] 51%|█████     | 189831/371472 [4:02:42<15:23:26,  3.28it/s] 51%|█████     | 189832/371472 [4:02:42<14:38:55,  3.44it/s] 51%|█████     | 189833/371472 [4:02:42<14:46:10,  3.42it/s] 51%|█████     | 189834/371472 [4:02:43<14:26:31,  3.49it/s] 51%|█████     | 189835/371472 [4:02:43<14:13:27,  3.55it/s] 51%|█████     | 189836/371472 [4:02:43<15:04:33,  3.35it/s] 51%|█████     | 189837/371472 [4:02:44<14:46:35,  3.41it/s] 51%|█████     | 189838/371472 [4:02:44<14:39:17,  3.44it/s] 51%|█████     | 189839/371472 [4:02:44<15:01:22,  3.36it/s] 51%|█████     | 189840/371472 [4:02:45<15:53:56,  3.17it/s]                                                            {'loss': 3.0734, 'learning_rate': 5.402939085091252e-07, 'epoch': 8.18}
 51%|█████     | 189840/371472 [4:02:45<15:53:56,  3.17it/s] 51%|█████     | 189841/371472 [4:02:45<15:25:56,  3.27it/s] 51%|█████     | 189842/371472 [4:02:45<14:57:41,  3.37it/s] 51%|█████     | 189843/371472 [4:02:45<14:37:30,  3.45it/s] 51%|█████     | 189844/371472 [4:02:46<15:13:48,  3.31it/s] 51%|█████     | 189845/371472 [4:02:46<16:00:28,  3.15it/s] 51%|█████     | 189846/371472 [4:02:46<16:13:34,  3.11it/s] 51%|█████     | 189847/371472 [4:02:47<15:39:16,  3.22it/s] 51%|█████     | 189848/371472 [4:02:47<15:01:24,  3.36it/s] 51%|█████     | 189849/371472 [4:02:47<16:51:18,  2.99it/s] 51%|█████     | 189850/371472 [4:02:48<15:48:13,  3.19it/s] 51%|█████     | 189851/371472 [4:02:48<16:06:01,  3.13it/s] 51%|█████     | 189852/371472 [4:02:48<15:26:56,  3.27it/s] 51%|█████     | 189853/371472 [4:02:49<15:36:07,  3.23it/s] 51%|█████     | 189854/371472 [4:02:49<15:28:19,  3.26it/s] 51%|█████     | 189855/371472 [4:02:49<14:41:02,  3.44it/s] 51%|█████     | 189856/371472 [4:02:49<14:04:24,  3.58it/s] 51%|█████     | 189857/371472 [4:02:50<13:52:46,  3.63it/s] 51%|█████     | 189858/371472 [4:02:50<13:44:57,  3.67it/s] 51%|█████     | 189859/371472 [4:02:50<14:17:49,  3.53it/s] 51%|█████     | 189860/371472 [4:02:51<14:30:58,  3.48it/s]                                                            {'loss': 2.8348, 'learning_rate': 5.402454265336464e-07, 'epoch': 8.18}
 51%|█████     | 189860/371472 [4:02:51<14:30:58,  3.48it/s] 51%|█████     | 189861/371472 [4:02:51<14:55:16,  3.38it/s] 51%|█████     | 189862/371472 [4:02:51<14:41:59,  3.43it/s] 51%|█████     | 189863/371472 [4:02:51<14:07:02,  3.57it/s] 51%|█████     | 189864/371472 [4:02:52<13:44:20,  3.67it/s] 51%|█████     | 189865/371472 [4:02:52<14:50:33,  3.40it/s] 51%|█████     | 189866/371472 [4:02:52<15:39:24,  3.22it/s] 51%|█████     | 189867/371472 [4:02:53<14:46:02,  3.42it/s] 51%|█████     | 189868/371472 [4:02:53<14:16:02,  3.54it/s] 51%|█████     | 189869/371472 [4:02:53<14:29:14,  3.48it/s] 51%|█████     | 189870/371472 [4:02:53<15:10:09,  3.33it/s] 51%|█████     | 189871/371472 [4:02:54<15:19:23,  3.29it/s] 51%|█████     | 189872/371472 [4:02:54<15:02:09,  3.35it/s] 51%|█████     | 189873/371472 [4:02:54<14:49:31,  3.40it/s] 51%|█████     | 189874/371472 [4:02:55<14:25:59,  3.50it/s] 51%|█████     | 189875/371472 [4:02:55<14:16:12,  3.53it/s] 51%|█████     | 189876/371472 [4:02:55<14:14:06,  3.54it/s] 51%|█████     | 189877/371472 [4:02:55<14:21:25,  3.51it/s] 51%|█████     | 189878/371472 [4:02:56<14:37:07,  3.45it/s] 51%|█████     | 189879/371472 [4:02:56<14:17:17,  3.53it/s] 51%|█████     | 189880/371472 [4:02:56<14:37:02,  3.45it/s]                                                            {'loss': 2.9356, 'learning_rate': 5.401969445581676e-07, 'epoch': 8.18}
 51%|█████     | 189880/371472 [4:02:56<14:37:02,  3.45it/s] 51%|█████     | 189881/371472 [4:02:57<14:42:58,  3.43it/s] 51%|█████     | 189882/371472 [4:02:57<14:32:35,  3.47it/s] 51%|█████     | 189883/371472 [4:02:57<14:17:52,  3.53it/s] 51%|█████     | 189884/371472 [4:02:57<14:17:10,  3.53it/s] 51%|█████     | 189885/371472 [4:02:58<14:30:10,  3.48it/s] 51%|█████     | 189886/371472 [4:02:58<14:44:13,  3.42it/s] 51%|█████     | 189887/371472 [4:02:58<15:11:05,  3.32it/s] 51%|█████     | 189888/371472 [4:02:59<15:21:25,  3.28it/s] 51%|█████     | 189889/371472 [4:02:59<14:42:12,  3.43it/s] 51%|█████     | 189890/371472 [4:02:59<14:21:20,  3.51it/s] 51%|█████     | 189891/371472 [4:03:00<14:46:13,  3.41it/s] 51%|█████     | 189892/371472 [4:03:00<14:37:27,  3.45it/s] 51%|█████     | 189893/371472 [4:03:00<13:54:30,  3.63it/s] 51%|█████     | 189894/371472 [4:03:00<14:40:51,  3.44it/s] 51%|█████     | 189895/371472 [4:03:01<14:25:53,  3.50it/s] 51%|█████     | 189896/371472 [4:03:01<14:04:22,  3.58it/s] 51%|█████     | 189897/371472 [4:03:01<14:02:33,  3.59it/s] 51%|█████     | 189898/371472 [4:03:01<13:35:13,  3.71it/s] 51%|█████     | 189899/371472 [4:03:02<14:02:12,  3.59it/s] 51%|█████     | 189900/371472 [4:03:02<14:48:41,  3.41it/s]                                                            {'loss': 2.8518, 'learning_rate': 5.401484625826886e-07, 'epoch': 8.18}
 51%|█████     | 189900/371472 [4:03:02<14:48:41,  3.41it/s] 51%|█████     | 189901/371472 [4:03:02<15:12:02,  3.32it/s] 51%|█████     | 189902/371472 [4:03:03<14:41:10,  3.43it/s] 51%|█████     | 189903/371472 [4:03:03<14:20:58,  3.51it/s] 51%|█████     | 189904/371472 [4:03:03<15:37:26,  3.23it/s] 51%|█████     | 189905/371472 [4:03:04<16:26:26,  3.07it/s] 51%|█████     | 189906/371472 [4:03:04<15:34:24,  3.24it/s] 51%|█████     | 189907/371472 [4:03:04<15:38:46,  3.22it/s] 51%|█████     | 189908/371472 [4:03:05<17:48:21,  2.83it/s] 51%|█████     | 189909/371472 [4:03:05<16:10:05,  3.12it/s] 51%|█████     | 189910/371472 [4:03:05<15:39:42,  3.22it/s] 51%|█████     | 189911/371472 [4:03:05<14:49:51,  3.40it/s] 51%|█████     | 189912/371472 [4:03:06<14:26:19,  3.49it/s] 51%|█████     | 189913/371472 [4:03:06<14:06:43,  3.57it/s] 51%|█████     | 189914/371472 [4:03:06<14:05:43,  3.58it/s] 51%|█████     | 189915/371472 [4:03:07<13:57:15,  3.61it/s] 51%|█████     | 189916/371472 [4:03:07<14:35:12,  3.46it/s] 51%|█████     | 189917/371472 [4:03:07<14:38:31,  3.44it/s] 51%|█████     | 189918/371472 [4:03:07<14:31:18,  3.47it/s] 51%|█████     | 189919/371472 [4:03:08<14:22:24,  3.51it/s] 51%|█████     | 189920/371472 [4:03:08<14:31:14,  3.47it/s]                                                            {'loss': 2.9737, 'learning_rate': 5.400999806072098e-07, 'epoch': 8.18}
 51%|█████     | 189920/371472 [4:03:08<14:31:14,  3.47it/s] 51%|█████     | 189921/371472 [4:03:08<14:16:10,  3.53it/s] 51%|█████     | 189922/371472 [4:03:09<14:34:57,  3.46it/s] 51%|█████     | 189923/371472 [4:03:09<14:14:31,  3.54it/s] 51%|█████     | 189924/371472 [4:03:09<13:57:33,  3.61it/s] 51%|█████     | 189925/371472 [4:03:09<13:38:23,  3.70it/s] 51%|█████     | 189926/371472 [4:03:10<14:37:53,  3.45it/s] 51%|█████     | 189927/371472 [4:03:10<14:34:21,  3.46it/s] 51%|█████     | 189928/371472 [4:03:10<14:16:19,  3.53it/s] 51%|█████     | 189929/371472 [4:03:11<14:13:28,  3.55it/s] 51%|█████     | 189930/371472 [4:03:11<14:08:56,  3.56it/s] 51%|█████     | 189931/371472 [4:03:11<13:46:37,  3.66it/s] 51%|█████     | 189932/371472 [4:03:11<13:48:22,  3.65it/s] 51%|█████     | 189933/371472 [4:03:12<14:16:41,  3.53it/s] 51%|█████     | 189934/371472 [4:03:12<14:19:36,  3.52it/s] 51%|█████     | 189935/371472 [4:03:12<14:04:13,  3.58it/s] 51%|█████     | 189936/371472 [4:03:12<14:03:21,  3.59it/s] 51%|█████     | 189937/371472 [4:03:13<14:30:01,  3.48it/s] 51%|█████     | 189938/371472 [4:03:13<13:56:37,  3.62it/s] 51%|█████     | 189939/371472 [4:03:13<14:36:13,  3.45it/s] 51%|█████     | 189940/371472 [4:03:14<14:54:21,  3.38it/s]                                                            {'loss': 2.9249, 'learning_rate': 5.40051498631731e-07, 'epoch': 8.18}
 51%|█████     | 189940/371472 [4:03:14<14:54:21,  3.38it/s] 51%|█████     | 189941/371472 [4:03:14<14:32:22,  3.47it/s] 51%|█████     | 189942/371472 [4:03:14<14:17:53,  3.53it/s] 51%|█████     | 189943/371472 [4:03:15<16:36:16,  3.04it/s] 51%|█████     | 189944/371472 [4:03:15<15:51:53,  3.18it/s] 51%|█████     | 189945/371472 [4:03:15<15:13:29,  3.31it/s] 51%|█████     | 189946/371472 [4:03:16<15:31:27,  3.25it/s] 51%|█████     | 189947/371472 [4:03:16<15:09:18,  3.33it/s] 51%|█████     | 189948/371472 [4:03:16<14:50:00,  3.40it/s] 51%|█████     | 189949/371472 [4:03:16<14:26:47,  3.49it/s] 51%|█████     | 189950/371472 [4:03:17<13:57:11,  3.61it/s] 51%|█████     | 189951/371472 [4:03:17<14:01:10,  3.60it/s] 51%|█████     | 189952/371472 [4:03:17<14:46:39,  3.41it/s] 51%|█████     | 189953/371472 [4:03:18<14:55:48,  3.38it/s] 51%|█████     | 189954/371472 [4:03:18<15:33:24,  3.24it/s] 51%|█████     | 189955/371472 [4:03:18<14:32:19,  3.47it/s] 51%|█████     | 189956/371472 [4:03:18<15:16:08,  3.30it/s] 51%|█████     | 189957/371472 [4:03:19<15:00:25,  3.36it/s] 51%|█████     | 189958/371472 [4:03:19<14:29:49,  3.48it/s] 51%|█████     | 189959/371472 [4:03:19<14:31:27,  3.47it/s] 51%|█████     | 189960/371472 [4:03:20<13:49:32,  3.65it/s]                                                            {'loss': 2.9626, 'learning_rate': 5.40003016656252e-07, 'epoch': 8.18}
 51%|█████     | 189960/371472 [4:03:20<13:49:32,  3.65it/s] 51%|█████     | 189961/371472 [4:03:20<13:31:31,  3.73it/s] 51%|█████     | 189962/371472 [4:03:20<13:02:14,  3.87it/s] 51%|█████     | 189963/371472 [4:03:20<13:05:27,  3.85it/s] 51%|█████     | 189964/371472 [4:03:21<14:28:15,  3.48it/s] 51%|█████     | 189965/371472 [4:03:21<13:59:51,  3.60it/s] 51%|█████     | 189966/371472 [4:03:21<13:42:02,  3.68it/s] 51%|█████     | 189967/371472 [4:03:21<13:45:42,  3.66it/s] 51%|█████     | 189968/371472 [4:03:22<13:38:00,  3.70it/s] 51%|█████     | 189969/371472 [4:03:22<14:22:36,  3.51it/s] 51%|█████     | 189970/371472 [4:03:22<14:15:01,  3.54it/s] 51%|█████     | 189971/371472 [4:03:23<13:56:27,  3.62it/s] 51%|█████     | 189972/371472 [4:03:23<13:59:08,  3.60it/s] 51%|█████     | 189973/371472 [4:03:23<13:37:24,  3.70it/s] 51%|█████     | 189974/371472 [4:03:23<13:26:20,  3.75it/s] 51%|█████     | 189975/371472 [4:03:24<13:43:56,  3.67it/s] 51%|█████     | 189976/371472 [4:03:24<13:26:57,  3.75it/s] 51%|█████     | 189977/371472 [4:03:24<14:53:26,  3.39it/s] 51%|█████     | 189978/371472 [4:03:25<14:26:31,  3.49it/s] 51%|█████     | 189979/371472 [4:03:25<14:58:05,  3.37it/s] 51%|█████     | 189980/371472 [4:03:25<14:13:56,  3.54it/s]                                                            {'loss': 2.9824, 'learning_rate': 5.39954534680773e-07, 'epoch': 8.18}
 51%|█████     | 189980/371472 [4:03:25<14:13:56,  3.54it/s] 51%|█████     | 189981/371472 [4:03:25<14:50:30,  3.40it/s] 51%|█████     | 189982/371472 [4:03:26<14:21:06,  3.51it/s] 51%|█████     | 189983/371472 [4:03:26<14:00:50,  3.60it/s] 51%|█████     | 189984/371472 [4:03:26<13:43:54,  3.67it/s] 51%|█████     | 189985/371472 [4:03:26<13:18:41,  3.79it/s] 51%|█████     | 189986/371472 [4:03:27<13:26:29,  3.75it/s] 51%|█████     | 189987/371472 [4:03:27<13:33:15,  3.72it/s] 51%|█████     | 189988/371472 [4:03:27<13:17:19,  3.79it/s] 51%|█████     | 189989/371472 [4:03:28<14:22:35,  3.51it/s] 51%|█████     | 189990/371472 [4:03:28<14:36:05,  3.45it/s] 51%|█████     | 189991/371472 [4:03:28<14:26:57,  3.49it/s] 51%|█████     | 189992/371472 [4:03:28<15:02:34,  3.35it/s] 51%|█████     | 189993/371472 [4:03:29<15:23:35,  3.27it/s] 51%|█████     | 189994/371472 [4:03:29<14:41:45,  3.43it/s] 51%|█████     | 189995/371472 [4:03:29<15:44:45,  3.20it/s] 51%|█████     | 189996/371472 [4:03:30<14:45:36,  3.42it/s] 51%|█████     | 189997/371472 [4:03:30<14:36:56,  3.45it/s] 51%|█████     | 189998/371472 [4:03:30<14:05:42,  3.58it/s] 51%|█████     | 189999/371472 [4:03:31<14:40:19,  3.44it/s] 51%|█████     | 190000/371472 [4:03:31<14:31:48,  3.47it/s]                                                            {'loss': 3.0272, 'learning_rate': 5.399060527052942e-07, 'epoch': 8.18}
 51%|█████     | 190000/371472 [4:03:31<14:31:48,  3.47it/s] 51%|█████     | 190001/371472 [4:03:31<14:06:50,  3.57it/s] 51%|█████     | 190002/371472 [4:03:31<14:30:55,  3.47it/s] 51%|█████     | 190003/371472 [4:03:32<14:56:14,  3.37it/s] 51%|█████     | 190004/371472 [4:03:32<14:46:14,  3.41it/s] 51%|█████     | 190005/371472 [4:03:32<14:41:14,  3.43it/s] 51%|█████     | 190006/371472 [4:03:33<15:15:53,  3.30it/s] 51%|█████     | 190007/371472 [4:03:33<14:38:54,  3.44it/s] 51%|█████     | 190008/371472 [4:03:33<14:29:58,  3.48it/s] 51%|█████     | 190009/371472 [4:03:33<14:20:30,  3.51it/s] 51%|█████     | 190010/371472 [4:03:34<13:45:39,  3.66it/s] 51%|█████     | 190011/371472 [4:03:34<13:53:50,  3.63it/s] 51%|█████     | 190012/371472 [4:03:34<13:49:05,  3.65it/s] 51%|█████     | 190013/371472 [4:03:34<13:50:22,  3.64it/s] 51%|█████     | 190014/371472 [4:03:35<13:32:05,  3.72it/s] 51%|█████     | 190015/371472 [4:03:35<13:40:22,  3.69it/s] 51%|█████     | 190016/371472 [4:03:35<14:05:44,  3.58it/s] 51%|█████     | 190017/371472 [4:03:36<14:12:43,  3.55it/s] 51%|█████     | 190018/371472 [4:03:36<13:46:12,  3.66it/s] 51%|█████     | 190019/371472 [4:03:36<14:07:16,  3.57it/s] 51%|█████     | 190020/371472 [4:03:36<14:29:03,  3.48it/s]                                                            {'loss': 3.1042, 'learning_rate': 5.398575707298153e-07, 'epoch': 8.18}
 51%|█████     | 190020/371472 [4:03:36<14:29:03,  3.48it/s] 51%|█████     | 190021/371472 [4:03:37<15:16:15,  3.30it/s] 51%|█████     | 190022/371472 [4:03:37<14:29:07,  3.48it/s] 51%|█████     | 190023/371472 [4:03:37<14:27:24,  3.49it/s] 51%|█████     | 190024/371472 [4:03:38<15:07:21,  3.33it/s] 51%|█████     | 190025/371472 [4:03:38<14:52:19,  3.39it/s] 51%|█████     | 190026/371472 [4:03:38<14:48:27,  3.40it/s] 51%|█████     | 190027/371472 [4:03:38<14:12:07,  3.55it/s] 51%|█████     | 190028/371472 [4:03:39<15:44:26,  3.20it/s] 51%|█████     | 190029/371472 [4:03:39<15:35:40,  3.23it/s] 51%|█████     | 190030/371472 [4:03:39<14:54:57,  3.38it/s] 51%|█████     | 190031/371472 [4:03:40<15:31:51,  3.25it/s] 51%|█████     | 190032/371472 [4:03:40<15:06:29,  3.34it/s] 51%|█████     | 190033/371472 [4:03:40<14:36:52,  3.45it/s] 51%|█████     | 190034/371472 [4:03:41<14:52:51,  3.39it/s] 51%|█████     | 190035/371472 [4:03:41<14:21:10,  3.51it/s] 51%|█████     | 190036/371472 [4:03:41<15:57:45,  3.16it/s] 51%|█████     | 190037/371472 [4:03:42<15:38:07,  3.22it/s] 51%|█████     | 190038/371472 [4:03:42<14:53:06,  3.39it/s] 51%|█████     | 190039/371472 [4:03:42<14:44:37,  3.42it/s] 51%|█████     | 190040/371472 [4:03:42<14:49:03,  3.40it/s]                                                            {'loss': 2.8304, 'learning_rate': 5.398090887543365e-07, 'epoch': 8.19}
 51%|█████     | 190040/371472 [4:03:42<14:49:03,  3.40it/s] 51%|█████     | 190041/371472 [4:03:43<15:20:55,  3.28it/s] 51%|█████     | 190042/371472 [4:03:43<14:57:48,  3.37it/s] 51%|█████     | 190043/371472 [4:03:43<15:42:46,  3.21it/s] 51%|█████     | 190044/371472 [4:03:44<15:21:26,  3.28it/s] 51%|█████     | 190045/371472 [4:03:44<15:33:26,  3.24it/s] 51%|█████     | 190046/371472 [4:03:44<16:32:43,  3.05it/s] 51%|█████     | 190047/371472 [4:03:45<15:23:08,  3.28it/s] 51%|█████     | 190048/371472 [4:03:45<14:53:08,  3.39it/s] 51%|█████     | 190049/371472 [4:03:45<15:11:17,  3.32it/s] 51%|█████     | 190050/371472 [4:03:45<15:00:39,  3.36it/s] 51%|█████     | 190051/371472 [4:03:46<14:17:24,  3.53it/s] 51%|█████     | 190052/371472 [4:03:46<14:00:30,  3.60it/s] 51%|█████     | 190053/371472 [4:03:46<14:09:10,  3.56it/s] 51%|█████     | 190054/371472 [4:03:47<14:40:36,  3.43it/s] 51%|█████     | 190055/371472 [4:03:47<14:29:35,  3.48it/s] 51%|█████     | 190056/371472 [4:03:47<14:43:56,  3.42it/s] 51%|█████     | 190057/371472 [4:03:47<14:46:19,  3.41it/s] 51%|█████     | 190058/371472 [4:03:48<14:13:18,  3.54it/s] 51%|█████     | 190059/371472 [4:03:48<13:55:46,  3.62it/s] 51%|█████     | 190060/371472 [4:03:48<13:30:35,  3.73it/s]                                                            {'loss': 3.0336, 'learning_rate': 5.397606067788575e-07, 'epoch': 8.19}
 51%|█████     | 190060/371472 [4:03:48<13:30:35,  3.73it/s] 51%|█████     | 190061/371472 [4:03:49<14:33:59,  3.46it/s] 51%|█████     | 190062/371472 [4:03:49<14:41:17,  3.43it/s] 51%|█████     | 190063/371472 [4:03:49<14:34:49,  3.46it/s] 51%|█████     | 190064/371472 [4:03:49<14:19:45,  3.52it/s] 51%|█████     | 190065/371472 [4:03:50<13:53:39,  3.63it/s] 51%|█████     | 190066/371472 [4:03:50<14:17:26,  3.53it/s] 51%|█████     | 190067/371472 [4:03:50<14:15:32,  3.53it/s] 51%|█████     | 190068/371472 [4:03:51<14:13:44,  3.54it/s] 51%|█████     | 190069/371472 [4:03:51<15:07:50,  3.33it/s] 51%|█████     | 190070/371472 [4:03:51<14:29:53,  3.48it/s] 51%|█████     | 190071/371472 [4:03:51<14:07:46,  3.57it/s] 51%|█████     | 190072/371472 [4:03:52<13:55:02,  3.62it/s] 51%|█████     | 190073/371472 [4:03:52<13:41:25,  3.68it/s] 51%|█████     | 190074/371472 [4:03:52<13:45:55,  3.66it/s] 51%|█████     | 190075/371472 [4:03:53<14:53:11,  3.38it/s] 51%|█████     | 190076/371472 [4:03:53<14:28:29,  3.48it/s] 51%|█████     | 190077/371472 [4:03:53<15:15:12,  3.30it/s] 51%|█████     | 190078/371472 [4:03:53<15:02:55,  3.35it/s] 51%|█████     | 190079/371472 [4:03:54<14:41:09,  3.43it/s] 51%|█████     | 190080/371472 [4:03:54<15:04:07,  3.34it/s]                                                            {'loss': 2.7645, 'learning_rate': 5.397121248033786e-07, 'epoch': 8.19}
 51%|█████     | 190080/371472 [4:03:54<15:04:07,  3.34it/s] 51%|█████     | 190081/371472 [4:03:54<14:13:04,  3.54it/s] 51%|█████     | 190082/371472 [4:03:55<14:20:41,  3.51it/s] 51%|█████     | 190083/371472 [4:03:55<14:56:10,  3.37it/s] 51%|█████     | 190084/371472 [4:03:55<14:31:30,  3.47it/s] 51%|█████     | 190085/371472 [4:03:56<15:27:34,  3.26it/s] 51%|█████     | 190086/371472 [4:03:56<15:16:54,  3.30it/s] 51%|█████     | 190087/371472 [4:03:56<14:38:28,  3.44it/s] 51%|█████     | 190088/371472 [4:03:56<14:55:45,  3.37it/s] 51%|█████     | 190089/371472 [4:03:57<15:02:40,  3.35it/s] 51%|█████     | 190090/371472 [4:03:57<14:39:20,  3.44it/s] 51%|█████     | 190091/371472 [4:03:57<14:13:56,  3.54it/s] 51%|█████     | 190092/371472 [4:03:58<15:08:38,  3.33it/s] 51%|█████     | 190093/371472 [4:03:58<15:01:37,  3.35it/s] 51%|█████     | 190094/371472 [4:03:58<14:32:39,  3.46it/s] 51%|█████     | 190095/371472 [4:03:58<14:36:13,  3.45it/s] 51%|█████     | 190096/371472 [4:03:59<14:24:10,  3.50it/s] 51%|█████     | 190097/371472 [4:03:59<14:11:43,  3.55it/s] 51%|█████     | 190098/371472 [4:03:59<13:57:14,  3.61it/s] 51%|█████     | 190099/371472 [4:04:00<14:53:01,  3.38it/s] 51%|█████     | 190100/371472 [4:04:00<14:21:07,  3.51it/s]                                                            {'loss': 2.9049, 'learning_rate': 5.396636428278997e-07, 'epoch': 8.19}
 51%|█████     | 190100/371472 [4:04:00<14:21:07,  3.51it/s] 51%|█████     | 190101/371472 [4:04:00<15:17:47,  3.29it/s] 51%|█████     | 190102/371472 [4:04:01<15:20:11,  3.28it/s] 51%|█████     | 190103/371472 [4:04:01<14:45:07,  3.42it/s] 51%|█████     | 190104/371472 [4:04:01<14:47:05,  3.41it/s] 51%|█████     | 190105/371472 [4:04:01<14:25:27,  3.49it/s] 51%|█████     | 190106/371472 [4:04:02<14:10:08,  3.56it/s] 51%|█████     | 190107/371472 [4:04:02<14:02:21,  3.59it/s] 51%|█████     | 190108/371472 [4:04:02<14:45:05,  3.42it/s] 51%|█████     | 190109/371472 [4:04:03<14:51:27,  3.39it/s] 51%|█████     | 190110/371472 [4:04:03<14:06:22,  3.57it/s] 51%|█████     | 190111/371472 [4:04:03<13:45:44,  3.66it/s] 51%|█████     | 190112/371472 [4:04:03<13:42:07,  3.68it/s] 51%|█████     | 190113/371472 [4:04:04<13:49:21,  3.64it/s] 51%|█████     | 190114/371472 [4:04:04<13:43:41,  3.67it/s] 51%|█████     | 190115/371472 [4:04:04<14:20:41,  3.51it/s] 51%|█████     | 190116/371472 [4:04:04<14:30:23,  3.47it/s] 51%|█████     | 190117/371472 [4:04:05<14:18:12,  3.52it/s] 51%|█████     | 190118/371472 [4:04:05<14:34:43,  3.46it/s] 51%|█████     | 190119/371472 [4:04:05<14:19:13,  3.52it/s] 51%|█████     | 190120/371472 [4:04:06<13:58:28,  3.60it/s]                                                            {'loss': 2.9758, 'learning_rate': 5.396151608524208e-07, 'epoch': 8.19}
 51%|█████     | 190120/371472 [4:04:06<13:58:28,  3.60it/s] 51%|█████     | 190121/371472 [4:04:06<14:04:01,  3.58it/s] 51%|█████     | 190122/371472 [4:04:06<13:57:24,  3.61it/s] 51%|█████     | 190123/371472 [4:04:06<13:50:12,  3.64it/s] 51%|█████     | 190124/371472 [4:04:07<15:03:55,  3.34it/s] 51%|█████     | 190125/371472 [4:04:07<14:53:49,  3.38it/s] 51%|█████     | 190126/371472 [4:04:07<14:03:04,  3.59it/s] 51%|█████     | 190127/371472 [4:04:07<13:34:47,  3.71it/s] 51%|█████     | 190128/371472 [4:04:08<14:18:55,  3.52it/s] 51%|█████     | 190129/371472 [4:04:08<13:51:13,  3.64it/s] 51%|█████     | 190130/371472 [4:04:08<13:47:20,  3.65it/s] 51%|█████     | 190131/371472 [4:04:09<14:53:52,  3.38it/s] 51%|█████     | 190132/371472 [4:04:09<14:47:48,  3.40it/s] 51%|█████     | 190133/371472 [4:04:09<15:03:51,  3.34it/s] 51%|█████     | 190134/371472 [4:04:10<15:14:21,  3.31it/s] 51%|█████     | 190135/371472 [4:04:10<15:13:13,  3.31it/s] 51%|█████     | 190136/371472 [4:04:10<14:46:19,  3.41it/s] 51%|█████     | 190137/371472 [4:04:10<14:46:52,  3.41it/s] 51%|█████     | 190138/371472 [4:04:11<14:37:47,  3.44it/s] 51%|█████     | 190139/371472 [4:04:11<14:23:54,  3.50it/s] 51%|█████     | 190140/371472 [4:04:11<14:24:38,  3.50it/s]                                                            {'loss': 3.0105, 'learning_rate': 5.395666788769419e-07, 'epoch': 8.19}
 51%|█████     | 190140/371472 [4:04:11<14:24:38,  3.50it/s] 51%|█████     | 190141/371472 [4:04:12<14:17:23,  3.52it/s] 51%|█████     | 190142/371472 [4:04:12<15:15:46,  3.30it/s] 51%|█████     | 190143/371472 [4:04:12<14:55:07,  3.38it/s] 51%|█████     | 190144/371472 [4:04:13<15:06:20,  3.33it/s] 51%|█████     | 190145/371472 [4:04:13<14:14:42,  3.54it/s] 51%|█████     | 190146/371472 [4:04:13<14:14:34,  3.54it/s] 51%|█████     | 190147/371472 [4:04:13<13:49:46,  3.64it/s] 51%|█████     | 190148/371472 [4:04:14<13:35:50,  3.70it/s] 51%|█████     | 190149/371472 [4:04:14<14:00:40,  3.59it/s] 51%|█████     | 190150/371472 [4:04:14<14:38:28,  3.44it/s] 51%|█████     | 190151/371472 [4:04:15<15:14:52,  3.30it/s] 51%|█████     | 190152/371472 [4:04:15<14:40:57,  3.43it/s] 51%|█████     | 190153/371472 [4:04:15<14:17:52,  3.52it/s] 51%|█████     | 190154/371472 [4:04:15<13:49:23,  3.64it/s] 51%|█████     | 190155/371472 [4:04:16<14:02:53,  3.59it/s] 51%|█████     | 190156/371472 [4:04:16<13:50:56,  3.64it/s] 51%|█████     | 190157/371472 [4:04:16<13:52:35,  3.63it/s] 51%|█████     | 190158/371472 [4:04:16<15:11:57,  3.31it/s] 51%|█████     | 190159/371472 [4:04:17<16:39:53,  3.02it/s] 51%|█████     | 190160/371472 [4:04:17<15:40:24,  3.21it/s]                                                            {'loss': 3.0297, 'learning_rate': 5.395181969014631e-07, 'epoch': 8.19}
 51%|█████     | 190160/371472 [4:04:17<15:40:24,  3.21it/s] 51%|█████     | 190161/371472 [4:04:18<16:37:25,  3.03it/s] 51%|█████     | 190162/371472 [4:04:18<15:29:54,  3.25it/s] 51%|█████     | 190163/371472 [4:04:18<15:20:22,  3.28it/s] 51%|█████     | 190164/371472 [4:04:18<15:18:52,  3.29it/s] 51%|█████     | 190165/371472 [4:04:19<15:12:07,  3.31it/s] 51%|█████     | 190166/371472 [4:04:19<14:35:50,  3.45it/s] 51%|█████     | 190167/371472 [4:04:19<13:53:16,  3.63it/s] 51%|█████     | 190168/371472 [4:04:19<13:56:13,  3.61it/s] 51%|█████     | 190169/371472 [4:04:20<14:00:34,  3.59it/s] 51%|█████     | 190170/371472 [4:04:20<14:00:23,  3.60it/s] 51%|█████     | 190171/371472 [4:04:20<14:09:43,  3.56it/s] 51%|█████     | 190172/371472 [4:04:21<13:27:29,  3.74it/s] 51%|█████     | 190173/371472 [4:04:21<13:41:48,  3.68it/s] 51%|█████     | 190174/371472 [4:04:21<13:46:16,  3.66it/s] 51%|█████     | 190175/371472 [4:04:21<13:35:21,  3.71it/s] 51%|█████     | 190176/371472 [4:04:22<13:25:03,  3.75it/s] 51%|█████     | 190177/371472 [4:04:22<13:37:53,  3.69it/s] 51%|█████     | 190178/371472 [4:04:22<13:36:33,  3.70it/s] 51%|█████     | 190179/371472 [4:04:22<13:51:02,  3.64it/s] 51%|█████     | 190180/371472 [4:04:23<13:51:54,  3.63it/s]                                                            {'loss': 2.8736, 'learning_rate': 5.394697149259842e-07, 'epoch': 8.19}
 51%|█████     | 190180/371472 [4:04:23<13:51:54,  3.63it/s] 51%|█████     | 190181/371472 [4:04:23<13:55:21,  3.62it/s] 51%|█████     | 190182/371472 [4:04:23<13:45:17,  3.66it/s] 51%|█████     | 190183/371472 [4:04:24<14:32:24,  3.46it/s] 51%|█████     | 190184/371472 [4:04:24<13:56:10,  3.61it/s] 51%|█████     | 190185/371472 [4:04:24<13:45:48,  3.66it/s] 51%|█████     | 190186/371472 [4:04:24<13:32:07,  3.72it/s] 51%|█████     | 190187/371472 [4:04:25<13:49:17,  3.64it/s] 51%|█████     | 190188/371472 [4:04:25<13:43:28,  3.67it/s] 51%|█████     | 190189/371472 [4:04:25<14:00:41,  3.59it/s] 51%|█████     | 190190/371472 [4:04:25<13:44:47,  3.66it/s] 51%|█████     | 190191/371472 [4:04:26<14:06:39,  3.57it/s] 51%|█████     | 190192/371472 [4:04:26<14:32:02,  3.46it/s] 51%|█████     | 190193/371472 [4:04:26<13:45:40,  3.66it/s] 51%|█████     | 190194/371472 [4:04:27<13:29:23,  3.73it/s] 51%|█████     | 190195/371472 [4:04:27<13:31:40,  3.72it/s] 51%|█████     | 190196/371472 [4:04:27<15:09:00,  3.32it/s] 51%|█████     | 190197/371472 [4:04:27<14:30:00,  3.47it/s] 51%|█████     | 190198/371472 [4:04:28<14:09:22,  3.56it/s] 51%|█████     | 190199/371472 [4:04:28<13:49:13,  3.64it/s] 51%|█████     | 190200/371472 [4:04:28<13:41:13,  3.68it/s]                                                            {'loss': 3.2142, 'learning_rate': 5.394212329505052e-07, 'epoch': 8.19}
 51%|█████     | 190200/371472 [4:04:28<13:41:13,  3.68it/s] 51%|█████     | 190201/371472 [4:04:29<13:48:33,  3.65it/s] 51%|█████     | 190202/371472 [4:04:29<13:45:16,  3.66it/s] 51%|█████     | 190203/371472 [4:04:29<13:16:30,  3.79it/s] 51%|█████     | 190204/371472 [4:04:29<13:44:01,  3.67it/s] 51%|█████     | 190205/371472 [4:04:30<13:32:00,  3.72it/s] 51%|█████     | 190206/371472 [4:04:30<13:38:58,  3.69it/s] 51%|█████     | 190207/371472 [4:04:30<13:41:22,  3.68it/s] 51%|█████     | 190208/371472 [4:04:30<14:00:32,  3.59it/s] 51%|█████     | 190209/371472 [4:04:31<13:47:59,  3.65it/s] 51%|█████     | 190210/371472 [4:04:31<13:40:51,  3.68it/s] 51%|█████     | 190211/371472 [4:04:31<13:34:44,  3.71it/s] 51%|█████     | 190212/371472 [4:04:32<13:32:43,  3.72it/s] 51%|█████     | 190213/371472 [4:04:32<14:14:37,  3.53it/s] 51%|█████     | 190214/371472 [4:04:32<16:43:38,  3.01it/s] 51%|█████     | 190215/371472 [4:04:33<16:03:58,  3.13it/s] 51%|█████     | 190216/371472 [4:04:33<15:29:58,  3.25it/s] 51%|█████     | 190217/371472 [4:04:33<15:20:56,  3.28it/s] 51%|█████     | 190218/371472 [4:04:33<14:31:37,  3.47it/s] 51%|█████     | 190219/371472 [4:04:34<14:10:37,  3.55it/s] 51%|█████     | 190220/371472 [4:04:34<14:02:15,  3.59it/s]                                                            {'loss': 2.9924, 'learning_rate': 5.393727509750263e-07, 'epoch': 8.19}
 51%|█████     | 190220/371472 [4:04:34<14:02:15,  3.59it/s] 51%|█████     | 190221/371472 [4:04:34<13:44:55,  3.66it/s] 51%|█████     | 190222/371472 [4:04:34<13:54:54,  3.62it/s] 51%|█████     | 190223/371472 [4:04:35<13:49:45,  3.64it/s] 51%|█████     | 190224/371472 [4:04:35<14:38:55,  3.44it/s] 51%|█████     | 190225/371472 [4:04:35<14:21:15,  3.51it/s] 51%|█████     | 190226/371472 [4:04:36<15:19:47,  3.28it/s] 51%|█████     | 190227/371472 [4:04:36<14:29:05,  3.48it/s] 51%|█████     | 190228/371472 [4:04:36<14:37:47,  3.44it/s] 51%|█████     | 190229/371472 [4:04:37<14:24:08,  3.50it/s] 51%|█████     | 190230/371472 [4:04:37<15:50:38,  3.18it/s] 51%|█████     | 190231/371472 [4:04:37<15:44:37,  3.20it/s] 51%|█████     | 190232/371472 [4:04:38<15:26:48,  3.26it/s] 51%|█████     | 190233/371472 [4:04:38<14:50:45,  3.39it/s] 51%|█████     | 190234/371472 [4:04:38<14:23:09,  3.50it/s] 51%|█████     | 190235/371472 [4:04:38<14:42:14,  3.42it/s] 51%|█████     | 190236/371472 [4:04:39<14:30:07,  3.47it/s] 51%|█████     | 190237/371472 [4:04:39<14:00:58,  3.59it/s] 51%|█████     | 190238/371472 [4:04:39<15:26:07,  3.26it/s] 51%|█████     | 190239/371472 [4:04:40<14:51:23,  3.39it/s] 51%|█████     | 190240/371472 [4:04:40<14:35:50,  3.45it/s]                                                            {'loss': 3.052, 'learning_rate': 5.393242689995476e-07, 'epoch': 8.19}
 51%|█████     | 190240/371472 [4:04:40<14:35:50,  3.45it/s] 51%|█████     | 190241/371472 [4:04:40<14:50:17,  3.39it/s] 51%|█████     | 190242/371472 [4:04:40<14:37:44,  3.44it/s] 51%|█████     | 190243/371472 [4:04:41<14:20:37,  3.51it/s] 51%|█████     | 190244/371472 [4:04:41<14:06:19,  3.57it/s] 51%|█████     | 190245/371472 [4:04:41<13:37:07,  3.70it/s] 51%|█████     | 190246/371472 [4:04:42<14:24:24,  3.49it/s] 51%|█████     | 190247/371472 [4:04:42<14:05:51,  3.57it/s] 51%|█████     | 190248/371472 [4:04:42<13:49:43,  3.64it/s] 51%|█████     | 190249/371472 [4:04:42<13:47:48,  3.65it/s] 51%|█████     | 190250/371472 [4:04:43<13:43:43,  3.67it/s] 51%|█████     | 190251/371472 [4:04:43<13:52:38,  3.63it/s] 51%|█████     | 190252/371472 [4:04:43<14:13:37,  3.54it/s] 51%|█████     | 190253/371472 [4:04:43<13:45:33,  3.66it/s] 51%|█████     | 190254/371472 [4:04:44<14:05:19,  3.57it/s] 51%|█████     | 190255/371472 [4:04:44<14:07:55,  3.56it/s] 51%|█████     | 190256/371472 [4:04:44<15:16:57,  3.29it/s] 51%|█████     | 190257/371472 [4:04:45<14:58:58,  3.36it/s] 51%|█████     | 190258/371472 [4:04:45<14:27:53,  3.48it/s] 51%|█████     | 190259/371472 [4:04:45<13:55:59,  3.61it/s] 51%|█████     | 190260/371472 [4:04:45<13:40:39,  3.68it/s]                                                            {'loss': 2.8565, 'learning_rate': 5.392757870240686e-07, 'epoch': 8.19}
 51%|█████     | 190260/371472 [4:04:45<13:40:39,  3.68it/s] 51%|█████     | 190261/371472 [4:04:46<13:45:16,  3.66it/s] 51%|█████     | 190262/371472 [4:04:46<13:35:53,  3.70it/s] 51%|█████     | 190263/371472 [4:04:46<13:34:15,  3.71it/s] 51%|█████     | 190264/371472 [4:04:46<13:39:11,  3.69it/s] 51%|█████     | 190265/371472 [4:04:47<13:39:11,  3.69it/s] 51%|█████     | 190266/371472 [4:04:47<13:40:51,  3.68it/s] 51%|█████     | 190267/371472 [4:04:47<14:04:58,  3.57it/s] 51%|█████     | 190268/371472 [4:04:48<13:58:01,  3.60it/s] 51%|█████     | 190269/371472 [4:04:48<13:39:36,  3.68it/s] 51%|█████     | 190270/371472 [4:04:48<13:31:16,  3.72it/s] 51%|█████     | 190271/371472 [4:04:48<13:51:47,  3.63it/s] 51%|█████     | 190272/371472 [4:04:49<14:04:30,  3.58it/s] 51%|█████     | 190273/371472 [4:04:49<15:03:30,  3.34it/s] 51%|█████     | 190274/371472 [4:04:49<14:44:04,  3.42it/s] 51%|█████     | 190275/371472 [4:04:50<14:16:51,  3.52it/s] 51%|█████     | 190276/371472 [4:04:50<14:28:32,  3.48it/s] 51%|█████     | 190277/371472 [4:04:50<14:49:55,  3.39it/s] 51%|█████     | 190278/371472 [4:04:50<14:07:29,  3.56it/s] 51%|█████     | 190279/371472 [4:04:51<13:57:29,  3.61it/s] 51%|█████     | 190280/371472 [4:04:51<13:30:53,  3.72it/s]                                                            {'loss': 3.145, 'learning_rate': 5.392273050485897e-07, 'epoch': 8.2}
 51%|█████     | 190280/371472 [4:04:51<13:30:53,  3.72it/s] 51%|█████     | 190281/371472 [4:04:51<13:47:17,  3.65it/s] 51%|█████     | 190282/371472 [4:04:52<14:13:19,  3.54it/s] 51%|█████     | 190283/371472 [4:04:52<14:06:12,  3.57it/s] 51%|█████     | 190284/371472 [4:04:52<14:26:25,  3.49it/s] 51%|█████     | 190285/371472 [4:04:52<14:08:18,  3.56it/s] 51%|█████     | 190286/371472 [4:04:53<13:52:04,  3.63it/s] 51%|█████     | 190287/371472 [4:04:53<14:26:17,  3.49it/s] 51%|█████     | 190288/371472 [4:04:53<14:19:05,  3.52it/s] 51%|█████     | 190289/371472 [4:04:54<13:59:50,  3.60it/s] 51%|█████     | 190290/371472 [4:04:54<13:57:36,  3.61it/s] 51%|█████     | 190291/371472 [4:04:54<13:55:43,  3.61it/s] 51%|█████     | 190292/371472 [4:04:54<14:20:01,  3.51it/s] 51%|█████     | 190293/371472 [4:04:55<14:11:01,  3.55it/s] 51%|█████     | 190294/371472 [4:04:55<15:24:14,  3.27it/s] 51%|█████     | 190295/371472 [4:04:55<15:32:59,  3.24it/s] 51%|█████     | 190296/371472 [4:04:56<15:23:21,  3.27it/s] 51%|█████     | 190297/371472 [4:04:56<15:05:46,  3.33it/s] 51%|█████     | 190298/371472 [4:04:56<15:00:18,  3.35it/s] 51%|█████     | 190299/371472 [4:04:56<14:16:29,  3.53it/s] 51%|█████     | 190300/371472 [4:04:57<13:58:45,  3.60it/s]                                                            {'loss': 2.8629, 'learning_rate': 5.391788230731108e-07, 'epoch': 8.2}
 51%|█████     | 190300/371472 [4:04:57<13:58:45,  3.60it/s] 51%|█████     | 190301/371472 [4:04:57<13:45:55,  3.66it/s] 51%|█████     | 190302/371472 [4:04:57<14:31:04,  3.47it/s] 51%|█████     | 190303/371472 [4:04:58<14:11:50,  3.54it/s] 51%|█████     | 190304/371472 [4:04:58<13:52:34,  3.63it/s] 51%|█████     | 190305/371472 [4:04:58<13:54:41,  3.62it/s] 51%|█████     | 190306/371472 [4:04:58<14:29:03,  3.47it/s] 51%|█████     | 190307/371472 [4:04:59<13:54:21,  3.62it/s] 51%|█████     | 190308/371472 [4:04:59<14:05:29,  3.57it/s] 51%|█████     | 190309/371472 [4:04:59<14:04:54,  3.57it/s] 51%|█████     | 190310/371472 [4:05:00<14:15:42,  3.53it/s] 51%|█████     | 190311/371472 [4:05:00<14:00:36,  3.59it/s] 51%|█████     | 190312/371472 [4:05:00<13:55:58,  3.61it/s] 51%|█████     | 190313/371472 [4:05:00<13:49:21,  3.64it/s] 51%|█████     | 190314/371472 [4:05:01<13:23:06,  3.76it/s] 51%|█████     | 190315/371472 [4:05:01<13:33:22,  3.71it/s] 51%|█████     | 190316/371472 [4:05:01<13:53:05,  3.62it/s] 51%|█████     | 190317/371472 [4:05:01<13:27:43,  3.74it/s] 51%|█████     | 190318/371472 [4:05:02<14:09:44,  3.55it/s] 51%|█████     | 190319/371472 [4:05:02<13:58:27,  3.60it/s] 51%|█████     | 190320/371472 [4:05:02<15:13:42,  3.30it/s]                                                            {'loss': 3.0736, 'learning_rate': 5.391303410976319e-07, 'epoch': 8.2}
 51%|█████     | 190320/371472 [4:05:02<15:13:42,  3.30it/s] 51%|█████     | 190321/371472 [4:05:03<14:32:18,  3.46it/s] 51%|█████     | 190322/371472 [4:05:03<14:21:50,  3.50it/s] 51%|█████     | 190323/371472 [4:05:03<14:05:17,  3.57it/s] 51%|█████     | 190324/371472 [4:05:03<13:57:28,  3.61it/s] 51%|█████     | 190325/371472 [4:05:04<14:49:55,  3.39it/s] 51%|█████     | 190326/371472 [4:05:04<15:02:52,  3.34it/s] 51%|█████     | 190327/371472 [4:05:04<14:29:30,  3.47it/s] 51%|█████     | 190328/371472 [4:05:05<14:52:31,  3.38it/s] 51%|█████     | 190329/371472 [4:05:05<14:48:10,  3.40it/s] 51%|█████     | 190330/371472 [4:05:05<14:39:15,  3.43it/s] 51%|█████     | 190331/371472 [4:05:05<14:21:47,  3.50it/s] 51%|█████     | 190332/371472 [4:05:06<14:33:20,  3.46it/s] 51%|█████     | 190333/371472 [4:05:06<14:25:52,  3.49it/s] 51%|█████     | 190334/371472 [4:05:06<13:59:00,  3.60it/s] 51%|█████     | 190335/371472 [4:05:07<13:59:11,  3.60it/s] 51%|█████     | 190336/371472 [4:05:07<13:53:38,  3.62it/s] 51%|█████     | 190337/371472 [4:05:07<14:44:38,  3.41it/s] 51%|█████     | 190338/371472 [4:05:07<14:18:31,  3.52it/s] 51%|█████     | 190339/371472 [4:05:08<14:00:59,  3.59it/s] 51%|█████     | 190340/371472 [4:05:08<15:28:16,  3.25it/s]                                                            {'loss': 2.8975, 'learning_rate': 5.39081859122153e-07, 'epoch': 8.2}
 51%|█████     | 190340/371472 [4:05:08<15:28:16,  3.25it/s] 51%|█████     | 190341/371472 [4:05:08<15:26:13,  3.26it/s] 51%|█████     | 190342/371472 [4:05:09<14:41:09,  3.43it/s] 51%|█████     | 190343/371472 [4:05:09<14:44:40,  3.41it/s] 51%|█████     | 190344/371472 [4:05:09<14:44:52,  3.41it/s] 51%|█████     | 190345/371472 [4:05:10<14:23:31,  3.50it/s] 51%|█████     | 190346/371472 [4:05:10<14:42:44,  3.42it/s] 51%|█████     | 190347/371472 [4:05:10<15:01:30,  3.35it/s] 51%|█████     | 190348/371472 [4:05:10<14:34:30,  3.45it/s] 51%|█████     | 190349/371472 [4:05:11<14:56:32,  3.37it/s] 51%|█████     | 190350/371472 [4:05:11<14:18:16,  3.52it/s] 51%|█████     | 190351/371472 [4:05:11<14:08:31,  3.56it/s] 51%|█████     | 190352/371472 [4:05:12<13:49:47,  3.64it/s] 51%|█████     | 190353/371472 [4:05:12<13:38:06,  3.69it/s] 51%|█████     | 190354/371472 [4:05:12<14:17:34,  3.52it/s] 51%|█████     | 190355/371472 [4:05:12<14:00:21,  3.59it/s] 51%|█████     | 190356/371472 [4:05:13<14:12:28,  3.54it/s] 51%|█████     | 190357/371472 [4:05:13<13:48:32,  3.64it/s] 51%|█████     | 190358/371472 [4:05:13<13:53:33,  3.62it/s] 51%|█████     | 190359/371472 [4:05:13<13:54:02,  3.62it/s] 51%|█████     | 190360/371472 [4:05:14<13:59:52,  3.59it/s]                                                            {'loss': 3.1246, 'learning_rate': 5.390333771466742e-07, 'epoch': 8.2}
 51%|█████     | 190360/371472 [4:05:14<13:59:52,  3.59it/s] 51%|█████     | 190361/371472 [4:05:14<13:41:51,  3.67it/s] 51%|█████     | 190362/371472 [4:05:14<13:46:23,  3.65it/s] 51%|█████     | 190363/371472 [4:05:15<14:37:17,  3.44it/s] 51%|█████     | 190364/371472 [4:05:15<14:44:15,  3.41it/s] 51%|█████     | 190365/371472 [4:05:15<14:14:00,  3.53it/s] 51%|█████     | 190366/371472 [4:05:15<13:47:39,  3.65it/s] 51%|█████     | 190367/371472 [4:05:16<13:16:20,  3.79it/s] 51%|█████     | 190368/371472 [4:05:16<13:29:04,  3.73it/s] 51%|█████     | 190369/371472 [4:05:16<13:47:05,  3.65it/s] 51%|█████     | 190370/371472 [4:05:16<13:28:21,  3.73it/s] 51%|█████     | 190371/371472 [4:05:17<13:27:26,  3.74it/s] 51%|█████     | 190372/371472 [4:05:17<13:41:00,  3.68it/s] 51%|█████     | 190373/371472 [4:05:17<13:30:51,  3.72it/s] 51%|█████     | 190374/371472 [4:05:18<14:28:58,  3.47it/s] 51%|█████     | 190375/371472 [4:05:18<14:36:53,  3.44it/s] 51%|█████     | 190376/371472 [4:05:18<14:58:35,  3.36it/s] 51%|█████     | 190377/371472 [4:05:19<15:36:30,  3.22it/s] 51%|█████     | 190378/371472 [4:05:19<14:47:13,  3.40it/s] 51%|█████     | 190379/371472 [4:05:19<14:14:46,  3.53it/s] 51%|█████▏    | 190380/371472 [4:05:19<15:41:39,  3.21it/s]                                                            {'loss': 2.9586, 'learning_rate': 5.389848951711952e-07, 'epoch': 8.2}
 51%|█████▏    | 190380/371472 [4:05:19<15:41:39,  3.21it/s] 51%|█████▏    | 190381/371472 [4:05:20<16:10:08,  3.11it/s] 51%|█████▏    | 190382/371472 [4:05:20<15:31:46,  3.24it/s] 51%|█████▏    | 190383/371472 [4:05:20<15:55:25,  3.16it/s] 51%|█████▏    | 190384/371472 [4:05:21<15:35:08,  3.23it/s] 51%|█████▏    | 190385/371472 [4:05:21<14:50:39,  3.39it/s] 51%|█████▏    | 190386/371472 [4:05:21<15:15:57,  3.30it/s] 51%|█████▏    | 190387/371472 [4:05:22<15:12:31,  3.31it/s] 51%|█████▏    | 190388/371472 [4:05:22<14:38:58,  3.43it/s] 51%|█████▏    | 190389/371472 [4:05:22<14:26:05,  3.48it/s] 51%|█████▏    | 190390/371472 [4:05:22<14:04:04,  3.58it/s] 51%|█████▏    | 190391/371472 [4:05:23<13:54:03,  3.62it/s] 51%|█████▏    | 190392/371472 [4:05:23<13:23:30,  3.76it/s] 51%|█████▏    | 190393/371472 [4:05:23<13:55:13,  3.61it/s] 51%|█████▏    | 190394/371472 [4:05:24<13:51:50,  3.63it/s] 51%|█████▏    | 190395/371472 [4:05:24<13:18:19,  3.78it/s] 51%|█████▏    | 190396/371472 [4:05:24<13:18:33,  3.78it/s] 51%|█████▏    | 190397/371472 [4:05:24<14:21:55,  3.50it/s] 51%|█████▏    | 190398/371472 [4:05:25<14:02:39,  3.58it/s] 51%|█████▏    | 190399/371472 [4:05:25<13:53:42,  3.62it/s] 51%|█████▏    | 190400/371472 [4:05:25<14:06:56,  3.56it/s]                                                            {'loss': 3.0771, 'learning_rate': 5.389364131957163e-07, 'epoch': 8.2}
 51%|█████▏    | 190400/371472 [4:05:25<14:06:56,  3.56it/s] 51%|█████▏    | 190401/371472 [4:05:25<14:54:30,  3.37it/s] 51%|█████▏    | 190402/371472 [4:05:26<14:23:23,  3.50it/s] 51%|█████▏    | 190403/371472 [4:05:26<14:27:20,  3.48it/s] 51%|█████▏    | 190404/371472 [4:05:26<14:23:10,  3.50it/s] 51%|█████▏    | 190405/371472 [4:05:27<14:06:57,  3.56it/s] 51%|█████▏    | 190406/371472 [4:05:27<14:29:04,  3.47it/s] 51%|█████▏    | 190407/371472 [4:05:27<14:00:15,  3.59it/s] 51%|█████▏    | 190408/371472 [4:05:27<14:00:42,  3.59it/s] 51%|█████▏    | 190409/371472 [4:05:28<13:57:02,  3.61it/s] 51%|█████▏    | 190410/371472 [4:05:28<14:27:24,  3.48it/s] 51%|█████▏    | 190411/371472 [4:05:28<14:29:50,  3.47it/s] 51%|█████▏    | 190412/371472 [4:05:29<14:24:44,  3.49it/s] 51%|█████▏    | 190413/371472 [4:05:29<15:51:26,  3.17it/s] 51%|█████▏    | 190414/371472 [4:05:29<15:10:14,  3.32it/s] 51%|█████▏    | 190415/371472 [4:05:30<15:15:03,  3.30it/s] 51%|█████▏    | 190416/371472 [4:05:30<15:16:31,  3.29it/s] 51%|█████▏    | 190417/371472 [4:05:30<14:36:15,  3.44it/s] 51%|█████▏    | 190418/371472 [4:05:31<16:35:13,  3.03it/s] 51%|█████▏    | 190419/371472 [4:05:31<18:37:52,  2.70it/s] 51%|█████▏    | 190420/371472 [4:05:31<17:23:03,  2.89it/s]                                                            {'loss': 2.8523, 'learning_rate': 5.388879312202374e-07, 'epoch': 8.2}
 51%|█████▏    | 190420/371472 [4:05:31<17:23:03,  2.89it/s] 51%|█████▏    | 190421/371472 [4:05:32<16:53:55,  2.98it/s] 51%|█████▏    | 190422/371472 [4:05:32<16:46:07,  3.00it/s] 51%|█████▏    | 190423/371472 [4:05:32<17:26:35,  2.88it/s] 51%|█████▏    | 190424/371472 [4:05:33<15:53:45,  3.16it/s] 51%|█████▏    | 190425/371472 [4:05:33<14:53:06,  3.38it/s] 51%|█████▏    | 190426/371472 [4:05:33<15:16:03,  3.29it/s] 51%|█████▏    | 190427/371472 [4:05:33<14:29:36,  3.47it/s] 51%|█████▏    | 190428/371472 [4:05:34<14:19:30,  3.51it/s] 51%|█████▏    | 190429/371472 [4:05:34<13:40:39,  3.68it/s] 51%|█████▏    | 190430/371472 [4:05:34<13:25:53,  3.74it/s] 51%|█████▏    | 190431/371472 [4:05:35<15:32:46,  3.23it/s] 51%|█████▏    | 190432/371472 [4:05:35<14:44:13,  3.41it/s] 51%|█████▏    | 190433/371472 [4:05:35<14:37:14,  3.44it/s] 51%|█████▏    | 190434/371472 [4:05:35<14:36:29,  3.44it/s] 51%|█████▏    | 190435/371472 [4:05:36<14:46:00,  3.41it/s] 51%|█████▏    | 190436/371472 [4:05:36<14:22:35,  3.50it/s] 51%|█████▏    | 190437/371472 [4:05:36<15:27:58,  3.25it/s] 51%|█████▏    | 190438/371472 [4:05:37<14:55:06,  3.37it/s] 51%|█████▏    | 190439/371472 [4:05:37<14:29:07,  3.47it/s] 51%|█████▏    | 190440/371472 [4:05:37<14:17:47,  3.52it/s]                                                            {'loss': 3.1236, 'learning_rate': 5.388394492447585e-07, 'epoch': 8.2}
 51%|█████▏    | 190440/371472 [4:05:37<14:17:47,  3.52it/s] 51%|█████▏    | 190441/371472 [4:05:37<13:58:36,  3.60it/s] 51%|█████▏    | 190442/371472 [4:05:38<14:22:37,  3.50it/s] 51%|█████▏    | 190443/371472 [4:05:38<13:50:03,  3.63it/s] 51%|█████▏    | 190444/371472 [4:05:38<14:05:28,  3.57it/s] 51%|█████▏    | 190445/371472 [4:05:38<13:33:55,  3.71it/s] 51%|█████▏    | 190446/371472 [4:05:39<13:39:23,  3.68it/s] 51%|█████▏    | 190447/371472 [4:05:39<14:35:11,  3.45it/s] 51%|█████▏    | 190448/371472 [4:05:39<15:57:45,  3.15it/s] 51%|█████▏    | 190449/371472 [4:05:40<15:40:30,  3.21it/s] 51%|█████▏    | 190450/371472 [4:05:40<14:51:26,  3.38it/s] 51%|█████▏    | 190451/371472 [4:05:40<14:23:38,  3.49it/s] 51%|█████▏    | 190452/371472 [4:05:41<13:51:40,  3.63it/s] 51%|█████▏    | 190453/371472 [4:05:41<13:32:22,  3.71it/s] 51%|█████▏    | 190454/371472 [4:05:41<14:09:46,  3.55it/s] 51%|█████▏    | 190455/371472 [4:05:41<13:54:49,  3.61it/s] 51%|█████▏    | 190456/371472 [4:05:42<14:17:26,  3.52it/s] 51%|█████▏    | 190457/371472 [4:05:42<14:03:48,  3.58it/s] 51%|█████▏    | 190458/371472 [4:05:42<13:46:00,  3.65it/s] 51%|█████▏    | 190459/371472 [4:05:42<13:37:57,  3.69it/s] 51%|█████▏    | 190460/371472 [4:05:43<13:08:01,  3.83it/s]                                                            {'loss': 2.9452, 'learning_rate': 5.387909672692796e-07, 'epoch': 8.2}
 51%|█████▏    | 190460/371472 [4:05:43<13:08:01,  3.83it/s] 51%|█████▏    | 190461/371472 [4:05:43<13:24:41,  3.75it/s] 51%|█████▏    | 190462/371472 [4:05:43<13:58:10,  3.60it/s] 51%|█████▏    | 190463/371472 [4:05:44<13:45:08,  3.66it/s] 51%|█████▏    | 190464/371472 [4:05:44<13:43:22,  3.66it/s] 51%|█████▏    | 190465/371472 [4:05:44<13:50:46,  3.63it/s] 51%|█████▏    | 190466/371472 [4:05:44<13:41:11,  3.67it/s] 51%|█████▏    | 190467/371472 [4:05:45<14:00:48,  3.59it/s] 51%|█████▏    | 190468/371472 [4:05:45<13:58:13,  3.60it/s] 51%|█████▏    | 190469/371472 [4:05:45<13:28:35,  3.73it/s] 51%|█████▏    | 190470/371472 [4:05:45<13:33:01,  3.71it/s] 51%|█████▏    | 190471/371472 [4:05:46<13:35:59,  3.70it/s] 51%|█████▏    | 190472/371472 [4:05:46<13:40:28,  3.68it/s] 51%|█████▏    | 190473/371472 [4:05:46<13:53:40,  3.62it/s] 51%|█████▏    | 190474/371472 [4:05:47<14:25:02,  3.49it/s] 51%|█████▏    | 190475/371472 [4:05:47<14:27:35,  3.48it/s] 51%|█████▏    | 190476/371472 [4:05:47<14:53:46,  3.38it/s] 51%|█████▏    | 190477/371472 [4:05:48<15:27:45,  3.25it/s] 51%|█████▏    | 190478/371472 [4:05:48<15:31:21,  3.24it/s] 51%|█████▏    | 190479/371472 [4:05:48<15:20:21,  3.28it/s] 51%|█████▏    | 190480/371472 [4:05:49<16:26:09,  3.06it/s]                                                            {'loss': 2.8199, 'learning_rate': 5.387424852938007e-07, 'epoch': 8.2}
 51%|█████▏    | 190480/371472 [4:05:49<16:26:09,  3.06it/s] 51%|█████▏    | 190481/371472 [4:05:49<15:16:41,  3.29it/s] 51%|█████▏    | 190482/371472 [4:05:49<15:07:50,  3.32it/s] 51%|█████▏    | 190483/371472 [4:05:49<14:40:22,  3.43it/s] 51%|█████▏    | 190484/371472 [4:05:50<14:19:06,  3.51it/s] 51%|█████▏    | 190485/371472 [4:05:50<15:11:08,  3.31it/s] 51%|█████▏    | 190486/371472 [4:05:50<15:31:35,  3.24it/s] 51%|█████▏    | 190487/371472 [4:05:51<14:26:46,  3.48it/s] 51%|█████▏    | 190488/371472 [4:05:51<14:06:47,  3.56it/s] 51%|█████▏    | 190489/371472 [4:05:51<13:52:24,  3.62it/s] 51%|█████▏    | 190490/371472 [4:05:51<13:43:32,  3.66it/s] 51%|█████▏    | 190491/371472 [4:05:52<14:04:06,  3.57it/s] 51%|█████▏    | 190492/371472 [4:05:52<13:48:20,  3.64it/s] 51%|█████▏    | 190493/371472 [4:05:52<13:51:18,  3.63it/s] 51%|█████▏    | 190494/371472 [4:05:52<13:41:09,  3.67it/s] 51%|█████▏    | 190495/371472 [4:05:53<13:23:49,  3.75it/s] 51%|█████▏    | 190496/371472 [4:05:53<13:32:16,  3.71it/s] 51%|█████▏    | 190497/371472 [4:05:53<13:22:57,  3.76it/s] 51%|█████▏    | 190498/371472 [4:05:54<13:45:11,  3.66it/s] 51%|█████▏    | 190499/371472 [4:05:54<15:11:28,  3.31it/s] 51%|█████▏    | 190500/371472 [4:05:54<14:36:59,  3.44it/s]                                                            {'loss': 2.9124, 'learning_rate': 5.386940033183218e-07, 'epoch': 8.21}
 51%|█████▏    | 190500/371472 [4:05:54<14:36:59,  3.44it/s] 51%|█████▏    | 190501/371472 [4:05:54<15:05:01,  3.33it/s] 51%|█████▏    | 190502/371472 [4:05:55<15:05:41,  3.33it/s] 51%|█████▏    | 190503/371472 [4:05:55<15:00:13,  3.35it/s] 51%|█████▏    | 190504/371472 [4:05:55<14:36:25,  3.44it/s] 51%|█████▏    | 190505/371472 [4:05:56<15:49:38,  3.18it/s] 51%|█████▏    | 190506/371472 [4:05:56<15:26:32,  3.26it/s] 51%|█████▏    | 190507/371472 [4:05:56<14:40:35,  3.43it/s] 51%|█████▏    | 190508/371472 [4:05:57<14:30:59,  3.46it/s] 51%|█████▏    | 190509/371472 [4:05:57<15:02:46,  3.34it/s] 51%|█████▏    | 190510/371472 [4:05:57<15:18:03,  3.29it/s] 51%|█████▏    | 190511/371472 [4:05:57<14:21:31,  3.50it/s] 51%|█████▏    | 190512/371472 [4:05:58<14:25:03,  3.49it/s] 51%|█████▏    | 190513/371472 [4:05:58<14:17:17,  3.52it/s] 51%|█████▏    | 190514/371472 [4:05:58<14:08:51,  3.55it/s] 51%|█████▏    | 190515/371472 [4:05:59<14:32:58,  3.45it/s] 51%|█████▏    | 190516/371472 [4:05:59<13:57:35,  3.60it/s] 51%|█████▏    | 190517/371472 [4:05:59<13:45:40,  3.65it/s] 51%|█████▏    | 190518/371472 [4:05:59<13:39:33,  3.68it/s] 51%|█████▏    | 190519/371472 [4:06:00<13:52:30,  3.62it/s] 51%|█████▏    | 190520/371472 [4:06:00<14:07:25,  3.56it/s]                                                            {'loss': 3.0427, 'learning_rate': 5.386455213428429e-07, 'epoch': 8.21}
 51%|█████▏    | 190520/371472 [4:06:00<14:07:25,  3.56it/s] 51%|█████▏    | 190521/371472 [4:06:00<13:59:46,  3.59it/s] 51%|█████▏    | 190522/371472 [4:06:00<13:43:35,  3.66it/s] 51%|█████▏    | 190523/371472 [4:06:01<13:27:48,  3.73it/s] 51%|█████▏    | 190524/371472 [4:06:01<13:54:50,  3.61it/s] 51%|█████▏    | 190525/371472 [4:06:01<15:36:18,  3.22it/s] 51%|█████▏    | 190526/371472 [4:06:02<15:24:44,  3.26it/s] 51%|█████▏    | 190527/371472 [4:06:02<15:32:08,  3.24it/s] 51%|█████▏    | 190528/371472 [4:06:02<15:05:35,  3.33it/s] 51%|█████▏    | 190529/371472 [4:06:03<14:47:34,  3.40it/s] 51%|█████▏    | 190530/371472 [4:06:03<14:46:57,  3.40it/s] 51%|█████▏    | 190531/371472 [4:06:03<14:46:26,  3.40it/s] 51%|█████▏    | 190532/371472 [4:06:03<14:35:37,  3.44it/s] 51%|█████▏    | 190533/371472 [4:06:04<15:00:15,  3.35it/s] 51%|█████▏    | 190534/371472 [4:06:04<15:02:27,  3.34it/s] 51%|█████▏    | 190535/371472 [4:06:04<14:32:12,  3.46it/s] 51%|█████▏    | 190536/371472 [4:06:05<14:23:04,  3.49it/s] 51%|█████▏    | 190537/371472 [4:06:05<14:16:43,  3.52it/s] 51%|█████▏    | 190538/371472 [4:06:05<15:08:45,  3.32it/s] 51%|█████▏    | 190539/371472 [4:06:05<14:31:15,  3.46it/s] 51%|█████▏    | 190540/371472 [4:06:06<14:07:45,  3.56it/s]                                                            {'loss': 2.8475, 'learning_rate': 5.385970393673641e-07, 'epoch': 8.21}
 51%|█████▏    | 190540/371472 [4:06:06<14:07:45,  3.56it/s] 51%|█████▏    | 190541/371472 [4:06:06<13:49:09,  3.64it/s] 51%|█████▏    | 190542/371472 [4:06:06<14:05:25,  3.57it/s] 51%|█████▏    | 190543/371472 [4:06:07<14:03:50,  3.57it/s] 51%|█████▏    | 190544/371472 [4:06:07<14:15:14,  3.53it/s] 51%|█████▏    | 190545/371472 [4:06:07<15:04:20,  3.33it/s] 51%|█████▏    | 190546/371472 [4:06:08<15:26:37,  3.25it/s] 51%|█████▏    | 190547/371472 [4:06:08<14:55:48,  3.37it/s] 51%|█████▏    | 190548/371472 [4:06:08<14:18:59,  3.51it/s] 51%|█████▏    | 190549/371472 [4:06:08<13:46:50,  3.65it/s] 51%|█████▏    | 190550/371472 [4:06:09<14:43:15,  3.41it/s] 51%|█████▏    | 190551/371472 [4:06:09<14:09:09,  3.55it/s] 51%|█████▏    | 190552/371472 [4:06:09<15:00:40,  3.35it/s] 51%|█████▏    | 190553/371472 [4:06:10<14:41:22,  3.42it/s] 51%|█████▏    | 190554/371472 [4:06:10<14:02:56,  3.58it/s] 51%|█████▏    | 190555/371472 [4:06:10<13:34:09,  3.70it/s] 51%|█████▏    | 190556/371472 [4:06:10<13:20:14,  3.77it/s] 51%|█████▏    | 190557/371472 [4:06:11<13:30:59,  3.72it/s] 51%|█████▏    | 190558/371472 [4:06:11<13:31:56,  3.71it/s] 51%|█████▏    | 190559/371472 [4:06:11<13:25:00,  3.75it/s] 51%|█████▏    | 190560/371472 [4:06:11<13:19:11,  3.77it/s]                                                            {'loss': 3.0786, 'learning_rate': 5.385485573918852e-07, 'epoch': 8.21}
 51%|█████▏    | 190560/371472 [4:06:11<13:19:11,  3.77it/s] 51%|█████▏    | 190561/371472 [4:06:12<13:18:56,  3.77it/s] 51%|█████▏    | 190562/371472 [4:06:12<13:45:15,  3.65it/s] 51%|█████▏    | 190563/371472 [4:06:12<14:43:24,  3.41it/s] 51%|█████▏    | 190564/371472 [4:06:12<14:11:10,  3.54it/s] 51%|█████▏    | 190565/371472 [4:06:13<14:27:41,  3.47it/s] 51%|█████▏    | 190566/371472 [4:06:13<14:17:15,  3.52it/s] 51%|█████▏    | 190567/371472 [4:06:13<14:06:40,  3.56it/s] 51%|█████▏    | 190568/371472 [4:06:14<14:15:37,  3.52it/s] 51%|█████▏    | 190569/371472 [4:06:14<14:50:59,  3.38it/s] 51%|█████▏    | 190570/371472 [4:06:14<14:41:50,  3.42it/s] 51%|█████▏    | 190571/371472 [4:06:15<14:13:11,  3.53it/s] 51%|█████▏    | 190572/371472 [4:06:15<14:18:18,  3.51it/s] 51%|█████▏    | 190573/371472 [4:06:15<14:01:43,  3.58it/s] 51%|█████▏    | 190574/371472 [4:06:15<14:12:46,  3.54it/s] 51%|█████▏    | 190575/371472 [4:06:16<13:58:12,  3.60it/s] 51%|█████▏    | 190576/371472 [4:06:16<14:37:58,  3.43it/s] 51%|█████▏    | 190577/371472 [4:06:16<14:13:07,  3.53it/s] 51%|█████▏    | 190578/371472 [4:06:17<14:44:10,  3.41it/s] 51%|█████▏    | 190579/371472 [4:06:17<15:14:33,  3.30it/s] 51%|█████▏    | 190580/371472 [4:06:17<15:53:39,  3.16it/s]                                                            {'loss': 2.9879, 'learning_rate': 5.385000754164062e-07, 'epoch': 8.21}
 51%|█████▏    | 190580/371472 [4:06:17<15:53:39,  3.16it/s] 51%|█████▏    | 190581/371472 [4:06:17<15:39:22,  3.21it/s] 51%|█████▏    | 190582/371472 [4:06:18<15:03:03,  3.34it/s] 51%|█████▏    | 190583/371472 [4:06:18<14:46:55,  3.40it/s] 51%|█████▏    | 190584/371472 [4:06:18<14:01:33,  3.58it/s] 51%|█████▏    | 190585/371472 [4:06:19<13:57:06,  3.60it/s] 51%|█████▏    | 190586/371472 [4:06:19<13:43:41,  3.66it/s] 51%|█████▏    | 190587/371472 [4:06:19<14:51:35,  3.38it/s] 51%|█████▏    | 190588/371472 [4:06:19<14:13:47,  3.53it/s] 51%|█████▏    | 190589/371472 [4:06:20<13:55:23,  3.61it/s] 51%|█████▏    | 190590/371472 [4:06:20<15:20:04,  3.28it/s] 51%|█████▏    | 190591/371472 [4:06:20<14:45:47,  3.40it/s] 51%|█████▏    | 190592/371472 [4:06:21<14:59:25,  3.35it/s] 51%|█████▏    | 190593/371472 [4:06:21<15:08:16,  3.32it/s] 51%|█████▏    | 190594/371472 [4:06:21<14:38:55,  3.43it/s] 51%|█████▏    | 190595/371472 [4:06:21<14:27:38,  3.47it/s] 51%|█████▏    | 190596/371472 [4:06:22<14:31:36,  3.46it/s] 51%|█████▏    | 190597/371472 [4:06:22<14:23:56,  3.49it/s] 51%|█████▏    | 190598/371472 [4:06:22<14:40:43,  3.42it/s] 51%|█████▏    | 190599/371472 [4:06:23<14:29:24,  3.47it/s] 51%|█████▏    | 190600/371472 [4:06:23<14:09:49,  3.55it/s]                                                            {'loss': 2.9966, 'learning_rate': 5.384515934409273e-07, 'epoch': 8.21}
 51%|█████▏    | 190600/371472 [4:06:23<14:09:49,  3.55it/s] 51%|█████▏    | 190601/371472 [4:06:23<14:08:09,  3.55it/s] 51%|█████▏    | 190602/371472 [4:06:23<14:04:15,  3.57it/s] 51%|█████▏    | 190603/371472 [4:06:24<15:31:21,  3.24it/s] 51%|█████▏    | 190604/371472 [4:06:24<15:00:00,  3.35it/s] 51%|█████▏    | 190605/371472 [4:06:24<14:30:44,  3.46it/s] 51%|█████▏    | 190606/371472 [4:06:25<14:02:00,  3.58it/s] 51%|█████▏    | 190607/371472 [4:06:25<15:00:00,  3.35it/s] 51%|█████▏    | 190608/371472 [4:06:25<14:53:04,  3.38it/s] 51%|█████▏    | 190609/371472 [4:06:26<15:09:12,  3.32it/s] 51%|█████▏    | 190610/371472 [4:06:26<14:15:58,  3.52it/s] 51%|█████▏    | 190611/371472 [4:06:26<14:40:08,  3.42it/s] 51%|█████▏    | 190612/371472 [4:06:26<14:11:05,  3.54it/s] 51%|█████▏    | 190613/371472 [4:06:27<13:55:52,  3.61it/s] 51%|█████▏    | 190614/371472 [4:06:27<16:07:23,  3.12it/s] 51%|█████▏    | 190615/371472 [4:06:27<15:14:49,  3.29it/s] 51%|█████▏    | 190616/371472 [4:06:28<14:21:03,  3.50it/s] 51%|█████▏    | 190617/371472 [4:06:28<14:23:10,  3.49it/s] 51%|█████▏    | 190618/371472 [4:06:28<14:03:55,  3.57it/s] 51%|█████▏    | 190619/371472 [4:06:28<13:55:01,  3.61it/s] 51%|█████▏    | 190620/371472 [4:06:29<14:25:32,  3.48it/s]                                                            {'loss': 2.9341, 'learning_rate': 5.384031114654486e-07, 'epoch': 8.21}
 51%|█████▏    | 190620/371472 [4:06:29<14:25:32,  3.48it/s] 51%|█████▏    | 190621/371472 [4:06:29<14:01:07,  3.58it/s] 51%|█████▏    | 190622/371472 [4:06:29<14:06:53,  3.56it/s] 51%|█████▏    | 190623/371472 [4:06:30<14:48:17,  3.39it/s] 51%|█████▏    | 190624/371472 [4:06:30<15:26:06,  3.25it/s] 51%|█████▏    | 190625/371472 [4:06:30<15:03:46,  3.34it/s] 51%|█████▏    | 190626/371472 [4:06:30<14:23:06,  3.49it/s] 51%|█████▏    | 190627/371472 [4:06:31<14:40:40,  3.42it/s] 51%|█████▏    | 190628/371472 [4:06:31<13:58:28,  3.59it/s] 51%|█████▏    | 190629/371472 [4:06:31<13:55:32,  3.61it/s] 51%|█████▏    | 190630/371472 [4:06:32<13:27:50,  3.73it/s] 51%|█████▏    | 190631/371472 [4:06:32<13:21:42,  3.76it/s] 51%|█████▏    | 190632/371472 [4:06:32<13:22:38,  3.76it/s] 51%|█████▏    | 190633/371472 [4:06:32<14:17:40,  3.51it/s] 51%|█████▏    | 190634/371472 [4:06:33<14:15:57,  3.52it/s] 51%|█████▏    | 190635/371472 [4:06:33<14:13:19,  3.53it/s] 51%|█████▏    | 190636/371472 [4:06:33<14:18:09,  3.51it/s] 51%|█████▏    | 190637/371472 [4:06:34<15:07:52,  3.32it/s] 51%|█████▏    | 190638/371472 [4:06:34<15:14:52,  3.29it/s] 51%|█████▏    | 190639/371472 [4:06:34<14:46:34,  3.40it/s] 51%|█████▏    | 190640/371472 [4:06:34<14:11:27,  3.54it/s]                                                            {'loss': 3.0236, 'learning_rate': 5.383546294899696e-07, 'epoch': 8.21}
 51%|█████▏    | 190640/371472 [4:06:34<14:11:27,  3.54it/s] 51%|█████▏    | 190641/371472 [4:06:35<13:53:13,  3.62it/s] 51%|█████▏    | 190642/371472 [4:06:35<13:21:15,  3.76it/s] 51%|█████▏    | 190643/371472 [4:06:35<13:36:38,  3.69it/s] 51%|█████▏    | 190644/371472 [4:06:36<14:15:15,  3.52it/s] 51%|█████▏    | 190645/371472 [4:06:36<14:32:52,  3.45it/s] 51%|█████▏    | 190646/371472 [4:06:36<16:01:21,  3.13it/s] 51%|█████▏    | 190647/371472 [4:06:37<15:47:26,  3.18it/s] 51%|█████▏    | 190648/371472 [4:06:37<15:24:30,  3.26it/s] 51%|█████▏    | 190649/371472 [4:06:37<15:06:54,  3.32it/s] 51%|█████▏    | 190650/371472 [4:06:37<14:34:12,  3.45it/s] 51%|█████▏    | 190651/371472 [4:06:38<17:20:26,  2.90it/s] 51%|█████▏    | 190652/371472 [4:06:38<16:25:22,  3.06it/s] 51%|█████▏    | 190653/371472 [4:06:38<15:44:17,  3.19it/s] 51%|█████▏    | 190654/371472 [4:06:39<14:56:19,  3.36it/s] 51%|█████▏    | 190655/371472 [4:06:39<14:25:30,  3.48it/s] 51%|█████▏    | 190656/371472 [4:06:39<14:16:20,  3.52it/s] 51%|█████▏    | 190657/371472 [4:06:39<13:51:26,  3.62it/s] 51%|█████▏    | 190658/371472 [4:06:40<13:36:48,  3.69it/s] 51%|█████▏    | 190659/371472 [4:06:40<13:41:48,  3.67it/s] 51%|█████▏    | 190660/371472 [4:06:40<13:29:01,  3.72it/s]                                                            {'loss': 2.9445, 'learning_rate': 5.383061475144907e-07, 'epoch': 8.21}
 51%|█████▏    | 190660/371472 [4:06:40<13:29:01,  3.72it/s] 51%|█████▏    | 190661/371472 [4:06:41<13:54:22,  3.61it/s] 51%|█████▏    | 190662/371472 [4:06:41<13:19:02,  3.77it/s] 51%|█████▏    | 190663/371472 [4:06:41<13:04:16,  3.84it/s] 51%|█████▏    | 190664/371472 [4:06:41<12:57:11,  3.88it/s] 51%|█████▏    | 190665/371472 [4:06:42<13:19:59,  3.77it/s] 51%|█████▏    | 190666/371472 [4:06:42<13:46:01,  3.65it/s] 51%|█████▏    | 190667/371472 [4:06:42<15:00:38,  3.35it/s] 51%|█████▏    | 190668/371472 [4:06:43<15:30:55,  3.24it/s] 51%|█████▏    | 190669/371472 [4:06:43<14:47:37,  3.39it/s] 51%|█████▏    | 190670/371472 [4:06:43<14:23:58,  3.49it/s] 51%|█████▏    | 190671/371472 [4:06:43<14:33:58,  3.45it/s] 51%|█████▏    | 190672/371472 [4:06:44<14:37:29,  3.43it/s] 51%|█████▏    | 190673/371472 [4:06:44<14:38:31,  3.43it/s] 51%|█████▏    | 190674/371472 [4:06:44<14:47:50,  3.39it/s] 51%|█████▏    | 190675/371472 [4:06:45<14:42:54,  3.41it/s] 51%|█████▏    | 190676/371472 [4:06:45<14:21:05,  3.50it/s] 51%|█████▏    | 190677/371472 [4:06:45<13:58:23,  3.59it/s] 51%|█████▏    | 190678/371472 [4:06:45<13:50:02,  3.63it/s] 51%|█████▏    | 190679/371472 [4:06:46<13:37:23,  3.69it/s] 51%|█████▏    | 190680/371472 [4:06:46<13:29:53,  3.72it/s]                                                            {'loss': 2.9656, 'learning_rate': 5.382576655390118e-07, 'epoch': 8.21}
 51%|█████▏    | 190680/371472 [4:06:46<13:29:53,  3.72it/s] 51%|█████▏    | 190681/371472 [4:06:46<13:36:34,  3.69it/s] 51%|█████▏    | 190682/371472 [4:06:46<14:05:05,  3.57it/s] 51%|█████▏    | 190683/371472 [4:06:47<13:59:09,  3.59it/s] 51%|█████▏    | 190684/371472 [4:06:47<13:39:08,  3.68it/s] 51%|█████▏    | 190685/371472 [4:06:47<13:56:01,  3.60it/s] 51%|█████▏    | 190686/371472 [4:06:48<14:23:27,  3.49it/s] 51%|█████▏    | 190687/371472 [4:06:48<14:56:47,  3.36it/s] 51%|█████▏    | 190688/371472 [4:06:48<14:57:40,  3.36it/s] 51%|█████▏    | 190689/371472 [4:06:49<15:07:05,  3.32it/s] 51%|█████▏    | 190690/371472 [4:06:49<15:44:50,  3.19it/s] 51%|█████▏    | 190691/371472 [4:06:49<15:50:01,  3.17it/s] 51%|█████▏    | 190692/371472 [4:06:49<14:42:06,  3.42it/s] 51%|█████▏    | 190693/371472 [4:06:50<14:23:10,  3.49it/s] 51%|█████▏    | 190694/371472 [4:06:50<13:57:24,  3.60it/s] 51%|█████▏    | 190695/371472 [4:06:50<13:41:57,  3.67it/s] 51%|█████▏    | 190696/371472 [4:06:51<13:38:57,  3.68it/s] 51%|█████▏    | 190697/371472 [4:06:51<13:51:19,  3.62it/s] 51%|█████▏    | 190698/371472 [4:06:51<13:49:11,  3.63it/s] 51%|█████▏    | 190699/371472 [4:06:51<13:38:28,  3.68it/s] 51%|█████▏    | 190700/371472 [4:06:52<13:29:12,  3.72it/s]                                                            {'loss': 2.9046, 'learning_rate': 5.382091835635329e-07, 'epoch': 8.21}
 51%|█████▏    | 190700/371472 [4:06:52<13:29:12,  3.72it/s] 51%|█████▏    | 190701/371472 [4:06:52<13:18:44,  3.77it/s] 51%|█████▏    | 190702/371472 [4:06:52<13:41:07,  3.67it/s] 51%|█████▏    | 190703/371472 [4:06:52<14:37:26,  3.43it/s] 51%|█████▏    | 190704/371472 [4:06:53<14:25:20,  3.48it/s] 51%|█████▏    | 190705/371472 [4:06:53<15:13:35,  3.30it/s] 51%|█████▏    | 190706/371472 [4:06:53<14:36:20,  3.44it/s] 51%|█████▏    | 190707/371472 [4:06:54<14:30:10,  3.46it/s] 51%|█████▏    | 190708/371472 [4:06:54<15:00:19,  3.35it/s] 51%|█████▏    | 190709/371472 [4:06:54<14:40:05,  3.42it/s] 51%|█████▏    | 190710/371472 [4:06:55<14:22:16,  3.49it/s] 51%|█████▏    | 190711/371472 [4:06:55<13:55:56,  3.60it/s] 51%|█████▏    | 190712/371472 [4:06:55<13:57:27,  3.60it/s] 51%|█████▏    | 190713/371472 [4:06:55<13:35:27,  3.69it/s] 51%|█████▏    | 190714/371472 [4:06:56<15:30:00,  3.24it/s] 51%|█████▏    | 190715/371472 [4:06:56<15:05:08,  3.33it/s] 51%|█████▏    | 190716/371472 [4:06:56<15:16:27,  3.29it/s] 51%|█████▏    | 190717/371472 [4:06:57<16:17:35,  3.08it/s] 51%|█████▏    | 190718/371472 [4:06:57<16:29:07,  3.05it/s] 51%|█████▏    | 190719/371472 [4:06:57<16:54:06,  2.97it/s] 51%|█████▏    | 190720/371472 [4:06:58<15:42:33,  3.20it/s]                                                            {'loss': 3.013, 'learning_rate': 5.381607015880539e-07, 'epoch': 8.21}
 51%|█████▏    | 190720/371472 [4:06:58<15:42:33,  3.20it/s] 51%|█████▏    | 190721/371472 [4:06:58<14:58:13,  3.35it/s] 51%|█████▏    | 190722/371472 [4:06:58<14:16:04,  3.52it/s] 51%|█████▏    | 190723/371472 [4:06:58<15:02:46,  3.34it/s] 51%|█████▏    | 190724/371472 [4:06:59<14:25:37,  3.48it/s] 51%|█████▏    | 190725/371472 [4:06:59<14:26:29,  3.48it/s] 51%|█████▏    | 190726/371472 [4:06:59<14:07:38,  3.55it/s] 51%|█████▏    | 190727/371472 [4:07:00<14:13:07,  3.53it/s] 51%|█████▏    | 190728/371472 [4:07:00<14:31:51,  3.46it/s] 51%|█████▏    | 190729/371472 [4:07:00<14:26:14,  3.48it/s] 51%|█████▏    | 190730/371472 [4:07:00<14:08:18,  3.55it/s] 51%|█████▏    | 190731/371472 [4:07:01<14:17:41,  3.51it/s] 51%|█████▏    | 190732/371472 [4:07:01<13:58:55,  3.59it/s] 51%|█████▏    | 190733/371472 [4:07:01<14:42:27,  3.41it/s] 51%|█████▏    | 190734/371472 [4:07:02<14:20:37,  3.50it/s] 51%|█████▏    | 190735/371472 [4:07:02<13:58:08,  3.59it/s] 51%|█████▏    | 190736/371472 [4:07:02<13:59:43,  3.59it/s] 51%|█████▏    | 190737/371472 [4:07:02<13:42:14,  3.66it/s] 51%|█████▏    | 190738/371472 [4:07:03<15:33:44,  3.23it/s] 51%|█████▏    | 190739/371472 [4:07:03<14:40:02,  3.42it/s] 51%|█████▏    | 190740/371472 [4:07:03<14:25:51,  3.48it/s]                                                            {'loss': 3.0842, 'learning_rate': 5.381122196125752e-07, 'epoch': 8.22}
 51%|█████▏    | 190740/371472 [4:07:03<14:25:51,  3.48it/s] 51%|█████▏    | 190741/371472 [4:07:04<14:18:01,  3.51it/s] 51%|█████▏    | 190742/371472 [4:07:04<14:48:04,  3.39it/s] 51%|█████▏    | 190743/371472 [4:07:04<14:49:19,  3.39it/s] 51%|█████▏    | 190744/371472 [4:07:04<14:34:26,  3.44it/s] 51%|█████▏    | 190745/371472 [4:07:05<13:59:38,  3.59it/s] 51%|█████▏    | 190746/371472 [4:07:05<13:46:02,  3.65it/s] 51%|█████▏    | 190747/371472 [4:07:05<13:31:42,  3.71it/s] 51%|█████▏    | 190748/371472 [4:07:06<13:53:22,  3.61it/s] 51%|█████▏    | 190749/371472 [4:07:06<13:28:38,  3.72it/s] 51%|█████▏    | 190750/371472 [4:07:06<13:40:34,  3.67it/s] 51%|█████▏    | 190751/371472 [4:07:06<14:42:54,  3.41it/s] 51%|█████▏    | 190752/371472 [4:07:07<14:25:25,  3.48it/s] 51%|█████▏    | 190753/371472 [4:07:07<14:02:40,  3.57it/s] 51%|█████▏    | 190754/371472 [4:07:07<13:40:16,  3.67it/s] 51%|█████▏    | 190755/371472 [4:07:07<14:01:01,  3.58it/s] 51%|█████▏    | 190756/371472 [4:07:08<14:26:44,  3.48it/s] 51%|█████▏    | 190757/371472 [4:07:08<14:13:31,  3.53it/s] 51%|█████▏    | 190758/371472 [4:07:08<14:06:12,  3.56it/s] 51%|█████▏    | 190759/371472 [4:07:09<13:42:15,  3.66it/s] 51%|█████▏    | 190760/371472 [4:07:09<13:59:40,  3.59it/s]                                                            {'loss': 3.1648, 'learning_rate': 5.380637376370962e-07, 'epoch': 8.22}
 51%|█████▏    | 190760/371472 [4:07:09<13:59:40,  3.59it/s] 51%|█████▏    | 190761/371472 [4:07:09<13:59:13,  3.59it/s] 51%|█████▏    | 190762/371472 [4:07:09<13:45:10,  3.65it/s] 51%|█████▏    | 190763/371472 [4:07:10<14:30:49,  3.46it/s] 51%|█████▏    | 190764/371472 [4:07:10<14:14:39,  3.52it/s] 51%|█████▏    | 190765/371472 [4:07:10<14:14:46,  3.52it/s] 51%|█████▏    | 190766/371472 [4:07:11<15:05:06,  3.33it/s] 51%|█████▏    | 190767/371472 [4:07:11<14:26:55,  3.47it/s] 51%|█████▏    | 190768/371472 [4:07:11<15:03:19,  3.33it/s] 51%|█████▏    | 190769/371472 [4:07:11<14:24:25,  3.48it/s] 51%|█████▏    | 190770/371472 [4:07:12<13:55:04,  3.61it/s] 51%|█████▏    | 190771/371472 [4:07:12<13:58:10,  3.59it/s] 51%|█████▏    | 190772/371472 [4:07:12<13:39:13,  3.68it/s] 51%|█████▏    | 190773/371472 [4:07:13<14:48:47,  3.39it/s] 51%|█████▏    | 190774/371472 [4:07:13<14:02:09,  3.58it/s] 51%|█████▏    | 190775/371472 [4:07:13<14:35:33,  3.44it/s] 51%|█████▏    | 190776/371472 [4:07:13<14:07:16,  3.55it/s] 51%|█████▏    | 190777/371472 [4:07:14<14:04:48,  3.56it/s] 51%|█████▏    | 190778/371472 [4:07:14<13:38:54,  3.68it/s] 51%|█████▏    | 190779/371472 [4:07:14<13:23:14,  3.75it/s] 51%|█████▏    | 190780/371472 [4:07:15<13:24:30,  3.74it/s]                                                            {'loss': 3.0998, 'learning_rate': 5.380152556616173e-07, 'epoch': 8.22}
 51%|█████▏    | 190780/371472 [4:07:15<13:24:30,  3.74it/s] 51%|█████▏    | 190781/371472 [4:07:15<13:39:33,  3.67it/s] 51%|█████▏    | 190782/371472 [4:07:15<13:28:25,  3.73it/s] 51%|█████▏    | 190783/371472 [4:07:15<13:59:06,  3.59it/s] 51%|█████▏    | 190784/371472 [4:07:16<13:50:28,  3.63it/s] 51%|█████▏    | 190785/371472 [4:07:16<13:56:10,  3.60it/s] 51%|█████▏    | 190786/371472 [4:07:16<14:31:26,  3.46it/s] 51%|█████▏    | 190787/371472 [4:07:17<14:41:24,  3.42it/s] 51%|█████▏    | 190788/371472 [4:07:17<15:02:03,  3.34it/s] 51%|█████▏    | 190789/371472 [4:07:17<14:25:16,  3.48it/s] 51%|█████▏    | 190790/371472 [4:07:17<15:09:51,  3.31it/s] 51%|█████▏    | 190791/371472 [4:07:18<14:18:35,  3.51it/s] 51%|█████▏    | 190792/371472 [4:07:18<13:48:46,  3.63it/s] 51%|█████▏    | 190793/371472 [4:07:18<13:56:08,  3.60it/s] 51%|█████▏    | 190794/371472 [4:07:18<13:54:03,  3.61it/s] 51%|█████▏    | 190795/371472 [4:07:19<13:32:44,  3.71it/s] 51%|█████▏    | 190796/371472 [4:07:19<14:22:23,  3.49it/s] 51%|█████▏    | 190797/371472 [4:07:19<13:53:59,  3.61it/s] 51%|█████▏    | 190798/371472 [4:07:20<14:05:03,  3.56it/s] 51%|█████▏    | 190799/371472 [4:07:20<13:42:26,  3.66it/s] 51%|█████▏    | 190800/371472 [4:07:20<13:43:26,  3.66it/s]                                                            {'loss': 3.0036, 'learning_rate': 5.379667736861384e-07, 'epoch': 8.22}
 51%|█████▏    | 190800/371472 [4:07:20<13:43:26,  3.66it/s] 51%|█████▏    | 190801/371472 [4:07:20<14:18:41,  3.51it/s] 51%|█████▏    | 190802/371472 [4:07:21<14:18:35,  3.51it/s] 51%|█████▏    | 190803/371472 [4:07:21<14:22:26,  3.49it/s] 51%|█████▏    | 190804/371472 [4:07:21<14:17:56,  3.51it/s] 51%|█████▏    | 190805/371472 [4:07:22<13:37:11,  3.68it/s] 51%|█████▏    | 190806/371472 [4:07:22<13:58:41,  3.59it/s] 51%|█████▏    | 190807/371472 [4:07:22<13:47:57,  3.64it/s] 51%|█████▏    | 190808/371472 [4:07:22<13:47:03,  3.64it/s] 51%|█████▏    | 190809/371472 [4:07:23<13:50:53,  3.62it/s] 51%|█████▏    | 190810/371472 [4:07:23<13:59:30,  3.59it/s] 51%|█████▏    | 190811/371472 [4:07:23<13:38:28,  3.68it/s] 51%|█████▏    | 190812/371472 [4:07:23<13:18:30,  3.77it/s] 51%|█████▏    | 190813/371472 [4:07:24<13:35:33,  3.69it/s] 51%|█████▏    | 190814/371472 [4:07:24<13:48:26,  3.63it/s] 51%|█████▏    | 190815/371472 [4:07:24<13:20:37,  3.76it/s] 51%|█████▏    | 190816/371472 [4:07:25<13:24:44,  3.74it/s] 51%|█████▏    | 190817/371472 [4:07:25<13:22:42,  3.75it/s] 51%|█████▏    | 190818/371472 [4:07:25<13:11:26,  3.80it/s] 51%|█████▏    | 190819/371472 [4:07:25<13:19:50,  3.76it/s] 51%|█████▏    | 190820/371472 [4:07:26<13:31:16,  3.71it/s]                                                            {'loss': 3.0428, 'learning_rate': 5.379182917106595e-07, 'epoch': 8.22}
 51%|█████▏    | 190820/371472 [4:07:26<13:31:16,  3.71it/s] 51%|█████▏    | 190821/371472 [4:07:26<13:47:51,  3.64it/s] 51%|█████▏    | 190822/371472 [4:07:26<13:51:08,  3.62it/s] 51%|█████▏    | 190823/371472 [4:07:26<13:59:34,  3.59it/s] 51%|█████▏    | 190824/371472 [4:07:27<13:36:05,  3.69it/s] 51%|█████▏    | 190825/371472 [4:07:27<13:34:03,  3.70it/s] 51%|█████▏    | 190826/371472 [4:07:27<13:49:19,  3.63it/s] 51%|█████▏    | 190827/371472 [4:07:28<13:32:40,  3.70it/s] 51%|█████▏    | 190828/371472 [4:07:28<13:45:07,  3.65it/s] 51%|█████▏    | 190829/371472 [4:07:28<13:49:32,  3.63it/s] 51%|█████▏    | 190830/371472 [4:07:28<13:38:39,  3.68it/s] 51%|█████▏    | 190831/371472 [4:07:29<13:34:31,  3.70it/s] 51%|█████▏    | 190832/371472 [4:07:29<14:10:14,  3.54it/s] 51%|█████▏    | 190833/371472 [4:07:29<13:43:53,  3.65it/s] 51%|█████▏    | 190834/371472 [4:07:29<13:39:35,  3.67it/s] 51%|█████▏    | 190835/371472 [4:07:30<13:44:42,  3.65it/s] 51%|█████▏    | 190836/371472 [4:07:30<13:25:32,  3.74it/s] 51%|█████▏    | 190837/371472 [4:07:30<14:30:47,  3.46it/s] 51%|█████▏    | 190838/371472 [4:07:31<14:46:04,  3.40it/s] 51%|█████▏    | 190839/371472 [4:07:31<15:17:09,  3.28it/s] 51%|█████▏    | 190840/371472 [4:07:31<14:43:42,  3.41it/s]                                                            {'loss': 3.0269, 'learning_rate': 5.378698097351806e-07, 'epoch': 8.22}
 51%|█████▏    | 190840/371472 [4:07:31<14:43:42,  3.41it/s] 51%|█████▏    | 190841/371472 [4:07:32<14:37:10,  3.43it/s] 51%|█████▏    | 190842/371472 [4:07:32<14:10:49,  3.54it/s] 51%|█████▏    | 190843/371472 [4:07:32<14:14:34,  3.52it/s] 51%|█████▏    | 190844/371472 [4:07:32<13:46:32,  3.64it/s] 51%|█████▏    | 190845/371472 [4:07:33<14:13:54,  3.53it/s] 51%|█████▏    | 190846/371472 [4:07:33<14:28:23,  3.47it/s] 51%|█████▏    | 190847/371472 [4:07:33<14:24:20,  3.48it/s] 51%|█████▏    | 190848/371472 [4:07:34<14:44:00,  3.41it/s] 51%|█████▏    | 190849/371472 [4:07:34<15:09:53,  3.31it/s] 51%|█████▏    | 190850/371472 [4:07:34<14:34:29,  3.44it/s] 51%|█████▏    | 190851/371472 [4:07:34<14:43:59,  3.41it/s] 51%|█████▏    | 190852/371472 [4:07:35<14:31:11,  3.46it/s] 51%|█████▏    | 190853/371472 [4:07:35<14:52:09,  3.37it/s] 51%|█████▏    | 190854/371472 [4:07:35<14:43:53,  3.41it/s] 51%|█████▏    | 190855/371472 [4:07:36<13:51:03,  3.62it/s] 51%|█████▏    | 190856/371472 [4:07:36<13:53:07,  3.61it/s] 51%|█████▏    | 190857/371472 [4:07:36<13:46:11,  3.64it/s] 51%|█████▏    | 190858/371472 [4:07:36<13:56:48,  3.60it/s] 51%|█████▏    | 190859/371472 [4:07:37<14:11:54,  3.53it/s] 51%|█████▏    | 190860/371472 [4:07:37<14:21:28,  3.49it/s]                                                            {'loss': 2.9403, 'learning_rate': 5.378213277597019e-07, 'epoch': 8.22}
 51%|█████▏    | 190860/371472 [4:07:37<14:21:28,  3.49it/s] 51%|█████▏    | 190861/371472 [4:07:37<14:29:52,  3.46it/s] 51%|█████▏    | 190862/371472 [4:07:37<14:08:24,  3.55it/s] 51%|█████▏    | 190863/371472 [4:07:38<13:55:41,  3.60it/s] 51%|█████▏    | 190864/371472 [4:07:38<13:28:06,  3.72it/s] 51%|█████▏    | 190865/371472 [4:07:38<13:31:25,  3.71it/s] 51%|█████▏    | 190866/371472 [4:07:39<13:16:48,  3.78it/s] 51%|█████▏    | 190867/371472 [4:07:39<13:04:23,  3.84it/s] 51%|█████▏    | 190868/371472 [4:07:39<12:34:15,  3.99it/s] 51%|█████▏    | 190869/371472 [4:07:39<12:48:40,  3.92it/s] 51%|█████▏    | 190870/371472 [4:07:40<12:57:15,  3.87it/s] 51%|█████▏    | 190871/371472 [4:07:40<15:11:28,  3.30it/s] 51%|█████▏    | 190872/371472 [4:07:40<16:14:46,  3.09it/s] 51%|█████▏    | 190873/371472 [4:07:41<15:28:29,  3.24it/s] 51%|█████▏    | 190874/371472 [4:07:41<15:17:55,  3.28it/s] 51%|█████▏    | 190875/371472 [4:07:41<15:22:44,  3.26it/s] 51%|█████▏    | 190876/371472 [4:07:42<15:14:45,  3.29it/s] 51%|█████▏    | 190877/371472 [4:07:42<15:10:38,  3.31it/s] 51%|█████▏    | 190878/371472 [4:07:42<15:19:32,  3.27it/s] 51%|█████▏    | 190879/371472 [4:07:43<17:03:39,  2.94it/s] 51%|█████▏    | 190880/371472 [4:07:43<15:39:21,  3.20it/s]                                                            {'loss': 2.9274, 'learning_rate': 5.37772845784223e-07, 'epoch': 8.22}
 51%|█████▏    | 190880/371472 [4:07:43<15:39:21,  3.20it/s] 51%|█████▏    | 190881/371472 [4:07:43<15:23:06,  3.26it/s] 51%|█████▏    | 190882/371472 [4:07:43<16:19:35,  3.07it/s] 51%|█████▏    | 190883/371472 [4:07:44<15:42:24,  3.19it/s] 51%|█████▏    | 190884/371472 [4:07:44<15:32:25,  3.23it/s] 51%|█████▏    | 190885/371472 [4:07:44<17:44:53,  2.83it/s] 51%|█████▏    | 190886/371472 [4:07:45<16:19:03,  3.07it/s] 51%|█████▏    | 190887/371472 [4:07:45<15:57:37,  3.14it/s] 51%|█████▏    | 190888/371472 [4:07:45<15:17:35,  3.28it/s] 51%|█████▏    | 190889/371472 [4:07:46<15:03:26,  3.33it/s] 51%|█████▏    | 190890/371472 [4:07:46<15:44:49,  3.19it/s] 51%|█████▏    | 190891/371472 [4:07:46<15:06:22,  3.32it/s] 51%|█████▏    | 190892/371472 [4:07:47<16:04:12,  3.12it/s] 51%|█████▏    | 190893/371472 [4:07:47<16:06:43,  3.11it/s] 51%|█████▏    | 190894/371472 [4:07:47<15:12:04,  3.30it/s] 51%|█████▏    | 190895/371472 [4:07:48<15:52:48,  3.16it/s] 51%|█████▏    | 190896/371472 [4:07:48<17:06:09,  2.93it/s] 51%|█████▏    | 190897/371472 [4:07:48<18:30:09,  2.71it/s] 51%|█████▏    | 190898/371472 [4:07:49<17:06:14,  2.93it/s] 51%|█████▏    | 190899/371472 [4:07:49<15:51:06,  3.16it/s] 51%|█████▏    | 190900/371472 [4:07:49<15:35:41,  3.22it/s]                                                            {'loss': 2.9008, 'learning_rate': 5.377243638087439e-07, 'epoch': 8.22}
 51%|█████▏    | 190900/371472 [4:07:49<15:35:41,  3.22it/s] 51%|█████▏    | 190901/371472 [4:07:49<14:59:16,  3.35it/s] 51%|█████▏    | 190902/371472 [4:07:50<15:34:09,  3.22it/s] 51%|█████▏    | 190903/371472 [4:07:50<15:52:52,  3.16it/s] 51%|█████▏    | 190904/371472 [4:07:50<15:04:41,  3.33it/s] 51%|█████▏    | 190905/371472 [4:07:51<15:46:10,  3.18it/s] 51%|█████▏    | 190906/371472 [4:07:51<15:49:01,  3.17it/s] 51%|█████▏    | 190907/371472 [4:07:51<15:13:39,  3.29it/s] 51%|█████▏    | 190908/371472 [4:07:52<14:18:12,  3.51it/s] 51%|█████▏    | 190909/371472 [4:07:52<14:44:48,  3.40it/s] 51%|█████▏    | 190910/371472 [4:07:52<15:59:43,  3.14it/s] 51%|█████▏    | 190911/371472 [4:07:53<15:24:02,  3.26it/s] 51%|█████▏    | 190912/371472 [4:07:53<14:48:42,  3.39it/s] 51%|█████▏    | 190913/371472 [4:07:53<14:18:57,  3.50it/s] 51%|█████▏    | 190914/371472 [4:07:53<14:03:18,  3.57it/s] 51%|█████▏    | 190915/371472 [4:07:54<13:45:25,  3.65it/s] 51%|█████▏    | 190916/371472 [4:07:54<14:45:09,  3.40it/s] 51%|█████▏    | 190917/371472 [4:07:54<14:21:21,  3.49it/s] 51%|█████▏    | 190918/371472 [4:07:55<14:45:11,  3.40it/s] 51%|█████▏    | 190919/371472 [4:07:55<14:47:29,  3.39it/s] 51%|█████▏    | 190920/371472 [4:07:55<16:08:15,  3.11it/s]                                                            {'loss': 2.9301, 'learning_rate': 5.376758818332651e-07, 'epoch': 8.22}
 51%|█████▏    | 190920/371472 [4:07:55<16:08:15,  3.11it/s] 51%|█████▏    | 190921/371472 [4:07:56<15:43:24,  3.19it/s] 51%|█████▏    | 190922/371472 [4:07:56<14:50:46,  3.38it/s] 51%|█████▏    | 190923/371472 [4:07:56<14:33:23,  3.45it/s] 51%|█████▏    | 190924/371472 [4:07:56<14:32:03,  3.45it/s] 51%|█████▏    | 190925/371472 [4:07:57<14:26:23,  3.47it/s] 51%|█████▏    | 190926/371472 [4:07:57<15:45:23,  3.18it/s] 51%|█████▏    | 190927/371472 [4:07:57<15:09:03,  3.31it/s] 51%|█████▏    | 190928/371472 [4:07:58<15:04:01,  3.33it/s] 51%|█████▏    | 190929/371472 [4:07:58<14:22:54,  3.49it/s] 51%|█████▏    | 190930/371472 [4:07:58<15:12:26,  3.30it/s] 51%|█████▏    | 190931/371472 [4:07:58<14:23:34,  3.48it/s] 51%|█████▏    | 190932/371472 [4:07:59<13:54:03,  3.61it/s] 51%|█████▏    | 190933/371472 [4:07:59<13:33:01,  3.70it/s] 51%|█████▏    | 190934/371472 [4:07:59<13:31:21,  3.71it/s] 51%|█████▏    | 190935/371472 [4:07:59<13:24:49,  3.74it/s] 51%|█████▏    | 190936/371472 [4:08:00<13:12:19,  3.80it/s] 51%|█████▏    | 190937/371472 [4:08:00<13:31:52,  3.71it/s] 51%|█████▏    | 190938/371472 [4:08:00<14:53:10,  3.37it/s] 51%|█████▏    | 190939/371472 [4:08:01<14:18:23,  3.51it/s] 51%|█████▏    | 190940/371472 [4:08:01<14:43:39,  3.41it/s]                                                            {'loss': 3.013, 'learning_rate': 5.376273998577862e-07, 'epoch': 8.22}
 51%|█████▏    | 190940/371472 [4:08:01<14:43:39,  3.41it/s] 51%|█████▏    | 190941/371472 [4:08:01<14:33:55,  3.44it/s] 51%|█████▏    | 190942/371472 [4:08:01<14:30:00,  3.46it/s] 51%|█████▏    | 190943/371472 [4:08:02<14:35:11,  3.44it/s] 51%|█████▏    | 190944/371472 [4:08:02<14:15:36,  3.52it/s] 51%|█████▏    | 190945/371472 [4:08:02<13:54:44,  3.60it/s] 51%|█████▏    | 190946/371472 [4:08:03<15:56:32,  3.15it/s] 51%|█████▏    | 190947/371472 [4:08:03<14:55:33,  3.36it/s] 51%|█████▏    | 190948/371472 [4:08:03<14:17:34,  3.51it/s] 51%|█████▏    | 190949/371472 [4:08:03<13:49:03,  3.63it/s] 51%|█████▏    | 190950/371472 [4:08:04<13:51:09,  3.62it/s] 51%|█████▏    | 190951/371472 [4:08:04<13:27:34,  3.73it/s] 51%|█████▏    | 190952/371472 [4:08:04<13:13:35,  3.79it/s] 51%|█████▏    | 190953/371472 [4:08:05<13:23:26,  3.74it/s] 51%|█████▏    | 190954/371472 [4:08:05<13:18:18,  3.77it/s] 51%|█████▏    | 190955/371472 [4:08:05<13:20:34,  3.76it/s] 51%|█████▏    | 190956/371472 [4:08:05<13:16:43,  3.78it/s] 51%|█████▏    | 190957/371472 [4:08:06<14:34:49,  3.44it/s] 51%|█████▏    | 190958/371472 [4:08:06<14:09:38,  3.54it/s] 51%|█████▏    | 190959/371472 [4:08:06<13:46:20,  3.64it/s] 51%|█████▏    | 190960/371472 [4:08:06<13:14:09,  3.79it/s]                                                            {'loss': 3.1983, 'learning_rate': 5.375789178823072e-07, 'epoch': 8.23}
 51%|█████▏    | 190960/371472 [4:08:06<13:14:09,  3.79it/s] 51%|█████▏    | 190961/371472 [4:08:07<13:52:34,  3.61it/s] 51%|█████▏    | 190962/371472 [4:08:07<14:18:39,  3.50it/s] 51%|█████▏    | 190963/371472 [4:08:07<14:17:12,  3.51it/s] 51%|█████▏    | 190964/371472 [4:08:08<14:03:57,  3.56it/s] 51%|█████▏    | 190965/371472 [4:08:08<13:48:55,  3.63it/s] 51%|█████▏    | 190966/371472 [4:08:08<14:08:21,  3.55it/s] 51%|█████▏    | 190967/371472 [4:08:08<14:12:06,  3.53it/s] 51%|█████▏    | 190968/371472 [4:08:09<13:56:01,  3.60it/s] 51%|█████▏    | 190969/371472 [4:08:09<14:07:28,  3.55it/s] 51%|█████▏    | 190970/371472 [4:08:09<13:49:52,  3.63it/s] 51%|█████▏    | 190971/371472 [4:08:10<13:29:15,  3.72it/s] 51%|█████▏    | 190972/371472 [4:08:10<13:46:05,  3.64it/s] 51%|█████▏    | 190973/371472 [4:08:10<14:02:56,  3.57it/s] 51%|█████▏    | 190974/371472 [4:08:10<13:38:37,  3.67it/s] 51%|█████▏    | 190975/371472 [4:08:11<15:15:35,  3.29it/s] 51%|█████▏    | 190976/371472 [4:08:11<14:35:46,  3.43it/s] 51%|█████▏    | 190977/371472 [4:08:11<14:47:24,  3.39it/s] 51%|█████▏    | 190978/371472 [4:08:12<14:16:18,  3.51it/s] 51%|█████▏    | 190979/371472 [4:08:12<13:52:43,  3.61it/s] 51%|█████▏    | 190980/371472 [4:08:12<14:54:53,  3.36it/s]                                                            {'loss': 2.9923, 'learning_rate': 5.375304359068283e-07, 'epoch': 8.23}
 51%|█████▏    | 190980/371472 [4:08:12<14:54:53,  3.36it/s] 51%|█████▏    | 190981/371472 [4:08:12<14:46:15,  3.39it/s] 51%|█████▏    | 190982/371472 [4:08:13<14:22:14,  3.49it/s] 51%|█████▏    | 190983/371472 [4:08:13<14:42:17,  3.41it/s] 51%|█████▏    | 190984/371472 [4:08:13<14:39:43,  3.42it/s] 51%|█████▏    | 190985/371472 [4:08:14<14:05:37,  3.56it/s] 51%|█████▏    | 190986/371472 [4:08:14<14:20:48,  3.49it/s] 51%|█████▏    | 190987/371472 [4:08:14<13:55:39,  3.60it/s] 51%|█████▏    | 190988/371472 [4:08:14<13:47:44,  3.63it/s] 51%|█████▏    | 190989/371472 [4:08:15<14:04:38,  3.56it/s] 51%|█████▏    | 190990/371472 [4:08:15<13:42:56,  3.66it/s] 51%|█████▏    | 190991/371472 [4:08:15<14:39:57,  3.42it/s] 51%|█████▏    | 190992/371472 [4:08:16<14:22:00,  3.49it/s] 51%|█████▏    | 190993/371472 [4:08:16<14:45:04,  3.40it/s] 51%|█████▏    | 190994/371472 [4:08:16<13:55:29,  3.60it/s] 51%|█████▏    | 190995/371472 [4:08:16<13:37:51,  3.68it/s] 51%|█████▏    | 190996/371472 [4:08:17<14:25:12,  3.48it/s] 51%|█████▏    | 190997/371472 [4:08:17<15:33:36,  3.22it/s] 51%|█████▏    | 190998/371472 [4:08:17<15:19:48,  3.27it/s] 51%|█████▏    | 190999/371472 [4:08:18<15:06:55,  3.32it/s] 51%|█████▏    | 191000/371472 [4:08:18<14:50:17,  3.38it/s]                                                            {'loss': 3.0484, 'learning_rate': 5.374819539313496e-07, 'epoch': 8.23}
 51%|█████▏    | 191000/371472 [4:08:18<14:50:17,  3.38it/s] 51%|█████▏    | 191001/371472 [4:08:18<14:32:31,  3.45it/s] 51%|█████▏    | 191002/371472 [4:08:18<14:23:07,  3.48it/s] 51%|█████▏    | 191003/371472 [4:08:19<14:40:51,  3.41it/s] 51%|█████▏    | 191004/371472 [4:08:19<15:20:58,  3.27it/s] 51%|█████▏    | 191005/371472 [4:08:19<14:43:21,  3.40it/s] 51%|█████▏    | 191006/371472 [4:08:20<15:26:53,  3.24it/s] 51%|█████▏    | 191007/371472 [4:08:20<15:04:15,  3.33it/s] 51%|█████▏    | 191008/371472 [4:08:20<14:55:21,  3.36it/s] 51%|█████▏    | 191009/371472 [4:08:21<14:30:00,  3.46it/s] 51%|█████▏    | 191010/371472 [4:08:21<13:58:51,  3.59it/s] 51%|█████▏    | 191011/371472 [4:08:21<14:16:22,  3.51it/s] 51%|█████▏    | 191012/371472 [4:08:21<14:10:03,  3.54it/s] 51%|█████▏    | 191013/371472 [4:08:22<13:47:39,  3.63it/s] 51%|█████▏    | 191014/371472 [4:08:22<14:53:07,  3.37it/s] 51%|█████▏    | 191015/371472 [4:08:22<14:48:09,  3.39it/s] 51%|█████▏    | 191016/371472 [4:08:23<14:04:57,  3.56it/s] 51%|█████▏    | 191017/371472 [4:08:23<13:43:21,  3.65it/s] 51%|█████▏    | 191018/371472 [4:08:23<13:42:08,  3.66it/s] 51%|█████▏    | 191019/371472 [4:08:23<14:22:20,  3.49it/s] 51%|█████▏    | 191020/371472 [4:08:24<14:24:25,  3.48it/s]                                                            {'loss': 3.0289, 'learning_rate': 5.374334719558705e-07, 'epoch': 8.23}
 51%|█████▏    | 191020/371472 [4:08:24<14:24:25,  3.48it/s] 51%|█████▏    | 191021/371472 [4:08:24<14:32:05,  3.45it/s] 51%|█████▏    | 191022/371472 [4:08:24<14:12:14,  3.53it/s] 51%|█████▏    | 191023/371472 [4:08:25<14:45:50,  3.40it/s] 51%|█████▏    | 191024/371472 [4:08:25<14:28:53,  3.46it/s] 51%|█████▏    | 191025/371472 [4:08:25<15:24:54,  3.25it/s] 51%|█████▏    | 191026/371472 [4:08:25<14:51:24,  3.37it/s] 51%|█████▏    | 191027/371472 [4:08:26<14:37:15,  3.43it/s] 51%|█████▏    | 191028/371472 [4:08:26<14:11:09,  3.53it/s] 51%|█████▏    | 191029/371472 [4:08:26<13:59:18,  3.58it/s] 51%|█████▏    | 191030/371472 [4:08:27<13:33:17,  3.70it/s] 51%|█████▏    | 191031/371472 [4:08:27<13:56:31,  3.60it/s] 51%|█████▏    | 191032/371472 [4:08:27<13:38:30,  3.67it/s] 51%|█████▏    | 191033/371472 [4:08:27<13:42:02,  3.66it/s] 51%|█████▏    | 191034/371472 [4:08:28<13:49:11,  3.63it/s] 51%|█████▏    | 191035/371472 [4:08:28<13:36:23,  3.68it/s] 51%|█████▏    | 191036/371472 [4:08:28<13:49:02,  3.63it/s] 51%|█████▏    | 191037/371472 [4:08:28<13:54:39,  3.60it/s] 51%|█████▏    | 191038/371472 [4:08:29<13:56:01,  3.60it/s] 51%|█████▏    | 191039/371472 [4:08:29<14:39:48,  3.42it/s] 51%|█████▏    | 191040/371472 [4:08:29<15:06:41,  3.32it/s]                                                            {'loss': 2.9647, 'learning_rate': 5.373849899803917e-07, 'epoch': 8.23}
 51%|█████▏    | 191040/371472 [4:08:29<15:06:41,  3.32it/s] 51%|█████▏    | 191041/371472 [4:08:30<14:55:36,  3.36it/s] 51%|█████▏    | 191042/371472 [4:08:30<14:30:27,  3.45it/s] 51%|█████▏    | 191043/371472 [4:08:30<14:18:28,  3.50it/s] 51%|█████▏    | 191044/371472 [4:08:31<14:57:23,  3.35it/s] 51%|█████▏    | 191045/371472 [4:08:31<14:05:21,  3.56it/s] 51%|█████▏    | 191046/371472 [4:08:31<13:42:57,  3.65it/s] 51%|█████▏    | 191047/371472 [4:08:31<13:38:45,  3.67it/s] 51%|█████▏    | 191048/371472 [4:08:32<13:41:02,  3.66it/s] 51%|█████▏    | 191049/371472 [4:08:32<13:42:43,  3.65it/s] 51%|█████▏    | 191050/371472 [4:08:32<13:38:04,  3.68it/s] 51%|█████▏    | 191051/371472 [4:08:32<13:30:01,  3.71it/s] 51%|█████▏    | 191052/371472 [4:08:33<13:17:42,  3.77it/s] 51%|█████▏    | 191053/371472 [4:08:33<13:23:19,  3.74it/s] 51%|█████▏    | 191054/371472 [4:08:33<13:01:41,  3.85it/s] 51%|█████▏    | 191055/371472 [4:08:33<13:43:01,  3.65it/s] 51%|█████▏    | 191056/371472 [4:08:34<13:35:16,  3.69it/s] 51%|█████▏    | 191057/371472 [4:08:34<13:20:54,  3.75it/s] 51%|█████▏    | 191058/371472 [4:08:34<13:35:42,  3.69it/s] 51%|█████▏    | 191059/371472 [4:08:35<13:45:32,  3.64it/s] 51%|█████▏    | 191060/371472 [4:08:35<14:04:19,  3.56it/s]                                                            {'loss': 2.8639, 'learning_rate': 5.373365080049128e-07, 'epoch': 8.23}
 51%|█████▏    | 191060/371472 [4:08:35<14:04:19,  3.56it/s] 51%|█████▏    | 191061/371472 [4:08:35<13:58:56,  3.58it/s] 51%|█████▏    | 191062/371472 [4:08:35<14:27:58,  3.46it/s] 51%|█████▏    | 191063/371472 [4:08:36<14:09:09,  3.54it/s] 51%|█████▏    | 191064/371472 [4:08:36<15:23:56,  3.25it/s] 51%|█████▏    | 191065/371472 [4:08:36<15:16:25,  3.28it/s] 51%|█████▏    | 191066/371472 [4:08:37<15:02:04,  3.33it/s] 51%|█████▏    | 191067/371472 [4:08:37<14:45:27,  3.40it/s] 51%|█████▏    | 191068/371472 [4:08:37<14:18:06,  3.50it/s] 51%|█████▏    | 191069/371472 [4:08:38<14:16:36,  3.51it/s] 51%|█████▏    | 191070/371472 [4:08:38<14:01:04,  3.57it/s] 51%|█████▏    | 191071/371472 [4:08:38<13:51:29,  3.62it/s] 51%|█████▏    | 191072/371472 [4:08:38<13:55:10,  3.60it/s] 51%|█████▏    | 191073/371472 [4:08:39<13:31:17,  3.71it/s] 51%|█████▏    | 191074/371472 [4:08:39<14:42:36,  3.41it/s] 51%|█████▏    | 191075/371472 [4:08:39<14:35:09,  3.44it/s] 51%|█████▏    | 191076/371472 [4:08:39<14:36:29,  3.43it/s] 51%|█████▏    | 191077/371472 [4:08:40<14:05:27,  3.56it/s] 51%|█████▏    | 191078/371472 [4:08:40<14:11:33,  3.53it/s] 51%|█████▏    | 191079/371472 [4:08:40<13:59:10,  3.58it/s] 51%|█████▏    | 191080/371472 [4:08:41<16:38:18,  3.01it/s]                                                            {'loss': 3.0918, 'learning_rate': 5.372880260294339e-07, 'epoch': 8.23}
 51%|█████▏    | 191080/371472 [4:08:41<16:38:18,  3.01it/s] 51%|█████▏    | 191081/371472 [4:08:41<15:25:53,  3.25it/s] 51%|█████▏    | 191082/371472 [4:08:41<15:17:24,  3.28it/s] 51%|█████▏    | 191083/371472 [4:08:42<14:45:17,  3.40it/s] 51%|█████▏    | 191084/371472 [4:08:42<14:48:13,  3.38it/s] 51%|█████▏    | 191085/371472 [4:08:42<16:55:00,  2.96it/s] 51%|█████▏    | 191086/371472 [4:08:43<16:46:48,  2.99it/s] 51%|█████▏    | 191087/371472 [4:08:43<17:14:51,  2.91it/s] 51%|█████▏    | 191088/371472 [4:08:43<16:19:59,  3.07it/s] 51%|█████▏    | 191089/371472 [4:08:44<15:50:02,  3.16it/s] 51%|█████▏    | 191090/371472 [4:08:44<15:25:11,  3.25it/s] 51%|█████▏    | 191091/371472 [4:08:44<15:16:14,  3.28it/s] 51%|█████▏    | 191092/371472 [4:08:44<14:27:19,  3.47it/s] 51%|█████▏    | 191093/371472 [4:08:45<14:08:38,  3.54it/s] 51%|█████▏    | 191094/371472 [4:08:45<13:55:15,  3.60it/s] 51%|█████▏    | 191095/371472 [4:08:45<13:47:51,  3.63it/s] 51%|█████▏    | 191096/371472 [4:08:46<16:19:27,  3.07it/s] 51%|█████▏    | 191097/371472 [4:08:46<15:11:17,  3.30it/s] 51%|█████▏    | 191098/371472 [4:08:46<14:38:01,  3.42it/s] 51%|█████▏    | 191099/371472 [4:08:46<14:23:50,  3.48it/s] 51%|█████▏    | 191100/371472 [4:08:47<14:10:41,  3.53it/s]                                                            {'loss': 2.9492, 'learning_rate': 5.372395440539548e-07, 'epoch': 8.23}
 51%|█████▏    | 191100/371472 [4:08:47<14:10:41,  3.53it/s] 51%|█████▏    | 191101/371472 [4:08:47<14:53:21,  3.37it/s] 51%|█████▏    | 191102/371472 [4:08:47<14:58:09,  3.35it/s] 51%|█████▏    | 191103/371472 [4:08:48<14:19:41,  3.50it/s] 51%|█████▏    | 191104/371472 [4:08:48<15:54:21,  3.15it/s] 51%|█████▏    | 191105/371472 [4:08:48<15:46:32,  3.18it/s] 51%|█████▏    | 191106/371472 [4:08:49<14:54:36,  3.36it/s] 51%|█████▏    | 191107/371472 [4:08:49<14:27:49,  3.46it/s] 51%|█████▏    | 191108/371472 [4:08:49<15:05:52,  3.32it/s] 51%|█████▏    | 191109/371472 [4:08:49<14:29:09,  3.46it/s] 51%|█████▏    | 191110/371472 [4:08:50<13:55:45,  3.60it/s] 51%|█████▏    | 191111/371472 [4:08:50<13:24:31,  3.74it/s] 51%|█████▏    | 191112/371472 [4:08:50<13:31:58,  3.70it/s] 51%|█████▏    | 191113/371472 [4:08:51<14:54:39,  3.36it/s] 51%|█████▏    | 191114/371472 [4:08:51<14:17:53,  3.50it/s] 51%|█████▏    | 191115/371472 [4:08:51<14:21:02,  3.49it/s] 51%|█████▏    | 191116/371472 [4:08:51<15:01:11,  3.34it/s] 51%|█████▏    | 191117/371472 [4:08:52<14:47:45,  3.39it/s] 51%|█████▏    | 191118/371472 [4:08:52<14:17:31,  3.51it/s] 51%|█████▏    | 191119/371472 [4:08:52<15:04:44,  3.32it/s] 51%|█████▏    | 191120/371472 [4:08:53<15:11:33,  3.30it/s]                                                            {'loss': 3.0429, 'learning_rate': 5.371910620784762e-07, 'epoch': 8.23}
 51%|█████▏    | 191120/371472 [4:08:53<15:11:33,  3.30it/s] 51%|█████▏    | 191121/371472 [4:08:53<14:52:40,  3.37it/s] 51%|█████▏    | 191122/371472 [4:08:53<14:36:10,  3.43it/s] 51%|█████▏    | 191123/371472 [4:08:53<14:23:09,  3.48it/s] 51%|█████▏    | 191124/371472 [4:08:54<13:52:24,  3.61it/s] 51%|█████▏    | 191125/371472 [4:08:54<14:02:25,  3.57it/s] 51%|█████▏    | 191126/371472 [4:08:54<13:41:51,  3.66it/s] 51%|█████▏    | 191127/371472 [4:08:55<13:41:14,  3.66it/s] 51%|█████▏    | 191128/371472 [4:08:55<13:12:08,  3.79it/s] 51%|█████▏    | 191129/371472 [4:08:55<13:56:39,  3.59it/s] 51%|█████▏    | 191130/371472 [4:08:55<14:03:43,  3.56it/s] 51%|█████▏    | 191131/371472 [4:08:56<14:09:57,  3.54it/s] 51%|█████▏    | 191132/371472 [4:08:56<14:05:28,  3.56it/s] 51%|█████▏    | 191133/371472 [4:08:56<14:11:02,  3.53it/s] 51%|█████▏    | 191134/371472 [4:08:57<14:24:35,  3.48it/s] 51%|█████▏    | 191135/371472 [4:08:57<14:37:19,  3.43it/s] 51%|█████▏    | 191136/371472 [4:08:57<14:07:50,  3.55it/s] 51%|█████▏    | 191137/371472 [4:08:57<14:25:00,  3.47it/s] 51%|█████▏    | 191138/371472 [4:08:58<14:50:45,  3.37it/s] 51%|█████▏    | 191139/371472 [4:08:58<14:57:07,  3.35it/s] 51%|█████▏    | 191140/371472 [4:08:58<14:39:22,  3.42it/s]                                                            {'loss': 2.9258, 'learning_rate': 5.371425801029972e-07, 'epoch': 8.23}
 51%|█████▏    | 191140/371472 [4:08:58<14:39:22,  3.42it/s] 51%|█████▏    | 191141/371472 [4:08:59<15:05:58,  3.32it/s] 51%|█████▏    | 191142/371472 [4:08:59<14:37:34,  3.42it/s] 51%|█████▏    | 191143/371472 [4:08:59<14:29:55,  3.45it/s] 51%|█████▏    | 191144/371472 [4:08:59<14:15:42,  3.51it/s] 51%|█████▏    | 191145/371472 [4:09:00<14:25:46,  3.47it/s] 51%|█████▏    | 191146/371472 [4:09:00<14:09:17,  3.54it/s] 51%|█████▏    | 191147/371472 [4:09:00<14:58:06,  3.35it/s] 51%|█████▏    | 191148/371472 [4:09:01<14:04:56,  3.56it/s] 51%|█████▏    | 191149/371472 [4:09:01<13:41:46,  3.66it/s] 51%|█████▏    | 191150/371472 [4:09:01<13:27:17,  3.72it/s] 51%|█████▏    | 191151/371472 [4:09:01<14:10:01,  3.54it/s] 51%|█████▏    | 191152/371472 [4:09:02<14:56:21,  3.35it/s] 51%|█████▏    | 191153/371472 [4:09:02<14:38:32,  3.42it/s] 51%|█████▏    | 191154/371472 [4:09:02<14:55:57,  3.35it/s] 51%|█████▏    | 191155/371472 [4:09:03<15:17:50,  3.27it/s] 51%|█████▏    | 191156/371472 [4:09:03<15:27:54,  3.24it/s] 51%|█████▏    | 191157/371472 [4:09:03<15:09:05,  3.31it/s] 51%|█████▏    | 191158/371472 [4:09:04<15:58:21,  3.14it/s] 51%|█████▏    | 191159/371472 [4:09:04<15:03:19,  3.33it/s] 51%|█████▏    | 191160/371472 [4:09:04<14:41:39,  3.41it/s]                                                            {'loss': 2.9182, 'learning_rate': 5.370940981275184e-07, 'epoch': 8.23}
 51%|█████▏    | 191160/371472 [4:09:04<14:41:39,  3.41it/s] 51%|█████▏    | 191161/371472 [4:09:04<15:01:17,  3.33it/s] 51%|█████▏    | 191162/371472 [4:09:05<14:45:01,  3.40it/s] 51%|█████▏    | 191163/371472 [4:09:05<15:10:48,  3.30it/s] 51%|█████▏    | 191164/371472 [4:09:05<15:20:29,  3.26it/s] 51%|█████▏    | 191165/371472 [4:09:06<14:25:14,  3.47it/s] 51%|█████▏    | 191166/371472 [4:09:06<13:56:14,  3.59it/s] 51%|█████▏    | 191167/371472 [4:09:06<13:47:58,  3.63it/s] 51%|█████▏    | 191168/371472 [4:09:06<13:55:39,  3.60it/s] 51%|█████▏    | 191169/371472 [4:09:07<13:59:51,  3.58it/s] 51%|█████▏    | 191170/371472 [4:09:07<14:32:40,  3.44it/s] 51%|█████▏    | 191171/371472 [4:09:07<13:36:08,  3.68it/s] 51%|█████▏    | 191172/371472 [4:09:08<13:09:46,  3.80it/s] 51%|█████▏    | 191173/371472 [4:09:08<13:34:57,  3.69it/s] 51%|█████▏    | 191174/371472 [4:09:08<13:46:42,  3.63it/s] 51%|█████▏    | 191175/371472 [4:09:08<13:32:59,  3.70it/s] 51%|█████▏    | 191176/371472 [4:09:09<13:55:21,  3.60it/s] 51%|█████▏    | 191177/371472 [4:09:09<14:02:05,  3.57it/s] 51%|█████▏    | 191178/371472 [4:09:09<13:37:31,  3.68it/s] 51%|█████▏    | 191179/371472 [4:09:09<13:33:42,  3.69it/s] 51%|█████▏    | 191180/371472 [4:09:10<13:32:14,  3.70it/s]                                                            {'loss': 3.1028, 'learning_rate': 5.370456161520394e-07, 'epoch': 8.23}
 51%|█████▏    | 191180/371472 [4:09:10<13:32:14,  3.70it/s] 51%|█████▏    | 191181/371472 [4:09:10<13:48:41,  3.63it/s] 51%|█████▏    | 191182/371472 [4:09:10<14:04:12,  3.56it/s] 51%|█████▏    | 191183/371472 [4:09:11<14:00:33,  3.57it/s] 51%|█████▏    | 191184/371472 [4:09:11<14:40:25,  3.41it/s] 51%|█████▏    | 191185/371472 [4:09:11<14:14:48,  3.52it/s] 51%|█████▏    | 191186/371472 [4:09:11<13:37:59,  3.67it/s] 51%|█████▏    | 191187/371472 [4:09:12<13:35:48,  3.68it/s] 51%|█████▏    | 191188/371472 [4:09:12<13:39:39,  3.67it/s] 51%|█████▏    | 191189/371472 [4:09:12<14:26:18,  3.47it/s] 51%|█████▏    | 191190/371472 [4:09:13<14:46:40,  3.39it/s] 51%|█████▏    | 191191/371472 [4:09:13<14:30:26,  3.45it/s] 51%|█████▏    | 191192/371472 [4:09:13<14:18:08,  3.50it/s] 51%|█████▏    | 191193/371472 [4:09:13<14:00:32,  3.57it/s] 51%|█████▏    | 191194/371472 [4:09:14<14:42:43,  3.40it/s] 51%|█████▏    | 191195/371472 [4:09:14<14:29:55,  3.45it/s] 51%|█████▏    | 191196/371472 [4:09:14<16:56:39,  2.96it/s] 51%|█████▏    | 191197/371472 [4:09:15<15:53:47,  3.15it/s] 51%|█████▏    | 191198/371472 [4:09:15<15:42:58,  3.19it/s] 51%|█████▏    | 191199/371472 [4:09:15<14:51:24,  3.37it/s] 51%|█████▏    | 191200/371472 [4:09:16<14:47:53,  3.38it/s]                                                            {'loss': 2.9899, 'learning_rate': 5.369971341765606e-07, 'epoch': 8.24}
 51%|█████▏    | 191200/371472 [4:09:16<14:47:53,  3.38it/s] 51%|█████▏    | 191201/371472 [4:09:16<14:17:57,  3.50it/s] 51%|█████▏    | 191202/371472 [4:09:16<15:38:41,  3.20it/s] 51%|█████▏    | 191203/371472 [4:09:17<15:32:36,  3.22it/s] 51%|█████▏    | 191204/371472 [4:09:17<14:59:05,  3.34it/s] 51%|█████▏    | 191205/371472 [4:09:17<15:07:59,  3.31it/s] 51%|█████▏    | 191206/371472 [4:09:17<15:30:30,  3.23it/s] 51%|█████▏    | 191207/371472 [4:09:18<15:00:55,  3.33it/s] 51%|█████▏    | 191208/371472 [4:09:18<14:33:18,  3.44it/s] 51%|█████▏    | 191209/371472 [4:09:18<14:02:31,  3.57it/s] 51%|█████▏    | 191210/371472 [4:09:19<14:12:34,  3.52it/s] 51%|█████▏    | 191211/371472 [4:09:19<15:06:47,  3.31it/s] 51%|█████▏    | 191212/371472 [4:09:19<15:26:16,  3.24it/s] 51%|█████▏    | 191213/371472 [4:09:20<16:09:47,  3.10it/s] 51%|█████▏    | 191214/371472 [4:09:20<15:06:35,  3.31it/s] 51%|█████▏    | 191215/371472 [4:09:20<14:25:55,  3.47it/s] 51%|█████▏    | 191216/371472 [4:09:20<14:10:17,  3.53it/s] 51%|█████▏    | 191217/371472 [4:09:21<14:25:17,  3.47it/s] 51%|█████▏    | 191218/371472 [4:09:21<13:49:05,  3.62it/s] 51%|█████▏    | 191219/371472 [4:09:21<14:47:48,  3.38it/s] 51%|█████▏    | 191220/371472 [4:09:22<15:30:16,  3.23it/s]                                                            {'loss': 2.8737, 'learning_rate': 5.369486522010816e-07, 'epoch': 8.24}
 51%|█████▏    | 191220/371472 [4:09:22<15:30:16,  3.23it/s] 51%|█████▏    | 191221/371472 [4:09:22<15:13:15,  3.29it/s] 51%|█████▏    | 191222/371472 [4:09:22<15:03:45,  3.32it/s] 51%|█████▏    | 191223/371472 [4:09:23<15:45:40,  3.18it/s] 51%|█████▏    | 191224/371472 [4:09:23<15:24:08,  3.25it/s] 51%|█████▏    | 191225/371472 [4:09:23<15:17:27,  3.27it/s] 51%|█████▏    | 191226/371472 [4:09:23<15:22:03,  3.26it/s] 51%|█████▏    | 191227/371472 [4:09:24<14:58:49,  3.34it/s] 51%|█████▏    | 191228/371472 [4:09:24<14:18:31,  3.50it/s] 51%|█████▏    | 191229/371472 [4:09:24<13:57:39,  3.59it/s] 51%|█████▏    | 191230/371472 [4:09:24<13:48:22,  3.63it/s] 51%|█████▏    | 191231/371472 [4:09:25<15:20:32,  3.26it/s] 51%|█████▏    | 191232/371472 [4:09:25<15:05:27,  3.32it/s] 51%|█████▏    | 191233/371472 [4:09:26<16:22:37,  3.06it/s] 51%|█████▏    | 191234/371472 [4:09:26<15:57:31,  3.14it/s] 51%|█████▏    | 191235/371472 [4:09:26<15:27:03,  3.24it/s] 51%|█████▏    | 191236/371472 [4:09:26<15:11:57,  3.29it/s] 51%|█████▏    | 191237/371472 [4:09:27<16:09:01,  3.10it/s] 51%|█████▏    | 191238/371472 [4:09:27<15:58:20,  3.13it/s] 51%|█████▏    | 191239/371472 [4:09:27<15:07:02,  3.31it/s] 51%|█████▏    | 191240/371472 [4:09:28<14:35:51,  3.43it/s]                                                            {'loss': 2.9355, 'learning_rate': 5.369001702256029e-07, 'epoch': 8.24}
 51%|█████▏    | 191240/371472 [4:09:28<14:35:51,  3.43it/s] 51%|█████▏    | 191241/371472 [4:09:28<14:21:49,  3.49it/s] 51%|█████▏    | 191242/371472 [4:09:28<14:21:52,  3.49it/s] 51%|█████▏    | 191243/371472 [4:09:28<14:00:58,  3.57it/s] 51%|█████▏    | 191244/371472 [4:09:29<14:49:33,  3.38it/s] 51%|█████▏    | 191245/371472 [4:09:29<15:40:04,  3.20it/s] 51%|█████▏    | 191246/371472 [4:09:29<15:40:33,  3.19it/s] 51%|█████▏    | 191247/371472 [4:09:30<15:10:45,  3.30it/s] 51%|█████▏    | 191248/371472 [4:09:30<14:59:48,  3.34it/s] 51%|█████▏    | 191249/371472 [4:09:30<14:44:24,  3.40it/s] 51%|█████▏    | 191250/371472 [4:09:31<14:51:22,  3.37it/s] 51%|█████▏    | 191251/371472 [4:09:31<14:21:40,  3.49it/s] 51%|█████▏    | 191252/371472 [4:09:31<13:46:31,  3.63it/s] 51%|█████▏    | 191253/371472 [4:09:31<13:38:14,  3.67it/s] 51%|█████▏    | 191254/371472 [4:09:32<14:04:23,  3.56it/s] 51%|█████▏    | 191255/371472 [4:09:32<13:46:20,  3.63it/s] 51%|█████▏    | 191256/371472 [4:09:32<13:28:40,  3.71it/s] 51%|█████▏    | 191257/371472 [4:09:32<13:28:32,  3.71it/s] 51%|█████▏    | 191258/371472 [4:09:33<13:30:18,  3.71it/s] 51%|█████▏    | 191259/371472 [4:09:33<13:58:09,  3.58it/s] 51%|█████▏    | 191260/371472 [4:09:33<13:58:25,  3.58it/s]                                                            {'loss': 2.9203, 'learning_rate': 5.368516882501239e-07, 'epoch': 8.24}
 51%|█████▏    | 191260/371472 [4:09:33<13:58:25,  3.58it/s] 51%|█████▏    | 191261/371472 [4:09:34<14:19:36,  3.49it/s] 51%|█████▏    | 191262/371472 [4:09:34<14:12:21,  3.52it/s] 51%|█████▏    | 191263/371472 [4:09:34<13:55:13,  3.60it/s] 51%|█████▏    | 191264/371472 [4:09:34<14:24:39,  3.47it/s] 51%|█████▏    | 191265/371472 [4:09:35<14:20:17,  3.49it/s] 51%|█████▏    | 191266/371472 [4:09:35<13:59:07,  3.58it/s] 51%|█████▏    | 191267/371472 [4:09:35<13:49:14,  3.62it/s] 51%|█████▏    | 191268/371472 [4:09:36<13:44:12,  3.64it/s] 51%|█████▏    | 191269/371472 [4:09:36<13:19:14,  3.76it/s] 51%|█████▏    | 191270/371472 [4:09:36<13:12:51,  3.79it/s] 51%|█████▏    | 191271/371472 [4:09:36<13:17:39,  3.77it/s] 51%|█████▏    | 191272/371472 [4:09:37<13:17:12,  3.77it/s] 51%|█████▏    | 191273/371472 [4:09:37<13:27:04,  3.72it/s] 51%|█████▏    | 191274/371472 [4:09:37<13:34:51,  3.69it/s] 51%|█████▏    | 191275/371472 [4:09:38<15:02:04,  3.33it/s] 51%|█████▏    | 191276/371472 [4:09:38<15:18:11,  3.27it/s] 51%|█████▏    | 191277/371472 [4:09:38<14:22:01,  3.48it/s] 51%|█████▏    | 191278/371472 [4:09:38<14:19:36,  3.49it/s] 51%|█████▏    | 191279/371472 [4:09:39<14:12:06,  3.52it/s] 51%|█████▏    | 191280/371472 [4:09:39<13:56:24,  3.59it/s]                                                            {'loss': 2.8615, 'learning_rate': 5.36803206274645e-07, 'epoch': 8.24}
 51%|█████▏    | 191280/371472 [4:09:39<13:56:24,  3.59it/s] 51%|█████▏    | 191281/371472 [4:09:39<14:42:35,  3.40it/s] 51%|█████▏    | 191282/371472 [4:09:40<14:26:23,  3.47it/s] 51%|█████▏    | 191283/371472 [4:09:40<14:12:53,  3.52it/s] 51%|█████▏    | 191284/371472 [4:09:40<13:33:40,  3.69it/s] 51%|█████▏    | 191285/371472 [4:09:40<13:53:28,  3.60it/s] 51%|█████▏    | 191286/371472 [4:09:41<14:05:53,  3.55it/s] 51%|█████▏    | 191287/371472 [4:09:41<14:11:54,  3.53it/s] 51%|█████▏    | 191288/371472 [4:09:41<14:18:40,  3.50it/s] 51%|█████▏    | 191289/371472 [4:09:42<14:30:33,  3.45it/s] 51%|█████▏    | 191290/371472 [4:09:42<14:11:10,  3.53it/s] 51%|█████▏    | 191291/371472 [4:09:42<15:12:02,  3.29it/s] 51%|█████▏    | 191292/371472 [4:09:42<15:53:38,  3.15it/s] 51%|█████▏    | 191293/371472 [4:09:43<15:13:15,  3.29it/s] 51%|█████▏    | 191294/371472 [4:09:43<14:54:56,  3.36it/s] 51%|█████▏    | 191295/371472 [4:09:43<14:19:52,  3.49it/s] 51%|█████▏    | 191296/371472 [4:09:44<13:54:40,  3.60it/s] 51%|█████▏    | 191297/371472 [4:09:44<13:39:43,  3.66it/s] 51%|█████▏    | 191298/371472 [4:09:44<14:08:10,  3.54it/s] 51%|█████▏    | 191299/371472 [4:09:44<14:29:36,  3.45it/s] 51%|█████▏    | 191300/371472 [4:09:45<13:50:05,  3.62it/s]                                                            {'loss': 2.8392, 'learning_rate': 5.367547242991661e-07, 'epoch': 8.24}
 51%|█████▏    | 191300/371472 [4:09:45<13:50:05,  3.62it/s] 51%|█████▏    | 191301/371472 [4:09:45<13:49:29,  3.62it/s] 51%|█████▏    | 191302/371472 [4:09:45<14:11:23,  3.53it/s] 51%|█████▏    | 191303/371472 [4:09:46<13:53:24,  3.60it/s] 51%|█████▏    | 191304/371472 [4:09:46<14:04:58,  3.55it/s] 51%|█████▏    | 191305/371472 [4:09:46<13:40:46,  3.66it/s] 51%|█████▏    | 191306/371472 [4:09:46<13:56:01,  3.59it/s] 51%|█████▏    | 191307/371472 [4:09:47<13:38:31,  3.67it/s] 51%|█████▏    | 191308/371472 [4:09:47<13:59:58,  3.57it/s] 52%|█████▏    | 191309/371472 [4:09:47<14:03:26,  3.56it/s] 52%|█████▏    | 191310/371472 [4:09:47<13:24:42,  3.73it/s] 52%|█████▏    | 191311/371472 [4:09:48<15:17:37,  3.27it/s] 52%|█████▏    | 191312/371472 [4:09:48<14:32:02,  3.44it/s] 52%|█████▏    | 191313/371472 [4:09:48<13:53:41,  3.60it/s] 52%|█████▏    | 191314/371472 [4:09:49<14:15:53,  3.51it/s] 52%|█████▏    | 191315/371472 [4:09:49<14:04:34,  3.56it/s] 52%|█████▏    | 191316/371472 [4:09:49<13:43:56,  3.64it/s] 52%|█████▏    | 191317/371472 [4:09:49<13:29:10,  3.71it/s] 52%|█████▏    | 191318/371472 [4:09:50<14:28:14,  3.46it/s] 52%|█████▏    | 191319/371472 [4:09:50<14:14:49,  3.51it/s] 52%|█████▏    | 191320/371472 [4:09:50<14:12:06,  3.52it/s]                                                            {'loss': 2.8997, 'learning_rate': 5.367062423236873e-07, 'epoch': 8.24}
 52%|█████▏    | 191320/371472 [4:09:50<14:12:06,  3.52it/s] 52%|█████▏    | 191321/371472 [4:09:51<14:10:14,  3.53it/s] 52%|█████▏    | 191322/371472 [4:09:51<13:53:46,  3.60it/s] 52%|█████▏    | 191323/371472 [4:09:51<14:21:41,  3.48it/s] 52%|█████▏    | 191324/371472 [4:09:51<14:35:57,  3.43it/s] 52%|█████▏    | 191325/371472 [4:09:52<15:28:48,  3.23it/s] 52%|█████▏    | 191326/371472 [4:09:52<15:37:59,  3.20it/s] 52%|█████▏    | 191327/371472 [4:09:52<15:17:33,  3.27it/s] 52%|█████▏    | 191328/371472 [4:09:53<15:00:02,  3.34it/s] 52%|█████▏    | 191329/371472 [4:09:53<14:47:56,  3.38it/s] 52%|█████▏    | 191330/371472 [4:09:53<15:17:40,  3.27it/s] 52%|█████▏    | 191331/371472 [4:09:54<14:40:14,  3.41it/s] 52%|█████▏    | 191332/371472 [4:09:54<14:51:39,  3.37it/s] 52%|█████▏    | 191333/371472 [4:09:54<14:42:36,  3.40it/s] 52%|█████▏    | 191334/371472 [4:09:54<14:59:35,  3.34it/s] 52%|█████▏    | 191335/371472 [4:09:55<14:25:51,  3.47it/s] 52%|█████▏    | 191336/371472 [4:09:55<13:59:19,  3.58it/s] 52%|█████▏    | 191337/371472 [4:09:55<13:45:12,  3.64it/s] 52%|█████▏    | 191338/371472 [4:09:56<14:05:16,  3.55it/s] 52%|█████▏    | 191339/371472 [4:09:56<14:01:41,  3.57it/s] 52%|█████▏    | 191340/371472 [4:09:56<14:13:03,  3.52it/s]                                                            {'loss': 3.1341, 'learning_rate': 5.366577603482082e-07, 'epoch': 8.24}
 52%|█████▏    | 191340/371472 [4:09:56<14:13:03,  3.52it/s] 52%|█████▏    | 191341/371472 [4:09:56<15:07:53,  3.31it/s] 52%|█████▏    | 191342/371472 [4:09:57<14:48:43,  3.38it/s] 52%|█████▏    | 191343/371472 [4:09:57<15:04:32,  3.32it/s] 52%|█████▏    | 191344/371472 [4:09:57<14:41:38,  3.41it/s] 52%|█████▏    | 191345/371472 [4:09:58<14:40:36,  3.41it/s] 52%|█████▏    | 191346/371472 [4:09:58<14:21:34,  3.48it/s] 52%|█████▏    | 191347/371472 [4:09:58<13:56:23,  3.59it/s] 52%|█████▏    | 191348/371472 [4:09:58<14:23:24,  3.48it/s] 52%|█████▏    | 191349/371472 [4:09:59<13:44:46,  3.64it/s] 52%|█████▏    | 191350/371472 [4:09:59<13:27:42,  3.72it/s] 52%|█████▏    | 191351/371472 [4:09:59<13:16:52,  3.77it/s] 52%|█████▏    | 191352/371472 [4:10:00<13:19:58,  3.75it/s] 52%|█████▏    | 191353/371472 [4:10:00<13:18:33,  3.76it/s] 52%|█████▏    | 191354/371472 [4:10:00<13:30:31,  3.70it/s] 52%|█████▏    | 191355/371472 [4:10:00<13:56:37,  3.59it/s] 52%|█████▏    | 191356/371472 [4:10:01<14:11:40,  3.52it/s] 52%|█████▏    | 191357/371472 [4:10:01<14:21:55,  3.48it/s] 52%|█████▏    | 191358/371472 [4:10:01<14:35:02,  3.43it/s] 52%|█████▏    | 191359/371472 [4:10:02<14:23:57,  3.47it/s] 52%|█████▏    | 191360/371472 [4:10:02<14:12:49,  3.52it/s]                                                            {'loss': 3.1843, 'learning_rate': 5.366092783727295e-07, 'epoch': 8.24}
 52%|█████▏    | 191360/371472 [4:10:02<14:12:49,  3.52it/s] 52%|█████▏    | 191361/371472 [4:10:02<15:08:37,  3.30it/s] 52%|█████▏    | 191362/371472 [4:10:02<14:52:59,  3.36it/s] 52%|█████▏    | 191363/371472 [4:10:03<14:24:14,  3.47it/s] 52%|█████▏    | 191364/371472 [4:10:03<13:55:23,  3.59it/s] 52%|█████▏    | 191365/371472 [4:10:03<13:53:35,  3.60it/s] 52%|█████▏    | 191366/371472 [4:10:04<14:02:51,  3.56it/s] 52%|█████▏    | 191367/371472 [4:10:04<13:35:37,  3.68it/s] 52%|█████▏    | 191368/371472 [4:10:04<13:36:56,  3.67it/s] 52%|█████▏    | 191369/371472 [4:10:04<14:12:11,  3.52it/s] 52%|█████▏    | 191370/371472 [4:10:05<13:50:25,  3.61it/s] 52%|█████▏    | 191371/371472 [4:10:05<14:05:23,  3.55it/s] 52%|█████▏    | 191372/371472 [4:10:05<14:09:01,  3.54it/s] 52%|█████▏    | 191373/371472 [4:10:05<13:46:07,  3.63it/s] 52%|█████▏    | 191374/371472 [4:10:06<13:35:10,  3.68it/s] 52%|█████▏    | 191375/371472 [4:10:06<14:17:54,  3.50it/s] 52%|█████▏    | 191376/371472 [4:10:06<13:47:56,  3.63it/s] 52%|█████▏    | 191377/371472 [4:10:07<14:15:20,  3.51it/s] 52%|█████▏    | 191378/371472 [4:10:07<14:32:59,  3.44it/s] 52%|█████▏    | 191379/371472 [4:10:07<16:01:54,  3.12it/s] 52%|█████▏    | 191380/371472 [4:10:08<14:57:40,  3.34it/s]                                                            {'loss': 2.8976, 'learning_rate': 5.365607963972506e-07, 'epoch': 8.24}
 52%|█████▏    | 191380/371472 [4:10:08<14:57:40,  3.34it/s] 52%|█████▏    | 191381/371472 [4:10:08<15:38:28,  3.20it/s] 52%|█████▏    | 191382/371472 [4:10:08<14:53:19,  3.36it/s] 52%|█████▏    | 191383/371472 [4:10:08<15:00:43,  3.33it/s] 52%|█████▏    | 191384/371472 [4:10:09<14:50:39,  3.37it/s] 52%|█████▏    | 191385/371472 [4:10:09<14:38:26,  3.42it/s] 52%|█████▏    | 191386/371472 [4:10:09<14:17:12,  3.50it/s] 52%|█████▏    | 191387/371472 [4:10:10<14:08:52,  3.54it/s] 52%|█████▏    | 191388/371472 [4:10:10<14:29:36,  3.45it/s] 52%|█████▏    | 191389/371472 [4:10:10<14:20:11,  3.49it/s] 52%|█████▏    | 191390/371472 [4:10:10<14:25:09,  3.47it/s] 52%|█████▏    | 191391/371472 [4:10:11<14:23:08,  3.48it/s] 52%|█████▏    | 191392/371472 [4:10:11<14:17:18,  3.50it/s] 52%|█████▏    | 191393/371472 [4:10:11<14:44:16,  3.39it/s] 52%|█████▏    | 191394/371472 [4:10:12<14:21:49,  3.48it/s] 52%|█████▏    | 191395/371472 [4:10:12<13:49:40,  3.62it/s] 52%|█████▏    | 191396/371472 [4:10:12<14:55:48,  3.35it/s] 52%|█████▏    | 191397/371472 [4:10:12<14:08:10,  3.54it/s] 52%|█████▏    | 191398/371472 [4:10:13<13:52:13,  3.61it/s] 52%|█████▏    | 191399/371472 [4:10:13<13:37:05,  3.67it/s] 52%|█████▏    | 191400/371472 [4:10:13<13:16:52,  3.77it/s]                                                            {'loss': 3.0147, 'learning_rate': 5.365123144217716e-07, 'epoch': 8.24}
 52%|█████▏    | 191400/371472 [4:10:13<13:16:52,  3.77it/s] 52%|█████▏    | 191401/371472 [4:10:14<14:00:29,  3.57it/s] 52%|█████▏    | 191402/371472 [4:10:14<14:43:59,  3.40it/s] 52%|█████▏    | 191403/371472 [4:10:14<14:09:04,  3.53it/s] 52%|█████▏    | 191404/371472 [4:10:14<13:32:42,  3.69it/s] 52%|█████▏    | 191405/371472 [4:10:15<14:37:32,  3.42it/s] 52%|█████▏    | 191406/371472 [4:10:15<14:32:13,  3.44it/s] 52%|█████▏    | 191407/371472 [4:10:15<14:17:32,  3.50it/s] 52%|█████▏    | 191408/371472 [4:10:16<13:45:54,  3.63it/s] 52%|█████▏    | 191409/371472 [4:10:16<14:03:46,  3.56it/s] 52%|█████▏    | 191410/371472 [4:10:16<13:31:51,  3.70it/s] 52%|█████▏    | 191411/371472 [4:10:16<13:36:18,  3.68it/s] 52%|█████▏    | 191412/371472 [4:10:17<13:26:02,  3.72it/s] 52%|█████▏    | 191413/371472 [4:10:17<13:44:21,  3.64it/s] 52%|█████▏    | 191414/371472 [4:10:17<13:38:34,  3.67it/s] 52%|█████▏    | 191415/371472 [4:10:17<13:47:28,  3.63it/s] 52%|█████▏    | 191416/371472 [4:10:18<14:02:33,  3.56it/s] 52%|█████▏    | 191417/371472 [4:10:18<13:36:38,  3.67it/s] 52%|█████▏    | 191418/371472 [4:10:18<16:18:06,  3.07it/s] 52%|█████▏    | 191419/371472 [4:10:19<16:12:27,  3.09it/s] 52%|█████▏    | 191420/371472 [4:10:19<15:19:08,  3.26it/s]                                                            {'loss': 3.2004, 'learning_rate': 5.364638324462927e-07, 'epoch': 8.24}
 52%|█████▏    | 191420/371472 [4:10:19<15:19:08,  3.26it/s] 52%|█████▏    | 191421/371472 [4:10:19<15:09:30,  3.30it/s] 52%|█████▏    | 191422/371472 [4:10:20<14:39:49,  3.41it/s] 52%|█████▏    | 191423/371472 [4:10:20<14:22:11,  3.48it/s] 52%|█████▏    | 191424/371472 [4:10:20<14:01:36,  3.57it/s] 52%|█████▏    | 191425/371472 [4:10:20<14:06:31,  3.54it/s] 52%|█████▏    | 191426/371472 [4:10:21<14:19:21,  3.49it/s] 52%|█████▏    | 191427/371472 [4:10:21<13:53:34,  3.60it/s] 52%|█████▏    | 191428/371472 [4:10:21<13:39:44,  3.66it/s] 52%|█████▏    | 191429/371472 [4:10:22<14:02:25,  3.56it/s] 52%|█████▏    | 191430/371472 [4:10:22<14:13:09,  3.52it/s] 52%|█████▏    | 191431/371472 [4:10:22<14:45:48,  3.39it/s] 52%|█████▏    | 191432/371472 [4:10:22<14:17:21,  3.50it/s] 52%|█████▏    | 191433/371472 [4:10:23<13:48:06,  3.62it/s] 52%|█████▏    | 191434/371472 [4:10:23<13:24:29,  3.73it/s] 52%|█████▏    | 191435/371472 [4:10:23<14:18:09,  3.50it/s] 52%|█████▏    | 191436/371472 [4:10:23<13:56:26,  3.59it/s] 52%|█████▏    | 191437/371472 [4:10:24<13:30:21,  3.70it/s] 52%|█████▏    | 191438/371472 [4:10:24<13:26:26,  3.72it/s] 52%|█████▏    | 191439/371472 [4:10:24<13:49:57,  3.62it/s] 52%|█████▏    | 191440/371472 [4:10:25<14:04:49,  3.55it/s]                                                            {'loss': 3.0311, 'learning_rate': 5.364153504708138e-07, 'epoch': 8.25}
 52%|█████▏    | 191440/371472 [4:10:25<14:04:49,  3.55it/s] 52%|█████▏    | 191441/371472 [4:10:25<14:32:11,  3.44it/s] 52%|█████▏    | 191442/371472 [4:10:25<14:32:32,  3.44it/s] 52%|█████▏    | 191443/371472 [4:10:25<14:08:20,  3.54it/s] 52%|█████▏    | 191444/371472 [4:10:26<14:45:10,  3.39it/s] 52%|█████▏    | 191445/371472 [4:10:26<14:34:36,  3.43it/s] 52%|█████▏    | 191446/371472 [4:10:26<15:31:50,  3.22it/s] 52%|█████▏    | 191447/371472 [4:10:27<15:20:52,  3.26it/s] 52%|█████▏    | 191448/371472 [4:10:27<14:50:24,  3.37it/s] 52%|█████▏    | 191449/371472 [4:10:27<14:36:24,  3.42it/s] 52%|█████▏    | 191450/371472 [4:10:28<15:03:02,  3.32it/s] 52%|█████▏    | 191451/371472 [4:10:28<17:04:29,  2.93it/s] 52%|█████▏    | 191452/371472 [4:10:28<16:22:08,  3.05it/s] 52%|█████▏    | 191453/371472 [4:10:29<15:48:17,  3.16it/s] 52%|█████▏    | 191454/371472 [4:10:29<15:10:57,  3.29it/s] 52%|█████▏    | 191455/371472 [4:10:29<14:55:26,  3.35it/s] 52%|█████▏    | 191456/371472 [4:10:29<14:24:55,  3.47it/s] 52%|█████▏    | 191457/371472 [4:10:30<14:10:22,  3.53it/s] 52%|█████▏    | 191458/371472 [4:10:30<13:31:49,  3.70it/s] 52%|█████▏    | 191459/371472 [4:10:30<13:02:35,  3.83it/s] 52%|█████▏    | 191460/371472 [4:10:30<12:46:54,  3.91it/s]                                                            {'loss': 2.8268, 'learning_rate': 5.363668684953349e-07, 'epoch': 8.25}
 52%|█████▏    | 191460/371472 [4:10:30<12:46:54,  3.91it/s] 52%|█████▏    | 191461/371472 [4:10:31<13:31:36,  3.70it/s] 52%|█████▏    | 191462/371472 [4:10:31<13:44:30,  3.64it/s] 52%|█████▏    | 191463/371472 [4:10:31<13:31:09,  3.70it/s] 52%|█████▏    | 191464/371472 [4:10:32<14:16:17,  3.50it/s] 52%|█████▏    | 191465/371472 [4:10:32<14:03:13,  3.56it/s] 52%|█████▏    | 191466/371472 [4:10:32<14:04:08,  3.55it/s] 52%|█████▏    | 191467/371472 [4:10:32<13:29:00,  3.71it/s] 52%|█████▏    | 191468/371472 [4:10:33<13:05:37,  3.82it/s] 52%|█████▏    | 191469/371472 [4:10:33<13:45:55,  3.63it/s] 52%|█████▏    | 191470/371472 [4:10:33<14:05:23,  3.55it/s] 52%|█████▏    | 191471/371472 [4:10:34<14:19:26,  3.49it/s] 52%|█████▏    | 191472/371472 [4:10:34<14:29:58,  3.45it/s] 52%|█████▏    | 191473/371472 [4:10:34<14:20:22,  3.49it/s] 52%|█████▏    | 191474/371472 [4:10:34<13:37:53,  3.67it/s] 52%|█████▏    | 191475/371472 [4:10:35<13:58:16,  3.58it/s] 52%|█████▏    | 191476/371472 [4:10:35<14:00:19,  3.57it/s] 52%|█████▏    | 191477/371472 [4:10:35<14:22:13,  3.48it/s] 52%|█████▏    | 191478/371472 [4:10:35<13:52:29,  3.60it/s] 52%|█████▏    | 191479/371472 [4:10:36<13:45:06,  3.64it/s] 52%|█████▏    | 191480/371472 [4:10:36<13:34:06,  3.68it/s]                                                            {'loss': 2.9644, 'learning_rate': 5.363183865198559e-07, 'epoch': 8.25}
 52%|█████▏    | 191480/371472 [4:10:36<13:34:06,  3.68it/s] 52%|█████▏    | 191481/371472 [4:10:36<13:48:04,  3.62it/s] 52%|█████▏    | 191482/371472 [4:10:37<13:32:00,  3.69it/s] 52%|█████▏    | 191483/371472 [4:10:37<13:56:18,  3.59it/s] 52%|█████▏    | 191484/371472 [4:10:37<13:23:42,  3.73it/s] 52%|█████▏    | 191485/371472 [4:10:37<13:02:24,  3.83it/s] 52%|█████▏    | 191486/371472 [4:10:38<13:21:54,  3.74it/s] 52%|█████▏    | 191487/371472 [4:10:38<13:51:48,  3.61it/s] 52%|█████▏    | 191488/371472 [4:10:38<13:22:07,  3.74it/s] 52%|█████▏    | 191489/371472 [4:10:39<14:23:14,  3.47it/s] 52%|█████▏    | 191490/371472 [4:10:39<13:56:41,  3.59it/s] 52%|█████▏    | 191491/371472 [4:10:39<13:57:19,  3.58it/s] 52%|█████▏    | 191492/371472 [4:10:39<13:50:36,  3.61it/s] 52%|█████▏    | 191493/371472 [4:10:40<13:40:02,  3.66it/s] 52%|█████▏    | 191494/371472 [4:10:40<14:48:07,  3.38it/s] 52%|█████▏    | 191495/371472 [4:10:40<14:55:23,  3.35it/s] 52%|█████▏    | 191496/371472 [4:10:41<14:47:19,  3.38it/s] 52%|█████▏    | 191497/371472 [4:10:41<14:18:42,  3.49it/s] 52%|█████▏    | 191498/371472 [4:10:41<14:01:03,  3.57it/s] 52%|█████▏    | 191499/371472 [4:10:41<15:28:34,  3.23it/s] 52%|█████▏    | 191500/371472 [4:10:42<14:48:55,  3.37it/s]                                                            {'loss': 3.1701, 'learning_rate': 5.362699045443772e-07, 'epoch': 8.25}
 52%|█████▏    | 191500/371472 [4:10:42<14:48:55,  3.37it/s] 52%|█████▏    | 191501/371472 [4:10:42<14:39:20,  3.41it/s] 52%|█████▏    | 191502/371472 [4:10:42<15:04:03,  3.32it/s] 52%|█████▏    | 191503/371472 [4:10:43<14:54:55,  3.35it/s] 52%|█████▏    | 191504/371472 [4:10:43<14:43:31,  3.39it/s] 52%|█████▏    | 191505/371472 [4:10:43<15:35:28,  3.21it/s] 52%|█████▏    | 191506/371472 [4:10:44<14:56:47,  3.34it/s] 52%|█████▏    | 191507/371472 [4:10:44<16:07:21,  3.10it/s] 52%|█████▏    | 191508/371472 [4:10:44<15:40:00,  3.19it/s] 52%|█████▏    | 191509/371472 [4:10:44<14:43:02,  3.40it/s] 52%|█████▏    | 191510/371472 [4:10:45<14:48:09,  3.38it/s] 52%|█████▏    | 191511/371472 [4:10:45<16:12:51,  3.08it/s] 52%|█████▏    | 191512/371472 [4:10:45<15:04:48,  3.31it/s] 52%|█████▏    | 191513/371472 [4:10:46<14:25:15,  3.47it/s] 52%|█████▏    | 191514/371472 [4:10:46<14:36:17,  3.42it/s] 52%|█████▏    | 191515/371472 [4:10:46<14:13:53,  3.51it/s] 52%|█████▏    | 191516/371472 [4:10:47<15:08:13,  3.30it/s] 52%|█████▏    | 191517/371472 [4:10:47<14:45:47,  3.39it/s] 52%|█████▏    | 191518/371472 [4:10:47<14:15:25,  3.51it/s] 52%|█████▏    | 191519/371472 [4:10:47<15:03:35,  3.32it/s] 52%|█████▏    | 191520/371472 [4:10:48<14:34:48,  3.43it/s]                                                            {'loss': 2.9326, 'learning_rate': 5.362214225688982e-07, 'epoch': 8.25}
 52%|█████▏    | 191520/371472 [4:10:48<14:34:48,  3.43it/s] 52%|█████▏    | 191521/371472 [4:10:48<14:44:24,  3.39it/s] 52%|█████▏    | 191522/371472 [4:10:48<14:10:57,  3.52it/s] 52%|█████▏    | 191523/371472 [4:10:49<14:10:20,  3.53it/s] 52%|█████▏    | 191524/371472 [4:10:49<13:55:03,  3.59it/s] 52%|█████▏    | 191525/371472 [4:10:49<14:13:03,  3.52it/s] 52%|█████▏    | 191526/371472 [4:10:49<14:08:10,  3.54it/s] 52%|█████▏    | 191527/371472 [4:10:50<14:07:46,  3.54it/s] 52%|█████▏    | 191528/371472 [4:10:50<14:07:21,  3.54it/s] 52%|█████▏    | 191529/371472 [4:10:50<13:57:10,  3.58it/s] 52%|█████▏    | 191530/371472 [4:10:50<13:56:13,  3.59it/s] 52%|█████▏    | 191531/371472 [4:10:51<13:50:30,  3.61it/s] 52%|█████▏    | 191532/371472 [4:10:51<13:33:01,  3.69it/s] 52%|█████▏    | 191533/371472 [4:10:51<13:42:54,  3.64it/s] 52%|█████▏    | 191534/371472 [4:10:52<13:53:40,  3.60it/s] 52%|█████▏    | 191535/371472 [4:10:52<13:40:10,  3.66it/s] 52%|█████▏    | 191536/371472 [4:10:52<13:32:33,  3.69it/s] 52%|█████▏    | 191537/371472 [4:10:52<14:20:11,  3.49it/s] 52%|█████▏    | 191538/371472 [4:10:53<13:58:33,  3.58it/s] 52%|█████▏    | 191539/371472 [4:10:53<14:09:09,  3.53it/s] 52%|█████▏    | 191540/371472 [4:10:53<14:02:19,  3.56it/s]                                                            {'loss': 3.2186, 'learning_rate': 5.361729405934194e-07, 'epoch': 8.25}
 52%|█████▏    | 191540/371472 [4:10:53<14:02:19,  3.56it/s] 52%|█████▏    | 191541/371472 [4:10:54<14:38:57,  3.41it/s] 52%|█████▏    | 191542/371472 [4:10:54<13:59:19,  3.57it/s] 52%|█████▏    | 191543/371472 [4:10:54<14:16:38,  3.50it/s] 52%|█████▏    | 191544/371472 [4:10:54<14:47:53,  3.38it/s] 52%|█████▏    | 191545/371472 [4:10:55<14:10:38,  3.53it/s] 52%|█████▏    | 191546/371472 [4:10:55<14:01:00,  3.57it/s] 52%|█████▏    | 191547/371472 [4:10:55<15:32:10,  3.22it/s] 52%|█████▏    | 191548/371472 [4:10:56<15:08:06,  3.30it/s] 52%|█████▏    | 191549/371472 [4:10:56<14:30:28,  3.44it/s] 52%|█████▏    | 191550/371472 [4:10:56<13:59:42,  3.57it/s] 52%|█████▏    | 191551/371472 [4:10:56<13:55:50,  3.59it/s] 52%|█████▏    | 191552/371472 [4:10:57<14:09:11,  3.53it/s] 52%|█████▏    | 191553/371472 [4:10:57<14:11:40,  3.52it/s] 52%|█████▏    | 191554/371472 [4:10:57<14:08:36,  3.53it/s] 52%|█████▏    | 191555/371472 [4:10:58<13:58:08,  3.58it/s] 52%|█████▏    | 191556/371472 [4:10:58<14:58:11,  3.34it/s] 52%|█████▏    | 191557/371472 [4:10:58<14:11:54,  3.52it/s] 52%|█████▏    | 191558/371472 [4:10:58<13:36:57,  3.67it/s] 52%|█████▏    | 191559/371472 [4:10:59<13:31:06,  3.70it/s] 52%|█████▏    | 191560/371472 [4:10:59<13:18:26,  3.76it/s]                                                            {'loss': 2.9348, 'learning_rate': 5.361244586179404e-07, 'epoch': 8.25}
 52%|█████▏    | 191560/371472 [4:10:59<13:18:26,  3.76it/s] 52%|█████▏    | 191561/371472 [4:10:59<13:47:48,  3.62it/s] 52%|█████▏    | 191562/371472 [4:11:00<14:28:58,  3.45it/s] 52%|█████▏    | 191563/371472 [4:11:00<14:58:54,  3.34it/s] 52%|█████▏    | 191564/371472 [4:11:00<14:33:34,  3.43it/s] 52%|█████▏    | 191565/371472 [4:11:00<14:46:26,  3.38it/s] 52%|█████▏    | 191566/371472 [4:11:01<14:27:45,  3.46it/s] 52%|█████▏    | 191567/371472 [4:11:01<14:13:32,  3.51it/s] 52%|█████▏    | 191568/371472 [4:11:01<14:43:01,  3.40it/s] 52%|█████▏    | 191569/371472 [4:11:02<14:28:17,  3.45it/s] 52%|█████▏    | 191570/371472 [4:11:02<14:16:03,  3.50it/s] 52%|█████▏    | 191571/371472 [4:11:02<14:20:20,  3.49it/s] 52%|█████▏    | 191572/371472 [4:11:02<14:09:46,  3.53it/s] 52%|█████▏    | 191573/371472 [4:11:03<14:23:58,  3.47it/s] 52%|█████▏    | 191574/371472 [4:11:03<15:27:14,  3.23it/s] 52%|█████▏    | 191575/371472 [4:11:03<14:45:59,  3.38it/s] 52%|█████▏    | 191576/371472 [4:11:04<15:05:05,  3.31it/s] 52%|█████▏    | 191577/371472 [4:11:04<15:04:51,  3.31it/s] 52%|█████▏    | 191578/371472 [4:11:04<15:01:19,  3.33it/s] 52%|█████▏    | 191579/371472 [4:11:05<16:09:02,  3.09it/s] 52%|█████▏    | 191580/371472 [4:11:05<14:58:32,  3.34it/s]                                                            {'loss': 3.04, 'learning_rate': 5.360759766424615e-07, 'epoch': 8.25}
 52%|█████▏    | 191580/371472 [4:11:05<14:58:32,  3.34it/s] 52%|█████▏    | 191581/371472 [4:11:05<14:21:40,  3.48it/s] 52%|█████▏    | 191582/371472 [4:11:05<14:22:26,  3.48it/s] 52%|█████▏    | 191583/371472 [4:11:06<13:59:45,  3.57it/s] 52%|█████▏    | 191584/371472 [4:11:06<13:40:31,  3.65it/s] 52%|█████▏    | 191585/371472 [4:11:06<13:20:34,  3.74it/s] 52%|█████▏    | 191586/371472 [4:11:06<13:10:19,  3.79it/s] 52%|█████▏    | 191587/371472 [4:11:07<13:31:42,  3.69it/s] 52%|█████▏    | 191588/371472 [4:11:07<13:37:55,  3.67it/s] 52%|█████▏    | 191589/371472 [4:11:07<13:52:34,  3.60it/s] 52%|█████▏    | 191590/371472 [4:11:08<14:20:22,  3.48it/s] 52%|█████▏    | 191591/371472 [4:11:08<14:51:35,  3.36it/s] 52%|█████▏    | 191592/371472 [4:11:08<14:16:19,  3.50it/s] 52%|█████▏    | 191593/371472 [4:11:08<13:44:54,  3.63it/s] 52%|█████▏    | 191594/371472 [4:11:09<14:09:05,  3.53it/s] 52%|█████▏    | 191595/371472 [4:11:09<13:42:34,  3.64it/s] 52%|█████▏    | 191596/371472 [4:11:09<14:09:01,  3.53it/s] 52%|█████▏    | 191597/371472 [4:11:10<13:35:02,  3.68it/s] 52%|█████▏    | 191598/371472 [4:11:10<13:52:30,  3.60it/s] 52%|█████▏    | 191599/371472 [4:11:10<15:08:21,  3.30it/s] 52%|█████▏    | 191600/371472 [4:11:10<14:21:43,  3.48it/s]                                                            {'loss': 3.014, 'learning_rate': 5.360274946669826e-07, 'epoch': 8.25}
 52%|█████▏    | 191600/371472 [4:11:10<14:21:43,  3.48it/s] 52%|█████▏    | 191601/371472 [4:11:11<14:05:10,  3.55it/s] 52%|█████▏    | 191602/371472 [4:11:11<13:56:02,  3.59it/s] 52%|█████▏    | 191603/371472 [4:11:11<13:54:41,  3.59it/s] 52%|█████▏    | 191604/371472 [4:11:12<14:14:53,  3.51it/s] 52%|█████▏    | 191605/371472 [4:11:12<14:35:07,  3.43it/s] 52%|█████▏    | 191606/371472 [4:11:12<14:24:07,  3.47it/s] 52%|█████▏    | 191607/371472 [4:11:12<14:33:27,  3.43it/s] 52%|█████▏    | 191608/371472 [4:11:13<13:57:03,  3.58it/s] 52%|█████▏    | 191609/371472 [4:11:13<14:15:20,  3.50it/s] 52%|█████▏    | 191610/371472 [4:11:13<13:55:23,  3.59it/s] 52%|█████▏    | 191611/371472 [4:11:14<13:41:06,  3.65it/s] 52%|█████▏    | 191612/371472 [4:11:14<13:37:31,  3.67it/s] 52%|█████▏    | 191613/371472 [4:11:14<13:59:22,  3.57it/s] 52%|█████▏    | 191614/371472 [4:11:14<14:26:38,  3.46it/s] 52%|█████▏    | 191615/371472 [4:11:15<14:07:43,  3.54it/s] 52%|█████▏    | 191616/371472 [4:11:15<13:55:57,  3.59it/s] 52%|█████▏    | 191617/371472 [4:11:15<14:49:17,  3.37it/s] 52%|█████▏    | 191618/371472 [4:11:16<14:37:42,  3.42it/s] 52%|█████▏    | 191619/371472 [4:11:16<14:15:58,  3.50it/s] 52%|█████▏    | 191620/371472 [4:11:16<13:57:18,  3.58it/s]                                                            {'loss': 2.9683, 'learning_rate': 5.359790126915039e-07, 'epoch': 8.25}
 52%|█████▏    | 191620/371472 [4:11:16<13:57:18,  3.58it/s] 52%|█████▏    | 191621/371472 [4:11:16<13:59:41,  3.57it/s] 52%|█████▏    | 191622/371472 [4:11:17<14:25:12,  3.46it/s] 52%|█████▏    | 191623/371472 [4:11:17<15:23:40,  3.25it/s] 52%|█████▏    | 191624/371472 [4:11:17<14:43:37,  3.39it/s] 52%|█████▏    | 191625/371472 [4:11:18<14:10:04,  3.53it/s] 52%|█████▏    | 191626/371472 [4:11:18<13:51:50,  3.60it/s] 52%|█████▏    | 191627/371472 [4:11:18<14:12:35,  3.52it/s] 52%|█████▏    | 191628/371472 [4:11:18<13:59:33,  3.57it/s] 52%|█████▏    | 191629/371472 [4:11:19<14:11:27,  3.52it/s] 52%|█████▏    | 191630/371472 [4:11:19<14:11:24,  3.52it/s] 52%|█████▏    | 191631/371472 [4:11:19<13:59:06,  3.57it/s] 52%|█████▏    | 191632/371472 [4:11:20<13:39:13,  3.66it/s] 52%|█████▏    | 191633/371472 [4:11:20<14:15:28,  3.50it/s] 52%|█████▏    | 191634/371472 [4:11:20<14:34:35,  3.43it/s] 52%|█████▏    | 191635/371472 [4:11:20<14:42:28,  3.40it/s] 52%|█████▏    | 191636/371472 [4:11:21<15:23:57,  3.24it/s] 52%|█████▏    | 191637/371472 [4:11:21<14:56:02,  3.35it/s] 52%|█████▏    | 191638/371472 [4:11:21<14:33:15,  3.43it/s] 52%|█████▏    | 191639/371472 [4:11:22<15:53:25,  3.14it/s] 52%|█████▏    | 191640/371472 [4:11:22<15:39:16,  3.19it/s]                                                            {'loss': 3.1, 'learning_rate': 5.359305307160249e-07, 'epoch': 8.25}
 52%|█████▏    | 191640/371472 [4:11:22<15:39:16,  3.19it/s] 52%|█████▏    | 191641/371472 [4:11:22<15:22:29,  3.25it/s] 52%|█████▏    | 191642/371472 [4:11:23<16:29:13,  3.03it/s] 52%|█████▏    | 191643/371472 [4:11:23<15:30:46,  3.22it/s] 52%|█████▏    | 191644/371472 [4:11:23<14:27:47,  3.45it/s] 52%|█████▏    | 191645/371472 [4:11:24<14:20:16,  3.48it/s] 52%|█████▏    | 191646/371472 [4:11:24<14:27:21,  3.46it/s] 52%|█████▏    | 191647/371472 [4:11:24<13:51:29,  3.60it/s] 52%|█████▏    | 191648/371472 [4:11:24<13:50:02,  3.61it/s] 52%|█████▏    | 191649/371472 [4:11:25<13:50:33,  3.61it/s] 52%|█████▏    | 191650/371472 [4:11:25<13:41:40,  3.65it/s] 52%|█████▏    | 191651/371472 [4:11:25<13:39:54,  3.66it/s] 52%|█████▏    | 191652/371472 [4:11:25<13:20:09,  3.75it/s] 52%|█████▏    | 191653/371472 [4:11:26<13:22:24,  3.73it/s] 52%|█████▏    | 191654/371472 [4:11:26<13:13:27,  3.78it/s] 52%|█████▏    | 191655/371472 [4:11:26<13:00:16,  3.84it/s] 52%|█████▏    | 191656/371472 [4:11:26<13:14:19,  3.77it/s] 52%|█████▏    | 191657/371472 [4:11:27<13:07:52,  3.80it/s] 52%|█████▏    | 191658/371472 [4:11:27<13:05:46,  3.81it/s] 52%|█████▏    | 191659/371472 [4:11:27<13:33:23,  3.68it/s] 52%|█████▏    | 191660/371472 [4:11:28<14:23:22,  3.47it/s]                                                            {'loss': 3.0965, 'learning_rate': 5.35882048740546e-07, 'epoch': 8.26}
 52%|█████▏    | 191660/371472 [4:11:28<14:23:22,  3.47it/s] 52%|█████▏    | 191661/371472 [4:11:28<14:20:09,  3.48it/s] 52%|█████▏    | 191662/371472 [4:11:28<14:32:11,  3.44it/s] 52%|█████▏    | 191663/371472 [4:11:28<14:37:28,  3.42it/s] 52%|█████▏    | 191664/371472 [4:11:29<14:59:13,  3.33it/s] 52%|█████▏    | 191665/371472 [4:11:29<17:24:28,  2.87it/s] 52%|█████▏    | 191666/371472 [4:11:30<16:40:25,  3.00it/s] 52%|█████▏    | 191667/371472 [4:11:30<15:20:22,  3.26it/s] 52%|█████▏    | 191668/371472 [4:11:30<15:03:22,  3.32it/s] 52%|█████▏    | 191669/371472 [4:11:30<15:22:14,  3.25it/s] 52%|█████▏    | 191670/371472 [4:11:31<15:38:00,  3.19it/s] 52%|█████▏    | 191671/371472 [4:11:31<14:58:18,  3.34it/s] 52%|█████▏    | 191672/371472 [4:11:31<14:24:36,  3.47it/s] 52%|█████▏    | 191673/371472 [4:11:32<14:06:26,  3.54it/s] 52%|█████▏    | 191674/371472 [4:11:32<13:37:42,  3.66it/s] 52%|█████▏    | 191675/371472 [4:11:32<14:20:31,  3.48it/s] 52%|█████▏    | 191676/371472 [4:11:32<14:29:22,  3.45it/s] 52%|█████▏    | 191677/371472 [4:11:33<14:16:34,  3.50it/s] 52%|█████▏    | 191678/371472 [4:11:33<14:49:25,  3.37it/s] 52%|█████▏    | 191679/371472 [4:11:33<15:19:36,  3.26it/s] 52%|█████▏    | 191680/371472 [4:11:34<15:05:27,  3.31it/s]                                                            {'loss': 2.9646, 'learning_rate': 5.358335667650671e-07, 'epoch': 8.26}
 52%|█████▏    | 191680/371472 [4:11:34<15:05:27,  3.31it/s] 52%|█████▏    | 191681/371472 [4:11:34<15:08:49,  3.30it/s] 52%|█████▏    | 191682/371472 [4:11:34<14:15:53,  3.50it/s] 52%|█████▏    | 191683/371472 [4:11:35<15:04:48,  3.31it/s] 52%|█████▏    | 191684/371472 [4:11:35<14:26:38,  3.46it/s] 52%|█████▏    | 191685/371472 [4:11:35<13:56:45,  3.58it/s] 52%|█████▏    | 191686/371472 [4:11:35<14:22:24,  3.47it/s] 52%|█████▏    | 191687/371472 [4:11:36<13:53:25,  3.60it/s] 52%|█████▏    | 191688/371472 [4:11:36<13:41:20,  3.65it/s] 52%|█████▏    | 191689/371472 [4:11:36<13:54:49,  3.59it/s] 52%|█████▏    | 191690/371472 [4:11:36<13:45:08,  3.63it/s] 52%|█████▏    | 191691/371472 [4:11:37<13:16:21,  3.76it/s] 52%|█████▏    | 191692/371472 [4:11:37<14:09:26,  3.53it/s] 52%|█████▏    | 191693/371472 [4:11:37<13:59:23,  3.57it/s] 52%|█████▏    | 191694/371472 [4:11:38<13:51:49,  3.60it/s] 52%|█████▏    | 191695/371472 [4:11:38<15:25:44,  3.24it/s] 52%|█████▏    | 191696/371472 [4:11:38<14:56:12,  3.34it/s] 52%|█████▏    | 191697/371472 [4:11:38<15:07:23,  3.30it/s] 52%|█████▏    | 191698/371472 [4:11:39<14:39:06,  3.41it/s] 52%|█████▏    | 191699/371472 [4:11:39<15:10:24,  3.29it/s] 52%|█████▏    | 191700/371472 [4:11:39<14:54:45,  3.35it/s]                                                            {'loss': 3.0995, 'learning_rate': 5.357850847895882e-07, 'epoch': 8.26}
 52%|█████▏    | 191700/371472 [4:11:39<14:54:45,  3.35it/s] 52%|█████▏    | 191701/371472 [4:11:40<14:10:03,  3.52it/s] 52%|█████▏    | 191702/371472 [4:11:40<13:49:07,  3.61it/s] 52%|█████▏    | 191703/371472 [4:11:40<13:42:46,  3.64it/s] 52%|█████▏    | 191704/371472 [4:11:40<13:30:53,  3.69it/s] 52%|█████▏    | 191705/371472 [4:11:41<13:34:19,  3.68it/s] 52%|█████▏    | 191706/371472 [4:11:41<13:14:14,  3.77it/s] 52%|█████▏    | 191707/371472 [4:11:41<13:07:44,  3.80it/s] 52%|█████▏    | 191708/371472 [4:11:41<13:02:21,  3.83it/s] 52%|█████▏    | 191709/371472 [4:11:42<14:02:38,  3.56it/s] 52%|█████▏    | 191710/371472 [4:11:42<13:52:55,  3.60it/s] 52%|█████▏    | 191711/371472 [4:11:42<13:25:10,  3.72it/s] 52%|█████▏    | 191712/371472 [4:11:43<13:08:13,  3.80it/s] 52%|█████▏    | 191713/371472 [4:11:43<13:39:20,  3.66it/s] 52%|█████▏    | 191714/371472 [4:11:43<13:49:46,  3.61it/s] 52%|█████▏    | 191715/371472 [4:11:43<13:57:20,  3.58it/s] 52%|█████▏    | 191716/371472 [4:11:44<13:57:39,  3.58it/s] 52%|█████▏    | 191717/371472 [4:11:44<14:45:16,  3.38it/s] 52%|█████▏    | 191718/371472 [4:11:44<14:36:58,  3.42it/s] 52%|█████▏    | 191719/371472 [4:11:45<15:07:20,  3.30it/s] 52%|█████▏    | 191720/371472 [4:11:45<14:28:18,  3.45it/s]                                                            {'loss': 3.0511, 'learning_rate': 5.357366028141092e-07, 'epoch': 8.26}
 52%|█████▏    | 191720/371472 [4:11:45<14:28:18,  3.45it/s] 52%|█████▏    | 191721/371472 [4:11:45<13:53:16,  3.60it/s] 52%|█████▏    | 191722/371472 [4:11:45<14:03:26,  3.55it/s] 52%|█████▏    | 191723/371472 [4:11:46<14:30:37,  3.44it/s] 52%|█████▏    | 191724/371472 [4:11:46<14:06:51,  3.54it/s] 52%|█████▏    | 191725/371472 [4:11:46<13:55:06,  3.59it/s] 52%|█████▏    | 191726/371472 [4:11:47<13:54:38,  3.59it/s] 52%|█████▏    | 191727/371472 [4:11:47<13:59:48,  3.57it/s] 52%|█████▏    | 191728/371472 [4:11:47<14:04:27,  3.55it/s] 52%|█████▏    | 191729/371472 [4:11:47<13:48:42,  3.61it/s] 52%|█████▏    | 191730/371472 [4:11:48<13:59:48,  3.57it/s] 52%|█████▏    | 191731/371472 [4:11:48<14:15:21,  3.50it/s] 52%|█████▏    | 191732/371472 [4:11:48<15:20:49,  3.25it/s] 52%|█████▏    | 191733/371472 [4:11:49<14:39:02,  3.41it/s] 52%|█████▏    | 191734/371472 [4:11:49<13:53:06,  3.60it/s] 52%|█████▏    | 191735/371472 [4:11:49<14:04:27,  3.55it/s] 52%|█████▏    | 191736/371472 [4:11:49<14:22:57,  3.47it/s] 52%|█████▏    | 191737/371472 [4:11:50<14:00:58,  3.56it/s] 52%|█████▏    | 191738/371472 [4:11:50<13:43:48,  3.64it/s] 52%|█████▏    | 191739/371472 [4:11:50<13:45:12,  3.63it/s] 52%|█████▏    | 191740/371472 [4:11:51<14:11:41,  3.52it/s]                                                            {'loss': 2.9469, 'learning_rate': 5.356881208386305e-07, 'epoch': 8.26}
 52%|█████▏    | 191740/371472 [4:11:51<14:11:41,  3.52it/s] 52%|█████▏    | 191741/371472 [4:11:51<13:51:46,  3.60it/s] 52%|█████▏    | 191742/371472 [4:11:51<14:28:31,  3.45it/s] 52%|█████▏    | 191743/371472 [4:11:51<14:09:11,  3.53it/s] 52%|█████▏    | 191744/371472 [4:11:52<14:01:11,  3.56it/s] 52%|█████▏    | 191745/371472 [4:11:52<14:54:20,  3.35it/s] 52%|█████▏    | 191746/371472 [4:11:52<14:35:46,  3.42it/s] 52%|█████▏    | 191747/371472 [4:11:53<14:23:13,  3.47it/s] 52%|█████▏    | 191748/371472 [4:11:53<13:56:56,  3.58it/s] 52%|█████▏    | 191749/371472 [4:11:53<14:01:17,  3.56it/s] 52%|█████▏    | 191750/371472 [4:11:53<13:43:58,  3.64it/s] 52%|█████▏    | 191751/371472 [4:11:54<13:29:50,  3.70it/s] 52%|█████▏    | 191752/371472 [4:11:54<14:39:33,  3.41it/s] 52%|█████▏    | 191753/371472 [4:11:54<14:31:22,  3.44it/s] 52%|█████▏    | 191754/371472 [4:11:55<15:18:36,  3.26it/s] 52%|█████▏    | 191755/371472 [4:11:55<14:36:59,  3.42it/s] 52%|█████▏    | 191756/371472 [4:11:55<15:12:34,  3.28it/s] 52%|█████▏    | 191757/371472 [4:11:56<15:45:45,  3.17it/s] 52%|█████▏    | 191758/371472 [4:11:56<15:03:13,  3.32it/s] 52%|█████▏    | 191759/371472 [4:11:56<14:33:41,  3.43it/s] 52%|█████▏    | 191760/371472 [4:11:56<14:40:19,  3.40it/s]                                                            {'loss': 2.9751, 'learning_rate': 5.356396388631516e-07, 'epoch': 8.26}
 52%|█████▏    | 191760/371472 [4:11:56<14:40:19,  3.40it/s] 52%|█████▏    | 191761/371472 [4:11:57<15:00:57,  3.32it/s] 52%|█████▏    | 191762/371472 [4:11:57<14:25:32,  3.46it/s] 52%|█████▏    | 191763/371472 [4:11:57<14:07:05,  3.54it/s] 52%|█████▏    | 191764/371472 [4:11:57<13:44:34,  3.63it/s] 52%|█████▏    | 191765/371472 [4:11:58<13:37:59,  3.66it/s] 52%|█████▏    | 191766/371472 [4:11:58<14:09:50,  3.52it/s] 52%|█████▏    | 191767/371472 [4:11:58<13:37:32,  3.66it/s] 52%|█████▏    | 191768/371472 [4:11:59<13:12:36,  3.78it/s] 52%|█████▏    | 191769/371472 [4:11:59<13:08:59,  3.80it/s] 52%|█████▏    | 191770/371472 [4:11:59<12:58:42,  3.85it/s] 52%|█████▏    | 191771/371472 [4:11:59<13:11:42,  3.78it/s] 52%|█████▏    | 191772/371472 [4:12:00<13:27:46,  3.71it/s] 52%|█████▏    | 191773/371472 [4:12:00<14:06:53,  3.54it/s] 52%|█████▏    | 191774/371472 [4:12:00<13:52:50,  3.60it/s] 52%|█████▏    | 191775/371472 [4:12:01<14:14:38,  3.50it/s] 52%|█████▏    | 191776/371472 [4:12:01<14:08:41,  3.53it/s] 52%|█████▏    | 191777/371472 [4:12:01<13:55:44,  3.58it/s] 52%|█████▏    | 191778/371472 [4:12:01<13:29:03,  3.70it/s] 52%|█████▏    | 191779/371472 [4:12:02<15:05:00,  3.31it/s] 52%|█████▏    | 191780/371472 [4:12:02<15:29:27,  3.22it/s]                                                            {'loss': 3.1333, 'learning_rate': 5.355911568876726e-07, 'epoch': 8.26}
 52%|█████▏    | 191780/371472 [4:12:02<15:29:27,  3.22it/s] 52%|█████▏    | 191781/371472 [4:12:02<15:52:38,  3.14it/s] 52%|█████▏    | 191782/371472 [4:12:03<15:20:22,  3.25it/s] 52%|█████▏    | 191783/371472 [4:12:03<14:46:34,  3.38it/s] 52%|█████▏    | 191784/371472 [4:12:03<14:01:22,  3.56it/s] 52%|█████▏    | 191785/371472 [4:12:03<13:47:38,  3.62it/s] 52%|█████▏    | 191786/371472 [4:12:04<13:25:47,  3.72it/s] 52%|█████▏    | 191787/371472 [4:12:04<13:34:06,  3.68it/s] 52%|█████▏    | 191788/371472 [4:12:04<15:20:07,  3.25it/s] 52%|█████▏    | 191789/371472 [4:12:05<14:26:26,  3.46it/s] 52%|█████▏    | 191790/371472 [4:12:05<14:08:54,  3.53it/s] 52%|█████▏    | 191791/371472 [4:12:05<14:56:44,  3.34it/s] 52%|█████▏    | 191792/371472 [4:12:05<14:38:35,  3.41it/s] 52%|█████▏    | 191793/371472 [4:12:06<14:08:19,  3.53it/s] 52%|█████▏    | 191794/371472 [4:12:06<14:04:37,  3.55it/s] 52%|█████▏    | 191795/371472 [4:12:06<14:30:03,  3.44it/s] 52%|█████▏    | 191796/371472 [4:12:07<14:01:32,  3.56it/s] 52%|█████▏    | 191797/371472 [4:12:07<13:59:18,  3.57it/s] 52%|█████▏    | 191798/371472 [4:12:07<13:57:12,  3.58it/s] 52%|█████▏    | 191799/371472 [4:12:07<13:28:27,  3.70it/s] 52%|█████▏    | 191800/371472 [4:12:08<13:51:40,  3.60it/s]                                                            {'loss': 3.14, 'learning_rate': 5.355426749121937e-07, 'epoch': 8.26}
 52%|█████▏    | 191800/371472 [4:12:08<13:51:40,  3.60it/s] 52%|█████▏    | 191801/371472 [4:12:08<13:55:07,  3.59it/s] 52%|█████▏    | 191802/371472 [4:12:08<13:48:16,  3.62it/s] 52%|█████▏    | 191803/371472 [4:12:09<13:59:12,  3.57it/s] 52%|█████▏    | 191804/371472 [4:12:09<13:56:50,  3.58it/s] 52%|█████▏    | 191805/371472 [4:12:09<13:21:27,  3.74it/s] 52%|█████▏    | 191806/371472 [4:12:09<13:12:13,  3.78it/s] 52%|█████▏    | 191807/371472 [4:12:10<13:53:25,  3.59it/s] 52%|█████▏    | 191808/371472 [4:12:10<13:45:07,  3.63it/s] 52%|█████▏    | 191809/371472 [4:12:10<13:19:37,  3.74it/s] 52%|█████▏    | 191810/371472 [4:12:10<14:19:23,  3.48it/s] 52%|█████▏    | 191811/371472 [4:12:11<14:27:24,  3.45it/s] 52%|█████▏    | 191812/371472 [4:12:11<14:24:39,  3.46it/s] 52%|█████▏    | 191813/371472 [4:12:11<14:04:21,  3.55it/s] 52%|█████▏    | 191814/371472 [4:12:12<14:03:46,  3.55it/s] 52%|█████▏    | 191815/371472 [4:12:12<14:06:52,  3.54it/s] 52%|█████▏    | 191816/371472 [4:12:12<14:31:59,  3.43it/s] 52%|█████▏    | 191817/371472 [4:12:12<14:16:18,  3.50it/s] 52%|█████▏    | 191818/371472 [4:12:13<14:07:14,  3.53it/s] 52%|█████▏    | 191819/371472 [4:12:13<14:27:11,  3.45it/s] 52%|█████▏    | 191820/371472 [4:12:13<13:50:24,  3.61it/s]                                                            {'loss': 2.8938, 'learning_rate': 5.354941929367149e-07, 'epoch': 8.26}
 52%|█████▏    | 191820/371472 [4:12:13<13:50:24,  3.61it/s] 52%|█████▏    | 191821/371472 [4:12:14<14:49:30,  3.37it/s] 52%|█████▏    | 191822/371472 [4:12:14<14:24:24,  3.46it/s] 52%|█████▏    | 191823/371472 [4:12:14<14:41:58,  3.39it/s] 52%|█████▏    | 191824/371472 [4:12:14<13:59:06,  3.57it/s] 52%|█████▏    | 191825/371472 [4:12:15<15:31:56,  3.21it/s] 52%|█████▏    | 191826/371472 [4:12:15<15:34:34,  3.20it/s] 52%|█████▏    | 191827/371472 [4:12:15<14:51:28,  3.36it/s] 52%|█████▏    | 191828/371472 [4:12:16<15:08:00,  3.30it/s] 52%|█████▏    | 191829/371472 [4:12:16<14:37:46,  3.41it/s] 52%|█████▏    | 191830/371472 [4:12:16<14:37:33,  3.41it/s] 52%|█████▏    | 191831/371472 [4:12:17<14:06:33,  3.54it/s] 52%|█████▏    | 191832/371472 [4:12:17<14:38:00,  3.41it/s] 52%|█████▏    | 191833/371472 [4:12:17<14:04:08,  3.55it/s] 52%|█████▏    | 191834/371472 [4:12:17<14:16:22,  3.50it/s] 52%|█████▏    | 191835/371472 [4:12:18<13:52:45,  3.60it/s] 52%|█████▏    | 191836/371472 [4:12:18<14:48:53,  3.37it/s] 52%|█████▏    | 191837/371472 [4:12:18<14:26:54,  3.45it/s] 52%|█████▏    | 191838/371472 [4:12:19<13:55:12,  3.58it/s] 52%|█████▏    | 191839/371472 [4:12:19<13:42:09,  3.64it/s] 52%|█████▏    | 191840/371472 [4:12:19<14:41:51,  3.39it/s]                                                            {'loss': 3.0372, 'learning_rate': 5.354457109612359e-07, 'epoch': 8.26}
 52%|█████▏    | 191840/371472 [4:12:19<14:41:51,  3.39it/s] 52%|█████▏    | 191841/371472 [4:12:20<16:05:12,  3.10it/s] 52%|█████▏    | 191842/371472 [4:12:20<15:21:37,  3.25it/s] 52%|█████▏    | 191843/371472 [4:12:20<14:50:21,  3.36it/s] 52%|█████▏    | 191844/371472 [4:12:20<15:37:17,  3.19it/s] 52%|█████▏    | 191845/371472 [4:12:21<15:00:30,  3.32it/s] 52%|█████▏    | 191846/371472 [4:12:21<15:19:12,  3.26it/s] 52%|█████▏    | 191847/371472 [4:12:21<14:32:02,  3.43it/s] 52%|█████▏    | 191848/371472 [4:12:22<14:10:06,  3.52it/s] 52%|█████▏    | 191849/371472 [4:12:22<14:15:42,  3.50it/s] 52%|█████▏    | 191850/371472 [4:12:22<14:21:20,  3.48it/s] 52%|█████▏    | 191851/371472 [4:12:22<13:52:41,  3.60it/s] 52%|█████▏    | 191852/371472 [4:12:23<13:38:51,  3.66it/s] 52%|█████▏    | 191853/371472 [4:12:23<15:40:01,  3.18it/s] 52%|█████▏    | 191854/371472 [4:12:23<15:39:18,  3.19it/s] 52%|█████▏    | 191855/371472 [4:12:24<15:02:30,  3.32it/s] 52%|█████▏    | 191856/371472 [4:12:24<14:10:33,  3.52it/s] 52%|█████▏    | 191857/371472 [4:12:24<13:49:22,  3.61it/s] 52%|█████▏    | 191858/371472 [4:12:24<14:21:39,  3.47it/s] 52%|█████▏    | 191859/371472 [4:12:25<14:43:33,  3.39it/s] 52%|█████▏    | 191860/371472 [4:12:25<14:05:08,  3.54it/s]                                                            {'loss': 3.0265, 'learning_rate': 5.353972289857571e-07, 'epoch': 8.26}
 52%|█████▏    | 191860/371472 [4:12:25<14:05:08,  3.54it/s] 52%|█████▏    | 191861/371472 [4:12:25<13:55:41,  3.58it/s] 52%|█████▏    | 191862/371472 [4:12:26<14:26:46,  3.45it/s] 52%|█████▏    | 191863/371472 [4:12:26<15:16:15,  3.27it/s] 52%|█████▏    | 191864/371472 [4:12:26<14:54:10,  3.35it/s] 52%|█████▏    | 191865/371472 [4:12:26<14:25:32,  3.46it/s] 52%|█████▏    | 191866/371472 [4:12:27<14:28:30,  3.45it/s] 52%|█████▏    | 191867/371472 [4:12:27<14:24:54,  3.46it/s] 52%|█████▏    | 191868/371472 [4:12:27<13:49:37,  3.61it/s] 52%|█████▏    | 191869/371472 [4:12:28<13:45:54,  3.62it/s] 52%|█████▏    | 191870/371472 [4:12:28<13:53:16,  3.59it/s] 52%|█████▏    | 191871/371472 [4:12:28<13:23:06,  3.73it/s] 52%|█████▏    | 191872/371472 [4:12:28<14:08:10,  3.53it/s] 52%|█████▏    | 191873/371472 [4:12:29<13:55:11,  3.58it/s] 52%|█████▏    | 191874/371472 [4:12:29<14:05:20,  3.54it/s] 52%|█████▏    | 191875/371472 [4:12:29<14:16:03,  3.50it/s] 52%|█████▏    | 191876/371472 [4:12:30<14:04:06,  3.55it/s] 52%|█████▏    | 191877/371472 [4:12:30<14:09:08,  3.53it/s] 52%|█████▏    | 191878/371472 [4:12:30<13:37:40,  3.66it/s] 52%|█████▏    | 191879/371472 [4:12:30<13:36:05,  3.67it/s] 52%|█████▏    | 191880/371472 [4:12:31<13:36:52,  3.66it/s]                                                            {'loss': 3.0346, 'learning_rate': 5.353487470102782e-07, 'epoch': 8.26}
 52%|█████▏    | 191880/371472 [4:12:31<13:36:52,  3.66it/s] 52%|█████▏    | 191881/371472 [4:12:31<13:45:19,  3.63it/s] 52%|█████▏    | 191882/371472 [4:12:31<14:35:51,  3.42it/s] 52%|█████▏    | 191883/371472 [4:12:32<14:54:14,  3.35it/s] 52%|█████▏    | 191884/371472 [4:12:32<14:38:14,  3.41it/s] 52%|█████▏    | 191885/371472 [4:12:32<15:57:48,  3.12it/s] 52%|█████▏    | 191886/371472 [4:12:33<15:03:06,  3.31it/s] 52%|█████▏    | 191887/371472 [4:12:33<14:39:03,  3.40it/s] 52%|█████▏    | 191888/371472 [4:12:33<15:31:38,  3.21it/s] 52%|█████▏    | 191889/371472 [4:12:33<14:55:47,  3.34it/s] 52%|█████▏    | 191890/371472 [4:12:34<14:23:35,  3.47it/s] 52%|█████▏    | 191891/371472 [4:12:34<14:37:28,  3.41it/s] 52%|█████▏    | 191892/371472 [4:12:34<14:29:50,  3.44it/s] 52%|█████▏    | 191893/371472 [4:12:35<14:47:05,  3.37it/s] 52%|█████▏    | 191894/371472 [4:12:35<15:24:39,  3.24it/s] 52%|█████▏    | 191895/371472 [4:12:35<14:43:03,  3.39it/s] 52%|█████▏    | 191896/371472 [4:12:35<14:27:32,  3.45it/s] 52%|█████▏    | 191897/371472 [4:12:36<14:04:15,  3.55it/s] 52%|█████▏    | 191898/371472 [4:12:36<14:15:57,  3.50it/s] 52%|█████▏    | 191899/371472 [4:12:36<14:12:57,  3.51it/s] 52%|█████▏    | 191900/371472 [4:12:37<14:08:36,  3.53it/s]                                                            {'loss': 2.9676, 'learning_rate': 5.353002650347993e-07, 'epoch': 8.27}
 52%|█████▏    | 191900/371472 [4:12:37<14:08:36,  3.53it/s] 52%|█████▏    | 191901/371472 [4:12:37<14:20:48,  3.48it/s] 52%|█████▏    | 191902/371472 [4:12:37<13:58:37,  3.57it/s] 52%|█████▏    | 191903/371472 [4:12:37<14:51:53,  3.36it/s] 52%|█████▏    | 191904/371472 [4:12:38<14:23:37,  3.47it/s] 52%|█████▏    | 191905/371472 [4:12:38<15:00:00,  3.33it/s] 52%|█████▏    | 191906/371472 [4:12:38<15:49:11,  3.15it/s] 52%|█████▏    | 191907/371472 [4:12:39<15:40:17,  3.18it/s] 52%|█████▏    | 191908/371472 [4:12:39<14:54:28,  3.35it/s] 52%|█████▏    | 191909/371472 [4:12:39<15:05:09,  3.31it/s] 52%|█████▏    | 191910/371472 [4:12:40<14:08:01,  3.53it/s] 52%|█████▏    | 191911/371472 [4:12:40<14:05:11,  3.54it/s] 52%|█████▏    | 191912/371472 [4:12:40<13:39:00,  3.65it/s] 52%|█████▏    | 191913/371472 [4:12:40<14:02:15,  3.55it/s] 52%|█████▏    | 191914/371472 [4:12:41<13:28:13,  3.70it/s] 52%|█████▏    | 191915/371472 [4:12:41<13:28:04,  3.70it/s] 52%|█████▏    | 191916/371472 [4:12:41<13:53:45,  3.59it/s] 52%|█████▏    | 191917/371472 [4:12:41<14:13:41,  3.51it/s] 52%|█████▏    | 191918/371472 [4:12:42<14:01:38,  3.56it/s] 52%|█████▏    | 191919/371472 [4:12:42<15:32:56,  3.21it/s] 52%|█████▏    | 191920/371472 [4:12:42<14:36:48,  3.41it/s]                                                            {'loss': 3.0457, 'learning_rate': 5.352517830593204e-07, 'epoch': 8.27}
 52%|█████▏    | 191920/371472 [4:12:42<14:36:48,  3.41it/s] 52%|█████▏    | 191921/371472 [4:12:43<14:43:49,  3.39it/s] 52%|█████▏    | 191922/371472 [4:12:43<14:29:59,  3.44it/s] 52%|█████▏    | 191923/371472 [4:12:43<14:35:34,  3.42it/s] 52%|█████▏    | 191924/371472 [4:12:44<14:11:06,  3.52it/s] 52%|█████▏    | 191925/371472 [4:12:44<14:35:48,  3.42it/s] 52%|█████▏    | 191926/371472 [4:12:44<14:18:33,  3.49it/s] 52%|█████▏    | 191927/371472 [4:12:44<13:48:01,  3.61it/s] 52%|█████▏    | 191928/371472 [4:12:45<14:08:36,  3.53it/s] 52%|█████▏    | 191929/371472 [4:12:45<14:10:15,  3.52it/s] 52%|█████▏    | 191930/371472 [4:12:45<13:53:53,  3.59it/s] 52%|█████▏    | 191931/371472 [4:12:45<13:46:18,  3.62it/s] 52%|█████▏    | 191932/371472 [4:12:46<13:24:20,  3.72it/s] 52%|█████▏    | 191933/371472 [4:12:46<14:17:35,  3.49it/s] 52%|█████▏    | 191934/371472 [4:12:46<14:12:13,  3.51it/s] 52%|█████▏    | 191935/371472 [4:12:47<13:52:22,  3.59it/s] 52%|█████▏    | 191936/371472 [4:12:47<13:53:01,  3.59it/s] 52%|█████▏    | 191937/371472 [4:12:47<13:35:59,  3.67it/s] 52%|█████▏    | 191938/371472 [4:12:47<13:52:27,  3.59it/s] 52%|█████▏    | 191939/371472 [4:12:48<13:44:09,  3.63it/s] 52%|█████▏    | 191940/371472 [4:12:48<13:13:40,  3.77it/s]                                                            {'loss': 2.8959, 'learning_rate': 5.352033010838415e-07, 'epoch': 8.27}
 52%|█████▏    | 191940/371472 [4:12:48<13:13:40,  3.77it/s] 52%|█████▏    | 191941/371472 [4:12:48<12:50:41,  3.88it/s] 52%|█████▏    | 191942/371472 [4:12:48<12:56:55,  3.85it/s] 52%|█████▏    | 191943/371472 [4:12:49<13:43:53,  3.63it/s] 52%|█████▏    | 191944/371472 [4:12:49<13:21:37,  3.73it/s] 52%|█████▏    | 191945/371472 [4:12:49<13:47:41,  3.62it/s] 52%|█████▏    | 191946/371472 [4:12:50<13:39:24,  3.65it/s] 52%|█████▏    | 191947/371472 [4:12:50<13:14:44,  3.76it/s] 52%|█████▏    | 191948/371472 [4:12:50<13:50:44,  3.60it/s] 52%|█████▏    | 191949/371472 [4:12:50<13:16:07,  3.76it/s] 52%|█████▏    | 191950/371472 [4:12:51<13:13:56,  3.77it/s] 52%|█████▏    | 191951/371472 [4:12:51<15:02:08,  3.32it/s] 52%|█████▏    | 191952/371472 [4:12:51<15:03:57,  3.31it/s] 52%|█████▏    | 191953/371472 [4:12:52<14:22:24,  3.47it/s] 52%|█████▏    | 191954/371472 [4:12:52<14:09:37,  3.52it/s] 52%|█████▏    | 191955/371472 [4:12:52<16:04:54,  3.10it/s] 52%|█████▏    | 191956/371472 [4:12:53<15:14:56,  3.27it/s] 52%|█████▏    | 191957/371472 [4:12:53<14:12:04,  3.51it/s] 52%|█████▏    | 191958/371472 [4:12:53<14:31:46,  3.43it/s] 52%|█████▏    | 191959/371472 [4:12:53<15:37:15,  3.19it/s] 52%|█████▏    | 191960/371472 [4:12:54<14:47:02,  3.37it/s]                                                            {'loss': 2.9481, 'learning_rate': 5.351548191083626e-07, 'epoch': 8.27}
 52%|█████▏    | 191960/371472 [4:12:54<14:47:02,  3.37it/s] 52%|█████▏    | 191961/371472 [4:12:54<16:43:37,  2.98it/s] 52%|█████▏    | 191962/371472 [4:12:54<15:57:22,  3.13it/s] 52%|█████▏    | 191963/371472 [4:12:55<15:21:02,  3.25it/s] 52%|█████▏    | 191964/371472 [4:12:55<15:17:19,  3.26it/s] 52%|█████▏    | 191965/371472 [4:12:55<16:46:12,  2.97it/s] 52%|█████▏    | 191966/371472 [4:12:56<15:41:08,  3.18it/s] 52%|█████▏    | 191967/371472 [4:12:56<15:24:02,  3.24it/s] 52%|█████▏    | 191968/371472 [4:12:56<15:12:01,  3.28it/s] 52%|█████▏    | 191969/371472 [4:12:57<14:46:31,  3.37it/s] 52%|█████▏    | 191970/371472 [4:12:57<14:35:38,  3.42it/s] 52%|█████▏    | 191971/371472 [4:12:57<14:16:15,  3.49it/s] 52%|█████▏    | 191972/371472 [4:12:58<17:44:21,  2.81it/s] 52%|█████▏    | 191973/371472 [4:12:58<16:50:09,  2.96it/s] 52%|█████▏    | 191974/371472 [4:12:58<15:47:24,  3.16it/s] 52%|█████▏    | 191975/371472 [4:12:58<15:14:56,  3.27it/s] 52%|█████▏    | 191976/371472 [4:12:59<14:48:09,  3.37it/s] 52%|█████▏    | 191977/371472 [4:12:59<14:13:44,  3.50it/s] 52%|█████▏    | 191978/371472 [4:12:59<14:29:48,  3.44it/s] 52%|█████▏    | 191979/371472 [4:13:00<14:17:51,  3.49it/s] 52%|█████▏    | 191980/371472 [4:13:00<14:00:04,  3.56it/s]                                                            {'loss': 2.9501, 'learning_rate': 5.351063371328836e-07, 'epoch': 8.27}
 52%|█████▏    | 191980/371472 [4:13:00<14:00:04,  3.56it/s] 52%|█████▏    | 191981/371472 [4:13:00<14:06:14,  3.54it/s] 52%|█████▏    | 191982/371472 [4:13:00<13:38:13,  3.66it/s] 52%|█████▏    | 191983/371472 [4:13:01<14:11:20,  3.51it/s] 52%|█████▏    | 191984/371472 [4:13:01<14:06:55,  3.53it/s] 52%|█████▏    | 191985/371472 [4:13:01<13:46:31,  3.62it/s] 52%|█████▏    | 191986/371472 [4:13:01<13:44:23,  3.63it/s] 52%|█████▏    | 191987/371472 [4:13:02<13:34:02,  3.67it/s] 52%|█████▏    | 191988/371472 [4:13:02<13:41:37,  3.64it/s] 52%|█████▏    | 191989/371472 [4:13:02<13:51:43,  3.60it/s] 52%|█████▏    | 191990/371472 [4:13:03<13:44:41,  3.63it/s] 52%|█████▏    | 191991/371472 [4:13:03<14:06:30,  3.53it/s] 52%|█████▏    | 191992/371472 [4:13:03<13:58:13,  3.57it/s] 52%|█████▏    | 191993/371472 [4:13:03<13:43:39,  3.63it/s] 52%|█████▏    | 191994/371472 [4:13:04<14:11:09,  3.51it/s] 52%|█████▏    | 191995/371472 [4:13:04<14:40:59,  3.40it/s] 52%|█████▏    | 191996/371472 [4:13:04<13:58:51,  3.57it/s] 52%|█████▏    | 191997/371472 [4:13:05<13:51:35,  3.60it/s] 52%|█████▏    | 191998/371472 [4:13:05<13:22:47,  3.73it/s] 52%|█████▏    | 191999/371472 [4:13:05<15:31:23,  3.21it/s] 52%|█████▏    | 192000/371472 [4:13:06<14:56:36,  3.34it/s]                                                            {'loss': 3.0114, 'learning_rate': 5.350578551574048e-07, 'epoch': 8.27}
 52%|█████▏    | 192000/371472 [4:13:06<14:56:36,  3.34it/s] 52%|█████▏    | 192001/371472 [4:13:06<14:38:15,  3.41it/s] 52%|█████▏    | 192002/371472 [4:13:06<14:11:32,  3.51it/s] 52%|█████▏    | 192003/371472 [4:13:06<14:59:45,  3.32it/s] 52%|█████▏    | 192004/371472 [4:13:07<15:10:38,  3.28it/s] 52%|█████▏    | 192005/371472 [4:13:07<17:05:39,  2.92it/s] 52%|█████▏    | 192006/371472 [4:13:07<16:00:49,  3.11it/s] 52%|█████▏    | 192007/371472 [4:13:08<16:00:42,  3.11it/s] 52%|█████▏    | 192008/371472 [4:13:08<15:13:57,  3.27it/s] 52%|█████▏    | 192009/371472 [4:13:08<14:16:56,  3.49it/s] 52%|█████▏    | 192010/371472 [4:13:09<14:00:06,  3.56it/s] 52%|█████▏    | 192011/371472 [4:13:09<15:17:43,  3.26it/s] 52%|█████▏    | 192012/371472 [4:13:09<15:13:53,  3.27it/s] 52%|█████▏    | 192013/371472 [4:13:09<14:38:10,  3.41it/s] 52%|█████▏    | 192014/371472 [4:13:10<14:52:23,  3.35it/s] 52%|█████▏    | 192015/371472 [4:13:10<16:36:59,  3.00it/s] 52%|█████▏    | 192016/371472 [4:13:11<17:05:10,  2.92it/s] 52%|█████▏    | 192017/371472 [4:13:11<16:16:58,  3.06it/s] 52%|█████▏    | 192018/371472 [4:13:11<16:26:51,  3.03it/s] 52%|█████▏    | 192019/371472 [4:13:11<16:29:41,  3.02it/s] 52%|█████▏    | 192020/371472 [4:13:12<15:47:07,  3.16it/s]                                                            {'loss': 2.9827, 'learning_rate': 5.350093731819259e-07, 'epoch': 8.27}
 52%|█████▏    | 192020/371472 [4:13:12<15:47:07,  3.16it/s] 52%|█████▏    | 192021/371472 [4:13:12<15:53:43,  3.14it/s] 52%|█████▏    | 192022/371472 [4:13:12<14:59:59,  3.32it/s] 52%|█████▏    | 192023/371472 [4:13:13<14:13:25,  3.50it/s] 52%|█████▏    | 192024/371472 [4:13:13<13:58:15,  3.57it/s] 52%|█████▏    | 192025/371472 [4:13:13<14:13:37,  3.50it/s] 52%|█████▏    | 192026/371472 [4:13:13<14:43:48,  3.38it/s] 52%|█████▏    | 192027/371472 [4:13:14<14:17:50,  3.49it/s] 52%|█████▏    | 192028/371472 [4:13:14<15:04:01,  3.31it/s] 52%|█████▏    | 192029/371472 [4:13:14<15:59:53,  3.12it/s] 52%|█████▏    | 192030/371472 [4:13:15<15:02:18,  3.31it/s] 52%|█████▏    | 192031/371472 [4:13:15<15:08:58,  3.29it/s] 52%|█████▏    | 192032/371472 [4:13:15<14:39:59,  3.40it/s] 52%|█████▏    | 192033/371472 [4:13:16<14:01:57,  3.55it/s] 52%|█████▏    | 192034/371472 [4:13:16<13:41:37,  3.64it/s] 52%|█████▏    | 192035/371472 [4:13:16<16:13:07,  3.07it/s] 52%|█████▏    | 192036/371472 [4:13:17<15:56:58,  3.13it/s] 52%|█████▏    | 192037/371472 [4:13:17<15:27:14,  3.23it/s] 52%|█████▏    | 192038/371472 [4:13:17<14:39:07,  3.40it/s] 52%|█████▏    | 192039/371472 [4:13:17<14:32:35,  3.43it/s] 52%|█████▏    | 192040/371472 [4:13:18<14:23:08,  3.46it/s]                                                            {'loss': 3.0386, 'learning_rate': 5.34960891206447e-07, 'epoch': 8.27}
 52%|█████▏    | 192040/371472 [4:13:18<14:23:08,  3.46it/s] 52%|█████▏    | 192041/371472 [4:13:18<14:10:51,  3.51it/s] 52%|█████▏    | 192042/371472 [4:13:18<15:07:46,  3.29it/s] 52%|█████▏    | 192043/371472 [4:13:19<14:34:03,  3.42it/s] 52%|█████▏    | 192044/371472 [4:13:19<14:13:21,  3.50it/s] 52%|█████▏    | 192045/371472 [4:13:19<14:01:21,  3.55it/s] 52%|█████▏    | 192046/371472 [4:13:19<14:06:59,  3.53it/s] 52%|█████▏    | 192047/371472 [4:13:20<13:59:18,  3.56it/s] 52%|█████▏    | 192048/371472 [4:13:20<14:31:21,  3.43it/s] 52%|█████▏    | 192049/371472 [4:13:20<13:56:57,  3.57it/s] 52%|█████▏    | 192050/371472 [4:13:21<13:57:10,  3.57it/s] 52%|█████▏    | 192051/371472 [4:13:21<13:33:56,  3.67it/s] 52%|█████▏    | 192052/371472 [4:13:21<13:30:19,  3.69it/s] 52%|█████▏    | 192053/371472 [4:13:21<13:40:03,  3.65it/s] 52%|█████▏    | 192054/371472 [4:13:22<16:49:57,  2.96it/s] 52%|█████▏    | 192055/371472 [4:13:22<15:43:31,  3.17it/s] 52%|█████▏    | 192056/371472 [4:13:22<15:17:38,  3.26it/s] 52%|█████▏    | 192057/371472 [4:13:23<14:28:45,  3.44it/s] 52%|█████▏    | 192058/371472 [4:13:23<13:56:40,  3.57it/s] 52%|█████▏    | 192059/371472 [4:13:23<13:28:17,  3.70it/s] 52%|█████▏    | 192060/371472 [4:13:23<13:41:15,  3.64it/s]                                                            {'loss': 2.9176, 'learning_rate': 5.349124092309681e-07, 'epoch': 8.27}
 52%|█████▏    | 192060/371472 [4:13:23<13:41:15,  3.64it/s] 52%|█████▏    | 192061/371472 [4:13:24<13:56:28,  3.57it/s] 52%|█████▏    | 192062/371472 [4:13:24<13:39:19,  3.65it/s] 52%|█████▏    | 192063/371472 [4:13:24<13:33:38,  3.68it/s] 52%|█████▏    | 192064/371472 [4:13:24<13:24:21,  3.72it/s] 52%|█████▏    | 192065/371472 [4:13:25<14:04:02,  3.54it/s] 52%|█████▏    | 192066/371472 [4:13:25<15:54:50,  3.13it/s] 52%|█████▏    | 192067/371472 [4:13:25<15:25:34,  3.23it/s] 52%|█████▏    | 192068/371472 [4:13:26<16:35:15,  3.00it/s] 52%|█████▏    | 192069/371472 [4:13:26<16:06:18,  3.09it/s] 52%|█████▏    | 192070/371472 [4:13:26<15:36:46,  3.19it/s] 52%|█████▏    | 192071/371472 [4:13:27<15:44:39,  3.17it/s] 52%|█████▏    | 192072/371472 [4:13:27<15:08:47,  3.29it/s] 52%|█████▏    | 192073/371472 [4:13:27<14:33:47,  3.42it/s] 52%|█████▏    | 192074/371472 [4:13:28<14:37:21,  3.41it/s] 52%|█████▏    | 192075/371472 [4:13:28<14:03:43,  3.54it/s] 52%|█████▏    | 192076/371472 [4:13:28<14:31:52,  3.43it/s] 52%|█████▏    | 192077/371472 [4:13:28<14:33:12,  3.42it/s] 52%|█████▏    | 192078/371472 [4:13:29<13:59:01,  3.56it/s] 52%|█████▏    | 192079/371472 [4:13:29<14:05:52,  3.53it/s] 52%|█████▏    | 192080/371472 [4:13:29<13:35:11,  3.67it/s]                                                            {'loss': 2.9543, 'learning_rate': 5.348639272554892e-07, 'epoch': 8.27}
 52%|█████▏    | 192080/371472 [4:13:29<13:35:11,  3.67it/s] 52%|█████▏    | 192081/371472 [4:13:30<13:36:32,  3.66it/s] 52%|█████▏    | 192082/371472 [4:13:30<14:23:07,  3.46it/s] 52%|█████▏    | 192083/371472 [4:13:30<16:48:09,  2.97it/s] 52%|█████▏    | 192084/371472 [4:13:31<17:17:35,  2.88it/s] 52%|█████▏    | 192085/371472 [4:13:31<16:43:32,  2.98it/s] 52%|█████▏    | 192086/371472 [4:13:31<16:28:11,  3.03it/s] 52%|█████▏    | 192087/371472 [4:13:32<15:28:41,  3.22it/s] 52%|█████▏    | 192088/371472 [4:13:32<15:27:48,  3.22it/s] 52%|█████▏    | 192089/371472 [4:13:32<14:42:52,  3.39it/s] 52%|█████▏    | 192090/371472 [4:13:32<15:30:11,  3.21it/s] 52%|█████▏    | 192091/371472 [4:13:33<14:54:20,  3.34it/s] 52%|█████▏    | 192092/371472 [4:13:33<14:13:14,  3.50it/s] 52%|█████▏    | 192093/371472 [4:13:33<13:55:28,  3.58it/s] 52%|█████▏    | 192094/371472 [4:13:34<13:33:50,  3.67it/s] 52%|█████▏    | 192095/371472 [4:13:34<13:25:50,  3.71it/s] 52%|█████▏    | 192096/371472 [4:13:34<13:28:22,  3.70it/s] 52%|█████▏    | 192097/371472 [4:13:34<13:49:16,  3.61it/s] 52%|█████▏    | 192098/371472 [4:13:35<14:56:06,  3.34it/s] 52%|█████▏    | 192099/371472 [4:13:35<15:06:50,  3.30it/s] 52%|█████▏    | 192100/371472 [4:13:35<14:51:49,  3.35it/s]                                                            {'loss': 2.8392, 'learning_rate': 5.348154452800102e-07, 'epoch': 8.27}
 52%|█████▏    | 192100/371472 [4:13:35<14:51:49,  3.35it/s] 52%|█████▏    | 192101/371472 [4:13:36<14:59:22,  3.32it/s] 52%|█████▏    | 192102/371472 [4:13:36<15:12:42,  3.28it/s] 52%|█████▏    | 192103/371472 [4:13:36<15:05:10,  3.30it/s] 52%|█████▏    | 192104/371472 [4:13:37<14:27:30,  3.45it/s] 52%|█████▏    | 192105/371472 [4:13:37<14:32:07,  3.43it/s] 52%|█████▏    | 192106/371472 [4:13:37<15:32:05,  3.21it/s] 52%|█████▏    | 192107/371472 [4:13:37<14:33:50,  3.42it/s] 52%|█████▏    | 192108/371472 [4:13:38<14:40:04,  3.40it/s] 52%|█████▏    | 192109/371472 [4:13:38<15:07:25,  3.29it/s] 52%|█████▏    | 192110/371472 [4:13:38<15:01:00,  3.32it/s] 52%|█████▏    | 192111/371472 [4:13:39<15:15:34,  3.26it/s] 52%|█████▏    | 192112/371472 [4:13:39<14:50:16,  3.36it/s] 52%|█████▏    | 192113/371472 [4:13:39<15:47:29,  3.16it/s] 52%|█████▏    | 192114/371472 [4:13:40<15:40:09,  3.18it/s] 52%|█████▏    | 192115/371472 [4:13:40<15:59:16,  3.12it/s] 52%|█████▏    | 192116/371472 [4:13:40<15:26:39,  3.23it/s] 52%|█████▏    | 192117/371472 [4:13:41<15:11:41,  3.28it/s] 52%|█████▏    | 192118/371472 [4:13:41<14:35:08,  3.42it/s] 52%|█████▏    | 192119/371472 [4:13:41<14:23:44,  3.46it/s] 52%|█████▏    | 192120/371472 [4:13:41<13:59:15,  3.56it/s]                                                            {'loss': 3.2039, 'learning_rate': 5.347669633045315e-07, 'epoch': 8.27}
 52%|█████▏    | 192120/371472 [4:13:41<13:59:15,  3.56it/s] 52%|█████▏    | 192121/371472 [4:13:42<13:59:36,  3.56it/s] 52%|█████▏    | 192122/371472 [4:13:42<15:06:03,  3.30it/s] 52%|█████▏    | 192123/371472 [4:13:42<14:25:51,  3.45it/s] 52%|█████▏    | 192124/371472 [4:13:43<14:42:05,  3.39it/s] 52%|█████▏    | 192125/371472 [4:13:43<14:42:23,  3.39it/s] 52%|█████▏    | 192126/371472 [4:13:43<14:30:10,  3.44it/s] 52%|█████▏    | 192127/371472 [4:13:43<14:18:37,  3.48it/s] 52%|█████▏    | 192128/371472 [4:13:44<14:54:12,  3.34it/s] 52%|█████▏    | 192129/371472 [4:13:44<14:41:24,  3.39it/s] 52%|█████▏    | 192130/371472 [4:13:44<13:57:08,  3.57it/s] 52%|█████▏    | 192131/371472 [4:13:44<13:48:31,  3.61it/s] 52%|█████▏    | 192132/371472 [4:13:45<13:29:53,  3.69it/s] 52%|█████▏    | 192133/371472 [4:13:45<14:05:01,  3.54it/s] 52%|█████▏    | 192134/371472 [4:13:45<14:00:29,  3.56it/s] 52%|█████▏    | 192135/371472 [4:13:46<14:27:26,  3.45it/s] 52%|█████▏    | 192136/371472 [4:13:46<13:57:34,  3.57it/s] 52%|█████▏    | 192137/371472 [4:13:46<14:15:01,  3.50it/s] 52%|█████▏    | 192138/371472 [4:13:46<13:57:05,  3.57it/s] 52%|█████▏    | 192139/371472 [4:13:47<14:47:52,  3.37it/s] 52%|█████▏    | 192140/371472 [4:13:47<14:45:27,  3.38it/s]                                                            {'loss': 2.8788, 'learning_rate': 5.347184813290527e-07, 'epoch': 8.28}
 52%|█████▏    | 192140/371472 [4:13:47<14:45:27,  3.38it/s] 52%|█████▏    | 192141/371472 [4:13:47<14:45:01,  3.38it/s] 52%|█████▏    | 192142/371472 [4:13:48<14:05:33,  3.53it/s] 52%|█████▏    | 192143/371472 [4:13:48<14:17:22,  3.49it/s] 52%|█████▏    | 192144/371472 [4:13:48<14:07:48,  3.53it/s] 52%|█████▏    | 192145/371472 [4:13:49<14:30:56,  3.43it/s] 52%|█████▏    | 192146/371472 [4:13:49<14:07:32,  3.53it/s] 52%|█████▏    | 192147/371472 [4:13:49<13:53:00,  3.59it/s] 52%|█████▏    | 192148/371472 [4:13:49<14:21:35,  3.47it/s] 52%|█████▏    | 192149/371472 [4:13:50<13:53:55,  3.58it/s] 52%|█████▏    | 192150/371472 [4:13:50<14:05:48,  3.53it/s] 52%|█████▏    | 192151/371472 [4:13:50<14:32:59,  3.42it/s] 52%|█████▏    | 192152/371472 [4:13:51<14:16:11,  3.49it/s] 52%|█████▏    | 192153/371472 [4:13:51<14:20:47,  3.47it/s] 52%|█████▏    | 192154/371472 [4:13:51<14:38:29,  3.40it/s] 52%|█████▏    | 192155/371472 [4:13:51<15:44:52,  3.16it/s] 52%|█████▏    | 192156/371472 [4:13:52<15:12:28,  3.28it/s] 52%|█████▏    | 192157/371472 [4:13:52<15:30:49,  3.21it/s] 52%|█████▏    | 192158/371472 [4:13:52<14:49:30,  3.36it/s] 52%|█████▏    | 192159/371472 [4:13:53<14:18:17,  3.48it/s] 52%|█████▏    | 192160/371472 [4:13:53<16:32:32,  3.01it/s]                                                            {'loss': 2.8818, 'learning_rate': 5.346699993535736e-07, 'epoch': 8.28}
 52%|█████▏    | 192160/371472 [4:13:53<16:32:32,  3.01it/s] 52%|█████▏    | 192161/371472 [4:13:53<15:30:18,  3.21it/s] 52%|█████▏    | 192162/371472 [4:13:54<15:07:11,  3.29it/s] 52%|█████▏    | 192163/371472 [4:13:54<14:42:52,  3.38it/s] 52%|█████▏    | 192164/371472 [4:13:54<14:17:25,  3.49it/s] 52%|█████▏    | 192165/371472 [4:13:54<13:49:44,  3.60it/s] 52%|█████▏    | 192166/371472 [4:13:55<15:16:07,  3.26it/s] 52%|█████▏    | 192167/371472 [4:13:55<15:07:41,  3.29it/s] 52%|█████▏    | 192168/371472 [4:13:55<14:46:15,  3.37it/s] 52%|█████▏    | 192169/371472 [4:13:56<14:31:45,  3.43it/s] 52%|█████▏    | 192170/371472 [4:13:56<14:50:46,  3.35it/s] 52%|█████▏    | 192171/371472 [4:13:56<14:13:12,  3.50it/s] 52%|█████▏    | 192172/371472 [4:13:56<14:04:03,  3.54it/s] 52%|█████▏    | 192173/371472 [4:13:57<13:54:03,  3.58it/s] 52%|█████▏    | 192174/371472 [4:13:57<14:14:13,  3.50it/s] 52%|█████▏    | 192175/371472 [4:13:57<14:10:34,  3.51it/s] 52%|█████▏    | 192176/371472 [4:13:58<14:06:44,  3.53it/s] 52%|█████▏    | 192177/371472 [4:13:58<13:51:51,  3.59it/s] 52%|█████▏    | 192178/371472 [4:13:58<13:51:33,  3.59it/s] 52%|█████▏    | 192179/371472 [4:13:58<13:45:19,  3.62it/s] 52%|█████▏    | 192180/371472 [4:13:59<14:07:18,  3.53it/s]                                                            {'loss': 2.9105, 'learning_rate': 5.346215173780947e-07, 'epoch': 8.28}
 52%|█████▏    | 192180/371472 [4:13:59<14:07:18,  3.53it/s] 52%|█████▏    | 192181/371472 [4:13:59<13:50:08,  3.60it/s] 52%|█████▏    | 192182/371472 [4:13:59<13:59:03,  3.56it/s] 52%|█████▏    | 192183/371472 [4:14:00<15:20:50,  3.25it/s] 52%|█████▏    | 192184/371472 [4:14:00<14:57:32,  3.33it/s] 52%|█████▏    | 192185/371472 [4:14:00<14:14:09,  3.50it/s] 52%|█████▏    | 192186/371472 [4:14:00<14:29:13,  3.44it/s] 52%|█████▏    | 192187/371472 [4:14:01<13:55:02,  3.58it/s] 52%|█████▏    | 192188/371472 [4:14:01<13:28:12,  3.70it/s] 52%|█████▏    | 192189/371472 [4:14:01<13:17:56,  3.74it/s] 52%|█████▏    | 192190/371472 [4:14:02<13:44:30,  3.62it/s] 52%|█████▏    | 192191/371472 [4:14:02<13:39:24,  3.65it/s] 52%|█████▏    | 192192/371472 [4:14:02<13:58:31,  3.56it/s] 52%|█████▏    | 192193/371472 [4:14:03<16:39:42,  2.99it/s] 52%|█████▏    | 192194/371472 [4:14:03<15:54:11,  3.13it/s] 52%|█████▏    | 192195/371472 [4:14:03<14:54:13,  3.34it/s] 52%|█████▏    | 192196/371472 [4:14:03<16:08:51,  3.08it/s] 52%|█████▏    | 192197/371472 [4:14:04<15:17:59,  3.25it/s] 52%|█████▏    | 192198/371472 [4:14:04<14:38:49,  3.40it/s] 52%|█████▏    | 192199/371472 [4:14:04<14:45:35,  3.37it/s] 52%|█████▏    | 192200/371472 [4:14:05<14:20:53,  3.47it/s]                                                            {'loss': 2.8325, 'learning_rate': 5.345730354026159e-07, 'epoch': 8.28}
 52%|█████▏    | 192200/371472 [4:14:05<14:20:53,  3.47it/s] 52%|█████▏    | 192201/371472 [4:14:05<15:03:18,  3.31it/s] 52%|█████▏    | 192202/371472 [4:14:05<14:42:57,  3.38it/s] 52%|█████▏    | 192203/371472 [4:14:06<14:45:57,  3.37it/s] 52%|█████▏    | 192204/371472 [4:14:06<15:44:46,  3.16it/s] 52%|█████▏    | 192205/371472 [4:14:06<14:34:15,  3.42it/s] 52%|█████▏    | 192206/371472 [4:14:06<14:22:19,  3.46it/s] 52%|█████▏    | 192207/371472 [4:14:07<15:03:59,  3.31it/s] 52%|█████▏    | 192208/371472 [4:14:07<14:42:24,  3.39it/s] 52%|█████▏    | 192209/371472 [4:14:07<14:10:30,  3.51it/s] 52%|█████▏    | 192210/371472 [4:14:08<13:44:37,  3.62it/s] 52%|█████▏    | 192211/371472 [4:14:08<13:40:14,  3.64it/s] 52%|█████▏    | 192212/371472 [4:14:08<13:19:34,  3.74it/s] 52%|█████▏    | 192213/371472 [4:14:08<14:22:40,  3.46it/s] 52%|█████▏    | 192214/371472 [4:14:09<14:23:53,  3.46it/s] 52%|█████▏    | 192215/371472 [4:14:09<14:16:47,  3.49it/s] 52%|█████▏    | 192216/371472 [4:14:09<15:56:41,  3.12it/s] 52%|█████▏    | 192217/371472 [4:14:10<15:18:28,  3.25it/s] 52%|█████▏    | 192218/371472 [4:14:10<15:32:04,  3.21it/s] 52%|█████▏    | 192219/371472 [4:14:10<15:19:54,  3.25it/s] 52%|█████▏    | 192220/371472 [4:14:11<15:02:29,  3.31it/s]                                                            {'loss': 2.9622, 'learning_rate': 5.345245534271368e-07, 'epoch': 8.28}
 52%|█████▏    | 192220/371472 [4:14:11<15:02:29,  3.31it/s] 52%|█████▏    | 192221/371472 [4:14:11<14:37:44,  3.40it/s] 52%|█████▏    | 192222/371472 [4:14:11<14:27:29,  3.44it/s] 52%|█████▏    | 192223/371472 [4:14:11<13:46:58,  3.61it/s] 52%|█████▏    | 192224/371472 [4:14:12<13:19:37,  3.74it/s] 52%|█████▏    | 192225/371472 [4:14:12<13:15:37,  3.75it/s] 52%|█████▏    | 192226/371472 [4:14:12<12:57:55,  3.84it/s] 52%|█████▏    | 192227/371472 [4:14:12<12:53:13,  3.86it/s] 52%|█████▏    | 192228/371472 [4:14:13<14:17:46,  3.48it/s] 52%|█████▏    | 192229/371472 [4:14:13<13:53:19,  3.58it/s] 52%|█████▏    | 192230/371472 [4:14:13<13:19:36,  3.74it/s] 52%|█████▏    | 192231/371472 [4:14:13<13:47:37,  3.61it/s] 52%|█████▏    | 192232/371472 [4:14:14<13:57:05,  3.57it/s] 52%|█████▏    | 192233/371472 [4:14:14<14:15:30,  3.49it/s] 52%|█████▏    | 192234/371472 [4:14:14<14:16:29,  3.49it/s] 52%|█████▏    | 192235/371472 [4:14:15<16:27:43,  3.02it/s] 52%|█████▏    | 192236/371472 [4:14:15<16:14:28,  3.07it/s] 52%|█████▏    | 192237/371472 [4:14:15<15:09:31,  3.28it/s] 52%|█████▏    | 192238/371472 [4:14:16<14:47:06,  3.37it/s] 52%|█████▏    | 192239/371472 [4:14:16<15:29:59,  3.21it/s] 52%|█████▏    | 192240/371472 [4:14:16<14:58:02,  3.33it/s]                                                            {'loss': 2.9172, 'learning_rate': 5.344760714516581e-07, 'epoch': 8.28}
 52%|█████▏    | 192240/371472 [4:14:16<14:58:02,  3.33it/s] 52%|█████▏    | 192241/371472 [4:14:17<14:36:04,  3.41it/s] 52%|█████▏    | 192242/371472 [4:14:17<15:02:55,  3.31it/s] 52%|█████▏    | 192243/371472 [4:14:17<15:05:28,  3.30it/s] 52%|█████▏    | 192244/371472 [4:14:17<15:06:38,  3.29it/s] 52%|█████▏    | 192245/371472 [4:14:18<16:06:29,  3.09it/s] 52%|█████▏    | 192246/371472 [4:14:18<16:18:40,  3.05it/s] 52%|█████▏    | 192247/371472 [4:14:18<15:10:40,  3.28it/s] 52%|█████▏    | 192248/371472 [4:14:19<15:15:13,  3.26it/s] 52%|█████▏    | 192249/371472 [4:14:19<14:36:32,  3.41it/s] 52%|█████▏    | 192250/371472 [4:14:19<14:44:43,  3.38it/s] 52%|█████▏    | 192251/371472 [4:14:20<15:24:19,  3.23it/s] 52%|█████▏    | 192252/371472 [4:14:20<14:42:20,  3.39it/s] 52%|█████▏    | 192253/371472 [4:14:20<14:36:46,  3.41it/s] 52%|█████▏    | 192254/371472 [4:14:21<14:41:00,  3.39it/s] 52%|█████▏    | 192255/371472 [4:14:21<14:53:13,  3.34it/s] 52%|█████▏    | 192256/371472 [4:14:21<14:39:08,  3.40it/s] 52%|█████▏    | 192257/371472 [4:14:21<14:48:23,  3.36it/s] 52%|█████▏    | 192258/371472 [4:14:22<14:14:00,  3.50it/s] 52%|█████▏    | 192259/371472 [4:14:22<14:13:40,  3.50it/s] 52%|█████▏    | 192260/371472 [4:14:22<14:18:37,  3.48it/s]                                                            {'loss': 3.0725, 'learning_rate': 5.344275894761792e-07, 'epoch': 8.28}
 52%|█████▏    | 192260/371472 [4:14:22<14:18:37,  3.48it/s] 52%|█████▏    | 192261/371472 [4:14:23<14:08:00,  3.52it/s] 52%|█████▏    | 192262/371472 [4:14:23<13:53:21,  3.58it/s] 52%|█████▏    | 192263/371472 [4:14:23<14:06:26,  3.53it/s] 52%|█████▏    | 192264/371472 [4:14:23<14:14:29,  3.50it/s] 52%|█████▏    | 192265/371472 [4:14:24<14:11:01,  3.51it/s] 52%|█████▏    | 192266/371472 [4:14:24<13:46:16,  3.61it/s] 52%|█████▏    | 192267/371472 [4:14:24<14:17:03,  3.48it/s] 52%|█████▏    | 192268/371472 [4:14:25<14:48:41,  3.36it/s] 52%|█████▏    | 192269/371472 [4:14:25<14:03:58,  3.54it/s] 52%|█████▏    | 192270/371472 [4:14:25<13:43:07,  3.63it/s] 52%|█████▏    | 192271/371472 [4:14:25<14:31:02,  3.43it/s] 52%|█████▏    | 192272/371472 [4:14:26<14:57:56,  3.33it/s] 52%|█████▏    | 192273/371472 [4:14:26<14:30:14,  3.43it/s] 52%|█████▏    | 192274/371472 [4:14:26<14:55:10,  3.34it/s] 52%|█████▏    | 192275/371472 [4:14:27<15:08:51,  3.29it/s] 52%|█████▏    | 192276/371472 [4:14:27<15:37:57,  3.18it/s] 52%|█████▏    | 192277/371472 [4:14:27<14:47:21,  3.37it/s] 52%|█████▏    | 192278/371472 [4:14:27<14:05:31,  3.53it/s] 52%|█████▏    | 192279/371472 [4:14:28<14:09:40,  3.51it/s] 52%|█████▏    | 192280/371472 [4:14:28<14:00:22,  3.55it/s]                                                            {'loss': 3.0771, 'learning_rate': 5.343791075007003e-07, 'epoch': 8.28}
 52%|█████▏    | 192280/371472 [4:14:28<14:00:22,  3.55it/s] 52%|█████▏    | 192281/371472 [4:14:28<14:06:53,  3.53it/s] 52%|█████▏    | 192282/371472 [4:14:29<13:48:13,  3.61it/s] 52%|█████▏    | 192283/371472 [4:14:29<13:52:36,  3.59it/s] 52%|█████▏    | 192284/371472 [4:14:29<13:44:19,  3.62it/s] 52%|█████▏    | 192285/371472 [4:14:29<13:38:27,  3.65it/s] 52%|█████▏    | 192286/371472 [4:14:30<13:57:16,  3.57it/s] 52%|█████▏    | 192287/371472 [4:14:30<13:30:52,  3.68it/s] 52%|█████▏    | 192288/371472 [4:14:30<13:50:47,  3.59it/s] 52%|█████▏    | 192289/371472 [4:14:30<13:39:56,  3.64it/s] 52%|█████▏    | 192290/371472 [4:14:31<13:17:21,  3.75it/s] 52%|█████▏    | 192291/371472 [4:14:31<13:22:46,  3.72it/s] 52%|█████▏    | 192292/371472 [4:14:31<13:08:53,  3.79it/s] 52%|█████▏    | 192293/371472 [4:14:32<13:42:31,  3.63it/s] 52%|█████▏    | 192294/371472 [4:14:32<13:50:24,  3.60it/s] 52%|█████▏    | 192295/371472 [4:14:32<14:20:12,  3.47it/s] 52%|█████▏    | 192296/371472 [4:14:32<14:32:44,  3.42it/s] 52%|█████▏    | 192297/371472 [4:14:33<14:10:02,  3.51it/s] 52%|█████▏    | 192298/371472 [4:14:33<13:55:01,  3.58it/s] 52%|█████▏    | 192299/371472 [4:14:33<13:46:08,  3.61it/s] 52%|█████▏    | 192300/371472 [4:14:34<13:36:46,  3.66it/s]                                                            {'loss': 2.9566, 'learning_rate': 5.343306255252213e-07, 'epoch': 8.28}
 52%|█████▏    | 192300/371472 [4:14:34<13:36:46,  3.66it/s] 52%|█████▏    | 192301/371472 [4:14:34<14:07:56,  3.52it/s] 52%|█████▏    | 192302/371472 [4:14:34<14:03:18,  3.54it/s] 52%|█████▏    | 192303/371472 [4:14:34<14:07:34,  3.52it/s] 52%|█████▏    | 192304/371472 [4:14:35<14:18:13,  3.48it/s] 52%|█████▏    | 192305/371472 [4:14:35<14:47:20,  3.37it/s] 52%|█████▏    | 192306/371472 [4:14:35<14:01:24,  3.55it/s] 52%|█████▏    | 192307/371472 [4:14:36<14:43:50,  3.38it/s] 52%|█████▏    | 192308/371472 [4:14:36<14:13:14,  3.50it/s] 52%|█████▏    | 192309/371472 [4:14:36<14:09:54,  3.51it/s] 52%|█████▏    | 192310/371472 [4:14:36<13:40:33,  3.64it/s] 52%|█████▏    | 192311/371472 [4:14:37<13:42:16,  3.63it/s] 52%|█████▏    | 192312/371472 [4:14:37<13:16:48,  3.75it/s] 52%|█████▏    | 192313/371472 [4:14:37<13:38:35,  3.65it/s] 52%|█████▏    | 192314/371472 [4:14:37<13:12:37,  3.77it/s] 52%|█████▏    | 192315/371472 [4:14:38<13:37:18,  3.65it/s] 52%|█████▏    | 192316/371472 [4:14:38<13:36:39,  3.66it/s] 52%|█████▏    | 192317/371472 [4:14:38<14:21:31,  3.47it/s] 52%|█████▏    | 192318/371472 [4:14:39<14:11:20,  3.51it/s] 52%|█████▏    | 192319/371472 [4:14:39<14:46:37,  3.37it/s] 52%|█████▏    | 192320/371472 [4:14:39<14:10:21,  3.51it/s]                                                            {'loss': 3.0161, 'learning_rate': 5.342821435497425e-07, 'epoch': 8.28}
 52%|█████▏    | 192320/371472 [4:14:39<14:10:21,  3.51it/s] 52%|█████▏    | 192321/371472 [4:14:39<13:41:58,  3.63it/s] 52%|█████▏    | 192322/371472 [4:14:40<14:18:19,  3.48it/s] 52%|█████▏    | 192323/371472 [4:14:40<15:12:15,  3.27it/s] 52%|█████▏    | 192324/371472 [4:14:40<15:03:59,  3.30it/s] 52%|█████▏    | 192325/371472 [4:14:41<14:21:18,  3.47it/s] 52%|█████▏    | 192326/371472 [4:14:41<15:02:46,  3.31it/s] 52%|█████▏    | 192327/371472 [4:14:41<14:24:18,  3.45it/s] 52%|█████▏    | 192328/371472 [4:14:42<15:34:52,  3.19it/s] 52%|█████▏    | 192329/371472 [4:14:42<15:11:51,  3.27it/s] 52%|█████▏    | 192330/371472 [4:14:42<14:12:54,  3.50it/s] 52%|█████▏    | 192331/371472 [4:14:42<13:53:56,  3.58it/s] 52%|█████▏    | 192332/371472 [4:14:43<14:55:01,  3.34it/s] 52%|█████▏    | 192333/371472 [4:14:43<14:19:10,  3.47it/s] 52%|█████▏    | 192334/371472 [4:14:44<17:17:40,  2.88it/s] 52%|█████▏    | 192335/371472 [4:14:44<15:59:37,  3.11it/s] 52%|█████▏    | 192336/371472 [4:14:44<15:48:04,  3.15it/s] 52%|█████▏    | 192337/371472 [4:14:44<15:35:07,  3.19it/s] 52%|█████▏    | 192338/371472 [4:14:45<14:58:24,  3.32it/s] 52%|█████▏    | 192339/371472 [4:14:45<14:31:30,  3.43it/s] 52%|█████▏    | 192340/371472 [4:14:45<14:21:30,  3.47it/s]                                                            {'loss': 2.9278, 'learning_rate': 5.342336615742636e-07, 'epoch': 8.28}
 52%|█████▏    | 192340/371472 [4:14:45<14:21:30,  3.47it/s] 52%|█████▏    | 192341/371472 [4:14:45<13:59:24,  3.56it/s] 52%|█████▏    | 192342/371472 [4:14:46<14:22:10,  3.46it/s] 52%|█████▏    | 192343/371472 [4:14:46<14:20:52,  3.47it/s] 52%|█████▏    | 192344/371472 [4:14:46<14:09:24,  3.51it/s] 52%|█████▏    | 192345/371472 [4:14:47<14:31:24,  3.43it/s] 52%|█████▏    | 192346/371472 [4:14:47<15:46:14,  3.16it/s] 52%|█████▏    | 192347/371472 [4:14:47<15:04:31,  3.30it/s] 52%|█████▏    | 192348/371472 [4:14:48<14:59:36,  3.32it/s] 52%|█████▏    | 192349/371472 [4:14:48<14:55:11,  3.33it/s] 52%|█████▏    | 192350/371472 [4:14:48<14:39:26,  3.39it/s] 52%|█████▏    | 192351/371472 [4:14:48<14:23:03,  3.46it/s] 52%|█████▏    | 192352/371472 [4:14:49<14:25:07,  3.45it/s] 52%|█████▏    | 192353/371472 [4:14:49<14:40:53,  3.39it/s] 52%|█████▏    | 192354/371472 [4:14:49<16:26:26,  3.03it/s] 52%|█████▏    | 192355/371472 [4:14:50<15:57:09,  3.12it/s] 52%|█████▏    | 192356/371472 [4:14:50<15:21:09,  3.24it/s] 52%|█████▏    | 192357/371472 [4:14:50<15:02:36,  3.31it/s] 52%|█████▏    | 192358/371472 [4:14:51<14:25:45,  3.45it/s] 52%|█████▏    | 192359/371472 [4:14:51<13:56:36,  3.57it/s] 52%|█████▏    | 192360/371472 [4:14:51<13:27:24,  3.70it/s]                                                            {'loss': 2.8211, 'learning_rate': 5.341851795987848e-07, 'epoch': 8.29}
 52%|█████▏    | 192360/371472 [4:14:51<13:27:24,  3.70it/s] 52%|█████▏    | 192361/371472 [4:14:51<14:49:24,  3.36it/s] 52%|█████▏    | 192362/371472 [4:14:52<14:16:07,  3.49it/s] 52%|█████▏    | 192363/371472 [4:14:52<13:48:13,  3.60it/s] 52%|█████▏    | 192364/371472 [4:14:52<13:44:54,  3.62it/s] 52%|█████▏    | 192365/371472 [4:14:53<14:00:45,  3.55it/s] 52%|█████▏    | 192366/371472 [4:14:53<13:53:30,  3.58it/s] 52%|█████▏    | 192367/371472 [4:14:53<13:19:05,  3.74it/s] 52%|█████▏    | 192368/371472 [4:14:53<13:15:25,  3.75it/s] 52%|█████▏    | 192369/371472 [4:14:54<13:42:44,  3.63it/s] 52%|█████▏    | 192370/371472 [4:14:54<13:53:31,  3.58it/s] 52%|█████▏    | 192371/371472 [4:14:54<14:50:29,  3.35it/s] 52%|█████▏    | 192372/371472 [4:14:54<14:01:00,  3.55it/s] 52%|█████▏    | 192373/371472 [4:14:55<13:32:45,  3.67it/s] 52%|█████▏    | 192374/371472 [4:14:55<13:21:52,  3.72it/s] 52%|█████▏    | 192375/371472 [4:14:55<13:11:17,  3.77it/s] 52%|█████▏    | 192376/371472 [4:14:56<13:19:45,  3.73it/s] 52%|█████▏    | 192377/371472 [4:14:56<13:01:59,  3.82it/s] 52%|█████▏    | 192378/371472 [4:14:56<13:03:18,  3.81it/s] 52%|█████▏    | 192379/371472 [4:14:56<13:15:56,  3.75it/s] 52%|█████▏    | 192380/371472 [4:14:57<12:58:26,  3.83it/s]                                                            {'loss': 3.0222, 'learning_rate': 5.341366976233058e-07, 'epoch': 8.29}
 52%|█████▏    | 192380/371472 [4:14:57<12:58:26,  3.83it/s] 52%|█████▏    | 192381/371472 [4:14:57<13:16:22,  3.75it/s] 52%|█████▏    | 192382/371472 [4:14:57<13:23:36,  3.71it/s] 52%|█████▏    | 192383/371472 [4:14:57<13:59:42,  3.55it/s] 52%|█████▏    | 192384/371472 [4:14:58<13:52:16,  3.59it/s] 52%|█████▏    | 192385/371472 [4:14:58<14:22:24,  3.46it/s] 52%|█████▏    | 192386/371472 [4:14:58<14:11:12,  3.51it/s] 52%|█████▏    | 192387/371472 [4:14:59<13:49:29,  3.60it/s] 52%|█████▏    | 192388/371472 [4:14:59<13:44:15,  3.62it/s] 52%|█████▏    | 192389/371472 [4:14:59<13:33:13,  3.67it/s] 52%|█████▏    | 192390/371472 [4:14:59<14:16:04,  3.49it/s] 52%|█████▏    | 192391/371472 [4:15:00<14:22:11,  3.46it/s] 52%|█████▏    | 192392/371472 [4:15:00<15:28:21,  3.21it/s] 52%|█████▏    | 192393/371472 [4:15:00<16:47:07,  2.96it/s] 52%|█████▏    | 192394/371472 [4:15:01<16:18:12,  3.05it/s] 52%|█████▏    | 192395/371472 [4:15:01<15:34:50,  3.19it/s] 52%|█████▏    | 192396/371472 [4:15:01<15:03:19,  3.30it/s] 52%|█████▏    | 192397/371472 [4:15:02<14:50:33,  3.35it/s] 52%|█████▏    | 192398/371472 [4:15:02<14:16:21,  3.49it/s] 52%|█████▏    | 192399/371472 [4:15:02<13:42:15,  3.63it/s] 52%|█████▏    | 192400/371472 [4:15:02<13:33:12,  3.67it/s]                                                            {'loss': 3.0952, 'learning_rate': 5.340882156478269e-07, 'epoch': 8.29}
 52%|█████▏    | 192400/371472 [4:15:02<13:33:12,  3.67it/s] 52%|█████▏    | 192401/371472 [4:15:03<14:03:43,  3.54it/s] 52%|█████▏    | 192402/371472 [4:15:03<15:33:34,  3.20it/s] 52%|█████▏    | 192403/371472 [4:15:03<15:24:01,  3.23it/s] 52%|█████▏    | 192404/371472 [4:15:04<17:51:50,  2.78it/s] 52%|█████▏    | 192405/371472 [4:15:04<16:26:19,  3.03it/s] 52%|█████▏    | 192406/371472 [4:15:04<15:22:02,  3.24it/s] 52%|█████▏    | 192407/371472 [4:15:05<14:44:49,  3.37it/s] 52%|█████▏    | 192408/371472 [4:15:05<14:27:16,  3.44it/s] 52%|█████▏    | 192409/371472 [4:15:05<14:00:45,  3.55it/s] 52%|█████▏    | 192410/371472 [4:15:05<13:52:10,  3.59it/s] 52%|█████▏    | 192411/371472 [4:15:06<14:14:45,  3.49it/s] 52%|█████▏    | 192412/371472 [4:15:06<13:38:02,  3.65it/s] 52%|█████▏    | 192413/371472 [4:15:06<13:44:27,  3.62it/s] 52%|█████▏    | 192414/371472 [4:15:07<14:37:29,  3.40it/s] 52%|█████▏    | 192415/371472 [4:15:07<14:25:12,  3.45it/s] 52%|█████▏    | 192416/371472 [4:15:07<13:57:26,  3.56it/s] 52%|█████▏    | 192417/371472 [4:15:07<13:18:55,  3.74it/s] 52%|█████▏    | 192418/371472 [4:15:08<12:59:00,  3.83it/s] 52%|█████▏    | 192419/371472 [4:15:08<13:43:18,  3.62it/s] 52%|█████▏    | 192420/371472 [4:15:08<13:04:32,  3.80it/s]                                                            {'loss': 3.0841, 'learning_rate': 5.34039733672348e-07, 'epoch': 8.29}
 52%|█████▏    | 192420/371472 [4:15:08<13:04:32,  3.80it/s] 52%|█████▏    | 192421/371472 [4:15:09<13:48:22,  3.60it/s] 52%|█████▏    | 192422/371472 [4:15:09<13:13:17,  3.76it/s] 52%|█████▏    | 192423/371472 [4:15:09<13:05:32,  3.80it/s] 52%|█████▏    | 192424/371472 [4:15:09<12:53:54,  3.86it/s] 52%|█████▏    | 192425/371472 [4:15:10<13:46:54,  3.61it/s] 52%|█████▏    | 192426/371472 [4:15:10<15:03:52,  3.30it/s] 52%|█████▏    | 192427/371472 [4:15:10<14:37:46,  3.40it/s] 52%|█████▏    | 192428/371472 [4:15:10<14:18:03,  3.48it/s] 52%|█████▏    | 192429/371472 [4:15:11<13:40:32,  3.64it/s] 52%|█████▏    | 192430/371472 [4:15:11<16:29:40,  3.02it/s] 52%|█████▏    | 192431/371472 [4:15:11<15:04:46,  3.30it/s] 52%|█████▏    | 192432/371472 [4:15:12<14:25:38,  3.45it/s] 52%|█████▏    | 192433/371472 [4:15:12<13:56:47,  3.57it/s] 52%|█████▏    | 192434/371472 [4:15:12<13:53:25,  3.58it/s] 52%|█████▏    | 192435/371472 [4:15:12<13:21:28,  3.72it/s] 52%|█████▏    | 192436/371472 [4:15:13<13:11:14,  3.77it/s] 52%|█████▏    | 192437/371472 [4:15:13<13:17:22,  3.74it/s] 52%|█████▏    | 192438/371472 [4:15:13<12:52:56,  3.86it/s] 52%|█████▏    | 192439/371472 [4:15:14<13:26:09,  3.70it/s] 52%|█████▏    | 192440/371472 [4:15:14<13:03:17,  3.81it/s]                                                            {'loss': 3.074, 'learning_rate': 5.339912516968692e-07, 'epoch': 8.29}
 52%|█████▏    | 192440/371472 [4:15:14<13:03:17,  3.81it/s] 52%|█████▏    | 192441/371472 [4:15:14<14:06:50,  3.52it/s] 52%|█████▏    | 192442/371472 [4:15:14<13:52:13,  3.59it/s] 52%|█████▏    | 192443/371472 [4:15:15<13:46:51,  3.61it/s] 52%|█████▏    | 192444/371472 [4:15:15<13:22:52,  3.72it/s] 52%|█████▏    | 192445/371472 [4:15:15<12:54:02,  3.85it/s] 52%|█████▏    | 192446/371472 [4:15:15<12:48:29,  3.88it/s] 52%|█████▏    | 192447/371472 [4:15:16<13:25:21,  3.70it/s] 52%|█████▏    | 192448/371472 [4:15:16<13:08:01,  3.79it/s] 52%|█████▏    | 192449/371472 [4:15:16<13:55:42,  3.57it/s] 52%|█████▏    | 192450/371472 [4:15:17<13:50:43,  3.59it/s] 52%|█████▏    | 192451/371472 [4:15:17<14:28:37,  3.43it/s] 52%|█████▏    | 192452/371472 [4:15:17<15:03:08,  3.30it/s] 52%|█████▏    | 192453/371472 [4:15:17<14:34:58,  3.41it/s] 52%|█████▏    | 192454/371472 [4:15:18<14:25:57,  3.45it/s] 52%|█████▏    | 192455/371472 [4:15:18<14:24:19,  3.45it/s] 52%|█████▏    | 192456/371472 [4:15:18<14:59:19,  3.32it/s] 52%|█████▏    | 192457/371472 [4:15:19<14:12:17,  3.50it/s] 52%|█████▏    | 192458/371472 [4:15:19<13:53:57,  3.58it/s] 52%|█████▏    | 192459/371472 [4:15:19<13:37:23,  3.65it/s] 52%|█████▏    | 192460/371472 [4:15:19<13:37:47,  3.65it/s]                                                            {'loss': 2.9528, 'learning_rate': 5.339427697213902e-07, 'epoch': 8.29}
 52%|█████▏    | 192460/371472 [4:15:19<13:37:47,  3.65it/s] 52%|█████▏    | 192461/371472 [4:15:20<13:43:44,  3.62it/s] 52%|█████▏    | 192462/371472 [4:15:20<13:17:26,  3.74it/s] 52%|█████▏    | 192463/371472 [4:15:20<13:50:22,  3.59it/s] 52%|█████▏    | 192464/371472 [4:15:21<14:01:51,  3.54it/s] 52%|█████▏    | 192465/371472 [4:15:21<13:45:25,  3.61it/s] 52%|█████▏    | 192466/371472 [4:15:21<13:28:00,  3.69it/s] 52%|█████▏    | 192467/371472 [4:15:21<13:27:38,  3.69it/s] 52%|█████▏    | 192468/371472 [4:15:22<13:34:13,  3.66it/s] 52%|█████▏    | 192469/371472 [4:15:22<14:11:30,  3.50it/s] 52%|█████▏    | 192470/371472 [4:15:22<14:20:53,  3.47it/s] 52%|█████▏    | 192471/371472 [4:15:22<14:05:55,  3.53it/s] 52%|█████▏    | 192472/371472 [4:15:23<13:36:53,  3.65it/s] 52%|█████▏    | 192473/371472 [4:15:23<13:29:32,  3.69it/s] 52%|█████▏    | 192474/371472 [4:15:23<13:18:52,  3.73it/s] 52%|█████▏    | 192475/371472 [4:15:24<13:32:04,  3.67it/s] 52%|█████▏    | 192476/371472 [4:15:24<14:09:23,  3.51it/s] 52%|█████▏    | 192477/371472 [4:15:24<14:35:45,  3.41it/s] 52%|█████▏    | 192478/371472 [4:15:24<14:28:17,  3.44it/s] 52%|█████▏    | 192479/371472 [4:15:25<14:41:08,  3.39it/s] 52%|█████▏    | 192480/371472 [4:15:25<14:58:42,  3.32it/s]                                                            {'loss': 3.0325, 'learning_rate': 5.338942877459114e-07, 'epoch': 8.29}
 52%|█████▏    | 192480/371472 [4:15:25<14:58:42,  3.32it/s] 52%|█████▏    | 192481/371472 [4:15:25<15:00:50,  3.31it/s] 52%|█████▏    | 192482/371472 [4:15:26<14:32:43,  3.42it/s] 52%|█████▏    | 192483/371472 [4:15:26<14:28:13,  3.44it/s] 52%|█████▏    | 192484/371472 [4:15:26<14:07:40,  3.52it/s] 52%|█████▏    | 192485/371472 [4:15:26<14:08:46,  3.51it/s] 52%|█████▏    | 192486/371472 [4:15:27<14:36:31,  3.40it/s] 52%|█████▏    | 192487/371472 [4:15:27<14:19:11,  3.47it/s] 52%|█████▏    | 192488/371472 [4:15:27<15:15:39,  3.26it/s] 52%|█████▏    | 192489/371472 [4:15:28<14:48:45,  3.36it/s] 52%|█████▏    | 192490/371472 [4:15:28<14:19:24,  3.47it/s] 52%|█████▏    | 192491/371472 [4:15:28<14:55:05,  3.33it/s] 52%|█████▏    | 192492/371472 [4:15:29<14:12:47,  3.50it/s] 52%|█████▏    | 192493/371472 [4:15:29<13:41:47,  3.63it/s] 52%|█████▏    | 192494/371472 [4:15:29<13:41:51,  3.63it/s] 52%|█████▏    | 192495/371472 [4:15:29<13:20:36,  3.73it/s] 52%|█████▏    | 192496/371472 [4:15:30<14:18:58,  3.47it/s] 52%|█████▏    | 192497/371472 [4:15:30<14:35:07,  3.41it/s] 52%|█████▏    | 192498/371472 [4:15:30<14:29:13,  3.43it/s] 52%|█████▏    | 192499/371472 [4:15:31<14:22:09,  3.46it/s] 52%|█████▏    | 192500/371472 [4:15:31<13:59:21,  3.55it/s]                                                            {'loss': 2.8782, 'learning_rate': 5.338458057704325e-07, 'epoch': 8.29}
 52%|█████▏    | 192500/371472 [4:15:31<13:59:21,  3.55it/s] 52%|█████▏    | 192501/371472 [4:15:31<15:03:22,  3.30it/s] 52%|█████▏    | 192502/371472 [4:15:31<14:30:41,  3.43it/s] 52%|█████▏    | 192503/371472 [4:15:32<14:08:39,  3.51it/s] 52%|█████▏    | 192504/371472 [4:15:32<13:51:55,  3.59it/s] 52%|█████▏    | 192505/371472 [4:15:32<13:23:50,  3.71it/s] 52%|█████▏    | 192506/371472 [4:15:32<13:38:31,  3.64it/s] 52%|█████▏    | 192507/371472 [4:15:33<13:57:01,  3.56it/s] 52%|█████▏    | 192508/371472 [4:15:33<14:12:56,  3.50it/s] 52%|█████▏    | 192509/371472 [4:15:33<14:35:18,  3.41it/s] 52%|█████▏    | 192510/371472 [4:15:34<15:01:59,  3.31it/s] 52%|█████▏    | 192511/371472 [4:15:34<14:25:39,  3.45it/s] 52%|█████▏    | 192512/371472 [4:15:34<14:02:11,  3.54it/s] 52%|█████▏    | 192513/371472 [4:15:35<14:46:26,  3.36it/s] 52%|█████▏    | 192514/371472 [4:15:35<16:02:08,  3.10it/s] 52%|█████▏    | 192515/371472 [4:15:35<15:34:18,  3.19it/s] 52%|█████▏    | 192516/371472 [4:15:36<14:52:45,  3.34it/s] 52%|█████▏    | 192517/371472 [4:15:36<14:22:32,  3.46it/s] 52%|█████▏    | 192518/371472 [4:15:36<14:20:21,  3.47it/s] 52%|█████▏    | 192519/371472 [4:15:36<14:04:33,  3.53it/s] 52%|█████▏    | 192520/371472 [4:15:37<14:30:13,  3.43it/s]                                                            {'loss': 2.8752, 'learning_rate': 5.337973237949536e-07, 'epoch': 8.29}
 52%|█████▏    | 192520/371472 [4:15:37<14:30:13,  3.43it/s] 52%|█████▏    | 192521/371472 [4:15:37<14:15:41,  3.49it/s] 52%|█████▏    | 192522/371472 [4:15:37<14:08:18,  3.52it/s] 52%|█████▏    | 192523/371472 [4:15:37<13:53:46,  3.58it/s] 52%|█████▏    | 192524/371472 [4:15:38<15:24:59,  3.22it/s] 52%|█████▏    | 192525/371472 [4:15:38<15:07:07,  3.29it/s] 52%|█████▏    | 192526/371472 [4:15:38<15:01:46,  3.31it/s] 52%|█████▏    | 192527/371472 [4:15:39<14:57:59,  3.32it/s] 52%|█████▏    | 192528/371472 [4:15:39<14:22:11,  3.46it/s] 52%|█████▏    | 192529/371472 [4:15:39<13:58:29,  3.56it/s] 52%|█████▏    | 192530/371472 [4:15:40<13:50:21,  3.59it/s] 52%|█████▏    | 192531/371472 [4:15:40<13:35:29,  3.66it/s] 52%|█████▏    | 192532/371472 [4:15:40<13:46:45,  3.61it/s] 52%|█████▏    | 192533/371472 [4:15:40<13:41:59,  3.63it/s] 52%|█████▏    | 192534/371472 [4:15:41<13:39:53,  3.64it/s] 52%|█████▏    | 192535/371472 [4:15:41<13:46:39,  3.61it/s] 52%|█████▏    | 192536/371472 [4:15:41<13:53:31,  3.58it/s] 52%|█████▏    | 192537/371472 [4:15:42<14:23:40,  3.45it/s] 52%|█████▏    | 192538/371472 [4:15:42<13:52:30,  3.58it/s] 52%|█████▏    | 192539/371472 [4:15:42<14:21:56,  3.46it/s] 52%|█████▏    | 192540/371472 [4:15:42<14:03:18,  3.54it/s]                                                            {'loss': 2.9037, 'learning_rate': 5.337488418194746e-07, 'epoch': 8.29}
 52%|█████▏    | 192540/371472 [4:15:42<14:03:18,  3.54it/s] 52%|█████▏    | 192541/371472 [4:15:43<14:27:30,  3.44it/s] 52%|█████▏    | 192542/371472 [4:15:43<14:52:03,  3.34it/s] 52%|█████▏    | 192543/371472 [4:15:43<14:38:19,  3.40it/s] 52%|█████▏    | 192544/371472 [4:15:44<13:52:27,  3.58it/s] 52%|█████▏    | 192545/371472 [4:15:44<13:52:34,  3.58it/s] 52%|█████▏    | 192546/371472 [4:15:44<13:56:11,  3.57it/s] 52%|█████▏    | 192547/371472 [4:15:44<13:50:47,  3.59it/s] 52%|█████▏    | 192548/371472 [4:15:45<13:59:30,  3.55it/s] 52%|█████▏    | 192549/371472 [4:15:45<13:29:24,  3.68it/s] 52%|█████▏    | 192550/371472 [4:15:45<14:10:03,  3.51it/s] 52%|█████▏    | 192551/371472 [4:15:45<13:52:37,  3.58it/s] 52%|█████▏    | 192552/371472 [4:15:46<13:37:31,  3.65it/s] 52%|█████▏    | 192553/371472 [4:15:46<15:55:34,  3.12it/s] 52%|█████▏    | 192554/371472 [4:15:46<15:23:48,  3.23it/s] 52%|█████▏    | 192555/371472 [4:15:47<15:08:03,  3.28it/s] 52%|█████▏    | 192556/371472 [4:15:47<14:27:08,  3.44it/s] 52%|█████▏    | 192557/371472 [4:15:47<14:20:26,  3.47it/s] 52%|█████▏    | 192558/371472 [4:15:48<14:40:04,  3.39it/s] 52%|█████▏    | 192559/371472 [4:15:48<13:56:23,  3.57it/s] 52%|█████▏    | 192560/371472 [4:15:48<15:01:53,  3.31it/s]                                                            {'loss': 3.0075, 'learning_rate': 5.337003598439957e-07, 'epoch': 8.29}
 52%|█████▏    | 192560/371472 [4:15:48<15:01:53,  3.31it/s] 52%|█████▏    | 192561/371472 [4:15:49<15:30:17,  3.21it/s] 52%|█████▏    | 192562/371472 [4:15:49<15:44:22,  3.16it/s] 52%|█████▏    | 192563/371472 [4:15:49<14:53:44,  3.34it/s] 52%|█████▏    | 192564/371472 [4:15:49<14:55:13,  3.33it/s] 52%|█████▏    | 192565/371472 [4:15:50<14:15:54,  3.48it/s] 52%|█████▏    | 192566/371472 [4:15:50<13:44:08,  3.62it/s] 52%|█████▏    | 192567/371472 [4:15:50<14:48:55,  3.35it/s] 52%|█████▏    | 192568/371472 [4:15:51<16:15:10,  3.06it/s] 52%|█████▏    | 192569/371472 [4:15:51<15:19:14,  3.24it/s] 52%|█████▏    | 192570/371472 [4:15:51<14:29:15,  3.43it/s] 52%|█████▏    | 192571/371472 [4:15:51<14:09:35,  3.51it/s] 52%|█████▏    | 192572/371472 [4:15:52<14:11:06,  3.50it/s] 52%|█████▏    | 192573/371472 [4:15:52<13:27:57,  3.69it/s] 52%|█████▏    | 192574/371472 [4:15:52<13:48:31,  3.60it/s] 52%|█████▏    | 192575/371472 [4:15:53<13:44:58,  3.61it/s] 52%|█████▏    | 192576/371472 [4:15:53<13:50:06,  3.59it/s] 52%|█████▏    | 192577/371472 [4:15:53<14:17:43,  3.48it/s] 52%|█████▏    | 192578/371472 [4:15:53<14:05:30,  3.53it/s] 52%|█████▏    | 192579/371472 [4:15:54<13:36:26,  3.65it/s] 52%|█████▏    | 192580/371472 [4:15:54<14:11:09,  3.50it/s]                                                            {'loss': 2.9563, 'learning_rate': 5.336518778685169e-07, 'epoch': 8.29}
 52%|█████▏    | 192580/371472 [4:15:54<14:11:09,  3.50it/s] 52%|█████▏    | 192581/371472 [4:15:54<13:56:31,  3.56it/s] 52%|█████▏    | 192582/371472 [4:15:54<13:41:09,  3.63it/s] 52%|█████▏    | 192583/371472 [4:15:55<14:05:49,  3.52it/s] 52%|█████▏    | 192584/371472 [4:15:55<13:58:04,  3.56it/s] 52%|█████▏    | 192585/371472 [4:15:55<13:31:24,  3.67it/s] 52%|█████▏    | 192586/371472 [4:15:56<13:31:38,  3.67it/s] 52%|█████▏    | 192587/371472 [4:15:56<13:11:25,  3.77it/s] 52%|█████▏    | 192588/371472 [4:15:56<13:26:37,  3.70it/s] 52%|█████▏    | 192589/371472 [4:15:56<13:51:42,  3.58it/s] 52%|█████▏    | 192590/371472 [4:15:57<14:22:50,  3.46it/s] 52%|█████▏    | 192591/371472 [4:15:57<14:50:30,  3.35it/s] 52%|█████▏    | 192592/371472 [4:15:57<14:44:25,  3.37it/s] 52%|█████▏    | 192593/371472 [4:15:58<14:22:27,  3.46it/s] 52%|█████▏    | 192594/371472 [4:15:58<14:04:07,  3.53it/s] 52%|█████▏    | 192595/371472 [4:15:58<13:54:28,  3.57it/s] 52%|█████▏    | 192596/371472 [4:15:58<13:23:18,  3.71it/s] 52%|█████▏    | 192597/371472 [4:15:59<13:20:30,  3.72it/s] 52%|█████▏    | 192598/371472 [4:15:59<13:13:25,  3.76it/s] 52%|█████▏    | 192599/371472 [4:15:59<13:19:11,  3.73it/s] 52%|█████▏    | 192600/371472 [4:15:59<13:13:16,  3.76it/s]                                                            {'loss': 2.9263, 'learning_rate': 5.33603395893038e-07, 'epoch': 8.3}
 52%|█████▏    | 192600/371472 [4:15:59<13:13:16,  3.76it/s] 52%|█████▏    | 192601/371472 [4:16:00<12:54:05,  3.85it/s] 52%|█████▏    | 192602/371472 [4:16:00<12:37:37,  3.93it/s] 52%|█████▏    | 192603/371472 [4:16:00<13:10:38,  3.77it/s] 52%|█████▏    | 192604/371472 [4:16:01<13:00:49,  3.82it/s] 52%|█████▏    | 192605/371472 [4:16:01<12:57:43,  3.83it/s] 52%|█████▏    | 192606/371472 [4:16:01<12:45:22,  3.89it/s] 52%|█████▏    | 192607/371472 [4:16:01<13:31:34,  3.67it/s] 52%|█████▏    | 192608/371472 [4:16:02<13:15:57,  3.75it/s] 52%|█████▏    | 192609/371472 [4:16:02<14:23:48,  3.45it/s] 52%|█████▏    | 192610/371472 [4:16:02<13:52:55,  3.58it/s] 52%|█████▏    | 192611/371472 [4:16:02<14:19:29,  3.47it/s] 52%|█████▏    | 192612/371472 [4:16:03<14:08:56,  3.51it/s] 52%|█████▏    | 192613/371472 [4:16:03<14:47:13,  3.36it/s] 52%|█████▏    | 192614/371472 [4:16:03<14:30:20,  3.43it/s] 52%|█████▏    | 192615/371472 [4:16:04<13:49:59,  3.59it/s] 52%|█████▏    | 192616/371472 [4:16:04<13:25:54,  3.70it/s] 52%|█████▏    | 192617/371472 [4:16:04<13:12:56,  3.76it/s] 52%|█████▏    | 192618/371472 [4:16:04<13:22:21,  3.72it/s] 52%|█████▏    | 192619/371472 [4:16:05<13:11:02,  3.77it/s] 52%|█████▏    | 192620/371472 [4:16:05<14:04:01,  3.53it/s]                                                            {'loss': 3.0792, 'learning_rate': 5.335549139175591e-07, 'epoch': 8.3}
 52%|█████▏    | 192620/371472 [4:16:05<14:04:01,  3.53it/s] 52%|█████▏    | 192621/371472 [4:16:05<13:58:33,  3.55it/s] 52%|█████▏    | 192622/371472 [4:16:06<14:00:36,  3.55it/s] 52%|█████▏    | 192623/371472 [4:16:06<14:16:46,  3.48it/s] 52%|█████▏    | 192624/371472 [4:16:06<13:56:55,  3.56it/s] 52%|█████▏    | 192625/371472 [4:16:06<13:55:41,  3.57it/s] 52%|█████▏    | 192626/371472 [4:16:07<13:53:21,  3.58it/s] 52%|█████▏    | 192627/371472 [4:16:07<13:54:52,  3.57it/s] 52%|█████▏    | 192628/371472 [4:16:07<13:37:14,  3.65it/s] 52%|█████▏    | 192629/371472 [4:16:07<13:57:37,  3.56it/s] 52%|█████▏    | 192630/371472 [4:16:08<13:40:05,  3.63it/s] 52%|█████▏    | 192631/371472 [4:16:08<14:25:46,  3.44it/s] 52%|█████▏    | 192632/371472 [4:16:08<13:42:12,  3.63it/s] 52%|█████▏    | 192633/371472 [4:16:09<13:40:56,  3.63it/s] 52%|█████▏    | 192634/371472 [4:16:09<14:14:52,  3.49it/s] 52%|█████▏    | 192635/371472 [4:16:09<13:50:24,  3.59it/s] 52%|█████▏    | 192636/371472 [4:16:09<13:40:19,  3.63it/s] 52%|█████▏    | 192637/371472 [4:16:10<13:38:00,  3.64it/s] 52%|█████▏    | 192638/371472 [4:16:10<14:09:51,  3.51it/s] 52%|█████▏    | 192639/371472 [4:16:10<13:52:17,  3.58it/s] 52%|█████▏    | 192640/371472 [4:16:11<13:28:23,  3.69it/s]                                                            {'loss': 2.8343, 'learning_rate': 5.335064319420802e-07, 'epoch': 8.3}
 52%|█████▏    | 192640/371472 [4:16:11<13:28:23,  3.69it/s] 52%|█████▏    | 192641/371472 [4:16:11<13:19:55,  3.73it/s] 52%|█████▏    | 192642/371472 [4:16:11<13:50:52,  3.59it/s] 52%|█████▏    | 192643/371472 [4:16:11<13:21:18,  3.72it/s] 52%|█████▏    | 192644/371472 [4:16:12<14:02:30,  3.54it/s] 52%|█████▏    | 192645/371472 [4:16:12<14:36:42,  3.40it/s] 52%|█████▏    | 192646/371472 [4:16:12<14:08:49,  3.51it/s] 52%|█████▏    | 192647/371472 [4:16:13<15:53:48,  3.12it/s] 52%|█████▏    | 192648/371472 [4:16:13<15:26:43,  3.22it/s] 52%|█████▏    | 192649/371472 [4:16:13<14:32:26,  3.42it/s] 52%|█████▏    | 192650/371472 [4:16:14<15:21:58,  3.23it/s] 52%|█████▏    | 192651/371472 [4:16:14<14:12:46,  3.49it/s] 52%|█████▏    | 192652/371472 [4:16:14<13:42:14,  3.62it/s] 52%|█████▏    | 192653/371472 [4:16:14<14:00:38,  3.55it/s] 52%|█████▏    | 192654/371472 [4:16:15<13:29:22,  3.68it/s] 52%|█████▏    | 192655/371472 [4:16:15<13:33:07,  3.67it/s] 52%|█████▏    | 192656/371472 [4:16:15<13:51:26,  3.58it/s] 52%|█████▏    | 192657/371472 [4:16:15<14:10:10,  3.51it/s] 52%|█████▏    | 192658/371472 [4:16:16<13:48:22,  3.60it/s] 52%|█████▏    | 192659/371472 [4:16:16<13:31:09,  3.67it/s] 52%|█████▏    | 192660/371472 [4:16:16<14:05:07,  3.53it/s]                                                            {'loss': 3.0332, 'learning_rate': 5.334579499666013e-07, 'epoch': 8.3}
 52%|█████▏    | 192660/371472 [4:16:16<14:05:07,  3.53it/s] 52%|█████▏    | 192661/371472 [4:16:17<14:13:26,  3.49it/s] 52%|█████▏    | 192662/371472 [4:16:17<14:10:09,  3.51it/s] 52%|█████▏    | 192663/371472 [4:16:17<13:46:24,  3.61it/s] 52%|█████▏    | 192664/371472 [4:16:17<14:26:19,  3.44it/s] 52%|█████▏    | 192665/371472 [4:16:18<14:06:46,  3.52it/s] 52%|█████▏    | 192666/371472 [4:16:18<13:39:03,  3.64it/s] 52%|█████▏    | 192667/371472 [4:16:18<13:30:52,  3.68it/s] 52%|█████▏    | 192668/371472 [4:16:18<13:34:18,  3.66it/s] 52%|█████▏    | 192669/371472 [4:16:19<13:47:15,  3.60it/s] 52%|█████▏    | 192670/371472 [4:16:19<13:41:04,  3.63it/s] 52%|█████▏    | 192671/371472 [4:16:19<13:43:39,  3.62it/s] 52%|█████▏    | 192672/371472 [4:16:20<14:12:55,  3.49it/s] 52%|█████▏    | 192673/371472 [4:16:20<14:05:24,  3.52it/s] 52%|█████▏    | 192674/371472 [4:16:20<14:03:08,  3.53it/s] 52%|█████▏    | 192675/371472 [4:16:20<14:12:32,  3.50it/s] 52%|█████▏    | 192676/371472 [4:16:21<14:51:37,  3.34it/s] 52%|█████▏    | 192677/371472 [4:16:21<14:13:43,  3.49it/s] 52%|█████▏    | 192678/371472 [4:16:21<14:02:57,  3.54it/s] 52%|█████▏    | 192679/371472 [4:16:22<13:50:33,  3.59it/s] 52%|█████▏    | 192680/371472 [4:16:22<13:52:34,  3.58it/s]                                                            {'loss': 3.139, 'learning_rate': 5.334094679911223e-07, 'epoch': 8.3}
 52%|█████▏    | 192680/371472 [4:16:22<13:52:34,  3.58it/s] 52%|█████▏    | 192681/371472 [4:16:22<14:01:53,  3.54it/s] 52%|█████▏    | 192682/371472 [4:16:22<14:09:09,  3.51it/s] 52%|█████▏    | 192683/371472 [4:16:23<13:53:52,  3.57it/s] 52%|█████▏    | 192684/371472 [4:16:23<14:36:10,  3.40it/s] 52%|█████▏    | 192685/371472 [4:16:23<13:58:06,  3.56it/s] 52%|█████▏    | 192686/371472 [4:16:24<15:30:32,  3.20it/s] 52%|█████▏    | 192687/371472 [4:16:24<14:41:25,  3.38it/s] 52%|█████▏    | 192688/371472 [4:16:24<14:34:13,  3.41it/s] 52%|█████▏    | 192689/371472 [4:16:25<14:34:19,  3.41it/s] 52%|█████▏    | 192690/371472 [4:16:25<14:06:42,  3.52it/s] 52%|█████▏    | 192691/371472 [4:16:25<14:06:11,  3.52it/s] 52%|█████▏    | 192692/371472 [4:16:25<13:53:05,  3.58it/s] 52%|█████▏    | 192693/371472 [4:16:26<14:07:37,  3.52it/s] 52%|█████▏    | 192694/371472 [4:16:26<14:05:08,  3.53it/s] 52%|█████▏    | 192695/371472 [4:16:26<14:10:18,  3.50it/s] 52%|█████▏    | 192696/371472 [4:16:26<13:55:41,  3.57it/s] 52%|█████▏    | 192697/371472 [4:16:27<14:21:41,  3.46it/s] 52%|█████▏    | 192698/371472 [4:16:27<14:10:57,  3.50it/s] 52%|█████▏    | 192699/371472 [4:16:27<14:37:45,  3.39it/s] 52%|█████▏    | 192700/371472 [4:16:28<14:43:28,  3.37it/s]                                                            {'loss': 2.9401, 'learning_rate': 5.333609860156435e-07, 'epoch': 8.3}
 52%|█████▏    | 192700/371472 [4:16:28<14:43:28,  3.37it/s] 52%|█████▏    | 192701/371472 [4:16:28<14:00:01,  3.55it/s] 52%|█████▏    | 192702/371472 [4:16:28<13:36:18,  3.65it/s] 52%|█████▏    | 192703/371472 [4:16:28<13:20:02,  3.72it/s] 52%|█████▏    | 192704/371472 [4:16:29<13:41:06,  3.63it/s] 52%|█████▏    | 192705/371472 [4:16:29<14:36:37,  3.40it/s] 52%|█████▏    | 192706/371472 [4:16:29<15:58:39,  3.11it/s] 52%|█████▏    | 192707/371472 [4:16:30<15:12:10,  3.27it/s] 52%|█████▏    | 192708/371472 [4:16:30<14:45:40,  3.36it/s] 52%|█████▏    | 192709/371472 [4:16:30<15:01:33,  3.30it/s] 52%|█████▏    | 192710/371472 [4:16:31<15:03:56,  3.30it/s] 52%|█████▏    | 192711/371472 [4:16:31<14:43:25,  3.37it/s] 52%|█████▏    | 192712/371472 [4:16:31<15:26:35,  3.22it/s] 52%|█████▏    | 192713/371472 [4:16:32<14:59:03,  3.31it/s] 52%|█████▏    | 192714/371472 [4:16:32<14:52:51,  3.34it/s] 52%|█████▏    | 192715/371472 [4:16:32<15:16:30,  3.25it/s] 52%|█████▏    | 192716/371472 [4:16:32<14:39:58,  3.39it/s] 52%|█████▏    | 192717/371472 [4:16:33<14:44:28,  3.37it/s] 52%|█████▏    | 192718/371472 [4:16:33<14:23:28,  3.45it/s] 52%|█████▏    | 192719/371472 [4:16:33<15:39:09,  3.17it/s] 52%|█████▏    | 192720/371472 [4:16:34<14:47:22,  3.36it/s]                                                            {'loss': 3.0518, 'learning_rate': 5.333125040401646e-07, 'epoch': 8.3}
 52%|█████▏    | 192720/371472 [4:16:34<14:47:22,  3.36it/s] 52%|█████▏    | 192721/371472 [4:16:34<14:19:19,  3.47it/s] 52%|█████▏    | 192722/371472 [4:16:34<14:32:38,  3.41it/s] 52%|█████▏    | 192723/371472 [4:16:35<14:55:08,  3.33it/s] 52%|█████▏    | 192724/371472 [4:16:35<14:38:21,  3.39it/s] 52%|█████▏    | 192725/371472 [4:16:35<15:13:44,  3.26it/s] 52%|█████▏    | 192726/371472 [4:16:35<15:17:22,  3.25it/s] 52%|█████▏    | 192727/371472 [4:16:36<14:53:20,  3.33it/s] 52%|█████▏    | 192728/371472 [4:16:36<15:19:10,  3.24it/s] 52%|█████▏    | 192729/371472 [4:16:36<14:34:12,  3.41it/s] 52%|█████▏    | 192730/371472 [4:16:37<13:58:05,  3.55it/s] 52%|█████▏    | 192731/371472 [4:16:37<13:59:37,  3.55it/s] 52%|█████▏    | 192732/371472 [4:16:37<14:16:08,  3.48it/s] 52%|█████▏    | 192733/371472 [4:16:37<14:24:26,  3.45it/s] 52%|█████▏    | 192734/371472 [4:16:38<14:48:03,  3.35it/s] 52%|█████▏    | 192735/371472 [4:16:38<14:22:40,  3.45it/s] 52%|█████▏    | 192736/371472 [4:16:38<13:58:10,  3.55it/s] 52%|█████▏    | 192737/371472 [4:16:39<14:28:35,  3.43it/s] 52%|█████▏    | 192738/371472 [4:16:39<14:07:13,  3.52it/s] 52%|█████▏    | 192739/371472 [4:16:39<14:47:01,  3.36it/s] 52%|█████▏    | 192740/371472 [4:16:39<14:01:27,  3.54it/s]                                                            {'loss': 3.1213, 'learning_rate': 5.332640220646858e-07, 'epoch': 8.3}
 52%|█████▏    | 192740/371472 [4:16:39<14:01:27,  3.54it/s] 52%|█████▏    | 192741/371472 [4:16:40<14:03:19,  3.53it/s] 52%|█████▏    | 192742/371472 [4:16:40<13:53:51,  3.57it/s] 52%|█████▏    | 192743/371472 [4:16:40<13:53:59,  3.57it/s] 52%|█████▏    | 192744/371472 [4:16:41<14:31:48,  3.42it/s] 52%|█████▏    | 192745/371472 [4:16:41<14:01:29,  3.54it/s] 52%|█████▏    | 192746/371472 [4:16:41<14:02:49,  3.53it/s] 52%|█████▏    | 192747/371472 [4:16:41<14:31:54,  3.42it/s] 52%|█████▏    | 192748/371472 [4:16:42<13:56:40,  3.56it/s] 52%|█████▏    | 192749/371472 [4:16:42<14:18:16,  3.47it/s] 52%|█████▏    | 192750/371472 [4:16:42<14:27:38,  3.43it/s] 52%|█████▏    | 192751/371472 [4:16:43<14:06:24,  3.52it/s] 52%|█████▏    | 192752/371472 [4:16:43<14:23:55,  3.45it/s] 52%|█████▏    | 192753/371472 [4:16:43<14:30:26,  3.42it/s] 52%|█████▏    | 192754/371472 [4:16:44<14:52:24,  3.34it/s] 52%|█████▏    | 192755/371472 [4:16:44<14:37:53,  3.39it/s] 52%|█████▏    | 192756/371472 [4:16:44<14:33:34,  3.41it/s] 52%|█████▏    | 192757/371472 [4:16:44<14:30:09,  3.42it/s] 52%|█████▏    | 192758/371472 [4:16:45<14:06:22,  3.52it/s] 52%|█████▏    | 192759/371472 [4:16:45<13:51:27,  3.58it/s] 52%|█████▏    | 192760/371472 [4:16:45<14:49:30,  3.35it/s]                                                            {'loss': 2.9003, 'learning_rate': 5.332155400892068e-07, 'epoch': 8.3}
 52%|█████▏    | 192760/371472 [4:16:45<14:49:30,  3.35it/s] 52%|█████▏    | 192761/371472 [4:16:46<14:56:31,  3.32it/s] 52%|█████▏    | 192762/371472 [4:16:46<14:15:13,  3.48it/s] 52%|█████▏    | 192763/371472 [4:16:46<14:18:51,  3.47it/s] 52%|█████▏    | 192764/371472 [4:16:46<15:34:42,  3.19it/s] 52%|█████▏    | 192765/371472 [4:16:47<15:29:15,  3.21it/s] 52%|█████▏    | 192766/371472 [4:16:47<15:07:13,  3.28it/s] 52%|█████▏    | 192767/371472 [4:16:47<14:34:52,  3.40it/s] 52%|█████▏    | 192768/371472 [4:16:48<14:58:20,  3.32it/s] 52%|█████▏    | 192769/371472 [4:16:48<14:48:35,  3.35it/s] 52%|█████▏    | 192770/371472 [4:16:48<14:27:25,  3.43it/s] 52%|█████▏    | 192771/371472 [4:16:48<13:52:03,  3.58it/s] 52%|█████▏    | 192772/371472 [4:16:49<13:29:00,  3.68it/s] 52%|█████▏    | 192773/371472 [4:16:49<13:02:44,  3.80it/s] 52%|█████▏    | 192774/371472 [4:16:49<13:13:59,  3.75it/s] 52%|█████▏    | 192775/371472 [4:16:50<13:08:45,  3.78it/s] 52%|█████▏    | 192776/371472 [4:16:50<13:06:05,  3.79it/s] 52%|█████▏    | 192777/371472 [4:16:50<13:26:11,  3.69it/s] 52%|█████▏    | 192778/371472 [4:16:50<14:11:46,  3.50it/s] 52%|█████▏    | 192779/371472 [4:16:51<14:12:35,  3.49it/s] 52%|█████▏    | 192780/371472 [4:16:51<13:47:59,  3.60it/s]                                                            {'loss': 3.1177, 'learning_rate': 5.331670581137279e-07, 'epoch': 8.3}
 52%|█████▏    | 192780/371472 [4:16:51<13:47:59,  3.60it/s] 52%|█████▏    | 192781/371472 [4:16:51<13:48:29,  3.59it/s] 52%|█████▏    | 192782/371472 [4:16:52<14:33:11,  3.41it/s] 52%|█████▏    | 192783/371472 [4:16:52<14:32:29,  3.41it/s] 52%|█████▏    | 192784/371472 [4:16:52<15:42:28,  3.16it/s] 52%|█████▏    | 192785/371472 [4:16:52<15:11:15,  3.27it/s] 52%|█████▏    | 192786/371472 [4:16:53<14:47:29,  3.36it/s] 52%|█████▏    | 192787/371472 [4:16:53<14:22:18,  3.45it/s] 52%|█████▏    | 192788/371472 [4:16:53<14:56:48,  3.32it/s] 52%|█████▏    | 192789/371472 [4:16:54<14:27:52,  3.43it/s] 52%|█████▏    | 192790/371472 [4:16:54<14:22:31,  3.45it/s] 52%|█████▏    | 192791/371472 [4:16:54<14:19:27,  3.46it/s] 52%|█████▏    | 192792/371472 [4:16:55<15:08:35,  3.28it/s] 52%|█████▏    | 192793/371472 [4:16:55<15:17:57,  3.24it/s] 52%|█████▏    | 192794/371472 [4:16:55<14:46:14,  3.36it/s] 52%|█████▏    | 192795/371472 [4:16:55<15:10:04,  3.27it/s] 52%|█████▏    | 192796/371472 [4:16:56<14:10:01,  3.50it/s] 52%|█████▏    | 192797/371472 [4:16:56<13:43:51,  3.61it/s] 52%|█████▏    | 192798/371472 [4:16:56<14:22:06,  3.45it/s] 52%|█████▏    | 192799/371472 [4:16:57<14:19:41,  3.46it/s] 52%|█████▏    | 192800/371472 [4:16:57<14:37:13,  3.39it/s]                                                            {'loss': 2.9851, 'learning_rate': 5.33118576138249e-07, 'epoch': 8.3}
 52%|█████▏    | 192800/371472 [4:16:57<14:37:13,  3.39it/s] 52%|█████▏    | 192801/371472 [4:16:57<14:36:06,  3.40it/s] 52%|█████▏    | 192802/371472 [4:16:58<15:26:43,  3.21it/s] 52%|█████▏    | 192803/371472 [4:16:58<14:51:08,  3.34it/s] 52%|█████▏    | 192804/371472 [4:16:58<14:14:23,  3.49it/s] 52%|█████▏    | 192805/371472 [4:16:58<13:35:24,  3.65it/s] 52%|█████▏    | 192806/371472 [4:16:59<14:00:01,  3.54it/s] 52%|█████▏    | 192807/371472 [4:16:59<13:38:16,  3.64it/s] 52%|█████▏    | 192808/371472 [4:16:59<13:25:26,  3.70it/s] 52%|█████▏    | 192809/371472 [4:16:59<13:46:29,  3.60it/s] 52%|█████▏    | 192810/371472 [4:17:00<13:18:53,  3.73it/s] 52%|█████▏    | 192811/371472 [4:17:00<13:59:44,  3.55it/s] 52%|█████▏    | 192812/371472 [4:17:00<13:43:30,  3.62it/s] 52%|█████▏    | 192813/371472 [4:17:01<13:52:35,  3.58it/s] 52%|█████▏    | 192814/371472 [4:17:01<13:44:44,  3.61it/s] 52%|█████▏    | 192815/371472 [4:17:01<13:37:19,  3.64it/s] 52%|█████▏    | 192816/371472 [4:17:01<13:42:38,  3.62it/s] 52%|█████▏    | 192817/371472 [4:17:02<13:50:35,  3.58it/s] 52%|█████▏    | 192818/371472 [4:17:02<13:58:24,  3.55it/s] 52%|█████▏    | 192819/371472 [4:17:02<14:10:20,  3.50it/s] 52%|█████▏    | 192820/371472 [4:17:03<15:11:30,  3.27it/s]                                                            {'loss': 2.9463, 'learning_rate': 5.330700941627702e-07, 'epoch': 8.31}
 52%|█████▏    | 192820/371472 [4:17:03<15:11:30,  3.27it/s] 52%|█████▏    | 192821/371472 [4:17:03<15:44:07,  3.15it/s] 52%|█████▏    | 192822/371472 [4:17:03<15:31:09,  3.20it/s] 52%|█████▏    | 192823/371472 [4:17:03<15:08:20,  3.28it/s] 52%|█████▏    | 192824/371472 [4:17:04<14:49:09,  3.35it/s] 52%|█████▏    | 192825/371472 [4:17:04<15:24:55,  3.22it/s] 52%|█████▏    | 192826/371472 [4:17:04<14:53:05,  3.33it/s] 52%|█████▏    | 192827/371472 [4:17:05<15:54:17,  3.12it/s] 52%|█████▏    | 192828/371472 [4:17:05<15:42:19,  3.16it/s] 52%|█████▏    | 192829/371472 [4:17:05<15:08:09,  3.28it/s] 52%|█████▏    | 192830/371472 [4:17:06<14:55:41,  3.32it/s] 52%|█████▏    | 192831/371472 [4:17:06<14:26:22,  3.44it/s] 52%|█████▏    | 192832/371472 [4:17:06<14:06:21,  3.52it/s] 52%|█████▏    | 192833/371472 [4:17:06<13:52:49,  3.57it/s] 52%|█████▏    | 192834/371472 [4:17:07<14:03:34,  3.53it/s] 52%|█████▏    | 192835/371472 [4:17:07<13:50:18,  3.59it/s] 52%|█████▏    | 192836/371472 [4:17:07<13:16:51,  3.74it/s] 52%|█████▏    | 192837/371472 [4:17:08<13:32:14,  3.67it/s] 52%|█████▏    | 192838/371472 [4:17:08<13:53:18,  3.57it/s] 52%|█████▏    | 192839/371472 [4:17:08<13:57:28,  3.55it/s] 52%|█████▏    | 192840/371472 [4:17:08<14:10:09,  3.50it/s]                                                            {'loss': 3.0122, 'learning_rate': 5.330216121872912e-07, 'epoch': 8.31}
 52%|█████▏    | 192840/371472 [4:17:08<14:10:09,  3.50it/s] 52%|█████▏    | 192841/371472 [4:17:09<14:27:20,  3.43it/s] 52%|█████▏    | 192842/371472 [4:17:09<14:09:15,  3.51it/s] 52%|█████▏    | 192843/371472 [4:17:09<13:45:28,  3.61it/s] 52%|█████▏    | 192844/371472 [4:17:09<13:18:46,  3.73it/s] 52%|█████▏    | 192845/371472 [4:17:10<14:21:35,  3.46it/s] 52%|█████▏    | 192846/371472 [4:17:10<14:18:51,  3.47it/s] 52%|█████▏    | 192847/371472 [4:17:10<13:57:33,  3.55it/s] 52%|█████▏    | 192848/371472 [4:17:11<13:30:56,  3.67it/s] 52%|█████▏    | 192849/371472 [4:17:11<14:10:54,  3.50it/s] 52%|█████▏    | 192850/371472 [4:17:11<13:56:50,  3.56it/s] 52%|█████▏    | 192851/371472 [4:17:12<14:16:39,  3.48it/s] 52%|█████▏    | 192852/371472 [4:17:12<14:47:56,  3.35it/s] 52%|█████▏    | 192853/371472 [4:17:12<14:15:07,  3.48it/s] 52%|█████▏    | 192854/371472 [4:17:12<14:05:49,  3.52it/s] 52%|█████▏    | 192855/371472 [4:17:13<13:53:53,  3.57it/s] 52%|█████▏    | 192856/371472 [4:17:13<13:58:30,  3.55it/s] 52%|█████▏    | 192857/371472 [4:17:13<14:12:43,  3.49it/s] 52%|█████▏    | 192858/371472 [4:17:14<14:21:34,  3.46it/s] 52%|█████▏    | 192859/371472 [4:17:14<15:08:34,  3.28it/s] 52%|█████▏    | 192860/371472 [4:17:14<14:44:39,  3.36it/s]                                                            {'loss': 2.9543, 'learning_rate': 5.329731302118124e-07, 'epoch': 8.31}
 52%|█████▏    | 192860/371472 [4:17:14<14:44:39,  3.36it/s] 52%|█████▏    | 192861/371472 [4:17:14<14:13:47,  3.49it/s] 52%|█████▏    | 192862/371472 [4:17:15<13:39:59,  3.63it/s] 52%|█████▏    | 192863/371472 [4:17:15<13:42:41,  3.62it/s] 52%|█████▏    | 192864/371472 [4:17:15<13:21:12,  3.72it/s] 52%|█████▏    | 192865/371472 [4:17:15<13:14:14,  3.75it/s] 52%|█████▏    | 192866/371472 [4:17:16<13:55:40,  3.56it/s] 52%|█████▏    | 192867/371472 [4:17:16<14:43:45,  3.37it/s] 52%|█████▏    | 192868/371472 [4:17:16<14:18:15,  3.47it/s] 52%|█████▏    | 192869/371472 [4:17:17<14:53:42,  3.33it/s] 52%|█████▏    | 192870/371472 [4:17:17<15:20:43,  3.23it/s] 52%|█████▏    | 192871/371472 [4:17:17<14:27:37,  3.43it/s] 52%|█████▏    | 192872/371472 [4:17:18<14:19:07,  3.46it/s] 52%|█████▏    | 192873/371472 [4:17:18<14:42:44,  3.37it/s] 52%|█████▏    | 192874/371472 [4:17:18<14:34:38,  3.40it/s] 52%|█████▏    | 192875/371472 [4:17:18<13:56:33,  3.56it/s] 52%|█████▏    | 192876/371472 [4:17:19<13:34:07,  3.66it/s] 52%|█████▏    | 192877/371472 [4:17:19<13:57:48,  3.55it/s] 52%|█████▏    | 192878/371472 [4:17:19<14:04:48,  3.52it/s] 52%|█████▏    | 192879/371472 [4:17:20<15:55:32,  3.12it/s] 52%|█████▏    | 192880/371472 [4:17:20<15:03:04,  3.30it/s]                                                            {'loss': 2.8175, 'learning_rate': 5.329246482363335e-07, 'epoch': 8.31}
 52%|█████▏    | 192880/371472 [4:17:20<15:03:04,  3.30it/s] 52%|█████▏    | 192881/371472 [4:17:20<16:02:08,  3.09it/s] 52%|█████▏    | 192882/371472 [4:17:21<15:07:19,  3.28it/s] 52%|█████▏    | 192883/371472 [4:17:21<14:15:39,  3.48it/s] 52%|█████▏    | 192884/371472 [4:17:21<13:51:36,  3.58it/s] 52%|█████▏    | 192885/371472 [4:17:21<13:31:44,  3.67it/s] 52%|█████▏    | 192886/371472 [4:17:22<13:24:06,  3.70it/s] 52%|█████▏    | 192887/371472 [4:17:22<13:40:34,  3.63it/s] 52%|█████▏    | 192888/371472 [4:17:22<13:22:43,  3.71it/s] 52%|█████▏    | 192889/371472 [4:17:22<14:11:10,  3.50it/s] 52%|█████▏    | 192890/371472 [4:17:23<14:17:05,  3.47it/s] 52%|█████▏    | 192891/371472 [4:17:23<15:36:56,  3.18it/s] 52%|█████▏    | 192892/371472 [4:17:23<15:21:56,  3.23it/s] 52%|█████▏    | 192893/371472 [4:17:24<14:32:24,  3.41it/s] 52%|█████▏    | 192894/371472 [4:17:24<14:12:29,  3.49it/s] 52%|█████▏    | 192895/371472 [4:17:24<14:21:32,  3.45it/s] 52%|█████▏    | 192896/371472 [4:17:25<14:01:11,  3.54it/s] 52%|█████▏    | 192897/371472 [4:17:25<13:48:04,  3.59it/s] 52%|█████▏    | 192898/371472 [4:17:25<13:39:54,  3.63it/s] 52%|█████▏    | 192899/371472 [4:17:25<13:16:06,  3.74it/s] 52%|█████▏    | 192900/371472 [4:17:26<13:17:08,  3.73it/s]                                                            {'loss': 2.9772, 'learning_rate': 5.328761662608545e-07, 'epoch': 8.31}
 52%|█████▏    | 192900/371472 [4:17:26<13:17:08,  3.73it/s] 52%|█████▏    | 192901/371472 [4:17:26<14:20:21,  3.46it/s] 52%|█████▏    | 192902/371472 [4:17:26<13:50:13,  3.58it/s] 52%|█████▏    | 192903/371472 [4:17:26<14:01:07,  3.54it/s] 52%|█████▏    | 192904/371472 [4:17:27<14:18:41,  3.47it/s] 52%|█████▏    | 192905/371472 [4:17:27<13:46:22,  3.60it/s] 52%|█████▏    | 192906/371472 [4:17:27<13:20:43,  3.72it/s] 52%|█████▏    | 192907/371472 [4:17:28<13:20:38,  3.72it/s] 52%|█████▏    | 192908/371472 [4:17:28<14:26:17,  3.44it/s] 52%|█████▏    | 192909/371472 [4:17:28<13:51:35,  3.58it/s] 52%|█████▏    | 192910/371472 [4:17:28<13:42:02,  3.62it/s] 52%|█████▏    | 192911/371472 [4:17:29<13:26:22,  3.69it/s] 52%|█████▏    | 192912/371472 [4:17:29<13:02:42,  3.80it/s] 52%|█████▏    | 192913/371472 [4:17:29<12:42:48,  3.90it/s] 52%|█████▏    | 192914/371472 [4:17:29<12:41:45,  3.91it/s] 52%|█████▏    | 192915/371472 [4:17:30<12:43:09,  3.90it/s] 52%|█████▏    | 192916/371472 [4:17:30<12:36:44,  3.93it/s] 52%|█████▏    | 192917/371472 [4:17:30<12:54:46,  3.84it/s] 52%|█████▏    | 192918/371472 [4:17:30<12:50:17,  3.86it/s] 52%|█████▏    | 192919/371472 [4:17:31<13:51:05,  3.58it/s] 52%|█████▏    | 192920/371472 [4:17:31<13:37:51,  3.64it/s]                                                            {'loss': 2.9728, 'learning_rate': 5.328276842853756e-07, 'epoch': 8.31}
 52%|█████▏    | 192920/371472 [4:17:31<13:37:51,  3.64it/s] 52%|█████▏    | 192921/371472 [4:17:31<13:44:41,  3.61it/s] 52%|█████▏    | 192922/371472 [4:17:32<13:29:34,  3.68it/s] 52%|█████▏    | 192923/371472 [4:17:32<14:38:54,  3.39it/s] 52%|█████▏    | 192924/371472 [4:17:32<14:10:18,  3.50it/s] 52%|█████▏    | 192925/371472 [4:17:32<14:01:53,  3.53it/s] 52%|█████▏    | 192926/371472 [4:17:33<13:47:31,  3.60it/s] 52%|█████▏    | 192927/371472 [4:17:33<13:40:41,  3.63it/s] 52%|█████▏    | 192928/371472 [4:17:33<14:23:51,  3.44it/s] 52%|█████▏    | 192929/371472 [4:17:34<14:31:01,  3.42it/s] 52%|█████▏    | 192930/371472 [4:17:34<14:00:13,  3.54it/s] 52%|█████▏    | 192931/371472 [4:17:34<13:56:56,  3.56it/s] 52%|█████▏    | 192932/371472 [4:17:34<13:50:04,  3.58it/s] 52%|█████▏    | 192933/371472 [4:17:35<13:40:40,  3.63it/s] 52%|█████▏    | 192934/371472 [4:17:35<13:36:43,  3.64it/s] 52%|█████▏    | 192935/371472 [4:17:35<13:26:09,  3.69it/s] 52%|█████▏    | 192936/371472 [4:17:35<13:18:15,  3.73it/s] 52%|█████▏    | 192937/371472 [4:17:36<13:33:45,  3.66it/s] 52%|█████▏    | 192938/371472 [4:17:36<13:21:35,  3.71it/s] 52%|█████▏    | 192939/371472 [4:17:36<13:27:59,  3.68it/s] 52%|█████▏    | 192940/371472 [4:17:37<13:35:43,  3.65it/s]                                                            {'loss': 2.837, 'learning_rate': 5.327792023098968e-07, 'epoch': 8.31}
 52%|█████▏    | 192940/371472 [4:17:37<13:35:43,  3.65it/s] 52%|█████▏    | 192941/371472 [4:17:37<13:58:27,  3.55it/s] 52%|█████▏    | 192942/371472 [4:17:37<13:40:02,  3.63it/s] 52%|█████▏    | 192943/371472 [4:17:37<14:05:42,  3.52it/s] 52%|█████▏    | 192944/371472 [4:17:38<13:50:03,  3.58it/s] 52%|█████▏    | 192945/371472 [4:17:38<14:03:48,  3.53it/s] 52%|█████▏    | 192946/371472 [4:17:38<13:54:46,  3.56it/s] 52%|█████▏    | 192947/371472 [4:17:39<14:26:20,  3.43it/s] 52%|█████▏    | 192948/371472 [4:17:39<15:16:23,  3.25it/s] 52%|█████▏    | 192949/371472 [4:17:39<14:42:53,  3.37it/s] 52%|█████▏    | 192950/371472 [4:17:40<15:18:06,  3.24it/s] 52%|█████▏    | 192951/371472 [4:17:40<15:46:42,  3.14it/s] 52%|█████▏    | 192952/371472 [4:17:40<15:38:16,  3.17it/s] 52%|█████▏    | 192953/371472 [4:17:40<15:22:03,  3.23it/s] 52%|█████▏    | 192954/371472 [4:17:41<15:04:07,  3.29it/s] 52%|█████▏    | 192955/371472 [4:17:41<14:25:22,  3.44it/s] 52%|█████▏    | 192956/371472 [4:17:41<13:50:28,  3.58it/s] 52%|█████▏    | 192957/371472 [4:17:42<13:36:30,  3.64it/s] 52%|█████▏    | 192958/371472 [4:17:42<13:18:08,  3.73it/s] 52%|█████▏    | 192959/371472 [4:17:42<13:18:26,  3.73it/s] 52%|█████▏    | 192960/371472 [4:17:42<13:16:13,  3.74it/s]                                                            {'loss': 2.8658, 'learning_rate': 5.327307203344179e-07, 'epoch': 8.31}
 52%|█████▏    | 192960/371472 [4:17:42<13:16:13,  3.74it/s] 52%|█████▏    | 192961/371472 [4:17:43<13:56:11,  3.56it/s] 52%|█████▏    | 192962/371472 [4:17:43<13:45:19,  3.60it/s] 52%|█████▏    | 192963/371472 [4:17:43<13:29:53,  3.67it/s] 52%|█████▏    | 192964/371472 [4:17:44<14:17:15,  3.47it/s] 52%|█████▏    | 192965/371472 [4:17:44<13:53:03,  3.57it/s] 52%|█████▏    | 192966/371472 [4:17:44<13:36:45,  3.64it/s] 52%|█████▏    | 192967/371472 [4:17:44<13:48:48,  3.59it/s] 52%|█████▏    | 192968/371472 [4:17:45<13:30:20,  3.67it/s] 52%|█████▏    | 192969/371472 [4:17:45<13:41:40,  3.62it/s] 52%|█████▏    | 192970/371472 [4:17:45<13:26:33,  3.69it/s] 52%|█████▏    | 192971/371472 [4:17:45<13:30:41,  3.67it/s] 52%|█████▏    | 192972/371472 [4:17:46<15:52:30,  3.12it/s] 52%|█████▏    | 192973/371472 [4:17:46<15:27:39,  3.21it/s] 52%|█████▏    | 192974/371472 [4:17:46<15:26:40,  3.21it/s] 52%|█████▏    | 192975/371472 [4:17:47<14:41:48,  3.37it/s] 52%|█████▏    | 192976/371472 [4:17:47<14:44:53,  3.36it/s] 52%|█████▏    | 192977/371472 [4:17:47<14:24:31,  3.44it/s] 52%|█████▏    | 192978/371472 [4:17:48<14:15:34,  3.48it/s] 52%|█████▏    | 192979/371472 [4:17:48<14:25:19,  3.44it/s] 52%|█████▏    | 192980/371472 [4:17:48<14:17:58,  3.47it/s]                                                            {'loss': 2.9822, 'learning_rate': 5.32682238358939e-07, 'epoch': 8.31}
 52%|█████▏    | 192980/371472 [4:17:48<14:17:58,  3.47it/s] 52%|█████▏    | 192981/371472 [4:17:49<15:26:42,  3.21it/s] 52%|█████▏    | 192982/371472 [4:17:49<20:06:43,  2.47it/s] 52%|█████▏    | 192983/371472 [4:17:49<18:14:44,  2.72it/s] 52%|█████▏    | 192984/371472 [4:17:50<16:38:25,  2.98it/s] 52%|█████▏    | 192985/371472 [4:17:50<16:03:57,  3.09it/s] 52%|█████▏    | 192986/371472 [4:17:50<15:23:57,  3.22it/s] 52%|█████▏    | 192987/371472 [4:17:51<14:40:31,  3.38it/s] 52%|█████▏    | 192988/371472 [4:17:51<15:12:32,  3.26it/s] 52%|█████▏    | 192989/371472 [4:17:51<14:55:42,  3.32it/s] 52%|█████▏    | 192990/371472 [4:17:51<14:14:31,  3.48it/s] 52%|█████▏    | 192991/371472 [4:17:52<13:48:40,  3.59it/s] 52%|█████▏    | 192992/371472 [4:17:52<13:44:19,  3.61it/s] 52%|█████▏    | 192993/371472 [4:17:52<13:51:29,  3.58it/s] 52%|█████▏    | 192994/371472 [4:17:53<14:21:37,  3.45it/s] 52%|█████▏    | 192995/371472 [4:17:53<14:17:11,  3.47it/s] 52%|█████▏    | 192996/371472 [4:17:53<14:58:47,  3.31it/s] 52%|█████▏    | 192997/371472 [4:17:53<15:06:47,  3.28it/s] 52%|█████▏    | 192998/371472 [4:17:54<15:06:53,  3.28it/s] 52%|█████▏    | 192999/371472 [4:17:54<14:22:03,  3.45it/s] 52%|█████▏    | 193000/371472 [4:17:54<14:20:58,  3.45it/s]                                                            {'loss': 2.9916, 'learning_rate': 5.326337563834601e-07, 'epoch': 8.31}
 52%|█████▏    | 193000/371472 [4:17:54<14:20:58,  3.45it/s] 52%|█████▏    | 193001/371472 [4:17:55<14:14:29,  3.48it/s] 52%|█████▏    | 193002/371472 [4:17:55<13:46:45,  3.60it/s] 52%|█████▏    | 193003/371472 [4:17:55<13:42:26,  3.62it/s] 52%|█████▏    | 193004/371472 [4:17:55<13:26:10,  3.69it/s] 52%|█████▏    | 193005/371472 [4:17:56<13:57:50,  3.55it/s] 52%|█████▏    | 193006/371472 [4:17:56<13:56:11,  3.56it/s] 52%|█████▏    | 193007/371472 [4:17:56<14:21:40,  3.45it/s] 52%|█████▏    | 193008/371472 [4:17:57<13:53:04,  3.57it/s] 52%|█████▏    | 193009/371472 [4:17:57<14:01:10,  3.54it/s] 52%|█████▏    | 193010/371472 [4:17:57<14:36:01,  3.40it/s] 52%|█████▏    | 193011/371472 [4:17:57<14:26:02,  3.43it/s] 52%|█████▏    | 193012/371472 [4:17:58<14:42:07,  3.37it/s] 52%|█████▏    | 193013/371472 [4:17:58<14:34:37,  3.40it/s] 52%|█████▏    | 193014/371472 [4:17:58<14:04:38,  3.52it/s] 52%|█████▏    | 193015/371472 [4:17:59<13:48:33,  3.59it/s] 52%|█████▏    | 193016/371472 [4:17:59<15:02:52,  3.29it/s] 52%|█████▏    | 193017/371472 [4:17:59<14:25:51,  3.44it/s] 52%|█████▏    | 193018/371472 [4:17:59<15:10:07,  3.27it/s] 52%|█████▏    | 193019/371472 [4:18:00<15:19:50,  3.23it/s] 52%|█████▏    | 193020/371472 [4:18:00<14:33:15,  3.41it/s]                                                            {'loss': 2.959, 'learning_rate': 5.325852744079812e-07, 'epoch': 8.31}
 52%|█████▏    | 193020/371472 [4:18:00<14:33:15,  3.41it/s] 52%|█████▏    | 193021/371472 [4:18:00<14:04:43,  3.52it/s] 52%|█████▏    | 193022/371472 [4:18:01<14:06:15,  3.51it/s] 52%|█████▏    | 193023/371472 [4:18:01<14:16:37,  3.47it/s] 52%|█████▏    | 193024/371472 [4:18:01<14:01:12,  3.54it/s] 52%|█████▏    | 193025/371472 [4:18:01<14:11:25,  3.49it/s] 52%|█████▏    | 193026/371472 [4:18:02<14:09:37,  3.50it/s] 52%|█████▏    | 193027/371472 [4:18:02<14:51:57,  3.33it/s] 52%|█████▏    | 193028/371472 [4:18:02<14:17:05,  3.47it/s] 52%|█████▏    | 193029/371472 [4:18:03<14:32:52,  3.41it/s] 52%|█████▏    | 193030/371472 [4:18:03<14:39:37,  3.38it/s] 52%|█████▏    | 193031/371472 [4:18:03<14:12:02,  3.49it/s] 52%|█████▏    | 193032/371472 [4:18:04<14:05:02,  3.52it/s] 52%|█████▏    | 193033/371472 [4:18:04<14:07:03,  3.51it/s] 52%|█████▏    | 193034/371472 [4:18:04<13:44:49,  3.61it/s] 52%|█████▏    | 193035/371472 [4:18:04<13:36:50,  3.64it/s] 52%|█████▏    | 193036/371472 [4:18:05<13:18:55,  3.72it/s] 52%|█████▏    | 193037/371472 [4:18:05<13:15:00,  3.74it/s] 52%|█████▏    | 193038/371472 [4:18:05<13:14:52,  3.74it/s] 52%|█████▏    | 193039/371472 [4:18:05<13:29:59,  3.67it/s] 52%|█████▏    | 193040/371472 [4:18:06<14:04:19,  3.52it/s]                                                            {'loss': 2.9726, 'learning_rate': 5.325367924325023e-07, 'epoch': 8.31}
 52%|█████▏    | 193040/371472 [4:18:06<14:04:19,  3.52it/s] 52%|█████▏    | 193041/371472 [4:18:06<13:39:17,  3.63it/s] 52%|█████▏    | 193042/371472 [4:18:06<14:09:03,  3.50it/s] 52%|█████▏    | 193043/371472 [4:18:07<13:54:19,  3.56it/s] 52%|█████▏    | 193044/371472 [4:18:07<14:15:40,  3.48it/s] 52%|█████▏    | 193045/371472 [4:18:07<13:57:38,  3.55it/s] 52%|█████▏    | 193046/371472 [4:18:07<13:43:14,  3.61it/s] 52%|█████▏    | 193047/371472 [4:18:08<13:52:41,  3.57it/s] 52%|█████▏    | 193048/371472 [4:18:08<14:21:26,  3.45it/s] 52%|█████▏    | 193049/371472 [4:18:08<13:46:20,  3.60it/s] 52%|█████▏    | 193050/371472 [4:18:09<14:22:46,  3.45it/s] 52%|█████▏    | 193051/371472 [4:18:09<13:40:20,  3.62it/s] 52%|█████▏    | 193052/371472 [4:18:09<14:28:46,  3.42it/s] 52%|█████▏    | 193053/371472 [4:18:09<14:15:49,  3.47it/s] 52%|█████▏    | 193054/371472 [4:18:10<13:37:46,  3.64it/s] 52%|█████▏    | 193055/371472 [4:18:10<13:22:37,  3.70it/s] 52%|█████▏    | 193056/371472 [4:18:10<14:04:32,  3.52it/s] 52%|█████▏    | 193057/371472 [4:18:10<13:49:27,  3.58it/s] 52%|█████▏    | 193058/371472 [4:18:11<13:51:57,  3.57it/s] 52%|█████▏    | 193059/371472 [4:18:11<14:47:02,  3.35it/s] 52%|█████▏    | 193060/371472 [4:18:11<15:57:24,  3.11it/s]                                                            {'loss': 3.035, 'learning_rate': 5.324883104570233e-07, 'epoch': 8.32}
 52%|█████▏    | 193060/371472 [4:18:11<15:57:24,  3.11it/s] 52%|█████▏    | 193061/371472 [4:18:12<16:12:46,  3.06it/s] 52%|█████▏    | 193062/371472 [4:18:12<16:24:02,  3.02it/s] 52%|█████▏    | 193063/371472 [4:18:12<15:51:22,  3.13it/s] 52%|█████▏    | 193064/371472 [4:18:13<15:38:37,  3.17it/s] 52%|█████▏    | 193065/371472 [4:18:13<15:02:19,  3.30it/s] 52%|█████▏    | 193066/371472 [4:18:13<14:25:25,  3.44it/s] 52%|█████▏    | 193067/371472 [4:18:14<13:39:57,  3.63it/s] 52%|█████▏    | 193068/371472 [4:18:14<13:08:18,  3.77it/s] 52%|█████▏    | 193069/371472 [4:18:14<14:05:31,  3.52it/s] 52%|█████▏    | 193070/371472 [4:18:14<13:59:40,  3.54it/s] 52%|█████▏    | 193071/371472 [4:18:15<14:39:17,  3.38it/s] 52%|█████▏    | 193072/371472 [4:18:15<15:04:38,  3.29it/s] 52%|█████▏    | 193073/371472 [4:18:15<16:24:11,  3.02it/s] 52%|█████▏    | 193074/371472 [4:18:16<17:39:22,  2.81it/s] 52%|█████▏    | 193075/371472 [4:18:16<16:35:33,  2.99it/s] 52%|█████▏    | 193076/371472 [4:18:16<15:35:17,  3.18it/s] 52%|█████▏    | 193077/371472 [4:18:17<16:33:19,  2.99it/s] 52%|█████▏    | 193078/371472 [4:18:17<15:15:15,  3.25it/s] 52%|█████▏    | 193079/371472 [4:18:17<14:34:40,  3.40it/s] 52%|█████▏    | 193080/371472 [4:18:18<14:44:47,  3.36it/s]                                                            {'loss': 2.9997, 'learning_rate': 5.324398284815445e-07, 'epoch': 8.32}
 52%|█████▏    | 193080/371472 [4:18:18<14:44:47,  3.36it/s] 52%|█████▏    | 193081/371472 [4:18:18<14:23:14,  3.44it/s] 52%|█████▏    | 193082/371472 [4:18:18<14:18:55,  3.46it/s] 52%|█████▏    | 193083/371472 [4:18:18<14:05:31,  3.52it/s] 52%|█████▏    | 193084/371472 [4:18:19<14:16:12,  3.47it/s] 52%|█████▏    | 193085/371472 [4:18:19<15:04:43,  3.29it/s] 52%|█████▏    | 193086/371472 [4:18:19<14:32:19,  3.41it/s] 52%|█████▏    | 193087/371472 [4:18:20<14:13:30,  3.48it/s] 52%|█████▏    | 193088/371472 [4:18:20<13:59:38,  3.54it/s] 52%|█████▏    | 193089/371472 [4:18:20<13:44:56,  3.60it/s] 52%|█████▏    | 193090/371472 [4:18:20<13:47:45,  3.59it/s] 52%|█████▏    | 193091/371472 [4:18:21<13:18:47,  3.72it/s] 52%|█████▏    | 193092/371472 [4:18:21<13:10:17,  3.76it/s] 52%|█████▏    | 193093/371472 [4:18:21<13:27:34,  3.68it/s] 52%|█████▏    | 193094/371472 [4:18:21<13:33:36,  3.65it/s] 52%|█████▏    | 193095/371472 [4:18:22<14:20:14,  3.46it/s] 52%|█████▏    | 193096/371472 [4:18:22<13:44:00,  3.61it/s] 52%|█████▏    | 193097/371472 [4:18:22<13:38:05,  3.63it/s] 52%|█████▏    | 193098/371472 [4:18:23<13:26:04,  3.69it/s] 52%|█████▏    | 193099/371472 [4:18:23<13:44:31,  3.61it/s] 52%|█████▏    | 193100/371472 [4:18:23<13:28:31,  3.68it/s]                                                            {'loss': 3.0695, 'learning_rate': 5.323913465060656e-07, 'epoch': 8.32}
 52%|█████▏    | 193100/371472 [4:18:23<13:28:31,  3.68it/s] 52%|█████▏    | 193101/371472 [4:18:23<13:03:33,  3.79it/s] 52%|█████▏    | 193102/371472 [4:18:24<14:14:25,  3.48it/s] 52%|█████▏    | 193103/371472 [4:18:24<14:50:08,  3.34it/s] 52%|█████▏    | 193104/371472 [4:18:24<14:07:08,  3.51it/s] 52%|█████▏    | 193105/371472 [4:18:25<14:10:12,  3.50it/s] 52%|█████▏    | 193106/371472 [4:18:25<14:28:18,  3.42it/s] 52%|█████▏    | 193107/371472 [4:18:25<15:19:14,  3.23it/s] 52%|█████▏    | 193108/371472 [4:18:26<14:32:18,  3.41it/s] 52%|█████▏    | 193109/371472 [4:18:26<14:00:30,  3.54it/s] 52%|█████▏    | 193110/371472 [4:18:26<13:52:42,  3.57it/s] 52%|█████▏    | 193111/371472 [4:18:26<13:38:49,  3.63it/s] 52%|█████▏    | 193112/371472 [4:18:27<14:07:04,  3.51it/s] 52%|█████▏    | 193113/371472 [4:18:27<13:51:52,  3.57it/s] 52%|█████▏    | 193114/371472 [4:18:27<13:06:49,  3.78it/s] 52%|█████▏    | 193115/371472 [4:18:27<14:08:40,  3.50it/s] 52%|█████▏    | 193116/371472 [4:18:28<14:46:08,  3.35it/s] 52%|█████▏    | 193117/371472 [4:18:28<14:51:28,  3.33it/s] 52%|█████▏    | 193118/371472 [4:18:28<14:27:33,  3.43it/s] 52%|█████▏    | 193119/371472 [4:18:29<14:12:59,  3.48it/s] 52%|█████▏    | 193120/371472 [4:18:29<15:01:48,  3.30it/s]                                                            {'loss': 3.0937, 'learning_rate': 5.323428645305868e-07, 'epoch': 8.32}
 52%|█████▏    | 193120/371472 [4:18:29<15:01:48,  3.30it/s] 52%|█████▏    | 193121/371472 [4:18:29<15:03:43,  3.29it/s] 52%|█████▏    | 193122/371472 [4:18:30<15:53:42,  3.12it/s] 52%|█████▏    | 193123/371472 [4:18:30<15:31:51,  3.19it/s] 52%|█████▏    | 193124/371472 [4:18:30<14:54:52,  3.32it/s] 52%|█████▏    | 193125/371472 [4:18:30<14:01:50,  3.53it/s] 52%|█████▏    | 193126/371472 [4:18:31<15:06:16,  3.28it/s] 52%|█████▏    | 193127/371472 [4:18:31<14:19:54,  3.46it/s] 52%|█████▏    | 193128/371472 [4:18:31<14:11:12,  3.49it/s] 52%|█████▏    | 193129/371472 [4:18:32<14:58:27,  3.31it/s] 52%|█████▏    | 193130/371472 [4:18:32<15:09:55,  3.27it/s] 52%|█████▏    | 193131/371472 [4:18:32<14:20:03,  3.46it/s] 52%|█████▏    | 193132/371472 [4:18:33<13:56:27,  3.55it/s] 52%|█████▏    | 193133/371472 [4:18:33<13:55:16,  3.56it/s] 52%|█████▏    | 193134/371472 [4:18:33<14:49:04,  3.34it/s] 52%|█████▏    | 193135/371472 [4:18:34<17:07:47,  2.89it/s] 52%|█████▏    | 193136/371472 [4:18:34<16:18:33,  3.04it/s] 52%|█████▏    | 193137/371472 [4:18:34<15:18:32,  3.24it/s] 52%|█████▏    | 193138/371472 [4:18:34<14:36:13,  3.39it/s] 52%|█████▏    | 193139/371472 [4:18:35<15:10:58,  3.26it/s] 52%|█████▏    | 193140/371472 [4:18:35<14:32:40,  3.41it/s]                                                            {'loss': 2.9288, 'learning_rate': 5.322943825551078e-07, 'epoch': 8.32}
 52%|█████▏    | 193140/371472 [4:18:35<14:32:40,  3.41it/s] 52%|█████▏    | 193141/371472 [4:18:35<14:40:01,  3.38it/s] 52%|█████▏    | 193142/371472 [4:18:36<15:02:34,  3.29it/s] 52%|█████▏    | 193143/371472 [4:18:36<14:50:04,  3.34it/s] 52%|█████▏    | 193144/371472 [4:18:36<14:50:40,  3.34it/s] 52%|█████▏    | 193145/371472 [4:18:36<14:32:19,  3.41it/s] 52%|█████▏    | 193146/371472 [4:18:37<15:18:52,  3.23it/s] 52%|█████▏    | 193147/371472 [4:18:37<15:00:41,  3.30it/s] 52%|█████▏    | 193148/371472 [4:18:37<15:04:24,  3.29it/s] 52%|█████▏    | 193149/371472 [4:18:38<16:09:54,  3.06it/s] 52%|█████▏    | 193150/371472 [4:18:38<15:23:14,  3.22it/s] 52%|█████▏    | 193151/371472 [4:18:38<14:38:02,  3.38it/s] 52%|█████▏    | 193152/371472 [4:18:39<15:03:01,  3.29it/s] 52%|█████▏    | 193153/371472 [4:18:39<14:47:58,  3.35it/s] 52%|█████▏    | 193154/371472 [4:18:39<17:17:27,  2.86it/s] 52%|█████▏    | 193155/371472 [4:18:40<16:31:50,  3.00it/s] 52%|█████▏    | 193156/371472 [4:18:40<15:48:14,  3.13it/s] 52%|█████▏    | 193157/371472 [4:18:40<15:13:26,  3.25it/s] 52%|█████▏    | 193158/371472 [4:18:41<14:32:02,  3.41it/s] 52%|█████▏    | 193159/371472 [4:18:41<14:02:23,  3.53it/s] 52%|█████▏    | 193160/371472 [4:18:41<14:00:28,  3.54it/s]                                                            {'loss': 2.9367, 'learning_rate': 5.322459005796289e-07, 'epoch': 8.32}
 52%|█████▏    | 193160/371472 [4:18:41<14:00:28,  3.54it/s] 52%|█████▏    | 193161/371472 [4:18:41<13:44:20,  3.61it/s] 52%|█████▏    | 193162/371472 [4:18:42<13:39:31,  3.63it/s] 52%|█████▏    | 193163/371472 [4:18:42<13:30:22,  3.67it/s] 52%|█████▏    | 193164/371472 [4:18:42<14:09:25,  3.50it/s] 52%|█████▏    | 193165/371472 [4:18:42<14:01:28,  3.53it/s] 52%|█████▏    | 193166/371472 [4:18:43<14:27:14,  3.43it/s] 52%|█████▏    | 193167/371472 [4:18:43<14:10:17,  3.49it/s] 52%|█████▏    | 193168/371472 [4:18:43<13:56:55,  3.55it/s] 52%|█████▏    | 193169/371472 [4:18:44<14:02:24,  3.53it/s] 52%|█████▏    | 193170/371472 [4:18:44<14:11:46,  3.49it/s] 52%|█████▏    | 193171/371472 [4:18:44<15:07:11,  3.28it/s] 52%|█████▏    | 193172/371472 [4:18:45<14:21:22,  3.45it/s] 52%|█████▏    | 193173/371472 [4:18:45<14:21:13,  3.45it/s] 52%|█████▏    | 193174/371472 [4:18:45<14:01:19,  3.53it/s] 52%|█████▏    | 193175/371472 [4:18:45<13:48:44,  3.59it/s] 52%|█████▏    | 193176/371472 [4:18:46<13:30:40,  3.67it/s] 52%|█████▏    | 193177/371472 [4:18:46<13:46:25,  3.60it/s] 52%|█████▏    | 193178/371472 [4:18:46<13:30:52,  3.66it/s] 52%|█████▏    | 193179/371472 [4:18:46<13:47:43,  3.59it/s] 52%|█████▏    | 193180/371472 [4:18:47<13:53:26,  3.57it/s]                                                            {'loss': 2.9725, 'learning_rate': 5.3219741860415e-07, 'epoch': 8.32}
 52%|█████▏    | 193180/371472 [4:18:47<13:53:26,  3.57it/s] 52%|█████▏    | 193181/371472 [4:18:47<13:53:15,  3.57it/s] 52%|█████▏    | 193182/371472 [4:18:47<13:41:22,  3.62it/s] 52%|█████▏    | 193183/371472 [4:18:48<13:39:55,  3.62it/s] 52%|█████▏    | 193184/371472 [4:18:48<13:22:58,  3.70it/s] 52%|█████▏    | 193185/371472 [4:18:48<13:54:22,  3.56it/s] 52%|█████▏    | 193186/371472 [4:18:48<13:55:02,  3.56it/s] 52%|█████▏    | 193187/371472 [4:18:49<13:47:04,  3.59it/s] 52%|█████▏    | 193188/371472 [4:18:49<13:43:10,  3.61it/s] 52%|█████▏    | 193189/371472 [4:18:49<13:22:08,  3.70it/s] 52%|█████▏    | 193190/371472 [4:18:49<13:27:45,  3.68it/s] 52%|█████▏    | 193191/371472 [4:18:50<13:19:30,  3.72it/s] 52%|█████▏    | 193192/371472 [4:18:50<13:33:08,  3.65it/s] 52%|█████▏    | 193193/371472 [4:18:50<13:51:47,  3.57it/s] 52%|█████▏    | 193194/371472 [4:18:51<14:07:20,  3.51it/s] 52%|█████▏    | 193195/371472 [4:18:51<14:12:51,  3.48it/s] 52%|█████▏    | 193196/371472 [4:18:51<14:11:48,  3.49it/s] 52%|█████▏    | 193197/371472 [4:18:51<14:02:21,  3.53it/s] 52%|█████▏    | 193198/371472 [4:18:52<13:32:59,  3.65it/s] 52%|█████▏    | 193199/371472 [4:18:52<13:33:55,  3.65it/s] 52%|█████▏    | 193200/371472 [4:18:52<13:24:14,  3.69it/s]                                                            {'loss': 2.9432, 'learning_rate': 5.321489366286712e-07, 'epoch': 8.32}
 52%|█████▏    | 193200/371472 [4:18:52<13:24:14,  3.69it/s] 52%|█████▏    | 193201/371472 [4:18:53<13:48:27,  3.59it/s] 52%|█████▏    | 193202/371472 [4:18:53<14:00:04,  3.54it/s] 52%|█████▏    | 193203/371472 [4:18:53<14:00:05,  3.54it/s] 52%|█████▏    | 193204/371472 [4:18:53<14:41:31,  3.37it/s] 52%|█████▏    | 193205/371472 [4:18:54<15:08:39,  3.27it/s] 52%|█████▏    | 193206/371472 [4:18:54<14:39:37,  3.38it/s] 52%|█████▏    | 193207/371472 [4:18:54<14:26:06,  3.43it/s] 52%|█████▏    | 193208/371472 [4:18:55<14:01:24,  3.53it/s] 52%|█████▏    | 193209/371472 [4:18:55<14:01:45,  3.53it/s] 52%|█████▏    | 193210/371472 [4:18:55<13:33:37,  3.65it/s] 52%|█████▏    | 193211/371472 [4:18:55<14:02:50,  3.52it/s] 52%|█████▏    | 193212/371472 [4:18:56<13:40:52,  3.62it/s] 52%|█████▏    | 193213/371472 [4:18:56<13:42:42,  3.61it/s] 52%|█████▏    | 193214/371472 [4:18:56<13:42:21,  3.61it/s] 52%|█████▏    | 193215/371472 [4:18:57<13:17:01,  3.73it/s] 52%|█████▏    | 193216/371472 [4:18:57<13:21:25,  3.71it/s] 52%|█████▏    | 193217/371472 [4:18:57<13:09:23,  3.76it/s] 52%|█████▏    | 193218/371472 [4:18:57<13:13:49,  3.74it/s] 52%|█████▏    | 193219/371472 [4:18:58<13:40:08,  3.62it/s] 52%|█████▏    | 193220/371472 [4:18:58<13:49:02,  3.58it/s]                                                            {'loss': 3.0163, 'learning_rate': 5.321004546531922e-07, 'epoch': 8.32}
 52%|█████▏    | 193220/371472 [4:18:58<13:49:02,  3.58it/s] 52%|█████▏    | 193221/371472 [4:18:58<13:49:34,  3.58it/s] 52%|█████▏    | 193222/371472 [4:18:58<14:26:51,  3.43it/s] 52%|█████▏    | 193223/371472 [4:18:59<13:41:27,  3.62it/s] 52%|█████▏    | 193224/371472 [4:18:59<13:45:27,  3.60it/s] 52%|█████▏    | 193225/371472 [4:18:59<13:15:31,  3.73it/s] 52%|█████▏    | 193226/371472 [4:19:00<13:49:55,  3.58it/s] 52%|█████▏    | 193227/371472 [4:19:00<14:16:41,  3.47it/s] 52%|█████▏    | 193228/371472 [4:19:00<13:56:17,  3.55it/s] 52%|█████▏    | 193229/371472 [4:19:00<13:54:51,  3.56it/s] 52%|█████▏    | 193230/371472 [4:19:01<13:42:00,  3.61it/s] 52%|█████▏    | 193231/371472 [4:19:01<14:30:34,  3.41it/s] 52%|█████▏    | 193232/371472 [4:19:01<14:05:03,  3.52it/s] 52%|█████▏    | 193233/371472 [4:19:02<13:55:14,  3.56it/s] 52%|█████▏    | 193234/371472 [4:19:02<13:29:20,  3.67it/s] 52%|█████▏    | 193235/371472 [4:19:02<14:45:16,  3.36it/s] 52%|█████▏    | 193236/371472 [4:19:02<14:02:55,  3.52it/s] 52%|█████▏    | 193237/371472 [4:19:03<14:29:02,  3.42it/s] 52%|█████▏    | 193238/371472 [4:19:03<14:56:27,  3.31it/s] 52%|█████▏    | 193239/371472 [4:19:03<14:36:44,  3.39it/s] 52%|█████▏    | 193240/371472 [4:19:04<14:32:03,  3.41it/s]                                                            {'loss': 3.0222, 'learning_rate': 5.320519726777134e-07, 'epoch': 8.32}
 52%|█████▏    | 193240/371472 [4:19:04<14:32:03,  3.41it/s] 52%|█████▏    | 193241/371472 [4:19:04<14:19:24,  3.46it/s] 52%|█████▏    | 193242/371472 [4:19:04<14:15:46,  3.47it/s] 52%|█████▏    | 193243/371472 [4:19:05<15:54:15,  3.11it/s] 52%|█████▏    | 193244/371472 [4:19:05<14:57:27,  3.31it/s] 52%|█████▏    | 193245/371472 [4:19:05<14:57:31,  3.31it/s] 52%|█████▏    | 193246/371472 [4:19:05<14:26:44,  3.43it/s] 52%|█████▏    | 193247/371472 [4:19:06<14:32:43,  3.40it/s] 52%|█████▏    | 193248/371472 [4:19:06<14:18:57,  3.46it/s] 52%|█████▏    | 193249/371472 [4:19:06<13:50:49,  3.58it/s] 52%|█████▏    | 193250/371472 [4:19:06<13:32:17,  3.66it/s] 52%|█████▏    | 193251/371472 [4:19:07<14:05:07,  3.51it/s] 52%|█████▏    | 193252/371472 [4:19:07<14:50:38,  3.34it/s] 52%|█████▏    | 193253/371472 [4:19:07<15:18:11,  3.23it/s] 52%|█████▏    | 193254/371472 [4:19:08<16:19:38,  3.03it/s] 52%|█████▏    | 193255/371472 [4:19:08<15:58:36,  3.10it/s] 52%|█████▏    | 193256/371472 [4:19:08<15:02:57,  3.29it/s] 52%|█████▏    | 193257/371472 [4:19:09<15:31:25,  3.19it/s] 52%|█████▏    | 193258/371472 [4:19:09<14:41:54,  3.37it/s] 52%|█████▏    | 193259/371472 [4:19:09<15:44:20,  3.15it/s] 52%|█████▏    | 193260/371472 [4:19:10<16:13:14,  3.05it/s]                                                            {'loss': 2.8853, 'learning_rate': 5.320034907022345e-07, 'epoch': 8.32}
 52%|█████▏    | 193260/371472 [4:19:10<16:13:14,  3.05it/s] 52%|█████▏    | 193261/371472 [4:19:10<16:59:57,  2.91it/s] 52%|█████▏    | 193262/371472 [4:19:10<16:37:02,  2.98it/s] 52%|█████▏    | 193263/371472 [4:19:11<15:15:11,  3.25it/s] 52%|█████▏    | 193264/371472 [4:19:11<14:32:31,  3.40it/s] 52%|█████▏    | 193265/371472 [4:19:11<14:19:42,  3.45it/s] 52%|█████▏    | 193266/371472 [4:19:11<14:02:51,  3.52it/s] 52%|█████▏    | 193267/371472 [4:19:12<13:46:06,  3.60it/s] 52%|█████▏    | 193268/371472 [4:19:12<14:31:59,  3.41it/s] 52%|█████▏    | 193269/371472 [4:19:12<14:58:57,  3.30it/s] 52%|█████▏    | 193270/371472 [4:19:13<14:55:10,  3.32it/s] 52%|█████▏    | 193271/371472 [4:19:13<14:31:55,  3.41it/s] 52%|█████▏    | 193272/371472 [4:19:13<16:03:25,  3.08it/s] 52%|█████▏    | 193273/371472 [4:19:14<15:07:42,  3.27it/s] 52%|█████▏    | 193274/371472 [4:19:14<15:04:59,  3.28it/s] 52%|█████▏    | 193275/371472 [4:19:14<14:27:30,  3.42it/s] 52%|█████▏    | 193276/371472 [4:19:15<15:10:58,  3.26it/s] 52%|█████▏    | 193277/371472 [4:19:15<15:31:03,  3.19it/s] 52%|█████▏    | 193278/371472 [4:19:15<14:51:06,  3.33it/s] 52%|█████▏    | 193279/371472 [4:19:15<14:08:14,  3.50it/s] 52%|█████▏    | 193280/371472 [4:19:16<13:34:22,  3.65it/s]                                                            {'loss': 3.0184, 'learning_rate': 5.319550087267555e-07, 'epoch': 8.32}
 52%|█████▏    | 193280/371472 [4:19:16<13:34:22,  3.65it/s] 52%|█████▏    | 193281/371472 [4:19:16<13:38:50,  3.63it/s] 52%|█████▏    | 193282/371472 [4:19:16<13:56:30,  3.55it/s] 52%|█████▏    | 193283/371472 [4:19:16<13:51:22,  3.57it/s] 52%|█████▏    | 193284/371472 [4:19:17<14:12:09,  3.49it/s] 52%|█████▏    | 193285/371472 [4:19:17<14:21:49,  3.45it/s] 52%|█████▏    | 193286/371472 [4:19:17<13:59:00,  3.54it/s] 52%|█████▏    | 193287/371472 [4:19:18<13:52:34,  3.57it/s] 52%|█████▏    | 193288/371472 [4:19:18<13:44:43,  3.60it/s] 52%|█████▏    | 193289/371472 [4:19:18<13:29:49,  3.67it/s] 52%|█████▏    | 193290/371472 [4:19:18<13:43:19,  3.61it/s] 52%|█████▏    | 193291/371472 [4:19:19<13:06:14,  3.78it/s] 52%|█████▏    | 193292/371472 [4:19:19<13:27:20,  3.68it/s] 52%|█████▏    | 193293/371472 [4:19:19<13:28:02,  3.68it/s] 52%|█████▏    | 193294/371472 [4:19:20<13:17:14,  3.72it/s] 52%|█████▏    | 193295/371472 [4:19:20<13:23:56,  3.69it/s] 52%|█████▏    | 193296/371472 [4:19:20<13:53:04,  3.56it/s] 52%|█████▏    | 193297/371472 [4:19:20<14:37:11,  3.39it/s] 52%|█████▏    | 193298/371472 [4:19:21<14:18:57,  3.46it/s] 52%|█████▏    | 193299/371472 [4:19:21<14:51:50,  3.33it/s] 52%|█████▏    | 193300/371472 [4:19:21<15:22:32,  3.22it/s]                                                            {'loss': 3.0519, 'learning_rate': 5.319065267512766e-07, 'epoch': 8.33}
 52%|█████▏    | 193300/371472 [4:19:21<15:22:32,  3.22it/s] 52%|█████▏    | 193301/371472 [4:19:22<15:31:06,  3.19it/s] 52%|█████▏    | 193302/371472 [4:19:22<15:44:27,  3.14it/s] 52%|█████▏    | 193303/371472 [4:19:22<15:36:38,  3.17it/s] 52%|█████▏    | 193304/371472 [4:19:23<15:59:47,  3.09it/s] 52%|█████▏    | 193305/371472 [4:19:23<15:47:21,  3.13it/s] 52%|█████▏    | 193306/371472 [4:19:23<15:02:51,  3.29it/s] 52%|█████▏    | 193307/371472 [4:19:24<15:03:44,  3.29it/s] 52%|█████▏    | 193308/371472 [4:19:24<15:09:32,  3.26it/s] 52%|█████▏    | 193309/371472 [4:19:24<15:16:23,  3.24it/s] 52%|█████▏    | 193310/371472 [4:19:24<15:32:53,  3.18it/s] 52%|█████▏    | 193311/371472 [4:19:25<14:53:39,  3.32it/s] 52%|█████▏    | 193312/371472 [4:19:25<14:18:02,  3.46it/s] 52%|█████▏    | 193313/371472 [4:19:25<13:46:22,  3.59it/s] 52%|█████▏    | 193314/371472 [4:19:26<13:35:03,  3.64it/s] 52%|█████▏    | 193315/371472 [4:19:26<13:18:51,  3.72it/s] 52%|█████▏    | 193316/371472 [4:19:26<14:55:08,  3.32it/s] 52%|█████▏    | 193317/371472 [4:19:26<14:14:08,  3.48it/s] 52%|█████▏    | 193318/371472 [4:19:27<13:59:12,  3.54it/s] 52%|█████▏    | 193319/371472 [4:19:27<14:02:40,  3.52it/s] 52%|█████▏    | 193320/371472 [4:19:27<14:20:45,  3.45it/s]                                                            {'loss': 2.8878, 'learning_rate': 5.318580447757978e-07, 'epoch': 8.33}
 52%|█████▏    | 193320/371472 [4:19:27<14:20:45,  3.45it/s] 52%|█████▏    | 193321/371472 [4:19:28<14:10:13,  3.49it/s] 52%|█████▏    | 193322/371472 [4:19:28<13:51:06,  3.57it/s] 52%|█████▏    | 193323/371472 [4:19:28<14:19:19,  3.46it/s] 52%|█████▏    | 193324/371472 [4:19:28<13:37:09,  3.63it/s] 52%|█████▏    | 193325/371472 [4:19:29<14:03:19,  3.52it/s] 52%|█████▏    | 193326/371472 [4:19:29<14:59:27,  3.30it/s] 52%|█████▏    | 193327/371472 [4:19:29<15:58:13,  3.10it/s] 52%|█████▏    | 193328/371472 [4:19:30<15:01:39,  3.29it/s] 52%|█████▏    | 193329/371472 [4:19:30<14:48:04,  3.34it/s] 52%|█████▏    | 193330/371472 [4:19:30<15:00:46,  3.30it/s] 52%|█████▏    | 193331/371472 [4:19:31<16:10:59,  3.06it/s] 52%|█████▏    | 193332/371472 [4:19:31<15:06:15,  3.28it/s] 52%|█████▏    | 193333/371472 [4:19:31<15:05:31,  3.28it/s] 52%|█████▏    | 193334/371472 [4:19:32<15:50:03,  3.13it/s] 52%|█████▏    | 193335/371472 [4:19:32<16:02:40,  3.08it/s] 52%|█████▏    | 193336/371472 [4:19:32<16:08:24,  3.07it/s] 52%|█████▏    | 193337/371472 [4:19:32<15:05:13,  3.28it/s] 52%|█████▏    | 193338/371472 [4:19:33<14:58:34,  3.30it/s] 52%|█████▏    | 193339/371472 [4:19:33<15:37:18,  3.17it/s] 52%|█████▏    | 193340/371472 [4:19:33<14:50:44,  3.33it/s]                                                            {'loss': 2.9017, 'learning_rate': 5.318095628003189e-07, 'epoch': 8.33}
 52%|█████▏    | 193340/371472 [4:19:33<14:50:44,  3.33it/s] 52%|█████▏    | 193341/371472 [4:19:34<14:21:47,  3.44it/s] 52%|█████▏    | 193342/371472 [4:19:34<13:52:53,  3.56it/s] 52%|█████▏    | 193343/371472 [4:19:34<14:28:27,  3.42it/s] 52%|█████▏    | 193344/371472 [4:19:35<14:31:15,  3.41it/s] 52%|█████▏    | 193345/371472 [4:19:35<13:55:07,  3.55it/s] 52%|█████▏    | 193346/371472 [4:19:35<13:58:23,  3.54it/s] 52%|█████▏    | 193347/371472 [4:19:35<13:24:43,  3.69it/s] 52%|█████▏    | 193348/371472 [4:19:36<13:20:04,  3.71it/s] 52%|█████▏    | 193349/371472 [4:19:36<13:09:59,  3.76it/s] 52%|█████▏    | 193350/371472 [4:19:36<14:16:49,  3.46it/s] 52%|█████▏    | 193351/371472 [4:19:36<14:14:19,  3.47it/s] 52%|█████▏    | 193352/371472 [4:19:37<14:11:32,  3.49it/s] 52%|█████▏    | 193353/371472 [4:19:37<14:02:45,  3.52it/s] 52%|█████▏    | 193354/371472 [4:19:37<14:12:13,  3.48it/s] 52%|█████▏    | 193355/371472 [4:19:38<14:33:21,  3.40it/s] 52%|█████▏    | 193356/371472 [4:19:38<14:15:52,  3.47it/s] 52%|█████▏    | 193357/371472 [4:19:38<15:12:11,  3.25it/s] 52%|█████▏    | 193358/371472 [4:19:39<14:17:30,  3.46it/s] 52%|█████▏    | 193359/371472 [4:19:39<13:56:28,  3.55it/s] 52%|█████▏    | 193360/371472 [4:19:39<14:07:36,  3.50it/s]                                                            {'loss': 2.952, 'learning_rate': 5.3176108082484e-07, 'epoch': 8.33}
 52%|█████▏    | 193360/371472 [4:19:39<14:07:36,  3.50it/s] 52%|█████▏    | 193361/371472 [4:19:39<13:34:37,  3.64it/s] 52%|█████▏    | 193362/371472 [4:19:40<13:32:01,  3.66it/s] 52%|█████▏    | 193363/371472 [4:19:40<13:13:27,  3.74it/s] 52%|█████▏    | 193364/371472 [4:19:40<13:30:43,  3.66it/s] 52%|█████▏    | 193365/371472 [4:19:40<13:32:16,  3.65it/s] 52%|█████▏    | 193366/371472 [4:19:41<13:29:04,  3.67it/s] 52%|█████▏    | 193367/371472 [4:19:41<13:52:15,  3.57it/s] 52%|█████▏    | 193368/371472 [4:19:41<13:48:04,  3.58it/s] 52%|█████▏    | 193369/371472 [4:19:42<13:32:57,  3.65it/s] 52%|█████▏    | 193370/371472 [4:19:42<13:39:36,  3.62it/s] 52%|█████▏    | 193371/371472 [4:19:42<14:03:31,  3.52it/s] 52%|█████▏    | 193372/371472 [4:19:42<13:28:09,  3.67it/s] 52%|█████▏    | 193373/371472 [4:19:43<13:40:17,  3.62it/s] 52%|█████▏    | 193374/371472 [4:19:43<13:22:47,  3.70it/s] 52%|█████▏    | 193375/371472 [4:19:43<13:10:20,  3.76it/s] 52%|█████▏    | 193376/371472 [4:19:43<12:58:27,  3.81it/s] 52%|█████▏    | 193377/371472 [4:19:44<13:15:09,  3.73it/s] 52%|█████▏    | 193378/371472 [4:19:44<13:40:54,  3.62it/s] 52%|█████▏    | 193379/371472 [4:19:44<13:30:48,  3.66it/s] 52%|█████▏    | 193380/371472 [4:19:45<14:06:09,  3.51it/s]                                                            {'loss': 3.0013, 'learning_rate': 5.317125988493611e-07, 'epoch': 8.33}
 52%|█████▏    | 193380/371472 [4:19:45<14:06:09,  3.51it/s] 52%|█████▏    | 193381/371472 [4:19:45<14:04:36,  3.51it/s] 52%|█████▏    | 193382/371472 [4:19:45<13:37:48,  3.63it/s] 52%|█████▏    | 193383/371472 [4:19:45<13:38:09,  3.63it/s] 52%|█████▏    | 193384/371472 [4:19:46<13:39:28,  3.62it/s] 52%|█████▏    | 193385/371472 [4:19:46<14:04:43,  3.51it/s] 52%|█████▏    | 193386/371472 [4:19:46<14:09:26,  3.49it/s] 52%|█████▏    | 193387/371472 [4:19:47<14:02:44,  3.52it/s] 52%|█████▏    | 193388/371472 [4:19:47<14:56:24,  3.31it/s] 52%|█████▏    | 193389/371472 [4:19:47<15:01:33,  3.29it/s] 52%|█████▏    | 193390/371472 [4:19:47<14:29:06,  3.42it/s] 52%|█████▏    | 193391/371472 [4:19:48<13:59:14,  3.54it/s] 52%|█████▏    | 193392/371472 [4:19:48<14:00:19,  3.53it/s] 52%|█████▏    | 193393/371472 [4:19:48<14:01:38,  3.53it/s] 52%|█████▏    | 193394/371472 [4:19:49<13:53:36,  3.56it/s] 52%|█████▏    | 193395/371472 [4:19:49<13:45:48,  3.59it/s] 52%|█████▏    | 193396/371472 [4:19:49<14:20:51,  3.45it/s] 52%|█████▏    | 193397/371472 [4:19:49<14:02:38,  3.52it/s] 52%|█████▏    | 193398/371472 [4:19:50<13:48:42,  3.58it/s] 52%|█████▏    | 193399/371472 [4:19:50<15:12:03,  3.25it/s] 52%|█████▏    | 193400/371472 [4:19:50<14:34:42,  3.39it/s]                                                            {'loss': 2.9393, 'learning_rate': 5.316641168738821e-07, 'epoch': 8.33}
 52%|█████▏    | 193400/371472 [4:19:50<14:34:42,  3.39it/s] 52%|█████▏    | 193401/371472 [4:19:51<14:57:00,  3.31it/s] 52%|█████▏    | 193402/371472 [4:19:51<14:34:51,  3.39it/s] 52%|█████▏    | 193403/371472 [4:19:51<14:35:30,  3.39it/s] 52%|█████▏    | 193404/371472 [4:19:51<14:19:43,  3.45it/s] 52%|█████▏    | 193405/371472 [4:19:52<13:38:13,  3.63it/s] 52%|█████▏    | 193406/371472 [4:19:52<13:24:43,  3.69it/s] 52%|█████▏    | 193407/371472 [4:19:52<13:24:45,  3.69it/s] 52%|█████▏    | 193408/371472 [4:19:53<13:57:48,  3.54it/s] 52%|█████▏    | 193409/371472 [4:19:53<14:48:32,  3.34it/s] 52%|█████▏    | 193410/371472 [4:19:53<15:22:47,  3.22it/s] 52%|█████▏    | 193411/371472 [4:19:54<15:13:20,  3.25it/s] 52%|█████▏    | 193412/371472 [4:19:54<14:52:07,  3.33it/s] 52%|█████▏    | 193413/371472 [4:19:54<15:12:35,  3.25it/s] 52%|█████▏    | 193414/371472 [4:19:54<14:32:00,  3.40it/s] 52%|█████▏    | 193415/371472 [4:19:55<14:15:34,  3.47it/s] 52%|█████▏    | 193416/371472 [4:19:55<14:06:49,  3.50it/s] 52%|█████▏    | 193417/371472 [4:19:55<15:45:14,  3.14it/s] 52%|█████▏    | 193418/371472 [4:19:56<15:03:21,  3.29it/s] 52%|█████▏    | 193419/371472 [4:19:56<14:31:49,  3.40it/s] 52%|█████▏    | 193420/371472 [4:19:56<14:58:06,  3.30it/s]                                                            {'loss': 2.8317, 'learning_rate': 5.316156348984033e-07, 'epoch': 8.33}
 52%|█████▏    | 193420/371472 [4:19:56<14:58:06,  3.30it/s] 52%|█████▏    | 193421/371472 [4:19:56<14:50:02,  3.33it/s] 52%|█████▏    | 193422/371472 [4:19:57<15:52:30,  3.12it/s] 52%|█████▏    | 193423/371472 [4:19:57<15:25:33,  3.21it/s] 52%|█████▏    | 193424/371472 [4:19:57<14:24:57,  3.43it/s] 52%|█████▏    | 193425/371472 [4:19:58<15:00:44,  3.29it/s] 52%|█████▏    | 193426/371472 [4:19:58<14:11:52,  3.48it/s] 52%|█████▏    | 193427/371472 [4:19:58<14:21:21,  3.45it/s] 52%|█████▏    | 193428/371472 [4:19:59<14:31:48,  3.40it/s] 52%|█████▏    | 193429/371472 [4:19:59<14:17:43,  3.46it/s] 52%|█████▏    | 193430/371472 [4:19:59<14:43:22,  3.36it/s] 52%|█████▏    | 193431/371472 [4:19:59<14:28:47,  3.42it/s] 52%|█████▏    | 193432/371472 [4:20:00<14:06:42,  3.50it/s] 52%|█████▏    | 193433/371472 [4:20:00<14:06:41,  3.50it/s] 52%|█████▏    | 193434/371472 [4:20:00<14:10:53,  3.49it/s] 52%|█████▏    | 193435/371472 [4:20:01<14:54:29,  3.32it/s] 52%|█████▏    | 193436/371472 [4:20:01<15:51:23,  3.12it/s] 52%|█████▏    | 193437/371472 [4:20:01<15:11:21,  3.26it/s] 52%|█████▏    | 193438/371472 [4:20:02<14:33:02,  3.40it/s] 52%|█████▏    | 193439/371472 [4:20:02<14:06:31,  3.51it/s] 52%|█████▏    | 193440/371472 [4:20:02<14:40:45,  3.37it/s]                                                            {'loss': 3.0074, 'learning_rate': 5.315671529229244e-07, 'epoch': 8.33}
 52%|█████▏    | 193440/371472 [4:20:02<14:40:45,  3.37it/s] 52%|█████▏    | 193441/371472 [4:20:02<14:12:58,  3.48it/s] 52%|█████▏    | 193442/371472 [4:20:03<14:49:30,  3.34it/s] 52%|█████▏    | 193443/371472 [4:20:03<14:31:09,  3.41it/s] 52%|█████▏    | 193444/371472 [4:20:03<14:25:45,  3.43it/s] 52%|█████▏    | 193445/371472 [4:20:04<14:06:07,  3.51it/s] 52%|█████▏    | 193446/371472 [4:20:04<13:55:26,  3.55it/s] 52%|█████▏    | 193447/371472 [4:20:04<13:40:55,  3.61it/s] 52%|█████▏    | 193448/371472 [4:20:04<14:32:34,  3.40it/s] 52%|█████▏    | 193449/371472 [4:20:05<14:53:45,  3.32it/s] 52%|█████▏    | 193450/371472 [4:20:05<15:24:38,  3.21it/s] 52%|█████▏    | 193451/371472 [4:20:05<14:25:28,  3.43it/s] 52%|█████▏    | 193452/371472 [4:20:06<14:24:35,  3.43it/s] 52%|█████▏    | 193453/371472 [4:20:06<14:42:19,  3.36it/s] 52%|█████▏    | 193454/371472 [4:20:06<14:19:03,  3.45it/s] 52%|█████▏    | 193455/371472 [4:20:06<14:00:25,  3.53it/s] 52%|█████▏    | 193456/371472 [4:20:07<13:56:00,  3.55it/s] 52%|█████▏    | 193457/371472 [4:20:07<13:17:19,  3.72it/s] 52%|█████▏    | 193458/371472 [4:20:07<13:33:25,  3.65it/s] 52%|█████▏    | 193459/371472 [4:20:08<14:23:35,  3.44it/s] 52%|█████▏    | 193460/371472 [4:20:08<14:30:49,  3.41it/s]                                                            {'loss': 3.1124, 'learning_rate': 5.315186709474455e-07, 'epoch': 8.33}
 52%|█████▏    | 193460/371472 [4:20:08<14:30:49,  3.41it/s] 52%|█████▏    | 193461/371472 [4:20:08<14:18:19,  3.46it/s] 52%|█████▏    | 193462/371472 [4:20:08<13:59:09,  3.54it/s] 52%|█████▏    | 193463/371472 [4:20:09<13:59:17,  3.53it/s] 52%|█████▏    | 193464/371472 [4:20:09<14:05:56,  3.51it/s] 52%|█████▏    | 193465/371472 [4:20:09<13:34:23,  3.64it/s] 52%|█████▏    | 193466/371472 [4:20:10<13:30:57,  3.66it/s] 52%|█████▏    | 193467/371472 [4:20:10<13:58:54,  3.54it/s] 52%|█████▏    | 193468/371472 [4:20:10<14:01:12,  3.53it/s] 52%|█████▏    | 193469/371472 [4:20:10<13:25:37,  3.68it/s] 52%|█████▏    | 193470/371472 [4:20:11<13:50:50,  3.57it/s] 52%|█████▏    | 193471/371472 [4:20:11<14:05:13,  3.51it/s] 52%|█████▏    | 193472/371472 [4:20:11<13:32:47,  3.65it/s] 52%|█████▏    | 193473/371472 [4:20:11<13:29:38,  3.66it/s] 52%|█████▏    | 193474/371472 [4:20:12<13:27:38,  3.67it/s] 52%|█████▏    | 193475/371472 [4:20:12<13:33:36,  3.65it/s] 52%|█████▏    | 193476/371472 [4:20:12<14:07:32,  3.50it/s] 52%|█████▏    | 193477/371472 [4:20:13<14:24:21,  3.43it/s] 52%|█████▏    | 193478/371472 [4:20:13<14:18:01,  3.46it/s] 52%|█████▏    | 193479/371472 [4:20:13<14:14:19,  3.47it/s] 52%|█████▏    | 193480/371472 [4:20:13<13:37:02,  3.63it/s]                                                            {'loss': 2.8383, 'learning_rate': 5.314701889719667e-07, 'epoch': 8.33}
 52%|█████▏    | 193480/371472 [4:20:13<13:37:02,  3.63it/s] 52%|█████▏    | 193481/371472 [4:20:14<13:24:32,  3.69it/s] 52%|█████▏    | 193482/371472 [4:20:14<13:28:56,  3.67it/s] 52%|█████▏    | 193483/371472 [4:20:14<14:21:42,  3.44it/s] 52%|█████▏    | 193484/371472 [4:20:15<14:09:40,  3.49it/s] 52%|█████▏    | 193485/371472 [4:20:15<14:03:29,  3.52it/s] 52%|█████▏    | 193486/371472 [4:20:15<14:17:37,  3.46it/s] 52%|█████▏    | 193487/371472 [4:20:16<14:48:23,  3.34it/s] 52%|█████▏    | 193488/371472 [4:20:16<14:13:48,  3.47it/s] 52%|█████▏    | 193489/371472 [4:20:16<14:07:40,  3.50it/s] 52%|█████▏    | 193490/371472 [4:20:16<13:51:54,  3.57it/s] 52%|█████▏    | 193491/371472 [4:20:17<13:54:13,  3.56it/s] 52%|█████▏    | 193492/371472 [4:20:17<14:13:09,  3.48it/s] 52%|█████▏    | 193493/371472 [4:20:17<14:46:49,  3.34it/s] 52%|█████▏    | 193494/371472 [4:20:18<15:01:09,  3.29it/s] 52%|█████▏    | 193495/371472 [4:20:18<14:46:47,  3.34it/s] 52%|█████▏    | 193496/371472 [4:20:18<16:12:41,  3.05it/s] 52%|█████▏    | 193497/371472 [4:20:19<15:26:26,  3.20it/s] 52%|█████▏    | 193498/371472 [4:20:19<14:34:28,  3.39it/s] 52%|█████▏    | 193499/371472 [4:20:19<13:48:57,  3.58it/s] 52%|█████▏    | 193500/371472 [4:20:19<14:22:53,  3.44it/s]                                                            {'loss': 2.9434, 'learning_rate': 5.314217069964879e-07, 'epoch': 8.33}
 52%|█████▏    | 193500/371472 [4:20:19<14:22:53,  3.44it/s] 52%|█████▏    | 193501/371472 [4:20:20<13:54:42,  3.55it/s] 52%|█████▏    | 193502/371472 [4:20:20<13:51:26,  3.57it/s] 52%|█████▏    | 193503/371472 [4:20:20<13:53:13,  3.56it/s] 52%|█████▏    | 193504/371472 [4:20:20<13:35:38,  3.64it/s] 52%|█████▏    | 193505/371472 [4:20:21<13:27:42,  3.67it/s] 52%|█████▏    | 193506/371472 [4:20:21<14:00:50,  3.53it/s] 52%|█████▏    | 193507/371472 [4:20:21<14:18:01,  3.46it/s] 52%|█████▏    | 193508/371472 [4:20:22<14:27:56,  3.42it/s] 52%|█████▏    | 193509/371472 [4:20:22<14:09:40,  3.49it/s] 52%|█████▏    | 193510/371472 [4:20:22<14:24:00,  3.43it/s] 52%|█████▏    | 193511/371472 [4:20:22<14:48:22,  3.34it/s] 52%|█████▏    | 193512/371472 [4:20:23<14:43:54,  3.36it/s] 52%|█████▏    | 193513/371472 [4:20:23<14:44:33,  3.35it/s] 52%|█████▏    | 193514/371472 [4:20:23<14:25:17,  3.43it/s] 52%|█████▏    | 193515/371472 [4:20:24<14:12:34,  3.48it/s] 52%|█████▏    | 193516/371472 [4:20:24<15:26:49,  3.20it/s] 52%|█████▏    | 193517/371472 [4:20:24<14:57:53,  3.30it/s] 52%|█████▏    | 193518/371472 [4:20:25<14:08:52,  3.49it/s] 52%|█████▏    | 193519/371472 [4:20:25<13:57:17,  3.54it/s] 52%|█████▏    | 193520/371472 [4:20:25<14:51:49,  3.33it/s]                                                            {'loss': 3.1152, 'learning_rate': 5.313732250210088e-07, 'epoch': 8.34}
 52%|█████▏    | 193520/371472 [4:20:25<14:51:49,  3.33it/s] 52%|█████▏    | 193521/371472 [4:20:25<14:37:14,  3.38it/s] 52%|█████▏    | 193522/371472 [4:20:26<16:47:37,  2.94it/s] 52%|█████▏    | 193523/371472 [4:20:26<15:45:50,  3.14it/s] 52%|█████▏    | 193524/371472 [4:20:27<16:29:47,  3.00it/s] 52%|█████▏    | 193525/371472 [4:20:27<15:48:42,  3.13it/s] 52%|█████▏    | 193526/371472 [4:20:27<15:13:46,  3.25it/s] 52%|█████▏    | 193527/371472 [4:20:27<14:59:26,  3.30it/s] 52%|█████▏    | 193528/371472 [4:20:28<14:05:23,  3.51it/s] 52%|█████▏    | 193529/371472 [4:20:28<14:06:44,  3.50it/s] 52%|█████▏    | 193530/371472 [4:20:28<13:47:06,  3.59it/s] 52%|█████▏    | 193531/371472 [4:20:28<13:35:19,  3.64it/s] 52%|█████▏    | 193532/371472 [4:20:29<13:58:18,  3.54it/s] 52%|█████▏    | 193533/371472 [4:20:29<13:50:38,  3.57it/s] 52%|█████▏    | 193534/371472 [4:20:29<14:42:12,  3.36it/s] 52%|█████▏    | 193535/371472 [4:20:30<14:27:00,  3.42it/s] 52%|█████▏    | 193536/371472 [4:20:30<14:15:54,  3.46it/s] 52%|█████▏    | 193537/371472 [4:20:30<14:21:58,  3.44it/s] 52%|█████▏    | 193538/371472 [4:20:31<14:47:33,  3.34it/s] 52%|█████▏    | 193539/371472 [4:20:31<14:54:53,  3.31it/s] 52%|█████▏    | 193540/371472 [4:20:31<14:53:44,  3.32it/s]                                                            {'loss': 2.9469, 'learning_rate': 5.313247430455299e-07, 'epoch': 8.34}
 52%|█████▏    | 193540/371472 [4:20:31<14:53:44,  3.32it/s] 52%|█████▏    | 193541/371472 [4:20:31<14:28:41,  3.41it/s] 52%|█████▏    | 193542/371472 [4:20:32<14:05:15,  3.51it/s] 52%|█████▏    | 193543/371472 [4:20:32<13:50:01,  3.57it/s] 52%|█████▏    | 193544/371472 [4:20:32<13:41:46,  3.61it/s] 52%|█████▏    | 193545/371472 [4:20:32<13:13:06,  3.74it/s] 52%|█████▏    | 193546/371472 [4:20:33<13:22:04,  3.70it/s] 52%|█████▏    | 193547/371472 [4:20:33<14:13:30,  3.47it/s] 52%|█████▏    | 193548/371472 [4:20:33<14:24:23,  3.43it/s] 52%|█████▏    | 193549/371472 [4:20:34<14:27:50,  3.42it/s] 52%|█████▏    | 193550/371472 [4:20:34<14:30:25,  3.41it/s] 52%|█████▏    | 193551/371472 [4:20:34<14:15:26,  3.47it/s] 52%|█████▏    | 193552/371472 [4:20:35<14:09:17,  3.49it/s] 52%|█████▏    | 193553/371472 [4:20:35<14:28:45,  3.41it/s] 52%|█████▏    | 193554/371472 [4:20:35<14:24:44,  3.43it/s] 52%|█████▏    | 193555/371472 [4:20:35<14:38:17,  3.38it/s] 52%|█████▏    | 193556/371472 [4:20:36<14:17:45,  3.46it/s] 52%|█████▏    | 193557/371472 [4:20:36<13:50:31,  3.57it/s] 52%|█████▏    | 193558/371472 [4:20:36<14:15:00,  3.47it/s] 52%|█████▏    | 193559/371472 [4:20:37<13:35:14,  3.64it/s] 52%|█████▏    | 193560/371472 [4:20:37<14:05:03,  3.51it/s]                                                            {'loss': 3.0186, 'learning_rate': 5.312762610700511e-07, 'epoch': 8.34}
 52%|█████▏    | 193560/371472 [4:20:37<14:05:03,  3.51it/s] 52%|█████▏    | 193561/371472 [4:20:37<13:49:11,  3.58it/s] 52%|█████▏    | 193562/371472 [4:20:37<13:29:32,  3.66it/s] 52%|█████▏    | 193563/371472 [4:20:38<13:33:19,  3.65it/s] 52%|█████▏    | 193564/371472 [4:20:38<13:01:07,  3.80it/s] 52%|█████▏    | 193565/371472 [4:20:38<13:10:16,  3.75it/s] 52%|█████▏    | 193566/371472 [4:20:38<13:04:06,  3.78it/s] 52%|█████▏    | 193567/371472 [4:20:39<12:49:52,  3.85it/s] 52%|█████▏    | 193568/371472 [4:20:39<12:58:41,  3.81it/s] 52%|█████▏    | 193569/371472 [4:20:39<13:37:52,  3.63it/s] 52%|█████▏    | 193570/371472 [4:20:39<13:18:16,  3.71it/s] 52%|█████▏    | 193571/371472 [4:20:40<14:27:30,  3.42it/s] 52%|█████▏    | 193572/371472 [4:20:40<14:17:43,  3.46it/s] 52%|█████▏    | 193573/371472 [4:20:40<14:16:17,  3.46it/s] 52%|█████▏    | 193574/371472 [4:20:41<13:46:17,  3.59it/s] 52%|█████▏    | 193575/371472 [4:20:41<14:33:33,  3.39it/s] 52%|█████▏    | 193576/371472 [4:20:41<15:03:16,  3.28it/s] 52%|█████▏    | 193577/371472 [4:20:42<14:15:53,  3.46it/s] 52%|█████▏    | 193578/371472 [4:20:42<13:41:52,  3.61it/s] 52%|█████▏    | 193579/371472 [4:20:42<14:03:49,  3.51it/s] 52%|█████▏    | 193580/371472 [4:20:42<14:03:10,  3.52it/s]                                                            {'loss': 3.2039, 'learning_rate': 5.312277790945721e-07, 'epoch': 8.34}
 52%|█████▏    | 193580/371472 [4:20:42<14:03:10,  3.52it/s] 52%|█████▏    | 193581/371472 [4:20:43<13:37:24,  3.63it/s] 52%|█████▏    | 193582/371472 [4:20:43<13:12:55,  3.74it/s] 52%|█████▏    | 193583/371472 [4:20:43<13:15:05,  3.73it/s] 52%|█████▏    | 193584/371472 [4:20:43<13:11:45,  3.74it/s] 52%|█████▏    | 193585/371472 [4:20:44<13:49:40,  3.57it/s] 52%|█████▏    | 193586/371472 [4:20:44<13:33:54,  3.64it/s] 52%|█████▏    | 193587/371472 [4:20:44<13:38:14,  3.62it/s] 52%|█████▏    | 193588/371472 [4:20:45<13:27:07,  3.67it/s] 52%|█████▏    | 193589/371472 [4:20:45<13:05:46,  3.77it/s] 52%|█████▏    | 193590/371472 [4:20:45<13:42:20,  3.61it/s] 52%|█████▏    | 193591/371472 [4:20:45<13:39:49,  3.62it/s] 52%|█████▏    | 193592/371472 [4:20:46<13:23:09,  3.69it/s] 52%|█████▏    | 193593/371472 [4:20:46<13:20:19,  3.70it/s] 52%|█████▏    | 193594/371472 [4:20:46<13:00:58,  3.80it/s] 52%|█████▏    | 193595/371472 [4:20:46<12:53:39,  3.83it/s] 52%|█████▏    | 193596/371472 [4:20:47<13:19:16,  3.71it/s] 52%|█████▏    | 193597/371472 [4:20:47<13:35:00,  3.64it/s] 52%|█████▏    | 193598/371472 [4:20:47<13:20:35,  3.70it/s] 52%|█████▏    | 193599/371472 [4:20:47<13:07:19,  3.77it/s] 52%|█████▏    | 193600/371472 [4:20:48<13:17:16,  3.72it/s]                                                            {'loss': 3.1496, 'learning_rate': 5.311792971190932e-07, 'epoch': 8.34}
 52%|█████▏    | 193600/371472 [4:20:48<13:17:16,  3.72it/s] 52%|█████▏    | 193601/371472 [4:20:48<13:34:28,  3.64it/s] 52%|█████▏    | 193602/371472 [4:20:48<13:43:37,  3.60it/s] 52%|█████▏    | 193603/371472 [4:20:49<13:04:52,  3.78it/s] 52%|█████▏    | 193604/371472 [4:20:49<12:33:24,  3.93it/s] 52%|█████▏    | 193605/371472 [4:20:49<13:01:27,  3.79it/s] 52%|█████▏    | 193606/371472 [4:20:49<12:51:47,  3.84it/s] 52%|█████▏    | 193607/371472 [4:20:50<12:58:49,  3.81it/s] 52%|█████▏    | 193608/371472 [4:20:50<13:00:07,  3.80it/s] 52%|█████▏    | 193609/371472 [4:20:50<13:03:15,  3.78it/s] 52%|█████▏    | 193610/371472 [4:20:50<12:49:28,  3.85it/s] 52%|█████▏    | 193611/371472 [4:20:51<13:04:37,  3.78it/s] 52%|█████▏    | 193612/371472 [4:20:51<13:01:22,  3.79it/s] 52%|█████▏    | 193613/371472 [4:20:51<12:47:21,  3.86it/s] 52%|█████▏    | 193614/371472 [4:20:51<13:21:19,  3.70it/s] 52%|█████▏    | 193615/371472 [4:20:52<12:47:28,  3.86it/s] 52%|█████▏    | 193616/371472 [4:20:52<13:48:20,  3.58it/s] 52%|█████▏    | 193617/371472 [4:20:52<14:07:40,  3.50it/s] 52%|█████▏    | 193618/371472 [4:20:53<13:41:28,  3.61it/s] 52%|█████▏    | 193619/371472 [4:20:53<13:30:04,  3.66it/s] 52%|█████▏    | 193620/371472 [4:20:53<13:08:03,  3.76it/s]                                                            {'loss': 2.8944, 'learning_rate': 5.311308151436144e-07, 'epoch': 8.34}
 52%|█████▏    | 193620/371472 [4:20:53<13:08:03,  3.76it/s] 52%|█████▏    | 193621/371472 [4:20:53<12:50:15,  3.85it/s] 52%|█████▏    | 193622/371472 [4:20:54<13:28:11,  3.67it/s] 52%|█████▏    | 193623/371472 [4:20:54<13:11:08,  3.75it/s] 52%|█████▏    | 193624/371472 [4:20:54<12:54:02,  3.83it/s] 52%|█████▏    | 193625/371472 [4:20:54<13:13:14,  3.74it/s] 52%|█████▏    | 193626/371472 [4:20:55<12:52:01,  3.84it/s] 52%|█████▏    | 193627/371472 [4:20:55<13:41:43,  3.61it/s] 52%|█████▏    | 193628/371472 [4:20:55<13:48:44,  3.58it/s] 52%|█████▏    | 193629/371472 [4:20:56<14:12:40,  3.48it/s] 52%|█████▏    | 193630/371472 [4:20:56<15:13:45,  3.24it/s] 52%|█████▏    | 193631/371472 [4:20:56<14:42:34,  3.36it/s] 52%|█████▏    | 193632/371472 [4:20:57<14:56:05,  3.31it/s] 52%|█████▏    | 193633/371472 [4:20:57<15:57:20,  3.10it/s] 52%|█████▏    | 193634/371472 [4:20:57<15:09:40,  3.26it/s] 52%|█████▏    | 193635/371472 [4:20:57<14:18:55,  3.45it/s] 52%|█████▏    | 193636/371472 [4:20:58<13:55:36,  3.55it/s] 52%|█████▏    | 193637/371472 [4:20:58<13:33:41,  3.64it/s] 52%|█████▏    | 193638/371472 [4:20:58<13:51:28,  3.56it/s] 52%|█████▏    | 193639/371472 [4:20:58<13:37:03,  3.63it/s] 52%|█████▏    | 193640/371472 [4:20:59<14:17:56,  3.45it/s]                                                            {'loss': 2.9948, 'learning_rate': 5.310823331681355e-07, 'epoch': 8.34}
 52%|█████▏    | 193640/371472 [4:20:59<14:17:56,  3.45it/s] 52%|█████▏    | 193641/371472 [4:20:59<14:02:03,  3.52it/s] 52%|█████▏    | 193642/371472 [4:20:59<14:19:07,  3.45it/s] 52%|█████▏    | 193643/371472 [4:21:00<14:35:13,  3.39it/s] 52%|█████▏    | 193644/371472 [4:21:00<15:01:10,  3.29it/s] 52%|█████▏    | 193645/371472 [4:21:00<14:32:45,  3.40it/s] 52%|█████▏    | 193646/371472 [4:21:01<13:55:55,  3.55it/s] 52%|█████▏    | 193647/371472 [4:21:01<13:55:36,  3.55it/s] 52%|█████▏    | 193648/371472 [4:21:01<13:55:23,  3.55it/s] 52%|█████▏    | 193649/371472 [4:21:01<13:57:37,  3.54it/s] 52%|█████▏    | 193650/371472 [4:21:02<14:30:24,  3.40it/s] 52%|█████▏    | 193651/371472 [4:21:02<14:10:59,  3.48it/s] 52%|█████▏    | 193652/371472 [4:21:02<13:41:45,  3.61it/s] 52%|█████▏    | 193653/371472 [4:21:03<14:22:44,  3.44it/s] 52%|█████▏    | 193654/371472 [4:21:03<14:22:23,  3.44it/s] 52%|█████▏    | 193655/371472 [4:21:03<14:21:28,  3.44it/s] 52%|█████▏    | 193656/371472 [4:21:03<14:06:46,  3.50it/s] 52%|█████▏    | 193657/371472 [4:21:04<13:45:43,  3.59it/s] 52%|█████▏    | 193658/371472 [4:21:04<14:28:42,  3.41it/s] 52%|█████▏    | 193659/371472 [4:21:04<13:59:53,  3.53it/s] 52%|█████▏    | 193660/371472 [4:21:05<14:04:40,  3.51it/s]                                                            {'loss': 2.992, 'learning_rate': 5.310338511926565e-07, 'epoch': 8.34}
 52%|█████▏    | 193660/371472 [4:21:05<14:04:40,  3.51it/s] 52%|█████▏    | 193661/371472 [4:21:05<16:20:52,  3.02it/s] 52%|█████▏    | 193662/371472 [4:21:05<15:16:38,  3.23it/s] 52%|█████▏    | 193663/371472 [4:21:06<14:36:51,  3.38it/s] 52%|█████▏    | 193664/371472 [4:21:06<14:08:00,  3.49it/s] 52%|█████▏    | 193665/371472 [4:21:06<16:26:09,  3.01it/s] 52%|█████▏    | 193666/371472 [4:21:06<15:12:36,  3.25it/s] 52%|█████▏    | 193667/371472 [4:21:07<15:53:00,  3.11it/s] 52%|█████▏    | 193668/371472 [4:21:07<15:05:09,  3.27it/s] 52%|█████▏    | 193669/371472 [4:21:07<14:05:20,  3.51it/s] 52%|█████▏    | 193670/371472 [4:21:08<13:42:41,  3.60it/s] 52%|█████▏    | 193671/371472 [4:21:08<14:29:35,  3.41it/s] 52%|█████▏    | 193672/371472 [4:21:08<14:26:23,  3.42it/s] 52%|█████▏    | 193673/371472 [4:21:08<14:12:42,  3.48it/s] 52%|█████▏    | 193674/371472 [4:21:09<14:24:47,  3.43it/s] 52%|█████▏    | 193675/371472 [4:21:09<14:01:25,  3.52it/s] 52%|█████▏    | 193676/371472 [4:21:09<14:09:44,  3.49it/s] 52%|█████▏    | 193677/371472 [4:21:10<13:52:00,  3.56it/s] 52%|█████▏    | 193678/371472 [4:21:10<14:19:58,  3.45it/s] 52%|█████▏    | 193679/371472 [4:21:10<14:37:32,  3.38it/s] 52%|█████▏    | 193680/371472 [4:21:11<14:07:56,  3.49it/s]                                                            {'loss': 2.9172, 'learning_rate': 5.309853692171776e-07, 'epoch': 8.34}
 52%|█████▏    | 193680/371472 [4:21:11<14:07:56,  3.49it/s] 52%|█████▏    | 193681/371472 [4:21:11<13:36:38,  3.63it/s] 52%|█████▏    | 193682/371472 [4:21:11<13:22:32,  3.69it/s] 52%|█████▏    | 193683/371472 [4:21:11<13:23:45,  3.69it/s] 52%|█████▏    | 193684/371472 [4:21:12<13:47:24,  3.58it/s] 52%|█████▏    | 193685/371472 [4:21:12<13:29:41,  3.66it/s] 52%|█████▏    | 193686/371472 [4:21:12<13:05:38,  3.77it/s] 52%|█████▏    | 193687/371472 [4:21:12<13:15:42,  3.72it/s] 52%|█████▏    | 193688/371472 [4:21:13<12:58:38,  3.81it/s] 52%|█████▏    | 193689/371472 [4:21:13<13:28:10,  3.67it/s] 52%|█████▏    | 193690/371472 [4:21:13<13:33:30,  3.64it/s] 52%|█████▏    | 193691/371472 [4:21:13<13:36:45,  3.63it/s] 52%|█████▏    | 193692/371472 [4:21:14<13:41:55,  3.60it/s] 52%|█████▏    | 193693/371472 [4:21:14<13:44:20,  3.59it/s] 52%|█████▏    | 193694/371472 [4:21:14<13:37:03,  3.63it/s] 52%|█████▏    | 193695/371472 [4:21:15<13:29:37,  3.66it/s] 52%|█████▏    | 193696/371472 [4:21:15<13:36:17,  3.63it/s] 52%|█████▏    | 193697/371472 [4:21:15<13:11:58,  3.74it/s] 52%|█████▏    | 193698/371472 [4:21:15<13:26:55,  3.67it/s] 52%|█████▏    | 193699/371472 [4:21:16<13:00:13,  3.80it/s] 52%|█████▏    | 193700/371472 [4:21:16<13:34:08,  3.64it/s]                                                            {'loss': 3.0283, 'learning_rate': 5.309368872416988e-07, 'epoch': 8.34}
 52%|█████▏    | 193700/371472 [4:21:16<13:34:08,  3.64it/s] 52%|█████▏    | 193701/371472 [4:21:16<14:02:47,  3.52it/s] 52%|█████▏    | 193702/371472 [4:21:17<14:30:55,  3.40it/s] 52%|█████▏    | 193703/371472 [4:21:17<14:28:50,  3.41it/s] 52%|█████▏    | 193704/371472 [4:21:17<13:58:39,  3.53it/s] 52%|█████▏    | 193705/371472 [4:21:17<14:01:57,  3.52it/s] 52%|█████▏    | 193706/371472 [4:21:18<13:54:13,  3.55it/s] 52%|█████▏    | 193707/371472 [4:21:18<13:49:26,  3.57it/s] 52%|█████▏    | 193708/371472 [4:21:18<13:42:22,  3.60it/s] 52%|█████▏    | 193709/371472 [4:21:18<13:17:53,  3.71it/s] 52%|█████▏    | 193710/371472 [4:21:19<13:33:27,  3.64it/s] 52%|█████▏    | 193711/371472 [4:21:19<13:46:23,  3.59it/s] 52%|█████▏    | 193712/371472 [4:21:19<13:59:01,  3.53it/s] 52%|█████▏    | 193713/371472 [4:21:20<14:15:33,  3.46it/s] 52%|█████▏    | 193714/371472 [4:21:20<14:20:15,  3.44it/s] 52%|█████▏    | 193715/371472 [4:21:20<15:28:25,  3.19it/s] 52%|█████▏    | 193716/371472 [4:21:21<14:57:14,  3.30it/s] 52%|█████▏    | 193717/371472 [4:21:21<15:33:57,  3.17it/s] 52%|█████▏    | 193718/371472 [4:21:21<14:46:39,  3.34it/s] 52%|█████▏    | 193719/371472 [4:21:21<14:57:22,  3.30it/s] 52%|█████▏    | 193720/371472 [4:21:22<15:55:01,  3.10it/s]                                                            {'loss': 2.7734, 'learning_rate': 5.308884052662199e-07, 'epoch': 8.34}
 52%|█████▏    | 193720/371472 [4:21:22<15:55:01,  3.10it/s] 52%|█████▏    | 193721/371472 [4:21:22<15:21:28,  3.21it/s] 52%|█████▏    | 193722/371472 [4:21:22<15:04:42,  3.27it/s] 52%|█████▏    | 193723/371472 [4:21:23<14:58:49,  3.30it/s] 52%|█████▏    | 193724/371472 [4:21:23<15:07:12,  3.27it/s] 52%|█████▏    | 193725/371472 [4:21:23<14:21:21,  3.44it/s] 52%|█████▏    | 193726/371472 [4:21:24<14:22:13,  3.44it/s] 52%|█████▏    | 193727/371472 [4:21:24<14:03:55,  3.51it/s] 52%|█████▏    | 193728/371472 [4:21:24<13:51:56,  3.56it/s] 52%|█████▏    | 193729/371472 [4:21:24<15:09:10,  3.26it/s] 52%|█████▏    | 193730/371472 [4:21:25<14:46:55,  3.34it/s] 52%|█████▏    | 193731/371472 [4:21:25<16:09:13,  3.06it/s] 52%|█████▏    | 193732/371472 [4:21:25<15:20:33,  3.22it/s] 52%|█████▏    | 193733/371472 [4:21:26<14:42:58,  3.35it/s] 52%|█████▏    | 193734/371472 [4:21:26<14:32:35,  3.39it/s] 52%|█████▏    | 193735/371472 [4:21:26<15:13:29,  3.24it/s] 52%|█████▏    | 193736/371472 [4:21:27<15:12:50,  3.25it/s] 52%|█████▏    | 193737/371472 [4:21:27<15:07:33,  3.26it/s] 52%|█████▏    | 193738/371472 [4:21:27<15:12:00,  3.25it/s] 52%|█████▏    | 193739/371472 [4:21:28<14:22:42,  3.43it/s] 52%|█████▏    | 193740/371472 [4:21:28<13:58:35,  3.53it/s]                                                            {'loss': 2.8646, 'learning_rate': 5.30839923290741e-07, 'epoch': 8.34}
 52%|█████▏    | 193740/371472 [4:21:28<13:58:35,  3.53it/s] 52%|█████▏    | 193741/371472 [4:21:28<14:18:16,  3.45it/s] 52%|█████▏    | 193742/371472 [4:21:28<14:02:17,  3.52it/s] 52%|█████▏    | 193743/371472 [4:21:29<14:34:26,  3.39it/s] 52%|█████▏    | 193744/371472 [4:21:29<14:29:36,  3.41it/s] 52%|█████▏    | 193745/371472 [4:21:29<13:41:31,  3.61it/s] 52%|█████▏    | 193746/371472 [4:21:29<13:44:26,  3.59it/s] 52%|█████▏    | 193747/371472 [4:21:30<13:32:40,  3.64it/s] 52%|█████▏    | 193748/371472 [4:21:30<13:17:09,  3.72it/s] 52%|█████▏    | 193749/371472 [4:21:30<12:57:13,  3.81it/s] 52%|█████▏    | 193750/371472 [4:21:31<13:28:03,  3.67it/s] 52%|█████▏    | 193751/371472 [4:21:31<14:37:10,  3.38it/s] 52%|█████▏    | 193752/371472 [4:21:31<13:55:06,  3.55it/s] 52%|█████▏    | 193753/371472 [4:21:31<13:52:20,  3.56it/s] 52%|█████▏    | 193754/371472 [4:21:32<13:44:02,  3.59it/s] 52%|█████▏    | 193755/371472 [4:21:32<13:54:24,  3.55it/s] 52%|█████▏    | 193756/371472 [4:21:32<13:32:55,  3.64it/s] 52%|█████▏    | 193757/371472 [4:21:33<14:07:19,  3.50it/s] 52%|█████▏    | 193758/371472 [4:21:33<13:45:59,  3.59it/s] 52%|█████▏    | 193759/371472 [4:21:33<13:45:29,  3.59it/s] 52%|█████▏    | 193760/371472 [4:21:33<14:29:17,  3.41it/s]                                                            {'loss': 2.9284, 'learning_rate': 5.307914413152621e-07, 'epoch': 8.35}
 52%|█████▏    | 193760/371472 [4:21:33<14:29:17,  3.41it/s] 52%|█████▏    | 193761/371472 [4:21:34<13:54:31,  3.55it/s] 52%|█████▏    | 193762/371472 [4:21:34<14:26:47,  3.42it/s] 52%|█████▏    | 193763/371472 [4:21:34<15:11:21,  3.25it/s] 52%|█████▏    | 193764/371472 [4:21:35<15:10:12,  3.25it/s] 52%|█████▏    | 193765/371472 [4:21:35<14:45:43,  3.34it/s] 52%|█████▏    | 193766/371472 [4:21:35<15:12:18,  3.25it/s] 52%|█████▏    | 193767/371472 [4:21:36<15:03:22,  3.28it/s] 52%|█████▏    | 193768/371472 [4:21:36<14:23:37,  3.43it/s] 52%|█████▏    | 193769/371472 [4:21:36<14:38:08,  3.37it/s] 52%|█████▏    | 193770/371472 [4:21:36<14:05:18,  3.50it/s] 52%|█████▏    | 193771/371472 [4:21:37<15:32:25,  3.18it/s] 52%|█████▏    | 193772/371472 [4:21:37<16:49:28,  2.93it/s] 52%|█████▏    | 193773/371472 [4:21:38<16:57:11,  2.91it/s] 52%|█████▏    | 193774/371472 [4:21:38<15:57:06,  3.09it/s] 52%|█████▏    | 193775/371472 [4:21:38<14:59:39,  3.29it/s] 52%|█████▏    | 193776/371472 [4:21:38<14:37:34,  3.37it/s] 52%|█████▏    | 193777/371472 [4:21:39<14:19:55,  3.44it/s] 52%|█████▏    | 193778/371472 [4:21:39<13:52:03,  3.56it/s] 52%|█████▏    | 193779/371472 [4:21:39<13:48:59,  3.57it/s] 52%|█████▏    | 193780/371472 [4:21:39<13:51:12,  3.56it/s]                                                            {'loss': 2.9776, 'learning_rate': 5.307429593397832e-07, 'epoch': 8.35}
 52%|█████▏    | 193780/371472 [4:21:39<13:51:12,  3.56it/s] 52%|█████▏    | 193781/371472 [4:21:40<13:39:40,  3.61it/s] 52%|█████▏    | 193782/371472 [4:21:40<13:51:17,  3.56it/s] 52%|█████▏    | 193783/371472 [4:21:40<14:12:45,  3.47it/s] 52%|█████▏    | 193784/371472 [4:21:41<13:46:16,  3.58it/s] 52%|█████▏    | 193785/371472 [4:21:41<13:27:32,  3.67it/s] 52%|█████▏    | 193786/371472 [4:21:41<13:25:16,  3.68it/s] 52%|█████▏    | 193787/371472 [4:21:41<13:23:53,  3.68it/s] 52%|█████▏    | 193788/371472 [4:21:42<13:19:43,  3.70it/s] 52%|█████▏    | 193789/371472 [4:21:42<13:40:04,  3.61it/s] 52%|█████▏    | 193790/371472 [4:21:42<13:35:15,  3.63it/s] 52%|█████▏    | 193791/371472 [4:21:43<14:28:57,  3.41it/s] 52%|█████▏    | 193792/371472 [4:21:43<14:08:39,  3.49it/s] 52%|█████▏    | 193793/371472 [4:21:43<15:27:14,  3.19it/s] 52%|█████▏    | 193794/371472 [4:21:43<14:37:10,  3.38it/s] 52%|█████▏    | 193795/371472 [4:21:44<14:09:50,  3.48it/s] 52%|█████▏    | 193796/371472 [4:21:44<15:05:58,  3.27it/s] 52%|█████▏    | 193797/371472 [4:21:44<15:06:25,  3.27it/s] 52%|█████▏    | 193798/371472 [4:21:45<15:10:51,  3.25it/s] 52%|█████▏    | 193799/371472 [4:21:45<15:40:51,  3.15it/s] 52%|█████▏    | 193800/371472 [4:21:45<15:17:05,  3.23it/s]                                                            {'loss': 2.863, 'learning_rate': 5.306944773643042e-07, 'epoch': 8.35}
 52%|█████▏    | 193800/371472 [4:21:45<15:17:05,  3.23it/s] 52%|█████▏    | 193801/371472 [4:21:46<16:34:31,  2.98it/s] 52%|█████▏    | 193802/371472 [4:21:46<15:30:42,  3.18it/s] 52%|█████▏    | 193803/371472 [4:21:46<14:54:42,  3.31it/s] 52%|█████▏    | 193804/371472 [4:21:46<14:29:03,  3.41it/s] 52%|█████▏    | 193805/371472 [4:21:47<14:53:53,  3.31it/s] 52%|█████▏    | 193806/371472 [4:21:47<14:12:07,  3.47it/s] 52%|█████▏    | 193807/371472 [4:21:47<13:59:13,  3.53it/s] 52%|█████▏    | 193808/371472 [4:21:48<14:04:18,  3.51it/s] 52%|█████▏    | 193809/371472 [4:21:48<15:03:54,  3.28it/s] 52%|█████▏    | 193810/371472 [4:21:48<14:39:58,  3.36it/s] 52%|█████▏    | 193811/371472 [4:21:49<13:51:59,  3.56it/s] 52%|█████▏    | 193812/371472 [4:21:49<13:18:52,  3.71it/s] 52%|█████▏    | 193813/371472 [4:21:49<13:19:39,  3.70it/s] 52%|█████▏    | 193814/371472 [4:21:49<13:37:04,  3.62it/s] 52%|█████▏    | 193815/371472 [4:21:50<13:56:19,  3.54it/s] 52%|█████▏    | 193816/371472 [4:21:50<14:07:43,  3.49it/s] 52%|█████▏    | 193817/371472 [4:21:50<13:34:16,  3.64it/s] 52%|█████▏    | 193818/371472 [4:21:50<14:10:31,  3.48it/s] 52%|█████▏    | 193819/371472 [4:21:51<14:50:40,  3.32it/s] 52%|█████▏    | 193820/371472 [4:21:51<14:33:03,  3.39it/s]                                                            {'loss': 2.8523, 'learning_rate': 5.306459953888254e-07, 'epoch': 8.35}
 52%|█████▏    | 193820/371472 [4:21:51<14:33:03,  3.39it/s] 52%|█████▏    | 193821/371472 [4:21:51<14:05:10,  3.50it/s] 52%|█████▏    | 193822/371472 [4:21:52<13:35:41,  3.63it/s] 52%|█████▏    | 193823/371472 [4:21:52<13:05:59,  3.77it/s] 52%|█████▏    | 193824/371472 [4:21:52<12:49:25,  3.85it/s] 52%|█████▏    | 193825/371472 [4:21:52<12:40:42,  3.89it/s] 52%|█████▏    | 193826/371472 [4:21:53<12:51:31,  3.84it/s] 52%|█████▏    | 193827/371472 [4:21:53<13:47:57,  3.58it/s] 52%|█████▏    | 193828/371472 [4:21:53<14:16:43,  3.46it/s] 52%|█████▏    | 193829/371472 [4:21:53<13:36:13,  3.63it/s] 52%|█████▏    | 193830/371472 [4:21:54<15:22:11,  3.21it/s] 52%|█████▏    | 193831/371472 [4:21:54<14:29:14,  3.41it/s] 52%|█████▏    | 193832/371472 [4:21:54<14:03:25,  3.51it/s] 52%|█████▏    | 193833/371472 [4:21:55<14:02:54,  3.51it/s] 52%|█████▏    | 193834/371472 [4:21:55<13:55:51,  3.54it/s] 52%|█████▏    | 193835/371472 [4:21:55<13:57:36,  3.53it/s] 52%|█████▏    | 193836/371472 [4:21:55<13:34:33,  3.63it/s] 52%|█████▏    | 193837/371472 [4:21:56<13:41:57,  3.60it/s] 52%|█████▏    | 193838/371472 [4:21:56<14:32:08,  3.39it/s] 52%|█████▏    | 193839/371472 [4:21:56<15:29:45,  3.18it/s] 52%|█████▏    | 193840/371472 [4:21:57<14:48:03,  3.33it/s]                                                            {'loss': 2.8549, 'learning_rate': 5.305975134133465e-07, 'epoch': 8.35}
 52%|█████▏    | 193840/371472 [4:21:57<14:48:03,  3.33it/s] 52%|█████▏    | 193841/371472 [4:21:57<14:42:00,  3.36it/s] 52%|█████▏    | 193842/371472 [4:21:57<14:13:00,  3.47it/s] 52%|█████▏    | 193843/371472 [4:21:58<14:02:06,  3.52it/s] 52%|█████▏    | 193844/371472 [4:21:58<13:30:38,  3.65it/s] 52%|█████▏    | 193845/371472 [4:21:58<13:15:50,  3.72it/s] 52%|█████▏    | 193846/371472 [4:21:58<13:28:45,  3.66it/s] 52%|█████▏    | 193847/371472 [4:21:59<13:21:01,  3.70it/s] 52%|█████▏    | 193848/371472 [4:21:59<13:08:01,  3.76it/s] 52%|█████▏    | 193849/371472 [4:21:59<14:15:14,  3.46it/s] 52%|█████▏    | 193850/371472 [4:22:00<14:16:09,  3.46it/s] 52%|█████▏    | 193851/371472 [4:22:00<14:22:09,  3.43it/s] 52%|█████▏    | 193852/371472 [4:22:00<14:51:11,  3.32it/s] 52%|█████▏    | 193853/371472 [4:22:00<15:13:49,  3.24it/s] 52%|█████▏    | 193854/371472 [4:22:01<14:22:16,  3.43it/s] 52%|█████▏    | 193855/371472 [4:22:01<13:54:20,  3.55it/s] 52%|█████▏    | 193856/371472 [4:22:01<14:02:14,  3.51it/s] 52%|█████▏    | 193857/371472 [4:22:02<13:59:33,  3.53it/s] 52%|█████▏    | 193858/371472 [4:22:02<14:18:21,  3.45it/s] 52%|█████▏    | 193859/371472 [4:22:02<13:47:03,  3.58it/s] 52%|█████▏    | 193860/371472 [4:22:02<13:39:46,  3.61it/s]                                                            {'loss': 3.0554, 'learning_rate': 5.305490314378677e-07, 'epoch': 8.35}
 52%|█████▏    | 193860/371472 [4:22:02<13:39:46,  3.61it/s] 52%|█████▏    | 193861/371472 [4:22:03<13:56:50,  3.54it/s] 52%|█████▏    | 193862/371472 [4:22:03<13:59:44,  3.53it/s] 52%|█████▏    | 193863/371472 [4:22:03<15:24:30,  3.20it/s] 52%|█████▏    | 193864/371472 [4:22:04<14:47:15,  3.34it/s] 52%|█████▏    | 193865/371472 [4:22:04<15:07:31,  3.26it/s] 52%|█████▏    | 193866/371472 [4:22:04<14:24:30,  3.42it/s] 52%|█████▏    | 193867/371472 [4:22:04<14:33:07,  3.39it/s] 52%|█████▏    | 193868/371472 [4:22:05<14:03:01,  3.51it/s] 52%|█████▏    | 193869/371472 [4:22:05<14:50:28,  3.32it/s] 52%|█████▏    | 193870/371472 [4:22:05<14:37:25,  3.37it/s] 52%|█████▏    | 193871/371472 [4:22:06<14:33:59,  3.39it/s] 52%|█████▏    | 193872/371472 [4:22:06<14:58:23,  3.29it/s] 52%|█████▏    | 193873/371472 [4:22:06<14:23:31,  3.43it/s] 52%|█████▏    | 193874/371472 [4:22:07<14:14:35,  3.46it/s] 52%|█████▏    | 193875/371472 [4:22:07<15:57:26,  3.09it/s] 52%|█████▏    | 193876/371472 [4:22:07<14:50:17,  3.32it/s] 52%|█████▏    | 193877/371472 [4:22:07<14:23:15,  3.43it/s] 52%|█████▏    | 193878/371472 [4:22:08<14:07:55,  3.49it/s] 52%|█████▏    | 193879/371472 [4:22:08<13:39:21,  3.61it/s] 52%|█████▏    | 193880/371472 [4:22:08<13:20:53,  3.70it/s]                                                            {'loss': 2.813, 'learning_rate': 5.305005494623887e-07, 'epoch': 8.35}
 52%|█████▏    | 193880/371472 [4:22:08<13:20:53,  3.70it/s] 52%|█████▏    | 193881/371472 [4:22:09<13:15:42,  3.72it/s] 52%|█████▏    | 193882/371472 [4:22:09<13:10:54,  3.74it/s] 52%|█████▏    | 193883/371472 [4:22:09<14:41:21,  3.36it/s] 52%|█████▏    | 193884/371472 [4:22:09<14:37:13,  3.37it/s] 52%|█████▏    | 193885/371472 [4:22:10<14:21:00,  3.44it/s] 52%|█████▏    | 193886/371472 [4:22:10<15:09:38,  3.25it/s] 52%|█████▏    | 193887/371472 [4:22:10<14:44:22,  3.35it/s] 52%|█████▏    | 193888/371472 [4:22:11<14:02:32,  3.51it/s] 52%|█████▏    | 193889/371472 [4:22:11<14:09:43,  3.48it/s] 52%|█████▏    | 193890/371472 [4:22:11<15:55:05,  3.10it/s] 52%|█████▏    | 193891/371472 [4:22:12<14:50:01,  3.33it/s] 52%|█████▏    | 193892/371472 [4:22:12<14:02:14,  3.51it/s] 52%|█████▏    | 193893/371472 [4:22:12<14:22:12,  3.43it/s] 52%|█████▏    | 193894/371472 [4:22:12<14:29:50,  3.40it/s] 52%|█████▏    | 193895/371472 [4:22:13<14:45:07,  3.34it/s] 52%|█████▏    | 193896/371472 [4:22:13<14:24:19,  3.42it/s] 52%|█████▏    | 193897/371472 [4:22:13<13:52:44,  3.55it/s] 52%|█████▏    | 193898/371472 [4:22:13<13:23:00,  3.69it/s] 52%|█████▏    | 193899/371472 [4:22:14<13:13:03,  3.73it/s] 52%|█████▏    | 193900/371472 [4:22:14<13:10:10,  3.75it/s]                                                            {'loss': 2.8772, 'learning_rate': 5.304520674869098e-07, 'epoch': 8.35}
 52%|█████▏    | 193900/371472 [4:22:14<13:10:10,  3.75it/s] 52%|█████▏    | 193901/371472 [4:22:14<13:43:33,  3.59it/s] 52%|█████▏    | 193902/371472 [4:22:15<14:31:48,  3.39it/s] 52%|█████▏    | 193903/371472 [4:22:15<14:59:10,  3.29it/s] 52%|█████▏    | 193904/371472 [4:22:15<14:30:13,  3.40it/s] 52%|█████▏    | 193905/371472 [4:22:16<14:18:16,  3.45it/s] 52%|█████▏    | 193906/371472 [4:22:16<14:21:56,  3.43it/s] 52%|█████▏    | 193907/371472 [4:22:16<13:42:47,  3.60it/s] 52%|█████▏    | 193908/371472 [4:22:16<14:08:53,  3.49it/s] 52%|█████▏    | 193909/371472 [4:22:17<14:27:57,  3.41it/s] 52%|█████▏    | 193910/371472 [4:22:17<14:55:45,  3.30it/s] 52%|█████▏    | 193911/371472 [4:22:17<16:17:30,  3.03it/s] 52%|█████▏    | 193912/371472 [4:22:18<15:57:34,  3.09it/s] 52%|█████▏    | 193913/371472 [4:22:18<14:59:06,  3.29it/s] 52%|█████▏    | 193914/371472 [4:22:18<14:49:11,  3.33it/s] 52%|█████▏    | 193915/371472 [4:22:19<15:10:41,  3.25it/s] 52%|█████▏    | 193916/371472 [4:22:19<15:02:49,  3.28it/s] 52%|█████▏    | 193917/371472 [4:22:19<14:47:51,  3.33it/s] 52%|█████▏    | 193918/371472 [4:22:19<15:14:36,  3.24it/s] 52%|█████▏    | 193919/371472 [4:22:20<14:14:39,  3.46it/s] 52%|█████▏    | 193920/371472 [4:22:20<14:17:49,  3.45it/s]                                                            {'loss': 3.0213, 'learning_rate': 5.304035855114309e-07, 'epoch': 8.35}
 52%|█████▏    | 193920/371472 [4:22:20<14:17:49,  3.45it/s] 52%|█████▏    | 193921/371472 [4:22:20<14:17:17,  3.45it/s] 52%|█████▏    | 193922/371472 [4:22:21<14:23:21,  3.43it/s] 52%|█████▏    | 193923/371472 [4:22:21<13:46:01,  3.58it/s] 52%|█████▏    | 193924/371472 [4:22:21<13:37:54,  3.62it/s] 52%|█████▏    | 193925/371472 [4:22:21<14:36:01,  3.38it/s] 52%|█████▏    | 193926/371472 [4:22:22<14:09:26,  3.48it/s] 52%|█████▏    | 193927/371472 [4:22:22<15:30:10,  3.18it/s] 52%|█████▏    | 193928/371472 [4:22:22<14:44:49,  3.34it/s] 52%|█████▏    | 193929/371472 [4:22:23<14:26:18,  3.42it/s] 52%|█████▏    | 193930/371472 [4:22:23<15:08:55,  3.26it/s] 52%|█████▏    | 193931/371472 [4:22:23<14:47:07,  3.34it/s] 52%|█████▏    | 193932/371472 [4:22:24<14:57:30,  3.30it/s] 52%|█████▏    | 193933/371472 [4:22:24<14:14:17,  3.46it/s] 52%|█████▏    | 193934/371472 [4:22:24<15:22:13,  3.21it/s] 52%|█████▏    | 193935/371472 [4:22:25<14:56:55,  3.30it/s] 52%|█████▏    | 193936/371472 [4:22:25<14:31:26,  3.40it/s] 52%|█████▏    | 193937/371472 [4:22:25<14:20:01,  3.44it/s] 52%|█████▏    | 193938/371472 [4:22:25<13:40:37,  3.61it/s] 52%|█████▏    | 193939/371472 [4:22:26<13:07:35,  3.76it/s] 52%|█████▏    | 193940/371472 [4:22:26<14:08:20,  3.49it/s]                                                            {'loss': 3.1726, 'learning_rate': 5.303551035359521e-07, 'epoch': 8.35}
 52%|█████▏    | 193940/371472 [4:22:26<14:08:20,  3.49it/s] 52%|█████▏    | 193941/371472 [4:22:26<16:04:08,  3.07it/s] 52%|█████▏    | 193942/371472 [4:22:27<16:26:09,  3.00it/s] 52%|█████▏    | 193943/371472 [4:22:27<15:32:14,  3.17it/s] 52%|█████▏    | 193944/371472 [4:22:27<14:58:50,  3.29it/s] 52%|█████▏    | 193945/371472 [4:22:28<15:23:16,  3.20it/s] 52%|█████▏    | 193946/371472 [4:22:28<14:31:51,  3.39it/s] 52%|█████▏    | 193947/371472 [4:22:28<14:15:31,  3.46it/s] 52%|█████▏    | 193948/371472 [4:22:28<14:30:47,  3.40it/s] 52%|█████▏    | 193949/371472 [4:22:29<13:48:31,  3.57it/s] 52%|█████▏    | 193950/371472 [4:22:29<14:46:49,  3.34it/s] 52%|█████▏    | 193951/371472 [4:22:29<14:20:02,  3.44it/s] 52%|█████▏    | 193952/371472 [4:22:29<13:44:44,  3.59it/s] 52%|█████▏    | 193953/371472 [4:22:30<13:33:06,  3.64it/s] 52%|█████▏    | 193954/371472 [4:22:30<14:29:14,  3.40it/s] 52%|█████▏    | 193955/371472 [4:22:30<13:52:35,  3.55it/s] 52%|█████▏    | 193956/371472 [4:22:31<13:35:49,  3.63it/s] 52%|█████▏    | 193957/371472 [4:22:31<13:12:17,  3.73it/s] 52%|█████▏    | 193958/371472 [4:22:31<13:34:46,  3.63it/s] 52%|█████▏    | 193959/371472 [4:22:31<13:14:07,  3.73it/s] 52%|█████▏    | 193960/371472 [4:22:32<13:09:53,  3.75it/s]                                                            {'loss': 3.1847, 'learning_rate': 5.303066215604731e-07, 'epoch': 8.35}
 52%|█████▏    | 193960/371472 [4:22:32<13:09:53,  3.75it/s] 52%|█████▏    | 193961/371472 [4:22:32<13:04:46,  3.77it/s] 52%|█████▏    | 193962/371472 [4:22:32<13:46:31,  3.58it/s] 52%|█████▏    | 193963/371472 [4:22:32<13:33:30,  3.64it/s] 52%|█████▏    | 193964/371472 [4:22:33<13:25:07,  3.67it/s] 52%|█████▏    | 193965/371472 [4:22:33<15:13:46,  3.24it/s] 52%|█████▏    | 193966/371472 [4:22:33<14:37:15,  3.37it/s] 52%|█████▏    | 193967/371472 [4:22:34<14:43:28,  3.35it/s] 52%|█████▏    | 193968/371472 [4:22:34<14:10:58,  3.48it/s] 52%|█████▏    | 193969/371472 [4:22:34<14:14:31,  3.46it/s] 52%|█████▏    | 193970/371472 [4:22:35<14:16:44,  3.45it/s] 52%|█████▏    | 193971/371472 [4:22:35<13:50:29,  3.56it/s] 52%|█████▏    | 193972/371472 [4:22:35<13:30:14,  3.65it/s] 52%|█████▏    | 193973/371472 [4:22:35<13:25:43,  3.67it/s] 52%|█████▏    | 193974/371472 [4:22:36<13:58:53,  3.53it/s] 52%|█████▏    | 193975/371472 [4:22:36<13:22:51,  3.68it/s] 52%|█████▏    | 193976/371472 [4:22:36<12:52:06,  3.83it/s] 52%|█████▏    | 193977/371472 [4:22:36<14:01:54,  3.51it/s] 52%|█████▏    | 193978/371472 [4:22:37<14:05:42,  3.50it/s] 52%|█████▏    | 193979/371472 [4:22:37<13:33:52,  3.63it/s] 52%|█████▏    | 193980/371472 [4:22:37<13:16:54,  3.71it/s]                                                            {'loss': 3.0656, 'learning_rate': 5.302581395849943e-07, 'epoch': 8.36}
 52%|█████▏    | 193980/371472 [4:22:37<13:16:54,  3.71it/s] 52%|█████▏    | 193981/371472 [4:22:38<13:11:08,  3.74it/s] 52%|█████▏    | 193982/371472 [4:22:38<13:54:34,  3.54it/s] 52%|█████▏    | 193983/371472 [4:22:38<13:27:19,  3.66it/s] 52%|█████▏    | 193984/371472 [4:22:38<13:43:41,  3.59it/s] 52%|█████▏    | 193985/371472 [4:22:39<13:35:14,  3.63it/s] 52%|█████▏    | 193986/371472 [4:22:39<13:26:21,  3.67it/s] 52%|█████▏    | 193987/371472 [4:22:39<13:43:10,  3.59it/s] 52%|█████▏    | 193988/371472 [4:22:40<14:01:33,  3.52it/s] 52%|█████▏    | 193989/371472 [4:22:40<13:49:20,  3.57it/s] 52%|█████▏    | 193990/371472 [4:22:40<14:22:05,  3.43it/s] 52%|█████▏    | 193991/371472 [4:22:40<13:37:39,  3.62it/s] 52%|█████▏    | 193992/371472 [4:22:41<13:32:04,  3.64it/s] 52%|█████▏    | 193993/371472 [4:22:41<13:25:00,  3.67it/s] 52%|█████▏    | 193994/371472 [4:22:41<13:09:10,  3.75it/s] 52%|█████▏    | 193995/371472 [4:22:41<13:21:15,  3.69it/s] 52%|█████▏    | 193996/371472 [4:22:42<13:25:54,  3.67it/s] 52%|█████▏    | 193997/371472 [4:22:42<13:20:08,  3.70it/s] 52%|█████▏    | 193998/371472 [4:22:42<13:26:10,  3.67it/s] 52%|█████▏    | 193999/371472 [4:22:43<13:10:19,  3.74it/s] 52%|█████▏    | 194000/371472 [4:22:43<13:02:43,  3.78it/s]                                                            {'loss': 2.9338, 'learning_rate': 5.302096576095154e-07, 'epoch': 8.36}
 52%|█████▏    | 194000/371472 [4:22:43<13:02:43,  3.78it/s] 52%|█████▏    | 194001/371472 [4:22:43<13:19:09,  3.70it/s] 52%|█████▏    | 194002/371472 [4:22:43<13:19:48,  3.70it/s] 52%|█████▏    | 194003/371472 [4:22:44<13:21:04,  3.69it/s] 52%|█████▏    | 194004/371472 [4:22:44<13:08:23,  3.75it/s] 52%|█████▏    | 194005/371472 [4:22:44<13:58:03,  3.53it/s] 52%|█████▏    | 194006/371472 [4:22:44<13:37:34,  3.62it/s] 52%|█████▏    | 194007/371472 [4:22:45<13:26:13,  3.67it/s] 52%|█████▏    | 194008/371472 [4:22:45<13:11:54,  3.73it/s] 52%|█████▏    | 194009/371472 [4:22:45<13:37:55,  3.62it/s] 52%|█████▏    | 194010/371472 [4:22:46<13:25:13,  3.67it/s] 52%|█████▏    | 194011/371472 [4:22:46<13:43:41,  3.59it/s] 52%|█████▏    | 194012/371472 [4:22:46<13:34:28,  3.63it/s] 52%|█████▏    | 194013/371472 [4:22:46<12:59:52,  3.79it/s] 52%|█████▏    | 194014/371472 [4:22:47<13:45:20,  3.58it/s] 52%|█████▏    | 194015/371472 [4:22:47<14:32:32,  3.39it/s] 52%|█████▏    | 194016/371472 [4:22:47<14:07:23,  3.49it/s] 52%|█████▏    | 194017/371472 [4:22:47<14:02:13,  3.51it/s] 52%|█████▏    | 194018/371472 [4:22:48<15:08:52,  3.25it/s] 52%|█████▏    | 194019/371472 [4:22:48<14:31:35,  3.39it/s] 52%|█████▏    | 194020/371472 [4:22:48<14:45:07,  3.34it/s]                                                            {'loss': 2.9409, 'learning_rate': 5.301611756340365e-07, 'epoch': 8.36}
 52%|█████▏    | 194020/371472 [4:22:48<14:45:07,  3.34it/s] 52%|█████▏    | 194021/371472 [4:22:49<14:34:31,  3.38it/s] 52%|█████▏    | 194022/371472 [4:22:49<14:41:09,  3.36it/s] 52%|█████▏    | 194023/371472 [4:22:49<14:07:15,  3.49it/s] 52%|█████▏    | 194024/371472 [4:22:50<14:07:30,  3.49it/s] 52%|█████▏    | 194025/371472 [4:22:50<13:55:57,  3.54it/s] 52%|█████▏    | 194026/371472 [4:22:50<14:09:18,  3.48it/s] 52%|█████▏    | 194027/371472 [4:22:50<13:53:28,  3.55it/s] 52%|█████▏    | 194028/371472 [4:22:51<13:49:37,  3.56it/s] 52%|█████▏    | 194029/371472 [4:22:51<14:15:02,  3.46it/s] 52%|█████▏    | 194030/371472 [4:22:51<13:57:29,  3.53it/s] 52%|█████▏    | 194031/371472 [4:22:52<13:36:37,  3.62it/s] 52%|█████▏    | 194032/371472 [4:22:52<14:12:48,  3.47it/s] 52%|█████▏    | 194033/371472 [4:22:52<13:39:39,  3.61it/s] 52%|█████▏    | 194034/371472 [4:22:52<13:21:39,  3.69it/s] 52%|█████▏    | 194035/371472 [4:22:53<13:24:10,  3.68it/s] 52%|█████▏    | 194036/371472 [4:22:53<13:10:54,  3.74it/s] 52%|█████▏    | 194037/371472 [4:22:53<12:54:09,  3.82it/s] 52%|█████▏    | 194038/371472 [4:22:53<12:55:56,  3.81it/s] 52%|█████▏    | 194039/371472 [4:22:54<12:38:55,  3.90it/s] 52%|█████▏    | 194040/371472 [4:22:54<12:48:22,  3.85it/s]                                                            {'loss': 3.075, 'learning_rate': 5.301126936585575e-07, 'epoch': 8.36}
 52%|█████▏    | 194040/371472 [4:22:54<12:48:22,  3.85it/s] 52%|█████▏    | 194041/371472 [4:22:54<13:00:19,  3.79it/s] 52%|█████▏    | 194042/371472 [4:22:54<12:33:38,  3.92it/s] 52%|█████▏    | 194043/371472 [4:22:55<12:44:36,  3.87it/s] 52%|█████▏    | 194044/371472 [4:22:55<12:34:16,  3.92it/s] 52%|█████▏    | 194045/371472 [4:22:55<12:38:29,  3.90it/s] 52%|█████▏    | 194046/371472 [4:22:55<12:34:49,  3.92it/s] 52%|█████▏    | 194047/371472 [4:22:56<12:53:04,  3.83it/s] 52%|█████▏    | 194048/371472 [4:22:56<15:23:05,  3.20it/s] 52%|█████▏    | 194049/371472 [4:22:56<14:31:33,  3.39it/s] 52%|█████▏    | 194050/371472 [4:22:57<14:41:24,  3.35it/s] 52%|█████▏    | 194051/371472 [4:22:57<14:38:01,  3.37it/s] 52%|█████▏    | 194052/371472 [4:22:57<14:15:13,  3.46it/s] 52%|█████▏    | 194053/371472 [4:22:58<14:14:46,  3.46it/s] 52%|█████▏    | 194054/371472 [4:22:58<13:49:38,  3.56it/s] 52%|█████▏    | 194055/371472 [4:22:58<13:35:44,  3.62it/s] 52%|█████▏    | 194056/371472 [4:22:58<13:33:23,  3.64it/s] 52%|█████▏    | 194057/371472 [4:22:59<13:30:03,  3.65it/s] 52%|█████▏    | 194058/371472 [4:22:59<14:09:04,  3.48it/s] 52%|█████▏    | 194059/371472 [4:22:59<13:49:01,  3.57it/s] 52%|█████▏    | 194060/371472 [4:23:00<14:17:12,  3.45it/s]                                                            {'loss': 2.8815, 'learning_rate': 5.300642116830787e-07, 'epoch': 8.36}
 52%|█████▏    | 194060/371472 [4:23:00<14:17:12,  3.45it/s] 52%|█████▏    | 194061/371472 [4:23:00<14:10:14,  3.48it/s] 52%|█████▏    | 194062/371472 [4:23:00<14:57:57,  3.29it/s] 52%|█████▏    | 194063/371472 [4:23:00<14:52:22,  3.31it/s] 52%|█████▏    | 194064/371472 [4:23:01<14:28:49,  3.40it/s] 52%|█████▏    | 194065/371472 [4:23:01<13:53:05,  3.55it/s] 52%|█████▏    | 194066/371472 [4:23:01<13:36:34,  3.62it/s] 52%|█████▏    | 194067/371472 [4:23:01<13:19:06,  3.70it/s] 52%|█████▏    | 194068/371472 [4:23:02<13:49:56,  3.56it/s] 52%|█████▏    | 194069/371472 [4:23:02<13:37:44,  3.62it/s] 52%|█████▏    | 194070/371472 [4:23:02<13:59:55,  3.52it/s] 52%|█████▏    | 194071/371472 [4:23:03<14:07:02,  3.49it/s] 52%|█████▏    | 194072/371472 [4:23:03<14:50:59,  3.32it/s] 52%|█████▏    | 194073/371472 [4:23:03<14:45:57,  3.34it/s] 52%|█████▏    | 194074/371472 [4:23:04<15:13:36,  3.24it/s] 52%|█████▏    | 194075/371472 [4:23:04<14:45:06,  3.34it/s] 52%|█████▏    | 194076/371472 [4:23:04<14:07:46,  3.49it/s] 52%|█████▏    | 194077/371472 [4:23:04<14:01:52,  3.51it/s] 52%|█████▏    | 194078/371472 [4:23:05<13:53:39,  3.55it/s] 52%|█████▏    | 194079/371472 [4:23:05<14:29:19,  3.40it/s] 52%|█████▏    | 194080/371472 [4:23:05<14:29:00,  3.40it/s]                                                            {'loss': 2.9418, 'learning_rate': 5.300157297075998e-07, 'epoch': 8.36}
 52%|█████▏    | 194080/371472 [4:23:05<14:29:00,  3.40it/s] 52%|█████▏    | 194081/371472 [4:23:06<13:59:33,  3.52it/s] 52%|█████▏    | 194082/371472 [4:23:06<13:56:04,  3.54it/s] 52%|█████▏    | 194083/371472 [4:23:06<14:02:50,  3.51it/s] 52%|█████▏    | 194084/371472 [4:23:06<13:48:04,  3.57it/s] 52%|█████▏    | 194085/371472 [4:23:07<13:29:29,  3.65it/s] 52%|█████▏    | 194086/371472 [4:23:07<13:14:59,  3.72it/s] 52%|█████▏    | 194087/371472 [4:23:07<13:04:04,  3.77it/s] 52%|█████▏    | 194088/371472 [4:23:07<13:03:32,  3.77it/s] 52%|█████▏    | 194089/371472 [4:23:08<12:55:20,  3.81it/s] 52%|█████▏    | 194090/371472 [4:23:08<13:00:18,  3.79it/s] 52%|█████▏    | 194091/371472 [4:23:08<13:40:56,  3.60it/s] 52%|█████▏    | 194092/371472 [4:23:09<13:25:37,  3.67it/s] 52%|█████▏    | 194093/371472 [4:23:09<13:33:45,  3.63it/s] 52%|█████▏    | 194094/371472 [4:23:09<13:38:02,  3.61it/s] 52%|█████▏    | 194095/371472 [4:23:09<14:07:45,  3.49it/s] 52%|█████▏    | 194096/371472 [4:23:10<14:20:36,  3.44it/s] 52%|█████▏    | 194097/371472 [4:23:10<14:21:00,  3.43it/s] 52%|█████▏    | 194098/371472 [4:23:10<15:27:59,  3.19it/s] 52%|█████▏    | 194099/371472 [4:23:11<15:41:03,  3.14it/s] 52%|█████▏    | 194100/371472 [4:23:11<15:03:15,  3.27it/s]                                                            {'loss': 3.0304, 'learning_rate': 5.29967247732121e-07, 'epoch': 8.36}
 52%|█████▏    | 194100/371472 [4:23:11<15:03:15,  3.27it/s] 52%|█████▏    | 194101/371472 [4:23:11<14:22:12,  3.43it/s] 52%|█████▏    | 194102/371472 [4:23:12<14:51:13,  3.32it/s] 52%|█████▏    | 194103/371472 [4:23:12<14:56:32,  3.30it/s] 52%|█████▏    | 194104/371472 [4:23:12<16:34:21,  2.97it/s] 52%|█████▏    | 194105/371472 [4:23:13<16:13:41,  3.04it/s] 52%|█████▏    | 194106/371472 [4:23:13<15:05:16,  3.27it/s] 52%|█████▏    | 194107/371472 [4:23:13<14:50:07,  3.32it/s] 52%|█████▏    | 194108/371472 [4:23:13<15:06:02,  3.26it/s] 52%|█████▏    | 194109/371472 [4:23:14<14:31:09,  3.39it/s] 52%|█████▏    | 194110/371472 [4:23:14<14:15:47,  3.45it/s] 52%|█████▏    | 194111/371472 [4:23:14<13:31:52,  3.64it/s] 52%|█████▏    | 194112/371472 [4:23:15<13:58:23,  3.53it/s] 52%|█████▏    | 194113/371472 [4:23:15<14:40:00,  3.36it/s] 52%|█████▏    | 194114/371472 [4:23:15<14:25:40,  3.41it/s] 52%|█████▏    | 194115/371472 [4:23:15<14:38:36,  3.36it/s] 52%|█████▏    | 194116/371472 [4:23:16<14:24:04,  3.42it/s] 52%|█████▏    | 194117/371472 [4:23:16<15:17:19,  3.22it/s] 52%|█████▏    | 194118/371472 [4:23:16<16:13:57,  3.03it/s] 52%|█████▏    | 194119/371472 [4:23:17<16:16:08,  3.03it/s] 52%|█████▏    | 194120/371472 [4:23:17<15:18:50,  3.22it/s]                                                            {'loss': 3.1428, 'learning_rate': 5.29918765756642e-07, 'epoch': 8.36}
 52%|█████▏    | 194120/371472 [4:23:17<15:18:50,  3.22it/s] 52%|█████▏    | 194121/371472 [4:23:17<14:47:19,  3.33it/s] 52%|█████▏    | 194122/371472 [4:23:18<14:11:55,  3.47it/s] 52%|█████▏    | 194123/371472 [4:23:18<13:48:21,  3.57it/s] 52%|█████▏    | 194124/371472 [4:23:18<14:15:01,  3.46it/s] 52%|█████▏    | 194125/371472 [4:23:18<14:00:46,  3.52it/s] 52%|█████▏    | 194126/371472 [4:23:19<13:41:23,  3.60it/s] 52%|█████▏    | 194127/371472 [4:23:19<14:14:53,  3.46it/s] 52%|█████▏    | 194128/371472 [4:23:19<13:50:16,  3.56it/s] 52%|█████▏    | 194129/371472 [4:23:20<13:38:17,  3.61it/s] 52%|█████▏    | 194130/371472 [4:23:20<13:35:18,  3.63it/s] 52%|█████▏    | 194131/371472 [4:23:20<13:40:27,  3.60it/s] 52%|█████▏    | 194132/371472 [4:23:20<13:36:05,  3.62it/s] 52%|█████▏    | 194133/371472 [4:23:21<13:26:06,  3.67it/s] 52%|█████▏    | 194134/371472 [4:23:21<13:37:27,  3.62it/s] 52%|█████▏    | 194135/371472 [4:23:21<13:57:55,  3.53it/s] 52%|█████▏    | 194136/371472 [4:23:22<13:30:09,  3.65it/s] 52%|█████▏    | 194137/371472 [4:23:22<12:59:27,  3.79it/s] 52%|█████▏    | 194138/371472 [4:23:22<13:14:09,  3.72it/s] 52%|█████▏    | 194139/371472 [4:23:22<13:01:41,  3.78it/s] 52%|█████▏    | 194140/371472 [4:23:23<13:08:08,  3.75it/s]                                                            {'loss': 2.9946, 'learning_rate': 5.298702837811631e-07, 'epoch': 8.36}
 52%|█████▏    | 194140/371472 [4:23:23<13:08:08,  3.75it/s] 52%|█████▏    | 194141/371472 [4:23:23<12:57:16,  3.80it/s] 52%|█████▏    | 194142/371472 [4:23:23<13:00:23,  3.79it/s] 52%|█████▏    | 194143/371472 [4:23:23<14:33:09,  3.38it/s] 52%|█████▏    | 194144/371472 [4:23:24<15:05:42,  3.26it/s] 52%|█████▏    | 194145/371472 [4:23:24<15:16:21,  3.23it/s] 52%|█████▏    | 194146/371472 [4:23:24<15:03:49,  3.27it/s] 52%|█████▏    | 194147/371472 [4:23:25<14:14:59,  3.46it/s] 52%|█████▏    | 194148/371472 [4:23:25<14:07:46,  3.49it/s] 52%|█████▏    | 194149/371472 [4:23:25<13:50:23,  3.56it/s] 52%|█████▏    | 194150/371472 [4:23:25<13:50:40,  3.56it/s] 52%|█████▏    | 194151/371472 [4:23:26<13:38:44,  3.61it/s] 52%|█████▏    | 194152/371472 [4:23:26<13:25:37,  3.67it/s] 52%|█████▏    | 194153/371472 [4:23:26<13:22:31,  3.68it/s] 52%|█████▏    | 194154/371472 [4:23:27<14:10:32,  3.47it/s] 52%|█████▏    | 194155/371472 [4:23:27<14:34:57,  3.38it/s] 52%|█████▏    | 194156/371472 [4:23:27<14:12:51,  3.47it/s] 52%|█████▏    | 194157/371472 [4:23:27<14:13:08,  3.46it/s] 52%|█████▏    | 194158/371472 [4:23:28<15:08:18,  3.25it/s] 52%|█████▏    | 194159/371472 [4:23:28<14:32:30,  3.39it/s] 52%|█████▏    | 194160/371472 [4:23:28<15:48:58,  3.11it/s]                                                            {'loss': 2.8491, 'learning_rate': 5.298218018056842e-07, 'epoch': 8.36}
 52%|█████▏    | 194160/371472 [4:23:28<15:48:58,  3.11it/s] 52%|█████▏    | 194161/371472 [4:23:29<15:02:11,  3.28it/s] 52%|█████▏    | 194162/371472 [4:23:29<15:01:55,  3.28it/s] 52%|█████▏    | 194163/371472 [4:23:29<14:49:03,  3.32it/s] 52%|█████▏    | 194164/371472 [4:23:30<14:21:48,  3.43it/s] 52%|█████▏    | 194165/371472 [4:23:30<14:05:02,  3.50it/s] 52%|█████▏    | 194166/371472 [4:23:30<13:39:24,  3.61it/s] 52%|█████▏    | 194167/371472 [4:23:30<14:28:22,  3.40it/s] 52%|█████▏    | 194168/371472 [4:23:31<13:57:57,  3.53it/s] 52%|█████▏    | 194169/371472 [4:23:31<14:57:47,  3.29it/s] 52%|█████▏    | 194170/371472 [4:23:31<14:32:44,  3.39it/s] 52%|█████▏    | 194171/371472 [4:23:32<15:54:53,  3.09it/s] 52%|█████▏    | 194172/371472 [4:23:32<14:52:42,  3.31it/s] 52%|█████▏    | 194173/371472 [4:23:32<14:33:59,  3.38it/s] 52%|█████▏    | 194174/371472 [4:23:33<14:03:01,  3.51it/s] 52%|█████▏    | 194175/371472 [4:23:33<13:30:55,  3.64it/s] 52%|█████▏    | 194176/371472 [4:23:33<13:06:11,  3.76it/s] 52%|█████▏    | 194177/371472 [4:23:33<15:05:43,  3.26it/s] 52%|█████▏    | 194178/371472 [4:23:34<14:42:46,  3.35it/s] 52%|█████▏    | 194179/371472 [4:23:34<14:31:52,  3.39it/s] 52%|█████▏    | 194180/371472 [4:23:34<14:18:43,  3.44it/s]                                                            {'loss': 2.9922, 'learning_rate': 5.297733198302052e-07, 'epoch': 8.36}
 52%|█████▏    | 194180/371472 [4:23:34<14:18:43,  3.44it/s] 52%|█████▏    | 194181/371472 [4:23:35<14:25:35,  3.41it/s] 52%|█████▏    | 194182/371472 [4:23:35<15:00:43,  3.28it/s] 52%|█████▏    | 194183/371472 [4:23:35<14:27:45,  3.41it/s] 52%|█████▏    | 194184/371472 [4:23:35<13:55:14,  3.54it/s] 52%|█████▏    | 194185/371472 [4:23:36<14:34:21,  3.38it/s] 52%|█████▏    | 194186/371472 [4:23:36<14:15:34,  3.45it/s] 52%|█████▏    | 194187/371472 [4:23:36<13:41:20,  3.60it/s] 52%|█████▏    | 194188/371472 [4:23:37<13:51:23,  3.55it/s] 52%|█████▏    | 194189/371472 [4:23:37<14:02:21,  3.51it/s] 52%|█████▏    | 194190/371472 [4:23:37<14:24:54,  3.42it/s] 52%|█████▏    | 194191/371472 [4:23:37<13:48:19,  3.57it/s] 52%|█████▏    | 194192/371472 [4:23:38<14:00:32,  3.52it/s] 52%|█████▏    | 194193/371472 [4:23:38<13:51:55,  3.55it/s] 52%|█████▏    | 194194/371472 [4:23:38<14:37:13,  3.37it/s] 52%|█████▏    | 194195/371472 [4:23:39<13:55:39,  3.54it/s] 52%|█████▏    | 194196/371472 [4:23:39<14:26:23,  3.41it/s] 52%|█████▏    | 194197/371472 [4:23:39<14:34:12,  3.38it/s] 52%|█████▏    | 194198/371472 [4:23:39<14:13:44,  3.46it/s] 52%|█████▏    | 194199/371472 [4:23:40<14:25:23,  3.41it/s] 52%|█████▏    | 194200/371472 [4:23:40<14:13:11,  3.46it/s]                                                            {'loss': 3.1092, 'learning_rate': 5.297248378547264e-07, 'epoch': 8.36}
 52%|█████▏    | 194200/371472 [4:23:40<14:13:11,  3.46it/s] 52%|█████▏    | 194201/371472 [4:23:40<14:43:06,  3.35it/s] 52%|█████▏    | 194202/371472 [4:23:41<14:10:22,  3.47it/s] 52%|█████▏    | 194203/371472 [4:23:41<13:49:13,  3.56it/s] 52%|█████▏    | 194204/371472 [4:23:41<13:55:33,  3.54it/s] 52%|█████▏    | 194205/371472 [4:23:41<13:52:04,  3.55it/s] 52%|█████▏    | 194206/371472 [4:23:42<13:53:51,  3.54it/s] 52%|█████▏    | 194207/371472 [4:23:42<14:11:06,  3.47it/s] 52%|█████▏    | 194208/371472 [4:23:42<14:18:59,  3.44it/s] 52%|█████▏    | 194209/371472 [4:23:43<13:53:18,  3.55it/s] 52%|█████▏    | 194210/371472 [4:23:43<14:05:10,  3.50it/s] 52%|█████▏    | 194211/371472 [4:23:43<13:39:36,  3.60it/s] 52%|█████▏    | 194212/371472 [4:23:43<13:19:42,  3.69it/s] 52%|█████▏    | 194213/371472 [4:23:44<13:20:55,  3.69it/s] 52%|█████▏    | 194214/371472 [4:23:44<13:03:59,  3.77it/s] 52%|█████▏    | 194215/371472 [4:23:44<13:21:28,  3.69it/s] 52%|█████▏    | 194216/371472 [4:23:45<13:39:54,  3.60it/s] 52%|█████▏    | 194217/371472 [4:23:45<13:50:23,  3.56it/s] 52%|█████▏    | 194218/371472 [4:23:45<14:08:45,  3.48it/s] 52%|█████▏    | 194219/371472 [4:23:45<13:59:22,  3.52it/s] 52%|█████▏    | 194220/371472 [4:23:46<15:42:24,  3.13it/s]                                                            {'loss': 3.0057, 'learning_rate': 5.296763558792475e-07, 'epoch': 8.37}
 52%|█████▏    | 194220/371472 [4:23:46<15:42:24,  3.13it/s] 52%|█████▏    | 194221/371472 [4:23:46<15:29:48,  3.18it/s] 52%|█████▏    | 194222/371472 [4:23:46<15:42:15,  3.14it/s] 52%|█████▏    | 194223/371472 [4:23:47<16:03:43,  3.07it/s] 52%|█████▏    | 194224/371472 [4:23:47<14:55:51,  3.30it/s] 52%|█████▏    | 194225/371472 [4:23:47<14:43:14,  3.34it/s] 52%|█████▏    | 194226/371472 [4:23:48<14:18:55,  3.44it/s] 52%|█████▏    | 194227/371472 [4:23:48<14:03:59,  3.50it/s] 52%|█████▏    | 194228/371472 [4:23:48<13:48:43,  3.56it/s] 52%|█████▏    | 194229/371472 [4:23:48<13:33:46,  3.63it/s] 52%|█████▏    | 194230/371472 [4:23:49<13:36:47,  3.62it/s] 52%|█████▏    | 194231/371472 [4:23:49<13:15:04,  3.72it/s] 52%|█████▏    | 194232/371472 [4:23:49<13:33:07,  3.63it/s] 52%|█████▏    | 194233/371472 [4:23:50<14:10:20,  3.47it/s] 52%|█████▏    | 194234/371472 [4:23:50<14:02:10,  3.51it/s] 52%|█████▏    | 194235/371472 [4:23:50<13:56:28,  3.53it/s] 52%|█████▏    | 194236/371472 [4:23:50<13:49:54,  3.56it/s] 52%|█████▏    | 194237/371472 [4:23:51<13:32:45,  3.63it/s] 52%|█████▏    | 194238/371472 [4:23:51<13:19:53,  3.69it/s] 52%|█████▏    | 194239/371472 [4:23:51<13:24:41,  3.67it/s] 52%|█████▏    | 194240/371472 [4:23:51<13:30:31,  3.64it/s]                                                            {'loss': 2.891, 'learning_rate': 5.296278739037687e-07, 'epoch': 8.37}
 52%|█████▏    | 194240/371472 [4:23:51<13:30:31,  3.64it/s] 52%|█████▏    | 194241/371472 [4:23:52<13:06:26,  3.76it/s] 52%|█████▏    | 194242/371472 [4:23:52<13:23:24,  3.68it/s] 52%|█████▏    | 194243/371472 [4:23:52<13:47:39,  3.57it/s] 52%|█████▏    | 194244/371472 [4:23:53<13:42:45,  3.59it/s] 52%|█████▏    | 194245/371472 [4:23:53<13:48:01,  3.57it/s] 52%|█████▏    | 194246/371472 [4:23:53<13:42:38,  3.59it/s] 52%|█████▏    | 194247/371472 [4:23:53<13:48:37,  3.56it/s] 52%|█████▏    | 194248/371472 [4:23:54<13:24:49,  3.67it/s] 52%|█████▏    | 194249/371472 [4:23:54<13:19:27,  3.69it/s] 52%|█████▏    | 194250/371472 [4:23:54<13:35:36,  3.62it/s] 52%|█████▏    | 194251/371472 [4:23:54<13:37:03,  3.62it/s] 52%|█████▏    | 194252/371472 [4:23:55<14:50:04,  3.32it/s] 52%|█████▏    | 194253/371472 [4:23:55<14:21:09,  3.43it/s] 52%|█████▏    | 194254/371472 [4:23:55<14:01:21,  3.51it/s] 52%|█████▏    | 194255/371472 [4:23:56<13:38:46,  3.61it/s] 52%|█████▏    | 194256/371472 [4:23:56<13:31:14,  3.64it/s] 52%|█████▏    | 194257/371472 [4:23:56<14:07:23,  3.49it/s] 52%|█████▏    | 194258/371472 [4:23:56<13:59:03,  3.52it/s] 52%|█████▏    | 194259/371472 [4:23:57<14:22:02,  3.43it/s] 52%|█████▏    | 194260/371472 [4:23:57<14:38:55,  3.36it/s]                                                            {'loss': 2.9586, 'learning_rate': 5.295793919282897e-07, 'epoch': 8.37}
 52%|█████▏    | 194260/371472 [4:23:57<14:38:55,  3.36it/s] 52%|█████▏    | 194261/371472 [4:23:57<14:58:49,  3.29it/s] 52%|█████▏    | 194262/371472 [4:23:58<15:07:18,  3.26it/s] 52%|█████▏    | 194263/371472 [4:23:58<14:55:01,  3.30it/s] 52%|█████▏    | 194264/371472 [4:23:58<15:05:32,  3.26it/s] 52%|█████▏    | 194265/371472 [4:23:59<14:37:14,  3.37it/s] 52%|█████▏    | 194266/371472 [4:23:59<14:37:19,  3.37it/s] 52%|█████▏    | 194267/371472 [4:23:59<14:02:40,  3.50it/s] 52%|█████▏    | 194268/371472 [4:24:00<14:37:55,  3.36it/s] 52%|█████▏    | 194269/371472 [4:24:00<14:19:14,  3.44it/s] 52%|█████▏    | 194270/371472 [4:24:00<15:15:04,  3.23it/s] 52%|█████▏    | 194271/371472 [4:24:00<14:20:24,  3.43it/s] 52%|█████▏    | 194272/371472 [4:24:01<15:17:10,  3.22it/s] 52%|█████▏    | 194273/371472 [4:24:01<16:57:41,  2.90it/s] 52%|█████▏    | 194274/371472 [4:24:01<15:54:27,  3.09it/s] 52%|█████▏    | 194275/371472 [4:24:02<15:40:51,  3.14it/s] 52%|█████▏    | 194276/371472 [4:24:02<15:06:33,  3.26it/s] 52%|█████▏    | 194277/371472 [4:24:02<14:45:42,  3.33it/s] 52%|█████▏    | 194278/371472 [4:24:03<14:16:18,  3.45it/s] 52%|█████▏    | 194279/371472 [4:24:03<14:34:52,  3.38it/s] 52%|█████▏    | 194280/371472 [4:24:03<13:55:51,  3.53it/s]                                                            {'loss': 2.8934, 'learning_rate': 5.295309099528108e-07, 'epoch': 8.37}
 52%|█████▏    | 194280/371472 [4:24:03<13:55:51,  3.53it/s] 52%|█████▏    | 194281/371472 [4:24:03<14:17:59,  3.44it/s] 52%|█████▏    | 194282/371472 [4:24:04<13:53:45,  3.54it/s] 52%|█████▏    | 194283/371472 [4:24:04<14:11:55,  3.47it/s] 52%|█████▏    | 194284/371472 [4:24:04<14:13:33,  3.46it/s] 52%|█████▏    | 194285/371472 [4:24:05<13:58:12,  3.52it/s] 52%|█████▏    | 194286/371472 [4:24:05<13:43:39,  3.59it/s] 52%|█████▏    | 194287/371472 [4:24:05<14:41:04,  3.35it/s] 52%|█████▏    | 194288/371472 [4:24:06<16:27:53,  2.99it/s] 52%|█████▏    | 194289/371472 [4:24:06<15:28:12,  3.18it/s] 52%|█████▏    | 194290/371472 [4:24:06<14:24:32,  3.42it/s] 52%|█████▏    | 194291/371472 [4:24:06<15:13:01,  3.23it/s] 52%|█████▏    | 194292/371472 [4:24:07<14:32:05,  3.39it/s] 52%|█████▏    | 194293/371472 [4:24:07<14:54:36,  3.30it/s] 52%|█████▏    | 194294/371472 [4:24:07<14:24:22,  3.42it/s] 52%|█████▏    | 194295/371472 [4:24:08<14:20:30,  3.43it/s] 52%|█████▏    | 194296/371472 [4:24:08<14:21:39,  3.43it/s] 52%|█████▏    | 194297/371472 [4:24:08<13:44:59,  3.58it/s] 52%|█████▏    | 194298/371472 [4:24:08<13:39:25,  3.60it/s] 52%|█████▏    | 194299/371472 [4:24:09<16:41:56,  2.95it/s] 52%|█████▏    | 194300/371472 [4:24:09<15:36:12,  3.15it/s]                                                            {'loss': 3.115, 'learning_rate': 5.294824279773319e-07, 'epoch': 8.37}
 52%|█████▏    | 194300/371472 [4:24:09<15:36:12,  3.15it/s] 52%|█████▏    | 194301/371472 [4:24:09<15:08:14,  3.25it/s] 52%|█████▏    | 194302/371472 [4:24:10<14:31:02,  3.39it/s] 52%|█████▏    | 194303/371472 [4:24:10<15:16:10,  3.22it/s] 52%|█████▏    | 194304/371472 [4:24:10<14:47:08,  3.33it/s] 52%|█████▏    | 194305/371472 [4:24:11<13:56:39,  3.53it/s] 52%|█████▏    | 194306/371472 [4:24:11<14:27:36,  3.40it/s] 52%|█████▏    | 194307/371472 [4:24:11<14:07:00,  3.49it/s] 52%|█████▏    | 194308/371472 [4:24:11<14:00:43,  3.51it/s] 52%|█████▏    | 194309/371472 [4:24:12<13:44:04,  3.58it/s] 52%|█████▏    | 194310/371472 [4:24:12<13:34:25,  3.63it/s] 52%|█████▏    | 194311/371472 [4:24:12<13:15:38,  3.71it/s] 52%|█████▏    | 194312/371472 [4:24:13<14:04:20,  3.50it/s] 52%|█████▏    | 194313/371472 [4:24:13<14:14:19,  3.46it/s] 52%|█████▏    | 194314/371472 [4:24:13<14:22:51,  3.42it/s] 52%|█████▏    | 194315/371472 [4:24:13<15:00:12,  3.28it/s] 52%|█████▏    | 194316/371472 [4:24:14<14:26:47,  3.41it/s] 52%|█████▏    | 194317/371472 [4:24:14<13:58:18,  3.52it/s] 52%|█████▏    | 194318/371472 [4:24:14<13:42:12,  3.59it/s] 52%|█████▏    | 194319/371472 [4:24:15<13:27:20,  3.66it/s] 52%|█████▏    | 194320/371472 [4:24:15<13:30:43,  3.64it/s]                                                            {'loss': 2.8654, 'learning_rate': 5.294339460018531e-07, 'epoch': 8.37}
 52%|█████▏    | 194320/371472 [4:24:15<13:30:43,  3.64it/s] 52%|█████▏    | 194321/371472 [4:24:15<14:35:02,  3.37it/s] 52%|█████▏    | 194322/371472 [4:24:15<14:34:03,  3.38it/s] 52%|█████▏    | 194323/371472 [4:24:16<15:36:01,  3.15it/s] 52%|█████▏    | 194324/371472 [4:24:16<15:15:53,  3.22it/s] 52%|█████▏    | 194325/371472 [4:24:16<14:28:34,  3.40it/s] 52%|█████▏    | 194326/371472 [4:24:17<13:37:25,  3.61it/s] 52%|█████▏    | 194327/371472 [4:24:17<13:50:59,  3.55it/s] 52%|█████▏    | 194328/371472 [4:24:17<13:33:16,  3.63it/s] 52%|█████▏    | 194329/371472 [4:24:17<13:44:20,  3.58it/s] 52%|█████▏    | 194330/371472 [4:24:18<13:39:12,  3.60it/s] 52%|█████▏    | 194331/371472 [4:24:18<13:29:14,  3.65it/s] 52%|█████▏    | 194332/371472 [4:24:18<13:26:30,  3.66it/s] 52%|█████▏    | 194333/371472 [4:24:19<12:54:49,  3.81it/s] 52%|█████▏    | 194334/371472 [4:24:19<13:18:18,  3.70it/s] 52%|█████▏    | 194335/371472 [4:24:19<13:42:40,  3.59it/s] 52%|█████▏    | 194336/371472 [4:24:19<14:52:16,  3.31it/s] 52%|█████▏    | 194337/371472 [4:24:20<14:17:53,  3.44it/s] 52%|█████▏    | 194338/371472 [4:24:20<14:14:15,  3.46it/s] 52%|█████▏    | 194339/371472 [4:24:20<14:11:14,  3.47it/s] 52%|█████▏    | 194340/371472 [4:24:21<14:05:40,  3.49it/s]                                                            {'loss': 3.0808, 'learning_rate': 5.293854640263741e-07, 'epoch': 8.37}
 52%|█████▏    | 194340/371472 [4:24:21<14:05:40,  3.49it/s] 52%|█████▏    | 194341/371472 [4:24:21<15:35:37,  3.16it/s] 52%|█████▏    | 194342/371472 [4:24:21<15:04:41,  3.26it/s] 52%|█████▏    | 194343/371472 [4:24:22<14:32:21,  3.38it/s] 52%|█████▏    | 194344/371472 [4:24:22<14:57:01,  3.29it/s] 52%|█████▏    | 194345/371472 [4:24:22<14:41:51,  3.35it/s] 52%|█████▏    | 194346/371472 [4:24:22<14:08:01,  3.48it/s] 52%|█████▏    | 194347/371472 [4:24:23<13:54:17,  3.54it/s] 52%|█████▏    | 194348/371472 [4:24:23<13:31:26,  3.64it/s] 52%|█████▏    | 194349/371472 [4:24:23<13:29:26,  3.65it/s] 52%|█████▏    | 194350/371472 [4:24:24<15:32:14,  3.17it/s] 52%|█████▏    | 194351/371472 [4:24:24<15:08:35,  3.25it/s] 52%|█████▏    | 194352/371472 [4:24:24<14:46:09,  3.33it/s] 52%|█████▏    | 194353/371472 [4:24:24<14:26:02,  3.41it/s] 52%|█████▏    | 194354/371472 [4:24:25<13:35:57,  3.62it/s] 52%|█████▏    | 194355/371472 [4:24:25<13:39:40,  3.60it/s] 52%|█████▏    | 194356/371472 [4:24:25<13:22:22,  3.68it/s] 52%|█████▏    | 194357/371472 [4:24:26<13:30:37,  3.64it/s] 52%|█████▏    | 194358/371472 [4:24:26<13:32:01,  3.64it/s] 52%|█████▏    | 194359/371472 [4:24:26<13:10:22,  3.73it/s] 52%|█████▏    | 194360/371472 [4:24:26<13:30:56,  3.64it/s]                                                            {'loss': 2.9309, 'learning_rate': 5.293369820508953e-07, 'epoch': 8.37}
 52%|█████▏    | 194360/371472 [4:24:26<13:30:56,  3.64it/s] 52%|█████▏    | 194361/371472 [4:24:27<14:14:10,  3.46it/s] 52%|█████▏    | 194362/371472 [4:24:27<14:40:29,  3.35it/s] 52%|█████▏    | 194363/371472 [4:24:27<14:43:03,  3.34it/s] 52%|█████▏    | 194364/371472 [4:24:28<14:12:24,  3.46it/s] 52%|█████▏    | 194365/371472 [4:24:28<14:00:47,  3.51it/s] 52%|█████▏    | 194366/371472 [4:24:28<14:11:40,  3.47it/s] 52%|█████▏    | 194367/371472 [4:24:28<13:29:58,  3.64it/s] 52%|█████▏    | 194368/371472 [4:24:29<13:35:23,  3.62it/s] 52%|█████▏    | 194369/371472 [4:24:29<14:01:44,  3.51it/s] 52%|█████▏    | 194370/371472 [4:24:29<14:37:48,  3.36it/s] 52%|█████▏    | 194371/371472 [4:24:30<14:01:42,  3.51it/s] 52%|█████▏    | 194372/371472 [4:24:30<13:46:12,  3.57it/s] 52%|█████▏    | 194373/371472 [4:24:30<14:39:45,  3.36it/s] 52%|█████▏    | 194374/371472 [4:24:30<14:48:03,  3.32it/s] 52%|█████▏    | 194375/371472 [4:24:31<14:48:25,  3.32it/s] 52%|█████▏    | 194376/371472 [4:24:31<14:21:37,  3.43it/s] 52%|█████▏    | 194377/371472 [4:24:31<14:05:17,  3.49it/s] 52%|█████▏    | 194378/371472 [4:24:32<13:48:41,  3.56it/s] 52%|█████▏    | 194379/371472 [4:24:32<13:22:35,  3.68it/s] 52%|█████▏    | 194380/371472 [4:24:32<13:23:14,  3.67it/s]                                                            {'loss': 2.8176, 'learning_rate': 5.292885000754164e-07, 'epoch': 8.37}
 52%|█████▏    | 194380/371472 [4:24:32<13:23:14,  3.67it/s] 52%|█████▏    | 194381/371472 [4:24:32<13:10:14,  3.73it/s] 52%|█████▏    | 194382/371472 [4:24:33<13:32:20,  3.63it/s] 52%|█████▏    | 194383/371472 [4:24:33<13:45:09,  3.58it/s] 52%|█████▏    | 194384/371472 [4:24:33<13:57:59,  3.52it/s] 52%|█████▏    | 194385/371472 [4:24:33<13:26:22,  3.66it/s] 52%|█████▏    | 194386/371472 [4:24:34<16:09:40,  3.04it/s] 52%|█████▏    | 194387/371472 [4:24:34<14:46:10,  3.33it/s] 52%|█████▏    | 194388/371472 [4:24:34<14:33:24,  3.38it/s] 52%|█████▏    | 194389/371472 [4:24:35<13:43:50,  3.58it/s] 52%|█████▏    | 194390/371472 [4:24:35<13:55:36,  3.53it/s] 52%|█████▏    | 194391/371472 [4:24:35<13:38:47,  3.60it/s] 52%|█████▏    | 194392/371472 [4:24:36<14:07:10,  3.48it/s] 52%|█████▏    | 194393/371472 [4:24:36<13:49:12,  3.56it/s] 52%|█████▏    | 194394/371472 [4:24:36<13:20:36,  3.69it/s] 52%|█████▏    | 194395/371472 [4:24:36<13:27:26,  3.66it/s] 52%|█████▏    | 194396/371472 [4:24:37<13:40:06,  3.60it/s] 52%|█████▏    | 194397/371472 [4:24:37<14:13:56,  3.46it/s] 52%|█████▏    | 194398/371472 [4:24:37<16:56:38,  2.90it/s] 52%|█████▏    | 194399/371472 [4:24:38<16:06:22,  3.05it/s] 52%|█████▏    | 194400/371472 [4:24:38<17:03:14,  2.88it/s]                                                            {'loss': 2.9922, 'learning_rate': 5.292400180999375e-07, 'epoch': 8.37}
 52%|█████▏    | 194400/371472 [4:24:38<17:03:14,  2.88it/s] 52%|█████▏    | 194401/371472 [4:24:38<17:25:31,  2.82it/s] 52%|█████▏    | 194402/371472 [4:24:39<16:15:29,  3.03it/s] 52%|█████▏    | 194403/371472 [4:24:39<15:53:47,  3.09it/s] 52%|█████▏    | 194404/371472 [4:24:39<14:58:38,  3.28it/s] 52%|█████▏    | 194405/371472 [4:24:40<14:50:51,  3.31it/s] 52%|█████▏    | 194406/371472 [4:24:40<14:39:16,  3.36it/s] 52%|█████▏    | 194407/371472 [4:24:40<14:46:40,  3.33it/s] 52%|█████▏    | 194408/371472 [4:24:40<14:29:39,  3.39it/s] 52%|█████▏    | 194409/371472 [4:24:41<14:03:36,  3.50it/s] 52%|█████▏    | 194410/371472 [4:24:41<13:38:16,  3.61it/s] 52%|█████▏    | 194411/371472 [4:24:41<13:16:47,  3.70it/s] 52%|█████▏    | 194412/371472 [4:24:42<13:00:10,  3.78it/s] 52%|█████▏    | 194413/371472 [4:24:42<12:59:17,  3.79it/s] 52%|█████▏    | 194414/371472 [4:24:42<13:47:01,  3.57it/s] 52%|█████▏    | 194415/371472 [4:24:42<13:40:34,  3.60it/s] 52%|█████▏    | 194416/371472 [4:24:43<13:45:06,  3.58it/s] 52%|█████▏    | 194417/371472 [4:24:43<13:24:32,  3.67it/s] 52%|█████▏    | 194418/371472 [4:24:43<13:45:59,  3.57it/s] 52%|█████▏    | 194419/371472 [4:24:43<13:13:04,  3.72it/s] 52%|█████▏    | 194420/371472 [4:24:44<12:55:47,  3.80it/s]                                                            {'loss': 2.9482, 'learning_rate': 5.291915361244585e-07, 'epoch': 8.37}
 52%|█████▏    | 194420/371472 [4:24:44<12:55:47,  3.80it/s] 52%|█████▏    | 194421/371472 [4:24:44<12:53:48,  3.81it/s] 52%|█████▏    | 194422/371472 [4:24:44<15:39:33,  3.14it/s] 52%|█████▏    | 194423/371472 [4:24:45<14:48:42,  3.32it/s] 52%|█████▏    | 194424/371472 [4:24:45<14:27:28,  3.40it/s] 52%|█████▏    | 194425/371472 [4:24:45<14:08:09,  3.48it/s] 52%|█████▏    | 194426/371472 [4:24:46<14:26:27,  3.41it/s] 52%|█████▏    | 194427/371472 [4:24:46<13:50:19,  3.55it/s] 52%|█████▏    | 194428/371472 [4:24:46<15:06:16,  3.26it/s] 52%|█████▏    | 194429/371472 [4:24:46<14:29:20,  3.39it/s] 52%|█████▏    | 194430/371472 [4:24:47<14:13:55,  3.46it/s] 52%|█████▏    | 194431/371472 [4:24:47<13:54:39,  3.54it/s] 52%|█████▏    | 194432/371472 [4:24:47<15:05:52,  3.26it/s] 52%|█████▏    | 194433/371472 [4:24:48<14:29:56,  3.39it/s] 52%|█████▏    | 194434/371472 [4:24:48<14:17:05,  3.44it/s] 52%|█████▏    | 194435/371472 [4:24:48<14:23:03,  3.42it/s] 52%|█████▏    | 194436/371472 [4:24:48<14:25:30,  3.41it/s] 52%|█████▏    | 194437/371472 [4:24:49<14:58:05,  3.29it/s] 52%|█████▏    | 194438/371472 [4:24:49<14:23:25,  3.42it/s] 52%|█████▏    | 194439/371472 [4:24:49<13:53:47,  3.54it/s] 52%|█████▏    | 194440/371472 [4:24:50<13:35:02,  3.62it/s]                                                            {'loss': 3.0052, 'learning_rate': 5.291430541489799e-07, 'epoch': 8.37}
 52%|█████▏    | 194440/371472 [4:24:50<13:35:02,  3.62it/s] 52%|█████▏    | 194441/371472 [4:24:50<13:19:22,  3.69it/s] 52%|█████▏    | 194442/371472 [4:24:50<13:32:24,  3.63it/s] 52%|█████▏    | 194443/371472 [4:24:50<13:06:15,  3.75it/s] 52%|█████▏    | 194444/371472 [4:24:51<13:16:13,  3.71it/s] 52%|█████▏    | 194445/371472 [4:24:51<12:55:31,  3.80it/s] 52%|█████▏    | 194446/371472 [4:24:51<13:15:58,  3.71it/s] 52%|█████▏    | 194447/371472 [4:24:51<13:22:53,  3.67it/s] 52%|█████▏    | 194448/371472 [4:24:52<13:16:49,  3.70it/s] 52%|█████▏    | 194449/371472 [4:24:52<12:52:19,  3.82it/s] 52%|█████▏    | 194450/371472 [4:24:52<17:08:30,  2.87it/s] 52%|█████▏    | 194451/371472 [4:24:53<15:58:19,  3.08it/s] 52%|█████▏    | 194452/371472 [4:24:53<15:03:14,  3.27it/s] 52%|█████▏    | 194453/371472 [4:24:53<14:40:37,  3.35it/s] 52%|█████▏    | 194454/371472 [4:24:54<14:10:15,  3.47it/s] 52%|█████▏    | 194455/371472 [4:24:54<14:03:09,  3.50it/s] 52%|█████▏    | 194456/371472 [4:24:54<13:53:37,  3.54it/s] 52%|█████▏    | 194457/371472 [4:24:54<13:15:42,  3.71it/s] 52%|█████▏    | 194458/371472 [4:24:55<13:02:10,  3.77it/s] 52%|█████▏    | 194459/371472 [4:24:55<13:21:39,  3.68it/s] 52%|█████▏    | 194460/371472 [4:24:55<13:38:11,  3.61it/s]                                                            {'loss': 3.1526, 'learning_rate': 5.290945721735008e-07, 'epoch': 8.38}
 52%|█████▏    | 194460/371472 [4:24:55<13:38:11,  3.61it/s] 52%|█████▏    | 194461/371472 [4:24:56<14:38:05,  3.36it/s] 52%|█████▏    | 194462/371472 [4:24:56<14:49:24,  3.32it/s] 52%|█████▏    | 194463/371472 [4:24:56<16:07:43,  3.05it/s] 52%|█████▏    | 194464/371472 [4:24:57<15:09:46,  3.24it/s] 52%|█████▏    | 194465/371472 [4:24:57<14:53:08,  3.30it/s] 52%|█████▏    | 194466/371472 [4:24:57<14:33:23,  3.38it/s] 52%|█████▏    | 194467/371472 [4:24:57<14:09:26,  3.47it/s] 52%|█████▏    | 194468/371472 [4:24:58<13:30:32,  3.64it/s] 52%|█████▏    | 194469/371472 [4:24:58<13:19:37,  3.69it/s] 52%|█████▏    | 194470/371472 [4:24:58<13:42:34,  3.59it/s] 52%|█████▏    | 194471/371472 [4:24:58<13:14:23,  3.71it/s] 52%|█████▏    | 194472/371472 [4:24:59<12:59:00,  3.79it/s] 52%|█████▏    | 194473/371472 [4:24:59<12:45:58,  3.85it/s] 52%|█████▏    | 194474/371472 [4:24:59<13:06:34,  3.75it/s] 52%|█████▏    | 194475/371472 [4:24:59<13:44:23,  3.58it/s] 52%|█████▏    | 194476/371472 [4:25:00<13:54:37,  3.53it/s] 52%|█████▏    | 194477/371472 [4:25:00<14:10:55,  3.47it/s] 52%|█████▏    | 194478/371472 [4:25:00<14:37:18,  3.36it/s] 52%|█████▏    | 194479/371472 [4:25:01<14:43:46,  3.34it/s] 52%|█████▏    | 194480/371472 [4:25:01<14:11:15,  3.47it/s]                                                            {'loss': 2.9556, 'learning_rate': 5.29046090198022e-07, 'epoch': 8.38}
 52%|█████▏    | 194480/371472 [4:25:01<14:11:15,  3.47it/s] 52%|█████▏    | 194481/371472 [4:25:01<13:38:49,  3.60it/s] 52%|█████▏    | 194482/371472 [4:25:02<13:48:34,  3.56it/s] 52%|█████▏    | 194483/371472 [4:25:02<13:42:37,  3.59it/s] 52%|█████▏    | 194484/371472 [4:25:02<14:44:20,  3.34it/s] 52%|█████▏    | 194485/371472 [4:25:03<16:01:09,  3.07it/s] 52%|█████▏    | 194486/371472 [4:25:03<14:46:00,  3.33it/s] 52%|█████▏    | 194487/371472 [4:25:03<14:38:18,  3.36it/s] 52%|█████▏    | 194488/371472 [4:25:03<14:10:37,  3.47it/s] 52%|█████▏    | 194489/371472 [4:25:04<13:36:49,  3.61it/s] 52%|█████▏    | 194490/371472 [4:25:04<13:26:31,  3.66it/s] 52%|█████▏    | 194491/371472 [4:25:04<13:12:45,  3.72it/s] 52%|█████▏    | 194492/371472 [4:25:04<14:12:39,  3.46it/s] 52%|█████▏    | 194493/371472 [4:25:05<14:07:14,  3.48it/s] 52%|█████▏    | 194494/371472 [4:25:05<13:59:19,  3.51it/s] 52%|█████▏    | 194495/371472 [4:25:05<13:54:41,  3.53it/s] 52%|█████▏    | 194496/371472 [4:25:06<13:23:28,  3.67it/s] 52%|█████▏    | 194497/371472 [4:25:06<13:51:37,  3.55it/s] 52%|█████▏    | 194498/371472 [4:25:06<14:12:58,  3.46it/s] 52%|█████▏    | 194499/371472 [4:25:07<17:57:52,  2.74it/s] 52%|█████▏    | 194500/371472 [4:25:07<17:09:06,  2.87it/s]                                                            {'loss': 3.1723, 'learning_rate': 5.28997608222543e-07, 'epoch': 8.38}
 52%|█████▏    | 194500/371472 [4:25:07<17:09:06,  2.87it/s] 52%|█████▏    | 194501/371472 [4:25:07<16:00:45,  3.07it/s] 52%|█████▏    | 194502/371472 [4:25:08<15:27:50,  3.18it/s] 52%|█████▏    | 194503/371472 [4:25:08<15:52:45,  3.10it/s] 52%|█████▏    | 194504/371472 [4:25:08<14:56:18,  3.29it/s] 52%|█████▏    | 194505/371472 [4:25:08<14:14:35,  3.45it/s] 52%|█████▏    | 194506/371472 [4:25:09<13:42:01,  3.59it/s] 52%|█████▏    | 194507/371472 [4:25:09<14:34:57,  3.37it/s] 52%|█████▏    | 194508/371472 [4:25:09<14:05:21,  3.49it/s] 52%|█████▏    | 194509/371472 [4:25:10<13:52:22,  3.54it/s] 52%|█████▏    | 194510/371472 [4:25:10<13:44:54,  3.58it/s] 52%|█████▏    | 194511/371472 [4:25:10<14:04:22,  3.49it/s] 52%|█████▏    | 194512/371472 [4:25:10<14:11:06,  3.47it/s] 52%|█████▏    | 194513/371472 [4:25:11<14:46:32,  3.33it/s] 52%|█████▏    | 194514/371472 [4:25:11<15:04:09,  3.26it/s] 52%|█████▏    | 194515/371472 [4:25:11<15:00:06,  3.28it/s] 52%|█████▏    | 194516/371472 [4:25:12<15:09:51,  3.24it/s] 52%|█████▏    | 194517/371472 [4:25:12<15:01:28,  3.27it/s] 52%|█████▏    | 194518/371472 [4:25:12<14:59:34,  3.28it/s] 52%|█████▏    | 194519/371472 [4:25:13<15:01:27,  3.27it/s] 52%|█████▏    | 194520/371472 [4:25:13<15:33:26,  3.16it/s]                                                            {'loss': 2.9587, 'learning_rate': 5.289491262470641e-07, 'epoch': 8.38}
 52%|█████▏    | 194520/371472 [4:25:13<15:33:26,  3.16it/s] 52%|█████▏    | 194521/371472 [4:25:13<15:07:40,  3.25it/s] 52%|█████▏    | 194522/371472 [4:25:14<15:33:46,  3.16it/s] 52%|█████▏    | 194523/371472 [4:25:14<15:02:38,  3.27it/s] 52%|█████▏    | 194524/371472 [4:25:14<15:32:34,  3.16it/s] 52%|█████▏    | 194525/371472 [4:25:14<15:11:37,  3.23it/s] 52%|█████▏    | 194526/371472 [4:25:15<14:52:26,  3.30it/s] 52%|█████▏    | 194527/371472 [4:25:15<14:36:18,  3.37it/s] 52%|█████▏    | 194528/371472 [4:25:15<14:31:29,  3.38it/s] 52%|█████▏    | 194529/371472 [4:25:16<14:44:16,  3.33it/s] 52%|█████▏    | 194530/371472 [4:25:16<14:33:41,  3.38it/s] 52%|█████▏    | 194531/371472 [4:25:16<13:57:37,  3.52it/s] 52%|█████▏    | 194532/371472 [4:25:16<13:47:57,  3.56it/s] 52%|█████▏    | 194533/371472 [4:25:17<13:51:53,  3.54it/s] 52%|█████▏    | 194534/371472 [4:25:17<13:46:49,  3.57it/s] 52%|█████▏    | 194535/371472 [4:25:17<13:31:20,  3.63it/s] 52%|█████▏    | 194536/371472 [4:25:18<13:34:07,  3.62it/s] 52%|█████▏    | 194537/371472 [4:25:18<13:31:16,  3.63it/s] 52%|█████▏    | 194538/371472 [4:25:18<14:17:59,  3.44it/s] 52%|█████▏    | 194539/371472 [4:25:18<14:24:25,  3.41it/s] 52%|█████▏    | 194540/371472 [4:25:19<14:11:50,  3.46it/s]                                                            {'loss': 3.0192, 'learning_rate': 5.289006442715852e-07, 'epoch': 8.38}
 52%|█████▏    | 194540/371472 [4:25:19<14:11:50,  3.46it/s] 52%|█████▏    | 194541/371472 [4:25:19<13:36:58,  3.61it/s] 52%|█████▏    | 194542/371472 [4:25:19<14:15:29,  3.45it/s] 52%|█████▏    | 194543/371472 [4:25:20<14:33:30,  3.38it/s] 52%|█████▏    | 194544/371472 [4:25:20<14:16:24,  3.44it/s] 52%|█████▏    | 194545/371472 [4:25:20<13:55:18,  3.53it/s] 52%|█████▏    | 194546/371472 [4:25:20<13:33:19,  3.63it/s] 52%|█████▏    | 194547/371472 [4:25:21<13:16:06,  3.70it/s] 52%|█████▏    | 194548/371472 [4:25:21<12:55:21,  3.80it/s] 52%|█████▏    | 194549/371472 [4:25:21<13:25:14,  3.66it/s] 52%|█████▏    | 194550/371472 [4:25:21<12:57:28,  3.79it/s] 52%|█████▏    | 194551/371472 [4:25:22<13:30:43,  3.64it/s] 52%|█████▏    | 194552/371472 [4:25:22<14:18:35,  3.43it/s] 52%|█████▏    | 194553/371472 [4:25:22<14:05:10,  3.49it/s] 52%|█████▏    | 194554/371472 [4:25:23<14:35:06,  3.37it/s] 52%|█████▏    | 194555/371472 [4:25:23<14:25:26,  3.41it/s] 52%|█████▏    | 194556/371472 [4:25:23<14:48:19,  3.32it/s] 52%|█████▏    | 194557/371472 [4:25:24<14:38:33,  3.36it/s] 52%|█████▏    | 194558/371472 [4:25:24<15:26:37,  3.18it/s] 52%|█████▏    | 194559/371472 [4:25:24<14:59:57,  3.28it/s] 52%|█████▏    | 194560/371472 [4:25:24<14:32:32,  3.38it/s]                                                            {'loss': 2.966, 'learning_rate': 5.288521622961064e-07, 'epoch': 8.38}
 52%|█████▏    | 194560/371472 [4:25:24<14:32:32,  3.38it/s] 52%|█████▏    | 194561/371472 [4:25:25<13:54:44,  3.53it/s] 52%|█████▏    | 194562/371472 [4:25:25<13:38:28,  3.60it/s] 52%|█████▏    | 194563/371472 [4:25:25<13:28:52,  3.65it/s] 52%|█████▏    | 194564/371472 [4:25:26<13:48:46,  3.56it/s] 52%|█████▏    | 194565/371472 [4:25:26<13:56:33,  3.52it/s] 52%|█████▏    | 194566/371472 [4:25:26<14:20:37,  3.43it/s] 52%|█████▏    | 194567/371472 [4:25:26<14:07:04,  3.48it/s] 52%|█████▏    | 194568/371472 [4:25:27<13:54:26,  3.53it/s] 52%|█████▏    | 194569/371472 [4:25:27<13:32:01,  3.63it/s] 52%|█████▏    | 194570/371472 [4:25:27<13:15:00,  3.71it/s] 52%|█████▏    | 194571/371472 [4:25:27<13:17:55,  3.69it/s] 52%|█████▏    | 194572/371472 [4:25:28<13:29:39,  3.64it/s] 52%|█████▏    | 194573/371472 [4:25:28<13:17:13,  3.70it/s] 52%|█████▏    | 194574/371472 [4:25:28<13:08:17,  3.74it/s] 52%|█████▏    | 194575/371472 [4:25:29<12:53:54,  3.81it/s] 52%|█████▏    | 194576/371472 [4:25:29<12:48:58,  3.83it/s] 52%|█████▏    | 194577/371472 [4:25:29<13:01:32,  3.77it/s] 52%|█████▏    | 194578/371472 [4:25:29<13:26:45,  3.65it/s] 52%|█████▏    | 194579/371472 [4:25:30<13:40:44,  3.59it/s] 52%|█████▏    | 194580/371472 [4:25:30<15:14:34,  3.22it/s]                                                            {'loss': 2.9988, 'learning_rate': 5.288036803206274e-07, 'epoch': 8.38}
 52%|█████▏    | 194580/371472 [4:25:30<15:14:34,  3.22it/s] 52%|█████▏    | 194581/371472 [4:25:30<15:15:00,  3.22it/s] 52%|█████▏    | 194582/371472 [4:25:31<14:33:49,  3.37it/s] 52%|█████▏    | 194583/371472 [4:25:31<13:58:10,  3.52it/s] 52%|█████▏    | 194584/371472 [4:25:31<13:24:06,  3.67it/s] 52%|█████▏    | 194585/371472 [4:25:31<13:24:06,  3.67it/s] 52%|█████▏    | 194586/371472 [4:25:32<13:10:26,  3.73it/s] 52%|█████▏    | 194587/371472 [4:25:32<15:26:38,  3.18it/s] 52%|█████▏    | 194588/371472 [4:25:32<14:33:20,  3.38it/s] 52%|█████▏    | 194589/371472 [4:25:33<14:43:49,  3.34it/s] 52%|█████▏    | 194590/371472 [4:25:33<14:32:21,  3.38it/s] 52%|█████▏    | 194591/371472 [4:25:33<14:16:08,  3.44it/s] 52%|█████▏    | 194592/371472 [4:25:34<14:27:32,  3.40it/s] 52%|█████▏    | 194593/371472 [4:25:34<13:55:56,  3.53it/s] 52%|█████▏    | 194594/371472 [4:25:34<14:18:25,  3.43it/s] 52%|█████▏    | 194595/371472 [4:25:34<13:52:32,  3.54it/s] 52%|█████▏    | 194596/371472 [4:25:35<13:33:43,  3.62it/s] 52%|█████▏    | 194597/371472 [4:25:35<13:22:44,  3.67it/s] 52%|█████▏    | 194598/371472 [4:25:35<13:09:07,  3.74it/s] 52%|█████▏    | 194599/371472 [4:25:35<13:14:27,  3.71it/s] 52%|█████▏    | 194600/371472 [4:25:36<12:51:53,  3.82it/s]                                                            {'loss': 3.1179, 'learning_rate': 5.287551983451486e-07, 'epoch': 8.38}
 52%|█████▏    | 194600/371472 [4:25:36<12:51:53,  3.82it/s] 52%|█████▏    | 194601/371472 [4:25:36<12:52:14,  3.82it/s] 52%|█████▏    | 194602/371472 [4:25:36<13:17:04,  3.70it/s] 52%|█████▏    | 194603/371472 [4:25:36<12:51:54,  3.82it/s] 52%|█████▏    | 194604/371472 [4:25:37<13:06:02,  3.75it/s] 52%|█████▏    | 194605/371472 [4:25:37<13:41:27,  3.59it/s] 52%|█████▏    | 194606/371472 [4:25:37<13:23:25,  3.67it/s] 52%|█████▏    | 194607/371472 [4:25:38<13:04:43,  3.76it/s] 52%|█████▏    | 194608/371472 [4:25:38<13:32:00,  3.63it/s] 52%|█████▏    | 194609/371472 [4:25:38<13:30:35,  3.64it/s] 52%|█████▏    | 194610/371472 [4:25:38<13:37:19,  3.61it/s] 52%|█████▏    | 194611/371472 [4:25:39<13:42:44,  3.58it/s] 52%|█████▏    | 194612/371472 [4:25:39<13:26:51,  3.65it/s] 52%|█████▏    | 194613/371472 [4:25:39<13:32:17,  3.63it/s] 52%|█████▏    | 194614/371472 [4:25:39<13:39:44,  3.60it/s] 52%|█████▏    | 194615/371472 [4:25:40<13:45:50,  3.57it/s] 52%|█████▏    | 194616/371472 [4:25:40<13:27:42,  3.65it/s] 52%|█████▏    | 194617/371472 [4:25:40<13:50:42,  3.55it/s] 52%|█████▏    | 194618/371472 [4:25:41<14:45:16,  3.33it/s] 52%|█████▏    | 194619/371472 [4:25:41<14:56:43,  3.29it/s] 52%|█████▏    | 194620/371472 [4:25:41<15:55:56,  3.08it/s]                                                            {'loss': 2.9359, 'learning_rate': 5.287067163696697e-07, 'epoch': 8.38}
 52%|█████▏    | 194620/371472 [4:25:41<15:55:56,  3.08it/s] 52%|█████▏    | 194621/371472 [4:25:42<16:17:17,  3.02it/s] 52%|█████▏    | 194622/371472 [4:25:42<15:24:53,  3.19it/s] 52%|█████▏    | 194623/371472 [4:25:42<14:43:24,  3.34it/s] 52%|█████▏    | 194624/371472 [4:25:43<14:35:45,  3.37it/s] 52%|█████▏    | 194625/371472 [4:25:43<14:42:54,  3.34it/s] 52%|█████▏    | 194626/371472 [4:25:43<14:41:44,  3.34it/s] 52%|█████▏    | 194627/371472 [4:25:43<13:57:12,  3.52it/s] 52%|█████▏    | 194628/371472 [4:25:44<14:59:54,  3.28it/s] 52%|█████▏    | 194629/371472 [4:25:44<14:05:13,  3.49it/s] 52%|█████▏    | 194630/371472 [4:25:44<14:02:20,  3.50it/s] 52%|█████▏    | 194631/371472 [4:25:45<14:19:05,  3.43it/s] 52%|█████▏    | 194632/371472 [4:25:45<14:22:21,  3.42it/s] 52%|█████▏    | 194633/371472 [4:25:45<14:56:16,  3.29it/s] 52%|█████▏    | 194634/371472 [4:25:45<14:33:49,  3.37it/s] 52%|█████▏    | 194635/371472 [4:25:46<14:33:48,  3.37it/s] 52%|█████▏    | 194636/371472 [4:25:46<14:12:19,  3.46it/s] 52%|█████▏    | 194637/371472 [4:25:46<14:25:52,  3.40it/s] 52%|█████▏    | 194638/371472 [4:25:47<14:06:18,  3.48it/s] 52%|█████▏    | 194639/371472 [4:25:47<15:02:18,  3.27it/s] 52%|█████▏    | 194640/371472 [4:25:47<15:17:57,  3.21it/s]                                                            {'loss': 2.9859, 'learning_rate': 5.286582343941907e-07, 'epoch': 8.38}
 52%|█████▏    | 194640/371472 [4:25:47<15:17:57,  3.21it/s] 52%|█████▏    | 194641/371472 [4:25:48<15:24:45,  3.19it/s] 52%|█████▏    | 194642/371472 [4:25:48<15:03:10,  3.26it/s] 52%|█████▏    | 194643/371472 [4:25:48<14:31:52,  3.38it/s] 52%|█████▏    | 194644/371472 [4:25:49<14:51:03,  3.31it/s] 52%|█████▏    | 194645/371472 [4:25:49<14:53:32,  3.30it/s] 52%|█████▏    | 194646/371472 [4:25:49<14:39:40,  3.35it/s] 52%|█████▏    | 194647/371472 [4:25:49<15:35:01,  3.15it/s] 52%|█████▏    | 194648/371472 [4:25:50<14:48:30,  3.32it/s] 52%|█████▏    | 194649/371472 [4:25:50<14:20:08,  3.43it/s] 52%|█████▏    | 194650/371472 [4:25:50<14:59:32,  3.28it/s] 52%|█████▏    | 194651/371472 [4:25:51<15:14:27,  3.22it/s] 52%|█████▏    | 194652/371472 [4:25:51<14:32:02,  3.38it/s] 52%|█████▏    | 194653/371472 [4:25:51<14:40:24,  3.35it/s] 52%|█████▏    | 194654/371472 [4:25:51<13:54:49,  3.53it/s] 52%|█████▏    | 194655/371472 [4:25:52<13:53:11,  3.54it/s] 52%|█████▏    | 194656/371472 [4:25:52<15:35:01,  3.15it/s] 52%|█████▏    | 194657/371472 [4:25:53<16:19:33,  3.01it/s] 52%|█████▏    | 194658/371472 [4:25:53<15:33:54,  3.16it/s] 52%|█████▏    | 194659/371472 [4:25:53<15:15:44,  3.22it/s] 52%|█████▏    | 194660/371472 [4:25:53<14:59:33,  3.28it/s]                                                            {'loss': 2.8593, 'learning_rate': 5.286097524187117e-07, 'epoch': 8.38}
 52%|█████▏    | 194660/371472 [4:25:53<14:59:33,  3.28it/s] 52%|█████▏    | 194661/371472 [4:25:54<14:46:44,  3.32it/s] 52%|█████▏    | 194662/371472 [4:25:54<13:59:27,  3.51it/s] 52%|█████▏    | 194663/371472 [4:25:54<13:20:54,  3.68it/s] 52%|█████▏    | 194664/371472 [4:25:54<13:56:24,  3.52it/s] 52%|█████▏    | 194665/371472 [4:25:55<13:28:41,  3.64it/s] 52%|█████▏    | 194666/371472 [4:25:55<14:30:04,  3.39it/s] 52%|█████▏    | 194667/371472 [4:25:55<14:17:16,  3.44it/s] 52%|█████▏    | 194668/371472 [4:25:56<14:06:38,  3.48it/s] 52%|█████▏    | 194669/371472 [4:25:56<13:56:31,  3.52it/s] 52%|█████▏    | 194670/371472 [4:25:56<14:06:02,  3.48it/s] 52%|█████▏    | 194671/371472 [4:25:56<13:25:06,  3.66it/s] 52%|█████▏    | 194672/371472 [4:25:57<13:21:02,  3.68it/s] 52%|█████▏    | 194673/371472 [4:25:57<13:45:59,  3.57it/s] 52%|█████▏    | 194674/371472 [4:25:57<13:30:13,  3.64it/s] 52%|█████▏    | 194675/371472 [4:25:58<13:29:06,  3.64it/s] 52%|█████▏    | 194676/371472 [4:25:58<13:34:23,  3.62it/s] 52%|█████▏    | 194677/371472 [4:25:58<13:15:27,  3.70it/s] 52%|█████▏    | 194678/371472 [4:25:58<13:07:13,  3.74it/s] 52%|█████▏    | 194679/371472 [4:25:59<12:39:21,  3.88it/s] 52%|█████▏    | 194680/371472 [4:25:59<12:46:22,  3.84it/s]                                                            {'loss': 3.1049, 'learning_rate': 5.285612704432329e-07, 'epoch': 8.39}
 52%|█████▏    | 194680/371472 [4:25:59<12:46:22,  3.84it/s] 52%|█████▏    | 194681/371472 [4:25:59<12:39:08,  3.88it/s] 52%|█████▏    | 194682/371472 [4:25:59<13:40:34,  3.59it/s] 52%|█████▏    | 194683/371472 [4:26:00<13:37:23,  3.60it/s] 52%|█████▏    | 194684/371472 [4:26:00<13:15:29,  3.70it/s] 52%|█████▏    | 194685/371472 [4:26:00<13:24:57,  3.66it/s] 52%|█████▏    | 194686/371472 [4:26:01<13:56:22,  3.52it/s] 52%|█████▏    | 194687/371472 [4:26:01<14:07:50,  3.48it/s] 52%|█████▏    | 194688/371472 [4:26:01<14:42:24,  3.34it/s] 52%|█████▏    | 194689/371472 [4:26:01<14:55:49,  3.29it/s] 52%|█████▏    | 194690/371472 [4:26:02<15:01:27,  3.27it/s] 52%|█████▏    | 194691/371472 [4:26:02<16:00:46,  3.07it/s] 52%|█████▏    | 194692/371472 [4:26:02<15:31:18,  3.16it/s] 52%|█████▏    | 194693/371472 [4:26:03<14:24:24,  3.41it/s] 52%|█████▏    | 194694/371472 [4:26:03<14:50:27,  3.31it/s] 52%|█████▏    | 194695/371472 [4:26:03<15:55:33,  3.08it/s] 52%|█████▏    | 194696/371472 [4:26:04<14:48:00,  3.32it/s] 52%|█████▏    | 194697/371472 [4:26:04<13:55:03,  3.53it/s] 52%|█████▏    | 194698/371472 [4:26:04<13:16:06,  3.70it/s] 52%|█████▏    | 194699/371472 [4:26:04<12:56:01,  3.80it/s] 52%|█████▏    | 194700/371472 [4:26:05<14:00:39,  3.50it/s]                                                            {'loss': 3.0519, 'learning_rate': 5.285127884677541e-07, 'epoch': 8.39}
 52%|█████▏    | 194700/371472 [4:26:05<14:00:39,  3.50it/s] 52%|█████▏    | 194701/371472 [4:26:05<14:46:17,  3.32it/s] 52%|█████▏    | 194702/371472 [4:26:05<16:01:10,  3.07it/s] 52%|█████▏    | 194703/371472 [4:26:06<15:18:26,  3.21it/s] 52%|█████▏    | 194704/371472 [4:26:06<15:29:04,  3.17it/s] 52%|█████▏    | 194705/371472 [4:26:06<15:08:51,  3.24it/s] 52%|█████▏    | 194706/371472 [4:26:07<14:43:45,  3.33it/s] 52%|█████▏    | 194707/371472 [4:26:07<14:44:30,  3.33it/s] 52%|█████▏    | 194708/371472 [4:26:07<15:03:08,  3.26it/s] 52%|█████▏    | 194709/371472 [4:26:07<14:02:23,  3.50it/s] 52%|█████▏    | 194710/371472 [4:26:08<14:38:24,  3.35it/s] 52%|█████▏    | 194711/371472 [4:26:08<13:56:09,  3.52it/s] 52%|█████▏    | 194712/371472 [4:26:08<13:37:12,  3.60it/s] 52%|█████▏    | 194713/371472 [4:26:09<13:35:37,  3.61it/s] 52%|█████▏    | 194714/371472 [4:26:09<14:19:43,  3.43it/s] 52%|█████▏    | 194715/371472 [4:26:09<14:04:17,  3.49it/s] 52%|█████▏    | 194716/371472 [4:26:09<13:57:24,  3.52it/s] 52%|█████▏    | 194717/371472 [4:26:10<14:11:30,  3.46it/s] 52%|█████▏    | 194718/371472 [4:26:10<14:46:56,  3.32it/s] 52%|█████▏    | 194719/371472 [4:26:10<14:14:44,  3.45it/s] 52%|█████▏    | 194720/371472 [4:26:11<14:33:48,  3.37it/s]                                                            {'loss': 3.1276, 'learning_rate': 5.284643064922751e-07, 'epoch': 8.39}
 52%|█████▏    | 194720/371472 [4:26:11<14:33:48,  3.37it/s] 52%|█████▏    | 194721/371472 [4:26:11<13:59:21,  3.51it/s] 52%|█████▏    | 194722/371472 [4:26:11<13:50:02,  3.55it/s] 52%|█████▏    | 194723/371472 [4:26:11<13:59:44,  3.51it/s] 52%|█████▏    | 194724/371472 [4:26:12<14:18:34,  3.43it/s] 52%|█████▏    | 194725/371472 [4:26:12<13:47:01,  3.56it/s] 52%|█████▏    | 194726/371472 [4:26:12<13:41:20,  3.59it/s] 52%|█████▏    | 194727/371472 [4:26:13<13:54:17,  3.53it/s] 52%|█████▏    | 194728/371472 [4:26:13<13:48:39,  3.55it/s] 52%|█████▏    | 194729/371472 [4:26:13<14:39:38,  3.35it/s] 52%|█████▏    | 194730/371472 [4:26:13<14:00:39,  3.50it/s] 52%|█████▏    | 194731/371472 [4:26:14<13:34:15,  3.62it/s] 52%|█████▏    | 194732/371472 [4:26:14<13:19:50,  3.68it/s] 52%|█████▏    | 194733/371472 [4:26:14<14:27:49,  3.39it/s] 52%|█████▏    | 194734/371472 [4:26:15<14:03:24,  3.49it/s] 52%|█████▏    | 194735/371472 [4:26:15<13:31:11,  3.63it/s] 52%|█████▏    | 194736/371472 [4:26:15<13:51:25,  3.54it/s] 52%|█████▏    | 194737/371472 [4:26:15<13:58:47,  3.51it/s] 52%|█████▏    | 194738/371472 [4:26:16<14:00:51,  3.50it/s] 52%|█████▏    | 194739/371472 [4:26:16<14:55:49,  3.29it/s] 52%|█████▏    | 194740/371472 [4:26:16<15:26:14,  3.18it/s]                                                            {'loss': 2.9916, 'learning_rate': 5.284158245167963e-07, 'epoch': 8.39}
 52%|█████▏    | 194740/371472 [4:26:16<15:26:14,  3.18it/s] 52%|█████▏    | 194741/371472 [4:26:17<16:18:20,  3.01it/s] 52%|█████▏    | 194742/371472 [4:26:17<15:20:56,  3.20it/s] 52%|█████▏    | 194743/371472 [4:26:17<14:42:18,  3.34it/s] 52%|█████▏    | 194744/371472 [4:26:18<14:23:58,  3.41it/s] 52%|█████▏    | 194745/371472 [4:26:18<14:09:26,  3.47it/s] 52%|█████▏    | 194746/371472 [4:26:18<14:14:33,  3.45it/s] 52%|█████▏    | 194747/371472 [4:26:19<15:11:41,  3.23it/s] 52%|█████▏    | 194748/371472 [4:26:19<14:29:58,  3.39it/s] 52%|█████▏    | 194749/371472 [4:26:19<13:58:01,  3.51it/s] 52%|█████▏    | 194750/371472 [4:26:19<13:55:37,  3.52it/s] 52%|█████▏    | 194751/371472 [4:26:20<13:53:01,  3.54it/s] 52%|█████▏    | 194752/371472 [4:26:20<13:32:51,  3.62it/s] 52%|█████▏    | 194753/371472 [4:26:20<13:20:50,  3.68it/s] 52%|█████▏    | 194754/371472 [4:26:20<14:25:59,  3.40it/s] 52%|█████▏    | 194755/371472 [4:26:21<14:24:51,  3.41it/s] 52%|█████▏    | 194756/371472 [4:26:21<14:03:28,  3.49it/s] 52%|█████▏    | 194757/371472 [4:26:21<15:09:08,  3.24it/s] 52%|█████▏    | 194758/371472 [4:26:22<14:20:56,  3.42it/s] 52%|█████▏    | 194759/371472 [4:26:22<13:37:04,  3.60it/s] 52%|█████▏    | 194760/371472 [4:26:22<14:00:34,  3.50it/s]                                                            {'loss': 2.9982, 'learning_rate': 5.283673425413175e-07, 'epoch': 8.39}
 52%|█████▏    | 194760/371472 [4:26:22<14:00:34,  3.50it/s] 52%|█████▏    | 194761/371472 [4:26:23<14:29:29,  3.39it/s] 52%|█████▏    | 194762/371472 [4:26:23<14:09:50,  3.47it/s] 52%|█████▏    | 194763/371472 [4:26:23<13:58:17,  3.51it/s] 52%|█████▏    | 194764/371472 [4:26:23<13:44:09,  3.57it/s] 52%|█████▏    | 194765/371472 [4:26:24<13:19:00,  3.69it/s] 52%|█████▏    | 194766/371472 [4:26:24<13:05:32,  3.75it/s] 52%|█████▏    | 194767/371472 [4:26:24<13:01:41,  3.77it/s] 52%|█████▏    | 194768/371472 [4:26:24<14:14:54,  3.44it/s] 52%|█████▏    | 194769/371472 [4:26:25<14:08:50,  3.47it/s] 52%|█████▏    | 194770/371472 [4:26:25<13:57:53,  3.51it/s] 52%|█████▏    | 194771/371472 [4:26:25<14:24:24,  3.41it/s] 52%|█████▏    | 194772/371472 [4:26:26<14:02:46,  3.49it/s] 52%|█████▏    | 194773/371472 [4:26:26<13:44:30,  3.57it/s] 52%|█████▏    | 194774/371472 [4:26:26<13:32:16,  3.63it/s] 52%|█████▏    | 194775/371472 [4:26:26<13:01:37,  3.77it/s] 52%|█████▏    | 194776/371472 [4:26:27<12:47:56,  3.83it/s] 52%|█████▏    | 194777/371472 [4:26:27<14:15:52,  3.44it/s] 52%|█████▏    | 194778/371472 [4:26:27<14:07:40,  3.47it/s] 52%|█████▏    | 194779/371472 [4:26:28<14:14:59,  3.44it/s] 52%|█████▏    | 194780/371472 [4:26:28<15:41:04,  3.13it/s]                                                            {'loss': 2.7705, 'learning_rate': 5.283188605658384e-07, 'epoch': 8.39}
 52%|█████▏    | 194780/371472 [4:26:28<15:41:04,  3.13it/s] 52%|█████▏    | 194781/371472 [4:26:28<14:46:39,  3.32it/s] 52%|█████▏    | 194782/371472 [4:26:29<14:27:51,  3.39it/s] 52%|█████▏    | 194783/371472 [4:26:29<14:13:16,  3.45it/s] 52%|█████▏    | 194784/371472 [4:26:29<14:02:36,  3.49it/s] 52%|█████▏    | 194785/371472 [4:26:29<13:59:47,  3.51it/s] 52%|█████▏    | 194786/371472 [4:26:30<13:59:32,  3.51it/s] 52%|█████▏    | 194787/371472 [4:26:30<14:10:25,  3.46it/s] 52%|█████▏    | 194788/371472 [4:26:30<13:24:50,  3.66it/s] 52%|█████▏    | 194789/371472 [4:26:30<13:00:30,  3.77it/s] 52%|█████▏    | 194790/371472 [4:26:31<13:25:02,  3.66it/s] 52%|█████▏    | 194791/371472 [4:26:31<13:34:14,  3.62it/s] 52%|█████▏    | 194792/371472 [4:26:31<13:48:28,  3.55it/s] 52%|█████▏    | 194793/371472 [4:26:32<13:45:57,  3.57it/s] 52%|█████▏    | 194794/371472 [4:26:32<13:46:08,  3.56it/s] 52%|█████▏    | 194795/371472 [4:26:32<15:35:00,  3.15it/s] 52%|█████▏    | 194796/371472 [4:26:33<14:57:22,  3.28it/s] 52%|█████▏    | 194797/371472 [4:26:33<14:18:39,  3.43it/s] 52%|█████▏    | 194798/371472 [4:26:33<14:08:40,  3.47it/s] 52%|█████▏    | 194799/371472 [4:26:33<14:09:21,  3.47it/s] 52%|█████▏    | 194800/371472 [4:26:34<14:05:00,  3.48it/s]                                                            {'loss': 2.8104, 'learning_rate': 5.282703785903595e-07, 'epoch': 8.39}
 52%|█████▏    | 194800/371472 [4:26:34<14:05:00,  3.48it/s] 52%|█████▏    | 194801/371472 [4:26:34<14:22:23,  3.41it/s] 52%|█████▏    | 194802/371472 [4:26:34<13:55:24,  3.52it/s] 52%|█████▏    | 194803/371472 [4:26:34<13:39:20,  3.59it/s] 52%|█████▏    | 194804/371472 [4:26:35<14:55:42,  3.29it/s] 52%|█████▏    | 194805/371472 [4:26:35<14:42:03,  3.34it/s] 52%|█████▏    | 194806/371472 [4:26:35<15:18:18,  3.21it/s] 52%|█████▏    | 194807/371472 [4:26:36<16:25:45,  2.99it/s] 52%|█████▏    | 194808/371472 [4:26:36<16:54:00,  2.90it/s] 52%|█████▏    | 194809/371472 [4:26:37<18:41:51,  2.62it/s] 52%|█████▏    | 194810/371472 [4:26:37<17:10:40,  2.86it/s] 52%|█████▏    | 194811/371472 [4:26:37<16:17:03,  3.01it/s] 52%|█████▏    | 194812/371472 [4:26:38<16:53:26,  2.91it/s] 52%|█████▏    | 194813/371472 [4:26:38<16:03:57,  3.05it/s] 52%|█████▏    | 194814/371472 [4:26:38<15:34:25,  3.15it/s] 52%|█████▏    | 194815/371472 [4:26:38<14:48:04,  3.32it/s] 52%|█████▏    | 194816/371472 [4:26:39<14:45:28,  3.33it/s] 52%|█████▏    | 194817/371472 [4:26:39<15:31:54,  3.16it/s] 52%|█████▏    | 194818/371472 [4:26:39<14:52:51,  3.30it/s] 52%|█████▏    | 194819/371472 [4:26:40<14:51:46,  3.30it/s] 52%|█████▏    | 194820/371472 [4:26:40<14:11:00,  3.46it/s]                                                            {'loss': 3.052, 'learning_rate': 5.282218966148808e-07, 'epoch': 8.39}
 52%|█████▏    | 194820/371472 [4:26:40<14:11:00,  3.46it/s] 52%|█████▏    | 194821/371472 [4:26:40<13:58:39,  3.51it/s] 52%|█████▏    | 194822/371472 [4:26:41<14:09:54,  3.46it/s] 52%|█████▏    | 194823/371472 [4:26:41<13:36:36,  3.61it/s] 52%|█████▏    | 194824/371472 [4:26:41<13:54:40,  3.53it/s] 52%|█████▏    | 194825/371472 [4:26:41<13:45:17,  3.57it/s] 52%|█████▏    | 194826/371472 [4:26:42<13:41:51,  3.58it/s] 52%|█████▏    | 194827/371472 [4:26:42<14:54:27,  3.29it/s] 52%|█████▏    | 194828/371472 [4:26:42<14:46:49,  3.32it/s] 52%|█████▏    | 194829/371472 [4:26:43<14:20:01,  3.42it/s] 52%|█████▏    | 194830/371472 [4:26:43<14:06:53,  3.48it/s] 52%|█████▏    | 194831/371472 [4:26:43<13:50:47,  3.54it/s] 52%|█████▏    | 194832/371472 [4:26:43<13:48:10,  3.55it/s] 52%|█████▏    | 194833/371472 [4:26:44<14:28:14,  3.39it/s] 52%|█████▏    | 194834/371472 [4:26:44<15:00:06,  3.27it/s] 52%|█████▏    | 194835/371472 [4:26:44<14:48:45,  3.31it/s] 52%|█████▏    | 194836/371472 [4:26:45<15:19:49,  3.20it/s] 52%|█████▏    | 194837/371472 [4:26:45<15:02:55,  3.26it/s] 52%|█████▏    | 194838/371472 [4:26:45<14:38:28,  3.35it/s] 52%|█████▏    | 194839/371472 [4:26:45<13:59:14,  3.51it/s] 52%|█████▏    | 194840/371472 [4:26:46<13:44:25,  3.57it/s]                                                            {'loss': 3.0298, 'learning_rate': 5.281734146394018e-07, 'epoch': 8.39}
 52%|█████▏    | 194840/371472 [4:26:46<13:44:25,  3.57it/s] 52%|█████▏    | 194841/371472 [4:26:46<13:09:44,  3.73it/s] 52%|█████▏    | 194842/371472 [4:26:46<13:44:42,  3.57it/s] 52%|█████▏    | 194843/371472 [4:26:47<13:36:19,  3.61it/s] 52%|█████▏    | 194844/371472 [4:26:47<13:47:54,  3.56it/s] 52%|█████▏    | 194845/371472 [4:26:47<13:24:32,  3.66it/s] 52%|█████▏    | 194846/371472 [4:26:47<13:38:08,  3.60it/s] 52%|█████▏    | 194847/371472 [4:26:48<13:26:19,  3.65it/s] 52%|█████▏    | 194848/371472 [4:26:48<13:16:18,  3.70it/s] 52%|█████▏    | 194849/371472 [4:26:48<13:43:14,  3.58it/s] 52%|█████▏    | 194850/371472 [4:26:49<14:29:32,  3.39it/s] 52%|█████▏    | 194851/371472 [4:26:49<14:10:27,  3.46it/s] 52%|█████▏    | 194852/371472 [4:26:49<14:22:10,  3.41it/s] 52%|█████▏    | 194853/371472 [4:26:49<14:02:13,  3.50it/s] 52%|█████▏    | 194854/371472 [4:26:50<13:25:14,  3.66it/s] 52%|█████▏    | 194855/371472 [4:26:50<13:22:11,  3.67it/s] 52%|█████▏    | 194856/371472 [4:26:50<13:17:02,  3.69it/s] 52%|█████▏    | 194857/371472 [4:26:50<13:24:38,  3.66it/s] 52%|█████▏    | 194858/371472 [4:26:51<13:22:03,  3.67it/s] 52%|█████▏    | 194859/371472 [4:26:51<13:21:25,  3.67it/s] 52%|█████▏    | 194860/371472 [4:26:51<14:21:03,  3.42it/s]                                                            {'loss': 3.0788, 'learning_rate': 5.281249326639229e-07, 'epoch': 8.39}
 52%|█████▏    | 194860/371472 [4:26:51<14:21:03,  3.42it/s] 52%|█████▏    | 194861/371472 [4:26:52<14:16:24,  3.44it/s] 52%|█████▏    | 194862/371472 [4:26:52<14:08:34,  3.47it/s] 52%|█████▏    | 194863/371472 [4:26:52<14:21:27,  3.42it/s] 52%|█████▏    | 194864/371472 [4:26:53<14:27:00,  3.39it/s] 52%|█████▏    | 194865/371472 [4:26:53<14:03:11,  3.49it/s] 52%|█████▏    | 194866/371472 [4:26:53<13:46:12,  3.56it/s] 52%|█████▏    | 194867/371472 [4:26:53<13:50:11,  3.55it/s] 52%|█████▏    | 194868/371472 [4:26:54<13:52:35,  3.54it/s] 52%|█████▏    | 194869/371472 [4:26:54<14:00:33,  3.50it/s] 52%|█████▏    | 194870/371472 [4:26:54<14:18:39,  3.43it/s] 52%|█████▏    | 194871/371472 [4:26:55<14:12:17,  3.45it/s] 52%|█████▏    | 194872/371472 [4:26:55<15:07:25,  3.24it/s] 52%|█████▏    | 194873/371472 [4:26:55<14:47:04,  3.32it/s] 52%|█████▏    | 194874/371472 [4:26:55<14:33:06,  3.37it/s] 52%|█████▏    | 194875/371472 [4:26:56<15:07:33,  3.24it/s] 52%|█████▏    | 194876/371472 [4:26:56<14:32:18,  3.37it/s] 52%|█████▏    | 194877/371472 [4:26:56<13:58:50,  3.51it/s] 52%|█████▏    | 194878/371472 [4:26:57<14:16:12,  3.44it/s] 52%|█████▏    | 194879/371472 [4:26:57<14:37:53,  3.35it/s] 52%|█████▏    | 194880/371472 [4:26:57<14:56:44,  3.28it/s]                                                            {'loss': 3.0746, 'learning_rate': 5.28076450688444e-07, 'epoch': 8.39}
 52%|█████▏    | 194880/371472 [4:26:57<14:56:44,  3.28it/s] 52%|█████▏    | 194881/371472 [4:26:58<14:25:37,  3.40it/s] 52%|█████▏    | 194882/371472 [4:26:58<14:39:47,  3.35it/s] 52%|█████▏    | 194883/371472 [4:26:58<14:23:53,  3.41it/s] 52%|█████▏    | 194884/371472 [4:26:58<13:50:47,  3.54it/s] 52%|█████▏    | 194885/371472 [4:26:59<13:27:54,  3.64it/s] 52%|█████▏    | 194886/371472 [4:26:59<13:23:12,  3.66it/s] 52%|█████▏    | 194887/371472 [4:26:59<13:51:21,  3.54it/s] 52%|█████▏    | 194888/371472 [4:26:59<13:37:07,  3.60it/s] 52%|█████▏    | 194889/371472 [4:27:00<13:14:31,  3.70it/s] 52%|█████▏    | 194890/371472 [4:27:00<13:22:51,  3.67it/s] 52%|█████▏    | 194891/371472 [4:27:00<13:50:44,  3.54it/s] 52%|█████▏    | 194892/371472 [4:27:01<13:30:12,  3.63it/s] 52%|█████▏    | 194893/371472 [4:27:01<12:56:28,  3.79it/s] 52%|█████▏    | 194894/371472 [4:27:01<12:48:13,  3.83it/s] 52%|█████▏    | 194895/371472 [4:27:01<13:25:44,  3.65it/s] 52%|█████▏    | 194896/371472 [4:27:02<13:27:32,  3.64it/s] 52%|█████▏    | 194897/371472 [4:27:02<13:13:51,  3.71it/s] 52%|█████▏    | 194898/371472 [4:27:02<13:11:15,  3.72it/s] 52%|█████▏    | 194899/371472 [4:27:02<14:14:20,  3.44it/s] 52%|█████▏    | 194900/371472 [4:27:03<14:39:34,  3.35it/s]                                                            {'loss': 3.1404, 'learning_rate': 5.280279687129651e-07, 'epoch': 8.39}
 52%|█████▏    | 194900/371472 [4:27:03<14:39:34,  3.35it/s] 52%|█████▏    | 194901/371472 [4:27:03<14:52:56,  3.30it/s] 52%|█████▏    | 194902/371472 [4:27:03<14:27:19,  3.39it/s] 52%|█████▏    | 194903/371472 [4:27:04<14:01:30,  3.50it/s] 52%|█████▏    | 194904/371472 [4:27:04<14:03:35,  3.49it/s] 52%|█████▏    | 194905/371472 [4:27:04<14:14:59,  3.44it/s] 52%|█████▏    | 194906/371472 [4:27:05<14:59:07,  3.27it/s] 52%|█████▏    | 194907/371472 [4:27:05<14:15:55,  3.44it/s] 52%|█████▏    | 194908/371472 [4:27:05<14:08:09,  3.47it/s] 52%|█████▏    | 194909/371472 [4:27:05<14:07:34,  3.47it/s] 52%|█████▏    | 194910/371472 [4:27:06<14:31:07,  3.38it/s] 52%|█████▏    | 194911/371472 [4:27:06<14:09:55,  3.46it/s] 52%|█████▏    | 194912/371472 [4:27:06<14:18:17,  3.43it/s] 52%|█████▏    | 194913/371472 [4:27:07<14:05:17,  3.48it/s] 52%|█████▏    | 194914/371472 [4:27:07<14:35:44,  3.36it/s] 52%|█████▏    | 194915/371472 [4:27:07<14:42:37,  3.33it/s] 52%|█████▏    | 194916/371472 [4:27:07<14:12:31,  3.45it/s] 52%|█████▏    | 194917/371472 [4:27:08<13:54:55,  3.52it/s] 52%|█████▏    | 194918/371472 [4:27:08<15:04:08,  3.25it/s] 52%|█████▏    | 194919/371472 [4:27:08<15:06:03,  3.25it/s] 52%|█████▏    | 194920/371472 [4:27:09<14:30:42,  3.38it/s]                                                            {'loss': 2.9506, 'learning_rate': 5.279794867374862e-07, 'epoch': 8.4}
 52%|█████▏    | 194920/371472 [4:27:09<14:30:42,  3.38it/s] 52%|█████▏    | 194921/371472 [4:27:09<14:01:32,  3.50it/s] 52%|█████▏    | 194922/371472 [4:27:09<13:44:14,  3.57it/s] 52%|█████▏    | 194923/371472 [4:27:09<13:46:03,  3.56it/s] 52%|█████▏    | 194924/371472 [4:27:10<13:08:29,  3.73it/s] 52%|█████▏    | 194925/371472 [4:27:10<13:06:07,  3.74it/s] 52%|█████▏    | 194926/371472 [4:27:10<13:26:34,  3.65it/s] 52%|█████▏    | 194927/371472 [4:27:11<13:14:43,  3.70it/s] 52%|█████▏    | 194928/371472 [4:27:11<14:03:49,  3.49it/s] 52%|█████▏    | 194929/371472 [4:27:11<14:14:55,  3.44it/s] 52%|█████▏    | 194930/371472 [4:27:11<14:18:41,  3.43it/s] 52%|█████▏    | 194931/371472 [4:27:12<13:59:05,  3.51it/s] 52%|█████▏    | 194932/371472 [4:27:12<13:49:44,  3.55it/s] 52%|█████▏    | 194933/371472 [4:27:12<14:39:42,  3.34it/s] 52%|█████▏    | 194934/371472 [4:27:13<15:42:30,  3.12it/s] 52%|█████▏    | 194935/371472 [4:27:13<15:09:52,  3.23it/s] 52%|█████▏    | 194936/371472 [4:27:13<15:22:24,  3.19it/s] 52%|█████▏    | 194937/371472 [4:27:14<14:44:30,  3.33it/s] 52%|█████▏    | 194938/371472 [4:27:14<14:09:16,  3.46it/s] 52%|█████▏    | 194939/371472 [4:27:14<14:18:24,  3.43it/s] 52%|█████▏    | 194940/371472 [4:27:14<13:40:21,  3.59it/s]                                                            {'loss': 3.0872, 'learning_rate': 5.279310047620074e-07, 'epoch': 8.4}
 52%|█████▏    | 194940/371472 [4:27:14<13:40:21,  3.59it/s] 52%|█████▏    | 194941/371472 [4:27:15<13:57:30,  3.51it/s] 52%|█████▏    | 194942/371472 [4:27:15<13:42:14,  3.58it/s] 52%|█████▏    | 194943/371472 [4:27:15<14:11:38,  3.45it/s] 52%|█████▏    | 194944/371472 [4:27:16<13:59:22,  3.51it/s] 52%|█████▏    | 194945/371472 [4:27:16<14:12:51,  3.45it/s] 52%|█████▏    | 194946/371472 [4:27:16<14:17:49,  3.43it/s] 52%|█████▏    | 194947/371472 [4:27:16<14:31:12,  3.38it/s] 52%|█████▏    | 194948/371472 [4:27:17<14:15:03,  3.44it/s] 52%|█████▏    | 194949/371472 [4:27:17<13:37:14,  3.60it/s] 52%|█████▏    | 194950/371472 [4:27:17<13:24:14,  3.66it/s] 52%|█████▏    | 194951/371472 [4:27:18<13:04:45,  3.75it/s] 52%|█████▏    | 194952/371472 [4:27:18<13:21:54,  3.67it/s] 52%|█████▏    | 194953/371472 [4:27:18<13:05:03,  3.75it/s] 52%|█████▏    | 194954/371472 [4:27:18<14:15:47,  3.44it/s] 52%|█████▏    | 194955/371472 [4:27:19<14:24:49,  3.40it/s] 52%|█████▏    | 194956/371472 [4:27:19<14:31:14,  3.38it/s] 52%|█████▏    | 194957/371472 [4:27:19<14:28:56,  3.39it/s] 52%|█████▏    | 194958/371472 [4:27:20<14:19:02,  3.42it/s] 52%|█████▏    | 194959/371472 [4:27:20<14:11:03,  3.46it/s] 52%|█████▏    | 194960/371472 [4:27:20<13:35:34,  3.61it/s]                                                            {'loss': 2.8529, 'learning_rate': 5.278825227865284e-07, 'epoch': 8.4}
 52%|█████▏    | 194960/371472 [4:27:20<13:35:34,  3.61it/s] 52%|█████▏    | 194961/371472 [4:27:20<13:17:15,  3.69it/s] 52%|█████▏    | 194962/371472 [4:27:21<13:32:15,  3.62it/s] 52%|█████▏    | 194963/371472 [4:27:21<14:36:46,  3.36it/s] 52%|█████▏    | 194964/371472 [4:27:21<14:16:50,  3.43it/s] 52%|█████▏    | 194965/371472 [4:27:22<14:25:49,  3.40it/s] 52%|█████▏    | 194966/371472 [4:27:22<13:56:55,  3.51it/s] 52%|█████▏    | 194967/371472 [4:27:22<14:01:46,  3.49it/s] 52%|█████▏    | 194968/371472 [4:27:22<13:34:25,  3.61it/s] 52%|█████▏    | 194969/371472 [4:27:23<13:24:09,  3.66it/s] 52%|█████▏    | 194970/371472 [4:27:23<14:15:21,  3.44it/s] 52%|█████▏    | 194971/371472 [4:27:23<14:21:05,  3.42it/s] 52%|█████▏    | 194972/371472 [4:27:24<14:21:17,  3.42it/s] 52%|█████▏    | 194973/371472 [4:27:24<14:05:00,  3.48it/s] 52%|█████▏    | 194974/371472 [4:27:24<14:02:25,  3.49it/s] 52%|█████▏    | 194975/371472 [4:27:24<13:21:13,  3.67it/s] 52%|█████▏    | 194976/371472 [4:27:25<13:01:12,  3.77it/s] 52%|█████▏    | 194977/371472 [4:27:25<13:12:49,  3.71it/s] 52%|█████▏    | 194978/371472 [4:27:25<13:08:35,  3.73it/s] 52%|█████▏    | 194979/371472 [4:27:25<13:33:58,  3.61it/s] 52%|█████▏    | 194980/371472 [4:27:26<13:45:06,  3.57it/s]                                                            {'loss': 3.0577, 'learning_rate': 5.278340408110496e-07, 'epoch': 8.4}
 52%|█████▏    | 194980/371472 [4:27:26<13:45:06,  3.57it/s] 52%|█████▏    | 194981/371472 [4:27:26<13:56:07,  3.52it/s] 52%|█████▏    | 194982/371472 [4:27:26<14:06:00,  3.48it/s] 52%|█████▏    | 194983/371472 [4:27:27<13:49:18,  3.55it/s] 52%|█████▏    | 194984/371472 [4:27:27<13:56:30,  3.52it/s] 52%|█████▏    | 194985/371472 [4:27:27<13:59:40,  3.50it/s] 52%|█████▏    | 194986/371472 [4:27:27<13:31:37,  3.62it/s] 52%|█████▏    | 194987/371472 [4:27:28<13:50:13,  3.54it/s] 52%|█████▏    | 194988/371472 [4:27:28<13:51:42,  3.54it/s] 52%|█████▏    | 194989/371472 [4:27:28<13:36:53,  3.60it/s] 52%|█████▏    | 194990/371472 [4:27:29<13:39:03,  3.59it/s] 52%|█████▏    | 194991/371472 [4:27:29<13:34:07,  3.61it/s] 52%|█████▏    | 194992/371472 [4:27:29<13:36:42,  3.60it/s] 52%|█████▏    | 194993/371472 [4:27:29<14:45:24,  3.32it/s] 52%|█████▏    | 194994/371472 [4:27:30<14:29:55,  3.38it/s] 52%|█████▏    | 194995/371472 [4:27:30<14:06:22,  3.48it/s] 52%|█████▏    | 194996/371472 [4:27:30<13:48:58,  3.55it/s] 52%|█████▏    | 194997/371472 [4:27:31<13:23:14,  3.66it/s] 52%|█████▏    | 194998/371472 [4:27:31<15:15:35,  3.21it/s] 52%|█████▏    | 194999/371472 [4:27:31<14:37:56,  3.35it/s] 52%|█████▏    | 195000/371472 [4:27:31<14:07:02,  3.47it/s]                                                            {'loss': 3.0665, 'learning_rate': 5.277855588355707e-07, 'epoch': 8.4}
 52%|█████▏    | 195000/371472 [4:27:31<14:07:02,  3.47it/s] 52%|█████▏    | 195001/371472 [4:27:32<14:24:49,  3.40it/s] 52%|█████▏    | 195002/371472 [4:27:32<14:30:14,  3.38it/s] 52%|█████▏    | 195003/371472 [4:27:32<14:03:41,  3.49it/s] 52%|█████▏    | 195004/371472 [4:27:33<15:31:42,  3.16it/s] 52%|█████▏    | 195005/371472 [4:27:33<14:58:23,  3.27it/s] 52%|█████▏    | 195006/371472 [4:27:33<14:25:05,  3.40it/s] 52%|█████▏    | 195007/371472 [4:27:34<14:51:41,  3.30it/s] 52%|█████▏    | 195008/371472 [4:27:34<14:30:10,  3.38it/s] 52%|█████▏    | 195009/371472 [4:27:34<13:57:09,  3.51it/s] 52%|█████▏    | 195010/371472 [4:27:34<13:45:23,  3.56it/s] 52%|█████▏    | 195011/371472 [4:27:35<13:26:30,  3.65it/s] 52%|█████▏    | 195012/371472 [4:27:35<13:34:29,  3.61it/s] 52%|█████▏    | 195013/371472 [4:27:35<14:16:59,  3.43it/s] 52%|█████▏    | 195014/371472 [4:27:36<13:42:54,  3.57it/s] 52%|█████▏    | 195015/371472 [4:27:36<14:12:17,  3.45it/s] 52%|█████▏    | 195016/371472 [4:27:36<14:25:07,  3.40it/s] 52%|█████▏    | 195017/371472 [4:27:36<14:13:07,  3.45it/s] 52%|█████▏    | 195018/371472 [4:27:37<14:08:19,  3.47it/s] 52%|█████▏    | 195019/371472 [4:27:37<13:51:15,  3.54it/s] 52%|█████▏    | 195020/371472 [4:27:37<13:31:36,  3.62it/s]                                                            {'loss': 2.8775, 'learning_rate': 5.277370768600917e-07, 'epoch': 8.4}
 52%|█████▏    | 195020/371472 [4:27:37<13:31:36,  3.62it/s] 52%|█████▏    | 195021/371472 [4:27:38<13:25:51,  3.65it/s] 52%|█████▏    | 195022/371472 [4:27:38<13:34:17,  3.61it/s] 53%|█████▎    | 195023/371472 [4:27:38<13:28:45,  3.64it/s] 53%|█████▎    | 195024/371472 [4:27:38<13:18:17,  3.68it/s] 53%|█████▎    | 195025/371472 [4:27:39<13:05:56,  3.74it/s] 53%|█████▎    | 195026/371472 [4:27:39<12:53:27,  3.80it/s] 53%|█████▎    | 195027/371472 [4:27:39<12:53:12,  3.80it/s] 53%|█████▎    | 195028/371472 [4:27:39<13:26:17,  3.65it/s] 53%|█████▎    | 195029/371472 [4:27:40<14:26:34,  3.39it/s] 53%|█████▎    | 195030/371472 [4:27:40<13:47:48,  3.55it/s] 53%|█████▎    | 195031/371472 [4:27:40<13:48:34,  3.55it/s] 53%|█████▎    | 195032/371472 [4:27:41<13:31:35,  3.62it/s] 53%|█████▎    | 195033/371472 [4:27:41<14:25:49,  3.40it/s] 53%|█████▎    | 195034/371472 [4:27:41<13:58:10,  3.51it/s] 53%|█████▎    | 195035/371472 [4:27:41<13:42:42,  3.57it/s] 53%|█████▎    | 195036/371472 [4:27:42<13:47:11,  3.55it/s] 53%|█████▎    | 195037/371472 [4:27:42<13:35:06,  3.61it/s] 53%|█████▎    | 195038/371472 [4:27:42<14:56:44,  3.28it/s] 53%|█████▎    | 195039/371472 [4:27:43<13:55:13,  3.52it/s] 53%|█████▎    | 195040/371472 [4:27:43<13:20:45,  3.67it/s]                                                            {'loss': 2.9732, 'learning_rate': 5.276885948846128e-07, 'epoch': 8.4}
 53%|█████▎    | 195040/371472 [4:27:43<13:20:45,  3.67it/s] 53%|█████▎    | 195041/371472 [4:27:43<13:17:19,  3.69it/s] 53%|█████▎    | 195042/371472 [4:27:43<13:08:17,  3.73it/s] 53%|█████▎    | 195043/371472 [4:27:44<14:18:33,  3.42it/s] 53%|█████▎    | 195044/371472 [4:27:44<13:51:37,  3.54it/s] 53%|█████▎    | 195045/371472 [4:27:44<13:24:50,  3.65it/s] 53%|█████▎    | 195046/371472 [4:27:44<13:24:01,  3.66it/s] 53%|█████▎    | 195047/371472 [4:27:45<13:26:29,  3.65it/s] 53%|█████▎    | 195048/371472 [4:27:45<13:20:32,  3.67it/s] 53%|█████▎    | 195049/371472 [4:27:45<13:32:11,  3.62it/s] 53%|█████▎    | 195050/371472 [4:27:46<14:30:23,  3.38it/s] 53%|█████▎    | 195051/371472 [4:27:46<14:04:32,  3.48it/s] 53%|█████▎    | 195052/371472 [4:27:46<13:38:52,  3.59it/s] 53%|█████▎    | 195053/371472 [4:27:46<13:29:42,  3.63it/s] 53%|█████▎    | 195054/371472 [4:27:47<13:08:49,  3.73it/s] 53%|█████▎    | 195055/371472 [4:27:47<13:20:13,  3.67it/s] 53%|█████▎    | 195056/371472 [4:27:47<13:48:30,  3.55it/s] 53%|█████▎    | 195057/371472 [4:27:48<13:49:21,  3.55it/s] 53%|█████▎    | 195058/371472 [4:27:48<14:20:37,  3.42it/s] 53%|█████▎    | 195059/371472 [4:27:48<13:47:47,  3.55it/s] 53%|█████▎    | 195060/371472 [4:27:48<13:26:57,  3.64it/s]                                                            {'loss': 3.0792, 'learning_rate': 5.276401129091341e-07, 'epoch': 8.4}
 53%|█████▎    | 195060/371472 [4:27:48<13:26:57,  3.64it/s] 53%|█████▎    | 195061/371472 [4:27:49<13:50:32,  3.54it/s] 53%|█████▎    | 195062/371472 [4:27:49<13:34:00,  3.61it/s] 53%|█████▎    | 195063/371472 [4:27:49<13:22:57,  3.66it/s] 53%|█████▎    | 195064/371472 [4:27:50<13:30:01,  3.63it/s] 53%|█████▎    | 195065/371472 [4:27:50<13:11:13,  3.72it/s] 53%|█████▎    | 195066/371472 [4:27:50<13:01:44,  3.76it/s] 53%|█████▎    | 195067/371472 [4:27:50<13:17:57,  3.68it/s] 53%|█████▎    | 195068/371472 [4:27:51<13:22:28,  3.66it/s] 53%|█████▎    | 195069/371472 [4:27:51<13:19:12,  3.68it/s] 53%|█████▎    | 195070/371472 [4:27:51<13:12:19,  3.71it/s] 53%|█████▎    | 195071/371472 [4:27:51<13:14:17,  3.70it/s] 53%|█████▎    | 195072/371472 [4:27:52<12:56:05,  3.79it/s] 53%|█████▎    | 195073/371472 [4:27:52<13:51:18,  3.54it/s] 53%|█████▎    | 195074/371472 [4:27:52<13:22:57,  3.66it/s] 53%|█████▎    | 195075/371472 [4:27:52<12:51:29,  3.81it/s] 53%|█████▎    | 195076/371472 [4:27:53<12:56:05,  3.79it/s] 53%|█████▎    | 195077/371472 [4:27:53<12:51:11,  3.81it/s] 53%|█████▎    | 195078/371472 [4:27:53<12:44:23,  3.85it/s] 53%|█████▎    | 195079/371472 [4:27:53<12:49:19,  3.82it/s] 53%|█████▎    | 195080/371472 [4:27:54<13:14:18,  3.70it/s]                                                            {'loss': 2.8362, 'learning_rate': 5.27591630933655e-07, 'epoch': 8.4}
 53%|█████▎    | 195080/371472 [4:27:54<13:14:18,  3.70it/s] 53%|█████▎    | 195081/371472 [4:27:54<13:21:33,  3.67it/s] 53%|█████▎    | 195082/371472 [4:27:54<14:17:47,  3.43it/s] 53%|█████▎    | 195083/371472 [4:27:55<13:46:30,  3.56it/s] 53%|█████▎    | 195084/371472 [4:27:55<13:53:04,  3.53it/s] 53%|█████▎    | 195085/371472 [4:27:55<13:39:25,  3.59it/s] 53%|█████▎    | 195086/371472 [4:27:56<13:53:39,  3.53it/s] 53%|█████▎    | 195087/371472 [4:27:56<13:48:40,  3.55it/s] 53%|█████▎    | 195088/371472 [4:27:56<14:15:52,  3.43it/s] 53%|█████▎    | 195089/371472 [4:27:56<13:38:28,  3.59it/s] 53%|█████▎    | 195090/371472 [4:27:57<13:00:15,  3.77it/s] 53%|█████▎    | 195091/371472 [4:27:57<13:41:11,  3.58it/s] 53%|█████▎    | 195092/371472 [4:27:57<13:25:44,  3.65it/s] 53%|█████▎    | 195093/371472 [4:27:57<13:41:16,  3.58it/s] 53%|█████▎    | 195094/371472 [4:27:58<13:23:23,  3.66it/s] 53%|█████▎    | 195095/371472 [4:27:58<13:56:48,  3.51it/s] 53%|█████▎    | 195096/371472 [4:27:58<13:26:44,  3.64it/s] 53%|█████▎    | 195097/371472 [4:27:59<13:18:35,  3.68it/s] 53%|█████▎    | 195098/371472 [4:27:59<13:39:30,  3.59it/s] 53%|█████▎    | 195099/371472 [4:27:59<13:49:49,  3.54it/s] 53%|█████▎    | 195100/371472 [4:27:59<13:38:00,  3.59it/s]                                                            {'loss': 2.9389, 'learning_rate': 5.275431489581762e-07, 'epoch': 8.4}
 53%|█████▎    | 195100/371472 [4:27:59<13:38:00,  3.59it/s] 53%|█████▎    | 195101/371472 [4:28:00<13:36:46,  3.60it/s] 53%|█████▎    | 195102/371472 [4:28:00<13:31:08,  3.62it/s] 53%|█████▎    | 195103/371472 [4:28:00<13:25:30,  3.65it/s] 53%|█████▎    | 195104/371472 [4:28:01<14:31:10,  3.37it/s] 53%|█████▎    | 195105/371472 [4:28:01<14:08:23,  3.46it/s] 53%|█████▎    | 195106/371472 [4:28:01<13:56:46,  3.51it/s] 53%|█████▎    | 195107/371472 [4:28:01<13:33:32,  3.61it/s] 53%|█████▎    | 195108/371472 [4:28:02<14:38:40,  3.35it/s] 53%|█████▎    | 195109/371472 [4:28:02<14:06:33,  3.47it/s] 53%|█████▎    | 195110/371472 [4:28:02<14:21:42,  3.41it/s] 53%|█████▎    | 195111/371472 [4:28:03<13:57:44,  3.51it/s] 53%|█████▎    | 195112/371472 [4:28:03<13:40:02,  3.58it/s] 53%|█████▎    | 195113/371472 [4:28:03<14:06:41,  3.47it/s] 53%|█████▎    | 195114/371472 [4:28:03<13:51:03,  3.54it/s] 53%|█████▎    | 195115/371472 [4:28:04<14:12:21,  3.45it/s] 53%|█████▎    | 195116/371472 [4:28:04<13:59:08,  3.50it/s] 53%|█████▎    | 195117/371472 [4:28:04<13:56:20,  3.51it/s] 53%|█████▎    | 195118/371472 [4:28:05<13:47:34,  3.55it/s] 53%|█████▎    | 195119/371472 [4:28:05<13:47:54,  3.55it/s] 53%|█████▎    | 195120/371472 [4:28:05<13:33:59,  3.61it/s]                                                            {'loss': 2.9192, 'learning_rate': 5.274946669826973e-07, 'epoch': 8.4}
 53%|█████▎    | 195120/371472 [4:28:05<13:33:59,  3.61it/s] 53%|█████▎    | 195121/371472 [4:28:05<13:09:08,  3.72it/s] 53%|█████▎    | 195122/371472 [4:28:06<13:14:32,  3.70it/s] 53%|█████▎    | 195123/371472 [4:28:06<13:00:48,  3.76it/s] 53%|█████▎    | 195124/371472 [4:28:06<12:53:02,  3.80it/s] 53%|█████▎    | 195125/371472 [4:28:06<13:03:47,  3.75it/s] 53%|█████▎    | 195126/371472 [4:28:07<13:05:03,  3.74it/s] 53%|█████▎    | 195127/371472 [4:28:07<13:37:50,  3.59it/s] 53%|█████▎    | 195128/371472 [4:28:07<14:22:01,  3.41it/s] 53%|█████▎    | 195129/371472 [4:28:08<14:10:54,  3.45it/s] 53%|█████▎    | 195130/371472 [4:28:08<14:30:33,  3.38it/s] 53%|█████▎    | 195131/371472 [4:28:08<14:04:44,  3.48it/s] 53%|█████▎    | 195132/371472 [4:28:08<14:46:49,  3.31it/s] 53%|█████▎    | 195133/371472 [4:28:09<14:28:56,  3.38it/s] 53%|█████▎    | 195134/371472 [4:28:09<13:55:59,  3.52it/s] 53%|█████▎    | 195135/371472 [4:28:09<13:42:01,  3.58it/s] 53%|█████▎    | 195136/371472 [4:28:10<14:50:18,  3.30it/s] 53%|█████▎    | 195137/371472 [4:28:10<13:58:25,  3.51it/s] 53%|█████▎    | 195138/371472 [4:28:10<13:32:56,  3.62it/s] 53%|█████▎    | 195139/371472 [4:28:10<13:12:32,  3.71it/s] 53%|█████▎    | 195140/371472 [4:28:11<13:04:19,  3.75it/s]                                                            {'loss': 3.0152, 'learning_rate': 5.274461850072184e-07, 'epoch': 8.41}
 53%|█████▎    | 195140/371472 [4:28:11<13:04:19,  3.75it/s] 53%|█████▎    | 195141/371472 [4:28:11<13:10:24,  3.72it/s] 53%|█████▎    | 195142/371472 [4:28:11<13:20:54,  3.67it/s] 53%|█████▎    | 195143/371472 [4:28:12<14:03:45,  3.48it/s] 53%|█████▎    | 195144/371472 [4:28:12<13:57:06,  3.51it/s] 53%|█████▎    | 195145/371472 [4:28:12<13:51:34,  3.53it/s] 53%|█████▎    | 195146/371472 [4:28:12<13:26:55,  3.64it/s] 53%|█████▎    | 195147/371472 [4:28:13<13:46:47,  3.55it/s] 53%|█████▎    | 195148/371472 [4:28:13<13:50:44,  3.54it/s] 53%|█████▎    | 195149/371472 [4:28:13<14:15:16,  3.44it/s] 53%|█████▎    | 195150/371472 [4:28:14<14:24:28,  3.40it/s] 53%|█████▎    | 195151/371472 [4:28:14<14:48:46,  3.31it/s] 53%|█████▎    | 195152/371472 [4:28:14<14:25:55,  3.39it/s] 53%|█████▎    | 195153/371472 [4:28:14<14:16:46,  3.43it/s] 53%|█████▎    | 195154/371472 [4:28:15<14:33:45,  3.36it/s] 53%|█████▎    | 195155/371472 [4:28:15<14:18:14,  3.42it/s] 53%|█████▎    | 195156/371472 [4:28:15<14:30:57,  3.37it/s] 53%|█████▎    | 195157/371472 [4:28:16<14:32:28,  3.37it/s] 53%|█████▎    | 195158/371472 [4:28:16<14:16:58,  3.43it/s] 53%|█████▎    | 195159/371472 [4:28:16<14:48:28,  3.31it/s] 53%|█████▎    | 195160/371472 [4:28:16<14:21:00,  3.41it/s]                                                            {'loss': 3.0255, 'learning_rate': 5.273977030317394e-07, 'epoch': 8.41}
 53%|█████▎    | 195160/371472 [4:28:16<14:21:00,  3.41it/s] 53%|█████▎    | 195161/371472 [4:28:17<15:38:36,  3.13it/s] 53%|█████▎    | 195162/371472 [4:28:17<14:52:40,  3.29it/s] 53%|█████▎    | 195163/371472 [4:28:17<14:25:30,  3.40it/s] 53%|█████▎    | 195164/371472 [4:28:18<14:07:38,  3.47it/s] 53%|█████▎    | 195165/371472 [4:28:18<13:44:37,  3.56it/s] 53%|█████▎    | 195166/371472 [4:28:18<13:31:20,  3.62it/s] 53%|█████▎    | 195167/371472 [4:28:19<14:13:06,  3.44it/s] 53%|█████▎    | 195168/371472 [4:28:19<14:14:20,  3.44it/s] 53%|█████▎    | 195169/371472 [4:28:19<14:04:24,  3.48it/s] 53%|█████▎    | 195170/371472 [4:28:19<13:46:08,  3.56it/s] 53%|█████▎    | 195171/371472 [4:28:20<13:59:08,  3.50it/s] 53%|█████▎    | 195172/371472 [4:28:20<13:39:39,  3.58it/s] 53%|█████▎    | 195173/371472 [4:28:20<13:17:38,  3.68it/s] 53%|█████▎    | 195174/371472 [4:28:20<13:13:43,  3.70it/s] 53%|█████▎    | 195175/371472 [4:28:21<13:28:32,  3.63it/s] 53%|█████▎    | 195176/371472 [4:28:21<13:12:34,  3.71it/s] 53%|█████▎    | 195177/371472 [4:28:21<13:28:44,  3.63it/s] 53%|█████▎    | 195178/371472 [4:28:22<13:52:49,  3.53it/s] 53%|█████▎    | 195179/371472 [4:28:22<13:48:49,  3.55it/s] 53%|█████▎    | 195180/371472 [4:28:22<13:34:54,  3.61it/s]                                                            {'loss': 2.8687, 'learning_rate': 5.273492210562607e-07, 'epoch': 8.41}
 53%|█████▎    | 195180/371472 [4:28:22<13:34:54,  3.61it/s] 53%|█████▎    | 195181/371472 [4:28:22<13:34:59,  3.61it/s] 53%|█████▎    | 195182/371472 [4:28:23<13:28:36,  3.63it/s] 53%|█████▎    | 195183/371472 [4:28:23<13:27:57,  3.64it/s] 53%|█████▎    | 195184/371472 [4:28:23<13:32:51,  3.61it/s] 53%|█████▎    | 195185/371472 [4:28:24<13:56:32,  3.51it/s] 53%|█████▎    | 195186/371472 [4:28:24<13:46:26,  3.56it/s] 53%|█████▎    | 195187/371472 [4:28:24<13:39:33,  3.58it/s] 53%|█████▎    | 195188/371472 [4:28:24<13:35:19,  3.60it/s] 53%|█████▎    | 195189/371472 [4:28:25<13:30:38,  3.62it/s] 53%|█████▎    | 195190/371472 [4:28:25<13:35:38,  3.60it/s] 53%|█████▎    | 195191/371472 [4:28:25<13:22:17,  3.66it/s] 53%|█████▎    | 195192/371472 [4:28:25<13:01:37,  3.76it/s] 53%|█████▎    | 195193/371472 [4:28:26<13:43:14,  3.57it/s] 53%|█████▎    | 195194/371472 [4:28:26<14:07:14,  3.47it/s] 53%|█████▎    | 195195/371472 [4:28:26<14:33:02,  3.37it/s] 53%|█████▎    | 195196/371472 [4:28:27<14:55:50,  3.28it/s] 53%|█████▎    | 195197/371472 [4:28:27<15:19:31,  3.20it/s] 53%|█████▎    | 195198/371472 [4:28:27<14:20:38,  3.41it/s] 53%|█████▎    | 195199/371472 [4:28:28<14:57:15,  3.27it/s] 53%|█████▎    | 195200/371472 [4:28:28<14:16:13,  3.43it/s]                                                            {'loss': 2.7636, 'learning_rate': 5.273007390807818e-07, 'epoch': 8.41}
 53%|█████▎    | 195200/371472 [4:28:28<14:16:13,  3.43it/s] 53%|█████▎    | 195201/371472 [4:28:28<14:49:13,  3.30it/s] 53%|█████▎    | 195202/371472 [4:28:28<14:32:18,  3.37it/s] 53%|█████▎    | 195203/371472 [4:28:29<14:13:43,  3.44it/s] 53%|█████▎    | 195204/371472 [4:28:29<14:48:47,  3.31it/s] 53%|█████▎    | 195205/371472 [4:28:29<14:50:56,  3.30it/s] 53%|█████▎    | 195206/371472 [4:28:30<14:21:41,  3.41it/s] 53%|█████▎    | 195207/371472 [4:28:30<14:38:45,  3.34it/s] 53%|█████▎    | 195208/371472 [4:28:30<14:02:56,  3.49it/s] 53%|█████▎    | 195209/371472 [4:28:31<15:04:30,  3.25it/s] 53%|█████▎    | 195210/371472 [4:28:31<15:36:50,  3.14it/s] 53%|█████▎    | 195211/371472 [4:28:31<14:45:40,  3.32it/s] 53%|█████▎    | 195212/371472 [4:28:32<15:14:50,  3.21it/s] 53%|█████▎    | 195213/371472 [4:28:32<14:38:45,  3.34it/s] 53%|█████▎    | 195214/371472 [4:28:32<14:57:19,  3.27it/s] 53%|█████▎    | 195215/371472 [4:28:32<14:42:54,  3.33it/s] 53%|█████▎    | 195216/371472 [4:28:33<14:35:19,  3.36it/s] 53%|█████▎    | 195217/371472 [4:28:33<14:43:37,  3.32it/s] 53%|█████▎    | 195218/371472 [4:28:33<14:23:33,  3.40it/s] 53%|█████▎    | 195219/371472 [4:28:34<14:01:52,  3.49it/s] 53%|█████▎    | 195220/371472 [4:28:34<13:59:23,  3.50it/s]                                                            {'loss': 2.9422, 'learning_rate': 5.272522571053028e-07, 'epoch': 8.41}
 53%|█████▎    | 195220/371472 [4:28:34<13:59:23,  3.50it/s] 53%|█████▎    | 195221/371472 [4:28:34<13:46:53,  3.55it/s] 53%|█████▎    | 195222/371472 [4:28:34<13:36:41,  3.60it/s] 53%|█████▎    | 195223/371472 [4:28:35<13:45:00,  3.56it/s] 53%|█████▎    | 195224/371472 [4:28:35<14:25:03,  3.40it/s] 53%|█████▎    | 195225/371472 [4:28:35<14:36:10,  3.35it/s] 53%|█████▎    | 195226/371472 [4:28:36<14:30:53,  3.37it/s] 53%|█████▎    | 195227/371472 [4:28:36<14:05:58,  3.47it/s] 53%|█████▎    | 195228/371472 [4:28:36<14:00:30,  3.49it/s] 53%|█████▎    | 195229/371472 [4:28:36<13:50:22,  3.54it/s] 53%|█████▎    | 195230/371472 [4:28:37<13:51:59,  3.53it/s] 53%|█████▎    | 195231/371472 [4:28:37<14:09:34,  3.46it/s] 53%|█████▎    | 195232/371472 [4:28:37<14:46:31,  3.31it/s] 53%|█████▎    | 195233/371472 [4:28:38<15:13:54,  3.21it/s] 53%|█████▎    | 195234/371472 [4:28:38<15:05:36,  3.24it/s] 53%|█████▎    | 195235/371472 [4:28:38<14:43:53,  3.32it/s] 53%|█████▎    | 195236/371472 [4:28:39<14:55:33,  3.28it/s] 53%|█████▎    | 195237/371472 [4:28:39<14:18:46,  3.42it/s] 53%|█████▎    | 195238/371472 [4:28:39<13:45:09,  3.56it/s] 53%|█████▎    | 195239/371472 [4:28:39<14:25:47,  3.39it/s] 53%|█████▎    | 195240/371472 [4:28:40<14:38:13,  3.34it/s]                                                            {'loss': 2.9377, 'learning_rate': 5.272037751298239e-07, 'epoch': 8.41}
 53%|█████▎    | 195240/371472 [4:28:40<14:38:13,  3.34it/s] 53%|█████▎    | 195241/371472 [4:28:40<13:58:06,  3.50it/s] 53%|█████▎    | 195242/371472 [4:28:40<13:51:02,  3.53it/s] 53%|█████▎    | 195243/371472 [4:28:41<14:15:01,  3.44it/s] 53%|█████▎    | 195244/371472 [4:28:41<14:06:44,  3.47it/s] 53%|█████▎    | 195245/371472 [4:28:41<15:07:07,  3.24it/s] 53%|█████▎    | 195246/371472 [4:28:41<14:28:21,  3.38it/s] 53%|█████▎    | 195247/371472 [4:28:42<14:25:35,  3.39it/s] 53%|█████▎    | 195248/371472 [4:28:42<14:02:39,  3.49it/s] 53%|█████▎    | 195249/371472 [4:28:42<14:27:10,  3.39it/s] 53%|█████▎    | 195250/371472 [4:28:43<14:03:58,  3.48it/s] 53%|█████▎    | 195251/371472 [4:28:43<13:49:19,  3.54it/s] 53%|█████▎    | 195252/371472 [4:28:43<15:08:12,  3.23it/s] 53%|█████▎    | 195253/371472 [4:28:44<14:23:09,  3.40it/s] 53%|█████▎    | 195254/371472 [4:28:44<13:39:14,  3.59it/s] 53%|█████▎    | 195255/371472 [4:28:44<13:35:44,  3.60it/s] 53%|█████▎    | 195256/371472 [4:28:44<13:54:20,  3.52it/s] 53%|█████▎    | 195257/371472 [4:28:45<14:19:08,  3.42it/s] 53%|█████▎    | 195258/371472 [4:28:45<13:54:47,  3.52it/s] 53%|█████▎    | 195259/371472 [4:28:45<14:12:46,  3.44it/s] 53%|█████▎    | 195260/371472 [4:28:46<14:31:52,  3.37it/s]                                                            {'loss': 3.1397, 'learning_rate': 5.27155293154345e-07, 'epoch': 8.41}
 53%|█████▎    | 195260/371472 [4:28:46<14:31:52,  3.37it/s] 53%|█████▎    | 195261/371472 [4:28:46<14:00:48,  3.49it/s] 53%|█████▎    | 195262/371472 [4:28:46<15:11:37,  3.22it/s] 53%|█████▎    | 195263/371472 [4:28:46<14:12:04,  3.45it/s] 53%|█████▎    | 195264/371472 [4:28:47<14:34:10,  3.36it/s] 53%|█████▎    | 195265/371472 [4:28:47<14:32:10,  3.37it/s] 53%|█████▎    | 195266/371472 [4:28:47<14:06:43,  3.47it/s] 53%|█████▎    | 195267/371472 [4:28:48<16:22:26,  2.99it/s] 53%|█████▎    | 195268/371472 [4:28:48<15:37:25,  3.13it/s] 53%|█████▎    | 195269/371472 [4:28:48<15:10:05,  3.23it/s] 53%|█████▎    | 195270/371472 [4:28:49<14:28:41,  3.38it/s] 53%|█████▎    | 195271/371472 [4:28:49<14:14:15,  3.44it/s] 53%|█████▎    | 195272/371472 [4:28:49<14:00:15,  3.49it/s] 53%|█████▎    | 195273/371472 [4:28:49<13:56:17,  3.51it/s] 53%|█████▎    | 195274/371472 [4:28:50<13:56:58,  3.51it/s] 53%|█████▎    | 195275/371472 [4:28:50<14:03:44,  3.48it/s] 53%|█████▎    | 195276/371472 [4:28:50<13:46:00,  3.56it/s] 53%|█████▎    | 195277/371472 [4:28:51<14:45:35,  3.32it/s] 53%|█████▎    | 195278/371472 [4:28:51<14:36:14,  3.35it/s] 53%|█████▎    | 195279/371472 [4:28:51<15:05:12,  3.24it/s] 53%|█████▎    | 195280/371472 [4:28:52<15:32:59,  3.15it/s]                                                            {'loss': 3.0162, 'learning_rate': 5.271068111788661e-07, 'epoch': 8.41}
 53%|█████▎    | 195280/371472 [4:28:52<15:32:59,  3.15it/s] 53%|█████▎    | 195281/371472 [4:28:52<15:18:40,  3.20it/s] 53%|█████▎    | 195282/371472 [4:28:52<14:37:32,  3.35it/s] 53%|█████▎    | 195283/371472 [4:28:52<14:02:24,  3.49it/s] 53%|█████▎    | 195284/371472 [4:28:53<14:12:34,  3.44it/s] 53%|█████▎    | 195285/371472 [4:28:53<14:08:29,  3.46it/s] 53%|█████▎    | 195286/371472 [4:28:53<14:12:40,  3.44it/s] 53%|█████▎    | 195287/371472 [4:28:54<14:24:06,  3.40it/s] 53%|█████▎    | 195288/371472 [4:28:54<14:18:57,  3.42it/s] 53%|█████▎    | 195289/371472 [4:28:54<14:30:08,  3.37it/s] 53%|█████▎    | 195290/371472 [4:28:54<13:52:00,  3.53it/s] 53%|█████▎    | 195291/371472 [4:28:55<14:02:13,  3.49it/s] 53%|█████▎    | 195292/371472 [4:28:55<14:27:53,  3.38it/s] 53%|█████▎    | 195293/371472 [4:28:55<14:09:05,  3.46it/s] 53%|█████▎    | 195294/371472 [4:28:56<13:35:18,  3.60it/s] 53%|█████▎    | 195295/371472 [4:28:56<13:39:43,  3.58it/s] 53%|█████▎    | 195296/371472 [4:28:56<13:34:33,  3.60it/s] 53%|█████▎    | 195297/371472 [4:28:56<13:56:05,  3.51it/s] 53%|█████▎    | 195298/371472 [4:28:57<14:19:57,  3.41it/s] 53%|█████▎    | 195299/371472 [4:28:57<13:44:07,  3.56it/s] 53%|█████▎    | 195300/371472 [4:28:57<13:22:44,  3.66it/s]                                                            {'loss': 3.149, 'learning_rate': 5.270583292033872e-07, 'epoch': 8.41}
 53%|█████▎    | 195300/371472 [4:28:57<13:22:44,  3.66it/s] 53%|█████▎    | 195301/371472 [4:28:57<13:18:37,  3.68it/s] 53%|█████▎    | 195302/371472 [4:28:58<13:27:30,  3.64it/s] 53%|█████▎    | 195303/371472 [4:28:58<13:18:59,  3.67it/s] 53%|█████▎    | 195304/371472 [4:28:58<13:09:54,  3.72it/s] 53%|█████▎    | 195305/371472 [4:28:59<14:54:05,  3.28it/s] 53%|█████▎    | 195306/371472 [4:28:59<14:51:57,  3.29it/s] 53%|█████▎    | 195307/371472 [4:28:59<14:11:05,  3.45it/s] 53%|█████▎    | 195308/371472 [4:29:00<13:49:57,  3.54it/s] 53%|█████▎    | 195309/371472 [4:29:00<13:34:53,  3.60it/s] 53%|█████▎    | 195310/371472 [4:29:00<13:06:17,  3.73it/s] 53%|█████▎    | 195311/371472 [4:29:00<12:49:32,  3.82it/s] 53%|█████▎    | 195312/371472 [4:29:01<12:56:29,  3.78it/s] 53%|█████▎    | 195313/371472 [4:29:01<13:47:13,  3.55it/s] 53%|█████▎    | 195314/371472 [4:29:01<13:34:25,  3.60it/s] 53%|█████▎    | 195315/371472 [4:29:01<14:02:50,  3.48it/s] 53%|█████▎    | 195316/371472 [4:29:02<13:54:33,  3.52it/s] 53%|█████▎    | 195317/371472 [4:29:02<13:33:30,  3.61it/s] 53%|█████▎    | 195318/371472 [4:29:02<13:29:24,  3.63it/s] 53%|█████▎    | 195319/371472 [4:29:03<14:24:51,  3.39it/s] 53%|█████▎    | 195320/371472 [4:29:03<13:55:16,  3.51it/s]                                                            {'loss': 3.0252, 'learning_rate': 5.270098472279084e-07, 'epoch': 8.41}
 53%|█████▎    | 195320/371472 [4:29:03<13:55:16,  3.51it/s] 53%|█████▎    | 195321/371472 [4:29:03<14:08:20,  3.46it/s] 53%|█████▎    | 195322/371472 [4:29:03<14:17:56,  3.42it/s] 53%|█████▎    | 195323/371472 [4:29:04<13:51:05,  3.53it/s] 53%|█████▎    | 195324/371472 [4:29:04<13:24:18,  3.65it/s] 53%|█████▎    | 195325/371472 [4:29:04<13:37:42,  3.59it/s] 53%|█████▎    | 195326/371472 [4:29:05<13:47:26,  3.55it/s] 53%|█████▎    | 195327/371472 [4:29:05<14:06:10,  3.47it/s] 53%|█████▎    | 195328/371472 [4:29:05<13:51:57,  3.53it/s] 53%|█████▎    | 195329/371472 [4:29:05<13:45:37,  3.56it/s] 53%|█████▎    | 195330/371472 [4:29:06<13:38:30,  3.59it/s] 53%|█████▎    | 195331/371472 [4:29:06<13:02:07,  3.75it/s] 53%|█████▎    | 195332/371472 [4:29:06<13:35:58,  3.60it/s] 53%|█████▎    | 195333/371472 [4:29:07<14:39:01,  3.34it/s] 53%|█████▎    | 195334/371472 [4:29:07<15:52:39,  3.08it/s] 53%|█████▎    | 195335/371472 [4:29:07<15:34:40,  3.14it/s] 53%|█████▎    | 195336/371472 [4:29:08<15:20:52,  3.19it/s] 53%|█████▎    | 195337/371472 [4:29:08<14:45:29,  3.32it/s] 53%|█████▎    | 195338/371472 [4:29:08<14:28:17,  3.38it/s] 53%|█████▎    | 195339/371472 [4:29:08<13:59:41,  3.50it/s] 53%|█████▎    | 195340/371472 [4:29:09<14:09:56,  3.45it/s]                                                            {'loss': 3.0089, 'learning_rate': 5.269613652524294e-07, 'epoch': 8.41}
 53%|█████▎    | 195340/371472 [4:29:09<14:09:56,  3.45it/s] 53%|█████▎    | 195341/371472 [4:29:09<13:50:08,  3.54it/s] 53%|█████▎    | 195342/371472 [4:29:09<13:20:29,  3.67it/s] 53%|█████▎    | 195343/371472 [4:29:09<13:43:18,  3.57it/s] 53%|█████▎    | 195344/371472 [4:29:10<13:28:15,  3.63it/s] 53%|█████▎    | 195345/371472 [4:29:10<13:50:19,  3.54it/s] 53%|█████▎    | 195346/371472 [4:29:10<13:53:03,  3.52it/s] 53%|█████▎    | 195347/371472 [4:29:11<13:34:17,  3.60it/s] 53%|█████▎    | 195348/371472 [4:29:11<13:25:20,  3.64it/s] 53%|█████▎    | 195349/371472 [4:29:11<13:16:13,  3.69it/s] 53%|█████▎    | 195350/371472 [4:29:11<13:01:04,  3.76it/s] 53%|█████▎    | 195351/371472 [4:29:12<13:01:47,  3.75it/s] 53%|█████▎    | 195352/371472 [4:29:12<13:13:55,  3.70it/s] 53%|█████▎    | 195353/371472 [4:29:12<12:58:09,  3.77it/s] 53%|█████▎    | 195354/371472 [4:29:13<14:27:01,  3.39it/s] 53%|█████▎    | 195355/371472 [4:29:13<14:38:37,  3.34it/s] 53%|█████▎    | 195356/371472 [4:29:13<14:34:04,  3.36it/s] 53%|█████▎    | 195357/371472 [4:29:13<14:46:15,  3.31it/s] 53%|█████▎    | 195358/371472 [4:29:14<13:53:21,  3.52it/s] 53%|█████▎    | 195359/371472 [4:29:14<13:29:58,  3.62it/s] 53%|█████▎    | 195360/371472 [4:29:14<13:58:31,  3.50it/s]                                                            {'loss': 2.8615, 'learning_rate': 5.269128832769506e-07, 'epoch': 8.41}
 53%|█████▎    | 195360/371472 [4:29:14<13:58:31,  3.50it/s] 53%|█████▎    | 195361/371472 [4:29:15<13:52:03,  3.53it/s] 53%|█████▎    | 195362/371472 [4:29:15<15:02:01,  3.25it/s] 53%|█████▎    | 195363/371472 [4:29:15<14:12:43,  3.44it/s] 53%|█████▎    | 195364/371472 [4:29:16<15:31:39,  3.15it/s] 53%|█████▎    | 195365/371472 [4:29:16<14:55:48,  3.28it/s] 53%|█████▎    | 195366/371472 [4:29:16<14:21:22,  3.41it/s] 53%|█████▎    | 195367/371472 [4:29:16<15:02:16,  3.25it/s] 53%|█████▎    | 195368/371472 [4:29:17<14:27:28,  3.38it/s] 53%|█████▎    | 195369/371472 [4:29:17<14:05:02,  3.47it/s] 53%|█████▎    | 195370/371472 [4:29:17<13:26:40,  3.64it/s] 53%|█████▎    | 195371/371472 [4:29:17<13:10:22,  3.71it/s] 53%|█████▎    | 195372/371472 [4:29:18<13:42:52,  3.57it/s] 53%|█████▎    | 195373/371472 [4:29:18<14:56:14,  3.27it/s] 53%|█████▎    | 195374/371472 [4:29:18<14:20:44,  3.41it/s] 53%|█████▎    | 195375/371472 [4:29:19<14:09:25,  3.46it/s] 53%|█████▎    | 195376/371472 [4:29:19<13:50:37,  3.53it/s] 53%|█████▎    | 195377/371472 [4:29:19<13:35:29,  3.60it/s] 53%|█████▎    | 195378/371472 [4:29:19<13:45:45,  3.55it/s] 53%|█████▎    | 195379/371472 [4:29:20<13:56:36,  3.51it/s] 53%|█████▎    | 195380/371472 [4:29:20<14:11:26,  3.45it/s]                                                            {'loss': 2.9847, 'learning_rate': 5.268644013014716e-07, 'epoch': 8.42}
 53%|█████▎    | 195380/371472 [4:29:20<14:11:26,  3.45it/s] 53%|█████▎    | 195381/371472 [4:29:20<14:46:11,  3.31it/s] 53%|█████▎    | 195382/371472 [4:29:21<14:10:42,  3.45it/s] 53%|█████▎    | 195383/371472 [4:29:21<13:46:16,  3.55it/s] 53%|█████▎    | 195384/371472 [4:29:21<13:32:42,  3.61it/s] 53%|█████▎    | 195385/371472 [4:29:22<13:56:54,  3.51it/s] 53%|█████▎    | 195386/371472 [4:29:22<14:42:08,  3.33it/s] 53%|█████▎    | 195387/371472 [4:29:22<14:26:59,  3.39it/s] 53%|█████▎    | 195388/371472 [4:29:22<14:36:05,  3.35it/s] 53%|█████▎    | 195389/371472 [4:29:23<13:38:41,  3.58it/s] 53%|█████▎    | 195390/371472 [4:29:23<14:13:52,  3.44it/s] 53%|█████▎    | 195391/371472 [4:29:23<14:05:19,  3.47it/s] 53%|█████▎    | 195392/371472 [4:29:24<13:38:47,  3.58it/s] 53%|█████▎    | 195393/371472 [4:29:24<13:32:39,  3.61it/s] 53%|█████▎    | 195394/371472 [4:29:24<14:10:32,  3.45it/s] 53%|█████▎    | 195395/371472 [4:29:25<16:17:26,  3.00it/s] 53%|█████▎    | 195396/371472 [4:29:25<15:13:44,  3.21it/s] 53%|█████▎    | 195397/371472 [4:29:25<14:32:19,  3.36it/s] 53%|█████▎    | 195398/371472 [4:29:25<14:02:29,  3.48it/s] 53%|█████▎    | 195399/371472 [4:29:26<14:51:09,  3.29it/s] 53%|█████▎    | 195400/371472 [4:29:26<14:33:36,  3.36it/s]                                                            {'loss': 3.0181, 'learning_rate': 5.268159193259927e-07, 'epoch': 8.42}
 53%|█████▎    | 195400/371472 [4:29:26<14:33:36,  3.36it/s] 53%|█████▎    | 195401/371472 [4:29:26<14:15:52,  3.43it/s] 53%|█████▎    | 195402/371472 [4:29:27<15:42:47,  3.11it/s] 53%|█████▎    | 195403/371472 [4:29:27<15:29:10,  3.16it/s] 53%|█████▎    | 195404/371472 [4:29:27<15:28:31,  3.16it/s] 53%|█████▎    | 195405/371472 [4:29:28<14:50:43,  3.29it/s] 53%|█████▎    | 195406/371472 [4:29:28<14:54:45,  3.28it/s] 53%|█████▎    | 195407/371472 [4:29:28<15:31:02,  3.15it/s] 53%|█████▎    | 195408/371472 [4:29:28<14:40:16,  3.33it/s] 53%|█████▎    | 195409/371472 [4:29:29<13:57:02,  3.51it/s] 53%|█████▎    | 195410/371472 [4:29:29<13:59:31,  3.50it/s] 53%|█████▎    | 195411/371472 [4:29:29<14:51:38,  3.29it/s] 53%|█████▎    | 195412/371472 [4:29:30<14:45:56,  3.31it/s] 53%|█████▎    | 195413/371472 [4:29:30<14:28:57,  3.38it/s] 53%|█████▎    | 195414/371472 [4:29:30<14:18:14,  3.42it/s] 53%|█████▎    | 195415/371472 [4:29:30<14:10:31,  3.45it/s] 53%|█████▎    | 195416/371472 [4:29:31<13:40:21,  3.58it/s] 53%|█████▎    | 195417/371472 [4:29:31<14:00:39,  3.49it/s] 53%|█████▎    | 195418/371472 [4:29:31<13:32:41,  3.61it/s] 53%|█████▎    | 195419/371472 [4:29:32<13:09:59,  3.71it/s] 53%|█████▎    | 195420/371472 [4:29:32<12:56:28,  3.78it/s]                                                            {'loss': 2.9896, 'learning_rate': 5.267674373505138e-07, 'epoch': 8.42}
 53%|█████▎    | 195420/371472 [4:29:32<12:56:28,  3.78it/s] 53%|█████▎    | 195421/371472 [4:29:32<12:49:33,  3.81it/s] 53%|█████▎    | 195422/371472 [4:29:32<12:55:50,  3.78it/s] 53%|█████▎    | 195423/371472 [4:29:33<13:00:36,  3.76it/s] 53%|█████▎    | 195424/371472 [4:29:33<13:23:31,  3.65it/s] 53%|█████▎    | 195425/371472 [4:29:33<13:37:10,  3.59it/s] 53%|█████▎    | 195426/371472 [4:29:33<13:15:48,  3.69it/s] 53%|█████▎    | 195427/371472 [4:29:34<13:41:42,  3.57it/s] 53%|█████▎    | 195428/371472 [4:29:34<13:02:55,  3.75it/s] 53%|█████▎    | 195429/371472 [4:29:34<13:16:33,  3.68it/s] 53%|█████▎    | 195430/371472 [4:29:35<13:06:17,  3.73it/s] 53%|█████▎    | 195431/371472 [4:29:35<13:07:45,  3.72it/s] 53%|█████▎    | 195432/371472 [4:29:35<13:47:45,  3.54it/s] 53%|█████▎    | 195433/371472 [4:29:35<13:31:08,  3.62it/s] 53%|█████▎    | 195434/371472 [4:29:36<14:08:18,  3.46it/s] 53%|█████▎    | 195435/371472 [4:29:36<14:03:43,  3.48it/s] 53%|█████▎    | 195436/371472 [4:29:36<13:43:35,  3.56it/s] 53%|█████▎    | 195437/371472 [4:29:36<13:27:28,  3.63it/s] 53%|█████▎    | 195438/371472 [4:29:37<13:35:00,  3.60it/s] 53%|█████▎    | 195439/371472 [4:29:37<13:37:36,  3.59it/s] 53%|█████▎    | 195440/371472 [4:29:37<13:16:10,  3.68it/s]                                                            {'loss': 2.9747, 'learning_rate': 5.267189553750351e-07, 'epoch': 8.42}
 53%|█████▎    | 195440/371472 [4:29:37<13:16:10,  3.68it/s] 53%|█████▎    | 195441/371472 [4:29:38<14:06:20,  3.47it/s] 53%|█████▎    | 195442/371472 [4:29:38<14:03:14,  3.48it/s] 53%|█████▎    | 195443/371472 [4:29:38<13:56:21,  3.51it/s] 53%|█████▎    | 195444/371472 [4:29:38<13:50:02,  3.53it/s] 53%|█████▎    | 195445/371472 [4:29:39<13:31:15,  3.62it/s] 53%|█████▎    | 195446/371472 [4:29:39<14:16:37,  3.42it/s] 53%|█████▎    | 195447/371472 [4:29:39<13:55:27,  3.51it/s] 53%|█████▎    | 195448/371472 [4:29:40<14:06:56,  3.46it/s] 53%|█████▎    | 195449/371472 [4:29:40<14:11:24,  3.45it/s] 53%|█████▎    | 195450/371472 [4:29:40<15:17:03,  3.20it/s] 53%|█████▎    | 195451/371472 [4:29:41<15:03:13,  3.25it/s] 53%|█████▎    | 195452/371472 [4:29:41<15:43:29,  3.11it/s] 53%|█████▎    | 195453/371472 [4:29:41<15:04:16,  3.24it/s] 53%|█████▎    | 195454/371472 [4:29:42<15:26:49,  3.17it/s] 53%|█████▎    | 195455/371472 [4:29:42<15:17:42,  3.20it/s] 53%|█████▎    | 195456/371472 [4:29:42<15:21:06,  3.18it/s] 53%|█████▎    | 195457/371472 [4:29:42<15:29:25,  3.16it/s] 53%|█████▎    | 195458/371472 [4:29:43<14:50:36,  3.29it/s] 53%|█████▎    | 195459/371472 [4:29:43<14:05:34,  3.47it/s] 53%|█████▎    | 195460/371472 [4:29:43<14:10:06,  3.45it/s]                                                            {'loss': 2.9274, 'learning_rate': 5.266704733995561e-07, 'epoch': 8.42}
 53%|█████▎    | 195460/371472 [4:29:43<14:10:06,  3.45it/s] 53%|█████▎    | 195461/371472 [4:29:44<14:06:06,  3.47it/s] 53%|█████▎    | 195462/371472 [4:29:44<14:16:16,  3.43it/s] 53%|█████▎    | 195463/371472 [4:29:44<14:08:22,  3.46it/s] 53%|█████▎    | 195464/371472 [4:29:44<13:59:13,  3.50it/s] 53%|█████▎    | 195465/371472 [4:29:45<13:47:52,  3.54it/s] 53%|█████▎    | 195466/371472 [4:29:45<14:45:26,  3.31it/s] 53%|█████▎    | 195467/371472 [4:29:45<14:17:50,  3.42it/s] 53%|█████▎    | 195468/371472 [4:29:46<13:37:26,  3.59it/s] 53%|█████▎    | 195469/371472 [4:29:46<13:07:55,  3.72it/s] 53%|█████▎    | 195470/371472 [4:29:46<13:59:16,  3.50it/s] 53%|█████▎    | 195471/371472 [4:29:46<13:38:23,  3.58it/s] 53%|█████▎    | 195472/371472 [4:29:47<13:35:04,  3.60it/s] 53%|█████▎    | 195473/371472 [4:29:47<13:43:03,  3.56it/s] 53%|█████▎    | 195474/371472 [4:29:47<13:40:10,  3.58it/s] 53%|█████▎    | 195475/371472 [4:29:48<13:48:07,  3.54it/s] 53%|█████▎    | 195476/371472 [4:29:48<13:31:36,  3.61it/s] 53%|█████▎    | 195477/371472 [4:29:48<13:03:40,  3.74it/s] 53%|█████▎    | 195478/371472 [4:29:48<13:04:11,  3.74it/s] 53%|█████▎    | 195479/371472 [4:29:49<13:14:33,  3.69it/s] 53%|█████▎    | 195480/371472 [4:29:49<12:54:47,  3.79it/s]                                                            {'loss': 2.9919, 'learning_rate': 5.266219914240772e-07, 'epoch': 8.42}
 53%|█████▎    | 195480/371472 [4:29:49<12:54:47,  3.79it/s] 53%|█████▎    | 195481/371472 [4:29:49<13:31:41,  3.61it/s] 53%|█████▎    | 195482/371472 [4:29:49<13:31:42,  3.61it/s] 53%|█████▎    | 195483/371472 [4:29:50<13:19:13,  3.67it/s] 53%|█████▎    | 195484/371472 [4:29:50<13:47:46,  3.54it/s] 53%|█████▎    | 195485/371472 [4:29:50<14:31:21,  3.37it/s] 53%|█████▎    | 195486/371472 [4:29:51<13:59:42,  3.49it/s] 53%|█████▎    | 195487/371472 [4:29:51<14:08:32,  3.46it/s] 53%|█████▎    | 195488/371472 [4:29:51<14:31:11,  3.37it/s] 53%|█████▎    | 195489/371472 [4:29:52<15:30:53,  3.15it/s] 53%|█████▎    | 195490/371472 [4:29:52<14:54:10,  3.28it/s] 53%|█████▎    | 195491/371472 [4:29:52<14:58:00,  3.27it/s] 53%|█████▎    | 195492/371472 [4:29:52<14:40:04,  3.33it/s] 53%|█████▎    | 195493/371472 [4:29:53<14:23:02,  3.40it/s] 53%|█████▎    | 195494/371472 [4:29:53<14:57:33,  3.27it/s] 53%|█████▎    | 195495/371472 [4:29:53<15:39:26,  3.12it/s] 53%|█████▎    | 195496/371472 [4:29:54<15:03:19,  3.25it/s] 53%|█████▎    | 195497/371472 [4:29:54<14:31:34,  3.37it/s] 53%|█████▎    | 195498/371472 [4:29:54<13:56:28,  3.51it/s] 53%|█████▎    | 195499/371472 [4:29:55<13:57:36,  3.50it/s] 53%|█████▎    | 195500/371472 [4:29:55<15:02:20,  3.25it/s]                                                            {'loss': 2.9281, 'learning_rate': 5.265735094485983e-07, 'epoch': 8.42}
 53%|█████▎    | 195500/371472 [4:29:55<15:02:20,  3.25it/s] 53%|█████▎    | 195501/371472 [4:29:55<15:08:51,  3.23it/s] 53%|█████▎    | 195502/371472 [4:29:55<14:38:15,  3.34it/s] 53%|█████▎    | 195503/371472 [4:29:56<14:24:13,  3.39it/s] 53%|█████▎    | 195504/371472 [4:29:56<14:19:27,  3.41it/s] 53%|█████▎    | 195505/371472 [4:29:56<13:53:07,  3.52it/s] 53%|█████▎    | 195506/371472 [4:29:57<13:25:27,  3.64it/s] 53%|█████▎    | 195507/371472 [4:29:57<14:09:21,  3.45it/s] 53%|█████▎    | 195508/371472 [4:29:57<14:07:42,  3.46it/s] 53%|█████▎    | 195509/371472 [4:29:57<13:57:41,  3.50it/s] 53%|█████▎    | 195510/371472 [4:29:58<14:02:55,  3.48it/s] 53%|█████▎    | 195511/371472 [4:29:58<15:13:13,  3.21it/s] 53%|█████▎    | 195512/371472 [4:29:58<14:19:22,  3.41it/s] 53%|█████▎    | 195513/371472 [4:29:59<14:05:05,  3.47it/s] 53%|█████▎    | 195514/371472 [4:29:59<14:04:08,  3.47it/s] 53%|█████▎    | 195515/371472 [4:29:59<14:05:00,  3.47it/s] 53%|█████▎    | 195516/371472 [4:29:59<13:56:35,  3.51it/s] 53%|█████▎    | 195517/371472 [4:30:00<13:49:48,  3.53it/s] 53%|█████▎    | 195518/371472 [4:30:00<13:43:39,  3.56it/s] 53%|█████▎    | 195519/371472 [4:30:00<13:48:51,  3.54it/s] 53%|█████▎    | 195520/371472 [4:30:01<13:45:54,  3.55it/s]                                                            {'loss': 2.9541, 'learning_rate': 5.265250274731195e-07, 'epoch': 8.42}
 53%|█████▎    | 195520/371472 [4:30:01<13:45:54,  3.55it/s] 53%|█████▎    | 195521/371472 [4:30:01<13:50:34,  3.53it/s] 53%|█████▎    | 195522/371472 [4:30:01<13:31:30,  3.61it/s] 53%|█████▎    | 195523/371472 [4:30:01<13:24:37,  3.64it/s] 53%|█████▎    | 195524/371472 [4:30:02<13:27:58,  3.63it/s] 53%|█████▎    | 195525/371472 [4:30:02<13:46:29,  3.55it/s] 53%|█████▎    | 195526/371472 [4:30:02<13:55:30,  3.51it/s] 53%|█████▎    | 195527/371472 [4:30:03<14:33:39,  3.36it/s] 53%|█████▎    | 195528/371472 [4:30:03<14:30:34,  3.37it/s] 53%|█████▎    | 195529/371472 [4:30:03<14:45:50,  3.31it/s] 53%|█████▎    | 195530/371472 [4:30:04<14:37:48,  3.34it/s] 53%|█████▎    | 195531/371472 [4:30:04<14:06:40,  3.46it/s] 53%|█████▎    | 195532/371472 [4:30:04<14:11:19,  3.44it/s] 53%|█████▎    | 195533/371472 [4:30:04<14:18:46,  3.41it/s] 53%|█████▎    | 195534/371472 [4:30:05<15:25:30,  3.17it/s] 53%|█████▎    | 195535/371472 [4:30:05<15:41:42,  3.11it/s] 53%|█████▎    | 195536/371472 [4:30:05<14:53:19,  3.28it/s] 53%|█████▎    | 195537/371472 [4:30:06<14:32:41,  3.36it/s] 53%|█████▎    | 195538/371472 [4:30:06<13:53:51,  3.52it/s] 53%|█████▎    | 195539/371472 [4:30:06<13:37:09,  3.59it/s] 53%|█████▎    | 195540/371472 [4:30:06<13:09:34,  3.71it/s]                                                            {'loss': 2.8551, 'learning_rate': 5.264765454976404e-07, 'epoch': 8.42}
 53%|█████▎    | 195540/371472 [4:30:06<13:09:34,  3.71it/s] 53%|█████▎    | 195541/371472 [4:30:07<13:23:40,  3.65it/s] 53%|█████▎    | 195542/371472 [4:30:07<13:29:17,  3.62it/s] 53%|█████▎    | 195543/371472 [4:30:07<13:15:25,  3.69it/s] 53%|█████▎    | 195544/371472 [4:30:08<13:31:42,  3.61it/s] 53%|█████▎    | 195545/371472 [4:30:08<13:09:03,  3.72it/s] 53%|█████▎    | 195546/371472 [4:30:08<13:26:40,  3.63it/s] 53%|█████▎    | 195547/371472 [4:30:08<13:11:15,  3.71it/s] 53%|█████▎    | 195548/371472 [4:30:09<13:00:37,  3.76it/s] 53%|█████▎    | 195549/371472 [4:30:09<12:57:20,  3.77it/s] 53%|█████▎    | 195550/371472 [4:30:09<13:26:46,  3.63it/s] 53%|█████▎    | 195551/371472 [4:30:09<13:37:14,  3.59it/s] 53%|█████▎    | 195552/371472 [4:30:10<13:33:42,  3.60it/s] 53%|█████▎    | 195553/371472 [4:30:10<13:40:21,  3.57it/s] 53%|█████▎    | 195554/371472 [4:30:10<14:12:21,  3.44it/s] 53%|█████▎    | 195555/371472 [4:30:11<14:16:22,  3.42it/s] 53%|█████▎    | 195556/371472 [4:30:11<14:41:34,  3.33it/s] 53%|█████▎    | 195557/371472 [4:30:11<14:12:37,  3.44it/s] 53%|█████▎    | 195558/371472 [4:30:11<14:28:16,  3.38it/s] 53%|█████▎    | 195559/371472 [4:30:12<14:09:00,  3.45it/s] 53%|█████▎    | 195560/371472 [4:30:12<13:39:16,  3.58it/s]                                                            {'loss': 3.1354, 'learning_rate': 5.264280635221617e-07, 'epoch': 8.42}
 53%|█████▎    | 195560/371472 [4:30:12<13:39:16,  3.58it/s] 53%|█████▎    | 195561/371472 [4:30:12<13:33:18,  3.60it/s] 53%|█████▎    | 195562/371472 [4:30:13<13:27:34,  3.63it/s] 53%|█████▎    | 195563/371472 [4:30:13<13:19:16,  3.67it/s] 53%|█████▎    | 195564/371472 [4:30:13<13:14:26,  3.69it/s] 53%|█████▎    | 195565/371472 [4:30:13<13:47:19,  3.54it/s] 53%|█████▎    | 195566/371472 [4:30:14<13:54:25,  3.51it/s] 53%|█████▎    | 195567/371472 [4:30:14<14:22:37,  3.40it/s] 53%|█████▎    | 195568/371472 [4:30:14<14:38:14,  3.34it/s] 53%|█████▎    | 195569/371472 [4:30:15<14:23:39,  3.39it/s] 53%|█████▎    | 195570/371472 [4:30:15<14:29:03,  3.37it/s] 53%|█████▎    | 195571/371472 [4:30:15<14:19:33,  3.41it/s] 53%|█████▎    | 195572/371472 [4:30:15<14:37:55,  3.34it/s] 53%|█████▎    | 195573/371472 [4:30:16<13:56:16,  3.51it/s] 53%|█████▎    | 195574/371472 [4:30:16<15:42:08,  3.11it/s] 53%|█████▎    | 195575/371472 [4:30:16<15:35:12,  3.13it/s] 53%|█████▎    | 195576/371472 [4:30:17<15:01:49,  3.25it/s] 53%|█████▎    | 195577/371472 [4:30:17<14:30:23,  3.37it/s] 53%|█████▎    | 195578/371472 [4:30:17<14:38:15,  3.34it/s] 53%|█████▎    | 195579/371472 [4:30:18<14:33:12,  3.36it/s] 53%|█████▎    | 195580/371472 [4:30:18<13:51:49,  3.52it/s]                                                            {'loss': 3.0119, 'learning_rate': 5.263795815466828e-07, 'epoch': 8.42}
 53%|█████▎    | 195580/371472 [4:30:18<13:51:49,  3.52it/s] 53%|█████▎    | 195581/371472 [4:30:18<14:59:30,  3.26it/s] 53%|█████▎    | 195582/371472 [4:30:19<14:35:36,  3.35it/s] 53%|█████▎    | 195583/371472 [4:30:19<14:46:37,  3.31it/s] 53%|█████▎    | 195584/371472 [4:30:19<14:27:55,  3.38it/s] 53%|█████▎    | 195585/371472 [4:30:19<14:15:30,  3.43it/s] 53%|█████▎    | 195586/371472 [4:30:20<14:01:29,  3.48it/s] 53%|█████▎    | 195587/371472 [4:30:20<13:37:37,  3.59it/s] 53%|█████▎    | 195588/371472 [4:30:20<13:27:43,  3.63it/s] 53%|█████▎    | 195589/371472 [4:30:20<13:29:01,  3.62it/s] 53%|█████▎    | 195590/371472 [4:30:21<13:17:07,  3.68it/s] 53%|█████▎    | 195591/371472 [4:30:21<13:27:38,  3.63it/s] 53%|█████▎    | 195592/371472 [4:30:21<14:00:09,  3.49it/s] 53%|█████▎    | 195593/371472 [4:30:22<13:41:03,  3.57it/s] 53%|█████▎    | 195594/371472 [4:30:22<13:49:29,  3.53it/s] 53%|█████▎    | 195595/371472 [4:30:22<14:03:23,  3.48it/s] 53%|█████▎    | 195596/371472 [4:30:22<13:40:01,  3.57it/s] 53%|█████▎    | 195597/371472 [4:30:23<14:01:56,  3.48it/s] 53%|█████▎    | 195598/371472 [4:30:23<14:10:25,  3.45it/s] 53%|█████▎    | 195599/371472 [4:30:23<13:35:17,  3.60it/s] 53%|█████▎    | 195600/371472 [4:30:24<14:01:28,  3.48it/s]                                                            {'loss': 2.9951, 'learning_rate': 5.263310995712039e-07, 'epoch': 8.42}
 53%|█████▎    | 195600/371472 [4:30:24<14:01:28,  3.48it/s] 53%|█████▎    | 195601/371472 [4:30:24<13:27:36,  3.63it/s] 53%|█████▎    | 195602/371472 [4:30:24<13:29:19,  3.62it/s] 53%|█████▎    | 195603/371472 [4:30:24<14:04:34,  3.47it/s] 53%|█████▎    | 195604/371472 [4:30:25<14:05:42,  3.47it/s] 53%|█████▎    | 195605/371472 [4:30:25<13:49:50,  3.53it/s] 53%|█████▎    | 195606/371472 [4:30:25<14:13:38,  3.43it/s] 53%|█████▎    | 195607/371472 [4:30:26<14:56:45,  3.27it/s] 53%|█████▎    | 195608/371472 [4:30:26<15:25:45,  3.17it/s] 53%|█████▎    | 195609/371472 [4:30:26<15:21:08,  3.18it/s] 53%|█████▎    | 195610/371472 [4:30:27<15:16:35,  3.20it/s] 53%|█████▎    | 195611/371472 [4:30:27<14:58:01,  3.26it/s] 53%|█████▎    | 195612/371472 [4:30:27<14:39:52,  3.33it/s] 53%|█████▎    | 195613/371472 [4:30:28<15:05:19,  3.24it/s] 53%|█████▎    | 195614/371472 [4:30:28<16:13:28,  3.01it/s] 53%|█████▎    | 195615/371472 [4:30:28<15:13:44,  3.21it/s] 53%|█████▎    | 195616/371472 [4:30:29<17:06:43,  2.85it/s] 53%|█████▎    | 195617/371472 [4:30:29<16:00:15,  3.05it/s] 53%|█████▎    | 195618/371472 [4:30:29<15:32:38,  3.14it/s] 53%|█████▎    | 195619/371472 [4:30:29<14:50:34,  3.29it/s] 53%|█████▎    | 195620/371472 [4:30:30<13:59:04,  3.49it/s]                                                            {'loss': 3.048, 'learning_rate': 5.262826175957249e-07, 'epoch': 8.43}
 53%|█████▎    | 195620/371472 [4:30:30<13:59:04,  3.49it/s] 53%|█████▎    | 195621/371472 [4:30:30<13:45:22,  3.55it/s] 53%|█████▎    | 195622/371472 [4:30:30<14:01:55,  3.48it/s] 53%|█████▎    | 195623/371472 [4:30:31<13:42:39,  3.56it/s] 53%|█████▎    | 195624/371472 [4:30:31<14:14:38,  3.43it/s] 53%|█████▎    | 195625/371472 [4:30:31<13:56:50,  3.50it/s] 53%|█████▎    | 195626/371472 [4:30:31<13:44:09,  3.56it/s] 53%|█████▎    | 195627/371472 [4:30:32<13:08:14,  3.72it/s] 53%|█████▎    | 195628/371472 [4:30:32<13:04:21,  3.74it/s] 53%|█████▎    | 195629/371472 [4:30:32<13:02:38,  3.74it/s] 53%|█████▎    | 195630/371472 [4:30:32<12:59:58,  3.76it/s] 53%|█████▎    | 195631/371472 [4:30:33<13:23:49,  3.65it/s] 53%|█████▎    | 195632/371472 [4:30:33<13:28:09,  3.63it/s] 53%|█████▎    | 195633/371472 [4:30:33<14:03:55,  3.47it/s] 53%|█████▎    | 195634/371472 [4:30:34<14:40:47,  3.33it/s] 53%|█████▎    | 195635/371472 [4:30:34<14:42:20,  3.32it/s] 53%|█████▎    | 195636/371472 [4:30:34<14:57:04,  3.27it/s] 53%|█████▎    | 195637/371472 [4:30:35<15:30:33,  3.15it/s] 53%|█████▎    | 195638/371472 [4:30:35<14:41:23,  3.32it/s] 53%|█████▎    | 195639/371472 [4:30:35<14:19:08,  3.41it/s] 53%|█████▎    | 195640/371472 [4:30:35<13:38:59,  3.58it/s]                                                            {'loss': 3.1002, 'learning_rate': 5.262341356202461e-07, 'epoch': 8.43}
 53%|█████▎    | 195640/371472 [4:30:35<13:38:59,  3.58it/s] 53%|█████▎    | 195641/371472 [4:30:36<13:45:31,  3.55it/s] 53%|█████▎    | 195642/371472 [4:30:36<14:13:50,  3.43it/s] 53%|█████▎    | 195643/371472 [4:30:36<14:12:11,  3.44it/s] 53%|█████▎    | 195644/371472 [4:30:37<13:26:55,  3.63it/s] 53%|█████▎    | 195645/371472 [4:30:37<13:48:58,  3.54it/s] 53%|█████▎    | 195646/371472 [4:30:37<13:58:10,  3.50it/s] 53%|█████▎    | 195647/371472 [4:30:37<13:45:34,  3.55it/s] 53%|█████▎    | 195648/371472 [4:30:38<13:49:03,  3.53it/s] 53%|█████▎    | 195649/371472 [4:30:38<13:31:43,  3.61it/s] 53%|█████▎    | 195650/371472 [4:30:38<13:21:19,  3.66it/s] 53%|█████▎    | 195651/371472 [4:30:38<13:08:02,  3.72it/s] 53%|█████▎    | 195652/371472 [4:30:39<12:59:45,  3.76it/s] 53%|█████▎    | 195653/371472 [4:30:39<12:43:08,  3.84it/s] 53%|█████▎    | 195654/371472 [4:30:39<12:56:41,  3.77it/s] 53%|█████▎    | 195655/371472 [4:30:40<12:50:37,  3.80it/s] 53%|█████▎    | 195656/371472 [4:30:40<13:28:16,  3.63it/s] 53%|█████▎    | 195657/371472 [4:30:40<13:22:35,  3.65it/s] 53%|█████▎    | 195658/371472 [4:30:40<13:52:36,  3.52it/s] 53%|█████▎    | 195659/371472 [4:30:41<14:20:34,  3.40it/s] 53%|█████▎    | 195660/371472 [4:30:41<13:56:35,  3.50it/s]                                                            {'loss': 3.0229, 'learning_rate': 5.261856536447671e-07, 'epoch': 8.43}
 53%|█████▎    | 195660/371472 [4:30:41<13:56:35,  3.50it/s] 53%|█████▎    | 195661/371472 [4:30:41<14:36:52,  3.34it/s] 53%|█████▎    | 195662/371472 [4:30:42<15:49:47,  3.09it/s] 53%|█████▎    | 195663/371472 [4:30:42<15:03:27,  3.24it/s] 53%|█████▎    | 195664/371472 [4:30:42<14:08:10,  3.45it/s] 53%|█████▎    | 195665/371472 [4:30:42<13:24:09,  3.64it/s] 53%|█████▎    | 195666/371472 [4:30:43<13:26:56,  3.63it/s] 53%|█████▎    | 195667/371472 [4:30:43<13:26:46,  3.63it/s] 53%|█████▎    | 195668/371472 [4:30:43<13:57:17,  3.50it/s] 53%|█████▎    | 195669/371472 [4:30:44<13:39:50,  3.57it/s] 53%|█████▎    | 195670/371472 [4:30:44<13:36:40,  3.59it/s] 53%|█████▎    | 195671/371472 [4:30:44<13:48:47,  3.54it/s] 53%|█████▎    | 195672/371472 [4:30:44<13:51:35,  3.52it/s] 53%|█████▎    | 195673/371472 [4:30:45<13:11:59,  3.70it/s] 53%|█████▎    | 195674/371472 [4:30:45<12:48:00,  3.82it/s] 53%|█████▎    | 195675/371472 [4:30:45<13:30:38,  3.61it/s] 53%|█████▎    | 195676/371472 [4:30:45<13:27:32,  3.63it/s] 53%|█████▎    | 195677/371472 [4:30:46<13:24:44,  3.64it/s] 53%|█████▎    | 195678/371472 [4:30:46<14:18:34,  3.41it/s] 53%|█████▎    | 195679/371472 [4:30:46<13:47:51,  3.54it/s] 53%|█████▎    | 195680/371472 [4:30:47<13:25:25,  3.64it/s]                                                            {'loss': 3.1248, 'learning_rate': 5.261371716692884e-07, 'epoch': 8.43}
 53%|█████▎    | 195680/371472 [4:30:47<13:25:25,  3.64it/s] 53%|█████▎    | 195681/371472 [4:30:47<14:12:54,  3.44it/s] 53%|█████▎    | 195682/371472 [4:30:47<14:56:04,  3.27it/s] 53%|█████▎    | 195683/371472 [4:30:48<14:34:17,  3.35it/s] 53%|█████▎    | 195684/371472 [4:30:48<14:12:15,  3.44it/s] 53%|█████▎    | 195685/371472 [4:30:48<14:05:09,  3.47it/s] 53%|█████▎    | 195686/371472 [4:30:48<13:41:45,  3.57it/s] 53%|█████▎    | 195687/371472 [4:30:49<14:22:07,  3.40it/s] 53%|█████▎    | 195688/371472 [4:30:49<14:06:32,  3.46it/s] 53%|█████▎    | 195689/371472 [4:30:49<13:29:10,  3.62it/s] 53%|█████▎    | 195690/371472 [4:30:50<13:32:22,  3.61it/s] 53%|█████▎    | 195691/371472 [4:30:50<14:05:39,  3.46it/s] 53%|█████▎    | 195692/371472 [4:30:50<13:48:14,  3.54it/s] 53%|█████▎    | 195693/371472 [4:30:50<14:04:37,  3.47it/s] 53%|█████▎    | 195694/371472 [4:30:51<15:13:30,  3.21it/s] 53%|█████▎    | 195695/371472 [4:30:51<15:09:12,  3.22it/s] 53%|█████▎    | 195696/371472 [4:30:51<14:25:52,  3.38it/s] 53%|█████▎    | 195697/371472 [4:30:52<14:07:47,  3.46it/s] 53%|█████▎    | 195698/371472 [4:30:52<14:01:19,  3.48it/s] 53%|█████▎    | 195699/371472 [4:30:52<14:20:08,  3.41it/s] 53%|█████▎    | 195700/371472 [4:30:53<15:18:22,  3.19it/s]                                                            {'loss': 3.0054, 'learning_rate': 5.260886896938093e-07, 'epoch': 8.43}
 53%|█████▎    | 195700/371472 [4:30:53<15:18:22,  3.19it/s] 53%|█████▎    | 195701/371472 [4:30:53<14:25:25,  3.39it/s] 53%|█████▎    | 195702/371472 [4:30:53<14:02:28,  3.48it/s] 53%|█████▎    | 195703/371472 [4:30:53<13:41:05,  3.57it/s] 53%|█████▎    | 195704/371472 [4:30:54<13:26:59,  3.63it/s] 53%|█████▎    | 195705/371472 [4:30:54<14:17:52,  3.41it/s] 53%|█████▎    | 195706/371472 [4:30:54<14:13:03,  3.43it/s] 53%|█████▎    | 195707/371472 [4:30:54<13:42:58,  3.56it/s] 53%|█████▎    | 195708/371472 [4:30:55<13:14:05,  3.69it/s] 53%|█████▎    | 195709/371472 [4:30:55<13:20:39,  3.66it/s] 53%|█████▎    | 195710/371472 [4:30:55<13:05:46,  3.73it/s] 53%|█████▎    | 195711/371472 [4:30:56<13:00:47,  3.75it/s] 53%|█████▎    | 195712/371472 [4:30:56<12:47:25,  3.82it/s] 53%|█████▎    | 195713/371472 [4:30:56<12:24:13,  3.94it/s] 53%|█████▎    | 195714/371472 [4:30:56<13:09:31,  3.71it/s] 53%|█████▎    | 195715/371472 [4:30:57<13:11:48,  3.70it/s] 53%|█████▎    | 195716/371472 [4:30:57<14:11:51,  3.44it/s] 53%|█████▎    | 195717/371472 [4:30:57<15:00:30,  3.25it/s] 53%|█████▎    | 195718/371472 [4:30:58<17:42:26,  2.76it/s] 53%|█████▎    | 195719/371472 [4:30:58<16:26:24,  2.97it/s] 53%|█████▎    | 195720/371472 [4:30:58<15:27:19,  3.16it/s]                                                            {'loss': 2.9341, 'learning_rate': 5.260402077183305e-07, 'epoch': 8.43}
 53%|█████▎    | 195720/371472 [4:30:58<15:27:19,  3.16it/s] 53%|█████▎    | 195721/371472 [4:30:59<14:45:58,  3.31it/s] 53%|█████▎    | 195722/371472 [4:30:59<14:58:18,  3.26it/s] 53%|█████▎    | 195723/371472 [4:30:59<14:15:48,  3.42it/s] 53%|█████▎    | 195724/371472 [4:30:59<13:39:05,  3.58it/s] 53%|█████▎    | 195725/371472 [4:31:00<13:14:01,  3.69it/s] 53%|█████▎    | 195726/371472 [4:31:00<12:58:42,  3.76it/s] 53%|█████▎    | 195727/371472 [4:31:00<12:47:49,  3.81it/s] 53%|█████▎    | 195728/371472 [4:31:01<14:01:16,  3.48it/s] 53%|█████▎    | 195729/371472 [4:31:01<15:35:32,  3.13it/s] 53%|█████▎    | 195730/371472 [4:31:01<14:43:19,  3.32it/s] 53%|█████▎    | 195731/371472 [4:31:01<14:11:12,  3.44it/s] 53%|█████▎    | 195732/371472 [4:31:02<14:39:07,  3.33it/s] 53%|█████▎    | 195733/371472 [4:31:02<14:08:45,  3.45it/s] 53%|█████▎    | 195734/371472 [4:31:02<15:45:06,  3.10it/s] 53%|█████▎    | 195735/371472 [4:31:03<15:35:24,  3.13it/s] 53%|█████▎    | 195736/371472 [4:31:03<14:55:16,  3.27it/s] 53%|█████▎    | 195737/371472 [4:31:03<14:00:40,  3.48it/s] 53%|█████▎    | 195738/371472 [4:31:03<13:20:42,  3.66it/s] 53%|█████▎    | 195739/371472 [4:31:04<14:22:00,  3.40it/s] 53%|█████▎    | 195740/371472 [4:31:04<14:07:47,  3.45it/s]                                                            {'loss': 2.9275, 'learning_rate': 5.259917257428516e-07, 'epoch': 8.43}
 53%|█████▎    | 195740/371472 [4:31:04<14:07:47,  3.45it/s] 53%|█████▎    | 195741/371472 [4:31:04<14:49:45,  3.29it/s] 53%|█████▎    | 195742/371472 [4:31:05<14:49:02,  3.29it/s] 53%|█████▎    | 195743/371472 [4:31:05<14:33:35,  3.35it/s] 53%|█████▎    | 195744/371472 [4:31:05<14:13:55,  3.43it/s] 53%|█████▎    | 195745/371472 [4:31:06<13:53:15,  3.51it/s] 53%|█████▎    | 195746/371472 [4:31:06<14:05:21,  3.46it/s] 53%|█████▎    | 195747/371472 [4:31:06<14:22:36,  3.40it/s] 53%|█████▎    | 195748/371472 [4:31:06<13:42:55,  3.56it/s] 53%|█████▎    | 195749/371472 [4:31:07<13:45:17,  3.55it/s] 53%|█████▎    | 195750/371472 [4:31:07<13:19:59,  3.66it/s] 53%|█████▎    | 195751/371472 [4:31:07<13:11:01,  3.70it/s] 53%|█████▎    | 195752/371472 [4:31:08<13:26:44,  3.63it/s] 53%|█████▎    | 195753/371472 [4:31:08<13:06:35,  3.72it/s] 53%|█████▎    | 195754/371472 [4:31:08<13:35:40,  3.59it/s] 53%|█████▎    | 195755/371472 [4:31:08<14:38:55,  3.33it/s] 53%|█████▎    | 195756/371472 [4:31:09<14:19:18,  3.41it/s] 53%|█████▎    | 195757/371472 [4:31:09<13:49:31,  3.53it/s] 53%|█████▎    | 195758/371472 [4:31:09<13:29:39,  3.62it/s] 53%|█████▎    | 195759/371472 [4:31:09<13:05:52,  3.73it/s] 53%|█████▎    | 195760/371472 [4:31:10<12:45:14,  3.83it/s]                                                            {'loss': 2.9401, 'learning_rate': 5.259432437673726e-07, 'epoch': 8.43}
 53%|█████▎    | 195760/371472 [4:31:10<12:45:14,  3.83it/s] 53%|█████▎    | 195761/371472 [4:31:10<12:28:48,  3.91it/s] 53%|█████▎    | 195762/371472 [4:31:10<12:28:15,  3.91it/s] 53%|█████▎    | 195763/371472 [4:31:11<13:44:20,  3.55it/s] 53%|█████▎    | 195764/371472 [4:31:11<13:53:10,  3.51it/s] 53%|█████▎    | 195765/371472 [4:31:11<15:09:35,  3.22it/s] 53%|█████▎    | 195766/371472 [4:31:11<14:11:59,  3.44it/s] 53%|█████▎    | 195767/371472 [4:31:12<13:52:31,  3.52it/s] 53%|█████▎    | 195768/371472 [4:31:12<13:40:23,  3.57it/s] 53%|█████▎    | 195769/371472 [4:31:12<13:40:59,  3.57it/s] 53%|█████▎    | 195770/371472 [4:31:13<13:24:04,  3.64it/s] 53%|█████▎    | 195771/371472 [4:31:13<13:43:19,  3.56it/s] 53%|█████▎    | 195772/371472 [4:31:13<13:52:40,  3.52it/s] 53%|█████▎    | 195773/371472 [4:31:13<13:58:54,  3.49it/s] 53%|█████▎    | 195774/371472 [4:31:14<13:24:13,  3.64it/s] 53%|█████▎    | 195775/371472 [4:31:14<12:52:25,  3.79it/s] 53%|█████▎    | 195776/371472 [4:31:14<13:09:50,  3.71it/s] 53%|█████▎    | 195777/371472 [4:31:14<13:12:13,  3.70it/s] 53%|█████▎    | 195778/371472 [4:31:15<13:56:13,  3.50it/s] 53%|█████▎    | 195779/371472 [4:31:15<13:40:38,  3.57it/s] 53%|█████▎    | 195780/371472 [4:31:15<14:47:07,  3.30it/s]                                                            {'loss': 2.889, 'learning_rate': 5.258947617918937e-07, 'epoch': 8.43}
 53%|█████▎    | 195780/371472 [4:31:15<14:47:07,  3.30it/s] 53%|█████▎    | 195781/371472 [4:31:16<14:17:12,  3.42it/s] 53%|█████▎    | 195782/371472 [4:31:16<13:40:18,  3.57it/s] 53%|█████▎    | 195783/371472 [4:31:16<13:25:19,  3.64it/s] 53%|█████▎    | 195784/371472 [4:31:17<14:18:22,  3.41it/s] 53%|█████▎    | 195785/371472 [4:31:17<14:22:43,  3.39it/s] 53%|█████▎    | 195786/371472 [4:31:17<14:49:15,  3.29it/s] 53%|█████▎    | 195787/371472 [4:31:17<14:29:20,  3.37it/s] 53%|█████▎    | 195788/371472 [4:31:18<13:35:02,  3.59it/s] 53%|█████▎    | 195789/371472 [4:31:18<14:31:22,  3.36it/s] 53%|█████▎    | 195790/371472 [4:31:18<13:50:33,  3.53it/s] 53%|█████▎    | 195791/371472 [4:31:19<14:48:34,  3.30it/s] 53%|█████▎    | 195792/371472 [4:31:19<14:07:02,  3.46it/s] 53%|█████▎    | 195793/371472 [4:31:19<13:35:48,  3.59it/s] 53%|█████▎    | 195794/371472 [4:31:19<13:26:52,  3.63it/s] 53%|█████▎    | 195795/371472 [4:31:20<14:14:01,  3.43it/s] 53%|█████▎    | 195796/371472 [4:31:20<14:21:43,  3.40it/s] 53%|█████▎    | 195797/371472 [4:31:20<14:45:18,  3.31it/s] 53%|█████▎    | 195798/371472 [4:31:21<16:22:23,  2.98it/s] 53%|█████▎    | 195799/371472 [4:31:21<16:20:26,  2.99it/s] 53%|█████▎    | 195800/371472 [4:31:21<17:01:31,  2.87it/s]                                                            {'loss': 2.9551, 'learning_rate': 5.258462798164148e-07, 'epoch': 8.43}
 53%|█████▎    | 195800/371472 [4:31:21<17:01:31,  2.87it/s] 53%|█████▎    | 195801/371472 [4:31:22<15:38:34,  3.12it/s] 53%|█████▎    | 195802/371472 [4:31:22<14:49:26,  3.29it/s] 53%|█████▎    | 195803/371472 [4:31:22<14:21:11,  3.40it/s] 53%|█████▎    | 195804/371472 [4:31:23<13:54:45,  3.51it/s] 53%|█████▎    | 195805/371472 [4:31:23<13:52:39,  3.52it/s] 53%|█████▎    | 195806/371472 [4:31:23<14:01:05,  3.48it/s] 53%|█████▎    | 195807/371472 [4:31:23<13:30:02,  3.61it/s] 53%|█████▎    | 195808/371472 [4:31:24<13:29:55,  3.61it/s] 53%|█████▎    | 195809/371472 [4:31:24<14:18:22,  3.41it/s] 53%|█████▎    | 195810/371472 [4:31:24<14:23:49,  3.39it/s] 53%|█████▎    | 195811/371472 [4:31:25<14:14:51,  3.42it/s] 53%|█████▎    | 195812/371472 [4:31:25<13:57:17,  3.50it/s] 53%|█████▎    | 195813/371472 [4:31:25<13:51:28,  3.52it/s] 53%|█████▎    | 195814/371472 [4:31:25<13:50:09,  3.53it/s] 53%|█████▎    | 195815/371472 [4:31:26<13:42:40,  3.56it/s] 53%|█████▎    | 195816/371472 [4:31:26<13:41:19,  3.56it/s] 53%|█████▎    | 195817/371472 [4:31:26<13:43:08,  3.56it/s] 53%|█████▎    | 195818/371472 [4:31:26<13:23:49,  3.64it/s] 53%|█████▎    | 195819/371472 [4:31:27<13:20:03,  3.66it/s] 53%|█████▎    | 195820/371472 [4:31:27<13:23:16,  3.64it/s]                                                            {'loss': 2.9431, 'learning_rate': 5.257977978409361e-07, 'epoch': 8.43}
 53%|█████▎    | 195820/371472 [4:31:27<13:23:16,  3.64it/s] 53%|█████▎    | 195821/371472 [4:31:27<13:19:32,  3.66it/s] 53%|█████▎    | 195822/371472 [4:31:28<17:00:36,  2.87it/s] 53%|█████▎    | 195823/371472 [4:31:28<15:48:25,  3.09it/s] 53%|█████▎    | 195824/371472 [4:31:28<15:17:49,  3.19it/s] 53%|█████▎    | 195825/371472 [4:31:29<15:09:51,  3.22it/s] 53%|█████▎    | 195826/371472 [4:31:29<14:29:28,  3.37it/s] 53%|█████▎    | 195827/371472 [4:31:29<13:53:57,  3.51it/s] 53%|█████▎    | 195828/371472 [4:31:29<13:38:32,  3.58it/s] 53%|█████▎    | 195829/371472 [4:31:30<13:13:34,  3.69it/s] 53%|█████▎    | 195830/371472 [4:31:30<13:08:53,  3.71it/s] 53%|█████▎    | 195831/371472 [4:31:30<13:21:27,  3.65it/s] 53%|█████▎    | 195832/371472 [4:31:31<14:38:43,  3.33it/s] 53%|█████▎    | 195833/371472 [4:31:31<14:15:56,  3.42it/s] 53%|█████▎    | 195834/371472 [4:31:31<13:44:09,  3.55it/s] 53%|█████▎    | 195835/371472 [4:31:31<13:53:39,  3.51it/s] 53%|█████▎    | 195836/371472 [4:31:32<13:44:27,  3.55it/s] 53%|█████▎    | 195837/371472 [4:31:32<13:47:09,  3.54it/s] 53%|█████▎    | 195838/371472 [4:31:32<13:39:39,  3.57it/s] 53%|█████▎    | 195839/371472 [4:31:33<13:50:53,  3.52it/s] 53%|█████▎    | 195840/371472 [4:31:33<14:52:27,  3.28it/s]                                                            {'loss': 3.0461, 'learning_rate': 5.257493158654571e-07, 'epoch': 8.44}
 53%|█████▎    | 195840/371472 [4:31:33<14:52:27,  3.28it/s] 53%|█████▎    | 195841/371472 [4:31:33<14:15:10,  3.42it/s] 53%|█████▎    | 195842/371472 [4:31:33<14:03:08,  3.47it/s] 53%|█████▎    | 195843/371472 [4:31:34<13:45:13,  3.55it/s] 53%|█████▎    | 195844/371472 [4:31:34<13:51:51,  3.52it/s] 53%|█████▎    | 195845/371472 [4:31:34<13:33:11,  3.60it/s] 53%|█████▎    | 195846/371472 [4:31:35<13:36:41,  3.58it/s] 53%|█████▎    | 195847/371472 [4:31:35<13:26:03,  3.63it/s] 53%|█████▎    | 195848/371472 [4:31:35<13:46:11,  3.54it/s] 53%|█████▎    | 195849/371472 [4:31:35<13:33:47,  3.60it/s] 53%|█████▎    | 195850/371472 [4:31:36<14:26:19,  3.38it/s] 53%|█████▎    | 195851/371472 [4:31:36<14:12:52,  3.43it/s] 53%|█████▎    | 195852/371472 [4:31:36<13:49:42,  3.53it/s] 53%|█████▎    | 195853/371472 [4:31:37<14:43:58,  3.31it/s] 53%|█████▎    | 195854/371472 [4:31:37<15:44:38,  3.10it/s] 53%|█████▎    | 195855/371472 [4:31:37<14:58:57,  3.26it/s] 53%|█████▎    | 195856/371472 [4:31:38<15:35:16,  3.13it/s] 53%|█████▎    | 195857/371472 [4:31:38<15:11:59,  3.21it/s] 53%|█████▎    | 195858/371472 [4:31:38<14:14:28,  3.43it/s] 53%|█████▎    | 195859/371472 [4:31:38<14:43:06,  3.31it/s] 53%|█████▎    | 195860/371472 [4:31:39<14:52:00,  3.28it/s]                                                            {'loss': 2.9248, 'learning_rate': 5.257008338899782e-07, 'epoch': 8.44}
 53%|█████▎    | 195860/371472 [4:31:39<14:52:00,  3.28it/s] 53%|█████▎    | 195861/371472 [4:31:39<15:00:17,  3.25it/s] 53%|█████▎    | 195862/371472 [4:31:39<15:13:51,  3.20it/s] 53%|█████▎    | 195863/371472 [4:31:40<14:28:27,  3.37it/s] 53%|█████▎    | 195864/371472 [4:31:40<13:55:42,  3.50it/s] 53%|█████▎    | 195865/371472 [4:31:40<13:55:18,  3.50it/s] 53%|█████▎    | 195866/371472 [4:31:41<13:40:55,  3.57it/s] 53%|█████▎    | 195867/371472 [4:31:41<13:54:31,  3.51it/s] 53%|█████▎    | 195868/371472 [4:31:41<13:52:06,  3.52it/s] 53%|█████▎    | 195869/371472 [4:31:41<13:40:09,  3.57it/s] 53%|█████▎    | 195870/371472 [4:31:42<13:49:28,  3.53it/s] 53%|█████▎    | 195871/371472 [4:31:42<14:06:15,  3.46it/s] 53%|█████▎    | 195872/371472 [4:31:42<13:43:00,  3.56it/s] 53%|█████▎    | 195873/371472 [4:31:42<13:21:18,  3.65it/s] 53%|█████▎    | 195874/371472 [4:31:43<13:26:04,  3.63it/s] 53%|█████▎    | 195875/371472 [4:31:43<13:13:24,  3.69it/s] 53%|█████▎    | 195876/371472 [4:31:43<13:15:40,  3.68it/s] 53%|█████▎    | 195877/371472 [4:31:44<13:24:05,  3.64it/s] 53%|█████▎    | 195878/371472 [4:31:44<13:25:49,  3.63it/s] 53%|█████▎    | 195879/371472 [4:31:44<14:17:20,  3.41it/s] 53%|█████▎    | 195880/371472 [4:31:44<14:03:14,  3.47it/s]                                                            {'loss': 2.8842, 'learning_rate': 5.256523519144993e-07, 'epoch': 8.44}
 53%|█████▎    | 195880/371472 [4:31:44<14:03:14,  3.47it/s] 53%|█████▎    | 195881/371472 [4:31:45<13:27:18,  3.63it/s] 53%|█████▎    | 195882/371472 [4:31:45<13:19:28,  3.66it/s] 53%|█████▎    | 195883/371472 [4:31:45<13:05:26,  3.73it/s] 53%|█████▎    | 195884/371472 [4:31:46<13:40:12,  3.57it/s] 53%|█████▎    | 195885/371472 [4:31:46<13:28:47,  3.62it/s] 53%|█████▎    | 195886/371472 [4:31:46<13:49:34,  3.53it/s] 53%|█████▎    | 195887/371472 [4:31:46<13:15:29,  3.68it/s] 53%|█████▎    | 195888/371472 [4:31:47<13:46:07,  3.54it/s] 53%|█████▎    | 195889/371472 [4:31:47<14:11:28,  3.44it/s] 53%|█████▎    | 195890/371472 [4:31:47<14:33:05,  3.35it/s] 53%|█████▎    | 195891/371472 [4:31:48<14:52:22,  3.28it/s] 53%|█████▎    | 195892/371472 [4:31:48<14:52:26,  3.28it/s] 53%|█████▎    | 195893/371472 [4:31:48<14:11:47,  3.44it/s] 53%|█████▎    | 195894/371472 [4:31:48<14:18:39,  3.41it/s] 53%|█████▎    | 195895/371472 [4:31:49<14:19:07,  3.41it/s] 53%|█████▎    | 195896/371472 [4:31:49<15:47:21,  3.09it/s] 53%|█████▎    | 195897/371472 [4:31:49<14:48:33,  3.29it/s] 53%|█████▎    | 195898/371472 [4:31:50<14:09:25,  3.44it/s] 53%|█████▎    | 195899/371472 [4:31:50<15:06:36,  3.23it/s] 53%|█████▎    | 195900/371472 [4:31:50<14:45:48,  3.30it/s]                                                            {'loss': 3.1696, 'learning_rate': 5.256038699390205e-07, 'epoch': 8.44}
 53%|█████▎    | 195900/371472 [4:31:50<14:45:48,  3.30it/s] 53%|█████▎    | 195901/371472 [4:31:51<14:42:06,  3.32it/s] 53%|█████▎    | 195902/371472 [4:31:51<14:58:12,  3.26it/s] 53%|█████▎    | 195903/371472 [4:31:51<14:36:13,  3.34it/s] 53%|█████▎    | 195904/371472 [4:31:51<14:09:33,  3.44it/s] 53%|█████▎    | 195905/371472 [4:31:52<13:45:11,  3.55it/s] 53%|█████▎    | 195906/371472 [4:31:52<13:28:21,  3.62it/s] 53%|█████▎    | 195907/371472 [4:31:52<14:04:02,  3.47it/s] 53%|█████▎    | 195908/371472 [4:31:53<13:42:44,  3.56it/s] 53%|█████▎    | 195909/371472 [4:31:53<13:29:57,  3.61it/s] 53%|█████▎    | 195910/371472 [4:31:53<14:58:56,  3.25it/s] 53%|█████▎    | 195911/371472 [4:31:54<14:33:49,  3.35it/s] 53%|█████▎    | 195912/371472 [4:31:54<13:56:27,  3.50it/s] 53%|█████▎    | 195913/371472 [4:31:54<14:43:59,  3.31it/s] 53%|█████▎    | 195914/371472 [4:31:54<14:13:47,  3.43it/s] 53%|█████▎    | 195915/371472 [4:31:55<14:06:00,  3.46it/s] 53%|█████▎    | 195916/371472 [4:31:55<13:36:13,  3.58it/s] 53%|█████▎    | 195917/371472 [4:31:55<13:21:50,  3.65it/s] 53%|█████▎    | 195918/371472 [4:31:55<13:09:49,  3.70it/s] 53%|█████▎    | 195919/371472 [4:31:56<12:48:06,  3.81it/s] 53%|█████▎    | 195920/371472 [4:31:56<13:08:43,  3.71it/s]                                                            {'loss': 2.9374, 'learning_rate': 5.255553879635414e-07, 'epoch': 8.44}
 53%|█████▎    | 195920/371472 [4:31:56<13:08:43,  3.71it/s] 53%|█████▎    | 195921/371472 [4:31:56<13:06:22,  3.72it/s] 53%|█████▎    | 195922/371472 [4:31:57<13:52:02,  3.52it/s] 53%|█████▎    | 195923/371472 [4:31:57<14:01:24,  3.48it/s] 53%|█████▎    | 195924/371472 [4:31:57<13:50:18,  3.52it/s] 53%|█████▎    | 195925/371472 [4:31:57<13:27:34,  3.62it/s] 53%|█████▎    | 195926/371472 [4:31:58<13:35:54,  3.59it/s] 53%|█████▎    | 195927/371472 [4:31:58<13:46:31,  3.54it/s] 53%|█████▎    | 195928/371472 [4:31:58<13:37:47,  3.58it/s] 53%|█████▎    | 195929/371472 [4:31:58<13:14:05,  3.68it/s] 53%|█████▎    | 195930/371472 [4:31:59<13:58:03,  3.49it/s] 53%|█████▎    | 195931/371472 [4:31:59<14:00:32,  3.48it/s] 53%|█████▎    | 195932/371472 [4:31:59<13:47:46,  3.53it/s] 53%|█████▎    | 195933/371472 [4:32:00<14:36:29,  3.34it/s] 53%|█████▎    | 195934/371472 [4:32:00<14:22:21,  3.39it/s] 53%|█████▎    | 195935/371472 [4:32:00<14:05:31,  3.46it/s] 53%|█████▎    | 195936/371472 [4:32:01<13:57:23,  3.49it/s] 53%|█████▎    | 195937/371472 [4:32:01<14:15:27,  3.42it/s] 53%|█████▎    | 195938/371472 [4:32:01<14:27:38,  3.37it/s] 53%|█████▎    | 195939/371472 [4:32:01<14:46:25,  3.30it/s] 53%|█████▎    | 195940/371472 [4:32:02<14:34:10,  3.35it/s]                                                            {'loss': 3.1375, 'learning_rate': 5.255069059880627e-07, 'epoch': 8.44}
 53%|█████▎    | 195940/371472 [4:32:02<14:34:10,  3.35it/s] 53%|█████▎    | 195941/371472 [4:32:02<14:11:32,  3.44it/s] 53%|█████▎    | 195942/371472 [4:32:02<13:37:20,  3.58it/s] 53%|█████▎    | 195943/371472 [4:32:03<13:21:06,  3.65it/s] 53%|█████▎    | 195944/371472 [4:32:03<13:14:16,  3.68it/s] 53%|█████▎    | 195945/371472 [4:32:03<13:12:33,  3.69it/s] 53%|█████▎    | 195946/371472 [4:32:03<13:22:19,  3.65it/s] 53%|█████▎    | 195947/371472 [4:32:04<13:02:04,  3.74it/s] 53%|█████▎    | 195948/371472 [4:32:04<13:12:11,  3.69it/s] 53%|█████▎    | 195949/371472 [4:32:04<13:55:46,  3.50it/s] 53%|█████▎    | 195950/371472 [4:32:04<13:38:02,  3.58it/s] 53%|█████▎    | 195951/371472 [4:32:05<14:21:40,  3.39it/s] 53%|█████▎    | 195952/371472 [4:32:05<13:44:59,  3.55it/s] 53%|█████▎    | 195953/371472 [4:32:05<13:10:19,  3.70it/s] 53%|█████▎    | 195954/371472 [4:32:06<13:11:53,  3.69it/s] 53%|█████▎    | 195955/371472 [4:32:06<12:52:37,  3.79it/s] 53%|█████▎    | 195956/371472 [4:32:06<13:10:17,  3.70it/s] 53%|█████▎    | 195957/371472 [4:32:06<13:06:14,  3.72it/s] 53%|█████▎    | 195958/371472 [4:32:07<13:47:25,  3.54it/s] 53%|█████▎    | 195959/371472 [4:32:07<13:55:22,  3.50it/s] 53%|█████▎    | 195960/371472 [4:32:07<13:27:43,  3.62it/s]                                                            {'loss': 2.8937, 'learning_rate': 5.254584240125838e-07, 'epoch': 8.44}
 53%|█████▎    | 195960/371472 [4:32:07<13:27:43,  3.62it/s] 53%|█████▎    | 195961/371472 [4:32:08<13:35:04,  3.59it/s] 53%|█████▎    | 195962/371472 [4:32:08<13:24:44,  3.63it/s] 53%|█████▎    | 195963/371472 [4:32:08<14:01:09,  3.48it/s] 53%|█████▎    | 195964/371472 [4:32:08<13:46:25,  3.54it/s] 53%|█████▎    | 195965/371472 [4:32:09<13:38:57,  3.57it/s] 53%|█████▎    | 195966/371472 [4:32:09<14:11:40,  3.43it/s] 53%|█████▎    | 195967/371472 [4:32:09<14:19:15,  3.40it/s] 53%|█████▎    | 195968/371472 [4:32:10<14:31:10,  3.36it/s] 53%|█████▎    | 195969/371472 [4:32:10<13:51:18,  3.52it/s] 53%|█████▎    | 195970/371472 [4:32:10<13:33:59,  3.59it/s] 53%|█████▎    | 195971/371472 [4:32:10<13:55:26,  3.50it/s] 53%|█████▎    | 195972/371472 [4:32:11<14:20:51,  3.40it/s] 53%|█████▎    | 195973/371472 [4:32:11<13:47:17,  3.54it/s] 53%|█████▎    | 195974/371472 [4:32:11<13:23:58,  3.64it/s] 53%|█████▎    | 195975/371472 [4:32:12<13:34:56,  3.59it/s] 53%|█████▎    | 195976/371472 [4:32:12<14:07:05,  3.45it/s] 53%|█████▎    | 195977/371472 [4:32:12<14:27:01,  3.37it/s] 53%|█████▎    | 195978/371472 [4:32:12<14:05:58,  3.46it/s] 53%|█████▎    | 195979/371472 [4:32:13<13:49:51,  3.52it/s] 53%|█████▎    | 195980/371472 [4:32:13<13:23:52,  3.64it/s]                                                            {'loss': 2.8453, 'learning_rate': 5.254099420371049e-07, 'epoch': 8.44}
 53%|█████▎    | 195980/371472 [4:32:13<13:23:52,  3.64it/s] 53%|█████▎    | 195981/371472 [4:32:13<13:34:40,  3.59it/s] 53%|█████▎    | 195982/371472 [4:32:14<13:30:53,  3.61it/s] 53%|█████▎    | 195983/371472 [4:32:14<13:44:42,  3.55it/s] 53%|█████▎    | 195984/371472 [4:32:14<14:04:27,  3.46it/s] 53%|█████▎    | 195985/371472 [4:32:14<13:51:37,  3.52it/s] 53%|█████▎    | 195986/371472 [4:32:15<14:54:36,  3.27it/s] 53%|█████▎    | 195987/371472 [4:32:15<14:42:35,  3.31it/s] 53%|█████▎    | 195988/371472 [4:32:15<15:23:52,  3.17it/s] 53%|█████▎    | 195989/371472 [4:32:16<15:11:00,  3.21it/s] 53%|█████▎    | 195990/371472 [4:32:16<14:25:32,  3.38it/s] 53%|█████▎    | 195991/371472 [4:32:16<14:59:27,  3.25it/s] 53%|█████▎    | 195992/371472 [4:32:17<15:06:34,  3.23it/s] 53%|█████▎    | 195993/371472 [4:32:17<14:52:26,  3.28it/s] 53%|█████▎    | 195994/371472 [4:32:17<14:10:30,  3.44it/s] 53%|█████▎    | 195995/371472 [4:32:17<14:23:22,  3.39it/s] 53%|█████▎    | 195996/371472 [4:32:18<14:20:10,  3.40it/s] 53%|█████▎    | 195997/371472 [4:32:18<13:46:02,  3.54it/s] 53%|█████▎    | 195998/371472 [4:32:18<13:31:45,  3.60it/s] 53%|█████▎    | 195999/371472 [4:32:18<13:02:19,  3.74it/s] 53%|█████▎    | 196000/371472 [4:32:19<12:45:54,  3.82it/s]                                                            {'loss': 3.0856, 'learning_rate': 5.253614600616259e-07, 'epoch': 8.44}
 53%|█████▎    | 196000/371472 [4:32:19<12:45:54,  3.82it/s] 53%|█████▎    | 196001/371472 [4:32:19<12:38:10,  3.86it/s] 53%|█████▎    | 196002/371472 [4:32:19<12:38:45,  3.85it/s] 53%|█████▎    | 196003/371472 [4:32:20<14:39:37,  3.32it/s] 53%|█████▎    | 196004/371472 [4:32:20<14:04:33,  3.46it/s] 53%|█████▎    | 196005/371472 [4:32:20<13:40:50,  3.56it/s] 53%|█████▎    | 196006/371472 [4:32:20<13:26:12,  3.63it/s] 53%|█████▎    | 196007/371472 [4:32:21<15:10:18,  3.21it/s] 53%|█████▎    | 196008/371472 [4:32:21<14:13:39,  3.43it/s] 53%|█████▎    | 196009/371472 [4:32:21<13:36:05,  3.58it/s] 53%|█████▎    | 196010/371472 [4:32:22<13:37:22,  3.58it/s] 53%|█████▎    | 196011/371472 [4:32:22<13:41:45,  3.56it/s] 53%|█████▎    | 196012/371472 [4:32:22<13:10:37,  3.70it/s] 53%|█████▎    | 196013/371472 [4:32:22<13:09:57,  3.70it/s] 53%|█████▎    | 196014/371472 [4:32:23<13:44:58,  3.54it/s] 53%|█████▎    | 196015/371472 [4:32:23<13:47:12,  3.54it/s] 53%|█████▎    | 196016/371472 [4:32:23<13:41:12,  3.56it/s] 53%|█████▎    | 196017/371472 [4:32:24<13:34:24,  3.59it/s] 53%|█████▎    | 196018/371472 [4:32:24<13:54:30,  3.50it/s] 53%|█████▎    | 196019/371472 [4:32:24<13:57:11,  3.49it/s] 53%|█████▎    | 196020/371472 [4:32:24<13:44:21,  3.55it/s]                                                            {'loss': 3.0323, 'learning_rate': 5.253129780861471e-07, 'epoch': 8.44}
 53%|█████▎    | 196020/371472 [4:32:24<13:44:21,  3.55it/s] 53%|█████▎    | 196021/371472 [4:32:25<13:45:55,  3.54it/s] 53%|█████▎    | 196022/371472 [4:32:25<13:48:43,  3.53it/s] 53%|█████▎    | 196023/371472 [4:32:25<13:54:48,  3.50it/s] 53%|█████▎    | 196024/371472 [4:32:26<13:35:06,  3.59it/s] 53%|█████▎    | 196025/371472 [4:32:26<13:41:59,  3.56it/s] 53%|█████▎    | 196026/371472 [4:32:26<14:01:28,  3.47it/s] 53%|█████▎    | 196027/371472 [4:32:26<13:57:12,  3.49it/s] 53%|█████▎    | 196028/371472 [4:32:27<13:30:27,  3.61it/s] 53%|█████▎    | 196029/371472 [4:32:27<13:55:04,  3.50it/s] 53%|█████▎    | 196030/371472 [4:32:27<13:55:13,  3.50it/s] 53%|█████▎    | 196031/371472 [4:32:28<13:34:10,  3.59it/s] 53%|█████▎    | 196032/371472 [4:32:28<13:46:35,  3.54it/s] 53%|█████▎    | 196033/371472 [4:32:28<13:36:49,  3.58it/s] 53%|█████▎    | 196034/371472 [4:32:28<13:21:55,  3.65it/s] 53%|█████▎    | 196035/371472 [4:32:29<15:18:24,  3.18it/s] 53%|█████▎    | 196036/371472 [4:32:29<14:51:51,  3.28it/s] 53%|█████▎    | 196037/371472 [4:32:29<14:53:38,  3.27it/s] 53%|█████▎    | 196038/371472 [4:32:30<14:38:11,  3.33it/s] 53%|█████▎    | 196039/371472 [4:32:30<14:40:48,  3.32it/s] 53%|█████▎    | 196040/371472 [4:32:30<14:32:46,  3.35it/s]                                                            {'loss': 2.9507, 'learning_rate': 5.252644961106681e-07, 'epoch': 8.44}
 53%|█████▎    | 196040/371472 [4:32:30<14:32:46,  3.35it/s] 53%|█████▎    | 196041/371472 [4:32:31<14:10:16,  3.44it/s] 53%|█████▎    | 196042/371472 [4:32:31<13:39:35,  3.57it/s] 53%|█████▎    | 196043/371472 [4:32:31<13:31:17,  3.60it/s] 53%|█████▎    | 196044/371472 [4:32:31<14:14:04,  3.42it/s] 53%|█████▎    | 196045/371472 [4:32:32<13:56:09,  3.50it/s] 53%|█████▎    | 196046/371472 [4:32:32<13:54:25,  3.50it/s] 53%|█████▎    | 196047/371472 [4:32:32<14:53:18,  3.27it/s] 53%|█████▎    | 196048/371472 [4:32:33<14:34:44,  3.34it/s] 53%|█████▎    | 196049/371472 [4:32:33<14:21:56,  3.39it/s] 53%|█████▎    | 196050/371472 [4:32:33<14:15:15,  3.42it/s] 53%|█████▎    | 196051/371472 [4:32:33<13:46:58,  3.54it/s] 53%|█████▎    | 196052/371472 [4:32:34<14:21:13,  3.39it/s] 53%|█████▎    | 196053/371472 [4:32:34<13:35:28,  3.59it/s] 53%|█████▎    | 196054/371472 [4:32:34<13:09:06,  3.70it/s] 53%|█████▎    | 196055/371472 [4:32:35<14:10:29,  3.44it/s] 53%|█████▎    | 196056/371472 [4:32:35<14:16:43,  3.41it/s] 53%|█████▎    | 196057/371472 [4:32:35<14:38:15,  3.33it/s] 53%|█████▎    | 196058/371472 [4:32:35<15:10:24,  3.21it/s] 53%|█████▎    | 196059/371472 [4:32:36<14:40:46,  3.32it/s] 53%|█████▎    | 196060/371472 [4:32:36<14:34:14,  3.34it/s]                                                            {'loss': 3.049, 'learning_rate': 5.252160141351894e-07, 'epoch': 8.44}
 53%|█████▎    | 196060/371472 [4:32:36<14:34:14,  3.34it/s] 53%|█████▎    | 196061/371472 [4:32:36<14:43:35,  3.31it/s] 53%|█████▎    | 196062/371472 [4:32:37<14:17:57,  3.41it/s] 53%|█████▎    | 196063/371472 [4:32:37<13:59:30,  3.48it/s] 53%|█████▎    | 196064/371472 [4:32:37<13:39:55,  3.57it/s] 53%|█████▎    | 196065/371472 [4:32:37<13:32:32,  3.60it/s] 53%|█████▎    | 196066/371472 [4:32:38<13:48:14,  3.53it/s] 53%|█████▎    | 196067/371472 [4:32:38<13:38:37,  3.57it/s] 53%|█████▎    | 196068/371472 [4:32:38<13:33:48,  3.59it/s] 53%|█████▎    | 196069/371472 [4:32:39<13:28:32,  3.62it/s] 53%|█████▎    | 196070/371472 [4:32:39<14:01:18,  3.47it/s] 53%|█████▎    | 196071/371472 [4:32:39<13:39:18,  3.57it/s] 53%|█████▎    | 196072/371472 [4:32:39<14:04:52,  3.46it/s] 53%|█████▎    | 196073/371472 [4:32:40<14:22:41,  3.39it/s] 53%|█████▎    | 196074/371472 [4:32:40<13:51:23,  3.52it/s] 53%|█████▎    | 196075/371472 [4:32:40<16:01:43,  3.04it/s] 53%|█████▎    | 196076/371472 [4:32:41<16:06:55,  3.02it/s] 53%|█████▎    | 196077/371472 [4:32:41<15:30:48,  3.14it/s] 53%|█████▎    | 196078/371472 [4:32:41<14:39:48,  3.32it/s] 53%|█████▎    | 196079/371472 [4:32:42<14:29:30,  3.36it/s] 53%|█████▎    | 196080/371472 [4:32:42<14:01:51,  3.47it/s]                                                            {'loss': 2.8304, 'learning_rate': 5.251675321597104e-07, 'epoch': 8.45}
 53%|█████▎    | 196080/371472 [4:32:42<14:01:51,  3.47it/s] 53%|█████▎    | 196081/371472 [4:32:42<13:23:38,  3.64it/s] 53%|█████▎    | 196082/371472 [4:32:42<13:45:02,  3.54it/s] 53%|█████▎    | 196083/371472 [4:32:43<14:23:33,  3.39it/s] 53%|█████▎    | 196084/371472 [4:32:43<14:11:06,  3.43it/s] 53%|█████▎    | 196085/371472 [4:32:43<13:57:49,  3.49it/s] 53%|█████▎    | 196086/371472 [4:32:44<13:25:25,  3.63it/s] 53%|█████▎    | 196087/371472 [4:32:44<13:47:31,  3.53it/s] 53%|█████▎    | 196088/371472 [4:32:44<13:36:58,  3.58it/s] 53%|█████▎    | 196089/371472 [4:32:44<13:45:31,  3.54it/s] 53%|█████▎    | 196090/371472 [4:32:45<13:30:21,  3.61it/s] 53%|█████▎    | 196091/371472 [4:32:45<13:20:28,  3.65it/s] 53%|█████▎    | 196092/371472 [4:32:45<13:04:57,  3.72it/s] 53%|█████▎    | 196093/371472 [4:32:45<12:58:41,  3.75it/s] 53%|█████▎    | 196094/371472 [4:32:46<13:57:12,  3.49it/s] 53%|█████▎    | 196095/371472 [4:32:46<13:44:13,  3.55it/s] 53%|█████▎    | 196096/371472 [4:32:46<15:07:34,  3.22it/s] 53%|█████▎    | 196097/371472 [4:32:47<14:49:53,  3.28it/s] 53%|█████▎    | 196098/371472 [4:32:47<16:19:05,  2.99it/s] 53%|█████▎    | 196099/371472 [4:32:48<16:36:44,  2.93it/s] 53%|█████▎    | 196100/371472 [4:32:48<15:31:45,  3.14it/s]                                                            {'loss': 2.7943, 'learning_rate': 5.251190501842315e-07, 'epoch': 8.45}
 53%|█████▎    | 196100/371472 [4:32:48<15:31:45,  3.14it/s] 53%|█████▎    | 196101/371472 [4:32:48<14:39:51,  3.32it/s] 53%|█████▎    | 196102/371472 [4:32:48<14:33:09,  3.35it/s] 53%|█████▎    | 196103/371472 [4:32:49<14:10:52,  3.44it/s] 53%|█████▎    | 196104/371472 [4:32:49<14:04:01,  3.46it/s] 53%|█████▎    | 196105/371472 [4:32:49<14:00:03,  3.48it/s] 53%|█████▎    | 196106/371472 [4:32:50<14:34:57,  3.34it/s] 53%|█████▎    | 196107/371472 [4:32:50<14:44:35,  3.30it/s] 53%|█████▎    | 196108/371472 [4:32:50<14:01:45,  3.47it/s] 53%|█████▎    | 196109/371472 [4:32:50<13:58:01,  3.49it/s] 53%|█████▎    | 196110/371472 [4:32:51<14:12:00,  3.43it/s] 53%|█████▎    | 196111/371472 [4:32:51<14:24:44,  3.38it/s] 53%|█████▎    | 196112/371472 [4:32:51<14:00:03,  3.48it/s] 53%|█████▎    | 196113/371472 [4:32:51<13:32:35,  3.60it/s] 53%|█████▎    | 196114/371472 [4:32:52<13:11:05,  3.69it/s] 53%|█████▎    | 196115/371472 [4:32:52<14:16:52,  3.41it/s] 53%|█████▎    | 196116/371472 [4:32:52<15:07:50,  3.22it/s] 53%|█████▎    | 196117/371472 [4:32:53<15:34:59,  3.13it/s] 53%|█████▎    | 196118/371472 [4:32:53<15:16:49,  3.19it/s] 53%|█████▎    | 196119/371472 [4:32:53<14:48:06,  3.29it/s] 53%|█████▎    | 196120/371472 [4:32:54<14:07:57,  3.45it/s]                                                            {'loss': 2.7921, 'learning_rate': 5.250705682087526e-07, 'epoch': 8.45}
 53%|█████▎    | 196120/371472 [4:32:54<14:07:57,  3.45it/s] 53%|█████▎    | 196121/371472 [4:32:54<13:36:46,  3.58it/s] 53%|█████▎    | 196122/371472 [4:32:54<13:27:29,  3.62it/s] 53%|█████▎    | 196123/371472 [4:32:54<13:46:39,  3.54it/s] 53%|█████▎    | 196124/371472 [4:32:55<14:21:50,  3.39it/s] 53%|█████▎    | 196125/371472 [4:32:55<14:16:34,  3.41it/s] 53%|█████▎    | 196126/371472 [4:32:55<13:31:46,  3.60it/s] 53%|█████▎    | 196127/371472 [4:32:56<14:00:27,  3.48it/s] 53%|█████▎    | 196128/371472 [4:32:56<13:41:52,  3.56it/s] 53%|█████▎    | 196129/371472 [4:32:56<15:02:01,  3.24it/s] 53%|█████▎    | 196130/371472 [4:32:57<14:30:05,  3.36it/s] 53%|█████▎    | 196131/371472 [4:32:57<14:19:53,  3.40it/s] 53%|█████▎    | 196132/371472 [4:32:57<14:29:15,  3.36it/s] 53%|█████▎    | 196133/371472 [4:32:57<14:11:15,  3.43it/s] 53%|█████▎    | 196134/371472 [4:32:58<14:07:26,  3.45it/s] 53%|█████▎    | 196135/371472 [4:32:58<13:49:37,  3.52it/s] 53%|█████▎    | 196136/371472 [4:32:58<14:53:01,  3.27it/s] 53%|█████▎    | 196137/371472 [4:32:59<14:45:21,  3.30it/s] 53%|█████▎    | 196138/371472 [4:32:59<14:34:11,  3.34it/s] 53%|█████▎    | 196139/371472 [4:32:59<14:18:38,  3.40it/s] 53%|█████▎    | 196140/371472 [4:32:59<14:20:26,  3.40it/s]                                                            {'loss': 2.9849, 'learning_rate': 5.250220862332737e-07, 'epoch': 8.45}
 53%|█████▎    | 196140/371472 [4:32:59<14:20:26,  3.40it/s] 53%|█████▎    | 196141/371472 [4:33:00<14:01:44,  3.47it/s] 53%|█████▎    | 196142/371472 [4:33:00<13:38:53,  3.57it/s] 53%|█████▎    | 196143/371472 [4:33:00<13:24:54,  3.63it/s] 53%|█████▎    | 196144/371472 [4:33:01<13:19:07,  3.66it/s] 53%|█████▎    | 196145/371472 [4:33:01<13:35:31,  3.58it/s] 53%|█████▎    | 196146/371472 [4:33:01<13:39:03,  3.57it/s] 53%|█████▎    | 196147/371472 [4:33:01<13:25:22,  3.63it/s] 53%|█████▎    | 196148/371472 [4:33:02<13:23:51,  3.64it/s] 53%|█████▎    | 196149/371472 [4:33:02<14:31:12,  3.35it/s] 53%|█████▎    | 196150/371472 [4:33:02<13:54:20,  3.50it/s] 53%|█████▎    | 196151/371472 [4:33:03<14:20:30,  3.40it/s] 53%|█████▎    | 196152/371472 [4:33:03<14:19:05,  3.40it/s] 53%|█████▎    | 196153/371472 [4:33:03<14:07:44,  3.45it/s] 53%|█████▎    | 196154/371472 [4:33:03<13:37:12,  3.58it/s] 53%|█████▎    | 196155/371472 [4:33:04<13:15:50,  3.67it/s] 53%|█████▎    | 196156/371472 [4:33:04<13:31:30,  3.60it/s] 53%|█████▎    | 196157/371472 [4:33:04<13:57:03,  3.49it/s] 53%|█████▎    | 196158/371472 [4:33:05<13:35:31,  3.58it/s] 53%|█████▎    | 196159/371472 [4:33:05<14:11:47,  3.43it/s] 53%|█████▎    | 196160/371472 [4:33:05<13:28:11,  3.62it/s]                                                            {'loss': 2.9811, 'learning_rate': 5.249736042577948e-07, 'epoch': 8.45}
 53%|█████▎    | 196160/371472 [4:33:05<13:28:11,  3.62it/s] 53%|█████▎    | 196161/371472 [4:33:05<13:14:09,  3.68it/s] 53%|█████▎    | 196162/371472 [4:33:06<13:30:54,  3.60it/s] 53%|█████▎    | 196163/371472 [4:33:06<13:29:27,  3.61it/s] 53%|█████▎    | 196164/371472 [4:33:06<13:08:35,  3.71it/s] 53%|█████▎    | 196165/371472 [4:33:06<13:13:05,  3.68it/s] 53%|█████▎    | 196166/371472 [4:33:07<14:31:09,  3.35it/s] 53%|█████▎    | 196167/371472 [4:33:07<14:41:33,  3.31it/s] 53%|█████▎    | 196168/371472 [4:33:07<14:27:43,  3.37it/s] 53%|█████▎    | 196169/371472 [4:33:08<14:00:18,  3.48it/s] 53%|█████▎    | 196170/371472 [4:33:08<14:42:33,  3.31it/s] 53%|█████▎    | 196171/371472 [4:33:08<14:16:04,  3.41it/s] 53%|█████▎    | 196172/371472 [4:33:09<13:47:02,  3.53it/s] 53%|█████▎    | 196173/371472 [4:33:09<14:04:23,  3.46it/s] 53%|█████▎    | 196174/371472 [4:33:09<14:31:17,  3.35it/s] 53%|█████▎    | 196175/371472 [4:33:09<14:06:00,  3.45it/s] 53%|█████▎    | 196176/371472 [4:33:10<14:09:44,  3.44it/s] 53%|█████▎    | 196177/371472 [4:33:10<13:41:41,  3.56it/s] 53%|█████▎    | 196178/371472 [4:33:10<13:46:19,  3.54it/s] 53%|█████▎    | 196179/371472 [4:33:11<13:22:40,  3.64it/s] 53%|█████▎    | 196180/371472 [4:33:11<13:17:14,  3.66it/s]                                                            {'loss': 3.053, 'learning_rate': 5.24925122282316e-07, 'epoch': 8.45}
 53%|█████▎    | 196180/371472 [4:33:11<13:17:14,  3.66it/s] 53%|█████▎    | 196181/371472 [4:33:11<13:50:50,  3.52it/s] 53%|█████▎    | 196182/371472 [4:33:11<13:51:35,  3.51it/s] 53%|█████▎    | 196183/371472 [4:33:12<13:40:50,  3.56it/s] 53%|█████▎    | 196184/371472 [4:33:12<13:07:18,  3.71it/s] 53%|█████▎    | 196185/371472 [4:33:12<12:59:34,  3.75it/s] 53%|█████▎    | 196186/371472 [4:33:12<13:17:44,  3.66it/s] 53%|█████▎    | 196187/371472 [4:33:13<13:03:15,  3.73it/s] 53%|█████▎    | 196188/371472 [4:33:13<13:17:00,  3.67it/s] 53%|█████▎    | 196189/371472 [4:33:13<13:48:27,  3.53it/s] 53%|█████▎    | 196190/371472 [4:33:14<13:40:19,  3.56it/s] 53%|█████▎    | 196191/371472 [4:33:14<13:31:28,  3.60it/s] 53%|█████▎    | 196192/371472 [4:33:14<13:09:49,  3.70it/s] 53%|█████▎    | 196193/371472 [4:33:14<13:11:38,  3.69it/s] 53%|█████▎    | 196194/371472 [4:33:15<13:37:11,  3.57it/s] 53%|█████▎    | 196195/371472 [4:33:15<13:38:25,  3.57it/s] 53%|█████▎    | 196196/371472 [4:33:15<13:36:55,  3.58it/s] 53%|█████▎    | 196197/371472 [4:33:15<13:14:33,  3.68it/s] 53%|█████▎    | 196198/371472 [4:33:16<13:09:37,  3.70it/s] 53%|█████▎    | 196199/371472 [4:33:16<12:53:52,  3.77it/s] 53%|█████▎    | 196200/371472 [4:33:16<12:52:38,  3.78it/s]                                                            {'loss': 3.1466, 'learning_rate': 5.248766403068371e-07, 'epoch': 8.45}
 53%|█████▎    | 196200/371472 [4:33:16<12:52:38,  3.78it/s] 53%|█████▎    | 196201/371472 [4:33:17<12:54:31,  3.77it/s] 53%|█████▎    | 196202/371472 [4:33:17<13:24:37,  3.63it/s] 53%|█████▎    | 196203/371472 [4:33:17<13:27:08,  3.62it/s] 53%|█████▎    | 196204/371472 [4:33:17<13:39:40,  3.56it/s] 53%|█████▎    | 196205/371472 [4:33:18<13:25:16,  3.63it/s] 53%|█████▎    | 196206/371472 [4:33:18<13:25:56,  3.62it/s] 53%|█████▎    | 196207/371472 [4:33:18<12:54:22,  3.77it/s] 53%|█████▎    | 196208/371472 [4:33:18<12:55:19,  3.77it/s] 53%|█████▎    | 196209/371472 [4:33:19<12:53:42,  3.78it/s] 53%|█████▎    | 196210/371472 [4:33:19<12:48:52,  3.80it/s] 53%|█████▎    | 196211/371472 [4:33:19<12:53:28,  3.78it/s] 53%|█████▎    | 196212/371472 [4:33:20<14:35:15,  3.34it/s] 53%|█████▎    | 196213/371472 [4:33:20<13:55:42,  3.50it/s] 53%|█████▎    | 196214/371472 [4:33:20<13:28:26,  3.61it/s] 53%|█████▎    | 196215/371472 [4:33:20<14:11:53,  3.43it/s] 53%|█████▎    | 196216/371472 [4:33:21<14:42:10,  3.31it/s] 53%|█████▎    | 196217/371472 [4:33:21<14:34:58,  3.34it/s] 53%|█████▎    | 196218/371472 [4:33:21<14:31:53,  3.35it/s] 53%|█████▎    | 196219/371472 [4:33:22<13:55:05,  3.50it/s] 53%|█████▎    | 196220/371472 [4:33:22<13:38:43,  3.57it/s]                                                            {'loss': 3.0121, 'learning_rate': 5.248281583313581e-07, 'epoch': 8.45}
 53%|█████▎    | 196220/371472 [4:33:22<13:38:43,  3.57it/s] 53%|█████▎    | 196221/371472 [4:33:22<13:47:07,  3.53it/s] 53%|█████▎    | 196222/371472 [4:33:22<13:45:18,  3.54it/s] 53%|█████▎    | 196223/371472 [4:33:23<13:42:29,  3.55it/s] 53%|█████▎    | 196224/371472 [4:33:23<13:43:14,  3.55it/s] 53%|█████▎    | 196225/371472 [4:33:23<13:15:49,  3.67it/s] 53%|█████▎    | 196226/371472 [4:33:24<13:04:49,  3.72it/s] 53%|█████▎    | 196227/371472 [4:33:24<13:04:19,  3.72it/s] 53%|█████▎    | 196228/371472 [4:33:24<13:22:27,  3.64it/s] 53%|█████▎    | 196229/371472 [4:33:24<12:52:18,  3.78it/s] 53%|█████▎    | 196230/371472 [4:33:25<12:53:12,  3.78it/s] 53%|█████▎    | 196231/371472 [4:33:25<12:54:59,  3.77it/s] 53%|█████▎    | 196232/371472 [4:33:25<12:55:05,  3.77it/s] 53%|█████▎    | 196233/371472 [4:33:25<12:47:00,  3.81it/s] 53%|█████▎    | 196234/371472 [4:33:26<13:03:18,  3.73it/s] 53%|█████▎    | 196235/371472 [4:33:26<13:06:26,  3.71it/s] 53%|█████▎    | 196236/371472 [4:33:26<13:00:04,  3.74it/s] 53%|█████▎    | 196237/371472 [4:33:26<13:29:45,  3.61it/s] 53%|█████▎    | 196238/371472 [4:33:27<13:43:09,  3.55it/s] 53%|█████▎    | 196239/371472 [4:33:27<13:48:17,  3.53it/s] 53%|█████▎    | 196240/371472 [4:33:27<13:31:42,  3.60it/s]                                                            {'loss': 3.0061, 'learning_rate': 5.247796763558792e-07, 'epoch': 8.45}
 53%|█████▎    | 196240/371472 [4:33:27<13:31:42,  3.60it/s] 53%|█████▎    | 196241/371472 [4:33:28<13:44:03,  3.54it/s] 53%|█████▎    | 196242/371472 [4:33:28<13:28:27,  3.61it/s] 53%|█████▎    | 196243/371472 [4:33:28<13:39:04,  3.57it/s] 53%|█████▎    | 196244/371472 [4:33:28<13:12:45,  3.68it/s] 53%|█████▎    | 196245/371472 [4:33:29<13:30:00,  3.61it/s] 53%|█████▎    | 196246/371472 [4:33:29<13:25:13,  3.63it/s] 53%|█████▎    | 196247/371472 [4:33:29<14:21:50,  3.39it/s] 53%|█████▎    | 196248/371472 [4:33:30<14:27:10,  3.37it/s] 53%|█████▎    | 196249/371472 [4:33:30<13:44:47,  3.54it/s] 53%|█████▎    | 196250/371472 [4:33:30<13:35:43,  3.58it/s] 53%|█████▎    | 196251/371472 [4:33:30<13:33:55,  3.59it/s] 53%|█████▎    | 196252/371472 [4:33:31<13:31:50,  3.60it/s] 53%|█████▎    | 196253/371472 [4:33:31<13:46:52,  3.53it/s] 53%|█████▎    | 196254/371472 [4:33:31<13:52:10,  3.51it/s] 53%|█████▎    | 196255/371472 [4:33:32<14:56:03,  3.26it/s] 53%|█████▎    | 196256/371472 [4:33:32<16:01:55,  3.04it/s] 53%|█████▎    | 196257/371472 [4:33:32<15:35:06,  3.12it/s] 53%|█████▎    | 196258/371472 [4:33:33<15:04:42,  3.23it/s] 53%|█████▎    | 196259/371472 [4:33:33<15:16:57,  3.18it/s] 53%|█████▎    | 196260/371472 [4:33:33<15:22:57,  3.16it/s]                                                            {'loss': 2.7707, 'learning_rate': 5.247311943804004e-07, 'epoch': 8.45}
 53%|█████▎    | 196260/371472 [4:33:33<15:22:57,  3.16it/s] 53%|█████▎    | 196261/371472 [4:33:34<15:13:50,  3.20it/s] 53%|█████▎    | 196262/371472 [4:33:34<14:56:54,  3.26it/s] 53%|█████▎    | 196263/371472 [4:33:34<14:24:00,  3.38it/s] 53%|█████▎    | 196264/371472 [4:33:34<14:04:54,  3.46it/s] 53%|█████▎    | 196265/371472 [4:33:35<13:42:58,  3.55it/s] 53%|█████▎    | 196266/371472 [4:33:35<14:14:02,  3.42it/s] 53%|█████▎    | 196267/371472 [4:33:35<13:55:12,  3.50it/s] 53%|█████▎    | 196268/371472 [4:33:36<13:39:57,  3.56it/s] 53%|█████▎    | 196269/371472 [4:33:36<13:51:11,  3.51it/s] 53%|█████▎    | 196270/371472 [4:33:36<13:41:42,  3.55it/s] 53%|█████▎    | 196271/371472 [4:33:36<13:56:29,  3.49it/s] 53%|█████▎    | 196272/371472 [4:33:37<13:35:41,  3.58it/s] 53%|█████▎    | 196273/371472 [4:33:37<13:31:33,  3.60it/s] 53%|█████▎    | 196274/371472 [4:33:37<13:23:22,  3.63it/s] 53%|█████▎    | 196275/371472 [4:33:37<13:42:06,  3.55it/s] 53%|█████▎    | 196276/371472 [4:33:38<13:27:36,  3.62it/s] 53%|█████▎    | 196277/371472 [4:33:38<13:22:52,  3.64it/s] 53%|█████▎    | 196278/371472 [4:33:38<13:37:02,  3.57it/s] 53%|█████▎    | 196279/371472 [4:33:39<14:11:18,  3.43it/s] 53%|█████▎    | 196280/371472 [4:33:39<14:03:14,  3.46it/s]                                                            {'loss': 2.9975, 'learning_rate': 5.246827124049215e-07, 'epoch': 8.45}
 53%|█████▎    | 196280/371472 [4:33:39<14:03:14,  3.46it/s] 53%|█████▎    | 196281/371472 [4:33:39<13:25:32,  3.62it/s] 53%|█████▎    | 196282/371472 [4:33:40<14:18:42,  3.40it/s] 53%|█████▎    | 196283/371472 [4:33:40<14:37:16,  3.33it/s] 53%|█████▎    | 196284/371472 [4:33:40<14:31:53,  3.35it/s] 53%|█████▎    | 196285/371472 [4:33:40<13:57:45,  3.49it/s] 53%|█████▎    | 196286/371472 [4:33:41<14:43:58,  3.30it/s] 53%|█████▎    | 196287/371472 [4:33:41<14:17:37,  3.40it/s] 53%|█████▎    | 196288/371472 [4:33:41<14:31:35,  3.35it/s] 53%|█████▎    | 196289/371472 [4:33:42<14:20:49,  3.39it/s] 53%|█████▎    | 196290/371472 [4:33:42<14:36:39,  3.33it/s] 53%|█████▎    | 196291/371472 [4:33:42<14:13:42,  3.42it/s] 53%|█████▎    | 196292/371472 [4:33:43<14:52:10,  3.27it/s] 53%|█████▎    | 196293/371472 [4:33:43<14:53:42,  3.27it/s] 53%|█████▎    | 196294/371472 [4:33:43<14:21:20,  3.39it/s] 53%|█████▎    | 196295/371472 [4:33:43<14:09:02,  3.44it/s] 53%|█████▎    | 196296/371472 [4:33:44<16:07:52,  3.02it/s] 53%|█████▎    | 196297/371472 [4:33:44<15:09:24,  3.21it/s] 53%|█████▎    | 196298/371472 [4:33:44<14:34:42,  3.34it/s] 53%|█████▎    | 196299/371472 [4:33:45<14:10:06,  3.43it/s] 53%|█████▎    | 196300/371472 [4:33:45<14:08:31,  3.44it/s]                                                            {'loss': 2.9617, 'learning_rate': 5.246342304294424e-07, 'epoch': 8.46}
 53%|█████▎    | 196300/371472 [4:33:45<14:08:31,  3.44it/s] 53%|█████▎    | 196301/371472 [4:33:45<15:02:16,  3.24it/s] 53%|█████▎    | 196302/371472 [4:33:46<14:30:45,  3.35it/s] 53%|█████▎    | 196303/371472 [4:33:46<13:59:35,  3.48it/s] 53%|█████▎    | 196304/371472 [4:33:46<15:21:58,  3.17it/s] 53%|█████▎    | 196305/371472 [4:33:46<14:22:25,  3.39it/s] 53%|█████▎    | 196306/371472 [4:33:47<14:44:55,  3.30it/s] 53%|█████▎    | 196307/371472 [4:33:47<14:24:05,  3.38it/s] 53%|█████▎    | 196308/371472 [4:33:47<13:59:05,  3.48it/s] 53%|█████▎    | 196309/371472 [4:33:48<14:37:22,  3.33it/s] 53%|█████▎    | 196310/371472 [4:33:48<14:14:49,  3.42it/s] 53%|█████▎    | 196311/371472 [4:33:48<14:11:58,  3.43it/s] 53%|█████▎    | 196312/371472 [4:33:48<14:05:00,  3.45it/s] 53%|█████▎    | 196313/371472 [4:33:49<13:45:31,  3.54it/s] 53%|█████▎    | 196314/371472 [4:33:49<13:32:01,  3.60it/s] 53%|█████▎    | 196315/371472 [4:33:49<13:17:11,  3.66it/s] 53%|█████▎    | 196316/371472 [4:33:50<15:11:17,  3.20it/s] 53%|█████▎    | 196317/371472 [4:33:50<15:11:01,  3.20it/s] 53%|█████▎    | 196318/371472 [4:33:50<15:00:04,  3.24it/s] 53%|█████▎    | 196319/371472 [4:33:51<14:12:30,  3.42it/s] 53%|█████▎    | 196320/371472 [4:33:51<14:16:41,  3.41it/s]                                                            {'loss': 2.8348, 'learning_rate': 5.245857484539637e-07, 'epoch': 8.46}
 53%|█████▎    | 196320/371472 [4:33:51<14:16:41,  3.41it/s] 53%|█████▎    | 196321/371472 [4:33:51<13:53:08,  3.50it/s] 53%|█████▎    | 196322/371472 [4:33:51<14:10:00,  3.43it/s] 53%|█████▎    | 196323/371472 [4:33:52<13:32:50,  3.59it/s] 53%|█████▎    | 196324/371472 [4:33:52<13:34:13,  3.59it/s] 53%|█████▎    | 196325/371472 [4:33:52<13:02:56,  3.73it/s] 53%|█████▎    | 196326/371472 [4:33:52<12:44:18,  3.82it/s] 53%|█████▎    | 196327/371472 [4:33:53<12:46:26,  3.81it/s] 53%|█████▎    | 196328/371472 [4:33:53<12:43:50,  3.82it/s] 53%|█████▎    | 196329/371472 [4:33:53<12:36:23,  3.86it/s] 53%|█████▎    | 196330/371472 [4:33:53<13:27:57,  3.61it/s] 53%|█████▎    | 196331/371472 [4:33:54<13:11:06,  3.69it/s] 53%|█████▎    | 196332/371472 [4:33:54<13:18:59,  3.65it/s] 53%|█████▎    | 196333/371472 [4:33:54<13:42:34,  3.55it/s] 53%|█████▎    | 196334/371472 [4:33:55<13:58:16,  3.48it/s] 53%|█████▎    | 196335/371472 [4:33:55<13:36:14,  3.58it/s] 53%|█████▎    | 196336/371472 [4:33:55<13:23:35,  3.63it/s] 53%|█████▎    | 196337/371472 [4:33:55<13:41:17,  3.55it/s] 53%|█████▎    | 196338/371472 [4:33:56<14:17:44,  3.40it/s] 53%|█████▎    | 196339/371472 [4:33:56<14:18:29,  3.40it/s] 53%|█████▎    | 196340/371472 [4:33:56<14:28:28,  3.36it/s]                                                            {'loss': 3.1362, 'learning_rate': 5.245372664784848e-07, 'epoch': 8.46}
 53%|█████▎    | 196340/371472 [4:33:56<14:28:28,  3.36it/s] 53%|█████▎    | 196341/371472 [4:33:57<14:24:18,  3.38it/s] 53%|█████▎    | 196342/371472 [4:33:57<14:43:11,  3.30it/s] 53%|█████▎    | 196343/371472 [4:33:57<14:46:19,  3.29it/s] 53%|█████▎    | 196344/371472 [4:33:58<14:22:34,  3.38it/s] 53%|█████▎    | 196345/371472 [4:33:58<14:29:29,  3.36it/s] 53%|█████▎    | 196346/371472 [4:33:58<14:28:02,  3.36it/s] 53%|█████▎    | 196347/371472 [4:33:58<13:46:21,  3.53it/s] 53%|█████▎    | 196348/371472 [4:33:59<13:28:02,  3.61it/s] 53%|█████▎    | 196349/371472 [4:33:59<14:12:42,  3.42it/s] 53%|█████▎    | 196350/371472 [4:33:59<14:36:28,  3.33it/s] 53%|█████▎    | 196351/371472 [4:34:00<14:00:56,  3.47it/s] 53%|█████▎    | 196352/371472 [4:34:00<14:33:35,  3.34it/s] 53%|█████▎    | 196353/371472 [4:34:00<13:53:45,  3.50it/s] 53%|█████▎    | 196354/371472 [4:34:00<13:32:17,  3.59it/s] 53%|█████▎    | 196355/371472 [4:34:01<13:17:35,  3.66it/s] 53%|█████▎    | 196356/371472 [4:34:01<13:36:06,  3.58it/s] 53%|█████▎    | 196357/371472 [4:34:01<14:21:59,  3.39it/s] 53%|█████▎    | 196358/371472 [4:34:02<14:30:20,  3.35it/s] 53%|█████▎    | 196359/371472 [4:34:02<14:31:50,  3.35it/s] 53%|█████▎    | 196360/371472 [4:34:02<14:00:22,  3.47it/s]                                                            {'loss': 2.9772, 'learning_rate': 5.244887845030058e-07, 'epoch': 8.46}
 53%|█████▎    | 196360/371472 [4:34:02<14:00:22,  3.47it/s] 53%|█████▎    | 196361/371472 [4:34:02<13:45:26,  3.54it/s] 53%|█████▎    | 196362/371472 [4:34:03<13:21:30,  3.64it/s] 53%|█████▎    | 196363/371472 [4:34:03<13:32:20,  3.59it/s] 53%|█████▎    | 196364/371472 [4:34:03<13:24:00,  3.63it/s] 53%|█████▎    | 196365/371472 [4:34:04<13:22:13,  3.64it/s] 53%|█████▎    | 196366/371472 [4:34:04<13:53:26,  3.50it/s] 53%|█████▎    | 196367/371472 [4:34:04<15:36:32,  3.12it/s] 53%|█████▎    | 196368/371472 [4:34:05<15:19:07,  3.18it/s] 53%|█████▎    | 196369/371472 [4:34:05<14:43:13,  3.30it/s] 53%|█████▎    | 196370/371472 [4:34:05<15:15:34,  3.19it/s] 53%|█████▎    | 196371/371472 [4:34:05<14:31:43,  3.35it/s] 53%|█████▎    | 196372/371472 [4:34:06<13:52:58,  3.50it/s] 53%|█████▎    | 196373/371472 [4:34:06<14:02:10,  3.47it/s] 53%|█████▎    | 196374/371472 [4:34:06<15:04:45,  3.23it/s] 53%|█████▎    | 196375/371472 [4:34:07<14:28:39,  3.36it/s] 53%|█████▎    | 196376/371472 [4:34:07<14:34:30,  3.34it/s] 53%|█████▎    | 196377/371472 [4:34:07<14:18:14,  3.40it/s] 53%|█████▎    | 196378/371472 [4:34:07<14:06:16,  3.45it/s] 53%|█████▎    | 196379/371472 [4:34:08<13:36:35,  3.57it/s] 53%|█████▎    | 196380/371472 [4:34:08<13:41:12,  3.55it/s]                                                            {'loss': 3.1058, 'learning_rate': 5.244403025275269e-07, 'epoch': 8.46}
 53%|█████▎    | 196380/371472 [4:34:08<13:41:12,  3.55it/s] 53%|█████▎    | 196381/371472 [4:34:08<13:19:00,  3.65it/s] 53%|█████▎    | 196382/371472 [4:34:09<13:33:32,  3.59it/s] 53%|█████▎    | 196383/371472 [4:34:09<13:16:10,  3.67it/s] 53%|█████▎    | 196384/371472 [4:34:09<13:30:03,  3.60it/s] 53%|█████▎    | 196385/371472 [4:34:09<13:55:18,  3.49it/s] 53%|█████▎    | 196386/371472 [4:34:10<13:24:32,  3.63it/s] 53%|█████▎    | 196387/371472 [4:34:10<13:08:26,  3.70it/s] 53%|█████▎    | 196388/371472 [4:34:10<13:57:21,  3.48it/s] 53%|█████▎    | 196389/371472 [4:34:11<13:25:54,  3.62it/s] 53%|█████▎    | 196390/371472 [4:34:11<13:39:13,  3.56it/s] 53%|█████▎    | 196391/371472 [4:34:11<13:05:27,  3.72it/s] 53%|█████▎    | 196392/371472 [4:34:11<13:33:12,  3.59it/s] 53%|█████▎    | 196393/371472 [4:34:12<13:11:37,  3.69it/s] 53%|█████▎    | 196394/371472 [4:34:12<13:02:59,  3.73it/s] 53%|█████▎    | 196395/371472 [4:34:12<12:59:47,  3.74it/s] 53%|█████▎    | 196396/371472 [4:34:12<12:59:42,  3.74it/s] 53%|█████▎    | 196397/371472 [4:34:13<14:01:54,  3.47it/s] 53%|█████▎    | 196398/371472 [4:34:13<13:37:46,  3.57it/s] 53%|█████▎    | 196399/371472 [4:34:13<13:48:17,  3.52it/s] 53%|█████▎    | 196400/371472 [4:34:14<14:25:21,  3.37it/s]                                                            {'loss': 3.0133, 'learning_rate': 5.243918205520481e-07, 'epoch': 8.46}
 53%|█████▎    | 196400/371472 [4:34:14<14:25:21,  3.37it/s] 53%|█████▎    | 196401/371472 [4:34:14<14:41:57,  3.31it/s] 53%|█████▎    | 196402/371472 [4:34:14<14:57:14,  3.25it/s] 53%|█████▎    | 196403/371472 [4:34:15<14:39:16,  3.32it/s] 53%|█████▎    | 196404/371472 [4:34:15<14:03:16,  3.46it/s] 53%|█████▎    | 196405/371472 [4:34:15<13:39:12,  3.56it/s] 53%|█████▎    | 196406/371472 [4:34:15<13:25:03,  3.62it/s] 53%|█████▎    | 196407/371472 [4:34:16<13:34:34,  3.58it/s] 53%|█████▎    | 196408/371472 [4:34:16<13:10:43,  3.69it/s] 53%|█████▎    | 196409/371472 [4:34:16<13:07:27,  3.71it/s] 53%|█████▎    | 196410/371472 [4:34:16<13:23:30,  3.63it/s] 53%|█████▎    | 196411/371472 [4:34:17<13:47:44,  3.52it/s] 53%|█████▎    | 196412/371472 [4:34:17<13:34:08,  3.58it/s] 53%|█████▎    | 196413/371472 [4:34:17<13:28:55,  3.61it/s] 53%|█████▎    | 196414/371472 [4:34:18<13:49:49,  3.52it/s] 53%|█████▎    | 196415/371472 [4:34:18<14:19:40,  3.39it/s] 53%|█████▎    | 196416/371472 [4:34:18<14:22:52,  3.38it/s] 53%|█████▎    | 196417/371472 [4:34:18<14:35:48,  3.33it/s] 53%|█████▎    | 196418/371472 [4:34:19<15:23:44,  3.16it/s] 53%|█████▎    | 196419/371472 [4:34:19<14:54:02,  3.26it/s] 53%|█████▎    | 196420/371472 [4:34:19<14:02:35,  3.46it/s]                                                            {'loss': 2.9532, 'learning_rate': 5.243433385765691e-07, 'epoch': 8.46}
 53%|█████▎    | 196420/371472 [4:34:19<14:02:35,  3.46it/s] 53%|█████▎    | 196421/371472 [4:34:20<13:33:35,  3.59it/s] 53%|█████▎    | 196422/371472 [4:34:20<13:24:57,  3.62it/s] 53%|█████▎    | 196423/371472 [4:34:20<14:03:11,  3.46it/s] 53%|█████▎    | 196424/371472 [4:34:20<13:38:14,  3.57it/s] 53%|█████▎    | 196425/371472 [4:34:21<14:05:06,  3.45it/s] 53%|█████▎    | 196426/371472 [4:34:21<13:50:26,  3.51it/s] 53%|█████▎    | 196427/371472 [4:34:21<13:20:25,  3.64it/s] 53%|█████▎    | 196428/371472 [4:34:22<14:14:38,  3.41it/s] 53%|█████▎    | 196429/371472 [4:34:22<14:19:04,  3.40it/s] 53%|█████▎    | 196430/371472 [4:34:22<13:54:14,  3.50it/s] 53%|█████▎    | 196431/371472 [4:34:23<14:03:13,  3.46it/s] 53%|█████▎    | 196432/371472 [4:34:23<14:05:03,  3.45it/s] 53%|█████▎    | 196433/371472 [4:34:23<13:52:44,  3.50it/s] 53%|█████▎    | 196434/371472 [4:34:23<13:45:39,  3.53it/s] 53%|█████▎    | 196435/371472 [4:34:24<13:54:47,  3.49it/s] 53%|█████▎    | 196436/371472 [4:34:24<14:23:31,  3.38it/s] 53%|█████▎    | 196437/371472 [4:34:24<13:53:17,  3.50it/s] 53%|█████▎    | 196438/371472 [4:34:24<13:39:08,  3.56it/s] 53%|█████▎    | 196439/371472 [4:34:25<13:26:34,  3.62it/s] 53%|█████▎    | 196440/371472 [4:34:25<13:23:26,  3.63it/s]                                                            {'loss': 3.069, 'learning_rate': 5.242948566010903e-07, 'epoch': 8.46}
 53%|█████▎    | 196440/371472 [4:34:25<13:23:26,  3.63it/s] 53%|█████▎    | 196441/371472 [4:34:25<13:57:39,  3.48it/s] 53%|█████▎    | 196442/371472 [4:34:26<13:29:49,  3.60it/s] 53%|█████▎    | 196443/371472 [4:34:26<13:00:27,  3.74it/s] 53%|█████▎    | 196444/371472 [4:34:26<13:33:02,  3.59it/s] 53%|█████▎    | 196445/371472 [4:34:26<13:13:28,  3.68it/s] 53%|█████▎    | 196446/371472 [4:34:27<13:36:19,  3.57it/s] 53%|█████▎    | 196447/371472 [4:34:27<13:49:56,  3.51it/s] 53%|█████▎    | 196448/371472 [4:34:27<14:15:39,  3.41it/s] 53%|█████▎    | 196449/371472 [4:34:28<14:10:15,  3.43it/s] 53%|█████▎    | 196450/371472 [4:34:28<13:31:09,  3.60it/s] 53%|█████▎    | 196451/371472 [4:34:28<13:12:56,  3.68it/s] 53%|█████▎    | 196452/371472 [4:34:28<13:08:37,  3.70it/s] 53%|█████▎    | 196453/371472 [4:34:29<13:15:26,  3.67it/s] 53%|█████▎    | 196454/371472 [4:34:29<13:43:40,  3.54it/s] 53%|█████▎    | 196455/371472 [4:34:29<13:49:14,  3.52it/s] 53%|█████▎    | 196456/371472 [4:34:30<14:03:16,  3.46it/s] 53%|█████▎    | 196457/371472 [4:34:30<13:52:31,  3.50it/s] 53%|█████▎    | 196458/371472 [4:34:30<13:35:02,  3.58it/s] 53%|█████▎    | 196459/371472 [4:34:30<13:42:45,  3.55it/s] 53%|█████▎    | 196460/371472 [4:34:31<14:19:10,  3.39it/s]                                                            {'loss': 2.9699, 'learning_rate': 5.242463746256114e-07, 'epoch': 8.46}
 53%|█████▎    | 196460/371472 [4:34:31<14:19:10,  3.39it/s] 53%|█████▎    | 196461/371472 [4:34:31<14:47:20,  3.29it/s] 53%|█████▎    | 196462/371472 [4:34:31<14:33:19,  3.34it/s] 53%|█████▎    | 196463/371472 [4:34:32<14:23:29,  3.38it/s] 53%|█████▎    | 196464/371472 [4:34:32<14:13:27,  3.42it/s] 53%|█████▎    | 196465/371472 [4:34:32<14:34:49,  3.33it/s] 53%|█████▎    | 196466/371472 [4:34:32<14:18:11,  3.40it/s] 53%|█████▎    | 196467/371472 [4:34:33<13:45:18,  3.53it/s] 53%|█████▎    | 196468/371472 [4:34:33<15:27:00,  3.15it/s] 53%|█████▎    | 196469/371472 [4:34:33<15:37:27,  3.11it/s] 53%|█████▎    | 196470/371472 [4:34:34<15:36:04,  3.12it/s] 53%|█████▎    | 196471/371472 [4:34:34<14:25:44,  3.37it/s] 53%|█████▎    | 196472/371472 [4:34:34<13:54:03,  3.50it/s] 53%|█████▎    | 196473/371472 [4:34:35<13:50:07,  3.51it/s] 53%|█████▎    | 196474/371472 [4:34:35<13:43:05,  3.54it/s] 53%|█████▎    | 196475/371472 [4:34:35<13:47:27,  3.52it/s] 53%|█████▎    | 196476/371472 [4:34:35<14:52:34,  3.27it/s] 53%|█████▎    | 196477/371472 [4:34:36<14:26:36,  3.37it/s] 53%|█████▎    | 196478/371472 [4:34:36<13:41:32,  3.55it/s] 53%|█████▎    | 196479/371472 [4:34:36<13:59:05,  3.48it/s] 53%|█████▎    | 196480/371472 [4:34:37<13:48:05,  3.52it/s]                                                            {'loss': 2.952, 'learning_rate': 5.241978926501325e-07, 'epoch': 8.46}
 53%|█████▎    | 196480/371472 [4:34:37<13:48:05,  3.52it/s] 53%|█████▎    | 196481/371472 [4:34:37<14:01:35,  3.47it/s] 53%|█████▎    | 196482/371472 [4:34:37<13:37:37,  3.57it/s] 53%|█████▎    | 196483/371472 [4:34:37<13:57:48,  3.48it/s] 53%|█████▎    | 196484/371472 [4:34:38<14:07:37,  3.44it/s] 53%|█████▎    | 196485/371472 [4:34:38<14:08:52,  3.44it/s] 53%|█████▎    | 196486/371472 [4:34:38<13:34:59,  3.58it/s] 53%|█████▎    | 196487/371472 [4:34:39<14:18:57,  3.40it/s] 53%|█████▎    | 196488/371472 [4:34:39<13:45:55,  3.53it/s] 53%|█████▎    | 196489/371472 [4:34:39<13:39:58,  3.56it/s] 53%|█████▎    | 196490/371472 [4:34:39<13:41:18,  3.55it/s] 53%|█████▎    | 196491/371472 [4:34:40<13:04:18,  3.72it/s] 53%|█████▎    | 196492/371472 [4:34:40<13:08:11,  3.70it/s] 53%|█████▎    | 196493/371472 [4:34:40<13:35:05,  3.58it/s] 53%|█████▎    | 196494/371472 [4:34:41<13:09:31,  3.69it/s] 53%|█████▎    | 196495/371472 [4:34:41<13:04:55,  3.72it/s] 53%|█████▎    | 196496/371472 [4:34:41<13:59:56,  3.47it/s] 53%|█████▎    | 196497/371472 [4:34:41<14:34:29,  3.33it/s] 53%|█████▎    | 196498/371472 [4:34:42<14:12:27,  3.42it/s] 53%|█████▎    | 196499/371472 [4:34:42<13:45:53,  3.53it/s] 53%|█████▎    | 196500/371472 [4:34:42<13:51:20,  3.51it/s]                                                            {'loss': 3.0031, 'learning_rate': 5.241494106746536e-07, 'epoch': 8.46}
 53%|█████▎    | 196500/371472 [4:34:42<13:51:20,  3.51it/s] 53%|█████▎    | 196501/371472 [4:34:43<13:50:06,  3.51it/s] 53%|█████▎    | 196502/371472 [4:34:43<14:47:21,  3.29it/s] 53%|█████▎    | 196503/371472 [4:34:43<14:05:47,  3.45it/s] 53%|█████▎    | 196504/371472 [4:34:43<13:31:56,  3.59it/s] 53%|█████▎    | 196505/371472 [4:34:44<14:09:55,  3.43it/s] 53%|█████▎    | 196506/371472 [4:34:44<13:50:30,  3.51it/s] 53%|█████▎    | 196507/371472 [4:34:44<14:07:02,  3.44it/s] 53%|█████▎    | 196508/371472 [4:34:45<13:31:22,  3.59it/s] 53%|█████▎    | 196509/371472 [4:34:45<15:20:31,  3.17it/s] 53%|█████▎    | 196510/371472 [4:34:45<14:40:16,  3.31it/s] 53%|█████▎    | 196511/371472 [4:34:45<13:54:01,  3.50it/s] 53%|█████▎    | 196512/371472 [4:34:46<13:24:31,  3.62it/s] 53%|█████▎    | 196513/371472 [4:34:46<13:44:09,  3.54it/s] 53%|█████▎    | 196514/371472 [4:34:46<13:43:38,  3.54it/s] 53%|█████▎    | 196515/371472 [4:34:47<13:51:28,  3.51it/s] 53%|█████▎    | 196516/371472 [4:34:47<13:50:34,  3.51it/s] 53%|█████▎    | 196517/371472 [4:34:47<13:27:07,  3.61it/s] 53%|█████▎    | 196518/371472 [4:34:47<13:30:22,  3.60it/s] 53%|█████▎    | 196519/371472 [4:34:48<13:30:30,  3.60it/s] 53%|█████▎    | 196520/371472 [4:34:48<14:19:07,  3.39it/s]                                                            {'loss': 3.0087, 'learning_rate': 5.241009286991747e-07, 'epoch': 8.46}
 53%|█████▎    | 196520/371472 [4:34:48<14:19:07,  3.39it/s] 53%|█████▎    | 196521/371472 [4:34:48<13:55:57,  3.49it/s] 53%|█████▎    | 196522/371472 [4:34:49<13:42:37,  3.54it/s] 53%|█████▎    | 196523/371472 [4:34:49<13:27:39,  3.61it/s] 53%|█████▎    | 196524/371472 [4:34:49<13:08:59,  3.70it/s] 53%|█████▎    | 196525/371472 [4:34:49<12:54:17,  3.77it/s] 53%|█████▎    | 196526/371472 [4:34:50<12:57:54,  3.75it/s] 53%|█████▎    | 196527/371472 [4:34:50<14:31:49,  3.34it/s] 53%|█████▎    | 196528/371472 [4:34:50<13:53:23,  3.50it/s] 53%|█████▎    | 196529/371472 [4:34:50<13:29:02,  3.60it/s] 53%|█████▎    | 196530/371472 [4:34:51<14:08:31,  3.44it/s] 53%|█████▎    | 196531/371472 [4:34:51<13:44:48,  3.53it/s] 53%|█████▎    | 196532/371472 [4:34:51<13:10:52,  3.69it/s] 53%|█████▎    | 196533/371472 [4:34:52<13:46:17,  3.53it/s] 53%|█████▎    | 196534/371472 [4:34:52<14:56:54,  3.25it/s] 53%|█████▎    | 196535/371472 [4:34:52<15:24:16,  3.15it/s] 53%|█████▎    | 196536/371472 [4:34:53<15:19:48,  3.17it/s] 53%|█████▎    | 196537/371472 [4:34:53<14:17:31,  3.40it/s] 53%|█████▎    | 196538/371472 [4:34:53<13:54:21,  3.49it/s] 53%|█████▎    | 196539/371472 [4:34:53<14:14:50,  3.41it/s] 53%|█████▎    | 196540/371472 [4:34:54<14:13:44,  3.42it/s]                                                            {'loss': 2.996, 'learning_rate': 5.240524467236959e-07, 'epoch': 8.47}
 53%|█████▎    | 196540/371472 [4:34:54<14:13:44,  3.42it/s] 53%|█████▎    | 196541/371472 [4:34:54<14:01:20,  3.47it/s] 53%|█████▎    | 196542/371472 [4:34:54<13:50:52,  3.51it/s] 53%|█████▎    | 196543/371472 [4:34:55<13:29:01,  3.60it/s] 53%|█████▎    | 196544/371472 [4:34:55<14:16:17,  3.40it/s] 53%|█████▎    | 196545/371472 [4:34:55<14:00:03,  3.47it/s] 53%|█████▎    | 196546/371472 [4:34:55<13:40:52,  3.55it/s] 53%|█████▎    | 196547/371472 [4:34:56<13:20:01,  3.64it/s] 53%|█████▎    | 196548/371472 [4:34:56<13:17:54,  3.65it/s] 53%|█████▎    | 196549/371472 [4:34:56<12:47:11,  3.80it/s] 53%|█████▎    | 196550/371472 [4:34:56<12:55:42,  3.76it/s] 53%|█████▎    | 196551/371472 [4:34:57<13:31:15,  3.59it/s] 53%|█████▎    | 196552/371472 [4:34:57<13:10:50,  3.69it/s] 53%|█████▎    | 196553/371472 [4:34:57<13:25:15,  3.62it/s] 53%|█████▎    | 196554/371472 [4:34:58<13:14:08,  3.67it/s] 53%|█████▎    | 196555/371472 [4:34:58<13:40:47,  3.55it/s] 53%|█████▎    | 196556/371472 [4:34:58<13:33:55,  3.58it/s] 53%|█████▎    | 196557/371472 [4:34:58<13:38:36,  3.56it/s] 53%|█████▎    | 196558/371472 [4:34:59<13:36:26,  3.57it/s] 53%|█████▎    | 196559/371472 [4:34:59<13:09:11,  3.69it/s] 53%|█████▎    | 196560/371472 [4:34:59<13:32:53,  3.59it/s]                                                            {'loss': 2.9718, 'learning_rate': 5.24003964748217e-07, 'epoch': 8.47}
 53%|█████▎    | 196560/371472 [4:34:59<13:32:53,  3.59it/s] 53%|█████▎    | 196561/371472 [4:35:00<14:15:49,  3.41it/s] 53%|█████▎    | 196562/371472 [4:35:00<13:57:43,  3.48it/s] 53%|█████▎    | 196563/371472 [4:35:00<13:30:44,  3.60it/s] 53%|█████▎    | 196564/371472 [4:35:00<14:12:43,  3.42it/s] 53%|█████▎    | 196565/371472 [4:35:01<13:38:11,  3.56it/s] 53%|█████▎    | 196566/371472 [4:35:01<13:26:33,  3.61it/s] 53%|█████▎    | 196567/371472 [4:35:01<13:26:48,  3.61it/s] 53%|█████▎    | 196568/371472 [4:35:02<13:21:13,  3.64it/s] 53%|█████▎    | 196569/371472 [4:35:02<13:42:05,  3.55it/s] 53%|█████▎    | 196570/371472 [4:35:02<13:36:20,  3.57it/s] 53%|█████▎    | 196571/371472 [4:35:02<14:58:59,  3.24it/s] 53%|█████▎    | 196572/371472 [4:35:03<14:30:46,  3.35it/s] 53%|█████▎    | 196573/371472 [4:35:03<15:05:19,  3.22it/s] 53%|█████▎    | 196574/371472 [4:35:03<15:29:46,  3.14it/s] 53%|█████▎    | 196575/371472 [4:35:04<14:44:41,  3.29it/s] 53%|█████▎    | 196576/371472 [4:35:04<14:06:01,  3.45it/s] 53%|█████▎    | 196577/371472 [4:35:04<14:02:08,  3.46it/s] 53%|█████▎    | 196578/371472 [4:35:05<13:43:42,  3.54it/s] 53%|█████▎    | 196579/371472 [4:35:05<13:19:22,  3.65it/s] 53%|█████▎    | 196580/371472 [4:35:05<13:16:29,  3.66it/s]                                                            {'loss': 2.9387, 'learning_rate': 5.239554827727381e-07, 'epoch': 8.47}
 53%|█████▎    | 196580/371472 [4:35:05<13:16:29,  3.66it/s] 53%|█████▎    | 196581/371472 [4:35:05<13:55:13,  3.49it/s] 53%|█████▎    | 196582/371472 [4:35:06<13:30:43,  3.60it/s] 53%|█████▎    | 196583/371472 [4:35:06<13:18:33,  3.65it/s] 53%|█████▎    | 196584/371472 [4:35:06<13:41:02,  3.55it/s] 53%|█████▎    | 196585/371472 [4:35:06<13:54:31,  3.49it/s] 53%|█████▎    | 196586/371472 [4:35:07<14:18:31,  3.40it/s] 53%|█████▎    | 196587/371472 [4:35:07<14:00:55,  3.47it/s] 53%|█████▎    | 196588/371472 [4:35:07<13:42:21,  3.54it/s] 53%|█████▎    | 196589/371472 [4:35:08<13:37:59,  3.56it/s] 53%|█████▎    | 196590/371472 [4:35:08<13:42:23,  3.54it/s] 53%|█████▎    | 196591/371472 [4:35:08<16:09:19,  3.01it/s] 53%|█████▎    | 196592/371472 [4:35:09<14:52:03,  3.27it/s] 53%|█████▎    | 196593/371472 [4:35:09<15:02:45,  3.23it/s] 53%|█████▎    | 196594/371472 [4:35:09<14:40:13,  3.31it/s] 53%|█████▎    | 196595/371472 [4:35:10<14:34:57,  3.33it/s] 53%|█████▎    | 196596/371472 [4:35:10<15:01:28,  3.23it/s] 53%|█████▎    | 196597/371472 [4:35:10<15:04:59,  3.22it/s] 53%|█████▎    | 196598/371472 [4:35:11<17:51:59,  2.72it/s] 53%|█████▎    | 196599/371472 [4:35:11<16:47:17,  2.89it/s] 53%|█████▎    | 196600/371472 [4:35:11<16:27:03,  2.95it/s]                                                            {'loss': 3.1109, 'learning_rate': 5.239070007972591e-07, 'epoch': 8.47}
 53%|█████▎    | 196600/371472 [4:35:11<16:27:03,  2.95it/s] 53%|█████▎    | 196601/371472 [4:35:12<15:31:16,  3.13it/s] 53%|█████▎    | 196602/371472 [4:35:12<16:22:50,  2.97it/s] 53%|█████▎    | 196603/371472 [4:35:12<15:57:15,  3.04it/s] 53%|█████▎    | 196604/371472 [4:35:13<15:33:13,  3.12it/s] 53%|█████▎    | 196605/371472 [4:35:13<15:12:49,  3.19it/s] 53%|█████▎    | 196606/371472 [4:35:13<14:42:23,  3.30it/s] 53%|█████▎    | 196607/371472 [4:35:13<13:57:04,  3.48it/s] 53%|█████▎    | 196608/371472 [4:35:14<13:30:21,  3.60it/s] 53%|█████▎    | 196609/371472 [4:35:14<16:02:23,  3.03it/s] 53%|█████▎    | 196610/371472 [4:35:14<16:47:29,  2.89it/s] 53%|█████▎    | 196611/371472 [4:35:15<15:19:53,  3.17it/s] 53%|█████▎    | 196612/371472 [4:35:15<14:39:24,  3.31it/s] 53%|█████▎    | 196613/371472 [4:35:15<14:05:23,  3.45it/s] 53%|█████▎    | 196614/371472 [4:35:16<15:07:53,  3.21it/s] 53%|█████▎    | 196615/371472 [4:35:16<14:35:34,  3.33it/s] 53%|█████▎    | 196616/371472 [4:35:16<13:52:32,  3.50it/s] 53%|█████▎    | 196617/371472 [4:35:16<13:55:19,  3.49it/s] 53%|█████▎    | 196618/371472 [4:35:17<13:32:50,  3.59it/s] 53%|█████▎    | 196619/371472 [4:35:17<14:35:05,  3.33it/s] 53%|█████▎    | 196620/371472 [4:35:17<14:29:58,  3.35it/s]                                                            {'loss': 2.9271, 'learning_rate': 5.238585188217802e-07, 'epoch': 8.47}
 53%|█████▎    | 196620/371472 [4:35:17<14:29:58,  3.35it/s] 53%|█████▎    | 196621/371472 [4:35:18<14:12:06,  3.42it/s] 53%|█████▎    | 196622/371472 [4:35:18<14:31:41,  3.34it/s] 53%|█████▎    | 196623/371472 [4:35:18<15:14:46,  3.19it/s] 53%|█████▎    | 196624/371472 [4:35:19<14:43:12,  3.30it/s] 53%|█████▎    | 196625/371472 [4:35:19<14:04:26,  3.45it/s] 53%|█████▎    | 196626/371472 [4:35:19<14:46:46,  3.29it/s] 53%|█████▎    | 196627/371472 [4:35:19<15:17:34,  3.18it/s] 53%|█████▎    | 196628/371472 [4:35:20<14:43:06,  3.30it/s] 53%|█████▎    | 196629/371472 [4:35:20<15:01:44,  3.23it/s] 53%|█████▎    | 196630/371472 [4:35:20<14:47:31,  3.28it/s] 53%|█████▎    | 196631/371472 [4:35:21<14:25:57,  3.37it/s] 53%|█████▎    | 196632/371472 [4:35:21<14:23:15,  3.38it/s] 53%|█████▎    | 196633/371472 [4:35:21<14:10:24,  3.43it/s] 53%|█████▎    | 196634/371472 [4:35:21<13:54:26,  3.49it/s] 53%|█████▎    | 196635/371472 [4:35:22<14:02:28,  3.46it/s] 53%|█████▎    | 196636/371472 [4:35:22<13:49:02,  3.51it/s] 53%|█████▎    | 196637/371472 [4:35:22<13:41:01,  3.55it/s] 53%|█████▎    | 196638/371472 [4:35:23<13:01:09,  3.73it/s] 53%|█████▎    | 196639/371472 [4:35:23<13:12:28,  3.68it/s] 53%|█████▎    | 196640/371472 [4:35:23<13:32:48,  3.58it/s]                                                            {'loss': 2.9209, 'learning_rate': 5.238100368463014e-07, 'epoch': 8.47}
 53%|█████▎    | 196640/371472 [4:35:23<13:32:48,  3.58it/s] 53%|█████▎    | 196641/371472 [4:35:23<13:53:24,  3.50it/s] 53%|█████▎    | 196642/371472 [4:35:24<13:58:53,  3.47it/s] 53%|█████▎    | 196643/371472 [4:35:24<13:48:00,  3.52it/s] 53%|█████▎    | 196644/371472 [4:35:24<14:33:45,  3.33it/s] 53%|█████▎    | 196645/371472 [4:35:25<15:07:48,  3.21it/s] 53%|█████▎    | 196646/371472 [4:35:25<14:17:25,  3.40it/s] 53%|█████▎    | 196647/371472 [4:35:25<13:51:42,  3.50it/s] 53%|█████▎    | 196648/371472 [4:35:25<13:46:37,  3.52it/s] 53%|█████▎    | 196649/371472 [4:35:26<13:31:25,  3.59it/s] 53%|█████▎    | 196650/371472 [4:35:26<13:33:09,  3.58it/s] 53%|█████▎    | 196651/371472 [4:35:26<13:16:30,  3.66it/s] 53%|█████▎    | 196652/371472 [4:35:27<13:54:09,  3.49it/s] 53%|█████▎    | 196653/371472 [4:35:27<14:17:39,  3.40it/s] 53%|█████▎    | 196654/371472 [4:35:27<13:55:58,  3.49it/s] 53%|█████▎    | 196655/371472 [4:35:27<14:00:57,  3.46it/s] 53%|█████▎    | 196656/371472 [4:35:28<14:56:14,  3.25it/s] 53%|█████▎    | 196657/371472 [4:35:28<14:48:52,  3.28it/s] 53%|█████▎    | 196658/371472 [4:35:28<14:08:22,  3.43it/s] 53%|█████▎    | 196659/371472 [4:35:29<13:26:03,  3.61it/s] 53%|█████▎    | 196660/371472 [4:35:29<13:36:53,  3.57it/s]                                                            {'loss': 2.8168, 'learning_rate': 5.237615548708224e-07, 'epoch': 8.47}
 53%|█████▎    | 196660/371472 [4:35:29<13:36:53,  3.57it/s] 53%|█████▎    | 196661/371472 [4:35:29<14:20:54,  3.38it/s] 53%|█████▎    | 196662/371472 [4:35:30<14:22:23,  3.38it/s] 53%|█████▎    | 196663/371472 [4:35:30<14:05:51,  3.44it/s] 53%|█████▎    | 196664/371472 [4:35:30<13:28:23,  3.60it/s] 53%|█████▎    | 196665/371472 [4:35:31<15:55:23,  3.05it/s] 53%|█████▎    | 196666/371472 [4:35:31<16:07:35,  3.01it/s] 53%|█████▎    | 196667/371472 [4:35:31<15:38:06,  3.11it/s] 53%|█████▎    | 196668/371472 [4:35:31<14:52:04,  3.27it/s] 53%|█████▎    | 196669/371472 [4:35:32<14:03:07,  3.46it/s] 53%|█████▎    | 196670/371472 [4:35:32<14:54:49,  3.26it/s] 53%|█████▎    | 196671/371472 [4:35:32<14:35:04,  3.33it/s] 53%|█████▎    | 196672/371472 [4:35:33<14:19:55,  3.39it/s] 53%|█████▎    | 196673/371472 [4:35:33<14:12:15,  3.42it/s] 53%|█████▎    | 196674/371472 [4:35:33<13:54:25,  3.49it/s] 53%|█████▎    | 196675/371472 [4:35:33<14:00:36,  3.47it/s] 53%|█████▎    | 196676/371472 [4:35:34<13:39:36,  3.55it/s] 53%|█████▎    | 196677/371472 [4:35:34<13:14:57,  3.66it/s] 53%|█████▎    | 196678/371472 [4:35:34<13:29:50,  3.60it/s] 53%|█████▎    | 196679/371472 [4:35:35<13:22:23,  3.63it/s] 53%|█████▎    | 196680/371472 [4:35:35<15:08:36,  3.21it/s]                                                            {'loss': 3.006, 'learning_rate': 5.237130728953436e-07, 'epoch': 8.47}
 53%|█████▎    | 196680/371472 [4:35:35<15:08:36,  3.21it/s] 53%|█████▎    | 196681/371472 [4:35:35<14:48:19,  3.28it/s] 53%|█████▎    | 196682/371472 [4:35:35<14:26:46,  3.36it/s] 53%|█████▎    | 196683/371472 [4:35:36<13:54:37,  3.49it/s] 53%|█████▎    | 196684/371472 [4:35:36<13:52:06,  3.50it/s] 53%|█████▎    | 196685/371472 [4:35:36<14:42:24,  3.30it/s] 53%|█████▎    | 196686/371472 [4:35:37<14:20:16,  3.39it/s] 53%|█████▎    | 196687/371472 [4:35:37<14:22:13,  3.38it/s] 53%|█████▎    | 196688/371472 [4:35:37<15:59:18,  3.04it/s] 53%|█████▎    | 196689/371472 [4:35:38<15:03:47,  3.22it/s] 53%|█████▎    | 196690/371472 [4:35:38<14:12:22,  3.42it/s] 53%|█████▎    | 196691/371472 [4:35:38<13:33:15,  3.58it/s] 53%|█████▎    | 196692/371472 [4:35:38<13:32:23,  3.59it/s] 53%|█████▎    | 196693/371472 [4:35:39<14:01:37,  3.46it/s] 53%|█████▎    | 196694/371472 [4:35:39<14:17:04,  3.40it/s] 53%|█████▎    | 196695/371472 [4:35:39<13:53:21,  3.50it/s] 53%|█████▎    | 196696/371472 [4:35:40<13:48:57,  3.51it/s] 53%|█████▎    | 196697/371472 [4:35:40<13:35:49,  3.57it/s] 53%|█████▎    | 196698/371472 [4:35:40<13:18:09,  3.65it/s] 53%|█████▎    | 196699/371472 [4:35:40<13:42:31,  3.54it/s] 53%|█████▎    | 196700/371472 [4:35:41<13:40:35,  3.55it/s]                                                            {'loss': 3.0738, 'learning_rate': 5.236645909198647e-07, 'epoch': 8.47}
 53%|█████▎    | 196700/371472 [4:35:41<13:40:35,  3.55it/s] 53%|█████▎    | 196701/371472 [4:35:41<13:19:03,  3.65it/s] 53%|█████▎    | 196702/371472 [4:35:41<13:41:14,  3.55it/s] 53%|█████▎    | 196703/371472 [4:35:41<13:13:45,  3.67it/s] 53%|█████▎    | 196704/371472 [4:35:42<13:33:16,  3.58it/s] 53%|█████▎    | 196705/371472 [4:35:42<13:16:08,  3.66it/s] 53%|█████▎    | 196706/371472 [4:35:42<13:26:51,  3.61it/s] 53%|█████▎    | 196707/371472 [4:35:43<13:55:26,  3.49it/s] 53%|█████▎    | 196708/371472 [4:35:43<14:06:09,  3.44it/s] 53%|█████▎    | 196709/371472 [4:35:43<14:08:34,  3.43it/s] 53%|█████▎    | 196710/371472 [4:35:43<13:33:02,  3.58it/s] 53%|█████▎    | 196711/371472 [4:35:44<13:28:46,  3.60it/s] 53%|█████▎    | 196712/371472 [4:35:44<12:58:14,  3.74it/s] 53%|█████▎    | 196713/371472 [4:35:44<13:30:45,  3.59it/s] 53%|█████▎    | 196714/371472 [4:35:45<13:19:23,  3.64it/s] 53%|█████▎    | 196715/371472 [4:35:45<13:14:40,  3.67it/s] 53%|█████▎    | 196716/371472 [4:35:45<12:54:53,  3.76it/s] 53%|█████▎    | 196717/371472 [4:35:45<12:41:15,  3.83it/s] 53%|█████▎    | 196718/371472 [4:35:46<13:44:03,  3.53it/s] 53%|█████▎    | 196719/371472 [4:35:46<13:42:57,  3.54it/s] 53%|█████▎    | 196720/371472 [4:35:46<13:20:18,  3.64it/s]                                                            {'loss': 2.892, 'learning_rate': 5.236161089443858e-07, 'epoch': 8.47}
 53%|█████▎    | 196720/371472 [4:35:46<13:20:18,  3.64it/s] 53%|█████▎    | 196721/371472 [4:35:46<12:50:01,  3.78it/s] 53%|█████▎    | 196722/371472 [4:35:47<14:06:09,  3.44it/s] 53%|█████▎    | 196723/371472 [4:35:47<15:30:58,  3.13it/s] 53%|█████▎    | 196724/371472 [4:35:47<14:23:47,  3.37it/s] 53%|█████▎    | 196725/371472 [4:35:48<13:47:57,  3.52it/s] 53%|█████▎    | 196726/371472 [4:35:48<14:05:49,  3.44it/s] 53%|█████▎    | 196727/371472 [4:35:48<14:12:20,  3.42it/s] 53%|█████▎    | 196728/371472 [4:35:49<14:28:01,  3.36it/s] 53%|█████▎    | 196729/371472 [4:35:49<14:21:59,  3.38it/s] 53%|█████▎    | 196730/371472 [4:35:49<13:35:36,  3.57it/s] 53%|█████▎    | 196731/371472 [4:35:49<13:38:35,  3.56it/s] 53%|█████▎    | 196732/371472 [4:35:50<13:31:30,  3.59it/s] 53%|█████▎    | 196733/371472 [4:35:50<13:07:59,  3.70it/s] 53%|█████▎    | 196734/371472 [4:35:50<13:15:09,  3.66it/s] 53%|█████▎    | 196735/371472 [4:35:50<12:44:12,  3.81it/s] 53%|█████▎    | 196736/371472 [4:35:51<12:25:51,  3.90it/s] 53%|█████▎    | 196737/371472 [4:35:51<13:32:33,  3.58it/s] 53%|█████▎    | 196738/371472 [4:35:51<13:17:45,  3.65it/s] 53%|█████▎    | 196739/371472 [4:35:52<13:00:34,  3.73it/s] 53%|█████▎    | 196740/371472 [4:35:52<13:23:12,  3.63it/s]                                                            {'loss': 2.9889, 'learning_rate': 5.235676269689068e-07, 'epoch': 8.47}
 53%|█████▎    | 196740/371472 [4:35:52<13:23:12,  3.63it/s] 53%|█████▎    | 196741/371472 [4:35:52<13:31:34,  3.59it/s] 53%|█████▎    | 196742/371472 [4:35:52<13:46:23,  3.52it/s] 53%|█████▎    | 196743/371472 [4:35:53<14:51:10,  3.27it/s] 53%|█████▎    | 196744/371472 [4:35:53<14:30:29,  3.35it/s] 53%|█████▎    | 196745/371472 [4:35:53<14:10:41,  3.42it/s] 53%|█████▎    | 196746/371472 [4:35:54<14:29:49,  3.35it/s] 53%|█████▎    | 196747/371472 [4:35:54<13:47:00,  3.52it/s] 53%|█████▎    | 196748/371472 [4:35:54<14:03:58,  3.45it/s] 53%|█████▎    | 196749/371472 [4:35:54<13:41:45,  3.54it/s] 53%|█████▎    | 196750/371472 [4:35:55<13:11:36,  3.68it/s] 53%|█████▎    | 196751/371472 [4:35:55<13:17:40,  3.65it/s] 53%|█████▎    | 196752/371472 [4:35:55<14:18:57,  3.39it/s] 53%|█████▎    | 196753/371472 [4:35:56<14:17:12,  3.40it/s] 53%|█████▎    | 196754/371472 [4:35:56<14:05:03,  3.45it/s] 53%|█████▎    | 196755/371472 [4:35:56<14:14:44,  3.41it/s] 53%|█████▎    | 196756/371472 [4:35:56<13:58:22,  3.47it/s] 53%|█████▎    | 196757/371472 [4:35:57<13:31:28,  3.59it/s] 53%|█████▎    | 196758/371472 [4:35:57<13:46:49,  3.52it/s] 53%|█████▎    | 196759/371472 [4:35:57<13:34:12,  3.58it/s] 53%|█████▎    | 196760/371472 [4:35:58<13:35:25,  3.57it/s]                                                            {'loss': 3.0767, 'learning_rate': 5.23519144993428e-07, 'epoch': 8.47}
 53%|█████▎    | 196760/371472 [4:35:58<13:35:25,  3.57it/s] 53%|█████▎    | 196761/371472 [4:35:58<13:12:50,  3.67it/s] 53%|█████▎    | 196762/371472 [4:35:58<12:52:47,  3.77it/s] 53%|█████▎    | 196763/371472 [4:35:58<13:01:46,  3.72it/s] 53%|█████▎    | 196764/371472 [4:35:59<13:28:24,  3.60it/s] 53%|█████▎    | 196765/371472 [4:35:59<13:28:43,  3.60it/s] 53%|█████▎    | 196766/371472 [4:35:59<14:06:52,  3.44it/s] 53%|█████▎    | 196767/371472 [4:36:00<14:55:07,  3.25it/s] 53%|█████▎    | 196768/371472 [4:36:00<14:23:46,  3.37it/s] 53%|█████▎    | 196769/371472 [4:36:00<14:16:32,  3.40it/s] 53%|█████▎    | 196770/371472 [4:36:00<13:42:35,  3.54it/s] 53%|█████▎    | 196771/371472 [4:36:01<13:16:22,  3.66it/s] 53%|█████▎    | 196772/371472 [4:36:01<13:16:41,  3.65it/s] 53%|█████▎    | 196773/371472 [4:36:01<13:41:57,  3.54it/s] 53%|█████▎    | 196774/371472 [4:36:02<13:31:42,  3.59it/s] 53%|█████▎    | 196775/371472 [4:36:02<13:18:27,  3.65it/s] 53%|█████▎    | 196776/371472 [4:36:02<13:29:20,  3.60it/s] 53%|█████▎    | 196777/371472 [4:36:02<13:24:12,  3.62it/s] 53%|█████▎    | 196778/371472 [4:36:03<13:25:16,  3.62it/s] 53%|█████▎    | 196779/371472 [4:36:03<12:58:45,  3.74it/s] 53%|█████▎    | 196780/371472 [4:36:03<13:05:52,  3.70it/s]                                                            {'loss': 3.1147, 'learning_rate': 5.234706630179491e-07, 'epoch': 8.48}
 53%|█████▎    | 196780/371472 [4:36:03<13:05:52,  3.70it/s] 53%|█████▎    | 196781/371472 [4:36:03<12:44:04,  3.81it/s] 53%|█████▎    | 196782/371472 [4:36:04<13:30:27,  3.59it/s] 53%|█████▎    | 196783/371472 [4:36:04<13:25:01,  3.62it/s] 53%|█████▎    | 196784/371472 [4:36:04<13:15:38,  3.66it/s] 53%|█████▎    | 196785/371472 [4:36:05<13:26:40,  3.61it/s] 53%|█████▎    | 196786/371472 [4:36:05<13:46:18,  3.52it/s] 53%|█████▎    | 196787/371472 [4:36:05<13:56:19,  3.48it/s] 53%|█████▎    | 196788/371472 [4:36:05<13:24:16,  3.62it/s] 53%|█████▎    | 196789/371472 [4:36:06<13:51:07,  3.50it/s] 53%|█████▎    | 196790/371472 [4:36:06<13:31:48,  3.59it/s] 53%|█████▎    | 196791/371472 [4:36:06<14:20:22,  3.38it/s] 53%|█████▎    | 196792/371472 [4:36:07<13:52:06,  3.50it/s] 53%|█████▎    | 196793/371472 [4:36:07<13:50:51,  3.50it/s] 53%|█████▎    | 196794/371472 [4:36:07<13:33:50,  3.58it/s] 53%|█████▎    | 196795/371472 [4:36:07<14:22:31,  3.38it/s] 53%|█████▎    | 196796/371472 [4:36:08<14:16:21,  3.40it/s] 53%|█████▎    | 196797/371472 [4:36:08<13:56:45,  3.48it/s] 53%|█████▎    | 196798/371472 [4:36:08<13:36:36,  3.56it/s] 53%|█████▎    | 196799/371472 [4:36:09<13:16:46,  3.65it/s] 53%|█████▎    | 196800/371472 [4:36:09<13:17:36,  3.65it/s]                                                            {'loss': 2.8952, 'learning_rate': 5.234221810424703e-07, 'epoch': 8.48}
 53%|█████▎    | 196800/371472 [4:36:09<13:17:36,  3.65it/s] 53%|█████▎    | 196801/371472 [4:36:09<13:08:48,  3.69it/s] 53%|█████▎    | 196802/371472 [4:36:09<13:18:01,  3.65it/s] 53%|█████▎    | 196803/371472 [4:36:10<13:09:31,  3.69it/s] 53%|█████▎    | 196804/371472 [4:36:10<12:59:59,  3.73it/s] 53%|█████▎    | 196805/371472 [4:36:10<13:14:11,  3.67it/s] 53%|█████▎    | 196806/371472 [4:36:10<13:21:41,  3.63it/s] 53%|█████▎    | 196807/371472 [4:36:11<14:32:06,  3.34it/s] 53%|█████▎    | 196808/371472 [4:36:11<14:51:55,  3.26it/s] 53%|█████▎    | 196809/371472 [4:36:11<15:34:07,  3.12it/s] 53%|█████▎    | 196810/371472 [4:36:12<15:08:57,  3.20it/s] 53%|█████▎    | 196811/371472 [4:36:12<14:17:43,  3.39it/s] 53%|█████▎    | 196812/371472 [4:36:12<13:46:08,  3.52it/s] 53%|█████▎    | 196813/371472 [4:36:13<13:59:04,  3.47it/s] 53%|█████▎    | 196814/371472 [4:36:13<13:35:19,  3.57it/s] 53%|█████▎    | 196815/371472 [4:36:13<13:31:38,  3.59it/s] 53%|█████▎    | 196816/371472 [4:36:13<13:29:18,  3.60it/s] 53%|█████▎    | 196817/371472 [4:36:14<13:50:02,  3.51it/s] 53%|█████▎    | 196818/371472 [4:36:14<13:39:05,  3.55it/s] 53%|█████▎    | 196819/371472 [4:36:14<14:19:59,  3.38it/s] 53%|█████▎    | 196820/371472 [4:36:15<14:30:28,  3.34it/s]                                                            {'loss': 3.0103, 'learning_rate': 5.233736990669913e-07, 'epoch': 8.48}
 53%|█████▎    | 196820/371472 [4:36:15<14:30:28,  3.34it/s] 53%|█████▎    | 196821/371472 [4:36:15<14:54:43,  3.25it/s] 53%|█████▎    | 196822/371472 [4:36:15<15:08:31,  3.20it/s] 53%|█████▎    | 196823/371472 [4:36:16<14:32:48,  3.33it/s] 53%|█████▎    | 196824/371472 [4:36:16<14:34:30,  3.33it/s] 53%|█████▎    | 196825/371472 [4:36:16<14:46:43,  3.28it/s] 53%|█████▎    | 196826/371472 [4:36:16<13:54:35,  3.49it/s] 53%|█████▎    | 196827/371472 [4:36:17<13:55:34,  3.48it/s] 53%|█████▎    | 196828/371472 [4:36:17<13:47:56,  3.52it/s] 53%|█████▎    | 196829/371472 [4:36:17<13:44:52,  3.53it/s] 53%|█████▎    | 196830/371472 [4:36:17<13:24:31,  3.62it/s] 53%|█████▎    | 196831/371472 [4:36:18<14:00:23,  3.46it/s] 53%|█████▎    | 196832/371472 [4:36:18<14:13:35,  3.41it/s] 53%|█████▎    | 196833/371472 [4:36:18<14:05:10,  3.44it/s] 53%|█████▎    | 196834/371472 [4:36:19<13:34:47,  3.57it/s] 53%|█████▎    | 196835/371472 [4:36:19<13:58:22,  3.47it/s] 53%|█████▎    | 196836/371472 [4:36:19<14:22:36,  3.37it/s] 53%|█████▎    | 196837/371472 [4:36:20<14:26:48,  3.36it/s] 53%|█████▎    | 196838/371472 [4:36:20<14:26:30,  3.36it/s] 53%|█████▎    | 196839/371472 [4:36:20<14:29:01,  3.35it/s] 53%|█████▎    | 196840/371472 [4:36:20<14:02:33,  3.45it/s]                                                            {'loss': 2.9631, 'learning_rate': 5.233252170915124e-07, 'epoch': 8.48}
 53%|█████▎    | 196840/371472 [4:36:20<14:02:33,  3.45it/s] 53%|█████▎    | 196841/371472 [4:36:21<14:04:16,  3.45it/s] 53%|█████▎    | 196842/371472 [4:36:21<16:46:59,  2.89it/s] 53%|█████▎    | 196843/371472 [4:36:21<15:36:25,  3.11it/s] 53%|█████▎    | 196844/371472 [4:36:22<16:03:02,  3.02it/s] 53%|█████▎    | 196845/371472 [4:36:22<15:52:12,  3.06it/s] 53%|█████▎    | 196846/371472 [4:36:22<15:04:45,  3.22it/s] 53%|█████▎    | 196847/371472 [4:36:23<15:13:54,  3.18it/s] 53%|█████▎    | 196848/371472 [4:36:23<14:30:13,  3.34it/s] 53%|█████▎    | 196849/371472 [4:36:23<14:12:21,  3.41it/s] 53%|█████▎    | 196850/371472 [4:36:24<14:40:34,  3.31it/s] 53%|█████▎    | 196851/371472 [4:36:24<14:53:00,  3.26it/s] 53%|█████▎    | 196852/371472 [4:36:24<14:03:54,  3.45it/s] 53%|█████▎    | 196853/371472 [4:36:24<13:37:08,  3.56it/s] 53%|█████▎    | 196854/371472 [4:36:25<13:33:04,  3.58it/s] 53%|█████▎    | 196855/371472 [4:36:25<13:13:47,  3.67it/s] 53%|█████▎    | 196856/371472 [4:36:25<13:19:37,  3.64it/s] 53%|█████▎    | 196857/371472 [4:36:26<14:12:48,  3.41it/s] 53%|█████▎    | 196858/371472 [4:36:26<14:29:02,  3.35it/s] 53%|█████▎    | 196859/371472 [4:36:26<13:56:11,  3.48it/s] 53%|█████▎    | 196860/371472 [4:36:26<13:36:43,  3.56it/s]                                                            {'loss': 3.0395, 'learning_rate': 5.232767351160335e-07, 'epoch': 8.48}
 53%|█████▎    | 196860/371472 [4:36:26<13:36:43,  3.56it/s] 53%|█████▎    | 196861/371472 [4:36:27<14:34:38,  3.33it/s] 53%|█████▎    | 196862/371472 [4:36:27<14:02:31,  3.45it/s] 53%|█████▎    | 196863/371472 [4:36:27<14:08:57,  3.43it/s] 53%|█████▎    | 196864/371472 [4:36:28<13:35:00,  3.57it/s] 53%|█████▎    | 196865/371472 [4:36:28<14:19:02,  3.39it/s] 53%|█████▎    | 196866/371472 [4:36:28<14:06:28,  3.44it/s] 53%|█████▎    | 196867/371472 [4:36:28<13:47:41,  3.52it/s] 53%|█████▎    | 196868/371472 [4:36:29<13:23:02,  3.62it/s] 53%|█████▎    | 196869/371472 [4:36:29<13:01:45,  3.72it/s] 53%|█████▎    | 196870/371472 [4:36:29<13:15:18,  3.66it/s] 53%|█████▎    | 196871/371472 [4:36:30<13:26:20,  3.61it/s] 53%|█████▎    | 196872/371472 [4:36:30<13:31:06,  3.59it/s] 53%|█████▎    | 196873/371472 [4:36:30<13:05:59,  3.70it/s] 53%|█████▎    | 196874/371472 [4:36:30<13:12:27,  3.67it/s] 53%|█████▎    | 196875/371472 [4:36:31<13:17:28,  3.65it/s] 53%|█████▎    | 196876/371472 [4:36:31<13:24:33,  3.62it/s] 53%|█████▎    | 196877/371472 [4:36:31<13:34:23,  3.57it/s] 53%|█████▎    | 196878/371472 [4:36:31<13:44:23,  3.53it/s] 53%|█████▎    | 196879/371472 [4:36:32<13:26:25,  3.61it/s] 53%|█████▎    | 196880/371472 [4:36:32<14:03:37,  3.45it/s]                                                            {'loss': 3.0978, 'learning_rate': 5.232282531405546e-07, 'epoch': 8.48}
 53%|█████▎    | 196880/371472 [4:36:32<14:03:37,  3.45it/s] 53%|█████▎    | 196881/371472 [4:36:32<13:31:09,  3.59it/s] 53%|█████▎    | 196882/371472 [4:36:33<13:38:13,  3.56it/s] 53%|█████▎    | 196883/371472 [4:36:33<13:21:36,  3.63it/s] 53%|█████▎    | 196884/371472 [4:36:33<12:51:51,  3.77it/s] 53%|█████▎    | 196885/371472 [4:36:33<12:31:00,  3.87it/s] 53%|█████▎    | 196886/371472 [4:36:34<12:37:26,  3.84it/s] 53%|█████▎    | 196887/371472 [4:36:34<12:38:38,  3.84it/s] 53%|█████▎    | 196888/371472 [4:36:34<13:05:04,  3.71it/s] 53%|█████▎    | 196889/371472 [4:36:34<13:17:14,  3.65it/s] 53%|█████▎    | 196890/371472 [4:36:35<13:19:04,  3.64it/s] 53%|█████▎    | 196891/371472 [4:36:35<13:02:17,  3.72it/s] 53%|█████▎    | 196892/371472 [4:36:35<15:03:20,  3.22it/s] 53%|█████▎    | 196893/371472 [4:36:36<14:42:56,  3.30it/s] 53%|█████▎    | 196894/371472 [4:36:36<13:49:14,  3.51it/s] 53%|█████▎    | 196895/371472 [4:36:36<13:37:12,  3.56it/s] 53%|█████▎    | 196896/371472 [4:36:36<13:21:04,  3.63it/s] 53%|█████▎    | 196897/371472 [4:36:37<13:40:21,  3.55it/s] 53%|█████▎    | 196898/371472 [4:36:37<14:19:25,  3.39it/s] 53%|█████▎    | 196899/371472 [4:36:37<13:49:52,  3.51it/s] 53%|█████▎    | 196900/371472 [4:36:38<14:41:21,  3.30it/s]                                                            {'loss': 2.9912, 'learning_rate': 5.231797711650757e-07, 'epoch': 8.48}
 53%|█████▎    | 196900/371472 [4:36:38<14:41:21,  3.30it/s] 53%|█████▎    | 196901/371472 [4:36:38<13:57:56,  3.47it/s] 53%|█████▎    | 196902/371472 [4:36:38<13:52:02,  3.50it/s] 53%|█████▎    | 196903/371472 [4:36:38<13:38:52,  3.55it/s] 53%|█████▎    | 196904/371472 [4:36:39<13:30:23,  3.59it/s] 53%|█████▎    | 196905/371472 [4:36:39<13:58:42,  3.47it/s] 53%|█████▎    | 196906/371472 [4:36:39<14:27:53,  3.35it/s] 53%|█████▎    | 196907/371472 [4:36:40<13:57:19,  3.47it/s] 53%|█████▎    | 196908/371472 [4:36:40<13:30:37,  3.59it/s] 53%|█████▎    | 196909/371472 [4:36:40<13:25:03,  3.61it/s] 53%|█████▎    | 196910/371472 [4:36:40<13:46:21,  3.52it/s] 53%|█████▎    | 196911/371472 [4:36:41<13:25:14,  3.61it/s] 53%|█████▎    | 196912/371472 [4:36:41<13:13:47,  3.67it/s] 53%|█████▎    | 196913/371472 [4:36:41<12:46:14,  3.80it/s] 53%|█████▎    | 196914/371472 [4:36:42<13:30:40,  3.59it/s] 53%|█████▎    | 196915/371472 [4:36:42<13:15:02,  3.66it/s] 53%|█████▎    | 196916/371472 [4:36:42<13:21:16,  3.63it/s] 53%|█████▎    | 196917/371472 [4:36:42<13:05:44,  3.70it/s] 53%|█████▎    | 196918/371472 [4:36:43<14:05:28,  3.44it/s] 53%|█████▎    | 196919/371472 [4:36:43<15:18:05,  3.17it/s] 53%|█████▎    | 196920/371472 [4:36:43<15:39:30,  3.10it/s]                                                            {'loss': 2.8332, 'learning_rate': 5.231312891895968e-07, 'epoch': 8.48}
 53%|█████▎    | 196920/371472 [4:36:43<15:39:30,  3.10it/s] 53%|█████▎    | 196921/371472 [4:36:44<14:41:04,  3.30it/s] 53%|█████▎    | 196922/371472 [4:36:44<14:51:26,  3.26it/s] 53%|█████▎    | 196923/371472 [4:36:44<14:29:21,  3.35it/s] 53%|█████▎    | 196924/371472 [4:36:45<14:16:10,  3.40it/s] 53%|█████▎    | 196925/371472 [4:36:45<13:57:15,  3.47it/s] 53%|█████▎    | 196926/371472 [4:36:45<14:07:09,  3.43it/s] 53%|█████▎    | 196927/371472 [4:36:45<13:43:46,  3.53it/s] 53%|█████▎    | 196928/371472 [4:36:46<13:15:04,  3.66it/s] 53%|█████▎    | 196929/371472 [4:36:46<13:45:23,  3.52it/s] 53%|█████▎    | 196930/371472 [4:36:46<13:57:40,  3.47it/s] 53%|█████▎    | 196931/371472 [4:36:47<13:48:52,  3.51it/s] 53%|█████▎    | 196932/371472 [4:36:47<13:43:20,  3.53it/s] 53%|█████▎    | 196933/371472 [4:36:47<13:40:59,  3.54it/s] 53%|█████▎    | 196934/371472 [4:36:47<13:38:58,  3.55it/s] 53%|█████▎    | 196935/371472 [4:36:48<13:53:37,  3.49it/s] 53%|█████▎    | 196936/371472 [4:36:48<14:21:02,  3.38it/s] 53%|█████▎    | 196937/371472 [4:36:48<14:28:14,  3.35it/s] 53%|█████▎    | 196938/371472 [4:36:49<15:07:49,  3.20it/s] 53%|█████▎    | 196939/371472 [4:36:49<14:27:47,  3.35it/s] 53%|█████▎    | 196940/371472 [4:36:49<14:07:04,  3.43it/s]                                                            {'loss': 3.0255, 'learning_rate': 5.23082807214118e-07, 'epoch': 8.48}
 53%|█████▎    | 196940/371472 [4:36:49<14:07:04,  3.43it/s] 53%|█████▎    | 196941/371472 [4:36:49<14:41:18,  3.30it/s] 53%|█████▎    | 196942/371472 [4:36:50<14:50:33,  3.27it/s] 53%|█████▎    | 196943/371472 [4:36:50<14:40:06,  3.31it/s] 53%|█████▎    | 196944/371472 [4:36:50<14:12:30,  3.41it/s] 53%|█████▎    | 196945/371472 [4:36:51<13:40:55,  3.54it/s] 53%|█████▎    | 196946/371472 [4:36:51<13:23:15,  3.62it/s] 53%|█████▎    | 196947/371472 [4:36:51<13:28:12,  3.60it/s] 53%|█████▎    | 196948/371472 [4:36:51<13:03:03,  3.71it/s] 53%|█████▎    | 196949/371472 [4:36:52<12:58:04,  3.74it/s] 53%|█████▎    | 196950/371472 [4:36:52<13:08:48,  3.69it/s] 53%|█████▎    | 196951/371472 [4:36:52<13:21:10,  3.63it/s] 53%|█████▎    | 196952/371472 [4:36:53<13:23:11,  3.62it/s] 53%|█████▎    | 196953/371472 [4:36:53<13:37:05,  3.56it/s] 53%|█████▎    | 196954/371472 [4:36:53<13:17:13,  3.65it/s] 53%|█████▎    | 196955/371472 [4:36:53<13:23:15,  3.62it/s] 53%|█████▎    | 196956/371472 [4:36:54<13:40:22,  3.55it/s] 53%|█████▎    | 196957/371472 [4:36:54<13:30:36,  3.59it/s] 53%|█████▎    | 196958/371472 [4:36:54<13:35:16,  3.57it/s] 53%|█████▎    | 196959/371472 [4:36:55<14:11:38,  3.42it/s] 53%|█████▎    | 196960/371472 [4:36:55<13:59:07,  3.47it/s]                                                            {'loss': 3.082, 'learning_rate': 5.230343252386389e-07, 'epoch': 8.48}
 53%|█████▎    | 196960/371472 [4:36:55<13:59:07,  3.47it/s] 53%|█████▎    | 196961/371472 [4:36:55<14:29:40,  3.34it/s] 53%|█████▎    | 196962/371472 [4:36:55<14:36:43,  3.32it/s] 53%|█████▎    | 196963/371472 [4:36:56<14:19:49,  3.38it/s] 53%|█████▎    | 196964/371472 [4:36:56<14:46:01,  3.28it/s] 53%|█████▎    | 196965/371472 [4:36:56<14:18:51,  3.39it/s] 53%|█████▎    | 196966/371472 [4:36:57<14:11:37,  3.42it/s] 53%|█████▎    | 196967/371472 [4:36:57<14:26:07,  3.36it/s] 53%|█████▎    | 196968/371472 [4:36:57<14:31:26,  3.34it/s] 53%|█████▎    | 196969/371472 [4:36:58<14:47:12,  3.28it/s] 53%|█████▎    | 196970/371472 [4:36:58<14:11:44,  3.41it/s] 53%|█████▎    | 196971/371472 [4:36:58<13:46:09,  3.52it/s] 53%|█████▎    | 196972/371472 [4:36:58<13:26:06,  3.61it/s] 53%|█████▎    | 196973/371472 [4:36:59<13:55:50,  3.48it/s] 53%|█████▎    | 196974/371472 [4:36:59<13:39:15,  3.55it/s] 53%|█████▎    | 196975/371472 [4:36:59<13:29:28,  3.59it/s] 53%|█████▎    | 196976/371472 [4:36:59<13:01:28,  3.72it/s] 53%|█████▎    | 196977/371472 [4:37:00<13:04:07,  3.71it/s] 53%|█████▎    | 196978/371472 [4:37:00<13:17:04,  3.65it/s] 53%|█████▎    | 196979/371472 [4:37:00<14:02:12,  3.45it/s] 53%|█████▎    | 196980/371472 [4:37:01<13:46:50,  3.52it/s]                                                            {'loss': 2.9695, 'learning_rate': 5.229858432631601e-07, 'epoch': 8.48}
 53%|█████▎    | 196980/371472 [4:37:01<13:46:50,  3.52it/s] 53%|█████▎    | 196981/371472 [4:37:01<13:28:06,  3.60it/s] 53%|█████▎    | 196982/371472 [4:37:01<14:01:15,  3.46it/s] 53%|█████▎    | 196983/371472 [4:37:01<13:47:56,  3.51it/s] 53%|█████▎    | 196984/371472 [4:37:02<13:46:14,  3.52it/s] 53%|█████▎    | 196985/371472 [4:37:02<13:53:05,  3.49it/s] 53%|█████▎    | 196986/371472 [4:37:02<14:44:15,  3.29it/s] 53%|█████▎    | 196987/371472 [4:37:03<15:03:40,  3.22it/s] 53%|█████▎    | 196988/371472 [4:37:03<14:51:18,  3.26it/s] 53%|█████▎    | 196989/371472 [4:37:03<14:03:02,  3.45it/s] 53%|█████▎    | 196990/371472 [4:37:04<14:17:24,  3.39it/s] 53%|█████▎    | 196991/371472 [4:37:04<14:11:35,  3.41it/s] 53%|█████▎    | 196992/371472 [4:37:04<14:10:43,  3.42it/s] 53%|█████▎    | 196993/371472 [4:37:04<13:53:11,  3.49it/s] 53%|█████▎    | 196994/371472 [4:37:05<14:10:10,  3.42it/s] 53%|█████▎    | 196995/371472 [4:37:05<13:34:09,  3.57it/s] 53%|█████▎    | 196996/371472 [4:37:05<14:08:58,  3.43it/s] 53%|█████▎    | 196997/371472 [4:37:06<14:03:02,  3.45it/s] 53%|█████▎    | 196998/371472 [4:37:06<14:15:45,  3.40it/s] 53%|█████▎    | 196999/371472 [4:37:06<14:08:49,  3.43it/s] 53%|█████▎    | 197000/371472 [4:37:06<14:26:04,  3.36it/s]                                                            {'loss': 2.8795, 'learning_rate': 5.229373612876812e-07, 'epoch': 8.49}
 53%|█████▎    | 197000/371472 [4:37:06<14:26:04,  3.36it/s] 53%|█████▎    | 197001/371472 [4:37:07<14:00:07,  3.46it/s] 53%|█████▎    | 197002/371472 [4:37:07<14:01:45,  3.45it/s] 53%|█████▎    | 197003/371472 [4:37:07<13:50:03,  3.50it/s] 53%|█████▎    | 197004/371472 [4:37:08<13:42:04,  3.54it/s] 53%|█████▎    | 197005/371472 [4:37:08<14:00:53,  3.46it/s] 53%|█████▎    | 197006/371472 [4:37:08<13:52:24,  3.49it/s] 53%|█████▎    | 197007/371472 [4:37:08<13:39:54,  3.55it/s] 53%|█████▎    | 197008/371472 [4:37:09<14:25:41,  3.36it/s] 53%|█████▎    | 197009/371472 [4:37:09<14:02:27,  3.45it/s] 53%|█████▎    | 197010/371472 [4:37:09<14:00:00,  3.46it/s] 53%|█████▎    | 197011/371472 [4:37:10<13:54:51,  3.48it/s] 53%|█████▎    | 197012/371472 [4:37:10<14:55:14,  3.25it/s] 53%|█████▎    | 197013/371472 [4:37:10<14:19:35,  3.38it/s] 53%|█████▎    | 197014/371472 [4:37:11<14:38:57,  3.31it/s] 53%|█████▎    | 197015/371472 [4:37:11<13:58:44,  3.47it/s] 53%|█████▎    | 197016/371472 [4:37:11<13:39:35,  3.55it/s] 53%|█████▎    | 197017/371472 [4:37:11<13:43:29,  3.53it/s] 53%|█████▎    | 197018/371472 [4:37:12<13:27:32,  3.60it/s] 53%|█████▎    | 197019/371472 [4:37:12<13:49:37,  3.50it/s] 53%|█████▎    | 197020/371472 [4:37:12<13:30:15,  3.59it/s]                                                            {'loss': 3.1351, 'learning_rate': 5.228888793122024e-07, 'epoch': 8.49}
 53%|█████▎    | 197020/371472 [4:37:12<13:30:15,  3.59it/s] 53%|█████▎    | 197021/371472 [4:37:12<13:19:16,  3.64it/s] 53%|█████▎    | 197022/371472 [4:37:13<13:23:00,  3.62it/s] 53%|█████▎    | 197023/371472 [4:37:13<13:52:42,  3.49it/s] 53%|█████▎    | 197024/371472 [4:37:13<13:56:17,  3.48it/s] 53%|█████▎    | 197025/371472 [4:37:14<14:04:08,  3.44it/s] 53%|█████▎    | 197026/371472 [4:37:14<14:44:48,  3.29it/s] 53%|█████▎    | 197027/371472 [4:37:14<14:16:19,  3.40it/s] 53%|█████▎    | 197028/371472 [4:37:15<14:52:10,  3.26it/s] 53%|█████▎    | 197029/371472 [4:37:15<13:59:41,  3.46it/s] 53%|█████▎    | 197030/371472 [4:37:15<13:38:10,  3.55it/s] 53%|█████▎    | 197031/371472 [4:37:15<13:14:22,  3.66it/s] 53%|█████▎    | 197032/371472 [4:37:16<13:18:48,  3.64it/s] 53%|█████▎    | 197033/371472 [4:37:16<13:41:12,  3.54it/s] 53%|█████▎    | 197034/371472 [4:37:16<13:54:13,  3.49it/s] 53%|█████▎    | 197035/371472 [4:37:17<14:22:02,  3.37it/s] 53%|█████▎    | 197036/371472 [4:37:17<14:24:21,  3.36it/s] 53%|█████▎    | 197037/371472 [4:37:17<15:01:52,  3.22it/s] 53%|█████▎    | 197038/371472 [4:37:18<15:44:07,  3.08it/s] 53%|█████▎    | 197039/371472 [4:37:18<16:26:36,  2.95it/s] 53%|█████▎    | 197040/371472 [4:37:18<15:14:42,  3.18it/s]                                                            {'loss': 2.899, 'learning_rate': 5.228403973367234e-07, 'epoch': 8.49}
 53%|█████▎    | 197040/371472 [4:37:18<15:14:42,  3.18it/s] 53%|█████▎    | 197041/371472 [4:37:18<14:44:36,  3.29it/s] 53%|█████▎    | 197042/371472 [4:37:19<14:13:21,  3.41it/s] 53%|█████▎    | 197043/371472 [4:37:19<14:06:47,  3.43it/s] 53%|█████▎    | 197044/371472 [4:37:19<14:24:54,  3.36it/s] 53%|█████▎    | 197045/371472 [4:37:20<14:22:39,  3.37it/s] 53%|█████▎    | 197046/371472 [4:37:20<13:48:18,  3.51it/s] 53%|█████▎    | 197047/371472 [4:37:20<13:36:42,  3.56it/s] 53%|█████▎    | 197048/371472 [4:37:20<13:19:28,  3.64it/s] 53%|█████▎    | 197049/371472 [4:37:21<14:24:30,  3.36it/s] 53%|█████▎    | 197050/371472 [4:37:21<13:54:10,  3.48it/s] 53%|█████▎    | 197051/371472 [4:37:21<13:20:35,  3.63it/s] 53%|█████▎    | 197052/371472 [4:37:22<13:51:10,  3.50it/s] 53%|█████▎    | 197053/371472 [4:37:22<13:52:36,  3.49it/s] 53%|█████▎    | 197054/371472 [4:37:22<13:53:45,  3.49it/s] 53%|█████▎    | 197055/371472 [4:37:22<13:39:46,  3.55it/s] 53%|█████▎    | 197056/371472 [4:37:23<13:36:52,  3.56it/s] 53%|█████▎    | 197057/371472 [4:37:23<13:51:11,  3.50it/s] 53%|█████▎    | 197058/371472 [4:37:23<13:23:29,  3.62it/s] 53%|█████▎    | 197059/371472 [4:37:23<13:00:27,  3.72it/s] 53%|█████▎    | 197060/371472 [4:37:24<14:45:52,  3.28it/s]                                                            {'loss': 2.8987, 'learning_rate': 5.227919153612447e-07, 'epoch': 8.49}
 53%|█████▎    | 197060/371472 [4:37:24<14:45:52,  3.28it/s] 53%|█████▎    | 197061/371472 [4:37:24<14:27:02,  3.35it/s] 53%|█████▎    | 197062/371472 [4:37:24<13:53:40,  3.49it/s] 53%|█████▎    | 197063/371472 [4:37:25<14:24:03,  3.36it/s] 53%|█████▎    | 197064/371472 [4:37:25<13:42:01,  3.54it/s] 53%|█████▎    | 197065/371472 [4:37:25<13:29:46,  3.59it/s] 53%|█████▎    | 197066/371472 [4:37:26<13:41:58,  3.54it/s] 53%|█████▎    | 197067/371472 [4:37:26<13:34:28,  3.57it/s] 53%|█████▎    | 197068/371472 [4:37:26<13:27:35,  3.60it/s] 53%|█████▎    | 197069/371472 [4:37:26<13:43:50,  3.53it/s] 53%|█████▎    | 197070/371472 [4:37:27<14:17:02,  3.39it/s] 53%|█████▎    | 197071/371472 [4:37:27<14:17:39,  3.39it/s] 53%|█████▎    | 197072/371472 [4:37:27<13:59:02,  3.46it/s] 53%|█████▎    | 197073/371472 [4:37:28<13:57:27,  3.47it/s] 53%|█████▎    | 197074/371472 [4:37:28<14:51:51,  3.26it/s] 53%|█████▎    | 197075/371472 [4:37:28<14:51:39,  3.26it/s] 53%|█████▎    | 197076/371472 [4:37:28<14:14:04,  3.40it/s] 53%|█████▎    | 197077/371472 [4:37:29<14:07:20,  3.43it/s] 53%|█████▎    | 197078/371472 [4:37:29<13:29:35,  3.59it/s] 53%|█████▎    | 197079/371472 [4:37:29<13:05:49,  3.70it/s] 53%|█████▎    | 197080/371472 [4:37:30<13:15:42,  3.65it/s]                                                            {'loss': 3.1998, 'learning_rate': 5.227434333857657e-07, 'epoch': 8.49}
 53%|█████▎    | 197080/371472 [4:37:30<13:15:42,  3.65it/s] 53%|█████▎    | 197081/371472 [4:37:30<13:45:29,  3.52it/s] 53%|█████▎    | 197082/371472 [4:37:30<13:50:45,  3.50it/s] 53%|█████▎    | 197083/371472 [4:37:30<13:51:40,  3.49it/s] 53%|█████▎    | 197084/371472 [4:37:31<15:06:00,  3.21it/s] 53%|█████▎    | 197085/371472 [4:37:31<14:45:10,  3.28it/s] 53%|█████▎    | 197086/371472 [4:37:31<14:24:58,  3.36it/s] 53%|█████▎    | 197087/371472 [4:37:32<14:11:38,  3.41it/s] 53%|█████▎    | 197088/371472 [4:37:32<13:41:59,  3.54it/s] 53%|█████▎    | 197089/371472 [4:37:32<13:51:58,  3.49it/s] 53%|█████▎    | 197090/371472 [4:37:33<14:04:40,  3.44it/s] 53%|█████▎    | 197091/371472 [4:37:33<13:36:50,  3.56it/s] 53%|█████▎    | 197092/371472 [4:37:33<14:00:56,  3.46it/s] 53%|█████▎    | 197093/371472 [4:37:33<14:19:00,  3.38it/s] 53%|█████▎    | 197094/371472 [4:37:34<13:56:17,  3.48it/s] 53%|█████▎    | 197095/371472 [4:37:34<13:26:19,  3.60it/s] 53%|█████▎    | 197096/371472 [4:37:34<13:38:43,  3.55it/s] 53%|█████▎    | 197097/371472 [4:37:35<13:59:46,  3.46it/s] 53%|█████▎    | 197098/371472 [4:37:35<14:05:46,  3.44it/s] 53%|█████▎    | 197099/371472 [4:37:35<14:09:02,  3.42it/s] 53%|█████▎    | 197100/371472 [4:37:35<13:45:50,  3.52it/s]                                                            {'loss': 2.9986, 'learning_rate': 5.226949514102868e-07, 'epoch': 8.49}
 53%|█████▎    | 197100/371472 [4:37:35<13:45:50,  3.52it/s] 53%|█████▎    | 197101/371472 [4:37:36<14:25:35,  3.36it/s] 53%|█████▎    | 197102/371472 [4:37:36<14:02:09,  3.45it/s] 53%|█████▎    | 197103/371472 [4:37:36<13:30:40,  3.58it/s] 53%|█████▎    | 197104/371472 [4:37:37<14:32:37,  3.33it/s] 53%|█████▎    | 197105/371472 [4:37:37<15:09:32,  3.20it/s] 53%|█████▎    | 197106/371472 [4:37:37<14:17:44,  3.39it/s] 53%|█████▎    | 197107/371472 [4:37:38<14:57:59,  3.24it/s] 53%|█████▎    | 197108/371472 [4:37:38<14:26:43,  3.35it/s] 53%|█████▎    | 197109/371472 [4:37:38<14:13:49,  3.40it/s] 53%|█████▎    | 197110/371472 [4:37:38<14:08:24,  3.43it/s] 53%|█████▎    | 197111/371472 [4:37:39<14:05:58,  3.44it/s] 53%|█████▎    | 197112/371472 [4:37:39<14:23:29,  3.37it/s] 53%|█████▎    | 197113/371472 [4:37:39<14:00:13,  3.46it/s] 53%|█████▎    | 197114/371472 [4:37:39<13:40:53,  3.54it/s] 53%|█████▎    | 197115/371472 [4:37:40<13:15:19,  3.65it/s] 53%|█████▎    | 197116/371472 [4:37:40<13:08:36,  3.68it/s] 53%|█████▎    | 197117/371472 [4:37:40<13:04:54,  3.70it/s] 53%|█████▎    | 197118/371472 [4:37:41<13:14:46,  3.66it/s] 53%|█████▎    | 197119/371472 [4:37:41<13:15:41,  3.65it/s] 53%|█████▎    | 197120/371472 [4:37:41<13:10:29,  3.68it/s]                                                            {'loss': 2.9524, 'learning_rate': 5.226464694348078e-07, 'epoch': 8.49}
 53%|█████▎    | 197120/371472 [4:37:41<13:10:29,  3.68it/s] 53%|█████▎    | 197121/371472 [4:37:41<12:47:11,  3.79it/s] 53%|█████▎    | 197122/371472 [4:37:42<12:54:30,  3.75it/s] 53%|█████▎    | 197123/371472 [4:37:42<13:35:28,  3.56it/s] 53%|█████▎    | 197124/371472 [4:37:42<13:08:23,  3.69it/s] 53%|█████▎    | 197125/371472 [4:37:43<13:55:33,  3.48it/s] 53%|█████▎    | 197126/371472 [4:37:43<13:32:23,  3.58it/s] 53%|█████▎    | 197127/371472 [4:37:43<13:07:57,  3.69it/s] 53%|█████▎    | 197128/371472 [4:37:43<12:38:29,  3.83it/s] 53%|█████▎    | 197129/371472 [4:37:44<12:42:50,  3.81it/s] 53%|█████▎    | 197130/371472 [4:37:44<12:33:10,  3.86it/s] 53%|█████▎    | 197131/371472 [4:37:44<12:26:59,  3.89it/s] 53%|█████▎    | 197132/371472 [4:37:44<13:00:09,  3.72it/s] 53%|█████▎    | 197133/371472 [4:37:45<13:01:56,  3.72it/s] 53%|█████▎    | 197134/371472 [4:37:45<13:09:19,  3.68it/s] 53%|█████▎    | 197135/371472 [4:37:45<13:06:08,  3.70it/s] 53%|█████▎    | 197136/371472 [4:37:46<14:32:03,  3.33it/s] 53%|█████▎    | 197137/371472 [4:37:46<13:49:19,  3.50it/s] 53%|█████▎    | 197138/371472 [4:37:46<15:29:52,  3.12it/s] 53%|█████▎    | 197139/371472 [4:37:46<15:03:34,  3.22it/s] 53%|█████▎    | 197140/371472 [4:37:47<14:21:29,  3.37it/s]                                                            {'loss': 2.9879, 'learning_rate': 5.22597987459329e-07, 'epoch': 8.49}
 53%|█████▎    | 197140/371472 [4:37:47<14:21:29,  3.37it/s] 53%|█████▎    | 197141/371472 [4:37:47<14:15:24,  3.40it/s] 53%|█████▎    | 197142/371472 [4:37:47<14:51:21,  3.26it/s] 53%|█████▎    | 197143/371472 [4:37:48<14:15:20,  3.40it/s] 53%|█████▎    | 197144/371472 [4:37:48<13:40:59,  3.54it/s] 53%|█████▎    | 197145/371472 [4:37:48<14:06:13,  3.43it/s] 53%|█████▎    | 197146/371472 [4:37:48<14:14:44,  3.40it/s] 53%|█████▎    | 197147/371472 [4:37:49<14:12:10,  3.41it/s] 53%|█████▎    | 197148/371472 [4:37:49<13:31:46,  3.58it/s] 53%|█████▎    | 197149/371472 [4:37:49<13:57:58,  3.47it/s] 53%|█████▎    | 197150/371472 [4:37:50<13:34:38,  3.57it/s] 53%|█████▎    | 197151/371472 [4:37:50<14:24:05,  3.36it/s] 53%|█████▎    | 197152/371472 [4:37:50<14:33:55,  3.32it/s] 53%|█████▎    | 197153/371472 [4:37:50<13:56:53,  3.47it/s] 53%|█████▎    | 197154/371472 [4:37:51<13:29:26,  3.59it/s] 53%|█████▎    | 197155/371472 [4:37:51<14:18:02,  3.39it/s] 53%|█████▎    | 197156/371472 [4:37:51<13:29:37,  3.59it/s] 53%|█████▎    | 197157/371472 [4:37:52<14:26:10,  3.35it/s] 53%|█████▎    | 197158/371472 [4:37:52<13:45:34,  3.52it/s] 53%|█████▎    | 197159/371472 [4:37:52<13:36:03,  3.56it/s] 53%|█████▎    | 197160/371472 [4:37:52<13:23:30,  3.62it/s]                                                            {'loss': 3.1517, 'learning_rate': 5.225495054838501e-07, 'epoch': 8.49}
 53%|█████▎    | 197160/371472 [4:37:52<13:23:30,  3.62it/s] 53%|█████▎    | 197161/371472 [4:37:53<13:19:06,  3.64it/s] 53%|█████▎    | 197162/371472 [4:37:53<13:35:06,  3.56it/s] 53%|█████▎    | 197163/371472 [4:37:53<13:13:45,  3.66it/s] 53%|█████▎    | 197164/371472 [4:37:54<12:50:29,  3.77it/s] 53%|█████▎    | 197165/371472 [4:37:54<13:14:14,  3.66it/s] 53%|█████▎    | 197166/371472 [4:37:54<12:57:04,  3.74it/s] 53%|█████▎    | 197167/371472 [4:37:54<13:32:49,  3.57it/s] 53%|█████▎    | 197168/371472 [4:37:55<13:21:56,  3.62it/s] 53%|█████▎    | 197169/371472 [4:37:55<13:38:58,  3.55it/s] 53%|█████▎    | 197170/371472 [4:37:55<13:48:03,  3.51it/s] 53%|█████▎    | 197171/371472 [4:37:55<13:23:11,  3.62it/s] 53%|█████▎    | 197172/371472 [4:37:56<13:17:39,  3.64it/s] 53%|█████▎    | 197173/371472 [4:37:56<13:42:32,  3.53it/s] 53%|█████▎    | 197174/371472 [4:37:56<13:20:48,  3.63it/s] 53%|█████▎    | 197175/371472 [4:37:57<13:28:36,  3.59it/s] 53%|█████▎    | 197176/371472 [4:37:57<14:28:53,  3.34it/s] 53%|█████▎    | 197177/371472 [4:37:57<13:56:02,  3.47it/s] 53%|█████▎    | 197178/371472 [4:37:58<14:32:02,  3.33it/s] 53%|█████▎    | 197179/371472 [4:37:58<14:38:41,  3.31it/s] 53%|█████▎    | 197180/371472 [4:37:58<14:18:40,  3.38it/s]                                                            {'loss': 3.028, 'learning_rate': 5.225010235083713e-07, 'epoch': 8.49}
 53%|█████▎    | 197180/371472 [4:37:58<14:18:40,  3.38it/s] 53%|█████▎    | 197181/371472 [4:37:58<13:51:04,  3.50it/s] 53%|█████▎    | 197182/371472 [4:37:59<13:54:15,  3.48it/s] 53%|█████▎    | 197183/371472 [4:37:59<15:47:44,  3.06it/s] 53%|█████▎    | 197184/371472 [4:37:59<15:16:21,  3.17it/s] 53%|█████▎    | 197185/371472 [4:38:00<14:41:50,  3.29it/s] 53%|█████▎    | 197186/371472 [4:38:00<14:15:35,  3.40it/s] 53%|█████▎    | 197187/371472 [4:38:00<14:37:09,  3.31it/s] 53%|█████▎    | 197188/371472 [4:38:01<14:08:06,  3.42it/s] 53%|█████▎    | 197189/371472 [4:38:01<13:56:20,  3.47it/s] 53%|█████▎    | 197190/371472 [4:38:01<14:10:42,  3.41it/s] 53%|█████▎    | 197191/371472 [4:38:01<13:38:09,  3.55it/s] 53%|█████▎    | 197192/371472 [4:38:02<13:16:05,  3.65it/s] 53%|█████▎    | 197193/371472 [4:38:02<14:02:33,  3.45it/s] 53%|█████▎    | 197194/371472 [4:38:02<13:57:51,  3.47it/s] 53%|█████▎    | 197195/371472 [4:38:03<13:46:39,  3.51it/s] 53%|█████▎    | 197196/371472 [4:38:03<13:40:24,  3.54it/s] 53%|█████▎    | 197197/371472 [4:38:03<13:57:54,  3.47it/s] 53%|█████▎    | 197198/371472 [4:38:03<13:39:29,  3.54it/s] 53%|█████▎    | 197199/371472 [4:38:04<13:24:33,  3.61it/s] 53%|█████▎    | 197200/371472 [4:38:04<14:26:20,  3.35it/s]                                                            {'loss': 3.0384, 'learning_rate': 5.224525415328923e-07, 'epoch': 8.49}
 53%|█████▎    | 197200/371472 [4:38:04<14:26:20,  3.35it/s] 53%|█████▎    | 197201/371472 [4:38:04<14:16:47,  3.39it/s] 53%|█████▎    | 197202/371472 [4:38:05<13:53:25,  3.48it/s] 53%|█████▎    | 197203/371472 [4:38:05<15:03:05,  3.22it/s] 53%|█████▎    | 197204/371472 [4:38:05<14:35:12,  3.32it/s] 53%|█████▎    | 197205/371472 [4:38:05<14:53:26,  3.25it/s] 53%|█████▎    | 197206/371472 [4:38:06<15:03:03,  3.22it/s] 53%|█████▎    | 197207/371472 [4:38:06<14:28:08,  3.35it/s] 53%|█████▎    | 197208/371472 [4:38:06<13:54:35,  3.48it/s] 53%|█████▎    | 197209/371472 [4:38:07<13:40:05,  3.54it/s] 53%|█████▎    | 197210/371472 [4:38:07<14:06:14,  3.43it/s] 53%|█████▎    | 197211/371472 [4:38:07<13:50:09,  3.50it/s] 53%|█████▎    | 197212/371472 [4:38:08<14:18:17,  3.38it/s] 53%|█████▎    | 197213/371472 [4:38:08<13:51:27,  3.49it/s] 53%|█████▎    | 197214/371472 [4:38:08<13:52:41,  3.49it/s] 53%|█████▎    | 197215/371472 [4:38:09<16:07:25,  3.00it/s] 53%|█████▎    | 197216/371472 [4:38:09<15:13:20,  3.18it/s] 53%|█████▎    | 197217/371472 [4:38:09<14:24:14,  3.36it/s] 53%|█████▎    | 197218/371472 [4:38:09<13:59:27,  3.46it/s] 53%|█████▎    | 197219/371472 [4:38:10<13:45:17,  3.52it/s] 53%|█████▎    | 197220/371472 [4:38:10<13:24:24,  3.61it/s]                                                            {'loss': 3.1259, 'learning_rate': 5.224040595574134e-07, 'epoch': 8.49}
 53%|█████▎    | 197220/371472 [4:38:10<13:24:24,  3.61it/s] 53%|█████▎    | 197221/371472 [4:38:10<14:39:11,  3.30it/s] 53%|█████▎    | 197222/371472 [4:38:10<13:54:41,  3.48it/s] 53%|█████▎    | 197223/371472 [4:38:11<13:32:22,  3.57it/s] 53%|█████▎    | 197224/371472 [4:38:11<13:54:53,  3.48it/s] 53%|█████▎    | 197225/371472 [4:38:11<13:30:37,  3.58it/s] 53%|█████▎    | 197226/371472 [4:38:12<13:04:25,  3.70it/s] 53%|█████▎    | 197227/371472 [4:38:12<13:47:20,  3.51it/s] 53%|█████▎    | 197228/371472 [4:38:12<14:00:30,  3.46it/s] 53%|█████▎    | 197229/371472 [4:38:12<13:36:20,  3.56it/s] 53%|█████▎    | 197230/371472 [4:38:13<14:18:26,  3.38it/s] 53%|█████▎    | 197231/371472 [4:38:13<14:09:27,  3.42it/s] 53%|█████▎    | 197232/371472 [4:38:13<13:56:25,  3.47it/s] 53%|█████▎    | 197233/371472 [4:38:14<14:11:45,  3.41it/s] 53%|█████▎    | 197234/371472 [4:38:14<13:36:31,  3.56it/s] 53%|█████▎    | 197235/371472 [4:38:14<13:48:42,  3.50it/s] 53%|█████▎    | 197236/371472 [4:38:14<13:50:00,  3.50it/s] 53%|█████▎    | 197237/371472 [4:38:15<13:34:23,  3.57it/s] 53%|█████▎    | 197238/371472 [4:38:15<13:42:53,  3.53it/s] 53%|█████▎    | 197239/371472 [4:38:15<15:22:06,  3.15it/s] 53%|█████▎    | 197240/371472 [4:38:16<15:06:15,  3.20it/s]                                                            {'loss': 2.9096, 'learning_rate': 5.223555775819345e-07, 'epoch': 8.5}
 53%|█████▎    | 197240/371472 [4:38:16<15:06:15,  3.20it/s] 53%|█████▎    | 197241/371472 [4:38:16<15:13:05,  3.18it/s] 53%|█████▎    | 197242/371472 [4:38:16<14:14:20,  3.40it/s] 53%|█████▎    | 197243/371472 [4:38:17<13:40:34,  3.54it/s] 53%|█████▎    | 197244/371472 [4:38:17<14:02:01,  3.45it/s] 53%|█████▎    | 197245/371472 [4:38:17<13:36:02,  3.56it/s] 53%|█████▎    | 197246/371472 [4:38:17<13:18:27,  3.64it/s] 53%|█████▎    | 197247/371472 [4:38:18<13:17:55,  3.64it/s] 53%|█████▎    | 197248/371472 [4:38:18<13:30:33,  3.58it/s] 53%|█████▎    | 197249/371472 [4:38:18<13:19:26,  3.63it/s] 53%|█████▎    | 197250/371472 [4:38:18<13:54:37,  3.48it/s] 53%|█████▎    | 197251/371472 [4:38:19<13:32:27,  3.57it/s] 53%|█████▎    | 197252/371472 [4:38:19<13:50:18,  3.50it/s] 53%|█████▎    | 197253/371472 [4:38:19<13:15:41,  3.65it/s] 53%|█████▎    | 197254/371472 [4:38:20<13:42:54,  3.53it/s] 53%|█████▎    | 197255/371472 [4:38:20<13:23:46,  3.61it/s] 53%|█████▎    | 197256/371472 [4:38:20<13:01:26,  3.72it/s] 53%|█████▎    | 197257/371472 [4:38:20<14:12:39,  3.41it/s] 53%|█████▎    | 197258/371472 [4:38:21<14:09:52,  3.42it/s] 53%|█████▎    | 197259/371472 [4:38:21<13:47:18,  3.51it/s] 53%|█████▎    | 197260/371472 [4:38:21<13:06:47,  3.69it/s]                                                            {'loss': 3.1446, 'learning_rate': 5.223070956064557e-07, 'epoch': 8.5}
 53%|█████▎    | 197260/371472 [4:38:21<13:06:47,  3.69it/s] 53%|█████▎    | 197261/371472 [4:38:22<13:13:24,  3.66it/s] 53%|█████▎    | 197262/371472 [4:38:22<13:16:44,  3.64it/s] 53%|█████▎    | 197263/371472 [4:38:22<13:40:52,  3.54it/s] 53%|█████▎    | 197264/371472 [4:38:22<13:35:03,  3.56it/s] 53%|█████▎    | 197265/371472 [4:38:23<14:37:52,  3.31it/s] 53%|█████▎    | 197266/371472 [4:38:23<13:57:19,  3.47it/s] 53%|█████▎    | 197267/371472 [4:38:23<13:50:39,  3.50it/s] 53%|█████▎    | 197268/371472 [4:38:24<13:40:11,  3.54it/s] 53%|█████▎    | 197269/371472 [4:38:24<13:59:27,  3.46it/s] 53%|█████▎    | 197270/371472 [4:38:24<13:58:03,  3.46it/s] 53%|█████▎    | 197271/371472 [4:38:25<15:14:28,  3.17it/s] 53%|█████▎    | 197272/371472 [4:38:25<15:22:44,  3.15it/s] 53%|█████▎    | 197273/371472 [4:38:25<16:06:00,  3.01it/s] 53%|█████▎    | 197274/371472 [4:38:26<15:59:57,  3.02it/s] 53%|█████▎    | 197275/371472 [4:38:26<15:55:24,  3.04it/s] 53%|█████▎    | 197276/371472 [4:38:26<14:43:12,  3.29it/s] 53%|█████▎    | 197277/371472 [4:38:26<14:08:31,  3.42it/s] 53%|█████▎    | 197278/371472 [4:38:27<13:37:40,  3.55it/s] 53%|█████▎    | 197279/371472 [4:38:27<13:34:10,  3.57it/s] 53%|█████▎    | 197280/371472 [4:38:27<14:21:15,  3.37it/s]                                                            {'loss': 2.8957, 'learning_rate': 5.222586136309767e-07, 'epoch': 8.5}
 53%|█████▎    | 197280/371472 [4:38:27<14:21:15,  3.37it/s] 53%|█████▎    | 197281/371472 [4:38:28<13:55:42,  3.47it/s] 53%|█████▎    | 197282/371472 [4:38:28<13:39:23,  3.54it/s] 53%|█████▎    | 197283/371472 [4:38:28<13:41:59,  3.53it/s] 53%|█████▎    | 197284/371472 [4:38:28<13:48:02,  3.51it/s] 53%|█████▎    | 197285/371472 [4:38:29<14:25:16,  3.36it/s] 53%|█████▎    | 197286/371472 [4:38:29<13:55:45,  3.47it/s] 53%|█████▎    | 197287/371472 [4:38:29<13:44:38,  3.52it/s] 53%|█████▎    | 197288/371472 [4:38:30<13:58:10,  3.46it/s] 53%|█████▎    | 197289/371472 [4:38:30<13:38:33,  3.55it/s] 53%|█████▎    | 197290/371472 [4:38:30<13:26:36,  3.60it/s] 53%|█████▎    | 197291/371472 [4:38:30<14:07:00,  3.43it/s] 53%|█████▎    | 197292/371472 [4:38:31<13:45:47,  3.52it/s] 53%|█████▎    | 197293/371472 [4:38:31<13:58:22,  3.46it/s] 53%|█████▎    | 197294/371472 [4:38:31<13:34:08,  3.57it/s] 53%|█████▎    | 197295/371472 [4:38:31<13:22:10,  3.62it/s] 53%|█████▎    | 197296/371472 [4:38:32<13:59:29,  3.46it/s] 53%|█████▎    | 197297/371472 [4:38:32<13:27:33,  3.59it/s] 53%|█████▎    | 197298/371472 [4:38:32<13:13:28,  3.66it/s] 53%|█████▎    | 197299/371472 [4:38:33<13:15:06,  3.65it/s] 53%|█████▎    | 197300/371472 [4:38:33<13:15:22,  3.65it/s]                                                            {'loss': 3.0055, 'learning_rate': 5.222101316554979e-07, 'epoch': 8.5}
 53%|█████▎    | 197300/371472 [4:38:33<13:15:22,  3.65it/s] 53%|█████▎    | 197301/371472 [4:38:33<13:47:24,  3.51it/s] 53%|█████▎    | 197302/371472 [4:38:33<13:36:46,  3.55it/s] 53%|█████▎    | 197303/371472 [4:38:34<13:26:47,  3.60it/s] 53%|█████▎    | 197304/371472 [4:38:34<13:24:16,  3.61it/s] 53%|█████▎    | 197305/371472 [4:38:34<14:13:46,  3.40it/s] 53%|█████▎    | 197306/371472 [4:38:35<13:37:58,  3.55it/s] 53%|█████▎    | 197307/371472 [4:38:35<13:20:32,  3.63it/s] 53%|█████▎    | 197308/371472 [4:38:35<13:14:58,  3.65it/s] 53%|█████▎    | 197309/371472 [4:38:35<13:19:34,  3.63it/s] 53%|█████▎    | 197310/371472 [4:38:36<13:52:51,  3.49it/s] 53%|█████▎    | 197311/371472 [4:38:36<14:10:31,  3.41it/s] 53%|█████▎    | 197312/371472 [4:38:36<13:40:37,  3.54it/s] 53%|█████▎    | 197313/371472 [4:38:37<13:35:09,  3.56it/s] 53%|█████▎    | 197314/371472 [4:38:37<13:29:32,  3.59it/s] 53%|█████▎    | 197315/371472 [4:38:37<13:28:33,  3.59it/s] 53%|█████▎    | 197316/371472 [4:38:37<13:39:29,  3.54it/s] 53%|█████▎    | 197317/371472 [4:38:38<13:28:17,  3.59it/s] 53%|█████▎    | 197318/371472 [4:38:38<13:37:36,  3.55it/s] 53%|█████▎    | 197319/371472 [4:38:38<14:28:21,  3.34it/s] 53%|█████▎    | 197320/371472 [4:38:39<15:18:36,  3.16it/s]                                                            {'loss': 2.9169, 'learning_rate': 5.22161649680019e-07, 'epoch': 8.5}
 53%|█████▎    | 197320/371472 [4:38:39<15:18:36,  3.16it/s] 53%|█████▎    | 197321/371472 [4:38:39<14:59:03,  3.23it/s] 53%|█████▎    | 197322/371472 [4:38:39<15:38:08,  3.09it/s] 53%|█████▎    | 197323/371472 [4:38:40<15:16:30,  3.17it/s] 53%|█████▎    | 197324/371472 [4:38:40<14:25:01,  3.36it/s] 53%|█████▎    | 197325/371472 [4:38:40<14:44:29,  3.28it/s] 53%|█████▎    | 197326/371472 [4:38:40<14:55:22,  3.24it/s] 53%|█████▎    | 197327/371472 [4:38:41<14:15:56,  3.39it/s] 53%|█████▎    | 197328/371472 [4:38:41<14:34:37,  3.32it/s] 53%|█████▎    | 197329/371472 [4:38:41<14:32:51,  3.33it/s] 53%|█████▎    | 197330/371472 [4:38:42<13:59:53,  3.46it/s] 53%|█████▎    | 197331/371472 [4:38:42<14:00:10,  3.45it/s] 53%|█████▎    | 197332/371472 [4:38:42<14:10:57,  3.41it/s] 53%|█████▎    | 197333/371472 [4:38:42<13:37:12,  3.55it/s] 53%|█████▎    | 197334/371472 [4:38:43<14:20:34,  3.37it/s] 53%|█████▎    | 197335/371472 [4:38:43<14:53:23,  3.25it/s] 53%|█████▎    | 197336/371472 [4:38:43<14:16:18,  3.39it/s] 53%|█████▎    | 197337/371472 [4:38:44<13:48:30,  3.50it/s] 53%|█████▎    | 197338/371472 [4:38:44<13:33:29,  3.57it/s] 53%|█████▎    | 197339/371472 [4:38:44<13:24:42,  3.61it/s] 53%|█████▎    | 197340/371472 [4:38:44<13:05:39,  3.69it/s]                                                            {'loss': 2.9044, 'learning_rate': 5.2211316770454e-07, 'epoch': 8.5}
 53%|█████▎    | 197340/371472 [4:38:44<13:05:39,  3.69it/s] 53%|█████▎    | 197341/371472 [4:38:45<13:00:40,  3.72it/s] 53%|█████▎    | 197342/371472 [4:38:45<15:03:18,  3.21it/s] 53%|█████▎    | 197343/371472 [4:38:45<15:21:23,  3.15it/s] 53%|█████▎    | 197344/371472 [4:38:46<15:21:48,  3.15it/s] 53%|█████▎    | 197345/371472 [4:38:46<14:51:34,  3.26it/s] 53%|█████▎    | 197346/371472 [4:38:46<15:23:02,  3.14it/s] 53%|█████▎    | 197347/371472 [4:38:47<14:59:18,  3.23it/s] 53%|█████▎    | 197348/371472 [4:38:47<14:19:53,  3.37it/s] 53%|█████▎    | 197349/371472 [4:38:47<13:55:03,  3.48it/s] 53%|█████▎    | 197350/371472 [4:38:47<13:12:41,  3.66it/s] 53%|█████▎    | 197351/371472 [4:38:48<13:09:04,  3.68it/s] 53%|█████▎    | 197352/371472 [4:38:48<13:26:20,  3.60it/s] 53%|█████▎    | 197353/371472 [4:38:48<14:26:40,  3.35it/s] 53%|█████▎    | 197354/371472 [4:38:49<13:48:05,  3.50it/s] 53%|█████▎    | 197355/371472 [4:38:49<13:19:23,  3.63it/s] 53%|█████▎    | 197356/371472 [4:38:49<14:14:54,  3.39it/s] 53%|█████▎    | 197357/371472 [4:38:50<14:19:00,  3.38it/s] 53%|█████▎    | 197358/371472 [4:38:50<13:43:57,  3.52it/s] 53%|█████▎    | 197359/371472 [4:38:50<14:09:22,  3.42it/s] 53%|█████▎    | 197360/371472 [4:38:50<14:09:00,  3.42it/s]                                                            {'loss': 2.9645, 'learning_rate': 5.220646857290611e-07, 'epoch': 8.5}
 53%|█████▎    | 197360/371472 [4:38:50<14:09:00,  3.42it/s] 53%|█████▎    | 197361/371472 [4:38:51<14:33:00,  3.32it/s] 53%|█████▎    | 197362/371472 [4:38:51<14:34:23,  3.32it/s] 53%|█████▎    | 197363/371472 [4:38:51<13:44:14,  3.52it/s] 53%|█████▎    | 197364/371472 [4:38:52<13:47:38,  3.51it/s] 53%|█████▎    | 197365/371472 [4:38:52<13:47:42,  3.51it/s] 53%|█████▎    | 197366/371472 [4:38:52<13:46:24,  3.51it/s] 53%|█████▎    | 197367/371472 [4:38:52<14:26:46,  3.35it/s] 53%|█████▎    | 197368/371472 [4:38:53<13:58:13,  3.46it/s] 53%|█████▎    | 197369/371472 [4:38:53<14:30:41,  3.33it/s] 53%|█████▎    | 197370/371472 [4:38:53<14:18:59,  3.38it/s] 53%|█████▎    | 197371/371472 [4:38:54<14:39:39,  3.30it/s] 53%|█████▎    | 197372/371472 [4:38:54<13:59:58,  3.45it/s] 53%|█████▎    | 197373/371472 [4:38:54<13:46:17,  3.51it/s] 53%|█████▎    | 197374/371472 [4:38:54<13:31:36,  3.58it/s] 53%|█████▎    | 197375/371472 [4:38:55<13:58:55,  3.46it/s] 53%|█████▎    | 197376/371472 [4:38:55<14:47:18,  3.27it/s] 53%|█████▎    | 197377/371472 [4:38:55<14:37:24,  3.31it/s] 53%|█████▎    | 197378/371472 [4:38:56<16:04:03,  3.01it/s] 53%|█████▎    | 197379/371472 [4:38:56<15:08:34,  3.19it/s] 53%|█████▎    | 197380/371472 [4:38:56<14:16:37,  3.39it/s]                                                            {'loss': 2.9039, 'learning_rate': 5.220162037535823e-07, 'epoch': 8.5}
 53%|█████▎    | 197380/371472 [4:38:56<14:16:37,  3.39it/s] 53%|█████▎    | 197381/371472 [4:38:57<13:44:03,  3.52it/s] 53%|█████▎    | 197382/371472 [4:38:57<13:26:42,  3.60it/s] 53%|█████▎    | 197383/371472 [4:38:57<13:20:22,  3.63it/s] 53%|█████▎    | 197384/371472 [4:38:57<13:14:16,  3.65it/s] 53%|█████▎    | 197385/371472 [4:38:58<13:17:49,  3.64it/s] 53%|█████▎    | 197386/371472 [4:38:58<13:08:33,  3.68it/s] 53%|█████▎    | 197387/371472 [4:38:58<13:59:01,  3.46it/s] 53%|█████▎    | 197388/371472 [4:38:59<14:00:22,  3.45it/s] 53%|█████▎    | 197389/371472 [4:38:59<14:03:31,  3.44it/s] 53%|█████▎    | 197390/371472 [4:38:59<13:38:14,  3.55it/s] 53%|█████▎    | 197391/371472 [4:38:59<13:23:26,  3.61it/s] 53%|█████▎    | 197392/371472 [4:39:00<13:01:27,  3.71it/s] 53%|█████▎    | 197393/371472 [4:39:00<13:05:43,  3.69it/s] 53%|█████▎    | 197394/371472 [4:39:00<13:06:18,  3.69it/s] 53%|█████▎    | 197395/371472 [4:39:00<13:11:29,  3.67it/s] 53%|█████▎    | 197396/371472 [4:39:01<13:30:30,  3.58it/s] 53%|█████▎    | 197397/371472 [4:39:01<13:24:29,  3.61it/s] 53%|█████▎    | 197398/371472 [4:39:01<13:21:36,  3.62it/s] 53%|█████▎    | 197399/371472 [4:39:02<14:52:38,  3.25it/s] 53%|█████▎    | 197400/371472 [4:39:02<15:14:23,  3.17it/s]                                                            {'loss': 3.2318, 'learning_rate': 5.219677217781034e-07, 'epoch': 8.5}
 53%|█████▎    | 197400/371472 [4:39:02<15:14:23,  3.17it/s] 53%|█████▎    | 197401/371472 [4:39:02<16:06:06,  3.00it/s] 53%|█████▎    | 197402/371472 [4:39:03<14:46:21,  3.27it/s] 53%|█████▎    | 197403/371472 [4:39:03<14:41:00,  3.29it/s] 53%|█████▎    | 197404/371472 [4:39:03<14:10:14,  3.41it/s] 53%|█████▎    | 197405/371472 [4:39:03<14:06:01,  3.43it/s] 53%|█████▎    | 197406/371472 [4:39:04<13:44:55,  3.52it/s] 53%|█████▎    | 197407/371472 [4:39:04<14:20:00,  3.37it/s] 53%|█████▎    | 197408/371472 [4:39:04<14:18:18,  3.38it/s] 53%|█████▎    | 197409/371472 [4:39:05<13:45:26,  3.51it/s] 53%|█████▎    | 197410/371472 [4:39:05<13:42:12,  3.53it/s] 53%|█████▎    | 197411/371472 [4:39:05<13:31:42,  3.57it/s] 53%|█████▎    | 197412/371472 [4:39:05<14:03:48,  3.44it/s] 53%|█████▎    | 197413/371472 [4:39:06<13:51:42,  3.49it/s] 53%|█████▎    | 197414/371472 [4:39:06<13:35:53,  3.56it/s] 53%|█████▎    | 197415/371472 [4:39:06<13:39:38,  3.54it/s] 53%|█████▎    | 197416/371472 [4:39:07<13:15:17,  3.65it/s] 53%|█████▎    | 197417/371472 [4:39:07<13:34:40,  3.56it/s] 53%|█████▎    | 197418/371472 [4:39:07<13:11:56,  3.66it/s] 53%|█████▎    | 197419/371472 [4:39:07<13:14:43,  3.65it/s] 53%|█████▎    | 197420/371472 [4:39:08<13:27:49,  3.59it/s]                                                            {'loss': 3.0418, 'learning_rate': 5.219192398026244e-07, 'epoch': 8.5}
 53%|█████▎    | 197420/371472 [4:39:08<13:27:49,  3.59it/s] 53%|█████▎    | 197421/371472 [4:39:08<13:20:46,  3.62it/s] 53%|█████▎    | 197422/371472 [4:39:08<13:22:44,  3.61it/s] 53%|█████▎    | 197423/371472 [4:39:09<13:13:31,  3.66it/s] 53%|█████▎    | 197424/371472 [4:39:09<13:07:10,  3.69it/s] 53%|█████▎    | 197425/371472 [4:39:09<12:54:04,  3.75it/s] 53%|█████▎    | 197426/371472 [4:39:09<13:26:58,  3.59it/s] 53%|█████▎    | 197427/371472 [4:39:10<13:02:10,  3.71it/s] 53%|█████▎    | 197428/371472 [4:39:10<13:34:58,  3.56it/s] 53%|█████▎    | 197429/371472 [4:39:10<13:10:33,  3.67it/s] 53%|█████▎    | 197430/371472 [4:39:10<13:10:55,  3.67it/s] 53%|█████▎    | 197431/371472 [4:39:11<13:35:46,  3.56it/s] 53%|█████▎    | 197432/371472 [4:39:11<13:39:54,  3.54it/s] 53%|█████▎    | 197433/371472 [4:39:11<13:45:46,  3.51it/s] 53%|█████▎    | 197434/371472 [4:39:12<14:53:13,  3.25it/s] 53%|█████▎    | 197435/371472 [4:39:12<14:37:04,  3.31it/s] 53%|█████▎    | 197436/371472 [4:39:12<14:42:03,  3.29it/s] 53%|█████▎    | 197437/371472 [4:39:12<13:46:36,  3.51it/s] 53%|█████▎    | 197438/371472 [4:39:13<13:16:01,  3.64it/s] 53%|█████▎    | 197439/371472 [4:39:13<13:05:25,  3.69it/s] 53%|█████▎    | 197440/371472 [4:39:13<12:48:42,  3.77it/s]                                                            {'loss': 3.0183, 'learning_rate': 5.218707578271456e-07, 'epoch': 8.5}
 53%|█████▎    | 197440/371472 [4:39:13<12:48:42,  3.77it/s] 53%|█████▎    | 197441/371472 [4:39:14<12:51:08,  3.76it/s] 53%|█████▎    | 197442/371472 [4:39:14<12:57:20,  3.73it/s] 53%|█████▎    | 197443/371472 [4:39:14<12:57:00,  3.73it/s] 53%|█████▎    | 197444/371472 [4:39:14<14:03:01,  3.44it/s] 53%|█████▎    | 197445/371472 [4:39:15<13:25:18,  3.60it/s] 53%|█████▎    | 197446/371472 [4:39:15<13:12:23,  3.66it/s] 53%|█████▎    | 197447/371472 [4:39:15<13:10:40,  3.67it/s] 53%|█████▎    | 197448/371472 [4:39:15<13:24:30,  3.61it/s] 53%|█████▎    | 197449/371472 [4:39:16<13:48:12,  3.50it/s] 53%|█████▎    | 197450/371472 [4:39:16<13:40:48,  3.53it/s] 53%|█████▎    | 197451/371472 [4:39:16<13:23:55,  3.61it/s] 53%|█████▎    | 197452/371472 [4:39:17<13:16:08,  3.64it/s] 53%|█████▎    | 197453/371472 [4:39:17<13:39:03,  3.54it/s] 53%|█████▎    | 197454/371472 [4:39:17<13:37:55,  3.55it/s] 53%|█████▎    | 197455/371472 [4:39:17<13:31:46,  3.57it/s] 53%|█████▎    | 197456/371472 [4:39:18<13:56:41,  3.47it/s] 53%|█████▎    | 197457/371472 [4:39:18<13:34:19,  3.56it/s] 53%|█████▎    | 197458/371472 [4:39:18<14:26:39,  3.35it/s] 53%|█████▎    | 197459/371472 [4:39:19<14:04:49,  3.43it/s] 53%|█████▎    | 197460/371472 [4:39:19<14:24:03,  3.36it/s]                                                            {'loss': 2.9672, 'learning_rate': 5.218222758516667e-07, 'epoch': 8.5}
 53%|█████▎    | 197460/371472 [4:39:19<14:24:03,  3.36it/s] 53%|█████▎    | 197461/371472 [4:39:19<14:11:00,  3.41it/s] 53%|█████▎    | 197462/371472 [4:39:19<13:47:03,  3.51it/s] 53%|█████▎    | 197463/371472 [4:39:20<13:41:03,  3.53it/s] 53%|█████▎    | 197464/371472 [4:39:20<13:53:25,  3.48it/s] 53%|█████▎    | 197465/371472 [4:39:20<13:33:17,  3.57it/s] 53%|█████▎    | 197466/371472 [4:39:21<14:39:43,  3.30it/s] 53%|█████▎    | 197467/371472 [4:39:21<14:36:20,  3.31it/s] 53%|█████▎    | 197468/371472 [4:39:21<14:14:43,  3.39it/s] 53%|█████▎    | 197469/371472 [4:39:22<14:54:22,  3.24it/s] 53%|█████▎    | 197470/371472 [4:39:22<15:15:40,  3.17it/s] 53%|█████▎    | 197471/371472 [4:39:22<14:48:23,  3.26it/s] 53%|█████▎    | 197472/371472 [4:39:22<14:04:20,  3.43it/s] 53%|█████▎    | 197473/371472 [4:39:23<13:45:05,  3.51it/s] 53%|█████▎    | 197474/371472 [4:39:23<13:59:36,  3.45it/s] 53%|█████▎    | 197475/371472 [4:39:23<13:43:48,  3.52it/s] 53%|█████▎    | 197476/371472 [4:39:24<13:31:25,  3.57it/s] 53%|█████▎    | 197477/371472 [4:39:24<13:07:07,  3.68it/s] 53%|█████▎    | 197478/371472 [4:39:24<12:57:32,  3.73it/s] 53%|█████▎    | 197479/371472 [4:39:24<12:58:57,  3.72it/s] 53%|█████▎    | 197480/371472 [4:39:25<14:01:10,  3.45it/s]                                                            {'loss': 2.9915, 'learning_rate': 5.217737938761878e-07, 'epoch': 8.51}
 53%|█████▎    | 197480/371472 [4:39:25<14:01:10,  3.45it/s] 53%|█████▎    | 197481/371472 [4:39:25<13:33:08,  3.57it/s] 53%|█████▎    | 197482/371472 [4:39:25<14:20:51,  3.37it/s] 53%|█████▎    | 197483/371472 [4:39:26<14:23:18,  3.36it/s] 53%|█████▎    | 197484/371472 [4:39:26<14:35:36,  3.31it/s] 53%|█████▎    | 197485/371472 [4:39:26<13:53:31,  3.48it/s] 53%|█████▎    | 197486/371472 [4:39:26<13:28:13,  3.59it/s] 53%|█████▎    | 197487/371472 [4:39:27<13:27:24,  3.59it/s] 53%|█████▎    | 197488/371472 [4:39:27<13:16:06,  3.64it/s] 53%|█████▎    | 197489/371472 [4:39:27<13:36:40,  3.55it/s] 53%|█████▎    | 197490/371472 [4:39:28<13:30:38,  3.58it/s] 53%|█████▎    | 197491/371472 [4:39:28<14:03:59,  3.44it/s] 53%|█████▎    | 197492/371472 [4:39:28<13:39:27,  3.54it/s] 53%|█████▎    | 197493/371472 [4:39:28<13:17:21,  3.64it/s] 53%|█████▎    | 197494/371472 [4:39:29<12:48:31,  3.77it/s] 53%|█████▎    | 197495/371472 [4:39:29<12:47:03,  3.78it/s] 53%|█████▎    | 197496/371472 [4:39:29<12:38:39,  3.82it/s] 53%|█████▎    | 197497/371472 [4:39:29<13:11:59,  3.66it/s] 53%|█████▎    | 197498/371472 [4:39:30<13:30:50,  3.58it/s] 53%|█████▎    | 197499/371472 [4:39:30<14:31:48,  3.33it/s] 53%|█████▎    | 197500/371472 [4:39:30<14:05:49,  3.43it/s]                                                            {'loss': 3.0771, 'learning_rate': 5.217253119007088e-07, 'epoch': 8.51}
 53%|█████▎    | 197500/371472 [4:39:30<14:05:49,  3.43it/s] 53%|█████▎    | 197501/371472 [4:39:31<15:21:54,  3.15it/s] 53%|█████▎    | 197502/371472 [4:39:31<14:32:20,  3.32it/s] 53%|█████▎    | 197503/371472 [4:39:31<14:20:35,  3.37it/s] 53%|█████▎    | 197504/371472 [4:39:32<13:41:30,  3.53it/s] 53%|█████▎    | 197505/371472 [4:39:32<13:57:06,  3.46it/s] 53%|█████▎    | 197506/371472 [4:39:32<13:31:19,  3.57it/s] 53%|█████▎    | 197507/371472 [4:39:32<13:27:50,  3.59it/s] 53%|█████▎    | 197508/371472 [4:39:33<13:53:36,  3.48it/s] 53%|█████▎    | 197509/371472 [4:39:33<13:33:25,  3.56it/s] 53%|█████▎    | 197510/371472 [4:39:33<12:56:03,  3.74it/s] 53%|█████▎    | 197511/371472 [4:39:33<13:26:28,  3.60it/s] 53%|█████▎    | 197512/371472 [4:39:34<12:56:13,  3.74it/s] 53%|█████▎    | 197513/371472 [4:39:34<14:34:43,  3.31it/s] 53%|█████▎    | 197514/371472 [4:39:34<14:41:26,  3.29it/s] 53%|█████▎    | 197515/371472 [4:39:35<16:21:58,  2.95it/s] 53%|█████▎    | 197516/371472 [4:39:35<15:25:22,  3.13it/s] 53%|█████▎    | 197517/371472 [4:39:35<14:42:33,  3.29it/s] 53%|█████▎    | 197518/371472 [4:39:36<14:08:02,  3.42it/s] 53%|█████▎    | 197519/371472 [4:39:36<14:00:46,  3.45it/s] 53%|█████▎    | 197520/371472 [4:39:36<14:05:38,  3.43it/s]                                                            {'loss': 3.0609, 'learning_rate': 5.2167682992523e-07, 'epoch': 8.51}
 53%|█████▎    | 197520/371472 [4:39:36<14:05:38,  3.43it/s] 53%|█████▎    | 197521/371472 [4:39:37<14:26:36,  3.35it/s] 53%|█████▎    | 197522/371472 [4:39:37<14:26:06,  3.35it/s] 53%|█████▎    | 197523/371472 [4:39:37<15:06:33,  3.20it/s] 53%|█████▎    | 197524/371472 [4:39:37<15:00:35,  3.22it/s] 53%|█████▎    | 197525/371472 [4:39:38<15:44:28,  3.07it/s] 53%|█████▎    | 197526/371472 [4:39:38<14:50:23,  3.26it/s] 53%|█████▎    | 197527/371472 [4:39:38<15:47:28,  3.06it/s] 53%|█████▎    | 197528/371472 [4:39:39<15:30:19,  3.12it/s] 53%|█████▎    | 197529/371472 [4:39:39<14:40:04,  3.29it/s] 53%|█████▎    | 197530/371472 [4:39:39<15:36:55,  3.09it/s] 53%|█████▎    | 197531/371472 [4:39:40<14:33:40,  3.32it/s] 53%|█████▎    | 197532/371472 [4:39:40<14:44:54,  3.28it/s] 53%|█████▎    | 197533/371472 [4:39:40<13:56:04,  3.47it/s] 53%|█████▎    | 197534/371472 [4:39:41<13:26:34,  3.59it/s] 53%|█████▎    | 197535/371472 [4:39:41<13:25:46,  3.60it/s] 53%|█████▎    | 197536/371472 [4:39:41<13:39:56,  3.54it/s] 53%|█████▎    | 197537/371472 [4:39:41<13:18:06,  3.63it/s] 53%|█████▎    | 197538/371472 [4:39:42<13:33:47,  3.56it/s] 53%|█████▎    | 197539/371472 [4:39:42<13:00:45,  3.71it/s] 53%|█████▎    | 197540/371472 [4:39:42<12:36:23,  3.83it/s]                                                            {'loss': 2.9491, 'learning_rate': 5.216283479497511e-07, 'epoch': 8.51}
 53%|█████▎    | 197540/371472 [4:39:42<12:36:23,  3.83it/s] 53%|█████▎    | 197541/371472 [4:39:42<12:25:14,  3.89it/s] 53%|█████▎    | 197542/371472 [4:39:43<12:42:49,  3.80it/s] 53%|█████▎    | 197543/371472 [4:39:43<12:46:28,  3.78it/s] 53%|█████▎    | 197544/371472 [4:39:43<12:54:08,  3.74it/s] 53%|█████▎    | 197545/371472 [4:39:43<12:46:55,  3.78it/s] 53%|█████▎    | 197546/371472 [4:39:44<12:50:33,  3.76it/s] 53%|█████▎    | 197547/371472 [4:39:44<12:50:14,  3.76it/s] 53%|█████▎    | 197548/371472 [4:39:44<12:38:05,  3.82it/s] 53%|█████▎    | 197549/371472 [4:39:45<13:00:41,  3.71it/s] 53%|█████▎    | 197550/371472 [4:39:45<12:51:28,  3.76it/s] 53%|█████▎    | 197551/371472 [4:39:45<12:56:14,  3.73it/s] 53%|█████▎    | 197552/371472 [4:39:45<14:14:12,  3.39it/s] 53%|█████▎    | 197553/371472 [4:39:46<14:03:44,  3.44it/s] 53%|█████▎    | 197554/371472 [4:39:46<13:33:23,  3.56it/s] 53%|█████▎    | 197555/371472 [4:39:46<13:40:08,  3.53it/s] 53%|█████▎    | 197556/371472 [4:39:46<13:13:09,  3.65it/s] 53%|█████▎    | 197557/371472 [4:39:47<13:20:48,  3.62it/s] 53%|█████▎    | 197558/371472 [4:39:47<13:34:59,  3.56it/s] 53%|█████▎    | 197559/371472 [4:39:47<13:26:04,  3.60it/s] 53%|█████▎    | 197560/371472 [4:39:48<13:14:52,  3.65it/s]                                                            {'loss': 2.9783, 'learning_rate': 5.215798659742723e-07, 'epoch': 8.51}
 53%|█████▎    | 197560/371472 [4:39:48<13:14:52,  3.65it/s] 53%|█████▎    | 197561/371472 [4:39:48<14:44:46,  3.28it/s] 53%|█████▎    | 197562/371472 [4:39:48<14:27:57,  3.34it/s] 53%|█████▎    | 197563/371472 [4:39:48<13:40:36,  3.53it/s] 53%|█████▎    | 197564/371472 [4:39:49<13:21:44,  3.62it/s] 53%|█████▎    | 197565/371472 [4:39:49<13:33:53,  3.56it/s] 53%|█████▎    | 197566/371472 [4:39:49<13:25:53,  3.60it/s] 53%|█████▎    | 197567/371472 [4:39:50<13:58:59,  3.45it/s] 53%|█████▎    | 197568/371472 [4:39:50<13:27:29,  3.59it/s] 53%|█████▎    | 197569/371472 [4:39:50<13:13:53,  3.65it/s] 53%|█████▎    | 197570/371472 [4:39:50<13:04:01,  3.70it/s] 53%|█████▎    | 197571/371472 [4:39:51<12:51:37,  3.76it/s] 53%|█████▎    | 197572/371472 [4:39:51<14:06:21,  3.42it/s] 53%|█████▎    | 197573/371472 [4:39:51<13:37:21,  3.55it/s] 53%|█████▎    | 197574/371472 [4:39:52<13:37:00,  3.55it/s] 53%|█████▎    | 197575/371472 [4:39:52<13:16:48,  3.64it/s] 53%|█████▎    | 197576/371472 [4:39:52<13:17:46,  3.63it/s] 53%|█████▎    | 197577/371472 [4:39:52<13:25:43,  3.60it/s] 53%|█████▎    | 197578/371472 [4:39:53<13:42:34,  3.52it/s] 53%|█████▎    | 197579/371472 [4:39:53<13:22:08,  3.61it/s] 53%|█████▎    | 197580/371472 [4:39:53<14:28:43,  3.34it/s]                                                            {'loss': 2.9055, 'learning_rate': 5.215313839987933e-07, 'epoch': 8.51}
 53%|█████▎    | 197580/371472 [4:39:53<14:28:43,  3.34it/s] 53%|█████▎    | 197581/371472 [4:39:54<14:08:32,  3.42it/s] 53%|█████▎    | 197582/371472 [4:39:54<13:55:16,  3.47it/s] 53%|█████▎    | 197583/371472 [4:39:54<14:04:33,  3.43it/s] 53%|█████▎    | 197584/371472 [4:39:54<13:37:40,  3.54it/s] 53%|█████▎    | 197585/371472 [4:39:55<13:22:45,  3.61it/s] 53%|█████▎    | 197586/371472 [4:39:55<13:31:26,  3.57it/s] 53%|█████▎    | 197587/371472 [4:39:55<13:16:15,  3.64it/s] 53%|█████▎    | 197588/371472 [4:39:55<13:01:47,  3.71it/s] 53%|█████▎    | 197589/371472 [4:39:56<12:32:17,  3.85it/s] 53%|█████▎    | 197590/371472 [4:39:56<12:51:29,  3.76it/s] 53%|█████▎    | 197591/371472 [4:39:56<13:47:57,  3.50it/s] 53%|█████▎    | 197592/371472 [4:39:57<13:54:08,  3.47it/s] 53%|█████▎    | 197593/371472 [4:39:57<13:43:33,  3.52it/s] 53%|█████▎    | 197594/371472 [4:39:57<13:05:19,  3.69it/s] 53%|█████▎    | 197595/371472 [4:39:57<13:28:20,  3.59it/s] 53%|█████▎    | 197596/371472 [4:39:58<13:01:16,  3.71it/s] 53%|█████▎    | 197597/371472 [4:39:58<12:50:54,  3.76it/s] 53%|█████▎    | 197598/371472 [4:39:58<12:30:19,  3.86it/s] 53%|█████▎    | 197599/371472 [4:39:59<13:39:05,  3.54it/s] 53%|█████▎    | 197600/371472 [4:39:59<13:46:23,  3.51it/s]                                                            {'loss': 2.9361, 'learning_rate': 5.214829020233144e-07, 'epoch': 8.51}
 53%|█████▎    | 197600/371472 [4:39:59<13:46:23,  3.51it/s] 53%|█████▎    | 197601/371472 [4:39:59<13:34:16,  3.56it/s] 53%|█████▎    | 197602/371472 [4:39:59<13:06:46,  3.68it/s] 53%|█████▎    | 197603/371472 [4:40:00<13:26:27,  3.59it/s] 53%|█████▎    | 197604/371472 [4:40:00<13:01:50,  3.71it/s] 53%|█████▎    | 197605/371472 [4:40:00<13:21:50,  3.61it/s] 53%|█████▎    | 197606/371472 [4:40:00<13:28:31,  3.58it/s] 53%|█████▎    | 197607/371472 [4:40:01<12:56:26,  3.73it/s] 53%|█████▎    | 197608/371472 [4:40:01<13:13:28,  3.65it/s] 53%|█████▎    | 197609/371472 [4:40:01<12:52:39,  3.75it/s] 53%|█████▎    | 197610/371472 [4:40:02<14:46:23,  3.27it/s] 53%|█████▎    | 197611/371472 [4:40:02<14:00:31,  3.45it/s] 53%|█████▎    | 197612/371472 [4:40:02<14:30:27,  3.33it/s] 53%|█████▎    | 197613/371472 [4:40:03<14:58:34,  3.22it/s] 53%|█████▎    | 197614/371472 [4:40:03<14:52:18,  3.25it/s] 53%|█████▎    | 197615/371472 [4:40:03<14:27:50,  3.34it/s] 53%|█████▎    | 197616/371472 [4:40:03<14:02:06,  3.44it/s] 53%|█████▎    | 197617/371472 [4:40:04<14:01:34,  3.44it/s] 53%|█████▎    | 197618/371472 [4:40:04<13:50:44,  3.49it/s] 53%|█████▎    | 197619/371472 [4:40:04<13:46:21,  3.51it/s] 53%|█████▎    | 197620/371472 [4:40:04<13:19:10,  3.63it/s]                                                            {'loss': 3.0136, 'learning_rate': 5.214344200478355e-07, 'epoch': 8.51}
 53%|█████▎    | 197620/371472 [4:40:04<13:19:10,  3.63it/s] 53%|█████▎    | 197621/371472 [4:40:05<14:34:20,  3.31it/s] 53%|█████▎    | 197622/371472 [4:40:05<13:51:25,  3.48it/s] 53%|█████▎    | 197623/371472 [4:40:05<13:46:30,  3.51it/s] 53%|█████▎    | 197624/371472 [4:40:06<13:11:17,  3.66it/s] 53%|█████▎    | 197625/371472 [4:40:06<12:50:01,  3.76it/s] 53%|█████▎    | 197626/371472 [4:40:06<12:47:29,  3.78it/s] 53%|█████▎    | 197627/371472 [4:40:06<12:50:28,  3.76it/s] 53%|█████▎    | 197628/371472 [4:40:07<13:50:06,  3.49it/s] 53%|█████▎    | 197629/371472 [4:40:07<14:22:53,  3.36it/s] 53%|█████▎    | 197630/371472 [4:40:07<14:04:23,  3.43it/s] 53%|█████▎    | 197631/371472 [4:40:08<14:56:35,  3.23it/s] 53%|█████▎    | 197632/371472 [4:40:08<14:09:52,  3.41it/s] 53%|█████▎    | 197633/371472 [4:40:08<13:42:49,  3.52it/s] 53%|█████▎    | 197634/371472 [4:40:08<13:28:15,  3.58it/s] 53%|█████▎    | 197635/371472 [4:40:09<13:44:14,  3.52it/s] 53%|█████▎    | 197636/371472 [4:40:09<13:15:02,  3.64it/s] 53%|█████▎    | 197637/371472 [4:40:09<14:08:52,  3.41it/s] 53%|█████▎    | 197638/371472 [4:40:10<14:21:20,  3.36it/s] 53%|█████▎    | 197639/371472 [4:40:10<13:41:01,  3.53it/s] 53%|█████▎    | 197640/371472 [4:40:10<13:29:29,  3.58it/s]                                                            {'loss': 3.104, 'learning_rate': 5.213859380723566e-07, 'epoch': 8.51}
 53%|█████▎    | 197640/371472 [4:40:10<13:29:29,  3.58it/s] 53%|█████▎    | 197641/371472 [4:40:10<13:15:17,  3.64it/s] 53%|█████▎    | 197642/371472 [4:40:11<13:51:00,  3.49it/s] 53%|█████▎    | 197643/371472 [4:40:11<14:11:44,  3.40it/s] 53%|█████▎    | 197644/371472 [4:40:11<14:19:01,  3.37it/s] 53%|█████▎    | 197645/371472 [4:40:12<13:46:58,  3.50it/s] 53%|█████▎    | 197646/371472 [4:40:12<13:38:59,  3.54it/s] 53%|█████▎    | 197647/371472 [4:40:12<14:16:51,  3.38it/s] 53%|█████▎    | 197648/371472 [4:40:13<14:14:13,  3.39it/s] 53%|█████▎    | 197649/371472 [4:40:13<14:04:09,  3.43it/s] 53%|█████▎    | 197650/371472 [4:40:13<14:25:01,  3.35it/s] 53%|█████▎    | 197651/371472 [4:40:13<14:31:49,  3.32it/s] 53%|█████▎    | 197652/371472 [4:40:14<13:55:31,  3.47it/s] 53%|█████▎    | 197653/371472 [4:40:14<13:28:48,  3.58it/s] 53%|█████▎    | 197654/371472 [4:40:14<14:16:15,  3.38it/s] 53%|█████▎    | 197655/371472 [4:40:15<14:09:23,  3.41it/s] 53%|█████▎    | 197656/371472 [4:40:15<14:44:04,  3.28it/s] 53%|█████▎    | 197657/371472 [4:40:15<14:25:03,  3.35it/s] 53%|█████▎    | 197658/371472 [4:40:15<14:08:52,  3.41it/s] 53%|█████▎    | 197659/371472 [4:40:16<13:51:31,  3.48it/s] 53%|█████▎    | 197660/371472 [4:40:16<13:38:56,  3.54it/s]                                                            {'loss': 3.0291, 'learning_rate': 5.213374560968777e-07, 'epoch': 8.51}
 53%|█████▎    | 197660/371472 [4:40:16<13:38:56,  3.54it/s] 53%|█████▎    | 197661/371472 [4:40:16<13:34:59,  3.55it/s] 53%|█████▎    | 197662/371472 [4:40:17<13:40:57,  3.53it/s] 53%|█████▎    | 197663/371472 [4:40:17<14:12:47,  3.40it/s] 53%|█████▎    | 197664/371472 [4:40:17<13:52:36,  3.48it/s] 53%|█████▎    | 197665/371472 [4:40:18<14:27:48,  3.34it/s] 53%|█████▎    | 197666/371472 [4:40:18<13:55:47,  3.47it/s] 53%|█████▎    | 197667/371472 [4:40:18<14:06:34,  3.42it/s] 53%|█████▎    | 197668/371472 [4:40:18<13:43:52,  3.52it/s] 53%|█████▎    | 197669/371472 [4:40:19<13:10:53,  3.66it/s] 53%|█████▎    | 197670/371472 [4:40:19<13:25:26,  3.60it/s] 53%|█████▎    | 197671/371472 [4:40:19<13:40:59,  3.53it/s] 53%|█████▎    | 197672/371472 [4:40:19<13:21:32,  3.61it/s] 53%|█████▎    | 197673/371472 [4:40:20<13:10:31,  3.66it/s] 53%|█████▎    | 197674/371472 [4:40:20<13:39:13,  3.54it/s] 53%|█████▎    | 197675/371472 [4:40:20<13:19:42,  3.62it/s] 53%|█████▎    | 197676/371472 [4:40:21<15:03:43,  3.21it/s] 53%|█████▎    | 197677/371472 [4:40:21<14:15:21,  3.39it/s] 53%|█████▎    | 197678/371472 [4:40:21<13:37:27,  3.54it/s] 53%|█████▎    | 197679/371472 [4:40:21<13:43:05,  3.52it/s] 53%|█████▎    | 197680/371472 [4:40:22<14:21:45,  3.36it/s]                                                            {'loss': 2.9456, 'learning_rate': 5.212889741213989e-07, 'epoch': 8.51}
 53%|█████▎    | 197680/371472 [4:40:22<14:21:45,  3.36it/s] 53%|█████▎    | 197681/371472 [4:40:22<13:57:57,  3.46it/s] 53%|█████▎    | 197682/371472 [4:40:22<14:12:56,  3.40it/s] 53%|█████▎    | 197683/371472 [4:40:23<14:43:47,  3.28it/s] 53%|█████▎    | 197684/371472 [4:40:23<14:36:54,  3.30it/s] 53%|█████▎    | 197685/371472 [4:40:23<15:25:05,  3.13it/s] 53%|█████▎    | 197686/371472 [4:40:24<14:48:24,  3.26it/s] 53%|█████▎    | 197687/371472 [4:40:24<14:14:39,  3.39it/s] 53%|█████▎    | 197688/371472 [4:40:24<14:21:04,  3.36it/s] 53%|█████▎    | 197689/371472 [4:40:25<14:40:23,  3.29it/s] 53%|█████▎    | 197690/371472 [4:40:25<15:30:20,  3.11it/s] 53%|█████▎    | 197691/371472 [4:40:25<15:59:40,  3.02it/s] 53%|█████▎    | 197692/371472 [4:40:26<15:49:15,  3.05it/s] 53%|█████▎    | 197693/371472 [4:40:26<16:07:25,  2.99it/s] 53%|█████▎    | 197694/371472 [4:40:26<15:29:09,  3.12it/s] 53%|█████▎    | 197695/371472 [4:40:26<14:54:10,  3.24it/s] 53%|█████▎    | 197696/371472 [4:40:27<14:44:23,  3.27it/s] 53%|█████▎    | 197697/371472 [4:40:27<14:37:18,  3.30it/s] 53%|█████▎    | 197698/371472 [4:40:27<14:35:06,  3.31it/s] 53%|█████▎    | 197699/371472 [4:40:28<14:52:18,  3.25it/s] 53%|█████▎    | 197700/371472 [4:40:28<14:44:20,  3.28it/s]                                                            {'loss': 3.0728, 'learning_rate': 5.2124049214592e-07, 'epoch': 8.52}
 53%|█████▎    | 197700/371472 [4:40:28<14:44:20,  3.28it/s] 53%|█████▎    | 197701/371472 [4:40:28<14:36:00,  3.31it/s] 53%|█████▎    | 197702/371472 [4:40:29<13:58:40,  3.45it/s] 53%|█████▎    | 197703/371472 [4:40:29<13:58:11,  3.46it/s] 53%|█████▎    | 197704/371472 [4:40:29<13:35:21,  3.55it/s] 53%|█████▎    | 197705/371472 [4:40:29<13:06:09,  3.68it/s] 53%|█████▎    | 197706/371472 [4:40:30<13:35:43,  3.55it/s] 53%|█████▎    | 197707/371472 [4:40:30<13:15:18,  3.64it/s] 53%|█████▎    | 197708/371472 [4:40:30<12:58:06,  3.72it/s] 53%|█████▎    | 197709/371472 [4:40:30<12:43:24,  3.79it/s] 53%|█████▎    | 197710/371472 [4:40:31<13:26:07,  3.59it/s] 53%|█████▎    | 197711/371472 [4:40:31<13:16:54,  3.63it/s] 53%|█████▎    | 197712/371472 [4:40:31<12:57:08,  3.73it/s] 53%|█████▎    | 197713/371472 [4:40:32<13:49:02,  3.49it/s] 53%|█████▎    | 197714/371472 [4:40:32<13:32:25,  3.56it/s] 53%|█████▎    | 197715/371472 [4:40:32<13:24:57,  3.60it/s] 53%|█████▎    | 197716/371472 [4:40:32<13:09:45,  3.67it/s] 53%|█████▎    | 197717/371472 [4:40:33<13:41:57,  3.52it/s] 53%|█████▎    | 197718/371472 [4:40:33<14:28:08,  3.34it/s] 53%|█████▎    | 197719/371472 [4:40:33<14:19:50,  3.37it/s] 53%|█████▎    | 197720/371472 [4:40:34<13:54:26,  3.47it/s]                                                            {'loss': 2.9476, 'learning_rate': 5.21192010170441e-07, 'epoch': 8.52}
 53%|█████▎    | 197720/371472 [4:40:34<13:54:26,  3.47it/s] 53%|█████▎    | 197721/371472 [4:40:34<13:52:55,  3.48it/s] 53%|█████▎    | 197722/371472 [4:40:34<13:39:46,  3.53it/s] 53%|█████▎    | 197723/371472 [4:40:34<13:59:06,  3.45it/s] 53%|█████▎    | 197724/371472 [4:40:35<13:14:31,  3.64it/s] 53%|█████▎    | 197725/371472 [4:40:35<13:20:46,  3.62it/s] 53%|█████▎    | 197726/371472 [4:40:35<13:20:52,  3.62it/s] 53%|█████▎    | 197727/371472 [4:40:36<14:34:57,  3.31it/s] 53%|█████▎    | 197728/371472 [4:40:36<14:05:29,  3.42it/s] 53%|█████▎    | 197729/371472 [4:40:36<17:39:47,  2.73it/s] 53%|█████▎    | 197730/371472 [4:40:37<16:20:20,  2.95it/s] 53%|█████▎    | 197731/371472 [4:40:37<15:25:21,  3.13it/s] 53%|█████▎    | 197732/371472 [4:40:37<14:41:11,  3.29it/s] 53%|█████▎    | 197733/371472 [4:40:38<14:42:08,  3.28it/s] 53%|█████▎    | 197734/371472 [4:40:38<14:31:00,  3.32it/s] 53%|█████▎    | 197735/371472 [4:40:38<13:59:13,  3.45it/s] 53%|█████▎    | 197736/371472 [4:40:38<13:42:07,  3.52it/s] 53%|█████▎    | 197737/371472 [4:40:39<13:39:01,  3.54it/s] 53%|█████▎    | 197738/371472 [4:40:39<13:17:44,  3.63it/s] 53%|█████▎    | 197739/371472 [4:40:39<13:19:23,  3.62it/s] 53%|█████▎    | 197740/371472 [4:40:39<13:21:09,  3.61it/s]                                                            {'loss': 2.963, 'learning_rate': 5.211435281949621e-07, 'epoch': 8.52}
 53%|█████▎    | 197740/371472 [4:40:39<13:21:09,  3.61it/s] 53%|█████▎    | 197741/371472 [4:40:40<13:56:11,  3.46it/s] 53%|█████▎    | 197742/371472 [4:40:40<13:26:20,  3.59it/s] 53%|█████▎    | 197743/371472 [4:40:40<14:10:00,  3.41it/s] 53%|█████▎    | 197744/371472 [4:40:41<13:47:08,  3.50it/s] 53%|█████▎    | 197745/371472 [4:40:41<14:02:33,  3.44it/s] 53%|█████▎    | 197746/371472 [4:40:41<13:32:20,  3.56it/s] 53%|█████▎    | 197747/371472 [4:40:42<14:12:50,  3.40it/s] 53%|█████▎    | 197748/371472 [4:40:42<14:59:07,  3.22it/s] 53%|█████▎    | 197749/371472 [4:40:42<14:59:03,  3.22it/s] 53%|█████▎    | 197750/371472 [4:40:42<14:32:17,  3.32it/s] 53%|█████▎    | 197751/371472 [4:40:43<14:24:39,  3.35it/s] 53%|█████▎    | 197752/371472 [4:40:43<14:06:51,  3.42it/s] 53%|█████▎    | 197753/371472 [4:40:43<14:35:48,  3.31it/s] 53%|█████▎    | 197754/371472 [4:40:44<14:38:50,  3.29it/s] 53%|█████▎    | 197755/371472 [4:40:44<16:00:06,  3.02it/s] 53%|█████▎    | 197756/371472 [4:40:44<15:04:21,  3.20it/s] 53%|█████▎    | 197757/371472 [4:40:45<14:19:58,  3.37it/s] 53%|█████▎    | 197758/371472 [4:40:45<13:58:54,  3.45it/s] 53%|█████▎    | 197759/371472 [4:40:45<13:52:46,  3.48it/s] 53%|█████▎    | 197760/371472 [4:40:45<13:46:27,  3.50it/s]                                                            {'loss': 2.8959, 'learning_rate': 5.210950462194833e-07, 'epoch': 8.52}
 53%|█████▎    | 197760/371472 [4:40:45<13:46:27,  3.50it/s] 53%|█████▎    | 197761/371472 [4:40:46<13:37:32,  3.54it/s] 53%|█████▎    | 197762/371472 [4:40:46<13:48:59,  3.49it/s] 53%|█████▎    | 197763/371472 [4:40:46<14:03:37,  3.43it/s] 53%|█████▎    | 197764/371472 [4:40:47<18:29:41,  2.61it/s] 53%|█████▎    | 197765/371472 [4:40:47<16:58:48,  2.84it/s] 53%|█████▎    | 197766/371472 [4:40:47<15:31:45,  3.11it/s] 53%|█████▎    | 197767/371472 [4:40:48<14:35:10,  3.31it/s] 53%|█████▎    | 197768/371472 [4:40:48<14:16:00,  3.38it/s] 53%|█████▎    | 197769/371472 [4:40:48<13:48:04,  3.50it/s] 53%|█████▎    | 197770/371472 [4:40:48<13:34:10,  3.56it/s] 53%|█████▎    | 197771/371472 [4:40:49<14:12:50,  3.39it/s] 53%|█████▎    | 197772/371472 [4:40:49<14:02:07,  3.44it/s] 53%|█████▎    | 197773/371472 [4:40:49<14:08:21,  3.41it/s] 53%|█████▎    | 197774/371472 [4:40:50<14:18:03,  3.37it/s] 53%|█████▎    | 197775/371472 [4:40:50<13:40:05,  3.53it/s] 53%|█████▎    | 197776/371472 [4:40:50<14:01:36,  3.44it/s] 53%|█████▎    | 197777/371472 [4:40:51<13:47:43,  3.50it/s] 53%|█████▎    | 197778/371472 [4:40:51<14:12:08,  3.40it/s] 53%|█████▎    | 197779/371472 [4:40:51<13:50:52,  3.48it/s] 53%|█████▎    | 197780/371472 [4:40:51<13:58:00,  3.45it/s]                                                            {'loss': 2.8442, 'learning_rate': 5.210465642440044e-07, 'epoch': 8.52}
 53%|█████▎    | 197780/371472 [4:40:51<13:58:00,  3.45it/s] 53%|█████▎    | 197781/371472 [4:40:52<13:45:33,  3.51it/s] 53%|█████▎    | 197782/371472 [4:40:52<13:42:56,  3.52it/s] 53%|█████▎    | 197783/371472 [4:40:52<14:07:47,  3.41it/s] 53%|█████▎    | 197784/371472 [4:40:53<13:40:28,  3.53it/s] 53%|█████▎    | 197785/371472 [4:40:53<13:42:11,  3.52it/s] 53%|█████▎    | 197786/371472 [4:40:53<13:11:53,  3.66it/s] 53%|█████▎    | 197787/371472 [4:40:53<13:03:45,  3.69it/s] 53%|█████▎    | 197788/371472 [4:40:54<13:04:26,  3.69it/s] 53%|█████▎    | 197789/371472 [4:40:54<12:51:40,  3.75it/s] 53%|█████▎    | 197790/371472 [4:40:54<13:22:33,  3.61it/s] 53%|█████▎    | 197791/371472 [4:40:54<13:41:39,  3.52it/s] 53%|█████▎    | 197792/371472 [4:40:55<13:14:08,  3.64it/s] 53%|█████▎    | 197793/371472 [4:40:55<13:33:43,  3.56it/s] 53%|█████▎    | 197794/371472 [4:40:55<13:13:00,  3.65it/s] 53%|█████▎    | 197795/371472 [4:40:56<12:59:41,  3.71it/s] 53%|█████▎    | 197796/371472 [4:40:56<13:31:20,  3.57it/s] 53%|█████▎    | 197797/371472 [4:40:56<13:46:33,  3.50it/s] 53%|█████▎    | 197798/371472 [4:40:56<14:05:20,  3.42it/s] 53%|█████▎    | 197799/371472 [4:40:57<14:40:37,  3.29it/s] 53%|█████▎    | 197800/371472 [4:40:57<14:23:54,  3.35it/s]                                                            {'loss': 2.9802, 'learning_rate': 5.209980822685255e-07, 'epoch': 8.52}
 53%|█████▎    | 197800/371472 [4:40:57<14:23:54,  3.35it/s] 53%|█████▎    | 197801/371472 [4:40:57<14:42:32,  3.28it/s] 53%|█████▎    | 197802/371472 [4:40:58<13:48:31,  3.49it/s] 53%|█████▎    | 197803/371472 [4:40:58<13:39:22,  3.53it/s] 53%|█████▎    | 197804/371472 [4:40:58<13:18:47,  3.62it/s] 53%|█████▎    | 197805/371472 [4:40:58<14:05:28,  3.42it/s] 53%|█████▎    | 197806/371472 [4:40:59<13:34:13,  3.55it/s] 53%|█████▎    | 197807/371472 [4:40:59<13:56:08,  3.46it/s] 53%|█████▎    | 197808/371472 [4:40:59<13:54:23,  3.47it/s] 53%|█████▎    | 197809/371472 [4:41:00<13:38:41,  3.54it/s] 53%|█████▎    | 197810/371472 [4:41:00<13:37:47,  3.54it/s] 53%|█████▎    | 197811/371472 [4:41:00<14:07:07,  3.42it/s] 53%|█████▎    | 197812/371472 [4:41:00<13:40:56,  3.53it/s] 53%|█████▎    | 197813/371472 [4:41:01<13:21:55,  3.61it/s] 53%|█████▎    | 197814/371472 [4:41:01<13:25:41,  3.59it/s] 53%|█████▎    | 197815/371472 [4:41:01<13:03:08,  3.70it/s] 53%|█████▎    | 197816/371472 [4:41:02<12:47:06,  3.77it/s] 53%|█████▎    | 197817/371472 [4:41:02<12:52:14,  3.75it/s] 53%|█████▎    | 197818/371472 [4:41:02<14:03:28,  3.43it/s] 53%|█████▎    | 197819/371472 [4:41:02<14:17:52,  3.37it/s] 53%|█████▎    | 197820/371472 [4:41:03<14:05:48,  3.42it/s]                                                            {'loss': 3.0046, 'learning_rate': 5.209496002930466e-07, 'epoch': 8.52}
 53%|█████▎    | 197820/371472 [4:41:03<14:05:48,  3.42it/s] 53%|█████▎    | 197821/371472 [4:41:03<13:35:41,  3.55it/s] 53%|█████▎    | 197822/371472 [4:41:03<13:51:41,  3.48it/s] 53%|█████▎    | 197823/371472 [4:41:04<14:27:27,  3.34it/s] 53%|█████▎    | 197824/371472 [4:41:04<14:11:29,  3.40it/s] 53%|█████▎    | 197825/371472 [4:41:04<14:23:21,  3.35it/s] 53%|█████▎    | 197826/371472 [4:41:04<13:49:07,  3.49it/s] 53%|█████▎    | 197827/371472 [4:41:05<13:37:12,  3.54it/s] 53%|█████▎    | 197828/371472 [4:41:05<13:42:36,  3.52it/s] 53%|█████▎    | 197829/371472 [4:41:05<13:42:41,  3.52it/s] 53%|█████▎    | 197830/371472 [4:41:06<13:52:18,  3.48it/s] 53%|█████▎    | 197831/371472 [4:41:06<13:33:11,  3.56it/s] 53%|█████▎    | 197832/371472 [4:41:06<14:12:31,  3.39it/s] 53%|█████▎    | 197833/371472 [4:41:07<14:23:33,  3.35it/s] 53%|█████▎    | 197834/371472 [4:41:07<14:23:32,  3.35it/s] 53%|█████▎    | 197835/371472 [4:41:07<13:56:08,  3.46it/s] 53%|█████▎    | 197836/371472 [4:41:07<14:00:45,  3.44it/s] 53%|█████▎    | 197837/371472 [4:41:08<14:26:20,  3.34it/s] 53%|█████▎    | 197838/371472 [4:41:08<14:18:06,  3.37it/s] 53%|█████▎    | 197839/371472 [4:41:08<14:00:35,  3.44it/s] 53%|█████▎    | 197840/371472 [4:41:09<14:26:30,  3.34it/s]                                                            {'loss': 2.95, 'learning_rate': 5.209011183175677e-07, 'epoch': 8.52}
 53%|█████▎    | 197840/371472 [4:41:09<14:26:30,  3.34it/s] 53%|█████▎    | 197841/371472 [4:41:09<13:56:14,  3.46it/s] 53%|█████▎    | 197842/371472 [4:41:09<13:14:42,  3.64it/s] 53%|█████▎    | 197843/371472 [4:41:09<14:53:49,  3.24it/s] 53%|█████▎    | 197844/371472 [4:41:10<13:59:45,  3.45it/s] 53%|█████▎    | 197845/371472 [4:41:10<14:00:04,  3.44it/s] 53%|█████▎    | 197846/371472 [4:41:10<14:39:13,  3.29it/s] 53%|█████▎    | 197847/371472 [4:41:11<13:45:46,  3.50it/s] 53%|█████▎    | 197848/371472 [4:41:11<13:38:01,  3.54it/s] 53%|█████▎    | 197849/371472 [4:41:11<13:20:09,  3.62it/s] 53%|█████▎    | 197850/371472 [4:41:11<13:21:35,  3.61it/s] 53%|█████▎    | 197851/371472 [4:41:12<13:09:16,  3.67it/s] 53%|█████▎    | 197852/371472 [4:41:12<13:21:06,  3.61it/s] 53%|█████▎    | 197853/371472 [4:41:12<13:53:08,  3.47it/s] 53%|█████▎    | 197854/371472 [4:41:13<15:08:42,  3.18it/s] 53%|█████▎    | 197855/371472 [4:41:13<15:17:44,  3.15it/s] 53%|█████▎    | 197856/371472 [4:41:13<15:08:55,  3.18it/s] 53%|█████▎    | 197857/371472 [4:41:14<15:33:42,  3.10it/s] 53%|█████▎    | 197858/371472 [4:41:14<14:41:42,  3.28it/s] 53%|█████▎    | 197859/371472 [4:41:14<14:09:46,  3.41it/s] 53%|█████▎    | 197860/371472 [4:41:14<13:37:51,  3.54it/s]                                                            {'loss': 3.0064, 'learning_rate': 5.208526363420887e-07, 'epoch': 8.52}
 53%|█████▎    | 197860/371472 [4:41:14<13:37:51,  3.54it/s] 53%|█████▎    | 197861/371472 [4:41:15<13:08:02,  3.67it/s] 53%|█████▎    | 197862/371472 [4:41:15<14:06:07,  3.42it/s] 53%|█████▎    | 197863/371472 [4:41:15<13:47:39,  3.50it/s] 53%|█████▎    | 197864/371472 [4:41:16<13:20:53,  3.61it/s] 53%|█████▎    | 197865/371472 [4:41:16<13:29:42,  3.57it/s] 53%|█████▎    | 197866/371472 [4:41:16<13:21:25,  3.61it/s] 53%|█████▎    | 197867/371472 [4:41:16<13:28:56,  3.58it/s] 53%|█████▎    | 197868/371472 [4:41:17<13:35:59,  3.55it/s] 53%|█████▎    | 197869/371472 [4:41:17<15:03:27,  3.20it/s] 53%|█████▎    | 197870/371472 [4:41:17<15:27:43,  3.12it/s] 53%|█████▎    | 197871/371472 [4:41:18<14:40:20,  3.29it/s] 53%|█████▎    | 197872/371472 [4:41:18<14:12:04,  3.40it/s] 53%|█████▎    | 197873/371472 [4:41:18<14:24:10,  3.35it/s] 53%|█████▎    | 197874/371472 [4:41:19<14:20:54,  3.36it/s] 53%|█████▎    | 197875/371472 [4:41:19<14:20:00,  3.36it/s] 53%|█████▎    | 197876/371472 [4:41:19<13:44:37,  3.51it/s] 53%|█████▎    | 197877/371472 [4:41:19<14:05:17,  3.42it/s] 53%|█████▎    | 197878/371472 [4:41:20<14:12:40,  3.39it/s] 53%|█████▎    | 197879/371472 [4:41:20<13:23:06,  3.60it/s] 53%|█████▎    | 197880/371472 [4:41:20<13:38:55,  3.53it/s]                                                            {'loss': 2.8263, 'learning_rate': 5.208041543666099e-07, 'epoch': 8.52}
 53%|█████▎    | 197880/371472 [4:41:20<13:38:55,  3.53it/s] 53%|█████▎    | 197881/371472 [4:41:20<13:13:15,  3.65it/s] 53%|█████▎    | 197882/371472 [4:41:21<13:34:38,  3.55it/s] 53%|█████▎    | 197883/371472 [4:41:21<13:52:44,  3.47it/s] 53%|█████▎    | 197884/371472 [4:41:22<16:13:49,  2.97it/s] 53%|█████▎    | 197885/371472 [4:41:22<15:07:21,  3.19it/s] 53%|█████▎    | 197886/371472 [4:41:22<15:14:21,  3.16it/s] 53%|█████▎    | 197887/371472 [4:41:22<14:25:43,  3.34it/s] 53%|█████▎    | 197888/371472 [4:41:23<13:45:17,  3.51it/s] 53%|█████▎    | 197889/371472 [4:41:23<13:09:20,  3.67it/s] 53%|█████▎    | 197890/371472 [4:41:23<12:53:10,  3.74it/s] 53%|█████▎    | 197891/371472 [4:41:23<12:41:58,  3.80it/s] 53%|█████▎    | 197892/371472 [4:41:24<12:12:48,  3.95it/s] 53%|█████▎    | 197893/371472 [4:41:24<12:29:35,  3.86it/s] 53%|█████▎    | 197894/371472 [4:41:24<13:56:48,  3.46it/s] 53%|█████▎    | 197895/371472 [4:41:24<13:42:14,  3.52it/s] 53%|█████▎    | 197896/371472 [4:41:25<13:39:37,  3.53it/s] 53%|█████▎    | 197897/371472 [4:41:25<13:25:12,  3.59it/s] 53%|█████▎    | 197898/371472 [4:41:25<13:00:56,  3.70it/s] 53%|█████▎    | 197899/371472 [4:41:26<12:29:03,  3.86it/s] 53%|█████▎    | 197900/371472 [4:41:26<13:43:48,  3.51it/s]                                                            {'loss': 2.923, 'learning_rate': 5.20755672391131e-07, 'epoch': 8.52}
 53%|█████▎    | 197900/371472 [4:41:26<13:43:48,  3.51it/s] 53%|█████▎    | 197901/371472 [4:41:26<13:37:44,  3.54it/s] 53%|█████▎    | 197902/371472 [4:41:26<14:22:32,  3.35it/s] 53%|█████▎    | 197903/371472 [4:41:27<14:29:51,  3.33it/s] 53%|█████▎    | 197904/371472 [4:41:27<13:41:07,  3.52it/s] 53%|█████▎    | 197905/371472 [4:41:27<13:11:04,  3.66it/s] 53%|█████▎    | 197906/371472 [4:41:28<14:07:57,  3.41it/s] 53%|█████▎    | 197907/371472 [4:41:28<13:38:02,  3.54it/s] 53%|█████▎    | 197908/371472 [4:41:28<13:53:12,  3.47it/s] 53%|█████▎    | 197909/371472 [4:41:28<13:54:53,  3.46it/s] 53%|█████▎    | 197910/371472 [4:41:29<13:38:02,  3.54it/s] 53%|█████▎    | 197911/371472 [4:41:29<14:17:00,  3.38it/s] 53%|█████▎    | 197912/371472 [4:41:29<13:44:02,  3.51it/s] 53%|█████▎    | 197913/371472 [4:41:30<14:11:12,  3.40it/s] 53%|█████▎    | 197914/371472 [4:41:30<13:52:06,  3.48it/s] 53%|█████▎    | 197915/371472 [4:41:30<13:54:02,  3.47it/s] 53%|█████▎    | 197916/371472 [4:41:30<13:35:33,  3.55it/s] 53%|█████▎    | 197917/371472 [4:41:31<13:34:13,  3.55it/s] 53%|█████▎    | 197918/371472 [4:41:31<14:22:26,  3.35it/s] 53%|█████▎    | 197919/371472 [4:41:31<14:01:56,  3.44it/s] 53%|█████▎    | 197920/371472 [4:41:32<13:47:45,  3.49it/s]                                                            {'loss': 3.1382, 'learning_rate': 5.207071904156521e-07, 'epoch': 8.52}
 53%|█████▎    | 197920/371472 [4:41:32<13:47:45,  3.49it/s] 53%|█████▎    | 197921/371472 [4:41:32<13:55:33,  3.46it/s] 53%|█████▎    | 197922/371472 [4:41:32<13:37:39,  3.54it/s] 53%|█████▎    | 197923/371472 [4:41:32<13:17:10,  3.63it/s] 53%|█████▎    | 197924/371472 [4:41:33<12:45:39,  3.78it/s] 53%|█████▎    | 197925/371472 [4:41:33<12:48:22,  3.76it/s] 53%|█████▎    | 197926/371472 [4:41:33<12:52:40,  3.74it/s] 53%|█████▎    | 197927/371472 [4:41:34<13:40:55,  3.52it/s] 53%|█████▎    | 197928/371472 [4:41:34<13:19:05,  3.62it/s] 53%|█████▎    | 197929/371472 [4:41:34<14:13:03,  3.39it/s] 53%|█████▎    | 197930/371472 [4:41:34<14:06:48,  3.42it/s] 53%|█████▎    | 197931/371472 [4:41:35<14:08:27,  3.41it/s] 53%|█████▎    | 197932/371472 [4:41:35<13:38:36,  3.53it/s] 53%|█████▎    | 197933/371472 [4:41:35<13:43:48,  3.51it/s] 53%|█████▎    | 197934/371472 [4:41:36<14:42:10,  3.28it/s] 53%|█████▎    | 197935/371472 [4:41:36<13:55:46,  3.46it/s] 53%|█████▎    | 197936/371472 [4:41:36<13:42:38,  3.52it/s] 53%|█████▎    | 197937/371472 [4:41:36<13:36:56,  3.54it/s] 53%|█████▎    | 197938/371472 [4:41:37<13:41:46,  3.52it/s] 53%|█████▎    | 197939/371472 [4:41:37<13:14:42,  3.64it/s] 53%|█████▎    | 197940/371472 [4:41:37<13:01:22,  3.70it/s]                                                            {'loss': 2.9699, 'learning_rate': 5.206587084401732e-07, 'epoch': 8.53}
 53%|█████▎    | 197940/371472 [4:41:37<13:01:22,  3.70it/s] 53%|█████▎    | 197941/371472 [4:41:38<13:47:40,  3.49it/s] 53%|█████▎    | 197942/371472 [4:41:38<13:38:34,  3.53it/s] 53%|█████▎    | 197943/371472 [4:41:38<13:52:56,  3.47it/s] 53%|█████▎    | 197944/371472 [4:41:38<13:47:39,  3.49it/s] 53%|█████▎    | 197945/371472 [4:41:39<14:01:09,  3.44it/s] 53%|█████▎    | 197946/371472 [4:41:39<13:26:00,  3.59it/s] 53%|█████▎    | 197947/371472 [4:41:39<14:45:05,  3.27it/s] 53%|█████▎    | 197948/371472 [4:41:40<14:17:48,  3.37it/s] 53%|█████▎    | 197949/371472 [4:41:40<13:39:55,  3.53it/s] 53%|█████▎    | 197950/371472 [4:41:40<13:06:59,  3.67it/s] 53%|█████▎    | 197951/371472 [4:41:40<14:12:19,  3.39it/s] 53%|█████▎    | 197952/371472 [4:41:41<14:35:43,  3.30it/s] 53%|█████▎    | 197953/371472 [4:41:41<14:45:18,  3.27it/s] 53%|█████▎    | 197954/371472 [4:41:41<14:04:44,  3.42it/s] 53%|█████▎    | 197955/371472 [4:41:42<15:02:58,  3.20it/s] 53%|█████▎    | 197956/371472 [4:41:42<14:39:32,  3.29it/s] 53%|█████▎    | 197957/371472 [4:41:42<14:17:42,  3.37it/s] 53%|█████▎    | 197958/371472 [4:41:43<13:51:34,  3.48it/s] 53%|█████▎    | 197959/371472 [4:41:43<13:49:31,  3.49it/s] 53%|█████▎    | 197960/371472 [4:41:43<13:17:38,  3.63it/s]                                                            {'loss': 2.9601, 'learning_rate': 5.206102264646943e-07, 'epoch': 8.53}
 53%|█████▎    | 197960/371472 [4:41:43<13:17:38,  3.63it/s] 53%|█████▎    | 197961/371472 [4:41:43<13:36:04,  3.54it/s] 53%|█████▎    | 197962/371472 [4:41:44<13:03:20,  3.69it/s] 53%|█████▎    | 197963/371472 [4:41:44<15:03:25,  3.20it/s] 53%|█████▎    | 197964/371472 [4:41:44<14:23:53,  3.35it/s] 53%|█████▎    | 197965/371472 [4:41:45<14:02:37,  3.43it/s] 53%|█████▎    | 197966/371472 [4:41:45<13:37:04,  3.54it/s] 53%|█████▎    | 197967/371472 [4:41:45<13:42:01,  3.52it/s] 53%|█████▎    | 197968/371472 [4:41:45<13:36:08,  3.54it/s] 53%|█████▎    | 197969/371472 [4:41:46<13:51:03,  3.48it/s] 53%|█████▎    | 197970/371472 [4:41:46<13:33:00,  3.56it/s] 53%|█████▎    | 197971/371472 [4:41:46<13:07:18,  3.67it/s] 53%|█████▎    | 197972/371472 [4:41:46<12:54:16,  3.73it/s] 53%|█████▎    | 197973/371472 [4:41:47<14:37:15,  3.30it/s] 53%|█████▎    | 197974/371472 [4:41:47<14:05:39,  3.42it/s] 53%|█████▎    | 197975/371472 [4:41:47<13:50:20,  3.48it/s] 53%|█████▎    | 197976/371472 [4:41:48<13:33:39,  3.55it/s] 53%|█████▎    | 197977/371472 [4:41:48<15:04:15,  3.20it/s] 53%|█████▎    | 197978/371472 [4:41:48<14:31:56,  3.32it/s] 53%|█████▎    | 197979/371472 [4:41:49<14:02:52,  3.43it/s] 53%|█████▎    | 197980/371472 [4:41:49<13:38:23,  3.53it/s]                                                            {'loss': 2.946, 'learning_rate': 5.205617444892154e-07, 'epoch': 8.53}
 53%|█████▎    | 197980/371472 [4:41:49<13:38:23,  3.53it/s] 53%|█████▎    | 197981/371472 [4:41:49<14:28:50,  3.33it/s] 53%|█████▎    | 197982/371472 [4:41:49<13:41:06,  3.52it/s] 53%|█████▎    | 197983/371472 [4:41:50<14:42:06,  3.28it/s] 53%|█████▎    | 197984/371472 [4:41:50<13:52:59,  3.47it/s] 53%|█████▎    | 197985/371472 [4:41:50<13:43:22,  3.51it/s] 53%|█████▎    | 197986/371472 [4:41:51<13:25:41,  3.59it/s] 53%|█████▎    | 197987/371472 [4:41:51<13:12:59,  3.65it/s] 53%|█████▎    | 197988/371472 [4:41:51<13:16:22,  3.63it/s] 53%|█████▎    | 197989/371472 [4:41:51<13:22:53,  3.60it/s] 53%|█████▎    | 197990/371472 [4:41:52<13:40:26,  3.52it/s] 53%|█████▎    | 197991/371472 [4:41:52<13:23:32,  3.60it/s] 53%|█████▎    | 197992/371472 [4:41:52<13:30:12,  3.57it/s] 53%|█████▎    | 197993/371472 [4:41:53<15:14:26,  3.16it/s] 53%|█████▎    | 197994/371472 [4:41:53<14:34:00,  3.31it/s] 53%|█████▎    | 197995/371472 [4:41:53<13:53:09,  3.47it/s] 53%|█████▎    | 197996/371472 [4:41:53<13:15:05,  3.64it/s] 53%|█████▎    | 197997/371472 [4:41:54<13:26:44,  3.58it/s] 53%|█████▎    | 197998/371472 [4:41:54<13:33:58,  3.55it/s] 53%|█████▎    | 197999/371472 [4:41:54<14:01:27,  3.44it/s] 53%|█████▎    | 198000/371472 [4:41:55<13:27:37,  3.58it/s]                                                            {'loss': 2.9576, 'learning_rate': 5.205132625137365e-07, 'epoch': 8.53}
 53%|█████▎    | 198000/371472 [4:41:55<13:27:37,  3.58it/s] 53%|█████▎    | 198001/371472 [4:41:55<13:05:45,  3.68it/s] 53%|█████▎    | 198002/371472 [4:41:55<13:40:29,  3.52it/s] 53%|█████▎    | 198003/371472 [4:41:55<14:24:35,  3.34it/s] 53%|█████▎    | 198004/371472 [4:41:56<13:42:58,  3.51it/s] 53%|█████▎    | 198005/371472 [4:41:56<14:02:41,  3.43it/s] 53%|█████▎    | 198006/371472 [4:41:56<13:47:22,  3.49it/s] 53%|█████▎    | 198007/371472 [4:41:57<13:34:59,  3.55it/s] 53%|█████▎    | 198008/371472 [4:41:57<13:41:09,  3.52it/s] 53%|█████▎    | 198009/371472 [4:41:57<13:34:27,  3.55it/s] 53%|█████▎    | 198010/371472 [4:41:57<13:40:34,  3.52it/s] 53%|█████▎    | 198011/371472 [4:41:58<13:11:17,  3.65it/s] 53%|█████▎    | 198012/371472 [4:41:58<14:17:15,  3.37it/s] 53%|█████▎    | 198013/371472 [4:41:58<13:55:15,  3.46it/s] 53%|█████▎    | 198014/371472 [4:41:59<13:53:13,  3.47it/s] 53%|█████▎    | 198015/371472 [4:41:59<15:57:19,  3.02it/s] 53%|█████▎    | 198016/371472 [4:41:59<15:23:24,  3.13it/s] 53%|█████▎    | 198017/371472 [4:42:00<14:57:58,  3.22it/s] 53%|█████▎    | 198018/371472 [4:42:00<14:49:21,  3.25it/s] 53%|█████▎    | 198019/371472 [4:42:00<14:44:19,  3.27it/s] 53%|█████▎    | 198020/371472 [4:42:01<14:36:15,  3.30it/s]                                                            {'loss': 2.7678, 'learning_rate': 5.204647805382576e-07, 'epoch': 8.53}
 53%|█████▎    | 198020/371472 [4:42:01<14:36:15,  3.30it/s] 53%|█████▎    | 198021/371472 [4:42:01<14:14:47,  3.38it/s] 53%|█████▎    | 198022/371472 [4:42:01<13:38:22,  3.53it/s] 53%|█████▎    | 198023/371472 [4:42:01<13:12:09,  3.65it/s] 53%|█████▎    | 198024/371472 [4:42:02<13:31:42,  3.56it/s] 53%|█████▎    | 198025/371472 [4:42:02<13:37:05,  3.54it/s] 53%|█████▎    | 198026/371472 [4:42:02<13:19:24,  3.62it/s] 53%|█████▎    | 198027/371472 [4:42:02<13:03:58,  3.69it/s] 53%|█████▎    | 198028/371472 [4:42:03<13:01:42,  3.70it/s] 53%|█████▎    | 198029/371472 [4:42:03<13:20:38,  3.61it/s] 53%|█████▎    | 198030/371472 [4:42:03<13:09:09,  3.66it/s] 53%|█████▎    | 198031/371472 [4:42:03<12:59:23,  3.71it/s] 53%|█████▎    | 198032/371472 [4:42:04<13:06:19,  3.68it/s] 53%|█████▎    | 198033/371472 [4:42:04<12:54:24,  3.73it/s] 53%|█████▎    | 198034/371472 [4:42:04<12:47:32,  3.77it/s] 53%|█████▎    | 198035/371472 [4:42:05<12:43:42,  3.78it/s] 53%|█████▎    | 198036/371472 [4:42:05<14:01:52,  3.43it/s] 53%|█████▎    | 198037/371472 [4:42:05<13:58:45,  3.45it/s] 53%|█████▎    | 198038/371472 [4:42:06<15:21:20,  3.14it/s] 53%|█████▎    | 198039/371472 [4:42:06<16:21:43,  2.94it/s] 53%|█████▎    | 198040/371472 [4:42:06<15:46:16,  3.05it/s]                                                            {'loss': 2.9926, 'learning_rate': 5.204162985627787e-07, 'epoch': 8.53}
 53%|█████▎    | 198040/371472 [4:42:06<15:46:16,  3.05it/s] 53%|█████▎    | 198041/371472 [4:42:07<15:53:52,  3.03it/s] 53%|█████▎    | 198042/371472 [4:42:07<15:08:36,  3.18it/s] 53%|█████▎    | 198043/371472 [4:42:07<15:20:51,  3.14it/s] 53%|█████▎    | 198044/371472 [4:42:07<14:46:08,  3.26it/s] 53%|█████▎    | 198045/371472 [4:42:08<14:46:56,  3.26it/s] 53%|█████▎    | 198046/371472 [4:42:08<14:38:44,  3.29it/s] 53%|█████▎    | 198047/371472 [4:42:08<14:50:51,  3.24it/s] 53%|█████▎    | 198048/371472 [4:42:09<15:49:45,  3.04it/s] 53%|█████▎    | 198049/371472 [4:42:09<15:09:21,  3.18it/s] 53%|█████▎    | 198050/371472 [4:42:09<14:08:02,  3.41it/s] 53%|█████▎    | 198051/371472 [4:42:10<13:32:02,  3.56it/s] 53%|█████▎    | 198052/371472 [4:42:10<13:26:45,  3.58it/s] 53%|█████▎    | 198053/371472 [4:42:10<13:22:10,  3.60it/s] 53%|█████▎    | 198054/371472 [4:42:10<13:11:32,  3.65it/s] 53%|█████▎    | 198055/371472 [4:42:11<13:17:25,  3.62it/s] 53%|█████▎    | 198056/371472 [4:42:11<15:05:36,  3.19it/s] 53%|█████▎    | 198057/371472 [4:42:11<14:29:08,  3.33it/s] 53%|█████▎    | 198058/371472 [4:42:12<14:08:32,  3.41it/s] 53%|█████▎    | 198059/371472 [4:42:12<14:35:59,  3.30it/s] 53%|█████▎    | 198060/371472 [4:42:12<14:34:02,  3.31it/s]                                                            {'loss': 2.9022, 'learning_rate': 5.203678165872999e-07, 'epoch': 8.53}
 53%|█████▎    | 198060/371472 [4:42:12<14:34:02,  3.31it/s] 53%|█████▎    | 198061/371472 [4:42:12<13:46:09,  3.50it/s] 53%|█████▎    | 198062/371472 [4:42:13<13:28:36,  3.57it/s] 53%|█████▎    | 198063/371472 [4:42:13<13:52:31,  3.47it/s] 53%|█████▎    | 198064/371472 [4:42:13<13:37:11,  3.54it/s] 53%|█████▎    | 198065/371472 [4:42:14<13:23:35,  3.60it/s] 53%|█████▎    | 198066/371472 [4:42:14<13:27:00,  3.58it/s] 53%|█████▎    | 198067/371472 [4:42:14<13:15:26,  3.63it/s] 53%|█████▎    | 198068/371472 [4:42:14<13:59:35,  3.44it/s] 53%|█████▎    | 198069/371472 [4:42:15<13:28:42,  3.57it/s] 53%|█████▎    | 198070/371472 [4:42:15<13:29:33,  3.57it/s] 53%|█████▎    | 198071/371472 [4:42:15<14:31:14,  3.32it/s] 53%|█████▎    | 198072/371472 [4:42:16<15:12:55,  3.17it/s] 53%|█████▎    | 198073/371472 [4:42:16<14:36:03,  3.30it/s] 53%|█████▎    | 198074/371472 [4:42:16<14:16:08,  3.38it/s] 53%|█████▎    | 198075/371472 [4:42:17<14:07:24,  3.41it/s] 53%|█████▎    | 198076/371472 [4:42:17<14:35:33,  3.30it/s] 53%|█████▎    | 198077/371472 [4:42:17<15:01:50,  3.20it/s] 53%|█████▎    | 198078/371472 [4:42:18<16:01:22,  3.01it/s] 53%|█████▎    | 198079/371472 [4:42:18<15:09:35,  3.18it/s] 53%|█████▎    | 198080/371472 [4:42:18<14:34:09,  3.31it/s]                                                            {'loss': 2.9018, 'learning_rate': 5.20319334611821e-07, 'epoch': 8.53}
 53%|█████▎    | 198080/371472 [4:42:18<14:34:09,  3.31it/s] 53%|█████▎    | 198081/371472 [4:42:18<14:12:39,  3.39it/s] 53%|█████▎    | 198082/371472 [4:42:19<14:24:16,  3.34it/s] 53%|█████▎    | 198083/371472 [4:42:19<14:09:51,  3.40it/s] 53%|█████▎    | 198084/371472 [4:42:19<13:43:14,  3.51it/s] 53%|█████▎    | 198085/371472 [4:42:20<13:20:56,  3.61it/s] 53%|█████▎    | 198086/371472 [4:42:20<13:24:26,  3.59it/s] 53%|█████▎    | 198087/371472 [4:42:20<12:49:58,  3.75it/s] 53%|█████▎    | 198088/371472 [4:42:20<12:54:23,  3.73it/s] 53%|█████▎    | 198089/371472 [4:42:21<13:05:50,  3.68it/s] 53%|█████▎    | 198090/371472 [4:42:21<13:52:08,  3.47it/s] 53%|█████▎    | 198091/371472 [4:42:21<13:34:46,  3.55it/s] 53%|█████▎    | 198092/371472 [4:42:21<13:14:22,  3.64it/s] 53%|█████▎    | 198093/371472 [4:42:22<13:17:32,  3.62it/s] 53%|█████▎    | 198094/371472 [4:42:22<12:58:44,  3.71it/s] 53%|█████▎    | 198095/371472 [4:42:22<13:09:11,  3.66it/s] 53%|█████▎    | 198096/371472 [4:42:23<13:41:18,  3.52it/s] 53%|█████▎    | 198097/371472 [4:42:23<13:37:00,  3.54it/s] 53%|█████▎    | 198098/371472 [4:42:23<15:05:57,  3.19it/s] 53%|█████▎    | 198099/371472 [4:42:24<16:00:22,  3.01it/s] 53%|█████▎    | 198100/371472 [4:42:24<15:08:28,  3.18it/s]                                                            {'loss': 2.9539, 'learning_rate': 5.20270852636342e-07, 'epoch': 8.53}
 53%|█████▎    | 198100/371472 [4:42:24<15:08:28,  3.18it/s] 53%|█████▎    | 198101/371472 [4:42:24<14:31:49,  3.31it/s] 53%|█████▎    | 198102/371472 [4:42:24<14:00:18,  3.44it/s] 53%|█████▎    | 198103/371472 [4:42:25<14:59:51,  3.21it/s] 53%|█████▎    | 198104/371472 [4:42:25<15:10:24,  3.17it/s] 53%|█████▎    | 198105/371472 [4:42:25<14:18:29,  3.37it/s] 53%|█████▎    | 198106/371472 [4:42:26<15:04:46,  3.19it/s] 53%|█████▎    | 198107/371472 [4:42:26<15:52:10,  3.03it/s] 53%|█████▎    | 198108/371472 [4:42:26<16:21:12,  2.94it/s] 53%|█████▎    | 198109/371472 [4:42:27<15:52:12,  3.03it/s] 53%|█████▎    | 198110/371472 [4:42:27<14:47:05,  3.26it/s] 53%|█████▎    | 198111/371472 [4:42:27<15:09:18,  3.18it/s] 53%|█████▎    | 198112/371472 [4:42:28<14:39:04,  3.29it/s] 53%|█████▎    | 198113/371472 [4:42:28<15:00:30,  3.21it/s] 53%|█████▎    | 198114/371472 [4:42:28<14:45:33,  3.26it/s] 53%|█████▎    | 198115/371472 [4:42:28<14:12:26,  3.39it/s] 53%|█████▎    | 198116/371472 [4:42:29<13:46:11,  3.50it/s] 53%|█████▎    | 198117/371472 [4:42:29<13:38:14,  3.53it/s] 53%|█████▎    | 198118/371472 [4:42:29<13:17:06,  3.62it/s] 53%|█████▎    | 198119/371472 [4:42:30<12:59:41,  3.71it/s] 53%|█████▎    | 198120/371472 [4:42:30<13:27:45,  3.58it/s]                                                            {'loss': 2.8541, 'learning_rate': 5.202223706608631e-07, 'epoch': 8.53}
 53%|█████▎    | 198120/371472 [4:42:30<13:27:45,  3.58it/s] 53%|█████▎    | 198121/371472 [4:42:30<14:56:49,  3.22it/s] 53%|█████▎    | 198122/371472 [4:42:30<14:13:15,  3.39it/s] 53%|█████▎    | 198123/371472 [4:42:31<13:37:58,  3.53it/s] 53%|█████▎    | 198124/371472 [4:42:31<13:43:27,  3.51it/s] 53%|█████▎    | 198125/371472 [4:42:31<13:47:17,  3.49it/s] 53%|█████▎    | 198126/371472 [4:42:32<14:07:44,  3.41it/s] 53%|█████▎    | 198127/371472 [4:42:32<13:47:36,  3.49it/s] 53%|█████▎    | 198128/371472 [4:42:32<14:07:05,  3.41it/s] 53%|█████▎    | 198129/371472 [4:42:33<14:01:17,  3.43it/s] 53%|█████▎    | 198130/371472 [4:42:33<13:36:06,  3.54it/s] 53%|█████▎    | 198131/371472 [4:42:33<13:39:50,  3.52it/s] 53%|█████▎    | 198132/371472 [4:42:33<14:02:57,  3.43it/s] 53%|█████▎    | 198133/371472 [4:42:34<14:25:00,  3.34it/s] 53%|█████▎    | 198134/371472 [4:42:34<14:54:27,  3.23it/s] 53%|█████▎    | 198135/371472 [4:42:34<14:39:03,  3.29it/s] 53%|█████▎    | 198136/371472 [4:42:35<14:12:00,  3.39it/s] 53%|█████▎    | 198137/371472 [4:42:35<15:34:42,  3.09it/s] 53%|█████▎    | 198138/371472 [4:42:35<14:43:27,  3.27it/s] 53%|█████▎    | 198139/371472 [4:42:36<14:51:19,  3.24it/s] 53%|█████▎    | 198140/371472 [4:42:36<14:07:49,  3.41it/s]                                                            {'loss': 2.9273, 'learning_rate': 5.201738886853843e-07, 'epoch': 8.53}
 53%|█████▎    | 198140/371472 [4:42:36<14:07:49,  3.41it/s] 53%|█████▎    | 198141/371472 [4:42:36<13:39:47,  3.52it/s] 53%|█████▎    | 198142/371472 [4:42:36<14:10:46,  3.40it/s] 53%|█████▎    | 198143/371472 [4:42:37<15:01:52,  3.20it/s] 53%|█████▎    | 198144/371472 [4:42:37<14:06:32,  3.41it/s] 53%|█████▎    | 198145/371472 [4:42:37<13:36:48,  3.54it/s] 53%|█████▎    | 198146/371472 [4:42:38<14:03:48,  3.42it/s] 53%|█████▎    | 198147/371472 [4:42:38<14:18:22,  3.37it/s] 53%|█████▎    | 198148/371472 [4:42:38<14:27:05,  3.33it/s] 53%|█████▎    | 198149/371472 [4:42:38<14:35:59,  3.30it/s] 53%|█████▎    | 198150/371472 [4:42:39<15:11:15,  3.17it/s] 53%|█████▎    | 198151/371472 [4:42:39<15:06:25,  3.19it/s] 53%|█████▎    | 198152/371472 [4:42:39<14:07:36,  3.41it/s] 53%|█████▎    | 198153/371472 [4:42:40<13:29:45,  3.57it/s] 53%|█████▎    | 198154/371472 [4:42:40<13:57:43,  3.45it/s] 53%|█████▎    | 198155/371472 [4:42:40<13:27:54,  3.58it/s] 53%|█████▎    | 198156/371472 [4:42:40<13:10:03,  3.66it/s] 53%|█████▎    | 198157/371472 [4:42:41<13:01:27,  3.70it/s] 53%|█████▎    | 198158/371472 [4:42:41<12:53:22,  3.74it/s] 53%|█████▎    | 198159/371472 [4:42:41<13:08:03,  3.67it/s] 53%|█████▎    | 198160/371472 [4:42:42<13:43:51,  3.51it/s]                                                            {'loss': 2.841, 'learning_rate': 5.201254067099054e-07, 'epoch': 8.54}
 53%|█████▎    | 198160/371472 [4:42:42<13:43:51,  3.51it/s] 53%|█████▎    | 198161/371472 [4:42:42<13:39:09,  3.53it/s] 53%|█████▎    | 198162/371472 [4:42:42<13:21:24,  3.60it/s] 53%|█████▎    | 198163/371472 [4:42:42<13:14:47,  3.63it/s] 53%|█████▎    | 198164/371472 [4:42:43<13:25:48,  3.58it/s] 53%|█████▎    | 198165/371472 [4:42:43<12:51:28,  3.74it/s] 53%|█████▎    | 198166/371472 [4:42:43<14:16:10,  3.37it/s] 53%|█████▎    | 198167/371472 [4:42:44<18:15:48,  2.64it/s] 53%|█████▎    | 198168/371472 [4:42:44<16:25:18,  2.93it/s] 53%|█████▎    | 198169/371472 [4:42:44<15:14:13,  3.16it/s] 53%|█████▎    | 198170/371472 [4:42:45<14:40:01,  3.28it/s] 53%|█████▎    | 198171/371472 [4:42:45<14:22:44,  3.35it/s] 53%|█████▎    | 198172/371472 [4:42:45<13:30:34,  3.56it/s] 53%|█████▎    | 198173/371472 [4:42:45<13:28:32,  3.57it/s] 53%|█████▎    | 198174/371472 [4:42:46<13:26:42,  3.58it/s] 53%|█████▎    | 198175/371472 [4:42:46<14:54:41,  3.23it/s] 53%|█████▎    | 198176/371472 [4:42:46<14:24:57,  3.34it/s] 53%|█████▎    | 198177/371472 [4:42:47<14:00:06,  3.44it/s] 53%|█████▎    | 198178/371472 [4:42:47<14:04:15,  3.42it/s] 53%|█████▎    | 198179/371472 [4:42:47<14:07:25,  3.41it/s] 53%|█████▎    | 198180/371472 [4:42:48<15:58:14,  3.01it/s]                                                            {'loss': 2.9262, 'learning_rate': 5.200769247344265e-07, 'epoch': 8.54}
 53%|█████▎    | 198180/371472 [4:42:48<15:58:14,  3.01it/s] 53%|█████▎    | 198181/371472 [4:42:48<15:15:07,  3.16it/s] 53%|█████▎    | 198182/371472 [4:42:48<14:31:41,  3.31it/s] 53%|█████▎    | 198183/371472 [4:42:48<14:01:19,  3.43it/s] 53%|█████▎    | 198184/371472 [4:42:49<13:26:38,  3.58it/s] 53%|█████▎    | 198185/371472 [4:42:49<13:21:48,  3.60it/s] 53%|█████▎    | 198186/371472 [4:42:49<13:33:21,  3.55it/s] 53%|█████▎    | 198187/371472 [4:42:50<13:38:41,  3.53it/s] 53%|█████▎    | 198188/371472 [4:42:50<13:48:06,  3.49it/s] 53%|█████▎    | 198189/371472 [4:42:50<13:40:42,  3.52it/s] 53%|█████▎    | 198190/371472 [4:42:50<13:21:48,  3.60it/s] 53%|█████▎    | 198191/371472 [4:42:51<13:20:05,  3.61it/s] 53%|█████▎    | 198192/371472 [4:42:51<12:56:05,  3.72it/s] 53%|█████▎    | 198193/371472 [4:42:51<12:58:59,  3.71it/s] 53%|█████▎    | 198194/371472 [4:42:52<13:21:46,  3.60it/s] 53%|█████▎    | 198195/371472 [4:42:52<13:36:07,  3.54it/s] 53%|█████▎    | 198196/371472 [4:42:52<14:04:26,  3.42it/s] 53%|█████▎    | 198197/371472 [4:42:52<13:41:52,  3.51it/s] 53%|█████▎    | 198198/371472 [4:42:53<14:23:55,  3.34it/s] 53%|█████▎    | 198199/371472 [4:42:53<13:58:27,  3.44it/s] 53%|█████▎    | 198200/371472 [4:42:53<14:15:54,  3.37it/s]                                                            {'loss': 2.9735, 'learning_rate': 5.200284427589476e-07, 'epoch': 8.54}
 53%|█████▎    | 198200/371472 [4:42:53<14:15:54,  3.37it/s] 53%|█████▎    | 198201/371472 [4:42:54<13:37:49,  3.53it/s] 53%|█████▎    | 198202/371472 [4:42:54<13:27:50,  3.57it/s] 53%|█████▎    | 198203/371472 [4:42:54<13:09:47,  3.66it/s] 53%|█████▎    | 198204/371472 [4:42:54<13:13:06,  3.64it/s] 53%|█████▎    | 198205/371472 [4:42:55<14:38:57,  3.29it/s] 53%|█████▎    | 198206/371472 [4:42:55<14:38:30,  3.29it/s] 53%|█████▎    | 198207/371472 [4:42:55<13:52:33,  3.47it/s] 53%|█████▎    | 198208/371472 [4:42:56<14:26:28,  3.33it/s] 53%|█████▎    | 198209/371472 [4:42:56<14:06:56,  3.41it/s] 53%|█████▎    | 198210/371472 [4:42:56<14:16:18,  3.37it/s] 53%|█████▎    | 198211/371472 [4:42:56<13:49:32,  3.48it/s] 53%|█████▎    | 198212/371472 [4:42:57<13:46:28,  3.49it/s] 53%|█████▎    | 198213/371472 [4:42:57<13:16:48,  3.62it/s] 53%|█████▎    | 198214/371472 [4:42:57<13:26:08,  3.58it/s] 53%|█████▎    | 198215/371472 [4:42:58<14:45:21,  3.26it/s] 53%|█████▎    | 198216/371472 [4:42:58<14:12:20,  3.39it/s] 53%|█████▎    | 198217/371472 [4:42:58<13:57:43,  3.45it/s] 53%|█████▎    | 198218/371472 [4:42:59<13:58:08,  3.45it/s] 53%|█████▎    | 198219/371472 [4:42:59<13:35:53,  3.54it/s] 53%|█████▎    | 198220/371472 [4:42:59<13:13:01,  3.64it/s]                                                            {'loss': 2.9454, 'learning_rate': 5.199799607834686e-07, 'epoch': 8.54}
 53%|█████▎    | 198220/371472 [4:42:59<13:13:01,  3.64it/s] 53%|█████▎    | 198221/371472 [4:42:59<13:05:15,  3.68it/s] 53%|█████▎    | 198222/371472 [4:43:00<13:11:09,  3.65it/s] 53%|█████▎    | 198223/371472 [4:43:00<13:09:29,  3.66it/s] 53%|█████▎    | 198224/371472 [4:43:00<12:49:49,  3.75it/s] 53%|█████▎    | 198225/371472 [4:43:00<13:24:18,  3.59it/s] 53%|█████▎    | 198226/371472 [4:43:01<14:56:54,  3.22it/s] 53%|█████▎    | 198227/371472 [4:43:01<14:29:47,  3.32it/s] 53%|█████▎    | 198228/371472 [4:43:01<14:00:23,  3.44it/s] 53%|█████▎    | 198229/371472 [4:43:02<14:20:43,  3.35it/s] 53%|█████▎    | 198230/371472 [4:43:02<14:18:35,  3.36it/s] 53%|█████▎    | 198231/371472 [4:43:02<13:59:47,  3.44it/s] 53%|█████▎    | 198232/371472 [4:43:02<13:47:47,  3.49it/s] 53%|█████▎    | 198233/371472 [4:43:03<14:08:11,  3.40it/s] 53%|█████▎    | 198234/371472 [4:43:03<14:02:48,  3.43it/s] 53%|█████▎    | 198235/371472 [4:43:03<13:44:24,  3.50it/s] 53%|█████▎    | 198236/371472 [4:43:04<13:21:10,  3.60it/s] 53%|█████▎    | 198237/371472 [4:43:04<13:24:47,  3.59it/s] 53%|█████▎    | 198238/371472 [4:43:04<13:27:28,  3.58it/s] 53%|█████▎    | 198239/371472 [4:43:05<14:02:27,  3.43it/s] 53%|█████▎    | 198240/371472 [4:43:05<14:00:17,  3.44it/s]                                                            {'loss': 3.0355, 'learning_rate': 5.199314788079897e-07, 'epoch': 8.54}
 53%|█████▎    | 198240/371472 [4:43:05<14:00:17,  3.44it/s] 53%|█████▎    | 198241/371472 [4:43:05<13:58:40,  3.44it/s] 53%|█████▎    | 198242/371472 [4:43:05<13:37:33,  3.53it/s] 53%|█████▎    | 198243/371472 [4:43:06<13:59:33,  3.44it/s] 53%|█████▎    | 198244/371472 [4:43:06<13:33:04,  3.55it/s] 53%|█████▎    | 198245/371472 [4:43:06<12:58:49,  3.71it/s] 53%|█████▎    | 198246/371472 [4:43:06<13:33:43,  3.55it/s] 53%|█████▎    | 198247/371472 [4:43:07<14:06:36,  3.41it/s] 53%|█████▎    | 198248/371472 [4:43:07<13:29:33,  3.57it/s] 53%|█████▎    | 198249/371472 [4:43:07<13:19:24,  3.61it/s] 53%|█████▎    | 198250/371472 [4:43:08<13:04:32,  3.68it/s] 53%|█████▎    | 198251/371472 [4:43:08<12:41:20,  3.79it/s] 53%|█████▎    | 198252/371472 [4:43:08<12:51:20,  3.74it/s] 53%|█████▎    | 198253/371472 [4:43:08<12:52:01,  3.74it/s] 53%|█████▎    | 198254/371472 [4:43:09<12:41:15,  3.79it/s] 53%|█████▎    | 198255/371472 [4:43:09<12:49:09,  3.75it/s] 53%|█████▎    | 198256/371472 [4:43:09<12:49:33,  3.75it/s] 53%|█████▎    | 198257/371472 [4:43:09<12:47:21,  3.76it/s] 53%|█████▎    | 198258/371472 [4:43:10<13:45:29,  3.50it/s] 53%|█████▎    | 198259/371472 [4:43:10<13:40:01,  3.52it/s] 53%|█████▎    | 198260/371472 [4:43:10<13:14:06,  3.64it/s]                                                            {'loss': 2.8725, 'learning_rate': 5.198829968325109e-07, 'epoch': 8.54}
 53%|█████▎    | 198260/371472 [4:43:10<13:14:06,  3.64it/s] 53%|█████▎    | 198261/371472 [4:43:11<13:10:29,  3.65it/s] 53%|█████▎    | 198262/371472 [4:43:11<14:13:10,  3.38it/s] 53%|█████▎    | 198263/371472 [4:43:11<14:02:19,  3.43it/s] 53%|█████▎    | 198264/371472 [4:43:11<13:34:45,  3.54it/s] 53%|█████▎    | 198265/371472 [4:43:12<13:17:08,  3.62it/s] 53%|█████▎    | 198266/371472 [4:43:12<13:17:42,  3.62it/s] 53%|█████▎    | 198267/371472 [4:43:12<12:57:34,  3.71it/s] 53%|█████▎    | 198268/371472 [4:43:13<12:54:40,  3.73it/s] 53%|█████▎    | 198269/371472 [4:43:13<12:39:55,  3.80it/s] 53%|█████▎    | 198270/371472 [4:43:13<14:26:54,  3.33it/s] 53%|█████▎    | 198271/371472 [4:43:13<14:00:21,  3.44it/s] 53%|█████▎    | 198272/371472 [4:43:14<13:24:35,  3.59it/s] 53%|█████▎    | 198273/371472 [4:43:14<13:19:34,  3.61it/s] 53%|█████▎    | 198274/371472 [4:43:14<13:31:00,  3.56it/s] 53%|█████▎    | 198275/371472 [4:43:15<14:46:13,  3.26it/s] 53%|█████▎    | 198276/371472 [4:43:15<13:49:53,  3.48it/s] 53%|█████▎    | 198277/371472 [4:43:15<14:46:18,  3.26it/s] 53%|█████▎    | 198278/371472 [4:43:15<13:51:47,  3.47it/s] 53%|█████▎    | 198279/371472 [4:43:16<15:15:49,  3.15it/s] 53%|█████▎    | 198280/371472 [4:43:16<14:07:42,  3.41it/s]                                                            {'loss': 2.8276, 'learning_rate': 5.19834514857032e-07, 'epoch': 8.54}
 53%|█████▎    | 198280/371472 [4:43:16<14:07:42,  3.41it/s] 53%|█████▎    | 198281/371472 [4:43:16<13:36:35,  3.53it/s] 53%|█████▎    | 198282/371472 [4:43:17<14:14:05,  3.38it/s] 53%|█████▎    | 198283/371472 [4:43:17<14:28:04,  3.33it/s] 53%|█████▎    | 198284/371472 [4:43:17<14:40:33,  3.28it/s] 53%|█████▎    | 198285/371472 [4:43:18<14:06:58,  3.41it/s] 53%|█████▎    | 198286/371472 [4:43:18<13:33:31,  3.55it/s] 53%|█████▎    | 198287/371472 [4:43:18<13:22:22,  3.60it/s] 53%|█████▎    | 198288/371472 [4:43:18<14:07:23,  3.41it/s] 53%|█████▎    | 198289/371472 [4:43:19<13:43:11,  3.51it/s] 53%|█████▎    | 198290/371472 [4:43:19<14:05:15,  3.41it/s] 53%|█████▎    | 198291/371472 [4:43:19<13:28:18,  3.57it/s] 53%|█████▎    | 198292/371472 [4:43:19<13:13:04,  3.64it/s] 53%|█████▎    | 198293/371472 [4:43:20<13:36:59,  3.53it/s] 53%|█████▎    | 198294/371472 [4:43:20<14:05:23,  3.41it/s] 53%|█████▎    | 198295/371472 [4:43:20<14:13:23,  3.38it/s] 53%|█████▎    | 198296/371472 [4:43:21<13:59:18,  3.44it/s] 53%|█████▎    | 198297/371472 [4:43:21<14:02:16,  3.43it/s] 53%|█████▎    | 198298/371472 [4:43:21<13:52:46,  3.47it/s] 53%|█████▎    | 198299/371472 [4:43:22<14:04:33,  3.42it/s] 53%|█████▎    | 198300/371472 [4:43:22<14:05:29,  3.41it/s]                                                            {'loss': 2.8383, 'learning_rate': 5.197860328815532e-07, 'epoch': 8.54}
 53%|█████▎    | 198300/371472 [4:43:22<14:05:29,  3.41it/s] 53%|█████▎    | 198301/371472 [4:43:22<15:12:39,  3.16it/s] 53%|█████▎    | 198302/371472 [4:43:22<14:34:08,  3.30it/s] 53%|█████▎    | 198303/371472 [4:43:23<13:50:41,  3.47it/s] 53%|█████▎    | 198304/371472 [4:43:23<13:53:16,  3.46it/s] 53%|█████▎    | 198305/371472 [4:43:23<13:33:34,  3.55it/s] 53%|█████▎    | 198306/371472 [4:43:24<13:28:44,  3.57it/s] 53%|█████▎    | 198307/371472 [4:43:24<13:59:17,  3.44it/s] 53%|█████▎    | 198308/371472 [4:43:24<15:42:45,  3.06it/s] 53%|█████▎    | 198309/371472 [4:43:25<14:54:26,  3.23it/s] 53%|█████▎    | 198310/371472 [4:43:25<14:49:07,  3.25it/s] 53%|█████▎    | 198311/371472 [4:43:25<15:15:50,  3.15it/s] 53%|█████▎    | 198312/371472 [4:43:25<14:23:35,  3.34it/s] 53%|█████▎    | 198313/371472 [4:43:26<14:04:01,  3.42it/s] 53%|█████▎    | 198314/371472 [4:43:26<15:33:53,  3.09it/s] 53%|█████▎    | 198315/371472 [4:43:26<15:03:41,  3.19it/s] 53%|█████▎    | 198316/371472 [4:43:27<14:23:20,  3.34it/s] 53%|█████▎    | 198317/371472 [4:43:27<14:26:19,  3.33it/s] 53%|█████▎    | 198318/371472 [4:43:27<13:48:27,  3.48it/s] 53%|█████▎    | 198319/371472 [4:43:28<13:56:40,  3.45it/s] 53%|█████▎    | 198320/371472 [4:43:28<13:29:49,  3.56it/s]                                                            {'loss': 2.9908, 'learning_rate': 5.197375509060743e-07, 'epoch': 8.54}
 53%|█████▎    | 198320/371472 [4:43:28<13:29:49,  3.56it/s] 53%|█████▎    | 198321/371472 [4:43:28<13:44:37,  3.50it/s] 53%|█████▎    | 198322/371472 [4:43:28<14:25:35,  3.33it/s] 53%|█████▎    | 198323/371472 [4:43:29<14:38:51,  3.28it/s] 53%|█████▎    | 198324/371472 [4:43:29<14:46:08,  3.26it/s] 53%|█████▎    | 198325/371472 [4:43:29<14:44:39,  3.26it/s] 53%|█████▎    | 198326/371472 [4:43:30<14:10:59,  3.39it/s] 53%|█████▎    | 198327/371472 [4:43:30<13:44:56,  3.50it/s] 53%|█████▎    | 198328/371472 [4:43:30<13:42:50,  3.51it/s] 53%|█████▎    | 198329/371472 [4:43:31<14:14:12,  3.38it/s] 53%|█████▎    | 198330/371472 [4:43:31<14:22:20,  3.35it/s] 53%|█████▎    | 198331/371472 [4:43:31<13:43:43,  3.50it/s] 53%|█████▎    | 198332/371472 [4:43:31<13:34:41,  3.54it/s] 53%|█████▎    | 198333/371472 [4:43:32<13:52:44,  3.47it/s] 53%|█████▎    | 198334/371472 [4:43:32<13:57:28,  3.45it/s] 53%|█████▎    | 198335/371472 [4:43:32<14:17:29,  3.37it/s] 53%|█████▎    | 198336/371472 [4:43:33<15:10:40,  3.17it/s] 53%|█████▎    | 198337/371472 [4:43:33<15:21:00,  3.13it/s] 53%|█████▎    | 198338/371472 [4:43:33<15:10:32,  3.17it/s] 53%|█████▎    | 198339/371472 [4:43:34<15:21:29,  3.13it/s] 53%|█████▎    | 198340/371472 [4:43:34<14:41:11,  3.27it/s]                                                            {'loss': 3.0027, 'learning_rate': 5.196890689305953e-07, 'epoch': 8.54}
 53%|█████▎    | 198340/371472 [4:43:34<14:41:11,  3.27it/s] 53%|█████▎    | 198341/371472 [4:43:34<15:02:28,  3.20it/s] 53%|█████▎    | 198342/371472 [4:43:34<14:30:58,  3.31it/s] 53%|█████▎    | 198343/371472 [4:43:35<14:48:46,  3.25it/s] 53%|█████▎    | 198344/371472 [4:43:35<14:21:06,  3.35it/s] 53%|█████▎    | 198345/371472 [4:43:35<14:14:18,  3.38it/s] 53%|█████▎    | 198346/371472 [4:43:36<13:50:02,  3.48it/s] 53%|█████▎    | 198347/371472 [4:43:36<13:17:45,  3.62it/s] 53%|█████▎    | 198348/371472 [4:43:36<14:07:45,  3.40it/s] 53%|█████▎    | 198349/371472 [4:43:36<13:34:18,  3.54it/s] 53%|█████▎    | 198350/371472 [4:43:37<13:15:16,  3.63it/s] 53%|█████▎    | 198351/371472 [4:43:37<13:00:57,  3.69it/s] 53%|█████▎    | 198352/371472 [4:43:37<12:56:43,  3.71it/s] 53%|█████▎    | 198353/371472 [4:43:38<13:40:15,  3.52it/s] 53%|█████▎    | 198354/371472 [4:43:38<13:34:19,  3.54it/s] 53%|█████▎    | 198355/371472 [4:43:38<13:33:24,  3.55it/s] 53%|█████▎    | 198356/371472 [4:43:38<13:20:38,  3.60it/s] 53%|█████▎    | 198357/371472 [4:43:39<13:15:21,  3.63it/s] 53%|█████▎    | 198358/371472 [4:43:39<14:49:38,  3.24it/s] 53%|█████▎    | 198359/371472 [4:43:39<14:40:41,  3.28it/s] 53%|█████▎    | 198360/371472 [4:43:40<14:42:00,  3.27it/s]                                                            {'loss': 3.0079, 'learning_rate': 5.196405869551164e-07, 'epoch': 8.54}
 53%|█████▎    | 198360/371472 [4:43:40<14:42:00,  3.27it/s] 53%|█████▎    | 198361/371472 [4:43:40<14:01:01,  3.43it/s] 53%|█████▎    | 198362/371472 [4:43:40<13:49:19,  3.48it/s] 53%|█████▎    | 198363/371472 [4:43:40<14:08:36,  3.40it/s] 53%|█████▎    | 198364/371472 [4:43:41<13:51:27,  3.47it/s] 53%|█████▎    | 198365/371472 [4:43:41<13:58:00,  3.44it/s] 53%|█████▎    | 198366/371472 [4:43:41<13:41:37,  3.51it/s] 53%|█████▎    | 198367/371472 [4:43:42<13:16:01,  3.62it/s] 53%|█████▎    | 198368/371472 [4:43:42<13:02:36,  3.69it/s] 53%|█████▎    | 198369/371472 [4:43:42<12:33:10,  3.83it/s] 53%|█████▎    | 198370/371472 [4:43:42<13:22:47,  3.59it/s] 53%|█████▎    | 198371/371472 [4:43:43<17:03:06,  2.82it/s] 53%|█████▎    | 198372/371472 [4:43:43<15:38:02,  3.08it/s] 53%|█████▎    | 198373/371472 [4:43:44<15:22:55,  3.13it/s] 53%|█████▎    | 198374/371472 [4:43:44<14:39:39,  3.28it/s] 53%|█████▎    | 198375/371472 [4:43:44<15:20:55,  3.13it/s] 53%|█████▎    | 198376/371472 [4:43:44<14:33:58,  3.30it/s] 53%|█████▎    | 198377/371472 [4:43:45<13:53:59,  3.46it/s] 53%|█████▎    | 198378/371472 [4:43:45<13:49:52,  3.48it/s] 53%|█████▎    | 198379/371472 [4:43:45<13:47:10,  3.49it/s] 53%|█████▎    | 198380/371472 [4:43:45<13:34:02,  3.54it/s]                                                            {'loss': 3.0239, 'learning_rate': 5.195921049796377e-07, 'epoch': 8.54}
 53%|█████▎    | 198380/371472 [4:43:45<13:34:02,  3.54it/s] 53%|█████▎    | 198381/371472 [4:43:46<14:42:19,  3.27it/s] 53%|█████▎    | 198382/371472 [4:43:46<15:05:33,  3.19it/s] 53%|█████▎    | 198383/371472 [4:43:46<14:12:42,  3.38it/s] 53%|█████▎    | 198384/371472 [4:43:47<14:45:41,  3.26it/s] 53%|█████▎    | 198385/371472 [4:43:47<14:08:01,  3.40it/s] 53%|█████▎    | 198386/371472 [4:43:47<13:37:27,  3.53it/s] 53%|█████▎    | 198387/371472 [4:43:48<13:34:44,  3.54it/s] 53%|█████▎    | 198388/371472 [4:43:48<13:19:38,  3.61it/s] 53%|█████▎    | 198389/371472 [4:43:48<13:23:24,  3.59it/s] 53%|█████▎    | 198390/371472 [4:43:48<13:11:39,  3.64it/s] 53%|█████▎    | 198391/371472 [4:43:49<12:40:08,  3.79it/s] 53%|█████▎    | 198392/371472 [4:43:49<12:38:46,  3.80it/s] 53%|█████▎    | 198393/371472 [4:43:49<13:28:36,  3.57it/s] 53%|█████▎    | 198394/371472 [4:43:50<14:31:41,  3.31it/s] 53%|█████▎    | 198395/371472 [4:43:50<13:50:08,  3.47it/s] 53%|█████▎    | 198396/371472 [4:43:50<13:38:19,  3.52it/s] 53%|█████▎    | 198397/371472 [4:43:50<13:47:31,  3.49it/s] 53%|█████▎    | 198398/371472 [4:43:51<13:08:27,  3.66it/s] 53%|█████▎    | 198399/371472 [4:43:51<12:43:59,  3.78it/s] 53%|█████▎    | 198400/371472 [4:43:51<12:34:00,  3.83it/s]                                                            {'loss': 2.9681, 'learning_rate': 5.195436230041586e-07, 'epoch': 8.55}
 53%|█████▎    | 198400/371472 [4:43:51<12:34:00,  3.83it/s] 53%|█████▎    | 198401/371472 [4:43:51<12:31:58,  3.84it/s] 53%|█████▎    | 198402/371472 [4:43:52<12:17:57,  3.91it/s] 53%|█████▎    | 198403/371472 [4:43:52<12:24:51,  3.87it/s] 53%|█████▎    | 198404/371472 [4:43:52<12:04:44,  3.98it/s] 53%|█████▎    | 198405/371472 [4:43:52<12:18:03,  3.91it/s] 53%|█████▎    | 198406/371472 [4:43:53<13:15:29,  3.63it/s] 53%|█████▎    | 198407/371472 [4:43:53<14:03:40,  3.42it/s] 53%|█████▎    | 198408/371472 [4:43:53<13:24:40,  3.58it/s] 53%|█████▎    | 198409/371472 [4:43:54<12:56:49,  3.71it/s] 53%|█████▎    | 198410/371472 [4:43:54<12:28:34,  3.85it/s] 53%|█████▎    | 198411/371472 [4:43:54<13:10:47,  3.65it/s] 53%|█████▎    | 198412/371472 [4:43:54<13:02:56,  3.68it/s] 53%|█████▎    | 198413/371472 [4:43:55<12:43:20,  3.78it/s] 53%|█████▎    | 198414/371472 [4:43:55<12:41:53,  3.79it/s] 53%|█████▎    | 198415/371472 [4:43:55<12:48:38,  3.75it/s] 53%|█████▎    | 198416/371472 [4:43:55<13:07:08,  3.66it/s] 53%|█████▎    | 198417/371472 [4:43:56<13:00:52,  3.69it/s] 53%|█████▎    | 198418/371472 [4:43:56<13:00:50,  3.69it/s] 53%|█████▎    | 198419/371472 [4:43:56<14:02:17,  3.42it/s] 53%|█████▎    | 198420/371472 [4:43:57<13:30:18,  3.56it/s]                                                            {'loss': 3.0833, 'learning_rate': 5.194951410286798e-07, 'epoch': 8.55}
 53%|█████▎    | 198420/371472 [4:43:57<13:30:18,  3.56it/s] 53%|█████▎    | 198421/371472 [4:43:57<13:25:57,  3.58it/s] 53%|█████▎    | 198422/371472 [4:43:57<13:36:57,  3.53it/s] 53%|█████▎    | 198423/371472 [4:43:57<13:13:55,  3.63it/s] 53%|█████▎    | 198424/371472 [4:43:58<14:09:29,  3.40it/s] 53%|█████▎    | 198425/371472 [4:43:58<14:41:49,  3.27it/s] 53%|█████▎    | 198426/371472 [4:43:58<14:23:48,  3.34it/s] 53%|█████▎    | 198427/371472 [4:43:59<13:42:50,  3.51it/s] 53%|█████▎    | 198428/371472 [4:43:59<13:22:31,  3.59it/s] 53%|█████▎    | 198429/371472 [4:43:59<13:45:48,  3.49it/s] 53%|█████▎    | 198430/371472 [4:43:59<13:31:17,  3.55it/s] 53%|█████▎    | 198431/371472 [4:44:00<13:07:18,  3.66it/s] 53%|█████▎    | 198432/371472 [4:44:00<13:16:03,  3.62it/s] 53%|█████▎    | 198433/371472 [4:44:00<13:00:14,  3.70it/s] 53%|█████▎    | 198434/371472 [4:44:01<13:45:36,  3.49it/s] 53%|█████▎    | 198435/371472 [4:44:01<14:15:24,  3.37it/s] 53%|█████▎    | 198436/371472 [4:44:01<14:01:41,  3.43it/s] 53%|█████▎    | 198437/371472 [4:44:01<13:28:56,  3.57it/s] 53%|█████▎    | 198438/371472 [4:44:02<13:57:43,  3.44it/s] 53%|█████▎    | 198439/371472 [4:44:02<14:14:09,  3.38it/s] 53%|█████▎    | 198440/371472 [4:44:02<13:40:33,  3.51it/s]                                                            {'loss': 3.0504, 'learning_rate': 5.194466590532009e-07, 'epoch': 8.55}
 53%|█████▎    | 198440/371472 [4:44:02<13:40:33,  3.51it/s] 53%|█████▎    | 198441/371472 [4:44:03<13:27:42,  3.57it/s] 53%|█████▎    | 198442/371472 [4:44:03<14:05:50,  3.41it/s] 53%|█████▎    | 198443/371472 [4:44:03<13:14:27,  3.63it/s] 53%|█████▎    | 198444/371472 [4:44:03<14:07:13,  3.40it/s] 53%|█████▎    | 198445/371472 [4:44:04<13:47:19,  3.49it/s] 53%|█████▎    | 198446/371472 [4:44:04<14:32:13,  3.31it/s] 53%|█████▎    | 198447/371472 [4:44:04<13:51:54,  3.47it/s] 53%|█████▎    | 198448/371472 [4:44:05<13:39:05,  3.52it/s] 53%|█████▎    | 198449/371472 [4:44:05<13:36:39,  3.53it/s] 53%|█████▎    | 198450/371472 [4:44:05<13:11:52,  3.64it/s] 53%|█████▎    | 198451/371472 [4:44:05<13:20:45,  3.60it/s] 53%|█████▎    | 198452/371472 [4:44:06<13:06:29,  3.67it/s] 53%|█████▎    | 198453/371472 [4:44:06<13:15:21,  3.63it/s] 53%|█████▎    | 198454/371472 [4:44:06<13:09:29,  3.65it/s] 53%|█████▎    | 198455/371472 [4:44:07<13:34:55,  3.54it/s] 53%|█████▎    | 198456/371472 [4:44:07<15:25:18,  3.12it/s] 53%|█████▎    | 198457/371472 [4:44:07<14:39:16,  3.28it/s] 53%|█████▎    | 198458/371472 [4:44:07<14:23:45,  3.34it/s] 53%|█████▎    | 198459/371472 [4:44:08<13:39:54,  3.52it/s] 53%|█████▎    | 198460/371472 [4:44:08<13:36:56,  3.53it/s]                                                            {'loss': 2.975, 'learning_rate': 5.19398177077722e-07, 'epoch': 8.55}
 53%|█████▎    | 198460/371472 [4:44:08<13:36:56,  3.53it/s] 53%|█████▎    | 198461/371472 [4:44:08<13:22:25,  3.59it/s] 53%|█████▎    | 198462/371472 [4:44:09<13:40:57,  3.51it/s] 53%|█████▎    | 198463/371472 [4:44:09<14:17:10,  3.36it/s] 53%|█████▎    | 198464/371472 [4:44:09<13:46:51,  3.49it/s] 53%|█████▎    | 198465/371472 [4:44:09<13:37:30,  3.53it/s] 53%|█████▎    | 198466/371472 [4:44:10<13:13:36,  3.63it/s] 53%|█████▎    | 198467/371472 [4:44:10<12:48:57,  3.75it/s] 53%|█████▎    | 198468/371472 [4:44:10<13:07:19,  3.66it/s] 53%|█████▎    | 198469/371472 [4:44:10<12:57:27,  3.71it/s] 53%|█████▎    | 198470/371472 [4:44:11<12:52:40,  3.73it/s] 53%|█████▎    | 198471/371472 [4:44:11<12:59:45,  3.70it/s] 53%|█████▎    | 198472/371472 [4:44:11<12:46:38,  3.76it/s] 53%|█████▎    | 198473/371472 [4:44:12<12:48:03,  3.75it/s] 53%|█████▎    | 198474/371472 [4:44:12<12:32:47,  3.83it/s] 53%|█████▎    | 198475/371472 [4:44:12<12:48:48,  3.75it/s] 53%|█████▎    | 198476/371472 [4:44:12<12:32:42,  3.83it/s] 53%|█████▎    | 198477/371472 [4:44:13<12:41:07,  3.79it/s] 53%|█████▎    | 198478/371472 [4:44:13<13:08:14,  3.66it/s] 53%|█████▎    | 198479/371472 [4:44:13<13:20:50,  3.60it/s] 53%|█████▎    | 198480/371472 [4:44:13<13:32:58,  3.55it/s]                                                            {'loss': 3.1779, 'learning_rate': 5.19349695102243e-07, 'epoch': 8.55}
 53%|█████▎    | 198480/371472 [4:44:13<13:32:58,  3.55it/s] 53%|█████▎    | 198481/371472 [4:44:14<14:07:30,  3.40it/s] 53%|█████▎    | 198482/371472 [4:44:14<13:55:08,  3.45it/s] 53%|█████▎    | 198483/371472 [4:44:14<13:23:01,  3.59it/s] 53%|█████▎    | 198484/371472 [4:44:15<13:57:22,  3.44it/s] 53%|█████▎    | 198485/371472 [4:44:15<13:41:26,  3.51it/s] 53%|█████▎    | 198486/371472 [4:44:15<13:57:06,  3.44it/s] 53%|█████▎    | 198487/371472 [4:44:15<13:36:57,  3.53it/s] 53%|█████▎    | 198488/371472 [4:44:16<13:52:46,  3.46it/s] 53%|█████▎    | 198489/371472 [4:44:16<13:28:33,  3.57it/s] 53%|█████▎    | 198490/371472 [4:44:16<13:16:44,  3.62it/s] 53%|█████▎    | 198491/371472 [4:44:17<13:25:51,  3.58it/s] 53%|█████▎    | 198492/371472 [4:44:17<13:28:00,  3.57it/s] 53%|█████▎    | 198493/371472 [4:44:17<13:17:14,  3.62it/s] 53%|█████▎    | 198494/371472 [4:44:17<13:00:20,  3.69it/s] 53%|█████▎    | 198495/371472 [4:44:18<13:23:13,  3.59it/s] 53%|█████▎    | 198496/371472 [4:44:18<13:15:35,  3.62it/s] 53%|█████▎    | 198497/371472 [4:44:18<14:28:28,  3.32it/s] 53%|█████▎    | 198498/371472 [4:44:19<14:00:48,  3.43it/s] 53%|█████▎    | 198499/371472 [4:44:19<14:45:54,  3.25it/s] 53%|█████▎    | 198500/371472 [4:44:19<14:05:13,  3.41it/s]                                                            {'loss': 2.9663, 'learning_rate': 5.193012131267641e-07, 'epoch': 8.55}
 53%|█████▎    | 198500/371472 [4:44:19<14:05:13,  3.41it/s] 53%|█████▎    | 198501/371472 [4:44:19<13:55:19,  3.45it/s] 53%|█████▎    | 198502/371472 [4:44:20<13:34:34,  3.54it/s] 53%|█████▎    | 198503/371472 [4:44:20<13:28:20,  3.57it/s] 53%|█████▎    | 198504/371472 [4:44:20<14:23:42,  3.34it/s] 53%|█████▎    | 198505/371472 [4:44:21<13:53:47,  3.46it/s] 53%|█████▎    | 198506/371472 [4:44:21<13:46:04,  3.49it/s] 53%|█████▎    | 198507/371472 [4:44:21<13:43:33,  3.50it/s] 53%|█████▎    | 198508/371472 [4:44:21<13:23:07,  3.59it/s] 53%|█████▎    | 198509/371472 [4:44:22<14:13:09,  3.38it/s] 53%|█████▎    | 198510/371472 [4:44:22<14:12:55,  3.38it/s] 53%|█████▎    | 198511/371472 [4:44:22<13:52:34,  3.46it/s] 53%|█████▎    | 198512/371472 [4:44:23<13:47:36,  3.48it/s] 53%|█████▎    | 198513/371472 [4:44:23<13:50:27,  3.47it/s] 53%|█████▎    | 198514/371472 [4:44:23<13:40:11,  3.51it/s] 53%|█████▎    | 198515/371472 [4:44:24<13:41:51,  3.51it/s] 53%|█████▎    | 198516/371472 [4:44:24<13:43:48,  3.50it/s] 53%|█████▎    | 198517/371472 [4:44:24<13:49:34,  3.47it/s] 53%|█████▎    | 198518/371472 [4:44:24<13:47:24,  3.48it/s] 53%|█████▎    | 198519/371472 [4:44:25<14:57:28,  3.21it/s] 53%|█████▎    | 198520/371472 [4:44:25<14:09:30,  3.39it/s]                                                            {'loss': 3.0882, 'learning_rate': 5.192527311512853e-07, 'epoch': 8.55}
 53%|█████▎    | 198520/371472 [4:44:25<14:09:30,  3.39it/s] 53%|█████▎    | 198521/371472 [4:44:25<14:44:31,  3.26it/s] 53%|█████▎    | 198522/371472 [4:44:26<14:47:26,  3.25it/s] 53%|█████▎    | 198523/371472 [4:44:26<14:15:40,  3.37it/s] 53%|█████▎    | 198524/371472 [4:44:26<14:01:12,  3.43it/s] 53%|█████▎    | 198525/371472 [4:44:27<14:27:03,  3.32it/s] 53%|█████▎    | 198526/371472 [4:44:27<14:52:37,  3.23it/s] 53%|█████▎    | 198527/371472 [4:44:27<15:08:30,  3.17it/s] 53%|█████▎    | 198528/371472 [4:44:28<15:48:32,  3.04it/s] 53%|█████▎    | 198529/371472 [4:44:28<15:11:32,  3.16it/s] 53%|█████▎    | 198530/371472 [4:44:28<14:39:17,  3.28it/s] 53%|█████▎    | 198531/371472 [4:44:28<14:07:08,  3.40it/s] 53%|█████▎    | 198532/371472 [4:44:29<13:35:53,  3.53it/s] 53%|█████▎    | 198533/371472 [4:44:29<13:22:51,  3.59it/s] 53%|█████▎    | 198534/371472 [4:44:29<13:34:53,  3.54it/s] 53%|█████▎    | 198535/371472 [4:44:29<13:22:14,  3.59it/s] 53%|█████▎    | 198536/371472 [4:44:30<13:07:41,  3.66it/s] 53%|█████▎    | 198537/371472 [4:44:30<14:06:38,  3.40it/s] 53%|█████▎    | 198538/371472 [4:44:30<14:16:12,  3.37it/s] 53%|█████▎    | 198539/371472 [4:44:31<13:53:48,  3.46it/s] 53%|█████▎    | 198540/371472 [4:44:31<14:01:59,  3.42it/s]                                                            {'loss': 3.0169, 'learning_rate': 5.192042491758063e-07, 'epoch': 8.55}
 53%|█████▎    | 198540/371472 [4:44:31<14:01:59,  3.42it/s] 53%|█████▎    | 198541/371472 [4:44:31<14:06:37,  3.40it/s] 53%|█████▎    | 198542/371472 [4:44:32<13:57:40,  3.44it/s] 53%|█████▎    | 198543/371472 [4:44:32<13:41:24,  3.51it/s] 53%|█████▎    | 198544/371472 [4:44:32<15:10:29,  3.17it/s] 53%|█████▎    | 198545/371472 [4:44:32<14:31:30,  3.31it/s] 53%|█████▎    | 198546/371472 [4:44:33<14:33:08,  3.30it/s] 53%|█████▎    | 198547/371472 [4:44:33<13:50:44,  3.47it/s] 53%|█████▎    | 198548/371472 [4:44:33<15:12:47,  3.16it/s] 53%|█████▎    | 198549/371472 [4:44:34<15:13:39,  3.15it/s] 53%|█████▎    | 198550/371472 [4:44:34<14:34:13,  3.30it/s] 53%|█████▎    | 198551/371472 [4:44:34<14:07:45,  3.40it/s] 53%|█████▎    | 198552/371472 [4:44:35<14:18:34,  3.36it/s] 53%|█████▎    | 198553/371472 [4:44:35<13:51:08,  3.47it/s] 53%|█████▎    | 198554/371472 [4:44:35<13:58:01,  3.44it/s] 53%|█████▎    | 198555/371472 [4:44:35<13:52:56,  3.46it/s] 53%|█████▎    | 198556/371472 [4:44:36<13:46:25,  3.49it/s] 53%|█████▎    | 198557/371472 [4:44:36<13:46:30,  3.49it/s] 53%|█████▎    | 198558/371472 [4:44:36<13:36:51,  3.53it/s] 53%|█████▎    | 198559/371472 [4:44:37<13:43:41,  3.50it/s] 53%|█████▎    | 198560/371472 [4:44:37<13:44:06,  3.50it/s]                                                            {'loss': 2.8609, 'learning_rate': 5.191557672003275e-07, 'epoch': 8.55}
 53%|█████▎    | 198560/371472 [4:44:37<13:44:06,  3.50it/s] 53%|█████▎    | 198561/371472 [4:44:37<13:15:26,  3.62it/s] 53%|█████▎    | 198562/371472 [4:44:37<13:58:04,  3.44it/s] 53%|█████▎    | 198563/371472 [4:44:38<13:55:39,  3.45it/s] 53%|█████▎    | 198564/371472 [4:44:38<13:56:47,  3.44it/s] 53%|█████▎    | 198565/371472 [4:44:38<14:00:02,  3.43it/s] 53%|█████▎    | 198566/371472 [4:44:39<13:42:19,  3.50it/s] 53%|█████▎    | 198567/371472 [4:44:39<13:23:18,  3.59it/s] 53%|█████▎    | 198568/371472 [4:44:39<13:26:46,  3.57it/s] 53%|█████▎    | 198569/371472 [4:44:39<13:13:42,  3.63it/s] 53%|█████▎    | 198570/371472 [4:44:40<13:03:03,  3.68it/s] 53%|█████▎    | 198571/371472 [4:44:40<13:34:52,  3.54it/s] 53%|█████▎    | 198572/371472 [4:44:40<14:50:19,  3.24it/s] 53%|█████▎    | 198573/371472 [4:44:41<14:34:20,  3.30it/s] 53%|█████▎    | 198574/371472 [4:44:41<13:47:29,  3.48it/s] 53%|█████▎    | 198575/371472 [4:44:41<13:10:04,  3.65it/s] 53%|█████▎    | 198576/371472 [4:44:41<12:50:25,  3.74it/s] 53%|█████▎    | 198577/371472 [4:44:42<12:55:36,  3.72it/s] 53%|█████▎    | 198578/371472 [4:44:42<13:36:35,  3.53it/s] 53%|█████▎    | 198579/371472 [4:44:42<13:11:55,  3.64it/s] 53%|█████▎    | 198580/371472 [4:44:42<12:42:05,  3.78it/s]                                                            {'loss': 3.1376, 'learning_rate': 5.191072852248486e-07, 'epoch': 8.55}
 53%|█████▎    | 198580/371472 [4:44:42<12:42:05,  3.78it/s] 53%|█████▎    | 198581/371472 [4:44:43<12:26:02,  3.86it/s] 53%|█████▎    | 198582/371472 [4:44:43<12:32:34,  3.83it/s] 53%|█████▎    | 198583/371472 [4:44:43<12:32:40,  3.83it/s] 53%|█████▎    | 198584/371472 [4:44:44<13:08:14,  3.66it/s] 53%|█████▎    | 198585/371472 [4:44:44<13:00:11,  3.69it/s] 53%|█████▎    | 198586/371472 [4:44:44<13:51:40,  3.46it/s] 53%|█████▎    | 198587/371472 [4:44:44<13:51:29,  3.47it/s] 53%|█████▎    | 198588/371472 [4:44:45<14:03:41,  3.42it/s] 53%|█████▎    | 198589/371472 [4:44:45<14:49:00,  3.24it/s] 53%|█████▎    | 198590/371472 [4:44:45<14:40:17,  3.27it/s] 53%|█████▎    | 198591/371472 [4:44:46<15:03:38,  3.19it/s] 53%|█████▎    | 198592/371472 [4:44:46<14:35:41,  3.29it/s] 53%|█████▎    | 198593/371472 [4:44:46<14:11:57,  3.38it/s] 53%|█████▎    | 198594/371472 [4:44:46<13:46:49,  3.48it/s] 53%|█████▎    | 198595/371472 [4:44:47<14:20:28,  3.35it/s] 53%|█████▎    | 198596/371472 [4:44:47<14:20:17,  3.35it/s] 53%|█████▎    | 198597/371472 [4:44:47<13:54:56,  3.45it/s] 53%|█████▎    | 198598/371472 [4:44:48<13:56:57,  3.44it/s] 53%|█████▎    | 198599/371472 [4:44:48<13:25:48,  3.58it/s] 53%|█████▎    | 198600/371472 [4:44:48<14:17:46,  3.36it/s]                                                            {'loss': 2.973, 'learning_rate': 5.190588032493697e-07, 'epoch': 8.55}
 53%|█████▎    | 198600/371472 [4:44:48<14:17:46,  3.36it/s] 53%|█████▎    | 198601/371472 [4:44:49<14:25:41,  3.33it/s] 53%|█████▎    | 198602/371472 [4:44:49<13:56:52,  3.44it/s] 53%|█████▎    | 198603/371472 [4:44:49<14:21:21,  3.34it/s] 53%|█████▎    | 198604/371472 [4:44:49<13:40:54,  3.51it/s] 53%|█████▎    | 198605/371472 [4:44:50<13:22:32,  3.59it/s] 53%|█████▎    | 198606/371472 [4:44:50<13:18:08,  3.61it/s] 53%|█████▎    | 198607/371472 [4:44:50<13:09:59,  3.65it/s] 53%|█████▎    | 198608/371472 [4:44:51<13:38:50,  3.52it/s] 53%|█████▎    | 198609/371472 [4:44:51<13:23:40,  3.58it/s] 53%|█████▎    | 198610/371472 [4:44:51<13:31:57,  3.55it/s] 53%|█████▎    | 198611/371472 [4:44:51<14:21:15,  3.35it/s] 53%|█████▎    | 198612/371472 [4:44:52<13:52:33,  3.46it/s] 53%|█████▎    | 198613/371472 [4:44:52<13:32:22,  3.55it/s] 53%|█████▎    | 198614/371472 [4:44:52<13:47:51,  3.48it/s] 53%|█████▎    | 198615/371472 [4:44:53<15:10:13,  3.17it/s] 53%|█████▎    | 198616/371472 [4:44:53<14:33:59,  3.30it/s] 53%|█████▎    | 198617/371472 [4:44:53<14:14:40,  3.37it/s] 53%|█████▎    | 198618/371472 [4:44:53<14:00:57,  3.43it/s] 53%|█████▎    | 198619/371472 [4:44:54<14:03:03,  3.42it/s] 53%|█████▎    | 198620/371472 [4:44:54<13:38:58,  3.52it/s]                                                            {'loss': 2.8671, 'learning_rate': 5.190103212738907e-07, 'epoch': 8.55}
 53%|█████▎    | 198620/371472 [4:44:54<13:38:58,  3.52it/s] 53%|█████▎    | 198621/371472 [4:44:54<14:05:04,  3.41it/s] 53%|█████▎    | 198622/371472 [4:44:55<13:40:45,  3.51it/s] 53%|█████▎    | 198623/371472 [4:44:55<13:27:32,  3.57it/s] 53%|█████▎    | 198624/371472 [4:44:55<13:19:53,  3.60it/s] 53%|█████▎    | 198625/371472 [4:44:56<14:28:53,  3.32it/s] 53%|█████▎    | 198626/371472 [4:44:56<14:24:58,  3.33it/s] 53%|█████▎    | 198627/371472 [4:44:56<13:39:58,  3.51it/s] 53%|█████▎    | 198628/371472 [4:44:56<13:12:25,  3.64it/s] 53%|█████▎    | 198629/371472 [4:44:57<13:25:47,  3.58it/s] 53%|█████▎    | 198630/371472 [4:44:57<13:38:58,  3.52it/s] 53%|█████▎    | 198631/371472 [4:44:57<13:03:09,  3.68it/s] 53%|█████▎    | 198632/371472 [4:44:57<12:54:01,  3.72it/s] 53%|█████▎    | 198633/371472 [4:44:58<12:40:32,  3.79it/s] 53%|█████▎    | 198634/371472 [4:44:58<12:35:08,  3.81it/s] 53%|█████▎    | 198635/371472 [4:44:58<12:26:08,  3.86it/s] 53%|█████▎    | 198636/371472 [4:44:58<12:10:43,  3.94it/s] 53%|█████▎    | 198637/371472 [4:44:59<12:27:37,  3.85it/s] 53%|█████▎    | 198638/371472 [4:44:59<13:43:25,  3.50it/s] 53%|█████▎    | 198639/371472 [4:44:59<13:22:27,  3.59it/s] 53%|█████▎    | 198640/371472 [4:45:00<13:51:58,  3.46it/s]                                                            {'loss': 2.9236, 'learning_rate': 5.18961839298412e-07, 'epoch': 8.56}
 53%|█████▎    | 198640/371472 [4:45:00<13:51:58,  3.46it/s] 53%|█████▎    | 198641/371472 [4:45:00<13:25:55,  3.57it/s] 53%|█████▎    | 198642/371472 [4:45:00<13:57:48,  3.44it/s] 53%|█████▎    | 198643/371472 [4:45:00<13:34:17,  3.54it/s] 53%|█████▎    | 198644/371472 [4:45:01<13:09:49,  3.65it/s] 53%|█████▎    | 198645/371472 [4:45:01<14:08:04,  3.40it/s] 53%|█████▎    | 198646/371472 [4:45:01<13:36:28,  3.53it/s] 53%|█████▎    | 198647/371472 [4:45:02<13:24:39,  3.58it/s] 53%|█████▎    | 198648/371472 [4:45:02<14:47:54,  3.24it/s] 53%|█████▎    | 198649/371472 [4:45:02<14:52:57,  3.23it/s] 53%|█████▎    | 198650/371472 [4:45:03<16:01:10,  3.00it/s] 53%|█████▎    | 198651/371472 [4:45:03<15:23:33,  3.12it/s] 53%|█████▎    | 198652/371472 [4:45:03<16:19:01,  2.94it/s] 53%|█████▎    | 198653/371472 [4:45:04<15:08:35,  3.17it/s] 53%|█████▎    | 198654/371472 [4:45:04<15:01:34,  3.19it/s] 53%|█████▎    | 198655/371472 [4:45:04<14:19:07,  3.35it/s] 53%|█████▎    | 198656/371472 [4:45:04<13:44:41,  3.49it/s] 53%|█████▎    | 198657/371472 [4:45:05<14:07:59,  3.40it/s] 53%|█████▎    | 198658/371472 [4:45:05<13:43:48,  3.50it/s] 53%|█████▎    | 198659/371472 [4:45:05<13:30:33,  3.55it/s] 53%|█████▎    | 198660/371472 [4:45:06<13:11:28,  3.64it/s]                                                            {'loss': 2.9557, 'learning_rate': 5.18913357322933e-07, 'epoch': 8.56}
 53%|█████▎    | 198660/371472 [4:45:06<13:11:28,  3.64it/s] 53%|█████▎    | 198661/371472 [4:45:06<13:07:25,  3.66it/s] 53%|█████▎    | 198662/371472 [4:45:06<13:40:05,  3.51it/s] 53%|█████▎    | 198663/371472 [4:45:06<13:40:00,  3.51it/s] 53%|█████▎    | 198664/371472 [4:45:07<14:05:44,  3.41it/s] 53%|█████▎    | 198665/371472 [4:45:07<14:16:30,  3.36it/s] 53%|█████▎    | 198666/371472 [4:45:07<13:48:51,  3.47it/s] 53%|█████▎    | 198667/371472 [4:45:08<15:14:38,  3.15it/s] 53%|█████▎    | 198668/371472 [4:45:08<14:39:04,  3.28it/s] 53%|█████▎    | 198669/371472 [4:45:08<14:41:32,  3.27it/s] 53%|█████▎    | 198670/371472 [4:45:09<14:30:22,  3.31it/s] 53%|█████▎    | 198671/371472 [4:45:09<14:24:48,  3.33it/s] 53%|█████▎    | 198672/371472 [4:45:09<14:04:11,  3.41it/s] 53%|█████▎    | 198673/371472 [4:45:09<15:26:58,  3.11it/s] 53%|█████▎    | 198674/371472 [4:45:10<15:32:19,  3.09it/s] 53%|█████▎    | 198675/371472 [4:45:10<15:21:20,  3.13it/s] 53%|█████▎    | 198676/371472 [4:45:10<14:25:15,  3.33it/s] 53%|█████▎    | 198677/371472 [4:45:11<14:15:52,  3.36it/s] 53%|█████▎    | 198678/371472 [4:45:11<14:28:24,  3.32it/s] 53%|█████▎    | 198679/371472 [4:45:11<13:41:04,  3.51it/s] 53%|█████▎    | 198680/371472 [4:45:11<13:30:06,  3.55it/s]                                                            {'loss': 3.1035, 'learning_rate': 5.188648753474542e-07, 'epoch': 8.56}
 53%|█████▎    | 198680/371472 [4:45:12<13:30:06,  3.55it/s] 53%|█████▎    | 198681/371472 [4:45:12<13:19:31,  3.60it/s] 53%|█████▎    | 198682/371472 [4:45:12<13:45:25,  3.49it/s] 53%|█████▎    | 198683/371472 [4:45:12<14:01:51,  3.42it/s] 53%|█████▎    | 198684/371472 [4:45:13<13:55:39,  3.45it/s] 53%|█████▎    | 198685/371472 [4:45:13<13:51:32,  3.46it/s] 53%|█████▎    | 198686/371472 [4:45:13<14:45:25,  3.25it/s] 53%|█████▎    | 198687/371472 [4:45:14<13:47:54,  3.48it/s] 53%|█████▎    | 198688/371472 [4:45:14<15:24:57,  3.11it/s] 53%|█████▎    | 198689/371472 [4:45:14<14:34:02,  3.29it/s] 53%|█████▎    | 198690/371472 [4:45:14<14:13:30,  3.37it/s] 53%|█████▎    | 198691/371472 [4:45:15<13:28:17,  3.56it/s] 53%|█████▎    | 198692/371472 [4:45:15<13:11:36,  3.64it/s] 53%|█████▎    | 198693/371472 [4:45:15<13:12:22,  3.63it/s] 53%|█████▎    | 198694/371472 [4:45:16<14:44:25,  3.26it/s] 53%|█████▎    | 198695/371472 [4:45:16<14:18:20,  3.35it/s] 53%|█████▎    | 198696/371472 [4:45:16<13:44:08,  3.49it/s] 53%|█████▎    | 198697/371472 [4:45:16<13:06:56,  3.66it/s] 53%|█████▎    | 198698/371472 [4:45:17<13:05:09,  3.67it/s] 53%|█████▎    | 198699/371472 [4:45:17<13:13:03,  3.63it/s] 53%|█████▎    | 198700/371472 [4:45:17<13:47:14,  3.48it/s]                                                            {'loss': 3.1742, 'learning_rate': 5.188163933719752e-07, 'epoch': 8.56}
 53%|█████▎    | 198700/371472 [4:45:17<13:47:14,  3.48it/s] 53%|█████▎    | 198701/371472 [4:45:18<13:13:24,  3.63it/s] 53%|█████▎    | 198702/371472 [4:45:18<13:17:28,  3.61it/s] 53%|█████▎    | 198703/371472 [4:45:18<14:08:54,  3.39it/s] 53%|█████▎    | 198704/371472 [4:45:18<14:09:02,  3.39it/s] 53%|█████▎    | 198705/371472 [4:45:19<14:55:30,  3.22it/s] 53%|█████▎    | 198706/371472 [4:45:19<16:06:34,  2.98it/s] 53%|█████▎    | 198707/371472 [4:45:19<14:48:01,  3.24it/s] 53%|█████▎    | 198708/371472 [4:45:20<14:38:58,  3.28it/s] 53%|█████▎    | 198709/371472 [4:45:20<15:01:24,  3.19it/s] 53%|█████▎    | 198710/371472 [4:45:20<14:59:49,  3.20it/s] 53%|█████▎    | 198711/371472 [4:45:21<14:14:31,  3.37it/s] 53%|█████▎    | 198712/371472 [4:45:21<14:01:36,  3.42it/s] 53%|█████▎    | 198713/371472 [4:45:21<14:36:42,  3.28it/s] 53%|█████▎    | 198714/371472 [4:45:22<14:06:18,  3.40it/s] 53%|█████▎    | 198715/371472 [4:45:22<13:48:56,  3.47it/s] 53%|█████▎    | 198716/371472 [4:45:22<13:44:08,  3.49it/s] 53%|█████▎    | 198717/371472 [4:45:22<13:10:44,  3.64it/s] 53%|█████▎    | 198718/371472 [4:45:23<12:56:54,  3.71it/s] 53%|█████▎    | 198719/371472 [4:45:23<13:11:18,  3.64it/s] 53%|█████▎    | 198720/371472 [4:45:23<13:36:50,  3.52it/s]                                                            {'loss': 2.9299, 'learning_rate': 5.187679113964963e-07, 'epoch': 8.56}
 53%|█████▎    | 198720/371472 [4:45:23<13:36:50,  3.52it/s] 53%|█████▎    | 198721/371472 [4:45:23<13:28:19,  3.56it/s] 53%|█████▎    | 198722/371472 [4:45:24<14:05:23,  3.41it/s] 53%|█████▎    | 198723/371472 [4:45:24<14:44:34,  3.25it/s] 53%|█████▎    | 198724/371472 [4:45:24<14:05:20,  3.41it/s] 53%|█████▎    | 198725/371472 [4:45:25<13:23:59,  3.58it/s] 53%|█████▎    | 198726/371472 [4:45:25<13:47:13,  3.48it/s] 53%|█████▎    | 198727/371472 [4:45:25<15:28:36,  3.10it/s] 53%|█████▎    | 198728/371472 [4:45:26<15:14:26,  3.15it/s] 53%|█████▎    | 198729/371472 [4:45:26<14:09:21,  3.39it/s] 53%|█████▎    | 198730/371472 [4:45:26<13:56:03,  3.44it/s] 53%|█████▎    | 198731/371472 [4:45:26<13:44:01,  3.49it/s] 53%|█████▎    | 198732/371472 [4:45:27<13:53:50,  3.45it/s] 53%|█████▎    | 198733/371472 [4:45:27<13:53:09,  3.46it/s] 53%|█████▎    | 198734/371472 [4:45:27<13:13:44,  3.63it/s] 53%|█████▎    | 198735/371472 [4:45:28<12:43:35,  3.77it/s] 53%|█████▎    | 198736/371472 [4:45:28<13:30:47,  3.55it/s] 53%|█████▎    | 198737/371472 [4:45:28<13:16:22,  3.62it/s] 54%|█████▎    | 198738/371472 [4:45:28<12:51:39,  3.73it/s] 54%|█████▎    | 198739/371472 [4:45:29<13:15:38,  3.62it/s] 54%|█████▎    | 198740/371472 [4:45:29<13:00:02,  3.69it/s]                                                            {'loss': 2.9886, 'learning_rate': 5.187194294210174e-07, 'epoch': 8.56}
 54%|█████▎    | 198740/371472 [4:45:29<13:00:02,  3.69it/s] 54%|█████▎    | 198741/371472 [4:45:29<13:29:17,  3.56it/s] 54%|█████▎    | 198742/371472 [4:45:29<13:32:38,  3.54it/s] 54%|█████▎    | 198743/371472 [4:45:30<13:47:08,  3.48it/s] 54%|█████▎    | 198744/371472 [4:45:30<14:52:51,  3.22it/s] 54%|█████▎    | 198745/371472 [4:45:30<14:32:21,  3.30it/s] 54%|█████▎    | 198746/371472 [4:45:31<14:09:45,  3.39it/s] 54%|█████▎    | 198747/371472 [4:45:31<15:10:51,  3.16it/s] 54%|█████▎    | 198748/371472 [4:45:31<16:08:15,  2.97it/s] 54%|█████▎    | 198749/371472 [4:45:32<15:13:31,  3.15it/s] 54%|█████▎    | 198750/371472 [4:45:32<14:35:59,  3.29it/s] 54%|█████▎    | 198751/371472 [4:45:32<13:48:17,  3.48it/s] 54%|█████▎    | 198752/371472 [4:45:33<13:29:41,  3.56it/s] 54%|█████▎    | 198753/371472 [4:45:33<13:32:27,  3.54it/s] 54%|█████▎    | 198754/371472 [4:45:33<14:26:14,  3.32it/s] 54%|█████▎    | 198755/371472 [4:45:33<13:39:01,  3.51it/s] 54%|█████▎    | 198756/371472 [4:45:34<13:30:38,  3.55it/s] 54%|█████▎    | 198757/371472 [4:45:34<13:22:54,  3.59it/s] 54%|█████▎    | 198758/371472 [4:45:34<13:19:41,  3.60it/s] 54%|█████▎    | 198759/371472 [4:45:34<13:17:31,  3.61it/s] 54%|█████▎    | 198760/371472 [4:45:35<15:12:16,  3.16it/s]                                                            {'loss': 2.9554, 'learning_rate': 5.186709474455387e-07, 'epoch': 8.56}
 54%|█████▎    | 198760/371472 [4:45:35<15:12:16,  3.16it/s] 54%|█████▎    | 198761/371472 [4:45:35<14:57:08,  3.21it/s] 54%|█████▎    | 198762/371472 [4:45:35<14:09:20,  3.39it/s] 54%|█████▎    | 198763/371472 [4:45:36<13:42:36,  3.50it/s] 54%|█████▎    | 198764/371472 [4:45:36<15:06:36,  3.17it/s] 54%|█████▎    | 198765/371472 [4:45:36<15:45:24,  3.04it/s] 54%|█████▎    | 198766/371472 [4:45:37<14:32:59,  3.30it/s] 54%|█████▎    | 198767/371472 [4:45:37<14:13:59,  3.37it/s] 54%|█████▎    | 198768/371472 [4:45:37<14:08:34,  3.39it/s] 54%|█████▎    | 198769/371472 [4:45:38<13:47:55,  3.48it/s] 54%|█████▎    | 198770/371472 [4:45:38<13:18:04,  3.61it/s] 54%|█████▎    | 198771/371472 [4:45:38<13:40:00,  3.51it/s] 54%|█████▎    | 198772/371472 [4:45:38<13:39:54,  3.51it/s] 54%|█████▎    | 198773/371472 [4:45:39<13:29:11,  3.56it/s] 54%|█████▎    | 198774/371472 [4:45:39<12:52:00,  3.73it/s] 54%|█████▎    | 198775/371472 [4:45:39<12:35:10,  3.81it/s] 54%|█████▎    | 198776/371472 [4:45:39<12:26:13,  3.86it/s] 54%|█████▎    | 198777/371472 [4:45:40<12:33:02,  3.82it/s] 54%|█████▎    | 198778/371472 [4:45:40<12:34:43,  3.81it/s] 54%|█████▎    | 198779/371472 [4:45:40<12:43:06,  3.77it/s] 54%|█████▎    | 198780/371472 [4:45:40<12:36:04,  3.81it/s]                                                            {'loss': 3.004, 'learning_rate': 5.186224654700596e-07, 'epoch': 8.56}
 54%|█████▎    | 198780/371472 [4:45:40<12:36:04,  3.81it/s] 54%|█████▎    | 198781/371472 [4:45:41<12:57:25,  3.70it/s] 54%|█████▎    | 198782/371472 [4:45:41<13:40:51,  3.51it/s] 54%|█████▎    | 198783/371472 [4:45:41<13:38:39,  3.52it/s] 54%|█████▎    | 198784/371472 [4:45:42<13:34:52,  3.53it/s] 54%|█████▎    | 198785/371472 [4:45:42<13:12:39,  3.63it/s] 54%|█████▎    | 198786/371472 [4:45:42<12:56:58,  3.70it/s] 54%|█████▎    | 198787/371472 [4:45:43<14:48:55,  3.24it/s] 54%|█████▎    | 198788/371472 [4:45:43<14:22:10,  3.34it/s] 54%|█████▎    | 198789/371472 [4:45:43<14:14:22,  3.37it/s] 54%|█████▎    | 198790/371472 [4:45:43<13:49:02,  3.47it/s] 54%|█████▎    | 198791/371472 [4:45:44<14:10:40,  3.38it/s] 54%|█████▎    | 198792/371472 [4:45:44<14:00:17,  3.43it/s] 54%|█████▎    | 198793/371472 [4:45:44<13:35:40,  3.53it/s] 54%|█████▎    | 198794/371472 [4:45:45<13:37:46,  3.52it/s] 54%|█████▎    | 198795/371472 [4:45:45<13:48:39,  3.47it/s] 54%|█████▎    | 198796/371472 [4:45:45<14:40:26,  3.27it/s] 54%|█████▎    | 198797/371472 [4:45:46<15:23:51,  3.12it/s] 54%|█████▎    | 198798/371472 [4:45:46<15:35:46,  3.08it/s] 54%|█████▎    | 198799/371472 [4:45:46<15:07:18,  3.17it/s] 54%|█████▎    | 198800/371472 [4:45:46<14:46:56,  3.24it/s]                                                            {'loss': 2.9637, 'learning_rate': 5.185739834945808e-07, 'epoch': 8.56}
 54%|█████▎    | 198800/371472 [4:45:46<14:46:56,  3.24it/s] 54%|█████▎    | 198801/371472 [4:45:47<14:48:08,  3.24it/s] 54%|█████▎    | 198802/371472 [4:45:47<13:51:54,  3.46it/s] 54%|█████▎    | 198803/371472 [4:45:47<14:09:53,  3.39it/s] 54%|█████▎    | 198804/371472 [4:45:48<13:55:30,  3.44it/s] 54%|█████▎    | 198805/371472 [4:45:48<14:09:16,  3.39it/s] 54%|█████▎    | 198806/371472 [4:45:48<14:43:53,  3.26it/s] 54%|█████▎    | 198807/371472 [4:45:49<14:18:02,  3.35it/s] 54%|█████▎    | 198808/371472 [4:45:49<14:38:14,  3.28it/s] 54%|█████▎    | 198809/371472 [4:45:49<15:11:05,  3.16it/s] 54%|█████▎    | 198810/371472 [4:45:49<15:05:53,  3.18it/s] 54%|█████▎    | 198811/371472 [4:45:50<14:20:50,  3.34it/s] 54%|█████▎    | 198812/371472 [4:45:50<14:38:26,  3.28it/s] 54%|█████▎    | 198813/371472 [4:45:50<13:49:52,  3.47it/s] 54%|█████▎    | 198814/371472 [4:45:51<13:15:18,  3.62it/s] 54%|█████▎    | 198815/371472 [4:45:51<12:58:34,  3.70it/s] 54%|█████▎    | 198816/371472 [4:45:51<12:55:42,  3.71it/s] 54%|█████▎    | 198817/371472 [4:45:51<13:40:38,  3.51it/s] 54%|█████▎    | 198818/371472 [4:45:52<13:56:50,  3.44it/s] 54%|█████▎    | 198819/371472 [4:45:52<13:54:27,  3.45it/s] 54%|█████▎    | 198820/371472 [4:45:52<13:49:00,  3.47it/s]                                                            {'loss': 3.0101, 'learning_rate': 5.185255015191019e-07, 'epoch': 8.56}
 54%|█████▎    | 198820/371472 [4:45:52<13:49:00,  3.47it/s] 54%|█████▎    | 198821/371472 [4:45:53<13:49:09,  3.47it/s] 54%|█████▎    | 198822/371472 [4:45:53<13:25:59,  3.57it/s] 54%|█████▎    | 198823/371472 [4:45:53<13:09:19,  3.65it/s] 54%|█████▎    | 198824/371472 [4:45:53<13:26:47,  3.57it/s] 54%|█████▎    | 198825/371472 [4:45:54<13:39:53,  3.51it/s] 54%|█████▎    | 198826/371472 [4:45:54<14:32:10,  3.30it/s] 54%|█████▎    | 198827/371472 [4:45:54<13:52:27,  3.46it/s] 54%|█████▎    | 198828/371472 [4:45:55<13:11:01,  3.64it/s] 54%|█████▎    | 198829/371472 [4:45:55<13:53:05,  3.45it/s] 54%|█████▎    | 198830/371472 [4:45:55<13:50:17,  3.47it/s] 54%|█████▎    | 198831/371472 [4:45:55<14:39:33,  3.27it/s] 54%|█████▎    | 198832/371472 [4:45:56<14:08:30,  3.39it/s] 54%|█████▎    | 198833/371472 [4:45:56<13:44:50,  3.49it/s] 54%|█████▎    | 198834/371472 [4:45:56<13:43:39,  3.49it/s] 54%|█████▎    | 198835/371472 [4:45:57<13:26:38,  3.57it/s] 54%|█████▎    | 198836/371472 [4:45:57<13:15:01,  3.62it/s] 54%|█████▎    | 198837/371472 [4:45:57<13:11:55,  3.63it/s] 54%|█████▎    | 198838/371472 [4:45:57<13:04:07,  3.67it/s] 54%|█████▎    | 198839/371472 [4:45:58<13:42:15,  3.50it/s] 54%|█████▎    | 198840/371472 [4:45:58<13:12:55,  3.63it/s]                                                            {'loss': 3.1667, 'learning_rate': 5.184770195436229e-07, 'epoch': 8.56}
 54%|█████▎    | 198840/371472 [4:45:58<13:12:55,  3.63it/s] 54%|█████▎    | 198841/371472 [4:45:58<12:54:13,  3.72it/s] 54%|█████▎    | 198842/371472 [4:45:58<12:56:15,  3.71it/s] 54%|█████▎    | 198843/371472 [4:45:59<13:10:49,  3.64it/s] 54%|█████▎    | 198844/371472 [4:45:59<14:36:41,  3.28it/s] 54%|█████▎    | 198845/371472 [4:45:59<14:01:06,  3.42it/s] 54%|█████▎    | 198846/371472 [4:46:00<13:29:31,  3.55it/s] 54%|█████▎    | 198847/371472 [4:46:00<13:30:31,  3.55it/s] 54%|█████▎    | 198848/371472 [4:46:00<13:20:17,  3.60it/s] 54%|█████▎    | 198849/371472 [4:46:00<12:54:45,  3.71it/s] 54%|█████▎    | 198850/371472 [4:46:01<12:50:12,  3.74it/s] 54%|█████▎    | 198851/371472 [4:46:01<12:52:58,  3.72it/s] 54%|█████▎    | 198852/371472 [4:46:01<13:02:26,  3.68it/s] 54%|█████▎    | 198853/371472 [4:46:02<12:45:24,  3.76it/s] 54%|█████▎    | 198854/371472 [4:46:02<12:38:22,  3.79it/s] 54%|█████▎    | 198855/371472 [4:46:02<13:13:53,  3.62it/s] 54%|█████▎    | 198856/371472 [4:46:02<13:08:32,  3.65it/s] 54%|█████▎    | 198857/371472 [4:46:03<13:01:37,  3.68it/s] 54%|█████▎    | 198858/371472 [4:46:03<12:36:01,  3.81it/s] 54%|█████▎    | 198859/371472 [4:46:03<12:36:25,  3.80it/s] 54%|█████▎    | 198860/371472 [4:46:03<12:38:38,  3.79it/s]                                                            {'loss': 3.0011, 'learning_rate': 5.18428537568144e-07, 'epoch': 8.57}
 54%|█████▎    | 198860/371472 [4:46:03<12:38:38,  3.79it/s] 54%|█████▎    | 198861/371472 [4:46:04<12:55:46,  3.71it/s] 54%|█████▎    | 198862/371472 [4:46:04<13:35:17,  3.53it/s] 54%|█████▎    | 198863/371472 [4:46:04<13:30:59,  3.55it/s] 54%|█████▎    | 198864/371472 [4:46:05<13:26:52,  3.57it/s] 54%|█████▎    | 198865/371472 [4:46:05<13:05:08,  3.66it/s] 54%|█████▎    | 198866/371472 [4:46:05<12:58:01,  3.70it/s] 54%|█████▎    | 198867/371472 [4:46:05<13:02:22,  3.68it/s] 54%|█████▎    | 198868/371472 [4:46:06<13:44:04,  3.49it/s] 54%|█████▎    | 198869/371472 [4:46:06<14:15:05,  3.36it/s] 54%|█████▎    | 198870/371472 [4:46:06<14:32:19,  3.30it/s] 54%|█████▎    | 198871/371472 [4:46:07<14:22:08,  3.34it/s] 54%|█████▎    | 198872/371472 [4:46:07<14:04:27,  3.41it/s] 54%|█████▎    | 198873/371472 [4:46:07<13:22:21,  3.59it/s] 54%|█████▎    | 198874/371472 [4:46:07<13:30:54,  3.55it/s] 54%|█████▎    | 198875/371472 [4:46:08<13:22:57,  3.58it/s] 54%|█████▎    | 198876/371472 [4:46:08<13:04:13,  3.67it/s] 54%|█████▎    | 198877/371472 [4:46:08<13:26:56,  3.56it/s] 54%|█████▎    | 198878/371472 [4:46:08<13:02:07,  3.68it/s] 54%|█████▎    | 198879/371472 [4:46:09<12:55:01,  3.71it/s] 54%|█████▎    | 198880/371472 [4:46:09<13:03:46,  3.67it/s]                                                            {'loss': 2.9222, 'learning_rate': 5.183800555926653e-07, 'epoch': 8.57}
 54%|█████▎    | 198880/371472 [4:46:09<13:03:46,  3.67it/s] 54%|█████▎    | 198881/371472 [4:46:09<13:01:03,  3.68it/s] 54%|█████▎    | 198882/371472 [4:46:10<13:18:12,  3.60it/s] 54%|█████▎    | 198883/371472 [4:46:10<13:12:47,  3.63it/s] 54%|█████▎    | 198884/371472 [4:46:10<12:43:46,  3.77it/s] 54%|█████▎    | 198885/371472 [4:46:10<12:33:15,  3.82it/s] 54%|█████▎    | 198886/371472 [4:46:11<12:39:39,  3.79it/s] 54%|█████▎    | 198887/371472 [4:46:11<13:28:28,  3.56it/s] 54%|█████▎    | 198888/371472 [4:46:11<13:38:28,  3.51it/s] 54%|█████▎    | 198889/371472 [4:46:12<13:13:01,  3.63it/s] 54%|█████▎    | 198890/371472 [4:46:12<13:05:20,  3.66it/s] 54%|█████▎    | 198891/371472 [4:46:12<14:22:54,  3.33it/s] 54%|█████▎    | 198892/371472 [4:46:13<15:31:43,  3.09it/s] 54%|█████▎    | 198893/371472 [4:46:13<14:43:00,  3.26it/s] 54%|█████▎    | 198894/371472 [4:46:13<16:23:28,  2.92it/s] 54%|█████▎    | 198895/371472 [4:46:14<15:47:43,  3.03it/s] 54%|█████▎    | 198896/371472 [4:46:14<15:09:43,  3.16it/s] 54%|█████▎    | 198897/371472 [4:46:14<14:36:50,  3.28it/s] 54%|█████▎    | 198898/371472 [4:46:14<13:52:57,  3.45it/s] 54%|█████▎    | 198899/371472 [4:46:15<14:08:26,  3.39it/s] 54%|█████▎    | 198900/371472 [4:46:15<13:36:43,  3.52it/s]                                                            {'loss': 2.9563, 'learning_rate': 5.183315736171863e-07, 'epoch': 8.57}
 54%|█████▎    | 198900/371472 [4:46:15<13:36:43,  3.52it/s] 54%|█████▎    | 198901/371472 [4:46:15<13:13:16,  3.63it/s] 54%|█████▎    | 198902/371472 [4:46:15<13:46:37,  3.48it/s] 54%|█████▎    | 198903/371472 [4:46:16<13:52:12,  3.46it/s] 54%|█████▎    | 198904/371472 [4:46:16<13:47:50,  3.47it/s] 54%|█████▎    | 198905/371472 [4:46:16<13:29:05,  3.55it/s] 54%|█████▎    | 198906/371472 [4:46:17<13:01:01,  3.68it/s] 54%|█████▎    | 198907/371472 [4:46:17<13:40:12,  3.51it/s] 54%|█████▎    | 198908/371472 [4:46:17<13:44:48,  3.49it/s] 54%|█████▎    | 198909/371472 [4:46:17<13:26:35,  3.57it/s] 54%|█████▎    | 198910/371472 [4:46:18<14:03:07,  3.41it/s] 54%|█████▎    | 198911/371472 [4:46:18<13:55:58,  3.44it/s] 54%|█████▎    | 198912/371472 [4:46:18<13:42:23,  3.50it/s] 54%|█████▎    | 198913/371472 [4:46:19<13:27:47,  3.56it/s] 54%|█████▎    | 198914/371472 [4:46:19<13:30:21,  3.55it/s] 54%|█████▎    | 198915/371472 [4:46:19<13:45:52,  3.48it/s] 54%|█████▎    | 198916/371472 [4:46:19<13:20:55,  3.59it/s] 54%|█████▎    | 198917/371472 [4:46:20<13:13:14,  3.63it/s] 54%|█████▎    | 198918/371472 [4:46:20<13:04:21,  3.67it/s] 54%|█████▎    | 198919/371472 [4:46:20<13:26:59,  3.56it/s] 54%|█████▎    | 198920/371472 [4:46:21<13:35:06,  3.53it/s]                                                            {'loss': 2.9718, 'learning_rate': 5.182830916417074e-07, 'epoch': 8.57}
 54%|█████▎    | 198920/371472 [4:46:21<13:35:06,  3.53it/s] 54%|█████▎    | 198921/371472 [4:46:21<13:44:44,  3.49it/s] 54%|█████▎    | 198922/371472 [4:46:21<13:42:00,  3.50it/s] 54%|█████▎    | 198923/371472 [4:46:21<13:49:20,  3.47it/s] 54%|█████▎    | 198924/371472 [4:46:22<14:35:30,  3.28it/s] 54%|█████▎    | 198925/371472 [4:46:22<14:09:09,  3.39it/s] 54%|█████▎    | 198926/371472 [4:46:22<13:46:35,  3.48it/s] 54%|█████▎    | 198927/371472 [4:46:23<15:02:43,  3.19it/s] 54%|█████▎    | 198928/371472 [4:46:23<13:57:35,  3.43it/s] 54%|█████▎    | 198929/371472 [4:46:23<13:51:41,  3.46it/s] 54%|█████▎    | 198930/371472 [4:46:23<13:35:13,  3.53it/s] 54%|█████▎    | 198931/371472 [4:46:24<13:43:52,  3.49it/s] 54%|█████▎    | 198932/371472 [4:46:24<15:12:03,  3.15it/s] 54%|█████▎    | 198933/371472 [4:46:24<15:00:23,  3.19it/s] 54%|█████▎    | 198934/371472 [4:46:25<14:20:28,  3.34it/s] 54%|█████▎    | 198935/371472 [4:46:25<14:19:34,  3.35it/s] 54%|█████▎    | 198936/371472 [4:46:25<13:57:32,  3.43it/s] 54%|█████▎    | 198937/371472 [4:46:26<14:11:08,  3.38it/s] 54%|█████▎    | 198938/371472 [4:46:26<13:55:38,  3.44it/s] 54%|█████▎    | 198939/371472 [4:46:26<14:56:46,  3.21it/s] 54%|█████▎    | 198940/371472 [4:46:27<14:20:06,  3.34it/s]                                                            {'loss': 2.8727, 'learning_rate': 5.182346096662285e-07, 'epoch': 8.57}
 54%|█████▎    | 198940/371472 [4:46:27<14:20:06,  3.34it/s] 54%|█████▎    | 198941/371472 [4:46:27<14:15:34,  3.36it/s] 54%|█████▎    | 198942/371472 [4:46:27<13:40:24,  3.50it/s] 54%|█████▎    | 198943/371472 [4:46:27<13:20:53,  3.59it/s] 54%|█████▎    | 198944/371472 [4:46:28<13:01:56,  3.68it/s] 54%|█████▎    | 198945/371472 [4:46:28<12:43:48,  3.76it/s] 54%|█████▎    | 198946/371472 [4:46:28<12:57:44,  3.70it/s] 54%|█████▎    | 198947/371472 [4:46:28<14:07:47,  3.39it/s] 54%|█████▎    | 198948/371472 [4:46:29<14:06:13,  3.40it/s] 54%|█████▎    | 198949/371472 [4:46:29<14:24:44,  3.33it/s] 54%|█████▎    | 198950/371472 [4:46:29<14:36:18,  3.28it/s] 54%|█████▎    | 198951/371472 [4:46:30<14:07:20,  3.39it/s] 54%|█████▎    | 198952/371472 [4:46:30<13:51:43,  3.46it/s] 54%|█████▎    | 198953/371472 [4:46:30<14:13:10,  3.37it/s] 54%|█████▎    | 198954/371472 [4:46:31<13:52:27,  3.45it/s] 54%|█████▎    | 198955/371472 [4:46:31<13:31:33,  3.54it/s] 54%|█████▎    | 198956/371472 [4:46:31<13:13:13,  3.62it/s] 54%|█████▎    | 198957/371472 [4:46:31<13:10:30,  3.64it/s] 54%|█████▎    | 198958/371472 [4:46:32<13:15:07,  3.62it/s] 54%|█████▎    | 198959/371472 [4:46:32<13:12:14,  3.63it/s] 54%|█████▎    | 198960/371472 [4:46:32<13:24:29,  3.57it/s]                                                            {'loss': 2.8712, 'learning_rate': 5.181861276907496e-07, 'epoch': 8.57}
 54%|█████▎    | 198960/371472 [4:46:32<13:24:29,  3.57it/s] 54%|█████▎    | 198961/371472 [4:46:32<13:10:22,  3.64it/s] 54%|█████▎    | 198962/371472 [4:46:33<13:11:05,  3.63it/s] 54%|█████▎    | 198963/371472 [4:46:33<13:01:02,  3.68it/s] 54%|█████▎    | 198964/371472 [4:46:33<12:41:12,  3.78it/s] 54%|█████▎    | 198965/371472 [4:46:33<12:47:02,  3.75it/s] 54%|█████▎    | 198966/371472 [4:46:34<12:57:02,  3.70it/s] 54%|█████▎    | 198967/371472 [4:46:34<13:09:41,  3.64it/s] 54%|█████▎    | 198968/371472 [4:46:34<13:37:27,  3.52it/s] 54%|█████▎    | 198969/371472 [4:46:35<13:10:54,  3.64it/s] 54%|█████▎    | 198970/371472 [4:46:35<12:44:37,  3.76it/s] 54%|█████▎    | 198971/371472 [4:46:35<12:30:33,  3.83it/s] 54%|█████▎    | 198972/371472 [4:46:35<12:10:55,  3.93it/s] 54%|█████▎    | 198973/371472 [4:46:36<11:49:42,  4.05it/s] 54%|█████▎    | 198974/371472 [4:46:36<12:03:09,  3.98it/s] 54%|█████▎    | 198975/371472 [4:46:36<12:33:26,  3.82it/s] 54%|█████▎    | 198976/371472 [4:46:36<12:33:51,  3.81it/s] 54%|█████▎    | 198977/371472 [4:46:37<12:20:52,  3.88it/s] 54%|█████▎    | 198978/371472 [4:46:37<12:47:08,  3.75it/s] 54%|█████▎    | 198979/371472 [4:46:37<12:22:54,  3.87it/s] 54%|█████▎    | 198980/371472 [4:46:37<12:29:56,  3.83it/s]                                                            {'loss': 2.8411, 'learning_rate': 5.181376457152707e-07, 'epoch': 8.57}
 54%|█████▎    | 198980/371472 [4:46:37<12:29:56,  3.83it/s] 54%|█████▎    | 198981/371472 [4:46:38<12:25:13,  3.86it/s] 54%|█████▎    | 198982/371472 [4:46:38<12:23:44,  3.87it/s] 54%|█████▎    | 198983/371472 [4:46:38<12:16:24,  3.90it/s] 54%|█████▎    | 198984/371472 [4:46:39<13:25:44,  3.57it/s] 54%|█████▎    | 198985/371472 [4:46:39<12:42:18,  3.77it/s] 54%|█████▎    | 198986/371472 [4:46:39<12:17:45,  3.90it/s] 54%|█████▎    | 198987/371472 [4:46:39<13:53:39,  3.45it/s] 54%|█████▎    | 198988/371472 [4:46:40<14:00:46,  3.42it/s] 54%|█████▎    | 198989/371472 [4:46:40<13:27:38,  3.56it/s] 54%|█████▎    | 198990/371472 [4:46:40<13:45:24,  3.48it/s] 54%|█████▎    | 198991/371472 [4:46:40<13:27:37,  3.56it/s] 54%|█████▎    | 198992/371472 [4:46:41<13:20:07,  3.59it/s] 54%|█████▎    | 198993/371472 [4:46:41<15:13:24,  3.15it/s] 54%|█████▎    | 198994/371472 [4:46:41<14:53:31,  3.22it/s] 54%|█████▎    | 198995/371472 [4:46:42<14:19:18,  3.35it/s] 54%|█████▎    | 198996/371472 [4:46:42<13:42:59,  3.49it/s] 54%|█████▎    | 198997/371472 [4:46:42<13:11:17,  3.63it/s] 54%|█████▎    | 198998/371472 [4:46:43<13:06:42,  3.65it/s] 54%|█████▎    | 198999/371472 [4:46:43<14:02:13,  3.41it/s] 54%|█████▎    | 199000/371472 [4:46:43<13:55:21,  3.44it/s]                                                            {'loss': 3.1018, 'learning_rate': 5.180891637397917e-07, 'epoch': 8.57}
 54%|█████▎    | 199000/371472 [4:46:43<13:55:21,  3.44it/s] 54%|█████▎    | 199001/371472 [4:46:43<14:24:29,  3.33it/s] 54%|█████▎    | 199002/371472 [4:46:44<13:55:43,  3.44it/s] 54%|█████▎    | 199003/371472 [4:46:44<13:38:32,  3.51it/s] 54%|█████▎    | 199004/371472 [4:46:44<13:48:50,  3.47it/s] 54%|█████▎    | 199005/371472 [4:46:45<12:59:22,  3.69it/s] 54%|█████▎    | 199006/371472 [4:46:45<13:52:51,  3.45it/s] 54%|█████▎    | 199007/371472 [4:46:45<13:30:16,  3.55it/s] 54%|█████▎    | 199008/371472 [4:46:45<13:25:39,  3.57it/s] 54%|█████▎    | 199009/371472 [4:46:46<13:10:20,  3.64it/s] 54%|█████▎    | 199010/371472 [4:46:46<15:16:38,  3.14it/s] 54%|█████▎    | 199011/371472 [4:46:46<14:34:06,  3.29it/s] 54%|█████▎    | 199012/371472 [4:46:47<13:56:01,  3.44it/s] 54%|█████▎    | 199013/371472 [4:46:47<13:47:01,  3.48it/s] 54%|█████▎    | 199014/371472 [4:46:47<13:54:35,  3.44it/s] 54%|█████▎    | 199015/371472 [4:46:47<13:29:28,  3.55it/s] 54%|█████▎    | 199016/371472 [4:46:48<13:13:03,  3.62it/s] 54%|█████▎    | 199017/371472 [4:46:48<13:47:38,  3.47it/s] 54%|█████▎    | 199018/371472 [4:46:48<13:34:18,  3.53it/s] 54%|█████▎    | 199019/371472 [4:46:49<13:21:06,  3.59it/s] 54%|█████▎    | 199020/371472 [4:46:49<13:05:52,  3.66it/s]                                                            {'loss': 2.9987, 'learning_rate': 5.18040681764313e-07, 'epoch': 8.57}
 54%|█████▎    | 199020/371472 [4:46:49<13:05:52,  3.66it/s] 54%|█████▎    | 199021/371472 [4:46:49<13:04:14,  3.66it/s] 54%|█████▎    | 199022/371472 [4:46:49<12:53:18,  3.72it/s] 54%|█████▎    | 199023/371472 [4:46:50<13:00:07,  3.68it/s] 54%|█████▎    | 199024/371472 [4:46:50<13:36:46,  3.52it/s] 54%|█████▎    | 199025/371472 [4:46:50<13:15:18,  3.61it/s] 54%|█████▎    | 199026/371472 [4:46:50<13:18:49,  3.60it/s] 54%|█████▎    | 199027/371472 [4:46:51<14:13:19,  3.37it/s] 54%|█████▎    | 199028/371472 [4:46:51<13:53:02,  3.45it/s] 54%|█████▎    | 199029/371472 [4:46:51<13:54:15,  3.45it/s] 54%|█████▎    | 199030/371472 [4:46:52<13:32:54,  3.54it/s] 54%|█████▎    | 199031/371472 [4:46:52<15:01:06,  3.19it/s] 54%|█████▎    | 199032/371472 [4:46:52<14:23:32,  3.33it/s] 54%|█████▎    | 199033/371472 [4:46:53<14:19:21,  3.34it/s] 54%|█████▎    | 199034/371472 [4:46:53<14:53:40,  3.22it/s] 54%|█████▎    | 199035/371472 [4:46:53<14:24:42,  3.32it/s] 54%|█████▎    | 199036/371472 [4:46:54<14:10:48,  3.38it/s] 54%|█████▎    | 199037/371472 [4:46:54<14:00:43,  3.42it/s] 54%|█████▎    | 199038/371472 [4:46:54<14:30:24,  3.30it/s] 54%|█████▎    | 199039/371472 [4:46:54<14:18:09,  3.35it/s] 54%|█████▎    | 199040/371472 [4:46:55<13:29:37,  3.55it/s]                                                            {'loss': 2.7815, 'learning_rate': 5.17992199788834e-07, 'epoch': 8.57}
 54%|█████▎    | 199040/371472 [4:46:55<13:29:37,  3.55it/s] 54%|█████▎    | 199041/371472 [4:46:55<12:58:21,  3.69it/s] 54%|█████▎    | 199042/371472 [4:46:55<12:55:11,  3.71it/s] 54%|█████▎    | 199043/371472 [4:46:56<13:59:47,  3.42it/s] 54%|█████▎    | 199044/371472 [4:46:56<13:26:03,  3.57it/s] 54%|█████▎    | 199045/371472 [4:46:56<13:57:32,  3.43it/s] 54%|█████▎    | 199046/371472 [4:46:56<13:39:57,  3.50it/s] 54%|█████▎    | 199047/371472 [4:46:57<13:26:40,  3.56it/s] 54%|█████▎    | 199048/371472 [4:46:57<14:02:56,  3.41it/s] 54%|█████▎    | 199049/371472 [4:46:57<14:07:49,  3.39it/s] 54%|█████▎    | 199050/371472 [4:46:58<13:55:17,  3.44it/s] 54%|█████▎    | 199051/371472 [4:46:58<14:25:13,  3.32it/s] 54%|█████▎    | 199052/371472 [4:46:58<13:58:47,  3.43it/s] 54%|█████▎    | 199053/371472 [4:46:58<13:23:25,  3.58it/s] 54%|█████▎    | 199054/371472 [4:46:59<13:06:59,  3.65it/s] 54%|█████▎    | 199055/371472 [4:46:59<13:27:27,  3.56it/s] 54%|█████▎    | 199056/371472 [4:46:59<13:05:32,  3.66it/s] 54%|█████▎    | 199057/371472 [4:46:59<13:40:40,  3.50it/s] 54%|█████▎    | 199058/371472 [4:47:00<13:15:03,  3.61it/s] 54%|█████▎    | 199059/371472 [4:47:00<14:40:57,  3.26it/s] 54%|█████▎    | 199060/371472 [4:47:00<14:54:33,  3.21it/s]                                                            {'loss': 2.9487, 'learning_rate': 5.179437178133552e-07, 'epoch': 8.57}
 54%|█████▎    | 199060/371472 [4:47:00<14:54:33,  3.21it/s] 54%|█████▎    | 199061/371472 [4:47:01<14:28:17,  3.31it/s] 54%|█████▎    | 199062/371472 [4:47:01<14:08:18,  3.39it/s] 54%|█████▎    | 199063/371472 [4:47:01<13:54:12,  3.44it/s] 54%|█████▎    | 199064/371472 [4:47:02<15:23:30,  3.11it/s] 54%|█████▎    | 199065/371472 [4:47:02<14:45:46,  3.24it/s] 54%|█████▎    | 199066/371472 [4:47:02<14:44:19,  3.25it/s] 54%|█████▎    | 199067/371472 [4:47:03<14:05:12,  3.40it/s] 54%|█████▎    | 199068/371472 [4:47:03<13:32:13,  3.54it/s] 54%|█████▎    | 199069/371472 [4:47:03<13:37:25,  3.52it/s] 54%|█████▎    | 199070/371472 [4:47:03<13:15:18,  3.61it/s] 54%|█████▎    | 199071/371472 [4:47:04<13:24:04,  3.57it/s] 54%|█████▎    | 199072/371472 [4:47:04<14:14:48,  3.36it/s] 54%|█████▎    | 199073/371472 [4:47:04<13:44:58,  3.48it/s] 54%|█████▎    | 199074/371472 [4:47:04<13:37:14,  3.52it/s] 54%|█████▎    | 199075/371472 [4:47:05<14:09:54,  3.38it/s] 54%|█████▎    | 199076/371472 [4:47:05<14:40:21,  3.26it/s] 54%|█████▎    | 199077/371472 [4:47:05<14:32:44,  3.29it/s] 54%|█████▎    | 199078/371472 [4:47:06<14:36:06,  3.28it/s] 54%|█████▎    | 199079/371472 [4:47:06<14:05:19,  3.40it/s] 54%|█████▎    | 199080/371472 [4:47:07<16:43:30,  2.86it/s]                                                            {'loss': 3.0182, 'learning_rate': 5.178952358378762e-07, 'epoch': 8.57}
 54%|█████▎    | 199080/371472 [4:47:07<16:43:30,  2.86it/s] 54%|█████▎    | 199081/371472 [4:47:07<16:42:41,  2.87it/s] 54%|█████▎    | 199082/371472 [4:47:07<16:17:02,  2.94it/s] 54%|█████▎    | 199083/371472 [4:47:07<15:04:01,  3.18it/s] 54%|█████▎    | 199084/371472 [4:47:08<14:38:01,  3.27it/s] 54%|█████▎    | 199085/371472 [4:47:08<14:10:35,  3.38it/s] 54%|█████▎    | 199086/371472 [4:47:08<14:17:08,  3.35it/s] 54%|█████▎    | 199087/371472 [4:47:09<14:51:56,  3.22it/s] 54%|█████▎    | 199088/371472 [4:47:09<14:03:31,  3.41it/s] 54%|█████▎    | 199089/371472 [4:47:09<13:50:50,  3.46it/s] 54%|█████▎    | 199090/371472 [4:47:09<14:03:58,  3.40it/s] 54%|█████▎    | 199091/371472 [4:47:10<13:44:36,  3.48it/s] 54%|█████▎    | 199092/371472 [4:47:10<13:54:57,  3.44it/s] 54%|█████▎    | 199093/371472 [4:47:10<13:28:42,  3.55it/s] 54%|█████▎    | 199094/371472 [4:47:11<13:01:04,  3.68it/s] 54%|█████▎    | 199095/371472 [4:47:11<12:55:25,  3.70it/s] 54%|█████▎    | 199096/371472 [4:47:11<13:00:07,  3.68it/s] 54%|█████▎    | 199097/371472 [4:47:11<12:51:43,  3.72it/s] 54%|█████▎    | 199098/371472 [4:47:12<13:50:16,  3.46it/s] 54%|█████▎    | 199099/371472 [4:47:12<13:25:06,  3.57it/s] 54%|█████▎    | 199100/371472 [4:47:12<13:16:10,  3.61it/s]                                                            {'loss': 2.9533, 'learning_rate': 5.178467538623973e-07, 'epoch': 8.58}
 54%|█████▎    | 199100/371472 [4:47:12<13:16:10,  3.61it/s] 54%|█████▎    | 199101/371472 [4:47:12<12:47:20,  3.74it/s] 54%|█████▎    | 199102/371472 [4:47:13<12:39:24,  3.78it/s] 54%|█████▎    | 199103/371472 [4:47:13<16:36:49,  2.88it/s] 54%|█████▎    | 199104/371472 [4:47:14<16:37:28,  2.88it/s] 54%|█████▎    | 199105/371472 [4:47:14<15:37:34,  3.06it/s] 54%|█████▎    | 199106/371472 [4:47:14<15:35:52,  3.07it/s] 54%|█████▎    | 199107/371472 [4:47:14<14:32:22,  3.29it/s] 54%|█████▎    | 199108/371472 [4:47:15<13:56:26,  3.43it/s] 54%|█████▎    | 199109/371472 [4:47:15<13:55:54,  3.44it/s] 54%|█████▎    | 199110/371472 [4:47:15<14:13:02,  3.37it/s] 54%|█████▎    | 199111/371472 [4:47:16<13:59:41,  3.42it/s] 54%|█████▎    | 199112/371472 [4:47:16<14:39:43,  3.27it/s] 54%|█████▎    | 199113/371472 [4:47:16<15:08:16,  3.16it/s] 54%|█████▎    | 199114/371472 [4:47:17<14:55:31,  3.21it/s] 54%|█████▎    | 199115/371472 [4:47:17<15:14:01,  3.14it/s] 54%|█████▎    | 199116/371472 [4:47:17<15:26:19,  3.10it/s] 54%|█████▎    | 199117/371472 [4:47:18<15:01:19,  3.19it/s] 54%|█████▎    | 199118/371472 [4:47:18<14:58:14,  3.20it/s] 54%|█████▎    | 199119/371472 [4:47:18<14:33:15,  3.29it/s] 54%|█████▎    | 199120/371472 [4:47:18<15:01:14,  3.19it/s]                                                            {'loss': 2.8186, 'learning_rate': 5.177982718869184e-07, 'epoch': 8.58}
 54%|█████▎    | 199120/371472 [4:47:18<15:01:14,  3.19it/s] 54%|█████▎    | 199121/371472 [4:47:19<18:22:07,  2.61it/s] 54%|█████▎    | 199122/371472 [4:47:19<17:14:56,  2.78it/s] 54%|█████▎    | 199123/371472 [4:47:20<16:28:28,  2.91it/s] 54%|█████▎    | 199124/371472 [4:47:20<15:44:01,  3.04it/s] 54%|█████▎    | 199125/371472 [4:47:20<14:44:09,  3.25it/s] 54%|█████▎    | 199126/371472 [4:47:20<14:29:01,  3.31it/s] 54%|█████▎    | 199127/371472 [4:47:21<14:53:20,  3.22it/s] 54%|█████▎    | 199128/371472 [4:47:21<14:33:32,  3.29it/s] 54%|█████▎    | 199129/371472 [4:47:21<14:23:46,  3.33it/s] 54%|█████▎    | 199130/371472 [4:47:22<13:58:59,  3.42it/s] 54%|█████▎    | 199131/371472 [4:47:22<14:15:05,  3.36it/s] 54%|█████▎    | 199132/371472 [4:47:22<14:31:02,  3.30it/s] 54%|█████▎    | 199133/371472 [4:47:23<14:12:32,  3.37it/s] 54%|█████▎    | 199134/371472 [4:47:23<13:35:29,  3.52it/s] 54%|█████▎    | 199135/371472 [4:47:23<13:44:36,  3.48it/s] 54%|█████▎    | 199136/371472 [4:47:23<13:49:13,  3.46it/s] 54%|█████▎    | 199137/371472 [4:47:24<13:24:51,  3.57it/s] 54%|█████▎    | 199138/371472 [4:47:24<13:07:20,  3.65it/s] 54%|█████▎    | 199139/371472 [4:47:24<12:54:24,  3.71it/s] 54%|█████▎    | 199140/371472 [4:47:25<13:41:48,  3.49it/s]                                                            {'loss': 3.0275, 'learning_rate': 5.177497899114397e-07, 'epoch': 8.58}
 54%|█████▎    | 199140/371472 [4:47:25<13:41:48,  3.49it/s] 54%|█████▎    | 199141/371472 [4:47:25<13:27:47,  3.56it/s] 54%|█████▎    | 199142/371472 [4:47:25<13:08:01,  3.64it/s] 54%|█████▎    | 199143/371472 [4:47:25<13:37:13,  3.51it/s] 54%|█████▎    | 199144/371472 [4:47:26<13:24:59,  3.57it/s] 54%|█████▎    | 199145/371472 [4:47:26<13:21:01,  3.59it/s] 54%|█████▎    | 199146/371472 [4:47:26<13:16:39,  3.61it/s] 54%|█████▎    | 199147/371472 [4:47:26<12:50:18,  3.73it/s] 54%|█████▎    | 199148/371472 [4:47:27<14:04:44,  3.40it/s] 54%|█████▎    | 199149/371472 [4:47:27<13:52:16,  3.45it/s] 54%|█████▎    | 199150/371472 [4:47:27<14:03:09,  3.41it/s] 54%|█████▎    | 199151/371472 [4:47:28<13:50:32,  3.46it/s] 54%|█████▎    | 199152/371472 [4:47:28<14:58:23,  3.20it/s] 54%|█████▎    | 199153/371472 [4:47:28<15:30:28,  3.09it/s] 54%|█████▎    | 199154/371472 [4:47:29<14:47:41,  3.24it/s] 54%|█████▎    | 199155/371472 [4:47:29<14:13:25,  3.37it/s] 54%|█████▎    | 199156/371472 [4:47:29<14:22:46,  3.33it/s] 54%|█████▎    | 199157/371472 [4:47:29<14:04:56,  3.40it/s] 54%|█████▎    | 199158/371472 [4:47:30<14:00:24,  3.42it/s] 54%|█████▎    | 199159/371472 [4:47:30<13:34:56,  3.52it/s] 54%|█████▎    | 199160/371472 [4:47:30<15:39:27,  3.06it/s]                                                            {'loss': 3.0591, 'learning_rate': 5.177013079359607e-07, 'epoch': 8.58}
 54%|█████▎    | 199160/371472 [4:47:30<15:39:27,  3.06it/s] 54%|█████▎    | 199161/371472 [4:47:31<15:06:22,  3.17it/s] 54%|█████▎    | 199162/371472 [4:47:31<14:17:45,  3.35it/s] 54%|█████▎    | 199163/371472 [4:47:31<14:12:20,  3.37it/s] 54%|█████▎    | 199164/371472 [4:47:32<14:24:10,  3.32it/s] 54%|█████▎    | 199165/371472 [4:47:32<13:58:21,  3.43it/s] 54%|█████▎    | 199166/371472 [4:47:32<14:33:54,  3.29it/s] 54%|█████▎    | 199167/371472 [4:47:32<14:11:47,  3.37it/s] 54%|█████▎    | 199168/371472 [4:47:33<13:57:26,  3.43it/s] 54%|█████▎    | 199169/371472 [4:47:33<13:37:50,  3.51it/s] 54%|█████▎    | 199170/371472 [4:47:33<15:04:30,  3.17it/s] 54%|█████▎    | 199171/371472 [4:47:34<14:20:17,  3.34it/s] 54%|█████▎    | 199172/371472 [4:47:34<14:01:15,  3.41it/s] 54%|█████▎    | 199173/371472 [4:47:34<14:42:21,  3.25it/s] 54%|█████▎    | 199174/371472 [4:47:35<13:53:53,  3.44it/s] 54%|█████▎    | 199175/371472 [4:47:35<13:28:55,  3.55it/s] 54%|█████▎    | 199176/371472 [4:47:35<13:08:53,  3.64it/s] 54%|█████▎    | 199177/371472 [4:47:35<12:52:30,  3.72it/s] 54%|█████▎    | 199178/371472 [4:47:36<13:07:28,  3.65it/s] 54%|█████▎    | 199179/371472 [4:47:36<13:02:06,  3.67it/s] 54%|█████▎    | 199180/371472 [4:47:36<13:58:48,  3.42it/s]                                                            {'loss': 2.9116, 'learning_rate': 5.176528259604818e-07, 'epoch': 8.58}
 54%|█████▎    | 199180/371472 [4:47:36<13:58:48,  3.42it/s] 54%|█████▎    | 199181/371472 [4:47:36<13:36:04,  3.52it/s] 54%|█████▎    | 199182/371472 [4:47:37<13:47:46,  3.47it/s] 54%|█████▎    | 199183/371472 [4:47:37<13:08:49,  3.64it/s] 54%|█████▎    | 199184/371472 [4:47:37<12:47:03,  3.74it/s] 54%|█████▎    | 199185/371472 [4:47:38<12:50:35,  3.73it/s] 54%|█████▎    | 199186/371472 [4:47:38<13:05:53,  3.65it/s] 54%|█████▎    | 199187/371472 [4:47:38<12:51:04,  3.72it/s] 54%|█████▎    | 199188/371472 [4:47:38<13:39:53,  3.50it/s] 54%|█████▎    | 199189/371472 [4:47:39<13:48:38,  3.47it/s] 54%|█████▎    | 199190/371472 [4:47:39<13:20:35,  3.59it/s] 54%|█████▎    | 199191/371472 [4:47:39<14:16:14,  3.35it/s] 54%|█████▎    | 199192/371472 [4:47:40<13:54:03,  3.44it/s] 54%|█████▎    | 199193/371472 [4:47:40<13:58:30,  3.42it/s] 54%|█████▎    | 199194/371472 [4:47:40<14:18:17,  3.35it/s] 54%|█████▎    | 199195/371472 [4:47:40<13:36:32,  3.52it/s] 54%|█████▎    | 199196/371472 [4:47:41<13:07:21,  3.65it/s] 54%|█████▎    | 199197/371472 [4:47:41<13:06:37,  3.65it/s] 54%|█████▎    | 199198/371472 [4:47:41<13:26:50,  3.56it/s] 54%|█████▎    | 199199/371472 [4:47:42<12:53:50,  3.71it/s] 54%|█████▎    | 199200/371472 [4:47:42<12:17:29,  3.89it/s]                                                            {'loss': 2.9657, 'learning_rate': 5.176043439850029e-07, 'epoch': 8.58}
 54%|█████▎    | 199200/371472 [4:47:42<12:17:29,  3.89it/s] 54%|█████▎    | 199201/371472 [4:47:42<12:33:17,  3.81it/s] 54%|█████▎    | 199202/371472 [4:47:42<12:59:08,  3.69it/s] 54%|█████▎    | 199203/371472 [4:47:43<12:42:46,  3.76it/s] 54%|█████▎    | 199204/371472 [4:47:43<12:48:14,  3.74it/s] 54%|█████▎    | 199205/371472 [4:47:43<13:11:28,  3.63it/s] 54%|█████▎    | 199206/371472 [4:47:43<13:54:42,  3.44it/s] 54%|█████▎    | 199207/371472 [4:47:44<13:50:06,  3.46it/s] 54%|█████▎    | 199208/371472 [4:47:44<14:00:34,  3.42it/s] 54%|█████▎    | 199209/371472 [4:47:44<13:45:53,  3.48it/s] 54%|█████▎    | 199210/371472 [4:47:45<14:36:11,  3.28it/s] 54%|█████▎    | 199211/371472 [4:47:45<14:02:32,  3.41it/s] 54%|█████▎    | 199212/371472 [4:47:45<13:40:01,  3.50it/s] 54%|█████▎    | 199213/371472 [4:47:45<13:47:04,  3.47it/s] 54%|█████▎    | 199214/371472 [4:47:46<15:01:40,  3.18it/s] 54%|█████▎    | 199215/371472 [4:47:46<15:53:54,  3.01it/s] 54%|█████▎    | 199216/371472 [4:47:46<14:51:05,  3.22it/s] 54%|█████▎    | 199217/371472 [4:47:47<14:26:11,  3.31it/s] 54%|█████▎    | 199218/371472 [4:47:47<14:44:06,  3.25it/s] 54%|█████▎    | 199219/371472 [4:47:47<14:36:47,  3.27it/s] 54%|█████▎    | 199220/371472 [4:47:48<14:04:44,  3.40it/s]                                                            {'loss': 2.9862, 'learning_rate': 5.175558620095239e-07, 'epoch': 8.58}
 54%|█████▎    | 199220/371472 [4:47:48<14:04:44,  3.40it/s] 54%|█████▎    | 199221/371472 [4:47:48<15:25:36,  3.10it/s] 54%|█████▎    | 199222/371472 [4:47:48<14:38:42,  3.27it/s] 54%|█████▎    | 199223/371472 [4:47:49<13:59:59,  3.42it/s] 54%|█████▎    | 199224/371472 [4:47:49<13:50:26,  3.46it/s] 54%|█████▎    | 199225/371472 [4:47:49<13:29:51,  3.54it/s] 54%|█████▎    | 199226/371472 [4:47:49<13:52:28,  3.45it/s] 54%|█████▎    | 199227/371472 [4:47:50<13:42:52,  3.49it/s] 54%|█████▎    | 199228/371472 [4:47:50<14:43:10,  3.25it/s] 54%|█████▎    | 199229/371472 [4:47:50<14:13:02,  3.37it/s] 54%|█████▎    | 199230/371472 [4:47:51<13:59:26,  3.42it/s] 54%|█████▎    | 199231/371472 [4:47:51<13:34:48,  3.52it/s] 54%|█████▎    | 199232/371472 [4:47:51<13:33:48,  3.53it/s] 54%|█████▎    | 199233/371472 [4:47:52<14:24:08,  3.32it/s] 54%|█████▎    | 199234/371472 [4:47:52<14:31:58,  3.29it/s] 54%|█████▎    | 199235/371472 [4:47:52<13:52:06,  3.45it/s] 54%|█████▎    | 199236/371472 [4:47:52<14:04:46,  3.40it/s] 54%|█████▎    | 199237/371472 [4:47:53<14:04:18,  3.40it/s] 54%|█████▎    | 199238/371472 [4:47:53<15:32:31,  3.08it/s] 54%|█████▎    | 199239/371472 [4:47:53<15:24:11,  3.11it/s] 54%|█████▎    | 199240/371472 [4:47:54<14:49:44,  3.23it/s]                                                            {'loss': 2.9942, 'learning_rate': 5.17507380034045e-07, 'epoch': 8.58}
 54%|█████▎    | 199240/371472 [4:47:54<14:49:44,  3.23it/s] 54%|█████▎    | 199241/371472 [4:47:54<14:09:15,  3.38it/s] 54%|█████▎    | 199242/371472 [4:47:54<14:23:31,  3.32it/s] 54%|█████▎    | 199243/371472 [4:47:55<14:33:29,  3.29it/s] 54%|█████▎    | 199244/371472 [4:47:55<14:02:28,  3.41it/s] 54%|█████▎    | 199245/371472 [4:47:55<13:39:30,  3.50it/s] 54%|█████▎    | 199246/371472 [4:47:55<13:24:44,  3.57it/s] 54%|█████▎    | 199247/371472 [4:47:56<13:37:09,  3.51it/s] 54%|█████▎    | 199248/371472 [4:47:56<13:39:43,  3.50it/s] 54%|█████▎    | 199249/371472 [4:47:56<14:14:31,  3.36it/s] 54%|█████▎    | 199250/371472 [4:47:57<13:29:17,  3.55it/s] 54%|█████▎    | 199251/371472 [4:47:57<13:31:37,  3.54it/s] 54%|█████▎    | 199252/371472 [4:47:57<13:21:14,  3.58it/s] 54%|█████▎    | 199253/371472 [4:47:57<13:44:37,  3.48it/s] 54%|█████▎    | 199254/371472 [4:47:58<13:42:03,  3.49it/s] 54%|█████▎    | 199255/371472 [4:47:58<13:16:55,  3.60it/s] 54%|█████▎    | 199256/371472 [4:47:58<13:36:14,  3.52it/s] 54%|█████▎    | 199257/371472 [4:47:58<13:20:39,  3.58it/s] 54%|█████▎    | 199258/371472 [4:47:59<12:52:57,  3.71it/s] 54%|█████▎    | 199259/371472 [4:47:59<13:02:25,  3.67it/s] 54%|█████▎    | 199260/371472 [4:47:59<12:33:33,  3.81it/s]                                                            {'loss': 3.0327, 'learning_rate': 5.174588980585662e-07, 'epoch': 8.58}
 54%|█████▎    | 199260/371472 [4:47:59<12:33:33,  3.81it/s] 54%|█████▎    | 199261/371472 [4:48:00<13:23:03,  3.57it/s] 54%|█████▎    | 199262/371472 [4:48:00<13:05:17,  3.65it/s] 54%|█████▎    | 199263/371472 [4:48:00<13:20:37,  3.58it/s] 54%|█████▎    | 199264/371472 [4:48:00<13:45:13,  3.48it/s] 54%|█████▎    | 199265/371472 [4:48:01<13:32:04,  3.53it/s] 54%|█████▎    | 199266/371472 [4:48:01<13:15:15,  3.61it/s] 54%|█████▎    | 199267/371472 [4:48:01<13:08:52,  3.64it/s] 54%|█████▎    | 199268/371472 [4:48:01<12:45:37,  3.75it/s] 54%|█████▎    | 199269/371472 [4:48:02<12:45:16,  3.75it/s] 54%|█████▎    | 199270/371472 [4:48:02<12:48:42,  3.73it/s] 54%|█████▎    | 199271/371472 [4:48:02<13:04:24,  3.66it/s] 54%|█████▎    | 199272/371472 [4:48:03<13:12:04,  3.62it/s] 54%|█████▎    | 199273/371472 [4:48:03<13:00:55,  3.68it/s] 54%|█████▎    | 199274/371472 [4:48:03<12:53:50,  3.71it/s] 54%|█████▎    | 199275/371472 [4:48:03<12:45:26,  3.75it/s] 54%|█████▎    | 199276/371472 [4:48:04<13:03:26,  3.66it/s] 54%|█████▎    | 199277/371472 [4:48:04<13:04:14,  3.66it/s] 54%|█████▎    | 199278/371472 [4:48:04<13:34:05,  3.53it/s] 54%|█████▎    | 199279/371472 [4:48:05<14:03:54,  3.40it/s] 54%|█████▎    | 199280/371472 [4:48:05<13:49:18,  3.46it/s]                                                            {'loss': 3.1275, 'learning_rate': 5.174104160830873e-07, 'epoch': 8.58}
 54%|█████▎    | 199280/371472 [4:48:05<13:49:18,  3.46it/s] 54%|█████▎    | 199281/371472 [4:48:05<14:04:53,  3.40it/s] 54%|█████▎    | 199282/371472 [4:48:05<14:09:56,  3.38it/s] 54%|█████▎    | 199283/371472 [4:48:06<14:16:44,  3.35it/s] 54%|█████▎    | 199284/371472 [4:48:06<14:04:33,  3.40it/s] 54%|█████▎    | 199285/371472 [4:48:06<13:45:08,  3.48it/s] 54%|█████▎    | 199286/371472 [4:48:07<13:50:46,  3.45it/s] 54%|█████▎    | 199287/371472 [4:48:07<13:41:18,  3.49it/s] 54%|█████▎    | 199288/371472 [4:48:07<14:42:32,  3.25it/s] 54%|█████▎    | 199289/371472 [4:48:08<14:03:09,  3.40it/s] 54%|█████▎    | 199290/371472 [4:48:08<13:27:49,  3.55it/s] 54%|█████▎    | 199291/371472 [4:48:08<14:30:30,  3.30it/s] 54%|█████▎    | 199292/371472 [4:48:08<14:03:14,  3.40it/s] 54%|█████▎    | 199293/371472 [4:48:09<13:46:55,  3.47it/s] 54%|█████▎    | 199294/371472 [4:48:09<13:19:04,  3.59it/s] 54%|█████▎    | 199295/371472 [4:48:09<13:34:09,  3.52it/s] 54%|█████▎    | 199296/371472 [4:48:10<14:17:37,  3.35it/s] 54%|█████▎    | 199297/371472 [4:48:10<14:20:28,  3.33it/s] 54%|█████▎    | 199298/371472 [4:48:10<13:46:03,  3.47it/s] 54%|█████▎    | 199299/371472 [4:48:10<14:25:12,  3.32it/s] 54%|█████▎    | 199300/371472 [4:48:11<14:00:10,  3.42it/s]                                                            {'loss': 2.8936, 'learning_rate': 5.173619341076084e-07, 'epoch': 8.58}
 54%|█████▎    | 199300/371472 [4:48:11<14:00:10,  3.42it/s] 54%|█████▎    | 199301/371472 [4:48:11<13:35:53,  3.52it/s] 54%|█████▎    | 199302/371472 [4:48:11<13:25:20,  3.56it/s] 54%|█████▎    | 199303/371472 [4:48:12<14:11:55,  3.37it/s] 54%|█████▎    | 199304/371472 [4:48:12<13:56:39,  3.43it/s] 54%|█████▎    | 199305/371472 [4:48:12<13:42:55,  3.49it/s] 54%|█████▎    | 199306/371472 [4:48:12<13:47:27,  3.47it/s] 54%|█████▎    | 199307/371472 [4:48:13<13:15:28,  3.61it/s] 54%|█████▎    | 199308/371472 [4:48:13<13:01:35,  3.67it/s] 54%|█████▎    | 199309/371472 [4:48:13<12:52:04,  3.72it/s] 54%|█████▎    | 199310/371472 [4:48:13<12:35:29,  3.80it/s] 54%|█████▎    | 199311/371472 [4:48:14<13:24:34,  3.57it/s] 54%|█████▎    | 199312/371472 [4:48:14<13:08:14,  3.64it/s] 54%|█████▎    | 199313/371472 [4:48:14<13:52:56,  3.44it/s] 54%|█████▎    | 199314/371472 [4:48:15<13:51:04,  3.45it/s] 54%|█████▎    | 199315/371472 [4:48:15<14:04:16,  3.40it/s] 54%|█████▎    | 199316/371472 [4:48:15<13:32:44,  3.53it/s] 54%|█████▎    | 199317/371472 [4:48:16<13:42:58,  3.49it/s] 54%|█████▎    | 199318/371472 [4:48:16<13:36:14,  3.52it/s] 54%|█████▎    | 199319/371472 [4:48:16<14:00:43,  3.41it/s] 54%|█████▎    | 199320/371472 [4:48:16<13:36:02,  3.52it/s]                                                            {'loss': 2.857, 'learning_rate': 5.173134521321295e-07, 'epoch': 8.59}
 54%|█████▎    | 199320/371472 [4:48:16<13:36:02,  3.52it/s] 54%|█████▎    | 199321/371472 [4:48:17<13:58:26,  3.42it/s] 54%|█████▎    | 199322/371472 [4:48:17<13:38:11,  3.51it/s] 54%|█████▎    | 199323/371472 [4:48:17<13:01:19,  3.67it/s] 54%|█████▎    | 199324/371472 [4:48:17<12:56:19,  3.70it/s] 54%|█████▎    | 199325/371472 [4:48:18<13:04:42,  3.66it/s] 54%|█████▎    | 199326/371472 [4:48:18<12:45:14,  3.75it/s] 54%|█████▎    | 199327/371472 [4:48:18<12:52:15,  3.72it/s] 54%|█████▎    | 199328/371472 [4:48:19<13:47:23,  3.47it/s] 54%|█████▎    | 199329/371472 [4:48:19<13:36:08,  3.52it/s] 54%|█████▎    | 199330/371472 [4:48:19<13:14:21,  3.61it/s] 54%|█████▎    | 199331/371472 [4:48:19<14:26:01,  3.31it/s] 54%|█████▎    | 199332/371472 [4:48:20<14:28:01,  3.31it/s] 54%|█████▎    | 199333/371472 [4:48:20<14:15:25,  3.35it/s] 54%|█████▎    | 199334/371472 [4:48:20<14:36:32,  3.27it/s] 54%|█████▎    | 199335/371472 [4:48:21<13:51:04,  3.45it/s] 54%|█████▎    | 199336/371472 [4:48:21<13:26:57,  3.56it/s] 54%|█████▎    | 199337/371472 [4:48:21<13:20:47,  3.58it/s] 54%|█████▎    | 199338/371472 [4:48:22<14:52:48,  3.21it/s] 54%|█████▎    | 199339/371472 [4:48:22<14:10:54,  3.37it/s] 54%|█████▎    | 199340/371472 [4:48:22<13:59:55,  3.42it/s]                                                            {'loss': 3.1933, 'learning_rate': 5.172649701566506e-07, 'epoch': 8.59}
 54%|█████▎    | 199340/371472 [4:48:22<13:59:55,  3.42it/s] 54%|█████▎    | 199341/371472 [4:48:22<14:25:40,  3.31it/s] 54%|█████▎    | 199342/371472 [4:48:23<14:36:33,  3.27it/s] 54%|█████▎    | 199343/371472 [4:48:23<13:56:08,  3.43it/s] 54%|█████▎    | 199344/371472 [4:48:23<14:54:08,  3.21it/s] 54%|█████▎    | 199345/371472 [4:48:24<13:56:55,  3.43it/s] 54%|█████▎    | 199346/371472 [4:48:24<13:33:37,  3.53it/s] 54%|█████▎    | 199347/371472 [4:48:24<13:11:42,  3.62it/s] 54%|█████▎    | 199348/371472 [4:48:24<13:56:19,  3.43it/s] 54%|█████▎    | 199349/371472 [4:48:25<13:44:31,  3.48it/s] 54%|█████▎    | 199350/371472 [4:48:25<14:25:50,  3.31it/s] 54%|█████▎    | 199351/371472 [4:48:25<14:03:17,  3.40it/s] 54%|█████▎    | 199352/371472 [4:48:26<14:09:16,  3.38it/s] 54%|█████▎    | 199353/371472 [4:48:26<13:34:53,  3.52it/s] 54%|█████▎    | 199354/371472 [4:48:26<15:33:30,  3.07it/s] 54%|█████▎    | 199355/371472 [4:48:27<14:41:51,  3.25it/s] 54%|█████▎    | 199356/371472 [4:48:27<14:35:54,  3.27it/s] 54%|█████▎    | 199357/371472 [4:48:27<13:48:06,  3.46it/s] 54%|█████▎    | 199358/371472 [4:48:27<14:13:26,  3.36it/s] 54%|█████▎    | 199359/371472 [4:48:28<13:34:27,  3.52it/s] 54%|█████▎    | 199360/371472 [4:48:28<13:16:34,  3.60it/s]                                                            {'loss': 2.8942, 'learning_rate': 5.172164881811717e-07, 'epoch': 8.59}
 54%|█████▎    | 199360/371472 [4:48:28<13:16:34,  3.60it/s] 54%|█████▎    | 199361/371472 [4:48:28<13:06:36,  3.65it/s] 54%|█████▎    | 199362/371472 [4:48:29<13:29:07,  3.55it/s] 54%|█████▎    | 199363/371472 [4:48:29<13:36:15,  3.51it/s] 54%|█████▎    | 199364/371472 [4:48:29<14:56:42,  3.20it/s] 54%|█████▎    | 199365/371472 [4:48:29<14:22:37,  3.33it/s] 54%|█████▎    | 199366/371472 [4:48:30<13:54:25,  3.44it/s] 54%|█████▎    | 199367/371472 [4:48:30<13:31:02,  3.54it/s] 54%|█████▎    | 199368/371472 [4:48:30<13:37:00,  3.51it/s] 54%|█████▎    | 199369/371472 [4:48:31<13:52:07,  3.45it/s] 54%|█████▎    | 199370/371472 [4:48:31<14:13:17,  3.36it/s] 54%|█████▎    | 199371/371472 [4:48:31<14:10:36,  3.37it/s] 54%|█████▎    | 199372/371472 [4:48:31<13:35:13,  3.52it/s] 54%|█████▎    | 199373/371472 [4:48:32<13:15:00,  3.61it/s] 54%|█████▎    | 199374/371472 [4:48:32<13:18:24,  3.59it/s] 54%|█████▎    | 199375/371472 [4:48:32<13:12:12,  3.62it/s] 54%|█████▎    | 199376/371472 [4:48:33<13:47:09,  3.47it/s] 54%|█████▎    | 199377/371472 [4:48:33<13:27:35,  3.55it/s] 54%|█████▎    | 199378/371472 [4:48:33<13:53:31,  3.44it/s] 54%|█████▎    | 199379/371472 [4:48:33<13:42:44,  3.49it/s] 54%|█████▎    | 199380/371472 [4:48:34<13:36:00,  3.51it/s]                                                            {'loss': 2.8651, 'learning_rate': 5.171680062056929e-07, 'epoch': 8.59}
 54%|█████▎    | 199380/371472 [4:48:34<13:36:00,  3.51it/s] 54%|█████▎    | 199381/371472 [4:48:34<14:07:42,  3.38it/s] 54%|█████▎    | 199382/371472 [4:48:34<14:07:13,  3.39it/s] 54%|█████▎    | 199383/371472 [4:48:35<13:34:41,  3.52it/s] 54%|█████▎    | 199384/371472 [4:48:35<13:22:11,  3.58it/s] 54%|█████▎    | 199385/371472 [4:48:35<13:36:58,  3.51it/s] 54%|█████▎    | 199386/371472 [4:48:35<13:38:29,  3.50it/s] 54%|█████▎    | 199387/371472 [4:48:36<13:21:23,  3.58it/s] 54%|█████▎    | 199388/371472 [4:48:36<13:12:53,  3.62it/s] 54%|█████▎    | 199389/371472 [4:48:36<13:18:17,  3.59it/s] 54%|█████▎    | 199390/371472 [4:48:37<13:17:23,  3.60it/s] 54%|█████▎    | 199391/371472 [4:48:37<13:22:04,  3.58it/s] 54%|█████▎    | 199392/371472 [4:48:37<13:09:43,  3.63it/s] 54%|█████▎    | 199393/371472 [4:48:37<12:59:46,  3.68it/s] 54%|█████▎    | 199394/371472 [4:48:38<13:07:13,  3.64it/s] 54%|█████▎    | 199395/371472 [4:48:38<12:53:58,  3.71it/s] 54%|█████▎    | 199396/371472 [4:48:38<13:06:13,  3.65it/s] 54%|█████▎    | 199397/371472 [4:48:38<13:08:54,  3.64it/s] 54%|█████▎    | 199398/371472 [4:48:39<14:04:17,  3.40it/s] 54%|█████▎    | 199399/371472 [4:48:39<14:33:29,  3.28it/s] 54%|█████▎    | 199400/371472 [4:48:39<14:19:48,  3.34it/s]                                                            {'loss': 2.9111, 'learning_rate': 5.17119524230214e-07, 'epoch': 8.59}
 54%|█████▎    | 199400/371472 [4:48:39<14:19:48,  3.34it/s] 54%|█████▎    | 199401/371472 [4:48:40<14:07:21,  3.38it/s] 54%|█████▎    | 199402/371472 [4:48:40<14:22:03,  3.33it/s] 54%|█████▎    | 199403/371472 [4:48:40<14:49:57,  3.22it/s] 54%|█████▎    | 199404/371472 [4:48:41<14:05:02,  3.39it/s] 54%|█████▎    | 199405/371472 [4:48:41<15:13:08,  3.14it/s] 54%|█████▎    | 199406/371472 [4:48:41<14:37:46,  3.27it/s] 54%|█████▎    | 199407/371472 [4:48:42<14:44:07,  3.24it/s] 54%|█████▎    | 199408/371472 [4:48:42<15:01:08,  3.18it/s] 54%|█████▎    | 199409/371472 [4:48:42<15:19:41,  3.12it/s] 54%|█████▎    | 199410/371472 [4:48:43<14:16:03,  3.35it/s] 54%|█████▎    | 199411/371472 [4:48:43<13:29:11,  3.54it/s] 54%|█████▎    | 199412/371472 [4:48:43<14:46:36,  3.23it/s] 54%|█████▎    | 199413/371472 [4:48:43<14:04:12,  3.40it/s] 54%|█████▎    | 199414/371472 [4:48:44<14:26:45,  3.31it/s] 54%|█████▎    | 199415/371472 [4:48:44<16:01:38,  2.98it/s] 54%|█████▎    | 199416/371472 [4:48:44<14:44:12,  3.24it/s] 54%|█████▎    | 199417/371472 [4:48:45<13:56:06,  3.43it/s] 54%|█████▎    | 199418/371472 [4:48:45<14:20:18,  3.33it/s] 54%|█████▎    | 199419/371472 [4:48:45<14:11:20,  3.37it/s] 54%|█████▎    | 199420/371472 [4:48:45<13:29:15,  3.54it/s]                                                            {'loss': 2.9255, 'learning_rate': 5.170710422547351e-07, 'epoch': 8.59}
 54%|█████▎    | 199420/371472 [4:48:45<13:29:15,  3.54it/s] 54%|█████▎    | 199421/371472 [4:48:46<13:12:40,  3.62it/s] 54%|█████▎    | 199422/371472 [4:48:46<13:17:57,  3.59it/s] 54%|█████▎    | 199423/371472 [4:48:46<13:17:00,  3.60it/s] 54%|█████▎    | 199424/371472 [4:48:47<12:58:03,  3.69it/s] 54%|█████▎    | 199425/371472 [4:48:47<13:11:20,  3.62it/s] 54%|█████▎    | 199426/371472 [4:48:47<14:04:06,  3.40it/s] 54%|█████▎    | 199427/371472 [4:48:47<14:11:45,  3.37it/s] 54%|█████▎    | 199428/371472 [4:48:48<14:35:55,  3.27it/s] 54%|█████▎    | 199429/371472 [4:48:48<15:01:00,  3.18it/s] 54%|█████▎    | 199430/371472 [4:48:48<15:09:58,  3.15it/s] 54%|█████▎    | 199431/371472 [4:48:49<14:07:37,  3.38it/s] 54%|█████▎    | 199432/371472 [4:48:49<13:57:19,  3.42it/s] 54%|█████▎    | 199433/371472 [4:48:49<13:57:15,  3.42it/s] 54%|█████▎    | 199434/371472 [4:48:50<14:05:19,  3.39it/s] 54%|█████▎    | 199435/371472 [4:48:50<13:25:07,  3.56it/s] 54%|█████▎    | 199436/371472 [4:48:50<13:31:11,  3.53it/s] 54%|█████▎    | 199437/371472 [4:48:50<13:23:21,  3.57it/s] 54%|█████▎    | 199438/371472 [4:48:51<13:51:41,  3.45it/s] 54%|█████▎    | 199439/371472 [4:48:51<13:30:15,  3.54it/s] 54%|█████▎    | 199440/371472 [4:48:51<13:54:48,  3.43it/s]                                                            {'loss': 2.9663, 'learning_rate': 5.170225602792562e-07, 'epoch': 8.59}
 54%|█████▎    | 199440/371472 [4:48:51<13:54:48,  3.43it/s] 54%|█████▎    | 199441/371472 [4:48:52<14:34:28,  3.28it/s] 54%|█████▎    | 199442/371472 [4:48:52<14:10:49,  3.37it/s] 54%|█████▎    | 199443/371472 [4:48:52<14:25:41,  3.31it/s] 54%|█████▎    | 199444/371472 [4:48:53<15:23:47,  3.10it/s] 54%|█████▎    | 199445/371472 [4:48:53<14:38:37,  3.26it/s] 54%|█████▎    | 199446/371472 [4:48:53<14:31:08,  3.29it/s] 54%|█████▎    | 199447/371472 [4:48:53<13:47:51,  3.46it/s] 54%|█████▎    | 199448/371472 [4:48:54<14:10:53,  3.37it/s] 54%|█████▎    | 199449/371472 [4:48:54<13:33:59,  3.52it/s] 54%|█████▎    | 199450/371472 [4:48:54<13:05:55,  3.65it/s] 54%|█████▎    | 199451/371472 [4:48:55<13:27:12,  3.55it/s] 54%|█████▎    | 199452/371472 [4:48:55<13:23:28,  3.57it/s] 54%|█████▎    | 199453/371472 [4:48:55<13:13:35,  3.61it/s] 54%|█████▎    | 199454/371472 [4:48:55<13:32:38,  3.53it/s] 54%|█████▎    | 199455/371472 [4:48:56<13:37:10,  3.51it/s] 54%|█████▎    | 199456/371472 [4:48:56<13:42:26,  3.49it/s] 54%|█████▎    | 199457/371472 [4:48:56<13:48:40,  3.46it/s] 54%|█████▎    | 199458/371472 [4:48:57<13:25:16,  3.56it/s] 54%|█████▎    | 199459/371472 [4:48:57<13:50:37,  3.45it/s] 54%|█████▎    | 199460/371472 [4:48:57<13:24:11,  3.56it/s]                                                            {'loss': 3.0068, 'learning_rate': 5.169740783037773e-07, 'epoch': 8.59}
 54%|█████▎    | 199460/371472 [4:48:57<13:24:11,  3.56it/s] 54%|█████▎    | 199461/371472 [4:48:57<13:46:18,  3.47it/s] 54%|█████▎    | 199462/371472 [4:48:58<13:20:20,  3.58it/s] 54%|█████▎    | 199463/371472 [4:48:58<13:07:03,  3.64it/s] 54%|█████▎    | 199464/371472 [4:48:58<12:33:58,  3.80it/s] 54%|█████▎    | 199465/371472 [4:48:58<13:49:32,  3.46it/s] 54%|█████▎    | 199466/371472 [4:48:59<13:22:47,  3.57it/s] 54%|█████▎    | 199467/371472 [4:48:59<12:54:10,  3.70it/s] 54%|█████▎    | 199468/371472 [4:48:59<12:48:18,  3.73it/s] 54%|█████▎    | 199469/371472 [4:49:00<12:49:31,  3.73it/s] 54%|█████▎    | 199470/371472 [4:49:00<12:35:32,  3.79it/s] 54%|█████▎    | 199471/371472 [4:49:00<13:22:44,  3.57it/s] 54%|█████▎    | 199472/371472 [4:49:00<13:10:38,  3.63it/s] 54%|█████▎    | 199473/371472 [4:49:01<15:39:12,  3.05it/s] 54%|█████▎    | 199474/371472 [4:49:01<14:39:03,  3.26it/s] 54%|█████▎    | 199475/371472 [4:49:01<14:05:55,  3.39it/s] 54%|█████▎    | 199476/371472 [4:49:02<13:40:59,  3.49it/s] 54%|█████▎    | 199477/371472 [4:49:02<13:17:11,  3.60it/s] 54%|█████▎    | 199478/371472 [4:49:02<12:50:28,  3.72it/s] 54%|█████▎    | 199479/371472 [4:49:02<13:06:16,  3.65it/s] 54%|█████▎    | 199480/371472 [4:49:03<13:18:06,  3.59it/s]                                                            {'loss': 2.9537, 'learning_rate': 5.169255963282983e-07, 'epoch': 8.59}
 54%|█████▎    | 199480/371472 [4:49:03<13:18:06,  3.59it/s] 54%|█████▎    | 199481/371472 [4:49:03<13:04:16,  3.66it/s] 54%|█████▎    | 199482/371472 [4:49:03<13:44:02,  3.48it/s] 54%|█████▎    | 199483/371472 [4:49:04<13:42:44,  3.48it/s] 54%|█████▎    | 199484/371472 [4:49:04<14:48:20,  3.23it/s] 54%|█████▎    | 199485/371472 [4:49:04<14:38:30,  3.26it/s] 54%|█████▎    | 199486/371472 [4:49:04<14:04:53,  3.39it/s] 54%|█████▎    | 199487/371472 [4:49:05<13:40:17,  3.49it/s] 54%|█████▎    | 199488/371472 [4:49:05<15:14:00,  3.14it/s] 54%|█████▎    | 199489/371472 [4:49:05<14:55:08,  3.20it/s] 54%|█████▎    | 199490/371472 [4:49:06<15:00:22,  3.18it/s] 54%|█████▎    | 199491/371472 [4:49:06<14:29:08,  3.30it/s] 54%|█████▎    | 199492/371472 [4:49:06<14:19:48,  3.33it/s] 54%|█████▎    | 199493/371472 [4:49:07<13:47:17,  3.46it/s] 54%|█████▎    | 199494/371472 [4:49:07<13:37:57,  3.50it/s] 54%|█████▎    | 199495/371472 [4:49:07<13:37:36,  3.51it/s] 54%|█████▎    | 199496/371472 [4:49:07<13:55:26,  3.43it/s] 54%|█████▎    | 199497/371472 [4:49:08<13:24:51,  3.56it/s] 54%|█████▎    | 199498/371472 [4:49:08<13:32:19,  3.53it/s] 54%|█████▎    | 199499/371472 [4:49:08<13:28:46,  3.54it/s] 54%|█████▎    | 199500/371472 [4:49:09<13:13:25,  3.61it/s]                                                            {'loss': 2.8532, 'learning_rate': 5.168771143528196e-07, 'epoch': 8.59}
 54%|█████▎    | 199500/371472 [4:49:09<13:13:25,  3.61it/s] 54%|█████▎    | 199501/371472 [4:49:09<13:29:31,  3.54it/s] 54%|█████▎    | 199502/371472 [4:49:09<13:25:52,  3.56it/s] 54%|█████▎    | 199503/371472 [4:49:09<13:23:33,  3.57it/s] 54%|█████▎    | 199504/371472 [4:49:10<13:11:14,  3.62it/s] 54%|█████▎    | 199505/371472 [4:49:10<13:32:32,  3.53it/s] 54%|█████▎    | 199506/371472 [4:49:10<13:55:16,  3.43it/s] 54%|█████▎    | 199507/371472 [4:49:11<13:32:10,  3.53it/s] 54%|█████▎    | 199508/371472 [4:49:11<14:01:18,  3.41it/s] 54%|█████▎    | 199509/371472 [4:49:11<13:31:04,  3.53it/s] 54%|█████▎    | 199510/371472 [4:49:11<13:34:17,  3.52it/s] 54%|█████▎    | 199511/371472 [4:49:12<13:09:00,  3.63it/s] 54%|█████▎    | 199512/371472 [4:49:12<13:18:30,  3.59it/s] 54%|█████▎    | 199513/371472 [4:49:12<13:14:52,  3.61it/s] 54%|█████▎    | 199514/371472 [4:49:13<13:38:15,  3.50it/s] 54%|█████▎    | 199515/371472 [4:49:13<13:36:37,  3.51it/s] 54%|█████▎    | 199516/371472 [4:49:13<13:11:17,  3.62it/s] 54%|█████▎    | 199517/371472 [4:49:13<14:24:29,  3.32it/s] 54%|█████▎    | 199518/371472 [4:49:14<14:09:15,  3.37it/s] 54%|█████▎    | 199519/371472 [4:49:14<13:54:46,  3.43it/s] 54%|█████▎    | 199520/371472 [4:49:14<13:23:51,  3.57it/s]                                                            {'loss': 3.01, 'learning_rate': 5.168286323773406e-07, 'epoch': 8.59}
 54%|█████▎    | 199520/371472 [4:49:14<13:23:51,  3.57it/s] 54%|█████▎    | 199521/371472 [4:49:15<13:18:33,  3.59it/s] 54%|█████▎    | 199522/371472 [4:49:15<13:23:42,  3.57it/s] 54%|█████▎    | 199523/371472 [4:49:15<13:09:29,  3.63it/s] 54%|█████▎    | 199524/371472 [4:49:15<15:24:39,  3.10it/s] 54%|█████▎    | 199525/371472 [4:49:16<14:30:15,  3.29it/s] 54%|█████▎    | 199526/371472 [4:49:16<14:20:27,  3.33it/s] 54%|█████▎    | 199527/371472 [4:49:16<14:43:13,  3.24it/s] 54%|█████▎    | 199528/371472 [4:49:17<14:19:40,  3.33it/s] 54%|█████▎    | 199529/371472 [4:49:17<14:27:54,  3.30it/s] 54%|█████▎    | 199530/371472 [4:49:17<14:22:52,  3.32it/s] 54%|█████▎    | 199531/371472 [4:49:18<14:03:35,  3.40it/s] 54%|█████▎    | 199532/371472 [4:49:18<13:40:35,  3.49it/s] 54%|█████▎    | 199533/371472 [4:49:18<13:12:08,  3.62it/s] 54%|█████▎    | 199534/371472 [4:49:18<13:05:42,  3.65it/s] 54%|█████▎    | 199535/371472 [4:49:19<12:57:50,  3.68it/s] 54%|█████▎    | 199536/371472 [4:49:19<12:36:37,  3.79it/s] 54%|█████▎    | 199537/371472 [4:49:19<13:32:02,  3.53it/s] 54%|█████▎    | 199538/371472 [4:49:20<14:39:24,  3.26it/s] 54%|█████▎    | 199539/371472 [4:49:20<13:47:43,  3.46it/s] 54%|█████▎    | 199540/371472 [4:49:20<13:08:55,  3.63it/s]                                                            {'loss': 2.9393, 'learning_rate': 5.167801504018616e-07, 'epoch': 8.59}
 54%|█████▎    | 199540/371472 [4:49:20<13:08:55,  3.63it/s] 54%|█████▎    | 199541/371472 [4:49:20<13:09:37,  3.63it/s] 54%|█████▎    | 199542/371472 [4:49:21<13:09:58,  3.63it/s] 54%|█████▎    | 199543/371472 [4:49:21<13:10:18,  3.63it/s] 54%|█████▎    | 199544/371472 [4:49:21<13:20:26,  3.58it/s] 54%|█████▎    | 199545/371472 [4:49:21<13:39:36,  3.50it/s] 54%|█████▎    | 199546/371472 [4:49:22<13:47:45,  3.46it/s] 54%|█████▎    | 199547/371472 [4:49:22<13:21:53,  3.57it/s] 54%|█████▎    | 199548/371472 [4:49:22<13:42:54,  3.48it/s] 54%|█████▎    | 199549/371472 [4:49:23<13:43:14,  3.48it/s] 54%|█████▎    | 199550/371472 [4:49:23<13:05:39,  3.65it/s] 54%|█████▎    | 199551/371472 [4:49:23<12:53:35,  3.70it/s] 54%|█████▎    | 199552/371472 [4:49:23<13:00:52,  3.67it/s] 54%|█████▎    | 199553/371472 [4:49:24<12:56:16,  3.69it/s] 54%|█████▎    | 199554/371472 [4:49:24<12:41:30,  3.76it/s] 54%|█████▎    | 199555/371472 [4:49:24<12:31:00,  3.82it/s] 54%|█████▎    | 199556/371472 [4:49:24<12:22:40,  3.86it/s] 54%|█████▎    | 199557/371472 [4:49:25<12:26:57,  3.84it/s] 54%|█████▎    | 199558/371472 [4:49:25<12:31:29,  3.81it/s] 54%|█████▎    | 199559/371472 [4:49:25<13:38:13,  3.50it/s] 54%|█████▎    | 199560/371472 [4:49:26<13:54:34,  3.43it/s]                                                            {'loss': 3.0844, 'learning_rate': 5.167316684263828e-07, 'epoch': 8.6}
 54%|█████▎    | 199560/371472 [4:49:26<13:54:34,  3.43it/s] 54%|█████▎    | 199561/371472 [4:49:26<14:43:13,  3.24it/s] 54%|█████▎    | 199562/371472 [4:49:26<14:26:55,  3.30it/s] 54%|█████▎    | 199563/371472 [4:49:26<13:51:09,  3.45it/s] 54%|█████▎    | 199564/371472 [4:49:27<13:54:32,  3.43it/s] 54%|█████▎    | 199565/371472 [4:49:27<13:44:52,  3.47it/s] 54%|█████▎    | 199566/371472 [4:49:27<14:08:03,  3.38it/s] 54%|█████▎    | 199567/371472 [4:49:28<13:23:24,  3.57it/s] 54%|█████▎    | 199568/371472 [4:49:28<14:04:05,  3.39it/s] 54%|█████▎    | 199569/371472 [4:49:28<13:36:07,  3.51it/s] 54%|█████▎    | 199570/371472 [4:49:28<13:16:18,  3.60it/s] 54%|█████▎    | 199571/371472 [4:49:29<12:53:54,  3.70it/s] 54%|█████▎    | 199572/371472 [4:49:29<13:30:59,  3.53it/s] 54%|█████▎    | 199573/371472 [4:49:29<14:25:20,  3.31it/s] 54%|█████▎    | 199574/371472 [4:49:30<13:46:25,  3.47it/s] 54%|█████▎    | 199575/371472 [4:49:30<13:58:28,  3.42it/s] 54%|█████▎    | 199576/371472 [4:49:30<13:31:14,  3.53it/s] 54%|█████▎    | 199577/371472 [4:49:31<14:13:16,  3.36it/s] 54%|█████▎    | 199578/371472 [4:49:31<14:35:40,  3.27it/s] 54%|█████▎    | 199579/371472 [4:49:31<14:41:07,  3.25it/s] 54%|█████▎    | 199580/371472 [4:49:31<13:49:45,  3.45it/s]                                                            {'loss': 3.102, 'learning_rate': 5.166831864509038e-07, 'epoch': 8.6}
 54%|█████▎    | 199580/371472 [4:49:31<13:49:45,  3.45it/s] 54%|█████▎    | 199581/371472 [4:49:32<13:46:29,  3.47it/s] 54%|█████▎    | 199582/371472 [4:49:32<13:17:19,  3.59it/s] 54%|█████▎    | 199583/371472 [4:49:32<13:04:53,  3.65it/s] 54%|█████▎    | 199584/371472 [4:49:32<12:37:20,  3.78it/s] 54%|█████▎    | 199585/371472 [4:49:33<13:10:38,  3.62it/s] 54%|█████▎    | 199586/371472 [4:49:33<13:00:34,  3.67it/s] 54%|█████▎    | 199587/371472 [4:49:33<12:39:49,  3.77it/s] 54%|█████▎    | 199588/371472 [4:49:34<12:32:29,  3.81it/s] 54%|█████▎    | 199589/371472 [4:49:34<12:53:38,  3.70it/s] 54%|█████▎    | 199590/371472 [4:49:34<12:48:00,  3.73it/s] 54%|█████▎    | 199591/371472 [4:49:34<12:52:47,  3.71it/s] 54%|█████▎    | 199592/371472 [4:49:35<13:06:36,  3.64it/s] 54%|█████▎    | 199593/371472 [4:49:35<12:53:01,  3.71it/s] 54%|█████▎    | 199594/371472 [4:49:35<13:01:59,  3.66it/s] 54%|█████▎    | 199595/371472 [4:49:36<13:55:20,  3.43it/s] 54%|█████▎    | 199596/371472 [4:49:36<13:36:15,  3.51it/s] 54%|█████▎    | 199597/371472 [4:49:36<14:08:08,  3.38it/s] 54%|█████▎    | 199598/371472 [4:49:36<14:04:05,  3.39it/s] 54%|█████▎    | 199599/371472 [4:49:37<14:00:51,  3.41it/s] 54%|█████▎    | 199600/371472 [4:49:37<13:53:36,  3.44it/s]                                                            {'loss': 3.0461, 'learning_rate': 5.166347044754249e-07, 'epoch': 8.6}
 54%|█████▎    | 199600/371472 [4:49:37<13:53:36,  3.44it/s] 54%|█████▎    | 199601/371472 [4:49:37<13:45:41,  3.47it/s] 54%|█████▎    | 199602/371472 [4:49:38<13:53:16,  3.44it/s] 54%|█████▎    | 199603/371472 [4:49:38<13:32:13,  3.53it/s] 54%|█████▎    | 199604/371472 [4:49:38<12:57:30,  3.68it/s] 54%|█████▎    | 199605/371472 [4:49:38<13:13:27,  3.61it/s] 54%|█████▎    | 199606/371472 [4:49:39<12:54:26,  3.70it/s] 54%|█████▎    | 199607/371472 [4:49:39<12:44:52,  3.74it/s] 54%|█████▎    | 199608/371472 [4:49:39<12:27:05,  3.83it/s] 54%|█████▎    | 199609/371472 [4:49:39<12:43:52,  3.75it/s] 54%|█████▎    | 199610/371472 [4:49:40<12:48:59,  3.72it/s] 54%|█████▎    | 199611/371472 [4:49:40<13:12:48,  3.61it/s] 54%|█████▎    | 199612/371472 [4:49:40<13:01:38,  3.66it/s] 54%|█████▎    | 199613/371472 [4:49:41<13:27:49,  3.55it/s] 54%|█████▎    | 199614/371472 [4:49:41<13:18:39,  3.59it/s] 54%|█████▎    | 199615/371472 [4:49:41<13:41:08,  3.49it/s] 54%|█████▎    | 199616/371472 [4:49:41<13:30:55,  3.53it/s] 54%|█████▎    | 199617/371472 [4:49:42<13:10:06,  3.63it/s] 54%|█████▎    | 199618/371472 [4:49:42<13:11:02,  3.62it/s] 54%|█████▎    | 199619/371472 [4:49:42<13:07:55,  3.64it/s] 54%|█████▎    | 199620/371472 [4:49:42<13:34:19,  3.52it/s]                                                            {'loss': 3.0301, 'learning_rate': 5.16586222499946e-07, 'epoch': 8.6}
 54%|█████▎    | 199620/371472 [4:49:42<13:34:19,  3.52it/s] 54%|█████▎    | 199621/371472 [4:49:43<14:02:10,  3.40it/s] 54%|█████▎    | 199622/371472 [4:49:43<13:28:26,  3.54it/s] 54%|█████▎    | 199623/371472 [4:49:43<13:02:03,  3.66it/s] 54%|█████▎    | 199624/371472 [4:49:44<12:31:19,  3.81it/s] 54%|█████▎    | 199625/371472 [4:49:44<12:32:29,  3.81it/s] 54%|█████▎    | 199626/371472 [4:49:44<12:20:27,  3.87it/s] 54%|█████▎    | 199627/371472 [4:49:44<12:35:55,  3.79it/s] 54%|█████▎    | 199628/371472 [4:49:45<13:39:47,  3.49it/s] 54%|█████▎    | 199629/371472 [4:49:45<13:28:17,  3.54it/s] 54%|█████▎    | 199630/371472 [4:49:45<13:57:52,  3.42it/s] 54%|█████▎    | 199631/371472 [4:49:46<13:29:33,  3.54it/s] 54%|█████▎    | 199632/371472 [4:49:46<13:20:07,  3.58it/s] 54%|█████▎    | 199633/371472 [4:49:46<14:02:07,  3.40it/s] 54%|█████▎    | 199634/371472 [4:49:46<14:27:14,  3.30it/s] 54%|█████▎    | 199635/371472 [4:49:47<14:28:58,  3.30it/s] 54%|█████▎    | 199636/371472 [4:49:47<14:13:30,  3.36it/s] 54%|█████▎    | 199637/371472 [4:49:47<13:52:49,  3.44it/s] 54%|█████▎    | 199638/371472 [4:49:48<13:29:57,  3.54it/s] 54%|█████▎    | 199639/371472 [4:49:48<13:48:17,  3.46it/s] 54%|█████▎    | 199640/371472 [4:49:48<13:22:43,  3.57it/s]                                                            {'loss': 3.0249, 'learning_rate': 5.165377405244673e-07, 'epoch': 8.6}
 54%|█████▎    | 199640/371472 [4:49:48<13:22:43,  3.57it/s] 54%|█████▎    | 199641/371472 [4:49:48<13:03:42,  3.65it/s] 54%|█████▎    | 199642/371472 [4:49:49<13:13:25,  3.61it/s] 54%|█████▎    | 199643/371472 [4:49:49<13:44:03,  3.48it/s] 54%|█████▎    | 199644/371472 [4:49:49<13:46:56,  3.46it/s] 54%|█████▎    | 199645/371472 [4:49:50<13:50:59,  3.45it/s] 54%|█████▎    | 199646/371472 [4:49:50<15:18:27,  3.12it/s] 54%|█████▎    | 199647/371472 [4:49:50<14:44:05,  3.24it/s] 54%|█████▎    | 199648/371472 [4:49:51<14:23:34,  3.32it/s] 54%|█████▎    | 199649/371472 [4:49:51<14:37:10,  3.26it/s] 54%|█████▎    | 199650/371472 [4:49:51<14:38:16,  3.26it/s] 54%|█████▎    | 199651/371472 [4:49:51<14:25:51,  3.31it/s] 54%|█████▎    | 199652/371472 [4:49:52<14:53:29,  3.21it/s] 54%|█████▎    | 199653/371472 [4:49:52<14:31:12,  3.29it/s] 54%|█████▎    | 199654/371472 [4:49:52<13:56:34,  3.42it/s] 54%|█████▎    | 199655/371472 [4:49:53<14:42:05,  3.25it/s] 54%|█████▎    | 199656/371472 [4:49:53<14:31:52,  3.28it/s] 54%|█████▎    | 199657/371472 [4:49:53<15:05:20,  3.16it/s] 54%|█████▎    | 199658/371472 [4:49:54<15:20:06,  3.11it/s] 54%|█████▎    | 199659/371472 [4:49:54<15:17:41,  3.12it/s] 54%|█████▎    | 199660/371472 [4:49:54<14:24:18,  3.31it/s]                                                            {'loss': 2.9041, 'learning_rate': 5.164892585489884e-07, 'epoch': 8.6}
 54%|█████▎    | 199660/371472 [4:49:54<14:24:18,  3.31it/s] 54%|█████▎    | 199661/371472 [4:49:55<14:01:08,  3.40it/s] 54%|█████▎    | 199662/371472 [4:49:55<13:57:57,  3.42it/s] 54%|█████▎    | 199663/371472 [4:49:55<14:33:07,  3.28it/s] 54%|█████▎    | 199664/371472 [4:49:55<14:38:21,  3.26it/s] 54%|█████▎    | 199665/371472 [4:49:56<14:59:34,  3.18it/s] 54%|█████▎    | 199666/371472 [4:49:56<14:23:39,  3.32it/s] 54%|█████▍    | 199667/371472 [4:49:56<13:59:00,  3.41it/s] 54%|█████▍    | 199668/371472 [4:49:57<13:37:14,  3.50it/s] 54%|█████▍    | 199669/371472 [4:49:57<14:09:52,  3.37it/s] 54%|█████▍    | 199670/371472 [4:49:57<15:04:54,  3.16it/s] 54%|█████▍    | 199671/371472 [4:49:58<15:05:02,  3.16it/s] 54%|█████▍    | 199672/371472 [4:49:58<14:59:28,  3.18it/s] 54%|█████▍    | 199673/371472 [4:49:58<14:22:30,  3.32it/s] 54%|█████▍    | 199674/371472 [4:49:58<13:49:03,  3.45it/s] 54%|█████▍    | 199675/371472 [4:49:59<14:06:02,  3.38it/s] 54%|█████▍    | 199676/371472 [4:49:59<15:01:36,  3.18it/s] 54%|█████▍    | 199677/371472 [4:49:59<14:11:37,  3.36it/s] 54%|█████▍    | 199678/371472 [4:50:00<14:02:20,  3.40it/s] 54%|█████▍    | 199679/371472 [4:50:00<14:59:58,  3.18it/s] 54%|█████▍    | 199680/371472 [4:50:00<14:39:30,  3.26it/s]                                                            {'loss': 3.0667, 'learning_rate': 5.164407765735094e-07, 'epoch': 8.6}
 54%|█████▍    | 199680/371472 [4:50:00<14:39:30,  3.26it/s] 54%|█████▍    | 199681/371472 [4:50:01<14:30:38,  3.29it/s] 54%|█████▍    | 199682/371472 [4:50:01<13:48:32,  3.46it/s] 54%|█████▍    | 199683/371472 [4:50:01<13:16:07,  3.60it/s] 54%|█████▍    | 199684/371472 [4:50:01<13:36:17,  3.51it/s] 54%|█████▍    | 199685/371472 [4:50:02<13:29:35,  3.54it/s] 54%|█████▍    | 199686/371472 [4:50:02<14:16:23,  3.34it/s] 54%|█████▍    | 199687/371472 [4:50:02<13:58:39,  3.41it/s] 54%|█████▍    | 199688/371472 [4:50:03<16:16:44,  2.93it/s] 54%|█████▍    | 199689/371472 [4:50:03<15:02:08,  3.17it/s] 54%|█████▍    | 199690/371472 [4:50:03<14:17:19,  3.34it/s] 54%|█████▍    | 199691/371472 [4:50:04<13:42:09,  3.48it/s] 54%|█████▍    | 199692/371472 [4:50:04<14:06:03,  3.38it/s] 54%|█████▍    | 199693/371472 [4:50:04<13:32:56,  3.52it/s] 54%|█████▍    | 199694/371472 [4:50:04<14:40:41,  3.25it/s] 54%|█████▍    | 199695/371472 [4:50:05<14:34:31,  3.27it/s] 54%|█████▍    | 199696/371472 [4:50:05<13:38:01,  3.50it/s] 54%|█████▍    | 199697/371472 [4:50:05<13:13:24,  3.61it/s] 54%|█████▍    | 199698/371472 [4:50:06<13:22:09,  3.57it/s] 54%|█████▍    | 199699/371472 [4:50:06<12:57:11,  3.68it/s] 54%|█████▍    | 199700/371472 [4:50:06<13:02:09,  3.66it/s]                                                            {'loss': 3.0914, 'learning_rate': 5.163922945980305e-07, 'epoch': 8.6}
 54%|█████▍    | 199700/371472 [4:50:06<13:02:09,  3.66it/s] 54%|█████▍    | 199701/371472 [4:50:06<12:58:36,  3.68it/s] 54%|█████▍    | 199702/371472 [4:50:07<13:11:53,  3.62it/s] 54%|█████▍    | 199703/371472 [4:50:07<12:58:08,  3.68it/s] 54%|█████▍    | 199704/371472 [4:50:07<12:30:29,  3.81it/s] 54%|█████▍    | 199705/371472 [4:50:07<12:30:15,  3.82it/s] 54%|█████▍    | 199706/371472 [4:50:08<12:09:45,  3.92it/s] 54%|█████▍    | 199707/371472 [4:50:08<12:34:04,  3.80it/s] 54%|█████▍    | 199708/371472 [4:50:08<12:46:04,  3.74it/s] 54%|█████▍    | 199709/371472 [4:50:08<12:41:02,  3.76it/s] 54%|█████▍    | 199710/371472 [4:50:09<12:14:59,  3.89it/s] 54%|█████▍    | 199711/371472 [4:50:09<12:14:53,  3.90it/s] 54%|█████▍    | 199712/371472 [4:50:09<12:17:04,  3.88it/s] 54%|█████▍    | 199713/371472 [4:50:09<12:15:30,  3.89it/s] 54%|█████▍    | 199714/371472 [4:50:10<12:38:02,  3.78it/s] 54%|█████▍    | 199715/371472 [4:50:10<12:30:01,  3.82it/s] 54%|█████▍    | 199716/371472 [4:50:10<12:35:01,  3.79it/s] 54%|█████▍    | 199717/371472 [4:50:11<13:09:53,  3.62it/s] 54%|█████▍    | 199718/371472 [4:50:11<12:37:57,  3.78it/s] 54%|█████▍    | 199719/371472 [4:50:11<12:27:23,  3.83it/s] 54%|█████▍    | 199720/371472 [4:50:11<12:27:15,  3.83it/s]                                                            {'loss': 2.9714, 'learning_rate': 5.163438126225517e-07, 'epoch': 8.6}
 54%|█████▍    | 199720/371472 [4:50:11<12:27:15,  3.83it/s] 54%|█████▍    | 199721/371472 [4:50:12<12:41:03,  3.76it/s] 54%|█████▍    | 199722/371472 [4:50:12<12:22:27,  3.86it/s] 54%|█████▍    | 199723/371472 [4:50:12<12:16:48,  3.88it/s] 54%|█████▍    | 199724/371472 [4:50:12<12:31:06,  3.81it/s] 54%|█████▍    | 199725/371472 [4:50:13<12:22:47,  3.85it/s] 54%|█████▍    | 199726/371472 [4:50:13<12:13:59,  3.90it/s] 54%|█████▍    | 199727/371472 [4:50:13<12:30:47,  3.81it/s] 54%|█████▍    | 199728/371472 [4:50:13<12:43:28,  3.75it/s] 54%|█████▍    | 199729/371472 [4:50:14<13:17:52,  3.59it/s] 54%|█████▍    | 199730/371472 [4:50:14<13:18:16,  3.59it/s] 54%|█████▍    | 199731/371472 [4:50:14<13:21:26,  3.57it/s] 54%|█████▍    | 199732/371472 [4:50:15<14:03:00,  3.40it/s] 54%|█████▍    | 199733/371472 [4:50:15<14:16:04,  3.34it/s] 54%|█████▍    | 199734/371472 [4:50:15<14:37:28,  3.26it/s] 54%|█████▍    | 199735/371472 [4:50:16<14:38:10,  3.26it/s] 54%|█████▍    | 199736/371472 [4:50:16<14:14:03,  3.35it/s] 54%|█████▍    | 199737/371472 [4:50:16<14:14:48,  3.35it/s] 54%|█████▍    | 199738/371472 [4:50:16<14:18:09,  3.34it/s] 54%|█████▍    | 199739/371472 [4:50:17<13:49:07,  3.45it/s] 54%|█████▍    | 199740/371472 [4:50:17<13:23:43,  3.56it/s]                                                            {'loss': 2.7893, 'learning_rate': 5.162953306470726e-07, 'epoch': 8.6}
 54%|█████▍    | 199740/371472 [4:50:17<13:23:43,  3.56it/s] 54%|█████▍    | 199741/371472 [4:50:17<13:25:34,  3.55it/s] 54%|█████▍    | 199742/371472 [4:50:17<12:57:22,  3.68it/s] 54%|█████▍    | 199743/371472 [4:50:18<12:44:18,  3.74it/s] 54%|█████▍    | 199744/371472 [4:50:18<13:43:12,  3.48it/s] 54%|█████▍    | 199745/371472 [4:50:18<14:06:19,  3.38it/s] 54%|█████▍    | 199746/371472 [4:50:19<13:35:16,  3.51it/s] 54%|█████▍    | 199747/371472 [4:50:19<13:11:12,  3.62it/s] 54%|█████▍    | 199748/371472 [4:50:19<14:28:05,  3.30it/s] 54%|█████▍    | 199749/371472 [4:50:20<14:54:04,  3.20it/s] 54%|█████▍    | 199750/371472 [4:50:20<14:08:59,  3.37it/s] 54%|█████▍    | 199751/371472 [4:50:20<13:57:55,  3.42it/s] 54%|█████▍    | 199752/371472 [4:50:20<13:31:39,  3.53it/s] 54%|█████▍    | 199753/371472 [4:50:21<14:06:19,  3.38it/s] 54%|█████▍    | 199754/371472 [4:50:21<13:47:54,  3.46it/s] 54%|█████▍    | 199755/371472 [4:50:21<13:18:21,  3.58it/s] 54%|█████▍    | 199756/371472 [4:50:22<13:39:22,  3.49it/s] 54%|█████▍    | 199757/371472 [4:50:22<13:09:33,  3.62it/s] 54%|█████▍    | 199758/371472 [4:50:22<13:46:05,  3.46it/s] 54%|█████▍    | 199759/371472 [4:50:22<13:51:02,  3.44it/s] 54%|█████▍    | 199760/371472 [4:50:23<13:43:05,  3.48it/s]                                                            {'loss': 3.0021, 'learning_rate': 5.162468486715939e-07, 'epoch': 8.6}
 54%|█████▍    | 199760/371472 [4:50:23<13:43:05,  3.48it/s] 54%|█████▍    | 199761/371472 [4:50:23<13:52:41,  3.44it/s] 54%|█████▍    | 199762/371472 [4:50:23<13:27:32,  3.54it/s] 54%|█████▍    | 199763/371472 [4:50:24<13:26:14,  3.55it/s] 54%|█████▍    | 199764/371472 [4:50:24<13:19:29,  3.58it/s] 54%|█████▍    | 199765/371472 [4:50:24<12:50:09,  3.72it/s] 54%|█████▍    | 199766/371472 [4:50:24<12:34:22,  3.79it/s] 54%|█████▍    | 199767/371472 [4:50:25<13:18:29,  3.58it/s] 54%|█████▍    | 199768/371472 [4:50:25<13:31:24,  3.53it/s] 54%|█████▍    | 199769/371472 [4:50:25<13:33:06,  3.52it/s] 54%|█████▍    | 199770/371472 [4:50:26<13:35:56,  3.51it/s] 54%|█████▍    | 199771/371472 [4:50:26<13:25:25,  3.55it/s] 54%|█████▍    | 199772/371472 [4:50:26<14:00:56,  3.40it/s] 54%|█████▍    | 199773/371472 [4:50:26<13:27:27,  3.54it/s] 54%|█████▍    | 199774/371472 [4:50:27<13:24:56,  3.56it/s] 54%|█████▍    | 199775/371472 [4:50:27<14:01:57,  3.40it/s] 54%|█████▍    | 199776/371472 [4:50:27<13:44:29,  3.47it/s] 54%|█████▍    | 199777/371472 [4:50:28<13:58:16,  3.41it/s] 54%|█████▍    | 199778/371472 [4:50:28<13:50:30,  3.45it/s] 54%|█████▍    | 199779/371472 [4:50:28<14:13:28,  3.35it/s] 54%|█████▍    | 199780/371472 [4:50:28<14:19:02,  3.33it/s]                                                            {'loss': 3.0858, 'learning_rate': 5.16198366696115e-07, 'epoch': 8.6}
 54%|█████▍    | 199780/371472 [4:50:28<14:19:02,  3.33it/s] 54%|█████▍    | 199781/371472 [4:50:29<15:32:24,  3.07it/s] 54%|█████▍    | 199782/371472 [4:50:29<14:51:45,  3.21it/s] 54%|█████▍    | 199783/371472 [4:50:29<14:13:24,  3.35it/s] 54%|█████▍    | 199784/371472 [4:50:30<13:55:40,  3.42it/s] 54%|█████▍    | 199785/371472 [4:50:30<14:10:44,  3.36it/s] 54%|█████▍    | 199786/371472 [4:50:30<13:53:45,  3.43it/s] 54%|█████▍    | 199787/371472 [4:50:31<13:33:19,  3.52it/s] 54%|█████▍    | 199788/371472 [4:50:31<13:26:24,  3.55it/s] 54%|█████▍    | 199789/371472 [4:50:31<13:15:00,  3.60it/s] 54%|█████▍    | 199790/371472 [4:50:31<13:36:02,  3.51it/s] 54%|█████▍    | 199791/371472 [4:50:32<13:25:42,  3.55it/s] 54%|█████▍    | 199792/371472 [4:50:32<13:35:22,  3.51it/s] 54%|█████▍    | 199793/371472 [4:50:32<13:45:17,  3.47it/s] 54%|█████▍    | 199794/371472 [4:50:33<13:49:15,  3.45it/s] 54%|█████▍    | 199795/371472 [4:50:33<13:34:06,  3.51it/s] 54%|█████▍    | 199796/371472 [4:50:33<12:59:15,  3.67it/s] 54%|█████▍    | 199797/371472 [4:50:33<13:54:34,  3.43it/s] 54%|█████▍    | 199798/371472 [4:50:34<14:17:21,  3.34it/s] 54%|█████▍    | 199799/371472 [4:50:34<13:48:49,  3.45it/s] 54%|█████▍    | 199800/371472 [4:50:34<14:16:29,  3.34it/s]                                                            {'loss': 3.0282, 'learning_rate': 5.161498847206361e-07, 'epoch': 8.61}
 54%|█████▍    | 199800/371472 [4:50:34<14:16:29,  3.34it/s] 54%|█████▍    | 199801/371472 [4:50:35<13:59:49,  3.41it/s] 54%|█████▍    | 199802/371472 [4:50:35<13:34:32,  3.51it/s] 54%|█████▍    | 199803/371472 [4:50:35<13:18:23,  3.58it/s] 54%|█████▍    | 199804/371472 [4:50:35<13:20:53,  3.57it/s] 54%|█████▍    | 199805/371472 [4:50:36<13:21:46,  3.57it/s] 54%|█████▍    | 199806/371472 [4:50:36<14:41:25,  3.25it/s] 54%|█████▍    | 199807/371472 [4:50:36<13:52:41,  3.44it/s] 54%|█████▍    | 199808/371472 [4:50:37<14:01:18,  3.40it/s] 54%|█████▍    | 199809/371472 [4:50:37<13:41:57,  3.48it/s] 54%|█████▍    | 199810/371472 [4:50:37<13:55:18,  3.43it/s] 54%|█████▍    | 199811/371472 [4:50:37<14:05:36,  3.38it/s] 54%|█████▍    | 199812/371472 [4:50:38<14:56:55,  3.19it/s] 54%|█████▍    | 199813/371472 [4:50:38<14:15:56,  3.34it/s] 54%|█████▍    | 199814/371472 [4:50:38<13:21:14,  3.57it/s] 54%|█████▍    | 199815/371472 [4:50:39<13:59:50,  3.41it/s] 54%|█████▍    | 199816/371472 [4:50:39<14:04:48,  3.39it/s] 54%|█████▍    | 199817/371472 [4:50:39<14:05:26,  3.38it/s] 54%|█████▍    | 199818/371472 [4:50:40<13:41:42,  3.48it/s] 54%|█████▍    | 199819/371472 [4:50:40<13:35:12,  3.51it/s] 54%|█████▍    | 199820/371472 [4:50:40<13:07:52,  3.63it/s]                                                            {'loss': 2.9097, 'learning_rate': 5.161014027451571e-07, 'epoch': 8.61}
 54%|█████▍    | 199820/371472 [4:50:40<13:07:52,  3.63it/s] 54%|█████▍    | 199821/371472 [4:50:40<14:05:12,  3.38it/s] 54%|█████▍    | 199822/371472 [4:50:41<14:51:09,  3.21it/s] 54%|█████▍    | 199823/371472 [4:50:41<14:13:13,  3.35it/s] 54%|█████▍    | 199824/371472 [4:50:41<13:57:16,  3.42it/s] 54%|█████▍    | 199825/371472 [4:50:42<14:01:52,  3.40it/s] 54%|█████▍    | 199826/371472 [4:50:42<13:43:07,  3.48it/s] 54%|█████▍    | 199827/371472 [4:50:42<14:00:52,  3.40it/s] 54%|█████▍    | 199828/371472 [4:50:42<13:42:25,  3.48it/s] 54%|█████▍    | 199829/371472 [4:50:43<13:55:04,  3.43it/s] 54%|█████▍    | 199830/371472 [4:50:43<13:35:13,  3.51it/s] 54%|█████▍    | 199831/371472 [4:50:43<13:48:16,  3.45it/s] 54%|█████▍    | 199832/371472 [4:50:44<13:11:01,  3.62it/s] 54%|█████▍    | 199833/371472 [4:50:44<12:56:39,  3.68it/s] 54%|█████▍    | 199834/371472 [4:50:44<12:54:51,  3.69it/s] 54%|█████▍    | 199835/371472 [4:50:44<12:38:38,  3.77it/s] 54%|█████▍    | 199836/371472 [4:50:45<13:10:12,  3.62it/s] 54%|█████▍    | 199837/371472 [4:50:45<12:51:48,  3.71it/s] 54%|█████▍    | 199838/371472 [4:50:45<12:57:25,  3.68it/s] 54%|█████▍    | 199839/371472 [4:50:45<12:47:59,  3.72it/s] 54%|█████▍    | 199840/371472 [4:50:46<13:16:46,  3.59it/s]                                                            {'loss': 3.0398, 'learning_rate': 5.160529207696783e-07, 'epoch': 8.61}
 54%|█████▍    | 199840/371472 [4:50:46<13:16:46,  3.59it/s] 54%|█████▍    | 199841/371472 [4:50:46<13:08:41,  3.63it/s] 54%|█████▍    | 199842/371472 [4:50:46<12:42:36,  3.75it/s] 54%|█████▍    | 199843/371472 [4:50:46<12:27:48,  3.83it/s] 54%|█████▍    | 199844/371472 [4:50:47<14:31:46,  3.28it/s] 54%|█████▍    | 199845/371472 [4:50:47<13:56:16,  3.42it/s] 54%|█████▍    | 199846/371472 [4:50:47<13:36:14,  3.50it/s] 54%|█████▍    | 199847/371472 [4:50:48<13:28:58,  3.54it/s] 54%|█████▍    | 199848/371472 [4:50:48<13:19:45,  3.58it/s] 54%|█████▍    | 199849/371472 [4:50:48<13:37:15,  3.50it/s] 54%|█████▍    | 199850/371472 [4:50:49<13:45:51,  3.46it/s] 54%|█████▍    | 199851/371472 [4:50:49<13:47:54,  3.45it/s] 54%|█████▍    | 199852/371472 [4:50:49<13:30:45,  3.53it/s] 54%|█████▍    | 199853/371472 [4:50:49<13:17:52,  3.58it/s] 54%|█████▍    | 199854/371472 [4:50:50<13:00:55,  3.66it/s] 54%|█████▍    | 199855/371472 [4:50:50<12:55:12,  3.69it/s] 54%|█████▍    | 199856/371472 [4:50:50<12:37:28,  3.78it/s] 54%|█████▍    | 199857/371472 [4:50:50<13:13:29,  3.60it/s] 54%|█████▍    | 199858/371472 [4:50:51<13:03:12,  3.65it/s] 54%|█████▍    | 199859/371472 [4:50:51<13:06:52,  3.63it/s] 54%|█████▍    | 199860/371472 [4:50:51<13:28:39,  3.54it/s]                                                            {'loss': 3.0852, 'learning_rate': 5.160044387941993e-07, 'epoch': 8.61}
 54%|█████▍    | 199860/371472 [4:50:51<13:28:39,  3.54it/s] 54%|█████▍    | 199861/371472 [4:50:52<13:33:01,  3.52it/s] 54%|█████▍    | 199862/371472 [4:50:52<13:29:23,  3.53it/s] 54%|█████▍    | 199863/371472 [4:50:52<13:19:49,  3.58it/s] 54%|█████▍    | 199864/371472 [4:50:52<13:39:14,  3.49it/s] 54%|█████▍    | 199865/371472 [4:50:53<13:08:50,  3.63it/s] 54%|█████▍    | 199866/371472 [4:50:53<13:25:45,  3.55it/s] 54%|█████▍    | 199867/371472 [4:50:53<14:19:19,  3.33it/s] 54%|█████▍    | 199868/371472 [4:50:54<13:49:13,  3.45it/s] 54%|█████▍    | 199869/371472 [4:50:54<13:24:07,  3.56it/s] 54%|█████▍    | 199870/371472 [4:50:54<12:58:20,  3.67it/s] 54%|█████▍    | 199871/371472 [4:50:55<15:09:19,  3.15it/s] 54%|█████▍    | 199872/371472 [4:50:55<14:45:36,  3.23it/s] 54%|█████▍    | 199873/371472 [4:50:55<14:04:20,  3.39it/s] 54%|█████▍    | 199874/371472 [4:50:55<14:08:13,  3.37it/s] 54%|█████▍    | 199875/371472 [4:50:56<14:27:23,  3.30it/s] 54%|█████▍    | 199876/371472 [4:50:56<13:55:47,  3.42it/s] 54%|█████▍    | 199877/371472 [4:50:56<14:19:40,  3.33it/s] 54%|█████▍    | 199878/371472 [4:50:57<15:30:14,  3.07it/s] 54%|█████▍    | 199879/371472 [4:50:57<15:48:56,  3.01it/s] 54%|█████▍    | 199880/371472 [4:50:57<14:45:09,  3.23it/s]                                                            {'loss': 3.0171, 'learning_rate': 5.159559568187206e-07, 'epoch': 8.61}
 54%|█████▍    | 199880/371472 [4:50:57<14:45:09,  3.23it/s] 54%|█████▍    | 199881/371472 [4:50:58<14:35:00,  3.27it/s] 54%|█████▍    | 199882/371472 [4:50:58<14:24:17,  3.31it/s] 54%|█████▍    | 199883/371472 [4:50:58<14:15:05,  3.34it/s] 54%|█████▍    | 199884/371472 [4:50:58<14:04:05,  3.39it/s] 54%|█████▍    | 199885/371472 [4:50:59<13:53:46,  3.43it/s] 54%|█████▍    | 199886/371472 [4:50:59<13:36:59,  3.50it/s] 54%|█████▍    | 199887/371472 [4:50:59<13:22:50,  3.56it/s] 54%|█████▍    | 199888/371472 [4:51:00<13:14:54,  3.60it/s] 54%|█████▍    | 199889/371472 [4:51:00<13:51:52,  3.44it/s] 54%|█████▍    | 199890/371472 [4:51:00<13:21:21,  3.57it/s] 54%|█████▍    | 199891/371472 [4:51:00<14:00:46,  3.40it/s] 54%|█████▍    | 199892/371472 [4:51:01<13:35:05,  3.51it/s] 54%|█████▍    | 199893/371472 [4:51:01<13:28:00,  3.54it/s] 54%|█████▍    | 199894/371472 [4:51:01<13:20:08,  3.57it/s] 54%|█████▍    | 199895/371472 [4:51:02<14:58:52,  3.18it/s] 54%|█████▍    | 199896/371472 [4:51:02<14:27:09,  3.30it/s] 54%|█████▍    | 199897/371472 [4:51:02<13:52:19,  3.44it/s] 54%|█████▍    | 199898/371472 [4:51:03<15:03:39,  3.16it/s] 54%|█████▍    | 199899/371472 [4:51:03<14:13:34,  3.35it/s] 54%|█████▍    | 199900/371472 [4:51:03<14:09:24,  3.37it/s]                                                            {'loss': 2.8924, 'learning_rate': 5.159074748432416e-07, 'epoch': 8.61}
 54%|█████▍    | 199900/371472 [4:51:03<14:09:24,  3.37it/s] 54%|█████▍    | 199901/371472 [4:51:03<13:36:34,  3.50it/s] 54%|█████▍    | 199902/371472 [4:51:04<13:15:39,  3.59it/s] 54%|█████▍    | 199903/371472 [4:51:04<13:37:10,  3.50it/s] 54%|█████▍    | 199904/371472 [4:51:04<13:18:43,  3.58it/s] 54%|█████▍    | 199905/371472 [4:51:05<13:19:26,  3.58it/s] 54%|█████▍    | 199906/371472 [4:51:05<13:02:42,  3.65it/s] 54%|█████▍    | 199907/371472 [4:51:05<14:23:09,  3.31it/s] 54%|█████▍    | 199908/371472 [4:51:05<13:49:00,  3.45it/s] 54%|█████▍    | 199909/371472 [4:51:06<13:19:36,  3.58it/s] 54%|█████▍    | 199910/371472 [4:51:06<13:05:50,  3.64it/s] 54%|█████▍    | 199911/371472 [4:51:06<12:49:14,  3.72it/s] 54%|█████▍    | 199912/371472 [4:51:06<12:57:39,  3.68it/s] 54%|█████▍    | 199913/371472 [4:51:07<13:14:08,  3.60it/s] 54%|█████▍    | 199914/371472 [4:51:07<13:17:33,  3.59it/s] 54%|█████▍    | 199915/371472 [4:51:07<13:34:01,  3.51it/s] 54%|█████▍    | 199916/371472 [4:51:08<13:48:18,  3.45it/s] 54%|█████▍    | 199917/371472 [4:51:08<13:58:35,  3.41it/s] 54%|█████▍    | 199918/371472 [4:51:08<14:08:30,  3.37it/s] 54%|█████▍    | 199919/371472 [4:51:09<13:38:11,  3.49it/s] 54%|█████▍    | 199920/371472 [4:51:09<13:07:55,  3.63it/s]                                                            {'loss': 2.8962, 'learning_rate': 5.158589928677627e-07, 'epoch': 8.61}
 54%|█████▍    | 199920/371472 [4:51:09<13:07:55,  3.63it/s] 54%|█████▍    | 199921/371472 [4:51:09<14:20:09,  3.32it/s] 54%|█████▍    | 199922/371472 [4:51:09<13:36:36,  3.50it/s] 54%|█████▍    | 199923/371472 [4:51:10<13:11:33,  3.61it/s] 54%|█████▍    | 199924/371472 [4:51:10<13:51:42,  3.44it/s] 54%|█████▍    | 199925/371472 [4:51:10<14:42:21,  3.24it/s] 54%|█████▍    | 199926/371472 [4:51:11<14:07:45,  3.37it/s] 54%|█████▍    | 199927/371472 [4:51:11<13:47:03,  3.46it/s] 54%|█████▍    | 199928/371472 [4:51:11<15:05:14,  3.16it/s] 54%|█████▍    | 199929/371472 [4:51:11<14:21:25,  3.32it/s] 54%|█████▍    | 199930/371472 [4:51:12<13:40:20,  3.49it/s] 54%|█████▍    | 199931/371472 [4:51:12<13:20:58,  3.57it/s] 54%|█████▍    | 199932/371472 [4:51:12<13:26:02,  3.55it/s] 54%|█████▍    | 199933/371472 [4:51:13<12:51:46,  3.70it/s] 54%|█████▍    | 199934/371472 [4:51:13<12:57:59,  3.67it/s] 54%|█████▍    | 199935/371472 [4:51:13<14:10:53,  3.36it/s] 54%|█████▍    | 199936/371472 [4:51:14<15:08:10,  3.15it/s] 54%|█████▍    | 199937/371472 [4:51:14<14:18:01,  3.33it/s] 54%|█████▍    | 199938/371472 [4:51:14<13:38:26,  3.49it/s] 54%|█████▍    | 199939/371472 [4:51:14<13:23:12,  3.56it/s] 54%|█████▍    | 199940/371472 [4:51:15<14:03:38,  3.39it/s]                                                            {'loss': 2.9757, 'learning_rate': 5.158105108922838e-07, 'epoch': 8.61}
 54%|█████▍    | 199940/371472 [4:51:15<14:03:38,  3.39it/s] 54%|█████▍    | 199941/371472 [4:51:15<14:19:05,  3.33it/s] 54%|█████▍    | 199942/371472 [4:51:15<13:55:37,  3.42it/s] 54%|█████▍    | 199943/371472 [4:51:15<13:32:12,  3.52it/s] 54%|█████▍    | 199944/371472 [4:51:16<13:10:27,  3.62it/s] 54%|█████▍    | 199945/371472 [4:51:16<13:17:54,  3.58it/s] 54%|█████▍    | 199946/371472 [4:51:16<13:12:42,  3.61it/s] 54%|█████▍    | 199947/371472 [4:51:17<13:21:37,  3.57it/s] 54%|█████▍    | 199948/371472 [4:51:17<13:12:51,  3.61it/s] 54%|█████▍    | 199949/371472 [4:51:17<13:06:36,  3.63it/s] 54%|█████▍    | 199950/371472 [4:51:17<12:50:22,  3.71it/s] 54%|█████▍    | 199951/371472 [4:51:18<13:07:54,  3.63it/s] 54%|█████▍    | 199952/371472 [4:51:18<12:57:26,  3.68it/s] 54%|█████▍    | 199953/371472 [4:51:18<14:14:38,  3.34it/s] 54%|█████▍    | 199954/371472 [4:51:19<13:33:57,  3.51it/s] 54%|█████▍    | 199955/371472 [4:51:19<13:03:55,  3.65it/s] 54%|█████▍    | 199956/371472 [4:51:19<12:50:37,  3.71it/s] 54%|█████▍    | 199957/371472 [4:51:19<14:01:21,  3.40it/s] 54%|█████▍    | 199958/371472 [4:51:20<13:45:17,  3.46it/s] 54%|█████▍    | 199959/371472 [4:51:20<14:01:11,  3.40it/s] 54%|█████▍    | 199960/371472 [4:51:20<13:58:56,  3.41it/s]                                                            {'loss': 3.0105, 'learning_rate': 5.15762028916805e-07, 'epoch': 8.61}
 54%|█████▍    | 199960/371472 [4:51:20<13:58:56,  3.41it/s] 54%|█████▍    | 199961/371472 [4:51:21<14:05:24,  3.38it/s] 54%|█████▍    | 199962/371472 [4:51:21<14:11:30,  3.36it/s] 54%|█████▍    | 199963/371472 [4:51:21<14:05:45,  3.38it/s] 54%|█████▍    | 199964/371472 [4:51:21<13:53:37,  3.43it/s] 54%|█████▍    | 199965/371472 [4:51:22<14:04:00,  3.39it/s] 54%|█████▍    | 199966/371472 [4:51:22<14:05:56,  3.38it/s] 54%|█████▍    | 199967/371472 [4:51:22<14:58:56,  3.18it/s] 54%|█████▍    | 199968/371472 [4:51:23<14:16:50,  3.34it/s] 54%|█████▍    | 199969/371472 [4:51:23<14:04:06,  3.39it/s] 54%|█████▍    | 199970/371472 [4:51:23<13:50:33,  3.44it/s] 54%|█████▍    | 199971/371472 [4:51:24<13:32:43,  3.52it/s] 54%|█████▍    | 199972/371472 [4:51:24<13:22:53,  3.56it/s] 54%|█████▍    | 199973/371472 [4:51:24<13:12:36,  3.61it/s] 54%|█████▍    | 199974/371472 [4:51:24<13:04:27,  3.64it/s] 54%|█████▍    | 199975/371472 [4:51:25<13:03:07,  3.65it/s] 54%|█████▍    | 199976/371472 [4:51:25<13:01:31,  3.66it/s] 54%|█████▍    | 199977/371472 [4:51:25<12:28:22,  3.82it/s] 54%|█████▍    | 199978/371472 [4:51:25<12:40:48,  3.76it/s] 54%|█████▍    | 199979/371472 [4:51:26<12:56:37,  3.68it/s] 54%|█████▍    | 199980/371472 [4:51:26<12:50:00,  3.71it/s]                                                            {'loss': 2.9613, 'learning_rate': 5.157135469413259e-07, 'epoch': 8.61}
 54%|█████▍    | 199980/371472 [4:51:26<12:50:00,  3.71it/s] 54%|█████▍    | 199981/371472 [4:51:26<13:01:47,  3.66it/s] 54%|█████▍    | 199982/371472 [4:51:27<13:15:23,  3.59it/s] 54%|█████▍    | 199983/371472 [4:51:27<13:08:35,  3.62it/s] 54%|█████▍    | 199984/371472 [4:51:27<13:23:58,  3.55it/s] 54%|█████▍    | 199985/371472 [4:51:27<12:51:52,  3.70it/s] 54%|█████▍    | 199986/371472 [4:51:28<12:41:04,  3.76it/s] 54%|█████▍    | 199987/371472 [4:51:28<13:03:37,  3.65it/s] 54%|█████▍    | 199988/371472 [4:51:28<12:54:46,  3.69it/s] 54%|█████▍    | 199989/371472 [4:51:28<13:26:25,  3.54it/s] 54%|█████▍    | 199990/371472 [4:51:29<13:23:58,  3.55it/s] 54%|█████▍    | 199991/371472 [4:51:29<13:08:57,  3.62it/s] 54%|█████▍    | 199992/371472 [4:51:29<14:37:43,  3.26it/s] 54%|█████▍    | 199993/371472 [4:51:30<13:55:09,  3.42it/s] 54%|█████▍    | 199994/371472 [4:51:30<14:52:54,  3.20it/s] 54%|█████▍    | 199995/371472 [4:51:30<14:13:04,  3.35it/s] 54%|█████▍    | 199996/371472 [4:51:31<14:21:08,  3.32it/s] 54%|█████▍    | 199997/371472 [4:51:31<13:52:35,  3.43it/s] 54%|█████▍    | 199998/371472 [4:51:31<13:15:18,  3.59it/s] 54%|█████▍    | 199999/371472 [4:51:31<12:44:08,  3.74it/s] 54%|█████▍    | 200000/371472 [4:51:32<12:55:29,  3.69it/s]                                                            {'loss': 3.0211, 'learning_rate': 5.156650649658472e-07, 'epoch': 8.61}
 54%|█████▍    | 200000/371472 [4:51:32<12:55:29,  3.69it/s] 54%|█████▍    | 200001/371472 [4:51:32<14:19:05,  3.33it/s] 54%|█████▍    | 200002/371472 [4:51:32<15:35:04,  3.06it/s] 54%|█████▍    | 200003/371472 [4:51:33<15:19:23,  3.11it/s] 54%|█████▍    | 200004/371472 [4:51:33<14:45:01,  3.23it/s] 54%|█████▍    | 200005/371472 [4:51:33<14:00:01,  3.40it/s] 54%|█████▍    | 200006/371472 [4:51:34<14:35:19,  3.26it/s] 54%|█████▍    | 200007/371472 [4:51:34<14:23:01,  3.31it/s] 54%|█████▍    | 200008/371472 [4:51:34<13:46:08,  3.46it/s] 54%|█████▍    | 200009/371472 [4:51:34<13:08:10,  3.63it/s] 54%|█████▍    | 200010/371472 [4:51:35<12:36:37,  3.78it/s] 54%|█████▍    | 200011/371472 [4:51:35<12:15:23,  3.89it/s] 54%|█████▍    | 200012/371472 [4:51:35<12:13:30,  3.90it/s] 54%|█████▍    | 200013/371472 [4:51:35<13:17:02,  3.59it/s] 54%|█████▍    | 200014/371472 [4:51:36<13:36:54,  3.50it/s] 54%|█████▍    | 200015/371472 [4:51:36<13:32:38,  3.52it/s] 54%|█████▍    | 200016/371472 [4:51:36<12:49:50,  3.71it/s] 54%|█████▍    | 200017/371472 [4:51:37<13:25:53,  3.55it/s] 54%|█████▍    | 200018/371472 [4:51:37<13:44:13,  3.47it/s] 54%|█████▍    | 200019/371472 [4:51:37<13:53:55,  3.43it/s] 54%|█████▍    | 200020/371472 [4:51:37<13:19:58,  3.57it/s]                                                            {'loss': 2.9943, 'learning_rate': 5.156165829903683e-07, 'epoch': 8.62}
 54%|█████▍    | 200020/371472 [4:51:37<13:19:58,  3.57it/s] 54%|█████▍    | 200021/371472 [4:51:38<13:31:29,  3.52it/s] 54%|█████▍    | 200022/371472 [4:51:38<13:42:01,  3.48it/s] 54%|█████▍    | 200023/371472 [4:51:38<13:16:36,  3.59it/s] 54%|█████▍    | 200024/371472 [4:51:38<13:07:57,  3.63it/s] 54%|█████▍    | 200025/371472 [4:51:39<12:47:04,  3.73it/s] 54%|█████▍    | 200026/371472 [4:51:39<12:36:08,  3.78it/s] 54%|█████▍    | 200027/371472 [4:51:39<12:33:56,  3.79it/s] 54%|█████▍    | 200028/371472 [4:51:40<13:33:54,  3.51it/s] 54%|█████▍    | 200029/371472 [4:51:40<14:08:56,  3.37it/s] 54%|█████▍    | 200030/371472 [4:51:40<14:35:59,  3.26it/s] 54%|█████▍    | 200031/371472 [4:51:40<13:41:29,  3.48it/s] 54%|█████▍    | 200032/371472 [4:51:41<13:10:19,  3.62it/s] 54%|█████▍    | 200033/371472 [4:51:41<13:37:54,  3.49it/s] 54%|█████▍    | 200034/371472 [4:51:41<13:15:51,  3.59it/s] 54%|█████▍    | 200035/371472 [4:51:42<14:07:31,  3.37it/s] 54%|█████▍    | 200036/371472 [4:51:42<13:45:36,  3.46it/s] 54%|█████▍    | 200037/371472 [4:51:42<14:40:14,  3.25it/s] 54%|█████▍    | 200038/371472 [4:51:43<13:52:26,  3.43it/s] 54%|█████▍    | 200039/371472 [4:51:43<13:47:30,  3.45it/s] 54%|█████▍    | 200040/371472 [4:51:43<13:21:59,  3.56it/s]                                                            {'loss': 3.0705, 'learning_rate': 5.155681010148894e-07, 'epoch': 8.62}
 54%|█████▍    | 200040/371472 [4:51:43<13:21:59,  3.56it/s] 54%|█████▍    | 200041/371472 [4:51:43<14:09:05,  3.37it/s] 54%|█████▍    | 200042/371472 [4:51:44<13:56:07,  3.42it/s] 54%|█████▍    | 200043/371472 [4:51:44<13:54:28,  3.42it/s] 54%|█████▍    | 200044/371472 [4:51:44<14:07:49,  3.37it/s] 54%|█████▍    | 200045/371472 [4:51:45<13:50:41,  3.44it/s] 54%|█████▍    | 200046/371472 [4:51:45<13:19:06,  3.58it/s] 54%|█████▍    | 200047/371472 [4:51:45<13:29:47,  3.53it/s] 54%|█████▍    | 200048/371472 [4:51:45<13:34:29,  3.51it/s] 54%|█████▍    | 200049/371472 [4:51:46<14:58:14,  3.18it/s] 54%|█████▍    | 200050/371472 [4:51:46<14:25:29,  3.30it/s] 54%|█████▍    | 200051/371472 [4:51:46<14:00:49,  3.40it/s] 54%|█████▍    | 200052/371472 [4:51:47<13:35:14,  3.50it/s] 54%|█████▍    | 200053/371472 [4:51:47<14:00:16,  3.40it/s] 54%|█████▍    | 200054/371472 [4:51:47<13:51:15,  3.44it/s] 54%|█████▍    | 200055/371472 [4:51:47<13:59:00,  3.41it/s] 54%|█████▍    | 200056/371472 [4:51:48<14:47:08,  3.22it/s] 54%|█████▍    | 200057/371472 [4:51:48<15:02:16,  3.17it/s] 54%|█████▍    | 200058/371472 [4:51:48<14:32:33,  3.27it/s] 54%|█████▍    | 200059/371472 [4:51:49<14:11:59,  3.35it/s] 54%|█████▍    | 200060/371472 [4:51:49<14:47:08,  3.22it/s]                                                            {'loss': 2.8343, 'learning_rate': 5.155196190394104e-07, 'epoch': 8.62}
 54%|█████▍    | 200060/371472 [4:51:49<14:47:08,  3.22it/s] 54%|█████▍    | 200061/371472 [4:51:49<14:26:06,  3.30it/s] 54%|█████▍    | 200062/371472 [4:51:50<13:55:04,  3.42it/s] 54%|█████▍    | 200063/371472 [4:51:50<13:53:03,  3.43it/s] 54%|█████▍    | 200064/371472 [4:51:50<13:39:26,  3.49it/s] 54%|█████▍    | 200065/371472 [4:51:50<13:04:30,  3.64it/s] 54%|█████▍    | 200066/371472 [4:51:51<12:52:50,  3.70it/s] 54%|█████▍    | 200067/371472 [4:51:51<12:45:14,  3.73it/s] 54%|█████▍    | 200068/371472 [4:51:51<14:22:58,  3.31it/s] 54%|█████▍    | 200069/371472 [4:51:52<15:16:03,  3.12it/s] 54%|█████▍    | 200070/371472 [4:51:52<14:11:31,  3.35it/s] 54%|█████▍    | 200071/371472 [4:51:52<13:53:36,  3.43it/s] 54%|█████▍    | 200072/371472 [4:51:53<15:16:35,  3.12it/s] 54%|█████▍    | 200073/371472 [4:51:53<14:15:47,  3.34it/s] 54%|█████▍    | 200074/371472 [4:51:53<14:30:19,  3.28it/s] 54%|█████▍    | 200075/371472 [4:51:53<14:17:35,  3.33it/s] 54%|█████▍    | 200076/371472 [4:51:54<14:32:01,  3.28it/s] 54%|█████▍    | 200077/371472 [4:51:54<13:52:41,  3.43it/s] 54%|█████▍    | 200078/371472 [4:51:54<13:19:15,  3.57it/s] 54%|█████▍    | 200079/371472 [4:51:55<13:51:57,  3.43it/s] 54%|█████▍    | 200080/371472 [4:51:55<13:24:35,  3.55it/s]                                                            {'loss': 3.0678, 'learning_rate': 5.154711370639315e-07, 'epoch': 8.62}
 54%|█████▍    | 200080/371472 [4:51:55<13:24:35,  3.55it/s] 54%|█████▍    | 200081/371472 [4:51:55<13:20:00,  3.57it/s] 54%|█████▍    | 200082/371472 [4:51:55<13:14:59,  3.59it/s] 54%|█████▍    | 200083/371472 [4:51:56<12:43:58,  3.74it/s] 54%|█████▍    | 200084/371472 [4:51:56<12:42:47,  3.74it/s] 54%|█████▍    | 200085/371472 [4:51:56<12:57:26,  3.67it/s] 54%|█████▍    | 200086/371472 [4:51:57<13:15:43,  3.59it/s] 54%|█████▍    | 200087/371472 [4:51:57<13:40:40,  3.48it/s] 54%|█████▍    | 200088/371472 [4:51:57<13:28:31,  3.53it/s] 54%|█████▍    | 200089/371472 [4:51:57<13:03:17,  3.65it/s] 54%|█████▍    | 200090/371472 [4:51:58<12:44:26,  3.74it/s] 54%|█████▍    | 200091/371472 [4:51:58<12:48:10,  3.72it/s] 54%|█████▍    | 200092/371472 [4:51:58<12:55:03,  3.69it/s] 54%|█████▍    | 200093/371472 [4:51:58<13:11:48,  3.61it/s] 54%|█████▍    | 200094/371472 [4:51:59<13:45:48,  3.46it/s] 54%|█████▍    | 200095/371472 [4:51:59<13:13:12,  3.60it/s] 54%|█████▍    | 200096/371472 [4:51:59<12:58:23,  3.67it/s] 54%|█████▍    | 200097/371472 [4:52:00<13:03:44,  3.64it/s] 54%|█████▍    | 200098/371472 [4:52:00<13:10:07,  3.61it/s] 54%|█████▍    | 200099/371472 [4:52:00<13:58:42,  3.41it/s] 54%|█████▍    | 200100/371472 [4:52:00<13:34:50,  3.51it/s]                                                            {'loss': 3.0043, 'learning_rate': 5.154226550884528e-07, 'epoch': 8.62}
 54%|█████▍    | 200100/371472 [4:52:00<13:34:50,  3.51it/s] 54%|█████▍    | 200101/371472 [4:52:01<13:04:10,  3.64it/s] 54%|█████▍    | 200102/371472 [4:52:01<14:32:07,  3.27it/s] 54%|█████▍    | 200103/371472 [4:52:01<14:06:42,  3.37it/s] 54%|█████▍    | 200104/371472 [4:52:02<13:31:16,  3.52it/s] 54%|█████▍    | 200105/371472 [4:52:02<13:23:21,  3.56it/s] 54%|█████▍    | 200106/371472 [4:52:02<14:07:28,  3.37it/s] 54%|█████▍    | 200107/371472 [4:52:03<14:55:28,  3.19it/s] 54%|█████▍    | 200108/371472 [4:52:03<15:27:21,  3.08it/s] 54%|█████▍    | 200109/371472 [4:52:03<14:55:57,  3.19it/s] 54%|█████▍    | 200110/371472 [4:52:03<14:04:44,  3.38it/s] 54%|█████▍    | 200111/371472 [4:52:04<14:40:25,  3.24it/s] 54%|█████▍    | 200112/371472 [4:52:04<14:10:57,  3.36it/s] 54%|█████▍    | 200113/371472 [4:52:04<13:41:23,  3.48it/s] 54%|█████▍    | 200114/371472 [4:52:05<13:32:57,  3.51it/s] 54%|█████▍    | 200115/371472 [4:52:05<13:37:19,  3.49it/s] 54%|█████▍    | 200116/371472 [4:52:05<14:09:03,  3.36it/s] 54%|█████▍    | 200117/371472 [4:52:05<13:45:51,  3.46it/s] 54%|█████▍    | 200118/371472 [4:52:06<14:16:38,  3.33it/s] 54%|█████▍    | 200119/371472 [4:52:06<13:51:50,  3.43it/s] 54%|█████▍    | 200120/371472 [4:52:06<13:31:53,  3.52it/s]                                                            {'loss': 3.0509, 'learning_rate': 5.153741731129736e-07, 'epoch': 8.62}
 54%|█████▍    | 200120/371472 [4:52:06<13:31:53,  3.52it/s] 54%|█████▍    | 200121/371472 [4:52:07<14:14:20,  3.34it/s] 54%|█████▍    | 200122/371472 [4:52:07<14:05:02,  3.38it/s] 54%|█████▍    | 200123/371472 [4:52:07<13:33:22,  3.51it/s] 54%|█████▍    | 200124/371472 [4:52:08<13:48:13,  3.45it/s] 54%|█████▍    | 200125/371472 [4:52:08<13:37:42,  3.49it/s] 54%|█████▍    | 200126/371472 [4:52:08<13:15:34,  3.59it/s] 54%|█████▍    | 200127/371472 [4:52:08<13:04:52,  3.64it/s] 54%|█████▍    | 200128/371472 [4:52:09<13:20:59,  3.57it/s] 54%|█████▍    | 200129/371472 [4:52:09<14:08:03,  3.37it/s] 54%|█████▍    | 200130/371472 [4:52:09<13:37:51,  3.49it/s] 54%|█████▍    | 200131/371472 [4:52:10<14:58:48,  3.18it/s] 54%|█████▍    | 200132/371472 [4:52:10<14:34:13,  3.27it/s] 54%|█████▍    | 200133/371472 [4:52:10<14:23:30,  3.31it/s] 54%|█████▍    | 200134/371472 [4:52:10<13:38:25,  3.49it/s] 54%|█████▍    | 200135/371472 [4:52:11<15:29:49,  3.07it/s] 54%|█████▍    | 200136/371472 [4:52:11<15:04:13,  3.16it/s] 54%|█████▍    | 200137/371472 [4:52:11<15:28:16,  3.08it/s] 54%|█████▍    | 200138/371472 [4:52:12<15:39:55,  3.04it/s] 54%|█████▍    | 200139/371472 [4:52:12<14:49:31,  3.21it/s] 54%|█████▍    | 200140/371472 [4:52:12<14:35:19,  3.26it/s]                                                            {'loss': 2.8641, 'learning_rate': 5.153256911374949e-07, 'epoch': 8.62}
 54%|█████▍    | 200140/371472 [4:52:12<14:35:19,  3.26it/s] 54%|█████▍    | 200141/371472 [4:52:13<14:17:44,  3.33it/s] 54%|█████▍    | 200142/371472 [4:52:13<14:19:02,  3.32it/s] 54%|█████▍    | 200143/371472 [4:52:13<13:30:20,  3.52it/s] 54%|█████▍    | 200144/371472 [4:52:13<13:06:04,  3.63it/s] 54%|█████▍    | 200145/371472 [4:52:14<12:53:26,  3.69it/s] 54%|█████▍    | 200146/371472 [4:52:14<12:45:42,  3.73it/s] 54%|█████▍    | 200147/371472 [4:52:14<13:25:00,  3.55it/s] 54%|█████▍    | 200148/371472 [4:52:15<13:19:14,  3.57it/s] 54%|█████▍    | 200149/371472 [4:52:15<13:10:40,  3.61it/s] 54%|█████▍    | 200150/371472 [4:52:15<13:24:35,  3.55it/s] 54%|█████▍    | 200151/371472 [4:52:15<13:35:19,  3.50it/s] 54%|█████▍    | 200152/371472 [4:52:16<13:11:58,  3.61it/s] 54%|█████▍    | 200153/371472 [4:52:16<13:55:49,  3.42it/s] 54%|█████▍    | 200154/371472 [4:52:16<13:33:33,  3.51it/s] 54%|█████▍    | 200155/371472 [4:52:17<14:02:20,  3.39it/s] 54%|█████▍    | 200156/371472 [4:52:17<15:51:30,  3.00it/s] 54%|█████▍    | 200157/371472 [4:52:17<14:59:06,  3.18it/s] 54%|█████▍    | 200158/371472 [4:52:18<14:12:08,  3.35it/s] 54%|█████▍    | 200159/371472 [4:52:18<13:32:58,  3.51it/s] 54%|█████▍    | 200160/371472 [4:52:18<13:44:17,  3.46it/s]                                                            {'loss': 2.9643, 'learning_rate': 5.15277209162016e-07, 'epoch': 8.62}
 54%|█████▍    | 200160/371472 [4:52:18<13:44:17,  3.46it/s] 54%|█████▍    | 200161/371472 [4:52:18<13:25:16,  3.55it/s] 54%|█████▍    | 200162/371472 [4:52:19<13:55:40,  3.42it/s] 54%|█████▍    | 200163/371472 [4:52:19<13:43:49,  3.47it/s] 54%|█████▍    | 200164/371472 [4:52:19<13:54:05,  3.42it/s] 54%|█████▍    | 200165/371472 [4:52:20<14:02:22,  3.39it/s] 54%|█████▍    | 200166/371472 [4:52:20<14:20:16,  3.32it/s] 54%|█████▍    | 200167/371472 [4:52:20<13:50:15,  3.44it/s] 54%|█████▍    | 200168/371472 [4:52:20<13:13:46,  3.60it/s] 54%|█████▍    | 200169/371472 [4:52:21<13:26:36,  3.54it/s] 54%|█████▍    | 200170/371472 [4:52:21<14:09:28,  3.36it/s] 54%|█████▍    | 200171/371472 [4:52:21<13:46:13,  3.46it/s] 54%|█████▍    | 200172/371472 [4:52:22<14:25:28,  3.30it/s] 54%|█████▍    | 200173/371472 [4:52:22<14:13:13,  3.35it/s] 54%|█████▍    | 200174/371472 [4:52:22<13:48:14,  3.45it/s] 54%|█████▍    | 200175/371472 [4:52:22<13:32:55,  3.51it/s] 54%|█████▍    | 200176/371472 [4:52:23<13:02:53,  3.65it/s] 54%|█████▍    | 200177/371472 [4:52:23<13:37:56,  3.49it/s] 54%|█████▍    | 200178/371472 [4:52:23<13:35:43,  3.50it/s] 54%|█████▍    | 200179/371472 [4:52:24<13:23:42,  3.55it/s] 54%|█████▍    | 200180/371472 [4:52:24<14:24:28,  3.30it/s]                                                            {'loss': 2.9332, 'learning_rate': 5.152287271865371e-07, 'epoch': 8.62}
 54%|█████▍    | 200180/371472 [4:52:24<14:24:28,  3.30it/s] 54%|█████▍    | 200181/371472 [4:52:24<14:03:14,  3.39it/s] 54%|█████▍    | 200182/371472 [4:52:25<14:14:23,  3.34it/s] 54%|█████▍    | 200183/371472 [4:52:25<14:21:18,  3.31it/s] 54%|█████▍    | 200184/371472 [4:52:25<13:37:07,  3.49it/s] 54%|█████▍    | 200185/371472 [4:52:25<13:12:31,  3.60it/s] 54%|█████▍    | 200186/371472 [4:52:26<13:02:24,  3.65it/s] 54%|█████▍    | 200187/371472 [4:52:26<12:40:12,  3.76it/s] 54%|█████▍    | 200188/371472 [4:52:26<13:39:55,  3.48it/s] 54%|█████▍    | 200189/371472 [4:52:26<13:37:10,  3.49it/s] 54%|█████▍    | 200190/371472 [4:52:27<13:21:05,  3.56it/s] 54%|█████▍    | 200191/371472 [4:52:27<13:14:21,  3.59it/s] 54%|█████▍    | 200192/371472 [4:52:27<13:55:34,  3.42it/s] 54%|█████▍    | 200193/371472 [4:52:28<13:28:06,  3.53it/s] 54%|█████▍    | 200194/371472 [4:52:28<13:31:17,  3.52it/s] 54%|█████▍    | 200195/371472 [4:52:28<13:12:04,  3.60it/s] 54%|█████▍    | 200196/371472 [4:52:28<13:13:52,  3.60it/s] 54%|█████▍    | 200197/371472 [4:52:29<13:44:46,  3.46it/s] 54%|█████▍    | 200198/371472 [4:52:29<13:08:43,  3.62it/s] 54%|█████▍    | 200199/371472 [4:52:29<13:56:26,  3.41it/s] 54%|█████▍    | 200200/371472 [4:52:30<13:37:44,  3.49it/s]                                                            {'loss': 2.9946, 'learning_rate': 5.151802452110581e-07, 'epoch': 8.62}
 54%|█████▍    | 200200/371472 [4:52:30<13:37:44,  3.49it/s] 54%|█████▍    | 200201/371472 [4:52:30<12:50:39,  3.70it/s] 54%|█████▍    | 200202/371472 [4:52:30<13:33:28,  3.51it/s] 54%|█████▍    | 200203/371472 [4:52:30<13:01:19,  3.65it/s] 54%|█████▍    | 200204/371472 [4:52:31<12:57:19,  3.67it/s] 54%|█████▍    | 200205/371472 [4:52:31<14:24:27,  3.30it/s] 54%|█████▍    | 200206/371472 [4:52:31<14:06:52,  3.37it/s] 54%|█████▍    | 200207/371472 [4:52:32<14:31:13,  3.28it/s] 54%|█████▍    | 200208/371472 [4:52:32<14:15:48,  3.34it/s] 54%|█████▍    | 200209/371472 [4:52:32<13:47:54,  3.45it/s] 54%|█████▍    | 200210/371472 [4:52:33<13:51:23,  3.43it/s] 54%|█████▍    | 200211/371472 [4:52:33<14:32:01,  3.27it/s] 54%|█████▍    | 200212/371472 [4:52:33<14:08:35,  3.36it/s] 54%|█████▍    | 200213/371472 [4:52:33<13:31:55,  3.52it/s] 54%|█████▍    | 200214/371472 [4:52:34<13:43:44,  3.47it/s] 54%|█████▍    | 200215/371472 [4:52:34<14:11:58,  3.35it/s] 54%|█████▍    | 200216/371472 [4:52:34<13:39:47,  3.48it/s] 54%|█████▍    | 200217/371472 [4:52:35<13:15:47,  3.59it/s] 54%|█████▍    | 200218/371472 [4:52:35<13:28:03,  3.53it/s] 54%|█████▍    | 200219/371472 [4:52:35<13:50:15,  3.44it/s] 54%|█████▍    | 200220/371472 [4:52:35<13:23:21,  3.55it/s]                                                            {'loss': 3.0814, 'learning_rate': 5.151317632355793e-07, 'epoch': 8.62}
 54%|█████▍    | 200220/371472 [4:52:35<13:23:21,  3.55it/s] 54%|█████▍    | 200221/371472 [4:52:36<13:30:46,  3.52it/s] 54%|█████▍    | 200222/371472 [4:52:36<13:21:57,  3.56it/s] 54%|█████▍    | 200223/371472 [4:52:36<14:05:38,  3.38it/s] 54%|█████▍    | 200224/371472 [4:52:37<14:06:16,  3.37it/s] 54%|█████▍    | 200225/371472 [4:52:37<13:49:33,  3.44it/s] 54%|█████▍    | 200226/371472 [4:52:37<13:55:59,  3.41it/s] 54%|█████▍    | 200227/371472 [4:52:37<14:26:41,  3.29it/s] 54%|█████▍    | 200228/371472 [4:52:38<13:52:40,  3.43it/s] 54%|█████▍    | 200229/371472 [4:52:38<14:03:39,  3.38it/s] 54%|█████▍    | 200230/371472 [4:52:38<13:40:44,  3.48it/s] 54%|█████▍    | 200231/371472 [4:52:39<13:27:40,  3.53it/s] 54%|█████▍    | 200232/371472 [4:52:39<13:25:04,  3.55it/s] 54%|█████▍    | 200233/371472 [4:52:39<13:32:57,  3.51it/s] 54%|█████▍    | 200234/371472 [4:52:39<13:08:32,  3.62it/s] 54%|█████▍    | 200235/371472 [4:52:40<13:05:28,  3.63it/s] 54%|█████▍    | 200236/371472 [4:52:40<12:52:00,  3.70it/s] 54%|█████▍    | 200237/371472 [4:52:40<13:34:50,  3.50it/s] 54%|█████▍    | 200238/371472 [4:52:41<13:48:52,  3.44it/s] 54%|█████▍    | 200239/371472 [4:52:41<13:42:52,  3.47it/s] 54%|█████▍    | 200240/371472 [4:52:41<13:15:19,  3.59it/s]                                                            {'loss': 2.9736, 'learning_rate': 5.150832812601003e-07, 'epoch': 8.62}
 54%|█████▍    | 200240/371472 [4:52:41<13:15:19,  3.59it/s] 54%|█████▍    | 200241/371472 [4:52:41<13:39:40,  3.48it/s] 54%|█████▍    | 200242/371472 [4:52:42<15:18:19,  3.11it/s] 54%|█████▍    | 200243/371472 [4:52:42<14:20:24,  3.32it/s] 54%|█████▍    | 200244/371472 [4:52:42<14:14:47,  3.34it/s] 54%|█████▍    | 200245/371472 [4:52:43<14:11:48,  3.35it/s] 54%|█████▍    | 200246/371472 [4:52:43<13:34:24,  3.50it/s] 54%|█████▍    | 200247/371472 [4:52:43<15:20:55,  3.10it/s] 54%|█████▍    | 200248/371472 [4:52:44<15:01:07,  3.17it/s] 54%|█████▍    | 200249/371472 [4:52:44<14:36:23,  3.26it/s] 54%|█████▍    | 200250/371472 [4:52:44<14:10:42,  3.35it/s] 54%|█████▍    | 200251/371472 [4:52:44<13:43:55,  3.46it/s] 54%|█████▍    | 200252/371472 [4:52:45<14:43:19,  3.23it/s] 54%|█████▍    | 200253/371472 [4:52:45<14:14:10,  3.34it/s] 54%|█████▍    | 200254/371472 [4:52:45<13:44:23,  3.46it/s] 54%|█████▍    | 200255/371472 [4:52:46<13:28:49,  3.53it/s] 54%|█████▍    | 200256/371472 [4:52:46<13:14:46,  3.59it/s] 54%|█████▍    | 200257/371472 [4:52:46<12:58:26,  3.67it/s] 54%|█████▍    | 200258/371472 [4:52:46<13:16:55,  3.58it/s] 54%|█████▍    | 200259/371472 [4:52:47<13:23:33,  3.55it/s] 54%|█████▍    | 200260/371472 [4:52:47<13:47:14,  3.45it/s]                                                            {'loss': 3.0337, 'learning_rate': 5.150347992846216e-07, 'epoch': 8.63}
 54%|█████▍    | 200260/371472 [4:52:47<13:47:14,  3.45it/s] 54%|█████▍    | 200261/371472 [4:52:47<14:01:24,  3.39it/s] 54%|█████▍    | 200262/371472 [4:52:48<13:43:47,  3.46it/s] 54%|█████▍    | 200263/371472 [4:52:48<13:14:40,  3.59it/s] 54%|█████▍    | 200264/371472 [4:52:48<13:30:19,  3.52it/s] 54%|█████▍    | 200265/371472 [4:52:49<14:45:25,  3.22it/s] 54%|█████▍    | 200266/371472 [4:52:49<14:04:02,  3.38it/s] 54%|█████▍    | 200267/371472 [4:52:49<15:17:02,  3.11it/s] 54%|█████▍    | 200268/371472 [4:52:49<14:14:29,  3.34it/s] 54%|█████▍    | 200269/371472 [4:52:50<15:44:48,  3.02it/s] 54%|█████▍    | 200270/371472 [4:52:50<14:54:00,  3.19it/s] 54%|█████▍    | 200271/371472 [4:52:50<14:10:51,  3.35it/s] 54%|█████▍    | 200272/371472 [4:52:51<15:03:32,  3.16it/s] 54%|█████▍    | 200273/371472 [4:52:51<14:52:49,  3.20it/s] 54%|█████▍    | 200274/371472 [4:52:51<14:19:33,  3.32it/s] 54%|█████▍    | 200275/371472 [4:52:52<13:56:45,  3.41it/s] 54%|█████▍    | 200276/371472 [4:52:52<13:36:04,  3.50it/s] 54%|█████▍    | 200277/371472 [4:52:52<13:34:48,  3.50it/s] 54%|█████▍    | 200278/371472 [4:52:52<13:49:08,  3.44it/s] 54%|█████▍    | 200279/371472 [4:52:53<15:15:59,  3.11it/s] 54%|█████▍    | 200280/371472 [4:52:53<14:35:14,  3.26it/s]                                                            {'loss': 2.8601, 'learning_rate': 5.149863173091426e-07, 'epoch': 8.63}
 54%|█████▍    | 200280/371472 [4:52:53<14:35:14,  3.26it/s] 54%|█████▍    | 200281/371472 [4:52:53<14:09:18,  3.36it/s] 54%|█████▍    | 200282/371472 [4:52:54<13:21:06,  3.56it/s] 54%|█████▍    | 200283/371472 [4:52:54<13:21:35,  3.56it/s] 54%|█████▍    | 200284/371472 [4:52:54<13:49:18,  3.44it/s] 54%|█████▍    | 200285/371472 [4:52:55<13:31:53,  3.51it/s] 54%|█████▍    | 200286/371472 [4:52:55<13:38:17,  3.49it/s] 54%|█████▍    | 200287/371472 [4:52:55<13:10:53,  3.61it/s] 54%|█████▍    | 200288/371472 [4:52:55<13:36:07,  3.50it/s] 54%|█████▍    | 200289/371472 [4:52:56<13:13:13,  3.60it/s] 54%|█████▍    | 200290/371472 [4:52:56<12:50:37,  3.70it/s] 54%|█████▍    | 200291/371472 [4:52:56<13:23:08,  3.55it/s] 54%|█████▍    | 200292/371472 [4:52:56<13:31:27,  3.52it/s] 54%|█████▍    | 200293/371472 [4:52:57<13:15:23,  3.59it/s] 54%|█████▍    | 200294/371472 [4:52:57<12:56:13,  3.68it/s] 54%|█████▍    | 200295/371472 [4:52:57<12:50:27,  3.70it/s] 54%|█████▍    | 200296/371472 [4:52:58<12:53:25,  3.69it/s] 54%|█████▍    | 200297/371472 [4:52:58<13:10:37,  3.61it/s] 54%|█████▍    | 200298/371472 [4:52:58<13:19:14,  3.57it/s] 54%|█████▍    | 200299/371472 [4:52:58<13:57:39,  3.41it/s] 54%|█████▍    | 200300/371472 [4:52:59<13:25:43,  3.54it/s]                                                            {'loss': 3.1019, 'learning_rate': 5.149378353336637e-07, 'epoch': 8.63}
 54%|█████▍    | 200300/371472 [4:52:59<13:25:43,  3.54it/s] 54%|█████▍    | 200301/371472 [4:52:59<12:49:45,  3.71it/s] 54%|█████▍    | 200302/371472 [4:52:59<14:05:05,  3.38it/s] 54%|█████▍    | 200303/371472 [4:53:00<14:37:02,  3.25it/s] 54%|█████▍    | 200304/371472 [4:53:00<14:48:05,  3.21it/s] 54%|█████▍    | 200305/371472 [4:53:00<14:16:01,  3.33it/s] 54%|█████▍    | 200306/371472 [4:53:00<13:52:16,  3.43it/s] 54%|█████▍    | 200307/371472 [4:53:01<13:53:33,  3.42it/s] 54%|█████▍    | 200308/371472 [4:53:01<14:29:27,  3.28it/s] 54%|█████▍    | 200309/371472 [4:53:01<14:12:34,  3.35it/s] 54%|█████▍    | 200310/371472 [4:53:02<13:53:53,  3.42it/s] 54%|█████▍    | 200311/371472 [4:53:02<14:11:40,  3.35it/s] 54%|█████▍    | 200312/371472 [4:53:02<13:55:12,  3.42it/s] 54%|█████▍    | 200313/371472 [4:53:03<13:53:23,  3.42it/s] 54%|█████▍    | 200314/371472 [4:53:03<14:10:52,  3.35it/s] 54%|█████▍    | 200315/371472 [4:53:03<13:50:27,  3.44it/s] 54%|█████▍    | 200316/371472 [4:53:03<13:47:36,  3.45it/s] 54%|█████▍    | 200317/371472 [4:53:04<13:35:06,  3.50it/s] 54%|█████▍    | 200318/371472 [4:53:04<14:31:25,  3.27it/s] 54%|█████▍    | 200319/371472 [4:53:04<14:13:39,  3.34it/s] 54%|█████▍    | 200320/371472 [4:53:05<14:04:59,  3.38it/s]                                                            {'loss': 3.0144, 'learning_rate': 5.148893533581848e-07, 'epoch': 8.63}
 54%|█████▍    | 200320/371472 [4:53:05<14:04:59,  3.38it/s] 54%|█████▍    | 200321/371472 [4:53:05<13:48:04,  3.44it/s] 54%|█████▍    | 200322/371472 [4:53:05<13:39:59,  3.48it/s] 54%|█████▍    | 200323/371472 [4:53:05<13:40:15,  3.48it/s] 54%|█████▍    | 200324/371472 [4:53:06<14:26:49,  3.29it/s] 54%|█████▍    | 200325/371472 [4:53:06<13:51:21,  3.43it/s] 54%|█████▍    | 200326/371472 [4:53:06<13:42:22,  3.47it/s] 54%|█████▍    | 200327/371472 [4:53:07<13:35:12,  3.50it/s] 54%|█████▍    | 200328/371472 [4:53:07<13:40:26,  3.48it/s] 54%|█████▍    | 200329/371472 [4:53:07<13:41:46,  3.47it/s] 54%|█████▍    | 200330/371472 [4:53:07<13:09:56,  3.61it/s] 54%|█████▍    | 200331/371472 [4:53:08<12:55:22,  3.68it/s] 54%|█████▍    | 200332/371472 [4:53:08<13:27:08,  3.53it/s] 54%|█████▍    | 200333/371472 [4:53:08<13:14:56,  3.59it/s] 54%|█████▍    | 200334/371472 [4:53:09<13:09:35,  3.61it/s] 54%|█████▍    | 200335/371472 [4:53:09<13:17:49,  3.58it/s] 54%|█████▍    | 200336/371472 [4:53:09<12:54:27,  3.68it/s] 54%|█████▍    | 200337/371472 [4:53:09<13:21:52,  3.56it/s] 54%|█████▍    | 200338/371472 [4:53:10<13:59:35,  3.40it/s] 54%|█████▍    | 200339/371472 [4:53:10<13:20:07,  3.56it/s] 54%|█████▍    | 200340/371472 [4:53:10<13:41:19,  3.47it/s]                                                            {'loss': 3.0871, 'learning_rate': 5.14840871382706e-07, 'epoch': 8.63}
 54%|█████▍    | 200340/371472 [4:53:10<13:41:19,  3.47it/s] 54%|█████▍    | 200341/371472 [4:53:11<13:34:22,  3.50it/s] 54%|█████▍    | 200342/371472 [4:53:11<13:17:48,  3.57it/s] 54%|█████▍    | 200343/371472 [4:53:11<13:51:27,  3.43it/s] 54%|█████▍    | 200344/371472 [4:53:11<14:09:50,  3.36it/s] 54%|█████▍    | 200345/371472 [4:53:12<14:16:36,  3.33it/s] 54%|█████▍    | 200346/371472 [4:53:12<13:32:59,  3.51it/s] 54%|█████▍    | 200347/371472 [4:53:12<13:17:30,  3.58it/s] 54%|█████▍    | 200348/371472 [4:53:13<13:34:22,  3.50it/s] 54%|█████▍    | 200349/371472 [4:53:13<13:46:33,  3.45it/s] 54%|█████▍    | 200350/371472 [4:53:13<13:53:21,  3.42it/s] 54%|█████▍    | 200351/371472 [4:53:13<13:18:10,  3.57it/s] 54%|█████▍    | 200352/371472 [4:53:14<13:06:01,  3.63it/s] 54%|█████▍    | 200353/371472 [4:53:14<13:06:34,  3.63it/s] 54%|█████▍    | 200354/371472 [4:53:14<13:20:43,  3.56it/s] 54%|█████▍    | 200355/371472 [4:53:15<13:16:17,  3.58it/s] 54%|█████▍    | 200356/371472 [4:53:15<13:23:53,  3.55it/s] 54%|█████▍    | 200357/371472 [4:53:15<13:40:55,  3.47it/s] 54%|█████▍    | 200358/371472 [4:53:15<13:32:08,  3.51it/s] 54%|█████▍    | 200359/371472 [4:53:16<13:19:05,  3.57it/s] 54%|█████▍    | 200360/371472 [4:53:16<12:56:54,  3.67it/s]                                                            {'loss': 2.9101, 'learning_rate': 5.14792389407227e-07, 'epoch': 8.63}
 54%|█████▍    | 200360/371472 [4:53:16<12:56:54,  3.67it/s] 54%|█████▍    | 200361/371472 [4:53:16<12:59:29,  3.66it/s] 54%|█████▍    | 200362/371472 [4:53:17<13:15:43,  3.58it/s] 54%|█████▍    | 200363/371472 [4:53:17<13:37:29,  3.49it/s] 54%|█████▍    | 200364/371472 [4:53:17<13:36:09,  3.49it/s] 54%|█████▍    | 200365/371472 [4:53:17<13:17:26,  3.58it/s] 54%|█████▍    | 200366/371472 [4:53:18<13:14:08,  3.59it/s] 54%|█████▍    | 200367/371472 [4:53:18<12:53:38,  3.69it/s] 54%|█████▍    | 200368/371472 [4:53:18<13:21:22,  3.56it/s] 54%|█████▍    | 200369/371472 [4:53:18<13:15:14,  3.59it/s] 54%|█████▍    | 200370/371472 [4:53:19<13:35:09,  3.50it/s] 54%|█████▍    | 200371/371472 [4:53:19<13:11:01,  3.61it/s] 54%|█████▍    | 200372/371472 [4:53:19<13:25:41,  3.54it/s] 54%|█████▍    | 200373/371472 [4:53:20<14:22:36,  3.31it/s] 54%|█████▍    | 200374/371472 [4:53:20<13:34:28,  3.50it/s] 54%|█████▍    | 200375/371472 [4:53:20<13:08:37,  3.62it/s] 54%|█████▍    | 200376/371472 [4:53:20<13:08:55,  3.61it/s] 54%|█████▍    | 200377/371472 [4:53:21<13:06:09,  3.63it/s] 54%|█████▍    | 200378/371472 [4:53:21<12:48:03,  3.71it/s] 54%|█████▍    | 200379/371472 [4:53:21<12:48:56,  3.71it/s] 54%|█████▍    | 200380/371472 [4:53:22<12:49:54,  3.70it/s]                                                            {'loss': 3.03, 'learning_rate': 5.147439074317482e-07, 'epoch': 8.63}
 54%|█████▍    | 200380/371472 [4:53:22<12:49:54,  3.70it/s] 54%|█████▍    | 200381/371472 [4:53:22<12:37:12,  3.77it/s] 54%|█████▍    | 200382/371472 [4:53:22<13:58:55,  3.40it/s] 54%|█████▍    | 200383/371472 [4:53:22<14:19:40,  3.32it/s] 54%|█████▍    | 200384/371472 [4:53:23<14:16:34,  3.33it/s] 54%|█████▍    | 200385/371472 [4:53:23<13:45:52,  3.45it/s] 54%|█████▍    | 200386/371472 [4:53:23<13:24:10,  3.55it/s] 54%|█████▍    | 200387/371472 [4:53:24<13:24:07,  3.55it/s] 54%|█████▍    | 200388/371472 [4:53:24<13:24:36,  3.54it/s] 54%|█████▍    | 200389/371472 [4:53:24<13:05:26,  3.63it/s] 54%|█████▍    | 200390/371472 [4:53:24<13:21:45,  3.56it/s] 54%|█████▍    | 200391/371472 [4:53:25<13:46:50,  3.45it/s] 54%|█████▍    | 200392/371472 [4:53:25<13:33:49,  3.50it/s] 54%|█████▍    | 200393/371472 [4:53:25<13:25:16,  3.54it/s] 54%|█████▍    | 200394/371472 [4:53:26<13:26:51,  3.53it/s] 54%|█████▍    | 200395/371472 [4:53:26<13:27:25,  3.53it/s] 54%|█████▍    | 200396/371472 [4:53:26<13:42:53,  3.46it/s] 54%|█████▍    | 200397/371472 [4:53:26<13:57:11,  3.41it/s] 54%|█████▍    | 200398/371472 [4:53:27<14:29:45,  3.28it/s] 54%|█████▍    | 200399/371472 [4:53:27<13:56:26,  3.41it/s] 54%|█████▍    | 200400/371472 [4:53:27<14:33:03,  3.27it/s]                                                            {'loss': 3.0128, 'learning_rate': 5.146954254562693e-07, 'epoch': 8.63}
 54%|█████▍    | 200400/371472 [4:53:27<14:33:03,  3.27it/s] 54%|█████▍    | 200401/371472 [4:53:28<13:47:23,  3.45it/s] 54%|█████▍    | 200402/371472 [4:53:28<13:02:02,  3.65it/s] 54%|█████▍    | 200403/371472 [4:53:28<13:35:41,  3.50it/s] 54%|█████▍    | 200404/371472 [4:53:28<13:16:55,  3.58it/s] 54%|█████▍    | 200405/371472 [4:53:29<13:03:24,  3.64it/s] 54%|█████▍    | 200406/371472 [4:53:29<13:25:29,  3.54it/s] 54%|█████▍    | 200407/371472 [4:53:29<12:51:41,  3.69it/s] 54%|█████▍    | 200408/371472 [4:53:30<14:29:47,  3.28it/s] 54%|█████▍    | 200409/371472 [4:53:30<14:28:47,  3.28it/s] 54%|█████▍    | 200410/371472 [4:53:30<15:12:27,  3.12it/s] 54%|█████▍    | 200411/371472 [4:53:31<15:30:42,  3.06it/s] 54%|█████▍    | 200412/371472 [4:53:31<15:05:19,  3.15it/s] 54%|█████▍    | 200413/371472 [4:53:31<14:56:01,  3.18it/s] 54%|█████▍    | 200414/371472 [4:53:32<14:43:48,  3.23it/s] 54%|█████▍    | 200415/371472 [4:53:32<15:38:29,  3.04it/s] 54%|█████▍    | 200416/371472 [4:53:32<14:38:53,  3.24it/s] 54%|█████▍    | 200417/371472 [4:53:32<14:16:21,  3.33it/s] 54%|█████▍    | 200418/371472 [4:53:33<14:09:56,  3.35it/s] 54%|█████▍    | 200419/371472 [4:53:33<13:30:55,  3.52it/s] 54%|█████▍    | 200420/371472 [4:53:33<13:14:33,  3.59it/s]                                                            {'loss': 2.9254, 'learning_rate': 5.146469434807903e-07, 'epoch': 8.63}
 54%|█████▍    | 200420/371472 [4:53:33<13:14:33,  3.59it/s] 54%|█████▍    | 200421/371472 [4:53:34<13:47:40,  3.44it/s] 54%|█████▍    | 200422/371472 [4:53:34<13:29:51,  3.52it/s] 54%|█████▍    | 200423/371472 [4:53:34<13:11:43,  3.60it/s] 54%|█████▍    | 200424/371472 [4:53:34<13:00:19,  3.65it/s] 54%|█████▍    | 200425/371472 [4:53:35<13:00:14,  3.65it/s] 54%|█████▍    | 200426/371472 [4:53:35<12:59:31,  3.66it/s] 54%|█████▍    | 200427/371472 [4:53:35<13:19:04,  3.57it/s] 54%|█████▍    | 200428/371472 [4:53:36<13:23:01,  3.55it/s] 54%|█████▍    | 200429/371472 [4:53:36<13:09:39,  3.61it/s] 54%|█████▍    | 200430/371472 [4:53:36<13:10:59,  3.60it/s] 54%|█████▍    | 200431/371472 [4:53:36<13:03:51,  3.64it/s] 54%|█████▍    | 200432/371472 [4:53:37<12:39:47,  3.75it/s] 54%|█████▍    | 200433/371472 [4:53:37<12:54:08,  3.68it/s] 54%|█████▍    | 200434/371472 [4:53:37<12:48:14,  3.71it/s] 54%|█████▍    | 200435/371472 [4:53:37<12:54:53,  3.68it/s] 54%|█████▍    | 200436/371472 [4:53:38<12:48:24,  3.71it/s] 54%|█████▍    | 200437/371472 [4:53:38<13:03:14,  3.64it/s] 54%|█████▍    | 200438/371472 [4:53:38<12:39:57,  3.75it/s] 54%|█████▍    | 200439/371472 [4:53:38<12:45:56,  3.72it/s] 54%|█████▍    | 200440/371472 [4:53:39<12:39:35,  3.75it/s]                                                            {'loss': 3.0311, 'learning_rate': 5.145984615053114e-07, 'epoch': 8.63}
 54%|█████▍    | 200440/371472 [4:53:39<12:39:35,  3.75it/s] 54%|█████▍    | 200441/371472 [4:53:39<12:49:19,  3.71it/s] 54%|█████▍    | 200442/371472 [4:53:39<12:37:06,  3.76it/s] 54%|█████▍    | 200443/371472 [4:53:40<12:17:38,  3.86it/s] 54%|█████▍    | 200444/371472 [4:53:40<12:33:14,  3.78it/s] 54%|█████▍    | 200445/371472 [4:53:40<12:56:26,  3.67it/s] 54%|█████▍    | 200446/371472 [4:53:40<12:50:22,  3.70it/s] 54%|█████▍    | 200447/371472 [4:53:41<13:02:54,  3.64it/s] 54%|█████▍    | 200448/371472 [4:53:41<13:24:26,  3.54it/s] 54%|█████▍    | 200449/371472 [4:53:41<13:29:12,  3.52it/s] 54%|█████▍    | 200450/371472 [4:53:42<13:40:47,  3.47it/s] 54%|█████▍    | 200451/371472 [4:53:42<13:16:26,  3.58it/s] 54%|█████▍    | 200452/371472 [4:53:42<13:40:05,  3.48it/s] 54%|█████▍    | 200453/371472 [4:53:42<13:31:50,  3.51it/s] 54%|█████▍    | 200454/371472 [4:53:43<13:13:36,  3.59it/s] 54%|█████▍    | 200455/371472 [4:53:43<12:37:30,  3.76it/s] 54%|█████▍    | 200456/371472 [4:53:43<13:01:35,  3.65it/s] 54%|█████▍    | 200457/371472 [4:53:43<13:31:31,  3.51it/s] 54%|█████▍    | 200458/371472 [4:53:44<13:20:10,  3.56it/s] 54%|█████▍    | 200459/371472 [4:53:44<13:18:36,  3.57it/s] 54%|█████▍    | 200460/371472 [4:53:44<13:05:01,  3.63it/s]                                                            {'loss': 2.9666, 'learning_rate': 5.145499795298326e-07, 'epoch': 8.63}
 54%|█████▍    | 200460/371472 [4:53:44<13:05:01,  3.63it/s] 54%|█████▍    | 200461/371472 [4:53:45<13:27:21,  3.53it/s] 54%|█████▍    | 200462/371472 [4:53:45<13:38:48,  3.48it/s] 54%|█████▍    | 200463/371472 [4:53:45<13:38:04,  3.48it/s] 54%|█████▍    | 200464/371472 [4:53:45<13:36:40,  3.49it/s] 54%|█████▍    | 200465/371472 [4:53:46<13:02:54,  3.64it/s] 54%|█████▍    | 200466/371472 [4:53:46<13:21:10,  3.56it/s] 54%|█████▍    | 200467/371472 [4:53:46<13:05:39,  3.63it/s] 54%|█████▍    | 200468/371472 [4:53:47<13:12:51,  3.59it/s] 54%|█████▍    | 200469/371472 [4:53:47<13:10:27,  3.61it/s] 54%|█████▍    | 200470/371472 [4:53:47<13:58:30,  3.40it/s] 54%|█████▍    | 200471/371472 [4:53:47<13:37:42,  3.49it/s] 54%|█████▍    | 200472/371472 [4:53:48<13:28:42,  3.52it/s] 54%|█████▍    | 200473/371472 [4:53:48<13:14:26,  3.59it/s] 54%|█████▍    | 200474/371472 [4:53:48<14:36:56,  3.25it/s] 54%|█████▍    | 200475/371472 [4:53:49<14:05:03,  3.37it/s] 54%|█████▍    | 200476/371472 [4:53:49<13:51:11,  3.43it/s] 54%|█████▍    | 200477/371472 [4:53:49<13:08:31,  3.61it/s] 54%|█████▍    | 200478/371472 [4:53:49<13:04:42,  3.63it/s] 54%|█████▍    | 200479/371472 [4:53:50<13:05:14,  3.63it/s] 54%|█████▍    | 200480/371472 [4:53:50<12:55:49,  3.67it/s]                                                            {'loss': 2.9342, 'learning_rate': 5.145014975543537e-07, 'epoch': 8.64}
 54%|█████▍    | 200480/371472 [4:53:50<12:55:49,  3.67it/s] 54%|█████▍    | 200481/371472 [4:53:50<14:36:26,  3.25it/s] 54%|█████▍    | 200482/371472 [4:53:51<13:45:08,  3.45it/s] 54%|█████▍    | 200483/371472 [4:53:51<13:17:25,  3.57it/s] 54%|█████▍    | 200484/371472 [4:53:51<12:35:05,  3.77it/s] 54%|█████▍    | 200485/371472 [4:53:51<13:00:57,  3.65it/s] 54%|█████▍    | 200486/371472 [4:53:52<13:19:45,  3.56it/s] 54%|█████▍    | 200487/371472 [4:53:52<14:36:43,  3.25it/s] 54%|█████▍    | 200488/371472 [4:53:52<14:08:04,  3.36it/s] 54%|█████▍    | 200489/371472 [4:53:53<14:07:17,  3.36it/s] 54%|█████▍    | 200490/371472 [4:53:53<13:46:20,  3.45it/s] 54%|█████▍    | 200491/371472 [4:53:53<13:38:11,  3.48it/s] 54%|█████▍    | 200492/371472 [4:53:53<13:55:24,  3.41it/s] 54%|█████▍    | 200493/371472 [4:53:54<13:18:16,  3.57it/s] 54%|█████▍    | 200494/371472 [4:53:54<14:15:57,  3.33it/s] 54%|█████▍    | 200495/371472 [4:53:54<13:50:03,  3.43it/s] 54%|█████▍    | 200496/371472 [4:53:55<14:17:46,  3.32it/s] 54%|█████▍    | 200497/371472 [4:53:55<14:34:47,  3.26it/s] 54%|█████▍    | 200498/371472 [4:53:55<14:18:31,  3.32it/s] 54%|█████▍    | 200499/371472 [4:53:56<14:45:19,  3.22it/s] 54%|█████▍    | 200500/371472 [4:53:56<14:23:41,  3.30it/s]                                                            {'loss': 2.9501, 'learning_rate': 5.144530155788748e-07, 'epoch': 8.64}
 54%|█████▍    | 200500/371472 [4:53:56<14:23:41,  3.30it/s] 54%|█████▍    | 200501/371472 [4:53:56<15:05:24,  3.15it/s] 54%|█████▍    | 200502/371472 [4:53:57<16:03:39,  2.96it/s] 54%|█████▍    | 200503/371472 [4:53:57<15:25:55,  3.08it/s] 54%|█████▍    | 200504/371472 [4:53:57<14:31:55,  3.27it/s] 54%|█████▍    | 200505/371472 [4:53:57<14:17:32,  3.32it/s] 54%|█████▍    | 200506/371472 [4:53:58<13:45:27,  3.45it/s] 54%|█████▍    | 200507/371472 [4:53:58<13:18:54,  3.57it/s] 54%|█████▍    | 200508/371472 [4:53:58<12:58:10,  3.66it/s] 54%|█████▍    | 200509/371472 [4:53:59<13:35:02,  3.50it/s] 54%|█████▍    | 200510/371472 [4:53:59<13:56:07,  3.41it/s] 54%|█████▍    | 200511/371472 [4:53:59<13:44:10,  3.46it/s] 54%|█████▍    | 200512/371472 [4:53:59<13:29:36,  3.52it/s] 54%|█████▍    | 200513/371472 [4:54:00<13:10:00,  3.61it/s] 54%|█████▍    | 200514/371472 [4:54:00<13:25:00,  3.54it/s] 54%|█████▍    | 200515/371472 [4:54:00<13:15:04,  3.58it/s] 54%|█████▍    | 200516/371472 [4:54:01<13:51:16,  3.43it/s] 54%|█████▍    | 200517/371472 [4:54:01<13:27:41,  3.53it/s] 54%|█████▍    | 200518/371472 [4:54:01<13:27:03,  3.53it/s] 54%|█████▍    | 200519/371472 [4:54:01<13:32:32,  3.51it/s] 54%|█████▍    | 200520/371472 [4:54:02<14:04:11,  3.38it/s]                                                            {'loss': 3.0371, 'learning_rate': 5.144045336033958e-07, 'epoch': 8.64}
 54%|█████▍    | 200520/371472 [4:54:02<14:04:11,  3.38it/s] 54%|█████▍    | 200521/371472 [4:54:02<13:38:27,  3.48it/s] 54%|█████▍    | 200522/371472 [4:54:02<13:44:20,  3.46it/s] 54%|█████▍    | 200523/371472 [4:54:03<13:29:40,  3.52it/s] 54%|█████▍    | 200524/371472 [4:54:03<13:13:12,  3.59it/s] 54%|█████▍    | 200525/371472 [4:54:03<13:34:01,  3.50it/s] 54%|█████▍    | 200526/371472 [4:54:03<13:33:37,  3.50it/s] 54%|█████▍    | 200527/371472 [4:54:04<13:26:17,  3.53it/s] 54%|█████▍    | 200528/371472 [4:54:04<13:14:46,  3.58it/s] 54%|█████▍    | 200529/371472 [4:54:04<13:43:26,  3.46it/s] 54%|█████▍    | 200530/371472 [4:54:05<13:49:56,  3.43it/s] 54%|█████▍    | 200531/371472 [4:54:05<14:16:25,  3.33it/s] 54%|█████▍    | 200532/371472 [4:54:05<14:15:31,  3.33it/s] 54%|█████▍    | 200533/371472 [4:54:06<14:43:48,  3.22it/s] 54%|█████▍    | 200534/371472 [4:54:06<14:44:58,  3.22it/s] 54%|█████▍    | 200535/371472 [4:54:06<14:46:30,  3.21it/s] 54%|█████▍    | 200536/371472 [4:54:06<14:16:50,  3.32it/s] 54%|█████▍    | 200537/371472 [4:54:07<14:13:14,  3.34it/s] 54%|█████▍    | 200538/371472 [4:54:07<13:50:49,  3.43it/s] 54%|█████▍    | 200539/371472 [4:54:07<13:23:08,  3.55it/s] 54%|█████▍    | 200540/371472 [4:54:08<12:52:50,  3.69it/s]                                                            {'loss': 2.9701, 'learning_rate': 5.14356051627917e-07, 'epoch': 8.64}
 54%|█████▍    | 200540/371472 [4:54:08<12:52:50,  3.69it/s] 54%|█████▍    | 200541/371472 [4:54:08<14:04:40,  3.37it/s] 54%|█████▍    | 200542/371472 [4:54:08<13:29:23,  3.52it/s] 54%|█████▍    | 200543/371472 [4:54:08<13:26:41,  3.53it/s] 54%|█████▍    | 200544/371472 [4:54:09<13:24:19,  3.54it/s] 54%|█████▍    | 200545/371472 [4:54:09<12:55:19,  3.67it/s] 54%|█████▍    | 200546/371472 [4:54:09<14:27:52,  3.28it/s] 54%|█████▍    | 200547/371472 [4:54:10<13:54:53,  3.41it/s] 54%|█████▍    | 200548/371472 [4:54:10<13:22:00,  3.55it/s] 54%|█████▍    | 200549/371472 [4:54:10<13:09:20,  3.61it/s] 54%|█████▍    | 200550/371472 [4:54:10<13:08:06,  3.61it/s] 54%|█████▍    | 200551/371472 [4:54:11<13:01:46,  3.64it/s] 54%|█████▍    | 200552/371472 [4:54:11<13:19:20,  3.56it/s] 54%|█████▍    | 200553/371472 [4:54:11<13:18:20,  3.57it/s] 54%|█████▍    | 200554/371472 [4:54:11<13:05:21,  3.63it/s] 54%|█████▍    | 200555/371472 [4:54:12<13:22:00,  3.55it/s] 54%|█████▍    | 200556/371472 [4:54:12<13:41:18,  3.47it/s] 54%|█████▍    | 200557/371472 [4:54:12<13:48:21,  3.44it/s] 54%|█████▍    | 200558/371472 [4:54:13<13:33:03,  3.50it/s] 54%|█████▍    | 200559/371472 [4:54:13<13:35:52,  3.49it/s] 54%|█████▍    | 200560/371472 [4:54:13<13:04:30,  3.63it/s]                                                            {'loss': 3.0138, 'learning_rate': 5.143075696524381e-07, 'epoch': 8.64}
 54%|█████▍    | 200560/371472 [4:54:13<13:04:30,  3.63it/s] 54%|█████▍    | 200561/371472 [4:54:13<12:56:54,  3.67it/s] 54%|█████▍    | 200562/371472 [4:54:14<12:38:01,  3.76it/s] 54%|█████▍    | 200563/371472 [4:54:14<12:22:24,  3.84it/s] 54%|█████▍    | 200564/371472 [4:54:14<12:33:16,  3.78it/s] 54%|█████▍    | 200565/371472 [4:54:15<14:13:08,  3.34it/s] 54%|█████▍    | 200566/371472 [4:54:15<14:06:58,  3.36it/s] 54%|█████▍    | 200567/371472 [4:54:15<14:44:01,  3.22it/s] 54%|█████▍    | 200568/371472 [4:54:16<14:50:24,  3.20it/s] 54%|█████▍    | 200569/371472 [4:54:16<14:02:57,  3.38it/s] 54%|█████▍    | 200570/371472 [4:54:16<14:20:54,  3.31it/s] 54%|█████▍    | 200571/371472 [4:54:16<13:38:43,  3.48it/s] 54%|█████▍    | 200572/371472 [4:54:17<13:21:45,  3.55it/s] 54%|█████▍    | 200573/371472 [4:54:17<13:21:00,  3.56it/s] 54%|█████▍    | 200574/371472 [4:54:17<13:10:41,  3.60it/s] 54%|█████▍    | 200575/371472 [4:54:17<13:06:59,  3.62it/s] 54%|█████▍    | 200576/371472 [4:54:18<13:07:54,  3.61it/s] 54%|█████▍    | 200577/371472 [4:54:18<13:10:21,  3.60it/s] 54%|█████▍    | 200578/371472 [4:54:18<12:57:36,  3.66it/s] 54%|█████▍    | 200579/371472 [4:54:19<12:42:33,  3.74it/s] 54%|█████▍    | 200580/371472 [4:54:19<13:19:01,  3.56it/s]                                                            {'loss': 3.1491, 'learning_rate': 5.142590876769592e-07, 'epoch': 8.64}
 54%|█████▍    | 200580/371472 [4:54:19<13:19:01,  3.56it/s] 54%|█████▍    | 200581/371472 [4:54:19<12:51:19,  3.69it/s] 54%|█████▍    | 200582/371472 [4:54:19<13:12:09,  3.60it/s] 54%|█████▍    | 200583/371472 [4:54:20<13:08:31,  3.61it/s] 54%|█████▍    | 200584/371472 [4:54:20<12:44:16,  3.73it/s] 54%|█████▍    | 200585/371472 [4:54:20<13:18:24,  3.57it/s] 54%|█████▍    | 200586/371472 [4:54:20<13:02:17,  3.64it/s] 54%|█████▍    | 200587/371472 [4:54:21<12:45:42,  3.72it/s] 54%|█████▍    | 200588/371472 [4:54:21<13:00:06,  3.65it/s] 54%|█████▍    | 200589/371472 [4:54:21<13:29:12,  3.52it/s] 54%|█████▍    | 200590/371472 [4:54:22<13:17:00,  3.57it/s] 54%|█████▍    | 200591/371472 [4:54:22<12:47:01,  3.71it/s] 54%|█████▍    | 200592/371472 [4:54:22<12:48:29,  3.71it/s] 54%|█████▍    | 200593/371472 [4:54:22<13:00:13,  3.65it/s] 54%|█████▍    | 200594/371472 [4:54:23<12:36:49,  3.76it/s] 54%|█████▍    | 200595/371472 [4:54:23<13:15:12,  3.58it/s] 54%|█████▍    | 200596/371472 [4:54:23<13:35:37,  3.49it/s] 54%|█████▍    | 200597/371472 [4:54:24<13:15:01,  3.58it/s] 54%|█████▍    | 200598/371472 [4:54:24<13:08:30,  3.61it/s] 54%|█████▍    | 200599/371472 [4:54:24<13:52:52,  3.42it/s] 54%|█████▍    | 200600/371472 [4:54:24<13:47:09,  3.44it/s]                                                            {'loss': 3.0267, 'learning_rate': 5.142106057014803e-07, 'epoch': 8.64}
 54%|█████▍    | 200600/371472 [4:54:24<13:47:09,  3.44it/s] 54%|█████▍    | 200601/371472 [4:54:25<14:12:04,  3.34it/s] 54%|█████▍    | 200602/371472 [4:54:25<14:04:33,  3.37it/s] 54%|█████▍    | 200603/371472 [4:54:25<14:01:06,  3.39it/s] 54%|█████▍    | 200604/371472 [4:54:26<13:53:51,  3.42it/s] 54%|█████▍    | 200605/371472 [4:54:26<13:14:39,  3.58it/s] 54%|█████▍    | 200606/371472 [4:54:26<13:46:53,  3.44it/s] 54%|█████▍    | 200607/371472 [4:54:26<13:09:25,  3.61it/s] 54%|█████▍    | 200608/371472 [4:54:27<13:24:56,  3.54it/s] 54%|█████▍    | 200609/371472 [4:54:27<13:46:59,  3.44it/s] 54%|█████▍    | 200610/371472 [4:54:27<14:36:29,  3.25it/s] 54%|█████▍    | 200611/371472 [4:54:28<14:34:55,  3.25it/s] 54%|█████▍    | 200612/371472 [4:54:28<14:22:20,  3.30it/s] 54%|█████▍    | 200613/371472 [4:54:28<13:51:46,  3.42it/s] 54%|█████▍    | 200614/371472 [4:54:29<13:34:24,  3.50it/s] 54%|█████▍    | 200615/371472 [4:54:29<13:26:27,  3.53it/s] 54%|█████▍    | 200616/371472 [4:54:29<13:27:09,  3.53it/s] 54%|█████▍    | 200617/371472 [4:54:29<13:26:38,  3.53it/s] 54%|█████▍    | 200618/371472 [4:54:30<13:45:49,  3.45it/s] 54%|█████▍    | 200619/371472 [4:54:30<13:30:51,  3.51it/s] 54%|█████▍    | 200620/371472 [4:54:30<13:58:00,  3.40it/s]                                                            {'loss': 3.1243, 'learning_rate': 5.141621237260013e-07, 'epoch': 8.64}
 54%|█████▍    | 200620/371472 [4:54:30<13:58:00,  3.40it/s] 54%|█████▍    | 200621/371472 [4:54:31<13:45:31,  3.45it/s] 54%|█████▍    | 200622/371472 [4:54:31<13:33:00,  3.50it/s] 54%|█████▍    | 200623/371472 [4:54:31<13:20:30,  3.56it/s] 54%|█████▍    | 200624/371472 [4:54:31<13:06:55,  3.62it/s] 54%|█████▍    | 200625/371472 [4:54:32<12:56:59,  3.66it/s] 54%|█████▍    | 200626/371472 [4:54:32<12:51:52,  3.69it/s] 54%|█████▍    | 200627/371472 [4:54:32<12:43:22,  3.73it/s] 54%|█████▍    | 200628/371472 [4:54:32<13:03:13,  3.64it/s] 54%|█████▍    | 200629/371472 [4:54:33<12:57:39,  3.66it/s] 54%|█████▍    | 200630/371472 [4:54:33<13:07:10,  3.62it/s] 54%|█████▍    | 200631/371472 [4:54:33<13:16:01,  3.58it/s] 54%|█████▍    | 200632/371472 [4:54:34<14:48:24,  3.20it/s] 54%|█████▍    | 200633/371472 [4:54:34<14:39:16,  3.24it/s] 54%|█████▍    | 200634/371472 [4:54:34<14:03:39,  3.37it/s] 54%|█████▍    | 200635/371472 [4:54:34<13:39:31,  3.47it/s] 54%|█████▍    | 200636/371472 [4:54:35<13:28:19,  3.52it/s] 54%|█████▍    | 200637/371472 [4:54:35<14:45:11,  3.22it/s] 54%|█████▍    | 200638/371472 [4:54:35<13:52:24,  3.42it/s] 54%|█████▍    | 200639/371472 [4:54:36<14:14:09,  3.33it/s] 54%|█████▍    | 200640/371472 [4:54:36<13:28:03,  3.52it/s]                                                            {'loss': 2.8872, 'learning_rate': 5.141136417505226e-07, 'epoch': 8.64}
 54%|█████▍    | 200640/371472 [4:54:36<13:28:03,  3.52it/s] 54%|█████▍    | 200641/371472 [4:54:36<13:24:23,  3.54it/s] 54%|█████▍    | 200642/371472 [4:54:36<13:17:30,  3.57it/s] 54%|█████▍    | 200643/371472 [4:54:37<13:15:54,  3.58it/s] 54%|█████▍    | 200644/371472 [4:54:37<13:54:34,  3.41it/s] 54%|█████▍    | 200645/371472 [4:54:37<13:39:49,  3.47it/s] 54%|█████▍    | 200646/371472 [4:54:38<14:38:22,  3.24it/s] 54%|█████▍    | 200647/371472 [4:54:38<15:26:31,  3.07it/s] 54%|█████▍    | 200648/371472 [4:54:38<14:53:59,  3.18it/s] 54%|█████▍    | 200649/371472 [4:54:39<14:23:11,  3.30it/s] 54%|█████▍    | 200650/371472 [4:54:39<14:42:54,  3.22it/s] 54%|█████▍    | 200651/371472 [4:54:39<14:07:14,  3.36it/s] 54%|█████▍    | 200652/371472 [4:54:40<13:46:11,  3.45it/s] 54%|█████▍    | 200653/371472 [4:54:40<14:13:06,  3.34it/s] 54%|█████▍    | 200654/371472 [4:54:40<14:40:13,  3.23it/s] 54%|█████▍    | 200655/371472 [4:54:40<13:52:37,  3.42it/s] 54%|█████▍    | 200656/371472 [4:54:41<13:43:55,  3.46it/s] 54%|█████▍    | 200657/371472 [4:54:41<13:33:00,  3.50it/s] 54%|█████▍    | 200658/371472 [4:54:41<13:31:12,  3.51it/s] 54%|█████▍    | 200659/371472 [4:54:42<13:42:58,  3.46it/s] 54%|█████▍    | 200660/371472 [4:54:42<14:39:19,  3.24it/s]                                                            {'loss': 3.0675, 'learning_rate': 5.140651597750436e-07, 'epoch': 8.64}
 54%|█████▍    | 200660/371472 [4:54:42<14:39:19,  3.24it/s] 54%|█████▍    | 200661/371472 [4:54:42<13:44:54,  3.45it/s] 54%|█████▍    | 200662/371472 [4:54:42<13:09:27,  3.61it/s] 54%|█████▍    | 200663/371472 [4:54:43<13:05:32,  3.62it/s] 54%|█████▍    | 200664/371472 [4:54:43<13:04:41,  3.63it/s] 54%|█████▍    | 200665/371472 [4:54:43<12:54:08,  3.68it/s] 54%|█████▍    | 200666/371472 [4:54:44<13:20:55,  3.55it/s] 54%|█████▍    | 200667/371472 [4:54:44<13:14:30,  3.58it/s] 54%|█████▍    | 200668/371472 [4:54:44<12:51:02,  3.69it/s] 54%|█████▍    | 200669/371472 [4:54:44<13:07:38,  3.61it/s] 54%|█████▍    | 200670/371472 [4:54:45<13:18:59,  3.56it/s] 54%|█████▍    | 200671/371472 [4:54:45<13:36:38,  3.49it/s] 54%|█████▍    | 200672/371472 [4:54:45<13:22:09,  3.55it/s] 54%|█████▍    | 200673/371472 [4:54:46<13:39:46,  3.47it/s] 54%|█████▍    | 200674/371472 [4:54:46<14:01:23,  3.38it/s] 54%|█████▍    | 200675/371472 [4:54:46<13:51:31,  3.42it/s] 54%|█████▍    | 200676/371472 [4:54:46<14:06:59,  3.36it/s] 54%|█████▍    | 200677/371472 [4:54:47<14:05:39,  3.37it/s] 54%|█████▍    | 200678/371472 [4:54:47<14:24:24,  3.29it/s] 54%|█████▍    | 200679/371472 [4:54:47<13:52:24,  3.42it/s] 54%|█████▍    | 200680/371472 [4:54:48<13:25:35,  3.53it/s]                                                            {'loss': 2.9593, 'learning_rate': 5.140166777995647e-07, 'epoch': 8.64}
 54%|█████▍    | 200680/371472 [4:54:48<13:25:35,  3.53it/s] 54%|█████▍    | 200681/371472 [4:54:48<14:01:53,  3.38it/s] 54%|█████▍    | 200682/371472 [4:54:48<13:40:24,  3.47it/s] 54%|█████▍    | 200683/371472 [4:54:48<14:09:03,  3.35it/s] 54%|█████▍    | 200684/371472 [4:54:49<14:03:36,  3.37it/s] 54%|█████▍    | 200685/371472 [4:54:49<13:27:04,  3.53it/s] 54%|█████▍    | 200686/371472 [4:54:49<13:22:32,  3.55it/s] 54%|█████▍    | 200687/371472 [4:54:50<14:56:50,  3.17it/s] 54%|█████▍    | 200688/371472 [4:54:50<15:09:02,  3.13it/s] 54%|█████▍    | 200689/371472 [4:54:50<15:20:38,  3.09it/s] 54%|█████▍    | 200690/371472 [4:54:51<14:57:38,  3.17it/s] 54%|█████▍    | 200691/371472 [4:54:51<14:20:53,  3.31it/s] 54%|█████▍    | 200692/371472 [4:54:51<14:16:30,  3.32it/s] 54%|█████▍    | 200693/371472 [4:54:51<13:41:47,  3.46it/s] 54%|█████▍    | 200694/371472 [4:54:52<13:10:50,  3.60it/s] 54%|█████▍    | 200695/371472 [4:54:52<13:21:39,  3.55it/s] 54%|█████▍    | 200696/371472 [4:54:52<13:18:19,  3.57it/s] 54%|█████▍    | 200697/371472 [4:54:53<13:58:41,  3.39it/s] 54%|█████▍    | 200698/371472 [4:54:53<14:15:49,  3.33it/s] 54%|█████▍    | 200699/371472 [4:54:53<13:46:58,  3.44it/s] 54%|█████▍    | 200700/371472 [4:54:54<14:31:54,  3.26it/s]                                                            {'loss': 2.9572, 'learning_rate': 5.139681958240858e-07, 'epoch': 8.64}
 54%|█████▍    | 200700/371472 [4:54:54<14:31:54,  3.26it/s] 54%|█████▍    | 200701/371472 [4:54:54<14:18:28,  3.32it/s] 54%|█████▍    | 200702/371472 [4:54:54<14:10:57,  3.34it/s] 54%|█████▍    | 200703/371472 [4:54:54<13:34:26,  3.49it/s] 54%|█████▍    | 200704/371472 [4:54:55<13:23:03,  3.54it/s] 54%|█████▍    | 200705/371472 [4:54:55<13:03:06,  3.63it/s] 54%|█████▍    | 200706/371472 [4:54:55<12:34:42,  3.77it/s] 54%|█████▍    | 200707/371472 [4:54:56<13:30:59,  3.51it/s] 54%|█████▍    | 200708/371472 [4:54:56<13:36:17,  3.49it/s] 54%|█████▍    | 200709/371472 [4:54:56<13:07:48,  3.61it/s] 54%|█████▍    | 200710/371472 [4:54:56<13:47:55,  3.44it/s] 54%|█████▍    | 200711/371472 [4:54:57<14:13:23,  3.33it/s] 54%|█████▍    | 200712/371472 [4:54:57<13:53:46,  3.41it/s] 54%|█████▍    | 200713/371472 [4:54:57<13:44:36,  3.45it/s] 54%|█████▍    | 200714/371472 [4:54:58<13:18:48,  3.56it/s] 54%|█████▍    | 200715/371472 [4:54:58<13:09:40,  3.60it/s] 54%|█████▍    | 200716/371472 [4:54:58<14:40:32,  3.23it/s] 54%|█████▍    | 200717/371472 [4:54:58<13:55:44,  3.41it/s] 54%|█████▍    | 200718/371472 [4:54:59<13:44:30,  3.45it/s] 54%|█████▍    | 200719/371472 [4:54:59<13:26:41,  3.53it/s] 54%|█████▍    | 200720/371472 [4:54:59<13:08:57,  3.61it/s]                                                            {'loss': 2.8676, 'learning_rate': 5.13919713848607e-07, 'epoch': 8.65}
 54%|█████▍    | 200720/371472 [4:54:59<13:08:57,  3.61it/s] 54%|█████▍    | 200721/371472 [4:55:00<13:19:21,  3.56it/s] 54%|█████▍    | 200722/371472 [4:55:00<13:05:30,  3.62it/s] 54%|█████▍    | 200723/371472 [4:55:00<12:51:14,  3.69it/s] 54%|█████▍    | 200724/371472 [4:55:00<12:46:38,  3.71it/s] 54%|█████▍    | 200725/371472 [4:55:01<12:37:08,  3.76it/s] 54%|█████▍    | 200726/371472 [4:55:01<12:51:45,  3.69it/s] 54%|█████▍    | 200727/371472 [4:55:01<13:44:41,  3.45it/s] 54%|█████▍    | 200728/371472 [4:55:02<14:05:19,  3.37it/s] 54%|█████▍    | 200729/371472 [4:55:02<14:09:13,  3.35it/s] 54%|█████▍    | 200730/371472 [4:55:02<14:08:37,  3.35it/s] 54%|█████▍    | 200731/371472 [4:55:02<13:54:29,  3.41it/s] 54%|█████▍    | 200732/371472 [4:55:03<15:39:34,  3.03it/s] 54%|█████▍    | 200733/371472 [4:55:03<14:42:20,  3.23it/s] 54%|█████▍    | 200734/371472 [4:55:03<14:15:16,  3.33it/s] 54%|█████▍    | 200735/371472 [4:55:04<14:08:17,  3.35it/s] 54%|█████▍    | 200736/371472 [4:55:04<13:28:17,  3.52it/s] 54%|█████▍    | 200737/371472 [4:55:04<13:33:10,  3.50it/s] 54%|█████▍    | 200738/371472 [4:55:04<13:31:03,  3.51it/s] 54%|█████▍    | 200739/371472 [4:55:05<13:24:41,  3.54it/s] 54%|█████▍    | 200740/371472 [4:55:05<13:26:01,  3.53it/s]                                                            {'loss': 2.8139, 'learning_rate': 5.13871231873128e-07, 'epoch': 8.65}
 54%|█████▍    | 200740/371472 [4:55:05<13:26:01,  3.53it/s] 54%|█████▍    | 200741/371472 [4:55:05<13:10:26,  3.60it/s] 54%|█████▍    | 200742/371472 [4:55:06<13:27:03,  3.53it/s] 54%|█████▍    | 200743/371472 [4:55:06<13:14:48,  3.58it/s] 54%|█████▍    | 200744/371472 [4:55:06<12:59:09,  3.65it/s] 54%|█████▍    | 200745/371472 [4:55:06<12:55:11,  3.67it/s] 54%|█████▍    | 200746/371472 [4:55:07<13:57:16,  3.40it/s] 54%|█████▍    | 200747/371472 [4:55:07<13:41:40,  3.46it/s] 54%|█████▍    | 200748/371472 [4:55:07<13:37:54,  3.48it/s] 54%|█████▍    | 200749/371472 [4:55:08<13:09:17,  3.60it/s] 54%|█████▍    | 200750/371472 [4:55:08<13:47:43,  3.44it/s] 54%|█████▍    | 200751/371472 [4:55:08<13:45:13,  3.45it/s] 54%|█████▍    | 200752/371472 [4:55:08<13:10:52,  3.60it/s] 54%|█████▍    | 200753/371472 [4:55:09<13:46:39,  3.44it/s] 54%|█████▍    | 200754/371472 [4:55:09<14:17:51,  3.32it/s] 54%|█████▍    | 200755/371472 [4:55:09<14:33:11,  3.26it/s] 54%|█████▍    | 200756/371472 [4:55:10<13:59:38,  3.39it/s] 54%|█████▍    | 200757/371472 [4:55:10<13:50:37,  3.43it/s] 54%|█████▍    | 200758/371472 [4:55:10<13:45:04,  3.45it/s] 54%|█████▍    | 200759/371472 [4:55:10<13:32:44,  3.50it/s] 54%|█████▍    | 200760/371472 [4:55:11<14:04:38,  3.37it/s]                                                            {'loss': 2.8864, 'learning_rate': 5.138227498976492e-07, 'epoch': 8.65}
 54%|█████▍    | 200760/371472 [4:55:11<14:04:38,  3.37it/s] 54%|█████▍    | 200761/371472 [4:55:11<13:49:58,  3.43it/s] 54%|█████▍    | 200762/371472 [4:55:11<13:39:51,  3.47it/s] 54%|█████▍    | 200763/371472 [4:55:12<13:44:13,  3.45it/s] 54%|█████▍    | 200764/371472 [4:55:12<13:21:56,  3.55it/s] 54%|█████▍    | 200765/371472 [4:55:12<13:17:40,  3.57it/s] 54%|█████▍    | 200766/371472 [4:55:13<13:37:00,  3.48it/s] 54%|█████▍    | 200767/371472 [4:55:13<15:18:29,  3.10it/s] 54%|█████▍    | 200768/371472 [4:55:13<14:19:26,  3.31it/s] 54%|█████▍    | 200769/371472 [4:55:13<13:48:19,  3.43it/s] 54%|█████▍    | 200770/371472 [4:55:14<13:13:52,  3.58it/s] 54%|█████▍    | 200771/371472 [4:55:14<13:50:34,  3.43it/s] 54%|█████▍    | 200772/371472 [4:55:14<14:00:00,  3.39it/s] 54%|█████▍    | 200773/371472 [4:55:15<13:16:54,  3.57it/s] 54%|█████▍    | 200774/371472 [4:55:15<12:54:35,  3.67it/s] 54%|█████▍    | 200775/371472 [4:55:15<12:42:11,  3.73it/s] 54%|█████▍    | 200776/371472 [4:55:15<12:27:54,  3.80it/s] 54%|█████▍    | 200777/371472 [4:55:16<11:58:43,  3.96it/s] 54%|█████▍    | 200778/371472 [4:55:16<12:39:10,  3.75it/s] 54%|█████▍    | 200779/371472 [4:55:16<13:21:59,  3.55it/s] 54%|█████▍    | 200780/371472 [4:55:16<13:51:37,  3.42it/s]                                                            {'loss': 2.8827, 'learning_rate': 5.137742679221703e-07, 'epoch': 8.65}
 54%|█████▍    | 200780/371472 [4:55:16<13:51:37,  3.42it/s] 54%|█████▍    | 200781/371472 [4:55:17<13:46:51,  3.44it/s] 54%|█████▍    | 200782/371472 [4:55:17<13:23:13,  3.54it/s] 54%|█████▍    | 200783/371472 [4:55:17<14:04:55,  3.37it/s] 54%|█████▍    | 200784/371472 [4:55:18<13:15:27,  3.58it/s] 54%|█████▍    | 200785/371472 [4:55:18<13:44:16,  3.45it/s] 54%|█████▍    | 200786/371472 [4:55:18<13:31:09,  3.51it/s] 54%|█████▍    | 200787/371472 [4:55:18<12:49:28,  3.70it/s] 54%|█████▍    | 200788/371472 [4:55:19<13:45:50,  3.44it/s] 54%|█████▍    | 200789/371472 [4:55:19<13:19:49,  3.56it/s] 54%|█████▍    | 200790/371472 [4:55:19<12:52:44,  3.68it/s] 54%|█████▍    | 200791/371472 [4:55:20<13:05:38,  3.62it/s] 54%|█████▍    | 200792/371472 [4:55:20<13:18:20,  3.56it/s] 54%|█████▍    | 200793/371472 [4:55:20<13:16:44,  3.57it/s] 54%|█████▍    | 200794/371472 [4:55:20<13:14:08,  3.58it/s] 54%|█████▍    | 200795/371472 [4:55:21<13:55:31,  3.40it/s] 54%|█████▍    | 200796/371472 [4:55:21<14:06:03,  3.36it/s] 54%|█████▍    | 200797/371472 [4:55:21<13:18:48,  3.56it/s] 54%|█████▍    | 200798/371472 [4:55:22<13:30:33,  3.51it/s] 54%|█████▍    | 200799/371472 [4:55:22<13:55:16,  3.41it/s] 54%|█████▍    | 200800/371472 [4:55:22<14:00:38,  3.38it/s]                                                            {'loss': 2.9614, 'learning_rate': 5.137257859466913e-07, 'epoch': 8.65}
 54%|█████▍    | 200800/371472 [4:55:22<14:00:38,  3.38it/s] 54%|█████▍    | 200801/371472 [4:55:22<13:55:35,  3.40it/s] 54%|█████▍    | 200802/371472 [4:55:23<14:17:33,  3.32it/s] 54%|█████▍    | 200803/371472 [4:55:23<15:17:37,  3.10it/s] 54%|█████▍    | 200804/371472 [4:55:23<14:37:20,  3.24it/s] 54%|█████▍    | 200805/371472 [4:55:24<14:10:59,  3.34it/s] 54%|█████▍    | 200806/371472 [4:55:24<14:08:16,  3.35it/s] 54%|█████▍    | 200807/371472 [4:55:24<13:29:21,  3.51it/s] 54%|█████▍    | 200808/371472 [4:55:25<13:08:21,  3.61it/s] 54%|█████▍    | 200809/371472 [4:55:25<13:02:49,  3.63it/s] 54%|█████▍    | 200810/371472 [4:55:25<13:01:16,  3.64it/s] 54%|█████▍    | 200811/371472 [4:55:25<12:53:45,  3.68it/s] 54%|█████▍    | 200812/371472 [4:55:26<12:29:48,  3.79it/s] 54%|█████▍    | 200813/371472 [4:55:26<12:37:49,  3.75it/s] 54%|█████▍    | 200814/371472 [4:55:26<12:24:05,  3.82it/s] 54%|█████▍    | 200815/371472 [4:55:26<12:31:53,  3.78it/s] 54%|█████▍    | 200816/371472 [4:55:27<13:03:50,  3.63it/s] 54%|█████▍    | 200817/371472 [4:55:27<12:55:46,  3.67it/s] 54%|█████▍    | 200818/371472 [4:55:27<12:45:03,  3.72it/s] 54%|█████▍    | 200819/371472 [4:55:28<13:27:58,  3.52it/s] 54%|█████▍    | 200820/371472 [4:55:28<13:41:42,  3.46it/s]                                                            {'loss': 2.9655, 'learning_rate': 5.136773039712124e-07, 'epoch': 8.65}
 54%|█████▍    | 200820/371472 [4:55:28<13:41:42,  3.46it/s] 54%|█████▍    | 200821/371472 [4:55:28<14:12:51,  3.33it/s] 54%|█████▍    | 200822/371472 [4:55:28<13:34:04,  3.49it/s] 54%|█████▍    | 200823/371472 [4:55:29<13:37:09,  3.48it/s] 54%|█████▍    | 200824/371472 [4:55:29<14:00:38,  3.38it/s] 54%|█████▍    | 200825/371472 [4:55:29<14:02:24,  3.38it/s] 54%|█████▍    | 200826/371472 [4:55:30<13:33:20,  3.50it/s] 54%|█████▍    | 200827/371472 [4:55:30<13:16:55,  3.57it/s] 54%|█████▍    | 200828/371472 [4:55:30<13:02:34,  3.63it/s] 54%|█████▍    | 200829/371472 [4:55:30<13:15:51,  3.57it/s] 54%|█████▍    | 200830/371472 [4:55:31<13:38:23,  3.48it/s] 54%|█████▍    | 200831/371472 [4:55:31<13:34:21,  3.49it/s] 54%|█████▍    | 200832/371472 [4:55:31<14:09:32,  3.35it/s] 54%|█████▍    | 200833/371472 [4:55:32<14:12:42,  3.34it/s] 54%|█████▍    | 200834/371472 [4:55:32<15:05:14,  3.14it/s] 54%|█████▍    | 200835/371472 [4:55:32<14:15:42,  3.32it/s] 54%|█████▍    | 200836/371472 [4:55:32<13:39:39,  3.47it/s] 54%|█████▍    | 200837/371472 [4:55:33<13:54:42,  3.41it/s] 54%|█████▍    | 200838/371472 [4:55:33<13:53:35,  3.41it/s] 54%|█████▍    | 200839/371472 [4:55:33<13:33:57,  3.49it/s] 54%|█████▍    | 200840/371472 [4:55:34<13:07:35,  3.61it/s]                                                            {'loss': 2.7415, 'learning_rate': 5.136288219957336e-07, 'epoch': 8.65}
 54%|█████▍    | 200840/371472 [4:55:34<13:07:35,  3.61it/s] 54%|█████▍    | 200841/371472 [4:55:34<12:49:57,  3.69it/s] 54%|█████▍    | 200842/371472 [4:55:34<12:28:14,  3.80it/s] 54%|█████▍    | 200843/371472 [4:55:34<12:10:45,  3.89it/s] 54%|█████▍    | 200844/371472 [4:55:35<12:27:30,  3.80it/s] 54%|█████▍    | 200845/371472 [4:55:35<13:14:16,  3.58it/s] 54%|█████▍    | 200846/371472 [4:55:35<13:01:33,  3.64it/s] 54%|█████▍    | 200847/371472 [4:55:36<13:19:47,  3.56it/s] 54%|█████▍    | 200848/371472 [4:55:36<14:58:37,  3.16it/s] 54%|█████▍    | 200849/371472 [4:55:36<14:24:13,  3.29it/s] 54%|█████▍    | 200850/371472 [4:55:36<14:19:46,  3.31it/s] 54%|█████▍    | 200851/371472 [4:55:37<14:10:32,  3.34it/s] 54%|█████▍    | 200852/371472 [4:55:37<14:55:19,  3.18it/s] 54%|█████▍    | 200853/371472 [4:55:37<14:18:27,  3.31it/s] 54%|█████▍    | 200854/371472 [4:55:38<13:55:33,  3.40it/s] 54%|█████▍    | 200855/371472 [4:55:38<13:43:04,  3.45it/s] 54%|█████▍    | 200856/371472 [4:55:38<14:36:46,  3.24it/s] 54%|█████▍    | 200857/371472 [4:55:39<13:56:31,  3.40it/s] 54%|█████▍    | 200858/371472 [4:55:39<13:43:37,  3.45it/s] 54%|█████▍    | 200859/371472 [4:55:39<13:22:37,  3.54it/s] 54%|█████▍    | 200860/371472 [4:55:39<13:16:55,  3.57it/s]                                                            {'loss': 2.956, 'learning_rate': 5.135803400202547e-07, 'epoch': 8.65}
 54%|█████▍    | 200860/371472 [4:55:39<13:16:55,  3.57it/s] 54%|█████▍    | 200861/371472 [4:55:40<13:24:16,  3.54it/s] 54%|█████▍    | 200862/371472 [4:55:40<13:44:14,  3.45it/s] 54%|█████▍    | 200863/371472 [4:55:40<13:12:25,  3.59it/s] 54%|█████▍    | 200864/371472 [4:55:41<14:07:50,  3.35it/s] 54%|█████▍    | 200865/371472 [4:55:41<14:32:21,  3.26it/s] 54%|█████▍    | 200866/371472 [4:55:41<13:52:59,  3.41it/s] 54%|█████▍    | 200867/371472 [4:55:41<13:51:46,  3.42it/s] 54%|█████▍    | 200868/371472 [4:55:42<13:29:18,  3.51it/s] 54%|█████▍    | 200869/371472 [4:55:42<13:06:58,  3.61it/s] 54%|█████▍    | 200870/371472 [4:55:42<12:51:04,  3.69it/s] 54%|█████▍    | 200871/371472 [4:55:43<12:54:55,  3.67it/s] 54%|█████▍    | 200872/371472 [4:55:43<12:46:23,  3.71it/s] 54%|█████▍    | 200873/371472 [4:55:43<12:44:31,  3.72it/s] 54%|█████▍    | 200874/371472 [4:55:43<13:00:26,  3.64it/s] 54%|█████▍    | 200875/371472 [4:55:44<14:11:52,  3.34it/s] 54%|█████▍    | 200876/371472 [4:55:44<13:51:19,  3.42it/s] 54%|█████▍    | 200877/371472 [4:55:44<15:03:36,  3.15it/s] 54%|█████▍    | 200878/371472 [4:55:45<14:11:12,  3.34it/s] 54%|█████▍    | 200879/371472 [4:55:45<13:32:11,  3.50it/s] 54%|█████▍    | 200880/371472 [4:55:45<13:15:57,  3.57it/s]                                                            {'loss': 2.8361, 'learning_rate': 5.135318580447758e-07, 'epoch': 8.65}
 54%|█████▍    | 200880/371472 [4:55:45<13:15:57,  3.57it/s] 54%|█████▍    | 200881/371472 [4:55:45<13:24:54,  3.53it/s] 54%|█████▍    | 200882/371472 [4:55:46<13:21:46,  3.55it/s] 54%|█████▍    | 200883/371472 [4:55:46<13:49:31,  3.43it/s] 54%|█████▍    | 200884/371472 [4:55:46<14:12:06,  3.34it/s] 54%|█████▍    | 200885/371472 [4:55:47<13:58:27,  3.39it/s] 54%|█████▍    | 200886/371472 [4:55:47<14:01:00,  3.38it/s] 54%|█████▍    | 200887/371472 [4:55:47<13:47:13,  3.44it/s] 54%|█████▍    | 200888/371472 [4:55:47<13:58:06,  3.39it/s] 54%|█████▍    | 200889/371472 [4:55:48<13:33:00,  3.50it/s] 54%|█████▍    | 200890/371472 [4:55:48<13:45:27,  3.44it/s] 54%|█████▍    | 200891/371472 [4:55:48<13:16:37,  3.57it/s] 54%|█████▍    | 200892/371472 [4:55:49<15:54:53,  2.98it/s] 54%|█████▍    | 200893/371472 [4:55:49<15:56:35,  2.97it/s] 54%|█████▍    | 200894/371472 [4:55:49<15:08:56,  3.13it/s] 54%|█████▍    | 200895/371472 [4:55:50<15:25:38,  3.07it/s] 54%|█████▍    | 200896/371472 [4:55:50<14:35:42,  3.25it/s] 54%|█████▍    | 200897/371472 [4:55:50<13:35:04,  3.49it/s] 54%|█████▍    | 200898/371472 [4:55:51<13:35:04,  3.49it/s] 54%|█████▍    | 200899/371472 [4:55:51<13:01:31,  3.64it/s] 54%|█████▍    | 200900/371472 [4:55:51<12:58:24,  3.65it/s]                                                            {'loss': 2.9707, 'learning_rate': 5.134833760692969e-07, 'epoch': 8.65}
 54%|█████▍    | 200900/371472 [4:55:51<12:58:24,  3.65it/s] 54%|█████▍    | 200901/371472 [4:55:51<12:32:36,  3.78it/s] 54%|█████▍    | 200902/371472 [4:55:52<15:16:51,  3.10it/s] 54%|█████▍    | 200903/371472 [4:55:52<15:05:58,  3.14it/s] 54%|█████▍    | 200904/371472 [4:55:52<14:13:44,  3.33it/s] 54%|█████▍    | 200905/371472 [4:55:53<13:45:45,  3.44it/s] 54%|█████▍    | 200906/371472 [4:55:53<13:14:37,  3.58it/s] 54%|█████▍    | 200907/371472 [4:55:53<12:34:35,  3.77it/s] 54%|█████▍    | 200908/371472 [4:55:53<14:35:12,  3.25it/s] 54%|█████▍    | 200909/371472 [4:55:54<14:03:05,  3.37it/s] 54%|█████▍    | 200910/371472 [4:55:54<13:38:02,  3.47it/s] 54%|█████▍    | 200911/371472 [4:55:54<13:38:35,  3.47it/s] 54%|█████▍    | 200912/371472 [4:55:55<13:46:08,  3.44it/s] 54%|█████▍    | 200913/371472 [4:55:55<13:49:45,  3.43it/s] 54%|█████▍    | 200914/371472 [4:55:55<13:54:06,  3.41it/s] 54%|█████▍    | 200915/371472 [4:55:55<13:51:00,  3.42it/s] 54%|█████▍    | 200916/371472 [4:55:56<13:57:02,  3.40it/s] 54%|█████▍    | 200917/371472 [4:55:56<13:32:08,  3.50it/s] 54%|█████▍    | 200918/371472 [4:55:56<13:35:57,  3.48it/s] 54%|█████▍    | 200919/371472 [4:55:57<12:54:00,  3.67it/s] 54%|█████▍    | 200920/371472 [4:55:57<12:56:03,  3.66it/s]                                                            {'loss': 2.8367, 'learning_rate': 5.13434894093818e-07, 'epoch': 8.65}
 54%|█████▍    | 200920/371472 [4:55:57<12:56:03,  3.66it/s] 54%|█████▍    | 200921/371472 [4:55:57<13:05:57,  3.62it/s] 54%|█████▍    | 200922/371472 [4:55:57<12:48:56,  3.70it/s] 54%|█████▍    | 200923/371472 [4:55:58<13:15:28,  3.57it/s] 54%|█████▍    | 200924/371472 [4:55:58<13:00:33,  3.64it/s] 54%|█████▍    | 200925/371472 [4:55:58<13:02:01,  3.63it/s] 54%|█████▍    | 200926/371472 [4:55:58<12:35:49,  3.76it/s] 54%|█████▍    | 200927/371472 [4:55:59<12:20:37,  3.84it/s] 54%|█████▍    | 200928/371472 [4:55:59<12:30:48,  3.79it/s] 54%|█████▍    | 200929/371472 [4:55:59<12:36:40,  3.76it/s] 54%|█████▍    | 200930/371472 [4:56:00<12:24:24,  3.82it/s] 54%|█████▍    | 200931/371472 [4:56:00<13:00:54,  3.64it/s] 54%|█████▍    | 200932/371472 [4:56:00<12:53:12,  3.68it/s] 54%|█████▍    | 200933/371472 [4:56:00<12:45:28,  3.71it/s] 54%|█████▍    | 200934/371472 [4:56:01<13:14:29,  3.58it/s] 54%|█████▍    | 200935/371472 [4:56:01<13:42:00,  3.46it/s] 54%|█████▍    | 200936/371472 [4:56:01<13:17:26,  3.56it/s] 54%|█████▍    | 200937/371472 [4:56:01<12:59:27,  3.65it/s] 54%|█████▍    | 200938/371472 [4:56:02<12:53:17,  3.68it/s] 54%|█████▍    | 200939/371472 [4:56:02<14:53:33,  3.18it/s] 54%|█████▍    | 200940/371472 [4:56:02<14:32:49,  3.26it/s]                                                            {'loss': 2.9824, 'learning_rate': 5.133864121183392e-07, 'epoch': 8.65}
 54%|█████▍    | 200940/371472 [4:56:02<14:32:49,  3.26it/s] 54%|█████▍    | 200941/371472 [4:56:03<14:23:22,  3.29it/s] 54%|█████▍    | 200942/371472 [4:56:03<14:53:01,  3.18it/s] 54%|█████▍    | 200943/371472 [4:56:03<14:34:54,  3.25it/s] 54%|█████▍    | 200944/371472 [4:56:04<14:45:05,  3.21it/s] 54%|█████▍    | 200945/371472 [4:56:04<14:10:44,  3.34it/s] 54%|█████▍    | 200946/371472 [4:56:04<14:39:32,  3.23it/s] 54%|█████▍    | 200947/371472 [4:56:05<14:13:43,  3.33it/s] 54%|█████▍    | 200948/371472 [4:56:05<13:49:31,  3.43it/s] 54%|█████▍    | 200949/371472 [4:56:05<13:46:21,  3.44it/s] 54%|█████▍    | 200950/371472 [4:56:05<13:11:56,  3.59it/s] 54%|█████▍    | 200951/371472 [4:56:06<13:53:03,  3.41it/s] 54%|█████▍    | 200952/371472 [4:56:06<13:37:47,  3.48it/s] 54%|█████▍    | 200953/371472 [4:56:06<13:45:28,  3.44it/s] 54%|█████▍    | 200954/371472 [4:56:07<13:20:56,  3.55it/s] 54%|█████▍    | 200955/371472 [4:56:07<14:11:58,  3.34it/s] 54%|█████▍    | 200956/371472 [4:56:07<13:58:16,  3.39it/s] 54%|█████▍    | 200957/371472 [4:56:07<13:36:35,  3.48it/s] 54%|█████▍    | 200958/371472 [4:56:08<13:24:14,  3.53it/s] 54%|█████▍    | 200959/371472 [4:56:08<13:19:07,  3.56it/s] 54%|█████▍    | 200960/371472 [4:56:08<13:24:57,  3.53it/s]                                                            {'loss': 3.0649, 'learning_rate': 5.133379301428602e-07, 'epoch': 8.66}
 54%|█████▍    | 200960/371472 [4:56:08<13:24:57,  3.53it/s] 54%|█████▍    | 200961/371472 [4:56:09<13:54:19,  3.41it/s] 54%|█████▍    | 200962/371472 [4:56:09<13:34:56,  3.49it/s] 54%|█████▍    | 200963/371472 [4:56:09<13:23:41,  3.54it/s] 54%|█████▍    | 200964/371472 [4:56:09<13:33:10,  3.49it/s] 54%|█████▍    | 200965/371472 [4:56:10<13:23:00,  3.54it/s] 54%|█████▍    | 200966/371472 [4:56:10<13:18:17,  3.56it/s] 54%|█████▍    | 200967/371472 [4:56:10<13:59:04,  3.39it/s] 54%|█████▍    | 200968/371472 [4:56:11<14:12:08,  3.33it/s] 54%|█████▍    | 200969/371472 [4:56:11<13:40:30,  3.46it/s] 54%|█████▍    | 200970/371472 [4:56:11<13:11:11,  3.59it/s] 54%|█████▍    | 200971/371472 [4:56:11<13:32:21,  3.50it/s] 54%|█████▍    | 200972/371472 [4:56:12<12:53:28,  3.67it/s] 54%|█████▍    | 200973/371472 [4:56:12<13:10:10,  3.60it/s] 54%|█████▍    | 200974/371472 [4:56:12<13:27:40,  3.52it/s] 54%|█████▍    | 200975/371472 [4:56:13<13:31:36,  3.50it/s] 54%|█████▍    | 200976/371472 [4:56:13<13:39:34,  3.47it/s] 54%|█████▍    | 200977/371472 [4:56:13<13:47:03,  3.44it/s] 54%|█████▍    | 200978/371472 [4:56:13<13:15:09,  3.57it/s] 54%|█████▍    | 200979/371472 [4:56:14<13:00:47,  3.64it/s] 54%|█████▍    | 200980/371472 [4:56:14<12:51:45,  3.68it/s]                                                            {'loss': 3.0034, 'learning_rate': 5.132894481673813e-07, 'epoch': 8.66}
 54%|█████▍    | 200980/371472 [4:56:14<12:51:45,  3.68it/s] 54%|█████▍    | 200981/371472 [4:56:14<13:43:58,  3.45it/s] 54%|█████▍    | 200982/371472 [4:56:15<13:46:01,  3.44it/s] 54%|█████▍    | 200983/371472 [4:56:15<14:04:28,  3.36it/s] 54%|█████▍    | 200984/371472 [4:56:15<13:21:09,  3.55it/s] 54%|█████▍    | 200985/371472 [4:56:15<13:44:08,  3.45it/s] 54%|█████▍    | 200986/371472 [4:56:16<13:28:40,  3.51it/s] 54%|█████▍    | 200987/371472 [4:56:16<13:47:26,  3.43it/s] 54%|█████▍    | 200988/371472 [4:56:17<18:55:18,  2.50it/s] 54%|█████▍    | 200989/371472 [4:56:17<17:54:58,  2.64it/s] 54%|█████▍    | 200990/371472 [4:56:17<17:00:52,  2.78it/s] 54%|█████▍    | 200991/371472 [4:56:18<16:05:52,  2.94it/s] 54%|█████▍    | 200992/371472 [4:56:18<15:02:55,  3.15it/s] 54%|█████▍    | 200993/371472 [4:56:18<14:25:51,  3.28it/s] 54%|█████▍    | 200994/371472 [4:56:18<14:27:14,  3.28it/s] 54%|█████▍    | 200995/371472 [4:56:19<14:11:10,  3.34it/s] 54%|█████▍    | 200996/371472 [4:56:19<15:02:30,  3.15it/s] 54%|█████▍    | 200997/371472 [4:56:19<14:27:44,  3.27it/s] 54%|█████▍    | 200998/371472 [4:56:20<14:47:35,  3.20it/s] 54%|█████▍    | 200999/371472 [4:56:20<14:18:48,  3.31it/s] 54%|█████▍    | 201000/371472 [4:56:20<13:24:04,  3.53it/s]                                                            {'loss': 2.8471, 'learning_rate': 5.132409661919025e-07, 'epoch': 8.66}
 54%|█████▍    | 201000/371472 [4:56:20<13:24:04,  3.53it/s] 54%|█████▍    | 201001/371472 [4:56:21<13:45:30,  3.44it/s] 54%|█████▍    | 201002/371472 [4:56:21<13:45:45,  3.44it/s] 54%|█████▍    | 201003/371472 [4:56:21<13:29:20,  3.51it/s] 54%|█████▍    | 201004/371472 [4:56:21<13:53:42,  3.41it/s] 54%|█████▍    | 201005/371472 [4:56:22<14:08:20,  3.35it/s] 54%|█████▍    | 201006/371472 [4:56:22<14:17:44,  3.31it/s] 54%|█████▍    | 201007/371472 [4:56:22<15:51:39,  2.99it/s] 54%|█████▍    | 201008/371472 [4:56:23<15:04:34,  3.14it/s] 54%|█████▍    | 201009/371472 [4:56:23<14:26:57,  3.28it/s] 54%|█████▍    | 201010/371472 [4:56:23<14:40:53,  3.23it/s] 54%|█████▍    | 201011/371472 [4:56:24<14:01:17,  3.38it/s] 54%|█████▍    | 201012/371472 [4:56:24<13:36:51,  3.48it/s] 54%|█████▍    | 201013/371472 [4:56:24<13:16:21,  3.57it/s] 54%|█████▍    | 201014/371472 [4:56:24<13:18:18,  3.56it/s] 54%|█████▍    | 201015/371472 [4:56:25<12:58:23,  3.65it/s] 54%|█████▍    | 201016/371472 [4:56:25<13:06:06,  3.61it/s] 54%|█████▍    | 201017/371472 [4:56:25<12:55:08,  3.67it/s] 54%|█████▍    | 201018/371472 [4:56:25<12:55:49,  3.66it/s] 54%|█████▍    | 201019/371472 [4:56:26<14:34:24,  3.25it/s] 54%|█████▍    | 201020/371472 [4:56:26<14:08:33,  3.35it/s]                                                            {'loss': 3.1202, 'learning_rate': 5.131924842164236e-07, 'epoch': 8.66}
 54%|█████▍    | 201020/371472 [4:56:26<14:08:33,  3.35it/s] 54%|█████▍    | 201021/371472 [4:56:27<15:23:13,  3.08it/s] 54%|█████▍    | 201022/371472 [4:56:27<15:04:39,  3.14it/s] 54%|█████▍    | 201023/371472 [4:56:27<14:06:46,  3.35it/s] 54%|█████▍    | 201024/371472 [4:56:27<13:52:31,  3.41it/s] 54%|█████▍    | 201025/371472 [4:56:28<16:16:32,  2.91it/s] 54%|█████▍    | 201026/371472 [4:56:28<15:26:18,  3.07it/s] 54%|█████▍    | 201027/371472 [4:56:28<14:43:07,  3.22it/s] 54%|█████▍    | 201028/371472 [4:56:29<14:11:47,  3.33it/s] 54%|█████▍    | 201029/371472 [4:56:29<13:21:16,  3.55it/s] 54%|█████▍    | 201030/371472 [4:56:29<13:51:36,  3.42it/s] 54%|█████▍    | 201031/371472 [4:56:29<13:29:35,  3.51it/s] 54%|█████▍    | 201032/371472 [4:56:30<13:14:24,  3.58it/s] 54%|█████▍    | 201033/371472 [4:56:30<13:22:04,  3.54it/s] 54%|█████▍    | 201034/371472 [4:56:30<13:18:57,  3.56it/s] 54%|█████▍    | 201035/371472 [4:56:31<13:37:21,  3.48it/s] 54%|█████▍    | 201036/371472 [4:56:31<13:38:13,  3.47it/s] 54%|█████▍    | 201037/371472 [4:56:31<13:12:09,  3.59it/s] 54%|█████▍    | 201038/371472 [4:56:31<12:55:14,  3.66it/s] 54%|█████▍    | 201039/371472 [4:56:32<13:52:02,  3.41it/s] 54%|█████▍    | 201040/371472 [4:56:32<14:17:08,  3.31it/s]                                                            {'loss': 2.9805, 'learning_rate': 5.131440022409446e-07, 'epoch': 8.66}
 54%|█████▍    | 201040/371472 [4:56:32<14:17:08,  3.31it/s] 54%|█████▍    | 201041/371472 [4:56:32<13:48:57,  3.43it/s] 54%|█████▍    | 201042/371472 [4:56:33<13:21:24,  3.54it/s] 54%|█████▍    | 201043/371472 [4:56:33<12:54:42,  3.67it/s] 54%|█████▍    | 201044/371472 [4:56:33<13:14:54,  3.57it/s] 54%|█████▍    | 201045/371472 [4:56:34<14:38:11,  3.23it/s] 54%|█████▍    | 201046/371472 [4:56:34<14:57:58,  3.16it/s] 54%|█████▍    | 201047/371472 [4:56:34<14:15:41,  3.32it/s] 54%|█████▍    | 201048/371472 [4:56:34<13:49:49,  3.42it/s] 54%|█████▍    | 201049/371472 [4:56:35<13:35:40,  3.48it/s] 54%|█████▍    | 201050/371472 [4:56:35<13:16:32,  3.57it/s] 54%|█████▍    | 201051/371472 [4:56:35<13:24:20,  3.53it/s] 54%|█████▍    | 201052/371472 [4:56:36<13:19:56,  3.55it/s] 54%|█████▍    | 201053/371472 [4:56:36<13:29:57,  3.51it/s] 54%|█████▍    | 201054/371472 [4:56:36<13:16:39,  3.57it/s] 54%|█████▍    | 201055/371472 [4:56:36<13:09:29,  3.60it/s] 54%|█████▍    | 201056/371472 [4:56:37<13:31:41,  3.50it/s] 54%|█████▍    | 201057/371472 [4:56:37<14:54:10,  3.18it/s] 54%|█████▍    | 201058/371472 [4:56:37<14:37:16,  3.24it/s] 54%|█████▍    | 201059/371472 [4:56:38<14:11:30,  3.34it/s] 54%|█████▍    | 201060/371472 [4:56:38<13:16:24,  3.57it/s]                                                            {'loss': 2.932, 'learning_rate': 5.130955202654657e-07, 'epoch': 8.66}
 54%|█████▍    | 201060/371472 [4:56:38<13:16:24,  3.57it/s] 54%|█████▍    | 201061/371472 [4:56:38<15:05:17,  3.14it/s] 54%|█████▍    | 201062/371472 [4:56:39<15:28:12,  3.06it/s] 54%|█████▍    | 201063/371472 [4:56:39<14:29:33,  3.27it/s] 54%|█████▍    | 201064/371472 [4:56:39<13:58:54,  3.39it/s] 54%|█████▍    | 201065/371472 [4:56:39<13:46:24,  3.44it/s] 54%|█████▍    | 201066/371472 [4:56:40<13:13:22,  3.58it/s] 54%|█████▍    | 201067/371472 [4:56:40<12:55:01,  3.66it/s] 54%|█████▍    | 201068/371472 [4:56:40<12:39:00,  3.74it/s] 54%|█████▍    | 201069/371472 [4:56:40<12:48:38,  3.69it/s] 54%|█████▍    | 201070/371472 [4:56:41<13:09:41,  3.60it/s] 54%|█████▍    | 201071/371472 [4:56:41<13:24:02,  3.53it/s] 54%|█████▍    | 201072/371472 [4:56:41<13:16:55,  3.56it/s] 54%|█████▍    | 201073/371472 [4:56:42<13:52:15,  3.41it/s] 54%|█████▍    | 201074/371472 [4:56:42<13:25:09,  3.53it/s] 54%|█████▍    | 201075/371472 [4:56:42<13:45:28,  3.44it/s] 54%|█████▍    | 201076/371472 [4:56:42<13:30:08,  3.51it/s] 54%|█████▍    | 201077/371472 [4:56:43<13:04:35,  3.62it/s] 54%|█████▍    | 201078/371472 [4:56:43<13:08:37,  3.60it/s] 54%|█████▍    | 201079/371472 [4:56:43<12:36:32,  3.75it/s] 54%|█████▍    | 201080/371472 [4:56:44<13:10:59,  3.59it/s]                                                            {'loss': 3.156, 'learning_rate': 5.130470382899869e-07, 'epoch': 8.66}
 54%|█████▍    | 201080/371472 [4:56:44<13:10:59,  3.59it/s] 54%|█████▍    | 201081/371472 [4:56:44<13:29:32,  3.51it/s] 54%|█████▍    | 201082/371472 [4:56:44<14:16:42,  3.31it/s] 54%|█████▍    | 201083/371472 [4:56:45<14:17:32,  3.31it/s] 54%|█████▍    | 201084/371472 [4:56:45<14:34:22,  3.25it/s] 54%|█████▍    | 201085/371472 [4:56:45<15:14:55,  3.10it/s] 54%|█████▍    | 201086/371472 [4:56:45<14:29:16,  3.27it/s] 54%|█████▍    | 201087/371472 [4:56:46<13:47:16,  3.43it/s] 54%|█████▍    | 201088/371472 [4:56:46<13:16:40,  3.56it/s] 54%|█████▍    | 201089/371472 [4:56:46<13:02:13,  3.63it/s] 54%|█████▍    | 201090/371472 [4:56:46<12:54:49,  3.66it/s] 54%|█████▍    | 201091/371472 [4:56:47<13:26:28,  3.52it/s] 54%|█████▍    | 201092/371472 [4:56:47<13:40:58,  3.46it/s] 54%|█████▍    | 201093/371472 [4:56:47<14:23:21,  3.29it/s] 54%|█████▍    | 201094/371472 [4:56:48<14:23:30,  3.29it/s] 54%|█████▍    | 201095/371472 [4:56:48<13:52:08,  3.41it/s] 54%|█████▍    | 201096/371472 [4:56:48<14:10:03,  3.34it/s] 54%|█████▍    | 201097/371472 [4:56:49<14:08:23,  3.35it/s] 54%|█████▍    | 201098/371472 [4:56:49<13:16:11,  3.57it/s] 54%|█████▍    | 201099/371472 [4:56:49<13:51:24,  3.42it/s] 54%|█████▍    | 201100/371472 [4:56:49<13:46:19,  3.44it/s]                                                            {'loss': 2.8903, 'learning_rate': 5.129985563145079e-07, 'epoch': 8.66}
 54%|█████▍    | 201100/371472 [4:56:49<13:46:19,  3.44it/s] 54%|█████▍    | 201101/371472 [4:56:50<13:29:38,  3.51it/s] 54%|█████▍    | 201102/371472 [4:56:50<13:01:47,  3.63it/s] 54%|█████▍    | 201103/371472 [4:56:50<14:04:33,  3.36it/s] 54%|█████▍    | 201104/371472 [4:56:51<13:30:44,  3.50it/s] 54%|█████▍    | 201105/371472 [4:56:51<13:52:52,  3.41it/s] 54%|█████▍    | 201106/371472 [4:56:51<14:09:14,  3.34it/s] 54%|█████▍    | 201107/371472 [4:56:52<13:50:34,  3.42it/s] 54%|█████▍    | 201108/371472 [4:56:52<13:35:19,  3.48it/s] 54%|█████▍    | 201109/371472 [4:56:52<13:51:16,  3.42it/s] 54%|█████▍    | 201110/371472 [4:56:52<13:04:58,  3.62it/s] 54%|█████▍    | 201111/371472 [4:56:53<13:09:13,  3.60it/s] 54%|█████▍    | 201112/371472 [4:56:53<12:45:31,  3.71it/s] 54%|█████▍    | 201113/371472 [4:56:53<13:24:18,  3.53it/s] 54%|█████▍    | 201114/371472 [4:56:53<13:01:34,  3.63it/s] 54%|█████▍    | 201115/371472 [4:56:54<12:44:13,  3.72it/s] 54%|█████▍    | 201116/371472 [4:56:54<12:41:42,  3.73it/s] 54%|█████▍    | 201117/371472 [4:56:54<13:02:09,  3.63it/s] 54%|█████▍    | 201118/371472 [4:56:55<13:58:11,  3.39it/s] 54%|█████▍    | 201119/371472 [4:56:55<13:29:39,  3.51it/s] 54%|█████▍    | 201120/371472 [4:56:55<13:07:01,  3.61it/s]                                                            {'loss': 2.971, 'learning_rate': 5.129500743390291e-07, 'epoch': 8.66}
 54%|█████▍    | 201120/371472 [4:56:55<13:07:01,  3.61it/s] 54%|█████▍    | 201121/371472 [4:56:55<13:16:40,  3.56it/s] 54%|█████▍    | 201122/371472 [4:56:56<13:38:46,  3.47it/s] 54%|█████▍    | 201123/371472 [4:56:56<13:37:24,  3.47it/s] 54%|█████▍    | 201124/371472 [4:56:56<13:10:04,  3.59it/s] 54%|█████▍    | 201125/371472 [4:56:57<14:02:17,  3.37it/s] 54%|█████▍    | 201126/371472 [4:56:57<13:57:11,  3.39it/s] 54%|█████▍    | 201127/371472 [4:56:57<14:30:37,  3.26it/s] 54%|█████▍    | 201128/371472 [4:56:57<14:06:49,  3.35it/s] 54%|█████▍    | 201129/371472 [4:56:58<14:08:02,  3.35it/s] 54%|█████▍    | 201130/371472 [4:56:58<13:55:49,  3.40it/s] 54%|█████▍    | 201131/371472 [4:56:58<15:11:55,  3.11it/s] 54%|█████▍    | 201132/371472 [4:56:59<15:08:13,  3.13it/s] 54%|█████▍    | 201133/371472 [4:56:59<15:13:42,  3.11it/s] 54%|█████▍    | 201134/371472 [4:56:59<14:44:52,  3.21it/s] 54%|█████▍    | 201135/371472 [4:57:00<13:56:24,  3.39it/s] 54%|█████▍    | 201136/371472 [4:57:00<13:21:07,  3.54it/s] 54%|█████▍    | 201137/371472 [4:57:00<13:53:39,  3.41it/s] 54%|█████▍    | 201138/371472 [4:57:00<13:41:01,  3.46it/s] 54%|█████▍    | 201139/371472 [4:57:01<13:40:31,  3.46it/s] 54%|█████▍    | 201140/371472 [4:57:01<13:19:36,  3.55it/s]                                                            {'loss': 2.9418, 'learning_rate': 5.129015923635502e-07, 'epoch': 8.66}
 54%|█████▍    | 201140/371472 [4:57:01<13:19:36,  3.55it/s] 54%|█████▍    | 201141/371472 [4:57:01<13:11:10,  3.59it/s] 54%|█████▍    | 201142/371472 [4:57:02<13:50:56,  3.42it/s] 54%|█████▍    | 201143/371472 [4:57:02<13:51:09,  3.42it/s] 54%|█████▍    | 201144/371472 [4:57:02<13:25:05,  3.53it/s] 54%|█████▍    | 201145/371472 [4:57:02<13:39:28,  3.46it/s] 54%|█████▍    | 201146/371472 [4:57:03<13:33:53,  3.49it/s] 54%|█████▍    | 201147/371472 [4:57:03<13:18:20,  3.56it/s] 54%|█████▍    | 201148/371472 [4:57:03<14:09:14,  3.34it/s] 54%|█████▍    | 201149/371472 [4:57:04<13:25:48,  3.52it/s] 54%|█████▍    | 201150/371472 [4:57:04<13:18:08,  3.56it/s] 54%|█████▍    | 201151/371472 [4:57:04<13:00:18,  3.64it/s] 54%|█████▍    | 201152/371472 [4:57:04<13:02:06,  3.63it/s] 54%|█████▍    | 201153/371472 [4:57:05<12:48:37,  3.69it/s] 54%|█████▍    | 201154/371472 [4:57:05<12:54:23,  3.67it/s] 54%|█████▍    | 201155/371472 [4:57:05<12:42:32,  3.72it/s] 54%|█████▍    | 201156/371472 [4:57:06<12:32:53,  3.77it/s] 54%|█████▍    | 201157/371472 [4:57:06<12:23:44,  3.82it/s] 54%|█████▍    | 201158/371472 [4:57:06<12:29:44,  3.79it/s] 54%|█████▍    | 201159/371472 [4:57:06<12:58:41,  3.65it/s] 54%|█████▍    | 201160/371472 [4:57:07<12:49:33,  3.69it/s]                                                            {'loss': 3.0271, 'learning_rate': 5.128531103880713e-07, 'epoch': 8.66}
 54%|█████▍    | 201160/371472 [4:57:07<12:49:33,  3.69it/s] 54%|█████▍    | 201161/371472 [4:57:07<13:23:06,  3.53it/s] 54%|█████▍    | 201162/371472 [4:57:07<12:51:14,  3.68it/s] 54%|█████▍    | 201163/371472 [4:57:07<13:24:50,  3.53it/s] 54%|█████▍    | 201164/371472 [4:57:08<13:30:48,  3.50it/s] 54%|█████▍    | 201165/371472 [4:57:08<14:45:14,  3.21it/s] 54%|█████▍    | 201166/371472 [4:57:08<13:47:41,  3.43it/s] 54%|█████▍    | 201167/371472 [4:57:09<14:01:49,  3.37it/s] 54%|█████▍    | 201168/371472 [4:57:09<13:53:30,  3.41it/s] 54%|█████▍    | 201169/371472 [4:57:09<14:42:50,  3.22it/s] 54%|█████▍    | 201170/371472 [4:57:10<13:53:26,  3.41it/s] 54%|█████▍    | 201171/371472 [4:57:10<13:44:48,  3.44it/s] 54%|█████▍    | 201172/371472 [4:57:10<14:00:43,  3.38it/s] 54%|█████▍    | 201173/371472 [4:57:10<13:39:31,  3.46it/s] 54%|█████▍    | 201174/371472 [4:57:11<13:24:17,  3.53it/s] 54%|█████▍    | 201175/371472 [4:57:11<13:06:54,  3.61it/s] 54%|█████▍    | 201176/371472 [4:57:11<12:43:26,  3.72it/s] 54%|█████▍    | 201177/371472 [4:57:11<12:58:12,  3.65it/s] 54%|█████▍    | 201178/371472 [4:57:12<13:32:28,  3.49it/s] 54%|█████▍    | 201179/371472 [4:57:12<13:15:44,  3.57it/s] 54%|█████▍    | 201180/371472 [4:57:12<12:53:35,  3.67it/s]                                                            {'loss': 3.0688, 'learning_rate': 5.128046284125923e-07, 'epoch': 8.67}
 54%|█████▍    | 201180/371472 [4:57:12<12:53:35,  3.67it/s] 54%|█████▍    | 201181/371472 [4:57:13<12:48:38,  3.69it/s] 54%|█████▍    | 201182/371472 [4:57:13<13:18:04,  3.56it/s] 54%|█████▍    | 201183/371472 [4:57:13<13:01:50,  3.63it/s] 54%|█████▍    | 201184/371472 [4:57:13<12:43:57,  3.72it/s] 54%|█████▍    | 201185/371472 [4:57:14<13:44:24,  3.44it/s] 54%|█████▍    | 201186/371472 [4:57:14<13:48:42,  3.42it/s] 54%|█████▍    | 201187/371472 [4:57:14<13:28:36,  3.51it/s] 54%|█████▍    | 201188/371472 [4:57:15<13:59:53,  3.38it/s] 54%|█████▍    | 201189/371472 [4:57:15<13:57:48,  3.39it/s] 54%|█████▍    | 201190/371472 [4:57:15<13:42:03,  3.45it/s] 54%|█████▍    | 201191/371472 [4:57:16<15:36:40,  3.03it/s] 54%|█████▍    | 201192/371472 [4:57:16<15:00:53,  3.15it/s] 54%|█████▍    | 201193/371472 [4:57:16<14:18:37,  3.31it/s] 54%|█████▍    | 201194/371472 [4:57:16<13:37:52,  3.47it/s] 54%|█████▍    | 201195/371472 [4:57:17<13:11:19,  3.59it/s] 54%|█████▍    | 201196/371472 [4:57:17<13:04:32,  3.62it/s] 54%|█████▍    | 201197/371472 [4:57:17<12:51:34,  3.68it/s] 54%|█████▍    | 201198/371472 [4:57:18<12:56:42,  3.65it/s] 54%|█████▍    | 201199/371472 [4:57:18<13:25:38,  3.52it/s] 54%|█████▍    | 201200/371472 [4:57:18<14:41:00,  3.22it/s]                                                            {'loss': 3.0055, 'learning_rate': 5.127561464371134e-07, 'epoch': 8.67}
 54%|█████▍    | 201200/371472 [4:57:18<14:41:00,  3.22it/s] 54%|█████▍    | 201201/371472 [4:57:19<14:41:47,  3.22it/s] 54%|█████▍    | 201202/371472 [4:57:19<14:07:24,  3.35it/s] 54%|█████▍    | 201203/371472 [4:57:19<13:34:25,  3.48it/s] 54%|█████▍    | 201204/371472 [4:57:19<13:08:03,  3.60it/s] 54%|█████▍    | 201205/371472 [4:57:20<12:45:33,  3.71it/s] 54%|█████▍    | 201206/371472 [4:57:20<13:01:13,  3.63it/s] 54%|█████▍    | 201207/371472 [4:57:20<13:30:27,  3.50it/s] 54%|█████▍    | 201208/371472 [4:57:21<15:02:59,  3.14it/s] 54%|█████▍    | 201209/371472 [4:57:21<13:59:42,  3.38it/s] 54%|█████▍    | 201210/371472 [4:57:21<13:54:34,  3.40it/s] 54%|█████▍    | 201211/371472 [4:57:21<13:35:16,  3.48it/s] 54%|█████▍    | 201212/371472 [4:57:22<13:17:47,  3.56it/s] 54%|█████▍    | 201213/371472 [4:57:22<13:48:35,  3.42it/s] 54%|█████▍    | 201214/371472 [4:57:22<13:35:42,  3.48it/s] 54%|█████▍    | 201215/371472 [4:57:22<13:19:36,  3.55it/s] 54%|█████▍    | 201216/371472 [4:57:23<13:28:44,  3.51it/s] 54%|█████▍    | 201217/371472 [4:57:23<13:31:00,  3.50it/s] 54%|█████▍    | 201218/371472 [4:57:23<13:10:36,  3.59it/s] 54%|█████▍    | 201219/371472 [4:57:24<12:59:13,  3.64it/s] 54%|█████▍    | 201220/371472 [4:57:24<12:41:18,  3.73it/s]                                                            {'loss': 3.112, 'learning_rate': 5.127076644616346e-07, 'epoch': 8.67}
 54%|█████▍    | 201220/371472 [4:57:24<12:41:18,  3.73it/s] 54%|█████▍    | 201221/371472 [4:57:24<12:41:52,  3.72it/s] 54%|█████▍    | 201222/371472 [4:57:24<13:05:11,  3.61it/s] 54%|█████▍    | 201223/371472 [4:57:25<13:04:28,  3.62it/s] 54%|█████▍    | 201224/371472 [4:57:25<13:51:07,  3.41it/s] 54%|█████▍    | 201225/371472 [4:57:25<13:34:19,  3.48it/s] 54%|█████▍    | 201226/371472 [4:57:26<13:16:28,  3.56it/s] 54%|█████▍    | 201227/371472 [4:57:26<12:56:55,  3.65it/s] 54%|█████▍    | 201228/371472 [4:57:26<12:45:10,  3.71it/s] 54%|█████▍    | 201229/371472 [4:57:26<13:26:15,  3.52it/s] 54%|█████▍    | 201230/371472 [4:57:27<13:15:45,  3.57it/s] 54%|█████▍    | 201231/371472 [4:57:27<13:49:18,  3.42it/s] 54%|█████▍    | 201232/371472 [4:57:27<13:40:00,  3.46it/s] 54%|█████▍    | 201233/371472 [4:57:28<13:36:28,  3.48it/s] 54%|█████▍    | 201234/371472 [4:57:28<12:54:26,  3.66it/s] 54%|█████▍    | 201235/371472 [4:57:28<12:47:02,  3.70it/s] 54%|█████▍    | 201236/371472 [4:57:28<12:52:27,  3.67it/s] 54%|█████▍    | 201237/371472 [4:57:29<13:24:37,  3.53it/s] 54%|█████▍    | 201238/371472 [4:57:29<13:41:00,  3.46it/s] 54%|█████▍    | 201239/371472 [4:57:29<13:15:27,  3.57it/s] 54%|█████▍    | 201240/371472 [4:57:29<13:00:07,  3.64it/s]                                                            {'loss': 3.0506, 'learning_rate': 5.126591824861557e-07, 'epoch': 8.67}
 54%|█████▍    | 201240/371472 [4:57:29<13:00:07,  3.64it/s] 54%|█████▍    | 201241/371472 [4:57:30<12:48:06,  3.69it/s] 54%|█████▍    | 201242/371472 [4:57:30<12:40:26,  3.73it/s] 54%|█████▍    | 201243/371472 [4:57:30<12:32:13,  3.77it/s] 54%|█████▍    | 201244/371472 [4:57:31<12:45:52,  3.70it/s] 54%|█████▍    | 201245/371472 [4:57:31<12:56:03,  3.66it/s] 54%|█████▍    | 201246/371472 [4:57:31<12:49:33,  3.69it/s] 54%|█████▍    | 201247/371472 [4:57:31<12:37:24,  3.75it/s] 54%|█████▍    | 201248/371472 [4:57:32<12:34:22,  3.76it/s] 54%|█████▍    | 201249/371472 [4:57:32<13:15:05,  3.57it/s] 54%|█████▍    | 201250/371472 [4:57:32<13:11:36,  3.58it/s] 54%|█████▍    | 201251/371472 [4:57:32<13:07:43,  3.60it/s] 54%|█████▍    | 201252/371472 [4:57:33<13:27:38,  3.51it/s] 54%|█████▍    | 201253/371472 [4:57:33<13:24:45,  3.53it/s] 54%|█████▍    | 201254/371472 [4:57:33<12:55:00,  3.66it/s] 54%|█████▍    | 201255/371472 [4:57:34<12:45:41,  3.71it/s] 54%|█████▍    | 201256/371472 [4:57:34<12:44:55,  3.71it/s] 54%|█████▍    | 201257/371472 [4:57:34<13:26:49,  3.52it/s] 54%|█████▍    | 201258/371472 [4:57:34<13:46:18,  3.43it/s] 54%|█████▍    | 201259/371472 [4:57:35<13:54:11,  3.40it/s] 54%|█████▍    | 201260/371472 [4:57:35<14:04:04,  3.36it/s]                                                            {'loss': 2.979, 'learning_rate': 5.126107005106768e-07, 'epoch': 8.67}
 54%|█████▍    | 201260/371472 [4:57:35<14:04:04,  3.36it/s] 54%|█████▍    | 201261/371472 [4:57:35<13:32:07,  3.49it/s] 54%|█████▍    | 201262/371472 [4:57:36<13:14:11,  3.57it/s] 54%|█████▍    | 201263/371472 [4:57:36<13:27:40,  3.51it/s] 54%|█████▍    | 201264/371472 [4:57:36<13:32:06,  3.49it/s] 54%|█████▍    | 201265/371472 [4:57:36<13:34:39,  3.48it/s] 54%|█████▍    | 201266/371472 [4:57:37<13:44:20,  3.44it/s] 54%|█████▍    | 201267/371472 [4:57:37<13:29:14,  3.51it/s] 54%|█████▍    | 201268/371472 [4:57:37<13:20:40,  3.54it/s] 54%|█████▍    | 201269/371472 [4:57:38<14:17:47,  3.31it/s] 54%|█████▍    | 201270/371472 [4:57:38<13:52:24,  3.41it/s] 54%|█████▍    | 201271/371472 [4:57:38<13:26:11,  3.52it/s] 54%|█████▍    | 201272/371472 [4:57:38<12:55:17,  3.66it/s] 54%|█████▍    | 201273/371472 [4:57:39<12:37:51,  3.74it/s] 54%|█████▍    | 201274/371472 [4:57:39<12:45:16,  3.71it/s] 54%|█████▍    | 201275/371472 [4:57:39<13:53:42,  3.40it/s] 54%|█████▍    | 201276/371472 [4:57:40<13:40:34,  3.46it/s] 54%|█████▍    | 201277/371472 [4:57:40<13:39:56,  3.46it/s] 54%|█████▍    | 201278/371472 [4:57:40<13:05:56,  3.61it/s] 54%|█████▍    | 201279/371472 [4:57:40<13:37:57,  3.47it/s] 54%|█████▍    | 201280/371472 [4:57:41<13:05:22,  3.61it/s]                                                            {'loss': 2.92, 'learning_rate': 5.125622185351979e-07, 'epoch': 8.67}
 54%|█████▍    | 201280/371472 [4:57:41<13:05:22,  3.61it/s] 54%|█████▍    | 201281/371472 [4:57:41<13:38:59,  3.46it/s] 54%|█████▍    | 201282/371472 [4:57:41<13:14:20,  3.57it/s] 54%|█████▍    | 201283/371472 [4:57:42<14:02:52,  3.37it/s] 54%|█████▍    | 201284/371472 [4:57:42<13:45:52,  3.43it/s] 54%|█████▍    | 201285/371472 [4:57:42<14:45:32,  3.20it/s] 54%|█████▍    | 201286/371472 [4:57:43<14:16:21,  3.31it/s] 54%|█████▍    | 201287/371472 [4:57:43<13:52:34,  3.41it/s] 54%|█████▍    | 201288/371472 [4:57:43<13:28:20,  3.51it/s] 54%|█████▍    | 201289/371472 [4:57:43<13:26:57,  3.51it/s] 54%|█████▍    | 201290/371472 [4:57:44<13:07:52,  3.60it/s] 54%|█████▍    | 201291/371472 [4:57:44<13:03:54,  3.62it/s] 54%|█████▍    | 201292/371472 [4:57:44<13:01:15,  3.63it/s] 54%|█████▍    | 201293/371472 [4:57:44<13:09:33,  3.59it/s] 54%|█████▍    | 201294/371472 [4:57:45<12:51:02,  3.68it/s] 54%|█████▍    | 201295/371472 [4:57:45<12:31:42,  3.77it/s] 54%|█████▍    | 201296/371472 [4:57:45<12:35:27,  3.75it/s] 54%|█████▍    | 201297/371472 [4:57:45<12:35:40,  3.75it/s] 54%|█████▍    | 201298/371472 [4:57:46<12:58:27,  3.64it/s] 54%|█████▍    | 201299/371472 [4:57:46<12:55:29,  3.66it/s] 54%|█████▍    | 201300/371472 [4:57:46<14:06:37,  3.35it/s]                                                            {'loss': 2.9626, 'learning_rate': 5.12513736559719e-07, 'epoch': 8.67}
 54%|█████▍    | 201300/371472 [4:57:46<14:06:37,  3.35it/s] 54%|█████▍    | 201301/371472 [4:57:47<14:45:20,  3.20it/s] 54%|█████▍    | 201302/371472 [4:57:47<15:07:50,  3.12it/s] 54%|█████▍    | 201303/371472 [4:57:47<15:09:39,  3.12it/s] 54%|█████▍    | 201304/371472 [4:57:48<14:47:39,  3.20it/s] 54%|█████▍    | 201305/371472 [4:57:48<14:00:50,  3.37it/s] 54%|█████▍    | 201306/371472 [4:57:48<14:05:58,  3.35it/s] 54%|█████▍    | 201307/371472 [4:57:49<13:38:36,  3.46it/s] 54%|█████▍    | 201308/371472 [4:57:49<13:18:14,  3.55it/s] 54%|█████▍    | 201309/371472 [4:57:49<13:07:36,  3.60it/s] 54%|█████▍    | 201310/371472 [4:57:49<13:07:31,  3.60it/s] 54%|█████▍    | 201311/371472 [4:57:50<13:02:00,  3.63it/s] 54%|█████▍    | 201312/371472 [4:57:50<12:48:23,  3.69it/s] 54%|█████▍    | 201313/371472 [4:57:50<12:43:03,  3.72it/s] 54%|█████▍    | 201314/371472 [4:57:50<14:01:14,  3.37it/s] 54%|█████▍    | 201315/371472 [4:57:51<13:31:51,  3.49it/s] 54%|█████▍    | 201316/371472 [4:57:51<13:57:09,  3.39it/s] 54%|█████▍    | 201317/371472 [4:57:51<14:47:52,  3.19it/s] 54%|█████▍    | 201318/371472 [4:57:52<15:10:37,  3.11it/s] 54%|█████▍    | 201319/371472 [4:57:52<14:29:46,  3.26it/s] 54%|█████▍    | 201320/371472 [4:57:52<13:59:35,  3.38it/s]                                                            {'loss': 2.8916, 'learning_rate': 5.1246525458424e-07, 'epoch': 8.67}
 54%|█████▍    | 201320/371472 [4:57:52<13:59:35,  3.38it/s] 54%|█████▍    | 201321/371472 [4:57:53<14:34:22,  3.24it/s] 54%|█████▍    | 201322/371472 [4:57:53<14:05:58,  3.35it/s] 54%|█████▍    | 201323/371472 [4:57:53<13:44:26,  3.44it/s] 54%|█████▍    | 201324/371472 [4:57:53<13:02:29,  3.62it/s] 54%|█████▍    | 201325/371472 [4:57:54<13:13:45,  3.57it/s] 54%|█████▍    | 201326/371472 [4:57:54<13:31:09,  3.50it/s] 54%|█████▍    | 201327/371472 [4:57:54<13:11:34,  3.58it/s] 54%|█████▍    | 201328/371472 [4:57:55<12:58:33,  3.64it/s] 54%|█████▍    | 201329/371472 [4:57:55<13:16:59,  3.56it/s] 54%|█████▍    | 201330/371472 [4:57:55<12:57:53,  3.65it/s] 54%|█████▍    | 201331/371472 [4:57:55<13:10:18,  3.59it/s] 54%|█████▍    | 201332/371472 [4:57:56<14:13:09,  3.32it/s] 54%|█████▍    | 201333/371472 [4:57:56<13:53:43,  3.40it/s] 54%|█████▍    | 201334/371472 [4:57:56<13:47:47,  3.43it/s] 54%|█████▍    | 201335/371472 [4:57:57<13:25:11,  3.52it/s] 54%|█████▍    | 201336/371472 [4:57:57<15:14:32,  3.10it/s] 54%|█████▍    | 201337/371472 [4:57:57<14:50:39,  3.18it/s] 54%|█████▍    | 201338/371472 [4:57:58<14:59:48,  3.15it/s] 54%|█████▍    | 201339/371472 [4:57:58<14:03:55,  3.36it/s] 54%|█████▍    | 201340/371472 [4:57:58<13:31:49,  3.49it/s]                                                            {'loss': 3.017, 'learning_rate': 5.124167726087612e-07, 'epoch': 8.67}
 54%|█████▍    | 201340/371472 [4:57:58<13:31:49,  3.49it/s] 54%|█████▍    | 201341/371472 [4:57:58<14:27:45,  3.27it/s] 54%|█████▍    | 201342/371472 [4:57:59<15:05:07,  3.13it/s] 54%|█████▍    | 201343/371472 [4:57:59<14:36:56,  3.23it/s] 54%|█████▍    | 201344/371472 [4:57:59<13:49:15,  3.42it/s] 54%|█████▍    | 201345/371472 [4:58:00<13:40:26,  3.46it/s] 54%|█████▍    | 201346/371472 [4:58:00<13:19:23,  3.55it/s] 54%|█████▍    | 201347/371472 [4:58:00<15:19:23,  3.08it/s] 54%|█████▍    | 201348/371472 [4:58:01<14:34:14,  3.24it/s] 54%|█████▍    | 201349/371472 [4:58:01<14:11:42,  3.33it/s] 54%|█████▍    | 201350/371472 [4:58:01<13:50:01,  3.42it/s] 54%|█████▍    | 201351/371472 [4:58:01<13:43:12,  3.44it/s] 54%|█████▍    | 201352/371472 [4:58:02<13:27:20,  3.51it/s] 54%|█████▍    | 201353/371472 [4:58:02<14:00:12,  3.37it/s] 54%|█████▍    | 201354/371472 [4:58:02<13:45:39,  3.43it/s] 54%|█████▍    | 201355/371472 [4:58:03<14:20:41,  3.29it/s] 54%|█████▍    | 201356/371472 [4:58:03<14:26:26,  3.27it/s] 54%|█████▍    | 201357/371472 [4:58:03<13:40:32,  3.46it/s] 54%|█████▍    | 201358/371472 [4:58:04<14:40:47,  3.22it/s] 54%|█████▍    | 201359/371472 [4:58:04<13:59:31,  3.38it/s] 54%|█████▍    | 201360/371472 [4:58:04<13:59:02,  3.38it/s]                                                            {'loss': 2.8983, 'learning_rate': 5.123682906332822e-07, 'epoch': 8.67}
 54%|█████▍    | 201360/371472 [4:58:04<13:59:02,  3.38it/s] 54%|█████▍    | 201361/371472 [4:58:04<14:58:14,  3.16it/s] 54%|█████▍    | 201362/371472 [4:58:05<14:34:26,  3.24it/s] 54%|█████▍    | 201363/371472 [4:58:05<13:56:40,  3.39it/s] 54%|█████▍    | 201364/371472 [4:58:05<14:33:06,  3.25it/s] 54%|█████▍    | 201365/371472 [4:58:06<14:12:20,  3.33it/s] 54%|█████▍    | 201366/371472 [4:58:06<14:17:01,  3.31it/s] 54%|█████▍    | 201367/371472 [4:58:06<13:34:00,  3.48it/s] 54%|█████▍    | 201368/371472 [4:58:07<13:25:14,  3.52it/s] 54%|█████▍    | 201369/371472 [4:58:07<14:38:40,  3.23it/s] 54%|█████▍    | 201370/371472 [4:58:07<13:58:05,  3.38it/s] 54%|█████▍    | 201371/371472 [4:58:07<13:50:06,  3.42it/s] 54%|█████▍    | 201372/371472 [4:58:08<13:19:32,  3.55it/s] 54%|█████▍    | 201373/371472 [4:58:08<13:26:19,  3.52it/s] 54%|█████▍    | 201374/371472 [4:58:08<12:53:02,  3.67it/s] 54%|█████▍    | 201375/371472 [4:58:08<12:38:14,  3.74it/s] 54%|█████▍    | 201376/371472 [4:58:09<13:19:13,  3.55it/s] 54%|█████▍    | 201377/371472 [4:58:09<13:15:12,  3.56it/s] 54%|█████▍    | 201378/371472 [4:58:09<13:09:54,  3.59it/s] 54%|█████▍    | 201379/371472 [4:58:10<12:53:20,  3.67it/s] 54%|█████▍    | 201380/371472 [4:58:10<13:28:00,  3.51it/s]                                                            {'loss': 2.8499, 'learning_rate': 5.123198086578035e-07, 'epoch': 8.67}
 54%|█████▍    | 201380/371472 [4:58:10<13:28:00,  3.51it/s] 54%|█████▍    | 201381/371472 [4:58:10<13:22:06,  3.53it/s] 54%|█████▍    | 201382/371472 [4:58:10<13:39:47,  3.46it/s] 54%|█████▍    | 201383/371472 [4:58:11<13:34:30,  3.48it/s] 54%|█████▍    | 201384/371472 [4:58:11<13:32:09,  3.49it/s] 54%|█████▍    | 201385/371472 [4:58:11<13:15:27,  3.56it/s] 54%|█████▍    | 201386/371472 [4:58:12<14:40:17,  3.22it/s] 54%|█████▍    | 201387/371472 [4:58:12<14:13:36,  3.32it/s] 54%|█████▍    | 201388/371472 [4:58:12<14:30:51,  3.26it/s] 54%|█████▍    | 201389/371472 [4:58:13<13:52:10,  3.41it/s] 54%|█████▍    | 201390/371472 [4:58:13<14:09:39,  3.34it/s] 54%|█████▍    | 201391/371472 [4:58:13<13:37:08,  3.47it/s] 54%|█████▍    | 201392/371472 [4:58:13<13:07:36,  3.60it/s] 54%|█████▍    | 201393/371472 [4:58:14<13:22:07,  3.53it/s] 54%|█████▍    | 201394/371472 [4:58:14<12:57:23,  3.65it/s] 54%|█████▍    | 201395/371472 [4:58:14<12:40:22,  3.73it/s] 54%|█████▍    | 201396/371472 [4:58:14<13:06:27,  3.60it/s] 54%|█████▍    | 201397/371472 [4:58:15<13:03:44,  3.62it/s] 54%|█████▍    | 201398/371472 [4:58:15<12:53:46,  3.66it/s] 54%|█████▍    | 201399/371472 [4:58:15<12:37:16,  3.74it/s] 54%|█████▍    | 201400/371472 [4:58:16<13:04:52,  3.61it/s]                                                            {'loss': 2.9732, 'learning_rate': 5.122713266823245e-07, 'epoch': 8.67}
 54%|█████▍    | 201400/371472 [4:58:16<13:04:52,  3.61it/s] 54%|█████▍    | 201401/371472 [4:58:16<13:28:20,  3.51it/s] 54%|█████▍    | 201402/371472 [4:58:16<13:22:25,  3.53it/s] 54%|█████▍    | 201403/371472 [4:58:16<13:11:36,  3.58it/s] 54%|█████▍    | 201404/371472 [4:58:17<13:36:23,  3.47it/s] 54%|█████▍    | 201405/371472 [4:58:17<13:25:15,  3.52it/s] 54%|█████▍    | 201406/371472 [4:58:17<13:59:22,  3.38it/s] 54%|█████▍    | 201407/371472 [4:58:18<13:36:50,  3.47it/s] 54%|█████▍    | 201408/371472 [4:58:18<13:25:02,  3.52it/s] 54%|█████▍    | 201409/371472 [4:58:18<13:47:22,  3.43it/s] 54%|█████▍    | 201410/371472 [4:58:18<13:24:39,  3.52it/s] 54%|█████▍    | 201411/371472 [4:58:19<13:20:50,  3.54it/s] 54%|█████▍    | 201412/371472 [4:58:19<13:06:36,  3.60it/s] 54%|█████▍    | 201413/371472 [4:58:19<13:06:28,  3.60it/s] 54%|█████▍    | 201414/371472 [4:58:20<13:18:26,  3.55it/s] 54%|█████▍    | 201415/371472 [4:58:20<13:40:14,  3.46it/s] 54%|█████▍    | 201416/371472 [4:58:20<13:15:53,  3.56it/s] 54%|█████▍    | 201417/371472 [4:58:20<13:04:39,  3.61it/s] 54%|█████▍    | 201418/371472 [4:58:21<12:34:41,  3.76it/s] 54%|█████▍    | 201419/371472 [4:58:21<12:25:23,  3.80it/s] 54%|█████▍    | 201420/371472 [4:58:21<12:26:03,  3.80it/s]                                                            {'loss': 2.8876, 'learning_rate': 5.122228447068456e-07, 'epoch': 8.68}
 54%|█████▍    | 201420/371472 [4:58:21<12:26:03,  3.80it/s] 54%|█████▍    | 201421/371472 [4:58:21<12:10:47,  3.88it/s] 54%|█████▍    | 201422/371472 [4:58:22<12:54:44,  3.66it/s] 54%|█████▍    | 201423/371472 [4:58:22<12:25:04,  3.80it/s] 54%|█████▍    | 201424/371472 [4:58:22<11:58:26,  3.94it/s] 54%|█████▍    | 201425/371472 [4:58:22<12:03:00,  3.92it/s] 54%|█████▍    | 201426/371472 [4:58:23<11:46:12,  4.01it/s] 54%|█████▍    | 201427/371472 [4:58:23<11:56:29,  3.96it/s] 54%|█████▍    | 201428/371472 [4:58:23<13:30:53,  3.50it/s] 54%|█████▍    | 201429/371472 [4:58:24<13:25:26,  3.52it/s] 54%|█████▍    | 201430/371472 [4:58:24<13:52:31,  3.40it/s] 54%|█████▍    | 201431/371472 [4:58:24<13:56:12,  3.39it/s] 54%|█████▍    | 201432/371472 [4:58:24<13:31:26,  3.49it/s] 54%|█████▍    | 201433/371472 [4:58:25<12:56:15,  3.65it/s] 54%|█████▍    | 201434/371472 [4:58:25<12:42:56,  3.71it/s] 54%|█████▍    | 201435/371472 [4:58:25<12:36:41,  3.75it/s] 54%|█████▍    | 201436/371472 [4:58:26<12:44:39,  3.71it/s] 54%|█████▍    | 201437/371472 [4:58:26<12:40:23,  3.73it/s] 54%|█████▍    | 201438/371472 [4:58:26<12:51:16,  3.67it/s] 54%|█████▍    | 201439/371472 [4:58:26<12:45:39,  3.70it/s] 54%|█████▍    | 201440/371472 [4:58:27<13:03:13,  3.62it/s]                                                            {'loss': 2.9236, 'learning_rate': 5.121743627313667e-07, 'epoch': 8.68}
 54%|█████▍    | 201440/371472 [4:58:27<13:03:13,  3.62it/s] 54%|█████▍    | 201441/371472 [4:58:27<13:15:17,  3.56it/s] 54%|█████▍    | 201442/371472 [4:58:27<13:33:13,  3.48it/s] 54%|█████▍    | 201443/371472 [4:58:27<13:16:15,  3.56it/s] 54%|█████▍    | 201444/371472 [4:58:28<12:45:40,  3.70it/s] 54%|█████▍    | 201445/371472 [4:58:28<12:26:40,  3.80it/s] 54%|█████▍    | 201446/371472 [4:58:28<12:12:43,  3.87it/s] 54%|█████▍    | 201447/371472 [4:58:28<12:11:52,  3.87it/s] 54%|█████▍    | 201448/371472 [4:58:29<12:19:08,  3.83it/s] 54%|█████▍    | 201449/371472 [4:58:29<12:32:05,  3.77it/s] 54%|█████▍    | 201450/371472 [4:58:29<12:14:25,  3.86it/s] 54%|█████▍    | 201451/371472 [4:58:30<12:31:08,  3.77it/s] 54%|█████▍    | 201452/371472 [4:58:30<12:57:10,  3.65it/s] 54%|█████▍    | 201453/371472 [4:58:30<12:39:01,  3.73it/s] 54%|█████▍    | 201454/371472 [4:58:30<12:24:30,  3.81it/s] 54%|█████▍    | 201455/371472 [4:58:31<13:43:59,  3.44it/s] 54%|█████▍    | 201456/371472 [4:58:31<13:34:26,  3.48it/s] 54%|█████▍    | 201457/371472 [4:58:31<13:55:54,  3.39it/s] 54%|█████▍    | 201458/371472 [4:58:32<13:24:39,  3.52it/s] 54%|█████▍    | 201459/371472 [4:58:32<13:08:31,  3.59it/s] 54%|█████▍    | 201460/371472 [4:58:32<13:58:40,  3.38it/s]                                                            {'loss': 2.7681, 'learning_rate': 5.121258807558879e-07, 'epoch': 8.68}
 54%|█████▍    | 201460/371472 [4:58:32<13:58:40,  3.38it/s] 54%|█████▍    | 201461/371472 [4:58:32<14:33:18,  3.24it/s] 54%|█████▍    | 201462/371472 [4:58:33<13:48:12,  3.42it/s] 54%|█████▍    | 201463/371472 [4:58:33<13:39:46,  3.46it/s] 54%|█████▍    | 201464/371472 [4:58:33<13:17:56,  3.55it/s] 54%|█████▍    | 201465/371472 [4:58:34<12:55:40,  3.65it/s] 54%|█████▍    | 201466/371472 [4:58:34<13:08:48,  3.59it/s] 54%|█████▍    | 201467/371472 [4:58:34<13:10:30,  3.58it/s] 54%|█████▍    | 201468/371472 [4:58:34<13:12:17,  3.58it/s] 54%|█████▍    | 201469/371472 [4:58:35<14:20:24,  3.29it/s] 54%|█████▍    | 201470/371472 [4:58:35<14:09:52,  3.33it/s] 54%|█████▍    | 201471/371472 [4:58:35<13:31:03,  3.49it/s] 54%|█████▍    | 201472/371472 [4:58:36<13:15:41,  3.56it/s] 54%|█████▍    | 201473/371472 [4:58:36<13:47:00,  3.43it/s] 54%|█████▍    | 201474/371472 [4:58:36<14:14:35,  3.32it/s] 54%|█████▍    | 201475/371472 [4:58:36<13:35:44,  3.47it/s] 54%|█████▍    | 201476/371472 [4:58:37<13:46:06,  3.43it/s] 54%|█████▍    | 201477/371472 [4:58:37<14:21:51,  3.29it/s] 54%|█████▍    | 201478/371472 [4:58:37<13:51:02,  3.41it/s] 54%|█████▍    | 201479/371472 [4:58:38<14:17:51,  3.30it/s] 54%|█████▍    | 201480/371472 [4:58:38<14:12:09,  3.32it/s]                                                            {'loss': 2.9899, 'learning_rate': 5.120773987804089e-07, 'epoch': 8.68}
 54%|█████▍    | 201480/371472 [4:58:38<14:12:09,  3.32it/s] 54%|█████▍    | 201481/371472 [4:58:38<13:44:35,  3.44it/s] 54%|█████▍    | 201482/371472 [4:58:39<13:47:51,  3.42it/s] 54%|█████▍    | 201483/371472 [4:58:39<13:20:38,  3.54it/s] 54%|█████▍    | 201484/371472 [4:58:39<13:00:52,  3.63it/s] 54%|█████▍    | 201485/371472 [4:58:39<13:04:16,  3.61it/s] 54%|█████▍    | 201486/371472 [4:58:40<13:08:40,  3.59it/s] 54%|█████▍    | 201487/371472 [4:58:40<14:43:20,  3.21it/s] 54%|█████▍    | 201488/371472 [4:58:40<14:33:49,  3.24it/s] 54%|█████▍    | 201489/371472 [4:58:41<14:34:15,  3.24it/s] 54%|█████▍    | 201490/371472 [4:58:41<13:43:46,  3.44it/s] 54%|█████▍    | 201491/371472 [4:58:41<13:11:50,  3.58it/s] 54%|█████▍    | 201492/371472 [4:58:41<12:52:07,  3.67it/s] 54%|█████▍    | 201493/371472 [4:58:42<12:45:06,  3.70it/s] 54%|█████▍    | 201494/371472 [4:58:42<12:50:37,  3.68it/s] 54%|█████▍    | 201495/371472 [4:58:42<13:20:52,  3.54it/s] 54%|█████▍    | 201496/371472 [4:58:43<13:06:32,  3.60it/s] 54%|█████▍    | 201497/371472 [4:58:43<15:11:46,  3.11it/s] 54%|█████▍    | 201498/371472 [4:58:43<14:38:04,  3.23it/s] 54%|█████▍    | 201499/371472 [4:58:43<13:48:14,  3.42it/s] 54%|█████▍    | 201500/371472 [4:58:44<13:15:36,  3.56it/s]                                                            {'loss': 3.1059, 'learning_rate': 5.120289168049301e-07, 'epoch': 8.68}
 54%|█████▍    | 201500/371472 [4:58:44<13:15:36,  3.56it/s] 54%|█████▍    | 201501/371472 [4:58:44<13:03:12,  3.62it/s] 54%|█████▍    | 201502/371472 [4:58:44<12:46:52,  3.69it/s] 54%|█████▍    | 201503/371472 [4:58:44<12:21:55,  3.82it/s] 54%|█████▍    | 201504/371472 [4:58:45<12:21:35,  3.82it/s] 54%|█████▍    | 201505/371472 [4:58:45<13:11:21,  3.58it/s] 54%|█████▍    | 201506/371472 [4:58:45<13:09:41,  3.59it/s] 54%|█████▍    | 201507/371472 [4:58:46<13:08:16,  3.59it/s] 54%|█████▍    | 201508/371472 [4:58:46<13:21:16,  3.54it/s] 54%|█████▍    | 201509/371472 [4:58:46<13:04:08,  3.61it/s] 54%|█████▍    | 201510/371472 [4:58:47<13:41:13,  3.45it/s] 54%|█████▍    | 201511/371472 [4:58:47<14:39:05,  3.22it/s] 54%|█████▍    | 201512/371472 [4:58:47<14:14:30,  3.31it/s] 54%|█████▍    | 201513/371472 [4:58:47<13:45:20,  3.43it/s] 54%|█████▍    | 201514/371472 [4:58:48<13:23:53,  3.52it/s] 54%|█████▍    | 201515/371472 [4:58:48<14:46:01,  3.20it/s] 54%|█████▍    | 201516/371472 [4:58:48<14:08:48,  3.34it/s] 54%|█████▍    | 201517/371472 [4:58:49<14:05:15,  3.35it/s] 54%|█████▍    | 201518/371472 [4:58:49<13:45:12,  3.43it/s] 54%|█████▍    | 201519/371472 [4:58:49<13:59:14,  3.38it/s] 54%|█████▍    | 201520/371472 [4:58:49<13:37:02,  3.47it/s]                                                            {'loss': 2.8393, 'learning_rate': 5.119804348294512e-07, 'epoch': 8.68}
 54%|█████▍    | 201520/371472 [4:58:49<13:37:02,  3.47it/s] 54%|█████▍    | 201521/371472 [4:58:50<13:29:18,  3.50it/s] 54%|█████▍    | 201522/371472 [4:58:50<13:10:30,  3.58it/s] 54%|█████▍    | 201523/371472 [4:58:50<13:09:31,  3.59it/s] 54%|█████▍    | 201524/371472 [4:58:51<13:27:07,  3.51it/s] 54%|█████▍    | 201525/371472 [4:58:51<13:04:23,  3.61it/s] 54%|█████▍    | 201526/371472 [4:58:51<13:12:41,  3.57it/s] 54%|█████▍    | 201527/371472 [4:58:51<13:52:54,  3.40it/s] 54%|█████▍    | 201528/371472 [4:58:52<14:17:53,  3.30it/s] 54%|█████▍    | 201529/371472 [4:58:52<13:54:24,  3.39it/s] 54%|█████▍    | 201530/371472 [4:58:52<13:31:31,  3.49it/s] 54%|█████▍    | 201531/371472 [4:58:53<12:57:27,  3.64it/s] 54%|█████▍    | 201532/371472 [4:58:53<13:11:10,  3.58it/s] 54%|█████▍    | 201533/371472 [4:58:53<12:52:57,  3.66it/s] 54%|█████▍    | 201534/371472 [4:58:53<12:32:45,  3.76it/s] 54%|█████▍    | 201535/371472 [4:58:54<13:12:12,  3.58it/s] 54%|█████▍    | 201536/371472 [4:58:54<12:57:53,  3.64it/s] 54%|█████▍    | 201537/371472 [4:58:54<12:54:37,  3.66it/s] 54%|█████▍    | 201538/371472 [4:58:54<12:53:45,  3.66it/s] 54%|█████▍    | 201539/371472 [4:58:55<13:01:29,  3.62it/s] 54%|█████▍    | 201540/371472 [4:58:55<13:21:28,  3.53it/s]                                                            {'loss': 2.8851, 'learning_rate': 5.119319528539723e-07, 'epoch': 8.68}
 54%|█████▍    | 201540/371472 [4:58:55<13:21:28,  3.53it/s] 54%|█████▍    | 201541/371472 [4:58:55<13:54:02,  3.40it/s] 54%|█████▍    | 201542/371472 [4:58:56<13:29:27,  3.50it/s] 54%|█████▍    | 201543/371472 [4:58:56<13:02:29,  3.62it/s] 54%|█████▍    | 201544/371472 [4:58:56<13:09:31,  3.59it/s] 54%|█████▍    | 201545/371472 [4:58:56<13:11:18,  3.58it/s] 54%|█████▍    | 201546/371472 [4:58:57<13:23:55,  3.52it/s] 54%|█████▍    | 201547/371472 [4:58:57<12:53:49,  3.66it/s] 54%|█████▍    | 201548/371472 [4:58:57<13:00:37,  3.63it/s] 54%|█████▍    | 201549/371472 [4:58:58<12:48:52,  3.68it/s] 54%|█████▍    | 201550/371472 [4:58:58<13:27:38,  3.51it/s] 54%|█████▍    | 201551/371472 [4:58:58<13:36:09,  3.47it/s] 54%|█████▍    | 201552/371472 [4:58:58<13:31:24,  3.49it/s] 54%|█████▍    | 201553/371472 [4:58:59<13:41:59,  3.45it/s] 54%|█████▍    | 201554/371472 [4:58:59<13:23:51,  3.52it/s] 54%|█████▍    | 201555/371472 [4:58:59<13:12:58,  3.57it/s] 54%|█████▍    | 201556/371472 [4:59:00<12:52:56,  3.66it/s] 54%|█████▍    | 201557/371472 [4:59:00<13:31:33,  3.49it/s] 54%|█████▍    | 201558/371472 [4:59:00<13:52:08,  3.40it/s] 54%|█████▍    | 201559/371472 [4:59:00<13:32:40,  3.48it/s] 54%|█████▍    | 201560/371472 [4:59:01<13:17:34,  3.55it/s]                                                            {'loss': 2.9842, 'learning_rate': 5.118834708784933e-07, 'epoch': 8.68}
 54%|█████▍    | 201560/371472 [4:59:01<13:17:34,  3.55it/s] 54%|█████▍    | 201561/371472 [4:59:01<13:15:09,  3.56it/s] 54%|█████▍    | 201562/371472 [4:59:01<14:04:55,  3.35it/s] 54%|█████▍    | 201563/371472 [4:59:02<13:29:53,  3.50it/s] 54%|█████▍    | 201564/371472 [4:59:02<14:18:50,  3.30it/s] 54%|█████▍    | 201565/371472 [4:59:02<13:46:05,  3.43it/s] 54%|█████▍    | 201566/371472 [4:59:03<13:54:22,  3.39it/s] 54%|█████▍    | 201567/371472 [4:59:03<13:23:58,  3.52it/s] 54%|█████▍    | 201568/371472 [4:59:03<13:23:43,  3.52it/s] 54%|█████▍    | 201569/371472 [4:59:03<13:41:30,  3.45it/s] 54%|█████▍    | 201570/371472 [4:59:04<13:18:56,  3.54it/s] 54%|█████▍    | 201571/371472 [4:59:04<12:59:28,  3.63it/s] 54%|█████▍    | 201572/371472 [4:59:04<13:15:42,  3.56it/s] 54%|█████▍    | 201573/371472 [4:59:04<13:01:39,  3.62it/s] 54%|█████▍    | 201574/371472 [4:59:05<14:03:16,  3.36it/s] 54%|█████▍    | 201575/371472 [4:59:05<13:29:46,  3.50it/s] 54%|█████▍    | 201576/371472 [4:59:05<13:24:30,  3.52it/s] 54%|█████▍    | 201577/371472 [4:59:06<13:07:33,  3.60it/s] 54%|█████▍    | 201578/371472 [4:59:06<13:04:37,  3.61it/s] 54%|█████▍    | 201579/371472 [4:59:06<13:05:38,  3.60it/s] 54%|█████▍    | 201580/371472 [4:59:06<12:57:08,  3.64it/s]                                                            {'loss': 3.0017, 'learning_rate': 5.118349889030145e-07, 'epoch': 8.68}
 54%|█████▍    | 201580/371472 [4:59:06<12:57:08,  3.64it/s] 54%|█████▍    | 201581/371472 [4:59:07<13:40:52,  3.45it/s] 54%|█████▍    | 201582/371472 [4:59:07<12:56:07,  3.65it/s] 54%|█████▍    | 201583/371472 [4:59:07<12:44:14,  3.70it/s] 54%|█████▍    | 201584/371472 [4:59:08<12:50:48,  3.67it/s] 54%|█████▍    | 201585/371472 [4:59:08<13:17:55,  3.55it/s] 54%|█████▍    | 201586/371472 [4:59:08<13:08:51,  3.59it/s] 54%|█████▍    | 201587/371472 [4:59:08<12:55:11,  3.65it/s] 54%|█████▍    | 201588/371472 [4:59:09<13:05:51,  3.60it/s] 54%|█████▍    | 201589/371472 [4:59:09<13:18:21,  3.55it/s] 54%|█████▍    | 201590/371472 [4:59:09<13:27:47,  3.51it/s] 54%|█████▍    | 201591/371472 [4:59:10<14:04:15,  3.35it/s] 54%|█████▍    | 201592/371472 [4:59:10<13:43:40,  3.44it/s] 54%|█████▍    | 201593/371472 [4:59:10<14:07:01,  3.34it/s] 54%|█████▍    | 201594/371472 [4:59:10<14:31:28,  3.25it/s] 54%|█████▍    | 201595/371472 [4:59:11<14:59:39,  3.15it/s] 54%|█████▍    | 201596/371472 [4:59:11<14:16:12,  3.31it/s] 54%|█████▍    | 201597/371472 [4:59:11<13:52:30,  3.40it/s] 54%|█████▍    | 201598/371472 [4:59:12<14:09:45,  3.33it/s] 54%|█████▍    | 201599/371472 [4:59:12<13:27:38,  3.51it/s] 54%|█████▍    | 201600/371472 [4:59:12<13:31:12,  3.49it/s]                                                            {'loss': 3.1364, 'learning_rate': 5.117865069275356e-07, 'epoch': 8.68}
 54%|█████▍    | 201600/371472 [4:59:12<13:31:12,  3.49it/s] 54%|█████▍    | 201601/371472 [4:59:13<13:47:08,  3.42it/s] 54%|█████▍    | 201602/371472 [4:59:13<13:37:29,  3.46it/s] 54%|█████▍    | 201603/371472 [4:59:13<13:26:37,  3.51it/s] 54%|█████▍    | 201604/371472 [4:59:13<13:15:52,  3.56it/s] 54%|█████▍    | 201605/371472 [4:59:14<13:01:33,  3.62it/s] 54%|█████▍    | 201606/371472 [4:59:14<12:54:40,  3.65it/s] 54%|█████▍    | 201607/371472 [4:59:14<13:17:10,  3.55it/s] 54%|█████▍    | 201608/371472 [4:59:14<13:02:01,  3.62it/s] 54%|█████▍    | 201609/371472 [4:59:15<12:33:37,  3.76it/s] 54%|█████▍    | 201610/371472 [4:59:15<12:25:04,  3.80it/s] 54%|█████▍    | 201611/371472 [4:59:15<12:39:36,  3.73it/s] 54%|█████▍    | 201612/371472 [4:59:16<13:39:09,  3.46it/s] 54%|█████▍    | 201613/371472 [4:59:16<15:33:20,  3.03it/s] 54%|█████▍    | 201614/371472 [4:59:16<15:20:22,  3.08it/s] 54%|█████▍    | 201615/371472 [4:59:17<14:26:42,  3.27it/s] 54%|█████▍    | 201616/371472 [4:59:17<14:28:10,  3.26it/s] 54%|█████▍    | 201617/371472 [4:59:17<13:57:36,  3.38it/s] 54%|█████▍    | 201618/371472 [4:59:17<13:24:59,  3.52it/s] 54%|█████▍    | 201619/371472 [4:59:18<13:18:05,  3.55it/s] 54%|█████▍    | 201620/371472 [4:59:18<13:46:47,  3.42it/s]                                                            {'loss': 3.0236, 'learning_rate': 5.117380249520568e-07, 'epoch': 8.68}
 54%|█████▍    | 201620/371472 [4:59:18<13:46:47,  3.42it/s] 54%|█████▍    | 201621/371472 [4:59:18<13:17:29,  3.55it/s] 54%|█████▍    | 201622/371472 [4:59:19<13:07:28,  3.59it/s] 54%|█████▍    | 201623/371472 [4:59:19<14:17:00,  3.30it/s] 54%|█████▍    | 201624/371472 [4:59:19<14:51:25,  3.18it/s] 54%|█████▍    | 201625/371472 [4:59:20<15:13:41,  3.10it/s] 54%|█████▍    | 201626/371472 [4:59:20<14:37:19,  3.23it/s] 54%|█████▍    | 201627/371472 [4:59:20<14:14:32,  3.31it/s] 54%|█████▍    | 201628/371472 [4:59:20<14:10:21,  3.33it/s] 54%|█████▍    | 201629/371472 [4:59:21<13:45:48,  3.43it/s] 54%|█████▍    | 201630/371472 [4:59:21<13:55:34,  3.39it/s] 54%|█████▍    | 201631/371472 [4:59:21<14:28:56,  3.26it/s] 54%|█████▍    | 201632/371472 [4:59:22<14:20:55,  3.29it/s] 54%|█████▍    | 201633/371472 [4:59:22<14:20:41,  3.29it/s] 54%|█████▍    | 201634/371472 [4:59:22<13:31:55,  3.49it/s] 54%|█████▍    | 201635/371472 [4:59:22<13:32:05,  3.49it/s] 54%|█████▍    | 201636/371472 [4:59:23<13:20:29,  3.54it/s] 54%|█████▍    | 201637/371472 [4:59:23<13:17:15,  3.55it/s] 54%|█████▍    | 201638/371472 [4:59:23<13:14:28,  3.56it/s] 54%|█████▍    | 201639/371472 [4:59:24<14:22:40,  3.28it/s] 54%|█████▍    | 201640/371472 [4:59:24<13:42:36,  3.44it/s]                                                            {'loss': 2.8521, 'learning_rate': 5.116895429765778e-07, 'epoch': 8.69}
 54%|█████▍    | 201640/371472 [4:59:24<13:42:36,  3.44it/s] 54%|█████▍    | 201641/371472 [4:59:24<13:22:06,  3.53it/s] 54%|█████▍    | 201642/371472 [4:59:25<14:04:22,  3.35it/s] 54%|█████▍    | 201643/371472 [4:59:25<14:00:10,  3.37it/s] 54%|█████▍    | 201644/371472 [4:59:25<13:30:52,  3.49it/s] 54%|█████▍    | 201645/371472 [4:59:25<13:19:05,  3.54it/s] 54%|█████▍    | 201646/371472 [4:59:26<13:11:20,  3.58it/s] 54%|█████▍    | 201647/371472 [4:59:26<13:12:01,  3.57it/s] 54%|█████▍    | 201648/371472 [4:59:26<13:31:03,  3.49it/s] 54%|█████▍    | 201649/371472 [4:59:26<13:25:36,  3.51it/s] 54%|█████▍    | 201650/371472 [4:59:27<13:37:12,  3.46it/s] 54%|█████▍    | 201651/371472 [4:59:27<14:22:03,  3.28it/s] 54%|█████▍    | 201652/371472 [4:59:27<14:06:25,  3.34it/s] 54%|█████▍    | 201653/371472 [4:59:28<13:40:26,  3.45it/s] 54%|█████▍    | 201654/371472 [4:59:28<14:08:01,  3.34it/s] 54%|█████▍    | 201655/371472 [4:59:28<14:04:00,  3.35it/s] 54%|█████▍    | 201656/371472 [4:59:29<13:39:23,  3.45it/s] 54%|█████▍    | 201657/371472 [4:59:29<13:16:43,  3.55it/s] 54%|█████▍    | 201658/371472 [4:59:29<13:15:38,  3.56it/s] 54%|█████▍    | 201659/371472 [4:59:29<13:02:44,  3.62it/s] 54%|█████▍    | 201660/371472 [4:59:30<12:57:39,  3.64it/s]                                                            {'loss': 2.9098, 'learning_rate': 5.116410610010989e-07, 'epoch': 8.69}
 54%|█████▍    | 201660/371472 [4:59:30<12:57:39,  3.64it/s] 54%|█████▍    | 201661/371472 [4:59:30<12:55:38,  3.65it/s] 54%|█████▍    | 201662/371472 [4:59:30<12:47:25,  3.69it/s] 54%|█████▍    | 201663/371472 [4:59:30<12:57:27,  3.64it/s] 54%|█████▍    | 201664/371472 [4:59:31<12:49:23,  3.68it/s] 54%|█████▍    | 201665/371472 [4:59:31<12:35:25,  3.75it/s] 54%|█████▍    | 201666/371472 [4:59:31<12:23:37,  3.81it/s] 54%|█████▍    | 201667/371472 [4:59:32<12:53:31,  3.66it/s] 54%|█████▍    | 201668/371472 [4:59:32<12:31:56,  3.76it/s] 54%|█████▍    | 201669/371472 [4:59:32<12:58:46,  3.63it/s] 54%|█████▍    | 201670/371472 [4:59:32<13:31:58,  3.49it/s] 54%|█████▍    | 201671/371472 [4:59:33<13:19:25,  3.54it/s] 54%|█████▍    | 201672/371472 [4:59:33<13:28:44,  3.50it/s] 54%|█████▍    | 201673/371472 [4:59:33<12:58:52,  3.63it/s] 54%|█████▍    | 201674/371472 [4:59:33<13:12:57,  3.57it/s] 54%|█████▍    | 201675/371472 [4:59:34<13:01:23,  3.62it/s] 54%|█████▍    | 201676/371472 [4:59:34<12:44:40,  3.70it/s] 54%|█████▍    | 201677/371472 [4:59:34<12:38:37,  3.73it/s] 54%|█████▍    | 201678/371472 [4:59:35<12:37:37,  3.74it/s] 54%|█████▍    | 201679/371472 [4:59:35<12:18:25,  3.83it/s] 54%|█████▍    | 201680/371472 [4:59:35<12:03:06,  3.91it/s]                                                            {'loss': 2.851, 'learning_rate': 5.1159257902562e-07, 'epoch': 8.69}
 54%|█████▍    | 201680/371472 [4:59:35<12:03:06,  3.91it/s] 54%|█████▍    | 201681/371472 [4:59:35<12:13:19,  3.86it/s] 54%|█████▍    | 201682/371472 [4:59:36<12:41:47,  3.71it/s] 54%|█████▍    | 201683/371472 [4:59:36<13:49:27,  3.41it/s] 54%|█████▍    | 201684/371472 [4:59:36<13:25:05,  3.51it/s] 54%|█████▍    | 201685/371472 [4:59:37<13:46:47,  3.42it/s] 54%|█████▍    | 201686/371472 [4:59:37<13:39:19,  3.45it/s] 54%|█████▍    | 201687/371472 [4:59:37<13:50:08,  3.41it/s] 54%|█████▍    | 201688/371472 [4:59:37<13:36:59,  3.46it/s] 54%|█████▍    | 201689/371472 [4:59:38<13:07:31,  3.59it/s] 54%|█████▍    | 201690/371472 [4:59:38<12:36:28,  3.74it/s] 54%|█████▍    | 201691/371472 [4:59:38<12:30:57,  3.77it/s] 54%|█████▍    | 201692/371472 [4:59:38<12:47:25,  3.69it/s] 54%|█████▍    | 201693/371472 [4:59:39<12:41:29,  3.72it/s] 54%|█████▍    | 201694/371472 [4:59:39<12:25:08,  3.80it/s] 54%|█████▍    | 201695/371472 [4:59:39<13:12:12,  3.57it/s] 54%|█████▍    | 201696/371472 [4:59:40<12:51:11,  3.67it/s] 54%|█████▍    | 201697/371472 [4:59:40<13:00:44,  3.62it/s] 54%|█████▍    | 201698/371472 [4:59:40<12:51:54,  3.67it/s] 54%|█████▍    | 201699/371472 [4:59:40<12:43:05,  3.71it/s] 54%|█████▍    | 201700/371472 [4:59:41<12:18:31,  3.83it/s]                                                            {'loss': 3.0902, 'learning_rate': 5.11544097050141e-07, 'epoch': 8.69}
 54%|█████▍    | 201700/371472 [4:59:41<12:18:31,  3.83it/s] 54%|█████▍    | 201701/371472 [4:59:41<12:18:31,  3.83it/s] 54%|█████▍    | 201702/371472 [4:59:41<12:36:47,  3.74it/s] 54%|█████▍    | 201703/371472 [4:59:41<13:27:46,  3.50it/s] 54%|█████▍    | 201704/371472 [4:59:42<12:53:19,  3.66it/s] 54%|█████▍    | 201705/371472 [4:59:42<13:02:55,  3.61it/s] 54%|█████▍    | 201706/371472 [4:59:42<13:06:54,  3.60it/s] 54%|█████▍    | 201707/371472 [4:59:43<13:05:05,  3.60it/s] 54%|█████▍    | 201708/371472 [4:59:43<13:06:56,  3.60it/s] 54%|█████▍    | 201709/371472 [4:59:43<15:53:23,  2.97it/s] 54%|█████▍    | 201710/371472 [4:59:44<15:25:28,  3.06it/s] 54%|█████▍    | 201711/371472 [4:59:44<15:38:31,  3.01it/s] 54%|█████▍    | 201712/371472 [4:59:44<15:26:15,  3.05it/s] 54%|█████▍    | 201713/371472 [4:59:45<14:46:57,  3.19it/s] 54%|█████▍    | 201714/371472 [4:59:45<14:44:06,  3.20it/s] 54%|█████▍    | 201715/371472 [4:59:45<13:50:46,  3.41it/s] 54%|█████▍    | 201716/371472 [4:59:45<13:04:12,  3.61it/s] 54%|█████▍    | 201717/371472 [4:59:46<13:15:55,  3.55it/s] 54%|█████▍    | 201718/371472 [4:59:46<12:42:24,  3.71it/s] 54%|█████▍    | 201719/371472 [4:59:46<12:46:05,  3.69it/s] 54%|█████▍    | 201720/371472 [4:59:46<12:29:37,  3.77it/s]                                                            {'loss': 2.863, 'learning_rate': 5.114956150746622e-07, 'epoch': 8.69}
 54%|█████▍    | 201720/371472 [4:59:46<12:29:37,  3.77it/s] 54%|█████▍    | 201721/371472 [4:59:47<13:59:26,  3.37it/s] 54%|█████▍    | 201722/371472 [4:59:47<13:46:51,  3.42it/s] 54%|█████▍    | 201723/371472 [4:59:47<13:57:10,  3.38it/s] 54%|█████▍    | 201724/371472 [4:59:48<13:30:50,  3.49it/s] 54%|█████▍    | 201725/371472 [4:59:48<13:12:03,  3.57it/s] 54%|█████▍    | 201726/371472 [4:59:48<13:26:13,  3.51it/s] 54%|█████▍    | 201727/371472 [4:59:48<13:56:35,  3.38it/s] 54%|█████▍    | 201728/371472 [4:59:49<13:25:25,  3.51it/s] 54%|█████▍    | 201729/371472 [4:59:49<13:35:49,  3.47it/s] 54%|█████▍    | 201730/371472 [4:59:49<13:44:35,  3.43it/s] 54%|█████▍    | 201731/371472 [4:59:50<13:42:11,  3.44it/s] 54%|█████▍    | 201732/371472 [4:59:50<14:01:53,  3.36it/s] 54%|█████▍    | 201733/371472 [4:59:50<14:31:02,  3.25it/s] 54%|█████▍    | 201734/371472 [4:59:51<13:45:46,  3.43it/s] 54%|█████▍    | 201735/371472 [4:59:51<13:28:30,  3.50it/s] 54%|█████▍    | 201736/371472 [4:59:51<12:59:19,  3.63it/s] 54%|█████▍    | 201737/371472 [4:59:51<12:49:47,  3.67it/s] 54%|█████▍    | 201738/371472 [4:59:52<13:39:44,  3.45it/s] 54%|█████▍    | 201739/371472 [4:59:52<13:25:50,  3.51it/s] 54%|█████▍    | 201740/371472 [4:59:52<14:44:18,  3.20it/s]                                                            {'loss': 2.9767, 'learning_rate': 5.114471330991833e-07, 'epoch': 8.69}
 54%|█████▍    | 201740/371472 [4:59:52<14:44:18,  3.20it/s] 54%|█████▍    | 201741/371472 [4:59:53<13:57:06,  3.38it/s] 54%|█████▍    | 201742/371472 [4:59:53<13:22:31,  3.52it/s] 54%|█████▍    | 201743/371472 [4:59:53<13:04:22,  3.61it/s] 54%|█████▍    | 201744/371472 [4:59:53<13:37:07,  3.46it/s] 54%|█████▍    | 201745/371472 [4:59:54<14:19:06,  3.29it/s] 54%|█████▍    | 201746/371472 [4:59:54<13:39:45,  3.45it/s] 54%|█████▍    | 201747/371472 [4:59:54<13:23:46,  3.52it/s] 54%|█████▍    | 201748/371472 [4:59:54<12:46:56,  3.69it/s] 54%|█████▍    | 201749/371472 [4:59:55<12:58:01,  3.64it/s] 54%|█████▍    | 201750/371472 [4:59:55<13:21:54,  3.53it/s] 54%|█████▍    | 201751/371472 [4:59:55<13:01:41,  3.62it/s] 54%|█████▍    | 201752/371472 [4:59:56<13:18:23,  3.54it/s] 54%|█████▍    | 201753/371472 [4:59:56<13:55:22,  3.39it/s] 54%|█████▍    | 201754/371472 [4:59:56<14:17:52,  3.30it/s] 54%|█████▍    | 201755/371472 [4:59:57<13:33:08,  3.48it/s] 54%|█████▍    | 201756/371472 [4:59:57<13:54:35,  3.39it/s] 54%|█████▍    | 201757/371472 [4:59:57<13:34:58,  3.47it/s] 54%|█████▍    | 201758/371472 [4:59:57<13:46:33,  3.42it/s] 54%|█████▍    | 201759/371472 [4:59:58<13:31:39,  3.48it/s] 54%|█████▍    | 201760/371472 [4:59:58<14:06:06,  3.34it/s]                                                            {'loss': 3.0723, 'learning_rate': 5.113986511237045e-07, 'epoch': 8.69}
 54%|█████▍    | 201760/371472 [4:59:58<14:06:06,  3.34it/s] 54%|█████▍    | 201761/371472 [4:59:58<14:54:21,  3.16it/s] 54%|█████▍    | 201762/371472 [4:59:59<14:52:45,  3.17it/s] 54%|█████▍    | 201763/371472 [4:59:59<14:38:29,  3.22it/s] 54%|█████▍    | 201764/371472 [4:59:59<14:20:33,  3.29it/s] 54%|█████▍    | 201765/371472 [5:00:00<14:28:40,  3.26it/s] 54%|█████▍    | 201766/371472 [5:00:00<15:35:18,  3.02it/s] 54%|█████▍    | 201767/371472 [5:00:00<14:29:00,  3.25it/s] 54%|█████▍    | 201768/371472 [5:00:01<13:53:37,  3.39it/s] 54%|█████▍    | 201769/371472 [5:00:01<13:46:00,  3.42it/s] 54%|█████▍    | 201770/371472 [5:00:01<13:10:59,  3.58it/s] 54%|█████▍    | 201771/371472 [5:00:01<13:48:38,  3.41it/s] 54%|█████▍    | 201772/371472 [5:00:02<13:45:43,  3.43it/s] 54%|█████▍    | 201773/371472 [5:00:02<13:16:10,  3.55it/s] 54%|█████▍    | 201774/371472 [5:00:02<13:20:31,  3.53it/s] 54%|█████▍    | 201775/371472 [5:00:02<13:35:51,  3.47it/s] 54%|█████▍    | 201776/371472 [5:00:03<13:45:18,  3.43it/s] 54%|█████▍    | 201777/371472 [5:00:03<13:48:20,  3.41it/s] 54%|█████▍    | 201778/371472 [5:00:03<13:10:01,  3.58it/s] 54%|█████▍    | 201779/371472 [5:00:04<12:48:31,  3.68it/s] 54%|█████▍    | 201780/371472 [5:00:04<12:31:44,  3.76it/s]                                                            {'loss': 3.0515, 'learning_rate': 5.113501691482254e-07, 'epoch': 8.69}
 54%|█████▍    | 201780/371472 [5:00:04<12:31:44,  3.76it/s] 54%|█████▍    | 201781/371472 [5:00:04<12:55:34,  3.65it/s] 54%|█████▍    | 201782/371472 [5:00:04<12:59:14,  3.63it/s] 54%|█████▍    | 201783/371472 [5:00:05<13:12:21,  3.57it/s] 54%|█████▍    | 201784/371472 [5:00:05<13:19:23,  3.54it/s] 54%|█████▍    | 201785/371472 [5:00:05<13:02:21,  3.61it/s] 54%|█████▍    | 201786/371472 [5:00:06<12:59:25,  3.63it/s] 54%|█████▍    | 201787/371472 [5:00:06<12:38:42,  3.73it/s] 54%|█████▍    | 201788/371472 [5:00:06<13:22:26,  3.52it/s] 54%|█████▍    | 201789/371472 [5:00:06<12:55:32,  3.65it/s] 54%|█████▍    | 201790/371472 [5:00:07<12:27:49,  3.78it/s] 54%|█████▍    | 201791/371472 [5:00:07<12:29:50,  3.77it/s] 54%|█████▍    | 201792/371472 [5:00:07<12:39:39,  3.72it/s] 54%|█████▍    | 201793/371472 [5:00:07<13:01:03,  3.62it/s] 54%|█████▍    | 201794/371472 [5:00:08<13:27:28,  3.50it/s] 54%|█████▍    | 201795/371472 [5:00:08<13:03:49,  3.61it/s] 54%|█████▍    | 201796/371472 [5:00:08<12:52:43,  3.66it/s] 54%|█████▍    | 201797/371472 [5:00:09<12:49:29,  3.68it/s] 54%|█████▍    | 201798/371472 [5:00:09<14:06:41,  3.34it/s] 54%|█████▍    | 201799/371472 [5:00:09<15:03:39,  3.13it/s] 54%|█████▍    | 201800/371472 [5:00:10<14:05:20,  3.35it/s]                                                            {'loss': 2.9706, 'learning_rate': 5.113016871727466e-07, 'epoch': 8.69}
 54%|█████▍    | 201800/371472 [5:00:10<14:05:20,  3.35it/s] 54%|█████▍    | 201801/371472 [5:00:10<14:07:09,  3.34it/s] 54%|█████▍    | 201802/371472 [5:00:10<14:05:44,  3.34it/s] 54%|█████▍    | 201803/371472 [5:00:10<13:43:44,  3.43it/s] 54%|█████▍    | 201804/371472 [5:00:11<13:20:07,  3.53it/s] 54%|█████▍    | 201805/371472 [5:00:11<13:18:25,  3.54it/s] 54%|█████▍    | 201806/371472 [5:00:11<13:13:59,  3.56it/s] 54%|█████▍    | 201807/371472 [5:00:11<13:07:26,  3.59it/s] 54%|█████▍    | 201808/371472 [5:00:12<13:06:11,  3.60it/s] 54%|█████▍    | 201809/371472 [5:00:12<14:07:52,  3.34it/s] 54%|█████▍    | 201810/371472 [5:00:12<14:43:42,  3.20it/s] 54%|█████▍    | 201811/371472 [5:00:13<14:10:41,  3.32it/s] 54%|█████▍    | 201812/371472 [5:00:13<14:08:34,  3.33it/s] 54%|█████▍    | 201813/371472 [5:00:13<13:46:11,  3.42it/s] 54%|█████▍    | 201814/371472 [5:00:14<14:08:32,  3.33it/s] 54%|█████▍    | 201815/371472 [5:00:14<13:46:42,  3.42it/s] 54%|█████▍    | 201816/371472 [5:00:14<13:15:36,  3.55it/s] 54%|█████▍    | 201817/371472 [5:00:14<12:57:42,  3.64it/s] 54%|█████▍    | 201818/371472 [5:00:15<12:47:12,  3.69it/s] 54%|█████▍    | 201819/371472 [5:00:15<12:34:15,  3.75it/s] 54%|█████▍    | 201820/371472 [5:00:15<13:12:43,  3.57it/s]                                                            {'loss': 2.9879, 'learning_rate': 5.112532051972677e-07, 'epoch': 8.69}
 54%|█████▍    | 201820/371472 [5:00:15<13:12:43,  3.57it/s] 54%|█████▍    | 201821/371472 [5:00:16<13:11:06,  3.57it/s] 54%|█████▍    | 201822/371472 [5:00:16<13:01:54,  3.62it/s] 54%|█████▍    | 201823/371472 [5:00:16<13:27:04,  3.50it/s] 54%|█████▍    | 201824/371472 [5:00:16<13:22:09,  3.52it/s] 54%|█████▍    | 201825/371472 [5:00:17<13:38:06,  3.46it/s] 54%|█████▍    | 201826/371472 [5:00:17<13:18:46,  3.54it/s] 54%|█████▍    | 201827/371472 [5:00:17<12:49:16,  3.68it/s] 54%|█████▍    | 201828/371472 [5:00:17<13:15:47,  3.55it/s] 54%|█████▍    | 201829/371472 [5:00:18<13:24:55,  3.51it/s] 54%|█████▍    | 201830/371472 [5:00:18<13:08:21,  3.59it/s] 54%|█████▍    | 201831/371472 [5:00:18<13:13:58,  3.56it/s] 54%|█████▍    | 201832/371472 [5:00:19<13:09:27,  3.58it/s] 54%|█████▍    | 201833/371472 [5:00:19<13:14:41,  3.56it/s] 54%|█████▍    | 201834/371472 [5:00:19<13:15:57,  3.55it/s] 54%|█████▍    | 201835/371472 [5:00:19<13:13:43,  3.56it/s] 54%|█████▍    | 201836/371472 [5:00:20<13:04:45,  3.60it/s] 54%|█████▍    | 201837/371472 [5:00:20<13:15:46,  3.55it/s] 54%|█████▍    | 201838/371472 [5:00:20<13:35:35,  3.47it/s] 54%|█████▍    | 201839/371472 [5:00:21<13:18:10,  3.54it/s] 54%|█████▍    | 201840/371472 [5:00:21<13:02:45,  3.61it/s]                                                            {'loss': 2.8797, 'learning_rate': 5.112047232217889e-07, 'epoch': 8.69}
 54%|█████▍    | 201840/371472 [5:00:21<13:02:45,  3.61it/s] 54%|█████▍    | 201841/371472 [5:00:21<13:10:05,  3.58it/s] 54%|█████▍    | 201842/371472 [5:00:21<13:05:42,  3.60it/s] 54%|█████▍    | 201843/371472 [5:00:22<12:46:04,  3.69it/s] 54%|█████▍    | 201844/371472 [5:00:22<12:56:51,  3.64it/s] 54%|█████▍    | 201845/371472 [5:00:22<12:39:42,  3.72it/s] 54%|█████▍    | 201846/371472 [5:00:23<13:05:39,  3.60it/s] 54%|█████▍    | 201847/371472 [5:00:23<12:38:46,  3.73it/s] 54%|█████▍    | 201848/371472 [5:00:23<13:15:57,  3.55it/s] 54%|█████▍    | 201849/371472 [5:00:23<13:38:22,  3.45it/s] 54%|█████▍    | 201850/371472 [5:00:24<14:07:47,  3.33it/s] 54%|█████▍    | 201851/371472 [5:00:24<14:12:00,  3.32it/s] 54%|█████▍    | 201852/371472 [5:00:24<13:59:28,  3.37it/s] 54%|█████▍    | 201853/371472 [5:00:25<13:40:39,  3.44it/s] 54%|█████▍    | 201854/371472 [5:00:25<14:26:11,  3.26it/s] 54%|█████▍    | 201855/371472 [5:00:25<14:03:24,  3.35it/s] 54%|█████▍    | 201856/371472 [5:00:25<14:14:30,  3.31it/s] 54%|█████▍    | 201857/371472 [5:00:26<14:47:11,  3.19it/s] 54%|█████▍    | 201858/371472 [5:00:26<14:46:13,  3.19it/s] 54%|█████▍    | 201859/371472 [5:00:26<14:43:49,  3.20it/s] 54%|█████▍    | 201860/371472 [5:00:27<14:02:28,  3.36it/s]                                                            {'loss': 3.1139, 'learning_rate': 5.111562412463099e-07, 'epoch': 8.69}
 54%|█████▍    | 201860/371472 [5:00:27<14:02:28,  3.36it/s] 54%|█████▍    | 201861/371472 [5:00:27<13:20:41,  3.53it/s] 54%|█████▍    | 201862/371472 [5:00:27<13:17:17,  3.55it/s] 54%|█████▍    | 201863/371472 [5:00:28<12:50:03,  3.67it/s] 54%|█████▍    | 201864/371472 [5:00:28<12:42:44,  3.71it/s] 54%|█████▍    | 201865/371472 [5:00:28<12:27:26,  3.78it/s] 54%|█████▍    | 201866/371472 [5:00:28<12:56:24,  3.64it/s] 54%|█████▍    | 201867/371472 [5:00:29<13:00:03,  3.62it/s] 54%|█████▍    | 201868/371472 [5:00:29<13:21:45,  3.53it/s] 54%|█████▍    | 201869/371472 [5:00:29<13:18:03,  3.54it/s] 54%|█████▍    | 201870/371472 [5:00:29<13:02:44,  3.61it/s] 54%|█████▍    | 201871/371472 [5:00:30<12:29:23,  3.77it/s] 54%|█████▍    | 201872/371472 [5:00:30<12:43:56,  3.70it/s] 54%|█████▍    | 201873/371472 [5:00:30<12:49:23,  3.67it/s] 54%|█████▍    | 201874/371472 [5:00:30<12:21:50,  3.81it/s] 54%|█████▍    | 201875/371472 [5:00:31<12:40:59,  3.71it/s] 54%|█████▍    | 201876/371472 [5:00:31<13:05:06,  3.60it/s] 54%|█████▍    | 201877/371472 [5:00:31<13:05:10,  3.60it/s] 54%|█████▍    | 201878/371472 [5:00:32<13:10:21,  3.58it/s] 54%|█████▍    | 201879/371472 [5:00:32<13:45:58,  3.42it/s] 54%|█████▍    | 201880/371472 [5:00:32<14:16:57,  3.30it/s]                                                            {'loss': 2.8812, 'learning_rate': 5.111077592708312e-07, 'epoch': 8.7}
 54%|█████▍    | 201880/371472 [5:00:32<14:16:57,  3.30it/s] 54%|█████▍    | 201881/371472 [5:00:33<13:48:03,  3.41it/s] 54%|█████▍    | 201882/371472 [5:00:33<15:01:36,  3.13it/s] 54%|█████▍    | 201883/371472 [5:00:33<14:43:47,  3.20it/s] 54%|█████▍    | 201884/371472 [5:00:34<14:18:20,  3.29it/s] 54%|█████▍    | 201885/371472 [5:00:34<13:38:09,  3.45it/s] 54%|█████▍    | 201886/371472 [5:00:34<13:40:56,  3.44it/s] 54%|█████▍    | 201887/371472 [5:00:34<13:28:11,  3.50it/s] 54%|█████▍    | 201888/371472 [5:00:35<13:31:00,  3.49it/s] 54%|█████▍    | 201889/371472 [5:00:35<13:46:49,  3.42it/s] 54%|█████▍    | 201890/371472 [5:00:35<13:46:02,  3.42it/s] 54%|█████▍    | 201891/371472 [5:00:35<13:28:45,  3.49it/s] 54%|█████▍    | 201892/371472 [5:00:36<13:24:54,  3.51it/s] 54%|█████▍    | 201893/371472 [5:00:36<13:41:05,  3.44it/s] 54%|█████▍    | 201894/371472 [5:00:36<13:17:20,  3.54it/s] 54%|█████▍    | 201895/371472 [5:00:37<12:49:08,  3.67it/s] 54%|█████▍    | 201896/371472 [5:00:37<13:05:37,  3.60it/s] 54%|█████▍    | 201897/371472 [5:00:37<12:39:47,  3.72it/s] 54%|█████▍    | 201898/371472 [5:00:37<12:34:09,  3.75it/s] 54%|█████▍    | 201899/371472 [5:00:38<13:21:38,  3.53it/s] 54%|█████▍    | 201900/371472 [5:00:38<13:12:33,  3.57it/s]                                                            {'loss': 2.8161, 'learning_rate': 5.110592772953522e-07, 'epoch': 8.7}
 54%|█████▍    | 201900/371472 [5:00:38<13:12:33,  3.57it/s] 54%|█████▍    | 201901/371472 [5:00:38<14:19:24,  3.29it/s] 54%|█████▍    | 201902/371472 [5:00:39<14:25:45,  3.26it/s] 54%|█████▍    | 201903/371472 [5:00:39<14:17:11,  3.30it/s] 54%|█████▍    | 201904/371472 [5:00:39<13:48:52,  3.41it/s] 54%|█████▍    | 201905/371472 [5:00:39<13:24:32,  3.51it/s] 54%|█████▍    | 201906/371472 [5:00:40<12:54:49,  3.65it/s] 54%|█████▍    | 201907/371472 [5:00:40<13:38:11,  3.45it/s] 54%|█████▍    | 201908/371472 [5:00:40<14:04:23,  3.35it/s] 54%|█████▍    | 201909/371472 [5:00:41<13:29:01,  3.49it/s] 54%|█████▍    | 201910/371472 [5:00:41<14:18:01,  3.29it/s] 54%|█████▍    | 201911/371472 [5:00:41<14:03:13,  3.35it/s] 54%|█████▍    | 201912/371472 [5:00:42<13:15:32,  3.55it/s] 54%|█████▍    | 201913/371472 [5:00:42<13:27:30,  3.50it/s] 54%|█████▍    | 201914/371472 [5:00:42<13:42:58,  3.43it/s] 54%|█████▍    | 201915/371472 [5:00:42<13:32:27,  3.48it/s] 54%|█████▍    | 201916/371472 [5:00:43<14:58:50,  3.14it/s] 54%|█████▍    | 201917/371472 [5:00:43<14:19:19,  3.29it/s] 54%|█████▍    | 201918/371472 [5:00:43<13:27:08,  3.50it/s] 54%|█████▍    | 201919/371472 [5:00:44<12:58:39,  3.63it/s] 54%|█████▍    | 201920/371472 [5:00:44<13:37:01,  3.46it/s]                                                            {'loss': 2.888, 'learning_rate': 5.110107953198733e-07, 'epoch': 8.7}
 54%|█████▍    | 201920/371472 [5:00:44<13:37:01,  3.46it/s] 54%|█████▍    | 201921/371472 [5:00:44<13:13:33,  3.56it/s] 54%|█████▍    | 201922/371472 [5:00:44<14:00:41,  3.36it/s] 54%|█████▍    | 201923/371472 [5:00:45<14:27:09,  3.26it/s] 54%|█████▍    | 201924/371472 [5:00:45<15:36:18,  3.02it/s] 54%|█████▍    | 201925/371472 [5:00:45<15:17:03,  3.08it/s] 54%|█████▍    | 201926/371472 [5:00:46<15:15:36,  3.09it/s] 54%|█████▍    | 201927/371472 [5:00:46<14:14:37,  3.31it/s] 54%|█████▍    | 201928/371472 [5:00:46<14:35:25,  3.23it/s] 54%|█████▍    | 201929/371472 [5:00:47<14:03:20,  3.35it/s] 54%|█████▍    | 201930/371472 [5:00:47<13:59:08,  3.37it/s] 54%|█████▍    | 201931/371472 [5:00:47<13:39:07,  3.45it/s] 54%|█████▍    | 201932/371472 [5:00:48<13:36:31,  3.46it/s] 54%|█████▍    | 201933/371472 [5:00:48<13:31:15,  3.48it/s] 54%|█████▍    | 201934/371472 [5:00:48<13:35:52,  3.46it/s] 54%|█████▍    | 201935/371472 [5:00:48<13:03:22,  3.61it/s] 54%|█████▍    | 201936/371472 [5:00:49<13:18:46,  3.54it/s] 54%|█████▍    | 201937/371472 [5:00:49<13:17:07,  3.54it/s] 54%|█████▍    | 201938/371472 [5:00:49<13:07:43,  3.59it/s] 54%|█████▍    | 201939/371472 [5:00:49<13:38:08,  3.45it/s] 54%|█████▍    | 201940/371472 [5:00:50<13:09:19,  3.58it/s]                                                            {'loss': 2.8913, 'learning_rate': 5.109623133443943e-07, 'epoch': 8.7}
 54%|█████▍    | 201940/371472 [5:00:50<13:09:19,  3.58it/s] 54%|█████▍    | 201941/371472 [5:00:50<12:49:55,  3.67it/s] 54%|█████▍    | 201942/371472 [5:00:50<13:28:37,  3.49it/s] 54%|█████▍    | 201943/371472 [5:00:51<12:54:18,  3.65it/s] 54%|█████▍    | 201944/371472 [5:00:51<12:40:07,  3.72it/s] 54%|█████▍    | 201945/371472 [5:00:51<12:19:50,  3.82it/s] 54%|█████▍    | 201946/371472 [5:00:51<12:41:30,  3.71it/s] 54%|█████▍    | 201947/371472 [5:00:52<12:47:29,  3.68it/s] 54%|█████▍    | 201948/371472 [5:00:52<12:51:05,  3.66it/s] 54%|█████▍    | 201949/371472 [5:00:52<13:20:06,  3.53it/s] 54%|█████▍    | 201950/371472 [5:00:53<14:15:42,  3.30it/s] 54%|█████▍    | 201951/371472 [5:00:53<13:34:17,  3.47it/s] 54%|█████▍    | 201952/371472 [5:00:53<13:55:45,  3.38it/s] 54%|█████▍    | 201953/371472 [5:00:53<13:41:27,  3.44it/s] 54%|█████▍    | 201954/371472 [5:00:54<13:20:21,  3.53it/s] 54%|█████▍    | 201955/371472 [5:00:54<13:20:50,  3.53it/s] 54%|█████▍    | 201956/371472 [5:00:54<12:58:43,  3.63it/s] 54%|█████▍    | 201957/371472 [5:00:54<12:39:00,  3.72it/s] 54%|█████▍    | 201958/371472 [5:00:55<13:11:46,  3.57it/s] 54%|█████▍    | 201959/371472 [5:00:55<13:13:54,  3.56it/s] 54%|█████▍    | 201960/371472 [5:00:55<12:43:35,  3.70it/s]                                                            {'loss': 2.9057, 'learning_rate': 5.109138313689155e-07, 'epoch': 8.7}
 54%|█████▍    | 201960/371472 [5:00:55<12:43:35,  3.70it/s] 54%|█████▍    | 201961/371472 [5:00:56<12:29:17,  3.77it/s] 54%|█████▍    | 201962/371472 [5:00:56<12:35:52,  3.74it/s] 54%|█████▍    | 201963/371472 [5:00:56<13:16:36,  3.55it/s] 54%|█████▍    | 201964/371472 [5:00:56<13:23:37,  3.52it/s] 54%|█████▍    | 201965/371472 [5:00:57<13:25:08,  3.51it/s] 54%|█████▍    | 201966/371472 [5:00:57<12:48:29,  3.68it/s] 54%|█████▍    | 201967/371472 [5:00:57<14:01:32,  3.36it/s] 54%|█████▍    | 201968/371472 [5:00:58<13:21:17,  3.53it/s] 54%|█████▍    | 201969/371472 [5:00:58<13:07:48,  3.59it/s] 54%|█████▍    | 201970/371472 [5:00:58<13:30:09,  3.49it/s] 54%|█████▍    | 201971/371472 [5:00:58<13:47:14,  3.41it/s] 54%|█████▍    | 201972/371472 [5:00:59<13:15:25,  3.55it/s] 54%|█████▍    | 201973/371472 [5:00:59<13:43:43,  3.43it/s] 54%|█████▍    | 201974/371472 [5:00:59<14:05:19,  3.34it/s] 54%|█████▍    | 201975/371472 [5:01:00<13:55:56,  3.38it/s] 54%|█████▍    | 201976/371472 [5:01:00<13:39:01,  3.45it/s] 54%|█████▍    | 201977/371472 [5:01:00<14:04:27,  3.35it/s] 54%|█████▍    | 201978/371472 [5:01:01<13:48:03,  3.41it/s] 54%|█████▍    | 201979/371472 [5:01:01<13:09:31,  3.58it/s] 54%|█████▍    | 201980/371472 [5:01:01<13:41:59,  3.44it/s]                                                            {'loss': 2.8174, 'learning_rate': 5.108653493934366e-07, 'epoch': 8.7}
 54%|█████▍    | 201980/371472 [5:01:01<13:41:59,  3.44it/s] 54%|█████▍    | 201981/371472 [5:01:01<14:12:45,  3.31it/s] 54%|█████▍    | 201982/371472 [5:01:02<13:48:16,  3.41it/s] 54%|█████▍    | 201983/371472 [5:01:02<15:18:24,  3.08it/s] 54%|█████▍    | 201984/371472 [5:01:02<14:26:30,  3.26it/s] 54%|█████▍    | 201985/371472 [5:01:03<14:26:03,  3.26it/s] 54%|█████▍    | 201986/371472 [5:01:03<14:55:40,  3.15it/s] 54%|█████▍    | 201987/371472 [5:01:03<15:25:43,  3.05it/s] 54%|█████▍    | 201988/371472 [5:01:04<14:24:32,  3.27it/s] 54%|█████▍    | 201989/371472 [5:01:04<13:56:35,  3.38it/s] 54%|█████▍    | 201990/371472 [5:01:04<13:39:20,  3.45it/s] 54%|█████▍    | 201991/371472 [5:01:04<13:23:11,  3.52it/s] 54%|█████▍    | 201992/371472 [5:01:05<13:08:48,  3.58it/s] 54%|█████▍    | 201993/371472 [5:01:05<12:49:08,  3.67it/s] 54%|█████▍    | 201994/371472 [5:01:05<12:37:50,  3.73it/s] 54%|█████▍    | 201995/371472 [5:01:05<12:38:37,  3.72it/s] 54%|█████▍    | 201996/371472 [5:01:06<12:50:29,  3.67it/s] 54%|█████▍    | 201997/371472 [5:01:06<12:39:39,  3.72it/s] 54%|█████▍    | 201998/371472 [5:01:06<13:17:11,  3.54it/s] 54%|█████▍    | 201999/371472 [5:01:07<13:08:02,  3.58it/s] 54%|█████▍    | 202000/371472 [5:01:07<13:58:19,  3.37it/s]                                                            {'loss': 2.9461, 'learning_rate': 5.108168674179577e-07, 'epoch': 8.7}
 54%|█████▍    | 202000/371472 [5:01:07<13:58:19,  3.37it/s] 54%|█████▍    | 202001/371472 [5:01:07<13:42:17,  3.43it/s] 54%|█████▍    | 202002/371472 [5:01:08<13:48:40,  3.41it/s] 54%|█████▍    | 202003/371472 [5:01:08<13:50:49,  3.40it/s] 54%|█████▍    | 202004/371472 [5:01:08<15:02:21,  3.13it/s] 54%|█████▍    | 202005/371472 [5:01:08<14:22:33,  3.27it/s] 54%|█████▍    | 202006/371472 [5:01:09<14:09:09,  3.33it/s] 54%|█████▍    | 202007/371472 [5:01:09<13:37:36,  3.45it/s] 54%|█████▍    | 202008/371472 [5:01:09<13:20:02,  3.53it/s] 54%|█████▍    | 202009/371472 [5:01:10<14:06:43,  3.34it/s] 54%|█████▍    | 202010/371472 [5:01:10<13:28:42,  3.49it/s] 54%|█████▍    | 202011/371472 [5:01:10<13:10:18,  3.57it/s] 54%|█████▍    | 202012/371472 [5:01:10<12:57:37,  3.63it/s] 54%|█████▍    | 202013/371472 [5:01:11<13:45:21,  3.42it/s] 54%|█████▍    | 202014/371472 [5:01:11<14:23:55,  3.27it/s] 54%|█████▍    | 202015/371472 [5:01:11<14:13:18,  3.31it/s] 54%|█████▍    | 202016/371472 [5:01:12<14:42:27,  3.20it/s] 54%|█████▍    | 202017/371472 [5:01:12<14:26:59,  3.26it/s] 54%|█████▍    | 202018/371472 [5:01:12<13:52:19,  3.39it/s] 54%|█████▍    | 202019/371472 [5:01:13<13:11:10,  3.57it/s] 54%|█████▍    | 202020/371472 [5:01:13<13:48:09,  3.41it/s]                                                            {'loss': 2.8839, 'learning_rate': 5.107683854424788e-07, 'epoch': 8.7}
 54%|█████▍    | 202020/371472 [5:01:13<13:48:09,  3.41it/s] 54%|█████▍    | 202021/371472 [5:01:13<13:39:39,  3.45it/s] 54%|█████▍    | 202022/371472 [5:01:13<14:09:14,  3.33it/s] 54%|█████▍    | 202023/371472 [5:01:14<14:07:56,  3.33it/s] 54%|█████▍    | 202024/371472 [5:01:14<14:01:10,  3.36it/s] 54%|█████▍    | 202025/371472 [5:01:14<13:35:39,  3.46it/s] 54%|█████▍    | 202026/371472 [5:01:15<13:12:34,  3.56it/s] 54%|█████▍    | 202027/371472 [5:01:15<13:18:11,  3.54it/s] 54%|█████▍    | 202028/371472 [5:01:15<13:37:04,  3.46it/s] 54%|█████▍    | 202029/371472 [5:01:15<13:31:58,  3.48it/s] 54%|█████▍    | 202030/371472 [5:01:16<13:38:22,  3.45it/s] 54%|█████▍    | 202031/371472 [5:01:16<14:52:44,  3.16it/s] 54%|█████▍    | 202032/371472 [5:01:16<15:01:04,  3.13it/s] 54%|█████▍    | 202033/371472 [5:01:17<15:41:26,  3.00it/s] 54%|█████▍    | 202034/371472 [5:01:17<16:21:34,  2.88it/s] 54%|█████▍    | 202035/371472 [5:01:17<15:22:56,  3.06it/s] 54%|█████▍    | 202036/371472 [5:01:18<14:43:43,  3.20it/s] 54%|█████▍    | 202037/371472 [5:01:18<14:48:05,  3.18it/s] 54%|█████▍    | 202038/371472 [5:01:18<14:05:19,  3.34it/s] 54%|█████▍    | 202039/371472 [5:01:19<13:34:13,  3.47it/s] 54%|█████▍    | 202040/371472 [5:01:19<14:22:52,  3.27it/s]                                                            {'loss': 2.9334, 'learning_rate': 5.107199034669999e-07, 'epoch': 8.7}
 54%|█████▍    | 202040/371472 [5:01:19<14:22:52,  3.27it/s] 54%|█████▍    | 202041/371472 [5:01:19<15:08:07,  3.11it/s] 54%|█████▍    | 202042/371472 [5:01:20<14:15:02,  3.30it/s] 54%|█████▍    | 202043/371472 [5:01:20<13:26:50,  3.50it/s] 54%|█████▍    | 202044/371472 [5:01:20<13:44:40,  3.42it/s] 54%|█████▍    | 202045/371472 [5:01:20<14:15:04,  3.30it/s] 54%|█████▍    | 202046/371472 [5:01:21<13:33:58,  3.47it/s] 54%|█████▍    | 202047/371472 [5:01:21<12:47:40,  3.68it/s] 54%|█████▍    | 202048/371472 [5:01:21<12:42:17,  3.70it/s] 54%|█████▍    | 202049/371472 [5:01:21<12:36:47,  3.73it/s] 54%|█████▍    | 202050/371472 [5:01:22<12:57:42,  3.63it/s] 54%|█████▍    | 202051/371472 [5:01:22<12:47:07,  3.68it/s] 54%|█████▍    | 202052/371472 [5:01:22<13:10:58,  3.57it/s] 54%|█████▍    | 202053/371472 [5:01:23<13:08:47,  3.58it/s] 54%|█████▍    | 202054/371472 [5:01:23<13:58:22,  3.37it/s] 54%|█████▍    | 202055/371472 [5:01:23<14:33:35,  3.23it/s] 54%|█████▍    | 202056/371472 [5:01:24<13:41:07,  3.44it/s] 54%|█████▍    | 202057/371472 [5:01:24<13:27:14,  3.50it/s] 54%|█████▍    | 202058/371472 [5:01:24<13:43:03,  3.43it/s] 54%|█████▍    | 202059/371472 [5:01:24<13:18:34,  3.54it/s] 54%|█████▍    | 202060/371472 [5:01:25<12:59:31,  3.62it/s]                                                            {'loss': 3.0615, 'learning_rate': 5.10671421491521e-07, 'epoch': 8.7}
 54%|█████▍    | 202060/371472 [5:01:25<12:59:31,  3.62it/s] 54%|█████▍    | 202061/371472 [5:01:25<12:52:36,  3.65it/s] 54%|█████▍    | 202062/371472 [5:01:25<12:48:10,  3.68it/s] 54%|█████▍    | 202063/371472 [5:01:25<12:47:54,  3.68it/s] 54%|█████▍    | 202064/371472 [5:01:26<12:40:58,  3.71it/s] 54%|█████▍    | 202065/371472 [5:01:26<12:34:17,  3.74it/s] 54%|█████▍    | 202066/371472 [5:01:26<12:48:12,  3.68it/s] 54%|█████▍    | 202067/371472 [5:01:27<12:54:15,  3.65it/s] 54%|█████▍    | 202068/371472 [5:01:27<13:00:19,  3.62it/s] 54%|█████▍    | 202069/371472 [5:01:27<13:03:59,  3.60it/s] 54%|█████▍    | 202070/371472 [5:01:27<13:06:07,  3.59it/s] 54%|█████▍    | 202071/371472 [5:01:28<13:22:34,  3.52it/s] 54%|█████▍    | 202072/371472 [5:01:28<13:11:58,  3.56it/s] 54%|█████▍    | 202073/371472 [5:01:28<13:03:54,  3.60it/s] 54%|█████▍    | 202074/371472 [5:01:28<13:30:34,  3.48it/s] 54%|█████▍    | 202075/371472 [5:01:29<12:50:50,  3.66it/s] 54%|█████▍    | 202076/371472 [5:01:29<12:41:28,  3.71it/s] 54%|█████▍    | 202077/371472 [5:01:29<13:42:22,  3.43it/s] 54%|█████▍    | 202078/371472 [5:01:30<13:13:00,  3.56it/s] 54%|█████▍    | 202079/371472 [5:01:30<12:47:19,  3.68it/s] 54%|█████▍    | 202080/371472 [5:01:30<12:59:14,  3.62it/s]                                                            {'loss': 3.0202, 'learning_rate': 5.106229395160421e-07, 'epoch': 8.7}
 54%|█████▍    | 202080/371472 [5:01:30<12:59:14,  3.62it/s] 54%|█████▍    | 202081/371472 [5:01:30<13:25:34,  3.50it/s] 54%|█████▍    | 202082/371472 [5:01:31<13:43:07,  3.43it/s] 54%|█████▍    | 202083/371472 [5:01:31<13:02:44,  3.61it/s] 54%|█████▍    | 202084/371472 [5:01:31<13:43:01,  3.43it/s] 54%|█████▍    | 202085/371472 [5:01:32<13:33:12,  3.47it/s] 54%|█████▍    | 202086/371472 [5:01:32<13:14:34,  3.55it/s] 54%|█████▍    | 202087/371472 [5:01:32<12:52:17,  3.66it/s] 54%|█████▍    | 202088/371472 [5:01:32<13:49:56,  3.40it/s] 54%|█████▍    | 202089/371472 [5:01:33<13:36:13,  3.46it/s] 54%|█████▍    | 202090/371472 [5:01:33<13:14:58,  3.55it/s] 54%|█████▍    | 202091/371472 [5:01:33<13:50:06,  3.40it/s] 54%|█████▍    | 202092/371472 [5:01:34<13:22:45,  3.52it/s] 54%|█████▍    | 202093/371472 [5:01:34<12:58:17,  3.63it/s] 54%|█████▍    | 202094/371472 [5:01:34<12:43:13,  3.70it/s] 54%|█████▍    | 202095/371472 [5:01:34<12:35:58,  3.73it/s] 54%|█████▍    | 202096/371472 [5:01:35<12:50:51,  3.66it/s] 54%|█████▍    | 202097/371472 [5:01:35<13:02:55,  3.61it/s] 54%|█████▍    | 202098/371472 [5:01:35<12:51:03,  3.66it/s] 54%|█████▍    | 202099/371472 [5:01:35<12:44:03,  3.69it/s] 54%|█████▍    | 202100/371472 [5:01:36<13:13:54,  3.56it/s]                                                            {'loss': 3.0319, 'learning_rate': 5.105744575405632e-07, 'epoch': 8.7}
 54%|█████▍    | 202100/371472 [5:01:36<13:13:54,  3.56it/s] 54%|█████▍    | 202101/371472 [5:01:36<12:54:56,  3.64it/s] 54%|█████▍    | 202102/371472 [5:01:36<13:28:03,  3.49it/s] 54%|█████▍    | 202103/371472 [5:01:37<13:00:28,  3.62it/s] 54%|█████▍    | 202104/371472 [5:01:37<13:26:07,  3.50it/s] 54%|█████▍    | 202105/371472 [5:01:37<13:10:55,  3.57it/s] 54%|█████▍    | 202106/371472 [5:01:37<13:03:29,  3.60it/s] 54%|█████▍    | 202107/371472 [5:01:38<13:05:19,  3.59it/s] 54%|█████▍    | 202108/371472 [5:01:38<12:51:30,  3.66it/s] 54%|█████▍    | 202109/371472 [5:01:38<12:48:12,  3.67it/s] 54%|█████▍    | 202110/371472 [5:01:39<12:44:47,  3.69it/s] 54%|█████▍    | 202111/371472 [5:01:39<12:50:14,  3.66it/s] 54%|█████▍    | 202112/371472 [5:01:39<12:34:17,  3.74it/s] 54%|█████▍    | 202113/371472 [5:01:39<13:09:22,  3.58it/s] 54%|█████▍    | 202114/371472 [5:01:40<13:00:38,  3.62it/s] 54%|█████▍    | 202115/371472 [5:01:40<15:35:50,  3.02it/s] 54%|█████▍    | 202116/371472 [5:01:40<14:46:58,  3.18it/s] 54%|█████▍    | 202117/371472 [5:01:41<14:18:00,  3.29it/s] 54%|█████▍    | 202118/371472 [5:01:41<14:03:07,  3.35it/s] 54%|█████▍    | 202119/371472 [5:01:41<13:46:10,  3.42it/s] 54%|█████▍    | 202120/371472 [5:01:42<14:54:56,  3.15it/s]                                                            {'loss': 2.9267, 'learning_rate': 5.105259755650844e-07, 'epoch': 8.71}
 54%|█████▍    | 202120/371472 [5:01:42<14:54:56,  3.15it/s] 54%|█████▍    | 202121/371472 [5:01:42<14:26:08,  3.26it/s] 54%|█████▍    | 202122/371472 [5:01:42<14:00:25,  3.36it/s] 54%|█████▍    | 202123/371472 [5:01:42<14:48:09,  3.18it/s] 54%|█████▍    | 202124/371472 [5:01:43<13:53:54,  3.38it/s] 54%|█████▍    | 202125/371472 [5:01:43<13:38:10,  3.45it/s] 54%|█████▍    | 202126/371472 [5:01:43<13:24:02,  3.51it/s] 54%|█████▍    | 202127/371472 [5:01:44<12:50:17,  3.66it/s] 54%|█████▍    | 202128/371472 [5:01:44<13:25:52,  3.50it/s] 54%|█████▍    | 202129/371472 [5:01:44<14:01:39,  3.35it/s] 54%|█████▍    | 202130/371472 [5:01:44<13:31:58,  3.48it/s] 54%|█████▍    | 202131/371472 [5:01:45<13:15:51,  3.55it/s] 54%|█████▍    | 202132/371472 [5:01:45<13:45:41,  3.42it/s] 54%|█████▍    | 202133/371472 [5:01:45<13:28:47,  3.49it/s] 54%|█████▍    | 202134/371472 [5:01:46<13:38:29,  3.45it/s] 54%|█████▍    | 202135/371472 [5:01:46<13:47:06,  3.41it/s] 54%|█████▍    | 202136/371472 [5:01:46<13:53:35,  3.39it/s] 54%|█████▍    | 202137/371472 [5:01:46<13:38:16,  3.45it/s] 54%|█████▍    | 202138/371472 [5:01:47<14:03:52,  3.34it/s] 54%|█████▍    | 202139/371472 [5:01:47<13:45:54,  3.42it/s] 54%|█████▍    | 202140/371472 [5:01:47<14:57:01,  3.15it/s]                                                            {'loss': 2.9418, 'learning_rate': 5.104774935896055e-07, 'epoch': 8.71}
 54%|█████▍    | 202140/371472 [5:01:47<14:57:01,  3.15it/s] 54%|█████▍    | 202141/371472 [5:01:48<14:17:01,  3.29it/s] 54%|█████▍    | 202142/371472 [5:01:48<13:21:06,  3.52it/s] 54%|█████▍    | 202143/371472 [5:01:48<12:52:33,  3.65it/s] 54%|█████▍    | 202144/371472 [5:01:48<12:53:59,  3.65it/s] 54%|█████▍    | 202145/371472 [5:01:49<13:19:06,  3.53it/s] 54%|█████▍    | 202146/371472 [5:01:49<13:09:56,  3.57it/s] 54%|█████▍    | 202147/371472 [5:01:49<14:21:55,  3.27it/s] 54%|█████▍    | 202148/371472 [5:01:50<14:06:07,  3.34it/s] 54%|█████▍    | 202149/371472 [5:01:50<13:31:52,  3.48it/s] 54%|█████▍    | 202150/371472 [5:01:50<14:15:47,  3.30it/s] 54%|█████▍    | 202151/371472 [5:01:51<13:49:44,  3.40it/s] 54%|█████▍    | 202152/371472 [5:01:51<14:28:57,  3.25it/s] 54%|█████▍    | 202153/371472 [5:01:51<13:45:40,  3.42it/s] 54%|█████▍    | 202154/371472 [5:01:51<13:55:27,  3.38it/s] 54%|█████▍    | 202155/371472 [5:01:52<13:16:16,  3.54it/s] 54%|█████▍    | 202156/371472 [5:01:52<13:28:09,  3.49it/s] 54%|█████▍    | 202157/371472 [5:01:52<13:13:02,  3.56it/s] 54%|█████▍    | 202158/371472 [5:01:53<12:50:29,  3.66it/s] 54%|█████▍    | 202159/371472 [5:01:53<12:40:11,  3.71it/s] 54%|█████▍    | 202160/371472 [5:01:53<12:33:24,  3.75it/s]                                                            {'loss': 2.8188, 'learning_rate': 5.104290116141265e-07, 'epoch': 8.71}
 54%|█████▍    | 202160/371472 [5:01:53<12:33:24,  3.75it/s] 54%|█████▍    | 202161/371472 [5:01:53<12:55:37,  3.64it/s] 54%|█████▍    | 202162/371472 [5:01:54<13:36:26,  3.46it/s] 54%|█████▍    | 202163/371472 [5:01:54<13:35:09,  3.46it/s] 54%|█████▍    | 202164/371472 [5:01:54<13:05:57,  3.59it/s] 54%|█████▍    | 202165/371472 [5:01:55<13:06:40,  3.59it/s] 54%|█████▍    | 202166/371472 [5:01:55<12:57:52,  3.63it/s] 54%|█████▍    | 202167/371472 [5:01:55<13:28:34,  3.49it/s] 54%|█████▍    | 202168/371472 [5:01:55<13:23:32,  3.51it/s] 54%|█████▍    | 202169/371472 [5:01:56<13:54:34,  3.38it/s] 54%|█████▍    | 202170/371472 [5:01:56<13:24:12,  3.51it/s] 54%|█████▍    | 202171/371472 [5:01:56<13:15:46,  3.55it/s] 54%|█████▍    | 202172/371472 [5:01:57<13:30:45,  3.48it/s] 54%|█████▍    | 202173/371472 [5:01:57<13:31:25,  3.48it/s] 54%|█████▍    | 202174/371472 [5:01:57<13:09:37,  3.57it/s] 54%|█████▍    | 202175/371472 [5:01:57<12:59:18,  3.62it/s] 54%|█████▍    | 202176/371472 [5:01:58<12:53:01,  3.65it/s] 54%|█████▍    | 202177/371472 [5:01:58<13:12:35,  3.56it/s] 54%|█████▍    | 202178/371472 [5:01:58<14:04:08,  3.34it/s] 54%|█████▍    | 202179/371472 [5:01:59<13:24:58,  3.51it/s] 54%|█████▍    | 202180/371472 [5:01:59<14:03:25,  3.35it/s]                                                            {'loss': 3.0139, 'learning_rate': 5.103805296386476e-07, 'epoch': 8.71}
 54%|█████▍    | 202180/371472 [5:01:59<14:03:25,  3.35it/s] 54%|█████▍    | 202181/371472 [5:01:59<14:11:10,  3.31it/s] 54%|█████▍    | 202182/371472 [5:01:59<14:01:13,  3.35it/s] 54%|█████▍    | 202183/371472 [5:02:00<14:31:14,  3.24it/s] 54%|█████▍    | 202184/371472 [5:02:00<14:24:39,  3.26it/s] 54%|█████▍    | 202185/371472 [5:02:00<14:11:15,  3.31it/s] 54%|█████▍    | 202186/371472 [5:02:01<13:51:04,  3.39it/s] 54%|█████▍    | 202187/371472 [5:02:01<13:54:31,  3.38it/s] 54%|█████▍    | 202188/371472 [5:02:01<13:52:46,  3.39it/s] 54%|█████▍    | 202189/371472 [5:02:02<13:47:11,  3.41it/s] 54%|█████▍    | 202190/371472 [5:02:02<15:37:32,  3.01it/s] 54%|█████▍    | 202191/371472 [5:02:02<14:40:13,  3.21it/s] 54%|█████▍    | 202192/371472 [5:02:02<14:06:15,  3.33it/s] 54%|█████▍    | 202193/371472 [5:02:03<14:05:39,  3.34it/s] 54%|█████▍    | 202194/371472 [5:02:03<13:31:12,  3.48it/s] 54%|█████▍    | 202195/371472 [5:02:03<13:10:18,  3.57it/s] 54%|█████▍    | 202196/371472 [5:02:04<12:57:31,  3.63it/s] 54%|█████▍    | 202197/371472 [5:02:04<12:37:34,  3.72it/s] 54%|█████▍    | 202198/371472 [5:02:04<13:19:57,  3.53it/s] 54%|█████▍    | 202199/371472 [5:02:04<13:40:34,  3.44it/s] 54%|█████▍    | 202200/371472 [5:02:05<13:13:29,  3.56it/s]                                                            {'loss': 2.8147, 'learning_rate': 5.103320476631689e-07, 'epoch': 8.71}
 54%|█████▍    | 202200/371472 [5:02:05<13:13:29,  3.56it/s] 54%|█████▍    | 202201/371472 [5:02:05<13:20:20,  3.52it/s] 54%|█████▍    | 202202/371472 [5:02:05<12:53:50,  3.65it/s] 54%|█████▍    | 202203/371472 [5:02:06<12:47:10,  3.68it/s] 54%|█████▍    | 202204/371472 [5:02:06<12:43:46,  3.69it/s] 54%|█████▍    | 202205/371472 [5:02:06<13:13:02,  3.56it/s] 54%|█████▍    | 202206/371472 [5:02:06<12:48:27,  3.67it/s] 54%|█████▍    | 202207/371472 [5:02:07<13:14:37,  3.55it/s] 54%|█████▍    | 202208/371472 [5:02:07<13:51:37,  3.39it/s] 54%|█████▍    | 202209/371472 [5:02:07<13:16:28,  3.54it/s] 54%|█████▍    | 202210/371472 [5:02:08<13:11:32,  3.56it/s] 54%|█████▍    | 202211/371472 [5:02:08<13:36:19,  3.46it/s] 54%|█████▍    | 202212/371472 [5:02:08<13:12:45,  3.56it/s] 54%|█████▍    | 202213/371472 [5:02:09<16:35:47,  2.83it/s] 54%|█████▍    | 202214/371472 [5:02:09<15:56:43,  2.95it/s] 54%|█████▍    | 202215/371472 [5:02:09<14:36:59,  3.22it/s] 54%|█████▍    | 202216/371472 [5:02:09<14:36:55,  3.22it/s] 54%|█████▍    | 202217/371472 [5:02:10<15:14:06,  3.09it/s] 54%|█████▍    | 202218/371472 [5:02:10<14:43:57,  3.19it/s] 54%|█████▍    | 202219/371472 [5:02:10<13:50:53,  3.40it/s] 54%|█████▍    | 202220/371472 [5:02:11<13:20:17,  3.52it/s]                                                            {'loss': 3.0119, 'learning_rate': 5.102835656876899e-07, 'epoch': 8.71}
 54%|█████▍    | 202220/371472 [5:02:11<13:20:17,  3.52it/s] 54%|█████▍    | 202221/371472 [5:02:11<13:20:09,  3.53it/s] 54%|█████▍    | 202222/371472 [5:02:11<13:16:02,  3.54it/s] 54%|█████▍    | 202223/371472 [5:02:11<13:39:08,  3.44it/s] 54%|█████▍    | 202224/371472 [5:02:12<13:14:14,  3.55it/s] 54%|█████▍    | 202225/371472 [5:02:12<12:47:57,  3.67it/s] 54%|█████▍    | 202226/371472 [5:02:12<12:25:56,  3.78it/s] 54%|█████▍    | 202227/371472 [5:02:12<12:20:50,  3.81it/s] 54%|█████▍    | 202228/371472 [5:02:13<12:04:43,  3.89it/s] 54%|█████▍    | 202229/371472 [5:02:13<12:18:38,  3.82it/s] 54%|█████▍    | 202230/371472 [5:02:13<13:19:41,  3.53it/s] 54%|█████▍    | 202231/371472 [5:02:14<13:27:37,  3.49it/s] 54%|█████▍    | 202232/371472 [5:02:14<14:00:26,  3.36it/s] 54%|█████▍    | 202233/371472 [5:02:14<13:53:03,  3.39it/s] 54%|█████▍    | 202234/371472 [5:02:15<13:58:47,  3.36it/s] 54%|█████▍    | 202235/371472 [5:02:15<13:32:43,  3.47it/s] 54%|█████▍    | 202236/371472 [5:02:15<13:05:52,  3.59it/s] 54%|█████▍    | 202237/371472 [5:02:15<13:36:34,  3.45it/s] 54%|█████▍    | 202238/371472 [5:02:16<13:56:48,  3.37it/s] 54%|█████▍    | 202239/371472 [5:02:16<13:32:27,  3.47it/s] 54%|█████▍    | 202240/371472 [5:02:16<12:58:16,  3.62it/s]                                                            {'loss': 3.1068, 'learning_rate': 5.102350837122109e-07, 'epoch': 8.71}
 54%|█████▍    | 202240/371472 [5:02:16<12:58:16,  3.62it/s] 54%|█████▍    | 202241/371472 [5:02:16<12:44:31,  3.69it/s] 54%|█████▍    | 202242/371472 [5:02:17<12:28:17,  3.77it/s] 54%|█████▍    | 202243/371472 [5:02:17<12:12:51,  3.85it/s] 54%|█████▍    | 202244/371472 [5:02:17<12:05:52,  3.89it/s] 54%|█████▍    | 202245/371472 [5:02:18<12:13:57,  3.84it/s] 54%|█████▍    | 202246/371472 [5:02:18<12:35:22,  3.73it/s] 54%|█████▍    | 202247/371472 [5:02:18<12:46:36,  3.68it/s] 54%|█████▍    | 202248/371472 [5:02:18<12:37:24,  3.72it/s] 54%|█████▍    | 202249/371472 [5:02:19<12:54:16,  3.64it/s] 54%|█████▍    | 202250/371472 [5:02:19<12:27:55,  3.77it/s] 54%|█████▍    | 202251/371472 [5:02:19<14:06:08,  3.33it/s] 54%|█████▍    | 202252/371472 [5:02:20<13:39:41,  3.44it/s] 54%|█████▍    | 202253/371472 [5:02:20<13:49:55,  3.40it/s] 54%|█████▍    | 202254/371472 [5:02:20<13:59:06,  3.36it/s] 54%|█████▍    | 202255/371472 [5:02:20<13:40:22,  3.44it/s] 54%|█████▍    | 202256/371472 [5:02:21<13:40:07,  3.44it/s] 54%|█████▍    | 202257/371472 [5:02:21<13:17:35,  3.54it/s] 54%|█████▍    | 202258/371472 [5:02:21<12:53:27,  3.65it/s] 54%|█████▍    | 202259/371472 [5:02:22<13:34:40,  3.46it/s] 54%|█████▍    | 202260/371472 [5:02:22<13:18:44,  3.53it/s]                                                            {'loss': 3.2608, 'learning_rate': 5.101866017367321e-07, 'epoch': 8.71}
 54%|█████▍    | 202260/371472 [5:02:22<13:18:44,  3.53it/s] 54%|█████▍    | 202261/371472 [5:02:22<14:19:35,  3.28it/s] 54%|█████▍    | 202262/371472 [5:02:22<13:46:25,  3.41it/s] 54%|█████▍    | 202263/371472 [5:02:23<13:30:38,  3.48it/s] 54%|█████▍    | 202264/371472 [5:02:23<13:11:20,  3.56it/s] 54%|█████▍    | 202265/371472 [5:02:23<14:06:53,  3.33it/s] 54%|█████▍    | 202266/371472 [5:02:24<13:23:29,  3.51it/s] 54%|█████▍    | 202267/371472 [5:02:24<12:50:24,  3.66it/s] 54%|█████▍    | 202268/371472 [5:02:24<13:58:57,  3.36it/s] 54%|█████▍    | 202269/371472 [5:02:25<14:46:15,  3.18it/s] 54%|█████▍    | 202270/371472 [5:02:25<15:17:40,  3.07it/s] 54%|█████▍    | 202271/371472 [5:02:25<14:48:40,  3.17it/s] 54%|█████▍    | 202272/371472 [5:02:25<14:25:02,  3.26it/s] 54%|█████▍    | 202273/371472 [5:02:26<13:57:12,  3.37it/s] 54%|█████▍    | 202274/371472 [5:02:26<13:34:38,  3.46it/s] 54%|█████▍    | 202275/371472 [5:02:26<13:18:08,  3.53it/s] 54%|█████▍    | 202276/371472 [5:02:27<13:57:45,  3.37it/s] 54%|█████▍    | 202277/371472 [5:02:27<13:57:37,  3.37it/s] 54%|█████▍    | 202278/371472 [5:02:27<13:33:13,  3.47it/s] 54%|█████▍    | 202279/371472 [5:02:27<13:14:21,  3.55it/s] 54%|█████▍    | 202280/371472 [5:02:28<13:56:30,  3.37it/s]                                                            {'loss': 2.8877, 'learning_rate': 5.101381197612532e-07, 'epoch': 8.71}
 54%|█████▍    | 202280/371472 [5:02:28<13:56:30,  3.37it/s] 54%|█████▍    | 202281/371472 [5:02:28<13:58:26,  3.36it/s] 54%|█████▍    | 202282/371472 [5:02:28<14:39:27,  3.21it/s] 54%|█████▍    | 202283/371472 [5:02:29<14:02:00,  3.35it/s] 54%|█████▍    | 202284/371472 [5:02:29<13:18:46,  3.53it/s] 54%|█████▍    | 202285/371472 [5:02:29<13:02:40,  3.60it/s] 54%|█████▍    | 202286/371472 [5:02:29<12:53:23,  3.65it/s] 54%|█████▍    | 202287/371472 [5:02:30<12:57:53,  3.62it/s] 54%|█████▍    | 202288/371472 [5:02:30<12:53:15,  3.65it/s] 54%|█████▍    | 202289/371472 [5:02:30<12:44:06,  3.69it/s] 54%|█████▍    | 202290/371472 [5:02:31<12:41:17,  3.70it/s] 54%|█████▍    | 202291/371472 [5:02:31<13:01:33,  3.61it/s] 54%|█████▍    | 202292/371472 [5:02:31<13:40:32,  3.44it/s] 54%|█████▍    | 202293/371472 [5:02:31<13:23:11,  3.51it/s] 54%|█████▍    | 202294/371472 [5:02:32<15:04:46,  3.12it/s] 54%|█████▍    | 202295/371472 [5:02:32<16:00:38,  2.94it/s] 54%|█████▍    | 202296/371472 [5:02:32<15:06:37,  3.11it/s] 54%|█████▍    | 202297/371472 [5:02:33<14:49:24,  3.17it/s] 54%|█████▍    | 202298/371472 [5:02:33<14:10:33,  3.31it/s] 54%|█████▍    | 202299/371472 [5:02:33<14:01:54,  3.35it/s] 54%|█████▍    | 202300/371472 [5:02:34<14:06:01,  3.33it/s]                                                            {'loss': 2.9365, 'learning_rate': 5.100896377857742e-07, 'epoch': 8.71}
 54%|█████▍    | 202300/371472 [5:02:34<14:06:01,  3.33it/s] 54%|█████▍    | 202301/371472 [5:02:34<14:05:51,  3.33it/s] 54%|█████▍    | 202302/371472 [5:02:34<13:23:17,  3.51it/s] 54%|█████▍    | 202303/371472 [5:02:34<13:15:27,  3.54it/s] 54%|█████▍    | 202304/371472 [5:02:35<13:37:27,  3.45it/s] 54%|█████▍    | 202305/371472 [5:02:35<13:46:54,  3.41it/s] 54%|█████▍    | 202306/371472 [5:02:35<13:28:05,  3.49it/s] 54%|█████▍    | 202307/371472 [5:02:36<13:26:24,  3.50it/s] 54%|█████▍    | 202308/371472 [5:02:36<13:26:58,  3.49it/s] 54%|█████▍    | 202309/371472 [5:02:36<13:01:53,  3.61it/s] 54%|█████▍    | 202310/371472 [5:02:36<12:51:53,  3.65it/s] 54%|█████▍    | 202311/371472 [5:02:37<13:20:52,  3.52it/s] 54%|█████▍    | 202312/371472 [5:02:37<12:59:37,  3.62it/s] 54%|█████▍    | 202313/371472 [5:02:37<12:37:51,  3.72it/s] 54%|█████▍    | 202314/371472 [5:02:37<12:16:45,  3.83it/s] 54%|█████▍    | 202315/371472 [5:02:38<12:54:34,  3.64it/s] 54%|█████▍    | 202316/371472 [5:02:38<13:14:59,  3.55it/s] 54%|█████▍    | 202317/371472 [5:02:38<13:05:48,  3.59it/s] 54%|█████▍    | 202318/371472 [5:02:39<13:53:33,  3.38it/s] 54%|█████▍    | 202319/371472 [5:02:39<14:38:53,  3.21it/s] 54%|█████▍    | 202320/371472 [5:02:39<13:48:48,  3.40it/s]                                                            {'loss': 2.742, 'learning_rate': 5.100411558102953e-07, 'epoch': 8.71}
 54%|█████▍    | 202320/371472 [5:02:39<13:48:48,  3.40it/s] 54%|█████▍    | 202321/371472 [5:02:40<13:35:51,  3.46it/s] 54%|█████▍    | 202322/371472 [5:02:40<13:43:04,  3.43it/s] 54%|█████▍    | 202323/371472 [5:02:40<13:28:16,  3.49it/s] 54%|█████▍    | 202324/371472 [5:02:40<13:06:25,  3.58it/s] 54%|█████▍    | 202325/371472 [5:02:41<12:38:04,  3.72it/s] 54%|█████▍    | 202326/371472 [5:02:41<13:33:30,  3.47it/s] 54%|█████▍    | 202327/371472 [5:02:41<13:37:28,  3.45it/s] 54%|█████▍    | 202328/371472 [5:02:42<14:35:41,  3.22it/s] 54%|█████▍    | 202329/371472 [5:02:42<14:17:14,  3.29it/s] 54%|█████▍    | 202330/371472 [5:02:42<14:15:27,  3.30it/s] 54%|█████▍    | 202331/371472 [5:02:43<14:05:47,  3.33it/s] 54%|█████▍    | 202332/371472 [5:02:43<14:13:16,  3.30it/s] 54%|█████▍    | 202333/371472 [5:02:43<13:58:04,  3.36it/s] 54%|█████▍    | 202334/371472 [5:02:43<14:49:39,  3.17it/s] 54%|█████▍    | 202335/371472 [5:02:44<13:56:55,  3.37it/s] 54%|█████▍    | 202336/371472 [5:02:44<13:26:26,  3.50it/s] 54%|█████▍    | 202337/371472 [5:02:44<13:17:53,  3.53it/s] 54%|█████▍    | 202338/371472 [5:02:45<13:02:39,  3.60it/s] 54%|█████▍    | 202339/371472 [5:02:45<13:26:34,  3.49it/s] 54%|█████▍    | 202340/371472 [5:02:45<14:36:51,  3.21it/s]                                                            {'loss': 2.7645, 'learning_rate': 5.099926738348165e-07, 'epoch': 8.72}
 54%|█████▍    | 202340/371472 [5:02:45<14:36:51,  3.21it/s] 54%|█████▍    | 202341/371472 [5:02:46<14:45:44,  3.18it/s] 54%|█████▍    | 202342/371472 [5:02:46<14:14:50,  3.30it/s] 54%|█████▍    | 202343/371472 [5:02:46<13:30:49,  3.48it/s] 54%|█████▍    | 202344/371472 [5:02:46<13:11:03,  3.56it/s] 54%|█████▍    | 202345/371472 [5:02:47<12:58:22,  3.62it/s] 54%|█████▍    | 202346/371472 [5:02:47<13:04:37,  3.59it/s] 54%|█████▍    | 202347/371472 [5:02:47<12:53:26,  3.64it/s] 54%|█████▍    | 202348/371472 [5:02:48<15:08:51,  3.10it/s] 54%|█████▍    | 202349/371472 [5:02:48<16:03:35,  2.93it/s] 54%|█████▍    | 202350/371472 [5:02:48<15:27:34,  3.04it/s] 54%|█████▍    | 202351/371472 [5:02:49<15:15:27,  3.08it/s] 54%|█████▍    | 202352/371472 [5:02:49<14:55:54,  3.15it/s] 54%|█████▍    | 202353/371472 [5:02:49<14:11:26,  3.31it/s] 54%|█████▍    | 202354/371472 [5:02:49<13:30:46,  3.48it/s] 54%|█████▍    | 202355/371472 [5:02:50<13:12:42,  3.56it/s] 54%|█████▍    | 202356/371472 [5:02:50<12:57:22,  3.63it/s] 54%|█████▍    | 202357/371472 [5:02:50<12:39:38,  3.71it/s] 54%|█████▍    | 202358/371472 [5:02:50<12:27:38,  3.77it/s] 54%|█████▍    | 202359/371472 [5:02:51<13:08:54,  3.57it/s] 54%|█████▍    | 202360/371472 [5:02:51<13:11:58,  3.56it/s]                                                            {'loss': 2.9688, 'learning_rate': 5.099441918593376e-07, 'epoch': 8.72}
 54%|█████▍    | 202360/371472 [5:02:51<13:11:58,  3.56it/s] 54%|█████▍    | 202361/371472 [5:02:51<13:45:13,  3.42it/s] 54%|█████▍    | 202362/371472 [5:02:52<13:45:19,  3.41it/s] 54%|█████▍    | 202363/371472 [5:02:52<13:16:00,  3.54it/s] 54%|█████▍    | 202364/371472 [5:02:52<13:00:59,  3.61it/s] 54%|█████▍    | 202365/371472 [5:02:52<13:16:57,  3.54it/s] 54%|█████▍    | 202366/371472 [5:02:53<13:15:46,  3.54it/s] 54%|█████▍    | 202367/371472 [5:02:53<13:06:37,  3.58it/s] 54%|█████▍    | 202368/371472 [5:02:53<12:39:10,  3.71it/s] 54%|█████▍    | 202369/371472 [5:02:54<12:45:40,  3.68it/s] 54%|█████▍    | 202370/371472 [5:02:54<12:49:04,  3.66it/s] 54%|█████▍    | 202371/371472 [5:02:54<12:33:01,  3.74it/s] 54%|█████▍    | 202372/371472 [5:02:54<12:39:44,  3.71it/s] 54%|█████▍    | 202373/371472 [5:02:55<12:40:01,  3.71it/s] 54%|█████▍    | 202374/371472 [5:02:55<12:31:55,  3.75it/s] 54%|█████▍    | 202375/371472 [5:02:55<12:23:51,  3.79it/s] 54%|█████▍    | 202376/371472 [5:02:55<13:25:48,  3.50it/s] 54%|█████▍    | 202377/371472 [5:02:56<13:29:41,  3.48it/s] 54%|█████▍    | 202378/371472 [5:02:56<13:24:27,  3.50it/s] 54%|█████▍    | 202379/371472 [5:02:56<13:39:33,  3.44it/s] 54%|█████▍    | 202380/371472 [5:02:57<13:25:06,  3.50it/s]                                                            {'loss': 2.9551, 'learning_rate': 5.098957098838587e-07, 'epoch': 8.72}
 54%|█████▍    | 202380/371472 [5:02:57<13:25:06,  3.50it/s] 54%|█████▍    | 202381/371472 [5:02:57<13:55:36,  3.37it/s] 54%|█████▍    | 202382/371472 [5:02:57<13:35:45,  3.45it/s] 54%|█████▍    | 202383/371472 [5:02:58<13:57:01,  3.37it/s] 54%|█████▍    | 202384/371472 [5:02:58<13:35:47,  3.45it/s] 54%|█████▍    | 202385/371472 [5:02:58<13:00:05,  3.61it/s] 54%|█████▍    | 202386/371472 [5:02:58<12:38:53,  3.71it/s] 54%|█████▍    | 202387/371472 [5:02:59<14:02:25,  3.35it/s] 54%|█████▍    | 202388/371472 [5:02:59<13:49:30,  3.40it/s] 54%|█████▍    | 202389/371472 [5:02:59<13:49:53,  3.40it/s] 54%|█████▍    | 202390/371472 [5:03:00<13:32:54,  3.47it/s] 54%|█████▍    | 202391/371472 [5:03:00<13:26:51,  3.49it/s] 54%|█████▍    | 202392/371472 [5:03:00<14:14:09,  3.30it/s] 54%|█████▍    | 202393/371472 [5:03:00<14:01:49,  3.35it/s] 54%|█████▍    | 202394/371472 [5:03:01<13:52:06,  3.39it/s] 54%|█████▍    | 202395/371472 [5:03:01<14:00:26,  3.35it/s] 54%|█████▍    | 202396/371472 [5:03:01<13:33:17,  3.46it/s] 54%|█████▍    | 202397/371472 [5:03:02<13:10:34,  3.56it/s] 54%|█████▍    | 202398/371472 [5:03:02<12:46:25,  3.68it/s] 54%|█████▍    | 202399/371472 [5:03:02<13:02:25,  3.60it/s] 54%|█████▍    | 202400/371472 [5:03:02<13:06:10,  3.58it/s]                                                            {'loss': 3.0377, 'learning_rate': 5.098472279083798e-07, 'epoch': 8.72}
 54%|█████▍    | 202400/371472 [5:03:02<13:06:10,  3.58it/s] 54%|█████▍    | 202401/371472 [5:03:03<13:21:55,  3.51it/s] 54%|█████▍    | 202402/371472 [5:03:03<13:38:58,  3.44it/s] 54%|█████▍    | 202403/371472 [5:03:03<13:37:24,  3.45it/s] 54%|█████▍    | 202404/371472 [5:03:04<14:27:47,  3.25it/s] 54%|█████▍    | 202405/371472 [5:03:04<13:48:33,  3.40it/s] 54%|█████▍    | 202406/371472 [5:03:04<15:44:54,  2.98it/s] 54%|█████▍    | 202407/371472 [5:03:05<15:15:57,  3.08it/s] 54%|█████▍    | 202408/371472 [5:03:05<14:03:58,  3.34it/s] 54%|█████▍    | 202409/371472 [5:03:05<13:51:41,  3.39it/s] 54%|█████▍    | 202410/371472 [5:03:05<14:06:04,  3.33it/s] 54%|█████▍    | 202411/371472 [5:03:06<13:40:14,  3.44it/s] 54%|█████▍    | 202412/371472 [5:03:06<13:11:37,  3.56it/s] 54%|█████▍    | 202413/371472 [5:03:06<13:53:11,  3.38it/s] 54%|█████▍    | 202414/371472 [5:03:07<13:20:17,  3.52it/s] 54%|█████▍    | 202415/371472 [5:03:07<13:31:46,  3.47it/s] 54%|█████▍    | 202416/371472 [5:03:07<14:29:50,  3.24it/s] 54%|█████▍    | 202417/371472 [5:03:07<13:47:06,  3.41it/s] 54%|█████▍    | 202418/371472 [5:03:08<13:34:15,  3.46it/s] 54%|█████▍    | 202419/371472 [5:03:08<13:14:41,  3.55it/s] 54%|█████▍    | 202420/371472 [5:03:08<12:46:36,  3.68it/s]                                                            {'loss': 2.9415, 'learning_rate': 5.097987459329009e-07, 'epoch': 8.72}
 54%|█████▍    | 202420/371472 [5:03:08<12:46:36,  3.68it/s] 54%|█████▍    | 202421/371472 [5:03:09<12:32:47,  3.74it/s] 54%|█████▍    | 202422/371472 [5:03:09<12:32:41,  3.74it/s] 54%|█████▍    | 202423/371472 [5:03:09<12:37:39,  3.72it/s] 54%|█████▍    | 202424/371472 [5:03:09<12:30:22,  3.75it/s] 54%|█████▍    | 202425/371472 [5:03:10<12:19:48,  3.81it/s] 54%|█████▍    | 202426/371472 [5:03:10<13:24:05,  3.50it/s] 54%|█████▍    | 202427/371472 [5:03:10<13:20:15,  3.52it/s] 54%|█████▍    | 202428/371472 [5:03:10<12:57:54,  3.62it/s] 54%|█████▍    | 202429/371472 [5:03:11<12:38:42,  3.71it/s] 54%|█████▍    | 202430/371472 [5:03:11<12:51:03,  3.65it/s] 54%|█████▍    | 202431/371472 [5:03:11<12:38:11,  3.72it/s] 54%|█████▍    | 202432/371472 [5:03:12<13:03:32,  3.60it/s] 54%|█████▍    | 202433/371472 [5:03:12<13:46:50,  3.41it/s] 54%|█████▍    | 202434/371472 [5:03:12<13:26:24,  3.49it/s] 54%|█████▍    | 202435/371472 [5:03:12<13:12:26,  3.56it/s] 54%|█████▍    | 202436/371472 [5:03:13<13:23:11,  3.51it/s] 54%|█████▍    | 202437/371472 [5:03:13<13:29:30,  3.48it/s] 54%|█████▍    | 202438/371472 [5:03:13<13:18:16,  3.53it/s] 54%|█████▍    | 202439/371472 [5:03:14<12:58:21,  3.62it/s] 54%|█████▍    | 202440/371472 [5:03:14<12:52:24,  3.65it/s]                                                            {'loss': 2.9785, 'learning_rate': 5.09750263957422e-07, 'epoch': 8.72}
 54%|█████▍    | 202440/371472 [5:03:14<12:52:24,  3.65it/s] 54%|█████▍    | 202441/371472 [5:03:14<13:50:21,  3.39it/s] 54%|█████▍    | 202442/371472 [5:03:14<13:31:32,  3.47it/s] 54%|█████▍    | 202443/371472 [5:03:15<12:51:49,  3.65it/s] 54%|█████▍    | 202444/371472 [5:03:15<12:41:28,  3.70it/s] 54%|█████▍    | 202445/371472 [5:03:15<13:45:40,  3.41it/s] 54%|█████▍    | 202446/371472 [5:03:16<14:12:47,  3.30it/s] 54%|█████▍    | 202447/371472 [5:03:16<13:34:02,  3.46it/s] 54%|█████▍    | 202448/371472 [5:03:16<13:39:52,  3.44it/s] 54%|█████▍    | 202449/371472 [5:03:16<13:11:43,  3.56it/s] 54%|█████▍    | 202450/371472 [5:03:17<13:27:54,  3.49it/s] 54%|█████▍    | 202451/371472 [5:03:17<13:59:20,  3.36it/s] 54%|█████▍    | 202452/371472 [5:03:17<13:16:24,  3.54it/s] 55%|█████▍    | 202453/371472 [5:03:18<12:48:45,  3.66it/s] 55%|█████▍    | 202454/371472 [5:03:18<13:01:09,  3.61it/s] 55%|█████▍    | 202455/371472 [5:03:18<13:05:20,  3.59it/s] 55%|█████▍    | 202456/371472 [5:03:18<13:06:50,  3.58it/s] 55%|█████▍    | 202457/371472 [5:03:19<13:08:07,  3.57it/s] 55%|█████▍    | 202458/371472 [5:03:19<12:42:24,  3.69it/s] 55%|█████▍    | 202459/371472 [5:03:19<12:56:17,  3.63it/s] 55%|█████▍    | 202460/371472 [5:03:19<12:32:35,  3.74it/s]                                                            {'loss': 2.9073, 'learning_rate': 5.097017819819431e-07, 'epoch': 8.72}
 55%|█████▍    | 202460/371472 [5:03:19<12:32:35,  3.74it/s] 55%|█████▍    | 202461/371472 [5:03:20<12:47:41,  3.67it/s] 55%|█████▍    | 202462/371472 [5:03:20<13:25:38,  3.50it/s] 55%|█████▍    | 202463/371472 [5:03:20<12:50:50,  3.65it/s] 55%|█████▍    | 202464/371472 [5:03:21<12:32:13,  3.74it/s] 55%|█████▍    | 202465/371472 [5:03:21<13:24:02,  3.50it/s] 55%|█████▍    | 202466/371472 [5:03:21<12:57:28,  3.62it/s] 55%|█████▍    | 202467/371472 [5:03:21<12:30:51,  3.75it/s] 55%|█████▍    | 202468/371472 [5:03:22<12:21:07,  3.80it/s] 55%|█████▍    | 202469/371472 [5:03:22<12:46:43,  3.67it/s] 55%|█████▍    | 202470/371472 [5:03:22<12:58:30,  3.62it/s] 55%|█████▍    | 202471/371472 [5:03:22<12:34:07,  3.74it/s] 55%|█████▍    | 202472/371472 [5:03:23<13:37:46,  3.44it/s] 55%|█████▍    | 202473/371472 [5:03:23<13:21:59,  3.51it/s] 55%|█████▍    | 202474/371472 [5:03:23<13:24:14,  3.50it/s] 55%|█████▍    | 202475/371472 [5:03:24<12:45:00,  3.68it/s] 55%|█████▍    | 202476/371472 [5:03:24<12:25:04,  3.78it/s] 55%|█████▍    | 202477/371472 [5:03:24<13:23:42,  3.50it/s] 55%|█████▍    | 202478/371472 [5:03:24<12:47:19,  3.67it/s] 55%|█████▍    | 202479/371472 [5:03:25<12:27:21,  3.77it/s] 55%|█████▍    | 202480/371472 [5:03:25<12:41:39,  3.70it/s]                                                            {'loss': 2.782, 'learning_rate': 5.096533000064642e-07, 'epoch': 8.72}
 55%|█████▍    | 202480/371472 [5:03:25<12:41:39,  3.70it/s] 55%|█████▍    | 202481/371472 [5:03:25<12:43:50,  3.69it/s] 55%|█████▍    | 202482/371472 [5:03:25<12:36:37,  3.72it/s] 55%|█████▍    | 202483/371472 [5:03:26<12:51:03,  3.65it/s] 55%|█████▍    | 202484/371472 [5:03:26<12:36:20,  3.72it/s] 55%|█████▍    | 202485/371472 [5:03:26<12:28:28,  3.76it/s] 55%|█████▍    | 202486/371472 [5:03:27<13:47:03,  3.41it/s] 55%|█████▍    | 202487/371472 [5:03:27<13:40:19,  3.43it/s] 55%|█████▍    | 202488/371472 [5:03:27<13:17:04,  3.53it/s] 55%|█████▍    | 202489/371472 [5:03:28<13:30:04,  3.48it/s] 55%|█████▍    | 202490/371472 [5:03:28<12:59:08,  3.61it/s] 55%|█████▍    | 202491/371472 [5:03:28<13:41:37,  3.43it/s] 55%|█████▍    | 202492/371472 [5:03:28<13:49:42,  3.39it/s] 55%|█████▍    | 202493/371472 [5:03:29<13:22:29,  3.51it/s] 55%|█████▍    | 202494/371472 [5:03:29<13:49:21,  3.40it/s] 55%|█████▍    | 202495/371472 [5:03:29<13:43:36,  3.42it/s] 55%|█████▍    | 202496/371472 [5:03:30<13:41:19,  3.43it/s] 55%|█████▍    | 202497/371472 [5:03:30<13:35:48,  3.45it/s] 55%|█████▍    | 202498/371472 [5:03:30<13:37:45,  3.44it/s] 55%|█████▍    | 202499/371472 [5:03:30<13:33:24,  3.46it/s] 55%|█████▍    | 202500/371472 [5:03:31<13:42:31,  3.42it/s]                                                            {'loss': 3.0578, 'learning_rate': 5.096048180309854e-07, 'epoch': 8.72}
 55%|█████▍    | 202500/371472 [5:03:31<13:42:31,  3.42it/s] 55%|█████▍    | 202501/371472 [5:03:31<14:37:17,  3.21it/s] 55%|█████▍    | 202502/371472 [5:03:31<14:07:24,  3.32it/s] 55%|█████▍    | 202503/371472 [5:03:32<13:52:43,  3.38it/s] 55%|█████▍    | 202504/371472 [5:03:32<13:56:31,  3.37it/s] 55%|█████▍    | 202505/371472 [5:03:32<13:35:18,  3.45it/s] 55%|█████▍    | 202506/371472 [5:03:32<13:20:04,  3.52it/s] 55%|█████▍    | 202507/371472 [5:03:33<13:42:10,  3.43it/s] 55%|█████▍    | 202508/371472 [5:03:33<15:05:28,  3.11it/s] 55%|█████▍    | 202509/371472 [5:03:34<15:24:05,  3.05it/s] 55%|█████▍    | 202510/371472 [5:03:34<14:48:51,  3.17it/s] 55%|█████▍    | 202511/371472 [5:03:34<14:26:59,  3.25it/s] 55%|█████▍    | 202512/371472 [5:03:34<14:26:16,  3.25it/s] 55%|█████▍    | 202513/371472 [5:03:35<15:43:53,  2.98it/s] 55%|█████▍    | 202514/371472 [5:03:35<14:59:54,  3.13it/s] 55%|█████▍    | 202515/371472 [5:03:35<15:23:37,  3.05it/s] 55%|█████▍    | 202516/371472 [5:03:36<14:52:08,  3.16it/s] 55%|█████▍    | 202517/371472 [5:03:36<14:05:39,  3.33it/s] 55%|█████▍    | 202518/371472 [5:03:36<14:11:40,  3.31it/s] 55%|█████▍    | 202519/371472 [5:03:37<13:39:19,  3.44it/s] 55%|█████▍    | 202520/371472 [5:03:37<13:38:46,  3.44it/s]                                                            {'loss': 2.7842, 'learning_rate': 5.095563360555065e-07, 'epoch': 8.72}
 55%|█████▍    | 202520/371472 [5:03:37<13:38:46,  3.44it/s] 55%|█████▍    | 202521/371472 [5:03:37<13:36:40,  3.45it/s] 55%|█████▍    | 202522/371472 [5:03:38<16:01:38,  2.93it/s] 55%|█████▍    | 202523/371472 [5:03:38<14:52:31,  3.15it/s] 55%|█████▍    | 202524/371472 [5:03:38<14:01:35,  3.35it/s] 55%|█████▍    | 202525/371472 [5:03:38<13:32:09,  3.47it/s] 55%|█████▍    | 202526/371472 [5:03:39<13:53:43,  3.38it/s] 55%|█████▍    | 202527/371472 [5:03:39<13:20:02,  3.52it/s] 55%|█████▍    | 202528/371472 [5:03:39<14:07:01,  3.32it/s] 55%|█████▍    | 202529/371472 [5:03:40<15:54:14,  2.95it/s] 55%|█████▍    | 202530/371472 [5:03:40<14:49:55,  3.16it/s] 55%|█████▍    | 202531/371472 [5:03:40<14:20:53,  3.27it/s] 55%|█████▍    | 202532/371472 [5:03:41<14:43:29,  3.19it/s] 55%|█████▍    | 202533/371472 [5:03:41<14:02:59,  3.34it/s] 55%|█████▍    | 202534/371472 [5:03:41<13:33:55,  3.46it/s] 55%|█████▍    | 202535/371472 [5:03:41<13:32:28,  3.47it/s] 55%|█████▍    | 202536/371472 [5:03:42<13:10:18,  3.56it/s] 55%|█████▍    | 202537/371472 [5:03:42<12:40:07,  3.70it/s] 55%|█████▍    | 202538/371472 [5:03:42<12:29:05,  3.76it/s] 55%|█████▍    | 202539/371472 [5:03:42<12:38:11,  3.71it/s] 55%|█████▍    | 202540/371472 [5:03:43<12:14:05,  3.84it/s]                                                            {'loss': 3.0012, 'learning_rate': 5.095078540800275e-07, 'epoch': 8.72}
 55%|█████▍    | 202540/371472 [5:03:43<12:14:05,  3.84it/s] 55%|█████▍    | 202541/371472 [5:03:43<13:06:18,  3.58it/s] 55%|█████▍    | 202542/371472 [5:03:43<13:34:07,  3.46it/s] 55%|█████▍    | 202543/371472 [5:03:44<13:21:42,  3.51it/s] 55%|█████▍    | 202544/371472 [5:03:44<13:16:49,  3.53it/s] 55%|█████▍    | 202545/371472 [5:03:44<13:05:39,  3.58it/s] 55%|█████▍    | 202546/371472 [5:03:44<12:51:39,  3.65it/s] 55%|█████▍    | 202547/371472 [5:03:45<14:06:30,  3.33it/s] 55%|█████▍    | 202548/371472 [5:03:45<14:09:44,  3.31it/s] 55%|█████▍    | 202549/371472 [5:03:45<13:37:20,  3.44it/s] 55%|█████▍    | 202550/371472 [5:03:46<13:27:02,  3.49it/s] 55%|█████▍    | 202551/371472 [5:03:46<13:21:07,  3.51it/s] 55%|█████▍    | 202552/371472 [5:03:46<12:57:40,  3.62it/s] 55%|█████▍    | 202553/371472 [5:03:46<12:46:49,  3.67it/s] 55%|█████▍    | 202554/371472 [5:03:47<13:13:14,  3.55it/s] 55%|█████▍    | 202555/371472 [5:03:47<12:57:10,  3.62it/s] 55%|█████▍    | 202556/371472 [5:03:47<13:13:58,  3.55it/s] 55%|█████▍    | 202557/371472 [5:03:48<13:12:20,  3.55it/s] 55%|█████▍    | 202558/371472 [5:03:48<14:15:55,  3.29it/s] 55%|█████▍    | 202559/371472 [5:03:48<13:32:23,  3.47it/s] 55%|█████▍    | 202560/371472 [5:03:48<12:58:58,  3.61it/s]                                                            {'loss': 3.1459, 'learning_rate': 5.094593721045486e-07, 'epoch': 8.72}
 55%|█████▍    | 202560/371472 [5:03:48<12:58:58,  3.61it/s] 55%|█████▍    | 202561/371472 [5:03:49<13:27:09,  3.49it/s] 55%|█████▍    | 202562/371472 [5:03:49<13:37:06,  3.45it/s] 55%|█████▍    | 202563/371472 [5:03:49<12:53:57,  3.64it/s] 55%|█████▍    | 202564/371472 [5:03:50<12:32:40,  3.74it/s] 55%|█████▍    | 202565/371472 [5:03:50<12:29:35,  3.76it/s] 55%|█████▍    | 202566/371472 [5:03:50<12:35:20,  3.73it/s] 55%|█████▍    | 202567/371472 [5:03:50<12:22:37,  3.79it/s] 55%|█████▍    | 202568/371472 [5:03:51<12:19:40,  3.81it/s] 55%|█████▍    | 202569/371472 [5:03:51<12:44:51,  3.68it/s] 55%|█████▍    | 202570/371472 [5:03:51<12:24:50,  3.78it/s] 55%|█████▍    | 202571/371472 [5:03:51<12:09:42,  3.86it/s] 55%|█████▍    | 202572/371472 [5:03:52<12:44:42,  3.68it/s] 55%|█████▍    | 202573/371472 [5:03:52<12:42:41,  3.69it/s] 55%|█████▍    | 202574/371472 [5:03:52<12:32:34,  3.74it/s] 55%|█████▍    | 202575/371472 [5:03:52<12:34:50,  3.73it/s] 55%|█████▍    | 202576/371472 [5:03:53<12:53:20,  3.64it/s] 55%|█████▍    | 202577/371472 [5:03:53<12:46:03,  3.67it/s] 55%|█████▍    | 202578/371472 [5:03:53<13:45:22,  3.41it/s] 55%|█████▍    | 202579/371472 [5:03:54<13:18:20,  3.53it/s] 55%|█████▍    | 202580/371472 [5:03:54<12:53:35,  3.64it/s]                                                            {'loss': 3.1033, 'learning_rate': 5.094108901290699e-07, 'epoch': 8.73}
 55%|█████▍    | 202580/371472 [5:03:54<12:53:35,  3.64it/s] 55%|█████▍    | 202581/371472 [5:03:54<13:23:33,  3.50it/s] 55%|█████▍    | 202582/371472 [5:03:55<14:07:47,  3.32it/s] 55%|█████▍    | 202583/371472 [5:03:55<13:36:20,  3.45it/s] 55%|█████▍    | 202584/371472 [5:03:55<13:52:55,  3.38it/s] 55%|█████▍    | 202585/371472 [5:03:55<14:25:53,  3.25it/s] 55%|█████▍    | 202586/371472 [5:03:56<15:04:26,  3.11it/s] 55%|█████▍    | 202587/371472 [5:03:56<14:10:24,  3.31it/s] 55%|█████▍    | 202588/371472 [5:03:56<13:53:15,  3.38it/s] 55%|█████▍    | 202589/371472 [5:03:57<13:34:23,  3.46it/s] 55%|█████▍    | 202590/371472 [5:03:57<14:22:52,  3.26it/s] 55%|█████▍    | 202591/371472 [5:03:57<13:41:22,  3.43it/s] 55%|█████▍    | 202592/371472 [5:03:57<13:22:28,  3.51it/s] 55%|█████▍    | 202593/371472 [5:03:58<13:19:16,  3.52it/s] 55%|█████▍    | 202594/371472 [5:03:58<13:35:19,  3.45it/s] 55%|█████▍    | 202595/371472 [5:03:58<13:29:44,  3.48it/s] 55%|█████▍    | 202596/371472 [5:03:59<13:06:52,  3.58it/s] 55%|█████▍    | 202597/371472 [5:03:59<13:40:27,  3.43it/s] 55%|█████▍    | 202598/371472 [5:03:59<14:12:55,  3.30it/s] 55%|█████▍    | 202599/371472 [5:04:00<14:06:11,  3.33it/s] 55%|█████▍    | 202600/371472 [5:04:00<13:48:20,  3.40it/s]                                                            {'loss': 2.7611, 'learning_rate': 5.093624081535908e-07, 'epoch': 8.73}
 55%|█████▍    | 202600/371472 [5:04:00<13:48:20,  3.40it/s] 55%|█████▍    | 202601/371472 [5:04:00<13:47:12,  3.40it/s] 55%|█████▍    | 202602/371472 [5:04:00<13:32:21,  3.46it/s] 55%|█████▍    | 202603/371472 [5:04:01<14:00:08,  3.35it/s] 55%|█████▍    | 202604/371472 [5:04:01<13:26:53,  3.49it/s] 55%|█████▍    | 202605/371472 [5:04:01<14:04:59,  3.33it/s] 55%|█████▍    | 202606/371472 [5:04:02<13:36:23,  3.45it/s] 55%|█████▍    | 202607/371472 [5:04:02<13:35:05,  3.45it/s] 55%|█████▍    | 202608/371472 [5:04:02<13:24:58,  3.50it/s] 55%|█████▍    | 202609/371472 [5:04:02<14:11:30,  3.31it/s] 55%|█████▍    | 202610/371472 [5:04:03<13:49:24,  3.39it/s] 55%|█████▍    | 202611/371472 [5:04:03<14:10:24,  3.31it/s] 55%|█████▍    | 202612/371472 [5:04:03<13:52:17,  3.38it/s] 55%|█████▍    | 202613/371472 [5:04:04<13:20:36,  3.52it/s] 55%|█████▍    | 202614/371472 [5:04:04<13:58:33,  3.36it/s] 55%|█████▍    | 202615/371472 [5:04:04<13:39:48,  3.43it/s] 55%|█████▍    | 202616/371472 [5:04:04<13:18:41,  3.52it/s] 55%|█████▍    | 202617/371472 [5:04:05<12:59:05,  3.61it/s] 55%|█████▍    | 202618/371472 [5:04:05<12:33:52,  3.73it/s] 55%|█████▍    | 202619/371472 [5:04:05<14:08:55,  3.32it/s] 55%|█████▍    | 202620/371472 [5:04:06<15:05:17,  3.11it/s]                                                            {'loss': 2.9981, 'learning_rate': 5.09313926178112e-07, 'epoch': 8.73}
 55%|█████▍    | 202620/371472 [5:04:06<15:05:17,  3.11it/s] 55%|█████▍    | 202621/371472 [5:04:06<15:33:18,  3.02it/s] 55%|█████▍    | 202622/371472 [5:04:06<14:57:30,  3.14it/s] 55%|█████▍    | 202623/371472 [5:04:07<15:09:27,  3.09it/s] 55%|█████▍    | 202624/371472 [5:04:07<15:04:01,  3.11it/s] 55%|█████▍    | 202625/371472 [5:04:07<15:33:40,  3.01it/s] 55%|█████▍    | 202626/371472 [5:04:08<15:20:07,  3.06it/s] 55%|█████▍    | 202627/371472 [5:04:08<15:19:29,  3.06it/s] 55%|█████▍    | 202628/371472 [5:04:08<15:13:35,  3.08it/s] 55%|█████▍    | 202629/371472 [5:04:09<13:57:53,  3.36it/s] 55%|█████▍    | 202630/371472 [5:04:09<13:38:05,  3.44it/s] 55%|█████▍    | 202631/371472 [5:04:09<13:34:03,  3.46it/s] 55%|█████▍    | 202632/371472 [5:04:09<13:39:42,  3.43it/s] 55%|█████▍    | 202633/371472 [5:04:10<13:31:39,  3.47it/s] 55%|█████▍    | 202634/371472 [5:04:10<13:36:41,  3.45it/s] 55%|█████▍    | 202635/371472 [5:04:10<13:24:21,  3.50it/s] 55%|█████▍    | 202636/371472 [5:04:11<13:46:49,  3.40it/s] 55%|█████▍    | 202637/371472 [5:04:11<13:50:20,  3.39it/s] 55%|█████▍    | 202638/371472 [5:04:11<13:42:16,  3.42it/s] 55%|█████▍    | 202639/371472 [5:04:11<13:12:21,  3.55it/s] 55%|█████▍    | 202640/371472 [5:04:12<13:34:54,  3.45it/s]                                                            {'loss': 2.9205, 'learning_rate': 5.092654442026331e-07, 'epoch': 8.73}
 55%|█████▍    | 202640/371472 [5:04:12<13:34:54,  3.45it/s] 55%|█████▍    | 202641/371472 [5:04:12<13:45:19,  3.41it/s] 55%|█████▍    | 202642/371472 [5:04:12<13:13:02,  3.55it/s] 55%|█████▍    | 202643/371472 [5:04:13<13:03:19,  3.59it/s] 55%|█████▍    | 202644/371472 [5:04:13<13:22:56,  3.50it/s] 55%|█████▍    | 202645/371472 [5:04:13<14:29:13,  3.24it/s] 55%|█████▍    | 202646/371472 [5:04:14<14:38:47,  3.20it/s] 55%|█████▍    | 202647/371472 [5:04:14<13:51:48,  3.38it/s] 55%|█████▍    | 202648/371472 [5:04:14<13:38:07,  3.44it/s] 55%|█████▍    | 202649/371472 [5:04:14<13:27:48,  3.48it/s] 55%|█████▍    | 202650/371472 [5:04:15<13:07:25,  3.57it/s] 55%|█████▍    | 202651/371472 [5:04:15<12:43:03,  3.69it/s] 55%|█████▍    | 202652/371472 [5:04:15<12:46:58,  3.67it/s] 55%|█████▍    | 202653/371472 [5:04:15<12:42:25,  3.69it/s] 55%|█████▍    | 202654/371472 [5:04:16<12:48:02,  3.66it/s] 55%|█████▍    | 202655/371472 [5:04:16<12:46:50,  3.67it/s] 55%|█████▍    | 202656/371472 [5:04:16<13:50:13,  3.39it/s] 55%|█████▍    | 202657/371472 [5:04:17<14:32:00,  3.23it/s] 55%|█████▍    | 202658/371472 [5:04:17<14:06:09,  3.33it/s] 55%|█████▍    | 202659/371472 [5:04:17<13:24:44,  3.50it/s] 55%|█████▍    | 202660/371472 [5:04:17<12:51:24,  3.65it/s]                                                            {'loss': 3.0639, 'learning_rate': 5.092169622271542e-07, 'epoch': 8.73}
 55%|█████▍    | 202660/371472 [5:04:17<12:51:24,  3.65it/s] 55%|█████▍    | 202661/371472 [5:04:18<12:55:23,  3.63it/s] 55%|█████▍    | 202662/371472 [5:04:18<12:40:45,  3.70it/s] 55%|█████▍    | 202663/371472 [5:04:18<13:08:56,  3.57it/s] 55%|█████▍    | 202664/371472 [5:04:19<13:07:01,  3.57it/s] 55%|█████▍    | 202665/371472 [5:04:19<13:03:21,  3.59it/s] 55%|█████▍    | 202666/371472 [5:04:19<12:30:31,  3.75it/s] 55%|█████▍    | 202667/371472 [5:04:19<14:00:03,  3.35it/s] 55%|█████▍    | 202668/371472 [5:04:20<13:50:28,  3.39it/s] 55%|█████▍    | 202669/371472 [5:04:20<13:33:10,  3.46it/s] 55%|█████▍    | 202670/371472 [5:04:20<13:13:00,  3.55it/s] 55%|█████▍    | 202671/371472 [5:04:21<14:03:35,  3.33it/s] 55%|█████▍    | 202672/371472 [5:04:21<14:17:25,  3.28it/s] 55%|█████▍    | 202673/371472 [5:04:21<13:29:46,  3.47it/s] 55%|█████▍    | 202674/371472 [5:04:22<13:58:55,  3.35it/s] 55%|█████▍    | 202675/371472 [5:04:22<13:26:37,  3.49it/s] 55%|█████▍    | 202676/371472 [5:04:22<13:29:31,  3.48it/s] 55%|█████▍    | 202677/371472 [5:04:22<12:54:41,  3.63it/s] 55%|█████▍    | 202678/371472 [5:04:23<12:35:26,  3.72it/s] 55%|█████▍    | 202679/371472 [5:04:23<13:31:48,  3.47it/s] 55%|█████▍    | 202680/371472 [5:04:23<13:09:10,  3.56it/s]                                                            {'loss': 3.0214, 'learning_rate': 5.091684802516752e-07, 'epoch': 8.73}
 55%|█████▍    | 202680/371472 [5:04:23<13:09:10,  3.56it/s] 55%|█████▍    | 202681/371472 [5:04:23<13:02:25,  3.60it/s] 55%|█████▍    | 202682/371472 [5:04:24<13:21:32,  3.51it/s] 55%|█████▍    | 202683/371472 [5:04:24<13:07:13,  3.57it/s] 55%|█████▍    | 202684/371472 [5:04:24<12:48:25,  3.66it/s] 55%|█████▍    | 202685/371472 [5:04:25<13:29:04,  3.48it/s] 55%|█████▍    | 202686/371472 [5:04:25<13:23:28,  3.50it/s] 55%|█████▍    | 202687/371472 [5:04:25<12:59:13,  3.61it/s] 55%|█████▍    | 202688/371472 [5:04:25<12:37:38,  3.71it/s] 55%|█████▍    | 202689/371472 [5:04:26<12:26:33,  3.77it/s] 55%|█████▍    | 202690/371472 [5:04:26<13:48:36,  3.39it/s] 55%|█████▍    | 202691/371472 [5:04:26<13:36:25,  3.45it/s] 55%|█████▍    | 202692/371472 [5:04:27<13:44:03,  3.41it/s] 55%|█████▍    | 202693/371472 [5:04:27<13:22:50,  3.50it/s] 55%|█████▍    | 202694/371472 [5:04:27<13:03:08,  3.59it/s] 55%|█████▍    | 202695/371472 [5:04:27<12:38:54,  3.71it/s] 55%|█████▍    | 202696/371472 [5:04:28<12:42:49,  3.69it/s] 55%|█████▍    | 202697/371472 [5:04:28<13:13:26,  3.55it/s] 55%|█████▍    | 202698/371472 [5:04:28<13:33:56,  3.46it/s] 55%|█████▍    | 202699/371472 [5:04:29<13:45:57,  3.41it/s] 55%|█████▍    | 202700/371472 [5:04:29<13:21:12,  3.51it/s]                                                            {'loss': 2.9001, 'learning_rate': 5.091199982761965e-07, 'epoch': 8.73}
 55%|█████▍    | 202700/371472 [5:04:29<13:21:12,  3.51it/s] 55%|█████▍    | 202701/371472 [5:04:29<13:01:31,  3.60it/s] 55%|█████▍    | 202702/371472 [5:04:29<12:59:32,  3.61it/s] 55%|█████▍    | 202703/371472 [5:04:30<12:47:58,  3.66it/s] 55%|█████▍    | 202704/371472 [5:04:30<12:36:43,  3.72it/s] 55%|█████▍    | 202705/371472 [5:04:30<13:22:59,  3.50it/s] 55%|█████▍    | 202706/371472 [5:04:30<13:39:45,  3.43it/s] 55%|█████▍    | 202707/371472 [5:04:31<13:37:31,  3.44it/s] 55%|█████▍    | 202708/371472 [5:04:31<13:09:21,  3.56it/s] 55%|█████▍    | 202709/371472 [5:04:31<12:55:09,  3.63it/s] 55%|█████▍    | 202710/371472 [5:04:32<13:05:58,  3.58it/s] 55%|█████▍    | 202711/371472 [5:04:32<13:19:18,  3.52it/s] 55%|█████▍    | 202712/371472 [5:04:32<13:41:43,  3.42it/s] 55%|█████▍    | 202713/371472 [5:04:32<13:30:52,  3.47it/s] 55%|█████▍    | 202714/371472 [5:04:33<13:07:30,  3.57it/s] 55%|█████▍    | 202715/371472 [5:04:33<14:14:00,  3.29it/s] 55%|█████▍    | 202716/371472 [5:04:33<13:49:45,  3.39it/s] 55%|█████▍    | 202717/371472 [5:04:34<13:09:05,  3.56it/s] 55%|█████▍    | 202718/371472 [5:04:34<13:11:33,  3.55it/s] 55%|█████▍    | 202719/371472 [5:04:34<13:38:41,  3.44it/s] 55%|█████▍    | 202720/371472 [5:04:34<13:11:54,  3.55it/s]                                                            {'loss': 2.9145, 'learning_rate': 5.090715163007176e-07, 'epoch': 8.73}
 55%|█████▍    | 202720/371472 [5:04:34<13:11:54,  3.55it/s] 55%|█████▍    | 202721/371472 [5:04:35<13:24:38,  3.50it/s] 55%|█████▍    | 202722/371472 [5:04:35<13:46:34,  3.40it/s] 55%|█████▍    | 202723/371472 [5:04:35<13:15:06,  3.54it/s] 55%|█████▍    | 202724/371472 [5:04:36<12:46:39,  3.67it/s] 55%|█████▍    | 202725/371472 [5:04:36<12:40:24,  3.70it/s] 55%|█████▍    | 202726/371472 [5:04:36<12:24:04,  3.78it/s] 55%|█████▍    | 202727/371472 [5:04:36<14:02:41,  3.34it/s] 55%|█████▍    | 202728/371472 [5:04:37<13:19:45,  3.52it/s] 55%|█████▍    | 202729/371472 [5:04:37<13:13:03,  3.55it/s] 55%|█████▍    | 202730/371472 [5:04:37<13:10:45,  3.56it/s] 55%|█████▍    | 202731/371472 [5:04:38<13:05:26,  3.58it/s] 55%|█████▍    | 202732/371472 [5:04:38<13:31:52,  3.46it/s] 55%|█████▍    | 202733/371472 [5:04:38<15:31:31,  3.02it/s] 55%|█████▍    | 202734/371472 [5:04:39<14:43:25,  3.18it/s] 55%|█████▍    | 202735/371472 [5:04:39<14:04:12,  3.33it/s] 55%|█████▍    | 202736/371472 [5:04:39<13:54:39,  3.37it/s] 55%|█████▍    | 202737/371472 [5:04:39<13:34:19,  3.45it/s] 55%|█████▍    | 202738/371472 [5:04:40<13:08:01,  3.57it/s] 55%|█████▍    | 202739/371472 [5:04:40<13:44:00,  3.41it/s] 55%|█████▍    | 202740/371472 [5:04:40<13:54:11,  3.37it/s]                                                            {'loss': 2.9205, 'learning_rate': 5.090230343252387e-07, 'epoch': 8.73}
 55%|█████▍    | 202740/371472 [5:04:40<13:54:11,  3.37it/s] 55%|█████▍    | 202741/371472 [5:04:41<14:32:31,  3.22it/s] 55%|█████▍    | 202742/371472 [5:04:41<14:45:44,  3.17it/s] 55%|█████▍    | 202743/371472 [5:04:41<15:09:47,  3.09it/s] 55%|█████▍    | 202744/371472 [5:04:42<14:17:47,  3.28it/s] 55%|█████▍    | 202745/371472 [5:04:42<14:04:25,  3.33it/s] 55%|█████▍    | 202746/371472 [5:04:42<13:47:21,  3.40it/s] 55%|█████▍    | 202747/371472 [5:04:42<13:41:48,  3.42it/s] 55%|█████▍    | 202748/371472 [5:04:43<13:14:12,  3.54it/s] 55%|█████▍    | 202749/371472 [5:04:43<14:09:33,  3.31it/s] 55%|█████▍    | 202750/371472 [5:04:43<13:43:55,  3.41it/s] 55%|█████▍    | 202751/371472 [5:04:44<14:28:13,  3.24it/s] 55%|█████▍    | 202752/371472 [5:04:44<14:18:25,  3.28it/s] 55%|█████▍    | 202753/371472 [5:04:44<14:16:00,  3.28it/s] 55%|█████▍    | 202754/371472 [5:04:45<14:05:39,  3.33it/s] 55%|█████▍    | 202755/371472 [5:04:45<13:28:36,  3.48it/s] 55%|█████▍    | 202756/371472 [5:04:45<13:20:30,  3.51it/s] 55%|█████▍    | 202757/371472 [5:04:45<12:55:26,  3.63it/s] 55%|█████▍    | 202758/371472 [5:04:46<12:56:43,  3.62it/s] 55%|█████▍    | 202759/371472 [5:04:46<13:03:31,  3.59it/s] 55%|█████▍    | 202760/371472 [5:04:46<13:38:46,  3.43it/s]                                                            {'loss': 3.0735, 'learning_rate': 5.089745523497597e-07, 'epoch': 8.73}
 55%|█████▍    | 202760/371472 [5:04:46<13:38:46,  3.43it/s] 55%|█████▍    | 202761/371472 [5:04:46<13:16:45,  3.53it/s] 55%|█████▍    | 202762/371472 [5:04:47<13:55:36,  3.36it/s] 55%|█████▍    | 202763/371472 [5:04:47<14:11:01,  3.30it/s] 55%|█████▍    | 202764/371472 [5:04:47<13:32:15,  3.46it/s] 55%|█████▍    | 202765/371472 [5:04:48<13:26:23,  3.49it/s] 55%|█████▍    | 202766/371472 [5:04:48<12:59:26,  3.61it/s] 55%|█████▍    | 202767/371472 [5:04:48<13:17:59,  3.52it/s] 55%|█████▍    | 202768/371472 [5:04:48<13:05:35,  3.58it/s] 55%|█████▍    | 202769/371472 [5:04:49<13:04:01,  3.59it/s] 55%|█████▍    | 202770/371472 [5:04:49<12:51:43,  3.64it/s] 55%|█████▍    | 202771/371472 [5:04:49<13:22:22,  3.50it/s] 55%|█████▍    | 202772/371472 [5:04:50<13:12:05,  3.55it/s] 55%|█████▍    | 202773/371472 [5:04:50<13:13:13,  3.54it/s] 55%|█████▍    | 202774/371472 [5:04:50<12:58:41,  3.61it/s] 55%|█████▍    | 202775/371472 [5:04:50<12:56:31,  3.62it/s] 55%|█████▍    | 202776/371472 [5:04:51<12:48:04,  3.66it/s] 55%|█████▍    | 202777/371472 [5:04:51<12:42:27,  3.69it/s] 55%|█████▍    | 202778/371472 [5:04:51<13:23:02,  3.50it/s] 55%|█████▍    | 202779/371472 [5:04:52<12:50:27,  3.65it/s] 55%|█████▍    | 202780/371472 [5:04:52<12:28:39,  3.76it/s]                                                            {'loss': 3.1375, 'learning_rate': 5.089260703742808e-07, 'epoch': 8.73}
 55%|█████▍    | 202780/371472 [5:04:52<12:28:39,  3.76it/s] 55%|█████▍    | 202781/371472 [5:04:52<12:49:15,  3.65it/s] 55%|█████▍    | 202782/371472 [5:04:52<12:40:54,  3.69it/s] 55%|█████▍    | 202783/371472 [5:04:53<13:05:56,  3.58it/s] 55%|█████▍    | 202784/371472 [5:04:53<13:29:16,  3.47it/s] 55%|█████▍    | 202785/371472 [5:04:53<13:52:43,  3.38it/s] 55%|█████▍    | 202786/371472 [5:04:54<13:20:56,  3.51it/s] 55%|█████▍    | 202787/371472 [5:04:54<12:51:53,  3.64it/s] 55%|█████▍    | 202788/371472 [5:04:54<12:42:36,  3.69it/s] 55%|█████▍    | 202789/371472 [5:04:54<12:49:57,  3.65it/s] 55%|█████▍    | 202790/371472 [5:04:55<12:29:55,  3.75it/s] 55%|█████▍    | 202791/371472 [5:04:55<12:32:36,  3.74it/s] 55%|█████▍    | 202792/371472 [5:04:55<12:53:04,  3.64it/s] 55%|█████▍    | 202793/371472 [5:04:55<12:44:31,  3.68it/s] 55%|█████▍    | 202794/371472 [5:04:56<12:24:53,  3.77it/s] 55%|█████▍    | 202795/371472 [5:04:56<12:55:21,  3.63it/s] 55%|█████▍    | 202796/371472 [5:04:56<12:39:50,  3.70it/s] 55%|█████▍    | 202797/371472 [5:04:56<12:27:05,  3.76it/s] 55%|█████▍    | 202798/371472 [5:04:57<12:36:17,  3.72it/s] 55%|█████▍    | 202799/371472 [5:04:57<12:27:51,  3.76it/s] 55%|█████▍    | 202800/371472 [5:04:57<13:43:32,  3.41it/s]                                                            {'loss': 2.8944, 'learning_rate': 5.088775883988019e-07, 'epoch': 8.73}
 55%|█████▍    | 202800/371472 [5:04:57<13:43:32,  3.41it/s] 55%|█████▍    | 202801/371472 [5:04:58<13:37:07,  3.44it/s] 55%|█████▍    | 202802/371472 [5:04:58<13:43:27,  3.41it/s] 55%|█████▍    | 202803/371472 [5:04:58<14:36:54,  3.21it/s] 55%|█████▍    | 202804/371472 [5:04:59<14:56:46,  3.13it/s] 55%|█████▍    | 202805/371472 [5:04:59<14:22:14,  3.26it/s] 55%|█████▍    | 202806/371472 [5:04:59<14:04:31,  3.33it/s] 55%|█████▍    | 202807/371472 [5:04:59<13:34:43,  3.45it/s] 55%|█████▍    | 202808/371472 [5:05:00<13:04:39,  3.58it/s] 55%|█████▍    | 202809/371472 [5:05:00<13:05:50,  3.58it/s] 55%|█████▍    | 202810/371472 [5:05:00<13:14:31,  3.54it/s] 55%|█████▍    | 202811/371472 [5:05:01<13:26:09,  3.49it/s] 55%|█████▍    | 202812/371472 [5:05:01<12:51:15,  3.64it/s] 55%|█████▍    | 202813/371472 [5:05:01<12:46:36,  3.67it/s] 55%|█████▍    | 202814/371472 [5:05:01<13:13:34,  3.54it/s] 55%|█████▍    | 202815/371472 [5:05:02<12:53:16,  3.64it/s] 55%|█████▍    | 202816/371472 [5:05:02<13:03:24,  3.59it/s] 55%|█████▍    | 202817/371472 [5:05:02<13:40:05,  3.43it/s] 55%|█████▍    | 202818/371472 [5:05:03<14:00:40,  3.34it/s] 55%|█████▍    | 202819/371472 [5:05:03<13:57:55,  3.35it/s] 55%|█████▍    | 202820/371472 [5:05:03<13:41:09,  3.42it/s]                                                            {'loss': 3.031, 'learning_rate': 5.08829106423323e-07, 'epoch': 8.74}
 55%|█████▍    | 202820/371472 [5:05:03<13:41:09,  3.42it/s] 55%|█████▍    | 202821/371472 [5:05:03<13:42:48,  3.42it/s] 55%|█████▍    | 202822/371472 [5:05:04<13:18:24,  3.52it/s] 55%|█████▍    | 202823/371472 [5:05:04<13:10:28,  3.56it/s] 55%|█████▍    | 202824/371472 [5:05:04<13:30:46,  3.47it/s] 55%|█████▍    | 202825/371472 [5:05:05<13:29:25,  3.47it/s] 55%|█████▍    | 202826/371472 [5:05:05<13:22:13,  3.50it/s] 55%|█████▍    | 202827/371472 [5:05:05<12:49:55,  3.65it/s] 55%|█████▍    | 202828/371472 [5:05:05<13:03:00,  3.59it/s] 55%|█████▍    | 202829/371472 [5:05:06<13:17:43,  3.52it/s] 55%|█████▍    | 202830/371472 [5:05:06<13:47:02,  3.40it/s] 55%|█████▍    | 202831/371472 [5:05:06<13:32:28,  3.46it/s] 55%|█████▍    | 202832/371472 [5:05:07<13:25:25,  3.49it/s] 55%|█████▍    | 202833/371472 [5:05:07<13:22:05,  3.50it/s] 55%|█████▍    | 202834/371472 [5:05:07<13:42:00,  3.42it/s] 55%|█████▍    | 202835/371472 [5:05:07<13:27:23,  3.48it/s] 55%|█████▍    | 202836/371472 [5:05:08<14:04:53,  3.33it/s] 55%|█████▍    | 202837/371472 [5:05:08<13:19:24,  3.52it/s] 55%|█████▍    | 202838/371472 [5:05:08<14:25:13,  3.25it/s] 55%|█████▍    | 202839/371472 [5:05:09<14:16:10,  3.28it/s] 55%|█████▍    | 202840/371472 [5:05:09<14:02:11,  3.34it/s]                                                            {'loss': 2.9258, 'learning_rate': 5.087806244478441e-07, 'epoch': 8.74}
 55%|█████▍    | 202840/371472 [5:05:09<14:02:11,  3.34it/s] 55%|█████▍    | 202841/371472 [5:05:09<13:52:16,  3.38it/s] 55%|█████▍    | 202842/371472 [5:05:10<13:35:17,  3.45it/s] 55%|█████▍    | 202843/371472 [5:05:10<13:22:18,  3.50it/s] 55%|█████▍    | 202844/371472 [5:05:10<13:35:55,  3.44it/s] 55%|█████▍    | 202845/371472 [5:05:10<13:38:57,  3.43it/s] 55%|█████▍    | 202846/371472 [5:05:11<13:44:06,  3.41it/s] 55%|█████▍    | 202847/371472 [5:05:11<13:24:46,  3.49it/s] 55%|█████▍    | 202848/371472 [5:05:11<13:40:31,  3.43it/s] 55%|█████▍    | 202849/371472 [5:05:12<14:37:30,  3.20it/s] 55%|█████▍    | 202850/371472 [5:05:12<14:01:10,  3.34it/s] 55%|█████▍    | 202851/371472 [5:05:12<13:36:20,  3.44it/s] 55%|█████▍    | 202852/371472 [5:05:12<12:55:31,  3.62it/s] 55%|█████▍    | 202853/371472 [5:05:13<13:59:40,  3.35it/s] 55%|█████▍    | 202854/371472 [5:05:13<13:25:22,  3.49it/s] 55%|█████▍    | 202855/371472 [5:05:13<13:25:58,  3.49it/s] 55%|█████▍    | 202856/371472 [5:05:14<13:26:55,  3.48it/s] 55%|█████▍    | 202857/371472 [5:05:14<13:36:44,  3.44it/s] 55%|█████▍    | 202858/371472 [5:05:14<13:55:39,  3.36it/s] 55%|█████▍    | 202859/371472 [5:05:14<13:21:30,  3.51it/s] 55%|█████▍    | 202860/371472 [5:05:15<13:54:56,  3.37it/s]                                                            {'loss': 3.0212, 'learning_rate': 5.087321424723652e-07, 'epoch': 8.74}
 55%|█████▍    | 202860/371472 [5:05:15<13:54:56,  3.37it/s] 55%|█████▍    | 202861/371472 [5:05:15<13:51:23,  3.38it/s] 55%|█████▍    | 202862/371472 [5:05:15<13:45:33,  3.40it/s] 55%|█████▍    | 202863/371472 [5:05:16<15:03:59,  3.11it/s] 55%|█████▍    | 202864/371472 [5:05:16<14:27:48,  3.24it/s] 55%|█████▍    | 202865/371472 [5:05:16<14:09:54,  3.31it/s] 55%|█████▍    | 202866/371472 [5:05:17<13:58:28,  3.35it/s] 55%|█████▍    | 202867/371472 [5:05:17<14:15:40,  3.28it/s] 55%|█████▍    | 202868/371472 [5:05:17<14:21:42,  3.26it/s] 55%|█████▍    | 202869/371472 [5:05:17<13:55:51,  3.36it/s] 55%|█████▍    | 202870/371472 [5:05:18<13:27:44,  3.48it/s] 55%|█████▍    | 202871/371472 [5:05:18<14:20:47,  3.26it/s] 55%|█████▍    | 202872/371472 [5:05:18<14:25:52,  3.25it/s] 55%|█████▍    | 202873/371472 [5:05:19<14:00:10,  3.34it/s] 55%|█████▍    | 202874/371472 [5:05:19<13:23:20,  3.50it/s] 55%|█████▍    | 202875/371472 [5:05:19<13:09:01,  3.56it/s] 55%|█████▍    | 202876/371472 [5:05:20<13:33:48,  3.45it/s] 55%|█████▍    | 202877/371472 [5:05:20<13:30:03,  3.47it/s] 55%|█████▍    | 202878/371472 [5:05:20<14:23:42,  3.25it/s] 55%|█████▍    | 202879/371472 [5:05:21<14:52:58,  3.15it/s] 55%|█████▍    | 202880/371472 [5:05:21<14:10:58,  3.30it/s]                                                            {'loss': 2.8208, 'learning_rate': 5.086836604968864e-07, 'epoch': 8.74}
 55%|█████▍    | 202880/371472 [5:05:21<14:10:58,  3.30it/s] 55%|█████▍    | 202881/371472 [5:05:21<14:04:07,  3.33it/s] 55%|█████▍    | 202882/371472 [5:05:21<13:51:18,  3.38it/s] 55%|█████▍    | 202883/371472 [5:05:22<13:33:59,  3.45it/s] 55%|█████▍    | 202884/371472 [5:05:22<13:02:05,  3.59it/s] 55%|█████▍    | 202885/371472 [5:05:22<13:05:03,  3.58it/s] 55%|█████▍    | 202886/371472 [5:05:22<12:35:04,  3.72it/s] 55%|█████▍    | 202887/371472 [5:05:23<12:35:51,  3.72it/s] 55%|█████▍    | 202888/371472 [5:05:23<12:38:50,  3.70it/s] 55%|█████▍    | 202889/371472 [5:05:23<12:43:11,  3.68it/s] 55%|█████▍    | 202890/371472 [5:05:24<13:00:35,  3.60it/s] 55%|█████▍    | 202891/371472 [5:05:24<12:35:05,  3.72it/s] 55%|█████▍    | 202892/371472 [5:05:24<12:44:07,  3.68it/s] 55%|█████▍    | 202893/371472 [5:05:24<12:39:03,  3.70it/s] 55%|█████▍    | 202894/371472 [5:05:25<12:42:50,  3.68it/s] 55%|█████▍    | 202895/371472 [5:05:25<12:26:28,  3.76it/s] 55%|█████▍    | 202896/371472 [5:05:25<12:17:33,  3.81it/s] 55%|█████▍    | 202897/371472 [5:05:25<12:08:43,  3.86it/s] 55%|█████▍    | 202898/371472 [5:05:26<12:36:47,  3.71it/s] 55%|█████▍    | 202899/371472 [5:05:26<12:48:42,  3.65it/s] 55%|█████▍    | 202900/371472 [5:05:26<13:28:56,  3.47it/s]                                                            {'loss': 3.014, 'learning_rate': 5.086351785214074e-07, 'epoch': 8.74}
 55%|█████▍    | 202900/371472 [5:05:26<13:28:56,  3.47it/s] 55%|█████▍    | 202901/371472 [5:05:27<12:56:53,  3.62it/s] 55%|█████▍    | 202902/371472 [5:05:27<13:58:27,  3.35it/s] 55%|█████▍    | 202903/371472 [5:05:27<16:17:29,  2.87it/s] 55%|█████▍    | 202904/371472 [5:05:28<15:47:24,  2.97it/s] 55%|█████▍    | 202905/371472 [5:05:28<14:48:06,  3.16it/s] 55%|█████▍    | 202906/371472 [5:05:28<14:20:07,  3.27it/s] 55%|█████▍    | 202907/371472 [5:05:28<13:48:02,  3.39it/s] 55%|█████▍    | 202908/371472 [5:05:29<13:09:48,  3.56it/s] 55%|█████▍    | 202909/371472 [5:05:29<13:48:58,  3.39it/s] 55%|█████▍    | 202910/371472 [5:05:29<13:28:04,  3.48it/s] 55%|█████▍    | 202911/371472 [5:05:30<13:11:38,  3.55it/s] 55%|█████▍    | 202912/371472 [5:05:30<13:02:57,  3.59it/s] 55%|█████▍    | 202913/371472 [5:05:30<13:16:21,  3.53it/s] 55%|█████▍    | 202914/371472 [5:05:30<13:14:57,  3.53it/s] 55%|█████▍    | 202915/371472 [5:05:31<12:50:02,  3.65it/s] 55%|█████▍    | 202916/371472 [5:05:31<12:56:01,  3.62it/s] 55%|█████▍    | 202917/371472 [5:05:31<12:59:05,  3.61it/s] 55%|█████▍    | 202918/371472 [5:05:32<13:52:53,  3.37it/s] 55%|█████▍    | 202919/371472 [5:05:32<13:26:27,  3.48it/s] 55%|█████▍    | 202920/371472 [5:05:32<12:55:34,  3.62it/s]                                                            {'loss': 2.9253, 'learning_rate': 5.085866965459285e-07, 'epoch': 8.74}
 55%|█████▍    | 202920/371472 [5:05:32<12:55:34,  3.62it/s] 55%|█████▍    | 202921/371472 [5:05:32<13:12:35,  3.54it/s] 55%|█████▍    | 202922/371472 [5:05:33<12:59:09,  3.61it/s] 55%|█████▍    | 202923/371472 [5:05:33<13:19:09,  3.52it/s] 55%|█████▍    | 202924/371472 [5:05:33<12:58:35,  3.61it/s] 55%|█████▍    | 202925/371472 [5:05:33<12:57:42,  3.61it/s] 55%|█████▍    | 202926/371472 [5:05:34<13:43:35,  3.41it/s] 55%|█████▍    | 202927/371472 [5:05:34<13:09:12,  3.56it/s] 55%|█████▍    | 202928/371472 [5:05:34<13:08:37,  3.56it/s] 55%|█████▍    | 202929/371472 [5:05:35<12:39:36,  3.70it/s] 55%|█████▍    | 202930/371472 [5:05:35<12:21:13,  3.79it/s] 55%|█████▍    | 202931/371472 [5:05:35<12:19:44,  3.80it/s] 55%|█████▍    | 202932/371472 [5:05:35<12:10:39,  3.84it/s] 55%|█████▍    | 202933/371472 [5:05:36<12:58:25,  3.61it/s] 55%|█████▍    | 202934/371472 [5:05:36<13:02:50,  3.59it/s] 55%|█████▍    | 202935/371472 [5:05:36<12:42:36,  3.68it/s] 55%|█████▍    | 202936/371472 [5:05:37<13:29:44,  3.47it/s] 55%|█████▍    | 202937/371472 [5:05:37<13:33:35,  3.45it/s] 55%|█████▍    | 202938/371472 [5:05:37<12:56:09,  3.62it/s] 55%|█████▍    | 202939/371472 [5:05:37<13:25:35,  3.49it/s] 55%|█████▍    | 202940/371472 [5:05:38<12:53:47,  3.63it/s]                                                            {'loss': 3.041, 'learning_rate': 5.085382145704496e-07, 'epoch': 8.74}
 55%|█████▍    | 202940/371472 [5:05:38<12:53:47,  3.63it/s] 55%|█████▍    | 202941/371472 [5:05:38<12:43:13,  3.68it/s] 55%|█████▍    | 202942/371472 [5:05:38<12:23:24,  3.78it/s] 55%|█████▍    | 202943/371472 [5:05:38<12:37:49,  3.71it/s] 55%|█████▍    | 202944/371472 [5:05:39<12:55:58,  3.62it/s] 55%|█████▍    | 202945/371472 [5:05:39<13:44:28,  3.41it/s] 55%|█████▍    | 202946/371472 [5:05:39<13:07:35,  3.57it/s] 55%|█████▍    | 202947/371472 [5:05:40<13:35:38,  3.44it/s] 55%|█████▍    | 202948/371472 [5:05:40<12:55:40,  3.62it/s] 55%|█████▍    | 202949/371472 [5:05:40<12:32:21,  3.73it/s] 55%|█████▍    | 202950/371472 [5:05:40<12:36:41,  3.71it/s] 55%|█████▍    | 202951/371472 [5:05:41<13:16:51,  3.52it/s] 55%|█████▍    | 202952/371472 [5:05:41<13:15:25,  3.53it/s] 55%|█████▍    | 202953/371472 [5:05:41<12:47:27,  3.66it/s] 55%|█████▍    | 202954/371472 [5:05:42<13:17:08,  3.52it/s] 55%|█████▍    | 202955/371472 [5:05:42<13:57:11,  3.35it/s] 55%|█████▍    | 202956/371472 [5:05:42<13:35:38,  3.44it/s] 55%|█████▍    | 202957/371472 [5:05:42<13:16:53,  3.52it/s] 55%|█████▍    | 202958/371472 [5:05:43<15:37:17,  3.00it/s] 55%|█████▍    | 202959/371472 [5:05:43<14:39:48,  3.19it/s] 55%|█████▍    | 202960/371472 [5:05:43<14:38:48,  3.20it/s]                                                            {'loss': 2.934, 'learning_rate': 5.084897325949709e-07, 'epoch': 8.74}
 55%|█████▍    | 202960/371472 [5:05:43<14:38:48,  3.20it/s] 55%|█████▍    | 202961/371472 [5:05:44<13:58:21,  3.35it/s] 55%|█████▍    | 202962/371472 [5:05:44<13:42:49,  3.41it/s] 55%|█████▍    | 202963/371472 [5:05:44<13:09:56,  3.56it/s] 55%|█████▍    | 202964/371472 [5:05:44<12:53:32,  3.63it/s] 55%|█████▍    | 202965/371472 [5:05:45<13:11:05,  3.55it/s] 55%|█████▍    | 202966/371472 [5:05:45<12:49:22,  3.65it/s] 55%|█████▍    | 202967/371472 [5:05:45<12:54:59,  3.62it/s] 55%|█████▍    | 202968/371472 [5:05:46<13:13:44,  3.54it/s] 55%|█████▍    | 202969/371472 [5:05:46<13:38:39,  3.43it/s] 55%|█████▍    | 202970/371472 [5:05:46<12:55:52,  3.62it/s] 55%|█████▍    | 202971/371472 [5:05:46<12:53:38,  3.63it/s] 55%|█████▍    | 202972/371472 [5:05:47<13:08:41,  3.56it/s] 55%|█████▍    | 202973/371472 [5:05:47<13:07:49,  3.56it/s] 55%|█████▍    | 202974/371472 [5:05:47<12:58:30,  3.61it/s] 55%|█████▍    | 202975/371472 [5:05:48<13:00:49,  3.60it/s] 55%|█████▍    | 202976/371472 [5:05:48<12:50:29,  3.64it/s] 55%|█████▍    | 202977/371472 [5:05:48<14:08:09,  3.31it/s] 55%|█████▍    | 202978/371472 [5:05:49<15:39:53,  2.99it/s] 55%|█████▍    | 202979/371472 [5:05:49<14:53:32,  3.14it/s] 55%|█████▍    | 202980/371472 [5:05:49<14:28:52,  3.23it/s]                                                            {'loss': 3.1376, 'learning_rate': 5.084412506194918e-07, 'epoch': 8.74}
 55%|█████▍    | 202980/371472 [5:05:49<14:28:52,  3.23it/s] 55%|█████▍    | 202981/371472 [5:05:49<14:00:56,  3.34it/s] 55%|█████▍    | 202982/371472 [5:05:50<14:02:46,  3.33it/s] 55%|█████▍    | 202983/371472 [5:05:50<14:15:36,  3.28it/s] 55%|█████▍    | 202984/371472 [5:05:50<13:53:17,  3.37it/s] 55%|█████▍    | 202985/371472 [5:05:51<13:33:34,  3.45it/s] 55%|█████▍    | 202986/371472 [5:05:51<13:22:36,  3.50it/s] 55%|█████▍    | 202987/371472 [5:05:51<13:24:17,  3.49it/s] 55%|█████▍    | 202988/371472 [5:05:51<13:01:30,  3.59it/s] 55%|█████▍    | 202989/371472 [5:05:52<12:34:39,  3.72it/s] 55%|█████▍    | 202990/371472 [5:05:52<12:22:12,  3.78it/s] 55%|█████▍    | 202991/371472 [5:05:52<13:09:52,  3.56it/s] 55%|█████▍    | 202992/371472 [5:05:53<12:50:38,  3.64it/s] 55%|█████▍    | 202993/371472 [5:05:53<12:53:12,  3.63it/s] 55%|█████▍    | 202994/371472 [5:05:53<12:59:44,  3.60it/s] 55%|█████▍    | 202995/371472 [5:05:53<12:56:22,  3.62it/s] 55%|█████▍    | 202996/371472 [5:05:54<13:03:28,  3.58it/s] 55%|█████▍    | 202997/371472 [5:05:54<13:06:32,  3.57it/s] 55%|█████▍    | 202998/371472 [5:05:54<13:09:54,  3.55it/s] 55%|█████▍    | 202999/371472 [5:05:55<13:16:07,  3.53it/s] 55%|█████▍    | 203000/371472 [5:05:55<13:29:37,  3.47it/s]                                                            {'loss': 3.0031, 'learning_rate': 5.08392768644013e-07, 'epoch': 8.74}
 55%|█████▍    | 203000/371472 [5:05:55<13:29:37,  3.47it/s] 55%|█████▍    | 203001/371472 [5:05:55<13:28:07,  3.47it/s] 55%|█████▍    | 203002/371472 [5:05:55<12:56:13,  3.62it/s] 55%|█████▍    | 203003/371472 [5:05:56<12:41:30,  3.69it/s] 55%|█████▍    | 203004/371472 [5:05:56<12:55:12,  3.62it/s] 55%|█████▍    | 203005/371472 [5:05:56<13:58:36,  3.35it/s] 55%|█████▍    | 203006/371472 [5:05:57<13:25:40,  3.48it/s] 55%|█████▍    | 203007/371472 [5:05:57<13:25:34,  3.49it/s] 55%|█████▍    | 203008/371472 [5:05:57<12:48:50,  3.65it/s] 55%|█████▍    | 203009/371472 [5:05:57<15:12:20,  3.08it/s] 55%|█████▍    | 203010/371472 [5:05:58<14:31:21,  3.22it/s] 55%|█████▍    | 203011/371472 [5:05:58<14:27:03,  3.24it/s] 55%|█████▍    | 203012/371472 [5:05:58<14:27:44,  3.24it/s] 55%|█████▍    | 203013/371472 [5:05:59<13:47:22,  3.39it/s] 55%|█████▍    | 203014/371472 [5:05:59<13:53:46,  3.37it/s] 55%|█████▍    | 203015/371472 [5:05:59<13:23:51,  3.49it/s] 55%|█████▍    | 203016/371472 [5:05:59<13:29:06,  3.47it/s] 55%|█████▍    | 203017/371472 [5:06:00<13:05:45,  3.57it/s] 55%|█████▍    | 203018/371472 [5:06:00<12:51:15,  3.64it/s] 55%|█████▍    | 203019/371472 [5:06:00<13:40:40,  3.42it/s] 55%|█████▍    | 203020/371472 [5:06:01<13:18:59,  3.51it/s]                                                            {'loss': 3.0156, 'learning_rate': 5.083442866685341e-07, 'epoch': 8.74}
 55%|█████▍    | 203020/371472 [5:06:01<13:18:59,  3.51it/s] 55%|█████▍    | 203021/371472 [5:06:01<13:23:11,  3.50it/s] 55%|█████▍    | 203022/371472 [5:06:01<12:58:03,  3.61it/s] 55%|█████▍    | 203023/371472 [5:06:01<12:34:56,  3.72it/s] 55%|█████▍    | 203024/371472 [5:06:02<12:20:27,  3.79it/s] 55%|█████▍    | 203025/371472 [5:06:02<12:32:51,  3.73it/s] 55%|█████▍    | 203026/371472 [5:06:02<13:11:56,  3.55it/s] 55%|█████▍    | 203027/371472 [5:06:03<13:26:03,  3.48it/s] 55%|█████▍    | 203028/371472 [5:06:03<13:11:24,  3.55it/s] 55%|█████▍    | 203029/371472 [5:06:03<12:57:24,  3.61it/s] 55%|█████▍    | 203030/371472 [5:06:03<13:46:50,  3.40it/s] 55%|█████▍    | 203031/371472 [5:06:04<13:58:10,  3.35it/s] 55%|█████▍    | 203032/371472 [5:06:04<13:19:24,  3.51it/s] 55%|█████▍    | 203033/371472 [5:06:04<13:26:13,  3.48it/s] 55%|█████▍    | 203034/371472 [5:06:05<13:08:24,  3.56it/s] 55%|█████▍    | 203035/371472 [5:06:05<13:36:10,  3.44it/s] 55%|█████▍    | 203036/371472 [5:06:05<13:33:58,  3.45it/s] 55%|█████▍    | 203037/371472 [5:06:05<13:31:39,  3.46it/s] 55%|█████▍    | 203038/371472 [5:06:06<13:11:25,  3.55it/s] 55%|█████▍    | 203039/371472 [5:06:06<14:34:14,  3.21it/s] 55%|█████▍    | 203040/371472 [5:06:06<13:50:52,  3.38it/s]                                                            {'loss': 2.9773, 'learning_rate': 5.082958046930552e-07, 'epoch': 8.75}
 55%|█████▍    | 203040/371472 [5:06:06<13:50:52,  3.38it/s] 55%|█████▍    | 203041/371472 [5:06:07<13:19:26,  3.51it/s] 55%|█████▍    | 203042/371472 [5:06:07<13:14:15,  3.53it/s] 55%|█████▍    | 203043/371472 [5:06:07<12:59:40,  3.60it/s] 55%|█████▍    | 203044/371472 [5:06:07<12:48:06,  3.65it/s] 55%|█████▍    | 203045/371472 [5:06:08<12:38:53,  3.70it/s] 55%|█████▍    | 203046/371472 [5:06:08<12:54:22,  3.62it/s] 55%|█████▍    | 203047/371472 [5:06:08<13:14:36,  3.53it/s] 55%|█████▍    | 203048/371472 [5:06:09<12:57:49,  3.61it/s] 55%|█████▍    | 203049/371472 [5:06:09<12:51:27,  3.64it/s] 55%|█████▍    | 203050/371472 [5:06:09<12:26:02,  3.76it/s] 55%|█████▍    | 203051/371472 [5:06:09<12:54:37,  3.62it/s] 55%|█████▍    | 203052/371472 [5:06:10<13:43:29,  3.41it/s] 55%|█████▍    | 203053/371472 [5:06:10<13:18:36,  3.51it/s] 55%|█████▍    | 203054/371472 [5:06:10<13:15:27,  3.53it/s] 55%|█████▍    | 203055/371472 [5:06:11<13:36:52,  3.44it/s] 55%|█████▍    | 203056/371472 [5:06:11<13:19:21,  3.51it/s] 55%|█████▍    | 203057/371472 [5:06:11<12:55:49,  3.62it/s] 55%|█████▍    | 203058/371472 [5:06:11<13:10:23,  3.55it/s] 55%|█████▍    | 203059/371472 [5:06:12<12:49:31,  3.65it/s] 55%|█████▍    | 203060/371472 [5:06:12<13:25:25,  3.48it/s]                                                            {'loss': 2.9822, 'learning_rate': 5.082473227175762e-07, 'epoch': 8.75}
 55%|█████▍    | 203060/371472 [5:06:12<13:25:25,  3.48it/s] 55%|█████▍    | 203061/371472 [5:06:12<14:11:33,  3.30it/s] 55%|█████▍    | 203062/371472 [5:06:13<13:51:44,  3.37it/s] 55%|█████▍    | 203063/371472 [5:06:13<14:09:28,  3.30it/s] 55%|█████▍    | 203064/371472 [5:06:13<13:58:57,  3.35it/s] 55%|█████▍    | 203065/371472 [5:06:13<13:35:31,  3.44it/s] 55%|█████▍    | 203066/371472 [5:06:14<13:43:12,  3.41it/s] 55%|█████▍    | 203067/371472 [5:06:14<13:02:48,  3.59it/s] 55%|█████▍    | 203068/371472 [5:06:14<12:47:02,  3.66it/s] 55%|█████▍    | 203069/371472 [5:06:15<12:57:36,  3.61it/s] 55%|█████▍    | 203070/371472 [5:06:15<12:32:55,  3.73it/s] 55%|█████▍    | 203071/371472 [5:06:15<14:26:33,  3.24it/s] 55%|█████▍    | 203072/371472 [5:06:15<13:58:35,  3.35it/s] 55%|█████▍    | 203073/371472 [5:06:16<13:20:42,  3.51it/s] 55%|█████▍    | 203074/371472 [5:06:16<12:43:56,  3.67it/s] 55%|█████▍    | 203075/371472 [5:06:16<12:45:35,  3.67it/s] 55%|█████▍    | 203076/371472 [5:06:16<12:35:06,  3.72it/s] 55%|█████▍    | 203077/371472 [5:06:17<12:34:38,  3.72it/s] 55%|█████▍    | 203078/371472 [5:06:17<13:06:49,  3.57it/s] 55%|█████▍    | 203079/371472 [5:06:17<13:14:08,  3.53it/s] 55%|█████▍    | 203080/371472 [5:06:18<13:01:24,  3.59it/s]                                                            {'loss': 3.1103, 'learning_rate': 5.081988407420975e-07, 'epoch': 8.75}
 55%|█████▍    | 203080/371472 [5:06:18<13:01:24,  3.59it/s] 55%|█████▍    | 203081/371472 [5:06:18<12:58:57,  3.60it/s] 55%|█████▍    | 203082/371472 [5:06:18<12:44:28,  3.67it/s] 55%|█████▍    | 203083/371472 [5:06:18<13:39:50,  3.42it/s] 55%|█████▍    | 203084/371472 [5:06:19<13:21:52,  3.50it/s] 55%|█████▍    | 203085/371472 [5:06:19<12:49:26,  3.65it/s] 55%|█████▍    | 203086/371472 [5:06:19<12:44:51,  3.67it/s] 55%|█████▍    | 203087/371472 [5:06:20<14:23:27,  3.25it/s] 55%|█████▍    | 203088/371472 [5:06:20<13:35:58,  3.44it/s] 55%|█████▍    | 203089/371472 [5:06:20<13:16:36,  3.52it/s] 55%|█████▍    | 203090/371472 [5:06:20<13:04:23,  3.58it/s] 55%|█████▍    | 203091/371472 [5:06:21<13:02:26,  3.59it/s] 55%|█████▍    | 203092/371472 [5:06:21<12:50:33,  3.64it/s] 55%|█████▍    | 203093/371472 [5:06:21<15:31:03,  3.01it/s] 55%|█████▍    | 203094/371472 [5:06:22<16:16:05,  2.88it/s] 55%|█████▍    | 203095/371472 [5:06:22<15:14:55,  3.07it/s] 55%|█████▍    | 203096/371472 [5:06:22<15:23:04,  3.04it/s] 55%|█████▍    | 203097/371472 [5:06:23<15:19:31,  3.05it/s] 55%|█████▍    | 203098/371472 [5:06:23<15:02:29,  3.11it/s] 55%|█████▍    | 203099/371472 [5:06:23<15:42:44,  2.98it/s] 55%|█████▍    | 203100/371472 [5:06:24<16:03:18,  2.91it/s]                                                            {'loss': 2.8832, 'learning_rate': 5.081503587666185e-07, 'epoch': 8.75}
 55%|█████▍    | 203100/371472 [5:06:24<16:03:18,  2.91it/s] 55%|█████▍    | 203101/371472 [5:06:24<14:58:03,  3.12it/s] 55%|█████▍    | 203102/371472 [5:06:24<14:41:36,  3.18it/s] 55%|█████▍    | 203103/371472 [5:06:25<14:12:25,  3.29it/s] 55%|█████▍    | 203104/371472 [5:06:25<13:37:33,  3.43it/s] 55%|█████▍    | 203105/371472 [5:06:25<13:23:51,  3.49it/s] 55%|█████▍    | 203106/371472 [5:06:25<12:58:49,  3.60it/s] 55%|█████▍    | 203107/371472 [5:06:26<13:24:36,  3.49it/s] 55%|█████▍    | 203108/371472 [5:06:26<13:28:27,  3.47it/s] 55%|█████▍    | 203109/371472 [5:06:26<13:25:35,  3.48it/s] 55%|█████▍    | 203110/371472 [5:06:27<13:09:35,  3.55it/s] 55%|█████▍    | 203111/371472 [5:06:27<13:34:04,  3.45it/s] 55%|█████▍    | 203112/371472 [5:06:27<14:12:40,  3.29it/s] 55%|█████▍    | 203113/371472 [5:06:28<14:10:52,  3.30it/s] 55%|█████▍    | 203114/371472 [5:06:28<14:19:27,  3.26it/s] 55%|█████▍    | 203115/371472 [5:06:28<13:29:47,  3.47it/s] 55%|█████▍    | 203116/371472 [5:06:28<13:10:41,  3.55it/s] 55%|█████▍    | 203117/371472 [5:06:29<12:51:05,  3.64it/s] 55%|█████▍    | 203118/371472 [5:06:29<12:39:08,  3.70it/s] 55%|█████▍    | 203119/371472 [5:06:29<12:23:57,  3.77it/s] 55%|█████▍    | 203120/371472 [5:06:29<12:30:16,  3.74it/s]                                                            {'loss': 2.9258, 'learning_rate': 5.081018767911397e-07, 'epoch': 8.75}
 55%|█████▍    | 203120/371472 [5:06:29<12:30:16,  3.74it/s] 55%|█████▍    | 203121/371472 [5:06:30<12:12:59,  3.83it/s] 55%|█████▍    | 203122/371472 [5:06:30<12:10:59,  3.84it/s] 55%|█████▍    | 203123/371472 [5:06:30<12:20:37,  3.79it/s] 55%|█████▍    | 203124/371472 [5:06:30<12:41:20,  3.69it/s] 55%|█████▍    | 203125/371472 [5:06:31<12:41:48,  3.68it/s] 55%|█████▍    | 203126/371472 [5:06:31<12:33:06,  3.73it/s] 55%|█████▍    | 203127/371472 [5:06:31<13:57:17,  3.35it/s] 55%|█████▍    | 203128/371472 [5:06:32<13:28:02,  3.47it/s] 55%|█████▍    | 203129/371472 [5:06:32<13:25:20,  3.48it/s] 55%|█████▍    | 203130/371472 [5:06:32<12:49:39,  3.65it/s] 55%|█████▍    | 203131/371472 [5:06:33<13:45:09,  3.40it/s] 55%|█████▍    | 203132/371472 [5:06:33<14:17:43,  3.27it/s] 55%|█████▍    | 203133/371472 [5:06:33<13:26:47,  3.48it/s] 55%|█████▍    | 203134/371472 [5:06:33<13:24:51,  3.49it/s] 55%|█████▍    | 203135/371472 [5:06:34<13:37:43,  3.43it/s] 55%|█████▍    | 203136/371472 [5:06:34<13:02:32,  3.59it/s] 55%|█████▍    | 203137/371472 [5:06:34<13:45:38,  3.40it/s] 55%|█████▍    | 203138/371472 [5:06:34<13:01:33,  3.59it/s] 55%|█████▍    | 203139/371472 [5:06:35<12:52:38,  3.63it/s] 55%|█████▍    | 203140/371472 [5:06:35<13:24:21,  3.49it/s]                                                            {'loss': 3.1059, 'learning_rate': 5.080533948156606e-07, 'epoch': 8.75}
 55%|█████▍    | 203140/371472 [5:06:35<13:24:21,  3.49it/s] 55%|█████▍    | 203141/371472 [5:06:35<13:11:59,  3.54it/s] 55%|█████▍    | 203142/371472 [5:06:36<12:57:26,  3.61it/s] 55%|█████▍    | 203143/371472 [5:06:36<12:36:18,  3.71it/s] 55%|█████▍    | 203144/371472 [5:06:36<13:10:49,  3.55it/s] 55%|█████▍    | 203145/371472 [5:06:36<13:32:20,  3.45it/s] 55%|█████▍    | 203146/371472 [5:06:37<14:23:40,  3.25it/s] 55%|█████▍    | 203147/371472 [5:06:37<13:53:43,  3.36it/s] 55%|█████▍    | 203148/371472 [5:06:37<13:39:37,  3.42it/s] 55%|█████▍    | 203149/371472 [5:06:38<13:25:34,  3.48it/s] 55%|█████▍    | 203150/371472 [5:06:38<12:56:13,  3.61it/s] 55%|█████▍    | 203151/371472 [5:06:38<13:25:38,  3.48it/s] 55%|█████▍    | 203152/371472 [5:06:38<12:58:52,  3.60it/s] 55%|█████▍    | 203153/371472 [5:06:39<13:10:40,  3.55it/s] 55%|█████▍    | 203154/371472 [5:06:39<12:50:21,  3.64it/s] 55%|█████▍    | 203155/371472 [5:06:39<12:38:45,  3.70it/s] 55%|█████▍    | 203156/371472 [5:06:40<12:39:07,  3.70it/s] 55%|█████▍    | 203157/371472 [5:06:40<12:28:10,  3.75it/s] 55%|█████▍    | 203158/371472 [5:06:40<12:17:10,  3.81it/s] 55%|█████▍    | 203159/371472 [5:06:40<12:27:41,  3.75it/s] 55%|█████▍    | 203160/371472 [5:06:41<12:34:01,  3.72it/s]                                                            {'loss': 2.9858, 'learning_rate': 5.080049128401818e-07, 'epoch': 8.75}
 55%|█████▍    | 203160/371472 [5:06:41<12:34:01,  3.72it/s] 55%|█████▍    | 203161/371472 [5:06:41<12:20:21,  3.79it/s] 55%|█████▍    | 203162/371472 [5:06:41<12:13:44,  3.82it/s] 55%|█████▍    | 203163/371472 [5:06:42<13:47:54,  3.39it/s] 55%|█████▍    | 203164/371472 [5:06:42<13:21:42,  3.50it/s] 55%|█████▍    | 203165/371472 [5:06:42<13:11:15,  3.55it/s] 55%|█████▍    | 203166/371472 [5:06:42<13:10:35,  3.55it/s] 55%|█████▍    | 203167/371472 [5:06:43<12:53:56,  3.62it/s] 55%|█████▍    | 203168/371472 [5:06:43<12:36:52,  3.71it/s] 55%|█████▍    | 203169/371472 [5:06:43<12:26:14,  3.76it/s] 55%|█████▍    | 203170/371472 [5:06:43<13:21:59,  3.50it/s] 55%|█████▍    | 203171/371472 [5:06:44<13:13:39,  3.53it/s] 55%|█████▍    | 203172/371472 [5:06:44<13:23:11,  3.49it/s] 55%|█████▍    | 203173/371472 [5:06:44<12:52:06,  3.63it/s] 55%|█████▍    | 203174/371472 [5:06:45<13:05:27,  3.57it/s] 55%|█████▍    | 203175/371472 [5:06:45<12:56:52,  3.61it/s] 55%|█████▍    | 203176/371472 [5:06:45<13:33:26,  3.45it/s] 55%|█████▍    | 203177/371472 [5:06:45<13:06:26,  3.57it/s] 55%|█████▍    | 203178/371472 [5:06:46<13:08:57,  3.56it/s] 55%|█████▍    | 203179/371472 [5:06:46<12:57:20,  3.61it/s] 55%|█████▍    | 203180/371472 [5:06:46<13:08:09,  3.56it/s]                                                            {'loss': 2.978, 'learning_rate': 5.079564308647029e-07, 'epoch': 8.75}
 55%|█████▍    | 203180/371472 [5:06:46<13:08:09,  3.56it/s] 55%|█████▍    | 203181/371472 [5:06:47<13:14:08,  3.53it/s] 55%|█████▍    | 203182/371472 [5:06:47<13:48:29,  3.39it/s] 55%|█████▍    | 203183/371472 [5:06:47<13:26:24,  3.48it/s] 55%|█████▍    | 203184/371472 [5:06:47<12:41:53,  3.68it/s] 55%|█████▍    | 203185/371472 [5:06:48<12:24:50,  3.77it/s] 55%|█████▍    | 203186/371472 [5:06:48<12:24:26,  3.77it/s] 55%|█████▍    | 203187/371472 [5:06:48<12:27:30,  3.75it/s] 55%|█████▍    | 203188/371472 [5:06:48<12:19:31,  3.79it/s] 55%|█████▍    | 203189/371472 [5:06:49<12:38:20,  3.70it/s] 55%|█████▍    | 203190/371472 [5:06:49<12:59:43,  3.60it/s] 55%|█████▍    | 203191/371472 [5:06:49<12:47:51,  3.65it/s] 55%|█████▍    | 203192/371472 [5:06:50<13:45:04,  3.40it/s] 55%|█████▍    | 203193/371472 [5:06:50<13:35:40,  3.44it/s] 55%|█████▍    | 203194/371472 [5:06:50<13:01:26,  3.59it/s] 55%|█████▍    | 203195/371472 [5:06:50<12:44:48,  3.67it/s] 55%|█████▍    | 203196/371472 [5:06:51<13:02:15,  3.59it/s] 55%|█████▍    | 203197/371472 [5:06:51<12:55:45,  3.62it/s] 55%|█████▍    | 203198/371472 [5:06:51<13:01:05,  3.59it/s] 55%|█████▍    | 203199/371472 [5:06:52<13:11:01,  3.55it/s] 55%|█████▍    | 203200/371472 [5:06:52<12:52:00,  3.63it/s]                                                            {'loss': 2.9989, 'learning_rate': 5.079079488892242e-07, 'epoch': 8.75}
 55%|█████▍    | 203200/371472 [5:06:52<12:52:00,  3.63it/s] 55%|█████▍    | 203201/371472 [5:06:52<12:30:41,  3.74it/s] 55%|█████▍    | 203202/371472 [5:06:52<12:53:51,  3.62it/s] 55%|█████▍    | 203203/371472 [5:06:53<15:01:26,  3.11it/s] 55%|█████▍    | 203204/371472 [5:06:53<15:39:16,  2.99it/s] 55%|█████▍    | 203205/371472 [5:06:53<14:27:14,  3.23it/s] 55%|█████▍    | 203206/371472 [5:06:54<13:35:10,  3.44it/s] 55%|█████▍    | 203207/371472 [5:06:54<13:15:22,  3.53it/s] 55%|█████▍    | 203208/371472 [5:06:54<12:47:11,  3.66it/s] 55%|█████▍    | 203209/371472 [5:06:54<12:25:33,  3.76it/s] 55%|█████▍    | 203210/371472 [5:06:55<12:29:32,  3.74it/s] 55%|█████▍    | 203211/371472 [5:06:55<13:14:10,  3.53it/s] 55%|█████▍    | 203212/371472 [5:06:55<13:04:21,  3.58it/s] 55%|█████▍    | 203213/371472 [5:06:56<13:01:04,  3.59it/s] 55%|█████▍    | 203214/371472 [5:06:56<13:24:37,  3.49it/s] 55%|█████▍    | 203215/371472 [5:06:56<13:18:37,  3.51it/s] 55%|█████▍    | 203216/371472 [5:06:56<13:27:25,  3.47it/s] 55%|█████▍    | 203217/371472 [5:06:57<13:38:46,  3.42it/s] 55%|█████▍    | 203218/371472 [5:06:57<13:26:58,  3.48it/s] 55%|█████▍    | 203219/371472 [5:06:57<13:24:46,  3.48it/s] 55%|█████▍    | 203220/371472 [5:06:58<14:22:29,  3.25it/s]                                                            {'loss': 3.0782, 'learning_rate': 5.078594669137452e-07, 'epoch': 8.75}
 55%|█████▍    | 203220/371472 [5:06:58<14:22:29,  3.25it/s] 55%|█████▍    | 203221/371472 [5:06:58<13:49:08,  3.38it/s] 55%|█████▍    | 203222/371472 [5:06:58<13:41:21,  3.41it/s] 55%|█████▍    | 203223/371472 [5:06:58<13:21:00,  3.50it/s] 55%|█████▍    | 203224/371472 [5:06:59<13:43:01,  3.41it/s] 55%|█████▍    | 203225/371472 [5:06:59<13:10:47,  3.55it/s] 55%|█████▍    | 203226/371472 [5:06:59<13:36:05,  3.44it/s] 55%|█████▍    | 203227/371472 [5:07:00<12:57:46,  3.61it/s] 55%|█████▍    | 203228/371472 [5:07:00<13:18:24,  3.51it/s] 55%|█████▍    | 203229/371472 [5:07:00<13:26:58,  3.47it/s] 55%|█████▍    | 203230/371472 [5:07:00<13:59:07,  3.34it/s] 55%|█████▍    | 203231/371472 [5:07:01<13:48:05,  3.39it/s] 55%|█████▍    | 203232/371472 [5:07:01<13:34:29,  3.44it/s] 55%|█████▍    | 203233/371472 [5:07:01<13:31:36,  3.45it/s] 55%|█████▍    | 203234/371472 [5:07:02<13:33:22,  3.45it/s] 55%|█████▍    | 203235/371472 [5:07:02<13:17:58,  3.51it/s] 55%|█████▍    | 203236/371472 [5:07:02<13:52:45,  3.37it/s] 55%|█████▍    | 203237/371472 [5:07:02<13:17:42,  3.51it/s] 55%|█████▍    | 203238/371472 [5:07:03<13:47:30,  3.39it/s] 55%|█████▍    | 203239/371472 [5:07:03<13:43:50,  3.40it/s] 55%|█████▍    | 203240/371472 [5:07:03<13:56:00,  3.35it/s]                                                            {'loss': 2.9169, 'learning_rate': 5.078109849382663e-07, 'epoch': 8.75}
 55%|█████▍    | 203240/371472 [5:07:03<13:56:00,  3.35it/s] 55%|█████▍    | 203241/371472 [5:07:04<14:45:09,  3.17it/s] 55%|█████▍    | 203242/371472 [5:07:04<14:09:45,  3.30it/s] 55%|█████▍    | 203243/371472 [5:07:04<13:36:42,  3.43it/s] 55%|█████▍    | 203244/371472 [5:07:05<13:49:16,  3.38it/s] 55%|█████▍    | 203245/371472 [5:07:05<13:47:31,  3.39it/s] 55%|█████▍    | 203246/371472 [5:07:05<13:24:19,  3.49it/s] 55%|█████▍    | 203247/371472 [5:07:06<14:12:36,  3.29it/s] 55%|█████▍    | 203248/371472 [5:07:06<14:01:17,  3.33it/s] 55%|█████▍    | 203249/371472 [5:07:06<14:43:08,  3.17it/s] 55%|█████▍    | 203250/371472 [5:07:06<14:56:18,  3.13it/s] 55%|█████▍    | 203251/371472 [5:07:07<14:40:59,  3.18it/s] 55%|█████▍    | 203252/371472 [5:07:07<14:11:52,  3.29it/s] 55%|█████▍    | 203253/371472 [5:07:07<14:25:43,  3.24it/s] 55%|█████▍    | 203254/371472 [5:07:08<14:00:57,  3.33it/s] 55%|█████▍    | 203255/371472 [5:07:08<14:40:14,  3.19it/s] 55%|█████▍    | 203256/371472 [5:07:08<13:57:42,  3.35it/s] 55%|█████▍    | 203257/371472 [5:07:09<14:02:45,  3.33it/s] 55%|█████▍    | 203258/371472 [5:07:09<13:38:24,  3.43it/s] 55%|█████▍    | 203259/371472 [5:07:09<13:15:58,  3.52it/s] 55%|█████▍    | 203260/371472 [5:07:10<14:58:00,  3.12it/s]                                                            {'loss': 3.0162, 'learning_rate': 5.077625029627874e-07, 'epoch': 8.75}
 55%|█████▍    | 203260/371472 [5:07:10<14:58:00,  3.12it/s] 55%|█████▍    | 203261/371472 [5:07:10<14:26:00,  3.24it/s] 55%|█████▍    | 203262/371472 [5:07:10<14:18:16,  3.27it/s] 55%|█████▍    | 203263/371472 [5:07:10<14:15:06,  3.28it/s] 55%|█████▍    | 203264/371472 [5:07:11<14:03:16,  3.32it/s] 55%|█████▍    | 203265/371472 [5:07:11<13:26:50,  3.47it/s] 55%|█████▍    | 203266/371472 [5:07:11<13:08:11,  3.56it/s] 55%|█████▍    | 203267/371472 [5:07:12<13:23:04,  3.49it/s] 55%|█████▍    | 203268/371472 [5:07:12<13:31:47,  3.45it/s] 55%|█████▍    | 203269/371472 [5:07:12<13:36:38,  3.43it/s] 55%|█████▍    | 203270/371472 [5:07:12<14:24:52,  3.24it/s] 55%|█████▍    | 203271/371472 [5:07:13<13:50:50,  3.37it/s] 55%|█████▍    | 203272/371472 [5:07:13<13:19:51,  3.50it/s] 55%|█████▍    | 203273/371472 [5:07:13<14:10:45,  3.30it/s] 55%|█████▍    | 203274/371472 [5:07:14<14:09:59,  3.30it/s] 55%|█████▍    | 203275/371472 [5:07:14<13:40:12,  3.42it/s] 55%|█████▍    | 203276/371472 [5:07:14<14:11:49,  3.29it/s] 55%|█████▍    | 203277/371472 [5:07:14<13:22:09,  3.49it/s] 55%|█████▍    | 203278/371472 [5:07:15<14:09:17,  3.30it/s] 55%|█████▍    | 203279/371472 [5:07:15<13:44:07,  3.40it/s] 55%|█████▍    | 203280/371472 [5:07:15<13:16:08,  3.52it/s]                                                            {'loss': 2.9088, 'learning_rate': 5.077140209873085e-07, 'epoch': 8.76}
 55%|█████▍    | 203280/371472 [5:07:15<13:16:08,  3.52it/s] 55%|█████▍    | 203281/371472 [5:07:16<13:04:30,  3.57it/s] 55%|█████▍    | 203282/371472 [5:07:16<12:27:39,  3.75it/s] 55%|█████▍    | 203283/371472 [5:07:16<12:23:39,  3.77it/s] 55%|█████▍    | 203284/371472 [5:07:16<12:23:10,  3.77it/s] 55%|█████▍    | 203285/371472 [5:07:17<13:12:39,  3.54it/s] 55%|█████▍    | 203286/371472 [5:07:17<13:22:47,  3.49it/s] 55%|█████▍    | 203287/371472 [5:07:17<12:57:45,  3.60it/s] 55%|█████▍    | 203288/371472 [5:07:18<12:44:16,  3.67it/s] 55%|█████▍    | 203289/371472 [5:07:18<13:36:34,  3.43it/s] 55%|█████▍    | 203290/371472 [5:07:18<13:17:36,  3.51it/s] 55%|█████▍    | 203291/371472 [5:07:18<12:56:32,  3.61it/s] 55%|█████▍    | 203292/371472 [5:07:19<12:32:50,  3.72it/s] 55%|█████▍    | 203293/371472 [5:07:19<13:17:41,  3.51it/s] 55%|█████▍    | 203294/371472 [5:07:19<12:42:26,  3.68it/s] 55%|█████▍    | 203295/371472 [5:07:19<12:15:34,  3.81it/s] 55%|█████▍    | 203296/371472 [5:07:20<12:46:46,  3.66it/s] 55%|█████▍    | 203297/371472 [5:07:20<13:25:50,  3.48it/s] 55%|█████▍    | 203298/371472 [5:07:20<12:57:10,  3.61it/s] 55%|█████▍    | 203299/371472 [5:07:21<12:31:10,  3.73it/s] 55%|█████▍    | 203300/371472 [5:07:21<12:38:36,  3.69it/s]                                                            {'loss': 3.0946, 'learning_rate': 5.076655390118295e-07, 'epoch': 8.76}
 55%|█████▍    | 203300/371472 [5:07:21<12:38:36,  3.69it/s] 55%|█████▍    | 203301/371472 [5:07:21<12:51:57,  3.63it/s] 55%|█████▍    | 203302/371472 [5:07:21<12:51:01,  3.64it/s] 55%|█████▍    | 203303/371472 [5:07:22<12:56:33,  3.61it/s] 55%|█████▍    | 203304/371472 [5:07:22<12:39:30,  3.69it/s] 55%|█████▍    | 203305/371472 [5:07:22<12:49:59,  3.64it/s] 55%|█████▍    | 203306/371472 [5:07:22<12:32:27,  3.72it/s] 55%|█████▍    | 203307/371472 [5:07:23<13:01:13,  3.59it/s] 55%|█████▍    | 203308/371472 [5:07:23<13:14:21,  3.53it/s] 55%|█████▍    | 203309/371472 [5:07:23<13:55:22,  3.36it/s] 55%|█████▍    | 203310/371472 [5:07:24<13:35:07,  3.44it/s] 55%|█████▍    | 203311/371472 [5:07:24<13:56:57,  3.35it/s] 55%|█████▍    | 203312/371472 [5:07:24<15:08:46,  3.08it/s] 55%|█████▍    | 203313/371472 [5:07:25<14:43:00,  3.17it/s] 55%|█████▍    | 203314/371472 [5:07:25<14:16:47,  3.27it/s] 55%|█████▍    | 203315/371472 [5:07:25<14:24:40,  3.24it/s] 55%|█████▍    | 203316/371472 [5:07:26<14:36:24,  3.20it/s] 55%|█████▍    | 203317/371472 [5:07:26<14:49:22,  3.15it/s] 55%|█████▍    | 203318/371472 [5:07:26<14:15:49,  3.27it/s] 55%|█████▍    | 203319/371472 [5:07:27<14:49:42,  3.15it/s] 55%|█████▍    | 203320/371472 [5:07:27<14:28:36,  3.23it/s]                                                            {'loss': 2.7766, 'learning_rate': 5.076170570363506e-07, 'epoch': 8.76}
 55%|█████▍    | 203320/371472 [5:07:27<14:28:36,  3.23it/s] 55%|█████▍    | 203321/371472 [5:07:27<14:43:41,  3.17it/s] 55%|█████▍    | 203322/371472 [5:07:27<14:17:06,  3.27it/s] 55%|█████▍    | 203323/371472 [5:07:28<15:00:57,  3.11it/s] 55%|█████▍    | 203324/371472 [5:07:28<14:13:07,  3.28it/s] 55%|█████▍    | 203325/371472 [5:07:28<14:49:59,  3.15it/s] 55%|█████▍    | 203326/371472 [5:07:29<14:09:24,  3.30it/s] 55%|█████▍    | 203327/371472 [5:07:29<15:16:25,  3.06it/s] 55%|█████▍    | 203328/371472 [5:07:29<14:29:52,  3.22it/s] 55%|█████▍    | 203329/371472 [5:07:30<13:50:52,  3.37it/s] 55%|█████▍    | 203330/371472 [5:07:30<14:45:27,  3.16it/s] 55%|█████▍    | 203331/371472 [5:07:30<14:03:28,  3.32it/s] 55%|█████▍    | 203332/371472 [5:07:30<13:32:18,  3.45it/s] 55%|█████▍    | 203333/371472 [5:07:31<14:33:03,  3.21it/s] 55%|█████▍    | 203334/371472 [5:07:31<14:33:04,  3.21it/s] 55%|█████▍    | 203335/371472 [5:07:31<13:38:25,  3.42it/s] 55%|█████▍    | 203336/371472 [5:07:32<13:05:39,  3.57it/s] 55%|█████▍    | 203337/371472 [5:07:32<12:47:41,  3.65it/s] 55%|█████▍    | 203338/371472 [5:07:32<13:32:12,  3.45it/s] 55%|█████▍    | 203339/371472 [5:07:33<15:47:35,  2.96it/s] 55%|█████▍    | 203340/371472 [5:07:33<14:37:31,  3.19it/s]                                                            {'loss': 2.9124, 'learning_rate': 5.075685750608719e-07, 'epoch': 8.76}
 55%|█████▍    | 203340/371472 [5:07:33<14:37:31,  3.19it/s] 55%|█████▍    | 203341/371472 [5:07:33<14:03:54,  3.32it/s] 55%|█████▍    | 203342/371472 [5:07:34<13:49:15,  3.38it/s] 55%|█████▍    | 203343/371472 [5:07:34<13:26:03,  3.48it/s] 55%|█████▍    | 203344/371472 [5:07:34<13:45:25,  3.39it/s] 55%|█████▍    | 203345/371472 [5:07:34<14:35:45,  3.20it/s] 55%|█████▍    | 203346/371472 [5:07:35<13:56:52,  3.35it/s] 55%|█████▍    | 203347/371472 [5:07:35<13:34:33,  3.44it/s] 55%|█████▍    | 203348/371472 [5:07:35<13:10:33,  3.54it/s] 55%|█████▍    | 203349/371472 [5:07:36<13:29:43,  3.46it/s] 55%|█████▍    | 203350/371472 [5:07:36<13:22:59,  3.49it/s] 55%|█████▍    | 203351/371472 [5:07:36<13:58:51,  3.34it/s] 55%|█████▍    | 203352/371472 [5:07:36<13:36:34,  3.43it/s] 55%|█████▍    | 203353/371472 [5:07:37<13:06:15,  3.56it/s] 55%|█████▍    | 203354/371472 [5:07:37<13:27:23,  3.47it/s] 55%|█████▍    | 203355/371472 [5:07:37<13:17:13,  3.51it/s] 55%|█████▍    | 203356/371472 [5:07:38<13:16:33,  3.52it/s] 55%|█████▍    | 203357/371472 [5:07:38<13:54:54,  3.36it/s] 55%|█████▍    | 203358/371472 [5:07:38<14:35:31,  3.20it/s] 55%|█████▍    | 203359/371472 [5:07:39<14:37:24,  3.19it/s] 55%|█████▍    | 203360/371472 [5:07:39<15:12:29,  3.07it/s]                                                            {'loss': 3.0839, 'learning_rate': 5.075200930853928e-07, 'epoch': 8.76}
 55%|█████▍    | 203360/371472 [5:07:39<15:12:29,  3.07it/s] 55%|█████▍    | 203361/371472 [5:07:39<14:30:02,  3.22it/s] 55%|█████▍    | 203362/371472 [5:07:39<14:07:46,  3.30it/s] 55%|█████▍    | 203363/371472 [5:07:40<13:39:42,  3.42it/s] 55%|█████▍    | 203364/371472 [5:07:40<13:31:36,  3.45it/s] 55%|█████▍    | 203365/371472 [5:07:40<13:44:54,  3.40it/s] 55%|█████▍    | 203366/371472 [5:07:41<13:41:59,  3.41it/s] 55%|█████▍    | 203367/371472 [5:07:41<13:40:52,  3.41it/s] 55%|█████▍    | 203368/371472 [5:07:41<13:37:07,  3.43it/s] 55%|█████▍    | 203369/371472 [5:07:41<13:40:03,  3.42it/s] 55%|█████▍    | 203370/371472 [5:07:42<13:45:25,  3.39it/s] 55%|█████▍    | 203371/371472 [5:07:42<13:35:41,  3.43it/s] 55%|█████▍    | 203372/371472 [5:07:42<13:16:08,  3.52it/s] 55%|█████▍    | 203373/371472 [5:07:43<13:10:41,  3.54it/s] 55%|█████▍    | 203374/371472 [5:07:43<12:55:57,  3.61it/s] 55%|█████▍    | 203375/371472 [5:07:43<12:28:38,  3.74it/s] 55%|█████▍    | 203376/371472 [5:07:43<12:26:44,  3.75it/s] 55%|█████▍    | 203377/371472 [5:07:44<13:29:03,  3.46it/s] 55%|█████▍    | 203378/371472 [5:07:44<13:17:09,  3.51it/s] 55%|█████▍    | 203379/371472 [5:07:44<14:14:30,  3.28it/s] 55%|█████▍    | 203380/371472 [5:07:45<13:26:52,  3.47it/s]                                                            {'loss': 2.9998, 'learning_rate': 5.07471611109914e-07, 'epoch': 8.76}
 55%|█████▍    | 203380/371472 [5:07:45<13:26:52,  3.47it/s] 55%|█████▍    | 203381/371472 [5:07:45<14:16:41,  3.27it/s] 55%|█████▍    | 203382/371472 [5:07:45<13:32:51,  3.45it/s] 55%|█████▍    | 203383/371472 [5:07:45<12:54:52,  3.62it/s] 55%|█████▍    | 203384/371472 [5:07:46<14:00:30,  3.33it/s] 55%|█████▍    | 203385/371472 [5:07:46<14:11:33,  3.29it/s] 55%|█████▍    | 203386/371472 [5:07:46<13:22:58,  3.49it/s] 55%|█████▍    | 203387/371472 [5:07:47<14:13:46,  3.28it/s] 55%|█████▍    | 203388/371472 [5:07:47<14:24:32,  3.24it/s] 55%|█████▍    | 203389/371472 [5:07:47<14:13:50,  3.28it/s] 55%|█████▍    | 203390/371472 [5:07:48<13:25:11,  3.48it/s] 55%|█████▍    | 203391/371472 [5:07:48<13:16:48,  3.52it/s] 55%|█████▍    | 203392/371472 [5:07:48<13:19:31,  3.50it/s] 55%|█████▍    | 203393/371472 [5:07:48<13:34:00,  3.44it/s] 55%|█████▍    | 203394/371472 [5:07:49<13:03:17,  3.58it/s] 55%|█████▍    | 203395/371472 [5:07:49<13:18:39,  3.51it/s] 55%|█████▍    | 203396/371472 [5:07:49<12:58:57,  3.60it/s] 55%|█████▍    | 203397/371472 [5:07:50<13:08:59,  3.55it/s] 55%|█████▍    | 203398/371472 [5:07:50<13:05:40,  3.57it/s] 55%|█████▍    | 203399/371472 [5:07:50<12:56:20,  3.61it/s] 55%|█████▍    | 203400/371472 [5:07:50<12:42:36,  3.67it/s]                                                            {'loss': 3.008, 'learning_rate': 5.074231291344351e-07, 'epoch': 8.76}
 55%|█████▍    | 203400/371472 [5:07:50<12:42:36,  3.67it/s] 55%|█████▍    | 203401/371472 [5:07:51<12:55:18,  3.61it/s] 55%|█████▍    | 203402/371472 [5:07:51<14:10:24,  3.29it/s] 55%|█████▍    | 203403/371472 [5:07:51<13:27:37,  3.47it/s] 55%|█████▍    | 203404/371472 [5:07:52<13:14:05,  3.53it/s] 55%|█████▍    | 203405/371472 [5:07:52<12:53:31,  3.62it/s] 55%|█████▍    | 203406/371472 [5:07:52<12:54:52,  3.61it/s] 55%|█████▍    | 203407/371472 [5:07:52<13:22:48,  3.49it/s] 55%|█████▍    | 203408/371472 [5:07:53<13:25:21,  3.48it/s] 55%|█████▍    | 203409/371472 [5:07:53<13:10:35,  3.54it/s] 55%|█████▍    | 203410/371472 [5:07:53<12:55:13,  3.61it/s] 55%|█████▍    | 203411/371472 [5:07:53<12:36:11,  3.70it/s] 55%|█████▍    | 203412/371472 [5:07:54<14:02:02,  3.33it/s] 55%|█████▍    | 203413/371472 [5:07:54<13:43:48,  3.40it/s] 55%|█████▍    | 203414/371472 [5:07:54<13:31:54,  3.45it/s] 55%|█████▍    | 203415/371472 [5:07:55<13:55:51,  3.35it/s] 55%|█████▍    | 203416/371472 [5:07:55<13:27:28,  3.47it/s] 55%|█████▍    | 203417/371472 [5:07:55<13:17:26,  3.51it/s] 55%|█████▍    | 203418/371472 [5:07:56<13:15:34,  3.52it/s] 55%|█████▍    | 203419/371472 [5:07:56<12:50:15,  3.64it/s] 55%|█████▍    | 203420/371472 [5:07:56<13:22:00,  3.49it/s]                                                            {'loss': 2.9414, 'learning_rate': 5.073746471589562e-07, 'epoch': 8.76}
 55%|█████▍    | 203420/371472 [5:07:56<13:22:00,  3.49it/s] 55%|█████▍    | 203421/371472 [5:07:56<13:13:46,  3.53it/s] 55%|█████▍    | 203422/371472 [5:07:57<13:51:47,  3.37it/s] 55%|█████▍    | 203423/371472 [5:07:57<14:48:29,  3.15it/s] 55%|█████▍    | 203424/371472 [5:07:57<13:54:45,  3.36it/s] 55%|█████▍    | 203425/371472 [5:07:58<14:04:52,  3.32it/s] 55%|█████▍    | 203426/371472 [5:07:58<14:03:14,  3.32it/s] 55%|█████▍    | 203427/371472 [5:07:58<13:46:47,  3.39it/s] 55%|█████▍    | 203428/371472 [5:07:58<13:35:26,  3.43it/s] 55%|█████▍    | 203429/371472 [5:07:59<13:13:39,  3.53it/s] 55%|█████▍    | 203430/371472 [5:07:59<12:47:42,  3.65it/s] 55%|█████▍    | 203431/371472 [5:07:59<12:27:44,  3.75it/s] 55%|█████▍    | 203432/371472 [5:08:00<12:31:22,  3.73it/s] 55%|█████▍    | 203433/371472 [5:08:00<13:11:15,  3.54it/s] 55%|█████▍    | 203434/371472 [5:08:00<12:43:25,  3.67it/s] 55%|█████▍    | 203435/371472 [5:08:00<13:40:01,  3.42it/s] 55%|█████▍    | 203436/371472 [5:08:01<13:26:42,  3.47it/s] 55%|█████▍    | 203437/371472 [5:08:01<14:04:27,  3.32it/s] 55%|█████▍    | 203438/371472 [5:08:01<13:34:21,  3.44it/s] 55%|█████▍    | 203439/371472 [5:08:02<13:46:03,  3.39it/s] 55%|█████▍    | 203440/371472 [5:08:02<13:39:16,  3.42it/s]                                                            {'loss': 2.7582, 'learning_rate': 5.073261651834772e-07, 'epoch': 8.76}
 55%|█████▍    | 203440/371472 [5:08:02<13:39:16,  3.42it/s] 55%|█████▍    | 203441/371472 [5:08:02<13:37:34,  3.43it/s] 55%|█████▍    | 203442/371472 [5:08:03<13:57:12,  3.35it/s] 55%|█████▍    | 203443/371472 [5:08:03<14:00:18,  3.33it/s] 55%|█████▍    | 203444/371472 [5:08:03<13:33:32,  3.44it/s] 55%|█████▍    | 203445/371472 [5:08:03<13:18:59,  3.50it/s] 55%|█████▍    | 203446/371472 [5:08:04<12:53:02,  3.62it/s] 55%|█████▍    | 203447/371472 [5:08:04<12:40:08,  3.68it/s] 55%|█████▍    | 203448/371472 [5:08:04<12:30:37,  3.73it/s] 55%|█████▍    | 203449/371472 [5:08:04<12:18:29,  3.79it/s] 55%|█████▍    | 203450/371472 [5:08:05<12:03:11,  3.87it/s] 55%|█████▍    | 203451/371472 [5:08:05<12:06:05,  3.86it/s] 55%|█████▍    | 203452/371472 [5:08:05<11:52:44,  3.93it/s] 55%|█████▍    | 203453/371472 [5:08:05<11:54:54,  3.92it/s] 55%|█████▍    | 203454/371472 [5:08:06<12:32:39,  3.72it/s] 55%|█████▍    | 203455/371472 [5:08:06<12:15:32,  3.81it/s] 55%|█████▍    | 203456/371472 [5:08:06<12:01:21,  3.88it/s] 55%|█████▍    | 203457/371472 [5:08:06<12:13:52,  3.82it/s] 55%|█████▍    | 203458/371472 [5:08:07<12:13:50,  3.82it/s] 55%|█████▍    | 203459/371472 [5:08:07<14:09:26,  3.30it/s] 55%|█████▍    | 203460/371472 [5:08:07<14:16:06,  3.27it/s]                                                            {'loss': 2.9785, 'learning_rate': 5.072776832079985e-07, 'epoch': 8.76}
 55%|█████▍    | 203460/371472 [5:08:07<14:16:06,  3.27it/s] 55%|█████▍    | 203461/371472 [5:08:08<13:24:37,  3.48it/s] 55%|█████▍    | 203462/371472 [5:08:08<13:25:46,  3.48it/s] 55%|█████▍    | 203463/371472 [5:08:08<13:54:02,  3.36it/s] 55%|█████▍    | 203464/371472 [5:08:09<13:16:46,  3.51it/s] 55%|█████▍    | 203465/371472 [5:08:09<13:13:54,  3.53it/s] 55%|█████▍    | 203466/371472 [5:08:09<13:06:37,  3.56it/s] 55%|█████▍    | 203467/371472 [5:08:09<12:47:21,  3.65it/s] 55%|█████▍    | 203468/371472 [5:08:10<12:44:48,  3.66it/s] 55%|█████▍    | 203469/371472 [5:08:10<13:08:09,  3.55it/s] 55%|█████▍    | 203470/371472 [5:08:10<13:07:39,  3.55it/s] 55%|█████▍    | 203471/371472 [5:08:10<12:52:41,  3.62it/s] 55%|█████▍    | 203472/371472 [5:08:11<12:49:12,  3.64it/s] 55%|█████▍    | 203473/371472 [5:08:11<12:55:00,  3.61it/s] 55%|█████▍    | 203474/371472 [5:08:11<12:52:25,  3.62it/s] 55%|█████▍    | 203475/371472 [5:08:12<14:35:56,  3.20it/s] 55%|█████▍    | 203476/371472 [5:08:12<14:10:04,  3.29it/s] 55%|█████▍    | 203477/371472 [5:08:12<14:03:51,  3.32it/s] 55%|█████▍    | 203478/371472 [5:08:13<13:19:38,  3.50it/s] 55%|█████▍    | 203479/371472 [5:08:13<13:21:46,  3.49it/s] 55%|█████▍    | 203480/371472 [5:08:13<13:15:25,  3.52it/s]                                                            {'loss': 3.0495, 'learning_rate': 5.072292012325195e-07, 'epoch': 8.76}
 55%|█████▍    | 203480/371472 [5:08:13<13:15:25,  3.52it/s] 55%|█████▍    | 203481/371472 [5:08:13<13:00:50,  3.59it/s] 55%|█████▍    | 203482/371472 [5:08:14<12:44:57,  3.66it/s] 55%|█████▍    | 203483/371472 [5:08:14<12:51:04,  3.63it/s] 55%|█████▍    | 203484/371472 [5:08:14<12:42:12,  3.67it/s] 55%|█████▍    | 203485/371472 [5:08:14<12:48:06,  3.65it/s] 55%|█████▍    | 203486/371472 [5:08:15<12:47:41,  3.65it/s] 55%|█████▍    | 203487/371472 [5:08:15<13:43:51,  3.40it/s] 55%|█████▍    | 203488/371472 [5:08:15<13:05:25,  3.56it/s] 55%|█████▍    | 203489/371472 [5:08:16<14:46:38,  3.16it/s] 55%|█████▍    | 203490/371472 [5:08:16<14:40:05,  3.18it/s] 55%|█████▍    | 203491/371472 [5:08:16<13:56:23,  3.35it/s] 55%|█████▍    | 203492/371472 [5:08:17<13:47:27,  3.38it/s] 55%|█████▍    | 203493/371472 [5:08:17<13:59:57,  3.33it/s] 55%|█████▍    | 203494/371472 [5:08:17<13:34:01,  3.44it/s] 55%|█████▍    | 203495/371472 [5:08:17<13:30:38,  3.45it/s] 55%|█████▍    | 203496/371472 [5:08:18<13:56:40,  3.35it/s] 55%|█████▍    | 203497/371472 [5:08:18<13:46:28,  3.39it/s] 55%|█████▍    | 203498/371472 [5:08:18<14:45:56,  3.16it/s] 55%|█████▍    | 203499/371472 [5:08:19<14:18:35,  3.26it/s] 55%|█████▍    | 203500/371472 [5:08:19<14:01:20,  3.33it/s]                                                            {'loss': 3.0833, 'learning_rate': 5.071807192570407e-07, 'epoch': 8.77}
 55%|█████▍    | 203500/371472 [5:08:19<14:01:20,  3.33it/s] 55%|█████▍    | 203501/371472 [5:08:19<14:30:18,  3.22it/s] 55%|█████▍    | 203502/371472 [5:08:20<14:18:46,  3.26it/s] 55%|█████▍    | 203503/371472 [5:08:20<13:59:29,  3.33it/s] 55%|█████▍    | 203504/371472 [5:08:20<13:59:18,  3.34it/s] 55%|█████▍    | 203505/371472 [5:08:20<13:30:24,  3.45it/s] 55%|█████▍    | 203506/371472 [5:08:21<12:59:06,  3.59it/s] 55%|█████▍    | 203507/371472 [5:08:21<13:45:10,  3.39it/s] 55%|█████▍    | 203508/371472 [5:08:21<13:14:00,  3.53it/s] 55%|█████▍    | 203509/371472 [5:08:22<13:18:45,  3.50it/s] 55%|█████▍    | 203510/371472 [5:08:22<13:00:54,  3.58it/s] 55%|█████▍    | 203511/371472 [5:08:22<13:06:45,  3.56it/s] 55%|█████▍    | 203512/371472 [5:08:22<12:46:49,  3.65it/s] 55%|█████▍    | 203513/371472 [5:08:23<16:38:00,  2.80it/s] 55%|█████▍    | 203514/371472 [5:08:23<15:33:19,  3.00it/s] 55%|█████▍    | 203515/371472 [5:08:24<14:52:46,  3.14it/s] 55%|█████▍    | 203516/371472 [5:08:24<14:18:41,  3.26it/s] 55%|█████▍    | 203517/371472 [5:08:24<14:18:27,  3.26it/s] 55%|█████▍    | 203518/371472 [5:08:24<15:12:58,  3.07it/s] 55%|█████▍    | 203519/371472 [5:08:25<17:48:02,  2.62it/s] 55%|█████▍    | 203520/371472 [5:08:25<16:00:22,  2.91it/s]                                                            {'loss': 2.9392, 'learning_rate': 5.071322372815617e-07, 'epoch': 8.77}
 55%|█████▍    | 203520/371472 [5:08:25<16:00:22,  2.91it/s] 55%|█████▍    | 203521/371472 [5:08:26<15:08:58,  3.08it/s] 55%|█████▍    | 203522/371472 [5:08:26<14:15:45,  3.27it/s] 55%|█████▍    | 203523/371472 [5:08:26<14:01:43,  3.33it/s] 55%|█████▍    | 203524/371472 [5:08:26<13:26:58,  3.47it/s] 55%|█████▍    | 203525/371472 [5:08:27<13:32:00,  3.45it/s] 55%|█████▍    | 203526/371472 [5:08:27<13:20:59,  3.49it/s] 55%|█████▍    | 203527/371472 [5:08:27<12:57:02,  3.60it/s] 55%|█████▍    | 203528/371472 [5:08:27<13:09:32,  3.55it/s] 55%|█████▍    | 203529/371472 [5:08:28<12:58:29,  3.60it/s] 55%|█████▍    | 203530/371472 [5:08:28<13:06:24,  3.56it/s] 55%|█████▍    | 203531/371472 [5:08:28<13:04:16,  3.57it/s] 55%|█████▍    | 203532/371472 [5:08:29<14:15:12,  3.27it/s] 55%|█████▍    | 203533/371472 [5:08:29<13:50:17,  3.37it/s] 55%|█████▍    | 203534/371472 [5:08:29<13:39:32,  3.42it/s] 55%|█████▍    | 203535/371472 [5:08:29<13:25:51,  3.47it/s] 55%|█████▍    | 203536/371472 [5:08:30<13:01:53,  3.58it/s] 55%|█████▍    | 203537/371472 [5:08:30<12:55:54,  3.61it/s] 55%|█████▍    | 203538/371472 [5:08:30<12:42:05,  3.67it/s] 55%|█████▍    | 203539/371472 [5:08:31<13:49:21,  3.37it/s] 55%|█████▍    | 203540/371472 [5:08:31<14:55:27,  3.13it/s]                                                            {'loss': 2.9083, 'learning_rate': 5.070837553060828e-07, 'epoch': 8.77}
 55%|█████▍    | 203540/371472 [5:08:31<14:55:27,  3.13it/s] 55%|█████▍    | 203541/371472 [5:08:31<14:33:29,  3.20it/s] 55%|█████▍    | 203542/371472 [5:08:32<14:17:46,  3.26it/s] 55%|█████▍    | 203543/371472 [5:08:32<13:57:19,  3.34it/s] 55%|█████▍    | 203544/371472 [5:08:32<13:16:31,  3.51it/s] 55%|█████▍    | 203545/371472 [5:08:32<13:31:32,  3.45it/s] 55%|█████▍    | 203546/371472 [5:08:33<13:48:08,  3.38it/s] 55%|█████▍    | 203547/371472 [5:08:33<13:34:05,  3.44it/s] 55%|█████▍    | 203548/371472 [5:08:33<13:40:41,  3.41it/s] 55%|█████▍    | 203549/371472 [5:08:34<13:54:04,  3.36it/s] 55%|█████▍    | 203550/371472 [5:08:34<13:37:51,  3.42it/s] 55%|█████▍    | 203551/371472 [5:08:34<13:36:34,  3.43it/s] 55%|█████▍    | 203552/371472 [5:08:35<17:23:38,  2.68it/s] 55%|█████▍    | 203553/371472 [5:08:35<16:43:11,  2.79it/s] 55%|█████▍    | 203554/371472 [5:08:35<15:10:41,  3.07it/s] 55%|█████▍    | 203555/371472 [5:08:36<14:45:36,  3.16it/s] 55%|█████▍    | 203556/371472 [5:08:36<13:56:43,  3.34it/s] 55%|█████▍    | 203557/371472 [5:08:36<13:38:11,  3.42it/s] 55%|█████▍    | 203558/371472 [5:08:37<14:34:25,  3.20it/s] 55%|█████▍    | 203559/371472 [5:08:37<15:01:15,  3.11it/s] 55%|█████▍    | 203560/371472 [5:08:37<14:09:10,  3.30it/s]                                                            {'loss': 2.9539, 'learning_rate': 5.070352733306039e-07, 'epoch': 8.77}
 55%|█████▍    | 203560/371472 [5:08:37<14:09:10,  3.30it/s] 55%|█████▍    | 203561/371472 [5:08:37<13:25:54,  3.47it/s] 55%|█████▍    | 203562/371472 [5:08:38<13:33:11,  3.44it/s] 55%|█████▍    | 203563/371472 [5:08:38<13:14:08,  3.52it/s] 55%|█████▍    | 203564/371472 [5:08:38<13:18:07,  3.51it/s] 55%|█████▍    | 203565/371472 [5:08:38<13:08:55,  3.55it/s] 55%|█████▍    | 203566/371472 [5:08:39<12:52:55,  3.62it/s] 55%|█████▍    | 203567/371472 [5:08:39<12:41:54,  3.67it/s] 55%|█████▍    | 203568/371472 [5:08:39<13:09:43,  3.54it/s] 55%|█████▍    | 203569/371472 [5:08:40<13:06:32,  3.56it/s] 55%|█████▍    | 203570/371472 [5:08:40<14:16:55,  3.27it/s] 55%|█████▍    | 203571/371472 [5:08:40<14:39:38,  3.18it/s] 55%|█████▍    | 203572/371472 [5:08:41<14:27:49,  3.22it/s] 55%|█████▍    | 203573/371472 [5:08:41<13:57:40,  3.34it/s] 55%|█████▍    | 203574/371472 [5:08:41<13:09:28,  3.54it/s] 55%|█████▍    | 203575/371472 [5:08:41<13:33:31,  3.44it/s] 55%|█████▍    | 203576/371472 [5:08:42<13:29:05,  3.46it/s] 55%|█████▍    | 203577/371472 [5:08:42<13:41:08,  3.41it/s] 55%|█████▍    | 203578/371472 [5:08:42<13:55:37,  3.35it/s] 55%|█████▍    | 203579/371472 [5:08:43<14:15:24,  3.27it/s] 55%|█████▍    | 203580/371472 [5:08:43<13:22:58,  3.48it/s]                                                            {'loss': 2.9206, 'learning_rate': 5.069867913551251e-07, 'epoch': 8.77}
 55%|█████▍    | 203580/371472 [5:08:43<13:22:58,  3.48it/s] 55%|█████▍    | 203581/371472 [5:08:43<12:56:42,  3.60it/s] 55%|█████▍    | 203582/371472 [5:08:43<13:17:18,  3.51it/s] 55%|█████▍    | 203583/371472 [5:08:44<13:11:53,  3.53it/s] 55%|█████▍    | 203584/371472 [5:08:44<13:17:40,  3.51it/s] 55%|█████▍    | 203585/371472 [5:08:44<13:09:10,  3.55it/s] 55%|█████▍    | 203586/371472 [5:08:45<12:57:22,  3.60it/s] 55%|█████▍    | 203587/371472 [5:08:45<12:54:16,  3.61it/s] 55%|█████▍    | 203588/371472 [5:08:45<15:37:26,  2.98it/s] 55%|█████▍    | 203589/371472 [5:08:46<14:29:48,  3.22it/s] 55%|█████▍    | 203590/371472 [5:08:46<13:55:39,  3.35it/s] 55%|█████▍    | 203591/371472 [5:08:46<13:04:26,  3.57it/s] 55%|█████▍    | 203592/371472 [5:08:46<14:30:39,  3.21it/s] 55%|█████▍    | 203593/371472 [5:08:47<14:36:55,  3.19it/s] 55%|█████▍    | 203594/371472 [5:08:47<14:30:37,  3.21it/s] 55%|█████▍    | 203595/371472 [5:08:47<13:48:39,  3.38it/s] 55%|█████▍    | 203596/371472 [5:08:48<13:07:29,  3.55it/s] 55%|█████▍    | 203597/371472 [5:08:48<14:02:22,  3.32it/s] 55%|█████▍    | 203598/371472 [5:08:48<13:56:22,  3.35it/s] 55%|█████▍    | 203599/371472 [5:08:49<13:56:29,  3.34it/s] 55%|█████▍    | 203600/371472 [5:08:49<13:14:30,  3.52it/s]                                                            {'loss': 2.956, 'learning_rate': 5.069383093796462e-07, 'epoch': 8.77}
 55%|█████▍    | 203600/371472 [5:08:49<13:14:30,  3.52it/s] 55%|█████▍    | 203601/371472 [5:08:49<13:02:13,  3.58it/s] 55%|█████▍    | 203602/371472 [5:08:49<12:34:29,  3.71it/s] 55%|█████▍    | 203603/371472 [5:08:50<12:23:40,  3.76it/s] 55%|█████▍    | 203604/371472 [5:08:50<12:49:06,  3.64it/s] 55%|█████▍    | 203605/371472 [5:08:50<12:54:00,  3.61it/s] 55%|█████▍    | 203606/371472 [5:08:50<12:55:24,  3.61it/s] 55%|█████▍    | 203607/371472 [5:08:51<13:02:37,  3.57it/s] 55%|█████▍    | 203608/371472 [5:08:51<14:07:16,  3.30it/s] 55%|█████▍    | 203609/371472 [5:08:51<13:54:37,  3.35it/s] 55%|█████▍    | 203610/371472 [5:08:52<13:15:53,  3.52it/s] 55%|█████▍    | 203611/371472 [5:08:52<13:41:50,  3.40it/s] 55%|█████▍    | 203612/371472 [5:08:52<13:31:28,  3.45it/s] 55%|█████▍    | 203613/371472 [5:08:52<13:54:11,  3.35it/s] 55%|█████▍    | 203614/371472 [5:08:53<13:40:02,  3.41it/s] 55%|█████▍    | 203615/371472 [5:08:53<13:45:46,  3.39it/s] 55%|█████▍    | 203616/371472 [5:08:53<13:35:51,  3.43it/s] 55%|█████▍    | 203617/371472 [5:08:54<13:14:15,  3.52it/s] 55%|█████▍    | 203618/371472 [5:08:54<12:49:40,  3.63it/s] 55%|█████▍    | 203619/371472 [5:08:54<13:02:50,  3.57it/s] 55%|█████▍    | 203620/371472 [5:08:54<12:45:41,  3.65it/s]                                                            {'loss': 3.0044, 'learning_rate': 5.068898274041673e-07, 'epoch': 8.77}
 55%|█████▍    | 203620/371472 [5:08:54<12:45:41,  3.65it/s] 55%|█████▍    | 203621/371472 [5:08:55<14:20:31,  3.25it/s] 55%|█████▍    | 203622/371472 [5:08:55<13:37:14,  3.42it/s] 55%|█████▍    | 203623/371472 [5:08:55<13:40:07,  3.41it/s] 55%|█████▍    | 203624/371472 [5:08:56<14:16:25,  3.27it/s] 55%|█████▍    | 203625/371472 [5:08:56<13:45:11,  3.39it/s] 55%|█████▍    | 203626/371472 [5:08:56<13:32:22,  3.44it/s] 55%|█████▍    | 203627/371472 [5:08:57<13:20:37,  3.49it/s] 55%|█████▍    | 203628/371472 [5:08:57<13:18:30,  3.50it/s] 55%|█████▍    | 203629/371472 [5:08:57<13:04:57,  3.56it/s] 55%|█████▍    | 203630/371472 [5:08:57<12:57:07,  3.60it/s] 55%|█████▍    | 203631/371472 [5:08:58<12:57:21,  3.60it/s] 55%|█████▍    | 203632/371472 [5:08:58<12:46:37,  3.65it/s] 55%|█████▍    | 203633/371472 [5:08:58<13:35:10,  3.43it/s] 55%|█████▍    | 203634/371472 [5:08:59<13:59:07,  3.33it/s] 55%|█████▍    | 203635/371472 [5:08:59<13:46:11,  3.39it/s] 55%|█████▍    | 203636/371472 [5:08:59<13:24:49,  3.48it/s] 55%|█████▍    | 203637/371472 [5:08:59<13:37:10,  3.42it/s] 55%|█████▍    | 203638/371472 [5:09:00<14:30:59,  3.21it/s] 55%|█████▍    | 203639/371472 [5:09:00<14:20:07,  3.25it/s] 55%|█████▍    | 203640/371472 [5:09:00<13:40:27,  3.41it/s]                                                            {'loss': 2.8386, 'learning_rate': 5.068413454286884e-07, 'epoch': 8.77}
 55%|█████▍    | 203640/371472 [5:09:00<13:40:27,  3.41it/s] 55%|█████▍    | 203641/371472 [5:09:01<13:32:09,  3.44it/s] 55%|█████▍    | 203642/371472 [5:09:01<12:53:27,  3.62it/s] 55%|█████▍    | 203643/371472 [5:09:01<13:52:28,  3.36it/s] 55%|█████▍    | 203644/371472 [5:09:02<14:12:30,  3.28it/s] 55%|█████▍    | 203645/371472 [5:09:02<14:05:38,  3.31it/s] 55%|█████▍    | 203646/371472 [5:09:02<13:14:16,  3.52it/s] 55%|█████▍    | 203647/371472 [5:09:02<13:22:48,  3.48it/s] 55%|█████▍    | 203648/371472 [5:09:03<13:36:21,  3.43it/s] 55%|█████▍    | 203649/371472 [5:09:03<13:34:09,  3.44it/s] 55%|█████▍    | 203650/371472 [5:09:03<13:04:58,  3.56it/s] 55%|█████▍    | 203651/371472 [5:09:03<13:20:51,  3.49it/s] 55%|█████▍    | 203652/371472 [5:09:04<13:14:59,  3.52it/s] 55%|█████▍    | 203653/371472 [5:09:04<12:43:12,  3.66it/s] 55%|█████▍    | 203654/371472 [5:09:04<12:34:52,  3.71it/s] 55%|█████▍    | 203655/371472 [5:09:05<12:32:42,  3.72it/s] 55%|█████▍    | 203656/371472 [5:09:05<12:47:51,  3.64it/s] 55%|█████▍    | 203657/371472 [5:09:05<12:46:34,  3.65it/s] 55%|█████▍    | 203658/371472 [5:09:05<12:56:55,  3.60it/s] 55%|█████▍    | 203659/371472 [5:09:06<12:48:29,  3.64it/s] 55%|█████▍    | 203660/371472 [5:09:06<12:35:46,  3.70it/s]                                                            {'loss': 3.0076, 'learning_rate': 5.067928634532096e-07, 'epoch': 8.77}
 55%|█████▍    | 203660/371472 [5:09:06<12:35:46,  3.70it/s] 55%|█████▍    | 203661/371472 [5:09:06<12:35:08,  3.70it/s] 55%|█████▍    | 203662/371472 [5:09:07<13:10:08,  3.54it/s] 55%|█████▍    | 203663/371472 [5:09:07<13:09:43,  3.54it/s] 55%|█████▍    | 203664/371472 [5:09:07<14:06:42,  3.30it/s] 55%|█████▍    | 203665/371472 [5:09:07<13:36:06,  3.43it/s] 55%|█████▍    | 203666/371472 [5:09:08<13:04:01,  3.57it/s] 55%|█████▍    | 203667/371472 [5:09:08<13:30:25,  3.45it/s] 55%|█████▍    | 203668/371472 [5:09:08<13:17:13,  3.51it/s] 55%|█████▍    | 203669/371472 [5:09:08<12:41:49,  3.67it/s] 55%|█████▍    | 203670/371472 [5:09:09<13:02:00,  3.58it/s] 55%|█████▍    | 203671/371472 [5:09:09<12:50:45,  3.63it/s] 55%|█████▍    | 203672/371472 [5:09:09<12:45:00,  3.66it/s] 55%|█████▍    | 203673/371472 [5:09:10<13:00:19,  3.58it/s] 55%|█████▍    | 203674/371472 [5:09:10<12:33:33,  3.71it/s] 55%|█████▍    | 203675/371472 [5:09:10<13:29:24,  3.46it/s] 55%|█████▍    | 203676/371472 [5:09:10<13:08:35,  3.55it/s] 55%|█████▍    | 203677/371472 [5:09:11<13:30:37,  3.45it/s] 55%|█████▍    | 203678/371472 [5:09:11<14:44:50,  3.16it/s] 55%|█████▍    | 203679/371472 [5:09:11<14:48:30,  3.15it/s] 55%|█████▍    | 203680/371472 [5:09:12<14:40:13,  3.18it/s]                                                            {'loss': 3.0456, 'learning_rate': 5.067443814777305e-07, 'epoch': 8.77}
 55%|█████▍    | 203680/371472 [5:09:12<14:40:13,  3.18it/s] 55%|█████▍    | 203681/371472 [5:09:12<13:45:46,  3.39it/s] 55%|█████▍    | 203682/371472 [5:09:12<13:49:30,  3.37it/s] 55%|█████▍    | 203683/371472 [5:09:13<13:51:15,  3.36it/s] 55%|█████▍    | 203684/371472 [5:09:13<13:41:22,  3.40it/s] 55%|█████▍    | 203685/371472 [5:09:13<13:45:41,  3.39it/s] 55%|█████▍    | 203686/371472 [5:09:13<13:22:44,  3.48it/s] 55%|█████▍    | 203687/371472 [5:09:14<14:11:00,  3.29it/s] 55%|█████▍    | 203688/371472 [5:09:14<13:36:20,  3.43it/s] 55%|█████▍    | 203689/371472 [5:09:14<13:25:58,  3.47it/s] 55%|█████▍    | 203690/371472 [5:09:15<14:22:43,  3.24it/s] 55%|█████▍    | 203691/371472 [5:09:15<14:34:36,  3.20it/s] 55%|█████▍    | 203692/371472 [5:09:15<14:09:24,  3.29it/s] 55%|█████▍    | 203693/371472 [5:09:16<13:45:24,  3.39it/s] 55%|█████▍    | 203694/371472 [5:09:16<13:41:56,  3.40it/s] 55%|█████▍    | 203695/371472 [5:09:16<13:05:58,  3.56it/s] 55%|█████▍    | 203696/371472 [5:09:16<12:50:15,  3.63it/s] 55%|█████▍    | 203697/371472 [5:09:17<12:27:47,  3.74it/s] 55%|█████▍    | 203698/371472 [5:09:17<13:40:32,  3.41it/s] 55%|█████▍    | 203699/371472 [5:09:17<13:12:33,  3.53it/s] 55%|█████▍    | 203700/371472 [5:09:18<13:04:23,  3.56it/s]                                                            {'loss': 2.8865, 'learning_rate': 5.066958995022518e-07, 'epoch': 8.77}
 55%|█████▍    | 203700/371472 [5:09:18<13:04:23,  3.56it/s] 55%|█████▍    | 203701/371472 [5:09:18<14:07:05,  3.30it/s] 55%|█████▍    | 203702/371472 [5:09:18<15:19:57,  3.04it/s] 55%|█████▍    | 203703/371472 [5:09:19<14:31:16,  3.21it/s] 55%|█████▍    | 203704/371472 [5:09:19<13:43:29,  3.40it/s] 55%|█████▍    | 203705/371472 [5:09:19<13:31:31,  3.45it/s] 55%|█████▍    | 203706/371472 [5:09:19<13:23:11,  3.48it/s] 55%|█████▍    | 203707/371472 [5:09:20<13:12:59,  3.53it/s] 55%|█████▍    | 203708/371472 [5:09:20<13:14:08,  3.52it/s] 55%|█████▍    | 203709/371472 [5:09:20<14:00:33,  3.33it/s] 55%|█████▍    | 203710/371472 [5:09:21<13:34:27,  3.43it/s] 55%|█████▍    | 203711/371472 [5:09:21<13:22:31,  3.48it/s] 55%|█████▍    | 203712/371472 [5:09:21<12:53:02,  3.62it/s] 55%|█████▍    | 203713/371472 [5:09:21<13:11:55,  3.53it/s] 55%|█████▍    | 203714/371472 [5:09:22<13:16:25,  3.51it/s] 55%|█████▍    | 203715/371472 [5:09:22<13:42:03,  3.40it/s] 55%|█████▍    | 203716/371472 [5:09:22<14:05:02,  3.31it/s] 55%|█████▍    | 203717/371472 [5:09:23<14:30:28,  3.21it/s] 55%|█████▍    | 203718/371472 [5:09:23<14:31:52,  3.21it/s] 55%|█████▍    | 203719/371472 [5:09:23<13:56:56,  3.34it/s] 55%|█████▍    | 203720/371472 [5:09:24<15:16:05,  3.05it/s]                                                            {'loss': 2.9698, 'learning_rate': 5.066474175267729e-07, 'epoch': 8.77}
 55%|█████▍    | 203720/371472 [5:09:24<15:16:05,  3.05it/s] 55%|█████▍    | 203721/371472 [5:09:24<14:28:09,  3.22it/s] 55%|█████▍    | 203722/371472 [5:09:24<13:46:25,  3.38it/s] 55%|█████▍    | 203723/371472 [5:09:24<13:43:44,  3.39it/s] 55%|█████▍    | 203724/371472 [5:09:25<13:34:05,  3.43it/s] 55%|█████▍    | 203725/371472 [5:09:25<12:57:17,  3.60it/s] 55%|█████▍    | 203726/371472 [5:09:25<12:43:38,  3.66it/s] 55%|█████▍    | 203727/371472 [5:09:26<13:29:58,  3.45it/s] 55%|█████▍    | 203728/371472 [5:09:26<13:06:30,  3.55it/s] 55%|█████▍    | 203729/371472 [5:09:26<13:00:01,  3.58it/s] 55%|█████▍    | 203730/371472 [5:09:26<12:37:47,  3.69it/s] 55%|█████▍    | 203731/371472 [5:09:27<12:31:22,  3.72it/s] 55%|█████▍    | 203732/371472 [5:09:27<12:46:43,  3.65it/s] 55%|█████▍    | 203733/371472 [5:09:27<12:56:12,  3.60it/s] 55%|█████▍    | 203734/371472 [5:09:27<12:30:54,  3.72it/s] 55%|█████▍    | 203735/371472 [5:09:28<12:42:18,  3.67it/s] 55%|█████▍    | 203736/371472 [5:09:28<12:47:49,  3.64it/s] 55%|█████▍    | 203737/371472 [5:09:28<12:33:33,  3.71it/s] 55%|█████▍    | 203738/371472 [5:09:28<12:19:44,  3.78it/s] 55%|█████▍    | 203739/371472 [5:09:29<12:40:19,  3.68it/s] 55%|█████▍    | 203740/371472 [5:09:29<13:39:24,  3.41it/s]                                                            {'loss': 3.0451, 'learning_rate': 5.065989355512939e-07, 'epoch': 8.78}
 55%|█████▍    | 203740/371472 [5:09:29<13:39:24,  3.41it/s] 55%|█████▍    | 203741/371472 [5:09:29<13:12:34,  3.53it/s] 55%|█████▍    | 203742/371472 [5:09:30<13:09:16,  3.54it/s] 55%|█████▍    | 203743/371472 [5:09:30<13:54:53,  3.35it/s] 55%|█████▍    | 203744/371472 [5:09:30<13:52:53,  3.36it/s] 55%|█████▍    | 203745/371472 [5:09:31<13:28:21,  3.46it/s] 55%|█████▍    | 203746/371472 [5:09:31<13:44:20,  3.39it/s] 55%|█████▍    | 203747/371472 [5:09:31<13:16:40,  3.51it/s] 55%|█████▍    | 203748/371472 [5:09:31<13:38:12,  3.42it/s] 55%|█████▍    | 203749/371472 [5:09:32<13:15:13,  3.52it/s] 55%|█████▍    | 203750/371472 [5:09:32<13:15:05,  3.52it/s] 55%|█████▍    | 203751/371472 [5:09:32<13:05:17,  3.56it/s] 55%|█████▍    | 203752/371472 [5:09:33<13:21:09,  3.49it/s] 55%|█████▍    | 203753/371472 [5:09:33<14:08:10,  3.30it/s] 55%|█████▍    | 203754/371472 [5:09:33<13:23:20,  3.48it/s] 55%|█████▍    | 203755/371472 [5:09:33<13:18:14,  3.50it/s] 55%|█████▍    | 203756/371472 [5:09:34<13:20:02,  3.49it/s] 55%|█████▍    | 203757/371472 [5:09:34<12:43:15,  3.66it/s] 55%|█████▍    | 203758/371472 [5:09:34<12:44:09,  3.66it/s] 55%|█████▍    | 203759/371472 [5:09:35<12:55:26,  3.60it/s] 55%|█████▍    | 203760/371472 [5:09:35<12:47:28,  3.64it/s]                                                            {'loss': 2.9203, 'learning_rate': 5.06550453575815e-07, 'epoch': 8.78}
 55%|█████▍    | 203760/371472 [5:09:35<12:47:28,  3.64it/s] 55%|█████▍    | 203761/371472 [5:09:35<13:37:12,  3.42it/s] 55%|█████▍    | 203762/371472 [5:09:35<14:02:59,  3.32it/s] 55%|█████▍    | 203763/371472 [5:09:36<15:02:52,  3.10it/s] 55%|█████▍    | 203764/371472 [5:09:36<14:21:06,  3.25it/s] 55%|█████▍    | 203765/371472 [5:09:36<13:46:41,  3.38it/s] 55%|█████▍    | 203766/371472 [5:09:37<13:14:53,  3.52it/s] 55%|█████▍    | 203767/371472 [5:09:37<12:58:03,  3.59it/s] 55%|█████▍    | 203768/371472 [5:09:37<12:47:17,  3.64it/s] 55%|█████▍    | 203769/371472 [5:09:37<12:45:48,  3.65it/s] 55%|█████▍    | 203770/371472 [5:09:38<12:30:43,  3.72it/s] 55%|█████▍    | 203771/371472 [5:09:38<12:17:20,  3.79it/s] 55%|█████▍    | 203772/371472 [5:09:38<12:01:02,  3.88it/s] 55%|█████▍    | 203773/371472 [5:09:38<12:23:19,  3.76it/s] 55%|█████▍    | 203774/371472 [5:09:39<12:05:00,  3.86it/s] 55%|█████▍    | 203775/371472 [5:09:39<11:45:41,  3.96it/s] 55%|█████▍    | 203776/371472 [5:09:39<11:59:09,  3.89it/s] 55%|█████▍    | 203777/371472 [5:09:39<11:49:23,  3.94it/s] 55%|█████▍    | 203778/371472 [5:09:40<12:20:49,  3.77it/s] 55%|█████▍    | 203779/371472 [5:09:40<12:26:11,  3.75it/s] 55%|█████▍    | 203780/371472 [5:09:40<12:48:43,  3.64it/s]                                                            {'loss': 3.0207, 'learning_rate': 5.065019716003362e-07, 'epoch': 8.78}
 55%|█████▍    | 203780/371472 [5:09:40<12:48:43,  3.64it/s] 55%|█████▍    | 203781/371472 [5:09:41<12:30:11,  3.73it/s] 55%|█████▍    | 203782/371472 [5:09:41<12:15:06,  3.80it/s] 55%|█████▍    | 203783/371472 [5:09:41<12:52:43,  3.62it/s] 55%|█████▍    | 203784/371472 [5:09:41<12:50:38,  3.63it/s] 55%|█████▍    | 203785/371472 [5:09:42<12:40:42,  3.67it/s] 55%|█████▍    | 203786/371472 [5:09:42<12:13:12,  3.81it/s] 55%|█████▍    | 203787/371472 [5:09:42<12:18:47,  3.78it/s] 55%|█████▍    | 203788/371472 [5:09:42<12:54:06,  3.61it/s] 55%|█████▍    | 203789/371472 [5:09:43<13:18:07,  3.50it/s] 55%|█████▍    | 203790/371472 [5:09:43<13:56:55,  3.34it/s] 55%|█████▍    | 203791/371472 [5:09:43<13:28:15,  3.46it/s] 55%|█████▍    | 203792/371472 [5:09:44<13:54:36,  3.35it/s] 55%|█████▍    | 203793/371472 [5:09:44<13:47:04,  3.38it/s] 55%|█████▍    | 203794/371472 [5:09:44<13:27:35,  3.46it/s] 55%|█████▍    | 203795/371472 [5:09:45<13:32:36,  3.44it/s] 55%|█████▍    | 203796/371472 [5:09:45<13:30:30,  3.45it/s] 55%|█████▍    | 203797/371472 [5:09:45<13:02:05,  3.57it/s] 55%|█████▍    | 203798/371472 [5:09:45<13:47:02,  3.38it/s] 55%|█████▍    | 203799/371472 [5:09:46<13:12:31,  3.53it/s] 55%|█████▍    | 203800/371472 [5:09:46<12:57:56,  3.59it/s]                                                            {'loss': 2.8795, 'learning_rate': 5.064534896248571e-07, 'epoch': 8.78}
 55%|█████▍    | 203800/371472 [5:09:46<12:57:56,  3.59it/s] 55%|█████▍    | 203801/371472 [5:09:46<12:38:59,  3.68it/s] 55%|█████▍    | 203802/371472 [5:09:46<12:14:19,  3.81it/s] 55%|█████▍    | 203803/371472 [5:09:47<12:15:25,  3.80it/s] 55%|█████▍    | 203804/371472 [5:09:47<12:04:58,  3.85it/s] 55%|█████▍    | 203805/371472 [5:09:47<11:53:47,  3.91it/s] 55%|█████▍    | 203806/371472 [5:09:48<12:44:18,  3.66it/s] 55%|█████▍    | 203807/371472 [5:09:48<12:59:04,  3.59it/s] 55%|█████▍    | 203808/371472 [5:09:48<13:33:53,  3.43it/s] 55%|█████▍    | 203809/371472 [5:09:49<14:25:20,  3.23it/s] 55%|█████▍    | 203810/371472 [5:09:49<14:45:19,  3.16it/s] 55%|█████▍    | 203811/371472 [5:09:49<14:04:00,  3.31it/s] 55%|█████▍    | 203812/371472 [5:09:49<13:46:42,  3.38it/s] 55%|█████▍    | 203813/371472 [5:09:50<13:46:28,  3.38it/s] 55%|█████▍    | 203814/371472 [5:09:50<14:57:29,  3.11it/s] 55%|█████▍    | 203815/371472 [5:09:50<14:03:50,  3.31it/s] 55%|█████▍    | 203816/371472 [5:09:51<13:50:53,  3.36it/s] 55%|█████▍    | 203817/371472 [5:09:51<13:19:48,  3.49it/s] 55%|█████▍    | 203818/371472 [5:09:51<12:57:54,  3.59it/s] 55%|█████▍    | 203819/371472 [5:09:51<14:06:29,  3.30it/s] 55%|█████▍    | 203820/371472 [5:09:52<13:38:18,  3.41it/s]                                                            {'loss': 2.9988, 'learning_rate': 5.064050076493784e-07, 'epoch': 8.78}
 55%|█████▍    | 203820/371472 [5:09:52<13:38:18,  3.41it/s] 55%|█████▍    | 203821/371472 [5:09:52<14:59:14,  3.11it/s] 55%|█████▍    | 203822/371472 [5:09:52<14:26:38,  3.22it/s] 55%|█████▍    | 203823/371472 [5:09:53<13:40:09,  3.41it/s] 55%|█████▍    | 203824/371472 [5:09:53<13:02:59,  3.57it/s] 55%|█████▍    | 203825/371472 [5:09:53<13:17:06,  3.51it/s] 55%|█████▍    | 203826/371472 [5:09:54<14:10:43,  3.28it/s] 55%|█████▍    | 203827/371472 [5:09:54<13:46:15,  3.38it/s] 55%|█████▍    | 203828/371472 [5:09:54<15:48:59,  2.94it/s] 55%|█████▍    | 203829/371472 [5:09:55<16:04:51,  2.90it/s] 55%|█████▍    | 203830/371472 [5:09:55<14:48:14,  3.15it/s] 55%|█████▍    | 203831/371472 [5:09:55<14:17:45,  3.26it/s] 55%|█████▍    | 203832/371472 [5:09:55<13:44:43,  3.39it/s] 55%|█████▍    | 203833/371472 [5:09:56<13:02:58,  3.57it/s] 55%|█████▍    | 203834/371472 [5:09:56<13:59:45,  3.33it/s] 55%|█████▍    | 203835/371472 [5:09:56<14:22:37,  3.24it/s] 55%|█████▍    | 203836/371472 [5:09:57<14:37:25,  3.18it/s] 55%|█████▍    | 203837/371472 [5:09:57<14:01:41,  3.32it/s] 55%|█████▍    | 203838/371472 [5:09:57<14:06:55,  3.30it/s] 55%|█████▍    | 203839/371472 [5:09:58<14:05:43,  3.30it/s] 55%|█████▍    | 203840/371472 [5:09:58<14:35:05,  3.19it/s]                                                            {'loss': 2.8706, 'learning_rate': 5.063565256738995e-07, 'epoch': 8.78}
 55%|█████▍    | 203840/371472 [5:09:58<14:35:05,  3.19it/s] 55%|█████▍    | 203841/371472 [5:09:58<14:14:43,  3.27it/s] 55%|█████▍    | 203842/371472 [5:09:59<14:28:06,  3.22it/s] 55%|█████▍    | 203843/371472 [5:09:59<14:27:41,  3.22it/s] 55%|█████▍    | 203844/371472 [5:09:59<14:05:00,  3.31it/s] 55%|█████▍    | 203845/371472 [5:09:59<13:21:23,  3.49it/s] 55%|█████▍    | 203846/371472 [5:10:00<13:45:42,  3.38it/s] 55%|█████▍    | 203847/371472 [5:10:00<13:56:51,  3.34it/s] 55%|█████▍    | 203848/371472 [5:10:00<13:22:17,  3.48it/s] 55%|█████▍    | 203849/371472 [5:10:01<13:18:40,  3.50it/s] 55%|█████▍    | 203850/371472 [5:10:01<12:52:42,  3.62it/s] 55%|█████▍    | 203851/371472 [5:10:01<13:23:50,  3.48it/s] 55%|█████▍    | 203852/371472 [5:10:01<12:53:54,  3.61it/s] 55%|█████▍    | 203853/371472 [5:10:02<12:56:18,  3.60it/s] 55%|█████▍    | 203854/371472 [5:10:02<13:04:54,  3.56it/s] 55%|█████▍    | 203855/371472 [5:10:02<13:06:37,  3.55it/s] 55%|█████▍    | 203856/371472 [5:10:03<13:39:59,  3.41it/s] 55%|█████▍    | 203857/371472 [5:10:03<13:58:02,  3.33it/s] 55%|█████▍    | 203858/371472 [5:10:03<14:04:20,  3.31it/s] 55%|█████▍    | 203859/371472 [5:10:04<14:40:12,  3.17it/s] 55%|█████▍    | 203860/371472 [5:10:04<15:00:37,  3.10it/s]                                                            {'loss': 2.882, 'learning_rate': 5.063080436984206e-07, 'epoch': 8.78}
 55%|█████▍    | 203860/371472 [5:10:04<15:00:37,  3.10it/s] 55%|█████▍    | 203861/371472 [5:10:04<14:14:37,  3.27it/s] 55%|█████▍    | 203862/371472 [5:10:04<14:03:08,  3.31it/s] 55%|█████▍    | 203863/371472 [5:10:05<13:15:18,  3.51it/s] 55%|█████▍    | 203864/371472 [5:10:05<16:05:41,  2.89it/s] 55%|█████▍    | 203865/371472 [5:10:05<14:49:26,  3.14it/s] 55%|█████▍    | 203866/371472 [5:10:06<13:53:58,  3.35it/s] 55%|█████▍    | 203867/371472 [5:10:06<13:55:24,  3.34it/s] 55%|█████▍    | 203868/371472 [5:10:06<13:18:29,  3.50it/s] 55%|█████▍    | 203869/371472 [5:10:06<12:52:55,  3.61it/s] 55%|█████▍    | 203870/371472 [5:10:07<13:08:34,  3.54it/s] 55%|█████▍    | 203871/371472 [5:10:07<13:03:04,  3.57it/s] 55%|█████▍    | 203872/371472 [5:10:07<12:41:28,  3.67it/s] 55%|█████▍    | 203873/371472 [5:10:08<13:15:14,  3.51it/s] 55%|█████▍    | 203874/371472 [5:10:08<14:26:13,  3.22it/s] 55%|█████▍    | 203875/371472 [5:10:08<13:48:42,  3.37it/s] 55%|█████▍    | 203876/371472 [5:10:08<13:25:43,  3.47it/s] 55%|█████▍    | 203877/371472 [5:10:09<13:46:30,  3.38it/s] 55%|█████▍    | 203878/371472 [5:10:09<13:10:00,  3.54it/s] 55%|█████▍    | 203879/371472 [5:10:09<12:38:41,  3.68it/s] 55%|█████▍    | 203880/371472 [5:10:10<12:33:00,  3.71it/s]                                                            {'loss': 2.9907, 'learning_rate': 5.062595617229416e-07, 'epoch': 8.78}
 55%|█████▍    | 203880/371472 [5:10:10<12:33:00,  3.71it/s] 55%|█████▍    | 203881/371472 [5:10:10<12:41:27,  3.67it/s] 55%|█████▍    | 203882/371472 [5:10:10<13:11:45,  3.53it/s] 55%|█████▍    | 203883/371472 [5:10:10<13:00:49,  3.58it/s] 55%|█████▍    | 203884/371472 [5:10:11<12:43:40,  3.66it/s] 55%|█████▍    | 203885/371472 [5:10:11<13:24:50,  3.47it/s] 55%|█████▍    | 203886/371472 [5:10:11<13:19:13,  3.49it/s] 55%|█████▍    | 203887/371472 [5:10:12<14:21:07,  3.24it/s] 55%|█████▍    | 203888/371472 [5:10:12<13:29:03,  3.45it/s] 55%|█████▍    | 203889/371472 [5:10:12<12:54:50,  3.60it/s] 55%|█████▍    | 203890/371472 [5:10:12<13:11:33,  3.53it/s] 55%|█████▍    | 203891/371472 [5:10:13<12:57:04,  3.59it/s] 55%|█████▍    | 203892/371472 [5:10:13<13:00:17,  3.58it/s] 55%|█████▍    | 203893/371472 [5:10:13<13:28:09,  3.46it/s] 55%|█████▍    | 203894/371472 [5:10:14<13:06:54,  3.55it/s] 55%|█████▍    | 203895/371472 [5:10:14<12:50:02,  3.63it/s] 55%|█████▍    | 203896/371472 [5:10:14<13:01:18,  3.57it/s] 55%|█████▍    | 203897/371472 [5:10:14<12:50:22,  3.63it/s] 55%|█████▍    | 203898/371472 [5:10:15<12:55:36,  3.60it/s] 55%|█████▍    | 203899/371472 [5:10:15<13:17:19,  3.50it/s] 55%|█████▍    | 203900/371472 [5:10:15<13:08:59,  3.54it/s]                                                            {'loss': 2.8605, 'learning_rate': 5.062110797474627e-07, 'epoch': 8.78}
 55%|█████▍    | 203900/371472 [5:10:15<13:08:59,  3.54it/s] 55%|█████▍    | 203901/371472 [5:10:16<12:47:48,  3.64it/s] 55%|█████▍    | 203902/371472 [5:10:16<13:11:04,  3.53it/s] 55%|█████▍    | 203903/371472 [5:10:16<14:06:38,  3.30it/s] 55%|█████▍    | 203904/371472 [5:10:16<13:54:55,  3.34it/s] 55%|█████▍    | 203905/371472 [5:10:17<13:37:46,  3.42it/s] 55%|█████▍    | 203906/371472 [5:10:17<13:24:54,  3.47it/s] 55%|█████▍    | 203907/371472 [5:10:17<13:16:26,  3.51it/s] 55%|█████▍    | 203908/371472 [5:10:18<13:40:57,  3.40it/s] 55%|█████▍    | 203909/371472 [5:10:18<13:09:51,  3.54it/s] 55%|█████▍    | 203910/371472 [5:10:18<12:46:22,  3.64it/s] 55%|█████▍    | 203911/371472 [5:10:18<13:06:38,  3.55it/s] 55%|█████▍    | 203912/371472 [5:10:19<12:45:43,  3.65it/s] 55%|█████▍    | 203913/371472 [5:10:19<12:23:09,  3.76it/s] 55%|█████▍    | 203914/371472 [5:10:19<12:05:41,  3.85it/s] 55%|█████▍    | 203915/371472 [5:10:19<13:12:58,  3.52it/s] 55%|█████▍    | 203916/371472 [5:10:20<13:56:21,  3.34it/s] 55%|█████▍    | 203917/371472 [5:10:20<13:33:39,  3.43it/s] 55%|█████▍    | 203918/371472 [5:10:20<13:19:33,  3.49it/s] 55%|█████▍    | 203919/371472 [5:10:21<13:05:02,  3.56it/s] 55%|█████▍    | 203920/371472 [5:10:21<12:33:14,  3.71it/s]                                                            {'loss': 2.9199, 'learning_rate': 5.061625977719839e-07, 'epoch': 8.78}
 55%|█████▍    | 203920/371472 [5:10:21<12:33:14,  3.71it/s] 55%|█████▍    | 203921/371472 [5:10:21<12:19:27,  3.78it/s] 55%|█████▍    | 203922/371472 [5:10:21<12:11:10,  3.82it/s] 55%|█████▍    | 203923/371472 [5:10:22<13:18:17,  3.50it/s] 55%|█████▍    | 203924/371472 [5:10:22<12:38:43,  3.68it/s] 55%|█████▍    | 203925/371472 [5:10:22<12:39:38,  3.68it/s] 55%|█████▍    | 203926/371472 [5:10:23<12:36:48,  3.69it/s] 55%|█████▍    | 203927/371472 [5:10:23<12:45:15,  3.65it/s] 55%|█████▍    | 203928/371472 [5:10:23<12:59:05,  3.58it/s] 55%|█████▍    | 203929/371472 [5:10:23<13:00:49,  3.58it/s] 55%|█████▍    | 203930/371472 [5:10:24<12:42:10,  3.66it/s] 55%|█████▍    | 203931/371472 [5:10:24<12:49:52,  3.63it/s] 55%|█████▍    | 203932/371472 [5:10:24<12:37:05,  3.69it/s] 55%|█████▍    | 203933/371472 [5:10:24<12:44:05,  3.65it/s] 55%|█████▍    | 203934/371472 [5:10:25<13:37:15,  3.42it/s] 55%|█████▍    | 203935/371472 [5:10:25<13:28:55,  3.45it/s] 55%|█████▍    | 203936/371472 [5:10:25<13:12:17,  3.52it/s] 55%|█████▍    | 203937/371472 [5:10:26<12:42:40,  3.66it/s] 55%|█████▍    | 203938/371472 [5:10:26<12:54:22,  3.61it/s] 55%|█████▍    | 203939/371472 [5:10:26<12:46:17,  3.64it/s] 55%|█████▍    | 203940/371472 [5:10:26<12:38:18,  3.68it/s]                                                            {'loss': 3.0538, 'learning_rate': 5.061141157965049e-07, 'epoch': 8.78}
 55%|█████▍    | 203940/371472 [5:10:26<12:38:18,  3.68it/s] 55%|█████▍    | 203941/371472 [5:10:27<12:30:40,  3.72it/s] 55%|█████▍    | 203942/371472 [5:10:27<12:46:03,  3.64it/s] 55%|█████▍    | 203943/371472 [5:10:27<12:29:38,  3.72it/s] 55%|█████▍    | 203944/371472 [5:10:27<12:29:43,  3.72it/s] 55%|█████▍    | 203945/371472 [5:10:28<12:45:58,  3.65it/s] 55%|█████▍    | 203946/371472 [5:10:28<12:44:49,  3.65it/s] 55%|█████▍    | 203947/371472 [5:10:28<12:33:17,  3.71it/s] 55%|█████▍    | 203948/371472 [5:10:29<13:22:40,  3.48it/s] 55%|█████▍    | 203949/371472 [5:10:29<12:48:24,  3.63it/s] 55%|█████▍    | 203950/371472 [5:10:29<13:32:49,  3.43it/s] 55%|█████▍    | 203951/371472 [5:10:29<13:20:19,  3.49it/s] 55%|█████▍    | 203952/371472 [5:10:30<13:27:11,  3.46it/s] 55%|█████▍    | 203953/371472 [5:10:30<13:10:57,  3.53it/s] 55%|█████▍    | 203954/371472 [5:10:30<13:23:27,  3.47it/s] 55%|█████▍    | 203955/371472 [5:10:31<12:57:09,  3.59it/s] 55%|█████▍    | 203956/371472 [5:10:31<12:55:16,  3.60it/s] 55%|█████▍    | 203957/371472 [5:10:31<12:54:14,  3.61it/s] 55%|█████▍    | 203958/371472 [5:10:31<12:56:46,  3.59it/s] 55%|█████▍    | 203959/371472 [5:10:32<12:53:23,  3.61it/s] 55%|█████▍    | 203960/371472 [5:10:32<13:44:54,  3.38it/s]                                                            {'loss': 2.9891, 'learning_rate': 5.060656338210261e-07, 'epoch': 8.78}
 55%|█████▍    | 203960/371472 [5:10:32<13:44:54,  3.38it/s] 55%|█████▍    | 203961/371472 [5:10:32<13:35:13,  3.42it/s] 55%|█████▍    | 203962/371472 [5:10:33<13:05:33,  3.55it/s] 55%|█████▍    | 203963/371472 [5:10:33<14:44:30,  3.16it/s] 55%|█████▍    | 203964/371472 [5:10:33<13:47:10,  3.38it/s] 55%|█████▍    | 203965/371472 [5:10:34<13:31:38,  3.44it/s] 55%|█████▍    | 203966/371472 [5:10:34<12:55:41,  3.60it/s] 55%|█████▍    | 203967/371472 [5:10:34<13:09:14,  3.54it/s] 55%|█████▍    | 203968/371472 [5:10:34<12:42:57,  3.66it/s] 55%|█████▍    | 203969/371472 [5:10:35<12:51:09,  3.62it/s] 55%|█████▍    | 203970/371472 [5:10:35<12:28:00,  3.73it/s] 55%|█████▍    | 203971/371472 [5:10:35<12:54:44,  3.60it/s] 55%|█████▍    | 203972/371472 [5:10:35<12:34:40,  3.70it/s] 55%|█████▍    | 203973/371472 [5:10:36<14:19:04,  3.25it/s] 55%|█████▍    | 203974/371472 [5:10:36<13:36:07,  3.42it/s] 55%|█████▍    | 203975/371472 [5:10:36<13:15:12,  3.51it/s] 55%|█████▍    | 203976/371472 [5:10:37<12:51:17,  3.62it/s] 55%|█████▍    | 203977/371472 [5:10:37<13:12:23,  3.52it/s] 55%|█████▍    | 203978/371472 [5:10:37<13:23:39,  3.47it/s] 55%|█████▍    | 203979/371472 [5:10:37<13:02:53,  3.57it/s] 55%|█████▍    | 203980/371472 [5:10:38<13:28:44,  3.45it/s]                                                            {'loss': 2.864, 'learning_rate': 5.060171518455472e-07, 'epoch': 8.79}
 55%|█████▍    | 203980/371472 [5:10:38<13:28:44,  3.45it/s] 55%|█████▍    | 203981/371472 [5:10:38<13:21:39,  3.48it/s] 55%|█████▍    | 203982/371472 [5:10:38<13:21:18,  3.48it/s] 55%|█████▍    | 203983/371472 [5:10:39<14:16:30,  3.26it/s] 55%|█████▍    | 203984/371472 [5:10:39<13:56:06,  3.34it/s] 55%|█████▍    | 203985/371472 [5:10:39<13:25:17,  3.47it/s] 55%|█████▍    | 203986/371472 [5:10:39<13:24:34,  3.47it/s] 55%|█████▍    | 203987/371472 [5:10:40<14:09:43,  3.29it/s] 55%|█████▍    | 203988/371472 [5:10:40<13:55:26,  3.34it/s] 55%|█████▍    | 203989/371472 [5:10:40<13:37:22,  3.42it/s] 55%|█████▍    | 203990/371472 [5:10:41<14:44:37,  3.16it/s] 55%|█████▍    | 203991/371472 [5:10:41<14:58:23,  3.11it/s] 55%|█████▍    | 203992/371472 [5:10:41<14:28:53,  3.21it/s] 55%|█████▍    | 203993/371472 [5:10:42<13:49:48,  3.36it/s] 55%|█████▍    | 203994/371472 [5:10:42<13:33:51,  3.43it/s] 55%|█████▍    | 203995/371472 [5:10:42<14:55:11,  3.12it/s] 55%|█████▍    | 203996/371472 [5:10:43<15:03:27,  3.09it/s] 55%|█████▍    | 203997/371472 [5:10:43<14:29:34,  3.21it/s] 55%|█████▍    | 203998/371472 [5:10:43<13:53:29,  3.35it/s] 55%|█████▍    | 203999/371472 [5:10:44<14:25:21,  3.23it/s] 55%|█████▍    | 204000/371472 [5:10:44<13:59:19,  3.33it/s]                                                            {'loss': 2.9202, 'learning_rate': 5.059686698700683e-07, 'epoch': 8.79}
 55%|█████▍    | 204000/371472 [5:10:44<13:59:19,  3.33it/s] 55%|█████▍    | 204001/371472 [5:10:44<13:56:28,  3.34it/s] 55%|█████▍    | 204002/371472 [5:10:44<13:56:44,  3.34it/s] 55%|█████▍    | 204003/371472 [5:10:45<13:41:01,  3.40it/s] 55%|█████▍    | 204004/371472 [5:10:45<13:22:29,  3.48it/s] 55%|█████▍    | 204005/371472 [5:10:45<13:14:03,  3.51it/s] 55%|█████▍    | 204006/371472 [5:10:46<13:06:56,  3.55it/s] 55%|█████▍    | 204007/371472 [5:10:46<12:42:19,  3.66it/s] 55%|█████▍    | 204008/371472 [5:10:46<12:21:33,  3.76it/s] 55%|█████▍    | 204009/371472 [5:10:46<13:17:10,  3.50it/s] 55%|█████▍    | 204010/371472 [5:10:47<13:17:28,  3.50it/s] 55%|█████▍    | 204011/371472 [5:10:47<14:27:50,  3.22it/s] 55%|█████▍    | 204012/371472 [5:10:47<13:36:44,  3.42it/s] 55%|█████▍    | 204013/371472 [5:10:48<13:30:57,  3.44it/s] 55%|█████▍    | 204014/371472 [5:10:48<13:47:52,  3.37it/s] 55%|█████▍    | 204015/371472 [5:10:48<14:24:02,  3.23it/s] 55%|█████▍    | 204016/371472 [5:10:48<14:05:02,  3.30it/s] 55%|█████▍    | 204017/371472 [5:10:49<13:40:33,  3.40it/s] 55%|█████▍    | 204018/371472 [5:10:49<13:41:26,  3.40it/s] 55%|█████▍    | 204019/371472 [5:10:49<13:10:47,  3.53it/s] 55%|█████▍    | 204020/371472 [5:10:50<12:41:43,  3.66it/s]                                                            {'loss': 2.8958, 'learning_rate': 5.059201878945894e-07, 'epoch': 8.79}
 55%|█████▍    | 204020/371472 [5:10:50<12:41:43,  3.66it/s] 55%|█████▍    | 204021/371472 [5:10:50<12:47:40,  3.64it/s] 55%|█████▍    | 204022/371472 [5:10:50<12:22:47,  3.76it/s] 55%|█████▍    | 204023/371472 [5:10:50<12:57:04,  3.59it/s] 55%|█████▍    | 204024/371472 [5:10:51<12:46:11,  3.64it/s] 55%|█████▍    | 204025/371472 [5:10:51<13:04:48,  3.56it/s] 55%|█████▍    | 204026/371472 [5:10:51<13:23:32,  3.47it/s] 55%|█████▍    | 204027/371472 [5:10:52<13:22:19,  3.48it/s] 55%|█████▍    | 204028/371472 [5:10:52<13:48:38,  3.37it/s] 55%|█████▍    | 204029/371472 [5:10:52<13:51:46,  3.36it/s] 55%|█████▍    | 204030/371472 [5:10:52<13:38:44,  3.41it/s] 55%|█████▍    | 204031/371472 [5:10:53<13:34:29,  3.43it/s] 55%|█████▍    | 204032/371472 [5:10:53<13:15:05,  3.51it/s] 55%|█████▍    | 204033/371472 [5:10:53<13:06:13,  3.55it/s] 55%|█████▍    | 204034/371472 [5:10:54<13:03:22,  3.56it/s] 55%|█████▍    | 204035/371472 [5:10:54<13:38:13,  3.41it/s] 55%|█████▍    | 204036/371472 [5:10:54<14:32:09,  3.20it/s] 55%|█████▍    | 204037/371472 [5:10:55<13:57:13,  3.33it/s] 55%|█████▍    | 204038/371472 [5:10:55<13:51:17,  3.36it/s] 55%|█████▍    | 204039/371472 [5:10:55<13:25:13,  3.47it/s] 55%|█████▍    | 204040/371472 [5:10:55<12:46:20,  3.64it/s]                                                            {'loss': 2.8456, 'learning_rate': 5.058717059191105e-07, 'epoch': 8.79}
 55%|█████▍    | 204040/371472 [5:10:55<12:46:20,  3.64it/s] 55%|█████▍    | 204041/371472 [5:10:56<13:06:23,  3.55it/s] 55%|█████▍    | 204042/371472 [5:10:56<12:32:56,  3.71it/s] 55%|█████▍    | 204043/371472 [5:10:56<12:18:33,  3.78it/s] 55%|█████▍    | 204044/371472 [5:10:56<13:01:53,  3.57it/s] 55%|█████▍    | 204045/371472 [5:10:57<13:00:47,  3.57it/s] 55%|█████▍    | 204046/371472 [5:10:57<12:54:35,  3.60it/s] 55%|█████▍    | 204047/371472 [5:10:57<13:34:33,  3.43it/s] 55%|█████▍    | 204048/371472 [5:10:58<13:11:27,  3.53it/s] 55%|█████▍    | 204049/371472 [5:10:58<13:16:23,  3.50it/s] 55%|█████▍    | 204050/371472 [5:10:58<13:11:11,  3.53it/s] 55%|█████▍    | 204051/371472 [5:10:58<13:19:24,  3.49it/s] 55%|█████▍    | 204052/371472 [5:10:59<13:34:13,  3.43it/s] 55%|█████▍    | 204053/371472 [5:10:59<12:59:05,  3.58it/s] 55%|█████▍    | 204054/371472 [5:10:59<12:42:58,  3.66it/s] 55%|█████▍    | 204055/371472 [5:11:00<12:39:37,  3.67it/s] 55%|█████▍    | 204056/371472 [5:11:00<12:29:45,  3.72it/s] 55%|█████▍    | 204057/371472 [5:11:00<13:00:29,  3.57it/s] 55%|█████▍    | 204058/371472 [5:11:00<12:44:20,  3.65it/s] 55%|█████▍    | 204059/371472 [5:11:01<12:55:44,  3.60it/s] 55%|█████▍    | 204060/371472 [5:11:01<12:35:11,  3.69it/s]                                                            {'loss': 3.0248, 'learning_rate': 5.058232239436315e-07, 'epoch': 8.79}
 55%|█████▍    | 204060/371472 [5:11:01<12:35:11,  3.69it/s] 55%|█████▍    | 204061/371472 [5:11:01<12:22:26,  3.76it/s] 55%|█████▍    | 204062/371472 [5:11:01<13:16:45,  3.50it/s] 55%|█████▍    | 204063/371472 [5:11:02<13:14:03,  3.51it/s] 55%|█████▍    | 204064/371472 [5:11:02<12:44:17,  3.65it/s] 55%|█████▍    | 204065/371472 [5:11:02<12:57:50,  3.59it/s] 55%|█████▍    | 204066/371472 [5:11:03<12:41:21,  3.66it/s] 55%|█████▍    | 204067/371472 [5:11:03<12:57:10,  3.59it/s] 55%|█████▍    | 204068/371472 [5:11:03<13:10:34,  3.53it/s] 55%|█████▍    | 204069/371472 [5:11:03<13:02:14,  3.57it/s] 55%|█████▍    | 204070/371472 [5:11:04<13:27:48,  3.45it/s] 55%|█████▍    | 204071/371472 [5:11:04<13:09:42,  3.53it/s] 55%|█████▍    | 204072/371472 [5:11:04<13:42:56,  3.39it/s] 55%|█████▍    | 204073/371472 [5:11:05<13:15:18,  3.51it/s] 55%|█████▍    | 204074/371472 [5:11:05<12:44:48,  3.65it/s] 55%|█████▍    | 204075/371472 [5:11:05<12:32:05,  3.71it/s] 55%|█████▍    | 204076/371472 [5:11:05<12:41:11,  3.67it/s] 55%|█████▍    | 204077/371472 [5:11:06<13:04:35,  3.56it/s] 55%|█████▍    | 204078/371472 [5:11:06<13:10:47,  3.53it/s] 55%|█████▍    | 204079/371472 [5:11:06<13:23:24,  3.47it/s] 55%|█████▍    | 204080/371472 [5:11:07<13:01:57,  3.57it/s]                                                            {'loss': 3.0151, 'learning_rate': 5.057747419681527e-07, 'epoch': 8.79}
 55%|█████▍    | 204080/371472 [5:11:07<13:01:57,  3.57it/s] 55%|█████▍    | 204081/371472 [5:11:07<14:01:21,  3.32it/s] 55%|█████▍    | 204082/371472 [5:11:07<14:15:01,  3.26it/s] 55%|█████▍    | 204083/371472 [5:11:07<14:09:49,  3.28it/s] 55%|█████▍    | 204084/371472 [5:11:08<14:22:18,  3.24it/s] 55%|█████▍    | 204085/371472 [5:11:08<14:37:54,  3.18it/s] 55%|█████▍    | 204086/371472 [5:11:08<13:39:06,  3.41it/s] 55%|█████▍    | 204087/371472 [5:11:09<13:31:41,  3.44it/s] 55%|█████▍    | 204088/371472 [5:11:09<13:02:05,  3.57it/s] 55%|█████▍    | 204089/371472 [5:11:09<13:21:06,  3.48it/s] 55%|█████▍    | 204090/371472 [5:11:09<13:06:57,  3.54it/s] 55%|█████▍    | 204091/371472 [5:11:10<13:25:53,  3.46it/s] 55%|█████▍    | 204092/371472 [5:11:10<13:44:08,  3.38it/s] 55%|█████▍    | 204093/371472 [5:11:10<13:18:12,  3.49it/s] 55%|█████▍    | 204094/371472 [5:11:11<13:10:31,  3.53it/s] 55%|█████▍    | 204095/371472 [5:11:11<12:52:42,  3.61it/s] 55%|█████▍    | 204096/371472 [5:11:11<12:46:44,  3.64it/s] 55%|█████▍    | 204097/371472 [5:11:11<12:50:21,  3.62it/s] 55%|█████▍    | 204098/371472 [5:11:12<13:06:21,  3.55it/s] 55%|█████▍    | 204099/371472 [5:11:12<12:39:25,  3.67it/s] 55%|█████▍    | 204100/371472 [5:11:12<12:28:01,  3.73it/s]                                                            {'loss': 2.9738, 'learning_rate': 5.057262599926739e-07, 'epoch': 8.79}
 55%|█████▍    | 204100/371472 [5:11:12<12:28:01,  3.73it/s] 55%|█████▍    | 204101/371472 [5:11:13<12:24:15,  3.75it/s] 55%|█████▍    | 204102/371472 [5:11:13<12:21:21,  3.76it/s] 55%|█████▍    | 204103/371472 [5:11:13<12:18:40,  3.78it/s] 55%|█████▍    | 204104/371472 [5:11:13<12:08:17,  3.83it/s] 55%|█████▍    | 204105/371472 [5:11:14<12:09:53,  3.82it/s] 55%|█████▍    | 204106/371472 [5:11:14<12:09:12,  3.83it/s] 55%|█████▍    | 204107/371472 [5:11:14<12:22:49,  3.76it/s] 55%|█████▍    | 204108/371472 [5:11:14<12:44:14,  3.65it/s] 55%|█████▍    | 204109/371472 [5:11:15<12:48:26,  3.63it/s] 55%|█████▍    | 204110/371472 [5:11:15<13:30:07,  3.44it/s] 55%|█████▍    | 204111/371472 [5:11:15<13:21:50,  3.48it/s] 55%|█████▍    | 204112/371472 [5:11:16<13:05:47,  3.55it/s] 55%|█████▍    | 204113/371472 [5:11:16<12:56:32,  3.59it/s] 55%|█████▍    | 204114/371472 [5:11:16<13:06:19,  3.55it/s] 55%|█████▍    | 204115/371472 [5:11:16<13:13:43,  3.51it/s] 55%|█████▍    | 204116/371472 [5:11:17<13:45:54,  3.38it/s] 55%|█████▍    | 204117/371472 [5:11:17<13:57:50,  3.33it/s] 55%|█████▍    | 204118/371472 [5:11:17<13:51:37,  3.35it/s] 55%|█████▍    | 204119/371472 [5:11:18<13:49:56,  3.36it/s] 55%|█████▍    | 204120/371472 [5:11:18<14:22:58,  3.23it/s]                                                            {'loss': 2.8928, 'learning_rate': 5.056777780171949e-07, 'epoch': 8.79}
 55%|█████▍    | 204120/371472 [5:11:18<14:22:58,  3.23it/s] 55%|█████▍    | 204121/371472 [5:11:18<14:01:17,  3.32it/s] 55%|█████▍    | 204122/371472 [5:11:19<13:58:58,  3.32it/s] 55%|█████▍    | 204123/371472 [5:11:19<13:59:19,  3.32it/s] 55%|█████▍    | 204124/371472 [5:11:19<13:48:16,  3.37it/s] 55%|█████▍    | 204125/371472 [5:11:19<13:59:15,  3.32it/s] 55%|█████▍    | 204126/371472 [5:11:20<14:27:52,  3.21it/s] 55%|█████▍    | 204127/371472 [5:11:20<13:49:23,  3.36it/s] 55%|█████▍    | 204128/371472 [5:11:20<13:32:19,  3.43it/s] 55%|█████▍    | 204129/371472 [5:11:21<13:10:00,  3.53it/s] 55%|█████▍    | 204130/371472 [5:11:21<12:42:27,  3.66it/s] 55%|█████▍    | 204131/371472 [5:11:21<13:11:51,  3.52it/s] 55%|█████▍    | 204132/371472 [5:11:21<13:15:57,  3.50it/s] 55%|█████▍    | 204133/371472 [5:11:22<12:37:43,  3.68it/s] 55%|█████▍    | 204134/371472 [5:11:22<12:39:36,  3.67it/s] 55%|█████▍    | 204135/371472 [5:11:22<12:29:05,  3.72it/s] 55%|█████▍    | 204136/371472 [5:11:22<12:27:40,  3.73it/s] 55%|█████▍    | 204137/371472 [5:11:23<12:25:38,  3.74it/s] 55%|█████▍    | 204138/371472 [5:11:23<12:29:22,  3.72it/s] 55%|█████▍    | 204139/371472 [5:11:23<12:15:37,  3.79it/s] 55%|█████▍    | 204140/371472 [5:11:24<13:02:54,  3.56it/s]                                                            {'loss': 2.9435, 'learning_rate': 5.05629296041716e-07, 'epoch': 8.79}
 55%|█████▍    | 204140/371472 [5:11:24<13:02:54,  3.56it/s] 55%|█████▍    | 204141/371472 [5:11:24<13:10:49,  3.53it/s] 55%|█████▍    | 204142/371472 [5:11:24<12:42:02,  3.66it/s] 55%|█████▍    | 204143/371472 [5:11:24<12:52:23,  3.61it/s] 55%|█████▍    | 204144/371472 [5:11:25<12:29:14,  3.72it/s] 55%|█████▍    | 204145/371472 [5:11:25<12:30:03,  3.72it/s] 55%|█████▍    | 204146/371472 [5:11:25<12:57:18,  3.59it/s] 55%|█████▍    | 204147/371472 [5:11:25<12:37:34,  3.68it/s] 55%|█████▍    | 204148/371472 [5:11:26<13:08:59,  3.53it/s] 55%|█████▍    | 204149/371472 [5:11:26<13:34:07,  3.43it/s] 55%|█████▍    | 204150/371472 [5:11:26<13:41:05,  3.40it/s] 55%|█████▍    | 204151/371472 [5:11:27<13:18:14,  3.49it/s] 55%|█████▍    | 204152/371472 [5:11:27<14:07:17,  3.29it/s] 55%|█████▍    | 204153/371472 [5:11:27<14:02:58,  3.31it/s] 55%|█████▍    | 204154/371472 [5:11:28<13:44:47,  3.38it/s] 55%|█████▍    | 204155/371472 [5:11:28<13:43:33,  3.39it/s] 55%|█████▍    | 204156/371472 [5:11:28<13:33:59,  3.43it/s] 55%|█████▍    | 204157/371472 [5:11:28<13:23:06,  3.47it/s] 55%|█████▍    | 204158/371472 [5:11:29<13:19:12,  3.49it/s] 55%|█████▍    | 204159/371472 [5:11:29<13:53:16,  3.35it/s] 55%|█████▍    | 204160/371472 [5:11:29<13:21:07,  3.48it/s]                                                            {'loss': 3.0611, 'learning_rate': 5.055808140662372e-07, 'epoch': 8.79}
 55%|█████▍    | 204160/371472 [5:11:29<13:21:07,  3.48it/s] 55%|█████▍    | 204161/371472 [5:11:30<13:27:09,  3.45it/s] 55%|█████▍    | 204162/371472 [5:11:30<14:02:27,  3.31it/s] 55%|█████▍    | 204163/371472 [5:11:30<14:13:50,  3.27it/s] 55%|█████▍    | 204164/371472 [5:11:31<14:13:36,  3.27it/s] 55%|█████▍    | 204165/371472 [5:11:31<13:47:21,  3.37it/s] 55%|█████▍    | 204166/371472 [5:11:31<14:13:14,  3.27it/s] 55%|█████▍    | 204167/371472 [5:11:31<13:24:27,  3.47it/s] 55%|█████▍    | 204168/371472 [5:11:32<13:19:22,  3.49it/s] 55%|█████▍    | 204169/371472 [5:11:32<13:06:40,  3.54it/s] 55%|█████▍    | 204170/371472 [5:11:32<12:54:06,  3.60it/s] 55%|█████▍    | 204171/371472 [5:11:33<12:51:04,  3.62it/s] 55%|█████▍    | 204172/371472 [5:11:33<12:57:08,  3.59it/s] 55%|█████▍    | 204173/371472 [5:11:33<13:45:45,  3.38it/s] 55%|█████▍    | 204174/371472 [5:11:33<13:12:33,  3.52it/s] 55%|█████▍    | 204175/371472 [5:11:34<13:12:03,  3.52it/s] 55%|█████▍    | 204176/371472 [5:11:34<12:51:13,  3.62it/s] 55%|█████▍    | 204177/371472 [5:11:34<12:28:47,  3.72it/s] 55%|█████▍    | 204178/371472 [5:11:34<12:35:29,  3.69it/s] 55%|█████▍    | 204179/371472 [5:11:35<12:12:55,  3.80it/s] 55%|█████▍    | 204180/371472 [5:11:35<13:26:49,  3.46it/s]                                                            {'loss': 3.0715, 'learning_rate': 5.055323320907581e-07, 'epoch': 8.79}
 55%|█████▍    | 204180/371472 [5:11:35<13:26:49,  3.46it/s] 55%|█████▍    | 204181/371472 [5:11:35<13:18:15,  3.49it/s] 55%|█████▍    | 204182/371472 [5:11:36<13:19:17,  3.49it/s] 55%|█████▍    | 204183/371472 [5:11:36<12:57:58,  3.58it/s] 55%|█████▍    | 204184/371472 [5:11:36<13:04:55,  3.55it/s] 55%|█████▍    | 204185/371472 [5:11:36<13:16:12,  3.50it/s] 55%|█████▍    | 204186/371472 [5:11:37<13:07:28,  3.54it/s] 55%|█████▍    | 204187/371472 [5:11:37<13:31:41,  3.43it/s] 55%|█████▍    | 204188/371472 [5:11:37<13:27:58,  3.45it/s] 55%|█████▍    | 204189/371472 [5:11:38<13:13:05,  3.52it/s] 55%|█████▍    | 204190/371472 [5:11:38<13:50:00,  3.36it/s] 55%|█████▍    | 204191/371472 [5:11:38<12:58:21,  3.58it/s] 55%|█████▍    | 204192/371472 [5:11:38<12:57:25,  3.59it/s] 55%|█████▍    | 204193/371472 [5:11:39<12:49:25,  3.62it/s] 55%|█████▍    | 204194/371472 [5:11:39<12:48:04,  3.63it/s] 55%|█████▍    | 204195/371472 [5:11:39<12:35:09,  3.69it/s] 55%|█████▍    | 204196/371472 [5:11:40<12:36:27,  3.69it/s] 55%|█████▍    | 204197/371472 [5:11:40<12:34:10,  3.70it/s] 55%|█████▍    | 204198/371472 [5:11:40<13:02:09,  3.56it/s] 55%|█████▍    | 204199/371472 [5:11:40<12:58:03,  3.58it/s] 55%|█████▍    | 204200/371472 [5:11:41<12:30:30,  3.71it/s]                                                            {'loss': 2.8315, 'learning_rate': 5.054838501152794e-07, 'epoch': 8.8}
 55%|█████▍    | 204200/371472 [5:11:41<12:30:30,  3.71it/s] 55%|█████▍    | 204201/371472 [5:11:41<12:19:39,  3.77it/s] 55%|█████▍    | 204202/371472 [5:11:41<12:07:55,  3.83it/s] 55%|█████▍    | 204203/371472 [5:11:41<11:55:38,  3.90it/s] 55%|█████▍    | 204204/371472 [5:11:42<12:44:30,  3.65it/s] 55%|█████▍    | 204205/371472 [5:11:42<13:16:08,  3.50it/s] 55%|█████▍    | 204206/371472 [5:11:42<12:38:37,  3.67it/s] 55%|█████▍    | 204207/371472 [5:11:43<13:37:15,  3.41it/s] 55%|█████▍    | 204208/371472 [5:11:43<14:31:24,  3.20it/s] 55%|█████▍    | 204209/371472 [5:11:43<14:06:20,  3.29it/s] 55%|█████▍    | 204210/371472 [5:11:44<14:20:13,  3.24it/s] 55%|█████▍    | 204211/371472 [5:11:44<14:03:47,  3.30it/s] 55%|█████▍    | 204212/371472 [5:11:44<14:14:01,  3.26it/s] 55%|█████▍    | 204213/371472 [5:11:44<13:51:28,  3.35it/s] 55%|█████▍    | 204214/371472 [5:11:45<13:26:38,  3.46it/s] 55%|█████▍    | 204215/371472 [5:11:45<12:57:07,  3.59it/s] 55%|█████▍    | 204216/371472 [5:11:45<13:24:29,  3.47it/s] 55%|█████▍    | 204217/371472 [5:11:46<13:25:03,  3.46it/s] 55%|█████▍    | 204218/371472 [5:11:46<13:09:40,  3.53it/s] 55%|█████▍    | 204219/371472 [5:11:46<13:13:11,  3.51it/s] 55%|█████▍    | 204220/371472 [5:11:46<12:59:30,  3.58it/s]                                                            {'loss': 2.9232, 'learning_rate': 5.054353681398005e-07, 'epoch': 8.8}
 55%|█████▍    | 204220/371472 [5:11:46<12:59:30,  3.58it/s] 55%|█████▍    | 204221/371472 [5:11:47<12:53:14,  3.60it/s] 55%|█████▍    | 204222/371472 [5:11:47<13:36:49,  3.41it/s] 55%|█████▍    | 204223/371472 [5:11:47<14:13:27,  3.27it/s] 55%|█████▍    | 204224/371472 [5:11:48<13:40:03,  3.40it/s] 55%|█████▍    | 204225/371472 [5:11:48<13:48:49,  3.36it/s] 55%|█████▍    | 204226/371472 [5:11:48<13:33:00,  3.43it/s] 55%|█████▍    | 204227/371472 [5:11:48<13:09:36,  3.53it/s] 55%|█████▍    | 204228/371472 [5:11:49<13:54:45,  3.34it/s] 55%|█████▍    | 204229/371472 [5:11:49<14:12:35,  3.27it/s] 55%|█████▍    | 204230/371472 [5:11:49<13:52:33,  3.35it/s] 55%|█████▍    | 204231/371472 [5:11:50<13:40:29,  3.40it/s] 55%|█████▍    | 204232/371472 [5:11:50<13:20:57,  3.48it/s] 55%|█████▍    | 204233/371472 [5:11:50<12:59:49,  3.57it/s] 55%|█████▍    | 204234/371472 [5:11:50<13:11:19,  3.52it/s] 55%|█████▍    | 204235/371472 [5:11:51<12:37:56,  3.68it/s] 55%|█████▍    | 204236/371472 [5:11:51<12:21:09,  3.76it/s] 55%|█████▍    | 204237/371472 [5:11:51<12:30:18,  3.71it/s] 55%|█████▍    | 204238/371472 [5:11:52<13:16:31,  3.50it/s] 55%|█████▍    | 204239/371472 [5:11:52<12:55:02,  3.60it/s] 55%|█████▍    | 204240/371472 [5:11:52<12:43:12,  3.65it/s]                                                            {'loss': 2.9399, 'learning_rate': 5.053868861643216e-07, 'epoch': 8.8}
 55%|█████▍    | 204240/371472 [5:11:52<12:43:12,  3.65it/s] 55%|█████▍    | 204241/371472 [5:11:52<13:04:39,  3.55it/s] 55%|█████▍    | 204242/371472 [5:11:53<12:49:50,  3.62it/s] 55%|█████▍    | 204243/371472 [5:11:53<13:25:33,  3.46it/s] 55%|█████▍    | 204244/371472 [5:11:53<13:32:04,  3.43it/s] 55%|█████▍    | 204245/371472 [5:11:54<13:44:53,  3.38it/s] 55%|█████▍    | 204246/371472 [5:11:54<13:23:06,  3.47it/s] 55%|█████▍    | 204247/371472 [5:11:54<13:03:39,  3.56it/s] 55%|█████▍    | 204248/371472 [5:11:54<13:16:12,  3.50it/s] 55%|█████▍    | 204249/371472 [5:11:55<14:06:06,  3.29it/s] 55%|█████▍    | 204250/371472 [5:11:55<13:54:39,  3.34it/s] 55%|█████▍    | 204251/371472 [5:11:55<14:17:48,  3.25it/s] 55%|█████▍    | 204252/371472 [5:11:56<14:13:08,  3.27it/s] 55%|█████▍    | 204253/371472 [5:11:56<13:43:14,  3.39it/s] 55%|█████▍    | 204254/371472 [5:11:56<14:17:29,  3.25it/s] 55%|█████▍    | 204255/371472 [5:11:57<14:46:38,  3.14it/s] 55%|█████▍    | 204256/371472 [5:11:57<14:54:09,  3.12it/s] 55%|█████▍    | 204257/371472 [5:11:57<14:07:49,  3.29it/s] 55%|█████▍    | 204258/371472 [5:11:57<13:31:10,  3.44it/s] 55%|█████▍    | 204259/371472 [5:11:58<13:05:15,  3.55it/s] 55%|█████▍    | 204260/371472 [5:11:58<12:48:22,  3.63it/s]                                                            {'loss': 3.1093, 'learning_rate': 5.053384041888426e-07, 'epoch': 8.8}
 55%|█████▍    | 204260/371472 [5:11:58<12:48:22,  3.63it/s] 55%|█████▍    | 204261/371472 [5:11:58<12:39:54,  3.67it/s] 55%|█████▍    | 204262/371472 [5:11:59<12:10:51,  3.81it/s] 55%|█████▍    | 204263/371472 [5:11:59<12:13:36,  3.80it/s] 55%|█████▍    | 204264/371472 [5:11:59<12:40:58,  3.66it/s] 55%|█████▍    | 204265/371472 [5:11:59<13:07:28,  3.54it/s] 55%|█████▍    | 204266/371472 [5:12:00<12:52:16,  3.61it/s] 55%|█████▍    | 204267/371472 [5:12:00<13:38:34,  3.40it/s] 55%|█████▍    | 204268/371472 [5:12:00<13:23:59,  3.47it/s] 55%|█████▍    | 204269/371472 [5:12:01<12:57:32,  3.58it/s] 55%|█████▍    | 204270/371472 [5:12:01<12:51:23,  3.61it/s] 55%|█████▍    | 204271/371472 [5:12:01<14:39:30,  3.17it/s] 55%|█████▍    | 204272/371472 [5:12:02<14:40:03,  3.17it/s] 55%|█████▍    | 204273/371472 [5:12:02<13:47:52,  3.37it/s] 55%|█████▍    | 204274/371472 [5:12:02<13:16:03,  3.50it/s] 55%|█████▍    | 204275/371472 [5:12:02<13:00:25,  3.57it/s] 55%|█████▍    | 204276/371472 [5:12:03<13:27:25,  3.45it/s] 55%|█████▍    | 204277/371472 [5:12:03<13:08:53,  3.53it/s] 55%|█████▍    | 204278/371472 [5:12:03<12:48:12,  3.63it/s] 55%|█████▍    | 204279/371472 [5:12:03<12:47:30,  3.63it/s] 55%|█████▍    | 204280/371472 [5:12:04<13:37:00,  3.41it/s]                                                            {'loss': 3.1141, 'learning_rate': 5.052899222133638e-07, 'epoch': 8.8}
 55%|█████▍    | 204280/371472 [5:12:04<13:37:00,  3.41it/s] 55%|█████▍    | 204281/371472 [5:12:04<12:59:13,  3.58it/s] 55%|█████▍    | 204282/371472 [5:12:04<12:42:06,  3.66it/s] 55%|█████▍    | 204283/371472 [5:12:04<12:23:11,  3.75it/s] 55%|█████▍    | 204284/371472 [5:12:05<12:33:05,  3.70it/s] 55%|█████▍    | 204285/371472 [5:12:05<12:37:56,  3.68it/s] 55%|█████▍    | 204286/371472 [5:12:05<12:46:26,  3.64it/s] 55%|█████▍    | 204287/371472 [5:12:06<12:40:48,  3.66it/s] 55%|█████▍    | 204288/371472 [5:12:06<12:49:03,  3.62it/s] 55%|█████▍    | 204289/371472 [5:12:06<12:44:50,  3.64it/s] 55%|█████▍    | 204290/371472 [5:12:06<12:35:06,  3.69it/s] 55%|█████▍    | 204291/371472 [5:12:07<13:16:50,  3.50it/s] 55%|█████▍    | 204292/371472 [5:12:07<13:23:56,  3.47it/s] 55%|█████▍    | 204293/371472 [5:12:07<12:41:44,  3.66it/s] 55%|█████▍    | 204294/371472 [5:12:08<12:54:00,  3.60it/s] 55%|█████▍    | 204295/371472 [5:12:08<12:39:17,  3.67it/s] 55%|█████▍    | 204296/371472 [5:12:08<13:00:20,  3.57it/s] 55%|█████▍    | 204297/371472 [5:12:08<12:27:44,  3.73it/s] 55%|█████▍    | 204298/371472 [5:12:09<13:06:03,  3.54it/s] 55%|█████▍    | 204299/371472 [5:12:09<13:15:19,  3.50it/s] 55%|█████▍    | 204300/371472 [5:12:09<13:34:28,  3.42it/s]                                                            {'loss': 3.0505, 'learning_rate': 5.052414402378849e-07, 'epoch': 8.8}
 55%|█████▍    | 204300/371472 [5:12:09<13:34:28,  3.42it/s] 55%|█████▍    | 204301/371472 [5:12:10<15:26:25,  3.01it/s] 55%|█████▍    | 204302/371472 [5:12:10<15:24:42,  3.01it/s] 55%|█████▍    | 204303/371472 [5:12:10<14:07:01,  3.29it/s] 55%|█████▍    | 204304/371472 [5:12:11<13:21:23,  3.48it/s] 55%|█████▍    | 204305/371472 [5:12:11<13:20:21,  3.48it/s] 55%|█████▍    | 204306/371472 [5:12:11<13:11:20,  3.52it/s] 55%|█████▍    | 204307/371472 [5:12:11<12:59:09,  3.58it/s] 55%|█████▍    | 204308/371472 [5:12:12<12:54:18,  3.60it/s] 55%|█████▍    | 204309/371472 [5:12:12<12:30:49,  3.71it/s] 55%|█████▌    | 204310/371472 [5:12:12<12:20:53,  3.76it/s] 55%|█████▌    | 204311/371472 [5:12:12<12:10:23,  3.81it/s] 55%|█████▌    | 204312/371472 [5:12:13<12:40:12,  3.66it/s] 55%|█████▌    | 204313/371472 [5:12:13<12:57:04,  3.59it/s] 55%|█████▌    | 204314/371472 [5:12:13<12:29:38,  3.72it/s] 55%|█████▌    | 204315/371472 [5:12:14<13:06:13,  3.54it/s] 55%|█████▌    | 204316/371472 [5:12:14<13:14:59,  3.50it/s] 55%|█████▌    | 204317/371472 [5:12:14<12:50:36,  3.62it/s] 55%|█████▌    | 204318/371472 [5:12:14<13:06:42,  3.54it/s] 55%|█████▌    | 204319/371472 [5:12:15<12:48:19,  3.63it/s] 55%|█████▌    | 204320/371472 [5:12:15<12:51:57,  3.61it/s]                                                            {'loss': 3.0661, 'learning_rate': 5.051929582624061e-07, 'epoch': 8.8}
 55%|█████▌    | 204320/371472 [5:12:15<12:51:57,  3.61it/s] 55%|█████▌    | 204321/371472 [5:12:15<12:24:20,  3.74it/s] 55%|█████▌    | 204322/371472 [5:12:15<13:02:34,  3.56it/s] 55%|█████▌    | 204323/371472 [5:12:16<12:50:47,  3.61it/s] 55%|█████▌    | 204324/371472 [5:12:16<12:56:20,  3.59it/s] 55%|█████▌    | 204325/371472 [5:12:16<12:45:43,  3.64it/s] 55%|█████▌    | 204326/371472 [5:12:17<13:16:45,  3.50it/s] 55%|█████▌    | 204327/371472 [5:12:17<13:08:27,  3.53it/s] 55%|█████▌    | 204328/371472 [5:12:17<12:40:02,  3.67it/s] 55%|█████▌    | 204329/371472 [5:12:17<12:17:52,  3.78it/s] 55%|█████▌    | 204330/371472 [5:12:18<12:21:27,  3.76it/s] 55%|█████▌    | 204331/371472 [5:12:18<12:16:55,  3.78it/s] 55%|█████▌    | 204332/371472 [5:12:18<12:55:11,  3.59it/s] 55%|█████▌    | 204333/371472 [5:12:18<12:55:20,  3.59it/s] 55%|█████▌    | 204334/371472 [5:12:19<12:29:47,  3.72it/s] 55%|█████▌    | 204335/371472 [5:12:19<12:30:26,  3.71it/s] 55%|█████▌    | 204336/371472 [5:12:19<12:47:48,  3.63it/s] 55%|█████▌    | 204337/371472 [5:12:20<13:45:49,  3.37it/s] 55%|█████▌    | 204338/371472 [5:12:20<14:22:32,  3.23it/s] 55%|█████▌    | 204339/371472 [5:12:20<14:04:23,  3.30it/s] 55%|█████▌    | 204340/371472 [5:12:21<13:16:11,  3.50it/s]                                                            {'loss': 2.9386, 'learning_rate': 5.051444762869271e-07, 'epoch': 8.8}
 55%|█████▌    | 204340/371472 [5:12:21<13:16:11,  3.50it/s] 55%|█████▌    | 204341/371472 [5:12:21<12:53:55,  3.60it/s] 55%|█████▌    | 204342/371472 [5:12:21<12:35:52,  3.69it/s] 55%|█████▌    | 204343/371472 [5:12:21<12:08:48,  3.82it/s] 55%|█████▌    | 204344/371472 [5:12:22<11:47:34,  3.94it/s] 55%|█████▌    | 204345/371472 [5:12:22<12:29:38,  3.72it/s] 55%|█████▌    | 204346/371472 [5:12:22<12:15:17,  3.79it/s] 55%|█████▌    | 204347/371472 [5:12:22<13:04:55,  3.55it/s] 55%|█████▌    | 204348/371472 [5:12:23<13:06:43,  3.54it/s] 55%|█████▌    | 204349/371472 [5:12:23<12:47:40,  3.63it/s] 55%|█████▌    | 204350/371472 [5:12:23<12:48:28,  3.62it/s] 55%|█████▌    | 204351/371472 [5:12:24<13:14:10,  3.51it/s] 55%|█████▌    | 204352/371472 [5:12:24<13:26:02,  3.46it/s] 55%|█████▌    | 204353/371472 [5:12:24<16:43:59,  2.77it/s] 55%|█████▌    | 204354/371472 [5:12:25<16:39:35,  2.79it/s] 55%|█████▌    | 204355/371472 [5:12:25<15:14:09,  3.05it/s] 55%|█████▌    | 204356/371472 [5:12:25<14:34:26,  3.19it/s] 55%|█████▌    | 204357/371472 [5:12:26<14:10:17,  3.28it/s] 55%|█████▌    | 204358/371472 [5:12:26<13:48:01,  3.36it/s] 55%|█████▌    | 204359/371472 [5:12:26<13:17:27,  3.49it/s] 55%|█████▌    | 204360/371472 [5:12:26<13:22:06,  3.47it/s]                                                            {'loss': 2.8024, 'learning_rate': 5.050959943114482e-07, 'epoch': 8.8}
 55%|█████▌    | 204360/371472 [5:12:26<13:22:06,  3.47it/s] 55%|█████▌    | 204361/371472 [5:12:27<13:17:14,  3.49it/s] 55%|█████▌    | 204362/371472 [5:12:27<13:30:27,  3.44it/s] 55%|█████▌    | 204363/371472 [5:12:27<13:21:15,  3.48it/s] 55%|█████▌    | 204364/371472 [5:12:27<13:08:10,  3.53it/s] 55%|█████▌    | 204365/371472 [5:12:28<13:18:49,  3.49it/s] 55%|█████▌    | 204366/371472 [5:12:28<13:26:35,  3.45it/s] 55%|█████▌    | 204367/371472 [5:12:28<13:17:21,  3.49it/s] 55%|█████▌    | 204368/371472 [5:12:29<14:19:31,  3.24it/s] 55%|█████▌    | 204369/371472 [5:12:29<14:41:20,  3.16it/s] 55%|█████▌    | 204370/371472 [5:12:29<14:23:40,  3.22it/s] 55%|█████▌    | 204371/371472 [5:12:30<14:00:12,  3.31it/s] 55%|█████▌    | 204372/371472 [5:12:30<14:28:08,  3.21it/s] 55%|█████▌    | 204373/371472 [5:12:30<14:07:48,  3.28it/s] 55%|█████▌    | 204374/371472 [5:12:31<13:25:30,  3.46it/s] 55%|█████▌    | 204375/371472 [5:12:31<14:33:14,  3.19it/s] 55%|█████▌    | 204376/371472 [5:12:31<14:58:58,  3.10it/s] 55%|█████▌    | 204377/371472 [5:12:32<14:25:39,  3.22it/s] 55%|█████▌    | 204378/371472 [5:12:32<14:22:43,  3.23it/s] 55%|█████▌    | 204379/371472 [5:12:32<14:08:11,  3.28it/s] 55%|█████▌    | 204380/371472 [5:12:32<13:28:14,  3.45it/s]                                                            {'loss': 3.0886, 'learning_rate': 5.050475123359693e-07, 'epoch': 8.8}
 55%|█████▌    | 204380/371472 [5:12:32<13:28:14,  3.45it/s] 55%|█████▌    | 204381/371472 [5:12:33<13:50:53,  3.35it/s] 55%|█████▌    | 204382/371472 [5:12:33<14:24:20,  3.22it/s] 55%|█████▌    | 204383/371472 [5:12:33<13:50:00,  3.36it/s] 55%|█████▌    | 204384/371472 [5:12:34<13:16:36,  3.50it/s] 55%|█████▌    | 204385/371472 [5:12:34<13:18:05,  3.49it/s] 55%|█████▌    | 204386/371472 [5:12:34<12:50:04,  3.62it/s] 55%|█████▌    | 204387/371472 [5:12:34<12:58:15,  3.58it/s] 55%|█████▌    | 204388/371472 [5:12:35<12:36:47,  3.68it/s] 55%|█████▌    | 204389/371472 [5:12:35<13:16:57,  3.49it/s] 55%|█████▌    | 204390/371472 [5:12:35<13:06:01,  3.54it/s] 55%|█████▌    | 204391/371472 [5:12:35<13:06:24,  3.54it/s] 55%|█████▌    | 204392/371472 [5:12:36<13:12:49,  3.51it/s] 55%|█████▌    | 204393/371472 [5:12:36<13:12:42,  3.51it/s] 55%|█████▌    | 204394/371472 [5:12:36<13:43:33,  3.38it/s] 55%|█████▌    | 204395/371472 [5:12:37<13:32:22,  3.43it/s] 55%|█████▌    | 204396/371472 [5:12:37<13:43:07,  3.38it/s] 55%|█████▌    | 204397/371472 [5:12:37<14:41:04,  3.16it/s] 55%|█████▌    | 204398/371472 [5:12:38<14:02:50,  3.30it/s] 55%|█████▌    | 204399/371472 [5:12:38<14:08:25,  3.28it/s] 55%|█████▌    | 204400/371472 [5:12:38<13:30:35,  3.44it/s]                                                            {'loss': 3.1313, 'learning_rate': 5.049990303604902e-07, 'epoch': 8.8}
 55%|█████▌    | 204400/371472 [5:12:38<13:30:35,  3.44it/s] 55%|█████▌    | 204401/371472 [5:12:38<13:07:19,  3.54it/s] 55%|█████▌    | 204402/371472 [5:12:39<12:33:12,  3.70it/s] 55%|█████▌    | 204403/371472 [5:12:39<12:41:22,  3.66it/s] 55%|█████▌    | 204404/371472 [5:12:39<12:14:38,  3.79it/s] 55%|█████▌    | 204405/371472 [5:12:39<12:28:35,  3.72it/s] 55%|█████▌    | 204406/371472 [5:12:40<13:30:37,  3.43it/s] 55%|█████▌    | 204407/371472 [5:12:40<13:37:58,  3.40it/s] 55%|█████▌    | 204408/371472 [5:12:40<14:22:19,  3.23it/s] 55%|█████▌    | 204409/371472 [5:12:41<13:42:01,  3.39it/s] 55%|█████▌    | 204410/371472 [5:12:41<13:05:34,  3.54it/s] 55%|█████▌    | 204411/371472 [5:12:41<12:31:04,  3.71it/s] 55%|█████▌    | 204412/371472 [5:12:41<12:13:27,  3.80it/s] 55%|█████▌    | 204413/371472 [5:12:42<12:25:53,  3.73it/s] 55%|█████▌    | 204414/371472 [5:12:42<12:21:16,  3.76it/s] 55%|█████▌    | 204415/371472 [5:12:42<12:08:25,  3.82it/s] 55%|█████▌    | 204416/371472 [5:12:43<12:34:20,  3.69it/s] 55%|█████▌    | 204417/371472 [5:12:43<13:01:14,  3.56it/s] 55%|█████▌    | 204418/371472 [5:12:43<13:14:45,  3.50it/s] 55%|█████▌    | 204419/371472 [5:12:43<13:04:08,  3.55it/s] 55%|█████▌    | 204420/371472 [5:12:44<13:28:10,  3.45it/s]                                                            {'loss': 3.0433, 'learning_rate': 5.049505483850115e-07, 'epoch': 8.8}
 55%|█████▌    | 204420/371472 [5:12:44<13:28:10,  3.45it/s] 55%|█████▌    | 204421/371472 [5:12:44<13:46:59,  3.37it/s] 55%|█████▌    | 204422/371472 [5:12:44<13:37:52,  3.40it/s] 55%|█████▌    | 204423/371472 [5:12:45<13:51:07,  3.35it/s] 55%|█████▌    | 204424/371472 [5:12:45<14:22:14,  3.23it/s] 55%|█████▌    | 204425/371472 [5:12:45<13:34:31,  3.42it/s] 55%|█████▌    | 204426/371472 [5:12:46<13:27:50,  3.45it/s] 55%|█████▌    | 204427/371472 [5:12:46<13:14:30,  3.50it/s] 55%|█████▌    | 204428/371472 [5:12:46<13:29:47,  3.44it/s] 55%|█████▌    | 204429/371472 [5:12:46<13:19:58,  3.48it/s] 55%|█████▌    | 204430/371472 [5:12:47<13:14:01,  3.51it/s] 55%|█████▌    | 204431/371472 [5:12:47<13:30:21,  3.44it/s] 55%|█████▌    | 204432/371472 [5:12:47<13:08:46,  3.53it/s] 55%|█████▌    | 204433/371472 [5:12:48<13:12:39,  3.51it/s] 55%|█████▌    | 204434/371472 [5:12:48<13:23:38,  3.46it/s] 55%|█████▌    | 204435/371472 [5:12:48<13:19:03,  3.48it/s] 55%|█████▌    | 204436/371472 [5:12:48<12:57:03,  3.58it/s] 55%|█████▌    | 204437/371472 [5:12:49<12:32:44,  3.70it/s] 55%|█████▌    | 204438/371472 [5:12:49<12:16:48,  3.78it/s] 55%|█████▌    | 204439/371472 [5:12:49<12:32:53,  3.70it/s] 55%|█████▌    | 204440/371472 [5:12:50<14:02:07,  3.31it/s]                                                            {'loss': 2.9781, 'learning_rate': 5.049020664095325e-07, 'epoch': 8.81}
 55%|█████▌    | 204440/371472 [5:12:50<14:02:07,  3.31it/s] 55%|█████▌    | 204441/371472 [5:12:50<13:54:50,  3.33it/s] 55%|█████▌    | 204442/371472 [5:12:50<13:11:15,  3.52it/s] 55%|█████▌    | 204443/371472 [5:12:50<13:05:53,  3.54it/s] 55%|█████▌    | 204444/371472 [5:12:51<12:58:56,  3.57it/s] 55%|█████▌    | 204445/371472 [5:12:51<12:55:57,  3.59it/s] 55%|█████▌    | 204446/371472 [5:12:51<13:51:15,  3.35it/s] 55%|█████▌    | 204447/371472 [5:12:52<13:36:10,  3.41it/s] 55%|█████▌    | 204448/371472 [5:12:52<13:47:13,  3.37it/s] 55%|█████▌    | 204449/371472 [5:12:52<14:10:45,  3.27it/s] 55%|█████▌    | 204450/371472 [5:12:52<13:45:04,  3.37it/s] 55%|█████▌    | 204451/371472 [5:12:53<13:22:41,  3.47it/s] 55%|█████▌    | 204452/371472 [5:12:53<13:08:13,  3.53it/s] 55%|█████▌    | 204453/371472 [5:12:53<12:36:19,  3.68it/s] 55%|█████▌    | 204454/371472 [5:12:53<12:31:42,  3.70it/s] 55%|█████▌    | 204455/371472 [5:12:54<13:39:59,  3.39it/s] 55%|█████▌    | 204456/371472 [5:12:54<13:51:55,  3.35it/s] 55%|█████▌    | 204457/371472 [5:12:54<14:11:06,  3.27it/s] 55%|█████▌    | 204458/371472 [5:12:55<13:29:42,  3.44it/s] 55%|█████▌    | 204459/371472 [5:12:55<13:16:56,  3.49it/s] 55%|█████▌    | 204460/371472 [5:12:55<12:53:38,  3.60it/s]                                                            {'loss': 2.832, 'learning_rate': 5.048535844340538e-07, 'epoch': 8.81}
 55%|█████▌    | 204460/371472 [5:12:55<12:53:38,  3.60it/s] 55%|█████▌    | 204461/371472 [5:12:56<12:28:17,  3.72it/s] 55%|█████▌    | 204462/371472 [5:12:56<12:42:57,  3.65it/s] 55%|█████▌    | 204463/371472 [5:12:56<13:33:09,  3.42it/s] 55%|█████▌    | 204464/371472 [5:12:56<13:37:43,  3.40it/s] 55%|█████▌    | 204465/371472 [5:12:57<13:06:09,  3.54it/s] 55%|█████▌    | 204466/371472 [5:12:57<12:58:44,  3.57it/s] 55%|█████▌    | 204467/371472 [5:12:57<12:52:58,  3.60it/s] 55%|█████▌    | 204468/371472 [5:12:58<13:26:29,  3.45it/s] 55%|█████▌    | 204469/371472 [5:12:58<14:27:10,  3.21it/s] 55%|█████▌    | 204470/371472 [5:12:58<13:59:20,  3.32it/s] 55%|█████▌    | 204471/371472 [5:12:58<13:49:01,  3.36it/s] 55%|█████▌    | 204472/371472 [5:12:59<13:19:32,  3.48it/s] 55%|█████▌    | 204473/371472 [5:12:59<13:11:00,  3.52it/s] 55%|█████▌    | 204474/371472 [5:12:59<12:45:58,  3.63it/s] 55%|█████▌    | 204475/371472 [5:13:00<13:05:18,  3.54it/s] 55%|█████▌    | 204476/371472 [5:13:00<13:48:19,  3.36it/s] 55%|█████▌    | 204477/371472 [5:13:00<14:42:27,  3.15it/s] 55%|█████▌    | 204478/371472 [5:13:01<14:26:33,  3.21it/s] 55%|█████▌    | 204479/371472 [5:13:01<13:47:28,  3.36it/s] 55%|█████▌    | 204480/371472 [5:13:01<14:21:50,  3.23it/s]                                                            {'loss': 2.8872, 'learning_rate': 5.048051024585748e-07, 'epoch': 8.81}
 55%|█████▌    | 204480/371472 [5:13:01<14:21:50,  3.23it/s] 55%|█████▌    | 204481/371472 [5:13:01<13:46:02,  3.37it/s] 55%|█████▌    | 204482/371472 [5:13:02<13:28:22,  3.44it/s] 55%|█████▌    | 204483/371472 [5:13:02<12:59:47,  3.57it/s] 55%|█████▌    | 204484/371472 [5:13:02<13:01:01,  3.56it/s] 55%|█████▌    | 204485/371472 [5:13:03<13:15:26,  3.50it/s] 55%|█████▌    | 204486/371472 [5:13:03<14:21:54,  3.23it/s] 55%|█████▌    | 204487/371472 [5:13:03<15:03:25,  3.08it/s] 55%|█████▌    | 204488/371472 [5:13:04<15:24:44,  3.01it/s] 55%|█████▌    | 204489/371472 [5:13:04<15:03:16,  3.08it/s] 55%|█████▌    | 204490/371472 [5:13:04<14:19:41,  3.24it/s] 55%|█████▌    | 204491/371472 [5:13:04<13:27:05,  3.45it/s] 55%|█████▌    | 204492/371472 [5:13:05<13:13:55,  3.51it/s] 55%|█████▌    | 204493/371472 [5:13:05<13:13:09,  3.51it/s] 55%|█████▌    | 204494/371472 [5:13:05<14:26:09,  3.21it/s] 55%|█████▌    | 204495/371472 [5:13:06<14:27:11,  3.21it/s] 55%|█████▌    | 204496/371472 [5:13:06<13:37:29,  3.40it/s] 55%|█████▌    | 204497/371472 [5:13:06<13:13:28,  3.51it/s] 55%|█████▌    | 204498/371472 [5:13:07<13:31:11,  3.43it/s] 55%|█████▌    | 204499/371472 [5:13:07<14:02:18,  3.30it/s] 55%|█████▌    | 204500/371472 [5:13:07<13:26:49,  3.45it/s]                                                            {'loss': 3.0857, 'learning_rate': 5.04756620483096e-07, 'epoch': 8.81}
 55%|█████▌    | 204500/371472 [5:13:07<13:26:49,  3.45it/s] 55%|█████▌    | 204501/371472 [5:13:08<18:41:55,  2.48it/s] 55%|█████▌    | 204502/371472 [5:13:08<16:39:21,  2.78it/s] 55%|█████▌    | 204503/371472 [5:13:08<15:21:45,  3.02it/s] 55%|█████▌    | 204504/371472 [5:13:09<14:19:09,  3.24it/s] 55%|█████▌    | 204505/371472 [5:13:09<13:44:03,  3.38it/s] 55%|█████▌    | 204506/371472 [5:13:09<13:44:17,  3.38it/s] 55%|█████▌    | 204507/371472 [5:13:09<13:24:25,  3.46it/s] 55%|█████▌    | 204508/371472 [5:13:10<13:07:05,  3.54it/s] 55%|█████▌    | 204509/371472 [5:13:10<12:39:28,  3.66it/s] 55%|█████▌    | 204510/371472 [5:13:10<12:50:32,  3.61it/s] 55%|█████▌    | 204511/371472 [5:13:10<12:47:04,  3.63it/s] 55%|█████▌    | 204512/371472 [5:13:11<12:40:41,  3.66it/s] 55%|█████▌    | 204513/371472 [5:13:11<12:42:05,  3.65it/s] 55%|█████▌    | 204514/371472 [5:13:11<12:56:57,  3.58it/s] 55%|█████▌    | 204515/371472 [5:13:12<12:45:01,  3.64it/s] 55%|█████▌    | 204516/371472 [5:13:12<12:29:42,  3.71it/s] 55%|█████▌    | 204517/371472 [5:13:12<13:04:24,  3.55it/s] 55%|█████▌    | 204518/371472 [5:13:12<13:36:59,  3.41it/s] 55%|█████▌    | 204519/371472 [5:13:13<13:07:47,  3.53it/s] 55%|█████▌    | 204520/371472 [5:13:13<13:09:55,  3.52it/s]                                                            {'loss': 2.9186, 'learning_rate': 5.04708138507617e-07, 'epoch': 8.81}
 55%|█████▌    | 204520/371472 [5:13:13<13:09:55,  3.52it/s] 55%|█████▌    | 204521/371472 [5:13:13<13:25:21,  3.46it/s] 55%|█████▌    | 204522/371472 [5:13:14<13:49:02,  3.36it/s] 55%|█████▌    | 204523/371472 [5:13:14<13:39:04,  3.40it/s] 55%|█████▌    | 204524/371472 [5:13:14<13:14:44,  3.50it/s] 55%|█████▌    | 204525/371472 [5:13:14<12:59:39,  3.57it/s] 55%|█████▌    | 204526/371472 [5:13:15<12:41:52,  3.65it/s] 55%|█████▌    | 204527/371472 [5:13:15<12:20:02,  3.76it/s] 55%|█████▌    | 204528/371472 [5:13:15<12:47:53,  3.62it/s] 55%|█████▌    | 204529/371472 [5:13:16<12:39:56,  3.66it/s] 55%|█████▌    | 204530/371472 [5:13:16<12:31:38,  3.70it/s] 55%|█████▌    | 204531/371472 [5:13:16<12:23:56,  3.74it/s] 55%|█████▌    | 204532/371472 [5:13:16<12:47:22,  3.63it/s] 55%|█████▌    | 204533/371472 [5:13:17<12:46:33,  3.63it/s] 55%|█████▌    | 204534/371472 [5:13:17<12:54:31,  3.59it/s] 55%|█████▌    | 204535/371472 [5:13:17<12:58:03,  3.58it/s] 55%|█████▌    | 204536/371472 [5:13:17<12:38:05,  3.67it/s] 55%|█████▌    | 204537/371472 [5:13:18<12:08:16,  3.82it/s] 55%|█████▌    | 204538/371472 [5:13:18<12:05:33,  3.83it/s] 55%|█████▌    | 204539/371472 [5:13:18<12:27:42,  3.72it/s] 55%|█████▌    | 204540/371472 [5:13:18<12:26:10,  3.73it/s]                                                            {'loss': 2.9895, 'learning_rate': 5.046596565321382e-07, 'epoch': 8.81}
 55%|█████▌    | 204540/371472 [5:13:18<12:26:10,  3.73it/s] 55%|█████▌    | 204541/371472 [5:13:19<12:39:32,  3.66it/s] 55%|█████▌    | 204542/371472 [5:13:19<13:13:57,  3.50it/s] 55%|█████▌    | 204543/371472 [5:13:19<12:54:36,  3.59it/s] 55%|█████▌    | 204544/371472 [5:13:20<14:07:52,  3.28it/s] 55%|█████▌    | 204545/371472 [5:13:20<13:34:04,  3.42it/s] 55%|█████▌    | 204546/371472 [5:13:20<13:45:33,  3.37it/s] 55%|█████▌    | 204547/371472 [5:13:21<13:05:39,  3.54it/s] 55%|█████▌    | 204548/371472 [5:13:21<12:46:11,  3.63it/s] 55%|█████▌    | 204549/371472 [5:13:21<14:39:54,  3.16it/s] 55%|█████▌    | 204550/371472 [5:13:21<13:52:40,  3.34it/s] 55%|█████▌    | 204551/371472 [5:13:22<14:12:46,  3.26it/s] 55%|█████▌    | 204552/371472 [5:13:22<13:51:14,  3.35it/s] 55%|█████▌    | 204553/371472 [5:13:22<13:23:54,  3.46it/s] 55%|█████▌    | 204554/371472 [5:13:23<13:30:53,  3.43it/s] 55%|█████▌    | 204555/371472 [5:13:23<14:27:51,  3.21it/s] 55%|█████▌    | 204556/371472 [5:13:23<13:48:09,  3.36it/s] 55%|█████▌    | 204557/371472 [5:13:23<13:10:32,  3.52it/s] 55%|█████▌    | 204558/371472 [5:13:24<12:33:54,  3.69it/s] 55%|█████▌    | 204559/371472 [5:13:24<13:11:50,  3.51it/s] 55%|█████▌    | 204560/371472 [5:13:24<14:20:16,  3.23it/s]                                                            {'loss': 2.8575, 'learning_rate': 5.046111745566591e-07, 'epoch': 8.81}
 55%|█████▌    | 204560/371472 [5:13:24<14:20:16,  3.23it/s] 55%|█████▌    | 204561/371472 [5:13:25<13:45:47,  3.37it/s] 55%|█████▌    | 204562/371472 [5:13:25<13:19:20,  3.48it/s] 55%|█████▌    | 204563/371472 [5:13:25<13:11:03,  3.52it/s] 55%|█████▌    | 204564/371472 [5:13:25<12:53:11,  3.60it/s] 55%|█████▌    | 204565/371472 [5:13:26<13:25:45,  3.45it/s] 55%|█████▌    | 204566/371472 [5:13:26<12:54:04,  3.59it/s] 55%|█████▌    | 204567/371472 [5:13:26<12:28:45,  3.72it/s] 55%|█████▌    | 204568/371472 [5:13:27<12:37:36,  3.67it/s] 55%|█████▌    | 204569/371472 [5:13:27<13:41:34,  3.39it/s] 55%|█████▌    | 204570/371472 [5:13:27<13:58:25,  3.32it/s] 55%|█████▌    | 204571/371472 [5:13:28<13:52:08,  3.34it/s] 55%|█████▌    | 204572/371472 [5:13:28<13:34:29,  3.42it/s] 55%|█████▌    | 204573/371472 [5:13:28<13:36:00,  3.41it/s] 55%|█████▌    | 204574/371472 [5:13:28<13:50:00,  3.35it/s] 55%|█████▌    | 204575/371472 [5:13:29<13:23:21,  3.46it/s] 55%|█████▌    | 204576/371472 [5:13:29<13:25:08,  3.45it/s] 55%|█████▌    | 204577/371472 [5:13:29<12:50:43,  3.61it/s] 55%|█████▌    | 204578/371472 [5:13:29<12:32:37,  3.70it/s] 55%|█████▌    | 204579/371472 [5:13:30<12:23:02,  3.74it/s] 55%|█████▌    | 204580/371472 [5:13:30<12:30:17,  3.71it/s]                                                            {'loss': 2.9148, 'learning_rate': 5.045626925811804e-07, 'epoch': 8.81}
 55%|█████▌    | 204580/371472 [5:13:30<12:30:17,  3.71it/s] 55%|█████▌    | 204581/371472 [5:13:30<12:29:06,  3.71it/s] 55%|█████▌    | 204582/371472 [5:13:31<12:34:35,  3.69it/s] 55%|█████▌    | 204583/371472 [5:13:31<12:38:14,  3.67it/s] 55%|█████▌    | 204584/371472 [5:13:31<13:13:23,  3.51it/s] 55%|█████▌    | 204585/371472 [5:13:31<12:48:20,  3.62it/s] 55%|█████▌    | 204586/371472 [5:13:32<13:14:14,  3.50it/s] 55%|█████▌    | 204587/371472 [5:13:32<13:12:49,  3.51it/s] 55%|█████▌    | 204588/371472 [5:13:32<13:54:51,  3.33it/s] 55%|█████▌    | 204589/371472 [5:13:33<13:24:35,  3.46it/s] 55%|█████▌    | 204590/371472 [5:13:33<13:44:23,  3.37it/s] 55%|█████▌    | 204591/371472 [5:13:33<13:26:51,  3.45it/s] 55%|█████▌    | 204592/371472 [5:13:33<12:59:27,  3.57it/s] 55%|█████▌    | 204593/371472 [5:13:34<12:56:22,  3.58it/s] 55%|█████▌    | 204594/371472 [5:13:34<12:38:28,  3.67it/s] 55%|█████▌    | 204595/371472 [5:13:34<15:26:10,  3.00it/s] 55%|█████▌    | 204596/371472 [5:13:35<14:52:55,  3.11it/s] 55%|█████▌    | 204597/371472 [5:13:35<14:05:56,  3.29it/s] 55%|█████▌    | 204598/371472 [5:13:35<13:55:29,  3.33it/s] 55%|█████▌    | 204599/371472 [5:13:36<13:37:00,  3.40it/s] 55%|█████▌    | 204600/371472 [5:13:36<13:08:26,  3.53it/s]                                                            {'loss': 2.863, 'learning_rate': 5.045142106057015e-07, 'epoch': 8.81}
 55%|█████▌    | 204600/371472 [5:13:36<13:08:26,  3.53it/s] 55%|█████▌    | 204601/371472 [5:13:36<13:03:32,  3.55it/s] 55%|█████▌    | 204602/371472 [5:13:36<12:44:31,  3.64it/s] 55%|█████▌    | 204603/371472 [5:13:37<12:51:03,  3.61it/s] 55%|█████▌    | 204604/371472 [5:13:37<13:00:48,  3.56it/s] 55%|█████▌    | 204605/371472 [5:13:37<13:10:11,  3.52it/s] 55%|█████▌    | 204606/371472 [5:13:38<13:26:48,  3.45it/s] 55%|█████▌    | 204607/371472 [5:13:38<13:47:12,  3.36it/s] 55%|█████▌    | 204608/371472 [5:13:38<13:28:23,  3.44it/s] 55%|█████▌    | 204609/371472 [5:13:38<13:24:00,  3.46it/s] 55%|█████▌    | 204610/371472 [5:13:39<13:11:54,  3.51it/s] 55%|█████▌    | 204611/371472 [5:13:39<12:46:41,  3.63it/s] 55%|█████▌    | 204612/371472 [5:13:39<12:35:41,  3.68it/s] 55%|█████▌    | 204613/371472 [5:13:39<12:32:54,  3.69it/s] 55%|█████▌    | 204614/371472 [5:13:40<12:44:30,  3.64it/s] 55%|█████▌    | 204615/371472 [5:13:40<13:14:48,  3.50it/s] 55%|█████▌    | 204616/371472 [5:13:40<13:02:50,  3.55it/s] 55%|█████▌    | 204617/371472 [5:13:41<12:42:34,  3.65it/s] 55%|█████▌    | 204618/371472 [5:13:41<12:49:09,  3.62it/s] 55%|█████▌    | 204619/371472 [5:13:41<12:33:51,  3.69it/s] 55%|█████▌    | 204620/371472 [5:13:41<12:27:42,  3.72it/s]                                                            {'loss': 3.0878, 'learning_rate': 5.044657286302226e-07, 'epoch': 8.81}
 55%|█████▌    | 204620/371472 [5:13:41<12:27:42,  3.72it/s] 55%|█████▌    | 204621/371472 [5:13:42<12:36:33,  3.68it/s] 55%|█████▌    | 204622/371472 [5:13:42<12:49:41,  3.61it/s] 55%|█████▌    | 204623/371472 [5:13:42<12:58:08,  3.57it/s] 55%|█████▌    | 204624/371472 [5:13:43<12:57:44,  3.58it/s] 55%|█████▌    | 204625/371472 [5:13:43<13:26:36,  3.45it/s] 55%|█████▌    | 204626/371472 [5:13:43<13:14:25,  3.50it/s] 55%|█████▌    | 204627/371472 [5:13:43<13:51:04,  3.35it/s] 55%|█████▌    | 204628/371472 [5:13:44<13:25:20,  3.45it/s] 55%|█████▌    | 204629/371472 [5:13:44<13:36:32,  3.41it/s] 55%|█████▌    | 204630/371472 [5:13:44<13:07:44,  3.53it/s] 55%|█████▌    | 204631/371472 [5:13:45<13:01:03,  3.56it/s] 55%|█████▌    | 204632/371472 [5:13:45<13:21:01,  3.47it/s] 55%|█████▌    | 204633/371472 [5:13:45<12:59:14,  3.57it/s] 55%|█████▌    | 204634/371472 [5:13:46<14:30:08,  3.20it/s] 55%|█████▌    | 204635/371472 [5:13:46<13:49:11,  3.35it/s] 55%|█████▌    | 204636/371472 [5:13:46<14:07:59,  3.28it/s] 55%|█████▌    | 204637/371472 [5:13:46<13:42:36,  3.38it/s] 55%|█████▌    | 204638/371472 [5:13:47<13:19:31,  3.48it/s] 55%|█████▌    | 204639/371472 [5:13:47<13:08:34,  3.53it/s] 55%|█████▌    | 204640/371472 [5:13:47<13:13:55,  3.50it/s]                                                            {'loss': 2.8283, 'learning_rate': 5.044172466547436e-07, 'epoch': 8.81}
 55%|█████▌    | 204640/371472 [5:13:47<13:13:55,  3.50it/s] 55%|█████▌    | 204641/371472 [5:13:48<13:29:05,  3.44it/s] 55%|█████▌    | 204642/371472 [5:13:48<13:25:15,  3.45it/s] 55%|█████▌    | 204643/371472 [5:13:48<12:50:38,  3.61it/s] 55%|█████▌    | 204644/371472 [5:13:48<12:53:28,  3.59it/s] 55%|█████▌    | 204645/371472 [5:13:49<12:31:20,  3.70it/s] 55%|█████▌    | 204646/371472 [5:13:49<12:31:46,  3.70it/s] 55%|█████▌    | 204647/371472 [5:13:49<12:37:38,  3.67it/s] 55%|█████▌    | 204648/371472 [5:13:49<12:51:18,  3.60it/s] 55%|█████▌    | 204649/371472 [5:13:50<13:43:21,  3.38it/s] 55%|█████▌    | 204650/371472 [5:13:50<13:17:21,  3.49it/s] 55%|█████▌    | 204651/371472 [5:13:50<13:35:44,  3.41it/s] 55%|█████▌    | 204652/371472 [5:13:51<12:59:25,  3.57it/s] 55%|█████▌    | 204653/371472 [5:13:51<12:36:28,  3.68it/s] 55%|█████▌    | 204654/371472 [5:13:51<13:59:11,  3.31it/s] 55%|█████▌    | 204655/371472 [5:13:51<13:17:20,  3.49it/s] 55%|█████▌    | 204656/371472 [5:13:52<12:46:59,  3.62it/s] 55%|█████▌    | 204657/371472 [5:13:52<12:40:23,  3.66it/s] 55%|█████▌    | 204658/371472 [5:13:52<12:46:59,  3.62it/s] 55%|█████▌    | 204659/371472 [5:13:53<12:43:51,  3.64it/s] 55%|█████▌    | 204660/371472 [5:13:53<12:52:10,  3.60it/s]                                                            {'loss': 2.9633, 'learning_rate': 5.043687646792648e-07, 'epoch': 8.82}
 55%|█████▌    | 204660/371472 [5:13:53<12:52:10,  3.60it/s] 55%|█████▌    | 204661/371472 [5:13:53<12:27:45,  3.72it/s] 55%|█████▌    | 204662/371472 [5:13:53<12:28:29,  3.71it/s] 55%|█████▌    | 204663/371472 [5:13:54<14:53:30,  3.11it/s] 55%|█████▌    | 204664/371472 [5:13:54<14:20:29,  3.23it/s] 55%|█████▌    | 204665/371472 [5:13:54<13:36:10,  3.41it/s] 55%|█████▌    | 204666/371472 [5:13:55<13:40:15,  3.39it/s] 55%|█████▌    | 204667/371472 [5:13:55<13:40:02,  3.39it/s] 55%|█████▌    | 204668/371472 [5:13:55<13:11:08,  3.51it/s] 55%|█████▌    | 204669/371472 [5:13:55<12:54:11,  3.59it/s] 55%|█████▌    | 204670/371472 [5:13:56<12:24:43,  3.73it/s] 55%|█████▌    | 204671/371472 [5:13:56<13:04:45,  3.54it/s] 55%|█████▌    | 204672/371472 [5:13:56<12:44:04,  3.64it/s] 55%|█████▌    | 204673/371472 [5:13:57<12:22:47,  3.74it/s] 55%|█████▌    | 204674/371472 [5:13:57<12:33:04,  3.69it/s] 55%|█████▌    | 204675/371472 [5:13:57<12:32:13,  3.70it/s] 55%|█████▌    | 204676/371472 [5:13:57<12:31:23,  3.70it/s] 55%|█████▌    | 204677/371472 [5:13:58<12:30:37,  3.70it/s] 55%|█████▌    | 204678/371472 [5:13:58<13:56:03,  3.32it/s] 55%|█████▌    | 204679/371472 [5:13:58<13:39:29,  3.39it/s] 55%|█████▌    | 204680/371472 [5:13:59<15:54:54,  2.91it/s]                                                            {'loss': 2.9708, 'learning_rate': 5.043202827037859e-07, 'epoch': 8.82}
 55%|█████▌    | 204680/371472 [5:13:59<15:54:54,  2.91it/s] 55%|█████▌    | 204681/371472 [5:13:59<14:57:42,  3.10it/s] 55%|█████▌    | 204682/371472 [5:13:59<14:31:03,  3.19it/s] 55%|█████▌    | 204683/371472 [5:14:00<13:52:47,  3.34it/s] 55%|█████▌    | 204684/371472 [5:14:00<13:54:50,  3.33it/s] 55%|█████▌    | 204685/371472 [5:14:00<14:26:41,  3.21it/s] 55%|█████▌    | 204686/371472 [5:14:01<15:26:41,  3.00it/s] 55%|█████▌    | 204687/371472 [5:14:01<14:18:23,  3.24it/s] 55%|█████▌    | 204688/371472 [5:14:01<14:02:28,  3.30it/s] 55%|█████▌    | 204689/371472 [5:14:01<13:28:00,  3.44it/s] 55%|█████▌    | 204690/371472 [5:14:02<13:23:45,  3.46it/s] 55%|█████▌    | 204691/371472 [5:14:02<14:07:36,  3.28it/s] 55%|█████▌    | 204692/371472 [5:14:02<13:33:43,  3.42it/s] 55%|█████▌    | 204693/371472 [5:14:03<13:39:03,  3.39it/s] 55%|█████▌    | 204694/371472 [5:14:03<12:56:55,  3.58it/s] 55%|█████▌    | 204695/371472 [5:14:03<13:06:29,  3.53it/s] 55%|█████▌    | 204696/371472 [5:14:03<12:28:19,  3.71it/s] 55%|█████▌    | 204697/371472 [5:14:04<12:23:53,  3.74it/s] 55%|█████▌    | 204698/371472 [5:14:04<12:19:23,  3.76it/s] 55%|█████▌    | 204699/371472 [5:14:04<12:40:12,  3.66it/s] 55%|█████▌    | 204700/371472 [5:14:04<12:26:10,  3.73it/s]                                                            {'loss': 2.7826, 'learning_rate': 5.042718007283071e-07, 'epoch': 8.82}
 55%|█████▌    | 204700/371472 [5:14:04<12:26:10,  3.73it/s] 55%|█████▌    | 204701/371472 [5:14:05<12:38:57,  3.66it/s] 55%|█████▌    | 204702/371472 [5:14:05<12:40:02,  3.66it/s] 55%|█████▌    | 204703/371472 [5:14:05<12:24:38,  3.73it/s] 55%|█████▌    | 204704/371472 [5:14:05<12:23:45,  3.74it/s] 55%|█████▌    | 204705/371472 [5:14:06<12:39:04,  3.66it/s] 55%|█████▌    | 204706/371472 [5:14:06<13:15:18,  3.49it/s] 55%|█████▌    | 204707/371472 [5:14:06<13:32:06,  3.42it/s] 55%|█████▌    | 204708/371472 [5:14:07<13:45:38,  3.37it/s] 55%|█████▌    | 204709/371472 [5:14:07<13:41:49,  3.38it/s] 55%|█████▌    | 204710/371472 [5:14:07<13:12:44,  3.51it/s] 55%|█████▌    | 204711/371472 [5:14:08<13:22:01,  3.47it/s] 55%|█████▌    | 204712/371472 [5:14:08<13:20:24,  3.47it/s] 55%|█████▌    | 204713/371472 [5:14:08<13:21:23,  3.47it/s] 55%|█████▌    | 204714/371472 [5:14:08<13:32:00,  3.42it/s] 55%|█████▌    | 204715/371472 [5:14:09<13:02:53,  3.55it/s] 55%|█████▌    | 204716/371472 [5:14:09<12:50:13,  3.61it/s] 55%|█████▌    | 204717/371472 [5:14:09<12:34:22,  3.68it/s] 55%|█████▌    | 204718/371472 [5:14:10<13:09:42,  3.52it/s] 55%|█████▌    | 204719/371472 [5:14:10<12:54:06,  3.59it/s] 55%|█████▌    | 204720/371472 [5:14:10<12:49:11,  3.61it/s]                                                            {'loss': 2.8701, 'learning_rate': 5.042233187528281e-07, 'epoch': 8.82}
 55%|█████▌    | 204720/371472 [5:14:10<12:49:11,  3.61it/s] 55%|█████▌    | 204721/371472 [5:14:10<12:38:53,  3.66it/s] 55%|█████▌    | 204722/371472 [5:14:11<13:33:46,  3.42it/s] 55%|█████▌    | 204723/371472 [5:14:11<13:37:19,  3.40it/s] 55%|█████▌    | 204724/371472 [5:14:11<14:09:17,  3.27it/s] 55%|█████▌    | 204725/371472 [5:14:12<13:38:20,  3.40it/s] 55%|█████▌    | 204726/371472 [5:14:12<13:36:35,  3.40it/s] 55%|█████▌    | 204727/371472 [5:14:12<13:19:50,  3.47it/s] 55%|█████▌    | 204728/371472 [5:14:12<12:56:31,  3.58it/s] 55%|█████▌    | 204729/371472 [5:14:13<12:47:00,  3.62it/s] 55%|█████▌    | 204730/371472 [5:14:13<13:02:51,  3.55it/s] 55%|█████▌    | 204731/371472 [5:14:13<12:43:04,  3.64it/s] 55%|█████▌    | 204732/371472 [5:14:14<13:14:55,  3.50it/s] 55%|█████▌    | 204733/371472 [5:14:14<13:09:27,  3.52it/s] 55%|█████▌    | 204734/371472 [5:14:14<13:09:42,  3.52it/s] 55%|█████▌    | 204735/371472 [5:14:14<13:25:01,  3.45it/s] 55%|█████▌    | 204736/371472 [5:14:15<13:10:01,  3.52it/s] 55%|█████▌    | 204737/371472 [5:14:15<13:20:16,  3.47it/s] 55%|█████▌    | 204738/371472 [5:14:15<13:06:22,  3.53it/s] 55%|█████▌    | 204739/371472 [5:14:16<13:47:26,  3.36it/s] 55%|█████▌    | 204740/371472 [5:14:16<13:45:41,  3.37it/s]                                                            {'loss': 2.8218, 'learning_rate': 5.041748367773492e-07, 'epoch': 8.82}
 55%|█████▌    | 204740/371472 [5:14:16<13:45:41,  3.37it/s] 55%|█████▌    | 204741/371472 [5:14:16<14:14:52,  3.25it/s] 55%|█████▌    | 204742/371472 [5:14:16<13:50:31,  3.35it/s] 55%|█████▌    | 204743/371472 [5:14:17<13:21:36,  3.47it/s] 55%|█████▌    | 204744/371472 [5:14:17<13:20:18,  3.47it/s] 55%|█████▌    | 204745/371472 [5:14:17<13:17:08,  3.49it/s] 55%|█████▌    | 204746/371472 [5:14:18<12:54:52,  3.59it/s] 55%|█████▌    | 204747/371472 [5:14:18<12:23:56,  3.74it/s] 55%|█████▌    | 204748/371472 [5:14:18<12:55:35,  3.58it/s] 55%|█████▌    | 204749/371472 [5:14:18<13:03:14,  3.55it/s] 55%|█████▌    | 204750/371472 [5:14:19<12:45:45,  3.63it/s] 55%|█████▌    | 204751/371472 [5:14:19<12:55:46,  3.58it/s] 55%|█████▌    | 204752/371472 [5:14:19<12:37:21,  3.67it/s] 55%|█████▌    | 204753/371472 [5:14:20<13:06:48,  3.53it/s] 55%|█████▌    | 204754/371472 [5:14:20<13:35:23,  3.41it/s] 55%|█████▌    | 204755/371472 [5:14:20<13:33:19,  3.42it/s] 55%|█████▌    | 204756/371472 [5:14:20<13:07:00,  3.53it/s] 55%|█████▌    | 204757/371472 [5:14:21<13:23:10,  3.46it/s] 55%|█████▌    | 204758/371472 [5:14:21<14:52:30,  3.11it/s] 55%|█████▌    | 204759/371472 [5:14:21<13:55:58,  3.32it/s] 55%|█████▌    | 204760/371472 [5:14:22<13:46:30,  3.36it/s]                                                            {'loss': 3.0385, 'learning_rate': 5.041263548018703e-07, 'epoch': 8.82}
 55%|█████▌    | 204760/371472 [5:14:22<13:46:30,  3.36it/s] 55%|█████▌    | 204761/371472 [5:14:22<13:57:10,  3.32it/s] 55%|█████▌    | 204762/371472 [5:14:22<13:20:03,  3.47it/s] 55%|█████▌    | 204763/371472 [5:14:22<12:53:08,  3.59it/s] 55%|█████▌    | 204764/371472 [5:14:23<12:51:36,  3.60it/s] 55%|█████▌    | 204765/371472 [5:14:23<12:34:37,  3.68it/s] 55%|█████▌    | 204766/371472 [5:14:23<13:07:16,  3.53it/s] 55%|█████▌    | 204767/371472 [5:14:24<12:42:24,  3.64it/s] 55%|█████▌    | 204768/371472 [5:14:24<12:57:36,  3.57it/s] 55%|█████▌    | 204769/371472 [5:14:24<12:58:22,  3.57it/s] 55%|█████▌    | 204770/371472 [5:14:24<13:31:31,  3.42it/s] 55%|█████▌    | 204771/371472 [5:14:25<13:57:48,  3.32it/s] 55%|█████▌    | 204772/371472 [5:14:25<14:05:58,  3.28it/s] 55%|█████▌    | 204773/371472 [5:14:25<13:40:52,  3.38it/s] 55%|█████▌    | 204774/371472 [5:14:26<13:11:08,  3.51it/s] 55%|█████▌    | 204775/371472 [5:14:26<13:45:30,  3.37it/s] 55%|█████▌    | 204776/371472 [5:14:26<13:25:37,  3.45it/s] 55%|█████▌    | 204777/371472 [5:14:26<12:46:40,  3.62it/s] 55%|█████▌    | 204778/371472 [5:14:27<12:57:21,  3.57it/s] 55%|█████▌    | 204779/371472 [5:14:27<13:00:19,  3.56it/s] 55%|█████▌    | 204780/371472 [5:14:27<13:23:39,  3.46it/s]                                                            {'loss': 3.0041, 'learning_rate': 5.040778728263915e-07, 'epoch': 8.82}
 55%|█████▌    | 204780/371472 [5:14:27<13:23:39,  3.46it/s] 55%|█████▌    | 204781/371472 [5:14:28<14:03:13,  3.29it/s] 55%|█████▌    | 204782/371472 [5:14:28<13:16:15,  3.49it/s] 55%|█████▌    | 204783/371472 [5:14:28<13:01:38,  3.55it/s] 55%|█████▌    | 204784/371472 [5:14:28<13:14:51,  3.50it/s] 55%|█████▌    | 204785/371472 [5:14:29<12:49:04,  3.61it/s] 55%|█████▌    | 204786/371472 [5:14:29<12:44:07,  3.64it/s] 55%|█████▌    | 204787/371472 [5:14:29<12:40:52,  3.65it/s] 55%|█████▌    | 204788/371472 [5:14:30<12:12:49,  3.79it/s] 55%|█████▌    | 204789/371472 [5:14:30<12:28:53,  3.71it/s] 55%|█████▌    | 204790/371472 [5:14:30<12:21:49,  3.74it/s] 55%|█████▌    | 204791/371472 [5:14:30<12:11:21,  3.80it/s] 55%|█████▌    | 204792/371472 [5:14:31<12:36:09,  3.67it/s] 55%|█████▌    | 204793/371472 [5:14:31<12:32:22,  3.69it/s] 55%|█████▌    | 204794/371472 [5:14:31<12:41:10,  3.65it/s] 55%|█████▌    | 204795/371472 [5:14:31<12:30:10,  3.70it/s] 55%|█████▌    | 204796/371472 [5:14:32<12:13:50,  3.79it/s] 55%|█████▌    | 204797/371472 [5:14:32<11:53:34,  3.89it/s] 55%|█████▌    | 204798/371472 [5:14:32<13:04:45,  3.54it/s] 55%|█████▌    | 204799/371472 [5:14:32<12:36:51,  3.67it/s] 55%|█████▌    | 204800/371472 [5:14:33<12:58:05,  3.57it/s]                                                            {'loss': 3.0106, 'learning_rate': 5.040293908509125e-07, 'epoch': 8.82}
 55%|█████▌    | 204800/371472 [5:14:33<12:58:05,  3.57it/s] 55%|█████▌    | 204801/371472 [5:14:33<13:02:41,  3.55it/s] 55%|█████▌    | 204802/371472 [5:14:33<12:42:50,  3.64it/s] 55%|█████▌    | 204803/371472 [5:14:34<12:35:54,  3.67it/s] 55%|█████▌    | 204804/371472 [5:14:34<14:12:16,  3.26it/s] 55%|█████▌    | 204805/371472 [5:14:34<13:33:00,  3.42it/s] 55%|█████▌    | 204806/371472 [5:14:35<13:09:24,  3.52it/s] 55%|█████▌    | 204807/371472 [5:14:35<13:07:33,  3.53it/s] 55%|█████▌    | 204808/371472 [5:14:35<12:49:26,  3.61it/s] 55%|█████▌    | 204809/371472 [5:14:35<12:36:34,  3.67it/s] 55%|█████▌    | 204810/371472 [5:14:36<12:34:30,  3.68it/s] 55%|█████▌    | 204811/371472 [5:14:36<12:36:06,  3.67it/s] 55%|█████▌    | 204812/371472 [5:14:36<12:25:45,  3.72it/s] 55%|█████▌    | 204813/371472 [5:14:36<12:34:35,  3.68it/s] 55%|█████▌    | 204814/371472 [5:14:37<13:03:31,  3.55it/s] 55%|█████▌    | 204815/371472 [5:14:37<12:57:07,  3.57it/s] 55%|█████▌    | 204816/371472 [5:14:37<12:50:25,  3.61it/s] 55%|█████▌    | 204817/371472 [5:14:38<13:11:51,  3.51it/s] 55%|█████▌    | 204818/371472 [5:14:38<13:49:57,  3.35it/s] 55%|█████▌    | 204819/371472 [5:14:38<13:23:45,  3.46it/s] 55%|█████▌    | 204820/371472 [5:14:38<13:04:55,  3.54it/s]                                                            {'loss': 2.9393, 'learning_rate': 5.039809088754337e-07, 'epoch': 8.82}
 55%|█████▌    | 204820/371472 [5:14:38<13:04:55,  3.54it/s] 55%|█████▌    | 204821/371472 [5:14:39<13:05:42,  3.54it/s] 55%|█████▌    | 204822/371472 [5:14:39<12:43:42,  3.64it/s] 55%|█████▌    | 204823/371472 [5:14:39<13:01:06,  3.56it/s] 55%|█████▌    | 204824/371472 [5:14:40<12:42:00,  3.64it/s] 55%|█████▌    | 204825/371472 [5:14:40<12:26:59,  3.72it/s] 55%|█████▌    | 204826/371472 [5:14:40<12:50:20,  3.61it/s] 55%|█████▌    | 204827/371472 [5:14:40<12:42:51,  3.64it/s] 55%|█████▌    | 204828/371472 [5:14:41<14:01:32,  3.30it/s] 55%|█████▌    | 204829/371472 [5:14:41<13:26:39,  3.44it/s] 55%|█████▌    | 204830/371472 [5:14:41<13:29:23,  3.43it/s] 55%|█████▌    | 204831/371472 [5:14:42<13:31:11,  3.42it/s] 55%|█████▌    | 204832/371472 [5:14:42<13:42:46,  3.38it/s] 55%|█████▌    | 204833/371472 [5:14:42<14:32:43,  3.18it/s] 55%|█████▌    | 204834/371472 [5:14:43<14:31:14,  3.19it/s] 55%|█████▌    | 204835/371472 [5:14:43<14:19:19,  3.23it/s] 55%|█████▌    | 204836/371472 [5:14:43<14:52:24,  3.11it/s] 55%|█████▌    | 204837/371472 [5:14:43<14:36:43,  3.17it/s] 55%|█████▌    | 204838/371472 [5:14:44<14:09:24,  3.27it/s] 55%|█████▌    | 204839/371472 [5:14:44<13:31:37,  3.42it/s] 55%|█████▌    | 204840/371472 [5:14:44<13:27:51,  3.44it/s]                                                            {'loss': 2.8541, 'learning_rate': 5.039324268999548e-07, 'epoch': 8.82}
 55%|█████▌    | 204840/371472 [5:14:44<13:27:51,  3.44it/s] 55%|█████▌    | 204841/371472 [5:14:45<13:26:28,  3.44it/s] 55%|█████▌    | 204842/371472 [5:14:45<13:11:07,  3.51it/s] 55%|█████▌    | 204843/371472 [5:14:45<13:23:50,  3.45it/s] 55%|█████▌    | 204844/371472 [5:14:45<12:50:25,  3.60it/s] 55%|█████▌    | 204845/371472 [5:14:46<12:54:30,  3.59it/s] 55%|█████▌    | 204846/371472 [5:14:46<13:57:14,  3.32it/s] 55%|█████▌    | 204847/371472 [5:14:46<13:46:06,  3.36it/s] 55%|█████▌    | 204848/371472 [5:14:47<13:23:22,  3.46it/s] 55%|█████▌    | 204849/371472 [5:14:47<14:04:27,  3.29it/s] 55%|█████▌    | 204850/371472 [5:14:47<15:05:24,  3.07it/s] 55%|█████▌    | 204851/371472 [5:14:48<14:35:47,  3.17it/s] 55%|█████▌    | 204852/371472 [5:14:48<13:42:38,  3.38it/s] 55%|█████▌    | 204853/371472 [5:14:48<13:22:53,  3.46it/s] 55%|█████▌    | 204854/371472 [5:14:48<13:15:54,  3.49it/s] 55%|█████▌    | 204855/371472 [5:14:49<12:47:34,  3.62it/s] 55%|█████▌    | 204856/371472 [5:14:49<15:55:08,  2.91it/s] 55%|█████▌    | 204857/371472 [5:14:49<14:52:30,  3.11it/s] 55%|█████▌    | 204858/371472 [5:14:50<14:38:03,  3.16it/s] 55%|█████▌    | 204859/371472 [5:14:50<13:50:25,  3.34it/s] 55%|█████▌    | 204860/371472 [5:14:50<13:28:06,  3.44it/s]                                                            {'loss': 2.8929, 'learning_rate': 5.038839449244758e-07, 'epoch': 8.82}
 55%|█████▌    | 204860/371472 [5:14:50<13:28:06,  3.44it/s] 55%|█████▌    | 204861/371472 [5:14:51<13:32:37,  3.42it/s] 55%|█████▌    | 204862/371472 [5:14:51<13:22:24,  3.46it/s] 55%|█████▌    | 204863/371472 [5:14:51<14:12:35,  3.26it/s] 55%|█████▌    | 204864/371472 [5:14:52<13:57:16,  3.32it/s] 55%|█████▌    | 204865/371472 [5:14:52<13:34:30,  3.41it/s] 55%|█████▌    | 204866/371472 [5:14:52<13:13:02,  3.50it/s] 55%|█████▌    | 204867/371472 [5:14:52<12:52:05,  3.60it/s] 55%|█████▌    | 204868/371472 [5:14:53<13:22:44,  3.46it/s] 55%|█████▌    | 204869/371472 [5:14:53<13:32:14,  3.42it/s] 55%|█████▌    | 204870/371472 [5:14:53<13:20:08,  3.47it/s] 55%|█████▌    | 204871/371472 [5:14:54<13:40:05,  3.39it/s] 55%|█████▌    | 204872/371472 [5:14:54<13:17:33,  3.48it/s] 55%|█████▌    | 204873/371472 [5:14:54<12:58:43,  3.57it/s] 55%|█████▌    | 204874/371472 [5:14:54<12:51:31,  3.60it/s] 55%|█████▌    | 204875/371472 [5:14:55<12:31:37,  3.69it/s] 55%|█████▌    | 204876/371472 [5:14:55<12:17:18,  3.77it/s] 55%|█████▌    | 204877/371472 [5:14:55<12:27:43,  3.71it/s] 55%|█████▌    | 204878/371472 [5:14:55<12:56:18,  3.58it/s] 55%|█████▌    | 204879/371472 [5:14:56<15:15:30,  3.03it/s] 55%|█████▌    | 204880/371472 [5:14:56<14:47:39,  3.13it/s]                                                            {'loss': 2.7513, 'learning_rate': 5.038354629489969e-07, 'epoch': 8.82}
 55%|█████▌    | 204880/371472 [5:14:56<14:47:39,  3.13it/s] 55%|█████▌    | 204881/371472 [5:14:56<14:12:19,  3.26it/s] 55%|█████▌    | 204882/371472 [5:14:57<13:44:30,  3.37it/s] 55%|█████▌    | 204883/371472 [5:14:57<15:19:55,  3.02it/s] 55%|█████▌    | 204884/371472 [5:14:57<14:15:40,  3.24it/s] 55%|█████▌    | 204885/371472 [5:14:58<13:59:43,  3.31it/s] 55%|█████▌    | 204886/371472 [5:14:58<13:40:10,  3.39it/s] 55%|█████▌    | 204887/371472 [5:14:58<13:12:19,  3.50it/s] 55%|█████▌    | 204888/371472 [5:14:58<12:53:40,  3.59it/s] 55%|█████▌    | 204889/371472 [5:14:59<13:05:52,  3.53it/s] 55%|█████▌    | 204890/371472 [5:14:59<13:09:48,  3.52it/s] 55%|█████▌    | 204891/371472 [5:14:59<13:13:34,  3.50it/s] 55%|█████▌    | 204892/371472 [5:15:00<12:52:21,  3.59it/s] 55%|█████▌    | 204893/371472 [5:15:00<13:06:16,  3.53it/s] 55%|█████▌    | 204894/371472 [5:15:00<13:21:59,  3.46it/s] 55%|█████▌    | 204895/371472 [5:15:00<13:15:19,  3.49it/s] 55%|█████▌    | 204896/371472 [5:15:01<12:48:37,  3.61it/s] 55%|█████▌    | 204897/371472 [5:15:01<12:46:38,  3.62it/s] 55%|█████▌    | 204898/371472 [5:15:01<12:19:17,  3.76it/s] 55%|█████▌    | 204899/371472 [5:15:02<12:25:01,  3.73it/s] 55%|█████▌    | 204900/371472 [5:15:02<12:28:04,  3.71it/s]                                                            {'loss': 2.9669, 'learning_rate': 5.037869809735181e-07, 'epoch': 8.83}
 55%|█████▌    | 204900/371472 [5:15:02<12:28:04,  3.71it/s] 55%|█████▌    | 204901/371472 [5:15:02<12:28:32,  3.71it/s] 55%|█████▌    | 204902/371472 [5:15:02<12:30:43,  3.70it/s] 55%|█████▌    | 204903/371472 [5:15:03<12:29:02,  3.71it/s] 55%|█████▌    | 204904/371472 [5:15:03<12:33:35,  3.68it/s] 55%|█████▌    | 204905/371472 [5:15:03<12:48:15,  3.61it/s] 55%|█████▌    | 204906/371472 [5:15:03<13:24:57,  3.45it/s] 55%|█████▌    | 204907/371472 [5:15:04<13:46:52,  3.36it/s] 55%|█████▌    | 204908/371472 [5:15:04<13:20:46,  3.47it/s] 55%|█████▌    | 204909/371472 [5:15:04<13:37:37,  3.40it/s] 55%|█████▌    | 204910/371472 [5:15:05<13:36:17,  3.40it/s] 55%|█████▌    | 204911/371472 [5:15:05<13:18:33,  3.48it/s] 55%|█████▌    | 204912/371472 [5:15:05<13:03:20,  3.54it/s] 55%|█████▌    | 204913/371472 [5:15:05<12:30:16,  3.70it/s] 55%|█████▌    | 204914/371472 [5:15:06<12:06:59,  3.82it/s] 55%|█████▌    | 204915/371472 [5:15:06<12:31:24,  3.69it/s] 55%|█████▌    | 204916/371472 [5:15:06<12:17:48,  3.76it/s] 55%|█████▌    | 204917/371472 [5:15:07<12:25:48,  3.72it/s] 55%|█████▌    | 204918/371472 [5:15:07<12:38:32,  3.66it/s] 55%|█████▌    | 204919/371472 [5:15:07<13:36:07,  3.40it/s] 55%|█████▌    | 204920/371472 [5:15:07<13:16:09,  3.49it/s]                                                            {'loss': 2.9378, 'learning_rate': 5.037384989980391e-07, 'epoch': 8.83}
 55%|█████▌    | 204920/371472 [5:15:07<13:16:09,  3.49it/s] 55%|█████▌    | 204921/371472 [5:15:08<13:14:19,  3.49it/s] 55%|█████▌    | 204922/371472 [5:15:08<13:21:41,  3.46it/s] 55%|█████▌    | 204923/371472 [5:15:08<13:17:37,  3.48it/s] 55%|█████▌    | 204924/371472 [5:15:09<12:59:24,  3.56it/s] 55%|█████▌    | 204925/371472 [5:15:09<13:09:40,  3.52it/s] 55%|█████▌    | 204926/371472 [5:15:09<13:17:49,  3.48it/s] 55%|█████▌    | 204927/371472 [5:15:09<13:02:29,  3.55it/s] 55%|█████▌    | 204928/371472 [5:15:10<13:36:32,  3.40it/s] 55%|█████▌    | 204929/371472 [5:15:10<14:18:35,  3.23it/s] 55%|█████▌    | 204930/371472 [5:15:10<14:12:11,  3.26it/s] 55%|█████▌    | 204931/371472 [5:15:11<14:20:50,  3.22it/s] 55%|█████▌    | 204932/371472 [5:15:11<13:44:53,  3.36it/s] 55%|█████▌    | 204933/371472 [5:15:11<14:08:35,  3.27it/s] 55%|█████▌    | 204934/371472 [5:15:12<13:27:00,  3.44it/s] 55%|█████▌    | 204935/371472 [5:15:12<13:29:32,  3.43it/s] 55%|█████▌    | 204936/371472 [5:15:12<13:19:28,  3.47it/s] 55%|█████▌    | 204937/371472 [5:15:12<12:55:52,  3.58it/s] 55%|█████▌    | 204938/371472 [5:15:13<13:38:15,  3.39it/s] 55%|█████▌    | 204939/371472 [5:15:13<13:08:53,  3.52it/s] 55%|█████▌    | 204940/371472 [5:15:13<13:04:45,  3.54it/s]                                                            {'loss': 3.0661, 'learning_rate': 5.036900170225602e-07, 'epoch': 8.83}
 55%|█████▌    | 204940/371472 [5:15:13<13:04:45,  3.54it/s] 55%|█████▌    | 204941/371472 [5:15:13<12:41:02,  3.65it/s] 55%|█████▌    | 204942/371472 [5:15:14<12:13:31,  3.78it/s] 55%|█████▌    | 204943/371472 [5:15:14<12:38:49,  3.66it/s] 55%|█████▌    | 204944/371472 [5:15:14<12:35:16,  3.67it/s] 55%|█████▌    | 204945/371472 [5:15:15<12:23:13,  3.73it/s] 55%|█████▌    | 204946/371472 [5:15:15<12:16:20,  3.77it/s] 55%|█████▌    | 204947/371472 [5:15:15<12:49:54,  3.60it/s] 55%|█████▌    | 204948/371472 [5:15:15<12:58:10,  3.57it/s] 55%|█████▌    | 204949/371472 [5:15:16<12:49:27,  3.61it/s] 55%|█████▌    | 204950/371472 [5:15:16<13:08:00,  3.52it/s] 55%|█████▌    | 204951/371472 [5:15:16<12:58:34,  3.56it/s] 55%|█████▌    | 204952/371472 [5:15:17<12:42:13,  3.64it/s] 55%|█████▌    | 204953/371472 [5:15:17<12:54:49,  3.58it/s] 55%|█████▌    | 204954/371472 [5:15:17<12:37:43,  3.66it/s] 55%|█████▌    | 204955/371472 [5:15:17<13:04:13,  3.54it/s] 55%|█████▌    | 204956/371472 [5:15:18<13:28:45,  3.43it/s] 55%|█████▌    | 204957/371472 [5:15:18<13:11:19,  3.51it/s] 55%|█████▌    | 204958/371472 [5:15:18<13:11:10,  3.51it/s] 55%|█████▌    | 204959/371472 [5:15:19<13:18:11,  3.48it/s] 55%|█████▌    | 204960/371472 [5:15:19<13:01:16,  3.55it/s]                                                            {'loss': 2.9989, 'learning_rate': 5.036415350470814e-07, 'epoch': 8.83}
 55%|█████▌    | 204960/371472 [5:15:19<13:01:16,  3.55it/s] 55%|█████▌    | 204961/371472 [5:15:19<13:02:01,  3.55it/s] 55%|█████▌    | 204962/371472 [5:15:19<13:28:43,  3.43it/s] 55%|█████▌    | 204963/371472 [5:15:20<13:18:43,  3.47it/s] 55%|█████▌    | 204964/371472 [5:15:20<12:50:34,  3.60it/s] 55%|█████▌    | 204965/371472 [5:15:20<13:49:57,  3.34it/s] 55%|█████▌    | 204966/371472 [5:15:21<13:42:00,  3.38it/s] 55%|█████▌    | 204967/371472 [5:15:21<13:25:29,  3.45it/s] 55%|█████▌    | 204968/371472 [5:15:21<13:11:00,  3.51it/s] 55%|█████▌    | 204969/371472 [5:15:21<12:53:04,  3.59it/s] 55%|█████▌    | 204970/371472 [5:15:22<13:49:17,  3.35it/s] 55%|█████▌    | 204971/371472 [5:15:22<13:07:13,  3.53it/s] 55%|█████▌    | 204972/371472 [5:15:22<12:44:36,  3.63it/s] 55%|█████▌    | 204973/371472 [5:15:22<12:45:18,  3.63it/s] 55%|█████▌    | 204974/371472 [5:15:23<12:18:23,  3.76it/s] 55%|█████▌    | 204975/371472 [5:15:23<12:47:12,  3.62it/s] 55%|█████▌    | 204976/371472 [5:15:23<12:33:17,  3.68it/s] 55%|█████▌    | 204977/371472 [5:15:24<12:41:06,  3.65it/s] 55%|█████▌    | 204978/371472 [5:15:24<12:42:21,  3.64it/s] 55%|█████▌    | 204979/371472 [5:15:24<12:14:13,  3.78it/s] 55%|█████▌    | 204980/371472 [5:15:24<12:03:58,  3.83it/s]                                                            {'loss': 3.0685, 'learning_rate': 5.035930530716025e-07, 'epoch': 8.83}
 55%|█████▌    | 204980/371472 [5:15:24<12:03:58,  3.83it/s] 55%|█████▌    | 204981/371472 [5:15:25<12:32:14,  3.69it/s] 55%|█████▌    | 204982/371472 [5:15:25<12:38:08,  3.66it/s] 55%|█████▌    | 204983/371472 [5:15:25<13:12:40,  3.50it/s] 55%|█████▌    | 204984/371472 [5:15:26<13:51:17,  3.34it/s] 55%|█████▌    | 204985/371472 [5:15:26<13:41:07,  3.38it/s] 55%|█████▌    | 204986/371472 [5:15:26<13:35:39,  3.40it/s] 55%|█████▌    | 204987/371472 [5:15:26<13:42:00,  3.38it/s] 55%|█████▌    | 204988/371472 [5:15:27<13:44:32,  3.37it/s] 55%|█████▌    | 204989/371472 [5:15:27<13:51:13,  3.34it/s] 55%|█████▌    | 204990/371472 [5:15:27<13:44:19,  3.37it/s] 55%|█████▌    | 204991/371472 [5:15:28<13:29:47,  3.43it/s] 55%|█████▌    | 204992/371472 [5:15:28<13:49:09,  3.35it/s] 55%|█████▌    | 204993/371472 [5:15:28<13:31:56,  3.42it/s] 55%|█████▌    | 204994/371472 [5:15:29<14:50:10,  3.12it/s] 55%|█████▌    | 204995/371472 [5:15:29<13:40:21,  3.38it/s] 55%|█████▌    | 204996/371472 [5:15:29<13:13:42,  3.50it/s] 55%|█████▌    | 204997/371472 [5:15:29<13:19:22,  3.47it/s] 55%|█████▌    | 204998/371472 [5:15:30<13:39:14,  3.39it/s] 55%|█████▌    | 204999/371472 [5:15:30<13:00:24,  3.56it/s] 55%|█████▌    | 205000/371472 [5:15:30<12:56:20,  3.57it/s]                                                            {'loss': 2.9175, 'learning_rate': 5.035445710961236e-07, 'epoch': 8.83}
 55%|█████▌    | 205000/371472 [5:15:30<12:56:20,  3.57it/s] 55%|█████▌    | 205001/371472 [5:15:31<13:04:38,  3.54it/s] 55%|█████▌    | 205002/371472 [5:15:31<12:44:55,  3.63it/s] 55%|█████▌    | 205003/371472 [5:15:31<13:04:21,  3.54it/s] 55%|█████▌    | 205004/371472 [5:15:31<12:31:09,  3.69it/s] 55%|█████▌    | 205005/371472 [5:15:32<12:34:45,  3.68it/s] 55%|█████▌    | 205006/371472 [5:15:32<12:42:10,  3.64it/s] 55%|█████▌    | 205007/371472 [5:15:32<12:48:53,  3.61it/s] 55%|█████▌    | 205008/371472 [5:15:32<12:23:33,  3.73it/s] 55%|█████▌    | 205009/371472 [5:15:33<11:55:50,  3.88it/s] 55%|█████▌    | 205010/371472 [5:15:33<11:48:21,  3.92it/s] 55%|█████▌    | 205011/371472 [5:15:33<11:52:59,  3.89it/s] 55%|█████▌    | 205012/371472 [5:15:33<12:03:53,  3.83it/s] 55%|█████▌    | 205013/371472 [5:15:34<13:14:59,  3.49it/s] 55%|█████▌    | 205014/371472 [5:15:34<13:33:47,  3.41it/s] 55%|█████▌    | 205015/371472 [5:15:34<13:19:12,  3.47it/s] 55%|█████▌    | 205016/371472 [5:15:35<13:55:30,  3.32it/s] 55%|█████▌    | 205017/371472 [5:15:35<13:58:24,  3.31it/s] 55%|█████▌    | 205018/371472 [5:15:35<13:16:22,  3.48it/s] 55%|█████▌    | 205019/371472 [5:15:36<13:52:21,  3.33it/s] 55%|█████▌    | 205020/371472 [5:15:36<14:30:10,  3.19it/s]                                                            {'loss': 2.9968, 'learning_rate': 5.034960891206446e-07, 'epoch': 8.83}
 55%|█████▌    | 205020/371472 [5:15:36<14:30:10,  3.19it/s] 55%|█████▌    | 205021/371472 [5:15:36<13:59:06,  3.31it/s] 55%|█████▌    | 205022/371472 [5:15:36<13:17:22,  3.48it/s] 55%|█████▌    | 205023/371472 [5:15:37<13:08:46,  3.52it/s] 55%|█████▌    | 205024/371472 [5:15:37<13:01:21,  3.55it/s] 55%|█████▌    | 205025/371472 [5:15:37<13:09:01,  3.52it/s] 55%|█████▌    | 205026/371472 [5:15:38<13:08:44,  3.52it/s] 55%|█████▌    | 205027/371472 [5:15:38<12:37:39,  3.66it/s] 55%|█████▌    | 205028/371472 [5:15:38<12:35:02,  3.67it/s] 55%|█████▌    | 205029/371472 [5:15:38<12:32:29,  3.69it/s] 55%|█████▌    | 205030/371472 [5:15:39<12:28:04,  3.71it/s] 55%|█████▌    | 205031/371472 [5:15:39<12:45:02,  3.63it/s] 55%|█████▌    | 205032/371472 [5:15:39<13:05:18,  3.53it/s] 55%|█████▌    | 205033/371472 [5:15:39<12:55:25,  3.58it/s] 55%|█████▌    | 205034/371472 [5:15:40<12:34:50,  3.67it/s] 55%|█████▌    | 205035/371472 [5:15:40<12:35:56,  3.67it/s] 55%|█████▌    | 205036/371472 [5:15:40<12:37:32,  3.66it/s] 55%|█████▌    | 205037/371472 [5:15:41<12:44:59,  3.63it/s] 55%|█████▌    | 205038/371472 [5:15:41<12:47:21,  3.61it/s] 55%|█████▌    | 205039/371472 [5:15:41<14:23:15,  3.21it/s] 55%|█████▌    | 205040/371472 [5:15:42<15:09:12,  3.05it/s]                                                            {'loss': 2.9519, 'learning_rate': 5.034476071451658e-07, 'epoch': 8.83}
 55%|█████▌    | 205040/371472 [5:15:42<15:09:12,  3.05it/s] 55%|█████▌    | 205041/371472 [5:15:42<14:12:09,  3.26it/s] 55%|█████▌    | 205042/371472 [5:15:42<13:59:21,  3.30it/s] 55%|█████▌    | 205043/371472 [5:15:42<13:48:12,  3.35it/s] 55%|█████▌    | 205044/371472 [5:15:43<14:12:39,  3.25it/s] 55%|█████▌    | 205045/371472 [5:15:43<13:26:15,  3.44it/s] 55%|█████▌    | 205046/371472 [5:15:43<13:09:28,  3.51it/s] 55%|█████▌    | 205047/371472 [5:15:44<13:08:31,  3.52it/s] 55%|█████▌    | 205048/371472 [5:15:44<13:59:49,  3.30it/s] 55%|█████▌    | 205049/371472 [5:15:44<13:26:44,  3.44it/s] 55%|█████▌    | 205050/371472 [5:15:44<13:15:16,  3.49it/s] 55%|█████▌    | 205051/371472 [5:15:45<12:58:44,  3.56it/s] 55%|█████▌    | 205052/371472 [5:15:45<12:52:42,  3.59it/s] 55%|█████▌    | 205053/371472 [5:15:45<12:50:22,  3.60it/s] 55%|█████▌    | 205054/371472 [5:15:46<12:19:44,  3.75it/s] 55%|█████▌    | 205055/371472 [5:15:46<12:35:19,  3.67it/s] 55%|█████▌    | 205056/371472 [5:15:46<12:41:01,  3.64it/s] 55%|█████▌    | 205057/371472 [5:15:46<12:27:24,  3.71it/s] 55%|█████▌    | 205058/371472 [5:15:47<12:21:35,  3.74it/s] 55%|█████▌    | 205059/371472 [5:15:47<12:42:34,  3.64it/s] 55%|█████▌    | 205060/371472 [5:15:47<14:06:40,  3.28it/s]                                                            {'loss': 2.9783, 'learning_rate': 5.033991251696869e-07, 'epoch': 8.83}
 55%|█████▌    | 205060/371472 [5:15:47<14:06:40,  3.28it/s] 55%|█████▌    | 205061/371472 [5:15:48<13:18:59,  3.47it/s] 55%|█████▌    | 205062/371472 [5:15:48<13:08:43,  3.52it/s] 55%|█████▌    | 205063/371472 [5:15:48<13:51:54,  3.33it/s] 55%|█████▌    | 205064/371472 [5:15:48<14:38:27,  3.16it/s] 55%|█████▌    | 205065/371472 [5:15:49<14:32:01,  3.18it/s] 55%|█████▌    | 205066/371472 [5:15:49<13:42:39,  3.37it/s] 55%|█████▌    | 205067/371472 [5:15:49<13:26:05,  3.44it/s] 55%|█████▌    | 205068/371472 [5:15:50<13:23:09,  3.45it/s] 55%|█████▌    | 205069/371472 [5:15:50<13:29:27,  3.43it/s] 55%|█████▌    | 205070/371472 [5:15:50<13:23:39,  3.45it/s] 55%|█████▌    | 205071/371472 [5:15:51<15:22:19,  3.01it/s] 55%|█████▌    | 205072/371472 [5:15:51<14:35:54,  3.17it/s] 55%|█████▌    | 205073/371472 [5:15:51<14:05:29,  3.28it/s] 55%|█████▌    | 205074/371472 [5:15:51<14:02:18,  3.29it/s] 55%|█████▌    | 205075/371472 [5:15:52<13:30:49,  3.42it/s] 55%|█████▌    | 205076/371472 [5:15:52<12:59:20,  3.56it/s] 55%|█████▌    | 205077/371472 [5:15:52<13:14:11,  3.49it/s] 55%|█████▌    | 205078/371472 [5:15:53<12:58:41,  3.56it/s] 55%|█████▌    | 205079/371472 [5:15:53<12:43:32,  3.63it/s] 55%|█████▌    | 205080/371472 [5:15:53<12:35:42,  3.67it/s]                                                            {'loss': 2.9875, 'learning_rate': 5.03350643194208e-07, 'epoch': 8.83}
 55%|█████▌    | 205080/371472 [5:15:53<12:35:42,  3.67it/s] 55%|█████▌    | 205081/371472 [5:15:53<13:12:56,  3.50it/s] 55%|█████▌    | 205082/371472 [5:15:54<12:43:32,  3.63it/s] 55%|█████▌    | 205083/371472 [5:15:54<13:02:46,  3.54it/s] 55%|█████▌    | 205084/371472 [5:15:54<12:46:44,  3.62it/s] 55%|█████▌    | 205085/371472 [5:15:55<13:12:37,  3.50it/s] 55%|█████▌    | 205086/371472 [5:15:55<12:52:29,  3.59it/s] 55%|█████▌    | 205087/371472 [5:15:55<13:11:23,  3.50it/s] 55%|█████▌    | 205088/371472 [5:15:55<13:07:55,  3.52it/s] 55%|█████▌    | 205089/371472 [5:15:56<12:45:31,  3.62it/s] 55%|█████▌    | 205090/371472 [5:15:56<13:41:47,  3.37it/s] 55%|█████▌    | 205091/371472 [5:15:56<14:11:34,  3.26it/s] 55%|█████▌    | 205092/371472 [5:15:57<13:42:23,  3.37it/s] 55%|█████▌    | 205093/371472 [5:15:57<13:49:10,  3.34it/s] 55%|█████▌    | 205094/371472 [5:15:57<13:46:04,  3.36it/s] 55%|█████▌    | 205095/371472 [5:15:57<13:33:52,  3.41it/s] 55%|█████▌    | 205096/371472 [5:15:58<13:26:23,  3.44it/s] 55%|█████▌    | 205097/371472 [5:15:58<13:03:16,  3.54it/s] 55%|█████▌    | 205098/371472 [5:15:58<12:32:52,  3.68it/s] 55%|█████▌    | 205099/371472 [5:15:59<12:39:22,  3.65it/s] 55%|█████▌    | 205100/371472 [5:15:59<12:35:08,  3.67it/s]                                                            {'loss': 2.9295, 'learning_rate': 5.033021612187291e-07, 'epoch': 8.83}
 55%|█████▌    | 205100/371472 [5:15:59<12:35:08,  3.67it/s] 55%|█████▌    | 205101/371472 [5:15:59<12:25:32,  3.72it/s] 55%|█████▌    | 205102/371472 [5:15:59<12:16:29,  3.76it/s] 55%|█████▌    | 205103/371472 [5:16:00<12:17:42,  3.76it/s] 55%|█████▌    | 205104/371472 [5:16:00<13:37:11,  3.39it/s] 55%|█████▌    | 205105/371472 [5:16:00<13:34:33,  3.40it/s] 55%|█████▌    | 205106/371472 [5:16:01<14:01:59,  3.29it/s] 55%|█████▌    | 205107/371472 [5:16:01<13:33:13,  3.41it/s] 55%|█████▌    | 205108/371472 [5:16:01<12:53:09,  3.59it/s] 55%|█████▌    | 205109/371472 [5:16:01<13:03:45,  3.54it/s] 55%|█████▌    | 205110/371472 [5:16:02<13:02:14,  3.54it/s] 55%|█████▌    | 205111/371472 [5:16:02<13:02:32,  3.54it/s] 55%|█████▌    | 205112/371472 [5:16:02<12:34:32,  3.67it/s] 55%|█████▌    | 205113/371472 [5:16:03<13:18:21,  3.47it/s] 55%|█████▌    | 205114/371472 [5:16:03<14:02:49,  3.29it/s] 55%|█████▌    | 205115/371472 [5:16:03<13:52:07,  3.33it/s] 55%|█████▌    | 205116/371472 [5:16:03<13:40:06,  3.38it/s] 55%|█████▌    | 205117/371472 [5:16:04<13:15:50,  3.48it/s] 55%|█████▌    | 205118/371472 [5:16:04<14:04:07,  3.28it/s] 55%|█████▌    | 205119/371472 [5:16:04<13:19:50,  3.47it/s] 55%|█████▌    | 205120/371472 [5:16:05<12:49:38,  3.60it/s]                                                            {'loss': 2.8076, 'learning_rate': 5.032536792432502e-07, 'epoch': 8.83}
 55%|█████▌    | 205120/371472 [5:16:05<12:49:38,  3.60it/s] 55%|█████▌    | 205121/371472 [5:16:05<12:39:08,  3.65it/s] 55%|█████▌    | 205122/371472 [5:16:05<12:46:48,  3.62it/s] 55%|█████▌    | 205123/371472 [5:16:05<12:35:44,  3.67it/s] 55%|█████▌    | 205124/371472 [5:16:06<12:22:48,  3.73it/s] 55%|█████▌    | 205125/371472 [5:16:06<12:58:49,  3.56it/s] 55%|█████▌    | 205126/371472 [5:16:06<13:45:07,  3.36it/s] 55%|█████▌    | 205127/371472 [5:16:07<13:38:18,  3.39it/s] 55%|█████▌    | 205128/371472 [5:16:07<13:42:35,  3.37it/s] 55%|█████▌    | 205129/371472 [5:16:07<13:22:47,  3.45it/s] 55%|█████▌    | 205130/371472 [5:16:07<13:09:57,  3.51it/s] 55%|█████▌    | 205131/371472 [5:16:08<13:50:29,  3.34it/s] 55%|█████▌    | 205132/371472 [5:16:08<13:36:33,  3.40it/s] 55%|█████▌    | 205133/371472 [5:16:08<13:02:14,  3.54it/s] 55%|█████▌    | 205134/371472 [5:16:09<12:45:33,  3.62it/s] 55%|█████▌    | 205135/371472 [5:16:09<12:22:11,  3.74it/s] 55%|█████▌    | 205136/371472 [5:16:09<12:10:10,  3.80it/s] 55%|█████▌    | 205137/371472 [5:16:09<13:08:35,  3.52it/s] 55%|█████▌    | 205138/371472 [5:16:10<13:27:48,  3.43it/s] 55%|█████▌    | 205139/371472 [5:16:10<12:56:08,  3.57it/s] 55%|█████▌    | 205140/371472 [5:16:10<12:52:44,  3.59it/s]                                                            {'loss': 2.8655, 'learning_rate': 5.032051972677713e-07, 'epoch': 8.84}
 55%|█████▌    | 205140/371472 [5:16:10<12:52:44,  3.59it/s] 55%|█████▌    | 205141/371472 [5:16:11<13:35:18,  3.40it/s] 55%|█████▌    | 205142/371472 [5:16:11<13:41:07,  3.38it/s] 55%|█████▌    | 205143/371472 [5:16:11<13:40:02,  3.38it/s] 55%|█████▌    | 205144/371472 [5:16:11<13:39:21,  3.38it/s] 55%|█████▌    | 205145/371472 [5:16:12<13:02:11,  3.54it/s] 55%|█████▌    | 205146/371472 [5:16:12<13:41:07,  3.38it/s] 55%|█████▌    | 205147/371472 [5:16:12<13:50:31,  3.34it/s] 55%|█████▌    | 205148/371472 [5:16:13<13:41:29,  3.37it/s] 55%|█████▌    | 205149/371472 [5:16:13<13:06:11,  3.53it/s] 55%|█████▌    | 205150/371472 [5:16:13<12:52:09,  3.59it/s] 55%|█████▌    | 205151/371472 [5:16:13<13:02:31,  3.54it/s] 55%|█████▌    | 205152/371472 [5:16:14<13:06:54,  3.52it/s] 55%|█████▌    | 205153/371472 [5:16:14<13:04:02,  3.54it/s] 55%|█████▌    | 205154/371472 [5:16:14<12:48:25,  3.61it/s] 55%|█████▌    | 205155/371472 [5:16:15<12:34:25,  3.67it/s] 55%|█████▌    | 205156/371472 [5:16:15<12:55:33,  3.57it/s] 55%|█████▌    | 205157/371472 [5:16:15<12:43:40,  3.63it/s] 55%|█████▌    | 205158/371472 [5:16:15<12:35:31,  3.67it/s] 55%|█████▌    | 205159/371472 [5:16:16<12:25:46,  3.72it/s] 55%|█████▌    | 205160/371472 [5:16:16<12:36:53,  3.66it/s]                                                            {'loss': 2.9354, 'learning_rate': 5.031567152922924e-07, 'epoch': 8.84}
 55%|█████▌    | 205160/371472 [5:16:16<12:36:53,  3.66it/s] 55%|█████▌    | 205161/371472 [5:16:16<13:51:26,  3.33it/s] 55%|█████▌    | 205162/371472 [5:16:17<13:17:19,  3.48it/s] 55%|█████▌    | 205163/371472 [5:16:17<13:20:12,  3.46it/s] 55%|█████▌    | 205164/371472 [5:16:17<13:33:07,  3.41it/s] 55%|█████▌    | 205165/371472 [5:16:17<13:33:56,  3.41it/s] 55%|█████▌    | 205166/371472 [5:16:18<13:05:32,  3.53it/s] 55%|█████▌    | 205167/371472 [5:16:18<13:31:21,  3.42it/s] 55%|█████▌    | 205168/371472 [5:16:18<13:06:51,  3.52it/s] 55%|█████▌    | 205169/371472 [5:16:19<13:22:38,  3.45it/s] 55%|█████▌    | 205170/371472 [5:16:19<13:14:41,  3.49it/s] 55%|█████▌    | 205171/371472 [5:16:19<12:55:05,  3.58it/s] 55%|█████▌    | 205172/371472 [5:16:19<12:36:16,  3.66it/s] 55%|█████▌    | 205173/371472 [5:16:20<12:26:05,  3.71it/s] 55%|█████▌    | 205174/371472 [5:16:20<15:11:47,  3.04it/s] 55%|█████▌    | 205175/371472 [5:16:20<14:42:14,  3.14it/s] 55%|█████▌    | 205176/371472 [5:16:21<13:59:05,  3.30it/s] 55%|█████▌    | 205177/371472 [5:16:21<13:55:14,  3.32it/s] 55%|█████▌    | 205178/371472 [5:16:21<13:31:07,  3.42it/s] 55%|█████▌    | 205179/371472 [5:16:22<14:00:33,  3.30it/s] 55%|█████▌    | 205180/371472 [5:16:22<13:46:01,  3.36it/s]                                                            {'loss': 2.9346, 'learning_rate': 5.031082333168135e-07, 'epoch': 8.84}
 55%|█████▌    | 205180/371472 [5:16:22<13:46:01,  3.36it/s] 55%|█████▌    | 205181/371472 [5:16:22<13:03:46,  3.54it/s] 55%|█████▌    | 205182/371472 [5:16:22<12:43:27,  3.63it/s] 55%|█████▌    | 205183/371472 [5:16:23<12:30:31,  3.69it/s] 55%|█████▌    | 205184/371472 [5:16:23<13:02:54,  3.54it/s] 55%|█████▌    | 205185/371472 [5:16:23<13:15:53,  3.48it/s] 55%|█████▌    | 205186/371472 [5:16:23<13:11:12,  3.50it/s] 55%|█████▌    | 205187/371472 [5:16:24<13:02:37,  3.54it/s] 55%|█████▌    | 205188/371472 [5:16:24<13:02:15,  3.54it/s] 55%|█████▌    | 205189/371472 [5:16:24<12:51:04,  3.59it/s] 55%|█████▌    | 205190/371472 [5:16:25<13:40:55,  3.38it/s] 55%|█████▌    | 205191/371472 [5:16:25<13:51:06,  3.33it/s] 55%|█████▌    | 205192/371472 [5:16:25<13:05:37,  3.53it/s] 55%|█████▌    | 205193/371472 [5:16:26<13:32:03,  3.41it/s] 55%|█████▌    | 205194/371472 [5:16:26<13:03:09,  3.54it/s] 55%|█████▌    | 205195/371472 [5:16:26<13:20:16,  3.46it/s] 55%|█████▌    | 205196/371472 [5:16:26<13:25:12,  3.44it/s] 55%|█████▌    | 205197/371472 [5:16:27<13:16:06,  3.48it/s] 55%|█████▌    | 205198/371472 [5:16:27<13:35:51,  3.40it/s] 55%|█████▌    | 205199/371472 [5:16:27<13:37:09,  3.39it/s] 55%|█████▌    | 205200/371472 [5:16:28<13:48:13,  3.35it/s]                                                            {'loss': 2.9999, 'learning_rate': 5.030597513413347e-07, 'epoch': 8.84}
 55%|█████▌    | 205200/371472 [5:16:28<13:48:13,  3.35it/s] 55%|█████▌    | 205201/371472 [5:16:28<13:13:04,  3.49it/s] 55%|█████▌    | 205202/371472 [5:16:28<12:54:21,  3.58it/s] 55%|█████▌    | 205203/371472 [5:16:28<13:11:10,  3.50it/s] 55%|█████▌    | 205204/371472 [5:16:29<13:51:02,  3.33it/s] 55%|█████▌    | 205205/371472 [5:16:29<13:54:16,  3.32it/s] 55%|█████▌    | 205206/371472 [5:16:29<13:26:37,  3.44it/s] 55%|█████▌    | 205207/371472 [5:16:30<12:57:21,  3.56it/s] 55%|█████▌    | 205208/371472 [5:16:30<12:47:47,  3.61it/s] 55%|█████▌    | 205209/371472 [5:16:30<12:40:36,  3.64it/s] 55%|█████▌    | 205210/371472 [5:16:30<12:28:18,  3.70it/s] 55%|█████▌    | 205211/371472 [5:16:31<12:25:07,  3.72it/s] 55%|█████▌    | 205212/371472 [5:16:31<11:58:03,  3.86it/s] 55%|█████▌    | 205213/371472 [5:16:31<13:32:51,  3.41it/s] 55%|█████▌    | 205214/371472 [5:16:32<13:55:28,  3.32it/s] 55%|█████▌    | 205215/371472 [5:16:32<13:36:04,  3.40it/s] 55%|█████▌    | 205216/371472 [5:16:32<13:41:43,  3.37it/s] 55%|█████▌    | 205217/371472 [5:16:32<13:18:38,  3.47it/s] 55%|█████▌    | 205218/371472 [5:16:33<13:13:59,  3.49it/s] 55%|█████▌    | 205219/371472 [5:16:33<12:52:00,  3.59it/s] 55%|█████▌    | 205220/371472 [5:16:33<13:30:01,  3.42it/s]                                                            {'loss': 3.103, 'learning_rate': 5.030112693658558e-07, 'epoch': 8.84}
 55%|█████▌    | 205220/371472 [5:16:33<13:30:01,  3.42it/s] 55%|█████▌    | 205221/371472 [5:16:34<13:13:27,  3.49it/s] 55%|█████▌    | 205222/371472 [5:16:34<12:47:29,  3.61it/s] 55%|█████▌    | 205223/371472 [5:16:34<12:42:08,  3.64it/s] 55%|█████▌    | 205224/371472 [5:16:34<12:57:08,  3.57it/s] 55%|█████▌    | 205225/371472 [5:16:35<14:28:48,  3.19it/s] 55%|█████▌    | 205226/371472 [5:16:35<13:49:17,  3.34it/s] 55%|█████▌    | 205227/371472 [5:16:35<13:14:55,  3.49it/s] 55%|█████▌    | 205228/371472 [5:16:36<12:59:49,  3.55it/s] 55%|█████▌    | 205229/371472 [5:16:36<12:33:44,  3.68it/s] 55%|█████▌    | 205230/371472 [5:16:36<12:09:18,  3.80it/s] 55%|█████▌    | 205231/371472 [5:16:36<12:23:15,  3.73it/s] 55%|█████▌    | 205232/371472 [5:16:37<12:02:43,  3.83it/s] 55%|█████▌    | 205233/371472 [5:16:37<12:08:39,  3.80it/s] 55%|█████▌    | 205234/371472 [5:16:37<11:58:39,  3.86it/s] 55%|█████▌    | 205235/371472 [5:16:37<12:02:31,  3.83it/s] 55%|█████▌    | 205236/371472 [5:16:38<12:01:03,  3.84it/s] 55%|█████▌    | 205237/371472 [5:16:38<11:47:39,  3.92it/s] 55%|█████▌    | 205238/371472 [5:16:38<11:53:36,  3.88it/s] 55%|█████▌    | 205239/371472 [5:16:38<12:12:37,  3.78it/s] 55%|█████▌    | 205240/371472 [5:16:39<12:00:07,  3.85it/s]                                                            {'loss': 3.1729, 'learning_rate': 5.029627873903768e-07, 'epoch': 8.84}
 55%|█████▌    | 205240/371472 [5:16:39<12:00:07,  3.85it/s] 55%|█████▌    | 205241/371472 [5:16:39<11:54:18,  3.88it/s] 55%|█████▌    | 205242/371472 [5:16:39<11:51:07,  3.90it/s] 55%|█████▌    | 205243/371472 [5:16:39<11:57:56,  3.86it/s] 55%|█████▌    | 205244/371472 [5:16:40<12:24:47,  3.72it/s] 55%|█████▌    | 205245/371472 [5:16:40<12:59:55,  3.55it/s] 55%|█████▌    | 205246/371472 [5:16:40<13:03:54,  3.53it/s] 55%|█████▌    | 205247/371472 [5:16:41<12:38:08,  3.65it/s] 55%|█████▌    | 205248/371472 [5:16:41<12:12:07,  3.78it/s] 55%|█████▌    | 205249/371472 [5:16:41<12:49:23,  3.60it/s] 55%|█████▌    | 205250/371472 [5:16:41<12:56:13,  3.57it/s] 55%|█████▌    | 205251/371472 [5:16:42<12:52:32,  3.59it/s] 55%|█████▌    | 205252/371472 [5:16:42<13:37:50,  3.39it/s] 55%|█████▌    | 205253/371472 [5:16:42<13:45:17,  3.36it/s] 55%|█████▌    | 205254/371472 [5:16:43<13:00:28,  3.55it/s] 55%|█████▌    | 205255/371472 [5:16:43<12:44:01,  3.63it/s] 55%|█████▌    | 205256/371472 [5:16:43<12:45:42,  3.62it/s] 55%|█████▌    | 205257/371472 [5:16:43<12:32:48,  3.68it/s] 55%|█████▌    | 205258/371472 [5:16:44<12:52:02,  3.59it/s] 55%|█████▌    | 205259/371472 [5:16:44<14:16:37,  3.23it/s] 55%|█████▌    | 205260/371472 [5:16:44<15:09:36,  3.05it/s]                                                            {'loss': 3.2228, 'learning_rate': 5.029143054148979e-07, 'epoch': 8.84}
 55%|█████▌    | 205260/371472 [5:16:44<15:09:36,  3.05it/s] 55%|█████▌    | 205261/371472 [5:16:45<14:27:26,  3.19it/s] 55%|█████▌    | 205262/371472 [5:16:45<13:39:13,  3.38it/s] 55%|█████▌    | 205263/371472 [5:16:45<14:24:31,  3.20it/s] 55%|█████▌    | 205264/371472 [5:16:46<13:26:18,  3.44it/s] 55%|█████▌    | 205265/371472 [5:16:46<13:14:39,  3.49it/s] 55%|█████▌    | 205266/371472 [5:16:46<13:35:05,  3.40it/s] 55%|█████▌    | 205267/371472 [5:16:46<13:24:33,  3.44it/s] 55%|█████▌    | 205268/371472 [5:16:47<14:05:14,  3.28it/s] 55%|█████▌    | 205269/371472 [5:16:47<13:25:03,  3.44it/s] 55%|█████▌    | 205270/371472 [5:16:47<13:07:04,  3.52it/s] 55%|█████▌    | 205271/371472 [5:16:47<12:42:01,  3.64it/s] 55%|█████▌    | 205272/371472 [5:16:48<12:22:40,  3.73it/s] 55%|█████▌    | 205273/371472 [5:16:48<12:32:16,  3.68it/s] 55%|█████▌    | 205274/371472 [5:16:48<12:55:55,  3.57it/s] 55%|█████▌    | 205275/371472 [5:16:49<12:45:59,  3.62it/s] 55%|█████▌    | 205276/371472 [5:16:49<14:06:29,  3.27it/s] 55%|█████▌    | 205277/371472 [5:16:49<13:30:23,  3.42it/s] 55%|█████▌    | 205278/371472 [5:16:50<13:21:53,  3.45it/s] 55%|█████▌    | 205279/371472 [5:16:50<12:45:44,  3.62it/s] 55%|█████▌    | 205280/371472 [5:16:50<12:34:58,  3.67it/s]                                                            {'loss': 2.9994, 'learning_rate': 5.028658234394191e-07, 'epoch': 8.84}
 55%|█████▌    | 205280/371472 [5:16:50<12:34:58,  3.67it/s] 55%|█████▌    | 205281/371472 [5:16:50<12:41:23,  3.64it/s] 55%|█████▌    | 205282/371472 [5:16:51<13:21:16,  3.46it/s] 55%|█████▌    | 205283/371472 [5:16:51<12:50:25,  3.60it/s] 55%|█████▌    | 205284/371472 [5:16:51<12:49:22,  3.60it/s] 55%|█████▌    | 205285/371472 [5:16:51<12:52:59,  3.58it/s] 55%|█████▌    | 205286/371472 [5:16:52<13:39:25,  3.38it/s] 55%|█████▌    | 205287/371472 [5:16:52<13:35:58,  3.39it/s] 55%|█████▌    | 205288/371472 [5:16:52<13:25:22,  3.44it/s] 55%|█████▌    | 205289/371472 [5:16:53<13:07:44,  3.52it/s] 55%|█████▌    | 205290/371472 [5:16:53<13:09:12,  3.51it/s] 55%|█████▌    | 205291/371472 [5:16:53<12:52:27,  3.59it/s] 55%|█████▌    | 205292/371472 [5:16:53<13:10:46,  3.50it/s] 55%|█████▌    | 205293/371472 [5:16:54<12:47:36,  3.61it/s] 55%|█████▌    | 205294/371472 [5:16:54<13:25:37,  3.44it/s] 55%|█████▌    | 205295/371472 [5:16:54<13:33:14,  3.41it/s] 55%|█████▌    | 205296/371472 [5:16:55<13:28:47,  3.42it/s] 55%|█████▌    | 205297/371472 [5:16:55<14:55:11,  3.09it/s] 55%|█████▌    | 205298/371472 [5:16:55<14:48:28,  3.12it/s] 55%|█████▌    | 205299/371472 [5:16:56<15:04:11,  3.06it/s] 55%|█████▌    | 205300/371472 [5:16:56<14:54:17,  3.10it/s]                                                            {'loss': 2.8641, 'learning_rate': 5.028173414639402e-07, 'epoch': 8.84}
 55%|█████▌    | 205300/371472 [5:16:56<14:54:17,  3.10it/s] 55%|█████▌    | 205301/371472 [5:16:56<14:20:24,  3.22it/s] 55%|█████▌    | 205302/371472 [5:16:57<13:45:41,  3.35it/s] 55%|█████▌    | 205303/371472 [5:16:57<13:54:58,  3.32it/s] 55%|█████▌    | 205304/371472 [5:16:57<13:01:15,  3.54it/s] 55%|█████▌    | 205305/371472 [5:16:57<13:07:13,  3.52it/s] 55%|█████▌    | 205306/371472 [5:16:58<12:53:55,  3.58it/s] 55%|█████▌    | 205307/371472 [5:16:58<12:41:37,  3.64it/s] 55%|█████▌    | 205308/371472 [5:16:58<12:09:15,  3.80it/s] 55%|█████▌    | 205309/371472 [5:16:58<12:19:23,  3.75it/s] 55%|█████▌    | 205310/371472 [5:16:59<12:01:28,  3.84it/s] 55%|█████▌    | 205311/371472 [5:16:59<12:18:31,  3.75it/s] 55%|█████▌    | 205312/371472 [5:16:59<12:09:30,  3.80it/s] 55%|█████▌    | 205313/371472 [5:16:59<12:17:57,  3.75it/s] 55%|█████▌    | 205314/371472 [5:17:00<12:22:25,  3.73it/s] 55%|█████▌    | 205315/371472 [5:17:00<12:22:41,  3.73it/s] 55%|█████▌    | 205316/371472 [5:17:00<12:14:24,  3.77it/s] 55%|█████▌    | 205317/371472 [5:17:01<13:20:38,  3.46it/s] 55%|█████▌    | 205318/371472 [5:17:01<14:30:49,  3.18it/s] 55%|█████▌    | 205319/371472 [5:17:01<14:23:13,  3.21it/s] 55%|█████▌    | 205320/371472 [5:17:02<13:49:25,  3.34it/s]                                                            {'loss': 2.9608, 'learning_rate': 5.027688594884613e-07, 'epoch': 8.84}
 55%|█████▌    | 205320/371472 [5:17:02<13:49:25,  3.34it/s] 55%|█████▌    | 205321/371472 [5:17:02<13:53:37,  3.32it/s] 55%|█████▌    | 205322/371472 [5:17:02<13:59:21,  3.30it/s] 55%|█████▌    | 205323/371472 [5:17:02<13:57:38,  3.31it/s] 55%|█████▌    | 205324/371472 [5:17:03<14:09:05,  3.26it/s] 55%|█████▌    | 205325/371472 [5:17:03<13:57:31,  3.31it/s] 55%|█████▌    | 205326/371472 [5:17:03<13:47:11,  3.35it/s] 55%|█████▌    | 205327/371472 [5:17:04<13:33:28,  3.40it/s] 55%|█████▌    | 205328/371472 [5:17:04<13:34:53,  3.40it/s] 55%|█████▌    | 205329/371472 [5:17:04<13:26:58,  3.43it/s] 55%|█████▌    | 205330/371472 [5:17:05<13:02:18,  3.54it/s] 55%|█████▌    | 205331/371472 [5:17:05<13:10:54,  3.50it/s] 55%|█████▌    | 205332/371472 [5:17:05<12:39:31,  3.65it/s] 55%|█████▌    | 205333/371472 [5:17:05<13:27:00,  3.43it/s] 55%|█████▌    | 205334/371472 [5:17:06<12:46:54,  3.61it/s] 55%|█████▌    | 205335/371472 [5:17:06<12:45:02,  3.62it/s] 55%|█████▌    | 205336/371472 [5:17:06<12:31:16,  3.69it/s] 55%|█████▌    | 205337/371472 [5:17:06<12:48:57,  3.60it/s] 55%|█████▌    | 205338/371472 [5:17:07<12:36:47,  3.66it/s] 55%|█████▌    | 205339/371472 [5:17:07<12:44:26,  3.62it/s] 55%|█████▌    | 205340/371472 [5:17:07<12:49:30,  3.60it/s]                                                            {'loss': 2.9097, 'learning_rate': 5.027203775129823e-07, 'epoch': 8.84}
 55%|█████▌    | 205340/371472 [5:17:07<12:49:30,  3.60it/s] 55%|█████▌    | 205341/371472 [5:17:08<12:25:57,  3.71it/s] 55%|█████▌    | 205342/371472 [5:17:08<12:18:21,  3.75it/s] 55%|█████▌    | 205343/371472 [5:17:08<12:21:04,  3.74it/s] 55%|█████▌    | 205344/371472 [5:17:08<12:53:55,  3.58it/s] 55%|█████▌    | 205345/371472 [5:17:09<12:41:01,  3.64it/s] 55%|█████▌    | 205346/371472 [5:17:09<12:47:20,  3.61it/s] 55%|█████▌    | 205347/371472 [5:17:09<12:22:59,  3.73it/s] 55%|█████▌    | 205348/371472 [5:17:09<12:50:37,  3.59it/s] 55%|█████▌    | 205349/371472 [5:17:10<12:57:21,  3.56it/s] 55%|█████▌    | 205350/371472 [5:17:10<12:51:54,  3.59it/s] 55%|█████▌    | 205351/371472 [5:17:10<12:37:44,  3.65it/s] 55%|█████▌    | 205352/371472 [5:17:11<13:02:22,  3.54it/s] 55%|█████▌    | 205353/371472 [5:17:11<13:11:04,  3.50it/s] 55%|█████▌    | 205354/371472 [5:17:11<13:13:33,  3.49it/s] 55%|█████▌    | 205355/371472 [5:17:11<13:13:01,  3.49it/s] 55%|█████▌    | 205356/371472 [5:17:12<12:59:05,  3.55it/s] 55%|█████▌    | 205357/371472 [5:17:12<12:52:55,  3.58it/s] 55%|█████▌    | 205358/371472 [5:17:12<12:45:07,  3.62it/s] 55%|█████▌    | 205359/371472 [5:17:13<12:39:34,  3.64it/s] 55%|█████▌    | 205360/371472 [5:17:13<12:31:27,  3.68it/s]                                                            {'loss': 2.9766, 'learning_rate': 5.026718955375035e-07, 'epoch': 8.85}
 55%|█████▌    | 205360/371472 [5:17:13<12:31:27,  3.68it/s] 55%|█████▌    | 205361/371472 [5:17:13<12:18:39,  3.75it/s] 55%|█████▌    | 205362/371472 [5:17:13<12:36:09,  3.66it/s] 55%|█████▌    | 205363/371472 [5:17:14<12:29:21,  3.69it/s] 55%|█████▌    | 205364/371472 [5:17:14<13:22:49,  3.45it/s] 55%|█████▌    | 205365/371472 [5:17:14<13:11:52,  3.50it/s] 55%|█████▌    | 205366/371472 [5:17:14<12:50:16,  3.59it/s] 55%|█████▌    | 205367/371472 [5:17:15<12:35:08,  3.67it/s] 55%|█████▌    | 205368/371472 [5:17:15<13:19:45,  3.46it/s] 55%|█████▌    | 205369/371472 [5:17:15<14:23:01,  3.21it/s] 55%|█████▌    | 205370/371472 [5:17:16<14:48:44,  3.11it/s] 55%|█████▌    | 205371/371472 [5:17:16<14:45:09,  3.13it/s] 55%|█████▌    | 205372/371472 [5:17:16<14:46:36,  3.12it/s] 55%|█████▌    | 205373/371472 [5:17:17<14:19:05,  3.22it/s] 55%|█████▌    | 205374/371472 [5:17:17<14:05:20,  3.27it/s] 55%|█████▌    | 205375/371472 [5:17:17<13:46:20,  3.35it/s] 55%|█████▌    | 205376/371472 [5:17:18<13:28:15,  3.42it/s] 55%|█████▌    | 205377/371472 [5:17:18<13:09:34,  3.51it/s] 55%|█████▌    | 205378/371472 [5:17:18<13:06:50,  3.52it/s] 55%|█████▌    | 205379/371472 [5:17:18<13:42:49,  3.36it/s] 55%|█████▌    | 205380/371472 [5:17:19<14:05:28,  3.27it/s]                                                            {'loss': 3.0569, 'learning_rate': 5.026234135620245e-07, 'epoch': 8.85}
 55%|█████▌    | 205380/371472 [5:17:19<14:05:28,  3.27it/s] 55%|█████▌    | 205381/371472 [5:17:19<13:26:28,  3.43it/s] 55%|█████▌    | 205382/371472 [5:17:19<13:01:25,  3.54it/s] 55%|█████▌    | 205383/371472 [5:17:20<12:31:44,  3.68it/s] 55%|█████▌    | 205384/371472 [5:17:20<12:15:35,  3.76it/s] 55%|█████▌    | 205385/371472 [5:17:20<12:28:21,  3.70it/s] 55%|█████▌    | 205386/371472 [5:17:20<12:48:20,  3.60it/s] 55%|█████▌    | 205387/371472 [5:17:21<12:34:46,  3.67it/s] 55%|█████▌    | 205388/371472 [5:17:21<12:25:16,  3.71it/s] 55%|█████▌    | 205389/371472 [5:17:21<12:56:02,  3.57it/s] 55%|█████▌    | 205390/371472 [5:17:21<12:31:11,  3.68it/s] 55%|█████▌    | 205391/371472 [5:17:22<13:16:41,  3.47it/s] 55%|█████▌    | 205392/371472 [5:17:22<12:36:57,  3.66it/s] 55%|█████▌    | 205393/371472 [5:17:22<12:12:18,  3.78it/s] 55%|█████▌    | 205394/371472 [5:17:22<11:47:22,  3.91it/s] 55%|█████▌    | 205395/371472 [5:17:23<12:51:52,  3.59it/s] 55%|█████▌    | 205396/371472 [5:17:23<13:32:16,  3.41it/s] 55%|█████▌    | 205397/371472 [5:17:24<16:04:48,  2.87it/s] 55%|█████▌    | 205398/371472 [5:17:24<14:40:15,  3.14it/s] 55%|█████▌    | 205399/371472 [5:17:24<13:39:35,  3.38it/s] 55%|█████▌    | 205400/371472 [5:17:24<13:17:46,  3.47it/s]                                                            {'loss': 2.833, 'learning_rate': 5.025749315865457e-07, 'epoch': 8.85}
 55%|█████▌    | 205400/371472 [5:17:24<13:17:46,  3.47it/s] 55%|█████▌    | 205401/371472 [5:17:25<15:02:09,  3.07it/s] 55%|█████▌    | 205402/371472 [5:17:25<14:28:24,  3.19it/s] 55%|█████▌    | 205403/371472 [5:17:25<14:25:43,  3.20it/s] 55%|█████▌    | 205404/371472 [5:17:26<14:06:50,  3.27it/s] 55%|█████▌    | 205405/371472 [5:17:26<13:59:33,  3.30it/s] 55%|█████▌    | 205406/371472 [5:17:26<13:29:53,  3.42it/s] 55%|█████▌    | 205407/371472 [5:17:27<16:24:06,  2.81it/s] 55%|█████▌    | 205408/371472 [5:17:27<15:26:46,  2.99it/s] 55%|█████▌    | 205409/371472 [5:17:27<14:38:07,  3.15it/s] 55%|█████▌    | 205410/371472 [5:17:28<14:30:45,  3.18it/s] 55%|█████▌    | 205411/371472 [5:17:28<13:45:23,  3.35it/s] 55%|█████▌    | 205412/371472 [5:17:28<13:14:48,  3.48it/s] 55%|█████▌    | 205413/371472 [5:17:28<12:32:20,  3.68it/s] 55%|█████▌    | 205414/371472 [5:17:29<12:46:55,  3.61it/s] 55%|█████▌    | 205415/371472 [5:17:29<12:37:07,  3.66it/s] 55%|█████▌    | 205416/371472 [5:17:29<13:24:06,  3.44it/s] 55%|█████▌    | 205417/371472 [5:17:30<14:04:12,  3.28it/s] 55%|█████▌    | 205418/371472 [5:17:30<14:00:50,  3.29it/s] 55%|█████▌    | 205419/371472 [5:17:30<14:37:34,  3.15it/s] 55%|█████▌    | 205420/371472 [5:17:31<13:58:06,  3.30it/s]                                                            {'loss': 3.0126, 'learning_rate': 5.025264496110668e-07, 'epoch': 8.85}
 55%|█████▌    | 205420/371472 [5:17:31<13:58:06,  3.30it/s] 55%|█████▌    | 205421/371472 [5:17:31<13:38:11,  3.38it/s] 55%|█████▌    | 205422/371472 [5:17:31<13:12:13,  3.49it/s] 55%|█████▌    | 205423/371472 [5:17:31<13:14:45,  3.48it/s] 55%|█████▌    | 205424/371472 [5:17:32<13:27:47,  3.43it/s] 55%|█████▌    | 205425/371472 [5:17:32<13:55:09,  3.31it/s] 55%|█████▌    | 205426/371472 [5:17:32<14:48:35,  3.11it/s] 55%|█████▌    | 205427/371472 [5:17:33<14:03:53,  3.28it/s] 55%|█████▌    | 205428/371472 [5:17:33<13:49:08,  3.34it/s] 55%|█████▌    | 205429/371472 [5:17:33<13:28:51,  3.42it/s] 55%|█████▌    | 205430/371472 [5:17:33<13:15:45,  3.48it/s] 55%|█████▌    | 205431/371472 [5:17:34<12:51:53,  3.59it/s] 55%|█████▌    | 205432/371472 [5:17:34<13:26:57,  3.43it/s] 55%|█████▌    | 205433/371472 [5:17:34<13:13:34,  3.49it/s] 55%|█████▌    | 205434/371472 [5:17:35<12:56:14,  3.56it/s] 55%|█████▌    | 205435/371472 [5:17:35<12:41:51,  3.63it/s] 55%|█████▌    | 205436/371472 [5:17:35<12:57:14,  3.56it/s] 55%|█████▌    | 205437/371472 [5:17:35<12:37:33,  3.65it/s] 55%|█████▌    | 205438/371472 [5:17:36<12:48:55,  3.60it/s] 55%|█████▌    | 205439/371472 [5:17:36<12:25:26,  3.71it/s] 55%|█████▌    | 205440/371472 [5:17:36<13:02:52,  3.53it/s]                                                            {'loss': 3.0511, 'learning_rate': 5.024779676355881e-07, 'epoch': 8.85}
 55%|█████▌    | 205440/371472 [5:17:36<13:02:52,  3.53it/s] 55%|█████▌    | 205441/371472 [5:17:37<12:57:17,  3.56it/s] 55%|█████▌    | 205442/371472 [5:17:37<13:06:43,  3.52it/s] 55%|█████▌    | 205443/371472 [5:17:37<12:45:26,  3.62it/s] 55%|█████▌    | 205444/371472 [5:17:37<12:39:04,  3.65it/s] 55%|█████▌    | 205445/371472 [5:17:38<13:13:37,  3.49it/s] 55%|█████▌    | 205446/371472 [5:17:38<12:56:56,  3.56it/s] 55%|█████▌    | 205447/371472 [5:17:38<12:34:51,  3.67it/s] 55%|█████▌    | 205448/371472 [5:17:38<12:33:01,  3.67it/s] 55%|█████▌    | 205449/371472 [5:17:39<12:35:28,  3.66it/s] 55%|█████▌    | 205450/371472 [5:17:39<12:17:00,  3.75it/s] 55%|█████▌    | 205451/371472 [5:17:39<12:02:32,  3.83it/s] 55%|█████▌    | 205452/371472 [5:17:39<12:19:19,  3.74it/s] 55%|█████▌    | 205453/371472 [5:17:40<13:41:25,  3.37it/s] 55%|█████▌    | 205454/371472 [5:17:40<13:18:31,  3.47it/s] 55%|█████▌    | 205455/371472 [5:17:40<13:05:19,  3.52it/s] 55%|█████▌    | 205456/371472 [5:17:41<13:09:01,  3.51it/s] 55%|█████▌    | 205457/371472 [5:17:41<12:49:54,  3.59it/s] 55%|█████▌    | 205458/371472 [5:17:41<12:42:26,  3.63it/s] 55%|█████▌    | 205459/371472 [5:17:42<13:37:20,  3.39it/s] 55%|█████▌    | 205460/371472 [5:17:42<13:07:47,  3.51it/s]                                                            {'loss': 3.0765, 'learning_rate': 5.02429485660109e-07, 'epoch': 8.85}
 55%|█████▌    | 205460/371472 [5:17:42<13:07:47,  3.51it/s] 55%|█████▌    | 205461/371472 [5:17:42<12:59:36,  3.55it/s] 55%|█████▌    | 205462/371472 [5:17:42<12:51:36,  3.59it/s] 55%|█████▌    | 205463/371472 [5:17:43<12:33:16,  3.67it/s] 55%|█████▌    | 205464/371472 [5:17:43<12:27:37,  3.70it/s] 55%|█████▌    | 205465/371472 [5:17:43<12:22:25,  3.73it/s] 55%|█████▌    | 205466/371472 [5:17:43<12:19:27,  3.74it/s] 55%|█████▌    | 205467/371472 [5:17:44<12:05:34,  3.81it/s] 55%|█████▌    | 205468/371472 [5:17:44<12:37:17,  3.65it/s] 55%|█████▌    | 205469/371472 [5:17:44<13:11:10,  3.50it/s] 55%|█████▌    | 205470/371472 [5:17:45<12:53:50,  3.58it/s] 55%|█████▌    | 205471/371472 [5:17:45<12:49:36,  3.59it/s] 55%|█████▌    | 205472/371472 [5:17:45<12:30:56,  3.68it/s] 55%|█████▌    | 205473/371472 [5:17:45<12:20:47,  3.73it/s] 55%|█████▌    | 205474/371472 [5:17:46<12:09:17,  3.79it/s] 55%|█████▌    | 205475/371472 [5:17:46<11:59:41,  3.84it/s] 55%|█████▌    | 205476/371472 [5:17:46<13:07:02,  3.52it/s] 55%|█████▌    | 205477/371472 [5:17:47<15:41:06,  2.94it/s] 55%|█████▌    | 205478/371472 [5:17:47<15:19:36,  3.01it/s] 55%|█████▌    | 205479/371472 [5:17:47<14:23:00,  3.21it/s] 55%|█████▌    | 205480/371472 [5:17:48<14:16:28,  3.23it/s]                                                            {'loss': 3.113, 'learning_rate': 5.023810036846301e-07, 'epoch': 8.85}
 55%|█████▌    | 205480/371472 [5:17:48<14:16:28,  3.23it/s] 55%|█████▌    | 205481/371472 [5:17:48<13:57:20,  3.30it/s] 55%|█████▌    | 205482/371472 [5:17:48<14:39:38,  3.15it/s] 55%|█████▌    | 205483/371472 [5:17:48<13:40:39,  3.37it/s] 55%|█████▌    | 205484/371472 [5:17:49<13:50:18,  3.33it/s] 55%|█████▌    | 205485/371472 [5:17:49<13:14:10,  3.48it/s] 55%|█████▌    | 205486/371472 [5:17:49<12:52:52,  3.58it/s] 55%|█████▌    | 205487/371472 [5:17:50<12:48:03,  3.60it/s] 55%|█████▌    | 205488/371472 [5:17:50<12:26:22,  3.71it/s] 55%|█████▌    | 205489/371472 [5:17:50<12:50:25,  3.59it/s] 55%|█████▌    | 205490/371472 [5:17:50<12:17:50,  3.75it/s] 55%|█████▌    | 205491/371472 [5:17:51<12:37:26,  3.65it/s] 55%|█████▌    | 205492/371472 [5:17:51<13:05:23,  3.52it/s] 55%|█████▌    | 205493/371472 [5:17:51<12:39:48,  3.64it/s] 55%|█████▌    | 205494/371472 [5:17:51<12:16:57,  3.75it/s] 55%|█████▌    | 205495/371472 [5:17:52<12:34:52,  3.66it/s] 55%|█████▌    | 205496/371472 [5:17:52<12:50:06,  3.59it/s] 55%|█████▌    | 205497/371472 [5:17:52<12:56:24,  3.56it/s] 55%|█████▌    | 205498/371472 [5:17:53<12:42:21,  3.63it/s] 55%|█████▌    | 205499/371472 [5:17:53<12:45:41,  3.61it/s] 55%|█████▌    | 205500/371472 [5:17:53<12:55:08,  3.57it/s]                                                            {'loss': 2.9886, 'learning_rate': 5.023325217091512e-07, 'epoch': 8.85}
 55%|█████▌    | 205500/371472 [5:17:53<12:55:08,  3.57it/s] 55%|█████▌    | 205501/371472 [5:17:53<12:38:17,  3.65it/s] 55%|█████▌    | 205502/371472 [5:17:54<12:39:18,  3.64it/s] 55%|█████▌    | 205503/371472 [5:17:54<12:30:24,  3.69it/s] 55%|█████▌    | 205504/371472 [5:17:54<12:56:50,  3.56it/s] 55%|█████▌    | 205505/371472 [5:17:54<12:45:39,  3.61it/s] 55%|█████▌    | 205506/371472 [5:17:55<12:56:06,  3.56it/s] 55%|█████▌    | 205507/371472 [5:17:55<13:30:19,  3.41it/s] 55%|█████▌    | 205508/371472 [5:17:55<13:25:35,  3.43it/s] 55%|█████▌    | 205509/371472 [5:17:56<12:54:41,  3.57it/s] 55%|█████▌    | 205510/371472 [5:17:56<13:20:09,  3.46it/s] 55%|█████▌    | 205511/371472 [5:17:56<12:59:07,  3.55it/s] 55%|█████▌    | 205512/371472 [5:17:56<12:56:26,  3.56it/s] 55%|█████▌    | 205513/371472 [5:17:57<14:13:18,  3.24it/s] 55%|█████▌    | 205514/371472 [5:17:57<15:40:42,  2.94it/s] 55%|█████▌    | 205515/371472 [5:17:58<14:18:38,  3.22it/s] 55%|█████▌    | 205516/371472 [5:17:58<14:24:37,  3.20it/s] 55%|█████▌    | 205517/371472 [5:17:58<13:35:21,  3.39it/s] 55%|█████▌    | 205518/371472 [5:17:58<13:34:49,  3.39it/s] 55%|█████▌    | 205519/371472 [5:17:59<13:21:50,  3.45it/s] 55%|█████▌    | 205520/371472 [5:17:59<13:18:47,  3.46it/s]                                                            {'loss': 2.9244, 'learning_rate': 5.022840397336723e-07, 'epoch': 8.85}
 55%|█████▌    | 205520/371472 [5:17:59<13:18:47,  3.46it/s] 55%|█████▌    | 205521/371472 [5:17:59<13:28:27,  3.42it/s] 55%|█████▌    | 205522/371472 [5:18:00<13:03:42,  3.53it/s] 55%|█████▌    | 205523/371472 [5:18:00<12:38:16,  3.65it/s] 55%|█████▌    | 205524/371472 [5:18:00<12:48:19,  3.60it/s] 55%|█████▌    | 205525/371472 [5:18:00<12:44:17,  3.62it/s] 55%|█████▌    | 205526/371472 [5:18:01<12:23:25,  3.72it/s] 55%|█████▌    | 205527/371472 [5:18:01<12:49:41,  3.59it/s] 55%|█████▌    | 205528/371472 [5:18:01<12:59:24,  3.55it/s] 55%|█████▌    | 205529/371472 [5:18:01<12:49:36,  3.59it/s] 55%|█████▌    | 205530/371472 [5:18:02<12:58:33,  3.55it/s] 55%|█████▌    | 205531/371472 [5:18:02<14:11:32,  3.25it/s] 55%|█████▌    | 205532/371472 [5:18:02<13:45:05,  3.35it/s] 55%|█████▌    | 205533/371472 [5:18:03<13:24:37,  3.44it/s] 55%|█████▌    | 205534/371472 [5:18:03<13:20:34,  3.45it/s] 55%|█████▌    | 205535/371472 [5:18:03<12:36:57,  3.65it/s] 55%|█████▌    | 205536/371472 [5:18:03<12:32:20,  3.68it/s] 55%|█████▌    | 205537/371472 [5:18:04<13:19:01,  3.46it/s] 55%|█████▌    | 205538/371472 [5:18:04<13:19:03,  3.46it/s] 55%|█████▌    | 205539/371472 [5:18:04<12:49:26,  3.59it/s] 55%|█████▌    | 205540/371472 [5:18:05<12:41:09,  3.63it/s]                                                            {'loss': 2.8312, 'learning_rate': 5.022355577581934e-07, 'epoch': 8.85}
 55%|█████▌    | 205540/371472 [5:18:05<12:41:09,  3.63it/s] 55%|█████▌    | 205541/371472 [5:18:05<12:59:38,  3.55it/s] 55%|█████▌    | 205542/371472 [5:18:05<12:49:27,  3.59it/s] 55%|█████▌    | 205543/371472 [5:18:05<12:28:35,  3.69it/s] 55%|█████▌    | 205544/371472 [5:18:06<12:27:05,  3.70it/s] 55%|█████▌    | 205545/371472 [5:18:06<12:19:56,  3.74it/s] 55%|█████▌    | 205546/371472 [5:18:06<12:34:12,  3.67it/s] 55%|█████▌    | 205547/371472 [5:18:07<12:53:25,  3.58it/s] 55%|█████▌    | 205548/371472 [5:18:07<13:33:39,  3.40it/s] 55%|█████▌    | 205549/371472 [5:18:07<13:59:53,  3.29it/s] 55%|█████▌    | 205550/371472 [5:18:07<14:01:04,  3.29it/s] 55%|█████▌    | 205551/371472 [5:18:08<14:06:15,  3.27it/s] 55%|█████▌    | 205552/371472 [5:18:08<13:35:27,  3.39it/s] 55%|█████▌    | 205553/371472 [5:18:08<13:06:44,  3.51it/s] 55%|█████▌    | 205554/371472 [5:18:09<12:55:30,  3.57it/s] 55%|█████▌    | 205555/371472 [5:18:09<14:58:39,  3.08it/s] 55%|█████▌    | 205556/371472 [5:18:09<14:40:59,  3.14it/s] 55%|█████▌    | 205557/371472 [5:18:10<13:42:00,  3.36it/s] 55%|█████▌    | 205558/371472 [5:18:10<13:27:44,  3.42it/s] 55%|█████▌    | 205559/371472 [5:18:10<13:26:43,  3.43it/s] 55%|█████▌    | 205560/371472 [5:18:10<13:59:52,  3.29it/s]                                                            {'loss': 2.9563, 'learning_rate': 5.021870757827145e-07, 'epoch': 8.85}
 55%|█████▌    | 205560/371472 [5:18:10<13:59:52,  3.29it/s] 55%|█████▌    | 205561/371472 [5:18:11<13:59:01,  3.30it/s] 55%|█████▌    | 205562/371472 [5:18:11<13:59:35,  3.29it/s] 55%|█████▌    | 205563/371472 [5:18:11<13:29:10,  3.42it/s] 55%|█████▌    | 205564/371472 [5:18:12<13:42:21,  3.36it/s] 55%|█████▌    | 205565/371472 [5:18:12<13:03:14,  3.53it/s] 55%|█████▌    | 205566/371472 [5:18:12<12:39:34,  3.64it/s] 55%|█████▌    | 205567/371472 [5:18:12<12:56:31,  3.56it/s] 55%|█████▌    | 205568/371472 [5:18:13<13:02:20,  3.53it/s] 55%|█████▌    | 205569/371472 [5:18:13<13:52:18,  3.32it/s] 55%|█████▌    | 205570/371472 [5:18:13<14:17:18,  3.23it/s] 55%|█████▌    | 205571/371472 [5:18:14<13:39:45,  3.37it/s] 55%|█████▌    | 205572/371472 [5:18:14<13:27:22,  3.42it/s] 55%|█████▌    | 205573/371472 [5:18:14<13:22:18,  3.45it/s] 55%|█████▌    | 205574/371472 [5:18:15<13:00:18,  3.54it/s] 55%|█████▌    | 205575/371472 [5:18:15<13:17:16,  3.47it/s] 55%|█████▌    | 205576/371472 [5:18:15<13:04:25,  3.52it/s] 55%|█████▌    | 205577/371472 [5:18:15<13:17:31,  3.47it/s] 55%|█████▌    | 205578/371472 [5:18:16<13:13:35,  3.48it/s] 55%|█████▌    | 205579/371472 [5:18:16<13:00:02,  3.54it/s] 55%|█████▌    | 205580/371472 [5:18:16<12:33:04,  3.67it/s]                                                            {'loss': 2.8804, 'learning_rate': 5.021385938072357e-07, 'epoch': 8.85}
 55%|█████▌    | 205580/371472 [5:18:16<12:33:04,  3.67it/s] 55%|█████▌    | 205581/371472 [5:18:16<12:26:06,  3.71it/s] 55%|█████▌    | 205582/371472 [5:18:17<13:12:43,  3.49it/s] 55%|█████▌    | 205583/371472 [5:18:17<12:59:16,  3.55it/s] 55%|█████▌    | 205584/371472 [5:18:17<12:44:10,  3.62it/s] 55%|█████▌    | 205585/371472 [5:18:18<14:07:21,  3.26it/s] 55%|█████▌    | 205586/371472 [5:18:18<14:15:24,  3.23it/s] 55%|█████▌    | 205587/371472 [5:18:18<14:17:28,  3.22it/s] 55%|█████▌    | 205588/371472 [5:18:19<13:31:53,  3.41it/s] 55%|█████▌    | 205589/371472 [5:18:19<12:59:22,  3.55it/s] 55%|█████▌    | 205590/371472 [5:18:19<12:46:36,  3.61it/s] 55%|█████▌    | 205591/371472 [5:18:19<12:25:31,  3.71it/s] 55%|█████▌    | 205592/371472 [5:18:20<12:17:31,  3.75it/s] 55%|█████▌    | 205593/371472 [5:18:20<13:03:48,  3.53it/s] 55%|█████▌    | 205594/371472 [5:18:20<13:36:59,  3.38it/s] 55%|█████▌    | 205595/371472 [5:18:21<13:06:27,  3.52it/s] 55%|█████▌    | 205596/371472 [5:18:21<13:01:43,  3.54it/s] 55%|█████▌    | 205597/371472 [5:18:21<13:18:02,  3.46it/s] 55%|█████▌    | 205598/371472 [5:18:21<14:13:08,  3.24it/s] 55%|█████▌    | 205599/371472 [5:18:22<13:33:18,  3.40it/s] 55%|█████▌    | 205600/371472 [5:18:22<14:05:30,  3.27it/s]                                                            {'loss': 2.8085, 'learning_rate': 5.020901118317568e-07, 'epoch': 8.86}
 55%|█████▌    | 205600/371472 [5:18:22<14:05:30,  3.27it/s] 55%|█████▌    | 205601/371472 [5:18:22<13:20:56,  3.45it/s] 55%|█████▌    | 205602/371472 [5:18:23<12:53:57,  3.57it/s] 55%|█████▌    | 205603/371472 [5:18:23<12:56:49,  3.56it/s] 55%|█████▌    | 205604/371472 [5:18:23<12:23:24,  3.72it/s] 55%|█████▌    | 205605/371472 [5:18:23<12:51:59,  3.58it/s] 55%|█████▌    | 205606/371472 [5:18:24<12:54:12,  3.57it/s] 55%|█████▌    | 205607/371472 [5:18:24<12:37:06,  3.65it/s] 55%|█████▌    | 205608/371472 [5:18:24<12:43:21,  3.62it/s] 55%|█████▌    | 205609/371472 [5:18:24<12:55:17,  3.57it/s] 55%|█████▌    | 205610/371472 [5:18:25<13:03:40,  3.53it/s] 55%|█████▌    | 205611/371472 [5:18:25<12:54:35,  3.57it/s] 55%|█████▌    | 205612/371472 [5:18:25<12:53:33,  3.57it/s] 55%|█████▌    | 205613/371472 [5:18:26<13:49:02,  3.33it/s] 55%|█████▌    | 205614/371472 [5:18:26<13:59:09,  3.29it/s] 55%|█████▌    | 205615/371472 [5:18:26<13:45:12,  3.35it/s] 55%|█████▌    | 205616/371472 [5:18:27<13:45:26,  3.35it/s] 55%|█████▌    | 205617/371472 [5:18:27<13:54:06,  3.31it/s] 55%|█████▌    | 205618/371472 [5:18:27<13:20:36,  3.45it/s] 55%|█████▌    | 205619/371472 [5:18:27<13:24:46,  3.43it/s] 55%|█████▌    | 205620/371472 [5:18:28<12:57:17,  3.56it/s]                                                            {'loss': 2.8944, 'learning_rate': 5.020416298562778e-07, 'epoch': 8.86}
 55%|█████▌    | 205620/371472 [5:18:28<12:57:17,  3.56it/s] 55%|█████▌    | 205621/371472 [5:18:28<13:02:59,  3.53it/s] 55%|█████▌    | 205622/371472 [5:18:28<14:17:02,  3.23it/s] 55%|█████▌    | 205623/371472 [5:18:29<14:29:51,  3.18it/s] 55%|█████▌    | 205624/371472 [5:18:29<14:05:06,  3.27it/s] 55%|█████▌    | 205625/371472 [5:18:29<13:50:08,  3.33it/s] 55%|█████▌    | 205626/371472 [5:18:30<13:34:10,  3.40it/s] 55%|█████▌    | 205627/371472 [5:18:30<13:39:32,  3.37it/s] 55%|█████▌    | 205628/371472 [5:18:30<13:26:33,  3.43it/s] 55%|█████▌    | 205629/371472 [5:18:30<13:33:18,  3.40it/s] 55%|█████▌    | 205630/371472 [5:18:31<13:51:37,  3.32it/s] 55%|█████▌    | 205631/371472 [5:18:31<13:17:22,  3.47it/s] 55%|█████▌    | 205632/371472 [5:18:31<13:02:05,  3.53it/s] 55%|█████▌    | 205633/371472 [5:18:32<12:41:21,  3.63it/s] 55%|█████▌    | 205634/371472 [5:18:32<12:14:09,  3.76it/s] 55%|█████▌    | 205635/371472 [5:18:32<12:13:44,  3.77it/s] 55%|█████▌    | 205636/371472 [5:18:32<13:09:01,  3.50it/s] 55%|█████▌    | 205637/371472 [5:18:33<12:59:05,  3.55it/s] 55%|█████▌    | 205638/371472 [5:18:33<12:54:00,  3.57it/s] 55%|█████▌    | 205639/371472 [5:18:33<12:58:37,  3.55it/s] 55%|█████▌    | 205640/371472 [5:18:33<13:05:49,  3.52it/s]                                                            {'loss': 2.9177, 'learning_rate': 5.019931478807989e-07, 'epoch': 8.86}
 55%|█████▌    | 205640/371472 [5:18:33<13:05:49,  3.52it/s] 55%|█████▌    | 205641/371472 [5:18:34<12:35:09,  3.66it/s] 55%|█████▌    | 205642/371472 [5:18:34<12:22:04,  3.72it/s] 55%|█████▌    | 205643/371472 [5:18:34<12:11:52,  3.78it/s] 55%|█████▌    | 205644/371472 [5:18:35<12:28:37,  3.69it/s] 55%|█████▌    | 205645/371472 [5:18:35<13:16:03,  3.47it/s] 55%|█████▌    | 205646/371472 [5:18:35<13:05:36,  3.52it/s] 55%|█████▌    | 205647/371472 [5:18:35<13:30:45,  3.41it/s] 55%|█████▌    | 205648/371472 [5:18:36<14:05:29,  3.27it/s] 55%|█████▌    | 205649/371472 [5:18:36<14:08:04,  3.26it/s] 55%|█████▌    | 205650/371472 [5:18:36<13:39:11,  3.37it/s] 55%|█████▌    | 205651/371472 [5:18:37<12:51:47,  3.58it/s] 55%|█████▌    | 205652/371472 [5:18:37<12:58:30,  3.55it/s] 55%|█████▌    | 205653/371472 [5:18:37<14:17:41,  3.22it/s] 55%|█████▌    | 205654/371472 [5:18:38<14:05:10,  3.27it/s] 55%|█████▌    | 205655/371472 [5:18:38<13:20:57,  3.45it/s] 55%|█████▌    | 205656/371472 [5:18:38<12:51:17,  3.58it/s] 55%|█████▌    | 205657/371472 [5:18:38<12:44:20,  3.62it/s] 55%|█████▌    | 205658/371472 [5:18:39<12:33:17,  3.67it/s] 55%|█████▌    | 205659/371472 [5:18:39<12:30:54,  3.68it/s] 55%|█████▌    | 205660/371472 [5:18:39<13:59:22,  3.29it/s]                                                            {'loss': 2.736, 'learning_rate': 5.019446659053201e-07, 'epoch': 8.86}
 55%|█████▌    | 205660/371472 [5:18:39<13:59:22,  3.29it/s] 55%|█████▌    | 205661/371472 [5:18:40<13:22:03,  3.45it/s] 55%|█████▌    | 205662/371472 [5:18:40<13:22:07,  3.45it/s] 55%|█████▌    | 205663/371472 [5:18:40<13:51:22,  3.32it/s] 55%|█████▌    | 205664/371472 [5:18:40<13:01:00,  3.54it/s] 55%|█████▌    | 205665/371472 [5:18:41<13:50:48,  3.33it/s] 55%|█████▌    | 205666/371472 [5:18:41<13:10:06,  3.50it/s] 55%|█████▌    | 205667/371472 [5:18:41<13:01:25,  3.54it/s] 55%|█████▌    | 205668/371472 [5:18:41<12:41:40,  3.63it/s] 55%|█████▌    | 205669/371472 [5:18:42<12:26:32,  3.70it/s] 55%|█████▌    | 205670/371472 [5:18:42<12:53:09,  3.57it/s] 55%|█████▌    | 205671/371472 [5:18:42<13:04:13,  3.52it/s] 55%|█████▌    | 205672/371472 [5:18:43<12:52:10,  3.58it/s] 55%|█████▌    | 205673/371472 [5:18:43<12:31:32,  3.68it/s] 55%|█████▌    | 205674/371472 [5:18:43<12:26:50,  3.70it/s] 55%|█████▌    | 205675/371472 [5:18:43<12:43:56,  3.62it/s] 55%|█████▌    | 205676/371472 [5:18:44<12:31:27,  3.68it/s] 55%|█████▌    | 205677/371472 [5:18:44<12:39:25,  3.64it/s] 55%|█████▌    | 205678/371472 [5:18:44<12:29:00,  3.69it/s] 55%|█████▌    | 205679/371472 [5:18:45<12:39:40,  3.64it/s] 55%|█████▌    | 205680/371472 [5:18:45<12:19:06,  3.74it/s]                                                            {'loss': 3.0917, 'learning_rate': 5.018961839298411e-07, 'epoch': 8.86}
 55%|█████▌    | 205680/371472 [5:18:45<12:19:06,  3.74it/s] 55%|█████▌    | 205681/371472 [5:18:45<12:23:10,  3.72it/s] 55%|█████▌    | 205682/371472 [5:18:45<12:41:47,  3.63it/s] 55%|█████▌    | 205683/371472 [5:18:46<12:55:05,  3.56it/s] 55%|█████▌    | 205684/371472 [5:18:46<13:02:13,  3.53it/s] 55%|█████▌    | 205685/371472 [5:18:46<12:41:42,  3.63it/s] 55%|█████▌    | 205686/371472 [5:18:46<12:39:09,  3.64it/s] 55%|█████▌    | 205687/371472 [5:18:47<13:29:52,  3.41it/s] 55%|█████▌    | 205688/371472 [5:18:47<13:52:45,  3.32it/s] 55%|█████▌    | 205689/371472 [5:18:47<14:30:08,  3.18it/s] 55%|█████▌    | 205690/371472 [5:18:48<15:10:32,  3.03it/s] 55%|█████▌    | 205691/371472 [5:18:48<14:05:46,  3.27it/s] 55%|█████▌    | 205692/371472 [5:18:48<13:36:50,  3.38it/s] 55%|█████▌    | 205693/371472 [5:18:49<12:48:58,  3.59it/s] 55%|█████▌    | 205694/371472 [5:18:49<12:38:51,  3.64it/s] 55%|█████▌    | 205695/371472 [5:18:49<12:38:30,  3.64it/s] 55%|█████▌    | 205696/371472 [5:18:49<13:31:04,  3.41it/s] 55%|█████▌    | 205697/371472 [5:18:50<14:32:53,  3.17it/s] 55%|█████▌    | 205698/371472 [5:18:50<14:13:59,  3.24it/s] 55%|█████▌    | 205699/371472 [5:18:50<13:31:05,  3.41it/s] 55%|█████▌    | 205700/371472 [5:18:51<13:09:53,  3.50it/s]                                                            {'loss': 2.9855, 'learning_rate': 5.018477019543623e-07, 'epoch': 8.86}
 55%|█████▌    | 205700/371472 [5:18:51<13:09:53,  3.50it/s] 55%|█████▌    | 205701/371472 [5:18:51<13:27:58,  3.42it/s] 55%|█████▌    | 205702/371472 [5:18:51<13:07:46,  3.51it/s] 55%|█████▌    | 205703/371472 [5:18:52<13:24:16,  3.44it/s] 55%|█████▌    | 205704/371472 [5:18:52<13:13:16,  3.48it/s] 55%|█████▌    | 205705/371472 [5:18:52<13:19:06,  3.46it/s] 55%|█████▌    | 205706/371472 [5:18:52<12:36:00,  3.65it/s] 55%|█████▌    | 205707/371472 [5:18:53<12:33:58,  3.66it/s] 55%|█████▌    | 205708/371472 [5:18:53<12:19:40,  3.74it/s] 55%|█████▌    | 205709/371472 [5:18:53<12:10:45,  3.78it/s] 55%|█████▌    | 205710/371472 [5:18:53<12:18:26,  3.74it/s] 55%|█████▌    | 205711/371472 [5:18:54<12:18:43,  3.74it/s] 55%|█████▌    | 205712/371472 [5:18:54<12:34:56,  3.66it/s] 55%|█████▌    | 205713/371472 [5:18:54<12:47:36,  3.60it/s] 55%|█████▌    | 205714/371472 [5:18:55<13:41:09,  3.36it/s] 55%|█████▌    | 205715/371472 [5:18:55<13:32:49,  3.40it/s] 55%|█████▌    | 205716/371472 [5:18:55<13:14:15,  3.48it/s] 55%|█████▌    | 205717/371472 [5:18:55<13:16:42,  3.47it/s] 55%|█████▌    | 205718/371472 [5:18:56<13:24:06,  3.44it/s] 55%|█████▌    | 205719/371472 [5:18:56<12:57:34,  3.55it/s] 55%|█████▌    | 205720/371472 [5:18:56<12:43:19,  3.62it/s]                                                            {'loss': 2.8563, 'learning_rate': 5.017992199788834e-07, 'epoch': 8.86}
 55%|█████▌    | 205720/371472 [5:18:56<12:43:19,  3.62it/s] 55%|█████▌    | 205721/371472 [5:18:56<12:23:00,  3.72it/s] 55%|█████▌    | 205722/371472 [5:18:57<12:46:53,  3.60it/s] 55%|█████▌    | 205723/371472 [5:18:57<12:36:23,  3.65it/s] 55%|█████▌    | 205724/371472 [5:18:57<12:55:47,  3.56it/s] 55%|█████▌    | 205725/371472 [5:18:58<12:48:58,  3.59it/s] 55%|█████▌    | 205726/371472 [5:18:58<13:04:18,  3.52it/s] 55%|█████▌    | 205727/371472 [5:18:58<12:47:54,  3.60it/s] 55%|█████▌    | 205728/371472 [5:18:58<12:41:16,  3.63it/s] 55%|█████▌    | 205729/371472 [5:18:59<12:50:49,  3.58it/s] 55%|█████▌    | 205730/371472 [5:18:59<13:15:59,  3.47it/s] 55%|█████▌    | 205731/371472 [5:18:59<13:11:24,  3.49it/s] 55%|█████▌    | 205732/371472 [5:19:00<13:03:33,  3.53it/s] 55%|█████▌    | 205733/371472 [5:19:00<13:19:10,  3.46it/s] 55%|█████▌    | 205734/371472 [5:19:00<12:49:11,  3.59it/s] 55%|█████▌    | 205735/371472 [5:19:00<13:13:48,  3.48it/s] 55%|█████▌    | 205736/371472 [5:19:01<13:18:36,  3.46it/s] 55%|█████▌    | 205737/371472 [5:19:01<13:10:59,  3.49it/s] 55%|█████▌    | 205738/371472 [5:19:01<13:14:08,  3.48it/s] 55%|█████▌    | 205739/371472 [5:19:02<12:57:36,  3.55it/s] 55%|█████▌    | 205740/371472 [5:19:02<13:10:45,  3.49it/s]                                                            {'loss': 2.9319, 'learning_rate': 5.017507380034045e-07, 'epoch': 8.86}
 55%|█████▌    | 205740/371472 [5:19:02<13:10:45,  3.49it/s] 55%|█████▌    | 205741/371472 [5:19:02<13:46:19,  3.34it/s] 55%|█████▌    | 205742/371472 [5:19:03<13:34:47,  3.39it/s] 55%|█████▌    | 205743/371472 [5:19:03<13:59:55,  3.29it/s] 55%|█████▌    | 205744/371472 [5:19:03<13:36:19,  3.38it/s] 55%|█████▌    | 205745/371472 [5:19:03<13:15:03,  3.47it/s] 55%|█████▌    | 205746/371472 [5:19:04<13:28:41,  3.42it/s] 55%|█████▌    | 205747/371472 [5:19:04<13:21:32,  3.45it/s] 55%|█████▌    | 205748/371472 [5:19:04<13:00:02,  3.54it/s] 55%|█████▌    | 205749/371472 [5:19:05<12:56:35,  3.56it/s] 55%|█████▌    | 205750/371472 [5:19:05<13:05:37,  3.52it/s] 55%|█████▌    | 205751/371472 [5:19:05<13:18:13,  3.46it/s] 55%|█████▌    | 205752/371472 [5:19:05<14:09:53,  3.25it/s] 55%|█████▌    | 205753/371472 [5:19:06<13:52:46,  3.32it/s] 55%|█████▌    | 205754/371472 [5:19:06<13:13:14,  3.48it/s] 55%|█████▌    | 205755/371472 [5:19:06<13:13:49,  3.48it/s] 55%|█████▌    | 205756/371472 [5:19:07<13:11:41,  3.49it/s] 55%|█████▌    | 205757/371472 [5:19:07<13:03:39,  3.52it/s] 55%|█████▌    | 205758/371472 [5:19:07<13:37:24,  3.38it/s] 55%|█████▌    | 205759/371472 [5:19:08<14:01:11,  3.28it/s] 55%|█████▌    | 205760/371472 [5:19:08<13:45:36,  3.35it/s]                                                            {'loss': 2.9906, 'learning_rate': 5.017022560279256e-07, 'epoch': 8.86}
 55%|█████▌    | 205760/371472 [5:19:08<13:45:36,  3.35it/s] 55%|█████▌    | 205761/371472 [5:19:08<13:38:25,  3.37it/s] 55%|█████▌    | 205762/371472 [5:19:08<13:05:06,  3.52it/s] 55%|█████▌    | 205763/371472 [5:19:09<12:51:55,  3.58it/s] 55%|█████▌    | 205764/371472 [5:19:09<12:42:45,  3.62it/s] 55%|█████▌    | 205765/371472 [5:19:09<12:51:19,  3.58it/s] 55%|█████▌    | 205766/371472 [5:19:09<12:43:32,  3.62it/s] 55%|█████▌    | 205767/371472 [5:19:10<13:43:52,  3.35it/s] 55%|█████▌    | 205768/371472 [5:19:10<13:38:11,  3.38it/s] 55%|█████▌    | 205769/371472 [5:19:10<13:05:26,  3.52it/s] 55%|█████▌    | 205770/371472 [5:19:11<12:59:32,  3.54it/s] 55%|█████▌    | 205771/371472 [5:19:11<13:02:32,  3.53it/s] 55%|█████▌    | 205772/371472 [5:19:11<13:06:00,  3.51it/s] 55%|█████▌    | 205773/371472 [5:19:12<13:56:23,  3.30it/s] 55%|█████▌    | 205774/371472 [5:19:12<13:48:23,  3.33it/s] 55%|█████▌    | 205775/371472 [5:19:12<13:39:35,  3.37it/s] 55%|█████▌    | 205776/371472 [5:19:12<13:11:26,  3.49it/s] 55%|█████▌    | 205777/371472 [5:19:13<14:04:16,  3.27it/s] 55%|█████▌    | 205778/371472 [5:19:13<14:08:27,  3.25it/s] 55%|█████▌    | 205779/371472 [5:19:13<13:18:55,  3.46it/s] 55%|█████▌    | 205780/371472 [5:19:14<13:12:28,  3.48it/s]                                                            {'loss': 2.9709, 'learning_rate': 5.016537740524467e-07, 'epoch': 8.86}
 55%|█████▌    | 205780/371472 [5:19:14<13:12:28,  3.48it/s] 55%|█████▌    | 205781/371472 [5:19:14<13:02:52,  3.53it/s] 55%|█████▌    | 205782/371472 [5:19:14<13:08:10,  3.50it/s] 55%|█████▌    | 205783/371472 [5:19:14<12:51:30,  3.58it/s] 55%|█████▌    | 205784/371472 [5:19:15<12:25:24,  3.70it/s] 55%|█████▌    | 205785/371472 [5:19:15<13:12:43,  3.48it/s] 55%|█████▌    | 205786/371472 [5:19:15<13:00:17,  3.54it/s] 55%|█████▌    | 205787/371472 [5:19:16<13:07:52,  3.50it/s] 55%|█████▌    | 205788/371472 [5:19:16<12:35:24,  3.66it/s] 55%|█████▌    | 205789/371472 [5:19:16<12:34:38,  3.66it/s] 55%|█████▌    | 205790/371472 [5:19:16<12:40:20,  3.63it/s] 55%|█████▌    | 205791/371472 [5:19:17<12:36:21,  3.65it/s] 55%|█████▌    | 205792/371472 [5:19:17<12:35:16,  3.66it/s] 55%|█████▌    | 205793/371472 [5:19:17<12:38:47,  3.64it/s] 55%|█████▌    | 205794/371472 [5:19:17<12:50:45,  3.58it/s] 55%|█████▌    | 205795/371472 [5:19:18<13:01:40,  3.53it/s] 55%|█████▌    | 205796/371472 [5:19:18<12:50:16,  3.58it/s] 55%|█████▌    | 205797/371472 [5:19:18<12:50:58,  3.58it/s] 55%|█████▌    | 205798/371472 [5:19:19<12:30:33,  3.68it/s] 55%|█████▌    | 205799/371472 [5:19:19<12:39:58,  3.63it/s] 55%|█████▌    | 205800/371472 [5:19:19<12:35:04,  3.66it/s]                                                            {'loss': 3.0867, 'learning_rate': 5.016052920769678e-07, 'epoch': 8.86}
 55%|█████▌    | 205800/371472 [5:19:19<12:35:04,  3.66it/s] 55%|█████▌    | 205801/371472 [5:19:19<13:10:18,  3.49it/s] 55%|█████▌    | 205802/371472 [5:19:20<13:50:34,  3.32it/s] 55%|█████▌    | 205803/371472 [5:19:20<13:55:58,  3.30it/s] 55%|█████▌    | 205804/371472 [5:19:20<14:26:51,  3.19it/s] 55%|█████▌    | 205805/371472 [5:19:21<14:25:31,  3.19it/s] 55%|█████▌    | 205806/371472 [5:19:21<14:03:47,  3.27it/s] 55%|█████▌    | 205807/371472 [5:19:21<13:54:25,  3.31it/s] 55%|█████▌    | 205808/371472 [5:19:22<13:54:26,  3.31it/s] 55%|█████▌    | 205809/371472 [5:19:22<13:30:43,  3.41it/s] 55%|█████▌    | 205810/371472 [5:19:22<13:40:09,  3.37it/s] 55%|█████▌    | 205811/371472 [5:19:22<13:36:30,  3.38it/s] 55%|█████▌    | 205812/371472 [5:19:23<13:23:30,  3.44it/s] 55%|█████▌    | 205813/371472 [5:19:23<13:08:30,  3.50it/s] 55%|█████▌    | 205814/371472 [5:19:23<13:46:59,  3.34it/s] 55%|█████▌    | 205815/371472 [5:19:24<13:27:59,  3.42it/s] 55%|█████▌    | 205816/371472 [5:19:24<13:41:06,  3.36it/s] 55%|█████▌    | 205817/371472 [5:19:24<13:20:46,  3.45it/s] 55%|█████▌    | 205818/371472 [5:19:25<14:25:02,  3.19it/s] 55%|█████▌    | 205819/371472 [5:19:25<13:31:35,  3.40it/s] 55%|█████▌    | 205820/371472 [5:19:25<12:58:41,  3.55it/s]                                                            {'loss': 2.9682, 'learning_rate': 5.01556810101489e-07, 'epoch': 8.87}
 55%|█████▌    | 205820/371472 [5:19:25<12:58:41,  3.55it/s] 55%|█████▌    | 205821/371472 [5:19:25<13:02:14,  3.53it/s] 55%|█████▌    | 205822/371472 [5:19:26<12:39:59,  3.63it/s] 55%|█████▌    | 205823/371472 [5:19:26<12:48:53,  3.59it/s] 55%|█████▌    | 205824/371472 [5:19:26<12:51:53,  3.58it/s] 55%|█████▌    | 205825/371472 [5:19:26<12:57:51,  3.55it/s] 55%|█████▌    | 205826/371472 [5:19:27<13:20:16,  3.45it/s] 55%|█████▌    | 205827/371472 [5:19:27<12:55:07,  3.56it/s] 55%|█████▌    | 205828/371472 [5:19:27<12:48:36,  3.59it/s] 55%|█████▌    | 205829/371472 [5:19:28<12:44:42,  3.61it/s] 55%|█████▌    | 205830/371472 [5:19:28<12:27:24,  3.69it/s] 55%|█████▌    | 205831/371472 [5:19:28<12:33:05,  3.67it/s] 55%|█████▌    | 205832/371472 [5:19:28<12:18:58,  3.74it/s] 55%|█████▌    | 205833/371472 [5:19:29<12:53:26,  3.57it/s] 55%|█████▌    | 205834/371472 [5:19:29<13:08:43,  3.50it/s] 55%|█████▌    | 205835/371472 [5:19:29<13:11:07,  3.49it/s] 55%|█████▌    | 205836/371472 [5:19:30<12:48:24,  3.59it/s] 55%|█████▌    | 205837/371472 [5:19:30<13:05:47,  3.51it/s] 55%|█████▌    | 205838/371472 [5:19:30<13:10:35,  3.49it/s] 55%|█████▌    | 205839/371472 [5:19:30<13:04:20,  3.52it/s] 55%|█████▌    | 205840/371472 [5:19:31<13:08:12,  3.50it/s]                                                            {'loss': 2.7894, 'learning_rate': 5.0150832812601e-07, 'epoch': 8.87}
 55%|█████▌    | 205840/371472 [5:19:31<13:08:12,  3.50it/s] 55%|█████▌    | 205841/371472 [5:19:31<13:20:49,  3.45it/s] 55%|█████▌    | 205842/371472 [5:19:31<12:51:52,  3.58it/s] 55%|█████▌    | 205843/371472 [5:19:32<13:18:00,  3.46it/s] 55%|█████▌    | 205844/371472 [5:19:32<13:17:27,  3.46it/s] 55%|█████▌    | 205845/371472 [5:19:32<13:19:41,  3.45it/s] 55%|█████▌    | 205846/371472 [5:19:32<13:31:01,  3.40it/s] 55%|█████▌    | 205847/371472 [5:19:33<13:02:49,  3.53it/s] 55%|█████▌    | 205848/371472 [5:19:33<12:54:05,  3.57it/s] 55%|█████▌    | 205849/371472 [5:19:33<13:51:21,  3.32it/s] 55%|█████▌    | 205850/371472 [5:19:34<13:14:14,  3.48it/s] 55%|█████▌    | 205851/371472 [5:19:34<13:24:30,  3.43it/s] 55%|█████▌    | 205852/371472 [5:19:34<12:57:09,  3.55it/s] 55%|█████▌    | 205853/371472 [5:19:34<13:21:23,  3.44it/s] 55%|█████▌    | 205854/371472 [5:19:35<13:03:08,  3.52it/s] 55%|█████▌    | 205855/371472 [5:19:35<12:44:49,  3.61it/s] 55%|█████▌    | 205856/371472 [5:19:35<12:49:37,  3.59it/s] 55%|█████▌    | 205857/371472 [5:19:36<12:31:34,  3.67it/s] 55%|█████▌    | 205858/371472 [5:19:36<12:57:15,  3.55it/s] 55%|█████▌    | 205859/371472 [5:19:36<12:43:42,  3.61it/s] 55%|█████▌    | 205860/371472 [5:19:36<12:19:49,  3.73it/s]                                                            {'loss': 3.1092, 'learning_rate': 5.014598461505311e-07, 'epoch': 8.87}
 55%|█████▌    | 205860/371472 [5:19:36<12:19:49,  3.73it/s] 55%|█████▌    | 205861/371472 [5:19:37<12:34:04,  3.66it/s] 55%|█████▌    | 205862/371472 [5:19:37<13:20:02,  3.45it/s] 55%|█████▌    | 205863/371472 [5:19:37<13:33:17,  3.39it/s] 55%|█████▌    | 205864/371472 [5:19:38<13:05:25,  3.51it/s] 55%|█████▌    | 205865/371472 [5:19:38<12:31:14,  3.67it/s] 55%|█████▌    | 205866/371472 [5:19:38<12:21:24,  3.72it/s] 55%|█████▌    | 205867/371472 [5:19:38<13:10:41,  3.49it/s] 55%|█████▌    | 205868/371472 [5:19:39<13:07:22,  3.51it/s] 55%|█████▌    | 205869/371472 [5:19:39<12:44:16,  3.61it/s] 55%|█████▌    | 205870/371472 [5:19:39<12:38:51,  3.64it/s] 55%|█████▌    | 205871/371472 [5:19:39<12:49:26,  3.59it/s] 55%|█████▌    | 205872/371472 [5:19:40<12:19:34,  3.73it/s] 55%|█████▌    | 205873/371472 [5:19:40<12:26:26,  3.70it/s] 55%|█████▌    | 205874/371472 [5:19:40<13:03:45,  3.52it/s] 55%|█████▌    | 205875/371472 [5:19:41<13:17:13,  3.46it/s] 55%|█████▌    | 205876/371472 [5:19:41<12:48:50,  3.59it/s] 55%|█████▌    | 205877/371472 [5:19:41<12:36:59,  3.65it/s] 55%|█████▌    | 205878/371472 [5:19:41<12:18:30,  3.74it/s] 55%|█████▌    | 205879/371472 [5:19:42<13:47:27,  3.34it/s] 55%|█████▌    | 205880/371472 [5:19:42<13:16:02,  3.47it/s]                                                            {'loss': 2.9152, 'learning_rate': 5.014113641750522e-07, 'epoch': 8.87}
 55%|█████▌    | 205880/371472 [5:19:42<13:16:02,  3.47it/s] 55%|█████▌    | 205881/371472 [5:19:42<12:58:18,  3.55it/s] 55%|█████▌    | 205882/371472 [5:19:43<13:05:53,  3.51it/s] 55%|█████▌    | 205883/371472 [5:19:43<13:50:15,  3.32it/s] 55%|█████▌    | 205884/371472 [5:19:43<12:59:28,  3.54it/s] 55%|█████▌    | 205885/371472 [5:19:43<13:00:56,  3.53it/s] 55%|█████▌    | 205886/371472 [5:19:44<13:07:26,  3.50it/s] 55%|█████▌    | 205887/371472 [5:19:44<13:08:22,  3.50it/s] 55%|█████▌    | 205888/371472 [5:19:44<13:06:18,  3.51it/s] 55%|█████▌    | 205889/371472 [5:19:45<13:43:55,  3.35it/s] 55%|█████▌    | 205890/371472 [5:19:45<13:30:14,  3.41it/s] 55%|█████▌    | 205891/371472 [5:19:45<13:20:21,  3.45it/s] 55%|█████▌    | 205892/371472 [5:19:45<13:13:33,  3.48it/s] 55%|█████▌    | 205893/371472 [5:19:46<12:32:00,  3.67it/s] 55%|█████▌    | 205894/371472 [5:19:46<12:34:47,  3.66it/s] 55%|█████▌    | 205895/371472 [5:19:46<12:37:04,  3.65it/s] 55%|█████▌    | 205896/371472 [5:19:47<13:18:04,  3.46it/s] 55%|█████▌    | 205897/371472 [5:19:47<13:33:10,  3.39it/s] 55%|█████▌    | 205898/371472 [5:19:47<13:14:53,  3.47it/s] 55%|█████▌    | 205899/371472 [5:19:47<12:43:31,  3.61it/s] 55%|█████▌    | 205900/371472 [5:19:48<12:18:24,  3.74it/s]                                                            {'loss': 2.9513, 'learning_rate': 5.013628821995734e-07, 'epoch': 8.87}
 55%|█████▌    | 205900/371472 [5:19:48<12:18:24,  3.74it/s] 55%|█████▌    | 205901/371472 [5:19:48<12:26:12,  3.70it/s] 55%|█████▌    | 205902/371472 [5:19:48<13:06:12,  3.51it/s] 55%|█████▌    | 205903/371472 [5:19:48<13:01:39,  3.53it/s] 55%|█████▌    | 205904/371472 [5:19:49<13:18:36,  3.46it/s] 55%|█████▌    | 205905/371472 [5:19:49<13:12:33,  3.48it/s] 55%|█████▌    | 205906/371472 [5:19:49<13:20:15,  3.45it/s] 55%|█████▌    | 205907/371472 [5:19:50<13:15:47,  3.47it/s] 55%|█████▌    | 205908/371472 [5:19:50<12:53:00,  3.57it/s] 55%|█████▌    | 205909/371472 [5:19:50<12:52:49,  3.57it/s] 55%|█████▌    | 205910/371472 [5:19:51<13:29:30,  3.41it/s] 55%|█████▌    | 205911/371472 [5:19:51<13:05:07,  3.51it/s] 55%|█████▌    | 205912/371472 [5:19:51<13:17:52,  3.46it/s] 55%|█████▌    | 205913/371472 [5:19:51<13:58:14,  3.29it/s] 55%|█████▌    | 205914/371472 [5:19:52<13:13:29,  3.48it/s] 55%|█████▌    | 205915/371472 [5:19:52<12:38:33,  3.64it/s] 55%|█████▌    | 205916/371472 [5:19:52<12:29:07,  3.68it/s] 55%|█████▌    | 205917/371472 [5:19:52<12:58:03,  3.55it/s] 55%|█████▌    | 205918/371472 [5:19:53<12:52:53,  3.57it/s] 55%|█████▌    | 205919/371472 [5:19:53<12:48:04,  3.59it/s] 55%|█████▌    | 205920/371472 [5:19:53<12:33:10,  3.66it/s]                                                            {'loss': 2.9561, 'learning_rate': 5.013144002240944e-07, 'epoch': 8.87}
 55%|█████▌    | 205920/371472 [5:19:53<12:33:10,  3.66it/s] 55%|█████▌    | 205921/371472 [5:19:54<12:21:29,  3.72it/s] 55%|█████▌    | 205922/371472 [5:19:54<12:38:53,  3.64it/s] 55%|█████▌    | 205923/371472 [5:19:54<13:15:44,  3.47it/s] 55%|█████▌    | 205924/371472 [5:19:55<14:21:46,  3.20it/s] 55%|█████▌    | 205925/371472 [5:19:55<13:49:28,  3.33it/s] 55%|█████▌    | 205926/371472 [5:19:55<13:16:23,  3.46it/s] 55%|█████▌    | 205927/371472 [5:19:55<13:10:02,  3.49it/s] 55%|█████▌    | 205928/371472 [5:19:56<13:41:18,  3.36it/s] 55%|█████▌    | 205929/371472 [5:19:56<12:56:35,  3.55it/s] 55%|█████▌    | 205930/371472 [5:19:56<13:48:27,  3.33it/s] 55%|█████▌    | 205931/371472 [5:19:57<13:29:45,  3.41it/s] 55%|█████▌    | 205932/371472 [5:19:57<13:32:41,  3.39it/s] 55%|█████▌    | 205933/371472 [5:19:57<13:16:17,  3.46it/s] 55%|█████▌    | 205934/371472 [5:19:57<12:41:28,  3.62it/s] 55%|█████▌    | 205935/371472 [5:19:58<12:13:22,  3.76it/s] 55%|█████▌    | 205936/371472 [5:19:58<12:16:28,  3.75it/s] 55%|█████▌    | 205937/371472 [5:19:58<12:23:53,  3.71it/s] 55%|█████▌    | 205938/371472 [5:19:58<12:26:57,  3.69it/s] 55%|█████▌    | 205939/371472 [5:19:59<12:36:27,  3.65it/s] 55%|█████▌    | 205940/371472 [5:19:59<12:55:44,  3.56it/s]                                                            {'loss': 2.9845, 'learning_rate': 5.012659182486156e-07, 'epoch': 8.87}
 55%|█████▌    | 205940/371472 [5:19:59<12:55:44,  3.56it/s] 55%|█████▌    | 205941/371472 [5:19:59<12:52:56,  3.57it/s] 55%|█████▌    | 205942/371472 [5:20:00<14:07:46,  3.25it/s] 55%|█████▌    | 205943/371472 [5:20:00<13:44:00,  3.35it/s] 55%|█████▌    | 205944/371472 [5:20:00<13:03:12,  3.52it/s] 55%|█████▌    | 205945/371472 [5:20:00<12:57:33,  3.55it/s] 55%|█████▌    | 205946/371472 [5:20:01<12:55:45,  3.56it/s] 55%|█████▌    | 205947/371472 [5:20:01<12:23:56,  3.71it/s] 55%|█████▌    | 205948/371472 [5:20:01<12:54:07,  3.56it/s] 55%|█████▌    | 205949/371472 [5:20:02<13:09:09,  3.50it/s] 55%|█████▌    | 205950/371472 [5:20:02<12:36:50,  3.65it/s] 55%|█████▌    | 205951/371472 [5:20:02<12:19:36,  3.73it/s] 55%|█████▌    | 205952/371472 [5:20:02<12:07:15,  3.79it/s] 55%|█████▌    | 205953/371472 [5:20:03<12:01:29,  3.82it/s] 55%|█████▌    | 205954/371472 [5:20:03<13:51:10,  3.32it/s] 55%|█████▌    | 205955/371472 [5:20:03<13:27:53,  3.41it/s] 55%|█████▌    | 205956/371472 [5:20:04<14:15:54,  3.22it/s] 55%|█████▌    | 205957/371472 [5:20:04<14:23:38,  3.19it/s] 55%|█████▌    | 205958/371472 [5:20:04<14:07:31,  3.25it/s] 55%|█████▌    | 205959/371472 [5:20:05<14:25:37,  3.19it/s] 55%|█████▌    | 205960/371472 [5:20:05<14:02:37,  3.27it/s]                                                            {'loss': 3.0135, 'learning_rate': 5.012174362731367e-07, 'epoch': 8.87}
 55%|█████▌    | 205960/371472 [5:20:05<14:02:37,  3.27it/s] 55%|█████▌    | 205961/371472 [5:20:05<13:45:25,  3.34it/s] 55%|█████▌    | 205962/371472 [5:20:05<13:38:14,  3.37it/s] 55%|█████▌    | 205963/371472 [5:20:06<13:33:55,  3.39it/s] 55%|█████▌    | 205964/371472 [5:20:06<13:56:02,  3.30it/s] 55%|█████▌    | 205965/371472 [5:20:06<13:43:55,  3.35it/s] 55%|█████▌    | 205966/371472 [5:20:07<13:19:40,  3.45it/s] 55%|█████▌    | 205967/371472 [5:20:07<13:18:08,  3.46it/s] 55%|█████▌    | 205968/371472 [5:20:07<13:46:34,  3.34it/s] 55%|█████▌    | 205969/371472 [5:20:07<13:13:59,  3.47it/s] 55%|█████▌    | 205970/371472 [5:20:08<13:09:43,  3.49it/s] 55%|█████▌    | 205971/371472 [5:20:08<12:48:41,  3.59it/s] 55%|█████▌    | 205972/371472 [5:20:08<12:44:14,  3.61it/s] 55%|█████▌    | 205973/371472 [5:20:09<12:25:05,  3.70it/s] 55%|█████▌    | 205974/371472 [5:20:09<12:08:55,  3.78it/s] 55%|█████▌    | 205975/371472 [5:20:09<12:21:00,  3.72it/s] 55%|█████▌    | 205976/371472 [5:20:09<12:32:24,  3.67it/s] 55%|█████▌    | 205977/371472 [5:20:10<12:40:07,  3.63it/s] 55%|█████▌    | 205978/371472 [5:20:10<13:00:57,  3.53it/s] 55%|█████▌    | 205979/371472 [5:20:10<12:41:56,  3.62it/s] 55%|█████▌    | 205980/371472 [5:20:10<12:20:46,  3.72it/s]                                                            {'loss': 2.9556, 'learning_rate': 5.011689542976578e-07, 'epoch': 8.87}
 55%|█████▌    | 205980/371472 [5:20:10<12:20:46,  3.72it/s] 55%|█████▌    | 205981/371472 [5:20:11<12:20:08,  3.73it/s] 55%|█████▌    | 205982/371472 [5:20:11<12:39:00,  3.63it/s] 55%|█████▌    | 205983/371472 [5:20:11<12:23:13,  3.71it/s] 55%|█████▌    | 205984/371472 [5:20:12<12:34:11,  3.66it/s] 55%|█████▌    | 205985/371472 [5:20:12<12:10:40,  3.77it/s] 55%|█████▌    | 205986/371472 [5:20:12<12:26:10,  3.70it/s] 55%|█████▌    | 205987/371472 [5:20:12<12:55:31,  3.56it/s] 55%|█████▌    | 205988/371472 [5:20:13<13:09:42,  3.49it/s] 55%|█████▌    | 205989/371472 [5:20:13<12:52:11,  3.57it/s] 55%|█████▌    | 205990/371472 [5:20:13<13:03:42,  3.52it/s] 55%|█████▌    | 205991/371472 [5:20:13<12:48:41,  3.59it/s] 55%|█████▌    | 205992/371472 [5:20:14<12:29:38,  3.68it/s] 55%|█████▌    | 205993/371472 [5:20:14<12:18:44,  3.73it/s] 55%|█████▌    | 205994/371472 [5:20:14<12:19:32,  3.73it/s] 55%|█████▌    | 205995/371472 [5:20:15<12:25:15,  3.70it/s] 55%|█████▌    | 205996/371472 [5:20:15<12:04:21,  3.81it/s] 55%|█████▌    | 205997/371472 [5:20:15<12:00:15,  3.83it/s] 55%|█████▌    | 205998/371472 [5:20:15<12:03:57,  3.81it/s] 55%|█████▌    | 205999/371472 [5:20:16<12:14:27,  3.76it/s] 55%|█████▌    | 206000/371472 [5:20:16<12:39:59,  3.63it/s]                                                            {'loss': 3.053, 'learning_rate': 5.011204723221788e-07, 'epoch': 8.87}
 55%|█████▌    | 206000/371472 [5:20:16<12:39:59,  3.63it/s] 55%|█████▌    | 206001/371472 [5:20:16<12:10:18,  3.78it/s] 55%|█████▌    | 206002/371472 [5:20:16<13:29:01,  3.41it/s] 55%|█████▌    | 206003/371472 [5:20:17<14:02:50,  3.27it/s] 55%|█████▌    | 206004/371472 [5:20:17<14:06:27,  3.26it/s] 55%|█████▌    | 206005/371472 [5:20:17<13:37:14,  3.37it/s] 55%|█████▌    | 206006/371472 [5:20:18<13:19:28,  3.45it/s] 55%|█████▌    | 206007/371472 [5:20:18<12:52:15,  3.57it/s] 55%|█████▌    | 206008/371472 [5:20:18<12:32:30,  3.66it/s] 55%|█████▌    | 206009/371472 [5:20:18<12:25:30,  3.70it/s] 55%|█████▌    | 206010/371472 [5:20:19<13:07:02,  3.50it/s] 55%|█████▌    | 206011/371472 [5:20:19<13:37:07,  3.37it/s] 55%|█████▌    | 206012/371472 [5:20:19<13:12:47,  3.48it/s] 55%|█████▌    | 206013/371472 [5:20:20<12:56:56,  3.55it/s] 55%|█████▌    | 206014/371472 [5:20:20<13:02:52,  3.52it/s] 55%|█████▌    | 206015/371472 [5:20:20<12:39:51,  3.63it/s] 55%|█████▌    | 206016/371472 [5:20:20<12:40:44,  3.62it/s] 55%|█████▌    | 206017/371472 [5:20:21<12:32:58,  3.66it/s] 55%|█████▌    | 206018/371472 [5:20:21<12:48:59,  3.59it/s] 55%|█████▌    | 206019/371472 [5:20:21<12:48:54,  3.59it/s] 55%|█████▌    | 206020/371472 [5:20:22<12:31:44,  3.67it/s]                                                            {'loss': 3.0621, 'learning_rate': 5.010719903466999e-07, 'epoch': 8.87}
 55%|█████▌    | 206020/371472 [5:20:22<12:31:44,  3.67it/s] 55%|█████▌    | 206021/371472 [5:20:22<12:45:50,  3.60it/s] 55%|█████▌    | 206022/371472 [5:20:22<13:14:32,  3.47it/s] 55%|█████▌    | 206023/371472 [5:20:22<13:22:39,  3.44it/s] 55%|█████▌    | 206024/371472 [5:20:23<13:01:38,  3.53it/s] 55%|█████▌    | 206025/371472 [5:20:23<12:50:20,  3.58it/s] 55%|█████▌    | 206026/371472 [5:20:23<12:30:55,  3.67it/s] 55%|█████▌    | 206027/371472 [5:20:24<12:34:42,  3.65it/s] 55%|█████▌    | 206028/371472 [5:20:24<12:09:03,  3.78it/s] 55%|█████▌    | 206029/371472 [5:20:24<12:12:27,  3.76it/s] 55%|█████▌    | 206030/371472 [5:20:24<12:55:22,  3.56it/s] 55%|█████▌    | 206031/371472 [5:20:25<12:52:21,  3.57it/s] 55%|█████▌    | 206032/371472 [5:20:25<12:26:25,  3.69it/s] 55%|█████▌    | 206033/371472 [5:20:25<12:12:56,  3.76it/s] 55%|█████▌    | 206034/371472 [5:20:25<12:13:34,  3.76it/s] 55%|█████▌    | 206035/371472 [5:20:26<12:22:50,  3.71it/s] 55%|█████▌    | 206036/371472 [5:20:26<13:04:07,  3.52it/s] 55%|█████▌    | 206037/371472 [5:20:26<12:55:16,  3.56it/s] 55%|█████▌    | 206038/371472 [5:20:27<12:36:39,  3.64it/s] 55%|█████▌    | 206039/371472 [5:20:27<12:39:28,  3.63it/s] 55%|█████▌    | 206040/371472 [5:20:27<12:05:53,  3.80it/s]                                                            {'loss': 2.805, 'learning_rate': 5.010235083712211e-07, 'epoch': 8.87}
 55%|█████▌    | 206040/371472 [5:20:27<12:05:53,  3.80it/s] 55%|█████▌    | 206041/371472 [5:20:27<12:15:00,  3.75it/s] 55%|█████▌    | 206042/371472 [5:20:28<13:22:35,  3.44it/s] 55%|█████▌    | 206043/371472 [5:20:28<13:01:18,  3.53it/s] 55%|█████▌    | 206044/371472 [5:20:28<13:24:36,  3.43it/s] 55%|█████▌    | 206045/371472 [5:20:29<13:17:04,  3.46it/s] 55%|█████▌    | 206046/371472 [5:20:29<14:13:12,  3.23it/s] 55%|█████▌    | 206047/371472 [5:20:29<14:19:17,  3.21it/s] 55%|█████▌    | 206048/371472 [5:20:29<13:50:09,  3.32it/s] 55%|█████▌    | 206049/371472 [5:20:30<13:26:39,  3.42it/s] 55%|█████▌    | 206050/371472 [5:20:30<13:07:33,  3.50it/s] 55%|█████▌    | 206051/371472 [5:20:30<12:47:51,  3.59it/s] 55%|█████▌    | 206052/371472 [5:20:31<12:32:30,  3.66it/s] 55%|█████▌    | 206053/371472 [5:20:31<13:58:24,  3.29it/s] 55%|█████▌    | 206054/371472 [5:20:31<13:32:24,  3.39it/s] 55%|█████▌    | 206055/371472 [5:20:31<13:00:58,  3.53it/s] 55%|█████▌    | 206056/371472 [5:20:32<12:33:48,  3.66it/s] 55%|█████▌    | 206057/371472 [5:20:32<13:22:52,  3.43it/s] 55%|█████▌    | 206058/371472 [5:20:32<14:07:29,  3.25it/s] 55%|█████▌    | 206059/371472 [5:20:33<13:36:48,  3.38it/s] 55%|█████▌    | 206060/371472 [5:20:33<14:13:52,  3.23it/s]                                                            {'loss': 2.8122, 'learning_rate': 5.009750263957421e-07, 'epoch': 8.88}
 55%|█████▌    | 206060/371472 [5:20:33<14:13:52,  3.23it/s] 55%|█████▌    | 206061/371472 [5:20:33<13:37:21,  3.37it/s] 55%|█████▌    | 206062/371472 [5:20:34<13:30:52,  3.40it/s] 55%|█████▌    | 206063/371472 [5:20:34<13:55:46,  3.30it/s] 55%|█████▌    | 206064/371472 [5:20:34<13:37:47,  3.37it/s] 55%|█████▌    | 206065/371472 [5:20:34<13:30:30,  3.40it/s] 55%|█████▌    | 206066/371472 [5:20:35<13:21:45,  3.44it/s] 55%|█████▌    | 206067/371472 [5:20:35<13:16:24,  3.46it/s] 55%|█████▌    | 206068/371472 [5:20:35<12:59:33,  3.54it/s] 55%|█████▌    | 206069/371472 [5:20:36<12:54:08,  3.56it/s] 55%|█████▌    | 206070/371472 [5:20:36<12:40:50,  3.62it/s] 55%|█████▌    | 206071/371472 [5:20:36<12:17:02,  3.74it/s] 55%|█████▌    | 206072/371472 [5:20:36<12:05:04,  3.80it/s] 55%|█████▌    | 206073/371472 [5:20:37<11:45:24,  3.91it/s] 55%|█████▌    | 206074/371472 [5:20:37<12:23:25,  3.71it/s] 55%|█████▌    | 206075/371472 [5:20:37<13:08:36,  3.50it/s] 55%|█████▌    | 206076/371472 [5:20:37<13:28:13,  3.41it/s] 55%|█████▌    | 206077/371472 [5:20:38<12:48:56,  3.58it/s] 55%|█████▌    | 206078/371472 [5:20:38<12:41:58,  3.62it/s] 55%|█████▌    | 206079/371472 [5:20:38<12:36:23,  3.64it/s] 55%|█████▌    | 206080/371472 [5:20:39<12:36:47,  3.64it/s]                                                            {'loss': 2.994, 'learning_rate': 5.009265444202633e-07, 'epoch': 8.88}
 55%|█████▌    | 206080/371472 [5:20:39<12:36:47,  3.64it/s] 55%|█████▌    | 206081/371472 [5:20:39<12:39:14,  3.63it/s] 55%|█████▌    | 206082/371472 [5:20:39<12:15:32,  3.75it/s] 55%|█████▌    | 206083/371472 [5:20:39<12:10:40,  3.77it/s] 55%|█████▌    | 206084/371472 [5:20:40<12:00:43,  3.82it/s] 55%|█████▌    | 206085/371472 [5:20:40<12:48:46,  3.59it/s] 55%|█████▌    | 206086/371472 [5:20:40<13:00:30,  3.53it/s] 55%|█████▌    | 206087/371472 [5:20:40<13:04:38,  3.51it/s] 55%|█████▌    | 206088/371472 [5:20:41<13:39:12,  3.36it/s] 55%|█████▌    | 206089/371472 [5:20:41<13:02:05,  3.52it/s] 55%|█████▌    | 206090/371472 [5:20:41<12:53:31,  3.56it/s] 55%|█████▌    | 206091/371472 [5:20:42<12:40:28,  3.62it/s] 55%|█████▌    | 206092/371472 [5:20:42<13:44:43,  3.34it/s] 55%|█████▌    | 206093/371472 [5:20:42<13:39:38,  3.36it/s] 55%|█████▌    | 206094/371472 [5:20:43<13:16:40,  3.46it/s] 55%|█████▌    | 206095/371472 [5:20:43<14:46:17,  3.11it/s] 55%|█████▌    | 206096/371472 [5:20:43<14:28:32,  3.17it/s] 55%|█████▌    | 206097/371472 [5:20:43<13:54:15,  3.30it/s] 55%|█████▌    | 206098/371472 [5:20:44<13:36:36,  3.38it/s] 55%|█████▌    | 206099/371472 [5:20:44<13:21:56,  3.44it/s] 55%|█████▌    | 206100/371472 [5:20:44<13:18:17,  3.45it/s]                                                            {'loss': 2.9814, 'learning_rate': 5.008780624447844e-07, 'epoch': 8.88}
 55%|█████▌    | 206100/371472 [5:20:44<13:18:17,  3.45it/s] 55%|█████▌    | 206101/371472 [5:20:45<12:49:54,  3.58it/s] 55%|█████▌    | 206102/371472 [5:20:45<13:29:26,  3.41it/s] 55%|█████▌    | 206103/371472 [5:20:45<13:14:04,  3.47it/s] 55%|█████▌    | 206104/371472 [5:20:45<13:21:59,  3.44it/s] 55%|█████▌    | 206105/371472 [5:20:46<12:47:23,  3.59it/s] 55%|█████▌    | 206106/371472 [5:20:46<12:49:36,  3.58it/s] 55%|█████▌    | 206107/371472 [5:20:46<12:59:38,  3.54it/s] 55%|█████▌    | 206108/371472 [5:20:47<12:36:12,  3.64it/s] 55%|█████▌    | 206109/371472 [5:20:47<12:38:12,  3.63it/s] 55%|█████▌    | 206110/371472 [5:20:47<12:39:33,  3.63it/s] 55%|█████▌    | 206111/371472 [5:20:47<12:53:16,  3.56it/s] 55%|█████▌    | 206112/371472 [5:20:48<12:36:04,  3.65it/s] 55%|█████▌    | 206113/371472 [5:20:48<13:36:38,  3.37it/s] 55%|█████▌    | 206114/371472 [5:20:48<13:04:29,  3.51it/s] 55%|█████▌    | 206115/371472 [5:20:49<12:44:13,  3.61it/s] 55%|█████▌    | 206116/371472 [5:20:49<12:30:01,  3.67it/s] 55%|█████▌    | 206117/371472 [5:20:49<13:01:15,  3.53it/s] 55%|█████▌    | 206118/371472 [5:20:49<12:51:48,  3.57it/s] 55%|█████▌    | 206119/371472 [5:20:50<12:45:40,  3.60it/s] 55%|█████▌    | 206120/371472 [5:20:50<12:45:54,  3.60it/s]                                                            {'loss': 2.7944, 'learning_rate': 5.008295804693055e-07, 'epoch': 8.88}
 55%|█████▌    | 206120/371472 [5:20:50<12:45:54,  3.60it/s] 55%|█████▌    | 206121/371472 [5:20:50<14:19:54,  3.20it/s] 55%|█████▌    | 206122/371472 [5:20:51<14:13:55,  3.23it/s] 55%|█████▌    | 206123/371472 [5:20:51<14:15:26,  3.22it/s] 55%|█████▌    | 206124/371472 [5:20:51<13:45:52,  3.34it/s] 55%|█████▌    | 206125/371472 [5:20:52<14:03:14,  3.27it/s] 55%|█████▌    | 206126/371472 [5:20:52<14:03:21,  3.27it/s] 55%|█████▌    | 206127/371472 [5:20:52<13:59:13,  3.28it/s] 55%|█████▌    | 206128/371472 [5:20:52<13:32:42,  3.39it/s] 55%|█████▌    | 206129/371472 [5:20:53<13:11:26,  3.48it/s] 55%|█████▌    | 206130/371472 [5:20:53<12:47:00,  3.59it/s] 55%|█████▌    | 206131/371472 [5:20:53<13:03:24,  3.52it/s] 55%|█████▌    | 206132/371472 [5:20:54<13:06:00,  3.51it/s] 55%|█████▌    | 206133/371472 [5:20:54<12:47:51,  3.59it/s] 55%|█████▌    | 206134/371472 [5:20:54<13:46:46,  3.33it/s] 55%|█████▌    | 206135/371472 [5:20:54<13:22:44,  3.43it/s] 55%|█████▌    | 206136/371472 [5:20:55<13:09:28,  3.49it/s] 55%|█████▌    | 206137/371472 [5:20:55<14:14:49,  3.22it/s] 55%|█████▌    | 206138/371472 [5:20:55<13:38:35,  3.37it/s] 55%|█████▌    | 206139/371472 [5:20:56<14:58:36,  3.07it/s] 55%|█████▌    | 206140/371472 [5:20:56<14:27:04,  3.18it/s]                                                            {'loss': 2.9096, 'learning_rate': 5.007810984938265e-07, 'epoch': 8.88}
 55%|█████▌    | 206140/371472 [5:20:56<14:27:04,  3.18it/s] 55%|█████▌    | 206141/371472 [5:20:56<14:34:43,  3.15it/s] 55%|█████▌    | 206142/371472 [5:20:57<13:58:27,  3.29it/s] 55%|█████▌    | 206143/371472 [5:20:57<13:48:49,  3.32it/s] 55%|█████▌    | 206144/371472 [5:20:57<13:27:31,  3.41it/s] 55%|█████▌    | 206145/371472 [5:20:58<14:02:24,  3.27it/s] 55%|█████▌    | 206146/371472 [5:20:58<13:43:34,  3.35it/s] 55%|█████▌    | 206147/371472 [5:20:58<13:53:32,  3.31it/s] 55%|█████▌    | 206148/371472 [5:20:58<13:14:47,  3.47it/s] 55%|█████▌    | 206149/371472 [5:20:59<12:45:18,  3.60it/s] 55%|█████▌    | 206150/371472 [5:20:59<13:28:59,  3.41it/s] 55%|█████▌    | 206151/371472 [5:20:59<13:24:16,  3.43it/s] 55%|█████▌    | 206152/371472 [5:20:59<13:08:48,  3.49it/s] 55%|█████▌    | 206153/371472 [5:21:00<12:58:45,  3.54it/s] 55%|█████▌    | 206154/371472 [5:21:00<12:37:54,  3.64it/s] 55%|█████▌    | 206155/371472 [5:21:00<12:27:42,  3.68it/s] 55%|█████▌    | 206156/371472 [5:21:01<12:38:20,  3.63it/s] 55%|█████▌    | 206157/371472 [5:21:01<12:31:18,  3.67it/s] 55%|█████▌    | 206158/371472 [5:21:01<12:42:39,  3.61it/s] 55%|█████▌    | 206159/371472 [5:21:01<13:24:09,  3.43it/s] 55%|█████▌    | 206160/371472 [5:21:02<12:46:27,  3.59it/s]                                                            {'loss': 3.059, 'learning_rate': 5.007326165183477e-07, 'epoch': 8.88}
 55%|█████▌    | 206160/371472 [5:21:02<12:46:27,  3.59it/s] 55%|█████▌    | 206161/371472 [5:21:02<12:35:21,  3.65it/s] 55%|█████▌    | 206162/371472 [5:21:02<12:34:45,  3.65it/s] 55%|█████▌    | 206163/371472 [5:21:03<13:15:47,  3.46it/s] 55%|█████▌    | 206164/371472 [5:21:03<13:01:57,  3.52it/s] 55%|█████▌    | 206165/371472 [5:21:03<13:03:14,  3.52it/s] 55%|█████▌    | 206166/371472 [5:21:03<12:57:02,  3.55it/s] 56%|█████▌    | 206167/371472 [5:21:04<12:32:12,  3.66it/s] 56%|█████▌    | 206168/371472 [5:21:04<13:41:54,  3.35it/s] 56%|█████▌    | 206169/371472 [5:21:04<12:59:10,  3.54it/s] 56%|█████▌    | 206170/371472 [5:21:05<12:47:06,  3.59it/s] 56%|█████▌    | 206171/371472 [5:21:05<12:22:14,  3.71it/s] 56%|█████▌    | 206172/371472 [5:21:05<12:25:15,  3.70it/s] 56%|█████▌    | 206173/371472 [5:21:05<12:20:36,  3.72it/s] 56%|█████▌    | 206174/371472 [5:21:06<13:08:33,  3.49it/s] 56%|█████▌    | 206175/371472 [5:21:06<13:10:49,  3.48it/s] 56%|█████▌    | 206176/371472 [5:21:06<12:59:22,  3.53it/s] 56%|█████▌    | 206177/371472 [5:21:06<12:57:24,  3.54it/s] 56%|█████▌    | 206178/371472 [5:21:07<13:43:20,  3.35it/s] 56%|█████▌    | 206179/371472 [5:21:07<13:25:47,  3.42it/s] 56%|█████▌    | 206180/371472 [5:21:07<13:43:37,  3.34it/s]                                                            {'loss': 3.1082, 'learning_rate': 5.006841345428687e-07, 'epoch': 8.88}
 56%|█████▌    | 206180/371472 [5:21:07<13:43:37,  3.34it/s] 56%|█████▌    | 206181/371472 [5:21:08<14:21:27,  3.20it/s] 56%|█████▌    | 206182/371472 [5:21:08<14:00:59,  3.28it/s] 56%|█████▌    | 206183/371472 [5:21:08<13:32:39,  3.39it/s] 56%|█████▌    | 206184/371472 [5:21:09<14:54:29,  3.08it/s] 56%|█████▌    | 206185/371472 [5:21:09<13:51:29,  3.31it/s] 56%|█████▌    | 206186/371472 [5:21:09<14:06:10,  3.26it/s] 56%|█████▌    | 206187/371472 [5:21:10<13:16:14,  3.46it/s] 56%|█████▌    | 206188/371472 [5:21:10<12:46:22,  3.59it/s] 56%|█████▌    | 206189/371472 [5:21:10<12:54:25,  3.56it/s] 56%|█████▌    | 206190/371472 [5:21:10<12:39:54,  3.63it/s] 56%|█████▌    | 206191/371472 [5:21:11<12:31:46,  3.66it/s] 56%|█████▌    | 206192/371472 [5:21:11<12:45:58,  3.60it/s] 56%|█████▌    | 206193/371472 [5:21:11<13:06:38,  3.50it/s] 56%|█████▌    | 206194/371472 [5:21:11<13:12:03,  3.48it/s] 56%|█████▌    | 206195/371472 [5:21:12<13:23:30,  3.43it/s] 56%|█████▌    | 206196/371472 [5:21:12<13:43:01,  3.35it/s] 56%|█████▌    | 206197/371472 [5:21:12<13:11:23,  3.48it/s] 56%|█████▌    | 206198/371472 [5:21:13<12:59:02,  3.54it/s] 56%|█████▌    | 206199/371472 [5:21:13<13:15:35,  3.46it/s] 56%|█████▌    | 206200/371472 [5:21:13<12:36:14,  3.64it/s]                                                            {'loss': 2.8891, 'learning_rate': 5.0063565256739e-07, 'epoch': 8.88}
 56%|█████▌    | 206200/371472 [5:21:13<12:36:14,  3.64it/s] 56%|█████▌    | 206201/371472 [5:21:13<12:12:25,  3.76it/s] 56%|█████▌    | 206202/371472 [5:21:14<12:00:24,  3.82it/s] 56%|█████▌    | 206203/371472 [5:21:14<13:04:46,  3.51it/s] 56%|█████▌    | 206204/371472 [5:21:14<12:22:39,  3.71it/s] 56%|█████▌    | 206205/371472 [5:21:15<12:22:59,  3.71it/s] 56%|█████▌    | 206206/371472 [5:21:15<12:26:39,  3.69it/s] 56%|█████▌    | 206207/371472 [5:21:15<12:16:12,  3.74it/s] 56%|█████▌    | 206208/371472 [5:21:15<12:27:43,  3.68it/s] 56%|█████▌    | 206209/371472 [5:21:16<11:56:39,  3.84it/s] 56%|█████▌    | 206210/371472 [5:21:16<12:12:19,  3.76it/s] 56%|█████▌    | 206211/371472 [5:21:16<12:00:40,  3.82it/s] 56%|█████▌    | 206212/371472 [5:21:16<12:00:50,  3.82it/s] 56%|█████▌    | 206213/371472 [5:21:17<11:45:09,  3.91it/s] 56%|█████▌    | 206214/371472 [5:21:17<12:23:12,  3.71it/s] 56%|█████▌    | 206215/371472 [5:21:17<11:52:06,  3.87it/s] 56%|█████▌    | 206216/371472 [5:21:17<11:38:59,  3.94it/s] 56%|█████▌    | 206217/371472 [5:21:18<12:42:34,  3.61it/s] 56%|█████▌    | 206218/371472 [5:21:18<12:56:25,  3.55it/s] 56%|█████▌    | 206219/371472 [5:21:18<12:35:58,  3.64it/s] 56%|█████▌    | 206220/371472 [5:21:18<12:11:27,  3.77it/s]                                                            {'loss': 2.8579, 'learning_rate': 5.00587170591911e-07, 'epoch': 8.88}
 56%|█████▌    | 206220/371472 [5:21:18<12:11:27,  3.77it/s] 56%|█████▌    | 206221/371472 [5:21:19<11:57:33,  3.84it/s] 56%|█████▌    | 206222/371472 [5:21:19<12:01:37,  3.82it/s] 56%|█████▌    | 206223/371472 [5:21:19<11:59:49,  3.83it/s] 56%|█████▌    | 206224/371472 [5:21:20<12:22:39,  3.71it/s] 56%|█████▌    | 206225/371472 [5:21:20<12:15:32,  3.74it/s] 56%|█████▌    | 206226/371472 [5:21:20<12:22:27,  3.71it/s] 56%|█████▌    | 206227/371472 [5:21:20<12:33:14,  3.66it/s] 56%|█████▌    | 206228/371472 [5:21:21<14:10:21,  3.24it/s] 56%|█████▌    | 206229/371472 [5:21:21<13:15:09,  3.46it/s] 56%|█████▌    | 206230/371472 [5:21:21<12:52:53,  3.56it/s] 56%|█████▌    | 206231/371472 [5:21:22<12:40:25,  3.62it/s] 56%|█████▌    | 206232/371472 [5:21:22<12:21:15,  3.72it/s] 56%|█████▌    | 206233/371472 [5:21:22<12:47:14,  3.59it/s] 56%|█████▌    | 206234/371472 [5:21:22<12:45:41,  3.60it/s] 56%|█████▌    | 206235/371472 [5:21:23<12:30:27,  3.67it/s] 56%|█████▌    | 206236/371472 [5:21:23<12:49:53,  3.58it/s] 56%|█████▌    | 206237/371472 [5:21:23<12:26:59,  3.69it/s] 56%|█████▌    | 206238/371472 [5:21:23<12:29:19,  3.68it/s] 56%|█████▌    | 206239/371472 [5:21:24<12:22:39,  3.71it/s] 56%|█████▌    | 206240/371472 [5:21:24<12:49:01,  3.58it/s]                                                            {'loss': 2.8946, 'learning_rate': 5.005386886164321e-07, 'epoch': 8.88}
 56%|█████▌    | 206240/371472 [5:21:24<12:49:01,  3.58it/s] 56%|█████▌    | 206241/371472 [5:21:24<12:31:24,  3.66it/s] 56%|█████▌    | 206242/371472 [5:21:25<12:17:20,  3.73it/s] 56%|█████▌    | 206243/371472 [5:21:25<12:55:33,  3.55it/s] 56%|█████▌    | 206244/371472 [5:21:25<12:56:06,  3.55it/s] 56%|█████▌    | 206245/371472 [5:21:25<12:29:25,  3.67it/s] 56%|█████▌    | 206246/371472 [5:21:26<13:15:46,  3.46it/s] 56%|█████▌    | 206247/371472 [5:21:26<13:02:43,  3.52it/s] 56%|█████▌    | 206248/371472 [5:21:26<13:17:33,  3.45it/s] 56%|█████▌    | 206249/371472 [5:21:27<12:36:10,  3.64it/s] 56%|█████▌    | 206250/371472 [5:21:27<13:20:54,  3.44it/s] 56%|█████▌    | 206251/371472 [5:21:27<13:23:41,  3.43it/s] 56%|█████▌    | 206252/371472 [5:21:27<14:17:32,  3.21it/s] 56%|█████▌    | 206253/371472 [5:21:28<14:58:53,  3.06it/s] 56%|█████▌    | 206254/371472 [5:21:28<17:28:16,  2.63it/s] 56%|█████▌    | 206255/371472 [5:21:29<15:49:21,  2.90it/s] 56%|█████▌    | 206256/371472 [5:21:29<14:39:33,  3.13it/s] 56%|█████▌    | 206257/371472 [5:21:29<13:59:46,  3.28it/s] 56%|█████▌    | 206258/371472 [5:21:29<13:42:56,  3.35it/s] 56%|█████▌    | 206259/371472 [5:21:30<15:07:56,  3.03it/s] 56%|█████▌    | 206260/371472 [5:21:30<13:53:35,  3.30it/s]                                                            {'loss': 2.9055, 'learning_rate': 5.004902066409532e-07, 'epoch': 8.88}
 56%|█████▌    | 206260/371472 [5:21:30<13:53:35,  3.30it/s] 56%|█████▌    | 206261/371472 [5:21:30<13:53:30,  3.30it/s] 56%|█████▌    | 206262/371472 [5:21:31<13:37:32,  3.37it/s] 56%|█████▌    | 206263/371472 [5:21:31<13:51:28,  3.31it/s] 56%|█████▌    | 206264/371472 [5:21:31<14:21:48,  3.19it/s] 56%|█████▌    | 206265/371472 [5:21:32<14:22:18,  3.19it/s] 56%|█████▌    | 206266/371472 [5:21:32<14:40:14,  3.13it/s] 56%|█████▌    | 206267/371472 [5:21:32<14:11:39,  3.23it/s] 56%|█████▌    | 206268/371472 [5:21:33<14:59:06,  3.06it/s] 56%|█████▌    | 206269/371472 [5:21:33<16:14:05,  2.83it/s] 56%|█████▌    | 206270/371472 [5:21:33<15:07:55,  3.03it/s] 56%|█████▌    | 206271/371472 [5:21:34<14:53:46,  3.08it/s] 56%|█████▌    | 206272/371472 [5:21:34<14:33:52,  3.15it/s] 56%|█████▌    | 206273/371472 [5:21:34<14:09:18,  3.24it/s] 56%|█████▌    | 206274/371472 [5:21:34<13:35:24,  3.38it/s] 56%|█████▌    | 206275/371472 [5:21:35<13:15:09,  3.46it/s] 56%|█████▌    | 206276/371472 [5:21:35<13:05:20,  3.51it/s] 56%|█████▌    | 206277/371472 [5:21:35<13:02:17,  3.52it/s] 56%|█████▌    | 206278/371472 [5:21:36<13:01:14,  3.52it/s] 56%|█████▌    | 206279/371472 [5:21:36<12:27:38,  3.68it/s] 56%|█████▌    | 206280/371472 [5:21:36<12:19:51,  3.72it/s]                                                            {'loss': 2.7593, 'learning_rate': 5.004417246654745e-07, 'epoch': 8.88}
 56%|█████▌    | 206280/371472 [5:21:36<12:19:51,  3.72it/s] 56%|█████▌    | 206281/371472 [5:21:36<12:26:19,  3.69it/s] 56%|█████▌    | 206282/371472 [5:21:37<12:27:19,  3.68it/s] 56%|█████▌    | 206283/371472 [5:21:37<12:36:24,  3.64it/s] 56%|█████▌    | 206284/371472 [5:21:37<13:02:48,  3.52it/s] 56%|█████▌    | 206285/371472 [5:21:38<12:44:22,  3.60it/s] 56%|█████▌    | 206286/371472 [5:21:38<13:05:48,  3.50it/s] 56%|█████▌    | 206287/371472 [5:21:38<13:33:55,  3.38it/s] 56%|█████▌    | 206288/371472 [5:21:38<13:27:40,  3.41it/s] 56%|█████▌    | 206289/371472 [5:21:39<13:56:01,  3.29it/s] 56%|█████▌    | 206290/371472 [5:21:39<13:33:29,  3.38it/s] 56%|█████▌    | 206291/371472 [5:21:39<13:34:38,  3.38it/s] 56%|█████▌    | 206292/371472 [5:21:40<13:25:04,  3.42it/s] 56%|█████▌    | 206293/371472 [5:21:40<12:59:52,  3.53it/s] 56%|█████▌    | 206294/371472 [5:21:40<13:13:27,  3.47it/s] 56%|█████▌    | 206295/371472 [5:21:40<12:48:56,  3.58it/s] 56%|█████▌    | 206296/371472 [5:21:41<13:43:13,  3.34it/s] 56%|█████▌    | 206297/371472 [5:21:41<13:05:39,  3.50it/s] 56%|█████▌    | 206298/371472 [5:21:41<13:23:48,  3.42it/s] 56%|█████▌    | 206299/371472 [5:21:42<13:04:47,  3.51it/s] 56%|█████▌    | 206300/371472 [5:21:42<13:18:31,  3.45it/s]                                                            {'loss': 3.1991, 'learning_rate': 5.003932426899954e-07, 'epoch': 8.89}
 56%|█████▌    | 206300/371472 [5:21:42<13:18:31,  3.45it/s] 56%|█████▌    | 206301/371472 [5:21:42<14:18:16,  3.21it/s] 56%|█████▌    | 206302/371472 [5:21:43<14:05:24,  3.26it/s] 56%|█████▌    | 206303/371472 [5:21:43<13:40:56,  3.35it/s] 56%|█████▌    | 206304/371472 [5:21:43<15:46:19,  2.91it/s] 56%|█████▌    | 206305/371472 [5:21:44<14:27:34,  3.17it/s] 56%|█████▌    | 206306/371472 [5:21:44<14:09:41,  3.24it/s] 56%|█████▌    | 206307/371472 [5:21:44<14:08:49,  3.24it/s] 56%|█████▌    | 206308/371472 [5:21:44<14:00:18,  3.28it/s] 56%|█████▌    | 206309/371472 [5:21:45<13:53:58,  3.30it/s] 56%|█████▌    | 206310/371472 [5:21:45<13:47:29,  3.33it/s] 56%|█████▌    | 206311/371472 [5:21:45<14:15:56,  3.22it/s] 56%|█████▌    | 206312/371472 [5:21:46<13:34:22,  3.38it/s] 56%|█████▌    | 206313/371472 [5:21:46<13:47:13,  3.33it/s] 56%|█████▌    | 206314/371472 [5:21:46<13:45:02,  3.34it/s] 56%|█████▌    | 206315/371472 [5:21:47<13:33:29,  3.38it/s] 56%|█████▌    | 206316/371472 [5:21:47<13:43:44,  3.34it/s] 56%|█████▌    | 206317/371472 [5:21:47<13:13:55,  3.47it/s] 56%|█████▌    | 206318/371472 [5:21:47<12:50:43,  3.57it/s] 56%|█████▌    | 206319/371472 [5:21:48<12:47:08,  3.59it/s] 56%|█████▌    | 206320/371472 [5:21:48<12:54:30,  3.55it/s]                                                            {'loss': 2.9014, 'learning_rate': 5.003447607145166e-07, 'epoch': 8.89}
 56%|█████▌    | 206320/371472 [5:21:48<12:54:30,  3.55it/s] 56%|█████▌    | 206321/371472 [5:21:48<12:37:42,  3.63it/s] 56%|█████▌    | 206322/371472 [5:21:48<12:34:05,  3.65it/s] 56%|█████▌    | 206323/371472 [5:21:49<12:44:39,  3.60it/s] 56%|█████▌    | 206324/371472 [5:21:49<12:40:49,  3.62it/s] 56%|█████▌    | 206325/371472 [5:21:49<14:32:22,  3.16it/s] 56%|█████▌    | 206326/371472 [5:21:50<14:04:13,  3.26it/s] 56%|█████▌    | 206327/371472 [5:21:50<13:23:32,  3.43it/s] 56%|█████▌    | 206328/371472 [5:21:50<13:04:34,  3.51it/s] 56%|█████▌    | 206329/371472 [5:21:50<13:00:15,  3.53it/s] 56%|█████▌    | 206330/371472 [5:21:51<12:43:20,  3.61it/s] 56%|█████▌    | 206331/371472 [5:21:51<12:20:24,  3.72it/s] 56%|█████▌    | 206332/371472 [5:21:51<14:14:22,  3.22it/s] 56%|█████▌    | 206333/371472 [5:21:52<13:30:37,  3.40it/s] 56%|█████▌    | 206334/371472 [5:21:52<13:36:18,  3.37it/s] 56%|█████▌    | 206335/371472 [5:21:52<13:19:09,  3.44it/s] 56%|█████▌    | 206336/371472 [5:21:53<13:56:00,  3.29it/s] 56%|█████▌    | 206337/371472 [5:21:53<13:35:24,  3.38it/s] 56%|█████▌    | 206338/371472 [5:21:53<13:22:41,  3.43it/s] 56%|█████▌    | 206339/371472 [5:21:53<13:51:45,  3.31it/s] 56%|█████▌    | 206340/371472 [5:21:54<13:12:54,  3.47it/s]                                                            {'loss': 2.9756, 'learning_rate': 5.002962787390377e-07, 'epoch': 8.89}
 56%|█████▌    | 206340/371472 [5:21:54<13:12:54,  3.47it/s] 56%|█████▌    | 206341/371472 [5:21:54<12:41:42,  3.61it/s] 56%|█████▌    | 206342/371472 [5:21:54<12:21:51,  3.71it/s] 56%|█████▌    | 206343/371472 [5:21:55<12:37:05,  3.64it/s] 56%|█████▌    | 206344/371472 [5:21:55<12:40:01,  3.62it/s] 56%|█████▌    | 206345/371472 [5:21:55<12:21:58,  3.71it/s] 56%|█████▌    | 206346/371472 [5:21:55<12:37:51,  3.63it/s] 56%|█████▌    | 206347/371472 [5:21:56<12:05:00,  3.80it/s] 56%|█████▌    | 206348/371472 [5:21:56<11:55:24,  3.85it/s] 56%|█████▌    | 206349/371472 [5:21:56<12:31:27,  3.66it/s] 56%|█████▌    | 206350/371472 [5:21:56<12:16:52,  3.73it/s] 56%|█████▌    | 206351/371472 [5:21:57<12:26:15,  3.69it/s] 56%|█████▌    | 206352/371472 [5:21:57<13:12:00,  3.47it/s] 56%|█████▌    | 206353/371472 [5:21:57<12:37:12,  3.63it/s] 56%|█████▌    | 206354/371472 [5:21:58<13:01:52,  3.52it/s] 56%|█████▌    | 206355/371472 [5:21:58<13:21:25,  3.43it/s] 56%|█████▌    | 206356/371472 [5:21:58<13:49:57,  3.32it/s] 56%|█████▌    | 206357/371472 [5:21:58<13:25:25,  3.42it/s] 56%|█████▌    | 206358/371472 [5:21:59<13:12:48,  3.47it/s] 56%|█████▌    | 206359/371472 [5:21:59<13:43:29,  3.34it/s] 56%|█████▌    | 206360/371472 [5:21:59<13:22:40,  3.43it/s]                                                            {'loss': 2.9106, 'learning_rate': 5.002477967635587e-07, 'epoch': 8.89}
 56%|█████▌    | 206360/371472 [5:21:59<13:22:40,  3.43it/s] 56%|█████▌    | 206361/371472 [5:22:00<13:10:05,  3.48it/s] 56%|█████▌    | 206362/371472 [5:22:00<12:52:51,  3.56it/s] 56%|█████▌    | 206363/371472 [5:22:00<12:40:38,  3.62it/s] 56%|█████▌    | 206364/371472 [5:22:00<12:33:52,  3.65it/s] 56%|█████▌    | 206365/371472 [5:22:01<12:41:48,  3.61it/s] 56%|█████▌    | 206366/371472 [5:22:01<12:39:59,  3.62it/s] 56%|█████▌    | 206367/371472 [5:22:01<12:45:18,  3.60it/s] 56%|█████▌    | 206368/371472 [5:22:02<12:48:18,  3.58it/s] 56%|█████▌    | 206369/371472 [5:22:02<13:21:58,  3.43it/s] 56%|█████▌    | 206370/371472 [5:22:02<13:23:18,  3.43it/s] 56%|█████▌    | 206371/371472 [5:22:02<13:52:40,  3.30it/s] 56%|█████▌    | 206372/371472 [5:22:03<13:19:18,  3.44it/s] 56%|█████▌    | 206373/371472 [5:22:03<13:19:44,  3.44it/s] 56%|█████▌    | 206374/371472 [5:22:03<13:12:49,  3.47it/s] 56%|█████▌    | 206375/371472 [5:22:04<13:39:04,  3.36it/s] 56%|█████▌    | 206376/371472 [5:22:04<14:16:01,  3.21it/s] 56%|█████▌    | 206377/371472 [5:22:04<14:06:44,  3.25it/s] 56%|█████▌    | 206378/371472 [5:22:05<13:50:20,  3.31it/s] 56%|█████▌    | 206379/371472 [5:22:05<13:01:16,  3.52it/s] 56%|█████▌    | 206380/371472 [5:22:05<12:55:24,  3.55it/s]                                                            {'loss': 2.915, 'learning_rate': 5.001993147880798e-07, 'epoch': 8.89}
 56%|█████▌    | 206380/371472 [5:22:05<12:55:24,  3.55it/s] 56%|█████▌    | 206381/371472 [5:22:05<13:59:27,  3.28it/s] 56%|█████▌    | 206382/371472 [5:22:06<14:00:01,  3.28it/s] 56%|█████▌    | 206383/371472 [5:22:06<13:29:42,  3.40it/s] 56%|█████▌    | 206384/371472 [5:22:06<13:36:14,  3.37it/s] 56%|█████▌    | 206385/371472 [5:22:07<13:18:00,  3.45it/s] 56%|█████▌    | 206386/371472 [5:22:07<13:25:32,  3.42it/s] 56%|█████▌    | 206387/371472 [5:22:07<14:07:28,  3.25it/s] 56%|█████▌    | 206388/371472 [5:22:07<13:20:36,  3.44it/s] 56%|█████▌    | 206389/371472 [5:22:08<12:53:03,  3.56it/s] 56%|█████▌    | 206390/371472 [5:22:08<12:28:01,  3.68it/s] 56%|█████▌    | 206391/371472 [5:22:08<12:31:09,  3.66it/s] 56%|█████▌    | 206392/371472 [5:22:09<12:35:55,  3.64it/s] 56%|█████▌    | 206393/371472 [5:22:09<12:55:35,  3.55it/s] 56%|█████▌    | 206394/371472 [5:22:09<12:58:44,  3.53it/s] 56%|█████▌    | 206395/371472 [5:22:09<13:12:00,  3.47it/s] 56%|█████▌    | 206396/371472 [5:22:10<13:07:46,  3.49it/s] 56%|█████▌    | 206397/371472 [5:22:10<13:40:44,  3.35it/s] 56%|█████▌    | 206398/371472 [5:22:10<13:41:21,  3.35it/s] 56%|█████▌    | 206399/371472 [5:22:11<13:45:16,  3.33it/s] 56%|█████▌    | 206400/371472 [5:22:11<13:05:22,  3.50it/s]                                                            {'loss': 2.9493, 'learning_rate': 5.00150832812601e-07, 'epoch': 8.89}
 56%|█████▌    | 206400/371472 [5:22:11<13:05:22,  3.50it/s] 56%|█████▌    | 206401/371472 [5:22:11<13:26:15,  3.41it/s] 56%|█████▌    | 206402/371472 [5:22:11<13:33:46,  3.38it/s] 56%|█████▌    | 206403/371472 [5:22:12<13:07:39,  3.49it/s] 56%|█████▌    | 206404/371472 [5:22:12<12:33:44,  3.65it/s] 56%|█████▌    | 206405/371472 [5:22:12<12:45:56,  3.59it/s] 56%|█████▌    | 206406/371472 [5:22:13<12:15:23,  3.74it/s] 56%|█████▌    | 206407/371472 [5:22:13<12:39:18,  3.62it/s] 56%|█████▌    | 206408/371472 [5:22:13<13:37:48,  3.36it/s] 56%|█████▌    | 206409/371472 [5:22:13<13:15:01,  3.46it/s] 56%|█████▌    | 206410/371472 [5:22:14<12:44:50,  3.60it/s] 56%|█████▌    | 206411/371472 [5:22:14<12:22:05,  3.71it/s] 56%|█████▌    | 206412/371472 [5:22:14<12:10:17,  3.77it/s] 56%|█████▌    | 206413/371472 [5:22:14<12:22:27,  3.71it/s] 56%|█████▌    | 206414/371472 [5:22:15<12:35:59,  3.64it/s] 56%|█████▌    | 206415/371472 [5:22:15<12:07:10,  3.78it/s] 56%|█████▌    | 206416/371472 [5:22:15<12:15:31,  3.74it/s] 56%|█████▌    | 206417/371472 [5:22:16<13:26:22,  3.41it/s] 56%|█████▌    | 206418/371472 [5:22:16<13:04:44,  3.51it/s] 56%|█████▌    | 206419/371472 [5:22:16<12:52:56,  3.56it/s] 56%|█████▌    | 206420/371472 [5:22:16<13:20:12,  3.44it/s]                                                            {'loss': 2.8006, 'learning_rate': 5.001023508371221e-07, 'epoch': 8.89}
 56%|█████▌    | 206420/371472 [5:22:16<13:20:12,  3.44it/s] 56%|█████▌    | 206421/371472 [5:22:17<13:22:39,  3.43it/s] 56%|█████▌    | 206422/371472 [5:22:17<12:56:46,  3.54it/s] 56%|█████▌    | 206423/371472 [5:22:17<13:32:40,  3.38it/s] 56%|█████▌    | 206424/371472 [5:22:18<13:23:58,  3.42it/s] 56%|█████▌    | 206425/371472 [5:22:18<12:52:12,  3.56it/s] 56%|█████▌    | 206426/371472 [5:22:18<12:32:21,  3.66it/s] 56%|█████▌    | 206427/371472 [5:22:18<12:27:46,  3.68it/s] 56%|█████▌    | 206428/371472 [5:22:19<12:42:35,  3.61it/s] 56%|█████▌    | 206429/371472 [5:22:19<13:13:52,  3.46it/s] 56%|█████▌    | 206430/371472 [5:22:19<13:07:53,  3.49it/s] 56%|█████▌    | 206431/371472 [5:22:20<12:48:32,  3.58it/s] 56%|█████▌    | 206432/371472 [5:22:20<12:40:34,  3.62it/s] 56%|█████▌    | 206433/371472 [5:22:20<12:42:25,  3.61it/s] 56%|█████▌    | 206434/371472 [5:22:20<12:51:37,  3.56it/s] 56%|█████▌    | 206435/371472 [5:22:21<12:49:21,  3.58it/s] 56%|█████▌    | 206436/371472 [5:22:21<13:15:49,  3.46it/s] 56%|█████▌    | 206437/371472 [5:22:21<14:10:48,  3.23it/s] 56%|█████▌    | 206438/371472 [5:22:22<13:54:19,  3.30it/s] 56%|█████▌    | 206439/371472 [5:22:22<13:27:25,  3.41it/s] 56%|█████▌    | 206440/371472 [5:22:22<13:57:28,  3.28it/s]                                                            {'loss': 3.1666, 'learning_rate': 5.000538688616432e-07, 'epoch': 8.89}
 56%|█████▌    | 206440/371472 [5:22:22<13:57:28,  3.28it/s] 56%|█████▌    | 206441/371472 [5:22:23<13:37:09,  3.37it/s] 56%|█████▌    | 206442/371472 [5:22:23<13:07:35,  3.49it/s] 56%|█████▌    | 206443/371472 [5:22:23<13:22:27,  3.43it/s] 56%|█████▌    | 206444/371472 [5:22:23<13:09:16,  3.48it/s] 56%|█████▌    | 206445/371472 [5:22:24<13:04:21,  3.51it/s] 56%|█████▌    | 206446/371472 [5:22:24<12:38:55,  3.62it/s] 56%|█████▌    | 206447/371472 [5:22:24<12:38:12,  3.63it/s] 56%|█████▌    | 206448/371472 [5:22:24<12:30:35,  3.66it/s] 56%|█████▌    | 206449/371472 [5:22:25<12:27:06,  3.68it/s] 56%|█████▌    | 206450/371472 [5:22:25<13:22:20,  3.43it/s] 56%|█████▌    | 206451/371472 [5:22:25<12:59:45,  3.53it/s] 56%|█████▌    | 206452/371472 [5:22:26<12:47:02,  3.59it/s] 56%|█████▌    | 206453/371472 [5:22:26<13:07:22,  3.49it/s] 56%|█████▌    | 206454/371472 [5:22:26<14:24:10,  3.18it/s] 56%|█████▌    | 206455/371472 [5:22:27<14:10:21,  3.23it/s] 56%|█████▌    | 206456/371472 [5:22:27<13:46:14,  3.33it/s] 56%|█████▌    | 206457/371472 [5:22:27<13:14:55,  3.46it/s] 56%|█████▌    | 206458/371472 [5:22:27<12:38:18,  3.63it/s] 56%|█████▌    | 206459/371472 [5:22:28<12:47:35,  3.58it/s] 56%|█████▌    | 206460/371472 [5:22:28<13:00:31,  3.52it/s]                                                            {'loss': 2.8535, 'learning_rate': 5.000053868861643e-07, 'epoch': 8.89}
 56%|█████▌    | 206460/371472 [5:22:28<13:00:31,  3.52it/s] 56%|█████▌    | 206461/371472 [5:22:28<13:07:02,  3.49it/s] 56%|█████▌    | 206462/371472 [5:22:29<12:50:58,  3.57it/s] 56%|█████▌    | 206463/371472 [5:22:29<12:31:27,  3.66it/s] 56%|█████▌    | 206464/371472 [5:22:29<12:19:58,  3.72it/s] 56%|█████▌    | 206465/371472 [5:22:29<12:41:42,  3.61it/s] 56%|█████▌    | 206466/371472 [5:22:30<12:25:01,  3.69it/s] 56%|█████▌    | 206467/371472 [5:22:30<12:49:43,  3.57it/s] 56%|█████▌    | 206468/371472 [5:22:30<13:01:27,  3.52it/s] 56%|█████▌    | 206469/371472 [5:22:30<13:04:00,  3.51it/s] 56%|█████▌    | 206470/371472 [5:22:31<13:42:48,  3.34it/s] 56%|█████▌    | 206471/371472 [5:22:31<13:53:55,  3.30it/s] 56%|█████▌    | 206472/371472 [5:22:31<14:06:05,  3.25it/s] 56%|█████▌    | 206473/371472 [5:22:32<13:42:58,  3.34it/s] 56%|█████▌    | 206474/371472 [5:22:32<13:19:17,  3.44it/s] 56%|█████▌    | 206475/371472 [5:22:32<12:49:56,  3.57it/s] 56%|█████▌    | 206476/371472 [5:22:33<13:36:02,  3.37it/s] 56%|█████▌    | 206477/371472 [5:22:33<13:24:21,  3.42it/s] 56%|█████▌    | 206478/371472 [5:22:33<12:55:45,  3.54it/s] 56%|█████▌    | 206479/371472 [5:22:33<14:02:46,  3.26it/s] 56%|█████▌    | 206480/371472 [5:22:34<13:23:35,  3.42it/s]                                                            {'loss': 2.898, 'learning_rate': 4.999569049106854e-07, 'epoch': 8.89}
 56%|█████▌    | 206480/371472 [5:22:34<13:23:35,  3.42it/s] 56%|█████▌    | 206481/371472 [5:22:34<13:26:17,  3.41it/s] 56%|█████▌    | 206482/371472 [5:22:34<13:53:45,  3.30it/s] 56%|█████▌    | 206483/371472 [5:22:35<13:29:05,  3.40it/s] 56%|█████▌    | 206484/371472 [5:22:35<12:52:50,  3.56it/s] 56%|█████▌    | 206485/371472 [5:22:35<12:34:53,  3.64it/s] 56%|█████▌    | 206486/371472 [5:22:35<12:24:04,  3.70it/s] 56%|█████▌    | 206487/371472 [5:22:36<12:02:16,  3.81it/s] 56%|█████▌    | 206488/371472 [5:22:36<12:21:24,  3.71it/s] 56%|█████▌    | 206489/371472 [5:22:36<13:17:50,  3.45it/s] 56%|█████▌    | 206490/371472 [5:22:36<12:35:10,  3.64it/s] 56%|█████▌    | 206491/371472 [5:22:37<13:15:01,  3.46it/s] 56%|█████▌    | 206492/371472 [5:22:37<13:22:49,  3.42it/s] 56%|█████▌    | 206493/371472 [5:22:37<12:58:28,  3.53it/s] 56%|█████▌    | 206494/371472 [5:22:38<15:17:36,  3.00it/s] 56%|█████▌    | 206495/371472 [5:22:38<14:22:45,  3.19it/s] 56%|█████▌    | 206496/371472 [5:22:38<14:12:16,  3.23it/s] 56%|█████▌    | 206497/371472 [5:22:39<13:27:50,  3.40it/s] 56%|█████▌    | 206498/371472 [5:22:39<14:06:52,  3.25it/s] 56%|█████▌    | 206499/371472 [5:22:39<14:15:38,  3.21it/s] 56%|█████▌    | 206500/371472 [5:22:40<14:02:37,  3.26it/s]                                                            {'loss': 2.8216, 'learning_rate': 4.999084229352065e-07, 'epoch': 8.89}
 56%|█████▌    | 206500/371472 [5:22:40<14:02:37,  3.26it/s] 56%|█████▌    | 206501/371472 [5:22:40<13:20:34,  3.43it/s] 56%|█████▌    | 206502/371472 [5:22:40<13:02:30,  3.51it/s] 56%|█████▌    | 206503/371472 [5:22:40<12:40:24,  3.62it/s] 56%|█████▌    | 206504/371472 [5:22:41<12:59:11,  3.53it/s] 56%|█████▌    | 206505/371472 [5:22:41<12:42:56,  3.60it/s] 56%|█████▌    | 206506/371472 [5:22:41<13:06:21,  3.50it/s] 56%|█████▌    | 206507/371472 [5:22:42<12:45:24,  3.59it/s] 56%|█████▌    | 206508/371472 [5:22:42<12:52:06,  3.56it/s] 56%|█████▌    | 206509/371472 [5:22:42<12:42:10,  3.61it/s] 56%|█████▌    | 206510/371472 [5:22:42<12:39:21,  3.62it/s] 56%|█████▌    | 206511/371472 [5:22:43<12:34:15,  3.65it/s] 56%|█████▌    | 206512/371472 [5:22:43<12:29:09,  3.67it/s] 56%|█████▌    | 206513/371472 [5:22:43<12:47:00,  3.58it/s] 56%|█████▌    | 206514/371472 [5:22:43<12:46:04,  3.59it/s] 56%|█████▌    | 206515/371472 [5:22:44<12:31:40,  3.66it/s] 56%|█████▌    | 206516/371472 [5:22:44<13:04:58,  3.50it/s] 56%|█████▌    | 206517/371472 [5:22:44<12:36:40,  3.63it/s] 56%|█████▌    | 206518/371472 [5:22:45<12:25:29,  3.69it/s] 56%|█████▌    | 206519/371472 [5:22:45<12:07:48,  3.78it/s] 56%|█████▌    | 206520/371472 [5:22:45<12:35:46,  3.64it/s]                                                            {'loss': 2.9798, 'learning_rate': 4.998599409597277e-07, 'epoch': 8.9}
 56%|█████▌    | 206520/371472 [5:22:45<12:35:46,  3.64it/s] 56%|█████▌    | 206521/371472 [5:22:45<12:22:26,  3.70it/s] 56%|█████▌    | 206522/371472 [5:22:46<12:43:47,  3.60it/s] 56%|█████▌    | 206523/371472 [5:22:46<12:34:08,  3.65it/s] 56%|█████▌    | 206524/371472 [5:22:46<13:59:12,  3.28it/s] 56%|█████▌    | 206525/371472 [5:22:47<13:54:04,  3.30it/s] 56%|█████▌    | 206526/371472 [5:22:47<13:25:37,  3.41it/s] 56%|█████▌    | 206527/371472 [5:22:47<13:21:13,  3.43it/s] 56%|█████▌    | 206528/371472 [5:22:47<13:06:14,  3.50it/s] 56%|█████▌    | 206529/371472 [5:22:48<12:58:59,  3.53it/s] 56%|█████▌    | 206530/371472 [5:22:48<13:13:42,  3.46it/s] 56%|█████▌    | 206531/371472 [5:22:48<13:09:51,  3.48it/s] 56%|█████▌    | 206532/371472 [5:22:49<13:05:32,  3.50it/s] 56%|█████▌    | 206533/371472 [5:22:49<13:42:50,  3.34it/s] 56%|█████▌    | 206534/371472 [5:22:49<13:19:29,  3.44it/s] 56%|█████▌    | 206535/371472 [5:22:49<13:43:10,  3.34it/s] 56%|█████▌    | 206536/371472 [5:22:50<13:32:00,  3.39it/s] 56%|█████▌    | 206537/371472 [5:22:50<12:43:32,  3.60it/s] 56%|█████▌    | 206538/371472 [5:22:50<12:35:56,  3.64it/s] 56%|█████▌    | 206539/371472 [5:22:51<13:06:31,  3.49it/s] 56%|█████▌    | 206540/371472 [5:22:51<13:12:02,  3.47it/s]                                                            {'loss': 2.8857, 'learning_rate': 4.998114589842487e-07, 'epoch': 8.9}
 56%|█████▌    | 206540/371472 [5:22:51<13:12:02,  3.47it/s] 56%|█████▌    | 206541/371472 [5:22:51<12:49:54,  3.57it/s] 56%|█████▌    | 206542/371472 [5:22:51<12:56:29,  3.54it/s] 56%|█████▌    | 206543/371472 [5:22:52<12:43:54,  3.60it/s] 56%|█████▌    | 206544/371472 [5:22:52<12:30:28,  3.66it/s] 56%|█████▌    | 206545/371472 [5:22:52<12:16:52,  3.73it/s] 56%|█████▌    | 206546/371472 [5:22:52<12:19:53,  3.72it/s] 56%|█████▌    | 206547/371472 [5:22:53<12:07:58,  3.78it/s] 56%|█████▌    | 206548/371472 [5:22:53<12:20:53,  3.71it/s] 56%|█████▌    | 206549/371472 [5:22:53<12:29:13,  3.67it/s] 56%|█████▌    | 206550/371472 [5:22:54<12:32:18,  3.65it/s] 56%|█████▌    | 206551/371472 [5:22:54<12:35:02,  3.64it/s] 56%|█████▌    | 206552/371472 [5:22:54<12:43:24,  3.60it/s] 56%|█████▌    | 206553/371472 [5:22:54<13:03:00,  3.51it/s] 56%|█████▌    | 206554/371472 [5:22:55<12:43:07,  3.60it/s] 56%|█████▌    | 206555/371472 [5:22:55<13:16:19,  3.45it/s] 56%|█████▌    | 206556/371472 [5:22:55<12:50:57,  3.57it/s] 56%|█████▌    | 206557/371472 [5:22:56<14:09:34,  3.24it/s] 56%|█████▌    | 206558/371472 [5:22:56<13:42:58,  3.34it/s] 56%|█████▌    | 206559/371472 [5:22:56<13:15:15,  3.46it/s] 56%|█████▌    | 206560/371472 [5:22:56<13:11:37,  3.47it/s]                                                            {'loss': 2.9028, 'learning_rate': 4.997629770087698e-07, 'epoch': 8.9}
 56%|█████▌    | 206560/371472 [5:22:56<13:11:37,  3.47it/s] 56%|█████▌    | 206561/371472 [5:22:57<13:51:12,  3.31it/s] 56%|█████▌    | 206562/371472 [5:22:57<13:29:50,  3.39it/s] 56%|█████▌    | 206563/371472 [5:22:57<12:54:47,  3.55it/s] 56%|█████▌    | 206564/371472 [5:22:58<12:38:19,  3.62it/s] 56%|█████▌    | 206565/371472 [5:22:58<12:52:59,  3.56it/s] 56%|█████▌    | 206566/371472 [5:22:58<12:55:02,  3.55it/s] 56%|█████▌    | 206567/371472 [5:22:58<13:08:55,  3.48it/s] 56%|█████▌    | 206568/371472 [5:22:59<12:48:10,  3.58it/s] 56%|█████▌    | 206569/371472 [5:22:59<12:33:40,  3.65it/s] 56%|█████▌    | 206570/371472 [5:22:59<12:47:56,  3.58it/s] 56%|█████▌    | 206571/371472 [5:23:00<13:43:34,  3.34it/s] 56%|█████▌    | 206572/371472 [5:23:00<13:22:57,  3.42it/s] 56%|█████▌    | 206573/371472 [5:23:00<13:04:32,  3.50it/s] 56%|█████▌    | 206574/371472 [5:23:01<13:31:25,  3.39it/s] 56%|█████▌    | 206575/371472 [5:23:01<13:33:00,  3.38it/s] 56%|█████▌    | 206576/371472 [5:23:01<12:51:01,  3.56it/s] 56%|█████▌    | 206577/371472 [5:23:01<12:19:07,  3.72it/s] 56%|█████▌    | 206578/371472 [5:23:02<12:42:08,  3.61it/s] 56%|█████▌    | 206579/371472 [5:23:02<13:41:19,  3.35it/s] 56%|█████▌    | 206580/371472 [5:23:02<14:03:46,  3.26it/s]                                                            {'loss': 2.8683, 'learning_rate': 4.99714495033291e-07, 'epoch': 8.9}
 56%|█████▌    | 206580/371472 [5:23:02<14:03:46,  3.26it/s] 56%|█████▌    | 206581/371472 [5:23:03<13:42:08,  3.34it/s] 56%|█████▌    | 206582/371472 [5:23:03<13:23:33,  3.42it/s] 56%|█████▌    | 206583/371472 [5:23:03<12:53:10,  3.55it/s] 56%|█████▌    | 206584/371472 [5:23:03<12:57:26,  3.53it/s] 56%|█████▌    | 206585/371472 [5:23:04<13:39:46,  3.35it/s] 56%|█████▌    | 206586/371472 [5:23:04<13:32:59,  3.38it/s] 56%|█████▌    | 206587/371472 [5:23:04<13:34:44,  3.37it/s] 56%|█████▌    | 206588/371472 [5:23:05<13:29:25,  3.40it/s] 56%|█████▌    | 206589/371472 [5:23:05<12:51:14,  3.56it/s] 56%|█████▌    | 206590/371472 [5:23:05<13:05:46,  3.50it/s] 56%|█████▌    | 206591/371472 [5:23:05<12:56:37,  3.54it/s] 56%|█████▌    | 206592/371472 [5:23:06<12:22:44,  3.70it/s] 56%|█████▌    | 206593/371472 [5:23:06<12:21:09,  3.71it/s] 56%|█████▌    | 206594/371472 [5:23:06<13:19:38,  3.44it/s] 56%|█████▌    | 206595/371472 [5:23:07<12:59:19,  3.53it/s] 56%|█████▌    | 206596/371472 [5:23:07<13:13:20,  3.46it/s] 56%|█████▌    | 206597/371472 [5:23:07<12:36:32,  3.63it/s] 56%|█████▌    | 206598/371472 [5:23:07<12:05:28,  3.79it/s] 56%|█████▌    | 206599/371472 [5:23:08<11:47:14,  3.89it/s] 56%|█████▌    | 206600/371472 [5:23:08<11:43:49,  3.90it/s]                                                            {'loss': 2.9918, 'learning_rate': 4.99666013057812e-07, 'epoch': 8.9}
 56%|█████▌    | 206600/371472 [5:23:08<11:43:49,  3.90it/s] 56%|█████▌    | 206601/371472 [5:23:08<11:45:41,  3.89it/s] 56%|█████▌    | 206602/371472 [5:23:08<12:10:32,  3.76it/s] 56%|█████▌    | 206603/371472 [5:23:09<12:21:20,  3.71it/s] 56%|█████▌    | 206604/371472 [5:23:09<12:06:24,  3.78it/s] 56%|█████▌    | 206605/371472 [5:23:09<12:14:33,  3.74it/s] 56%|█████▌    | 206606/371472 [5:23:09<11:51:10,  3.86it/s] 56%|█████▌    | 206607/371472 [5:23:10<11:54:02,  3.85it/s] 56%|█████▌    | 206608/371472 [5:23:10<11:52:24,  3.86it/s] 56%|█████▌    | 206609/371472 [5:23:10<12:10:45,  3.76it/s] 56%|█████▌    | 206610/371472 [5:23:11<12:49:09,  3.57it/s] 56%|█████▌    | 206611/371472 [5:23:11<12:33:23,  3.65it/s] 56%|█████▌    | 206612/371472 [5:23:11<13:40:25,  3.35it/s] 56%|█████▌    | 206613/371472 [5:23:11<13:13:30,  3.46it/s] 56%|█████▌    | 206614/371472 [5:23:12<12:56:37,  3.54it/s] 56%|█████▌    | 206615/371472 [5:23:12<13:05:29,  3.50it/s] 56%|█████▌    | 206616/371472 [5:23:12<13:24:35,  3.41it/s] 56%|█████▌    | 206617/371472 [5:23:13<13:06:43,  3.49it/s] 56%|█████▌    | 206618/371472 [5:23:13<13:13:46,  3.46it/s] 56%|█████▌    | 206619/371472 [5:23:13<13:38:11,  3.36it/s] 56%|█████▌    | 206620/371472 [5:23:13<13:28:40,  3.40it/s]                                                            {'loss': 2.77, 'learning_rate': 4.996175310823331e-07, 'epoch': 8.9}
 56%|█████▌    | 206620/371472 [5:23:13<13:28:40,  3.40it/s] 56%|█████▌    | 206621/371472 [5:23:14<14:28:09,  3.16it/s] 56%|█████▌    | 206622/371472 [5:23:14<14:44:08,  3.11it/s] 56%|█████▌    | 206623/371472 [5:23:14<14:05:42,  3.25it/s] 56%|█████▌    | 206624/371472 [5:23:15<13:59:39,  3.27it/s] 56%|█████▌    | 206625/371472 [5:23:15<13:25:55,  3.41it/s] 56%|█████▌    | 206626/371472 [5:23:15<13:11:51,  3.47it/s] 56%|█████▌    | 206627/371472 [5:23:16<12:54:48,  3.55it/s] 56%|█████▌    | 206628/371472 [5:23:16<12:55:39,  3.54it/s] 56%|█████▌    | 206629/371472 [5:23:16<12:45:29,  3.59it/s] 56%|█████▌    | 206630/371472 [5:23:16<13:03:56,  3.50it/s] 56%|█████▌    | 206631/371472 [5:23:17<13:02:48,  3.51it/s] 56%|█████▌    | 206632/371472 [5:23:17<12:56:53,  3.54it/s] 56%|█████▌    | 206633/371472 [5:23:17<12:34:44,  3.64it/s] 56%|█████▌    | 206634/371472 [5:23:17<12:51:37,  3.56it/s] 56%|█████▌    | 206635/371472 [5:23:18<12:52:45,  3.56it/s] 56%|█████▌    | 206636/371472 [5:23:18<13:07:22,  3.49it/s] 56%|█████▌    | 206637/371472 [5:23:18<13:39:13,  3.35it/s] 56%|█████▌    | 206638/371472 [5:23:19<13:28:21,  3.40it/s] 56%|█████▌    | 206639/371472 [5:23:19<13:05:09,  3.50it/s] 56%|█████▌    | 206640/371472 [5:23:19<13:19:44,  3.44it/s]                                                            {'loss': 3.0373, 'learning_rate': 4.995690491068542e-07, 'epoch': 8.9}
 56%|█████▌    | 206640/371472 [5:23:19<13:19:44,  3.44it/s] 56%|█████▌    | 206641/371472 [5:23:20<13:18:40,  3.44it/s] 56%|█████▌    | 206642/371472 [5:23:20<12:51:13,  3.56it/s] 56%|█████▌    | 206643/371472 [5:23:20<12:46:31,  3.58it/s] 56%|█████▌    | 206644/371472 [5:23:20<12:34:59,  3.64it/s] 56%|█████▌    | 206645/371472 [5:23:21<12:20:22,  3.71it/s] 56%|█████▌    | 206646/371472 [5:23:21<13:26:25,  3.41it/s] 56%|█████▌    | 206647/371472 [5:23:21<13:19:16,  3.44it/s] 56%|█████▌    | 206648/371472 [5:23:21<12:52:23,  3.56it/s] 56%|█████▌    | 206649/371472 [5:23:22<13:02:01,  3.51it/s] 56%|█████▌    | 206650/371472 [5:23:22<12:34:32,  3.64it/s] 56%|█████▌    | 206651/371472 [5:23:22<12:29:39,  3.66it/s] 56%|█████▌    | 206652/371472 [5:23:23<12:15:19,  3.74it/s] 56%|█████▌    | 206653/371472 [5:23:23<12:40:17,  3.61it/s] 56%|█████▌    | 206654/371472 [5:23:23<12:12:37,  3.75it/s] 56%|█████▌    | 206655/371472 [5:23:23<12:08:37,  3.77it/s] 56%|█████▌    | 206656/371472 [5:23:24<11:55:51,  3.84it/s] 56%|█████▌    | 206657/371472 [5:23:24<12:26:47,  3.68it/s] 56%|█████▌    | 206658/371472 [5:23:24<12:36:45,  3.63it/s] 56%|█████▌    | 206659/371472 [5:23:24<12:56:07,  3.54it/s] 56%|█████▌    | 206660/371472 [5:23:25<12:29:45,  3.66it/s]                                                            {'loss': 3.0472, 'learning_rate': 4.995205671313753e-07, 'epoch': 8.9}
 56%|█████▌    | 206660/371472 [5:23:25<12:29:45,  3.66it/s] 56%|█████▌    | 206661/371472 [5:23:25<13:00:17,  3.52it/s] 56%|█████▌    | 206662/371472 [5:23:25<14:51:51,  3.08it/s] 56%|█████▌    | 206663/371472 [5:23:26<14:11:09,  3.23it/s] 56%|█████▌    | 206664/371472 [5:23:26<13:48:15,  3.32it/s] 56%|█████▌    | 206665/371472 [5:23:26<13:24:11,  3.42it/s] 56%|█████▌    | 206666/371472 [5:23:27<13:47:55,  3.32it/s] 56%|█████▌    | 206667/371472 [5:23:27<14:11:31,  3.23it/s] 56%|█████▌    | 206668/371472 [5:23:27<14:34:30,  3.14it/s] 56%|█████▌    | 206669/371472 [5:23:28<13:36:27,  3.36it/s] 56%|█████▌    | 206670/371472 [5:23:28<13:13:59,  3.46it/s] 56%|█████▌    | 206671/371472 [5:23:28<12:59:43,  3.52it/s] 56%|█████▌    | 206672/371472 [5:23:28<13:31:20,  3.39it/s] 56%|█████▌    | 206673/371472 [5:23:29<13:13:59,  3.46it/s] 56%|█████▌    | 206674/371472 [5:23:29<12:52:07,  3.56it/s] 56%|█████▌    | 206675/371472 [5:23:29<13:05:33,  3.50it/s] 56%|█████▌    | 206676/371472 [5:23:30<12:58:04,  3.53it/s] 56%|█████▌    | 206677/371472 [5:23:30<12:37:53,  3.62it/s] 56%|█████▌    | 206678/371472 [5:23:30<13:12:56,  3.46it/s] 56%|█████▌    | 206679/371472 [5:23:30<13:54:39,  3.29it/s] 56%|█████▌    | 206680/371472 [5:23:31<14:13:53,  3.22it/s]                                                            {'loss': 2.7217, 'learning_rate': 4.994720851558964e-07, 'epoch': 8.9}
 56%|█████▌    | 206680/371472 [5:23:31<14:13:53,  3.22it/s] 56%|█████▌    | 206681/371472 [5:23:31<13:39:40,  3.35it/s] 56%|█████▌    | 206682/371472 [5:23:31<13:14:50,  3.46it/s] 56%|█████▌    | 206683/371472 [5:23:32<12:44:24,  3.59it/s] 56%|█████▌    | 206684/371472 [5:23:32<12:23:06,  3.70it/s] 56%|█████▌    | 206685/371472 [5:23:32<12:04:19,  3.79it/s] 56%|█████▌    | 206686/371472 [5:23:32<12:31:00,  3.66it/s] 56%|█████▌    | 206687/371472 [5:23:33<12:18:29,  3.72it/s] 56%|█████▌    | 206688/371472 [5:23:33<12:51:19,  3.56it/s] 56%|█████▌    | 206689/371472 [5:23:33<13:04:36,  3.50it/s] 56%|█████▌    | 206690/371472 [5:23:34<13:24:17,  3.41it/s] 56%|█████▌    | 206691/371472 [5:23:34<13:52:00,  3.30it/s] 56%|█████▌    | 206692/371472 [5:23:34<14:12:48,  3.22it/s] 56%|█████▌    | 206693/371472 [5:23:34<13:41:18,  3.34it/s] 56%|█████▌    | 206694/371472 [5:23:35<13:10:12,  3.48it/s] 56%|█████▌    | 206695/371472 [5:23:35<13:07:51,  3.49it/s] 56%|█████▌    | 206696/371472 [5:23:35<13:14:54,  3.45it/s] 56%|█████▌    | 206697/371472 [5:23:36<12:53:59,  3.55it/s] 56%|█████▌    | 206698/371472 [5:23:36<13:17:46,  3.44it/s] 56%|█████▌    | 206699/371472 [5:23:36<13:42:41,  3.34it/s] 56%|█████▌    | 206700/371472 [5:23:36<13:25:45,  3.41it/s]                                                            {'loss': 3.0951, 'learning_rate': 4.994236031804176e-07, 'epoch': 8.9}
 56%|█████▌    | 206700/371472 [5:23:36<13:25:45,  3.41it/s] 56%|█████▌    | 206701/371472 [5:23:37<13:34:08,  3.37it/s] 56%|█████▌    | 206702/371472 [5:23:37<13:15:12,  3.45it/s] 56%|█████▌    | 206703/371472 [5:23:37<13:05:16,  3.50it/s] 56%|█████▌    | 206704/371472 [5:23:38<13:11:42,  3.47it/s] 56%|█████▌    | 206705/371472 [5:23:38<13:30:36,  3.39it/s] 56%|█████▌    | 206706/371472 [5:23:38<13:06:34,  3.49it/s] 56%|█████▌    | 206707/371472 [5:23:38<12:38:58,  3.62it/s] 56%|█████▌    | 206708/371472 [5:23:39<12:32:12,  3.65it/s] 56%|█████▌    | 206709/371472 [5:23:39<12:25:34,  3.68it/s] 56%|█████▌    | 206710/371472 [5:23:39<12:20:48,  3.71it/s] 56%|█████▌    | 206711/371472 [5:23:40<13:22:45,  3.42it/s] 56%|█████▌    | 206712/371472 [5:23:40<12:55:56,  3.54it/s] 56%|█████▌    | 206713/371472 [5:23:40<14:55:12,  3.07it/s] 56%|█████▌    | 206714/371472 [5:23:41<14:57:38,  3.06it/s] 56%|█████▌    | 206715/371472 [5:23:41<13:57:16,  3.28it/s] 56%|█████▌    | 206716/371472 [5:23:41<13:31:22,  3.38it/s] 56%|█████▌    | 206717/371472 [5:23:41<13:26:22,  3.41it/s] 56%|█████▌    | 206718/371472 [5:23:42<13:01:25,  3.51it/s] 56%|█████▌    | 206719/371472 [5:23:42<13:00:29,  3.52it/s] 56%|█████▌    | 206720/371472 [5:23:42<12:52:30,  3.55it/s]                                                            {'loss': 3.1663, 'learning_rate': 4.993751212049387e-07, 'epoch': 8.9}
 56%|█████▌    | 206720/371472 [5:23:42<12:52:30,  3.55it/s] 56%|█████▌    | 206721/371472 [5:23:42<12:28:32,  3.67it/s] 56%|█████▌    | 206722/371472 [5:23:43<12:19:17,  3.71it/s] 56%|█████▌    | 206723/371472 [5:23:43<12:50:37,  3.56it/s] 56%|█████▌    | 206724/371472 [5:23:43<12:31:42,  3.65it/s] 56%|█████▌    | 206725/371472 [5:23:44<13:47:16,  3.32it/s] 56%|█████▌    | 206726/371472 [5:23:44<13:18:52,  3.44it/s] 56%|█████▌    | 206727/371472 [5:23:44<13:42:29,  3.34it/s] 56%|█████▌    | 206728/371472 [5:23:45<13:25:23,  3.41it/s] 56%|█████▌    | 206729/371472 [5:23:45<13:38:24,  3.35it/s] 56%|█████▌    | 206730/371472 [5:23:45<12:55:13,  3.54it/s] 56%|█████▌    | 206731/371472 [5:23:45<12:41:13,  3.61it/s] 56%|█████▌    | 206732/371472 [5:23:46<12:44:10,  3.59it/s] 56%|█████▌    | 206733/371472 [5:23:46<12:42:06,  3.60it/s] 56%|█████▌    | 206734/371472 [5:23:46<12:45:46,  3.59it/s] 56%|█████▌    | 206735/371472 [5:23:47<13:17:54,  3.44it/s] 56%|█████▌    | 206736/371472 [5:23:47<13:05:38,  3.49it/s] 56%|█████▌    | 206737/371472 [5:23:47<13:06:59,  3.49it/s] 56%|█████▌    | 206738/371472 [5:23:47<12:28:52,  3.67it/s] 56%|█████▌    | 206739/371472 [5:23:48<12:31:55,  3.65it/s] 56%|█████▌    | 206740/371472 [5:23:48<12:23:40,  3.69it/s]                                                            {'loss': 3.096, 'learning_rate': 4.993266392294597e-07, 'epoch': 8.9}
 56%|█████▌    | 206740/371472 [5:23:48<12:23:40,  3.69it/s] 56%|█████▌    | 206741/371472 [5:23:48<12:13:54,  3.74it/s] 56%|█████▌    | 206742/371472 [5:23:48<12:30:36,  3.66it/s] 56%|█████▌    | 206743/371472 [5:23:49<13:39:50,  3.35it/s] 56%|█████▌    | 206744/371472 [5:23:49<13:10:13,  3.47it/s] 56%|█████▌    | 206745/371472 [5:23:49<13:08:28,  3.48it/s] 56%|█████▌    | 206746/371472 [5:23:50<12:44:07,  3.59it/s] 56%|█████▌    | 206747/371472 [5:23:50<12:25:42,  3.68it/s] 56%|█████▌    | 206748/371472 [5:23:50<12:20:58,  3.71it/s] 56%|█████▌    | 206749/371472 [5:23:50<12:44:28,  3.59it/s] 56%|█████▌    | 206750/371472 [5:23:51<14:36:53,  3.13it/s] 56%|█████▌    | 206751/371472 [5:23:51<14:47:31,  3.09it/s] 56%|█████▌    | 206752/371472 [5:23:51<13:54:11,  3.29it/s] 56%|█████▌    | 206753/371472 [5:23:52<13:37:04,  3.36it/s] 56%|█████▌    | 206754/371472 [5:23:52<13:09:25,  3.48it/s] 56%|█████▌    | 206755/371472 [5:23:52<12:46:19,  3.58it/s] 56%|█████▌    | 206756/371472 [5:23:52<12:52:42,  3.55it/s] 56%|█████▌    | 206757/371472 [5:23:53<13:42:12,  3.34it/s] 56%|█████▌    | 206758/371472 [5:23:53<13:28:54,  3.39it/s] 56%|█████▌    | 206759/371472 [5:23:53<12:53:55,  3.55it/s] 56%|█████▌    | 206760/371472 [5:23:54<12:54:03,  3.55it/s]                                                            {'loss': 2.893, 'learning_rate': 4.992781572539808e-07, 'epoch': 8.91}
 56%|█████▌    | 206760/371472 [5:23:54<12:54:03,  3.55it/s] 56%|█████▌    | 206761/371472 [5:23:54<12:59:51,  3.52it/s] 56%|█████▌    | 206762/371472 [5:23:54<12:43:52,  3.59it/s] 56%|█████▌    | 206763/371472 [5:23:55<12:58:20,  3.53it/s] 56%|█████▌    | 206764/371472 [5:23:55<12:50:33,  3.56it/s] 56%|█████▌    | 206765/371472 [5:23:55<12:33:48,  3.64it/s] 56%|█████▌    | 206766/371472 [5:23:55<12:57:07,  3.53it/s] 56%|█████▌    | 206767/371472 [5:23:56<13:03:14,  3.50it/s] 56%|█████▌    | 206768/371472 [5:23:56<13:01:07,  3.51it/s] 56%|█████▌    | 206769/371472 [5:23:56<12:24:59,  3.68it/s] 56%|█████▌    | 206770/371472 [5:23:56<12:42:58,  3.60it/s] 56%|█████▌    | 206771/371472 [5:23:57<12:29:50,  3.66it/s] 56%|█████▌    | 206772/371472 [5:23:57<12:33:29,  3.64it/s] 56%|█████▌    | 206773/371472 [5:23:57<12:34:06,  3.64it/s] 56%|█████▌    | 206774/371472 [5:23:58<12:38:40,  3.62it/s] 56%|█████▌    | 206775/371472 [5:23:58<12:34:10,  3.64it/s] 56%|█████▌    | 206776/371472 [5:23:58<12:22:41,  3.70it/s] 56%|█████▌    | 206777/371472 [5:23:58<12:50:03,  3.56it/s] 56%|█████▌    | 206778/371472 [5:23:59<13:45:37,  3.32it/s] 56%|█████▌    | 206779/371472 [5:23:59<14:21:43,  3.19it/s] 56%|█████▌    | 206780/371472 [5:23:59<15:16:22,  3.00it/s]                                                            {'loss': 2.9525, 'learning_rate': 4.992296752785021e-07, 'epoch': 8.91}
 56%|█████▌    | 206780/371472 [5:23:59<15:16:22,  3.00it/s] 56%|█████▌    | 206781/371472 [5:24:00<14:27:43,  3.16it/s] 56%|█████▌    | 206782/371472 [5:24:00<14:10:12,  3.23it/s] 56%|█████▌    | 206783/371472 [5:24:00<13:49:36,  3.31it/s] 56%|█████▌    | 206784/371472 [5:24:01<13:34:00,  3.37it/s] 56%|█████▌    | 206785/371472 [5:24:01<12:45:55,  3.58it/s] 56%|█████▌    | 206786/371472 [5:24:01<12:56:39,  3.53it/s] 56%|█████▌    | 206787/371472 [5:24:01<12:24:06,  3.69it/s] 56%|█████▌    | 206788/371472 [5:24:02<12:35:36,  3.63it/s] 56%|█████▌    | 206789/371472 [5:24:02<12:44:48,  3.59it/s] 56%|█████▌    | 206790/371472 [5:24:02<14:10:39,  3.23it/s] 56%|█████▌    | 206791/371472 [5:24:03<14:09:16,  3.23it/s] 56%|█████▌    | 206792/371472 [5:24:03<13:37:19,  3.36it/s] 56%|█████▌    | 206793/371472 [5:24:03<16:30:49,  2.77it/s] 56%|█████▌    | 206794/371472 [5:24:04<16:18:42,  2.80it/s] 56%|█████▌    | 206795/371472 [5:24:04<15:34:48,  2.94it/s] 56%|█████▌    | 206796/371472 [5:24:04<15:30:55,  2.95it/s] 56%|█████▌    | 206797/371472 [5:24:05<14:24:48,  3.17it/s] 56%|█████▌    | 206798/371472 [5:24:05<13:43:52,  3.33it/s] 56%|█████▌    | 206799/371472 [5:24:05<13:50:36,  3.30it/s] 56%|█████▌    | 206800/371472 [5:24:06<13:46:57,  3.32it/s]                                                            {'loss': 2.8519, 'learning_rate': 4.991811933030231e-07, 'epoch': 8.91}
 56%|█████▌    | 206800/371472 [5:24:06<13:46:57,  3.32it/s] 56%|█████▌    | 206801/371472 [5:24:06<13:25:28,  3.41it/s] 56%|█████▌    | 206802/371472 [5:24:06<13:57:54,  3.28it/s] 56%|█████▌    | 206803/371472 [5:24:06<13:41:49,  3.34it/s] 56%|█████▌    | 206804/371472 [5:24:07<14:37:07,  3.13it/s] 56%|█████▌    | 206805/371472 [5:24:07<14:18:16,  3.20it/s] 56%|█████▌    | 206806/371472 [5:24:07<14:09:53,  3.23it/s] 56%|█████▌    | 206807/371472 [5:24:08<14:24:18,  3.18it/s] 56%|█████▌    | 206808/371472 [5:24:08<14:06:07,  3.24it/s] 56%|█████▌    | 206809/371472 [5:24:08<13:36:34,  3.36it/s] 56%|█████▌    | 206810/371472 [5:24:09<13:19:14,  3.43it/s] 56%|█████▌    | 206811/371472 [5:24:09<13:20:59,  3.43it/s] 56%|█████▌    | 206812/371472 [5:24:09<13:25:36,  3.41it/s] 56%|█████▌    | 206813/371472 [5:24:10<14:32:35,  3.14it/s] 56%|█████▌    | 206814/371472 [5:24:10<13:56:26,  3.28it/s] 56%|█████▌    | 206815/371472 [5:24:10<15:03:10,  3.04it/s] 56%|█████▌    | 206816/371472 [5:24:10<14:20:22,  3.19it/s] 56%|█████▌    | 206817/371472 [5:24:11<14:00:12,  3.27it/s] 56%|█████▌    | 206818/371472 [5:24:11<13:46:39,  3.32it/s] 56%|█████▌    | 206819/371472 [5:24:11<13:48:47,  3.31it/s] 56%|█████▌    | 206820/371472 [5:24:12<13:12:59,  3.46it/s]                                                            {'loss': 3.1324, 'learning_rate': 4.991327113275442e-07, 'epoch': 8.91}
 56%|█████▌    | 206820/371472 [5:24:12<13:12:59,  3.46it/s] 56%|█████▌    | 206821/371472 [5:24:12<13:14:40,  3.45it/s] 56%|█████▌    | 206822/371472 [5:24:12<13:18:14,  3.44it/s] 56%|█████▌    | 206823/371472 [5:24:12<13:39:39,  3.35it/s] 56%|█████▌    | 206824/371472 [5:24:13<13:26:49,  3.40it/s] 56%|█████▌    | 206825/371472 [5:24:13<13:24:56,  3.41it/s] 56%|█████▌    | 206826/371472 [5:24:13<13:07:29,  3.48it/s] 56%|█████▌    | 206827/371472 [5:24:14<12:56:40,  3.53it/s] 56%|█████▌    | 206828/371472 [5:24:14<13:24:18,  3.41it/s] 56%|█████▌    | 206829/371472 [5:24:14<13:27:08,  3.40it/s] 56%|█████▌    | 206830/371472 [5:24:14<12:54:11,  3.54it/s] 56%|█████▌    | 206831/371472 [5:24:15<12:50:41,  3.56it/s] 56%|█████▌    | 206832/371472 [5:24:15<12:55:47,  3.54it/s] 56%|█████▌    | 206833/371472 [5:24:15<12:46:03,  3.58it/s] 56%|█████▌    | 206834/371472 [5:24:16<12:32:33,  3.65it/s] 56%|█████▌    | 206835/371472 [5:24:16<12:36:47,  3.63it/s] 56%|█████▌    | 206836/371472 [5:24:16<12:31:23,  3.65it/s] 56%|█████▌    | 206837/371472 [5:24:16<12:30:45,  3.65it/s] 56%|█████▌    | 206838/371472 [5:24:17<12:27:36,  3.67it/s] 56%|█████▌    | 206839/371472 [5:24:17<13:01:52,  3.51it/s] 56%|█████▌    | 206840/371472 [5:24:17<12:49:33,  3.57it/s]                                                            {'loss': 3.0277, 'learning_rate': 4.990842293520653e-07, 'epoch': 8.91}
 56%|█████▌    | 206840/371472 [5:24:17<12:49:33,  3.57it/s] 56%|█████▌    | 206841/371472 [5:24:18<13:07:12,  3.49it/s] 56%|█████▌    | 206842/371472 [5:24:18<12:43:23,  3.59it/s] 56%|█████▌    | 206843/371472 [5:24:18<12:41:53,  3.60it/s] 56%|█████▌    | 206844/371472 [5:24:18<12:21:05,  3.70it/s] 56%|█████▌    | 206845/371472 [5:24:19<12:41:37,  3.60it/s] 56%|█████▌    | 206846/371472 [5:24:19<12:22:55,  3.69it/s] 56%|█████▌    | 206847/371472 [5:24:19<12:10:43,  3.75it/s] 56%|█████▌    | 206848/371472 [5:24:19<13:10:42,  3.47it/s] 56%|█████▌    | 206849/371472 [5:24:20<12:46:37,  3.58it/s] 56%|█████▌    | 206850/371472 [5:24:20<12:35:44,  3.63it/s] 56%|█████▌    | 206851/371472 [5:24:20<13:51:59,  3.30it/s] 56%|█████▌    | 206852/371472 [5:24:21<13:11:44,  3.47it/s] 56%|█████▌    | 206853/371472 [5:24:21<13:40:10,  3.35it/s] 56%|█████▌    | 206854/371472 [5:24:21<13:55:06,  3.29it/s] 56%|█████▌    | 206855/371472 [5:24:22<13:40:03,  3.35it/s] 56%|█████▌    | 206856/371472 [5:24:22<13:01:14,  3.51it/s] 56%|█████▌    | 206857/371472 [5:24:22<13:45:15,  3.32it/s] 56%|█████▌    | 206858/371472 [5:24:22<13:37:19,  3.36it/s] 56%|█████▌    | 206859/371472 [5:24:23<12:59:06,  3.52it/s] 56%|█████▌    | 206860/371472 [5:24:23<13:56:30,  3.28it/s]                                                            {'loss': 2.8573, 'learning_rate': 4.990357473765864e-07, 'epoch': 8.91}
 56%|█████▌    | 206860/371472 [5:24:23<13:56:30,  3.28it/s] 56%|█████▌    | 206861/371472 [5:24:23<13:20:06,  3.43it/s] 56%|█████▌    | 206862/371472 [5:24:24<13:56:58,  3.28it/s] 56%|█████▌    | 206863/371472 [5:24:24<19:30:51,  2.34it/s] 56%|█████▌    | 206864/371472 [5:24:25<17:14:33,  2.65it/s] 56%|█████▌    | 206865/371472 [5:24:25<15:52:15,  2.88it/s] 56%|█████▌    | 206866/371472 [5:24:25<14:45:15,  3.10it/s] 56%|█████▌    | 206867/371472 [5:24:25<14:10:13,  3.23it/s] 56%|█████▌    | 206868/371472 [5:24:26<14:15:56,  3.21it/s] 56%|█████▌    | 206869/371472 [5:24:26<14:28:47,  3.16it/s] 56%|█████▌    | 206870/371472 [5:24:26<13:35:04,  3.37it/s] 56%|█████▌    | 206871/371472 [5:24:27<13:04:28,  3.50it/s] 56%|█████▌    | 206872/371472 [5:24:27<12:52:29,  3.55it/s] 56%|█████▌    | 206873/371472 [5:24:27<12:20:26,  3.70it/s] 56%|█████▌    | 206874/371472 [5:24:27<12:37:25,  3.62it/s] 56%|█████▌    | 206875/371472 [5:24:28<12:36:57,  3.62it/s] 56%|█████▌    | 206876/371472 [5:24:28<12:40:30,  3.61it/s] 56%|█████▌    | 206877/371472 [5:24:28<13:23:32,  3.41it/s] 56%|█████▌    | 206878/371472 [5:24:29<12:53:05,  3.55it/s] 56%|█████▌    | 206879/371472 [5:24:29<12:39:37,  3.61it/s] 56%|█████▌    | 206880/371472 [5:24:29<13:22:18,  3.42it/s]                                                            {'loss': 3.0362, 'learning_rate': 4.989872654011075e-07, 'epoch': 8.91}
 56%|█████▌    | 206880/371472 [5:24:29<13:22:18,  3.42it/s] 56%|█████▌    | 206881/371472 [5:24:29<13:31:57,  3.38it/s] 56%|█████▌    | 206882/371472 [5:24:30<13:06:06,  3.49it/s] 56%|█████▌    | 206883/371472 [5:24:30<13:21:34,  3.42it/s] 56%|█████▌    | 206884/371472 [5:24:30<13:29:48,  3.39it/s] 56%|█████▌    | 206885/371472 [5:24:31<14:13:21,  3.21it/s] 56%|█████▌    | 206886/371472 [5:24:31<13:27:23,  3.40it/s] 56%|█████▌    | 206887/371472 [5:24:31<13:07:21,  3.48it/s] 56%|█████▌    | 206888/371472 [5:24:31<12:43:12,  3.59it/s] 56%|█████▌    | 206889/371472 [5:24:32<13:00:44,  3.51it/s] 56%|█████▌    | 206890/371472 [5:24:32<12:43:08,  3.59it/s] 56%|█████▌    | 206891/371472 [5:24:32<12:37:14,  3.62it/s] 56%|█████▌    | 206892/371472 [5:24:33<12:14:19,  3.74it/s] 56%|█████▌    | 206893/371472 [5:24:33<11:54:15,  3.84it/s] 56%|█████▌    | 206894/371472 [5:24:33<12:18:21,  3.71it/s] 56%|█████▌    | 206895/371472 [5:24:33<13:08:55,  3.48it/s] 56%|█████▌    | 206896/371472 [5:24:34<12:26:24,  3.67it/s] 56%|█████▌    | 206897/371472 [5:24:34<12:08:44,  3.76it/s] 56%|█████▌    | 206898/371472 [5:24:34<12:25:20,  3.68it/s] 56%|█████▌    | 206899/371472 [5:24:34<13:01:48,  3.51it/s] 56%|█████▌    | 206900/371472 [5:24:35<13:10:02,  3.47it/s]                                                            {'loss': 2.9712, 'learning_rate': 4.989387834256287e-07, 'epoch': 8.91}
 56%|█████▌    | 206900/371472 [5:24:35<13:10:02,  3.47it/s] 56%|█████▌    | 206901/371472 [5:24:35<12:58:00,  3.53it/s] 56%|█████▌    | 206902/371472 [5:24:35<12:48:02,  3.57it/s] 56%|█████▌    | 206903/371472 [5:24:36<13:18:43,  3.43it/s] 56%|█████▌    | 206904/371472 [5:24:36<12:46:02,  3.58it/s] 56%|█████▌    | 206905/371472 [5:24:36<14:03:54,  3.25it/s] 56%|█████▌    | 206906/371472 [5:24:37<14:14:39,  3.21it/s] 56%|█████▌    | 206907/371472 [5:24:37<14:23:55,  3.17it/s] 56%|█████▌    | 206908/371472 [5:24:37<15:12:27,  3.01it/s] 56%|█████▌    | 206909/371472 [5:24:38<14:52:57,  3.07it/s] 56%|█████▌    | 206910/371472 [5:24:38<14:00:56,  3.26it/s] 56%|█████▌    | 206911/371472 [5:24:38<14:04:41,  3.25it/s] 56%|█████▌    | 206912/371472 [5:24:38<13:34:54,  3.37it/s] 56%|█████▌    | 206913/371472 [5:24:39<12:55:31,  3.54it/s] 56%|█████▌    | 206914/371472 [5:24:39<13:58:13,  3.27it/s] 56%|█████▌    | 206915/371472 [5:24:39<13:26:42,  3.40it/s] 56%|█████▌    | 206916/371472 [5:24:40<12:59:32,  3.52it/s] 56%|█████▌    | 206917/371472 [5:24:40<13:25:04,  3.41it/s] 56%|█████▌    | 206918/371472 [5:24:40<13:37:28,  3.35it/s] 56%|█████▌    | 206919/371472 [5:24:40<13:42:19,  3.34it/s] 56%|█████▌    | 206920/371472 [5:24:41<13:39:46,  3.35it/s]                                                            {'loss': 3.0074, 'learning_rate': 4.988903014501497e-07, 'epoch': 8.91}
 56%|█████▌    | 206920/371472 [5:24:41<13:39:46,  3.35it/s] 56%|█████▌    | 206921/371472 [5:24:41<13:22:19,  3.42it/s] 56%|█████▌    | 206922/371472 [5:24:41<12:54:55,  3.54it/s] 56%|█████▌    | 206923/371472 [5:24:42<12:31:20,  3.65it/s] 56%|█████▌    | 206924/371472 [5:24:42<12:50:59,  3.56it/s] 56%|█████▌    | 206925/371472 [5:24:42<13:01:47,  3.51it/s] 56%|█████▌    | 206926/371472 [5:24:42<12:53:48,  3.54it/s] 56%|█████▌    | 206927/371472 [5:24:43<12:34:00,  3.64it/s] 56%|█████▌    | 206928/371472 [5:24:43<12:37:08,  3.62it/s] 56%|█████▌    | 206929/371472 [5:24:43<13:17:15,  3.44it/s] 56%|█████▌    | 206930/371472 [5:24:44<12:47:27,  3.57it/s] 56%|█████▌    | 206931/371472 [5:24:44<12:15:11,  3.73it/s] 56%|█████▌    | 206932/371472 [5:24:44<13:07:01,  3.48it/s] 56%|█████▌    | 206933/371472 [5:24:44<13:34:02,  3.37it/s] 56%|█████▌    | 206934/371472 [5:24:45<14:03:08,  3.25it/s] 56%|█████▌    | 206935/371472 [5:24:45<13:13:34,  3.46it/s] 56%|█████▌    | 206936/371472 [5:24:45<13:00:28,  3.51it/s] 56%|█████▌    | 206937/371472 [5:24:46<12:28:03,  3.67it/s] 56%|█████▌    | 206938/371472 [5:24:46<12:43:59,  3.59it/s] 56%|█████▌    | 206939/371472 [5:24:46<12:30:44,  3.65it/s] 56%|█████▌    | 206940/371472 [5:24:46<12:30:23,  3.65it/s]                                                            {'loss': 2.9903, 'learning_rate': 4.988418194746709e-07, 'epoch': 8.91}
 56%|█████▌    | 206940/371472 [5:24:46<12:30:23,  3.65it/s] 56%|█████▌    | 206941/371472 [5:24:47<12:45:04,  3.58it/s] 56%|█████▌    | 206942/371472 [5:24:47<12:27:16,  3.67it/s] 56%|█████▌    | 206943/371472 [5:24:47<12:18:38,  3.71it/s] 56%|█████▌    | 206944/371472 [5:24:47<12:36:23,  3.63it/s] 56%|█████▌    | 206945/371472 [5:24:48<12:48:27,  3.57it/s] 56%|█████▌    | 206946/371472 [5:24:48<13:14:14,  3.45it/s] 56%|█████▌    | 206947/371472 [5:24:48<12:43:39,  3.59it/s] 56%|█████▌    | 206948/371472 [5:24:49<12:45:46,  3.58it/s] 56%|█████▌    | 206949/371472 [5:24:49<13:33:46,  3.37it/s] 56%|█████▌    | 206950/371472 [5:24:49<12:54:20,  3.54it/s] 56%|█████▌    | 206951/371472 [5:24:49<12:53:47,  3.54it/s] 56%|█████▌    | 206952/371472 [5:24:50<13:04:07,  3.50it/s] 56%|█████▌    | 206953/371472 [5:24:50<13:03:36,  3.50it/s] 56%|█████▌    | 206954/371472 [5:24:50<12:36:39,  3.62it/s] 56%|█████▌    | 206955/371472 [5:24:51<13:03:35,  3.50it/s] 56%|█████▌    | 206956/371472 [5:24:51<13:02:53,  3.50it/s] 56%|█████▌    | 206957/371472 [5:24:51<12:56:20,  3.53it/s] 56%|█████▌    | 206958/371472 [5:24:51<12:44:00,  3.59it/s] 56%|█████▌    | 206959/371472 [5:24:52<12:39:31,  3.61it/s] 56%|█████▌    | 206960/371472 [5:24:52<12:32:11,  3.65it/s]                                                            {'loss': 2.7806, 'learning_rate': 4.98793337499192e-07, 'epoch': 8.91}
 56%|█████▌    | 206960/371472 [5:24:52<12:32:11,  3.65it/s] 56%|█████▌    | 206961/371472 [5:24:52<13:08:02,  3.48it/s] 56%|█████▌    | 206962/371472 [5:24:53<12:50:20,  3.56it/s] 56%|█████▌    | 206963/371472 [5:24:53<12:49:28,  3.56it/s] 56%|█████▌    | 206964/371472 [5:24:53<12:43:14,  3.59it/s] 56%|█████▌    | 206965/371472 [5:24:53<13:34:22,  3.37it/s] 56%|█████▌    | 206966/371472 [5:24:54<12:58:33,  3.52it/s] 56%|█████▌    | 206967/371472 [5:24:54<14:09:50,  3.23it/s] 56%|█████▌    | 206968/371472 [5:24:54<14:35:57,  3.13it/s] 56%|█████▌    | 206969/371472 [5:24:55<13:53:03,  3.29it/s] 56%|█████▌    | 206970/371472 [5:24:55<13:23:07,  3.41it/s] 56%|█████▌    | 206971/371472 [5:24:55<12:44:35,  3.59it/s] 56%|█████▌    | 206972/371472 [5:24:56<12:51:02,  3.56it/s] 56%|█████▌    | 206973/371472 [5:24:56<12:42:16,  3.60it/s] 56%|█████▌    | 206974/371472 [5:24:56<12:15:29,  3.73it/s] 56%|█████▌    | 206975/371472 [5:24:56<12:23:34,  3.69it/s] 56%|█████▌    | 206976/371472 [5:24:57<12:13:00,  3.74it/s] 56%|█████▌    | 206977/371472 [5:24:57<12:11:23,  3.75it/s] 56%|█████▌    | 206978/371472 [5:24:57<11:54:57,  3.83it/s] 56%|█████▌    | 206979/371472 [5:24:57<12:28:59,  3.66it/s] 56%|█████▌    | 206980/371472 [5:24:58<13:14:50,  3.45it/s]                                                            {'loss': 2.9158, 'learning_rate': 4.98744855523713e-07, 'epoch': 8.92}
 56%|█████▌    | 206980/371472 [5:24:58<13:14:50,  3.45it/s] 56%|█████▌    | 206981/371472 [5:24:58<12:51:22,  3.55it/s] 56%|█████▌    | 206982/371472 [5:24:58<12:54:08,  3.54it/s] 56%|█████▌    | 206983/371472 [5:24:59<12:46:01,  3.58it/s] 56%|█████▌    | 206984/371472 [5:24:59<12:23:32,  3.69it/s] 56%|█████▌    | 206985/371472 [5:24:59<12:45:37,  3.58it/s] 56%|█████▌    | 206986/371472 [5:24:59<12:44:52,  3.58it/s] 56%|█████▌    | 206987/371472 [5:25:00<12:59:29,  3.52it/s] 56%|█████▌    | 206988/371472 [5:25:00<12:34:07,  3.64it/s] 56%|█████▌    | 206989/371472 [5:25:00<12:31:39,  3.65it/s] 56%|█████▌    | 206990/371472 [5:25:00<12:59:24,  3.52it/s] 56%|█████▌    | 206991/371472 [5:25:01<13:14:06,  3.45it/s] 56%|█████▌    | 206992/371472 [5:25:01<12:50:03,  3.56it/s] 56%|█████▌    | 206993/371472 [5:25:01<13:54:09,  3.29it/s] 56%|█████▌    | 206994/371472 [5:25:02<13:40:19,  3.34it/s] 56%|█████▌    | 206995/371472 [5:25:02<13:16:38,  3.44it/s] 56%|█████▌    | 206996/371472 [5:25:02<12:37:40,  3.62it/s] 56%|█████▌    | 206997/371472 [5:25:02<12:20:32,  3.70it/s] 56%|█████▌    | 206998/371472 [5:25:03<12:14:38,  3.73it/s] 56%|█████▌    | 206999/371472 [5:25:03<12:08:28,  3.76it/s] 56%|█████▌    | 207000/371472 [5:25:03<12:23:53,  3.68it/s]                                                            {'loss': 2.8764, 'learning_rate': 4.986963735482341e-07, 'epoch': 8.92}
 56%|█████▌    | 207000/371472 [5:25:03<12:23:53,  3.68it/s] 56%|█████▌    | 207001/371472 [5:25:04<12:32:46,  3.64it/s] 56%|█████▌    | 207002/371472 [5:25:04<12:21:31,  3.70it/s] 56%|█████▌    | 207003/371472 [5:25:04<13:25:58,  3.40it/s] 56%|█████▌    | 207004/371472 [5:25:04<13:40:45,  3.34it/s] 56%|█████▌    | 207005/371472 [5:25:05<13:12:22,  3.46it/s] 56%|█████▌    | 207006/371472 [5:25:05<13:37:46,  3.35it/s] 56%|█████▌    | 207007/371472 [5:25:05<13:29:40,  3.39it/s] 56%|█████▌    | 207008/371472 [5:25:06<13:22:20,  3.42it/s] 56%|█████▌    | 207009/371472 [5:25:06<13:56:03,  3.28it/s] 56%|█████▌    | 207010/371472 [5:25:06<15:40:55,  2.91it/s] 56%|█████▌    | 207011/371472 [5:25:07<15:42:13,  2.91it/s] 56%|█████▌    | 207012/371472 [5:25:07<15:00:39,  3.04it/s] 56%|█████▌    | 207013/371472 [5:25:07<14:12:47,  3.21it/s] 56%|█████▌    | 207014/371472 [5:25:08<13:56:01,  3.28it/s] 56%|█████▌    | 207015/371472 [5:25:08<13:30:42,  3.38it/s] 56%|█████▌    | 207016/371472 [5:25:08<14:43:19,  3.10it/s] 56%|█████▌    | 207017/371472 [5:25:09<14:30:46,  3.15it/s] 56%|█████▌    | 207018/371472 [5:25:09<13:46:39,  3.32it/s] 56%|█████▌    | 207019/371472 [5:25:09<13:09:48,  3.47it/s] 56%|█████▌    | 207020/371472 [5:25:09<14:13:22,  3.21it/s]                                                            {'loss': 2.8948, 'learning_rate': 4.986478915727554e-07, 'epoch': 8.92}
 56%|█████▌    | 207020/371472 [5:25:09<14:13:22,  3.21it/s] 56%|█████▌    | 207021/371472 [5:25:10<13:47:07,  3.31it/s] 56%|█████▌    | 207022/371472 [5:25:10<13:13:03,  3.46it/s] 56%|█████▌    | 207023/371472 [5:25:10<13:01:38,  3.51it/s] 56%|█████▌    | 207024/371472 [5:25:11<12:44:46,  3.58it/s] 56%|█████▌    | 207025/371472 [5:25:11<13:16:51,  3.44it/s] 56%|█████▌    | 207026/371472 [5:25:11<13:24:03,  3.41it/s] 56%|█████▌    | 207027/371472 [5:25:11<13:10:51,  3.47it/s] 56%|█████▌    | 207028/371472 [5:25:12<12:58:57,  3.52it/s] 56%|█████▌    | 207029/371472 [5:25:12<12:31:57,  3.64it/s] 56%|█████▌    | 207030/371472 [5:25:12<12:44:30,  3.58it/s] 56%|█████▌    | 207031/371472 [5:25:12<12:22:07,  3.69it/s] 56%|█████▌    | 207032/371472 [5:25:13<12:15:23,  3.73it/s] 56%|█████▌    | 207033/371472 [5:25:13<12:17:21,  3.72it/s] 56%|█████▌    | 207034/371472 [5:25:13<12:27:47,  3.66it/s] 56%|█████▌    | 207035/371472 [5:25:14<12:22:14,  3.69it/s] 56%|█████▌    | 207036/371472 [5:25:14<12:44:36,  3.58it/s] 56%|█████▌    | 207037/371472 [5:25:14<12:26:25,  3.67it/s] 56%|█████▌    | 207038/371472 [5:25:14<12:35:33,  3.63it/s] 56%|█████▌    | 207039/371472 [5:25:15<12:31:39,  3.65it/s] 56%|█████▌    | 207040/371472 [5:25:15<12:35:36,  3.63it/s]                                                            {'loss': 2.9359, 'learning_rate': 4.985994095972763e-07, 'epoch': 8.92}
 56%|█████▌    | 207040/371472 [5:25:15<12:35:36,  3.63it/s] 56%|█████▌    | 207041/371472 [5:25:15<12:13:13,  3.74it/s] 56%|█████▌    | 207042/371472 [5:25:16<13:18:24,  3.43it/s] 56%|█████▌    | 207043/371472 [5:25:16<13:40:10,  3.34it/s] 56%|█████▌    | 207044/371472 [5:25:16<14:55:32,  3.06it/s] 56%|█████▌    | 207045/371472 [5:25:17<14:58:31,  3.05it/s] 56%|█████▌    | 207046/371472 [5:25:17<14:22:50,  3.18it/s] 56%|█████▌    | 207047/371472 [5:25:17<15:08:28,  3.02it/s] 56%|█████▌    | 207048/371472 [5:25:18<15:25:57,  2.96it/s] 56%|█████▌    | 207049/371472 [5:25:18<15:00:25,  3.04it/s] 56%|█████▌    | 207050/371472 [5:25:18<14:19:31,  3.19it/s] 56%|█████▌    | 207051/371472 [5:25:18<13:35:25,  3.36it/s] 56%|█████▌    | 207052/371472 [5:25:19<13:44:59,  3.32it/s] 56%|█████▌    | 207053/371472 [5:25:19<13:10:03,  3.47it/s] 56%|█████▌    | 207054/371472 [5:25:19<13:03:37,  3.50it/s] 56%|█████▌    | 207055/371472 [5:25:20<13:16:49,  3.44it/s] 56%|█████▌    | 207056/371472 [5:25:20<13:04:27,  3.49it/s] 56%|█████▌    | 207057/371472 [5:25:20<13:16:46,  3.44it/s] 56%|█████▌    | 207058/371472 [5:25:20<12:53:40,  3.54it/s] 56%|█████▌    | 207059/371472 [5:25:21<12:35:04,  3.63it/s] 56%|█████▌    | 207060/371472 [5:25:21<12:19:34,  3.71it/s]                                                            {'loss': 2.8516, 'learning_rate': 4.985509276217975e-07, 'epoch': 8.92}
 56%|█████▌    | 207060/371472 [5:25:21<12:19:34,  3.71it/s] 56%|█████▌    | 207061/371472 [5:25:21<12:15:36,  3.73it/s] 56%|█████▌    | 207062/371472 [5:25:22<13:08:43,  3.47it/s] 56%|█████▌    | 207063/371472 [5:25:22<13:13:34,  3.45it/s] 56%|█████▌    | 207064/371472 [5:25:22<12:37:33,  3.62it/s] 56%|█████▌    | 207065/371472 [5:25:22<12:26:33,  3.67it/s] 56%|█████▌    | 207066/371472 [5:25:23<12:03:45,  3.79it/s] 56%|█████▌    | 207067/371472 [5:25:23<12:03:58,  3.78it/s] 56%|█████▌    | 207068/371472 [5:25:23<13:04:29,  3.49it/s] 56%|█████▌    | 207069/371472 [5:25:23<12:31:20,  3.65it/s] 56%|█████▌    | 207070/371472 [5:25:24<12:42:30,  3.59it/s] 56%|█████▌    | 207071/371472 [5:25:24<12:36:42,  3.62it/s] 56%|█████▌    | 207072/371472 [5:25:24<12:54:22,  3.54it/s] 56%|█████▌    | 207073/371472 [5:25:25<13:04:39,  3.49it/s] 56%|█████▌    | 207074/371472 [5:25:25<13:24:00,  3.41it/s] 56%|█████▌    | 207075/371472 [5:25:25<12:48:36,  3.56it/s] 56%|█████▌    | 207076/371472 [5:25:25<13:13:31,  3.45it/s] 56%|█████▌    | 207077/371472 [5:25:26<12:43:10,  3.59it/s] 56%|█████▌    | 207078/371472 [5:25:26<12:53:59,  3.54it/s] 56%|█████▌    | 207079/371472 [5:25:26<14:54:30,  3.06it/s] 56%|█████▌    | 207080/371472 [5:25:27<14:13:01,  3.21it/s]                                                            {'loss': 2.9228, 'learning_rate': 4.985024456463186e-07, 'epoch': 8.92}
 56%|█████▌    | 207080/371472 [5:25:27<14:13:01,  3.21it/s] 56%|█████▌    | 207081/371472 [5:25:27<13:45:11,  3.32it/s] 56%|█████▌    | 207082/371472 [5:25:27<13:02:53,  3.50it/s] 56%|█████▌    | 207083/371472 [5:25:28<13:07:44,  3.48it/s] 56%|█████▌    | 207084/371472 [5:25:28<13:29:11,  3.39it/s] 56%|█████▌    | 207085/371472 [5:25:28<13:15:07,  3.45it/s] 56%|█████▌    | 207086/371472 [5:25:28<13:44:14,  3.32it/s] 56%|█████▌    | 207087/371472 [5:25:29<13:33:54,  3.37it/s] 56%|█████▌    | 207088/371472 [5:25:29<13:50:01,  3.30it/s] 56%|█████▌    | 207089/371472 [5:25:29<14:51:26,  3.07it/s] 56%|█████▌    | 207090/371472 [5:25:30<14:39:39,  3.11it/s] 56%|█████▌    | 207091/371472 [5:25:30<13:52:30,  3.29it/s] 56%|█████▌    | 207092/371472 [5:25:30<14:08:21,  3.23it/s] 56%|█████▌    | 207093/371472 [5:25:31<14:13:04,  3.21it/s] 56%|█████▌    | 207094/371472 [5:25:31<14:55:28,  3.06it/s] 56%|█████▌    | 207095/371472 [5:25:31<14:15:59,  3.20it/s] 56%|█████▌    | 207096/371472 [5:25:32<13:36:22,  3.36it/s] 56%|█████▌    | 207097/371472 [5:25:32<13:19:42,  3.43it/s] 56%|█████▌    | 207098/371472 [5:25:32<12:58:11,  3.52it/s] 56%|█████▌    | 207099/371472 [5:25:32<12:36:23,  3.62it/s] 56%|█████▌    | 207100/371472 [5:25:33<12:38:57,  3.61it/s]                                                            {'loss': 2.7647, 'learning_rate': 4.984539636708397e-07, 'epoch': 8.92}
 56%|█████▌    | 207100/371472 [5:25:33<12:38:57,  3.61it/s] 56%|█████▌    | 207101/371472 [5:25:33<12:39:49,  3.61it/s] 56%|█████▌    | 207102/371472 [5:25:33<12:21:27,  3.69it/s] 56%|█████▌    | 207103/371472 [5:25:33<12:01:45,  3.80it/s] 56%|█████▌    | 207104/371472 [5:25:34<12:13:27,  3.74it/s] 56%|█████▌    | 207105/371472 [5:25:34<12:08:23,  3.76it/s] 56%|█████▌    | 207106/371472 [5:25:34<12:14:59,  3.73it/s] 56%|█████▌    | 207107/371472 [5:25:34<12:00:51,  3.80it/s] 56%|█████▌    | 207108/371472 [5:25:35<12:23:07,  3.69it/s] 56%|█████▌    | 207109/371472 [5:25:35<12:36:24,  3.62it/s] 56%|█████▌    | 207110/371472 [5:25:35<13:29:44,  3.38it/s] 56%|█████▌    | 207111/371472 [5:25:36<13:57:01,  3.27it/s] 56%|█████▌    | 207112/371472 [5:25:36<13:24:27,  3.41it/s] 56%|█████▌    | 207113/371472 [5:25:36<12:52:17,  3.55it/s] 56%|█████▌    | 207114/371472 [5:25:37<12:45:54,  3.58it/s] 56%|█████▌    | 207115/371472 [5:25:37<13:56:33,  3.27it/s] 56%|█████▌    | 207116/371472 [5:25:37<13:22:45,  3.41it/s] 56%|█████▌    | 207117/371472 [5:25:37<12:58:37,  3.52it/s] 56%|█████▌    | 207118/371472 [5:25:38<12:39:20,  3.61it/s] 56%|█████▌    | 207119/371472 [5:25:38<12:45:01,  3.58it/s] 56%|█████▌    | 207120/371472 [5:25:38<12:45:45,  3.58it/s]                                                            {'loss': 3.0856, 'learning_rate': 4.984054816953607e-07, 'epoch': 8.92}
 56%|█████▌    | 207120/371472 [5:25:38<12:45:45,  3.58it/s] 56%|█████▌    | 207121/371472 [5:25:39<12:42:41,  3.59it/s] 56%|█████▌    | 207122/371472 [5:25:39<12:30:29,  3.65it/s] 56%|█████▌    | 207123/371472 [5:25:39<13:25:01,  3.40it/s] 56%|█████▌    | 207124/371472 [5:25:39<12:54:16,  3.54it/s] 56%|█████▌    | 207125/371472 [5:25:40<12:46:29,  3.57it/s] 56%|█████▌    | 207126/371472 [5:25:40<12:45:22,  3.58it/s] 56%|█████▌    | 207127/371472 [5:25:40<12:58:22,  3.52it/s] 56%|█████▌    | 207128/371472 [5:25:41<12:52:12,  3.55it/s] 56%|█████▌    | 207129/371472 [5:25:41<12:58:27,  3.52it/s] 56%|█████▌    | 207130/371472 [5:25:41<12:42:19,  3.59it/s] 56%|█████▌    | 207131/371472 [5:25:41<12:29:51,  3.65it/s] 56%|█████▌    | 207132/371472 [5:25:42<12:45:49,  3.58it/s] 56%|█████▌    | 207133/371472 [5:25:42<13:15:05,  3.44it/s] 56%|█████▌    | 207134/371472 [5:25:42<13:16:15,  3.44it/s] 56%|█████▌    | 207135/371472 [5:25:43<13:48:04,  3.31it/s] 56%|█████▌    | 207136/371472 [5:25:43<13:14:55,  3.45it/s] 56%|█████▌    | 207137/371472 [5:25:43<12:45:16,  3.58it/s] 56%|█████▌    | 207138/371472 [5:25:43<13:19:41,  3.42it/s] 56%|█████▌    | 207139/371472 [5:25:44<13:47:15,  3.31it/s] 56%|█████▌    | 207140/371472 [5:25:44<14:09:51,  3.22it/s]                                                            {'loss': 2.8247, 'learning_rate': 4.983569997198818e-07, 'epoch': 8.92}
 56%|█████▌    | 207140/371472 [5:25:44<14:09:51,  3.22it/s] 56%|█████▌    | 207141/371472 [5:25:44<13:36:41,  3.35it/s] 56%|█████▌    | 207142/371472 [5:25:45<14:22:32,  3.18it/s] 56%|█████▌    | 207143/371472 [5:25:45<14:34:51,  3.13it/s] 56%|█████▌    | 207144/371472 [5:25:45<15:56:18,  2.86it/s] 56%|█████▌    | 207145/371472 [5:25:46<14:50:40,  3.07it/s] 56%|█████▌    | 207146/371472 [5:25:46<14:48:49,  3.08it/s] 56%|█████▌    | 207147/371472 [5:25:46<14:50:43,  3.07it/s] 56%|█████▌    | 207148/371472 [5:25:47<14:08:54,  3.23it/s] 56%|█████▌    | 207149/371472 [5:25:47<13:51:40,  3.29it/s] 56%|█████▌    | 207150/371472 [5:25:47<13:32:42,  3.37it/s] 56%|█████▌    | 207151/371472 [5:25:47<12:55:06,  3.53it/s] 56%|█████▌    | 207152/371472 [5:25:48<12:34:55,  3.63it/s] 56%|█████▌    | 207153/371472 [5:25:48<12:41:55,  3.59it/s] 56%|█████▌    | 207154/371472 [5:25:48<12:29:23,  3.65it/s] 56%|█████▌    | 207155/371472 [5:25:48<11:59:18,  3.81it/s] 56%|█████▌    | 207156/371472 [5:25:49<12:41:45,  3.60it/s] 56%|█████▌    | 207157/371472 [5:25:49<12:18:35,  3.71it/s] 56%|█████▌    | 207158/371472 [5:25:49<12:03:35,  3.78it/s] 56%|█████▌    | 207159/371472 [5:25:50<11:50:07,  3.86it/s] 56%|█████▌    | 207160/371472 [5:25:50<12:46:56,  3.57it/s]                                                            {'loss': 3.0366, 'learning_rate': 4.983085177444031e-07, 'epoch': 8.92}
 56%|█████▌    | 207160/371472 [5:25:50<12:46:56,  3.57it/s] 56%|█████▌    | 207161/371472 [5:25:50<12:34:41,  3.63it/s] 56%|█████▌    | 207162/371472 [5:25:50<12:31:35,  3.64it/s] 56%|█████▌    | 207163/371472 [5:25:51<13:23:18,  3.41it/s] 56%|█████▌    | 207164/371472 [5:25:51<13:08:27,  3.47it/s] 56%|█████▌    | 207165/371472 [5:25:51<13:07:49,  3.48it/s] 56%|█████▌    | 207166/371472 [5:25:52<12:43:42,  3.59it/s] 56%|█████▌    | 207167/371472 [5:25:52<12:45:55,  3.58it/s] 56%|█████▌    | 207168/371472 [5:25:52<12:51:49,  3.55it/s] 56%|█████▌    | 207169/371472 [5:25:52<13:18:53,  3.43it/s] 56%|█████▌    | 207170/371472 [5:25:53<13:06:02,  3.48it/s] 56%|█████▌    | 207171/371472 [5:25:53<12:47:42,  3.57it/s] 56%|█████▌    | 207172/371472 [5:25:53<12:29:14,  3.65it/s] 56%|█████▌    | 207173/371472 [5:25:53<12:04:16,  3.78it/s] 56%|█████▌    | 207174/371472 [5:25:54<12:38:41,  3.61it/s] 56%|█████▌    | 207175/371472 [5:25:54<14:27:42,  3.16it/s] 56%|█████▌    | 207176/371472 [5:25:54<13:30:12,  3.38it/s] 56%|█████▌    | 207177/371472 [5:25:55<13:18:38,  3.43it/s] 56%|█████▌    | 207178/371472 [5:25:55<12:39:15,  3.61it/s] 56%|█████▌    | 207179/371472 [5:25:55<12:21:12,  3.69it/s] 56%|█████▌    | 207180/371472 [5:25:55<12:02:29,  3.79it/s]                                                            {'loss': 2.8818, 'learning_rate': 4.98260035768924e-07, 'epoch': 8.92}
 56%|█████▌    | 207180/371472 [5:25:55<12:02:29,  3.79it/s] 56%|█████▌    | 207181/371472 [5:25:56<11:54:57,  3.83it/s] 56%|█████▌    | 207182/371472 [5:25:56<12:16:36,  3.72it/s] 56%|█████▌    | 207183/371472 [5:25:56<12:12:40,  3.74it/s] 56%|█████▌    | 207184/371472 [5:25:57<13:13:32,  3.45it/s] 56%|█████▌    | 207185/371472 [5:25:57<13:20:01,  3.42it/s] 56%|█████▌    | 207186/371472 [5:25:57<12:43:30,  3.59it/s] 56%|█████▌    | 207187/371472 [5:25:57<13:00:19,  3.51it/s] 56%|█████▌    | 207188/371472 [5:25:58<12:40:44,  3.60it/s] 56%|█████▌    | 207189/371472 [5:25:58<13:32:12,  3.37it/s] 56%|█████▌    | 207190/371472 [5:25:58<12:56:25,  3.53it/s] 56%|█████▌    | 207191/371472 [5:25:59<12:43:14,  3.59it/s] 56%|█████▌    | 207192/371472 [5:25:59<12:46:53,  3.57it/s] 56%|█████▌    | 207193/371472 [5:25:59<12:48:34,  3.56it/s] 56%|█████▌    | 207194/371472 [5:25:59<13:22:43,  3.41it/s] 56%|█████▌    | 207195/371472 [5:26:00<12:52:49,  3.54it/s] 56%|█████▌    | 207196/371472 [5:26:00<12:38:06,  3.61it/s] 56%|█████▌    | 207197/371472 [5:26:00<12:49:47,  3.56it/s] 56%|█████▌    | 207198/371472 [5:26:01<12:49:33,  3.56it/s] 56%|█████▌    | 207199/371472 [5:26:01<13:51:34,  3.29it/s] 56%|█████▌    | 207200/371472 [5:26:01<13:00:07,  3.51it/s]                                                            {'loss': 2.9874, 'learning_rate': 4.982115537934452e-07, 'epoch': 8.92}
 56%|█████▌    | 207200/371472 [5:26:01<13:00:07,  3.51it/s] 56%|█████▌    | 207201/371472 [5:26:02<13:30:53,  3.38it/s] 56%|█████▌    | 207202/371472 [5:26:02<12:56:28,  3.53it/s] 56%|█████▌    | 207203/371472 [5:26:02<12:40:18,  3.60it/s] 56%|█████▌    | 207204/371472 [5:26:02<12:34:15,  3.63it/s] 56%|█████▌    | 207205/371472 [5:26:03<12:59:19,  3.51it/s] 56%|█████▌    | 207206/371472 [5:26:03<12:17:33,  3.71it/s] 56%|█████▌    | 207207/371472 [5:26:03<13:14:17,  3.45it/s] 56%|█████▌    | 207208/371472 [5:26:03<13:34:10,  3.36it/s] 56%|█████▌    | 207209/371472 [5:26:04<13:05:41,  3.48it/s] 56%|█████▌    | 207210/371472 [5:26:04<12:30:31,  3.65it/s] 56%|█████▌    | 207211/371472 [5:26:04<12:52:03,  3.55it/s] 56%|█████▌    | 207212/371472 [5:26:05<13:32:51,  3.37it/s] 56%|█████▌    | 207213/371472 [5:26:05<13:34:16,  3.36it/s] 56%|█████▌    | 207214/371472 [5:26:05<13:33:51,  3.36it/s] 56%|█████▌    | 207215/371472 [5:26:06<13:46:20,  3.31it/s] 56%|█████▌    | 207216/371472 [5:26:06<13:17:27,  3.43it/s] 56%|█████▌    | 207217/371472 [5:26:06<13:15:32,  3.44it/s] 56%|█████▌    | 207218/371472 [5:26:06<13:30:13,  3.38it/s] 56%|█████▌    | 207219/371472 [5:26:07<13:23:52,  3.41it/s] 56%|█████▌    | 207220/371472 [5:26:07<12:53:04,  3.54it/s]                                                            {'loss': 2.9705, 'learning_rate': 4.981630718179663e-07, 'epoch': 8.93}
 56%|█████▌    | 207220/371472 [5:26:07<12:53:04,  3.54it/s] 56%|█████▌    | 207221/371472 [5:26:07<13:07:25,  3.48it/s] 56%|█████▌    | 207222/371472 [5:26:07<12:44:18,  3.58it/s] 56%|█████▌    | 207223/371472 [5:26:08<13:33:28,  3.37it/s] 56%|█████▌    | 207224/371472 [5:26:08<13:00:34,  3.51it/s] 56%|█████▌    | 207225/371472 [5:26:08<13:05:37,  3.48it/s] 56%|█████▌    | 207226/371472 [5:26:09<12:55:41,  3.53it/s] 56%|█████▌    | 207227/371472 [5:26:09<12:21:58,  3.69it/s] 56%|█████▌    | 207228/371472 [5:26:09<12:17:29,  3.71it/s] 56%|█████▌    | 207229/371472 [5:26:09<12:14:08,  3.73it/s] 56%|█████▌    | 207230/371472 [5:26:10<12:25:49,  3.67it/s] 56%|█████▌    | 207231/371472 [5:26:10<12:35:25,  3.62it/s] 56%|█████▌    | 207232/371472 [5:26:10<12:28:51,  3.66it/s] 56%|█████▌    | 207233/371472 [5:26:11<13:10:42,  3.46it/s] 56%|█████▌    | 207234/371472 [5:26:11<12:46:25,  3.57it/s] 56%|█████▌    | 207235/371472 [5:26:11<13:01:28,  3.50it/s] 56%|█████▌    | 207236/371472 [5:26:11<12:44:23,  3.58it/s] 56%|█████▌    | 207237/371472 [5:26:12<12:58:31,  3.52it/s] 56%|█████▌    | 207238/371472 [5:26:12<13:02:43,  3.50it/s] 56%|█████▌    | 207239/371472 [5:26:12<13:12:46,  3.45it/s] 56%|█████▌    | 207240/371472 [5:26:13<13:25:27,  3.40it/s]                                                            {'loss': 3.1793, 'learning_rate': 4.981145898424874e-07, 'epoch': 8.93}
 56%|█████▌    | 207240/371472 [5:26:13<13:25:27,  3.40it/s] 56%|█████▌    | 207241/371472 [5:26:13<13:06:56,  3.48it/s] 56%|█████▌    | 207242/371472 [5:26:13<12:40:59,  3.60it/s] 56%|█████▌    | 207243/371472 [5:26:13<12:29:10,  3.65it/s] 56%|█████▌    | 207244/371472 [5:26:14<12:19:34,  3.70it/s] 56%|█████▌    | 207245/371472 [5:26:14<12:27:12,  3.66it/s] 56%|█████▌    | 207246/371472 [5:26:14<13:00:27,  3.51it/s] 56%|█████▌    | 207247/371472 [5:26:15<13:07:16,  3.48it/s] 56%|█████▌    | 207248/371472 [5:26:15<13:43:16,  3.32it/s] 56%|█████▌    | 207249/371472 [5:26:15<14:11:35,  3.21it/s] 56%|█████▌    | 207250/371472 [5:26:16<14:19:11,  3.19it/s] 56%|█████▌    | 207251/371472 [5:26:16<13:37:50,  3.35it/s] 56%|█████▌    | 207252/371472 [5:26:16<13:14:30,  3.44it/s] 56%|█████▌    | 207253/371472 [5:26:16<13:23:16,  3.41it/s] 56%|█████▌    | 207254/371472 [5:26:17<13:47:42,  3.31it/s] 56%|█████▌    | 207255/371472 [5:26:17<13:30:12,  3.38it/s] 56%|█████▌    | 207256/371472 [5:26:17<14:02:30,  3.25it/s] 56%|█████▌    | 207257/371472 [5:26:18<13:13:11,  3.45it/s] 56%|█████▌    | 207258/371472 [5:26:18<13:31:13,  3.37it/s] 56%|█████▌    | 207259/371472 [5:26:18<13:11:36,  3.46it/s] 56%|█████▌    | 207260/371472 [5:26:18<12:54:06,  3.54it/s]                                                            {'loss': 2.8363, 'learning_rate': 4.980661078670084e-07, 'epoch': 8.93}
 56%|█████▌    | 207260/371472 [5:26:18<12:54:06,  3.54it/s] 56%|█████▌    | 207261/371472 [5:26:19<12:43:14,  3.59it/s] 56%|█████▌    | 207262/371472 [5:26:19<12:41:44,  3.59it/s] 56%|█████▌    | 207263/371472 [5:26:19<13:38:30,  3.34it/s] 56%|█████▌    | 207264/371472 [5:26:20<13:15:27,  3.44it/s] 56%|█████▌    | 207265/371472 [5:26:20<12:49:09,  3.56it/s] 56%|█████▌    | 207266/371472 [5:26:20<12:28:18,  3.66it/s] 56%|█████▌    | 207267/371472 [5:26:20<12:51:24,  3.55it/s] 56%|█████▌    | 207268/371472 [5:26:21<13:06:31,  3.48it/s] 56%|█████▌    | 207269/371472 [5:26:21<12:54:37,  3.53it/s] 56%|█████▌    | 207270/371472 [5:26:21<12:23:05,  3.68it/s] 56%|█████▌    | 207271/371472 [5:26:21<12:22:43,  3.68it/s] 56%|█████▌    | 207272/371472 [5:26:22<12:04:05,  3.78it/s] 56%|█████▌    | 207273/371472 [5:26:22<12:16:12,  3.72it/s] 56%|█████▌    | 207274/371472 [5:26:22<12:06:44,  3.77it/s] 56%|█████▌    | 207275/371472 [5:26:23<13:05:38,  3.48it/s] 56%|█████▌    | 207276/371472 [5:26:23<13:24:16,  3.40it/s] 56%|█████▌    | 207277/371472 [5:26:23<13:27:44,  3.39it/s] 56%|█████▌    | 207278/371472 [5:26:23<13:20:19,  3.42it/s] 56%|█████▌    | 207279/371472 [5:26:24<14:51:55,  3.07it/s] 56%|█████▌    | 207280/371472 [5:26:24<14:22:33,  3.17it/s]                                                            {'loss': 2.9188, 'learning_rate': 4.980176258915297e-07, 'epoch': 8.93}
 56%|█████▌    | 207280/371472 [5:26:24<14:22:33,  3.17it/s] 56%|█████▌    | 207281/371472 [5:26:24<13:27:23,  3.39it/s] 56%|█████▌    | 207282/371472 [5:26:25<13:34:41,  3.36it/s] 56%|█████▌    | 207283/371472 [5:26:25<13:06:00,  3.48it/s] 56%|█████▌    | 207284/371472 [5:26:25<12:30:02,  3.65it/s] 56%|█████▌    | 207285/371472 [5:26:26<13:03:17,  3.49it/s] 56%|█████▌    | 207286/371472 [5:26:26<12:44:09,  3.58it/s] 56%|█████▌    | 207287/371472 [5:26:26<12:17:24,  3.71it/s] 56%|█████▌    | 207288/371472 [5:26:26<12:28:45,  3.65it/s] 56%|█████▌    | 207289/371472 [5:26:27<12:42:00,  3.59it/s] 56%|█████▌    | 207290/371472 [5:26:27<12:38:55,  3.61it/s] 56%|█████▌    | 207291/371472 [5:26:27<12:10:55,  3.74it/s] 56%|█████▌    | 207292/371472 [5:26:27<12:22:08,  3.69it/s] 56%|█████▌    | 207293/371472 [5:26:28<12:08:21,  3.76it/s] 56%|█████▌    | 207294/371472 [5:26:28<12:26:37,  3.66it/s] 56%|█████▌    | 207295/371472 [5:26:28<12:15:38,  3.72it/s] 56%|█████▌    | 207296/371472 [5:26:29<12:10:36,  3.75it/s] 56%|█████▌    | 207297/371472 [5:26:29<12:02:01,  3.79it/s] 56%|█████▌    | 207298/371472 [5:26:29<12:25:42,  3.67it/s] 56%|█████▌    | 207299/371472 [5:26:29<12:20:29,  3.70it/s] 56%|█████▌    | 207300/371472 [5:26:30<13:29:58,  3.38it/s]                                                            {'loss': 2.7937, 'learning_rate': 4.979691439160507e-07, 'epoch': 8.93}
 56%|█████▌    | 207300/371472 [5:26:30<13:29:58,  3.38it/s] 56%|█████▌    | 207301/371472 [5:26:30<13:34:11,  3.36it/s] 56%|█████▌    | 207302/371472 [5:26:30<13:10:31,  3.46it/s] 56%|█████▌    | 207303/371472 [5:26:31<12:59:33,  3.51it/s] 56%|█████▌    | 207304/371472 [5:26:31<12:35:05,  3.62it/s] 56%|█████▌    | 207305/371472 [5:26:31<12:35:14,  3.62it/s] 56%|█████▌    | 207306/371472 [5:26:31<12:47:24,  3.57it/s] 56%|█████▌    | 207307/371472 [5:26:32<12:34:59,  3.62it/s] 56%|█████▌    | 207308/371472 [5:26:32<12:58:46,  3.51it/s] 56%|█████▌    | 207309/371472 [5:26:32<13:26:12,  3.39it/s] 56%|█████▌    | 207310/371472 [5:26:33<13:05:15,  3.48it/s] 56%|█████▌    | 207311/371472 [5:26:33<12:57:01,  3.52it/s] 56%|█████▌    | 207312/371472 [5:26:33<13:02:44,  3.50it/s] 56%|█████▌    | 207313/371472 [5:26:33<13:15:17,  3.44it/s] 56%|█████▌    | 207314/371472 [5:26:34<14:20:33,  3.18it/s] 56%|█████▌    | 207315/371472 [5:26:34<13:50:32,  3.29it/s] 56%|█████▌    | 207316/371472 [5:26:34<14:34:32,  3.13it/s] 56%|█████▌    | 207317/371472 [5:26:35<13:45:00,  3.32it/s] 56%|█████▌    | 207318/371472 [5:26:35<13:32:08,  3.37it/s] 56%|█████▌    | 207319/371472 [5:26:35<13:51:11,  3.29it/s] 56%|█████▌    | 207320/371472 [5:26:35<13:01:45,  3.50it/s]                                                            {'loss': 2.9724, 'learning_rate': 4.979206619405719e-07, 'epoch': 8.93}
 56%|█████▌    | 207320/371472 [5:26:35<13:01:45,  3.50it/s] 56%|█████▌    | 207321/371472 [5:26:36<12:50:10,  3.55it/s] 56%|█████▌    | 207322/371472 [5:26:36<12:48:53,  3.56it/s] 56%|█████▌    | 207323/371472 [5:26:36<13:00:31,  3.51it/s] 56%|█████▌    | 207324/371472 [5:26:37<12:47:41,  3.56it/s] 56%|█████▌    | 207325/371472 [5:26:37<13:54:13,  3.28it/s] 56%|█████▌    | 207326/371472 [5:26:37<13:24:54,  3.40it/s] 56%|█████▌    | 207327/371472 [5:26:38<13:18:18,  3.43it/s] 56%|█████▌    | 207328/371472 [5:26:38<13:18:04,  3.43it/s] 56%|█████▌    | 207329/371472 [5:26:38<12:41:31,  3.59it/s] 56%|█████▌    | 207330/371472 [5:26:38<12:22:04,  3.69it/s] 56%|█████▌    | 207331/371472 [5:26:39<13:00:39,  3.50it/s] 56%|█████▌    | 207332/371472 [5:26:39<14:18:13,  3.19it/s] 56%|█████▌    | 207333/371472 [5:26:39<13:30:07,  3.38it/s] 56%|█████▌    | 207334/371472 [5:26:40<13:06:19,  3.48it/s] 56%|█████▌    | 207335/371472 [5:26:40<12:48:25,  3.56it/s] 56%|█████▌    | 207336/371472 [5:26:40<14:11:38,  3.21it/s] 56%|█████▌    | 207337/371472 [5:26:40<13:32:19,  3.37it/s] 56%|█████▌    | 207338/371472 [5:26:41<13:03:14,  3.49it/s] 56%|█████▌    | 207339/371472 [5:26:41<12:27:46,  3.66it/s] 56%|█████▌    | 207340/371472 [5:26:41<12:12:53,  3.73it/s]                                                            {'loss': 2.9913, 'learning_rate': 4.978721799650929e-07, 'epoch': 8.93}
 56%|█████▌    | 207340/371472 [5:26:41<12:12:53,  3.73it/s] 56%|█████▌    | 207341/371472 [5:26:41<12:18:05,  3.71it/s] 56%|█████▌    | 207342/371472 [5:26:42<11:56:04,  3.82it/s] 56%|█████▌    | 207343/371472 [5:26:42<11:59:33,  3.80it/s] 56%|█████▌    | 207344/371472 [5:26:42<11:53:46,  3.83it/s] 56%|█████▌    | 207345/371472 [5:26:43<12:24:41,  3.67it/s] 56%|█████▌    | 207346/371472 [5:26:43<12:11:19,  3.74it/s] 56%|█████▌    | 207347/371472 [5:26:43<13:07:48,  3.47it/s] 56%|█████▌    | 207348/371472 [5:26:43<13:21:07,  3.41it/s] 56%|█████▌    | 207349/371472 [5:26:44<12:55:46,  3.53it/s] 56%|█████▌    | 207350/371472 [5:26:44<12:37:36,  3.61it/s] 56%|█████▌    | 207351/371472 [5:26:44<12:48:40,  3.56it/s] 56%|█████▌    | 207352/371472 [5:26:45<12:44:55,  3.58it/s] 56%|█████▌    | 207353/371472 [5:26:45<12:31:35,  3.64it/s] 56%|█████▌    | 207354/371472 [5:26:45<12:42:56,  3.59it/s] 56%|█████▌    | 207355/371472 [5:26:45<13:21:54,  3.41it/s] 56%|█████▌    | 207356/371472 [5:26:46<12:58:08,  3.52it/s] 56%|█████▌    | 207357/371472 [5:26:46<13:00:22,  3.51it/s] 56%|█████▌    | 207358/371472 [5:26:46<13:39:57,  3.34it/s] 56%|█████▌    | 207359/371472 [5:26:47<14:04:08,  3.24it/s] 56%|█████▌    | 207360/371472 [5:26:47<13:41:45,  3.33it/s]                                                            {'loss': 2.9643, 'learning_rate': 4.97823697989614e-07, 'epoch': 8.93}
 56%|█████▌    | 207360/371472 [5:26:47<13:41:45,  3.33it/s] 56%|█████▌    | 207361/371472 [5:26:47<12:59:53,  3.51it/s] 56%|█████▌    | 207362/371472 [5:26:47<13:12:05,  3.45it/s] 56%|█████▌    | 207363/371472 [5:26:48<12:44:36,  3.58it/s] 56%|█████▌    | 207364/371472 [5:26:48<13:08:01,  3.47it/s] 56%|█████▌    | 207365/371472 [5:26:48<13:15:44,  3.44it/s] 56%|█████▌    | 207366/371472 [5:26:49<14:26:19,  3.16it/s] 56%|█████▌    | 207367/371472 [5:26:49<13:51:02,  3.29it/s] 56%|█████▌    | 207368/371472 [5:26:49<13:53:05,  3.28it/s] 56%|█████▌    | 207369/371472 [5:26:50<13:16:24,  3.43it/s] 56%|█████▌    | 207370/371472 [5:26:50<13:12:07,  3.45it/s] 56%|█████▌    | 207371/371472 [5:26:50<13:00:12,  3.51it/s] 56%|█████▌    | 207372/371472 [5:26:50<13:05:11,  3.48it/s] 56%|█████▌    | 207373/371472 [5:26:51<12:54:45,  3.53it/s] 56%|█████▌    | 207374/371472 [5:26:51<13:04:25,  3.49it/s] 56%|█████▌    | 207375/371472 [5:26:51<13:21:10,  3.41it/s] 56%|█████▌    | 207376/371472 [5:26:52<13:14:00,  3.44it/s] 56%|█████▌    | 207377/371472 [5:26:52<13:39:39,  3.34it/s] 56%|█████▌    | 207378/371472 [5:26:52<13:32:23,  3.37it/s] 56%|█████▌    | 207379/371472 [5:26:52<13:12:13,  3.45it/s] 56%|█████▌    | 207380/371472 [5:26:53<13:12:35,  3.45it/s]                                                            {'loss': 2.9187, 'learning_rate': 4.977752160141351e-07, 'epoch': 8.93}
 56%|█████▌    | 207380/371472 [5:26:53<13:12:35,  3.45it/s] 56%|█████▌    | 207381/371472 [5:26:53<13:20:58,  3.41it/s] 56%|█████▌    | 207382/371472 [5:26:53<13:28:05,  3.38it/s] 56%|█████▌    | 207383/371472 [5:26:54<13:21:56,  3.41it/s] 56%|█████▌    | 207384/371472 [5:26:54<13:44:54,  3.32it/s] 56%|█████▌    | 207385/371472 [5:26:54<13:49:40,  3.30it/s] 56%|█████▌    | 207386/371472 [5:26:55<14:21:31,  3.17it/s] 56%|█████▌    | 207387/371472 [5:26:55<13:23:05,  3.41it/s] 56%|█████▌    | 207388/371472 [5:26:55<14:39:31,  3.11it/s] 56%|█████▌    | 207389/371472 [5:26:55<14:00:56,  3.25it/s] 56%|█████▌    | 207390/371472 [5:26:56<13:47:08,  3.31it/s] 56%|█████▌    | 207391/371472 [5:26:56<13:17:19,  3.43it/s] 56%|█████▌    | 207392/371472 [5:26:56<13:50:42,  3.29it/s] 56%|█████▌    | 207393/371472 [5:26:57<14:03:45,  3.24it/s] 56%|█████▌    | 207394/371472 [5:26:57<13:27:11,  3.39it/s] 56%|█████▌    | 207395/371472 [5:26:57<12:56:23,  3.52it/s] 56%|█████▌    | 207396/371472 [5:26:57<12:42:33,  3.59it/s] 56%|█████▌    | 207397/371472 [5:26:58<12:22:27,  3.68it/s] 56%|█████▌    | 207398/371472 [5:26:58<13:27:35,  3.39it/s] 56%|█████▌    | 207399/371472 [5:26:58<13:10:38,  3.46it/s] 56%|█████▌    | 207400/371472 [5:26:59<13:22:50,  3.41it/s]                                                            {'loss': 2.9483, 'learning_rate': 4.977267340386564e-07, 'epoch': 8.93}
 56%|█████▌    | 207400/371472 [5:26:59<13:22:50,  3.41it/s] 56%|█████▌    | 207401/371472 [5:26:59<13:37:21,  3.35it/s] 56%|█████▌    | 207402/371472 [5:26:59<13:03:29,  3.49it/s] 56%|█████▌    | 207403/371472 [5:27:00<12:52:10,  3.54it/s] 56%|█████▌    | 207404/371472 [5:27:00<13:33:07,  3.36it/s] 56%|█████▌    | 207405/371472 [5:27:00<12:56:11,  3.52it/s] 56%|█████▌    | 207406/371472 [5:27:00<13:03:28,  3.49it/s] 56%|█████▌    | 207407/371472 [5:27:01<12:54:50,  3.53it/s] 56%|█████▌    | 207408/371472 [5:27:01<12:50:29,  3.55it/s] 56%|█████▌    | 207409/371472 [5:27:01<12:25:27,  3.67it/s] 56%|█████▌    | 207410/371472 [5:27:01<12:25:57,  3.67it/s] 56%|█████▌    | 207411/371472 [5:27:02<12:09:21,  3.75it/s] 56%|█████▌    | 207412/371472 [5:27:02<11:43:43,  3.89it/s] 56%|█████▌    | 207413/371472 [5:27:02<11:37:50,  3.92it/s] 56%|█████▌    | 207414/371472 [5:27:03<12:24:22,  3.67it/s] 56%|█████▌    | 207415/371472 [5:27:03<12:33:38,  3.63it/s] 56%|█████▌    | 207416/371472 [5:27:03<12:26:35,  3.66it/s] 56%|█████▌    | 207417/371472 [5:27:03<12:18:25,  3.70it/s] 56%|█████▌    | 207418/371472 [5:27:04<11:58:38,  3.80it/s] 56%|█████▌    | 207419/371472 [5:27:04<12:05:37,  3.77it/s] 56%|█████▌    | 207420/371472 [5:27:04<11:34:29,  3.94it/s]                                                            {'loss': 3.1193, 'learning_rate': 4.976782520631774e-07, 'epoch': 8.93}
 56%|█████▌    | 207420/371472 [5:27:04<11:34:29,  3.94it/s] 56%|█████▌    | 207421/371472 [5:27:04<11:55:00,  3.82it/s] 56%|█████▌    | 207422/371472 [5:27:05<12:03:11,  3.78it/s] 56%|█████▌    | 207423/371472 [5:27:05<12:19:42,  3.70it/s] 56%|█████▌    | 207424/371472 [5:27:05<12:44:57,  3.57it/s] 56%|█████▌    | 207425/371472 [5:27:05<12:38:38,  3.60it/s] 56%|█████▌    | 207426/371472 [5:27:06<13:15:59,  3.43it/s] 56%|█████▌    | 207427/371472 [5:27:06<13:00:01,  3.51it/s] 56%|█████▌    | 207428/371472 [5:27:06<12:59:52,  3.51it/s] 56%|█████▌    | 207429/371472 [5:27:07<12:40:10,  3.60it/s] 56%|█████▌    | 207430/371472 [5:27:07<13:21:20,  3.41it/s] 56%|█████▌    | 207431/371472 [5:27:07<13:04:36,  3.48it/s] 56%|█████▌    | 207432/371472 [5:27:08<13:10:28,  3.46it/s] 56%|█████▌    | 207433/371472 [5:27:08<13:03:37,  3.49it/s] 56%|█████▌    | 207434/371472 [5:27:08<12:38:41,  3.60it/s] 56%|█████▌    | 207435/371472 [5:27:08<12:55:31,  3.53it/s] 56%|█████▌    | 207436/371472 [5:27:09<12:59:06,  3.51it/s] 56%|█████▌    | 207437/371472 [5:27:09<13:33:28,  3.36it/s] 56%|█████▌    | 207438/371472 [5:27:09<14:04:28,  3.24it/s] 56%|█████▌    | 207439/371472 [5:27:10<13:49:38,  3.30it/s] 56%|█████▌    | 207440/371472 [5:27:10<14:03:47,  3.24it/s]                                                            {'loss': 2.9163, 'learning_rate': 4.976297700876985e-07, 'epoch': 8.93}
 56%|█████▌    | 207440/371472 [5:27:10<14:03:47,  3.24it/s] 56%|█████▌    | 207441/371472 [5:27:10<13:39:18,  3.34it/s] 56%|█████▌    | 207442/371472 [5:27:10<13:22:39,  3.41it/s] 56%|█████▌    | 207443/371472 [5:27:11<13:09:22,  3.46it/s] 56%|█████▌    | 207444/371472 [5:27:11<12:47:29,  3.56it/s] 56%|█████▌    | 207445/371472 [5:27:11<12:30:16,  3.64it/s] 56%|█████▌    | 207446/371472 [5:27:12<12:29:48,  3.65it/s] 56%|█████▌    | 207447/371472 [5:27:12<12:48:17,  3.56it/s] 56%|█████▌    | 207448/371472 [5:27:12<13:06:00,  3.48it/s] 56%|█████▌    | 207449/371472 [5:27:12<13:08:39,  3.47it/s] 56%|█████▌    | 207450/371472 [5:27:13<13:14:16,  3.44it/s] 56%|█████▌    | 207451/371472 [5:27:13<13:27:33,  3.39it/s] 56%|█████▌    | 207452/371472 [5:27:13<13:03:57,  3.49it/s] 56%|█████▌    | 207453/371472 [5:27:14<13:06:56,  3.47it/s] 56%|█████▌    | 207454/371472 [5:27:14<12:56:39,  3.52it/s] 56%|█████▌    | 207455/371472 [5:27:14<13:01:38,  3.50it/s] 56%|█████▌    | 207456/371472 [5:27:14<12:43:11,  3.58it/s] 56%|█████▌    | 207457/371472 [5:27:15<12:51:27,  3.54it/s] 56%|█████▌    | 207458/371472 [5:27:15<12:56:05,  3.52it/s] 56%|█████▌    | 207459/371472 [5:27:15<14:03:36,  3.24it/s] 56%|█████▌    | 207460/371472 [5:27:16<13:21:48,  3.41it/s]                                                            {'loss': 3.0244, 'learning_rate': 4.975812881122196e-07, 'epoch': 8.94}
 56%|█████▌    | 207460/371472 [5:27:16<13:21:48,  3.41it/s] 56%|█████▌    | 207461/371472 [5:27:16<13:01:18,  3.50it/s] 56%|█████▌    | 207462/371472 [5:27:16<14:52:22,  3.06it/s] 56%|█████▌    | 207463/371472 [5:27:17<15:22:18,  2.96it/s] 56%|█████▌    | 207464/371472 [5:27:17<14:37:00,  3.12it/s] 56%|█████▌    | 207465/371472 [5:27:17<13:54:38,  3.28it/s] 56%|█████▌    | 207466/371472 [5:27:17<13:11:13,  3.45it/s] 56%|█████▌    | 207467/371472 [5:27:18<13:01:58,  3.50it/s] 56%|█████▌    | 207468/371472 [5:27:18<13:03:53,  3.49it/s] 56%|█████▌    | 207469/371472 [5:27:18<12:58:42,  3.51it/s] 56%|█████▌    | 207470/371472 [5:27:19<12:39:59,  3.60it/s] 56%|█████▌    | 207471/371472 [5:27:19<13:20:23,  3.42it/s] 56%|█████▌    | 207472/371472 [5:27:19<12:50:02,  3.55it/s] 56%|█████▌    | 207473/371472 [5:27:20<13:36:47,  3.35it/s] 56%|█████▌    | 207474/371472 [5:27:20<14:10:31,  3.21it/s] 56%|█████▌    | 207475/371472 [5:27:20<13:31:06,  3.37it/s] 56%|█████▌    | 207476/371472 [5:27:20<12:53:51,  3.53it/s] 56%|█████▌    | 207477/371472 [5:27:21<12:56:32,  3.52it/s] 56%|█████▌    | 207478/371472 [5:27:21<12:20:37,  3.69it/s] 56%|█████▌    | 207479/371472 [5:27:21<12:36:00,  3.62it/s] 56%|█████▌    | 207480/371472 [5:27:22<13:16:07,  3.43it/s]                                                            {'loss': 2.8314, 'learning_rate': 4.975328061367408e-07, 'epoch': 8.94}
 56%|█████▌    | 207480/371472 [5:27:22<13:16:07,  3.43it/s] 56%|█████▌    | 207481/371472 [5:27:22<12:42:09,  3.59it/s] 56%|█████▌    | 207482/371472 [5:27:22<13:01:56,  3.50it/s] 56%|█████▌    | 207483/371472 [5:27:22<13:38:40,  3.34it/s] 56%|█████▌    | 207484/371472 [5:27:23<13:42:01,  3.32it/s] 56%|█████▌    | 207485/371472 [5:27:23<13:46:36,  3.31it/s] 56%|█████▌    | 207486/371472 [5:27:23<13:22:19,  3.41it/s] 56%|█████▌    | 207487/371472 [5:27:24<12:59:59,  3.50it/s] 56%|█████▌    | 207488/371472 [5:27:24<12:42:05,  3.59it/s] 56%|█████▌    | 207489/371472 [5:27:24<12:47:49,  3.56it/s] 56%|█████▌    | 207490/371472 [5:27:24<12:36:30,  3.61it/s] 56%|█████▌    | 207491/371472 [5:27:25<12:22:31,  3.68it/s] 56%|█████▌    | 207492/371472 [5:27:25<12:11:28,  3.74it/s] 56%|█████▌    | 207493/371472 [5:27:25<12:08:58,  3.75it/s] 56%|█████▌    | 207494/371472 [5:27:25<12:36:27,  3.61it/s] 56%|█████▌    | 207495/371472 [5:27:26<12:22:10,  3.68it/s] 56%|█████▌    | 207496/371472 [5:27:26<12:15:38,  3.72it/s] 56%|█████▌    | 207497/371472 [5:27:26<12:11:49,  3.73it/s] 56%|█████▌    | 207498/371472 [5:27:27<12:29:40,  3.65it/s] 56%|█████▌    | 207499/371472 [5:27:27<12:58:09,  3.51it/s] 56%|█████▌    | 207500/371472 [5:27:27<12:38:51,  3.60it/s]                                                            {'loss': 2.7765, 'learning_rate': 4.974843241612617e-07, 'epoch': 8.94}
 56%|█████▌    | 207500/371472 [5:27:27<12:38:51,  3.60it/s] 56%|█████▌    | 207501/371472 [5:27:27<13:10:32,  3.46it/s] 56%|█████▌    | 207502/371472 [5:27:28<13:21:07,  3.41it/s] 56%|█████▌    | 207503/371472 [5:27:28<13:45:45,  3.31it/s] 56%|█████▌    | 207504/371472 [5:27:28<13:12:28,  3.45it/s] 56%|█████▌    | 207505/371472 [5:27:29<13:57:08,  3.26it/s] 56%|█████▌    | 207506/371472 [5:27:29<14:31:38,  3.14it/s] 56%|█████▌    | 207507/371472 [5:27:29<13:56:07,  3.27it/s] 56%|█████▌    | 207508/371472 [5:27:30<13:51:45,  3.29it/s] 56%|█████▌    | 207509/371472 [5:27:30<13:59:24,  3.26it/s] 56%|█████▌    | 207510/371472 [5:27:30<13:41:41,  3.33it/s] 56%|█████▌    | 207511/371472 [5:27:30<14:05:57,  3.23it/s] 56%|█████▌    | 207512/371472 [5:27:31<13:40:20,  3.33it/s] 56%|█████▌    | 207513/371472 [5:27:31<14:21:24,  3.17it/s] 56%|█████▌    | 207514/371472 [5:27:31<13:39:43,  3.33it/s] 56%|█████▌    | 207515/371472 [5:27:32<13:23:12,  3.40it/s] 56%|█████▌    | 207516/371472 [5:27:32<12:51:05,  3.54it/s] 56%|█████▌    | 207517/371472 [5:27:32<13:29:17,  3.38it/s] 56%|█████▌    | 207518/371472 [5:27:33<13:28:35,  3.38it/s] 56%|█████▌    | 207519/371472 [5:27:33<14:56:54,  3.05it/s] 56%|█████▌    | 207520/371472 [5:27:33<14:15:33,  3.19it/s]                                                            {'loss': 2.8617, 'learning_rate': 4.97435842185783e-07, 'epoch': 8.94}
 56%|█████▌    | 207520/371472 [5:27:33<14:15:33,  3.19it/s] 56%|█████▌    | 207521/371472 [5:27:34<13:49:18,  3.29it/s] 56%|█████▌    | 207522/371472 [5:27:34<13:14:46,  3.44it/s] 56%|█████▌    | 207523/371472 [5:27:34<12:51:18,  3.54it/s] 56%|█████▌    | 207524/371472 [5:27:34<13:11:52,  3.45it/s] 56%|█████▌    | 207525/371472 [5:27:35<12:41:00,  3.59it/s] 56%|█████▌    | 207526/371472 [5:27:35<12:46:27,  3.56it/s] 56%|█████▌    | 207527/371472 [5:27:35<12:35:30,  3.62it/s] 56%|█████▌    | 207528/371472 [5:27:35<12:36:34,  3.61it/s] 56%|█████▌    | 207529/371472 [5:27:36<13:01:08,  3.50it/s] 56%|█████▌    | 207530/371472 [5:27:36<12:49:56,  3.55it/s] 56%|█████▌    | 207531/371472 [5:27:36<13:21:14,  3.41it/s] 56%|█████▌    | 207532/371472 [5:27:37<13:11:41,  3.45it/s] 56%|█████▌    | 207533/371472 [5:27:37<13:58:57,  3.26it/s] 56%|█████▌    | 207534/371472 [5:27:37<13:21:32,  3.41it/s] 56%|█████▌    | 207535/371472 [5:27:37<12:57:16,  3.52it/s] 56%|█████▌    | 207536/371472 [5:27:38<13:12:38,  3.45it/s] 56%|█████▌    | 207537/371472 [5:27:38<13:32:05,  3.36it/s] 56%|█████▌    | 207538/371472 [5:27:38<13:26:49,  3.39it/s] 56%|█████▌    | 207539/371472 [5:27:39<14:43:22,  3.09it/s] 56%|█████▌    | 207540/371472 [5:27:39<14:27:40,  3.15it/s]                                                            {'loss': 2.8979, 'learning_rate': 4.973873602103041e-07, 'epoch': 8.94}
 56%|█████▌    | 207540/371472 [5:27:39<14:27:40,  3.15it/s] 56%|█████▌    | 207541/371472 [5:27:39<13:47:52,  3.30it/s] 56%|█████▌    | 207542/371472 [5:27:40<14:09:30,  3.22it/s] 56%|█████▌    | 207543/371472 [5:27:40<14:17:04,  3.19it/s] 56%|█████▌    | 207544/371472 [5:27:40<15:05:51,  3.02it/s] 56%|█████▌    | 207545/371472 [5:27:41<14:13:48,  3.20it/s] 56%|█████▌    | 207546/371472 [5:27:41<13:38:58,  3.34it/s] 56%|█████▌    | 207547/371472 [5:27:41<13:08:43,  3.46it/s] 56%|█████▌    | 207548/371472 [5:27:41<12:39:23,  3.60it/s] 56%|█████▌    | 207549/371472 [5:27:42<13:34:31,  3.35it/s] 56%|█████▌    | 207550/371472 [5:27:42<12:48:50,  3.55it/s] 56%|█████▌    | 207551/371472 [5:27:42<13:21:26,  3.41it/s] 56%|█████▌    | 207552/371472 [5:27:43<13:15:22,  3.43it/s] 56%|█████▌    | 207553/371472 [5:27:43<13:15:46,  3.43it/s] 56%|█████▌    | 207554/371472 [5:27:43<13:12:11,  3.45it/s] 56%|█████▌    | 207555/371472 [5:27:43<12:42:05,  3.58it/s] 56%|█████▌    | 207556/371472 [5:27:44<12:28:24,  3.65it/s] 56%|█████▌    | 207557/371472 [5:27:44<12:04:05,  3.77it/s] 56%|█████▌    | 207558/371472 [5:27:44<12:32:51,  3.63it/s] 56%|█████▌    | 207559/371472 [5:27:45<12:10:33,  3.74it/s] 56%|█████▌    | 207560/371472 [5:27:45<11:43:35,  3.88it/s]                                                            {'loss': 2.9539, 'learning_rate': 4.973388782348252e-07, 'epoch': 8.94}
 56%|█████▌    | 207560/371472 [5:27:45<11:43:35,  3.88it/s] 56%|█████▌    | 207561/371472 [5:27:45<11:48:03,  3.86it/s] 56%|█████▌    | 207562/371472 [5:27:45<13:08:15,  3.47it/s] 56%|█████▌    | 207563/371472 [5:27:46<13:42:58,  3.32it/s] 56%|█████▌    | 207564/371472 [5:27:46<12:56:45,  3.52it/s] 56%|█████▌    | 207565/371472 [5:27:46<12:30:01,  3.64it/s] 56%|█████▌    | 207566/371472 [5:27:46<12:43:55,  3.58it/s] 56%|█████▌    | 207567/371472 [5:27:47<12:59:46,  3.50it/s] 56%|█████▌    | 207568/371472 [5:27:47<12:44:25,  3.57it/s] 56%|█████▌    | 207569/371472 [5:27:47<13:16:07,  3.43it/s] 56%|█████▌    | 207570/371472 [5:27:48<12:46:34,  3.56it/s] 56%|█████▌    | 207571/371472 [5:27:48<12:27:57,  3.65it/s] 56%|█████▌    | 207572/371472 [5:27:48<13:07:47,  3.47it/s] 56%|█████▌    | 207573/371472 [5:27:49<13:26:23,  3.39it/s] 56%|█████▌    | 207574/371472 [5:27:49<12:55:35,  3.52it/s] 56%|█████▌    | 207575/371472 [5:27:49<12:56:44,  3.52it/s] 56%|█████▌    | 207576/371472 [5:27:49<12:58:53,  3.51it/s] 56%|█████▌    | 207577/371472 [5:27:50<12:35:50,  3.61it/s] 56%|█████▌    | 207578/371472 [5:27:50<12:06:55,  3.76it/s] 56%|█████▌    | 207579/371472 [5:27:50<12:10:46,  3.74it/s] 56%|█████▌    | 207580/371472 [5:27:50<12:32:11,  3.63it/s]                                                            {'loss': 2.9134, 'learning_rate': 4.972903962593462e-07, 'epoch': 8.94}
 56%|█████▌    | 207580/371472 [5:27:50<12:32:11,  3.63it/s] 56%|█████▌    | 207581/371472 [5:27:51<12:36:47,  3.61it/s] 56%|█████▌    | 207582/371472 [5:27:51<12:53:39,  3.53it/s] 56%|█████▌    | 207583/371472 [5:27:51<12:35:11,  3.62it/s] 56%|█████▌    | 207584/371472 [5:27:52<12:31:24,  3.64it/s] 56%|█████▌    | 207585/371472 [5:27:52<12:28:55,  3.65it/s] 56%|█████▌    | 207586/371472 [5:27:52<12:24:49,  3.67it/s] 56%|█████▌    | 207587/371472 [5:27:52<12:15:56,  3.71it/s] 56%|█████▌    | 207588/371472 [5:27:53<12:33:02,  3.63it/s] 56%|█████▌    | 207589/371472 [5:27:53<12:23:29,  3.67it/s] 56%|█████▌    | 207590/371472 [5:27:53<12:43:56,  3.58it/s] 56%|█████▌    | 207591/371472 [5:27:53<12:26:48,  3.66it/s] 56%|█████▌    | 207592/371472 [5:27:54<13:45:53,  3.31it/s] 56%|█████▌    | 207593/371472 [5:27:54<13:17:13,  3.43it/s] 56%|█████▌    | 207594/371472 [5:27:54<13:06:05,  3.47it/s] 56%|█████▌    | 207595/371472 [5:27:55<13:03:22,  3.49it/s] 56%|█████▌    | 207596/371472 [5:27:55<12:47:00,  3.56it/s] 56%|█████▌    | 207597/371472 [5:27:55<12:42:30,  3.58it/s] 56%|█████▌    | 207598/371472 [5:27:56<13:58:43,  3.26it/s] 56%|█████▌    | 207599/371472 [5:27:56<13:42:28,  3.32it/s] 56%|█████▌    | 207600/371472 [5:27:56<13:03:34,  3.49it/s]                                                            {'loss': 3.0259, 'learning_rate': 4.972419142838673e-07, 'epoch': 8.94}
 56%|█████▌    | 207600/371472 [5:27:56<13:03:34,  3.49it/s] 56%|█████▌    | 207601/371472 [5:27:56<13:52:13,  3.28it/s] 56%|█████▌    | 207602/371472 [5:27:57<15:28:31,  2.94it/s] 56%|█████▌    | 207603/371472 [5:27:57<14:22:16,  3.17it/s] 56%|█████▌    | 207604/371472 [5:27:57<13:54:37,  3.27it/s] 56%|█████▌    | 207605/371472 [5:27:58<13:22:34,  3.40it/s] 56%|█████▌    | 207606/371472 [5:27:58<12:40:52,  3.59it/s] 56%|█████▌    | 207607/371472 [5:27:58<12:47:28,  3.56it/s] 56%|█████▌    | 207608/371472 [5:27:58<13:06:59,  3.47it/s] 56%|█████▌    | 207609/371472 [5:27:59<12:52:06,  3.54it/s] 56%|█████▌    | 207610/371472 [5:27:59<12:34:54,  3.62it/s] 56%|█████▌    | 207611/371472 [5:27:59<12:28:23,  3.65it/s] 56%|█████▌    | 207612/371472 [5:28:00<13:17:35,  3.42it/s] 56%|█████▌    | 207613/371472 [5:28:00<12:37:48,  3.60it/s] 56%|█████▌    | 207614/371472 [5:28:00<12:21:43,  3.68it/s] 56%|█████▌    | 207615/371472 [5:28:00<12:34:04,  3.62it/s] 56%|█████▌    | 207616/371472 [5:28:01<12:31:02,  3.64it/s] 56%|█████▌    | 207617/371472 [5:28:01<12:44:12,  3.57it/s] 56%|█████▌    | 207618/371472 [5:28:01<12:40:29,  3.59it/s] 56%|█████▌    | 207619/371472 [5:28:02<12:45:37,  3.57it/s] 56%|█████▌    | 207620/371472 [5:28:02<13:13:28,  3.44it/s]                                                            {'loss': 2.8998, 'learning_rate': 4.971934323083884e-07, 'epoch': 8.94}
 56%|█████▌    | 207620/371472 [5:28:02<13:13:28,  3.44it/s] 56%|█████▌    | 207621/371472 [5:28:02<12:43:59,  3.57it/s] 56%|█████▌    | 207622/371472 [5:28:02<12:22:12,  3.68it/s] 56%|█████▌    | 207623/371472 [5:28:03<12:33:23,  3.62it/s] 56%|█████▌    | 207624/371472 [5:28:03<12:36:36,  3.61it/s] 56%|█████▌    | 207625/371472 [5:28:03<12:38:22,  3.60it/s] 56%|█████▌    | 207626/371472 [5:28:03<12:31:27,  3.63it/s] 56%|█████▌    | 207627/371472 [5:28:04<12:55:20,  3.52it/s] 56%|█████▌    | 207628/371472 [5:28:04<14:15:58,  3.19it/s] 56%|█████▌    | 207629/371472 [5:28:05<15:16:09,  2.98it/s] 56%|█████▌    | 207630/371472 [5:28:05<14:23:40,  3.16it/s] 56%|█████▌    | 207631/371472 [5:28:05<14:05:47,  3.23it/s] 56%|█████▌    | 207632/371472 [5:28:05<13:52:52,  3.28it/s] 56%|█████▌    | 207633/371472 [5:28:06<15:03:32,  3.02it/s] 56%|█████▌    | 207634/371472 [5:28:06<14:21:57,  3.17it/s] 56%|█████▌    | 207635/371472 [5:28:06<13:39:30,  3.33it/s] 56%|█████▌    | 207636/371472 [5:28:07<13:22:03,  3.40it/s] 56%|█████▌    | 207637/371472 [5:28:07<14:23:08,  3.16it/s] 56%|█████▌    | 207638/371472 [5:28:07<14:21:41,  3.17it/s] 56%|█████▌    | 207639/371472 [5:28:08<13:57:18,  3.26it/s] 56%|█████▌    | 207640/371472 [5:28:08<14:33:52,  3.12it/s]                                                            {'loss': 2.9446, 'learning_rate': 4.971449503329094e-07, 'epoch': 8.94}
 56%|█████▌    | 207640/371472 [5:28:08<14:33:52,  3.12it/s] 56%|█████▌    | 207641/371472 [5:28:08<13:57:38,  3.26it/s] 56%|█████▌    | 207642/371472 [5:28:09<13:56:41,  3.26it/s] 56%|█████▌    | 207643/371472 [5:28:09<13:42:06,  3.32it/s] 56%|█████▌    | 207644/371472 [5:28:09<13:10:30,  3.45it/s] 56%|█████▌    | 207645/371472 [5:28:09<13:21:22,  3.41it/s] 56%|█████▌    | 207646/371472 [5:28:10<12:58:40,  3.51it/s] 56%|█████▌    | 207647/371472 [5:28:10<13:27:43,  3.38it/s] 56%|█████▌    | 207648/371472 [5:28:10<13:14:53,  3.43it/s] 56%|█████▌    | 207649/371472 [5:28:11<13:10:05,  3.46it/s] 56%|█████▌    | 207650/371472 [5:28:11<12:56:14,  3.52it/s] 56%|█████▌    | 207651/371472 [5:28:11<12:43:15,  3.58it/s] 56%|█████▌    | 207652/371472 [5:28:11<12:26:38,  3.66it/s] 56%|█████▌    | 207653/371472 [5:28:12<12:55:02,  3.52it/s] 56%|█████▌    | 207654/371472 [5:28:12<12:50:00,  3.55it/s] 56%|█████▌    | 207655/371472 [5:28:12<14:26:23,  3.15it/s] 56%|█████▌    | 207656/371472 [5:28:13<13:46:45,  3.30it/s] 56%|█████▌    | 207657/371472 [5:28:13<13:41:48,  3.32it/s] 56%|█████▌    | 207658/371472 [5:28:13<13:56:56,  3.26it/s] 56%|█████▌    | 207659/371472 [5:28:13<13:21:53,  3.40it/s] 56%|█████▌    | 207660/371472 [5:28:14<13:11:51,  3.45it/s]                                                            {'loss': 3.0485, 'learning_rate': 4.970964683574307e-07, 'epoch': 8.94}
 56%|█████▌    | 207660/371472 [5:28:14<13:11:51,  3.45it/s] 56%|█████▌    | 207661/371472 [5:28:14<13:08:36,  3.46it/s] 56%|█████▌    | 207662/371472 [5:28:14<13:03:54,  3.48it/s] 56%|█████▌    | 207663/371472 [5:28:15<13:03:12,  3.49it/s] 56%|█████▌    | 207664/371472 [5:28:15<13:18:07,  3.42it/s] 56%|█████▌    | 207665/371472 [5:28:15<13:33:08,  3.36it/s] 56%|█████▌    | 207666/371472 [5:28:15<13:14:38,  3.44it/s] 56%|█████▌    | 207667/371472 [5:28:16<12:43:25,  3.58it/s] 56%|█████▌    | 207668/371472 [5:28:16<12:59:24,  3.50it/s] 56%|█████▌    | 207669/371472 [5:28:16<12:58:06,  3.51it/s] 56%|█████▌    | 207670/371472 [5:28:17<12:33:33,  3.62it/s] 56%|█████▌    | 207671/371472 [5:28:17<12:37:15,  3.61it/s] 56%|█████▌    | 207672/371472 [5:28:17<12:54:20,  3.53it/s] 56%|█████▌    | 207673/371472 [5:28:17<13:26:55,  3.38it/s] 56%|█████▌    | 207674/371472 [5:28:18<12:49:39,  3.55it/s] 56%|█████▌    | 207675/371472 [5:28:18<14:18:46,  3.18it/s] 56%|█████▌    | 207676/371472 [5:28:18<14:39:52,  3.10it/s] 56%|█████▌    | 207677/371472 [5:28:19<14:36:31,  3.11it/s] 56%|█████▌    | 207678/371472 [5:28:19<13:41:43,  3.32it/s] 56%|█████▌    | 207679/371472 [5:28:19<13:43:21,  3.32it/s] 56%|█████▌    | 207680/371472 [5:28:20<14:05:11,  3.23it/s]                                                            {'loss': 2.9442, 'learning_rate': 4.970479863819517e-07, 'epoch': 8.95}
 56%|█████▌    | 207680/371472 [5:28:20<14:05:11,  3.23it/s] 56%|█████▌    | 207681/371472 [5:28:20<13:19:45,  3.41it/s] 56%|█████▌    | 207682/371472 [5:28:20<12:56:16,  3.52it/s] 56%|█████▌    | 207683/371472 [5:28:20<13:04:28,  3.48it/s] 56%|█████▌    | 207684/371472 [5:28:21<13:01:16,  3.49it/s] 56%|█████▌    | 207685/371472 [5:28:21<12:22:02,  3.68it/s] 56%|█████▌    | 207686/371472 [5:28:21<12:07:38,  3.75it/s] 56%|█████▌    | 207687/371472 [5:28:22<13:31:06,  3.37it/s] 56%|█████▌    | 207688/371472 [5:28:22<13:06:41,  3.47it/s] 56%|█████▌    | 207689/371472 [5:28:22<13:12:37,  3.44it/s] 56%|█████▌    | 207690/371472 [5:28:22<12:53:43,  3.53it/s] 56%|█████▌    | 207691/371472 [5:28:23<14:25:00,  3.16it/s] 56%|█████▌    | 207692/371472 [5:28:23<13:58:19,  3.26it/s] 56%|█████▌    | 207693/371472 [5:28:23<13:32:17,  3.36it/s] 56%|█████▌    | 207694/371472 [5:28:24<13:20:07,  3.41it/s] 56%|█████▌    | 207695/371472 [5:28:24<13:24:34,  3.39it/s] 56%|█████▌    | 207696/371472 [5:28:24<13:37:22,  3.34it/s] 56%|█████▌    | 207697/371472 [5:28:25<13:09:35,  3.46it/s] 56%|█████▌    | 207698/371472 [5:28:25<12:47:16,  3.56it/s] 56%|█████▌    | 207699/371472 [5:28:25<12:23:11,  3.67it/s] 56%|█████▌    | 207700/371472 [5:28:25<12:08:14,  3.75it/s]                                                            {'loss': 2.9962, 'learning_rate': 4.969995044064729e-07, 'epoch': 8.95}
 56%|█████▌    | 207700/371472 [5:28:25<12:08:14,  3.75it/s] 56%|█████▌    | 207701/371472 [5:28:26<11:55:04,  3.82it/s] 56%|█████▌    | 207702/371472 [5:28:26<12:27:43,  3.65it/s] 56%|█████▌    | 207703/371472 [5:28:26<12:13:36,  3.72it/s] 56%|█████▌    | 207704/371472 [5:28:26<12:37:18,  3.60it/s] 56%|█████▌    | 207705/371472 [5:28:27<12:34:07,  3.62it/s] 56%|█████▌    | 207706/371472 [5:28:27<11:57:59,  3.80it/s] 56%|█████▌    | 207707/371472 [5:28:27<11:41:22,  3.89it/s] 56%|█████▌    | 207708/371472 [5:28:27<12:07:07,  3.75it/s] 56%|█████▌    | 207709/371472 [5:28:28<11:39:30,  3.90it/s] 56%|█████▌    | 207710/371472 [5:28:28<12:09:57,  3.74it/s] 56%|█████▌    | 207711/371472 [5:28:28<12:34:28,  3.62it/s] 56%|█████▌    | 207712/371472 [5:28:29<13:23:00,  3.40it/s] 56%|█████▌    | 207713/371472 [5:28:29<13:15:54,  3.43it/s] 56%|█████▌    | 207714/371472 [5:28:29<12:50:47,  3.54it/s] 56%|█████▌    | 207715/371472 [5:28:29<12:24:01,  3.67it/s] 56%|█████▌    | 207716/371472 [5:28:30<12:31:06,  3.63it/s] 56%|█████▌    | 207717/371472 [5:28:30<13:02:19,  3.49it/s] 56%|█████▌    | 207718/371472 [5:28:30<12:52:03,  3.54it/s] 56%|█████▌    | 207719/371472 [5:28:31<12:43:28,  3.57it/s] 56%|█████▌    | 207720/371472 [5:28:31<14:23:18,  3.16it/s]                                                            {'loss': 2.975, 'learning_rate': 4.969510224309939e-07, 'epoch': 8.95}
 56%|█████▌    | 207720/371472 [5:28:31<14:23:18,  3.16it/s] 56%|█████▌    | 207721/371472 [5:28:31<13:39:01,  3.33it/s] 56%|█████▌    | 207722/371472 [5:28:32<13:54:27,  3.27it/s] 56%|█████▌    | 207723/371472 [5:28:32<12:55:36,  3.52it/s] 56%|█████▌    | 207724/371472 [5:28:32<13:00:23,  3.50it/s] 56%|█████▌    | 207725/371472 [5:28:32<12:17:59,  3.70it/s] 56%|█████▌    | 207726/371472 [5:28:33<11:58:32,  3.80it/s] 56%|█████▌    | 207727/371472 [5:28:33<11:43:05,  3.88it/s] 56%|█████▌    | 207728/371472 [5:28:33<11:22:42,  4.00it/s] 56%|█████▌    | 207729/371472 [5:28:33<11:25:23,  3.98it/s] 56%|█████▌    | 207730/371472 [5:28:34<11:38:11,  3.91it/s] 56%|█████▌    | 207731/371472 [5:28:34<12:36:06,  3.61it/s] 56%|█████▌    | 207732/371472 [5:28:34<13:03:44,  3.48it/s] 56%|█████▌    | 207733/371472 [5:28:34<12:45:47,  3.56it/s] 56%|█████▌    | 207734/371472 [5:28:35<12:25:18,  3.66it/s] 56%|█████▌    | 207735/371472 [5:28:35<12:49:42,  3.55it/s] 56%|█████▌    | 207736/371472 [5:28:35<13:29:16,  3.37it/s] 56%|█████▌    | 207737/371472 [5:28:36<14:10:24,  3.21it/s] 56%|█████▌    | 207738/371472 [5:28:36<13:50:24,  3.29it/s] 56%|█████▌    | 207739/371472 [5:28:36<13:17:51,  3.42it/s] 56%|█████▌    | 207740/371472 [5:28:37<12:51:49,  3.54it/s]                                                            {'loss': 3.0651, 'learning_rate': 4.96902540455515e-07, 'epoch': 8.95}
 56%|█████▌    | 207740/371472 [5:28:37<12:51:49,  3.54it/s] 56%|█████▌    | 207741/371472 [5:28:37<12:43:08,  3.58it/s] 56%|█████▌    | 207742/371472 [5:28:37<12:39:16,  3.59it/s] 56%|█████▌    | 207743/371472 [5:28:37<12:35:15,  3.61it/s] 56%|█████▌    | 207744/371472 [5:28:38<12:57:53,  3.51it/s] 56%|█████▌    | 207745/371472 [5:28:38<12:34:06,  3.62it/s] 56%|█████▌    | 207746/371472 [5:28:38<12:21:20,  3.68it/s] 56%|█████▌    | 207747/371472 [5:28:38<12:26:27,  3.66it/s] 56%|█████▌    | 207748/371472 [5:28:39<12:34:33,  3.62it/s] 56%|█████▌    | 207749/371472 [5:28:39<12:27:50,  3.65it/s] 56%|█████▌    | 207750/371472 [5:28:39<13:18:20,  3.42it/s] 56%|█████▌    | 207751/371472 [5:28:40<13:11:02,  3.45it/s] 56%|█████▌    | 207752/371472 [5:28:40<12:53:04,  3.53it/s] 56%|█████▌    | 207753/371472 [5:28:40<13:18:53,  3.42it/s] 56%|█████▌    | 207754/371472 [5:28:41<13:39:12,  3.33it/s] 56%|█████▌    | 207755/371472 [5:28:41<13:16:42,  3.42it/s] 56%|█████▌    | 207756/371472 [5:28:41<13:00:07,  3.50it/s] 56%|█████▌    | 207757/371472 [5:28:41<12:48:09,  3.55it/s] 56%|█████▌    | 207758/371472 [5:28:42<12:44:53,  3.57it/s] 56%|█████▌    | 207759/371472 [5:28:42<12:47:34,  3.55it/s] 56%|█████▌    | 207760/371472 [5:28:42<13:32:13,  3.36it/s]                                                            {'loss': 2.9269, 'learning_rate': 4.968540584800361e-07, 'epoch': 8.95}
 56%|█████▌    | 207760/371472 [5:28:42<13:32:13,  3.36it/s] 56%|█████▌    | 207761/371472 [5:28:43<13:27:51,  3.38it/s] 56%|█████▌    | 207762/371472 [5:28:43<13:04:26,  3.48it/s] 56%|█████▌    | 207763/371472 [5:28:43<12:44:58,  3.57it/s] 56%|█████▌    | 207764/371472 [5:28:43<12:39:40,  3.59it/s] 56%|█████▌    | 207765/371472 [5:28:44<12:26:03,  3.66it/s] 56%|█████▌    | 207766/371472 [5:28:44<12:45:36,  3.56it/s] 56%|█████▌    | 207767/371472 [5:28:44<13:10:10,  3.45it/s] 56%|█████▌    | 207768/371472 [5:28:44<13:25:57,  3.39it/s] 56%|█████▌    | 207769/371472 [5:28:45<12:59:07,  3.50it/s] 56%|█████▌    | 207770/371472 [5:28:45<12:55:56,  3.52it/s] 56%|█████▌    | 207771/371472 [5:28:45<12:38:02,  3.60it/s] 56%|█████▌    | 207772/371472 [5:28:46<12:19:28,  3.69it/s] 56%|█████▌    | 207773/371472 [5:28:46<12:53:23,  3.53it/s] 56%|█████▌    | 207774/371472 [5:28:46<12:48:34,  3.55it/s] 56%|█████▌    | 207775/371472 [5:28:46<13:17:27,  3.42it/s] 56%|█████▌    | 207776/371472 [5:28:47<12:51:46,  3.54it/s] 56%|█████▌    | 207777/371472 [5:28:47<12:39:01,  3.59it/s] 56%|█████▌    | 207778/371472 [5:28:47<12:38:39,  3.60it/s] 56%|█████▌    | 207779/371472 [5:28:48<12:43:25,  3.57it/s] 56%|█████▌    | 207780/371472 [5:28:48<12:29:44,  3.64it/s]                                                            {'loss': 2.8398, 'learning_rate': 4.968055765045574e-07, 'epoch': 8.95}
 56%|█████▌    | 207780/371472 [5:28:48<12:29:44,  3.64it/s] 56%|█████▌    | 207781/371472 [5:28:48<12:22:20,  3.68it/s] 56%|█████▌    | 207782/371472 [5:28:48<12:42:01,  3.58it/s] 56%|█████▌    | 207783/371472 [5:28:49<12:31:02,  3.63it/s] 56%|█████▌    | 207784/371472 [5:28:49<13:24:09,  3.39it/s] 56%|█████▌    | 207785/371472 [5:28:49<12:56:59,  3.51it/s] 56%|█████▌    | 207786/371472 [5:28:50<13:18:51,  3.42it/s] 56%|█████▌    | 207787/371472 [5:28:50<13:07:52,  3.46it/s] 56%|█████▌    | 207788/371472 [5:28:50<12:51:50,  3.53it/s] 56%|█████▌    | 207789/371472 [5:28:50<12:49:07,  3.55it/s] 56%|█████▌    | 207790/371472 [5:28:51<12:25:30,  3.66it/s] 56%|█████▌    | 207791/371472 [5:28:51<12:23:02,  3.67it/s] 56%|█████▌    | 207792/371472 [5:28:51<12:37:47,  3.60it/s] 56%|█████▌    | 207793/371472 [5:28:51<12:58:04,  3.51it/s] 56%|█████▌    | 207794/371472 [5:28:52<12:36:00,  3.61it/s] 56%|█████▌    | 207795/371472 [5:28:52<12:57:38,  3.51it/s] 56%|█████▌    | 207796/371472 [5:28:52<12:39:54,  3.59it/s] 56%|█████▌    | 207797/371472 [5:28:53<12:52:10,  3.53it/s] 56%|█████▌    | 207798/371472 [5:28:53<12:40:30,  3.59it/s] 56%|█████▌    | 207799/371472 [5:28:53<13:40:18,  3.33it/s] 56%|█████▌    | 207800/371472 [5:28:54<13:59:45,  3.25it/s]                                                            {'loss': 2.9408, 'learning_rate': 4.967570945290784e-07, 'epoch': 8.95}
 56%|█████▌    | 207800/371472 [5:28:54<13:59:45,  3.25it/s] 56%|█████▌    | 207801/371472 [5:28:54<13:39:03,  3.33it/s] 56%|█████▌    | 207802/371472 [5:28:54<13:55:29,  3.26it/s] 56%|█████▌    | 207803/371472 [5:28:54<13:39:57,  3.33it/s] 56%|█████▌    | 207804/371472 [5:28:55<14:28:16,  3.14it/s] 56%|█████▌    | 207805/371472 [5:28:55<13:57:47,  3.26it/s] 56%|█████▌    | 207806/371472 [5:28:55<13:36:26,  3.34it/s] 56%|█████▌    | 207807/371472 [5:28:56<13:29:52,  3.37it/s] 56%|█████▌    | 207808/371472 [5:28:56<13:17:47,  3.42it/s] 56%|█████▌    | 207809/371472 [5:28:56<13:19:37,  3.41it/s] 56%|█████▌    | 207810/371472 [5:28:56<12:48:36,  3.55it/s] 56%|█████▌    | 207811/371472 [5:28:57<13:18:13,  3.42it/s] 56%|█████▌    | 207812/371472 [5:28:57<14:21:13,  3.17it/s] 56%|█████▌    | 207813/371472 [5:28:57<13:34:38,  3.35it/s] 56%|█████▌    | 207814/371472 [5:28:58<13:14:03,  3.44it/s] 56%|█████▌    | 207815/371472 [5:28:58<12:46:05,  3.56it/s] 56%|█████▌    | 207816/371472 [5:28:58<12:50:27,  3.54it/s] 56%|█████▌    | 207817/371472 [5:28:59<13:05:15,  3.47it/s] 56%|█████▌    | 207818/371472 [5:28:59<13:09:38,  3.45it/s] 56%|█████▌    | 207819/371472 [5:28:59<12:46:48,  3.56it/s] 56%|█████▌    | 207820/371472 [5:28:59<12:52:02,  3.53it/s]                                                            {'loss': 2.9836, 'learning_rate': 4.967086125535995e-07, 'epoch': 8.95}
 56%|█████▌    | 207820/371472 [5:28:59<12:52:02,  3.53it/s] 56%|█████▌    | 207821/371472 [5:29:00<12:31:42,  3.63it/s] 56%|█████▌    | 207822/371472 [5:29:00<12:27:02,  3.65it/s] 56%|█████▌    | 207823/371472 [5:29:00<12:57:42,  3.51it/s] 56%|█████▌    | 207824/371472 [5:29:01<13:21:25,  3.40it/s] 56%|█████▌    | 207825/371472 [5:29:01<13:31:19,  3.36it/s] 56%|█████▌    | 207826/371472 [5:29:01<14:21:10,  3.17it/s] 56%|█████▌    | 207827/371472 [5:29:01<13:44:00,  3.31it/s] 56%|█████▌    | 207828/371472 [5:29:02<13:05:32,  3.47it/s] 56%|█████▌    | 207829/371472 [5:29:02<14:02:05,  3.24it/s] 56%|█████▌    | 207830/371472 [5:29:02<13:48:27,  3.29it/s] 56%|█████▌    | 207831/371472 [5:29:03<13:21:57,  3.40it/s] 56%|█████▌    | 207832/371472 [5:29:03<12:50:54,  3.54it/s] 56%|█████▌    | 207833/371472 [5:29:03<12:51:05,  3.54it/s] 56%|█████▌    | 207834/371472 [5:29:04<13:03:39,  3.48it/s] 56%|█████▌    | 207835/371472 [5:29:04<12:45:24,  3.56it/s] 56%|█████▌    | 207836/371472 [5:29:04<12:50:45,  3.54it/s] 56%|█████▌    | 207837/371472 [5:29:04<12:54:04,  3.52it/s] 56%|█████▌    | 207838/371472 [5:29:05<13:12:29,  3.44it/s] 56%|█████▌    | 207839/371472 [5:29:05<12:35:30,  3.61it/s] 56%|█████▌    | 207840/371472 [5:29:05<12:20:53,  3.68it/s]                                                            {'loss': 2.96, 'learning_rate': 4.966601305781206e-07, 'epoch': 8.95}
 56%|█████▌    | 207840/371472 [5:29:05<12:20:53,  3.68it/s] 56%|█████▌    | 207841/371472 [5:29:05<12:56:22,  3.51it/s] 56%|█████▌    | 207842/371472 [5:29:06<13:17:46,  3.42it/s] 56%|█████▌    | 207843/371472 [5:29:06<12:54:23,  3.52it/s] 56%|█████▌    | 207844/371472 [5:29:06<12:34:08,  3.62it/s] 56%|█████▌    | 207845/371472 [5:29:07<12:38:22,  3.60it/s] 56%|█████▌    | 207846/371472 [5:29:07<12:39:30,  3.59it/s] 56%|█████▌    | 207847/371472 [5:29:07<12:39:19,  3.59it/s] 56%|█████▌    | 207848/371472 [5:29:07<12:28:54,  3.64it/s] 56%|█████▌    | 207849/371472 [5:29:08<12:35:49,  3.61it/s] 56%|█████▌    | 207850/371472 [5:29:08<12:29:28,  3.64it/s] 56%|█████▌    | 207851/371472 [5:29:08<12:55:46,  3.52it/s] 56%|█████▌    | 207852/371472 [5:29:09<13:23:57,  3.39it/s] 56%|█████▌    | 207853/371472 [5:29:09<12:57:14,  3.51it/s] 56%|█████▌    | 207854/371472 [5:29:09<12:54:28,  3.52it/s] 56%|█████▌    | 207855/371472 [5:29:09<12:22:37,  3.67it/s] 56%|█████▌    | 207856/371472 [5:29:10<12:27:37,  3.65it/s] 56%|█████▌    | 207857/371472 [5:29:10<12:30:55,  3.63it/s] 56%|█████▌    | 207858/371472 [5:29:10<12:31:49,  3.63it/s] 56%|█████▌    | 207859/371472 [5:29:10<12:30:57,  3.63it/s] 56%|█████▌    | 207860/371472 [5:29:11<12:01:05,  3.78it/s]                                                            {'loss': 3.0246, 'learning_rate': 4.966116486026418e-07, 'epoch': 8.95}
 56%|█████▌    | 207860/371472 [5:29:11<12:01:05,  3.78it/s] 56%|█████▌    | 207861/371472 [5:29:11<13:01:04,  3.49it/s] 56%|█████▌    | 207862/371472 [5:29:11<12:34:57,  3.61it/s] 56%|█████▌    | 207863/371472 [5:29:12<12:15:38,  3.71it/s] 56%|█████▌    | 207864/371472 [5:29:12<12:06:51,  3.75it/s] 56%|█████▌    | 207865/371472 [5:29:12<11:50:52,  3.84it/s] 56%|█████▌    | 207866/371472 [5:29:12<12:17:22,  3.70it/s] 56%|█████▌    | 207867/371472 [5:29:13<12:05:41,  3.76it/s] 56%|█████▌    | 207868/371472 [5:29:13<12:16:49,  3.70it/s] 56%|█████▌    | 207869/371472 [5:29:13<13:06:35,  3.47it/s] 56%|█████▌    | 207870/371472 [5:29:14<13:11:16,  3.45it/s] 56%|█████▌    | 207871/371472 [5:29:14<12:57:10,  3.51it/s] 56%|█████▌    | 207872/371472 [5:29:14<13:29:18,  3.37it/s] 56%|█████▌    | 207873/371472 [5:29:14<13:40:07,  3.32it/s] 56%|█████▌    | 207874/371472 [5:29:15<12:56:37,  3.51it/s] 56%|█████▌    | 207875/371472 [5:29:15<14:08:58,  3.21it/s] 56%|█████▌    | 207876/371472 [5:29:15<14:03:04,  3.23it/s] 56%|█████▌    | 207877/371472 [5:29:16<13:41:56,  3.32it/s] 56%|█████▌    | 207878/371472 [5:29:16<14:10:54,  3.20it/s] 56%|█████▌    | 207879/371472 [5:29:16<13:21:17,  3.40it/s] 56%|█████▌    | 207880/371472 [5:29:16<12:57:48,  3.51it/s]                                                            {'loss': 2.9568, 'learning_rate': 4.965631666271627e-07, 'epoch': 8.95}
 56%|█████▌    | 207880/371472 [5:29:16<12:57:48,  3.51it/s] 56%|█████▌    | 207881/371472 [5:29:17<13:00:28,  3.49it/s] 56%|█████▌    | 207882/371472 [5:29:17<13:14:15,  3.43it/s] 56%|█████▌    | 207883/371472 [5:29:17<12:46:19,  3.56it/s] 56%|█████▌    | 207884/371472 [5:29:18<12:52:15,  3.53it/s] 56%|█████▌    | 207885/371472 [5:29:18<12:29:45,  3.64it/s] 56%|█████▌    | 207886/371472 [5:29:18<12:11:52,  3.73it/s] 56%|█████▌    | 207887/371472 [5:29:18<12:27:10,  3.65it/s] 56%|█████▌    | 207888/371472 [5:29:19<12:24:10,  3.66it/s] 56%|█████▌    | 207889/371472 [5:29:19<12:55:30,  3.52it/s] 56%|█████▌    | 207890/371472 [5:29:19<12:27:20,  3.65it/s] 56%|█████▌    | 207891/371472 [5:29:20<12:54:55,  3.52it/s] 56%|█████▌    | 207892/371472 [5:29:20<12:43:11,  3.57it/s] 56%|█████▌    | 207893/371472 [5:29:20<12:47:26,  3.55it/s] 56%|█████▌    | 207894/371472 [5:29:20<12:47:29,  3.55it/s] 56%|█████▌    | 207895/371472 [5:29:21<12:21:37,  3.68it/s] 56%|█████▌    | 207896/371472 [5:29:21<13:04:35,  3.47it/s] 56%|█████▌    | 207897/371472 [5:29:21<13:14:54,  3.43it/s] 56%|█████▌    | 207898/371472 [5:29:22<13:31:48,  3.36it/s] 56%|█████▌    | 207899/371472 [5:29:22<13:23:44,  3.39it/s] 56%|█████▌    | 207900/371472 [5:29:22<12:48:52,  3.55it/s]                                                            {'loss': 2.8451, 'learning_rate': 4.96514684651684e-07, 'epoch': 8.95}
 56%|█████▌    | 207900/371472 [5:29:22<12:48:52,  3.55it/s] 56%|█████▌    | 207901/371472 [5:29:22<12:28:15,  3.64it/s] 56%|█████▌    | 207902/371472 [5:29:23<12:16:29,  3.70it/s] 56%|█████▌    | 207903/371472 [5:29:23<12:33:10,  3.62it/s] 56%|█████▌    | 207904/371472 [5:29:23<12:27:56,  3.64it/s] 56%|█████▌    | 207905/371472 [5:29:23<12:20:04,  3.68it/s] 56%|█████▌    | 207906/371472 [5:29:24<12:31:30,  3.63it/s] 56%|█████▌    | 207907/371472 [5:29:24<12:08:36,  3.74it/s] 56%|█████▌    | 207908/371472 [5:29:24<11:39:07,  3.90it/s] 56%|█████▌    | 207909/371472 [5:29:25<11:58:33,  3.79it/s] 56%|█████▌    | 207910/371472 [5:29:25<12:00:20,  3.78it/s] 56%|█████▌    | 207911/371472 [5:29:25<12:14:37,  3.71it/s] 56%|█████▌    | 207912/371472 [5:29:25<12:03:58,  3.77it/s] 56%|█████▌    | 207913/371472 [5:29:26<12:06:06,  3.75it/s] 56%|█████▌    | 207914/371472 [5:29:26<11:51:27,  3.83it/s] 56%|█████▌    | 207915/371472 [5:29:26<11:42:37,  3.88it/s] 56%|█████▌    | 207916/371472 [5:29:26<12:06:28,  3.75it/s] 56%|█████▌    | 207917/371472 [5:29:27<11:48:33,  3.85it/s] 56%|█████▌    | 207918/371472 [5:29:27<12:22:03,  3.67it/s] 56%|█████▌    | 207919/371472 [5:29:27<12:30:32,  3.63it/s] 56%|█████▌    | 207920/371472 [5:29:27<12:15:21,  3.71it/s]                                                            {'loss': 2.974, 'learning_rate': 4.964662026762051e-07, 'epoch': 8.96}
 56%|█████▌    | 207920/371472 [5:29:27<12:15:21,  3.71it/s] 56%|█████▌    | 207921/371472 [5:29:28<12:11:27,  3.73it/s] 56%|█████▌    | 207922/371472 [5:29:28<12:14:27,  3.71it/s] 56%|█████▌    | 207923/371472 [5:29:28<12:26:36,  3.65it/s] 56%|█████▌    | 207924/371472 [5:29:29<12:11:08,  3.73it/s] 56%|█████▌    | 207925/371472 [5:29:29<11:58:27,  3.79it/s] 56%|█████▌    | 207926/371472 [5:29:29<12:03:52,  3.77it/s] 56%|█████▌    | 207927/371472 [5:29:29<13:21:09,  3.40it/s] 56%|█████▌    | 207928/371472 [5:29:30<13:38:09,  3.33it/s] 56%|█████▌    | 207929/371472 [5:29:30<12:58:55,  3.50it/s] 56%|█████▌    | 207930/371472 [5:29:30<13:47:20,  3.29it/s] 56%|█████▌    | 207931/371472 [5:29:31<13:29:22,  3.37it/s] 56%|█████▌    | 207932/371472 [5:29:31<12:50:31,  3.54it/s] 56%|█████▌    | 207933/371472 [5:29:31<13:01:19,  3.49it/s] 56%|█████▌    | 207934/371472 [5:29:31<12:45:18,  3.56it/s] 56%|█████▌    | 207935/371472 [5:29:32<13:00:45,  3.49it/s] 56%|█████▌    | 207936/371472 [5:29:32<12:57:25,  3.51it/s] 56%|█████▌    | 207937/371472 [5:29:32<13:23:03,  3.39it/s] 56%|█████▌    | 207938/371472 [5:29:33<12:35:28,  3.61it/s] 56%|█████▌    | 207939/371472 [5:29:33<12:33:38,  3.62it/s] 56%|█████▌    | 207940/371472 [5:29:33<13:23:23,  3.39it/s]                                                            {'loss': 2.8645, 'learning_rate': 4.964177207007261e-07, 'epoch': 8.96}
 56%|█████▌    | 207940/371472 [5:29:33<13:23:23,  3.39it/s] 56%|█████▌    | 207941/371472 [5:29:33<12:53:35,  3.52it/s] 56%|█████▌    | 207942/371472 [5:29:34<12:49:10,  3.54it/s] 56%|█████▌    | 207943/371472 [5:29:34<13:29:00,  3.37it/s] 56%|█████▌    | 207944/371472 [5:29:34<14:39:51,  3.10it/s] 56%|█████▌    | 207945/371472 [5:29:35<14:09:09,  3.21it/s] 56%|█████▌    | 207946/371472 [5:29:35<13:38:54,  3.33it/s] 56%|█████▌    | 207947/371472 [5:29:35<14:13:00,  3.20it/s] 56%|█████▌    | 207948/371472 [5:29:36<13:52:37,  3.27it/s] 56%|█████▌    | 207949/371472 [5:29:36<13:11:58,  3.44it/s] 56%|█████▌    | 207950/371472 [5:29:36<12:36:37,  3.60it/s] 56%|█████▌    | 207951/371472 [5:29:36<13:22:46,  3.39it/s] 56%|█████▌    | 207952/371472 [5:29:37<12:57:16,  3.51it/s] 56%|█████▌    | 207953/371472 [5:29:37<12:39:43,  3.59it/s] 56%|█████▌    | 207954/371472 [5:29:37<12:18:49,  3.69it/s] 56%|█████▌    | 207955/371472 [5:29:37<11:53:45,  3.82it/s] 56%|█████▌    | 207956/371472 [5:29:38<12:18:26,  3.69it/s] 56%|█████▌    | 207957/371472 [5:29:38<12:08:14,  3.74it/s] 56%|█████▌    | 207958/371472 [5:29:38<11:44:58,  3.87it/s] 56%|█████▌    | 207959/371472 [5:29:39<12:01:41,  3.78it/s] 56%|█████▌    | 207960/371472 [5:29:39<12:02:59,  3.77it/s]                                                            {'loss': 2.8536, 'learning_rate': 4.963692387252472e-07, 'epoch': 8.96}
 56%|█████▌    | 207960/371472 [5:29:39<12:02:59,  3.77it/s] 56%|█████▌    | 207961/371472 [5:29:39<13:47:52,  3.29it/s] 56%|█████▌    | 207962/371472 [5:29:39<13:28:32,  3.37it/s] 56%|█████▌    | 207963/371472 [5:29:40<13:43:52,  3.31it/s] 56%|█████▌    | 207964/371472 [5:29:40<14:27:08,  3.14it/s] 56%|█████▌    | 207965/371472 [5:29:40<14:09:11,  3.21it/s] 56%|█████▌    | 207966/371472 [5:29:41<13:45:43,  3.30it/s] 56%|█████▌    | 207967/371472 [5:29:41<13:54:06,  3.27it/s] 56%|█████▌    | 207968/371472 [5:29:41<13:33:32,  3.35it/s] 56%|█████▌    | 207969/371472 [5:29:42<13:43:05,  3.31it/s] 56%|█████▌    | 207970/371472 [5:29:42<12:59:28,  3.50it/s] 56%|█████▌    | 207971/371472 [5:29:42<12:29:44,  3.63it/s] 56%|█████▌    | 207972/371472 [5:29:42<12:29:18,  3.64it/s] 56%|█████▌    | 207973/371472 [5:29:43<12:25:52,  3.65it/s] 56%|█████▌    | 207974/371472 [5:29:43<12:43:09,  3.57it/s] 56%|█████▌    | 207975/371472 [5:29:43<12:40:26,  3.58it/s] 56%|█████▌    | 207976/371472 [5:29:43<12:12:17,  3.72it/s] 56%|█████▌    | 207977/371472 [5:29:44<12:23:51,  3.66it/s] 56%|█████▌    | 207978/371472 [5:29:44<12:23:15,  3.67it/s] 56%|█████▌    | 207979/371472 [5:29:44<12:13:59,  3.71it/s] 56%|█████▌    | 207980/371472 [5:29:45<12:19:04,  3.69it/s]                                                            {'loss': 2.8489, 'learning_rate': 4.963207567497684e-07, 'epoch': 8.96}
 56%|█████▌    | 207980/371472 [5:29:45<12:19:04,  3.69it/s] 56%|█████▌    | 207981/371472 [5:29:45<12:22:17,  3.67it/s] 56%|█████▌    | 207982/371472 [5:29:45<12:34:11,  3.61it/s] 56%|█████▌    | 207983/371472 [5:29:45<12:17:51,  3.69it/s] 56%|█████▌    | 207984/371472 [5:29:46<12:29:07,  3.64it/s] 56%|█████▌    | 207985/371472 [5:29:46<12:26:34,  3.65it/s] 56%|█████▌    | 207986/371472 [5:29:46<12:50:56,  3.53it/s] 56%|█████▌    | 207987/371472 [5:29:47<12:22:41,  3.67it/s] 56%|█████▌    | 207988/371472 [5:29:47<13:35:07,  3.34it/s] 56%|█████▌    | 207989/371472 [5:29:47<13:30:59,  3.36it/s] 56%|█████▌    | 207990/371472 [5:29:48<14:44:18,  3.08it/s] 56%|█████▌    | 207991/371472 [5:29:48<14:17:06,  3.18it/s] 56%|█████▌    | 207992/371472 [5:29:48<14:55:33,  3.04it/s] 56%|█████▌    | 207993/371472 [5:29:48<14:03:35,  3.23it/s] 56%|█████▌    | 207994/371472 [5:29:49<15:36:10,  2.91it/s] 56%|█████▌    | 207995/371472 [5:29:49<14:36:20,  3.11it/s] 56%|█████▌    | 207996/371472 [5:29:49<13:32:58,  3.35it/s] 56%|█████▌    | 207997/371472 [5:29:50<13:54:01,  3.27it/s] 56%|█████▌    | 207998/371472 [5:29:50<13:16:24,  3.42it/s] 56%|█████▌    | 207999/371472 [5:29:50<13:28:34,  3.37it/s] 56%|█████▌    | 208000/371472 [5:29:51<13:09:36,  3.45it/s]                                                            {'loss': 2.9544, 'learning_rate': 4.962722747742894e-07, 'epoch': 8.96}
 56%|█████▌    | 208000/371472 [5:29:51<13:09:36,  3.45it/s] 56%|█████▌    | 208001/371472 [5:29:51<12:38:01,  3.59it/s] 56%|█████▌    | 208002/371472 [5:29:51<12:34:47,  3.61it/s] 56%|█████▌    | 208003/371472 [5:29:51<12:36:18,  3.60it/s] 56%|█████▌    | 208004/371472 [5:29:52<12:17:17,  3.70it/s] 56%|█████▌    | 208005/371472 [5:29:52<12:34:20,  3.61it/s] 56%|█████▌    | 208006/371472 [5:29:52<12:21:16,  3.68it/s] 56%|█████▌    | 208007/371472 [5:29:52<12:42:43,  3.57it/s] 56%|█████▌    | 208008/371472 [5:29:53<13:35:39,  3.34it/s] 56%|█████▌    | 208009/371472 [5:29:53<14:02:09,  3.23it/s] 56%|█████▌    | 208010/371472 [5:29:54<14:30:48,  3.13it/s] 56%|█████▌    | 208011/371472 [5:29:54<13:36:30,  3.34it/s] 56%|█████▌    | 208012/371472 [5:29:54<12:57:31,  3.50it/s] 56%|█████▌    | 208013/371472 [5:29:54<13:03:37,  3.48it/s] 56%|█████▌    | 208014/371472 [5:29:55<13:20:43,  3.40it/s] 56%|█████▌    | 208015/371472 [5:29:55<12:39:30,  3.59it/s] 56%|█████▌    | 208016/371472 [5:29:55<12:14:43,  3.71it/s] 56%|█████▌    | 208017/371472 [5:29:55<11:53:13,  3.82it/s] 56%|█████▌    | 208018/371472 [5:29:56<12:18:10,  3.69it/s] 56%|█████▌    | 208019/371472 [5:29:56<12:26:04,  3.65it/s] 56%|█████▌    | 208020/371472 [5:29:56<12:46:20,  3.55it/s]                                                            {'loss': 2.8996, 'learning_rate': 4.962237927988106e-07, 'epoch': 8.96}
 56%|█████▌    | 208020/371472 [5:29:56<12:46:20,  3.55it/s] 56%|█████▌    | 208021/371472 [5:29:56<12:40:36,  3.58it/s] 56%|█████▌    | 208022/371472 [5:29:57<13:03:42,  3.48it/s] 56%|█████▌    | 208023/371472 [5:29:57<12:44:59,  3.56it/s] 56%|█████▌    | 208024/371472 [5:29:57<12:42:43,  3.57it/s] 56%|█████▌    | 208025/371472 [5:29:58<12:49:13,  3.54it/s] 56%|█████▌    | 208026/371472 [5:29:58<13:59:25,  3.25it/s] 56%|█████▌    | 208027/371472 [5:29:58<13:30:17,  3.36it/s] 56%|█████▌    | 208028/371472 [5:29:59<13:01:52,  3.48it/s] 56%|█████▌    | 208029/371472 [5:29:59<12:40:08,  3.58it/s] 56%|█████▌    | 208030/371472 [5:29:59<12:12:11,  3.72it/s] 56%|█████▌    | 208031/371472 [5:29:59<12:48:43,  3.54it/s] 56%|█████▌    | 208032/371472 [5:30:00<12:58:15,  3.50it/s] 56%|█████▌    | 208033/371472 [5:30:00<13:30:09,  3.36it/s] 56%|█████▌    | 208034/371472 [5:30:00<13:13:17,  3.43it/s] 56%|█████▌    | 208035/371472 [5:30:01<12:51:26,  3.53it/s] 56%|█████▌    | 208036/371472 [5:30:01<12:37:42,  3.59it/s] 56%|█████▌    | 208037/371472 [5:30:01<12:45:56,  3.56it/s] 56%|█████▌    | 208038/371472 [5:30:01<13:11:19,  3.44it/s] 56%|█████▌    | 208039/371472 [5:30:02<13:00:27,  3.49it/s] 56%|█████▌    | 208040/371472 [5:30:02<12:36:44,  3.60it/s]                                                            {'loss': 3.0521, 'learning_rate': 4.961753108233317e-07, 'epoch': 8.96}
 56%|█████▌    | 208040/371472 [5:30:02<12:36:44,  3.60it/s] 56%|█████▌    | 208041/371472 [5:30:02<12:33:43,  3.61it/s] 56%|█████▌    | 208042/371472 [5:30:02<12:15:18,  3.70it/s] 56%|█████▌    | 208043/371472 [5:30:03<12:51:06,  3.53it/s] 56%|█████▌    | 208044/371472 [5:30:03<12:36:15,  3.60it/s] 56%|█████▌    | 208045/371472 [5:30:03<12:19:07,  3.69it/s] 56%|█████▌    | 208046/371472 [5:30:04<13:06:55,  3.46it/s] 56%|█████▌    | 208047/371472 [5:30:04<12:50:40,  3.53it/s] 56%|█████▌    | 208048/371472 [5:30:04<12:29:32,  3.63it/s] 56%|█████▌    | 208049/371472 [5:30:04<12:31:00,  3.63it/s] 56%|█████▌    | 208050/371472 [5:30:05<12:35:22,  3.61it/s] 56%|█████▌    | 208051/371472 [5:30:05<12:27:41,  3.64it/s] 56%|█████▌    | 208052/371472 [5:30:05<12:26:44,  3.65it/s] 56%|█████▌    | 208053/371472 [5:30:06<12:46:14,  3.55it/s] 56%|█████▌    | 208054/371472 [5:30:06<13:02:52,  3.48it/s] 56%|█████▌    | 208055/371472 [5:30:06<13:08:12,  3.46it/s] 56%|█████▌    | 208056/371472 [5:30:06<13:38:04,  3.33it/s] 56%|█████▌    | 208057/371472 [5:30:07<14:32:08,  3.12it/s] 56%|█████▌    | 208058/371472 [5:30:07<14:07:52,  3.21it/s] 56%|█████▌    | 208059/371472 [5:30:07<14:08:01,  3.21it/s] 56%|█████▌    | 208060/371472 [5:30:08<13:19:19,  3.41it/s]                                                            {'loss': 2.9232, 'learning_rate': 4.961268288478528e-07, 'epoch': 8.96}
 56%|█████▌    | 208060/371472 [5:30:08<13:19:19,  3.41it/s] 56%|█████▌    | 208061/371472 [5:30:08<13:00:19,  3.49it/s] 56%|█████▌    | 208062/371472 [5:30:08<12:30:08,  3.63it/s] 56%|█████▌    | 208063/371472 [5:30:09<13:23:11,  3.39it/s] 56%|█████▌    | 208064/371472 [5:30:09<13:00:30,  3.49it/s] 56%|█████▌    | 208065/371472 [5:30:09<12:55:03,  3.51it/s] 56%|█████▌    | 208066/371472 [5:30:09<12:33:14,  3.62it/s] 56%|█████▌    | 208067/371472 [5:30:10<12:23:34,  3.66it/s] 56%|█████▌    | 208068/371472 [5:30:10<12:36:37,  3.60it/s] 56%|█████▌    | 208069/371472 [5:30:10<12:16:58,  3.70it/s] 56%|█████▌    | 208070/371472 [5:30:10<12:05:25,  3.75it/s] 56%|█████▌    | 208071/371472 [5:30:11<12:00:04,  3.78it/s] 56%|█████▌    | 208072/371472 [5:30:11<12:37:34,  3.59it/s] 56%|█████▌    | 208073/371472 [5:30:11<13:06:33,  3.46it/s] 56%|█████▌    | 208074/371472 [5:30:12<12:59:27,  3.49it/s] 56%|█████▌    | 208075/371472 [5:30:12<12:47:56,  3.55it/s] 56%|█████▌    | 208076/371472 [5:30:12<13:40:11,  3.32it/s] 56%|█████▌    | 208077/371472 [5:30:12<13:41:31,  3.31it/s] 56%|█████▌    | 208078/371472 [5:30:13<13:42:10,  3.31it/s] 56%|█████▌    | 208079/371472 [5:30:13<13:07:37,  3.46it/s] 56%|█████▌    | 208080/371472 [5:30:13<12:33:23,  3.61it/s]                                                            {'loss': 2.7628, 'learning_rate': 4.960783468723739e-07, 'epoch': 8.96}
 56%|█████▌    | 208080/371472 [5:30:13<12:33:23,  3.61it/s] 56%|█████▌    | 208081/371472 [5:30:14<13:12:35,  3.44it/s] 56%|█████▌    | 208082/371472 [5:30:14<13:24:33,  3.38it/s] 56%|█████▌    | 208083/371472 [5:30:14<13:17:21,  3.42it/s] 56%|█████▌    | 208084/371472 [5:30:14<12:58:56,  3.50it/s] 56%|█████▌    | 208085/371472 [5:30:15<12:49:54,  3.54it/s] 56%|█████▌    | 208086/371472 [5:30:15<13:46:00,  3.30it/s] 56%|█████▌    | 208087/371472 [5:30:15<13:14:36,  3.43it/s] 56%|█████▌    | 208088/371472 [5:30:16<12:46:06,  3.55it/s] 56%|█████▌    | 208089/371472 [5:30:16<13:55:25,  3.26it/s] 56%|█████▌    | 208090/371472 [5:30:16<13:14:08,  3.43it/s] 56%|█████▌    | 208091/371472 [5:30:17<13:25:58,  3.38it/s] 56%|█████▌    | 208092/371472 [5:30:17<13:11:37,  3.44it/s] 56%|█████▌    | 208093/371472 [5:30:17<13:03:15,  3.48it/s] 56%|█████▌    | 208094/371472 [5:30:17<12:40:41,  3.58it/s] 56%|█████▌    | 208095/371472 [5:30:18<12:25:14,  3.65it/s] 56%|█████▌    | 208096/371472 [5:30:18<12:29:55,  3.63it/s] 56%|█████▌    | 208097/371472 [5:30:18<12:18:59,  3.68it/s] 56%|█████▌    | 208098/371472 [5:30:18<11:51:04,  3.83it/s] 56%|█████▌    | 208099/371472 [5:30:19<11:55:22,  3.81it/s] 56%|█████▌    | 208100/371472 [5:30:19<11:49:56,  3.84it/s]                                                            {'loss': 3.0295, 'learning_rate': 4.96029864896895e-07, 'epoch': 8.96}
 56%|█████▌    | 208100/371472 [5:30:19<11:49:56,  3.84it/s] 56%|█████▌    | 208101/371472 [5:30:19<12:22:32,  3.67it/s] 56%|█████▌    | 208102/371472 [5:30:20<12:49:57,  3.54it/s] 56%|█████▌    | 208103/371472 [5:30:20<12:52:30,  3.52it/s] 56%|█████▌    | 208104/371472 [5:30:20<12:42:14,  3.57it/s] 56%|█████▌    | 208105/371472 [5:30:20<13:22:29,  3.39it/s] 56%|█████▌    | 208106/371472 [5:30:21<12:50:18,  3.53it/s] 56%|█████▌    | 208107/371472 [5:30:21<12:25:27,  3.65it/s] 56%|█████▌    | 208108/371472 [5:30:21<12:32:30,  3.62it/s] 56%|█████▌    | 208109/371472 [5:30:22<12:44:43,  3.56it/s] 56%|█████▌    | 208110/371472 [5:30:22<12:28:33,  3.64it/s] 56%|█████▌    | 208111/371472 [5:30:22<12:25:41,  3.65it/s] 56%|█████▌    | 208112/371472 [5:30:22<12:22:19,  3.67it/s] 56%|█████▌    | 208113/371472 [5:30:23<12:43:06,  3.57it/s] 56%|█████▌    | 208114/371472 [5:30:23<12:51:32,  3.53it/s] 56%|█████▌    | 208115/371472 [5:30:23<13:10:31,  3.44it/s] 56%|█████▌    | 208116/371472 [5:30:23<12:38:08,  3.59it/s] 56%|█████▌    | 208117/371472 [5:30:24<12:12:26,  3.72it/s] 56%|█████▌    | 208118/371472 [5:30:24<12:32:17,  3.62it/s] 56%|█████▌    | 208119/371472 [5:30:24<13:51:01,  3.28it/s] 56%|█████▌    | 208120/371472 [5:30:25<13:34:24,  3.34it/s]                                                            {'loss': 2.8388, 'learning_rate': 4.95981382921416e-07, 'epoch': 8.96}
 56%|█████▌    | 208120/371472 [5:30:25<13:34:24,  3.34it/s] 56%|█████▌    | 208121/371472 [5:30:25<13:26:19,  3.38it/s] 56%|█████▌    | 208122/371472 [5:30:25<14:17:06,  3.18it/s] 56%|█████▌    | 208123/371472 [5:30:26<14:20:19,  3.16it/s] 56%|█████▌    | 208124/371472 [5:30:26<14:09:22,  3.21it/s] 56%|█████▌    | 208125/371472 [5:30:26<13:42:49,  3.31it/s] 56%|█████▌    | 208126/371472 [5:30:27<13:56:11,  3.26it/s] 56%|█████▌    | 208127/371472 [5:30:27<13:39:25,  3.32it/s] 56%|█████▌    | 208128/371472 [5:30:27<13:42:20,  3.31it/s] 56%|█████▌    | 208129/371472 [5:30:27<13:56:35,  3.25it/s] 56%|█████▌    | 208130/371472 [5:30:28<13:53:46,  3.27it/s] 56%|█████▌    | 208131/371472 [5:30:28<13:42:49,  3.31it/s] 56%|█████▌    | 208132/371472 [5:30:28<13:34:09,  3.34it/s] 56%|█████▌    | 208133/371472 [5:30:29<13:07:07,  3.46it/s] 56%|█████▌    | 208134/371472 [5:30:29<12:57:49,  3.50it/s] 56%|█████▌    | 208135/371472 [5:30:29<12:55:28,  3.51it/s] 56%|█████▌    | 208136/371472 [5:30:29<12:51:27,  3.53it/s] 56%|█████▌    | 208137/371472 [5:30:30<12:55:47,  3.51it/s] 56%|█████▌    | 208138/371472 [5:30:30<12:55:58,  3.51it/s] 56%|█████▌    | 208139/371472 [5:30:30<13:02:48,  3.48it/s] 56%|█████▌    | 208140/371472 [5:30:31<12:33:05,  3.61it/s]                                                            {'loss': 2.9275, 'learning_rate': 4.959329009459371e-07, 'epoch': 8.96}
 56%|█████▌    | 208140/371472 [5:30:31<12:33:05,  3.61it/s] 56%|█████▌    | 208141/371472 [5:30:31<12:40:40,  3.58it/s] 56%|█████▌    | 208142/371472 [5:30:31<12:25:45,  3.65it/s] 56%|█████▌    | 208143/371472 [5:30:31<12:35:40,  3.60it/s] 56%|█████▌    | 208144/371472 [5:30:32<12:26:02,  3.65it/s] 56%|█████▌    | 208145/371472 [5:30:32<12:23:29,  3.66it/s] 56%|█████▌    | 208146/371472 [5:30:32<12:11:58,  3.72it/s] 56%|█████▌    | 208147/371472 [5:30:33<13:52:39,  3.27it/s] 56%|█████▌    | 208148/371472 [5:30:33<13:04:59,  3.47it/s] 56%|█████▌    | 208149/371472 [5:30:33<12:51:43,  3.53it/s] 56%|█████▌    | 208150/371472 [5:30:33<12:49:48,  3.54it/s] 56%|█████▌    | 208151/371472 [5:30:34<12:51:23,  3.53it/s] 56%|█████▌    | 208152/371472 [5:30:34<12:19:51,  3.68it/s] 56%|█████▌    | 208153/371472 [5:30:34<12:28:53,  3.63it/s] 56%|█████▌    | 208154/371472 [5:30:35<13:32:46,  3.35it/s] 56%|█████▌    | 208155/371472 [5:30:35<13:10:00,  3.45it/s] 56%|█████▌    | 208156/371472 [5:30:35<12:45:51,  3.55it/s] 56%|█████▌    | 208157/371472 [5:30:35<12:43:16,  3.57it/s] 56%|█████▌    | 208158/371472 [5:30:36<13:03:23,  3.47it/s] 56%|█████▌    | 208159/371472 [5:30:36<12:45:09,  3.56it/s] 56%|█████▌    | 208160/371472 [5:30:36<12:17:45,  3.69it/s]                                                            {'loss': 3.1966, 'learning_rate': 4.958844189704584e-07, 'epoch': 8.97}
 56%|█████▌    | 208160/371472 [5:30:36<12:17:45,  3.69it/s] 56%|█████▌    | 208161/371472 [5:30:36<12:22:26,  3.67it/s] 56%|█████▌    | 208162/371472 [5:30:37<12:12:31,  3.72it/s] 56%|█████▌    | 208163/371472 [5:30:37<12:13:37,  3.71it/s] 56%|█████▌    | 208164/371472 [5:30:37<12:04:43,  3.76it/s] 56%|█████▌    | 208165/371472 [5:30:37<11:57:09,  3.80it/s] 56%|█████▌    | 208166/371472 [5:30:38<11:50:57,  3.83it/s] 56%|█████▌    | 208167/371472 [5:30:38<11:59:15,  3.78it/s] 56%|█████▌    | 208168/371472 [5:30:38<13:08:13,  3.45it/s] 56%|█████▌    | 208169/371472 [5:30:39<12:49:30,  3.54it/s] 56%|█████▌    | 208170/371472 [5:30:39<12:23:34,  3.66it/s] 56%|█████▌    | 208171/371472 [5:30:39<12:30:02,  3.63it/s] 56%|█████▌    | 208172/371472 [5:30:39<12:24:32,  3.66it/s] 56%|█████▌    | 208173/371472 [5:30:40<12:27:19,  3.64it/s] 56%|█████▌    | 208174/371472 [5:30:40<12:04:49,  3.75it/s] 56%|█████▌    | 208175/371472 [5:30:40<12:16:24,  3.70it/s] 56%|█████▌    | 208176/371472 [5:30:41<12:26:45,  3.64it/s] 56%|█████▌    | 208177/371472 [5:30:41<12:35:18,  3.60it/s] 56%|█████▌    | 208178/371472 [5:30:41<12:56:22,  3.51it/s] 56%|█████▌    | 208179/371472 [5:30:41<12:42:50,  3.57it/s] 56%|█████▌    | 208180/371472 [5:30:42<12:49:01,  3.54it/s]                                                            {'loss': 2.9011, 'learning_rate': 4.958359369949794e-07, 'epoch': 8.97}
 56%|█████▌    | 208180/371472 [5:30:42<12:49:01,  3.54it/s] 56%|█████▌    | 208181/371472 [5:30:42<12:29:26,  3.63it/s] 56%|█████▌    | 208182/371472 [5:30:42<13:36:33,  3.33it/s] 56%|█████▌    | 208183/371472 [5:30:43<13:43:36,  3.30it/s] 56%|█████▌    | 208184/371472 [5:30:43<13:13:25,  3.43it/s] 56%|█████▌    | 208185/371472 [5:30:43<13:03:17,  3.47it/s] 56%|█████▌    | 208186/371472 [5:30:43<13:30:45,  3.36it/s] 56%|█████▌    | 208187/371472 [5:30:44<13:26:01,  3.38it/s] 56%|█████▌    | 208188/371472 [5:30:44<13:41:05,  3.31it/s] 56%|█████▌    | 208189/371472 [5:30:44<13:49:20,  3.28it/s] 56%|█████▌    | 208190/371472 [5:30:45<13:10:05,  3.44it/s] 56%|█████▌    | 208191/371472 [5:30:45<12:53:51,  3.52it/s] 56%|█████▌    | 208192/371472 [5:30:45<12:45:59,  3.55it/s] 56%|█████▌    | 208193/371472 [5:30:45<12:42:09,  3.57it/s] 56%|█████▌    | 208194/371472 [5:30:46<12:46:04,  3.55it/s] 56%|█████▌    | 208195/371472 [5:30:46<13:20:23,  3.40it/s] 56%|█████▌    | 208196/371472 [5:30:46<13:03:28,  3.47it/s] 56%|█████▌    | 208197/371472 [5:30:47<12:33:05,  3.61it/s] 56%|█████▌    | 208198/371472 [5:30:47<12:30:26,  3.63it/s] 56%|█████▌    | 208199/371472 [5:30:47<12:31:36,  3.62it/s] 56%|█████▌    | 208200/371472 [5:30:47<11:58:42,  3.79it/s]                                                            {'loss': 3.0116, 'learning_rate': 4.957874550195005e-07, 'epoch': 8.97}
 56%|█████▌    | 208200/371472 [5:30:47<11:58:42,  3.79it/s] 56%|█████▌    | 208201/371472 [5:30:48<12:04:09,  3.76it/s] 56%|█████▌    | 208202/371472 [5:30:48<12:01:51,  3.77it/s] 56%|█████▌    | 208203/371472 [5:30:48<12:23:04,  3.66it/s] 56%|█████▌    | 208204/371472 [5:30:48<12:11:44,  3.72it/s] 56%|█████▌    | 208205/371472 [5:30:49<12:15:24,  3.70it/s] 56%|█████▌    | 208206/371472 [5:30:49<12:20:05,  3.68it/s] 56%|█████▌    | 208207/371472 [5:30:49<12:35:36,  3.60it/s] 56%|█████▌    | 208208/371472 [5:30:50<12:31:47,  3.62it/s] 56%|█████▌    | 208209/371472 [5:30:50<12:31:37,  3.62it/s] 56%|█████▌    | 208210/371472 [5:30:50<12:40:24,  3.58it/s] 56%|█████▌    | 208211/371472 [5:30:50<12:48:26,  3.54it/s] 56%|█████▌    | 208212/371472 [5:30:51<12:41:39,  3.57it/s] 56%|█████▌    | 208213/371472 [5:30:51<12:22:46,  3.66it/s] 56%|█████▌    | 208214/371472 [5:30:51<12:14:15,  3.71it/s] 56%|█████▌    | 208215/371472 [5:30:52<12:25:13,  3.65it/s] 56%|█████▌    | 208216/371472 [5:30:52<14:36:52,  3.10it/s] 56%|█████▌    | 208217/371472 [5:30:52<14:02:50,  3.23it/s] 56%|█████▌    | 208218/371472 [5:30:52<13:20:52,  3.40it/s] 56%|█████▌    | 208219/371472 [5:30:53<12:52:23,  3.52it/s] 56%|█████▌    | 208220/371472 [5:30:53<12:24:35,  3.65it/s]                                                            {'loss': 2.9074, 'learning_rate': 4.957389730440216e-07, 'epoch': 8.97}
 56%|█████▌    | 208220/371472 [5:30:53<12:24:35,  3.65it/s] 56%|█████▌    | 208221/371472 [5:30:53<12:59:26,  3.49it/s] 56%|█████▌    | 208222/371472 [5:30:54<12:24:20,  3.66it/s] 56%|█████▌    | 208223/371472 [5:30:54<12:25:18,  3.65it/s] 56%|█████▌    | 208224/371472 [5:30:54<12:23:15,  3.66it/s] 56%|█████▌    | 208225/371472 [5:30:54<12:15:58,  3.70it/s] 56%|█████▌    | 208226/371472 [5:30:55<12:04:20,  3.76it/s] 56%|█████▌    | 208227/371472 [5:30:55<12:03:15,  3.76it/s] 56%|█████▌    | 208228/371472 [5:30:55<12:37:53,  3.59it/s] 56%|█████▌    | 208229/371472 [5:30:55<12:22:01,  3.67it/s] 56%|█████▌    | 208230/371472 [5:30:56<12:25:32,  3.65it/s] 56%|█████▌    | 208231/371472 [5:30:56<12:29:45,  3.63it/s] 56%|█████▌    | 208232/371472 [5:30:56<13:27:01,  3.37it/s] 56%|█████▌    | 208233/371472 [5:30:57<13:08:19,  3.45it/s] 56%|█████▌    | 208234/371472 [5:30:57<13:48:47,  3.28it/s] 56%|█████▌    | 208235/371472 [5:30:57<13:09:26,  3.45it/s] 56%|█████▌    | 208236/371472 [5:30:57<12:54:23,  3.51it/s] 56%|█████▌    | 208237/371472 [5:30:58<12:48:23,  3.54it/s] 56%|█████▌    | 208238/371472 [5:30:58<12:29:35,  3.63it/s] 56%|█████▌    | 208239/371472 [5:30:58<12:22:42,  3.66it/s] 56%|█████▌    | 208240/371472 [5:30:59<12:23:38,  3.66it/s]                                                            {'loss': 3.0132, 'learning_rate': 4.956904910685427e-07, 'epoch': 8.97}
 56%|█████▌    | 208240/371472 [5:30:59<12:23:38,  3.66it/s] 56%|█████▌    | 208241/371472 [5:30:59<12:36:18,  3.60it/s] 56%|█████▌    | 208242/371472 [5:30:59<12:33:26,  3.61it/s] 56%|█████▌    | 208243/371472 [5:30:59<12:03:58,  3.76it/s] 56%|█████▌    | 208244/371472 [5:31:00<12:31:43,  3.62it/s] 56%|█████▌    | 208245/371472 [5:31:00<12:47:44,  3.54it/s] 56%|█████▌    | 208246/371472 [5:31:00<12:44:47,  3.56it/s] 56%|█████▌    | 208247/371472 [5:31:01<12:20:12,  3.68it/s] 56%|█████▌    | 208248/371472 [5:31:01<12:27:14,  3.64it/s] 56%|█████▌    | 208249/371472 [5:31:01<13:19:53,  3.40it/s] 56%|█████▌    | 208250/371472 [5:31:01<12:50:50,  3.53it/s] 56%|█████▌    | 208251/371472 [5:31:02<13:55:55,  3.25it/s] 56%|█████▌    | 208252/371472 [5:31:02<13:15:30,  3.42it/s] 56%|█████▌    | 208253/371472 [5:31:02<13:00:36,  3.48it/s] 56%|█████▌    | 208254/371472 [5:31:03<12:53:06,  3.52it/s] 56%|█████▌    | 208255/371472 [5:31:03<12:37:48,  3.59it/s] 56%|█████▌    | 208256/371472 [5:31:03<12:47:24,  3.54it/s] 56%|█████▌    | 208257/371472 [5:31:03<12:53:58,  3.51it/s] 56%|█████▌    | 208258/371472 [5:31:04<13:24:09,  3.38it/s] 56%|█████▌    | 208259/371472 [5:31:04<12:51:59,  3.52it/s] 56%|█████▌    | 208260/371472 [5:31:04<12:46:44,  3.55it/s]                                                            {'loss': 2.9862, 'learning_rate': 4.956420090930637e-07, 'epoch': 8.97}
 56%|█████▌    | 208260/371472 [5:31:04<12:46:44,  3.55it/s] 56%|█████▌    | 208261/371472 [5:31:05<13:04:00,  3.47it/s] 56%|█████▌    | 208262/371472 [5:31:05<13:29:58,  3.36it/s] 56%|█████▌    | 208263/371472 [5:31:05<14:00:53,  3.23it/s] 56%|█████▌    | 208264/371472 [5:31:05<13:32:13,  3.35it/s] 56%|█████▌    | 208265/371472 [5:31:06<13:18:39,  3.41it/s] 56%|█████▌    | 208266/371472 [5:31:06<14:08:14,  3.21it/s] 56%|█████▌    | 208267/371472 [5:31:06<13:28:34,  3.36it/s] 56%|█████▌    | 208268/371472 [5:31:07<15:10:17,  2.99it/s] 56%|█████▌    | 208269/371472 [5:31:07<14:57:28,  3.03it/s] 56%|█████▌    | 208270/371472 [5:31:07<14:41:43,  3.08it/s] 56%|█████▌    | 208271/371472 [5:31:08<14:29:25,  3.13it/s] 56%|█████▌    | 208272/371472 [5:31:08<14:18:31,  3.17it/s] 56%|█████▌    | 208273/371472 [5:31:08<13:37:06,  3.33it/s] 56%|█████▌    | 208274/371472 [5:31:09<13:10:02,  3.44it/s] 56%|█████▌    | 208275/371472 [5:31:09<13:50:52,  3.27it/s] 56%|█████▌    | 208276/371472 [5:31:09<13:12:16,  3.43it/s] 56%|█████▌    | 208277/371472 [5:31:09<12:52:19,  3.52it/s] 56%|█████▌    | 208278/371472 [5:31:10<12:54:55,  3.51it/s] 56%|█████▌    | 208279/371472 [5:31:10<12:36:18,  3.60it/s] 56%|█████▌    | 208280/371472 [5:31:10<12:35:25,  3.60it/s]                                                            {'loss': 3.0142, 'learning_rate': 4.95593527117585e-07, 'epoch': 8.97}
 56%|█████▌    | 208280/371472 [5:31:10<12:35:25,  3.60it/s] 56%|█████▌    | 208281/371472 [5:31:11<13:29:25,  3.36it/s] 56%|█████▌    | 208282/371472 [5:31:11<13:26:45,  3.37it/s] 56%|█████▌    | 208283/371472 [5:31:11<13:47:42,  3.29it/s] 56%|█████▌    | 208284/371472 [5:31:12<13:48:41,  3.28it/s] 56%|█████▌    | 208285/371472 [5:31:12<13:49:21,  3.28it/s] 56%|█████▌    | 208286/371472 [5:31:12<13:59:11,  3.24it/s] 56%|█████▌    | 208287/371472 [5:31:12<13:28:31,  3.36it/s] 56%|█████▌    | 208288/371472 [5:31:13<14:10:09,  3.20it/s] 56%|█████▌    | 208289/371472 [5:31:13<13:34:20,  3.34it/s] 56%|█████▌    | 208290/371472 [5:31:13<13:39:21,  3.32it/s] 56%|█████▌    | 208291/371472 [5:31:14<13:07:01,  3.46it/s] 56%|█████▌    | 208292/371472 [5:31:14<12:40:01,  3.58it/s] 56%|█████▌    | 208293/371472 [5:31:14<12:25:56,  3.65it/s] 56%|█████▌    | 208294/371472 [5:31:14<12:21:46,  3.67it/s] 56%|█████▌    | 208295/371472 [5:31:15<12:54:01,  3.51it/s] 56%|█████▌    | 208296/371472 [5:31:15<12:52:32,  3.52it/s] 56%|█████▌    | 208297/371472 [5:31:15<12:31:31,  3.62it/s] 56%|█████▌    | 208298/371472 [5:31:16<12:33:18,  3.61it/s] 56%|█████▌    | 208299/371472 [5:31:16<12:57:14,  3.50it/s] 56%|█████▌    | 208300/371472 [5:31:16<12:32:22,  3.61it/s]                                                            {'loss': 2.8609, 'learning_rate': 4.955450451421061e-07, 'epoch': 8.97}
 56%|█████▌    | 208300/371472 [5:31:16<12:32:22,  3.61it/s] 56%|█████▌    | 208301/371472 [5:31:16<13:27:19,  3.37it/s] 56%|█████▌    | 208302/371472 [5:31:17<14:22:59,  3.15it/s] 56%|█████▌    | 208303/371472 [5:31:17<14:26:08,  3.14it/s] 56%|█████▌    | 208304/371472 [5:31:17<14:49:38,  3.06it/s] 56%|█████▌    | 208305/371472 [5:31:18<13:45:45,  3.29it/s] 56%|█████▌    | 208306/371472 [5:31:18<13:22:24,  3.39it/s] 56%|█████▌    | 208307/371472 [5:31:18<13:17:43,  3.41it/s] 56%|█████▌    | 208308/371472 [5:31:19<14:41:19,  3.09it/s] 56%|█████▌    | 208309/371472 [5:31:19<14:03:27,  3.22it/s] 56%|█████▌    | 208310/371472 [5:31:19<13:12:06,  3.43it/s] 56%|█████▌    | 208311/371472 [5:31:19<12:46:33,  3.55it/s] 56%|█████▌    | 208312/371472 [5:31:20<13:04:26,  3.47it/s] 56%|█████▌    | 208313/371472 [5:31:20<13:41:44,  3.31it/s] 56%|█████▌    | 208314/371472 [5:31:20<13:26:55,  3.37it/s] 56%|█████▌    | 208315/371472 [5:31:21<13:02:52,  3.47it/s] 56%|█████▌    | 208316/371472 [5:31:21<13:01:04,  3.48it/s] 56%|█████▌    | 208317/371472 [5:31:21<12:43:46,  3.56it/s] 56%|█████▌    | 208318/371472 [5:31:21<12:24:13,  3.65it/s] 56%|█████▌    | 208319/371472 [5:31:22<12:43:37,  3.56it/s] 56%|█████▌    | 208320/371472 [5:31:22<12:55:22,  3.51it/s]                                                            {'loss': 2.8162, 'learning_rate': 4.954965631666271e-07, 'epoch': 8.97}
 56%|█████▌    | 208320/371472 [5:31:22<12:55:22,  3.51it/s] 56%|█████▌    | 208321/371472 [5:31:22<13:22:43,  3.39it/s] 56%|█████▌    | 208322/371472 [5:31:23<12:54:17,  3.51it/s] 56%|█████▌    | 208323/371472 [5:31:23<12:53:37,  3.51it/s] 56%|█████▌    | 208324/371472 [5:31:23<12:40:05,  3.58it/s] 56%|█████▌    | 208325/371472 [5:31:23<12:09:29,  3.73it/s] 56%|█████▌    | 208326/371472 [5:31:24<12:24:42,  3.65it/s] 56%|█████▌    | 208327/371472 [5:31:24<12:09:49,  3.73it/s] 56%|█████▌    | 208328/371472 [5:31:24<12:06:59,  3.74it/s] 56%|█████▌    | 208329/371472 [5:31:25<12:02:23,  3.76it/s] 56%|█████▌    | 208330/371472 [5:31:25<12:17:57,  3.68it/s] 56%|█████▌    | 208331/371472 [5:31:25<12:20:28,  3.67it/s] 56%|█████▌    | 208332/371472 [5:31:25<13:08:45,  3.45it/s] 56%|█████▌    | 208333/371472 [5:31:26<15:33:51,  2.91it/s] 56%|█████▌    | 208334/371472 [5:31:26<14:44:53,  3.07it/s] 56%|█████▌    | 208335/371472 [5:31:26<14:16:30,  3.17it/s] 56%|█████▌    | 208336/371472 [5:31:27<13:44:21,  3.30it/s] 56%|█████▌    | 208337/371472 [5:31:27<13:06:39,  3.46it/s] 56%|█████▌    | 208338/371472 [5:31:27<12:36:54,  3.59it/s] 56%|█████▌    | 208339/371472 [5:31:28<12:47:10,  3.54it/s] 56%|█████▌    | 208340/371472 [5:31:28<12:59:31,  3.49it/s]                                                            {'loss': 3.0399, 'learning_rate': 4.954480811911482e-07, 'epoch': 8.97}
 56%|█████▌    | 208340/371472 [5:31:28<12:59:31,  3.49it/s] 56%|█████▌    | 208341/371472 [5:31:28<14:47:56,  3.06it/s] 56%|█████▌    | 208342/371472 [5:31:28<13:53:28,  3.26it/s] 56%|█████▌    | 208343/371472 [5:31:29<13:14:11,  3.42it/s] 56%|█████▌    | 208344/371472 [5:31:29<12:55:47,  3.50it/s] 56%|█████▌    | 208345/371472 [5:31:29<13:21:12,  3.39it/s] 56%|█████▌    | 208346/371472 [5:31:30<12:46:59,  3.54it/s] 56%|█████▌    | 208347/371472 [5:31:30<12:43:22,  3.56it/s] 56%|█████▌    | 208348/371472 [5:31:30<12:37:14,  3.59it/s] 56%|█████▌    | 208349/371472 [5:31:30<12:13:32,  3.71it/s] 56%|█████▌    | 208350/371472 [5:31:31<12:05:06,  3.75it/s] 56%|█████▌    | 208351/371472 [5:31:31<12:23:24,  3.66it/s] 56%|█████▌    | 208352/371472 [5:31:31<11:59:53,  3.78it/s] 56%|█████▌    | 208353/371472 [5:31:31<12:16:39,  3.69it/s] 56%|█████▌    | 208354/371472 [5:31:32<12:36:48,  3.59it/s] 56%|█████▌    | 208355/371472 [5:31:32<12:58:04,  3.49it/s] 56%|█████▌    | 208356/371472 [5:31:32<12:32:23,  3.61it/s] 56%|█████▌    | 208357/371472 [5:31:33<12:24:35,  3.65it/s] 56%|█████▌    | 208358/371472 [5:31:33<12:24:44,  3.65it/s] 56%|█████▌    | 208359/371472 [5:31:33<12:19:11,  3.68it/s] 56%|█████▌    | 208360/371472 [5:31:33<13:12:48,  3.43it/s]                                                            {'loss': 3.0753, 'learning_rate': 4.953995992156694e-07, 'epoch': 8.97}
 56%|█████▌    | 208360/371472 [5:31:33<13:12:48,  3.43it/s] 56%|█████▌    | 208361/371472 [5:31:34<12:56:18,  3.50it/s] 56%|█████▌    | 208362/371472 [5:31:34<13:09:34,  3.44it/s] 56%|█████▌    | 208363/371472 [5:31:34<12:41:48,  3.57it/s] 56%|█████▌    | 208364/371472 [5:31:35<12:17:41,  3.69it/s] 56%|█████▌    | 208365/371472 [5:31:35<12:18:42,  3.68it/s] 56%|█████▌    | 208366/371472 [5:31:35<12:21:53,  3.66it/s] 56%|█████▌    | 208367/371472 [5:31:35<12:13:31,  3.71it/s] 56%|█████▌    | 208368/371472 [5:31:36<12:33:30,  3.61it/s] 56%|█████▌    | 208369/371472 [5:31:36<12:45:50,  3.55it/s] 56%|█████▌    | 208370/371472 [5:31:36<12:24:42,  3.65it/s] 56%|█████▌    | 208371/371472 [5:31:37<13:12:35,  3.43it/s] 56%|█████▌    | 208372/371472 [5:31:37<13:00:15,  3.48it/s] 56%|█████▌    | 208373/371472 [5:31:37<14:08:30,  3.20it/s] 56%|█████▌    | 208374/371472 [5:31:37<13:58:28,  3.24it/s] 56%|█████▌    | 208375/371472 [5:31:38<13:26:12,  3.37it/s] 56%|█████▌    | 208376/371472 [5:31:38<13:11:37,  3.43it/s] 56%|█████▌    | 208377/371472 [5:31:38<13:20:50,  3.39it/s] 56%|█████▌    | 208378/371472 [5:31:39<12:41:30,  3.57it/s] 56%|█████▌    | 208379/371472 [5:31:39<12:32:52,  3.61it/s] 56%|█████▌    | 208380/371472 [5:31:39<13:10:24,  3.44it/s]                                                            {'loss': 2.8848, 'learning_rate': 4.953511172401904e-07, 'epoch': 8.98}
 56%|█████▌    | 208380/371472 [5:31:39<13:10:24,  3.44it/s] 56%|█████▌    | 208381/371472 [5:31:39<12:25:12,  3.65it/s] 56%|█████▌    | 208382/371472 [5:31:40<12:17:07,  3.69it/s] 56%|█████▌    | 208383/371472 [5:31:40<12:45:12,  3.55it/s] 56%|█████▌    | 208384/371472 [5:31:40<13:10:47,  3.44it/s] 56%|█████▌    | 208385/371472 [5:31:41<13:25:02,  3.38it/s] 56%|█████▌    | 208386/371472 [5:31:41<13:15:48,  3.42it/s] 56%|█████▌    | 208387/371472 [5:31:41<13:28:45,  3.36it/s] 56%|█████▌    | 208388/371472 [5:31:42<14:19:00,  3.16it/s] 56%|█████▌    | 208389/371472 [5:31:42<14:08:11,  3.20it/s] 56%|█████▌    | 208390/371472 [5:31:42<13:22:51,  3.39it/s] 56%|█████▌    | 208391/371472 [5:31:42<13:11:18,  3.43it/s] 56%|█████▌    | 208392/371472 [5:31:43<13:02:33,  3.47it/s] 56%|█████▌    | 208393/371472 [5:31:43<12:35:55,  3.60it/s] 56%|█████▌    | 208394/371472 [5:31:43<12:43:17,  3.56it/s] 56%|█████▌    | 208395/371472 [5:31:44<12:53:27,  3.51it/s] 56%|█████▌    | 208396/371472 [5:31:44<12:41:54,  3.57it/s] 56%|█████▌    | 208397/371472 [5:31:44<12:50:33,  3.53it/s] 56%|█████▌    | 208398/371472 [5:31:44<13:15:41,  3.42it/s] 56%|█████▌    | 208399/371472 [5:31:45<13:34:38,  3.34it/s] 56%|█████▌    | 208400/371472 [5:31:45<13:41:44,  3.31it/s]                                                            {'loss': 3.1339, 'learning_rate': 4.953026352647116e-07, 'epoch': 8.98}
 56%|█████▌    | 208400/371472 [5:31:45<13:41:44,  3.31it/s] 56%|█████▌    | 208401/371472 [5:31:45<13:33:50,  3.34it/s] 56%|█████▌    | 208402/371472 [5:31:46<13:03:50,  3.47it/s] 56%|█████▌    | 208403/371472 [5:31:46<14:24:24,  3.14it/s] 56%|█████▌    | 208404/371472 [5:31:46<14:02:24,  3.23it/s] 56%|█████▌    | 208405/371472 [5:31:47<13:53:02,  3.26it/s] 56%|█████▌    | 208406/371472 [5:31:47<14:12:31,  3.19it/s] 56%|█████▌    | 208407/371472 [5:31:47<13:49:06,  3.28it/s] 56%|█████▌    | 208408/371472 [5:31:47<14:06:43,  3.21it/s] 56%|█████▌    | 208409/371472 [5:31:48<13:57:51,  3.24it/s] 56%|█████▌    | 208410/371472 [5:31:48<13:17:35,  3.41it/s] 56%|█████▌    | 208411/371472 [5:31:48<13:41:12,  3.31it/s] 56%|█████▌    | 208412/371472 [5:31:49<12:59:46,  3.49it/s] 56%|█████▌    | 208413/371472 [5:31:49<12:31:35,  3.62it/s] 56%|█████▌    | 208414/371472 [5:31:49<13:22:13,  3.39it/s] 56%|█████▌    | 208415/371472 [5:31:50<13:23:34,  3.38it/s] 56%|█████▌    | 208416/371472 [5:31:50<13:06:57,  3.45it/s] 56%|█████▌    | 208417/371472 [5:31:50<12:38:31,  3.58it/s] 56%|█████▌    | 208418/371472 [5:31:50<12:25:04,  3.65it/s] 56%|█████▌    | 208419/371472 [5:31:51<12:33:19,  3.61it/s] 56%|█████▌    | 208420/371472 [5:31:51<12:44:17,  3.56it/s]                                                            {'loss': 3.0198, 'learning_rate': 4.952541532892327e-07, 'epoch': 8.98}
 56%|█████▌    | 208420/371472 [5:31:51<12:44:17,  3.56it/s] 56%|█████▌    | 208421/371472 [5:31:51<12:29:33,  3.63it/s] 56%|█████▌    | 208422/371472 [5:31:52<14:41:52,  3.08it/s] 56%|█████▌    | 208423/371472 [5:31:52<13:44:53,  3.29it/s] 56%|█████▌    | 208424/371472 [5:31:52<13:28:22,  3.36it/s] 56%|█████▌    | 208425/371472 [5:31:52<14:13:06,  3.19it/s] 56%|█████▌    | 208426/371472 [5:31:53<13:52:20,  3.26it/s] 56%|█████▌    | 208427/371472 [5:31:53<13:28:27,  3.36it/s] 56%|█████▌    | 208428/371472 [5:31:53<12:58:34,  3.49it/s] 56%|█████▌    | 208429/371472 [5:31:54<12:54:21,  3.51it/s] 56%|█████▌    | 208430/371472 [5:31:54<13:05:03,  3.46it/s] 56%|█████▌    | 208431/371472 [5:31:54<12:53:46,  3.51it/s] 56%|█████▌    | 208432/371472 [5:31:54<12:44:26,  3.55it/s] 56%|█████▌    | 208433/371472 [5:31:55<12:31:48,  3.61it/s] 56%|█████▌    | 208434/371472 [5:31:55<12:26:10,  3.64it/s] 56%|█████▌    | 208435/371472 [5:31:55<12:18:54,  3.68it/s] 56%|█████▌    | 208436/371472 [5:31:56<13:03:00,  3.47it/s] 56%|█████▌    | 208437/371472 [5:31:56<13:04:13,  3.46it/s] 56%|█████▌    | 208438/371472 [5:31:56<12:55:41,  3.50it/s] 56%|█████▌    | 208439/371472 [5:31:56<12:37:43,  3.59it/s] 56%|█████▌    | 208440/371472 [5:31:57<12:58:42,  3.49it/s]                                                            {'loss': 2.9452, 'learning_rate': 4.952056713137538e-07, 'epoch': 8.98}
 56%|█████▌    | 208440/371472 [5:31:57<12:58:42,  3.49it/s] 56%|█████▌    | 208441/371472 [5:31:57<14:12:53,  3.19it/s] 56%|█████▌    | 208442/371472 [5:31:57<13:39:02,  3.32it/s] 56%|█████▌    | 208443/371472 [5:31:58<13:17:17,  3.41it/s] 56%|█████▌    | 208444/371472 [5:31:58<13:01:23,  3.48it/s] 56%|█████▌    | 208445/371472 [5:31:58<13:12:06,  3.43it/s] 56%|█████▌    | 208446/371472 [5:31:59<13:47:04,  3.29it/s] 56%|█████▌    | 208447/371472 [5:31:59<13:26:12,  3.37it/s] 56%|█████▌    | 208448/371472 [5:31:59<13:57:12,  3.25it/s] 56%|█████▌    | 208449/371472 [5:31:59<13:42:37,  3.30it/s] 56%|█████▌    | 208450/371472 [5:32:00<13:47:38,  3.28it/s] 56%|█████▌    | 208451/371472 [5:32:00<13:40:02,  3.31it/s] 56%|█████▌    | 208452/371472 [5:32:00<13:08:03,  3.45it/s] 56%|█████▌    | 208453/371472 [5:32:01<13:22:22,  3.39it/s] 56%|█████▌    | 208454/371472 [5:32:01<12:44:51,  3.55it/s] 56%|█████▌    | 208455/371472 [5:32:01<13:11:57,  3.43it/s] 56%|█████▌    | 208456/371472 [5:32:02<14:15:06,  3.18it/s] 56%|█████▌    | 208457/371472 [5:32:02<13:18:35,  3.40it/s] 56%|█████▌    | 208458/371472 [5:32:02<13:04:45,  3.46it/s] 56%|█████▌    | 208459/371472 [5:32:02<12:42:43,  3.56it/s] 56%|█████▌    | 208460/371472 [5:32:03<12:24:23,  3.65it/s]                                                            {'loss': 2.8041, 'learning_rate': 4.951571893382749e-07, 'epoch': 8.98}
 56%|█████▌    | 208460/371472 [5:32:03<12:24:23,  3.65it/s] 56%|█████▌    | 208461/371472 [5:32:03<12:12:41,  3.71it/s] 56%|█████▌    | 208462/371472 [5:32:03<12:05:18,  3.75it/s] 56%|█████▌    | 208463/371472 [5:32:03<13:03:41,  3.47it/s] 56%|█████▌    | 208464/371472 [5:32:04<13:17:13,  3.41it/s] 56%|█████▌    | 208465/371472 [5:32:04<13:20:20,  3.39it/s] 56%|█████▌    | 208466/371472 [5:32:04<13:44:49,  3.29it/s] 56%|█████▌    | 208467/371472 [5:32:05<13:24:34,  3.38it/s] 56%|█████▌    | 208468/371472 [5:32:05<13:04:32,  3.46it/s] 56%|█████▌    | 208469/371472 [5:32:05<12:42:42,  3.56it/s] 56%|█████▌    | 208470/371472 [5:32:05<12:27:18,  3.64it/s] 56%|█████▌    | 208471/371472 [5:32:06<12:11:20,  3.71it/s] 56%|█████▌    | 208472/371472 [5:32:06<11:49:01,  3.83it/s] 56%|█████▌    | 208473/371472 [5:32:06<12:19:06,  3.68it/s] 56%|█████▌    | 208474/371472 [5:32:06<12:18:31,  3.68it/s] 56%|█████▌    | 208475/371472 [5:32:07<13:03:03,  3.47it/s] 56%|█████▌    | 208476/371472 [5:32:07<12:51:34,  3.52it/s] 56%|█████▌    | 208477/371472 [5:32:07<12:44:53,  3.55it/s] 56%|█████▌    | 208478/371472 [5:32:08<12:28:34,  3.63it/s] 56%|█████▌    | 208479/371472 [5:32:08<12:56:15,  3.50it/s] 56%|█████▌    | 208480/371472 [5:32:08<12:43:56,  3.56it/s]                                                            {'loss': 2.8616, 'learning_rate': 4.95108707362796e-07, 'epoch': 8.98}
 56%|█████▌    | 208480/371472 [5:32:08<12:43:56,  3.56it/s] 56%|█████▌    | 208481/371472 [5:32:08<12:40:06,  3.57it/s] 56%|█████▌    | 208482/371472 [5:32:09<12:58:52,  3.49it/s] 56%|█████▌    | 208483/371472 [5:32:09<13:03:01,  3.47it/s] 56%|█████▌    | 208484/371472 [5:32:09<13:11:34,  3.43it/s] 56%|█████▌    | 208485/371472 [5:32:10<13:19:55,  3.40it/s] 56%|█████▌    | 208486/371472 [5:32:10<13:08:27,  3.45it/s] 56%|█████▌    | 208487/371472 [5:32:10<13:08:49,  3.44it/s] 56%|█████▌    | 208488/371472 [5:32:11<12:55:57,  3.50it/s] 56%|█████▌    | 208489/371472 [5:32:11<13:24:13,  3.38it/s] 56%|█████▌    | 208490/371472 [5:32:11<13:23:09,  3.38it/s] 56%|█████▌    | 208491/371472 [5:32:12<14:23:11,  3.15it/s] 56%|█████▌    | 208492/371472 [5:32:12<14:44:11,  3.07it/s] 56%|█████▌    | 208493/371472 [5:32:12<13:58:31,  3.24it/s] 56%|█████▌    | 208494/371472 [5:32:12<14:40:35,  3.08it/s] 56%|█████▌    | 208495/371472 [5:32:13<13:35:57,  3.33it/s] 56%|█████▌    | 208496/371472 [5:32:13<13:07:10,  3.45it/s] 56%|█████▌    | 208497/371472 [5:32:13<14:13:18,  3.18it/s] 56%|█████▌    | 208498/371472 [5:32:14<13:47:02,  3.28it/s] 56%|█████▌    | 208499/371472 [5:32:14<13:21:19,  3.39it/s] 56%|█████▌    | 208500/371472 [5:32:14<12:28:51,  3.63it/s]                                                            {'loss': 2.8917, 'learning_rate': 4.950602253873171e-07, 'epoch': 8.98}
 56%|█████▌    | 208500/371472 [5:32:14<12:28:51,  3.63it/s] 56%|█████▌    | 208501/371472 [5:32:14<12:50:06,  3.53it/s] 56%|█████▌    | 208502/371472 [5:32:15<13:28:44,  3.36it/s] 56%|█████▌    | 208503/371472 [5:32:15<13:08:33,  3.44it/s] 56%|█████▌    | 208504/371472 [5:32:15<13:32:23,  3.34it/s] 56%|█████▌    | 208505/371472 [5:32:16<14:48:09,  3.06it/s] 56%|█████▌    | 208506/371472 [5:32:16<14:34:16,  3.11it/s] 56%|█████▌    | 208507/371472 [5:32:16<14:35:37,  3.10it/s] 56%|█████▌    | 208508/371472 [5:32:17<14:11:07,  3.19it/s] 56%|█████▌    | 208509/371472 [5:32:17<13:44:09,  3.30it/s] 56%|█████▌    | 208510/371472 [5:32:17<13:16:35,  3.41it/s] 56%|█████▌    | 208511/371472 [5:32:18<13:31:47,  3.35it/s] 56%|█████▌    | 208512/371472 [5:32:18<13:19:53,  3.40it/s] 56%|█████▌    | 208513/371472 [5:32:18<13:11:29,  3.43it/s] 56%|█████▌    | 208514/371472 [5:32:18<12:50:19,  3.53it/s] 56%|█████▌    | 208515/371472 [5:32:19<13:54:53,  3.25it/s] 56%|█████▌    | 208516/371472 [5:32:19<13:18:57,  3.40it/s] 56%|█████▌    | 208517/371472 [5:32:19<12:57:56,  3.49it/s] 56%|█████▌    | 208518/371472 [5:32:20<13:20:00,  3.39it/s] 56%|█████▌    | 208519/371472 [5:32:20<13:10:47,  3.43it/s] 56%|█████▌    | 208520/371472 [5:32:20<13:17:29,  3.41it/s]                                                            {'loss': 2.8662, 'learning_rate': 4.950117434118383e-07, 'epoch': 8.98}
 56%|█████▌    | 208520/371472 [5:32:20<13:17:29,  3.41it/s] 56%|█████▌    | 208521/371472 [5:32:20<13:26:25,  3.37it/s] 56%|█████▌    | 208522/371472 [5:32:21<13:14:52,  3.42it/s] 56%|█████▌    | 208523/371472 [5:32:21<12:42:13,  3.56it/s] 56%|█████▌    | 208524/371472 [5:32:21<12:41:16,  3.57it/s] 56%|█████▌    | 208525/371472 [5:32:22<12:47:02,  3.54it/s] 56%|█████▌    | 208526/371472 [5:32:22<12:35:07,  3.60it/s] 56%|█████▌    | 208527/371472 [5:32:22<12:08:43,  3.73it/s] 56%|█████▌    | 208528/371472 [5:32:22<11:58:35,  3.78it/s] 56%|█████▌    | 208529/371472 [5:32:23<11:58:55,  3.78it/s] 56%|█████▌    | 208530/371472 [5:32:23<12:04:26,  3.75it/s] 56%|█████▌    | 208531/371472 [5:32:23<12:05:49,  3.74it/s] 56%|█████▌    | 208532/371472 [5:32:23<12:11:34,  3.71it/s] 56%|█████▌    | 208533/371472 [5:32:24<11:50:39,  3.82it/s] 56%|█████▌    | 208534/371472 [5:32:24<12:11:28,  3.71it/s] 56%|█████▌    | 208535/371472 [5:32:24<12:02:06,  3.76it/s] 56%|█████▌    | 208536/371472 [5:32:25<12:31:09,  3.62it/s] 56%|█████▌    | 208537/371472 [5:32:25<12:48:00,  3.54it/s] 56%|█████▌    | 208538/371472 [5:32:25<12:53:11,  3.51it/s] 56%|█████▌    | 208539/371472 [5:32:25<14:00:13,  3.23it/s] 56%|█████▌    | 208540/371472 [5:32:26<13:48:22,  3.28it/s]                                                            {'loss': 3.1193, 'learning_rate': 4.949632614363593e-07, 'epoch': 8.98}
 56%|█████▌    | 208540/371472 [5:32:26<13:48:22,  3.28it/s] 56%|█████▌    | 208541/371472 [5:32:26<13:21:20,  3.39it/s] 56%|█████▌    | 208542/371472 [5:32:26<12:56:33,  3.50it/s] 56%|█████▌    | 208543/371472 [5:32:27<12:23:35,  3.65it/s] 56%|█████▌    | 208544/371472 [5:32:27<12:34:24,  3.60it/s] 56%|█████▌    | 208545/371472 [5:32:27<12:25:51,  3.64it/s] 56%|█████▌    | 208546/371472 [5:32:27<12:20:09,  3.67it/s] 56%|█████▌    | 208547/371472 [5:32:28<13:04:33,  3.46it/s] 56%|█████▌    | 208548/371472 [5:32:28<13:15:49,  3.41it/s] 56%|█████▌    | 208549/371472 [5:32:28<13:17:57,  3.40it/s] 56%|█████▌    | 208550/371472 [5:32:29<13:50:27,  3.27it/s] 56%|█████▌    | 208551/371472 [5:32:29<13:10:08,  3.44it/s] 56%|█████▌    | 208552/371472 [5:32:29<13:09:41,  3.44it/s] 56%|█████▌    | 208553/371472 [5:32:29<12:44:47,  3.55it/s] 56%|█████▌    | 208554/371472 [5:32:30<12:24:03,  3.65it/s] 56%|█████▌    | 208555/371472 [5:32:30<13:37:39,  3.32it/s] 56%|█████▌    | 208556/371472 [5:32:30<13:26:07,  3.37it/s] 56%|█████▌    | 208557/371472 [5:32:31<13:30:07,  3.35it/s] 56%|█████▌    | 208558/371472 [5:32:31<13:16:52,  3.41it/s] 56%|█████▌    | 208559/371472 [5:32:31<13:16:51,  3.41it/s] 56%|█████▌    | 208560/371472 [5:32:31<12:51:30,  3.52it/s]                                                            {'loss': 3.0624, 'learning_rate': 4.949147794608804e-07, 'epoch': 8.98}
 56%|█████▌    | 208560/371472 [5:32:32<12:51:30,  3.52it/s] 56%|█████▌    | 208561/371472 [5:32:32<12:27:01,  3.63it/s] 56%|█████▌    | 208562/371472 [5:32:32<12:01:21,  3.76it/s] 56%|█████▌    | 208563/371472 [5:32:32<12:55:43,  3.50it/s] 56%|█████▌    | 208564/371472 [5:32:33<12:54:21,  3.51it/s] 56%|█████▌    | 208565/371472 [5:32:33<12:45:09,  3.55it/s] 56%|█████▌    | 208566/371472 [5:32:33<12:54:07,  3.51it/s] 56%|█████▌    | 208567/371472 [5:32:33<12:50:34,  3.52it/s] 56%|█████▌    | 208568/371472 [5:32:34<12:35:37,  3.59it/s] 56%|█████▌    | 208569/371472 [5:32:34<12:29:09,  3.62it/s] 56%|█████▌    | 208570/371472 [5:32:34<12:12:08,  3.71it/s] 56%|█████▌    | 208571/371472 [5:32:35<12:25:35,  3.64it/s] 56%|█████▌    | 208572/371472 [5:32:35<12:41:46,  3.56it/s] 56%|█████▌    | 208573/371472 [5:32:35<12:21:41,  3.66it/s] 56%|█████▌    | 208574/371472 [5:32:35<13:11:34,  3.43it/s] 56%|█████▌    | 208575/371472 [5:32:36<12:55:44,  3.50it/s] 56%|█████▌    | 208576/371472 [5:32:36<13:08:31,  3.44it/s] 56%|█████▌    | 208577/371472 [5:32:36<12:55:00,  3.50it/s] 56%|█████▌    | 208578/371472 [5:32:37<12:48:04,  3.53it/s] 56%|█████▌    | 208579/371472 [5:32:37<12:41:29,  3.57it/s] 56%|█████▌    | 208580/371472 [5:32:37<12:36:59,  3.59it/s]                                                            {'loss': 3.0451, 'learning_rate': 4.948662974854015e-07, 'epoch': 8.98}
 56%|█████▌    | 208580/371472 [5:32:37<12:36:59,  3.59it/s] 56%|█████▌    | 208581/371472 [5:32:37<12:57:36,  3.49it/s] 56%|█████▌    | 208582/371472 [5:32:38<13:03:20,  3.47it/s] 56%|█████▌    | 208583/371472 [5:32:38<12:30:01,  3.62it/s] 56%|█████▌    | 208584/371472 [5:32:38<12:29:42,  3.62it/s] 56%|█████▌    | 208585/371472 [5:32:38<12:06:25,  3.74it/s] 56%|█████▌    | 208586/371472 [5:32:39<12:51:27,  3.52it/s] 56%|█████▌    | 208587/371472 [5:32:39<13:29:19,  3.35it/s] 56%|█████▌    | 208588/371472 [5:32:39<13:00:51,  3.48it/s] 56%|█████▌    | 208589/371472 [5:32:40<12:48:45,  3.53it/s] 56%|█████▌    | 208590/371472 [5:32:40<12:16:15,  3.69it/s] 56%|█████▌    | 208591/371472 [5:32:40<12:21:46,  3.66it/s] 56%|█████▌    | 208592/371472 [5:32:41<13:11:14,  3.43it/s] 56%|█████▌    | 208593/371472 [5:32:41<12:55:10,  3.50it/s] 56%|█████▌    | 208594/371472 [5:32:41<12:52:15,  3.52it/s] 56%|█████▌    | 208595/371472 [5:32:41<13:44:42,  3.29it/s] 56%|█████▌    | 208596/371472 [5:32:42<13:24:18,  3.38it/s] 56%|█████▌    | 208597/371472 [5:32:42<13:21:38,  3.39it/s] 56%|█████▌    | 208598/371472 [5:32:42<13:20:25,  3.39it/s] 56%|█████▌    | 208599/371472 [5:32:43<13:16:31,  3.41it/s] 56%|█████▌    | 208600/371472 [5:32:43<13:38:59,  3.31it/s]                                                            {'loss': 2.8016, 'learning_rate': 4.948178155099227e-07, 'epoch': 8.98}
 56%|█████▌    | 208600/371472 [5:32:43<13:38:59,  3.31it/s] 56%|█████▌    | 208601/371472 [5:32:43<13:32:28,  3.34it/s] 56%|█████▌    | 208602/371472 [5:32:43<13:37:15,  3.32it/s] 56%|█████▌    | 208603/371472 [5:32:44<13:16:19,  3.41it/s] 56%|█████▌    | 208604/371472 [5:32:44<13:05:09,  3.46it/s] 56%|█████▌    | 208605/371472 [5:32:44<14:26:19,  3.13it/s] 56%|█████▌    | 208606/371472 [5:32:45<13:52:48,  3.26it/s] 56%|█████▌    | 208607/371472 [5:32:45<13:05:06,  3.46it/s] 56%|█████▌    | 208608/371472 [5:32:45<12:54:22,  3.51it/s] 56%|█████▌    | 208609/371472 [5:32:46<13:13:49,  3.42it/s] 56%|█████▌    | 208610/371472 [5:32:46<13:21:11,  3.39it/s] 56%|█████▌    | 208611/371472 [5:32:46<12:58:08,  3.49it/s] 56%|█████▌    | 208612/371472 [5:32:46<13:28:35,  3.36it/s] 56%|█████▌    | 208613/371472 [5:32:47<12:47:11,  3.54it/s] 56%|█████▌    | 208614/371472 [5:32:47<12:59:57,  3.48it/s] 56%|█████▌    | 208615/371472 [5:32:47<12:44:00,  3.55it/s] 56%|█████▌    | 208616/371472 [5:32:48<12:20:59,  3.66it/s] 56%|█████▌    | 208617/371472 [5:32:48<13:14:52,  3.41it/s] 56%|█████▌    | 208618/371472 [5:32:48<12:46:34,  3.54it/s] 56%|█████▌    | 208619/371472 [5:32:48<12:21:06,  3.66it/s] 56%|█████▌    | 208620/371472 [5:32:49<12:12:58,  3.70it/s]                                                            {'loss': 3.0414, 'learning_rate': 4.947693335344437e-07, 'epoch': 8.99}
 56%|█████▌    | 208620/371472 [5:32:49<12:12:58,  3.70it/s] 56%|█████▌    | 208621/371472 [5:32:49<12:28:22,  3.63it/s] 56%|█████▌    | 208622/371472 [5:32:49<12:44:36,  3.55it/s] 56%|█████▌    | 208623/371472 [5:32:49<12:47:24,  3.54it/s] 56%|█████▌    | 208624/371472 [5:32:50<13:35:59,  3.33it/s] 56%|█████▌    | 208625/371472 [5:32:50<13:42:49,  3.30it/s] 56%|█████▌    | 208626/371472 [5:32:50<13:36:20,  3.32it/s] 56%|█████▌    | 208627/371472 [5:32:51<12:55:17,  3.50it/s] 56%|█████▌    | 208628/371472 [5:32:51<13:24:00,  3.38it/s] 56%|█████▌    | 208629/371472 [5:32:51<13:35:31,  3.33it/s] 56%|█████▌    | 208630/371472 [5:32:52<13:51:43,  3.26it/s] 56%|█████▌    | 208631/371472 [5:32:52<13:46:52,  3.28it/s] 56%|█████▌    | 208632/371472 [5:32:52<13:55:30,  3.25it/s] 56%|█████▌    | 208633/371472 [5:32:53<13:20:03,  3.39it/s] 56%|█████▌    | 208634/371472 [5:32:53<12:45:23,  3.55it/s] 56%|█████▌    | 208635/371472 [5:32:53<13:09:23,  3.44it/s] 56%|█████▌    | 208636/371472 [5:32:53<13:01:40,  3.47it/s] 56%|█████▌    | 208637/371472 [5:32:54<13:20:38,  3.39it/s] 56%|█████▌    | 208638/371472 [5:32:54<13:29:54,  3.35it/s] 56%|█████▌    | 208639/371472 [5:32:54<13:24:58,  3.37it/s] 56%|█████▌    | 208640/371472 [5:32:55<13:06:17,  3.45it/s]                                                            {'loss': 2.9952, 'learning_rate': 4.947208515589649e-07, 'epoch': 8.99}
 56%|█████▌    | 208640/371472 [5:32:55<13:06:17,  3.45it/s] 56%|█████▌    | 208641/371472 [5:32:55<13:11:39,  3.43it/s] 56%|█████▌    | 208642/371472 [5:32:55<13:07:50,  3.44it/s] 56%|█████▌    | 208643/371472 [5:32:55<13:14:47,  3.41it/s] 56%|█████▌    | 208644/371472 [5:32:56<13:03:53,  3.46it/s] 56%|█████▌    | 208645/371472 [5:32:56<14:13:23,  3.18it/s] 56%|█████▌    | 208646/371472 [5:32:56<13:47:16,  3.28it/s] 56%|█████▌    | 208647/371472 [5:32:57<13:33:05,  3.34it/s] 56%|█████▌    | 208648/371472 [5:32:57<13:19:36,  3.39it/s] 56%|█████▌    | 208649/371472 [5:32:57<12:51:44,  3.52it/s] 56%|█████▌    | 208650/371472 [5:32:57<12:19:08,  3.67it/s] 56%|█████▌    | 208651/371472 [5:32:58<12:05:25,  3.74it/s] 56%|█████▌    | 208652/371472 [5:32:58<12:26:51,  3.63it/s] 56%|█████▌    | 208653/371472 [5:32:58<12:49:07,  3.53it/s] 56%|█████▌    | 208654/371472 [5:32:59<12:45:17,  3.55it/s] 56%|█████▌    | 208655/371472 [5:32:59<12:40:38,  3.57it/s] 56%|█████▌    | 208656/371472 [5:32:59<12:37:14,  3.58it/s] 56%|█████▌    | 208657/371472 [5:32:59<13:04:57,  3.46it/s] 56%|█████▌    | 208658/371472 [5:33:00<12:50:49,  3.52it/s] 56%|█████▌    | 208659/371472 [5:33:00<12:28:31,  3.63it/s] 56%|█████▌    | 208660/371472 [5:33:00<12:48:13,  3.53it/s]                                                            {'loss': 2.8898, 'learning_rate': 4.94672369583486e-07, 'epoch': 8.99}
 56%|█████▌    | 208660/371472 [5:33:00<12:48:13,  3.53it/s] 56%|█████▌    | 208661/371472 [5:33:01<13:06:30,  3.45it/s] 56%|█████▌    | 208662/371472 [5:33:01<12:40:03,  3.57it/s] 56%|█████▌    | 208663/371472 [5:33:01<12:21:32,  3.66it/s] 56%|█████▌    | 208664/371472 [5:33:01<12:53:22,  3.51it/s] 56%|█████▌    | 208665/371472 [5:33:02<13:10:06,  3.43it/s] 56%|█████▌    | 208666/371472 [5:33:02<13:04:32,  3.46it/s] 56%|█████▌    | 208667/371472 [5:33:02<13:14:32,  3.42it/s] 56%|█████▌    | 208668/371472 [5:33:03<13:59:43,  3.23it/s] 56%|█████▌    | 208669/371472 [5:33:03<14:17:24,  3.16it/s] 56%|█████▌    | 208670/371472 [5:33:03<13:57:03,  3.24it/s] 56%|█████▌    | 208671/371472 [5:33:04<13:40:42,  3.31it/s] 56%|█████▌    | 208672/371472 [5:33:04<13:03:14,  3.46it/s] 56%|█████▌    | 208673/371472 [5:33:04<12:29:02,  3.62it/s] 56%|█████▌    | 208674/371472 [5:33:04<13:21:13,  3.39it/s] 56%|█████▌    | 208675/371472 [5:33:05<12:58:58,  3.48it/s] 56%|█████▌    | 208676/371472 [5:33:05<13:12:27,  3.42it/s] 56%|█████▌    | 208677/371472 [5:33:05<12:35:10,  3.59it/s] 56%|█████▌    | 208678/371472 [5:33:06<12:56:56,  3.49it/s] 56%|█████▌    | 208679/371472 [5:33:06<12:41:06,  3.56it/s] 56%|█████▌    | 208680/371472 [5:33:06<13:14:44,  3.41it/s]                                                            {'loss': 3.1671, 'learning_rate': 4.946238876080071e-07, 'epoch': 8.99}
 56%|█████▌    | 208680/371472 [5:33:06<13:14:44,  3.41it/s] 56%|█████▌    | 208681/371472 [5:33:06<12:55:19,  3.50it/s] 56%|█████▌    | 208682/371472 [5:33:07<13:23:17,  3.38it/s] 56%|█████▌    | 208683/371472 [5:33:07<12:48:53,  3.53it/s] 56%|█████▌    | 208684/371472 [5:33:07<12:25:28,  3.64it/s] 56%|█████▌    | 208685/371472 [5:33:08<13:22:57,  3.38it/s] 56%|█████▌    | 208686/371472 [5:33:08<12:47:58,  3.53it/s] 56%|█████▌    | 208687/371472 [5:33:08<12:51:06,  3.52it/s] 56%|█████▌    | 208688/371472 [5:33:08<13:36:07,  3.32it/s] 56%|█████▌    | 208689/371472 [5:33:09<14:39:05,  3.09it/s] 56%|█████▌    | 208690/371472 [5:33:09<13:41:30,  3.30it/s] 56%|█████▌    | 208691/371472 [5:33:09<13:17:05,  3.40it/s] 56%|█████▌    | 208692/371472 [5:33:10<13:10:52,  3.43it/s] 56%|█████▌    | 208693/371472 [5:33:10<12:47:58,  3.53it/s] 56%|█████▌    | 208694/371472 [5:33:10<12:43:15,  3.55it/s] 56%|█████▌    | 208695/371472 [5:33:10<13:24:11,  3.37it/s] 56%|█████▌    | 208696/371472 [5:33:11<14:09:13,  3.19it/s] 56%|█████▌    | 208697/371472 [5:33:11<13:48:21,  3.28it/s] 56%|█████▌    | 208698/371472 [5:33:11<14:02:13,  3.22it/s] 56%|█████▌    | 208699/371472 [5:33:12<13:31:07,  3.34it/s] 56%|█████▌    | 208700/371472 [5:33:12<13:02:39,  3.47it/s]                                                            {'loss': 2.972, 'learning_rate': 4.945754056325281e-07, 'epoch': 8.99}
 56%|█████▌    | 208700/371472 [5:33:12<13:02:39,  3.47it/s] 56%|█████▌    | 208701/371472 [5:33:12<12:50:25,  3.52it/s] 56%|█████▌    | 208702/371472 [5:33:13<13:19:01,  3.40it/s] 56%|█████▌    | 208703/371472 [5:33:13<12:44:22,  3.55it/s] 56%|█████▌    | 208704/371472 [5:33:13<12:51:33,  3.52it/s] 56%|█████▌    | 208705/371472 [5:33:13<12:42:25,  3.56it/s] 56%|█████▌    | 208706/371472 [5:33:14<12:36:12,  3.59it/s] 56%|█████▌    | 208707/371472 [5:33:14<12:36:35,  3.59it/s] 56%|█████▌    | 208708/371472 [5:33:14<12:46:26,  3.54it/s] 56%|█████▌    | 208709/371472 [5:33:15<13:34:37,  3.33it/s] 56%|█████▌    | 208710/371472 [5:33:15<12:55:56,  3.50it/s] 56%|█████▌    | 208711/371472 [5:33:15<12:41:00,  3.56it/s] 56%|█████▌    | 208712/371472 [5:33:15<12:42:03,  3.56it/s] 56%|█████▌    | 208713/371472 [5:33:16<12:59:47,  3.48it/s] 56%|█████▌    | 208714/371472 [5:33:16<12:32:12,  3.61it/s] 56%|█████▌    | 208715/371472 [5:33:16<12:30:49,  3.61it/s] 56%|█████▌    | 208716/371472 [5:33:16<12:03:01,  3.75it/s] 56%|█████▌    | 208717/371472 [5:33:17<12:43:20,  3.55it/s] 56%|█████▌    | 208718/371472 [5:33:17<12:18:45,  3.67it/s] 56%|█████▌    | 208719/371472 [5:33:17<12:02:10,  3.76it/s] 56%|█████▌    | 208720/371472 [5:33:18<12:00:41,  3.76it/s]                                                            {'loss': 2.9399, 'learning_rate': 4.945269236570492e-07, 'epoch': 8.99}
 56%|█████▌    | 208720/371472 [5:33:18<12:00:41,  3.76it/s] 56%|█████▌    | 208721/371472 [5:33:18<12:17:46,  3.68it/s] 56%|█████▌    | 208722/371472 [5:33:18<12:13:18,  3.70it/s] 56%|█████▌    | 208723/371472 [5:33:18<12:10:43,  3.71it/s] 56%|█████▌    | 208724/371472 [5:33:19<13:18:13,  3.40it/s] 56%|█████▌    | 208725/371472 [5:33:19<12:52:03,  3.51it/s] 56%|█████▌    | 208726/371472 [5:33:19<13:37:45,  3.32it/s] 56%|█████▌    | 208727/371472 [5:33:20<13:18:48,  3.40it/s] 56%|█████▌    | 208728/371472 [5:33:20<13:32:16,  3.34it/s] 56%|█████▌    | 208729/371472 [5:33:20<13:11:59,  3.42it/s] 56%|█████▌    | 208730/371472 [5:33:20<12:40:19,  3.57it/s] 56%|█████▌    | 208731/371472 [5:33:21<13:02:13,  3.47it/s] 56%|█████▌    | 208732/371472 [5:33:21<12:43:02,  3.55it/s] 56%|█████▌    | 208733/371472 [5:33:21<12:43:23,  3.55it/s] 56%|█████▌    | 208734/371472 [5:33:22<12:37:49,  3.58it/s] 56%|█████▌    | 208735/371472 [5:33:22<12:30:28,  3.61it/s] 56%|█████▌    | 208736/371472 [5:33:22<12:14:51,  3.69it/s] 56%|█████▌    | 208737/371472 [5:33:22<11:58:24,  3.78it/s] 56%|█████▌    | 208738/371472 [5:33:23<12:19:24,  3.67it/s] 56%|█████▌    | 208739/371472 [5:33:23<12:55:44,  3.50it/s] 56%|█████▌    | 208740/371472 [5:33:23<12:56:14,  3.49it/s]                                                            {'loss': 3.0348, 'learning_rate': 4.944784416815704e-07, 'epoch': 8.99}
 56%|█████▌    | 208740/371472 [5:33:23<12:56:14,  3.49it/s] 56%|█████▌    | 208741/371472 [5:33:24<13:02:02,  3.47it/s] 56%|█████▌    | 208742/371472 [5:33:24<12:38:22,  3.58it/s] 56%|█████▌    | 208743/371472 [5:33:24<12:23:21,  3.65it/s] 56%|█████▌    | 208744/371472 [5:33:24<13:17:56,  3.40it/s] 56%|█████▌    | 208745/371472 [5:33:25<13:15:34,  3.41it/s] 56%|█████▌    | 208746/371472 [5:33:25<13:01:11,  3.47it/s] 56%|█████▌    | 208747/371472 [5:33:25<13:45:23,  3.29it/s] 56%|█████▌    | 208748/371472 [5:33:26<14:01:09,  3.22it/s] 56%|█████▌    | 208749/371472 [5:33:26<13:35:53,  3.32it/s] 56%|█████▌    | 208750/371472 [5:33:26<13:19:05,  3.39it/s] 56%|█████▌    | 208751/371472 [5:33:26<12:59:21,  3.48it/s] 56%|█████▌    | 208752/371472 [5:33:27<12:36:26,  3.59it/s] 56%|█████▌    | 208753/371472 [5:33:27<12:09:35,  3.72it/s] 56%|█████▌    | 208754/371472 [5:33:27<12:36:11,  3.59it/s] 56%|█████▌    | 208755/371472 [5:33:28<14:42:31,  3.07it/s] 56%|█████▌    | 208756/371472 [5:33:28<13:48:19,  3.27it/s] 56%|█████▌    | 208757/371472 [5:33:28<13:18:55,  3.39it/s] 56%|█████▌    | 208758/371472 [5:33:28<12:52:26,  3.51it/s] 56%|█████▌    | 208759/371472 [5:33:29<12:28:04,  3.63it/s] 56%|█████▌    | 208760/371472 [5:33:29<12:27:49,  3.63it/s]                                                            {'loss': 2.9505, 'learning_rate': 4.944299597060913e-07, 'epoch': 8.99}
 56%|█████▌    | 208760/371472 [5:33:29<12:27:49,  3.63it/s] 56%|█████▌    | 208761/371472 [5:33:29<12:17:25,  3.68it/s] 56%|█████▌    | 208762/371472 [5:33:30<12:43:03,  3.55it/s] 56%|█████▌    | 208763/371472 [5:33:30<12:33:27,  3.60it/s] 56%|█████▌    | 208764/371472 [5:33:30<12:40:00,  3.57it/s] 56%|█████▌    | 208765/371472 [5:33:30<12:33:07,  3.60it/s] 56%|█████▌    | 208766/371472 [5:33:31<13:32:57,  3.34it/s] 56%|█████▌    | 208767/371472 [5:33:31<13:05:30,  3.45it/s] 56%|█████▌    | 208768/371472 [5:33:31<12:44:33,  3.55it/s] 56%|█████▌    | 208769/371472 [5:33:32<12:32:23,  3.60it/s] 56%|█████▌    | 208770/371472 [5:33:32<12:36:04,  3.59it/s] 56%|█████▌    | 208771/371472 [5:33:32<12:24:30,  3.64it/s] 56%|█████▌    | 208772/371472 [5:33:32<13:06:26,  3.45it/s] 56%|█████▌    | 208773/371472 [5:33:33<12:49:11,  3.53it/s] 56%|█████▌    | 208774/371472 [5:33:33<13:29:29,  3.35it/s] 56%|█████▌    | 208775/371472 [5:33:33<13:03:08,  3.46it/s] 56%|█████▌    | 208776/371472 [5:33:34<13:04:56,  3.45it/s] 56%|█████▌    | 208777/371472 [5:33:34<14:00:48,  3.22it/s] 56%|█████▌    | 208778/371472 [5:33:34<14:13:49,  3.18it/s] 56%|█████▌    | 208779/371472 [5:33:35<14:03:33,  3.21it/s] 56%|█████▌    | 208780/371472 [5:33:35<14:07:30,  3.20it/s]                                                            {'loss': 2.9865, 'learning_rate': 4.943814777306126e-07, 'epoch': 8.99}
 56%|█████▌    | 208780/371472 [5:33:35<14:07:30,  3.20it/s] 56%|█████▌    | 208781/371472 [5:33:35<13:41:51,  3.30it/s] 56%|█████▌    | 208782/371472 [5:33:36<14:15:08,  3.17it/s] 56%|█████▌    | 208783/371472 [5:33:36<14:09:45,  3.19it/s] 56%|█████▌    | 208784/371472 [5:33:36<13:32:33,  3.34it/s] 56%|█████▌    | 208785/371472 [5:33:36<13:03:34,  3.46it/s] 56%|█████▌    | 208786/371472 [5:33:37<14:34:03,  3.10it/s] 56%|█████▌    | 208787/371472 [5:33:37<13:59:23,  3.23it/s] 56%|█████▌    | 208788/371472 [5:33:37<13:21:10,  3.38it/s] 56%|█████▌    | 208789/371472 [5:33:38<12:49:00,  3.53it/s] 56%|█████▌    | 208790/371472 [5:33:38<13:14:14,  3.41it/s] 56%|█████▌    | 208791/371472 [5:33:38<13:09:40,  3.43it/s] 56%|█████▌    | 208792/371472 [5:33:38<12:48:47,  3.53it/s] 56%|█████▌    | 208793/371472 [5:33:39<13:45:50,  3.28it/s] 56%|█████▌    | 208794/371472 [5:33:39<13:18:20,  3.40it/s] 56%|█████▌    | 208795/371472 [5:33:39<12:51:25,  3.51it/s] 56%|█████▌    | 208796/371472 [5:33:40<12:13:55,  3.69it/s] 56%|█████▌    | 208797/371472 [5:33:40<12:28:31,  3.62it/s] 56%|█████▌    | 208798/371472 [5:33:40<12:46:38,  3.54it/s] 56%|█████▌    | 208799/371472 [5:33:40<13:25:56,  3.36it/s] 56%|█████▌    | 208800/371472 [5:33:41<13:16:14,  3.40it/s]                                                            {'loss': 2.8067, 'learning_rate': 4.943329957551337e-07, 'epoch': 8.99}
 56%|█████▌    | 208800/371472 [5:33:41<13:16:14,  3.40it/s] 56%|█████▌    | 208801/371472 [5:33:41<12:43:45,  3.55it/s] 56%|█████▌    | 208802/371472 [5:33:41<14:23:28,  3.14it/s] 56%|█████▌    | 208803/371472 [5:33:42<13:59:17,  3.23it/s] 56%|█████▌    | 208804/371472 [5:33:42<14:34:19,  3.10it/s] 56%|█████▌    | 208805/371472 [5:33:42<13:49:12,  3.27it/s] 56%|█████▌    | 208806/371472 [5:33:43<13:13:40,  3.42it/s] 56%|█████▌    | 208807/371472 [5:33:43<13:08:42,  3.44it/s] 56%|█████▌    | 208808/371472 [5:33:43<12:50:21,  3.52it/s] 56%|█████▌    | 208809/371472 [5:33:43<12:43:12,  3.55it/s] 56%|█████▌    | 208810/371472 [5:33:44<12:40:52,  3.56it/s] 56%|█████▌    | 208811/371472 [5:33:44<12:53:53,  3.50it/s] 56%|█████▌    | 208812/371472 [5:33:44<12:39:30,  3.57it/s] 56%|█████▌    | 208813/371472 [5:33:45<12:25:27,  3.64it/s] 56%|█████▌    | 208814/371472 [5:33:45<12:40:43,  3.56it/s] 56%|█████▌    | 208815/371472 [5:33:45<12:13:07,  3.70it/s] 56%|█████▌    | 208816/371472 [5:33:45<13:39:55,  3.31it/s] 56%|█████▌    | 208817/371472 [5:33:46<12:57:52,  3.49it/s] 56%|█████▌    | 208818/371472 [5:33:46<12:24:31,  3.64it/s] 56%|█████▌    | 208819/371472 [5:33:46<12:17:49,  3.67it/s] 56%|█████▌    | 208820/371472 [5:33:46<12:22:26,  3.65it/s]                                                            {'loss': 2.8835, 'learning_rate': 4.942845137796548e-07, 'epoch': 8.99}
 56%|█████▌    | 208820/371472 [5:33:46<12:22:26,  3.65it/s] 56%|█████▌    | 208821/371472 [5:33:47<12:24:04,  3.64it/s] 56%|█████▌    | 208822/371472 [5:33:47<12:24:05,  3.64it/s] 56%|█████▌    | 208823/371472 [5:33:47<12:19:16,  3.67it/s] 56%|█████▌    | 208824/371472 [5:33:48<12:54:43,  3.50it/s] 56%|█████▌    | 208825/371472 [5:33:48<12:50:41,  3.52it/s] 56%|█████▌    | 208826/371472 [5:33:48<12:56:48,  3.49it/s] 56%|█████▌    | 208827/371472 [5:33:48<12:39:46,  3.57it/s] 56%|█████▌    | 208828/371472 [5:33:49<13:55:22,  3.24it/s] 56%|█████▌    | 208829/371472 [5:33:49<13:07:23,  3.44it/s] 56%|█████▌    | 208830/371472 [5:33:49<13:42:59,  3.29it/s] 56%|█████▌    | 208831/371472 [5:33:50<14:04:36,  3.21it/s] 56%|█████▌    | 208832/371472 [5:33:50<13:10:01,  3.43it/s] 56%|█████▌    | 208833/371472 [5:33:50<14:01:57,  3.22it/s] 56%|█████▌    | 208834/371472 [5:33:51<13:49:42,  3.27it/s] 56%|█████▌    | 208835/371472 [5:33:51<13:26:04,  3.36it/s] 56%|█████▌    | 208836/371472 [5:33:51<12:53:34,  3.50it/s] 56%|█████▌    | 208837/371472 [5:33:51<13:04:09,  3.46it/s] 56%|█████▌    | 208838/371472 [5:33:52<13:30:06,  3.35it/s] 56%|█████▌    | 208839/371472 [5:33:52<12:49:13,  3.52it/s] 56%|█████▌    | 208840/371472 [5:33:52<12:32:38,  3.60it/s]                                                            {'loss': 2.8696, 'learning_rate': 4.942360318041758e-07, 'epoch': 9.0}
 56%|█████▌    | 208840/371472 [5:33:52<12:32:38,  3.60it/s] 56%|█████▌    | 208841/371472 [5:33:53<12:58:28,  3.48it/s] 56%|█████▌    | 208842/371472 [5:33:53<12:41:56,  3.56it/s] 56%|█████▌    | 208843/371472 [5:33:53<12:24:36,  3.64it/s] 56%|█████▌    | 208844/371472 [5:33:53<12:19:36,  3.66it/s] 56%|█████▌    | 208845/371472 [5:33:54<12:30:06,  3.61it/s] 56%|█████▌    | 208846/371472 [5:33:54<12:10:05,  3.71it/s] 56%|█████▌    | 208847/371472 [5:33:54<12:12:13,  3.70it/s] 56%|█████▌    | 208848/371472 [5:33:54<11:54:00,  3.80it/s] 56%|█████▌    | 208849/371472 [5:33:55<12:02:42,  3.75it/s] 56%|█████▌    | 208850/371472 [5:33:55<12:35:11,  3.59it/s] 56%|█████▌    | 208851/371472 [5:33:55<12:22:56,  3.65it/s] 56%|█████▌    | 208852/371472 [5:33:56<12:25:08,  3.64it/s] 56%|█████▌    | 208853/371472 [5:33:56<12:23:16,  3.65it/s] 56%|█████▌    | 208854/371472 [5:33:56<13:03:13,  3.46it/s] 56%|█████▌    | 208855/371472 [5:33:56<12:55:34,  3.49it/s] 56%|█████▌    | 208856/371472 [5:33:57<13:01:50,  3.47it/s] 56%|█████▌    | 208857/371472 [5:33:57<13:03:11,  3.46it/s] 56%|█████▌    | 208858/371472 [5:33:57<12:52:37,  3.51it/s] 56%|█████▌    | 208859/371472 [5:33:58<13:03:44,  3.46it/s] 56%|█████▌    | 208860/371472 [5:33:58<13:49:00,  3.27it/s]                                                            {'loss': 2.9854, 'learning_rate': 4.94187549828697e-07, 'epoch': 9.0}
 56%|█████▌    | 208860/371472 [5:33:58<13:49:00,  3.27it/s] 56%|█████▌    | 208861/371472 [5:33:58<13:37:11,  3.32it/s] 56%|█████▌    | 208862/371472 [5:33:59<13:05:42,  3.45it/s] 56%|█████▌    | 208863/371472 [5:33:59<12:48:47,  3.53it/s] 56%|█████▌    | 208864/371472 [5:33:59<12:46:05,  3.54it/s] 56%|█████▌    | 208865/371472 [5:33:59<12:59:35,  3.48it/s] 56%|█████▌    | 208866/371472 [5:34:00<12:37:31,  3.58it/s] 56%|█████▌    | 208867/371472 [5:34:00<12:33:15,  3.60it/s] 56%|█████▌    | 208868/371472 [5:34:00<12:36:42,  3.58it/s] 56%|█████▌    | 208869/371472 [5:34:00<13:05:53,  3.45it/s] 56%|█████▌    | 208870/371472 [5:34:01<13:28:40,  3.35it/s] 56%|█████▌    | 208871/371472 [5:34:01<12:50:06,  3.52it/s] 56%|█████▌    | 208872/371472 [5:34:01<13:18:49,  3.39it/s] 56%|█████▌    | 208873/371472 [5:34:02<13:05:44,  3.45it/s] 56%|█████▌    | 208874/371472 [5:34:02<13:17:16,  3.40it/s] 56%|█████▌    | 208875/371472 [5:34:02<13:24:44,  3.37it/s] 56%|█████▌    | 208876/371472 [5:34:03<13:00:47,  3.47it/s] 56%|█████▌    | 208877/371472 [5:34:03<12:42:16,  3.56it/s] 56%|█████▌    | 208878/371472 [5:34:03<12:22:12,  3.65it/s] 56%|█████▌    | 208879/371472 [5:34:03<12:15:37,  3.68it/s] 56%|█████▌    | 208880/371472 [5:34:04<13:09:46,  3.43it/s]                                                            {'loss': 2.9902, 'learning_rate': 4.941390678532181e-07, 'epoch': 9.0}
 56%|█████▌    | 208880/371472 [5:34:04<13:09:46,  3.43it/s] 56%|█████▌    | 208881/371472 [5:34:04<13:04:58,  3.45it/s] 56%|█████▌    | 208882/371472 [5:34:04<12:44:10,  3.55it/s] 56%|█████▌    | 208883/371472 [5:34:05<13:08:33,  3.44it/s] 56%|█████▌    | 208884/371472 [5:34:05<13:35:43,  3.32it/s] 56%|█████▌    | 208885/371472 [5:34:05<13:19:04,  3.39it/s] 56%|█████▌    | 208886/371472 [5:34:06<14:27:36,  3.12it/s] 56%|█████▌    | 208887/371472 [5:34:06<15:12:36,  2.97it/s] 56%|█████▌    | 208888/371472 [5:34:06<15:05:59,  2.99it/s] 56%|█████▌    | 208889/371472 [5:34:07<15:20:14,  2.94it/s] 56%|█████▌    | 208890/371472 [5:34:07<14:47:46,  3.05it/s] 56%|█████▌    | 208891/371472 [5:34:07<14:19:48,  3.15it/s] 56%|█████▌    | 208892/371472 [5:34:07<13:41:20,  3.30it/s] 56%|█████▌    | 208893/371472 [5:34:08<13:25:17,  3.36it/s] 56%|█████▌    | 208894/371472 [5:34:08<13:17:53,  3.40it/s] 56%|█████▌    | 208895/371472 [5:34:08<12:39:18,  3.57it/s] 56%|█████▌    | 208896/371472 [5:34:09<13:48:48,  3.27it/s] 56%|█████▌    | 208897/371472 [5:34:09<15:28:42,  2.92it/s] 56%|█████▌    | 208898/371472 [5:34:09<14:35:54,  3.09it/s] 56%|█████▌    | 208899/371472 [5:34:10<14:22:50,  3.14it/s] 56%|█████▌    | 208900/371472 [5:34:10<13:54:43,  3.25it/s]                                                            {'loss': 3.0462, 'learning_rate': 4.940905858777393e-07, 'epoch': 9.0}
 56%|█████▌    | 208900/371472 [5:34:10<13:54:43,  3.25it/s] 56%|█████▌    | 208901/371472 [5:34:10<13:25:21,  3.36it/s] 56%|█████▌    | 208902/371472 [5:34:10<13:28:42,  3.35it/s] 56%|█████▌    | 208903/371472 [5:34:11<13:35:24,  3.32it/s] 56%|█████▌    | 208904/371472 [5:34:11<13:34:28,  3.33it/s] 56%|█████▌    | 208905/371472 [5:34:11<13:18:32,  3.39it/s] 56%|█████▌    | 208906/371472 [5:34:12<12:58:19,  3.48it/s] 56%|█████▌    | 208907/371472 [5:34:12<12:54:37,  3.50it/s] 56%|█████▌    | 208908/371472 [5:34:12<12:35:16,  3.59it/s] 56%|█████▌    | 208909/371472 [5:34:12<12:23:15,  3.65it/s] 56%|█████▌    | 208910/371472 [5:34:13<12:15:43,  3.68it/s] 56%|█████▌    | 208911/371472 [5:34:13<12:37:54,  3.57it/s] 56%|█████▌    | 208912/371472 [5:34:13<12:57:42,  3.48it/s] 56%|█████▌    | 208913/371472 [5:34:14<13:11:17,  3.42it/s] 56%|█████▌    | 208914/371472 [5:34:14<12:36:54,  3.58it/s] 56%|█████▌    | 208915/371472 [5:34:14<13:19:14,  3.39it/s] 56%|█████▌    | 208916/371472 [5:34:15<13:48:06,  3.27it/s] 56%|█████▌    | 208917/371472 [5:34:15<13:57:15,  3.24it/s] 56%|█████▌    | 208918/371472 [5:34:15<13:21:40,  3.38it/s] 56%|█████▌    | 208919/371472 [5:34:15<12:49:38,  3.52it/s] 56%|█████▌    | 208920/371472 [5:34:16<13:26:22,  3.36it/s]                                                            {'loss': 3.0996, 'learning_rate': 4.940421039022603e-07, 'epoch': 9.0}
 56%|█████▌    | 208920/371472 [5:34:16<13:26:22,  3.36it/s] 56%|█████▌    | 208921/371472 [5:34:16<13:12:49,  3.42it/s] 56%|█████▌    | 208922/371472 [5:34:16<12:53:47,  3.50it/s] 56%|█████▌    | 208923/371472 [5:34:17<12:44:20,  3.54it/s] 56%|█████▌    | 208924/371472 [5:34:17<13:15:28,  3.41it/s] 56%|█████▌    | 208925/371472 [5:34:17<13:00:15,  3.47it/s] 56%|█████▌    | 208926/371472 [5:34:17<12:33:58,  3.59it/s] 56%|█████▌    | 208927/371472 [5:34:18<12:42:56,  3.55it/s] 56%|█████▌    | 208928/371472 [5:34:18<12:23:25,  3.64it/s] 56%|█████▌    | 208929/371472 [5:34:18<12:40:49,  3.56it/s] 56%|█████▌    | 208930/371472 [5:34:18<12:38:25,  3.57it/s] 56%|█████▌    | 208931/371472 [5:34:19<12:24:34,  3.64it/s] 56%|█████▌    | 208932/371472 [5:34:19<12:14:52,  3.69it/s] 56%|█████▌    | 208933/371472 [5:34:19<13:08:49,  3.43it/s] 56%|█████▌    | 208934/371472 [5:34:20<12:37:07,  3.58it/s] 56%|█████▌    | 208935/371472 [5:34:20<12:21:47,  3.65it/s] 56%|█████▌    | 208936/371472 [5:34:20<12:20:17,  3.66it/s] 56%|█████▌    | 208937/371472 [5:34:20<12:09:29,  3.71it/s] 56%|█████▌    | 208938/371472 [5:34:21<11:58:14,  3.77it/s] 56%|█████▌    | 208939/371472 [5:34:21<11:58:54,  3.77it/s] 56%|█████▌    | 208940/371472 [5:34:21<12:11:48,  3.70it/s]                                                            {'loss': 3.0432, 'learning_rate': 4.939936219267814e-07, 'epoch': 9.0}
 56%|█████▌    | 208940/371472 [5:34:21<12:11:48,  3.70it/s] 56%|█████▌    | 208941/371472 [5:34:21<12:28:35,  3.62it/s] 56%|█████▌    | 208942/371472 [5:34:22<13:00:52,  3.47it/s] 56%|█████▌    | 208943/371472 [5:34:22<13:36:24,  3.32it/s] 56%|█████▌    | 208944/371472 [5:34:22<13:13:30,  3.41it/s] 56%|█████▌    | 208945/371472 [5:34:23<13:03:08,  3.46it/s] 56%|█████▌    | 208946/371472 [5:34:23<12:48:36,  3.52it/s] 56%|█████▌    | 208947/371472 [5:34:23<12:39:55,  3.56it/s] 56%|█████▌    | 208948/371472 [5:34:23<12:21:09,  3.65it/s] 56%|█████▌    | 208949/371472 [5:34:24<12:14:47,  3.69it/s] 56%|█████▌    | 208950/371472 [5:34:24<12:16:04,  3.68it/s] 56%|█████▌    | 208951/371472 [5:34:24<13:33:41,  3.33it/s] 56%|█████▌    | 208952/371472 [5:34:25<13:38:11,  3.31it/s] 56%|█████▋    | 208953/371472 [5:34:25<13:47:33,  3.27it/s]Some non-default generation parameters are set in the model config. These should go into a GenerationConfig file (https://huggingface.co./docs/transformers/generation_strategies#save-a-custom-decoding-strategy-with-your-model) instead. This warning will be raised to an exception in v4.41.
Non-default generation parameters: {'max_length': 200, 'early_stopping': True, 'num_beams': 5, 'forced_eos_token_id': 2}
/opt/conda/lib/python3.10/multiprocessing/popen_fork.py:66: RuntimeWarning: os.fork() was called. os.fork() is incompatible with multithreaded code, and JAX is multithreaded, so this will likely lead to a deadlock.
  self.pid = os.fork()
 56%|█████▋    | 208954/371472 [5:34:53<389:11:35,  8.62s/it] 56%|█████▋    | 208955/371472 [5:34:53<276:48:29,  6.13s/it] 56%|█████▋    | 208956/371472 [5:34:54<198:07:01,  4.39s/it] 56%|█████▋    | 208957/371472 [5:34:54<142:14:08,  3.15s/it] 56%|█████▋    | 208958/371472 [5:34:54<103:41:21,  2.30s/it] 56%|█████▋    | 208959/371472 [5:34:55<76:22:59,  1.69s/it]  56%|█████▋    | 208960/371472 [5:34:55<57:34:45,  1.28s/it]                                                            {'loss': 2.9201, 'learning_rate': 4.939451399513025e-07, 'epoch': 9.0}
 56%|█████▋    | 208960/371472 [5:34:55<57:34:45,  1.28s/it] 56%|█████▋    | 208961/371472 [5:34:55<44:33:01,  1.01it/s] 56%|█████▋    | 208962/371472 [5:34:55<35:23:34,  1.28it/s] 56%|█████▋    | 208963/371472 [5:34:56<28:45:46,  1.57it/s] 56%|█████▋    | 208964/371472 [5:34:56<24:36:55,  1.83it/s] 56%|█████▋    | 208965/371472 [5:34:56<21:03:22,  2.14it/s] 56%|█████▋    | 208966/371472 [5:34:57<19:14:18,  2.35it/s] 56%|█████▋    | 208967/371472 [5:34:57<18:30:37,  2.44it/s] 56%|█████▋    | 208968/371472 [5:34:57<17:20:01,  2.60it/s] 56%|█████▋    | 208969/371472 [5:34:58<16:40:30,  2.71it/s] 56%|█████▋    | 208970/371472 [5:34:58<15:10:20,  2.98it/s] 56%|█████▋    | 208971/371472 [5:34:58<14:09:18,  3.19it/s] 56%|█████▋    | 208972/371472 [5:34:59<13:51:15,  3.26it/s] 56%|█████▋    | 208973/371472 [5:34:59<13:49:22,  3.27it/s] 56%|█████▋    | 208974/371472 [5:34:59<13:34:47,  3.32it/s] 56%|█████▋    | 208975/371472 [5:34:59<14:00:17,  3.22it/s] 56%|█████▋    | 208976/371472 [5:35:00<14:07:40,  3.19it/s] 56%|█████▋    | 208977/371472 [5:35:00<13:45:34,  3.28it/s] 56%|█████▋    | 208978/371472 [5:35:00<13:13:36,  3.41it/s] 56%|█████▋    | 208979/371472 [5:35:01<13:48:51,  3.27it/s] 56%|█████▋    | 208980/371472 [5:35:01<13:19:50,  3.39it/s]                                                            {'loss': 2.8601, 'learning_rate': 4.938966579758237e-07, 'epoch': 9.0}
 56%|█████▋    | 208980/371472 [5:35:01<13:19:50,  3.39it/s] 56%|█████▋    | 208981/371472 [5:35:01<13:54:34,  3.24it/s] 56%|█████▋    | 208982/371472 [5:35:02<13:41:34,  3.30it/s] 56%|█████▋    | 208983/371472 [5:35:02<13:24:02,  3.37it/s] 56%|█████▋    | 208984/371472 [5:35:02<13:05:22,  3.45it/s] 56%|█████▋    | 208985/371472 [5:35:02<12:55:02,  3.49it/s] 56%|█████▋    | 208986/371472 [5:35:03<12:45:07,  3.54it/s] 56%|█████▋    | 208987/371472 [5:35:03<13:11:00,  3.42it/s] 56%|█████▋    | 208988/371472 [5:35:03<13:18:21,  3.39it/s] 56%|█████▋    | 208989/371472 [5:35:04<14:32:24,  3.10it/s] 56%|█████▋    | 208990/371472 [5:35:04<14:27:20,  3.12it/s] 56%|█████▋    | 208991/371472 [5:35:04<13:44:06,  3.29it/s] 56%|█████▋    | 208992/371472 [5:35:05<13:19:26,  3.39it/s] 56%|█████▋    | 208993/371472 [5:35:05<13:07:03,  3.44it/s] 56%|█████▋    | 208994/371472 [5:35:05<12:59:04,  3.48it/s] 56%|█████▋    | 208995/371472 [5:35:05<13:01:42,  3.46it/s] 56%|█████▋    | 208996/371472 [5:35:06<13:03:43,  3.46it/s] 56%|█████▋    | 208997/371472 [5:35:06<12:42:34,  3.55it/s] 56%|█████▋    | 208998/371472 [5:35:06<12:36:59,  3.58it/s] 56%|█████▋    | 208999/371472 [5:35:06<12:26:39,  3.63it/s] 56%|█████▋    | 209000/371472 [5:35:07<13:05:34,  3.45it/s]                                                            {'loss': 2.9697, 'learning_rate': 4.938481760003447e-07, 'epoch': 9.0}
 56%|█████▋    | 209000/371472 [5:35:07<13:05:34,  3.45it/s] 56%|█████▋    | 209001/371472 [5:35:07<13:37:41,  3.31it/s] 56%|█████▋    | 209002/371472 [5:35:08<14:26:17,  3.13it/s] 56%|█████▋    | 209003/371472 [5:35:08<13:42:53,  3.29it/s] 56%|█████▋    | 209004/371472 [5:35:08<13:18:45,  3.39it/s] 56%|█████▋    | 209005/371472 [5:35:08<13:23:31,  3.37it/s] 56%|█████▋    | 209006/371472 [5:35:09<13:16:58,  3.40it/s] 56%|█████▋    | 209007/371472 [5:35:09<12:48:20,  3.52it/s] 56%|█████▋    | 209008/371472 [5:35:09<12:23:04,  3.64it/s] 56%|█████▋    | 209009/371472 [5:35:09<12:12:15,  3.70it/s] 56%|█████▋    | 209010/371472 [5:35:10<12:14:31,  3.69it/s] 56%|█████▋    | 209011/371472 [5:35:10<12:15:31,  3.68it/s] 56%|█████▋    | 209012/371472 [5:35:10<13:06:31,  3.44it/s] 56%|█████▋    | 209013/371472 [5:35:11<13:11:28,  3.42it/s] 56%|█████▋    | 209014/371472 [5:35:11<13:23:46,  3.37it/s] 56%|█████▋    | 209015/371472 [5:35:11<13:16:52,  3.40it/s] 56%|█████▋    | 209016/371472 [5:35:12<14:12:20,  3.18it/s] 56%|█████▋    | 209017/371472 [5:35:12<13:50:29,  3.26it/s] 56%|█████▋    | 209018/371472 [5:35:12<12:55:37,  3.49it/s] 56%|█████▋    | 209019/371472 [5:35:12<13:04:00,  3.45it/s] 56%|█████▋    | 209020/371472 [5:35:13<12:56:26,  3.49it/s]                                                            {'loss': 3.0606, 'learning_rate': 4.937996940248659e-07, 'epoch': 9.0}
 56%|█████▋    | 209020/371472 [5:35:13<12:56:26,  3.49it/s] 56%|█████▋    | 209021/371472 [5:35:13<13:39:24,  3.30it/s] 56%|█████▋    | 209022/371472 [5:35:13<13:19:33,  3.39it/s] 56%|█████▋    | 209023/371472 [5:35:14<12:33:54,  3.59it/s] 56%|█████▋    | 209024/371472 [5:35:14<12:22:45,  3.65it/s] 56%|█████▋    | 209025/371472 [5:35:14<12:14:06,  3.69it/s] 56%|█████▋    | 209026/371472 [5:35:14<12:33:08,  3.59it/s] 56%|█████▋    | 209027/371472 [5:35:15<13:17:32,  3.39it/s] 56%|█████▋    | 209028/371472 [5:35:15<13:00:37,  3.47it/s] 56%|█████▋    | 209029/371472 [5:35:15<12:30:12,  3.61it/s] 56%|█████▋    | 209030/371472 [5:35:15<12:45:55,  3.53it/s] 56%|█████▋    | 209031/371472 [5:35:16<12:29:52,  3.61it/s] 56%|█████▋    | 209032/371472 [5:35:16<12:55:05,  3.49it/s] 56%|█████▋    | 209033/371472 [5:35:16<13:20:17,  3.38it/s] 56%|█████▋    | 209034/371472 [5:35:17<13:15:26,  3.40it/s] 56%|█████▋    | 209035/371472 [5:35:17<13:22:14,  3.37it/s] 56%|█████▋    | 209036/371472 [5:35:17<13:36:54,  3.31it/s] 56%|█████▋    | 209037/371472 [5:35:18<13:40:16,  3.30it/s] 56%|█████▋    | 209038/371472 [5:35:18<13:59:04,  3.23it/s] 56%|█████▋    | 209039/371472 [5:35:18<13:35:28,  3.32it/s] 56%|█████▋    | 209040/371472 [5:35:18<13:17:38,  3.39it/s]                                                            {'loss': 2.9452, 'learning_rate': 4.93751212049387e-07, 'epoch': 9.0}
 56%|█████▋    | 209040/371472 [5:35:18<13:17:38,  3.39it/s] 56%|█████▋    | 209041/371472 [5:35:19<13:24:57,  3.36it/s] 56%|█████▋    | 209042/371472 [5:35:19<13:11:36,  3.42it/s] 56%|█████▋    | 209043/371472 [5:35:19<13:00:14,  3.47it/s] 56%|█████▋    | 209044/371472 [5:35:20<12:33:44,  3.59it/s] 56%|█████▋    | 209045/371472 [5:35:20<12:49:44,  3.52it/s] 56%|█████▋    | 209046/371472 [5:35:20<12:52:52,  3.50it/s] 56%|█████▋    | 209047/371472 [5:35:20<12:38:20,  3.57it/s] 56%|█████▋    | 209048/371472 [5:35:21<13:15:19,  3.40it/s] 56%|█████▋    | 209049/371472 [5:35:21<12:55:44,  3.49it/s] 56%|█████▋    | 209050/371472 [5:35:21<14:26:43,  3.12it/s] 56%|█████▋    | 209051/371472 [5:35:22<14:00:45,  3.22it/s] 56%|█████▋    | 209052/371472 [5:35:22<13:36:19,  3.32it/s] 56%|█████▋    | 209053/371472 [5:35:22<13:54:42,  3.24it/s] 56%|█████▋    | 209054/371472 [5:35:23<13:35:53,  3.32it/s] 56%|█████▋    | 209055/371472 [5:35:23<13:29:30,  3.34it/s] 56%|█████▋    | 209056/371472 [5:35:23<13:23:32,  3.37it/s] 56%|█████▋    | 209057/371472 [5:35:24<14:04:34,  3.21it/s] 56%|█████▋    | 209058/371472 [5:35:24<13:21:48,  3.38it/s] 56%|█████▋    | 209059/371472 [5:35:24<13:04:09,  3.45it/s] 56%|█████▋    | 209060/371472 [5:35:24<12:48:56,  3.52it/s]                                                            {'loss': 2.8524, 'learning_rate': 4.937027300739081e-07, 'epoch': 9.0}
 56%|█████▋    | 209060/371472 [5:35:24<12:48:56,  3.52it/s] 56%|█████▋    | 209061/371472 [5:35:25<12:31:00,  3.60it/s] 56%|█████▋    | 209062/371472 [5:35:25<12:54:43,  3.49it/s] 56%|█████▋    | 209063/371472 [5:35:25<12:40:02,  3.56it/s] 56%|█████▋    | 209064/371472 [5:35:25<12:28:39,  3.62it/s] 56%|█████▋    | 209065/371472 [5:35:26<12:30:36,  3.61it/s] 56%|█████▋    | 209066/371472 [5:35:26<13:28:37,  3.35it/s] 56%|█████▋    | 209067/371472 [5:35:26<13:30:13,  3.34it/s] 56%|█████▋    | 209068/371472 [5:35:27<13:18:27,  3.39it/s] 56%|█████▋    | 209069/371472 [5:35:27<13:27:05,  3.35it/s] 56%|█████▋    | 209070/371472 [5:35:27<13:12:24,  3.42it/s] 56%|█████▋    | 209071/371472 [5:35:28<13:00:29,  3.47it/s] 56%|█████▋    | 209072/371472 [5:35:28<12:59:28,  3.47it/s] 56%|█████▋    | 209073/371472 [5:35:28<12:45:29,  3.54it/s] 56%|█████▋    | 209074/371472 [5:35:28<13:40:14,  3.30it/s] 56%|█████▋    | 209075/371472 [5:35:29<13:31:57,  3.33it/s] 56%|█████▋    | 209076/371472 [5:35:29<12:47:31,  3.53it/s] 56%|█████▋    | 209077/371472 [5:35:29<12:41:17,  3.56it/s] 56%|█████▋    | 209078/371472 [5:35:30<13:15:49,  3.40it/s] 56%|█████▋    | 209079/371472 [5:35:30<12:46:33,  3.53it/s] 56%|█████▋    | 209080/371472 [5:35:30<12:18:20,  3.67it/s]                                                            {'loss': 3.0661, 'learning_rate': 4.936542480984291e-07, 'epoch': 9.01}
 56%|█████▋    | 209080/371472 [5:35:30<12:18:20,  3.67it/s] 56%|█████▋    | 209081/371472 [5:35:30<12:40:54,  3.56it/s] 56%|█████▋    | 209082/371472 [5:35:31<12:35:23,  3.58it/s] 56%|█████▋    | 209083/371472 [5:35:31<12:50:55,  3.51it/s] 56%|█████▋    | 209084/371472 [5:35:31<14:02:06,  3.21it/s] 56%|█████▋    | 209085/371472 [5:35:32<13:41:16,  3.30it/s] 56%|█████▋    | 209086/371472 [5:35:32<13:27:53,  3.35it/s] 56%|█████▋    | 209087/371472 [5:35:32<13:41:01,  3.30it/s] 56%|█████▋    | 209088/371472 [5:35:32<13:14:28,  3.41it/s] 56%|█████▋    | 209089/371472 [5:35:33<13:00:00,  3.47it/s] 56%|█████▋    | 209090/371472 [5:35:33<12:50:34,  3.51it/s] 56%|█████▋    | 209091/371472 [5:35:33<12:46:37,  3.53it/s] 56%|█████▋    | 209092/371472 [5:35:34<12:56:22,  3.49it/s] 56%|█████▋    | 209093/371472 [5:35:34<12:41:15,  3.56it/s] 56%|█████▋    | 209094/371472 [5:35:34<12:28:56,  3.61it/s] 56%|█████▋    | 209095/371472 [5:35:34<12:55:24,  3.49it/s] 56%|█████▋    | 209096/371472 [5:35:35<13:40:10,  3.30it/s] 56%|█████▋    | 209097/371472 [5:35:35<13:13:11,  3.41it/s] 56%|█████▋    | 209098/371472 [5:35:35<14:12:54,  3.17it/s] 56%|█████▋    | 209099/371472 [5:35:36<14:00:03,  3.22it/s] 56%|█████▋    | 209100/371472 [5:35:36<13:20:38,  3.38it/s]                                                            {'loss': 2.8193, 'learning_rate': 4.936057661229503e-07, 'epoch': 9.01}
 56%|█████▋    | 209100/371472 [5:35:36<13:20:38,  3.38it/s] 56%|█████▋    | 209101/371472 [5:35:36<13:48:07,  3.27it/s] 56%|█████▋    | 209102/371472 [5:35:37<12:59:56,  3.47it/s] 56%|█████▋    | 209103/371472 [5:35:37<13:13:30,  3.41it/s] 56%|█████▋    | 209104/371472 [5:35:37<13:06:33,  3.44it/s] 56%|█████▋    | 209105/371472 [5:35:37<12:50:43,  3.51it/s] 56%|█████▋    | 209106/371472 [5:35:38<13:09:54,  3.43it/s] 56%|█████▋    | 209107/371472 [5:35:38<13:07:01,  3.44it/s] 56%|█████▋    | 209108/371472 [5:35:38<12:37:21,  3.57it/s] 56%|█████▋    | 209109/371472 [5:35:39<13:41:13,  3.30it/s] 56%|█████▋    | 209110/371472 [5:35:39<13:32:27,  3.33it/s] 56%|█████▋    | 209111/371472 [5:35:39<12:51:16,  3.51it/s] 56%|█████▋    | 209112/371472 [5:35:40<13:24:58,  3.36it/s] 56%|█████▋    | 209113/371472 [5:35:40<13:31:32,  3.33it/s] 56%|█████▋    | 209114/371472 [5:35:40<12:55:53,  3.49it/s] 56%|█████▋    | 209115/371472 [5:35:40<12:26:35,  3.62it/s] 56%|█████▋    | 209116/371472 [5:35:41<12:37:38,  3.57it/s] 56%|█████▋    | 209117/371472 [5:35:41<12:19:18,  3.66it/s] 56%|█████▋    | 209118/371472 [5:35:41<12:06:54,  3.72it/s] 56%|█████▋    | 209119/371472 [5:35:41<12:13:26,  3.69it/s] 56%|█████▋    | 209120/371472 [5:35:42<13:13:31,  3.41it/s]                                                            {'loss': 2.8705, 'learning_rate': 4.935572841474714e-07, 'epoch': 9.01}
 56%|█████▋    | 209120/371472 [5:35:42<13:13:31,  3.41it/s] 56%|█████▋    | 209121/371472 [5:35:42<12:41:03,  3.56it/s] 56%|█████▋    | 209122/371472 [5:35:42<12:53:05,  3.50it/s] 56%|█████▋    | 209123/371472 [5:35:43<12:59:58,  3.47it/s] 56%|█████▋    | 209124/371472 [5:35:43<12:35:19,  3.58it/s] 56%|█████▋    | 209125/371472 [5:35:43<12:43:41,  3.54it/s] 56%|█████▋    | 209126/371472 [5:35:43<12:40:16,  3.56it/s] 56%|█████▋    | 209127/371472 [5:35:44<13:45:34,  3.28it/s] 56%|█████▋    | 209128/371472 [5:35:44<13:44:00,  3.28it/s] 56%|█████▋    | 209129/371472 [5:35:44<13:18:32,  3.39it/s] 56%|█████▋    | 209130/371472 [5:35:45<13:32:46,  3.33it/s] 56%|█████▋    | 209131/371472 [5:35:45<13:43:37,  3.29it/s] 56%|█████▋    | 209132/371472 [5:35:45<12:58:36,  3.47it/s] 56%|█████▋    | 209133/371472 [5:35:46<13:36:18,  3.31it/s] 56%|█████▋    | 209134/371472 [5:35:46<13:18:38,  3.39it/s] 56%|█████▋    | 209135/371472 [5:35:46<13:42:07,  3.29it/s] 56%|█████▋    | 209136/371472 [5:35:46<13:42:25,  3.29it/s] 56%|█████▋    | 209137/371472 [5:35:47<13:18:48,  3.39it/s] 56%|█████▋    | 209138/371472 [5:35:47<12:44:44,  3.54it/s] 56%|█████▋    | 209139/371472 [5:35:47<13:07:55,  3.43it/s] 56%|█████▋    | 209140/371472 [5:35:48<12:58:09,  3.48it/s]                                                            {'loss': 3.005, 'learning_rate': 4.935088021719926e-07, 'epoch': 9.01}
 56%|█████▋    | 209140/371472 [5:35:48<12:58:09,  3.48it/s] 56%|█████▋    | 209141/371472 [5:35:48<13:10:12,  3.42it/s] 56%|█████▋    | 209142/371472 [5:35:48<12:54:11,  3.49it/s] 56%|█████▋    | 209143/371472 [5:35:49<13:38:04,  3.31it/s] 56%|█████▋    | 209144/371472 [5:35:49<13:55:52,  3.24it/s] 56%|█████▋    | 209145/371472 [5:35:49<13:21:44,  3.37it/s] 56%|█████▋    | 209146/371472 [5:35:49<13:25:45,  3.36it/s] 56%|█████▋    | 209147/371472 [5:35:50<13:32:23,  3.33it/s] 56%|█████▋    | 209148/371472 [5:35:50<13:00:18,  3.47it/s] 56%|█████▋    | 209149/371472 [5:35:50<13:10:41,  3.42it/s] 56%|█████▋    | 209150/371472 [5:35:51<13:09:48,  3.43it/s] 56%|█████▋    | 209151/371472 [5:35:51<12:30:36,  3.60it/s] 56%|█████▋    | 209152/371472 [5:35:51<12:47:49,  3.52it/s] 56%|█████▋    | 209153/371472 [5:35:51<12:50:59,  3.51it/s] 56%|█████▋    | 209154/371472 [5:35:52<12:55:51,  3.49it/s] 56%|█████▋    | 209155/371472 [5:35:52<13:22:54,  3.37it/s] 56%|█████▋    | 209156/371472 [5:35:52<12:56:17,  3.48it/s] 56%|█████▋    | 209157/371472 [5:35:53<12:34:27,  3.59it/s] 56%|█████▋    | 209158/371472 [5:35:53<13:17:14,  3.39it/s] 56%|█████▋    | 209159/371472 [5:35:53<13:07:17,  3.44it/s] 56%|█████▋    | 209160/371472 [5:35:53<13:34:07,  3.32it/s]                                                            {'loss': 2.9974, 'learning_rate': 4.934603201965136e-07, 'epoch': 9.01}
 56%|█████▋    | 209160/371472 [5:35:53<13:34:07,  3.32it/s] 56%|█████▋    | 209161/371472 [5:35:54<13:22:25,  3.37it/s] 56%|█████▋    | 209162/371472 [5:35:54<14:19:31,  3.15it/s] 56%|█████▋    | 209163/371472 [5:35:54<13:52:39,  3.25it/s] 56%|█████▋    | 209164/371472 [5:35:55<13:53:00,  3.25it/s] 56%|█████▋    | 209165/371472 [5:35:55<14:09:01,  3.19it/s] 56%|█████▋    | 209166/371472 [5:35:55<14:16:21,  3.16it/s] 56%|█████▋    | 209167/371472 [5:35:56<13:21:48,  3.37it/s] 56%|█████▋    | 209168/371472 [5:35:56<13:02:46,  3.46it/s] 56%|█████▋    | 209169/371472 [5:35:56<12:35:16,  3.58it/s] 56%|█████▋    | 209170/371472 [5:35:56<12:30:48,  3.60it/s] 56%|█████▋    | 209171/371472 [5:35:57<12:13:11,  3.69it/s] 56%|█████▋    | 209172/371472 [5:35:57<12:48:15,  3.52it/s] 56%|█████▋    | 209173/371472 [5:35:57<12:23:17,  3.64it/s] 56%|█████▋    | 209174/371472 [5:35:58<12:43:57,  3.54it/s] 56%|█████▋    | 209175/371472 [5:35:58<13:21:07,  3.38it/s] 56%|█████▋    | 209176/371472 [5:35:58<13:48:47,  3.26it/s] 56%|█████▋    | 209177/371472 [5:35:58<13:00:42,  3.46it/s] 56%|█████▋    | 209178/371472 [5:35:59<13:37:54,  3.31it/s] 56%|█████▋    | 209179/371472 [5:35:59<13:21:57,  3.37it/s] 56%|█████▋    | 209180/371472 [5:35:59<12:46:32,  3.53it/s]                                                            {'loss': 2.9994, 'learning_rate': 4.934118382210347e-07, 'epoch': 9.01}
 56%|█████▋    | 209180/371472 [5:35:59<12:46:32,  3.53it/s] 56%|█████▋    | 209181/371472 [5:36:00<12:14:09,  3.68it/s] 56%|█████▋    | 209182/371472 [5:36:00<11:52:31,  3.80it/s] 56%|█████▋    | 209183/371472 [5:36:00<12:03:44,  3.74it/s] 56%|█████▋    | 209184/371472 [5:36:00<12:46:52,  3.53it/s] 56%|█████▋    | 209185/371472 [5:36:01<12:25:56,  3.63it/s] 56%|█████▋    | 209186/371472 [5:36:01<11:58:37,  3.76it/s] 56%|█████▋    | 209187/371472 [5:36:01<11:59:56,  3.76it/s] 56%|█████▋    | 209188/371472 [5:36:01<12:01:10,  3.75it/s] 56%|█████▋    | 209189/371472 [5:36:02<11:52:49,  3.79it/s] 56%|█████▋    | 209190/371472 [5:36:02<13:54:01,  3.24it/s] 56%|█████▋    | 209191/371472 [5:36:02<14:56:04,  3.02it/s] 56%|█████▋    | 209192/371472 [5:36:03<14:48:14,  3.04it/s] 56%|█████▋    | 209193/371472 [5:36:03<14:10:19,  3.18it/s] 56%|█████▋    | 209194/371472 [5:36:03<13:00:41,  3.46it/s] 56%|█████▋    | 209195/371472 [5:36:04<13:07:02,  3.44it/s] 56%|█████▋    | 209196/371472 [5:36:04<12:29:15,  3.61it/s] 56%|█████▋    | 209197/371472 [5:36:04<12:31:39,  3.60it/s] 56%|█████▋    | 209198/371472 [5:36:04<12:27:07,  3.62it/s] 56%|█████▋    | 209199/371472 [5:36:05<13:15:41,  3.40it/s] 56%|█████▋    | 209200/371472 [5:36:05<15:38:32,  2.88it/s]                                                            {'loss': 2.8175, 'learning_rate': 4.933633562455558e-07, 'epoch': 9.01}
 56%|█████▋    | 209200/371472 [5:36:05<15:38:32,  2.88it/s] 56%|█████▋    | 209201/371472 [5:36:05<14:21:32,  3.14it/s] 56%|█████▋    | 209202/371472 [5:36:06<14:32:51,  3.10it/s] 56%|█████▋    | 209203/371472 [5:36:06<13:44:06,  3.28it/s] 56%|█████▋    | 209204/371472 [5:36:06<14:07:09,  3.19it/s] 56%|█████▋    | 209205/371472 [5:36:07<13:39:34,  3.30it/s] 56%|█████▋    | 209206/371472 [5:36:07<13:28:22,  3.35it/s] 56%|█████▋    | 209207/371472 [5:36:07<13:31:15,  3.33it/s] 56%|█████▋    | 209208/371472 [5:36:08<13:23:51,  3.36it/s] 56%|█████▋    | 209209/371472 [5:36:08<13:14:18,  3.40it/s] 56%|█████▋    | 209210/371472 [5:36:08<13:13:45,  3.41it/s] 56%|█████▋    | 209211/371472 [5:36:08<13:24:08,  3.36it/s] 56%|█████▋    | 209212/371472 [5:36:09<13:03:11,  3.45it/s] 56%|█████▋    | 209213/371472 [5:36:09<13:08:13,  3.43it/s] 56%|█████▋    | 209214/371472 [5:36:09<14:19:07,  3.15it/s] 56%|█████▋    | 209215/371472 [5:36:10<14:25:45,  3.12it/s] 56%|█████▋    | 209216/371472 [5:36:10<14:51:49,  3.03it/s] 56%|█████▋    | 209217/371472 [5:36:10<14:23:07,  3.13it/s] 56%|█████▋    | 209218/371472 [5:36:11<14:01:47,  3.21it/s] 56%|█████▋    | 209219/371472 [5:36:11<14:54:16,  3.02it/s] 56%|█████▋    | 209220/371472 [5:36:11<15:27:48,  2.91it/s]                                                            {'loss': 2.9806, 'learning_rate': 4.933148742700768e-07, 'epoch': 9.01}
 56%|█████▋    | 209220/371472 [5:36:11<15:27:48,  2.91it/s] 56%|█████▋    | 209221/371472 [5:36:12<14:31:22,  3.10it/s] 56%|█████▋    | 209222/371472 [5:36:12<14:08:57,  3.19it/s] 56%|█████▋    | 209223/371472 [5:36:12<13:16:40,  3.39it/s] 56%|█████▋    | 209224/371472 [5:36:13<13:00:36,  3.46it/s] 56%|█████▋    | 209225/371472 [5:36:13<13:06:03,  3.44it/s] 56%|█████▋    | 209226/371472 [5:36:13<12:36:10,  3.58it/s] 56%|█████▋    | 209227/371472 [5:36:13<13:17:33,  3.39it/s] 56%|█████▋    | 209228/371472 [5:36:14<12:50:56,  3.51it/s] 56%|█████▋    | 209229/371472 [5:36:14<13:00:23,  3.47it/s] 56%|█████▋    | 209230/371472 [5:36:14<12:42:21,  3.55it/s] 56%|█████▋    | 209231/371472 [5:36:15<13:25:13,  3.36it/s] 56%|█████▋    | 209232/371472 [5:36:15<13:29:36,  3.34it/s] 56%|█████▋    | 209233/371472 [5:36:15<13:21:45,  3.37it/s] 56%|█████▋    | 209234/371472 [5:36:15<13:41:24,  3.29it/s] 56%|█████▋    | 209235/371472 [5:36:16<13:35:16,  3.32it/s] 56%|█████▋    | 209236/371472 [5:36:16<13:58:49,  3.22it/s] 56%|█████▋    | 209237/371472 [5:36:16<13:55:53,  3.23it/s] 56%|█████▋    | 209238/371472 [5:36:17<13:57:19,  3.23it/s] 56%|█████▋    | 209239/371472 [5:36:17<13:57:15,  3.23it/s] 56%|█████▋    | 209240/371472 [5:36:17<14:11:52,  3.17it/s]                                                            {'loss': 2.8537, 'learning_rate': 4.93266392294598e-07, 'epoch': 9.01}
 56%|█████▋    | 209240/371472 [5:36:17<14:11:52,  3.17it/s] 56%|█████▋    | 209241/371472 [5:36:18<13:45:14,  3.28it/s] 56%|█████▋    | 209242/371472 [5:36:18<13:24:47,  3.36it/s] 56%|█████▋    | 209243/371472 [5:36:18<13:05:29,  3.44it/s] 56%|█████▋    | 209244/371472 [5:36:19<13:53:43,  3.24it/s] 56%|█████▋    | 209245/371472 [5:36:19<13:25:39,  3.36it/s] 56%|█████▋    | 209246/371472 [5:36:19<13:12:38,  3.41it/s] 56%|█████▋    | 209247/371472 [5:36:19<13:38:02,  3.31it/s] 56%|█████▋    | 209248/371472 [5:36:20<14:04:45,  3.20it/s] 56%|█████▋    | 209249/371472 [5:36:20<13:24:44,  3.36it/s] 56%|█████▋    | 209250/371472 [5:36:20<13:08:51,  3.43it/s] 56%|█████▋    | 209251/371472 [5:36:21<13:13:16,  3.41it/s] 56%|█████▋    | 209252/371472 [5:36:21<13:01:33,  3.46it/s] 56%|█████▋    | 209253/371472 [5:36:21<13:05:13,  3.44it/s] 56%|█████▋    | 209254/371472 [5:36:21<13:25:04,  3.36it/s] 56%|█████▋    | 209255/371472 [5:36:22<13:43:12,  3.28it/s] 56%|█████▋    | 209256/371472 [5:36:22<14:03:40,  3.20it/s] 56%|█████▋    | 209257/371472 [5:36:22<13:35:34,  3.31it/s] 56%|█████▋    | 209258/371472 [5:36:23<12:57:44,  3.48it/s] 56%|█████▋    | 209259/371472 [5:36:23<12:30:18,  3.60it/s] 56%|█████▋    | 209260/371472 [5:36:23<12:23:45,  3.63it/s]                                                            {'loss': 2.8773, 'learning_rate': 4.932179103191191e-07, 'epoch': 9.01}
 56%|█████▋    | 209260/371472 [5:36:23<12:23:45,  3.63it/s] 56%|█████▋    | 209261/371472 [5:36:23<12:31:43,  3.60it/s] 56%|█████▋    | 209262/371472 [5:36:24<12:10:25,  3.70it/s] 56%|█████▋    | 209263/371472 [5:36:24<12:40:08,  3.56it/s] 56%|█████▋    | 209264/371472 [5:36:24<13:30:24,  3.34it/s] 56%|█████▋    | 209265/371472 [5:36:25<13:52:16,  3.25it/s] 56%|█████▋    | 209266/371472 [5:36:25<13:29:15,  3.34it/s] 56%|█████▋    | 209267/371472 [5:36:25<13:02:24,  3.46it/s] 56%|█████▋    | 209268/371472 [5:36:26<14:28:35,  3.11it/s] 56%|█████▋    | 209269/371472 [5:36:26<14:21:37,  3.14it/s] 56%|█████▋    | 209270/371472 [5:36:26<14:03:28,  3.21it/s] 56%|█████▋    | 209271/371472 [5:36:27<14:13:01,  3.17it/s] 56%|█████▋    | 209272/371472 [5:36:27<13:52:15,  3.25it/s] 56%|█████▋    | 209273/371472 [5:36:27<13:33:51,  3.32it/s] 56%|█████▋    | 209274/371472 [5:36:27<13:20:21,  3.38it/s] 56%|█████▋    | 209275/371472 [5:36:28<12:31:58,  3.59it/s] 56%|█████▋    | 209276/371472 [5:36:28<12:25:31,  3.63it/s] 56%|█████▋    | 209277/371472 [5:36:28<12:32:29,  3.59it/s] 56%|█████▋    | 209278/371472 [5:36:29<12:51:28,  3.50it/s] 56%|█████▋    | 209279/371472 [5:36:29<13:23:17,  3.37it/s] 56%|█████▋    | 209280/371472 [5:36:29<12:56:07,  3.48it/s]                                                            {'loss': 3.0488, 'learning_rate': 4.931694283436403e-07, 'epoch': 9.01}
 56%|█████▋    | 209280/371472 [5:36:29<12:56:07,  3.48it/s] 56%|█████▋    | 209281/371472 [5:36:29<12:47:35,  3.52it/s] 56%|█████▋    | 209282/371472 [5:36:30<13:41:52,  3.29it/s] 56%|█████▋    | 209283/371472 [5:36:30<14:01:50,  3.21it/s] 56%|█████▋    | 209284/371472 [5:36:30<13:26:16,  3.35it/s] 56%|█████▋    | 209285/371472 [5:36:31<13:20:21,  3.38it/s] 56%|█████▋    | 209286/371472 [5:36:31<13:07:19,  3.43it/s] 56%|█████▋    | 209287/371472 [5:36:31<13:06:46,  3.44it/s] 56%|█████▋    | 209288/371472 [5:36:31<12:56:48,  3.48it/s] 56%|█████▋    | 209289/371472 [5:36:32<12:34:45,  3.58it/s] 56%|█████▋    | 209290/371472 [5:36:32<12:30:51,  3.60it/s] 56%|█████▋    | 209291/371472 [5:36:32<12:15:45,  3.67it/s] 56%|█████▋    | 209292/371472 [5:36:33<12:16:15,  3.67it/s] 56%|█████▋    | 209293/371472 [5:36:33<12:24:19,  3.63it/s] 56%|█████▋    | 209294/371472 [5:36:33<12:06:48,  3.72it/s] 56%|█████▋    | 209295/371472 [5:36:33<11:51:22,  3.80it/s] 56%|█████▋    | 209296/371472 [5:36:34<12:03:51,  3.73it/s] 56%|█████▋    | 209297/371472 [5:36:34<13:00:58,  3.46it/s] 56%|█████▋    | 209298/371472 [5:36:34<13:03:41,  3.45it/s] 56%|█████▋    | 209299/371472 [5:36:34<12:46:20,  3.53it/s] 56%|█████▋    | 209300/371472 [5:36:35<12:54:02,  3.49it/s]                                                            {'loss': 2.9846, 'learning_rate': 4.931209463681613e-07, 'epoch': 9.01}
 56%|█████▋    | 209300/371472 [5:36:35<12:54:02,  3.49it/s] 56%|█████▋    | 209301/371472 [5:36:35<12:41:54,  3.55it/s] 56%|█████▋    | 209302/371472 [5:36:36<15:01:28,  3.00it/s] 56%|█████▋    | 209303/371472 [5:36:36<14:57:14,  3.01it/s] 56%|█████▋    | 209304/371472 [5:36:36<14:58:43,  3.01it/s] 56%|█████▋    | 209305/371472 [5:36:36<14:10:30,  3.18it/s] 56%|█████▋    | 209306/371472 [5:36:37<13:53:21,  3.24it/s] 56%|█████▋    | 209307/371472 [5:36:37<14:09:45,  3.18it/s] 56%|█████▋    | 209308/371472 [5:36:37<13:45:53,  3.27it/s] 56%|█████▋    | 209309/371472 [5:36:38<13:17:54,  3.39it/s] 56%|█████▋    | 209310/371472 [5:36:38<13:12:04,  3.41it/s] 56%|█████▋    | 209311/371472 [5:36:38<14:01:24,  3.21it/s] 56%|█████▋    | 209312/371472 [5:36:39<15:00:30,  3.00it/s] 56%|█████▋    | 209313/371472 [5:36:39<16:04:44,  2.80it/s] 56%|█████▋    | 209314/371472 [5:36:39<14:34:41,  3.09it/s] 56%|█████▋    | 209315/371472 [5:36:40<13:37:53,  3.30it/s] 56%|█████▋    | 209316/371472 [5:36:40<13:10:47,  3.42it/s] 56%|█████▋    | 209317/371472 [5:36:40<12:37:28,  3.57it/s] 56%|█████▋    | 209318/371472 [5:36:40<13:11:17,  3.42it/s] 56%|█████▋    | 209319/371472 [5:36:41<12:39:36,  3.56it/s] 56%|█████▋    | 209320/371472 [5:36:41<12:41:30,  3.55it/s]                                                            {'loss': 2.9098, 'learning_rate': 4.930724643926824e-07, 'epoch': 9.02}
 56%|█████▋    | 209320/371472 [5:36:41<12:41:30,  3.55it/s] 56%|█████▋    | 209321/371472 [5:36:41<12:29:05,  3.61it/s] 56%|█████▋    | 209322/371472 [5:36:42<12:42:07,  3.55it/s] 56%|█████▋    | 209323/371472 [5:36:42<13:00:55,  3.46it/s] 56%|█████▋    | 209324/371472 [5:36:42<12:31:56,  3.59it/s] 56%|█████▋    | 209325/371472 [5:36:42<12:34:13,  3.58it/s] 56%|█████▋    | 209326/371472 [5:36:43<12:48:20,  3.52it/s] 56%|█████▋    | 209327/371472 [5:36:43<12:30:15,  3.60it/s] 56%|█████▋    | 209328/371472 [5:36:43<13:07:08,  3.43it/s] 56%|█████▋    | 209329/371472 [5:36:44<13:04:24,  3.45it/s] 56%|█████▋    | 209330/371472 [5:36:44<12:58:50,  3.47it/s] 56%|█████▋    | 209331/371472 [5:36:44<13:23:47,  3.36it/s] 56%|█████▋    | 209332/371472 [5:36:44<13:20:11,  3.38it/s] 56%|█████▋    | 209333/371472 [5:36:45<13:57:07,  3.23it/s] 56%|█████▋    | 209334/371472 [5:36:45<14:02:08,  3.21it/s] 56%|█████▋    | 209335/371472 [5:36:45<13:31:05,  3.33it/s] 56%|█████▋    | 209336/371472 [5:36:46<13:28:06,  3.34it/s] 56%|█████▋    | 209337/371472 [5:36:46<12:56:07,  3.48it/s] 56%|█████▋    | 209338/371472 [5:36:46<12:42:53,  3.54it/s] 56%|█████▋    | 209339/371472 [5:36:46<12:11:58,  3.69it/s] 56%|█████▋    | 209340/371472 [5:36:47<12:09:00,  3.71it/s]                                                            {'loss': 3.0912, 'learning_rate': 4.930239824172035e-07, 'epoch': 9.02}
 56%|█████▋    | 209340/371472 [5:36:47<12:09:00,  3.71it/s] 56%|█████▋    | 209341/371472 [5:36:47<12:05:06,  3.73it/s] 56%|█████▋    | 209342/371472 [5:36:47<12:10:14,  3.70it/s] 56%|█████▋    | 209343/371472 [5:36:48<13:30:35,  3.33it/s] 56%|█████▋    | 209344/371472 [5:36:48<14:17:41,  3.15it/s] 56%|█████▋    | 209345/371472 [5:36:48<14:13:00,  3.17it/s] 56%|█████▋    | 209346/371472 [5:36:49<15:17:05,  2.95it/s] 56%|█████▋    | 209347/371472 [5:36:49<14:38:27,  3.08it/s] 56%|█████▋    | 209348/371472 [5:36:49<14:10:47,  3.18it/s] 56%|█████▋    | 209349/371472 [5:36:50<13:44:41,  3.28it/s] 56%|█████▋    | 209350/371472 [5:36:50<13:33:16,  3.32it/s] 56%|█████▋    | 209351/371472 [5:36:50<13:47:41,  3.26it/s] 56%|█████▋    | 209352/371472 [5:36:50<13:58:56,  3.22it/s] 56%|█████▋    | 209353/371472 [5:36:51<13:17:19,  3.39it/s] 56%|█████▋    | 209354/371472 [5:36:51<13:28:29,  3.34it/s] 56%|█████▋    | 209355/371472 [5:36:51<12:58:13,  3.47it/s] 56%|█████▋    | 209356/371472 [5:36:52<12:59:42,  3.47it/s] 56%|█████▋    | 209357/371472 [5:36:52<13:44:32,  3.28it/s] 56%|█████▋    | 209358/371472 [5:36:52<13:32:54,  3.32it/s] 56%|█████▋    | 209359/371472 [5:36:52<13:25:07,  3.36it/s] 56%|█████▋    | 209360/371472 [5:36:53<13:55:51,  3.23it/s]                                                            {'loss': 2.7881, 'learning_rate': 4.929755004417247e-07, 'epoch': 9.02}
 56%|█████▋    | 209360/371472 [5:36:53<13:55:51,  3.23it/s] 56%|█████▋    | 209361/371472 [5:36:53<13:23:49,  3.36it/s] 56%|█████▋    | 209362/371472 [5:36:53<13:06:15,  3.44it/s] 56%|█████▋    | 209363/371472 [5:36:54<13:06:29,  3.44it/s] 56%|█████▋    | 209364/371472 [5:36:54<13:05:50,  3.44it/s] 56%|█████▋    | 209365/371472 [5:36:54<12:40:45,  3.55it/s] 56%|█████▋    | 209366/371472 [5:36:54<12:14:31,  3.68it/s] 56%|█████▋    | 209367/371472 [5:36:55<12:06:03,  3.72it/s] 56%|█████▋    | 209368/371472 [5:36:55<12:25:09,  3.63it/s] 56%|█████▋    | 209369/371472 [5:36:55<12:26:51,  3.62it/s] 56%|█████▋    | 209370/371472 [5:36:56<13:10:30,  3.42it/s] 56%|█████▋    | 209371/371472 [5:36:56<13:53:11,  3.24it/s] 56%|█████▋    | 209372/371472 [5:36:56<13:33:50,  3.32it/s] 56%|█████▋    | 209373/371472 [5:36:57<13:00:27,  3.46it/s] 56%|█████▋    | 209374/371472 [5:36:57<13:39:15,  3.30it/s] 56%|█████▋    | 209375/371472 [5:36:57<13:25:09,  3.36it/s] 56%|█████▋    | 209376/371472 [5:36:57<13:15:45,  3.40it/s] 56%|█████▋    | 209377/371472 [5:36:58<13:06:34,  3.43it/s] 56%|█████▋    | 209378/371472 [5:36:58<12:57:06,  3.48it/s] 56%|█████▋    | 209379/371472 [5:36:58<13:26:52,  3.35it/s] 56%|█████▋    | 209380/371472 [5:36:59<13:15:59,  3.39it/s]                                                            {'loss': 2.9192, 'learning_rate': 4.929270184662457e-07, 'epoch': 9.02}
 56%|█████▋    | 209380/371472 [5:36:59<13:15:59,  3.39it/s] 56%|█████▋    | 209381/371472 [5:36:59<12:53:10,  3.49it/s] 56%|█████▋    | 209382/371472 [5:36:59<13:04:48,  3.44it/s] 56%|█████▋    | 209383/371472 [5:36:59<12:32:03,  3.59it/s] 56%|█████▋    | 209384/371472 [5:37:00<12:22:31,  3.64it/s] 56%|█████▋    | 209385/371472 [5:37:00<11:51:46,  3.80it/s] 56%|█████▋    | 209386/371472 [5:37:00<12:26:27,  3.62it/s] 56%|█████▋    | 209387/371472 [5:37:00<12:09:13,  3.70it/s] 56%|█████▋    | 209388/371472 [5:37:01<12:00:46,  3.75it/s] 56%|█████▋    | 209389/371472 [5:37:01<12:25:47,  3.62it/s] 56%|█████▋    | 209390/371472 [5:37:01<12:21:50,  3.64it/s] 56%|█████▋    | 209391/371472 [5:37:02<12:31:32,  3.59it/s] 56%|█████▋    | 209392/371472 [5:37:02<12:22:37,  3.64it/s] 56%|█████▋    | 209393/371472 [5:37:02<12:33:27,  3.59it/s] 56%|█████▋    | 209394/371472 [5:37:02<12:45:54,  3.53it/s] 56%|█████▋    | 209395/371472 [5:37:03<13:56:22,  3.23it/s] 56%|█████▋    | 209396/371472 [5:37:03<13:19:45,  3.38it/s] 56%|█████▋    | 209397/371472 [5:37:03<12:52:17,  3.50it/s] 56%|█████▋    | 209398/371472 [5:37:04<12:40:31,  3.55it/s] 56%|█████▋    | 209399/371472 [5:37:04<12:11:49,  3.69it/s] 56%|█████▋    | 209400/371472 [5:37:04<12:00:57,  3.75it/s]                                                            {'loss': 2.7461, 'learning_rate': 4.928785364907669e-07, 'epoch': 9.02}
 56%|█████▋    | 209400/371472 [5:37:04<12:00:57,  3.75it/s] 56%|█████▋    | 209401/371472 [5:37:04<13:16:09,  3.39it/s] 56%|█████▋    | 209402/371472 [5:37:05<12:46:44,  3.52it/s] 56%|█████▋    | 209403/371472 [5:37:05<13:05:53,  3.44it/s] 56%|█████▋    | 209404/371472 [5:37:05<12:49:45,  3.51it/s] 56%|█████▋    | 209405/371472 [5:37:06<13:43:07,  3.28it/s] 56%|█████▋    | 209406/371472 [5:37:06<13:33:34,  3.32it/s] 56%|█████▋    | 209407/371472 [5:37:06<13:18:21,  3.38it/s] 56%|█████▋    | 209408/371472 [5:37:07<12:56:42,  3.48it/s] 56%|█████▋    | 209409/371472 [5:37:07<13:51:42,  3.25it/s] 56%|█████▋    | 209410/371472 [5:37:07<13:43:29,  3.28it/s] 56%|█████▋    | 209411/371472 [5:37:07<14:10:30,  3.18it/s] 56%|█████▋    | 209412/371472 [5:37:08<14:44:31,  3.05it/s] 56%|█████▋    | 209413/371472 [5:37:08<14:16:52,  3.15it/s] 56%|█████▋    | 209414/371472 [5:37:08<13:56:05,  3.23it/s] 56%|█████▋    | 209415/371472 [5:37:09<13:57:50,  3.22it/s] 56%|█████▋    | 209416/371472 [5:37:09<13:30:14,  3.33it/s] 56%|█████▋    | 209417/371472 [5:37:09<13:50:24,  3.25it/s] 56%|█████▋    | 209418/371472 [5:37:10<13:39:58,  3.29it/s] 56%|█████▋    | 209419/371472 [5:37:10<13:30:52,  3.33it/s] 56%|█████▋    | 209420/371472 [5:37:10<13:08:44,  3.42it/s]                                                            {'loss': 2.7723, 'learning_rate': 4.92830054515288e-07, 'epoch': 9.02}
 56%|█████▋    | 209420/371472 [5:37:10<13:08:44,  3.42it/s] 56%|█████▋    | 209421/371472 [5:37:10<12:38:08,  3.56it/s] 56%|█████▋    | 209422/371472 [5:37:11<12:24:55,  3.63it/s] 56%|█████▋    | 209423/371472 [5:37:11<12:23:54,  3.63it/s] 56%|█████▋    | 209424/371472 [5:37:11<13:09:14,  3.42it/s] 56%|█████▋    | 209425/371472 [5:37:12<13:10:14,  3.42it/s] 56%|█████▋    | 209426/371472 [5:37:12<14:25:43,  3.12it/s] 56%|█████▋    | 209427/371472 [5:37:12<14:39:35,  3.07it/s] 56%|█████▋    | 209428/371472 [5:37:13<14:08:36,  3.18it/s] 56%|█████▋    | 209429/371472 [5:37:13<13:18:01,  3.38it/s] 56%|█████▋    | 209430/371472 [5:37:13<13:23:51,  3.36it/s] 56%|█████▋    | 209431/371472 [5:37:13<13:21:57,  3.37it/s] 56%|█████▋    | 209432/371472 [5:37:14<12:55:50,  3.48it/s] 56%|█████▋    | 209433/371472 [5:37:14<12:34:51,  3.58it/s] 56%|█████▋    | 209434/371472 [5:37:14<12:51:20,  3.50it/s] 56%|█████▋    | 209435/371472 [5:37:15<13:20:21,  3.37it/s] 56%|█████▋    | 209436/371472 [5:37:15<13:51:58,  3.25it/s] 56%|█████▋    | 209437/371472 [5:37:15<13:20:14,  3.37it/s] 56%|█████▋    | 209438/371472 [5:37:16<12:49:39,  3.51it/s] 56%|█████▋    | 209439/371472 [5:37:16<13:09:04,  3.42it/s] 56%|█████▋    | 209440/371472 [5:37:16<13:13:25,  3.40it/s]                                                            {'loss': 2.9351, 'learning_rate': 4.92781572539809e-07, 'epoch': 9.02}
 56%|█████▋    | 209440/371472 [5:37:16<13:13:25,  3.40it/s] 56%|█████▋    | 209441/371472 [5:37:16<13:42:47,  3.28it/s] 56%|█████▋    | 209442/371472 [5:37:17<13:29:15,  3.34it/s] 56%|█████▋    | 209443/371472 [5:37:17<13:52:12,  3.24it/s] 56%|█████▋    | 209444/371472 [5:37:17<13:50:41,  3.25it/s] 56%|█████▋    | 209445/371472 [5:37:18<13:24:59,  3.35it/s] 56%|█████▋    | 209446/371472 [5:37:18<13:06:20,  3.43it/s] 56%|█████▋    | 209447/371472 [5:37:18<13:06:24,  3.43it/s] 56%|█████▋    | 209448/371472 [5:37:18<13:03:22,  3.45it/s] 56%|█████▋    | 209449/371472 [5:37:19<13:05:10,  3.44it/s] 56%|█████▋    | 209450/371472 [5:37:19<12:55:40,  3.48it/s] 56%|█████▋    | 209451/371472 [5:37:19<13:24:16,  3.36it/s] 56%|█████▋    | 209452/371472 [5:37:20<14:22:06,  3.13it/s] 56%|█████▋    | 209453/371472 [5:37:20<13:24:39,  3.36it/s] 56%|█████▋    | 209454/371472 [5:37:20<14:04:23,  3.20it/s] 56%|█████▋    | 209455/371472 [5:37:21<13:50:02,  3.25it/s] 56%|█████▋    | 209456/371472 [5:37:21<13:33:46,  3.32it/s] 56%|█████▋    | 209457/371472 [5:37:21<13:11:04,  3.41it/s] 56%|█████▋    | 209458/371472 [5:37:21<12:57:59,  3.47it/s] 56%|█████▋    | 209459/371472 [5:37:22<13:45:25,  3.27it/s] 56%|█████▋    | 209460/371472 [5:37:22<13:37:27,  3.30it/s]                                                            {'loss': 2.8439, 'learning_rate': 4.927330905643301e-07, 'epoch': 9.02}
 56%|█████▋    | 209460/371472 [5:37:22<13:37:27,  3.30it/s] 56%|█████▋    | 209461/371472 [5:37:22<14:28:38,  3.11it/s] 56%|█████▋    | 209462/371472 [5:37:23<14:08:00,  3.18it/s] 56%|█████▋    | 209463/371472 [5:37:23<13:43:04,  3.28it/s] 56%|█████▋    | 209464/371472 [5:37:23<14:17:32,  3.15it/s] 56%|█████▋    | 209465/371472 [5:37:24<13:36:20,  3.31it/s] 56%|█████▋    | 209466/371472 [5:37:24<13:47:33,  3.26it/s] 56%|█████▋    | 209467/371472 [5:37:24<13:40:59,  3.29it/s] 56%|█████▋    | 209468/371472 [5:37:25<13:16:12,  3.39it/s] 56%|█████▋    | 209469/371472 [5:37:25<12:47:43,  3.52it/s] 56%|█████▋    | 209470/371472 [5:37:25<12:49:26,  3.51it/s] 56%|█████▋    | 209471/371472 [5:37:25<12:49:07,  3.51it/s] 56%|█████▋    | 209472/371472 [5:37:26<13:15:49,  3.39it/s] 56%|█████▋    | 209473/371472 [5:37:26<13:29:17,  3.34it/s] 56%|█████▋    | 209474/371472 [5:37:26<13:40:04,  3.29it/s] 56%|█████▋    | 209475/371472 [5:37:27<13:13:38,  3.40it/s] 56%|█████▋    | 209476/371472 [5:37:27<14:04:13,  3.20it/s] 56%|█████▋    | 209477/371472 [5:37:27<13:49:32,  3.25it/s] 56%|█████▋    | 209478/371472 [5:37:28<14:40:56,  3.06it/s] 56%|█████▋    | 209479/371472 [5:37:28<15:12:50,  2.96it/s] 56%|█████▋    | 209480/371472 [5:37:28<14:20:55,  3.14it/s]                                                            {'loss': 2.7509, 'learning_rate': 4.926846085888513e-07, 'epoch': 9.02}
 56%|█████▋    | 209480/371472 [5:37:28<14:20:55,  3.14it/s] 56%|█████▋    | 209481/371472 [5:37:29<13:41:48,  3.29it/s] 56%|█████▋    | 209482/371472 [5:37:29<13:53:56,  3.24it/s] 56%|█████▋    | 209483/371472 [5:37:29<13:46:09,  3.27it/s] 56%|█████▋    | 209484/371472 [5:37:29<13:02:37,  3.45it/s] 56%|█████▋    | 209485/371472 [5:37:30<13:21:20,  3.37it/s] 56%|█████▋    | 209486/371472 [5:37:30<13:20:10,  3.37it/s] 56%|█████▋    | 209487/371472 [5:37:30<12:55:57,  3.48it/s] 56%|█████▋    | 209488/371472 [5:37:31<13:30:09,  3.33it/s] 56%|█████▋    | 209489/371472 [5:37:31<13:12:08,  3.41it/s] 56%|█████▋    | 209490/371472 [5:37:31<13:29:45,  3.33it/s] 56%|█████▋    | 209491/371472 [5:37:31<13:12:39,  3.41it/s] 56%|█████▋    | 209492/371472 [5:37:32<12:50:57,  3.50it/s] 56%|█████▋    | 209493/371472 [5:37:32<13:53:38,  3.24it/s] 56%|█████▋    | 209494/371472 [5:37:33<15:00:41,  3.00it/s] 56%|█████▋    | 209495/371472 [5:37:33<14:43:48,  3.05it/s] 56%|█████▋    | 209496/371472 [5:37:33<14:01:18,  3.21it/s] 56%|█████▋    | 209497/371472 [5:37:33<13:26:45,  3.35it/s] 56%|█████▋    | 209498/371472 [5:37:34<13:14:58,  3.40it/s] 56%|█████▋    | 209499/371472 [5:37:34<13:03:17,  3.45it/s] 56%|█████▋    | 209500/371472 [5:37:34<13:44:25,  3.27it/s]                                                            {'loss': 2.9423, 'learning_rate': 4.926361266133724e-07, 'epoch': 9.02}
 56%|█████▋    | 209500/371472 [5:37:34<13:44:25,  3.27it/s] 56%|█████▋    | 209501/371472 [5:37:35<13:56:00,  3.23it/s] 56%|█████▋    | 209502/371472 [5:37:35<13:28:19,  3.34it/s] 56%|█████▋    | 209503/371472 [5:37:35<13:21:40,  3.37it/s] 56%|█████▋    | 209504/371472 [5:37:35<13:25:35,  3.35it/s] 56%|█████▋    | 209505/371472 [5:37:36<13:07:32,  3.43it/s] 56%|█████▋    | 209506/371472 [5:37:36<12:50:01,  3.51it/s] 56%|█████▋    | 209507/371472 [5:37:36<12:28:06,  3.61it/s] 56%|█████▋    | 209508/371472 [5:37:37<15:13:37,  2.95it/s] 56%|█████▋    | 209509/371472 [5:37:37<14:41:11,  3.06it/s] 56%|█████▋    | 209510/371472 [5:37:37<14:15:49,  3.15it/s] 56%|█████▋    | 209511/371472 [5:37:38<13:56:21,  3.23it/s] 56%|█████▋    | 209512/371472 [5:37:38<13:06:20,  3.43it/s] 56%|█████▋    | 209513/371472 [5:37:38<13:40:38,  3.29it/s] 56%|█████▋    | 209514/371472 [5:37:38<12:58:09,  3.47it/s] 56%|█████▋    | 209515/371472 [5:37:39<12:50:53,  3.50it/s] 56%|█████▋    | 209516/371472 [5:37:39<12:26:34,  3.62it/s] 56%|█████▋    | 209517/371472 [5:37:39<12:17:00,  3.66it/s] 56%|█████▋    | 209518/371472 [5:37:40<12:47:54,  3.52it/s] 56%|█████▋    | 209519/371472 [5:37:40<13:10:36,  3.41it/s] 56%|█████▋    | 209520/371472 [5:37:40<12:51:40,  3.50it/s]                                                            {'loss': 2.8887, 'learning_rate': 4.925876446378935e-07, 'epoch': 9.02}
 56%|█████▋    | 209520/371472 [5:37:40<12:51:40,  3.50it/s] 56%|█████▋    | 209521/371472 [5:37:40<13:11:13,  3.41it/s] 56%|█████▋    | 209522/371472 [5:37:41<12:46:48,  3.52it/s] 56%|█████▋    | 209523/371472 [5:37:41<12:54:43,  3.48it/s] 56%|█████▋    | 209524/371472 [5:37:41<12:40:00,  3.55it/s] 56%|█████▋    | 209525/371472 [5:37:42<13:03:51,  3.44it/s] 56%|█████▋    | 209526/371472 [5:37:42<13:11:25,  3.41it/s] 56%|█████▋    | 209527/371472 [5:37:42<12:53:52,  3.49it/s] 56%|█████▋    | 209528/371472 [5:37:43<13:29:33,  3.33it/s] 56%|█████▋    | 209529/371472 [5:37:43<13:55:43,  3.23it/s] 56%|█████▋    | 209530/371472 [5:37:43<13:40:25,  3.29it/s] 56%|█████▋    | 209531/371472 [5:37:43<14:25:35,  3.12it/s] 56%|█████▋    | 209532/371472 [5:37:44<13:32:00,  3.32it/s] 56%|█████▋    | 209533/371472 [5:37:44<14:07:42,  3.18it/s] 56%|█████▋    | 209534/371472 [5:37:44<14:15:26,  3.16it/s] 56%|█████▋    | 209535/371472 [5:37:45<13:35:36,  3.31it/s] 56%|█████▋    | 209536/371472 [5:37:45<13:29:54,  3.33it/s] 56%|█████▋    | 209537/371472 [5:37:45<13:24:23,  3.36it/s] 56%|█████▋    | 209538/371472 [5:37:46<13:25:51,  3.35it/s] 56%|█████▋    | 209539/371472 [5:37:46<13:55:14,  3.23it/s] 56%|█████▋    | 209540/371472 [5:37:46<13:19:36,  3.38it/s]                                                            {'loss': 2.927, 'learning_rate': 4.925391626624146e-07, 'epoch': 9.03}
 56%|█████▋    | 209540/371472 [5:37:46<13:19:36,  3.38it/s] 56%|█████▋    | 209541/371472 [5:37:46<13:11:24,  3.41it/s] 56%|█████▋    | 209542/371472 [5:37:47<13:07:55,  3.43it/s] 56%|█████▋    | 209543/371472 [5:37:47<12:45:31,  3.53it/s] 56%|█████▋    | 209544/371472 [5:37:47<12:46:11,  3.52it/s] 56%|█████▋    | 209545/371472 [5:37:48<13:00:39,  3.46it/s] 56%|█████▋    | 209546/371472 [5:37:48<12:51:31,  3.50it/s] 56%|█████▋    | 209547/371472 [5:37:48<13:21:44,  3.37it/s] 56%|█████▋    | 209548/371472 [5:37:49<14:04:31,  3.20it/s] 56%|█████▋    | 209549/371472 [5:37:49<13:20:14,  3.37it/s] 56%|█████▋    | 209550/371472 [5:37:49<13:25:02,  3.35it/s] 56%|█████▋    | 209551/371472 [5:37:49<13:27:31,  3.34it/s] 56%|█████▋    | 209552/371472 [5:37:50<13:16:30,  3.39it/s] 56%|█████▋    | 209553/371472 [5:37:50<13:11:14,  3.41it/s] 56%|█████▋    | 209554/371472 [5:37:50<12:51:25,  3.50it/s] 56%|█████▋    | 209555/371472 [5:37:51<12:58:33,  3.47it/s] 56%|█████▋    | 209556/371472 [5:37:51<13:08:38,  3.42it/s] 56%|█████▋    | 209557/371472 [5:37:51<13:39:36,  3.29it/s] 56%|█████▋    | 209558/371472 [5:37:52<14:04:21,  3.20it/s] 56%|█████▋    | 209559/371472 [5:37:52<13:35:20,  3.31it/s] 56%|█████▋    | 209560/371472 [5:37:52<13:49:53,  3.25it/s]                                                            {'loss': 2.9099, 'learning_rate': 4.924906806869357e-07, 'epoch': 9.03}
 56%|█████▋    | 209560/371472 [5:37:52<13:49:53,  3.25it/s] 56%|█████▋    | 209561/371472 [5:37:52<13:38:25,  3.30it/s] 56%|█████▋    | 209562/371472 [5:37:53<13:37:48,  3.30it/s] 56%|█████▋    | 209563/371472 [5:37:53<13:20:10,  3.37it/s] 56%|█████▋    | 209564/371472 [5:37:53<13:26:20,  3.35it/s] 56%|█████▋    | 209565/371472 [5:37:54<13:11:59,  3.41it/s] 56%|█████▋    | 209566/371472 [5:37:54<13:43:22,  3.28it/s] 56%|█████▋    | 209567/371472 [5:37:54<13:29:54,  3.33it/s] 56%|█████▋    | 209568/371472 [5:37:55<13:58:21,  3.22it/s] 56%|█████▋    | 209569/371472 [5:37:55<13:22:16,  3.36it/s] 56%|█████▋    | 209570/371472 [5:37:55<13:12:55,  3.40it/s] 56%|█████▋    | 209571/371472 [5:37:55<13:23:10,  3.36it/s] 56%|█████▋    | 209572/371472 [5:37:56<13:04:40,  3.44it/s] 56%|█████▋    | 209573/371472 [5:37:56<13:25:59,  3.35it/s] 56%|█████▋    | 209574/371472 [5:37:56<13:19:23,  3.38it/s] 56%|█████▋    | 209575/371472 [5:37:57<12:40:37,  3.55it/s] 56%|█████▋    | 209576/371472 [5:37:57<13:10:32,  3.41it/s] 56%|█████▋    | 209577/371472 [5:37:57<13:45:04,  3.27it/s] 56%|█████▋    | 209578/371472 [5:37:57<13:13:36,  3.40it/s] 56%|█████▋    | 209579/371472 [5:37:58<12:54:09,  3.49it/s] 56%|█████▋    | 209580/371472 [5:37:58<12:42:50,  3.54it/s]                                                            {'loss': 2.9178, 'learning_rate': 4.924421987114568e-07, 'epoch': 9.03}
 56%|█████▋    | 209580/371472 [5:37:58<12:42:50,  3.54it/s] 56%|█████▋    | 209581/371472 [5:37:58<12:14:48,  3.67it/s] 56%|█████▋    | 209582/371472 [5:37:59<12:21:35,  3.64it/s] 56%|█████▋    | 209583/371472 [5:37:59<12:36:29,  3.57it/s] 56%|█████▋    | 209584/371472 [5:37:59<12:22:30,  3.63it/s] 56%|█████▋    | 209585/371472 [5:37:59<13:18:57,  3.38it/s] 56%|█████▋    | 209586/371472 [5:38:00<13:11:10,  3.41it/s] 56%|█████▋    | 209587/371472 [5:38:00<13:06:19,  3.43it/s] 56%|█████▋    | 209588/371472 [5:38:00<13:19:49,  3.37it/s] 56%|█████▋    | 209589/371472 [5:38:01<13:32:09,  3.32it/s] 56%|█████▋    | 209590/371472 [5:38:01<13:46:13,  3.27it/s] 56%|█████▋    | 209591/371472 [5:38:01<14:20:24,  3.14it/s] 56%|█████▋    | 209592/371472 [5:38:02<14:46:30,  3.04it/s] 56%|█████▋    | 209593/371472 [5:38:02<14:09:38,  3.18it/s] 56%|█████▋    | 209594/371472 [5:38:02<13:26:08,  3.35it/s] 56%|█████▋    | 209595/371472 [5:38:02<13:27:29,  3.34it/s] 56%|█████▋    | 209596/371472 [5:38:03<13:06:44,  3.43it/s] 56%|█████▋    | 209597/371472 [5:38:03<13:03:30,  3.44it/s] 56%|█████▋    | 209598/371472 [5:38:03<13:12:37,  3.40it/s] 56%|█████▋    | 209599/371472 [5:38:04<12:56:51,  3.47it/s] 56%|█████▋    | 209600/371472 [5:38:04<13:39:10,  3.29it/s]                                                            {'loss': 2.8849, 'learning_rate': 4.923937167359779e-07, 'epoch': 9.03}
 56%|█████▋    | 209600/371472 [5:38:04<13:39:10,  3.29it/s] 56%|█████▋    | 209601/371472 [5:38:04<13:23:44,  3.36it/s] 56%|█████▋    | 209602/371472 [5:38:04<12:48:04,  3.51it/s] 56%|█████▋    | 209603/371472 [5:38:05<15:20:59,  2.93it/s] 56%|█████▋    | 209604/371472 [5:38:05<14:15:49,  3.15it/s] 56%|█████▋    | 209605/371472 [5:38:05<13:39:04,  3.29it/s] 56%|█████▋    | 209606/371472 [5:38:06<13:14:29,  3.40it/s] 56%|█████▋    | 209607/371472 [5:38:06<12:42:28,  3.54it/s] 56%|█████▋    | 209608/371472 [5:38:06<12:53:20,  3.49it/s] 56%|█████▋    | 209609/371472 [5:38:07<13:14:32,  3.40it/s] 56%|█████▋    | 209610/371472 [5:38:07<13:58:03,  3.22it/s] 56%|█████▋    | 209611/371472 [5:38:07<13:56:57,  3.22it/s] 56%|█████▋    | 209612/371472 [5:38:08<13:11:43,  3.41it/s] 56%|█████▋    | 209613/371472 [5:38:08<12:48:52,  3.51it/s] 56%|█████▋    | 209614/371472 [5:38:08<13:38:44,  3.29it/s] 56%|█████▋    | 209615/371472 [5:38:08<13:21:53,  3.36it/s] 56%|█████▋    | 209616/371472 [5:38:09<13:11:17,  3.41it/s] 56%|█████▋    | 209617/371472 [5:38:09<13:29:37,  3.33it/s] 56%|█████▋    | 209618/371472 [5:38:09<13:02:11,  3.45it/s] 56%|█████▋    | 209619/371472 [5:38:10<13:05:12,  3.44it/s] 56%|█████▋    | 209620/371472 [5:38:10<12:59:45,  3.46it/s]                                                            {'loss': 3.0896, 'learning_rate': 4.92345234760499e-07, 'epoch': 9.03}
 56%|█████▋    | 209620/371472 [5:38:10<12:59:45,  3.46it/s] 56%|█████▋    | 209621/371472 [5:38:10<13:56:19,  3.23it/s] 56%|█████▋    | 209622/371472 [5:38:11<13:17:36,  3.38it/s] 56%|█████▋    | 209623/371472 [5:38:11<13:09:15,  3.42it/s] 56%|█████▋    | 209624/371472 [5:38:11<14:48:20,  3.04it/s] 56%|█████▋    | 209625/371472 [5:38:11<13:45:18,  3.27it/s] 56%|█████▋    | 209626/371472 [5:38:12<13:09:36,  3.42it/s] 56%|█████▋    | 209627/371472 [5:38:12<12:59:45,  3.46it/s] 56%|█████▋    | 209628/371472 [5:38:12<13:20:13,  3.37it/s] 56%|█████▋    | 209629/371472 [5:38:13<13:22:18,  3.36it/s] 56%|█████▋    | 209630/371472 [5:38:13<13:24:47,  3.35it/s] 56%|█████▋    | 209631/371472 [5:38:13<13:14:44,  3.39it/s] 56%|█████▋    | 209632/371472 [5:38:13<13:00:00,  3.46it/s] 56%|█████▋    | 209633/371472 [5:38:14<13:20:16,  3.37it/s] 56%|█████▋    | 209634/371472 [5:38:14<14:54:57,  3.01it/s] 56%|█████▋    | 209635/371472 [5:38:14<14:03:09,  3.20it/s] 56%|█████▋    | 209636/371472 [5:38:15<13:45:51,  3.27it/s] 56%|█████▋    | 209637/371472 [5:38:15<13:54:30,  3.23it/s] 56%|█████▋    | 209638/371472 [5:38:15<14:24:44,  3.12it/s] 56%|█████▋    | 209639/371472 [5:38:16<14:16:01,  3.15it/s] 56%|█████▋    | 209640/371472 [5:38:16<13:30:43,  3.33it/s]                                                            {'loss': 2.9484, 'learning_rate': 4.922967527850202e-07, 'epoch': 9.03}
 56%|█████▋    | 209640/371472 [5:38:16<13:30:43,  3.33it/s] 56%|█████▋    | 209641/371472 [5:38:16<13:03:23,  3.44it/s] 56%|█████▋    | 209642/371472 [5:38:17<12:39:26,  3.55it/s] 56%|█████▋    | 209643/371472 [5:38:17<12:48:28,  3.51it/s] 56%|█████▋    | 209644/371472 [5:38:17<12:33:42,  3.58it/s] 56%|█████▋    | 209645/371472 [5:38:17<13:32:02,  3.32it/s] 56%|█████▋    | 209646/371472 [5:38:18<13:21:59,  3.36it/s] 56%|█████▋    | 209647/371472 [5:38:18<13:11:49,  3.41it/s] 56%|█████▋    | 209648/371472 [5:38:18<12:55:49,  3.48it/s] 56%|█████▋    | 209649/371472 [5:38:19<12:31:20,  3.59it/s] 56%|█████▋    | 209650/371472 [5:38:19<13:11:06,  3.41it/s] 56%|█████▋    | 209651/371472 [5:38:19<12:50:03,  3.50it/s] 56%|█████▋    | 209652/371472 [5:38:19<12:56:00,  3.48it/s] 56%|█████▋    | 209653/371472 [5:38:20<13:08:28,  3.42it/s] 56%|█████▋    | 209654/371472 [5:38:20<12:47:46,  3.51it/s] 56%|█████▋    | 209655/371472 [5:38:20<12:38:45,  3.55it/s] 56%|█████▋    | 209656/371472 [5:38:21<12:16:40,  3.66it/s] 56%|█████▋    | 209657/371472 [5:38:21<13:07:34,  3.42it/s] 56%|█████▋    | 209658/371472 [5:38:21<13:42:22,  3.28it/s] 56%|█████▋    | 209659/371472 [5:38:21<13:35:43,  3.31it/s] 56%|█████▋    | 209660/371472 [5:38:22<13:19:52,  3.37it/s]                                                            {'loss': 3.0106, 'learning_rate': 4.922482708095413e-07, 'epoch': 9.03}
 56%|█████▋    | 209660/371472 [5:38:22<13:19:52,  3.37it/s] 56%|█████▋    | 209661/371472 [5:38:22<13:03:57,  3.44it/s] 56%|█████▋    | 209662/371472 [5:38:22<13:20:21,  3.37it/s] 56%|█████▋    | 209663/371472 [5:38:23<14:09:08,  3.18it/s] 56%|█████▋    | 209664/371472 [5:38:23<13:46:52,  3.26it/s] 56%|█████▋    | 209665/371472 [5:38:23<14:22:50,  3.13it/s] 56%|█████▋    | 209666/371472 [5:38:24<13:41:59,  3.28it/s] 56%|█████▋    | 209667/371472 [5:38:24<13:20:45,  3.37it/s] 56%|█████▋    | 209668/371472 [5:38:24<13:55:23,  3.23it/s] 56%|█████▋    | 209669/371472 [5:38:25<13:34:51,  3.31it/s] 56%|█████▋    | 209670/371472 [5:38:25<13:01:35,  3.45it/s] 56%|█████▋    | 209671/371472 [5:38:25<12:41:47,  3.54it/s] 56%|█████▋    | 209672/371472 [5:38:25<12:20:27,  3.64it/s] 56%|█████▋    | 209673/371472 [5:38:26<11:58:40,  3.75it/s] 56%|█████▋    | 209674/371472 [5:38:26<12:14:37,  3.67it/s] 56%|█████▋    | 209675/371472 [5:38:26<11:58:34,  3.75it/s] 56%|█████▋    | 209676/371472 [5:38:26<11:55:40,  3.77it/s] 56%|█████▋    | 209677/371472 [5:38:27<12:55:01,  3.48it/s] 56%|█████▋    | 209678/371472 [5:38:27<12:42:09,  3.54it/s] 56%|█████▋    | 209679/371472 [5:38:27<12:48:46,  3.51it/s] 56%|█████▋    | 209680/371472 [5:38:28<12:26:15,  3.61it/s]                                                            {'loss': 2.9353, 'learning_rate': 4.921997888340623e-07, 'epoch': 9.03}
 56%|█████▋    | 209680/371472 [5:38:28<12:26:15,  3.61it/s] 56%|█████▋    | 209681/371472 [5:38:28<12:25:05,  3.62it/s] 56%|█████▋    | 209682/371472 [5:38:28<13:39:25,  3.29it/s] 56%|█████▋    | 209683/371472 [5:38:28<13:15:56,  3.39it/s] 56%|█████▋    | 209684/371472 [5:38:29<13:01:09,  3.45it/s] 56%|█████▋    | 209685/371472 [5:38:29<12:39:38,  3.55it/s] 56%|█████▋    | 209686/371472 [5:38:29<12:39:24,  3.55it/s] 56%|█████▋    | 209687/371472 [5:38:30<12:34:46,  3.57it/s] 56%|█████▋    | 209688/371472 [5:38:30<12:34:09,  3.58it/s] 56%|█████▋    | 209689/371472 [5:38:30<13:02:13,  3.45it/s] 56%|█████▋    | 209690/371472 [5:38:30<12:31:23,  3.59it/s] 56%|█████▋    | 209691/371472 [5:38:31<12:49:25,  3.50it/s] 56%|█████▋    | 209692/371472 [5:38:31<12:21:58,  3.63it/s] 56%|█████▋    | 209693/371472 [5:38:31<12:17:16,  3.66it/s] 56%|█████▋    | 209694/371472 [5:38:31<12:01:11,  3.74it/s] 56%|█████▋    | 209695/371472 [5:38:32<12:28:59,  3.60it/s] 56%|█████▋    | 209696/371472 [5:38:32<12:25:28,  3.62it/s] 56%|█████▋    | 209697/371472 [5:38:32<12:13:59,  3.67it/s] 56%|█████▋    | 209698/371472 [5:38:33<12:49:22,  3.50it/s] 56%|█████▋    | 209699/371472 [5:38:33<12:21:26,  3.64it/s] 56%|█████▋    | 209700/371472 [5:38:33<11:50:57,  3.79it/s]                                                            {'loss': 2.8313, 'learning_rate': 4.921513068585834e-07, 'epoch': 9.03}
 56%|█████▋    | 209700/371472 [5:38:33<11:50:57,  3.79it/s] 56%|█████▋    | 209701/371472 [5:38:33<12:23:03,  3.63it/s] 56%|█████▋    | 209702/371472 [5:38:34<13:12:50,  3.40it/s] 56%|█████▋    | 209703/371472 [5:38:34<13:37:36,  3.30it/s] 56%|█████▋    | 209704/371472 [5:38:34<14:05:22,  3.19it/s] 56%|█████▋    | 209705/371472 [5:38:35<14:36:16,  3.08it/s] 56%|█████▋    | 209706/371472 [5:38:35<13:55:08,  3.23it/s] 56%|█████▋    | 209707/371472 [5:38:35<14:07:46,  3.18it/s] 56%|█████▋    | 209708/371472 [5:38:36<14:03:30,  3.20it/s] 56%|█████▋    | 209709/371472 [5:38:36<13:47:25,  3.26it/s] 56%|█████▋    | 209710/371472 [5:38:36<13:15:47,  3.39it/s] 56%|█████▋    | 209711/371472 [5:38:37<13:11:25,  3.41it/s] 56%|█████▋    | 209712/371472 [5:38:37<13:27:09,  3.34it/s] 56%|█████▋    | 209713/371472 [5:38:37<12:54:19,  3.48it/s] 56%|█████▋    | 209714/371472 [5:38:37<12:46:39,  3.52it/s] 56%|█████▋    | 209715/371472 [5:38:38<12:28:57,  3.60it/s] 56%|█████▋    | 209716/371472 [5:38:38<12:23:32,  3.63it/s] 56%|█████▋    | 209717/371472 [5:38:38<12:03:30,  3.73it/s] 56%|█████▋    | 209718/371472 [5:38:38<11:54:31,  3.77it/s] 56%|█████▋    | 209719/371472 [5:38:39<12:44:08,  3.53it/s] 56%|█████▋    | 209720/371472 [5:38:39<12:44:07,  3.53it/s]                                                            {'loss': 2.9117, 'learning_rate': 4.921028248831046e-07, 'epoch': 9.03}
 56%|█████▋    | 209720/371472 [5:38:39<12:44:07,  3.53it/s] 56%|█████▋    | 209721/371472 [5:38:39<12:26:10,  3.61it/s] 56%|█████▋    | 209722/371472 [5:38:40<12:24:34,  3.62it/s] 56%|█████▋    | 209723/371472 [5:38:40<12:27:00,  3.61it/s] 56%|█████▋    | 209724/371472 [5:38:40<12:17:46,  3.65it/s] 56%|█████▋    | 209725/371472 [5:38:40<13:18:54,  3.37it/s] 56%|█████▋    | 209726/371472 [5:38:41<12:46:36,  3.52it/s] 56%|█████▋    | 209727/371472 [5:38:41<12:29:15,  3.60it/s] 56%|█████▋    | 209728/371472 [5:38:41<12:36:33,  3.56it/s] 56%|█████▋    | 209729/371472 [5:38:42<12:53:12,  3.49it/s] 56%|█████▋    | 209730/371472 [5:38:42<12:23:40,  3.62it/s] 56%|█████▋    | 209731/371472 [5:38:42<12:05:05,  3.72it/s] 56%|█████▋    | 209732/371472 [5:38:42<11:55:45,  3.77it/s] 56%|█████▋    | 209733/371472 [5:38:43<14:49:49,  3.03it/s] 56%|█████▋    | 209734/371472 [5:38:43<15:14:05,  2.95it/s] 56%|█████▋    | 209735/371472 [5:38:43<14:31:32,  3.09it/s] 56%|█████▋    | 209736/371472 [5:38:44<13:48:42,  3.25it/s] 56%|█████▋    | 209737/371472 [5:38:44<13:47:00,  3.26it/s] 56%|█████▋    | 209738/371472 [5:38:44<14:10:47,  3.17it/s] 56%|█████▋    | 209739/371472 [5:38:45<14:03:44,  3.19it/s] 56%|█████▋    | 209740/371472 [5:38:45<13:41:48,  3.28it/s]                                                            {'loss': 2.8589, 'learning_rate': 4.920543429076257e-07, 'epoch': 9.03}
 56%|█████▋    | 209740/371472 [5:38:45<13:41:48,  3.28it/s] 56%|█████▋    | 209741/371472 [5:38:45<13:08:29,  3.42it/s] 56%|█████▋    | 209742/371472 [5:38:46<13:11:02,  3.41it/s] 56%|█████▋    | 209743/371472 [5:38:46<13:01:14,  3.45it/s] 56%|█████▋    | 209744/371472 [5:38:46<13:31:51,  3.32it/s] 56%|█████▋    | 209745/371472 [5:38:46<13:09:39,  3.41it/s] 56%|█████▋    | 209746/371472 [5:38:47<12:59:50,  3.46it/s] 56%|█████▋    | 209747/371472 [5:38:47<13:18:48,  3.37it/s] 56%|█████▋    | 209748/371472 [5:38:47<13:19:05,  3.37it/s] 56%|█████▋    | 209749/371472 [5:38:48<12:32:00,  3.58it/s] 56%|█████▋    | 209750/371472 [5:38:48<12:36:30,  3.56it/s] 56%|█████▋    | 209751/371472 [5:38:48<12:17:42,  3.65it/s] 56%|█████▋    | 209752/371472 [5:38:48<11:57:33,  3.76it/s] 56%|█████▋    | 209753/371472 [5:38:49<12:26:09,  3.61it/s] 56%|█████▋    | 209754/371472 [5:38:49<12:20:36,  3.64it/s] 56%|█████▋    | 209755/371472 [5:38:49<13:50:47,  3.24it/s] 56%|█████▋    | 209756/371472 [5:38:50<13:10:24,  3.41it/s] 56%|█████▋    | 209757/371472 [5:38:50<13:41:52,  3.28it/s] 56%|█████▋    | 209758/371472 [5:38:50<13:52:57,  3.24it/s] 56%|█████▋    | 209759/371472 [5:38:50<13:09:51,  3.41it/s] 56%|█████▋    | 209760/371472 [5:38:51<13:02:36,  3.44it/s]                                                            {'loss': 2.7914, 'learning_rate': 4.920058609321467e-07, 'epoch': 9.03}
 56%|█████▋    | 209760/371472 [5:38:51<13:02:36,  3.44it/s] 56%|█████▋    | 209761/371472 [5:38:51<13:02:41,  3.44it/s] 56%|█████▋    | 209762/371472 [5:38:51<13:02:42,  3.44it/s] 56%|█████▋    | 209763/371472 [5:38:52<13:59:09,  3.21it/s] 56%|█████▋    | 209764/371472 [5:38:52<13:44:21,  3.27it/s] 56%|█████▋    | 209765/371472 [5:38:52<14:17:40,  3.14it/s] 56%|█████▋    | 209766/371472 [5:38:53<15:03:08,  2.98it/s] 56%|█████▋    | 209767/371472 [5:38:53<14:15:16,  3.15it/s] 56%|█████▋    | 209768/371472 [5:38:53<14:26:09,  3.11it/s] 56%|█████▋    | 209769/371472 [5:38:54<13:52:57,  3.24it/s] 56%|█████▋    | 209770/371472 [5:38:54<13:47:44,  3.26it/s] 56%|█████▋    | 209771/371472 [5:38:54<13:29:50,  3.33it/s] 56%|█████▋    | 209772/371472 [5:38:54<13:39:27,  3.29it/s] 56%|█████▋    | 209773/371472 [5:38:55<13:35:30,  3.30it/s] 56%|█████▋    | 209774/371472 [5:38:55<13:08:08,  3.42it/s] 56%|█████▋    | 209775/371472 [5:38:55<13:35:23,  3.31it/s] 56%|█████▋    | 209776/371472 [5:38:56<13:10:19,  3.41it/s] 56%|█████▋    | 209777/371472 [5:38:56<13:05:48,  3.43it/s] 56%|█████▋    | 209778/371472 [5:38:56<13:15:01,  3.39it/s] 56%|█████▋    | 209779/371472 [5:38:56<13:02:45,  3.44it/s] 56%|█████▋    | 209780/371472 [5:38:57<12:34:37,  3.57it/s]                                                            {'loss': 2.7823, 'learning_rate': 4.919573789566679e-07, 'epoch': 9.04}
 56%|█████▋    | 209780/371472 [5:38:57<12:34:37,  3.57it/s] 56%|█████▋    | 209781/371472 [5:38:57<12:32:31,  3.58it/s] 56%|█████▋    | 209782/371472 [5:38:57<12:19:16,  3.65it/s] 56%|█████▋    | 209783/371472 [5:38:58<13:01:19,  3.45it/s] 56%|█████▋    | 209784/371472 [5:38:58<12:43:58,  3.53it/s] 56%|█████▋    | 209785/371472 [5:38:58<13:18:08,  3.38it/s] 56%|█████▋    | 209786/371472 [5:38:59<14:57:56,  3.00it/s] 56%|█████▋    | 209787/371472 [5:38:59<15:35:25,  2.88it/s] 56%|█████▋    | 209788/371472 [5:38:59<14:24:31,  3.12it/s] 56%|█████▋    | 209789/371472 [5:39:00<13:35:06,  3.31it/s] 56%|█████▋    | 209790/371472 [5:39:00<14:02:55,  3.20it/s] 56%|█████▋    | 209791/371472 [5:39:00<13:31:09,  3.32it/s] 56%|█████▋    | 209792/371472 [5:39:00<12:51:57,  3.49it/s] 56%|█████▋    | 209793/371472 [5:39:01<13:36:16,  3.30it/s] 56%|█████▋    | 209794/371472 [5:39:01<13:20:43,  3.37it/s] 56%|█████▋    | 209795/371472 [5:39:01<13:03:33,  3.44it/s] 56%|█████▋    | 209796/371472 [5:39:02<12:25:50,  3.61it/s] 56%|█████▋    | 209797/371472 [5:39:02<12:12:01,  3.68it/s] 56%|█████▋    | 209798/371472 [5:39:02<12:02:45,  3.73it/s] 56%|█████▋    | 209799/371472 [5:39:02<11:46:43,  3.81it/s] 56%|█████▋    | 209800/371472 [5:39:03<11:31:32,  3.90it/s]                                                            {'loss': 2.8432, 'learning_rate': 4.91908896981189e-07, 'epoch': 9.04}
 56%|█████▋    | 209800/371472 [5:39:03<11:31:32,  3.90it/s] 56%|█████▋    | 209801/371472 [5:39:03<11:27:44,  3.92it/s] 56%|█████▋    | 209802/371472 [5:39:03<12:27:47,  3.60it/s] 56%|█████▋    | 209803/371472 [5:39:03<12:08:16,  3.70it/s] 56%|█████▋    | 209804/371472 [5:39:04<12:24:26,  3.62it/s] 56%|█████▋    | 209805/371472 [5:39:04<12:07:29,  3.70it/s] 56%|█████▋    | 209806/371472 [5:39:04<12:24:54,  3.62it/s] 56%|█████▋    | 209807/371472 [5:39:04<12:10:15,  3.69it/s] 56%|█████▋    | 209808/371472 [5:39:05<11:35:08,  3.88it/s] 56%|█████▋    | 209809/371472 [5:39:05<11:37:39,  3.86it/s] 56%|█████▋    | 209810/371472 [5:39:05<12:00:23,  3.74it/s] 56%|█████▋    | 209811/371472 [5:39:06<12:35:32,  3.57it/s] 56%|█████▋    | 209812/371472 [5:39:06<12:03:26,  3.72it/s] 56%|█████▋    | 209813/371472 [5:39:06<12:03:20,  3.72it/s] 56%|█████▋    | 209814/371472 [5:39:06<11:47:43,  3.81it/s] 56%|█████▋    | 209815/371472 [5:39:07<12:46:16,  3.52it/s] 56%|█████▋    | 209816/371472 [5:39:07<12:48:57,  3.50it/s] 56%|█████▋    | 209817/371472 [5:39:07<12:19:11,  3.64it/s] 56%|█████▋    | 209818/371472 [5:39:07<12:06:24,  3.71it/s] 56%|█████▋    | 209819/371472 [5:39:08<12:29:33,  3.59it/s] 56%|█████▋    | 209820/371472 [5:39:08<12:11:00,  3.69it/s]                                                            {'loss': 2.92, 'learning_rate': 4.9186041500571e-07, 'epoch': 9.04}
 56%|█████▋    | 209820/371472 [5:39:08<12:11:00,  3.69it/s] 56%|█████▋    | 209821/371472 [5:39:08<11:53:05,  3.78it/s] 56%|█████▋    | 209822/371472 [5:39:09<12:18:55,  3.65it/s] 56%|█████▋    | 209823/371472 [5:39:09<11:43:10,  3.83it/s] 56%|█████▋    | 209824/371472 [5:39:09<12:14:23,  3.67it/s] 56%|█████▋    | 209825/371472 [5:39:09<11:49:47,  3.80it/s] 56%|█████▋    | 209826/371472 [5:39:10<11:51:51,  3.78it/s] 56%|█████▋    | 209827/371472 [5:39:10<11:27:09,  3.92it/s] 56%|█████▋    | 209828/371472 [5:39:10<11:57:41,  3.75it/s] 56%|█████▋    | 209829/371472 [5:39:10<11:48:54,  3.80it/s] 56%|█████▋    | 209830/371472 [5:39:11<12:11:40,  3.68it/s] 56%|█████▋    | 209831/371472 [5:39:11<12:12:36,  3.68it/s] 56%|█████▋    | 209832/371472 [5:39:11<11:50:38,  3.79it/s] 56%|█████▋    | 209833/371472 [5:39:12<13:06:12,  3.43it/s] 56%|█████▋    | 209834/371472 [5:39:12<13:00:35,  3.45it/s] 56%|█████▋    | 209835/371472 [5:39:12<13:07:23,  3.42it/s] 56%|█████▋    | 209836/371472 [5:39:12<13:16:33,  3.38it/s] 56%|█████▋    | 209837/371472 [5:39:13<13:13:25,  3.40it/s] 56%|█████▋    | 209838/371472 [5:39:13<13:15:45,  3.39it/s] 56%|█████▋    | 209839/371472 [5:39:13<13:08:31,  3.42it/s] 56%|█████▋    | 209840/371472 [5:39:14<13:00:05,  3.45it/s]                                                            {'loss': 3.016, 'learning_rate': 4.918119330302311e-07, 'epoch': 9.04}
 56%|█████▋    | 209840/371472 [5:39:14<13:00:05,  3.45it/s] 56%|█████▋    | 209841/371472 [5:39:14<13:00:10,  3.45it/s] 56%|█████▋    | 209842/371472 [5:39:14<12:53:08,  3.48it/s] 56%|█████▋    | 209843/371472 [5:39:14<12:33:02,  3.58it/s] 56%|█████▋    | 209844/371472 [5:39:15<12:32:18,  3.58it/s] 56%|█████▋    | 209845/371472 [5:39:15<12:18:12,  3.65it/s] 56%|█████▋    | 209846/371472 [5:39:15<12:57:26,  3.46it/s] 56%|█████▋    | 209847/371472 [5:39:16<13:10:40,  3.41it/s] 56%|█████▋    | 209848/371472 [5:39:16<13:04:44,  3.43it/s] 56%|█████▋    | 209849/371472 [5:39:16<12:52:06,  3.49it/s] 56%|█████▋    | 209850/371472 [5:39:16<12:22:33,  3.63it/s] 56%|█████▋    | 209851/371472 [5:39:17<12:35:31,  3.57it/s] 56%|█████▋    | 209852/371472 [5:39:17<13:16:40,  3.38it/s] 56%|█████▋    | 209853/371472 [5:39:17<13:22:15,  3.36it/s] 56%|█████▋    | 209854/371472 [5:39:18<13:33:30,  3.31it/s] 56%|█████▋    | 209855/371472 [5:39:18<13:14:28,  3.39it/s] 56%|█████▋    | 209856/371472 [5:39:18<13:01:18,  3.45it/s] 56%|█████▋    | 209857/371472 [5:39:18<12:59:28,  3.46it/s] 56%|█████▋    | 209858/371472 [5:39:19<12:23:27,  3.62it/s] 56%|█████▋    | 209859/371472 [5:39:19<12:18:30,  3.65it/s] 56%|█████▋    | 209860/371472 [5:39:19<12:29:35,  3.59it/s]                                                            {'loss': 2.9193, 'learning_rate': 4.917634510547523e-07, 'epoch': 9.04}
 56%|█████▋    | 209860/371472 [5:39:19<12:29:35,  3.59it/s] 56%|█████▋    | 209861/371472 [5:39:20<12:33:04,  3.58it/s] 56%|█████▋    | 209862/371472 [5:39:20<12:25:30,  3.61it/s] 56%|█████▋    | 209863/371472 [5:39:20<12:33:36,  3.57it/s] 56%|█████▋    | 209864/371472 [5:39:20<12:16:05,  3.66it/s] 56%|█████▋    | 209865/371472 [5:39:21<12:09:03,  3.69it/s] 56%|█████▋    | 209866/371472 [5:39:21<12:27:03,  3.61it/s] 56%|█████▋    | 209867/371472 [5:39:21<12:09:52,  3.69it/s] 56%|█████▋    | 209868/371472 [5:39:21<12:10:20,  3.69it/s] 56%|█████▋    | 209869/371472 [5:39:22<13:26:59,  3.34it/s] 56%|█████▋    | 209870/371472 [5:39:22<13:20:11,  3.37it/s] 56%|█████▋    | 209871/371472 [5:39:22<14:19:56,  3.13it/s] 56%|█████▋    | 209872/371472 [5:39:23<14:11:08,  3.16it/s] 56%|█████▋    | 209873/371472 [5:39:23<13:43:44,  3.27it/s] 56%|█████▋    | 209874/371472 [5:39:23<12:58:33,  3.46it/s] 56%|█████▋    | 209875/371472 [5:39:24<12:43:26,  3.53it/s] 56%|█████▋    | 209876/371472 [5:39:24<12:55:52,  3.47it/s] 56%|█████▋    | 209877/371472 [5:39:24<12:30:52,  3.59it/s] 56%|█████▋    | 209878/371472 [5:39:24<12:29:34,  3.59it/s] 56%|█████▋    | 209879/371472 [5:39:25<12:15:48,  3.66it/s] 56%|█████▋    | 209880/371472 [5:39:25<12:12:46,  3.68it/s]                                                            {'loss': 2.9685, 'learning_rate': 4.917149690792734e-07, 'epoch': 9.04}
 56%|█████▋    | 209880/371472 [5:39:25<12:12:46,  3.68it/s] 56%|█████▋    | 209881/371472 [5:39:25<12:23:32,  3.62it/s] 57%|█████▋    | 209882/371472 [5:39:26<12:27:25,  3.60it/s] 57%|█████▋    | 209883/371472 [5:39:26<13:13:29,  3.39it/s] 57%|█████▋    | 209884/371472 [5:39:26<12:59:40,  3.45it/s] 57%|█████▋    | 209885/371472 [5:39:26<12:31:56,  3.58it/s] 57%|█████▋    | 209886/371472 [5:39:27<12:30:12,  3.59it/s] 57%|█████▋    | 209887/371472 [5:39:27<13:15:04,  3.39it/s] 57%|█████▋    | 209888/371472 [5:39:27<13:15:42,  3.38it/s] 57%|█████▋    | 209889/371472 [5:39:28<13:07:00,  3.42it/s] 57%|█████▋    | 209890/371472 [5:39:28<13:13:03,  3.40it/s] 57%|█████▋    | 209891/371472 [5:39:28<12:31:29,  3.58it/s] 57%|█████▋    | 209892/371472 [5:39:28<13:02:57,  3.44it/s] 57%|█████▋    | 209893/371472 [5:39:29<12:26:15,  3.61it/s] 57%|█████▋    | 209894/371472 [5:39:29<12:21:14,  3.63it/s] 57%|█████▋    | 209895/371472 [5:39:29<12:35:40,  3.56it/s] 57%|█████▋    | 209896/371472 [5:39:30<12:18:45,  3.65it/s] 57%|█████▋    | 209897/371472 [5:39:30<12:39:54,  3.54it/s] 57%|█████▋    | 209898/371472 [5:39:30<12:36:03,  3.56it/s] 57%|█████▋    | 209899/371472 [5:39:30<12:09:52,  3.69it/s] 57%|█████▋    | 209900/371472 [5:39:31<11:56:56,  3.76it/s]                                                            {'loss': 2.8352, 'learning_rate': 4.916664871037945e-07, 'epoch': 9.04}
 57%|█████▋    | 209900/371472 [5:39:31<11:56:56,  3.76it/s] 57%|█████▋    | 209901/371472 [5:39:31<12:40:45,  3.54it/s] 57%|█████▋    | 209902/371472 [5:39:31<12:27:00,  3.60it/s] 57%|█████▋    | 209903/371472 [5:39:31<12:09:51,  3.69it/s] 57%|█████▋    | 209904/371472 [5:39:32<12:11:55,  3.68it/s] 57%|█████▋    | 209905/371472 [5:39:32<12:56:41,  3.47it/s] 57%|█████▋    | 209906/371472 [5:39:32<12:54:11,  3.48it/s] 57%|█████▋    | 209907/371472 [5:39:33<13:06:57,  3.42it/s] 57%|█████▋    | 209908/371472 [5:39:33<12:53:24,  3.48it/s] 57%|█████▋    | 209909/371472 [5:39:33<12:35:38,  3.56it/s] 57%|█████▋    | 209910/371472 [5:39:33<12:56:07,  3.47it/s] 57%|█████▋    | 209911/371472 [5:39:34<12:59:44,  3.45it/s] 57%|█████▋    | 209912/371472 [5:39:34<12:41:53,  3.53it/s] 57%|█████▋    | 209913/371472 [5:39:34<12:55:34,  3.47it/s] 57%|█████▋    | 209914/371472 [5:39:35<12:28:43,  3.60it/s] 57%|█████▋    | 209915/371472 [5:39:35<12:43:19,  3.53it/s] 57%|█████▋    | 209916/371472 [5:39:35<12:20:37,  3.64it/s] 57%|█████▋    | 209917/371472 [5:39:35<11:58:42,  3.75it/s] 57%|█████▋    | 209918/371472 [5:39:36<11:56:53,  3.76it/s] 57%|█████▋    | 209919/371472 [5:39:36<11:44:49,  3.82it/s] 57%|█████▋    | 209920/371472 [5:39:36<12:03:26,  3.72it/s]                                                            {'loss': 3.0885, 'learning_rate': 4.916180051283156e-07, 'epoch': 9.04}
 57%|█████▋    | 209920/371472 [5:39:36<12:03:26,  3.72it/s] 57%|█████▋    | 209921/371472 [5:39:36<12:13:10,  3.67it/s] 57%|█████▋    | 209922/371472 [5:39:37<13:19:32,  3.37it/s] 57%|█████▋    | 209923/371472 [5:39:37<12:43:23,  3.53it/s] 57%|█████▋    | 209924/371472 [5:39:37<12:21:29,  3.63it/s] 57%|█████▋    | 209925/371472 [5:39:38<11:57:35,  3.75it/s] 57%|█████▋    | 209926/371472 [5:39:38<12:37:12,  3.56it/s] 57%|█████▋    | 209927/371472 [5:39:38<12:28:43,  3.60it/s] 57%|█████▋    | 209928/371472 [5:39:38<12:05:44,  3.71it/s] 57%|█████▋    | 209929/371472 [5:39:39<12:11:22,  3.68it/s] 57%|█████▋    | 209930/371472 [5:39:39<12:08:37,  3.70it/s] 57%|█████▋    | 209931/371472 [5:39:39<12:15:12,  3.66it/s] 57%|█████▋    | 209932/371472 [5:39:40<11:58:23,  3.75it/s] 57%|█████▋    | 209933/371472 [5:39:40<11:37:09,  3.86it/s] 57%|█████▋    | 209934/371472 [5:39:40<11:59:56,  3.74it/s] 57%|█████▋    | 209935/371472 [5:39:40<12:39:51,  3.54it/s] 57%|█████▋    | 209936/371472 [5:39:41<12:45:57,  3.51it/s] 57%|█████▋    | 209937/371472 [5:39:41<13:01:21,  3.45it/s] 57%|█████▋    | 209938/371472 [5:39:41<12:41:27,  3.54it/s] 57%|█████▋    | 209939/371472 [5:39:41<12:18:10,  3.65it/s] 57%|█████▋    | 209940/371472 [5:39:42<12:59:39,  3.45it/s]                                                            {'loss': 2.9324, 'learning_rate': 4.915695231528367e-07, 'epoch': 9.04}
 57%|█████▋    | 209940/371472 [5:39:42<12:59:39,  3.45it/s] 57%|█████▋    | 209941/371472 [5:39:42<12:59:10,  3.46it/s] 57%|█████▋    | 209942/371472 [5:39:42<13:10:16,  3.41it/s] 57%|█████▋    | 209943/371472 [5:39:43<12:49:13,  3.50it/s] 57%|█████▋    | 209944/371472 [5:39:43<12:49:43,  3.50it/s] 57%|█████▋    | 209945/371472 [5:39:43<12:47:24,  3.51it/s] 57%|█████▋    | 209946/371472 [5:39:44<13:15:21,  3.38it/s] 57%|█████▋    | 209947/371472 [5:39:44<13:09:42,  3.41it/s] 57%|█████▋    | 209948/371472 [5:39:44<13:54:11,  3.23it/s] 57%|█████▋    | 209949/371472 [5:39:45<14:12:30,  3.16it/s] 57%|█████▋    | 209950/371472 [5:39:45<13:31:39,  3.32it/s] 57%|█████▋    | 209951/371472 [5:39:45<13:14:45,  3.39it/s] 57%|█████▋    | 209952/371472 [5:39:45<12:59:04,  3.46it/s] 57%|█████▋    | 209953/371472 [5:39:46<12:28:26,  3.60it/s] 57%|█████▋    | 209954/371472 [5:39:46<12:18:22,  3.65it/s] 57%|█████▋    | 209955/371472 [5:39:46<12:16:45,  3.65it/s] 57%|█████▋    | 209956/371472 [5:39:46<12:03:49,  3.72it/s] 57%|█████▋    | 209957/371472 [5:39:47<12:16:56,  3.65it/s] 57%|█████▋    | 209958/371472 [5:39:47<12:43:10,  3.53it/s] 57%|█████▋    | 209959/371472 [5:39:47<12:37:20,  3.55it/s] 57%|█████▋    | 209960/371472 [5:39:48<13:01:55,  3.44it/s]                                                            {'loss': 2.8955, 'learning_rate': 4.915210411773578e-07, 'epoch': 9.04}
 57%|█████▋    | 209960/371472 [5:39:48<13:01:55,  3.44it/s] 57%|█████▋    | 209961/371472 [5:39:48<13:23:51,  3.35it/s] 57%|█████▋    | 209962/371472 [5:39:48<13:04:52,  3.43it/s] 57%|█████▋    | 209963/371472 [5:39:48<13:02:31,  3.44it/s] 57%|█████▋    | 209964/371472 [5:39:49<12:40:15,  3.54it/s] 57%|█████▋    | 209965/371472 [5:39:49<12:23:37,  3.62it/s] 57%|█████▋    | 209966/371472 [5:39:49<12:25:58,  3.61it/s] 57%|█████▋    | 209967/371472 [5:39:50<12:16:02,  3.66it/s] 57%|█████▋    | 209968/371472 [5:39:50<12:02:18,  3.73it/s] 57%|█████▋    | 209969/371472 [5:39:50<12:36:55,  3.56it/s] 57%|█████▋    | 209970/371472 [5:39:50<12:33:10,  3.57it/s] 57%|█████▋    | 209971/371472 [5:39:51<12:25:51,  3.61it/s] 57%|█████▋    | 209972/371472 [5:39:51<12:17:07,  3.65it/s] 57%|█████▋    | 209973/371472 [5:39:51<12:18:34,  3.64it/s] 57%|█████▋    | 209974/371472 [5:39:51<12:31:23,  3.58it/s] 57%|█████▋    | 209975/371472 [5:39:52<12:25:01,  3.61it/s] 57%|█████▋    | 209976/371472 [5:39:52<12:15:14,  3.66it/s] 57%|█████▋    | 209977/371472 [5:39:52<12:42:35,  3.53it/s] 57%|█████▋    | 209978/371472 [5:39:53<12:40:29,  3.54it/s] 57%|█████▋    | 209979/371472 [5:39:53<12:30:06,  3.59it/s] 57%|█████▋    | 209980/371472 [5:39:53<13:29:47,  3.32it/s]                                                            {'loss': 2.8243, 'learning_rate': 4.914725592018789e-07, 'epoch': 9.04}
 57%|█████▋    | 209980/371472 [5:39:53<13:29:47,  3.32it/s] 57%|█████▋    | 209981/371472 [5:39:54<13:50:19,  3.24it/s] 57%|█████▋    | 209982/371472 [5:39:54<13:41:05,  3.28it/s] 57%|█████▋    | 209983/371472 [5:39:54<13:04:10,  3.43it/s] 57%|█████▋    | 209984/371472 [5:39:54<12:46:37,  3.51it/s] 57%|█████▋    | 209985/371472 [5:39:55<12:36:21,  3.56it/s] 57%|█████▋    | 209986/371472 [5:39:55<12:26:11,  3.61it/s] 57%|█████▋    | 209987/371472 [5:39:55<12:24:10,  3.62it/s] 57%|█████▋    | 209988/371472 [5:39:55<12:22:43,  3.62it/s] 57%|█████▋    | 209989/371472 [5:39:56<12:29:19,  3.59it/s] 57%|█████▋    | 209990/371472 [5:39:56<12:22:25,  3.63it/s] 57%|█████▋    | 209991/371472 [5:39:56<12:14:48,  3.66it/s] 57%|█████▋    | 209992/371472 [5:39:57<12:03:54,  3.72it/s] 57%|█████▋    | 209993/371472 [5:39:57<12:49:16,  3.50it/s] 57%|█████▋    | 209994/371472 [5:39:57<13:52:25,  3.23it/s] 57%|█████▋    | 209995/371472 [5:39:57<13:27:32,  3.33it/s] 57%|█████▋    | 209996/371472 [5:39:58<14:24:48,  3.11it/s] 57%|█████▋    | 209997/371472 [5:39:58<14:20:12,  3.13it/s] 57%|█████▋    | 209998/371472 [5:39:58<13:38:53,  3.29it/s] 57%|█████▋    | 209999/371472 [5:39:59<14:09:00,  3.17it/s] 57%|█████▋    | 210000/371472 [5:39:59<13:17:16,  3.38it/s]                                                            {'loss': 2.7982, 'learning_rate': 4.914240772264e-07, 'epoch': 9.05}
 57%|█████▋    | 210000/371472 [5:39:59<13:17:16,  3.38it/s] 57%|█████▋    | 210001/371472 [5:39:59<12:48:09,  3.50it/s] 57%|█████▋    | 210002/371472 [5:40:00<13:15:01,  3.38it/s] 57%|█████▋    | 210003/371472 [5:40:00<12:54:57,  3.47it/s] 57%|█████▋    | 210004/371472 [5:40:00<12:39:18,  3.54it/s] 57%|█████▋    | 210005/371472 [5:40:00<12:41:03,  3.54it/s] 57%|█████▋    | 210006/371472 [5:40:01<12:08:55,  3.69it/s] 57%|█████▋    | 210007/371472 [5:40:01<12:26:35,  3.60it/s] 57%|█████▋    | 210008/371472 [5:40:01<12:06:25,  3.70it/s] 57%|█████▋    | 210009/371472 [5:40:02<13:36:41,  3.30it/s] 57%|█████▋    | 210010/371472 [5:40:02<13:28:35,  3.33it/s] 57%|█████▋    | 210011/371472 [5:40:02<13:03:57,  3.43it/s] 57%|█████▋    | 210012/371472 [5:40:02<12:45:52,  3.51it/s] 57%|█████▋    | 210013/371472 [5:40:03<12:30:04,  3.59it/s] 57%|█████▋    | 210014/371472 [5:40:03<12:55:03,  3.47it/s] 57%|█████▋    | 210015/371472 [5:40:03<13:16:47,  3.38it/s] 57%|█████▋    | 210016/371472 [5:40:04<13:26:25,  3.34it/s] 57%|█████▋    | 210017/371472 [5:40:04<13:50:46,  3.24it/s] 57%|█████▋    | 210018/371472 [5:40:04<14:14:14,  3.15it/s] 57%|█████▋    | 210019/371472 [5:40:05<13:34:12,  3.30it/s] 57%|█████▋    | 210020/371472 [5:40:05<13:40:29,  3.28it/s]                                                            {'loss': 3.0093, 'learning_rate': 4.913755952509212e-07, 'epoch': 9.05}
 57%|█████▋    | 210020/371472 [5:40:05<13:40:29,  3.28it/s] 57%|█████▋    | 210021/371472 [5:40:05<13:37:38,  3.29it/s] 57%|█████▋    | 210022/371472 [5:40:06<14:04:30,  3.19it/s] 57%|█████▋    | 210023/371472 [5:40:06<13:27:41,  3.33it/s] 57%|█████▋    | 210024/371472 [5:40:06<12:51:31,  3.49it/s] 57%|█████▋    | 210025/371472 [5:40:06<12:48:33,  3.50it/s] 57%|█████▋    | 210026/371472 [5:40:07<13:21:26,  3.36it/s] 57%|█████▋    | 210027/371472 [5:40:07<13:19:25,  3.37it/s] 57%|█████▋    | 210028/371472 [5:40:07<12:56:21,  3.47it/s] 57%|█████▋    | 210029/371472 [5:40:07<12:41:35,  3.53it/s] 57%|█████▋    | 210030/371472 [5:40:08<12:37:01,  3.55it/s] 57%|█████▋    | 210031/371472 [5:40:08<12:06:38,  3.70it/s] 57%|█████▋    | 210032/371472 [5:40:08<12:10:43,  3.68it/s] 57%|█████▋    | 210033/371472 [5:40:09<12:05:40,  3.71it/s] 57%|█████▋    | 210034/371472 [5:40:09<12:33:26,  3.57it/s] 57%|█████▋    | 210035/371472 [5:40:09<12:34:46,  3.56it/s] 57%|█████▋    | 210036/371472 [5:40:09<12:31:17,  3.58it/s] 57%|█████▋    | 210037/371472 [5:40:10<12:27:53,  3.60it/s] 57%|█████▋    | 210038/371472 [5:40:10<12:14:09,  3.66it/s] 57%|█████▋    | 210039/371472 [5:40:10<12:49:11,  3.50it/s] 57%|█████▋    | 210040/371472 [5:40:11<12:56:06,  3.47it/s]                                                            {'loss': 3.0934, 'learning_rate': 4.913271132754423e-07, 'epoch': 9.05}
 57%|█████▋    | 210040/371472 [5:40:11<12:56:06,  3.47it/s] 57%|█████▋    | 210041/371472 [5:40:11<12:49:32,  3.50it/s] 57%|█████▋    | 210042/371472 [5:40:11<12:42:53,  3.53it/s] 57%|█████▋    | 210043/371472 [5:40:11<12:44:36,  3.52it/s] 57%|█████▋    | 210044/371472 [5:40:12<12:43:47,  3.52it/s] 57%|█████▋    | 210045/371472 [5:40:12<12:26:04,  3.61it/s] 57%|█████▋    | 210046/371472 [5:40:12<14:33:41,  3.08it/s] 57%|█████▋    | 210047/371472 [5:40:13<13:46:52,  3.25it/s] 57%|█████▋    | 210048/371472 [5:40:13<13:48:29,  3.25it/s] 57%|█████▋    | 210049/371472 [5:40:13<13:08:54,  3.41it/s] 57%|█████▋    | 210050/371472 [5:40:13<12:36:20,  3.56it/s] 57%|█████▋    | 210051/371472 [5:40:14<12:27:27,  3.60it/s] 57%|█████▋    | 210052/371472 [5:40:14<12:20:49,  3.63it/s] 57%|█████▋    | 210053/371472 [5:40:14<12:43:12,  3.52it/s] 57%|█████▋    | 210054/371472 [5:40:15<11:59:35,  3.74it/s] 57%|█████▋    | 210055/371472 [5:40:15<13:04:23,  3.43it/s] 57%|█████▋    | 210056/371472 [5:40:15<12:25:50,  3.61it/s] 57%|█████▋    | 210057/371472 [5:40:15<12:49:01,  3.50it/s] 57%|█████▋    | 210058/371472 [5:40:16<12:23:42,  3.62it/s] 57%|█████▋    | 210059/371472 [5:40:16<12:04:59,  3.71it/s] 57%|█████▋    | 210060/371472 [5:40:16<12:34:15,  3.57it/s]                                                            {'loss': 2.9015, 'learning_rate': 4.912786312999633e-07, 'epoch': 9.05}
 57%|█████▋    | 210060/371472 [5:40:16<12:34:15,  3.57it/s] 57%|█████▋    | 210061/371472 [5:40:17<13:17:21,  3.37it/s] 57%|█████▋    | 210062/371472 [5:40:17<13:18:05,  3.37it/s] 57%|█████▋    | 210063/371472 [5:40:17<12:51:32,  3.49it/s] 57%|█████▋    | 210064/371472 [5:40:18<14:28:26,  3.10it/s] 57%|█████▋    | 210065/371472 [5:40:18<13:26:51,  3.33it/s] 57%|█████▋    | 210066/371472 [5:40:18<12:41:06,  3.53it/s] 57%|█████▋    | 210067/371472 [5:40:18<13:04:33,  3.43it/s] 57%|█████▋    | 210068/371472 [5:40:19<12:45:40,  3.51it/s] 57%|█████▋    | 210069/371472 [5:40:19<12:31:52,  3.58it/s] 57%|█████▋    | 210070/371472 [5:40:19<12:57:25,  3.46it/s] 57%|█████▋    | 210071/371472 [5:40:19<12:30:27,  3.58it/s] 57%|█████▋    | 210072/371472 [5:40:20<12:22:57,  3.62it/s] 57%|█████▋    | 210073/371472 [5:40:20<12:19:35,  3.64it/s] 57%|█████▋    | 210074/371472 [5:40:20<12:27:37,  3.60it/s] 57%|█████▋    | 210075/371472 [5:40:21<12:28:29,  3.59it/s] 57%|█████▋    | 210076/371472 [5:40:21<12:55:42,  3.47it/s] 57%|█████▋    | 210077/371472 [5:40:21<12:34:11,  3.57it/s] 57%|█████▋    | 210078/371472 [5:40:22<13:57:08,  3.21it/s] 57%|█████▋    | 210079/371472 [5:40:22<13:28:40,  3.33it/s] 57%|█████▋    | 210080/371472 [5:40:22<13:02:20,  3.44it/s]                                                            {'loss': 2.9458, 'learning_rate': 4.912301493244844e-07, 'epoch': 9.05}
 57%|█████▋    | 210080/371472 [5:40:22<13:02:20,  3.44it/s] 57%|█████▋    | 210081/371472 [5:40:22<12:32:25,  3.57it/s] 57%|█████▋    | 210082/371472 [5:40:23<12:07:26,  3.70it/s] 57%|█████▋    | 210083/371472 [5:40:23<12:33:30,  3.57it/s] 57%|█████▋    | 210084/371472 [5:40:23<12:42:06,  3.53it/s] 57%|█████▋    | 210085/371472 [5:40:23<12:40:16,  3.54it/s] 57%|█████▋    | 210086/371472 [5:40:24<12:46:47,  3.51it/s] 57%|█████▋    | 210087/371472 [5:40:24<12:46:01,  3.51it/s] 57%|█████▋    | 210088/371472 [5:40:24<12:43:06,  3.52it/s] 57%|█████▋    | 210089/371472 [5:40:25<12:29:45,  3.59it/s] 57%|█████▋    | 210090/371472 [5:40:25<12:16:16,  3.65it/s] 57%|█████▋    | 210091/371472 [5:40:25<12:07:38,  3.70it/s] 57%|█████▋    | 210092/371472 [5:40:25<12:37:53,  3.55it/s] 57%|█████▋    | 210093/371472 [5:40:26<13:39:28,  3.28it/s] 57%|█████▋    | 210094/371472 [5:40:26<13:10:19,  3.40it/s] 57%|█████▋    | 210095/371472 [5:40:26<12:54:24,  3.47it/s] 57%|█████▋    | 210096/371472 [5:40:27<12:36:54,  3.55it/s] 57%|█████▋    | 210097/371472 [5:40:27<12:43:25,  3.52it/s] 57%|█████▋    | 210098/371472 [5:40:27<13:06:13,  3.42it/s] 57%|█████▋    | 210099/371472 [5:40:27<12:58:58,  3.45it/s] 57%|█████▋    | 210100/371472 [5:40:28<14:15:04,  3.15it/s]                                                            {'loss': 3.0513, 'learning_rate': 4.911816673490056e-07, 'epoch': 9.05}
 57%|█████▋    | 210100/371472 [5:40:28<14:15:04,  3.15it/s] 57%|█████▋    | 210101/371472 [5:40:28<14:09:53,  3.16it/s] 57%|█████▋    | 210102/371472 [5:40:28<14:03:22,  3.19it/s] 57%|█████▋    | 210103/371472 [5:40:29<13:27:09,  3.33it/s] 57%|█████▋    | 210104/371472 [5:40:29<13:45:03,  3.26it/s] 57%|█████▋    | 210105/371472 [5:40:29<13:32:36,  3.31it/s] 57%|█████▋    | 210106/371472 [5:40:30<13:05:17,  3.42it/s] 57%|█████▋    | 210107/371472 [5:40:30<12:53:28,  3.48it/s] 57%|█████▋    | 210108/371472 [5:40:30<12:26:49,  3.60it/s] 57%|█████▋    | 210109/371472 [5:40:31<13:41:34,  3.27it/s] 57%|█████▋    | 210110/371472 [5:40:31<13:19:38,  3.36it/s] 57%|█████▋    | 210111/371472 [5:40:31<12:56:55,  3.46it/s] 57%|█████▋    | 210112/371472 [5:40:31<12:36:31,  3.55it/s] 57%|█████▋    | 210113/371472 [5:40:32<12:50:18,  3.49it/s] 57%|█████▋    | 210114/371472 [5:40:32<13:13:58,  3.39it/s] 57%|█████▋    | 210115/371472 [5:40:32<12:39:34,  3.54it/s] 57%|█████▋    | 210116/371472 [5:40:32<12:31:27,  3.58it/s] 57%|█████▋    | 210117/371472 [5:40:33<12:26:26,  3.60it/s] 57%|█████▋    | 210118/371472 [5:40:33<12:47:53,  3.50it/s] 57%|█████▋    | 210119/371472 [5:40:33<14:10:09,  3.16it/s] 57%|█████▋    | 210120/371472 [5:40:34<13:41:28,  3.27it/s]                                                            {'loss': 2.7846, 'learning_rate': 4.911331853735266e-07, 'epoch': 9.05}
 57%|█████▋    | 210120/371472 [5:40:34<13:41:28,  3.27it/s] 57%|█████▋    | 210121/371472 [5:40:34<14:07:42,  3.17it/s] 57%|█████▋    | 210122/371472 [5:40:34<13:34:07,  3.30it/s] 57%|█████▋    | 210123/371472 [5:40:35<12:59:39,  3.45it/s] 57%|█████▋    | 210124/371472 [5:40:35<12:43:19,  3.52it/s] 57%|█████▋    | 210125/371472 [5:40:35<13:03:31,  3.43it/s] 57%|█████▋    | 210126/371472 [5:40:35<12:46:00,  3.51it/s] 57%|█████▋    | 210127/371472 [5:40:36<13:31:28,  3.31it/s] 57%|█████▋    | 210128/371472 [5:40:36<14:09:31,  3.17it/s] 57%|█████▋    | 210129/371472 [5:40:36<13:23:50,  3.35it/s] 57%|█████▋    | 210130/371472 [5:40:37<12:54:04,  3.47it/s] 57%|█████▋    | 210131/371472 [5:40:37<12:49:12,  3.50it/s] 57%|█████▋    | 210132/371472 [5:40:37<12:36:38,  3.55it/s] 57%|█████▋    | 210133/371472 [5:40:37<12:31:58,  3.58it/s] 57%|█████▋    | 210134/371472 [5:40:38<12:15:20,  3.66it/s] 57%|█████▋    | 210135/371472 [5:40:38<12:18:42,  3.64it/s] 57%|█████▋    | 210136/371472 [5:40:38<12:35:57,  3.56it/s] 57%|█████▋    | 210137/371472 [5:40:39<12:30:11,  3.58it/s] 57%|█████▋    | 210138/371472 [5:40:39<12:13:08,  3.67it/s] 57%|█████▋    | 210139/371472 [5:40:39<12:14:09,  3.66it/s] 57%|█████▋    | 210140/371472 [5:40:39<12:16:47,  3.65it/s]                                                            {'loss': 2.8872, 'learning_rate': 4.910847033980478e-07, 'epoch': 9.05}
 57%|█████▋    | 210140/371472 [5:40:39<12:16:47,  3.65it/s] 57%|█████▋    | 210141/371472 [5:40:40<12:34:32,  3.56it/s] 57%|█████▋    | 210142/371472 [5:40:40<12:08:40,  3.69it/s] 57%|█████▋    | 210143/371472 [5:40:40<12:06:59,  3.70it/s] 57%|█████▋    | 210144/371472 [5:40:40<11:55:10,  3.76it/s] 57%|█████▋    | 210145/371472 [5:40:41<12:02:11,  3.72it/s] 57%|█████▋    | 210146/371472 [5:40:41<12:13:48,  3.66it/s] 57%|█████▋    | 210147/371472 [5:40:41<12:40:56,  3.53it/s] 57%|█████▋    | 210148/371472 [5:40:42<12:25:09,  3.61it/s] 57%|█████▋    | 210149/371472 [5:40:42<12:47:55,  3.50it/s] 57%|█████▋    | 210150/371472 [5:40:42<12:45:44,  3.51it/s] 57%|█████▋    | 210151/371472 [5:40:42<12:18:43,  3.64it/s] 57%|█████▋    | 210152/371472 [5:40:43<12:20:39,  3.63it/s] 57%|█████▋    | 210153/371472 [5:40:43<12:43:52,  3.52it/s] 57%|█████▋    | 210154/371472 [5:40:43<13:06:16,  3.42it/s] 57%|█████▋    | 210155/371472 [5:40:44<12:44:36,  3.52it/s] 57%|█████▋    | 210156/371472 [5:40:44<13:46:18,  3.25it/s] 57%|█████▋    | 210157/371472 [5:40:44<13:05:20,  3.42it/s] 57%|█████▋    | 210158/371472 [5:40:45<13:32:44,  3.31it/s] 57%|█████▋    | 210159/371472 [5:40:45<12:54:40,  3.47it/s] 57%|█████▋    | 210160/371472 [5:40:45<12:54:29,  3.47it/s]                                                            {'loss': 2.7832, 'learning_rate': 4.910362214225689e-07, 'epoch': 9.05}
 57%|█████▋    | 210160/371472 [5:40:45<12:54:29,  3.47it/s] 57%|█████▋    | 210161/371472 [5:40:45<12:33:57,  3.57it/s] 57%|█████▋    | 210162/371472 [5:40:46<12:20:04,  3.63it/s] 57%|█████▋    | 210163/371472 [5:40:46<12:55:24,  3.47it/s] 57%|█████▋    | 210164/371472 [5:40:46<12:38:38,  3.54it/s] 57%|█████▋    | 210165/371472 [5:40:47<13:42:00,  3.27it/s] 57%|█████▋    | 210166/371472 [5:40:47<13:53:47,  3.22it/s] 57%|█████▋    | 210167/371472 [5:40:47<13:43:53,  3.26it/s] 57%|█████▋    | 210168/371472 [5:40:47<12:55:40,  3.47it/s] 57%|█████▋    | 210169/371472 [5:40:48<12:25:37,  3.61it/s] 57%|█████▋    | 210170/371472 [5:40:48<12:32:38,  3.57it/s] 57%|█████▋    | 210171/371472 [5:40:48<12:54:27,  3.47it/s] 57%|█████▋    | 210172/371472 [5:40:49<12:36:49,  3.55it/s] 57%|█████▋    | 210173/371472 [5:40:49<12:36:34,  3.55it/s] 57%|█████▋    | 210174/371472 [5:40:49<12:12:39,  3.67it/s] 57%|█████▋    | 210175/371472 [5:40:49<12:23:40,  3.61it/s] 57%|█████▋    | 210176/371472 [5:40:50<12:34:19,  3.56it/s] 57%|█████▋    | 210177/371472 [5:40:50<12:50:24,  3.49it/s] 57%|█████▋    | 210178/371472 [5:40:50<12:45:55,  3.51it/s] 57%|█████▋    | 210179/371472 [5:40:50<12:31:12,  3.58it/s] 57%|█████▋    | 210180/371472 [5:40:51<12:38:59,  3.54it/s]                                                            {'loss': 2.8979, 'learning_rate': 4.9098773944709e-07, 'epoch': 9.05}
 57%|█████▋    | 210180/371472 [5:40:51<12:38:59,  3.54it/s] 57%|█████▋    | 210181/371472 [5:40:51<12:22:07,  3.62it/s] 57%|█████▋    | 210182/371472 [5:40:51<12:17:24,  3.65it/s] 57%|█████▋    | 210183/371472 [5:40:52<13:43:58,  3.26it/s] 57%|█████▋    | 210184/371472 [5:40:52<13:04:07,  3.43it/s] 57%|█████▋    | 210185/371472 [5:40:52<13:11:17,  3.40it/s] 57%|█████▋    | 210186/371472 [5:40:52<12:40:17,  3.54it/s] 57%|█████▋    | 210187/371472 [5:40:53<12:37:17,  3.55it/s] 57%|█████▋    | 210188/371472 [5:40:53<13:36:09,  3.29it/s] 57%|█████▋    | 210189/371472 [5:40:53<13:34:48,  3.30it/s] 57%|█████▋    | 210190/371472 [5:40:54<13:32:34,  3.31it/s] 57%|█████▋    | 210191/371472 [5:40:54<14:09:49,  3.16it/s] 57%|█████▋    | 210192/371472 [5:40:54<13:32:38,  3.31it/s] 57%|█████▋    | 210193/371472 [5:40:55<13:50:25,  3.24it/s] 57%|█████▋    | 210194/371472 [5:40:55<13:40:07,  3.28it/s] 57%|█████▋    | 210195/371472 [5:40:55<13:57:35,  3.21it/s] 57%|█████▋    | 210196/371472 [5:40:56<14:18:45,  3.13it/s] 57%|█████▋    | 210197/371472 [5:40:56<13:22:17,  3.35it/s] 57%|█████▋    | 210198/371472 [5:40:56<13:01:18,  3.44it/s] 57%|█████▋    | 210199/371472 [5:40:56<12:40:05,  3.54it/s] 57%|█████▋    | 210200/371472 [5:40:57<12:48:31,  3.50it/s]                                                            {'loss': 2.8909, 'learning_rate': 4.90939257471611e-07, 'epoch': 9.05}
 57%|█████▋    | 210200/371472 [5:40:57<12:48:31,  3.50it/s] 57%|█████▋    | 210201/371472 [5:40:57<13:07:33,  3.41it/s] 57%|█████▋    | 210202/371472 [5:40:57<13:16:21,  3.38it/s] 57%|█████▋    | 210203/371472 [5:40:58<12:41:34,  3.53it/s] 57%|█████▋    | 210204/371472 [5:40:58<12:34:13,  3.56it/s] 57%|█████▋    | 210205/371472 [5:40:58<12:59:22,  3.45it/s] 57%|█████▋    | 210206/371472 [5:40:58<13:19:08,  3.36it/s] 57%|█████▋    | 210207/371472 [5:40:59<12:45:23,  3.51it/s] 57%|█████▋    | 210208/371472 [5:40:59<12:33:38,  3.57it/s] 57%|█████▋    | 210209/371472 [5:40:59<12:34:46,  3.56it/s] 57%|█████▋    | 210210/371472 [5:41:00<12:33:19,  3.57it/s] 57%|█████▋    | 210211/371472 [5:41:00<12:22:16,  3.62it/s] 57%|█████▋    | 210212/371472 [5:41:00<13:12:31,  3.39it/s] 57%|█████▋    | 210213/371472 [5:41:00<13:28:37,  3.32it/s] 57%|█████▋    | 210214/371472 [5:41:01<13:17:05,  3.37it/s] 57%|█████▋    | 210215/371472 [5:41:01<13:32:37,  3.31it/s] 57%|█████▋    | 210216/371472 [5:41:01<13:48:34,  3.24it/s] 57%|█████▋    | 210217/371472 [5:41:02<13:38:34,  3.28it/s] 57%|█████▋    | 210218/371472 [5:41:02<13:57:39,  3.21it/s] 57%|█████▋    | 210219/371472 [5:41:02<13:28:36,  3.32it/s] 57%|█████▋    | 210220/371472 [5:41:03<13:49:06,  3.24it/s]                                                            {'loss': 2.976, 'learning_rate': 4.908907754961322e-07, 'epoch': 9.05}
 57%|█████▋    | 210220/371472 [5:41:03<13:49:06,  3.24it/s] 57%|█████▋    | 210221/371472 [5:41:03<14:24:05,  3.11it/s] 57%|█████▋    | 210222/371472 [5:41:03<13:32:45,  3.31it/s] 57%|█████▋    | 210223/371472 [5:41:04<13:59:55,  3.20it/s] 57%|█████▋    | 210224/371472 [5:41:04<13:22:17,  3.35it/s] 57%|█████▋    | 210225/371472 [5:41:04<13:23:58,  3.34it/s] 57%|█████▋    | 210226/371472 [5:41:04<13:48:06,  3.25it/s] 57%|█████▋    | 210227/371472 [5:41:05<13:32:51,  3.31it/s] 57%|█████▋    | 210228/371472 [5:41:05<13:21:38,  3.35it/s] 57%|█████▋    | 210229/371472 [5:41:05<12:50:19,  3.49it/s] 57%|█████▋    | 210230/371472 [5:41:06<12:50:57,  3.49it/s] 57%|█████▋    | 210231/371472 [5:41:06<12:28:27,  3.59it/s] 57%|█████▋    | 210232/371472 [5:41:06<12:20:58,  3.63it/s] 57%|█████▋    | 210233/371472 [5:41:06<12:44:11,  3.52it/s] 57%|█████▋    | 210234/371472 [5:41:07<13:32:05,  3.31it/s] 57%|█████▋    | 210235/371472 [5:41:07<13:49:43,  3.24it/s] 57%|█████▋    | 210236/371472 [5:41:07<12:59:49,  3.45it/s] 57%|█████▋    | 210237/371472 [5:41:08<14:01:31,  3.19it/s] 57%|█████▋    | 210238/371472 [5:41:08<14:36:46,  3.06it/s] 57%|█████▋    | 210239/371472 [5:41:08<14:08:45,  3.17it/s] 57%|█████▋    | 210240/371472 [5:41:09<13:19:18,  3.36it/s]                                                            {'loss': 2.8372, 'learning_rate': 4.908422935206533e-07, 'epoch': 9.06}
 57%|█████▋    | 210240/371472 [5:41:09<13:19:18,  3.36it/s] 57%|█████▋    | 210241/371472 [5:41:09<13:10:27,  3.40it/s] 57%|█████▋    | 210242/371472 [5:41:09<12:51:19,  3.48it/s] 57%|█████▋    | 210243/371472 [5:41:09<12:48:31,  3.50it/s] 57%|█████▋    | 210244/371472 [5:41:10<13:07:11,  3.41it/s] 57%|█████▋    | 210245/371472 [5:41:10<12:33:47,  3.56it/s] 57%|█████▋    | 210246/371472 [5:41:10<13:12:42,  3.39it/s] 57%|█████▋    | 210247/371472 [5:41:11<12:55:29,  3.46it/s] 57%|█████▋    | 210248/371472 [5:41:11<13:54:57,  3.22it/s] 57%|█████▋    | 210249/371472 [5:41:11<13:42:31,  3.27it/s] 57%|█████▋    | 210250/371472 [5:41:12<14:27:31,  3.10it/s] 57%|█████▋    | 210251/371472 [5:41:12<13:46:21,  3.25it/s] 57%|█████▋    | 210252/371472 [5:41:12<13:11:44,  3.39it/s] 57%|█████▋    | 210253/371472 [5:41:12<12:49:04,  3.49it/s] 57%|█████▋    | 210254/371472 [5:41:13<13:46:57,  3.25it/s] 57%|█████▋    | 210255/371472 [5:41:13<13:45:31,  3.25it/s] 57%|█████▋    | 210256/371472 [5:41:13<13:15:28,  3.38it/s] 57%|█████▋    | 210257/371472 [5:41:14<12:55:35,  3.46it/s] 57%|█████▋    | 210258/371472 [5:41:14<12:48:04,  3.50it/s] 57%|█████▋    | 210259/371472 [5:41:14<12:24:59,  3.61it/s] 57%|█████▋    | 210260/371472 [5:41:14<12:41:01,  3.53it/s]                                                            {'loss': 2.9091, 'learning_rate': 4.907938115451745e-07, 'epoch': 9.06}
 57%|█████▋    | 210260/371472 [5:41:14<12:41:01,  3.53it/s] 57%|█████▋    | 210261/371472 [5:41:15<12:53:07,  3.48it/s] 57%|█████▋    | 210262/371472 [5:41:15<12:40:09,  3.53it/s] 57%|█████▋    | 210263/371472 [5:41:15<12:41:44,  3.53it/s] 57%|█████▋    | 210264/371472 [5:41:16<12:33:33,  3.57it/s] 57%|█████▋    | 210265/371472 [5:41:16<12:16:31,  3.65it/s] 57%|█████▋    | 210266/371472 [5:41:16<12:22:37,  3.62it/s] 57%|█████▋    | 210267/371472 [5:41:17<13:31:13,  3.31it/s] 57%|█████▋    | 210268/371472 [5:41:17<13:35:58,  3.29it/s] 57%|█████▋    | 210269/371472 [5:41:17<13:22:50,  3.35it/s] 57%|█████▋    | 210270/371472 [5:41:17<12:59:34,  3.45it/s] 57%|█████▋    | 210271/371472 [5:41:18<12:53:36,  3.47it/s] 57%|█████▋    | 210272/371472 [5:41:18<13:15:08,  3.38it/s] 57%|█████▋    | 210273/371472 [5:41:18<13:52:19,  3.23it/s] 57%|█████▋    | 210274/371472 [5:41:19<13:52:54,  3.23it/s] 57%|█████▋    | 210275/371472 [5:41:19<13:18:31,  3.36it/s] 57%|█████▋    | 210276/371472 [5:41:19<12:43:17,  3.52it/s] 57%|█████▋    | 210277/371472 [5:41:19<12:51:27,  3.48it/s] 57%|█████▋    | 210278/371472 [5:41:20<12:23:02,  3.62it/s] 57%|█████▋    | 210279/371472 [5:41:20<13:41:25,  3.27it/s] 57%|█████▋    | 210280/371472 [5:41:20<13:05:13,  3.42it/s]                                                            {'loss': 2.9392, 'learning_rate': 4.907453295696955e-07, 'epoch': 9.06}
 57%|█████▋    | 210280/371472 [5:41:20<13:05:13,  3.42it/s] 57%|█████▋    | 210281/371472 [5:41:21<12:45:01,  3.51it/s] 57%|█████▋    | 210282/371472 [5:41:21<12:28:13,  3.59it/s] 57%|█████▋    | 210283/371472 [5:41:21<12:39:47,  3.54it/s] 57%|█████▋    | 210284/371472 [5:41:21<12:35:23,  3.56it/s] 57%|█████▋    | 210285/371472 [5:41:22<12:45:23,  3.51it/s] 57%|█████▋    | 210286/371472 [5:41:22<13:08:44,  3.41it/s] 57%|█████▋    | 210287/371472 [5:41:22<12:27:29,  3.59it/s] 57%|█████▋    | 210288/371472 [5:41:23<12:04:20,  3.71it/s] 57%|█████▋    | 210289/371472 [5:41:23<11:42:50,  3.82it/s] 57%|█████▋    | 210290/371472 [5:41:23<12:24:06,  3.61it/s] 57%|█████▋    | 210291/371472 [5:41:23<13:05:25,  3.42it/s] 57%|█████▋    | 210292/371472 [5:41:24<12:26:01,  3.60it/s] 57%|█████▋    | 210293/371472 [5:41:24<12:14:33,  3.66it/s] 57%|█████▋    | 210294/371472 [5:41:24<12:49:56,  3.49it/s] 57%|█████▋    | 210295/371472 [5:41:25<12:40:16,  3.53it/s] 57%|█████▋    | 210296/371472 [5:41:25<12:37:06,  3.55it/s] 57%|█████▋    | 210297/371472 [5:41:25<13:22:12,  3.35it/s] 57%|█████▋    | 210298/371472 [5:41:25<12:50:59,  3.48it/s] 57%|█████▋    | 210299/371472 [5:41:26<12:54:07,  3.47it/s] 57%|█████▋    | 210300/371472 [5:41:26<13:57:58,  3.21it/s]                                                            {'loss': 2.7434, 'learning_rate': 4.906968475942166e-07, 'epoch': 9.06}
 57%|█████▋    | 210300/371472 [5:41:26<13:57:58,  3.21it/s] 57%|█████▋    | 210301/371472 [5:41:26<13:53:20,  3.22it/s] 57%|█████▋    | 210302/371472 [5:41:27<13:39:49,  3.28it/s] 57%|█████▋    | 210303/371472 [5:41:27<14:27:53,  3.10it/s] 57%|█████▋    | 210304/371472 [5:41:27<13:23:07,  3.34it/s] 57%|█████▋    | 210305/371472 [5:41:28<12:55:07,  3.47it/s] 57%|█████▋    | 210306/371472 [5:41:28<12:44:11,  3.51it/s] 57%|█████▋    | 210307/371472 [5:41:28<12:54:38,  3.47it/s] 57%|█████▋    | 210308/371472 [5:41:28<13:03:16,  3.43it/s] 57%|█████▋    | 210309/371472 [5:41:29<12:47:43,  3.50it/s] 57%|█████▋    | 210310/371472 [5:41:29<12:44:16,  3.51it/s] 57%|█████▋    | 210311/371472 [5:41:29<12:36:44,  3.55it/s] 57%|█████▋    | 210312/371472 [5:41:29<12:22:56,  3.62it/s] 57%|█████▋    | 210313/371472 [5:41:30<12:35:45,  3.55it/s] 57%|█████▋    | 210314/371472 [5:41:30<12:40:19,  3.53it/s] 57%|█████▋    | 210315/371472 [5:41:30<12:52:28,  3.48it/s] 57%|█████▋    | 210316/371472 [5:41:31<13:54:46,  3.22it/s] 57%|█████▋    | 210317/371472 [5:41:31<13:44:59,  3.26it/s] 57%|█████▋    | 210318/371472 [5:41:31<13:15:49,  3.37it/s] 57%|█████▋    | 210319/371472 [5:41:32<13:47:17,  3.25it/s] 57%|█████▋    | 210320/371472 [5:41:32<14:11:50,  3.15it/s]                                                            {'loss': 3.0027, 'learning_rate': 4.906483656187377e-07, 'epoch': 9.06}
 57%|█████▋    | 210320/371472 [5:41:32<14:11:50,  3.15it/s] 57%|█████▋    | 210321/371472 [5:41:32<13:44:38,  3.26it/s] 57%|█████▋    | 210322/371472 [5:41:33<13:10:51,  3.40it/s] 57%|█████▋    | 210323/371472 [5:41:33<12:46:49,  3.50it/s] 57%|█████▋    | 210324/371472 [5:41:33<12:19:00,  3.63it/s] 57%|█████▋    | 210325/371472 [5:41:33<12:20:14,  3.63it/s] 57%|█████▋    | 210326/371472 [5:41:34<13:27:14,  3.33it/s] 57%|█████▋    | 210327/371472 [5:41:34<13:04:03,  3.43it/s] 57%|█████▋    | 210328/371472 [5:41:34<12:41:56,  3.52it/s] 57%|█████▋    | 210329/371472 [5:41:34<12:14:39,  3.66it/s] 57%|█████▋    | 210330/371472 [5:41:35<12:12:42,  3.67it/s] 57%|█████▋    | 210331/371472 [5:41:35<12:14:46,  3.66it/s] 57%|█████▋    | 210332/371472 [5:41:35<11:54:18,  3.76it/s] 57%|█████▋    | 210333/371472 [5:41:36<11:47:19,  3.80it/s] 57%|█████▋    | 210334/371472 [5:41:36<11:43:35,  3.82it/s] 57%|█████▋    | 210335/371472 [5:41:36<11:56:41,  3.75it/s] 57%|█████▋    | 210336/371472 [5:41:36<12:48:12,  3.50it/s] 57%|█████▋    | 210337/371472 [5:41:37<12:53:38,  3.47it/s] 57%|█████▋    | 210338/371472 [5:41:37<13:07:55,  3.41it/s] 57%|█████▋    | 210339/371472 [5:41:37<12:42:47,  3.52it/s] 57%|█████▋    | 210340/371472 [5:41:38<12:30:08,  3.58it/s]                                                            {'loss': 2.9877, 'learning_rate': 4.905998836432587e-07, 'epoch': 9.06}
 57%|█████▋    | 210340/371472 [5:41:38<12:30:08,  3.58it/s] 57%|█████▋    | 210341/371472 [5:41:38<12:45:59,  3.51it/s] 57%|█████▋    | 210342/371472 [5:41:38<12:41:39,  3.53it/s] 57%|█████▋    | 210343/371472 [5:41:38<14:02:21,  3.19it/s] 57%|█████▋    | 210344/371472 [5:41:39<13:23:29,  3.34it/s] 57%|█████▋    | 210345/371472 [5:41:39<13:08:10,  3.41it/s] 57%|█████▋    | 210346/371472 [5:41:39<12:48:52,  3.49it/s] 57%|█████▋    | 210347/371472 [5:41:40<12:52:09,  3.48it/s] 57%|█████▋    | 210348/371472 [5:41:40<13:20:58,  3.35it/s] 57%|█████▋    | 210349/371472 [5:41:40<13:50:44,  3.23it/s] 57%|█████▋    | 210350/371472 [5:41:41<13:26:55,  3.33it/s] 57%|█████▋    | 210351/371472 [5:41:41<13:00:57,  3.44it/s] 57%|█████▋    | 210352/371472 [5:41:41<13:04:01,  3.43it/s] 57%|█████▋    | 210353/371472 [5:41:41<12:57:03,  3.46it/s] 57%|█████▋    | 210354/371472 [5:41:42<12:45:03,  3.51it/s] 57%|█████▋    | 210355/371472 [5:41:42<12:24:12,  3.61it/s] 57%|█████▋    | 210356/371472 [5:41:42<12:59:00,  3.45it/s] 57%|█████▋    | 210357/371472 [5:41:42<12:57:12,  3.45it/s] 57%|█████▋    | 210358/371472 [5:41:43<13:28:50,  3.32it/s] 57%|█████▋    | 210359/371472 [5:41:43<14:10:13,  3.16it/s] 57%|█████▋    | 210360/371472 [5:41:43<13:38:54,  3.28it/s]                                                            {'loss': 2.9312, 'learning_rate': 4.905514016677799e-07, 'epoch': 9.06}
 57%|█████▋    | 210360/371472 [5:41:43<13:38:54,  3.28it/s] 57%|█████▋    | 210361/371472 [5:41:44<13:26:38,  3.33it/s] 57%|█████▋    | 210362/371472 [5:41:44<13:25:20,  3.33it/s] 57%|█████▋    | 210363/371472 [5:41:44<12:59:44,  3.44it/s] 57%|█████▋    | 210364/371472 [5:41:45<12:25:10,  3.60it/s] 57%|█████▋    | 210365/371472 [5:41:45<12:13:00,  3.66it/s] 57%|█████▋    | 210366/371472 [5:41:45<12:08:56,  3.68it/s] 57%|█████▋    | 210367/371472 [5:41:45<12:06:22,  3.70it/s] 57%|█████▋    | 210368/371472 [5:41:46<12:16:49,  3.64it/s] 57%|█████▋    | 210369/371472 [5:41:46<12:42:10,  3.52it/s] 57%|█████▋    | 210370/371472 [5:41:46<12:12:45,  3.66it/s] 57%|█████▋    | 210371/371472 [5:41:46<12:18:40,  3.63it/s] 57%|█████▋    | 210372/371472 [5:41:47<12:29:21,  3.58it/s] 57%|█████▋    | 210373/371472 [5:41:47<12:17:49,  3.64it/s] 57%|█████▋    | 210374/371472 [5:41:47<12:31:01,  3.58it/s] 57%|█████▋    | 210375/371472 [5:41:48<12:20:59,  3.62it/s] 57%|█████▋    | 210376/371472 [5:41:48<12:11:07,  3.67it/s] 57%|█████▋    | 210377/371472 [5:41:48<13:28:35,  3.32it/s] 57%|█████▋    | 210378/371472 [5:41:49<13:12:40,  3.39it/s] 57%|█████▋    | 210379/371472 [5:41:49<13:16:30,  3.37it/s] 57%|█████▋    | 210380/371472 [5:41:49<13:04:10,  3.42it/s]                                                            {'loss': 2.8523, 'learning_rate': 4.90502919692301e-07, 'epoch': 9.06}
 57%|█████▋    | 210380/371472 [5:41:49<13:04:10,  3.42it/s] 57%|█████▋    | 210381/371472 [5:41:49<12:47:35,  3.50it/s] 57%|█████▋    | 210382/371472 [5:41:50<12:21:37,  3.62it/s] 57%|█████▋    | 210383/371472 [5:41:50<12:27:58,  3.59it/s] 57%|█████▋    | 210384/371472 [5:41:50<12:25:44,  3.60it/s] 57%|█████▋    | 210385/371472 [5:41:50<12:11:47,  3.67it/s] 57%|█████▋    | 210386/371472 [5:41:51<12:32:30,  3.57it/s] 57%|█████▋    | 210387/371472 [5:41:51<12:53:40,  3.47it/s] 57%|█████▋    | 210388/371472 [5:41:51<12:43:44,  3.52it/s] 57%|█████▋    | 210389/371472 [5:41:52<12:39:13,  3.54it/s] 57%|█████▋    | 210390/371472 [5:41:52<12:10:35,  3.67it/s] 57%|█████▋    | 210391/371472 [5:41:52<12:01:04,  3.72it/s] 57%|█████▋    | 210392/371472 [5:41:52<12:11:47,  3.67it/s] 57%|█████▋    | 210393/371472 [5:41:53<12:05:37,  3.70it/s] 57%|█████▋    | 210394/371472 [5:41:53<12:39:21,  3.54it/s] 57%|█████▋    | 210395/371472 [5:41:53<12:28:12,  3.59it/s] 57%|█████▋    | 210396/371472 [5:41:54<12:31:34,  3.57it/s] 57%|█████▋    | 210397/371472 [5:41:54<12:21:53,  3.62it/s] 57%|█████▋    | 210398/371472 [5:41:54<12:51:55,  3.48it/s] 57%|█████▋    | 210399/371472 [5:41:54<12:48:46,  3.49it/s] 57%|█████▋    | 210400/371472 [5:41:55<12:58:41,  3.45it/s]                                                            {'loss': 2.972, 'learning_rate': 4.904544377168222e-07, 'epoch': 9.06}
 57%|█████▋    | 210400/371472 [5:41:55<12:58:41,  3.45it/s] 57%|█████▋    | 210401/371472 [5:41:55<12:58:10,  3.45it/s] 57%|█████▋    | 210402/371472 [5:41:55<12:42:46,  3.52it/s] 57%|█████▋    | 210403/371472 [5:41:56<13:07:58,  3.41it/s] 57%|█████▋    | 210404/371472 [5:41:56<13:00:58,  3.44it/s] 57%|█████▋    | 210405/371472 [5:41:56<14:17:48,  3.13it/s] 57%|█████▋    | 210406/371472 [5:41:57<14:19:26,  3.12it/s] 57%|█████▋    | 210407/371472 [5:41:57<13:45:56,  3.25it/s] 57%|█████▋    | 210408/371472 [5:41:57<13:04:42,  3.42it/s] 57%|█████▋    | 210409/371472 [5:41:57<12:30:00,  3.58it/s] 57%|█████▋    | 210410/371472 [5:41:58<11:55:19,  3.75it/s] 57%|█████▋    | 210411/371472 [5:41:58<12:12:10,  3.67it/s] 57%|█████▋    | 210412/371472 [5:41:58<12:13:12,  3.66it/s] 57%|█████▋    | 210413/371472 [5:41:58<12:04:48,  3.70it/s] 57%|█████▋    | 210414/371472 [5:41:59<12:24:18,  3.61it/s] 57%|█████▋    | 210415/371472 [5:41:59<11:49:58,  3.78it/s] 57%|█████▋    | 210416/371472 [5:41:59<11:46:38,  3.80it/s] 57%|█████▋    | 210417/371472 [5:41:59<11:48:23,  3.79it/s] 57%|█████▋    | 210418/371472 [5:42:00<12:12:33,  3.66it/s] 57%|█████▋    | 210419/371472 [5:42:00<12:17:08,  3.64it/s] 57%|█████▋    | 210420/371472 [5:42:00<12:50:28,  3.48it/s]                                                            {'loss': 2.8371, 'learning_rate': 4.904059557413432e-07, 'epoch': 9.06}
 57%|█████▋    | 210420/371472 [5:42:00<12:50:28,  3.48it/s] 57%|█████▋    | 210421/371472 [5:42:01<13:40:40,  3.27it/s] 57%|█████▋    | 210422/371472 [5:42:01<12:54:30,  3.47it/s] 57%|█████▋    | 210423/371472 [5:42:01<13:05:35,  3.42it/s] 57%|█████▋    | 210424/371472 [5:42:01<12:38:56,  3.54it/s] 57%|█████▋    | 210425/371472 [5:42:02<12:27:26,  3.59it/s] 57%|█████▋    | 210426/371472 [5:42:02<12:11:05,  3.67it/s] 57%|█████▋    | 210427/371472 [5:42:02<12:56:42,  3.46it/s] 57%|█████▋    | 210428/371472 [5:42:03<13:20:19,  3.35it/s] 57%|█████▋    | 210429/371472 [5:42:03<12:47:58,  3.49it/s] 57%|█████▋    | 210430/371472 [5:42:03<12:34:34,  3.56it/s] 57%|█████▋    | 210431/371472 [5:42:03<12:54:50,  3.46it/s] 57%|█████▋    | 210432/371472 [5:42:04<13:21:06,  3.35it/s] 57%|█████▋    | 210433/371472 [5:42:04<13:43:10,  3.26it/s] 57%|█████▋    | 210434/371472 [5:42:04<13:01:24,  3.43it/s] 57%|█████▋    | 210435/371472 [5:42:05<13:10:19,  3.40it/s] 57%|█████▋    | 210436/371472 [5:42:05<12:45:39,  3.51it/s] 57%|█████▋    | 210437/371472 [5:42:05<12:27:15,  3.59it/s] 57%|█████▋    | 210438/371472 [5:42:06<12:41:18,  3.53it/s] 57%|█████▋    | 210439/371472 [5:42:06<12:24:44,  3.60it/s] 57%|█████▋    | 210440/371472 [5:42:06<12:10:23,  3.67it/s]                                                            {'loss': 2.9467, 'learning_rate': 4.903574737658643e-07, 'epoch': 9.06}
 57%|█████▋    | 210440/371472 [5:42:06<12:10:23,  3.67it/s] 57%|█████▋    | 210441/371472 [5:42:06<11:52:06,  3.77it/s] 57%|█████▋    | 210442/371472 [5:42:07<12:00:53,  3.72it/s] 57%|█████▋    | 210443/371472 [5:42:07<12:08:34,  3.68it/s] 57%|█████▋    | 210444/371472 [5:42:07<12:08:56,  3.68it/s] 57%|█████▋    | 210445/371472 [5:42:07<12:31:26,  3.57it/s] 57%|█████▋    | 210446/371472 [5:42:08<13:53:00,  3.22it/s] 57%|█████▋    | 210447/371472 [5:42:08<13:18:04,  3.36it/s] 57%|█████▋    | 210448/371472 [5:42:08<13:15:55,  3.37it/s] 57%|█████▋    | 210449/371472 [5:42:09<12:42:49,  3.52it/s] 57%|█████▋    | 210450/371472 [5:42:09<12:23:45,  3.61it/s] 57%|█████▋    | 210451/371472 [5:42:09<12:24:27,  3.60it/s] 57%|█████▋    | 210452/371472 [5:42:09<12:49:15,  3.49it/s] 57%|█████▋    | 210453/371472 [5:42:10<12:24:57,  3.60it/s] 57%|█████▋    | 210454/371472 [5:42:10<12:37:52,  3.54it/s] 57%|█████▋    | 210455/371472 [5:42:10<12:37:16,  3.54it/s] 57%|█████▋    | 210456/371472 [5:42:11<12:30:06,  3.58it/s] 57%|█████▋    | 210457/371472 [5:42:11<13:08:32,  3.40it/s] 57%|█████▋    | 210458/371472 [5:42:11<12:54:43,  3.46it/s] 57%|█████▋    | 210459/371472 [5:42:11<13:04:12,  3.42it/s] 57%|█████▋    | 210460/371472 [5:42:12<13:00:25,  3.44it/s]                                                            {'loss': 3.1599, 'learning_rate': 4.903089917903854e-07, 'epoch': 9.06}
 57%|█████▋    | 210460/371472 [5:42:12<13:00:25,  3.44it/s] 57%|█████▋    | 210461/371472 [5:42:12<13:18:38,  3.36it/s] 57%|█████▋    | 210462/371472 [5:42:12<13:04:55,  3.42it/s] 57%|█████▋    | 210463/371472 [5:42:13<13:54:47,  3.21it/s] 57%|█████▋    | 210464/371472 [5:42:13<13:41:56,  3.26it/s] 57%|█████▋    | 210465/371472 [5:42:13<13:24:55,  3.33it/s] 57%|█████▋    | 210466/371472 [5:42:14<12:45:35,  3.51it/s] 57%|█████▋    | 210467/371472 [5:42:14<12:55:29,  3.46it/s] 57%|█████▋    | 210468/371472 [5:42:14<12:56:59,  3.45it/s] 57%|█████▋    | 210469/371472 [5:42:14<12:53:16,  3.47it/s] 57%|█████▋    | 210470/371472 [5:42:15<12:47:19,  3.50it/s] 57%|█████▋    | 210471/371472 [5:42:15<12:39:40,  3.53it/s] 57%|█████▋    | 210472/371472 [5:42:15<13:04:34,  3.42it/s] 57%|█████▋    | 210473/371472 [5:42:16<12:36:20,  3.55it/s] 57%|█████▋    | 210474/371472 [5:42:16<12:34:58,  3.55it/s] 57%|█████▋    | 210475/371472 [5:42:16<12:06:03,  3.70it/s] 57%|█████▋    | 210476/371472 [5:42:16<13:02:20,  3.43it/s] 57%|█████▋    | 210477/371472 [5:42:17<12:59:20,  3.44it/s] 57%|█████▋    | 210478/371472 [5:42:17<13:01:06,  3.44it/s] 57%|█████▋    | 210479/371472 [5:42:17<12:33:40,  3.56it/s] 57%|█████▋    | 210480/371472 [5:42:18<12:46:14,  3.50it/s]                                                            {'loss': 3.1889, 'learning_rate': 4.902605098149066e-07, 'epoch': 9.07}
 57%|█████▋    | 210480/371472 [5:42:18<12:46:14,  3.50it/s] 57%|█████▋    | 210481/371472 [5:42:18<12:30:31,  3.58it/s] 57%|█████▋    | 210482/371472 [5:42:18<12:11:38,  3.67it/s] 57%|█████▋    | 210483/371472 [5:42:18<12:22:18,  3.61it/s] 57%|█████▋    | 210484/371472 [5:42:19<12:50:34,  3.48it/s] 57%|█████▋    | 210485/371472 [5:42:19<13:00:35,  3.44it/s] 57%|█████▋    | 210486/371472 [5:42:19<12:38:51,  3.54it/s] 57%|█████▋    | 210487/371472 [5:42:20<13:28:37,  3.32it/s] 57%|█████▋    | 210488/371472 [5:42:20<13:11:45,  3.39it/s] 57%|█████▋    | 210489/371472 [5:42:20<12:56:25,  3.46it/s] 57%|█████▋    | 210490/371472 [5:42:20<12:27:36,  3.59it/s] 57%|█████▋    | 210491/371472 [5:42:21<12:11:18,  3.67it/s] 57%|█████▋    | 210492/371472 [5:42:21<12:29:10,  3.58it/s] 57%|█████▋    | 210493/371472 [5:42:21<12:47:10,  3.50it/s] 57%|█████▋    | 210494/371472 [5:42:22<12:51:04,  3.48it/s] 57%|█████▋    | 210495/371472 [5:42:22<12:45:23,  3.51it/s] 57%|█████▋    | 210496/371472 [5:42:22<12:22:23,  3.61it/s] 57%|█████▋    | 210497/371472 [5:42:22<13:43:51,  3.26it/s] 57%|█████▋    | 210498/371472 [5:42:23<12:56:53,  3.45it/s] 57%|█████▋    | 210499/371472 [5:42:23<12:50:57,  3.48it/s] 57%|█████▋    | 210500/371472 [5:42:23<13:10:58,  3.39it/s]                                                            {'loss': 3.1256, 'learning_rate': 4.902120278394276e-07, 'epoch': 9.07}
 57%|█████▋    | 210500/371472 [5:42:23<13:10:58,  3.39it/s] 57%|█████▋    | 210501/371472 [5:42:24<12:49:35,  3.49it/s] 57%|█████▋    | 210502/371472 [5:42:24<12:30:09,  3.58it/s] 57%|█████▋    | 210503/371472 [5:42:24<12:17:23,  3.64it/s] 57%|█████▋    | 210504/371472 [5:42:24<12:18:41,  3.63it/s] 57%|█████▋    | 210505/371472 [5:42:25<11:57:51,  3.74it/s] 57%|█████▋    | 210506/371472 [5:42:25<11:50:12,  3.78it/s] 57%|█████▋    | 210507/371472 [5:42:25<12:00:49,  3.72it/s] 57%|█████▋    | 210508/371472 [5:42:25<11:58:08,  3.74it/s] 57%|█████▋    | 210509/371472 [5:42:26<12:43:44,  3.51it/s] 57%|█████▋    | 210510/371472 [5:42:26<13:20:40,  3.35it/s] 57%|█████▋    | 210511/371472 [5:42:26<13:01:30,  3.43it/s] 57%|█████▋    | 210512/371472 [5:42:27<12:42:47,  3.52it/s] 57%|█████▋    | 210513/371472 [5:42:27<14:37:58,  3.06it/s] 57%|█████▋    | 210514/371472 [5:42:27<14:08:15,  3.16it/s] 57%|█████▋    | 210515/371472 [5:42:28<14:45:17,  3.03it/s] 57%|█████▋    | 210516/371472 [5:42:28<14:58:46,  2.98it/s] 57%|█████▋    | 210517/371472 [5:42:28<14:02:06,  3.19it/s] 57%|█████▋    | 210518/371472 [5:42:29<14:12:17,  3.15it/s] 57%|█████▋    | 210519/371472 [5:42:29<13:37:28,  3.28it/s] 57%|█████▋    | 210520/371472 [5:42:29<13:21:12,  3.35it/s]                                                            {'loss': 2.9761, 'learning_rate': 4.901635458639488e-07, 'epoch': 9.07}
 57%|█████▋    | 210520/371472 [5:42:29<13:21:12,  3.35it/s] 57%|█████▋    | 210521/371472 [5:42:29<13:01:04,  3.43it/s] 57%|█████▋    | 210522/371472 [5:42:30<12:33:47,  3.56it/s] 57%|█████▋    | 210523/371472 [5:42:30<13:37:56,  3.28it/s] 57%|█████▋    | 210524/371472 [5:42:30<13:07:06,  3.41it/s] 57%|█████▋    | 210525/371472 [5:42:31<13:03:14,  3.42it/s] 57%|█████▋    | 210526/371472 [5:42:31<13:11:02,  3.39it/s] 57%|█████▋    | 210527/371472 [5:42:31<12:23:42,  3.61it/s] 57%|█████▋    | 210528/371472 [5:42:31<11:54:16,  3.76it/s] 57%|█████▋    | 210529/371472 [5:42:32<11:53:21,  3.76it/s] 57%|█████▋    | 210530/371472 [5:42:32<11:59:49,  3.73it/s] 57%|█████▋    | 210531/371472 [5:42:32<12:38:30,  3.54it/s] 57%|█████▋    | 210532/371472 [5:42:33<12:21:10,  3.62it/s] 57%|█████▋    | 210533/371472 [5:42:33<12:21:22,  3.62it/s] 57%|█████▋    | 210534/371472 [5:42:33<12:24:54,  3.60it/s] 57%|█████▋    | 210535/371472 [5:42:33<12:48:22,  3.49it/s] 57%|█████▋    | 210536/371472 [5:42:34<12:33:13,  3.56it/s] 57%|█████▋    | 210537/371472 [5:42:34<12:58:43,  3.44it/s] 57%|█████▋    | 210538/371472 [5:42:34<13:12:53,  3.38it/s] 57%|█████▋    | 210539/371472 [5:42:35<13:17:03,  3.37it/s] 57%|█████▋    | 210540/371472 [5:42:35<12:42:01,  3.52it/s]                                                            {'loss': 2.9237, 'learning_rate': 4.901150638884699e-07, 'epoch': 9.07}
 57%|█████▋    | 210540/371472 [5:42:35<12:42:01,  3.52it/s] 57%|█████▋    | 210541/371472 [5:42:35<12:47:30,  3.49it/s] 57%|█████▋    | 210542/371472 [5:42:35<12:59:20,  3.44it/s] 57%|█████▋    | 210543/371472 [5:42:36<12:56:28,  3.45it/s] 57%|█████▋    | 210544/371472 [5:42:36<12:51:55,  3.47it/s] 57%|█████▋    | 210545/371472 [5:42:36<13:14:38,  3.38it/s] 57%|█████▋    | 210546/371472 [5:42:37<13:13:25,  3.38it/s] 57%|█████▋    | 210547/371472 [5:42:37<13:26:28,  3.33it/s] 57%|█████▋    | 210548/371472 [5:42:37<13:17:04,  3.36it/s] 57%|█████▋    | 210549/371472 [5:42:37<12:50:09,  3.48it/s] 57%|█████▋    | 210550/371472 [5:42:38<14:07:12,  3.17it/s] 57%|█████▋    | 210551/371472 [5:42:38<13:40:03,  3.27it/s] 57%|█████▋    | 210552/371472 [5:42:38<13:31:28,  3.31it/s] 57%|█████▋    | 210553/371472 [5:42:39<13:26:23,  3.33it/s] 57%|█████▋    | 210554/371472 [5:42:39<13:58:50,  3.20it/s] 57%|█████▋    | 210555/371472 [5:42:39<13:55:41,  3.21it/s] 57%|█████▋    | 210556/371472 [5:42:40<14:46:01,  3.03it/s] 57%|█████▋    | 210557/371472 [5:42:40<14:11:44,  3.15it/s] 57%|█████▋    | 210558/371472 [5:42:40<13:15:26,  3.37it/s] 57%|█████▋    | 210559/371472 [5:42:41<13:07:53,  3.40it/s] 57%|█████▋    | 210560/371472 [5:42:41<12:49:51,  3.48it/s]                                                            {'loss': 2.8208, 'learning_rate': 4.90066581912991e-07, 'epoch': 9.07}
 57%|█████▋    | 210560/371472 [5:42:41<12:49:51,  3.48it/s] 57%|█████▋    | 210561/371472 [5:42:41<12:24:50,  3.60it/s] 57%|█████▋    | 210562/371472 [5:42:41<12:02:02,  3.71it/s] 57%|█████▋    | 210563/371472 [5:42:42<12:23:51,  3.61it/s] 57%|█████▋    | 210564/371472 [5:42:42<12:52:13,  3.47it/s] 57%|█████▋    | 210565/371472 [5:42:42<12:40:11,  3.53it/s] 57%|█████▋    | 210566/371472 [5:42:42<12:14:55,  3.65it/s] 57%|█████▋    | 210567/371472 [5:42:43<12:05:43,  3.70it/s] 57%|█████▋    | 210568/371472 [5:42:43<12:03:32,  3.71it/s] 57%|█████▋    | 210569/371472 [5:42:43<11:46:21,  3.80it/s] 57%|█████▋    | 210570/371472 [5:42:44<12:14:34,  3.65it/s] 57%|█████▋    | 210571/371472 [5:42:44<12:30:29,  3.57it/s] 57%|█████▋    | 210572/371472 [5:42:44<12:34:27,  3.55it/s] 57%|█████▋    | 210573/371472 [5:42:44<12:25:18,  3.60it/s] 57%|█████▋    | 210574/371472 [5:42:45<12:42:19,  3.52it/s] 57%|█████▋    | 210575/371472 [5:42:45<12:31:09,  3.57it/s] 57%|█████▋    | 210576/371472 [5:42:45<12:25:12,  3.60it/s] 57%|█████▋    | 210577/371472 [5:42:46<13:19:40,  3.35it/s] 57%|█████▋    | 210578/371472 [5:42:46<13:04:56,  3.42it/s] 57%|█████▋    | 210579/371472 [5:42:46<12:35:05,  3.55it/s] 57%|█████▋    | 210580/371472 [5:42:46<12:19:21,  3.63it/s]                                                            {'loss': 2.9458, 'learning_rate': 4.90018099937512e-07, 'epoch': 9.07}
 57%|█████▋    | 210580/371472 [5:42:46<12:19:21,  3.63it/s] 57%|█████▋    | 210581/371472 [5:42:47<11:53:10,  3.76it/s] 57%|█████▋    | 210582/371472 [5:42:47<11:43:57,  3.81it/s] 57%|█████▋    | 210583/371472 [5:42:47<13:33:27,  3.30it/s] 57%|█████▋    | 210584/371472 [5:42:48<12:51:43,  3.47it/s] 57%|█████▋    | 210585/371472 [5:42:48<12:31:34,  3.57it/s] 57%|█████▋    | 210586/371472 [5:42:48<12:09:29,  3.68it/s] 57%|█████▋    | 210587/371472 [5:42:48<12:35:28,  3.55it/s] 57%|█████▋    | 210588/371472 [5:42:49<12:22:23,  3.61it/s] 57%|█████▋    | 210589/371472 [5:42:49<13:34:34,  3.29it/s] 57%|█████▋    | 210590/371472 [5:42:49<13:28:43,  3.32it/s] 57%|█████▋    | 210591/371472 [5:42:50<13:06:56,  3.41it/s] 57%|█████▋    | 210592/371472 [5:42:50<13:29:01,  3.31it/s] 57%|█████▋    | 210593/371472 [5:42:50<12:35:59,  3.55it/s] 57%|█████▋    | 210594/371472 [5:42:50<13:01:30,  3.43it/s] 57%|█████▋    | 210595/371472 [5:42:51<12:48:47,  3.49it/s] 57%|█████▋    | 210596/371472 [5:42:51<12:23:47,  3.60it/s] 57%|█████▋    | 210597/371472 [5:42:51<12:03:49,  3.70it/s] 57%|█████▋    | 210598/371472 [5:42:51<11:54:45,  3.75it/s] 57%|█████▋    | 210599/371472 [5:42:52<12:06:17,  3.69it/s] 57%|█████▋    | 210600/371472 [5:42:52<11:55:09,  3.75it/s]                                                            {'loss': 3.0116, 'learning_rate': 4.899696179620332e-07, 'epoch': 9.07}
 57%|█████▋    | 210600/371472 [5:42:52<11:55:09,  3.75it/s] 57%|█████▋    | 210601/371472 [5:42:52<12:08:51,  3.68it/s] 57%|█████▋    | 210602/371472 [5:42:53<12:19:59,  3.62it/s] 57%|█████▋    | 210603/371472 [5:42:53<12:37:23,  3.54it/s] 57%|█████▋    | 210604/371472 [5:42:53<13:15:17,  3.37it/s] 57%|█████▋    | 210605/371472 [5:42:54<13:23:21,  3.34it/s] 57%|█████▋    | 210606/371472 [5:42:54<12:55:54,  3.46it/s] 57%|█████▋    | 210607/371472 [5:42:54<12:51:06,  3.48it/s] 57%|█████▋    | 210608/371472 [5:42:54<12:52:29,  3.47it/s] 57%|█████▋    | 210609/371472 [5:42:55<12:27:34,  3.59it/s] 57%|█████▋    | 210610/371472 [5:42:55<12:38:20,  3.54it/s] 57%|█████▋    | 210611/371472 [5:42:55<12:37:10,  3.54it/s] 57%|█████▋    | 210612/371472 [5:42:55<12:10:01,  3.67it/s] 57%|█████▋    | 210613/371472 [5:42:56<12:12:11,  3.66it/s] 57%|█████▋    | 210614/371472 [5:42:56<12:01:50,  3.71it/s] 57%|█████▋    | 210615/371472 [5:42:56<11:49:13,  3.78it/s] 57%|█████▋    | 210616/371472 [5:42:56<11:44:43,  3.80it/s] 57%|█████▋    | 210617/371472 [5:42:57<11:58:24,  3.73it/s] 57%|█████▋    | 210618/371472 [5:42:57<12:43:43,  3.51it/s] 57%|█████▋    | 210619/371472 [5:42:57<13:16:02,  3.37it/s] 57%|█████▋    | 210620/371472 [5:42:58<12:53:39,  3.47it/s]                                                            {'loss': 2.8813, 'learning_rate': 4.899211359865543e-07, 'epoch': 9.07}
 57%|█████▋    | 210620/371472 [5:42:58<12:53:39,  3.47it/s] 57%|█████▋    | 210621/371472 [5:42:58<12:45:03,  3.50it/s] 57%|█████▋    | 210622/371472 [5:42:58<14:33:43,  3.07it/s] 57%|█████▋    | 210623/371472 [5:42:59<13:46:44,  3.24it/s] 57%|█████▋    | 210624/371472 [5:42:59<14:48:27,  3.02it/s] 57%|█████▋    | 210625/371472 [5:42:59<14:13:39,  3.14it/s] 57%|█████▋    | 210626/371472 [5:43:00<13:44:14,  3.25it/s] 57%|█████▋    | 210627/371472 [5:43:00<13:02:14,  3.43it/s] 57%|█████▋    | 210628/371472 [5:43:00<12:36:32,  3.54it/s] 57%|█████▋    | 210629/371472 [5:43:00<12:46:05,  3.50it/s] 57%|█████▋    | 210630/371472 [5:43:01<12:38:09,  3.54it/s] 57%|█████▋    | 210631/371472 [5:43:01<12:45:52,  3.50it/s] 57%|█████▋    | 210632/371472 [5:43:01<12:08:57,  3.68it/s] 57%|█████▋    | 210633/371472 [5:43:01<11:58:02,  3.73it/s] 57%|█████▋    | 210634/371472 [5:43:02<12:02:16,  3.71it/s] 57%|█████▋    | 210635/371472 [5:43:02<12:13:50,  3.65it/s] 57%|█████▋    | 210636/371472 [5:43:02<12:09:21,  3.68it/s] 57%|█████▋    | 210637/371472 [5:43:03<11:49:19,  3.78it/s] 57%|█████▋    | 210638/371472 [5:43:03<11:42:24,  3.82it/s] 57%|█████▋    | 210639/371472 [5:43:03<12:51:04,  3.48it/s] 57%|█████▋    | 210640/371472 [5:43:03<12:50:39,  3.48it/s]                                                            {'loss': 2.9384, 'learning_rate': 4.898726540110755e-07, 'epoch': 9.07}
 57%|█████▋    | 210640/371472 [5:43:03<12:50:39,  3.48it/s] 57%|█████▋    | 210641/371472 [5:43:04<12:32:25,  3.56it/s] 57%|█████▋    | 210642/371472 [5:43:04<12:30:57,  3.57it/s] 57%|█████▋    | 210643/371472 [5:43:04<12:48:16,  3.49it/s] 57%|█████▋    | 210644/371472 [5:43:05<12:40:11,  3.53it/s] 57%|█████▋    | 210645/371472 [5:43:05<12:18:44,  3.63it/s] 57%|█████▋    | 210646/371472 [5:43:05<12:22:45,  3.61it/s] 57%|█████▋    | 210647/371472 [5:43:05<12:53:00,  3.47it/s] 57%|█████▋    | 210648/371472 [5:43:06<12:54:09,  3.46it/s] 57%|█████▋    | 210649/371472 [5:43:06<12:28:02,  3.58it/s] 57%|█████▋    | 210650/371472 [5:43:06<12:26:46,  3.59it/s] 57%|█████▋    | 210651/371472 [5:43:07<12:58:45,  3.44it/s] 57%|█████▋    | 210652/371472 [5:43:07<13:15:03,  3.37it/s] 57%|█████▋    | 210653/371472 [5:43:07<13:05:21,  3.41it/s] 57%|█████▋    | 210654/371472 [5:43:07<12:41:20,  3.52it/s] 57%|█████▋    | 210655/371472 [5:43:08<13:20:39,  3.35it/s] 57%|█████▋    | 210656/371472 [5:43:08<13:03:13,  3.42it/s] 57%|█████▋    | 210657/371472 [5:43:08<12:55:55,  3.45it/s] 57%|█████▋    | 210658/371472 [5:43:09<12:30:38,  3.57it/s] 57%|█████▋    | 210659/371472 [5:43:09<12:10:41,  3.67it/s] 57%|█████▋    | 210660/371472 [5:43:09<12:32:25,  3.56it/s]                                                            {'loss': 2.9564, 'learning_rate': 4.898241720355965e-07, 'epoch': 9.07}
 57%|█████▋    | 210660/371472 [5:43:09<12:32:25,  3.56it/s] 57%|█████▋    | 210661/371472 [5:43:09<12:24:54,  3.60it/s] 57%|█████▋    | 210662/371472 [5:43:10<12:34:55,  3.55it/s] 57%|█████▋    | 210663/371472 [5:43:10<12:13:07,  3.66it/s] 57%|█████▋    | 210664/371472 [5:43:10<12:47:33,  3.49it/s] 57%|█████▋    | 210665/371472 [5:43:11<12:33:45,  3.56it/s] 57%|█████▋    | 210666/371472 [5:43:11<12:16:00,  3.64it/s] 57%|█████▋    | 210667/371472 [5:43:11<12:05:28,  3.69it/s] 57%|█████▋    | 210668/371472 [5:43:11<12:03:15,  3.71it/s] 57%|█████▋    | 210669/371472 [5:43:12<12:08:36,  3.68it/s] 57%|█████▋    | 210670/371472 [5:43:12<12:08:53,  3.68it/s] 57%|█████▋    | 210671/371472 [5:43:12<12:18:39,  3.63it/s] 57%|█████▋    | 210672/371472 [5:43:12<12:56:22,  3.45it/s] 57%|█████▋    | 210673/371472 [5:43:13<12:41:15,  3.52it/s] 57%|█████▋    | 210674/371472 [5:43:13<12:41:53,  3.52it/s] 57%|█████▋    | 210675/371472 [5:43:13<12:28:18,  3.58it/s] 57%|█████▋    | 210676/371472 [5:43:14<12:16:47,  3.64it/s] 57%|█████▋    | 210677/371472 [5:43:14<12:44:42,  3.50it/s] 57%|█████▋    | 210678/371472 [5:43:14<13:12:27,  3.38it/s] 57%|█████▋    | 210679/371472 [5:43:14<12:45:18,  3.50it/s] 57%|█████▋    | 210680/371472 [5:43:15<13:38:11,  3.28it/s]                                                            {'loss': 2.9543, 'learning_rate': 4.897756900601176e-07, 'epoch': 9.07}
 57%|█████▋    | 210680/371472 [5:43:15<13:38:11,  3.28it/s] 57%|█████▋    | 210681/371472 [5:43:15<13:23:40,  3.33it/s] 57%|█████▋    | 210682/371472 [5:43:15<13:08:22,  3.40it/s] 57%|█████▋    | 210683/371472 [5:43:16<13:10:26,  3.39it/s] 57%|█████▋    | 210684/371472 [5:43:16<12:57:31,  3.45it/s] 57%|█████▋    | 210685/371472 [5:43:16<12:16:16,  3.64it/s] 57%|█████▋    | 210686/371472 [5:43:16<12:40:40,  3.52it/s] 57%|█████▋    | 210687/371472 [5:43:17<12:50:01,  3.48it/s] 57%|█████▋    | 210688/371472 [5:43:17<13:09:07,  3.40it/s] 57%|█████▋    | 210689/371472 [5:43:17<12:42:47,  3.51it/s] 57%|█████▋    | 210690/371472 [5:43:18<12:19:41,  3.62it/s] 57%|█████▋    | 210691/371472 [5:43:18<12:17:04,  3.64it/s] 57%|█████▋    | 210692/371472 [5:43:18<12:13:51,  3.65it/s] 57%|█████▋    | 210693/371472 [5:43:18<12:12:41,  3.66it/s] 57%|█████▋    | 210694/371472 [5:43:19<12:26:26,  3.59it/s] 57%|█████▋    | 210695/371472 [5:43:19<12:21:33,  3.61it/s] 57%|█████▋    | 210696/371472 [5:43:19<12:07:51,  3.68it/s] 57%|█████▋    | 210697/371472 [5:43:20<12:06:01,  3.69it/s] 57%|█████▋    | 210698/371472 [5:43:20<11:53:23,  3.76it/s] 57%|█████▋    | 210699/371472 [5:43:20<12:03:57,  3.70it/s] 57%|█████▋    | 210700/371472 [5:43:20<11:50:50,  3.77it/s]                                                            {'loss': 3.1707, 'learning_rate': 4.897272080846387e-07, 'epoch': 9.08}
 57%|█████▋    | 210700/371472 [5:43:20<11:50:50,  3.77it/s] 57%|█████▋    | 210701/371472 [5:43:21<12:02:14,  3.71it/s] 57%|█████▋    | 210702/371472 [5:43:21<12:48:52,  3.48it/s] 57%|█████▋    | 210703/371472 [5:43:21<12:32:47,  3.56it/s] 57%|█████▋    | 210704/371472 [5:43:21<12:14:43,  3.65it/s] 57%|█████▋    | 210705/371472 [5:43:22<12:23:48,  3.60it/s] 57%|█████▋    | 210706/371472 [5:43:22<12:09:53,  3.67it/s] 57%|█████▋    | 210707/371472 [5:43:22<12:03:59,  3.70it/s] 57%|█████▋    | 210708/371472 [5:43:23<13:06:03,  3.41it/s] 57%|█████▋    | 210709/371472 [5:43:23<14:00:23,  3.19it/s] 57%|█████▋    | 210710/371472 [5:43:23<13:25:45,  3.33it/s] 57%|█████▋    | 210711/371472 [5:43:23<12:34:46,  3.55it/s] 57%|█████▋    | 210712/371472 [5:43:24<13:00:49,  3.43it/s] 57%|█████▋    | 210713/371472 [5:43:24<14:16:11,  3.13it/s] 57%|█████▋    | 210714/371472 [5:43:24<13:32:46,  3.30it/s] 57%|█████▋    | 210715/371472 [5:43:25<13:01:47,  3.43it/s] 57%|█████▋    | 210716/371472 [5:43:25<12:50:59,  3.48it/s] 57%|█████▋    | 210717/371472 [5:43:25<14:13:41,  3.14it/s] 57%|█████▋    | 210718/371472 [5:43:26<13:50:14,  3.23it/s] 57%|█████▋    | 210719/371472 [5:43:26<13:48:09,  3.24it/s] 57%|█████▋    | 210720/371472 [5:43:26<13:58:01,  3.20it/s]                                                            {'loss': 2.8833, 'learning_rate': 4.8967872610916e-07, 'epoch': 9.08}
 57%|█████▋    | 210720/371472 [5:43:26<13:58:01,  3.20it/s] 57%|█████▋    | 210721/371472 [5:43:27<13:59:11,  3.19it/s] 57%|█████▋    | 210722/371472 [5:43:27<13:36:06,  3.28it/s] 57%|█████▋    | 210723/371472 [5:43:27<14:29:28,  3.08it/s] 57%|█████▋    | 210724/371472 [5:43:28<13:57:51,  3.20it/s] 57%|█████▋    | 210725/371472 [5:43:28<16:46:19,  2.66it/s] 57%|█████▋    | 210726/371472 [5:43:28<17:03:51,  2.62it/s] 57%|█████▋    | 210727/371472 [5:43:29<15:41:18,  2.85it/s] 57%|█████▋    | 210728/371472 [5:43:29<14:49:30,  3.01it/s] 57%|█████▋    | 210729/371472 [5:43:30<17:04:01,  2.62it/s] 57%|█████▋    | 210730/371472 [5:43:30<16:19:01,  2.74it/s] 57%|█████▋    | 210731/371472 [5:43:30<15:20:04,  2.91it/s] 57%|█████▋    | 210732/371472 [5:43:30<14:52:29,  3.00it/s] 57%|█████▋    | 210733/371472 [5:43:31<14:05:21,  3.17it/s] 57%|█████▋    | 210734/371472 [5:43:31<13:32:03,  3.30it/s] 57%|█████▋    | 210735/371472 [5:43:31<13:07:22,  3.40it/s] 57%|█████▋    | 210736/371472 [5:43:32<12:43:32,  3.51it/s] 57%|█████▋    | 210737/371472 [5:43:32<13:02:50,  3.42it/s] 57%|█████▋    | 210738/371472 [5:43:32<12:29:28,  3.57it/s] 57%|█████▋    | 210739/371472 [5:43:32<12:17:17,  3.63it/s] 57%|█████▋    | 210740/371472 [5:43:33<12:19:23,  3.62it/s]                                                            {'loss': 2.9444, 'learning_rate': 4.896302441336809e-07, 'epoch': 9.08}
 57%|█████▋    | 210740/371472 [5:43:33<12:19:23,  3.62it/s] 57%|█████▋    | 210741/371472 [5:43:33<12:49:52,  3.48it/s] 57%|█████▋    | 210742/371472 [5:43:33<12:29:25,  3.57it/s] 57%|█████▋    | 210743/371472 [5:43:33<12:20:13,  3.62it/s] 57%|█████▋    | 210744/371472 [5:43:34<12:44:05,  3.51it/s] 57%|█████▋    | 210745/371472 [5:43:34<12:25:48,  3.59it/s] 57%|█████▋    | 210746/371472 [5:43:34<12:48:41,  3.48it/s] 57%|█████▋    | 210747/371472 [5:43:35<12:54:54,  3.46it/s] 57%|█████▋    | 210748/371472 [5:43:35<12:28:28,  3.58it/s] 57%|█████▋    | 210749/371472 [5:43:35<12:23:35,  3.60it/s] 57%|█████▋    | 210750/371472 [5:43:35<12:35:27,  3.55it/s] 57%|█████▋    | 210751/371472 [5:43:36<13:05:06,  3.41it/s] 57%|█████▋    | 210752/371472 [5:43:36<12:55:38,  3.45it/s] 57%|█████▋    | 210753/371472 [5:43:36<12:41:47,  3.52it/s] 57%|█████▋    | 210754/371472 [5:43:37<12:11:03,  3.66it/s] 57%|█████▋    | 210755/371472 [5:43:37<12:28:58,  3.58it/s] 57%|█████▋    | 210756/371472 [5:43:37<12:27:49,  3.58it/s] 57%|█████▋    | 210757/371472 [5:43:37<12:24:38,  3.60it/s] 57%|█████▋    | 210758/371472 [5:43:38<12:16:00,  3.64it/s] 57%|█████▋    | 210759/371472 [5:43:38<12:39:30,  3.53it/s] 57%|█████▋    | 210760/371472 [5:43:38<12:26:21,  3.59it/s]                                                            {'loss': 2.7709, 'learning_rate': 4.895817621582021e-07, 'epoch': 9.08}
 57%|█████▋    | 210760/371472 [5:43:38<12:26:21,  3.59it/s] 57%|█████▋    | 210761/371472 [5:43:39<12:58:39,  3.44it/s] 57%|█████▋    | 210762/371472 [5:43:39<12:41:32,  3.52it/s] 57%|█████▋    | 210763/371472 [5:43:39<12:41:55,  3.52it/s] 57%|█████▋    | 210764/371472 [5:43:39<12:22:58,  3.61it/s] 57%|█████▋    | 210765/371472 [5:43:40<12:40:12,  3.52it/s] 57%|█████▋    | 210766/371472 [5:43:40<12:33:45,  3.55it/s] 57%|█████▋    | 210767/371472 [5:43:40<12:17:24,  3.63it/s] 57%|█████▋    | 210768/371472 [5:43:41<12:06:37,  3.69it/s] 57%|█████▋    | 210769/371472 [5:43:41<12:03:25,  3.70it/s] 57%|█████▋    | 210770/371472 [5:43:41<12:48:31,  3.49it/s] 57%|█████▋    | 210771/371472 [5:43:41<13:18:04,  3.36it/s] 57%|█████▋    | 210772/371472 [5:43:42<13:10:48,  3.39it/s] 57%|█████▋    | 210773/371472 [5:43:42<13:22:48,  3.34it/s] 57%|█████▋    | 210774/371472 [5:43:42<12:53:59,  3.46it/s] 57%|█████▋    | 210775/371472 [5:43:43<12:40:50,  3.52it/s] 57%|█████▋    | 210776/371472 [5:43:43<13:37:34,  3.28it/s] 57%|█████▋    | 210777/371472 [5:43:43<13:26:38,  3.32it/s] 57%|█████▋    | 210778/371472 [5:43:43<12:51:04,  3.47it/s] 57%|█████▋    | 210779/371472 [5:43:44<12:23:46,  3.60it/s] 57%|█████▋    | 210780/371472 [5:43:44<13:30:27,  3.30it/s]                                                            {'loss': 2.8915, 'learning_rate': 4.895332801827232e-07, 'epoch': 9.08}
 57%|█████▋    | 210780/371472 [5:43:44<13:30:27,  3.30it/s] 57%|█████▋    | 210781/371472 [5:43:44<13:19:28,  3.35it/s] 57%|█████▋    | 210782/371472 [5:43:45<13:45:13,  3.25it/s] 57%|█████▋    | 210783/371472 [5:43:45<13:17:24,  3.36it/s] 57%|█████▋    | 210784/371472 [5:43:45<12:44:23,  3.50it/s] 57%|█████▋    | 210785/371472 [5:43:45<12:17:52,  3.63it/s] 57%|█████▋    | 210786/371472 [5:43:46<12:09:41,  3.67it/s] 57%|█████▋    | 210787/371472 [5:43:46<12:20:51,  3.61it/s] 57%|█████▋    | 210788/371472 [5:43:46<12:14:30,  3.65it/s] 57%|█████▋    | 210789/371472 [5:43:47<11:48:09,  3.78it/s] 57%|█████▋    | 210790/371472 [5:43:47<11:59:20,  3.72it/s] 57%|█████▋    | 210791/371472 [5:43:47<13:12:06,  3.38it/s] 57%|█████▋    | 210792/371472 [5:43:48<14:31:33,  3.07it/s] 57%|█████▋    | 210793/371472 [5:43:48<13:41:32,  3.26it/s] 57%|█████▋    | 210794/371472 [5:43:48<14:23:33,  3.10it/s] 57%|█████▋    | 210795/371472 [5:43:48<13:33:10,  3.29it/s] 57%|█████▋    | 210796/371472 [5:43:49<13:30:08,  3.31it/s] 57%|█████▋    | 210797/371472 [5:43:49<13:43:06,  3.25it/s] 57%|█████▋    | 210798/371472 [5:43:49<13:23:16,  3.33it/s] 57%|█████▋    | 210799/371472 [5:43:50<13:57:35,  3.20it/s] 57%|█████▋    | 210800/371472 [5:43:50<13:08:49,  3.39it/s]                                                            {'loss': 2.8535, 'learning_rate': 4.894847982072442e-07, 'epoch': 9.08}
 57%|█████▋    | 210800/371472 [5:43:50<13:08:49,  3.39it/s] 57%|█████▋    | 210801/371472 [5:43:50<13:16:54,  3.36it/s] 57%|█████▋    | 210802/371472 [5:43:51<14:01:13,  3.18it/s] 57%|█████▋    | 210803/371472 [5:43:51<13:44:02,  3.25it/s] 57%|█████▋    | 210804/371472 [5:43:51<13:03:50,  3.42it/s] 57%|█████▋    | 210805/371472 [5:43:51<12:45:00,  3.50it/s] 57%|█████▋    | 210806/371472 [5:43:52<12:41:44,  3.52it/s] 57%|█████▋    | 210807/371472 [5:43:52<12:43:20,  3.51it/s] 57%|█████▋    | 210808/371472 [5:43:52<14:13:34,  3.14it/s] 57%|█████▋    | 210809/371472 [5:43:53<13:47:04,  3.24it/s] 57%|█████▋    | 210810/371472 [5:43:53<13:22:57,  3.33it/s] 57%|█████▋    | 210811/371472 [5:43:53<13:02:52,  3.42it/s] 57%|█████▋    | 210812/371472 [5:43:54<13:29:09,  3.31it/s] 57%|█████▋    | 210813/371472 [5:43:54<13:22:51,  3.34it/s] 57%|█████▋    | 210814/371472 [5:43:54<14:13:33,  3.14it/s] 57%|█████▋    | 210815/371472 [5:43:54<13:13:28,  3.37it/s] 57%|█████▋    | 210816/371472 [5:43:55<13:00:50,  3.43it/s] 57%|█████▋    | 210817/371472 [5:43:55<12:41:37,  3.52it/s] 57%|█████▋    | 210818/371472 [5:43:55<12:59:46,  3.43it/s] 57%|█████▋    | 210819/371472 [5:43:56<12:51:53,  3.47it/s] 57%|█████▋    | 210820/371472 [5:43:56<12:21:55,  3.61it/s]                                                            {'loss': 2.9069, 'learning_rate': 4.894363162317653e-07, 'epoch': 9.08}
 57%|█████▋    | 210820/371472 [5:43:56<12:21:55,  3.61it/s] 57%|█████▋    | 210821/371472 [5:43:56<12:46:51,  3.49it/s] 57%|█████▋    | 210822/371472 [5:43:56<13:12:24,  3.38it/s] 57%|█████▋    | 210823/371472 [5:43:57<13:06:53,  3.40it/s] 57%|█████▋    | 210824/371472 [5:43:57<13:03:53,  3.42it/s] 57%|█████▋    | 210825/371472 [5:43:57<12:48:47,  3.48it/s] 57%|█████▋    | 210826/371472 [5:43:58<12:41:25,  3.52it/s] 57%|█████▋    | 210827/371472 [5:43:58<13:05:33,  3.41it/s] 57%|█████▋    | 210828/371472 [5:43:58<12:44:45,  3.50it/s] 57%|█████▋    | 210829/371472 [5:43:58<12:26:08,  3.59it/s] 57%|█████▋    | 210830/371472 [5:43:59<12:11:21,  3.66it/s] 57%|█████▋    | 210831/371472 [5:43:59<12:27:06,  3.58it/s] 57%|█████▋    | 210832/371472 [5:43:59<13:11:05,  3.38it/s] 57%|█████▋    | 210833/371472 [5:44:00<12:32:57,  3.56it/s] 57%|█████▋    | 210834/371472 [5:44:00<14:33:00,  3.07it/s] 57%|█████▋    | 210835/371472 [5:44:00<13:42:42,  3.25it/s] 57%|█████▋    | 210836/371472 [5:44:01<13:12:43,  3.38it/s] 57%|█████▋    | 210837/371472 [5:44:01<12:53:29,  3.46it/s] 57%|█████▋    | 210838/371472 [5:44:01<12:35:07,  3.55it/s] 57%|█████▋    | 210839/371472 [5:44:01<12:15:01,  3.64it/s] 57%|█████▋    | 210840/371472 [5:44:02<12:20:46,  3.61it/s]                                                            {'loss': 2.884, 'learning_rate': 4.893878342562864e-07, 'epoch': 9.08}
 57%|█████▋    | 210840/371472 [5:44:02<12:20:46,  3.61it/s] 57%|█████▋    | 210841/371472 [5:44:02<12:10:22,  3.67it/s] 57%|█████▋    | 210842/371472 [5:44:02<11:51:57,  3.76it/s] 57%|█████▋    | 210843/371472 [5:44:02<12:20:32,  3.62it/s] 57%|█████▋    | 210844/371472 [5:44:03<12:39:02,  3.53it/s] 57%|█████▋    | 210845/371472 [5:44:03<12:35:00,  3.55it/s] 57%|█████▋    | 210846/371472 [5:44:03<12:18:29,  3.63it/s] 57%|█████▋    | 210847/371472 [5:44:04<12:55:04,  3.45it/s] 57%|█████▋    | 210848/371472 [5:44:04<13:02:18,  3.42it/s] 57%|█████▋    | 210849/371472 [5:44:04<13:00:40,  3.43it/s] 57%|█████▋    | 210850/371472 [5:44:04<12:46:25,  3.49it/s] 57%|█████▋    | 210851/371472 [5:44:05<12:28:51,  3.57it/s] 57%|█████▋    | 210852/371472 [5:44:05<12:24:53,  3.59it/s] 57%|█████▋    | 210853/371472 [5:44:05<13:08:18,  3.40it/s] 57%|█████▋    | 210854/371472 [5:44:06<13:11:44,  3.38it/s] 57%|█████▋    | 210855/371472 [5:44:06<12:31:30,  3.56it/s] 57%|█████▋    | 210856/371472 [5:44:06<12:31:39,  3.56it/s] 57%|█████▋    | 210857/371472 [5:44:06<12:49:22,  3.48it/s] 57%|█████▋    | 210858/371472 [5:44:07<13:33:41,  3.29it/s] 57%|█████▋    | 210859/371472 [5:44:07<13:30:44,  3.30it/s] 57%|█████▋    | 210860/371472 [5:44:07<14:18:14,  3.12it/s]                                                            {'loss': 2.8654, 'learning_rate': 4.893393522808076e-07, 'epoch': 9.08}
 57%|█████▋    | 210860/371472 [5:44:07<14:18:14,  3.12it/s] 57%|█████▋    | 210861/371472 [5:44:08<14:05:13,  3.17it/s] 57%|█████▋    | 210862/371472 [5:44:08<13:47:05,  3.24it/s] 57%|█████▋    | 210863/371472 [5:44:08<13:14:11,  3.37it/s] 57%|█████▋    | 210864/371472 [5:44:09<13:05:09,  3.41it/s] 57%|█████▋    | 210865/371472 [5:44:09<12:49:39,  3.48it/s] 57%|█████▋    | 210866/371472 [5:44:09<12:52:52,  3.46it/s] 57%|█████▋    | 210867/371472 [5:44:09<12:31:32,  3.56it/s] 57%|█████▋    | 210868/371472 [5:44:10<12:58:15,  3.44it/s] 57%|█████▋    | 210869/371472 [5:44:10<13:21:08,  3.34it/s] 57%|█████▋    | 210870/371472 [5:44:10<13:19:02,  3.35it/s] 57%|█████▋    | 210871/371472 [5:44:11<12:48:26,  3.48it/s] 57%|█████▋    | 210872/371472 [5:44:11<12:43:18,  3.51it/s] 57%|█████▋    | 210873/371472 [5:44:11<12:29:06,  3.57it/s] 57%|█████▋    | 210874/371472 [5:44:11<12:23:16,  3.60it/s] 57%|█████▋    | 210875/371472 [5:44:12<12:03:20,  3.70it/s] 57%|█████▋    | 210876/371472 [5:44:12<11:57:24,  3.73it/s] 57%|█████▋    | 210877/371472 [5:44:12<11:46:46,  3.79it/s] 57%|█████▋    | 210878/371472 [5:44:12<11:41:10,  3.82it/s] 57%|█████▋    | 210879/371472 [5:44:13<11:56:28,  3.74it/s] 57%|█████▋    | 210880/371472 [5:44:13<11:58:21,  3.73it/s]                                                            {'loss': 2.9577, 'learning_rate': 4.892908703053286e-07, 'epoch': 9.08}
 57%|█████▋    | 210880/371472 [5:44:13<11:58:21,  3.73it/s] 57%|█████▋    | 210881/371472 [5:44:13<12:50:39,  3.47it/s] 57%|█████▋    | 210882/371472 [5:44:14<12:22:13,  3.61it/s] 57%|█████▋    | 210883/371472 [5:44:14<12:04:17,  3.70it/s] 57%|█████▋    | 210884/371472 [5:44:14<12:11:26,  3.66it/s] 57%|█████▋    | 210885/371472 [5:44:14<12:49:10,  3.48it/s] 57%|█████▋    | 210886/371472 [5:44:15<12:30:12,  3.57it/s] 57%|█████▋    | 210887/371472 [5:44:15<12:24:49,  3.59it/s] 57%|█████▋    | 210888/371472 [5:44:15<12:09:47,  3.67it/s] 57%|█████▋    | 210889/371472 [5:44:16<13:00:04,  3.43it/s] 57%|█████▋    | 210890/371472 [5:44:16<12:48:47,  3.48it/s] 57%|█████▋    | 210891/371472 [5:44:16<13:16:38,  3.36it/s] 57%|█████▋    | 210892/371472 [5:44:17<13:19:21,  3.35it/s] 57%|█████▋    | 210893/371472 [5:44:17<13:36:20,  3.28it/s] 57%|█████▋    | 210894/371472 [5:44:17<13:53:41,  3.21it/s] 57%|█████▋    | 210895/371472 [5:44:17<13:13:16,  3.37it/s] 57%|█████▋    | 210896/371472 [5:44:18<13:06:55,  3.40it/s] 57%|█████▋    | 210897/371472 [5:44:18<12:58:26,  3.44it/s] 57%|█████▋    | 210898/371472 [5:44:18<12:41:00,  3.52it/s] 57%|█████▋    | 210899/371472 [5:44:19<12:43:39,  3.50it/s] 57%|█████▋    | 210900/371472 [5:44:19<13:17:09,  3.36it/s]                                                            {'loss': 2.8171, 'learning_rate': 4.892423883298498e-07, 'epoch': 9.08}
 57%|█████▋    | 210900/371472 [5:44:19<13:17:09,  3.36it/s] 57%|█████▋    | 210901/371472 [5:44:19<13:01:13,  3.43it/s] 57%|█████▋    | 210902/371472 [5:44:19<12:48:25,  3.48it/s] 57%|█████▋    | 210903/371472 [5:44:20<12:48:54,  3.48it/s] 57%|█████▋    | 210904/371472 [5:44:20<13:28:55,  3.31it/s] 57%|█████▋    | 210905/371472 [5:44:20<13:11:31,  3.38it/s] 57%|█████▋    | 210906/371472 [5:44:21<12:37:58,  3.53it/s] 57%|█████▋    | 210907/371472 [5:44:21<12:21:42,  3.61it/s] 57%|█████▋    | 210908/371472 [5:44:21<12:12:20,  3.65it/s] 57%|█████▋    | 210909/371472 [5:44:21<13:26:59,  3.32it/s] 57%|█████▋    | 210910/371472 [5:44:22<13:52:46,  3.21it/s] 57%|█████▋    | 210911/371472 [5:44:22<14:20:14,  3.11it/s] 57%|█████▋    | 210912/371472 [5:44:22<13:46:51,  3.24it/s] 57%|█████▋    | 210913/371472 [5:44:23<13:34:22,  3.29it/s] 57%|█████▋    | 210914/371472 [5:44:23<13:02:17,  3.42it/s] 57%|█████▋    | 210915/371472 [5:44:23<13:16:47,  3.36it/s] 57%|█████▋    | 210916/371472 [5:44:24<13:17:18,  3.36it/s] 57%|█████▋    | 210917/371472 [5:44:24<12:57:19,  3.44it/s] 57%|█████▋    | 210918/371472 [5:44:24<12:52:32,  3.46it/s] 57%|█████▋    | 210919/371472 [5:44:24<12:40:32,  3.52it/s] 57%|█████▋    | 210920/371472 [5:44:25<12:35:39,  3.54it/s]                                                            {'loss': 3.0358, 'learning_rate': 4.891939063543709e-07, 'epoch': 9.08}
 57%|█████▋    | 210920/371472 [5:44:25<12:35:39,  3.54it/s] 57%|█████▋    | 210921/371472 [5:44:25<12:33:13,  3.55it/s] 57%|█████▋    | 210922/371472 [5:44:25<12:57:46,  3.44it/s] 57%|█████▋    | 210923/371472 [5:44:26<12:25:42,  3.59it/s] 57%|█████▋    | 210924/371472 [5:44:26<12:22:51,  3.60it/s] 57%|█████▋    | 210925/371472 [5:44:26<12:54:39,  3.45it/s] 57%|█████▋    | 210926/371472 [5:44:26<13:17:27,  3.36it/s] 57%|█████▋    | 210927/371472 [5:44:27<13:18:50,  3.35it/s] 57%|█████▋    | 210928/371472 [5:44:27<12:40:45,  3.52it/s] 57%|█████▋    | 210929/371472 [5:44:27<12:44:26,  3.50it/s] 57%|█████▋    | 210930/371472 [5:44:28<12:29:45,  3.57it/s] 57%|█████▋    | 210931/371472 [5:44:28<13:03:08,  3.42it/s] 57%|█████▋    | 210932/371472 [5:44:28<12:51:48,  3.47it/s] 57%|█████▋    | 210933/371472 [5:44:28<12:20:22,  3.61it/s] 57%|█████▋    | 210934/371472 [5:44:29<12:20:40,  3.61it/s] 57%|█████▋    | 210935/371472 [5:44:29<12:24:42,  3.59it/s] 57%|█████▋    | 210936/371472 [5:44:29<12:14:36,  3.64it/s] 57%|█████▋    | 210937/371472 [5:44:30<12:06:19,  3.68it/s] 57%|█████▋    | 210938/371472 [5:44:30<12:05:34,  3.69it/s] 57%|█████▋    | 210939/371472 [5:44:30<13:41:38,  3.26it/s] 57%|█████▋    | 210940/371472 [5:44:30<13:10:35,  3.38it/s]                                                            {'loss': 2.8813, 'learning_rate': 4.89145424378892e-07, 'epoch': 9.09}
 57%|█████▋    | 210940/371472 [5:44:30<13:10:35,  3.38it/s] 57%|█████▋    | 210941/371472 [5:44:31<14:05:17,  3.17it/s] 57%|█████▋    | 210942/371472 [5:44:31<13:51:33,  3.22it/s] 57%|█████▋    | 210943/371472 [5:44:31<13:04:54,  3.41it/s] 57%|█████▋    | 210944/371472 [5:44:32<13:05:23,  3.41it/s] 57%|█████▋    | 210945/371472 [5:44:32<13:05:41,  3.41it/s] 57%|█████▋    | 210946/371472 [5:44:32<13:13:44,  3.37it/s] 57%|█████▋    | 210947/371472 [5:44:33<12:37:09,  3.53it/s] 57%|█████▋    | 210948/371472 [5:44:33<12:22:25,  3.60it/s] 57%|█████▋    | 210949/371472 [5:44:33<12:18:20,  3.62it/s] 57%|█████▋    | 210950/371472 [5:44:33<12:32:11,  3.56it/s] 57%|█████▋    | 210951/371472 [5:44:34<12:32:55,  3.55it/s] 57%|█████▋    | 210952/371472 [5:44:34<12:24:19,  3.59it/s] 57%|█████▋    | 210953/371472 [5:44:34<13:00:29,  3.43it/s] 57%|█████▋    | 210954/371472 [5:44:35<14:41:18,  3.04it/s] 57%|█████▋    | 210955/371472 [5:44:35<13:48:55,  3.23it/s] 57%|█████▋    | 210956/371472 [5:44:35<13:23:44,  3.33it/s] 57%|█████▋    | 210957/371472 [5:44:35<12:58:33,  3.44it/s] 57%|█████▋    | 210958/371472 [5:44:36<13:18:31,  3.35it/s] 57%|█████▋    | 210959/371472 [5:44:36<13:02:07,  3.42it/s] 57%|█████▋    | 210960/371472 [5:44:36<12:46:29,  3.49it/s]                                                            {'loss': 2.7977, 'learning_rate': 4.89096942403413e-07, 'epoch': 9.09}
 57%|█████▋    | 210960/371472 [5:44:36<12:46:29,  3.49it/s] 57%|█████▋    | 210961/371472 [5:44:37<13:32:05,  3.29it/s] 57%|█████▋    | 210962/371472 [5:44:37<13:37:31,  3.27it/s] 57%|█████▋    | 210963/371472 [5:44:37<13:44:14,  3.25it/s] 57%|█████▋    | 210964/371472 [5:44:38<13:34:05,  3.29it/s] 57%|█████▋    | 210965/371472 [5:44:38<13:21:18,  3.34it/s] 57%|█████▋    | 210966/371472 [5:44:38<13:07:04,  3.40it/s] 57%|█████▋    | 210967/371472 [5:44:38<12:57:46,  3.44it/s] 57%|█████▋    | 210968/371472 [5:44:39<13:29:07,  3.31it/s] 57%|█████▋    | 210969/371472 [5:44:39<13:19:32,  3.35it/s] 57%|█████▋    | 210970/371472 [5:44:39<12:43:02,  3.51it/s] 57%|█████▋    | 210971/371472 [5:44:40<12:33:23,  3.55it/s] 57%|█████▋    | 210972/371472 [5:44:40<12:13:05,  3.65it/s] 57%|█████▋    | 210973/371472 [5:44:40<12:39:39,  3.52it/s] 57%|█████▋    | 210974/371472 [5:44:40<12:28:43,  3.57it/s] 57%|█████▋    | 210975/371472 [5:44:41<12:10:58,  3.66it/s] 57%|█████▋    | 210976/371472 [5:44:41<12:08:54,  3.67it/s] 57%|█████▋    | 210977/371472 [5:44:41<12:34:36,  3.54it/s] 57%|█████▋    | 210978/371472 [5:44:42<12:34:11,  3.55it/s] 57%|█████▋    | 210979/371472 [5:44:42<12:58:07,  3.44it/s] 57%|█████▋    | 210980/371472 [5:44:42<12:37:36,  3.53it/s]                                                            {'loss': 2.9194, 'learning_rate': 4.890484604279343e-07, 'epoch': 9.09}
 57%|█████▋    | 210980/371472 [5:44:42<12:37:36,  3.53it/s] 57%|█████▋    | 210981/371472 [5:44:42<12:35:17,  3.54it/s] 57%|█████▋    | 210982/371472 [5:44:43<12:52:10,  3.46it/s] 57%|█████▋    | 210983/371472 [5:44:43<12:47:58,  3.48it/s] 57%|█████▋    | 210984/371472 [5:44:43<13:21:03,  3.34it/s] 57%|█████▋    | 210985/371472 [5:44:44<12:53:23,  3.46it/s] 57%|█████▋    | 210986/371472 [5:44:44<12:36:45,  3.53it/s] 57%|█████▋    | 210987/371472 [5:44:44<12:30:16,  3.57it/s] 57%|█████▋    | 210988/371472 [5:44:44<12:23:14,  3.60it/s] 57%|█████▋    | 210989/371472 [5:44:45<12:25:27,  3.59it/s] 57%|█████▋    | 210990/371472 [5:44:45<12:16:22,  3.63it/s] 57%|█████▋    | 210991/371472 [5:44:45<11:59:23,  3.72it/s] 57%|█████▋    | 210992/371472 [5:44:45<12:22:02,  3.60it/s] 57%|█████▋    | 210993/371472 [5:44:46<12:17:51,  3.62it/s] 57%|█████▋    | 210994/371472 [5:44:46<12:16:06,  3.63it/s] 57%|█████▋    | 210995/371472 [5:44:46<12:30:48,  3.56it/s] 57%|█████▋    | 210996/371472 [5:44:47<13:31:57,  3.29it/s] 57%|█████▋    | 210997/371472 [5:44:47<13:19:37,  3.34it/s] 57%|█████▋    | 210998/371472 [5:44:47<12:58:51,  3.43it/s] 57%|█████▋    | 210999/371472 [5:44:48<13:03:10,  3.42it/s] 57%|█████▋    | 211000/371472 [5:44:48<13:10:43,  3.38it/s]                                                            {'loss': 2.8593, 'learning_rate': 4.889999784524553e-07, 'epoch': 9.09}
 57%|█████▋    | 211000/371472 [5:44:48<13:10:43,  3.38it/s] 57%|█████▋    | 211001/371472 [5:44:48<12:38:07,  3.53it/s] 57%|█████▋    | 211002/371472 [5:44:48<12:48:53,  3.48it/s] 57%|█████▋    | 211003/371472 [5:44:49<13:56:12,  3.20it/s] 57%|█████▋    | 211004/371472 [5:44:49<13:34:38,  3.28it/s] 57%|█████▋    | 211005/371472 [5:44:49<13:40:47,  3.26it/s] 57%|█████▋    | 211006/371472 [5:44:50<13:02:36,  3.42it/s] 57%|█████▋    | 211007/371472 [5:44:50<13:05:25,  3.41it/s] 57%|█████▋    | 211008/371472 [5:44:50<12:43:48,  3.50it/s] 57%|█████▋    | 211009/371472 [5:44:50<12:39:44,  3.52it/s] 57%|█████▋    | 211010/371472 [5:44:51<12:31:12,  3.56it/s] 57%|█████▋    | 211011/371472 [5:44:51<13:21:17,  3.34it/s] 57%|█████▋    | 211012/371472 [5:44:51<13:13:12,  3.37it/s] 57%|█████▋    | 211013/371472 [5:44:52<12:51:33,  3.47it/s] 57%|█████▋    | 211014/371472 [5:44:52<12:23:02,  3.60it/s] 57%|█████▋    | 211015/371472 [5:44:52<11:59:51,  3.72it/s] 57%|█████▋    | 211016/371472 [5:44:52<11:44:47,  3.79it/s] 57%|█████▋    | 211017/371472 [5:44:53<12:06:35,  3.68it/s] 57%|█████▋    | 211018/371472 [5:44:53<11:53:04,  3.75it/s] 57%|█████▋    | 211019/371472 [5:44:53<11:41:07,  3.81it/s] 57%|█████▋    | 211020/371472 [5:44:53<12:05:31,  3.69it/s]                                                            {'loss': 2.9528, 'learning_rate': 4.889514964769764e-07, 'epoch': 9.09}
 57%|█████▋    | 211020/371472 [5:44:53<12:05:31,  3.69it/s] 57%|█████▋    | 211021/371472 [5:44:54<12:23:13,  3.60it/s] 57%|█████▋    | 211022/371472 [5:44:54<12:41:32,  3.51it/s] 57%|█████▋    | 211023/371472 [5:44:54<13:23:00,  3.33it/s] 57%|█████▋    | 211024/371472 [5:44:55<13:06:23,  3.40it/s] 57%|█████▋    | 211025/371472 [5:44:55<13:12:44,  3.37it/s] 57%|█████▋    | 211026/371472 [5:44:55<12:56:06,  3.45it/s] 57%|█████▋    | 211027/371472 [5:44:56<12:30:42,  3.56it/s] 57%|█████▋    | 211028/371472 [5:44:56<12:43:06,  3.50it/s] 57%|█████▋    | 211029/371472 [5:44:56<12:34:33,  3.54it/s] 57%|█████▋    | 211030/371472 [5:44:56<12:25:29,  3.59it/s] 57%|█████▋    | 211031/371472 [5:44:57<11:57:31,  3.73it/s] 57%|█████▋    | 211032/371472 [5:44:57<12:55:32,  3.45it/s] 57%|█████▋    | 211033/371472 [5:44:57<12:48:35,  3.48it/s] 57%|█████▋    | 211034/371472 [5:44:58<12:51:29,  3.47it/s] 57%|█████▋    | 211035/371472 [5:44:58<12:28:01,  3.57it/s] 57%|█████▋    | 211036/371472 [5:44:58<11:55:15,  3.74it/s] 57%|█████▋    | 211037/371472 [5:44:58<12:08:58,  3.67it/s] 57%|█████▋    | 211038/371472 [5:44:59<12:45:42,  3.49it/s] 57%|█████▋    | 211039/371472 [5:44:59<12:34:45,  3.54it/s] 57%|█████▋    | 211040/371472 [5:44:59<12:42:23,  3.51it/s]                                                            {'loss': 2.8224, 'learning_rate': 4.889030145014975e-07, 'epoch': 9.09}
 57%|█████▋    | 211040/371472 [5:44:59<12:42:23,  3.51it/s] 57%|█████▋    | 211041/371472 [5:44:59<12:19:45,  3.61it/s] 57%|█████▋    | 211042/371472 [5:45:00<12:02:59,  3.70it/s] 57%|█████▋    | 211043/371472 [5:45:00<11:50:30,  3.76it/s] 57%|█████▋    | 211044/371472 [5:45:00<12:14:06,  3.64it/s] 57%|█████▋    | 211045/371472 [5:45:01<12:03:19,  3.70it/s] 57%|█████▋    | 211046/371472 [5:45:01<11:49:12,  3.77it/s] 57%|█████▋    | 211047/371472 [5:45:01<11:40:02,  3.82it/s] 57%|█████▋    | 211048/371472 [5:45:01<11:53:58,  3.74it/s] 57%|█████▋    | 211049/371472 [5:45:02<12:05:55,  3.68it/s] 57%|█████▋    | 211050/371472 [5:45:02<12:53:09,  3.46it/s] 57%|█████▋    | 211051/371472 [5:45:02<12:29:26,  3.57it/s] 57%|█████▋    | 211052/371472 [5:45:02<12:28:46,  3.57it/s] 57%|█████▋    | 211053/371472 [5:45:03<12:26:58,  3.58it/s] 57%|█████▋    | 211054/371472 [5:45:03<12:22:17,  3.60it/s] 57%|█████▋    | 211055/371472 [5:45:03<12:17:24,  3.63it/s] 57%|█████▋    | 211056/371472 [5:45:04<12:08:37,  3.67it/s] 57%|█████▋    | 211057/371472 [5:45:04<12:54:56,  3.45it/s] 57%|█████▋    | 211058/371472 [5:45:04<12:32:18,  3.55it/s] 57%|█████▋    | 211059/371472 [5:45:04<12:35:45,  3.54it/s] 57%|█████▋    | 211060/371472 [5:45:05<12:25:22,  3.59it/s]                                                            {'loss': 3.1182, 'learning_rate': 4.888545325260186e-07, 'epoch': 9.09}
 57%|█████▋    | 211060/371472 [5:45:05<12:25:22,  3.59it/s] 57%|█████▋    | 211061/371472 [5:45:05<12:55:35,  3.45it/s] 57%|█████▋    | 211062/371472 [5:45:05<12:41:46,  3.51it/s] 57%|█████▋    | 211063/371472 [5:45:06<13:30:35,  3.30it/s] 57%|█████▋    | 211064/371472 [5:45:06<12:46:31,  3.49it/s] 57%|█████▋    | 211065/371472 [5:45:06<13:03:28,  3.41it/s] 57%|█████▋    | 211066/371472 [5:45:06<12:34:01,  3.55it/s] 57%|█████▋    | 211067/371472 [5:45:07<12:47:44,  3.48it/s] 57%|█████▋    | 211068/371472 [5:45:07<12:55:10,  3.45it/s] 57%|█████▋    | 211069/371472 [5:45:07<13:09:25,  3.39it/s] 57%|█████▋    | 211070/371472 [5:45:08<12:40:53,  3.51it/s] 57%|█████▋    | 211071/371472 [5:45:08<12:28:24,  3.57it/s] 57%|█████▋    | 211072/371472 [5:45:08<12:13:56,  3.64it/s] 57%|█████▋    | 211073/371472 [5:45:08<12:15:35,  3.63it/s] 57%|█████▋    | 211074/371472 [5:45:09<13:12:43,  3.37it/s] 57%|█████▋    | 211075/371472 [5:45:09<12:54:25,  3.45it/s] 57%|█████▋    | 211076/371472 [5:45:09<12:54:52,  3.45it/s] 57%|█████▋    | 211077/371472 [5:45:10<12:28:18,  3.57it/s] 57%|█████▋    | 211078/371472 [5:45:10<13:04:28,  3.41it/s] 57%|█████▋    | 211079/371472 [5:45:10<13:25:18,  3.32it/s] 57%|█████▋    | 211080/371472 [5:45:11<13:22:41,  3.33it/s]                                                            {'loss': 2.8769, 'learning_rate': 4.888060505505397e-07, 'epoch': 9.09}
 57%|█████▋    | 211080/371472 [5:45:11<13:22:41,  3.33it/s] 57%|█████▋    | 211081/371472 [5:45:11<13:02:49,  3.41it/s] 57%|█████▋    | 211082/371472 [5:45:11<12:28:18,  3.57it/s] 57%|█████▋    | 211083/371472 [5:45:11<12:20:12,  3.61it/s] 57%|█████▋    | 211084/371472 [5:45:12<12:28:57,  3.57it/s] 57%|█████▋    | 211085/371472 [5:45:12<12:03:53,  3.69it/s] 57%|█████▋    | 211086/371472 [5:45:12<12:32:54,  3.55it/s] 57%|█████▋    | 211087/371472 [5:45:12<12:06:29,  3.68it/s] 57%|█████▋    | 211088/371472 [5:45:13<12:11:44,  3.65it/s] 57%|█████▋    | 211089/371472 [5:45:13<12:26:23,  3.58it/s] 57%|█████▋    | 211090/371472 [5:45:13<12:24:24,  3.59it/s] 57%|█████▋    | 211091/371472 [5:45:14<12:31:25,  3.56it/s] 57%|█████▋    | 211092/371472 [5:45:14<12:37:09,  3.53it/s] 57%|█████▋    | 211093/371472 [5:45:14<12:10:51,  3.66it/s] 57%|█████▋    | 211094/371472 [5:45:14<12:12:14,  3.65it/s] 57%|█████▋    | 211095/371472 [5:45:15<12:16:32,  3.63it/s] 57%|█████▋    | 211096/371472 [5:45:15<12:12:26,  3.65it/s] 57%|█████▋    | 211097/371472 [5:45:15<12:19:13,  3.62it/s] 57%|█████▋    | 211098/371472 [5:45:15<12:15:16,  3.64it/s] 57%|█████▋    | 211099/371472 [5:45:16<12:12:31,  3.65it/s] 57%|█████▋    | 211100/371472 [5:45:16<12:06:01,  3.68it/s]                                                            {'loss': 2.9275, 'learning_rate': 4.88757568575061e-07, 'epoch': 9.09}
 57%|█████▋    | 211100/371472 [5:45:16<12:06:01,  3.68it/s] 57%|█████▋    | 211101/371472 [5:45:16<12:01:44,  3.70it/s] 57%|█████▋    | 211102/371472 [5:45:17<12:10:57,  3.66it/s] 57%|█████▋    | 211103/371472 [5:45:17<12:48:12,  3.48it/s] 57%|█████▋    | 211104/371472 [5:45:17<13:29:16,  3.30it/s] 57%|█████▋    | 211105/371472 [5:45:17<12:50:51,  3.47it/s] 57%|█████▋    | 211106/371472 [5:45:18<13:52:54,  3.21it/s] 57%|█████▋    | 211107/371472 [5:45:18<13:59:52,  3.18it/s] 57%|█████▋    | 211108/371472 [5:45:18<13:46:56,  3.23it/s] 57%|█████▋    | 211109/371472 [5:45:19<14:03:53,  3.17it/s] 57%|█████▋    | 211110/371472 [5:45:19<13:43:19,  3.25it/s] 57%|█████▋    | 211111/371472 [5:45:19<13:38:22,  3.27it/s] 57%|█████▋    | 211112/371472 [5:45:20<13:38:52,  3.26it/s] 57%|█████▋    | 211113/371472 [5:45:20<13:22:02,  3.33it/s] 57%|█████▋    | 211114/371472 [5:45:20<13:18:55,  3.35it/s] 57%|█████▋    | 211115/371472 [5:45:21<12:45:13,  3.49it/s] 57%|█████▋    | 211116/371472 [5:45:21<13:15:34,  3.36it/s] 57%|█████▋    | 211117/371472 [5:45:21<12:46:33,  3.49it/s] 57%|█████▋    | 211118/371472 [5:45:21<12:47:55,  3.48it/s] 57%|█████▋    | 211119/371472 [5:45:22<12:45:54,  3.49it/s] 57%|█████▋    | 211120/371472 [5:45:22<13:25:43,  3.32it/s]                                                            {'loss': 2.936, 'learning_rate': 4.887090865995819e-07, 'epoch': 9.09}
 57%|█████▋    | 211120/371472 [5:45:22<13:25:43,  3.32it/s] 57%|█████▋    | 211121/371472 [5:45:22<13:20:37,  3.34it/s] 57%|█████▋    | 211122/371472 [5:45:23<13:06:44,  3.40it/s] 57%|█████▋    | 211123/371472 [5:45:23<12:59:32,  3.43it/s] 57%|█████▋    | 211124/371472 [5:45:23<12:44:22,  3.50it/s] 57%|█████▋    | 211125/371472 [5:45:23<12:29:40,  3.56it/s] 57%|█████▋    | 211126/371472 [5:45:24<11:59:03,  3.72it/s] 57%|█████▋    | 211127/371472 [5:45:24<12:12:29,  3.65it/s] 57%|█████▋    | 211128/371472 [5:45:24<12:35:12,  3.54it/s] 57%|█████▋    | 211129/371472 [5:45:25<13:23:17,  3.33it/s] 57%|█████▋    | 211130/371472 [5:45:25<12:51:18,  3.46it/s] 57%|█████▋    | 211131/371472 [5:45:25<13:43:38,  3.24it/s] 57%|█████▋    | 211132/371472 [5:45:26<13:58:27,  3.19it/s] 57%|█████▋    | 211133/371472 [5:45:26<13:41:27,  3.25it/s] 57%|█████▋    | 211134/371472 [5:45:26<13:12:20,  3.37it/s] 57%|█████▋    | 211135/371472 [5:45:26<13:22:50,  3.33it/s] 57%|█████▋    | 211136/371472 [5:45:27<13:34:27,  3.28it/s] 57%|█████▋    | 211137/371472 [5:45:27<13:11:07,  3.38it/s] 57%|█████▋    | 211138/371472 [5:45:27<12:48:25,  3.48it/s] 57%|█████▋    | 211139/371472 [5:45:28<12:49:51,  3.47it/s] 57%|█████▋    | 211140/371472 [5:45:28<12:40:03,  3.52it/s]                                                            {'loss': 2.9349, 'learning_rate': 4.886606046241031e-07, 'epoch': 9.09}
 57%|█████▋    | 211140/371472 [5:45:28<12:40:03,  3.52it/s] 57%|█████▋    | 211141/371472 [5:45:28<12:31:40,  3.55it/s] 57%|█████▋    | 211142/371472 [5:45:28<13:27:10,  3.31it/s] 57%|█████▋    | 211143/371472 [5:45:29<13:11:22,  3.38it/s] 57%|█████▋    | 211144/371472 [5:45:29<12:46:23,  3.49it/s] 57%|█████▋    | 211145/371472 [5:45:29<12:04:29,  3.69it/s] 57%|█████▋    | 211146/371472 [5:45:30<12:36:58,  3.53it/s] 57%|█████▋    | 211147/371472 [5:45:30<12:59:26,  3.43it/s] 57%|█████▋    | 211148/371472 [5:45:30<12:55:16,  3.45it/s] 57%|█████▋    | 211149/371472 [5:45:30<12:46:50,  3.48it/s] 57%|█████▋    | 211150/371472 [5:45:31<12:43:42,  3.50it/s] 57%|█████▋    | 211151/371472 [5:45:31<12:55:50,  3.44it/s] 57%|█████▋    | 211152/371472 [5:45:31<12:50:46,  3.47it/s] 57%|█████▋    | 211153/371472 [5:45:32<12:30:41,  3.56it/s] 57%|█████▋    | 211154/371472 [5:45:32<12:24:40,  3.59it/s] 57%|█████▋    | 211155/371472 [5:45:32<12:08:10,  3.67it/s] 57%|█████▋    | 211156/371472 [5:45:32<11:58:59,  3.72it/s] 57%|█████▋    | 211157/371472 [5:45:33<11:56:55,  3.73it/s] 57%|█████▋    | 211158/371472 [5:45:33<12:13:45,  3.64it/s] 57%|█████▋    | 211159/371472 [5:45:33<12:08:49,  3.67it/s] 57%|█████▋    | 211160/371472 [5:45:33<13:01:33,  3.42it/s]                                                            {'loss': 3.0423, 'learning_rate': 4.886121226486242e-07, 'epoch': 9.1}
 57%|█████▋    | 211160/371472 [5:45:33<13:01:33,  3.42it/s] 57%|█████▋    | 211161/371472 [5:45:34<12:43:07,  3.50it/s] 57%|█████▋    | 211162/371472 [5:45:34<12:11:51,  3.65it/s] 57%|█████▋    | 211163/371472 [5:45:34<12:08:17,  3.67it/s] 57%|█████▋    | 211164/371472 [5:45:35<12:17:08,  3.62it/s] 57%|█████▋    | 211165/371472 [5:45:35<12:51:25,  3.46it/s] 57%|█████▋    | 211166/371472 [5:45:35<12:32:59,  3.55it/s] 57%|█████▋    | 211167/371472 [5:45:35<12:18:31,  3.62it/s] 57%|█████▋    | 211168/371472 [5:45:36<12:02:42,  3.70it/s] 57%|█████▋    | 211169/371472 [5:45:36<13:34:32,  3.28it/s] 57%|█████▋    | 211170/371472 [5:45:36<13:33:47,  3.28it/s] 57%|█████▋    | 211171/371472 [5:45:37<13:29:18,  3.30it/s] 57%|█████▋    | 211172/371472 [5:45:37<13:34:21,  3.28it/s] 57%|█████▋    | 211173/371472 [5:45:37<13:23:05,  3.33it/s] 57%|█████▋    | 211174/371472 [5:45:38<13:05:13,  3.40it/s] 57%|█████▋    | 211175/371472 [5:45:38<13:01:02,  3.42it/s] 57%|█████▋    | 211176/371472 [5:45:38<14:01:59,  3.17it/s] 57%|█████▋    | 211177/371472 [5:45:39<13:59:23,  3.18it/s] 57%|█████▋    | 211178/371472 [5:45:39<13:20:10,  3.34it/s] 57%|█████▋    | 211179/371472 [5:45:39<12:55:54,  3.44it/s] 57%|█████▋    | 211180/371472 [5:45:39<12:25:28,  3.58it/s]                                                            {'loss': 3.0168, 'learning_rate': 4.885636406731452e-07, 'epoch': 9.1}
 57%|█████▋    | 211180/371472 [5:45:39<12:25:28,  3.58it/s] 57%|█████▋    | 211181/371472 [5:45:40<12:55:36,  3.44it/s] 57%|█████▋    | 211182/371472 [5:45:40<13:38:16,  3.26it/s] 57%|█████▋    | 211183/371472 [5:45:40<13:07:21,  3.39it/s] 57%|█████▋    | 211184/371472 [5:45:40<12:43:02,  3.50it/s] 57%|█████▋    | 211185/371472 [5:45:41<12:24:43,  3.59it/s] 57%|█████▋    | 211186/371472 [5:45:41<12:24:44,  3.59it/s] 57%|█████▋    | 211187/371472 [5:45:41<12:27:46,  3.57it/s] 57%|█████▋    | 211188/371472 [5:45:42<13:26:13,  3.31it/s] 57%|█████▋    | 211189/371472 [5:45:42<13:30:21,  3.30it/s] 57%|█████▋    | 211190/371472 [5:45:42<13:15:10,  3.36it/s] 57%|█████▋    | 211191/371472 [5:45:43<13:00:17,  3.42it/s] 57%|█████▋    | 211192/371472 [5:45:43<12:52:14,  3.46it/s] 57%|█████▋    | 211193/371472 [5:45:43<12:34:56,  3.54it/s] 57%|█████▋    | 211194/371472 [5:45:43<12:10:48,  3.66it/s] 57%|█████▋    | 211195/371472 [5:45:44<12:04:48,  3.69it/s] 57%|█████▋    | 211196/371472 [5:45:44<12:36:56,  3.53it/s] 57%|█████▋    | 211197/371472 [5:45:44<14:11:38,  3.14it/s] 57%|█████▋    | 211198/371472 [5:45:45<14:47:42,  3.01it/s] 57%|█████▋    | 211199/371472 [5:45:45<14:27:04,  3.08it/s] 57%|█████▋    | 211200/371472 [5:45:45<13:55:38,  3.20it/s]                                                            {'loss': 2.9087, 'learning_rate': 4.885151586976663e-07, 'epoch': 9.1}
 57%|█████▋    | 211200/371472 [5:45:45<13:55:38,  3.20it/s] 57%|█████▋    | 211201/371472 [5:45:46<13:26:03,  3.31it/s] 57%|█████▋    | 211202/371472 [5:45:46<13:08:11,  3.39it/s] 57%|█████▋    | 211203/371472 [5:45:46<12:35:25,  3.54it/s] 57%|█████▋    | 211204/371472 [5:45:46<12:55:39,  3.44it/s] 57%|█████▋    | 211205/371472 [5:45:47<13:09:20,  3.38it/s] 57%|█████▋    | 211206/371472 [5:45:47<12:39:06,  3.52it/s] 57%|█████▋    | 211207/371472 [5:45:47<13:26:47,  3.31it/s] 57%|█████▋    | 211208/371472 [5:45:48<12:47:19,  3.48it/s] 57%|█████▋    | 211209/371472 [5:45:48<12:35:03,  3.54it/s] 57%|█████▋    | 211210/371472 [5:45:48<12:09:12,  3.66it/s] 57%|█████▋    | 211211/371472 [5:45:48<11:51:13,  3.76it/s] 57%|█████▋    | 211212/371472 [5:45:49<11:51:08,  3.76it/s] 57%|█████▋    | 211213/371472 [5:45:49<13:05:27,  3.40it/s] 57%|█████▋    | 211214/371472 [5:45:49<13:54:01,  3.20it/s] 57%|█████▋    | 211215/371472 [5:45:50<13:24:12,  3.32it/s] 57%|█████▋    | 211216/371472 [5:45:50<12:48:44,  3.47it/s] 57%|█████▋    | 211217/371472 [5:45:50<12:31:50,  3.55it/s] 57%|█████▋    | 211218/371472 [5:45:50<12:33:40,  3.54it/s] 57%|█████▋    | 211219/371472 [5:45:51<12:44:17,  3.49it/s] 57%|█████▋    | 211220/371472 [5:45:51<12:45:33,  3.49it/s]                                                            {'loss': 2.9746, 'learning_rate': 4.884666767221876e-07, 'epoch': 9.1}
 57%|█████▋    | 211220/371472 [5:45:51<12:45:33,  3.49it/s] 57%|█████▋    | 211221/371472 [5:45:51<12:33:48,  3.54it/s] 57%|█████▋    | 211222/371472 [5:45:52<12:31:56,  3.55it/s] 57%|█████▋    | 211223/371472 [5:45:52<13:25:47,  3.31it/s] 57%|█████▋    | 211224/371472 [5:45:52<13:03:39,  3.41it/s] 57%|█████▋    | 211225/371472 [5:45:52<12:46:53,  3.48it/s] 57%|█████▋    | 211226/371472 [5:45:53<14:03:00,  3.17it/s] 57%|█████▋    | 211227/371472 [5:45:53<13:53:22,  3.20it/s] 57%|█████▋    | 211228/371472 [5:45:53<13:50:55,  3.21it/s] 57%|█████▋    | 211229/371472 [5:45:54<14:18:16,  3.11it/s] 57%|█████▋    | 211230/371472 [5:45:54<13:23:08,  3.33it/s] 57%|█████▋    | 211231/371472 [5:45:54<12:56:08,  3.44it/s] 57%|█████▋    | 211232/371472 [5:45:55<13:30:46,  3.29it/s] 57%|█████▋    | 211233/371472 [5:45:55<13:31:29,  3.29it/s] 57%|█████▋    | 211234/371472 [5:45:55<15:03:17,  2.96it/s] 57%|█████▋    | 211235/371472 [5:45:56<14:34:00,  3.06it/s] 57%|█████▋    | 211236/371472 [5:45:56<14:05:18,  3.16it/s] 57%|█████▋    | 211237/371472 [5:45:56<13:29:28,  3.30it/s] 57%|█████▋    | 211238/371472 [5:45:56<12:58:43,  3.43it/s] 57%|█████▋    | 211239/371472 [5:45:57<13:01:23,  3.42it/s] 57%|█████▋    | 211240/371472 [5:45:57<12:29:17,  3.56it/s]                                                            {'loss': 3.036, 'learning_rate': 4.884181947467086e-07, 'epoch': 9.1}
 57%|█████▋    | 211240/371472 [5:45:57<12:29:17,  3.56it/s] 57%|█████▋    | 211241/371472 [5:45:57<12:19:10,  3.61it/s] 57%|█████▋    | 211242/371472 [5:45:58<12:58:49,  3.43it/s] 57%|█████▋    | 211243/371472 [5:45:58<12:44:09,  3.49it/s] 57%|█████▋    | 211244/371472 [5:45:58<12:40:46,  3.51it/s] 57%|█████▋    | 211245/371472 [5:45:58<12:52:36,  3.46it/s] 57%|█████▋    | 211246/371472 [5:45:59<12:45:14,  3.49it/s] 57%|█████▋    | 211247/371472 [5:45:59<13:04:59,  3.40it/s] 57%|█████▋    | 211248/371472 [5:45:59<12:51:22,  3.46it/s] 57%|█████▋    | 211249/371472 [5:46:00<12:21:28,  3.60it/s] 57%|█████▋    | 211250/371472 [5:46:00<12:31:05,  3.56it/s] 57%|█████▋    | 211251/371472 [5:46:00<12:34:23,  3.54it/s] 57%|█████▋    | 211252/371472 [5:46:00<12:29:52,  3.56it/s] 57%|█████▋    | 211253/371472 [5:46:01<13:18:08,  3.35it/s] 57%|█████▋    | 211254/371472 [5:46:01<12:40:11,  3.51it/s] 57%|█████▋    | 211255/371472 [5:46:01<12:43:28,  3.50it/s] 57%|█████▋    | 211256/371472 [5:46:02<13:05:50,  3.40it/s] 57%|█████▋    | 211257/371472 [5:46:02<12:32:52,  3.55it/s] 57%|█████▋    | 211258/371472 [5:46:02<12:51:39,  3.46it/s] 57%|█████▋    | 211259/371472 [5:46:02<12:24:41,  3.59it/s] 57%|█████▋    | 211260/371472 [5:46:03<13:20:33,  3.34it/s]                                                            {'loss': 2.8721, 'learning_rate': 4.883697127712297e-07, 'epoch': 9.1}
 57%|█████▋    | 211260/371472 [5:46:03<13:20:33,  3.34it/s] 57%|█████▋    | 211261/371472 [5:46:03<13:09:22,  3.38it/s] 57%|█████▋    | 211262/371472 [5:46:03<12:34:52,  3.54it/s] 57%|█████▋    | 211263/371472 [5:46:04<12:33:30,  3.54it/s] 57%|█████▋    | 211264/371472 [5:46:04<12:09:37,  3.66it/s] 57%|█████▋    | 211265/371472 [5:46:04<11:55:55,  3.73it/s] 57%|█████▋    | 211266/371472 [5:46:04<12:02:28,  3.70it/s] 57%|█████▋    | 211267/371472 [5:46:05<12:07:29,  3.67it/s] 57%|█████▋    | 211268/371472 [5:46:05<12:24:06,  3.59it/s] 57%|█████▋    | 211269/371472 [5:46:05<13:07:48,  3.39it/s] 57%|█████▋    | 211270/371472 [5:46:06<12:42:07,  3.50it/s] 57%|█████▋    | 211271/371472 [5:46:06<13:29:14,  3.30it/s] 57%|█████▋    | 211272/371472 [5:46:06<13:25:03,  3.32it/s] 57%|█████▋    | 211273/371472 [5:46:07<13:30:51,  3.29it/s] 57%|█████▋    | 211274/371472 [5:46:07<13:15:17,  3.36it/s] 57%|█████▋    | 211275/371472 [5:46:07<13:24:32,  3.32it/s] 57%|█████▋    | 211276/371472 [5:46:07<13:53:18,  3.20it/s] 57%|█████▋    | 211277/371472 [5:46:08<13:24:32,  3.32it/s] 57%|█████▋    | 211278/371472 [5:46:08<12:59:36,  3.42it/s] 57%|█████▋    | 211279/371472 [5:46:08<13:03:34,  3.41it/s] 57%|█████▋    | 211280/371472 [5:46:09<12:31:24,  3.55it/s]                                                            {'loss': 2.8238, 'learning_rate': 4.883212307957508e-07, 'epoch': 9.1}
 57%|█████▋    | 211280/371472 [5:46:09<12:31:24,  3.55it/s] 57%|█████▋    | 211281/371472 [5:46:09<13:01:37,  3.42it/s] 57%|█████▋    | 211282/371472 [5:46:09<13:12:23,  3.37it/s] 57%|█████▋    | 211283/371472 [5:46:09<12:48:46,  3.47it/s] 57%|█████▋    | 211284/371472 [5:46:10<12:42:27,  3.50it/s] 57%|█████▋    | 211285/371472 [5:46:10<13:09:43,  3.38it/s] 57%|█████▋    | 211286/371472 [5:46:10<12:36:08,  3.53it/s] 57%|█████▋    | 211287/371472 [5:46:11<12:32:17,  3.55it/s] 57%|█████▋    | 211288/371472 [5:46:11<12:27:05,  3.57it/s] 57%|█████▋    | 211289/371472 [5:46:11<12:17:41,  3.62it/s] 57%|█████▋    | 211290/371472 [5:46:11<12:03:14,  3.69it/s] 57%|█████▋    | 211291/371472 [5:46:12<12:06:45,  3.67it/s] 57%|█████▋    | 211292/371472 [5:46:12<12:04:26,  3.69it/s] 57%|█████▋    | 211293/371472 [5:46:12<11:55:44,  3.73it/s] 57%|█████▋    | 211294/371472 [5:46:12<12:42:55,  3.50it/s] 57%|█████▋    | 211295/371472 [5:46:13<13:12:25,  3.37it/s] 57%|█████▋    | 211296/371472 [5:46:13<12:59:04,  3.43it/s] 57%|█████▋    | 211297/371472 [5:46:13<12:42:47,  3.50it/s] 57%|█████▋    | 211298/371472 [5:46:14<12:21:11,  3.60it/s] 57%|█████▋    | 211299/371472 [5:46:14<12:18:08,  3.62it/s] 57%|█████▋    | 211300/371472 [5:46:14<12:24:12,  3.59it/s]                                                            {'loss': 2.885, 'learning_rate': 4.882727488202719e-07, 'epoch': 9.1}
 57%|█████▋    | 211300/371472 [5:46:14<12:24:12,  3.59it/s] 57%|█████▋    | 211301/371472 [5:46:14<12:20:12,  3.61it/s] 57%|█████▋    | 211302/371472 [5:46:15<12:25:41,  3.58it/s] 57%|█████▋    | 211303/371472 [5:46:15<12:21:14,  3.60it/s] 57%|█████▋    | 211304/371472 [5:46:15<12:23:28,  3.59it/s] 57%|█████▋    | 211305/371472 [5:46:16<12:15:04,  3.63it/s] 57%|█████▋    | 211306/371472 [5:46:16<13:58:38,  3.18it/s] 57%|█████▋    | 211307/371472 [5:46:16<13:32:42,  3.28it/s] 57%|█████▋    | 211308/371472 [5:46:17<14:05:36,  3.16it/s] 57%|█████▋    | 211309/371472 [5:46:17<13:48:03,  3.22it/s] 57%|█████▋    | 211310/371472 [5:46:17<12:59:17,  3.43it/s] 57%|█████▋    | 211311/371472 [5:46:17<13:10:32,  3.38it/s] 57%|█████▋    | 211312/371472 [5:46:18<13:09:53,  3.38it/s] 57%|█████▋    | 211313/371472 [5:46:18<12:36:58,  3.53it/s] 57%|█████▋    | 211314/371472 [5:46:18<13:08:37,  3.38it/s] 57%|█████▋    | 211315/371472 [5:46:19<13:10:06,  3.38it/s] 57%|█████▋    | 211316/371472 [5:46:19<12:34:42,  3.54it/s] 57%|█████▋    | 211317/371472 [5:46:19<12:17:24,  3.62it/s] 57%|█████▋    | 211318/371472 [5:46:19<12:32:19,  3.55it/s] 57%|█████▋    | 211319/371472 [5:46:20<12:22:12,  3.60it/s] 57%|█████▋    | 211320/371472 [5:46:20<12:39:28,  3.51it/s]                                                            {'loss': 2.8479, 'learning_rate': 4.882242668447929e-07, 'epoch': 9.1}
 57%|█████▋    | 211320/371472 [5:46:20<12:39:28,  3.51it/s] 57%|█████▋    | 211321/371472 [5:46:20<13:06:31,  3.39it/s] 57%|█████▋    | 211322/371472 [5:46:21<13:46:30,  3.23it/s] 57%|█████▋    | 211323/371472 [5:46:21<13:52:18,  3.21it/s] 57%|█████▋    | 211324/371472 [5:46:21<13:34:18,  3.28it/s] 57%|█████▋    | 211325/371472 [5:46:22<13:09:14,  3.38it/s] 57%|█████▋    | 211326/371472 [5:46:22<13:03:41,  3.41it/s] 57%|█████▋    | 211327/371472 [5:46:22<13:00:50,  3.42it/s] 57%|█████▋    | 211328/371472 [5:46:22<12:51:19,  3.46it/s] 57%|█████▋    | 211329/371472 [5:46:23<12:26:18,  3.58it/s] 57%|█████▋    | 211330/371472 [5:46:23<12:23:10,  3.59it/s] 57%|█████▋    | 211331/371472 [5:46:23<12:30:37,  3.56it/s] 57%|█████▋    | 211332/371472 [5:46:23<11:54:58,  3.73it/s] 57%|█████▋    | 211333/371472 [5:46:24<12:04:49,  3.68it/s] 57%|█████▋    | 211334/371472 [5:46:24<12:09:51,  3.66it/s] 57%|█████▋    | 211335/371472 [5:46:24<12:27:26,  3.57it/s] 57%|█████▋    | 211336/371472 [5:46:25<12:33:56,  3.54it/s] 57%|█████▋    | 211337/371472 [5:46:25<12:28:11,  3.57it/s] 57%|█████▋    | 211338/371472 [5:46:25<12:39:52,  3.51it/s] 57%|█████▋    | 211339/371472 [5:46:25<12:08:51,  3.66it/s] 57%|█████▋    | 211340/371472 [5:46:26<13:20:53,  3.33it/s]                                                            {'loss': 2.8387, 'learning_rate': 4.881757848693142e-07, 'epoch': 9.1}
 57%|█████▋    | 211340/371472 [5:46:26<13:20:53,  3.33it/s] 57%|█████▋    | 211341/371472 [5:46:26<13:19:13,  3.34it/s] 57%|█████▋    | 211342/371472 [5:46:26<13:49:46,  3.22it/s] 57%|█████▋    | 211343/371472 [5:46:27<13:10:53,  3.37it/s] 57%|█████▋    | 211344/371472 [5:46:27<13:26:23,  3.31it/s] 57%|█████▋    | 211345/371472 [5:46:27<12:58:18,  3.43it/s] 57%|█████▋    | 211346/371472 [5:46:28<12:37:20,  3.52it/s] 57%|█████▋    | 211347/371472 [5:46:28<13:07:00,  3.39it/s] 57%|█████▋    | 211348/371472 [5:46:28<13:00:34,  3.42it/s] 57%|█████▋    | 211349/371472 [5:46:29<14:07:46,  3.15it/s] 57%|█████▋    | 211350/371472 [5:46:29<13:42:28,  3.24it/s] 57%|█████▋    | 211351/371472 [5:46:29<13:39:31,  3.26it/s] 57%|█████▋    | 211352/371472 [5:46:29<13:47:16,  3.23it/s] 57%|█████▋    | 211353/371472 [5:46:30<13:45:59,  3.23it/s] 57%|█████▋    | 211354/371472 [5:46:30<13:27:54,  3.30it/s] 57%|█████▋    | 211355/371472 [5:46:30<13:20:40,  3.33it/s] 57%|█████▋    | 211356/371472 [5:46:31<12:41:43,  3.50it/s] 57%|█████▋    | 211357/371472 [5:46:31<12:34:40,  3.54it/s] 57%|█████▋    | 211358/371472 [5:46:31<12:07:43,  3.67it/s] 57%|█████▋    | 211359/371472 [5:46:31<12:11:04,  3.65it/s] 57%|█████▋    | 211360/371472 [5:46:32<12:23:39,  3.59it/s]                                                            {'loss': 2.9252, 'learning_rate': 4.881273028938353e-07, 'epoch': 9.1}
 57%|█████▋    | 211360/371472 [5:46:32<12:23:39,  3.59it/s] 57%|█████▋    | 211361/371472 [5:46:32<12:15:28,  3.63it/s] 57%|█████▋    | 211362/371472 [5:46:32<13:01:14,  3.42it/s] 57%|█████▋    | 211363/371472 [5:46:33<13:07:30,  3.39it/s] 57%|█████▋    | 211364/371472 [5:46:33<12:43:35,  3.49it/s] 57%|█████▋    | 211365/371472 [5:46:33<12:30:17,  3.56it/s] 57%|█████▋    | 211366/371472 [5:46:33<12:05:08,  3.68it/s] 57%|█████▋    | 211367/371472 [5:46:34<11:59:46,  3.71it/s] 57%|█████▋    | 211368/371472 [5:46:34<12:03:11,  3.69it/s] 57%|█████▋    | 211369/371472 [5:46:34<12:21:37,  3.60it/s] 57%|█████▋    | 211370/371472 [5:46:34<12:19:32,  3.61it/s] 57%|█████▋    | 211371/371472 [5:46:35<12:12:39,  3.64it/s] 57%|█████▋    | 211372/371472 [5:46:35<12:20:25,  3.60it/s] 57%|█████▋    | 211373/371472 [5:46:35<12:12:13,  3.64it/s] 57%|█████▋    | 211374/371472 [5:46:36<12:25:32,  3.58it/s] 57%|█████▋    | 211375/371472 [5:46:36<12:34:51,  3.53it/s] 57%|█████▋    | 211376/371472 [5:46:36<12:20:48,  3.60it/s] 57%|█████▋    | 211377/371472 [5:46:36<12:56:54,  3.43it/s] 57%|█████▋    | 211378/371472 [5:46:37<14:02:52,  3.17it/s] 57%|█████▋    | 211379/371472 [5:46:37<13:43:09,  3.24it/s] 57%|█████▋    | 211380/371472 [5:46:37<13:37:42,  3.26it/s]                                                            {'loss': 2.9517, 'learning_rate': 4.880788209183563e-07, 'epoch': 9.1}
 57%|█████▋    | 211380/371472 [5:46:37<13:37:42,  3.26it/s] 57%|█████▋    | 211381/371472 [5:46:38<13:13:36,  3.36it/s] 57%|█████▋    | 211382/371472 [5:46:38<12:55:08,  3.44it/s] 57%|█████▋    | 211383/371472 [5:46:38<13:08:22,  3.38it/s] 57%|█████▋    | 211384/371472 [5:46:39<12:45:51,  3.48it/s] 57%|█████▋    | 211385/371472 [5:46:39<13:24:44,  3.32it/s] 57%|█████▋    | 211386/371472 [5:46:39<13:08:32,  3.38it/s] 57%|█████▋    | 211387/371472 [5:46:39<13:37:46,  3.26it/s] 57%|█████▋    | 211388/371472 [5:46:40<13:11:35,  3.37it/s] 57%|█████▋    | 211389/371472 [5:46:40<12:48:42,  3.47it/s] 57%|█████▋    | 211390/371472 [5:46:40<13:13:52,  3.36it/s] 57%|█████▋    | 211391/371472 [5:46:41<12:54:21,  3.45it/s] 57%|█████▋    | 211392/371472 [5:46:41<12:48:57,  3.47it/s] 57%|█████▋    | 211393/371472 [5:46:41<12:32:54,  3.54it/s] 57%|█████▋    | 211394/371472 [5:46:41<12:07:53,  3.67it/s] 57%|█████▋    | 211395/371472 [5:46:42<12:12:39,  3.64it/s] 57%|█████▋    | 211396/371472 [5:46:42<13:02:18,  3.41it/s] 57%|█████▋    | 211397/371472 [5:46:42<13:18:58,  3.34it/s] 57%|█████▋    | 211398/371472 [5:46:43<13:46:23,  3.23it/s] 57%|█████▋    | 211399/371472 [5:46:43<14:33:05,  3.06it/s] 57%|█████▋    | 211400/371472 [5:46:43<13:25:24,  3.31it/s]                                                            {'loss': 2.9397, 'learning_rate': 4.880303389428774e-07, 'epoch': 9.11}
 57%|█████▋    | 211400/371472 [5:46:43<13:25:24,  3.31it/s] 57%|█████▋    | 211401/371472 [5:46:44<13:20:28,  3.33it/s] 57%|█████▋    | 211402/371472 [5:46:44<12:51:33,  3.46it/s] 57%|█████▋    | 211403/371472 [5:46:44<12:38:10,  3.52it/s] 57%|█████▋    | 211404/371472 [5:46:44<12:23:59,  3.59it/s] 57%|█████▋    | 211405/371472 [5:46:45<13:08:20,  3.38it/s] 57%|█████▋    | 211406/371472 [5:46:45<12:46:49,  3.48it/s] 57%|█████▋    | 211407/371472 [5:46:45<12:30:05,  3.56it/s] 57%|█████▋    | 211408/371472 [5:46:46<13:01:27,  3.41it/s] 57%|█████▋    | 211409/371472 [5:46:46<13:00:09,  3.42it/s] 57%|█████▋    | 211410/371472 [5:46:46<12:40:43,  3.51it/s] 57%|█████▋    | 211411/371472 [5:46:46<12:31:49,  3.55it/s] 57%|█████▋    | 211412/371472 [5:46:47<12:44:17,  3.49it/s] 57%|█████▋    | 211413/371472 [5:46:47<12:36:10,  3.53it/s] 57%|█████▋    | 211414/371472 [5:46:47<12:11:30,  3.65it/s] 57%|█████▋    | 211415/371472 [5:46:48<12:35:31,  3.53it/s] 57%|█████▋    | 211416/371472 [5:46:48<12:04:53,  3.68it/s] 57%|█████▋    | 211417/371472 [5:46:48<12:32:25,  3.55it/s] 57%|█████▋    | 211418/371472 [5:46:48<13:04:57,  3.40it/s] 57%|█████▋    | 211419/371472 [5:46:49<13:05:30,  3.40it/s] 57%|█████▋    | 211420/371472 [5:46:49<12:56:35,  3.43it/s]                                                            {'loss': 3.0544, 'learning_rate': 4.879818569673985e-07, 'epoch': 9.11}
 57%|█████▋    | 211420/371472 [5:46:49<12:56:35,  3.43it/s] 57%|█████▋    | 211421/371472 [5:46:49<13:03:01,  3.41it/s] 57%|█████▋    | 211422/371472 [5:46:50<12:36:29,  3.53it/s] 57%|█████▋    | 211423/371472 [5:46:50<12:13:37,  3.64it/s] 57%|█████▋    | 211424/371472 [5:46:50<11:52:33,  3.74it/s] 57%|█████▋    | 211425/371472 [5:46:50<11:59:48,  3.71it/s] 57%|█████▋    | 211426/371472 [5:46:51<12:02:01,  3.69it/s] 57%|█████▋    | 211427/371472 [5:46:51<12:09:51,  3.65it/s] 57%|█████▋    | 211428/371472 [5:46:51<12:12:51,  3.64it/s] 57%|█████▋    | 211429/371472 [5:46:52<13:08:01,  3.38it/s] 57%|█████▋    | 211430/371472 [5:46:52<13:14:31,  3.36it/s] 57%|█████▋    | 211431/371472 [5:46:52<12:53:03,  3.45it/s] 57%|█████▋    | 211432/371472 [5:46:52<13:01:51,  3.41it/s] 57%|█████▋    | 211433/371472 [5:46:53<12:32:13,  3.55it/s] 57%|█████▋    | 211434/371472 [5:46:53<12:06:15,  3.67it/s] 57%|█████▋    | 211435/371472 [5:46:53<11:52:26,  3.74it/s] 57%|█████▋    | 211436/371472 [5:46:53<11:43:48,  3.79it/s] 57%|█████▋    | 211437/371472 [5:46:54<12:04:05,  3.68it/s] 57%|█████▋    | 211438/371472 [5:46:54<12:00:46,  3.70it/s] 57%|█████▋    | 211439/371472 [5:46:54<12:00:49,  3.70it/s] 57%|█████▋    | 211440/371472 [5:46:54<11:46:48,  3.77it/s]                                                            {'loss': 3.024, 'learning_rate': 4.879333749919196e-07, 'epoch': 9.11}
 57%|█████▋    | 211440/371472 [5:46:54<11:46:48,  3.77it/s] 57%|█████▋    | 211441/371472 [5:46:55<12:16:14,  3.62it/s] 57%|█████▋    | 211442/371472 [5:46:55<12:12:59,  3.64it/s] 57%|█████▋    | 211443/371472 [5:46:55<11:47:40,  3.77it/s] 57%|█████▋    | 211444/371472 [5:46:56<12:03:21,  3.69it/s] 57%|█████▋    | 211445/371472 [5:46:56<11:43:52,  3.79it/s] 57%|█████▋    | 211446/371472 [5:46:56<14:16:12,  3.11it/s] 57%|█████▋    | 211447/371472 [5:46:57<13:30:50,  3.29it/s] 57%|█████▋    | 211448/371472 [5:46:57<13:41:06,  3.25it/s] 57%|█████▋    | 211449/371472 [5:46:57<13:53:54,  3.20it/s] 57%|█████▋    | 211450/371472 [5:46:58<14:15:04,  3.12it/s] 57%|█████▋    | 211451/371472 [5:46:58<13:19:31,  3.34it/s] 57%|█████▋    | 211452/371472 [5:46:58<13:36:20,  3.27it/s] 57%|█████▋    | 211453/371472 [5:46:58<13:42:55,  3.24it/s] 57%|█████▋    | 211454/371472 [5:46:59<14:32:32,  3.06it/s] 57%|█████▋    | 211455/371472 [5:46:59<14:04:23,  3.16it/s] 57%|█████▋    | 211456/371472 [5:46:59<13:11:19,  3.37it/s] 57%|█████▋    | 211457/371472 [5:47:00<13:35:58,  3.27it/s] 57%|█████▋    | 211458/371472 [5:47:00<13:07:43,  3.39it/s] 57%|█████▋    | 211459/371472 [5:47:00<12:43:54,  3.49it/s] 57%|█████▋    | 211460/371472 [5:47:00<12:22:15,  3.59it/s]                                                            {'loss': 2.7686, 'learning_rate': 4.878848930164407e-07, 'epoch': 9.11}
 57%|█████▋    | 211460/371472 [5:47:00<12:22:15,  3.59it/s] 57%|█████▋    | 211461/371472 [5:47:01<11:57:39,  3.72it/s] 57%|█████▋    | 211462/371472 [5:47:01<12:49:54,  3.46it/s] 57%|█████▋    | 211463/371472 [5:47:01<12:56:26,  3.43it/s] 57%|█████▋    | 211464/371472 [5:47:02<13:36:06,  3.27it/s] 57%|█████▋    | 211465/371472 [5:47:02<13:04:06,  3.40it/s] 57%|█████▋    | 211466/371472 [5:47:02<12:43:35,  3.49it/s] 57%|█████▋    | 211467/371472 [5:47:02<12:22:16,  3.59it/s] 57%|█████▋    | 211468/371472 [5:47:03<12:04:20,  3.68it/s] 57%|█████▋    | 211469/371472 [5:47:03<12:12:37,  3.64it/s] 57%|█████▋    | 211470/371472 [5:47:03<12:19:26,  3.61it/s] 57%|█████▋    | 211471/371472 [5:47:04<12:37:41,  3.52it/s] 57%|█████▋    | 211472/371472 [5:47:04<12:38:08,  3.52it/s] 57%|█████▋    | 211473/371472 [5:47:04<12:02:13,  3.69it/s] 57%|█████▋    | 211474/371472 [5:47:04<11:57:38,  3.72it/s] 57%|█████▋    | 211475/371472 [5:47:05<12:58:52,  3.42it/s] 57%|█████▋    | 211476/371472 [5:47:05<12:19:59,  3.60it/s] 57%|█████▋    | 211477/371472 [5:47:05<12:09:37,  3.65it/s] 57%|█████▋    | 211478/371472 [5:47:06<12:57:56,  3.43it/s] 57%|█████▋    | 211479/371472 [5:47:06<12:16:28,  3.62it/s] 57%|█████▋    | 211480/371472 [5:47:06<12:16:20,  3.62it/s]                                                            {'loss': 2.9016, 'learning_rate': 4.878364110409619e-07, 'epoch': 9.11}
 57%|█████▋    | 211480/371472 [5:47:06<12:16:20,  3.62it/s] 57%|█████▋    | 211481/371472 [5:47:06<12:25:56,  3.57it/s] 57%|█████▋    | 211482/371472 [5:47:07<13:04:25,  3.40it/s] 57%|█████▋    | 211483/371472 [5:47:07<13:29:11,  3.30it/s] 57%|█████▋    | 211484/371472 [5:47:07<13:30:46,  3.29it/s] 57%|█████▋    | 211485/371472 [5:47:08<12:44:47,  3.49it/s] 57%|█████▋    | 211486/371472 [5:47:08<13:00:37,  3.42it/s] 57%|█████▋    | 211487/371472 [5:47:08<12:29:48,  3.56it/s] 57%|█████▋    | 211488/371472 [5:47:08<12:30:30,  3.55it/s] 57%|█████▋    | 211489/371472 [5:47:09<11:59:52,  3.70it/s] 57%|█████▋    | 211490/371472 [5:47:09<13:20:24,  3.33it/s] 57%|█████▋    | 211491/371472 [5:47:09<13:06:58,  3.39it/s] 57%|█████▋    | 211492/371472 [5:47:10<13:16:49,  3.35it/s] 57%|█████▋    | 211493/371472 [5:47:10<13:08:55,  3.38it/s] 57%|█████▋    | 211494/371472 [5:47:10<12:37:27,  3.52it/s] 57%|█████▋    | 211495/371472 [5:47:10<12:14:16,  3.63it/s] 57%|█████▋    | 211496/371472 [5:47:11<12:07:07,  3.67it/s] 57%|█████▋    | 211497/371472 [5:47:11<12:20:15,  3.60it/s] 57%|█████▋    | 211498/371472 [5:47:11<12:50:35,  3.46it/s] 57%|█████▋    | 211499/371472 [5:47:12<12:53:04,  3.45it/s] 57%|█████▋    | 211500/371472 [5:47:12<12:34:21,  3.53it/s]                                                            {'loss': 2.8099, 'learning_rate': 4.877879290654829e-07, 'epoch': 9.11}
 57%|█████▋    | 211500/371472 [5:47:12<12:34:21,  3.53it/s] 57%|█████▋    | 211501/371472 [5:47:12<12:39:48,  3.51it/s] 57%|█████▋    | 211502/371472 [5:47:12<12:27:30,  3.57it/s] 57%|█████▋    | 211503/371472 [5:47:13<12:24:30,  3.58it/s] 57%|█████▋    | 211504/371472 [5:47:13<13:17:38,  3.34it/s] 57%|█████▋    | 211505/371472 [5:47:13<13:21:30,  3.33it/s] 57%|█████▋    | 211506/371472 [5:47:14<12:53:28,  3.45it/s] 57%|█████▋    | 211507/371472 [5:47:14<12:51:04,  3.46it/s] 57%|█████▋    | 211508/371472 [5:47:14<12:23:05,  3.59it/s] 57%|█████▋    | 211509/371472 [5:47:14<12:21:00,  3.60it/s] 57%|█████▋    | 211510/371472 [5:47:15<12:46:47,  3.48it/s] 57%|█████▋    | 211511/371472 [5:47:15<13:09:25,  3.38it/s] 57%|█████▋    | 211512/371472 [5:47:15<12:46:41,  3.48it/s] 57%|█████▋    | 211513/371472 [5:47:16<12:49:14,  3.47it/s] 57%|█████▋    | 211514/371472 [5:47:16<12:42:31,  3.50it/s] 57%|█████▋    | 211515/371472 [5:47:16<12:27:18,  3.57it/s] 57%|█████▋    | 211516/371472 [5:47:16<12:42:40,  3.50it/s] 57%|█████▋    | 211517/371472 [5:47:17<12:28:51,  3.56it/s] 57%|█████▋    | 211518/371472 [5:47:17<13:24:38,  3.31it/s] 57%|█████▋    | 211519/371472 [5:47:17<13:01:05,  3.41it/s] 57%|█████▋    | 211520/371472 [5:47:18<12:40:45,  3.50it/s]                                                            {'loss': 3.0986, 'learning_rate': 4.877394470900041e-07, 'epoch': 9.11}
 57%|█████▋    | 211520/371472 [5:47:18<12:40:45,  3.50it/s] 57%|█████▋    | 211521/371472 [5:47:18<12:14:21,  3.63it/s] 57%|█████▋    | 211522/371472 [5:47:18<12:33:15,  3.54it/s] 57%|█████▋    | 211523/371472 [5:47:18<12:25:01,  3.58it/s] 57%|█████▋    | 211524/371472 [5:47:19<12:10:30,  3.65it/s] 57%|█████▋    | 211525/371472 [5:47:19<11:55:39,  3.72it/s] 57%|█████▋    | 211526/371472 [5:47:19<11:51:13,  3.75it/s] 57%|█████▋    | 211527/371472 [5:47:20<12:33:55,  3.54it/s] 57%|█████▋    | 211528/371472 [5:47:20<12:29:48,  3.56it/s] 57%|█████▋    | 211529/371472 [5:47:20<13:59:20,  3.18it/s] 57%|█████▋    | 211530/371472 [5:47:20<13:39:05,  3.25it/s] 57%|█████▋    | 211531/371472 [5:47:21<13:31:23,  3.29it/s] 57%|█████▋    | 211532/371472 [5:47:21<13:00:25,  3.42it/s] 57%|█████▋    | 211533/371472 [5:47:21<12:40:44,  3.50it/s] 57%|█████▋    | 211534/371472 [5:47:22<12:45:51,  3.48it/s] 57%|█████▋    | 211535/371472 [5:47:22<12:32:57,  3.54it/s] 57%|█████▋    | 211536/371472 [5:47:22<12:42:48,  3.49it/s] 57%|█████▋    | 211537/371472 [5:47:22<12:30:53,  3.55it/s] 57%|█████▋    | 211538/371472 [5:47:23<12:05:33,  3.67it/s] 57%|█████▋    | 211539/371472 [5:47:23<11:54:40,  3.73it/s] 57%|█████▋    | 211540/371472 [5:47:23<12:33:17,  3.54it/s]                                                            {'loss': 2.951, 'learning_rate': 4.876909651145252e-07, 'epoch': 9.11}
 57%|█████▋    | 211540/371472 [5:47:23<12:33:17,  3.54it/s] 57%|█████▋    | 211541/371472 [5:47:24<11:59:47,  3.70it/s] 57%|█████▋    | 211542/371472 [5:47:24<12:12:31,  3.64it/s] 57%|█████▋    | 211543/371472 [5:47:24<12:16:21,  3.62it/s] 57%|█████▋    | 211544/371472 [5:47:24<12:04:06,  3.68it/s] 57%|█████▋    | 211545/371472 [5:47:25<11:46:15,  3.77it/s] 57%|█████▋    | 211546/371472 [5:47:25<12:07:48,  3.66it/s] 57%|█████▋    | 211547/371472 [5:47:25<12:33:42,  3.54it/s] 57%|█████▋    | 211548/371472 [5:47:25<12:24:22,  3.58it/s] 57%|█████▋    | 211549/371472 [5:47:26<13:23:25,  3.32it/s] 57%|█████▋    | 211550/371472 [5:47:26<12:38:13,  3.52it/s] 57%|█████▋    | 211551/371472 [5:47:26<13:12:38,  3.36it/s] 57%|█████▋    | 211552/371472 [5:47:27<14:13:08,  3.12it/s] 57%|█████▋    | 211553/371472 [5:47:27<13:22:34,  3.32it/s] 57%|█████▋    | 211554/371472 [5:47:27<12:46:34,  3.48it/s] 57%|█████▋    | 211555/371472 [5:47:28<13:03:30,  3.40it/s] 57%|█████▋    | 211556/371472 [5:47:28<12:39:32,  3.51it/s] 57%|█████▋    | 211557/371472 [5:47:28<13:15:06,  3.35it/s] 57%|█████▋    | 211558/371472 [5:47:28<13:08:41,  3.38it/s] 57%|█████▋    | 211559/371472 [5:47:29<12:56:26,  3.43it/s] 57%|█████▋    | 211560/371472 [5:47:29<13:16:20,  3.35it/s]                                                            {'loss': 2.9723, 'learning_rate': 4.876424831390462e-07, 'epoch': 9.11}
 57%|█████▋    | 211560/371472 [5:47:29<13:16:20,  3.35it/s] 57%|█████▋    | 211561/371472 [5:47:29<12:47:07,  3.47it/s] 57%|█████▋    | 211562/371472 [5:47:30<12:26:48,  3.57it/s] 57%|█████▋    | 211563/371472 [5:47:30<12:44:22,  3.49it/s] 57%|█████▋    | 211564/371472 [5:47:30<13:31:40,  3.28it/s] 57%|█████▋    | 211565/371472 [5:47:31<13:32:53,  3.28it/s] 57%|█████▋    | 211566/371472 [5:47:31<13:53:37,  3.20it/s] 57%|█████▋    | 211567/371472 [5:47:31<13:36:03,  3.27it/s] 57%|█████▋    | 211568/371472 [5:47:31<13:05:38,  3.39it/s] 57%|█████▋    | 211569/371472 [5:47:32<12:45:35,  3.48it/s] 57%|█████▋    | 211570/371472 [5:47:32<12:10:54,  3.65it/s] 57%|█████▋    | 211571/371472 [5:47:32<12:03:23,  3.68it/s] 57%|█████▋    | 211572/371472 [5:47:32<11:53:36,  3.73it/s] 57%|█████▋    | 211573/371472 [5:47:33<12:15:01,  3.63it/s] 57%|█████▋    | 211574/371472 [5:47:33<11:52:51,  3.74it/s] 57%|█████▋    | 211575/371472 [5:47:33<12:01:09,  3.70it/s] 57%|█████▋    | 211576/371472 [5:47:34<12:35:35,  3.53it/s] 57%|█████▋    | 211577/371472 [5:47:34<12:19:18,  3.60it/s] 57%|█████▋    | 211578/371472 [5:47:34<12:31:24,  3.55it/s] 57%|█████▋    | 211579/371472 [5:47:34<12:34:32,  3.53it/s] 57%|█████▋    | 211580/371472 [5:47:35<12:53:37,  3.44it/s]                                                            {'loss': 2.8407, 'learning_rate': 4.875940011635673e-07, 'epoch': 9.11}
 57%|█████▋    | 211580/371472 [5:47:35<12:53:37,  3.44it/s] 57%|█████▋    | 211581/371472 [5:47:35<12:34:33,  3.53it/s] 57%|█████▋    | 211582/371472 [5:47:35<12:46:30,  3.48it/s] 57%|█████▋    | 211583/371472 [5:47:36<12:08:33,  3.66it/s] 57%|█████▋    | 211584/371472 [5:47:36<11:56:04,  3.72it/s] 57%|█████▋    | 211585/371472 [5:47:36<12:06:34,  3.67it/s] 57%|█████▋    | 211586/371472 [5:47:36<11:49:59,  3.75it/s] 57%|█████▋    | 211587/371472 [5:47:37<11:46:06,  3.77it/s] 57%|█████▋    | 211588/371472 [5:47:37<12:05:54,  3.67it/s] 57%|█████▋    | 211589/371472 [5:47:37<13:33:40,  3.27it/s] 57%|█████▋    | 211590/371472 [5:47:38<13:32:42,  3.28it/s] 57%|█████▋    | 211591/371472 [5:47:38<13:26:06,  3.31it/s] 57%|█████▋    | 211592/371472 [5:47:38<12:50:24,  3.46it/s] 57%|█████▋    | 211593/371472 [5:47:39<14:28:20,  3.07it/s] 57%|█████▋    | 211594/371472 [5:47:39<13:49:41,  3.21it/s] 57%|█████▋    | 211595/371472 [5:47:39<13:20:43,  3.33it/s] 57%|█████▋    | 211596/371472 [5:47:39<14:37:37,  3.04it/s] 57%|█████▋    | 211597/371472 [5:47:40<14:20:10,  3.10it/s] 57%|█████▋    | 211598/371472 [5:47:40<14:02:39,  3.16it/s] 57%|█████▋    | 211599/371472 [5:47:40<13:27:34,  3.30it/s] 57%|█████▋    | 211600/371472 [5:47:41<13:10:51,  3.37it/s]                                                            {'loss': 2.8955, 'learning_rate': 4.875455191880886e-07, 'epoch': 9.11}
 57%|█████▋    | 211600/371472 [5:47:41<13:10:51,  3.37it/s] 57%|█████▋    | 211601/371472 [5:47:41<13:23:46,  3.31it/s] 57%|█████▋    | 211602/371472 [5:47:41<13:32:52,  3.28it/s] 57%|█████▋    | 211603/371472 [5:47:42<14:01:03,  3.17it/s] 57%|█████▋    | 211604/371472 [5:47:42<13:27:53,  3.30it/s] 57%|█████▋    | 211605/371472 [5:47:42<13:24:09,  3.31it/s] 57%|█████▋    | 211606/371472 [5:47:42<13:13:46,  3.36it/s] 57%|█████▋    | 211607/371472 [5:47:43<13:14:12,  3.35it/s] 57%|█████▋    | 211608/371472 [5:47:43<12:49:15,  3.46it/s] 57%|█████▋    | 211609/371472 [5:47:43<12:53:01,  3.45it/s] 57%|█████▋    | 211610/371472 [5:47:44<12:55:52,  3.43it/s] 57%|█████▋    | 211611/371472 [5:47:44<12:51:36,  3.45it/s] 57%|█████▋    | 211612/371472 [5:47:44<12:38:08,  3.51it/s] 57%|█████▋    | 211613/371472 [5:47:45<16:13:10,  2.74it/s] 57%|█████▋    | 211614/371472 [5:47:45<15:19:54,  2.90it/s] 57%|█████▋    | 211615/371472 [5:47:45<14:16:54,  3.11it/s] 57%|█████▋    | 211616/371472 [5:47:46<14:24:06,  3.08it/s] 57%|█████▋    | 211617/371472 [5:47:46<13:36:10,  3.26it/s] 57%|█████▋    | 211618/371472 [5:47:46<13:12:24,  3.36it/s] 57%|█████▋    | 211619/371472 [5:47:47<14:06:31,  3.15it/s] 57%|█████▋    | 211620/371472 [5:47:47<13:56:36,  3.18it/s]                                                            {'loss': 2.9066, 'learning_rate': 4.874970372126097e-07, 'epoch': 9.11}
 57%|█████▋    | 211620/371472 [5:47:47<13:56:36,  3.18it/s] 57%|█████▋    | 211621/371472 [5:47:47<13:24:12,  3.31it/s] 57%|█████▋    | 211622/371472 [5:47:47<13:27:54,  3.30it/s] 57%|█████▋    | 211623/371472 [5:47:48<13:02:00,  3.41it/s] 57%|█████▋    | 211624/371472 [5:47:48<12:34:52,  3.53it/s] 57%|█████▋    | 211625/371472 [5:47:48<13:02:40,  3.40it/s] 57%|█████▋    | 211626/371472 [5:47:49<13:48:11,  3.22it/s] 57%|█████▋    | 211627/371472 [5:47:49<13:14:51,  3.35it/s] 57%|█████▋    | 211628/371472 [5:47:49<13:02:50,  3.40it/s] 57%|█████▋    | 211629/371472 [5:47:49<12:37:52,  3.52it/s] 57%|█████▋    | 211630/371472 [5:47:50<12:20:10,  3.60it/s] 57%|█████▋    | 211631/371472 [5:47:50<12:22:14,  3.59it/s] 57%|█████▋    | 211632/371472 [5:47:50<12:03:47,  3.68it/s] 57%|█████▋    | 211633/371472 [5:47:51<12:19:26,  3.60it/s] 57%|█████▋    | 211634/371472 [5:47:51<11:55:10,  3.72it/s] 57%|█████▋    | 211635/371472 [5:47:51<12:32:13,  3.54it/s] 57%|█████▋    | 211636/371472 [5:47:51<13:05:40,  3.39it/s] 57%|█████▋    | 211637/371472 [5:47:52<12:50:08,  3.46it/s] 57%|█████▋    | 211638/371472 [5:47:52<13:01:30,  3.41it/s] 57%|█████▋    | 211639/371472 [5:47:52<13:01:01,  3.41it/s] 57%|█████▋    | 211640/371472 [5:47:53<13:12:20,  3.36it/s]                                                            {'loss': 2.8465, 'learning_rate': 4.874485552371307e-07, 'epoch': 9.12}
 57%|█████▋    | 211640/371472 [5:47:53<13:12:20,  3.36it/s] 57%|█████▋    | 211641/371472 [5:47:53<14:03:52,  3.16it/s] 57%|█████▋    | 211642/371472 [5:47:53<13:15:00,  3.35it/s] 57%|█████▋    | 211643/371472 [5:47:53<12:50:46,  3.46it/s] 57%|█████▋    | 211644/371472 [5:47:54<12:22:07,  3.59it/s] 57%|█████▋    | 211645/371472 [5:47:54<12:23:52,  3.58it/s] 57%|█████▋    | 211646/371472 [5:47:54<12:25:56,  3.57it/s] 57%|█████▋    | 211647/371472 [5:47:55<12:18:35,  3.61it/s] 57%|█████▋    | 211648/371472 [5:47:55<12:02:38,  3.69it/s] 57%|█████▋    | 211649/371472 [5:47:55<12:14:09,  3.63it/s] 57%|█████▋    | 211650/371472 [5:47:55<12:56:10,  3.43it/s] 57%|█████▋    | 211651/371472 [5:47:56<12:26:42,  3.57it/s] 57%|█████▋    | 211652/371472 [5:47:56<13:01:20,  3.41it/s] 57%|█████▋    | 211653/371472 [5:47:56<12:59:41,  3.42it/s] 57%|█████▋    | 211654/371472 [5:47:57<12:53:23,  3.44it/s] 57%|█████▋    | 211655/371472 [5:47:57<12:56:56,  3.43it/s] 57%|█████▋    | 211656/371472 [5:47:57<13:36:42,  3.26it/s] 57%|█████▋    | 211657/371472 [5:47:58<13:12:23,  3.36it/s] 57%|█████▋    | 211658/371472 [5:47:58<13:13:24,  3.36it/s] 57%|█████▋    | 211659/371472 [5:47:58<13:22:09,  3.32it/s] 57%|█████▋    | 211660/371472 [5:47:58<12:48:58,  3.46it/s]                                                            {'loss': 3.1064, 'learning_rate': 4.874000732616518e-07, 'epoch': 9.12}
 57%|█████▋    | 211660/371472 [5:47:58<12:48:58,  3.46it/s] 57%|█████▋    | 211661/371472 [5:47:59<12:41:26,  3.50it/s] 57%|█████▋    | 211662/371472 [5:47:59<12:48:10,  3.47it/s] 57%|█████▋    | 211663/371472 [5:47:59<12:24:46,  3.58it/s] 57%|█████▋    | 211664/371472 [5:47:59<12:14:18,  3.63it/s] 57%|█████▋    | 211665/371472 [5:48:00<11:53:17,  3.73it/s] 57%|█████▋    | 211666/371472 [5:48:00<11:33:34,  3.84it/s] 57%|█████▋    | 211667/371472 [5:48:00<11:53:22,  3.73it/s] 57%|█████▋    | 211668/371472 [5:48:01<11:53:55,  3.73it/s] 57%|█████▋    | 211669/371472 [5:48:01<12:26:04,  3.57it/s] 57%|█████▋    | 211670/371472 [5:48:01<12:21:20,  3.59it/s] 57%|█████▋    | 211671/371472 [5:48:01<12:25:05,  3.57it/s] 57%|█████▋    | 211672/371472 [5:48:02<12:16:48,  3.61it/s] 57%|█████▋    | 211673/371472 [5:48:02<12:20:19,  3.60it/s] 57%|█████▋    | 211674/371472 [5:48:02<12:13:00,  3.63it/s] 57%|█████▋    | 211675/371472 [5:48:03<12:39:07,  3.51it/s] 57%|█████▋    | 211676/371472 [5:48:03<12:28:29,  3.56it/s] 57%|█████▋    | 211677/371472 [5:48:03<12:08:20,  3.66it/s] 57%|█████▋    | 211678/371472 [5:48:03<12:15:33,  3.62it/s] 57%|█████▋    | 211679/371472 [5:48:04<12:34:52,  3.53it/s] 57%|█████▋    | 211680/371472 [5:48:04<12:03:59,  3.68it/s]                                                            {'loss': 2.9995, 'learning_rate': 4.873515912861729e-07, 'epoch': 9.12}
 57%|█████▋    | 211680/371472 [5:48:04<12:03:59,  3.68it/s] 57%|█████▋    | 211681/371472 [5:48:04<13:41:17,  3.24it/s] 57%|█████▋    | 211682/371472 [5:48:05<13:24:01,  3.31it/s] 57%|█████▋    | 211683/371472 [5:48:05<12:50:47,  3.46it/s] 57%|█████▋    | 211684/371472 [5:48:05<13:03:35,  3.40it/s] 57%|█████▋    | 211685/371472 [5:48:05<13:07:49,  3.38it/s] 57%|█████▋    | 211686/371472 [5:48:06<12:39:56,  3.50it/s] 57%|█████▋    | 211687/371472 [5:48:06<12:20:16,  3.60it/s] 57%|█████▋    | 211688/371472 [5:48:06<11:57:08,  3.71it/s] 57%|█████▋    | 211689/371472 [5:48:06<11:55:25,  3.72it/s] 57%|█████▋    | 211690/371472 [5:48:07<12:01:31,  3.69it/s] 57%|█████▋    | 211691/371472 [5:48:07<12:52:01,  3.45it/s] 57%|█████▋    | 211692/371472 [5:48:07<12:31:21,  3.54it/s] 57%|█████▋    | 211693/371472 [5:48:08<12:47:08,  3.47it/s] 57%|█████▋    | 211694/371472 [5:48:08<13:42:23,  3.24it/s] 57%|█████▋    | 211695/371472 [5:48:08<13:09:52,  3.37it/s] 57%|█████▋    | 211696/371472 [5:48:09<12:40:27,  3.50it/s] 57%|█████▋    | 211697/371472 [5:48:09<12:16:50,  3.61it/s] 57%|█████▋    | 211698/371472 [5:48:09<12:39:37,  3.51it/s] 57%|█████▋    | 211699/371472 [5:48:09<12:16:37,  3.61it/s] 57%|█████▋    | 211700/371472 [5:48:10<11:59:50,  3.70it/s]                                                            {'loss': 2.7726, 'learning_rate': 4.873031093106939e-07, 'epoch': 9.12}
 57%|█████▋    | 211700/371472 [5:48:10<11:59:50,  3.70it/s] 57%|█████▋    | 211701/371472 [5:48:10<12:15:53,  3.62it/s] 57%|█████▋    | 211702/371472 [5:48:10<11:58:26,  3.71it/s] 57%|█████▋    | 211703/371472 [5:48:10<12:13:53,  3.63it/s] 57%|█████▋    | 211704/371472 [5:48:11<12:14:42,  3.62it/s] 57%|█████▋    | 211705/371472 [5:48:11<13:19:43,  3.33it/s] 57%|█████▋    | 211706/371472 [5:48:11<12:31:15,  3.54it/s] 57%|█████▋    | 211707/371472 [5:48:12<12:41:21,  3.50it/s] 57%|█████▋    | 211708/371472 [5:48:12<12:06:30,  3.67it/s] 57%|█████▋    | 211709/371472 [5:48:12<11:48:16,  3.76it/s] 57%|█████▋    | 211710/371472 [5:48:12<11:50:08,  3.75it/s] 57%|█████▋    | 211711/371472 [5:48:13<12:13:19,  3.63it/s] 57%|█████▋    | 211712/371472 [5:48:13<12:06:39,  3.66it/s] 57%|█████▋    | 211713/371472 [5:48:13<12:30:04,  3.55it/s] 57%|█████▋    | 211714/371472 [5:48:13<12:10:43,  3.64it/s] 57%|█████▋    | 211715/371472 [5:48:14<12:07:25,  3.66it/s] 57%|█████▋    | 211716/371472 [5:48:14<12:27:13,  3.56it/s] 57%|█████▋    | 211717/371472 [5:48:15<18:16:12,  2.43it/s] 57%|█████▋    | 211718/371472 [5:48:15<16:05:43,  2.76it/s] 57%|█████▋    | 211719/371472 [5:48:15<15:04:35,  2.94it/s] 57%|█████▋    | 211720/371472 [5:48:16<13:57:01,  3.18it/s]                                                            {'loss': 3.0062, 'learning_rate': 4.872546273352152e-07, 'epoch': 9.12}
 57%|█████▋    | 211720/371472 [5:48:16<13:57:01,  3.18it/s] 57%|█████▋    | 211721/371472 [5:48:16<13:21:33,  3.32it/s] 57%|█████▋    | 211722/371472 [5:48:16<13:02:30,  3.40it/s] 57%|█████▋    | 211723/371472 [5:48:16<12:29:21,  3.55it/s] 57%|█████▋    | 211724/371472 [5:48:17<13:03:04,  3.40it/s] 57%|█████▋    | 211725/371472 [5:48:17<12:59:41,  3.41it/s] 57%|█████▋    | 211726/371472 [5:48:17<12:33:18,  3.53it/s] 57%|█████▋    | 211727/371472 [5:48:17<12:16:05,  3.62it/s] 57%|█████▋    | 211728/371472 [5:48:18<11:55:30,  3.72it/s] 57%|█████▋    | 211729/371472 [5:48:18<11:39:44,  3.80it/s] 57%|█████▋    | 211730/371472 [5:48:18<11:34:46,  3.83it/s] 57%|█████▋    | 211731/371472 [5:48:19<11:55:36,  3.72it/s] 57%|█████▋    | 211732/371472 [5:48:19<12:58:29,  3.42it/s] 57%|█████▋    | 211733/371472 [5:48:19<12:30:26,  3.55it/s] 57%|█████▋    | 211734/371472 [5:48:19<12:45:29,  3.48it/s] 57%|█████▋    | 211735/371472 [5:48:20<13:19:38,  3.33it/s] 57%|█████▋    | 211736/371472 [5:48:20<12:54:48,  3.44it/s] 57%|█████▋    | 211737/371472 [5:48:20<12:59:35,  3.41it/s] 57%|█████▋    | 211738/371472 [5:48:21<12:56:19,  3.43it/s] 57%|█████▋    | 211739/371472 [5:48:21<12:30:22,  3.55it/s] 57%|█████▋    | 211740/371472 [5:48:21<12:20:14,  3.60it/s]                                                            {'loss': 2.9562, 'learning_rate': 4.872061453597363e-07, 'epoch': 9.12}
 57%|█████▋    | 211740/371472 [5:48:21<12:20:14,  3.60it/s] 57%|█████▋    | 211741/371472 [5:48:22<13:27:38,  3.30it/s] 57%|█████▋    | 211742/371472 [5:48:22<13:31:27,  3.28it/s] 57%|█████▋    | 211743/371472 [5:48:22<13:36:27,  3.26it/s] 57%|█████▋    | 211744/371472 [5:48:22<13:23:38,  3.31it/s] 57%|█████▋    | 211745/371472 [5:48:23<13:33:53,  3.27it/s] 57%|█████▋    | 211746/371472 [5:48:23<13:47:38,  3.22it/s] 57%|█████▋    | 211747/371472 [5:48:23<13:51:04,  3.20it/s] 57%|█████▋    | 211748/371472 [5:48:24<13:46:42,  3.22it/s] 57%|█████▋    | 211749/371472 [5:48:24<13:14:10,  3.35it/s] 57%|█████▋    | 211750/371472 [5:48:24<12:53:46,  3.44it/s] 57%|█████▋    | 211751/371472 [5:48:25<13:28:27,  3.29it/s] 57%|█████▋    | 211752/371472 [5:48:25<13:28:41,  3.29it/s] 57%|█████▋    | 211753/371472 [5:48:25<13:45:53,  3.22it/s] 57%|█████▋    | 211754/371472 [5:48:25<13:07:18,  3.38it/s] 57%|█████▋    | 211755/371472 [5:48:26<12:53:26,  3.44it/s] 57%|█████▋    | 211756/371472 [5:48:26<13:30:52,  3.28it/s] 57%|█████▋    | 211757/371472 [5:48:26<13:16:38,  3.34it/s] 57%|█████▋    | 211758/371472 [5:48:27<13:17:03,  3.34it/s] 57%|█████▋    | 211759/371472 [5:48:27<13:19:57,  3.33it/s] 57%|█████▋    | 211760/371472 [5:48:27<13:28:53,  3.29it/s]                                                            {'loss': 3.0951, 'learning_rate': 4.871576633842574e-07, 'epoch': 9.12}
 57%|█████▋    | 211760/371472 [5:48:27<13:28:53,  3.29it/s] 57%|█████▋    | 211761/371472 [5:48:28<13:02:43,  3.40it/s] 57%|█████▋    | 211762/371472 [5:48:28<12:54:30,  3.44it/s] 57%|█████▋    | 211763/371472 [5:48:28<12:50:41,  3.45it/s] 57%|█████▋    | 211764/371472 [5:48:28<12:09:13,  3.65it/s] 57%|█████▋    | 211765/371472 [5:48:29<12:09:12,  3.65it/s] 57%|█████▋    | 211766/371472 [5:48:29<11:47:23,  3.76it/s] 57%|█████▋    | 211767/371472 [5:48:29<12:02:33,  3.68it/s] 57%|█████▋    | 211768/371472 [5:48:29<11:59:27,  3.70it/s] 57%|█████▋    | 211769/371472 [5:48:30<11:44:36,  3.78it/s] 57%|█████▋    | 211770/371472 [5:48:30<11:43:03,  3.79it/s] 57%|█████▋    | 211771/371472 [5:48:30<11:58:07,  3.71it/s] 57%|█████▋    | 211772/371472 [5:48:31<12:14:39,  3.62it/s] 57%|█████▋    | 211773/371472 [5:48:31<12:20:07,  3.60it/s] 57%|█████▋    | 211774/371472 [5:48:31<12:18:40,  3.60it/s] 57%|█████▋    | 211775/371472 [5:48:31<12:29:49,  3.55it/s] 57%|█████▋    | 211776/371472 [5:48:32<12:44:32,  3.48it/s] 57%|█████▋    | 211777/371472 [5:48:32<12:43:44,  3.48it/s] 57%|█████▋    | 211778/371472 [5:48:32<12:48:11,  3.46it/s] 57%|█████▋    | 211779/371472 [5:48:33<12:20:54,  3.59it/s] 57%|█████▋    | 211780/371472 [5:48:33<12:45:33,  3.48it/s]                                                            {'loss': 2.9089, 'learning_rate': 4.871091814087784e-07, 'epoch': 9.12}
 57%|█████▋    | 211780/371472 [5:48:33<12:45:33,  3.48it/s] 57%|█████▋    | 211781/371472 [5:48:33<12:30:16,  3.55it/s] 57%|█████▋    | 211782/371472 [5:48:33<12:50:37,  3.45it/s] 57%|█████▋    | 211783/371472 [5:48:34<12:54:36,  3.44it/s] 57%|█████▋    | 211784/371472 [5:48:34<13:06:39,  3.38it/s] 57%|█████▋    | 211785/371472 [5:48:34<12:50:04,  3.46it/s] 57%|█████▋    | 211786/371472 [5:48:35<12:34:16,  3.53it/s] 57%|█████▋    | 211787/371472 [5:48:35<12:10:59,  3.64it/s] 57%|█████▋    | 211788/371472 [5:48:35<12:17:16,  3.61it/s] 57%|█████▋    | 211789/371472 [5:48:35<12:14:33,  3.62it/s] 57%|█████▋    | 211790/371472 [5:48:36<14:25:51,  3.07it/s] 57%|█████▋    | 211791/371472 [5:48:36<15:03:37,  2.95it/s] 57%|█████▋    | 211792/371472 [5:48:36<14:01:29,  3.16it/s] 57%|█████▋    | 211793/371472 [5:48:37<13:38:27,  3.25it/s] 57%|█████▋    | 211794/371472 [5:48:37<13:43:00,  3.23it/s] 57%|█████▋    | 211795/371472 [5:48:37<12:55:58,  3.43it/s] 57%|█████▋    | 211796/371472 [5:48:38<13:02:55,  3.40it/s] 57%|█████▋    | 211797/371472 [5:48:38<12:46:06,  3.47it/s] 57%|█████▋    | 211798/371472 [5:48:38<13:24:40,  3.31it/s] 57%|█████▋    | 211799/371472 [5:48:38<13:39:17,  3.25it/s] 57%|█████▋    | 211800/371472 [5:48:39<13:57:26,  3.18it/s]                                                            {'loss': 2.7295, 'learning_rate': 4.870606994332996e-07, 'epoch': 9.12}
 57%|█████▋    | 211800/371472 [5:48:39<13:57:26,  3.18it/s] 57%|█████▋    | 211801/371472 [5:48:39<14:56:53,  2.97it/s] 57%|█████▋    | 211802/371472 [5:48:39<14:02:38,  3.16it/s] 57%|█████▋    | 211803/371472 [5:48:40<13:40:15,  3.24it/s] 57%|█████▋    | 211804/371472 [5:48:40<13:00:22,  3.41it/s] 57%|█████▋    | 211805/371472 [5:48:40<12:37:05,  3.51it/s] 57%|█████▋    | 211806/371472 [5:48:41<12:14:49,  3.62it/s] 57%|█████▋    | 211807/371472 [5:48:41<11:59:57,  3.70it/s] 57%|█████▋    | 211808/371472 [5:48:41<11:42:13,  3.79it/s] 57%|█████▋    | 211809/371472 [5:48:41<11:35:40,  3.83it/s] 57%|█████▋    | 211810/371472 [5:48:42<11:56:54,  3.71it/s] 57%|█████▋    | 211811/371472 [5:48:42<11:36:51,  3.82it/s] 57%|█████▋    | 211812/371472 [5:48:42<12:03:27,  3.68it/s] 57%|█████▋    | 211813/371472 [5:48:42<12:21:40,  3.59it/s] 57%|█████▋    | 211814/371472 [5:48:43<12:25:42,  3.57it/s] 57%|█████▋    | 211815/371472 [5:48:43<12:36:11,  3.52it/s] 57%|█████▋    | 211816/371472 [5:48:43<12:36:51,  3.52it/s] 57%|█████▋    | 211817/371472 [5:48:44<12:21:34,  3.59it/s] 57%|█████▋    | 211818/371472 [5:48:44<12:13:40,  3.63it/s] 57%|█████▋    | 211819/371472 [5:48:44<12:45:39,  3.48it/s] 57%|█████▋    | 211820/371472 [5:48:44<12:40:50,  3.50it/s]                                                            {'loss': 2.997, 'learning_rate': 4.870122174578206e-07, 'epoch': 9.12}
 57%|█████▋    | 211820/371472 [5:48:44<12:40:50,  3.50it/s] 57%|█████▋    | 211821/371472 [5:48:45<12:36:21,  3.52it/s] 57%|█████▋    | 211822/371472 [5:48:45<12:33:43,  3.53it/s] 57%|█████▋    | 211823/371472 [5:48:45<13:25:47,  3.30it/s] 57%|█████▋    | 211824/371472 [5:48:46<13:10:16,  3.37it/s] 57%|█████▋    | 211825/371472 [5:48:46<12:54:13,  3.44it/s] 57%|█████▋    | 211826/371472 [5:48:46<12:23:12,  3.58it/s] 57%|█████▋    | 211827/371472 [5:48:46<12:21:27,  3.59it/s] 57%|█████▋    | 211828/371472 [5:48:47<12:26:53,  3.56it/s] 57%|█████▋    | 211829/371472 [5:48:47<13:04:05,  3.39it/s] 57%|█████▋    | 211830/371472 [5:48:47<12:43:41,  3.48it/s] 57%|█████▋    | 211831/371472 [5:48:48<12:11:51,  3.64it/s] 57%|█████▋    | 211832/371472 [5:48:48<12:04:18,  3.67it/s] 57%|█████▋    | 211833/371472 [5:48:48<12:01:02,  3.69it/s] 57%|█████▋    | 211834/371472 [5:48:48<11:46:21,  3.77it/s] 57%|█████▋    | 211835/371472 [5:48:49<14:10:38,  3.13it/s] 57%|█████▋    | 211836/371472 [5:48:49<14:28:10,  3.06it/s] 57%|█████▋    | 211837/371472 [5:48:49<14:01:30,  3.16it/s] 57%|█████▋    | 211838/371472 [5:48:50<13:24:32,  3.31it/s] 57%|█████▋    | 211839/371472 [5:48:50<13:14:34,  3.35it/s] 57%|█████▋    | 211840/371472 [5:48:50<12:43:59,  3.48it/s]                                                            {'loss': 2.9177, 'learning_rate': 4.869637354823419e-07, 'epoch': 9.12}
 57%|█████▋    | 211840/371472 [5:48:50<12:43:59,  3.48it/s] 57%|█████▋    | 211841/371472 [5:48:51<12:29:41,  3.55it/s] 57%|█████▋    | 211842/371472 [5:48:51<12:25:03,  3.57it/s] 57%|█████▋    | 211843/371472 [5:48:51<13:31:11,  3.28it/s] 57%|█████▋    | 211844/371472 [5:48:51<13:05:31,  3.39it/s] 57%|█████▋    | 211845/371472 [5:48:52<12:39:41,  3.50it/s] 57%|█████▋    | 211846/371472 [5:48:52<12:17:47,  3.61it/s] 57%|█████▋    | 211847/371472 [5:48:52<12:06:06,  3.66it/s] 57%|█████▋    | 211848/371472 [5:48:52<11:59:05,  3.70it/s] 57%|█████▋    | 211849/371472 [5:48:53<11:47:49,  3.76it/s] 57%|█████▋    | 211850/371472 [5:48:53<12:26:36,  3.56it/s] 57%|█████▋    | 211851/371472 [5:48:53<12:35:05,  3.52it/s] 57%|█████▋    | 211852/371472 [5:48:54<12:40:04,  3.50it/s] 57%|█████▋    | 211853/371472 [5:48:54<12:41:58,  3.49it/s] 57%|█████▋    | 211854/371472 [5:48:54<13:08:18,  3.37it/s] 57%|█████▋    | 211855/371472 [5:48:55<13:12:20,  3.36it/s] 57%|█████▋    | 211856/371472 [5:48:55<13:36:27,  3.26it/s] 57%|█████▋    | 211857/371472 [5:48:55<12:57:23,  3.42it/s] 57%|█████▋    | 211858/371472 [5:48:55<13:18:00,  3.33it/s] 57%|█████▋    | 211859/371472 [5:48:56<14:15:39,  3.11it/s] 57%|█████▋    | 211860/371472 [5:48:56<16:07:22,  2.75it/s]                                                            {'loss': 2.8869, 'learning_rate': 4.869152535068629e-07, 'epoch': 9.13}
 57%|█████▋    | 211860/371472 [5:48:56<16:07:22,  2.75it/s] 57%|█████▋    | 211861/371472 [5:48:57<15:08:06,  2.93it/s] 57%|█████▋    | 211862/371472 [5:48:57<14:50:01,  2.99it/s] 57%|█████▋    | 211863/371472 [5:48:57<14:01:02,  3.16it/s] 57%|█████▋    | 211864/371472 [5:48:57<13:43:18,  3.23it/s] 57%|█████▋    | 211865/371472 [5:48:58<13:22:29,  3.31it/s] 57%|█████▋    | 211866/371472 [5:48:58<12:38:53,  3.51it/s] 57%|█████▋    | 211867/371472 [5:48:58<12:47:02,  3.47it/s] 57%|█████▋    | 211868/371472 [5:48:59<12:30:15,  3.55it/s] 57%|█████▋    | 211869/371472 [5:48:59<12:05:02,  3.67it/s] 57%|█████▋    | 211870/371472 [5:48:59<11:57:43,  3.71it/s] 57%|█████▋    | 211871/371472 [5:48:59<11:49:25,  3.75it/s] 57%|█████▋    | 211872/371472 [5:49:00<11:57:21,  3.71it/s] 57%|█████▋    | 211873/371472 [5:49:00<12:36:03,  3.52it/s] 57%|█████▋    | 211874/371472 [5:49:00<12:41:52,  3.49it/s] 57%|█████▋    | 211875/371472 [5:49:00<12:35:06,  3.52it/s] 57%|█████▋    | 211876/371472 [5:49:01<12:42:05,  3.49it/s] 57%|█████▋    | 211877/371472 [5:49:01<12:18:43,  3.60it/s] 57%|█████▋    | 211878/371472 [5:49:01<12:41:12,  3.49it/s] 57%|█████▋    | 211879/371472 [5:49:02<12:30:40,  3.54it/s] 57%|█████▋    | 211880/371472 [5:49:02<12:15:48,  3.61it/s]                                                            {'loss': 2.8955, 'learning_rate': 4.86866771531384e-07, 'epoch': 9.13}
 57%|█████▋    | 211880/371472 [5:49:02<12:15:48,  3.61it/s] 57%|█████▋    | 211881/371472 [5:49:02<12:52:37,  3.44it/s] 57%|█████▋    | 211882/371472 [5:49:03<13:13:19,  3.35it/s] 57%|█████▋    | 211883/371472 [5:49:03<12:32:10,  3.54it/s] 57%|█████▋    | 211884/371472 [5:49:03<12:58:32,  3.42it/s] 57%|█████▋    | 211885/371472 [5:49:03<12:44:06,  3.48it/s] 57%|█████▋    | 211886/371472 [5:49:04<12:23:18,  3.58it/s] 57%|█████▋    | 211887/371472 [5:49:04<12:18:53,  3.60it/s] 57%|█████▋    | 211888/371472 [5:49:04<12:06:06,  3.66it/s] 57%|█████▋    | 211889/371472 [5:49:04<12:45:00,  3.48it/s] 57%|█████▋    | 211890/371472 [5:49:05<12:46:03,  3.47it/s] 57%|█████▋    | 211891/371472 [5:49:05<12:42:16,  3.49it/s] 57%|█████▋    | 211892/371472 [5:49:05<12:22:42,  3.58it/s] 57%|█████▋    | 211893/371472 [5:49:06<13:14:10,  3.35it/s] 57%|█████▋    | 211894/371472 [5:49:06<12:55:28,  3.43it/s] 57%|█████▋    | 211895/371472 [5:49:06<13:13:56,  3.35it/s] 57%|█████▋    | 211896/371472 [5:49:07<12:49:05,  3.46it/s] 57%|█████▋    | 211897/371472 [5:49:07<12:53:06,  3.44it/s] 57%|█████▋    | 211898/371472 [5:49:07<12:24:20,  3.57it/s] 57%|█████▋    | 211899/371472 [5:49:08<14:40:47,  3.02it/s] 57%|█████▋    | 211900/371472 [5:49:08<13:48:17,  3.21it/s]                                                            {'loss': 3.029, 'learning_rate': 4.868182895559051e-07, 'epoch': 9.13}
 57%|█████▋    | 211900/371472 [5:49:08<13:48:17,  3.21it/s] 57%|█████▋    | 211901/371472 [5:49:08<13:38:28,  3.25it/s] 57%|█████▋    | 211902/371472 [5:49:08<15:07:35,  2.93it/s] 57%|█████▋    | 211903/371472 [5:49:09<14:15:07,  3.11it/s] 57%|█████▋    | 211904/371472 [5:49:09<13:32:37,  3.27it/s] 57%|█████▋    | 211905/371472 [5:49:09<13:04:05,  3.39it/s] 57%|█████▋    | 211906/371472 [5:49:10<12:59:12,  3.41it/s] 57%|█████▋    | 211907/371472 [5:49:10<14:01:16,  3.16it/s] 57%|█████▋    | 211908/371472 [5:49:10<13:49:42,  3.21it/s] 57%|█████▋    | 211909/371472 [5:49:11<13:21:08,  3.32it/s] 57%|█████▋    | 211910/371472 [5:49:11<14:42:50,  3.01it/s] 57%|█████▋    | 211911/371472 [5:49:11<13:55:38,  3.18it/s] 57%|█████▋    | 211912/371472 [5:49:11<13:26:14,  3.30it/s] 57%|█████▋    | 211913/371472 [5:49:12<14:55:32,  2.97it/s] 57%|█████▋    | 211914/371472 [5:49:12<14:48:34,  2.99it/s] 57%|█████▋    | 211915/371472 [5:49:13<14:13:33,  3.12it/s] 57%|█████▋    | 211916/371472 [5:49:13<13:28:19,  3.29it/s] 57%|█████▋    | 211917/371472 [5:49:13<14:29:37,  3.06it/s] 57%|█████▋    | 211918/371472 [5:49:13<13:45:18,  3.22it/s] 57%|█████▋    | 211919/371472 [5:49:14<13:07:40,  3.38it/s] 57%|█████▋    | 211920/371472 [5:49:14<13:09:57,  3.37it/s]                                                            {'loss': 2.8448, 'learning_rate': 4.867698075804261e-07, 'epoch': 9.13}
 57%|█████▋    | 211920/371472 [5:49:14<13:09:57,  3.37it/s] 57%|█████▋    | 211921/371472 [5:49:14<13:13:45,  3.35it/s] 57%|█████▋    | 211922/371472 [5:49:15<12:34:59,  3.52it/s] 57%|█████▋    | 211923/371472 [5:49:15<12:15:47,  3.61it/s] 57%|█████▋    | 211924/371472 [5:49:15<12:19:37,  3.60it/s] 57%|█████▋    | 211925/371472 [5:49:15<11:56:12,  3.71it/s] 57%|█████▋    | 211926/371472 [5:49:16<11:53:26,  3.73it/s] 57%|█████▋    | 211927/371472 [5:49:16<11:50:02,  3.74it/s] 57%|█████▋    | 211928/371472 [5:49:16<12:15:11,  3.62it/s] 57%|█████▋    | 211929/371472 [5:49:16<12:07:22,  3.66it/s] 57%|█████▋    | 211930/371472 [5:49:17<12:14:30,  3.62it/s] 57%|█████▋    | 211931/371472 [5:49:17<12:20:18,  3.59it/s] 57%|█████▋    | 211932/371472 [5:49:17<12:05:42,  3.66it/s] 57%|█████▋    | 211933/371472 [5:49:18<12:01:54,  3.68it/s] 57%|█████▋    | 211934/371472 [5:49:18<12:12:44,  3.63it/s] 57%|█████▋    | 211935/371472 [5:49:18<12:17:02,  3.61it/s] 57%|█████▋    | 211936/371472 [5:49:18<12:05:13,  3.67it/s] 57%|█████▋    | 211937/371472 [5:49:19<12:29:55,  3.55it/s] 57%|█████▋    | 211938/371472 [5:49:19<14:57:58,  2.96it/s] 57%|█████▋    | 211939/371472 [5:49:19<14:16:53,  3.10it/s] 57%|█████▋    | 211940/371472 [5:49:20<13:27:58,  3.29it/s]                                                            {'loss': 2.868, 'learning_rate': 4.867213256049472e-07, 'epoch': 9.13}
 57%|█████▋    | 211940/371472 [5:49:20<13:27:58,  3.29it/s] 57%|█████▋    | 211941/371472 [5:49:20<12:50:43,  3.45it/s] 57%|█████▋    | 211942/371472 [5:49:20<13:46:30,  3.22it/s] 57%|█████▋    | 211943/371472 [5:49:21<13:29:27,  3.28it/s] 57%|█████▋    | 211944/371472 [5:49:21<12:43:16,  3.48it/s] 57%|█████▋    | 211945/371472 [5:49:21<12:28:07,  3.55it/s] 57%|█████▋    | 211946/371472 [5:49:21<12:23:37,  3.58it/s] 57%|█████▋    | 211947/371472 [5:49:22<12:23:32,  3.58it/s] 57%|█████▋    | 211948/371472 [5:49:22<12:17:34,  3.60it/s] 57%|█████▋    | 211949/371472 [5:49:22<12:35:02,  3.52it/s] 57%|█████▋    | 211950/371472 [5:49:23<12:44:59,  3.48it/s] 57%|█████▋    | 211951/371472 [5:49:23<12:33:56,  3.53it/s] 57%|█████▋    | 211952/371472 [5:49:23<12:03:44,  3.67it/s] 57%|█████▋    | 211953/371472 [5:49:23<11:56:13,  3.71it/s] 57%|█████▋    | 211954/371472 [5:49:24<12:34:35,  3.52it/s] 57%|█████▋    | 211955/371472 [5:49:24<12:48:22,  3.46it/s] 57%|█████▋    | 211956/371472 [5:49:24<13:10:45,  3.36it/s] 57%|█████▋    | 211957/371472 [5:49:25<13:46:20,  3.22it/s] 57%|█████▋    | 211958/371472 [5:49:25<13:22:02,  3.31it/s] 57%|█████▋    | 211959/371472 [5:49:25<12:57:42,  3.42it/s] 57%|█████▋    | 211960/371472 [5:49:25<13:27:40,  3.29it/s]                                                            {'loss': 2.9256, 'learning_rate': 4.866728436294683e-07, 'epoch': 9.13}
 57%|█████▋    | 211960/371472 [5:49:25<13:27:40,  3.29it/s] 57%|█████▋    | 211961/371472 [5:49:26<13:20:40,  3.32it/s] 57%|█████▋    | 211962/371472 [5:49:26<14:11:46,  3.12it/s] 57%|█████▋    | 211963/371472 [5:49:26<14:13:45,  3.11it/s] 57%|█████▋    | 211964/371472 [5:49:27<13:28:16,  3.29it/s] 57%|█████▋    | 211965/371472 [5:49:27<13:00:38,  3.41it/s] 57%|█████▋    | 211966/371472 [5:49:27<12:52:09,  3.44it/s] 57%|█████▋    | 211967/371472 [5:49:28<13:21:00,  3.32it/s] 57%|█████▋    | 211968/371472 [5:49:28<12:54:20,  3.43it/s] 57%|█████▋    | 211969/371472 [5:49:28<12:29:06,  3.55it/s] 57%|█████▋    | 211970/371472 [5:49:28<12:16:48,  3.61it/s] 57%|█████▋    | 211971/371472 [5:49:29<12:38:48,  3.50it/s] 57%|█████▋    | 211972/371472 [5:49:29<12:02:52,  3.68it/s] 57%|█████▋    | 211973/371472 [5:49:29<12:43:14,  3.48it/s] 57%|█████▋    | 211974/371472 [5:49:30<12:09:19,  3.64it/s] 57%|█████▋    | 211975/371472 [5:49:30<11:46:06,  3.76it/s] 57%|█████▋    | 211976/371472 [5:49:30<11:56:03,  3.71it/s] 57%|█████▋    | 211977/371472 [5:49:30<12:01:41,  3.68it/s] 57%|█████▋    | 211978/371472 [5:49:31<12:42:35,  3.49it/s] 57%|█████▋    | 211979/371472 [5:49:31<12:48:37,  3.46it/s] 57%|█████▋    | 211980/371472 [5:49:31<12:24:47,  3.57it/s]                                                            {'loss': 2.9999, 'learning_rate': 4.866243616539896e-07, 'epoch': 9.13}
 57%|█████▋    | 211980/371472 [5:49:31<12:24:47,  3.57it/s] 57%|█████▋    | 211981/371472 [5:49:31<12:40:25,  3.50it/s] 57%|█████▋    | 211982/371472 [5:49:32<12:09:37,  3.64it/s] 57%|█████▋    | 211983/371472 [5:49:32<11:55:35,  3.71it/s] 57%|█████▋    | 211984/371472 [5:49:32<12:14:43,  3.62it/s] 57%|█████▋    | 211985/371472 [5:49:33<12:12:21,  3.63it/s] 57%|█████▋    | 211986/371472 [5:49:33<11:42:56,  3.78it/s] 57%|█████▋    | 211987/371472 [5:49:33<11:40:08,  3.80it/s] 57%|█████▋    | 211988/371472 [5:49:33<12:01:27,  3.68it/s] 57%|█████▋    | 211989/371472 [5:49:34<11:50:53,  3.74it/s] 57%|█████▋    | 211990/371472 [5:49:34<11:46:46,  3.76it/s] 57%|█████▋    | 211991/371472 [5:49:34<11:40:48,  3.79it/s] 57%|█████▋    | 211992/371472 [5:49:34<11:38:49,  3.80it/s] 57%|█████▋    | 211993/371472 [5:49:35<11:50:24,  3.74it/s] 57%|█████▋    | 211994/371472 [5:49:35<11:50:59,  3.74it/s] 57%|█████▋    | 211995/371472 [5:49:35<12:25:16,  3.57it/s] 57%|█████▋    | 211996/371472 [5:49:35<12:11:41,  3.63it/s] 57%|█████▋    | 211997/371472 [5:49:36<12:22:43,  3.58it/s] 57%|█████▋    | 211998/371472 [5:49:36<12:18:05,  3.60it/s] 57%|█████▋    | 211999/371472 [5:49:36<13:10:17,  3.36it/s] 57%|█████▋    | 212000/371472 [5:49:37<13:04:22,  3.39it/s]                                                            {'loss': 3.1419, 'learning_rate': 4.865758796785106e-07, 'epoch': 9.13}
 57%|█████▋    | 212000/371472 [5:49:37<13:04:22,  3.39it/s] 57%|█████▋    | 212001/371472 [5:49:37<13:04:17,  3.39it/s] 57%|█████▋    | 212002/371472 [5:49:37<12:20:15,  3.59it/s] 57%|█████▋    | 212003/371472 [5:49:38<12:59:05,  3.41it/s] 57%|█████▋    | 212004/371472 [5:49:38<12:38:50,  3.50it/s] 57%|█████▋    | 212005/371472 [5:49:38<12:12:50,  3.63it/s] 57%|█████▋    | 212006/371472 [5:49:38<12:03:24,  3.67it/s] 57%|█████▋    | 212007/371472 [5:49:39<12:04:55,  3.67it/s] 57%|█████▋    | 212008/371472 [5:49:39<12:11:12,  3.63it/s] 57%|█████▋    | 212009/371472 [5:49:39<12:28:34,  3.55it/s] 57%|█████▋    | 212010/371472 [5:49:39<12:43:25,  3.48it/s] 57%|█████▋    | 212011/371472 [5:49:40<12:23:25,  3.57it/s] 57%|█████▋    | 212012/371472 [5:49:40<13:20:14,  3.32it/s] 57%|█████▋    | 212013/371472 [5:49:40<13:10:59,  3.36it/s] 57%|█████▋    | 212014/371472 [5:49:41<13:47:09,  3.21it/s] 57%|█████▋    | 212015/371472 [5:49:41<15:07:35,  2.93it/s] 57%|█████▋    | 212016/371472 [5:49:41<14:45:37,  3.00it/s] 57%|█████▋    | 212017/371472 [5:49:42<13:43:04,  3.23it/s] 57%|█████▋    | 212018/371472 [5:49:42<12:50:03,  3.45it/s] 57%|█████▋    | 212019/371472 [5:49:42<12:17:11,  3.60it/s] 57%|█████▋    | 212020/371472 [5:49:43<12:45:42,  3.47it/s]                                                            {'loss': 2.879, 'learning_rate': 4.865273977030317e-07, 'epoch': 9.13}
 57%|█████▋    | 212020/371472 [5:49:43<12:45:42,  3.47it/s] 57%|█████▋    | 212021/371472 [5:49:43<17:48:08,  2.49it/s] 57%|█████▋    | 212022/371472 [5:49:43<16:21:42,  2.71it/s] 57%|█████▋    | 212023/371472 [5:49:44<15:44:22,  2.81it/s] 57%|█████▋    | 212024/371472 [5:49:44<14:26:20,  3.07it/s] 57%|█████▋    | 212025/371472 [5:49:44<14:07:35,  3.14it/s] 57%|█████▋    | 212026/371472 [5:49:45<13:29:54,  3.28it/s] 57%|█████▋    | 212027/371472 [5:49:45<13:34:57,  3.26it/s] 57%|█████▋    | 212028/371472 [5:49:45<14:27:26,  3.06it/s] 57%|█████▋    | 212029/371472 [5:49:46<13:55:17,  3.18it/s] 57%|█████▋    | 212030/371472 [5:49:46<13:35:51,  3.26it/s] 57%|█████▋    | 212031/371472 [5:49:46<13:01:36,  3.40it/s] 57%|█████▋    | 212032/371472 [5:49:46<13:29:41,  3.28it/s] 57%|█████▋    | 212033/371472 [5:49:47<13:23:53,  3.31it/s] 57%|█████▋    | 212034/371472 [5:49:47<13:17:24,  3.33it/s] 57%|█████▋    | 212035/371472 [5:49:47<12:53:56,  3.43it/s] 57%|█████▋    | 212036/371472 [5:49:48<12:47:57,  3.46it/s] 57%|█████▋    | 212037/371472 [5:49:48<12:46:39,  3.47it/s] 57%|█████▋    | 212038/371472 [5:49:48<13:08:45,  3.37it/s] 57%|█████▋    | 212039/371472 [5:49:49<12:44:52,  3.47it/s] 57%|█████▋    | 212040/371472 [5:49:49<12:55:43,  3.43it/s]                                                            {'loss': 2.9634, 'learning_rate': 4.864789157275528e-07, 'epoch': 9.13}
 57%|█████▋    | 212040/371472 [5:49:49<12:55:43,  3.43it/s] 57%|█████▋    | 212041/371472 [5:49:49<13:02:12,  3.40it/s] 57%|█████▋    | 212042/371472 [5:49:49<13:25:57,  3.30it/s] 57%|█████▋    | 212043/371472 [5:49:50<13:09:29,  3.37it/s] 57%|█████▋    | 212044/371472 [5:49:50<12:43:11,  3.48it/s] 57%|█████▋    | 212045/371472 [5:49:50<12:37:41,  3.51it/s] 57%|█████▋    | 212046/371472 [5:49:51<12:12:28,  3.63it/s] 57%|█████▋    | 212047/371472 [5:49:51<12:14:39,  3.62it/s] 57%|█████▋    | 212048/371472 [5:49:51<12:41:39,  3.49it/s] 57%|█████▋    | 212049/371472 [5:49:51<12:41:10,  3.49it/s] 57%|█████▋    | 212050/371472 [5:49:52<12:41:59,  3.49it/s] 57%|█████▋    | 212051/371472 [5:49:52<12:41:35,  3.49it/s] 57%|█████▋    | 212052/371472 [5:49:52<12:03:32,  3.67it/s] 57%|█████▋    | 212053/371472 [5:49:53<12:23:34,  3.57it/s] 57%|█████▋    | 212054/371472 [5:49:53<12:31:48,  3.53it/s] 57%|█████▋    | 212055/371472 [5:49:53<12:13:08,  3.62it/s] 57%|█████▋    | 212056/371472 [5:49:53<12:02:05,  3.68it/s] 57%|█████▋    | 212057/371472 [5:49:54<11:54:22,  3.72it/s] 57%|█████▋    | 212058/371472 [5:49:54<12:05:04,  3.66it/s] 57%|█████▋    | 212059/371472 [5:49:54<11:52:00,  3.73it/s] 57%|█████▋    | 212060/371472 [5:49:54<11:51:12,  3.74it/s]                                                            {'loss': 2.8841, 'learning_rate': 4.86430433752074e-07, 'epoch': 9.13}
 57%|█████▋    | 212060/371472 [5:49:54<11:51:12,  3.74it/s] 57%|█████▋    | 212061/371472 [5:49:55<11:54:51,  3.72it/s] 57%|█████▋    | 212062/371472 [5:49:55<11:58:51,  3.70it/s] 57%|█████▋    | 212063/371472 [5:49:55<11:52:33,  3.73it/s] 57%|█████▋    | 212064/371472 [5:49:55<11:38:17,  3.80it/s] 57%|█████▋    | 212065/371472 [5:49:56<11:57:28,  3.70it/s] 57%|█████▋    | 212066/371472 [5:49:56<12:10:16,  3.64it/s] 57%|█████▋    | 212067/371472 [5:49:56<12:34:07,  3.52it/s] 57%|█████▋    | 212068/371472 [5:49:57<12:43:16,  3.48it/s] 57%|█████▋    | 212069/371472 [5:49:57<12:56:11,  3.42it/s] 57%|█████▋    | 212070/371472 [5:49:57<13:24:08,  3.30it/s] 57%|█████▋    | 212071/371472 [5:49:58<13:02:34,  3.39it/s] 57%|█████▋    | 212072/371472 [5:49:58<12:42:53,  3.48it/s] 57%|█████▋    | 212073/371472 [5:49:58<12:43:52,  3.48it/s] 57%|█████▋    | 212074/371472 [5:49:58<12:48:03,  3.46it/s] 57%|█████▋    | 212075/371472 [5:49:59<12:28:45,  3.55it/s] 57%|█████▋    | 212076/371472 [5:49:59<13:03:51,  3.39it/s] 57%|█████▋    | 212077/371472 [5:49:59<12:51:25,  3.44it/s] 57%|█████▋    | 212078/371472 [5:50:00<12:36:30,  3.51it/s] 57%|█████▋    | 212079/371472 [5:50:00<12:12:50,  3.62it/s] 57%|█████▋    | 212080/371472 [5:50:00<11:57:25,  3.70it/s]                                                            {'loss': 3.0606, 'learning_rate': 4.863819517765949e-07, 'epoch': 9.13}
 57%|█████▋    | 212080/371472 [5:50:00<11:57:25,  3.70it/s] 57%|█████▋    | 212081/371472 [5:50:00<12:15:40,  3.61it/s] 57%|█████▋    | 212082/371472 [5:50:01<12:20:24,  3.59it/s] 57%|█████▋    | 212083/371472 [5:50:01<12:19:06,  3.59it/s] 57%|█████▋    | 212084/371472 [5:50:01<11:54:28,  3.72it/s] 57%|█████▋    | 212085/371472 [5:50:01<11:39:57,  3.80it/s] 57%|█████▋    | 212086/371472 [5:50:02<12:44:34,  3.47it/s] 57%|█████▋    | 212087/371472 [5:50:02<15:06:53,  2.93it/s] 57%|█████▋    | 212088/371472 [5:50:02<13:56:03,  3.18it/s] 57%|█████▋    | 212089/371472 [5:50:03<13:52:31,  3.19it/s] 57%|█████▋    | 212090/371472 [5:50:03<13:05:42,  3.38it/s] 57%|█████▋    | 212091/371472 [5:50:03<12:49:15,  3.45it/s] 57%|█████▋    | 212092/371472 [5:50:04<12:57:27,  3.42it/s] 57%|█████▋    | 212093/371472 [5:50:04<12:46:27,  3.47it/s] 57%|█████▋    | 212094/371472 [5:50:04<12:37:37,  3.51it/s] 57%|█████▋    | 212095/371472 [5:50:04<12:34:38,  3.52it/s] 57%|█████▋    | 212096/371472 [5:50:05<12:17:45,  3.60it/s] 57%|█████▋    | 212097/371472 [5:50:05<12:22:35,  3.58it/s] 57%|█████▋    | 212098/371472 [5:50:05<12:00:45,  3.69it/s] 57%|█████▋    | 212099/371472 [5:50:06<12:24:05,  3.57it/s] 57%|█████▋    | 212100/371472 [5:50:06<12:18:17,  3.60it/s]                                                            {'loss': 3.0332, 'learning_rate': 4.863334698011162e-07, 'epoch': 9.14}
 57%|█████▋    | 212100/371472 [5:50:06<12:18:17,  3.60it/s] 57%|█████▋    | 212101/371472 [5:50:06<12:35:43,  3.51it/s] 57%|█████▋    | 212102/371472 [5:50:06<12:46:56,  3.46it/s] 57%|█████▋    | 212103/371472 [5:50:07<12:40:37,  3.49it/s] 57%|█████▋    | 212104/371472 [5:50:07<12:28:04,  3.55it/s] 57%|█████▋    | 212105/371472 [5:50:07<12:21:59,  3.58it/s] 57%|█████▋    | 212106/371472 [5:50:08<12:31:33,  3.53it/s] 57%|█████▋    | 212107/371472 [5:50:08<12:18:36,  3.60it/s] 57%|█████▋    | 212108/371472 [5:50:08<12:08:12,  3.65it/s] 57%|█████▋    | 212109/371472 [5:50:08<11:56:47,  3.71it/s] 57%|█████▋    | 212110/371472 [5:50:09<12:17:09,  3.60it/s] 57%|█████▋    | 212111/371472 [5:50:09<12:37:16,  3.51it/s] 57%|█████▋    | 212112/371472 [5:50:09<12:13:28,  3.62it/s] 57%|█████▋    | 212113/371472 [5:50:09<12:15:17,  3.61it/s] 57%|█████▋    | 212114/371472 [5:50:10<12:28:51,  3.55it/s] 57%|█████▋    | 212115/371472 [5:50:10<12:23:27,  3.57it/s] 57%|█████▋    | 212116/371472 [5:50:10<12:20:05,  3.59it/s] 57%|█████▋    | 212117/371472 [5:50:11<12:14:33,  3.62it/s] 57%|█████▋    | 212118/371472 [5:50:11<11:58:42,  3.70it/s] 57%|█████▋    | 212119/371472 [5:50:11<11:44:10,  3.77it/s] 57%|█████▋    | 212120/371472 [5:50:11<12:12:15,  3.63it/s]                                                            {'loss': 2.9065, 'learning_rate': 4.862849878256373e-07, 'epoch': 9.14}
 57%|█████▋    | 212120/371472 [5:50:11<12:12:15,  3.63it/s] 57%|█████▋    | 212121/371472 [5:50:12<12:26:17,  3.56it/s] 57%|█████▋    | 212122/371472 [5:50:12<13:13:44,  3.35it/s] 57%|█████▋    | 212123/371472 [5:50:12<12:58:32,  3.41it/s] 57%|█████▋    | 212124/371472 [5:50:13<12:58:55,  3.41it/s] 57%|█████▋    | 212125/371472 [5:50:13<12:28:08,  3.55it/s] 57%|█████▋    | 212126/371472 [5:50:13<12:16:49,  3.60it/s] 57%|█████▋    | 212127/371472 [5:50:13<12:05:29,  3.66it/s] 57%|█████▋    | 212128/371472 [5:50:14<13:37:47,  3.25it/s] 57%|█████▋    | 212129/371472 [5:50:14<12:56:13,  3.42it/s] 57%|█████▋    | 212130/371472 [5:50:14<12:31:26,  3.53it/s] 57%|█████▋    | 212131/371472 [5:50:15<12:26:41,  3.56it/s] 57%|█████▋    | 212132/371472 [5:50:15<12:06:17,  3.66it/s] 57%|█████▋    | 212133/371472 [5:50:15<11:43:01,  3.78it/s] 57%|█████▋    | 212134/371472 [5:50:15<11:38:15,  3.80it/s] 57%|█████▋    | 212135/371472 [5:50:16<11:43:43,  3.77it/s] 57%|█████▋    | 212136/371472 [5:50:16<11:41:32,  3.79it/s] 57%|█████▋    | 212137/371472 [5:50:16<12:47:00,  3.46it/s] 57%|█████▋    | 212138/371472 [5:50:16<12:20:57,  3.58it/s] 57%|█████▋    | 212139/371472 [5:50:17<13:19:43,  3.32it/s] 57%|█████▋    | 212140/371472 [5:50:17<12:59:01,  3.41it/s]                                                            {'loss': 2.9739, 'learning_rate': 4.862365058501584e-07, 'epoch': 9.14}
 57%|█████▋    | 212140/371472 [5:50:17<12:59:01,  3.41it/s] 57%|█████▋    | 212141/371472 [5:50:17<13:20:08,  3.32it/s] 57%|█████▋    | 212142/371472 [5:50:18<12:25:09,  3.56it/s] 57%|█████▋    | 212143/371472 [5:50:18<12:38:36,  3.50it/s] 57%|█████▋    | 212144/371472 [5:50:18<13:08:00,  3.37it/s] 57%|█████▋    | 212145/371472 [5:50:19<12:53:21,  3.43it/s] 57%|█████▋    | 212146/371472 [5:50:19<12:30:53,  3.54it/s] 57%|█████▋    | 212147/371472 [5:50:19<12:14:12,  3.62it/s] 57%|█████▋    | 212148/371472 [5:50:19<12:28:26,  3.55it/s] 57%|█████▋    | 212149/371472 [5:50:20<12:57:56,  3.41it/s] 57%|█████▋    | 212150/371472 [5:50:20<12:28:17,  3.55it/s] 57%|█████▋    | 212151/371472 [5:50:20<12:40:12,  3.49it/s] 57%|█████▋    | 212152/371472 [5:50:20<12:21:59,  3.58it/s] 57%|█████▋    | 212153/371472 [5:50:21<12:14:16,  3.62it/s] 57%|█████▋    | 212154/371472 [5:50:21<12:43:44,  3.48it/s] 57%|█████▋    | 212155/371472 [5:50:21<12:28:18,  3.55it/s] 57%|█████▋    | 212156/371472 [5:50:22<11:59:40,  3.69it/s] 57%|█████▋    | 212157/371472 [5:50:22<12:00:20,  3.69it/s] 57%|█████▋    | 212158/371472 [5:50:22<11:31:43,  3.84it/s] 57%|█████▋    | 212159/371472 [5:50:22<11:31:52,  3.84it/s] 57%|█████▋    | 212160/371472 [5:50:23<11:59:24,  3.69it/s]                                                            {'loss': 3.012, 'learning_rate': 4.861880238746794e-07, 'epoch': 9.14}
 57%|█████▋    | 212160/371472 [5:50:23<11:59:24,  3.69it/s] 57%|█████▋    | 212161/371472 [5:50:23<11:56:43,  3.70it/s] 57%|█████▋    | 212162/371472 [5:50:23<12:02:34,  3.67it/s] 57%|█████▋    | 212163/371472 [5:50:23<12:00:26,  3.69it/s] 57%|█████▋    | 212164/371472 [5:50:24<12:08:10,  3.65it/s] 57%|█████▋    | 212165/371472 [5:50:24<12:19:52,  3.59it/s] 57%|█████▋    | 212166/371472 [5:50:24<11:56:38,  3.70it/s] 57%|█████▋    | 212167/371472 [5:50:25<12:25:25,  3.56it/s] 57%|█████▋    | 212168/371472 [5:50:25<12:11:48,  3.63it/s] 57%|█████▋    | 212169/371472 [5:50:25<12:17:31,  3.60it/s] 57%|█████▋    | 212170/371472 [5:50:25<11:55:04,  3.71it/s] 57%|█████▋    | 212171/371472 [5:50:26<12:00:05,  3.69it/s] 57%|█████▋    | 212172/371472 [5:50:26<12:39:31,  3.50it/s] 57%|█████▋    | 212173/371472 [5:50:26<12:17:42,  3.60it/s] 57%|█████▋    | 212174/371472 [5:50:26<12:02:31,  3.67it/s] 57%|█████▋    | 212175/371472 [5:50:27<12:04:11,  3.67it/s] 57%|█████▋    | 212176/371472 [5:50:27<12:00:02,  3.69it/s] 57%|█████▋    | 212177/371472 [5:50:27<12:47:12,  3.46it/s] 57%|█████▋    | 212178/371472 [5:50:28<14:03:09,  3.15it/s] 57%|█████▋    | 212179/371472 [5:50:28<14:03:09,  3.15it/s] 57%|█████▋    | 212180/371472 [5:50:28<13:48:26,  3.20it/s]                                                            {'loss': 2.8683, 'learning_rate': 4.861395418992006e-07, 'epoch': 9.14}
 57%|█████▋    | 212180/371472 [5:50:28<13:48:26,  3.20it/s] 57%|█████▋    | 212181/371472 [5:50:29<13:12:20,  3.35it/s] 57%|█████▋    | 212182/371472 [5:50:29<12:39:17,  3.50it/s] 57%|█████▋    | 212183/371472 [5:50:29<12:38:38,  3.50it/s] 57%|█████▋    | 212184/371472 [5:50:29<12:43:06,  3.48it/s] 57%|█████▋    | 212185/371472 [5:50:30<12:44:09,  3.47it/s] 57%|█████▋    | 212186/371472 [5:50:30<12:30:30,  3.54it/s] 57%|█████▋    | 212187/371472 [5:50:30<12:40:13,  3.49it/s] 57%|█████▋    | 212188/371472 [5:50:31<12:37:40,  3.50it/s] 57%|█████▋    | 212189/371472 [5:50:31<12:48:31,  3.45it/s] 57%|█████▋    | 212190/371472 [5:50:31<12:53:16,  3.43it/s] 57%|█████▋    | 212191/371472 [5:50:31<12:43:19,  3.48it/s] 57%|█████▋    | 212192/371472 [5:50:32<13:20:19,  3.32it/s] 57%|█████▋    | 212193/371472 [5:50:32<14:00:21,  3.16it/s] 57%|█████▋    | 212194/371472 [5:50:32<13:26:43,  3.29it/s] 57%|█████▋    | 212195/371472 [5:50:33<12:41:13,  3.49it/s] 57%|█████▋    | 212196/371472 [5:50:33<12:52:50,  3.43it/s] 57%|█████▋    | 212197/371472 [5:50:33<12:57:14,  3.42it/s] 57%|█████▋    | 212198/371472 [5:50:34<12:57:14,  3.42it/s] 57%|█████▋    | 212199/371472 [5:50:34<12:35:20,  3.51it/s] 57%|█████▋    | 212200/371472 [5:50:34<12:36:22,  3.51it/s]                                                            {'loss': 2.9334, 'learning_rate': 4.860910599237216e-07, 'epoch': 9.14}
 57%|█████▋    | 212200/371472 [5:50:34<12:36:22,  3.51it/s] 57%|█████▋    | 212201/371472 [5:50:34<12:23:15,  3.57it/s] 57%|█████▋    | 212202/371472 [5:50:35<11:58:52,  3.69it/s] 57%|█████▋    | 212203/371472 [5:50:35<11:45:43,  3.76it/s] 57%|█████▋    | 212204/371472 [5:50:35<11:34:13,  3.82it/s] 57%|█████▋    | 212205/371472 [5:50:35<11:33:54,  3.83it/s] 57%|█████▋    | 212206/371472 [5:50:36<11:23:58,  3.88it/s] 57%|█████▋    | 212207/371472 [5:50:36<12:16:48,  3.60it/s] 57%|█████▋    | 212208/371472 [5:50:36<12:38:36,  3.50it/s] 57%|█████▋    | 212209/371472 [5:50:37<12:15:12,  3.61it/s] 57%|█████▋    | 212210/371472 [5:50:37<12:22:19,  3.58it/s] 57%|█████▋    | 212211/371472 [5:50:37<12:10:16,  3.63it/s] 57%|█████▋    | 212212/371472 [5:50:37<12:35:13,  3.51it/s] 57%|█████▋    | 212213/371472 [5:50:38<12:42:10,  3.48it/s] 57%|█████▋    | 212214/371472 [5:50:38<12:06:57,  3.65it/s] 57%|█████▋    | 212215/371472 [5:50:38<13:45:54,  3.21it/s] 57%|█████▋    | 212216/371472 [5:50:39<13:13:15,  3.35it/s] 57%|█████▋    | 212217/371472 [5:50:39<12:35:23,  3.51it/s] 57%|█████▋    | 212218/371472 [5:50:39<12:24:53,  3.56it/s] 57%|█████▋    | 212219/371472 [5:50:39<12:18:56,  3.59it/s] 57%|█████▋    | 212220/371472 [5:50:40<12:21:56,  3.58it/s]                                                            {'loss': 3.0801, 'learning_rate': 4.860425779482429e-07, 'epoch': 9.14}
 57%|█████▋    | 212220/371472 [5:50:40<12:21:56,  3.58it/s] 57%|█████▋    | 212221/371472 [5:50:40<12:30:45,  3.54it/s] 57%|█████▋    | 212222/371472 [5:50:40<13:51:32,  3.19it/s] 57%|█████▋    | 212223/371472 [5:50:41<12:59:30,  3.40it/s] 57%|█████▋    | 212224/371472 [5:50:41<13:07:00,  3.37it/s] 57%|█████▋    | 212225/371472 [5:50:41<13:05:21,  3.38it/s] 57%|█████▋    | 212226/371472 [5:50:42<13:47:16,  3.21it/s] 57%|█████▋    | 212227/371472 [5:50:42<13:07:55,  3.37it/s] 57%|█████▋    | 212228/371472 [5:50:42<12:23:03,  3.57it/s] 57%|█████▋    | 212229/371472 [5:50:42<12:11:59,  3.63it/s] 57%|█████▋    | 212230/371472 [5:50:43<12:39:45,  3.49it/s] 57%|█████▋    | 212231/371472 [5:50:43<13:30:37,  3.27it/s] 57%|█████▋    | 212232/371472 [5:50:43<13:35:20,  3.26it/s] 57%|█████▋    | 212233/371472 [5:50:44<12:52:02,  3.44it/s] 57%|█████▋    | 212234/371472 [5:50:44<12:45:36,  3.47it/s] 57%|█████▋    | 212235/371472 [5:50:44<12:36:46,  3.51it/s] 57%|█████▋    | 212236/371472 [5:50:44<12:17:31,  3.60it/s] 57%|█████▋    | 212237/371472 [5:50:45<12:12:17,  3.62it/s] 57%|█████▋    | 212238/371472 [5:50:45<12:24:01,  3.57it/s] 57%|█████▋    | 212239/371472 [5:50:45<13:25:52,  3.29it/s] 57%|█████▋    | 212240/371472 [5:50:46<14:27:08,  3.06it/s]                                                            {'loss': 2.9025, 'learning_rate': 4.859940959727639e-07, 'epoch': 9.14}
 57%|█████▋    | 212240/371472 [5:50:46<14:27:08,  3.06it/s] 57%|█████▋    | 212241/371472 [5:50:46<13:54:05,  3.18it/s] 57%|█████▋    | 212242/371472 [5:50:46<14:14:44,  3.10it/s] 57%|█████▋    | 212243/371472 [5:50:47<13:44:10,  3.22it/s] 57%|█████▋    | 212244/371472 [5:50:47<13:59:38,  3.16it/s] 57%|█████▋    | 212245/371472 [5:50:47<13:53:47,  3.18it/s] 57%|█████▋    | 212246/371472 [5:50:47<13:18:57,  3.32it/s] 57%|█████▋    | 212247/371472 [5:50:48<13:07:21,  3.37it/s] 57%|█████▋    | 212248/371472 [5:50:48<12:39:23,  3.49it/s] 57%|█████▋    | 212249/371472 [5:50:49<17:30:56,  2.53it/s] 57%|█████▋    | 212250/371472 [5:50:49<16:16:57,  2.72it/s] 57%|█████▋    | 212251/371472 [5:50:49<14:55:13,  2.96it/s] 57%|█████▋    | 212252/371472 [5:50:50<14:49:00,  2.98it/s] 57%|█████▋    | 212253/371472 [5:50:50<14:25:24,  3.07it/s] 57%|█████▋    | 212254/371472 [5:50:50<13:55:46,  3.18it/s] 57%|█████▋    | 212255/371472 [5:50:50<14:10:52,  3.12it/s] 57%|█████▋    | 212256/371472 [5:50:51<13:32:09,  3.27it/s] 57%|█████▋    | 212257/371472 [5:50:51<14:59:45,  2.95it/s] 57%|█████▋    | 212258/371472 [5:50:52<15:10:39,  2.91it/s] 57%|█████▋    | 212259/371472 [5:50:52<14:46:47,  2.99it/s] 57%|█████▋    | 212260/371472 [5:50:52<13:38:50,  3.24it/s]                                                            {'loss': 2.8058, 'learning_rate': 4.85945613997285e-07, 'epoch': 9.14}
 57%|█████▋    | 212260/371472 [5:50:52<13:38:50,  3.24it/s] 57%|█████▋    | 212261/371472 [5:50:52<13:07:04,  3.37it/s] 57%|█████▋    | 212262/371472 [5:50:53<12:38:13,  3.50it/s] 57%|█████▋    | 212263/371472 [5:50:53<13:01:37,  3.39it/s] 57%|█████▋    | 212264/371472 [5:50:53<12:38:15,  3.50it/s] 57%|█████▋    | 212265/371472 [5:50:53<12:38:07,  3.50it/s] 57%|█████▋    | 212266/371472 [5:50:54<12:15:30,  3.61it/s] 57%|█████▋    | 212267/371472 [5:50:54<12:16:08,  3.60it/s] 57%|█████▋    | 212268/371472 [5:50:54<12:15:50,  3.61it/s] 57%|█████▋    | 212269/371472 [5:50:55<12:08:58,  3.64it/s] 57%|█████▋    | 212270/371472 [5:50:55<12:17:08,  3.60it/s] 57%|█████▋    | 212271/371472 [5:50:55<11:57:50,  3.70it/s] 57%|█████▋    | 212272/371472 [5:50:55<12:02:59,  3.67it/s] 57%|█████▋    | 212273/371472 [5:50:56<11:57:19,  3.70it/s] 57%|█████▋    | 212274/371472 [5:50:56<12:03:12,  3.67it/s] 57%|█████▋    | 212275/371472 [5:50:56<12:19:56,  3.59it/s] 57%|█████▋    | 212276/371472 [5:50:56<11:49:14,  3.74it/s] 57%|█████▋    | 212277/371472 [5:50:57<11:47:01,  3.75it/s] 57%|█████▋    | 212278/371472 [5:50:57<11:43:17,  3.77it/s] 57%|█████▋    | 212279/371472 [5:50:57<11:37:50,  3.80it/s] 57%|█████▋    | 212280/371472 [5:50:58<11:32:31,  3.83it/s]                                                            {'loss': 2.9739, 'learning_rate': 4.858971320218061e-07, 'epoch': 9.14}
 57%|█████▋    | 212280/371472 [5:50:58<11:32:31,  3.83it/s] 57%|█████▋    | 212281/371472 [5:50:58<11:30:44,  3.84it/s] 57%|█████▋    | 212282/371472 [5:50:58<11:41:47,  3.78it/s] 57%|█████▋    | 212283/371472 [5:50:58<11:46:51,  3.75it/s] 57%|█████▋    | 212284/371472 [5:50:59<11:51:10,  3.73it/s] 57%|█████▋    | 212285/371472 [5:50:59<11:47:02,  3.75it/s] 57%|█████▋    | 212286/371472 [5:50:59<12:19:10,  3.59it/s] 57%|█████▋    | 212287/371472 [5:50:59<12:34:49,  3.51it/s] 57%|█████▋    | 212288/371472 [5:51:00<12:53:47,  3.43it/s] 57%|█████▋    | 212289/371472 [5:51:00<12:23:36,  3.57it/s] 57%|█████▋    | 212290/371472 [5:51:00<12:27:51,  3.55it/s] 57%|█████▋    | 212291/371472 [5:51:01<12:28:20,  3.55it/s] 57%|█████▋    | 212292/371472 [5:51:01<12:59:11,  3.40it/s] 57%|█████▋    | 212293/371472 [5:51:01<13:20:31,  3.31it/s] 57%|█████▋    | 212294/371472 [5:51:02<13:23:28,  3.30it/s] 57%|█████▋    | 212295/371472 [5:51:02<12:58:06,  3.41it/s] 57%|█████▋    | 212296/371472 [5:51:02<12:56:35,  3.42it/s] 57%|█████▋    | 212297/371472 [5:51:02<12:29:54,  3.54it/s] 57%|█████▋    | 212298/371472 [5:51:03<12:42:12,  3.48it/s] 57%|█████▋    | 212299/371472 [5:51:03<12:30:29,  3.53it/s] 57%|█████▋    | 212300/371472 [5:51:03<12:22:57,  3.57it/s]                                                            {'loss': 2.9079, 'learning_rate': 4.858486500463272e-07, 'epoch': 9.14}
 57%|█████▋    | 212300/371472 [5:51:03<12:22:57,  3.57it/s] 57%|█████▋    | 212301/371472 [5:51:03<12:13:43,  3.62it/s] 57%|█████▋    | 212302/371472 [5:51:04<12:05:04,  3.66it/s] 57%|█████▋    | 212303/371472 [5:51:04<12:30:28,  3.53it/s] 57%|█████▋    | 212304/371472 [5:51:04<12:22:47,  3.57it/s] 57%|█████▋    | 212305/371472 [5:51:05<12:18:36,  3.59it/s] 57%|█████▋    | 212306/371472 [5:51:05<13:19:51,  3.32it/s] 57%|█████▋    | 212307/371472 [5:51:05<12:44:52,  3.47it/s] 57%|█████▋    | 212308/371472 [5:51:06<13:25:05,  3.29it/s] 57%|█████▋    | 212309/371472 [5:51:06<12:52:15,  3.44it/s] 57%|█████▋    | 212310/371472 [5:51:06<12:40:45,  3.49it/s] 57%|█████▋    | 212311/371472 [5:51:06<12:24:34,  3.56it/s] 57%|█████▋    | 212312/371472 [5:51:07<12:49:18,  3.45it/s] 57%|█████▋    | 212313/371472 [5:51:07<13:35:23,  3.25it/s] 57%|█████▋    | 212314/371472 [5:51:07<13:17:20,  3.33it/s] 57%|█████▋    | 212315/371472 [5:51:08<12:56:46,  3.41it/s] 57%|█████▋    | 212316/371472 [5:51:08<12:47:12,  3.46it/s] 57%|█████▋    | 212317/371472 [5:51:08<13:26:39,  3.29it/s] 57%|█████▋    | 212318/371472 [5:51:08<13:38:23,  3.24it/s] 57%|█████▋    | 212319/371472 [5:51:09<13:06:52,  3.37it/s] 57%|█████▋    | 212320/371472 [5:51:09<12:37:21,  3.50it/s]                                                            {'loss': 2.7894, 'learning_rate': 4.858001680708482e-07, 'epoch': 9.15}
 57%|█████▋    | 212320/371472 [5:51:09<12:37:21,  3.50it/s] 57%|█████▋    | 212321/371472 [5:51:09<12:42:46,  3.48it/s] 57%|█████▋    | 212322/371472 [5:51:10<12:18:50,  3.59it/s] 57%|█████▋    | 212323/371472 [5:51:10<12:28:08,  3.55it/s] 57%|█████▋    | 212324/371472 [5:51:10<12:25:25,  3.56it/s] 57%|█████▋    | 212325/371472 [5:51:10<12:16:09,  3.60it/s] 57%|█████▋    | 212326/371472 [5:51:11<12:18:43,  3.59it/s] 57%|█████▋    | 212327/371472 [5:51:11<12:24:15,  3.56it/s] 57%|█████▋    | 212328/371472 [5:51:11<12:22:06,  3.57it/s] 57%|█████▋    | 212329/371472 [5:51:12<12:46:04,  3.46it/s] 57%|█████▋    | 212330/371472 [5:51:12<14:01:56,  3.15it/s] 57%|█████▋    | 212331/371472 [5:51:12<13:58:12,  3.16it/s] 57%|█████▋    | 212332/371472 [5:51:13<13:10:48,  3.35it/s] 57%|█████▋    | 212333/371472 [5:51:13<13:03:33,  3.38it/s] 57%|█████▋    | 212334/371472 [5:51:13<12:33:31,  3.52it/s] 57%|█████▋    | 212335/371472 [5:51:13<13:07:19,  3.37it/s] 57%|█████▋    | 212336/371472 [5:51:14<12:50:41,  3.44it/s] 57%|█████▋    | 212337/371472 [5:51:14<12:56:10,  3.42it/s] 57%|█████▋    | 212338/371472 [5:51:14<12:32:13,  3.53it/s] 57%|█████▋    | 212339/371472 [5:51:15<12:48:47,  3.45it/s] 57%|█████▋    | 212340/371472 [5:51:15<12:50:46,  3.44it/s]                                                            {'loss': 2.9823, 'learning_rate': 4.857516860953695e-07, 'epoch': 9.15}
 57%|█████▋    | 212340/371472 [5:51:15<12:50:46,  3.44it/s] 57%|█████▋    | 212341/371472 [5:51:15<12:30:38,  3.53it/s] 57%|█████▋    | 212342/371472 [5:51:15<13:42:33,  3.22it/s] 57%|█████▋    | 212343/371472 [5:51:16<13:02:53,  3.39it/s] 57%|█████▋    | 212344/371472 [5:51:16<12:45:20,  3.47it/s] 57%|█████▋    | 212345/371472 [5:51:16<12:50:34,  3.44it/s] 57%|█████▋    | 212346/371472 [5:51:17<12:31:41,  3.53it/s] 57%|█████▋    | 212347/371472 [5:51:17<12:52:53,  3.43it/s] 57%|█████▋    | 212348/371472 [5:51:17<12:51:17,  3.44it/s] 57%|█████▋    | 212349/371472 [5:51:17<12:53:18,  3.43it/s] 57%|█████▋    | 212350/371472 [5:51:18<12:51:52,  3.44it/s] 57%|█████▋    | 212351/371472 [5:51:18<12:14:04,  3.61it/s] 57%|█████▋    | 212352/371472 [5:51:18<12:17:55,  3.59it/s] 57%|█████▋    | 212353/371472 [5:51:19<12:15:08,  3.61it/s] 57%|█████▋    | 212354/371472 [5:51:19<12:20:14,  3.58it/s] 57%|█████▋    | 212355/371472 [5:51:19<12:15:15,  3.61it/s] 57%|█████▋    | 212356/371472 [5:51:19<13:10:56,  3.35it/s] 57%|█████▋    | 212357/371472 [5:51:20<13:14:06,  3.34it/s] 57%|█████▋    | 212358/371472 [5:51:20<13:07:35,  3.37it/s] 57%|█████▋    | 212359/371472 [5:51:20<12:55:42,  3.42it/s] 57%|█████▋    | 212360/371472 [5:51:21<13:24:51,  3.29it/s]                                                            {'loss': 2.9532, 'learning_rate': 4.857032041198906e-07, 'epoch': 9.15}
 57%|█████▋    | 212360/371472 [5:51:21<13:24:51,  3.29it/s] 57%|█████▋    | 212361/371472 [5:51:21<13:07:48,  3.37it/s] 57%|█████▋    | 212362/371472 [5:51:21<13:26:14,  3.29it/s] 57%|█████▋    | 212363/371472 [5:51:22<13:06:26,  3.37it/s] 57%|█████▋    | 212364/371472 [5:51:22<13:00:53,  3.40it/s] 57%|█████▋    | 212365/371472 [5:51:22<12:50:58,  3.44it/s] 57%|█████▋    | 212366/371472 [5:51:22<12:21:27,  3.58it/s] 57%|█████▋    | 212367/371472 [5:51:23<11:57:09,  3.70it/s] 57%|█████▋    | 212368/371472 [5:51:23<12:23:19,  3.57it/s] 57%|█████▋    | 212369/371472 [5:51:23<12:47:32,  3.45it/s] 57%|█████▋    | 212370/371472 [5:51:23<12:24:40,  3.56it/s] 57%|█████▋    | 212371/371472 [5:51:24<12:29:46,  3.54it/s] 57%|█████▋    | 212372/371472 [5:51:24<12:26:31,  3.55it/s] 57%|█████▋    | 212373/371472 [5:51:24<12:13:03,  3.62it/s] 57%|█████▋    | 212374/371472 [5:51:25<12:27:47,  3.55it/s] 57%|█████▋    | 212375/371472 [5:51:25<12:35:02,  3.51it/s] 57%|█████▋    | 212376/371472 [5:51:25<12:31:02,  3.53it/s] 57%|█████▋    | 212377/371472 [5:51:25<12:24:49,  3.56it/s] 57%|█████▋    | 212378/371472 [5:51:26<12:50:23,  3.44it/s] 57%|█████▋    | 212379/371472 [5:51:26<12:38:33,  3.50it/s] 57%|█████▋    | 212380/371472 [5:51:26<12:38:17,  3.50it/s]                                                            {'loss': 2.8781, 'learning_rate': 4.856547221444116e-07, 'epoch': 9.15}
 57%|█████▋    | 212380/371472 [5:51:26<12:38:17,  3.50it/s] 57%|█████▋    | 212381/371472 [5:51:27<13:04:11,  3.38it/s] 57%|█████▋    | 212382/371472 [5:51:27<13:15:15,  3.33it/s] 57%|█████▋    | 212383/371472 [5:51:27<12:36:48,  3.50it/s] 57%|█████▋    | 212384/371472 [5:51:27<12:46:10,  3.46it/s] 57%|█████▋    | 212385/371472 [5:51:28<13:04:10,  3.38it/s] 57%|█████▋    | 212386/371472 [5:51:28<12:33:36,  3.52it/s] 57%|█████▋    | 212387/371472 [5:51:28<12:23:06,  3.57it/s] 57%|█████▋    | 212388/371472 [5:51:29<12:25:07,  3.56it/s] 57%|█████▋    | 212389/371472 [5:51:29<12:18:43,  3.59it/s] 57%|█████▋    | 212390/371472 [5:51:29<11:59:59,  3.68it/s] 57%|█████▋    | 212391/371472 [5:51:29<12:24:00,  3.56it/s] 57%|█████▋    | 212392/371472 [5:51:30<12:14:04,  3.61it/s] 57%|█████▋    | 212393/371472 [5:51:30<12:02:14,  3.67it/s] 57%|█████▋    | 212394/371472 [5:51:30<12:32:12,  3.52it/s] 57%|█████▋    | 212395/371472 [5:51:31<12:55:41,  3.42it/s] 57%|█████▋    | 212396/371472 [5:51:31<13:02:05,  3.39it/s] 57%|█████▋    | 212397/371472 [5:51:31<12:40:28,  3.49it/s] 57%|█████▋    | 212398/371472 [5:51:31<12:37:40,  3.50it/s] 57%|█████▋    | 212399/371472 [5:51:32<12:55:33,  3.42it/s] 57%|█████▋    | 212400/371472 [5:51:32<12:58:06,  3.41it/s]                                                            {'loss': 2.8541, 'learning_rate': 4.856062401689327e-07, 'epoch': 9.15}
 57%|█████▋    | 212400/371472 [5:51:32<12:58:06,  3.41it/s] 57%|█████▋    | 212401/371472 [5:51:32<13:07:53,  3.36it/s] 57%|█████▋    | 212402/371472 [5:51:33<12:54:48,  3.42it/s] 57%|█████▋    | 212403/371472 [5:51:33<13:13:18,  3.34it/s] 57%|█████▋    | 212404/371472 [5:51:33<12:55:48,  3.42it/s] 57%|█████▋    | 212405/371472 [5:51:33<12:24:17,  3.56it/s] 57%|█████▋    | 212406/371472 [5:51:34<12:09:55,  3.63it/s] 57%|█████▋    | 212407/371472 [5:51:34<12:33:46,  3.52it/s] 57%|█████▋    | 212408/371472 [5:51:34<12:12:48,  3.62it/s] 57%|█████▋    | 212409/371472 [5:51:35<12:22:19,  3.57it/s] 57%|█████▋    | 212410/371472 [5:51:35<12:28:18,  3.54it/s] 57%|█████▋    | 212411/371472 [5:51:35<11:57:01,  3.70it/s] 57%|█████▋    | 212412/371472 [5:51:35<12:51:55,  3.43it/s] 57%|█████▋    | 212413/371472 [5:51:36<12:35:26,  3.51it/s] 57%|█████▋    | 212414/371472 [5:51:36<12:41:45,  3.48it/s] 57%|█████▋    | 212415/371472 [5:51:36<12:20:43,  3.58it/s] 57%|█████▋    | 212416/371472 [5:51:37<12:09:43,  3.63it/s] 57%|█████▋    | 212417/371472 [5:51:37<12:03:54,  3.66it/s] 57%|█████▋    | 212418/371472 [5:51:37<12:24:46,  3.56it/s] 57%|█████▋    | 212419/371472 [5:51:37<13:25:12,  3.29it/s] 57%|█████▋    | 212420/371472 [5:51:38<12:58:07,  3.41it/s]                                                            {'loss': 2.9079, 'learning_rate': 4.855577581934539e-07, 'epoch': 9.15}
 57%|█████▋    | 212420/371472 [5:51:38<12:58:07,  3.41it/s] 57%|█████▋    | 212421/371472 [5:51:38<12:49:01,  3.45it/s] 57%|█████▋    | 212422/371472 [5:51:38<12:53:06,  3.43it/s] 57%|█████▋    | 212423/371472 [5:51:39<12:49:36,  3.44it/s] 57%|█████▋    | 212424/371472 [5:51:39<13:13:09,  3.34it/s] 57%|█████▋    | 212425/371472 [5:51:39<12:49:45,  3.44it/s] 57%|█████▋    | 212426/371472 [5:51:39<12:32:11,  3.52it/s] 57%|█████▋    | 212427/371472 [5:51:40<12:27:28,  3.55it/s] 57%|█████▋    | 212428/371472 [5:51:40<12:28:53,  3.54it/s] 57%|█████▋    | 212429/371472 [5:51:40<12:16:21,  3.60it/s] 57%|█████▋    | 212430/371472 [5:51:41<12:17:11,  3.60it/s] 57%|█████▋    | 212431/371472 [5:51:41<12:16:07,  3.60it/s] 57%|█████▋    | 212432/371472 [5:51:41<11:44:51,  3.76it/s] 57%|█████▋    | 212433/371472 [5:51:41<12:17:02,  3.60it/s] 57%|█████▋    | 212434/371472 [5:51:42<12:09:48,  3.63it/s] 57%|█████▋    | 212435/371472 [5:51:42<12:14:00,  3.61it/s] 57%|█████▋    | 212436/371472 [5:51:42<12:08:57,  3.64it/s] 57%|█████▋    | 212437/371472 [5:51:43<12:17:18,  3.59it/s] 57%|█████▋    | 212438/371472 [5:51:43<12:39:05,  3.49it/s] 57%|█████▋    | 212439/371472 [5:51:43<12:20:02,  3.58it/s] 57%|█████▋    | 212440/371472 [5:51:43<12:17:41,  3.59it/s]                                                            {'loss': 2.8234, 'learning_rate': 4.85509276217975e-07, 'epoch': 9.15}
 57%|█████▋    | 212440/371472 [5:51:43<12:17:41,  3.59it/s] 57%|█████▋    | 212441/371472 [5:51:44<12:33:24,  3.52it/s] 57%|█████▋    | 212442/371472 [5:51:44<12:24:30,  3.56it/s] 57%|█████▋    | 212443/371472 [5:51:44<12:27:38,  3.55it/s] 57%|█████▋    | 212444/371472 [5:51:44<12:17:15,  3.60it/s] 57%|█████▋    | 212445/371472 [5:51:45<12:43:26,  3.47it/s] 57%|█████▋    | 212446/371472 [5:51:45<12:21:15,  3.58it/s] 57%|█████▋    | 212447/371472 [5:51:45<11:59:39,  3.68it/s] 57%|█████▋    | 212448/371472 [5:51:46<12:38:45,  3.49it/s] 57%|█████▋    | 212449/371472 [5:51:46<12:27:59,  3.54it/s] 57%|█████▋    | 212450/371472 [5:51:46<12:27:25,  3.55it/s] 57%|█████▋    | 212451/371472 [5:51:46<12:11:40,  3.62it/s] 57%|█████▋    | 212452/371472 [5:51:47<12:34:35,  3.51it/s] 57%|█████▋    | 212453/371472 [5:51:47<12:48:08,  3.45it/s] 57%|█████▋    | 212454/371472 [5:51:47<12:15:12,  3.60it/s] 57%|█████▋    | 212455/371472 [5:51:48<13:19:20,  3.32it/s] 57%|█████▋    | 212456/371472 [5:51:48<12:28:10,  3.54it/s] 57%|█████▋    | 212457/371472 [5:51:48<12:13:23,  3.61it/s] 57%|█████▋    | 212458/371472 [5:51:48<12:11:01,  3.63it/s] 57%|█████▋    | 212459/371472 [5:51:49<12:48:18,  3.45it/s] 57%|█████▋    | 212460/371472 [5:51:49<13:28:02,  3.28it/s]                                                            {'loss': 2.8315, 'learning_rate': 4.854607942424959e-07, 'epoch': 9.15}
 57%|█████▋    | 212460/371472 [5:51:49<13:28:02,  3.28it/s] 57%|█████▋    | 212461/371472 [5:51:49<13:07:16,  3.37it/s] 57%|█████▋    | 212462/371472 [5:51:50<13:15:07,  3.33it/s] 57%|█████▋    | 212463/371472 [5:51:50<12:44:48,  3.47it/s] 57%|█████▋    | 212464/371472 [5:51:50<12:50:07,  3.44it/s] 57%|█████▋    | 212465/371472 [5:51:51<12:33:44,  3.52it/s] 57%|█████▋    | 212466/371472 [5:51:51<12:38:44,  3.49it/s] 57%|█████▋    | 212467/371472 [5:51:51<12:08:26,  3.64it/s] 57%|█████▋    | 212468/371472 [5:51:51<11:52:38,  3.72it/s] 57%|█████▋    | 212469/371472 [5:51:52<11:52:30,  3.72it/s] 57%|█████▋    | 212470/371472 [5:51:52<12:22:55,  3.57it/s] 57%|█████▋    | 212471/371472 [5:51:52<12:18:56,  3.59it/s] 57%|█████▋    | 212472/371472 [5:51:52<12:41:56,  3.48it/s] 57%|█████▋    | 212473/371472 [5:51:53<12:47:34,  3.45it/s] 57%|█████▋    | 212474/371472 [5:51:53<12:32:20,  3.52it/s] 57%|█████▋    | 212475/371472 [5:51:53<11:58:17,  3.69it/s] 57%|█████▋    | 212476/371472 [5:51:54<12:17:12,  3.59it/s] 57%|█████▋    | 212477/371472 [5:51:54<12:56:18,  3.41it/s] 57%|█████▋    | 212478/371472 [5:51:54<12:31:37,  3.53it/s] 57%|█████▋    | 212479/371472 [5:51:54<11:59:27,  3.68it/s] 57%|█████▋    | 212480/371472 [5:51:55<11:54:53,  3.71it/s]                                                            {'loss': 2.974, 'learning_rate': 4.854123122670172e-07, 'epoch': 9.15}
 57%|█████▋    | 212480/371472 [5:51:55<11:54:53,  3.71it/s] 57%|█████▋    | 212481/371472 [5:51:55<11:47:46,  3.74it/s] 57%|█████▋    | 212482/371472 [5:51:55<12:06:27,  3.65it/s] 57%|█████▋    | 212483/371472 [5:51:56<12:23:48,  3.56it/s] 57%|█████▋    | 212484/371472 [5:51:56<12:29:52,  3.53it/s] 57%|█████▋    | 212485/371472 [5:51:56<12:27:06,  3.55it/s] 57%|█████▋    | 212486/371472 [5:51:56<12:52:25,  3.43it/s] 57%|█████▋    | 212487/371472 [5:51:57<12:43:09,  3.47it/s] 57%|█████▋    | 212488/371472 [5:51:57<12:31:55,  3.52it/s] 57%|█████▋    | 212489/371472 [5:51:57<12:41:59,  3.48it/s] 57%|█████▋    | 212490/371472 [5:51:58<12:27:00,  3.55it/s] 57%|█████▋    | 212491/371472 [5:51:58<12:16:34,  3.60it/s] 57%|█████▋    | 212492/371472 [5:51:58<12:22:16,  3.57it/s] 57%|█████▋    | 212493/371472 [5:51:58<12:15:10,  3.60it/s] 57%|█████▋    | 212494/371472 [5:51:59<12:38:18,  3.49it/s] 57%|█████▋    | 212495/371472 [5:51:59<13:30:28,  3.27it/s] 57%|█████▋    | 212496/371472 [5:51:59<13:41:18,  3.23it/s] 57%|█████▋    | 212497/371472 [5:52:00<13:40:19,  3.23it/s] 57%|█████▋    | 212498/371472 [5:52:00<13:45:03,  3.21it/s] 57%|█████▋    | 212499/371472 [5:52:00<13:11:05,  3.35it/s] 57%|█████▋    | 212500/371472 [5:52:00<12:55:01,  3.42it/s]                                                            {'loss': 2.9361, 'learning_rate': 4.853638302915383e-07, 'epoch': 9.15}
 57%|█████▋    | 212500/371472 [5:52:00<12:55:01,  3.42it/s] 57%|█████▋    | 212501/371472 [5:52:01<13:16:21,  3.33it/s] 57%|█████▋    | 212502/371472 [5:52:01<12:38:29,  3.49it/s] 57%|█████▋    | 212503/371472 [5:52:01<12:28:17,  3.54it/s] 57%|█████▋    | 212504/371472 [5:52:02<14:07:08,  3.13it/s] 57%|█████▋    | 212505/371472 [5:52:02<13:20:03,  3.31it/s] 57%|█████▋    | 212506/371472 [5:52:02<12:45:41,  3.46it/s] 57%|█████▋    | 212507/371472 [5:52:03<12:29:48,  3.53it/s] 57%|█████▋    | 212508/371472 [5:52:03<12:09:07,  3.63it/s] 57%|█████▋    | 212509/371472 [5:52:03<12:09:16,  3.63it/s] 57%|█████▋    | 212510/371472 [5:52:03<12:03:16,  3.66it/s] 57%|█████▋    | 212511/371472 [5:52:04<12:03:52,  3.66it/s] 57%|█████▋    | 212512/371472 [5:52:04<12:17:25,  3.59it/s] 57%|█████▋    | 212513/371472 [5:52:04<12:53:32,  3.42it/s] 57%|█████▋    | 212514/371472 [5:52:04<12:27:53,  3.54it/s] 57%|█████▋    | 212515/371472 [5:52:05<12:31:20,  3.53it/s] 57%|█████▋    | 212516/371472 [5:52:05<12:40:27,  3.48it/s] 57%|█████▋    | 212517/371472 [5:52:05<12:44:45,  3.46it/s] 57%|█████▋    | 212518/371472 [5:52:06<12:40:36,  3.48it/s] 57%|█████▋    | 212519/371472 [5:52:06<13:09:43,  3.35it/s] 57%|█████▋    | 212520/371472 [5:52:06<13:27:13,  3.28it/s]                                                            {'loss': 2.9116, 'learning_rate': 4.853153483160594e-07, 'epoch': 9.15}
 57%|█████▋    | 212520/371472 [5:52:06<13:27:13,  3.28it/s] 57%|█████▋    | 212521/371472 [5:52:07<14:24:38,  3.06it/s] 57%|█████▋    | 212522/371472 [5:52:07<14:40:20,  3.01it/s] 57%|█████▋    | 212523/371472 [5:52:07<13:38:21,  3.24it/s] 57%|█████▋    | 212524/371472 [5:52:08<13:07:54,  3.36it/s] 57%|█████▋    | 212525/371472 [5:52:08<12:53:30,  3.42it/s] 57%|█████▋    | 212526/371472 [5:52:08<12:48:04,  3.45it/s] 57%|█████▋    | 212527/371472 [5:52:08<12:16:52,  3.60it/s] 57%|█████▋    | 212528/371472 [5:52:09<12:13:32,  3.61it/s] 57%|█████▋    | 212529/371472 [5:52:09<12:07:52,  3.64it/s] 57%|█████▋    | 212530/371472 [5:52:09<11:53:45,  3.71it/s] 57%|█████▋    | 212531/371472 [5:52:09<12:09:05,  3.63it/s] 57%|█████▋    | 212532/371472 [5:52:10<13:32:24,  3.26it/s] 57%|█████▋    | 212533/371472 [5:52:10<13:08:42,  3.36it/s] 57%|█████▋    | 212534/371472 [5:52:10<13:09:44,  3.35it/s] 57%|█████▋    | 212535/371472 [5:52:11<13:24:20,  3.29it/s] 57%|█████▋    | 212536/371472 [5:52:11<13:26:23,  3.28it/s] 57%|█████▋    | 212537/371472 [5:52:11<13:20:30,  3.31it/s] 57%|█████▋    | 212538/371472 [5:52:12<12:47:52,  3.45it/s] 57%|█████▋    | 212539/371472 [5:52:12<13:16:25,  3.33it/s] 57%|█████▋    | 212540/371472 [5:52:12<12:50:38,  3.44it/s]                                                            {'loss': 2.9808, 'learning_rate': 4.852668663405804e-07, 'epoch': 9.15}
 57%|█████▋    | 212540/371472 [5:52:12<12:50:38,  3.44it/s] 57%|█████▋    | 212541/371472 [5:52:12<13:17:25,  3.32it/s] 57%|█████▋    | 212542/371472 [5:52:13<13:25:13,  3.29it/s] 57%|█████▋    | 212543/371472 [5:52:13<12:46:30,  3.46it/s] 57%|█████▋    | 212544/371472 [5:52:13<12:24:09,  3.56it/s] 57%|█████▋    | 212545/371472 [5:52:14<12:29:35,  3.53it/s] 57%|█████▋    | 212546/371472 [5:52:14<12:20:01,  3.58it/s] 57%|█████▋    | 212547/371472 [5:52:14<12:09:33,  3.63it/s] 57%|█████▋    | 212548/371472 [5:52:14<11:51:41,  3.72it/s] 57%|█████▋    | 212549/371472 [5:52:15<11:39:43,  3.79it/s] 57%|█████▋    | 212550/371472 [5:52:15<11:53:11,  3.71it/s] 57%|█████▋    | 212551/371472 [5:52:15<12:04:03,  3.66it/s] 57%|█████▋    | 212552/371472 [5:52:16<12:18:44,  3.59it/s] 57%|█████▋    | 212553/371472 [5:52:16<12:19:09,  3.58it/s] 57%|█████▋    | 212554/371472 [5:52:16<12:36:08,  3.50it/s] 57%|█████▋    | 212555/371472 [5:52:16<13:02:06,  3.39it/s] 57%|█████▋    | 212556/371472 [5:52:17<14:07:38,  3.12it/s] 57%|█████▋    | 212557/371472 [5:52:17<13:23:37,  3.30it/s] 57%|█████▋    | 212558/371472 [5:52:17<12:48:03,  3.45it/s] 57%|█████▋    | 212559/371472 [5:52:18<12:59:22,  3.40it/s] 57%|█████▋    | 212560/371472 [5:52:18<12:47:20,  3.45it/s]                                                            {'loss': 2.8358, 'learning_rate': 4.852183843651016e-07, 'epoch': 9.16}
 57%|█████▋    | 212560/371472 [5:52:18<12:47:20,  3.45it/s] 57%|█████▋    | 212561/371472 [5:52:18<12:34:19,  3.51it/s] 57%|█████▋    | 212562/371472 [5:52:18<12:54:14,  3.42it/s] 57%|█████▋    | 212563/371472 [5:52:19<12:27:48,  3.54it/s] 57%|█████▋    | 212564/371472 [5:52:19<12:21:20,  3.57it/s] 57%|█████▋    | 212565/371472 [5:52:19<12:17:36,  3.59it/s] 57%|█████▋    | 212566/371472 [5:52:20<11:50:21,  3.73it/s] 57%|█████▋    | 212567/371472 [5:52:20<11:57:42,  3.69it/s] 57%|█████▋    | 212568/371472 [5:52:20<11:46:55,  3.75it/s] 57%|█████▋    | 212569/371472 [5:52:20<12:51:01,  3.43it/s] 57%|█████▋    | 212570/371472 [5:52:21<13:36:53,  3.24it/s] 57%|█████▋    | 212571/371472 [5:52:21<12:55:01,  3.42it/s] 57%|█████▋    | 212572/371472 [5:52:21<12:28:43,  3.54it/s] 57%|█████▋    | 212573/371472 [5:52:22<12:36:58,  3.50it/s] 57%|█████▋    | 212574/371472 [5:52:22<12:41:15,  3.48it/s] 57%|█████▋    | 212575/371472 [5:52:22<13:46:27,  3.20it/s] 57%|█████▋    | 212576/371472 [5:52:23<14:11:39,  3.11it/s] 57%|█████▋    | 212577/371472 [5:52:23<13:25:51,  3.29it/s] 57%|█████▋    | 212578/371472 [5:52:23<14:09:51,  3.12it/s] 57%|█████▋    | 212579/371472 [5:52:23<13:24:34,  3.29it/s] 57%|█████▋    | 212580/371472 [5:52:24<13:14:11,  3.33it/s]                                                            {'loss': 2.894, 'learning_rate': 4.851699023896226e-07, 'epoch': 9.16}
 57%|█████▋    | 212580/371472 [5:52:24<13:14:11,  3.33it/s] 57%|█████▋    | 212581/371472 [5:52:24<12:47:12,  3.45it/s] 57%|█████▋    | 212582/371472 [5:52:24<14:02:00,  3.15it/s] 57%|█████▋    | 212583/371472 [5:52:25<13:17:19,  3.32it/s] 57%|█████▋    | 212584/371472 [5:52:25<13:40:34,  3.23it/s] 57%|█████▋    | 212585/371472 [5:52:25<13:13:08,  3.34it/s] 57%|█████▋    | 212586/371472 [5:52:26<12:29:47,  3.53it/s] 57%|█████▋    | 212587/371472 [5:52:26<12:05:29,  3.65it/s] 57%|█████▋    | 212588/371472 [5:52:26<12:12:10,  3.62it/s] 57%|█████▋    | 212589/371472 [5:52:26<12:51:15,  3.43it/s] 57%|█████▋    | 212590/371472 [5:52:27<12:55:03,  3.42it/s] 57%|█████▋    | 212591/371472 [5:52:27<13:30:33,  3.27it/s] 57%|█████▋    | 212592/371472 [5:52:27<12:49:54,  3.44it/s] 57%|█████▋    | 212593/371472 [5:52:28<12:36:10,  3.50it/s] 57%|█████▋    | 212594/371472 [5:52:28<12:31:52,  3.52it/s] 57%|█████▋    | 212595/371472 [5:52:28<12:21:14,  3.57it/s] 57%|█████▋    | 212596/371472 [5:52:28<12:59:51,  3.40it/s] 57%|█████▋    | 212597/371472 [5:52:29<12:41:37,  3.48it/s] 57%|█████▋    | 212598/371472 [5:52:29<12:24:17,  3.56it/s] 57%|█████▋    | 212599/371472 [5:52:29<12:14:09,  3.61it/s] 57%|█████▋    | 212600/371472 [5:52:30<12:56:21,  3.41it/s]                                                            {'loss': 2.9511, 'learning_rate': 4.851214204141439e-07, 'epoch': 9.16}
 57%|█████▋    | 212600/371472 [5:52:30<12:56:21,  3.41it/s] 57%|█████▋    | 212601/371472 [5:52:30<12:35:18,  3.51it/s] 57%|█████▋    | 212602/371472 [5:52:30<12:13:23,  3.61it/s] 57%|█████▋    | 212603/371472 [5:52:30<12:05:41,  3.65it/s] 57%|█████▋    | 212604/371472 [5:52:31<12:06:52,  3.64it/s] 57%|█████▋    | 212605/371472 [5:52:31<12:18:33,  3.59it/s] 57%|█████▋    | 212606/371472 [5:52:31<12:03:47,  3.66it/s] 57%|█████▋    | 212607/371472 [5:52:31<12:17:14,  3.59it/s] 57%|█████▋    | 212608/371472 [5:52:32<12:06:55,  3.64it/s] 57%|█████▋    | 212609/371472 [5:52:32<12:04:17,  3.66it/s] 57%|█████▋    | 212610/371472 [5:52:32<12:01:30,  3.67it/s] 57%|█████▋    | 212611/371472 [5:52:33<11:40:59,  3.78it/s] 57%|█████▋    | 212612/371472 [5:52:33<11:40:47,  3.78it/s] 57%|█████▋    | 212613/371472 [5:52:33<11:36:27,  3.80it/s] 57%|█████▋    | 212614/371472 [5:52:33<12:14:26,  3.60it/s] 57%|█████▋    | 212615/371472 [5:52:34<12:36:23,  3.50it/s] 57%|█████▋    | 212616/371472 [5:52:34<12:37:12,  3.50it/s] 57%|█████▋    | 212617/371472 [5:52:34<12:23:32,  3.56it/s] 57%|█████▋    | 212618/371472 [5:52:34<12:22:39,  3.56it/s] 57%|█████▋    | 212619/371472 [5:52:35<12:43:58,  3.47it/s] 57%|█████▋    | 212620/371472 [5:52:35<12:41:12,  3.48it/s]                                                            {'loss': 3.1379, 'learning_rate': 4.850729384386649e-07, 'epoch': 9.16}
 57%|█████▋    | 212620/371472 [5:52:35<12:41:12,  3.48it/s] 57%|█████▋    | 212621/371472 [5:52:35<12:36:27,  3.50it/s] 57%|█████▋    | 212622/371472 [5:52:36<13:27:10,  3.28it/s] 57%|█████▋    | 212623/371472 [5:52:36<13:39:58,  3.23it/s] 57%|█████▋    | 212624/371472 [5:52:36<14:12:00,  3.11it/s] 57%|█████▋    | 212625/371472 [5:52:37<14:23:28,  3.07it/s] 57%|█████▋    | 212626/371472 [5:52:37<14:19:02,  3.08it/s] 57%|█████▋    | 212627/371472 [5:52:37<13:54:40,  3.17it/s] 57%|█████▋    | 212628/371472 [5:52:38<15:08:45,  2.91it/s] 57%|█████▋    | 212629/371472 [5:52:38<14:17:49,  3.09it/s] 57%|█████▋    | 212630/371472 [5:52:38<13:54:41,  3.17it/s] 57%|█████▋    | 212631/371472 [5:52:39<13:36:51,  3.24it/s] 57%|█████▋    | 212632/371472 [5:52:39<13:51:29,  3.18it/s] 57%|█████▋    | 212633/371472 [5:52:39<13:19:24,  3.31it/s] 57%|█████▋    | 212634/371472 [5:52:40<13:25:12,  3.29it/s] 57%|█████▋    | 212635/371472 [5:52:40<13:04:43,  3.37it/s] 57%|█████▋    | 212636/371472 [5:52:40<12:42:24,  3.47it/s] 57%|█████▋    | 212637/371472 [5:52:40<13:28:48,  3.27it/s] 57%|█████▋    | 212638/371472 [5:52:41<13:42:04,  3.22it/s] 57%|█████▋    | 212639/371472 [5:52:41<13:19:29,  3.31it/s] 57%|█████▋    | 212640/371472 [5:52:41<13:02:34,  3.38it/s]                                                            {'loss': 2.8976, 'learning_rate': 4.85024456463186e-07, 'epoch': 9.16}
 57%|█████▋    | 212640/371472 [5:52:41<13:02:34,  3.38it/s] 57%|█████▋    | 212641/371472 [5:52:42<12:27:21,  3.54it/s] 57%|█████▋    | 212642/371472 [5:52:42<13:32:26,  3.26it/s] 57%|█████▋    | 212643/371472 [5:52:42<12:53:27,  3.42it/s] 57%|█████▋    | 212644/371472 [5:52:42<12:36:36,  3.50it/s] 57%|█████▋    | 212645/371472 [5:52:43<12:58:42,  3.40it/s] 57%|█████▋    | 212646/371472 [5:52:43<12:28:31,  3.54it/s] 57%|█████▋    | 212647/371472 [5:52:43<13:11:38,  3.34it/s] 57%|█████▋    | 212648/371472 [5:52:44<12:28:01,  3.54it/s] 57%|█████▋    | 212649/371472 [5:52:44<13:20:41,  3.31it/s] 57%|█████▋    | 212650/371472 [5:52:44<12:43:40,  3.47it/s] 57%|█████▋    | 212651/371472 [5:52:44<12:25:30,  3.55it/s] 57%|█████▋    | 212652/371472 [5:52:45<12:21:39,  3.57it/s] 57%|█████▋    | 212653/371472 [5:52:45<11:57:53,  3.69it/s] 57%|█████▋    | 212654/371472 [5:52:45<12:00:17,  3.67it/s] 57%|█████▋    | 212655/371472 [5:52:46<11:45:50,  3.75it/s] 57%|█████▋    | 212656/371472 [5:52:46<11:32:47,  3.82it/s] 57%|█████▋    | 212657/371472 [5:52:46<11:24:46,  3.87it/s] 57%|█████▋    | 212658/371472 [5:52:46<11:24:42,  3.87it/s] 57%|█████▋    | 212659/371472 [5:52:47<12:20:34,  3.57it/s] 57%|█████▋    | 212660/371472 [5:52:47<12:21:08,  3.57it/s]                                                            {'loss': 2.9056, 'learning_rate': 4.849759744877071e-07, 'epoch': 9.16}
 57%|█████▋    | 212660/371472 [5:52:47<12:21:08,  3.57it/s] 57%|█████▋    | 212661/371472 [5:52:47<13:12:00,  3.34it/s] 57%|█████▋    | 212662/371472 [5:52:48<12:58:28,  3.40it/s] 57%|█████▋    | 212663/371472 [5:52:48<12:50:23,  3.44it/s] 57%|█████▋    | 212664/371472 [5:52:48<12:38:38,  3.49it/s] 57%|█████▋    | 212665/371472 [5:52:48<12:22:23,  3.57it/s] 57%|█████▋    | 212666/371472 [5:52:49<12:51:28,  3.43it/s] 57%|█████▋    | 212667/371472 [5:52:49<12:49:51,  3.44it/s] 57%|█████▋    | 212668/371472 [5:52:49<13:04:22,  3.37it/s] 57%|█████▋    | 212669/371472 [5:52:50<12:54:58,  3.42it/s] 57%|█████▋    | 212670/371472 [5:52:50<12:56:15,  3.41it/s] 57%|█████▋    | 212671/371472 [5:52:50<12:43:45,  3.47it/s] 57%|█████▋    | 212672/371472 [5:52:50<12:24:45,  3.55it/s] 57%|█████▋    | 212673/371472 [5:52:51<12:24:40,  3.55it/s] 57%|█████▋    | 212674/371472 [5:52:51<12:22:58,  3.56it/s] 57%|█████▋    | 212675/371472 [5:52:51<12:01:29,  3.67it/s] 57%|█████▋    | 212676/371472 [5:52:51<12:08:56,  3.63it/s] 57%|█████▋    | 212677/371472 [5:52:52<12:20:50,  3.57it/s] 57%|█████▋    | 212678/371472 [5:52:52<12:31:45,  3.52it/s] 57%|█████▋    | 212679/371472 [5:52:52<13:00:32,  3.39it/s] 57%|█████▋    | 212680/371472 [5:52:53<12:34:18,  3.51it/s]                                                            {'loss': 2.8565, 'learning_rate': 4.849274925122282e-07, 'epoch': 9.16}
 57%|█████▋    | 212680/371472 [5:52:53<12:34:18,  3.51it/s] 57%|█████▋    | 212681/371472 [5:52:53<13:04:06,  3.38it/s] 57%|█████▋    | 212682/371472 [5:52:53<13:09:25,  3.35it/s] 57%|█████▋    | 212683/371472 [5:52:54<12:48:36,  3.44it/s] 57%|█████▋    | 212684/371472 [5:52:54<12:40:13,  3.48it/s] 57%|█████▋    | 212685/371472 [5:52:54<12:28:36,  3.54it/s] 57%|█████▋    | 212686/371472 [5:52:54<12:36:16,  3.50it/s] 57%|█████▋    | 212687/371472 [5:52:55<13:08:23,  3.36it/s] 57%|█████▋    | 212688/371472 [5:52:55<12:39:26,  3.48it/s] 57%|█████▋    | 212689/371472 [5:52:55<12:56:26,  3.41it/s] 57%|█████▋    | 212690/371472 [5:52:56<13:23:45,  3.29it/s] 57%|█████▋    | 212691/371472 [5:52:56<14:59:55,  2.94it/s] 57%|█████▋    | 212692/371472 [5:52:56<13:56:50,  3.16it/s] 57%|█████▋    | 212693/371472 [5:52:57<13:39:08,  3.23it/s] 57%|█████▋    | 212694/371472 [5:52:57<14:33:06,  3.03it/s] 57%|█████▋    | 212695/371472 [5:52:57<14:04:16,  3.13it/s] 57%|█████▋    | 212696/371472 [5:52:58<13:42:24,  3.22it/s] 57%|█████▋    | 212697/371472 [5:52:58<13:16:23,  3.32it/s] 57%|█████▋    | 212698/371472 [5:52:58<13:48:10,  3.20it/s] 57%|█████▋    | 212699/371472 [5:52:58<13:07:41,  3.36it/s] 57%|█████▋    | 212700/371472 [5:52:59<13:16:41,  3.32it/s]                                                            {'loss': 2.8985, 'learning_rate': 4.848790105367493e-07, 'epoch': 9.16}
 57%|█████▋    | 212700/371472 [5:52:59<13:16:41,  3.32it/s] 57%|█████▋    | 212701/371472 [5:52:59<13:53:06,  3.18it/s] 57%|█████▋    | 212702/371472 [5:52:59<13:20:56,  3.30it/s] 57%|█████▋    | 212703/371472 [5:53:00<12:38:55,  3.49it/s] 57%|█████▋    | 212704/371472 [5:53:00<12:13:30,  3.61it/s] 57%|█████▋    | 212705/371472 [5:53:00<12:15:25,  3.60it/s] 57%|█████▋    | 212706/371472 [5:53:00<11:58:38,  3.68it/s] 57%|█████▋    | 212707/371472 [5:53:01<11:41:39,  3.77it/s] 57%|█████▋    | 212708/371472 [5:53:01<12:49:10,  3.44it/s] 57%|█████▋    | 212709/371472 [5:53:01<12:24:50,  3.55it/s] 57%|█████▋    | 212710/371472 [5:53:02<12:34:17,  3.51it/s] 57%|█████▋    | 212711/371472 [5:53:02<12:10:35,  3.62it/s] 57%|█████▋    | 212712/371472 [5:53:02<12:07:37,  3.64it/s] 57%|█████▋    | 212713/371472 [5:53:02<12:34:19,  3.51it/s] 57%|█████▋    | 212714/371472 [5:53:03<12:18:51,  3.58it/s] 57%|█████▋    | 212715/371472 [5:53:03<11:56:09,  3.69it/s] 57%|█████▋    | 212716/371472 [5:53:03<12:43:12,  3.47it/s] 57%|█████▋    | 212717/371472 [5:53:04<13:15:53,  3.32it/s] 57%|█████▋    | 212718/371472 [5:53:04<12:54:39,  3.42it/s] 57%|█████▋    | 212719/371472 [5:53:04<12:31:03,  3.52it/s] 57%|█████▋    | 212720/371472 [5:53:04<12:02:21,  3.66it/s]                                                            {'loss': 2.9482, 'learning_rate': 4.848305285612705e-07, 'epoch': 9.16}
 57%|█████▋    | 212720/371472 [5:53:04<12:02:21,  3.66it/s] 57%|█████▋    | 212721/371472 [5:53:05<11:48:44,  3.73it/s] 57%|█████▋    | 212722/371472 [5:53:05<11:41:57,  3.77it/s] 57%|█████▋    | 212723/371472 [5:53:05<12:37:10,  3.49it/s] 57%|█████▋    | 212724/371472 [5:53:05<12:36:35,  3.50it/s] 57%|█████▋    | 212725/371472 [5:53:06<13:06:36,  3.36it/s] 57%|█████▋    | 212726/371472 [5:53:06<12:42:10,  3.47it/s] 57%|█████▋    | 212727/371472 [5:53:06<12:39:26,  3.48it/s] 57%|█████▋    | 212728/371472 [5:53:07<12:27:19,  3.54it/s] 57%|█████▋    | 212729/371472 [5:53:07<12:27:09,  3.54it/s] 57%|█████▋    | 212730/371472 [5:53:07<12:31:01,  3.52it/s] 57%|█████▋    | 212731/371472 [5:53:07<12:45:54,  3.45it/s] 57%|█████▋    | 212732/371472 [5:53:08<12:50:22,  3.43it/s] 57%|█████▋    | 212733/371472 [5:53:08<12:43:16,  3.47it/s] 57%|█████▋    | 212734/371472 [5:53:08<12:32:19,  3.52it/s] 57%|█████▋    | 212735/371472 [5:53:09<13:04:48,  3.37it/s] 57%|█████▋    | 212736/371472 [5:53:09<13:14:41,  3.33it/s] 57%|█████▋    | 212737/371472 [5:53:09<12:43:09,  3.47it/s] 57%|█████▋    | 212738/371472 [5:53:09<12:17:52,  3.59it/s] 57%|█████▋    | 212739/371472 [5:53:10<12:09:28,  3.63it/s] 57%|█████▋    | 212740/371472 [5:53:10<12:36:47,  3.50it/s]                                                            {'loss': 2.9138, 'learning_rate': 4.847820465857916e-07, 'epoch': 9.16}
 57%|█████▋    | 212740/371472 [5:53:10<12:36:47,  3.50it/s] 57%|█████▋    | 212741/371472 [5:53:10<12:40:33,  3.48it/s] 57%|█████▋    | 212742/371472 [5:53:11<12:16:44,  3.59it/s] 57%|█████▋    | 212743/371472 [5:53:11<13:00:13,  3.39it/s] 57%|█████▋    | 212744/371472 [5:53:11<12:23:56,  3.56it/s] 57%|█████▋    | 212745/371472 [5:53:11<12:25:26,  3.55it/s] 57%|█████▋    | 212746/371472 [5:53:12<12:23:22,  3.56it/s] 57%|█████▋    | 212747/371472 [5:53:12<12:22:04,  3.56it/s] 57%|█████▋    | 212748/371472 [5:53:12<12:32:46,  3.51it/s] 57%|█████▋    | 212749/371472 [5:53:13<12:06:20,  3.64it/s] 57%|█████▋    | 212750/371472 [5:53:13<11:53:29,  3.71it/s] 57%|█████▋    | 212751/371472 [5:53:13<11:52:36,  3.71it/s] 57%|█████▋    | 212752/371472 [5:53:13<11:39:29,  3.78it/s] 57%|█████▋    | 212753/371472 [5:53:14<12:49:16,  3.44it/s] 57%|█████▋    | 212754/371472 [5:53:14<12:31:03,  3.52it/s] 57%|█████▋    | 212755/371472 [5:53:14<12:56:32,  3.41it/s] 57%|█████▋    | 212756/371472 [5:53:15<12:40:04,  3.48it/s] 57%|█████▋    | 212757/371472 [5:53:15<12:11:15,  3.62it/s] 57%|█████▋    | 212758/371472 [5:53:15<12:00:43,  3.67it/s] 57%|█████▋    | 212759/371472 [5:53:15<12:52:16,  3.43it/s] 57%|█████▋    | 212760/371472 [5:53:16<12:24:14,  3.55it/s]                                                            {'loss': 2.9354, 'learning_rate': 4.847335646103126e-07, 'epoch': 9.16}
 57%|█████▋    | 212760/371472 [5:53:16<12:24:14,  3.55it/s] 57%|█████▋    | 212761/371472 [5:53:16<13:00:31,  3.39it/s] 57%|█████▋    | 212762/371472 [5:53:16<13:03:51,  3.37it/s] 57%|█████▋    | 212763/371472 [5:53:17<13:40:59,  3.22it/s] 57%|█████▋    | 212764/371472 [5:53:17<13:09:11,  3.35it/s] 57%|█████▋    | 212765/371472 [5:53:17<12:53:03,  3.42it/s] 57%|█████▋    | 212766/371472 [5:53:17<12:33:46,  3.51it/s] 57%|█████▋    | 212767/371472 [5:53:18<12:38:01,  3.49it/s] 57%|█████▋    | 212768/371472 [5:53:18<12:19:37,  3.58it/s] 57%|█████▋    | 212769/371472 [5:53:18<12:00:35,  3.67it/s] 57%|█████▋    | 212770/371472 [5:53:19<12:27:44,  3.54it/s] 57%|█████▋    | 212771/371472 [5:53:19<12:29:39,  3.53it/s] 57%|█████▋    | 212772/371472 [5:53:19<12:27:01,  3.54it/s] 57%|█████▋    | 212773/371472 [5:53:19<12:23:58,  3.56it/s] 57%|█████▋    | 212774/371472 [5:53:20<12:31:33,  3.52it/s] 57%|█████▋    | 212775/371472 [5:53:20<12:36:02,  3.50it/s] 57%|█████▋    | 212776/371472 [5:53:20<12:28:08,  3.54it/s] 57%|█████▋    | 212777/371472 [5:53:21<12:08:54,  3.63it/s] 57%|█████▋    | 212778/371472 [5:53:21<12:19:07,  3.58it/s] 57%|█████▋    | 212779/371472 [5:53:21<12:12:13,  3.61it/s] 57%|█████▋    | 212780/371472 [5:53:21<11:58:07,  3.68it/s]                                                            {'loss': 3.1715, 'learning_rate': 4.846850826348337e-07, 'epoch': 9.16}
 57%|█████▋    | 212780/371472 [5:53:21<11:58:07,  3.68it/s] 57%|█████▋    | 212781/371472 [5:53:22<11:52:52,  3.71it/s] 57%|█████▋    | 212782/371472 [5:53:22<12:22:10,  3.56it/s] 57%|█████▋    | 212783/371472 [5:53:22<12:01:09,  3.67it/s] 57%|█████▋    | 212784/371472 [5:53:23<13:00:18,  3.39it/s] 57%|█████▋    | 212785/371472 [5:53:23<13:24:26,  3.29it/s] 57%|█████▋    | 212786/371472 [5:53:23<13:12:36,  3.34it/s] 57%|█████▋    | 212787/371472 [5:53:23<13:13:59,  3.33it/s] 57%|█████▋    | 212788/371472 [5:53:24<14:48:11,  2.98it/s] 57%|█████▋    | 212789/371472 [5:53:24<14:43:15,  2.99it/s] 57%|█████▋    | 212790/371472 [5:53:24<13:52:58,  3.18it/s] 57%|█████▋    | 212791/371472 [5:53:25<13:12:27,  3.34it/s] 57%|█████▋    | 212792/371472 [5:53:25<12:50:16,  3.43it/s] 57%|█████▋    | 212793/371472 [5:53:25<12:36:07,  3.50it/s] 57%|█████▋    | 212794/371472 [5:53:26<13:42:07,  3.22it/s] 57%|█████▋    | 212795/371472 [5:53:26<13:46:39,  3.20it/s] 57%|█████▋    | 212796/371472 [5:53:26<12:59:33,  3.39it/s] 57%|█████▋    | 212797/371472 [5:53:27<13:16:27,  3.32it/s] 57%|█████▋    | 212798/371472 [5:53:27<13:16:17,  3.32it/s] 57%|█████▋    | 212799/371472 [5:53:27<13:36:42,  3.24it/s] 57%|█████▋    | 212800/371472 [5:53:27<13:28:04,  3.27it/s]                                                            {'loss': 2.9396, 'learning_rate': 4.846366006593549e-07, 'epoch': 9.17}
 57%|█████▋    | 212800/371472 [5:53:27<13:28:04,  3.27it/s] 57%|█████▋    | 212801/371472 [5:53:28<13:12:27,  3.34it/s] 57%|█████▋    | 212802/371472 [5:53:28<12:47:15,  3.45it/s] 57%|█████▋    | 212803/371472 [5:53:28<12:10:35,  3.62it/s] 57%|█████▋    | 212804/371472 [5:53:29<12:46:08,  3.45it/s] 57%|█████▋    | 212805/371472 [5:53:29<13:06:20,  3.36it/s] 57%|█████▋    | 212806/371472 [5:53:29<13:24:59,  3.29it/s] 57%|█████▋    | 212807/371472 [5:53:30<13:22:24,  3.30it/s] 57%|█████▋    | 212808/371472 [5:53:30<13:39:33,  3.23it/s] 57%|█████▋    | 212809/371472 [5:53:30<12:51:48,  3.43it/s] 57%|█████▋    | 212810/371472 [5:53:30<12:44:41,  3.46it/s] 57%|█████▋    | 212811/371472 [5:53:31<12:53:00,  3.42it/s] 57%|█████▋    | 212812/371472 [5:53:31<13:43:08,  3.21it/s] 57%|█████▋    | 212813/371472 [5:53:31<13:15:47,  3.32it/s] 57%|█████▋    | 212814/371472 [5:53:32<13:04:48,  3.37it/s] 57%|█████▋    | 212815/371472 [5:53:32<12:23:23,  3.56it/s] 57%|█████▋    | 212816/371472 [5:53:32<12:14:39,  3.60it/s] 57%|█████▋    | 212817/371472 [5:53:32<12:38:27,  3.49it/s] 57%|█████▋    | 212818/371472 [5:53:33<12:25:26,  3.55it/s] 57%|█████▋    | 212819/371472 [5:53:33<14:43:17,  2.99it/s] 57%|█████▋    | 212820/371472 [5:53:33<14:22:17,  3.07it/s]                                                            {'loss': 2.8772, 'learning_rate': 4.84588118683876e-07, 'epoch': 9.17}
 57%|█████▋    | 212820/371472 [5:53:33<14:22:17,  3.07it/s] 57%|█████▋    | 212821/371472 [5:53:34<13:24:24,  3.29it/s] 57%|█████▋    | 212822/371472 [5:53:34<12:49:48,  3.43it/s] 57%|█████▋    | 212823/371472 [5:53:34<12:40:28,  3.48it/s] 57%|█████▋    | 212824/371472 [5:53:35<12:39:17,  3.48it/s] 57%|█████▋    | 212825/371472 [5:53:35<12:27:29,  3.54it/s] 57%|█████▋    | 212826/371472 [5:53:35<13:10:42,  3.34it/s] 57%|█████▋    | 212827/371472 [5:53:35<12:39:19,  3.48it/s] 57%|█████▋    | 212828/371472 [5:53:36<12:18:56,  3.58it/s] 57%|█████▋    | 212829/371472 [5:53:36<12:27:07,  3.54it/s] 57%|█████▋    | 212830/371472 [5:53:36<11:59:32,  3.67it/s] 57%|█████▋    | 212831/371472 [5:53:36<12:00:21,  3.67it/s] 57%|█████▋    | 212832/371472 [5:53:37<12:39:38,  3.48it/s] 57%|█████▋    | 212833/371472 [5:53:37<12:32:37,  3.51it/s] 57%|█████▋    | 212834/371472 [5:53:37<12:37:24,  3.49it/s] 57%|█████▋    | 212835/371472 [5:53:38<12:26:21,  3.54it/s] 57%|█████▋    | 212836/371472 [5:53:38<12:04:06,  3.65it/s] 57%|█████▋    | 212837/371472 [5:53:38<12:14:08,  3.60it/s] 57%|█████▋    | 212838/371472 [5:53:38<11:58:40,  3.68it/s] 57%|█████▋    | 212839/371472 [5:53:39<12:59:35,  3.39it/s] 57%|█████▋    | 212840/371472 [5:53:39<13:29:57,  3.26it/s]                                                            {'loss': 2.8836, 'learning_rate': 4.845396367083971e-07, 'epoch': 9.17}
 57%|█████▋    | 212840/371472 [5:53:39<13:29:57,  3.26it/s] 57%|█████▋    | 212841/371472 [5:53:39<13:29:06,  3.27it/s] 57%|█████▋    | 212842/371472 [5:53:40<13:19:08,  3.31it/s] 57%|█████▋    | 212843/371472 [5:53:40<12:46:40,  3.45it/s] 57%|█████▋    | 212844/371472 [5:53:40<12:26:54,  3.54it/s] 57%|█████▋    | 212845/371472 [5:53:41<12:11:20,  3.61it/s] 57%|█████▋    | 212846/371472 [5:53:41<11:58:17,  3.68it/s] 57%|█████▋    | 212847/371472 [5:53:41<12:10:52,  3.62it/s] 57%|█████▋    | 212848/371472 [5:53:42<14:34:47,  3.02it/s] 57%|█████▋    | 212849/371472 [5:53:42<13:38:25,  3.23it/s] 57%|█████▋    | 212850/371472 [5:53:42<13:08:49,  3.35it/s] 57%|█████▋    | 212851/371472 [5:53:42<12:53:33,  3.42it/s] 57%|█████▋    | 212852/371472 [5:53:43<12:54:41,  3.41it/s] 57%|█████▋    | 212853/371472 [5:53:43<13:11:00,  3.34it/s] 57%|█████▋    | 212854/371472 [5:53:43<12:41:12,  3.47it/s] 57%|█████▋    | 212855/371472 [5:53:43<12:27:17,  3.54it/s] 57%|█████▋    | 212856/371472 [5:53:44<12:43:37,  3.46it/s] 57%|█████▋    | 212857/371472 [5:53:44<15:41:53,  2.81it/s] 57%|█████▋    | 212858/371472 [5:53:45<14:42:29,  3.00it/s] 57%|█████▋    | 212859/371472 [5:53:45<13:50:50,  3.18it/s] 57%|█████▋    | 212860/371472 [5:53:45<13:28:06,  3.27it/s]                                                            {'loss': 2.9111, 'learning_rate': 4.844911547329182e-07, 'epoch': 9.17}
 57%|█████▋    | 212860/371472 [5:53:45<13:28:06,  3.27it/s] 57%|█████▋    | 212861/371472 [5:53:45<13:05:05,  3.37it/s] 57%|█████▋    | 212862/371472 [5:53:46<12:17:04,  3.59it/s] 57%|█████▋    | 212863/371472 [5:53:46<12:10:53,  3.62it/s] 57%|█████▋    | 212864/371472 [5:53:46<11:57:20,  3.69it/s] 57%|█████▋    | 212865/371472 [5:53:46<12:42:27,  3.47it/s] 57%|█████▋    | 212866/371472 [5:53:47<12:23:13,  3.56it/s] 57%|█████▋    | 212867/371472 [5:53:47<12:18:46,  3.58it/s] 57%|█████▋    | 212868/371472 [5:53:47<12:29:59,  3.52it/s] 57%|█████▋    | 212869/371472 [5:53:48<12:14:39,  3.60it/s] 57%|█████▋    | 212870/371472 [5:53:48<12:10:02,  3.62it/s] 57%|█████▋    | 212871/371472 [5:53:48<12:42:40,  3.47it/s] 57%|█████▋    | 212872/371472 [5:53:48<12:51:28,  3.43it/s] 57%|█████▋    | 212873/371472 [5:53:49<12:38:01,  3.49it/s] 57%|█████▋    | 212874/371472 [5:53:49<12:31:51,  3.52it/s] 57%|█████▋    | 212875/371472 [5:53:49<12:26:07,  3.54it/s] 57%|█████▋    | 212876/371472 [5:53:50<12:52:08,  3.42it/s] 57%|█████▋    | 212877/371472 [5:53:50<12:50:03,  3.43it/s] 57%|█████▋    | 212878/371472 [5:53:50<12:38:39,  3.48it/s] 57%|█████▋    | 212879/371472 [5:53:50<12:45:52,  3.45it/s] 57%|█████▋    | 212880/371472 [5:53:51<12:39:35,  3.48it/s]                                                            {'loss': 2.8522, 'learning_rate': 4.844426727574393e-07, 'epoch': 9.17}
 57%|█████▋    | 212880/371472 [5:53:51<12:39:35,  3.48it/s] 57%|█████▋    | 212881/371472 [5:53:51<13:57:42,  3.16it/s] 57%|█████▋    | 212882/371472 [5:53:51<13:40:42,  3.22it/s] 57%|█████▋    | 212883/371472 [5:53:52<13:16:38,  3.32it/s] 57%|█████▋    | 212884/371472 [5:53:52<13:28:03,  3.27it/s] 57%|█████▋    | 212885/371472 [5:53:52<13:07:35,  3.36it/s] 57%|█████▋    | 212886/371472 [5:53:53<12:36:49,  3.49it/s] 57%|█████▋    | 212887/371472 [5:53:53<12:24:45,  3.55it/s] 57%|█████▋    | 212888/371472 [5:53:53<12:25:30,  3.55it/s] 57%|█████▋    | 212889/371472 [5:53:53<12:05:32,  3.64it/s] 57%|█████▋    | 212890/371472 [5:53:54<11:54:13,  3.70it/s] 57%|█████▋    | 212891/371472 [5:53:54<12:00:45,  3.67it/s] 57%|█████▋    | 212892/371472 [5:53:54<12:02:23,  3.66it/s] 57%|█████▋    | 212893/371472 [5:53:55<12:51:06,  3.43it/s] 57%|█████▋    | 212894/371472 [5:53:55<12:36:09,  3.50it/s] 57%|█████▋    | 212895/371472 [5:53:55<12:23:16,  3.56it/s] 57%|█████▋    | 212896/371472 [5:53:55<12:18:54,  3.58it/s] 57%|█████▋    | 212897/371472 [5:53:56<12:30:19,  3.52it/s] 57%|█████▋    | 212898/371472 [5:53:56<12:37:38,  3.49it/s] 57%|█████▋    | 212899/371472 [5:53:56<12:24:14,  3.55it/s] 57%|█████▋    | 212900/371472 [5:53:56<11:52:38,  3.71it/s]                                                            {'loss': 3.1081, 'learning_rate': 4.843941907819603e-07, 'epoch': 9.17}
 57%|█████▋    | 212900/371472 [5:53:56<11:52:38,  3.71it/s] 57%|█████▋    | 212901/371472 [5:53:57<11:51:52,  3.71it/s] 57%|█████▋    | 212902/371472 [5:53:57<11:26:27,  3.85it/s] 57%|█████▋    | 212903/371472 [5:53:57<11:16:14,  3.91it/s] 57%|█████▋    | 212904/371472 [5:53:57<11:35:59,  3.80it/s] 57%|█████▋    | 212905/371472 [5:53:58<11:40:03,  3.78it/s] 57%|█████▋    | 212906/371472 [5:53:58<11:58:14,  3.68it/s] 57%|█████▋    | 212907/371472 [5:53:58<12:22:01,  3.56it/s] 57%|█████▋    | 212908/371472 [5:53:59<12:06:48,  3.64it/s] 57%|█████▋    | 212909/371472 [5:53:59<11:53:14,  3.71it/s] 57%|█████▋    | 212910/371472 [5:53:59<12:07:02,  3.63it/s] 57%|█████▋    | 212911/371472 [5:53:59<12:08:35,  3.63it/s] 57%|█████▋    | 212912/371472 [5:54:00<12:49:38,  3.43it/s] 57%|█████▋    | 212913/371472 [5:54:00<12:34:16,  3.50it/s] 57%|█████▋    | 212914/371472 [5:54:00<12:06:57,  3.64it/s] 57%|█████▋    | 212915/371472 [5:54:01<12:04:22,  3.65it/s] 57%|█████▋    | 212916/371472 [5:54:01<11:47:25,  3.74it/s] 57%|█████▋    | 212917/371472 [5:54:01<11:48:22,  3.73it/s] 57%|█████▋    | 212918/371472 [5:54:01<11:44:45,  3.75it/s] 57%|█████▋    | 212919/371472 [5:54:02<11:48:30,  3.73it/s] 57%|█████▋    | 212920/371472 [5:54:02<11:34:58,  3.80it/s]                                                            {'loss': 2.8338, 'learning_rate': 4.843457088064815e-07, 'epoch': 9.17}
 57%|█████▋    | 212920/371472 [5:54:02<11:34:58,  3.80it/s] 57%|█████▋    | 212921/371472 [5:54:02<12:07:59,  3.63it/s] 57%|█████▋    | 212922/371472 [5:54:02<12:13:15,  3.60it/s] 57%|█████▋    | 212923/371472 [5:54:03<12:18:24,  3.58it/s] 57%|█████▋    | 212924/371472 [5:54:03<12:02:05,  3.66it/s] 57%|█████▋    | 212925/371472 [5:54:03<12:06:37,  3.64it/s] 57%|█████▋    | 212926/371472 [5:54:04<11:45:52,  3.74it/s] 57%|█████▋    | 212927/371472 [5:54:04<11:40:34,  3.77it/s] 57%|█████▋    | 212928/371472 [5:54:04<11:45:20,  3.75it/s] 57%|█████▋    | 212929/371472 [5:54:04<11:31:49,  3.82it/s] 57%|█████▋    | 212930/371472 [5:54:05<11:41:17,  3.77it/s] 57%|█████▋    | 212931/371472 [5:54:05<11:59:06,  3.67it/s] 57%|█████▋    | 212932/371472 [5:54:05<12:21:41,  3.56it/s] 57%|█████▋    | 212933/371472 [5:54:05<12:20:30,  3.57it/s] 57%|█████▋    | 212934/371472 [5:54:06<12:45:37,  3.45it/s] 57%|█████▋    | 212935/371472 [5:54:06<13:17:26,  3.31it/s] 57%|█████▋    | 212936/371472 [5:54:06<13:01:35,  3.38it/s] 57%|█████▋    | 212937/371472 [5:54:07<13:42:39,  3.21it/s] 57%|█████▋    | 212938/371472 [5:54:07<13:07:08,  3.36it/s] 57%|█████▋    | 212939/371472 [5:54:07<13:40:37,  3.22it/s] 57%|█████▋    | 212940/371472 [5:54:08<13:25:22,  3.28it/s]                                                            {'loss': 2.8665, 'learning_rate': 4.842972268310026e-07, 'epoch': 9.17}
 57%|█████▋    | 212940/371472 [5:54:08<13:25:22,  3.28it/s] 57%|█████▋    | 212941/371472 [5:54:08<13:18:44,  3.31it/s] 57%|█████▋    | 212942/371472 [5:54:08<12:52:03,  3.42it/s] 57%|█████▋    | 212943/371472 [5:54:08<12:32:15,  3.51it/s] 57%|█████▋    | 212944/371472 [5:54:09<12:24:05,  3.55it/s] 57%|█████▋    | 212945/371472 [5:54:09<12:01:38,  3.66it/s] 57%|█████▋    | 212946/371472 [5:54:09<13:35:43,  3.24it/s] 57%|█████▋    | 212947/371472 [5:54:10<13:28:22,  3.27it/s] 57%|█████▋    | 212948/371472 [5:54:10<13:08:44,  3.35it/s] 57%|█████▋    | 212949/371472 [5:54:10<12:45:22,  3.45it/s] 57%|█████▋    | 212950/371472 [5:54:10<12:17:33,  3.58it/s] 57%|█████▋    | 212951/371472 [5:54:11<12:05:58,  3.64it/s] 57%|█████▋    | 212952/371472 [5:54:11<12:20:42,  3.57it/s] 57%|█████▋    | 212953/371472 [5:54:11<12:03:35,  3.65it/s] 57%|█████▋    | 212954/371472 [5:54:12<11:51:35,  3.71it/s] 57%|█████▋    | 212955/371472 [5:54:12<11:56:26,  3.69it/s] 57%|█████▋    | 212956/371472 [5:54:12<13:43:47,  3.21it/s] 57%|█████▋    | 212957/371472 [5:54:13<13:46:47,  3.20it/s] 57%|█████▋    | 212958/371472 [5:54:13<13:03:46,  3.37it/s] 57%|█████▋    | 212959/371472 [5:54:13<12:31:24,  3.52it/s] 57%|█████▋    | 212960/371472 [5:54:13<13:09:49,  3.34it/s]                                                            {'loss': 2.9176, 'learning_rate': 4.842487448555238e-07, 'epoch': 9.17}
 57%|█████▋    | 212960/371472 [5:54:13<13:09:49,  3.34it/s] 57%|█████▋    | 212961/371472 [5:54:14<12:43:02,  3.46it/s] 57%|█████▋    | 212962/371472 [5:54:14<12:49:17,  3.43it/s] 57%|█████▋    | 212963/371472 [5:54:14<12:27:25,  3.53it/s] 57%|█████▋    | 212964/371472 [5:54:14<11:57:06,  3.68it/s] 57%|█████▋    | 212965/371472 [5:54:15<12:13:03,  3.60it/s] 57%|█████▋    | 212966/371472 [5:54:15<13:34:05,  3.25it/s] 57%|█████▋    | 212967/371472 [5:54:15<12:51:43,  3.42it/s] 57%|█████▋    | 212968/371472 [5:54:16<12:19:26,  3.57it/s] 57%|█████▋    | 212969/371472 [5:54:16<12:16:00,  3.59it/s] 57%|█████▋    | 212970/371472 [5:54:16<12:09:16,  3.62it/s] 57%|█████▋    | 212971/371472 [5:54:16<11:47:22,  3.73it/s] 57%|█████▋    | 212972/371472 [5:54:17<11:52:58,  3.71it/s] 57%|█████▋    | 212973/371472 [5:54:17<12:17:52,  3.58it/s] 57%|█████▋    | 212974/371472 [5:54:17<12:20:38,  3.57it/s] 57%|█████▋    | 212975/371472 [5:54:18<13:11:14,  3.34it/s] 57%|█████▋    | 212976/371472 [5:54:18<12:33:22,  3.51it/s] 57%|█████▋    | 212977/371472 [5:54:18<13:24:19,  3.28it/s] 57%|█████▋    | 212978/371472 [5:54:19<13:08:32,  3.35it/s] 57%|█████▋    | 212979/371472 [5:54:19<12:52:16,  3.42it/s] 57%|█████▋    | 212980/371472 [5:54:19<13:13:46,  3.33it/s]                                                            {'loss': 2.9161, 'learning_rate': 4.842002628800448e-07, 'epoch': 9.17}
 57%|█████▋    | 212980/371472 [5:54:19<13:13:46,  3.33it/s] 57%|█████▋    | 212981/371472 [5:54:19<13:13:47,  3.33it/s] 57%|█████▋    | 212982/371472 [5:54:20<13:24:32,  3.28it/s] 57%|█████▋    | 212983/371472 [5:54:20<13:30:39,  3.26it/s] 57%|█████▋    | 212984/371472 [5:54:20<13:43:20,  3.21it/s] 57%|█████▋    | 212985/371472 [5:54:21<12:56:05,  3.40it/s] 57%|█████▋    | 212986/371472 [5:54:21<13:14:35,  3.32it/s] 57%|█████▋    | 212987/371472 [5:54:21<12:51:48,  3.42it/s] 57%|█████▋    | 212988/371472 [5:54:21<12:22:09,  3.56it/s] 57%|█████▋    | 212989/371472 [5:54:22<12:24:52,  3.55it/s] 57%|█████▋    | 212990/371472 [5:54:22<12:41:50,  3.47it/s] 57%|█████▋    | 212991/371472 [5:54:22<13:12:05,  3.33it/s] 57%|█████▋    | 212992/371472 [5:54:23<13:12:32,  3.33it/s] 57%|█████▋    | 212993/371472 [5:54:23<13:24:22,  3.28it/s] 57%|█████▋    | 212994/371472 [5:54:23<12:56:05,  3.40it/s] 57%|█████▋    | 212995/371472 [5:54:24<12:41:31,  3.47it/s] 57%|█████▋    | 212996/371472 [5:54:24<12:19:37,  3.57it/s] 57%|█████▋    | 212997/371472 [5:54:24<12:05:44,  3.64it/s] 57%|█████▋    | 212998/371472 [5:54:24<13:14:37,  3.32it/s] 57%|█████▋    | 212999/371472 [5:54:25<12:49:39,  3.43it/s] 57%|█████▋    | 213000/371472 [5:54:25<12:10:30,  3.62it/s]                                                            {'loss': 2.7517, 'learning_rate': 4.841517809045659e-07, 'epoch': 9.17}
 57%|█████▋    | 213000/371472 [5:54:25<12:10:30,  3.62it/s] 57%|█████▋    | 213001/371472 [5:54:25<11:55:56,  3.69it/s] 57%|█████▋    | 213002/371472 [5:54:25<12:00:30,  3.67it/s] 57%|█████▋    | 213003/371472 [5:54:26<11:51:04,  3.71it/s] 57%|█████▋    | 213004/371472 [5:54:26<11:52:38,  3.71it/s] 57%|█████▋    | 213005/371472 [5:54:26<12:18:31,  3.58it/s] 57%|█████▋    | 213006/371472 [5:54:27<11:56:10,  3.69it/s] 57%|█████▋    | 213007/371472 [5:54:27<12:07:56,  3.63it/s] 57%|█████▋    | 213008/371472 [5:54:27<12:09:48,  3.62it/s] 57%|█████▋    | 213009/371472 [5:54:27<12:11:00,  3.61it/s] 57%|█████▋    | 213010/371472 [5:54:28<12:02:16,  3.66it/s] 57%|█████▋    | 213011/371472 [5:54:28<14:59:24,  2.94it/s] 57%|█████▋    | 213012/371472 [5:54:28<13:43:42,  3.21it/s] 57%|█████▋    | 213013/371472 [5:54:29<12:59:07,  3.39it/s] 57%|█████▋    | 213014/371472 [5:54:29<13:52:39,  3.17it/s] 57%|█████▋    | 213015/371472 [5:54:29<13:21:18,  3.30it/s] 57%|█████▋    | 213016/371472 [5:54:30<12:46:33,  3.45it/s] 57%|█████▋    | 213017/371472 [5:54:30<12:36:58,  3.49it/s] 57%|█████▋    | 213018/371472 [5:54:30<12:39:25,  3.48it/s] 57%|█████▋    | 213019/371472 [5:54:30<12:46:28,  3.45it/s] 57%|█████▋    | 213020/371472 [5:54:31<12:24:45,  3.55it/s]                                                            {'loss': 3.011, 'learning_rate': 4.84103298929087e-07, 'epoch': 9.18}
 57%|█████▋    | 213020/371472 [5:54:31<12:24:45,  3.55it/s] 57%|█████▋    | 213021/371472 [5:54:31<12:22:14,  3.56it/s] 57%|█████▋    | 213022/371472 [5:54:31<12:26:46,  3.54it/s] 57%|█████▋    | 213023/371472 [5:54:32<11:59:24,  3.67it/s] 57%|█████▋    | 213024/371472 [5:54:32<13:11:04,  3.34it/s] 57%|█████▋    | 213025/371472 [5:54:32<12:39:53,  3.48it/s] 57%|█████▋    | 213026/371472 [5:54:32<13:12:48,  3.33it/s] 57%|█████▋    | 213027/371472 [5:54:33<13:10:59,  3.34it/s] 57%|█████▋    | 213028/371472 [5:54:33<13:34:33,  3.24it/s] 57%|█████▋    | 213029/371472 [5:54:33<13:10:43,  3.34it/s] 57%|█████▋    | 213030/371472 [5:54:34<13:18:40,  3.31it/s] 57%|█████▋    | 213031/371472 [5:54:34<13:53:48,  3.17it/s] 57%|█████▋    | 213032/371472 [5:54:34<13:04:02,  3.37it/s] 57%|█████▋    | 213033/371472 [5:54:35<13:02:37,  3.37it/s] 57%|█████▋    | 213034/371472 [5:54:35<13:15:07,  3.32it/s] 57%|█████▋    | 213035/371472 [5:54:35<13:05:18,  3.36it/s] 57%|█████▋    | 213036/371472 [5:54:35<12:30:52,  3.52it/s] 57%|█████▋    | 213037/371472 [5:54:36<13:13:26,  3.33it/s] 57%|█████▋    | 213038/371472 [5:54:36<13:01:38,  3.38it/s] 57%|█████▋    | 213039/371472 [5:54:36<12:34:34,  3.50it/s] 57%|█████▋    | 213040/371472 [5:54:37<12:37:54,  3.48it/s]                                                            {'loss': 2.9939, 'learning_rate': 4.840548169536081e-07, 'epoch': 9.18}
 57%|█████▋    | 213040/371472 [5:54:37<12:37:54,  3.48it/s] 57%|█████▋    | 213041/371472 [5:54:37<12:54:16,  3.41it/s] 57%|█████▋    | 213042/371472 [5:54:37<12:39:38,  3.48it/s] 57%|█████▋    | 213043/371472 [5:54:37<12:25:33,  3.54it/s] 57%|█████▋    | 213044/371472 [5:54:38<11:59:12,  3.67it/s] 57%|█████▋    | 213045/371472 [5:54:38<11:57:08,  3.68it/s] 57%|█████▋    | 213046/371472 [5:54:38<11:57:19,  3.68it/s] 57%|█████▋    | 213047/371472 [5:54:39<12:19:48,  3.57it/s] 57%|█████▋    | 213048/371472 [5:54:39<11:50:07,  3.72it/s] 57%|█████▋    | 213049/371472 [5:54:39<12:00:42,  3.66it/s] 57%|█████▋    | 213050/371472 [5:54:39<12:33:21,  3.50it/s] 57%|█████▋    | 213051/371472 [5:54:40<11:57:59,  3.68it/s] 57%|█████▋    | 213052/371472 [5:54:40<12:11:32,  3.61it/s] 57%|█████▋    | 213053/371472 [5:54:40<12:24:57,  3.54it/s] 57%|█████▋    | 213054/371472 [5:54:40<12:26:31,  3.54it/s] 57%|█████▋    | 213055/371472 [5:54:41<12:23:00,  3.55it/s] 57%|█████▋    | 213056/371472 [5:54:41<12:35:49,  3.49it/s] 57%|█████▋    | 213057/371472 [5:54:41<12:25:43,  3.54it/s] 57%|█████▋    | 213058/371472 [5:54:42<12:39:45,  3.48it/s] 57%|█████▋    | 213059/371472 [5:54:42<12:46:09,  3.45it/s] 57%|█████▋    | 213060/371472 [5:54:42<13:25:31,  3.28it/s]                                                            {'loss': 2.9366, 'learning_rate': 4.840063349781292e-07, 'epoch': 9.18}
 57%|█████▋    | 213060/371472 [5:54:42<13:25:31,  3.28it/s] 57%|█████▋    | 213061/371472 [5:54:43<13:53:33,  3.17it/s] 57%|█████▋    | 213062/371472 [5:54:43<14:41:43,  2.99it/s] 57%|█████▋    | 213063/371472 [5:54:43<13:30:42,  3.26it/s] 57%|█████▋    | 213064/371472 [5:54:44<13:06:51,  3.36it/s] 57%|█████▋    | 213065/371472 [5:54:44<13:24:50,  3.28it/s] 57%|█████▋    | 213066/371472 [5:54:44<12:46:41,  3.44it/s] 57%|█████▋    | 213067/371472 [5:54:44<12:36:15,  3.49it/s] 57%|█████▋    | 213068/371472 [5:54:45<12:30:15,  3.52it/s] 57%|█████▋    | 213069/371472 [5:54:45<12:06:36,  3.63it/s] 57%|█████▋    | 213070/371472 [5:54:45<11:55:56,  3.69it/s] 57%|█████▋    | 213071/371472 [5:54:45<12:14:32,  3.59it/s] 57%|█████▋    | 213072/371472 [5:54:46<12:06:18,  3.63it/s] 57%|█████▋    | 213073/371472 [5:54:46<13:15:03,  3.32it/s] 57%|█████▋    | 213074/371472 [5:54:46<12:30:24,  3.52it/s] 57%|█████▋    | 213075/371472 [5:54:47<12:18:32,  3.57it/s] 57%|█████▋    | 213076/371472 [5:54:47<12:52:01,  3.42it/s] 57%|█████▋    | 213077/371472 [5:54:47<12:29:28,  3.52it/s] 57%|█████▋    | 213078/371472 [5:54:47<12:10:54,  3.61it/s] 57%|█████▋    | 213079/371472 [5:54:48<12:21:26,  3.56it/s] 57%|█████▋    | 213080/371472 [5:54:48<14:30:10,  3.03it/s]                                                            {'loss': 2.9851, 'learning_rate': 4.839578530026503e-07, 'epoch': 9.18}
 57%|█████▋    | 213080/371472 [5:54:48<14:30:10,  3.03it/s] 57%|█████▋    | 213081/371472 [5:54:48<13:58:53,  3.15it/s] 57%|█████▋    | 213082/371472 [5:54:49<13:13:14,  3.33it/s] 57%|█████▋    | 213083/371472 [5:54:49<12:20:14,  3.57it/s] 57%|█████▋    | 213084/371472 [5:54:49<12:46:12,  3.45it/s] 57%|█████▋    | 213085/371472 [5:54:50<12:28:22,  3.53it/s] 57%|█████▋    | 213086/371472 [5:54:50<12:26:55,  3.53it/s] 57%|█████▋    | 213087/371472 [5:54:50<12:08:08,  3.63it/s] 57%|█████▋    | 213088/371472 [5:54:50<12:14:08,  3.60it/s] 57%|█████▋    | 213089/371472 [5:54:51<12:10:47,  3.61it/s] 57%|█████▋    | 213090/371472 [5:54:51<12:50:55,  3.42it/s] 57%|█████▋    | 213091/371472 [5:54:51<12:23:02,  3.55it/s] 57%|█████▋    | 213092/371472 [5:54:51<12:06:09,  3.64it/s] 57%|█████▋    | 213093/371472 [5:54:52<11:57:21,  3.68it/s] 57%|█████▋    | 213094/371472 [5:54:52<11:37:10,  3.79it/s] 57%|█████▋    | 213095/371472 [5:54:52<11:53:02,  3.70it/s] 57%|█████▋    | 213096/371472 [5:54:53<12:12:22,  3.60it/s] 57%|█████▋    | 213097/371472 [5:54:53<12:08:56,  3.62it/s] 57%|█████▋    | 213098/371472 [5:54:53<12:37:12,  3.49it/s] 57%|█████▋    | 213099/371472 [5:54:53<12:34:39,  3.50it/s] 57%|█████▋    | 213100/371472 [5:54:54<12:10:11,  3.61it/s]                                                            {'loss': 2.9022, 'learning_rate': 4.839093710271715e-07, 'epoch': 9.18}
 57%|█████▋    | 213100/371472 [5:54:54<12:10:11,  3.61it/s] 57%|█████▋    | 213101/371472 [5:54:54<12:16:00,  3.59it/s] 57%|█████▋    | 213102/371472 [5:54:54<13:39:19,  3.22it/s] 57%|█████▋    | 213103/371472 [5:54:55<12:54:10,  3.41it/s] 57%|█████▋    | 213104/371472 [5:54:55<13:01:42,  3.38it/s] 57%|█████▋    | 213105/371472 [5:54:55<12:50:14,  3.43it/s] 57%|█████▋    | 213106/371472 [5:54:55<12:44:06,  3.45it/s] 57%|█████▋    | 213107/371472 [5:54:56<12:53:54,  3.41it/s] 57%|█████▋    | 213108/371472 [5:54:56<12:44:15,  3.45it/s] 57%|█████▋    | 213109/371472 [5:54:56<12:34:19,  3.50it/s] 57%|█████▋    | 213110/371472 [5:54:57<12:17:36,  3.58it/s] 57%|█████▋    | 213111/371472 [5:54:57<12:41:27,  3.47it/s] 57%|█████▋    | 213112/371472 [5:54:57<12:09:54,  3.62it/s] 57%|█████▋    | 213113/371472 [5:54:57<12:24:53,  3.54it/s] 57%|█████▋    | 213114/371472 [5:54:58<12:39:13,  3.48it/s] 57%|█████▋    | 213115/371472 [5:54:58<13:30:38,  3.26it/s] 57%|█████▋    | 213116/371472 [5:54:58<13:12:48,  3.33it/s] 57%|█████▋    | 213117/371472 [5:54:59<12:56:59,  3.40it/s] 57%|█████▋    | 213118/371472 [5:54:59<12:10:44,  3.61it/s] 57%|█████▋    | 213119/371472 [5:54:59<11:53:14,  3.70it/s] 57%|█████▋    | 213120/371472 [5:54:59<11:36:31,  3.79it/s]                                                            {'loss': 3.1299, 'learning_rate': 4.838608890516926e-07, 'epoch': 9.18}
 57%|█████▋    | 213120/371472 [5:54:59<11:36:31,  3.79it/s] 57%|█████▋    | 213121/371472 [5:55:00<11:59:02,  3.67it/s] 57%|█████▋    | 213122/371472 [5:55:00<12:28:10,  3.53it/s] 57%|█████▋    | 213123/371472 [5:55:00<12:37:44,  3.48it/s] 57%|█████▋    | 213124/371472 [5:55:01<12:30:05,  3.52it/s] 57%|█████▋    | 213125/371472 [5:55:01<12:37:01,  3.49it/s] 57%|█████▋    | 213126/371472 [5:55:01<12:32:42,  3.51it/s] 57%|█████▋    | 213127/371472 [5:55:01<12:00:39,  3.66it/s] 57%|█████▋    | 213128/371472 [5:55:02<12:10:20,  3.61it/s] 57%|█████▋    | 213129/371472 [5:55:02<11:53:56,  3.70it/s] 57%|█████▋    | 213130/371472 [5:55:02<11:46:31,  3.74it/s] 57%|█████▋    | 213131/371472 [5:55:02<11:51:47,  3.71it/s] 57%|█████▋    | 213132/371472 [5:55:03<12:01:17,  3.66it/s] 57%|█████▋    | 213133/371472 [5:55:03<12:08:20,  3.62it/s] 57%|█████▋    | 213134/371472 [5:55:03<11:52:21,  3.70it/s] 57%|█████▋    | 213135/371472 [5:55:04<11:52:44,  3.70it/s] 57%|█████▋    | 213136/371472 [5:55:04<12:00:20,  3.66it/s] 57%|█████▋    | 213137/371472 [5:55:04<12:30:33,  3.52it/s] 57%|█████▋    | 213138/371472 [5:55:04<12:31:22,  3.51it/s] 57%|█████▋    | 213139/371472 [5:55:05<12:43:43,  3.46it/s] 57%|█████▋    | 213140/371472 [5:55:05<12:16:57,  3.58it/s]                                                            {'loss': 2.9909, 'learning_rate': 4.838124070762136e-07, 'epoch': 9.18}
 57%|█████▋    | 213140/371472 [5:55:05<12:16:57,  3.58it/s] 57%|█████▋    | 213141/371472 [5:55:05<12:03:05,  3.65it/s] 57%|█████▋    | 213142/371472 [5:55:06<11:59:07,  3.67it/s] 57%|█████▋    | 213143/371472 [5:55:06<12:19:37,  3.57it/s] 57%|█████▋    | 213144/371472 [5:55:06<12:21:53,  3.56it/s] 57%|█████▋    | 213145/371472 [5:55:06<12:11:21,  3.61it/s] 57%|█████▋    | 213146/371472 [5:55:07<12:31:41,  3.51it/s] 57%|█████▋    | 213147/371472 [5:55:07<12:00:56,  3.66it/s] 57%|█████▋    | 213148/371472 [5:55:07<12:16:20,  3.58it/s] 57%|█████▋    | 213149/371472 [5:55:08<12:12:36,  3.60it/s] 57%|█████▋    | 213150/371472 [5:55:08<12:45:17,  3.45it/s] 57%|█████▋    | 213151/371472 [5:55:08<12:47:31,  3.44it/s] 57%|█████▋    | 213152/371472 [5:55:08<12:18:13,  3.57it/s] 57%|█████▋    | 213153/371472 [5:55:09<12:10:52,  3.61it/s] 57%|█████▋    | 213154/371472 [5:55:09<12:36:23,  3.49it/s] 57%|█████▋    | 213155/371472 [5:55:09<12:59:19,  3.39it/s] 57%|█████▋    | 213156/371472 [5:55:10<12:19:47,  3.57it/s] 57%|█████▋    | 213157/371472 [5:55:10<11:52:57,  3.70it/s] 57%|█████▋    | 213158/371472 [5:55:10<12:13:39,  3.60it/s] 57%|█████▋    | 213159/371472 [5:55:10<12:39:57,  3.47it/s] 57%|█████▋    | 213160/371472 [5:55:11<13:19:40,  3.30it/s]                                                            {'loss': 2.9103, 'learning_rate': 4.837639251007347e-07, 'epoch': 9.18}
 57%|█████▋    | 213160/371472 [5:55:11<13:19:40,  3.30it/s] 57%|█████▋    | 213161/371472 [5:55:11<13:16:15,  3.31it/s] 57%|█████▋    | 213162/371472 [5:55:11<12:49:11,  3.43it/s] 57%|█████▋    | 213163/371472 [5:55:12<11:57:56,  3.68it/s] 57%|█████▋    | 213164/371472 [5:55:12<12:06:06,  3.63it/s] 57%|█████▋    | 213165/371472 [5:55:12<12:57:49,  3.39it/s] 57%|█████▋    | 213166/371472 [5:55:12<12:23:18,  3.55it/s] 57%|█████▋    | 213167/371472 [5:55:13<12:07:58,  3.62it/s] 57%|█████▋    | 213168/371472 [5:55:13<11:53:31,  3.70it/s] 57%|█████▋    | 213169/371472 [5:55:13<12:33:35,  3.50it/s] 57%|█████▋    | 213170/371472 [5:55:13<12:07:36,  3.63it/s] 57%|█████▋    | 213171/371472 [5:55:14<12:21:45,  3.56it/s] 57%|█████▋    | 213172/371472 [5:55:14<13:12:10,  3.33it/s] 57%|█████▋    | 213173/371472 [5:55:14<13:06:43,  3.35it/s] 57%|█████▋    | 213174/371472 [5:55:15<13:01:59,  3.37it/s] 57%|█████▋    | 213175/371472 [5:55:15<13:08:58,  3.34it/s] 57%|█████▋    | 213176/371472 [5:55:15<12:51:37,  3.42it/s] 57%|█████▋    | 213177/371472 [5:55:16<13:23:16,  3.28it/s] 57%|█████▋    | 213178/371472 [5:55:16<13:25:28,  3.28it/s] 57%|█████▋    | 213179/371472 [5:55:16<13:15:56,  3.31it/s] 57%|█████▋    | 213180/371472 [5:55:17<13:13:28,  3.32it/s]                                                            {'loss': 2.9192, 'learning_rate': 4.837154431252559e-07, 'epoch': 9.18}
 57%|█████▋    | 213180/371472 [5:55:17<13:13:28,  3.32it/s] 57%|█████▋    | 213181/371472 [5:55:17<13:07:49,  3.35it/s] 57%|█████▋    | 213182/371472 [5:55:17<13:08:19,  3.35it/s] 57%|█████▋    | 213183/371472 [5:55:17<13:25:45,  3.27it/s] 57%|█████▋    | 213184/371472 [5:55:18<13:15:07,  3.32it/s] 57%|█████▋    | 213185/371472 [5:55:18<12:53:22,  3.41it/s] 57%|█████▋    | 213186/371472 [5:55:18<12:51:54,  3.42it/s] 57%|█████▋    | 213187/371472 [5:55:19<12:22:10,  3.55it/s] 57%|█████▋    | 213188/371472 [5:55:19<12:28:48,  3.52it/s] 57%|█████▋    | 213189/371472 [5:55:19<12:48:35,  3.43it/s] 57%|█████▋    | 213190/371472 [5:55:19<12:19:45,  3.57it/s] 57%|█████▋    | 213191/371472 [5:55:20<12:03:22,  3.65it/s] 57%|█████▋    | 213192/371472 [5:55:20<12:45:23,  3.45it/s] 57%|█████▋    | 213193/371472 [5:55:20<13:23:04,  3.28it/s] 57%|█████▋    | 213194/371472 [5:55:21<13:07:15,  3.35it/s] 57%|█████▋    | 213195/371472 [5:55:21<12:38:12,  3.48it/s] 57%|█████▋    | 213196/371472 [5:55:21<12:22:32,  3.55it/s] 57%|█████▋    | 213197/371472 [5:55:21<11:59:49,  3.66it/s] 57%|█████▋    | 213198/371472 [5:55:22<12:26:23,  3.53it/s] 57%|█████▋    | 213199/371472 [5:55:22<13:32:43,  3.25it/s] 57%|█████▋    | 213200/371472 [5:55:22<12:54:55,  3.40it/s]                                                            {'loss': 2.951, 'learning_rate': 4.83666961149777e-07, 'epoch': 9.18}
 57%|█████▋    | 213200/371472 [5:55:22<12:54:55,  3.40it/s] 57%|█████▋    | 213201/371472 [5:55:23<12:17:16,  3.58it/s] 57%|█████▋    | 213202/371472 [5:55:23<12:22:30,  3.55it/s] 57%|█████▋    | 213203/371472 [5:55:23<13:11:39,  3.33it/s] 57%|█████▋    | 213204/371472 [5:55:23<12:36:18,  3.49it/s] 57%|█████▋    | 213205/371472 [5:55:24<13:43:19,  3.20it/s] 57%|█████▋    | 213206/371472 [5:55:24<13:04:14,  3.36it/s] 57%|█████▋    | 213207/371472 [5:55:24<13:10:31,  3.34it/s] 57%|█████▋    | 213208/371472 [5:55:25<13:03:24,  3.37it/s] 57%|█████▋    | 213209/371472 [5:55:25<13:37:19,  3.23it/s] 57%|█████▋    | 213210/371472 [5:55:25<13:10:04,  3.34it/s] 57%|█████▋    | 213211/371472 [5:55:26<12:49:29,  3.43it/s] 57%|█████▋    | 213212/371472 [5:55:26<12:35:22,  3.49it/s] 57%|█████▋    | 213213/371472 [5:55:26<12:37:58,  3.48it/s] 57%|█████▋    | 213214/371472 [5:55:26<12:32:11,  3.51it/s] 57%|█████▋    | 213215/371472 [5:55:27<14:14:13,  3.09it/s] 57%|█████▋    | 213216/371472 [5:55:27<13:53:10,  3.17it/s] 57%|█████▋    | 213217/371472 [5:55:27<14:06:11,  3.12it/s] 57%|█████▋    | 213218/371472 [5:55:28<13:22:13,  3.29it/s] 57%|█████▋    | 213219/371472 [5:55:28<13:02:27,  3.37it/s] 57%|█████▋    | 213220/371472 [5:55:28<12:53:03,  3.41it/s]                                                            {'loss': 2.9664, 'learning_rate': 4.836184791742981e-07, 'epoch': 9.18}
 57%|█████▋    | 213220/371472 [5:55:28<12:53:03,  3.41it/s] 57%|█████▋    | 213221/371472 [5:55:29<12:27:04,  3.53it/s] 57%|█████▋    | 213222/371472 [5:55:29<12:35:33,  3.49it/s] 57%|█████▋    | 213223/371472 [5:55:29<12:36:55,  3.48it/s] 57%|█████▋    | 213224/371472 [5:55:29<12:36:03,  3.49it/s] 57%|█████▋    | 213225/371472 [5:55:30<13:18:21,  3.30it/s] 57%|█████▋    | 213226/371472 [5:55:30<12:49:10,  3.43it/s] 57%|█████▋    | 213227/371472 [5:55:30<13:24:10,  3.28it/s] 57%|█████▋    | 213228/371472 [5:55:31<13:13:07,  3.33it/s] 57%|█████▋    | 213229/371472 [5:55:31<13:02:21,  3.37it/s] 57%|█████▋    | 213230/371472 [5:55:31<13:24:24,  3.28it/s] 57%|█████▋    | 213231/371472 [5:55:32<12:43:51,  3.45it/s] 57%|█████▋    | 213232/371472 [5:55:32<12:22:11,  3.55it/s] 57%|█████▋    | 213233/371472 [5:55:32<13:06:57,  3.35it/s] 57%|█████▋    | 213234/371472 [5:55:32<12:42:12,  3.46it/s] 57%|█████▋    | 213235/371472 [5:55:33<12:49:24,  3.43it/s] 57%|█████▋    | 213236/371472 [5:55:33<12:24:48,  3.54it/s] 57%|█████▋    | 213237/371472 [5:55:33<13:00:29,  3.38it/s] 57%|█████▋    | 213238/371472 [5:55:34<12:26:03,  3.53it/s] 57%|█████▋    | 213239/371472 [5:55:34<12:17:41,  3.57it/s] 57%|█████▋    | 213240/371472 [5:55:34<11:58:59,  3.67it/s]                                                            {'loss': 2.9375, 'learning_rate': 4.835699971988192e-07, 'epoch': 9.18}
 57%|█████▋    | 213240/371472 [5:55:34<11:58:59,  3.67it/s] 57%|█████▋    | 213241/371472 [5:55:34<12:00:03,  3.66it/s] 57%|█████▋    | 213242/371472 [5:55:35<12:42:24,  3.46it/s] 57%|█████▋    | 213243/371472 [5:55:35<12:23:10,  3.55it/s] 57%|█████▋    | 213244/371472 [5:55:35<12:13:45,  3.59it/s] 57%|█████▋    | 213245/371472 [5:55:35<12:10:45,  3.61it/s] 57%|█████▋    | 213246/371472 [5:55:36<12:07:01,  3.63it/s] 57%|█████▋    | 213247/371472 [5:55:36<11:44:44,  3.74it/s] 57%|█████▋    | 213248/371472 [5:55:36<11:58:12,  3.67it/s] 57%|█████▋    | 213249/371472 [5:55:37<11:52:51,  3.70it/s] 57%|█████▋    | 213250/371472 [5:55:37<12:15:36,  3.58it/s] 57%|█████▋    | 213251/371472 [5:55:37<12:32:01,  3.51it/s] 57%|█████▋    | 213252/371472 [5:55:37<12:18:51,  3.57it/s] 57%|█████▋    | 213253/371472 [5:55:38<13:45:06,  3.20it/s] 57%|█████▋    | 213254/371472 [5:55:38<13:15:51,  3.31it/s] 57%|█████▋    | 213255/371472 [5:55:38<13:26:15,  3.27it/s] 57%|█████▋    | 213256/371472 [5:55:39<13:03:28,  3.37it/s] 57%|█████▋    | 213257/371472 [5:55:39<13:35:32,  3.23it/s] 57%|█████▋    | 213258/371472 [5:55:39<13:04:04,  3.36it/s] 57%|█████▋    | 213259/371472 [5:55:40<13:32:46,  3.24it/s] 57%|█████▋    | 213260/371472 [5:55:40<14:04:48,  3.12it/s]                                                            {'loss': 2.799, 'learning_rate': 4.835215152233403e-07, 'epoch': 9.19}
 57%|█████▋    | 213260/371472 [5:55:40<14:04:48,  3.12it/s] 57%|█████▋    | 213261/371472 [5:55:40<13:59:01,  3.14it/s] 57%|█████▋    | 213262/371472 [5:55:41<13:26:58,  3.27it/s] 57%|█████▋    | 213263/371472 [5:55:41<13:03:45,  3.36it/s] 57%|█████▋    | 213264/371472 [5:55:41<13:20:01,  3.30it/s] 57%|█████▋    | 213265/371472 [5:55:41<13:00:13,  3.38it/s] 57%|█████▋    | 213266/371472 [5:55:42<12:46:05,  3.44it/s] 57%|█████▋    | 213267/371472 [5:55:42<13:01:38,  3.37it/s] 57%|█████▋    | 213268/371472 [5:55:42<13:08:09,  3.35it/s] 57%|█████▋    | 213269/371472 [5:55:43<12:47:36,  3.43it/s] 57%|█████▋    | 213270/371472 [5:55:43<13:07:25,  3.35it/s] 57%|█████▋    | 213271/371472 [5:55:43<12:50:53,  3.42it/s] 57%|█████▋    | 213272/371472 [5:55:43<12:38:24,  3.48it/s] 57%|█████▋    | 213273/371472 [5:55:44<13:00:33,  3.38it/s] 57%|█████▋    | 213274/371472 [5:55:44<12:47:05,  3.44it/s] 57%|█████▋    | 213275/371472 [5:55:44<13:11:29,  3.33it/s] 57%|█████▋    | 213276/371472 [5:55:45<12:50:18,  3.42it/s] 57%|█████▋    | 213277/371472 [5:55:45<12:26:55,  3.53it/s] 57%|█████▋    | 213278/371472 [5:55:45<12:40:25,  3.47it/s] 57%|█████▋    | 213279/371472 [5:55:46<12:57:16,  3.39it/s] 57%|█████▋    | 213280/371472 [5:55:46<12:54:15,  3.41it/s]                                                            {'loss': 2.9151, 'learning_rate': 4.834730332478613e-07, 'epoch': 9.19}
 57%|█████▋    | 213280/371472 [5:55:46<12:54:15,  3.41it/s] 57%|█████▋    | 213281/371472 [5:55:46<13:18:30,  3.30it/s] 57%|█████▋    | 213282/371472 [5:55:46<12:37:08,  3.48it/s] 57%|█████▋    | 213283/371472 [5:55:47<13:16:54,  3.31it/s] 57%|█████▋    | 213284/371472 [5:55:47<12:37:22,  3.48it/s] 57%|█████▋    | 213285/371472 [5:55:47<12:20:49,  3.56it/s] 57%|█████▋    | 213286/371472 [5:55:47<12:08:42,  3.62it/s] 57%|█████▋    | 213287/371472 [5:55:48<11:58:14,  3.67it/s] 57%|█████▋    | 213288/371472 [5:55:48<12:39:59,  3.47it/s] 57%|█████▋    | 213289/371472 [5:55:48<12:49:36,  3.43it/s] 57%|█████▋    | 213290/371472 [5:55:49<12:24:57,  3.54it/s] 57%|█████▋    | 213291/371472 [5:55:49<12:49:29,  3.43it/s] 57%|█████▋    | 213292/371472 [5:55:49<13:27:42,  3.26it/s] 57%|█████▋    | 213293/371472 [5:55:50<12:36:21,  3.49it/s] 57%|█████▋    | 213294/371472 [5:55:50<13:17:46,  3.30it/s] 57%|█████▋    | 213295/371472 [5:55:50<13:22:04,  3.29it/s] 57%|█████▋    | 213296/371472 [5:55:50<12:41:53,  3.46it/s] 57%|█████▋    | 213297/371472 [5:55:51<12:25:49,  3.53it/s] 57%|█████▋    | 213298/371472 [5:55:51<12:18:09,  3.57it/s] 57%|█████▋    | 213299/371472 [5:55:51<13:47:24,  3.19it/s] 57%|█████▋    | 213300/371472 [5:55:52<13:06:48,  3.35it/s]                                                            {'loss': 3.0773, 'learning_rate': 4.834245512723825e-07, 'epoch': 9.19}
 57%|█████▋    | 213300/371472 [5:55:52<13:06:48,  3.35it/s] 57%|█████▋    | 213301/371472 [5:55:52<12:56:35,  3.39it/s] 57%|█████▋    | 213302/371472 [5:55:52<12:25:12,  3.54it/s] 57%|█████▋    | 213303/371472 [5:55:52<12:13:50,  3.59it/s] 57%|█████▋    | 213304/371472 [5:55:53<12:30:45,  3.51it/s] 57%|█████▋    | 213305/371472 [5:55:53<12:24:53,  3.54it/s] 57%|█████▋    | 213306/371472 [5:55:53<12:14:25,  3.59it/s] 57%|█████▋    | 213307/371472 [5:55:54<12:09:38,  3.61it/s] 57%|█████▋    | 213308/371472 [5:55:54<11:57:13,  3.68it/s] 57%|█████▋    | 213309/371472 [5:55:54<12:01:32,  3.65it/s] 57%|█████▋    | 213310/371472 [5:55:54<11:53:43,  3.69it/s] 57%|█████▋    | 213311/371472 [5:55:55<11:35:39,  3.79it/s] 57%|█████▋    | 213312/371472 [5:55:55<11:49:08,  3.72it/s] 57%|█████▋    | 213313/371472 [5:55:55<11:46:40,  3.73it/s] 57%|█████▋    | 213314/371472 [5:55:55<11:58:39,  3.67it/s] 57%|█████▋    | 213315/371472 [5:55:56<12:13:01,  3.60it/s] 57%|█████▋    | 213316/371472 [5:55:56<11:57:00,  3.68it/s] 57%|█████▋    | 213317/371472 [5:55:56<12:27:46,  3.53it/s] 57%|█████▋    | 213318/371472 [5:55:57<12:33:31,  3.50it/s] 57%|█████▋    | 213319/371472 [5:55:57<12:25:08,  3.54it/s] 57%|█████▋    | 213320/371472 [5:55:57<12:06:22,  3.63it/s]                                                            {'loss': 3.1726, 'learning_rate': 4.833760692969036e-07, 'epoch': 9.19}
 57%|█████▋    | 213320/371472 [5:55:57<12:06:22,  3.63it/s] 57%|█████▋    | 213321/371472 [5:55:57<13:18:28,  3.30it/s] 57%|█████▋    | 213322/371472 [5:55:58<12:43:42,  3.45it/s] 57%|█████▋    | 213323/371472 [5:55:58<13:02:18,  3.37it/s] 57%|█████▋    | 213324/371472 [5:55:58<12:25:46,  3.53it/s] 57%|█████▋    | 213325/371472 [5:55:59<12:03:36,  3.64it/s] 57%|█████▋    | 213326/371472 [5:55:59<12:45:26,  3.44it/s] 57%|█████▋    | 213327/371472 [5:55:59<12:26:44,  3.53it/s] 57%|█████▋    | 213328/371472 [5:55:59<12:09:28,  3.61it/s] 57%|█████▋    | 213329/371472 [5:56:00<12:23:23,  3.55it/s] 57%|█████▋    | 213330/371472 [5:56:00<12:45:01,  3.45it/s] 57%|█████▋    | 213331/371472 [5:56:00<12:42:58,  3.45it/s] 57%|█████▋    | 213332/371472 [5:56:01<12:14:36,  3.59it/s] 57%|█████▋    | 213333/371472 [5:56:01<12:31:39,  3.51it/s] 57%|█████▋    | 213334/371472 [5:56:01<12:18:04,  3.57it/s] 57%|█████▋    | 213335/371472 [5:56:01<12:09:47,  3.61it/s] 57%|█████▋    | 213336/371472 [5:56:02<12:09:46,  3.61it/s] 57%|█████▋    | 213337/371472 [5:56:02<12:13:17,  3.59it/s] 57%|█████▋    | 213338/371472 [5:56:02<12:26:36,  3.53it/s] 57%|█████▋    | 213339/371472 [5:56:03<12:50:51,  3.42it/s] 57%|█████▋    | 213340/371472 [5:56:03<12:36:18,  3.48it/s]                                                            {'loss': 2.8005, 'learning_rate': 4.833275873214248e-07, 'epoch': 9.19}
 57%|█████▋    | 213340/371472 [5:56:03<12:36:18,  3.48it/s] 57%|█████▋    | 213341/371472 [5:56:03<12:11:01,  3.61it/s] 57%|█████▋    | 213342/371472 [5:56:03<12:26:34,  3.53it/s] 57%|█████▋    | 213343/371472 [5:56:04<12:00:32,  3.66it/s] 57%|█████▋    | 213344/371472 [5:56:04<12:45:43,  3.44it/s] 57%|█████▋    | 213345/371472 [5:56:04<12:35:46,  3.49it/s] 57%|█████▋    | 213346/371472 [5:56:05<12:42:26,  3.46it/s] 57%|█████▋    | 213347/371472 [5:56:05<12:24:46,  3.54it/s] 57%|█████▋    | 213348/371472 [5:56:05<12:30:43,  3.51it/s] 57%|█████▋    | 213349/371472 [5:56:05<12:24:33,  3.54it/s] 57%|█████▋    | 213350/371472 [5:56:06<12:10:30,  3.61it/s] 57%|█████▋    | 213351/371472 [5:56:06<12:12:19,  3.60it/s] 57%|█████▋    | 213352/371472 [5:56:06<11:55:19,  3.68it/s] 57%|█████▋    | 213353/371472 [5:56:06<12:23:21,  3.55it/s] 57%|█████▋    | 213354/371472 [5:56:07<12:35:44,  3.49it/s] 57%|█████▋    | 213355/371472 [5:56:07<12:16:27,  3.58it/s] 57%|█████▋    | 213356/371472 [5:56:07<12:42:35,  3.46it/s] 57%|█████▋    | 213357/371472 [5:56:08<12:18:55,  3.57it/s] 57%|█████▋    | 213358/371472 [5:56:08<12:13:13,  3.59it/s] 57%|█████▋    | 213359/371472 [5:56:08<12:24:59,  3.54it/s] 57%|█████▋    | 213360/371472 [5:56:08<12:08:14,  3.62it/s]                                                            {'loss': 3.0773, 'learning_rate': 4.832791053459458e-07, 'epoch': 9.19}
 57%|█████▋    | 213360/371472 [5:56:08<12:08:14,  3.62it/s] 57%|█████▋    | 213361/371472 [5:56:09<11:59:42,  3.66it/s] 57%|█████▋    | 213362/371472 [5:56:09<11:53:34,  3.69it/s] 57%|█████▋    | 213363/371472 [5:56:09<11:32:36,  3.80it/s] 57%|█████▋    | 213364/371472 [5:56:09<11:34:44,  3.79it/s] 57%|█████▋    | 213365/371472 [5:56:10<12:00:39,  3.66it/s] 57%|█████▋    | 213366/371472 [5:56:10<11:46:22,  3.73it/s] 57%|█████▋    | 213367/371472 [5:56:10<11:54:41,  3.69it/s] 57%|█████▋    | 213368/371472 [5:56:11<12:06:32,  3.63it/s] 57%|█████▋    | 213369/371472 [5:56:11<12:14:48,  3.59it/s] 57%|█████▋    | 213370/371472 [5:56:11<12:01:16,  3.65it/s] 57%|█████▋    | 213371/371472 [5:56:11<11:51:30,  3.70it/s] 57%|█████▋    | 213372/371472 [5:56:12<11:39:45,  3.77it/s] 57%|█████▋    | 213373/371472 [5:56:12<11:22:01,  3.86it/s] 57%|█████▋    | 213374/371472 [5:56:12<11:53:47,  3.69it/s] 57%|█████▋    | 213375/371472 [5:56:12<11:31:49,  3.81it/s] 57%|█████▋    | 213376/371472 [5:56:13<12:37:13,  3.48it/s] 57%|█████▋    | 213377/371472 [5:56:13<12:26:34,  3.53it/s] 57%|█████▋    | 213378/371472 [5:56:13<12:56:18,  3.39it/s] 57%|█████▋    | 213379/371472 [5:56:14<12:40:42,  3.46it/s] 57%|█████▋    | 213380/371472 [5:56:14<12:43:49,  3.45it/s]                                                            {'loss': 3.0048, 'learning_rate': 4.832306233704669e-07, 'epoch': 9.19}
 57%|█████▋    | 213380/371472 [5:56:14<12:43:49,  3.45it/s] 57%|█████▋    | 213381/371472 [5:56:14<13:41:37,  3.21it/s] 57%|█████▋    | 213382/371472 [5:56:15<14:43:40,  2.98it/s] 57%|█████▋    | 213383/371472 [5:56:15<13:55:58,  3.15it/s] 57%|█████▋    | 213384/371472 [5:56:15<13:44:20,  3.20it/s] 57%|█████▋    | 213385/371472 [5:56:16<13:34:04,  3.24it/s] 57%|█████▋    | 213386/371472 [5:56:16<13:07:40,  3.34it/s] 57%|█████▋    | 213387/371472 [5:56:16<13:41:58,  3.21it/s] 57%|█████▋    | 213388/371472 [5:56:17<13:20:16,  3.29it/s] 57%|█████▋    | 213389/371472 [5:56:17<14:11:02,  3.10it/s] 57%|█████▋    | 213390/371472 [5:56:17<14:21:17,  3.06it/s] 57%|█████▋    | 213391/371472 [5:56:18<14:44:49,  2.98it/s] 57%|█████▋    | 213392/371472 [5:56:18<14:33:50,  3.02it/s] 57%|█████▋    | 213393/371472 [5:56:18<13:44:57,  3.19it/s] 57%|█████▋    | 213394/371472 [5:56:18<13:36:52,  3.23it/s] 57%|█████▋    | 213395/371472 [5:56:19<13:21:25,  3.29it/s] 57%|█████▋    | 213396/371472 [5:56:19<12:42:49,  3.45it/s] 57%|█████▋    | 213397/371472 [5:56:19<12:54:36,  3.40it/s] 57%|█████▋    | 213398/371472 [5:56:20<12:47:26,  3.43it/s] 57%|█████▋    | 213399/371472 [5:56:20<12:28:07,  3.52it/s] 57%|█████▋    | 213400/371472 [5:56:20<13:09:25,  3.34it/s]                                                            {'loss': 2.9029, 'learning_rate': 4.83182141394988e-07, 'epoch': 9.19}
 57%|█████▋    | 213400/371472 [5:56:20<13:09:25,  3.34it/s] 57%|█████▋    | 213401/371472 [5:56:20<12:44:06,  3.45it/s] 57%|█████▋    | 213402/371472 [5:56:21<12:19:05,  3.56it/s] 57%|█████▋    | 213403/371472 [5:56:21<12:08:46,  3.61it/s] 57%|█████▋    | 213404/371472 [5:56:21<12:44:02,  3.45it/s] 57%|█████▋    | 213405/371472 [5:56:22<12:28:57,  3.52it/s] 57%|█████▋    | 213406/371472 [5:56:22<13:07:23,  3.35it/s] 57%|█████▋    | 213407/371472 [5:56:22<12:58:52,  3.38it/s] 57%|█████▋    | 213408/371472 [5:56:22<12:42:35,  3.45it/s] 57%|█████▋    | 213409/371472 [5:56:23<13:41:49,  3.21it/s] 57%|█████▋    | 213410/371472 [5:56:23<13:03:19,  3.36it/s] 57%|█████▋    | 213411/371472 [5:56:23<12:43:33,  3.45it/s] 57%|█████▋    | 213412/371472 [5:56:24<12:59:44,  3.38it/s] 57%|█████▋    | 213413/371472 [5:56:24<13:08:08,  3.34it/s] 57%|█████▋    | 213414/371472 [5:56:24<12:43:27,  3.45it/s] 57%|█████▋    | 213415/371472 [5:56:25<12:25:26,  3.53it/s] 57%|█████▋    | 213416/371472 [5:56:25<14:02:13,  3.13it/s] 57%|█████▋    | 213417/371472 [5:56:25<13:23:28,  3.28it/s] 57%|█████▋    | 213418/371472 [5:56:25<12:55:23,  3.40it/s] 57%|█████▋    | 213419/371472 [5:56:26<13:07:39,  3.34it/s] 57%|█████▋    | 213420/371472 [5:56:26<12:38:50,  3.47it/s]                                                            {'loss': 2.946, 'learning_rate': 4.831336594195092e-07, 'epoch': 9.19}
 57%|█████▋    | 213420/371472 [5:56:26<12:38:50,  3.47it/s] 57%|█████▋    | 213421/371472 [5:56:26<12:16:17,  3.58it/s] 57%|█████▋    | 213422/371472 [5:56:27<11:52:24,  3.70it/s] 57%|█████▋    | 213423/371472 [5:56:27<12:14:21,  3.59it/s] 57%|█████▋    | 213424/371472 [5:56:27<12:04:11,  3.64it/s] 57%|█████▋    | 213425/371472 [5:56:27<11:57:52,  3.67it/s] 57%|█████▋    | 213426/371472 [5:56:28<11:53:19,  3.69it/s] 57%|█████▋    | 213427/371472 [5:56:28<12:08:22,  3.62it/s] 57%|█████▋    | 213428/371472 [5:56:28<12:23:49,  3.54it/s] 57%|█████▋    | 213429/371472 [5:56:29<13:04:59,  3.36it/s] 57%|█████▋    | 213430/371472 [5:56:29<12:31:47,  3.50it/s] 57%|█████▋    | 213431/371472 [5:56:29<12:56:01,  3.39it/s] 57%|█████▋    | 213432/371472 [5:56:29<12:56:21,  3.39it/s] 57%|█████▋    | 213433/371472 [5:56:30<13:43:14,  3.20it/s] 57%|█████▋    | 213434/371472 [5:56:30<13:08:51,  3.34it/s] 57%|█████▋    | 213435/371472 [5:56:30<12:41:34,  3.46it/s] 57%|█████▋    | 213436/371472 [5:56:31<12:10:07,  3.61it/s] 57%|█████▋    | 213437/371472 [5:56:31<12:45:28,  3.44it/s] 57%|█████▋    | 213438/371472 [5:56:31<12:45:43,  3.44it/s] 57%|█████▋    | 213439/371472 [5:56:31<12:17:37,  3.57it/s] 57%|█████▋    | 213440/371472 [5:56:32<12:03:42,  3.64it/s]                                                            {'loss': 2.9476, 'learning_rate': 4.830851774440302e-07, 'epoch': 9.19}
 57%|█████▋    | 213440/371472 [5:56:32<12:03:42,  3.64it/s] 57%|█████▋    | 213441/371472 [5:56:32<11:50:01,  3.71it/s] 57%|█████▋    | 213442/371472 [5:56:32<12:06:24,  3.63it/s] 57%|█████▋    | 213443/371472 [5:56:33<12:26:23,  3.53it/s] 57%|█████▋    | 213444/371472 [5:56:33<12:09:57,  3.61it/s] 57%|█████▋    | 213445/371472 [5:56:33<13:02:39,  3.37it/s] 57%|█████▋    | 213446/371472 [5:56:33<12:28:13,  3.52it/s] 57%|█████▋    | 213447/371472 [5:56:34<12:25:59,  3.53it/s] 57%|█████▋    | 213448/371472 [5:56:34<12:41:34,  3.46it/s] 57%|█████▋    | 213449/371472 [5:56:34<12:33:22,  3.50it/s] 57%|█████▋    | 213450/371472 [5:56:35<12:18:37,  3.57it/s] 57%|█████▋    | 213451/371472 [5:56:35<12:27:24,  3.52it/s] 57%|█████▋    | 213452/371472 [5:56:35<12:23:14,  3.54it/s] 57%|█████▋    | 213453/371472 [5:56:36<13:41:08,  3.21it/s] 57%|█████▋    | 213454/371472 [5:56:36<12:53:05,  3.41it/s] 57%|█████▋    | 213455/371472 [5:56:36<12:41:28,  3.46it/s] 57%|█████▋    | 213456/371472 [5:56:36<13:39:33,  3.21it/s] 57%|█████▋    | 213457/371472 [5:56:37<13:17:33,  3.30it/s] 57%|█████▋    | 213458/371472 [5:56:37<12:52:21,  3.41it/s] 57%|█████▋    | 213459/371472 [5:56:37<12:34:05,  3.49it/s] 57%|█████▋    | 213460/371472 [5:56:37<12:24:25,  3.54it/s]                                                            {'loss': 2.8735, 'learning_rate': 4.830366954685514e-07, 'epoch': 9.19}
 57%|█████▋    | 213460/371472 [5:56:37<12:24:25,  3.54it/s] 57%|█████▋    | 213461/371472 [5:56:38<12:24:35,  3.54it/s] 57%|█████▋    | 213462/371472 [5:56:38<12:44:24,  3.45it/s] 57%|█████▋    | 213463/371472 [5:56:38<13:08:16,  3.34it/s] 57%|█████▋    | 213464/371472 [5:56:39<12:59:11,  3.38it/s] 57%|█████▋    | 213465/371472 [5:56:39<13:36:48,  3.22it/s] 57%|█████▋    | 213466/371472 [5:56:39<13:20:58,  3.29it/s] 57%|█████▋    | 213467/371472 [5:56:40<13:30:52,  3.25it/s] 57%|█████▋    | 213468/371472 [5:56:40<13:01:31,  3.37it/s] 57%|█████▋    | 213469/371472 [5:56:40<12:32:00,  3.50it/s] 57%|█████▋    | 213470/371472 [5:56:40<12:52:38,  3.41it/s] 57%|█████▋    | 213471/371472 [5:56:41<14:33:33,  3.01it/s] 57%|█████▋    | 213472/371472 [5:56:41<13:59:27,  3.14it/s] 57%|█████▋    | 213473/371472 [5:56:41<13:40:05,  3.21it/s] 57%|█████▋    | 213474/371472 [5:56:42<12:57:28,  3.39it/s] 57%|█████▋    | 213475/371472 [5:56:42<12:42:51,  3.45it/s] 57%|█████▋    | 213476/371472 [5:56:42<12:33:19,  3.50it/s] 57%|█████▋    | 213477/371472 [5:56:43<12:05:12,  3.63it/s] 57%|█████▋    | 213478/371472 [5:56:43<12:59:23,  3.38it/s] 57%|█████▋    | 213479/371472 [5:56:43<12:39:11,  3.47it/s] 57%|█████▋    | 213480/371472 [5:56:43<12:35:48,  3.48it/s]                                                            {'loss': 3.0367, 'learning_rate': 4.829882134930725e-07, 'epoch': 9.19}
 57%|█████▋    | 213480/371472 [5:56:43<12:35:48,  3.48it/s] 57%|█████▋    | 213481/371472 [5:56:44<12:32:07,  3.50it/s] 57%|█████▋    | 213482/371472 [5:56:44<12:51:20,  3.41it/s] 57%|█████▋    | 213483/371472 [5:56:44<13:23:14,  3.28it/s] 57%|█████▋    | 213484/371472 [5:56:45<13:22:52,  3.28it/s] 57%|█████▋    | 213485/371472 [5:56:45<13:16:37,  3.31it/s] 57%|█████▋    | 213486/371472 [5:56:45<13:56:17,  3.15it/s] 57%|█████▋    | 213487/371472 [5:56:46<13:27:43,  3.26it/s] 57%|█████▋    | 213488/371472 [5:56:46<13:24:40,  3.27it/s] 57%|█████▋    | 213489/371472 [5:56:46<12:44:13,  3.45it/s] 57%|█████▋    | 213490/371472 [5:56:46<12:48:21,  3.43it/s] 57%|█████▋    | 213491/371472 [5:56:47<13:26:35,  3.26it/s] 57%|█████▋    | 213492/371472 [5:56:47<12:49:53,  3.42it/s] 57%|█████▋    | 213493/371472 [5:56:47<14:34:38,  3.01it/s] 57%|█████▋    | 213494/371472 [5:56:48<13:38:26,  3.22it/s] 57%|█████▋    | 213495/371472 [5:56:48<13:28:42,  3.26it/s] 57%|█████▋    | 213496/371472 [5:56:48<12:45:42,  3.44it/s] 57%|█████▋    | 213497/371472 [5:56:49<13:13:55,  3.32it/s] 57%|█████▋    | 213498/371472 [5:56:49<13:56:09,  3.15it/s] 57%|█████▋    | 213499/371472 [5:56:49<13:26:31,  3.26it/s] 57%|█████▋    | 213500/371472 [5:56:50<14:11:28,  3.09it/s]                                                            {'loss': 2.8739, 'learning_rate': 4.829397315175936e-07, 'epoch': 9.2}
 57%|█████▋    | 213500/371472 [5:56:50<14:11:28,  3.09it/s] 57%|█████▋    | 213501/371472 [5:56:50<14:07:58,  3.10it/s] 57%|█████▋    | 213502/371472 [5:56:50<13:44:55,  3.19it/s] 57%|█████▋    | 213503/371472 [5:56:51<13:28:56,  3.25it/s] 57%|█████▋    | 213504/371472 [5:56:51<12:47:41,  3.43it/s] 57%|█████▋    | 213505/371472 [5:56:51<14:06:21,  3.11it/s] 57%|█████▋    | 213506/371472 [5:56:51<13:27:29,  3.26it/s] 57%|█████▋    | 213507/371472 [5:56:52<13:50:11,  3.17it/s] 57%|█████▋    | 213508/371472 [5:56:52<13:12:08,  3.32it/s] 57%|█████▋    | 213509/371472 [5:56:52<13:16:22,  3.31it/s] 57%|█████▋    | 213510/371472 [5:56:53<12:58:37,  3.38it/s] 57%|█████▋    | 213511/371472 [5:56:53<12:55:28,  3.39it/s] 57%|█████▋    | 213512/371472 [5:56:53<12:32:22,  3.50it/s] 57%|█████▋    | 213513/371472 [5:56:54<13:26:14,  3.27it/s] 57%|█████▋    | 213514/371472 [5:56:54<12:54:39,  3.40it/s] 57%|█████▋    | 213515/371472 [5:56:54<12:33:59,  3.49it/s] 57%|█████▋    | 213516/371472 [5:56:54<12:28:43,  3.52it/s] 57%|█████▋    | 213517/371472 [5:56:55<12:20:58,  3.55it/s] 57%|█████▋    | 213518/371472 [5:56:55<12:41:42,  3.46it/s] 57%|█████▋    | 213519/371472 [5:56:55<12:25:19,  3.53it/s] 57%|█████▋    | 213520/371472 [5:56:55<12:22:00,  3.55it/s]                                                            {'loss': 3.0142, 'learning_rate': 4.828912495421146e-07, 'epoch': 9.2}
 57%|█████▋    | 213520/371472 [5:56:55<12:22:00,  3.55it/s] 57%|█████▋    | 213521/371472 [5:56:56<12:21:26,  3.55it/s] 57%|█████▋    | 213522/371472 [5:56:56<13:29:10,  3.25it/s] 57%|█████▋    | 213523/371472 [5:56:56<13:15:08,  3.31it/s] 57%|█████▋    | 213524/371472 [5:56:57<13:08:08,  3.34it/s] 57%|█████▋    | 213525/371472 [5:56:57<12:53:24,  3.40it/s] 57%|█████▋    | 213526/371472 [5:56:57<13:11:55,  3.32it/s] 57%|█████▋    | 213527/371472 [5:56:58<13:13:42,  3.32it/s] 57%|█████▋    | 213528/371472 [5:56:58<12:50:14,  3.42it/s] 57%|█████▋    | 213529/371472 [5:56:58<13:12:09,  3.32it/s] 57%|█████▋    | 213530/371472 [5:56:59<13:00:10,  3.37it/s] 57%|█████▋    | 213531/371472 [5:56:59<12:32:56,  3.50it/s] 57%|█████▋    | 213532/371472 [5:56:59<13:29:01,  3.25it/s] 57%|█████▋    | 213533/371472 [5:56:59<13:49:24,  3.17it/s] 57%|█████▋    | 213534/371472 [5:57:00<13:01:10,  3.37it/s] 57%|█████▋    | 213535/371472 [5:57:00<12:27:33,  3.52it/s] 57%|█████▋    | 213536/371472 [5:57:00<13:14:15,  3.31it/s] 57%|█████▋    | 213537/371472 [5:57:01<12:54:34,  3.40it/s] 57%|█████▋    | 213538/371472 [5:57:01<12:58:21,  3.38it/s] 57%|█████▋    | 213539/371472 [5:57:01<12:39:00,  3.47it/s] 57%|█████▋    | 213540/371472 [5:57:01<12:40:07,  3.46it/s]                                                            {'loss': 2.9408, 'learning_rate': 4.828427675666357e-07, 'epoch': 9.2}
 57%|█████▋    | 213540/371472 [5:57:01<12:40:07,  3.46it/s] 57%|█████▋    | 213541/371472 [5:57:02<12:26:41,  3.53it/s] 57%|█████▋    | 213542/371472 [5:57:02<13:21:03,  3.29it/s] 57%|█████▋    | 213543/371472 [5:57:02<13:14:49,  3.31it/s] 57%|█████▋    | 213544/371472 [5:57:03<13:17:37,  3.30it/s] 57%|█████▋    | 213545/371472 [5:57:03<12:41:03,  3.46it/s] 57%|█████▋    | 213546/371472 [5:57:03<13:41:38,  3.20it/s] 57%|█████▋    | 213547/371472 [5:57:04<12:44:51,  3.44it/s] 57%|█████▋    | 213548/371472 [5:57:04<13:32:47,  3.24it/s] 57%|█████▋    | 213549/371472 [5:57:04<14:20:53,  3.06it/s] 57%|█████▋    | 213550/371472 [5:57:05<13:46:14,  3.19it/s] 57%|█████▋    | 213551/371472 [5:57:05<12:50:02,  3.42it/s] 57%|█████▋    | 213552/371472 [5:57:05<12:35:06,  3.49it/s] 57%|█████▋    | 213553/371472 [5:57:05<12:21:52,  3.55it/s] 57%|█████▋    | 213554/371472 [5:57:06<12:03:30,  3.64it/s] 57%|█████▋    | 213555/371472 [5:57:06<11:56:53,  3.67it/s] 57%|█████▋    | 213556/371472 [5:57:06<11:40:31,  3.76it/s] 57%|█████▋    | 213557/371472 [5:57:06<11:32:39,  3.80it/s] 57%|█████▋    | 213558/371472 [5:57:07<11:46:24,  3.73it/s] 57%|█████▋    | 213559/371472 [5:57:07<12:15:40,  3.58it/s] 57%|█████▋    | 213560/371472 [5:57:07<11:43:35,  3.74it/s]                                                            {'loss': 2.8592, 'learning_rate': 4.827942855911569e-07, 'epoch': 9.2}
 57%|█████▋    | 213560/371472 [5:57:07<11:43:35,  3.74it/s] 57%|█████▋    | 213561/371472 [5:57:07<11:52:13,  3.70it/s] 57%|█████▋    | 213562/371472 [5:57:08<11:56:12,  3.67it/s] 57%|█████▋    | 213563/371472 [5:57:08<11:57:40,  3.67it/s] 57%|█████▋    | 213564/371472 [5:57:08<12:12:18,  3.59it/s] 57%|█████▋    | 213565/371472 [5:57:09<11:51:51,  3.70it/s] 57%|█████▋    | 213566/371472 [5:57:09<12:51:49,  3.41it/s] 57%|█████▋    | 213567/371472 [5:57:09<13:30:43,  3.25it/s] 57%|█████▋    | 213568/371472 [5:57:09<12:37:44,  3.47it/s] 57%|█████▋    | 213569/371472 [5:57:10<13:26:57,  3.26it/s] 57%|█████▋    | 213570/371472 [5:57:10<12:58:56,  3.38it/s] 57%|█████▋    | 213571/371472 [5:57:10<12:55:56,  3.39it/s] 57%|█████▋    | 213572/371472 [5:57:11<13:17:06,  3.30it/s] 57%|█████▋    | 213573/371472 [5:57:11<13:07:25,  3.34it/s] 57%|█████▋    | 213574/371472 [5:57:11<13:02:07,  3.36it/s] 57%|█████▋    | 213575/371472 [5:57:12<13:31:04,  3.24it/s] 57%|█████▋    | 213576/371472 [5:57:12<14:04:59,  3.11it/s] 57%|█████▋    | 213577/371472 [5:57:12<13:00:47,  3.37it/s] 57%|█████▋    | 213578/371472 [5:57:12<12:35:44,  3.48it/s] 57%|█████▋    | 213579/371472 [5:57:13<12:46:50,  3.43it/s] 57%|█████▋    | 213580/371472 [5:57:13<12:34:18,  3.49it/s]                                                            {'loss': 2.822, 'learning_rate': 4.827458036156779e-07, 'epoch': 9.2}
 57%|█████▋    | 213580/371472 [5:57:13<12:34:18,  3.49it/s] 57%|█████▋    | 213581/371472 [5:57:13<12:31:44,  3.50it/s] 57%|█████▋    | 213582/371472 [5:57:14<12:46:02,  3.44it/s] 57%|█████▋    | 213583/371472 [5:57:14<13:36:15,  3.22it/s] 57%|█████▋    | 213584/371472 [5:57:14<12:58:13,  3.38it/s] 57%|█████▋    | 213585/371472 [5:57:15<12:47:30,  3.43it/s] 57%|█████▋    | 213586/371472 [5:57:15<12:29:32,  3.51it/s] 57%|█████▋    | 213587/371472 [5:57:15<12:21:06,  3.55it/s] 57%|█████▋    | 213588/371472 [5:57:15<12:59:37,  3.38it/s] 57%|█████▋    | 213589/371472 [5:57:16<12:37:29,  3.47it/s] 57%|█████▋    | 213590/371472 [5:57:16<12:36:05,  3.48it/s] 57%|█████▋    | 213591/371472 [5:57:16<12:35:22,  3.48it/s] 57%|█████▋    | 213592/371472 [5:57:17<13:19:05,  3.29it/s] 57%|█████▋    | 213593/371472 [5:57:17<13:11:49,  3.32it/s] 57%|█████▋    | 213594/371472 [5:57:17<12:46:32,  3.43it/s] 57%|█████▋    | 213595/371472 [5:57:17<12:33:04,  3.49it/s] 57%|█████▋    | 213596/371472 [5:57:18<12:21:49,  3.55it/s] 58%|█████▊    | 213597/371472 [5:57:18<12:17:24,  3.57it/s] 58%|█████▊    | 213598/371472 [5:57:18<11:58:45,  3.66it/s] 58%|█████▊    | 213599/371472 [5:57:19<12:46:39,  3.43it/s] 58%|█████▊    | 213600/371472 [5:57:19<13:22:37,  3.28it/s]                                                            {'loss': 2.7944, 'learning_rate': 4.826973216401991e-07, 'epoch': 9.2}
 58%|█████▊    | 213600/371472 [5:57:19<13:22:37,  3.28it/s] 58%|█████▊    | 213601/371472 [5:57:19<13:08:34,  3.34it/s] 58%|█████▊    | 213602/371472 [5:57:19<12:30:58,  3.50it/s] 58%|█████▊    | 213603/371472 [5:57:20<12:28:41,  3.51it/s] 58%|█████▊    | 213604/371472 [5:57:20<12:29:25,  3.51it/s] 58%|█████▊    | 213605/371472 [5:57:20<12:29:20,  3.51it/s] 58%|█████▊    | 213606/371472 [5:57:21<12:39:33,  3.46it/s] 58%|█████▊    | 213607/371472 [5:57:21<12:08:18,  3.61it/s] 58%|█████▊    | 213608/371472 [5:57:21<12:18:45,  3.56it/s] 58%|█████▊    | 213609/371472 [5:57:21<12:10:43,  3.60it/s] 58%|█████▊    | 213610/371472 [5:57:22<12:22:29,  3.54it/s] 58%|█████▊    | 213611/371472 [5:57:22<13:00:04,  3.37it/s] 58%|█████▊    | 213612/371472 [5:57:22<12:49:47,  3.42it/s] 58%|█████▊    | 213613/371472 [5:57:23<12:35:16,  3.48it/s] 58%|█████▊    | 213614/371472 [5:57:23<12:15:25,  3.58it/s] 58%|█████▊    | 213615/371472 [5:57:23<12:26:37,  3.52it/s] 58%|█████▊    | 213616/371472 [5:57:23<12:28:33,  3.51it/s] 58%|█████▊    | 213617/371472 [5:57:24<12:10:45,  3.60it/s] 58%|█████▊    | 213618/371472 [5:57:24<11:49:44,  3.71it/s] 58%|█████▊    | 213619/371472 [5:57:24<12:14:51,  3.58it/s] 58%|█████▊    | 213620/371472 [5:57:25<12:19:08,  3.56it/s]                                                            {'loss': 2.9267, 'learning_rate': 4.826488396647202e-07, 'epoch': 9.2}
 58%|█████▊    | 213620/371472 [5:57:25<12:19:08,  3.56it/s] 58%|█████▊    | 213621/371472 [5:57:25<12:37:06,  3.47it/s] 58%|█████▊    | 213622/371472 [5:57:25<12:16:39,  3.57it/s] 58%|█████▊    | 213623/371472 [5:57:25<12:10:21,  3.60it/s] 58%|█████▊    | 213624/371472 [5:57:26<12:08:25,  3.61it/s] 58%|█████▊    | 213625/371472 [5:57:26<12:24:30,  3.53it/s] 58%|█████▊    | 213626/371472 [5:57:26<13:02:01,  3.36it/s] 58%|█████▊    | 213627/371472 [5:57:27<12:43:40,  3.44it/s] 58%|█████▊    | 213628/371472 [5:57:27<12:23:53,  3.54it/s] 58%|█████▊    | 213629/371472 [5:57:27<12:01:47,  3.64it/s] 58%|█████▊    | 213630/371472 [5:57:27<11:46:27,  3.72it/s] 58%|█████▊    | 213631/371472 [5:57:28<11:33:52,  3.79it/s] 58%|█████▊    | 213632/371472 [5:57:28<11:58:19,  3.66it/s] 58%|█████▊    | 213633/371472 [5:57:28<12:00:09,  3.65it/s] 58%|█████▊    | 213634/371472 [5:57:28<12:26:49,  3.52it/s] 58%|█████▊    | 213635/371472 [5:57:29<12:30:03,  3.51it/s] 58%|█████▊    | 213636/371472 [5:57:29<12:03:17,  3.64it/s] 58%|█████▊    | 213637/371472 [5:57:29<12:02:54,  3.64it/s] 58%|█████▊    | 213638/371472 [5:57:30<13:11:41,  3.32it/s] 58%|█████▊    | 213639/371472 [5:57:30<12:52:30,  3.41it/s] 58%|█████▊    | 213640/371472 [5:57:30<12:48:48,  3.42it/s]                                                            {'loss': 2.923, 'learning_rate': 4.826003576892413e-07, 'epoch': 9.2}
 58%|█████▊    | 213640/371472 [5:57:30<12:48:48,  3.42it/s] 58%|█████▊    | 213641/371472 [5:57:30<12:36:59,  3.47it/s] 58%|█████▊    | 213642/371472 [5:57:31<12:59:59,  3.37it/s] 58%|█████▊    | 213643/371472 [5:57:31<12:39:04,  3.47it/s] 58%|█████▊    | 213644/371472 [5:57:31<13:31:41,  3.24it/s] 58%|█████▊    | 213645/371472 [5:57:32<12:41:01,  3.46it/s] 58%|█████▊    | 213646/371472 [5:57:32<12:48:56,  3.42it/s] 58%|█████▊    | 213647/371472 [5:57:32<12:32:27,  3.50it/s] 58%|█████▊    | 213648/371472 [5:57:33<12:10:49,  3.60it/s] 58%|█████▊    | 213649/371472 [5:57:33<12:26:55,  3.52it/s] 58%|█████▊    | 213650/371472 [5:57:33<12:11:14,  3.60it/s] 58%|█████▊    | 213651/371472 [5:57:33<12:39:45,  3.46it/s] 58%|█████▊    | 213652/371472 [5:57:34<12:27:45,  3.52it/s] 58%|█████▊    | 213653/371472 [5:57:34<13:21:00,  3.28it/s] 58%|█████▊    | 213654/371472 [5:57:34<13:26:29,  3.26it/s] 58%|█████▊    | 213655/371472 [5:57:35<12:51:10,  3.41it/s] 58%|█████▊    | 213656/371472 [5:57:35<12:15:48,  3.57it/s] 58%|█████▊    | 213657/371472 [5:57:35<13:28:09,  3.25it/s] 58%|█████▊    | 213658/371472 [5:57:35<12:56:49,  3.39it/s] 58%|█████▊    | 213659/371472 [5:57:36<13:26:25,  3.26it/s] 58%|█████▊    | 213660/371472 [5:57:36<12:47:04,  3.43it/s]                                                            {'loss': 2.9054, 'learning_rate': 4.825518757137623e-07, 'epoch': 9.2}
 58%|█████▊    | 213660/371472 [5:57:36<12:47:04,  3.43it/s] 58%|█████▊    | 213661/371472 [5:57:36<13:24:30,  3.27it/s] 58%|█████▊    | 213662/371472 [5:57:37<12:58:42,  3.38it/s] 58%|█████▊    | 213663/371472 [5:57:37<12:53:12,  3.40it/s] 58%|█████▊    | 213664/371472 [5:57:37<12:43:16,  3.45it/s] 58%|█████▊    | 213665/371472 [5:57:38<13:11:06,  3.32it/s] 58%|█████▊    | 213666/371472 [5:57:38<12:48:35,  3.42it/s] 58%|█████▊    | 213667/371472 [5:57:38<12:42:20,  3.45it/s] 58%|█████▊    | 213668/371472 [5:57:38<12:46:52,  3.43it/s] 58%|█████▊    | 213669/371472 [5:57:39<12:12:25,  3.59it/s] 58%|█████▊    | 213670/371472 [5:57:39<12:27:50,  3.52it/s] 58%|█████▊    | 213671/371472 [5:57:39<12:47:28,  3.43it/s] 58%|█████▊    | 213672/371472 [5:57:40<12:49:15,  3.42it/s] 58%|█████▊    | 213673/371472 [5:57:40<12:40:40,  3.46it/s] 58%|█████▊    | 213674/371472 [5:57:40<12:30:33,  3.50it/s] 58%|█████▊    | 213675/371472 [5:57:40<13:29:11,  3.25it/s] 58%|█████▊    | 213676/371472 [5:57:41<13:01:08,  3.37it/s] 58%|█████▊    | 213677/371472 [5:57:41<13:15:25,  3.31it/s] 58%|█████▊    | 213678/371472 [5:57:41<12:52:20,  3.41it/s] 58%|█████▊    | 213679/371472 [5:57:42<12:57:14,  3.38it/s] 58%|█████▊    | 213680/371472 [5:57:42<12:31:29,  3.50it/s]                                                            {'loss': 2.7419, 'learning_rate': 4.825033937382835e-07, 'epoch': 9.2}
 58%|█████▊    | 213680/371472 [5:57:42<12:31:29,  3.50it/s] 58%|█████▊    | 213681/371472 [5:57:42<13:02:07,  3.36it/s] 58%|█████▊    | 213682/371472 [5:57:42<12:35:47,  3.48it/s] 58%|█████▊    | 213683/371472 [5:57:43<13:28:27,  3.25it/s] 58%|█████▊    | 213684/371472 [5:57:43<13:44:19,  3.19it/s] 58%|█████▊    | 213685/371472 [5:57:43<12:53:10,  3.40it/s] 58%|█████▊    | 213686/371472 [5:57:44<12:57:00,  3.38it/s] 58%|█████▊    | 213687/371472 [5:57:44<13:30:31,  3.24it/s] 58%|█████▊    | 213688/371472 [5:57:44<13:10:50,  3.33it/s] 58%|█████▊    | 213689/371472 [5:57:45<12:46:03,  3.43it/s] 58%|█████▊    | 213690/371472 [5:57:45<12:38:34,  3.47it/s] 58%|█████▊    | 213691/371472 [5:57:45<12:59:15,  3.37it/s] 58%|█████▊    | 213692/371472 [5:57:45<12:16:33,  3.57it/s] 58%|█████▊    | 213693/371472 [5:57:46<13:01:27,  3.37it/s] 58%|█████▊    | 213694/371472 [5:57:46<12:28:36,  3.51it/s] 58%|█████▊    | 213695/371472 [5:57:46<12:41:24,  3.45it/s] 58%|█████▊    | 213696/371472 [5:57:47<12:13:33,  3.58it/s] 58%|█████▊    | 213697/371472 [5:57:47<12:23:25,  3.54it/s] 58%|█████▊    | 213698/371472 [5:57:47<12:38:00,  3.47it/s] 58%|█████▊    | 213699/371472 [5:57:47<12:23:05,  3.54it/s] 58%|█████▊    | 213700/371472 [5:57:48<12:33:28,  3.49it/s]                                                            {'loss': 2.951, 'learning_rate': 4.824549117628046e-07, 'epoch': 9.2}
 58%|█████▊    | 213700/371472 [5:57:48<12:33:28,  3.49it/s] 58%|█████▊    | 213701/371472 [5:57:48<12:25:20,  3.53it/s] 58%|█████▊    | 213702/371472 [5:57:48<12:20:13,  3.55it/s] 58%|█████▊    | 213703/371472 [5:57:49<12:32:37,  3.49it/s] 58%|█████▊    | 213704/371472 [5:57:49<12:02:21,  3.64it/s] 58%|█████▊    | 213705/371472 [5:57:49<12:30:11,  3.51it/s] 58%|█████▊    | 213706/371472 [5:57:49<12:31:02,  3.50it/s] 58%|█████▊    | 213707/371472 [5:57:50<12:38:02,  3.47it/s] 58%|█████▊    | 213708/371472 [5:57:50<12:16:14,  3.57it/s] 58%|█████▊    | 213709/371472 [5:57:50<11:55:47,  3.67it/s] 58%|█████▊    | 213710/371472 [5:57:51<11:48:32,  3.71it/s] 58%|█████▊    | 213711/371472 [5:57:51<12:15:20,  3.58it/s] 58%|█████▊    | 213712/371472 [5:57:51<11:59:29,  3.65it/s] 58%|█████▊    | 213713/371472 [5:57:51<11:55:45,  3.67it/s] 58%|█████▊    | 213714/371472 [5:57:52<12:06:51,  3.62it/s] 58%|█████▊    | 213715/371472 [5:57:52<12:12:18,  3.59it/s] 58%|█████▊    | 213716/371472 [5:57:52<12:09:45,  3.60it/s] 58%|█████▊    | 213717/371472 [5:57:53<12:39:42,  3.46it/s] 58%|█████▊    | 213718/371472 [5:57:53<12:20:39,  3.55it/s] 58%|█████▊    | 213719/371472 [5:57:53<11:56:00,  3.67it/s] 58%|█████▊    | 213720/371472 [5:57:53<12:35:24,  3.48it/s]                                                            {'loss': 2.9235, 'learning_rate': 4.824064297873258e-07, 'epoch': 9.21}
 58%|█████▊    | 213720/371472 [5:57:53<12:35:24,  3.48it/s] 58%|█████▊    | 213721/371472 [5:57:54<12:26:09,  3.52it/s] 58%|█████▊    | 213722/371472 [5:57:54<12:10:08,  3.60it/s] 58%|█████▊    | 213723/371472 [5:57:54<12:29:06,  3.51it/s] 58%|█████▊    | 213724/371472 [5:57:55<13:14:51,  3.31it/s] 58%|█████▊    | 213725/371472 [5:57:55<12:43:42,  3.44it/s] 58%|█████▊    | 213726/371472 [5:57:55<12:45:42,  3.43it/s] 58%|█████▊    | 213727/371472 [5:57:55<12:22:30,  3.54it/s] 58%|█████▊    | 213728/371472 [5:57:56<12:29:25,  3.51it/s] 58%|█████▊    | 213729/371472 [5:57:56<12:05:47,  3.62it/s] 58%|█████▊    | 213730/371472 [5:57:56<12:33:09,  3.49it/s] 58%|█████▊    | 213731/371472 [5:57:56<11:59:04,  3.66it/s] 58%|█████▊    | 213732/371472 [5:57:57<11:38:37,  3.76it/s] 58%|█████▊    | 213733/371472 [5:57:57<11:36:27,  3.77it/s] 58%|█████▊    | 213734/371472 [5:57:57<12:44:10,  3.44it/s] 58%|█████▊    | 213735/371472 [5:57:58<12:18:17,  3.56it/s] 58%|█████▊    | 213736/371472 [5:57:58<12:05:41,  3.62it/s] 58%|█████▊    | 213737/371472 [5:57:58<12:18:51,  3.56it/s] 58%|█████▊    | 213738/371472 [5:57:59<14:31:26,  3.02it/s] 58%|█████▊    | 213739/371472 [5:57:59<13:42:22,  3.20it/s] 58%|█████▊    | 213740/371472 [5:57:59<14:21:39,  3.05it/s]                                                            {'loss': 2.8699, 'learning_rate': 4.823579478118468e-07, 'epoch': 9.21}
 58%|█████▊    | 213740/371472 [5:57:59<14:21:39,  3.05it/s] 58%|█████▊    | 213741/371472 [5:58:00<14:27:06,  3.03it/s] 58%|█████▊    | 213742/371472 [5:58:00<13:47:59,  3.17it/s] 58%|█████▊    | 213743/371472 [5:58:00<14:11:56,  3.09it/s] 58%|█████▊    | 213744/371472 [5:58:00<13:40:12,  3.21it/s] 58%|█████▊    | 213745/371472 [5:58:01<13:04:53,  3.35it/s] 58%|█████▊    | 213746/371472 [5:58:01<12:47:45,  3.42it/s] 58%|█████▊    | 213747/371472 [5:58:01<12:59:38,  3.37it/s] 58%|█████▊    | 213748/371472 [5:58:02<12:22:34,  3.54it/s] 58%|█████▊    | 213749/371472 [5:58:02<12:09:23,  3.60it/s] 58%|█████▊    | 213750/371472 [5:58:02<11:53:11,  3.69it/s] 58%|█████▊    | 213751/371472 [5:58:02<11:57:47,  3.66it/s] 58%|█████▊    | 213752/371472 [5:58:03<13:22:51,  3.27it/s] 58%|█████▊    | 213753/371472 [5:58:03<13:21:19,  3.28it/s] 58%|█████▊    | 213754/371472 [5:58:03<12:48:50,  3.42it/s] 58%|█████▊    | 213755/371472 [5:58:04<12:41:18,  3.45it/s] 58%|█████▊    | 213756/371472 [5:58:04<12:20:39,  3.55it/s] 58%|█████▊    | 213757/371472 [5:58:04<12:13:23,  3.58it/s] 58%|█████▊    | 213758/371472 [5:58:04<12:04:06,  3.63it/s] 58%|█████▊    | 213759/371472 [5:58:05<12:21:35,  3.54it/s] 58%|█████▊    | 213760/371472 [5:58:05<11:50:49,  3.70it/s]                                                            {'loss': 3.0157, 'learning_rate': 4.823094658363679e-07, 'epoch': 9.21}
 58%|█████▊    | 213760/371472 [5:58:05<11:50:49,  3.70it/s] 58%|█████▊    | 213761/371472 [5:58:05<11:48:41,  3.71it/s] 58%|█████▊    | 213762/371472 [5:58:05<11:48:20,  3.71it/s] 58%|█████▊    | 213763/371472 [5:58:06<13:12:29,  3.32it/s] 58%|█████▊    | 213764/371472 [5:58:06<13:09:02,  3.33it/s] 58%|█████▊    | 213765/371472 [5:58:06<13:19:33,  3.29it/s] 58%|█████▊    | 213766/371472 [5:58:07<13:07:24,  3.34it/s] 58%|█████▊    | 213767/371472 [5:58:07<12:36:08,  3.48it/s] 58%|█████▊    | 213768/371472 [5:58:07<12:52:21,  3.40it/s] 58%|█████▊    | 213769/371472 [5:58:08<12:50:39,  3.41it/s] 58%|█████▊    | 213770/371472 [5:58:08<12:48:05,  3.42it/s] 58%|█████▊    | 213771/371472 [5:58:08<12:24:24,  3.53it/s] 58%|█████▊    | 213772/371472 [5:58:08<12:26:06,  3.52it/s] 58%|█████▊    | 213773/371472 [5:58:09<12:30:02,  3.50it/s] 58%|█████▊    | 213774/371472 [5:58:09<13:07:10,  3.34it/s] 58%|█████▊    | 213775/371472 [5:58:09<12:56:29,  3.38it/s] 58%|█████▊    | 213776/371472 [5:58:10<12:39:58,  3.46it/s] 58%|█████▊    | 213777/371472 [5:58:10<12:19:10,  3.56it/s] 58%|█████▊    | 213778/371472 [5:58:10<12:14:48,  3.58it/s] 58%|█████▊    | 213779/371472 [5:58:10<11:57:32,  3.66it/s] 58%|█████▊    | 213780/371472 [5:58:11<12:00:11,  3.65it/s]                                                            {'loss': 2.9324, 'learning_rate': 4.82260983860889e-07, 'epoch': 9.21}
 58%|█████▊    | 213780/371472 [5:58:11<12:00:11,  3.65it/s] 58%|█████▊    | 213781/371472 [5:58:11<11:47:16,  3.72it/s] 58%|█████▊    | 213782/371472 [5:58:11<11:48:12,  3.71it/s] 58%|█████▊    | 213783/371472 [5:58:11<11:35:31,  3.78it/s] 58%|█████▊    | 213784/371472 [5:58:12<12:03:27,  3.63it/s] 58%|█████▊    | 213785/371472 [5:58:12<12:55:58,  3.39it/s] 58%|█████▊    | 213786/371472 [5:58:12<12:36:55,  3.47it/s] 58%|█████▊    | 213787/371472 [5:58:13<12:27:47,  3.51it/s] 58%|█████▊    | 213788/371472 [5:58:13<12:18:29,  3.56it/s] 58%|█████▊    | 213789/371472 [5:58:13<12:07:27,  3.61it/s] 58%|█████▊    | 213790/371472 [5:58:13<11:59:58,  3.65it/s] 58%|█████▊    | 213791/371472 [5:58:14<12:03:44,  3.63it/s] 58%|█████▊    | 213792/371472 [5:58:14<11:46:16,  3.72it/s] 58%|█████▊    | 213793/371472 [5:58:14<12:45:57,  3.43it/s] 58%|█████▊    | 213794/371472 [5:58:15<13:03:20,  3.35it/s] 58%|█████▊    | 213795/371472 [5:58:15<12:40:40,  3.45it/s] 58%|█████▊    | 213796/371472 [5:58:15<12:31:31,  3.50it/s] 58%|█████▊    | 213797/371472 [5:58:15<12:21:11,  3.55it/s] 58%|█████▊    | 213798/371472 [5:58:16<12:46:05,  3.43it/s] 58%|█████▊    | 213799/371472 [5:58:16<13:18:01,  3.29it/s] 58%|█████▊    | 213800/371472 [5:58:16<13:04:40,  3.35it/s]                                                            {'loss': 2.8961, 'learning_rate': 4.822125018854102e-07, 'epoch': 9.21}
 58%|█████▊    | 213800/371472 [5:58:16<13:04:40,  3.35it/s] 58%|█████▊    | 213801/371472 [5:58:17<12:52:35,  3.40it/s] 58%|█████▊    | 213802/371472 [5:58:17<12:47:16,  3.42it/s] 58%|█████▊    | 213803/371472 [5:58:17<13:00:31,  3.37it/s] 58%|█████▊    | 213804/371472 [5:58:18<13:43:01,  3.19it/s] 58%|█████▊    | 213805/371472 [5:58:18<13:51:51,  3.16it/s] 58%|█████▊    | 213806/371472 [5:58:18<13:20:36,  3.28it/s] 58%|█████▊    | 213807/371472 [5:58:19<13:05:50,  3.34it/s] 58%|█████▊    | 213808/371472 [5:58:19<12:38:01,  3.47it/s] 58%|█████▊    | 213809/371472 [5:58:19<12:19:18,  3.55it/s] 58%|█████▊    | 213810/371472 [5:58:19<12:11:07,  3.59it/s] 58%|█████▊    | 213811/371472 [5:58:20<11:53:32,  3.68it/s] 58%|█████▊    | 213812/371472 [5:58:20<11:40:25,  3.75it/s] 58%|█████▊    | 213813/371472 [5:58:20<11:40:29,  3.75it/s] 58%|█████▊    | 213814/371472 [5:58:20<12:11:41,  3.59it/s] 58%|█████▊    | 213815/371472 [5:58:21<11:58:02,  3.66it/s] 58%|█████▊    | 213816/371472 [5:58:21<12:33:12,  3.49it/s] 58%|█████▊    | 213817/371472 [5:58:21<12:25:51,  3.52it/s] 58%|█████▊    | 213818/371472 [5:58:22<11:58:21,  3.66it/s] 58%|█████▊    | 213819/371472 [5:58:22<11:51:17,  3.69it/s] 58%|█████▊    | 213820/371472 [5:58:22<12:14:01,  3.58it/s]                                                            {'loss': 2.7755, 'learning_rate': 4.821640199099312e-07, 'epoch': 9.21}
 58%|█████▊    | 213820/371472 [5:58:22<12:14:01,  3.58it/s] 58%|█████▊    | 213821/371472 [5:58:22<12:24:30,  3.53it/s] 58%|█████▊    | 213822/371472 [5:58:23<12:01:53,  3.64it/s] 58%|█████▊    | 213823/371472 [5:58:23<12:06:04,  3.62it/s] 58%|█████▊    | 213824/371472 [5:58:23<12:32:33,  3.49it/s] 58%|█████▊    | 213825/371472 [5:58:24<13:11:50,  3.32it/s] 58%|█████▊    | 213826/371472 [5:58:24<12:50:52,  3.41it/s] 58%|█████▊    | 213827/371472 [5:58:24<12:22:41,  3.54it/s] 58%|█████▊    | 213828/371472 [5:58:24<11:56:36,  3.67it/s] 58%|█████▊    | 213829/371472 [5:58:25<12:41:41,  3.45it/s] 58%|█████▊    | 213830/371472 [5:58:25<12:47:26,  3.42it/s] 58%|█████▊    | 213831/371472 [5:58:25<13:22:19,  3.27it/s] 58%|█████▊    | 213832/371472 [5:58:26<14:02:29,  3.12it/s] 58%|█████▊    | 213833/371472 [5:58:26<14:14:28,  3.07it/s] 58%|█████▊    | 213834/371472 [5:58:26<13:30:28,  3.24it/s] 58%|█████▊    | 213835/371472 [5:58:27<12:51:21,  3.41it/s] 58%|█████▊    | 213836/371472 [5:58:27<13:58:08,  3.13it/s] 58%|█████▊    | 213837/371472 [5:58:27<14:12:43,  3.08it/s] 58%|█████▊    | 213838/371472 [5:58:28<13:21:33,  3.28it/s] 58%|█████▊    | 213839/371472 [5:58:28<12:53:58,  3.39it/s] 58%|█████▊    | 213840/371472 [5:58:28<12:21:45,  3.54it/s]                                                            {'loss': 2.9472, 'learning_rate': 4.821155379344524e-07, 'epoch': 9.21}
 58%|█████▊    | 213840/371472 [5:58:28<12:21:45,  3.54it/s] 58%|█████▊    | 213841/371472 [5:58:28<12:17:00,  3.56it/s] 58%|█████▊    | 213842/371472 [5:58:29<12:04:30,  3.63it/s] 58%|█████▊    | 213843/371472 [5:58:29<13:45:43,  3.18it/s] 58%|█████▊    | 213844/371472 [5:58:29<12:57:16,  3.38it/s] 58%|█████▊    | 213845/371472 [5:58:30<12:41:29,  3.45it/s] 58%|█████▊    | 213846/371472 [5:58:30<11:55:15,  3.67it/s] 58%|█████▊    | 213847/371472 [5:58:30<11:44:18,  3.73it/s] 58%|█████▊    | 213848/371472 [5:58:30<11:32:32,  3.79it/s] 58%|█████▊    | 213849/371472 [5:58:31<12:01:25,  3.64it/s] 58%|█████▊    | 213850/371472 [5:58:31<13:23:23,  3.27it/s] 58%|█████▊    | 213851/371472 [5:58:31<12:24:48,  3.53it/s] 58%|█████▊    | 213852/371472 [5:58:31<12:16:21,  3.57it/s] 58%|█████▊    | 213853/371472 [5:58:32<12:18:01,  3.56it/s] 58%|█████▊    | 213854/371472 [5:58:32<12:07:30,  3.61it/s] 58%|█████▊    | 213855/371472 [5:58:32<11:51:35,  3.69it/s] 58%|█████▊    | 213856/371472 [5:58:32<11:45:53,  3.72it/s] 58%|█████▊    | 213857/371472 [5:58:33<11:35:41,  3.78it/s] 58%|█████▊    | 213858/371472 [5:58:33<11:55:14,  3.67it/s] 58%|█████▊    | 213859/371472 [5:58:33<11:51:01,  3.69it/s] 58%|█████▊    | 213860/371472 [5:58:34<11:49:52,  3.70it/s]                                                            {'loss': 2.8599, 'learning_rate': 4.820670559589735e-07, 'epoch': 9.21}
 58%|█████▊    | 213860/371472 [5:58:34<11:49:52,  3.70it/s] 58%|█████▊    | 213861/371472 [5:58:34<11:37:06,  3.77it/s] 58%|█████▊    | 213862/371472 [5:58:34<11:38:22,  3.76it/s] 58%|█████▊    | 213863/371472 [5:58:34<11:15:50,  3.89it/s] 58%|█████▊    | 213864/371472 [5:58:35<11:57:17,  3.66it/s] 58%|█████▊    | 213865/371472 [5:58:35<11:55:49,  3.67it/s] 58%|█████▊    | 213866/371472 [5:58:35<11:38:25,  3.76it/s] 58%|█████▊    | 213867/371472 [5:58:35<12:15:31,  3.57it/s] 58%|█████▊    | 213868/371472 [5:58:36<12:02:06,  3.64it/s] 58%|█████▊    | 213869/371472 [5:58:36<11:51:43,  3.69it/s] 58%|█████▊    | 213870/371472 [5:58:36<12:47:16,  3.42it/s] 58%|█████▊    | 213871/371472 [5:58:37<12:15:02,  3.57it/s] 58%|█████▊    | 213872/371472 [5:58:37<12:06:05,  3.62it/s] 58%|█████▊    | 213873/371472 [5:58:37<11:56:35,  3.67it/s] 58%|█████▊    | 213874/371472 [5:58:37<11:34:50,  3.78it/s] 58%|█████▊    | 213875/371472 [5:58:38<11:54:20,  3.68it/s] 58%|█████▊    | 213876/371472 [5:58:38<12:06:27,  3.62it/s] 58%|█████▊    | 213877/371472 [5:58:38<11:38:02,  3.76it/s] 58%|█████▊    | 213878/371472 [5:58:38<11:08:03,  3.93it/s] 58%|█████▊    | 213879/371472 [5:58:39<10:58:52,  3.99it/s] 58%|█████▊    | 213880/371472 [5:58:39<11:09:52,  3.92it/s]                                                            {'loss': 2.9718, 'learning_rate': 4.820185739834945e-07, 'epoch': 9.21}
 58%|█████▊    | 213880/371472 [5:58:39<11:09:52,  3.92it/s] 58%|█████▊    | 213881/371472 [5:58:39<11:34:34,  3.78it/s] 58%|█████▊    | 213882/371472 [5:58:40<13:28:59,  3.25it/s] 58%|█████▊    | 213883/371472 [5:58:40<12:48:47,  3.42it/s] 58%|█████▊    | 213884/371472 [5:58:40<12:57:36,  3.38it/s] 58%|█████▊    | 213885/371472 [5:58:40<12:36:14,  3.47it/s] 58%|█████▊    | 213886/371472 [5:58:41<13:16:03,  3.30it/s] 58%|█████▊    | 213887/371472 [5:58:41<13:13:24,  3.31it/s] 58%|█████▊    | 213888/371472 [5:58:41<13:11:44,  3.32it/s] 58%|█████▊    | 213889/371472 [5:58:42<12:56:36,  3.38it/s] 58%|█████▊    | 213890/371472 [5:58:42<12:57:45,  3.38it/s] 58%|█████▊    | 213891/371472 [5:58:42<12:39:52,  3.46it/s] 58%|█████▊    | 213892/371472 [5:58:43<12:26:38,  3.52it/s] 58%|█████▊    | 213893/371472 [5:58:43<13:15:32,  3.30it/s] 58%|█████▊    | 213894/371472 [5:58:43<13:33:50,  3.23it/s] 58%|█████▊    | 213895/371472 [5:58:43<12:57:30,  3.38it/s] 58%|█████▊    | 213896/371472 [5:58:44<13:03:20,  3.35it/s] 58%|█████▊    | 213897/371472 [5:58:44<12:12:35,  3.58it/s] 58%|█████▊    | 213898/371472 [5:58:44<12:02:46,  3.63it/s] 58%|█████▊    | 213899/371472 [5:58:45<11:57:13,  3.66it/s] 58%|█████▊    | 213900/371472 [5:58:45<11:47:06,  3.71it/s]                                                            {'loss': 3.039, 'learning_rate': 4.819700920080156e-07, 'epoch': 9.21}
 58%|█████▊    | 213900/371472 [5:58:45<11:47:06,  3.71it/s] 58%|█████▊    | 213901/371472 [5:58:45<12:00:32,  3.64it/s] 58%|█████▊    | 213902/371472 [5:58:45<11:54:20,  3.68it/s] 58%|█████▊    | 213903/371472 [5:58:46<12:31:15,  3.50it/s] 58%|█████▊    | 213904/371472 [5:58:46<12:03:49,  3.63it/s] 58%|█████▊    | 213905/371472 [5:58:46<12:17:36,  3.56it/s] 58%|█████▊    | 213906/371472 [5:58:47<12:57:21,  3.38it/s] 58%|█████▊    | 213907/371472 [5:58:47<13:30:40,  3.24it/s] 58%|█████▊    | 213908/371472 [5:58:47<12:51:20,  3.40it/s] 58%|█████▊    | 213909/371472 [5:58:47<12:27:59,  3.51it/s] 58%|█████▊    | 213910/371472 [5:58:48<13:14:34,  3.30it/s] 58%|█████▊    | 213911/371472 [5:58:48<12:50:34,  3.41it/s] 58%|█████▊    | 213912/371472 [5:58:48<12:41:31,  3.45it/s] 58%|█████▊    | 213913/371472 [5:58:49<12:43:04,  3.44it/s] 58%|█████▊    | 213914/371472 [5:58:49<13:00:32,  3.36it/s] 58%|█████▊    | 213915/371472 [5:58:49<13:08:50,  3.33it/s] 58%|█████▊    | 213916/371472 [5:58:50<13:28:44,  3.25it/s] 58%|█████▊    | 213917/371472 [5:58:50<13:47:48,  3.17it/s] 58%|█████▊    | 213918/371472 [5:58:50<14:09:25,  3.09it/s] 58%|█████▊    | 213919/371472 [5:58:50<13:24:30,  3.26it/s] 58%|█████▊    | 213920/371472 [5:58:51<13:06:34,  3.34it/s]                                                            {'loss': 2.9042, 'learning_rate': 4.819216100325368e-07, 'epoch': 9.21}
 58%|█████▊    | 213920/371472 [5:58:51<13:06:34,  3.34it/s] 58%|█████▊    | 213921/371472 [5:58:51<12:17:53,  3.56it/s] 58%|█████▊    | 213922/371472 [5:58:51<11:58:49,  3.65it/s] 58%|█████▊    | 213923/371472 [5:58:52<11:57:01,  3.66it/s] 58%|█████▊    | 213924/371472 [5:58:52<11:50:17,  3.70it/s] 58%|█████▊    | 213925/371472 [5:58:52<11:54:50,  3.67it/s] 58%|█████▊    | 213926/371472 [5:58:52<12:40:37,  3.45it/s] 58%|█████▊    | 213927/371472 [5:58:53<12:32:04,  3.49it/s] 58%|█████▊    | 213928/371472 [5:58:53<12:11:12,  3.59it/s] 58%|█████▊    | 213929/371472 [5:58:53<12:12:52,  3.58it/s] 58%|█████▊    | 213930/371472 [5:58:53<11:59:37,  3.65it/s] 58%|█████▊    | 213931/371472 [5:58:54<11:51:07,  3.69it/s] 58%|█████▊    | 213932/371472 [5:58:54<11:59:59,  3.65it/s] 58%|█████▊    | 213933/371472 [5:58:54<12:37:54,  3.46it/s] 58%|█████▊    | 213934/371472 [5:58:55<12:37:06,  3.47it/s] 58%|█████▊    | 213935/371472 [5:58:55<12:44:45,  3.43it/s] 58%|█████▊    | 213936/371472 [5:58:55<12:23:24,  3.53it/s] 58%|█████▊    | 213937/371472 [5:58:55<12:20:53,  3.54it/s] 58%|█████▊    | 213938/371472 [5:58:56<12:33:28,  3.48it/s] 58%|█████▊    | 213939/371472 [5:58:56<12:22:24,  3.54it/s] 58%|█████▊    | 213940/371472 [5:58:56<12:28:57,  3.51it/s]                                                            {'loss': 2.8473, 'learning_rate': 4.818731280570579e-07, 'epoch': 9.21}
 58%|█████▊    | 213940/371472 [5:58:56<12:28:57,  3.51it/s] 58%|█████▊    | 213941/371472 [5:58:57<13:09:28,  3.33it/s] 58%|█████▊    | 213942/371472 [5:58:57<13:26:32,  3.26it/s] 58%|█████▊    | 213943/371472 [5:58:57<13:08:43,  3.33it/s] 58%|█████▊    | 213944/371472 [5:58:58<12:37:57,  3.46it/s] 58%|█████▊    | 213945/371472 [5:58:58<12:20:26,  3.55it/s] 58%|█████▊    | 213946/371472 [5:58:58<11:59:09,  3.65it/s] 58%|█████▊    | 213947/371472 [5:58:58<12:12:11,  3.59it/s] 58%|█████▊    | 213948/371472 [5:58:59<11:58:28,  3.65it/s] 58%|█████▊    | 213949/371472 [5:58:59<12:02:17,  3.63it/s] 58%|█████▊    | 213950/371472 [5:58:59<12:12:43,  3.58it/s] 58%|█████▊    | 213951/371472 [5:58:59<11:52:40,  3.68it/s] 58%|█████▊    | 213952/371472 [5:59:00<12:15:23,  3.57it/s] 58%|█████▊    | 213953/371472 [5:59:00<11:54:54,  3.67it/s] 58%|█████▊    | 213954/371472 [5:59:00<12:00:19,  3.64it/s] 58%|█████▊    | 213955/371472 [5:59:01<12:21:42,  3.54it/s] 58%|█████▊    | 213956/371472 [5:59:01<12:19:55,  3.55it/s] 58%|█████▊    | 213957/371472 [5:59:01<12:05:05,  3.62it/s] 58%|█████▊    | 213958/371472 [5:59:01<11:56:13,  3.67it/s] 58%|█████▊    | 213959/371472 [5:59:02<13:18:45,  3.29it/s] 58%|█████▊    | 213960/371472 [5:59:02<12:59:11,  3.37it/s]                                                            {'loss': 2.865, 'learning_rate': 4.81824646081579e-07, 'epoch': 9.22}
 58%|█████▊    | 213960/371472 [5:59:02<12:59:11,  3.37it/s] 58%|█████▊    | 213961/371472 [5:59:02<12:43:59,  3.44it/s] 58%|█████▊    | 213962/371472 [5:59:03<12:28:06,  3.51it/s] 58%|█████▊    | 213963/371472 [5:59:03<12:24:47,  3.52it/s] 58%|█████▊    | 213964/371472 [5:59:03<12:46:56,  3.42it/s] 58%|█████▊    | 213965/371472 [5:59:03<12:33:42,  3.48it/s] 58%|█████▊    | 213966/371472 [5:59:04<12:24:46,  3.52it/s] 58%|█████▊    | 213967/371472 [5:59:04<13:12:30,  3.31it/s] 58%|█████▊    | 213968/371472 [5:59:04<13:06:30,  3.34it/s] 58%|█████▊    | 213969/371472 [5:59:05<12:51:52,  3.40it/s] 58%|█████▊    | 213970/371472 [5:59:05<12:28:26,  3.51it/s] 58%|█████▊    | 213971/371472 [5:59:05<12:27:52,  3.51it/s] 58%|█████▊    | 213972/371472 [5:59:05<12:24:28,  3.53it/s] 58%|█████▊    | 213973/371472 [5:59:06<12:44:50,  3.43it/s] 58%|█████▊    | 213974/371472 [5:59:06<12:14:35,  3.57it/s] 58%|█████▊    | 213975/371472 [5:59:06<11:59:10,  3.65it/s] 58%|█████▊    | 213976/371472 [5:59:07<11:48:03,  3.71it/s] 58%|█████▊    | 213977/371472 [5:59:07<11:59:43,  3.65it/s] 58%|█████▊    | 213978/371472 [5:59:07<12:01:35,  3.64it/s] 58%|█████▊    | 213979/371472 [5:59:07<12:21:29,  3.54it/s] 58%|█████▊    | 213980/371472 [5:59:08<12:10:07,  3.60it/s]                                                            {'loss': 2.87, 'learning_rate': 4.817761641061001e-07, 'epoch': 9.22}
 58%|█████▊    | 213980/371472 [5:59:08<12:10:07,  3.60it/s] 58%|█████▊    | 213981/371472 [5:59:08<12:05:35,  3.62it/s] 58%|█████▊    | 213982/371472 [5:59:08<12:55:53,  3.38it/s] 58%|█████▊    | 213983/371472 [5:59:09<12:49:00,  3.41it/s] 58%|█████▊    | 213984/371472 [5:59:09<12:31:39,  3.49it/s] 58%|█████▊    | 213985/371472 [5:59:09<12:18:13,  3.56it/s] 58%|█████▊    | 213986/371472 [5:59:09<11:42:07,  3.74it/s] 58%|█████▊    | 213987/371472 [5:59:10<11:42:38,  3.74it/s] 58%|█████▊    | 213988/371472 [5:59:10<12:12:50,  3.58it/s] 58%|█████▊    | 213989/371472 [5:59:10<12:12:57,  3.58it/s] 58%|█████▊    | 213990/371472 [5:59:10<12:06:38,  3.61it/s] 58%|█████▊    | 213991/371472 [5:59:11<12:13:06,  3.58it/s] 58%|█████▊    | 213992/371472 [5:59:11<12:16:34,  3.56it/s] 58%|█████▊    | 213993/371472 [5:59:11<12:11:28,  3.59it/s] 58%|█████▊    | 213994/371472 [5:59:12<12:08:57,  3.60it/s] 58%|█████▊    | 213995/371472 [5:59:12<12:29:51,  3.50it/s] 58%|█████▊    | 213996/371472 [5:59:12<13:16:23,  3.30it/s] 58%|█████▊    | 213997/371472 [5:59:13<13:04:47,  3.34it/s] 58%|█████▊    | 213998/371472 [5:59:13<12:55:43,  3.38it/s] 58%|█████▊    | 213999/371472 [5:59:13<12:29:17,  3.50it/s] 58%|█████▊    | 214000/371472 [5:59:13<12:30:58,  3.49it/s]                                                            {'loss': 2.9168, 'learning_rate': 4.817276821306212e-07, 'epoch': 9.22}
 58%|█████▊    | 214000/371472 [5:59:13<12:30:58,  3.49it/s] 58%|█████▊    | 214001/371472 [5:59:14<13:28:24,  3.25it/s] 58%|█████▊    | 214002/371472 [5:59:14<13:26:32,  3.25it/s] 58%|█████▊    | 214003/371472 [5:59:14<13:18:53,  3.29it/s] 58%|█████▊    | 214004/371472 [5:59:15<13:28:27,  3.25it/s] 58%|█████▊    | 214005/371472 [5:59:15<13:05:16,  3.34it/s] 58%|█████▊    | 214006/371472 [5:59:15<12:48:24,  3.42it/s] 58%|█████▊    | 214007/371472 [5:59:16<13:04:53,  3.34it/s] 58%|█████▊    | 214008/371472 [5:59:16<12:39:19,  3.46it/s] 58%|█████▊    | 214009/371472 [5:59:16<12:10:51,  3.59it/s] 58%|█████▊    | 214010/371472 [5:59:16<12:16:04,  3.57it/s] 58%|█████▊    | 214011/371472 [5:59:17<11:59:10,  3.65it/s] 58%|█████▊    | 214012/371472 [5:59:17<12:13:25,  3.58it/s] 58%|█████▊    | 214013/371472 [5:59:17<13:20:50,  3.28it/s] 58%|█████▊    | 214014/371472 [5:59:18<12:39:50,  3.45it/s] 58%|█████▊    | 214015/371472 [5:59:18<11:51:28,  3.69it/s] 58%|█████▊    | 214016/371472 [5:59:18<11:29:33,  3.81it/s] 58%|█████▊    | 214017/371472 [5:59:18<11:21:07,  3.85it/s] 58%|█████▊    | 214018/371472 [5:59:18<11:12:56,  3.90it/s] 58%|█████▊    | 214019/371472 [5:59:19<12:07:59,  3.60it/s] 58%|█████▊    | 214020/371472 [5:59:19<12:43:34,  3.44it/s]                                                            {'loss': 2.9382, 'learning_rate': 4.816792001551423e-07, 'epoch': 9.22}
 58%|█████▊    | 214020/371472 [5:59:19<12:43:34,  3.44it/s] 58%|█████▊    | 214021/371472 [5:59:19<12:29:09,  3.50it/s] 58%|█████▊    | 214022/371472 [5:59:20<12:08:48,  3.60it/s] 58%|█████▊    | 214023/371472 [5:59:20<12:07:12,  3.61it/s] 58%|█████▊    | 214024/371472 [5:59:20<12:19:50,  3.55it/s] 58%|█████▊    | 214025/371472 [5:59:21<12:11:41,  3.59it/s] 58%|█████▊    | 214026/371472 [5:59:21<12:02:48,  3.63it/s] 58%|█████▊    | 214027/371472 [5:59:21<12:03:14,  3.63it/s] 58%|█████▊    | 214028/371472 [5:59:21<12:18:42,  3.55it/s] 58%|█████▊    | 214029/371472 [5:59:22<12:10:26,  3.59it/s] 58%|█████▊    | 214030/371472 [5:59:22<12:15:51,  3.57it/s] 58%|█████▊    | 214031/371472 [5:59:22<11:51:52,  3.69it/s] 58%|█████▊    | 214032/371472 [5:59:22<11:36:23,  3.77it/s] 58%|█████▊    | 214033/371472 [5:59:23<12:37:39,  3.46it/s] 58%|█████▊    | 214034/371472 [5:59:23<12:04:29,  3.62it/s] 58%|█████▊    | 214035/371472 [5:59:23<12:25:38,  3.52it/s] 58%|█████▊    | 214036/371472 [5:59:24<12:57:36,  3.37it/s] 58%|█████▊    | 214037/371472 [5:59:24<13:32:54,  3.23it/s] 58%|█████▊    | 214038/371472 [5:59:24<13:04:19,  3.35it/s] 58%|█████▊    | 214039/371472 [5:59:24<12:38:14,  3.46it/s] 58%|█████▊    | 214040/371472 [5:59:25<12:20:48,  3.54it/s]                                                            {'loss': 2.8962, 'learning_rate': 4.816307181796634e-07, 'epoch': 9.22}
 58%|█████▊    | 214040/371472 [5:59:25<12:20:48,  3.54it/s] 58%|█████▊    | 214041/371472 [5:59:25<11:57:47,  3.66it/s] 58%|█████▊    | 214042/371472 [5:59:25<12:01:35,  3.64it/s] 58%|█████▊    | 214043/371472 [5:59:26<11:25:43,  3.83it/s] 58%|█████▊    | 214044/371472 [5:59:26<11:56:38,  3.66it/s] 58%|█████▊    | 214045/371472 [5:59:26<12:17:35,  3.56it/s] 58%|█████▊    | 214046/371472 [5:59:26<12:15:13,  3.57it/s] 58%|█████▊    | 214047/371472 [5:59:27<12:17:01,  3.56it/s] 58%|█████▊    | 214048/371472 [5:59:27<12:53:53,  3.39it/s] 58%|█████▊    | 214049/371472 [5:59:27<12:38:22,  3.46it/s] 58%|█████▊    | 214050/371472 [5:59:28<12:12:41,  3.58it/s] 58%|█████▊    | 214051/371472 [5:59:28<12:52:24,  3.40it/s] 58%|█████▊    | 214052/371472 [5:59:28<13:25:27,  3.26it/s] 58%|█████▊    | 214053/371472 [5:59:28<12:58:47,  3.37it/s] 58%|█████▊    | 214054/371472 [5:59:29<12:35:00,  3.47it/s] 58%|█████▊    | 214055/371472 [5:59:29<12:51:42,  3.40it/s] 58%|█████▊    | 214056/371472 [5:59:29<13:05:40,  3.34it/s] 58%|█████▊    | 214057/371472 [5:59:30<13:08:12,  3.33it/s] 58%|█████▊    | 214058/371472 [5:59:30<12:48:55,  3.41it/s] 58%|█████▊    | 214059/371472 [5:59:30<13:47:20,  3.17it/s] 58%|█████▊    | 214060/371472 [5:59:31<13:14:55,  3.30it/s]                                                            {'loss': 3.0141, 'learning_rate': 4.815822362041845e-07, 'epoch': 9.22}
 58%|█████▊    | 214060/371472 [5:59:31<13:14:55,  3.30it/s] 58%|█████▊    | 214061/371472 [5:59:31<13:14:34,  3.30it/s] 58%|█████▊    | 214062/371472 [5:59:31<13:48:15,  3.17it/s] 58%|█████▊    | 214063/371472 [5:59:32<14:15:29,  3.07it/s] 58%|█████▊    | 214064/371472 [5:59:32<13:41:37,  3.19it/s] 58%|█████▊    | 214065/371472 [5:59:32<13:04:19,  3.34it/s] 58%|█████▊    | 214066/371472 [5:59:32<12:43:38,  3.44it/s] 58%|█████▊    | 214067/371472 [5:59:33<12:55:36,  3.38it/s] 58%|█████▊    | 214068/371472 [5:59:33<12:20:35,  3.54it/s] 58%|█████▊    | 214069/371472 [5:59:33<12:54:59,  3.39it/s] 58%|█████▊    | 214070/371472 [5:59:34<12:19:03,  3.55it/s] 58%|█████▊    | 214071/371472 [5:59:34<12:09:12,  3.60it/s] 58%|█████▊    | 214072/371472 [5:59:34<12:13:57,  3.57it/s] 58%|█████▊    | 214073/371472 [5:59:34<13:01:02,  3.36it/s] 58%|█████▊    | 214074/371472 [5:59:35<14:28:06,  3.02it/s] 58%|█████▊    | 214075/371472 [5:59:35<13:59:03,  3.13it/s] 58%|█████▊    | 214076/371472 [5:59:35<13:19:12,  3.28it/s] 58%|█████▊    | 214077/371472 [5:59:36<12:52:35,  3.40it/s] 58%|█████▊    | 214078/371472 [5:59:36<12:52:15,  3.40it/s] 58%|█████▊    | 214079/371472 [5:59:36<12:34:49,  3.48it/s] 58%|█████▊    | 214080/371472 [5:59:37<12:40:21,  3.45it/s]                                                            {'loss': 2.8204, 'learning_rate': 4.815337542287056e-07, 'epoch': 9.22}
 58%|█████▊    | 214080/371472 [5:59:37<12:40:21,  3.45it/s] 58%|█████▊    | 214081/371472 [5:59:37<12:55:09,  3.38it/s] 58%|█████▊    | 214082/371472 [5:59:37<12:48:43,  3.41it/s] 58%|█████▊    | 214083/371472 [5:59:37<12:38:51,  3.46it/s] 58%|█████▊    | 214084/371472 [5:59:38<12:52:38,  3.39it/s] 58%|█████▊    | 214085/371472 [5:59:38<12:35:01,  3.47it/s] 58%|█████▊    | 214086/371472 [5:59:38<12:35:43,  3.47it/s] 58%|█████▊    | 214087/371472 [5:59:39<12:50:04,  3.41it/s] 58%|█████▊    | 214088/371472 [5:59:39<13:06:46,  3.33it/s] 58%|█████▊    | 214089/371472 [5:59:39<12:49:24,  3.41it/s] 58%|█████▊    | 214090/371472 [5:59:39<12:25:09,  3.52it/s] 58%|█████▊    | 214091/371472 [5:59:40<12:50:38,  3.40it/s] 58%|█████▊    | 214092/371472 [5:59:40<12:33:32,  3.48it/s] 58%|█████▊    | 214093/371472 [5:59:40<13:40:19,  3.20it/s] 58%|█████▊    | 214094/371472 [5:59:41<13:08:30,  3.33it/s] 58%|█████▊    | 214095/371472 [5:59:41<12:50:42,  3.40it/s] 58%|█████▊    | 214096/371472 [5:59:41<12:10:47,  3.59it/s] 58%|█████▊    | 214097/371472 [5:59:41<12:09:13,  3.60it/s] 58%|█████▊    | 214098/371472 [5:59:42<11:59:36,  3.64it/s] 58%|█████▊    | 214099/371472 [5:59:42<12:20:54,  3.54it/s] 58%|█████▊    | 214100/371472 [5:59:42<11:51:50,  3.68it/s]                                                            {'loss': 2.9267, 'learning_rate': 4.814852722532268e-07, 'epoch': 9.22}
 58%|█████▊    | 214100/371472 [5:59:42<11:51:50,  3.68it/s] 58%|█████▊    | 214101/371472 [5:59:43<11:48:31,  3.70it/s] 58%|█████▊    | 214102/371472 [5:59:43<11:48:55,  3.70it/s] 58%|█████▊    | 214103/371472 [5:59:43<11:56:07,  3.66it/s] 58%|█████▊    | 214104/371472 [5:59:43<12:10:10,  3.59it/s] 58%|█████▊    | 214105/371472 [5:59:44<12:00:36,  3.64it/s] 58%|█████▊    | 214106/371472 [5:59:44<12:35:17,  3.47it/s] 58%|█████▊    | 214107/371472 [5:59:44<14:54:46,  2.93it/s] 58%|█████▊    | 214108/371472 [5:59:45<14:00:05,  3.12it/s] 58%|█████▊    | 214109/371472 [5:59:45<13:19:34,  3.28it/s] 58%|█████▊    | 214110/371472 [5:59:45<14:02:19,  3.11it/s] 58%|█████▊    | 214111/371472 [5:59:46<14:07:20,  3.10it/s] 58%|█████▊    | 214112/371472 [5:59:46<13:05:34,  3.34it/s] 58%|█████▊    | 214113/371472 [5:59:46<13:19:35,  3.28it/s] 58%|█████▊    | 214114/371472 [5:59:47<12:55:45,  3.38it/s] 58%|█████▊    | 214115/371472 [5:59:47<12:54:34,  3.39it/s] 58%|█████▊    | 214116/371472 [5:59:47<12:50:08,  3.41it/s] 58%|█████▊    | 214117/371472 [5:59:47<12:22:24,  3.53it/s] 58%|█████▊    | 214118/371472 [5:59:48<12:44:00,  3.43it/s] 58%|█████▊    | 214119/371472 [5:59:48<13:29:24,  3.24it/s] 58%|█████▊    | 214120/371472 [5:59:48<12:45:21,  3.43it/s]                                                            {'loss': 2.8777, 'learning_rate': 4.814367902777478e-07, 'epoch': 9.22}
 58%|█████▊    | 214120/371472 [5:59:48<12:45:21,  3.43it/s] 58%|█████▊    | 214121/371472 [5:59:49<12:15:39,  3.56it/s] 58%|█████▊    | 214122/371472 [5:59:49<13:41:17,  3.19it/s] 58%|█████▊    | 214123/371472 [5:59:49<14:13:52,  3.07it/s] 58%|█████▊    | 214124/371472 [5:59:50<13:42:31,  3.19it/s] 58%|█████▊    | 214125/371472 [5:59:50<13:05:11,  3.34it/s] 58%|█████▊    | 214126/371472 [5:59:50<12:29:56,  3.50it/s] 58%|█████▊    | 214127/371472 [5:59:50<12:37:15,  3.46it/s] 58%|█████▊    | 214128/371472 [5:59:51<12:28:04,  3.51it/s] 58%|█████▊    | 214129/371472 [5:59:51<12:29:10,  3.50it/s] 58%|█████▊    | 214130/371472 [5:59:51<12:50:49,  3.40it/s] 58%|█████▊    | 214131/371472 [5:59:52<12:32:37,  3.48it/s] 58%|█████▊    | 214132/371472 [5:59:52<12:46:00,  3.42it/s] 58%|█████▊    | 214133/371472 [5:59:52<12:20:09,  3.54it/s] 58%|█████▊    | 214134/371472 [5:59:52<12:49:12,  3.41it/s] 58%|█████▊    | 214135/371472 [5:59:53<12:55:14,  3.38it/s] 58%|█████▊    | 214136/371472 [5:59:53<12:56:00,  3.38it/s] 58%|█████▊    | 214137/371472 [5:59:53<13:05:00,  3.34it/s] 58%|█████▊    | 214138/371472 [5:59:54<12:55:37,  3.38it/s] 58%|█████▊    | 214139/371472 [5:59:54<12:59:49,  3.36it/s] 58%|█████▊    | 214140/371472 [5:59:54<13:08:54,  3.32it/s]                                                            {'loss': 2.8563, 'learning_rate': 4.813883083022689e-07, 'epoch': 9.22}
 58%|█████▊    | 214140/371472 [5:59:54<13:08:54,  3.32it/s] 58%|█████▊    | 214141/371472 [5:59:54<12:34:26,  3.48it/s] 58%|█████▊    | 214142/371472 [5:59:55<12:07:56,  3.60it/s] 58%|█████▊    | 214143/371472 [5:59:55<11:56:23,  3.66it/s] 58%|█████▊    | 214144/371472 [5:59:55<11:32:58,  3.78it/s] 58%|█████▊    | 214145/371472 [5:59:55<11:46:32,  3.71it/s] 58%|█████▊    | 214146/371472 [5:59:56<11:38:57,  3.75it/s] 58%|█████▊    | 214147/371472 [5:59:56<11:29:02,  3.81it/s] 58%|█████▊    | 214148/371472 [5:59:56<12:37:32,  3.46it/s] 58%|█████▊    | 214149/371472 [5:59:57<12:10:11,  3.59it/s] 58%|█████▊    | 214150/371472 [5:59:57<13:08:10,  3.33it/s] 58%|█████▊    | 214151/371472 [5:59:57<14:20:30,  3.05it/s] 58%|█████▊    | 214152/371472 [5:59:58<14:49:08,  2.95it/s] 58%|█████▊    | 214153/371472 [5:59:58<15:03:23,  2.90it/s] 58%|█████▊    | 214154/371472 [5:59:58<14:51:22,  2.94it/s] 58%|█████▊    | 214155/371472 [5:59:59<14:28:53,  3.02it/s] 58%|█████▊    | 214156/371472 [5:59:59<13:33:59,  3.22it/s] 58%|█████▊    | 214157/371472 [5:59:59<13:01:30,  3.35it/s] 58%|█████▊    | 214158/371472 [6:00:00<13:20:32,  3.28it/s] 58%|█████▊    | 214159/371472 [6:00:00<12:49:19,  3.41it/s] 58%|█████▊    | 214160/371472 [6:00:00<12:25:13,  3.52it/s]                                                            {'loss': 2.9531, 'learning_rate': 4.8133982632679e-07, 'epoch': 9.22}
 58%|█████▊    | 214160/371472 [6:00:00<12:25:13,  3.52it/s] 58%|█████▊    | 214161/371472 [6:00:00<12:28:52,  3.50it/s] 58%|█████▊    | 214162/371472 [6:00:01<12:37:48,  3.46it/s] 58%|█████▊    | 214163/371472 [6:00:01<13:25:48,  3.25it/s] 58%|█████▊    | 214164/371472 [6:00:01<14:05:05,  3.10it/s] 58%|█████▊    | 214165/371472 [6:00:02<13:12:44,  3.31it/s] 58%|█████▊    | 214166/371472 [6:00:02<12:54:21,  3.39it/s] 58%|█████▊    | 214167/371472 [6:00:02<12:28:48,  3.50it/s] 58%|█████▊    | 214168/371472 [6:00:02<12:24:13,  3.52it/s] 58%|█████▊    | 214169/371472 [6:00:03<11:59:01,  3.65it/s] 58%|█████▊    | 214170/371472 [6:00:03<12:25:37,  3.52it/s] 58%|█████▊    | 214171/371472 [6:00:03<12:36:15,  3.47it/s] 58%|█████▊    | 214172/371472 [6:00:04<12:15:20,  3.57it/s] 58%|█████▊    | 214173/371472 [6:00:04<12:04:27,  3.62it/s] 58%|█████▊    | 214174/371472 [6:00:04<11:41:39,  3.74it/s] 58%|█████▊    | 214175/371472 [6:00:04<11:38:07,  3.76it/s] 58%|█████▊    | 214176/371472 [6:00:05<11:50:24,  3.69it/s] 58%|█████▊    | 214177/371472 [6:00:05<12:23:37,  3.53it/s] 58%|█████▊    | 214178/371472 [6:00:05<12:43:43,  3.43it/s] 58%|█████▊    | 214179/371472 [6:00:06<12:41:35,  3.44it/s] 58%|█████▊    | 214180/371472 [6:00:06<12:44:14,  3.43it/s]                                                            {'loss': 2.7671, 'learning_rate': 4.812913443513111e-07, 'epoch': 9.23}
 58%|█████▊    | 214180/371472 [6:00:06<12:44:14,  3.43it/s] 58%|█████▊    | 214181/371472 [6:00:06<12:19:51,  3.54it/s] 58%|█████▊    | 214182/371472 [6:00:06<12:50:53,  3.40it/s] 58%|█████▊    | 214183/371472 [6:00:07<14:16:36,  3.06it/s] 58%|█████▊    | 214184/371472 [6:00:07<13:39:30,  3.20it/s] 58%|█████▊    | 214185/371472 [6:00:07<13:58:30,  3.13it/s] 58%|█████▊    | 214186/371472 [6:00:08<13:20:00,  3.28it/s] 58%|█████▊    | 214187/371472 [6:00:08<12:56:22,  3.38it/s] 58%|█████▊    | 214188/371472 [6:00:08<13:09:23,  3.32it/s] 58%|█████▊    | 214189/371472 [6:00:09<13:20:14,  3.28it/s] 58%|█████▊    | 214190/371472 [6:00:09<13:44:51,  3.18it/s] 58%|█████▊    | 214191/371472 [6:00:09<13:12:47,  3.31it/s] 58%|█████▊    | 214192/371472 [6:00:10<13:12:17,  3.31it/s] 58%|█████▊    | 214193/371472 [6:00:10<13:49:50,  3.16it/s] 58%|█████▊    | 214194/371472 [6:00:10<13:28:58,  3.24it/s] 58%|█████▊    | 214195/371472 [6:00:10<12:40:55,  3.44it/s] 58%|█████▊    | 214196/371472 [6:00:11<13:34:31,  3.22it/s] 58%|█████▊    | 214197/371472 [6:00:11<13:02:40,  3.35it/s] 58%|█████▊    | 214198/371472 [6:00:11<12:58:11,  3.37it/s] 58%|█████▊    | 214199/371472 [6:00:12<13:33:47,  3.22it/s] 58%|█████▊    | 214200/371472 [6:00:12<12:53:32,  3.39it/s]                                                            {'loss': 2.8492, 'learning_rate': 4.812428623758322e-07, 'epoch': 9.23}
 58%|█████▊    | 214200/371472 [6:00:12<12:53:32,  3.39it/s] 58%|█████▊    | 214201/371472 [6:00:12<12:23:35,  3.53it/s] 58%|█████▊    | 214202/371472 [6:00:13<12:59:16,  3.36it/s] 58%|█████▊    | 214203/371472 [6:00:13<12:37:41,  3.46it/s] 58%|█████▊    | 214204/371472 [6:00:13<12:47:23,  3.42it/s] 58%|█████▊    | 214205/371472 [6:00:13<13:18:58,  3.28it/s] 58%|█████▊    | 214206/371472 [6:00:14<12:50:55,  3.40it/s] 58%|█████▊    | 214207/371472 [6:00:14<12:40:41,  3.45it/s] 58%|█████▊    | 214208/371472 [6:00:14<12:37:43,  3.46it/s] 58%|█████▊    | 214209/371472 [6:00:15<12:19:38,  3.54it/s] 58%|█████▊    | 214210/371472 [6:00:15<12:13:44,  3.57it/s] 58%|█████▊    | 214211/371472 [6:00:15<12:37:04,  3.46it/s] 58%|█████▊    | 214212/371472 [6:00:15<12:38:15,  3.46it/s] 58%|█████▊    | 214213/371472 [6:00:16<12:49:34,  3.41it/s] 58%|█████▊    | 214214/371472 [6:00:16<12:32:32,  3.48it/s] 58%|█████▊    | 214215/371472 [6:00:16<12:46:48,  3.42it/s] 58%|█████▊    | 214216/371472 [6:00:17<12:26:08,  3.51it/s] 58%|█████▊    | 214217/371472 [6:00:17<12:15:43,  3.56it/s] 58%|█████▊    | 214218/371472 [6:00:17<12:09:40,  3.59it/s] 58%|█████▊    | 214219/371472 [6:00:17<12:38:19,  3.46it/s] 58%|█████▊    | 214220/371472 [6:00:18<12:03:45,  3.62it/s]                                                            {'loss': 2.8248, 'learning_rate': 4.811943804003534e-07, 'epoch': 9.23}
 58%|█████▊    | 214220/371472 [6:00:18<12:03:45,  3.62it/s] 58%|█████▊    | 214221/371472 [6:00:18<12:51:28,  3.40it/s] 58%|█████▊    | 214222/371472 [6:00:18<12:42:14,  3.44it/s] 58%|█████▊    | 214223/371472 [6:00:19<12:12:32,  3.58it/s] 58%|█████▊    | 214224/371472 [6:00:19<11:51:20,  3.68it/s] 58%|█████▊    | 214225/371472 [6:00:19<11:45:12,  3.72it/s] 58%|█████▊    | 214226/371472 [6:00:19<12:00:53,  3.64it/s] 58%|█████▊    | 214227/371472 [6:00:20<12:05:52,  3.61it/s] 58%|█████▊    | 214228/371472 [6:00:20<11:42:06,  3.73it/s] 58%|█████▊    | 214229/371472 [6:00:20<11:44:09,  3.72it/s] 58%|█████▊    | 214230/371472 [6:00:20<11:49:13,  3.70it/s] 58%|█████▊    | 214231/371472 [6:00:21<11:53:22,  3.67it/s] 58%|█████▊    | 214232/371472 [6:00:21<12:36:35,  3.46it/s] 58%|█████▊    | 214233/371472 [6:00:21<12:53:24,  3.39it/s] 58%|█████▊    | 214234/371472 [6:00:22<13:32:16,  3.23it/s] 58%|█████▊    | 214235/371472 [6:00:22<13:05:07,  3.34it/s] 58%|█████▊    | 214236/371472 [6:00:22<12:28:58,  3.50it/s] 58%|█████▊    | 214237/371472 [6:00:23<13:11:52,  3.31it/s] 58%|█████▊    | 214238/371472 [6:00:23<12:28:30,  3.50it/s] 58%|█████▊    | 214239/371472 [6:00:23<12:03:55,  3.62it/s] 58%|█████▊    | 214240/371472 [6:00:23<12:47:15,  3.42it/s]                                                            {'loss': 3.0228, 'learning_rate': 4.811458984248745e-07, 'epoch': 9.23}
 58%|█████▊    | 214240/371472 [6:00:23<12:47:15,  3.42it/s] 58%|█████▊    | 214241/371472 [6:00:24<12:54:23,  3.38it/s] 58%|█████▊    | 214242/371472 [6:00:24<12:37:09,  3.46it/s] 58%|█████▊    | 214243/371472 [6:00:24<12:23:23,  3.53it/s] 58%|█████▊    | 214244/371472 [6:00:25<12:08:31,  3.60it/s] 58%|█████▊    | 214245/371472 [6:00:25<12:27:32,  3.51it/s] 58%|█████▊    | 214246/371472 [6:00:25<12:37:33,  3.46it/s] 58%|█████▊    | 214247/371472 [6:00:25<13:36:04,  3.21it/s] 58%|█████▊    | 214248/371472 [6:00:26<12:53:27,  3.39it/s] 58%|█████▊    | 214249/371472 [6:00:26<12:28:35,  3.50it/s] 58%|█████▊    | 214250/371472 [6:00:26<12:57:20,  3.37it/s] 58%|█████▊    | 214251/371472 [6:00:27<12:29:13,  3.50it/s] 58%|█████▊    | 214252/371472 [6:00:27<13:16:28,  3.29it/s] 58%|█████▊    | 214253/371472 [6:00:27<12:51:20,  3.40it/s] 58%|█████▊    | 214254/371472 [6:00:27<12:22:09,  3.53it/s] 58%|█████▊    | 214255/371472 [6:00:28<12:23:32,  3.52it/s] 58%|█████▊    | 214256/371472 [6:00:28<12:24:47,  3.52it/s] 58%|█████▊    | 214257/371472 [6:00:28<11:47:55,  3.70it/s] 58%|█████▊    | 214258/371472 [6:00:28<11:25:35,  3.82it/s] 58%|█████▊    | 214259/371472 [6:00:29<11:13:32,  3.89it/s] 58%|█████▊    | 214260/371472 [6:00:29<11:00:57,  3.96it/s]                                                            {'loss': 3.0077, 'learning_rate': 4.810974164493955e-07, 'epoch': 9.23}
 58%|█████▊    | 214260/371472 [6:00:29<11:00:57,  3.96it/s] 58%|█████▊    | 214261/371472 [6:00:29<11:46:39,  3.71it/s] 58%|█████▊    | 214262/371472 [6:00:30<11:57:13,  3.65it/s] 58%|█████▊    | 214263/371472 [6:00:30<11:56:09,  3.66it/s] 58%|█████▊    | 214264/371472 [6:00:30<11:59:10,  3.64it/s] 58%|█████▊    | 214265/371472 [6:00:30<11:38:47,  3.75it/s] 58%|█████▊    | 214266/371472 [6:00:31<11:14:10,  3.89it/s] 58%|█████▊    | 214267/371472 [6:00:31<11:08:44,  3.92it/s] 58%|█████▊    | 214268/371472 [6:00:31<11:08:15,  3.92it/s] 58%|█████▊    | 214269/371472 [6:00:31<12:09:09,  3.59it/s] 58%|█████▊    | 214270/371472 [6:00:32<11:46:09,  3.71it/s] 58%|█████▊    | 214271/371472 [6:00:32<11:31:47,  3.79it/s] 58%|█████▊    | 214272/371472 [6:00:32<11:43:06,  3.73it/s] 58%|█████▊    | 214273/371472 [6:00:33<11:51:24,  3.68it/s] 58%|█████▊    | 214274/371472 [6:00:33<11:47:19,  3.70it/s] 58%|█████▊    | 214275/371472 [6:00:33<11:52:40,  3.68it/s] 58%|█████▊    | 214276/371472 [6:00:33<11:57:28,  3.65it/s] 58%|█████▊    | 214277/371472 [6:00:34<11:44:46,  3.72it/s] 58%|█████▊    | 214278/371472 [6:00:34<12:11:15,  3.58it/s] 58%|█████▊    | 214279/371472 [6:00:34<11:53:35,  3.67it/s] 58%|█████▊    | 214280/371472 [6:00:34<11:43:30,  3.72it/s]                                                            {'loss': 2.9979, 'learning_rate': 4.810489344739166e-07, 'epoch': 9.23}
 58%|█████▊    | 214280/371472 [6:00:34<11:43:30,  3.72it/s] 58%|█████▊    | 214281/371472 [6:00:35<11:31:19,  3.79it/s] 58%|█████▊    | 214282/371472 [6:00:35<11:41:22,  3.74it/s] 58%|█████▊    | 214283/371472 [6:00:35<12:48:32,  3.41it/s] 58%|█████▊    | 214284/371472 [6:00:36<12:32:09,  3.48it/s] 58%|█████▊    | 214285/371472 [6:00:36<11:53:13,  3.67it/s] 58%|█████▊    | 214286/371472 [6:00:36<12:37:48,  3.46it/s] 58%|█████▊    | 214287/371472 [6:00:36<12:12:59,  3.57it/s] 58%|█████▊    | 214288/371472 [6:00:37<12:10:31,  3.59it/s] 58%|█████▊    | 214289/371472 [6:00:37<12:39:57,  3.45it/s] 58%|█████▊    | 214290/371472 [6:00:37<13:12:16,  3.31it/s] 58%|█████▊    | 214291/371472 [6:00:38<12:39:18,  3.45it/s] 58%|█████▊    | 214292/371472 [6:00:38<12:10:02,  3.59it/s] 58%|█████▊    | 214293/371472 [6:00:38<11:54:52,  3.66it/s] 58%|█████▊    | 214294/371472 [6:00:38<12:26:14,  3.51it/s] 58%|█████▊    | 214295/371472 [6:00:39<12:18:45,  3.55it/s] 58%|█████▊    | 214296/371472 [6:00:39<12:18:11,  3.55it/s] 58%|█████▊    | 214297/371472 [6:00:39<13:09:12,  3.32it/s] 58%|█████▊    | 214298/371472 [6:00:40<12:49:42,  3.40it/s] 58%|█████▊    | 214299/371472 [6:00:40<13:12:41,  3.30it/s] 58%|█████▊    | 214300/371472 [6:00:40<13:15:59,  3.29it/s]                                                            {'loss': 2.8844, 'learning_rate': 4.810004524984378e-07, 'epoch': 9.23}
 58%|█████▊    | 214300/371472 [6:00:40<13:15:59,  3.29it/s] 58%|█████▊    | 214301/371472 [6:00:40<12:40:35,  3.44it/s] 58%|█████▊    | 214302/371472 [6:00:41<12:15:04,  3.56it/s] 58%|█████▊    | 214303/371472 [6:00:41<12:46:10,  3.42it/s] 58%|█████▊    | 214304/371472 [6:00:41<12:18:26,  3.55it/s] 58%|█████▊    | 214305/371472 [6:00:42<12:30:28,  3.49it/s] 58%|█████▊    | 214306/371472 [6:00:42<13:26:48,  3.25it/s] 58%|█████▊    | 214307/371472 [6:00:42<12:46:27,  3.42it/s] 58%|█████▊    | 214308/371472 [6:00:42<12:21:18,  3.53it/s] 58%|█████▊    | 214309/371472 [6:00:43<12:46:07,  3.42it/s] 58%|█████▊    | 214310/371472 [6:00:43<12:13:43,  3.57it/s] 58%|█████▊    | 214311/371472 [6:00:43<12:14:40,  3.57it/s] 58%|█████▊    | 214312/371472 [6:00:44<11:53:32,  3.67it/s] 58%|█████▊    | 214313/371472 [6:00:44<11:29:44,  3.80it/s] 58%|█████▊    | 214314/371472 [6:00:44<11:41:12,  3.74it/s] 58%|█████▊    | 214315/371472 [6:00:44<11:35:33,  3.77it/s] 58%|█████▊    | 214316/371472 [6:00:45<11:47:01,  3.70it/s] 58%|█████▊    | 214317/371472 [6:00:45<11:43:12,  3.72it/s] 58%|█████▊    | 214318/371472 [6:00:45<11:56:36,  3.66it/s] 58%|█████▊    | 214319/371472 [6:00:45<11:28:50,  3.80it/s] 58%|█████▊    | 214320/371472 [6:00:46<11:43:46,  3.72it/s]                                                            {'loss': 3.1713, 'learning_rate': 4.809519705229589e-07, 'epoch': 9.23}
 58%|█████▊    | 214320/371472 [6:00:46<11:43:46,  3.72it/s] 58%|█████▊    | 214321/371472 [6:00:46<11:38:04,  3.75it/s] 58%|█████▊    | 214322/371472 [6:00:46<11:43:37,  3.72it/s] 58%|█████▊    | 214323/371472 [6:00:47<11:45:04,  3.71it/s] 58%|█████▊    | 214324/371472 [6:00:47<11:53:31,  3.67it/s] 58%|█████▊    | 214325/371472 [6:00:47<12:01:00,  3.63it/s] 58%|█████▊    | 214326/371472 [6:00:47<12:27:31,  3.50it/s] 58%|█████▊    | 214327/371472 [6:00:48<11:53:33,  3.67it/s] 58%|█████▊    | 214328/371472 [6:00:48<12:02:05,  3.63it/s] 58%|█████▊    | 214329/371472 [6:00:48<12:24:41,  3.52it/s] 58%|█████▊    | 214330/371472 [6:00:48<11:57:48,  3.65it/s] 58%|█████▊    | 214331/371472 [6:00:49<12:14:07,  3.57it/s] 58%|█████▊    | 214332/371472 [6:00:49<12:04:39,  3.61it/s] 58%|█████▊    | 214333/371472 [6:00:49<11:42:41,  3.73it/s] 58%|█████▊    | 214334/371472 [6:00:50<11:46:49,  3.71it/s] 58%|█████▊    | 214335/371472 [6:00:50<11:34:59,  3.77it/s] 58%|█████▊    | 214336/371472 [6:00:50<11:33:13,  3.78it/s] 58%|█████▊    | 214337/371472 [6:00:50<11:30:35,  3.79it/s] 58%|█████▊    | 214338/371472 [6:00:51<11:34:53,  3.77it/s] 58%|█████▊    | 214339/371472 [6:00:51<11:34:41,  3.77it/s] 58%|█████▊    | 214340/371472 [6:00:51<11:34:50,  3.77it/s]                                                            {'loss': 2.8525, 'learning_rate': 4.8090348854748e-07, 'epoch': 9.23}
 58%|█████▊    | 214340/371472 [6:00:51<11:34:50,  3.77it/s] 58%|█████▊    | 214341/371472 [6:00:51<11:43:05,  3.72it/s] 58%|█████▊    | 214342/371472 [6:00:52<11:41:18,  3.73it/s] 58%|█████▊    | 214343/371472 [6:00:52<11:24:54,  3.82it/s] 58%|█████▊    | 214344/371472 [6:00:52<11:22:57,  3.83it/s] 58%|█████▊    | 214345/371472 [6:00:52<11:13:30,  3.89it/s] 58%|█████▊    | 214346/371472 [6:00:53<11:38:05,  3.75it/s] 58%|█████▊    | 214347/371472 [6:00:53<11:40:01,  3.74it/s] 58%|█████▊    | 214348/371472 [6:00:53<11:51:27,  3.68it/s] 58%|█████▊    | 214349/371472 [6:00:54<12:11:25,  3.58it/s] 58%|█████▊    | 214350/371472 [6:00:54<12:39:04,  3.45it/s] 58%|█████▊    | 214351/371472 [6:00:54<12:56:06,  3.37it/s] 58%|█████▊    | 214352/371472 [6:00:54<12:29:19,  3.49it/s] 58%|█████▊    | 214353/371472 [6:00:55<12:56:19,  3.37it/s] 58%|█████▊    | 214354/371472 [6:00:55<12:51:13,  3.40it/s] 58%|█████▊    | 214355/371472 [6:00:55<12:26:34,  3.51it/s] 58%|█████▊    | 214356/371472 [6:00:56<12:08:58,  3.59it/s] 58%|█████▊    | 214357/371472 [6:00:56<12:10:38,  3.58it/s] 58%|█████▊    | 214358/371472 [6:00:56<12:12:00,  3.58it/s] 58%|█████▊    | 214359/371472 [6:00:56<13:13:41,  3.30it/s] 58%|█████▊    | 214360/371472 [6:00:57<13:35:22,  3.21it/s]                                                            {'loss': 3.0093, 'learning_rate': 4.808550065720011e-07, 'epoch': 9.23}
 58%|█████▊    | 214360/371472 [6:00:57<13:35:22,  3.21it/s] 58%|█████▊    | 214361/371472 [6:00:57<13:38:27,  3.20it/s] 58%|█████▊    | 214362/371472 [6:00:57<14:06:09,  3.09it/s] 58%|█████▊    | 214363/371472 [6:00:58<14:43:53,  2.96it/s] 58%|█████▊    | 214364/371472 [6:00:58<14:06:23,  3.09it/s] 58%|█████▊    | 214365/371472 [6:00:58<13:23:03,  3.26it/s] 58%|█████▊    | 214366/371472 [6:00:59<12:57:21,  3.37it/s] 58%|█████▊    | 214367/371472 [6:00:59<12:33:05,  3.48it/s] 58%|█████▊    | 214368/371472 [6:00:59<12:26:45,  3.51it/s] 58%|█████▊    | 214369/371472 [6:01:00<13:06:11,  3.33it/s] 58%|█████▊    | 214370/371472 [6:01:00<12:34:36,  3.47it/s] 58%|█████▊    | 214371/371472 [6:01:00<11:58:18,  3.65it/s] 58%|█████▊    | 214372/371472 [6:01:00<11:55:21,  3.66it/s] 58%|█████▊    | 214373/371472 [6:01:01<12:21:54,  3.53it/s] 58%|█████▊    | 214374/371472 [6:01:01<12:20:49,  3.53it/s] 58%|█████▊    | 214375/371472 [6:01:01<13:01:47,  3.35it/s] 58%|█████▊    | 214376/371472 [6:01:02<13:37:31,  3.20it/s] 58%|█████▊    | 214377/371472 [6:01:02<13:10:41,  3.31it/s] 58%|█████▊    | 214378/371472 [6:01:02<12:54:35,  3.38it/s] 58%|█████▊    | 214379/371472 [6:01:03<15:19:03,  2.85it/s] 58%|█████▊    | 214380/371472 [6:01:03<14:19:58,  3.04it/s]                                                            {'loss': 3.0725, 'learning_rate': 4.808065245965222e-07, 'epoch': 9.23}
 58%|█████▊    | 214380/371472 [6:01:03<14:19:58,  3.04it/s] 58%|█████▊    | 214381/371472 [6:01:03<13:45:56,  3.17it/s] 58%|█████▊    | 214382/371472 [6:01:03<13:00:36,  3.35it/s] 58%|█████▊    | 214383/371472 [6:01:04<12:22:29,  3.53it/s] 58%|█████▊    | 214384/371472 [6:01:04<12:58:42,  3.36it/s] 58%|█████▊    | 214385/371472 [6:01:04<12:30:59,  3.49it/s] 58%|█████▊    | 214386/371472 [6:01:05<12:35:08,  3.47it/s] 58%|█████▊    | 214387/371472 [6:01:05<12:54:23,  3.38it/s] 58%|█████▊    | 214388/371472 [6:01:05<12:29:38,  3.49it/s] 58%|█████▊    | 214389/371472 [6:01:05<12:14:28,  3.56it/s] 58%|█████▊    | 214390/371472 [6:01:06<12:23:43,  3.52it/s] 58%|█████▊    | 214391/371472 [6:01:06<12:14:53,  3.56it/s] 58%|█████▊    | 214392/371472 [6:01:06<12:01:48,  3.63it/s] 58%|█████▊    | 214393/371472 [6:01:07<12:04:39,  3.61it/s] 58%|█████▊    | 214394/371472 [6:01:07<12:02:14,  3.62it/s] 58%|█████▊    | 214395/371472 [6:01:07<11:53:32,  3.67it/s] 58%|█████▊    | 214396/371472 [6:01:07<11:36:04,  3.76it/s] 58%|█████▊    | 214397/371472 [6:01:08<12:13:26,  3.57it/s] 58%|█████▊    | 214398/371472 [6:01:08<12:06:40,  3.60it/s] 58%|█████▊    | 214399/371472 [6:01:08<12:50:00,  3.40it/s] 58%|█████▊    | 214400/371472 [6:01:09<12:48:18,  3.41it/s]                                                            {'loss': 2.8684, 'learning_rate': 4.807580426210432e-07, 'epoch': 9.23}
 58%|█████▊    | 214400/371472 [6:01:09<12:48:18,  3.41it/s] 58%|█████▊    | 214401/371472 [6:01:09<13:03:16,  3.34it/s] 58%|█████▊    | 214402/371472 [6:01:09<13:01:56,  3.35it/s] 58%|█████▊    | 214403/371472 [6:01:09<13:19:42,  3.27it/s] 58%|█████▊    | 214404/371472 [6:01:10<13:02:06,  3.35it/s] 58%|█████▊    | 214405/371472 [6:01:10<12:54:10,  3.38it/s] 58%|█████▊    | 214406/371472 [6:01:10<12:58:48,  3.36it/s] 58%|█████▊    | 214407/371472 [6:01:11<12:27:30,  3.50it/s] 58%|█████▊    | 214408/371472 [6:01:11<12:09:42,  3.59it/s] 58%|█████▊    | 214409/371472 [6:01:11<13:32:20,  3.22it/s] 58%|█████▊    | 214410/371472 [6:01:12<12:53:27,  3.38it/s] 58%|█████▊    | 214411/371472 [6:01:12<12:12:06,  3.58it/s] 58%|█████▊    | 214412/371472 [6:01:12<11:56:30,  3.65it/s] 58%|█████▊    | 214413/371472 [6:01:12<12:09:03,  3.59it/s] 58%|█████▊    | 214414/371472 [6:01:13<11:59:30,  3.64it/s] 58%|█████▊    | 214415/371472 [6:01:13<11:55:06,  3.66it/s] 58%|█████▊    | 214416/371472 [6:01:13<11:53:47,  3.67it/s] 58%|█████▊    | 214417/371472 [6:01:13<12:21:46,  3.53it/s] 58%|█████▊    | 214418/371472 [6:01:14<13:48:40,  3.16it/s] 58%|█████▊    | 214419/371472 [6:01:14<13:42:16,  3.18it/s] 58%|█████▊    | 214420/371472 [6:01:14<13:58:24,  3.12it/s]                                                            {'loss': 2.9711, 'learning_rate': 4.807095606455644e-07, 'epoch': 9.24}
 58%|█████▊    | 214420/371472 [6:01:14<13:58:24,  3.12it/s] 58%|█████▊    | 214421/371472 [6:01:15<13:16:01,  3.29it/s] 58%|█████▊    | 214422/371472 [6:01:15<13:09:47,  3.31it/s] 58%|█████▊    | 214423/371472 [6:01:15<13:15:18,  3.29it/s] 58%|█████▊    | 214424/371472 [6:01:16<12:35:58,  3.46it/s] 58%|█████▊    | 214425/371472 [6:01:16<12:17:57,  3.55it/s] 58%|█████▊    | 214426/371472 [6:01:16<12:09:23,  3.59it/s] 58%|█████▊    | 214427/371472 [6:01:16<11:41:03,  3.73it/s] 58%|█████▊    | 214428/371472 [6:01:17<11:42:57,  3.72it/s] 58%|█████▊    | 214429/371472 [6:01:17<13:07:59,  3.32it/s] 58%|█████▊    | 214430/371472 [6:01:17<12:43:58,  3.43it/s] 58%|█████▊    | 214431/371472 [6:01:18<12:23:49,  3.52it/s] 58%|█████▊    | 214432/371472 [6:01:18<12:06:14,  3.60it/s] 58%|█████▊    | 214433/371472 [6:01:18<12:01:26,  3.63it/s] 58%|█████▊    | 214434/371472 [6:01:18<12:02:55,  3.62it/s] 58%|█████▊    | 214435/371472 [6:01:19<12:00:38,  3.63it/s] 58%|█████▊    | 214436/371472 [6:01:19<12:08:39,  3.59it/s] 58%|█████▊    | 214437/371472 [6:01:19<12:16:36,  3.55it/s] 58%|█████▊    | 214438/371472 [6:01:19<12:00:58,  3.63it/s] 58%|█████▊    | 214439/371472 [6:01:20<11:30:44,  3.79it/s] 58%|█████▊    | 214440/371472 [6:01:20<11:33:10,  3.78it/s]                                                            {'loss': 2.9855, 'learning_rate': 4.806610786700855e-07, 'epoch': 9.24}
 58%|█████▊    | 214440/371472 [6:01:20<11:33:10,  3.78it/s] 58%|█████▊    | 214441/371472 [6:01:20<12:08:59,  3.59it/s] 58%|█████▊    | 214442/371472 [6:01:21<11:52:58,  3.67it/s] 58%|█████▊    | 214443/371472 [6:01:21<12:01:44,  3.63it/s] 58%|█████▊    | 214444/371472 [6:01:21<12:07:39,  3.60it/s] 58%|█████▊    | 214445/371472 [6:01:21<11:41:19,  3.73it/s] 58%|█████▊    | 214446/371472 [6:01:22<11:25:10,  3.82it/s] 58%|█████▊    | 214447/371472 [6:01:22<11:17:53,  3.86it/s] 58%|█████▊    | 214448/371472 [6:01:22<11:12:40,  3.89it/s] 58%|█████▊    | 214449/371472 [6:01:22<11:02:28,  3.95it/s] 58%|█████▊    | 214450/371472 [6:01:23<12:17:56,  3.55it/s] 58%|█████▊    | 214451/371472 [6:01:23<12:07:02,  3.60it/s] 58%|█████▊    | 214452/371472 [6:01:23<11:53:18,  3.67it/s] 58%|█████▊    | 214453/371472 [6:01:24<11:49:17,  3.69it/s] 58%|█████▊    | 214454/371472 [6:01:24<11:54:15,  3.66it/s] 58%|█████▊    | 214455/371472 [6:01:24<11:25:25,  3.82it/s] 58%|█████▊    | 214456/371472 [6:01:24<11:33:37,  3.77it/s] 58%|█████▊    | 214457/371472 [6:01:25<11:13:14,  3.89it/s] 58%|█████▊    | 214458/371472 [6:01:25<11:26:31,  3.81it/s] 58%|█████▊    | 214459/371472 [6:01:25<11:48:14,  3.69it/s] 58%|█████▊    | 214460/371472 [6:01:25<11:37:07,  3.75it/s]                                                            {'loss': 2.9947, 'learning_rate': 4.806125966946067e-07, 'epoch': 9.24}
 58%|█████▊    | 214460/371472 [6:01:25<11:37:07,  3.75it/s] 58%|█████▊    | 214461/371472 [6:01:26<11:26:42,  3.81it/s] 58%|█████▊    | 214462/371472 [6:01:26<11:22:31,  3.83it/s] 58%|█████▊    | 214463/371472 [6:01:26<11:03:55,  3.94it/s] 58%|█████▊    | 214464/371472 [6:01:26<10:58:21,  3.97it/s] 58%|█████▊    | 214465/371472 [6:01:27<12:42:56,  3.43it/s] 58%|█████▊    | 214466/371472 [6:01:27<12:27:13,  3.50it/s] 58%|█████▊    | 214467/371472 [6:01:27<12:18:54,  3.54it/s] 58%|█████▊    | 214468/371472 [6:01:28<12:06:20,  3.60it/s] 58%|█████▊    | 214469/371472 [6:01:28<11:44:57,  3.71it/s] 58%|█████▊    | 214470/371472 [6:01:28<11:41:51,  3.73it/s] 58%|█████▊    | 214471/371472 [6:01:28<12:13:59,  3.56it/s] 58%|█████▊    | 214472/371472 [6:01:29<12:14:03,  3.56it/s] 58%|█████▊    | 214473/371472 [6:01:29<13:19:23,  3.27it/s] 58%|█████▊    | 214474/371472 [6:01:29<13:22:19,  3.26it/s] 58%|█████▊    | 214475/371472 [6:01:30<12:39:28,  3.45it/s] 58%|█████▊    | 214476/371472 [6:01:30<12:17:45,  3.55it/s] 58%|█████▊    | 214477/371472 [6:01:30<11:59:29,  3.64it/s] 58%|█████▊    | 214478/371472 [6:01:30<11:56:39,  3.65it/s] 58%|█████▊    | 214479/371472 [6:01:31<11:43:09,  3.72it/s] 58%|█████▊    | 214480/371472 [6:01:31<11:42:16,  3.73it/s]                                                            {'loss': 3.1047, 'learning_rate': 4.805641147191277e-07, 'epoch': 9.24}
 58%|█████▊    | 214480/371472 [6:01:31<11:42:16,  3.73it/s] 58%|█████▊    | 214481/371472 [6:01:31<11:40:11,  3.74it/s] 58%|█████▊    | 214482/371472 [6:01:31<11:56:07,  3.65it/s] 58%|█████▊    | 214483/371472 [6:01:32<12:13:05,  3.57it/s] 58%|█████▊    | 214484/371472 [6:01:32<12:09:01,  3.59it/s] 58%|█████▊    | 214485/371472 [6:01:32<12:46:07,  3.42it/s] 58%|█████▊    | 214486/371472 [6:01:33<12:33:31,  3.47it/s] 58%|█████▊    | 214487/371472 [6:01:33<12:31:28,  3.48it/s] 58%|█████▊    | 214488/371472 [6:01:33<12:05:17,  3.61it/s] 58%|█████▊    | 214489/371472 [6:01:34<12:56:05,  3.37it/s] 58%|█████▊    | 214490/371472 [6:01:34<12:34:56,  3.47it/s] 58%|█████▊    | 214491/371472 [6:01:34<12:31:26,  3.48it/s] 58%|█████▊    | 214492/371472 [6:01:34<12:26:24,  3.51it/s] 58%|█████▊    | 214493/371472 [6:01:35<12:17:17,  3.55it/s] 58%|█████▊    | 214494/371472 [6:01:35<11:57:18,  3.65it/s] 58%|█████▊    | 214495/371472 [6:01:35<11:39:39,  3.74it/s] 58%|█████▊    | 214496/371472 [6:01:35<11:41:54,  3.73it/s] 58%|█████▊    | 214497/371472 [6:01:36<12:25:00,  3.51it/s] 58%|█████▊    | 214498/371472 [6:01:36<12:14:16,  3.56it/s] 58%|█████▊    | 214499/371472 [6:01:36<12:35:42,  3.46it/s] 58%|█████▊    | 214500/371472 [6:01:37<13:40:05,  3.19it/s]                                                            {'loss': 3.0215, 'learning_rate': 4.805156327436488e-07, 'epoch': 9.24}
 58%|█████▊    | 214500/371472 [6:01:37<13:40:05,  3.19it/s] 58%|█████▊    | 214501/371472 [6:01:37<13:16:38,  3.28it/s] 58%|█████▊    | 214502/371472 [6:01:37<13:30:14,  3.23it/s] 58%|█████▊    | 214503/371472 [6:01:38<14:37:26,  2.98it/s] 58%|█████▊    | 214504/371472 [6:01:38<14:00:37,  3.11it/s] 58%|█████▊    | 214505/371472 [6:01:38<14:03:56,  3.10it/s] 58%|█████▊    | 214506/371472 [6:01:39<13:19:48,  3.27it/s] 58%|█████▊    | 214507/371472 [6:01:39<12:41:44,  3.43it/s] 58%|█████▊    | 214508/371472 [6:01:39<12:17:41,  3.55it/s] 58%|█████▊    | 214509/371472 [6:01:39<12:14:38,  3.56it/s] 58%|█████▊    | 214510/371472 [6:01:40<12:21:27,  3.53it/s] 58%|█████▊    | 214511/371472 [6:01:40<12:01:29,  3.63it/s] 58%|█████▊    | 214512/371472 [6:01:40<12:05:01,  3.61it/s] 58%|█████▊    | 214513/371472 [6:01:40<12:07:24,  3.60it/s] 58%|█████▊    | 214514/371472 [6:01:41<12:17:32,  3.55it/s] 58%|█████▊    | 214515/371472 [6:01:41<12:43:43,  3.43it/s] 58%|█████▊    | 214516/371472 [6:01:41<12:18:25,  3.54it/s] 58%|█████▊    | 214517/371472 [6:01:42<11:59:00,  3.64it/s] 58%|█████▊    | 214518/371472 [6:01:42<11:53:48,  3.66it/s] 58%|█████▊    | 214519/371472 [6:01:42<11:52:21,  3.67it/s] 58%|█████▊    | 214520/371472 [6:01:42<12:42:25,  3.43it/s]                                                            {'loss': 2.8584, 'learning_rate': 4.804671507681699e-07, 'epoch': 9.24}
 58%|█████▊    | 214520/371472 [6:01:42<12:42:25,  3.43it/s] 58%|█████▊    | 214521/371472 [6:01:43<13:11:13,  3.31it/s] 58%|█████▊    | 214522/371472 [6:01:43<12:55:55,  3.37it/s] 58%|█████▊    | 214523/371472 [6:01:43<12:55:04,  3.37it/s] 58%|█████▊    | 214524/371472 [6:01:44<12:23:06,  3.52it/s] 58%|█████▊    | 214525/371472 [6:01:44<12:22:54,  3.52it/s] 58%|█████▊    | 214526/371472 [6:01:44<12:23:51,  3.52it/s] 58%|█████▊    | 214527/371472 [6:01:44<12:43:39,  3.43it/s] 58%|█████▊    | 214528/371472 [6:01:45<13:17:43,  3.28it/s] 58%|█████▊    | 214529/371472 [6:01:45<13:32:46,  3.22it/s] 58%|█████▊    | 214530/371472 [6:01:45<13:21:44,  3.26it/s] 58%|█████▊    | 214531/371472 [6:01:46<13:42:07,  3.18it/s] 58%|█████▊    | 214532/371472 [6:01:46<13:10:58,  3.31it/s] 58%|█████▊    | 214533/371472 [6:01:46<13:28:12,  3.24it/s] 58%|█████▊    | 214534/371472 [6:01:47<13:05:21,  3.33it/s] 58%|█████▊    | 214535/371472 [6:01:47<13:33:07,  3.22it/s] 58%|█████▊    | 214536/371472 [6:01:47<13:44:34,  3.17it/s] 58%|█████▊    | 214537/371472 [6:01:48<13:09:10,  3.31it/s] 58%|█████▊    | 214538/371472 [6:01:48<12:58:30,  3.36it/s] 58%|█████▊    | 214539/371472 [6:01:48<12:31:24,  3.48it/s] 58%|█████▊    | 214540/371472 [6:01:48<13:13:54,  3.29it/s]                                                            {'loss': 2.7037, 'learning_rate': 4.804186687926912e-07, 'epoch': 9.24}
 58%|█████▊    | 214540/371472 [6:01:48<13:13:54,  3.29it/s] 58%|█████▊    | 214541/371472 [6:01:49<12:27:22,  3.50it/s] 58%|█████▊    | 214542/371472 [6:01:49<12:39:39,  3.44it/s] 58%|█████▊    | 214543/371472 [6:01:49<12:57:16,  3.36it/s] 58%|█████▊    | 214544/371472 [6:01:50<12:34:07,  3.47it/s] 58%|█████▊    | 214545/371472 [6:01:50<13:05:27,  3.33it/s] 58%|█████▊    | 214546/371472 [6:01:50<12:43:22,  3.43it/s] 58%|█████▊    | 214547/371472 [6:01:51<13:42:22,  3.18it/s] 58%|█████▊    | 214548/371472 [6:01:51<12:59:47,  3.35it/s] 58%|█████▊    | 214549/371472 [6:01:51<12:41:42,  3.43it/s] 58%|█████▊    | 214550/371472 [6:01:51<12:34:17,  3.47it/s] 58%|█████▊    | 214551/371472 [6:01:52<13:13:26,  3.30it/s] 58%|█████▊    | 214552/371472 [6:01:52<13:10:35,  3.31it/s] 58%|█████▊    | 214553/371472 [6:01:52<12:50:58,  3.39it/s] 58%|█████▊    | 214554/371472 [6:01:53<12:56:43,  3.37it/s] 58%|█████▊    | 214555/371472 [6:01:53<12:12:22,  3.57it/s] 58%|█████▊    | 214556/371472 [6:01:53<12:20:59,  3.53it/s] 58%|█████▊    | 214557/371472 [6:01:53<12:41:34,  3.43it/s] 58%|█████▊    | 214558/371472 [6:01:54<13:31:26,  3.22it/s] 58%|█████▊    | 214559/371472 [6:01:54<13:47:03,  3.16it/s] 58%|█████▊    | 214560/371472 [6:01:54<13:16:59,  3.28it/s]                                                            {'loss': 2.8768, 'learning_rate': 4.803701868172121e-07, 'epoch': 9.24}
 58%|█████▊    | 214560/371472 [6:01:54<13:16:59,  3.28it/s] 58%|█████▊    | 214561/371472 [6:01:55<13:08:02,  3.32it/s] 58%|█████▊    | 214562/371472 [6:01:55<12:33:09,  3.47it/s] 58%|█████▊    | 214563/371472 [6:01:55<12:41:22,  3.43it/s] 58%|█████▊    | 214564/371472 [6:01:56<12:56:20,  3.37it/s] 58%|█████▊    | 214565/371472 [6:01:56<12:56:23,  3.37it/s] 58%|█████▊    | 214566/371472 [6:01:56<12:32:30,  3.48it/s] 58%|█████▊    | 214567/371472 [6:01:56<12:06:22,  3.60it/s] 58%|█████▊    | 214568/371472 [6:01:57<12:16:23,  3.55it/s] 58%|█████▊    | 214569/371472 [6:01:57<12:51:24,  3.39it/s] 58%|█████▊    | 214570/371472 [6:01:57<12:48:18,  3.40it/s] 58%|█████▊    | 214571/371472 [6:01:58<12:27:15,  3.50it/s] 58%|█████▊    | 214572/371472 [6:01:58<12:24:01,  3.51it/s] 58%|█████▊    | 214573/371472 [6:01:58<13:00:32,  3.35it/s] 58%|█████▊    | 214574/371472 [6:01:58<12:30:53,  3.48it/s] 58%|█████▊    | 214575/371472 [6:01:59<13:05:08,  3.33it/s] 58%|█████▊    | 214576/371472 [6:01:59<12:30:23,  3.48it/s] 58%|█████▊    | 214577/371472 [6:01:59<12:17:13,  3.55it/s] 58%|█████▊    | 214578/371472 [6:02:00<12:43:28,  3.43it/s] 58%|█████▊    | 214579/371472 [6:02:00<13:32:55,  3.22it/s] 58%|█████▊    | 214580/371472 [6:02:00<13:07:29,  3.32it/s]                                                            {'loss': 2.8096, 'learning_rate': 4.803217048417333e-07, 'epoch': 9.24}
 58%|█████▊    | 214580/371472 [6:02:00<13:07:29,  3.32it/s] 58%|█████▊    | 214581/371472 [6:02:01<12:41:24,  3.43it/s] 58%|█████▊    | 214582/371472 [6:02:01<12:23:23,  3.52it/s] 58%|█████▊    | 214583/371472 [6:02:01<12:17:09,  3.55it/s] 58%|█████▊    | 214584/371472 [6:02:01<11:58:59,  3.64it/s] 58%|█████▊    | 214585/371472 [6:02:02<12:08:52,  3.59it/s] 58%|█████▊    | 214586/371472 [6:02:02<12:15:13,  3.56it/s] 58%|█████▊    | 214587/371472 [6:02:02<12:26:45,  3.50it/s] 58%|█████▊    | 214588/371472 [6:02:02<12:41:17,  3.43it/s] 58%|█████▊    | 214589/371472 [6:02:03<12:16:37,  3.55it/s] 58%|█████▊    | 214590/371472 [6:02:03<12:13:11,  3.57it/s] 58%|█████▊    | 214591/371472 [6:02:03<12:07:22,  3.59it/s] 58%|█████▊    | 214592/371472 [6:02:04<11:51:59,  3.67it/s] 58%|█████▊    | 214593/371472 [6:02:04<12:23:48,  3.52it/s] 58%|█████▊    | 214594/371472 [6:02:04<12:50:49,  3.39it/s] 58%|█████▊    | 214595/371472 [6:02:04<12:41:07,  3.44it/s] 58%|█████▊    | 214596/371472 [6:02:05<13:19:02,  3.27it/s] 58%|█████▊    | 214597/371472 [6:02:05<12:36:53,  3.45it/s] 58%|█████▊    | 214598/371472 [6:02:05<12:32:19,  3.48it/s] 58%|█████▊    | 214599/371472 [6:02:06<13:25:19,  3.25it/s] 58%|█████▊    | 214600/371472 [6:02:06<13:01:13,  3.35it/s]                                                            {'loss': 3.0908, 'learning_rate': 4.802732228662544e-07, 'epoch': 9.24}
 58%|█████▊    | 214600/371472 [6:02:06<13:01:13,  3.35it/s] 58%|█████▊    | 214601/371472 [6:02:06<13:57:13,  3.12it/s] 58%|█████▊    | 214602/371472 [6:02:07<13:13:42,  3.29it/s] 58%|█████▊    | 214603/371472 [6:02:07<13:56:20,  3.13it/s] 58%|█████▊    | 214604/371472 [6:02:07<13:21:08,  3.26it/s] 58%|█████▊    | 214605/371472 [6:02:08<12:49:18,  3.40it/s] 58%|█████▊    | 214606/371472 [6:02:08<12:36:30,  3.46it/s] 58%|█████▊    | 214607/371472 [6:02:08<12:18:56,  3.54it/s] 58%|█████▊    | 214608/371472 [6:02:08<11:57:56,  3.64it/s] 58%|█████▊    | 214609/371472 [6:02:09<11:46:13,  3.70it/s] 58%|█████▊    | 214610/371472 [6:02:09<11:40:08,  3.73it/s] 58%|█████▊    | 214611/371472 [6:02:09<12:33:12,  3.47it/s] 58%|█████▊    | 214612/371472 [6:02:09<12:15:15,  3.56it/s] 58%|█████▊    | 214613/371472 [6:02:10<13:12:47,  3.30it/s] 58%|█████▊    | 214614/371472 [6:02:10<12:59:20,  3.35it/s] 58%|█████▊    | 214615/371472 [6:02:10<12:19:46,  3.53it/s] 58%|█████▊    | 214616/371472 [6:02:11<12:05:10,  3.61it/s] 58%|█████▊    | 214617/371472 [6:02:11<12:11:06,  3.58it/s] 58%|█████▊    | 214618/371472 [6:02:11<11:57:15,  3.64it/s] 58%|█████▊    | 214619/371472 [6:02:11<12:17:11,  3.55it/s] 58%|█████▊    | 214620/371472 [6:02:12<12:24:49,  3.51it/s]                                                            {'loss': 3.0427, 'learning_rate': 4.802247408907755e-07, 'epoch': 9.24}
 58%|█████▊    | 214620/371472 [6:02:12<12:24:49,  3.51it/s] 58%|█████▊    | 214621/371472 [6:02:12<12:10:40,  3.58it/s] 58%|█████▊    | 214622/371472 [6:02:12<12:05:23,  3.60it/s] 58%|█████▊    | 214623/371472 [6:02:13<11:43:29,  3.72it/s] 58%|█████▊    | 214624/371472 [6:02:13<11:20:48,  3.84it/s] 58%|█████▊    | 214625/371472 [6:02:13<12:10:59,  3.58it/s] 58%|█████▊    | 214626/371472 [6:02:13<12:09:26,  3.58it/s] 58%|█████▊    | 214627/371472 [6:02:14<12:14:27,  3.56it/s] 58%|█████▊    | 214628/371472 [6:02:14<12:35:59,  3.46it/s] 58%|█████▊    | 214629/371472 [6:02:14<12:24:37,  3.51it/s] 58%|█████▊    | 214630/371472 [6:02:15<12:24:26,  3.51it/s] 58%|█████▊    | 214631/371472 [6:02:15<12:10:18,  3.58it/s] 58%|█████▊    | 214632/371472 [6:02:15<12:36:34,  3.46it/s] 58%|█████▊    | 214633/371472 [6:02:15<12:26:42,  3.50it/s] 58%|█████▊    | 214634/371472 [6:02:16<12:02:29,  3.62it/s] 58%|█████▊    | 214635/371472 [6:02:16<12:23:37,  3.52it/s] 58%|█████▊    | 214636/371472 [6:02:16<13:06:51,  3.32it/s] 58%|█████▊    | 214637/371472 [6:02:17<12:44:45,  3.42it/s] 58%|█████▊    | 214638/371472 [6:02:17<12:56:13,  3.37it/s] 58%|█████▊    | 214639/371472 [6:02:17<12:14:58,  3.56it/s] 58%|█████▊    | 214640/371472 [6:02:17<12:08:14,  3.59it/s]                                                            {'loss': 2.889, 'learning_rate': 4.801762589152965e-07, 'epoch': 9.24}
 58%|█████▊    | 214640/371472 [6:02:17<12:08:14,  3.59it/s] 58%|█████▊    | 214641/371472 [6:02:18<11:50:08,  3.68it/s] 58%|█████▊    | 214642/371472 [6:02:18<11:27:57,  3.80it/s] 58%|█████▊    | 214643/371472 [6:02:18<11:08:21,  3.91it/s] 58%|█████▊    | 214644/371472 [6:02:18<10:54:26,  3.99it/s] 58%|█████▊    | 214645/371472 [6:02:19<12:09:53,  3.58it/s] 58%|█████▊    | 214646/371472 [6:02:19<12:10:40,  3.58it/s] 58%|█████▊    | 214647/371472 [6:02:19<11:59:33,  3.63it/s] 58%|█████▊    | 214648/371472 [6:02:19<11:47:17,  3.70it/s] 58%|█████▊    | 214649/371472 [6:02:20<11:41:21,  3.73it/s] 58%|█████▊    | 214650/371472 [6:02:20<11:38:35,  3.74it/s] 58%|█████▊    | 214651/371472 [6:02:20<11:30:25,  3.79it/s] 58%|█████▊    | 214652/371472 [6:02:21<11:18:44,  3.85it/s] 58%|█████▊    | 214653/371472 [6:02:21<11:36:15,  3.75it/s] 58%|█████▊    | 214654/371472 [6:02:21<12:00:20,  3.63it/s] 58%|█████▊    | 214655/371472 [6:02:21<11:51:38,  3.67it/s] 58%|█████▊    | 214656/371472 [6:02:22<15:09:31,  2.87it/s] 58%|█████▊    | 214657/371472 [6:02:22<15:02:13,  2.90it/s] 58%|█████▊    | 214658/371472 [6:02:23<14:04:22,  3.10it/s] 58%|█████▊    | 214659/371472 [6:02:23<12:55:17,  3.37it/s] 58%|█████▊    | 214660/371472 [6:02:23<12:29:46,  3.49it/s]                                                            {'loss': 3.197, 'learning_rate': 4.801277769398176e-07, 'epoch': 9.25}
 58%|█████▊    | 214660/371472 [6:02:23<12:29:46,  3.49it/s] 58%|█████▊    | 214661/371472 [6:02:23<12:48:47,  3.40it/s] 58%|█████▊    | 214662/371472 [6:02:24<13:41:08,  3.18it/s] 58%|█████▊    | 214663/371472 [6:02:24<12:48:48,  3.40it/s] 58%|█████▊    | 214664/371472 [6:02:24<12:11:42,  3.57it/s] 58%|█████▊    | 214665/371472 [6:02:24<12:10:22,  3.58it/s] 58%|█████▊    | 214666/371472 [6:02:25<12:18:53,  3.54it/s] 58%|█████▊    | 214667/371472 [6:02:25<11:50:41,  3.68it/s] 58%|█████▊    | 214668/371472 [6:02:25<11:59:36,  3.63it/s] 58%|█████▊    | 214669/371472 [6:02:26<12:52:59,  3.38it/s] 58%|█████▊    | 214670/371472 [6:02:26<12:38:30,  3.45it/s] 58%|█████▊    | 214671/371472 [6:02:26<12:06:48,  3.60it/s] 58%|█████▊    | 214672/371472 [6:02:26<12:35:54,  3.46it/s] 58%|█████▊    | 214673/371472 [6:02:27<12:16:24,  3.55it/s] 58%|█████▊    | 214674/371472 [6:02:27<12:12:42,  3.57it/s] 58%|█████▊    | 214675/371472 [6:02:27<12:54:02,  3.38it/s] 58%|█████▊    | 214676/371472 [6:02:28<12:38:25,  3.45it/s] 58%|█████▊    | 214677/371472 [6:02:28<12:58:30,  3.36it/s] 58%|█████▊    | 214678/371472 [6:02:28<12:22:14,  3.52it/s] 58%|█████▊    | 214679/371472 [6:02:28<12:53:39,  3.38it/s] 58%|█████▊    | 214680/371472 [6:02:29<12:26:55,  3.50it/s]                                                            {'loss': 2.8747, 'learning_rate': 4.800792949643388e-07, 'epoch': 9.25}
 58%|█████▊    | 214680/371472 [6:02:29<12:26:55,  3.50it/s] 58%|█████▊    | 214681/371472 [6:02:29<12:48:45,  3.40it/s] 58%|█████▊    | 214682/371472 [6:02:29<13:36:03,  3.20it/s] 58%|█████▊    | 214683/371472 [6:02:30<13:24:02,  3.25it/s] 58%|█████▊    | 214684/371472 [6:02:30<13:02:48,  3.34it/s] 58%|█████▊    | 214685/371472 [6:02:30<12:35:09,  3.46it/s] 58%|█████▊    | 214686/371472 [6:02:31<12:05:24,  3.60it/s] 58%|█████▊    | 214687/371472 [6:02:31<11:43:58,  3.71it/s] 58%|█████▊    | 214688/371472 [6:02:31<11:47:09,  3.70it/s] 58%|█████▊    | 214689/371472 [6:02:31<11:30:54,  3.78it/s] 58%|█████▊    | 214690/371472 [6:02:32<11:51:07,  3.67it/s] 58%|█████▊    | 214691/371472 [6:02:32<11:58:00,  3.64it/s] 58%|█████▊    | 214692/371472 [6:02:32<11:46:39,  3.70it/s] 58%|█████▊    | 214693/371472 [6:02:32<12:50:37,  3.39it/s] 58%|█████▊    | 214694/371472 [6:02:33<13:11:19,  3.30it/s] 58%|█████▊    | 214695/371472 [6:02:33<12:53:09,  3.38it/s] 58%|█████▊    | 214696/371472 [6:02:33<12:29:45,  3.48it/s] 58%|█████▊    | 214697/371472 [6:02:34<12:21:26,  3.52it/s] 58%|█████▊    | 214698/371472 [6:02:34<12:18:46,  3.54it/s] 58%|█████▊    | 214699/371472 [6:02:34<13:01:00,  3.35it/s] 58%|█████▊    | 214700/371472 [6:02:35<12:54:50,  3.37it/s]                                                            {'loss': 2.8654, 'learning_rate': 4.800308129888599e-07, 'epoch': 9.25}
 58%|█████▊    | 214700/371472 [6:02:35<12:54:50,  3.37it/s] 58%|█████▊    | 214701/371472 [6:02:35<13:08:26,  3.31it/s] 58%|█████▊    | 214702/371472 [6:02:35<12:18:52,  3.54it/s] 58%|█████▊    | 214703/371472 [6:02:35<12:43:43,  3.42it/s] 58%|█████▊    | 214704/371472 [6:02:36<12:36:10,  3.46it/s] 58%|█████▊    | 214705/371472 [6:02:36<12:13:17,  3.56it/s] 58%|█████▊    | 214706/371472 [6:02:36<11:49:39,  3.68it/s] 58%|█████▊    | 214707/371472 [6:02:36<12:10:37,  3.58it/s] 58%|█████▊    | 214708/371472 [6:02:37<12:33:48,  3.47it/s] 58%|█████▊    | 214709/371472 [6:02:37<12:01:54,  3.62it/s] 58%|█████▊    | 214710/371472 [6:02:37<12:54:32,  3.37it/s] 58%|█████▊    | 214711/371472 [6:02:38<12:12:49,  3.57it/s] 58%|█████▊    | 214712/371472 [6:02:38<12:13:39,  3.56it/s] 58%|█████▊    | 214713/371472 [6:02:38<12:18:00,  3.54it/s] 58%|█████▊    | 214714/371472 [6:02:39<13:08:14,  3.31it/s] 58%|█████▊    | 214715/371472 [6:02:39<14:35:33,  2.98it/s] 58%|█████▊    | 214716/371472 [6:02:39<14:10:43,  3.07it/s] 58%|█████▊    | 214717/371472 [6:02:40<13:33:51,  3.21it/s] 58%|█████▊    | 214718/371472 [6:02:40<12:52:12,  3.38it/s] 58%|█████▊    | 214719/371472 [6:02:40<12:36:45,  3.45it/s] 58%|█████▊    | 214720/371472 [6:02:40<12:33:26,  3.47it/s]                                                            {'loss': 2.9292, 'learning_rate': 4.79982331013381e-07, 'epoch': 9.25}
 58%|█████▊    | 214720/371472 [6:02:40<12:33:26,  3.47it/s] 58%|█████▊    | 214721/371472 [6:02:41<12:30:39,  3.48it/s] 58%|█████▊    | 214722/371472 [6:02:41<12:12:41,  3.57it/s] 58%|█████▊    | 214723/371472 [6:02:41<12:03:28,  3.61it/s] 58%|█████▊    | 214724/371472 [6:02:41<11:44:24,  3.71it/s] 58%|█████▊    | 214725/371472 [6:02:42<11:48:29,  3.69it/s] 58%|█████▊    | 214726/371472 [6:02:42<11:54:50,  3.65it/s] 58%|█████▊    | 214727/371472 [6:02:42<12:26:00,  3.50it/s] 58%|█████▊    | 214728/371472 [6:02:43<12:03:51,  3.61it/s] 58%|█████▊    | 214729/371472 [6:02:43<12:43:32,  3.42it/s] 58%|█████▊    | 214730/371472 [6:02:43<13:03:08,  3.34it/s] 58%|█████▊    | 214731/371472 [6:02:43<12:26:27,  3.50it/s] 58%|█████▊    | 214732/371472 [6:02:44<13:04:32,  3.33it/s] 58%|█████▊    | 214733/371472 [6:02:44<12:50:39,  3.39it/s] 58%|█████▊    | 214734/371472 [6:02:44<12:07:49,  3.59it/s] 58%|█████▊    | 214735/371472 [6:02:45<11:49:03,  3.68it/s] 58%|█████▊    | 214736/371472 [6:02:45<12:36:38,  3.45it/s] 58%|█████▊    | 214737/371472 [6:02:45<12:11:40,  3.57it/s] 58%|█████▊    | 214738/371472 [6:02:45<12:23:54,  3.51it/s] 58%|█████▊    | 214739/371472 [6:02:46<12:35:57,  3.46it/s] 58%|█████▊    | 214740/371472 [6:02:46<12:19:21,  3.53it/s]                                                            {'loss': 3.023, 'learning_rate': 4.799338490379021e-07, 'epoch': 9.25}
 58%|█████▊    | 214740/371472 [6:02:46<12:19:21,  3.53it/s] 58%|█████▊    | 214741/371472 [6:02:46<12:30:57,  3.48it/s] 58%|█████▊    | 214742/371472 [6:02:47<12:12:52,  3.56it/s] 58%|█████▊    | 214743/371472 [6:02:47<12:26:36,  3.50it/s] 58%|█████▊    | 214744/371472 [6:02:47<12:19:46,  3.53it/s] 58%|█████▊    | 214745/371472 [6:02:47<12:02:16,  3.62it/s] 58%|█████▊    | 214746/371472 [6:02:48<12:07:22,  3.59it/s] 58%|█████▊    | 214747/371472 [6:02:48<12:20:07,  3.53it/s] 58%|█████▊    | 214748/371472 [6:02:48<11:48:57,  3.68it/s] 58%|█████▊    | 214749/371472 [6:02:48<11:24:40,  3.82it/s] 58%|█████▊    | 214750/371472 [6:02:49<12:47:39,  3.40it/s] 58%|█████▊    | 214751/371472 [6:02:49<13:46:54,  3.16it/s] 58%|█████▊    | 214752/371472 [6:02:50<14:25:45,  3.02it/s] 58%|█████▊    | 214753/371472 [6:02:50<13:40:06,  3.18it/s] 58%|█████▊    | 214754/371472 [6:02:50<12:55:44,  3.37it/s] 58%|█████▊    | 214755/371472 [6:02:50<12:45:08,  3.41it/s] 58%|█████▊    | 214756/371472 [6:02:51<12:22:30,  3.52it/s] 58%|█████▊    | 214757/371472 [6:02:51<12:33:02,  3.47it/s] 58%|█████▊    | 214758/371472 [6:02:51<13:30:41,  3.22it/s] 58%|█████▊    | 214759/371472 [6:02:52<13:09:38,  3.31it/s] 58%|█████▊    | 214760/371472 [6:02:52<14:03:51,  3.10it/s]                                                            {'loss': 2.9824, 'learning_rate': 4.798853670624232e-07, 'epoch': 9.25}
 58%|█████▊    | 214760/371472 [6:02:52<14:03:51,  3.10it/s] 58%|█████▊    | 214761/371472 [6:02:52<13:38:34,  3.19it/s] 58%|█████▊    | 214762/371472 [6:02:53<13:35:25,  3.20it/s] 58%|█████▊    | 214763/371472 [6:02:53<13:33:22,  3.21it/s] 58%|█████▊    | 214764/371472 [6:02:53<13:49:51,  3.15it/s] 58%|█████▊    | 214765/371472 [6:02:53<13:13:00,  3.29it/s] 58%|█████▊    | 214766/371472 [6:02:54<12:44:17,  3.42it/s] 58%|█████▊    | 214767/371472 [6:02:54<12:23:27,  3.51it/s] 58%|█████▊    | 214768/371472 [6:02:54<12:44:23,  3.42it/s] 58%|█████▊    | 214769/371472 [6:02:55<12:34:42,  3.46it/s] 58%|█████▊    | 214770/371472 [6:02:55<12:30:16,  3.48it/s] 58%|█████▊    | 214771/371472 [6:02:55<13:23:18,  3.25it/s] 58%|█████▊    | 214772/371472 [6:02:56<14:53:51,  2.92it/s] 58%|█████▊    | 214773/371472 [6:02:56<13:49:40,  3.15it/s] 58%|█████▊    | 214774/371472 [6:02:56<13:52:58,  3.14it/s] 58%|█████▊    | 214775/371472 [6:02:57<13:19:53,  3.26it/s] 58%|█████▊    | 214776/371472 [6:02:57<13:23:59,  3.25it/s] 58%|█████▊    | 214777/371472 [6:02:57<12:43:35,  3.42it/s] 58%|█████▊    | 214778/371472 [6:02:57<12:38:42,  3.44it/s] 58%|█████▊    | 214779/371472 [6:02:58<12:32:07,  3.47it/s] 58%|█████▊    | 214780/371472 [6:02:58<12:41:54,  3.43it/s]                                                            {'loss': 3.0006, 'learning_rate': 4.798368850869442e-07, 'epoch': 9.25}
 58%|█████▊    | 214780/371472 [6:02:58<12:41:54,  3.43it/s] 58%|█████▊    | 214781/371472 [6:02:58<12:57:31,  3.36it/s] 58%|█████▊    | 214782/371472 [6:02:59<12:27:16,  3.49it/s] 58%|█████▊    | 214783/371472 [6:02:59<12:27:39,  3.49it/s] 58%|█████▊    | 214784/371472 [6:02:59<12:37:18,  3.45it/s] 58%|█████▊    | 214785/371472 [6:02:59<12:06:29,  3.59it/s] 58%|█████▊    | 214786/371472 [6:03:00<12:14:11,  3.56it/s] 58%|█████▊    | 214787/371472 [6:03:00<11:58:12,  3.64it/s] 58%|█████▊    | 214788/371472 [6:03:00<12:27:39,  3.49it/s] 58%|█████▊    | 214789/371472 [6:03:01<12:17:38,  3.54it/s] 58%|█████▊    | 214790/371472 [6:03:01<12:03:11,  3.61it/s] 58%|█████▊    | 214791/371472 [6:03:01<12:03:34,  3.61it/s] 58%|█████▊    | 214792/371472 [6:03:01<12:08:20,  3.59it/s] 58%|█████▊    | 214793/371472 [6:03:02<12:19:44,  3.53it/s] 58%|█████▊    | 214794/371472 [6:03:02<12:22:33,  3.52it/s] 58%|█████▊    | 214795/371472 [6:03:02<12:14:40,  3.55it/s] 58%|█████▊    | 214796/371472 [6:03:02<12:19:28,  3.53it/s] 58%|█████▊    | 214797/371472 [6:03:03<12:24:38,  3.51it/s] 58%|█████▊    | 214798/371472 [6:03:03<12:23:33,  3.51it/s] 58%|█████▊    | 214799/371472 [6:03:03<12:28:23,  3.49it/s] 58%|█████▊    | 214800/371472 [6:03:04<13:57:41,  3.12it/s]                                                            {'loss': 2.7657, 'learning_rate': 4.797884031114654e-07, 'epoch': 9.25}
 58%|█████▊    | 214800/371472 [6:03:04<13:57:41,  3.12it/s] 58%|█████▊    | 214801/371472 [6:03:04<13:36:14,  3.20it/s] 58%|█████▊    | 214802/371472 [6:03:04<13:19:08,  3.27it/s] 58%|█████▊    | 214803/371472 [6:03:05<13:01:18,  3.34it/s] 58%|█████▊    | 214804/371472 [6:03:05<13:58:01,  3.12it/s] 58%|█████▊    | 214805/371472 [6:03:05<13:33:45,  3.21it/s] 58%|█████▊    | 214806/371472 [6:03:06<12:54:09,  3.37it/s] 58%|█████▊    | 214807/371472 [6:03:06<12:55:16,  3.37it/s] 58%|█████▊    | 214808/371472 [6:03:06<13:28:20,  3.23it/s] 58%|█████▊    | 214809/371472 [6:03:06<13:43:15,  3.17it/s] 58%|█████▊    | 214810/371472 [6:03:07<13:49:33,  3.15it/s] 58%|█████▊    | 214811/371472 [6:03:07<13:41:08,  3.18it/s] 58%|█████▊    | 214812/371472 [6:03:07<13:33:35,  3.21it/s] 58%|█████▊    | 214813/371472 [6:03:08<13:10:41,  3.30it/s] 58%|█████▊    | 214814/371472 [6:03:08<12:25:38,  3.50it/s] 58%|█████▊    | 214815/371472 [6:03:08<12:20:52,  3.52it/s] 58%|█████▊    | 214816/371472 [6:03:09<12:22:49,  3.51it/s] 58%|█████▊    | 214817/371472 [6:03:09<12:25:22,  3.50it/s] 58%|█████▊    | 214818/371472 [6:03:09<12:13:23,  3.56it/s] 58%|█████▊    | 214819/371472 [6:03:09<12:26:36,  3.50it/s] 58%|█████▊    | 214820/371472 [6:03:10<12:05:04,  3.60it/s]                                                            {'loss': 3.0053, 'learning_rate': 4.797399211359865e-07, 'epoch': 9.25}
 58%|█████▊    | 214820/371472 [6:03:10<12:05:04,  3.60it/s] 58%|█████▊    | 214821/371472 [6:03:10<11:56:12,  3.65it/s] 58%|█████▊    | 214822/371472 [6:03:10<11:59:55,  3.63it/s] 58%|█████▊    | 214823/371472 [6:03:11<12:52:30,  3.38it/s] 58%|█████▊    | 214824/371472 [6:03:11<12:33:36,  3.46it/s] 58%|█████▊    | 214825/371472 [6:03:11<11:58:39,  3.63it/s] 58%|█████▊    | 214826/371472 [6:03:11<12:13:50,  3.56it/s] 58%|█████▊    | 214827/371472 [6:03:12<11:55:01,  3.65it/s] 58%|█████▊    | 214828/371472 [6:03:12<11:57:29,  3.64it/s] 58%|█████▊    | 214829/371472 [6:03:12<13:06:10,  3.32it/s] 58%|█████▊    | 214830/371472 [6:03:13<12:47:37,  3.40it/s] 58%|█████▊    | 214831/371472 [6:03:13<12:31:38,  3.47it/s] 58%|█████▊    | 214832/371472 [6:03:13<12:13:28,  3.56it/s] 58%|█████▊    | 214833/371472 [6:03:13<12:01:38,  3.62it/s] 58%|█████▊    | 214834/371472 [6:03:14<12:13:39,  3.56it/s] 58%|█████▊    | 214835/371472 [6:03:14<11:58:54,  3.63it/s] 58%|█████▊    | 214836/371472 [6:03:14<11:50:17,  3.68it/s] 58%|█████▊    | 214837/371472 [6:03:14<12:23:44,  3.51it/s] 58%|█████▊    | 214838/371472 [6:03:15<12:35:59,  3.45it/s] 58%|█████▊    | 214839/371472 [6:03:15<12:11:17,  3.57it/s] 58%|█████▊    | 214840/371472 [6:03:15<12:21:41,  3.52it/s]                                                            {'loss': 2.9001, 'learning_rate': 4.796914391605077e-07, 'epoch': 9.25}
 58%|█████▊    | 214840/371472 [6:03:15<12:21:41,  3.52it/s] 58%|█████▊    | 214841/371472 [6:03:16<12:24:12,  3.51it/s] 58%|█████▊    | 214842/371472 [6:03:16<13:32:07,  3.21it/s] 58%|█████▊    | 214843/371472 [6:03:16<12:46:18,  3.41it/s] 58%|█████▊    | 214844/371472 [6:03:16<12:16:57,  3.54it/s] 58%|█████▊    | 214845/371472 [6:03:17<11:50:15,  3.68it/s] 58%|█████▊    | 214846/371472 [6:03:17<11:37:44,  3.74it/s] 58%|█████▊    | 214847/371472 [6:03:17<11:35:49,  3.75it/s] 58%|█████▊    | 214848/371472 [6:03:18<14:08:32,  3.08it/s] 58%|█████▊    | 214849/371472 [6:03:18<13:12:15,  3.29it/s] 58%|█████▊    | 214850/371472 [6:03:18<13:05:51,  3.32it/s] 58%|█████▊    | 214851/371472 [6:03:19<12:35:17,  3.46it/s] 58%|█████▊    | 214852/371472 [6:03:19<12:27:17,  3.49it/s] 58%|█████▊    | 214853/371472 [6:03:19<12:08:51,  3.58it/s] 58%|█████▊    | 214854/371472 [6:03:19<12:49:10,  3.39it/s] 58%|█████▊    | 214855/371472 [6:03:20<13:07:43,  3.31it/s] 58%|█████▊    | 214856/371472 [6:03:20<13:08:42,  3.31it/s] 58%|█████▊    | 214857/371472 [6:03:20<13:14:00,  3.29it/s] 58%|█████▊    | 214858/371472 [6:03:21<12:28:24,  3.49it/s] 58%|█████▊    | 214859/371472 [6:03:21<12:35:04,  3.46it/s] 58%|█████▊    | 214860/371472 [6:03:21<12:06:22,  3.59it/s]                                                            {'loss': 2.8088, 'learning_rate': 4.796429571850287e-07, 'epoch': 9.25}
 58%|█████▊    | 214860/371472 [6:03:21<12:06:22,  3.59it/s] 58%|█████▊    | 214861/371472 [6:03:21<12:14:37,  3.55it/s] 58%|█████▊    | 214862/371472 [6:03:22<13:36:11,  3.20it/s] 58%|█████▊    | 214863/371472 [6:03:22<12:59:43,  3.35it/s] 58%|█████▊    | 214864/371472 [6:03:22<13:02:59,  3.33it/s] 58%|█████▊    | 214865/371472 [6:03:23<12:52:31,  3.38it/s] 58%|█████▊    | 214866/371472 [6:03:23<13:09:52,  3.30it/s] 58%|█████▊    | 214867/371472 [6:03:23<13:05:42,  3.32it/s] 58%|█████▊    | 214868/371472 [6:03:24<12:48:14,  3.40it/s] 58%|█████▊    | 214869/371472 [6:03:24<12:39:38,  3.44it/s] 58%|█████▊    | 214870/371472 [6:03:24<12:16:51,  3.54it/s] 58%|█████▊    | 214871/371472 [6:03:24<12:35:38,  3.45it/s] 58%|█████▊    | 214872/371472 [6:03:25<12:43:15,  3.42it/s] 58%|█████▊    | 214873/371472 [6:03:25<12:44:42,  3.41it/s] 58%|█████▊    | 214874/371472 [6:03:25<12:13:51,  3.56it/s] 58%|█████▊    | 214875/371472 [6:03:26<12:05:04,  3.60it/s] 58%|█████▊    | 214876/371472 [6:03:26<11:59:47,  3.63it/s] 58%|█████▊    | 214877/371472 [6:03:26<11:48:51,  3.68it/s] 58%|█████▊    | 214878/371472 [6:03:26<12:01:50,  3.62it/s] 58%|█████▊    | 214879/371472 [6:03:27<12:42:37,  3.42it/s] 58%|█████▊    | 214880/371472 [6:03:27<12:37:00,  3.45it/s]                                                            {'loss': 2.9972, 'learning_rate': 4.795944752095498e-07, 'epoch': 9.26}
 58%|█████▊    | 214880/371472 [6:03:27<12:37:00,  3.45it/s] 58%|█████▊    | 214881/371472 [6:03:27<12:21:00,  3.52it/s] 58%|█████▊    | 214882/371472 [6:03:28<13:08:26,  3.31it/s] 58%|█████▊    | 214883/371472 [6:03:28<12:44:42,  3.41it/s] 58%|█████▊    | 214884/371472 [6:03:28<13:01:07,  3.34it/s] 58%|█████▊    | 214885/371472 [6:03:28<12:40:53,  3.43it/s] 58%|█████▊    | 214886/371472 [6:03:29<16:01:25,  2.71it/s] 58%|█████▊    | 214887/371472 [6:03:29<14:31:06,  3.00it/s] 58%|█████▊    | 214888/371472 [6:03:30<14:01:44,  3.10it/s] 58%|█████▊    | 214889/371472 [6:03:30<13:33:42,  3.21it/s] 58%|█████▊    | 214890/371472 [6:03:30<12:57:47,  3.36it/s] 58%|█████▊    | 214891/371472 [6:03:30<12:50:32,  3.39it/s] 58%|█████▊    | 214892/371472 [6:03:31<12:40:13,  3.43it/s] 58%|█████▊    | 214893/371472 [6:03:31<13:07:47,  3.31it/s] 58%|█████▊    | 214894/371472 [6:03:31<12:46:55,  3.40it/s] 58%|█████▊    | 214895/371472 [6:03:32<13:03:03,  3.33it/s] 58%|█████▊    | 214896/371472 [6:03:32<12:28:24,  3.49it/s] 58%|█████▊    | 214897/371472 [6:03:32<12:59:01,  3.35it/s] 58%|█████▊    | 214898/371472 [6:03:32<12:32:07,  3.47it/s] 58%|█████▊    | 214899/371472 [6:03:33<12:00:22,  3.62it/s] 58%|█████▊    | 214900/371472 [6:03:33<12:22:17,  3.52it/s]                                                            {'loss': 3.0297, 'learning_rate': 4.795459932340709e-07, 'epoch': 9.26}
 58%|█████▊    | 214900/371472 [6:03:33<12:22:17,  3.52it/s] 58%|█████▊    | 214901/371472 [6:03:33<12:24:55,  3.50it/s] 58%|█████▊    | 214902/371472 [6:03:34<12:38:19,  3.44it/s] 58%|█████▊    | 214903/371472 [6:03:34<13:13:40,  3.29it/s] 58%|█████▊    | 214904/371472 [6:03:34<12:38:22,  3.44it/s] 58%|█████▊    | 214905/371472 [6:03:34<12:30:11,  3.48it/s] 58%|█████▊    | 214906/371472 [6:03:35<12:14:49,  3.55it/s] 58%|█████▊    | 214907/371472 [6:03:35<12:17:34,  3.54it/s] 58%|█████▊    | 214908/371472 [6:03:35<11:56:13,  3.64it/s] 58%|█████▊    | 214909/371472 [6:03:36<12:01:38,  3.62it/s] 58%|█████▊    | 214910/371472 [6:03:36<12:47:44,  3.40it/s] 58%|█████▊    | 214911/371472 [6:03:36<12:41:17,  3.43it/s] 58%|█████▊    | 214912/371472 [6:03:36<12:50:26,  3.39it/s] 58%|█████▊    | 214913/371472 [6:03:37<13:00:26,  3.34it/s] 58%|█████▊    | 214914/371472 [6:03:37<13:02:46,  3.33it/s] 58%|█████▊    | 214915/371472 [6:03:37<12:43:55,  3.42it/s] 58%|█████▊    | 214916/371472 [6:03:38<12:29:32,  3.48it/s] 58%|█████▊    | 214917/371472 [6:03:38<12:58:00,  3.35it/s] 58%|█████▊    | 214918/371472 [6:03:38<12:20:44,  3.52it/s] 58%|█████▊    | 214919/371472 [6:03:38<12:26:52,  3.49it/s] 58%|█████▊    | 214920/371472 [6:03:39<12:10:18,  3.57it/s]                                                            {'loss': 2.8502, 'learning_rate': 4.794975112585922e-07, 'epoch': 9.26}
 58%|█████▊    | 214920/371472 [6:03:39<12:10:18,  3.57it/s] 58%|█████▊    | 214921/371472 [6:03:39<12:36:33,  3.45it/s] 58%|█████▊    | 214922/371472 [6:03:39<13:07:20,  3.31it/s] 58%|█████▊    | 214923/371472 [6:03:40<13:32:43,  3.21it/s] 58%|█████▊    | 214924/371472 [6:03:40<13:18:24,  3.27it/s] 58%|█████▊    | 214925/371472 [6:03:40<12:43:50,  3.42it/s] 58%|█████▊    | 214926/371472 [6:03:41<12:22:01,  3.52it/s] 58%|█████▊    | 214927/371472 [6:03:41<12:06:05,  3.59it/s] 58%|█████▊    | 214928/371472 [6:03:41<11:55:03,  3.65it/s] 58%|█████▊    | 214929/371472 [6:03:41<12:23:40,  3.51it/s] 58%|█████▊    | 214930/371472 [6:03:42<11:50:55,  3.67it/s] 58%|█████▊    | 214931/371472 [6:03:42<11:34:46,  3.76it/s] 58%|█████▊    | 214932/371472 [6:03:42<11:28:32,  3.79it/s] 58%|█████▊    | 214933/371472 [6:03:42<11:23:43,  3.82it/s] 58%|█████▊    | 214934/371472 [6:03:43<11:08:35,  3.90it/s] 58%|█████▊    | 214935/371472 [6:03:43<11:15:52,  3.86it/s] 58%|█████▊    | 214936/371472 [6:03:43<12:08:41,  3.58it/s] 58%|█████▊    | 214937/371472 [6:03:43<11:57:14,  3.64it/s] 58%|█████▊    | 214938/371472 [6:03:44<11:32:43,  3.77it/s] 58%|█████▊    | 214939/371472 [6:03:44<11:25:57,  3.80it/s] 58%|█████▊    | 214940/371472 [6:03:44<11:25:14,  3.81it/s]                                                            {'loss': 3.1246, 'learning_rate': 4.794490292831131e-07, 'epoch': 9.26}
 58%|█████▊    | 214940/371472 [6:03:44<11:25:14,  3.81it/s] 58%|█████▊    | 214941/371472 [6:03:45<12:27:24,  3.49it/s] 58%|█████▊    | 214942/371472 [6:03:45<11:59:55,  3.62it/s] 58%|█████▊    | 214943/371472 [6:03:45<12:04:30,  3.60it/s] 58%|█████▊    | 214944/371472 [6:03:45<11:57:46,  3.63it/s] 58%|█████▊    | 214945/371472 [6:03:46<11:51:12,  3.67it/s] 58%|█████▊    | 214946/371472 [6:03:46<11:49:27,  3.68it/s] 58%|█████▊    | 214947/371472 [6:03:46<11:41:49,  3.72it/s] 58%|█████▊    | 214948/371472 [6:03:47<12:38:32,  3.44it/s] 58%|█████▊    | 214949/371472 [6:03:47<13:06:22,  3.32it/s] 58%|█████▊    | 214950/371472 [6:03:47<12:31:11,  3.47it/s] 58%|█████▊    | 214951/371472 [6:03:47<12:29:01,  3.48it/s] 58%|█████▊    | 214952/371472 [6:03:48<12:18:44,  3.53it/s] 58%|█████▊    | 214953/371472 [6:03:48<12:09:31,  3.58it/s] 58%|█████▊    | 214954/371472 [6:03:48<12:57:06,  3.36it/s] 58%|█████▊    | 214955/371472 [6:03:49<12:28:27,  3.49it/s] 58%|█████▊    | 214956/371472 [6:03:49<12:08:17,  3.58it/s] 58%|█████▊    | 214957/371472 [6:03:49<12:10:20,  3.57it/s] 58%|█████▊    | 214958/371472 [6:03:49<12:08:43,  3.58it/s] 58%|█████▊    | 214959/371472 [6:03:50<13:16:46,  3.27it/s] 58%|█████▊    | 214960/371472 [6:03:50<12:27:21,  3.49it/s]                                                            {'loss': 3.0184, 'learning_rate': 4.794005473076343e-07, 'epoch': 9.26}
 58%|█████▊    | 214960/371472 [6:03:50<12:27:21,  3.49it/s] 58%|█████▊    | 214961/371472 [6:03:50<13:00:58,  3.34it/s] 58%|█████▊    | 214962/371472 [6:03:51<12:31:00,  3.47it/s] 58%|█████▊    | 214963/371472 [6:03:51<12:10:39,  3.57it/s] 58%|█████▊    | 214964/371472 [6:03:51<11:50:20,  3.67it/s] 58%|█████▊    | 214965/371472 [6:03:51<12:23:10,  3.51it/s] 58%|█████▊    | 214966/371472 [6:03:52<12:26:45,  3.49it/s] 58%|█████▊    | 214967/371472 [6:03:52<12:01:28,  3.62it/s] 58%|█████▊    | 214968/371472 [6:03:52<12:35:31,  3.45it/s] 58%|█████▊    | 214969/371472 [6:03:53<13:29:57,  3.22it/s] 58%|█████▊    | 214970/371472 [6:03:53<13:09:22,  3.30it/s] 58%|█████▊    | 214971/371472 [6:03:53<13:09:20,  3.30it/s] 58%|█████▊    | 214972/371472 [6:03:53<12:37:18,  3.44it/s] 58%|█████▊    | 214973/371472 [6:03:54<12:53:17,  3.37it/s] 58%|█████▊    | 214974/371472 [6:03:54<12:23:53,  3.51it/s] 58%|█████▊    | 214975/371472 [6:03:54<12:21:24,  3.52it/s] 58%|█████▊    | 214976/371472 [6:03:55<12:07:48,  3.58it/s] 58%|█████▊    | 214977/371472 [6:03:55<11:52:48,  3.66it/s] 58%|█████▊    | 214978/371472 [6:03:55<11:47:45,  3.69it/s] 58%|█████▊    | 214979/371472 [6:03:55<12:02:04,  3.61it/s] 58%|█████▊    | 214980/371472 [6:03:56<12:20:09,  3.52it/s]                                                            {'loss': 2.8094, 'learning_rate': 4.793520653321554e-07, 'epoch': 9.26}
 58%|█████▊    | 214980/371472 [6:03:56<12:20:09,  3.52it/s] 58%|█████▊    | 214981/371472 [6:03:56<13:14:25,  3.28it/s] 58%|█████▊    | 214982/371472 [6:03:56<13:18:36,  3.27it/s] 58%|█████▊    | 214983/371472 [6:03:57<12:44:54,  3.41it/s] 58%|█████▊    | 214984/371472 [6:03:57<12:34:35,  3.46it/s] 58%|█████▊    | 214985/371472 [6:03:57<12:38:02,  3.44it/s] 58%|█████▊    | 214986/371472 [6:03:57<12:11:33,  3.57it/s] 58%|█████▊    | 214987/371472 [6:03:58<12:16:23,  3.54it/s] 58%|█████▊    | 214988/371472 [6:03:58<11:47:48,  3.68it/s] 58%|█████▊    | 214989/371472 [6:03:58<12:19:03,  3.53it/s] 58%|█████▊    | 214990/371472 [6:03:59<12:51:53,  3.38it/s] 58%|█████▊    | 214991/371472 [6:03:59<12:52:39,  3.38it/s] 58%|█████▊    | 214992/371472 [6:03:59<12:26:27,  3.49it/s] 58%|█████▊    | 214993/371472 [6:03:59<12:27:54,  3.49it/s] 58%|█████▊    | 214994/371472 [6:04:00<12:06:15,  3.59it/s] 58%|█████▊    | 214995/371472 [6:04:00<12:06:05,  3.59it/s] 58%|█████▊    | 214996/371472 [6:04:00<12:04:47,  3.60it/s] 58%|█████▊    | 214997/371472 [6:04:01<12:07:56,  3.58it/s] 58%|█████▊    | 214998/371472 [6:04:01<12:19:54,  3.52it/s] 58%|█████▊    | 214999/371472 [6:04:01<12:45:46,  3.41it/s] 58%|█████▊    | 215000/371472 [6:04:02<13:39:15,  3.18it/s]                                                            {'loss': 2.9469, 'learning_rate': 4.793035833566765e-07, 'epoch': 9.26}
 58%|█████▊    | 215000/371472 [6:04:02<13:39:15,  3.18it/s] 58%|█████▊    | 215001/371472 [6:04:02<13:11:19,  3.30it/s] 58%|█████▊    | 215002/371472 [6:04:02<12:52:54,  3.37it/s] 58%|█████▊    | 215003/371472 [6:04:02<12:20:07,  3.52it/s] 58%|█████▊    | 215004/371472 [6:04:03<12:05:46,  3.59it/s] 58%|█████▊    | 215005/371472 [6:04:03<12:07:56,  3.58it/s] 58%|█████▊    | 215006/371472 [6:04:03<12:04:39,  3.60it/s] 58%|█████▊    | 215007/371472 [6:04:03<12:12:18,  3.56it/s] 58%|█████▊    | 215008/371472 [6:04:04<11:58:26,  3.63it/s] 58%|█████▊    | 215009/371472 [6:04:04<12:43:18,  3.42it/s] 58%|█████▊    | 215010/371472 [6:04:04<12:44:56,  3.41it/s] 58%|█████▊    | 215011/371472 [6:04:05<12:11:33,  3.56it/s] 58%|█████▊    | 215012/371472 [6:04:05<12:45:24,  3.41it/s] 58%|█████▊    | 215013/371472 [6:04:05<13:34:07,  3.20it/s] 58%|█████▊    | 215014/371472 [6:04:06<12:59:05,  3.35it/s] 58%|█████▊    | 215015/371472 [6:04:06<13:35:03,  3.20it/s] 58%|█████▊    | 215016/371472 [6:04:06<12:37:40,  3.44it/s] 58%|█████▊    | 215017/371472 [6:04:06<12:40:06,  3.43it/s] 58%|█████▊    | 215018/371472 [6:04:07<13:13:46,  3.29it/s] 58%|█████▊    | 215019/371472 [6:04:07<13:19:13,  3.26it/s] 58%|█████▊    | 215020/371472 [6:04:07<12:40:18,  3.43it/s]                                                            {'loss': 2.9541, 'learning_rate': 4.792551013811975e-07, 'epoch': 9.26}
 58%|█████▊    | 215020/371472 [6:04:07<12:40:18,  3.43it/s] 58%|█████▊    | 215021/371472 [6:04:08<12:12:14,  3.56it/s] 58%|█████▊    | 215022/371472 [6:04:08<12:00:58,  3.62it/s] 58%|█████▊    | 215023/371472 [6:04:08<11:50:31,  3.67it/s] 58%|█████▊    | 215024/371472 [6:04:08<12:09:28,  3.57it/s] 58%|█████▊    | 215025/371472 [6:04:09<12:03:07,  3.61it/s] 58%|█████▊    | 215026/371472 [6:04:09<11:41:19,  3.72it/s] 58%|█████▊    | 215027/371472 [6:04:09<11:35:30,  3.75it/s] 58%|█████▊    | 215028/371472 [6:04:10<12:40:52,  3.43it/s] 58%|█████▊    | 215029/371472 [6:04:10<12:19:55,  3.52it/s] 58%|█████▊    | 215030/371472 [6:04:10<11:52:25,  3.66it/s] 58%|█████▊    | 215031/371472 [6:04:10<12:47:08,  3.40it/s] 58%|█████▊    | 215032/371472 [6:04:11<12:51:35,  3.38it/s] 58%|█████▊    | 215033/371472 [6:04:11<12:38:26,  3.44it/s] 58%|█████▊    | 215034/371472 [6:04:11<12:46:09,  3.40it/s] 58%|█████▊    | 215035/371472 [6:04:12<12:52:40,  3.37it/s] 58%|█████▊    | 215036/371472 [6:04:12<13:16:39,  3.27it/s] 58%|█████▊    | 215037/371472 [6:04:12<12:59:35,  3.34it/s] 58%|█████▊    | 215038/371472 [6:04:12<12:45:55,  3.40it/s] 58%|█████▊    | 215039/371472 [6:04:13<12:33:50,  3.46it/s] 58%|█████▊    | 215040/371472 [6:04:13<12:32:41,  3.46it/s]                                                            {'loss': 2.9892, 'learning_rate': 4.792066194057188e-07, 'epoch': 9.26}
 58%|█████▊    | 215040/371472 [6:04:13<12:32:41,  3.46it/s] 58%|█████▊    | 215041/371472 [6:04:13<12:33:09,  3.46it/s] 58%|█████▊    | 215042/371472 [6:04:14<12:38:54,  3.44it/s] 58%|█████▊    | 215043/371472 [6:04:14<12:39:57,  3.43it/s] 58%|█████▊    | 215044/371472 [6:04:14<12:51:55,  3.38it/s] 58%|█████▊    | 215045/371472 [6:04:14<12:37:59,  3.44it/s] 58%|█████▊    | 215046/371472 [6:04:15<12:19:53,  3.52it/s] 58%|█████▊    | 215047/371472 [6:04:15<12:08:41,  3.58it/s] 58%|█████▊    | 215048/371472 [6:04:15<13:22:09,  3.25it/s] 58%|█████▊    | 215049/371472 [6:04:16<13:44:50,  3.16it/s] 58%|█████▊    | 215050/371472 [6:04:16<13:33:06,  3.21it/s] 58%|█████▊    | 215051/371472 [6:04:16<13:19:02,  3.26it/s] 58%|█████▊    | 215052/371472 [6:04:17<13:29:35,  3.22it/s] 58%|█████▊    | 215053/371472 [6:04:17<13:53:35,  3.13it/s] 58%|█████▊    | 215054/371472 [6:04:17<13:16:11,  3.27it/s] 58%|█████▊    | 215055/371472 [6:04:18<12:42:47,  3.42it/s] 58%|█████▊    | 215056/371472 [6:04:18<12:34:20,  3.46it/s] 58%|█████▊    | 215057/371472 [6:04:18<12:08:58,  3.58it/s] 58%|█████▊    | 215058/371472 [6:04:18<11:58:51,  3.63it/s] 58%|█████▊    | 215059/371472 [6:04:19<11:41:35,  3.72it/s] 58%|█████▊    | 215060/371472 [6:04:19<11:28:46,  3.78it/s]                                                            {'loss': 2.9528, 'learning_rate': 4.791581374302398e-07, 'epoch': 9.26}
 58%|█████▊    | 215060/371472 [6:04:19<11:28:46,  3.78it/s] 58%|█████▊    | 215061/371472 [6:04:19<11:46:48,  3.69it/s] 58%|█████▊    | 215062/371472 [6:04:19<11:57:07,  3.64it/s] 58%|█████▊    | 215063/371472 [6:04:20<11:57:31,  3.63it/s] 58%|█████▊    | 215064/371472 [6:04:20<12:25:45,  3.50it/s] 58%|█████▊    | 215065/371472 [6:04:20<12:01:48,  3.61it/s] 58%|█████▊    | 215066/371472 [6:04:21<11:47:29,  3.68it/s] 58%|█████▊    | 215067/371472 [6:04:21<12:14:30,  3.55it/s] 58%|█████▊    | 215068/371472 [6:04:21<12:20:36,  3.52it/s] 58%|█████▊    | 215069/371472 [6:04:21<12:54:30,  3.37it/s] 58%|█████▊    | 215070/371472 [6:04:22<13:03:21,  3.33it/s] 58%|█████▊    | 215071/371472 [6:04:22<13:21:29,  3.25it/s] 58%|█████▊    | 215072/371472 [6:04:22<13:13:44,  3.28it/s] 58%|█████▊    | 215073/371472 [6:04:23<13:18:46,  3.26it/s] 58%|█████▊    | 215074/371472 [6:04:23<12:36:42,  3.44it/s] 58%|█████▊    | 215075/371472 [6:04:23<12:47:02,  3.40it/s] 58%|█████▊    | 215076/371472 [6:04:24<12:46:33,  3.40it/s] 58%|█████▊    | 215077/371472 [6:04:24<12:21:31,  3.52it/s] 58%|█████▊    | 215078/371472 [6:04:24<12:06:47,  3.59it/s] 58%|█████▊    | 215079/371472 [6:04:24<11:55:25,  3.64it/s] 58%|█████▊    | 215080/371472 [6:04:25<12:03:34,  3.60it/s]                                                            {'loss': 2.9194, 'learning_rate': 4.79109655454761e-07, 'epoch': 9.26}
 58%|█████▊    | 215080/371472 [6:04:25<12:03:34,  3.60it/s] 58%|█████▊    | 215081/371472 [6:04:25<12:04:08,  3.60it/s] 58%|█████▊    | 215082/371472 [6:04:25<13:22:52,  3.25it/s] 58%|█████▊    | 215083/371472 [6:04:26<12:39:34,  3.43it/s] 58%|█████▊    | 215084/371472 [6:04:26<12:15:57,  3.54it/s] 58%|█████▊    | 215085/371472 [6:04:26<13:36:01,  3.19it/s] 58%|█████▊    | 215086/371472 [6:04:26<13:13:45,  3.28it/s] 58%|█████▊    | 215087/371472 [6:04:27<13:32:00,  3.21it/s] 58%|█████▊    | 215088/371472 [6:04:27<13:24:59,  3.24it/s] 58%|█████▊    | 215089/371472 [6:04:27<13:21:11,  3.25it/s] 58%|█████▊    | 215090/371472 [6:04:28<12:50:19,  3.38it/s] 58%|█████▊    | 215091/371472 [6:04:28<12:32:18,  3.46it/s] 58%|█████▊    | 215092/371472 [6:04:28<12:04:24,  3.60it/s] 58%|█████▊    | 215093/371472 [6:04:28<12:39:33,  3.43it/s] 58%|█████▊    | 215094/371472 [6:04:29<12:18:46,  3.53it/s] 58%|█████▊    | 215095/371472 [6:04:29<12:02:36,  3.61it/s] 58%|█████▊    | 215096/371472 [6:04:29<12:22:15,  3.51it/s] 58%|█████▊    | 215097/371472 [6:04:30<12:42:27,  3.42it/s] 58%|█████▊    | 215098/371472 [6:04:30<12:18:44,  3.53it/s] 58%|█████▊    | 215099/371472 [6:04:30<12:42:55,  3.42it/s] 58%|█████▊    | 215100/371472 [6:04:30<12:27:10,  3.49it/s]                                                            {'loss': 2.9607, 'learning_rate': 4.79061173479282e-07, 'epoch': 9.26}
 58%|█████▊    | 215100/371472 [6:04:30<12:27:10,  3.49it/s] 58%|█████▊    | 215101/371472 [6:04:31<12:02:54,  3.61it/s] 58%|█████▊    | 215102/371472 [6:04:31<11:54:46,  3.65it/s] 58%|█████▊    | 215103/371472 [6:04:31<11:43:29,  3.70it/s] 58%|█████▊    | 215104/371472 [6:04:32<11:46:55,  3.69it/s] 58%|█████▊    | 215105/371472 [6:04:32<12:17:27,  3.53it/s] 58%|█████▊    | 215106/371472 [6:04:32<12:52:41,  3.37it/s] 58%|█████▊    | 215107/371472 [6:04:32<12:42:46,  3.42it/s] 58%|█████▊    | 215108/371472 [6:04:33<12:19:56,  3.52it/s] 58%|█████▊    | 215109/371472 [6:04:33<13:11:28,  3.29it/s] 58%|█████▊    | 215110/371472 [6:04:33<12:29:50,  3.48it/s] 58%|█████▊    | 215111/371472 [6:04:34<11:57:33,  3.63it/s] 58%|█████▊    | 215112/371472 [6:04:34<12:00:20,  3.62it/s] 58%|█████▊    | 215113/371472 [6:04:34<12:39:25,  3.43it/s] 58%|█████▊    | 215114/371472 [6:04:34<12:28:56,  3.48it/s] 58%|█████▊    | 215115/371472 [6:04:35<12:16:37,  3.54it/s] 58%|█████▊    | 215116/371472 [6:04:35<11:55:12,  3.64it/s] 58%|█████▊    | 215117/371472 [6:04:35<11:36:56,  3.74it/s] 58%|█████▊    | 215118/371472 [6:04:36<11:35:54,  3.74it/s] 58%|█████▊    | 215119/371472 [6:04:36<11:36:07,  3.74it/s] 58%|█████▊    | 215120/371472 [6:04:36<11:56:26,  3.64it/s]                                                            {'loss': 3.0778, 'learning_rate': 4.790126915038031e-07, 'epoch': 9.27}
 58%|█████▊    | 215120/371472 [6:04:36<11:56:26,  3.64it/s] 58%|█████▊    | 215121/371472 [6:04:36<12:30:46,  3.47it/s] 58%|█████▊    | 215122/371472 [6:04:37<12:32:45,  3.46it/s] 58%|█████▊    | 215123/371472 [6:04:37<12:41:34,  3.42it/s] 58%|█████▊    | 215124/371472 [6:04:37<12:44:31,  3.41it/s] 58%|█████▊    | 215125/371472 [6:04:38<13:13:49,  3.28it/s] 58%|█████▊    | 215126/371472 [6:04:38<12:32:00,  3.47it/s] 58%|█████▊    | 215127/371472 [6:04:38<12:15:37,  3.54it/s] 58%|█████▊    | 215128/371472 [6:04:38<12:24:04,  3.50it/s] 58%|█████▊    | 215129/371472 [6:04:39<12:26:54,  3.49it/s] 58%|█████▊    | 215130/371472 [6:04:39<12:05:33,  3.59it/s] 58%|█████▊    | 215131/371472 [6:04:39<12:03:17,  3.60it/s] 58%|█████▊    | 215132/371472 [6:04:39<11:38:03,  3.73it/s] 58%|█████▊    | 215133/371472 [6:04:40<11:47:32,  3.68it/s] 58%|█████▊    | 215134/371472 [6:04:40<11:29:46,  3.78it/s] 58%|█████▊    | 215135/371472 [6:04:40<11:46:18,  3.69it/s] 58%|█████▊    | 215136/371472 [6:04:41<11:38:22,  3.73it/s] 58%|█████▊    | 215137/371472 [6:04:41<12:40:50,  3.42it/s] 58%|█████▊    | 215138/371472 [6:04:41<12:56:24,  3.36it/s] 58%|█████▊    | 215139/371472 [6:04:42<14:31:43,  2.99it/s] 58%|█████▊    | 215140/371472 [6:04:42<14:11:32,  3.06it/s]                                                            {'loss': 2.8711, 'learning_rate': 4.789642095283242e-07, 'epoch': 9.27}
 58%|█████▊    | 215140/371472 [6:04:42<14:11:32,  3.06it/s] 58%|█████▊    | 215141/371472 [6:04:42<13:32:59,  3.20it/s] 58%|█████▊    | 215142/371472 [6:04:43<13:12:36,  3.29it/s] 58%|█████▊    | 215143/371472 [6:04:43<13:36:37,  3.19it/s] 58%|█████▊    | 215144/371472 [6:04:43<13:01:45,  3.33it/s] 58%|█████▊    | 215145/371472 [6:04:43<12:56:14,  3.36it/s] 58%|█████▊    | 215146/371472 [6:04:44<12:17:44,  3.53it/s] 58%|█████▊    | 215147/371472 [6:04:44<12:22:09,  3.51it/s] 58%|█████▊    | 215148/371472 [6:04:44<11:53:07,  3.65it/s] 58%|█████▊    | 215149/371472 [6:04:44<11:41:28,  3.71it/s] 58%|█████▊    | 215150/371472 [6:04:45<12:22:50,  3.51it/s] 58%|█████▊    | 215151/371472 [6:04:45<11:54:54,  3.64it/s] 58%|█████▊    | 215152/371472 [6:04:45<11:34:08,  3.75it/s] 58%|█████▊    | 215153/371472 [6:04:46<11:51:20,  3.66it/s] 58%|█████▊    | 215154/371472 [6:04:46<13:03:27,  3.33it/s] 58%|█████▊    | 215155/371472 [6:04:46<12:34:22,  3.45it/s] 58%|█████▊    | 215156/371472 [6:04:46<12:08:30,  3.58it/s] 58%|█████▊    | 215157/371472 [6:04:47<12:10:29,  3.57it/s] 58%|█████▊    | 215158/371472 [6:04:47<12:17:31,  3.53it/s] 58%|█████▊    | 215159/371472 [6:04:47<12:52:07,  3.37it/s] 58%|█████▊    | 215160/371472 [6:04:48<12:31:39,  3.47it/s]                                                            {'loss': 2.9788, 'learning_rate': 4.789157275528452e-07, 'epoch': 9.27}
 58%|█████▊    | 215160/371472 [6:04:48<12:31:39,  3.47it/s] 58%|█████▊    | 215161/371472 [6:04:48<13:03:12,  3.33it/s] 58%|█████▊    | 215162/371472 [6:04:48<13:20:35,  3.25it/s] 58%|█████▊    | 215163/371472 [6:04:49<12:37:29,  3.44it/s] 58%|█████▊    | 215164/371472 [6:04:49<12:01:42,  3.61it/s] 58%|█████▊    | 215165/371472 [6:04:49<13:31:22,  3.21it/s] 58%|█████▊    | 215166/371472 [6:04:49<13:03:24,  3.33it/s] 58%|█████▊    | 215167/371472 [6:04:50<12:13:42,  3.55it/s] 58%|█████▊    | 215168/371472 [6:04:50<12:32:33,  3.46it/s] 58%|█████▊    | 215169/371472 [6:04:50<11:54:59,  3.64it/s] 58%|█████▊    | 215170/371472 [6:04:50<11:41:42,  3.71it/s] 58%|█████▊    | 215171/371472 [6:04:51<11:26:27,  3.79it/s] 58%|█████▊    | 215172/371472 [6:04:51<11:20:47,  3.83it/s] 58%|█████▊    | 215173/371472 [6:04:51<12:13:50,  3.55it/s] 58%|█████▊    | 215174/371472 [6:04:52<11:56:27,  3.64it/s] 58%|█████▊    | 215175/371472 [6:04:52<11:32:20,  3.76it/s] 58%|█████▊    | 215176/371472 [6:04:52<11:43:59,  3.70it/s] 58%|█████▊    | 215177/371472 [6:04:52<11:30:56,  3.77it/s] 58%|█████▊    | 215178/371472 [6:04:53<11:35:33,  3.75it/s] 58%|█████▊    | 215179/371472 [6:04:53<12:35:20,  3.45it/s] 58%|█████▊    | 215180/371472 [6:04:53<12:26:53,  3.49it/s]                                                            {'loss': 2.8252, 'learning_rate': 4.788672455773665e-07, 'epoch': 9.27}
 58%|█████▊    | 215180/371472 [6:04:53<12:26:53,  3.49it/s] 58%|█████▊    | 215181/371472 [6:04:54<12:39:30,  3.43it/s] 58%|█████▊    | 215182/371472 [6:04:54<12:19:10,  3.52it/s] 58%|█████▊    | 215183/371472 [6:04:54<12:22:21,  3.51it/s] 58%|█████▊    | 215184/371472 [6:04:54<11:58:00,  3.63it/s] 58%|█████▊    | 215185/371472 [6:04:55<12:18:32,  3.53it/s] 58%|█████▊    | 215186/371472 [6:04:55<12:11:09,  3.56it/s] 58%|█████▊    | 215187/371472 [6:04:55<12:12:13,  3.56it/s] 58%|█████▊    | 215188/371472 [6:04:55<11:58:34,  3.62it/s] 58%|█████▊    | 215189/371472 [6:04:56<11:39:22,  3.72it/s] 58%|█████▊    | 215190/371472 [6:04:56<11:49:05,  3.67it/s] 58%|█████▊    | 215191/371472 [6:04:56<12:03:37,  3.60it/s] 58%|█████▊    | 215192/371472 [6:04:57<13:04:24,  3.32it/s] 58%|█████▊    | 215193/371472 [6:04:57<13:01:40,  3.33it/s] 58%|█████▊    | 215194/371472 [6:04:57<13:00:58,  3.34it/s] 58%|█████▊    | 215195/371472 [6:04:58<12:44:27,  3.41it/s] 58%|█████▊    | 215196/371472 [6:04:58<12:42:37,  3.42it/s] 58%|█████▊    | 215197/371472 [6:04:58<12:30:30,  3.47it/s] 58%|█████▊    | 215198/371472 [6:04:58<12:10:40,  3.56it/s] 58%|█████▊    | 215199/371472 [6:04:59<12:06:29,  3.59it/s] 58%|█████▊    | 215200/371472 [6:04:59<12:01:30,  3.61it/s]                                                            {'loss': 2.9856, 'learning_rate': 4.788187636018875e-07, 'epoch': 9.27}
 58%|█████▊    | 215200/371472 [6:04:59<12:01:30,  3.61it/s] 58%|█████▊    | 215201/371472 [6:04:59<12:37:01,  3.44it/s] 58%|█████▊    | 215202/371472 [6:04:59<12:17:01,  3.53it/s] 58%|█████▊    | 215203/371472 [6:05:00<12:00:59,  3.61it/s] 58%|█████▊    | 215204/371472 [6:05:00<11:41:04,  3.71it/s] 58%|█████▊    | 215205/371472 [6:05:00<11:24:40,  3.80it/s] 58%|█████▊    | 215206/371472 [6:05:01<11:42:40,  3.71it/s] 58%|█████▊    | 215207/371472 [6:05:01<12:10:51,  3.56it/s] 58%|█████▊    | 215208/371472 [6:05:01<11:57:01,  3.63it/s] 58%|█████▊    | 215209/371472 [6:05:01<11:29:38,  3.78it/s] 58%|█████▊    | 215210/371472 [6:05:02<11:04:29,  3.92it/s] 58%|█████▊    | 215211/371472 [6:05:02<11:46:25,  3.69it/s] 58%|█████▊    | 215212/371472 [6:05:02<11:28:50,  3.78it/s] 58%|█████▊    | 215213/371472 [6:05:03<12:55:53,  3.36it/s] 58%|█████▊    | 215214/371472 [6:05:03<12:48:14,  3.39it/s] 58%|█████▊    | 215215/371472 [6:05:03<12:11:38,  3.56it/s] 58%|█████▊    | 215216/371472 [6:05:03<11:59:00,  3.62it/s] 58%|█████▊    | 215217/371472 [6:05:04<11:42:13,  3.71it/s] 58%|█████▊    | 215218/371472 [6:05:04<11:37:07,  3.74it/s] 58%|█████▊    | 215219/371472 [6:05:04<11:35:47,  3.74it/s] 58%|█████▊    | 215220/371472 [6:05:04<12:10:12,  3.57it/s]                                                            {'loss': 3.0441, 'learning_rate': 4.787702816264087e-07, 'epoch': 9.27}
 58%|█████▊    | 215220/371472 [6:05:04<12:10:12,  3.57it/s] 58%|█████▊    | 215221/371472 [6:05:05<11:59:04,  3.62it/s] 58%|█████▊    | 215222/371472 [6:05:05<12:14:13,  3.55it/s] 58%|█████▊    | 215223/371472 [6:05:05<12:32:40,  3.46it/s] 58%|█████▊    | 215224/371472 [6:05:06<12:15:22,  3.54it/s] 58%|█████▊    | 215225/371472 [6:05:06<12:12:55,  3.55it/s] 58%|█████▊    | 215226/371472 [6:05:06<12:59:47,  3.34it/s] 58%|█████▊    | 215227/371472 [6:05:06<12:37:45,  3.44it/s] 58%|█████▊    | 215228/371472 [6:05:07<13:12:51,  3.28it/s] 58%|█████▊    | 215229/371472 [6:05:07<12:31:31,  3.47it/s] 58%|█████▊    | 215230/371472 [6:05:07<12:04:51,  3.59it/s] 58%|█████▊    | 215231/371472 [6:05:08<12:20:15,  3.52it/s] 58%|█████▊    | 215232/371472 [6:05:08<12:12:17,  3.56it/s] 58%|█████▊    | 215233/371472 [6:05:08<12:11:40,  3.56it/s] 58%|█████▊    | 215234/371472 [6:05:08<13:19:23,  3.26it/s] 58%|█████▊    | 215235/371472 [6:05:09<12:58:01,  3.35it/s] 58%|█████▊    | 215236/371472 [6:05:09<12:58:23,  3.35it/s] 58%|█████▊    | 215237/371472 [6:05:09<13:04:43,  3.32it/s] 58%|█████▊    | 215238/371472 [6:05:10<13:35:15,  3.19it/s] 58%|█████▊    | 215239/371472 [6:05:10<13:18:30,  3.26it/s] 58%|█████▊    | 215240/371472 [6:05:10<13:07:42,  3.31it/s]                                                            {'loss': 2.7187, 'learning_rate': 4.787217996509297e-07, 'epoch': 9.27}
 58%|█████▊    | 215240/371472 [6:05:10<13:07:42,  3.31it/s] 58%|█████▊    | 215241/371472 [6:05:11<13:06:18,  3.31it/s] 58%|█████▊    | 215242/371472 [6:05:11<12:25:57,  3.49it/s] 58%|█████▊    | 215243/371472 [6:05:11<12:36:48,  3.44it/s] 58%|█████▊    | 215244/371472 [6:05:11<13:07:51,  3.30it/s] 58%|█████▊    | 215245/371472 [6:05:12<13:58:53,  3.10it/s] 58%|█████▊    | 215246/371472 [6:05:12<13:00:18,  3.34it/s] 58%|█████▊    | 215247/371472 [6:05:12<12:44:10,  3.41it/s] 58%|█████▊    | 215248/371472 [6:05:13<12:22:19,  3.51it/s] 58%|█████▊    | 215249/371472 [6:05:13<12:27:15,  3.48it/s] 58%|█████▊    | 215250/371472 [6:05:13<12:10:34,  3.56it/s] 58%|█████▊    | 215251/371472 [6:05:13<12:05:43,  3.59it/s] 58%|█████▊    | 215252/371472 [6:05:14<12:11:44,  3.56it/s] 58%|█████▊    | 215253/371472 [6:05:14<12:09:05,  3.57it/s] 58%|█████▊    | 215254/371472 [6:05:14<11:56:02,  3.64it/s] 58%|█████▊    | 215255/371472 [6:05:15<12:01:49,  3.61it/s] 58%|█████▊    | 215256/371472 [6:05:15<12:23:39,  3.50it/s] 58%|█████▊    | 215257/371472 [6:05:15<12:00:58,  3.61it/s] 58%|█████▊    | 215258/371472 [6:05:15<12:16:36,  3.53it/s] 58%|█████▊    | 215259/371472 [6:05:16<12:04:56,  3.59it/s] 58%|█████▊    | 215260/371472 [6:05:16<12:22:17,  3.51it/s]                                                            {'loss': 2.9226, 'learning_rate': 4.786733176754508e-07, 'epoch': 9.27}
 58%|█████▊    | 215260/371472 [6:05:16<12:22:17,  3.51it/s] 58%|█████▊    | 215261/371472 [6:05:16<12:16:04,  3.54it/s] 58%|█████▊    | 215262/371472 [6:05:17<12:25:32,  3.49it/s] 58%|█████▊    | 215263/371472 [6:05:17<13:07:31,  3.31it/s] 58%|█████▊    | 215264/371472 [6:05:17<12:33:10,  3.46it/s] 58%|█████▊    | 215265/371472 [6:05:17<12:23:50,  3.50it/s] 58%|█████▊    | 215266/371472 [6:05:18<12:04:22,  3.59it/s] 58%|█████▊    | 215267/371472 [6:05:18<12:05:38,  3.59it/s] 58%|█████▊    | 215268/371472 [6:05:18<12:25:18,  3.49it/s] 58%|█████▊    | 215269/371472 [6:05:19<12:09:07,  3.57it/s] 58%|█████▊    | 215270/371472 [6:05:19<12:34:25,  3.45it/s] 58%|█████▊    | 215271/371472 [6:05:19<13:19:14,  3.26it/s] 58%|█████▊    | 215272/371472 [6:05:20<12:53:23,  3.37it/s] 58%|█████▊    | 215273/371472 [6:05:20<13:23:40,  3.24it/s] 58%|█████▊    | 215274/371472 [6:05:20<13:22:08,  3.25it/s] 58%|█████▊    | 215275/371472 [6:05:20<13:37:02,  3.19it/s] 58%|█████▊    | 215276/371472 [6:05:21<12:57:11,  3.35it/s] 58%|█████▊    | 215277/371472 [6:05:21<12:32:44,  3.46it/s] 58%|█████▊    | 215278/371472 [6:05:21<12:35:43,  3.44it/s] 58%|█████▊    | 215279/371472 [6:05:22<12:48:45,  3.39it/s] 58%|█████▊    | 215280/371472 [6:05:22<13:09:12,  3.30it/s]                                                            {'loss': 3.153, 'learning_rate': 4.786248356999719e-07, 'epoch': 9.27}
 58%|█████▊    | 215280/371472 [6:05:22<13:09:12,  3.30it/s] 58%|█████▊    | 215281/371472 [6:05:22<12:28:34,  3.48it/s] 58%|█████▊    | 215282/371472 [6:05:22<12:29:26,  3.47it/s] 58%|█████▊    | 215283/371472 [6:05:23<12:12:10,  3.56it/s] 58%|█████▊    | 215284/371472 [6:05:23<11:43:43,  3.70it/s] 58%|█████▊    | 215285/371472 [6:05:23<11:41:55,  3.71it/s] 58%|█████▊    | 215286/371472 [6:05:24<11:28:06,  3.78it/s] 58%|█████▊    | 215287/371472 [6:05:24<11:30:36,  3.77it/s] 58%|█████▊    | 215288/371472 [6:05:24<12:10:31,  3.56it/s] 58%|█████▊    | 215289/371472 [6:05:24<12:03:08,  3.60it/s] 58%|█████▊    | 215290/371472 [6:05:25<12:24:48,  3.49it/s] 58%|█████▊    | 215291/371472 [6:05:25<12:29:42,  3.47it/s] 58%|█████▊    | 215292/371472 [6:05:25<12:14:36,  3.54it/s] 58%|█████▊    | 215293/371472 [6:05:26<12:29:11,  3.47it/s] 58%|█████▊    | 215294/371472 [6:05:26<12:16:42,  3.53it/s] 58%|█████▊    | 215295/371472 [6:05:26<12:06:40,  3.58it/s] 58%|█████▊    | 215296/371472 [6:05:26<12:14:15,  3.54it/s] 58%|█████▊    | 215297/371472 [6:05:27<13:31:54,  3.21it/s] 58%|█████▊    | 215298/371472 [6:05:27<13:30:59,  3.21it/s] 58%|█████▊    | 215299/371472 [6:05:27<13:12:16,  3.29it/s] 58%|█████▊    | 215300/371472 [6:05:28<12:45:38,  3.40it/s]                                                            {'loss': 2.9369, 'learning_rate': 4.785763537244932e-07, 'epoch': 9.27}
 58%|█████▊    | 215300/371472 [6:05:28<12:45:38,  3.40it/s] 58%|█████▊    | 215301/371472 [6:05:28<12:44:20,  3.41it/s] 58%|█████▊    | 215302/371472 [6:05:28<12:33:34,  3.45it/s] 58%|█████▊    | 215303/371472 [6:05:28<12:28:42,  3.48it/s] 58%|█████▊    | 215304/371472 [6:05:29<12:39:33,  3.43it/s] 58%|█████▊    | 215305/371472 [6:05:29<12:30:22,  3.47it/s] 58%|█████▊    | 215306/371472 [6:05:29<12:14:45,  3.54it/s] 58%|█████▊    | 215307/371472 [6:05:30<11:58:05,  3.62it/s] 58%|█████▊    | 215308/371472 [6:05:30<12:48:27,  3.39it/s] 58%|█████▊    | 215309/371472 [6:05:30<12:25:51,  3.49it/s] 58%|█████▊    | 215310/371472 [6:05:30<12:10:48,  3.56it/s] 58%|█████▊    | 215311/371472 [6:05:31<11:49:06,  3.67it/s] 58%|█████▊    | 215312/371472 [6:05:31<11:51:50,  3.66it/s] 58%|█████▊    | 215313/371472 [6:05:31<11:45:41,  3.69it/s] 58%|█████▊    | 215314/371472 [6:05:32<11:52:17,  3.65it/s] 58%|█████▊    | 215315/371472 [6:05:32<11:31:21,  3.76it/s] 58%|█████▊    | 215316/371472 [6:05:32<12:21:53,  3.51it/s] 58%|█████▊    | 215317/371472 [6:05:32<12:09:58,  3.57it/s] 58%|█████▊    | 215318/371472 [6:05:33<12:06:56,  3.58it/s] 58%|█████▊    | 215319/371472 [6:05:33<12:02:51,  3.60it/s] 58%|█████▊    | 215320/371472 [6:05:33<11:35:39,  3.74it/s]                                                            {'loss': 2.9512, 'learning_rate': 4.785278717490141e-07, 'epoch': 9.27}
 58%|█████▊    | 215320/371472 [6:05:33<11:35:39,  3.74it/s] 58%|█████▊    | 215321/371472 [6:05:33<11:28:41,  3.78it/s] 58%|█████▊    | 215322/371472 [6:05:34<11:28:15,  3.78it/s] 58%|█████▊    | 215323/371472 [6:05:34<11:14:40,  3.86it/s] 58%|█████▊    | 215324/371472 [6:05:34<11:46:34,  3.68it/s] 58%|█████▊    | 215325/371472 [6:05:35<12:02:45,  3.60it/s] 58%|█████▊    | 215326/371472 [6:05:35<11:56:11,  3.63it/s] 58%|█████▊    | 215327/371472 [6:05:35<11:36:57,  3.73it/s] 58%|█████▊    | 215328/371472 [6:05:35<11:24:21,  3.80it/s] 58%|█████▊    | 215329/371472 [6:05:36<13:05:30,  3.31it/s] 58%|█████▊    | 215330/371472 [6:05:36<12:30:04,  3.47it/s] 58%|█████▊    | 215331/371472 [6:05:36<12:28:00,  3.48it/s] 58%|█████▊    | 215332/371472 [6:05:37<12:15:33,  3.54it/s] 58%|█████▊    | 215333/371472 [6:05:37<12:05:36,  3.59it/s] 58%|█████▊    | 215334/371472 [6:05:37<11:58:48,  3.62it/s] 58%|█████▊    | 215335/371472 [6:05:37<12:02:17,  3.60it/s] 58%|█████▊    | 215336/371472 [6:05:38<12:50:57,  3.38it/s] 58%|█████▊    | 215337/371472 [6:05:38<12:47:25,  3.39it/s] 58%|█████▊    | 215338/371472 [6:05:38<12:33:36,  3.45it/s] 58%|█████▊    | 215339/371472 [6:05:39<12:25:56,  3.49it/s] 58%|█████▊    | 215340/371472 [6:05:39<12:18:32,  3.52it/s]                                                            {'loss': 3.0252, 'learning_rate': 4.784793897735353e-07, 'epoch': 9.28}
 58%|█████▊    | 215340/371472 [6:05:39<12:18:32,  3.52it/s] 58%|█████▊    | 215341/371472 [6:05:39<12:40:46,  3.42it/s] 58%|█████▊    | 215342/371472 [6:05:39<13:05:26,  3.31it/s] 58%|█████▊    | 215343/371472 [6:05:40<12:35:52,  3.44it/s] 58%|█████▊    | 215344/371472 [6:05:40<12:11:52,  3.56it/s] 58%|█████▊    | 215345/371472 [6:05:40<12:28:14,  3.48it/s] 58%|█████▊    | 215346/371472 [6:05:41<12:28:36,  3.48it/s] 58%|█████▊    | 215347/371472 [6:05:41<11:56:42,  3.63it/s] 58%|█████▊    | 215348/371472 [6:05:41<12:56:06,  3.35it/s] 58%|█████▊    | 215349/371472 [6:05:41<12:48:40,  3.39it/s] 58%|█████▊    | 215350/371472 [6:05:42<12:29:04,  3.47it/s] 58%|█████▊    | 215351/371472 [6:05:42<13:07:54,  3.30it/s] 58%|█████▊    | 215352/371472 [6:05:42<12:36:02,  3.44it/s] 58%|█████▊    | 215353/371472 [6:05:43<12:19:33,  3.52it/s] 58%|█████▊    | 215354/371472 [6:05:43<12:15:47,  3.54it/s] 58%|█████▊    | 215355/371472 [6:05:43<12:02:35,  3.60it/s] 58%|█████▊    | 215356/371472 [6:05:43<12:14:24,  3.54it/s] 58%|█████▊    | 215357/371472 [6:05:44<12:05:37,  3.59it/s] 58%|█████▊    | 215358/371472 [6:05:44<12:03:09,  3.60it/s] 58%|█████▊    | 215359/371472 [6:05:44<11:48:50,  3.67it/s] 58%|█████▊    | 215360/371472 [6:05:44<11:48:52,  3.67it/s]                                                            {'loss': 2.8323, 'learning_rate': 4.784309077980564e-07, 'epoch': 9.28}
 58%|█████▊    | 215360/371472 [6:05:44<11:48:52,  3.67it/s] 58%|█████▊    | 215361/371472 [6:05:45<11:34:47,  3.74it/s] 58%|█████▊    | 215362/371472 [6:05:45<11:29:29,  3.77it/s] 58%|█████▊    | 215363/371472 [6:05:45<11:40:38,  3.71it/s] 58%|█████▊    | 215364/371472 [6:05:46<11:30:14,  3.77it/s] 58%|█████▊    | 215365/371472 [6:05:46<11:49:34,  3.67it/s] 58%|█████▊    | 215366/371472 [6:05:46<11:57:47,  3.62it/s] 58%|█████▊    | 215367/371472 [6:05:46<11:43:33,  3.70it/s] 58%|█████▊    | 215368/371472 [6:05:47<13:18:16,  3.26it/s] 58%|█████▊    | 215369/371472 [6:05:47<12:55:15,  3.36it/s] 58%|█████▊    | 215370/371472 [6:05:47<12:44:40,  3.40it/s] 58%|█████▊    | 215371/371472 [6:05:48<12:46:05,  3.40it/s] 58%|█████▊    | 215372/371472 [6:05:48<12:35:38,  3.44it/s] 58%|█████▊    | 215373/371472 [6:05:48<13:01:36,  3.33it/s] 58%|█████▊    | 215374/371472 [6:05:49<13:06:46,  3.31it/s] 58%|█████▊    | 215375/371472 [6:05:49<12:29:36,  3.47it/s] 58%|█████▊    | 215376/371472 [6:05:49<12:00:19,  3.61it/s] 58%|█████▊    | 215377/371472 [6:05:49<11:44:36,  3.69it/s] 58%|█████▊    | 215378/371472 [6:05:50<12:23:08,  3.50it/s] 58%|█████▊    | 215379/371472 [6:05:50<12:08:23,  3.57it/s] 58%|█████▊    | 215380/371472 [6:05:50<12:38:46,  3.43it/s]                                                            {'loss': 2.8629, 'learning_rate': 4.783824258225774e-07, 'epoch': 9.28}
 58%|█████▊    | 215380/371472 [6:05:50<12:38:46,  3.43it/s] 58%|█████▊    | 215381/371472 [6:05:51<12:53:46,  3.36it/s] 58%|█████▊    | 215382/371472 [6:05:51<12:33:12,  3.45it/s] 58%|█████▊    | 215383/371472 [6:05:51<12:09:35,  3.57it/s] 58%|█████▊    | 215384/371472 [6:05:51<12:15:31,  3.54it/s] 58%|█████▊    | 215385/371472 [6:05:52<11:57:21,  3.63it/s] 58%|█████▊    | 215386/371472 [6:05:52<12:30:04,  3.47it/s] 58%|█████▊    | 215387/371472 [6:05:52<13:17:05,  3.26it/s] 58%|█████▊    | 215388/371472 [6:05:53<14:46:17,  2.94it/s] 58%|█████▊    | 215389/371472 [6:05:53<13:40:03,  3.17it/s] 58%|█████▊    | 215390/371472 [6:05:53<13:15:29,  3.27it/s] 58%|█████▊    | 215391/371472 [6:05:53<12:51:57,  3.37it/s] 58%|█████▊    | 215392/371472 [6:05:54<12:57:03,  3.35it/s] 58%|█████▊    | 215393/371472 [6:05:54<12:20:24,  3.51it/s] 58%|█████▊    | 215394/371472 [6:05:54<12:30:05,  3.47it/s] 58%|█████▊    | 215395/371472 [6:05:55<12:10:39,  3.56it/s] 58%|█████▊    | 215396/371472 [6:05:55<12:02:55,  3.60it/s] 58%|█████▊    | 215397/371472 [6:05:55<11:52:24,  3.65it/s] 58%|█████▊    | 215398/371472 [6:05:55<11:44:40,  3.69it/s] 58%|█████▊    | 215399/371472 [6:05:56<11:51:12,  3.66it/s] 58%|█████▊    | 215400/371472 [6:05:56<12:29:43,  3.47it/s]                                                            {'loss': 2.8098, 'learning_rate': 4.783339438470985e-07, 'epoch': 9.28}
 58%|█████▊    | 215400/371472 [6:05:56<12:29:43,  3.47it/s] 58%|█████▊    | 215401/371472 [6:05:56<12:42:41,  3.41it/s] 58%|█████▊    | 215402/371472 [6:05:57<12:25:35,  3.49it/s] 58%|█████▊    | 215403/371472 [6:05:57<12:21:36,  3.51it/s] 58%|█████▊    | 215404/371472 [6:05:57<12:15:44,  3.54it/s] 58%|█████▊    | 215405/371472 [6:05:57<12:25:09,  3.49it/s] 58%|█████▊    | 215406/371472 [6:05:58<13:05:10,  3.31it/s] 58%|█████▊    | 215407/371472 [6:05:58<12:31:12,  3.46it/s] 58%|█████▊    | 215408/371472 [6:05:58<13:27:52,  3.22it/s] 58%|█████▊    | 215409/371472 [6:05:59<13:49:13,  3.14it/s] 58%|█████▊    | 215410/371472 [6:05:59<13:38:21,  3.18it/s] 58%|█████▊    | 215411/371472 [6:05:59<13:25:09,  3.23it/s] 58%|█████▊    | 215412/371472 [6:06:00<13:00:17,  3.33it/s] 58%|█████▊    | 215413/371472 [6:06:00<12:41:55,  3.41it/s] 58%|█████▊    | 215414/371472 [6:06:00<12:53:08,  3.36it/s] 58%|█████▊    | 215415/371472 [6:06:00<12:33:51,  3.45it/s] 58%|█████▊    | 215416/371472 [6:06:01<12:36:18,  3.44it/s] 58%|█████▊    | 215417/371472 [6:06:01<13:00:28,  3.33it/s] 58%|█████▊    | 215418/371472 [6:06:01<13:06:28,  3.31it/s] 58%|█████▊    | 215419/371472 [6:06:02<13:18:31,  3.26it/s] 58%|█████▊    | 215420/371472 [6:06:02<13:04:08,  3.32it/s]                                                            {'loss': 2.8486, 'learning_rate': 4.782854618716198e-07, 'epoch': 9.28}
 58%|█████▊    | 215420/371472 [6:06:02<13:04:08,  3.32it/s] 58%|█████▊    | 215421/371472 [6:06:02<13:25:27,  3.23it/s] 58%|█████▊    | 215422/371472 [6:06:03<13:39:23,  3.17it/s] 58%|█████▊    | 215423/371472 [6:06:03<13:48:25,  3.14it/s] 58%|█████▊    | 215424/371472 [6:06:03<13:05:22,  3.31it/s] 58%|█████▊    | 215425/371472 [6:06:04<12:40:30,  3.42it/s] 58%|█████▊    | 215426/371472 [6:06:04<13:59:09,  3.10it/s] 58%|█████▊    | 215427/371472 [6:06:04<13:26:30,  3.22it/s] 58%|█████▊    | 215428/371472 [6:06:04<12:38:55,  3.43it/s] 58%|█████▊    | 215429/371472 [6:06:05<12:30:06,  3.47it/s] 58%|█████▊    | 215430/371472 [6:06:05<12:19:17,  3.52it/s] 58%|█████▊    | 215431/371472 [6:06:05<12:12:09,  3.55it/s] 58%|█████▊    | 215432/371472 [6:06:06<11:59:43,  3.61it/s] 58%|█████▊    | 215433/371472 [6:06:06<11:49:28,  3.67it/s] 58%|█████▊    | 215434/371472 [6:06:06<12:44:15,  3.40it/s] 58%|█████▊    | 215435/371472 [6:06:06<12:30:00,  3.47it/s] 58%|█████▊    | 215436/371472 [6:06:07<12:30:05,  3.47it/s] 58%|█████▊    | 215437/371472 [6:06:07<12:22:56,  3.50it/s] 58%|█████▊    | 215438/371472 [6:06:07<12:13:53,  3.54it/s] 58%|█████▊    | 215439/371472 [6:06:08<11:50:40,  3.66it/s] 58%|█████▊    | 215440/371472 [6:06:08<11:51:50,  3.65it/s]                                                            {'loss': 2.8584, 'learning_rate': 4.782369798961408e-07, 'epoch': 9.28}
 58%|█████▊    | 215440/371472 [6:06:08<11:51:50,  3.65it/s] 58%|█████▊    | 215441/371472 [6:06:08<11:36:47,  3.73it/s] 58%|█████▊    | 215442/371472 [6:06:08<11:39:19,  3.72it/s] 58%|█████▊    | 215443/371472 [6:06:09<11:48:34,  3.67it/s] 58%|█████▊    | 215444/371472 [6:06:09<11:38:31,  3.72it/s] 58%|█████▊    | 215445/371472 [6:06:09<11:49:09,  3.67it/s] 58%|█████▊    | 215446/371472 [6:06:09<11:32:04,  3.76it/s] 58%|█████▊    | 215447/371472 [6:06:10<11:22:05,  3.81it/s] 58%|█████▊    | 215448/371472 [6:06:10<11:30:37,  3.77it/s] 58%|█████▊    | 215449/371472 [6:06:10<11:54:36,  3.64it/s] 58%|█████▊    | 215450/371472 [6:06:11<12:20:30,  3.51it/s] 58%|█████▊    | 215451/371472 [6:06:11<11:48:00,  3.67it/s] 58%|█████▊    | 215452/371472 [6:06:11<11:33:54,  3.75it/s] 58%|█████▊    | 215453/371472 [6:06:11<11:15:16,  3.85it/s] 58%|█████▊    | 215454/371472 [6:06:12<11:16:41,  3.84it/s] 58%|█████▊    | 215455/371472 [6:06:12<11:16:26,  3.84it/s] 58%|█████▊    | 215456/371472 [6:06:12<11:39:35,  3.72it/s] 58%|█████▊    | 215457/371472 [6:06:12<11:55:28,  3.63it/s] 58%|█████▊    | 215458/371472 [6:06:13<11:36:54,  3.73it/s] 58%|█████▊    | 215459/371472 [6:06:13<11:24:11,  3.80it/s] 58%|█████▊    | 215460/371472 [6:06:13<11:16:40,  3.84it/s]                                                            {'loss': 2.9132, 'learning_rate': 4.781884979206619e-07, 'epoch': 9.28}
 58%|█████▊    | 215460/371472 [6:06:13<11:16:40,  3.84it/s] 58%|█████▊    | 215461/371472 [6:06:13<11:36:35,  3.73it/s] 58%|█████▊    | 215462/371472 [6:06:14<11:43:04,  3.70it/s] 58%|█████▊    | 215463/371472 [6:06:14<11:48:56,  3.67it/s] 58%|█████▊    | 215464/371472 [6:06:14<12:09:33,  3.56it/s] 58%|█████▊    | 215465/371472 [6:06:15<13:02:14,  3.32it/s] 58%|█████▊    | 215466/371472 [6:06:15<12:42:30,  3.41it/s] 58%|█████▊    | 215467/371472 [6:06:15<12:34:21,  3.45it/s] 58%|█████▊    | 215468/371472 [6:06:16<13:42:07,  3.16it/s] 58%|█████▊    | 215469/371472 [6:06:16<13:05:20,  3.31it/s] 58%|█████▊    | 215470/371472 [6:06:16<12:22:40,  3.50it/s] 58%|█████▊    | 215471/371472 [6:06:16<13:25:00,  3.23it/s] 58%|█████▊    | 215472/371472 [6:06:17<13:28:24,  3.22it/s] 58%|█████▊    | 215473/371472 [6:06:17<13:00:07,  3.33it/s] 58%|█████▊    | 215474/371472 [6:06:17<13:24:09,  3.23it/s] 58%|█████▊    | 215475/371472 [6:06:18<12:49:11,  3.38it/s] 58%|█████▊    | 215476/371472 [6:06:18<12:38:38,  3.43it/s] 58%|█████▊    | 215477/371472 [6:06:18<12:49:04,  3.38it/s] 58%|█████▊    | 215478/371472 [6:06:18<12:33:08,  3.45it/s] 58%|█████▊    | 215479/371472 [6:06:19<12:30:07,  3.47it/s] 58%|█████▊    | 215480/371472 [6:06:19<12:18:03,  3.52it/s]                                                            {'loss': 3.0272, 'learning_rate': 4.78140015945183e-07, 'epoch': 9.28}
 58%|█████▊    | 215480/371472 [6:06:19<12:18:03,  3.52it/s] 58%|█████▊    | 215481/371472 [6:06:19<12:28:49,  3.47it/s] 58%|█████▊    | 215482/371472 [6:06:20<12:28:31,  3.47it/s] 58%|█████▊    | 215483/371472 [6:06:20<12:22:15,  3.50it/s] 58%|█████▊    | 215484/371472 [6:06:20<12:27:46,  3.48it/s] 58%|█████▊    | 215485/371472 [6:06:20<12:53:38,  3.36it/s] 58%|█████▊    | 215486/371472 [6:06:21<12:22:23,  3.50it/s] 58%|█████▊    | 215487/371472 [6:06:21<11:49:55,  3.66it/s] 58%|█████▊    | 215488/371472 [6:06:21<11:48:41,  3.67it/s] 58%|█████▊    | 215489/371472 [6:06:22<11:35:50,  3.74it/s] 58%|█████▊    | 215490/371472 [6:06:22<11:43:16,  3.70it/s] 58%|█████▊    | 215491/371472 [6:06:22<11:19:43,  3.82it/s] 58%|█████▊    | 215492/371472 [6:06:22<11:10:54,  3.87it/s] 58%|█████▊    | 215493/371472 [6:06:23<11:35:10,  3.74it/s] 58%|█████▊    | 215494/371472 [6:06:23<12:01:03,  3.61it/s] 58%|█████▊    | 215495/371472 [6:06:23<12:13:17,  3.55it/s] 58%|█████▊    | 215496/371472 [6:06:23<12:34:02,  3.45it/s] 58%|█████▊    | 215497/371472 [6:06:24<12:47:52,  3.39it/s] 58%|█████▊    | 215498/371472 [6:06:24<12:20:52,  3.51it/s] 58%|█████▊    | 215499/371472 [6:06:24<12:02:23,  3.60it/s] 58%|█████▊    | 215500/371472 [6:06:25<12:05:09,  3.58it/s]                                                            {'loss': 2.9409, 'learning_rate': 4.780915339697041e-07, 'epoch': 9.28}
 58%|█████▊    | 215500/371472 [6:06:25<12:05:09,  3.58it/s] 58%|█████▊    | 215501/371472 [6:06:25<12:42:41,  3.41it/s] 58%|█████▊    | 215502/371472 [6:06:25<12:24:52,  3.49it/s] 58%|█████▊    | 215503/371472 [6:06:25<12:26:48,  3.48it/s] 58%|█████▊    | 215504/371472 [6:06:26<12:18:48,  3.52it/s] 58%|█████▊    | 215505/371472 [6:06:26<13:36:42,  3.18it/s] 58%|█████▊    | 215506/371472 [6:06:26<12:50:08,  3.38it/s] 58%|█████▊    | 215507/371472 [6:06:27<12:32:53,  3.45it/s] 58%|█████▊    | 215508/371472 [6:06:27<12:41:36,  3.41it/s] 58%|█████▊    | 215509/371472 [6:06:27<13:59:14,  3.10it/s] 58%|█████▊    | 215510/371472 [6:06:28<13:04:41,  3.31it/s] 58%|█████▊    | 215511/371472 [6:06:28<13:00:24,  3.33it/s] 58%|█████▊    | 215512/371472 [6:06:28<12:17:50,  3.52it/s] 58%|█████▊    | 215513/371472 [6:06:28<12:17:42,  3.52it/s] 58%|█████▊    | 215514/371472 [6:06:29<12:29:48,  3.47it/s] 58%|█████▊    | 215515/371472 [6:06:29<12:40:17,  3.42it/s] 58%|█████▊    | 215516/371472 [6:06:29<12:59:46,  3.33it/s] 58%|█████▊    | 215517/371472 [6:06:30<12:54:34,  3.36it/s] 58%|█████▊    | 215518/371472 [6:06:30<13:18:30,  3.26it/s] 58%|█████▊    | 215519/371472 [6:06:30<13:05:08,  3.31it/s] 58%|█████▊    | 215520/371472 [6:06:31<13:14:18,  3.27it/s]                                                            {'loss': 2.8046, 'learning_rate': 4.780430519942252e-07, 'epoch': 9.28}
 58%|█████▊    | 215520/371472 [6:06:31<13:14:18,  3.27it/s] 58%|█████▊    | 215521/371472 [6:06:31<12:28:48,  3.47it/s] 58%|█████▊    | 215522/371472 [6:06:31<12:06:34,  3.58it/s] 58%|█████▊    | 215523/371472 [6:06:31<11:41:17,  3.71it/s] 58%|█████▊    | 215524/371472 [6:06:32<11:59:31,  3.61it/s] 58%|█████▊    | 215525/371472 [6:06:32<11:45:27,  3.68it/s] 58%|█████▊    | 215526/371472 [6:06:32<11:20:35,  3.82it/s] 58%|█████▊    | 215527/371472 [6:06:32<12:26:30,  3.48it/s] 58%|█████▊    | 215528/371472 [6:06:33<12:20:05,  3.51it/s] 58%|█████▊    | 215529/371472 [6:06:33<13:01:30,  3.33it/s] 58%|█████▊    | 215530/371472 [6:06:33<13:07:12,  3.30it/s] 58%|█████▊    | 215531/371472 [6:06:34<12:49:15,  3.38it/s] 58%|█████▊    | 215532/371472 [6:06:34<12:45:17,  3.40it/s] 58%|█████▊    | 215533/371472 [6:06:34<12:55:02,  3.35it/s] 58%|█████▊    | 215534/371472 [6:06:35<12:56:31,  3.35it/s] 58%|█████▊    | 215535/371472 [6:06:35<12:30:23,  3.46it/s] 58%|█████▊    | 215536/371472 [6:06:35<12:01:38,  3.60it/s] 58%|█████▊    | 215537/371472 [6:06:35<11:47:02,  3.68it/s] 58%|█████▊    | 215538/371472 [6:06:36<11:40:48,  3.71it/s] 58%|█████▊    | 215539/371472 [6:06:36<12:53:55,  3.36it/s] 58%|█████▊    | 215540/371472 [6:06:36<12:56:28,  3.35it/s]                                                            {'loss': 2.9947, 'learning_rate': 4.779945700187464e-07, 'epoch': 9.28}
 58%|█████▊    | 215540/371472 [6:06:36<12:56:28,  3.35it/s] 58%|█████▊    | 215541/371472 [6:06:37<12:35:56,  3.44it/s] 58%|█████▊    | 215542/371472 [6:06:37<12:24:09,  3.49it/s] 58%|█████▊    | 215543/371472 [6:06:37<12:00:31,  3.61it/s] 58%|█████▊    | 215544/371472 [6:06:37<12:15:13,  3.53it/s] 58%|█████▊    | 215545/371472 [6:06:38<11:57:18,  3.62it/s] 58%|█████▊    | 215546/371472 [6:06:38<12:01:28,  3.60it/s] 58%|█████▊    | 215547/371472 [6:06:38<11:51:14,  3.65it/s] 58%|█████▊    | 215548/371472 [6:06:38<11:40:51,  3.71it/s] 58%|█████▊    | 215549/371472 [6:06:39<11:45:58,  3.68it/s] 58%|█████▊    | 215550/371472 [6:06:39<12:41:03,  3.41it/s] 58%|█████▊    | 215551/371472 [6:06:39<12:34:31,  3.44it/s] 58%|█████▊    | 215552/371472 [6:06:40<12:24:55,  3.49it/s] 58%|█████▊    | 215553/371472 [6:06:40<12:24:01,  3.49it/s] 58%|█████▊    | 215554/371472 [6:06:40<12:23:36,  3.49it/s] 58%|█████▊    | 215555/371472 [6:06:40<12:25:18,  3.49it/s] 58%|█████▊    | 215556/371472 [6:06:41<12:11:04,  3.55it/s] 58%|█████▊    | 215557/371472 [6:06:41<11:51:14,  3.65it/s] 58%|█████▊    | 215558/371472 [6:06:41<11:50:15,  3.66it/s] 58%|█████▊    | 215559/371472 [6:06:42<11:49:02,  3.66it/s] 58%|█████▊    | 215560/371472 [6:06:42<11:49:49,  3.66it/s]                                                            {'loss': 3.0814, 'learning_rate': 4.779460880432675e-07, 'epoch': 9.28}
 58%|█████▊    | 215560/371472 [6:06:42<11:49:49,  3.66it/s] 58%|█████▊    | 215561/371472 [6:06:42<11:44:45,  3.69it/s] 58%|█████▊    | 215562/371472 [6:06:42<12:00:06,  3.61it/s] 58%|█████▊    | 215563/371472 [6:06:43<12:16:40,  3.53it/s] 58%|█████▊    | 215564/371472 [6:06:43<12:47:23,  3.39it/s] 58%|█████▊    | 215565/371472 [6:06:43<12:20:39,  3.51it/s] 58%|█████▊    | 215566/371472 [6:06:44<12:14:25,  3.54it/s] 58%|█████▊    | 215567/371472 [6:06:44<12:11:36,  3.55it/s] 58%|█████▊    | 215568/371472 [6:06:44<11:59:40,  3.61it/s] 58%|█████▊    | 215569/371472 [6:06:44<11:57:39,  3.62it/s] 58%|█████▊    | 215570/371472 [6:06:45<11:49:14,  3.66it/s] 58%|█████▊    | 215571/371472 [6:06:45<11:34:13,  3.74it/s] 58%|█████▊    | 215572/371472 [6:06:45<11:44:45,  3.69it/s] 58%|█████▊    | 215573/371472 [6:06:45<12:18:07,  3.52it/s] 58%|█████▊    | 215574/371472 [6:06:46<12:09:56,  3.56it/s] 58%|█████▊    | 215575/371472 [6:06:46<12:21:07,  3.51it/s] 58%|█████▊    | 215576/371472 [6:06:46<12:31:14,  3.46it/s] 58%|█████▊    | 215577/371472 [6:06:47<12:53:35,  3.36it/s] 58%|█████▊    | 215578/371472 [6:06:47<12:17:51,  3.52it/s] 58%|█████▊    | 215579/371472 [6:06:47<12:34:07,  3.45it/s] 58%|█████▊    | 215580/371472 [6:06:48<12:20:38,  3.51it/s]                                                            {'loss': 2.998, 'learning_rate': 4.778976060677886e-07, 'epoch': 9.29}
 58%|█████▊    | 215580/371472 [6:06:48<12:20:38,  3.51it/s] 58%|█████▊    | 215581/371472 [6:06:48<12:22:48,  3.50it/s] 58%|█████▊    | 215582/371472 [6:06:48<12:26:54,  3.48it/s] 58%|█████▊    | 215583/371472 [6:06:48<12:25:49,  3.48it/s] 58%|█████▊    | 215584/371472 [6:06:49<12:18:44,  3.52it/s] 58%|█████▊    | 215585/371472 [6:06:49<12:13:34,  3.54it/s] 58%|█████▊    | 215586/371472 [6:06:49<12:02:23,  3.60it/s] 58%|█████▊    | 215587/371472 [6:06:49<11:36:23,  3.73it/s] 58%|█████▊    | 215588/371472 [6:06:50<11:48:47,  3.67it/s] 58%|█████▊    | 215589/371472 [6:06:50<12:05:28,  3.58it/s] 58%|█████▊    | 215590/371472 [6:06:50<11:46:16,  3.68it/s] 58%|█████▊    | 215591/371472 [6:06:51<12:01:39,  3.60it/s] 58%|█████▊    | 215592/371472 [6:06:51<11:42:39,  3.70it/s] 58%|█████▊    | 215593/371472 [6:06:51<12:01:21,  3.60it/s] 58%|█████▊    | 215594/371472 [6:06:51<11:51:51,  3.65it/s] 58%|█████▊    | 215595/371472 [6:06:52<11:42:33,  3.70it/s] 58%|█████▊    | 215596/371472 [6:06:52<12:32:11,  3.45it/s] 58%|█████▊    | 215597/371472 [6:06:52<12:05:25,  3.58it/s] 58%|█████▊    | 215598/371472 [6:06:53<12:57:16,  3.34it/s] 58%|█████▊    | 215599/371472 [6:06:53<12:36:25,  3.43it/s] 58%|█████▊    | 215600/371472 [6:06:53<12:07:24,  3.57it/s]                                                            {'loss': 3.0833, 'learning_rate': 4.778491240923097e-07, 'epoch': 9.29}
 58%|█████▊    | 215600/371472 [6:06:53<12:07:24,  3.57it/s] 58%|█████▊    | 215601/371472 [6:06:53<12:40:42,  3.42it/s] 58%|█████▊    | 215602/371472 [6:06:54<12:30:55,  3.46it/s] 58%|█████▊    | 215603/371472 [6:06:54<12:15:58,  3.53it/s] 58%|█████▊    | 215604/371472 [6:06:54<12:19:44,  3.51it/s] 58%|█████▊    | 215605/371472 [6:06:55<12:02:38,  3.59it/s] 58%|█████▊    | 215606/371472 [6:06:55<11:58:55,  3.61it/s] 58%|█████▊    | 215607/371472 [6:06:55<11:45:58,  3.68it/s] 58%|█████▊    | 215608/371472 [6:06:55<11:28:09,  3.77it/s] 58%|█████▊    | 215609/371472 [6:06:56<11:28:09,  3.77it/s] 58%|█████▊    | 215610/371472 [6:06:56<11:34:41,  3.74it/s] 58%|█████▊    | 215611/371472 [6:06:56<11:55:03,  3.63it/s] 58%|█████▊    | 215612/371472 [6:06:56<11:55:08,  3.63it/s] 58%|█████▊    | 215613/371472 [6:06:57<12:12:03,  3.55it/s] 58%|█████▊    | 215614/371472 [6:06:57<12:22:40,  3.50it/s] 58%|█████▊    | 215615/371472 [6:06:57<12:08:51,  3.56it/s] 58%|█████▊    | 215616/371472 [6:06:58<11:56:26,  3.63it/s] 58%|█████▊    | 215617/371472 [6:06:58<11:47:13,  3.67it/s] 58%|█████▊    | 215618/371472 [6:06:58<14:25:18,  3.00it/s] 58%|█████▊    | 215619/371472 [6:06:59<13:51:54,  3.12it/s] 58%|█████▊    | 215620/371472 [6:06:59<13:28:49,  3.21it/s]                                                            {'loss': 3.0171, 'learning_rate': 4.778006421168308e-07, 'epoch': 9.29}
 58%|█████▊    | 215620/371472 [6:06:59<13:28:49,  3.21it/s] 58%|█████▊    | 215621/371472 [6:06:59<12:45:09,  3.39it/s] 58%|█████▊    | 215622/371472 [6:06:59<12:50:04,  3.37it/s] 58%|█████▊    | 215623/371472 [6:07:00<12:52:08,  3.36it/s] 58%|█████▊    | 215624/371472 [6:07:00<12:15:19,  3.53it/s] 58%|█████▊    | 215625/371472 [6:07:00<12:07:49,  3.57it/s] 58%|█████▊    | 215626/371472 [6:07:01<12:00:59,  3.60it/s] 58%|█████▊    | 215627/371472 [6:07:01<11:56:37,  3.62it/s] 58%|█████▊    | 215628/371472 [6:07:01<11:46:57,  3.67it/s] 58%|█████▊    | 215629/371472 [6:07:01<11:58:49,  3.61it/s] 58%|█████▊    | 215630/371472 [6:07:02<11:36:59,  3.73it/s] 58%|█████▊    | 215631/371472 [6:07:02<11:27:54,  3.78it/s] 58%|█████▊    | 215632/371472 [6:07:02<11:12:53,  3.86it/s] 58%|█████▊    | 215633/371472 [6:07:02<11:10:55,  3.87it/s] 58%|█████▊    | 215634/371472 [6:07:03<11:56:46,  3.62it/s] 58%|█████▊    | 215635/371472 [6:07:03<11:41:43,  3.70it/s] 58%|█████▊    | 215636/371472 [6:07:03<11:40:05,  3.71it/s] 58%|█████▊    | 215637/371472 [6:07:03<11:24:34,  3.79it/s] 58%|█████▊    | 215638/371472 [6:07:04<12:16:03,  3.53it/s] 58%|█████▊    | 215639/371472 [6:07:04<12:33:22,  3.45it/s] 58%|█████▊    | 215640/371472 [6:07:04<12:55:34,  3.35it/s]                                                            {'loss': 2.9473, 'learning_rate': 4.777521601413518e-07, 'epoch': 9.29}
 58%|█████▊    | 215640/371472 [6:07:04<12:55:34,  3.35it/s] 58%|█████▊    | 215641/371472 [6:07:05<12:33:44,  3.45it/s] 58%|█████▊    | 215642/371472 [6:07:05<12:02:28,  3.59it/s] 58%|█████▊    | 215643/371472 [6:07:05<11:59:25,  3.61it/s] 58%|█████▊    | 215644/371472 [6:07:06<12:50:08,  3.37it/s] 58%|█████▊    | 215645/371472 [6:07:06<13:08:04,  3.30it/s] 58%|█████▊    | 215646/371472 [6:07:06<13:42:30,  3.16it/s] 58%|█████▊    | 215647/371472 [6:07:06<13:39:13,  3.17it/s] 58%|█████▊    | 215648/371472 [6:07:07<14:48:33,  2.92it/s] 58%|█████▊    | 215649/371472 [6:07:07<13:41:43,  3.16it/s] 58%|█████▊    | 215650/371472 [6:07:07<12:48:40,  3.38it/s] 58%|█████▊    | 215651/371472 [6:07:08<12:45:00,  3.39it/s] 58%|█████▊    | 215652/371472 [6:07:08<13:05:29,  3.31it/s] 58%|█████▊    | 215653/371472 [6:07:08<14:52:49,  2.91it/s] 58%|█████▊    | 215654/371472 [6:07:09<13:49:58,  3.13it/s] 58%|█████▊    | 215655/371472 [6:07:09<13:10:55,  3.28it/s] 58%|█████▊    | 215656/371472 [6:07:09<13:07:54,  3.30it/s] 58%|█████▊    | 215657/371472 [6:07:10<12:50:20,  3.37it/s] 58%|█████▊    | 215658/371472 [6:07:10<12:26:23,  3.48it/s] 58%|█████▊    | 215659/371472 [6:07:10<13:04:00,  3.31it/s] 58%|█████▊    | 215660/371472 [6:07:10<12:28:17,  3.47it/s]                                                            {'loss': 2.992, 'learning_rate': 4.777036781658731e-07, 'epoch': 9.29}
 58%|█████▊    | 215660/371472 [6:07:10<12:28:17,  3.47it/s] 58%|█████▊    | 215661/371472 [6:07:11<12:46:44,  3.39it/s] 58%|█████▊    | 215662/371472 [6:07:11<12:54:49,  3.35it/s] 58%|█████▊    | 215663/371472 [6:07:11<12:56:56,  3.34it/s] 58%|█████▊    | 215664/371472 [6:07:12<12:50:00,  3.37it/s] 58%|█████▊    | 215665/371472 [6:07:12<12:36:37,  3.43it/s] 58%|█████▊    | 215666/371472 [6:07:12<12:03:24,  3.59it/s] 58%|█████▊    | 215667/371472 [6:07:12<11:52:20,  3.65it/s] 58%|█████▊    | 215668/371472 [6:07:13<11:52:46,  3.64it/s] 58%|█████▊    | 215669/371472 [6:07:13<11:42:27,  3.70it/s] 58%|█████▊    | 215670/371472 [6:07:13<11:41:25,  3.70it/s] 58%|█████▊    | 215671/371472 [6:07:14<12:47:02,  3.39it/s] 58%|█████▊    | 215672/371472 [6:07:14<12:34:39,  3.44it/s] 58%|█████▊    | 215673/371472 [6:07:14<12:11:50,  3.55it/s] 58%|█████▊    | 215674/371472 [6:07:14<12:45:46,  3.39it/s] 58%|█████▊    | 215675/371472 [6:07:15<13:01:10,  3.32it/s] 58%|█████▊    | 215676/371472 [6:07:15<12:42:23,  3.41it/s] 58%|█████▊    | 215677/371472 [6:07:15<13:16:08,  3.26it/s] 58%|█████▊    | 215678/371472 [6:07:16<13:09:25,  3.29it/s] 58%|█████▊    | 215679/371472 [6:07:16<12:57:14,  3.34it/s] 58%|█████▊    | 215680/371472 [6:07:16<12:38:35,  3.42it/s]                                                            {'loss': 2.7889, 'learning_rate': 4.776551961903942e-07, 'epoch': 9.29}
 58%|█████▊    | 215680/371472 [6:07:16<12:38:35,  3.42it/s] 58%|█████▊    | 215681/371472 [6:07:17<12:50:56,  3.37it/s] 58%|█████▊    | 215682/371472 [6:07:17<13:09:55,  3.29it/s] 58%|█████▊    | 215683/371472 [6:07:17<14:08:44,  3.06it/s] 58%|█████▊    | 215684/371472 [6:07:18<13:51:31,  3.12it/s] 58%|█████▊    | 215685/371472 [6:07:18<13:35:21,  3.18it/s] 58%|█████▊    | 215686/371472 [6:07:18<13:09:40,  3.29it/s] 58%|█████▊    | 215687/371472 [6:07:18<13:01:15,  3.32it/s] 58%|█████▊    | 215688/371472 [6:07:19<12:56:13,  3.34it/s] 58%|█████▊    | 215689/371472 [6:07:19<12:22:13,  3.50it/s] 58%|█████▊    | 215690/371472 [6:07:19<12:43:55,  3.40it/s] 58%|█████▊    | 215691/371472 [6:07:20<12:42:50,  3.40it/s] 58%|█████▊    | 215692/371472 [6:07:20<12:57:12,  3.34it/s] 58%|█████▊    | 215693/371472 [6:07:20<13:26:31,  3.22it/s] 58%|█████▊    | 215694/371472 [6:07:21<13:39:32,  3.17it/s] 58%|█████▊    | 215695/371472 [6:07:21<14:37:25,  2.96it/s] 58%|█████▊    | 215696/371472 [6:07:21<14:36:34,  2.96it/s] 58%|█████▊    | 215697/371472 [6:07:22<13:35:46,  3.18it/s] 58%|█████▊    | 215698/371472 [6:07:22<13:30:59,  3.20it/s] 58%|█████▊    | 215699/371472 [6:07:22<13:01:21,  3.32it/s] 58%|█████▊    | 215700/371472 [6:07:22<12:42:44,  3.40it/s]                                                            {'loss': 2.7905, 'learning_rate': 4.776067142149151e-07, 'epoch': 9.29}
 58%|█████▊    | 215700/371472 [6:07:22<12:42:44,  3.40it/s] 58%|█████▊    | 215701/371472 [6:07:23<12:25:32,  3.48it/s] 58%|█████▊    | 215702/371472 [6:07:23<12:44:58,  3.39it/s] 58%|█████▊    | 215703/371472 [6:07:23<12:36:50,  3.43it/s] 58%|█████▊    | 215704/371472 [6:07:24<12:13:57,  3.54it/s] 58%|█████▊    | 215705/371472 [6:07:24<13:53:14,  3.12it/s] 58%|█████▊    | 215706/371472 [6:07:24<13:14:34,  3.27it/s] 58%|█████▊    | 215707/371472 [6:07:24<12:41:21,  3.41it/s] 58%|█████▊    | 215708/371472 [6:07:25<14:48:26,  2.92it/s] 58%|█████▊    | 215709/371472 [6:07:25<13:56:35,  3.10it/s] 58%|█████▊    | 215710/371472 [6:07:26<13:48:40,  3.13it/s] 58%|█████▊    | 215711/371472 [6:07:26<13:36:09,  3.18it/s] 58%|█████▊    | 215712/371472 [6:07:26<12:51:32,  3.36it/s] 58%|█████▊    | 215713/371472 [6:07:26<12:56:18,  3.34it/s] 58%|█████▊    | 215714/371472 [6:07:27<12:40:35,  3.41it/s] 58%|█████▊    | 215715/371472 [6:07:27<12:17:51,  3.52it/s] 58%|█████▊    | 215716/371472 [6:07:27<12:06:38,  3.57it/s] 58%|█████▊    | 215717/371472 [6:07:28<12:23:28,  3.49it/s] 58%|█████▊    | 215718/371472 [6:07:28<13:15:09,  3.26it/s] 58%|█████▊    | 215719/371472 [6:07:28<13:27:21,  3.22it/s] 58%|█████▊    | 215720/371472 [6:07:29<13:50:48,  3.12it/s]                                                            {'loss': 2.9809, 'learning_rate': 4.775582322394363e-07, 'epoch': 9.29}
 58%|█████▊    | 215720/371472 [6:07:29<13:50:48,  3.12it/s] 58%|█████▊    | 215721/371472 [6:07:29<14:43:20,  2.94it/s] 58%|█████▊    | 215722/371472 [6:07:29<14:02:22,  3.08it/s] 58%|█████▊    | 215723/371472 [6:07:29<13:19:09,  3.25it/s] 58%|█████▊    | 215724/371472 [6:07:30<13:23:27,  3.23it/s] 58%|█████▊    | 215725/371472 [6:07:30<12:55:37,  3.35it/s] 58%|█████▊    | 215726/371472 [6:07:30<13:08:43,  3.29it/s] 58%|█████▊    | 215727/371472 [6:07:31<12:37:11,  3.43it/s] 58%|█████▊    | 215728/371472 [6:07:31<12:05:41,  3.58it/s] 58%|█████▊    | 215729/371472 [6:07:31<12:26:21,  3.48it/s] 58%|█████▊    | 215730/371472 [6:07:32<12:55:34,  3.35it/s] 58%|█████▊    | 215731/371472 [6:07:32<12:31:50,  3.45it/s] 58%|█████▊    | 215732/371472 [6:07:32<11:51:10,  3.65it/s] 58%|█████▊    | 215733/371472 [6:07:32<11:52:38,  3.64it/s] 58%|█████▊    | 215734/371472 [6:07:33<12:05:54,  3.58it/s] 58%|█████▊    | 215735/371472 [6:07:33<12:31:18,  3.45it/s] 58%|█████▊    | 215736/371472 [6:07:33<13:08:05,  3.29it/s] 58%|█████▊    | 215737/371472 [6:07:34<12:53:23,  3.36it/s] 58%|█████▊    | 215738/371472 [6:07:34<12:37:06,  3.43it/s] 58%|█████▊    | 215739/371472 [6:07:34<12:06:07,  3.57it/s] 58%|█████▊    | 215740/371472 [6:07:34<12:19:00,  3.51it/s]                                                            {'loss': 2.9251, 'learning_rate': 4.775097502639574e-07, 'epoch': 9.29}
 58%|█████▊    | 215740/371472 [6:07:34<12:19:00,  3.51it/s] 58%|█████▊    | 215741/371472 [6:07:35<12:10:51,  3.55it/s] 58%|█████▊    | 215742/371472 [6:07:35<11:58:40,  3.61it/s] 58%|█████▊    | 215743/371472 [6:07:35<12:30:18,  3.46it/s] 58%|█████▊    | 215744/371472 [6:07:35<11:51:41,  3.65it/s] 58%|█████▊    | 215745/371472 [6:07:36<12:20:44,  3.50it/s] 58%|█████▊    | 215746/371472 [6:07:36<12:13:48,  3.54it/s] 58%|█████▊    | 215747/371472 [6:07:36<11:51:05,  3.65it/s] 58%|█████▊    | 215748/371472 [6:07:37<11:49:31,  3.66it/s] 58%|█████▊    | 215749/371472 [6:07:37<12:34:11,  3.44it/s] 58%|█████▊    | 215750/371472 [6:07:37<12:44:47,  3.39it/s] 58%|█████▊    | 215751/371472 [6:07:37<12:05:06,  3.58it/s] 58%|█████▊    | 215752/371472 [6:07:38<11:51:08,  3.65it/s] 58%|█████▊    | 215753/371472 [6:07:38<11:43:31,  3.69it/s] 58%|█████▊    | 215754/371472 [6:07:38<12:07:19,  3.57it/s] 58%|█████▊    | 215755/371472 [6:07:39<12:53:40,  3.35it/s] 58%|█████▊    | 215756/371472 [6:07:39<13:03:44,  3.31it/s] 58%|█████▊    | 215757/371472 [6:07:39<12:32:53,  3.45it/s] 58%|█████▊    | 215758/371472 [6:07:39<12:03:40,  3.59it/s] 58%|█████▊    | 215759/371472 [6:07:40<11:58:55,  3.61it/s] 58%|█████▊    | 215760/371472 [6:07:40<11:41:12,  3.70it/s]                                                            {'loss': 3.0253, 'learning_rate': 4.774612682884784e-07, 'epoch': 9.29}
 58%|█████▊    | 215760/371472 [6:07:40<11:41:12,  3.70it/s] 58%|█████▊    | 215761/371472 [6:07:40<12:19:03,  3.51it/s] 58%|█████▊    | 215762/371472 [6:07:41<12:06:16,  3.57it/s] 58%|█████▊    | 215763/371472 [6:07:41<11:44:16,  3.68it/s] 58%|█████▊    | 215764/371472 [6:07:41<11:34:00,  3.74it/s] 58%|█████▊    | 215765/371472 [6:07:41<11:04:47,  3.90it/s] 58%|█████▊    | 215766/371472 [6:07:42<11:05:19,  3.90it/s] 58%|█████▊    | 215767/371472 [6:07:42<12:01:40,  3.60it/s] 58%|█████▊    | 215768/371472 [6:07:42<11:41:33,  3.70it/s] 58%|█████▊    | 215769/371472 [6:07:42<12:18:58,  3.51it/s] 58%|█████▊    | 215770/371472 [6:07:43<11:34:24,  3.74it/s] 58%|█████▊    | 215771/371472 [6:07:43<11:39:15,  3.71it/s] 58%|█████▊    | 215772/371472 [6:07:43<11:20:31,  3.81it/s] 58%|█████▊    | 215773/371472 [6:07:44<13:32:44,  3.19it/s] 58%|█████▊    | 215774/371472 [6:07:44<13:03:50,  3.31it/s] 58%|█████▊    | 215775/371472 [6:07:44<14:41:27,  2.94it/s] 58%|█████▊    | 215776/371472 [6:07:45<13:55:57,  3.10it/s] 58%|█████▊    | 215777/371472 [6:07:45<14:13:12,  3.04it/s] 58%|█████▊    | 215778/371472 [6:07:45<13:07:13,  3.30it/s] 58%|█████▊    | 215779/371472 [6:07:45<12:48:18,  3.38it/s] 58%|█████▊    | 215780/371472 [6:07:46<12:45:30,  3.39it/s]                                                            {'loss': 3.1049, 'learning_rate': 4.774127863129995e-07, 'epoch': 9.29}
 58%|█████▊    | 215780/371472 [6:07:46<12:45:30,  3.39it/s] 58%|█████▊    | 215781/371472 [6:07:46<12:50:57,  3.37it/s] 58%|█████▊    | 215782/371472 [6:07:46<12:32:39,  3.45it/s] 58%|█████▊    | 215783/371472 [6:07:47<13:12:59,  3.27it/s] 58%|█████▊    | 215784/371472 [6:07:47<12:42:12,  3.40it/s] 58%|█████▊    | 215785/371472 [6:07:47<12:14:11,  3.53it/s] 58%|█████▊    | 215786/371472 [6:07:48<12:38:52,  3.42it/s] 58%|█████▊    | 215787/371472 [6:07:48<13:05:16,  3.30it/s] 58%|█████▊    | 215788/371472 [6:07:48<12:12:12,  3.54it/s] 58%|█████▊    | 215789/371472 [6:07:48<12:13:06,  3.54it/s] 58%|█████▊    | 215790/371472 [6:07:49<12:03:33,  3.59it/s] 58%|█████▊    | 215791/371472 [6:07:49<12:05:36,  3.58it/s] 58%|█████▊    | 215792/371472 [6:07:49<12:59:27,  3.33it/s] 58%|█████▊    | 215793/371472 [6:07:50<14:33:28,  2.97it/s] 58%|█████▊    | 215794/371472 [6:07:50<13:48:00,  3.13it/s] 58%|█████▊    | 215795/371472 [6:07:50<13:24:36,  3.22it/s] 58%|█████▊    | 215796/371472 [6:07:51<12:49:47,  3.37it/s] 58%|█████▊    | 215797/371472 [6:07:51<12:20:14,  3.51it/s] 58%|█████▊    | 215798/371472 [6:07:51<12:02:57,  3.59it/s] 58%|█████▊    | 215799/371472 [6:07:51<12:07:20,  3.57it/s] 58%|█████▊    | 215800/371472 [6:07:52<12:25:46,  3.48it/s]                                                            {'loss': 2.8487, 'learning_rate': 4.773643043375208e-07, 'epoch': 9.29}
 58%|█████▊    | 215800/371472 [6:07:52<12:25:46,  3.48it/s] 58%|█████▊    | 215801/371472 [6:07:52<12:22:03,  3.50it/s] 58%|█████▊    | 215802/371472 [6:07:52<12:10:43,  3.55it/s] 58%|█████▊    | 215803/371472 [6:07:53<12:42:56,  3.40it/s] 58%|█████▊    | 215804/371472 [6:07:53<13:06:33,  3.30it/s] 58%|█████▊    | 215805/371472 [6:07:53<13:11:44,  3.28it/s] 58%|█████▊    | 215806/371472 [6:07:53<12:34:51,  3.44it/s] 58%|█████▊    | 215807/371472 [6:07:54<12:36:10,  3.43it/s] 58%|█████▊    | 215808/371472 [6:07:54<12:55:29,  3.35it/s] 58%|█████▊    | 215809/371472 [6:07:54<13:07:53,  3.29it/s] 58%|█████▊    | 215810/371472 [6:07:55<12:54:02,  3.35it/s] 58%|█████▊    | 215811/371472 [6:07:55<12:55:39,  3.34it/s] 58%|█████▊    | 215812/371472 [6:07:55<12:59:44,  3.33it/s] 58%|█████▊    | 215813/371472 [6:07:55<12:45:14,  3.39it/s] 58%|█████▊    | 215814/371472 [6:07:56<13:16:14,  3.26it/s] 58%|█████▊    | 215815/371472 [6:07:56<12:49:41,  3.37it/s] 58%|█████▊    | 215816/371472 [6:07:56<12:40:05,  3.41it/s] 58%|█████▊    | 215817/371472 [6:07:57<12:26:52,  3.47it/s] 58%|█████▊    | 215818/371472 [6:07:57<12:14:28,  3.53it/s] 58%|█████▊    | 215819/371472 [6:07:57<11:55:25,  3.63it/s] 58%|█████▊    | 215820/371472 [6:07:57<11:35:00,  3.73it/s]                                                            {'loss': 2.8377, 'learning_rate': 4.773158223620418e-07, 'epoch': 9.3}
 58%|█████▊    | 215820/371472 [6:07:57<11:35:00,  3.73it/s] 58%|█████▊    | 215821/371472 [6:07:58<11:28:48,  3.77it/s] 58%|█████▊    | 215822/371472 [6:07:58<11:28:38,  3.77it/s] 58%|█████▊    | 215823/371472 [6:07:58<12:00:16,  3.60it/s] 58%|█████▊    | 215824/371472 [6:07:59<12:01:00,  3.60it/s] 58%|█████▊    | 215825/371472 [6:07:59<13:05:32,  3.30it/s] 58%|█████▊    | 215826/371472 [6:07:59<12:51:48,  3.36it/s] 58%|█████▊    | 215827/371472 [6:08:00<13:05:11,  3.30it/s] 58%|█████▊    | 215828/371472 [6:08:00<12:42:49,  3.40it/s] 58%|█████▊    | 215829/371472 [6:08:00<13:43:11,  3.15it/s] 58%|█████▊    | 215830/371472 [6:08:00<13:40:46,  3.16it/s] 58%|█████▊    | 215831/371472 [6:08:01<13:05:31,  3.30it/s] 58%|█████▊    | 215832/371472 [6:08:01<12:19:50,  3.51it/s] 58%|█████▊    | 215833/371472 [6:08:01<12:42:40,  3.40it/s] 58%|█████▊    | 215834/371472 [6:08:02<12:31:38,  3.45it/s] 58%|█████▊    | 215835/371472 [6:08:02<12:13:51,  3.53it/s] 58%|█████▊    | 215836/371472 [6:08:02<12:13:23,  3.54it/s] 58%|█████▊    | 215837/371472 [6:08:02<12:16:12,  3.52it/s] 58%|█████▊    | 215838/371472 [6:08:03<12:18:58,  3.51it/s] 58%|█████▊    | 215839/371472 [6:08:03<13:37:29,  3.17it/s] 58%|█████▊    | 215840/371472 [6:08:03<13:10:43,  3.28it/s]                                                            {'loss': 2.876, 'learning_rate': 4.772673403865629e-07, 'epoch': 9.3}
 58%|█████▊    | 215840/371472 [6:08:03<13:10:43,  3.28it/s] 58%|█████▊    | 215841/371472 [6:08:04<12:45:57,  3.39it/s] 58%|█████▊    | 215842/371472 [6:08:04<12:28:46,  3.46it/s] 58%|█████▊    | 215843/371472 [6:08:04<13:07:05,  3.30it/s] 58%|█████▊    | 215844/371472 [6:08:05<12:41:34,  3.41it/s] 58%|█████▊    | 215845/371472 [6:08:05<13:28:58,  3.21it/s] 58%|█████▊    | 215846/371472 [6:08:05<13:41:34,  3.16it/s] 58%|█████▊    | 215847/371472 [6:08:06<13:57:55,  3.10it/s] 58%|█████▊    | 215848/371472 [6:08:06<13:20:41,  3.24it/s] 58%|█████▊    | 215849/371472 [6:08:06<13:34:22,  3.18it/s] 58%|█████▊    | 215850/371472 [6:08:06<13:09:54,  3.28it/s] 58%|█████▊    | 215851/371472 [6:08:07<12:54:06,  3.35it/s] 58%|█████▊    | 215852/371472 [6:08:07<12:45:14,  3.39it/s] 58%|█████▊    | 215853/371472 [6:08:07<12:12:22,  3.54it/s] 58%|█████▊    | 215854/371472 [6:08:08<12:48:32,  3.37it/s] 58%|█████▊    | 215855/371472 [6:08:08<12:43:32,  3.40it/s] 58%|█████▊    | 215856/371472 [6:08:08<12:20:19,  3.50it/s] 58%|█████▊    | 215857/371472 [6:08:08<11:46:49,  3.67it/s] 58%|█████▊    | 215858/371472 [6:08:09<13:52:04,  3.12it/s] 58%|█████▊    | 215859/371472 [6:08:09<13:16:31,  3.26it/s] 58%|█████▊    | 215860/371472 [6:08:09<12:31:31,  3.45it/s]                                                            {'loss': 2.8121, 'learning_rate': 4.77218858411084e-07, 'epoch': 9.3}
 58%|█████▊    | 215860/371472 [6:08:09<12:31:31,  3.45it/s] 58%|█████▊    | 215861/371472 [6:08:10<13:17:42,  3.25it/s] 58%|█████▊    | 215862/371472 [6:08:10<12:35:16,  3.43it/s] 58%|█████▊    | 215863/371472 [6:08:10<12:24:59,  3.48it/s] 58%|█████▊    | 215864/371472 [6:08:11<13:37:32,  3.17it/s] 58%|█████▊    | 215865/371472 [6:08:11<13:10:01,  3.28it/s] 58%|█████▊    | 215866/371472 [6:08:11<12:34:30,  3.44it/s] 58%|█████▊    | 215867/371472 [6:08:11<12:14:17,  3.53it/s] 58%|█████▊    | 215868/371472 [6:08:12<11:57:13,  3.62it/s] 58%|█████▊    | 215869/371472 [6:08:12<11:55:48,  3.62it/s] 58%|█████▊    | 215870/371472 [6:08:12<15:02:57,  2.87it/s] 58%|█████▊    | 215871/371472 [6:08:13<13:48:39,  3.13it/s] 58%|█████▊    | 215872/371472 [6:08:13<13:53:37,  3.11it/s] 58%|█████▊    | 215873/371472 [6:08:13<13:11:30,  3.28it/s] 58%|█████▊    | 215874/371472 [6:08:14<12:49:27,  3.37it/s] 58%|█████▊    | 215875/371472 [6:08:14<12:35:01,  3.43it/s] 58%|█████▊    | 215876/371472 [6:08:14<12:11:20,  3.55it/s] 58%|█████▊    | 215877/371472 [6:08:14<12:10:54,  3.55it/s] 58%|█████▊    | 215878/371472 [6:08:15<11:45:21,  3.68it/s] 58%|█████▊    | 215879/371472 [6:08:15<11:54:17,  3.63it/s] 58%|█████▊    | 215880/371472 [6:08:15<11:47:31,  3.67it/s]                                                            {'loss': 3.0789, 'learning_rate': 4.771703764356051e-07, 'epoch': 9.3}
 58%|█████▊    | 215880/371472 [6:08:15<11:47:31,  3.67it/s] 58%|█████▊    | 215881/371472 [6:08:16<12:23:10,  3.49it/s] 58%|█████▊    | 215882/371472 [6:08:16<12:58:50,  3.33it/s] 58%|█████▊    | 215883/371472 [6:08:16<12:21:44,  3.50it/s] 58%|█████▊    | 215884/371472 [6:08:16<12:14:08,  3.53it/s] 58%|█████▊    | 215885/371472 [6:08:17<13:18:05,  3.25it/s] 58%|█████▊    | 215886/371472 [6:08:17<12:56:11,  3.34it/s] 58%|█████▊    | 215887/371472 [6:08:17<12:25:38,  3.48it/s] 58%|█████▊    | 215888/371472 [6:08:18<12:02:20,  3.59it/s] 58%|█████▊    | 215889/371472 [6:08:18<11:36:34,  3.72it/s] 58%|█████▊    | 215890/371472 [6:08:18<12:11:34,  3.54it/s] 58%|█████▊    | 215891/371472 [6:08:18<12:06:28,  3.57it/s] 58%|█████▊    | 215892/371472 [6:08:19<12:13:24,  3.54it/s] 58%|█████▊    | 215893/371472 [6:08:19<11:58:03,  3.61it/s] 58%|█████▊    | 215894/371472 [6:08:19<11:53:10,  3.64it/s] 58%|█████▊    | 215895/371472 [6:08:20<12:44:44,  3.39it/s] 58%|█████▊    | 215896/371472 [6:08:20<12:19:40,  3.51it/s] 58%|█████▊    | 215897/371472 [6:08:20<12:16:45,  3.52it/s] 58%|█████▊    | 215898/371472 [6:08:20<12:38:36,  3.42it/s] 58%|█████▊    | 215899/371472 [6:08:21<12:34:42,  3.44it/s] 58%|█████▊    | 215900/371472 [6:08:21<12:37:08,  3.42it/s]                                                            {'loss': 2.7362, 'learning_rate': 4.771218944601262e-07, 'epoch': 9.3}
 58%|█████▊    | 215900/371472 [6:08:21<12:37:08,  3.42it/s] 58%|█████▊    | 215901/371472 [6:08:21<12:20:15,  3.50it/s] 58%|█████▊    | 215902/371472 [6:08:22<12:06:15,  3.57it/s] 58%|█████▊    | 215903/371472 [6:08:22<12:35:40,  3.43it/s] 58%|█████▊    | 215904/371472 [6:08:22<12:55:01,  3.35it/s] 58%|█████▊    | 215905/371472 [6:08:22<12:18:15,  3.51it/s] 58%|█████▊    | 215906/371472 [6:08:23<12:13:37,  3.53it/s] 58%|█████▊    | 215907/371472 [6:08:23<12:18:57,  3.51it/s] 58%|█████▊    | 215908/371472 [6:08:23<12:12:35,  3.54it/s] 58%|█████▊    | 215909/371472 [6:08:24<12:17:55,  3.51it/s] 58%|█████▊    | 215910/371472 [6:08:24<12:32:19,  3.45it/s] 58%|█████▊    | 215911/371472 [6:08:24<12:17:14,  3.52it/s] 58%|█████▊    | 215912/371472 [6:08:24<12:27:34,  3.47it/s] 58%|█████▊    | 215913/371472 [6:08:25<12:06:16,  3.57it/s] 58%|█████▊    | 215914/371472 [6:08:25<12:30:09,  3.46it/s] 58%|█████▊    | 215915/371472 [6:08:25<12:49:36,  3.37it/s] 58%|█████▊    | 215916/371472 [6:08:26<13:28:38,  3.21it/s] 58%|█████▊    | 215917/371472 [6:08:26<12:41:32,  3.40it/s] 58%|█████▊    | 215918/371472 [6:08:26<13:05:03,  3.30it/s] 58%|█████▊    | 215919/371472 [6:08:27<12:50:05,  3.37it/s] 58%|█████▊    | 215920/371472 [6:08:27<12:44:22,  3.39it/s]                                                            {'loss': 2.8496, 'learning_rate': 4.770734124846474e-07, 'epoch': 9.3}
 58%|█████▊    | 215920/371472 [6:08:27<12:44:22,  3.39it/s] 58%|█████▊    | 215921/371472 [6:08:27<12:24:58,  3.48it/s] 58%|█████▊    | 215922/371472 [6:08:27<12:02:58,  3.59it/s] 58%|█████▊    | 215923/371472 [6:08:28<12:04:27,  3.58it/s] 58%|█████▊    | 215924/371472 [6:08:28<12:18:31,  3.51it/s] 58%|█████▊    | 215925/371472 [6:08:28<12:01:32,  3.59it/s] 58%|█████▊    | 215926/371472 [6:08:28<11:54:51,  3.63it/s] 58%|█████▊    | 215927/371472 [6:08:29<12:21:59,  3.49it/s] 58%|█████▊    | 215928/371472 [6:08:29<12:40:00,  3.41it/s] 58%|█████▊    | 215929/371472 [6:08:29<12:10:45,  3.55it/s] 58%|█████▊    | 215930/371472 [6:08:30<11:57:41,  3.61it/s] 58%|█████▊    | 215931/371472 [6:08:30<12:26:54,  3.47it/s] 58%|█████▊    | 215932/371472 [6:08:30<13:00:57,  3.32it/s] 58%|█████▊    | 215933/371472 [6:08:30<12:34:58,  3.43it/s] 58%|█████▊    | 215934/371472 [6:08:31<12:15:23,  3.53it/s] 58%|█████▊    | 215935/371472 [6:08:31<12:25:16,  3.48it/s] 58%|█████▊    | 215936/371472 [6:08:31<12:48:20,  3.37it/s] 58%|█████▊    | 215937/371472 [6:08:32<12:36:17,  3.43it/s] 58%|█████▊    | 215938/371472 [6:08:32<13:27:35,  3.21it/s] 58%|█████▊    | 215939/371472 [6:08:32<13:06:22,  3.30it/s] 58%|█████▊    | 215940/371472 [6:08:33<12:39:30,  3.41it/s]                                                            {'loss': 2.8888, 'learning_rate': 4.770249305091685e-07, 'epoch': 9.3}
 58%|█████▊    | 215940/371472 [6:08:33<12:39:30,  3.41it/s] 58%|█████▊    | 215941/371472 [6:08:33<12:11:01,  3.55it/s] 58%|█████▊    | 215942/371472 [6:08:33<11:57:28,  3.61it/s] 58%|█████▊    | 215943/371472 [6:08:33<12:10:21,  3.55it/s] 58%|█████▊    | 215944/371472 [6:08:34<11:51:21,  3.64it/s] 58%|█████▊    | 215945/371472 [6:08:34<11:40:44,  3.70it/s] 58%|█████▊    | 215946/371472 [6:08:34<12:06:42,  3.57it/s] 58%|█████▊    | 215947/371472 [6:08:35<12:37:59,  3.42it/s] 58%|█████▊    | 215948/371472 [6:08:35<12:57:42,  3.33it/s] 58%|█████▊    | 215949/371472 [6:08:35<12:22:13,  3.49it/s] 58%|█████▊    | 215950/371472 [6:08:35<12:15:14,  3.53it/s] 58%|█████▊    | 215951/371472 [6:08:36<12:00:06,  3.60it/s] 58%|█████▊    | 215952/371472 [6:08:36<11:35:33,  3.73it/s] 58%|█████▊    | 215953/371472 [6:08:36<12:35:05,  3.43it/s] 58%|█████▊    | 215954/371472 [6:08:37<12:29:49,  3.46it/s] 58%|█████▊    | 215955/371472 [6:08:37<12:31:14,  3.45it/s] 58%|█████▊    | 215956/371472 [6:08:37<12:34:36,  3.43it/s] 58%|█████▊    | 215957/371472 [6:08:37<12:26:43,  3.47it/s] 58%|█████▊    | 215958/371472 [6:08:38<12:07:01,  3.57it/s] 58%|█████▊    | 215959/371472 [6:08:38<12:25:59,  3.47it/s] 58%|█████▊    | 215960/371472 [6:08:38<12:13:27,  3.53it/s]                                                            {'loss': 2.9507, 'learning_rate': 4.769764485336896e-07, 'epoch': 9.3}
 58%|█████▊    | 215960/371472 [6:08:38<12:13:27,  3.53it/s] 58%|█████▊    | 215961/371472 [6:08:38<11:54:03,  3.63it/s] 58%|█████▊    | 215962/371472 [6:08:39<11:53:24,  3.63it/s] 58%|█████▊    | 215963/371472 [6:08:39<12:11:22,  3.54it/s] 58%|█████▊    | 215964/371472 [6:08:39<11:44:52,  3.68it/s] 58%|█████▊    | 215965/371472 [6:08:40<11:29:33,  3.76it/s] 58%|█████▊    | 215966/371472 [6:08:40<11:48:19,  3.66it/s] 58%|█████▊    | 215967/371472 [6:08:40<12:15:42,  3.52it/s] 58%|█████▊    | 215968/371472 [6:08:40<12:00:31,  3.60it/s] 58%|█████▊    | 215969/371472 [6:08:41<11:51:08,  3.64it/s] 58%|█████▊    | 215970/371472 [6:08:41<11:44:38,  3.68it/s] 58%|█████▊    | 215971/371472 [6:08:41<12:00:07,  3.60it/s] 58%|█████▊    | 215972/371472 [6:08:41<11:45:55,  3.67it/s] 58%|█████▊    | 215973/371472 [6:08:42<11:37:31,  3.72it/s] 58%|█████▊    | 215974/371472 [6:08:42<11:53:47,  3.63it/s] 58%|█████▊    | 215975/371472 [6:08:42<11:52:35,  3.64it/s] 58%|█████▊    | 215976/371472 [6:08:43<12:14:37,  3.53it/s] 58%|█████▊    | 215977/371472 [6:08:43<12:15:52,  3.52it/s] 58%|█████▊    | 215978/371472 [6:08:43<12:04:26,  3.58it/s] 58%|█████▊    | 215979/371472 [6:08:43<12:02:49,  3.59it/s] 58%|█████▊    | 215980/371472 [6:08:44<12:11:08,  3.54it/s]                                                            {'loss': 3.0335, 'learning_rate': 4.769279665582107e-07, 'epoch': 9.3}
 58%|█████▊    | 215980/371472 [6:08:44<12:11:08,  3.54it/s] 58%|█████▊    | 215981/371472 [6:08:44<12:11:50,  3.54it/s] 58%|█████▊    | 215982/371472 [6:08:44<12:14:43,  3.53it/s] 58%|█████▊    | 215983/371472 [6:08:45<13:36:47,  3.17it/s] 58%|█████▊    | 215984/371472 [6:08:45<12:50:26,  3.36it/s] 58%|█████▊    | 215985/371472 [6:08:45<12:47:21,  3.38it/s] 58%|█████▊    | 215986/371472 [6:08:46<12:12:05,  3.54it/s] 58%|█████▊    | 215987/371472 [6:08:46<11:58:09,  3.61it/s] 58%|█████▊    | 215988/371472 [6:08:46<11:41:47,  3.69it/s] 58%|█████▊    | 215989/371472 [6:08:46<11:48:12,  3.66it/s] 58%|█████▊    | 215990/371472 [6:08:47<11:36:13,  3.72it/s] 58%|█████▊    | 215991/371472 [6:08:47<11:58:09,  3.61it/s] 58%|█████▊    | 215992/371472 [6:08:47<11:37:45,  3.71it/s] 58%|█████▊    | 215993/371472 [6:08:47<11:23:55,  3.79it/s] 58%|█████▊    | 215994/371472 [6:08:48<11:01:24,  3.92it/s] 58%|█████▊    | 215995/371472 [6:08:48<11:14:24,  3.84it/s] 58%|█████▊    | 215996/371472 [6:08:48<11:20:36,  3.81it/s] 58%|█████▊    | 215997/371472 [6:08:48<11:35:20,  3.73it/s] 58%|█████▊    | 215998/371472 [6:08:49<11:29:17,  3.76it/s] 58%|█████▊    | 215999/371472 [6:08:49<11:23:00,  3.79it/s] 58%|█████▊    | 216000/371472 [6:08:49<11:53:22,  3.63it/s]                                                            {'loss': 2.949, 'learning_rate': 4.768794845827318e-07, 'epoch': 9.3}
 58%|█████▊    | 216000/371472 [6:08:49<11:53:22,  3.63it/s] 58%|█████▊    | 216001/371472 [6:08:50<12:44:59,  3.39it/s] 58%|█████▊    | 216002/371472 [6:08:50<12:29:51,  3.46it/s] 58%|█████▊    | 216003/371472 [6:08:50<12:29:33,  3.46it/s] 58%|█████▊    | 216004/371472 [6:08:50<12:04:24,  3.58it/s] 58%|█████▊    | 216005/371472 [6:08:51<11:56:41,  3.62it/s] 58%|█████▊    | 216006/371472 [6:08:51<11:43:12,  3.68it/s] 58%|█████▊    | 216007/371472 [6:08:51<12:03:24,  3.58it/s] 58%|█████▊    | 216008/371472 [6:08:52<12:21:20,  3.50it/s] 58%|█████▊    | 216009/371472 [6:08:52<13:12:31,  3.27it/s] 58%|█████▊    | 216010/371472 [6:08:52<13:37:39,  3.17it/s] 58%|█████▊    | 216011/371472 [6:08:53<13:37:14,  3.17it/s] 58%|█████▊    | 216012/371472 [6:08:53<12:32:55,  3.44it/s] 58%|█████▊    | 216013/371472 [6:08:53<12:31:22,  3.45it/s] 58%|█████▊    | 216014/371472 [6:08:53<12:59:08,  3.33it/s] 58%|█████▊    | 216015/371472 [6:08:54<13:07:21,  3.29it/s] 58%|█████▊    | 216016/371472 [6:08:54<12:47:03,  3.38it/s] 58%|█████▊    | 216017/371472 [6:08:54<12:55:51,  3.34it/s] 58%|█████▊    | 216018/371472 [6:08:55<13:09:01,  3.28it/s] 58%|█████▊    | 216019/371472 [6:08:55<12:59:22,  3.32it/s] 58%|█████▊    | 216020/371472 [6:08:55<12:56:26,  3.34it/s]                                                            {'loss': 2.7982, 'learning_rate': 4.7683100260725285e-07, 'epoch': 9.3}
 58%|█████▊    | 216020/371472 [6:08:55<12:56:26,  3.34it/s] 58%|█████▊    | 216021/371472 [6:08:55<12:24:01,  3.48it/s] 58%|█████▊    | 216022/371472 [6:08:56<12:23:04,  3.49it/s] 58%|█████▊    | 216023/371472 [6:08:56<11:53:38,  3.63it/s] 58%|█████▊    | 216024/371472 [6:08:56<12:12:52,  3.54it/s] 58%|█████▊    | 216025/371472 [6:08:57<11:52:05,  3.64it/s] 58%|█████▊    | 216026/371472 [6:08:57<12:03:27,  3.58it/s] 58%|█████▊    | 216027/371472 [6:08:57<12:59:57,  3.32it/s] 58%|█████▊    | 216028/371472 [6:08:57<12:39:44,  3.41it/s] 58%|█████▊    | 216029/371472 [6:08:58<12:31:21,  3.45it/s] 58%|█████▊    | 216030/371472 [6:08:58<12:55:51,  3.34it/s] 58%|█████▊    | 216031/371472 [6:08:59<14:54:02,  2.90it/s] 58%|█████▊    | 216032/371472 [6:08:59<14:14:59,  3.03it/s] 58%|█████▊    | 216033/371472 [6:08:59<13:12:05,  3.27it/s] 58%|█████▊    | 216034/371472 [6:08:59<13:06:28,  3.29it/s] 58%|█████▊    | 216035/371472 [6:09:00<12:36:19,  3.43it/s] 58%|█████▊    | 216036/371472 [6:09:00<12:31:43,  3.45it/s] 58%|█████▊    | 216037/371472 [6:09:00<12:50:49,  3.36it/s] 58%|█████▊    | 216038/371472 [6:09:00<12:41:35,  3.40it/s] 58%|█████▊    | 216039/371472 [6:09:01<12:49:12,  3.37it/s] 58%|█████▊    | 216040/371472 [6:09:01<12:20:03,  3.50it/s]                                                            {'loss': 2.8206, 'learning_rate': 4.76782520631774e-07, 'epoch': 9.31}
 58%|█████▊    | 216040/371472 [6:09:01<12:20:03,  3.50it/s] 58%|█████▊    | 216041/371472 [6:09:01<13:17:25,  3.25it/s] 58%|█████▊    | 216042/371472 [6:09:02<13:44:24,  3.14it/s] 58%|█████▊    | 216043/371472 [6:09:02<12:59:40,  3.32it/s] 58%|█████▊    | 216044/371472 [6:09:02<12:58:59,  3.33it/s] 58%|█████▊    | 216045/371472 [6:09:03<12:34:25,  3.43it/s] 58%|█████▊    | 216046/371472 [6:09:03<12:26:35,  3.47it/s] 58%|█████▊    | 216047/371472 [6:09:03<11:58:18,  3.61it/s] 58%|█████▊    | 216048/371472 [6:09:03<12:05:27,  3.57it/s] 58%|█████▊    | 216049/371472 [6:09:04<12:55:18,  3.34it/s] 58%|█████▊    | 216050/371472 [6:09:04<12:44:32,  3.39it/s] 58%|█████▊    | 216051/371472 [6:09:04<12:15:53,  3.52it/s] 58%|█████▊    | 216052/371472 [6:09:05<12:21:07,  3.50it/s] 58%|█████▊    | 216053/371472 [6:09:05<14:32:14,  2.97it/s] 58%|█████▊    | 216054/371472 [6:09:05<13:25:06,  3.22it/s] 58%|█████▊    | 216055/371472 [6:09:06<12:42:23,  3.40it/s] 58%|█████▊    | 216056/371472 [6:09:06<12:16:07,  3.52it/s] 58%|█████▊    | 216057/371472 [6:09:06<11:46:52,  3.66it/s] 58%|█████▊    | 216058/371472 [6:09:06<11:38:23,  3.71it/s] 58%|█████▊    | 216059/371472 [6:09:07<11:43:52,  3.68it/s] 58%|█████▊    | 216060/371472 [6:09:07<12:09:48,  3.55it/s]                                                            {'loss': 2.9896, 'learning_rate': 4.767340386562951e-07, 'epoch': 9.31}
 58%|█████▊    | 216060/371472 [6:09:07<12:09:48,  3.55it/s] 58%|█████▊    | 216061/371472 [6:09:07<11:56:46,  3.61it/s] 58%|█████▊    | 216062/371472 [6:09:07<11:37:48,  3.71it/s] 58%|█████▊    | 216063/371472 [6:09:08<11:49:58,  3.65it/s] 58%|█████▊    | 216064/371472 [6:09:08<11:39:28,  3.70it/s] 58%|█████▊    | 216065/371472 [6:09:08<11:32:15,  3.74it/s] 58%|█████▊    | 216066/371472 [6:09:08<11:31:22,  3.75it/s] 58%|█████▊    | 216067/371472 [6:09:09<11:25:08,  3.78it/s] 58%|█████▊    | 216068/371472 [6:09:09<12:02:19,  3.59it/s] 58%|█████▊    | 216069/371472 [6:09:09<11:52:40,  3.63it/s] 58%|█████▊    | 216070/371472 [6:09:10<11:56:06,  3.62it/s] 58%|█████▊    | 216071/371472 [6:09:10<12:05:19,  3.57it/s] 58%|█████▊    | 216072/371472 [6:09:10<12:16:39,  3.52it/s] 58%|█████▊    | 216073/371472 [6:09:10<12:08:10,  3.56it/s] 58%|█████▊    | 216074/371472 [6:09:11<12:14:12,  3.53it/s] 58%|█████▊    | 216075/371472 [6:09:11<12:25:06,  3.48it/s] 58%|█████▊    | 216076/371472 [6:09:11<11:59:59,  3.60it/s] 58%|█████▊    | 216077/371472 [6:09:12<11:44:01,  3.68it/s] 58%|█████▊    | 216078/371472 [6:09:12<11:41:11,  3.69it/s] 58%|█████▊    | 216079/371472 [6:09:12<13:32:06,  3.19it/s] 58%|█████▊    | 216080/371472 [6:09:13<12:57:39,  3.33it/s]                                                            {'loss': 3.0554, 'learning_rate': 4.766855566808162e-07, 'epoch': 9.31}
 58%|█████▊    | 216080/371472 [6:09:13<12:57:39,  3.33it/s] 58%|█████▊    | 216081/371472 [6:09:13<12:28:24,  3.46it/s] 58%|█████▊    | 216082/371472 [6:09:13<12:56:14,  3.34it/s] 58%|█████▊    | 216083/371472 [6:09:13<12:49:12,  3.37it/s] 58%|█████▊    | 216084/371472 [6:09:14<12:15:55,  3.52it/s] 58%|█████▊    | 216085/371472 [6:09:14<12:33:43,  3.44it/s] 58%|█████▊    | 216086/371472 [6:09:14<13:31:06,  3.19it/s] 58%|█████▊    | 216087/371472 [6:09:15<12:59:25,  3.32it/s] 58%|█████▊    | 216088/371472 [6:09:15<12:38:17,  3.42it/s] 58%|█████▊    | 216089/371472 [6:09:15<12:17:08,  3.51it/s] 58%|█████▊    | 216090/371472 [6:09:15<12:04:38,  3.57it/s] 58%|█████▊    | 216091/371472 [6:09:16<11:48:23,  3.66it/s] 58%|█████▊    | 216092/371472 [6:09:16<11:50:39,  3.64it/s] 58%|█████▊    | 216093/371472 [6:09:16<12:21:09,  3.49it/s] 58%|█████▊    | 216094/371472 [6:09:17<12:11:30,  3.54it/s] 58%|█████▊    | 216095/371472 [6:09:17<12:25:48,  3.47it/s] 58%|█████▊    | 216096/371472 [6:09:17<12:31:06,  3.45it/s] 58%|█████▊    | 216097/371472 [6:09:17<13:30:30,  3.20it/s] 58%|█████▊    | 216098/371472 [6:09:18<13:02:22,  3.31it/s] 58%|█████▊    | 216099/371472 [6:09:18<13:22:14,  3.23it/s] 58%|█████▊    | 216100/371472 [6:09:18<13:18:02,  3.24it/s]                                                            {'loss': 2.8109, 'learning_rate': 4.766370747053373e-07, 'epoch': 9.31}
 58%|█████▊    | 216100/371472 [6:09:18<13:18:02,  3.24it/s] 58%|█████▊    | 216101/371472 [6:09:19<13:50:21,  3.12it/s] 58%|█████▊    | 216102/371472 [6:09:19<13:22:00,  3.23it/s] 58%|█████▊    | 216103/371472 [6:09:19<13:04:19,  3.30it/s] 58%|█████▊    | 216104/371472 [6:09:20<13:15:39,  3.25it/s] 58%|█████▊    | 216105/371472 [6:09:20<13:19:38,  3.24it/s] 58%|█████▊    | 216106/371472 [6:09:20<12:42:18,  3.40it/s] 58%|█████▊    | 216107/371472 [6:09:20<12:17:09,  3.51it/s] 58%|█████▊    | 216108/371472 [6:09:21<13:15:25,  3.26it/s] 58%|█████▊    | 216109/371472 [6:09:21<12:32:18,  3.44it/s] 58%|█████▊    | 216110/371472 [6:09:21<12:13:01,  3.53it/s] 58%|█████▊    | 216111/371472 [6:09:22<12:15:22,  3.52it/s] 58%|█████▊    | 216112/371472 [6:09:22<12:30:46,  3.45it/s] 58%|█████▊    | 216113/371472 [6:09:22<12:35:12,  3.43it/s] 58%|█████▊    | 216114/371472 [6:09:23<12:47:27,  3.37it/s] 58%|█████▊    | 216115/371472 [6:09:23<12:38:02,  3.42it/s] 58%|█████▊    | 216116/371472 [6:09:23<12:03:43,  3.58it/s] 58%|█████▊    | 216117/371472 [6:09:23<11:51:39,  3.64it/s] 58%|█████▊    | 216118/371472 [6:09:24<12:11:17,  3.54it/s] 58%|█████▊    | 216119/371472 [6:09:24<12:07:20,  3.56it/s] 58%|█████▊    | 216120/371472 [6:09:24<12:07:43,  3.56it/s]                                                            {'loss': 2.9095, 'learning_rate': 4.7658859272985847e-07, 'epoch': 9.31}
 58%|█████▊    | 216120/371472 [6:09:24<12:07:43,  3.56it/s] 58%|█████▊    | 216121/371472 [6:09:24<11:49:46,  3.65it/s] 58%|█████▊    | 216122/371472 [6:09:25<11:44:10,  3.68it/s] 58%|█████▊    | 216123/371472 [6:09:25<11:38:59,  3.70it/s] 58%|█████▊    | 216124/371472 [6:09:25<11:42:34,  3.69it/s] 58%|█████▊    | 216125/371472 [6:09:26<11:37:13,  3.71it/s] 58%|█████▊    | 216126/371472 [6:09:26<11:34:51,  3.73it/s] 58%|█████▊    | 216127/371472 [6:09:26<11:48:04,  3.66it/s] 58%|█████▊    | 216128/371472 [6:09:26<12:21:43,  3.49it/s] 58%|█████▊    | 216129/371472 [6:09:27<12:09:49,  3.55it/s] 58%|█████▊    | 216130/371472 [6:09:27<12:10:28,  3.54it/s] 58%|█████▊    | 216131/371472 [6:09:27<11:57:42,  3.61it/s] 58%|█████▊    | 216132/371472 [6:09:27<11:49:47,  3.65it/s] 58%|█████▊    | 216133/371472 [6:09:28<12:42:31,  3.40it/s] 58%|█████▊    | 216134/371472 [6:09:28<12:47:50,  3.37it/s] 58%|█████▊    | 216135/371472 [6:09:28<13:28:03,  3.20it/s] 58%|█████▊    | 216136/371472 [6:09:29<13:03:45,  3.30it/s] 58%|█████▊    | 216137/371472 [6:09:29<13:08:29,  3.28it/s] 58%|█████▊    | 216138/371472 [6:09:29<12:39:03,  3.41it/s] 58%|█████▊    | 216139/371472 [6:09:30<12:35:53,  3.42it/s] 58%|█████▊    | 216140/371472 [6:09:30<12:16:07,  3.52it/s]                                                            {'loss': 2.9688, 'learning_rate': 4.765401107543795e-07, 'epoch': 9.31}
 58%|█████▊    | 216140/371472 [6:09:30<12:16:07,  3.52it/s] 58%|█████▊    | 216141/371472 [6:09:30<12:01:09,  3.59it/s] 58%|█████▊    | 216142/371472 [6:09:30<12:22:41,  3.49it/s] 58%|█████▊    | 216143/371472 [6:09:31<12:45:24,  3.38it/s] 58%|█████▊    | 216144/371472 [6:09:31<12:20:10,  3.50it/s] 58%|█████▊    | 216145/371472 [6:09:31<12:43:29,  3.39it/s] 58%|█████▊    | 216146/371472 [6:09:32<13:11:04,  3.27it/s] 58%|█████▊    | 216147/371472 [6:09:32<12:29:20,  3.45it/s] 58%|█████▊    | 216148/371472 [6:09:32<13:07:23,  3.29it/s] 58%|█████▊    | 216149/371472 [6:09:33<13:00:35,  3.32it/s] 58%|█████▊    | 216150/371472 [6:09:33<12:43:06,  3.39it/s] 58%|█████▊    | 216151/371472 [6:09:33<12:55:21,  3.34it/s] 58%|█████▊    | 216152/371472 [6:09:33<12:38:52,  3.41it/s] 58%|█████▊    | 216153/371472 [6:09:34<13:37:02,  3.17it/s] 58%|█████▊    | 216154/371472 [6:09:34<12:58:44,  3.32it/s] 58%|█████▊    | 216155/371472 [6:09:34<12:47:50,  3.37it/s] 58%|█████▊    | 216156/371472 [6:09:35<12:35:12,  3.43it/s] 58%|█████▊    | 216157/371472 [6:09:35<12:43:39,  3.39it/s] 58%|█████▊    | 216158/371472 [6:09:35<12:40:33,  3.40it/s] 58%|█████▊    | 216159/371472 [6:09:35<12:20:46,  3.49it/s] 58%|█████▊    | 216160/371472 [6:09:36<11:47:38,  3.66it/s]                                                            {'loss': 3.0338, 'learning_rate': 4.7649162877890066e-07, 'epoch': 9.31}
 58%|█████▊    | 216160/371472 [6:09:36<11:47:38,  3.66it/s] 58%|█████▊    | 216161/371472 [6:09:36<12:19:13,  3.50it/s] 58%|█████▊    | 216162/371472 [6:09:36<12:20:00,  3.50it/s] 58%|█████▊    | 216163/371472 [6:09:37<13:07:10,  3.29it/s] 58%|█████▊    | 216164/371472 [6:09:37<12:44:37,  3.39it/s] 58%|█████▊    | 216165/371472 [6:09:37<12:13:47,  3.53it/s] 58%|█████▊    | 216166/371472 [6:09:38<12:17:45,  3.51it/s] 58%|█████▊    | 216167/371472 [6:09:38<12:08:51,  3.55it/s] 58%|█████▊    | 216168/371472 [6:09:38<12:01:43,  3.59it/s] 58%|█████▊    | 216169/371472 [6:09:38<12:34:59,  3.43it/s] 58%|█████▊    | 216170/371472 [6:09:39<12:06:48,  3.56it/s] 58%|█████▊    | 216171/371472 [6:09:39<12:01:02,  3.59it/s] 58%|█████▊    | 216172/371472 [6:09:39<12:39:11,  3.41it/s] 58%|█████▊    | 216173/371472 [6:09:40<12:25:12,  3.47it/s] 58%|█████▊    | 216174/371472 [6:09:40<11:57:59,  3.60it/s] 58%|█████▊    | 216175/371472 [6:09:40<12:31:41,  3.44it/s] 58%|█████▊    | 216176/371472 [6:09:40<12:10:58,  3.54it/s] 58%|█████▊    | 216177/371472 [6:09:41<11:55:38,  3.62it/s] 58%|█████▊    | 216178/371472 [6:09:41<11:32:32,  3.74it/s] 58%|█████▊    | 216179/371472 [6:09:41<11:25:20,  3.78it/s] 58%|█████▊    | 216180/371472 [6:09:41<11:23:48,  3.78it/s]                                                            {'loss': 2.7623, 'learning_rate': 4.7644314680342174e-07, 'epoch': 9.31}
 58%|█████▊    | 216180/371472 [6:09:41<11:23:48,  3.78it/s] 58%|█████▊    | 216181/371472 [6:09:42<11:25:07,  3.78it/s] 58%|█████▊    | 216182/371472 [6:09:42<11:08:41,  3.87it/s] 58%|█████▊    | 216183/371472 [6:09:42<11:06:07,  3.89it/s] 58%|█████▊    | 216184/371472 [6:09:42<12:19:55,  3.50it/s] 58%|█████▊    | 216185/371472 [6:09:43<12:19:42,  3.50it/s] 58%|█████▊    | 216186/371472 [6:09:43<12:36:27,  3.42it/s] 58%|█████▊    | 216187/371472 [6:09:43<12:38:17,  3.41it/s] 58%|█████▊    | 216188/371472 [6:09:44<12:38:01,  3.41it/s] 58%|█████▊    | 216189/371472 [6:09:44<12:29:50,  3.45it/s] 58%|█████▊    | 216190/371472 [6:09:44<12:27:26,  3.46it/s] 58%|█████▊    | 216191/371472 [6:09:45<12:27:12,  3.46it/s] 58%|█████▊    | 216192/371472 [6:09:45<12:33:00,  3.44it/s] 58%|█████▊    | 216193/371472 [6:09:45<12:44:33,  3.38it/s] 58%|█████▊    | 216194/371472 [6:09:45<12:44:25,  3.39it/s] 58%|█████▊    | 216195/371472 [6:09:46<11:59:22,  3.60it/s] 58%|█████▊    | 216196/371472 [6:09:46<11:54:59,  3.62it/s] 58%|█████▊    | 216197/371472 [6:09:46<12:39:00,  3.41it/s] 58%|█████▊    | 216198/371472 [6:09:47<12:19:51,  3.50it/s] 58%|█████▊    | 216199/371472 [6:09:47<12:16:07,  3.52it/s] 58%|█████▊    | 216200/371472 [6:09:47<12:03:39,  3.58it/s]                                                            {'loss': 2.7872, 'learning_rate': 4.7639466482794286e-07, 'epoch': 9.31}
 58%|█████▊    | 216200/371472 [6:09:47<12:03:39,  3.58it/s] 58%|█████▊    | 216201/371472 [6:09:47<11:48:01,  3.66it/s] 58%|█████▊    | 216202/371472 [6:09:48<12:12:30,  3.53it/s] 58%|█████▊    | 216203/371472 [6:09:48<11:59:48,  3.60it/s] 58%|█████▊    | 216204/371472 [6:09:48<12:17:58,  3.51it/s] 58%|█████▊    | 216205/371472 [6:09:49<12:31:32,  3.44it/s] 58%|█████▊    | 216206/371472 [6:09:49<12:18:16,  3.51it/s] 58%|█████▊    | 216207/371472 [6:09:49<12:43:20,  3.39it/s] 58%|█████▊    | 216208/371472 [6:09:49<12:35:58,  3.42it/s] 58%|█████▊    | 216209/371472 [6:09:50<12:31:27,  3.44it/s] 58%|█████▊    | 216210/371472 [6:09:50<12:09:43,  3.55it/s] 58%|█████▊    | 216211/371472 [6:09:50<12:08:51,  3.55it/s] 58%|█████▊    | 216212/371472 [6:09:51<12:02:28,  3.58it/s] 58%|█████▊    | 216213/371472 [6:09:51<11:46:04,  3.66it/s] 58%|█████▊    | 216214/371472 [6:09:51<12:13:25,  3.53it/s] 58%|█████▊    | 216215/371472 [6:09:51<13:27:18,  3.21it/s] 58%|█████▊    | 216216/371472 [6:09:52<12:49:54,  3.36it/s] 58%|█████▊    | 216217/371472 [6:09:52<12:23:49,  3.48it/s] 58%|█████▊    | 216218/371472 [6:09:52<12:04:58,  3.57it/s] 58%|█████▊    | 216219/371472 [6:09:53<12:20:55,  3.49it/s] 58%|█████▊    | 216220/371472 [6:09:53<12:53:26,  3.35it/s]                                                            {'loss': 2.9452, 'learning_rate': 4.7634618285246393e-07, 'epoch': 9.31}
 58%|█████▊    | 216220/371472 [6:09:53<12:53:26,  3.35it/s] 58%|█████▊    | 216221/371472 [6:09:53<12:24:02,  3.48it/s] 58%|█████▊    | 216222/371472 [6:09:53<12:06:55,  3.56it/s] 58%|█████▊    | 216223/371472 [6:09:54<12:03:01,  3.58it/s] 58%|█████▊    | 216224/371472 [6:09:54<11:53:03,  3.63it/s] 58%|█████▊    | 216225/371472 [6:09:54<11:42:36,  3.68it/s] 58%|█████▊    | 216226/371472 [6:09:55<12:22:42,  3.48it/s] 58%|█████▊    | 216227/371472 [6:09:55<12:06:47,  3.56it/s] 58%|█████▊    | 216228/371472 [6:09:55<11:55:58,  3.61it/s] 58%|█████▊    | 216229/371472 [6:09:55<12:35:02,  3.43it/s] 58%|█████▊    | 216230/371472 [6:09:56<12:25:58,  3.47it/s] 58%|█████▊    | 216231/371472 [6:09:56<13:31:35,  3.19it/s] 58%|█████▊    | 216232/371472 [6:09:56<12:53:04,  3.35it/s] 58%|█████▊    | 216233/371472 [6:09:57<12:52:04,  3.35it/s] 58%|█████▊    | 216234/371472 [6:09:57<13:35:57,  3.17it/s] 58%|█████▊    | 216235/371472 [6:09:57<13:05:15,  3.29it/s] 58%|█████▊    | 216236/371472 [6:09:58<13:36:20,  3.17it/s] 58%|█████▊    | 216237/371472 [6:09:58<13:18:00,  3.24it/s] 58%|█████▊    | 216238/371472 [6:09:58<12:40:02,  3.40it/s] 58%|█████▊    | 216239/371472 [6:09:58<12:44:51,  3.38it/s] 58%|█████▊    | 216240/371472 [6:09:59<12:53:39,  3.34it/s]                                                            {'loss': 2.8272, 'learning_rate': 4.76297700876985e-07, 'epoch': 9.31}
 58%|█████▊    | 216240/371472 [6:09:59<12:53:39,  3.34it/s] 58%|█████▊    | 216241/371472 [6:09:59<13:11:34,  3.27it/s] 58%|█████▊    | 216242/371472 [6:09:59<12:57:21,  3.33it/s] 58%|█████▊    | 216243/371472 [6:10:00<13:21:34,  3.23it/s] 58%|█████▊    | 216244/371472 [6:10:00<12:55:22,  3.34it/s] 58%|█████▊    | 216245/371472 [6:10:00<14:15:46,  3.02it/s] 58%|█████▊    | 216246/371472 [6:10:01<13:29:14,  3.20it/s] 58%|█████▊    | 216247/371472 [6:10:01<13:21:51,  3.23it/s] 58%|█████▊    | 216248/371472 [6:10:01<12:54:17,  3.34it/s] 58%|█████▊    | 216249/371472 [6:10:01<12:53:40,  3.34it/s] 58%|█████▊    | 216250/371472 [6:10:02<13:14:09,  3.26it/s] 58%|█████▊    | 216251/371472 [6:10:02<12:46:45,  3.37it/s] 58%|█████▊    | 216252/371472 [6:10:02<12:35:53,  3.42it/s] 58%|█████▊    | 216253/371472 [6:10:03<12:28:01,  3.46it/s] 58%|█████▊    | 216254/371472 [6:10:03<12:26:16,  3.47it/s] 58%|█████▊    | 216255/371472 [6:10:03<12:31:11,  3.44it/s] 58%|█████▊    | 216256/371472 [6:10:04<12:11:05,  3.54it/s] 58%|█████▊    | 216257/371472 [6:10:04<11:52:33,  3.63it/s] 58%|█████▊    | 216258/371472 [6:10:04<11:43:29,  3.68it/s] 58%|█████▊    | 216259/371472 [6:10:04<11:31:02,  3.74it/s] 58%|█████▊    | 216260/371472 [6:10:05<11:31:03,  3.74it/s]                                                            {'loss': 2.8674, 'learning_rate': 4.762492189015062e-07, 'epoch': 9.31}
 58%|█████▊    | 216260/371472 [6:10:05<11:31:03,  3.74it/s] 58%|█████▊    | 216261/371472 [6:10:05<11:21:01,  3.80it/s] 58%|█████▊    | 216262/371472 [6:10:05<12:11:28,  3.54it/s] 58%|█████▊    | 216263/371472 [6:10:05<12:17:54,  3.51it/s] 58%|█████▊    | 216264/371472 [6:10:06<12:09:16,  3.55it/s] 58%|█████▊    | 216265/371472 [6:10:06<11:46:09,  3.66it/s] 58%|█████▊    | 216266/371472 [6:10:06<11:53:18,  3.63it/s] 58%|█████▊    | 216267/371472 [6:10:07<12:04:02,  3.57it/s] 58%|█████▊    | 216268/371472 [6:10:07<12:24:37,  3.47it/s] 58%|█████▊    | 216269/371472 [6:10:07<11:52:31,  3.63it/s] 58%|█████▊    | 216270/371472 [6:10:07<11:45:39,  3.67it/s] 58%|█████▊    | 216271/371472 [6:10:08<12:30:18,  3.45it/s] 58%|█████▊    | 216272/371472 [6:10:08<12:25:07,  3.47it/s] 58%|█████▊    | 216273/371472 [6:10:08<12:56:18,  3.33it/s] 58%|█████▊    | 216274/371472 [6:10:09<12:35:19,  3.42it/s] 58%|█████▊    | 216275/371472 [6:10:09<12:13:16,  3.53it/s] 58%|█████▊    | 216276/371472 [6:10:09<12:30:04,  3.45it/s] 58%|█████▊    | 216277/371472 [6:10:09<12:38:09,  3.41it/s] 58%|█████▊    | 216278/371472 [6:10:10<12:24:47,  3.47it/s] 58%|█████▊    | 216279/371472 [6:10:10<12:45:35,  3.38it/s] 58%|█████▊    | 216280/371472 [6:10:10<12:36:11,  3.42it/s]                                                            {'loss': 2.8303, 'learning_rate': 4.762007369260272e-07, 'epoch': 9.32}
 58%|█████▊    | 216280/371472 [6:10:10<12:36:11,  3.42it/s] 58%|█████▊    | 216281/371472 [6:10:11<12:47:51,  3.37it/s] 58%|█████▊    | 216282/371472 [6:10:11<12:30:20,  3.45it/s] 58%|█████▊    | 216283/371472 [6:10:11<12:14:15,  3.52it/s] 58%|█████▊    | 216284/371472 [6:10:11<12:00:47,  3.59it/s] 58%|█████▊    | 216285/371472 [6:10:12<11:46:39,  3.66it/s] 58%|█████▊    | 216286/371472 [6:10:12<11:45:46,  3.66it/s] 58%|█████▊    | 216287/371472 [6:10:12<11:39:44,  3.70it/s] 58%|█████▊    | 216288/371472 [6:10:12<11:32:03,  3.74it/s] 58%|█████▊    | 216289/371472 [6:10:13<11:36:53,  3.71it/s] 58%|█████▊    | 216290/371472 [6:10:13<11:41:39,  3.69it/s] 58%|█████▊    | 216291/371472 [6:10:13<11:50:08,  3.64it/s] 58%|█████▊    | 216292/371472 [6:10:14<11:42:35,  3.68it/s] 58%|█████▊    | 216293/371472 [6:10:14<12:22:19,  3.48it/s] 58%|█████▊    | 216294/371472 [6:10:14<12:25:29,  3.47it/s] 58%|█████▊    | 216295/371472 [6:10:15<13:21:51,  3.23it/s] 58%|█████▊    | 216296/371472 [6:10:15<12:53:08,  3.35it/s] 58%|█████▊    | 216297/371472 [6:10:15<12:15:32,  3.52it/s] 58%|█████▊    | 216298/371472 [6:10:15<11:46:10,  3.66it/s] 58%|█████▊    | 216299/371472 [6:10:16<11:53:08,  3.63it/s] 58%|█████▊    | 216300/371472 [6:10:16<12:18:53,  3.50it/s]                                                            {'loss': 2.8107, 'learning_rate': 4.761522549505484e-07, 'epoch': 9.32}
 58%|█████▊    | 216300/371472 [6:10:16<12:18:53,  3.50it/s] 58%|█████▊    | 216301/371472 [6:10:16<12:01:01,  3.59it/s] 58%|█████▊    | 216302/371472 [6:10:16<11:58:55,  3.60it/s] 58%|█████▊    | 216303/371472 [6:10:17<12:01:26,  3.58it/s] 58%|█████▊    | 216304/371472 [6:10:17<11:53:07,  3.63it/s] 58%|█████▊    | 216305/371472 [6:10:17<11:45:40,  3.66it/s] 58%|█████▊    | 216306/371472 [6:10:18<11:43:16,  3.68it/s] 58%|█████▊    | 216307/371472 [6:10:18<12:02:26,  3.58it/s] 58%|█████▊    | 216308/371472 [6:10:18<11:56:24,  3.61it/s] 58%|█████▊    | 216309/371472 [6:10:18<12:22:38,  3.48it/s] 58%|█████▊    | 216310/371472 [6:10:19<12:19:53,  3.50it/s] 58%|█████▊    | 216311/371472 [6:10:19<12:07:31,  3.55it/s] 58%|█████▊    | 216312/371472 [6:10:19<11:56:32,  3.61it/s] 58%|█████▊    | 216313/371472 [6:10:20<11:56:43,  3.61it/s] 58%|█████▊    | 216314/371472 [6:10:20<11:47:39,  3.65it/s] 58%|█████▊    | 216315/371472 [6:10:20<11:52:40,  3.63it/s] 58%|█████▊    | 216316/371472 [6:10:20<11:54:14,  3.62it/s] 58%|█████▊    | 216317/371472 [6:10:21<12:10:14,  3.54it/s] 58%|█████▊    | 216318/371472 [6:10:21<12:00:17,  3.59it/s] 58%|█████▊    | 216319/371472 [6:10:21<11:52:59,  3.63it/s] 58%|█████▊    | 216320/371472 [6:10:21<11:56:52,  3.61it/s]                                                            {'loss': 3.0555, 'learning_rate': 4.7610377297506945e-07, 'epoch': 9.32}
 58%|█████▊    | 216320/371472 [6:10:21<11:56:52,  3.61it/s] 58%|█████▊    | 216321/371472 [6:10:22<12:08:23,  3.55it/s] 58%|█████▊    | 216322/371472 [6:10:22<12:27:55,  3.46it/s] 58%|█████▊    | 216323/371472 [6:10:22<12:23:34,  3.48it/s] 58%|█████▊    | 216324/371472 [6:10:23<13:11:18,  3.27it/s] 58%|█████▊    | 216325/371472 [6:10:23<12:42:43,  3.39it/s] 58%|█████▊    | 216326/371472 [6:10:23<13:24:28,  3.21it/s] 58%|█████▊    | 216327/371472 [6:10:24<13:06:45,  3.29it/s] 58%|█████▊    | 216328/371472 [6:10:24<12:50:07,  3.36it/s] 58%|█████▊    | 216329/371472 [6:10:24<12:25:31,  3.47it/s] 58%|█████▊    | 216330/371472 [6:10:24<12:23:56,  3.48it/s] 58%|█████▊    | 216331/371472 [6:10:25<12:00:24,  3.59it/s] 58%|█████▊    | 216332/371472 [6:10:25<11:58:34,  3.60it/s] 58%|█████▊    | 216333/371472 [6:10:25<11:33:11,  3.73it/s] 58%|█████▊    | 216334/371472 [6:10:25<11:28:21,  3.76it/s] 58%|█████▊    | 216335/371472 [6:10:26<11:27:52,  3.76it/s] 58%|█████▊    | 216336/371472 [6:10:26<11:47:17,  3.66it/s] 58%|█████▊    | 216337/371472 [6:10:26<11:57:10,  3.61it/s] 58%|█████▊    | 216338/371472 [6:10:27<11:55:08,  3.62it/s] 58%|█████▊    | 216339/371472 [6:10:27<12:05:19,  3.56it/s] 58%|█████▊    | 216340/371472 [6:10:27<11:59:49,  3.59it/s]                                                            {'loss': 2.8646, 'learning_rate': 4.7605529099959057e-07, 'epoch': 9.32}
 58%|█████▊    | 216340/371472 [6:10:27<11:59:49,  3.59it/s] 58%|█████▊    | 216341/371472 [6:10:27<12:19:31,  3.50it/s] 58%|█████▊    | 216342/371472 [6:10:28<13:11:09,  3.27it/s] 58%|█████▊    | 216343/371472 [6:10:28<13:37:19,  3.16it/s] 58%|█████▊    | 216344/371472 [6:10:28<13:15:12,  3.25it/s] 58%|█████▊    | 216345/371472 [6:10:29<12:53:34,  3.34it/s] 58%|█████▊    | 216346/371472 [6:10:29<12:58:13,  3.32it/s] 58%|█████▊    | 216347/371472 [6:10:29<12:59:13,  3.32it/s] 58%|█████▊    | 216348/371472 [6:10:30<13:37:25,  3.16it/s] 58%|█████▊    | 216349/371472 [6:10:30<14:17:27,  3.02it/s] 58%|█████▊    | 216350/371472 [6:10:30<12:58:05,  3.32it/s] 58%|█████▊    | 216351/371472 [6:10:31<12:26:52,  3.46it/s] 58%|█████▊    | 216352/371472 [6:10:31<12:01:21,  3.58it/s] 58%|█████▊    | 216353/371472 [6:10:31<11:59:57,  3.59it/s] 58%|█████▊    | 216354/371472 [6:10:31<12:44:10,  3.38it/s] 58%|█████▊    | 216355/371472 [6:10:32<12:23:22,  3.48it/s] 58%|█████▊    | 216356/371472 [6:10:32<12:06:05,  3.56it/s] 58%|█████▊    | 216357/371472 [6:10:32<12:02:23,  3.58it/s] 58%|█████▊    | 216358/371472 [6:10:32<12:07:10,  3.56it/s] 58%|█████▊    | 216359/371472 [6:10:33<11:23:26,  3.78it/s] 58%|█████▊    | 216360/371472 [6:10:33<11:31:12,  3.74it/s]                                                            {'loss': 2.8021, 'learning_rate': 4.7600680902411164e-07, 'epoch': 9.32}
 58%|█████▊    | 216360/371472 [6:10:33<11:31:12,  3.74it/s] 58%|█████▊    | 216361/371472 [6:10:33<11:18:43,  3.81it/s] 58%|█████▊    | 216362/371472 [6:10:33<11:07:52,  3.87it/s] 58%|█████▊    | 216363/371472 [6:10:34<11:16:56,  3.82it/s] 58%|█████▊    | 216364/371472 [6:10:34<11:57:19,  3.60it/s] 58%|█████▊    | 216365/371472 [6:10:34<12:48:53,  3.36it/s] 58%|█████▊    | 216366/371472 [6:10:35<12:35:45,  3.42it/s] 58%|█████▊    | 216367/371472 [6:10:35<12:06:11,  3.56it/s] 58%|█████▊    | 216368/371472 [6:10:35<11:50:52,  3.64it/s] 58%|█████▊    | 216369/371472 [6:10:36<12:19:45,  3.49it/s] 58%|█████▊    | 216370/371472 [6:10:36<12:00:53,  3.59it/s] 58%|█████▊    | 216371/371472 [6:10:36<11:59:55,  3.59it/s] 58%|█████▊    | 216372/371472 [6:10:36<11:37:10,  3.71it/s] 58%|█████▊    | 216373/371472 [6:10:37<11:48:47,  3.65it/s] 58%|█████▊    | 216374/371472 [6:10:37<11:46:35,  3.66it/s] 58%|█████▊    | 216375/371472 [6:10:37<12:17:39,  3.50it/s] 58%|█████▊    | 216376/371472 [6:10:37<12:07:10,  3.55it/s] 58%|█████▊    | 216377/371472 [6:10:38<11:43:15,  3.68it/s] 58%|█████▊    | 216378/371472 [6:10:38<11:35:12,  3.72it/s] 58%|█████▊    | 216379/371472 [6:10:38<11:34:58,  3.72it/s] 58%|█████▊    | 216380/371472 [6:10:38<11:27:34,  3.76it/s]                                                            {'loss': 2.8302, 'learning_rate': 4.759583270486328e-07, 'epoch': 9.32}
 58%|█████▊    | 216380/371472 [6:10:38<11:27:34,  3.76it/s] 58%|█████▊    | 216381/371472 [6:10:39<12:06:38,  3.56it/s] 58%|█████▊    | 216382/371472 [6:10:39<11:53:11,  3.62it/s] 58%|█████▊    | 216383/371472 [6:10:39<11:53:04,  3.62it/s] 58%|█████▊    | 216384/371472 [6:10:40<12:42:54,  3.39it/s] 58%|█████▊    | 216385/371472 [6:10:40<12:46:50,  3.37it/s] 58%|█████▊    | 216386/371472 [6:10:40<12:58:25,  3.32it/s] 58%|█████▊    | 216387/371472 [6:10:41<12:36:51,  3.42it/s] 58%|█████▊    | 216388/371472 [6:10:41<12:20:19,  3.49it/s] 58%|█████▊    | 216389/371472 [6:10:41<12:43:43,  3.38it/s] 58%|█████▊    | 216390/371472 [6:10:41<12:48:01,  3.37it/s] 58%|█████▊    | 216391/371472 [6:10:42<12:27:53,  3.46it/s] 58%|█████▊    | 216392/371472 [6:10:42<11:52:34,  3.63it/s] 58%|█████▊    | 216393/371472 [6:10:42<11:38:24,  3.70it/s] 58%|█████▊    | 216394/371472 [6:10:42<11:29:53,  3.75it/s] 58%|█████▊    | 216395/371472 [6:10:43<11:28:36,  3.75it/s] 58%|█████▊    | 216396/371472 [6:10:43<11:23:56,  3.78it/s] 58%|█████▊    | 216397/371472 [6:10:43<11:44:39,  3.67it/s] 58%|█████▊    | 216398/371472 [6:10:44<11:39:42,  3.69it/s] 58%|█████▊    | 216399/371472 [6:10:44<12:06:55,  3.56it/s] 58%|█████▊    | 216400/371472 [6:10:44<12:23:23,  3.48it/s]                                                            {'loss': 2.8739, 'learning_rate': 4.7590984507315384e-07, 'epoch': 9.32}
 58%|█████▊    | 216400/371472 [6:10:44<12:23:23,  3.48it/s] 58%|█████▊    | 216401/371472 [6:10:44<11:46:18,  3.66it/s] 58%|█████▊    | 216402/371472 [6:10:45<12:04:18,  3.57it/s] 58%|█████▊    | 216403/371472 [6:10:45<11:48:53,  3.65it/s] 58%|█████▊    | 216404/371472 [6:10:45<11:24:03,  3.78it/s] 58%|█████▊    | 216405/371472 [6:10:46<11:49:21,  3.64it/s] 58%|█████▊    | 216406/371472 [6:10:46<11:49:32,  3.64it/s] 58%|█████▊    | 216407/371472 [6:10:46<11:31:55,  3.74it/s] 58%|█████▊    | 216408/371472 [6:10:46<11:21:33,  3.79it/s] 58%|█████▊    | 216409/371472 [6:10:47<11:34:11,  3.72it/s] 58%|█████▊    | 216410/371472 [6:10:47<11:53:39,  3.62it/s] 58%|█████▊    | 216411/371472 [6:10:47<12:31:07,  3.44it/s] 58%|█████▊    | 216412/371472 [6:10:47<12:02:56,  3.57it/s] 58%|█████▊    | 216413/371472 [6:10:48<11:56:28,  3.61it/s] 58%|█████▊    | 216414/371472 [6:10:48<11:41:42,  3.68it/s] 58%|█████▊    | 216415/371472 [6:10:48<11:33:30,  3.73it/s] 58%|█████▊    | 216416/371472 [6:10:49<12:50:15,  3.36it/s] 58%|█████▊    | 216417/371472 [6:10:49<12:38:04,  3.41it/s] 58%|█████▊    | 216418/371472 [6:10:49<12:12:47,  3.53it/s] 58%|█████▊    | 216419/371472 [6:10:49<12:19:31,  3.49it/s] 58%|█████▊    | 216420/371472 [6:10:50<12:31:57,  3.44it/s]                                                            {'loss': 3.0375, 'learning_rate': 4.75861363097675e-07, 'epoch': 9.32}
 58%|█████▊    | 216420/371472 [6:10:50<12:31:57,  3.44it/s] 58%|█████▊    | 216421/371472 [6:10:50<12:22:51,  3.48it/s] 58%|█████▊    | 216422/371472 [6:10:50<11:52:10,  3.63it/s] 58%|█████▊    | 216423/371472 [6:10:51<11:26:41,  3.76it/s] 58%|█████▊    | 216424/371472 [6:10:51<11:45:23,  3.66it/s] 58%|█████▊    | 216425/371472 [6:10:51<11:30:03,  3.74it/s] 58%|█████▊    | 216426/371472 [6:10:51<12:56:46,  3.33it/s] 58%|█████▊    | 216427/371472 [6:10:52<12:31:45,  3.44it/s] 58%|█████▊    | 216428/371472 [6:10:52<12:14:58,  3.52it/s] 58%|█████▊    | 216429/371472 [6:10:52<11:47:11,  3.65it/s] 58%|█████▊    | 216430/371472 [6:10:53<12:39:26,  3.40it/s] 58%|█████▊    | 216431/371472 [6:10:53<12:00:16,  3.59it/s] 58%|█████▊    | 216432/371472 [6:10:53<11:52:15,  3.63it/s] 58%|█████▊    | 216433/371472 [6:10:53<11:50:07,  3.64it/s] 58%|█████▊    | 216434/371472 [6:10:54<12:04:26,  3.57it/s] 58%|█████▊    | 216435/371472 [6:10:54<12:03:28,  3.57it/s] 58%|█████▊    | 216436/371472 [6:10:54<11:47:54,  3.65it/s] 58%|█████▊    | 216437/371472 [6:10:54<12:05:57,  3.56it/s] 58%|█████▊    | 216438/371472 [6:10:55<13:22:26,  3.22it/s] 58%|█████▊    | 216439/371472 [6:10:55<12:48:17,  3.36it/s] 58%|█████▊    | 216440/371472 [6:10:55<12:40:02,  3.40it/s]                                                            {'loss': 2.8721, 'learning_rate': 4.758128811221961e-07, 'epoch': 9.32}
 58%|█████▊    | 216440/371472 [6:10:55<12:40:02,  3.40it/s] 58%|█████▊    | 216441/371472 [6:10:56<12:09:00,  3.54it/s] 58%|█████▊    | 216442/371472 [6:10:56<11:48:19,  3.65it/s] 58%|█████▊    | 216443/371472 [6:10:56<12:25:57,  3.46it/s] 58%|█████▊    | 216444/371472 [6:10:57<12:34:12,  3.43it/s] 58%|█████▊    | 216445/371472 [6:10:57<12:38:54,  3.40it/s] 58%|█████▊    | 216446/371472 [6:10:57<12:43:27,  3.38it/s] 58%|█████▊    | 216447/371472 [6:10:57<12:36:41,  3.41it/s] 58%|█████▊    | 216448/371472 [6:10:58<12:23:49,  3.47it/s] 58%|█████▊    | 216449/371472 [6:10:58<11:54:47,  3.61it/s] 58%|█████▊    | 216450/371472 [6:10:58<12:41:52,  3.39it/s] 58%|█████▊    | 216451/371472 [6:10:59<12:56:57,  3.33it/s] 58%|█████▊    | 216452/371472 [6:10:59<12:28:49,  3.45it/s] 58%|█████▊    | 216453/371472 [6:10:59<12:37:53,  3.41it/s] 58%|█████▊    | 216454/371472 [6:10:59<12:00:52,  3.58it/s] 58%|█████▊    | 216455/371472 [6:11:00<11:54:23,  3.62it/s] 58%|█████▊    | 216456/371472 [6:11:00<12:13:49,  3.52it/s] 58%|█████▊    | 216457/371472 [6:11:00<11:54:55,  3.61it/s] 58%|█████▊    | 216458/371472 [6:11:01<12:15:48,  3.51it/s] 58%|█████▊    | 216459/371472 [6:11:01<12:38:11,  3.41it/s] 58%|█████▊    | 216460/371472 [6:11:01<12:33:59,  3.43it/s]                                                            {'loss': 3.0481, 'learning_rate': 4.757643991467172e-07, 'epoch': 9.32}
 58%|█████▊    | 216460/371472 [6:11:01<12:33:59,  3.43it/s] 58%|█████▊    | 216461/371472 [6:11:01<12:13:08,  3.52it/s] 58%|█████▊    | 216462/371472 [6:11:02<12:03:55,  3.57it/s] 58%|█████▊    | 216463/371472 [6:11:02<12:28:26,  3.45it/s] 58%|█████▊    | 216464/371472 [6:11:02<12:19:13,  3.49it/s] 58%|█████▊    | 216465/371472 [6:11:03<11:55:32,  3.61it/s] 58%|█████▊    | 216466/371472 [6:11:03<13:26:04,  3.20it/s] 58%|█████▊    | 216467/371472 [6:11:03<13:51:19,  3.11it/s] 58%|█████▊    | 216468/371472 [6:11:04<13:37:02,  3.16it/s] 58%|█████▊    | 216469/371472 [6:11:04<13:02:13,  3.30it/s] 58%|█████▊    | 216470/371472 [6:11:04<12:24:59,  3.47it/s] 58%|█████▊    | 216471/371472 [6:11:04<12:02:21,  3.58it/s] 58%|█████▊    | 216472/371472 [6:11:05<12:49:43,  3.36it/s] 58%|█████▊    | 216473/371472 [6:11:05<12:24:48,  3.47it/s] 58%|█████▊    | 216474/371472 [6:11:05<12:03:49,  3.57it/s] 58%|█████▊    | 216475/371472 [6:11:06<11:55:20,  3.61it/s] 58%|█████▊    | 216476/371472 [6:11:06<11:54:28,  3.62it/s] 58%|█████▊    | 216477/371472 [6:11:06<12:09:40,  3.54it/s] 58%|█████▊    | 216478/371472 [6:11:06<12:23:08,  3.48it/s] 58%|█████▊    | 216479/371472 [6:11:07<12:27:03,  3.46it/s] 58%|█████▊    | 216480/371472 [6:11:07<12:21:56,  3.48it/s]                                                            {'loss': 2.8545, 'learning_rate': 4.757159171712383e-07, 'epoch': 9.32}
 58%|█████▊    | 216480/371472 [6:11:07<12:21:56,  3.48it/s] 58%|█████▊    | 216481/371472 [6:11:07<12:15:47,  3.51it/s] 58%|█████▊    | 216482/371472 [6:11:07<11:54:28,  3.62it/s] 58%|█████▊    | 216483/371472 [6:11:08<12:06:30,  3.56it/s] 58%|█████▊    | 216484/371472 [6:11:08<12:25:54,  3.46it/s] 58%|█████▊    | 216485/371472 [6:11:08<12:02:21,  3.58it/s] 58%|█████▊    | 216486/371472 [6:11:09<12:15:42,  3.51it/s] 58%|█████▊    | 216487/371472 [6:11:09<12:01:09,  3.58it/s] 58%|█████▊    | 216488/371472 [6:11:09<11:49:28,  3.64it/s] 58%|█████▊    | 216489/371472 [6:11:09<11:46:55,  3.65it/s] 58%|█████▊    | 216490/371472 [6:11:10<11:35:50,  3.71it/s] 58%|█████▊    | 216491/371472 [6:11:10<11:33:33,  3.72it/s] 58%|█████▊    | 216492/371472 [6:11:10<11:23:23,  3.78it/s] 58%|█████▊    | 216493/371472 [6:11:10<11:21:23,  3.79it/s] 58%|█████▊    | 216494/371472 [6:11:11<11:15:22,  3.82it/s] 58%|█████▊    | 216495/371472 [6:11:11<11:26:53,  3.76it/s] 58%|█████▊    | 216496/371472 [6:11:11<11:51:19,  3.63it/s] 58%|█████▊    | 216497/371472 [6:11:12<13:03:37,  3.30it/s] 58%|█████▊    | 216498/371472 [6:11:12<13:03:51,  3.30it/s] 58%|█████▊    | 216499/371472 [6:11:12<12:31:24,  3.44it/s] 58%|█████▊    | 216500/371472 [6:11:13<12:18:38,  3.50it/s]                                                            {'loss': 2.9053, 'learning_rate': 4.7566743519575946e-07, 'epoch': 9.33}
 58%|█████▊    | 216500/371472 [6:11:13<12:18:38,  3.50it/s] 58%|█████▊    | 216501/371472 [6:11:13<12:22:39,  3.48it/s] 58%|█████▊    | 216502/371472 [6:11:13<12:19:07,  3.49it/s] 58%|█████▊    | 216503/371472 [6:11:13<12:09:15,  3.54it/s] 58%|█████▊    | 216504/371472 [6:11:14<12:18:13,  3.50it/s] 58%|█████▊    | 216505/371472 [6:11:14<12:04:02,  3.57it/s] 58%|█████▊    | 216506/371472 [6:11:14<12:08:51,  3.54it/s] 58%|█████▊    | 216507/371472 [6:11:14<11:50:18,  3.64it/s] 58%|█████▊    | 216508/371472 [6:11:15<11:40:23,  3.69it/s] 58%|█████▊    | 216509/371472 [6:11:15<11:43:41,  3.67it/s] 58%|█████▊    | 216510/371472 [6:11:15<11:44:18,  3.67it/s] 58%|█████▊    | 216511/371472 [6:11:16<12:18:16,  3.50it/s] 58%|█████▊    | 216512/371472 [6:11:16<11:47:57,  3.65it/s] 58%|█████▊    | 216513/371472 [6:11:16<12:44:19,  3.38it/s] 58%|█████▊    | 216514/371472 [6:11:16<12:22:32,  3.48it/s] 58%|█████▊    | 216515/371472 [6:11:17<13:33:22,  3.18it/s] 58%|█████▊    | 216516/371472 [6:11:17<13:20:54,  3.22it/s] 58%|█████▊    | 216517/371472 [6:11:17<13:08:34,  3.28it/s] 58%|█████▊    | 216518/371472 [6:11:18<13:04:11,  3.29it/s] 58%|█████▊    | 216519/371472 [6:11:18<12:22:41,  3.48it/s] 58%|█████▊    | 216520/371472 [6:11:18<13:00:49,  3.31it/s]                                                            {'loss': 3.1096, 'learning_rate': 4.756189532202805e-07, 'epoch': 9.33}
 58%|█████▊    | 216520/371472 [6:11:18<13:00:49,  3.31it/s] 58%|█████▊    | 216521/371472 [6:11:19<12:44:34,  3.38it/s] 58%|█████▊    | 216522/371472 [6:11:19<12:13:07,  3.52it/s] 58%|█████▊    | 216523/371472 [6:11:19<11:48:04,  3.65it/s] 58%|█████▊    | 216524/371472 [6:11:19<12:15:07,  3.51it/s] 58%|█████▊    | 216525/371472 [6:11:20<11:53:06,  3.62it/s] 58%|█████▊    | 216526/371472 [6:11:20<12:00:11,  3.59it/s] 58%|█████▊    | 216527/371472 [6:11:20<12:16:31,  3.51it/s] 58%|█████▊    | 216528/371472 [6:11:21<11:56:18,  3.61it/s] 58%|█████▊    | 216529/371472 [6:11:21<12:14:38,  3.52it/s] 58%|█████▊    | 216530/371472 [6:11:21<12:10:00,  3.54it/s] 58%|█████▊    | 216531/371472 [6:11:21<12:20:22,  3.49it/s] 58%|█████▊    | 216532/371472 [6:11:22<11:44:13,  3.67it/s] 58%|█████▊    | 216533/371472 [6:11:22<11:49:58,  3.64it/s] 58%|█████▊    | 216534/371472 [6:11:22<12:01:45,  3.58it/s] 58%|█████▊    | 216535/371472 [6:11:23<12:28:07,  3.45it/s] 58%|█████▊    | 216536/371472 [6:11:23<12:10:26,  3.54it/s] 58%|█████▊    | 216537/371472 [6:11:23<11:54:49,  3.61it/s] 58%|█████▊    | 216538/371472 [6:11:23<11:48:57,  3.64it/s] 58%|█████▊    | 216539/371472 [6:11:24<11:49:28,  3.64it/s] 58%|█████▊    | 216540/371472 [6:11:24<11:58:21,  3.59it/s]                                                            {'loss': 2.8255, 'learning_rate': 4.7557047124480166e-07, 'epoch': 9.33}
 58%|█████▊    | 216540/371472 [6:11:24<11:58:21,  3.59it/s] 58%|█████▊    | 216541/371472 [6:11:24<12:23:20,  3.47it/s] 58%|█████▊    | 216542/371472 [6:11:24<12:09:01,  3.54it/s] 58%|█████▊    | 216543/371472 [6:11:25<12:07:12,  3.55it/s] 58%|█████▊    | 216544/371472 [6:11:25<11:40:57,  3.68it/s] 58%|█████▊    | 216545/371472 [6:11:25<11:27:32,  3.76it/s] 58%|█████▊    | 216546/371472 [6:11:26<12:10:07,  3.54it/s] 58%|█████▊    | 216547/371472 [6:11:26<11:50:07,  3.64it/s] 58%|█████▊    | 216548/371472 [6:11:26<12:28:52,  3.45it/s] 58%|█████▊    | 216549/371472 [6:11:26<12:52:41,  3.34it/s] 58%|█████▊    | 216550/371472 [6:11:27<12:52:25,  3.34it/s] 58%|█████▊    | 216551/371472 [6:11:27<12:35:29,  3.42it/s] 58%|█████▊    | 216552/371472 [6:11:27<13:24:38,  3.21it/s] 58%|█████▊    | 216553/371472 [6:11:28<12:43:00,  3.38it/s] 58%|█████▊    | 216554/371472 [6:11:28<12:28:09,  3.45it/s] 58%|█████▊    | 216555/371472 [6:11:28<12:14:05,  3.52it/s] 58%|█████▊    | 216556/371472 [6:11:28<12:05:39,  3.56it/s] 58%|█████▊    | 216557/371472 [6:11:29<12:42:06,  3.39it/s] 58%|█████▊    | 216558/371472 [6:11:29<12:21:23,  3.48it/s] 58%|█████▊    | 216559/371472 [6:11:29<12:07:51,  3.55it/s] 58%|█████▊    | 216560/371472 [6:11:30<11:53:36,  3.62it/s]                                                            {'loss': 2.9754, 'learning_rate': 4.7552198926932273e-07, 'epoch': 9.33}
 58%|█████▊    | 216560/371472 [6:11:30<11:53:36,  3.62it/s] 58%|█████▊    | 216561/371472 [6:11:30<11:35:43,  3.71it/s] 58%|█████▊    | 216562/371472 [6:11:30<12:10:33,  3.53it/s] 58%|█████▊    | 216563/371472 [6:11:30<11:45:32,  3.66it/s] 58%|█████▊    | 216564/371472 [6:11:31<11:52:21,  3.62it/s] 58%|█████▊    | 216565/371472 [6:11:31<12:33:11,  3.43it/s] 58%|█████▊    | 216566/371472 [6:11:31<13:16:10,  3.24it/s] 58%|█████▊    | 216567/371472 [6:11:32<12:39:29,  3.40it/s] 58%|█████▊    | 216568/371472 [6:11:32<12:37:35,  3.41it/s] 58%|█████▊    | 216569/371472 [6:11:32<12:46:21,  3.37it/s] 58%|█████▊    | 216570/371472 [6:11:33<13:45:10,  3.13it/s] 58%|█████▊    | 216571/371472 [6:11:33<13:23:20,  3.21it/s] 58%|█████▊    | 216572/371472 [6:11:33<12:52:51,  3.34it/s] 58%|█████▊    | 216573/371472 [6:11:34<13:25:30,  3.20it/s] 58%|█████▊    | 216574/371472 [6:11:34<12:39:40,  3.40it/s] 58%|█████▊    | 216575/371472 [6:11:34<12:12:22,  3.53it/s] 58%|█████▊    | 216576/371472 [6:11:34<11:47:06,  3.65it/s] 58%|█████▊    | 216577/371472 [6:11:35<11:49:09,  3.64it/s] 58%|█████▊    | 216578/371472 [6:11:35<12:19:45,  3.49it/s] 58%|█████▊    | 216579/371472 [6:11:35<12:21:57,  3.48it/s] 58%|█████▊    | 216580/371472 [6:11:35<12:09:38,  3.54it/s]                                                            {'loss': 2.8448, 'learning_rate': 4.7547350729384385e-07, 'epoch': 9.33}
 58%|█████▊    | 216580/371472 [6:11:35<12:09:38,  3.54it/s] 58%|█████▊    | 216581/371472 [6:11:36<12:52:44,  3.34it/s] 58%|█████▊    | 216582/371472 [6:11:36<13:05:06,  3.29it/s] 58%|█████▊    | 216583/371472 [6:11:36<12:28:45,  3.45it/s] 58%|█████▊    | 216584/371472 [6:11:37<12:50:36,  3.35it/s] 58%|█████▊    | 216585/371472 [6:11:37<13:19:30,  3.23it/s] 58%|█████▊    | 216586/371472 [6:11:37<12:35:40,  3.42it/s] 58%|█████▊    | 216587/371472 [6:11:38<12:26:41,  3.46it/s] 58%|█████▊    | 216588/371472 [6:11:38<12:49:56,  3.35it/s] 58%|█████▊    | 216589/371472 [6:11:38<13:07:42,  3.28it/s] 58%|█████▊    | 216590/371472 [6:11:38<13:01:55,  3.30it/s] 58%|█████▊    | 216591/371472 [6:11:39<12:28:19,  3.45it/s] 58%|█████▊    | 216592/371472 [6:11:39<12:03:56,  3.57it/s] 58%|█████▊    | 216593/371472 [6:11:39<11:38:34,  3.70it/s] 58%|█████▊    | 216594/371472 [6:11:40<11:54:56,  3.61it/s] 58%|█████▊    | 216595/371472 [6:11:40<13:32:54,  3.18it/s] 58%|█████▊    | 216596/371472 [6:11:40<13:27:19,  3.20it/s] 58%|█████▊    | 216597/371472 [6:11:41<13:14:49,  3.25it/s] 58%|█████▊    | 216598/371472 [6:11:41<12:42:06,  3.39it/s] 58%|█████▊    | 216599/371472 [6:11:41<12:23:23,  3.47it/s] 58%|█████▊    | 216600/371472 [6:11:41<12:06:29,  3.55it/s]                                                            {'loss': 2.8477, 'learning_rate': 4.754250253183649e-07, 'epoch': 9.33}
 58%|█████▊    | 216600/371472 [6:11:41<12:06:29,  3.55it/s] 58%|█████▊    | 216601/371472 [6:11:42<11:43:24,  3.67it/s] 58%|█████▊    | 216602/371472 [6:11:42<12:39:06,  3.40it/s] 58%|█████▊    | 216603/371472 [6:11:42<12:40:37,  3.39it/s] 58%|█████▊    | 216604/371472 [6:11:43<12:44:29,  3.38it/s] 58%|█████▊    | 216605/371472 [6:11:43<12:23:55,  3.47it/s] 58%|█████▊    | 216606/371472 [6:11:43<12:10:09,  3.54it/s] 58%|█████▊    | 216607/371472 [6:11:43<12:06:41,  3.55it/s] 58%|█████▊    | 216608/371472 [6:11:44<12:25:44,  3.46it/s] 58%|█████▊    | 216609/371472 [6:11:44<12:58:41,  3.31it/s] 58%|█████▊    | 216610/371472 [6:11:44<12:37:08,  3.41it/s] 58%|█████▊    | 216611/371472 [6:11:45<12:00:02,  3.58it/s] 58%|█████▊    | 216612/371472 [6:11:45<11:37:31,  3.70it/s] 58%|█████▊    | 216613/371472 [6:11:45<11:57:59,  3.59it/s] 58%|█████▊    | 216614/371472 [6:11:45<11:50:20,  3.63it/s] 58%|█████▊    | 216615/371472 [6:11:46<11:42:01,  3.68it/s] 58%|█████▊    | 216616/371472 [6:11:46<12:01:25,  3.58it/s] 58%|█████▊    | 216617/371472 [6:11:46<11:49:43,  3.64it/s] 58%|█████▊    | 216618/371472 [6:11:46<11:36:11,  3.71it/s] 58%|█████▊    | 216619/371472 [6:11:47<12:50:22,  3.35it/s] 58%|█████▊    | 216620/371472 [6:11:47<13:00:23,  3.31it/s]                                                            {'loss': 2.9577, 'learning_rate': 4.753765433428861e-07, 'epoch': 9.33}
 58%|█████▊    | 216620/371472 [6:11:47<13:00:23,  3.31it/s] 58%|█████▊    | 216621/371472 [6:11:47<12:34:49,  3.42it/s] 58%|█████▊    | 216622/371472 [6:11:48<12:19:41,  3.49it/s] 58%|█████▊    | 216623/371472 [6:11:48<12:00:52,  3.58it/s] 58%|█████▊    | 216624/371472 [6:11:48<12:28:01,  3.45it/s] 58%|█████▊    | 216625/371472 [6:11:48<12:08:07,  3.54it/s] 58%|█████▊    | 216626/371472 [6:11:49<12:03:35,  3.57it/s] 58%|█████▊    | 216627/371472 [6:11:49<13:23:38,  3.21it/s] 58%|█████▊    | 216628/371472 [6:11:49<12:45:11,  3.37it/s] 58%|█████▊    | 216629/371472 [6:11:50<12:44:43,  3.37it/s] 58%|█████▊    | 216630/371472 [6:11:50<13:00:40,  3.31it/s] 58%|█████▊    | 216631/371472 [6:11:50<12:29:44,  3.44it/s] 58%|█████▊    | 216632/371472 [6:11:51<12:30:47,  3.44it/s] 58%|█████▊    | 216633/371472 [6:11:51<13:18:15,  3.23it/s] 58%|█████▊    | 216634/371472 [6:11:51<12:34:23,  3.42it/s] 58%|█████▊    | 216635/371472 [6:11:51<12:11:26,  3.53it/s] 58%|█████▊    | 216636/371472 [6:11:52<12:11:19,  3.53it/s] 58%|█████▊    | 216637/371472 [6:11:52<12:15:11,  3.51it/s] 58%|█████▊    | 216638/371472 [6:11:52<13:02:07,  3.30it/s] 58%|█████▊    | 216639/371472 [6:11:53<13:04:38,  3.29it/s] 58%|█████▊    | 216640/371472 [6:11:53<12:29:17,  3.44it/s]                                                            {'loss': 3.0456, 'learning_rate': 4.753280613674072e-07, 'epoch': 9.33}
 58%|█████▊    | 216640/371472 [6:11:53<12:29:17,  3.44it/s] 58%|█████▊    | 216641/371472 [6:11:53<12:03:43,  3.57it/s] 58%|█████▊    | 216642/371472 [6:11:53<11:43:11,  3.67it/s] 58%|█████▊    | 216643/371472 [6:11:54<11:36:14,  3.71it/s] 58%|█████▊    | 216644/371472 [6:11:54<12:49:15,  3.35it/s] 58%|█████▊    | 216645/371472 [6:11:54<13:16:59,  3.24it/s] 58%|█████▊    | 216646/371472 [6:11:55<14:09:28,  3.04it/s] 58%|█████▊    | 216647/371472 [6:11:55<13:15:16,  3.24it/s] 58%|█████▊    | 216648/371472 [6:11:55<13:46:33,  3.12it/s] 58%|█████▊    | 216649/371472 [6:11:56<13:05:17,  3.29it/s] 58%|█████▊    | 216650/371472 [6:11:56<12:24:20,  3.47it/s] 58%|█████▊    | 216651/371472 [6:11:56<12:33:25,  3.42it/s] 58%|█████▊    | 216652/371472 [6:11:56<12:18:30,  3.49it/s] 58%|█████▊    | 216653/371472 [6:11:57<13:04:27,  3.29it/s] 58%|█████▊    | 216654/371472 [6:11:57<12:22:01,  3.48it/s] 58%|█████▊    | 216655/371472 [6:11:57<12:11:16,  3.53it/s] 58%|█████▊    | 216656/371472 [6:11:58<12:04:09,  3.56it/s] 58%|█████▊    | 216657/371472 [6:11:58<11:58:18,  3.59it/s] 58%|█████▊    | 216658/371472 [6:11:58<12:47:36,  3.36it/s] 58%|█████▊    | 216659/371472 [6:11:59<12:44:19,  3.38it/s] 58%|█████▊    | 216660/371472 [6:11:59<12:00:06,  3.58it/s]                                                            {'loss': 2.8223, 'learning_rate': 4.752795793919283e-07, 'epoch': 9.33}
 58%|█████▊    | 216660/371472 [6:11:59<12:00:06,  3.58it/s] 58%|█████▊    | 216661/371472 [6:11:59<12:07:25,  3.55it/s] 58%|█████▊    | 216662/371472 [6:11:59<11:46:16,  3.65it/s] 58%|█████▊    | 216663/371472 [6:12:00<12:06:49,  3.55it/s] 58%|█████▊    | 216664/371472 [6:12:00<11:39:50,  3.69it/s] 58%|█████▊    | 216665/371472 [6:12:00<11:22:42,  3.78it/s] 58%|█████▊    | 216666/371472 [6:12:00<11:40:23,  3.68it/s] 58%|█████▊    | 216667/371472 [6:12:01<11:14:02,  3.83it/s] 58%|█████▊    | 216668/371472 [6:12:01<11:18:31,  3.80it/s] 58%|█████▊    | 216669/371472 [6:12:01<11:36:15,  3.71it/s] 58%|█████▊    | 216670/371472 [6:12:01<11:35:09,  3.71it/s] 58%|█████▊    | 216671/371472 [6:12:02<11:39:35,  3.69it/s] 58%|█████▊    | 216672/371472 [6:12:02<11:53:36,  3.62it/s] 58%|█████▊    | 216673/371472 [6:12:02<11:34:35,  3.71it/s] 58%|█████▊    | 216674/371472 [6:12:03<11:38:05,  3.70it/s] 58%|█████▊    | 216675/371472 [6:12:03<11:23:51,  3.77it/s] 58%|█████▊    | 216676/371472 [6:12:03<11:14:21,  3.83it/s] 58%|█████▊    | 216677/371472 [6:12:03<11:19:33,  3.80it/s] 58%|█████▊    | 216678/371472 [6:12:04<11:31:50,  3.73it/s] 58%|█████▊    | 216679/371472 [6:12:04<11:26:47,  3.76it/s] 58%|█████▊    | 216680/371472 [6:12:04<11:48:49,  3.64it/s]                                                            {'loss': 2.9533, 'learning_rate': 4.7523109741644937e-07, 'epoch': 9.33}
 58%|█████▊    | 216680/371472 [6:12:04<11:48:49,  3.64it/s] 58%|█████▊    | 216681/371472 [6:12:04<11:50:51,  3.63it/s] 58%|█████▊    | 216682/371472 [6:12:05<11:36:21,  3.70it/s] 58%|█████▊    | 216683/371472 [6:12:05<11:26:59,  3.76it/s] 58%|█████▊    | 216684/371472 [6:12:05<12:07:05,  3.55it/s] 58%|█████▊    | 216685/371472 [6:12:06<12:04:37,  3.56it/s] 58%|█████▊    | 216686/371472 [6:12:06<12:12:39,  3.52it/s] 58%|█████▊    | 216687/371472 [6:12:06<11:47:45,  3.64it/s] 58%|█████▊    | 216688/371472 [6:12:06<11:48:11,  3.64it/s] 58%|█████▊    | 216689/371472 [6:12:07<12:25:13,  3.46it/s] 58%|█████▊    | 216690/371472 [6:12:07<13:02:45,  3.30it/s] 58%|█████▊    | 216691/371472 [6:12:07<13:44:24,  3.13it/s] 58%|█████▊    | 216692/371472 [6:12:08<13:06:26,  3.28it/s] 58%|█████▊    | 216693/371472 [6:12:08<12:44:02,  3.38it/s] 58%|█████▊    | 216694/371472 [6:12:08<12:36:51,  3.41it/s] 58%|█████▊    | 216695/371472 [6:12:08<12:25:29,  3.46it/s] 58%|█████▊    | 216696/371472 [6:12:09<12:13:24,  3.52it/s] 58%|█████▊    | 216697/371472 [6:12:09<12:28:03,  3.45it/s] 58%|█████▊    | 216698/371472 [6:12:09<11:47:30,  3.65it/s] 58%|█████▊    | 216699/371472 [6:12:10<12:15:25,  3.51it/s] 58%|█████▊    | 216700/371472 [6:12:10<12:27:38,  3.45it/s]                                                            {'loss': 2.9223, 'learning_rate': 4.7518261544097055e-07, 'epoch': 9.33}
 58%|█████▊    | 216700/371472 [6:12:10<12:27:38,  3.45it/s] 58%|█████▊    | 216701/371472 [6:12:10<12:02:23,  3.57it/s] 58%|█████▊    | 216702/371472 [6:12:10<11:40:54,  3.68it/s] 58%|█████▊    | 216703/371472 [6:12:11<11:50:09,  3.63it/s] 58%|█████▊    | 216704/371472 [6:12:11<11:44:10,  3.66it/s] 58%|█████▊    | 216705/371472 [6:12:11<11:32:14,  3.73it/s] 58%|█████▊    | 216706/371472 [6:12:11<11:31:33,  3.73it/s] 58%|█████▊    | 216707/371472 [6:12:12<12:19:42,  3.49it/s] 58%|█████▊    | 216708/371472 [6:12:12<11:58:30,  3.59it/s] 58%|█████▊    | 216709/371472 [6:12:12<12:32:15,  3.43it/s] 58%|█████▊    | 216710/371472 [6:12:13<12:21:32,  3.48it/s] 58%|█████▊    | 216711/371472 [6:12:13<12:15:25,  3.51it/s] 58%|█████▊    | 216712/371472 [6:12:13<12:23:34,  3.47it/s] 58%|█████▊    | 216713/371472 [6:12:14<13:37:16,  3.16it/s] 58%|█████▊    | 216714/371472 [6:12:14<13:19:57,  3.22it/s] 58%|█████▊    | 216715/371472 [6:12:14<12:46:49,  3.36it/s] 58%|█████▊    | 216716/371472 [6:12:14<12:03:49,  3.56it/s] 58%|█████▊    | 216717/371472 [6:12:15<12:10:18,  3.53it/s] 58%|█████▊    | 216718/371472 [6:12:15<11:55:44,  3.60it/s] 58%|█████▊    | 216719/371472 [6:12:15<12:25:22,  3.46it/s] 58%|█████▊    | 216720/371472 [6:12:16<12:20:56,  3.48it/s]                                                            {'loss': 2.8289, 'learning_rate': 4.7513413346549157e-07, 'epoch': 9.33}
 58%|█████▊    | 216720/371472 [6:12:16<12:20:56,  3.48it/s] 58%|█████▊    | 216721/371472 [6:12:16<12:08:18,  3.54it/s] 58%|█████▊    | 216722/371472 [6:12:16<11:45:55,  3.65it/s] 58%|█████▊    | 216723/371472 [6:12:16<11:35:10,  3.71it/s] 58%|█████▊    | 216724/371472 [6:12:17<11:42:48,  3.67it/s] 58%|█████▊    | 216725/371472 [6:12:17<12:11:52,  3.52it/s] 58%|█████▊    | 216726/371472 [6:12:17<12:05:42,  3.55it/s] 58%|█████▊    | 216727/371472 [6:12:18<12:04:50,  3.56it/s] 58%|█████▊    | 216728/371472 [6:12:18<12:12:06,  3.52it/s] 58%|█████▊    | 216729/371472 [6:12:18<12:08:31,  3.54it/s] 58%|█████▊    | 216730/371472 [6:12:18<12:05:13,  3.56it/s] 58%|█████▊    | 216731/371472 [6:12:19<12:12:22,  3.52it/s] 58%|█████▊    | 216732/371472 [6:12:19<12:07:37,  3.54it/s] 58%|█████▊    | 216733/371472 [6:12:19<11:57:08,  3.60it/s] 58%|█████▊    | 216734/371472 [6:12:19<11:38:09,  3.69it/s] 58%|█████▊    | 216735/371472 [6:12:20<12:13:02,  3.52it/s] 58%|█████▊    | 216736/371472 [6:12:20<12:43:58,  3.38it/s] 58%|█████▊    | 216737/371472 [6:12:20<12:22:58,  3.47it/s] 58%|█████▊    | 216738/371472 [6:12:21<12:03:15,  3.57it/s] 58%|█████▊    | 216739/371472 [6:12:21<11:41:03,  3.68it/s] 58%|█████▊    | 216740/371472 [6:12:21<11:44:32,  3.66it/s]                                                            {'loss': 3.0081, 'learning_rate': 4.7508565149001274e-07, 'epoch': 9.34}
 58%|█████▊    | 216740/371472 [6:12:21<11:44:32,  3.66it/s] 58%|█████▊    | 216741/371472 [6:12:21<11:55:57,  3.60it/s] 58%|█████▊    | 216742/371472 [6:12:22<12:17:51,  3.50it/s] 58%|█████▊    | 216743/371472 [6:12:22<12:10:29,  3.53it/s] 58%|█████▊    | 216744/371472 [6:12:22<12:01:07,  3.58it/s] 58%|█████▊    | 216745/371472 [6:12:23<12:22:07,  3.47it/s] 58%|█████▊    | 216746/371472 [6:12:23<12:18:50,  3.49it/s] 58%|█████▊    | 216747/371472 [6:12:23<12:36:11,  3.41it/s] 58%|█████▊    | 216748/371472 [6:12:23<12:17:13,  3.50it/s] 58%|█████▊    | 216749/371472 [6:12:24<12:47:08,  3.36it/s] 58%|█████▊    | 216750/371472 [6:12:24<12:02:49,  3.57it/s] 58%|█████▊    | 216751/371472 [6:12:24<12:43:33,  3.38it/s] 58%|█████▊    | 216752/371472 [6:12:25<12:13:16,  3.52it/s] 58%|█████▊    | 216753/371472 [6:12:25<12:02:39,  3.57it/s] 58%|█████▊    | 216754/371472 [6:12:25<12:37:59,  3.40it/s] 58%|█████▊    | 216755/371472 [6:12:25<12:25:09,  3.46it/s] 58%|█████▊    | 216756/371472 [6:12:26<12:07:42,  3.54it/s] 58%|█████▊    | 216757/371472 [6:12:26<14:26:19,  2.98it/s] 58%|█████▊    | 216758/371472 [6:12:27<14:28:40,  2.97it/s] 58%|█████▊    | 216759/371472 [6:12:27<13:37:29,  3.15it/s] 58%|█████▊    | 216760/371472 [6:12:27<12:59:54,  3.31it/s]                                                            {'loss': 2.9543, 'learning_rate': 4.750371695145338e-07, 'epoch': 9.34}
 58%|█████▊    | 216760/371472 [6:12:27<12:59:54,  3.31it/s] 58%|█████▊    | 216761/371472 [6:12:27<14:07:27,  3.04it/s] 58%|█████▊    | 216762/371472 [6:12:28<13:53:44,  3.09it/s] 58%|█████▊    | 216763/371472 [6:12:28<17:11:24,  2.50it/s] 58%|█████▊    | 216764/371472 [6:12:29<15:36:14,  2.75it/s] 58%|█████▊    | 216765/371472 [6:12:29<14:38:38,  2.93it/s] 58%|█████▊    | 216766/371472 [6:12:29<13:33:36,  3.17it/s] 58%|█████▊    | 216767/371472 [6:12:30<13:24:20,  3.21it/s] 58%|█████▊    | 216768/371472 [6:12:30<13:41:36,  3.14it/s] 58%|█████▊    | 216769/371472 [6:12:30<13:09:51,  3.26it/s] 58%|█████▊    | 216770/371472 [6:12:30<12:42:23,  3.38it/s] 58%|█████▊    | 216771/371472 [6:12:31<13:07:40,  3.27it/s] 58%|█████▊    | 216772/371472 [6:12:31<12:44:12,  3.37it/s] 58%|█████▊    | 216773/371472 [6:12:31<12:22:10,  3.47it/s] 58%|█████▊    | 216774/371472 [6:12:32<12:08:29,  3.54it/s] 58%|█████▊    | 216775/371472 [6:12:32<11:44:28,  3.66it/s] 58%|█████▊    | 216776/371472 [6:12:32<12:35:30,  3.41it/s] 58%|█████▊    | 216777/371472 [6:12:32<12:17:43,  3.49it/s] 58%|█████▊    | 216778/371472 [6:12:33<12:32:53,  3.42it/s] 58%|█████▊    | 216779/371472 [6:12:33<13:05:29,  3.28it/s] 58%|█████▊    | 216780/371472 [6:12:33<13:00:23,  3.30it/s]                                                            {'loss': 2.9172, 'learning_rate': 4.7498868753905483e-07, 'epoch': 9.34}
 58%|█████▊    | 216780/371472 [6:12:33<13:00:23,  3.30it/s] 58%|█████▊    | 216781/371472 [6:12:34<12:43:03,  3.38it/s] 58%|█████▊    | 216782/371472 [6:12:34<13:12:30,  3.25it/s] 58%|█████▊    | 216783/371472 [6:12:34<13:29:14,  3.19it/s] 58%|█████▊    | 216784/371472 [6:12:35<12:51:08,  3.34it/s] 58%|█████▊    | 216785/371472 [6:12:35<12:44:02,  3.37it/s] 58%|█████▊    | 216786/371472 [6:12:35<12:11:24,  3.52it/s] 58%|█████▊    | 216787/371472 [6:12:35<12:34:53,  3.42it/s] 58%|█████▊    | 216788/371472 [6:12:36<12:32:36,  3.43it/s] 58%|█████▊    | 216789/371472 [6:12:36<12:14:38,  3.51it/s] 58%|█████▊    | 216790/371472 [6:12:36<12:25:38,  3.46it/s] 58%|█████▊    | 216791/371472 [6:12:37<12:05:41,  3.55it/s] 58%|█████▊    | 216792/371472 [6:12:37<13:14:07,  3.25it/s] 58%|█████▊    | 216793/371472 [6:12:37<13:00:34,  3.30it/s] 58%|█████▊    | 216794/371472 [6:12:38<13:37:35,  3.15it/s] 58%|█████▊    | 216795/371472 [6:12:38<12:54:15,  3.33it/s] 58%|█████▊    | 216796/371472 [6:12:38<12:39:34,  3.39it/s] 58%|█████▊    | 216797/371472 [6:12:38<12:16:10,  3.50it/s] 58%|█████▊    | 216798/371472 [6:12:39<11:51:42,  3.62it/s] 58%|█████▊    | 216799/371472 [6:12:39<11:56:46,  3.60it/s] 58%|█████▊    | 216800/371472 [6:12:39<12:01:06,  3.57it/s]                                                            {'loss': 2.7866, 'learning_rate': 4.74940205563576e-07, 'epoch': 9.34}
 58%|█████▊    | 216800/371472 [6:12:39<12:01:06,  3.57it/s] 58%|█████▊    | 216801/371472 [6:12:39<12:31:37,  3.43it/s] 58%|█████▊    | 216802/371472 [6:12:40<12:28:58,  3.44it/s] 58%|█████▊    | 216803/371472 [6:12:40<11:49:51,  3.63it/s] 58%|█████▊    | 216804/371472 [6:12:40<12:58:29,  3.31it/s] 58%|█████▊    | 216805/371472 [6:12:41<12:33:45,  3.42it/s] 58%|█████▊    | 216806/371472 [6:12:41<13:00:29,  3.30it/s] 58%|█████▊    | 216807/371472 [6:12:41<13:19:33,  3.22it/s] 58%|█████▊    | 216808/371472 [6:12:42<12:35:43,  3.41it/s] 58%|█████▊    | 216809/371472 [6:12:42<12:08:23,  3.54it/s] 58%|█████▊    | 216810/371472 [6:12:42<12:17:32,  3.49it/s] 58%|█████▊    | 216811/371472 [6:12:42<12:15:04,  3.51it/s] 58%|█████▊    | 216812/371472 [6:12:43<12:30:55,  3.43it/s] 58%|█████▊    | 216813/371472 [6:12:43<12:25:24,  3.46it/s] 58%|█████▊    | 216814/371472 [6:12:43<11:54:48,  3.61it/s] 58%|█████▊    | 216815/371472 [6:12:44<12:56:54,  3.32it/s] 58%|█████▊    | 216816/371472 [6:12:44<13:04:59,  3.28it/s] 58%|█████▊    | 216817/371472 [6:12:44<12:36:02,  3.41it/s] 58%|█████▊    | 216818/371472 [6:12:44<12:47:43,  3.36it/s] 58%|█████▊    | 216819/371472 [6:12:45<12:28:53,  3.44it/s] 58%|█████▊    | 216820/371472 [6:12:45<12:05:51,  3.55it/s]                                                            {'loss': 2.8764, 'learning_rate': 4.748917235880971e-07, 'epoch': 9.34}
 58%|█████▊    | 216820/371472 [6:12:45<12:05:51,  3.55it/s] 58%|█████▊    | 216821/371472 [6:12:45<12:04:12,  3.56it/s] 58%|█████▊    | 216822/371472 [6:12:46<11:53:22,  3.61it/s] 58%|█████▊    | 216823/371472 [6:12:46<11:45:19,  3.65it/s] 58%|█████▊    | 216824/371472 [6:12:46<12:12:46,  3.52it/s] 58%|█████▊    | 216825/371472 [6:12:46<11:34:09,  3.71it/s] 58%|█████▊    | 216826/371472 [6:12:47<11:15:17,  3.82it/s] 58%|█████▊    | 216827/371472 [6:12:47<11:34:09,  3.71it/s] 58%|█████▊    | 216828/371472 [6:12:47<11:59:34,  3.58it/s] 58%|█████▊    | 216829/371472 [6:12:47<12:25:06,  3.46it/s] 58%|█████▊    | 216830/371472 [6:12:48<12:11:09,  3.53it/s] 58%|█████▊    | 216831/371472 [6:12:48<12:21:23,  3.48it/s] 58%|█████▊    | 216832/371472 [6:12:48<12:00:57,  3.57it/s] 58%|█████▊    | 216833/371472 [6:12:49<12:55:04,  3.33it/s] 58%|█████▊    | 216834/371472 [6:12:49<12:17:36,  3.49it/s] 58%|█████▊    | 216835/371472 [6:12:49<12:22:25,  3.47it/s] 58%|█████▊    | 216836/371472 [6:12:50<12:15:25,  3.50it/s] 58%|█████▊    | 216837/371472 [6:12:50<12:34:10,  3.42it/s] 58%|█████▊    | 216838/371472 [6:12:50<12:12:40,  3.52it/s] 58%|█████▊    | 216839/371472 [6:12:50<11:49:30,  3.63it/s] 58%|█████▊    | 216840/371472 [6:12:51<12:26:37,  3.45it/s]                                                            {'loss': 2.8625, 'learning_rate': 4.748432416126182e-07, 'epoch': 9.34}
 58%|█████▊    | 216840/371472 [6:12:51<12:26:37,  3.45it/s] 58%|█████▊    | 216841/371472 [6:12:51<12:36:09,  3.41it/s] 58%|█████▊    | 216842/371472 [6:12:51<12:32:08,  3.43it/s] 58%|█████▊    | 216843/371472 [6:12:52<12:47:54,  3.36it/s] 58%|█████▊    | 216844/371472 [6:12:52<12:53:12,  3.33it/s] 58%|█████▊    | 216845/371472 [6:12:52<13:09:49,  3.26it/s] 58%|█████▊    | 216846/371472 [6:12:52<12:42:03,  3.38it/s] 58%|█████▊    | 216847/371472 [6:12:53<13:25:54,  3.20it/s] 58%|█████▊    | 216848/371472 [6:12:53<13:08:06,  3.27it/s] 58%|█████▊    | 216849/371472 [6:12:53<12:53:18,  3.33it/s] 58%|█████▊    | 216850/371472 [6:12:54<12:44:43,  3.37it/s] 58%|█████▊    | 216851/371472 [6:12:54<12:32:43,  3.42it/s] 58%|█████▊    | 216852/371472 [6:12:54<12:27:50,  3.45it/s] 58%|█████▊    | 216853/371472 [6:12:55<12:13:20,  3.51it/s] 58%|█████▊    | 216854/371472 [6:12:55<12:11:43,  3.52it/s] 58%|█████▊    | 216855/371472 [6:12:55<11:49:50,  3.63it/s] 58%|█████▊    | 216856/371472 [6:12:55<12:01:33,  3.57it/s] 58%|█████▊    | 216857/371472 [6:12:56<12:11:08,  3.52it/s] 58%|█████▊    | 216858/371472 [6:12:56<12:05:12,  3.55it/s] 58%|█████▊    | 216859/371472 [6:12:56<11:48:32,  3.64it/s] 58%|█████▊    | 216860/371472 [6:12:56<11:54:49,  3.60it/s]                                                            {'loss': 2.9691, 'learning_rate': 4.747947596371393e-07, 'epoch': 9.34}
 58%|█████▊    | 216860/371472 [6:12:56<11:54:49,  3.60it/s] 58%|█████▊    | 216861/371472 [6:12:57<12:00:46,  3.58it/s] 58%|█████▊    | 216862/371472 [6:12:57<13:04:03,  3.29it/s] 58%|█████▊    | 216863/371472 [6:12:57<13:39:37,  3.14it/s] 58%|█████▊    | 216864/371472 [6:12:58<13:02:28,  3.29it/s] 58%|█████▊    | 216865/371472 [6:12:58<12:41:49,  3.38it/s] 58%|█████▊    | 216866/371472 [6:12:58<12:18:54,  3.49it/s] 58%|█████▊    | 216867/371472 [6:12:59<12:06:54,  3.54it/s] 58%|█████▊    | 216868/371472 [6:12:59<12:42:20,  3.38it/s] 58%|█████▊    | 216869/371472 [6:12:59<12:20:01,  3.48it/s] 58%|█████▊    | 216870/371472 [6:12:59<12:54:47,  3.33it/s] 58%|█████▊    | 216871/371472 [6:13:00<13:12:39,  3.25it/s] 58%|█████▊    | 216872/371472 [6:13:00<12:34:19,  3.42it/s] 58%|█████▊    | 216873/371472 [6:13:00<12:30:16,  3.43it/s] 58%|█████▊    | 216874/371472 [6:13:01<12:30:45,  3.43it/s] 58%|█████▊    | 216875/371472 [6:13:01<13:14:16,  3.24it/s] 58%|█████▊    | 216876/371472 [6:13:01<13:00:49,  3.30it/s] 58%|█████▊    | 216877/371472 [6:13:02<12:57:40,  3.31it/s] 58%|█████▊    | 216878/371472 [6:13:02<12:48:23,  3.35it/s] 58%|█████▊    | 216879/371472 [6:13:02<12:38:47,  3.40it/s] 58%|█████▊    | 216880/371472 [6:13:02<12:13:56,  3.51it/s]                                                            {'loss': 2.778, 'learning_rate': 4.7474627766166046e-07, 'epoch': 9.34}
 58%|█████▊    | 216880/371472 [6:13:02<12:13:56,  3.51it/s] 58%|█████▊    | 216881/371472 [6:13:03<12:02:51,  3.56it/s] 58%|█████▊    | 216882/371472 [6:13:03<11:42:27,  3.67it/s] 58%|█████▊    | 216883/371472 [6:13:03<13:09:11,  3.26it/s] 58%|█████▊    | 216884/371472 [6:13:04<13:01:33,  3.30it/s] 58%|█████▊    | 216885/371472 [6:13:04<12:22:51,  3.47it/s] 58%|█████▊    | 216886/371472 [6:13:04<12:13:54,  3.51it/s] 58%|█████▊    | 216887/371472 [6:13:04<11:52:08,  3.62it/s] 58%|█████▊    | 216888/371472 [6:13:05<12:01:35,  3.57it/s] 58%|█████▊    | 216889/371472 [6:13:05<12:16:49,  3.50it/s] 58%|█████▊    | 216890/371472 [6:13:05<11:57:02,  3.59it/s] 58%|█████▊    | 216891/371472 [6:13:05<11:34:59,  3.71it/s] 58%|█████▊    | 216892/371472 [6:13:06<11:22:26,  3.78it/s] 58%|█████▊    | 216893/371472 [6:13:06<12:31:38,  3.43it/s] 58%|█████▊    | 216894/371472 [6:13:06<12:17:29,  3.49it/s] 58%|█████▊    | 216895/371472 [6:13:07<11:54:37,  3.61it/s] 58%|█████▊    | 216896/371472 [6:13:07<12:43:44,  3.37it/s] 58%|█████▊    | 216897/371472 [6:13:07<12:21:13,  3.48it/s] 58%|█████▊    | 216898/371472 [6:13:08<13:18:05,  3.23it/s] 58%|█████▊    | 216899/371472 [6:13:08<13:11:50,  3.25it/s] 58%|█████▊    | 216900/371472 [6:13:08<12:30:25,  3.43it/s]                                                            {'loss': 3.0533, 'learning_rate': 4.7469779568618153e-07, 'epoch': 9.34}
 58%|█████▊    | 216900/371472 [6:13:08<12:30:25,  3.43it/s] 58%|█████▊    | 216901/371472 [6:13:08<12:23:49,  3.46it/s] 58%|█████▊    | 216902/371472 [6:13:09<12:12:07,  3.52it/s] 58%|█████▊    | 216903/371472 [6:13:09<12:51:09,  3.34it/s] 58%|█████▊    | 216904/371472 [6:13:09<12:14:38,  3.51it/s] 58%|█████▊    | 216905/371472 [6:13:10<11:55:33,  3.60it/s] 58%|█████▊    | 216906/371472 [6:13:10<11:46:51,  3.64it/s] 58%|█████▊    | 216907/371472 [6:13:10<12:49:15,  3.35it/s] 58%|█████▊    | 216908/371472 [6:13:10<13:01:30,  3.30it/s] 58%|█████▊    | 216909/371472 [6:13:11<12:38:57,  3.39it/s] 58%|█████▊    | 216910/371472 [6:13:11<12:17:48,  3.49it/s] 58%|█████▊    | 216911/371472 [6:13:11<12:17:31,  3.49it/s] 58%|█████▊    | 216912/371472 [6:13:12<12:01:53,  3.57it/s] 58%|█████▊    | 216913/371472 [6:13:12<13:18:58,  3.22it/s] 58%|█████▊    | 216914/371472 [6:13:12<13:03:12,  3.29it/s] 58%|█████▊    | 216915/371472 [6:13:13<13:24:40,  3.20it/s] 58%|█████▊    | 216916/371472 [6:13:13<13:11:20,  3.26it/s] 58%|█████▊    | 216917/371472 [6:13:13<13:04:33,  3.28it/s] 58%|█████▊    | 216918/371472 [6:13:13<12:45:31,  3.36it/s] 58%|█████▊    | 216919/371472 [6:13:14<13:49:50,  3.10it/s] 58%|█████▊    | 216920/371472 [6:13:14<14:04:15,  3.05it/s]                                                            {'loss': 2.844, 'learning_rate': 4.7464931371070265e-07, 'epoch': 9.34}
 58%|█████▊    | 216920/371472 [6:13:14<14:04:15,  3.05it/s] 58%|█████▊    | 216921/371472 [6:13:14<13:22:37,  3.21it/s] 58%|█████▊    | 216922/371472 [6:13:15<12:52:09,  3.34it/s] 58%|█████▊    | 216923/371472 [6:13:15<13:04:05,  3.29it/s] 58%|█████▊    | 216924/371472 [6:13:15<12:44:37,  3.37it/s] 58%|█████▊    | 216925/371472 [6:13:16<12:25:31,  3.45it/s] 58%|█████▊    | 216926/371472 [6:13:16<12:54:22,  3.33it/s] 58%|█████▊    | 216927/371472 [6:13:16<12:44:59,  3.37it/s] 58%|█████▊    | 216928/371472 [6:13:17<13:27:20,  3.19it/s] 58%|█████▊    | 216929/371472 [6:13:17<13:02:09,  3.29it/s] 58%|█████▊    | 216930/371472 [6:13:17<13:02:41,  3.29it/s] 58%|█████▊    | 216931/371472 [6:13:17<12:55:40,  3.32it/s] 58%|█████▊    | 216932/371472 [6:13:18<12:32:52,  3.42it/s] 58%|█████▊    | 216933/371472 [6:13:18<12:09:33,  3.53it/s] 58%|█████▊    | 216934/371472 [6:13:18<11:56:45,  3.59it/s] 58%|█████▊    | 216935/371472 [6:13:19<12:12:58,  3.51it/s] 58%|█████▊    | 216936/371472 [6:13:19<11:55:33,  3.60it/s] 58%|█████▊    | 216937/371472 [6:13:19<11:51:48,  3.62it/s] 58%|█████▊    | 216938/371472 [6:13:19<11:57:15,  3.59it/s] 58%|█████▊    | 216939/371472 [6:13:20<12:22:18,  3.47it/s] 58%|█████▊    | 216940/371472 [6:13:20<12:29:36,  3.44it/s]                                                            {'loss': 2.9674, 'learning_rate': 4.746008317352238e-07, 'epoch': 9.34}
 58%|█████▊    | 216940/371472 [6:13:20<12:29:36,  3.44it/s] 58%|█████▊    | 216941/371472 [6:13:20<12:35:10,  3.41it/s] 58%|█████▊    | 216942/371472 [6:13:21<12:59:11,  3.31it/s] 58%|█████▊    | 216943/371472 [6:13:21<12:26:41,  3.45it/s] 58%|█████▊    | 216944/371472 [6:13:21<12:18:28,  3.49it/s] 58%|█████▊    | 216945/371472 [6:13:21<12:13:21,  3.51it/s] 58%|█████▊    | 216946/371472 [6:13:22<12:22:13,  3.47it/s] 58%|█████▊    | 216947/371472 [6:13:22<12:15:12,  3.50it/s] 58%|█████▊    | 216948/371472 [6:13:22<11:38:16,  3.69it/s] 58%|█████▊    | 216949/371472 [6:13:23<11:57:22,  3.59it/s] 58%|█████▊    | 216950/371472 [6:13:23<11:54:50,  3.60it/s] 58%|█████▊    | 216951/371472 [6:13:23<11:37:43,  3.69it/s] 58%|█████▊    | 216952/371472 [6:13:23<11:51:29,  3.62it/s] 58%|█████▊    | 216953/371472 [6:13:24<12:05:46,  3.55it/s] 58%|█████▊    | 216954/371472 [6:13:24<12:01:30,  3.57it/s] 58%|█████▊    | 216955/371472 [6:13:24<11:41:02,  3.67it/s] 58%|█████▊    | 216956/371472 [6:13:24<11:55:44,  3.60it/s] 58%|█████▊    | 216957/371472 [6:13:25<11:39:10,  3.68it/s] 58%|█████▊    | 216958/371472 [6:13:25<12:01:06,  3.57it/s] 58%|█████▊    | 216959/371472 [6:13:25<12:16:38,  3.50it/s] 58%|█████▊    | 216960/371472 [6:13:26<12:19:01,  3.48it/s]                                                            {'loss': 2.8588, 'learning_rate': 4.745523497597449e-07, 'epoch': 9.34}
 58%|█████▊    | 216960/371472 [6:13:26<12:19:01,  3.48it/s] 58%|█████▊    | 216961/371472 [6:13:26<12:15:10,  3.50it/s] 58%|█████▊    | 216962/371472 [6:13:26<12:01:33,  3.57it/s] 58%|█████▊    | 216963/371472 [6:13:26<12:46:33,  3.36it/s] 58%|█████▊    | 216964/371472 [6:13:27<13:13:08,  3.25it/s] 58%|█████▊    | 216965/371472 [6:13:27<12:37:42,  3.40it/s] 58%|█████▊    | 216966/371472 [6:13:27<12:04:02,  3.56it/s] 58%|█████▊    | 216967/371472 [6:13:28<11:38:38,  3.69it/s] 58%|█████▊    | 216968/371472 [6:13:28<11:39:30,  3.68it/s] 58%|█████▊    | 216969/371472 [6:13:28<11:19:48,  3.79it/s] 58%|█████▊    | 216970/371472 [6:13:28<11:15:11,  3.81it/s] 58%|█████▊    | 216971/371472 [6:13:29<11:40:40,  3.68it/s] 58%|█████▊    | 216972/371472 [6:13:29<11:55:34,  3.60it/s] 58%|█████▊    | 216973/371472 [6:13:29<12:06:28,  3.54it/s] 58%|█████▊    | 216974/371472 [6:13:29<11:47:28,  3.64it/s] 58%|█████▊    | 216975/371472 [6:13:30<11:56:57,  3.59it/s] 58%|█████▊    | 216976/371472 [6:13:30<11:36:44,  3.70it/s] 58%|█████▊    | 216977/371472 [6:13:30<11:51:50,  3.62it/s] 58%|█████▊    | 216978/371472 [6:13:31<11:48:12,  3.64it/s] 58%|█████▊    | 216979/371472 [6:13:31<11:36:05,  3.70it/s] 58%|█████▊    | 216980/371472 [6:13:31<12:12:28,  3.52it/s]                                                            {'loss': 3.1048, 'learning_rate': 4.745038677842659e-07, 'epoch': 9.35}
 58%|█████▊    | 216980/371472 [6:13:31<12:12:28,  3.52it/s] 58%|█████▊    | 216981/371472 [6:13:31<12:00:31,  3.57it/s] 58%|█████▊    | 216982/371472 [6:13:32<11:47:05,  3.64it/s] 58%|█████▊    | 216983/371472 [6:13:32<12:53:14,  3.33it/s] 58%|█████▊    | 216984/371472 [6:13:32<12:59:19,  3.30it/s] 58%|█████▊    | 216985/371472 [6:13:33<12:24:59,  3.46it/s] 58%|█████▊    | 216986/371472 [6:13:33<13:06:28,  3.27it/s] 58%|█████▊    | 216987/371472 [6:13:33<12:24:36,  3.46it/s] 58%|█████▊    | 216988/371472 [6:13:34<12:21:30,  3.47it/s] 58%|█████▊    | 216989/371472 [6:13:34<11:51:31,  3.62it/s] 58%|█████▊    | 216990/371472 [6:13:34<12:34:22,  3.41it/s] 58%|█████▊    | 216991/371472 [6:13:34<12:24:29,  3.46it/s] 58%|█████▊    | 216992/371472 [6:13:35<12:51:28,  3.34it/s] 58%|█████▊    | 216993/371472 [6:13:35<12:50:53,  3.34it/s] 58%|█████▊    | 216994/371472 [6:13:35<12:46:20,  3.36it/s] 58%|█████▊    | 216995/371472 [6:13:36<12:28:57,  3.44it/s] 58%|█████▊    | 216996/371472 [6:13:36<12:15:58,  3.50it/s] 58%|█████▊    | 216997/371472 [6:13:36<12:41:17,  3.38it/s] 58%|█████▊    | 216998/371472 [6:13:36<13:07:30,  3.27it/s] 58%|█████▊    | 216999/371472 [6:13:37<12:39:04,  3.39it/s] 58%|█████▊    | 217000/371472 [6:13:37<12:09:00,  3.53it/s]                                                            {'loss': 2.9653, 'learning_rate': 4.744553858087871e-07, 'epoch': 9.35}
 58%|█████▊    | 217000/371472 [6:13:37<12:09:00,  3.53it/s] 58%|█████▊    | 217001/371472 [6:13:37<11:46:42,  3.64it/s] 58%|█████▊    | 217002/371472 [6:13:38<11:27:25,  3.75it/s] 58%|█████▊    | 217003/371472 [6:13:38<11:12:44,  3.83it/s] 58%|█████▊    | 217004/371472 [6:13:38<11:27:33,  3.74it/s] 58%|█████▊    | 217005/371472 [6:13:38<12:05:41,  3.55it/s] 58%|█████▊    | 217006/371472 [6:13:39<12:06:37,  3.54it/s] 58%|█████▊    | 217007/371472 [6:13:39<12:58:47,  3.31it/s] 58%|█████▊    | 217008/371472 [6:13:39<13:13:20,  3.24it/s] 58%|█████▊    | 217009/371472 [6:13:40<13:31:59,  3.17it/s] 58%|█████▊    | 217010/371472 [6:13:40<13:06:23,  3.27it/s] 58%|█████▊    | 217011/371472 [6:13:40<12:33:31,  3.42it/s] 58%|█████▊    | 217012/371472 [6:13:40<12:25:19,  3.45it/s] 58%|█████▊    | 217013/371472 [6:13:41<12:29:14,  3.44it/s] 58%|█████▊    | 217014/371472 [6:13:41<12:14:26,  3.51it/s] 58%|█████▊    | 217015/371472 [6:13:41<12:14:50,  3.50it/s] 58%|█████▊    | 217016/371472 [6:13:42<16:08:00,  2.66it/s] 58%|█████▊    | 217017/371472 [6:13:42<15:32:58,  2.76it/s] 58%|█████▊    | 217018/371472 [6:13:43<15:38:59,  2.74it/s] 58%|█████▊    | 217019/371472 [6:13:43<15:25:07,  2.78it/s] 58%|█████▊    | 217020/371472 [6:13:43<14:59:10,  2.86it/s]                                                            {'loss': 2.9261, 'learning_rate': 4.7440690383330817e-07, 'epoch': 9.35}
 58%|█████▊    | 217020/371472 [6:13:43<14:59:10,  2.86it/s] 58%|█████▊    | 217021/371472 [6:13:44<14:02:12,  3.06it/s] 58%|█████▊    | 217022/371472 [6:13:44<13:30:09,  3.18it/s] 58%|█████▊    | 217023/371472 [6:13:44<13:05:06,  3.28it/s] 58%|█████▊    | 217024/371472 [6:13:44<12:39:40,  3.39it/s] 58%|█████▊    | 217025/371472 [6:13:45<12:35:18,  3.41it/s] 58%|█████▊    | 217026/371472 [6:13:45<13:20:44,  3.21it/s] 58%|█████▊    | 217027/371472 [6:13:45<12:54:40,  3.32it/s] 58%|█████▊    | 217028/371472 [6:13:46<13:01:10,  3.30it/s] 58%|█████▊    | 217029/371472 [6:13:46<12:38:46,  3.39it/s] 58%|█████▊    | 217030/371472 [6:13:46<13:02:29,  3.29it/s] 58%|█████▊    | 217031/371472 [6:13:47<14:19:57,  2.99it/s] 58%|█████▊    | 217032/371472 [6:13:47<13:45:41,  3.12it/s] 58%|█████▊    | 217033/371472 [6:13:47<12:52:35,  3.33it/s] 58%|█████▊    | 217034/371472 [6:13:47<12:30:22,  3.43it/s] 58%|█████▊    | 217035/371472 [6:13:48<12:17:35,  3.49it/s] 58%|█████▊    | 217036/371472 [6:13:48<12:05:29,  3.55it/s] 58%|█████▊    | 217037/371472 [6:13:48<11:54:35,  3.60it/s] 58%|█████▊    | 217038/371472 [6:13:49<12:17:37,  3.49it/s] 58%|█████▊    | 217039/371472 [6:13:49<12:06:16,  3.54it/s] 58%|█████▊    | 217040/371472 [6:13:49<11:59:33,  3.58it/s]                                                            {'loss': 2.8804, 'learning_rate': 4.743584218578293e-07, 'epoch': 9.35}
 58%|█████▊    | 217040/371472 [6:13:49<11:59:33,  3.58it/s] 58%|█████▊    | 217041/371472 [6:13:49<11:54:59,  3.60it/s] 58%|█████▊    | 217042/371472 [6:13:50<12:03:32,  3.56it/s] 58%|█████▊    | 217043/371472 [6:13:50<11:31:03,  3.72it/s] 58%|█████▊    | 217044/371472 [6:13:50<11:40:05,  3.68it/s] 58%|█████▊    | 217045/371472 [6:13:50<11:46:27,  3.64it/s] 58%|█████▊    | 217046/371472 [6:13:51<11:37:31,  3.69it/s] 58%|█████▊    | 217047/371472 [6:13:51<11:42:30,  3.66it/s] 58%|█████▊    | 217048/371472 [6:13:51<11:37:10,  3.69it/s] 58%|█████▊    | 217049/371472 [6:13:52<11:27:39,  3.74it/s] 58%|█████▊    | 217050/371472 [6:13:52<11:21:59,  3.77it/s] 58%|█████▊    | 217051/371472 [6:13:52<11:05:22,  3.87it/s] 58%|█████▊    | 217052/371472 [6:13:52<11:08:00,  3.85it/s] 58%|█████▊    | 217053/371472 [6:13:53<11:23:42,  3.76it/s] 58%|█████▊    | 217054/371472 [6:13:53<11:14:30,  3.82it/s] 58%|█████▊    | 217055/371472 [6:13:53<11:26:13,  3.75it/s] 58%|█████▊    | 217056/371472 [6:13:53<11:29:11,  3.73it/s] 58%|█████▊    | 217057/371472 [6:13:54<11:18:53,  3.79it/s] 58%|█████▊    | 217058/371472 [6:13:54<11:26:12,  3.75it/s] 58%|█████▊    | 217059/371472 [6:13:54<11:42:17,  3.66it/s] 58%|█████▊    | 217060/371472 [6:13:54<11:46:47,  3.64it/s]                                                            {'loss': 2.9306, 'learning_rate': 4.7430993988235036e-07, 'epoch': 9.35}
 58%|█████▊    | 217060/371472 [6:13:54<11:46:47,  3.64it/s] 58%|█████▊    | 217061/371472 [6:13:55<13:23:52,  3.20it/s] 58%|█████▊    | 217062/371472 [6:13:55<13:18:50,  3.22it/s] 58%|█████▊    | 217063/371472 [6:13:55<12:34:48,  3.41it/s] 58%|█████▊    | 217064/371472 [6:13:56<13:25:32,  3.19it/s] 58%|█████▊    | 217065/371472 [6:13:56<13:03:25,  3.28it/s] 58%|█████▊    | 217066/371472 [6:13:56<12:38:56,  3.39it/s] 58%|█████▊    | 217067/371472 [6:13:57<12:29:16,  3.43it/s] 58%|█████▊    | 217068/371472 [6:13:57<12:39:21,  3.39it/s] 58%|█████▊    | 217069/371472 [6:13:57<12:18:59,  3.48it/s] 58%|█████▊    | 217070/371472 [6:13:58<12:29:08,  3.44it/s] 58%|█████▊    | 217071/371472 [6:13:58<12:09:16,  3.53it/s] 58%|█████▊    | 217072/371472 [6:13:58<11:51:15,  3.62it/s] 58%|█████▊    | 217073/371472 [6:13:58<11:27:14,  3.74it/s] 58%|█████▊    | 217074/371472 [6:13:59<12:19:45,  3.48it/s] 58%|█████▊    | 217075/371472 [6:13:59<11:49:53,  3.62it/s] 58%|█████▊    | 217076/371472 [6:13:59<12:25:27,  3.45it/s] 58%|█████▊    | 217077/371472 [6:14:00<13:00:01,  3.30it/s] 58%|█████▊    | 217078/371472 [6:14:00<12:43:37,  3.37it/s] 58%|█████▊    | 217079/371472 [6:14:00<12:28:23,  3.44it/s] 58%|█████▊    | 217080/371472 [6:14:00<12:22:30,  3.47it/s]                                                            {'loss': 2.799, 'learning_rate': 4.7426145790687154e-07, 'epoch': 9.35}
 58%|█████▊    | 217080/371472 [6:14:00<12:22:30,  3.47it/s] 58%|█████▊    | 217081/371472 [6:14:01<12:52:18,  3.33it/s] 58%|█████▊    | 217082/371472 [6:14:01<13:40:53,  3.13it/s] 58%|█████▊    | 217083/371472 [6:14:01<13:07:30,  3.27it/s] 58%|█████▊    | 217084/371472 [6:14:02<12:34:23,  3.41it/s] 58%|█████▊    | 217085/371472 [6:14:02<12:27:23,  3.44it/s] 58%|█████▊    | 217086/371472 [6:14:02<12:12:30,  3.51it/s] 58%|█████▊    | 217087/371472 [6:14:02<11:48:25,  3.63it/s] 58%|█████▊    | 217088/371472 [6:14:03<11:42:13,  3.66it/s] 58%|█████▊    | 217089/371472 [6:14:03<13:00:54,  3.29it/s] 58%|█████▊    | 217090/371472 [6:14:03<12:19:35,  3.48it/s] 58%|█████▊    | 217091/371472 [6:14:04<11:59:34,  3.58it/s] 58%|█████▊    | 217092/371472 [6:14:04<12:42:18,  3.38it/s] 58%|█████▊    | 217093/371472 [6:14:04<12:20:16,  3.48it/s] 58%|█████▊    | 217094/371472 [6:14:04<12:06:22,  3.54it/s] 58%|█████▊    | 217095/371472 [6:14:05<12:24:01,  3.46it/s] 58%|█████▊    | 217096/371472 [6:14:05<12:13:55,  3.51it/s] 58%|█████▊    | 217097/371472 [6:14:05<12:01:43,  3.56it/s] 58%|█████▊    | 217098/371472 [6:14:06<12:48:28,  3.35it/s] 58%|█████▊    | 217099/371472 [6:14:06<12:57:37,  3.31it/s] 58%|█████▊    | 217100/371472 [6:14:06<12:46:32,  3.36it/s]                                                            {'loss': 2.7577, 'learning_rate': 4.7421297593139256e-07, 'epoch': 9.35}
 58%|█████▊    | 217100/371472 [6:14:06<12:46:32,  3.36it/s] 58%|█████▊    | 217101/371472 [6:14:06<12:25:11,  3.45it/s] 58%|█████▊    | 217102/371472 [6:14:07<14:00:41,  3.06it/s] 58%|█████▊    | 217103/371472 [6:14:07<13:33:20,  3.16it/s] 58%|█████▊    | 217104/371472 [6:14:07<12:54:06,  3.32it/s] 58%|█████▊    | 217105/371472 [6:14:08<12:23:00,  3.46it/s] 58%|█████▊    | 217106/371472 [6:14:08<12:49:37,  3.34it/s] 58%|█████▊    | 217107/371472 [6:14:08<12:42:33,  3.37it/s] 58%|█████▊    | 217108/371472 [6:14:09<12:31:07,  3.43it/s] 58%|█████▊    | 217109/371472 [6:14:09<12:56:27,  3.31it/s] 58%|█████▊    | 217110/371472 [6:14:09<12:42:11,  3.38it/s] 58%|█████▊    | 217111/371472 [6:14:10<13:17:11,  3.23it/s] 58%|█████▊    | 217112/371472 [6:14:10<13:11:21,  3.25it/s] 58%|█████▊    | 217113/371472 [6:14:10<13:02:01,  3.29it/s] 58%|█████▊    | 217114/371472 [6:14:10<13:03:10,  3.28it/s] 58%|█████▊    | 217115/371472 [6:14:11<12:43:39,  3.37it/s] 58%|█████▊    | 217116/371472 [6:14:11<12:40:11,  3.38it/s] 58%|█████▊    | 217117/371472 [6:14:11<12:45:54,  3.36it/s] 58%|█████▊    | 217118/371472 [6:14:12<12:27:51,  3.44it/s] 58%|█████▊    | 217119/371472 [6:14:12<11:50:51,  3.62it/s] 58%|█████▊    | 217120/371472 [6:14:12<11:31:10,  3.72it/s]                                                            {'loss': 2.8856, 'learning_rate': 4.7416449395591374e-07, 'epoch': 9.35}
 58%|█████▊    | 217120/371472 [6:14:12<11:31:10,  3.72it/s] 58%|█████▊    | 217121/371472 [6:14:12<11:24:55,  3.76it/s] 58%|█████▊    | 217122/371472 [6:14:13<11:41:44,  3.67it/s] 58%|█████▊    | 217123/371472 [6:14:13<11:53:50,  3.60it/s] 58%|█████▊    | 217124/371472 [6:14:13<11:45:32,  3.65it/s] 58%|█████▊    | 217125/371472 [6:14:14<12:00:41,  3.57it/s] 58%|█████▊    | 217126/371472 [6:14:14<11:55:37,  3.59it/s] 58%|█████▊    | 217127/371472 [6:14:14<12:17:36,  3.49it/s] 58%|█████▊    | 217128/371472 [6:14:14<11:43:23,  3.66it/s] 58%|█████▊    | 217129/371472 [6:14:15<12:06:02,  3.54it/s] 58%|█████▊    | 217130/371472 [6:14:15<12:17:06,  3.49it/s] 58%|█████▊    | 217131/371472 [6:14:15<11:54:26,  3.60it/s] 58%|█████▊    | 217132/371472 [6:14:16<12:30:09,  3.43it/s] 58%|█████▊    | 217133/371472 [6:14:16<11:52:00,  3.61it/s] 58%|█████▊    | 217134/371472 [6:14:16<12:08:14,  3.53it/s] 58%|█████▊    | 217135/371472 [6:14:16<12:10:31,  3.52it/s] 58%|█████▊    | 217136/371472 [6:14:17<12:06:15,  3.54it/s] 58%|█████▊    | 217137/371472 [6:14:17<11:53:55,  3.60it/s] 58%|█████▊    | 217138/371472 [6:14:17<11:44:35,  3.65it/s] 58%|█████▊    | 217139/371472 [6:14:17<11:55:38,  3.59it/s] 58%|█████▊    | 217140/371472 [6:14:18<12:06:37,  3.54it/s]                                                            {'loss': 2.8275, 'learning_rate': 4.741160119804348e-07, 'epoch': 9.35}
 58%|█████▊    | 217140/371472 [6:14:18<12:06:37,  3.54it/s] 58%|█████▊    | 217141/371472 [6:14:18<12:28:00,  3.44it/s] 58%|█████▊    | 217142/371472 [6:14:18<12:08:40,  3.53it/s] 58%|█████▊    | 217143/371472 [6:14:19<12:26:32,  3.45it/s] 58%|█████▊    | 217144/371472 [6:14:19<11:47:40,  3.63it/s] 58%|█████▊    | 217145/371472 [6:14:19<11:51:22,  3.62it/s] 58%|█████▊    | 217146/371472 [6:14:19<11:36:10,  3.69it/s] 58%|█████▊    | 217147/371472 [6:14:20<11:47:51,  3.63it/s] 58%|█████▊    | 217148/371472 [6:14:20<11:33:39,  3.71it/s] 58%|█████▊    | 217149/371472 [6:14:20<11:22:59,  3.77it/s] 58%|█████▊    | 217150/371472 [6:14:21<12:10:26,  3.52it/s] 58%|█████▊    | 217151/371472 [6:14:21<12:05:33,  3.54it/s] 58%|█████▊    | 217152/371472 [6:14:21<11:48:49,  3.63it/s] 58%|█████▊    | 217153/371472 [6:14:21<11:42:01,  3.66it/s] 58%|█████▊    | 217154/371472 [6:14:22<11:30:32,  3.72it/s] 58%|█████▊    | 217155/371472 [6:14:22<12:16:30,  3.49it/s] 58%|█████▊    | 217156/371472 [6:14:22<12:13:18,  3.51it/s] 58%|█████▊    | 217157/371472 [6:14:22<12:02:19,  3.56it/s] 58%|█████▊    | 217158/371472 [6:14:23<12:49:43,  3.34it/s] 58%|█████▊    | 217159/371472 [6:14:23<12:52:37,  3.33it/s] 58%|█████▊    | 217160/371472 [6:14:23<12:11:50,  3.51it/s]                                                            {'loss': 3.0191, 'learning_rate': 4.7406753000495593e-07, 'epoch': 9.35}
 58%|█████▊    | 217160/371472 [6:14:23<12:11:50,  3.51it/s] 58%|█████▊    | 217161/371472 [6:14:24<12:49:07,  3.34it/s] 58%|█████▊    | 217162/371472 [6:14:24<12:13:59,  3.50it/s] 58%|█████▊    | 217163/371472 [6:14:24<12:02:14,  3.56it/s] 58%|█████▊    | 217164/371472 [6:14:24<11:59:59,  3.57it/s] 58%|█████▊    | 217165/371472 [6:14:25<11:52:02,  3.61it/s] 58%|█████▊    | 217166/371472 [6:14:25<12:19:14,  3.48it/s] 58%|█████▊    | 217167/371472 [6:14:25<12:33:18,  3.41it/s] 58%|█████▊    | 217168/371472 [6:14:26<12:39:50,  3.38it/s] 58%|█████▊    | 217169/371472 [6:14:26<12:22:30,  3.46it/s] 58%|█████▊    | 217170/371472 [6:14:26<12:06:26,  3.54it/s] 58%|█████▊    | 217171/371472 [6:14:26<11:54:11,  3.60it/s] 58%|█████▊    | 217172/371472 [6:14:27<12:24:00,  3.46it/s] 58%|█████▊    | 217173/371472 [6:14:27<12:43:05,  3.37it/s] 58%|█████▊    | 217174/371472 [6:14:27<12:59:05,  3.30it/s] 58%|█████▊    | 217175/371472 [6:14:28<13:26:03,  3.19it/s] 58%|█████▊    | 217176/371472 [6:14:28<13:07:11,  3.27it/s] 58%|█████▊    | 217177/371472 [6:14:28<13:02:58,  3.28it/s] 58%|█████▊    | 217178/371472 [6:14:29<14:00:33,  3.06it/s] 58%|█████▊    | 217179/371472 [6:14:29<13:10:25,  3.25it/s] 58%|█████▊    | 217180/371472 [6:14:29<13:17:54,  3.22it/s]                                                            {'loss': 2.7922, 'learning_rate': 4.74019048029477e-07, 'epoch': 9.35}
 58%|█████▊    | 217180/371472 [6:14:29<13:17:54,  3.22it/s] 58%|█████▊    | 217181/371472 [6:14:30<13:08:32,  3.26it/s] 58%|█████▊    | 217182/371472 [6:14:30<12:56:20,  3.31it/s] 58%|█████▊    | 217183/371472 [6:14:30<12:33:39,  3.41it/s] 58%|█████▊    | 217184/371472 [6:14:31<13:57:20,  3.07it/s] 58%|█████▊    | 217185/371472 [6:14:31<13:06:57,  3.27it/s] 58%|█████▊    | 217186/371472 [6:14:31<12:57:48,  3.31it/s] 58%|█████▊    | 217187/371472 [6:14:31<13:03:59,  3.28it/s] 58%|█████▊    | 217188/371472 [6:14:32<13:17:49,  3.22it/s] 58%|█████▊    | 217189/371472 [6:14:32<12:48:54,  3.34it/s] 58%|█████▊    | 217190/371472 [6:14:32<12:31:29,  3.42it/s] 58%|█████▊    | 217191/371472 [6:14:33<12:22:34,  3.46it/s] 58%|█████▊    | 217192/371472 [6:14:33<12:50:17,  3.34it/s] 58%|█████▊    | 217193/371472 [6:14:33<12:19:38,  3.48it/s] 58%|█████▊    | 217194/371472 [6:14:33<12:18:36,  3.48it/s] 58%|█████▊    | 217195/371472 [6:14:34<12:18:00,  3.48it/s] 58%|█████▊    | 217196/371472 [6:14:34<12:51:16,  3.33it/s] 58%|█████▊    | 217197/371472 [6:14:34<12:22:35,  3.46it/s] 58%|█████▊    | 217198/371472 [6:14:35<12:14:25,  3.50it/s] 58%|█████▊    | 217199/371472 [6:14:35<11:56:27,  3.59it/s] 58%|█████▊    | 217200/371472 [6:14:35<11:51:13,  3.62it/s]                                                            {'loss': 2.8697, 'learning_rate': 4.739705660539982e-07, 'epoch': 9.36}
 58%|█████▊    | 217200/371472 [6:14:35<11:51:13,  3.62it/s] 58%|█████▊    | 217201/371472 [6:14:35<12:20:29,  3.47it/s] 58%|█████▊    | 217202/371472 [6:14:36<11:48:41,  3.63it/s] 58%|█████▊    | 217203/371472 [6:14:36<11:49:55,  3.62it/s] 58%|█████▊    | 217204/371472 [6:14:36<12:45:04,  3.36it/s] 58%|█████▊    | 217205/371472 [6:14:37<12:31:31,  3.42it/s] 58%|█████▊    | 217206/371472 [6:14:37<12:48:46,  3.34it/s] 58%|█████▊    | 217207/371472 [6:14:37<12:13:41,  3.50it/s] 58%|█████▊    | 217208/371472 [6:14:37<11:47:57,  3.63it/s] 58%|█████▊    | 217209/371472 [6:14:38<12:06:03,  3.54it/s] 58%|█████▊    | 217210/371472 [6:14:38<11:57:14,  3.58it/s] 58%|█████▊    | 217211/371472 [6:14:38<12:27:10,  3.44it/s] 58%|█████▊    | 217212/371472 [6:14:39<12:22:03,  3.46it/s] 58%|█████▊    | 217213/371472 [6:14:39<12:06:51,  3.54it/s] 58%|█████▊    | 217214/371472 [6:14:39<11:59:12,  3.57it/s] 58%|█████▊    | 217215/371472 [6:14:39<12:08:00,  3.53it/s] 58%|█████▊    | 217216/371472 [6:14:40<11:48:50,  3.63it/s] 58%|█████▊    | 217217/371472 [6:14:40<12:01:08,  3.57it/s] 58%|█████▊    | 217218/371472 [6:14:40<12:19:59,  3.47it/s] 58%|█████▊    | 217219/371472 [6:14:41<12:03:12,  3.55it/s] 58%|█████▊    | 217220/371472 [6:14:41<11:52:01,  3.61it/s]                                                            {'loss': 3.0354, 'learning_rate': 4.739220840785192e-07, 'epoch': 9.36}
 58%|█████▊    | 217220/371472 [6:14:41<11:52:01,  3.61it/s] 58%|█████▊    | 217221/371472 [6:14:41<11:38:15,  3.68it/s] 58%|█████▊    | 217222/371472 [6:14:41<11:32:27,  3.71it/s] 58%|█████▊    | 217223/371472 [6:14:42<11:24:12,  3.76it/s] 58%|█████▊    | 217224/371472 [6:14:42<11:33:45,  3.71it/s] 58%|█████▊    | 217225/371472 [6:14:42<12:24:48,  3.45it/s] 58%|█████▊    | 217226/371472 [6:14:43<12:57:57,  3.30it/s] 58%|█████▊    | 217227/371472 [6:14:43<13:21:06,  3.21it/s] 58%|█████▊    | 217228/371472 [6:14:43<13:22:29,  3.20it/s] 58%|█████▊    | 217229/371472 [6:14:44<13:22:50,  3.20it/s] 58%|█████▊    | 217230/371472 [6:14:44<13:10:25,  3.25it/s] 58%|█████▊    | 217231/371472 [6:14:44<12:31:16,  3.42it/s] 58%|█████▊    | 217232/371472 [6:14:44<12:46:10,  3.36it/s] 58%|█████▊    | 217233/371472 [6:14:45<13:06:09,  3.27it/s] 58%|█████▊    | 217234/371472 [6:14:45<13:10:18,  3.25it/s] 58%|█████▊    | 217235/371472 [6:14:45<12:38:34,  3.39it/s] 58%|█████▊    | 217236/371472 [6:14:46<12:33:28,  3.41it/s] 58%|█████▊    | 217237/371472 [6:14:46<13:04:52,  3.28it/s] 58%|█████▊    | 217238/371472 [6:14:46<12:28:05,  3.44it/s] 58%|█████▊    | 217239/371472 [6:14:47<13:20:08,  3.21it/s] 58%|█████▊    | 217240/371472 [6:14:47<13:21:21,  3.21it/s]                                                            {'loss': 2.8946, 'learning_rate': 4.738736021030404e-07, 'epoch': 9.36}
 58%|█████▊    | 217240/371472 [6:14:47<13:21:21,  3.21it/s] 58%|█████▊    | 217241/371472 [6:14:47<12:34:38,  3.41it/s] 58%|█████▊    | 217242/371472 [6:14:47<12:04:46,  3.55it/s] 58%|█████▊    | 217243/371472 [6:14:48<12:18:03,  3.48it/s] 58%|█████▊    | 217244/371472 [6:14:48<12:01:14,  3.56it/s] 58%|█████▊    | 217245/371472 [6:14:48<11:37:18,  3.69it/s] 58%|█████▊    | 217246/371472 [6:14:49<12:34:18,  3.41it/s] 58%|█████▊    | 217247/371472 [6:14:49<13:24:25,  3.20it/s] 58%|█████▊    | 217248/371472 [6:14:49<13:12:04,  3.25it/s] 58%|█████▊    | 217249/371472 [6:14:49<12:45:01,  3.36it/s] 58%|█████▊    | 217250/371472 [6:14:50<12:17:39,  3.48it/s] 58%|█████▊    | 217251/371472 [6:14:50<12:58:00,  3.30it/s] 58%|█████▊    | 217252/371472 [6:14:50<12:27:33,  3.44it/s] 58%|█████▊    | 217253/371472 [6:14:51<12:24:14,  3.45it/s] 58%|█████▊    | 217254/371472 [6:14:51<12:17:52,  3.48it/s] 58%|█████▊    | 217255/371472 [6:14:51<12:30:31,  3.42it/s] 58%|█████▊    | 217256/371472 [6:14:51<12:45:40,  3.36it/s] 58%|█████▊    | 217257/371472 [6:14:52<12:59:14,  3.30it/s] 58%|█████▊    | 217258/371472 [6:14:52<13:27:28,  3.18it/s] 58%|█████▊    | 217259/371472 [6:14:52<13:03:59,  3.28it/s] 58%|█████▊    | 217260/371472 [6:14:53<13:07:32,  3.26it/s]                                                            {'loss': 2.8907, 'learning_rate': 4.7382512012756145e-07, 'epoch': 9.36}
 58%|█████▊    | 217260/371472 [6:14:53<13:07:32,  3.26it/s] 58%|█████▊    | 217261/371472 [6:14:53<12:51:38,  3.33it/s] 58%|█████▊    | 217262/371472 [6:14:53<12:19:41,  3.47it/s] 58%|█████▊    | 217263/371472 [6:14:54<12:13:21,  3.50it/s] 58%|█████▊    | 217264/371472 [6:14:54<13:07:10,  3.27it/s] 58%|█████▊    | 217265/371472 [6:14:54<12:49:20,  3.34it/s] 58%|█████▊    | 217266/371472 [6:14:54<12:43:49,  3.36it/s] 58%|█████▊    | 217267/371472 [6:14:55<12:26:27,  3.44it/s] 58%|█████▊    | 217268/371472 [6:14:55<12:11:06,  3.52it/s] 58%|█████▊    | 217269/371472 [6:14:55<11:46:51,  3.64it/s] 58%|█████▊    | 217270/371472 [6:14:56<12:38:35,  3.39it/s] 58%|█████▊    | 217271/371472 [6:14:56<12:44:20,  3.36it/s] 58%|█████▊    | 217272/371472 [6:14:56<12:24:09,  3.45it/s] 58%|█████▊    | 217273/371472 [6:14:56<12:28:10,  3.43it/s] 58%|█████▊    | 217274/371472 [6:14:57<12:19:00,  3.48it/s] 58%|█████▊    | 217275/371472 [6:14:57<12:23:11,  3.46it/s] 58%|█████▊    | 217276/371472 [6:14:57<12:13:28,  3.50it/s] 58%|█████▊    | 217277/371472 [6:14:58<12:15:44,  3.49it/s] 58%|█████▊    | 217278/371472 [6:14:58<12:30:40,  3.42it/s] 58%|█████▊    | 217279/371472 [6:14:58<12:08:35,  3.53it/s] 58%|█████▊    | 217280/371472 [6:14:58<12:05:35,  3.54it/s]                                                            {'loss': 3.0283, 'learning_rate': 4.737766381520826e-07, 'epoch': 9.36}
 58%|█████▊    | 217280/371472 [6:14:58<12:05:35,  3.54it/s] 58%|█████▊    | 217281/371472 [6:14:59<12:15:31,  3.49it/s] 58%|█████▊    | 217282/371472 [6:14:59<13:26:56,  3.18it/s] 58%|█████▊    | 217283/371472 [6:14:59<13:41:26,  3.13it/s] 58%|█████▊    | 217284/371472 [6:15:00<13:08:04,  3.26it/s] 58%|█████▊    | 217285/371472 [6:15:00<12:36:10,  3.40it/s] 58%|█████▊    | 217286/371472 [6:15:00<12:23:31,  3.46it/s] 58%|█████▊    | 217287/371472 [6:15:01<12:36:12,  3.40it/s] 58%|█████▊    | 217288/371472 [6:15:01<12:21:38,  3.46it/s] 58%|█████▊    | 217289/371472 [6:15:01<12:11:18,  3.51it/s] 58%|█████▊    | 217290/371472 [6:15:01<12:06:13,  3.54it/s] 58%|█████▊    | 217291/371472 [6:15:02<12:23:39,  3.46it/s] 58%|█████▊    | 217292/371472 [6:15:02<13:10:51,  3.25it/s] 58%|█████▊    | 217293/371472 [6:15:02<12:32:38,  3.41it/s] 58%|█████▊    | 217294/371472 [6:15:03<12:12:06,  3.51it/s] 58%|█████▊    | 217295/371472 [6:15:03<11:50:38,  3.62it/s] 58%|█████▊    | 217296/371472 [6:15:03<12:20:10,  3.47it/s] 58%|█████▊    | 217297/371472 [6:15:03<11:52:39,  3.61it/s] 58%|█████▊    | 217298/371472 [6:15:04<12:22:08,  3.46it/s] 58%|█████▊    | 217299/371472 [6:15:04<12:02:44,  3.56it/s] 58%|█████▊    | 217300/371472 [6:15:04<11:52:57,  3.60it/s]                                                            {'loss': 2.8864, 'learning_rate': 4.7372815617660365e-07, 'epoch': 9.36}
 58%|█████▊    | 217300/371472 [6:15:04<11:52:57,  3.60it/s] 58%|█████▊    | 217301/371472 [6:15:05<11:37:05,  3.69it/s] 58%|█████▊    | 217302/371472 [6:15:05<11:51:28,  3.61it/s] 58%|█████▊    | 217303/371472 [6:15:05<12:14:56,  3.50it/s] 58%|█████▊    | 217304/371472 [6:15:05<12:24:54,  3.45it/s] 58%|█████▊    | 217305/371472 [6:15:06<11:50:08,  3.62it/s] 58%|█████▊    | 217306/371472 [6:15:06<11:49:39,  3.62it/s] 58%|█████▊    | 217307/371472 [6:15:06<12:27:50,  3.44it/s] 58%|█████▊    | 217308/371472 [6:15:07<12:06:07,  3.54it/s] 58%|█████▊    | 217309/371472 [6:15:07<12:09:35,  3.52it/s] 58%|█████▊    | 217310/371472 [6:15:07<12:09:48,  3.52it/s] 58%|█████▊    | 217311/371472 [6:15:07<11:59:03,  3.57it/s] 59%|█████▊    | 217312/371472 [6:15:08<12:05:55,  3.54it/s] 59%|█████▊    | 217313/371472 [6:15:08<12:47:31,  3.35it/s] 59%|█████▊    | 217314/371472 [6:15:08<12:54:47,  3.32it/s] 59%|█████▊    | 217315/371472 [6:15:09<12:54:18,  3.32it/s] 59%|█████▊    | 217316/371472 [6:15:09<12:10:22,  3.52it/s] 59%|█████▊    | 217317/371472 [6:15:09<12:36:19,  3.40it/s] 59%|█████▊    | 217318/371472 [6:15:09<12:12:22,  3.51it/s] 59%|█████▊    | 217319/371472 [6:15:10<13:28:44,  3.18it/s] 59%|█████▊    | 217320/371472 [6:15:10<12:41:53,  3.37it/s]                                                            {'loss': 2.9313, 'learning_rate': 4.736796742011247e-07, 'epoch': 9.36}
 59%|█████▊    | 217320/371472 [6:15:10<12:41:53,  3.37it/s] 59%|█████▊    | 217321/371472 [6:15:10<13:24:00,  3.20it/s] 59%|█████▊    | 217322/371472 [6:15:11<13:01:32,  3.29it/s] 59%|█████▊    | 217323/371472 [6:15:11<12:22:56,  3.46it/s] 59%|█████▊    | 217324/371472 [6:15:11<12:18:09,  3.48it/s] 59%|█████▊    | 217325/371472 [6:15:12<12:07:13,  3.53it/s] 59%|█████▊    | 217326/371472 [6:15:12<12:35:44,  3.40it/s] 59%|█████▊    | 217327/371472 [6:15:12<13:21:08,  3.21it/s] 59%|█████▊    | 217328/371472 [6:15:12<12:37:54,  3.39it/s] 59%|█████▊    | 217329/371472 [6:15:13<13:14:46,  3.23it/s] 59%|█████▊    | 217330/371472 [6:15:13<12:39:51,  3.38it/s] 59%|█████▊    | 217331/371472 [6:15:13<12:30:18,  3.42it/s] 59%|█████▊    | 217332/371472 [6:15:14<12:34:28,  3.40it/s] 59%|█████▊    | 217333/371472 [6:15:14<12:22:41,  3.46it/s] 59%|█████▊    | 217334/371472 [6:15:14<12:21:28,  3.46it/s] 59%|█████▊    | 217335/371472 [6:15:14<12:09:01,  3.52it/s] 59%|█████▊    | 217336/371472 [6:15:15<12:30:18,  3.42it/s] 59%|█████▊    | 217337/371472 [6:15:15<12:22:28,  3.46it/s] 59%|█████▊    | 217338/371472 [6:15:15<12:19:02,  3.48it/s] 59%|█████▊    | 217339/371472 [6:15:16<12:01:01,  3.56it/s] 59%|█████▊    | 217340/371472 [6:15:16<12:11:50,  3.51it/s]                                                            {'loss': 2.9251, 'learning_rate': 4.736311922256459e-07, 'epoch': 9.36}
 59%|█████▊    | 217340/371472 [6:15:16<12:11:50,  3.51it/s] 59%|█████▊    | 217341/371472 [6:15:16<12:30:30,  3.42it/s] 59%|█████▊    | 217342/371472 [6:15:17<12:46:07,  3.35it/s] 59%|█████▊    | 217343/371472 [6:15:17<12:53:57,  3.32it/s] 59%|█████▊    | 217344/371472 [6:15:17<12:24:09,  3.45it/s] 59%|█████▊    | 217345/371472 [6:15:17<12:26:27,  3.44it/s] 59%|█████▊    | 217346/371472 [6:15:18<13:07:19,  3.26it/s] 59%|█████▊    | 217347/371472 [6:15:18<13:31:47,  3.16it/s] 59%|█████▊    | 217348/371472 [6:15:18<12:55:58,  3.31it/s] 59%|█████▊    | 217349/371472 [6:15:19<12:39:39,  3.38it/s] 59%|█████▊    | 217350/371472 [6:15:19<12:27:11,  3.44it/s] 59%|█████▊    | 217351/371472 [6:15:19<12:21:48,  3.46it/s] 59%|█████▊    | 217352/371472 [6:15:20<12:28:19,  3.43it/s] 59%|█████▊    | 217353/371472 [6:15:20<12:33:58,  3.41it/s] 59%|█████▊    | 217354/371472 [6:15:20<12:44:13,  3.36it/s] 59%|█████▊    | 217355/371472 [6:15:20<12:18:07,  3.48it/s] 59%|█████▊    | 217356/371472 [6:15:21<12:24:34,  3.45it/s] 59%|█████▊    | 217357/371472 [6:15:21<12:08:17,  3.53it/s] 59%|█████▊    | 217358/371472 [6:15:21<12:09:59,  3.52it/s] 59%|█████▊    | 217359/371472 [6:15:21<11:56:01,  3.59it/s] 59%|█████▊    | 217360/371472 [6:15:22<11:35:47,  3.69it/s]                                                            {'loss': 3.0258, 'learning_rate': 4.7358271025016697e-07, 'epoch': 9.36}
 59%|█████▊    | 217360/371472 [6:15:22<11:35:47,  3.69it/s] 59%|█████▊    | 217361/371472 [6:15:22<11:37:03,  3.68it/s] 59%|█████▊    | 217362/371472 [6:15:22<12:01:56,  3.56it/s] 59%|█████▊    | 217363/371472 [6:15:23<12:31:22,  3.42it/s] 59%|█████▊    | 217364/371472 [6:15:23<13:05:39,  3.27it/s] 59%|█████▊    | 217365/371472 [6:15:23<12:59:10,  3.30it/s] 59%|█████▊    | 217366/371472 [6:15:24<12:26:33,  3.44it/s] 59%|█████▊    | 217367/371472 [6:15:24<13:05:49,  3.27it/s] 59%|█████▊    | 217368/371472 [6:15:24<12:50:14,  3.33it/s] 59%|█████▊    | 217369/371472 [6:15:24<12:30:51,  3.42it/s] 59%|█████▊    | 217370/371472 [6:15:25<12:32:02,  3.42it/s] 59%|█████▊    | 217371/371472 [6:15:25<14:30:32,  2.95it/s] 59%|█████▊    | 217372/371472 [6:15:25<13:33:02,  3.16it/s] 59%|█████▊    | 217373/371472 [6:15:26<12:50:40,  3.33it/s] 59%|█████▊    | 217374/371472 [6:15:26<13:19:10,  3.21it/s] 59%|█████▊    | 217375/371472 [6:15:26<12:53:14,  3.32it/s] 59%|█████▊    | 217376/371472 [6:15:27<13:20:12,  3.21it/s] 59%|█████▊    | 217377/371472 [6:15:27<14:15:49,  3.00it/s] 59%|█████▊    | 217378/371472 [6:15:27<15:15:15,  2.81it/s] 59%|█████▊    | 217379/371472 [6:15:28<14:10:24,  3.02it/s] 59%|█████▊    | 217380/371472 [6:15:28<14:05:08,  3.04it/s]                                                            {'loss': 2.8453, 'learning_rate': 4.735342282746881e-07, 'epoch': 9.36}
 59%|█████▊    | 217380/371472 [6:15:28<14:05:08,  3.04it/s] 59%|█████▊    | 217381/371472 [6:15:28<12:58:49,  3.30it/s] 59%|█████▊    | 217382/371472 [6:15:29<12:13:08,  3.50it/s] 59%|█████▊    | 217383/371472 [6:15:29<12:33:04,  3.41it/s] 59%|█████▊    | 217384/371472 [6:15:29<12:22:47,  3.46it/s] 59%|█████▊    | 217385/371472 [6:15:29<12:14:49,  3.49it/s] 59%|█████▊    | 217386/371472 [6:15:30<13:27:10,  3.18it/s] 59%|█████▊    | 217387/371472 [6:15:30<12:49:52,  3.34it/s] 59%|█████▊    | 217388/371472 [6:15:30<12:48:53,  3.34it/s] 59%|█████▊    | 217389/371472 [6:15:31<13:06:21,  3.27it/s] 59%|█████▊    | 217390/371472 [6:15:31<12:51:04,  3.33it/s] 59%|█████▊    | 217391/371472 [6:15:31<12:21:22,  3.46it/s] 59%|█████▊    | 217392/371472 [6:15:32<12:46:40,  3.35it/s] 59%|█████▊    | 217393/371472 [6:15:32<12:28:09,  3.43it/s] 59%|█████▊    | 217394/371472 [6:15:32<12:14:46,  3.49it/s] 59%|█████▊    | 217395/371472 [6:15:32<11:57:50,  3.58it/s] 59%|█████▊    | 217396/371472 [6:15:33<11:56:00,  3.59it/s] 59%|█████▊    | 217397/371472 [6:15:33<11:52:13,  3.61it/s] 59%|█████▊    | 217398/371472 [6:15:33<12:20:22,  3.47it/s] 59%|█████▊    | 217399/371472 [6:15:34<12:16:10,  3.49it/s] 59%|█████▊    | 217400/371472 [6:15:34<12:14:52,  3.49it/s]                                                            {'loss': 2.8512, 'learning_rate': 4.7348574629920916e-07, 'epoch': 9.36}
 59%|█████▊    | 217400/371472 [6:15:34<12:14:52,  3.49it/s] 59%|█████▊    | 217401/371472 [6:15:34<12:03:48,  3.55it/s] 59%|█████▊    | 217402/371472 [6:15:34<12:03:16,  3.55it/s] 59%|█████▊    | 217403/371472 [6:15:35<12:42:45,  3.37it/s] 59%|█████▊    | 217404/371472 [6:15:35<13:02:34,  3.28it/s] 59%|█████▊    | 217405/371472 [6:15:35<12:22:12,  3.46it/s] 59%|█████▊    | 217406/371472 [6:15:36<11:50:37,  3.61it/s] 59%|█████▊    | 217407/371472 [6:15:36<11:48:49,  3.62it/s] 59%|█████▊    | 217408/371472 [6:15:36<11:54:22,  3.59it/s] 59%|█████▊    | 217409/371472 [6:15:36<12:13:35,  3.50it/s] 59%|█████▊    | 217410/371472 [6:15:37<12:25:05,  3.45it/s] 59%|█████▊    | 217411/371472 [6:15:37<12:15:09,  3.49it/s] 59%|█████▊    | 217412/371472 [6:15:37<12:22:46,  3.46it/s] 59%|█████▊    | 217413/371472 [6:15:38<12:04:22,  3.54it/s] 59%|█████▊    | 217414/371472 [6:15:38<12:01:38,  3.56it/s] 59%|█████▊    | 217415/371472 [6:15:38<13:10:41,  3.25it/s] 59%|█████▊    | 217416/371472 [6:15:38<12:48:27,  3.34it/s] 59%|█████▊    | 217417/371472 [6:15:39<12:19:23,  3.47it/s] 59%|█████▊    | 217418/371472 [6:15:39<13:02:44,  3.28it/s] 59%|█████▊    | 217419/371472 [6:15:39<12:22:47,  3.46it/s] 59%|█████▊    | 217420/371472 [6:15:40<12:35:37,  3.40it/s]                                                            {'loss': 2.765, 'learning_rate': 4.734372643237303e-07, 'epoch': 9.36}
 59%|█████▊    | 217420/371472 [6:15:40<12:35:37,  3.40it/s] 59%|█████▊    | 217421/371472 [6:15:40<12:04:56,  3.54it/s] 59%|█████▊    | 217422/371472 [6:15:40<12:04:49,  3.54it/s] 59%|█████▊    | 217423/371472 [6:15:40<12:59:31,  3.29it/s] 59%|█████▊    | 217424/371472 [6:15:41<12:40:06,  3.38it/s] 59%|█████▊    | 217425/371472 [6:15:41<12:35:47,  3.40it/s] 59%|█████▊    | 217426/371472 [6:15:41<12:24:07,  3.45it/s] 59%|█████▊    | 217427/371472 [6:15:42<12:25:20,  3.44it/s] 59%|█████▊    | 217428/371472 [6:15:42<12:15:21,  3.49it/s] 59%|█████▊    | 217429/371472 [6:15:42<12:19:57,  3.47it/s] 59%|█████▊    | 217430/371472 [6:15:42<12:05:30,  3.54it/s] 59%|█████▊    | 217431/371472 [6:15:43<11:47:00,  3.63it/s] 59%|█████▊    | 217432/371472 [6:15:43<11:49:13,  3.62it/s] 59%|█████▊    | 217433/371472 [6:15:43<11:51:35,  3.61it/s] 59%|█████▊    | 217434/371472 [6:15:44<12:18:18,  3.48it/s] 59%|█████▊    | 217435/371472 [6:15:44<12:02:02,  3.56it/s] 59%|█████▊    | 217436/371472 [6:15:44<11:30:28,  3.72it/s] 59%|█████▊    | 217437/371472 [6:15:44<11:28:46,  3.73it/s] 59%|█████▊    | 217438/371472 [6:15:45<12:06:17,  3.53it/s] 59%|█████▊    | 217439/371472 [6:15:45<11:45:10,  3.64it/s] 59%|█████▊    | 217440/371472 [6:15:45<11:57:54,  3.58it/s]                                                            {'loss': 2.9091, 'learning_rate': 4.7338878234825136e-07, 'epoch': 9.37}
 59%|█████▊    | 217440/371472 [6:15:45<11:57:54,  3.58it/s] 59%|█████▊    | 217441/371472 [6:15:46<12:35:08,  3.40it/s] 59%|█████▊    | 217442/371472 [6:15:46<12:08:50,  3.52it/s] 59%|█████▊    | 217443/371472 [6:15:46<12:16:08,  3.49it/s] 59%|█████▊    | 217444/371472 [6:15:46<11:44:42,  3.64it/s] 59%|█████▊    | 217445/371472 [6:15:47<12:21:05,  3.46it/s] 59%|█████▊    | 217446/371472 [6:15:47<12:01:50,  3.56it/s] 59%|█████▊    | 217447/371472 [6:15:47<11:53:44,  3.60it/s] 59%|█████▊    | 217448/371472 [6:15:47<11:33:30,  3.70it/s] 59%|█████▊    | 217449/371472 [6:15:48<11:47:20,  3.63it/s] 59%|█████▊    | 217450/371472 [6:15:48<11:57:43,  3.58it/s] 59%|█████▊    | 217451/371472 [6:15:48<12:43:54,  3.36it/s] 59%|█████▊    | 217452/371472 [6:15:49<12:42:01,  3.37it/s] 59%|█████▊    | 217453/371472 [6:15:49<12:38:36,  3.38it/s] 59%|█████▊    | 217454/371472 [6:15:49<12:36:26,  3.39it/s] 59%|█████▊    | 217455/371472 [6:15:50<13:11:26,  3.24it/s] 59%|█████▊    | 217456/371472 [6:15:50<12:38:25,  3.38it/s] 59%|█████▊    | 217457/371472 [6:15:50<12:21:05,  3.46it/s] 59%|█████▊    | 217458/371472 [6:15:50<12:20:57,  3.46it/s] 59%|█████▊    | 217459/371472 [6:15:51<12:21:15,  3.46it/s] 59%|█████▊    | 217460/371472 [6:15:51<11:52:23,  3.60it/s]                                                            {'loss': 2.8545, 'learning_rate': 4.7334030037277253e-07, 'epoch': 9.37}
 59%|█████▊    | 217460/371472 [6:15:51<11:52:23,  3.60it/s] 59%|█████▊    | 217461/371472 [6:15:51<11:46:56,  3.63it/s] 59%|█████▊    | 217462/371472 [6:15:51<11:29:29,  3.72it/s] 59%|█████▊    | 217463/371472 [6:15:52<11:33:53,  3.70it/s] 59%|█████▊    | 217464/371472 [6:15:52<12:00:16,  3.56it/s] 59%|█████▊    | 217465/371472 [6:15:52<11:57:19,  3.58it/s] 59%|█████▊    | 217466/371472 [6:15:53<11:47:54,  3.63it/s] 59%|█████▊    | 217467/371472 [6:15:53<11:25:09,  3.75it/s] 59%|█████▊    | 217468/371472 [6:15:53<11:20:21,  3.77it/s] 59%|█████▊    | 217469/371472 [6:15:53<11:35:10,  3.69it/s] 59%|█████▊    | 217470/371472 [6:15:54<11:50:19,  3.61it/s] 59%|█████▊    | 217471/371472 [6:15:54<11:53:02,  3.60it/s] 59%|█████▊    | 217472/371472 [6:15:54<11:36:16,  3.69it/s] 59%|█████▊    | 217473/371472 [6:15:55<12:01:44,  3.56it/s] 59%|█████▊    | 217474/371472 [6:15:55<12:15:07,  3.49it/s] 59%|█████▊    | 217475/371472 [6:15:55<11:55:51,  3.59it/s] 59%|█████▊    | 217476/371472 [6:15:55<12:29:43,  3.42it/s] 59%|█████▊    | 217477/371472 [6:15:56<12:46:31,  3.35it/s] 59%|█████▊    | 217478/371472 [6:15:56<12:50:25,  3.33it/s] 59%|█████▊    | 217479/371472 [6:15:56<12:45:54,  3.35it/s] 59%|█████▊    | 217480/371472 [6:15:57<13:20:16,  3.21it/s]                                                            {'loss': 2.9122, 'learning_rate': 4.7329181839729355e-07, 'epoch': 9.37}
 59%|█████▊    | 217480/371472 [6:15:57<13:20:16,  3.21it/s] 59%|█████▊    | 217481/371472 [6:15:57<12:57:56,  3.30it/s] 59%|█████▊    | 217482/371472 [6:15:57<13:11:32,  3.24it/s] 59%|█████▊    | 217483/371472 [6:15:58<13:07:30,  3.26it/s] 59%|█████▊    | 217484/371472 [6:15:58<12:58:01,  3.30it/s] 59%|█████▊    | 217485/371472 [6:15:58<13:58:19,  3.06it/s] 59%|█████▊    | 217486/371472 [6:15:59<13:05:30,  3.27it/s] 59%|█████▊    | 217487/371472 [6:15:59<13:34:59,  3.15it/s] 59%|█████▊    | 217488/371472 [6:15:59<13:02:28,  3.28it/s] 59%|█████▊    | 217489/371472 [6:15:59<12:18:24,  3.48it/s] 59%|█████▊    | 217490/371472 [6:16:00<11:43:58,  3.65it/s] 59%|█████▊    | 217491/371472 [6:16:00<12:01:58,  3.55it/s] 59%|█████▊    | 217492/371472 [6:16:00<11:49:44,  3.62it/s] 59%|█████▊    | 217493/371472 [6:16:00<11:48:31,  3.62it/s] 59%|█████▊    | 217494/371472 [6:16:01<11:25:54,  3.74it/s] 59%|█████▊    | 217495/371472 [6:16:01<11:14:09,  3.81it/s] 59%|█████▊    | 217496/371472 [6:16:01<11:20:05,  3.77it/s] 59%|█████▊    | 217497/371472 [6:16:01<11:10:25,  3.83it/s] 59%|█████▊    | 217498/371472 [6:16:02<11:49:29,  3.62it/s] 59%|█████▊    | 217499/371472 [6:16:02<11:32:24,  3.71it/s] 59%|█████▊    | 217500/371472 [6:16:02<11:24:56,  3.75it/s]                                                            {'loss': 2.9494, 'learning_rate': 4.7324333642181473e-07, 'epoch': 9.37}
 59%|█████▊    | 217500/371472 [6:16:02<11:24:56,  3.75it/s] 59%|█████▊    | 217501/371472 [6:16:03<11:21:10,  3.77it/s] 59%|█████▊    | 217502/371472 [6:16:03<11:51:14,  3.61it/s] 59%|█████▊    | 217503/371472 [6:16:03<11:56:50,  3.58it/s] 59%|█████▊    | 217504/371472 [6:16:03<11:50:43,  3.61it/s] 59%|█████▊    | 217505/371472 [6:16:04<12:13:13,  3.50it/s] 59%|█████▊    | 217506/371472 [6:16:04<11:51:53,  3.60it/s] 59%|█████▊    | 217507/371472 [6:16:04<12:45:22,  3.35it/s] 59%|█████▊    | 217508/371472 [6:16:05<12:19:14,  3.47it/s] 59%|█████▊    | 217509/371472 [6:16:05<11:58:51,  3.57it/s] 59%|█████▊    | 217510/371472 [6:16:05<11:34:30,  3.69it/s] 59%|█████▊    | 217511/371472 [6:16:05<11:06:48,  3.85it/s] 59%|█████▊    | 217512/371472 [6:16:06<11:06:02,  3.85it/s] 59%|█████▊    | 217513/371472 [6:16:06<11:38:27,  3.67it/s] 59%|█████▊    | 217514/371472 [6:16:06<13:23:06,  3.20it/s] 59%|█████▊    | 217515/371472 [6:16:07<13:05:24,  3.27it/s] 59%|█████▊    | 217516/371472 [6:16:07<12:59:37,  3.29it/s] 59%|█████▊    | 217517/371472 [6:16:07<12:35:53,  3.39it/s] 59%|█████▊    | 217518/371472 [6:16:07<12:37:00,  3.39it/s] 59%|█████▊    | 217519/371472 [6:16:08<12:01:16,  3.56it/s] 59%|█████▊    | 217520/371472 [6:16:08<11:41:09,  3.66it/s]                                                            {'loss': 2.9225, 'learning_rate': 4.731948544463358e-07, 'epoch': 9.37}
 59%|█████▊    | 217520/371472 [6:16:08<11:41:09,  3.66it/s] 59%|█████▊    | 217521/371472 [6:16:08<11:19:14,  3.78it/s] 59%|█████▊    | 217522/371472 [6:16:08<11:23:01,  3.76it/s] 59%|█████▊    | 217523/371472 [6:16:09<11:09:51,  3.83it/s] 59%|█████▊    | 217524/371472 [6:16:09<10:55:16,  3.92it/s] 59%|█████▊    | 217525/371472 [6:16:09<10:56:57,  3.91it/s] 59%|█████▊    | 217526/371472 [6:16:10<13:29:14,  3.17it/s] 59%|█████▊    | 217527/371472 [6:16:10<13:07:11,  3.26it/s] 59%|█████▊    | 217528/371472 [6:16:10<12:58:22,  3.30it/s] 59%|█████▊    | 217529/371472 [6:16:11<12:18:04,  3.48it/s] 59%|█████▊    | 217530/371472 [6:16:11<12:05:55,  3.53it/s] 59%|█████▊    | 217531/371472 [6:16:11<11:43:21,  3.65it/s] 59%|█████▊    | 217532/371472 [6:16:11<11:40:53,  3.66it/s] 59%|█████▊    | 217533/371472 [6:16:12<11:31:51,  3.71it/s] 59%|█████▊    | 217534/371472 [6:16:12<11:42:54,  3.65it/s] 59%|█████▊    | 217535/371472 [6:16:12<11:36:03,  3.69it/s] 59%|█████▊    | 217536/371472 [6:16:12<11:23:38,  3.75it/s] 59%|█████▊    | 217537/371472 [6:16:13<11:35:39,  3.69it/s] 59%|█████▊    | 217538/371472 [6:16:13<11:45:53,  3.63it/s] 59%|█████▊    | 217539/371472 [6:16:13<11:29:25,  3.72it/s] 59%|█████▊    | 217540/371472 [6:16:14<12:01:41,  3.55it/s]                                                            {'loss': 3.0476, 'learning_rate': 4.7314637247085693e-07, 'epoch': 9.37}
 59%|█████▊    | 217540/371472 [6:16:14<12:01:41,  3.55it/s] 59%|█████▊    | 217541/371472 [6:16:14<12:26:26,  3.44it/s] 59%|█████▊    | 217542/371472 [6:16:14<12:21:22,  3.46it/s] 59%|█████▊    | 217543/371472 [6:16:14<11:57:41,  3.57it/s] 59%|█████▊    | 217544/371472 [6:16:15<11:41:10,  3.66it/s] 59%|█████▊    | 217545/371472 [6:16:15<11:19:14,  3.78it/s] 59%|█████▊    | 217546/371472 [6:16:15<11:07:04,  3.85it/s] 59%|█████▊    | 217547/371472 [6:16:15<11:09:57,  3.83it/s] 59%|█████▊    | 217548/371472 [6:16:16<11:32:13,  3.71it/s] 59%|█████▊    | 217549/371472 [6:16:16<11:35:46,  3.69it/s] 59%|█████▊    | 217550/371472 [6:16:16<12:08:51,  3.52it/s] 59%|█████▊    | 217551/371472 [6:16:17<11:57:42,  3.57it/s] 59%|█████▊    | 217552/371472 [6:16:17<13:16:31,  3.22it/s] 59%|█████▊    | 217553/371472 [6:16:17<12:56:03,  3.31it/s] 59%|█████▊    | 217554/371472 [6:16:17<12:17:20,  3.48it/s] 59%|█████▊    | 217555/371472 [6:16:18<11:43:02,  3.65it/s] 59%|█████▊    | 217556/371472 [6:16:18<11:40:04,  3.66it/s] 59%|█████▊    | 217557/371472 [6:16:18<11:33:04,  3.70it/s] 59%|█████▊    | 217558/371472 [6:16:19<11:24:19,  3.75it/s] 59%|█████▊    | 217559/371472 [6:16:19<11:39:33,  3.67it/s] 59%|█████▊    | 217560/371472 [6:16:19<11:54:14,  3.59it/s]                                                            {'loss': 2.9137, 'learning_rate': 4.73097890495378e-07, 'epoch': 9.37}
 59%|█████▊    | 217560/371472 [6:16:19<11:54:14,  3.59it/s] 59%|█████▊    | 217561/371472 [6:16:19<11:31:01,  3.71it/s] 59%|█████▊    | 217562/371472 [6:16:20<12:10:53,  3.51it/s] 59%|█████▊    | 217563/371472 [6:16:20<13:11:24,  3.24it/s] 59%|█████▊    | 217564/371472 [6:16:20<12:34:38,  3.40it/s] 59%|█████▊    | 217565/371472 [6:16:21<12:05:03,  3.54it/s] 59%|█████▊    | 217566/371472 [6:16:21<11:56:30,  3.58it/s] 59%|█████▊    | 217567/371472 [6:16:21<11:59:27,  3.57it/s] 59%|█████▊    | 217568/371472 [6:16:21<12:01:24,  3.56it/s] 59%|█████▊    | 217569/371472 [6:16:22<11:53:22,  3.60it/s] 59%|█████▊    | 217570/371472 [6:16:22<11:55:22,  3.59it/s] 59%|█████▊    | 217571/371472 [6:16:22<12:14:24,  3.49it/s] 59%|█████▊    | 217572/371472 [6:16:22<11:57:15,  3.58it/s] 59%|█████▊    | 217573/371472 [6:16:23<11:42:23,  3.65it/s] 59%|█████▊    | 217574/371472 [6:16:23<11:27:22,  3.73it/s] 59%|█████▊    | 217575/371472 [6:16:23<12:00:06,  3.56it/s] 59%|█████▊    | 217576/371472 [6:16:24<11:48:42,  3.62it/s] 59%|█████▊    | 217577/371472 [6:16:24<12:00:18,  3.56it/s] 59%|█████▊    | 217578/371472 [6:16:24<12:43:46,  3.36it/s] 59%|█████▊    | 217579/371472 [6:16:24<12:24:49,  3.44it/s] 59%|█████▊    | 217580/371472 [6:16:25<12:02:55,  3.55it/s]                                                            {'loss': 2.8635, 'learning_rate': 4.730494085198992e-07, 'epoch': 9.37}
 59%|█████▊    | 217580/371472 [6:16:25<12:02:55,  3.55it/s] 59%|█████▊    | 217581/371472 [6:16:25<11:49:49,  3.61it/s] 59%|█████▊    | 217582/371472 [6:16:25<12:26:14,  3.44it/s] 59%|█████▊    | 217583/371472 [6:16:26<12:43:32,  3.36it/s] 59%|█████▊    | 217584/371472 [6:16:26<12:10:37,  3.51it/s] 59%|█████▊    | 217585/371472 [6:16:26<13:09:55,  3.25it/s] 59%|█████▊    | 217586/371472 [6:16:27<13:22:26,  3.20it/s] 59%|█████▊    | 217587/371472 [6:16:27<12:55:48,  3.31it/s] 59%|█████▊    | 217588/371472 [6:16:27<12:36:31,  3.39it/s] 59%|█████▊    | 217589/371472 [6:16:27<12:49:55,  3.33it/s] 59%|█████▊    | 217590/371472 [6:16:28<12:37:30,  3.39it/s] 59%|█████▊    | 217591/371472 [6:16:28<12:37:09,  3.39it/s] 59%|█████▊    | 217592/371472 [6:16:28<12:51:30,  3.32it/s] 59%|█████▊    | 217593/371472 [6:16:29<12:23:35,  3.45it/s] 59%|█████▊    | 217594/371472 [6:16:29<12:11:13,  3.51it/s] 59%|█████▊    | 217595/371472 [6:16:29<12:17:44,  3.48it/s] 59%|█████▊    | 217596/371472 [6:16:30<12:45:50,  3.35it/s] 59%|█████▊    | 217597/371472 [6:16:30<12:40:27,  3.37it/s] 59%|█████▊    | 217598/371472 [6:16:30<12:42:14,  3.36it/s] 59%|█████▊    | 217599/371472 [6:16:31<14:21:42,  2.98it/s] 59%|█████▊    | 217600/371472 [6:16:31<13:20:47,  3.20it/s]                                                            {'loss': 3.0051, 'learning_rate': 4.730009265444202e-07, 'epoch': 9.37}
 59%|█████▊    | 217600/371472 [6:16:31<13:20:47,  3.20it/s] 59%|█████▊    | 217601/371472 [6:16:31<13:16:56,  3.22it/s] 59%|█████▊    | 217602/371472 [6:16:31<12:36:06,  3.39it/s] 59%|█████▊    | 217603/371472 [6:16:32<13:10:57,  3.24it/s] 59%|█████▊    | 217604/371472 [6:16:32<13:24:22,  3.19it/s] 59%|█████▊    | 217605/371472 [6:16:32<13:30:58,  3.16it/s] 59%|█████▊    | 217606/371472 [6:16:33<13:13:35,  3.23it/s] 59%|█████▊    | 217607/371472 [6:16:33<12:34:35,  3.40it/s] 59%|█████▊    | 217608/371472 [6:16:33<12:38:42,  3.38it/s] 59%|█████▊    | 217609/371472 [6:16:33<12:25:56,  3.44it/s] 59%|█████▊    | 217610/371472 [6:16:34<11:45:21,  3.64it/s] 59%|█████▊    | 217611/371472 [6:16:34<11:39:18,  3.67it/s] 59%|█████▊    | 217612/371472 [6:16:34<11:52:44,  3.60it/s] 59%|█████▊    | 217613/371472 [6:16:35<11:38:39,  3.67it/s] 59%|█████▊    | 217614/371472 [6:16:35<11:53:18,  3.59it/s] 59%|█████▊    | 217615/371472 [6:16:35<12:23:31,  3.45it/s] 59%|█████▊    | 217616/371472 [6:16:35<13:03:30,  3.27it/s] 59%|█████▊    | 217617/371472 [6:16:36<13:59:44,  3.05it/s] 59%|█████▊    | 217618/371472 [6:16:36<13:20:28,  3.20it/s] 59%|█████▊    | 217619/371472 [6:16:36<13:12:28,  3.24it/s] 59%|█████▊    | 217620/371472 [6:16:37<12:48:40,  3.34it/s]                                                            {'loss': 2.9445, 'learning_rate': 4.729524445689413e-07, 'epoch': 9.37}
 59%|█████▊    | 217620/371472 [6:16:37<12:48:40,  3.34it/s] 59%|█████▊    | 217621/371472 [6:16:37<12:23:15,  3.45it/s] 59%|█████▊    | 217622/371472 [6:16:37<11:58:41,  3.57it/s] 59%|█████▊    | 217623/371472 [6:16:37<11:44:27,  3.64it/s] 59%|█████▊    | 217624/371472 [6:16:38<11:31:27,  3.71it/s] 59%|█████▊    | 217625/371472 [6:16:38<11:37:39,  3.68it/s] 59%|█████▊    | 217626/371472 [6:16:38<11:37:20,  3.68it/s] 59%|█████▊    | 217627/371472 [6:16:39<11:38:57,  3.67it/s] 59%|█████▊    | 217628/371472 [6:16:39<11:46:22,  3.63it/s] 59%|█████▊    | 217629/371472 [6:16:39<11:40:19,  3.66it/s] 59%|█████▊    | 217630/371472 [6:16:39<11:33:00,  3.70it/s] 59%|█████▊    | 217631/371472 [6:16:40<11:44:12,  3.64it/s] 59%|█████▊    | 217632/371472 [6:16:40<11:44:15,  3.64it/s] 59%|█████▊    | 217633/371472 [6:16:40<13:05:59,  3.26it/s] 59%|█████▊    | 217634/371472 [6:16:41<13:07:58,  3.25it/s] 59%|█████▊    | 217635/371472 [6:16:41<12:29:02,  3.42it/s] 59%|█████▊    | 217636/371472 [6:16:41<12:06:30,  3.53it/s] 59%|█████▊    | 217637/371472 [6:16:41<12:02:46,  3.55it/s] 59%|█████▊    | 217638/371472 [6:16:42<11:40:50,  3.66it/s] 59%|█████▊    | 217639/371472 [6:16:42<12:16:38,  3.48it/s] 59%|█████▊    | 217640/371472 [6:16:42<11:57:46,  3.57it/s]                                                            {'loss': 2.8927, 'learning_rate': 4.7290396259346244e-07, 'epoch': 9.37}
 59%|█████▊    | 217640/371472 [6:16:42<11:57:46,  3.57it/s] 59%|█████▊    | 217641/371472 [6:16:43<11:33:20,  3.70it/s] 59%|█████▊    | 217642/371472 [6:16:43<11:29:55,  3.72it/s] 59%|█████▊    | 217643/371472 [6:16:43<11:40:09,  3.66it/s] 59%|█████▊    | 217644/371472 [6:16:43<11:29:25,  3.72it/s] 59%|█████▊    | 217645/371472 [6:16:44<11:11:34,  3.82it/s] 59%|█████▊    | 217646/371472 [6:16:44<11:25:01,  3.74it/s] 59%|█████▊    | 217647/371472 [6:16:44<12:05:59,  3.53it/s] 59%|█████▊    | 217648/371472 [6:16:44<12:41:32,  3.37it/s] 59%|█████▊    | 217649/371472 [6:16:45<12:51:49,  3.32it/s] 59%|█████▊    | 217650/371472 [6:16:45<12:41:39,  3.37it/s] 59%|█████▊    | 217651/371472 [6:16:45<12:37:36,  3.38it/s] 59%|█████▊    | 217652/371472 [6:16:46<12:04:25,  3.54it/s] 59%|█████▊    | 217653/371472 [6:16:46<11:57:30,  3.57it/s] 59%|█████▊    | 217654/371472 [6:16:46<11:50:47,  3.61it/s] 59%|█████▊    | 217655/371472 [6:16:46<11:39:40,  3.66it/s] 59%|█████▊    | 217656/371472 [6:16:47<11:58:30,  3.57it/s] 59%|█████▊    | 217657/371472 [6:16:47<11:55:57,  3.58it/s] 59%|█████▊    | 217658/371472 [6:16:47<12:20:18,  3.46it/s] 59%|█████▊    | 217659/371472 [6:16:48<11:48:53,  3.62it/s] 59%|█████▊    | 217660/371472 [6:16:48<11:46:41,  3.63it/s]                                                            {'loss': 3.0453, 'learning_rate': 4.7285548061798357e-07, 'epoch': 9.38}
 59%|█████▊    | 217660/371472 [6:16:48<11:46:41,  3.63it/s] 59%|█████▊    | 217661/371472 [6:16:48<11:24:27,  3.75it/s] 59%|█████▊    | 217662/371472 [6:16:48<12:00:05,  3.56it/s] 59%|█████▊    | 217663/371472 [6:16:49<12:06:33,  3.53it/s] 59%|█████▊    | 217664/371472 [6:16:49<11:53:37,  3.59it/s] 59%|█████▊    | 217665/371472 [6:16:49<12:43:27,  3.36it/s] 59%|█████▊    | 217666/371472 [6:16:50<13:15:23,  3.22it/s] 59%|█████▊    | 217667/371472 [6:16:50<15:05:06,  2.83it/s] 59%|█████▊    | 217668/371472 [6:16:50<14:27:08,  2.96it/s] 59%|█████▊    | 217669/371472 [6:16:51<13:27:15,  3.18it/s] 59%|█████▊    | 217670/371472 [6:16:51<13:10:17,  3.24it/s] 59%|█████▊    | 217671/371472 [6:16:51<13:12:56,  3.23it/s] 59%|█████▊    | 217672/371472 [6:16:52<12:42:34,  3.36it/s] 59%|█████▊    | 217673/371472 [6:16:52<13:02:27,  3.28it/s] 59%|█████▊    | 217674/371472 [6:16:52<12:22:05,  3.45it/s] 59%|█████▊    | 217675/371472 [6:16:52<11:49:22,  3.61it/s] 59%|█████▊    | 217676/371472 [6:16:53<11:49:36,  3.61it/s] 59%|█████▊    | 217677/371472 [6:16:53<11:40:45,  3.66it/s] 59%|█████▊    | 217678/371472 [6:16:53<11:24:57,  3.74it/s] 59%|█████▊    | 217679/371472 [6:16:53<11:24:08,  3.75it/s] 59%|█████▊    | 217680/371472 [6:16:54<12:05:13,  3.53it/s]                                                            {'loss': 2.8554, 'learning_rate': 4.7280699864250464e-07, 'epoch': 9.38}
 59%|█████▊    | 217680/371472 [6:16:54<12:05:13,  3.53it/s] 59%|█████▊    | 217681/371472 [6:16:54<12:22:53,  3.45it/s] 59%|█████▊    | 217682/371472 [6:16:54<12:03:26,  3.54it/s] 59%|█████▊    | 217683/371472 [6:16:55<11:44:21,  3.64it/s] 59%|█████▊    | 217684/371472 [6:16:55<12:00:33,  3.56it/s] 59%|█████▊    | 217685/371472 [6:16:55<12:28:15,  3.43it/s] 59%|█████▊    | 217686/371472 [6:16:55<12:33:30,  3.40it/s] 59%|█████▊    | 217687/371472 [6:16:56<11:57:03,  3.57it/s] 59%|█████▊    | 217688/371472 [6:16:56<11:43:44,  3.64it/s] 59%|█████▊    | 217689/371472 [6:16:56<11:51:04,  3.60it/s] 59%|█████▊    | 217690/371472 [6:16:57<11:37:16,  3.68it/s] 59%|█████▊    | 217691/371472 [6:16:57<12:03:37,  3.54it/s] 59%|█████▊    | 217692/371472 [6:16:57<11:59:04,  3.56it/s] 59%|█████▊    | 217693/371472 [6:16:57<12:04:27,  3.54it/s] 59%|█████▊    | 217694/371472 [6:16:58<12:13:16,  3.50it/s] 59%|█████▊    | 217695/371472 [6:16:58<11:56:38,  3.58it/s] 59%|█████▊    | 217696/371472 [6:16:58<11:41:35,  3.65it/s] 59%|█████▊    | 217697/371472 [6:16:59<11:44:36,  3.64it/s] 59%|█████▊    | 217698/371472 [6:16:59<11:46:36,  3.63it/s] 59%|█████▊    | 217699/371472 [6:16:59<12:34:25,  3.40it/s] 59%|█████▊    | 217700/371472 [6:16:59<12:09:09,  3.51it/s]                                                            {'loss': 2.9416, 'learning_rate': 4.727585166670258e-07, 'epoch': 9.38}
 59%|█████▊    | 217700/371472 [6:16:59<12:09:09,  3.51it/s] 59%|█████▊    | 217701/371472 [6:17:00<12:31:57,  3.41it/s] 59%|█████▊    | 217702/371472 [6:17:00<12:49:46,  3.33it/s] 59%|█████▊    | 217703/371472 [6:17:00<12:52:47,  3.32it/s] 59%|█████▊    | 217704/371472 [6:17:01<13:26:17,  3.18it/s] 59%|█████▊    | 217705/371472 [6:17:01<13:01:19,  3.28it/s] 59%|█████▊    | 217706/371472 [6:17:01<12:49:48,  3.33it/s] 59%|█████▊    | 217707/371472 [6:17:02<12:41:08,  3.37it/s] 59%|█████▊    | 217708/371472 [6:17:02<12:01:33,  3.55it/s] 59%|█████▊    | 217709/371472 [6:17:02<12:12:41,  3.50it/s] 59%|█████▊    | 217710/371472 [6:17:02<12:02:59,  3.54it/s] 59%|█████▊    | 217711/371472 [6:17:03<12:46:56,  3.34it/s] 59%|█████▊    | 217712/371472 [6:17:03<12:29:50,  3.42it/s] 59%|█████▊    | 217713/371472 [6:17:03<12:09:54,  3.51it/s] 59%|█████▊    | 217714/371472 [6:17:04<12:27:58,  3.43it/s] 59%|█████▊    | 217715/371472 [6:17:04<13:35:50,  3.14it/s] 59%|█████▊    | 217716/371472 [6:17:04<13:50:29,  3.09it/s] 59%|█████▊    | 217717/371472 [6:17:05<13:50:40,  3.08it/s] 59%|█████▊    | 217718/371472 [6:17:05<13:15:55,  3.22it/s] 59%|█████▊    | 217719/371472 [6:17:05<12:40:17,  3.37it/s] 59%|█████▊    | 217720/371472 [6:17:05<12:40:06,  3.37it/s]                                                            {'loss': 2.7634, 'learning_rate': 4.727100346915469e-07, 'epoch': 9.38}
 59%|█████▊    | 217720/371472 [6:17:05<12:40:06,  3.37it/s] 59%|█████▊    | 217721/371472 [6:17:06<12:40:32,  3.37it/s] 59%|█████▊    | 217722/371472 [6:17:06<12:01:24,  3.55it/s] 59%|█████▊    | 217723/371472 [6:17:06<12:48:11,  3.34it/s] 59%|█████▊    | 217724/371472 [6:17:07<13:02:37,  3.27it/s] 59%|█████▊    | 217725/371472 [6:17:07<13:07:36,  3.25it/s] 59%|█████▊    | 217726/371472 [6:17:07<13:05:04,  3.26it/s] 59%|█████▊    | 217727/371472 [6:17:08<12:39:41,  3.37it/s] 59%|█████▊    | 217728/371472 [6:17:08<12:43:51,  3.35it/s] 59%|█████▊    | 217729/371472 [6:17:08<12:36:21,  3.39it/s] 59%|█████▊    | 217730/371472 [6:17:08<12:03:58,  3.54it/s] 59%|█████▊    | 217731/371472 [6:17:09<12:16:48,  3.48it/s] 59%|█████▊    | 217732/371472 [6:17:09<12:09:45,  3.51it/s] 59%|█████▊    | 217733/371472 [6:17:09<12:59:49,  3.29it/s] 59%|█████▊    | 217734/371472 [6:17:10<12:47:52,  3.34it/s] 59%|█████▊    | 217735/371472 [6:17:10<12:31:37,  3.41it/s] 59%|█████▊    | 217736/371472 [6:17:10<12:20:47,  3.46it/s] 59%|█████▊    | 217737/371472 [6:17:10<12:11:48,  3.50it/s] 59%|█████▊    | 217738/371472 [6:17:11<11:47:44,  3.62it/s] 59%|█████▊    | 217739/371472 [6:17:11<11:38:49,  3.67it/s] 59%|█████▊    | 217740/371472 [6:17:11<11:26:38,  3.73it/s]                                                            {'loss': 2.882, 'learning_rate': 4.72661552716068e-07, 'epoch': 9.38}
 59%|█████▊    | 217740/371472 [6:17:11<11:26:38,  3.73it/s] 59%|█████▊    | 217741/371472 [6:17:11<12:06:44,  3.53it/s] 59%|█████▊    | 217742/371472 [6:17:12<11:44:01,  3.64it/s] 59%|█████▊    | 217743/371472 [6:17:12<11:37:57,  3.67it/s] 59%|█████▊    | 217744/371472 [6:17:12<11:28:37,  3.72it/s] 59%|█████▊    | 217745/371472 [6:17:13<11:29:52,  3.71it/s] 59%|█████▊    | 217746/371472 [6:17:13<11:37:17,  3.67it/s] 59%|█████▊    | 217747/371472 [6:17:13<11:27:31,  3.73it/s] 59%|█████▊    | 217748/371472 [6:17:13<11:24:13,  3.74it/s] 59%|█████▊    | 217749/371472 [6:17:14<11:20:38,  3.76it/s] 59%|█████▊    | 217750/371472 [6:17:14<11:42:10,  3.65it/s] 59%|█████▊    | 217751/371472 [6:17:14<12:07:46,  3.52it/s] 59%|█████▊    | 217752/371472 [6:17:15<12:27:18,  3.43it/s] 59%|█████▊    | 217753/371472 [6:17:15<12:14:08,  3.49it/s] 59%|█████▊    | 217754/371472 [6:17:15<13:10:56,  3.24it/s] 59%|█████▊    | 217755/371472 [6:17:15<13:20:10,  3.20it/s] 59%|█████▊    | 217756/371472 [6:17:16<12:29:58,  3.42it/s] 59%|█████▊    | 217757/371472 [6:17:16<12:39:42,  3.37it/s] 59%|█████▊    | 217758/371472 [6:17:16<12:13:12,  3.49it/s] 59%|█████▊    | 217759/371472 [6:17:17<12:22:55,  3.45it/s] 59%|█████▊    | 217760/371472 [6:17:17<11:57:55,  3.57it/s]                                                            {'loss': 2.8934, 'learning_rate': 4.726130707405891e-07, 'epoch': 9.38}
 59%|█████▊    | 217760/371472 [6:17:17<11:57:55,  3.57it/s] 59%|█████▊    | 217761/371472 [6:17:17<11:27:07,  3.73it/s] 59%|█████▊    | 217762/371472 [6:17:17<11:14:21,  3.80it/s] 59%|█████▊    | 217763/371472 [6:17:18<11:01:01,  3.88it/s] 59%|█████▊    | 217764/371472 [6:17:18<11:30:52,  3.71it/s] 59%|█████▊    | 217765/371472 [6:17:18<11:21:26,  3.76it/s] 59%|█████▊    | 217766/371472 [6:17:19<12:46:56,  3.34it/s] 59%|█████▊    | 217767/371472 [6:17:19<12:36:46,  3.39it/s] 59%|█████▊    | 217768/371472 [6:17:19<12:10:00,  3.51it/s] 59%|█████▊    | 217769/371472 [6:17:19<11:52:03,  3.60it/s] 59%|█████▊    | 217770/371472 [6:17:20<11:51:54,  3.60it/s] 59%|█████▊    | 217771/371472 [6:17:20<12:15:37,  3.48it/s] 59%|█████▊    | 217772/371472 [6:17:20<12:20:46,  3.46it/s] 59%|█████▊    | 217773/371472 [6:17:20<12:01:20,  3.55it/s] 59%|█████▊    | 217774/371472 [6:17:21<12:11:35,  3.50it/s] 59%|█████▊    | 217775/371472 [6:17:21<11:51:17,  3.60it/s] 59%|█████▊    | 217776/371472 [6:17:21<11:45:28,  3.63it/s] 59%|█████▊    | 217777/371472 [6:17:22<11:55:01,  3.58it/s] 59%|█████▊    | 217778/371472 [6:17:22<11:46:52,  3.62it/s] 59%|█████▊    | 217779/371472 [6:17:22<13:13:26,  3.23it/s] 59%|█████▊    | 217780/371472 [6:17:23<13:38:14,  3.13it/s]                                                            {'loss': 2.7828, 'learning_rate': 4.7256458876511026e-07, 'epoch': 9.38}
 59%|█████▊    | 217780/371472 [6:17:23<13:38:14,  3.13it/s] 59%|█████▊    | 217781/371472 [6:17:23<12:48:26,  3.33it/s] 59%|█████▊    | 217782/371472 [6:17:23<12:25:34,  3.44it/s] 59%|█████▊    | 217783/371472 [6:17:23<12:24:29,  3.44it/s] 59%|█████▊    | 217784/371472 [6:17:24<12:12:25,  3.50it/s] 59%|█████▊    | 217785/371472 [6:17:24<12:49:54,  3.33it/s] 59%|█████▊    | 217786/371472 [6:17:24<12:43:32,  3.35it/s] 59%|█████▊    | 217787/371472 [6:17:25<12:14:57,  3.49it/s] 59%|█████▊    | 217788/371472 [6:17:25<11:43:51,  3.64it/s] 59%|█████▊    | 217789/371472 [6:17:25<11:30:29,  3.71it/s] 59%|█████▊    | 217790/371472 [6:17:25<11:32:49,  3.70it/s] 59%|█████▊    | 217791/371472 [6:17:26<11:33:45,  3.69it/s] 59%|█████▊    | 217792/371472 [6:17:26<11:31:29,  3.70it/s] 59%|█████▊    | 217793/371472 [6:17:26<11:24:07,  3.74it/s] 59%|█████▊    | 217794/371472 [6:17:26<11:06:13,  3.84it/s] 59%|█████▊    | 217795/371472 [6:17:27<11:09:36,  3.83it/s] 59%|█████▊    | 217796/371472 [6:17:27<11:47:52,  3.62it/s] 59%|█████▊    | 217797/371472 [6:17:27<11:50:56,  3.60it/s] 59%|█████▊    | 217798/371472 [6:17:28<11:42:42,  3.64it/s] 59%|█████▊    | 217799/371472 [6:17:28<12:07:32,  3.52it/s] 59%|█████▊    | 217800/371472 [6:17:28<11:58:19,  3.57it/s]                                                            {'loss': 2.9392, 'learning_rate': 4.725161067896313e-07, 'epoch': 9.38}
 59%|█████▊    | 217800/371472 [6:17:28<11:58:19,  3.57it/s] 59%|█████▊    | 217801/371472 [6:17:28<11:33:35,  3.69it/s] 59%|█████▊    | 217802/371472 [6:17:29<11:25:39,  3.74it/s] 59%|█████▊    | 217803/371472 [6:17:29<11:22:48,  3.75it/s] 59%|█████▊    | 217804/371472 [6:17:29<11:32:27,  3.70it/s] 59%|█████▊    | 217805/371472 [6:17:29<11:52:14,  3.60it/s] 59%|█████▊    | 217806/371472 [6:17:30<11:34:14,  3.69it/s] 59%|█████▊    | 217807/371472 [6:17:30<11:38:37,  3.67it/s] 59%|█████▊    | 217808/371472 [6:17:30<12:06:17,  3.53it/s] 59%|█████▊    | 217809/371472 [6:17:31<12:27:21,  3.43it/s] 59%|█████▊    | 217810/371472 [6:17:31<12:08:44,  3.51it/s] 59%|█████▊    | 217811/371472 [6:17:31<12:54:38,  3.31it/s] 59%|█████▊    | 217812/371472 [6:17:31<12:07:55,  3.52it/s] 59%|█████▊    | 217813/371472 [6:17:32<12:43:48,  3.35it/s] 59%|█████▊    | 217814/371472 [6:17:32<13:29:02,  3.17it/s] 59%|█████▊    | 217815/371472 [6:17:32<13:09:55,  3.24it/s] 59%|█████▊    | 217816/371472 [6:17:33<12:23:54,  3.44it/s] 59%|█████▊    | 217817/371472 [6:17:33<11:55:26,  3.58it/s] 59%|█████▊    | 217818/371472 [6:17:33<12:38:42,  3.38it/s] 59%|█████▊    | 217819/371472 [6:17:34<12:04:46,  3.53it/s] 59%|█████▊    | 217820/371472 [6:17:34<12:20:28,  3.46it/s]                                                            {'loss': 2.8746, 'learning_rate': 4.7246762481415246e-07, 'epoch': 9.38}
 59%|█████▊    | 217820/371472 [6:17:34<12:20:28,  3.46it/s] 59%|█████▊    | 217821/371472 [6:17:34<11:57:02,  3.57it/s] 59%|█████▊    | 217822/371472 [6:17:34<11:38:18,  3.67it/s] 59%|█████▊    | 217823/371472 [6:17:35<11:58:06,  3.57it/s] 59%|█████▊    | 217824/371472 [6:17:35<11:45:27,  3.63it/s] 59%|█████▊    | 217825/371472 [6:17:35<11:36:06,  3.68it/s] 59%|█████▊    | 217826/371472 [6:17:35<11:22:32,  3.75it/s] 59%|█████▊    | 217827/371472 [6:17:36<11:32:43,  3.70it/s] 59%|█████▊    | 217828/371472 [6:17:36<11:26:51,  3.73it/s] 59%|█████▊    | 217829/371472 [6:17:36<12:47:20,  3.34it/s] 59%|█████▊    | 217830/371472 [6:17:37<12:46:07,  3.34it/s] 59%|█████▊    | 217831/371472 [6:17:37<12:52:49,  3.31it/s] 59%|█████▊    | 217832/371472 [6:17:37<12:25:06,  3.44it/s] 59%|█████▊    | 217833/371472 [6:17:37<12:16:58,  3.47it/s] 59%|█████▊    | 217834/371472 [6:17:38<12:41:29,  3.36it/s] 59%|█████▊    | 217835/371472 [6:17:38<12:16:02,  3.48it/s] 59%|█████▊    | 217836/371472 [6:17:38<12:33:13,  3.40it/s] 59%|█████▊    | 217837/371472 [6:17:39<11:58:25,  3.56it/s] 59%|█████▊    | 217838/371472 [6:17:39<11:49:41,  3.61it/s] 59%|█████▊    | 217839/371472 [6:17:39<11:35:42,  3.68it/s] 59%|█████▊    | 217840/371472 [6:17:39<12:08:24,  3.52it/s]                                                            {'loss': 3.0037, 'learning_rate': 4.7241914283867353e-07, 'epoch': 9.38}
 59%|█████▊    | 217840/371472 [6:17:39<12:08:24,  3.52it/s] 59%|█████▊    | 217841/371472 [6:17:40<12:46:14,  3.34it/s] 59%|█████▊    | 217842/371472 [6:17:40<12:01:35,  3.55it/s] 59%|█████▊    | 217843/371472 [6:17:40<12:17:02,  3.47it/s] 59%|█████▊    | 217844/371472 [6:17:41<11:55:27,  3.58it/s] 59%|█████▊    | 217845/371472 [6:17:41<12:08:26,  3.52it/s] 59%|█████▊    | 217846/371472 [6:17:41<11:59:30,  3.56it/s] 59%|█████▊    | 217847/371472 [6:17:41<12:23:09,  3.45it/s] 59%|█████▊    | 217848/371472 [6:17:42<12:31:17,  3.41it/s] 59%|█████▊    | 217849/371472 [6:17:42<12:17:22,  3.47it/s] 59%|█████▊    | 217850/371472 [6:17:42<12:46:42,  3.34it/s] 59%|█████▊    | 217851/371472 [6:17:43<12:31:53,  3.41it/s] 59%|█████▊    | 217852/371472 [6:17:43<13:24:16,  3.18it/s] 59%|█████▊    | 217853/371472 [6:17:43<13:04:57,  3.26it/s] 59%|█████▊    | 217854/371472 [6:17:44<12:56:47,  3.30it/s] 59%|█████▊    | 217855/371472 [6:17:44<12:49:30,  3.33it/s] 59%|█████▊    | 217856/371472 [6:17:44<13:39:00,  3.13it/s] 59%|█████▊    | 217857/371472 [6:17:45<12:46:13,  3.34it/s] 59%|█████▊    | 217858/371472 [6:17:45<12:02:46,  3.54it/s] 59%|█████▊    | 217859/371472 [6:17:45<12:02:31,  3.54it/s] 59%|█████▊    | 217860/371472 [6:17:45<12:37:39,  3.38it/s]                                                            {'loss': 2.9532, 'learning_rate': 4.7237066086319455e-07, 'epoch': 9.38}
 59%|█████▊    | 217860/371472 [6:17:45<12:37:39,  3.38it/s] 59%|█████▊    | 217861/371472 [6:17:46<12:24:40,  3.44it/s] 59%|█████▊    | 217862/371472 [6:17:46<12:26:03,  3.43it/s] 59%|█████▊    | 217863/371472 [6:17:46<11:53:33,  3.59it/s] 59%|█████▊    | 217864/371472 [6:17:46<11:49:16,  3.61it/s] 59%|█████▊    | 217865/371472 [6:17:47<12:02:37,  3.54it/s] 59%|█████▊    | 217866/371472 [6:17:47<11:57:01,  3.57it/s] 59%|█████▊    | 217867/371472 [6:17:47<12:01:23,  3.55it/s] 59%|█████▊    | 217868/371472 [6:17:48<11:50:26,  3.60it/s] 59%|█████▊    | 217869/371472 [6:17:48<11:26:28,  3.73it/s] 59%|█████▊    | 217870/371472 [6:17:48<11:20:45,  3.76it/s] 59%|█████▊    | 217871/371472 [6:17:48<11:29:15,  3.71it/s] 59%|█████▊    | 217872/371472 [6:17:49<11:35:30,  3.68it/s] 59%|█████▊    | 217873/371472 [6:17:49<11:25:47,  3.73it/s] 59%|█████▊    | 217874/371472 [6:17:49<11:19:06,  3.77it/s] 59%|█████▊    | 217875/371472 [6:17:50<12:14:30,  3.49it/s] 59%|█████▊    | 217876/371472 [6:17:50<12:11:08,  3.50it/s] 59%|█████▊    | 217877/371472 [6:17:50<11:49:03,  3.61it/s] 59%|█████▊    | 217878/371472 [6:17:50<11:40:59,  3.65it/s] 59%|█████▊    | 217879/371472 [6:17:51<11:34:00,  3.69it/s] 59%|█████▊    | 217880/371472 [6:17:51<11:21:08,  3.76it/s]                                                            {'loss': 2.9608, 'learning_rate': 4.723221788877157e-07, 'epoch': 9.38}
 59%|█████▊    | 217880/371472 [6:17:51<11:21:08,  3.76it/s] 59%|█████▊    | 217881/371472 [6:17:51<11:05:51,  3.84it/s] 59%|█████▊    | 217882/371472 [6:17:51<11:27:52,  3.72it/s] 59%|█████▊    | 217883/371472 [6:17:52<12:13:17,  3.49it/s] 59%|█████▊    | 217884/371472 [6:17:52<12:40:15,  3.37it/s] 59%|█████▊    | 217885/371472 [6:17:52<13:48:41,  3.09it/s] 59%|█████▊    | 217886/371472 [6:17:53<14:07:35,  3.02it/s] 59%|█████▊    | 217887/371472 [6:17:53<13:23:53,  3.18it/s] 59%|█████▊    | 217888/371472 [6:17:53<12:30:23,  3.41it/s] 59%|█████▊    | 217889/371472 [6:17:54<12:21:14,  3.45it/s] 59%|█████▊    | 217890/371472 [6:17:54<12:29:11,  3.42it/s] 59%|█████▊    | 217891/371472 [6:17:54<12:06:21,  3.52it/s] 59%|█████▊    | 217892/371472 [6:17:54<12:04:14,  3.53it/s] 59%|█████▊    | 217893/371472 [6:17:55<12:11:48,  3.50it/s] 59%|█████▊    | 217894/371472 [6:17:55<11:48:46,  3.61it/s] 59%|█████▊    | 217895/371472 [6:17:55<11:54:37,  3.58it/s] 59%|█████▊    | 217896/371472 [6:17:55<11:51:04,  3.60it/s] 59%|█████▊    | 217897/371472 [6:17:56<11:34:50,  3.68it/s] 59%|█████▊    | 217898/371472 [6:17:56<11:31:58,  3.70it/s] 59%|█████▊    | 217899/371472 [6:17:56<11:40:51,  3.65it/s] 59%|█████▊    | 217900/371472 [6:17:57<12:06:14,  3.52it/s]                                                            {'loss': 2.8223, 'learning_rate': 4.722736969122368e-07, 'epoch': 9.39}
 59%|█████▊    | 217900/371472 [6:17:57<12:06:14,  3.52it/s] 59%|█████▊    | 217901/371472 [6:17:57<12:29:56,  3.41it/s] 59%|█████▊    | 217902/371472 [6:17:57<12:45:38,  3.34it/s] 59%|█████▊    | 217903/371472 [6:17:57<12:03:44,  3.54it/s] 59%|█████▊    | 217904/371472 [6:17:58<12:28:32,  3.42it/s] 59%|█████▊    | 217905/371472 [6:17:58<12:51:58,  3.32it/s] 59%|█████▊    | 217906/371472 [6:17:58<12:32:10,  3.40it/s] 59%|█████▊    | 217907/371472 [6:17:59<12:37:22,  3.38it/s] 59%|█████▊    | 217908/371472 [6:17:59<13:13:31,  3.23it/s] 59%|█████▊    | 217909/371472 [6:17:59<12:56:16,  3.30it/s] 59%|█████▊    | 217910/371472 [6:18:00<12:35:57,  3.39it/s] 59%|█████▊    | 217911/371472 [6:18:00<12:39:18,  3.37it/s] 59%|█████▊    | 217912/371472 [6:18:00<12:19:51,  3.46it/s] 59%|█████▊    | 217913/371472 [6:18:00<12:02:15,  3.54it/s] 59%|█████▊    | 217914/371472 [6:18:01<12:16:08,  3.48it/s] 59%|█████▊    | 217915/371472 [6:18:01<11:47:36,  3.62it/s] 59%|█████▊    | 217916/371472 [6:18:01<11:38:58,  3.66it/s] 59%|█████▊    | 217917/371472 [6:18:02<12:11:29,  3.50it/s] 59%|█████▊    | 217918/371472 [6:18:02<12:01:30,  3.55it/s] 59%|█████▊    | 217919/371472 [6:18:02<12:35:15,  3.39it/s] 59%|█████▊    | 217920/371472 [6:18:02<12:51:16,  3.32it/s]                                                            {'loss': 2.8862, 'learning_rate': 4.722252149367579e-07, 'epoch': 9.39}
 59%|█████▊    | 217920/371472 [6:18:02<12:51:16,  3.32it/s] 59%|█████▊    | 217921/371472 [6:18:03<12:44:03,  3.35it/s] 59%|█████▊    | 217922/371472 [6:18:03<12:35:12,  3.39it/s] 59%|█████▊    | 217923/371472 [6:18:03<12:19:59,  3.46it/s] 59%|█████▊    | 217924/371472 [6:18:04<12:14:19,  3.49it/s] 59%|█████▊    | 217925/371472 [6:18:04<12:09:29,  3.51it/s] 59%|█████▊    | 217926/371472 [6:18:04<12:16:24,  3.48it/s] 59%|█████▊    | 217927/371472 [6:18:05<12:49:48,  3.32it/s] 59%|█████▊    | 217928/371472 [6:18:05<12:34:37,  3.39it/s] 59%|█████▊    | 217929/371472 [6:18:05<12:06:35,  3.52it/s] 59%|█████▊    | 217930/371472 [6:18:05<12:46:42,  3.34it/s] 59%|█████▊    | 217931/371472 [6:18:06<12:55:12,  3.30it/s] 59%|█████▊    | 217932/371472 [6:18:06<12:53:11,  3.31it/s] 59%|█████▊    | 217933/371472 [6:18:06<12:41:24,  3.36it/s] 59%|█████▊    | 217934/371472 [6:18:07<12:24:27,  3.44it/s] 59%|█████▊    | 217935/371472 [6:18:07<12:26:49,  3.43it/s] 59%|█████▊    | 217936/371472 [6:18:07<12:06:40,  3.52it/s] 59%|█████▊    | 217937/371472 [6:18:07<12:08:38,  3.51it/s] 59%|█████▊    | 217938/371472 [6:18:08<12:11:02,  3.50it/s] 59%|█████▊    | 217939/371472 [6:18:08<11:48:21,  3.61it/s] 59%|█████▊    | 217940/371472 [6:18:08<11:45:03,  3.63it/s]                                                            {'loss': 3.0074, 'learning_rate': 4.72176732961279e-07, 'epoch': 9.39}
 59%|█████▊    | 217940/371472 [6:18:08<11:45:03,  3.63it/s] 59%|█████▊    | 217941/371472 [6:18:09<11:51:40,  3.60it/s] 59%|█████▊    | 217942/371472 [6:18:09<11:38:42,  3.66it/s] 59%|█████▊    | 217943/371472 [6:18:09<12:37:07,  3.38it/s] 59%|█████▊    | 217944/371472 [6:18:09<12:31:28,  3.41it/s] 59%|█████▊    | 217945/371472 [6:18:10<12:16:31,  3.47it/s] 59%|█████▊    | 217946/371472 [6:18:10<12:16:20,  3.47it/s] 59%|█████▊    | 217947/371472 [6:18:10<12:52:04,  3.31it/s] 59%|█████▊    | 217948/371472 [6:18:11<12:38:23,  3.37it/s] 59%|█████▊    | 217949/371472 [6:18:11<12:45:24,  3.34it/s] 59%|█████▊    | 217950/371472 [6:18:11<12:54:50,  3.30it/s] 59%|█████▊    | 217951/371472 [6:18:11<12:08:29,  3.51it/s] 59%|█████▊    | 217952/371472 [6:18:12<12:56:45,  3.29it/s] 59%|█████▊    | 217953/371472 [6:18:12<12:48:26,  3.33it/s] 59%|█████▊    | 217954/371472 [6:18:12<13:01:14,  3.28it/s] 59%|█████▊    | 217955/371472 [6:18:13<12:25:50,  3.43it/s] 59%|█████▊    | 217956/371472 [6:18:13<11:57:07,  3.57it/s] 59%|█████▊    | 217957/371472 [6:18:13<12:16:43,  3.47it/s] 59%|█████▊    | 217958/371472 [6:18:14<12:24:57,  3.43it/s] 59%|█████▊    | 217959/371472 [6:18:14<12:35:01,  3.39it/s] 59%|█████▊    | 217960/371472 [6:18:14<12:15:29,  3.48it/s]                                                            {'loss': 2.8114, 'learning_rate': 4.7212825098580017e-07, 'epoch': 9.39}
 59%|█████▊    | 217960/371472 [6:18:14<12:15:29,  3.48it/s] 59%|█████▊    | 217961/371472 [6:18:14<12:15:11,  3.48it/s] 59%|█████▊    | 217962/371472 [6:18:15<11:56:52,  3.57it/s] 59%|█████▊    | 217963/371472 [6:18:15<13:20:35,  3.20it/s] 59%|█████▊    | 217964/371472 [6:18:15<13:25:12,  3.18it/s] 59%|█████▊    | 217965/371472 [6:18:16<13:36:42,  3.13it/s] 59%|█████▊    | 217966/371472 [6:18:16<12:47:32,  3.33it/s] 59%|█████▊    | 217967/371472 [6:18:16<12:41:40,  3.36it/s] 59%|█████▊    | 217968/371472 [6:18:17<12:27:48,  3.42it/s] 59%|█████▊    | 217969/371472 [6:18:17<12:31:04,  3.41it/s] 59%|█████▊    | 217970/371472 [6:18:17<12:56:14,  3.30it/s] 59%|█████▊    | 217971/371472 [6:18:17<12:32:50,  3.40it/s] 59%|█████▊    | 217972/371472 [6:18:18<12:03:08,  3.54it/s] 59%|█████▊    | 217973/371472 [6:18:18<11:43:11,  3.64it/s] 59%|█████▊    | 217974/371472 [6:18:18<11:25:40,  3.73it/s] 59%|█████▊    | 217975/371472 [6:18:18<11:25:58,  3.73it/s] 59%|█████▊    | 217976/371472 [6:18:19<11:14:00,  3.80it/s] 59%|█████▊    | 217977/371472 [6:18:19<11:28:02,  3.72it/s] 59%|█████▊    | 217978/371472 [6:18:19<11:31:59,  3.70it/s] 59%|█████▊    | 217979/371472 [6:18:20<11:34:23,  3.68it/s] 59%|█████▊    | 217980/371472 [6:18:20<11:08:33,  3.83it/s]                                                            {'loss': 2.9592, 'learning_rate': 4.7207976901032124e-07, 'epoch': 9.39}
 59%|█████▊    | 217980/371472 [6:18:20<11:08:33,  3.83it/s] 59%|█████▊    | 217981/371472 [6:18:20<11:28:50,  3.71it/s] 59%|█████▊    | 217982/371472 [6:18:20<11:33:02,  3.69it/s] 59%|█████▊    | 217983/371472 [6:18:21<12:26:40,  3.43it/s] 59%|█████▊    | 217984/371472 [6:18:21<12:09:47,  3.51it/s] 59%|█████▊    | 217985/371472 [6:18:21<11:45:59,  3.62it/s] 59%|█████▊    | 217986/371472 [6:18:21<11:36:50,  3.67it/s] 59%|█████▊    | 217987/371472 [6:18:22<11:28:14,  3.72it/s] 59%|█████▊    | 217988/371472 [6:18:22<11:30:50,  3.70it/s] 59%|█████▊    | 217989/371472 [6:18:22<11:14:51,  3.79it/s] 59%|█████▊    | 217990/371472 [6:18:23<11:18:14,  3.77it/s] 59%|█████▊    | 217991/371472 [6:18:23<12:19:20,  3.46it/s] 59%|█████▊    | 217992/371472 [6:18:23<12:58:47,  3.28it/s] 59%|█████▊    | 217993/371472 [6:18:24<13:03:25,  3.27it/s] 59%|█████▊    | 217994/371472 [6:18:24<13:15:56,  3.21it/s] 59%|█████▊    | 217995/371472 [6:18:24<13:34:49,  3.14it/s] 59%|█████▊    | 217996/371472 [6:18:25<13:58:47,  3.05it/s] 59%|█████▊    | 217997/371472 [6:18:25<13:17:56,  3.21it/s] 59%|█████▊    | 217998/371472 [6:18:25<13:05:35,  3.26it/s] 59%|█████▊    | 217999/371472 [6:18:25<12:49:37,  3.32it/s] 59%|█████▊    | 218000/371472 [6:18:26<12:35:27,  3.39it/s]                                                            {'loss': 2.8994, 'learning_rate': 4.7203128703484236e-07, 'epoch': 9.39}
 59%|█████▊    | 218000/371472 [6:18:26<12:35:27,  3.39it/s] 59%|█████▊    | 218001/371472 [6:18:26<15:52:21,  2.69it/s] 59%|█████▊    | 218002/371472 [6:18:27<14:55:12,  2.86it/s] 59%|█████▊    | 218003/371472 [6:18:27<14:39:14,  2.91it/s] 59%|█████▊    | 218004/371472 [6:18:27<13:43:31,  3.11it/s] 59%|█████▊    | 218005/371472 [6:18:27<12:50:02,  3.32it/s] 59%|█████▊    | 218006/371472 [6:18:28<12:44:22,  3.35it/s] 59%|█████▊    | 218007/371472 [6:18:28<12:23:15,  3.44it/s] 59%|█████▊    | 218008/371472 [6:18:28<12:04:02,  3.53it/s] 59%|█████▊    | 218009/371472 [6:18:29<12:33:04,  3.40it/s] 59%|█████▊    | 218010/371472 [6:18:29<12:10:08,  3.50it/s] 59%|█████▊    | 218011/371472 [6:18:29<12:11:19,  3.50it/s] 59%|█████▊    | 218012/371472 [6:18:29<12:34:56,  3.39it/s] 59%|█████▊    | 218013/371472 [6:18:30<12:30:54,  3.41it/s] 59%|█████▊    | 218014/371472 [6:18:30<12:54:20,  3.30it/s] 59%|█████▊    | 218015/371472 [6:18:30<12:22:47,  3.44it/s] 59%|█████▊    | 218016/371472 [6:18:31<12:00:17,  3.55it/s] 59%|█████▊    | 218017/371472 [6:18:31<12:35:49,  3.38it/s] 59%|█████▊    | 218018/371472 [6:18:31<12:28:54,  3.42it/s] 59%|█████▊    | 218019/371472 [6:18:31<11:57:30,  3.56it/s] 59%|█████▊    | 218020/371472 [6:18:32<11:40:08,  3.65it/s]                                                            {'loss': 2.898, 'learning_rate': 4.7198280505936344e-07, 'epoch': 9.39}
 59%|█████▊    | 218020/371472 [6:18:32<11:40:08,  3.65it/s] 59%|█████▊    | 218021/371472 [6:18:32<11:49:35,  3.60it/s] 59%|█████▊    | 218022/371472 [6:18:32<11:33:09,  3.69it/s] 59%|█████▊    | 218023/371472 [6:18:32<11:13:26,  3.80it/s] 59%|█████▊    | 218024/371472 [6:18:33<11:37:48,  3.66it/s] 59%|█████▊    | 218025/371472 [6:18:33<11:33:37,  3.69it/s] 59%|█████▊    | 218026/371472 [6:18:33<11:23:45,  3.74it/s] 59%|█████▊    | 218027/371472 [6:18:34<11:29:13,  3.71it/s] 59%|█████▊    | 218028/371472 [6:18:34<11:24:51,  3.73it/s] 59%|█████▊    | 218029/371472 [6:18:34<11:39:47,  3.65it/s] 59%|█████▊    | 218030/371472 [6:18:34<11:46:20,  3.62it/s] 59%|█████▊    | 218031/371472 [6:18:35<11:38:31,  3.66it/s] 59%|█████▊    | 218032/371472 [6:18:35<11:40:37,  3.65it/s] 59%|█████▊    | 218033/371472 [6:18:35<11:33:01,  3.69it/s] 59%|█████▊    | 218034/371472 [6:18:35<12:16:49,  3.47it/s] 59%|█████▊    | 218035/371472 [6:18:36<12:06:27,  3.52it/s] 59%|█████▊    | 218036/371472 [6:18:36<12:16:38,  3.47it/s] 59%|█████▊    | 218037/371472 [6:18:36<12:20:22,  3.45it/s] 59%|█████▊    | 218038/371472 [6:18:37<12:20:46,  3.45it/s] 59%|█████▊    | 218039/371472 [6:18:37<12:41:08,  3.36it/s] 59%|█████▊    | 218040/371472 [6:18:37<12:17:46,  3.47it/s]                                                            {'loss': 2.8963, 'learning_rate': 4.719343230838846e-07, 'epoch': 9.39}
 59%|█████▊    | 218040/371472 [6:18:37<12:17:46,  3.47it/s] 59%|█████▊    | 218041/371472 [6:18:38<12:04:50,  3.53it/s] 59%|█████▊    | 218042/371472 [6:18:38<12:11:34,  3.50it/s] 59%|█████▊    | 218043/371472 [6:18:38<11:52:40,  3.59it/s] 59%|█████▊    | 218044/371472 [6:18:38<12:47:31,  3.33it/s] 59%|█████▊    | 218045/371472 [6:18:39<12:23:00,  3.44it/s] 59%|█████▊    | 218046/371472 [6:18:39<12:15:53,  3.47it/s] 59%|█████▊    | 218047/371472 [6:18:39<12:19:08,  3.46it/s] 59%|█████▊    | 218048/371472 [6:18:40<11:52:47,  3.59it/s] 59%|█████▊    | 218049/371472 [6:18:40<11:29:56,  3.71it/s] 59%|█████▊    | 218050/371472 [6:18:40<12:50:01,  3.32it/s] 59%|█████▊    | 218051/371472 [6:18:40<12:19:20,  3.46it/s] 59%|█████▊    | 218052/371472 [6:18:41<12:23:26,  3.44it/s] 59%|█████▊    | 218053/371472 [6:18:41<12:00:40,  3.55it/s] 59%|█████▊    | 218054/371472 [6:18:41<12:54:48,  3.30it/s] 59%|█████▊    | 218055/371472 [6:18:42<13:43:38,  3.10it/s] 59%|█████▊    | 218056/371472 [6:18:42<13:02:01,  3.27it/s] 59%|█████▊    | 218057/371472 [6:18:42<14:04:52,  3.03it/s] 59%|█████▊    | 218058/371472 [6:18:43<13:34:33,  3.14it/s] 59%|█████▊    | 218059/371472 [6:18:43<12:58:35,  3.28it/s] 59%|█████▊    | 218060/371472 [6:18:43<12:29:08,  3.41it/s]                                                            {'loss': 2.8795, 'learning_rate': 4.7188584110840563e-07, 'epoch': 9.39}
 59%|█████▊    | 218060/371472 [6:18:43<12:29:08,  3.41it/s] 59%|█████▊    | 218061/371472 [6:18:43<13:07:23,  3.25it/s] 59%|█████▊    | 218062/371472 [6:18:44<13:02:57,  3.27it/s] 59%|█████▊    | 218063/371472 [6:18:44<12:41:00,  3.36it/s] 59%|█████▊    | 218064/371472 [6:18:44<12:34:02,  3.39it/s] 59%|█████▊    | 218065/371472 [6:18:45<12:30:06,  3.41it/s] 59%|█████▊    | 218066/371472 [6:18:45<12:16:03,  3.47it/s] 59%|█████▊    | 218067/371472 [6:18:45<13:25:14,  3.18it/s] 59%|█████▊    | 218068/371472 [6:18:46<12:47:54,  3.33it/s] 59%|█████▊    | 218069/371472 [6:18:46<12:18:32,  3.46it/s] 59%|█████▊    | 218070/371472 [6:18:46<12:25:00,  3.43it/s] 59%|█████▊    | 218071/371472 [6:18:46<11:47:33,  3.61it/s] 59%|█████▊    | 218072/371472 [6:18:47<12:39:32,  3.37it/s] 59%|█████▊    | 218073/371472 [6:18:47<12:11:35,  3.49it/s] 59%|█████▊    | 218074/371472 [6:18:47<11:52:09,  3.59it/s] 59%|█████▊    | 218075/371472 [6:18:48<11:54:05,  3.58it/s] 59%|█████▊    | 218076/371472 [6:18:48<12:09:25,  3.50it/s] 59%|█████▊    | 218077/371472 [6:18:48<11:56:48,  3.57it/s] 59%|█████▊    | 218078/371472 [6:18:48<12:46:23,  3.34it/s] 59%|█████▊    | 218079/371472 [6:18:49<12:49:51,  3.32it/s] 59%|█████▊    | 218080/371472 [6:18:49<12:24:33,  3.43it/s]                                                            {'loss': 2.8828, 'learning_rate': 4.718373591329268e-07, 'epoch': 9.39}
 59%|█████▊    | 218080/371472 [6:18:49<12:24:33,  3.43it/s] 59%|█████▊    | 218081/371472 [6:18:49<12:05:37,  3.52it/s] 59%|█████▊    | 218082/371472 [6:18:50<11:33:50,  3.68it/s] 59%|█████▊    | 218083/371472 [6:18:50<11:49:03,  3.61it/s] 59%|█████▊    | 218084/371472 [6:18:50<11:30:52,  3.70it/s] 59%|█████▊    | 218085/371472 [6:18:50<12:05:22,  3.52it/s] 59%|█████▊    | 218086/371472 [6:18:51<11:34:37,  3.68it/s] 59%|█████▊    | 218087/371472 [6:18:51<11:56:36,  3.57it/s] 59%|█████▊    | 218088/371472 [6:18:51<11:49:39,  3.60it/s] 59%|█████▊    | 218089/371472 [6:18:52<12:43:52,  3.35it/s] 59%|█████▊    | 218090/371472 [6:18:52<12:18:49,  3.46it/s] 59%|█████▊    | 218091/371472 [6:18:52<13:12:21,  3.23it/s] 59%|█████▊    | 218092/371472 [6:18:52<13:19:17,  3.20it/s] 59%|█████▊    | 218093/371472 [6:18:53<12:35:53,  3.38it/s] 59%|█████▊    | 218094/371472 [6:18:53<12:13:18,  3.49it/s] 59%|█████▊    | 218095/371472 [6:18:53<12:22:20,  3.44it/s] 59%|█████▊    | 218096/371472 [6:18:54<13:00:46,  3.27it/s] 59%|█████▊    | 218097/371472 [6:18:54<12:59:30,  3.28it/s] 59%|█████▊    | 218098/371472 [6:18:54<12:29:31,  3.41it/s] 59%|█████▊    | 218099/371472 [6:18:55<12:47:01,  3.33it/s] 59%|█████▊    | 218100/371472 [6:18:55<12:18:16,  3.46it/s]                                                            {'loss': 2.8635, 'learning_rate': 4.717888771574479e-07, 'epoch': 9.39}
 59%|█████▊    | 218100/371472 [6:18:55<12:18:16,  3.46it/s] 59%|█████▊    | 218101/371472 [6:18:55<12:22:05,  3.44it/s] 59%|█████▊    | 218102/371472 [6:18:55<13:00:51,  3.27it/s] 59%|█████▊    | 218103/371472 [6:18:56<12:31:15,  3.40it/s] 59%|█████▊    | 218104/371472 [6:18:56<12:15:55,  3.47it/s] 59%|█████▊    | 218105/371472 [6:18:56<12:17:49,  3.46it/s] 59%|█████▊    | 218106/371472 [6:18:57<12:12:23,  3.49it/s] 59%|█████▊    | 218107/371472 [6:18:57<12:18:31,  3.46it/s] 59%|█████▊    | 218108/371472 [6:18:57<12:03:23,  3.53it/s] 59%|█████▊    | 218109/371472 [6:18:57<13:03:12,  3.26it/s] 59%|█████▊    | 218110/371472 [6:18:58<12:51:52,  3.31it/s] 59%|█████▊    | 218111/371472 [6:18:58<12:19:29,  3.46it/s] 59%|█████▊    | 218112/371472 [6:18:58<12:05:52,  3.52it/s] 59%|█████▊    | 218113/371472 [6:18:59<12:01:40,  3.54it/s] 59%|█████▊    | 218114/371472 [6:18:59<12:47:51,  3.33it/s] 59%|█████▊    | 218115/371472 [6:18:59<12:45:32,  3.34it/s] 59%|█████▊    | 218116/371472 [6:19:00<12:44:59,  3.34it/s] 59%|█████▊    | 218117/371472 [6:19:00<12:41:50,  3.35it/s] 59%|█████▊    | 218118/371472 [6:19:00<12:35:29,  3.38it/s] 59%|█████▊    | 218119/371472 [6:19:00<12:20:05,  3.45it/s] 59%|█████▊    | 218120/371472 [6:19:01<11:53:19,  3.58it/s]                                                            {'loss': 2.8733, 'learning_rate': 4.71740395181969e-07, 'epoch': 9.39}
 59%|█████▊    | 218120/371472 [6:19:01<11:53:19,  3.58it/s] 59%|█████▊    | 218121/371472 [6:19:01<12:50:40,  3.32it/s] 59%|█████▊    | 218122/371472 [6:19:01<12:40:19,  3.36it/s] 59%|█████▊    | 218123/371472 [6:19:02<12:22:07,  3.44it/s] 59%|█████▊    | 218124/371472 [6:19:02<12:06:00,  3.52it/s] 59%|█████▊    | 218125/371472 [6:19:02<11:44:19,  3.63it/s] 59%|█████▊    | 218126/371472 [6:19:02<11:32:03,  3.69it/s] 59%|█████▊    | 218127/371472 [6:19:03<11:14:59,  3.79it/s] 59%|█████▊    | 218128/371472 [6:19:03<11:04:15,  3.85it/s] 59%|█████▊    | 218129/371472 [6:19:03<10:59:21,  3.88it/s] 59%|█████▊    | 218130/371472 [6:19:04<13:36:03,  3.13it/s] 59%|█████▊    | 218131/371472 [6:19:04<12:32:26,  3.40it/s] 59%|█████▊    | 218132/371472 [6:19:04<13:11:09,  3.23it/s] 59%|█████▊    | 218133/371472 [6:19:04<13:29:35,  3.16it/s] 59%|█████▊    | 218134/371472 [6:19:05<12:50:14,  3.32it/s] 59%|█████▊    | 218135/371472 [6:19:05<12:36:35,  3.38it/s] 59%|█████▊    | 218136/371472 [6:19:05<13:34:42,  3.14it/s] 59%|█████▊    | 218137/371472 [6:19:06<13:19:48,  3.20it/s] 59%|█████▊    | 218138/371472 [6:19:06<12:45:59,  3.34it/s] 59%|█████▊    | 218139/371472 [6:19:06<13:44:39,  3.10it/s] 59%|█████▊    | 218140/371472 [6:19:07<14:17:15,  2.98it/s]                                                            {'loss': 2.8925, 'learning_rate': 4.716919132064901e-07, 'epoch': 9.4}
 59%|█████▊    | 218140/371472 [6:19:07<14:17:15,  2.98it/s] 59%|█████▊    | 218141/371472 [6:19:07<14:14:45,  2.99it/s] 59%|█████▊    | 218142/371472 [6:19:07<14:02:51,  3.03it/s] 59%|█████▊    | 218143/371472 [6:19:08<13:15:32,  3.21it/s] 59%|█████▊    | 218144/371472 [6:19:08<13:06:13,  3.25it/s] 59%|█████▊    | 218145/371472 [6:19:08<12:32:49,  3.39it/s] 59%|█████▊    | 218146/371472 [6:19:08<12:10:55,  3.50it/s] 59%|█████▊    | 218147/371472 [6:19:09<11:49:40,  3.60it/s] 59%|█████▊    | 218148/371472 [6:19:09<11:27:23,  3.72it/s] 59%|█████▊    | 218149/371472 [6:19:09<11:12:07,  3.80it/s] 59%|█████▊    | 218150/371472 [6:19:09<11:36:35,  3.67it/s] 59%|█████▊    | 218151/371472 [6:19:10<11:13:18,  3.80it/s] 59%|█████▊    | 218152/371472 [6:19:10<11:01:07,  3.87it/s] 59%|█████▊    | 218153/371472 [6:19:10<10:57:32,  3.89it/s] 59%|█████▊    | 218154/371472 [6:19:11<12:33:32,  3.39it/s] 59%|█████▊    | 218155/371472 [6:19:11<12:28:25,  3.41it/s] 59%|█████▊    | 218156/371472 [6:19:11<12:11:41,  3.49it/s] 59%|█████▊    | 218157/371472 [6:19:11<11:51:29,  3.59it/s] 59%|█████▊    | 218158/371472 [6:19:12<12:25:59,  3.43it/s] 59%|█████▊    | 218159/371472 [6:19:12<12:30:32,  3.40it/s] 59%|█████▊    | 218160/371472 [6:19:12<12:58:28,  3.28it/s]                                                            {'loss': 2.8543, 'learning_rate': 4.7164343123101125e-07, 'epoch': 9.4}
 59%|█████▊    | 218160/371472 [6:19:12<12:58:28,  3.28it/s] 59%|█████▊    | 218161/371472 [6:19:13<13:04:38,  3.26it/s] 59%|█████▊    | 218162/371472 [6:19:13<13:18:17,  3.20it/s] 59%|█████▊    | 218163/371472 [6:19:13<13:03:43,  3.26it/s] 59%|█████▊    | 218164/371472 [6:19:14<13:13:37,  3.22it/s] 59%|█████▊    | 218165/371472 [6:19:14<13:23:59,  3.18it/s] 59%|█████▊    | 218166/371472 [6:19:14<14:02:49,  3.03it/s] 59%|█████▊    | 218167/371472 [6:19:15<13:24:10,  3.18it/s] 59%|█████▊    | 218168/371472 [6:19:15<13:54:58,  3.06it/s] 59%|█████▊    | 218169/371472 [6:19:15<13:10:49,  3.23it/s] 59%|█████▊    | 218170/371472 [6:19:16<14:06:57,  3.02it/s] 59%|█████▊    | 218171/371472 [6:19:16<13:08:08,  3.24it/s] 59%|█████▊    | 218172/371472 [6:19:16<12:36:47,  3.38it/s] 59%|█████▊    | 218173/371472 [6:19:16<12:45:28,  3.34it/s] 59%|█████▊    | 218174/371472 [6:19:17<12:22:10,  3.44it/s] 59%|█████▊    | 218175/371472 [6:19:17<11:43:48,  3.63it/s] 59%|█████▊    | 218176/371472 [6:19:17<11:47:50,  3.61it/s] 59%|█████▊    | 218177/371472 [6:19:17<11:33:39,  3.68it/s] 59%|█████▊    | 218178/371472 [6:19:18<11:40:16,  3.65it/s] 59%|█████▊    | 218179/371472 [6:19:18<11:49:40,  3.60it/s] 59%|█████▊    | 218180/371472 [6:19:18<12:14:13,  3.48it/s]                                                            {'loss': 2.9713, 'learning_rate': 4.7159494925553227e-07, 'epoch': 9.4}
 59%|█████▊    | 218180/371472 [6:19:18<12:14:13,  3.48it/s] 59%|█████▊    | 218181/371472 [6:19:19<12:32:39,  3.39it/s] 59%|█████▊    | 218182/371472 [6:19:19<12:24:14,  3.43it/s] 59%|█████▊    | 218183/371472 [6:19:19<11:58:58,  3.55it/s] 59%|█████▊    | 218184/371472 [6:19:20<12:16:24,  3.47it/s] 59%|█████▊    | 218185/371472 [6:19:20<13:44:17,  3.10it/s] 59%|█████▊    | 218186/371472 [6:19:20<13:02:29,  3.26it/s] 59%|█████▊    | 218187/371472 [6:19:20<12:49:00,  3.32it/s] 59%|█████▊    | 218188/371472 [6:19:21<13:47:12,  3.09it/s] 59%|█████▊    | 218189/371472 [6:19:21<12:56:10,  3.29it/s] 59%|█████▊    | 218190/371472 [6:19:21<12:17:10,  3.47it/s] 59%|█████▊    | 218191/371472 [6:19:22<12:20:35,  3.45it/s] 59%|█████▊    | 218192/371472 [6:19:22<12:15:06,  3.48it/s] 59%|█████▊    | 218193/371472 [6:19:22<12:16:33,  3.47it/s] 59%|█████▊    | 218194/371472 [6:19:22<11:50:16,  3.60it/s] 59%|█████▊    | 218195/371472 [6:19:23<11:51:31,  3.59it/s] 59%|█████▊    | 218196/371472 [6:19:23<12:02:21,  3.54it/s] 59%|█████▊    | 218197/371472 [6:19:23<11:39:25,  3.65it/s] 59%|█████▊    | 218198/371472 [6:19:24<11:50:55,  3.59it/s] 59%|█████▊    | 218199/371472 [6:19:24<13:08:50,  3.24it/s] 59%|█████▊    | 218200/371472 [6:19:24<12:26:57,  3.42it/s]                                                            {'loss': 2.944, 'learning_rate': 4.7154646728005345e-07, 'epoch': 9.4}
 59%|█████▊    | 218200/371472 [6:19:24<12:26:57,  3.42it/s] 59%|█████▊    | 218201/371472 [6:19:25<12:24:39,  3.43it/s] 59%|█████▊    | 218202/371472 [6:19:25<12:00:08,  3.55it/s] 59%|█████▊    | 218203/371472 [6:19:25<11:36:59,  3.67it/s] 59%|█████▊    | 218204/371472 [6:19:25<11:27:45,  3.71it/s] 59%|█████▊    | 218205/371472 [6:19:26<11:16:43,  3.77it/s] 59%|█████▊    | 218206/371472 [6:19:26<11:32:14,  3.69it/s] 59%|█████▊    | 218207/371472 [6:19:26<11:30:14,  3.70it/s] 59%|█████▊    | 218208/371472 [6:19:26<11:14:46,  3.79it/s] 59%|█████▊    | 218209/371472 [6:19:27<11:40:47,  3.65it/s] 59%|█████▊    | 218210/371472 [6:19:27<12:16:01,  3.47it/s] 59%|█████▊    | 218211/371472 [6:19:27<12:19:33,  3.45it/s] 59%|█████▊    | 218212/371472 [6:19:28<11:49:35,  3.60it/s] 59%|█████▊    | 218213/371472 [6:19:28<12:02:21,  3.54it/s] 59%|█████▊    | 218214/371472 [6:19:28<11:42:47,  3.63it/s] 59%|█████▊    | 218215/371472 [6:19:28<12:13:44,  3.48it/s] 59%|█████▊    | 218216/371472 [6:19:29<12:27:24,  3.42it/s] 59%|█████▊    | 218217/371472 [6:19:29<12:07:55,  3.51it/s] 59%|█████▊    | 218218/371472 [6:19:29<12:02:05,  3.54it/s] 59%|█████▊    | 218219/371472 [6:19:30<11:53:09,  3.58it/s] 59%|█████▊    | 218220/371472 [6:19:30<11:59:48,  3.55it/s]                                                            {'loss': 2.9195, 'learning_rate': 4.714979853045745e-07, 'epoch': 9.4}
 59%|█████▊    | 218220/371472 [6:19:30<11:59:48,  3.55it/s] 59%|█████▊    | 218221/371472 [6:19:30<12:07:13,  3.51it/s] 59%|█████▊    | 218222/371472 [6:19:30<11:50:40,  3.59it/s] 59%|█████▊    | 218223/371472 [6:19:31<11:59:44,  3.55it/s] 59%|█████▊    | 218224/371472 [6:19:31<13:27:52,  3.16it/s] 59%|█████▊    | 218225/371472 [6:19:31<13:07:45,  3.24it/s] 59%|█████▊    | 218226/371472 [6:19:32<12:49:21,  3.32it/s] 59%|█████▊    | 218227/371472 [6:19:32<12:04:59,  3.52it/s] 59%|█████▊    | 218228/371472 [6:19:32<12:27:15,  3.42it/s] 59%|█████▊    | 218229/371472 [6:19:32<12:01:22,  3.54it/s] 59%|█████▊    | 218230/371472 [6:19:33<12:15:03,  3.47it/s] 59%|█████▊    | 218231/371472 [6:19:33<12:09:45,  3.50it/s] 59%|█████▊    | 218232/371472 [6:19:33<12:09:35,  3.50it/s] 59%|█████▊    | 218233/371472 [6:19:34<11:43:42,  3.63it/s] 59%|█████▊    | 218234/371472 [6:19:34<11:52:48,  3.58it/s] 59%|█████▊    | 218235/371472 [6:19:34<12:33:42,  3.39it/s] 59%|█████▊    | 218236/371472 [6:19:34<12:55:27,  3.29it/s] 59%|█████▊    | 218237/371472 [6:19:35<12:41:30,  3.35it/s] 59%|█████▊    | 218238/371472 [6:19:35<12:05:40,  3.52it/s] 59%|█████▊    | 218239/371472 [6:19:35<11:48:59,  3.60it/s] 59%|█████▉    | 218240/371472 [6:19:36<11:34:02,  3.68it/s]                                                            {'loss': 3.0109, 'learning_rate': 4.7144950332909565e-07, 'epoch': 9.4}
 59%|█████▉    | 218240/371472 [6:19:36<11:34:02,  3.68it/s] 59%|█████▉    | 218241/371472 [6:19:36<11:19:51,  3.76it/s] 59%|█████▉    | 218242/371472 [6:19:36<11:44:28,  3.63it/s] 59%|█████▉    | 218243/371472 [6:19:36<12:45:13,  3.34it/s] 59%|█████▉    | 218244/371472 [6:19:37<12:25:22,  3.43it/s] 59%|█████▉    | 218245/371472 [6:19:37<12:02:06,  3.54it/s] 59%|█████▉    | 218246/371472 [6:19:37<11:49:28,  3.60it/s] 59%|█████▉    | 218247/371472 [6:19:38<13:08:58,  3.24it/s] 59%|█████▉    | 218248/371472 [6:19:38<12:43:43,  3.34it/s] 59%|█████▉    | 218249/371472 [6:19:38<13:04:17,  3.26it/s] 59%|█████▉    | 218250/371472 [6:19:39<12:35:25,  3.38it/s] 59%|█████▉    | 218251/371472 [6:19:39<12:27:59,  3.41it/s] 59%|█████▉    | 218252/371472 [6:19:39<12:09:07,  3.50it/s] 59%|█████▉    | 218253/371472 [6:19:39<11:36:47,  3.66it/s] 59%|█████▉    | 218254/371472 [6:19:40<12:55:35,  3.29it/s] 59%|█████▉    | 218255/371472 [6:19:40<12:25:14,  3.43it/s] 59%|█████▉    | 218256/371472 [6:19:40<12:18:54,  3.46it/s] 59%|█████▉    | 218257/371472 [6:19:40<11:52:59,  3.58it/s] 59%|█████▉    | 218258/371472 [6:19:41<11:45:45,  3.62it/s] 59%|█████▉    | 218259/371472 [6:19:41<12:17:12,  3.46it/s] 59%|█████▉    | 218260/371472 [6:19:41<11:55:41,  3.57it/s]                                                            {'loss': 2.9579, 'learning_rate': 4.714010213536167e-07, 'epoch': 9.4}
 59%|█████▉    | 218260/371472 [6:19:41<11:55:41,  3.57it/s] 59%|█████▉    | 218261/371472 [6:19:42<11:37:09,  3.66it/s] 59%|█████▉    | 218262/371472 [6:19:42<12:04:38,  3.52it/s] 59%|█████▉    | 218263/371472 [6:19:42<11:53:35,  3.58it/s] 59%|█████▉    | 218264/371472 [6:19:42<11:36:20,  3.67it/s] 59%|█████▉    | 218265/371472 [6:19:43<11:26:45,  3.72it/s] 59%|█████▉    | 218266/371472 [6:19:43<11:20:36,  3.75it/s] 59%|█████▉    | 218267/371472 [6:19:43<11:31:01,  3.70it/s] 59%|█████▉    | 218268/371472 [6:19:44<12:00:03,  3.55it/s] 59%|█████▉    | 218269/371472 [6:19:44<11:48:56,  3.60it/s] 59%|█████▉    | 218270/371472 [6:19:44<11:53:29,  3.58it/s] 59%|█████▉    | 218271/371472 [6:19:44<11:45:17,  3.62it/s] 59%|█████▉    | 218272/371472 [6:19:45<12:34:49,  3.38it/s] 59%|█████▉    | 218273/371472 [6:19:45<14:18:21,  2.97it/s] 59%|█████▉    | 218274/371472 [6:19:45<13:33:22,  3.14it/s] 59%|█████▉    | 218275/371472 [6:19:46<13:01:29,  3.27it/s] 59%|█████▉    | 218276/371472 [6:19:46<12:52:43,  3.30it/s] 59%|█████▉    | 218277/371472 [6:19:46<12:41:15,  3.35it/s] 59%|█████▉    | 218278/371472 [6:19:47<12:43:58,  3.34it/s] 59%|█████▉    | 218279/371472 [6:19:47<12:45:42,  3.33it/s] 59%|█████▉    | 218280/371472 [6:19:47<13:47:11,  3.09it/s]                                                            {'loss': 2.8818, 'learning_rate': 4.713525393781379e-07, 'epoch': 9.4}
 59%|█████▉    | 218280/371472 [6:19:47<13:47:11,  3.09it/s] 59%|█████▉    | 218281/371472 [6:19:48<13:35:20,  3.13it/s] 59%|█████▉    | 218282/371472 [6:19:48<13:18:17,  3.20it/s] 59%|█████▉    | 218283/371472 [6:19:48<12:41:15,  3.35it/s] 59%|█████▉    | 218284/371472 [6:19:48<12:20:36,  3.45it/s] 59%|█████▉    | 218285/371472 [6:19:49<12:09:21,  3.50it/s] 59%|█████▉    | 218286/371472 [6:19:49<13:02:27,  3.26it/s] 59%|█████▉    | 218287/371472 [6:19:49<13:24:54,  3.17it/s] 59%|█████▉    | 218288/371472 [6:19:50<13:26:55,  3.16it/s] 59%|█████▉    | 218289/371472 [6:19:50<12:59:40,  3.27it/s] 59%|█████▉    | 218290/371472 [6:19:50<12:52:06,  3.31it/s] 59%|█████▉    | 218291/371472 [6:19:51<13:05:17,  3.25it/s] 59%|█████▉    | 218292/371472 [6:19:51<12:58:38,  3.28it/s] 59%|█████▉    | 218293/371472 [6:19:51<12:15:42,  3.47it/s] 59%|█████▉    | 218294/371472 [6:19:51<12:01:35,  3.54it/s] 59%|█████▉    | 218295/371472 [6:19:52<13:05:09,  3.25it/s] 59%|█████▉    | 218296/371472 [6:19:52<13:00:10,  3.27it/s] 59%|█████▉    | 218297/371472 [6:19:52<12:24:12,  3.43it/s] 59%|█████▉    | 218298/371472 [6:19:53<13:14:51,  3.21it/s] 59%|█████▉    | 218299/371472 [6:19:53<12:56:24,  3.29it/s] 59%|█████▉    | 218300/371472 [6:19:53<12:30:49,  3.40it/s]                                                            {'loss': 2.9007, 'learning_rate': 4.713040574026589e-07, 'epoch': 9.4}
 59%|█████▉    | 218300/371472 [6:19:53<12:30:49,  3.40it/s] 59%|█████▉    | 218301/371472 [6:19:53<12:15:43,  3.47it/s] 59%|█████▉    | 218302/371472 [6:19:54<12:24:54,  3.43it/s] 59%|█████▉    | 218303/371472 [6:19:54<12:06:04,  3.52it/s] 59%|█████▉    | 218304/371472 [6:19:54<12:11:35,  3.49it/s] 59%|█████▉    | 218305/371472 [6:19:55<12:00:50,  3.54it/s] 59%|█████▉    | 218306/371472 [6:19:55<12:07:45,  3.51it/s] 59%|█████▉    | 218307/371472 [6:19:55<13:14:18,  3.21it/s] 59%|█████▉    | 218308/371472 [6:19:56<12:37:19,  3.37it/s] 59%|█████▉    | 218309/371472 [6:19:56<12:08:22,  3.50it/s] 59%|█████▉    | 218310/371472 [6:19:56<11:51:42,  3.59it/s] 59%|█████▉    | 218311/371472 [6:19:56<11:35:58,  3.67it/s] 59%|█████▉    | 218312/371472 [6:19:57<12:04:52,  3.52it/s] 59%|█████▉    | 218313/371472 [6:19:57<11:59:03,  3.55it/s] 59%|█████▉    | 218314/371472 [6:19:57<11:41:35,  3.64it/s] 59%|█████▉    | 218315/371472 [6:19:57<11:43:47,  3.63it/s] 59%|█████▉    | 218316/371472 [6:19:58<11:38:54,  3.65it/s] 59%|█████▉    | 218317/371472 [6:19:58<11:56:08,  3.56it/s] 59%|█████▉    | 218318/371472 [6:19:58<12:13:51,  3.48it/s] 59%|█████▉    | 218319/371472 [6:19:59<12:11:33,  3.49it/s] 59%|█████▉    | 218320/371472 [6:19:59<12:53:10,  3.30it/s]                                                            {'loss': 2.8957, 'learning_rate': 4.712555754271801e-07, 'epoch': 9.4}
 59%|█████▉    | 218320/371472 [6:19:59<12:53:10,  3.30it/s] 59%|█████▉    | 218321/371472 [6:19:59<12:34:46,  3.38it/s] 59%|█████▉    | 218322/371472 [6:20:00<12:31:22,  3.40it/s] 59%|█████▉    | 218323/371472 [6:20:00<13:07:01,  3.24it/s] 59%|█████▉    | 218324/371472 [6:20:00<12:44:38,  3.34it/s] 59%|█████▉    | 218325/371472 [6:20:00<12:52:54,  3.30it/s] 59%|█████▉    | 218326/371472 [6:20:01<13:57:21,  3.05it/s] 59%|█████▉    | 218327/371472 [6:20:01<13:22:58,  3.18it/s] 59%|█████▉    | 218328/371472 [6:20:01<12:36:42,  3.37it/s] 59%|█████▉    | 218329/371472 [6:20:02<12:44:35,  3.34it/s] 59%|█████▉    | 218330/371472 [6:20:02<12:20:48,  3.45it/s] 59%|█████▉    | 218331/371472 [6:20:02<12:11:02,  3.49it/s] 59%|█████▉    | 218332/371472 [6:20:03<12:24:51,  3.43it/s] 59%|█████▉    | 218333/371472 [6:20:03<12:26:43,  3.42it/s] 59%|█████▉    | 218334/371472 [6:20:03<12:07:30,  3.51it/s] 59%|█████▉    | 218335/371472 [6:20:03<12:38:08,  3.37it/s] 59%|█████▉    | 218336/371472 [6:20:04<12:54:32,  3.30it/s] 59%|█████▉    | 218337/371472 [6:20:04<12:50:03,  3.31it/s] 59%|█████▉    | 218338/371472 [6:20:04<12:43:57,  3.34it/s] 59%|█████▉    | 218339/371472 [6:20:05<12:57:54,  3.28it/s] 59%|█████▉    | 218340/371472 [6:20:05<12:27:48,  3.41it/s]                                                            {'loss': 2.8319, 'learning_rate': 4.7120709345170116e-07, 'epoch': 9.4}
 59%|█████▉    | 218340/371472 [6:20:05<12:27:48,  3.41it/s] 59%|█████▉    | 218341/371472 [6:20:05<12:20:53,  3.44it/s] 59%|█████▉    | 218342/371472 [6:20:06<12:36:24,  3.37it/s] 59%|█████▉    | 218343/371472 [6:20:06<12:14:51,  3.47it/s] 59%|█████▉    | 218344/371472 [6:20:06<11:41:38,  3.64it/s] 59%|█████▉    | 218345/371472 [6:20:06<11:21:03,  3.75it/s] 59%|█████▉    | 218346/371472 [6:20:07<11:34:52,  3.67it/s] 59%|█████▉    | 218347/371472 [6:20:07<11:51:48,  3.59it/s] 59%|█████▉    | 218348/371472 [6:20:07<11:40:28,  3.64it/s] 59%|█████▉    | 218349/371472 [6:20:07<11:27:40,  3.71it/s] 59%|█████▉    | 218350/371472 [6:20:08<11:32:53,  3.68it/s] 59%|█████▉    | 218351/371472 [6:20:08<11:28:18,  3.71it/s] 59%|█████▉    | 218352/371472 [6:20:08<11:22:45,  3.74it/s] 59%|█████▉    | 218353/371472 [6:20:09<12:12:13,  3.49it/s] 59%|█████▉    | 218354/371472 [6:20:09<12:18:57,  3.45it/s] 59%|█████▉    | 218355/371472 [6:20:09<12:07:18,  3.51it/s] 59%|█████▉    | 218356/371472 [6:20:09<12:16:59,  3.46it/s] 59%|█████▉    | 218357/371472 [6:20:10<12:19:41,  3.45it/s] 59%|█████▉    | 218358/371472 [6:20:10<11:55:44,  3.57it/s] 59%|█████▉    | 218359/371472 [6:20:10<11:51:07,  3.59it/s] 59%|█████▉    | 218360/371472 [6:20:10<11:45:13,  3.62it/s]                                                            {'loss': 2.9576, 'learning_rate': 4.711586114762223e-07, 'epoch': 9.41}
 59%|█████▉    | 218360/371472 [6:20:10<11:45:13,  3.62it/s] 59%|█████▉    | 218361/371472 [6:20:11<11:58:18,  3.55it/s] 59%|█████▉    | 218362/371472 [6:20:11<11:37:56,  3.66it/s] 59%|█████▉    | 218363/371472 [6:20:11<11:55:44,  3.57it/s] 59%|█████▉    | 218364/371472 [6:20:12<12:15:41,  3.47it/s] 59%|█████▉    | 218365/371472 [6:20:12<11:54:30,  3.57it/s] 59%|█████▉    | 218366/371472 [6:20:12<11:38:22,  3.65it/s] 59%|█████▉    | 218367/371472 [6:20:13<13:11:20,  3.22it/s] 59%|█████▉    | 218368/371472 [6:20:13<14:21:33,  2.96it/s] 59%|█████▉    | 218369/371472 [6:20:13<14:16:39,  2.98it/s] 59%|█████▉    | 218370/371472 [6:20:14<13:16:33,  3.20it/s] 59%|█████▉    | 218371/371472 [6:20:14<12:50:49,  3.31it/s] 59%|█████▉    | 218372/371472 [6:20:14<12:51:10,  3.31it/s] 59%|█████▉    | 218373/371472 [6:20:14<12:29:09,  3.41it/s] 59%|█████▉    | 218374/371472 [6:20:15<11:53:25,  3.58it/s] 59%|█████▉    | 218375/371472 [6:20:15<11:37:37,  3.66it/s] 59%|█████▉    | 218376/371472 [6:20:15<12:54:24,  3.29it/s] 59%|█████▉    | 218377/371472 [6:20:16<12:17:23,  3.46it/s] 59%|█████▉    | 218378/371472 [6:20:16<12:04:40,  3.52it/s] 59%|█████▉    | 218379/371472 [6:20:16<12:09:34,  3.50it/s] 59%|█████▉    | 218380/371472 [6:20:16<12:08:24,  3.50it/s]                                                            {'loss': 3.0046, 'learning_rate': 4.7111012950074336e-07, 'epoch': 9.41}
 59%|█████▉    | 218380/371472 [6:20:16<12:08:24,  3.50it/s] 59%|█████▉    | 218381/371472 [6:20:17<12:14:36,  3.47it/s] 59%|█████▉    | 218382/371472 [6:20:17<12:22:32,  3.44it/s] 59%|█████▉    | 218383/371472 [6:20:17<12:10:49,  3.49it/s] 59%|█████▉    | 218384/371472 [6:20:17<11:48:59,  3.60it/s] 59%|█████▉    | 218385/371472 [6:20:18<11:52:39,  3.58it/s] 59%|█████▉    | 218386/371472 [6:20:18<12:20:35,  3.45it/s] 59%|█████▉    | 218387/371472 [6:20:18<12:08:45,  3.50it/s] 59%|█████▉    | 218388/371472 [6:20:19<12:13:55,  3.48it/s] 59%|█████▉    | 218389/371472 [6:20:19<12:02:06,  3.53it/s] 59%|█████▉    | 218390/371472 [6:20:19<12:23:54,  3.43it/s] 59%|█████▉    | 218391/371472 [6:20:20<13:08:51,  3.23it/s] 59%|█████▉    | 218392/371472 [6:20:20<12:34:02,  3.38it/s] 59%|█████▉    | 218393/371472 [6:20:20<12:15:28,  3.47it/s] 59%|█████▉    | 218394/371472 [6:20:20<12:12:15,  3.48it/s] 59%|█████▉    | 218395/371472 [6:20:21<12:47:03,  3.33it/s] 59%|█████▉    | 218396/371472 [6:20:21<12:13:12,  3.48it/s] 59%|█████▉    | 218397/371472 [6:20:21<12:05:11,  3.52it/s] 59%|█████▉    | 218398/371472 [6:20:22<11:48:25,  3.60it/s] 59%|█████▉    | 218399/371472 [6:20:22<11:45:21,  3.62it/s] 59%|█████▉    | 218400/371472 [6:20:22<11:48:13,  3.60it/s]                                                            {'loss': 2.9511, 'learning_rate': 4.7106164752526443e-07, 'epoch': 9.41}
 59%|█████▉    | 218400/371472 [6:20:22<11:48:13,  3.60it/s] 59%|█████▉    | 218401/371472 [6:20:22<12:09:23,  3.50it/s] 59%|█████▉    | 218402/371472 [6:20:23<11:57:58,  3.55it/s] 59%|█████▉    | 218403/371472 [6:20:23<11:59:15,  3.55it/s] 59%|█████▉    | 218404/371472 [6:20:23<11:32:31,  3.68it/s] 59%|█████▉    | 218405/371472 [6:20:24<12:10:38,  3.49it/s] 59%|█████▉    | 218406/371472 [6:20:24<12:58:46,  3.28it/s] 59%|█████▉    | 218407/371472 [6:20:24<12:28:15,  3.41it/s] 59%|█████▉    | 218408/371472 [6:20:24<12:00:21,  3.54it/s] 59%|█████▉    | 218409/371472 [6:20:25<11:37:15,  3.66it/s] 59%|█████▉    | 218410/371472 [6:20:25<11:29:03,  3.70it/s] 59%|█████▉    | 218411/371472 [6:20:25<11:28:52,  3.70it/s] 59%|█████▉    | 218412/371472 [6:20:25<11:43:30,  3.63it/s] 59%|█████▉    | 218413/371472 [6:20:26<11:34:07,  3.68it/s] 59%|█████▉    | 218414/371472 [6:20:26<11:24:00,  3.73it/s] 59%|█████▉    | 218415/371472 [6:20:26<11:38:04,  3.65it/s] 59%|█████▉    | 218416/371472 [6:20:27<11:25:03,  3.72it/s] 59%|█████▉    | 218417/371472 [6:20:27<11:40:13,  3.64it/s] 59%|█████▉    | 218418/371472 [6:20:27<11:40:57,  3.64it/s] 59%|█████▉    | 218419/371472 [6:20:27<12:10:25,  3.49it/s] 59%|█████▉    | 218420/371472 [6:20:28<11:53:39,  3.57it/s]                                                            {'loss': 2.9204, 'learning_rate': 4.710131655497856e-07, 'epoch': 9.41}
 59%|█████▉    | 218420/371472 [6:20:28<11:53:39,  3.57it/s] 59%|█████▉    | 218421/371472 [6:20:28<12:13:36,  3.48it/s] 59%|█████▉    | 218422/371472 [6:20:28<11:33:56,  3.68it/s] 59%|█████▉    | 218423/371472 [6:20:28<11:21:35,  3.74it/s] 59%|█████▉    | 218424/371472 [6:20:29<11:46:37,  3.61it/s] 59%|█████▉    | 218425/371472 [6:20:29<12:07:02,  3.51it/s] 59%|█████▉    | 218426/371472 [6:20:29<11:59:18,  3.55it/s] 59%|█████▉    | 218427/371472 [6:20:30<12:48:05,  3.32it/s] 59%|█████▉    | 218428/371472 [6:20:30<12:25:55,  3.42it/s] 59%|█████▉    | 218429/371472 [6:20:30<12:27:30,  3.41it/s] 59%|█████▉    | 218430/371472 [6:20:31<12:09:08,  3.50it/s] 59%|█████▉    | 218431/371472 [6:20:31<11:45:04,  3.62it/s] 59%|█████▉    | 218432/371472 [6:20:31<11:49:52,  3.59it/s] 59%|█████▉    | 218433/371472 [6:20:31<11:11:38,  3.80it/s] 59%|█████▉    | 218434/371472 [6:20:32<11:55:18,  3.57it/s] 59%|█████▉    | 218435/371472 [6:20:32<12:21:03,  3.44it/s] 59%|█████▉    | 218436/371472 [6:20:32<12:23:16,  3.43it/s] 59%|█████▉    | 218437/371472 [6:20:33<12:27:03,  3.41it/s] 59%|█████▉    | 218438/371472 [6:20:33<13:25:42,  3.17it/s] 59%|█████▉    | 218439/371472 [6:20:33<12:54:44,  3.29it/s] 59%|█████▉    | 218440/371472 [6:20:33<12:42:56,  3.34it/s]                                                            {'loss': 2.7685, 'learning_rate': 4.709646835743066e-07, 'epoch': 9.41}
 59%|█████▉    | 218440/371472 [6:20:33<12:42:56,  3.34it/s] 59%|█████▉    | 218441/371472 [6:20:34<12:17:58,  3.46it/s] 59%|█████▉    | 218442/371472 [6:20:34<12:42:01,  3.35it/s] 59%|█████▉    | 218443/371472 [6:20:34<12:17:46,  3.46it/s] 59%|█████▉    | 218444/371472 [6:20:35<12:01:08,  3.54it/s] 59%|█████▉    | 218445/371472 [6:20:35<11:55:57,  3.56it/s] 59%|█████▉    | 218446/371472 [6:20:35<11:54:43,  3.57it/s] 59%|█████▉    | 218447/371472 [6:20:35<12:03:20,  3.53it/s] 59%|█████▉    | 218448/371472 [6:20:36<12:49:01,  3.32it/s] 59%|█████▉    | 218449/371472 [6:20:36<12:29:56,  3.40it/s] 59%|█████▉    | 218450/371472 [6:20:36<12:10:22,  3.49it/s] 59%|█████▉    | 218451/371472 [6:20:37<12:07:26,  3.51it/s] 59%|█████▉    | 218452/371472 [6:20:37<12:34:28,  3.38it/s] 59%|█████▉    | 218453/371472 [6:20:37<12:32:40,  3.39it/s] 59%|█████▉    | 218454/371472 [6:20:37<12:09:11,  3.50it/s] 59%|█████▉    | 218455/371472 [6:20:38<11:47:20,  3.61it/s] 59%|█████▉    | 218456/371472 [6:20:38<13:53:14,  3.06it/s] 59%|█████▉    | 218457/371472 [6:20:38<13:20:29,  3.19it/s] 59%|█████▉    | 218458/371472 [6:20:39<13:46:19,  3.09it/s] 59%|█████▉    | 218459/371472 [6:20:39<13:18:45,  3.19it/s] 59%|█████▉    | 218460/371472 [6:20:39<13:12:14,  3.22it/s]                                                            {'loss': 3.0564, 'learning_rate': 4.709162015988278e-07, 'epoch': 9.41}
 59%|█████▉    | 218460/371472 [6:20:39<13:12:14,  3.22it/s] 59%|█████▉    | 218461/371472 [6:20:40<12:55:25,  3.29it/s] 59%|█████▉    | 218462/371472 [6:20:40<12:13:56,  3.47it/s] 59%|█████▉    | 218463/371472 [6:20:40<11:59:49,  3.54it/s] 59%|█████▉    | 218464/371472 [6:20:40<11:45:13,  3.62it/s] 59%|█████▉    | 218465/371472 [6:20:41<11:24:50,  3.72it/s] 59%|█████▉    | 218466/371472 [6:20:41<12:13:59,  3.47it/s] 59%|█████▉    | 218467/371472 [6:20:41<12:03:18,  3.53it/s] 59%|█████▉    | 218468/371472 [6:20:42<11:47:32,  3.60it/s] 59%|█████▉    | 218469/371472 [6:20:42<11:59:29,  3.54it/s] 59%|█████▉    | 218470/371472 [6:20:42<11:59:42,  3.54it/s] 59%|█████▉    | 218471/371472 [6:20:42<11:42:52,  3.63it/s] 59%|█████▉    | 218472/371472 [6:20:43<12:14:07,  3.47it/s] 59%|█████▉    | 218473/371472 [6:20:43<12:11:38,  3.49it/s] 59%|█████▉    | 218474/371472 [6:20:43<12:35:30,  3.38it/s] 59%|█████▉    | 218475/371472 [6:20:44<12:28:30,  3.41it/s] 59%|█████▉    | 218476/371472 [6:20:44<12:17:24,  3.46it/s] 59%|█████▉    | 218477/371472 [6:20:44<12:11:05,  3.49it/s] 59%|█████▉    | 218478/371472 [6:20:44<12:01:16,  3.54it/s] 59%|█████▉    | 218479/371472 [6:20:45<12:04:34,  3.52it/s] 59%|█████▉    | 218480/371472 [6:20:45<12:54:40,  3.29it/s]                                                            {'loss': 2.9354, 'learning_rate': 4.708677196233489e-07, 'epoch': 9.41}
 59%|█████▉    | 218480/371472 [6:20:45<12:54:40,  3.29it/s] 59%|█████▉    | 218481/371472 [6:20:45<12:30:33,  3.40it/s] 59%|█████▉    | 218482/371472 [6:20:46<11:57:03,  3.56it/s] 59%|█████▉    | 218483/371472 [6:20:46<12:11:00,  3.49it/s] 59%|█████▉    | 218484/371472 [6:20:46<12:15:29,  3.47it/s] 59%|█████▉    | 218485/371472 [6:20:47<12:28:33,  3.41it/s] 59%|█████▉    | 218486/371472 [6:20:47<12:32:50,  3.39it/s] 59%|█████▉    | 218487/371472 [6:20:47<12:14:44,  3.47it/s] 59%|█████▉    | 218488/371472 [6:20:47<12:46:06,  3.33it/s] 59%|█████▉    | 218489/371472 [6:20:48<12:39:37,  3.36it/s] 59%|█████▉    | 218490/371472 [6:20:48<12:09:01,  3.50it/s] 59%|█████▉    | 218491/371472 [6:20:48<12:01:39,  3.53it/s] 59%|█████▉    | 218492/371472 [6:20:49<11:56:55,  3.56it/s] 59%|█████▉    | 218493/371472 [6:20:49<12:00:12,  3.54it/s] 59%|█████▉    | 218494/371472 [6:20:49<11:50:02,  3.59it/s] 59%|█████▉    | 218495/371472 [6:20:49<11:46:24,  3.61it/s] 59%|█████▉    | 218496/371472 [6:20:50<11:27:57,  3.71it/s] 59%|█████▉    | 218497/371472 [6:20:50<11:11:12,  3.80it/s] 59%|█████▉    | 218498/371472 [6:20:50<11:22:34,  3.74it/s] 59%|█████▉    | 218499/371472 [6:20:50<11:50:15,  3.59it/s] 59%|█████▉    | 218500/371472 [6:20:51<11:36:53,  3.66it/s]                                                            {'loss': 3.1284, 'learning_rate': 4.7081923764787e-07, 'epoch': 9.41}
 59%|█████▉    | 218500/371472 [6:20:51<11:36:53,  3.66it/s] 59%|█████▉    | 218501/371472 [6:20:51<12:00:23,  3.54it/s] 59%|█████▉    | 218502/371472 [6:20:51<12:20:13,  3.44it/s] 59%|█████▉    | 218503/371472 [6:20:52<12:07:59,  3.50it/s] 59%|█████▉    | 218504/371472 [6:20:52<11:55:46,  3.56it/s] 59%|█████▉    | 218505/371472 [6:20:52<11:49:15,  3.59it/s] 59%|█████▉    | 218506/371472 [6:20:52<11:44:59,  3.62it/s] 59%|█████▉    | 218507/371472 [6:20:53<11:35:59,  3.66it/s] 59%|█████▉    | 218508/371472 [6:20:53<12:11:05,  3.49it/s] 59%|█████▉    | 218509/371472 [6:20:53<12:04:20,  3.52it/s] 59%|█████▉    | 218510/371472 [6:20:54<12:25:07,  3.42it/s] 59%|█████▉    | 218511/371472 [6:20:54<12:00:43,  3.54it/s] 59%|█████▉    | 218512/371472 [6:20:54<12:01:41,  3.53it/s] 59%|█████▉    | 218513/371472 [6:20:54<11:32:44,  3.68it/s] 59%|█████▉    | 218514/371472 [6:20:55<12:24:53,  3.42it/s] 59%|█████▉    | 218515/371472 [6:20:55<12:24:00,  3.43it/s] 59%|█████▉    | 218516/371472 [6:20:55<12:11:21,  3.49it/s] 59%|█████▉    | 218517/371472 [6:20:56<12:16:10,  3.46it/s] 59%|█████▉    | 218518/371472 [6:20:56<12:26:56,  3.41it/s] 59%|█████▉    | 218519/371472 [6:20:56<12:13:18,  3.48it/s] 59%|█████▉    | 218520/371472 [6:20:56<12:52:37,  3.30it/s]                                                            {'loss': 2.8839, 'learning_rate': 4.7077075567239107e-07, 'epoch': 9.41}
 59%|█████▉    | 218520/371472 [6:20:56<12:52:37,  3.30it/s] 59%|█████▉    | 218521/371472 [6:20:57<13:31:21,  3.14it/s] 59%|█████▉    | 218522/371472 [6:20:57<13:02:07,  3.26it/s] 59%|█████▉    | 218523/371472 [6:20:57<12:53:00,  3.30it/s] 59%|█████▉    | 218524/371472 [6:20:58<12:24:55,  3.42it/s] 59%|█████▉    | 218525/371472 [6:20:58<12:41:52,  3.35it/s] 59%|█████▉    | 218526/371472 [6:20:58<12:58:46,  3.27it/s] 59%|█████▉    | 218527/371472 [6:20:59<12:21:01,  3.44it/s] 59%|█████▉    | 218528/371472 [6:20:59<12:07:52,  3.50it/s] 59%|█████▉    | 218529/371472 [6:20:59<12:23:23,  3.43it/s] 59%|█████▉    | 218530/371472 [6:20:59<12:17:42,  3.46it/s] 59%|█████▉    | 218531/371472 [6:21:00<12:42:16,  3.34it/s] 59%|█████▉    | 218532/371472 [6:21:00<13:20:14,  3.19it/s] 59%|█████▉    | 218533/371472 [6:21:00<13:44:44,  3.09it/s] 59%|█████▉    | 218534/371472 [6:21:01<13:35:38,  3.13it/s] 59%|█████▉    | 218535/371472 [6:21:01<13:15:46,  3.20it/s] 59%|█████▉    | 218536/371472 [6:21:01<12:49:43,  3.31it/s] 59%|█████▉    | 218537/371472 [6:21:02<13:17:24,  3.20it/s] 59%|█████▉    | 218538/371472 [6:21:02<13:05:03,  3.25it/s] 59%|█████▉    | 218539/371472 [6:21:02<12:55:59,  3.28it/s] 59%|█████▉    | 218540/371472 [6:21:03<13:13:09,  3.21it/s]                                                            {'loss': 3.0707, 'learning_rate': 4.7072227369691225e-07, 'epoch': 9.41}
 59%|█████▉    | 218540/371472 [6:21:03<13:13:09,  3.21it/s] 59%|█████▉    | 218541/371472 [6:21:03<12:29:46,  3.40it/s] 59%|█████▉    | 218542/371472 [6:21:03<12:52:10,  3.30it/s] 59%|█████▉    | 218543/371472 [6:21:03<12:27:01,  3.41it/s] 59%|█████▉    | 218544/371472 [6:21:04<12:03:08,  3.52it/s] 59%|█████▉    | 218545/371472 [6:21:04<11:43:56,  3.62it/s] 59%|█████▉    | 218546/371472 [6:21:04<11:25:31,  3.72it/s] 59%|█████▉    | 218547/371472 [6:21:04<11:33:48,  3.67it/s] 59%|█████▉    | 218548/371472 [6:21:05<11:23:16,  3.73it/s] 59%|█████▉    | 218549/371472 [6:21:05<11:43:15,  3.62it/s] 59%|█████▉    | 218550/371472 [6:21:05<11:39:48,  3.64it/s] 59%|█████▉    | 218551/371472 [6:21:06<12:10:06,  3.49it/s] 59%|█████▉    | 218552/371472 [6:21:06<12:05:55,  3.51it/s] 59%|█████▉    | 218553/371472 [6:21:06<11:50:19,  3.59it/s] 59%|█████▉    | 218554/371472 [6:21:06<12:06:20,  3.51it/s] 59%|█████▉    | 218555/371472 [6:21:07<12:13:23,  3.48it/s] 59%|█████▉    | 218556/371472 [6:21:07<11:44:00,  3.62it/s] 59%|█████▉    | 218557/371472 [6:21:07<11:26:45,  3.71it/s] 59%|█████▉    | 218558/371472 [6:21:08<11:08:55,  3.81it/s] 59%|█████▉    | 218559/371472 [6:21:08<11:27:10,  3.71it/s] 59%|█████▉    | 218560/371472 [6:21:08<11:35:44,  3.66it/s]                                                            {'loss': 2.9712, 'learning_rate': 4.7067379172143327e-07, 'epoch': 9.41}
 59%|█████▉    | 218560/371472 [6:21:08<11:35:44,  3.66it/s] 59%|█████▉    | 218561/371472 [6:21:08<12:07:22,  3.50it/s] 59%|█████▉    | 218562/371472 [6:21:09<12:17:19,  3.46it/s] 59%|█████▉    | 218563/371472 [6:21:09<12:08:54,  3.50it/s] 59%|█████▉    | 218564/371472 [6:21:09<11:53:42,  3.57it/s] 59%|█████▉    | 218565/371472 [6:21:10<11:56:22,  3.56it/s] 59%|█████▉    | 218566/371472 [6:21:10<11:35:00,  3.67it/s] 59%|█████▉    | 218567/371472 [6:21:10<12:02:12,  3.53it/s] 59%|█████▉    | 218568/371472 [6:21:10<11:58:41,  3.55it/s] 59%|█████▉    | 218569/371472 [6:21:11<11:55:55,  3.56it/s] 59%|█████▉    | 218570/371472 [6:21:11<11:39:03,  3.65it/s] 59%|█████▉    | 218571/371472 [6:21:11<11:36:02,  3.66it/s] 59%|█████▉    | 218572/371472 [6:21:11<11:13:57,  3.78it/s] 59%|█████▉    | 218573/371472 [6:21:12<11:21:30,  3.74it/s] 59%|█████▉    | 218574/371472 [6:21:12<11:36:21,  3.66it/s] 59%|█████▉    | 218575/371472 [6:21:12<11:28:55,  3.70it/s] 59%|█████▉    | 218576/371472 [6:21:13<11:47:13,  3.60it/s] 59%|█████▉    | 218577/371472 [6:21:13<12:58:36,  3.27it/s] 59%|█████▉    | 218578/371472 [6:21:13<12:56:24,  3.28it/s] 59%|█████▉    | 218579/371472 [6:21:13<12:30:49,  3.39it/s] 59%|█████▉    | 218580/371472 [6:21:14<12:27:24,  3.41it/s]                                                            {'loss': 2.9166, 'learning_rate': 4.7062530974595444e-07, 'epoch': 9.41}
 59%|█████▉    | 218580/371472 [6:21:14<12:27:24,  3.41it/s] 59%|█████▉    | 218581/371472 [6:21:14<12:13:45,  3.47it/s] 59%|█████▉    | 218582/371472 [6:21:14<13:03:17,  3.25it/s] 59%|█████▉    | 218583/371472 [6:21:15<12:37:27,  3.36it/s] 59%|█████▉    | 218584/371472 [6:21:15<12:14:48,  3.47it/s] 59%|█████▉    | 218585/371472 [6:21:15<12:31:32,  3.39it/s] 59%|█████▉    | 218586/371472 [6:21:16<12:05:52,  3.51it/s] 59%|█████▉    | 218587/371472 [6:21:16<12:03:22,  3.52it/s] 59%|█████▉    | 218588/371472 [6:21:16<12:02:34,  3.53it/s] 59%|█████▉    | 218589/371472 [6:21:16<11:37:58,  3.65it/s] 59%|█████▉    | 218590/371472 [6:21:17<11:57:24,  3.55it/s] 59%|█████▉    | 218591/371472 [6:21:17<12:17:58,  3.45it/s] 59%|█████▉    | 218592/371472 [6:21:17<12:05:04,  3.51it/s] 59%|█████▉    | 218593/371472 [6:21:17<11:56:40,  3.56it/s] 59%|█████▉    | 218594/371472 [6:21:18<12:11:55,  3.48it/s] 59%|█████▉    | 218595/371472 [6:21:18<12:25:01,  3.42it/s] 59%|█████▉    | 218596/371472 [6:21:18<12:59:15,  3.27it/s] 59%|█████▉    | 218597/371472 [6:21:19<12:50:55,  3.30it/s] 59%|█████▉    | 218598/371472 [6:21:19<13:08:25,  3.23it/s] 59%|█████▉    | 218599/371472 [6:21:19<12:39:33,  3.35it/s] 59%|█████▉    | 218600/371472 [6:21:20<13:30:21,  3.14it/s]                                                            {'loss': 2.9336, 'learning_rate': 4.705768277704755e-07, 'epoch': 9.42}
 59%|█████▉    | 218600/371472 [6:21:20<13:30:21,  3.14it/s] 59%|█████▉    | 218601/371472 [6:21:20<13:08:38,  3.23it/s] 59%|█████▉    | 218602/371472 [6:21:20<12:52:43,  3.30it/s] 59%|█████▉    | 218603/371472 [6:21:21<12:56:11,  3.28it/s] 59%|█████▉    | 218604/371472 [6:21:21<12:32:23,  3.39it/s] 59%|█████▉    | 218605/371472 [6:21:21<12:19:49,  3.44it/s] 59%|█████▉    | 218606/371472 [6:21:21<12:24:47,  3.42it/s] 59%|█████▉    | 218607/371472 [6:21:22<13:24:34,  3.17it/s] 59%|█████▉    | 218608/371472 [6:21:22<13:42:44,  3.10it/s] 59%|█████▉    | 218609/371472 [6:21:22<14:17:59,  2.97it/s] 59%|█████▉    | 218610/371472 [6:21:23<13:18:08,  3.19it/s] 59%|█████▉    | 218611/371472 [6:21:23<12:44:52,  3.33it/s] 59%|█████▉    | 218612/371472 [6:21:23<12:35:26,  3.37it/s] 59%|█████▉    | 218613/371472 [6:21:24<12:58:36,  3.27it/s] 59%|█████▉    | 218614/371472 [6:21:24<13:23:39,  3.17it/s] 59%|█████▉    | 218615/371472 [6:21:24<13:15:19,  3.20it/s] 59%|█████▉    | 218616/371472 [6:21:25<12:20:50,  3.44it/s] 59%|█████▉    | 218617/371472 [6:21:25<12:05:35,  3.51it/s] 59%|█████▉    | 218618/371472 [6:21:25<11:44:19,  3.62it/s] 59%|█████▉    | 218619/371472 [6:21:25<12:08:06,  3.50it/s] 59%|█████▉    | 218620/371472 [6:21:26<12:26:01,  3.41it/s]                                                            {'loss': 2.8088, 'learning_rate': 4.7052834579499664e-07, 'epoch': 9.42}
 59%|█████▉    | 218620/371472 [6:21:26<12:26:01,  3.41it/s] 59%|█████▉    | 218621/371472 [6:21:26<11:57:52,  3.55it/s] 59%|█████▉    | 218622/371472 [6:21:26<11:42:33,  3.63it/s] 59%|█████▉    | 218623/371472 [6:21:26<11:38:24,  3.65it/s] 59%|█████▉    | 218624/371472 [6:21:27<11:41:49,  3.63it/s] 59%|█████▉    | 218625/371472 [6:21:27<11:56:30,  3.56it/s] 59%|█████▉    | 218626/371472 [6:21:27<11:51:00,  3.58it/s] 59%|█████▉    | 218627/371472 [6:21:28<11:56:22,  3.56it/s] 59%|█████▉    | 218628/371472 [6:21:28<11:44:38,  3.62it/s] 59%|█████▉    | 218629/371472 [6:21:28<12:07:42,  3.50it/s] 59%|█████▉    | 218630/371472 [6:21:28<11:38:14,  3.65it/s] 59%|█████▉    | 218631/371472 [6:21:29<11:31:11,  3.69it/s] 59%|█████▉    | 218632/371472 [6:21:29<11:39:31,  3.64it/s] 59%|█████▉    | 218633/371472 [6:21:29<11:52:12,  3.58it/s] 59%|█████▉    | 218634/371472 [6:21:30<12:44:55,  3.33it/s] 59%|█████▉    | 218635/371472 [6:21:30<12:30:44,  3.39it/s] 59%|█████▉    | 218636/371472 [6:21:30<13:19:14,  3.19it/s] 59%|█████▉    | 218637/371472 [6:21:30<12:41:15,  3.35it/s] 59%|█████▉    | 218638/371472 [6:21:31<13:21:21,  3.18it/s] 59%|█████▉    | 218639/371472 [6:21:31<12:41:50,  3.34it/s] 59%|█████▉    | 218640/371472 [6:21:31<12:19:11,  3.45it/s]                                                            {'loss': 3.0166, 'learning_rate': 4.704798638195177e-07, 'epoch': 9.42}
 59%|█████▉    | 218640/371472 [6:21:31<12:19:11,  3.45it/s] 59%|█████▉    | 218641/371472 [6:21:32<12:49:02,  3.31it/s] 59%|█████▉    | 218642/371472 [6:21:32<12:46:46,  3.32it/s] 59%|█████▉    | 218643/371472 [6:21:32<12:33:23,  3.38it/s] 59%|█████▉    | 218644/371472 [6:21:33<13:01:16,  3.26it/s] 59%|█████▉    | 218645/371472 [6:21:33<15:01:40,  2.82it/s] 59%|█████▉    | 218646/371472 [6:21:33<14:33:40,  2.92it/s] 59%|█████▉    | 218647/371472 [6:21:34<13:59:18,  3.03it/s] 59%|█████▉    | 218648/371472 [6:21:34<13:31:01,  3.14it/s] 59%|█████▉    | 218649/371472 [6:21:34<13:06:09,  3.24it/s] 59%|█████▉    | 218650/371472 [6:21:35<12:36:45,  3.37it/s] 59%|█████▉    | 218651/371472 [6:21:35<12:30:36,  3.39it/s] 59%|█████▉    | 218652/371472 [6:21:35<12:07:59,  3.50it/s] 59%|█████▉    | 218653/371472 [6:21:35<11:50:40,  3.58it/s] 59%|█████▉    | 218654/371472 [6:21:36<11:35:31,  3.66it/s] 59%|█████▉    | 218655/371472 [6:21:36<11:47:35,  3.60it/s] 59%|█████▉    | 218656/371472 [6:21:36<12:44:39,  3.33it/s] 59%|█████▉    | 218657/371472 [6:21:37<12:10:57,  3.48it/s] 59%|█████▉    | 218658/371472 [6:21:37<12:08:27,  3.50it/s] 59%|█████▉    | 218659/371472 [6:21:37<11:55:25,  3.56it/s] 59%|█████▉    | 218660/371472 [6:21:37<11:53:00,  3.57it/s]                                                            {'loss': 2.977, 'learning_rate': 4.704313818440389e-07, 'epoch': 9.42}
 59%|█████▉    | 218660/371472 [6:21:37<11:53:00,  3.57it/s] 59%|█████▉    | 218661/371472 [6:21:38<11:47:04,  3.60it/s] 59%|█████▉    | 218662/371472 [6:21:38<11:34:33,  3.67it/s] 59%|█████▉    | 218663/371472 [6:21:38<11:22:25,  3.73it/s] 59%|█████▉    | 218664/371472 [6:21:38<11:12:23,  3.79it/s] 59%|█████▉    | 218665/371472 [6:21:39<11:21:08,  3.74it/s] 59%|█████▉    | 218666/371472 [6:21:39<11:27:09,  3.71it/s] 59%|█████▉    | 218667/371472 [6:21:39<11:45:15,  3.61it/s] 59%|█████▉    | 218668/371472 [6:21:40<11:52:23,  3.57it/s] 59%|█████▉    | 218669/371472 [6:21:40<12:10:39,  3.49it/s] 59%|█████▉    | 218670/371472 [6:21:40<11:55:46,  3.56it/s] 59%|█████▉    | 218671/371472 [6:21:40<12:12:33,  3.48it/s] 59%|█████▉    | 218672/371472 [6:21:41<12:05:25,  3.51it/s] 59%|█████▉    | 218673/371472 [6:21:41<12:00:07,  3.54it/s] 59%|█████▉    | 218674/371472 [6:21:41<11:47:40,  3.60it/s] 59%|█████▉    | 218675/371472 [6:21:41<11:47:06,  3.60it/s] 59%|█████▉    | 218676/371472 [6:21:42<12:02:29,  3.52it/s] 59%|█████▉    | 218677/371472 [6:21:42<12:15:57,  3.46it/s] 59%|█████▉    | 218678/371472 [6:21:42<12:11:11,  3.48it/s] 59%|█████▉    | 218679/371472 [6:21:43<12:30:49,  3.39it/s] 59%|█████▉    | 218680/371472 [6:21:43<12:38:19,  3.36it/s]                                                            {'loss': 3.0252, 'learning_rate': 4.7038289986855996e-07, 'epoch': 9.42}
 59%|█████▉    | 218680/371472 [6:21:43<12:38:19,  3.36it/s] 59%|█████▉    | 218681/371472 [6:21:43<13:11:38,  3.22it/s] 59%|█████▉    | 218682/371472 [6:21:44<12:25:07,  3.42it/s] 59%|█████▉    | 218683/371472 [6:21:44<12:31:50,  3.39it/s] 59%|█████▉    | 218684/371472 [6:21:44<12:26:36,  3.41it/s] 59%|█████▉    | 218685/371472 [6:21:44<11:52:55,  3.57it/s] 59%|█████▉    | 218686/371472 [6:21:45<11:35:22,  3.66it/s] 59%|█████▉    | 218687/371472 [6:21:45<11:28:59,  3.70it/s] 59%|█████▉    | 218688/371472 [6:21:45<12:00:19,  3.54it/s] 59%|█████▉    | 218689/371472 [6:21:46<13:03:20,  3.25it/s] 59%|█████▉    | 218690/371472 [6:21:46<13:31:36,  3.14it/s] 59%|█████▉    | 218691/371472 [6:21:46<12:57:40,  3.27it/s] 59%|█████▉    | 218692/371472 [6:21:46<12:11:30,  3.48it/s] 59%|█████▉    | 218693/371472 [6:21:47<12:16:42,  3.46it/s] 59%|█████▉    | 218694/371472 [6:21:47<12:19:17,  3.44it/s] 59%|█████▉    | 218695/371472 [6:21:47<12:14:53,  3.46it/s] 59%|█████▉    | 218696/371472 [6:21:48<11:53:47,  3.57it/s] 59%|█████▉    | 218697/371472 [6:21:48<11:58:52,  3.54it/s] 59%|█████▉    | 218698/371472 [6:21:48<12:04:17,  3.52it/s] 59%|█████▉    | 218699/371472 [6:21:48<12:10:33,  3.49it/s] 59%|█████▉    | 218700/371472 [6:21:49<12:07:16,  3.50it/s]                                                            {'loss': 2.8083, 'learning_rate': 4.703344178930811e-07, 'epoch': 9.42}
 59%|█████▉    | 218700/371472 [6:21:49<12:07:16,  3.50it/s] 59%|█████▉    | 218701/371472 [6:21:49<12:15:14,  3.46it/s] 59%|█████▉    | 218702/371472 [6:21:49<12:00:30,  3.53it/s] 59%|█████▉    | 218703/371472 [6:21:50<13:58:43,  3.04it/s] 59%|█████▉    | 218704/371472 [6:21:50<13:31:25,  3.14it/s] 59%|█████▉    | 218705/371472 [6:21:50<13:20:50,  3.18it/s] 59%|█████▉    | 218706/371472 [6:21:51<13:10:53,  3.22it/s] 59%|█████▉    | 218707/371472 [6:21:51<13:05:35,  3.24it/s] 59%|█████▉    | 218708/371472 [6:21:51<13:21:44,  3.18it/s] 59%|█████▉    | 218709/371472 [6:21:52<13:11:46,  3.22it/s] 59%|█████▉    | 218710/371472 [6:21:52<13:02:34,  3.25it/s] 59%|█████▉    | 218711/371472 [6:21:52<12:24:53,  3.42it/s] 59%|█████▉    | 218712/371472 [6:21:52<12:08:56,  3.49it/s] 59%|█████▉    | 218713/371472 [6:21:53<12:05:35,  3.51it/s] 59%|█████▉    | 218714/371472 [6:21:53<12:08:34,  3.49it/s] 59%|█████▉    | 218715/371472 [6:21:53<12:43:46,  3.33it/s] 59%|█████▉    | 218716/371472 [6:21:54<12:16:25,  3.46it/s] 59%|█████▉    | 218717/371472 [6:21:54<12:37:26,  3.36it/s] 59%|█████▉    | 218718/371472 [6:21:54<12:20:10,  3.44it/s] 59%|█████▉    | 218719/371472 [6:21:55<12:28:56,  3.40it/s] 59%|█████▉    | 218720/371472 [6:21:55<12:44:49,  3.33it/s]                                                            {'loss': 2.8586, 'learning_rate': 4.702859359176022e-07, 'epoch': 9.42}
 59%|█████▉    | 218720/371472 [6:21:55<12:44:49,  3.33it/s] 59%|█████▉    | 218721/371472 [6:21:55<12:53:31,  3.29it/s] 59%|█████▉    | 218722/371472 [6:21:55<12:56:00,  3.28it/s] 59%|█████▉    | 218723/371472 [6:21:56<12:06:33,  3.50it/s] 59%|█████▉    | 218724/371472 [6:21:56<12:27:02,  3.41it/s] 59%|█████▉    | 218725/371472 [6:21:56<12:08:49,  3.49it/s] 59%|█████▉    | 218726/371472 [6:21:57<11:57:13,  3.55it/s] 59%|█████▉    | 218727/371472 [6:21:57<12:16:58,  3.45it/s] 59%|█████▉    | 218728/371472 [6:21:57<12:05:52,  3.51it/s] 59%|█████▉    | 218729/371472 [6:21:57<11:53:21,  3.57it/s] 59%|█████▉    | 218730/371472 [6:21:58<11:47:47,  3.60it/s] 59%|█████▉    | 218731/371472 [6:21:58<11:50:14,  3.58it/s] 59%|█████▉    | 218732/371472 [6:21:58<11:56:57,  3.55it/s] 59%|█████▉    | 218733/371472 [6:21:58<11:35:40,  3.66it/s] 59%|█████▉    | 218734/371472 [6:21:59<11:36:45,  3.65it/s] 59%|█████▉    | 218735/371472 [6:21:59<11:46:37,  3.60it/s] 59%|█████▉    | 218736/371472 [6:21:59<11:48:49,  3.59it/s] 59%|█████▉    | 218737/371472 [6:22:00<12:10:33,  3.48it/s] 59%|█████▉    | 218738/371472 [6:22:00<12:34:37,  3.37it/s] 59%|█████▉    | 218739/371472 [6:22:00<12:13:17,  3.47it/s] 59%|█████▉    | 218740/371472 [6:22:00<12:03:10,  3.52it/s]                                                            {'loss': 2.8679, 'learning_rate': 4.7023745394212333e-07, 'epoch': 9.42}
 59%|█████▉    | 218740/371472 [6:22:00<12:03:10,  3.52it/s] 59%|█████▉    | 218741/371472 [6:22:01<12:36:34,  3.36it/s] 59%|█████▉    | 218742/371472 [6:22:01<12:39:56,  3.35it/s] 59%|█████▉    | 218743/371472 [6:22:01<12:20:00,  3.44it/s] 59%|█████▉    | 218744/371472 [6:22:02<12:22:18,  3.43it/s] 59%|█████▉    | 218745/371472 [6:22:02<12:55:31,  3.28it/s] 59%|█████▉    | 218746/371472 [6:22:02<12:50:23,  3.30it/s] 59%|█████▉    | 218747/371472 [6:22:03<12:37:04,  3.36it/s] 59%|█████▉    | 218748/371472 [6:22:03<12:46:44,  3.32it/s] 59%|█████▉    | 218749/371472 [6:22:03<12:29:19,  3.40it/s] 59%|█████▉    | 218750/371472 [6:22:03<12:16:57,  3.45it/s] 59%|█████▉    | 218751/371472 [6:22:04<12:02:52,  3.52it/s] 59%|█████▉    | 218752/371472 [6:22:04<11:36:59,  3.65it/s] 59%|█████▉    | 218753/371472 [6:22:04<11:38:01,  3.65it/s] 59%|█████▉    | 218754/371472 [6:22:05<11:36:49,  3.65it/s] 59%|█████▉    | 218755/371472 [6:22:05<11:26:03,  3.71it/s] 59%|█████▉    | 218756/371472 [6:22:05<11:35:46,  3.66it/s] 59%|█████▉    | 218757/371472 [6:22:05<11:42:52,  3.62it/s] 59%|█████▉    | 218758/371472 [6:22:06<11:35:24,  3.66it/s] 59%|█████▉    | 218759/371472 [6:22:06<11:09:17,  3.80it/s] 59%|█████▉    | 218760/371472 [6:22:06<11:23:39,  3.72it/s]                                                            {'loss': 2.9548, 'learning_rate': 4.7018897196664435e-07, 'epoch': 9.42}
 59%|█████▉    | 218760/371472 [6:22:06<11:23:39,  3.72it/s] 59%|█████▉    | 218761/371472 [6:22:06<11:21:16,  3.74it/s] 59%|█████▉    | 218762/371472 [6:22:07<12:01:44,  3.53it/s] 59%|█████▉    | 218763/371472 [6:22:07<12:01:39,  3.53it/s] 59%|█████▉    | 218764/371472 [6:22:07<12:52:36,  3.29it/s] 59%|█████▉    | 218765/371472 [6:22:08<12:47:51,  3.31it/s] 59%|█████▉    | 218766/371472 [6:22:08<12:33:48,  3.38it/s] 59%|█████▉    | 218767/371472 [6:22:08<12:19:00,  3.44it/s] 59%|█████▉    | 218768/371472 [6:22:09<12:27:43,  3.40it/s] 59%|█████▉    | 218769/371472 [6:22:09<12:17:57,  3.45it/s] 59%|█████▉    | 218770/371472 [6:22:09<12:17:59,  3.45it/s] 59%|█████▉    | 218771/371472 [6:22:09<11:56:09,  3.55it/s] 59%|█████▉    | 218772/371472 [6:22:10<12:33:24,  3.38it/s] 59%|█████▉    | 218773/371472 [6:22:10<13:04:07,  3.25it/s] 59%|█████▉    | 218774/371472 [6:22:10<12:26:49,  3.41it/s] 59%|█████▉    | 218775/371472 [6:22:11<12:33:18,  3.38it/s] 59%|█████▉    | 218776/371472 [6:22:11<12:22:17,  3.43it/s] 59%|█████▉    | 218777/371472 [6:22:11<12:09:24,  3.49it/s] 59%|█████▉    | 218778/371472 [6:22:11<11:48:11,  3.59it/s] 59%|█████▉    | 218779/371472 [6:22:12<13:03:01,  3.25it/s] 59%|█████▉    | 218780/371472 [6:22:12<12:34:19,  3.37it/s]                                                            {'loss': 2.8789, 'learning_rate': 4.7014048999116553e-07, 'epoch': 9.42}
 59%|█████▉    | 218780/371472 [6:22:12<12:34:19,  3.37it/s] 59%|█████▉    | 218781/371472 [6:22:12<12:37:42,  3.36it/s] 59%|█████▉    | 218782/371472 [6:22:13<12:49:10,  3.31it/s] 59%|█████▉    | 218783/371472 [6:22:13<12:39:51,  3.35it/s] 59%|█████▉    | 218784/371472 [6:22:13<12:14:14,  3.47it/s] 59%|█████▉    | 218785/371472 [6:22:14<12:44:09,  3.33it/s] 59%|█████▉    | 218786/371472 [6:22:14<13:38:49,  3.11it/s] 59%|█████▉    | 218787/371472 [6:22:14<13:19:50,  3.18it/s] 59%|█████▉    | 218788/371472 [6:22:15<13:41:31,  3.10it/s] 59%|█████▉    | 218789/371472 [6:22:15<13:23:55,  3.17it/s] 59%|█████▉    | 218790/371472 [6:22:15<12:40:24,  3.35it/s] 59%|█████▉    | 218791/371472 [6:22:15<12:25:38,  3.41it/s] 59%|█████▉    | 218792/371472 [6:22:16<12:32:07,  3.38it/s] 59%|█████▉    | 218793/371472 [6:22:16<12:08:04,  3.50it/s] 59%|█████▉    | 218794/371472 [6:22:16<11:54:11,  3.56it/s] 59%|█████▉    | 218795/371472 [6:22:17<12:00:35,  3.53it/s] 59%|█████▉    | 218796/371472 [6:22:17<12:30:44,  3.39it/s] 59%|█████▉    | 218797/371472 [6:22:17<12:29:47,  3.39it/s] 59%|█████▉    | 218798/371472 [6:22:17<12:24:38,  3.42it/s] 59%|█████▉    | 218799/371472 [6:22:18<12:27:28,  3.40it/s] 59%|█████▉    | 218800/371472 [6:22:18<12:13:25,  3.47it/s]                                                            {'loss': 2.7819, 'learning_rate': 4.700920080156866e-07, 'epoch': 9.42}
 59%|█████▉    | 218800/371472 [6:22:18<12:13:25,  3.47it/s] 59%|█████▉    | 218801/371472 [6:22:18<12:04:05,  3.51it/s] 59%|█████▉    | 218802/371472 [6:22:19<11:39:26,  3.64it/s] 59%|█████▉    | 218803/371472 [6:22:19<11:26:50,  3.70it/s] 59%|█████▉    | 218804/371472 [6:22:19<11:23:38,  3.72it/s] 59%|█████▉    | 218805/371472 [6:22:19<11:19:55,  3.74it/s] 59%|█████▉    | 218806/371472 [6:22:20<11:12:33,  3.78it/s] 59%|█████▉    | 218807/371472 [6:22:20<11:12:49,  3.78it/s] 59%|█████▉    | 218808/371472 [6:22:20<11:14:54,  3.77it/s] 59%|█████▉    | 218809/371472 [6:22:20<11:06:53,  3.82it/s] 59%|█████▉    | 218810/371472 [6:22:21<11:26:05,  3.71it/s] 59%|█████▉    | 218811/371472 [6:22:21<11:47:27,  3.60it/s] 59%|█████▉    | 218812/371472 [6:22:21<11:47:08,  3.60it/s] 59%|█████▉    | 218813/371472 [6:22:21<11:26:00,  3.71it/s] 59%|█████▉    | 218814/371472 [6:22:22<11:37:24,  3.65it/s] 59%|█████▉    | 218815/371472 [6:22:22<11:08:12,  3.81it/s] 59%|█████▉    | 218816/371472 [6:22:22<11:10:35,  3.79it/s] 59%|█████▉    | 218817/371472 [6:22:23<11:46:39,  3.60it/s] 59%|█████▉    | 218818/371472 [6:22:23<12:13:07,  3.47it/s] 59%|█████▉    | 218819/371472 [6:22:23<12:38:44,  3.35it/s] 59%|█████▉    | 218820/371472 [6:22:24<14:27:35,  2.93it/s]                                                            {'loss': 3.0933, 'learning_rate': 4.700435260402077e-07, 'epoch': 9.42}
 59%|█████▉    | 218820/371472 [6:22:24<14:27:35,  2.93it/s] 59%|█████▉    | 218821/371472 [6:22:24<13:17:11,  3.19it/s] 59%|█████▉    | 218822/371472 [6:22:24<12:48:19,  3.31it/s] 59%|█████▉    | 218823/371472 [6:22:24<12:13:26,  3.47it/s] 59%|█████▉    | 218824/371472 [6:22:25<12:08:58,  3.49it/s] 59%|█████▉    | 218825/371472 [6:22:25<13:01:37,  3.25it/s] 59%|█████▉    | 218826/371472 [6:22:25<12:36:13,  3.36it/s] 59%|█████▉    | 218827/371472 [6:22:26<12:03:20,  3.52it/s] 59%|█████▉    | 218828/371472 [6:22:26<13:00:17,  3.26it/s] 59%|█████▉    | 218829/371472 [6:22:26<12:25:02,  3.41it/s] 59%|█████▉    | 218830/371472 [6:22:26<12:14:00,  3.47it/s] 59%|█████▉    | 218831/371472 [6:22:27<11:57:05,  3.55it/s] 59%|█████▉    | 218832/371472 [6:22:27<11:57:17,  3.55it/s] 59%|█████▉    | 218833/371472 [6:22:27<12:03:56,  3.51it/s] 59%|█████▉    | 218834/371472 [6:22:28<11:54:36,  3.56it/s] 59%|█████▉    | 218835/371472 [6:22:28<11:33:04,  3.67it/s] 59%|█████▉    | 218836/371472 [6:22:28<11:58:50,  3.54it/s] 59%|█████▉    | 218837/371472 [6:22:28<11:49:22,  3.59it/s] 59%|█████▉    | 218838/371472 [6:22:29<11:52:43,  3.57it/s] 59%|█████▉    | 218839/371472 [6:22:29<12:39:14,  3.35it/s] 59%|█████▉    | 218840/371472 [6:22:29<12:28:50,  3.40it/s]                                                            {'loss': 2.8889, 'learning_rate': 4.699950440647288e-07, 'epoch': 9.43}
 59%|█████▉    | 218840/371472 [6:22:29<12:28:50,  3.40it/s] 59%|█████▉    | 218841/371472 [6:22:30<11:53:08,  3.57it/s] 59%|█████▉    | 218842/371472 [6:22:30<11:44:42,  3.61it/s] 59%|█████▉    | 218843/371472 [6:22:30<11:23:48,  3.72it/s] 59%|█████▉    | 218844/371472 [6:22:30<11:46:34,  3.60it/s] 59%|█████▉    | 218845/371472 [6:22:31<11:44:53,  3.61it/s] 59%|█████▉    | 218846/371472 [6:22:31<12:06:35,  3.50it/s] 59%|█████▉    | 218847/371472 [6:22:31<11:54:54,  3.56it/s] 59%|█████▉    | 218848/371472 [6:22:31<11:27:08,  3.70it/s] 59%|█████▉    | 218849/371472 [6:22:32<11:43:52,  3.61it/s] 59%|█████▉    | 218850/371472 [6:22:32<11:53:55,  3.56it/s] 59%|█████▉    | 218851/371472 [6:22:32<11:43:56,  3.61it/s] 59%|█████▉    | 218852/371472 [6:22:33<12:54:15,  3.29it/s] 59%|█████▉    | 218853/371472 [6:22:33<12:19:13,  3.44it/s] 59%|█████▉    | 218854/371472 [6:22:33<12:14:36,  3.46it/s] 59%|█████▉    | 218855/371472 [6:22:34<12:26:00,  3.41it/s] 59%|█████▉    | 218856/371472 [6:22:34<12:38:46,  3.35it/s] 59%|█████▉    | 218857/371472 [6:22:34<12:13:30,  3.47it/s] 59%|█████▉    | 218858/371472 [6:22:34<12:04:24,  3.51it/s] 59%|█████▉    | 218859/371472 [6:22:35<12:12:17,  3.47it/s] 59%|█████▉    | 218860/371472 [6:22:35<12:00:20,  3.53it/s]                                                            {'loss': 2.8772, 'learning_rate': 4.6994656208925e-07, 'epoch': 9.43}
 59%|█████▉    | 218860/371472 [6:22:35<12:00:20,  3.53it/s] 59%|█████▉    | 218861/371472 [6:22:35<14:30:56,  2.92it/s] 59%|█████▉    | 218862/371472 [6:22:36<13:40:39,  3.10it/s] 59%|█████▉    | 218863/371472 [6:22:36<13:06:51,  3.23it/s] 59%|█████▉    | 218864/371472 [6:22:36<13:08:42,  3.22it/s] 59%|█████▉    | 218865/371472 [6:22:37<12:28:52,  3.40it/s] 59%|█████▉    | 218866/371472 [6:22:37<12:24:09,  3.42it/s] 59%|█████▉    | 218867/371472 [6:22:37<12:17:38,  3.45it/s] 59%|█████▉    | 218868/371472 [6:22:37<12:21:53,  3.43it/s] 59%|█████▉    | 218869/371472 [6:22:38<11:53:15,  3.57it/s] 59%|█████▉    | 218870/371472 [6:22:38<11:45:49,  3.60it/s] 59%|█████▉    | 218871/371472 [6:22:38<12:19:36,  3.44it/s] 59%|█████▉    | 218872/371472 [6:22:39<11:53:47,  3.56it/s] 59%|█████▉    | 218873/371472 [6:22:39<12:13:52,  3.47it/s] 59%|█████▉    | 218874/371472 [6:22:39<11:57:00,  3.55it/s] 59%|█████▉    | 218875/371472 [6:22:39<12:07:51,  3.49it/s] 59%|█████▉    | 218876/371472 [6:22:40<11:53:23,  3.57it/s] 59%|█████▉    | 218877/371472 [6:22:40<11:36:30,  3.65it/s] 59%|█████▉    | 218878/371472 [6:22:40<11:33:58,  3.66it/s] 59%|█████▉    | 218879/371472 [6:22:40<11:20:53,  3.74it/s] 59%|█████▉    | 218880/371472 [6:22:41<11:05:02,  3.82it/s]                                                            {'loss': 2.7982, 'learning_rate': 4.69898080113771e-07, 'epoch': 9.43}
 59%|█████▉    | 218880/371472 [6:22:41<11:05:02,  3.82it/s] 59%|█████▉    | 218881/371472 [6:22:41<11:02:04,  3.84it/s] 59%|█████▉    | 218882/371472 [6:22:41<11:05:16,  3.82it/s] 59%|█████▉    | 218883/371472 [6:22:42<11:06:54,  3.81it/s] 59%|█████▉    | 218884/371472 [6:22:42<11:19:32,  3.74it/s] 59%|█████▉    | 218885/371472 [6:22:42<11:44:37,  3.61it/s] 59%|█████▉    | 218886/371472 [6:22:42<11:45:07,  3.61it/s] 59%|█████▉    | 218887/371472 [6:22:43<11:19:16,  3.74it/s] 59%|█████▉    | 218888/371472 [6:22:43<11:17:18,  3.75it/s] 59%|█████▉    | 218889/371472 [6:22:43<11:56:15,  3.55it/s] 59%|█████▉    | 218890/371472 [6:22:43<12:02:16,  3.52it/s] 59%|█████▉    | 218891/371472 [6:22:44<11:42:43,  3.62it/s] 59%|█████▉    | 218892/371472 [6:22:44<12:15:42,  3.46it/s] 59%|█████▉    | 218893/371472 [6:22:44<12:39:20,  3.35it/s] 59%|█████▉    | 218894/371472 [6:22:45<13:10:54,  3.22it/s] 59%|█████▉    | 218895/371472 [6:22:45<12:56:27,  3.28it/s] 59%|█████▉    | 218896/371472 [6:22:45<12:56:18,  3.28it/s] 59%|█████▉    | 218897/371472 [6:22:46<12:57:48,  3.27it/s] 59%|█████▉    | 218898/371472 [6:22:46<12:20:15,  3.44it/s] 59%|█████▉    | 218899/371472 [6:22:46<11:55:46,  3.55it/s] 59%|█████▉    | 218900/371472 [6:22:46<12:08:07,  3.49it/s]                                                            {'loss': 2.894, 'learning_rate': 4.6984959813829217e-07, 'epoch': 9.43}
 59%|█████▉    | 218900/371472 [6:22:46<12:08:07,  3.49it/s] 59%|█████▉    | 218901/371472 [6:22:47<12:00:40,  3.53it/s] 59%|█████▉    | 218902/371472 [6:22:47<11:46:21,  3.60it/s] 59%|█████▉    | 218903/371472 [6:22:47<11:34:19,  3.66it/s] 59%|█████▉    | 218904/371472 [6:22:48<12:20:57,  3.43it/s] 59%|█████▉    | 218905/371472 [6:22:48<12:03:26,  3.51it/s] 59%|█████▉    | 218906/371472 [6:22:48<12:31:36,  3.38it/s] 59%|█████▉    | 218907/371472 [6:22:49<13:26:26,  3.15it/s] 59%|█████▉    | 218908/371472 [6:22:49<13:38:45,  3.11it/s] 59%|█████▉    | 218909/371472 [6:22:49<12:55:31,  3.28it/s] 59%|█████▉    | 218910/371472 [6:22:49<12:54:43,  3.28it/s] 59%|█████▉    | 218911/371472 [6:22:50<12:41:49,  3.34it/s] 59%|█████▉    | 218912/371472 [6:22:50<12:13:10,  3.47it/s] 59%|█████▉    | 218913/371472 [6:22:50<12:11:51,  3.47it/s] 59%|█████▉    | 218914/371472 [6:22:51<12:04:02,  3.51it/s] 59%|█████▉    | 218915/371472 [6:22:51<11:46:33,  3.60it/s] 59%|█████▉    | 218916/371472 [6:22:51<12:13:14,  3.47it/s] 59%|█████▉    | 218917/371472 [6:22:51<11:55:41,  3.55it/s] 59%|█████▉    | 218918/371472 [6:22:52<12:03:55,  3.51it/s] 59%|█████▉    | 218919/371472 [6:22:52<11:58:01,  3.54it/s] 59%|█████▉    | 218920/371472 [6:22:52<12:02:29,  3.52it/s]                                                            {'loss': 2.9708, 'learning_rate': 4.6980111616281324e-07, 'epoch': 9.43}
 59%|█████▉    | 218920/371472 [6:22:52<12:02:29,  3.52it/s] 59%|█████▉    | 218921/371472 [6:22:53<11:55:44,  3.55it/s] 59%|█████▉    | 218922/371472 [6:22:53<11:43:36,  3.61it/s] 59%|█████▉    | 218923/371472 [6:22:53<12:02:00,  3.52it/s] 59%|█████▉    | 218924/371472 [6:22:53<12:01:43,  3.52it/s] 59%|█████▉    | 218925/371472 [6:22:54<12:19:31,  3.44it/s] 59%|█████▉    | 218926/371472 [6:22:54<12:38:50,  3.35it/s] 59%|█████▉    | 218927/371472 [6:22:54<12:17:15,  3.45it/s] 59%|█████▉    | 218928/371472 [6:22:55<12:02:51,  3.52it/s] 59%|█████▉    | 218929/371472 [6:22:55<12:19:38,  3.44it/s] 59%|█████▉    | 218930/371472 [6:22:55<12:03:48,  3.51it/s] 59%|█████▉    | 218931/371472 [6:22:55<11:54:15,  3.56it/s] 59%|█████▉    | 218932/371472 [6:22:56<11:36:35,  3.65it/s] 59%|█████▉    | 218933/371472 [6:22:56<12:00:51,  3.53it/s] 59%|█████▉    | 218934/371472 [6:22:56<11:52:35,  3.57it/s] 59%|█████▉    | 218935/371472 [6:22:56<11:33:08,  3.67it/s] 59%|█████▉    | 218936/371472 [6:22:57<11:22:16,  3.73it/s] 59%|█████▉    | 218937/371472 [6:22:57<11:27:51,  3.70it/s] 59%|█████▉    | 218938/371472 [6:22:57<11:04:13,  3.83it/s] 59%|█████▉    | 218939/371472 [6:22:58<11:24:37,  3.71it/s] 59%|█████▉    | 218940/371472 [6:22:58<12:40:29,  3.34it/s]                                                            {'loss': 2.9531, 'learning_rate': 4.6975263418733426e-07, 'epoch': 9.43}
 59%|█████▉    | 218940/371472 [6:22:58<12:40:29,  3.34it/s] 59%|█████▉    | 218941/371472 [6:22:58<12:52:41,  3.29it/s] 59%|█████▉    | 218942/371472 [6:22:59<12:34:41,  3.37it/s] 59%|█████▉    | 218943/371472 [6:22:59<12:09:17,  3.49it/s] 59%|█████▉    | 218944/371472 [6:22:59<12:05:40,  3.50it/s] 59%|█████▉    | 218945/371472 [6:22:59<11:56:56,  3.55it/s] 59%|█████▉    | 218946/371472 [6:23:00<11:53:21,  3.56it/s] 59%|█████▉    | 218947/371472 [6:23:00<12:30:36,  3.39it/s] 59%|█████▉    | 218948/371472 [6:23:00<12:04:15,  3.51it/s] 59%|█████▉    | 218949/371472 [6:23:01<12:46:18,  3.32it/s] 59%|█████▉    | 218950/371472 [6:23:01<13:07:52,  3.23it/s] 59%|█████▉    | 218951/371472 [6:23:01<12:48:49,  3.31it/s] 59%|█████▉    | 218952/371472 [6:23:02<13:43:08,  3.09it/s] 59%|█████▉    | 218953/371472 [6:23:02<13:13:59,  3.20it/s] 59%|█████▉    | 218954/371472 [6:23:02<12:43:40,  3.33it/s] 59%|█████▉    | 218955/371472 [6:23:02<12:12:08,  3.47it/s] 59%|█████▉    | 218956/371472 [6:23:03<12:04:44,  3.51it/s] 59%|█████▉    | 218957/371472 [6:23:03<11:44:43,  3.61it/s] 59%|█████▉    | 218958/371472 [6:23:03<11:38:20,  3.64it/s] 59%|█████▉    | 218959/371472 [6:23:03<11:34:40,  3.66it/s] 59%|█████▉    | 218960/371472 [6:23:04<11:37:37,  3.64it/s]                                                            {'loss': 2.989, 'learning_rate': 4.6970415221185544e-07, 'epoch': 9.43}
 59%|█████▉    | 218960/371472 [6:23:04<11:37:37,  3.64it/s] 59%|█████▉    | 218961/371472 [6:23:04<11:50:44,  3.58it/s] 59%|█████▉    | 218962/371472 [6:23:04<12:20:06,  3.43it/s] 59%|█████▉    | 218963/371472 [6:23:05<11:45:25,  3.60it/s] 59%|█████▉    | 218964/371472 [6:23:05<11:50:55,  3.58it/s] 59%|█████▉    | 218965/371472 [6:23:05<11:58:10,  3.54it/s] 59%|█████▉    | 218966/371472 [6:23:05<11:46:23,  3.60it/s] 59%|█████▉    | 218967/371472 [6:23:06<12:00:34,  3.53it/s] 59%|█████▉    | 218968/371472 [6:23:06<11:38:20,  3.64it/s] 59%|█████▉    | 218969/371472 [6:23:06<12:13:12,  3.47it/s] 59%|█████▉    | 218970/371472 [6:23:07<12:23:15,  3.42it/s] 59%|█████▉    | 218971/371472 [6:23:07<12:57:25,  3.27it/s] 59%|█████▉    | 218972/371472 [6:23:07<12:36:41,  3.36it/s] 59%|█████▉    | 218973/371472 [6:23:07<12:30:39,  3.39it/s] 59%|█████▉    | 218974/371472 [6:23:08<12:23:54,  3.42it/s] 59%|█████▉    | 218975/371472 [6:23:08<12:13:41,  3.46it/s] 59%|█████▉    | 218976/371472 [6:23:08<12:07:59,  3.49it/s] 59%|█████▉    | 218977/371472 [6:23:09<11:49:26,  3.58it/s] 59%|█████▉    | 218978/371472 [6:23:09<11:30:50,  3.68it/s] 59%|█████▉    | 218979/371472 [6:23:09<12:03:42,  3.51it/s] 59%|█████▉    | 218980/371472 [6:23:09<12:10:15,  3.48it/s]                                                            {'loss': 2.9214, 'learning_rate': 4.696556702363765e-07, 'epoch': 9.43}
 59%|█████▉    | 218980/371472 [6:23:09<12:10:15,  3.48it/s] 59%|█████▉    | 218981/371472 [6:23:10<11:43:30,  3.61it/s] 59%|█████▉    | 218982/371472 [6:23:10<12:32:15,  3.38it/s] 59%|█████▉    | 218983/371472 [6:23:10<12:14:52,  3.46it/s] 59%|█████▉    | 218984/371472 [6:23:11<12:01:13,  3.52it/s] 59%|█████▉    | 218985/371472 [6:23:11<12:11:45,  3.47it/s] 59%|█████▉    | 218986/371472 [6:23:11<12:25:34,  3.41it/s] 59%|█████▉    | 218987/371472 [6:23:11<12:21:40,  3.43it/s] 59%|█████▉    | 218988/371472 [6:23:12<12:06:57,  3.50it/s] 59%|█████▉    | 218989/371472 [6:23:12<11:51:56,  3.57it/s] 59%|█████▉    | 218990/371472 [6:23:12<13:13:52,  3.20it/s] 59%|█████▉    | 218991/371472 [6:23:13<13:02:43,  3.25it/s] 59%|█████▉    | 218992/371472 [6:23:13<12:31:32,  3.38it/s] 59%|█████▉    | 218993/371472 [6:23:13<12:03:29,  3.51it/s] 59%|█████▉    | 218994/371472 [6:23:13<11:41:56,  3.62it/s] 59%|█████▉    | 218995/371472 [6:23:14<11:42:36,  3.62it/s] 59%|█████▉    | 218996/371472 [6:23:14<12:07:03,  3.50it/s] 59%|█████▉    | 218997/371472 [6:23:14<11:36:15,  3.65it/s] 59%|█████▉    | 218998/371472 [6:23:15<12:26:32,  3.40it/s] 59%|█████▉    | 218999/371472 [6:23:15<13:57:06,  3.04it/s] 59%|█████▉    | 219000/371472 [6:23:15<13:07:12,  3.23it/s]                                                            {'loss': 3.0077, 'learning_rate': 4.6960718826089763e-07, 'epoch': 9.43}
 59%|█████▉    | 219000/371472 [6:23:15<13:07:12,  3.23it/s] 59%|█████▉    | 219001/371472 [6:23:16<12:53:39,  3.28it/s] 59%|█████▉    | 219002/371472 [6:23:16<12:39:21,  3.35it/s] 59%|█████▉    | 219003/371472 [6:23:16<12:22:11,  3.42it/s] 59%|█████▉    | 219004/371472 [6:23:16<11:49:06,  3.58it/s] 59%|█████▉    | 219005/371472 [6:23:17<11:45:49,  3.60it/s] 59%|█████▉    | 219006/371472 [6:23:17<11:50:48,  3.57it/s] 59%|█████▉    | 219007/371472 [6:23:17<11:38:22,  3.64it/s] 59%|█████▉    | 219008/371472 [6:23:18<11:24:28,  3.71it/s] 59%|█████▉    | 219009/371472 [6:23:18<11:21:00,  3.73it/s] 59%|█████▉    | 219010/371472 [6:23:18<12:31:32,  3.38it/s] 59%|█████▉    | 219011/371472 [6:23:18<12:14:55,  3.46it/s] 59%|█████▉    | 219012/371472 [6:23:19<11:40:11,  3.63it/s] 59%|█████▉    | 219013/371472 [6:23:19<11:35:55,  3.65it/s] 59%|█████▉    | 219014/371472 [6:23:19<11:45:41,  3.60it/s] 59%|█████▉    | 219015/371472 [6:23:19<11:36:13,  3.65it/s] 59%|█████▉    | 219016/371472 [6:23:20<11:32:35,  3.67it/s] 59%|█████▉    | 219017/371472 [6:23:20<12:01:34,  3.52it/s] 59%|█████▉    | 219018/371472 [6:23:20<11:47:32,  3.59it/s] 59%|█████▉    | 219019/371472 [6:23:21<11:29:52,  3.68it/s] 59%|█████▉    | 219020/371472 [6:23:21<11:34:15,  3.66it/s]                                                            {'loss': 2.8676, 'learning_rate': 4.695587062854187e-07, 'epoch': 9.43}
 59%|█████▉    | 219020/371472 [6:23:21<11:34:15,  3.66it/s] 59%|█████▉    | 219021/371472 [6:23:21<12:16:20,  3.45it/s] 59%|█████▉    | 219022/371472 [6:23:21<12:41:27,  3.34it/s] 59%|█████▉    | 219023/371472 [6:23:22<12:16:35,  3.45it/s] 59%|█████▉    | 219024/371472 [6:23:22<12:21:23,  3.43it/s] 59%|█████▉    | 219025/371472 [6:23:22<13:03:44,  3.24it/s] 59%|█████▉    | 219026/371472 [6:23:23<12:23:27,  3.42it/s] 59%|█████▉    | 219027/371472 [6:23:23<12:07:08,  3.49it/s] 59%|█████▉    | 219028/371472 [6:23:23<12:42:04,  3.33it/s] 59%|█████▉    | 219029/371472 [6:23:24<12:14:42,  3.46it/s] 59%|█████▉    | 219030/371472 [6:23:24<12:12:43,  3.47it/s] 59%|█████▉    | 219031/371472 [6:23:24<12:24:12,  3.41it/s] 59%|█████▉    | 219032/371472 [6:23:24<12:06:02,  3.50it/s] 59%|█████▉    | 219033/371472 [6:23:25<12:24:50,  3.41it/s] 59%|█████▉    | 219034/371472 [6:23:25<12:07:05,  3.49it/s] 59%|█████▉    | 219035/371472 [6:23:25<12:17:15,  3.45it/s] 59%|█████▉    | 219036/371472 [6:23:26<12:12:33,  3.47it/s] 59%|█████▉    | 219037/371472 [6:23:26<12:20:50,  3.43it/s] 59%|█████▉    | 219038/371472 [6:23:26<12:14:47,  3.46it/s] 59%|█████▉    | 219039/371472 [6:23:26<12:04:04,  3.51it/s] 59%|█████▉    | 219040/371472 [6:23:27<12:23:40,  3.42it/s]                                                            {'loss': 2.8063, 'learning_rate': 4.695102243099399e-07, 'epoch': 9.43}
 59%|█████▉    | 219040/371472 [6:23:27<12:23:40,  3.42it/s] 59%|█████▉    | 219041/371472 [6:23:27<12:26:27,  3.40it/s] 59%|█████▉    | 219042/371472 [6:23:27<12:29:10,  3.39it/s] 59%|█████▉    | 219043/371472 [6:23:28<13:22:21,  3.17it/s] 59%|█████▉    | 219044/371472 [6:23:28<12:52:43,  3.29it/s] 59%|█████▉    | 219045/371472 [6:23:28<12:24:07,  3.41it/s] 59%|█████▉    | 219046/371472 [6:23:29<13:11:30,  3.21it/s] 59%|█████▉    | 219047/371472 [6:23:29<12:41:29,  3.34it/s] 59%|█████▉    | 219048/371472 [6:23:29<12:03:50,  3.51it/s] 59%|█████▉    | 219049/371472 [6:23:29<11:47:00,  3.59it/s] 59%|█████▉    | 219050/371472 [6:23:30<11:53:27,  3.56it/s] 59%|█████▉    | 219051/371472 [6:23:30<11:40:31,  3.63it/s] 59%|█████▉    | 219052/371472 [6:23:30<11:36:29,  3.65it/s] 59%|█████▉    | 219053/371472 [6:23:30<11:51:54,  3.57it/s] 59%|█████▉    | 219054/371472 [6:23:31<11:40:04,  3.63it/s] 59%|█████▉    | 219055/371472 [6:23:31<12:24:17,  3.41it/s] 59%|█████▉    | 219056/371472 [6:23:31<12:07:48,  3.49it/s] 59%|█████▉    | 219057/371472 [6:23:32<12:34:44,  3.37it/s] 59%|█████▉    | 219058/371472 [6:23:32<12:02:48,  3.51it/s] 59%|█████▉    | 219059/371472 [6:23:32<11:58:31,  3.54it/s] 59%|█████▉    | 219060/371472 [6:23:33<12:19:52,  3.43it/s]                                                            {'loss': 2.9076, 'learning_rate': 4.6946174233446095e-07, 'epoch': 9.44}
 59%|█████▉    | 219060/371472 [6:23:33<12:19:52,  3.43it/s] 59%|█████▉    | 219061/371472 [6:23:33<12:11:35,  3.47it/s] 59%|█████▉    | 219062/371472 [6:23:33<12:36:33,  3.36it/s] 59%|█████▉    | 219063/371472 [6:23:33<12:15:49,  3.45it/s] 59%|█████▉    | 219064/371472 [6:23:34<12:05:47,  3.50it/s] 59%|█████▉    | 219065/371472 [6:23:34<11:47:45,  3.59it/s] 59%|█████▉    | 219066/371472 [6:23:34<12:17:57,  3.44it/s] 59%|█████▉    | 219067/371472 [6:23:35<12:05:39,  3.50it/s] 59%|█████▉    | 219068/371472 [6:23:35<11:49:23,  3.58it/s] 59%|█████▉    | 219069/371472 [6:23:35<12:00:55,  3.52it/s] 59%|█████▉    | 219070/371472 [6:23:35<12:13:18,  3.46it/s] 59%|█████▉    | 219071/371472 [6:23:36<11:56:21,  3.55it/s] 59%|█████▉    | 219072/371472 [6:23:36<11:45:08,  3.60it/s] 59%|█████▉    | 219073/371472 [6:23:36<11:30:31,  3.68it/s] 59%|█████▉    | 219074/371472 [6:23:36<11:29:17,  3.68it/s] 59%|█████▉    | 219075/371472 [6:23:37<11:33:42,  3.66it/s] 59%|█████▉    | 219076/371472 [6:23:37<11:17:36,  3.75it/s] 59%|█████▉    | 219077/371472 [6:23:37<11:09:10,  3.80it/s] 59%|█████▉    | 219078/371472 [6:23:38<11:24:26,  3.71it/s] 59%|█████▉    | 219079/371472 [6:23:38<11:41:14,  3.62it/s] 59%|█████▉    | 219080/371472 [6:23:38<11:34:47,  3.66it/s]                                                            {'loss': 3.0117, 'learning_rate': 4.694132603589821e-07, 'epoch': 9.44}
 59%|█████▉    | 219080/371472 [6:23:38<11:34:47,  3.66it/s] 59%|█████▉    | 219081/371472 [6:23:38<13:04:39,  3.24it/s] 59%|█████▉    | 219082/371472 [6:23:39<13:22:14,  3.17it/s] 59%|█████▉    | 219083/371472 [6:23:39<13:00:35,  3.25it/s] 59%|█████▉    | 219084/371472 [6:23:39<13:23:07,  3.16it/s] 59%|█████▉    | 219085/371472 [6:23:40<14:11:15,  2.98it/s] 59%|█████▉    | 219086/371472 [6:23:40<13:46:36,  3.07it/s] 59%|█████▉    | 219087/371472 [6:23:40<13:06:15,  3.23it/s] 59%|█████▉    | 219088/371472 [6:23:41<13:48:46,  3.06it/s] 59%|█████▉    | 219089/371472 [6:23:41<13:03:44,  3.24it/s] 59%|█████▉    | 219090/371472 [6:23:41<13:30:07,  3.13it/s] 59%|█████▉    | 219091/371472 [6:23:42<12:52:26,  3.29it/s] 59%|█████▉    | 219092/371472 [6:23:42<12:23:04,  3.42it/s] 59%|█████▉    | 219093/371472 [6:23:42<12:41:38,  3.33it/s] 59%|█████▉    | 219094/371472 [6:23:43<13:04:44,  3.24it/s] 59%|█████▉    | 219095/371472 [6:23:43<13:20:48,  3.17it/s] 59%|█████▉    | 219096/371472 [6:23:43<12:45:26,  3.32it/s] 59%|█████▉    | 219097/371472 [6:23:44<13:44:05,  3.08it/s] 59%|█████▉    | 219098/371472 [6:23:44<13:13:31,  3.20it/s] 59%|█████▉    | 219099/371472 [6:23:44<12:42:39,  3.33it/s] 59%|█████▉    | 219100/371472 [6:23:44<12:13:42,  3.46it/s]                                                            {'loss': 2.7903, 'learning_rate': 4.6936477838350315e-07, 'epoch': 9.44}
 59%|█████▉    | 219100/371472 [6:23:44<12:13:42,  3.46it/s] 59%|█████▉    | 219101/371472 [6:23:45<11:56:52,  3.54it/s] 59%|█████▉    | 219102/371472 [6:23:45<12:06:14,  3.50it/s] 59%|█████▉    | 219103/371472 [6:23:45<12:11:46,  3.47it/s] 59%|█████▉    | 219104/371472 [6:23:45<12:24:54,  3.41it/s] 59%|█████▉    | 219105/371472 [6:23:46<12:30:17,  3.38it/s] 59%|█████▉    | 219106/371472 [6:23:46<12:08:36,  3.49it/s] 59%|█████▉    | 219107/371472 [6:23:46<12:10:40,  3.48it/s] 59%|█████▉    | 219108/371472 [6:23:47<11:45:16,  3.60it/s] 59%|█████▉    | 219109/371472 [6:23:47<11:53:50,  3.56it/s] 59%|█████▉    | 219110/371472 [6:23:47<11:32:53,  3.66it/s] 59%|█████▉    | 219111/371472 [6:23:47<11:19:15,  3.74it/s] 59%|█████▉    | 219112/371472 [6:23:48<12:00:21,  3.53it/s] 59%|█████▉    | 219113/371472 [6:23:48<11:53:14,  3.56it/s] 59%|█████▉    | 219114/371472 [6:23:48<11:57:16,  3.54it/s] 59%|█████▉    | 219115/371472 [6:23:49<12:19:32,  3.43it/s] 59%|█████▉    | 219116/371472 [6:23:49<11:49:02,  3.58it/s] 59%|█████▉    | 219117/371472 [6:23:49<12:06:46,  3.49it/s] 59%|█████▉    | 219118/371472 [6:23:49<12:03:08,  3.51it/s] 59%|█████▉    | 219119/371472 [6:23:50<12:53:27,  3.28it/s] 59%|█████▉    | 219120/371472 [6:23:50<12:15:04,  3.45it/s]                                                            {'loss': 3.0814, 'learning_rate': 4.6931629640802433e-07, 'epoch': 9.44}
 59%|█████▉    | 219120/371472 [6:23:50<12:15:04,  3.45it/s] 59%|█████▉    | 219121/371472 [6:23:50<11:45:12,  3.60it/s] 59%|█████▉    | 219122/371472 [6:23:51<11:27:38,  3.69it/s] 59%|█████▉    | 219123/371472 [6:23:51<11:51:33,  3.57it/s] 59%|█████▉    | 219124/371472 [6:23:51<11:47:33,  3.59it/s] 59%|█████▉    | 219125/371472 [6:23:52<13:43:59,  3.08it/s] 59%|█████▉    | 219126/371472 [6:23:52<12:56:00,  3.27it/s] 59%|█████▉    | 219127/371472 [6:23:52<13:08:38,  3.22it/s] 59%|█████▉    | 219128/371472 [6:23:52<13:38:23,  3.10it/s] 59%|█████▉    | 219129/371472 [6:23:53<14:04:44,  3.01it/s] 59%|█████▉    | 219130/371472 [6:23:53<13:25:42,  3.15it/s] 59%|█████▉    | 219131/371472 [6:23:53<12:42:39,  3.33it/s] 59%|█████▉    | 219132/371472 [6:23:54<12:02:59,  3.51it/s] 59%|█████▉    | 219133/371472 [6:23:54<12:14:41,  3.46it/s] 59%|█████▉    | 219134/371472 [6:23:54<11:53:36,  3.56it/s] 59%|█████▉    | 219135/371472 [6:23:54<11:17:45,  3.75it/s] 59%|█████▉    | 219136/371472 [6:23:55<11:21:25,  3.73it/s] 59%|█████▉    | 219137/371472 [6:23:55<11:23:08,  3.72it/s] 59%|█████▉    | 219138/371472 [6:23:55<11:14:56,  3.76it/s] 59%|█████▉    | 219139/371472 [6:23:55<11:08:11,  3.80it/s] 59%|█████▉    | 219140/371472 [6:23:56<11:16:31,  3.75it/s]                                                            {'loss': 2.7542, 'learning_rate': 4.692678144325454e-07, 'epoch': 9.44}
 59%|█████▉    | 219140/371472 [6:23:56<11:16:31,  3.75it/s] 59%|█████▉    | 219141/371472 [6:23:56<10:59:07,  3.85it/s] 59%|█████▉    | 219142/371472 [6:23:56<11:16:15,  3.75it/s] 59%|█████▉    | 219143/371472 [6:23:57<11:35:10,  3.65it/s] 59%|█████▉    | 219144/371472 [6:23:57<12:26:57,  3.40it/s] 59%|█████▉    | 219145/371472 [6:23:57<12:24:19,  3.41it/s] 59%|█████▉    | 219146/371472 [6:23:58<12:30:04,  3.38it/s] 59%|█████▉    | 219147/371472 [6:23:58<12:18:15,  3.44it/s] 59%|█████▉    | 219148/371472 [6:23:58<12:02:57,  3.51it/s] 59%|█████▉    | 219149/371472 [6:23:58<12:08:41,  3.48it/s] 59%|█████▉    | 219150/371472 [6:23:59<11:43:00,  3.61it/s] 59%|█████▉    | 219151/371472 [6:23:59<12:22:12,  3.42it/s] 59%|█████▉    | 219152/371472 [6:23:59<12:16:30,  3.45it/s] 59%|█████▉    | 219153/371472 [6:23:59<12:00:19,  3.52it/s] 59%|█████▉    | 219154/371472 [6:24:00<11:42:47,  3.61it/s] 59%|█████▉    | 219155/371472 [6:24:00<11:59:38,  3.53it/s] 59%|█████▉    | 219156/371472 [6:24:00<12:04:51,  3.50it/s] 59%|█████▉    | 219157/371472 [6:24:01<11:53:12,  3.56it/s] 59%|█████▉    | 219158/371472 [6:24:01<11:46:16,  3.59it/s] 59%|█████▉    | 219159/371472 [6:24:01<11:43:46,  3.61it/s] 59%|█████▉    | 219160/371472 [6:24:01<11:29:28,  3.68it/s]                                                            {'loss': 2.85, 'learning_rate': 4.692193324570665e-07, 'epoch': 9.44}
 59%|█████▉    | 219160/371472 [6:24:01<11:29:28,  3.68it/s] 59%|█████▉    | 219161/371472 [6:24:02<11:59:00,  3.53it/s] 59%|█████▉    | 219162/371472 [6:24:02<12:02:55,  3.51it/s] 59%|█████▉    | 219163/371472 [6:24:02<11:51:35,  3.57it/s] 59%|█████▉    | 219164/371472 [6:24:03<15:08:54,  2.79it/s] 59%|█████▉    | 219165/371472 [6:24:03<14:10:15,  2.99it/s] 59%|█████▉    | 219166/371472 [6:24:03<13:24:05,  3.16it/s] 59%|█████▉    | 219167/371472 [6:24:04<13:33:29,  3.12it/s] 59%|█████▉    | 219168/371472 [6:24:04<12:49:55,  3.30it/s] 59%|█████▉    | 219169/371472 [6:24:04<13:14:46,  3.19it/s] 59%|█████▉    | 219170/371472 [6:24:05<12:35:23,  3.36it/s] 59%|█████▉    | 219171/371472 [6:24:05<12:27:04,  3.40it/s] 59%|█████▉    | 219172/371472 [6:24:05<12:07:03,  3.49it/s] 59%|█████▉    | 219173/371472 [6:24:05<12:08:28,  3.48it/s] 59%|█████▉    | 219174/371472 [6:24:06<12:23:54,  3.41it/s] 59%|█████▉    | 219175/371472 [6:24:06<11:51:38,  3.57it/s] 59%|█████▉    | 219176/371472 [6:24:06<11:58:26,  3.53it/s] 59%|█████▉    | 219177/371472 [6:24:07<11:52:21,  3.56it/s] 59%|█████▉    | 219178/371472 [6:24:07<12:23:25,  3.41it/s] 59%|█████▉    | 219179/371472 [6:24:07<12:06:21,  3.49it/s] 59%|█████▉    | 219180/371472 [6:24:08<14:31:36,  2.91it/s]                                                            {'loss': 3.173, 'learning_rate': 4.691708504815876e-07, 'epoch': 9.44}
 59%|█████▉    | 219180/371472 [6:24:08<14:31:36,  2.91it/s] 59%|█████▉    | 219181/371472 [6:24:08<13:48:01,  3.07it/s] 59%|█████▉    | 219182/371472 [6:24:08<13:55:10,  3.04it/s] 59%|█████▉    | 219183/371472 [6:24:09<13:25:08,  3.15it/s] 59%|█████▉    | 219184/371472 [6:24:09<12:44:12,  3.32it/s] 59%|█████▉    | 219185/371472 [6:24:09<12:22:57,  3.42it/s] 59%|█████▉    | 219186/371472 [6:24:09<12:40:57,  3.34it/s] 59%|█████▉    | 219187/371472 [6:24:10<12:34:47,  3.36it/s] 59%|█████▉    | 219188/371472 [6:24:10<12:23:26,  3.41it/s] 59%|█████▉    | 219189/371472 [6:24:10<14:36:45,  2.89it/s] 59%|█████▉    | 219190/371472 [6:24:11<14:27:14,  2.93it/s] 59%|█████▉    | 219191/371472 [6:24:11<13:34:10,  3.12it/s] 59%|█████▉    | 219192/371472 [6:24:11<12:53:24,  3.28it/s] 59%|█████▉    | 219193/371472 [6:24:12<12:42:26,  3.33it/s] 59%|█████▉    | 219194/371472 [6:24:12<12:53:12,  3.28it/s] 59%|█████▉    | 219195/371472 [6:24:12<12:16:02,  3.45it/s] 59%|█████▉    | 219196/371472 [6:24:12<12:05:19,  3.50it/s] 59%|█████▉    | 219197/371472 [6:24:13<12:12:08,  3.47it/s] 59%|█████▉    | 219198/371472 [6:24:13<12:15:48,  3.45it/s] 59%|█████▉    | 219199/371472 [6:24:13<11:56:34,  3.54it/s] 59%|█████▉    | 219200/371472 [6:24:14<11:50:21,  3.57it/s]                                                            {'loss': 2.7299, 'learning_rate': 4.691223685061087e-07, 'epoch': 9.44}
 59%|█████▉    | 219200/371472 [6:24:14<11:50:21,  3.57it/s] 59%|█████▉    | 219201/371472 [6:24:14<11:50:30,  3.57it/s] 59%|█████▉    | 219202/371472 [6:24:14<11:43:54,  3.61it/s] 59%|█████▉    | 219203/371472 [6:24:14<11:55:18,  3.55it/s] 59%|█████▉    | 219204/371472 [6:24:15<11:43:54,  3.61it/s] 59%|█████▉    | 219205/371472 [6:24:15<11:59:02,  3.53it/s] 59%|█████▉    | 219206/371472 [6:24:15<12:28:33,  3.39it/s] 59%|█████▉    | 219207/371472 [6:24:16<12:40:59,  3.33it/s] 59%|█████▉    | 219208/371472 [6:24:16<12:40:43,  3.34it/s] 59%|█████▉    | 219209/371472 [6:24:16<12:38:36,  3.35it/s] 59%|█████▉    | 219210/371472 [6:24:16<12:08:09,  3.49it/s] 59%|█████▉    | 219211/371472 [6:24:17<12:24:46,  3.41it/s] 59%|█████▉    | 219212/371472 [6:24:17<12:26:03,  3.40it/s] 59%|█████▉    | 219213/371472 [6:24:17<12:15:48,  3.45it/s] 59%|█████▉    | 219214/371472 [6:24:18<11:52:34,  3.56it/s] 59%|█████▉    | 219215/371472 [6:24:18<11:41:43,  3.62it/s] 59%|█████▉    | 219216/371472 [6:24:18<12:06:34,  3.49it/s] 59%|█████▉    | 219217/371472 [6:24:18<12:35:45,  3.36it/s] 59%|█████▉    | 219218/371472 [6:24:19<12:56:29,  3.27it/s] 59%|█████▉    | 219219/371472 [6:24:19<12:48:01,  3.30it/s] 59%|█████▉    | 219220/371472 [6:24:19<12:31:00,  3.38it/s]                                                            {'loss': 2.8379, 'learning_rate': 4.690738865306298e-07, 'epoch': 9.44}
 59%|█████▉    | 219220/371472 [6:24:19<12:31:00,  3.38it/s] 59%|█████▉    | 219221/371472 [6:24:20<12:25:51,  3.40it/s] 59%|█████▉    | 219222/371472 [6:24:20<12:42:13,  3.33it/s] 59%|█████▉    | 219223/371472 [6:24:20<12:47:04,  3.31it/s] 59%|█████▉    | 219224/371472 [6:24:21<12:50:04,  3.30it/s] 59%|█████▉    | 219225/371472 [6:24:21<13:14:10,  3.20it/s] 59%|█████▉    | 219226/371472 [6:24:21<13:28:02,  3.14it/s] 59%|█████▉    | 219227/371472 [6:24:22<13:40:31,  3.09it/s] 59%|█████▉    | 219228/371472 [6:24:22<13:05:04,  3.23it/s] 59%|█████▉    | 219229/371472 [6:24:22<12:38:18,  3.35it/s] 59%|█████▉    | 219230/371472 [6:24:22<12:11:44,  3.47it/s] 59%|█████▉    | 219231/371472 [6:24:23<11:57:33,  3.54it/s] 59%|█████▉    | 219232/371472 [6:24:23<11:52:34,  3.56it/s] 59%|█████▉    | 219233/371472 [6:24:23<11:50:17,  3.57it/s] 59%|█████▉    | 219234/371472 [6:24:24<11:55:34,  3.55it/s] 59%|█████▉    | 219235/371472 [6:24:24<12:03:33,  3.51it/s] 59%|█████▉    | 219236/371472 [6:24:24<12:34:33,  3.36it/s] 59%|█████▉    | 219237/371472 [6:24:24<11:56:54,  3.54it/s] 59%|█████▉    | 219238/371472 [6:24:25<11:38:56,  3.63it/s] 59%|█████▉    | 219239/371472 [6:24:25<11:43:21,  3.61it/s] 59%|█████▉    | 219240/371472 [6:24:25<11:46:24,  3.59it/s]                                                            {'loss': 2.8794, 'learning_rate': 4.6902540455515097e-07, 'epoch': 9.44}
 59%|█████▉    | 219240/371472 [6:24:25<11:46:24,  3.59it/s] 59%|█████▉    | 219241/371472 [6:24:25<11:22:01,  3.72it/s] 59%|█████▉    | 219242/371472 [6:24:26<10:59:14,  3.85it/s] 59%|█████▉    | 219243/371472 [6:24:26<11:06:32,  3.81it/s] 59%|█████▉    | 219244/371472 [6:24:26<11:37:28,  3.64it/s] 59%|█████▉    | 219245/371472 [6:24:27<12:56:16,  3.27it/s] 59%|█████▉    | 219246/371472 [6:24:27<12:33:14,  3.37it/s] 59%|█████▉    | 219247/371472 [6:24:27<11:49:46,  3.57it/s] 59%|█████▉    | 219248/371472 [6:24:27<11:37:45,  3.64it/s] 59%|█████▉    | 219249/371472 [6:24:28<11:46:30,  3.59it/s] 59%|█████▉    | 219250/371472 [6:24:28<11:58:56,  3.53it/s] 59%|█████▉    | 219251/371472 [6:24:28<12:44:21,  3.32it/s] 59%|█████▉    | 219252/371472 [6:24:29<12:30:12,  3.38it/s] 59%|█████▉    | 219253/371472 [6:24:29<12:00:46,  3.52it/s] 59%|█████▉    | 219254/371472 [6:24:29<11:41:09,  3.62it/s] 59%|█████▉    | 219255/371472 [6:24:29<11:26:34,  3.70it/s] 59%|█████▉    | 219256/371472 [6:24:30<11:35:58,  3.65it/s] 59%|█████▉    | 219257/371472 [6:24:30<11:36:13,  3.64it/s] 59%|█████▉    | 219258/371472 [6:24:30<11:48:23,  3.58it/s] 59%|█████▉    | 219259/371472 [6:24:31<11:40:05,  3.62it/s] 59%|█████▉    | 219260/371472 [6:24:31<11:18:48,  3.74it/s]                                                            {'loss': 2.9281, 'learning_rate': 4.68976922579672e-07, 'epoch': 9.44}
 59%|█████▉    | 219260/371472 [6:24:31<11:18:48,  3.74it/s] 59%|█████▉    | 219261/371472 [6:24:31<11:18:47,  3.74it/s] 59%|█████▉    | 219262/371472 [6:24:31<10:56:52,  3.86it/s] 59%|█████▉    | 219263/371472 [6:24:32<10:51:40,  3.89it/s] 59%|█████▉    | 219264/371472 [6:24:32<10:54:34,  3.88it/s] 59%|█████▉    | 219265/371472 [6:24:32<11:36:54,  3.64it/s] 59%|█████▉    | 219266/371472 [6:24:32<11:54:41,  3.55it/s] 59%|█████▉    | 219267/371472 [6:24:33<11:30:06,  3.68it/s] 59%|█████▉    | 219268/371472 [6:24:33<11:14:31,  3.76it/s] 59%|█████▉    | 219269/371472 [6:24:33<11:16:41,  3.75it/s] 59%|█████▉    | 219270/371472 [6:24:33<11:42:46,  3.61it/s] 59%|█████▉    | 219271/371472 [6:24:34<11:46:33,  3.59it/s] 59%|█████▉    | 219272/371472 [6:24:34<11:42:09,  3.61it/s] 59%|█████▉    | 219273/371472 [6:24:34<11:28:54,  3.68it/s] 59%|█████▉    | 219274/371472 [6:24:35<11:32:25,  3.66it/s] 59%|█████▉    | 219275/371472 [6:24:35<11:47:09,  3.59it/s] 59%|█████▉    | 219276/371472 [6:24:35<12:17:30,  3.44it/s] 59%|█████▉    | 219277/371472 [6:24:35<12:29:03,  3.39it/s] 59%|█████▉    | 219278/371472 [6:24:36<12:42:27,  3.33it/s] 59%|█████▉    | 219279/371472 [6:24:36<12:03:30,  3.51it/s] 59%|█████▉    | 219280/371472 [6:24:36<11:55:34,  3.54it/s]                                                            {'loss': 2.9444, 'learning_rate': 4.6892844060419316e-07, 'epoch': 9.44}
 59%|█████▉    | 219280/371472 [6:24:36<11:55:34,  3.54it/s] 59%|█████▉    | 219281/371472 [6:24:37<11:39:31,  3.63it/s] 59%|█████▉    | 219282/371472 [6:24:37<12:03:09,  3.51it/s] 59%|█████▉    | 219283/371472 [6:24:37<11:58:32,  3.53it/s] 59%|█████▉    | 219284/371472 [6:24:37<11:57:05,  3.54it/s] 59%|█████▉    | 219285/371472 [6:24:38<11:39:18,  3.63it/s] 59%|█████▉    | 219286/371472 [6:24:38<11:46:51,  3.59it/s] 59%|█████▉    | 219287/371472 [6:24:38<12:04:56,  3.50it/s] 59%|█████▉    | 219288/371472 [6:24:39<12:13:34,  3.46it/s] 59%|█████▉    | 219289/371472 [6:24:39<12:04:06,  3.50it/s] 59%|█████▉    | 219290/371472 [6:24:39<12:35:32,  3.36it/s] 59%|█████▉    | 219291/371472 [6:24:39<12:23:29,  3.41it/s] 59%|█████▉    | 219292/371472 [6:24:40<12:08:13,  3.48it/s] 59%|█████▉    | 219293/371472 [6:24:40<12:47:13,  3.31it/s] 59%|█████▉    | 219294/371472 [6:24:41<14:11:54,  2.98it/s] 59%|█████▉    | 219295/371472 [6:24:41<14:02:35,  3.01it/s] 59%|█████▉    | 219296/371472 [6:24:41<13:02:26,  3.24it/s] 59%|█████▉    | 219297/371472 [6:24:41<12:39:07,  3.34it/s] 59%|█████▉    | 219298/371472 [6:24:42<12:20:31,  3.42it/s] 59%|█████▉    | 219299/371472 [6:24:42<12:26:09,  3.40it/s] 59%|█████▉    | 219300/371472 [6:24:42<12:12:49,  3.46it/s]                                                            {'loss': 2.8204, 'learning_rate': 4.6887995862871424e-07, 'epoch': 9.45}
 59%|█████▉    | 219300/371472 [6:24:42<12:12:49,  3.46it/s] 59%|█████▉    | 219301/371472 [6:24:43<12:34:25,  3.36it/s] 59%|█████▉    | 219302/371472 [6:24:43<12:15:13,  3.45it/s] 59%|█████▉    | 219303/371472 [6:24:43<13:20:49,  3.17it/s] 59%|█████▉    | 219304/371472 [6:24:43<12:50:27,  3.29it/s] 59%|█████▉    | 219305/371472 [6:24:44<12:38:21,  3.34it/s] 59%|█████▉    | 219306/371472 [6:24:44<13:12:10,  3.20it/s] 59%|█████▉    | 219307/371472 [6:24:44<12:47:39,  3.30it/s] 59%|█████▉    | 219308/371472 [6:24:45<12:39:20,  3.34it/s] 59%|█████▉    | 219309/371472 [6:24:45<12:30:32,  3.38it/s] 59%|█████▉    | 219310/371472 [6:24:45<12:33:57,  3.36it/s] 59%|█████▉    | 219311/371472 [6:24:46<12:20:46,  3.42it/s] 59%|█████▉    | 219312/371472 [6:24:46<12:44:48,  3.32it/s] 59%|█████▉    | 219313/371472 [6:24:46<12:26:16,  3.40it/s] 59%|█████▉    | 219314/371472 [6:24:46<11:55:59,  3.54it/s] 59%|█████▉    | 219315/371472 [6:24:47<11:50:20,  3.57it/s] 59%|█████▉    | 219316/371472 [6:24:47<12:04:57,  3.50it/s] 59%|█████▉    | 219317/371472 [6:24:47<12:34:26,  3.36it/s] 59%|█████▉    | 219318/371472 [6:24:48<12:28:29,  3.39it/s] 59%|█████▉    | 219319/371472 [6:24:48<12:27:40,  3.39it/s] 59%|█████▉    | 219320/371472 [6:24:48<12:40:18,  3.34it/s]                                                            {'loss': 2.7297, 'learning_rate': 4.6883147665323536e-07, 'epoch': 9.45}
 59%|█████▉    | 219320/371472 [6:24:48<12:40:18,  3.34it/s] 59%|█████▉    | 219321/371472 [6:24:48<12:26:31,  3.40it/s] 59%|█████▉    | 219322/371472 [6:24:49<14:08:20,  2.99it/s] 59%|█████▉    | 219323/371472 [6:24:49<13:16:08,  3.19it/s] 59%|█████▉    | 219324/371472 [6:24:49<12:37:25,  3.35it/s] 59%|█████▉    | 219325/371472 [6:24:50<12:50:42,  3.29it/s] 59%|█████▉    | 219326/371472 [6:24:50<13:34:55,  3.11it/s] 59%|█████▉    | 219327/371472 [6:24:50<12:53:53,  3.28it/s] 59%|█████▉    | 219328/371472 [6:24:51<13:21:24,  3.16it/s] 59%|█████▉    | 219329/371472 [6:24:51<13:25:41,  3.15it/s] 59%|█████▉    | 219330/371472 [6:24:51<12:52:36,  3.28it/s] 59%|█████▉    | 219331/371472 [6:24:52<12:31:46,  3.37it/s] 59%|█████▉    | 219332/371472 [6:24:52<12:09:59,  3.47it/s] 59%|█████▉    | 219333/371472 [6:24:52<11:59:18,  3.53it/s] 59%|█████▉    | 219334/371472 [6:24:52<11:43:45,  3.60it/s] 59%|█████▉    | 219335/371472 [6:24:53<11:32:33,  3.66it/s] 59%|█████▉    | 219336/371472 [6:24:53<11:37:46,  3.63it/s] 59%|█████▉    | 219337/371472 [6:24:53<12:50:45,  3.29it/s] 59%|█████▉    | 219338/371472 [6:24:54<12:17:54,  3.44it/s] 59%|█████▉    | 219339/371472 [6:24:54<12:05:23,  3.50it/s] 59%|█████▉    | 219340/371472 [6:24:54<11:58:02,  3.53it/s]                                                            {'loss': 2.8199, 'learning_rate': 4.6878299467775643e-07, 'epoch': 9.45}
 59%|█████▉    | 219340/371472 [6:24:54<11:58:02,  3.53it/s] 59%|█████▉    | 219341/371472 [6:24:54<11:50:39,  3.57it/s] 59%|█████▉    | 219342/371472 [6:24:55<11:49:25,  3.57it/s] 59%|█████▉    | 219343/371472 [6:24:55<12:18:54,  3.43it/s] 59%|█████▉    | 219344/371472 [6:24:55<12:59:11,  3.25it/s] 59%|█████▉    | 219345/371472 [6:24:56<12:16:12,  3.44it/s] 59%|█████▉    | 219346/371472 [6:24:56<12:04:29,  3.50it/s] 59%|█████▉    | 219347/371472 [6:24:56<13:15:51,  3.19it/s] 59%|█████▉    | 219348/371472 [6:24:57<13:24:13,  3.15it/s] 59%|█████▉    | 219349/371472 [6:24:57<13:11:00,  3.21it/s] 59%|█████▉    | 219350/371472 [6:24:57<12:33:38,  3.36it/s] 59%|█████▉    | 219351/371472 [6:24:57<12:12:44,  3.46it/s] 59%|█████▉    | 219352/371472 [6:24:58<11:50:35,  3.57it/s] 59%|█████▉    | 219353/371472 [6:24:58<12:00:56,  3.52it/s] 59%|█████▉    | 219354/371472 [6:24:58<12:03:06,  3.51it/s] 59%|█████▉    | 219355/371472 [6:24:58<11:55:07,  3.55it/s] 59%|█████▉    | 219356/371472 [6:24:59<11:45:25,  3.59it/s] 59%|█████▉    | 219357/371472 [6:24:59<12:05:42,  3.49it/s] 59%|█████▉    | 219358/371472 [6:24:59<11:44:46,  3.60it/s] 59%|█████▉    | 219359/371472 [6:25:00<11:42:34,  3.61it/s] 59%|█████▉    | 219360/371472 [6:25:00<12:23:20,  3.41it/s]                                                            {'loss': 2.874, 'learning_rate': 4.687345127022776e-07, 'epoch': 9.45}
 59%|█████▉    | 219360/371472 [6:25:00<12:23:20,  3.41it/s] 59%|█████▉    | 219361/371472 [6:25:00<13:28:45,  3.13it/s] 59%|█████▉    | 219362/371472 [6:25:01<12:35:44,  3.35it/s] 59%|█████▉    | 219363/371472 [6:25:01<12:06:37,  3.49it/s] 59%|█████▉    | 219364/371472 [6:25:01<11:53:35,  3.55it/s] 59%|█████▉    | 219365/371472 [6:25:01<12:01:48,  3.51it/s] 59%|█████▉    | 219366/371472 [6:25:02<13:05:49,  3.23it/s] 59%|█████▉    | 219367/371472 [6:25:02<12:43:04,  3.32it/s] 59%|█████▉    | 219368/371472 [6:25:02<12:31:48,  3.37it/s] 59%|█████▉    | 219369/371472 [6:25:03<12:14:49,  3.45it/s] 59%|█████▉    | 219370/371472 [6:25:03<11:58:06,  3.53it/s] 59%|█████▉    | 219371/371472 [6:25:03<11:47:25,  3.58it/s] 59%|█████▉    | 219372/371472 [6:25:03<12:10:05,  3.47it/s] 59%|█████▉    | 219373/371472 [6:25:04<12:20:36,  3.42it/s] 59%|█████▉    | 219374/371472 [6:25:04<12:26:01,  3.40it/s] 59%|█████▉    | 219375/371472 [6:25:04<12:04:40,  3.50it/s] 59%|█████▉    | 219376/371472 [6:25:05<12:07:46,  3.48it/s] 59%|█████▉    | 219377/371472 [6:25:05<12:01:14,  3.51it/s] 59%|█████▉    | 219378/371472 [6:25:05<12:10:06,  3.47it/s] 59%|█████▉    | 219379/371472 [6:25:05<12:19:23,  3.43it/s] 59%|█████▉    | 219380/371472 [6:25:06<12:47:13,  3.30it/s]                                                            {'loss': 2.8291, 'learning_rate': 4.6868603072679863e-07, 'epoch': 9.45}
 59%|█████▉    | 219380/371472 [6:25:06<12:47:13,  3.30it/s] 59%|█████▉    | 219381/371472 [6:25:06<13:15:58,  3.18it/s] 59%|█████▉    | 219382/371472 [6:25:06<12:38:01,  3.34it/s] 59%|█████▉    | 219383/371472 [6:25:07<12:41:03,  3.33it/s] 59%|█████▉    | 219384/371472 [6:25:07<12:12:12,  3.46it/s] 59%|█████▉    | 219385/371472 [6:25:07<11:57:23,  3.53it/s] 59%|█████▉    | 219386/371472 [6:25:08<13:26:21,  3.14it/s] 59%|█████▉    | 219387/371472 [6:25:08<12:53:48,  3.28it/s] 59%|█████▉    | 219388/371472 [6:25:08<12:59:56,  3.25it/s] 59%|█████▉    | 219389/371472 [6:25:09<12:39:15,  3.34it/s] 59%|█████▉    | 219390/371472 [6:25:09<12:11:38,  3.46it/s] 59%|█████▉    | 219391/371472 [6:25:09<11:54:15,  3.55it/s] 59%|█████▉    | 219392/371472 [6:25:09<12:43:22,  3.32it/s] 59%|█████▉    | 219393/371472 [6:25:10<12:33:34,  3.36it/s] 59%|█████▉    | 219394/371472 [6:25:10<12:05:06,  3.50it/s] 59%|█████▉    | 219395/371472 [6:25:10<11:52:23,  3.56it/s] 59%|█████▉    | 219396/371472 [6:25:10<11:41:52,  3.61it/s] 59%|█████▉    | 219397/371472 [6:25:11<12:16:23,  3.44it/s] 59%|█████▉    | 219398/371472 [6:25:11<12:15:30,  3.45it/s] 59%|█████▉    | 219399/371472 [6:25:11<12:39:08,  3.34it/s] 59%|█████▉    | 219400/371472 [6:25:12<12:25:52,  3.40it/s]                                                            {'loss': 2.9249, 'learning_rate': 4.6863754875131975e-07, 'epoch': 9.45}
 59%|█████▉    | 219400/371472 [6:25:12<12:25:52,  3.40it/s] 59%|█████▉    | 219401/371472 [6:25:12<12:21:09,  3.42it/s] 59%|█████▉    | 219402/371472 [6:25:12<11:51:07,  3.56it/s] 59%|█████▉    | 219403/371472 [6:25:13<12:07:08,  3.49it/s] 59%|█████▉    | 219404/371472 [6:25:13<12:04:12,  3.50it/s] 59%|█████▉    | 219405/371472 [6:25:13<11:51:45,  3.56it/s] 59%|█████▉    | 219406/371472 [6:25:13<12:23:21,  3.41it/s] 59%|█████▉    | 219407/371472 [6:25:14<13:31:54,  3.12it/s] 59%|█████▉    | 219408/371472 [6:25:14<12:51:07,  3.29it/s] 59%|█████▉    | 219409/371472 [6:25:14<12:04:03,  3.50it/s] 59%|█████▉    | 219410/371472 [6:25:15<11:57:37,  3.53it/s] 59%|█████▉    | 219411/371472 [6:25:15<12:28:40,  3.39it/s] 59%|█████▉    | 219412/371472 [6:25:15<12:03:40,  3.50it/s] 59%|█████▉    | 219413/371472 [6:25:15<12:03:20,  3.50it/s] 59%|█████▉    | 219414/371472 [6:25:16<12:07:04,  3.49it/s] 59%|█████▉    | 219415/371472 [6:25:16<12:11:01,  3.47it/s] 59%|█████▉    | 219416/371472 [6:25:16<11:45:51,  3.59it/s] 59%|█████▉    | 219417/371472 [6:25:17<11:37:24,  3.63it/s] 59%|█████▉    | 219418/371472 [6:25:17<11:49:51,  3.57it/s] 59%|█████▉    | 219419/371472 [6:25:17<11:37:51,  3.63it/s] 59%|█████▉    | 219420/371472 [6:25:17<11:57:32,  3.53it/s]                                                            {'loss': 2.9097, 'learning_rate': 4.685890667758409e-07, 'epoch': 9.45}
 59%|█████▉    | 219420/371472 [6:25:17<11:57:32,  3.53it/s] 59%|█████▉    | 219421/371472 [6:25:18<12:13:31,  3.45it/s] 59%|█████▉    | 219422/371472 [6:25:18<12:03:32,  3.50it/s] 59%|█████▉    | 219423/371472 [6:25:18<11:58:48,  3.53it/s] 59%|█████▉    | 219424/371472 [6:25:19<11:35:31,  3.64it/s] 59%|█████▉    | 219425/371472 [6:25:19<11:41:53,  3.61it/s] 59%|█████▉    | 219426/371472 [6:25:19<11:13:00,  3.77it/s] 59%|█████▉    | 219427/371472 [6:25:19<11:14:21,  3.76it/s] 59%|█████▉    | 219428/371472 [6:25:20<11:02:42,  3.82it/s] 59%|█████▉    | 219429/371472 [6:25:20<11:11:38,  3.77it/s] 59%|█████▉    | 219430/371472 [6:25:20<11:25:09,  3.70it/s] 59%|█████▉    | 219431/371472 [6:25:20<11:21:21,  3.72it/s] 59%|█████▉    | 219432/371472 [6:25:21<11:13:54,  3.76it/s] 59%|█████▉    | 219433/371472 [6:25:21<11:13:18,  3.76it/s] 59%|█████▉    | 219434/371472 [6:25:21<11:03:55,  3.82it/s] 59%|█████▉    | 219435/371472 [6:25:21<11:28:32,  3.68it/s] 59%|█████▉    | 219436/371472 [6:25:22<11:08:41,  3.79it/s] 59%|█████▉    | 219437/371472 [6:25:22<10:53:30,  3.88it/s] 59%|█████▉    | 219438/371472 [6:25:22<11:01:50,  3.83it/s] 59%|█████▉    | 219439/371472 [6:25:23<11:42:04,  3.61it/s] 59%|█████▉    | 219440/371472 [6:25:23<11:21:30,  3.72it/s]                                                            {'loss': 2.7609, 'learning_rate': 4.68540584800362e-07, 'epoch': 9.45}
 59%|█████▉    | 219440/371472 [6:25:23<11:21:30,  3.72it/s] 59%|█████▉    | 219441/371472 [6:25:23<11:51:03,  3.56it/s] 59%|█████▉    | 219442/371472 [6:25:23<11:50:56,  3.56it/s] 59%|█████▉    | 219443/371472 [6:25:24<11:40:06,  3.62it/s] 59%|█████▉    | 219444/371472 [6:25:24<11:52:26,  3.56it/s] 59%|█████▉    | 219445/371472 [6:25:24<12:24:38,  3.40it/s] 59%|█████▉    | 219446/371472 [6:25:25<12:18:23,  3.43it/s] 59%|█████▉    | 219447/371472 [6:25:25<11:42:41,  3.61it/s] 59%|█████▉    | 219448/371472 [6:25:25<11:59:55,  3.52it/s] 59%|█████▉    | 219449/371472 [6:25:25<11:46:47,  3.58it/s] 59%|█████▉    | 219450/371472 [6:25:26<12:05:32,  3.49it/s] 59%|█████▉    | 219451/371472 [6:25:26<11:57:46,  3.53it/s] 59%|█████▉    | 219452/371472 [6:25:26<11:55:07,  3.54it/s] 59%|█████▉    | 219453/371472 [6:25:26<11:33:35,  3.65it/s] 59%|█████▉    | 219454/371472 [6:25:27<12:48:58,  3.29it/s] 59%|█████▉    | 219455/371472 [6:25:27<13:51:38,  3.05it/s] 59%|█████▉    | 219456/371472 [6:25:27<13:18:49,  3.17it/s] 59%|█████▉    | 219457/371472 [6:25:28<12:44:12,  3.32it/s] 59%|█████▉    | 219458/371472 [6:25:28<12:14:11,  3.45it/s] 59%|█████▉    | 219459/371472 [6:25:28<11:53:02,  3.55it/s] 59%|█████▉    | 219460/371472 [6:25:29<11:47:29,  3.58it/s]                                                            {'loss': 3.0256, 'learning_rate': 4.6849210282488307e-07, 'epoch': 9.45}
 59%|█████▉    | 219460/371472 [6:25:29<11:47:29,  3.58it/s] 59%|█████▉    | 219461/371472 [6:25:29<11:37:50,  3.63it/s] 59%|█████▉    | 219462/371472 [6:25:29<11:34:09,  3.65it/s] 59%|█████▉    | 219463/371472 [6:25:29<11:10:50,  3.78it/s] 59%|█████▉    | 219464/371472 [6:25:30<11:14:27,  3.76it/s] 59%|█████▉    | 219465/371472 [6:25:30<11:23:59,  3.70it/s] 59%|█████▉    | 219466/371472 [6:25:30<11:12:26,  3.77it/s] 59%|█████▉    | 219467/371472 [6:25:30<11:52:59,  3.55it/s] 59%|█████▉    | 219468/371472 [6:25:31<11:52:43,  3.55it/s] 59%|█████▉    | 219469/371472 [6:25:31<12:02:44,  3.51it/s] 59%|█████▉    | 219470/371472 [6:25:31<12:38:43,  3.34it/s] 59%|█████▉    | 219471/371472 [6:25:32<12:32:54,  3.36it/s] 59%|█████▉    | 219472/371472 [6:25:32<12:20:48,  3.42it/s] 59%|█████▉    | 219473/371472 [6:25:32<11:55:49,  3.54it/s] 59%|█████▉    | 219474/371472 [6:25:33<12:17:31,  3.43it/s] 59%|█████▉    | 219475/371472 [6:25:33<12:16:19,  3.44it/s] 59%|█████▉    | 219476/371472 [6:25:33<11:37:17,  3.63it/s] 59%|█████▉    | 219477/371472 [6:25:33<12:07:07,  3.48it/s] 59%|█████▉    | 219478/371472 [6:25:34<12:05:36,  3.49it/s] 59%|█████▉    | 219479/371472 [6:25:34<11:43:03,  3.60it/s] 59%|█████▉    | 219480/371472 [6:25:34<12:16:44,  3.44it/s]                                                            {'loss': 2.9368, 'learning_rate': 4.6844362084940414e-07, 'epoch': 9.45}
 59%|█████▉    | 219480/371472 [6:25:34<12:16:44,  3.44it/s] 59%|█████▉    | 219481/371472 [6:25:35<12:14:03,  3.45it/s] 59%|█████▉    | 219482/371472 [6:25:35<12:04:16,  3.50it/s] 59%|█████▉    | 219483/371472 [6:25:35<12:22:08,  3.41it/s] 59%|█████▉    | 219484/371472 [6:25:35<11:43:45,  3.60it/s] 59%|█████▉    | 219485/371472 [6:25:36<11:25:15,  3.70it/s] 59%|█████▉    | 219486/371472 [6:25:36<12:25:38,  3.40it/s] 59%|█████▉    | 219487/371472 [6:25:36<13:09:07,  3.21it/s] 59%|█████▉    | 219488/371472 [6:25:37<13:21:34,  3.16it/s] 59%|█████▉    | 219489/371472 [6:25:37<13:05:03,  3.23it/s] 59%|█████▉    | 219490/371472 [6:25:37<13:59:51,  3.02it/s] 59%|█████▉    | 219491/371472 [6:25:38<12:51:35,  3.28it/s] 59%|█████▉    | 219492/371472 [6:25:38<12:51:28,  3.28it/s] 59%|█████▉    | 219493/371472 [6:25:38<12:35:35,  3.35it/s] 59%|█████▉    | 219494/371472 [6:25:38<12:45:59,  3.31it/s] 59%|█████▉    | 219495/371472 [6:25:39<12:12:35,  3.46it/s] 59%|█████▉    | 219496/371472 [6:25:39<11:58:48,  3.52it/s] 59%|█████▉    | 219497/371472 [6:25:39<12:13:22,  3.45it/s] 59%|█████▉    | 219498/371472 [6:25:40<12:25:08,  3.40it/s] 59%|█████▉    | 219499/371472 [6:25:40<12:00:37,  3.51it/s] 59%|█████▉    | 219500/371472 [6:25:40<12:10:40,  3.47it/s]                                                            {'loss': 2.8321, 'learning_rate': 4.683951388739253e-07, 'epoch': 9.45}
 59%|█████▉    | 219500/371472 [6:25:40<12:10:40,  3.47it/s] 59%|█████▉    | 219501/371472 [6:25:40<12:45:05,  3.31it/s] 59%|█████▉    | 219502/371472 [6:25:41<12:24:02,  3.40it/s] 59%|█████▉    | 219503/371472 [6:25:41<11:55:30,  3.54it/s] 59%|█████▉    | 219504/371472 [6:25:41<11:55:12,  3.54it/s] 59%|█████▉    | 219505/371472 [6:25:42<11:46:34,  3.58it/s] 59%|█████▉    | 219506/371472 [6:25:42<11:41:19,  3.61it/s] 59%|█████▉    | 219507/371472 [6:25:42<11:44:46,  3.59it/s] 59%|█████▉    | 219508/371472 [6:25:42<11:44:33,  3.59it/s] 59%|█████▉    | 219509/371472 [6:25:43<13:04:15,  3.23it/s] 59%|█████▉    | 219510/371472 [6:25:43<12:35:21,  3.35it/s] 59%|█████▉    | 219511/371472 [6:25:43<12:07:32,  3.48it/s] 59%|█████▉    | 219512/371472 [6:25:44<12:00:29,  3.52it/s] 59%|█████▉    | 219513/371472 [6:25:44<11:52:05,  3.56it/s] 59%|█████▉    | 219514/371472 [6:25:44<11:53:44,  3.55it/s] 59%|█████▉    | 219515/371472 [6:25:44<12:12:41,  3.46it/s] 59%|█████▉    | 219516/371472 [6:25:45<11:52:31,  3.55it/s] 59%|█████▉    | 219517/371472 [6:25:45<11:41:21,  3.61it/s] 59%|█████▉    | 219518/371472 [6:25:45<12:28:14,  3.38it/s] 59%|█████▉    | 219519/371472 [6:25:46<12:18:01,  3.43it/s] 59%|█████▉    | 219520/371472 [6:25:46<12:22:49,  3.41it/s]                                                            {'loss': 2.8623, 'learning_rate': 4.6834665689844634e-07, 'epoch': 9.46}
 59%|█████▉    | 219520/371472 [6:25:46<12:22:49,  3.41it/s] 59%|█████▉    | 219521/371472 [6:25:46<12:58:42,  3.25it/s] 59%|█████▉    | 219522/371472 [6:25:47<13:59:27,  3.02it/s] 59%|█████▉    | 219523/371472 [6:25:47<15:05:58,  2.80it/s] 59%|█████▉    | 219524/371472 [6:25:47<13:45:42,  3.07it/s] 59%|█████▉    | 219525/371472 [6:25:48<12:58:15,  3.25it/s] 59%|█████▉    | 219526/371472 [6:25:48<12:15:09,  3.44it/s] 59%|█████▉    | 219527/371472 [6:25:48<12:05:45,  3.49it/s] 59%|█████▉    | 219528/371472 [6:25:48<12:17:42,  3.43it/s] 59%|█████▉    | 219529/371472 [6:25:49<12:06:21,  3.49it/s] 59%|█████▉    | 219530/371472 [6:25:49<12:25:58,  3.39it/s] 59%|█████▉    | 219531/371472 [6:25:49<11:51:51,  3.56it/s] 59%|█████▉    | 219532/371472 [6:25:50<11:53:28,  3.55it/s] 59%|█████▉    | 219533/371472 [6:25:50<12:28:19,  3.38it/s] 59%|█████▉    | 219534/371472 [6:25:50<12:34:47,  3.35it/s] 59%|█████▉    | 219535/371472 [6:25:50<12:07:37,  3.48it/s] 59%|█████▉    | 219536/371472 [6:25:51<11:47:25,  3.58it/s] 59%|█████▉    | 219537/371472 [6:25:51<11:45:30,  3.59it/s] 59%|█████▉    | 219538/371472 [6:25:51<11:39:38,  3.62it/s] 59%|█████▉    | 219539/371472 [6:25:52<11:49:21,  3.57it/s] 59%|█████▉    | 219540/371472 [6:25:52<11:36:43,  3.63it/s]                                                            {'loss': 2.9374, 'learning_rate': 4.682981749229675e-07, 'epoch': 9.46}
 59%|█████▉    | 219540/371472 [6:25:52<11:36:43,  3.63it/s] 59%|█████▉    | 219541/371472 [6:25:52<11:38:46,  3.62it/s] 59%|█████▉    | 219542/371472 [6:25:52<11:46:33,  3.58it/s] 59%|█████▉    | 219543/371472 [6:25:53<11:50:03,  3.57it/s] 59%|█████▉    | 219544/371472 [6:25:53<11:52:35,  3.55it/s] 59%|█████▉    | 219545/371472 [6:25:53<12:05:21,  3.49it/s] 59%|█████▉    | 219546/371472 [6:25:54<12:41:32,  3.32it/s] 59%|█████▉    | 219547/371472 [6:25:54<12:11:36,  3.46it/s] 59%|█████▉    | 219548/371472 [6:25:54<12:04:24,  3.50it/s] 59%|█████▉    | 219549/371472 [6:25:54<12:29:27,  3.38it/s] 59%|█████▉    | 219550/371472 [6:25:55<12:55:52,  3.26it/s] 59%|█████▉    | 219551/371472 [6:25:55<12:42:18,  3.32it/s] 59%|█████▉    | 219552/371472 [6:25:55<12:21:48,  3.41it/s] 59%|█████▉    | 219553/371472 [6:25:56<12:03:46,  3.50it/s] 59%|█████▉    | 219554/371472 [6:25:56<11:53:32,  3.55it/s] 59%|█████▉    | 219555/371472 [6:25:56<11:48:12,  3.58it/s] 59%|█████▉    | 219556/371472 [6:25:56<11:37:01,  3.63it/s] 59%|█████▉    | 219557/371472 [6:25:57<11:53:49,  3.55it/s] 59%|█████▉    | 219558/371472 [6:25:57<11:39:31,  3.62it/s] 59%|█████▉    | 219559/371472 [6:25:57<11:29:27,  3.67it/s] 59%|█████▉    | 219560/371472 [6:25:57<11:34:38,  3.64it/s]                                                            {'loss': 2.9919, 'learning_rate': 4.6824969294748854e-07, 'epoch': 9.46}
 59%|█████▉    | 219560/371472 [6:25:57<11:34:38,  3.64it/s] 59%|█████▉    | 219561/371472 [6:25:58<11:34:42,  3.64it/s] 59%|█████▉    | 219562/371472 [6:25:58<11:18:39,  3.73it/s] 59%|█████▉    | 219563/371472 [6:25:58<11:10:09,  3.78it/s] 59%|█████▉    | 219564/371472 [6:25:59<11:30:18,  3.67it/s] 59%|█████▉    | 219565/371472 [6:25:59<11:27:58,  3.68it/s] 59%|█████▉    | 219566/371472 [6:25:59<11:45:26,  3.59it/s] 59%|█████▉    | 219567/371472 [6:26:00<13:17:52,  3.17it/s] 59%|█████▉    | 219568/371472 [6:26:00<12:59:50,  3.25it/s] 59%|█████▉    | 219569/371472 [6:26:00<12:47:23,  3.30it/s] 59%|█████▉    | 219570/371472 [6:26:00<12:28:10,  3.38it/s] 59%|█████▉    | 219571/371472 [6:26:01<12:07:05,  3.48it/s] 59%|█████▉    | 219572/371472 [6:26:01<14:13:44,  2.97it/s] 59%|█████▉    | 219573/371472 [6:26:01<13:30:51,  3.12it/s] 59%|█████▉    | 219574/371472 [6:26:02<12:57:54,  3.25it/s] 59%|█████▉    | 219575/371472 [6:26:02<12:41:07,  3.33it/s] 59%|█████▉    | 219576/371472 [6:26:02<12:06:05,  3.49it/s] 59%|█████▉    | 219577/371472 [6:26:03<12:32:02,  3.37it/s] 59%|█████▉    | 219578/371472 [6:26:03<12:53:22,  3.27it/s] 59%|█████▉    | 219579/371472 [6:26:03<12:22:31,  3.41it/s] 59%|█████▉    | 219580/371472 [6:26:03<12:01:41,  3.51it/s]                                                            {'loss': 2.9902, 'learning_rate': 4.682012109720097e-07, 'epoch': 9.46}
 59%|█████▉    | 219580/371472 [6:26:03<12:01:41,  3.51it/s] 59%|█████▉    | 219581/371472 [6:26:04<12:07:14,  3.48it/s] 59%|█████▉    | 219582/371472 [6:26:04<11:54:13,  3.54it/s] 59%|█████▉    | 219583/371472 [6:26:04<11:44:53,  3.59it/s] 59%|█████▉    | 219584/371472 [6:26:05<12:32:38,  3.36it/s] 59%|█████▉    | 219585/371472 [6:26:05<12:28:57,  3.38it/s] 59%|█████▉    | 219586/371472 [6:26:05<11:59:36,  3.52it/s] 59%|█████▉    | 219587/371472 [6:26:05<11:27:01,  3.68it/s] 59%|█████▉    | 219588/371472 [6:26:06<12:30:28,  3.37it/s] 59%|█████▉    | 219589/371472 [6:26:06<13:35:02,  3.11it/s] 59%|█████▉    | 219590/371472 [6:26:06<12:50:20,  3.29it/s] 59%|█████▉    | 219591/371472 [6:26:07<14:04:11,  3.00it/s] 59%|█████▉    | 219592/371472 [6:26:07<13:27:03,  3.14it/s] 59%|█████▉    | 219593/371472 [6:26:07<12:36:30,  3.35it/s] 59%|█████▉    | 219594/371472 [6:26:08<13:31:59,  3.12it/s] 59%|█████▉    | 219595/371472 [6:26:08<12:41:36,  3.32it/s] 59%|█████▉    | 219596/371472 [6:26:08<12:24:44,  3.40it/s] 59%|█████▉    | 219597/371472 [6:26:08<12:12:09,  3.46it/s] 59%|█████▉    | 219598/371472 [6:26:09<11:57:41,  3.53it/s] 59%|█████▉    | 219599/371472 [6:26:09<11:37:55,  3.63it/s] 59%|█████▉    | 219600/371472 [6:26:09<12:27:55,  3.38it/s]                                                            {'loss': 2.8521, 'learning_rate': 4.681527289965308e-07, 'epoch': 9.46}
 59%|█████▉    | 219600/371472 [6:26:09<12:27:55,  3.38it/s] 59%|█████▉    | 219601/371472 [6:26:10<12:05:44,  3.49it/s] 59%|█████▉    | 219602/371472 [6:26:10<11:41:43,  3.61it/s] 59%|█████▉    | 219603/371472 [6:26:10<11:36:32,  3.63it/s] 59%|█████▉    | 219604/371472 [6:26:10<11:30:23,  3.67it/s] 59%|█████▉    | 219605/371472 [6:26:11<11:22:34,  3.71it/s] 59%|█████▉    | 219606/371472 [6:26:11<11:58:20,  3.52it/s] 59%|█████▉    | 219607/371472 [6:26:11<11:48:45,  3.57it/s] 59%|█████▉    | 219608/371472 [6:26:12<11:43:09,  3.60it/s] 59%|█████▉    | 219609/371472 [6:26:12<12:07:18,  3.48it/s] 59%|█████▉    | 219610/371472 [6:26:12<12:10:17,  3.47it/s] 59%|█████▉    | 219611/371472 [6:26:12<12:07:52,  3.48it/s] 59%|█████▉    | 219612/371472 [6:26:13<12:13:08,  3.45it/s] 59%|█████▉    | 219613/371472 [6:26:13<11:57:26,  3.53it/s] 59%|█████▉    | 219614/371472 [6:26:13<11:45:25,  3.59it/s] 59%|█████▉    | 219615/371472 [6:26:13<11:35:24,  3.64it/s] 59%|█████▉    | 219616/371472 [6:26:14<11:42:45,  3.60it/s] 59%|█████▉    | 219617/371472 [6:26:14<11:51:54,  3.56it/s] 59%|█████▉    | 219618/371472 [6:26:14<11:46:44,  3.58it/s] 59%|█████▉    | 219619/371472 [6:26:15<11:50:19,  3.56it/s] 59%|█████▉    | 219620/371472 [6:26:15<11:34:31,  3.64it/s]                                                            {'loss': 2.9744, 'learning_rate': 4.6810424702105196e-07, 'epoch': 9.46}
 59%|█████▉    | 219620/371472 [6:26:15<11:34:31,  3.64it/s] 59%|█████▉    | 219621/371472 [6:26:15<11:20:24,  3.72it/s] 59%|█████▉    | 219622/371472 [6:26:15<11:37:00,  3.63it/s] 59%|█████▉    | 219623/371472 [6:26:16<12:01:05,  3.51it/s] 59%|█████▉    | 219624/371472 [6:26:16<12:12:49,  3.45it/s] 59%|█████▉    | 219625/371472 [6:26:16<12:18:23,  3.43it/s] 59%|█████▉    | 219626/371472 [6:26:17<12:03:02,  3.50it/s] 59%|█████▉    | 219627/371472 [6:26:17<12:29:34,  3.38it/s] 59%|█████▉    | 219628/371472 [6:26:17<12:33:40,  3.36it/s] 59%|█████▉    | 219629/371472 [6:26:17<12:12:54,  3.45it/s] 59%|█████▉    | 219630/371472 [6:26:18<12:13:36,  3.45it/s] 59%|█████▉    | 219631/371472 [6:26:18<11:58:03,  3.52it/s] 59%|█████▉    | 219632/371472 [6:26:18<11:41:30,  3.61it/s] 59%|█████▉    | 219633/371472 [6:26:19<11:40:07,  3.61it/s] 59%|█████▉    | 219634/371472 [6:26:19<11:49:29,  3.57it/s] 59%|█████▉    | 219635/371472 [6:26:19<11:58:36,  3.52it/s] 59%|█████▉    | 219636/371472 [6:26:19<11:44:17,  3.59it/s] 59%|█████▉    | 219637/371472 [6:26:20<12:11:09,  3.46it/s] 59%|█████▉    | 219638/371472 [6:26:20<11:48:09,  3.57it/s] 59%|█████▉    | 219639/371472 [6:26:20<11:32:20,  3.66it/s] 59%|█████▉    | 219640/371472 [6:26:21<11:39:46,  3.62it/s]                                                            {'loss': 2.959, 'learning_rate': 4.68055765045573e-07, 'epoch': 9.46}
 59%|█████▉    | 219640/371472 [6:26:21<11:39:46,  3.62it/s] 59%|█████▉    | 219641/371472 [6:26:21<11:21:39,  3.71it/s] 59%|█████▉    | 219642/371472 [6:26:21<11:11:26,  3.77it/s] 59%|█████▉    | 219643/371472 [6:26:21<11:25:29,  3.69it/s] 59%|█████▉    | 219644/371472 [6:26:22<11:25:52,  3.69it/s] 59%|█████▉    | 219645/371472 [6:26:22<11:59:07,  3.52it/s] 59%|█████▉    | 219646/371472 [6:26:22<11:34:09,  3.65it/s] 59%|█████▉    | 219647/371472 [6:26:22<11:28:54,  3.67it/s] 59%|█████▉    | 219648/371472 [6:26:23<11:29:34,  3.67it/s] 59%|█████▉    | 219649/371472 [6:26:23<11:47:12,  3.58it/s] 59%|█████▉    | 219650/371472 [6:26:23<11:32:56,  3.65it/s] 59%|█████▉    | 219651/371472 [6:26:24<11:38:44,  3.62it/s] 59%|█████▉    | 219652/371472 [6:26:24<12:22:12,  3.41it/s] 59%|█████▉    | 219653/371472 [6:26:24<11:54:51,  3.54it/s] 59%|█████▉    | 219654/371472 [6:26:24<11:27:08,  3.68it/s] 59%|█████▉    | 219655/371472 [6:26:25<11:18:41,  3.73it/s] 59%|█████▉    | 219656/371472 [6:26:25<11:07:03,  3.79it/s] 59%|█████▉    | 219657/371472 [6:26:25<11:03:26,  3.81it/s] 59%|█████▉    | 219658/371472 [6:26:25<11:23:50,  3.70it/s] 59%|█████▉    | 219659/371472 [6:26:26<11:48:23,  3.57it/s] 59%|█████▉    | 219660/371472 [6:26:26<11:41:46,  3.61it/s]                                                            {'loss': 2.9214, 'learning_rate': 4.6800728307009416e-07, 'epoch': 9.46}
 59%|█████▉    | 219660/371472 [6:26:26<11:41:46,  3.61it/s] 59%|█████▉    | 219661/371472 [6:26:26<11:48:20,  3.57it/s] 59%|█████▉    | 219662/371472 [6:26:27<12:06:58,  3.48it/s] 59%|█████▉    | 219663/371472 [6:26:27<12:31:00,  3.37it/s] 59%|█████▉    | 219664/371472 [6:26:27<12:25:12,  3.40it/s] 59%|█████▉    | 219665/371472 [6:26:28<12:29:58,  3.37it/s] 59%|█████▉    | 219666/371472 [6:26:28<12:15:07,  3.44it/s] 59%|█████▉    | 219667/371472 [6:26:28<12:05:57,  3.49it/s] 59%|█████▉    | 219668/371472 [6:26:28<11:56:48,  3.53it/s] 59%|█████▉    | 219669/371472 [6:26:29<11:43:35,  3.60it/s] 59%|█████▉    | 219670/371472 [6:26:29<11:45:07,  3.59it/s] 59%|█████▉    | 219671/371472 [6:26:29<11:59:52,  3.51it/s] 59%|█████▉    | 219672/371472 [6:26:29<12:00:44,  3.51it/s] 59%|█████▉    | 219673/371472 [6:26:30<11:42:04,  3.60it/s] 59%|█████▉    | 219674/371472 [6:26:30<12:22:34,  3.41it/s] 59%|█████▉    | 219675/371472 [6:26:30<12:51:11,  3.28it/s] 59%|█████▉    | 219676/371472 [6:26:31<12:39:33,  3.33it/s] 59%|█████▉    | 219677/371472 [6:26:31<12:54:56,  3.26it/s] 59%|█████▉    | 219678/371472 [6:26:31<13:40:33,  3.08it/s] 59%|█████▉    | 219679/371472 [6:26:32<13:13:34,  3.19it/s] 59%|█████▉    | 219680/371472 [6:26:32<12:36:09,  3.35it/s]                                                            {'loss': 2.9667, 'learning_rate': 4.6795880109461523e-07, 'epoch': 9.46}
 59%|█████▉    | 219680/371472 [6:26:32<12:36:09,  3.35it/s] 59%|█████▉    | 219681/371472 [6:26:32<12:19:10,  3.42it/s] 59%|█████▉    | 219682/371472 [6:26:33<12:22:48,  3.41it/s] 59%|█████▉    | 219683/371472 [6:26:33<12:17:59,  3.43it/s] 59%|█████▉    | 219684/371472 [6:26:33<12:12:26,  3.45it/s] 59%|█████▉    | 219685/371472 [6:26:33<11:47:04,  3.58it/s] 59%|█████▉    | 219686/371472 [6:26:34<12:37:55,  3.34it/s] 59%|█████▉    | 219687/371472 [6:26:34<12:27:20,  3.38it/s] 59%|█████▉    | 219688/371472 [6:26:34<12:16:33,  3.43it/s] 59%|█████▉    | 219689/371472 [6:26:35<11:48:59,  3.57it/s] 59%|█████▉    | 219690/371472 [6:26:35<11:42:21,  3.60it/s] 59%|█████▉    | 219691/371472 [6:26:35<11:28:40,  3.67it/s] 59%|█████▉    | 219692/371472 [6:26:35<11:34:37,  3.64it/s] 59%|█████▉    | 219693/371472 [6:26:36<11:19:26,  3.72it/s] 59%|█████▉    | 219694/371472 [6:26:36<11:11:28,  3.77it/s] 59%|█████▉    | 219695/371472 [6:26:36<11:19:39,  3.72it/s] 59%|█████▉    | 219696/371472 [6:26:36<11:20:34,  3.72it/s] 59%|█████▉    | 219697/371472 [6:26:37<11:25:13,  3.69it/s] 59%|█████▉    | 219698/371472 [6:26:37<11:48:21,  3.57it/s] 59%|█████▉    | 219699/371472 [6:26:37<11:37:00,  3.63it/s] 59%|█████▉    | 219700/371472 [6:26:38<12:08:14,  3.47it/s]                                                            {'loss': 2.7909, 'learning_rate': 4.6791031911913635e-07, 'epoch': 9.46}
 59%|█████▉    | 219700/371472 [6:26:38<12:08:14,  3.47it/s] 59%|█████▉    | 219701/371472 [6:26:38<12:54:31,  3.27it/s] 59%|█████▉    | 219702/371472 [6:26:38<12:23:16,  3.40it/s] 59%|█████▉    | 219703/371472 [6:26:38<12:23:26,  3.40it/s] 59%|█████▉    | 219704/371472 [6:26:39<12:31:45,  3.36it/s] 59%|█████▉    | 219705/371472 [6:26:39<12:37:44,  3.34it/s] 59%|█████▉    | 219706/371472 [6:26:39<12:22:21,  3.41it/s] 59%|█████▉    | 219707/371472 [6:26:40<11:55:29,  3.54it/s] 59%|█████▉    | 219708/371472 [6:26:40<11:57:26,  3.53it/s] 59%|█████▉    | 219709/371472 [6:26:40<11:43:39,  3.59it/s] 59%|█████▉    | 219710/371472 [6:26:40<11:19:59,  3.72it/s] 59%|█████▉    | 219711/371472 [6:26:41<11:52:44,  3.55it/s] 59%|█████▉    | 219712/371472 [6:26:41<11:54:45,  3.54it/s] 59%|█████▉    | 219713/371472 [6:26:41<11:49:50,  3.56it/s] 59%|█████▉    | 219714/371472 [6:26:42<12:10:27,  3.46it/s] 59%|█████▉    | 219715/371472 [6:26:42<11:41:17,  3.61it/s] 59%|█████▉    | 219716/371472 [6:26:42<11:16:17,  3.74it/s] 59%|█████▉    | 219717/371472 [6:26:42<11:09:15,  3.78it/s] 59%|█████▉    | 219718/371472 [6:26:43<11:08:53,  3.78it/s] 59%|█████▉    | 219719/371472 [6:26:43<10:54:35,  3.86it/s] 59%|█████▉    | 219720/371472 [6:26:43<11:32:08,  3.65it/s]                                                            {'loss': 2.9799, 'learning_rate': 4.678618371436574e-07, 'epoch': 9.46}
 59%|█████▉    | 219720/371472 [6:26:43<11:32:08,  3.65it/s] 59%|█████▉    | 219721/371472 [6:26:43<11:43:19,  3.60it/s] 59%|█████▉    | 219722/371472 [6:26:44<15:41:33,  2.69it/s] 59%|█████▉    | 219723/371472 [6:26:44<14:44:32,  2.86it/s] 59%|█████▉    | 219724/371472 [6:26:45<13:52:46,  3.04it/s] 59%|█████▉    | 219725/371472 [6:26:45<13:08:10,  3.21it/s] 59%|█████▉    | 219726/371472 [6:26:45<12:32:33,  3.36it/s] 59%|█████▉    | 219727/371472 [6:26:45<12:25:37,  3.39it/s] 59%|█████▉    | 219728/371472 [6:26:46<12:34:45,  3.35it/s] 59%|█████▉    | 219729/371472 [6:26:46<12:14:17,  3.44it/s] 59%|█████▉    | 219730/371472 [6:26:46<12:14:39,  3.44it/s] 59%|█████▉    | 219731/371472 [6:26:47<11:57:14,  3.53it/s] 59%|█████▉    | 219732/371472 [6:26:47<11:49:10,  3.57it/s] 59%|█████▉    | 219733/371472 [6:26:47<12:05:38,  3.49it/s] 59%|█████▉    | 219734/371472 [6:26:48<13:04:58,  3.22it/s] 59%|█████▉    | 219735/371472 [6:26:48<13:08:21,  3.21it/s] 59%|█████▉    | 219736/371472 [6:26:48<12:28:07,  3.38it/s] 59%|█████▉    | 219737/371472 [6:26:48<12:17:13,  3.43it/s] 59%|█████▉    | 219738/371472 [6:26:49<12:22:28,  3.41it/s] 59%|█████▉    | 219739/371472 [6:26:49<12:15:13,  3.44it/s] 59%|█████▉    | 219740/371472 [6:26:49<11:59:20,  3.52it/s]                                                            {'loss': 2.9648, 'learning_rate': 4.678133551681786e-07, 'epoch': 9.46}
 59%|█████▉    | 219740/371472 [6:26:49<11:59:20,  3.52it/s] 59%|█████▉    | 219741/371472 [6:26:49<11:47:06,  3.58it/s] 59%|█████▉    | 219742/371472 [6:26:50<12:38:33,  3.33it/s] 59%|█████▉    | 219743/371472 [6:26:50<12:01:40,  3.50it/s] 59%|█████▉    | 219744/371472 [6:26:50<11:45:37,  3.58it/s] 59%|█████▉    | 219745/371472 [6:26:51<11:59:30,  3.51it/s] 59%|█████▉    | 219746/371472 [6:26:51<11:51:36,  3.55it/s] 59%|█████▉    | 219747/371472 [6:26:51<11:35:48,  3.63it/s] 59%|█████▉    | 219748/371472 [6:26:51<11:51:38,  3.55it/s] 59%|█████▉    | 219749/371472 [6:26:52<13:17:14,  3.17it/s] 59%|█████▉    | 219750/371472 [6:26:52<12:18:51,  3.42it/s] 59%|█████▉    | 219751/371472 [6:26:52<12:40:15,  3.33it/s] 59%|█████▉    | 219752/371472 [6:26:53<12:02:49,  3.50it/s] 59%|█████▉    | 219753/371472 [6:26:53<11:53:59,  3.54it/s] 59%|█████▉    | 219754/371472 [6:26:53<12:47:44,  3.29it/s] 59%|█████▉    | 219755/371472 [6:26:54<12:48:20,  3.29it/s] 59%|█████▉    | 219756/371472 [6:26:54<14:06:55,  2.99it/s] 59%|█████▉    | 219757/371472 [6:26:54<13:19:32,  3.16it/s] 59%|█████▉    | 219758/371472 [6:26:55<13:42:08,  3.08it/s] 59%|█████▉    | 219759/371472 [6:26:55<13:28:54,  3.13it/s] 59%|█████▉    | 219760/371472 [6:26:55<12:57:08,  3.25it/s]                                                            {'loss': 2.9292, 'learning_rate': 4.677648731926997e-07, 'epoch': 9.47}
 59%|█████▉    | 219760/371472 [6:26:55<12:57:08,  3.25it/s] 59%|█████▉    | 219761/371472 [6:26:56<12:54:13,  3.27it/s] 59%|█████▉    | 219762/371472 [6:26:56<13:23:16,  3.15it/s] 59%|█████▉    | 219763/371472 [6:26:56<12:35:32,  3.35it/s] 59%|█████▉    | 219764/371472 [6:26:56<13:25:23,  3.14it/s] 59%|█████▉    | 219765/371472 [6:26:57<13:11:23,  3.19it/s] 59%|█████▉    | 219766/371472 [6:26:57<12:41:37,  3.32it/s] 59%|█████▉    | 219767/371472 [6:26:57<12:09:45,  3.46it/s] 59%|█████▉    | 219768/371472 [6:26:58<11:43:53,  3.59it/s] 59%|█████▉    | 219769/371472 [6:26:58<11:37:23,  3.63it/s] 59%|█████▉    | 219770/371472 [6:26:58<11:28:52,  3.67it/s] 59%|█████▉    | 219771/371472 [6:26:58<11:07:52,  3.79it/s] 59%|█████▉    | 219772/371472 [6:26:59<11:09:11,  3.78it/s] 59%|█████▉    | 219773/371472 [6:26:59<11:15:05,  3.75it/s] 59%|█████▉    | 219774/371472 [6:26:59<11:24:20,  3.69it/s] 59%|█████▉    | 219775/371472 [6:26:59<11:48:27,  3.57it/s] 59%|█████▉    | 219776/371472 [6:27:00<12:44:52,  3.31it/s] 59%|█████▉    | 219777/371472 [6:27:00<12:15:02,  3.44it/s] 59%|█████▉    | 219778/371472 [6:27:00<12:12:26,  3.45it/s] 59%|█████▉    | 219779/371472 [6:27:01<12:09:03,  3.47it/s] 59%|█████▉    | 219780/371472 [6:27:01<11:39:54,  3.61it/s]                                                            {'loss': 2.8051, 'learning_rate': 4.677163912172208e-07, 'epoch': 9.47}
 59%|█████▉    | 219780/371472 [6:27:01<11:39:54,  3.61it/s] 59%|█████▉    | 219781/371472 [6:27:01<11:35:56,  3.63it/s] 59%|█████▉    | 219782/371472 [6:27:02<12:11:11,  3.46it/s] 59%|█████▉    | 219783/371472 [6:27:02<12:03:01,  3.50it/s] 59%|█████▉    | 219784/371472 [6:27:02<12:56:13,  3.26it/s] 59%|█████▉    | 219785/371472 [6:27:02<12:32:59,  3.36it/s] 59%|█████▉    | 219786/371472 [6:27:03<12:10:00,  3.46it/s] 59%|█████▉    | 219787/371472 [6:27:03<12:01:33,  3.50it/s] 59%|█████▉    | 219788/371472 [6:27:03<11:56:50,  3.53it/s] 59%|█████▉    | 219789/371472 [6:27:04<11:46:51,  3.58it/s] 59%|█████▉    | 219790/371472 [6:27:04<11:57:20,  3.52it/s] 59%|█████▉    | 219791/371472 [6:27:04<11:37:34,  3.62it/s] 59%|█████▉    | 219792/371472 [6:27:04<11:52:09,  3.55it/s] 59%|█████▉    | 219793/371472 [6:27:05<11:46:43,  3.58it/s] 59%|█████▉    | 219794/371472 [6:27:05<11:34:43,  3.64it/s] 59%|█████▉    | 219795/371472 [6:27:05<11:47:51,  3.57it/s] 59%|█████▉    | 219796/371472 [6:27:06<12:22:09,  3.41it/s] 59%|█████▉    | 219797/371472 [6:27:06<12:50:11,  3.28it/s] 59%|█████▉    | 219798/371472 [6:27:06<12:15:50,  3.44it/s] 59%|█████▉    | 219799/371472 [6:27:06<12:08:18,  3.47it/s] 59%|█████▉    | 219800/371472 [6:27:07<12:03:17,  3.49it/s]                                                            {'loss': 3.0613, 'learning_rate': 4.6766790924174187e-07, 'epoch': 9.47}
 59%|█████▉    | 219800/371472 [6:27:07<12:03:17,  3.49it/s] 59%|█████▉    | 219801/371472 [6:27:07<12:20:24,  3.41it/s] 59%|█████▉    | 219802/371472 [6:27:07<12:01:12,  3.50it/s] 59%|█████▉    | 219803/371472 [6:27:08<12:26:41,  3.39it/s] 59%|█████▉    | 219804/371472 [6:27:08<12:16:31,  3.43it/s] 59%|█████▉    | 219805/371472 [6:27:08<12:19:19,  3.42it/s] 59%|█████▉    | 219806/371472 [6:27:08<12:26:29,  3.39it/s] 59%|█████▉    | 219807/371472 [6:27:09<12:07:12,  3.48it/s] 59%|█████▉    | 219808/371472 [6:27:09<11:58:18,  3.52it/s] 59%|█████▉    | 219809/371472 [6:27:09<12:12:37,  3.45it/s] 59%|█████▉    | 219810/371472 [6:27:10<11:51:10,  3.55it/s] 59%|█████▉    | 219811/371472 [6:27:10<11:38:24,  3.62it/s] 59%|█████▉    | 219812/371472 [6:27:10<11:40:38,  3.61it/s] 59%|█████▉    | 219813/371472 [6:27:10<11:47:53,  3.57it/s] 59%|█████▉    | 219814/371472 [6:27:11<11:56:30,  3.53it/s] 59%|█████▉    | 219815/371472 [6:27:11<12:31:17,  3.36it/s] 59%|█████▉    | 219816/371472 [6:27:11<12:30:24,  3.37it/s] 59%|█████▉    | 219817/371472 [6:27:12<12:28:18,  3.38it/s] 59%|█████▉    | 219818/371472 [6:27:12<12:24:25,  3.40it/s] 59%|█████▉    | 219819/371472 [6:27:12<11:46:12,  3.58it/s] 59%|█████▉    | 219820/371472 [6:27:12<11:45:23,  3.58it/s]                                                            {'loss': 2.7395, 'learning_rate': 4.6761942726626305e-07, 'epoch': 9.47}
 59%|█████▉    | 219820/371472 [6:27:12<11:45:23,  3.58it/s] 59%|█████▉    | 219821/371472 [6:27:13<12:47:25,  3.29it/s] 59%|█████▉    | 219822/371472 [6:27:13<12:29:41,  3.37it/s] 59%|█████▉    | 219823/371472 [6:27:13<12:16:41,  3.43it/s] 59%|█████▉    | 219824/371472 [6:27:14<12:20:00,  3.42it/s] 59%|█████▉    | 219825/371472 [6:27:14<11:57:21,  3.52it/s] 59%|█████▉    | 219826/371472 [6:27:14<13:06:48,  3.21it/s] 59%|█████▉    | 219827/371472 [6:27:15<12:26:39,  3.38it/s] 59%|█████▉    | 219828/371472 [6:27:15<11:59:55,  3.51it/s] 59%|█████▉    | 219829/371472 [6:27:15<12:33:41,  3.35it/s] 59%|█████▉    | 219830/371472 [6:27:15<12:10:57,  3.46it/s] 59%|█████▉    | 219831/371472 [6:27:16<12:15:55,  3.43it/s] 59%|█████▉    | 219832/371472 [6:27:16<12:02:30,  3.50it/s] 59%|█████▉    | 219833/371472 [6:27:16<12:29:53,  3.37it/s] 59%|█████▉    | 219834/371472 [6:27:17<12:14:01,  3.44it/s] 59%|█████▉    | 219835/371472 [6:27:17<14:41:09,  2.87it/s] 59%|█████▉    | 219836/371472 [6:27:17<13:47:08,  3.06it/s] 59%|█████▉    | 219837/371472 [6:27:18<13:00:56,  3.24it/s] 59%|█████▉    | 219838/371472 [6:27:18<12:31:09,  3.36it/s] 59%|█████▉    | 219839/371472 [6:27:18<12:06:16,  3.48it/s] 59%|█████▉    | 219840/371472 [6:27:18<11:42:48,  3.60it/s]                                                            {'loss': 3.0393, 'learning_rate': 4.6757094529078407e-07, 'epoch': 9.47}
 59%|█████▉    | 219840/371472 [6:27:18<11:42:48,  3.60it/s] 59%|█████▉    | 219841/371472 [6:27:19<11:47:49,  3.57it/s] 59%|█████▉    | 219842/371472 [6:27:19<12:23:51,  3.40it/s] 59%|█████▉    | 219843/371472 [6:27:19<12:20:58,  3.41it/s] 59%|█████▉    | 219844/371472 [6:27:20<13:06:08,  3.21it/s] 59%|█████▉    | 219845/371472 [6:27:20<14:15:19,  2.95it/s] 59%|█████▉    | 219846/371472 [6:27:20<14:08:16,  2.98it/s] 59%|█████▉    | 219847/371472 [6:27:21<13:30:06,  3.12it/s] 59%|█████▉    | 219848/371472 [6:27:21<13:09:32,  3.20it/s] 59%|█████▉    | 219849/371472 [6:27:21<12:21:53,  3.41it/s] 59%|█████▉    | 219850/371472 [6:27:21<11:54:21,  3.54it/s] 59%|█████▉    | 219851/371472 [6:27:22<11:43:48,  3.59it/s] 59%|█████▉    | 219852/371472 [6:27:22<12:07:17,  3.47it/s] 59%|█████▉    | 219853/371472 [6:27:22<11:50:52,  3.55it/s] 59%|█████▉    | 219854/371472 [6:27:23<12:24:51,  3.39it/s] 59%|█████▉    | 219855/371472 [6:27:23<12:03:03,  3.49it/s] 59%|█████▉    | 219856/371472 [6:27:23<12:00:24,  3.51it/s] 59%|█████▉    | 219857/371472 [6:27:23<12:32:55,  3.36it/s] 59%|█████▉    | 219858/371472 [6:27:24<12:37:22,  3.34it/s] 59%|█████▉    | 219859/371472 [6:27:24<12:40:11,  3.32it/s] 59%|█████▉    | 219860/371472 [6:27:24<13:57:32,  3.02it/s]                                                            {'loss': 2.986, 'learning_rate': 4.6752246331530524e-07, 'epoch': 9.47}
 59%|█████▉    | 219860/371472 [6:27:24<13:57:32,  3.02it/s] 59%|█████▉    | 219861/371472 [6:27:25<14:16:02,  2.95it/s] 59%|█████▉    | 219862/371472 [6:27:25<13:33:34,  3.11it/s] 59%|█████▉    | 219863/371472 [6:27:25<13:36:33,  3.09it/s] 59%|█████▉    | 219864/371472 [6:27:26<13:56:17,  3.02it/s] 59%|█████▉    | 219865/371472 [6:27:26<12:56:34,  3.25it/s] 59%|█████▉    | 219866/371472 [6:27:26<12:11:04,  3.46it/s] 59%|█████▉    | 219867/371472 [6:27:27<12:06:47,  3.48it/s] 59%|█████▉    | 219868/371472 [6:27:27<12:21:52,  3.41it/s] 59%|█████▉    | 219869/371472 [6:27:27<12:59:05,  3.24it/s] 59%|█████▉    | 219870/371472 [6:27:28<12:28:08,  3.38it/s] 59%|█████▉    | 219871/371472 [6:27:28<12:16:30,  3.43it/s] 59%|█████▉    | 219872/371472 [6:27:28<13:04:00,  3.22it/s] 59%|█████▉    | 219873/371472 [6:27:28<13:05:21,  3.22it/s] 59%|█████▉    | 219874/371472 [6:27:29<12:19:49,  3.42it/s] 59%|█████▉    | 219875/371472 [6:27:29<12:20:53,  3.41it/s] 59%|█████▉    | 219876/371472 [6:27:29<11:47:21,  3.57it/s] 59%|█████▉    | 219877/371472 [6:27:30<11:31:37,  3.65it/s] 59%|█████▉    | 219878/371472 [6:27:30<11:56:13,  3.53it/s] 59%|█████▉    | 219879/371472 [6:27:30<11:42:51,  3.59it/s] 59%|█████▉    | 219880/371472 [6:27:30<11:23:09,  3.70it/s]                                                            {'loss': 2.9311, 'learning_rate': 4.674739813398263e-07, 'epoch': 9.47}
 59%|█████▉    | 219880/371472 [6:27:30<11:23:09,  3.70it/s] 59%|█████▉    | 219881/371472 [6:27:31<10:56:33,  3.85it/s] 59%|█████▉    | 219882/371472 [6:27:31<12:41:33,  3.32it/s] 59%|█████▉    | 219883/371472 [6:27:31<12:10:43,  3.46it/s] 59%|█████▉    | 219884/371472 [6:27:31<11:50:06,  3.56it/s] 59%|█████▉    | 219885/371472 [6:27:32<11:44:19,  3.59it/s] 59%|█████▉    | 219886/371472 [6:27:32<11:47:10,  3.57it/s] 59%|█████▉    | 219887/371472 [6:27:32<12:22:37,  3.40it/s] 59%|█████▉    | 219888/371472 [6:27:33<12:28:23,  3.38it/s] 59%|█████▉    | 219889/371472 [6:27:33<12:40:55,  3.32it/s] 59%|█████▉    | 219890/371472 [6:27:33<12:12:57,  3.45it/s] 59%|█████▉    | 219891/371472 [6:27:34<12:12:40,  3.45it/s] 59%|█████▉    | 219892/371472 [6:27:34<13:01:57,  3.23it/s] 59%|█████▉    | 219893/371472 [6:27:34<14:31:47,  2.90it/s] 59%|█████▉    | 219894/371472 [6:27:35<13:06:56,  3.21it/s] 59%|█████▉    | 219895/371472 [6:27:35<12:23:58,  3.40it/s] 59%|█████▉    | 219896/371472 [6:27:35<12:24:25,  3.39it/s] 59%|█████▉    | 219897/371472 [6:27:35<12:21:27,  3.41it/s] 59%|█████▉    | 219898/371472 [6:27:36<15:00:27,  2.81it/s] 59%|█████▉    | 219899/371472 [6:27:36<14:07:19,  2.98it/s] 59%|█████▉    | 219900/371472 [6:27:37<14:23:47,  2.92it/s]                                                            {'loss': 2.7053, 'learning_rate': 4.6742549936434744e-07, 'epoch': 9.47}
 59%|█████▉    | 219900/371472 [6:27:37<14:23:47,  2.92it/s] 59%|█████▉    | 219901/371472 [6:27:37<13:44:17,  3.06it/s] 59%|█████▉    | 219902/371472 [6:27:37<12:46:19,  3.30it/s] 59%|█████▉    | 219903/371472 [6:27:37<13:46:41,  3.06it/s] 59%|█████▉    | 219904/371472 [6:27:38<13:02:36,  3.23it/s] 59%|█████▉    | 219905/371472 [6:27:38<12:28:36,  3.37it/s] 59%|█████▉    | 219906/371472 [6:27:38<12:13:59,  3.44it/s] 59%|█████▉    | 219907/371472 [6:27:39<12:22:16,  3.40it/s] 59%|█████▉    | 219908/371472 [6:27:39<12:34:15,  3.35it/s] 59%|█████▉    | 219909/371472 [6:27:39<11:55:07,  3.53it/s] 59%|█████▉    | 219910/371472 [6:27:39<12:11:16,  3.45it/s] 59%|█████▉    | 219911/371472 [6:27:40<11:54:51,  3.53it/s] 59%|█████▉    | 219912/371472 [6:27:40<11:34:07,  3.64it/s] 59%|█████▉    | 219913/371472 [6:27:40<11:46:47,  3.57it/s] 59%|█████▉    | 219914/371472 [6:27:41<11:56:27,  3.53it/s] 59%|█████▉    | 219915/371472 [6:27:41<11:36:32,  3.63it/s] 59%|█████▉    | 219916/371472 [6:27:41<11:43:53,  3.59it/s] 59%|█████▉    | 219917/371472 [6:27:41<12:04:47,  3.48it/s] 59%|█████▉    | 219918/371472 [6:27:42<11:27:52,  3.67it/s] 59%|█████▉    | 219919/371472 [6:27:42<11:37:49,  3.62it/s] 59%|█████▉    | 219920/371472 [6:27:42<12:19:06,  3.42it/s]                                                            {'loss': 2.8083, 'learning_rate': 4.673770173888685e-07, 'epoch': 9.47}
 59%|█████▉    | 219920/371472 [6:27:42<12:19:06,  3.42it/s] 59%|█████▉    | 219921/371472 [6:27:43<11:54:57,  3.53it/s] 59%|█████▉    | 219922/371472 [6:27:43<11:35:07,  3.63it/s] 59%|█████▉    | 219923/371472 [6:27:43<11:26:16,  3.68it/s] 59%|█████▉    | 219924/371472 [6:27:43<11:08:23,  3.78it/s] 59%|█████▉    | 219925/371472 [6:27:44<11:34:41,  3.64it/s] 59%|█████▉    | 219926/371472 [6:27:44<12:28:02,  3.38it/s] 59%|█████▉    | 219927/371472 [6:27:44<13:02:10,  3.23it/s] 59%|█████▉    | 219928/371472 [6:27:45<12:29:04,  3.37it/s] 59%|█████▉    | 219929/371472 [6:27:45<12:20:31,  3.41it/s] 59%|█████▉    | 219930/371472 [6:27:45<12:07:44,  3.47it/s] 59%|█████▉    | 219931/371472 [6:27:45<12:07:17,  3.47it/s] 59%|█████▉    | 219932/371472 [6:27:46<11:30:24,  3.66it/s] 59%|█████▉    | 219933/371472 [6:27:46<11:43:12,  3.59it/s] 59%|█████▉    | 219934/371472 [6:27:46<11:49:07,  3.56it/s] 59%|█████▉    | 219935/371472 [6:27:46<11:41:05,  3.60it/s] 59%|█████▉    | 219936/371472 [6:27:47<11:23:36,  3.69it/s] 59%|█████▉    | 219937/371472 [6:27:47<11:22:36,  3.70it/s] 59%|█████▉    | 219938/371472 [6:27:47<12:26:15,  3.38it/s] 59%|█████▉    | 219939/371472 [6:27:48<12:48:16,  3.29it/s] 59%|█████▉    | 219940/371472 [6:27:48<12:20:47,  3.41it/s]                                                            {'loss': 2.7777, 'learning_rate': 4.673285354133897e-07, 'epoch': 9.47}
 59%|█████▉    | 219940/371472 [6:27:48<12:20:47,  3.41it/s] 59%|█████▉    | 219941/371472 [6:27:48<12:03:08,  3.49it/s] 59%|█████▉    | 219942/371472 [6:27:48<11:45:37,  3.58it/s] 59%|█████▉    | 219943/371472 [6:27:49<12:16:59,  3.43it/s] 59%|█████▉    | 219944/371472 [6:27:49<12:10:25,  3.46it/s] 59%|█████▉    | 219945/371472 [6:27:49<12:27:57,  3.38it/s] 59%|█████▉    | 219946/371472 [6:27:50<11:46:15,  3.58it/s] 59%|█████▉    | 219947/371472 [6:27:50<12:28:35,  3.37it/s] 59%|█████▉    | 219948/371472 [6:27:50<12:38:38,  3.33it/s] 59%|█████▉    | 219949/371472 [6:27:51<12:16:28,  3.43it/s] 59%|█████▉    | 219950/371472 [6:27:51<12:48:38,  3.29it/s] 59%|█████▉    | 219951/371472 [6:27:51<12:15:56,  3.43it/s] 59%|█████▉    | 219952/371472 [6:27:51<12:23:23,  3.40it/s] 59%|█████▉    | 219953/371472 [6:27:52<12:30:22,  3.37it/s] 59%|█████▉    | 219954/371472 [6:27:52<12:55:41,  3.26it/s] 59%|█████▉    | 219955/371472 [6:27:52<12:33:18,  3.35it/s] 59%|█████▉    | 219956/371472 [6:27:53<12:05:41,  3.48it/s] 59%|█████▉    | 219957/371472 [6:27:53<12:03:43,  3.49it/s] 59%|█████▉    | 219958/371472 [6:27:53<11:52:59,  3.54it/s] 59%|█████▉    | 219959/371472 [6:27:53<12:04:04,  3.49it/s] 59%|█████▉    | 219960/371472 [6:27:54<11:43:26,  3.59it/s]                                                            {'loss': 2.8741, 'learning_rate': 4.672800534379107e-07, 'epoch': 9.47}
 59%|█████▉    | 219960/371472 [6:27:54<11:43:26,  3.59it/s] 59%|█████▉    | 219961/371472 [6:27:54<12:26:36,  3.38it/s] 59%|█████▉    | 219962/371472 [6:27:54<12:16:11,  3.43it/s] 59%|█████▉    | 219963/371472 [6:27:55<12:15:35,  3.43it/s] 59%|█████▉    | 219964/371472 [6:27:55<12:58:49,  3.24it/s] 59%|█████▉    | 219965/371472 [6:27:55<12:18:49,  3.42it/s] 59%|█████▉    | 219966/371472 [6:27:56<12:22:07,  3.40it/s] 59%|█████▉    | 219967/371472 [6:27:56<12:06:48,  3.47it/s] 59%|█████▉    | 219968/371472 [6:27:56<11:49:05,  3.56it/s] 59%|█████▉    | 219969/371472 [6:27:56<11:36:25,  3.63it/s] 59%|█████▉    | 219970/371472 [6:27:57<11:29:05,  3.66it/s] 59%|█████▉    | 219971/371472 [6:27:57<11:41:05,  3.60it/s] 59%|█████▉    | 219972/371472 [6:27:57<11:41:01,  3.60it/s] 59%|█████▉    | 219973/371472 [6:27:57<11:33:50,  3.64it/s] 59%|█████▉    | 219974/371472 [6:27:58<11:19:36,  3.72it/s] 59%|█████▉    | 219975/371472 [6:27:58<11:18:52,  3.72it/s] 59%|█████▉    | 219976/371472 [6:27:58<11:46:36,  3.57it/s] 59%|█████▉    | 219977/371472 [6:27:59<11:51:11,  3.55it/s] 59%|█████▉    | 219978/371472 [6:27:59<11:27:52,  3.67it/s] 59%|█████▉    | 219979/371472 [6:27:59<11:40:22,  3.61it/s] 59%|█████▉    | 219980/371472 [6:27:59<12:04:38,  3.48it/s]                                                            {'loss': 2.86, 'learning_rate': 4.672315714624319e-07, 'epoch': 9.47}
 59%|█████▉    | 219980/371472 [6:27:59<12:04:38,  3.48it/s] 59%|█████▉    | 219981/371472 [6:28:00<11:52:38,  3.54it/s] 59%|█████▉    | 219982/371472 [6:28:00<11:40:33,  3.60it/s] 59%|█████▉    | 219983/371472 [6:28:00<11:45:31,  3.58it/s] 59%|█████▉    | 219984/371472 [6:28:01<11:50:32,  3.55it/s] 59%|█████▉    | 219985/371472 [6:28:01<11:58:17,  3.52it/s] 59%|█████▉    | 219986/371472 [6:28:01<11:36:40,  3.62it/s] 59%|█████▉    | 219987/371472 [6:28:01<11:44:31,  3.58it/s] 59%|█████▉    | 219988/371472 [6:28:02<11:32:36,  3.65it/s] 59%|█████▉    | 219989/371472 [6:28:02<11:29:56,  3.66it/s] 59%|█████▉    | 219990/371472 [6:28:02<11:02:08,  3.81it/s] 59%|█████▉    | 219991/371472 [6:28:02<11:11:57,  3.76it/s] 59%|█████▉    | 219992/371472 [6:28:03<11:17:06,  3.73it/s] 59%|█████▉    | 219993/371472 [6:28:03<11:30:14,  3.66it/s] 59%|█████▉    | 219994/371472 [6:28:03<11:20:59,  3.71it/s] 59%|█████▉    | 219995/371472 [6:28:04<11:45:04,  3.58it/s] 59%|█████▉    | 219996/371472 [6:28:04<11:40:36,  3.60it/s] 59%|█████▉    | 219997/371472 [6:28:04<12:17:51,  3.42it/s] 59%|█████▉    | 219998/371472 [6:28:04<12:33:17,  3.35it/s] 59%|█████▉    | 219999/371472 [6:28:05<12:52:28,  3.27it/s] 59%|█████▉    | 220000/371472 [6:28:05<12:13:58,  3.44it/s]                                                            {'loss': 3.0015, 'learning_rate': 4.6718308948695296e-07, 'epoch': 9.48}
 59%|█████▉    | 220000/371472 [6:28:05<12:13:58,  3.44it/s] 59%|█████▉    | 220001/371472 [6:28:05<12:29:47,  3.37it/s] 59%|█████▉    | 220002/371472 [6:28:06<12:03:58,  3.49it/s] 59%|█████▉    | 220003/371472 [6:28:06<11:42:12,  3.60it/s] 59%|█████▉    | 220004/371472 [6:28:06<12:08:04,  3.47it/s] 59%|█████▉    | 220005/371472 [6:28:06<11:43:52,  3.59it/s] 59%|█████▉    | 220006/371472 [6:28:07<11:56:38,  3.52it/s] 59%|█████▉    | 220007/371472 [6:28:07<13:03:59,  3.22it/s] 59%|█████▉    | 220008/371472 [6:28:07<13:02:03,  3.23it/s] 59%|█████▉    | 220009/371472 [6:28:08<13:12:00,  3.19it/s] 59%|█████▉    | 220010/371472 [6:28:08<13:03:41,  3.22it/s] 59%|█████▉    | 220011/371472 [6:28:08<12:50:57,  3.27it/s] 59%|█████▉    | 220012/371472 [6:28:09<13:09:53,  3.20it/s] 59%|█████▉    | 220013/371472 [6:28:09<12:43:52,  3.30it/s] 59%|█████▉    | 220014/371472 [6:28:09<11:53:55,  3.54it/s] 59%|█████▉    | 220015/371472 [6:28:09<12:16:16,  3.43it/s] 59%|█████▉    | 220016/371472 [6:28:10<12:05:07,  3.48it/s] 59%|█████▉    | 220017/371472 [6:28:10<12:06:18,  3.48it/s] 59%|█████▉    | 220018/371472 [6:28:10<12:15:36,  3.43it/s] 59%|█████▉    | 220019/371472 [6:28:11<11:37:49,  3.62it/s] 59%|█████▉    | 220020/371472 [6:28:11<11:31:18,  3.65it/s]                                                            {'loss': 2.8011, 'learning_rate': 4.67134607511474e-07, 'epoch': 9.48}
 59%|█████▉    | 220020/371472 [6:28:11<11:31:18,  3.65it/s] 59%|█████▉    | 220021/371472 [6:28:11<11:34:34,  3.63it/s] 59%|█████▉    | 220022/371472 [6:28:11<11:27:19,  3.67it/s] 59%|█████▉    | 220023/371472 [6:28:12<11:41:35,  3.60it/s] 59%|█████▉    | 220024/371472 [6:28:12<13:44:30,  3.06it/s] 59%|█████▉    | 220025/371472 [6:28:12<12:54:44,  3.26it/s] 59%|█████▉    | 220026/371472 [6:28:13<12:25:32,  3.39it/s] 59%|█████▉    | 220027/371472 [6:28:13<13:52:52,  3.03it/s] 59%|█████▉    | 220028/371472 [6:28:13<13:49:23,  3.04it/s] 59%|█████▉    | 220029/371472 [6:28:14<13:07:36,  3.20it/s] 59%|█████▉    | 220030/371472 [6:28:14<12:58:42,  3.24it/s] 59%|█████▉    | 220031/371472 [6:28:14<12:14:25,  3.44it/s] 59%|█████▉    | 220032/371472 [6:28:15<12:57:09,  3.25it/s] 59%|█████▉    | 220033/371472 [6:28:15<12:20:53,  3.41it/s] 59%|█████▉    | 220034/371472 [6:28:15<12:02:40,  3.49it/s] 59%|█████▉    | 220035/371472 [6:28:15<11:33:31,  3.64it/s] 59%|█████▉    | 220036/371472 [6:28:16<12:27:15,  3.38it/s] 59%|█████▉    | 220037/371472 [6:28:16<12:29:52,  3.37it/s] 59%|█████▉    | 220038/371472 [6:28:16<12:35:11,  3.34it/s] 59%|█████▉    | 220039/371472 [6:28:17<12:19:32,  3.41it/s] 59%|█████▉    | 220040/371472 [6:28:17<12:18:34,  3.42it/s]                                                            {'loss': 2.7092, 'learning_rate': 4.6708612553599515e-07, 'epoch': 9.48}
 59%|█████▉    | 220040/371472 [6:28:17<12:18:34,  3.42it/s] 59%|█████▉    | 220041/371472 [6:28:17<12:04:47,  3.48it/s] 59%|█████▉    | 220042/371472 [6:28:17<12:08:37,  3.46it/s] 59%|█████▉    | 220043/371472 [6:28:18<11:55:17,  3.53it/s] 59%|█████▉    | 220044/371472 [6:28:18<12:28:56,  3.37it/s] 59%|█████▉    | 220045/371472 [6:28:18<12:00:07,  3.50it/s] 59%|█████▉    | 220046/371472 [6:28:19<11:44:19,  3.58it/s] 59%|█████▉    | 220047/371472 [6:28:19<11:55:14,  3.53it/s] 59%|█████▉    | 220048/371472 [6:28:19<11:56:02,  3.52it/s] 59%|█████▉    | 220049/371472 [6:28:20<13:22:24,  3.15it/s] 59%|█████▉    | 220050/371472 [6:28:20<12:49:24,  3.28it/s] 59%|█████▉    | 220051/371472 [6:28:20<12:46:24,  3.29it/s] 59%|█████▉    | 220052/371472 [6:28:20<12:50:24,  3.28it/s] 59%|█████▉    | 220053/371472 [6:28:21<12:59:13,  3.24it/s] 59%|█████▉    | 220054/371472 [6:28:21<12:19:51,  3.41it/s] 59%|█████▉    | 220055/371472 [6:28:21<12:41:19,  3.31it/s] 59%|█████▉    | 220056/371472 [6:28:22<13:46:46,  3.05it/s] 59%|█████▉    | 220057/371472 [6:28:22<13:19:34,  3.16it/s] 59%|█████▉    | 220058/371472 [6:28:22<12:32:11,  3.35it/s] 59%|█████▉    | 220059/371472 [6:28:23<12:25:46,  3.38it/s] 59%|█████▉    | 220060/371472 [6:28:23<12:26:54,  3.38it/s]                                                            {'loss': 2.8963, 'learning_rate': 4.670376435605162e-07, 'epoch': 9.48}
 59%|█████▉    | 220060/371472 [6:28:23<12:26:54,  3.38it/s] 59%|█████▉    | 220061/371472 [6:28:23<12:18:23,  3.42it/s] 59%|█████▉    | 220062/371472 [6:28:23<12:08:46,  3.46it/s] 59%|█████▉    | 220063/371472 [6:28:24<12:28:50,  3.37it/s] 59%|█████▉    | 220064/371472 [6:28:24<12:57:58,  3.24it/s] 59%|█████▉    | 220065/371472 [6:28:24<12:33:48,  3.35it/s] 59%|█████▉    | 220066/371472 [6:28:25<12:13:49,  3.44it/s] 59%|█████▉    | 220067/371472 [6:28:25<12:19:40,  3.41it/s] 59%|█████▉    | 220068/371472 [6:28:25<12:26:45,  3.38it/s] 59%|█████▉    | 220069/371472 [6:28:26<12:55:55,  3.25it/s] 59%|█████▉    | 220070/371472 [6:28:26<13:03:17,  3.22it/s] 59%|█████▉    | 220071/371472 [6:28:26<12:51:26,  3.27it/s] 59%|█████▉    | 220072/371472 [6:28:26<12:48:52,  3.28it/s] 59%|█████▉    | 220073/371472 [6:28:27<12:29:07,  3.37it/s] 59%|█████▉    | 220074/371472 [6:28:27<12:47:38,  3.29it/s] 59%|█████▉    | 220075/371472 [6:28:27<12:59:18,  3.24it/s] 59%|█████▉    | 220076/371472 [6:28:28<12:15:10,  3.43it/s] 59%|█████▉    | 220077/371472 [6:28:28<11:49:44,  3.56it/s] 59%|█████▉    | 220078/371472 [6:28:28<12:35:50,  3.34it/s] 59%|█████▉    | 220079/371472 [6:28:29<12:42:23,  3.31it/s] 59%|█████▉    | 220080/371472 [6:28:29<13:07:25,  3.20it/s]                                                            {'loss': 2.9719, 'learning_rate': 4.6698916158503735e-07, 'epoch': 9.48}
 59%|█████▉    | 220080/371472 [6:28:29<13:07:25,  3.20it/s] 59%|█████▉    | 220081/371472 [6:28:29<12:39:17,  3.32it/s] 59%|█████▉    | 220082/371472 [6:28:29<12:27:42,  3.37it/s] 59%|█████▉    | 220083/371472 [6:28:30<12:27:39,  3.37it/s] 59%|█████▉    | 220084/371472 [6:28:30<12:19:39,  3.41it/s] 59%|█████▉    | 220085/371472 [6:28:30<12:15:52,  3.43it/s] 59%|█████▉    | 220086/371472 [6:28:31<12:21:48,  3.40it/s] 59%|█████▉    | 220087/371472 [6:28:31<12:23:02,  3.40it/s] 59%|█████▉    | 220088/371472 [6:28:31<12:45:14,  3.30it/s] 59%|█████▉    | 220089/371472 [6:28:31<12:41:20,  3.31it/s] 59%|█████▉    | 220090/371472 [6:28:32<12:34:42,  3.34it/s] 59%|█████▉    | 220091/371472 [6:28:32<12:05:01,  3.48it/s] 59%|█████▉    | 220092/371472 [6:28:32<12:05:23,  3.48it/s] 59%|█████▉    | 220093/371472 [6:28:33<11:48:38,  3.56it/s] 59%|█████▉    | 220094/371472 [6:28:33<11:16:32,  3.73it/s] 59%|█████▉    | 220095/371472 [6:28:33<11:28:47,  3.66it/s] 59%|█████▉    | 220096/371472 [6:28:33<11:47:16,  3.57it/s] 59%|█████▉    | 220097/371472 [6:28:34<12:22:10,  3.40it/s] 59%|█████▉    | 220098/371472 [6:28:34<12:39:12,  3.32it/s] 59%|█████▉    | 220099/371472 [6:28:34<12:45:09,  3.30it/s] 59%|█████▉    | 220100/371472 [6:28:35<12:44:03,  3.30it/s]                                                            {'loss': 2.7876, 'learning_rate': 4.669406796095584e-07, 'epoch': 9.48}
 59%|█████▉    | 220100/371472 [6:28:35<12:44:03,  3.30it/s] 59%|█████▉    | 220101/371472 [6:28:35<12:41:27,  3.31it/s] 59%|█████▉    | 220102/371472 [6:28:35<13:19:24,  3.16it/s] 59%|█████▉    | 220103/371472 [6:28:36<12:49:52,  3.28it/s] 59%|█████▉    | 220104/371472 [6:28:36<12:18:47,  3.41it/s] 59%|█████▉    | 220105/371472 [6:28:36<11:44:28,  3.58it/s] 59%|█████▉    | 220106/371472 [6:28:36<11:47:45,  3.56it/s] 59%|█████▉    | 220107/371472 [6:28:37<11:13:37,  3.75it/s] 59%|█████▉    | 220108/371472 [6:28:37<11:24:18,  3.69it/s] 59%|█████▉    | 220109/371472 [6:28:37<11:30:37,  3.65it/s] 59%|█████▉    | 220110/371472 [6:28:37<11:08:26,  3.77it/s] 59%|█████▉    | 220111/371472 [6:28:38<11:05:28,  3.79it/s] 59%|█████▉    | 220112/371472 [6:28:38<10:41:05,  3.93it/s] 59%|█████▉    | 220113/371472 [6:28:38<11:05:32,  3.79it/s] 59%|█████▉    | 220114/371472 [6:28:38<10:44:31,  3.91it/s] 59%|█████▉    | 220115/371472 [6:28:39<11:07:06,  3.78it/s] 59%|█████▉    | 220116/371472 [6:28:39<11:04:33,  3.80it/s] 59%|█████▉    | 220117/371472 [6:28:39<11:09:38,  3.77it/s] 59%|█████▉    | 220118/371472 [6:28:40<10:59:48,  3.82it/s] 59%|█████▉    | 220119/371472 [6:28:40<11:23:08,  3.69it/s] 59%|█████▉    | 220120/371472 [6:28:40<11:39:05,  3.61it/s]                                                            {'loss': 2.9537, 'learning_rate': 4.668921976340796e-07, 'epoch': 9.48}
 59%|█████▉    | 220120/371472 [6:28:40<11:39:05,  3.61it/s] 59%|█████▉    | 220121/371472 [6:28:40<11:43:12,  3.59it/s] 59%|█████▉    | 220122/371472 [6:28:41<11:35:44,  3.63it/s] 59%|█████▉    | 220123/371472 [6:28:41<11:31:04,  3.65it/s] 59%|█████▉    | 220124/371472 [6:28:41<12:29:59,  3.36it/s] 59%|█████▉    | 220125/371472 [6:28:42<12:10:06,  3.45it/s] 59%|█████▉    | 220126/371472 [6:28:42<11:43:19,  3.59it/s] 59%|█████▉    | 220127/371472 [6:28:42<11:28:33,  3.66it/s] 59%|█████▉    | 220128/371472 [6:28:42<11:14:24,  3.74it/s] 59%|█████▉    | 220129/371472 [6:28:43<11:36:28,  3.62it/s] 59%|█████▉    | 220130/371472 [6:28:43<11:23:38,  3.69it/s] 59%|█████▉    | 220131/371472 [6:28:43<12:34:46,  3.34it/s] 59%|█████▉    | 220132/371472 [6:28:44<12:11:05,  3.45it/s] 59%|█████▉    | 220133/371472 [6:28:44<12:58:28,  3.24it/s] 59%|█████▉    | 220134/371472 [6:28:44<12:24:01,  3.39it/s] 59%|█████▉    | 220135/371472 [6:28:44<12:15:45,  3.43it/s] 59%|█████▉    | 220136/371472 [6:28:45<12:02:21,  3.49it/s] 59%|█████▉    | 220137/371472 [6:28:45<11:29:03,  3.66it/s] 59%|█████▉    | 220138/371472 [6:28:45<11:37:31,  3.62it/s] 59%|█████▉    | 220139/371472 [6:28:46<12:01:10,  3.50it/s] 59%|█████▉    | 220140/371472 [6:28:46<11:52:30,  3.54it/s]                                                            {'loss': 2.8505, 'learning_rate': 4.6684371565860067e-07, 'epoch': 9.48}
 59%|█████▉    | 220140/371472 [6:28:46<11:52:30,  3.54it/s] 59%|█████▉    | 220141/371472 [6:28:46<11:38:34,  3.61it/s] 59%|█████▉    | 220142/371472 [6:28:46<11:33:31,  3.64it/s] 59%|█████▉    | 220143/371472 [6:28:47<11:44:12,  3.58it/s] 59%|█████▉    | 220144/371472 [6:28:47<12:57:39,  3.24it/s] 59%|█████▉    | 220145/371472 [6:28:47<12:16:29,  3.42it/s] 59%|█████▉    | 220146/371472 [6:28:47<11:52:52,  3.54it/s] 59%|█████▉    | 220147/371472 [6:28:48<12:26:14,  3.38it/s] 59%|█████▉    | 220148/371472 [6:28:48<11:53:12,  3.54it/s] 59%|█████▉    | 220149/371472 [6:28:48<11:37:09,  3.62it/s] 59%|█████▉    | 220150/371472 [6:28:49<11:20:32,  3.71it/s] 59%|█████▉    | 220151/371472 [6:28:49<11:36:14,  3.62it/s] 59%|█████▉    | 220152/371472 [6:28:49<11:33:42,  3.64it/s] 59%|█████▉    | 220153/371472 [6:28:49<11:48:13,  3.56it/s] 59%|█████▉    | 220154/371472 [6:28:50<12:05:59,  3.47it/s] 59%|█████▉    | 220155/371472 [6:28:50<12:11:57,  3.45it/s] 59%|█████▉    | 220156/371472 [6:28:50<12:50:19,  3.27it/s] 59%|█████▉    | 220157/371472 [6:28:51<12:00:33,  3.50it/s] 59%|█████▉    | 220158/371472 [6:28:51<11:40:57,  3.60it/s] 59%|█████▉    | 220159/371472 [6:28:51<11:38:38,  3.61it/s] 59%|█████▉    | 220160/371472 [6:28:51<11:32:09,  3.64it/s]                                                            {'loss': 2.9909, 'learning_rate': 4.667952336831218e-07, 'epoch': 9.48}
 59%|█████▉    | 220160/371472 [6:28:51<11:32:09,  3.64it/s] 59%|█████▉    | 220161/371472 [6:28:52<11:34:46,  3.63it/s] 59%|█████▉    | 220162/371472 [6:28:52<11:31:10,  3.65it/s] 59%|█████▉    | 220163/371472 [6:28:52<11:08:17,  3.77it/s] 59%|█████▉    | 220164/371472 [6:28:52<10:46:23,  3.90it/s] 59%|█████▉    | 220165/371472 [6:28:53<11:01:34,  3.81it/s] 59%|█████▉    | 220166/371472 [6:28:53<11:11:59,  3.75it/s] 59%|█████▉    | 220167/371472 [6:28:53<11:13:46,  3.74it/s] 59%|█████▉    | 220168/371472 [6:28:54<11:07:23,  3.78it/s] 59%|█████▉    | 220169/371472 [6:28:54<11:08:24,  3.77it/s] 59%|█████▉    | 220170/371472 [6:28:54<11:21:16,  3.70it/s] 59%|█████▉    | 220171/371472 [6:28:54<11:22:00,  3.70it/s] 59%|█████▉    | 220172/371472 [6:28:55<11:34:29,  3.63it/s] 59%|█████▉    | 220173/371472 [6:28:55<11:44:45,  3.58it/s] 59%|█████▉    | 220174/371472 [6:28:55<11:58:34,  3.51it/s] 59%|█████▉    | 220175/371472 [6:28:56<11:41:56,  3.59it/s] 59%|█████▉    | 220176/371472 [6:28:56<11:58:50,  3.51it/s] 59%|█████▉    | 220177/371472 [6:28:56<12:02:44,  3.49it/s] 59%|█████▉    | 220178/371472 [6:28:56<11:38:42,  3.61it/s] 59%|█████▉    | 220179/371472 [6:28:57<11:35:41,  3.62it/s] 59%|█████▉    | 220180/371472 [6:28:57<12:18:50,  3.41it/s]                                                            {'loss': 3.0045, 'learning_rate': 4.6674675170764286e-07, 'epoch': 9.48}
 59%|█████▉    | 220180/371472 [6:28:57<12:18:50,  3.41it/s] 59%|█████▉    | 220181/371472 [6:28:57<12:27:46,  3.37it/s] 59%|█████▉    | 220182/371472 [6:28:58<12:10:20,  3.45it/s] 59%|█████▉    | 220183/371472 [6:28:58<12:13:02,  3.44it/s] 59%|█████▉    | 220184/371472 [6:28:58<12:06:53,  3.47it/s] 59%|█████▉    | 220185/371472 [6:28:58<11:38:15,  3.61it/s] 59%|█████▉    | 220186/371472 [6:28:59<11:52:47,  3.54it/s] 59%|█████▉    | 220187/371472 [6:28:59<11:33:49,  3.63it/s] 59%|█████▉    | 220188/371472 [6:28:59<11:47:35,  3.56it/s] 59%|█████▉    | 220189/371472 [6:28:59<11:58:41,  3.51it/s] 59%|█████▉    | 220190/371472 [6:29:00<12:29:44,  3.36it/s] 59%|█████▉    | 220191/371472 [6:29:00<12:31:04,  3.36it/s] 59%|█████▉    | 220192/371472 [6:29:00<12:20:55,  3.40it/s] 59%|█████▉    | 220193/371472 [6:29:01<12:16:13,  3.42it/s] 59%|█████▉    | 220194/371472 [6:29:01<12:54:17,  3.26it/s] 59%|█████▉    | 220195/371472 [6:29:01<13:20:47,  3.15it/s] 59%|█████▉    | 220196/371472 [6:29:02<12:27:55,  3.37it/s] 59%|█████▉    | 220197/371472 [6:29:02<12:04:00,  3.48it/s] 59%|█████▉    | 220198/371472 [6:29:02<12:38:25,  3.32it/s] 59%|█████▉    | 220199/371472 [6:29:02<12:03:30,  3.48it/s] 59%|█████▉    | 220200/371472 [6:29:03<12:18:20,  3.41it/s]                                                            {'loss': 2.9737, 'learning_rate': 4.6669826973216404e-07, 'epoch': 9.48}
 59%|█████▉    | 220200/371472 [6:29:03<12:18:20,  3.41it/s] 59%|█████▉    | 220201/371472 [6:29:03<13:28:43,  3.12it/s] 59%|█████▉    | 220202/371472 [6:29:03<13:30:12,  3.11it/s] 59%|█████▉    | 220203/371472 [6:29:04<12:45:13,  3.29it/s] 59%|█████▉    | 220204/371472 [6:29:04<12:36:35,  3.33it/s] 59%|█████▉    | 220205/371472 [6:29:04<12:09:26,  3.46it/s] 59%|█████▉    | 220206/371472 [6:29:05<11:52:15,  3.54it/s] 59%|█████▉    | 220207/371472 [6:29:05<11:54:43,  3.53it/s] 59%|█████▉    | 220208/371472 [6:29:05<11:54:13,  3.53it/s] 59%|█████▉    | 220209/371472 [6:29:05<12:31:30,  3.35it/s] 59%|█████▉    | 220210/371472 [6:29:06<12:37:21,  3.33it/s] 59%|█████▉    | 220211/371472 [6:29:06<12:20:04,  3.41it/s] 59%|█████▉    | 220212/371472 [6:29:06<11:54:51,  3.53it/s] 59%|█████▉    | 220213/371472 [6:29:07<11:32:11,  3.64it/s] 59%|█████▉    | 220214/371472 [6:29:07<11:28:29,  3.66it/s] 59%|█████▉    | 220215/371472 [6:29:07<11:34:05,  3.63it/s] 59%|█████▉    | 220216/371472 [6:29:07<11:13:14,  3.74it/s] 59%|█████▉    | 220217/371472 [6:29:08<11:05:52,  3.79it/s] 59%|█████▉    | 220218/371472 [6:29:08<11:55:09,  3.52it/s] 59%|█████▉    | 220219/371472 [6:29:08<12:01:41,  3.49it/s] 59%|█████▉    | 220220/371472 [6:29:09<12:26:45,  3.38it/s]                                                            {'loss': 2.9076, 'learning_rate': 4.6664978775668506e-07, 'epoch': 9.49}
 59%|█████▉    | 220220/371472 [6:29:09<12:26:45,  3.38it/s] 59%|█████▉    | 220221/371472 [6:29:09<13:02:55,  3.22it/s] 59%|█████▉    | 220222/371472 [6:29:09<12:53:02,  3.26it/s] 59%|█████▉    | 220223/371472 [6:29:10<12:57:36,  3.24it/s] 59%|█████▉    | 220224/371472 [6:29:10<13:23:23,  3.14it/s] 59%|█████▉    | 220225/371472 [6:29:10<12:47:12,  3.29it/s] 59%|█████▉    | 220226/371472 [6:29:10<12:33:38,  3.34it/s] 59%|█████▉    | 220227/371472 [6:29:11<12:11:51,  3.44it/s] 59%|█████▉    | 220228/371472 [6:29:11<12:15:15,  3.43it/s] 59%|█████▉    | 220229/371472 [6:29:11<12:08:59,  3.46it/s] 59%|█████▉    | 220230/371472 [6:29:12<11:51:29,  3.54it/s] 59%|█████▉    | 220231/371472 [6:29:12<11:46:04,  3.57it/s] 59%|█████▉    | 220232/371472 [6:29:12<12:13:00,  3.44it/s] 59%|█████▉    | 220233/371472 [6:29:12<12:01:13,  3.49it/s] 59%|█████▉    | 220234/371472 [6:29:13<11:40:25,  3.60it/s] 59%|█████▉    | 220235/371472 [6:29:13<12:03:18,  3.48it/s] 59%|█████▉    | 220236/371472 [6:29:13<11:41:28,  3.59it/s] 59%|█████▉    | 220237/371472 [6:29:14<11:40:03,  3.60it/s] 59%|█████▉    | 220238/371472 [6:29:14<11:43:00,  3.59it/s] 59%|█████▉    | 220239/371472 [6:29:14<11:20:14,  3.71it/s] 59%|█████▉    | 220240/371472 [6:29:14<11:19:46,  3.71it/s]                                                            {'loss': 2.9178, 'learning_rate': 4.6660130578120624e-07, 'epoch': 9.49}
 59%|█████▉    | 220240/371472 [6:29:14<11:19:46,  3.71it/s] 59%|█████▉    | 220241/371472 [6:29:15<14:03:43,  2.99it/s] 59%|█████▉    | 220242/371472 [6:29:15<14:45:45,  2.85it/s] 59%|█████▉    | 220243/371472 [6:29:15<13:48:19,  3.04it/s] 59%|█████▉    | 220244/371472 [6:29:16<13:12:23,  3.18it/s] 59%|█████▉    | 220245/371472 [6:29:16<13:25:30,  3.13it/s] 59%|█████▉    | 220246/371472 [6:29:16<12:37:18,  3.33it/s] 59%|█████▉    | 220247/371472 [6:29:17<12:31:51,  3.35it/s] 59%|█████▉    | 220248/371472 [6:29:17<13:02:26,  3.22it/s] 59%|█████▉    | 220249/371472 [6:29:17<12:39:06,  3.32it/s] 59%|█████▉    | 220250/371472 [6:29:18<12:18:49,  3.41it/s] 59%|█████▉    | 220251/371472 [6:29:18<12:31:33,  3.35it/s] 59%|█████▉    | 220252/371472 [6:29:18<12:03:47,  3.48it/s] 59%|█████▉    | 220253/371472 [6:29:18<11:57:33,  3.51it/s] 59%|█████▉    | 220254/371472 [6:29:19<12:08:22,  3.46it/s] 59%|█████▉    | 220255/371472 [6:29:19<11:48:28,  3.56it/s] 59%|█████▉    | 220256/371472 [6:29:19<11:45:51,  3.57it/s] 59%|█████▉    | 220257/371472 [6:29:19<11:30:34,  3.65it/s] 59%|█████▉    | 220258/371472 [6:29:20<11:07:39,  3.77it/s] 59%|█████▉    | 220259/371472 [6:29:20<11:06:22,  3.78it/s] 59%|█████▉    | 220260/371472 [6:29:20<11:33:38,  3.63it/s]                                                            {'loss': 2.8105, 'learning_rate': 4.665528238057273e-07, 'epoch': 9.49}
 59%|█████▉    | 220260/371472 [6:29:20<11:33:38,  3.63it/s] 59%|█████▉    | 220261/371472 [6:29:21<12:44:18,  3.30it/s] 59%|█████▉    | 220262/371472 [6:29:21<12:34:03,  3.34it/s] 59%|█████▉    | 220263/371472 [6:29:21<12:56:28,  3.25it/s] 59%|█████▉    | 220264/371472 [6:29:22<12:25:18,  3.38it/s] 59%|█████▉    | 220265/371472 [6:29:22<12:38:08,  3.32it/s] 59%|█████▉    | 220266/371472 [6:29:22<12:35:57,  3.33it/s] 59%|█████▉    | 220267/371472 [6:29:22<12:06:16,  3.47it/s] 59%|█████▉    | 220268/371472 [6:29:23<12:06:23,  3.47it/s] 59%|█████▉    | 220269/371472 [6:29:23<12:01:38,  3.49it/s] 59%|█████▉    | 220270/371472 [6:29:23<11:55:35,  3.52it/s] 59%|█████▉    | 220271/371472 [6:29:24<11:50:19,  3.55it/s] 59%|█████▉    | 220272/371472 [6:29:24<11:41:10,  3.59it/s] 59%|█████▉    | 220273/371472 [6:29:24<11:58:17,  3.51it/s] 59%|█████▉    | 220274/371472 [6:29:24<12:15:59,  3.42it/s] 59%|█████▉    | 220275/371472 [6:29:25<11:50:35,  3.55it/s] 59%|█████▉    | 220276/371472 [6:29:25<11:52:44,  3.54it/s] 59%|█████▉    | 220277/371472 [6:29:25<11:57:05,  3.51it/s] 59%|█████▉    | 220278/371472 [6:29:26<12:53:13,  3.26it/s] 59%|█████▉    | 220279/371472 [6:29:26<12:31:06,  3.35it/s] 59%|█████▉    | 220280/371472 [6:29:26<12:34:19,  3.34it/s]                                                            {'loss': 3.0186, 'learning_rate': 4.6650434183024843e-07, 'epoch': 9.49}
 59%|█████▉    | 220280/371472 [6:29:26<12:34:19,  3.34it/s] 59%|█████▉    | 220281/371472 [6:29:27<13:20:57,  3.15it/s] 59%|█████▉    | 220282/371472 [6:29:27<14:11:08,  2.96it/s] 59%|█████▉    | 220283/371472 [6:29:27<14:31:12,  2.89it/s] 59%|█████▉    | 220284/371472 [6:29:28<13:36:04,  3.09it/s] 59%|█████▉    | 220285/371472 [6:29:28<13:34:54,  3.09it/s] 59%|█████▉    | 220286/371472 [6:29:28<14:05:57,  2.98it/s] 59%|█████▉    | 220287/371472 [6:29:29<13:23:40,  3.14it/s] 59%|█████▉    | 220288/371472 [6:29:29<14:48:53,  2.83it/s] 59%|█████▉    | 220289/371472 [6:29:29<14:29:54,  2.90it/s] 59%|█████▉    | 220290/371472 [6:29:30<13:35:05,  3.09it/s] 59%|█████▉    | 220291/371472 [6:29:30<13:22:31,  3.14it/s] 59%|█████▉    | 220292/371472 [6:29:30<13:17:12,  3.16it/s] 59%|█████▉    | 220293/371472 [6:29:30<12:48:28,  3.28it/s] 59%|█████▉    | 220294/371472 [6:29:31<12:36:12,  3.33it/s] 59%|█████▉    | 220295/371472 [6:29:31<12:33:38,  3.34it/s] 59%|█████▉    | 220296/371472 [6:29:31<13:01:58,  3.22it/s] 59%|█████▉    | 220297/371472 [6:29:32<12:28:59,  3.36it/s] 59%|█████▉    | 220298/371472 [6:29:32<12:19:23,  3.41it/s] 59%|█████▉    | 220299/371472 [6:29:32<12:26:39,  3.37it/s] 59%|█████▉    | 220300/371472 [6:29:32<11:57:48,  3.51it/s]                                                            {'loss': 2.7764, 'learning_rate': 4.664558598547695e-07, 'epoch': 9.49}
 59%|█████▉    | 220300/371472 [6:29:32<11:57:48,  3.51it/s] 59%|█████▉    | 220301/371472 [6:29:33<11:38:33,  3.61it/s] 59%|█████▉    | 220302/371472 [6:29:33<11:17:27,  3.72it/s] 59%|█████▉    | 220303/371472 [6:29:34<14:24:08,  2.92it/s] 59%|█████▉    | 220304/371472 [6:29:34<13:27:16,  3.12it/s] 59%|█████▉    | 220305/371472 [6:29:34<13:02:35,  3.22it/s] 59%|█████▉    | 220306/371472 [6:29:34<12:27:21,  3.37it/s] 59%|█████▉    | 220307/371472 [6:29:35<12:18:02,  3.41it/s] 59%|█████▉    | 220308/371472 [6:29:35<11:57:36,  3.51it/s] 59%|█████▉    | 220309/371472 [6:29:35<11:38:11,  3.61it/s] 59%|█████▉    | 220310/371472 [6:29:35<11:22:30,  3.69it/s] 59%|█████▉    | 220311/371472 [6:29:36<12:16:50,  3.42it/s] 59%|█████▉    | 220312/371472 [6:29:36<12:31:09,  3.35it/s] 59%|█████▉    | 220313/371472 [6:29:36<12:55:47,  3.25it/s] 59%|█████▉    | 220314/371472 [6:29:37<12:14:18,  3.43it/s] 59%|█████▉    | 220315/371472 [6:29:37<12:18:45,  3.41it/s] 59%|█████▉    | 220316/371472 [6:29:37<11:38:21,  3.61it/s] 59%|█████▉    | 220317/371472 [6:29:37<11:22:50,  3.69it/s] 59%|█████▉    | 220318/371472 [6:29:38<11:03:43,  3.80it/s] 59%|█████▉    | 220319/371472 [6:29:38<11:34:26,  3.63it/s] 59%|█████▉    | 220320/371472 [6:29:38<11:26:24,  3.67it/s]                                                            {'loss': 2.8784, 'learning_rate': 4.664073778792907e-07, 'epoch': 9.49}
 59%|█████▉    | 220320/371472 [6:29:38<11:26:24,  3.67it/s] 59%|█████▉    | 220321/371472 [6:29:39<11:16:13,  3.73it/s] 59%|█████▉    | 220322/371472 [6:29:39<12:01:16,  3.49it/s] 59%|█████▉    | 220323/371472 [6:29:39<11:46:04,  3.57it/s] 59%|█████▉    | 220324/371472 [6:29:39<11:42:06,  3.59it/s] 59%|█████▉    | 220325/371472 [6:29:40<11:39:41,  3.60it/s] 59%|█████▉    | 220326/371472 [6:29:40<11:24:24,  3.68it/s] 59%|█████▉    | 220327/371472 [6:29:40<11:18:42,  3.71it/s] 59%|█████▉    | 220328/371472 [6:29:40<11:29:20,  3.65it/s] 59%|█████▉    | 220329/371472 [6:29:41<11:49:27,  3.55it/s] 59%|█████▉    | 220330/371472 [6:29:41<11:29:13,  3.65it/s] 59%|█████▉    | 220331/371472 [6:29:41<12:45:37,  3.29it/s] 59%|█████▉    | 220332/371472 [6:29:42<11:57:32,  3.51it/s] 59%|█████▉    | 220333/371472 [6:29:42<12:04:37,  3.48it/s] 59%|█████▉    | 220334/371472 [6:29:42<11:35:58,  3.62it/s] 59%|█████▉    | 220335/371472 [6:29:42<11:18:03,  3.71it/s] 59%|█████▉    | 220336/371472 [6:29:43<11:18:40,  3.71it/s] 59%|█████▉    | 220337/371472 [6:29:43<11:30:19,  3.65it/s] 59%|█████▉    | 220338/371472 [6:29:43<11:18:04,  3.71it/s] 59%|█████▉    | 220339/371472 [6:29:44<11:20:22,  3.70it/s] 59%|█████▉    | 220340/371472 [6:29:44<11:17:39,  3.72it/s]                                                            {'loss': 2.9779, 'learning_rate': 4.663588959038117e-07, 'epoch': 9.49}
 59%|█████▉    | 220340/371472 [6:29:44<11:17:39,  3.72it/s] 59%|█████▉    | 220341/371472 [6:29:44<11:32:35,  3.64it/s] 59%|█████▉    | 220342/371472 [6:29:44<11:26:28,  3.67it/s] 59%|█████▉    | 220343/371472 [6:29:45<11:41:22,  3.59it/s] 59%|█████▉    | 220344/371472 [6:29:45<11:40:47,  3.59it/s] 59%|█████▉    | 220345/371472 [6:29:45<11:30:56,  3.65it/s] 59%|█████▉    | 220346/371472 [6:29:45<11:40:00,  3.60it/s] 59%|█████▉    | 220347/371472 [6:29:46<11:31:45,  3.64it/s] 59%|█████▉    | 220348/371472 [6:29:46<11:08:57,  3.77it/s] 59%|█████▉    | 220349/371472 [6:29:46<11:12:40,  3.74it/s] 59%|█████▉    | 220350/371472 [6:29:47<11:48:28,  3.56it/s] 59%|█████▉    | 220351/371472 [6:29:47<11:47:30,  3.56it/s] 59%|█████▉    | 220352/371472 [6:29:47<11:36:07,  3.62it/s] 59%|█████▉    | 220353/371472 [6:29:47<11:27:58,  3.66it/s] 59%|█████▉    | 220354/371472 [6:29:48<11:48:21,  3.56it/s] 59%|█████▉    | 220355/371472 [6:29:48<12:41:24,  3.31it/s] 59%|█████▉    | 220356/371472 [6:29:48<12:44:08,  3.30it/s] 59%|█████▉    | 220357/371472 [6:29:49<12:29:04,  3.36it/s] 59%|█████▉    | 220358/371472 [6:29:49<11:49:14,  3.55it/s] 59%|█████▉    | 220359/371472 [6:29:49<11:36:05,  3.62it/s] 59%|█████▉    | 220360/371472 [6:29:49<11:32:05,  3.64it/s]                                                            {'loss': 3.0407, 'learning_rate': 4.663104139283329e-07, 'epoch': 9.49}
 59%|█████▉    | 220360/371472 [6:29:49<11:32:05,  3.64it/s] 59%|█████▉    | 220361/371472 [6:29:50<11:36:07,  3.62it/s] 59%|█████▉    | 220362/371472 [6:29:50<11:40:02,  3.60it/s] 59%|█████▉    | 220363/371472 [6:29:50<11:56:23,  3.52it/s] 59%|█████▉    | 220364/371472 [6:29:51<11:40:37,  3.59it/s] 59%|█████▉    | 220365/371472 [6:29:51<11:25:58,  3.67it/s] 59%|█████▉    | 220366/371472 [6:29:51<11:21:04,  3.70it/s] 59%|█████▉    | 220367/371472 [6:29:51<11:51:58,  3.54it/s] 59%|█████▉    | 220368/371472 [6:29:52<12:05:17,  3.47it/s] 59%|█████▉    | 220369/371472 [6:29:52<11:55:58,  3.52it/s] 59%|█████▉    | 220370/371472 [6:29:52<11:48:49,  3.55it/s] 59%|█████▉    | 220371/371472 [6:29:52<11:39:32,  3.60it/s] 59%|█████▉    | 220372/371472 [6:29:53<12:20:13,  3.40it/s] 59%|█████▉    | 220373/371472 [6:29:53<11:57:09,  3.51it/s] 59%|█████▉    | 220374/371472 [6:29:53<11:36:42,  3.61it/s] 59%|█████▉    | 220375/371472 [6:29:54<11:06:17,  3.78it/s] 59%|█████▉    | 220376/371472 [6:29:54<11:24:09,  3.68it/s] 59%|█████▉    | 220377/371472 [6:29:54<11:14:01,  3.74it/s] 59%|█████▉    | 220378/371472 [6:29:54<11:12:49,  3.74it/s] 59%|█████▉    | 220379/371472 [6:29:55<11:00:51,  3.81it/s] 59%|█████▉    | 220380/371472 [6:29:55<10:50:06,  3.87it/s]                                                            {'loss': 2.8874, 'learning_rate': 4.6626193195285395e-07, 'epoch': 9.49}
 59%|█████▉    | 220380/371472 [6:29:55<10:50:06,  3.87it/s] 59%|█████▉    | 220381/371472 [6:29:55<10:59:14,  3.82it/s] 59%|█████▉    | 220382/371472 [6:29:55<10:52:24,  3.86it/s] 59%|█████▉    | 220383/371472 [6:29:56<10:46:51,  3.89it/s] 59%|█████▉    | 220384/371472 [6:29:56<11:14:27,  3.73it/s] 59%|█████▉    | 220385/371472 [6:29:56<11:46:17,  3.57it/s] 59%|█████▉    | 220386/371472 [6:29:57<11:56:27,  3.51it/s] 59%|█████▉    | 220387/371472 [6:29:57<12:16:06,  3.42it/s] 59%|█████▉    | 220388/371472 [6:29:57<11:52:01,  3.54it/s] 59%|█████▉    | 220389/371472 [6:29:57<12:10:00,  3.45it/s] 59%|█████▉    | 220390/371472 [6:29:58<11:40:37,  3.59it/s] 59%|█████▉    | 220391/371472 [6:29:58<11:33:48,  3.63it/s] 59%|█████▉    | 220392/371472 [6:29:58<11:36:06,  3.62it/s] 59%|█████▉    | 220393/371472 [6:29:58<11:35:22,  3.62it/s] 59%|█████▉    | 220394/371472 [6:29:59<12:08:51,  3.45it/s] 59%|█████▉    | 220395/371472 [6:29:59<11:55:33,  3.52it/s] 59%|█████▉    | 220396/371472 [6:29:59<11:46:43,  3.56it/s] 59%|█████▉    | 220397/371472 [6:30:00<11:37:51,  3.61it/s] 59%|█████▉    | 220398/371472 [6:30:00<11:28:30,  3.66it/s] 59%|█████▉    | 220399/371472 [6:30:00<12:23:31,  3.39it/s] 59%|█████▉    | 220400/371472 [6:30:01<12:11:58,  3.44it/s]                                                            {'loss': 2.9533, 'learning_rate': 4.6621344997737507e-07, 'epoch': 9.49}
 59%|█████▉    | 220400/371472 [6:30:01<12:11:58,  3.44it/s] 59%|█████▉    | 220401/371472 [6:30:01<11:51:31,  3.54it/s] 59%|█████▉    | 220402/371472 [6:30:01<11:23:58,  3.68it/s] 59%|█████▉    | 220403/371472 [6:30:01<11:24:11,  3.68it/s] 59%|█████▉    | 220404/371472 [6:30:02<11:49:51,  3.55it/s] 59%|█████▉    | 220405/371472 [6:30:02<12:02:28,  3.48it/s] 59%|█████▉    | 220406/371472 [6:30:02<11:58:18,  3.51it/s] 59%|█████▉    | 220407/371472 [6:30:02<12:19:19,  3.41it/s] 59%|█████▉    | 220408/371472 [6:30:03<12:04:23,  3.48it/s] 59%|█████▉    | 220409/371472 [6:30:03<11:37:29,  3.61it/s] 59%|█████▉    | 220410/371472 [6:30:03<11:41:51,  3.59it/s] 59%|█████▉    | 220411/371472 [6:30:04<11:19:26,  3.71it/s] 59%|█████▉    | 220412/371472 [6:30:04<11:11:17,  3.75it/s] 59%|█████▉    | 220413/371472 [6:30:04<11:36:16,  3.62it/s] 59%|█████▉    | 220414/371472 [6:30:04<12:26:25,  3.37it/s] 59%|█████▉    | 220415/371472 [6:30:05<13:39:45,  3.07it/s] 59%|█████▉    | 220416/371472 [6:30:05<12:36:15,  3.33it/s] 59%|█████▉    | 220417/371472 [6:30:05<12:01:32,  3.49it/s] 59%|█████▉    | 220418/371472 [6:30:06<11:48:02,  3.56it/s] 59%|█████▉    | 220419/371472 [6:30:06<11:27:12,  3.66it/s] 59%|█████▉    | 220420/371472 [6:30:06<11:56:31,  3.51it/s]                                                            {'loss': 2.8187, 'learning_rate': 4.6616496800189614e-07, 'epoch': 9.49}
 59%|█████▉    | 220420/371472 [6:30:06<11:56:31,  3.51it/s] 59%|█████▉    | 220421/371472 [6:30:06<11:53:59,  3.53it/s] 59%|█████▉    | 220422/371472 [6:30:07<11:41:42,  3.59it/s] 59%|█████▉    | 220423/371472 [6:30:07<11:43:25,  3.58it/s] 59%|█████▉    | 220424/371472 [6:30:07<12:06:08,  3.47it/s] 59%|█████▉    | 220425/371472 [6:30:08<11:41:48,  3.59it/s] 59%|█████▉    | 220426/371472 [6:30:08<11:42:46,  3.58it/s] 59%|█████▉    | 220427/371472 [6:30:08<11:29:34,  3.65it/s] 59%|█████▉    | 220428/371472 [6:30:08<11:11:10,  3.75it/s] 59%|█████▉    | 220429/371472 [6:30:09<11:43:19,  3.58it/s] 59%|█████▉    | 220430/371472 [6:30:09<11:32:38,  3.63it/s] 59%|█████▉    | 220431/371472 [6:30:09<11:20:43,  3.70it/s] 59%|█████▉    | 220432/371472 [6:30:09<11:15:41,  3.73it/s] 59%|█████▉    | 220433/371472 [6:30:10<11:10:03,  3.76it/s] 59%|█████▉    | 220434/371472 [6:30:10<11:14:15,  3.73it/s] 59%|█████▉    | 220435/371472 [6:30:10<11:23:00,  3.69it/s] 59%|█████▉    | 220436/371472 [6:30:11<12:19:39,  3.40it/s] 59%|█████▉    | 220437/371472 [6:30:11<12:24:18,  3.38it/s] 59%|█████▉    | 220438/371472 [6:30:11<11:59:47,  3.50it/s] 59%|█████▉    | 220439/371472 [6:30:11<11:36:44,  3.61it/s] 59%|█████▉    | 220440/371472 [6:30:12<12:42:35,  3.30it/s]                                                            {'loss': 2.8564, 'learning_rate': 4.661164860264173e-07, 'epoch': 9.49}
 59%|█████▉    | 220440/371472 [6:30:12<12:42:35,  3.30it/s] 59%|█████▉    | 220441/371472 [6:30:12<12:12:54,  3.43it/s] 59%|█████▉    | 220442/371472 [6:30:12<11:52:10,  3.53it/s] 59%|█████▉    | 220443/371472 [6:30:13<11:36:33,  3.61it/s] 59%|█████▉    | 220444/371472 [6:30:13<11:33:46,  3.63it/s] 59%|█████▉    | 220445/371472 [6:30:13<11:20:10,  3.70it/s] 59%|█████▉    | 220446/371472 [6:30:13<11:37:20,  3.61it/s] 59%|█████▉    | 220447/371472 [6:30:14<11:15:48,  3.72it/s] 59%|█████▉    | 220448/371472 [6:30:14<11:39:23,  3.60it/s] 59%|█████▉    | 220449/371472 [6:30:14<11:40:13,  3.59it/s] 59%|█████▉    | 220450/371472 [6:30:15<11:38:15,  3.60it/s] 59%|█████▉    | 220451/371472 [6:30:15<12:40:13,  3.31it/s] 59%|█████▉    | 220452/371472 [6:30:15<12:02:56,  3.48it/s] 59%|█████▉    | 220453/371472 [6:30:15<11:42:52,  3.58it/s] 59%|█████▉    | 220454/371472 [6:30:16<12:04:17,  3.48it/s] 59%|█████▉    | 220455/371472 [6:30:16<12:04:21,  3.47it/s] 59%|█████▉    | 220456/371472 [6:30:16<13:08:03,  3.19it/s] 59%|█████▉    | 220457/371472 [6:30:17<12:51:00,  3.26it/s] 59%|█████▉    | 220458/371472 [6:30:17<12:26:28,  3.37it/s] 59%|█████▉    | 220459/371472 [6:30:17<11:58:24,  3.50it/s] 59%|█████▉    | 220460/371472 [6:30:17<11:57:47,  3.51it/s]                                                            {'loss': 2.6733, 'learning_rate': 4.660680040509384e-07, 'epoch': 9.5}
 59%|█████▉    | 220460/371472 [6:30:17<11:57:47,  3.51it/s] 59%|█████▉    | 220461/371472 [6:30:18<12:08:24,  3.46it/s] 59%|█████▉    | 220462/371472 [6:30:18<12:16:36,  3.42it/s] 59%|█████▉    | 220463/371472 [6:30:18<11:55:03,  3.52it/s] 59%|█████▉    | 220464/371472 [6:30:19<11:41:44,  3.59it/s] 59%|█████▉    | 220465/371472 [6:30:19<11:30:42,  3.64it/s] 59%|█████▉    | 220466/371472 [6:30:19<12:03:44,  3.48it/s] 59%|█████▉    | 220467/371472 [6:30:19<11:57:37,  3.51it/s] 59%|█████▉    | 220468/371472 [6:30:20<12:24:53,  3.38it/s] 59%|█████▉    | 220469/371472 [6:30:20<12:11:25,  3.44it/s] 59%|█████▉    | 220470/371472 [6:30:20<12:12:29,  3.44it/s] 59%|█████▉    | 220471/371472 [6:30:21<11:58:37,  3.50it/s] 59%|█████▉    | 220472/371472 [6:30:21<11:34:56,  3.62it/s] 59%|█████▉    | 220473/371472 [6:30:21<11:30:11,  3.65it/s] 59%|█████▉    | 220474/371472 [6:30:21<12:07:41,  3.46it/s] 59%|█████▉    | 220475/371472 [6:30:22<11:50:02,  3.54it/s] 59%|█████▉    | 220476/371472 [6:30:22<11:27:48,  3.66it/s] 59%|█████▉    | 220477/371472 [6:30:22<12:01:28,  3.49it/s] 59%|█████▉    | 220478/371472 [6:30:23<11:43:08,  3.58it/s] 59%|█████▉    | 220479/371472 [6:30:23<11:18:20,  3.71it/s] 59%|█████▉    | 220480/371472 [6:30:23<12:01:57,  3.49it/s]                                                            {'loss': 2.985, 'learning_rate': 4.660195220754595e-07, 'epoch': 9.5}
 59%|█████▉    | 220480/371472 [6:30:23<12:01:57,  3.49it/s] 59%|█████▉    | 220481/371472 [6:30:23<12:40:05,  3.31it/s] 59%|█████▉    | 220482/371472 [6:30:24<12:12:42,  3.43it/s] 59%|█████▉    | 220483/371472 [6:30:24<11:58:25,  3.50it/s] 59%|█████▉    | 220484/371472 [6:30:24<12:16:30,  3.42it/s] 59%|█████▉    | 220485/371472 [6:30:25<12:00:47,  3.49it/s] 59%|█████▉    | 220486/371472 [6:30:25<11:42:52,  3.58it/s] 59%|█████▉    | 220487/371472 [6:30:25<11:55:34,  3.52it/s] 59%|█████▉    | 220488/371472 [6:30:25<11:53:59,  3.52it/s] 59%|█████▉    | 220489/371472 [6:30:26<11:50:20,  3.54it/s] 59%|█████▉    | 220490/371472 [6:30:26<11:32:10,  3.64it/s] 59%|█████▉    | 220491/371472 [6:30:26<11:30:40,  3.64it/s] 59%|█████▉    | 220492/371472 [6:30:27<11:55:00,  3.52it/s] 59%|█████▉    | 220493/371472 [6:30:27<11:38:51,  3.60it/s] 59%|█████▉    | 220494/371472 [6:30:27<12:33:02,  3.34it/s] 59%|█████▉    | 220495/371472 [6:30:27<12:05:02,  3.47it/s] 59%|█████▉    | 220496/371472 [6:30:28<11:58:53,  3.50it/s] 59%|█████▉    | 220497/371472 [6:30:28<11:22:50,  3.68it/s] 59%|█████▉    | 220498/371472 [6:30:28<11:19:39,  3.70it/s] 59%|█████▉    | 220499/371472 [6:30:29<12:57:21,  3.24it/s] 59%|█████▉    | 220500/371472 [6:30:29<12:24:24,  3.38it/s]                                                            {'loss': 2.9001, 'learning_rate': 4.6597104009998064e-07, 'epoch': 9.5}
 59%|█████▉    | 220500/371472 [6:30:29<12:24:24,  3.38it/s] 59%|█████▉    | 220501/371472 [6:30:29<12:06:17,  3.46it/s] 59%|█████▉    | 220502/371472 [6:30:29<12:16:45,  3.42it/s] 59%|█████▉    | 220503/371472 [6:30:30<12:18:10,  3.41it/s] 59%|█████▉    | 220504/371472 [6:30:30<12:39:00,  3.32it/s] 59%|█████▉    | 220505/371472 [6:30:30<12:08:31,  3.45it/s] 59%|█████▉    | 220506/371472 [6:30:31<12:05:01,  3.47it/s] 59%|█████▉    | 220507/371472 [6:30:31<12:11:30,  3.44it/s] 59%|█████▉    | 220508/371472 [6:30:31<13:09:59,  3.18it/s] 59%|█████▉    | 220509/371472 [6:30:32<12:42:39,  3.30it/s] 59%|█████▉    | 220510/371472 [6:30:32<12:02:17,  3.48it/s] 59%|█████▉    | 220511/371472 [6:30:32<13:50:07,  3.03it/s] 59%|█████▉    | 220512/371472 [6:30:33<14:05:50,  2.97it/s] 59%|█████▉    | 220513/371472 [6:30:33<13:06:16,  3.20it/s] 59%|█████▉    | 220514/371472 [6:30:33<13:04:15,  3.21it/s] 59%|█████▉    | 220515/371472 [6:30:33<12:21:28,  3.39it/s] 59%|█████▉    | 220516/371472 [6:30:34<11:51:02,  3.54it/s] 59%|█████▉    | 220517/371472 [6:30:34<11:53:58,  3.52it/s] 59%|█████▉    | 220518/371472 [6:30:34<12:34:26,  3.33it/s] 59%|█████▉    | 220519/371472 [6:30:35<12:55:37,  3.24it/s] 59%|█████▉    | 220520/371472 [6:30:35<12:37:59,  3.32it/s]                                                            {'loss': 3.0095, 'learning_rate': 4.6592255812450177e-07, 'epoch': 9.5}
 59%|█████▉    | 220520/371472 [6:30:35<12:37:59,  3.32it/s] 59%|█████▉    | 220521/371472 [6:30:35<12:39:51,  3.31it/s] 59%|█████▉    | 220522/371472 [6:30:36<12:33:09,  3.34it/s] 59%|█████▉    | 220523/371472 [6:30:36<12:27:55,  3.36it/s] 59%|█████▉    | 220524/371472 [6:30:36<13:07:00,  3.20it/s] 59%|█████▉    | 220525/371472 [6:30:36<13:01:22,  3.22it/s] 59%|█████▉    | 220526/371472 [6:30:37<13:08:39,  3.19it/s] 59%|█████▉    | 220527/371472 [6:30:37<12:55:11,  3.25it/s] 59%|█████▉    | 220528/371472 [6:30:37<12:51:52,  3.26it/s] 59%|█████▉    | 220529/371472 [6:30:38<13:13:59,  3.17it/s] 59%|█████▉    | 220530/371472 [6:30:38<12:54:29,  3.25it/s] 59%|█████▉    | 220531/371472 [6:30:38<12:56:19,  3.24it/s] 59%|█████▉    | 220532/371472 [6:30:39<13:03:27,  3.21it/s] 59%|█████▉    | 220533/371472 [6:30:39<12:26:04,  3.37it/s] 59%|█████▉    | 220534/371472 [6:30:39<12:02:56,  3.48it/s] 59%|█████▉    | 220535/371472 [6:30:39<11:41:01,  3.59it/s] 59%|█████▉    | 220536/371472 [6:30:40<11:44:50,  3.57it/s] 59%|█████▉    | 220537/371472 [6:30:40<11:47:57,  3.55it/s] 59%|█████▉    | 220538/371472 [6:30:40<11:35:03,  3.62it/s] 59%|█████▉    | 220539/371472 [6:30:40<11:20:33,  3.70it/s] 59%|█████▉    | 220540/371472 [6:30:41<11:37:55,  3.60it/s]                                                            {'loss': 2.8124, 'learning_rate': 4.658740761490228e-07, 'epoch': 9.5}
 59%|█████▉    | 220540/371472 [6:30:41<11:37:55,  3.60it/s] 59%|█████▉    | 220541/371472 [6:30:41<12:03:05,  3.48it/s] 59%|█████▉    | 220542/371472 [6:30:41<11:50:01,  3.54it/s] 59%|█████▉    | 220543/371472 [6:30:42<11:58:15,  3.50it/s] 59%|█████▉    | 220544/371472 [6:30:42<12:27:58,  3.36it/s] 59%|█████▉    | 220545/371472 [6:30:42<12:11:30,  3.44it/s] 59%|█████▉    | 220546/371472 [6:30:43<12:19:25,  3.40it/s] 59%|█████▉    | 220547/371472 [6:30:43<12:13:40,  3.43it/s] 59%|█████▉    | 220548/371472 [6:30:43<11:59:34,  3.50it/s] 59%|█████▉    | 220549/371472 [6:30:43<12:37:31,  3.32it/s] 59%|█████▉    | 220550/371472 [6:30:44<12:29:33,  3.36it/s] 59%|█████▉    | 220551/371472 [6:30:44<11:53:12,  3.53it/s] 59%|█████▉    | 220552/371472 [6:30:44<11:37:45,  3.60it/s] 59%|█████▉    | 220553/371472 [6:30:45<11:15:16,  3.72it/s] 59%|█████▉    | 220554/371472 [6:30:45<11:05:00,  3.78it/s] 59%|█████▉    | 220555/371472 [6:30:45<11:23:28,  3.68it/s] 59%|█████▉    | 220556/371472 [6:30:45<11:16:50,  3.72it/s] 59%|█████▉    | 220557/371472 [6:30:46<11:15:07,  3.73it/s] 59%|█████▉    | 220558/371472 [6:30:46<11:42:15,  3.58it/s] 59%|█████▉    | 220559/371472 [6:30:46<12:19:36,  3.40it/s] 59%|█████▉    | 220560/371472 [6:30:47<13:12:58,  3.17it/s]                                                            {'loss': 2.9386, 'learning_rate': 4.6582559417354386e-07, 'epoch': 9.5}
 59%|█████▉    | 220560/371472 [6:30:47<13:12:58,  3.17it/s] 59%|█████▉    | 220561/371472 [6:30:47<13:13:26,  3.17it/s] 59%|█████▉    | 220562/371472 [6:30:47<14:25:53,  2.90it/s] 59%|█████▉    | 220563/371472 [6:30:48<14:25:30,  2.91it/s] 59%|█████▉    | 220564/371472 [6:30:48<13:54:44,  3.01it/s] 59%|█████▉    | 220565/371472 [6:30:48<13:56:09,  3.01it/s] 59%|█████▉    | 220566/371472 [6:30:49<13:22:03,  3.14it/s] 59%|█████▉    | 220567/371472 [6:30:49<12:35:54,  3.33it/s] 59%|█████▉    | 220568/371472 [6:30:49<12:25:40,  3.37it/s] 59%|█████▉    | 220569/371472 [6:30:49<12:19:22,  3.40it/s] 59%|█████▉    | 220570/371472 [6:30:50<14:25:58,  2.90it/s] 59%|█████▉    | 220571/371472 [6:30:50<13:58:26,  3.00it/s] 59%|█████▉    | 220572/371472 [6:30:50<12:59:22,  3.23it/s] 59%|█████▉    | 220573/371472 [6:30:51<13:34:27,  3.09it/s] 59%|█████▉    | 220574/371472 [6:30:51<13:49:42,  3.03it/s] 59%|█████▉    | 220575/371472 [6:30:51<13:51:25,  3.02it/s] 59%|█████▉    | 220576/371472 [6:30:52<12:59:27,  3.23it/s] 59%|█████▉    | 220577/371472 [6:30:52<12:36:16,  3.33it/s] 59%|█████▉    | 220578/371472 [6:30:52<12:34:20,  3.33it/s] 59%|█████▉    | 220579/371472 [6:30:53<12:34:35,  3.33it/s] 59%|█████▉    | 220580/371472 [6:30:53<12:41:13,  3.30it/s]                                                            {'loss': 2.9278, 'learning_rate': 4.6577711219806503e-07, 'epoch': 9.5}
 59%|█████▉    | 220580/371472 [6:30:53<12:41:13,  3.30it/s] 59%|█████▉    | 220581/371472 [6:30:53<12:14:28,  3.42it/s] 59%|█████▉    | 220582/371472 [6:30:53<11:37:54,  3.60it/s] 59%|█████▉    | 220583/371472 [6:30:54<11:23:02,  3.68it/s] 59%|█████▉    | 220584/371472 [6:30:54<11:40:47,  3.59it/s] 59%|█████▉    | 220585/371472 [6:30:54<11:48:47,  3.55it/s] 59%|█████▉    | 220586/371472 [6:30:55<11:49:39,  3.54it/s] 59%|█████▉    | 220587/371472 [6:30:55<11:42:56,  3.58it/s] 59%|█████▉    | 220588/371472 [6:30:55<11:29:08,  3.65it/s] 59%|█████▉    | 220589/371472 [6:30:55<11:52:59,  3.53it/s] 59%|█████▉    | 220590/371472 [6:30:56<11:40:44,  3.59it/s] 59%|█████▉    | 220591/371472 [6:30:56<11:17:42,  3.71it/s] 59%|█████▉    | 220592/371472 [6:30:56<11:38:24,  3.60it/s] 59%|█████▉    | 220593/371472 [6:30:56<11:23:32,  3.68it/s] 59%|█████▉    | 220594/371472 [6:30:57<11:46:18,  3.56it/s] 59%|█████▉    | 220595/371472 [6:30:57<11:58:19,  3.50it/s] 59%|█████▉    | 220596/371472 [6:30:57<11:37:37,  3.60it/s] 59%|█████▉    | 220597/371472 [6:30:58<12:19:14,  3.40it/s] 59%|█████▉    | 220598/371472 [6:30:58<11:48:38,  3.55it/s] 59%|█████▉    | 220599/371472 [6:30:58<11:38:36,  3.60it/s] 59%|█████▉    | 220600/371472 [6:30:58<12:02:39,  3.48it/s]                                                            {'loss': 2.8438, 'learning_rate': 4.6572863022258605e-07, 'epoch': 9.5}
 59%|█████▉    | 220600/371472 [6:30:58<12:02:39,  3.48it/s] 59%|█████▉    | 220601/371472 [6:30:59<12:55:36,  3.24it/s] 59%|█████▉    | 220602/371472 [6:30:59<13:01:51,  3.22it/s] 59%|█████▉    | 220603/371472 [6:30:59<13:09:55,  3.18it/s] 59%|█████▉    | 220604/371472 [6:31:00<12:23:27,  3.38it/s] 59%|█████▉    | 220605/371472 [6:31:00<12:01:12,  3.49it/s] 59%|█████▉    | 220606/371472 [6:31:00<11:43:13,  3.58it/s] 59%|█████▉    | 220607/371472 [6:31:01<11:24:58,  3.67it/s] 59%|█████▉    | 220608/371472 [6:31:01<11:42:17,  3.58it/s] 59%|█████▉    | 220609/371472 [6:31:01<11:46:03,  3.56it/s] 59%|█████▉    | 220610/371472 [6:31:01<11:48:24,  3.55it/s] 59%|█████▉    | 220611/371472 [6:31:02<12:00:38,  3.49it/s] 59%|█████▉    | 220612/371472 [6:31:02<12:06:31,  3.46it/s] 59%|█████▉    | 220613/371472 [6:31:02<11:52:01,  3.53it/s] 59%|█████▉    | 220614/371472 [6:31:03<12:28:08,  3.36it/s] 59%|█████▉    | 220615/371472 [6:31:03<12:08:03,  3.45it/s] 59%|█████▉    | 220616/371472 [6:31:03<11:45:28,  3.56it/s] 59%|█████▉    | 220617/371472 [6:31:03<11:31:55,  3.63it/s] 59%|█████▉    | 220618/371472 [6:31:04<11:38:27,  3.60it/s] 59%|█████▉    | 220619/371472 [6:31:04<12:17:28,  3.41it/s] 59%|█████▉    | 220620/371472 [6:31:04<12:06:34,  3.46it/s]                                                            {'loss': 2.9753, 'learning_rate': 4.6568014824710723e-07, 'epoch': 9.5}
 59%|█████▉    | 220620/371472 [6:31:04<12:06:34,  3.46it/s] 59%|█████▉    | 220621/371472 [6:31:05<12:32:03,  3.34it/s] 59%|█████▉    | 220622/371472 [6:31:05<12:58:04,  3.23it/s] 59%|█████▉    | 220623/371472 [6:31:05<13:24:50,  3.12it/s] 59%|█████▉    | 220624/371472 [6:31:06<12:30:23,  3.35it/s] 59%|█████▉    | 220625/371472 [6:31:06<11:57:42,  3.50it/s] 59%|█████▉    | 220626/371472 [6:31:06<12:53:59,  3.25it/s] 59%|█████▉    | 220627/371472 [6:31:06<12:06:55,  3.46it/s] 59%|█████▉    | 220628/371472 [6:31:07<12:33:05,  3.34it/s] 59%|█████▉    | 220629/371472 [6:31:07<12:29:25,  3.35it/s] 59%|█████▉    | 220630/371472 [6:31:07<12:00:30,  3.49it/s] 59%|█████▉    | 220631/371472 [6:31:08<11:47:56,  3.55it/s] 59%|█████▉    | 220632/371472 [6:31:08<12:13:01,  3.43it/s] 59%|█████▉    | 220633/371472 [6:31:08<12:37:18,  3.32it/s] 59%|█████▉    | 220634/371472 [6:31:08<12:53:55,  3.25it/s] 59%|█████▉    | 220635/371472 [6:31:09<12:13:47,  3.43it/s] 59%|█████▉    | 220636/371472 [6:31:09<12:01:15,  3.49it/s] 59%|█████▉    | 220637/371472 [6:31:09<11:39:52,  3.59it/s] 59%|█████▉    | 220638/371472 [6:31:10<11:48:11,  3.55it/s] 59%|█████▉    | 220639/371472 [6:31:10<11:43:56,  3.57it/s] 59%|█████▉    | 220640/371472 [6:31:10<11:51:30,  3.53it/s]                                                            {'loss': 2.8709, 'learning_rate': 4.656316662716283e-07, 'epoch': 9.5}
 59%|█████▉    | 220640/371472 [6:31:10<11:51:30,  3.53it/s] 59%|█████▉    | 220641/371472 [6:31:10<11:58:06,  3.50it/s] 59%|█████▉    | 220642/371472 [6:31:11<11:35:43,  3.61it/s] 59%|█████▉    | 220643/371472 [6:31:11<11:32:07,  3.63it/s] 59%|█████▉    | 220644/371472 [6:31:11<12:55:16,  3.24it/s] 59%|█████▉    | 220645/371472 [6:31:12<12:26:49,  3.37it/s] 59%|█████▉    | 220646/371472 [6:31:12<12:28:18,  3.36it/s] 59%|█████▉    | 220647/371472 [6:31:12<12:07:39,  3.45it/s] 59%|█████▉    | 220648/371472 [6:31:12<12:34:30,  3.33it/s] 59%|█████▉    | 220649/371472 [6:31:13<12:16:10,  3.41it/s] 59%|█████▉    | 220650/371472 [6:31:13<11:57:21,  3.50it/s] 59%|█████▉    | 220651/371472 [6:31:13<11:56:14,  3.51it/s] 59%|█████▉    | 220652/371472 [6:31:14<11:38:33,  3.60it/s] 59%|█████▉    | 220653/371472 [6:31:14<11:38:52,  3.60it/s] 59%|█████▉    | 220654/371472 [6:31:14<11:34:59,  3.62it/s] 59%|█████▉    | 220655/371472 [6:31:14<12:23:09,  3.38it/s] 59%|█████▉    | 220656/371472 [6:31:15<11:49:23,  3.54it/s] 59%|█████▉    | 220657/371472 [6:31:15<11:35:10,  3.62it/s] 59%|█████▉    | 220658/371472 [6:31:15<11:58:29,  3.50it/s] 59%|█████▉    | 220659/371472 [6:31:16<12:34:12,  3.33it/s] 59%|█████▉    | 220660/371472 [6:31:16<12:08:16,  3.45it/s]                                                            {'loss': 2.8739, 'learning_rate': 4.655831842961494e-07, 'epoch': 9.5}
 59%|█████▉    | 220660/371472 [6:31:16<12:08:16,  3.45it/s] 59%|█████▉    | 220661/371472 [6:31:16<13:04:14,  3.21it/s] 59%|█████▉    | 220662/371472 [6:31:17<12:19:01,  3.40it/s] 59%|█████▉    | 220663/371472 [6:31:17<12:15:55,  3.42it/s] 59%|█████▉    | 220664/371472 [6:31:17<12:52:53,  3.25it/s] 59%|█████▉    | 220665/371472 [6:31:17<12:52:21,  3.25it/s] 59%|█████▉    | 220666/371472 [6:31:18<12:30:18,  3.35it/s] 59%|█████▉    | 220667/371472 [6:31:18<12:06:56,  3.46it/s] 59%|█████▉    | 220668/371472 [6:31:18<12:10:46,  3.44it/s] 59%|█████▉    | 220669/371472 [6:31:19<12:20:29,  3.39it/s] 59%|█████▉    | 220670/371472 [6:31:19<12:14:12,  3.42it/s] 59%|█████▉    | 220671/371472 [6:31:19<12:00:45,  3.49it/s] 59%|█████▉    | 220672/371472 [6:31:19<11:51:42,  3.53it/s] 59%|█████▉    | 220673/371472 [6:31:20<12:26:15,  3.37it/s] 59%|█████▉    | 220674/371472 [6:31:20<12:10:02,  3.44it/s] 59%|█████▉    | 220675/371472 [6:31:20<11:53:47,  3.52it/s] 59%|█████▉    | 220676/371472 [6:31:21<11:47:47,  3.55it/s] 59%|█████▉    | 220677/371472 [6:31:21<11:18:11,  3.71it/s] 59%|█████▉    | 220678/371472 [6:31:21<11:06:48,  3.77it/s] 59%|█████▉    | 220679/371472 [6:31:21<11:05:55,  3.77it/s] 59%|█████▉    | 220680/371472 [6:31:22<11:28:38,  3.65it/s]                                                            {'loss': 2.8611, 'learning_rate': 4.655347023206705e-07, 'epoch': 9.51}
 59%|█████▉    | 220680/371472 [6:31:22<11:28:38,  3.65it/s] 59%|█████▉    | 220681/371472 [6:31:22<11:44:45,  3.57it/s] 59%|█████▉    | 220682/371472 [6:31:22<11:51:38,  3.53it/s] 59%|█████▉    | 220683/371472 [6:31:22<11:31:53,  3.63it/s] 59%|█████▉    | 220684/371472 [6:31:23<11:16:37,  3.71it/s] 59%|█████▉    | 220685/371472 [6:31:23<11:05:18,  3.78it/s] 59%|█████▉    | 220686/371472 [6:31:23<11:02:05,  3.80it/s] 59%|█████▉    | 220687/371472 [6:31:24<11:27:14,  3.66it/s] 59%|█████▉    | 220688/371472 [6:31:24<11:28:04,  3.65it/s] 59%|█████▉    | 220689/371472 [6:31:24<11:23:17,  3.68it/s] 59%|█████▉    | 220690/371472 [6:31:24<11:42:53,  3.58it/s] 59%|█████▉    | 220691/371472 [6:31:25<11:25:53,  3.66it/s] 59%|█████▉    | 220692/371472 [6:31:25<11:28:50,  3.65it/s] 59%|█████▉    | 220693/371472 [6:31:25<11:41:08,  3.58it/s] 59%|█████▉    | 220694/371472 [6:31:25<11:19:46,  3.70it/s] 59%|█████▉    | 220695/371472 [6:31:26<11:08:02,  3.76it/s] 59%|█████▉    | 220696/371472 [6:31:26<11:41:57,  3.58it/s] 59%|█████▉    | 220697/371472 [6:31:26<11:32:15,  3.63it/s] 59%|█████▉    | 220698/371472 [6:31:27<11:41:16,  3.58it/s] 59%|█████▉    | 220699/371472 [6:31:27<11:34:11,  3.62it/s] 59%|█████▉    | 220700/371472 [6:31:27<11:41:36,  3.58it/s]                                                            {'loss': 2.9504, 'learning_rate': 4.654862203451917e-07, 'epoch': 9.51}
 59%|█████▉    | 220700/371472 [6:31:27<11:41:36,  3.58it/s] 59%|█████▉    | 220701/371472 [6:31:27<12:02:34,  3.48it/s] 59%|█████▉    | 220702/371472 [6:31:28<11:49:24,  3.54it/s] 59%|█████▉    | 220703/371472 [6:31:28<11:46:55,  3.55it/s] 59%|█████▉    | 220704/371472 [6:31:28<11:15:10,  3.72it/s] 59%|█████▉    | 220705/371472 [6:31:28<11:11:30,  3.74it/s] 59%|█████▉    | 220706/371472 [6:31:29<12:02:06,  3.48it/s] 59%|█████▉    | 220707/371472 [6:31:29<11:46:00,  3.56it/s] 59%|█████▉    | 220708/371472 [6:31:29<11:36:06,  3.61it/s] 59%|█████▉    | 220709/371472 [6:31:30<11:40:40,  3.59it/s] 59%|█████▉    | 220710/371472 [6:31:30<11:39:51,  3.59it/s] 59%|█████▉    | 220711/371472 [6:31:30<11:40:10,  3.59it/s] 59%|█████▉    | 220712/371472 [6:31:30<11:46:16,  3.56it/s] 59%|█████▉    | 220713/371472 [6:31:31<11:37:36,  3.60it/s] 59%|█████▉    | 220714/371472 [6:31:31<11:16:46,  3.71it/s] 59%|█████▉    | 220715/371472 [6:31:31<11:28:25,  3.65it/s] 59%|█████▉    | 220716/371472 [6:31:32<11:36:12,  3.61it/s] 59%|█████▉    | 220717/371472 [6:31:32<11:15:56,  3.72it/s] 59%|█████▉    | 220718/371472 [6:31:32<11:26:42,  3.66it/s] 59%|█████▉    | 220719/371472 [6:31:32<12:39:18,  3.31it/s] 59%|█████▉    | 220720/371472 [6:31:33<13:37:59,  3.07it/s]                                                            {'loss': 2.9561, 'learning_rate': 4.654377383697127e-07, 'epoch': 9.51}
 59%|█████▉    | 220720/371472 [6:31:33<13:37:59,  3.07it/s] 59%|█████▉    | 220721/371472 [6:31:33<13:03:25,  3.21it/s] 59%|█████▉    | 220722/371472 [6:31:33<13:28:35,  3.11it/s] 59%|█████▉    | 220723/371472 [6:31:34<13:19:20,  3.14it/s] 59%|█████▉    | 220724/371472 [6:31:34<13:15:48,  3.16it/s] 59%|█████▉    | 220725/371472 [6:31:34<12:34:25,  3.33it/s] 59%|█████▉    | 220726/371472 [6:31:35<12:17:54,  3.40it/s] 59%|█████▉    | 220727/371472 [6:31:35<12:01:29,  3.48it/s] 59%|█████▉    | 220728/371472 [6:31:35<12:31:05,  3.35it/s] 59%|█████▉    | 220729/371472 [6:31:36<12:53:23,  3.25it/s] 59%|█████▉    | 220730/371472 [6:31:36<13:02:59,  3.21it/s] 59%|█████▉    | 220731/371472 [6:31:36<14:28:04,  2.89it/s] 59%|█████▉    | 220732/371472 [6:31:37<13:54:21,  3.01it/s] 59%|█████▉    | 220733/371472 [6:31:37<13:28:07,  3.11it/s] 59%|█████▉    | 220734/371472 [6:31:37<12:30:41,  3.35it/s] 59%|█████▉    | 220735/371472 [6:31:37<12:36:57,  3.32it/s] 59%|█████▉    | 220736/371472 [6:31:38<11:54:35,  3.52it/s] 59%|█████▉    | 220737/371472 [6:31:38<11:50:24,  3.54it/s] 59%|█████▉    | 220738/371472 [6:31:38<11:36:52,  3.60it/s] 59%|█████▉    | 220739/371472 [6:31:39<11:08:29,  3.76it/s] 59%|█████▉    | 220740/371472 [6:31:39<11:12:06,  3.74it/s]                                                            {'loss': 2.8053, 'learning_rate': 4.6538925639423387e-07, 'epoch': 9.51}
 59%|█████▉    | 220740/371472 [6:31:39<11:12:06,  3.74it/s] 59%|█████▉    | 220741/371472 [6:31:39<11:01:53,  3.80it/s] 59%|█████▉    | 220742/371472 [6:31:39<11:31:57,  3.63it/s] 59%|█████▉    | 220743/371472 [6:31:40<11:13:54,  3.73it/s] 59%|█████▉    | 220744/371472 [6:31:40<11:22:52,  3.68it/s] 59%|█████▉    | 220745/371472 [6:31:40<11:18:24,  3.70it/s] 59%|█████▉    | 220746/371472 [6:31:40<11:06:00,  3.77it/s] 59%|█████▉    | 220747/371472 [6:31:41<12:34:59,  3.33it/s] 59%|█████▉    | 220748/371472 [6:31:41<12:13:23,  3.43it/s] 59%|█████▉    | 220749/371472 [6:31:41<11:47:18,  3.55it/s] 59%|█████▉    | 220750/371472 [6:31:42<11:38:46,  3.59it/s] 59%|█████▉    | 220751/371472 [6:31:42<11:19:22,  3.70it/s] 59%|█████▉    | 220752/371472 [6:31:42<10:56:36,  3.83it/s] 59%|█████▉    | 220753/371472 [6:31:42<11:08:49,  3.76it/s] 59%|█████▉    | 220754/371472 [6:31:43<11:08:09,  3.76it/s] 59%|█████▉    | 220755/371472 [6:31:43<10:53:44,  3.84it/s] 59%|█████▉    | 220756/371472 [6:31:43<10:58:43,  3.81it/s] 59%|█████▉    | 220757/371472 [6:31:43<11:02:51,  3.79it/s] 59%|█████▉    | 220758/371472 [6:31:44<10:49:42,  3.87it/s] 59%|█████▉    | 220759/371472 [6:31:44<11:22:45,  3.68it/s] 59%|█████▉    | 220760/371472 [6:31:44<12:09:16,  3.44it/s]                                                            {'loss': 2.9231, 'learning_rate': 4.6534077441875494e-07, 'epoch': 9.51}
 59%|█████▉    | 220760/371472 [6:31:44<12:09:16,  3.44it/s] 59%|█████▉    | 220761/371472 [6:31:45<11:54:31,  3.52it/s] 59%|█████▉    | 220762/371472 [6:31:45<12:18:28,  3.40it/s] 59%|█████▉    | 220763/371472 [6:31:45<12:08:07,  3.45it/s] 59%|█████▉    | 220764/371472 [6:31:45<12:03:30,  3.47it/s] 59%|█████▉    | 220765/371472 [6:31:46<11:54:10,  3.52it/s] 59%|█████▉    | 220766/371472 [6:31:46<11:40:06,  3.59it/s] 59%|█████▉    | 220767/371472 [6:31:46<11:35:54,  3.61it/s] 59%|█████▉    | 220768/371472 [6:31:46<11:28:11,  3.65it/s] 59%|█████▉    | 220769/371472 [6:31:47<11:47:01,  3.55it/s] 59%|█████▉    | 220770/371472 [6:31:47<12:47:47,  3.27it/s] 59%|█████▉    | 220771/371472 [6:31:47<12:15:54,  3.41it/s] 59%|█████▉    | 220772/371472 [6:31:48<12:15:24,  3.42it/s] 59%|█████▉    | 220773/371472 [6:31:48<12:08:26,  3.45it/s] 59%|█████▉    | 220774/371472 [6:31:48<11:48:41,  3.54it/s] 59%|█████▉    | 220775/371472 [6:31:49<11:50:12,  3.54it/s] 59%|█████▉    | 220776/371472 [6:31:49<11:33:01,  3.62it/s] 59%|█████▉    | 220777/371472 [6:31:49<11:04:44,  3.78it/s] 59%|█████▉    | 220778/371472 [6:31:49<10:54:43,  3.84it/s] 59%|█████▉    | 220779/371472 [6:31:50<11:05:26,  3.77it/s] 59%|█████▉    | 220780/371472 [6:31:50<11:47:06,  3.55it/s]                                                            {'loss': 2.931, 'learning_rate': 4.6529229244327607e-07, 'epoch': 9.51}
 59%|█████▉    | 220780/371472 [6:31:50<11:47:06,  3.55it/s] 59%|█████▉    | 220781/371472 [6:31:50<11:43:06,  3.57it/s] 59%|█████▉    | 220782/371472 [6:31:50<11:58:09,  3.50it/s] 59%|█████▉    | 220783/371472 [6:31:51<12:00:37,  3.49it/s] 59%|█████▉    | 220784/371472 [6:31:51<12:33:01,  3.34it/s] 59%|█████▉    | 220785/371472 [6:31:51<12:43:55,  3.29it/s] 59%|█████▉    | 220786/371472 [6:31:52<12:26:22,  3.36it/s] 59%|█████▉    | 220787/371472 [6:31:52<13:35:02,  3.08it/s] 59%|█████▉    | 220788/371472 [6:31:52<13:03:35,  3.20it/s] 59%|█████▉    | 220789/371472 [6:31:53<12:19:03,  3.40it/s] 59%|█████▉    | 220790/371472 [6:31:53<11:49:49,  3.54it/s] 59%|█████▉    | 220791/371472 [6:31:53<11:57:10,  3.50it/s] 59%|█████▉    | 220792/371472 [6:31:53<12:01:42,  3.48it/s] 59%|█████▉    | 220793/371472 [6:31:54<12:11:01,  3.44it/s] 59%|█████▉    | 220794/371472 [6:31:54<12:15:41,  3.41it/s] 59%|█████▉    | 220795/371472 [6:31:54<12:08:46,  3.45it/s] 59%|█████▉    | 220796/371472 [6:31:55<11:53:06,  3.52it/s] 59%|█████▉    | 220797/371472 [6:31:55<12:25:06,  3.37it/s] 59%|█████▉    | 220798/371472 [6:31:55<11:57:02,  3.50it/s] 59%|█████▉    | 220799/371472 [6:31:55<11:36:53,  3.60it/s] 59%|█████▉    | 220800/371472 [6:31:56<11:33:37,  3.62it/s]                                                            {'loss': 3.0225, 'learning_rate': 4.6524381046779714e-07, 'epoch': 9.51}
 59%|█████▉    | 220800/371472 [6:31:56<11:33:37,  3.62it/s] 59%|█████▉    | 220801/371472 [6:31:56<12:11:24,  3.43it/s] 59%|█████▉    | 220802/371472 [6:31:56<12:03:45,  3.47it/s] 59%|█████▉    | 220803/371472 [6:31:57<11:51:00,  3.53it/s] 59%|█████▉    | 220804/371472 [6:31:57<12:45:53,  3.28it/s] 59%|█████▉    | 220805/371472 [6:31:57<12:18:38,  3.40it/s] 59%|█████▉    | 220806/371472 [6:31:57<11:51:35,  3.53it/s] 59%|█████▉    | 220807/371472 [6:31:58<11:31:27,  3.63it/s] 59%|█████▉    | 220808/371472 [6:31:58<12:36:50,  3.32it/s] 59%|█████▉    | 220809/371472 [6:31:58<12:30:57,  3.34it/s] 59%|█████▉    | 220810/371472 [6:31:59<11:55:55,  3.51it/s] 59%|█████▉    | 220811/371472 [6:31:59<12:03:06,  3.47it/s] 59%|█████▉    | 220812/371472 [6:31:59<11:43:28,  3.57it/s] 59%|█████▉    | 220813/371472 [6:31:59<11:30:31,  3.64it/s] 59%|█████▉    | 220814/371472 [6:32:00<11:29:57,  3.64it/s] 59%|█████▉    | 220815/371472 [6:32:00<11:32:52,  3.62it/s] 59%|█████▉    | 220816/371472 [6:32:00<11:36:03,  3.61it/s] 59%|█████▉    | 220817/371472 [6:32:01<11:27:22,  3.65it/s] 59%|█████▉    | 220818/371472 [6:32:01<11:09:19,  3.75it/s] 59%|█████▉    | 220819/371472 [6:32:01<11:04:02,  3.78it/s] 59%|█████▉    | 220820/371472 [6:32:01<11:18:19,  3.70it/s]                                                            {'loss': 2.8593, 'learning_rate': 4.651953284923183e-07, 'epoch': 9.51}
 59%|█████▉    | 220820/371472 [6:32:01<11:18:19,  3.70it/s] 59%|█████▉    | 220821/371472 [6:32:02<11:46:16,  3.56it/s] 59%|█████▉    | 220822/371472 [6:32:02<11:40:43,  3.58it/s] 59%|█████▉    | 220823/371472 [6:32:02<11:37:31,  3.60it/s] 59%|█████▉    | 220824/371472 [6:32:02<11:26:28,  3.66it/s] 59%|█████▉    | 220825/371472 [6:32:03<11:06:25,  3.77it/s] 59%|█████▉    | 220826/371472 [6:32:03<10:53:43,  3.84it/s] 59%|█████▉    | 220827/371472 [6:32:03<10:57:03,  3.82it/s] 59%|█████▉    | 220828/371472 [6:32:04<12:34:30,  3.33it/s] 59%|█████▉    | 220829/371472 [6:32:04<12:22:24,  3.38it/s] 59%|█████▉    | 220830/371472 [6:32:04<12:16:47,  3.41it/s] 59%|█████▉    | 220831/371472 [6:32:05<12:44:12,  3.29it/s] 59%|█████▉    | 220832/371472 [6:32:05<12:22:59,  3.38it/s] 59%|█████▉    | 220833/371472 [6:32:05<11:56:53,  3.50it/s] 59%|█████▉    | 220834/371472 [6:32:05<11:44:23,  3.56it/s] 59%|█████▉    | 220835/371472 [6:32:06<12:14:07,  3.42it/s] 59%|█████▉    | 220836/371472 [6:32:06<11:43:27,  3.57it/s] 59%|█████▉    | 220837/371472 [6:32:06<12:44:16,  3.28it/s] 59%|█████▉    | 220838/371472 [6:32:07<12:12:09,  3.43it/s] 59%|█████▉    | 220839/371472 [6:32:07<12:29:21,  3.35it/s] 59%|█████▉    | 220840/371472 [6:32:07<12:13:02,  3.42it/s]                                                            {'loss': 2.7965, 'learning_rate': 4.651468465168394e-07, 'epoch': 9.51}
 59%|█████▉    | 220840/371472 [6:32:07<12:13:02,  3.42it/s] 59%|█████▉    | 220841/371472 [6:32:07<12:00:23,  3.48it/s] 59%|█████▉    | 220842/371472 [6:32:08<11:41:01,  3.58it/s] 59%|█████▉    | 220843/371472 [6:32:08<11:42:17,  3.57it/s] 59%|█████▉    | 220844/371472 [6:32:08<12:32:47,  3.33it/s] 59%|█████▉    | 220845/371472 [6:32:09<12:25:53,  3.37it/s] 59%|█████▉    | 220846/371472 [6:32:09<12:25:03,  3.37it/s] 59%|█████▉    | 220847/371472 [6:32:09<11:45:43,  3.56it/s] 59%|█████▉    | 220848/371472 [6:32:09<11:58:45,  3.49it/s] 59%|█████▉    | 220849/371472 [6:32:10<11:36:47,  3.60it/s] 59%|█████▉    | 220850/371472 [6:32:10<11:18:26,  3.70it/s] 59%|█████▉    | 220851/371472 [6:32:10<11:52:51,  3.52it/s] 59%|█████▉    | 220852/371472 [6:32:10<11:31:26,  3.63it/s] 59%|█████▉    | 220853/371472 [6:32:11<11:36:25,  3.60it/s] 59%|█████▉    | 220854/371472 [6:32:11<11:25:49,  3.66it/s] 59%|█████▉    | 220855/371472 [6:32:11<11:36:48,  3.60it/s] 59%|█████▉    | 220856/371472 [6:32:12<11:31:53,  3.63it/s] 59%|█████▉    | 220857/371472 [6:32:12<11:08:32,  3.75it/s] 59%|█████▉    | 220858/371472 [6:32:12<11:30:04,  3.64it/s] 59%|█████▉    | 220859/371472 [6:32:12<11:12:17,  3.73it/s] 59%|█████▉    | 220860/371472 [6:32:13<11:28:51,  3.64it/s]                                                            {'loss': 2.8952, 'learning_rate': 4.650983645413605e-07, 'epoch': 9.51}
 59%|█████▉    | 220860/371472 [6:32:13<11:28:51,  3.64it/s] 59%|█████▉    | 220861/371472 [6:32:13<11:33:49,  3.62it/s] 59%|█████▉    | 220862/371472 [6:32:13<11:15:01,  3.72it/s] 59%|█████▉    | 220863/371472 [6:32:14<11:45:53,  3.56it/s] 59%|█████▉    | 220864/371472 [6:32:14<11:39:37,  3.59it/s] 59%|█████▉    | 220865/371472 [6:32:14<11:26:02,  3.66it/s] 59%|█████▉    | 220866/371472 [6:32:14<12:00:05,  3.49it/s] 59%|█████▉    | 220867/371472 [6:32:15<12:17:06,  3.41it/s] 59%|█████▉    | 220868/371472 [6:32:15<12:01:34,  3.48it/s] 59%|█████▉    | 220869/371472 [6:32:15<11:46:41,  3.55it/s] 59%|█████▉    | 220870/371472 [6:32:15<11:35:58,  3.61it/s] 59%|█████▉    | 220871/371472 [6:32:16<12:20:09,  3.39it/s] 59%|█████▉    | 220872/371472 [6:32:16<12:47:22,  3.27it/s] 59%|█████▉    | 220873/371472 [6:32:16<12:02:14,  3.48it/s] 59%|█████▉    | 220874/371472 [6:32:17<11:52:06,  3.52it/s] 59%|█████▉    | 220875/371472 [6:32:17<11:37:01,  3.60it/s] 59%|█████▉    | 220876/371472 [6:32:17<11:57:22,  3.50it/s] 59%|█████▉    | 220877/371472 [6:32:18<13:04:26,  3.20it/s] 59%|█████▉    | 220878/371472 [6:32:18<12:44:41,  3.28it/s] 59%|█████▉    | 220879/371472 [6:32:18<12:17:13,  3.40it/s] 59%|█████▉    | 220880/371472 [6:32:18<11:47:30,  3.55it/s]                                                            {'loss': 2.9479, 'learning_rate': 4.650498825658816e-07, 'epoch': 9.51}
 59%|█████▉    | 220880/371472 [6:32:18<11:47:30,  3.55it/s] 59%|█████▉    | 220881/371472 [6:32:19<11:56:13,  3.50it/s] 59%|█████▉    | 220882/371472 [6:32:19<11:45:06,  3.56it/s] 59%|█████▉    | 220883/371472 [6:32:19<11:29:34,  3.64it/s] 59%|█████▉    | 220884/371472 [6:32:20<11:15:49,  3.71it/s] 59%|█████▉    | 220885/371472 [6:32:20<11:36:48,  3.60it/s] 59%|█████▉    | 220886/371472 [6:32:20<11:38:04,  3.60it/s] 59%|█████▉    | 220887/371472 [6:32:20<11:49:05,  3.54it/s] 59%|█████▉    | 220888/371472 [6:32:21<12:13:46,  3.42it/s] 59%|█████▉    | 220889/371472 [6:32:21<12:01:45,  3.48it/s] 59%|█████▉    | 220890/371472 [6:32:21<12:19:55,  3.39it/s] 59%|█████▉    | 220891/371472 [6:32:22<12:13:44,  3.42it/s] 59%|█████▉    | 220892/371472 [6:32:22<11:49:30,  3.54it/s] 59%|█████▉    | 220893/371472 [6:32:22<11:36:42,  3.60it/s] 59%|█████▉    | 220894/371472 [6:32:22<11:56:30,  3.50it/s] 59%|█████▉    | 220895/371472 [6:32:23<11:49:06,  3.54it/s] 59%|█████▉    | 220896/371472 [6:32:23<12:30:44,  3.34it/s] 59%|█████▉    | 220897/371472 [6:32:23<13:00:40,  3.21it/s] 59%|█████▉    | 220898/371472 [6:32:24<12:22:28,  3.38it/s] 59%|█████▉    | 220899/371472 [6:32:24<11:51:27,  3.53it/s] 59%|█████▉    | 220900/371472 [6:32:24<11:49:22,  3.54it/s]                                                            {'loss': 2.8792, 'learning_rate': 4.6500140059040276e-07, 'epoch': 9.51}
 59%|█████▉    | 220900/371472 [6:32:24<11:49:22,  3.54it/s] 59%|█████▉    | 220901/371472 [6:32:24<11:52:18,  3.52it/s] 59%|█████▉    | 220902/371472 [6:32:25<11:18:38,  3.70it/s] 59%|█████▉    | 220903/371472 [6:32:25<11:18:43,  3.70it/s] 59%|█████▉    | 220904/371472 [6:32:25<11:43:39,  3.57it/s] 59%|█████▉    | 220905/371472 [6:32:26<11:25:27,  3.66it/s] 59%|█████▉    | 220906/371472 [6:32:26<12:39:27,  3.30it/s] 59%|█████▉    | 220907/371472 [6:32:26<12:53:36,  3.24it/s] 59%|█████▉    | 220908/371472 [6:32:26<12:15:53,  3.41it/s] 59%|█████▉    | 220909/371472 [6:32:27<11:50:33,  3.53it/s] 59%|█████▉    | 220910/371472 [6:32:27<11:41:10,  3.58it/s] 59%|█████▉    | 220911/371472 [6:32:27<11:24:03,  3.67it/s] 59%|█████▉    | 220912/371472 [6:32:28<11:56:11,  3.50it/s] 59%|█████▉    | 220913/371472 [6:32:28<12:55:53,  3.23it/s] 59%|█████▉    | 220914/371472 [6:32:28<13:19:52,  3.14it/s] 59%|█████▉    | 220915/371472 [6:32:29<12:50:44,  3.26it/s] 59%|█████▉    | 220916/371472 [6:32:29<12:11:49,  3.43it/s] 59%|█████▉    | 220917/371472 [6:32:29<12:11:32,  3.43it/s] 59%|█████▉    | 220918/371472 [6:32:30<14:48:17,  2.82it/s] 59%|█████▉    | 220919/371472 [6:32:30<13:46:47,  3.03it/s] 59%|█████▉    | 220920/371472 [6:32:30<13:34:45,  3.08it/s]                                                            {'loss': 2.8657, 'learning_rate': 4.6495291861492383e-07, 'epoch': 9.52}
 59%|█████▉    | 220920/371472 [6:32:30<13:34:45,  3.08it/s] 59%|█████▉    | 220921/371472 [6:32:30<12:55:18,  3.24it/s] 59%|█████▉    | 220922/371472 [6:32:31<12:26:36,  3.36it/s] 59%|█████▉    | 220923/371472 [6:32:31<12:18:06,  3.40it/s] 59%|█████▉    | 220924/371472 [6:32:31<12:06:44,  3.45it/s] 59%|█████▉    | 220925/371472 [6:32:32<11:53:20,  3.52it/s] 59%|█████▉    | 220926/371472 [6:32:32<11:39:41,  3.59it/s] 59%|█████▉    | 220927/371472 [6:32:32<11:57:31,  3.50it/s] 59%|█████▉    | 220928/371472 [6:32:32<11:37:40,  3.60it/s] 59%|█████▉    | 220929/371472 [6:32:33<11:32:03,  3.63it/s] 59%|█████▉    | 220930/371472 [6:32:33<11:47:07,  3.55it/s] 59%|█████▉    | 220931/371472 [6:32:33<12:39:19,  3.30it/s] 59%|█████▉    | 220932/371472 [6:32:34<12:01:26,  3.48it/s] 59%|█████▉    | 220933/371472 [6:32:34<11:48:17,  3.54it/s] 59%|█████▉    | 220934/371472 [6:32:34<11:58:27,  3.49it/s] 59%|█████▉    | 220935/371472 [6:32:34<11:45:57,  3.55it/s] 59%|█████▉    | 220936/371472 [6:32:35<11:53:42,  3.52it/s] 59%|█████▉    | 220937/371472 [6:32:35<11:52:08,  3.52it/s] 59%|█████▉    | 220938/371472 [6:32:35<11:32:48,  3.62it/s] 59%|█████▉    | 220939/371472 [6:32:35<11:28:33,  3.64it/s] 59%|█████▉    | 220940/371472 [6:32:36<11:26:51,  3.65it/s]                                                            {'loss': 2.8924, 'learning_rate': 4.6490443663944496e-07, 'epoch': 9.52}
 59%|█████▉    | 220940/371472 [6:32:36<11:26:51,  3.65it/s] 59%|█████▉    | 220941/371472 [6:32:36<11:26:53,  3.65it/s] 59%|█████▉    | 220942/371472 [6:32:36<11:27:02,  3.65it/s] 59%|█████▉    | 220943/371472 [6:32:37<12:12:29,  3.43it/s] 59%|█████▉    | 220944/371472 [6:32:37<11:49:46,  3.53it/s] 59%|█████▉    | 220945/371472 [6:32:37<11:32:14,  3.62it/s] 59%|█████▉    | 220946/371472 [6:32:37<11:29:24,  3.64it/s] 59%|█████▉    | 220947/371472 [6:32:38<12:07:19,  3.45it/s] 59%|█████▉    | 220948/371472 [6:32:38<12:22:54,  3.38it/s] 59%|█████▉    | 220949/371472 [6:32:38<11:59:32,  3.49it/s] 59%|█████▉    | 220950/371472 [6:32:39<12:06:49,  3.45it/s] 59%|█████▉    | 220951/371472 [6:32:39<11:59:04,  3.49it/s] 59%|█████▉    | 220952/371472 [6:32:39<11:51:50,  3.52it/s] 59%|█████▉    | 220953/371472 [6:32:39<11:39:40,  3.59it/s] 59%|█████▉    | 220954/371472 [6:32:40<11:10:34,  3.74it/s] 59%|█████▉    | 220955/371472 [6:32:40<12:46:12,  3.27it/s] 59%|█████▉    | 220956/371472 [6:32:40<12:35:09,  3.32it/s] 59%|█████▉    | 220957/371472 [6:32:41<12:23:52,  3.37it/s] 59%|█████▉    | 220958/371472 [6:32:41<14:10:19,  2.95it/s] 59%|█████▉    | 220959/371472 [6:32:41<13:47:38,  3.03it/s] 59%|█████▉    | 220960/371472 [6:32:42<13:00:03,  3.22it/s]                                                            {'loss': 3.0274, 'learning_rate': 4.6485595466396603e-07, 'epoch': 9.52}
 59%|█████▉    | 220960/371472 [6:32:42<13:00:03,  3.22it/s] 59%|█████▉    | 220961/371472 [6:32:42<12:55:19,  3.24it/s] 59%|█████▉    | 220962/371472 [6:32:42<12:31:20,  3.34it/s] 59%|█████▉    | 220963/371472 [6:32:43<12:17:29,  3.40it/s] 59%|█████▉    | 220964/371472 [6:32:43<12:42:39,  3.29it/s] 59%|█████▉    | 220965/371472 [6:32:43<12:20:40,  3.39it/s] 59%|█████▉    | 220966/371472 [6:32:43<12:34:06,  3.33it/s] 59%|█████▉    | 220967/371472 [6:32:44<12:30:08,  3.34it/s] 59%|█████▉    | 220968/371472 [6:32:44<12:25:48,  3.36it/s] 59%|█████▉    | 220969/371472 [6:32:44<12:37:16,  3.31it/s] 59%|█████▉    | 220970/371472 [6:32:45<12:56:50,  3.23it/s] 59%|█████▉    | 220971/371472 [6:32:45<15:00:37,  2.79it/s] 59%|█████▉    | 220972/371472 [6:32:45<14:13:09,  2.94it/s] 59%|█████▉    | 220973/371472 [6:32:46<13:02:41,  3.20it/s] 59%|█████▉    | 220974/371472 [6:32:46<12:29:25,  3.35it/s] 59%|█████▉    | 220975/371472 [6:32:46<11:55:19,  3.51it/s] 59%|█████▉    | 220976/371472 [6:32:47<11:58:59,  3.49it/s] 59%|█████▉    | 220977/371472 [6:32:47<12:18:28,  3.40it/s] 59%|█████▉    | 220978/371472 [6:32:47<12:47:54,  3.27it/s] 59%|█████▉    | 220979/371472 [6:32:47<12:31:52,  3.34it/s] 59%|█████▉    | 220980/371472 [6:32:48<12:22:46,  3.38it/s]                                                            {'loss': 2.919, 'learning_rate': 4.6480747268848715e-07, 'epoch': 9.52}
 59%|█████▉    | 220980/371472 [6:32:48<12:22:46,  3.38it/s] 59%|█████▉    | 220981/371472 [6:32:48<12:21:10,  3.38it/s] 59%|█████▉    | 220982/371472 [6:32:48<11:56:13,  3.50it/s] 59%|█████▉    | 220983/371472 [6:32:49<11:44:06,  3.56it/s] 59%|█████▉    | 220984/371472 [6:32:49<12:40:34,  3.30it/s] 59%|█████▉    | 220985/371472 [6:32:49<12:16:06,  3.41it/s] 59%|█████▉    | 220986/371472 [6:32:49<12:07:28,  3.45it/s] 59%|█████▉    | 220987/371472 [6:32:50<12:07:24,  3.45it/s] 59%|█████▉    | 220988/371472 [6:32:50<12:10:34,  3.43it/s] 59%|█████▉    | 220989/371472 [6:32:50<12:56:52,  3.23it/s] 59%|█████▉    | 220990/371472 [6:32:51<12:54:02,  3.24it/s] 59%|█████▉    | 220991/371472 [6:32:51<12:15:41,  3.41it/s] 59%|█████▉    | 220992/371472 [6:32:51<12:23:20,  3.37it/s] 59%|█████▉    | 220993/371472 [6:32:52<12:07:26,  3.45it/s] 59%|█████▉    | 220994/371472 [6:32:52<12:12:01,  3.43it/s] 59%|█████▉    | 220995/371472 [6:32:52<12:05:00,  3.46it/s] 59%|█████▉    | 220996/371472 [6:32:52<12:02:18,  3.47it/s] 59%|█████▉    | 220997/371472 [6:32:53<12:49:51,  3.26it/s] 59%|█████▉    | 220998/371472 [6:32:53<12:20:08,  3.39it/s] 59%|█████▉    | 220999/371472 [6:32:53<11:55:43,  3.50it/s] 59%|█████▉    | 221000/371472 [6:32:54<11:43:00,  3.57it/s]                                                            {'loss': 3.0172, 'learning_rate': 4.647589907130082e-07, 'epoch': 9.52}
 59%|█████▉    | 221000/371472 [6:32:54<11:43:00,  3.57it/s] 59%|█████▉    | 221001/371472 [6:32:54<11:41:55,  3.57it/s] 59%|█████▉    | 221002/371472 [6:32:54<11:54:03,  3.51it/s] 59%|█████▉    | 221003/371472 [6:32:54<11:43:27,  3.57it/s] 59%|█████▉    | 221004/371472 [6:32:55<11:47:34,  3.54it/s] 59%|█████▉    | 221005/371472 [6:32:55<12:01:38,  3.48it/s] 59%|█████▉    | 221006/371472 [6:32:55<11:49:40,  3.53it/s] 59%|█████▉    | 221007/371472 [6:32:56<11:56:02,  3.50it/s] 59%|█████▉    | 221008/371472 [6:32:56<11:43:26,  3.56it/s] 59%|█████▉    | 221009/371472 [6:32:56<11:40:15,  3.58it/s] 59%|█████▉    | 221010/371472 [6:32:56<11:10:00,  3.74it/s] 59%|█████▉    | 221011/371472 [6:32:57<11:08:07,  3.75it/s] 59%|█████▉    | 221012/371472 [6:32:57<11:26:20,  3.65it/s] 59%|█████▉    | 221013/371472 [6:32:57<11:13:42,  3.72it/s] 59%|█████▉    | 221014/371472 [6:32:57<11:01:54,  3.79it/s] 59%|█████▉    | 221015/371472 [6:32:58<11:07:43,  3.76it/s] 59%|█████▉    | 221016/371472 [6:32:58<10:57:22,  3.81it/s] 59%|█████▉    | 221017/371472 [6:32:58<10:56:19,  3.82it/s] 59%|█████▉    | 221018/371472 [6:32:58<10:44:55,  3.89it/s] 59%|█████▉    | 221019/371472 [6:32:59<10:49:22,  3.86it/s] 59%|█████▉    | 221020/371472 [6:32:59<10:55:08,  3.83it/s]                                                            {'loss': 2.7291, 'learning_rate': 4.647105087375294e-07, 'epoch': 9.52}
 59%|█████▉    | 221020/371472 [6:32:59<10:55:08,  3.83it/s] 59%|█████▉    | 221021/371472 [6:32:59<11:27:41,  3.65it/s] 59%|█████▉    | 221022/371472 [6:33:00<11:40:22,  3.58it/s] 59%|█████▉    | 221023/371472 [6:33:00<11:28:44,  3.64it/s] 59%|█████▉    | 221024/371472 [6:33:00<11:30:29,  3.63it/s] 59%|█████▉    | 221025/371472 [6:33:00<11:47:49,  3.54it/s] 60%|█████▉    | 221026/371472 [6:33:01<14:35:32,  2.86it/s] 60%|█████▉    | 221027/371472 [6:33:01<13:16:21,  3.15it/s] 60%|█████▉    | 221028/371472 [6:33:01<12:41:56,  3.29it/s] 60%|█████▉    | 221029/371472 [6:33:02<12:03:26,  3.47it/s] 60%|█████▉    | 221030/371472 [6:33:02<12:15:20,  3.41it/s] 60%|█████▉    | 221031/371472 [6:33:02<11:52:43,  3.52it/s] 60%|█████▉    | 221032/371472 [6:33:03<11:50:38,  3.53it/s] 60%|█████▉    | 221033/371472 [6:33:03<11:28:33,  3.64it/s] 60%|█████▉    | 221034/371472 [6:33:03<11:43:11,  3.57it/s] 60%|█████▉    | 221035/371472 [6:33:03<12:32:57,  3.33it/s] 60%|█████▉    | 221036/371472 [6:33:04<12:19:03,  3.39it/s] 60%|█████▉    | 221037/371472 [6:33:04<12:26:02,  3.36it/s] 60%|█████▉    | 221038/371472 [6:33:04<12:29:28,  3.35it/s] 60%|█████▉    | 221039/371472 [6:33:05<14:24:41,  2.90it/s] 60%|█████▉    | 221040/371472 [6:33:05<13:38:32,  3.06it/s]                                                            {'loss': 2.8409, 'learning_rate': 4.646620267620504e-07, 'epoch': 9.52}
 60%|█████▉    | 221040/371472 [6:33:05<13:38:32,  3.06it/s] 60%|█████▉    | 221041/371472 [6:33:05<12:56:34,  3.23it/s] 60%|█████▉    | 221042/371472 [6:33:06<12:39:53,  3.30it/s] 60%|█████▉    | 221043/371472 [6:33:06<12:56:21,  3.23it/s] 60%|█████▉    | 221044/371472 [6:33:06<12:17:52,  3.40it/s] 60%|█████▉    | 221045/371472 [6:33:07<13:15:02,  3.15it/s] 60%|█████▉    | 221046/371472 [6:33:07<13:07:56,  3.18it/s] 60%|█████▉    | 221047/371472 [6:33:07<13:43:15,  3.05it/s] 60%|█████▉    | 221048/371472 [6:33:08<13:00:02,  3.21it/s] 60%|█████▉    | 221049/371472 [6:33:08<12:22:48,  3.38it/s] 60%|█████▉    | 221050/371472 [6:33:08<11:53:45,  3.51it/s] 60%|█████▉    | 221051/371472 [6:33:08<11:53:15,  3.51it/s] 60%|█████▉    | 221052/371472 [6:33:09<11:55:51,  3.50it/s] 60%|█████▉    | 221053/371472 [6:33:09<11:41:27,  3.57it/s] 60%|█████▉    | 221054/371472 [6:33:09<11:26:48,  3.65it/s] 60%|█████▉    | 221055/371472 [6:33:09<11:29:46,  3.63it/s] 60%|█████▉    | 221056/371472 [6:33:10<11:23:46,  3.67it/s] 60%|█████▉    | 221057/371472 [6:33:10<11:21:10,  3.68it/s] 60%|█████▉    | 221058/371472 [6:33:10<11:51:08,  3.53it/s] 60%|█████▉    | 221059/371472 [6:33:11<11:55:30,  3.50it/s] 60%|█████▉    | 221060/371472 [6:33:11<11:47:13,  3.54it/s]                                                            {'loss': 3.1431, 'learning_rate': 4.646135447865716e-07, 'epoch': 9.52}
 60%|█████▉    | 221060/371472 [6:33:11<11:47:13,  3.54it/s] 60%|█████▉    | 221061/371472 [6:33:11<12:25:26,  3.36it/s] 60%|█████▉    | 221062/371472 [6:33:11<11:57:45,  3.49it/s] 60%|█████▉    | 221063/371472 [6:33:12<11:48:45,  3.54it/s] 60%|█████▉    | 221064/371472 [6:33:12<11:31:58,  3.62it/s] 60%|█████▉    | 221065/371472 [6:33:12<13:20:13,  3.13it/s] 60%|█████▉    | 221066/371472 [6:33:13<12:36:47,  3.31it/s] 60%|█████▉    | 221067/371472 [6:33:13<13:59:52,  2.98it/s] 60%|█████▉    | 221068/371472 [6:33:13<13:45:29,  3.04it/s] 60%|█████▉    | 221069/371472 [6:33:14<13:10:30,  3.17it/s] 60%|█████▉    | 221070/371472 [6:33:14<12:17:49,  3.40it/s] 60%|█████▉    | 221071/371472 [6:33:14<11:47:47,  3.54it/s] 60%|█████▉    | 221072/371472 [6:33:14<12:01:40,  3.47it/s] 60%|█████▉    | 221073/371472 [6:33:15<12:24:25,  3.37it/s] 60%|█████▉    | 221074/371472 [6:33:15<12:07:39,  3.44it/s] 60%|█████▉    | 221075/371472 [6:33:15<11:44:19,  3.56it/s] 60%|█████▉    | 221076/371472 [6:33:16<11:53:34,  3.51it/s] 60%|█████▉    | 221077/371472 [6:33:16<11:46:37,  3.55it/s] 60%|█████▉    | 221078/371472 [6:33:16<11:25:46,  3.66it/s] 60%|█████▉    | 221079/371472 [6:33:16<11:16:41,  3.70it/s] 60%|█████▉    | 221080/371472 [6:33:17<12:04:23,  3.46it/s]                                                            {'loss': 2.8504, 'learning_rate': 4.6456506281109267e-07, 'epoch': 9.52}
 60%|█████▉    | 221080/371472 [6:33:17<12:04:23,  3.46it/s] 60%|█████▉    | 221081/371472 [6:33:17<11:45:31,  3.55it/s] 60%|█████▉    | 221082/371472 [6:33:17<12:27:32,  3.35it/s] 60%|█████▉    | 221083/371472 [6:33:18<11:52:40,  3.52it/s] 60%|█████▉    | 221084/371472 [6:33:18<11:45:59,  3.55it/s] 60%|█████▉    | 221085/371472 [6:33:18<12:00:37,  3.48it/s] 60%|█████▉    | 221086/371472 [6:33:18<12:38:16,  3.31it/s] 60%|█████▉    | 221087/371472 [6:33:19<12:25:48,  3.36it/s] 60%|█████▉    | 221088/371472 [6:33:19<13:09:35,  3.17it/s] 60%|█████▉    | 221089/371472 [6:33:19<12:31:31,  3.34it/s] 60%|█████▉    | 221090/371472 [6:33:20<11:54:25,  3.51it/s] 60%|█████▉    | 221091/371472 [6:33:20<11:59:04,  3.49it/s] 60%|█████▉    | 221092/371472 [6:33:20<11:56:00,  3.50it/s] 60%|█████▉    | 221093/371472 [6:33:20<12:03:47,  3.46it/s] 60%|█████▉    | 221094/371472 [6:33:21<11:58:02,  3.49it/s] 60%|█████▉    | 221095/371472 [6:33:21<11:53:03,  3.51it/s] 60%|█████▉    | 221096/371472 [6:33:21<12:33:10,  3.33it/s] 60%|█████▉    | 221097/371472 [6:33:22<13:32:09,  3.09it/s] 60%|█████▉    | 221098/371472 [6:33:22<12:33:34,  3.33it/s] 60%|█████▉    | 221099/371472 [6:33:22<12:51:46,  3.25it/s] 60%|█████▉    | 221100/371472 [6:33:23<13:46:25,  3.03it/s]                                                            {'loss': 2.7612, 'learning_rate': 4.6451658083561374e-07, 'epoch': 9.52}
 60%|█████▉    | 221100/371472 [6:33:23<13:46:25,  3.03it/s] 60%|█████▉    | 221101/371472 [6:33:23<13:03:48,  3.20it/s] 60%|█████▉    | 221102/371472 [6:33:23<12:45:33,  3.27it/s] 60%|█████▉    | 221103/371472 [6:33:24<12:02:45,  3.47it/s] 60%|█████▉    | 221104/371472 [6:33:24<14:42:31,  2.84it/s] 60%|█████▉    | 221105/371472 [6:33:24<13:35:05,  3.07it/s] 60%|█████▉    | 221106/371472 [6:33:25<13:41:07,  3.05it/s] 60%|█████▉    | 221107/371472 [6:33:25<13:19:18,  3.14it/s] 60%|█████▉    | 221108/371472 [6:33:25<12:31:57,  3.33it/s] 60%|█████▉    | 221109/371472 [6:33:25<11:56:33,  3.50it/s] 60%|█████▉    | 221110/371472 [6:33:26<11:46:57,  3.54it/s] 60%|█████▉    | 221111/371472 [6:33:26<11:24:42,  3.66it/s] 60%|█████▉    | 221112/371472 [6:33:26<11:29:23,  3.64it/s] 60%|█████▉    | 221113/371472 [6:33:27<11:24:54,  3.66it/s] 60%|█████▉    | 221114/371472 [6:33:27<11:59:35,  3.48it/s] 60%|█████▉    | 221115/371472 [6:33:27<11:35:26,  3.60it/s] 60%|█████▉    | 221116/371472 [6:33:27<11:33:31,  3.61it/s] 60%|█████▉    | 221117/371472 [6:33:28<11:18:46,  3.69it/s] 60%|█████▉    | 221118/371472 [6:33:28<12:17:01,  3.40it/s] 60%|█████▉    | 221119/371472 [6:33:28<12:00:38,  3.48it/s] 60%|█████▉    | 221120/371472 [6:33:29<12:00:16,  3.48it/s]                                                            {'loss': 2.9812, 'learning_rate': 4.6446809886013486e-07, 'epoch': 9.52}
 60%|█████▉    | 221120/371472 [6:33:29<12:00:16,  3.48it/s] 60%|█████▉    | 221121/371472 [6:33:29<11:39:47,  3.58it/s] 60%|█████▉    | 221122/371472 [6:33:29<11:35:48,  3.60it/s] 60%|█████▉    | 221123/371472 [6:33:29<11:34:49,  3.61it/s] 60%|█████▉    | 221124/371472 [6:33:30<11:15:12,  3.71it/s] 60%|█████▉    | 221125/371472 [6:33:30<11:22:16,  3.67it/s] 60%|█████▉    | 221126/371472 [6:33:30<11:10:56,  3.73it/s] 60%|█████▉    | 221127/371472 [6:33:30<11:07:37,  3.75it/s] 60%|█████▉    | 221128/371472 [6:33:31<10:51:44,  3.84it/s] 60%|█████▉    | 221129/371472 [6:33:31<11:24:17,  3.66it/s] 60%|█████▉    | 221130/371472 [6:33:31<12:17:16,  3.40it/s] 60%|█████▉    | 221131/371472 [6:33:32<12:11:34,  3.43it/s] 60%|█████▉    | 221132/371472 [6:33:32<11:54:31,  3.51it/s] 60%|█████▉    | 221133/371472 [6:33:32<11:59:58,  3.48it/s] 60%|█████▉    | 221134/371472 [6:33:32<11:55:56,  3.50it/s] 60%|█████▉    | 221135/371472 [6:33:33<11:33:38,  3.61it/s] 60%|█████▉    | 221136/371472 [6:33:33<11:35:09,  3.60it/s] 60%|█████▉    | 221137/371472 [6:33:33<11:08:24,  3.75it/s] 60%|█████▉    | 221138/371472 [6:33:33<11:16:46,  3.70it/s] 60%|█████▉    | 221139/371472 [6:33:34<11:04:21,  3.77it/s] 60%|█████▉    | 221140/371472 [6:33:34<11:03:24,  3.78it/s]                                                            {'loss': 2.8665, 'learning_rate': 4.6441961688465594e-07, 'epoch': 9.52}
 60%|█████▉    | 221140/371472 [6:33:34<11:03:24,  3.78it/s] 60%|█████▉    | 221141/371472 [6:33:34<11:57:39,  3.49it/s] 60%|█████▉    | 221142/371472 [6:33:35<11:41:22,  3.57it/s] 60%|█████▉    | 221143/371472 [6:33:35<11:55:10,  3.50it/s] 60%|█████▉    | 221144/371472 [6:33:35<13:27:50,  3.10it/s] 60%|█████▉    | 221145/371472 [6:33:36<12:59:04,  3.22it/s] 60%|█████▉    | 221146/371472 [6:33:36<12:42:18,  3.29it/s] 60%|█████▉    | 221147/371472 [6:33:36<14:40:42,  2.84it/s] 60%|█████▉    | 221148/371472 [6:33:37<13:39:05,  3.06it/s] 60%|█████▉    | 221149/371472 [6:33:37<13:26:23,  3.11it/s] 60%|█████▉    | 221150/371472 [6:33:37<12:28:09,  3.35it/s] 60%|█████▉    | 221151/371472 [6:33:37<12:18:32,  3.39it/s] 60%|█████▉    | 221152/371472 [6:33:38<12:03:31,  3.46it/s] 60%|█████▉    | 221153/371472 [6:33:38<11:31:02,  3.63it/s] 60%|█████▉    | 221154/371472 [6:33:38<11:22:28,  3.67it/s] 60%|█████▉    | 221155/371472 [6:33:39<11:38:50,  3.58it/s] 60%|█████▉    | 221156/371472 [6:33:39<11:58:58,  3.48it/s] 60%|█████▉    | 221157/371472 [6:33:39<12:08:21,  3.44it/s] 60%|█████▉    | 221158/371472 [6:33:39<11:59:18,  3.48it/s] 60%|█████▉    | 221159/371472 [6:33:40<12:03:36,  3.46it/s] 60%|█████▉    | 221160/371472 [6:33:40<11:33:09,  3.61it/s]                                                            {'loss': 2.7452, 'learning_rate': 4.6437113490917706e-07, 'epoch': 9.53}
 60%|█████▉    | 221160/371472 [6:33:40<11:33:09,  3.61it/s] 60%|█████▉    | 221161/371472 [6:33:40<11:36:31,  3.60it/s] 60%|█████▉    | 221162/371472 [6:33:41<11:48:30,  3.54it/s] 60%|█████▉    | 221163/371472 [6:33:41<11:26:37,  3.65it/s] 60%|█████▉    | 221164/371472 [6:33:41<11:15:05,  3.71it/s] 60%|█████▉    | 221165/371472 [6:33:41<11:21:19,  3.68it/s] 60%|█████▉    | 221166/371472 [6:33:42<11:03:28,  3.78it/s] 60%|█████▉    | 221167/371472 [6:33:42<11:17:46,  3.70it/s] 60%|█████▉    | 221168/371472 [6:33:42<11:04:58,  3.77it/s] 60%|█████▉    | 221169/371472 [6:33:42<10:54:29,  3.83it/s] 60%|█████▉    | 221170/371472 [6:33:43<11:19:10,  3.69it/s] 60%|█████▉    | 221171/371472 [6:33:43<12:27:23,  3.35it/s] 60%|█████▉    | 221172/371472 [6:33:43<11:53:04,  3.51it/s] 60%|█████▉    | 221173/371472 [6:33:44<13:22:30,  3.12it/s] 60%|█████▉    | 221174/371472 [6:33:44<12:40:46,  3.29it/s] 60%|█████▉    | 221175/371472 [6:33:44<12:32:36,  3.33it/s] 60%|█████▉    | 221176/371472 [6:33:44<12:03:34,  3.46it/s] 60%|█████▉    | 221177/371472 [6:33:45<11:47:39,  3.54it/s] 60%|█████▉    | 221178/371472 [6:33:45<11:35:03,  3.60it/s] 60%|█████▉    | 221179/371472 [6:33:45<11:26:06,  3.65it/s] 60%|█████▉    | 221180/371472 [6:33:46<11:19:31,  3.69it/s]                                                            {'loss': 2.9001, 'learning_rate': 4.6432265293369813e-07, 'epoch': 9.53}
 60%|█████▉    | 221180/371472 [6:33:46<11:19:31,  3.69it/s] 60%|█████▉    | 221181/371472 [6:33:46<11:38:46,  3.58it/s] 60%|█████▉    | 221182/371472 [6:33:46<11:47:44,  3.54it/s] 60%|█████▉    | 221183/371472 [6:33:46<11:54:23,  3.51it/s] 60%|█████▉    | 221184/371472 [6:33:47<12:34:13,  3.32it/s] 60%|█████▉    | 221185/371472 [6:33:47<12:17:01,  3.40it/s] 60%|█████▉    | 221186/371472 [6:33:47<11:55:29,  3.50it/s] 60%|█████▉    | 221187/371472 [6:33:48<11:44:36,  3.55it/s] 60%|█████▉    | 221188/371472 [6:33:48<11:24:31,  3.66it/s] 60%|█████▉    | 221189/371472 [6:33:48<11:30:58,  3.62it/s] 60%|█████▉    | 221190/371472 [6:33:48<11:52:58,  3.51it/s] 60%|█████▉    | 221191/371472 [6:33:49<11:43:21,  3.56it/s] 60%|█████▉    | 221192/371472 [6:33:49<12:45:22,  3.27it/s] 60%|█████▉    | 221193/371472 [6:33:49<12:08:03,  3.44it/s] 60%|█████▉    | 221194/371472 [6:33:50<11:51:34,  3.52it/s] 60%|█████▉    | 221195/371472 [6:33:50<11:44:20,  3.56it/s] 60%|█████▉    | 221196/371472 [6:33:50<11:32:49,  3.62it/s] 60%|█████▉    | 221197/371472 [6:33:50<11:34:39,  3.61it/s] 60%|█████▉    | 221198/371472 [6:33:51<12:08:48,  3.44it/s] 60%|█████▉    | 221199/371472 [6:33:51<12:14:38,  3.41it/s] 60%|█████▉    | 221200/371472 [6:33:51<11:46:23,  3.55it/s]                                                            {'loss': 3.0506, 'learning_rate': 4.642741709582193e-07, 'epoch': 9.53}
 60%|█████▉    | 221200/371472 [6:33:51<11:46:23,  3.55it/s] 60%|█████▉    | 221201/371472 [6:33:52<13:06:56,  3.18it/s] 60%|█████▉    | 221202/371472 [6:33:52<12:16:38,  3.40it/s] 60%|█████▉    | 221203/371472 [6:33:52<12:32:44,  3.33it/s] 60%|█████▉    | 221204/371472 [6:33:53<12:21:00,  3.38it/s] 60%|█████▉    | 221205/371472 [6:33:53<11:47:53,  3.54it/s] 60%|█████▉    | 221206/371472 [6:33:53<11:59:25,  3.48it/s] 60%|█████▉    | 221207/371472 [6:33:53<11:47:41,  3.54it/s] 60%|█████▉    | 221208/371472 [6:33:54<11:21:12,  3.68it/s] 60%|█████▉    | 221209/371472 [6:33:54<11:44:43,  3.55it/s] 60%|█████▉    | 221210/371472 [6:33:54<11:26:23,  3.65it/s] 60%|█████▉    | 221211/371472 [6:33:54<11:25:06,  3.66it/s] 60%|█████▉    | 221212/371472 [6:33:55<11:18:10,  3.69it/s] 60%|█████▉    | 221213/371472 [6:33:55<11:34:46,  3.60it/s] 60%|█████▉    | 221214/371472 [6:33:55<11:28:13,  3.64it/s] 60%|█████▉    | 221215/371472 [6:33:56<11:46:29,  3.54it/s] 60%|█████▉    | 221216/371472 [6:33:56<11:53:16,  3.51it/s] 60%|█████▉    | 221217/371472 [6:33:56<11:40:18,  3.58it/s] 60%|█████▉    | 221218/371472 [6:33:56<11:22:06,  3.67it/s] 60%|█████▉    | 221219/371472 [6:33:57<10:53:37,  3.83it/s] 60%|█████▉    | 221220/371472 [6:33:57<11:29:35,  3.63it/s]                                                            {'loss': 2.8367, 'learning_rate': 4.642256889827404e-07, 'epoch': 9.53}
 60%|█████▉    | 221220/371472 [6:33:57<11:29:35,  3.63it/s] 60%|█████▉    | 221221/371472 [6:33:57<11:46:02,  3.55it/s] 60%|█████▉    | 221222/371472 [6:33:57<11:32:41,  3.62it/s] 60%|█████▉    | 221223/371472 [6:33:58<11:23:00,  3.67it/s] 60%|█████▉    | 221224/371472 [6:33:58<11:24:40,  3.66it/s] 60%|█████▉    | 221225/371472 [6:33:58<11:23:24,  3.66it/s] 60%|█████▉    | 221226/371472 [6:33:59<12:02:10,  3.47it/s] 60%|█████▉    | 221227/371472 [6:33:59<12:11:39,  3.42it/s] 60%|█████▉    | 221228/371472 [6:33:59<11:51:26,  3.52it/s] 60%|█████▉    | 221229/371472 [6:33:59<12:02:03,  3.47it/s] 60%|█████▉    | 221230/371472 [6:34:00<11:53:23,  3.51it/s] 60%|█████▉    | 221231/371472 [6:34:00<11:31:02,  3.62it/s] 60%|█████▉    | 221232/371472 [6:34:00<11:43:20,  3.56it/s] 60%|█████▉    | 221233/371472 [6:34:01<11:50:08,  3.53it/s] 60%|█████▉    | 221234/371472 [6:34:01<12:15:45,  3.40it/s] 60%|█████▉    | 221235/371472 [6:34:01<12:01:45,  3.47it/s] 60%|█████▉    | 221236/371472 [6:34:01<12:16:26,  3.40it/s] 60%|█████▉    | 221237/371472 [6:34:02<11:35:18,  3.60it/s] 60%|█████▉    | 221238/371472 [6:34:02<11:23:04,  3.67it/s] 60%|█████▉    | 221239/371472 [6:34:02<11:09:25,  3.74it/s] 60%|█████▉    | 221240/371472 [6:34:02<11:05:59,  3.76it/s]                                                            {'loss': 2.7828, 'learning_rate': 4.641772070072615e-07, 'epoch': 9.53}
 60%|█████▉    | 221240/371472 [6:34:02<11:05:59,  3.76it/s] 60%|█████▉    | 221241/371472 [6:34:03<11:07:09,  3.75it/s] 60%|█████▉    | 221242/371472 [6:34:03<11:09:37,  3.74it/s] 60%|█████▉    | 221243/371472 [6:34:03<11:06:32,  3.76it/s] 60%|█████▉    | 221244/371472 [6:34:04<11:14:21,  3.71it/s] 60%|█████▉    | 221245/371472 [6:34:04<11:38:24,  3.58it/s] 60%|█████▉    | 221246/371472 [6:34:04<11:21:57,  3.67it/s] 60%|█████▉    | 221247/371472 [6:34:04<10:59:33,  3.80it/s] 60%|█████▉    | 221248/371472 [6:34:05<10:50:39,  3.85it/s] 60%|█████▉    | 221249/371472 [6:34:05<11:17:51,  3.69it/s] 60%|█████▉    | 221250/371472 [6:34:05<11:10:53,  3.73it/s] 60%|█████▉    | 221251/371472 [6:34:05<11:08:17,  3.75it/s] 60%|█████▉    | 221252/371472 [6:34:06<11:18:50,  3.69it/s] 60%|█████▉    | 221253/371472 [6:34:06<11:11:51,  3.73it/s] 60%|█████▉    | 221254/371472 [6:34:06<11:28:31,  3.64it/s] 60%|█████▉    | 221255/371472 [6:34:07<11:34:41,  3.60it/s] 60%|█████▉    | 221256/371472 [6:34:07<12:01:47,  3.47it/s] 60%|█████▉    | 221257/371472 [6:34:07<11:38:19,  3.59it/s] 60%|█████▉    | 221258/371472 [6:34:07<11:19:50,  3.68it/s] 60%|█████▉    | 221259/371472 [6:34:08<11:29:54,  3.63it/s] 60%|█████▉    | 221260/371472 [6:34:08<11:38:41,  3.58it/s]                                                            {'loss': 2.8558, 'learning_rate': 4.641287250317826e-07, 'epoch': 9.53}
 60%|█████▉    | 221260/371472 [6:34:08<11:38:41,  3.58it/s] 60%|█████▉    | 221261/371472 [6:34:08<11:42:51,  3.56it/s] 60%|█████▉    | 221262/371472 [6:34:08<11:12:06,  3.72it/s] 60%|█████▉    | 221263/371472 [6:34:09<11:14:39,  3.71it/s] 60%|█████▉    | 221264/371472 [6:34:09<11:03:07,  3.78it/s] 60%|█████▉    | 221265/371472 [6:34:09<10:55:01,  3.82it/s] 60%|█████▉    | 221266/371472 [6:34:10<11:51:45,  3.52it/s] 60%|█████▉    | 221267/371472 [6:34:10<13:40:15,  3.05it/s] 60%|█████▉    | 221268/371472 [6:34:10<13:25:55,  3.11it/s] 60%|█████▉    | 221269/371472 [6:34:11<13:22:21,  3.12it/s] 60%|█████▉    | 221270/371472 [6:34:11<14:28:14,  2.88it/s] 60%|█████▉    | 221271/371472 [6:34:11<13:17:00,  3.14it/s] 60%|█████▉    | 221272/371472 [6:34:12<12:41:39,  3.29it/s] 60%|█████▉    | 221273/371472 [6:34:12<12:38:28,  3.30it/s] 60%|█████▉    | 221274/371472 [6:34:12<12:19:45,  3.38it/s] 60%|█████▉    | 221275/371472 [6:34:12<12:18:46,  3.39it/s] 60%|█████▉    | 221276/371472 [6:34:13<12:34:09,  3.32it/s] 60%|█████▉    | 221277/371472 [6:34:13<12:03:07,  3.46it/s] 60%|█████▉    | 221278/371472 [6:34:13<11:50:33,  3.52it/s] 60%|█████▉    | 221279/371472 [6:34:14<11:31:49,  3.62it/s] 60%|█████▉    | 221280/371472 [6:34:14<11:22:52,  3.67it/s]                                                            {'loss': 3.0731, 'learning_rate': 4.6408024305630375e-07, 'epoch': 9.53}
 60%|█████▉    | 221280/371472 [6:34:14<11:22:52,  3.67it/s] 60%|█████▉    | 221281/371472 [6:34:14<11:19:54,  3.68it/s] 60%|█████▉    | 221282/371472 [6:34:14<11:08:55,  3.74it/s] 60%|█████▉    | 221283/371472 [6:34:15<11:49:06,  3.53it/s] 60%|█████▉    | 221284/371472 [6:34:15<11:37:15,  3.59it/s] 60%|█████▉    | 221285/371472 [6:34:15<11:21:12,  3.67it/s] 60%|█████▉    | 221286/371472 [6:34:15<11:28:51,  3.63it/s] 60%|█████▉    | 221287/371472 [6:34:16<11:35:29,  3.60it/s] 60%|█████▉    | 221288/371472 [6:34:16<11:39:40,  3.58it/s] 60%|█████▉    | 221289/371472 [6:34:16<11:28:21,  3.64it/s] 60%|█████▉    | 221290/371472 [6:34:17<11:31:12,  3.62it/s] 60%|█████▉    | 221291/371472 [6:34:17<11:45:23,  3.55it/s] 60%|█████▉    | 221292/371472 [6:34:17<11:18:40,  3.69it/s] 60%|█████▉    | 221293/371472 [6:34:17<11:05:23,  3.76it/s] 60%|█████▉    | 221294/371472 [6:34:18<10:57:26,  3.81it/s] 60%|█████▉    | 221295/371472 [6:34:18<11:01:22,  3.78it/s] 60%|█████▉    | 221296/371472 [6:34:18<11:58:12,  3.48it/s] 60%|█████▉    | 221297/371472 [6:34:19<11:45:30,  3.55it/s] 60%|█████▉    | 221298/371472 [6:34:19<11:44:50,  3.55it/s] 60%|█████▉    | 221299/371472 [6:34:19<11:34:00,  3.61it/s] 60%|█████▉    | 221300/371472 [6:34:19<11:40:29,  3.57it/s]                                                            {'loss': 2.9664, 'learning_rate': 4.6403176108082477e-07, 'epoch': 9.53}
 60%|█████▉    | 221300/371472 [6:34:19<11:40:29,  3.57it/s] 60%|█████▉    | 221301/371472 [6:34:20<11:33:06,  3.61it/s] 60%|█████▉    | 221302/371472 [6:34:20<11:09:15,  3.74it/s] 60%|█████▉    | 221303/371472 [6:34:20<11:26:24,  3.65it/s] 60%|█████▉    | 221304/371472 [6:34:20<11:07:02,  3.75it/s] 60%|█████▉    | 221305/371472 [6:34:21<11:18:33,  3.69it/s] 60%|█████▉    | 221306/371472 [6:34:21<11:10:22,  3.73it/s] 60%|█████▉    | 221307/371472 [6:34:21<11:33:08,  3.61it/s] 60%|█████▉    | 221308/371472 [6:34:22<11:31:49,  3.62it/s] 60%|█████▉    | 221309/371472 [6:34:22<12:29:18,  3.34it/s] 60%|█████▉    | 221310/371472 [6:34:22<11:57:34,  3.49it/s] 60%|█████▉    | 221311/371472 [6:34:22<12:00:28,  3.47it/s] 60%|█████▉    | 221312/371472 [6:34:23<13:09:48,  3.17it/s] 60%|█████▉    | 221313/371472 [6:34:23<12:47:50,  3.26it/s] 60%|█████▉    | 221314/371472 [6:34:23<12:26:57,  3.35it/s] 60%|█████▉    | 221315/371472 [6:34:24<11:45:31,  3.55it/s] 60%|█████▉    | 221316/371472 [6:34:24<12:00:53,  3.47it/s] 60%|█████▉    | 221317/371472 [6:34:24<12:23:44,  3.36it/s] 60%|█████▉    | 221318/371472 [6:34:25<12:08:30,  3.44it/s] 60%|█████▉    | 221319/371472 [6:34:25<11:48:09,  3.53it/s] 60%|█████▉    | 221320/371472 [6:34:25<12:20:15,  3.38it/s]                                                            {'loss': 2.8489, 'learning_rate': 4.6398327910534595e-07, 'epoch': 9.53}
 60%|█████▉    | 221320/371472 [6:34:25<12:20:15,  3.38it/s] 60%|█████▉    | 221321/371472 [6:34:25<12:14:48,  3.41it/s] 60%|█████▉    | 221322/371472 [6:34:26<11:54:26,  3.50it/s] 60%|█████▉    | 221323/371472 [6:34:26<11:58:44,  3.48it/s] 60%|█████▉    | 221324/371472 [6:34:26<12:45:30,  3.27it/s] 60%|█████▉    | 221325/371472 [6:34:27<12:36:46,  3.31it/s] 60%|█████▉    | 221326/371472 [6:34:27<12:23:55,  3.36it/s] 60%|█████▉    | 221327/371472 [6:34:27<12:02:34,  3.46it/s] 60%|█████▉    | 221328/371472 [6:34:27<11:43:15,  3.56it/s] 60%|█████▉    | 221329/371472 [6:34:28<11:38:49,  3.58it/s] 60%|█████▉    | 221330/371472 [6:34:28<11:30:56,  3.62it/s] 60%|█████▉    | 221331/371472 [6:34:28<11:41:04,  3.57it/s] 60%|█████▉    | 221332/371472 [6:34:28<11:23:12,  3.66it/s] 60%|█████▉    | 221333/371472 [6:34:29<11:13:47,  3.71it/s] 60%|█████▉    | 221334/371472 [6:34:29<11:28:08,  3.64it/s] 60%|█████▉    | 221335/371472 [6:34:29<11:29:58,  3.63it/s] 60%|█████▉    | 221336/371472 [6:34:30<11:41:30,  3.57it/s] 60%|█████▉    | 221337/371472 [6:34:30<12:29:04,  3.34it/s] 60%|█████▉    | 221338/371472 [6:34:30<11:50:43,  3.52it/s] 60%|█████▉    | 221339/371472 [6:34:30<11:53:34,  3.51it/s] 60%|█████▉    | 221340/371472 [6:34:31<12:27:16,  3.35it/s]                                                            {'loss': 2.909, 'learning_rate': 4.6393479712986697e-07, 'epoch': 9.53}
 60%|█████▉    | 221340/371472 [6:34:31<12:27:16,  3.35it/s] 60%|█████▉    | 221341/371472 [6:34:31<12:13:02,  3.41it/s] 60%|█████▉    | 221342/371472 [6:34:31<12:14:25,  3.41it/s] 60%|█████▉    | 221343/371472 [6:34:32<11:52:43,  3.51it/s] 60%|█████▉    | 221344/371472 [6:34:32<11:55:02,  3.50it/s] 60%|█████▉    | 221345/371472 [6:34:32<11:59:36,  3.48it/s] 60%|█████▉    | 221346/371472 [6:34:33<11:54:55,  3.50it/s] 60%|█████▉    | 221347/371472 [6:34:33<12:04:53,  3.45it/s] 60%|█████▉    | 221348/371472 [6:34:33<12:07:30,  3.44it/s] 60%|█████▉    | 221349/371472 [6:34:33<12:10:41,  3.42it/s] 60%|█████▉    | 221350/371472 [6:34:34<12:04:20,  3.45it/s] 60%|█████▉    | 221351/371472 [6:34:34<12:02:44,  3.46it/s] 60%|█████▉    | 221352/371472 [6:34:34<11:59:33,  3.48it/s] 60%|█████▉    | 221353/371472 [6:34:35<11:46:08,  3.54it/s] 60%|█████▉    | 221354/371472 [6:34:35<11:41:53,  3.56it/s] 60%|█████▉    | 221355/371472 [6:34:35<12:08:25,  3.43it/s] 60%|█████▉    | 221356/371472 [6:34:35<11:39:27,  3.58it/s] 60%|█████▉    | 221357/371472 [6:34:36<11:48:56,  3.53it/s] 60%|█████▉    | 221358/371472 [6:34:36<11:52:36,  3.51it/s] 60%|█████▉    | 221359/371472 [6:34:36<11:27:27,  3.64it/s] 60%|█████▉    | 221360/371472 [6:34:36<11:14:30,  3.71it/s]                                                            {'loss': 2.8031, 'learning_rate': 4.6388631515438815e-07, 'epoch': 9.53}
 60%|█████▉    | 221360/371472 [6:34:36<11:14:30,  3.71it/s] 60%|█████▉    | 221361/371472 [6:34:37<11:39:41,  3.58it/s] 60%|█████▉    | 221362/371472 [6:34:37<11:20:30,  3.68it/s] 60%|█████▉    | 221363/371472 [6:34:37<11:15:39,  3.70it/s] 60%|█████▉    | 221364/371472 [6:34:38<11:35:53,  3.60it/s] 60%|█████▉    | 221365/371472 [6:34:38<11:35:07,  3.60it/s] 60%|█████▉    | 221366/371472 [6:34:38<11:32:18,  3.61it/s] 60%|█████▉    | 221367/371472 [6:34:38<11:46:41,  3.54it/s] 60%|█████▉    | 221368/371472 [6:34:39<12:01:44,  3.47it/s] 60%|█████▉    | 221369/371472 [6:34:39<11:46:32,  3.54it/s] 60%|█████▉    | 221370/371472 [6:34:39<12:16:08,  3.40it/s] 60%|█████▉    | 221371/371472 [6:34:40<11:55:13,  3.50it/s] 60%|█████▉    | 221372/371472 [6:34:40<12:03:56,  3.46it/s] 60%|█████▉    | 221373/371472 [6:34:40<11:49:37,  3.53it/s] 60%|█████▉    | 221374/371472 [6:34:40<11:36:35,  3.59it/s] 60%|█████▉    | 221375/371472 [6:34:41<11:35:35,  3.60it/s] 60%|█████▉    | 221376/371472 [6:34:41<11:31:15,  3.62it/s] 60%|█████▉    | 221377/371472 [6:34:41<11:46:26,  3.54it/s] 60%|█████▉    | 221378/371472 [6:34:42<11:27:50,  3.64it/s] 60%|█████▉    | 221379/371472 [6:34:42<11:51:05,  3.52it/s] 60%|█████▉    | 221380/371472 [6:34:42<12:54:02,  3.23it/s]                                                            {'loss': 3.0169, 'learning_rate': 4.638378331789092e-07, 'epoch': 9.54}
 60%|█████▉    | 221380/371472 [6:34:42<12:54:02,  3.23it/s] 60%|█████▉    | 221381/371472 [6:34:42<12:25:47,  3.35it/s] 60%|█████▉    | 221382/371472 [6:34:43<12:12:38,  3.41it/s] 60%|█████▉    | 221383/371472 [6:34:43<11:38:14,  3.58it/s] 60%|█████▉    | 221384/371472 [6:34:43<11:48:04,  3.53it/s] 60%|█████▉    | 221385/371472 [6:34:44<11:37:28,  3.59it/s] 60%|█████▉    | 221386/371472 [6:34:44<11:48:06,  3.53it/s] 60%|█████▉    | 221387/371472 [6:34:44<11:57:13,  3.49it/s] 60%|█████▉    | 221388/371472 [6:34:44<12:26:37,  3.35it/s] 60%|█████▉    | 221389/371472 [6:34:45<12:29:44,  3.34it/s] 60%|█████▉    | 221390/371472 [6:34:45<11:56:05,  3.49it/s] 60%|█████▉    | 221391/371472 [6:34:45<12:17:48,  3.39it/s] 60%|█████▉    | 221392/371472 [6:34:46<12:15:24,  3.40it/s] 60%|█████▉    | 221393/371472 [6:34:46<11:54:53,  3.50it/s] 60%|█████▉    | 221394/371472 [6:34:46<12:38:43,  3.30it/s] 60%|█████▉    | 221395/371472 [6:34:47<12:37:40,  3.30it/s] 60%|█████▉    | 221396/371472 [6:34:47<12:40:06,  3.29it/s] 60%|█████▉    | 221397/371472 [6:34:47<12:12:59,  3.41it/s] 60%|█████▉    | 221398/371472 [6:34:47<11:51:41,  3.51it/s] 60%|█████▉    | 221399/371472 [6:34:48<11:26:22,  3.64it/s] 60%|█████▉    | 221400/371472 [6:34:48<11:08:04,  3.74it/s]                                                            {'loss': 2.8775, 'learning_rate': 4.637893512034304e-07, 'epoch': 9.54}
 60%|█████▉    | 221400/371472 [6:34:48<11:08:04,  3.74it/s] 60%|█████▉    | 221401/371472 [6:34:48<11:12:23,  3.72it/s] 60%|█████▉    | 221402/371472 [6:34:48<11:02:30,  3.78it/s] 60%|█████▉    | 221403/371472 [6:34:49<13:03:13,  3.19it/s] 60%|█████▉    | 221404/371472 [6:34:49<12:43:20,  3.28it/s] 60%|█████▉    | 221405/371472 [6:34:49<13:09:43,  3.17it/s] 60%|█████▉    | 221406/371472 [6:34:50<12:19:11,  3.38it/s] 60%|█████▉    | 221407/371472 [6:34:50<12:05:35,  3.45it/s] 60%|█████▉    | 221408/371472 [6:34:50<11:41:18,  3.57it/s] 60%|█████▉    | 221409/371472 [6:34:51<11:35:25,  3.60it/s] 60%|█████▉    | 221410/371472 [6:34:51<11:21:41,  3.67it/s] 60%|█████▉    | 221411/371472 [6:34:51<11:27:06,  3.64it/s] 60%|█████▉    | 221412/371472 [6:34:51<11:09:46,  3.73it/s] 60%|█████▉    | 221413/371472 [6:34:52<11:38:00,  3.58it/s] 60%|█████▉    | 221414/371472 [6:34:52<12:21:26,  3.37it/s] 60%|█████▉    | 221415/371472 [6:34:52<12:16:15,  3.40it/s] 60%|█████▉    | 221416/371472 [6:34:53<11:41:35,  3.56it/s] 60%|█████▉    | 221417/371472 [6:34:53<11:21:50,  3.67it/s] 60%|█████▉    | 221418/371472 [6:34:53<11:27:59,  3.64it/s] 60%|█████▉    | 221419/371472 [6:34:53<11:25:42,  3.65it/s] 60%|█████▉    | 221420/371472 [6:34:54<13:20:17,  3.12it/s]                                                            {'loss': 2.8983, 'learning_rate': 4.637408692279514e-07, 'epoch': 9.54}
 60%|█████▉    | 221420/371472 [6:34:54<13:20:17,  3.12it/s] 60%|█████▉    | 221421/371472 [6:34:54<12:44:21,  3.27it/s] 60%|█████▉    | 221422/371472 [6:34:54<13:12:13,  3.16it/s] 60%|█████▉    | 221423/371472 [6:34:55<12:35:03,  3.31it/s] 60%|█████▉    | 221424/371472 [6:34:55<12:09:03,  3.43it/s] 60%|█████▉    | 221425/371472 [6:34:55<12:29:56,  3.33it/s] 60%|█████▉    | 221426/371472 [6:34:55<12:04:01,  3.45it/s] 60%|█████▉    | 221427/371472 [6:34:56<12:43:10,  3.28it/s] 60%|█████▉    | 221428/371472 [6:34:56<13:21:40,  3.12it/s] 60%|█████▉    | 221429/371472 [6:34:56<12:29:41,  3.34it/s] 60%|█████▉    | 221430/371472 [6:34:57<12:03:47,  3.45it/s] 60%|█████▉    | 221431/371472 [6:34:57<11:50:47,  3.52it/s] 60%|█████▉    | 221432/371472 [6:34:57<11:28:39,  3.63it/s] 60%|█████▉    | 221433/371472 [6:34:57<11:27:30,  3.64it/s] 60%|█████▉    | 221434/371472 [6:34:58<11:31:59,  3.61it/s] 60%|█████▉    | 221435/371472 [6:34:58<11:56:25,  3.49it/s] 60%|█████▉    | 221436/371472 [6:34:58<11:24:30,  3.65it/s] 60%|█████▉    | 221437/371472 [6:34:59<11:20:51,  3.67it/s] 60%|█████▉    | 221438/371472 [6:34:59<11:19:00,  3.68it/s] 60%|█████▉    | 221439/371472 [6:34:59<11:38:21,  3.58it/s] 60%|█████▉    | 221440/371472 [6:34:59<11:44:49,  3.55it/s]                                                            {'loss': 2.7941, 'learning_rate': 4.636923872524726e-07, 'epoch': 9.54}
 60%|█████▉    | 221440/371472 [6:34:59<11:44:49,  3.55it/s] 60%|█████▉    | 221441/371472 [6:35:00<11:47:04,  3.54it/s] 60%|█████▉    | 221442/371472 [6:35:00<11:31:17,  3.62it/s] 60%|█████▉    | 221443/371472 [6:35:00<11:14:33,  3.71it/s] 60%|█████▉    | 221444/371472 [6:35:01<11:54:57,  3.50it/s] 60%|█████▉    | 221445/371472 [6:35:01<12:56:14,  3.22it/s] 60%|█████▉    | 221446/371472 [6:35:01<12:30:00,  3.33it/s] 60%|█████▉    | 221447/371472 [6:35:02<12:29:30,  3.34it/s] 60%|█████▉    | 221448/371472 [6:35:02<12:00:19,  3.47it/s] 60%|█████▉    | 221449/371472 [6:35:02<11:58:18,  3.48it/s] 60%|█████▉    | 221450/371472 [6:35:02<11:43:00,  3.56it/s] 60%|█████▉    | 221451/371472 [6:35:03<11:30:56,  3.62it/s] 60%|█████▉    | 221452/371472 [6:35:03<11:26:15,  3.64it/s] 60%|█████▉    | 221453/371472 [6:35:03<12:00:47,  3.47it/s] 60%|█████▉    | 221454/371472 [6:35:03<12:19:48,  3.38it/s] 60%|█████▉    | 221455/371472 [6:35:04<11:48:44,  3.53it/s] 60%|█████▉    | 221456/371472 [6:35:04<11:39:06,  3.58it/s] 60%|█████▉    | 221457/371472 [6:35:04<11:38:14,  3.58it/s] 60%|█████▉    | 221458/371472 [6:35:05<11:40:48,  3.57it/s] 60%|█████▉    | 221459/371472 [6:35:05<11:34:59,  3.60it/s] 60%|█████▉    | 221460/371472 [6:35:05<11:44:11,  3.55it/s]                                                            {'loss': 3.0136, 'learning_rate': 4.6364390527699366e-07, 'epoch': 9.54}
 60%|█████▉    | 221460/371472 [6:35:05<11:44:11,  3.55it/s] 60%|█████▉    | 221461/371472 [6:35:05<11:19:35,  3.68it/s] 60%|█████▉    | 221462/371472 [6:35:06<11:51:07,  3.52it/s] 60%|█████▉    | 221463/371472 [6:35:06<12:17:36,  3.39it/s] 60%|█████▉    | 221464/371472 [6:35:06<13:08:53,  3.17it/s] 60%|█████▉    | 221465/371472 [6:35:07<12:35:56,  3.31it/s] 60%|█████▉    | 221466/371472 [6:35:07<12:15:47,  3.40it/s] 60%|█████▉    | 221467/371472 [6:35:07<11:35:50,  3.59it/s] 60%|█████▉    | 221468/371472 [6:35:07<11:28:22,  3.63it/s] 60%|█████▉    | 221469/371472 [6:35:08<11:19:18,  3.68it/s] 60%|█████▉    | 221470/371472 [6:35:08<12:40:31,  3.29it/s] 60%|█████▉    | 221471/371472 [6:35:08<12:19:24,  3.38it/s] 60%|█████▉    | 221472/371472 [6:35:09<12:03:09,  3.46it/s] 60%|█████▉    | 221473/371472 [6:35:09<11:47:25,  3.53it/s] 60%|█████▉    | 221474/371472 [6:35:09<11:21:11,  3.67it/s] 60%|█████▉    | 221475/371472 [6:35:09<11:36:36,  3.59it/s] 60%|█████▉    | 221476/371472 [6:35:10<11:52:34,  3.51it/s] 60%|█████▉    | 221477/371472 [6:35:10<11:48:49,  3.53it/s] 60%|█████▉    | 221478/371472 [6:35:10<11:56:10,  3.49it/s] 60%|█████▉    | 221479/371472 [6:35:11<11:43:25,  3.55it/s] 60%|█████▉    | 221480/371472 [6:35:11<12:29:37,  3.33it/s]                                                            {'loss': 2.8879, 'learning_rate': 4.635954233015148e-07, 'epoch': 9.54}
 60%|█████▉    | 221480/371472 [6:35:11<12:29:37,  3.33it/s] 60%|█████▉    | 221481/371472 [6:35:11<12:21:21,  3.37it/s] 60%|█████▉    | 221482/371472 [6:35:12<12:07:56,  3.43it/s] 60%|█████▉    | 221483/371472 [6:35:12<11:56:49,  3.49it/s] 60%|█████▉    | 221484/371472 [6:35:12<11:51:11,  3.51it/s] 60%|█████▉    | 221485/371472 [6:35:12<12:09:59,  3.42it/s] 60%|█████▉    | 221486/371472 [6:35:13<11:45:45,  3.54it/s] 60%|█████▉    | 221487/371472 [6:35:13<11:54:48,  3.50it/s] 60%|█████▉    | 221488/371472 [6:35:13<12:27:21,  3.34it/s] 60%|█████▉    | 221489/371472 [6:35:14<12:30:50,  3.33it/s] 60%|█████▉    | 221490/371472 [6:35:14<12:05:25,  3.45it/s] 60%|█████▉    | 221491/371472 [6:35:14<12:19:14,  3.38it/s] 60%|█████▉    | 221492/371472 [6:35:14<12:59:31,  3.21it/s] 60%|█████▉    | 221493/371472 [6:35:15<12:38:35,  3.30it/s] 60%|█████▉    | 221494/371472 [6:35:15<12:17:33,  3.39it/s] 60%|█████▉    | 221495/371472 [6:35:15<11:45:14,  3.54it/s] 60%|█████▉    | 221496/371472 [6:35:16<11:16:50,  3.69it/s] 60%|█████▉    | 221497/371472 [6:35:16<10:58:35,  3.80it/s] 60%|█████▉    | 221498/371472 [6:35:16<10:52:33,  3.83it/s] 60%|█████▉    | 221499/371472 [6:35:16<11:02:50,  3.77it/s] 60%|█████▉    | 221500/371472 [6:35:17<11:07:30,  3.74it/s]                                                            {'loss': 2.8033, 'learning_rate': 4.6354694132603586e-07, 'epoch': 9.54}
 60%|█████▉    | 221500/371472 [6:35:17<11:07:30,  3.74it/s] 60%|█████▉    | 221501/371472 [6:35:17<11:18:59,  3.68it/s] 60%|█████▉    | 221502/371472 [6:35:17<11:42:03,  3.56it/s] 60%|█████▉    | 221503/371472 [6:35:17<11:32:59,  3.61it/s] 60%|█████▉    | 221504/371472 [6:35:18<11:24:30,  3.65it/s] 60%|█████▉    | 221505/371472 [6:35:18<11:52:55,  3.51it/s] 60%|█████▉    | 221506/371472 [6:35:18<11:39:51,  3.57it/s] 60%|█████▉    | 221507/371472 [6:35:19<11:26:36,  3.64it/s] 60%|█████▉    | 221508/371472 [6:35:19<10:55:27,  3.81it/s] 60%|█████▉    | 221509/371472 [6:35:19<11:16:44,  3.69it/s] 60%|█████▉    | 221510/371472 [6:35:19<11:47:33,  3.53it/s] 60%|█████▉    | 221511/371472 [6:35:20<12:03:52,  3.45it/s] 60%|█████▉    | 221512/371472 [6:35:20<11:54:04,  3.50it/s] 60%|█████▉    | 221513/371472 [6:35:20<11:53:56,  3.50it/s] 60%|█████▉    | 221514/371472 [6:35:21<12:03:59,  3.45it/s] 60%|█████▉    | 221515/371472 [6:35:21<12:16:18,  3.39it/s] 60%|█████▉    | 221516/371472 [6:35:21<13:20:20,  3.12it/s] 60%|█████▉    | 221517/371472 [6:35:22<13:03:39,  3.19it/s] 60%|█████▉    | 221518/371472 [6:35:22<12:55:43,  3.22it/s] 60%|█████▉    | 221519/371472 [6:35:22<12:33:36,  3.32it/s] 60%|█████▉    | 221520/371472 [6:35:22<12:03:49,  3.45it/s]                                                            {'loss': 2.8142, 'learning_rate': 4.6349845935055704e-07, 'epoch': 9.54}
 60%|█████▉    | 221520/371472 [6:35:22<12:03:49,  3.45it/s] 60%|█████▉    | 221521/371472 [6:35:23<12:07:22,  3.44it/s] 60%|█████▉    | 221522/371472 [6:35:23<11:42:01,  3.56it/s] 60%|█████▉    | 221523/371472 [6:35:23<11:45:08,  3.54it/s] 60%|█████▉    | 221524/371472 [6:35:24<12:17:42,  3.39it/s] 60%|█████▉    | 221525/371472 [6:35:24<12:04:59,  3.45it/s] 60%|█████▉    | 221526/371472 [6:35:24<12:11:05,  3.42it/s] 60%|█████▉    | 221527/371472 [6:35:24<12:03:15,  3.46it/s] 60%|█████▉    | 221528/371472 [6:35:25<13:01:09,  3.20it/s] 60%|█████▉    | 221529/371472 [6:35:25<13:07:06,  3.17it/s] 60%|█████▉    | 221530/371472 [6:35:25<12:25:28,  3.35it/s] 60%|█████▉    | 221531/371472 [6:35:26<12:25:44,  3.35it/s] 60%|█████▉    | 221532/371472 [6:35:26<12:19:57,  3.38it/s] 60%|█████▉    | 221533/371472 [6:35:26<11:50:30,  3.52it/s] 60%|█████▉    | 221534/371472 [6:35:27<12:42:58,  3.28it/s] 60%|█████▉    | 221535/371472 [6:35:27<12:55:14,  3.22it/s] 60%|█████▉    | 221536/371472 [6:35:27<12:12:59,  3.41it/s] 60%|█████▉    | 221537/371472 [6:35:27<11:49:02,  3.52it/s] 60%|█████▉    | 221538/371472 [6:35:28<11:44:14,  3.55it/s] 60%|█████▉    | 221539/371472 [6:35:28<13:20:47,  3.12it/s] 60%|█████▉    | 221540/371472 [6:35:28<12:36:55,  3.30it/s]                                                            {'loss': 2.7797, 'learning_rate': 4.634499773750781e-07, 'epoch': 9.54}
 60%|█████▉    | 221540/371472 [6:35:28<12:36:55,  3.30it/s] 60%|█████▉    | 221541/371472 [6:35:29<11:53:53,  3.50it/s] 60%|█████▉    | 221542/371472 [6:35:29<11:36:53,  3.59it/s] 60%|█████▉    | 221543/371472 [6:35:29<11:22:35,  3.66it/s] 60%|█████▉    | 221544/371472 [6:35:29<11:02:58,  3.77it/s] 60%|█████▉    | 221545/371472 [6:35:30<11:21:18,  3.67it/s] 60%|█████▉    | 221546/371472 [6:35:30<11:27:23,  3.64it/s] 60%|█████▉    | 221547/371472 [6:35:30<11:52:06,  3.51it/s] 60%|█████▉    | 221548/371472 [6:35:30<11:34:50,  3.60it/s] 60%|█████▉    | 221549/371472 [6:35:31<11:25:39,  3.64it/s] 60%|█████▉    | 221550/371472 [6:35:31<10:58:35,  3.79it/s] 60%|█████▉    | 221551/371472 [6:35:31<11:04:05,  3.76it/s] 60%|█████▉    | 221552/371472 [6:35:32<11:09:14,  3.73it/s] 60%|█████▉    | 221553/371472 [6:35:32<10:54:38,  3.82it/s] 60%|█████▉    | 221554/371472 [6:35:32<11:17:58,  3.69it/s] 60%|█████▉    | 221555/371472 [6:35:32<11:57:32,  3.48it/s] 60%|█████▉    | 221556/371472 [6:35:33<11:53:15,  3.50it/s] 60%|█████▉    | 221557/371472 [6:35:33<13:59:13,  2.98it/s] 60%|█████▉    | 221558/371472 [6:35:33<12:53:48,  3.23it/s] 60%|█████▉    | 221559/371472 [6:35:34<12:12:51,  3.41it/s] 60%|█████▉    | 221560/371472 [6:35:34<11:41:58,  3.56it/s]                                                            {'loss': 3.0666, 'learning_rate': 4.6340149539959923e-07, 'epoch': 9.54}
 60%|█████▉    | 221560/371472 [6:35:34<11:41:58,  3.56it/s] 60%|█████▉    | 221561/371472 [6:35:34<12:27:31,  3.34it/s] 60%|█████▉    | 221562/371472 [6:35:34<11:57:28,  3.48it/s] 60%|█████▉    | 221563/371472 [6:35:35<12:43:52,  3.27it/s] 60%|█████▉    | 221564/371472 [6:35:35<13:50:05,  3.01it/s] 60%|█████▉    | 221565/371472 [6:35:35<12:43:35,  3.27it/s] 60%|█████▉    | 221566/371472 [6:35:36<12:13:33,  3.41it/s] 60%|█████▉    | 221567/371472 [6:35:36<11:53:06,  3.50it/s] 60%|█████▉    | 221568/371472 [6:35:36<11:44:29,  3.55it/s] 60%|█████▉    | 221569/371472 [6:35:37<11:51:33,  3.51it/s] 60%|█████▉    | 221570/371472 [6:35:37<11:36:58,  3.58it/s] 60%|█████▉    | 221571/371472 [6:35:37<11:28:09,  3.63it/s] 60%|█████▉    | 221572/371472 [6:35:37<12:29:52,  3.33it/s] 60%|█████▉    | 221573/371472 [6:35:38<12:58:06,  3.21it/s] 60%|█████▉    | 221574/371472 [6:35:38<12:32:17,  3.32it/s] 60%|█████▉    | 221575/371472 [6:35:38<12:10:54,  3.42it/s] 60%|█████▉    | 221576/371472 [6:35:39<11:49:11,  3.52it/s] 60%|█████▉    | 221577/371472 [6:35:39<11:42:43,  3.56it/s] 60%|█████▉    | 221578/371472 [6:35:39<12:04:00,  3.45it/s] 60%|█████▉    | 221579/371472 [6:35:39<11:48:35,  3.53it/s] 60%|█████▉    | 221580/371472 [6:35:40<11:49:35,  3.52it/s]                                                            {'loss': 2.8865, 'learning_rate': 4.633530134241203e-07, 'epoch': 9.54}
 60%|█████▉    | 221580/371472 [6:35:40<11:49:35,  3.52it/s] 60%|█████▉    | 221581/371472 [6:35:40<12:11:49,  3.41it/s] 60%|█████▉    | 221582/371472 [6:35:40<12:54:36,  3.23it/s] 60%|█████▉    | 221583/371472 [6:35:41<13:16:59,  3.13it/s] 60%|█████▉    | 221584/371472 [6:35:41<12:54:06,  3.23it/s] 60%|█████▉    | 221585/371472 [6:35:41<13:36:07,  3.06it/s] 60%|█████▉    | 221586/371472 [6:35:42<13:06:08,  3.18it/s] 60%|█████▉    | 221587/371472 [6:35:42<12:48:39,  3.25it/s] 60%|█████▉    | 221588/371472 [6:35:42<13:52:03,  3.00it/s] 60%|█████▉    | 221589/371472 [6:35:43<13:00:20,  3.20it/s] 60%|█████▉    | 221590/371472 [6:35:43<13:50:52,  3.01it/s] 60%|█████▉    | 221591/371472 [6:35:43<14:18:15,  2.91it/s] 60%|█████▉    | 221592/371472 [6:35:44<13:07:29,  3.17it/s] 60%|█████▉    | 221593/371472 [6:35:44<12:57:36,  3.21it/s] 60%|█████▉    | 221594/371472 [6:35:44<12:32:16,  3.32it/s] 60%|█████▉    | 221595/371472 [6:35:45<12:09:09,  3.43it/s] 60%|█████▉    | 221596/371472 [6:35:45<12:08:00,  3.43it/s] 60%|█████▉    | 221597/371472 [6:35:45<12:34:47,  3.31it/s] 60%|█████▉    | 221598/371472 [6:35:45<12:15:05,  3.40it/s] 60%|█████▉    | 221599/371472 [6:35:46<11:49:05,  3.52it/s] 60%|█████▉    | 221600/371472 [6:35:46<11:40:40,  3.56it/s]                                                            {'loss': 2.7984, 'learning_rate': 4.633045314486415e-07, 'epoch': 9.54}
 60%|█████▉    | 221600/371472 [6:35:46<11:40:40,  3.56it/s] 60%|█████▉    | 221601/371472 [6:35:46<11:28:27,  3.63it/s] 60%|█████▉    | 221602/371472 [6:35:46<11:16:47,  3.69it/s] 60%|█████▉    | 221603/371472 [6:35:47<11:37:49,  3.58it/s] 60%|█████▉    | 221604/371472 [6:35:47<11:46:27,  3.54it/s] 60%|█████▉    | 221605/371472 [6:35:47<11:29:15,  3.62it/s] 60%|█████▉    | 221606/371472 [6:35:48<11:27:23,  3.63it/s] 60%|█████▉    | 221607/371472 [6:35:48<11:19:59,  3.67it/s] 60%|█████▉    | 221608/371472 [6:35:48<10:59:28,  3.79it/s] 60%|█████▉    | 221609/371472 [6:35:48<11:00:56,  3.78it/s] 60%|█████▉    | 221610/371472 [6:35:49<11:36:13,  3.59it/s] 60%|█████▉    | 221611/371472 [6:35:49<11:21:05,  3.67it/s] 60%|█████▉    | 221612/371472 [6:35:49<11:42:10,  3.56it/s] 60%|█████▉    | 221613/371472 [6:35:49<11:40:20,  3.57it/s] 60%|█████▉    | 221614/371472 [6:35:50<12:05:14,  3.44it/s] 60%|█████▉    | 221615/371472 [6:35:50<11:29:37,  3.62it/s] 60%|█████▉    | 221616/371472 [6:35:50<11:57:41,  3.48it/s] 60%|█████▉    | 221617/371472 [6:35:51<11:27:08,  3.63it/s] 60%|█████▉    | 221618/371472 [6:35:51<11:42:02,  3.56it/s] 60%|█████▉    | 221619/371472 [6:35:51<11:40:42,  3.56it/s] 60%|█████▉    | 221620/371472 [6:35:51<11:37:13,  3.58it/s]                                                            {'loss': 2.9953, 'learning_rate': 4.632560494731625e-07, 'epoch': 9.55}
 60%|█████▉    | 221620/371472 [6:35:51<11:37:13,  3.58it/s] 60%|█████▉    | 221621/371472 [6:35:52<11:13:24,  3.71it/s] 60%|█████▉    | 221622/371472 [6:35:52<12:00:21,  3.47it/s] 60%|█████▉    | 221623/371472 [6:35:52<11:34:16,  3.60it/s] 60%|█████▉    | 221624/371472 [6:35:53<12:00:42,  3.47it/s] 60%|█████▉    | 221625/371472 [6:35:53<11:40:11,  3.57it/s] 60%|█████▉    | 221626/371472 [6:35:53<11:18:51,  3.68it/s] 60%|█████▉    | 221627/371472 [6:35:53<11:15:38,  3.70it/s] 60%|█████▉    | 221628/371472 [6:35:54<11:19:27,  3.68it/s] 60%|█████▉    | 221629/371472 [6:35:54<11:11:42,  3.72it/s] 60%|█████▉    | 221630/371472 [6:35:54<11:05:43,  3.75it/s] 60%|█████▉    | 221631/371472 [6:35:54<10:40:33,  3.90it/s] 60%|█████▉    | 221632/371472 [6:35:55<10:43:46,  3.88it/s] 60%|█████▉    | 221633/371472 [6:35:55<10:52:37,  3.83it/s] 60%|█████▉    | 221634/371472 [6:35:55<11:14:06,  3.70it/s] 60%|█████▉    | 221635/371472 [6:35:56<11:49:03,  3.52it/s] 60%|█████▉    | 221636/371472 [6:35:56<11:30:43,  3.62it/s] 60%|█████▉    | 221637/371472 [6:35:56<11:25:44,  3.64it/s] 60%|█████▉    | 221638/371472 [6:35:56<11:00:55,  3.78it/s] 60%|█████▉    | 221639/371472 [6:35:57<11:00:30,  3.78it/s] 60%|█████▉    | 221640/371472 [6:35:57<11:10:07,  3.73it/s]                                                            {'loss': 2.9664, 'learning_rate': 4.6320756749768357e-07, 'epoch': 9.55}
 60%|█████▉    | 221640/371472 [6:35:57<11:10:07,  3.73it/s] 60%|█████▉    | 221641/371472 [6:35:57<10:57:56,  3.80it/s] 60%|█████▉    | 221642/371472 [6:35:57<11:28:17,  3.63it/s] 60%|█████▉    | 221643/371472 [6:35:58<11:18:12,  3.68it/s] 60%|█████▉    | 221644/371472 [6:35:58<11:14:15,  3.70it/s] 60%|█████▉    | 221645/371472 [6:35:58<11:14:05,  3.70it/s] 60%|█████▉    | 221646/371472 [6:35:59<11:30:38,  3.62it/s] 60%|█████▉    | 221647/371472 [6:35:59<11:40:16,  3.57it/s] 60%|█████▉    | 221648/371472 [6:35:59<11:24:36,  3.65it/s] 60%|█████▉    | 221649/371472 [6:35:59<11:25:43,  3.64it/s] 60%|█████▉    | 221650/371472 [6:36:00<11:09:15,  3.73it/s] 60%|█████▉    | 221651/371472 [6:36:00<11:31:42,  3.61it/s] 60%|█████▉    | 221652/371472 [6:36:00<11:27:35,  3.63it/s] 60%|█████▉    | 221653/371472 [6:36:01<12:54:07,  3.23it/s] 60%|█████▉    | 221654/371472 [6:36:01<12:48:46,  3.25it/s] 60%|█████▉    | 221655/371472 [6:36:01<12:15:05,  3.40it/s] 60%|█████▉    | 221656/371472 [6:36:01<11:44:55,  3.54it/s] 60%|█████▉    | 221657/371472 [6:36:02<11:18:38,  3.68it/s] 60%|█████▉    | 221658/371472 [6:36:02<11:42:14,  3.56it/s] 60%|█████▉    | 221659/371472 [6:36:02<11:10:30,  3.72it/s] 60%|█████▉    | 221660/371472 [6:36:02<10:59:15,  3.79it/s]                                                            {'loss': 3.1044, 'learning_rate': 4.6315908552220475e-07, 'epoch': 9.55}
 60%|█████▉    | 221660/371472 [6:36:02<10:59:15,  3.79it/s] 60%|█████▉    | 221661/371472 [6:36:03<11:36:34,  3.58it/s] 60%|█████▉    | 221662/371472 [6:36:03<11:17:27,  3.69it/s] 60%|█████▉    | 221663/371472 [6:36:03<11:26:05,  3.64it/s] 60%|█████▉    | 221664/371472 [6:36:04<11:53:24,  3.50it/s] 60%|█████▉    | 221665/371472 [6:36:04<11:31:05,  3.61it/s] 60%|█████▉    | 221666/371472 [6:36:04<11:57:04,  3.48it/s] 60%|█████▉    | 221667/371472 [6:36:04<11:40:11,  3.57it/s] 60%|█████▉    | 221668/371472 [6:36:05<11:53:37,  3.50it/s] 60%|█████▉    | 221669/371472 [6:36:05<11:36:33,  3.58it/s] 60%|█████▉    | 221670/371472 [6:36:05<11:31:49,  3.61it/s] 60%|█████▉    | 221671/371472 [6:36:06<11:28:20,  3.63it/s] 60%|█████▉    | 221672/371472 [6:36:06<11:56:51,  3.48it/s] 60%|█████▉    | 221673/371472 [6:36:06<12:26:15,  3.35it/s] 60%|█████▉    | 221674/371472 [6:36:07<13:10:09,  3.16it/s] 60%|█████▉    | 221675/371472 [6:36:07<13:02:35,  3.19it/s] 60%|█████▉    | 221676/371472 [6:36:07<12:44:41,  3.26it/s] 60%|█████▉    | 221677/371472 [6:36:07<12:05:56,  3.44it/s] 60%|█████▉    | 221678/371472 [6:36:08<11:56:00,  3.49it/s] 60%|█████▉    | 221679/371472 [6:36:08<11:48:36,  3.52it/s] 60%|█████▉    | 221680/371472 [6:36:08<11:28:28,  3.63it/s]                                                            {'loss': 3.0345, 'learning_rate': 4.6311060354672577e-07, 'epoch': 9.55}
 60%|█████▉    | 221680/371472 [6:36:08<11:28:28,  3.63it/s] 60%|█████▉    | 221681/371472 [6:36:08<11:39:09,  3.57it/s] 60%|█████▉    | 221682/371472 [6:36:09<11:27:00,  3.63it/s] 60%|█████▉    | 221683/371472 [6:36:09<12:18:16,  3.38it/s] 60%|█████▉    | 221684/371472 [6:36:09<13:13:11,  3.15it/s] 60%|█████▉    | 221685/371472 [6:36:10<12:31:03,  3.32it/s] 60%|█████▉    | 221686/371472 [6:36:10<12:14:01,  3.40it/s] 60%|█████▉    | 221687/371472 [6:36:10<11:46:10,  3.54it/s] 60%|█████▉    | 221688/371472 [6:36:11<13:23:32,  3.11it/s] 60%|█████▉    | 221689/371472 [6:36:11<12:37:56,  3.29it/s] 60%|█████▉    | 221690/371472 [6:36:11<12:23:43,  3.36it/s] 60%|█████▉    | 221691/371472 [6:36:11<12:14:07,  3.40it/s] 60%|█████▉    | 221692/371472 [6:36:12<12:10:38,  3.42it/s] 60%|█████▉    | 221693/371472 [6:36:12<11:51:26,  3.51it/s] 60%|█████▉    | 221694/371472 [6:36:12<11:39:55,  3.57it/s] 60%|█████▉    | 221695/371472 [6:36:13<11:07:30,  3.74it/s] 60%|█████▉    | 221696/371472 [6:36:13<11:29:11,  3.62it/s] 60%|█████▉    | 221697/371472 [6:36:13<11:20:41,  3.67it/s] 60%|█████▉    | 221698/371472 [6:36:13<11:14:57,  3.70it/s] 60%|█████▉    | 221699/371472 [6:36:14<11:26:06,  3.64it/s] 60%|█████▉    | 221700/371472 [6:36:14<12:04:03,  3.45it/s]                                                            {'loss': 2.9389, 'learning_rate': 4.6306212157124694e-07, 'epoch': 9.55}
 60%|█████▉    | 221700/371472 [6:36:14<12:04:03,  3.45it/s] 60%|█████▉    | 221701/371472 [6:36:14<12:08:01,  3.43it/s] 60%|█████▉    | 221702/371472 [6:36:15<12:13:08,  3.40it/s] 60%|█████▉    | 221703/371472 [6:36:15<11:39:53,  3.57it/s] 60%|█████▉    | 221704/371472 [6:36:15<12:01:48,  3.46it/s] 60%|█████▉    | 221705/371472 [6:36:15<12:27:15,  3.34it/s] 60%|█████▉    | 221706/371472 [6:36:16<11:38:28,  3.57it/s] 60%|█████▉    | 221707/371472 [6:36:16<11:22:51,  3.66it/s] 60%|█████▉    | 221708/371472 [6:36:16<11:23:57,  3.65it/s] 60%|█████▉    | 221709/371472 [6:36:17<11:57:26,  3.48it/s] 60%|█████▉    | 221710/371472 [6:36:17<12:00:00,  3.47it/s] 60%|█████▉    | 221711/371472 [6:36:17<11:57:23,  3.48it/s] 60%|█████▉    | 221712/371472 [6:36:17<11:30:05,  3.62it/s] 60%|█████▉    | 221713/371472 [6:36:18<11:18:14,  3.68it/s] 60%|█████▉    | 221714/371472 [6:36:18<12:49:46,  3.24it/s] 60%|█████▉    | 221715/371472 [6:36:18<12:20:51,  3.37it/s] 60%|█████▉    | 221716/371472 [6:36:19<12:02:21,  3.46it/s] 60%|█████▉    | 221717/371472 [6:36:19<12:05:20,  3.44it/s] 60%|█████▉    | 221718/371472 [6:36:19<11:58:05,  3.48it/s] 60%|█████▉    | 221719/371472 [6:36:19<11:59:51,  3.47it/s] 60%|█████▉    | 221720/371472 [6:36:20<12:10:59,  3.41it/s]                                                            {'loss': 2.8743, 'learning_rate': 4.63013639595768e-07, 'epoch': 9.55}
 60%|█████▉    | 221720/371472 [6:36:20<12:10:59,  3.41it/s] 60%|█████▉    | 221721/371472 [6:36:20<11:43:32,  3.55it/s] 60%|█████▉    | 221722/371472 [6:36:20<12:07:47,  3.43it/s] 60%|█████▉    | 221723/371472 [6:36:21<11:55:30,  3.49it/s] 60%|█████▉    | 221724/371472 [6:36:21<12:04:56,  3.44it/s] 60%|█████▉    | 221725/371472 [6:36:21<11:41:26,  3.56it/s] 60%|█████▉    | 221726/371472 [6:36:21<11:17:07,  3.69it/s] 60%|█████▉    | 221727/371472 [6:36:22<11:27:04,  3.63it/s] 60%|█████▉    | 221728/371472 [6:36:22<11:12:19,  3.71it/s] 60%|█████▉    | 221729/371472 [6:36:22<10:59:00,  3.79it/s] 60%|█████▉    | 221730/371472 [6:36:22<11:35:16,  3.59it/s] 60%|█████▉    | 221731/371472 [6:36:23<11:39:16,  3.57it/s] 60%|█████▉    | 221732/371472 [6:36:23<11:44:23,  3.54it/s] 60%|█████▉    | 221733/371472 [6:36:23<11:23:16,  3.65it/s] 60%|█████▉    | 221734/371472 [6:36:24<11:18:22,  3.68it/s] 60%|█████▉    | 221735/371472 [6:36:24<12:26:28,  3.34it/s] 60%|█████▉    | 221736/371472 [6:36:24<12:42:51,  3.27it/s] 60%|█████▉    | 221737/371472 [6:36:25<11:59:53,  3.47it/s] 60%|█████▉    | 221738/371472 [6:36:25<11:29:24,  3.62it/s] 60%|█████▉    | 221739/371472 [6:36:25<11:23:18,  3.65it/s] 60%|█████▉    | 221740/371472 [6:36:25<11:53:39,  3.50it/s]                                                            {'loss': 2.7784, 'learning_rate': 4.6296515762028914e-07, 'epoch': 9.55}
 60%|█████▉    | 221740/371472 [6:36:25<11:53:39,  3.50it/s] 60%|█████▉    | 221741/371472 [6:36:26<11:42:46,  3.55it/s] 60%|█████▉    | 221742/371472 [6:36:26<11:39:10,  3.57it/s] 60%|█████▉    | 221743/371472 [6:36:26<11:38:12,  3.57it/s] 60%|█████▉    | 221744/371472 [6:36:26<11:47:30,  3.53it/s] 60%|█████▉    | 221745/371472 [6:36:27<11:41:07,  3.56it/s] 60%|█████▉    | 221746/371472 [6:36:27<11:59:55,  3.47it/s] 60%|█████▉    | 221747/371472 [6:36:27<11:37:51,  3.58it/s] 60%|█████▉    | 221748/371472 [6:36:28<11:10:09,  3.72it/s] 60%|█████▉    | 221749/371472 [6:36:28<11:10:28,  3.72it/s] 60%|█████▉    | 221750/371472 [6:36:28<10:57:57,  3.79it/s] 60%|█████▉    | 221751/371472 [6:36:28<10:54:39,  3.81it/s] 60%|█████▉    | 221752/371472 [6:36:29<11:06:32,  3.74it/s] 60%|█████▉    | 221753/371472 [6:36:29<12:38:36,  3.29it/s] 60%|█████▉    | 221754/371472 [6:36:29<13:55:07,  2.99it/s] 60%|█████▉    | 221755/371472 [6:36:30<13:15:43,  3.14it/s] 60%|█████▉    | 221756/371472 [6:36:30<12:25:35,  3.35it/s] 60%|█████▉    | 221757/371472 [6:36:30<12:09:31,  3.42it/s] 60%|█████▉    | 221758/371472 [6:36:30<11:57:05,  3.48it/s] 60%|█████▉    | 221759/371472 [6:36:31<11:26:02,  3.64it/s] 60%|█████▉    | 221760/371472 [6:36:31<11:16:24,  3.69it/s]                                                            {'loss': 2.7573, 'learning_rate': 4.6291667564481016e-07, 'epoch': 9.55}
 60%|█████▉    | 221760/371472 [6:36:31<11:16:24,  3.69it/s] 60%|█████▉    | 221761/371472 [6:36:31<11:39:33,  3.57it/s] 60%|█████▉    | 221762/371472 [6:36:32<11:27:33,  3.63it/s] 60%|█████▉    | 221763/371472 [6:36:32<11:28:22,  3.62it/s] 60%|█████▉    | 221764/371472 [6:36:32<11:56:41,  3.48it/s] 60%|█████▉    | 221765/371472 [6:36:32<11:55:07,  3.49it/s] 60%|█████▉    | 221766/371472 [6:36:33<12:35:30,  3.30it/s] 60%|█████▉    | 221767/371472 [6:36:33<12:07:38,  3.43it/s] 60%|█████▉    | 221768/371472 [6:36:33<11:48:25,  3.52it/s] 60%|█████▉    | 221769/371472 [6:36:34<11:55:04,  3.49it/s] 60%|█████▉    | 221770/371472 [6:36:34<11:42:25,  3.55it/s] 60%|█████▉    | 221771/371472 [6:36:34<11:50:59,  3.51it/s] 60%|█████▉    | 221772/371472 [6:36:34<12:08:18,  3.43it/s] 60%|█████▉    | 221773/371472 [6:36:35<11:36:26,  3.58it/s] 60%|█████▉    | 221774/371472 [6:36:35<12:19:10,  3.38it/s] 60%|█████▉    | 221775/371472 [6:36:35<11:55:12,  3.49it/s] 60%|█████▉    | 221776/371472 [6:36:36<11:56:43,  3.48it/s] 60%|█████▉    | 221777/371472 [6:36:36<11:50:56,  3.51it/s] 60%|█████▉    | 221778/371472 [6:36:36<11:50:15,  3.51it/s] 60%|█████▉    | 221779/371472 [6:36:36<11:53:13,  3.50it/s] 60%|█████▉    | 221780/371472 [6:36:37<11:36:59,  3.58it/s]                                                            {'loss': 2.7748, 'learning_rate': 4.628681936693314e-07, 'epoch': 9.55}
 60%|█████▉    | 221780/371472 [6:36:37<11:36:59,  3.58it/s] 60%|█████▉    | 221781/371472 [6:36:37<12:20:36,  3.37it/s] 60%|█████▉    | 221782/371472 [6:36:37<12:06:47,  3.43it/s] 60%|█████▉    | 221783/371472 [6:36:38<12:02:25,  3.45it/s] 60%|█████▉    | 221784/371472 [6:36:38<11:56:49,  3.48it/s] 60%|█████▉    | 221785/371472 [6:36:38<11:42:21,  3.55it/s] 60%|█████▉    | 221786/371472 [6:36:38<11:24:43,  3.64it/s] 60%|█████▉    | 221787/371472 [6:36:39<11:29:01,  3.62it/s] 60%|█████▉    | 221788/371472 [6:36:39<11:29:12,  3.62it/s] 60%|█████▉    | 221789/371472 [6:36:39<11:42:32,  3.55it/s] 60%|█████▉    | 221790/371472 [6:36:40<11:54:13,  3.49it/s] 60%|█████▉    | 221791/371472 [6:36:40<11:51:17,  3.51it/s] 60%|█████▉    | 221792/371472 [6:36:40<11:45:58,  3.53it/s] 60%|█████▉    | 221793/371472 [6:36:40<11:23:56,  3.65it/s] 60%|█████▉    | 221794/371472 [6:36:41<11:01:34,  3.77it/s] 60%|█████▉    | 221795/371472 [6:36:41<10:52:58,  3.82it/s] 60%|█████▉    | 221796/371472 [6:36:41<11:43:48,  3.54it/s] 60%|█████▉    | 221797/371472 [6:36:42<11:41:02,  3.56it/s] 60%|█████▉    | 221798/371472 [6:36:42<12:01:40,  3.46it/s] 60%|█████▉    | 221799/371472 [6:36:42<11:52:52,  3.50it/s] 60%|█████▉    | 221800/371472 [6:36:42<11:57:26,  3.48it/s]                                                            {'loss': 2.7474, 'learning_rate': 4.628197116938524e-07, 'epoch': 9.55}
 60%|█████▉    | 221800/371472 [6:36:42<11:57:26,  3.48it/s] 60%|█████▉    | 221801/371472 [6:36:43<12:53:32,  3.22it/s] 60%|█████▉    | 221802/371472 [6:36:43<12:43:39,  3.27it/s] 60%|█████▉    | 221803/371472 [6:36:43<12:15:41,  3.39it/s] 60%|█████▉    | 221804/371472 [6:36:44<12:05:04,  3.44it/s] 60%|█████▉    | 221805/371472 [6:36:44<11:56:05,  3.48it/s] 60%|█████▉    | 221806/371472 [6:36:44<11:28:12,  3.62it/s] 60%|█████▉    | 221807/371472 [6:36:44<12:20:15,  3.37it/s] 60%|█████▉    | 221808/371472 [6:36:45<11:47:58,  3.52it/s] 60%|█████▉    | 221809/371472 [6:36:45<11:48:43,  3.52it/s] 60%|█████▉    | 221810/371472 [6:36:45<11:33:19,  3.60it/s] 60%|█████▉    | 221811/371472 [6:36:46<11:12:42,  3.71it/s] 60%|█████▉    | 221812/371472 [6:36:46<11:39:12,  3.57it/s] 60%|█████▉    | 221813/371472 [6:36:46<11:58:35,  3.47it/s] 60%|█████▉    | 221814/371472 [6:36:46<12:08:42,  3.42it/s] 60%|█████▉    | 221815/371472 [6:36:47<12:38:51,  3.29it/s] 60%|█████▉    | 221816/371472 [6:36:47<16:13:55,  2.56it/s] 60%|█████▉    | 221817/371472 [6:36:48<15:06:03,  2.75it/s] 60%|█████▉    | 221818/371472 [6:36:48<14:11:49,  2.93it/s] 60%|█████▉    | 221819/371472 [6:36:48<13:33:52,  3.06it/s] 60%|█████▉    | 221820/371472 [6:36:49<12:50:01,  3.24it/s]                                                            {'loss': 2.9023, 'learning_rate': 4.627712297183736e-07, 'epoch': 9.55}
 60%|█████▉    | 221820/371472 [6:36:49<12:50:01,  3.24it/s] 60%|█████▉    | 221821/371472 [6:36:49<13:22:31,  3.11it/s] 60%|█████▉    | 221822/371472 [6:36:49<12:21:57,  3.36it/s] 60%|█████▉    | 221823/371472 [6:36:49<12:17:59,  3.38it/s] 60%|█████▉    | 221824/371472 [6:36:50<12:02:45,  3.45it/s] 60%|█████▉    | 221825/371472 [6:36:50<12:14:55,  3.39it/s] 60%|█████▉    | 221826/371472 [6:36:50<11:52:01,  3.50it/s] 60%|█████▉    | 221827/371472 [6:36:51<12:28:27,  3.33it/s] 60%|█████▉    | 221828/371472 [6:36:51<12:09:08,  3.42it/s] 60%|█████▉    | 221829/371472 [6:36:51<12:23:49,  3.35it/s] 60%|█████▉    | 221830/371472 [6:36:52<13:02:06,  3.19it/s] 60%|█████▉    | 221831/371472 [6:36:52<12:13:50,  3.40it/s] 60%|█████▉    | 221832/371472 [6:36:52<11:54:05,  3.49it/s] 60%|█████▉    | 221833/371472 [6:36:52<12:11:59,  3.41it/s] 60%|█████▉    | 221834/371472 [6:36:53<13:36:30,  3.05it/s] 60%|█████▉    | 221835/371472 [6:36:53<13:20:20,  3.12it/s] 60%|█████▉    | 221836/371472 [6:36:53<12:46:44,  3.25it/s] 60%|█████▉    | 221837/371472 [6:36:54<12:11:50,  3.41it/s] 60%|█████▉    | 221838/371472 [6:36:54<12:09:18,  3.42it/s] 60%|█████▉    | 221839/371472 [6:36:54<12:14:03,  3.40it/s] 60%|█████▉    | 221840/371472 [6:36:54<12:07:42,  3.43it/s]                                                            {'loss': 2.8565, 'learning_rate': 4.6272274774289466e-07, 'epoch': 9.56}
 60%|█████▉    | 221840/371472 [6:36:54<12:07:42,  3.43it/s] 60%|█████▉    | 221841/371472 [6:36:55<11:54:00,  3.49it/s] 60%|█████▉    | 221842/371472 [6:36:55<11:50:38,  3.51it/s] 60%|█████▉    | 221843/371472 [6:36:55<11:54:12,  3.49it/s] 60%|█████▉    | 221844/371472 [6:36:56<11:56:31,  3.48it/s] 60%|█████▉    | 221845/371472 [6:36:56<11:59:01,  3.47it/s] 60%|█████▉    | 221846/371472 [6:36:56<12:06:21,  3.43it/s] 60%|█████▉    | 221847/371472 [6:36:56<11:49:22,  3.52it/s] 60%|█████▉    | 221848/371472 [6:36:57<11:40:46,  3.56it/s] 60%|█████▉    | 221849/371472 [6:36:57<11:48:20,  3.52it/s] 60%|█████▉    | 221850/371472 [6:36:57<11:45:27,  3.53it/s] 60%|█████▉    | 221851/371472 [6:36:58<11:32:57,  3.60it/s] 60%|█████▉    | 221852/371472 [6:36:58<11:30:41,  3.61it/s] 60%|█████▉    | 221853/371472 [6:36:58<11:18:40,  3.67it/s] 60%|█████▉    | 221854/371472 [6:36:58<11:16:12,  3.69it/s] 60%|█████▉    | 221855/371472 [6:36:59<12:23:01,  3.36it/s] 60%|█████▉    | 221856/371472 [6:36:59<11:46:39,  3.53it/s] 60%|█████▉    | 221857/371472 [6:36:59<12:10:50,  3.41it/s] 60%|█████▉    | 221858/371472 [6:37:00<12:05:34,  3.44it/s] 60%|█████▉    | 221859/371472 [6:37:00<11:45:54,  3.53it/s] 60%|█████▉    | 221860/371472 [6:37:00<12:06:46,  3.43it/s]                                                            {'loss': 2.8286, 'learning_rate': 4.626742657674158e-07, 'epoch': 9.56}
 60%|█████▉    | 221860/371472 [6:37:00<12:06:46,  3.43it/s] 60%|█████▉    | 221861/371472 [6:37:00<12:17:42,  3.38it/s] 60%|█████▉    | 221862/371472 [6:37:01<12:24:10,  3.35it/s] 60%|█████▉    | 221863/371472 [6:37:01<11:53:40,  3.49it/s] 60%|█████▉    | 221864/371472 [6:37:01<11:38:00,  3.57it/s] 60%|█████▉    | 221865/371472 [6:37:02<11:50:21,  3.51it/s] 60%|█████▉    | 221866/371472 [6:37:02<11:43:00,  3.55it/s] 60%|█████▉    | 221867/371472 [6:37:02<12:22:35,  3.36it/s] 60%|█████▉    | 221868/371472 [6:37:02<12:16:21,  3.39it/s] 60%|█████▉    | 221869/371472 [6:37:03<11:38:37,  3.57it/s] 60%|█████▉    | 221870/371472 [6:37:03<12:08:09,  3.42it/s] 60%|█████▉    | 221871/371472 [6:37:03<11:41:10,  3.56it/s] 60%|█████▉    | 221872/371472 [6:37:04<12:17:20,  3.38it/s] 60%|█████▉    | 221873/371472 [6:37:04<11:39:29,  3.56it/s] 60%|█████▉    | 221874/371472 [6:37:04<12:05:19,  3.44it/s] 60%|█████▉    | 221875/371472 [6:37:04<11:23:34,  3.65it/s] 60%|█████▉    | 221876/371472 [6:37:05<11:31:14,  3.61it/s] 60%|█████▉    | 221877/371472 [6:37:05<11:17:25,  3.68it/s] 60%|█████▉    | 221878/371472 [6:37:05<11:35:43,  3.58it/s] 60%|█████▉    | 221879/371472 [6:37:06<11:18:51,  3.67it/s] 60%|█████▉    | 221880/371472 [6:37:06<11:49:12,  3.52it/s]                                                            {'loss': 2.9483, 'learning_rate': 4.6262578379193685e-07, 'epoch': 9.56}
 60%|█████▉    | 221880/371472 [6:37:06<11:49:12,  3.52it/s] 60%|█████▉    | 221881/371472 [6:37:06<11:30:57,  3.61it/s] 60%|█████▉    | 221882/371472 [6:37:06<11:05:56,  3.74it/s] 60%|█████▉    | 221883/371472 [6:37:07<10:52:44,  3.82it/s] 60%|█████▉    | 221884/371472 [6:37:07<11:24:46,  3.64it/s] 60%|█████▉    | 221885/371472 [6:37:07<11:20:46,  3.66it/s] 60%|█████▉    | 221886/371472 [6:37:07<11:00:13,  3.78it/s] 60%|█████▉    | 221887/371472 [6:37:08<11:06:24,  3.74it/s] 60%|█████▉    | 221888/371472 [6:37:08<10:56:13,  3.80it/s] 60%|█████▉    | 221889/371472 [6:37:08<11:15:47,  3.69it/s] 60%|█████▉    | 221890/371472 [6:37:09<11:56:21,  3.48it/s] 60%|█████▉    | 221891/371472 [6:37:09<11:59:41,  3.46it/s] 60%|█████▉    | 221892/371472 [6:37:09<11:40:40,  3.56it/s] 60%|█████▉    | 221893/371472 [6:37:09<11:35:46,  3.58it/s] 60%|█████▉    | 221894/371472 [6:37:10<11:55:31,  3.48it/s] 60%|█████▉    | 221895/371472 [6:37:10<12:03:28,  3.45it/s] 60%|█████▉    | 221896/371472 [6:37:10<12:27:38,  3.33it/s] 60%|█████▉    | 221897/371472 [6:37:11<12:16:13,  3.39it/s] 60%|█████▉    | 221898/371472 [6:37:11<12:22:02,  3.36it/s] 60%|█████▉    | 221899/371472 [6:37:11<12:04:06,  3.44it/s] 60%|█████▉    | 221900/371472 [6:37:11<11:45:53,  3.53it/s]                                                            {'loss': 2.9043, 'learning_rate': 4.6257730181645803e-07, 'epoch': 9.56}
 60%|█████▉    | 221900/371472 [6:37:11<11:45:53,  3.53it/s] 60%|█████▉    | 221901/371472 [6:37:12<13:11:09,  3.15it/s] 60%|█████▉    | 221902/371472 [6:37:12<12:39:03,  3.28it/s] 60%|█████▉    | 221903/371472 [6:37:12<12:07:22,  3.43it/s] 60%|█████▉    | 221904/371472 [6:37:13<11:47:40,  3.52it/s] 60%|█████▉    | 221905/371472 [6:37:13<11:24:29,  3.64it/s] 60%|█████▉    | 221906/371472 [6:37:13<11:03:51,  3.75it/s] 60%|█████▉    | 221907/371472 [6:37:13<11:25:17,  3.64it/s] 60%|█████▉    | 221908/371472 [6:37:14<11:16:11,  3.69it/s] 60%|█████▉    | 221909/371472 [6:37:14<11:28:49,  3.62it/s] 60%|█████▉    | 221910/371472 [6:37:14<11:43:10,  3.54it/s] 60%|█████▉    | 221911/371472 [6:37:15<11:31:53,  3.60it/s] 60%|█████▉    | 221912/371472 [6:37:15<11:52:45,  3.50it/s] 60%|█████▉    | 221913/371472 [6:37:15<11:37:16,  3.57it/s] 60%|█████▉    | 221914/371472 [6:37:15<11:26:27,  3.63it/s] 60%|█████▉    | 221915/371472 [6:37:16<11:30:25,  3.61it/s] 60%|█████▉    | 221916/371472 [6:37:16<11:49:20,  3.51it/s] 60%|█████▉    | 221917/371472 [6:37:16<11:36:38,  3.58it/s] 60%|█████▉    | 221918/371472 [6:37:16<11:20:06,  3.66it/s] 60%|█████▉    | 221919/371472 [6:37:17<11:39:06,  3.57it/s] 60%|█████▉    | 221920/371472 [6:37:17<11:37:24,  3.57it/s]                                                            {'loss': 2.8973, 'learning_rate': 4.625288198409791e-07, 'epoch': 9.56}
 60%|█████▉    | 221920/371472 [6:37:17<11:37:24,  3.57it/s] 60%|█████▉    | 221921/371472 [6:37:17<11:53:40,  3.49it/s] 60%|█████▉    | 221922/371472 [6:37:18<11:48:52,  3.52it/s] 60%|█████▉    | 221923/371472 [6:37:18<12:09:02,  3.42it/s] 60%|█████▉    | 221924/371472 [6:37:18<12:05:11,  3.44it/s] 60%|█████▉    | 221925/371472 [6:37:19<12:43:36,  3.26it/s] 60%|█████▉    | 221926/371472 [6:37:19<12:22:03,  3.36it/s] 60%|█████▉    | 221927/371472 [6:37:19<13:15:32,  3.13it/s] 60%|█████▉    | 221928/371472 [6:37:19<12:27:43,  3.33it/s] 60%|█████▉    | 221929/371472 [6:37:20<12:20:01,  3.37it/s] 60%|█████▉    | 221930/371472 [6:37:20<11:55:36,  3.48it/s] 60%|█████▉    | 221931/371472 [6:37:20<11:46:14,  3.53it/s] 60%|█████▉    | 221932/371472 [6:37:21<11:33:28,  3.59it/s] 60%|█████▉    | 221933/371472 [6:37:21<11:46:31,  3.53it/s] 60%|█████▉    | 221934/371472 [6:37:21<11:52:13,  3.50it/s] 60%|█████▉    | 221935/371472 [6:37:21<11:51:43,  3.50it/s] 60%|█████▉    | 221936/371472 [6:37:22<12:15:39,  3.39it/s] 60%|█████▉    | 221937/371472 [6:37:22<12:17:01,  3.38it/s] 60%|█████▉    | 221938/371472 [6:37:22<12:52:48,  3.22it/s] 60%|█████▉    | 221939/371472 [6:37:23<13:08:06,  3.16it/s] 60%|█████▉    | 221940/371472 [6:37:23<12:46:14,  3.25it/s]                                                            {'loss': 2.9068, 'learning_rate': 4.624803378655002e-07, 'epoch': 9.56}
 60%|█████▉    | 221940/371472 [6:37:23<12:46:14,  3.25it/s] 60%|█████▉    | 221941/371472 [6:37:23<12:04:17,  3.44it/s] 60%|█████▉    | 221942/371472 [6:37:24<11:44:11,  3.54it/s] 60%|█████▉    | 221943/371472 [6:37:24<11:37:25,  3.57it/s] 60%|█████▉    | 221944/371472 [6:37:24<11:48:58,  3.52it/s] 60%|█████▉    | 221945/371472 [6:37:24<12:05:10,  3.44it/s] 60%|█████▉    | 221946/371472 [6:37:25<11:50:42,  3.51it/s] 60%|█████▉    | 221947/371472 [6:37:25<11:24:05,  3.64it/s] 60%|█████▉    | 221948/371472 [6:37:25<12:00:28,  3.46it/s] 60%|█████▉    | 221949/371472 [6:37:26<11:57:38,  3.47it/s] 60%|█████▉    | 221950/371472 [6:37:26<12:12:44,  3.40it/s] 60%|█████▉    | 221951/371472 [6:37:26<11:52:35,  3.50it/s] 60%|█████▉    | 221952/371472 [6:37:26<11:29:33,  3.61it/s] 60%|█████▉    | 221953/371472 [6:37:27<11:20:27,  3.66it/s] 60%|█████▉    | 221954/371472 [6:37:27<11:15:45,  3.69it/s] 60%|█████▉    | 221955/371472 [6:37:27<11:42:01,  3.55it/s] 60%|█████▉    | 221956/371472 [6:37:28<12:21:35,  3.36it/s] 60%|█████▉    | 221957/371472 [6:37:28<12:10:35,  3.41it/s] 60%|█████▉    | 221958/371472 [6:37:28<12:05:21,  3.44it/s] 60%|█████▉    | 221959/371472 [6:37:28<11:56:33,  3.48it/s] 60%|█████▉    | 221960/371472 [6:37:29<11:32:38,  3.60it/s]                                                            {'loss': 2.8322, 'learning_rate': 4.624318558900213e-07, 'epoch': 9.56}
 60%|█████▉    | 221960/371472 [6:37:29<11:32:38,  3.60it/s] 60%|█████▉    | 221961/371472 [6:37:29<11:20:46,  3.66it/s] 60%|█████▉    | 221962/371472 [6:37:29<11:14:56,  3.69it/s] 60%|█████▉    | 221963/371472 [6:37:29<11:01:56,  3.76it/s] 60%|█████▉    | 221964/371472 [6:37:30<11:20:53,  3.66it/s] 60%|█████▉    | 221965/371472 [6:37:30<11:05:11,  3.75it/s] 60%|█████▉    | 221966/371472 [6:37:30<11:01:37,  3.77it/s] 60%|█████▉    | 221967/371472 [6:37:31<11:12:04,  3.71it/s] 60%|█████▉    | 221968/371472 [6:37:31<11:36:13,  3.58it/s] 60%|█████▉    | 221969/371472 [6:37:31<12:15:53,  3.39it/s] 60%|█████▉    | 221970/371472 [6:37:32<13:18:35,  3.12it/s] 60%|█████▉    | 221971/371472 [6:37:32<13:02:45,  3.18it/s] 60%|█████▉    | 221972/371472 [6:37:32<12:24:51,  3.35it/s] 60%|█████▉    | 221973/371472 [6:37:32<12:20:41,  3.36it/s] 60%|█████▉    | 221974/371472 [6:37:33<12:06:37,  3.43it/s] 60%|█████▉    | 221975/371472 [6:37:33<11:33:20,  3.59it/s] 60%|█████▉    | 221976/371472 [6:37:33<11:24:52,  3.64it/s] 60%|█████▉    | 221977/371472 [6:37:34<12:22:54,  3.35it/s] 60%|█████▉    | 221978/371472 [6:37:34<11:56:34,  3.48it/s] 60%|█████▉    | 221979/371472 [6:37:34<12:01:02,  3.46it/s] 60%|█████▉    | 221980/371472 [6:37:34<12:01:32,  3.45it/s]                                                            {'loss': 2.9438, 'learning_rate': 4.623833739145425e-07, 'epoch': 9.56}
 60%|█████▉    | 221980/371472 [6:37:34<12:01:32,  3.45it/s] 60%|█████▉    | 221981/371472 [6:37:35<12:36:09,  3.29it/s] 60%|█████▉    | 221982/371472 [6:37:35<13:24:07,  3.10it/s] 60%|█████▉    | 221983/371472 [6:37:35<12:36:03,  3.30it/s] 60%|█████▉    | 221984/371472 [6:37:36<12:24:29,  3.35it/s] 60%|█████▉    | 221985/371472 [6:37:36<12:05:32,  3.43it/s] 60%|█████▉    | 221986/371472 [6:37:36<11:50:48,  3.51it/s] 60%|█████▉    | 221987/371472 [6:37:36<12:01:52,  3.45it/s] 60%|█████▉    | 221988/371472 [6:37:37<12:37:18,  3.29it/s] 60%|█████▉    | 221989/371472 [6:37:37<12:22:52,  3.35it/s] 60%|█████▉    | 221990/371472 [6:37:37<12:01:06,  3.45it/s] 60%|█████▉    | 221991/371472 [6:37:38<11:53:32,  3.49it/s] 60%|█████▉    | 221992/371472 [6:37:38<11:38:14,  3.57it/s] 60%|█████▉    | 221993/371472 [6:37:38<11:25:00,  3.64it/s] 60%|█████▉    | 221994/371472 [6:37:39<12:24:16,  3.35it/s] 60%|█████▉    | 221995/371472 [6:37:39<11:59:55,  3.46it/s] 60%|█████▉    | 221996/371472 [6:37:39<11:59:11,  3.46it/s] 60%|█████▉    | 221997/371472 [6:37:39<11:56:57,  3.47it/s] 60%|█████▉    | 221998/371472 [6:37:40<11:57:16,  3.47it/s] 60%|█████▉    | 221999/371472 [6:37:40<12:07:07,  3.43it/s] 60%|█████▉    | 222000/371472 [6:37:40<12:03:21,  3.44it/s]                                                            {'loss': 2.9267, 'learning_rate': 4.623348919390635e-07, 'epoch': 9.56}
 60%|█████▉    | 222000/371472 [6:37:40<12:03:21,  3.44it/s] 60%|█████▉    | 222001/371472 [6:37:41<11:53:44,  3.49it/s] 60%|█████▉    | 222002/371472 [6:37:41<12:39:35,  3.28it/s] 60%|█████▉    | 222003/371472 [6:37:41<12:08:14,  3.42it/s] 60%|█████▉    | 222004/371472 [6:37:41<11:31:40,  3.60it/s] 60%|█████▉    | 222005/371472 [6:37:42<11:52:23,  3.50it/s] 60%|█████▉    | 222006/371472 [6:37:42<11:24:57,  3.64it/s] 60%|█████▉    | 222007/371472 [6:37:42<11:08:30,  3.73it/s] 60%|█████▉    | 222008/371472 [6:37:43<11:55:56,  3.48it/s] 60%|█████▉    | 222009/371472 [6:37:43<11:36:50,  3.57it/s] 60%|█████▉    | 222010/371472 [6:37:43<11:47:24,  3.52it/s] 60%|█████▉    | 222011/371472 [6:37:43<11:45:52,  3.53it/s] 60%|█████▉    | 222012/371472 [6:37:44<11:42:30,  3.55it/s] 60%|█████▉    | 222013/371472 [6:37:44<11:19:35,  3.67it/s] 60%|█████▉    | 222014/371472 [6:37:44<11:16:06,  3.68it/s] 60%|█████▉    | 222015/371472 [6:37:44<11:15:13,  3.69it/s] 60%|█████▉    | 222016/371472 [6:37:45<11:05:56,  3.74it/s] 60%|█████▉    | 222017/371472 [6:37:45<11:50:39,  3.51it/s] 60%|█████▉    | 222018/371472 [6:37:45<11:47:05,  3.52it/s] 60%|█████▉    | 222019/371472 [6:37:46<11:57:40,  3.47it/s] 60%|█████▉    | 222020/371472 [6:37:46<11:28:37,  3.62it/s]                                                            {'loss': 2.9538, 'learning_rate': 4.6228640996358467e-07, 'epoch': 9.56}
 60%|█████▉    | 222020/371472 [6:37:46<11:28:37,  3.62it/s] 60%|█████▉    | 222021/371472 [6:37:46<11:22:15,  3.65it/s] 60%|█████▉    | 222022/371472 [6:37:46<11:10:28,  3.71it/s] 60%|█████▉    | 222023/371472 [6:37:47<12:25:35,  3.34it/s] 60%|█████▉    | 222024/371472 [6:37:47<12:02:36,  3.45it/s] 60%|█████▉    | 222025/371472 [6:37:47<11:49:00,  3.51it/s] 60%|█████▉    | 222026/371472 [6:37:48<12:02:31,  3.45it/s] 60%|█████▉    | 222027/371472 [6:37:48<12:16:09,  3.38it/s] 60%|█████▉    | 222028/371472 [6:37:48<11:50:58,  3.50it/s] 60%|█████▉    | 222029/371472 [6:37:48<11:45:30,  3.53it/s] 60%|█████▉    | 222030/371472 [6:37:49<11:53:09,  3.49it/s] 60%|█████▉    | 222031/371472 [6:37:49<11:49:15,  3.51it/s] 60%|█████▉    | 222032/371472 [6:37:49<11:35:34,  3.58it/s] 60%|█████▉    | 222033/371472 [6:37:50<12:04:25,  3.44it/s] 60%|█████▉    | 222034/371472 [6:37:50<11:51:40,  3.50it/s] 60%|█████▉    | 222035/371472 [6:37:50<11:57:18,  3.47it/s] 60%|█████▉    | 222036/371472 [6:37:50<11:36:52,  3.57it/s] 60%|█████▉    | 222037/371472 [6:37:51<11:59:14,  3.46it/s] 60%|█████▉    | 222038/371472 [6:37:51<11:52:37,  3.49it/s] 60%|█████▉    | 222039/371472 [6:37:51<12:35:21,  3.30it/s] 60%|█████▉    | 222040/371472 [6:37:52<12:23:49,  3.35it/s]                                                            {'loss': 2.9284, 'learning_rate': 4.6223792798810574e-07, 'epoch': 9.56}
 60%|█████▉    | 222040/371472 [6:37:52<12:23:49,  3.35it/s] 60%|█████▉    | 222041/371472 [6:37:52<11:51:59,  3.50it/s] 60%|█████▉    | 222042/371472 [6:37:52<11:56:47,  3.47it/s] 60%|█████▉    | 222043/371472 [6:37:52<11:37:42,  3.57it/s] 60%|█████▉    | 222044/371472 [6:37:53<12:10:11,  3.41it/s] 60%|█████▉    | 222045/371472 [6:37:53<12:10:40,  3.41it/s] 60%|█████▉    | 222046/371472 [6:37:53<11:50:58,  3.50it/s] 60%|█████▉    | 222047/371472 [6:37:54<11:19:49,  3.66it/s] 60%|█████▉    | 222048/371472 [6:37:54<11:50:27,  3.51it/s] 60%|█████▉    | 222049/371472 [6:37:54<11:31:40,  3.60it/s] 60%|█████▉    | 222050/371472 [6:37:54<11:17:48,  3.67it/s] 60%|█████▉    | 222051/371472 [6:37:55<11:10:40,  3.71it/s] 60%|█████▉    | 222052/371472 [6:37:55<10:59:54,  3.77it/s] 60%|█████▉    | 222053/371472 [6:37:55<11:47:06,  3.52it/s] 60%|█████▉    | 222054/371472 [6:37:56<12:33:43,  3.30it/s] 60%|█████▉    | 222055/371472 [6:37:56<11:55:25,  3.48it/s] 60%|█████▉    | 222056/371472 [6:37:56<12:03:13,  3.44it/s] 60%|█████▉    | 222057/371472 [6:37:56<11:39:53,  3.56it/s] 60%|█████▉    | 222058/371472 [6:37:57<11:51:10,  3.50it/s] 60%|█████▉    | 222059/371472 [6:37:57<11:50:17,  3.51it/s] 60%|█████▉    | 222060/371472 [6:37:57<11:41:22,  3.55it/s]                                                            {'loss': 2.9342, 'learning_rate': 4.6218944601262687e-07, 'epoch': 9.56}
 60%|█████▉    | 222060/371472 [6:37:57<11:41:22,  3.55it/s] 60%|█████▉    | 222061/371472 [6:37:58<11:27:57,  3.62it/s] 60%|█████▉    | 222062/371472 [6:37:58<11:11:14,  3.71it/s] 60%|█████▉    | 222063/371472 [6:37:58<11:31:54,  3.60it/s] 60%|█████▉    | 222064/371472 [6:37:58<11:28:56,  3.61it/s] 60%|█████▉    | 222065/371472 [6:37:59<11:36:50,  3.57it/s] 60%|█████▉    | 222066/371472 [6:37:59<11:09:26,  3.72it/s] 60%|█████▉    | 222067/371472 [6:37:59<11:12:46,  3.70it/s] 60%|█████▉    | 222068/371472 [6:37:59<11:21:11,  3.66it/s] 60%|█████▉    | 222069/371472 [6:38:00<11:43:57,  3.54it/s] 60%|█████▉    | 222070/371472 [6:38:00<12:13:54,  3.39it/s] 60%|█████▉    | 222071/371472 [6:38:00<13:07:05,  3.16it/s] 60%|█████▉    | 222072/371472 [6:38:01<13:07:45,  3.16it/s] 60%|█████▉    | 222073/371472 [6:38:01<12:35:56,  3.29it/s] 60%|█████▉    | 222074/371472 [6:38:01<12:27:29,  3.33it/s] 60%|█████▉    | 222075/371472 [6:38:02<11:42:37,  3.54it/s] 60%|█████▉    | 222076/371472 [6:38:02<11:31:03,  3.60it/s] 60%|█████▉    | 222077/371472 [6:38:02<11:43:36,  3.54it/s] 60%|█████▉    | 222078/371472 [6:38:02<11:15:35,  3.69it/s] 60%|█████▉    | 222079/371472 [6:38:03<11:12:19,  3.70it/s] 60%|█████▉    | 222080/371472 [6:38:03<11:34:12,  3.59it/s]                                                            {'loss': 2.9966, 'learning_rate': 4.6214096403714794e-07, 'epoch': 9.57}
 60%|█████▉    | 222080/371472 [6:38:03<11:34:12,  3.59it/s] 60%|█████▉    | 222081/371472 [6:38:03<12:04:00,  3.44it/s] 60%|█████▉    | 222082/371472 [6:38:04<11:40:59,  3.55it/s] 60%|█████▉    | 222083/371472 [6:38:04<11:25:20,  3.63it/s] 60%|█████▉    | 222084/371472 [6:38:04<11:14:09,  3.69it/s] 60%|█████▉    | 222085/371472 [6:38:04<11:14:00,  3.69it/s] 60%|█████▉    | 222086/371472 [6:38:05<11:11:14,  3.71it/s] 60%|█████▉    | 222087/371472 [6:38:05<11:07:42,  3.73it/s] 60%|█████▉    | 222088/371472 [6:38:05<10:58:13,  3.78it/s] 60%|█████▉    | 222089/371472 [6:38:05<11:33:52,  3.59it/s] 60%|█████▉    | 222090/371472 [6:38:06<11:49:43,  3.51it/s] 60%|█████▉    | 222091/371472 [6:38:06<11:38:34,  3.56it/s] 60%|█████▉    | 222092/371472 [6:38:06<11:20:26,  3.66it/s] 60%|█████▉    | 222093/371472 [6:38:06<11:12:31,  3.70it/s] 60%|█████▉    | 222094/371472 [6:38:07<11:37:07,  3.57it/s] 60%|█████▉    | 222095/371472 [6:38:07<11:32:01,  3.60it/s] 60%|█████▉    | 222096/371472 [6:38:07<11:12:00,  3.70it/s] 60%|█████▉    | 222097/371472 [6:38:08<11:01:42,  3.76it/s] 60%|█████▉    | 222098/371472 [6:38:08<11:45:04,  3.53it/s] 60%|█████▉    | 222099/371472 [6:38:08<11:39:37,  3.56it/s] 60%|█████▉    | 222100/371472 [6:38:08<12:11:55,  3.40it/s]                                                            {'loss': 2.9053, 'learning_rate': 4.620924820616691e-07, 'epoch': 9.57}
 60%|█████▉    | 222100/371472 [6:38:08<12:11:55,  3.40it/s] 60%|█████▉    | 222101/371472 [6:38:09<12:16:18,  3.38it/s] 60%|█████▉    | 222102/371472 [6:38:09<12:23:02,  3.35it/s] 60%|█████▉    | 222103/371472 [6:38:09<13:09:06,  3.15it/s] 60%|█████▉    | 222104/371472 [6:38:10<13:11:36,  3.14it/s] 60%|█████▉    | 222105/371472 [6:38:10<12:56:36,  3.21it/s] 60%|█████▉    | 222106/371472 [6:38:10<12:57:59,  3.20it/s] 60%|█████▉    | 222107/371472 [6:38:11<12:28:28,  3.33it/s] 60%|█████▉    | 222108/371472 [6:38:11<12:01:23,  3.45it/s] 60%|█████▉    | 222109/371472 [6:38:11<12:19:18,  3.37it/s] 60%|█████▉    | 222110/371472 [6:38:12<11:52:35,  3.49it/s] 60%|█████▉    | 222111/371472 [6:38:12<11:42:34,  3.54it/s] 60%|█████▉    | 222112/371472 [6:38:12<11:20:53,  3.66it/s] 60%|█████▉    | 222113/371472 [6:38:12<11:35:57,  3.58it/s] 60%|█████▉    | 222114/371472 [6:38:13<11:37:36,  3.57it/s] 60%|█████▉    | 222115/371472 [6:38:13<11:23:57,  3.64it/s] 60%|█████▉    | 222116/371472 [6:38:13<12:36:48,  3.29it/s] 60%|█████▉    | 222117/371472 [6:38:14<13:03:30,  3.18it/s] 60%|█████▉    | 222118/371472 [6:38:14<13:01:25,  3.19it/s] 60%|█████▉    | 222119/371472 [6:38:14<12:24:47,  3.34it/s] 60%|█████▉    | 222120/371472 [6:38:14<12:17:39,  3.37it/s]                                                            {'loss': 2.9083, 'learning_rate': 4.6204400008619013e-07, 'epoch': 9.57}
 60%|█████▉    | 222120/371472 [6:38:14<12:17:39,  3.37it/s] 60%|█████▉    | 222121/371472 [6:38:15<12:48:51,  3.24it/s] 60%|█████▉    | 222122/371472 [6:38:15<12:18:10,  3.37it/s] 60%|█████▉    | 222123/371472 [6:38:15<11:44:09,  3.53it/s] 60%|█████▉    | 222124/371472 [6:38:16<11:28:47,  3.61it/s] 60%|█████▉    | 222125/371472 [6:38:16<11:39:26,  3.56it/s] 60%|█████▉    | 222126/371472 [6:38:16<11:37:22,  3.57it/s] 60%|█████▉    | 222127/371472 [6:38:16<11:27:03,  3.62it/s] 60%|█████▉    | 222128/371472 [6:38:17<12:19:10,  3.37it/s] 60%|█████▉    | 222129/371472 [6:38:17<12:34:01,  3.30it/s] 60%|█████▉    | 222130/371472 [6:38:17<12:20:58,  3.36it/s] 60%|█████▉    | 222131/371472 [6:38:18<12:06:44,  3.42it/s] 60%|█████▉    | 222132/371472 [6:38:18<12:27:18,  3.33it/s] 60%|█████▉    | 222133/371472 [6:38:18<12:10:29,  3.41it/s] 60%|█████▉    | 222134/371472 [6:38:19<12:06:07,  3.43it/s] 60%|█████▉    | 222135/371472 [6:38:19<11:59:00,  3.46it/s] 60%|█████▉    | 222136/371472 [6:38:19<11:38:56,  3.56it/s] 60%|█████▉    | 222137/371472 [6:38:19<11:28:41,  3.61it/s] 60%|█████▉    | 222138/371472 [6:38:20<12:01:01,  3.45it/s] 60%|█████▉    | 222139/371472 [6:38:20<11:54:24,  3.48it/s] 60%|█████▉    | 222140/371472 [6:38:20<11:39:59,  3.56it/s]                                                            {'loss': 2.8458, 'learning_rate': 4.619955181107113e-07, 'epoch': 9.57}
 60%|█████▉    | 222140/371472 [6:38:20<11:39:59,  3.56it/s] 60%|█████▉    | 222141/371472 [6:38:21<11:57:34,  3.47it/s] 60%|█████▉    | 222142/371472 [6:38:21<12:39:35,  3.28it/s] 60%|█████▉    | 222143/371472 [6:38:21<12:51:17,  3.23it/s] 60%|█████▉    | 222144/371472 [6:38:21<12:36:32,  3.29it/s] 60%|█████▉    | 222145/371472 [6:38:22<12:11:52,  3.40it/s] 60%|█████▉    | 222146/371472 [6:38:22<11:43:43,  3.54it/s] 60%|█████▉    | 222147/371472 [6:38:22<11:19:51,  3.66it/s] 60%|█████▉    | 222148/371472 [6:38:23<12:16:09,  3.38it/s] 60%|█████▉    | 222149/371472 [6:38:23<12:55:35,  3.21it/s] 60%|█████▉    | 222150/371472 [6:38:23<12:32:07,  3.31it/s] 60%|█████▉    | 222151/371472 [6:38:23<12:14:30,  3.39it/s] 60%|█████▉    | 222152/371472 [6:38:24<12:53:25,  3.22it/s] 60%|█████▉    | 222153/371472 [6:38:24<13:25:51,  3.09it/s] 60%|█████▉    | 222154/371472 [6:38:24<13:13:44,  3.14it/s] 60%|█████▉    | 222155/371472 [6:38:25<13:51:25,  2.99it/s] 60%|█████▉    | 222156/371472 [6:38:25<12:47:08,  3.24it/s] 60%|█████▉    | 222157/371472 [6:38:25<12:26:48,  3.33it/s] 60%|█████▉    | 222158/371472 [6:38:26<12:29:29,  3.32it/s] 60%|█████▉    | 222159/371472 [6:38:26<11:57:58,  3.47it/s] 60%|█████▉    | 222160/371472 [6:38:26<12:19:14,  3.37it/s]                                                            {'loss': 2.7633, 'learning_rate': 4.619470361352324e-07, 'epoch': 9.57}
 60%|█████▉    | 222160/371472 [6:38:26<12:19:14,  3.37it/s] 60%|█████▉    | 222161/371472 [6:38:27<11:56:56,  3.47it/s] 60%|█████▉    | 222162/371472 [6:38:27<12:15:44,  3.38it/s] 60%|█████▉    | 222163/371472 [6:38:27<12:41:36,  3.27it/s] 60%|█████▉    | 222164/371472 [6:38:27<12:08:32,  3.42it/s] 60%|█████▉    | 222165/371472 [6:38:28<12:28:35,  3.32it/s] 60%|█████▉    | 222166/371472 [6:38:28<12:42:20,  3.26it/s] 60%|█████▉    | 222167/371472 [6:38:28<12:17:19,  3.37it/s] 60%|█████▉    | 222168/371472 [6:38:29<12:06:50,  3.42it/s] 60%|█████▉    | 222169/371472 [6:38:29<12:14:53,  3.39it/s] 60%|█████▉    | 222170/371472 [6:38:29<11:54:32,  3.48it/s] 60%|█████▉    | 222171/371472 [6:38:29<11:36:21,  3.57it/s] 60%|█████▉    | 222172/371472 [6:38:30<11:28:59,  3.61it/s] 60%|█████▉    | 222173/371472 [6:38:30<12:06:27,  3.43it/s] 60%|█████▉    | 222174/371472 [6:38:30<12:21:13,  3.36it/s] 60%|█████▉    | 222175/371472 [6:38:31<12:20:42,  3.36it/s] 60%|█████▉    | 222176/371472 [6:38:31<11:38:09,  3.56it/s] 60%|█████▉    | 222177/371472 [6:38:31<11:43:47,  3.54it/s] 60%|█████▉    | 222178/371472 [6:38:31<11:19:06,  3.66it/s] 60%|█████▉    | 222179/371472 [6:38:32<12:04:00,  3.44it/s] 60%|█████▉    | 222180/371472 [6:38:32<12:08:42,  3.41it/s]                                                            {'loss': 2.7791, 'learning_rate': 4.6189855415975345e-07, 'epoch': 9.57}
 60%|█████▉    | 222180/371472 [6:38:32<12:08:42,  3.41it/s] 60%|█████▉    | 222181/371472 [6:38:32<11:55:39,  3.48it/s] 60%|█████▉    | 222182/371472 [6:38:33<11:42:38,  3.54it/s] 60%|█████▉    | 222183/371472 [6:38:33<11:08:24,  3.72it/s] 60%|█████▉    | 222184/371472 [6:38:33<11:19:22,  3.66it/s] 60%|█████▉    | 222185/371472 [6:38:33<11:05:42,  3.74it/s] 60%|█████▉    | 222186/371472 [6:38:34<10:51:23,  3.82it/s] 60%|█████▉    | 222187/371472 [6:38:34<11:06:32,  3.73it/s] 60%|█████▉    | 222188/371472 [6:38:34<12:13:13,  3.39it/s] 60%|█████▉    | 222189/371472 [6:38:35<11:58:26,  3.46it/s] 60%|█████▉    | 222190/371472 [6:38:35<11:39:02,  3.56it/s] 60%|█████▉    | 222191/371472 [6:38:35<11:29:42,  3.61it/s] 60%|█████▉    | 222192/371472 [6:38:35<11:04:39,  3.74it/s] 60%|█████▉    | 222193/371472 [6:38:36<11:06:36,  3.73it/s] 60%|█████▉    | 222194/371472 [6:38:36<11:12:24,  3.70it/s] 60%|█████▉    | 222195/371472 [6:38:36<10:56:52,  3.79it/s] 60%|█████▉    | 222196/371472 [6:38:36<11:09:12,  3.72it/s] 60%|█████▉    | 222197/371472 [6:38:37<11:04:10,  3.75it/s] 60%|█████▉    | 222198/371472 [6:38:37<11:11:59,  3.70it/s] 60%|█████▉    | 222199/371472 [6:38:37<11:14:57,  3.69it/s] 60%|█████▉    | 222200/371472 [6:38:38<11:36:25,  3.57it/s]                                                            {'loss': 2.6724, 'learning_rate': 4.618500721842746e-07, 'epoch': 9.57}
 60%|█████▉    | 222200/371472 [6:38:38<11:36:25,  3.57it/s] 60%|█████▉    | 222201/371472 [6:38:38<11:12:24,  3.70it/s] 60%|█████▉    | 222202/371472 [6:38:38<11:32:37,  3.59it/s] 60%|█████▉    | 222203/371472 [6:38:38<11:28:09,  3.62it/s] 60%|█████▉    | 222204/371472 [6:38:39<11:21:25,  3.65it/s] 60%|█████▉    | 222205/371472 [6:38:39<11:36:40,  3.57it/s] 60%|█████▉    | 222206/371472 [6:38:39<11:40:21,  3.55it/s] 60%|█████▉    | 222207/371472 [6:38:39<11:23:08,  3.64it/s] 60%|█████▉    | 222208/371472 [6:38:40<11:16:55,  3.68it/s] 60%|█████▉    | 222209/371472 [6:38:40<11:18:13,  3.67it/s] 60%|█████▉    | 222210/371472 [6:38:40<12:11:54,  3.40it/s] 60%|█████▉    | 222211/371472 [6:38:41<12:58:45,  3.19it/s] 60%|█████▉    | 222212/371472 [6:38:41<12:33:12,  3.30it/s] 60%|█████▉    | 222213/371472 [6:38:41<12:21:40,  3.35it/s] 60%|█████▉    | 222214/371472 [6:38:42<12:02:49,  3.44it/s] 60%|█████▉    | 222215/371472 [6:38:42<12:28:24,  3.32it/s] 60%|█████▉    | 222216/371472 [6:38:42<12:15:43,  3.38it/s] 60%|█████▉    | 222217/371472 [6:38:42<11:44:28,  3.53it/s] 60%|█████▉    | 222218/371472 [6:38:43<12:23:41,  3.34it/s] 60%|█████▉    | 222219/371472 [6:38:43<12:17:42,  3.37it/s] 60%|█████▉    | 222220/371472 [6:38:43<11:41:25,  3.55it/s]                                                            {'loss': 2.7531, 'learning_rate': 4.6180159020879565e-07, 'epoch': 9.57}
 60%|█████▉    | 222220/371472 [6:38:43<11:41:25,  3.55it/s] 60%|█████▉    | 222221/371472 [6:38:44<11:23:23,  3.64it/s] 60%|█████▉    | 222222/371472 [6:38:44<11:47:41,  3.51it/s] 60%|█████▉    | 222223/371472 [6:38:44<11:40:57,  3.55it/s] 60%|█████▉    | 222224/371472 [6:38:44<11:16:36,  3.68it/s] 60%|█████▉    | 222225/371472 [6:38:45<11:07:04,  3.73it/s] 60%|█████▉    | 222226/371472 [6:38:45<11:09:59,  3.71it/s] 60%|█████▉    | 222227/371472 [6:38:45<11:01:08,  3.76it/s] 60%|█████▉    | 222228/371472 [6:38:45<10:52:21,  3.81it/s] 60%|█████▉    | 222229/371472 [6:38:46<11:25:02,  3.63it/s] 60%|█████▉    | 222230/371472 [6:38:46<11:07:35,  3.73it/s] 60%|█████▉    | 222231/371472 [6:38:46<10:54:33,  3.80it/s] 60%|█████▉    | 222232/371472 [6:38:47<11:06:16,  3.73it/s] 60%|█████▉    | 222233/371472 [6:38:47<11:31:51,  3.60it/s] 60%|█████▉    | 222234/371472 [6:38:47<11:53:07,  3.49it/s] 60%|█████▉    | 222235/371472 [6:38:47<12:29:00,  3.32it/s] 60%|█████▉    | 222236/371472 [6:38:48<12:04:05,  3.44it/s] 60%|█████▉    | 222237/371472 [6:38:48<12:34:52,  3.29it/s] 60%|█████▉    | 222238/371472 [6:38:48<11:48:53,  3.51it/s] 60%|█████▉    | 222239/371472 [6:38:49<11:37:55,  3.56it/s] 60%|█████▉    | 222240/371472 [6:38:49<11:44:55,  3.53it/s]                                                            {'loss': 3.0168, 'learning_rate': 4.6175310823331683e-07, 'epoch': 9.57}
 60%|█████▉    | 222240/371472 [6:38:49<11:44:55,  3.53it/s] 60%|█████▉    | 222241/371472 [6:38:49<11:51:45,  3.49it/s] 60%|█████▉    | 222242/371472 [6:38:50<13:09:42,  3.15it/s] 60%|█████▉    | 222243/371472 [6:38:50<14:29:00,  2.86it/s] 60%|█████▉    | 222244/371472 [6:38:50<13:27:21,  3.08it/s] 60%|█████▉    | 222245/371472 [6:38:50<12:38:11,  3.28it/s] 60%|█████▉    | 222246/371472 [6:38:51<12:18:44,  3.37it/s] 60%|█████▉    | 222247/371472 [6:38:51<13:09:06,  3.15it/s] 60%|█████▉    | 222248/371472 [6:38:51<12:18:55,  3.37it/s] 60%|█████▉    | 222249/371472 [6:38:52<12:49:03,  3.23it/s] 60%|█████▉    | 222250/371472 [6:38:52<12:50:24,  3.23it/s] 60%|█████▉    | 222251/371472 [6:38:52<12:24:35,  3.34it/s] 60%|█████▉    | 222252/371472 [6:38:53<11:56:28,  3.47it/s] 60%|█████▉    | 222253/371472 [6:38:53<12:59:17,  3.19it/s] 60%|█████▉    | 222254/371472 [6:38:53<12:08:36,  3.41it/s] 60%|█████▉    | 222255/371472 [6:38:53<11:31:19,  3.60it/s] 60%|█████▉    | 222256/371472 [6:38:54<11:51:20,  3.50it/s] 60%|█████▉    | 222257/371472 [6:38:54<11:51:41,  3.49it/s] 60%|█████▉    | 222258/371472 [6:38:54<11:42:42,  3.54it/s] 60%|█████▉    | 222259/371472 [6:38:55<11:45:38,  3.52it/s] 60%|█████▉    | 222260/371472 [6:38:55<11:38:34,  3.56it/s]                                                            {'loss': 2.8634, 'learning_rate': 4.6170462625783785e-07, 'epoch': 9.57}
 60%|█████▉    | 222260/371472 [6:38:55<11:38:34,  3.56it/s] 60%|█████▉    | 222261/371472 [6:38:55<11:43:41,  3.53it/s] 60%|█████▉    | 222262/371472 [6:38:55<11:33:21,  3.59it/s] 60%|█████▉    | 222263/371472 [6:38:56<11:36:35,  3.57it/s] 60%|█████▉    | 222264/371472 [6:38:56<11:29:32,  3.61it/s] 60%|█████▉    | 222265/371472 [6:38:56<11:35:06,  3.58it/s] 60%|█████▉    | 222266/371472 [6:38:56<11:13:24,  3.69it/s] 60%|█████▉    | 222267/371472 [6:38:57<11:15:17,  3.68it/s] 60%|█████▉    | 222268/371472 [6:38:57<11:05:06,  3.74it/s] 60%|█████▉    | 222269/371472 [6:38:57<11:27:21,  3.62it/s] 60%|█████▉    | 222270/371472 [6:38:58<12:02:43,  3.44it/s] 60%|█████▉    | 222271/371472 [6:38:58<11:43:18,  3.54it/s] 60%|█████▉    | 222272/371472 [6:38:58<11:23:46,  3.64it/s] 60%|█████▉    | 222273/371472 [6:38:59<12:09:46,  3.41it/s] 60%|█████▉    | 222274/371472 [6:38:59<11:58:51,  3.46it/s] 60%|█████▉    | 222275/371472 [6:38:59<12:02:08,  3.44it/s] 60%|█████▉    | 222276/371472 [6:38:59<11:45:55,  3.52it/s] 60%|█████▉    | 222277/371472 [6:39:00<11:31:24,  3.60it/s] 60%|█████▉    | 222278/371472 [6:39:00<11:46:10,  3.52it/s] 60%|█████▉    | 222279/371472 [6:39:00<11:29:10,  3.61it/s] 60%|█████▉    | 222280/371472 [6:39:00<11:10:58,  3.71it/s]                                                            {'loss': 2.825, 'learning_rate': 4.616561442823591e-07, 'epoch': 9.57}
 60%|█████▉    | 222280/371472 [6:39:00<11:10:58,  3.71it/s] 60%|█████▉    | 222281/371472 [6:39:01<12:20:00,  3.36it/s] 60%|█████▉    | 222282/371472 [6:39:01<11:41:41,  3.54it/s] 60%|█████▉    | 222283/371472 [6:39:01<11:58:34,  3.46it/s] 60%|█████▉    | 222284/371472 [6:39:02<11:43:28,  3.53it/s] 60%|█████▉    | 222285/371472 [6:39:02<11:38:58,  3.56it/s] 60%|█████▉    | 222286/371472 [6:39:02<11:44:25,  3.53it/s] 60%|█████▉    | 222287/371472 [6:39:02<12:13:52,  3.39it/s] 60%|█████▉    | 222288/371472 [6:39:03<12:24:07,  3.34it/s] 60%|█████▉    | 222289/371472 [6:39:03<12:10:01,  3.41it/s] 60%|█████▉    | 222290/371472 [6:39:03<11:50:04,  3.50it/s] 60%|█████▉    | 222291/371472 [6:39:04<12:00:47,  3.45it/s] 60%|█████▉    | 222292/371472 [6:39:04<13:04:38,  3.17it/s] 60%|█████▉    | 222293/371472 [6:39:04<13:12:42,  3.14it/s] 60%|█████▉    | 222294/371472 [6:39:05<12:49:52,  3.23it/s] 60%|█████▉    | 222295/371472 [6:39:05<12:10:36,  3.40it/s] 60%|█████▉    | 222296/371472 [6:39:05<11:47:28,  3.51it/s] 60%|█████▉    | 222297/371472 [6:39:05<11:39:14,  3.56it/s] 60%|█████▉    | 222298/371472 [6:39:06<11:40:06,  3.55it/s] 60%|█████▉    | 222299/371472 [6:39:06<12:09:19,  3.41it/s] 60%|█████▉    | 222300/371472 [6:39:06<11:39:29,  3.55it/s]                                                            {'loss': 2.8844, 'learning_rate': 4.616076623068801e-07, 'epoch': 9.57}
 60%|█████▉    | 222300/371472 [6:39:06<11:39:29,  3.55it/s] 60%|█████▉    | 222301/371472 [6:39:07<11:52:32,  3.49it/s] 60%|█████▉    | 222302/371472 [6:39:07<11:30:53,  3.60it/s] 60%|█████▉    | 222303/371472 [6:39:07<12:09:08,  3.41it/s] 60%|█████▉    | 222304/371472 [6:39:07<12:12:28,  3.39it/s] 60%|█████▉    | 222305/371472 [6:39:08<11:51:42,  3.49it/s] 60%|█████▉    | 222306/371472 [6:39:08<11:31:44,  3.59it/s] 60%|█████▉    | 222307/371472 [6:39:08<11:40:13,  3.55it/s] 60%|█████▉    | 222308/371472 [6:39:09<11:24:25,  3.63it/s] 60%|█████▉    | 222309/371472 [6:39:09<12:42:40,  3.26it/s] 60%|█████▉    | 222310/371472 [6:39:09<13:16:02,  3.12it/s] 60%|█████▉    | 222311/371472 [6:39:10<12:49:05,  3.23it/s] 60%|█████▉    | 222312/371472 [6:39:10<12:18:49,  3.36it/s] 60%|█████▉    | 222313/371472 [6:39:10<11:43:47,  3.53it/s] 60%|█████▉    | 222314/371472 [6:39:10<11:34:40,  3.58it/s] 60%|█████▉    | 222315/371472 [6:39:11<11:20:46,  3.65it/s] 60%|█████▉    | 222316/371472 [6:39:11<11:11:00,  3.70it/s] 60%|█████▉    | 222317/371472 [6:39:11<10:51:30,  3.82it/s] 60%|█████▉    | 222318/371472 [6:39:11<10:59:59,  3.77it/s] 60%|█████▉    | 222319/371472 [6:39:12<11:14:52,  3.68it/s] 60%|█████▉    | 222320/371472 [6:39:12<11:23:26,  3.64it/s]                                                            {'loss': 2.9115, 'learning_rate': 4.615591803314012e-07, 'epoch': 9.58}
 60%|█████▉    | 222320/371472 [6:39:12<11:23:26,  3.64it/s] 60%|█████▉    | 222321/371472 [6:39:12<12:13:58,  3.39it/s] 60%|█████▉    | 222322/371472 [6:39:13<11:36:04,  3.57it/s] 60%|█████▉    | 222323/371472 [6:39:13<12:11:32,  3.40it/s] 60%|█████▉    | 222324/371472 [6:39:13<11:39:29,  3.55it/s] 60%|█████▉    | 222325/371472 [6:39:13<11:23:24,  3.64it/s] 60%|█████▉    | 222326/371472 [6:39:14<11:31:37,  3.59it/s] 60%|█████▉    | 222327/371472 [6:39:14<11:14:15,  3.69it/s] 60%|█████▉    | 222328/371472 [6:39:14<10:39:45,  3.89it/s] 60%|█████▉    | 222329/371472 [6:39:14<11:03:05,  3.75it/s] 60%|█████▉    | 222330/371472 [6:39:15<11:11:32,  3.70it/s] 60%|█████▉    | 222331/371472 [6:39:15<11:53:48,  3.48it/s] 60%|█████▉    | 222332/371472 [6:39:15<12:09:54,  3.41it/s] 60%|█████▉    | 222333/371472 [6:39:16<11:53:38,  3.48it/s] 60%|█████▉    | 222334/371472 [6:39:16<11:22:03,  3.64it/s] 60%|█████▉    | 222335/371472 [6:39:16<11:20:51,  3.65it/s] 60%|█████▉    | 222336/371472 [6:39:16<11:18:05,  3.67it/s] 60%|█████▉    | 222337/371472 [6:39:17<11:28:03,  3.61it/s] 60%|█████▉    | 222338/371472 [6:39:17<11:45:18,  3.52it/s] 60%|█████▉    | 222339/371472 [6:39:17<12:50:22,  3.23it/s] 60%|█████▉    | 222340/371472 [6:39:18<12:37:28,  3.28it/s]                                                            {'loss': 2.9202, 'learning_rate': 4.615106983559223e-07, 'epoch': 9.58}
 60%|█████▉    | 222340/371472 [6:39:18<12:37:28,  3.28it/s] 60%|█████▉    | 222341/371472 [6:39:18<12:19:28,  3.36it/s] 60%|█████▉    | 222342/371472 [6:39:18<12:01:10,  3.45it/s] 60%|█████▉    | 222343/371472 [6:39:18<11:51:44,  3.49it/s] 60%|█████▉    | 222344/371472 [6:39:19<11:47:15,  3.51it/s] 60%|█████▉    | 222345/371472 [6:39:19<13:10:15,  3.15it/s] 60%|█████▉    | 222346/371472 [6:39:19<12:31:45,  3.31it/s] 60%|█████▉    | 222347/371472 [6:39:20<12:00:24,  3.45it/s] 60%|█████▉    | 222348/371472 [6:39:20<11:29:42,  3.60it/s] 60%|█████▉    | 222349/371472 [6:39:20<12:32:30,  3.30it/s] 60%|█████▉    | 222350/371472 [6:39:21<11:51:49,  3.49it/s] 60%|█████▉    | 222351/371472 [6:39:21<11:32:01,  3.59it/s] 60%|█████▉    | 222352/371472 [6:39:21<11:32:47,  3.59it/s] 60%|█████▉    | 222353/371472 [6:39:21<11:24:14,  3.63it/s] 60%|█████▉    | 222354/371472 [6:39:22<11:50:33,  3.50it/s] 60%|█████▉    | 222355/371472 [6:39:22<11:40:58,  3.55it/s] 60%|█████▉    | 222356/371472 [6:39:22<12:02:40,  3.44it/s] 60%|█████▉    | 222357/371472 [6:39:23<11:36:52,  3.57it/s] 60%|█████▉    | 222358/371472 [6:39:23<12:06:24,  3.42it/s] 60%|█████▉    | 222359/371472 [6:39:23<11:34:09,  3.58it/s] 60%|█████▉    | 222360/371472 [6:39:23<11:17:09,  3.67it/s]                                                            {'loss': 2.8924, 'learning_rate': 4.6146221638044347e-07, 'epoch': 9.58}
 60%|█████▉    | 222360/371472 [6:39:23<11:17:09,  3.67it/s] 60%|█████▉    | 222361/371472 [6:39:24<11:05:16,  3.74it/s] 60%|█████▉    | 222362/371472 [6:39:24<10:48:07,  3.83it/s] 60%|█████▉    | 222363/371472 [6:39:24<10:43:17,  3.86it/s] 60%|█████▉    | 222364/371472 [6:39:24<10:44:35,  3.86it/s] 60%|█████▉    | 222365/371472 [6:39:25<11:11:35,  3.70it/s] 60%|█████▉    | 222366/371472 [6:39:25<11:12:37,  3.69it/s] 60%|█████▉    | 222367/371472 [6:39:25<11:20:47,  3.65it/s] 60%|█████▉    | 222368/371472 [6:39:25<11:15:22,  3.68it/s] 60%|█████▉    | 222369/371472 [6:39:26<11:38:50,  3.56it/s] 60%|█████▉    | 222370/371472 [6:39:26<12:00:53,  3.45it/s] 60%|█████▉    | 222371/371472 [6:39:26<12:18:39,  3.36it/s] 60%|█████▉    | 222372/371472 [6:39:27<12:20:54,  3.35it/s] 60%|█████▉    | 222373/371472 [6:39:27<12:13:02,  3.39it/s] 60%|█████▉    | 222374/371472 [6:39:27<12:23:59,  3.34it/s] 60%|█████▉    | 222375/371472 [6:39:28<11:43:30,  3.53it/s] 60%|█████▉    | 222376/371472 [6:39:28<11:27:28,  3.61it/s] 60%|█████▉    | 222377/371472 [6:39:28<11:32:37,  3.59it/s] 60%|█████▉    | 222378/371472 [6:39:28<11:40:56,  3.55it/s] 60%|█████▉    | 222379/371472 [6:39:29<11:27:45,  3.61it/s] 60%|█████▉    | 222380/371472 [6:39:29<11:15:56,  3.68it/s]                                                            {'loss': 2.9869, 'learning_rate': 4.614137344049645e-07, 'epoch': 9.58}
 60%|█████▉    | 222380/371472 [6:39:29<11:15:56,  3.68it/s] 60%|█████▉    | 222381/371472 [6:39:29<11:30:57,  3.60it/s] 60%|█████▉    | 222382/371472 [6:39:29<11:29:07,  3.61it/s] 60%|█████▉    | 222383/371472 [6:39:30<11:20:37,  3.65it/s] 60%|█████▉    | 222384/371472 [6:39:30<11:16:08,  3.68it/s] 60%|█████▉    | 222385/371472 [6:39:30<11:05:29,  3.73it/s] 60%|█████▉    | 222386/371472 [6:39:31<11:34:38,  3.58it/s] 60%|█████▉    | 222387/371472 [6:39:31<11:29:26,  3.60it/s] 60%|█████▉    | 222388/371472 [6:39:31<11:20:24,  3.65it/s] 60%|█████▉    | 222389/371472 [6:39:31<11:08:48,  3.72it/s] 60%|█████▉    | 222390/371472 [6:39:32<10:59:41,  3.77it/s] 60%|█████▉    | 222391/371472 [6:39:32<11:28:24,  3.61it/s] 60%|█████▉    | 222392/371472 [6:39:32<11:46:53,  3.51it/s] 60%|█████▉    | 222393/371472 [6:39:32<11:35:29,  3.57it/s] 60%|█████▉    | 222394/371472 [6:39:33<11:44:07,  3.53it/s] 60%|█████▉    | 222395/371472 [6:39:33<11:47:13,  3.51it/s] 60%|█████▉    | 222396/371472 [6:39:33<12:24:18,  3.34it/s] 60%|█████▉    | 222397/371472 [6:39:34<12:44:29,  3.25it/s] 60%|█████▉    | 222398/371472 [6:39:34<12:28:46,  3.32it/s] 60%|█████▉    | 222399/371472 [6:39:34<11:51:52,  3.49it/s] 60%|█████▉    | 222400/371472 [6:39:35<12:13:05,  3.39it/s]                                                            {'loss': 3.0417, 'learning_rate': 4.6136525242948566e-07, 'epoch': 9.58}
 60%|█████▉    | 222400/371472 [6:39:35<12:13:05,  3.39it/s] 60%|█████▉    | 222401/371472 [6:39:35<12:22:46,  3.34it/s] 60%|█████▉    | 222402/371472 [6:39:35<11:43:44,  3.53it/s] 60%|█████▉    | 222403/371472 [6:39:35<11:49:01,  3.50it/s] 60%|█████▉    | 222404/371472 [6:39:36<11:37:32,  3.56it/s] 60%|█████▉    | 222405/371472 [6:39:36<11:39:23,  3.55it/s] 60%|█████▉    | 222406/371472 [6:39:36<11:56:18,  3.47it/s] 60%|█████▉    | 222407/371472 [6:39:37<11:33:56,  3.58it/s] 60%|█████▉    | 222408/371472 [6:39:37<11:57:52,  3.46it/s] 60%|█████▉    | 222409/371472 [6:39:37<11:28:51,  3.61it/s] 60%|█████▉    | 222410/371472 [6:39:37<11:21:48,  3.64it/s] 60%|█████▉    | 222411/371472 [6:39:38<11:55:14,  3.47it/s] 60%|█████▉    | 222412/371472 [6:39:38<11:57:34,  3.46it/s] 60%|█████▉    | 222413/371472 [6:39:38<11:32:51,  3.59it/s] 60%|█████▉    | 222414/371472 [6:39:39<11:52:54,  3.48it/s] 60%|█████▉    | 222415/371472 [6:39:39<11:21:48,  3.64it/s] 60%|█████▉    | 222416/371472 [6:39:39<11:11:02,  3.70it/s] 60%|█████▉    | 222417/371472 [6:39:39<11:09:13,  3.71it/s] 60%|█████▉    | 222418/371472 [6:39:40<11:16:16,  3.67it/s] 60%|█████▉    | 222419/371472 [6:39:40<12:09:34,  3.41it/s] 60%|█████▉    | 222420/371472 [6:39:40<12:05:10,  3.43it/s]                                                            {'loss': 3.0081, 'learning_rate': 4.6131677045400674e-07, 'epoch': 9.58}
 60%|█████▉    | 222420/371472 [6:39:40<12:05:10,  3.43it/s] 60%|█████▉    | 222421/371472 [6:39:41<12:44:04,  3.25it/s] 60%|█████▉    | 222422/371472 [6:39:41<13:09:47,  3.15it/s] 60%|█████▉    | 222423/371472 [6:39:41<12:32:28,  3.30it/s] 60%|█████▉    | 222424/371472 [6:39:42<13:07:05,  3.16it/s] 60%|█████▉    | 222425/371472 [6:39:42<12:13:34,  3.39it/s] 60%|█████▉    | 222426/371472 [6:39:42<11:32:41,  3.59it/s] 60%|█████▉    | 222427/371472 [6:39:42<11:12:27,  3.69it/s] 60%|█████▉    | 222428/371472 [6:39:43<10:54:25,  3.80it/s] 60%|█████▉    | 222429/371472 [6:39:43<11:01:39,  3.75it/s] 60%|█████▉    | 222430/371472 [6:39:43<10:52:29,  3.81it/s] 60%|█████▉    | 222431/371472 [6:39:43<11:21:40,  3.64it/s] 60%|█████▉    | 222432/371472 [6:39:44<11:15:52,  3.68it/s] 60%|█████▉    | 222433/371472 [6:39:44<11:19:20,  3.66it/s] 60%|█████▉    | 222434/371472 [6:39:44<11:35:06,  3.57it/s] 60%|█████▉    | 222435/371472 [6:39:45<12:07:12,  3.42it/s] 60%|█████▉    | 222436/371472 [6:39:45<12:33:46,  3.30it/s] 60%|█████▉    | 222437/371472 [6:39:45<12:12:35,  3.39it/s] 60%|█████▉    | 222438/371472 [6:39:45<12:47:40,  3.24it/s] 60%|█████▉    | 222439/371472 [6:39:46<12:10:18,  3.40it/s] 60%|█████▉    | 222440/371472 [6:39:46<12:43:37,  3.25it/s]                                                            {'loss': 2.7094, 'learning_rate': 4.6126828847852786e-07, 'epoch': 9.58}
 60%|█████▉    | 222440/371472 [6:39:46<12:43:37,  3.25it/s] 60%|█████▉    | 222441/371472 [6:39:46<12:12:54,  3.39it/s] 60%|█████▉    | 222442/371472 [6:39:47<12:17:24,  3.37it/s] 60%|█████▉    | 222443/371472 [6:39:47<12:22:15,  3.35it/s] 60%|█████▉    | 222444/371472 [6:39:47<13:03:26,  3.17it/s] 60%|█████▉    | 222445/371472 [6:39:48<12:16:27,  3.37it/s] 60%|█████▉    | 222446/371472 [6:39:48<11:50:01,  3.50it/s] 60%|█████▉    | 222447/371472 [6:39:48<11:25:53,  3.62it/s] 60%|█████▉    | 222448/371472 [6:39:48<10:58:47,  3.77it/s] 60%|█████▉    | 222449/371472 [6:39:49<10:41:27,  3.87it/s] 60%|█████▉    | 222450/371472 [6:39:49<11:14:03,  3.68it/s] 60%|█████▉    | 222451/371472 [6:39:49<11:31:44,  3.59it/s] 60%|█████▉    | 222452/371472 [6:39:49<11:05:20,  3.73it/s] 60%|█████▉    | 222453/371472 [6:39:50<11:11:11,  3.70it/s] 60%|█████▉    | 222454/371472 [6:39:50<11:18:48,  3.66it/s] 60%|█████▉    | 222455/371472 [6:39:50<11:07:50,  3.72it/s] 60%|█████▉    | 222456/371472 [6:39:50<11:33:25,  3.58it/s] 60%|█████▉    | 222457/371472 [6:39:51<11:13:56,  3.69it/s] 60%|█████▉    | 222458/371472 [6:39:51<11:47:43,  3.51it/s] 60%|█████▉    | 222459/371472 [6:39:51<12:38:17,  3.28it/s] 60%|█████▉    | 222460/371472 [6:39:52<12:07:29,  3.41it/s]                                                            {'loss': 3.0569, 'learning_rate': 4.6121980650304893e-07, 'epoch': 9.58}
 60%|█████▉    | 222460/371472 [6:39:52<12:07:29,  3.41it/s] 60%|█████▉    | 222461/371472 [6:39:52<11:50:47,  3.49it/s] 60%|█████▉    | 222462/371472 [6:39:52<12:00:28,  3.45it/s] 60%|█████▉    | 222463/371472 [6:39:53<11:40:36,  3.54it/s] 60%|█████▉    | 222464/371472 [6:39:53<11:25:58,  3.62it/s] 60%|█████▉    | 222465/371472 [6:39:53<12:07:02,  3.42it/s] 60%|█████▉    | 222466/371472 [6:39:53<11:37:48,  3.56it/s] 60%|█████▉    | 222467/371472 [6:39:54<11:42:17,  3.54it/s] 60%|█████▉    | 222468/371472 [6:39:54<13:39:04,  3.03it/s] 60%|█████▉    | 222469/371472 [6:39:54<13:10:43,  3.14it/s] 60%|█████▉    | 222470/371472 [6:39:55<12:29:10,  3.31it/s] 60%|█████▉    | 222471/371472 [6:39:55<12:24:05,  3.34it/s] 60%|█████▉    | 222472/371472 [6:39:55<11:52:21,  3.49it/s] 60%|█████▉    | 222473/371472 [6:39:55<11:59:38,  3.45it/s] 60%|█████▉    | 222474/371472 [6:39:56<11:46:54,  3.51it/s] 60%|█████▉    | 222475/371472 [6:39:56<11:25:20,  3.62it/s] 60%|█████▉    | 222476/371472 [6:39:56<11:16:25,  3.67it/s] 60%|█████▉    | 222477/371472 [6:39:57<12:15:23,  3.38it/s] 60%|█████▉    | 222478/371472 [6:39:57<12:20:13,  3.35it/s] 60%|█████▉    | 222479/371472 [6:39:57<12:08:05,  3.41it/s] 60%|█████▉    | 222480/371472 [6:39:58<12:52:00,  3.22it/s]                                                            {'loss': 2.924, 'learning_rate': 4.611713245275701e-07, 'epoch': 9.58}
 60%|█████▉    | 222480/371472 [6:39:58<12:52:00,  3.22it/s] 60%|█████▉    | 222481/371472 [6:39:58<13:06:13,  3.16it/s] 60%|█████▉    | 222482/371472 [6:39:58<12:24:30,  3.34it/s] 60%|█████▉    | 222483/371472 [6:39:58<12:53:18,  3.21it/s] 60%|█████▉    | 222484/371472 [6:39:59<12:40:15,  3.27it/s] 60%|█████▉    | 222485/371472 [6:39:59<12:17:07,  3.37it/s] 60%|█████▉    | 222486/371472 [6:39:59<12:02:36,  3.44it/s] 60%|█████▉    | 222487/371472 [6:40:00<11:39:35,  3.55it/s] 60%|█████▉    | 222488/371472 [6:40:00<12:33:03,  3.30it/s] 60%|█████▉    | 222489/371472 [6:40:00<12:42:01,  3.26it/s] 60%|█████▉    | 222490/371472 [6:40:01<12:10:17,  3.40it/s] 60%|█████▉    | 222491/371472 [6:40:01<11:45:50,  3.52it/s] 60%|█████▉    | 222492/371472 [6:40:01<12:22:06,  3.35it/s] 60%|█████▉    | 222493/371472 [6:40:01<12:05:15,  3.42it/s] 60%|█████▉    | 222494/371472 [6:40:02<11:51:48,  3.49it/s] 60%|█████▉    | 222495/371472 [6:40:02<11:43:14,  3.53it/s] 60%|█████▉    | 222496/371472 [6:40:02<11:49:34,  3.50it/s] 60%|█████▉    | 222497/371472 [6:40:03<11:44:10,  3.53it/s] 60%|█████▉    | 222498/371472 [6:40:03<11:49:58,  3.50it/s] 60%|█████▉    | 222499/371472 [6:40:03<11:36:57,  3.56it/s] 60%|█████▉    | 222500/371472 [6:40:03<11:43:08,  3.53it/s]                                                            {'loss': 2.8233, 'learning_rate': 4.6112284255209113e-07, 'epoch': 9.58}
 60%|█████▉    | 222500/371472 [6:40:03<11:43:08,  3.53it/s] 60%|█████▉    | 222501/371472 [6:40:04<11:46:02,  3.52it/s] 60%|█████▉    | 222502/371472 [6:40:04<11:52:51,  3.48it/s] 60%|█████▉    | 222503/371472 [6:40:04<12:07:11,  3.41it/s] 60%|█████▉    | 222504/371472 [6:40:05<11:55:12,  3.47it/s] 60%|█████▉    | 222505/371472 [6:40:05<12:34:45,  3.29it/s] 60%|█████▉    | 222506/371472 [6:40:05<12:11:41,  3.39it/s] 60%|█████▉    | 222507/371472 [6:40:05<11:57:48,  3.46it/s] 60%|█████▉    | 222508/371472 [6:40:06<11:39:24,  3.55it/s] 60%|█████▉    | 222509/371472 [6:40:06<12:25:47,  3.33it/s] 60%|█████▉    | 222510/371472 [6:40:06<11:54:43,  3.47it/s] 60%|█████▉    | 222511/371472 [6:40:07<11:34:14,  3.58it/s] 60%|█████▉    | 222512/371472 [6:40:07<12:31:19,  3.30it/s] 60%|█████▉    | 222513/371472 [6:40:07<12:38:07,  3.27it/s] 60%|█████▉    | 222514/371472 [6:40:08<12:21:03,  3.35it/s] 60%|█████▉    | 222515/371472 [6:40:08<11:55:57,  3.47it/s] 60%|█████▉    | 222516/371472 [6:40:08<11:35:08,  3.57it/s] 60%|█████▉    | 222517/371472 [6:40:08<11:40:06,  3.55it/s] 60%|█████▉    | 222518/371472 [6:40:09<11:35:46,  3.57it/s] 60%|█████▉    | 222519/371472 [6:40:09<11:26:01,  3.62it/s] 60%|█████▉    | 222520/371472 [6:40:09<11:23:48,  3.63it/s]                                                            {'loss': 2.8822, 'learning_rate': 4.610743605766123e-07, 'epoch': 9.58}
 60%|█████▉    | 222520/371472 [6:40:09<11:23:48,  3.63it/s] 60%|█████▉    | 222521/371472 [6:40:09<11:05:57,  3.73it/s] 60%|█████▉    | 222522/371472 [6:40:10<11:12:47,  3.69it/s] 60%|█████▉    | 222523/371472 [6:40:10<11:28:14,  3.61it/s] 60%|█████▉    | 222524/371472 [6:40:10<11:19:19,  3.65it/s] 60%|█████▉    | 222525/371472 [6:40:10<11:24:00,  3.63it/s] 60%|█████▉    | 222526/371472 [6:40:11<11:56:14,  3.47it/s] 60%|█████▉    | 222527/371472 [6:40:11<11:32:44,  3.58it/s] 60%|█████▉    | 222528/371472 [6:40:11<11:34:03,  3.58it/s] 60%|█████▉    | 222529/371472 [6:40:12<11:37:33,  3.56it/s] 60%|█████▉    | 222530/371472 [6:40:12<12:09:09,  3.40it/s] 60%|█████▉    | 222531/371472 [6:40:12<12:26:32,  3.33it/s] 60%|█████▉    | 222532/371472 [6:40:13<12:14:30,  3.38it/s] 60%|█████▉    | 222533/371472 [6:40:13<12:02:27,  3.44it/s] 60%|█████▉    | 222534/371472 [6:40:13<11:39:37,  3.55it/s] 60%|█████▉    | 222535/371472 [6:40:13<11:16:16,  3.67it/s] 60%|█████▉    | 222536/371472 [6:40:14<11:26:18,  3.62it/s] 60%|█████▉    | 222537/371472 [6:40:14<11:42:14,  3.53it/s] 60%|█████▉    | 222538/371472 [6:40:14<11:37:16,  3.56it/s] 60%|█████▉    | 222539/371472 [6:40:14<11:06:42,  3.72it/s] 60%|█████▉    | 222540/371472 [6:40:15<10:39:38,  3.88it/s]                                                            {'loss': 2.993, 'learning_rate': 4.610258786011334e-07, 'epoch': 9.59}
 60%|█████▉    | 222540/371472 [6:40:15<10:39:38,  3.88it/s] 60%|█████▉    | 222541/371472 [6:40:15<10:45:23,  3.85it/s] 60%|█████▉    | 222542/371472 [6:40:15<10:47:15,  3.83it/s] 60%|█████▉    | 222543/371472 [6:40:15<10:49:26,  3.82it/s] 60%|█████▉    | 222544/371472 [6:40:16<11:39:18,  3.55it/s] 60%|█████▉    | 222545/371472 [6:40:16<11:23:41,  3.63it/s] 60%|█████▉    | 222546/371472 [6:40:16<10:57:20,  3.78it/s] 60%|█████▉    | 222547/371472 [6:40:17<11:02:08,  3.75it/s] 60%|█████▉    | 222548/371472 [6:40:17<11:11:46,  3.69it/s] 60%|█████▉    | 222549/371472 [6:40:17<11:52:39,  3.48it/s] 60%|█████▉    | 222550/371472 [6:40:17<11:37:55,  3.56it/s] 60%|█████▉    | 222551/371472 [6:40:18<11:23:48,  3.63it/s] 60%|█████▉    | 222552/371472 [6:40:18<11:04:33,  3.73it/s] 60%|█████▉    | 222553/371472 [6:40:18<11:04:28,  3.74it/s] 60%|█████▉    | 222554/371472 [6:40:19<11:10:50,  3.70it/s] 60%|█████▉    | 222555/371472 [6:40:19<11:33:33,  3.58it/s] 60%|█████▉    | 222556/371472 [6:40:19<10:51:36,  3.81it/s] 60%|█████▉    | 222557/371472 [6:40:19<10:39:55,  3.88it/s] 60%|█████▉    | 222558/371472 [6:40:20<11:23:36,  3.63it/s] 60%|█████▉    | 222559/371472 [6:40:20<11:14:26,  3.68it/s] 60%|█████▉    | 222560/371472 [6:40:20<12:36:38,  3.28it/s]                                                            {'loss': 2.793, 'learning_rate': 4.609773966256545e-07, 'epoch': 9.59}
 60%|█████▉    | 222560/371472 [6:40:20<12:36:38,  3.28it/s] 60%|█████▉    | 222561/371472 [6:40:21<12:24:38,  3.33it/s] 60%|█████▉    | 222562/371472 [6:40:21<11:43:29,  3.53it/s] 60%|█████▉    | 222563/371472 [6:40:21<11:36:28,  3.56it/s] 60%|█████▉    | 222564/371472 [6:40:21<11:44:09,  3.52it/s] 60%|█████▉    | 222565/371472 [6:40:22<11:14:24,  3.68it/s] 60%|█████▉    | 222566/371472 [6:40:22<10:59:23,  3.76it/s] 60%|█████▉    | 222567/371472 [6:40:22<11:49:38,  3.50it/s] 60%|█████▉    | 222568/371472 [6:40:23<13:55:02,  2.97it/s] 60%|█████▉    | 222569/371472 [6:40:23<13:44:30,  3.01it/s] 60%|█████▉    | 222570/371472 [6:40:23<12:49:48,  3.22it/s] 60%|█████▉    | 222571/371472 [6:40:23<12:03:08,  3.43it/s] 60%|█████▉    | 222572/371472 [6:40:24<11:33:26,  3.58it/s] 60%|█████▉    | 222573/371472 [6:40:24<11:48:10,  3.50it/s] 60%|█████▉    | 222574/371472 [6:40:24<11:29:32,  3.60it/s] 60%|█████▉    | 222575/371472 [6:40:25<11:05:02,  3.73it/s] 60%|█████▉    | 222576/371472 [6:40:25<11:49:44,  3.50it/s] 60%|█████▉    | 222577/371472 [6:40:25<11:58:32,  3.45it/s] 60%|█████▉    | 222578/371472 [6:40:25<12:00:04,  3.45it/s] 60%|█████▉    | 222579/371472 [6:40:26<11:42:22,  3.53it/s] 60%|█████▉    | 222580/371472 [6:40:26<11:17:21,  3.66it/s]                                                            {'loss': 2.9864, 'learning_rate': 4.6092891465017557e-07, 'epoch': 9.59}
 60%|█████▉    | 222580/371472 [6:40:26<11:17:21,  3.66it/s] 60%|█████▉    | 222581/371472 [6:40:26<11:50:41,  3.49it/s] 60%|█████▉    | 222582/371472 [6:40:27<11:21:19,  3.64it/s] 60%|█████▉    | 222583/371472 [6:40:27<11:51:15,  3.49it/s] 60%|█████▉    | 222584/371472 [6:40:27<11:15:28,  3.67it/s] 60%|█████▉    | 222585/371472 [6:40:27<11:39:33,  3.55it/s] 60%|█████▉    | 222586/371472 [6:40:28<13:16:05,  3.12it/s] 60%|█████▉    | 222587/371472 [6:40:28<12:51:36,  3.22it/s] 60%|█████▉    | 222588/371472 [6:40:28<12:22:31,  3.34it/s] 60%|█████▉    | 222589/371472 [6:40:29<11:44:13,  3.52it/s] 60%|█████▉    | 222590/371472 [6:40:29<12:00:11,  3.45it/s] 60%|█████▉    | 222591/371472 [6:40:29<12:46:51,  3.24it/s] 60%|█████▉    | 222592/371472 [6:40:29<12:07:42,  3.41it/s] 60%|█████▉    | 222593/371472 [6:40:30<12:02:50,  3.43it/s] 60%|█████▉    | 222594/371472 [6:40:30<11:48:44,  3.50it/s] 60%|█████▉    | 222595/371472 [6:40:30<12:32:00,  3.30it/s] 60%|█████▉    | 222596/371472 [6:40:31<12:41:08,  3.26it/s] 60%|█████▉    | 222597/371472 [6:40:31<12:37:33,  3.28it/s] 60%|█████▉    | 222598/371472 [6:40:31<12:36:09,  3.28it/s] 60%|█████▉    | 222599/371472 [6:40:32<12:16:55,  3.37it/s] 60%|█████▉    | 222600/371472 [6:40:32<12:11:59,  3.39it/s]                                                            {'loss': 2.7927, 'learning_rate': 4.6088043267469675e-07, 'epoch': 9.59}
 60%|█████▉    | 222600/371472 [6:40:32<12:11:59,  3.39it/s] 60%|█████▉    | 222601/371472 [6:40:32<11:59:08,  3.45it/s] 60%|█████▉    | 222602/371472 [6:40:32<11:29:29,  3.60it/s] 60%|█████▉    | 222603/371472 [6:40:33<11:31:38,  3.59it/s] 60%|█████▉    | 222604/371472 [6:40:33<11:20:27,  3.65it/s] 60%|█████▉    | 222605/371472 [6:40:33<11:15:33,  3.67it/s] 60%|█████▉    | 222606/371472 [6:40:34<11:15:01,  3.68it/s] 60%|█████▉    | 222607/371472 [6:40:34<12:41:28,  3.26it/s] 60%|█████▉    | 222608/371472 [6:40:34<12:18:24,  3.36it/s] 60%|█████▉    | 222609/371472 [6:40:34<11:40:25,  3.54it/s] 60%|█████▉    | 222610/371472 [6:40:35<11:16:13,  3.67it/s] 60%|█████▉    | 222611/371472 [6:40:35<11:41:35,  3.54it/s] 60%|█████▉    | 222612/371472 [6:40:35<11:18:02,  3.66it/s] 60%|█████▉    | 222613/371472 [6:40:35<11:05:25,  3.73it/s] 60%|█████▉    | 222614/371472 [6:40:36<11:51:17,  3.49it/s] 60%|█████▉    | 222615/371472 [6:40:36<11:36:53,  3.56it/s] 60%|█████▉    | 222616/371472 [6:40:36<12:27:33,  3.32it/s] 60%|█████▉    | 222617/371472 [6:40:37<12:24:54,  3.33it/s] 60%|█████▉    | 222618/371472 [6:40:37<11:53:24,  3.48it/s] 60%|█████▉    | 222619/371472 [6:40:37<11:50:19,  3.49it/s] 60%|█████▉    | 222620/371472 [6:40:38<12:20:38,  3.35it/s]                                                            {'loss': 2.9495, 'learning_rate': 4.608319506992178e-07, 'epoch': 9.59}
 60%|█████▉    | 222620/371472 [6:40:38<12:20:38,  3.35it/s] 60%|█████▉    | 222621/371472 [6:40:38<12:18:26,  3.36it/s] 60%|█████▉    | 222622/371472 [6:40:38<11:52:39,  3.48it/s] 60%|█████▉    | 222623/371472 [6:40:38<12:31:10,  3.30it/s] 60%|█████▉    | 222624/371472 [6:40:39<12:56:22,  3.20it/s] 60%|█████▉    | 222625/371472 [6:40:39<12:19:15,  3.36it/s] 60%|█████▉    | 222626/371472 [6:40:39<12:01:12,  3.44it/s] 60%|█████▉    | 222627/371472 [6:40:40<12:01:10,  3.44it/s] 60%|█████▉    | 222628/371472 [6:40:40<11:43:03,  3.53it/s] 60%|█████▉    | 222629/371472 [6:40:40<11:32:26,  3.58it/s] 60%|█████▉    | 222630/371472 [6:40:40<11:21:33,  3.64it/s] 60%|█████▉    | 222631/371472 [6:40:41<11:08:47,  3.71it/s] 60%|█████▉    | 222632/371472 [6:40:41<11:06:26,  3.72it/s] 60%|█████▉    | 222633/371472 [6:40:41<11:07:32,  3.72it/s] 60%|█████▉    | 222634/371472 [6:40:42<11:19:19,  3.65it/s] 60%|█████▉    | 222635/371472 [6:40:42<11:09:24,  3.71it/s] 60%|█████▉    | 222636/371472 [6:40:42<11:19:51,  3.65it/s] 60%|█████▉    | 222637/371472 [6:40:42<11:03:24,  3.74it/s] 60%|█████▉    | 222638/371472 [6:40:43<10:57:57,  3.77it/s] 60%|█████▉    | 222639/371472 [6:40:43<11:02:21,  3.75it/s] 60%|█████▉    | 222640/371472 [6:40:43<11:27:42,  3.61it/s]                                                            {'loss': 3.0447, 'learning_rate': 4.6078346872373895e-07, 'epoch': 9.59}
 60%|█████▉    | 222640/371472 [6:40:43<11:27:42,  3.61it/s] 60%|█████▉    | 222641/371472 [6:40:43<11:10:12,  3.70it/s] 60%|█████▉    | 222642/371472 [6:40:44<11:04:48,  3.73it/s] 60%|█████▉    | 222643/371472 [6:40:44<11:22:02,  3.64it/s] 60%|█████▉    | 222644/371472 [6:40:44<12:14:10,  3.38it/s] 60%|█████▉    | 222645/371472 [6:40:45<12:01:39,  3.44it/s] 60%|█████▉    | 222646/371472 [6:40:45<11:31:10,  3.59it/s] 60%|█████▉    | 222647/371472 [6:40:45<11:32:11,  3.58it/s] 60%|█████▉    | 222648/371472 [6:40:45<11:41:11,  3.54it/s] 60%|█████▉    | 222649/371472 [6:40:46<11:45:18,  3.52it/s] 60%|█████▉    | 222650/371472 [6:40:46<12:07:01,  3.41it/s] 60%|█████▉    | 222651/371472 [6:40:46<11:43:27,  3.53it/s] 60%|█████▉    | 222652/371472 [6:40:47<11:42:41,  3.53it/s] 60%|█████▉    | 222653/371472 [6:40:47<13:44:21,  3.01it/s] 60%|█████▉    | 222654/371472 [6:40:47<13:50:41,  2.99it/s] 60%|█████▉    | 222655/371472 [6:40:48<13:01:37,  3.17it/s] 60%|█████▉    | 222656/371472 [6:40:48<13:09:15,  3.14it/s] 60%|█████▉    | 222657/371472 [6:40:48<12:56:12,  3.20it/s] 60%|█████▉    | 222658/371472 [6:40:49<12:35:47,  3.28it/s] 60%|█████▉    | 222659/371472 [6:40:49<12:11:33,  3.39it/s] 60%|█████▉    | 222660/371472 [6:40:49<11:45:03,  3.52it/s]                                                            {'loss': 2.7774, 'learning_rate': 4.6073498674826e-07, 'epoch': 9.59}
 60%|█████▉    | 222660/371472 [6:40:49<11:45:03,  3.52it/s] 60%|█████▉    | 222661/371472 [6:40:49<12:21:37,  3.34it/s] 60%|█████▉    | 222662/371472 [6:40:50<12:16:34,  3.37it/s] 60%|█████▉    | 222663/371472 [6:40:50<11:44:56,  3.52it/s] 60%|█████▉    | 222664/371472 [6:40:50<11:51:38,  3.49it/s] 60%|█████▉    | 222665/371472 [6:40:50<11:29:21,  3.60it/s] 60%|█████▉    | 222666/371472 [6:40:51<11:21:44,  3.64it/s] 60%|█████▉    | 222667/371472 [6:40:51<11:00:52,  3.75it/s] 60%|█████▉    | 222668/371472 [6:40:51<11:27:52,  3.61it/s] 60%|█████▉    | 222669/371472 [6:40:52<11:38:40,  3.55it/s] 60%|█████▉    | 222670/371472 [6:40:52<11:32:46,  3.58it/s] 60%|█████▉    | 222671/371472 [6:40:52<11:12:59,  3.69it/s] 60%|█████▉    | 222672/371472 [6:40:52<11:22:43,  3.63it/s] 60%|█████▉    | 222673/371472 [6:40:53<11:41:02,  3.54it/s] 60%|█████▉    | 222674/371472 [6:40:53<11:27:51,  3.61it/s] 60%|█████▉    | 222675/371472 [6:40:53<11:28:10,  3.60it/s] 60%|█████▉    | 222676/371472 [6:40:54<11:22:48,  3.63it/s] 60%|█████▉    | 222677/371472 [6:40:54<11:13:25,  3.68it/s] 60%|█████▉    | 222678/371472 [6:40:54<11:20:04,  3.65it/s] 60%|█████▉    | 222679/371472 [6:40:54<11:22:55,  3.63it/s] 60%|█████▉    | 222680/371472 [6:40:55<11:04:16,  3.73it/s]                                                            {'loss': 2.851, 'learning_rate': 4.606865047727812e-07, 'epoch': 9.59}
 60%|█████▉    | 222680/371472 [6:40:55<11:04:16,  3.73it/s] 60%|█████▉    | 222681/371472 [6:40:55<11:35:43,  3.56it/s] 60%|█████▉    | 222682/371472 [6:40:55<11:52:18,  3.48it/s] 60%|█████▉    | 222683/371472 [6:40:55<11:13:59,  3.68it/s] 60%|█████▉    | 222684/371472 [6:40:56<11:13:15,  3.68it/s] 60%|█████▉    | 222685/371472 [6:40:56<11:21:34,  3.64it/s] 60%|█████▉    | 222686/371472 [6:40:56<11:43:12,  3.53it/s] 60%|█████▉    | 222687/371472 [6:40:57<12:21:54,  3.34it/s] 60%|█████▉    | 222688/371472 [6:40:57<12:22:23,  3.34it/s] 60%|█████▉    | 222689/371472 [6:40:57<12:22:09,  3.34it/s] 60%|█████▉    | 222690/371472 [6:40:58<12:02:49,  3.43it/s] 60%|█████▉    | 222691/371472 [6:40:58<11:42:24,  3.53it/s] 60%|█████▉    | 222692/371472 [6:40:58<12:40:47,  3.26it/s] 60%|█████▉    | 222693/371472 [6:40:58<12:34:55,  3.28it/s] 60%|█████▉    | 222694/371472 [6:40:59<12:06:29,  3.41it/s] 60%|█████▉    | 222695/371472 [6:40:59<11:40:54,  3.54it/s] 60%|█████▉    | 222696/371472 [6:40:59<11:58:43,  3.45it/s] 60%|█████▉    | 222697/371472 [6:41:00<12:00:27,  3.44it/s] 60%|█████▉    | 222698/371472 [6:41:00<11:28:05,  3.60it/s] 60%|█████▉    | 222699/371472 [6:41:00<11:30:46,  3.59it/s] 60%|█████▉    | 222700/371472 [6:41:00<11:26:57,  3.61it/s]                                                            {'loss': 2.8302, 'learning_rate': 4.6063802279730227e-07, 'epoch': 9.59}
 60%|█████▉    | 222700/371472 [6:41:00<11:26:57,  3.61it/s] 60%|█████▉    | 222701/371472 [6:41:01<12:07:33,  3.41it/s] 60%|█████▉    | 222702/371472 [6:41:01<12:26:43,  3.32it/s] 60%|█████▉    | 222703/371472 [6:41:01<12:43:32,  3.25it/s] 60%|█████▉    | 222704/371472 [6:41:02<12:19:58,  3.35it/s] 60%|█████▉    | 222705/371472 [6:41:02<11:42:22,  3.53it/s] 60%|█████▉    | 222706/371472 [6:41:02<11:32:40,  3.58it/s] 60%|█████▉    | 222707/371472 [6:41:02<11:07:09,  3.72it/s] 60%|█████▉    | 222708/371472 [6:41:03<11:11:35,  3.69it/s] 60%|█████▉    | 222709/371472 [6:41:03<11:34:13,  3.57it/s] 60%|█████▉    | 222710/371472 [6:41:03<12:02:55,  3.43it/s] 60%|█████▉    | 222711/371472 [6:41:04<12:08:05,  3.41it/s] 60%|█████▉    | 222712/371472 [6:41:04<11:54:17,  3.47it/s] 60%|█████▉    | 222713/371472 [6:41:04<11:34:12,  3.57it/s] 60%|█████▉    | 222714/371472 [6:41:04<11:15:56,  3.67it/s] 60%|█████▉    | 222715/371472 [6:41:05<11:12:47,  3.69it/s] 60%|█████▉    | 222716/371472 [6:41:05<11:02:31,  3.74it/s] 60%|█████▉    | 222717/371472 [6:41:05<12:29:17,  3.31it/s] 60%|█████▉    | 222718/371472 [6:41:06<11:56:00,  3.46it/s] 60%|█████▉    | 222719/371472 [6:41:06<11:50:22,  3.49it/s] 60%|█████▉    | 222720/371472 [6:41:06<11:19:47,  3.65it/s]                                                            {'loss': 3.0258, 'learning_rate': 4.605895408218233e-07, 'epoch': 9.59}
 60%|█████▉    | 222720/371472 [6:41:06<11:19:47,  3.65it/s] 60%|█████▉    | 222721/371472 [6:41:06<11:10:50,  3.70it/s] 60%|█████▉    | 222722/371472 [6:41:07<11:08:46,  3.71it/s] 60%|█████▉    | 222723/371472 [6:41:07<11:18:33,  3.65it/s] 60%|█████▉    | 222724/371472 [6:41:07<11:14:32,  3.68it/s] 60%|█████▉    | 222725/371472 [6:41:07<11:56:12,  3.46it/s] 60%|█████▉    | 222726/371472 [6:41:08<12:03:40,  3.43it/s] 60%|█████▉    | 222727/371472 [6:41:08<12:00:03,  3.44it/s] 60%|█████▉    | 222728/371472 [6:41:08<11:55:30,  3.46it/s] 60%|█████▉    | 222729/371472 [6:41:09<11:26:50,  3.61it/s] 60%|█████▉    | 222730/371472 [6:41:09<11:27:33,  3.61it/s] 60%|█████▉    | 222731/371472 [6:41:09<11:18:49,  3.65it/s] 60%|█████▉    | 222732/371472 [6:41:09<11:48:30,  3.50it/s] 60%|█████▉    | 222733/371472 [6:41:10<12:09:58,  3.40it/s] 60%|█████▉    | 222734/371472 [6:41:10<11:50:22,  3.49it/s] 60%|█████▉    | 222735/371472 [6:41:10<12:24:59,  3.33it/s] 60%|█████▉    | 222736/371472 [6:41:11<12:25:49,  3.32it/s] 60%|█████▉    | 222737/371472 [6:41:11<13:06:29,  3.15it/s] 60%|█████▉    | 222738/371472 [6:41:11<12:14:10,  3.38it/s] 60%|█████▉    | 222739/371472 [6:41:12<11:59:08,  3.45it/s] 60%|█████▉    | 222740/371472 [6:41:12<12:30:05,  3.30it/s]                                                            {'loss': 2.9148, 'learning_rate': 4.6054105884634446e-07, 'epoch': 9.59}
 60%|█████▉    | 222740/371472 [6:41:12<12:30:05,  3.30it/s] 60%|█████▉    | 222741/371472 [6:41:12<12:14:26,  3.38it/s] 60%|█████▉    | 222742/371472 [6:41:12<12:01:16,  3.44it/s] 60%|█████▉    | 222743/371472 [6:41:13<12:17:03,  3.36it/s] 60%|█████▉    | 222744/371472 [6:41:13<11:44:18,  3.52it/s] 60%|█████▉    | 222745/371472 [6:41:13<11:45:27,  3.51it/s] 60%|█████▉    | 222746/371472 [6:41:14<11:29:46,  3.59it/s] 60%|█████▉    | 222747/371472 [6:41:14<11:35:53,  3.56it/s] 60%|█████▉    | 222748/371472 [6:41:14<11:03:13,  3.74it/s] 60%|█████▉    | 222749/371472 [6:41:14<11:05:50,  3.72it/s] 60%|█████▉    | 222750/371472 [6:41:15<11:48:15,  3.50it/s] 60%|█████▉    | 222751/371472 [6:41:15<11:40:47,  3.54it/s] 60%|█████▉    | 222752/371472 [6:41:15<11:40:29,  3.54it/s] 60%|█████▉    | 222753/371472 [6:41:15<11:23:37,  3.63it/s] 60%|█████▉    | 222754/371472 [6:41:16<11:05:05,  3.73it/s] 60%|█████▉    | 222755/371472 [6:41:16<11:07:50,  3.71it/s] 60%|█████▉    | 222756/371472 [6:41:16<11:02:18,  3.74it/s] 60%|█████▉    | 222757/371472 [6:41:17<10:45:17,  3.84it/s] 60%|█████▉    | 222758/371472 [6:41:17<10:52:17,  3.80it/s] 60%|█████▉    | 222759/371472 [6:41:17<11:39:25,  3.54it/s] 60%|█████▉    | 222760/371472 [6:41:17<11:37:19,  3.55it/s]                                                            {'loss': 2.7488, 'learning_rate': 4.604925768708655e-07, 'epoch': 9.59}
 60%|█████▉    | 222760/371472 [6:41:17<11:37:19,  3.55it/s] 60%|█████▉    | 222761/371472 [6:41:18<11:40:19,  3.54it/s] 60%|█████▉    | 222762/371472 [6:41:18<11:55:10,  3.47it/s] 60%|█████▉    | 222763/371472 [6:41:18<12:23:24,  3.33it/s] 60%|█████▉    | 222764/371472 [6:41:19<12:05:05,  3.42it/s] 60%|█████▉    | 222765/371472 [6:41:19<12:15:48,  3.37it/s] 60%|█████▉    | 222766/371472 [6:41:19<11:33:22,  3.57it/s] 60%|█████▉    | 222767/371472 [6:41:19<11:24:44,  3.62it/s] 60%|█████▉    | 222768/371472 [6:41:20<11:18:06,  3.65it/s] 60%|█████▉    | 222769/371472 [6:41:20<11:10:52,  3.69it/s] 60%|█████▉    | 222770/371472 [6:41:20<11:45:05,  3.51it/s] 60%|█████▉    | 222771/371472 [6:41:21<12:06:45,  3.41it/s] 60%|█████▉    | 222772/371472 [6:41:21<13:57:03,  2.96it/s] 60%|█████▉    | 222773/371472 [6:41:21<13:07:22,  3.15it/s] 60%|█████▉    | 222774/371472 [6:41:22<12:32:23,  3.29it/s] 60%|█████▉    | 222775/371472 [6:41:22<12:08:58,  3.40it/s] 60%|█████▉    | 222776/371472 [6:41:22<12:32:09,  3.29it/s] 60%|█████▉    | 222777/371472 [6:41:22<12:06:57,  3.41it/s] 60%|█████▉    | 222778/371472 [6:41:23<12:29:15,  3.31it/s] 60%|█████▉    | 222779/371472 [6:41:23<11:53:12,  3.47it/s] 60%|█████▉    | 222780/371472 [6:41:23<11:41:11,  3.53it/s]                                                            {'loss': 2.9056, 'learning_rate': 4.6044409489538666e-07, 'epoch': 9.6}
 60%|█████▉    | 222780/371472 [6:41:23<11:41:11,  3.53it/s] 60%|█████▉    | 222781/371472 [6:41:24<11:29:26,  3.59it/s] 60%|█████▉    | 222782/371472 [6:41:24<11:05:29,  3.72it/s] 60%|█████▉    | 222783/371472 [6:41:24<11:05:38,  3.72it/s] 60%|█████▉    | 222784/371472 [6:41:24<11:05:10,  3.73it/s] 60%|█████▉    | 222785/371472 [6:41:25<11:09:26,  3.70it/s] 60%|█████▉    | 222786/371472 [6:41:25<11:05:26,  3.72it/s] 60%|█████▉    | 222787/371472 [6:41:25<11:12:12,  3.69it/s] 60%|█████▉    | 222788/371472 [6:41:25<11:21:29,  3.64it/s] 60%|█████▉    | 222789/371472 [6:41:26<11:17:40,  3.66it/s] 60%|█████▉    | 222790/371472 [6:41:26<11:13:46,  3.68it/s] 60%|█████▉    | 222791/371472 [6:41:26<11:35:59,  3.56it/s] 60%|█████▉    | 222792/371472 [6:41:26<11:22:17,  3.63it/s] 60%|█████▉    | 222793/371472 [6:41:27<11:32:05,  3.58it/s] 60%|█████▉    | 222794/371472 [6:41:27<11:30:36,  3.59it/s] 60%|█████▉    | 222795/371472 [6:41:27<11:36:55,  3.56it/s] 60%|█████▉    | 222796/371472 [6:41:28<12:39:41,  3.26it/s] 60%|█████▉    | 222797/371472 [6:41:28<12:21:20,  3.34it/s] 60%|█████▉    | 222798/371472 [6:41:28<11:47:07,  3.50it/s] 60%|█████▉    | 222799/371472 [6:41:29<11:31:05,  3.59it/s] 60%|█████▉    | 222800/371472 [6:41:29<11:41:01,  3.53it/s]                                                            {'loss': 2.8473, 'learning_rate': 4.6039561291990773e-07, 'epoch': 9.6}
 60%|█████▉    | 222800/371472 [6:41:29<11:41:01,  3.53it/s] 60%|█████▉    | 222801/371472 [6:41:29<11:32:41,  3.58it/s] 60%|█████▉    | 222802/371472 [6:41:29<11:09:23,  3.70it/s] 60%|█████▉    | 222803/371472 [6:41:30<10:42:46,  3.85it/s] 60%|█████▉    | 222804/371472 [6:41:30<10:38:26,  3.88it/s] 60%|█████▉    | 222805/371472 [6:41:30<11:41:46,  3.53it/s] 60%|█████▉    | 222806/371472 [6:41:30<11:43:07,  3.52it/s] 60%|█████▉    | 222807/371472 [6:41:31<11:29:43,  3.59it/s] 60%|█████▉    | 222808/371472 [6:41:31<11:46:29,  3.51it/s] 60%|█████▉    | 222809/371472 [6:41:31<11:48:53,  3.50it/s] 60%|█████▉    | 222810/371472 [6:41:32<11:31:28,  3.58it/s] 60%|█████▉    | 222811/371472 [6:41:32<11:12:59,  3.68it/s] 60%|█████▉    | 222812/371472 [6:41:32<11:24:24,  3.62it/s] 60%|█████▉    | 222813/371472 [6:41:32<12:11:09,  3.39it/s] 60%|█████▉    | 222814/371472 [6:41:33<11:48:54,  3.50it/s] 60%|█████▉    | 222815/371472 [6:41:33<11:44:07,  3.52it/s] 60%|█████▉    | 222816/371472 [6:41:33<11:54:39,  3.47it/s] 60%|█████▉    | 222817/371472 [6:41:34<12:00:57,  3.44it/s] 60%|█████▉    | 222818/371472 [6:41:34<11:46:12,  3.51it/s] 60%|█████▉    | 222819/371472 [6:41:34<11:14:05,  3.68it/s] 60%|█████▉    | 222820/371472 [6:41:34<11:11:23,  3.69it/s]                                                            {'loss': 2.932, 'learning_rate': 4.6034713094442885e-07, 'epoch': 9.6}
 60%|█████▉    | 222820/371472 [6:41:34<11:11:23,  3.69it/s] 60%|█████▉    | 222821/371472 [6:41:35<11:40:23,  3.54it/s] 60%|█████▉    | 222822/371472 [6:41:35<11:49:06,  3.49it/s] 60%|█████▉    | 222823/371472 [6:41:35<11:39:32,  3.54it/s] 60%|█████▉    | 222824/371472 [6:41:36<12:08:24,  3.40it/s] 60%|█████▉    | 222825/371472 [6:41:36<12:25:13,  3.32it/s] 60%|█████▉    | 222826/371472 [6:41:36<12:25:36,  3.32it/s] 60%|█████▉    | 222827/371472 [6:41:36<12:33:49,  3.29it/s] 60%|█████▉    | 222828/371472 [6:41:37<12:54:27,  3.20it/s] 60%|█████▉    | 222829/371472 [6:41:37<12:06:11,  3.41it/s] 60%|█████▉    | 222830/371472 [6:41:37<11:48:05,  3.50it/s] 60%|█████▉    | 222831/371472 [6:41:38<12:03:29,  3.42it/s] 60%|█████▉    | 222832/371472 [6:41:38<12:25:34,  3.32it/s] 60%|█████▉    | 222833/371472 [6:41:38<11:57:45,  3.45it/s] 60%|█████▉    | 222834/371472 [6:41:39<11:43:53,  3.52it/s] 60%|█████▉    | 222835/371472 [6:41:39<11:39:18,  3.54it/s] 60%|█████▉    | 222836/371472 [6:41:39<11:57:26,  3.45it/s] 60%|█████▉    | 222837/371472 [6:41:39<11:30:42,  3.59it/s] 60%|█████▉    | 222838/371472 [6:41:40<12:19:31,  3.35it/s] 60%|█████▉    | 222839/371472 [6:41:40<12:12:03,  3.38it/s] 60%|█████▉    | 222840/371472 [6:41:40<12:17:43,  3.36it/s]                                                            {'loss': 3.0142, 'learning_rate': 4.602986489689499e-07, 'epoch': 9.6}
 60%|█████▉    | 222840/371472 [6:41:40<12:17:43,  3.36it/s] 60%|█████▉    | 222841/371472 [6:41:41<11:55:19,  3.46it/s] 60%|█████▉    | 222842/371472 [6:41:41<11:47:20,  3.50it/s] 60%|█████▉    | 222843/371472 [6:41:41<12:01:22,  3.43it/s] 60%|█████▉    | 222844/371472 [6:41:41<11:55:10,  3.46it/s] 60%|█████▉    | 222845/371472 [6:41:42<11:38:12,  3.55it/s] 60%|█████▉    | 222846/371472 [6:41:42<12:22:56,  3.33it/s] 60%|█████▉    | 222847/371472 [6:41:42<12:29:16,  3.31it/s] 60%|█████▉    | 222848/371472 [6:41:43<12:17:39,  3.36it/s] 60%|█████▉    | 222849/371472 [6:41:43<11:54:57,  3.46it/s] 60%|█████▉    | 222850/371472 [6:41:43<12:07:18,  3.41it/s] 60%|█████▉    | 222851/371472 [6:41:43<11:33:29,  3.57it/s] 60%|█████▉    | 222852/371472 [6:41:44<11:14:02,  3.67it/s] 60%|█████▉    | 222853/371472 [6:41:44<11:12:21,  3.68it/s] 60%|█████▉    | 222854/371472 [6:41:44<11:05:01,  3.72it/s] 60%|█████▉    | 222855/371472 [6:41:44<11:04:16,  3.73it/s] 60%|█████▉    | 222856/371472 [6:41:45<11:17:34,  3.66it/s] 60%|█████▉    | 222857/371472 [6:41:45<11:59:52,  3.44it/s] 60%|█████▉    | 222858/371472 [6:41:45<12:47:38,  3.23it/s] 60%|█████▉    | 222859/371472 [6:41:46<12:13:41,  3.38it/s] 60%|█████▉    | 222860/371472 [6:41:46<12:08:05,  3.40it/s]                                                            {'loss': 2.8326, 'learning_rate': 4.602501669934711e-07, 'epoch': 9.6}
 60%|█████▉    | 222860/371472 [6:41:46<12:08:05,  3.40it/s] 60%|█████▉    | 222861/371472 [6:41:46<12:24:49,  3.33it/s] 60%|█████▉    | 222862/371472 [6:41:47<12:38:49,  3.26it/s] 60%|█████▉    | 222863/371472 [6:41:47<12:43:46,  3.24it/s] 60%|█████▉    | 222864/371472 [6:41:47<12:22:17,  3.34it/s] 60%|█████▉    | 222865/371472 [6:41:48<12:30:54,  3.30it/s] 60%|█████▉    | 222866/371472 [6:41:48<12:45:55,  3.23it/s] 60%|█████▉    | 222867/371472 [6:41:48<12:26:15,  3.32it/s] 60%|█████▉    | 222868/371472 [6:41:48<12:10:57,  3.39it/s] 60%|█████▉    | 222869/371472 [6:41:49<12:09:24,  3.40it/s] 60%|█████▉    | 222870/371472 [6:41:49<11:51:32,  3.48it/s] 60%|█████▉    | 222871/371472 [6:41:49<11:44:42,  3.51it/s] 60%|█████▉    | 222872/371472 [6:41:50<11:53:47,  3.47it/s] 60%|█████▉    | 222873/371472 [6:41:50<12:18:57,  3.35it/s] 60%|█████▉    | 222874/371472 [6:41:50<12:02:54,  3.43it/s] 60%|█████▉    | 222875/371472 [6:41:50<11:44:28,  3.52it/s] 60%|█████▉    | 222876/371472 [6:41:51<11:22:31,  3.63it/s] 60%|█████▉    | 222877/371472 [6:41:51<11:14:40,  3.67it/s] 60%|█████▉    | 222878/371472 [6:41:51<11:28:44,  3.60it/s] 60%|█████▉    | 222879/371472 [6:41:52<11:36:53,  3.55it/s] 60%|█████▉    | 222880/371472 [6:41:52<11:17:47,  3.65it/s]                                                            {'loss': 3.0112, 'learning_rate': 4.602016850179922e-07, 'epoch': 9.6}
 60%|█████▉    | 222880/371472 [6:41:52<11:17:47,  3.65it/s] 60%|█████▉    | 222881/371472 [6:41:52<10:54:58,  3.78it/s] 60%|█████▉    | 222882/371472 [6:41:52<11:39:30,  3.54it/s] 60%|█████▉    | 222883/371472 [6:41:53<11:38:27,  3.55it/s] 60%|██████    | 222884/371472 [6:41:53<11:17:38,  3.65it/s] 60%|██████    | 222885/371472 [6:41:53<11:17:00,  3.66it/s] 60%|██████    | 222886/371472 [6:41:54<11:58:27,  3.45it/s] 60%|██████    | 222887/371472 [6:41:54<12:06:38,  3.41it/s] 60%|██████    | 222888/371472 [6:41:54<11:45:19,  3.51it/s] 60%|██████    | 222889/371472 [6:41:55<13:48:35,  2.99it/s] 60%|██████    | 222890/371472 [6:41:55<12:44:42,  3.24it/s] 60%|██████    | 222891/371472 [6:41:55<12:12:08,  3.38it/s] 60%|██████    | 222892/371472 [6:41:55<11:37:59,  3.55it/s] 60%|██████    | 222893/371472 [6:41:56<11:43:59,  3.52it/s] 60%|██████    | 222894/371472 [6:41:56<11:45:39,  3.51it/s] 60%|██████    | 222895/371472 [6:41:56<11:38:05,  3.55it/s] 60%|██████    | 222896/371472 [6:41:56<11:08:59,  3.70it/s] 60%|██████    | 222897/371472 [6:41:57<11:11:12,  3.69it/s] 60%|██████    | 222898/371472 [6:41:57<11:19:29,  3.64it/s] 60%|██████    | 222899/371472 [6:41:57<11:04:41,  3.73it/s] 60%|██████    | 222900/371472 [6:41:57<11:25:00,  3.61it/s]                                                            {'loss': 3.0719, 'learning_rate': 4.601532030425133e-07, 'epoch': 9.6}
 60%|██████    | 222900/371472 [6:41:57<11:25:00,  3.61it/s] 60%|██████    | 222901/371472 [6:41:58<11:17:30,  3.65it/s] 60%|██████    | 222902/371472 [6:41:58<11:25:32,  3.61it/s] 60%|██████    | 222903/371472 [6:41:58<11:07:47,  3.71it/s] 60%|██████    | 222904/371472 [6:41:59<11:23:26,  3.62it/s] 60%|██████    | 222905/371472 [6:41:59<12:36:33,  3.27it/s] 60%|██████    | 222906/371472 [6:41:59<11:57:40,  3.45it/s] 60%|██████    | 222907/371472 [6:41:59<11:58:05,  3.45it/s] 60%|██████    | 222908/371472 [6:42:00<11:37:17,  3.55it/s] 60%|██████    | 222909/371472 [6:42:00<11:17:28,  3.65it/s] 60%|██████    | 222910/371472 [6:42:00<12:00:13,  3.44it/s] 60%|██████    | 222911/371472 [6:42:01<12:01:35,  3.43it/s] 60%|██████    | 222912/371472 [6:42:01<12:13:14,  3.38it/s] 60%|██████    | 222913/371472 [6:42:01<12:32:53,  3.29it/s] 60%|██████    | 222914/371472 [6:42:02<11:49:37,  3.49it/s] 60%|██████    | 222915/371472 [6:42:02<12:23:52,  3.33it/s] 60%|██████    | 222916/371472 [6:42:02<11:51:23,  3.48it/s] 60%|██████    | 222917/371472 [6:42:02<11:30:00,  3.59it/s] 60%|██████    | 222918/371472 [6:42:03<11:19:09,  3.65it/s] 60%|██████    | 222919/371472 [6:42:03<11:47:38,  3.50it/s] 60%|██████    | 222920/371472 [6:42:03<11:18:56,  3.65it/s]                                                            {'loss': 2.9629, 'learning_rate': 4.6010472106703437e-07, 'epoch': 9.6}
 60%|██████    | 222920/371472 [6:42:03<11:18:56,  3.65it/s] 60%|██████    | 222921/371472 [6:42:03<11:21:28,  3.63it/s] 60%|██████    | 222922/371472 [6:42:04<12:53:03,  3.20it/s] 60%|██████    | 222923/371472 [6:42:04<12:36:52,  3.27it/s] 60%|██████    | 222924/371472 [6:42:04<13:01:43,  3.17it/s] 60%|██████    | 222925/371472 [6:42:05<12:30:45,  3.30it/s] 60%|██████    | 222926/371472 [6:42:05<11:51:33,  3.48it/s] 60%|██████    | 222927/371472 [6:42:05<11:40:09,  3.54it/s] 60%|██████    | 222928/371472 [6:42:06<11:24:12,  3.62it/s] 60%|██████    | 222929/371472 [6:42:06<13:53:17,  2.97it/s] 60%|██████    | 222930/371472 [6:42:06<13:19:19,  3.10it/s] 60%|██████    | 222931/371472 [6:42:07<12:57:58,  3.18it/s] 60%|██████    | 222932/371472 [6:42:07<13:10:58,  3.13it/s] 60%|██████    | 222933/371472 [6:42:07<12:48:00,  3.22it/s] 60%|██████    | 222934/371472 [6:42:08<12:49:11,  3.22it/s] 60%|██████    | 222935/371472 [6:42:08<12:34:10,  3.28it/s] 60%|██████    | 222936/371472 [6:42:08<13:29:39,  3.06it/s] 60%|██████    | 222937/371472 [6:42:09<13:12:26,  3.12it/s] 60%|██████    | 222938/371472 [6:42:09<12:33:50,  3.28it/s] 60%|██████    | 222939/371472 [6:42:09<12:02:24,  3.43it/s] 60%|██████    | 222940/371472 [6:42:09<11:36:02,  3.56it/s]                                                            {'loss': 2.9451, 'learning_rate': 4.600562390915555e-07, 'epoch': 9.6}
 60%|██████    | 222940/371472 [6:42:09<11:36:02,  3.56it/s] 60%|██████    | 222941/371472 [6:42:10<11:24:23,  3.62it/s] 60%|██████    | 222942/371472 [6:42:10<11:01:38,  3.74it/s] 60%|██████    | 222943/371472 [6:42:10<10:56:03,  3.77it/s] 60%|██████    | 222944/371472 [6:42:10<11:10:56,  3.69it/s] 60%|██████    | 222945/371472 [6:42:11<11:18:10,  3.65it/s] 60%|██████    | 222946/371472 [6:42:11<11:02:52,  3.73it/s] 60%|██████    | 222947/371472 [6:42:11<10:48:38,  3.82it/s] 60%|██████    | 222948/371472 [6:42:11<11:20:50,  3.64it/s] 60%|██████    | 222949/371472 [6:42:12<11:17:22,  3.65it/s] 60%|██████    | 222950/371472 [6:42:12<10:50:53,  3.80it/s] 60%|██████    | 222951/371472 [6:42:12<10:39:43,  3.87it/s] 60%|██████    | 222952/371472 [6:42:12<11:05:47,  3.72it/s] 60%|██████    | 222953/371472 [6:42:13<11:16:03,  3.66it/s] 60%|██████    | 222954/371472 [6:42:13<11:09:38,  3.70it/s] 60%|██████    | 222955/371472 [6:42:13<11:30:04,  3.59it/s] 60%|██████    | 222956/371472 [6:42:14<11:13:07,  3.68it/s] 60%|██████    | 222957/371472 [6:42:14<11:05:16,  3.72it/s] 60%|██████    | 222958/371472 [6:42:14<11:46:52,  3.50it/s] 60%|██████    | 222959/371472 [6:42:14<11:34:31,  3.56it/s] 60%|██████    | 222960/371472 [6:42:15<11:40:45,  3.53it/s]                                                            {'loss': 2.8067, 'learning_rate': 4.6000775711607657e-07, 'epoch': 9.6}
 60%|██████    | 222960/371472 [6:42:15<11:40:45,  3.53it/s] 60%|██████    | 222961/371472 [6:42:15<12:00:57,  3.43it/s] 60%|██████    | 222962/371472 [6:42:15<12:31:16,  3.29it/s] 60%|██████    | 222963/371472 [6:42:16<12:35:22,  3.28it/s] 60%|██████    | 222964/371472 [6:42:16<11:52:57,  3.47it/s] 60%|██████    | 222965/371472 [6:42:16<11:41:06,  3.53it/s] 60%|██████    | 222966/371472 [6:42:16<11:24:32,  3.62it/s] 60%|██████    | 222967/371472 [6:42:17<12:11:14,  3.38it/s] 60%|██████    | 222968/371472 [6:42:17<12:59:53,  3.17it/s] 60%|██████    | 222969/371472 [6:42:17<12:48:37,  3.22it/s] 60%|██████    | 222970/371472 [6:42:18<12:42:44,  3.24it/s] 60%|██████    | 222971/371472 [6:42:18<12:11:51,  3.38it/s] 60%|██████    | 222972/371472 [6:42:18<11:47:43,  3.50it/s] 60%|██████    | 222973/371472 [6:42:19<11:34:28,  3.56it/s] 60%|██████    | 222974/371472 [6:42:19<11:38:39,  3.54it/s] 60%|██████    | 222975/371472 [6:42:19<11:14:36,  3.67it/s] 60%|██████    | 222976/371472 [6:42:19<11:04:32,  3.72it/s] 60%|██████    | 222977/371472 [6:42:20<11:23:35,  3.62it/s] 60%|██████    | 222978/371472 [6:42:20<11:24:20,  3.62it/s] 60%|██████    | 222979/371472 [6:42:20<11:16:19,  3.66it/s] 60%|██████    | 222980/371472 [6:42:21<13:16:36,  3.11it/s]                                                            {'loss': 2.9194, 'learning_rate': 4.5995927514059774e-07, 'epoch': 9.6}
 60%|██████    | 222980/371472 [6:42:21<13:16:36,  3.11it/s] 60%|██████    | 222981/371472 [6:42:21<12:37:49,  3.27it/s] 60%|██████    | 222982/371472 [6:42:21<12:33:10,  3.29it/s] 60%|██████    | 222983/371472 [6:42:21<11:45:48,  3.51it/s] 60%|██████    | 222984/371472 [6:42:22<11:36:21,  3.55it/s] 60%|██████    | 222985/371472 [6:42:22<11:20:43,  3.64it/s] 60%|██████    | 222986/371472 [6:42:22<11:48:18,  3.49it/s] 60%|██████    | 222987/371472 [6:42:23<11:58:56,  3.44it/s] 60%|██████    | 222988/371472 [6:42:23<12:18:00,  3.35it/s] 60%|██████    | 222989/371472 [6:42:23<13:20:13,  3.09it/s] 60%|██████    | 222990/371472 [6:42:24<12:41:00,  3.25it/s] 60%|██████    | 222991/371472 [6:42:24<12:42:26,  3.25it/s] 60%|██████    | 222992/371472 [6:42:24<11:55:07,  3.46it/s] 60%|██████    | 222993/371472 [6:42:24<12:48:10,  3.22it/s] 60%|██████    | 222994/371472 [6:42:25<12:18:42,  3.35it/s] 60%|██████    | 222995/371472 [6:42:25<12:05:12,  3.41it/s] 60%|██████    | 222996/371472 [6:42:25<11:35:55,  3.56it/s] 60%|██████    | 222997/371472 [6:42:26<11:17:31,  3.65it/s] 60%|██████    | 222998/371472 [6:42:26<11:49:55,  3.49it/s] 60%|██████    | 222999/371472 [6:42:26<11:38:19,  3.54it/s] 60%|██████    | 223000/371472 [6:42:26<11:38:07,  3.54it/s]                                                            {'loss': 2.9865, 'learning_rate': 4.599107931651188e-07, 'epoch': 9.61}
 60%|██████    | 223000/371472 [6:42:26<11:38:07,  3.54it/s] 60%|██████    | 223001/371472 [6:42:27<12:19:35,  3.35it/s] 60%|██████    | 223002/371472 [6:42:27<11:57:47,  3.45it/s] 60%|██████    | 223003/371472 [6:42:27<12:04:41,  3.41it/s] 60%|██████    | 223004/371472 [6:42:28<12:47:47,  3.22it/s] 60%|██████    | 223005/371472 [6:42:28<12:38:50,  3.26it/s] 60%|██████    | 223006/371472 [6:42:28<12:12:28,  3.38it/s] 60%|██████    | 223007/371472 [6:42:29<11:59:41,  3.44it/s] 60%|██████    | 223008/371472 [6:42:29<11:38:21,  3.54it/s] 60%|██████    | 223009/371472 [6:42:29<11:23:47,  3.62it/s] 60%|██████    | 223010/371472 [6:42:29<11:54:00,  3.47it/s] 60%|██████    | 223011/371472 [6:42:30<11:10:55,  3.69it/s] 60%|██████    | 223012/371472 [6:42:30<11:31:23,  3.58it/s] 60%|██████    | 223013/371472 [6:42:30<12:36:24,  3.27it/s] 60%|██████    | 223014/371472 [6:42:31<12:01:39,  3.43it/s] 60%|██████    | 223015/371472 [6:42:31<11:37:31,  3.55it/s] 60%|██████    | 223016/371472 [6:42:31<12:01:45,  3.43it/s] 60%|██████    | 223017/371472 [6:42:31<11:38:58,  3.54it/s] 60%|██████    | 223018/371472 [6:42:32<11:29:09,  3.59it/s] 60%|██████    | 223019/371472 [6:42:32<11:11:52,  3.68it/s] 60%|██████    | 223020/371472 [6:42:32<10:53:38,  3.79it/s]                                                            {'loss': 2.9651, 'learning_rate': 4.5986231118963994e-07, 'epoch': 9.61}
 60%|██████    | 223020/371472 [6:42:32<10:53:38,  3.79it/s] 60%|██████    | 223021/371472 [6:42:32<11:09:56,  3.69it/s] 60%|██████    | 223022/371472 [6:42:33<10:51:11,  3.80it/s] 60%|██████    | 223023/371472 [6:42:33<10:55:10,  3.78it/s] 60%|██████    | 223024/371472 [6:42:33<10:48:52,  3.81it/s] 60%|██████    | 223025/371472 [6:42:34<11:59:42,  3.44it/s] 60%|██████    | 223026/371472 [6:42:34<11:34:49,  3.56it/s] 60%|██████    | 223027/371472 [6:42:34<11:54:29,  3.46it/s] 60%|██████    | 223028/371472 [6:42:34<12:00:53,  3.43it/s] 60%|██████    | 223029/371472 [6:42:35<12:13:40,  3.37it/s] 60%|██████    | 223030/371472 [6:42:35<11:50:46,  3.48it/s] 60%|██████    | 223031/371472 [6:42:35<12:18:45,  3.35it/s] 60%|██████    | 223032/371472 [6:42:36<12:18:33,  3.35it/s] 60%|██████    | 223033/371472 [6:42:36<13:15:30,  3.11it/s] 60%|██████    | 223034/371472 [6:42:36<12:53:47,  3.20it/s] 60%|██████    | 223035/371472 [6:42:37<12:34:47,  3.28it/s] 60%|██████    | 223036/371472 [6:42:37<11:59:50,  3.44it/s] 60%|██████    | 223037/371472 [6:42:37<11:47:15,  3.50it/s] 60%|██████    | 223038/371472 [6:42:37<11:25:05,  3.61it/s] 60%|██████    | 223039/371472 [6:42:38<11:22:12,  3.63it/s] 60%|██████    | 223040/371472 [6:42:38<11:27:51,  3.60it/s]                                                            {'loss': 2.9097, 'learning_rate': 4.59813829214161e-07, 'epoch': 9.61}
 60%|██████    | 223040/371472 [6:42:38<11:27:51,  3.60it/s] 60%|██████    | 223041/371472 [6:42:38<12:05:23,  3.41it/s] 60%|██████    | 223042/371472 [6:42:38<11:29:25,  3.59it/s] 60%|██████    | 223043/371472 [6:42:39<11:28:10,  3.59it/s] 60%|██████    | 223044/371472 [6:42:39<11:43:10,  3.52it/s] 60%|██████    | 223045/371472 [6:42:39<11:38:02,  3.54it/s] 60%|██████    | 223046/371472 [6:42:40<11:43:03,  3.52it/s] 60%|██████    | 223047/371472 [6:42:40<11:30:03,  3.58it/s] 60%|██████    | 223048/371472 [6:42:40<11:57:55,  3.45it/s] 60%|██████    | 223049/371472 [6:42:40<11:51:47,  3.48it/s] 60%|██████    | 223050/371472 [6:42:41<11:53:59,  3.46it/s] 60%|██████    | 223051/371472 [6:42:41<11:23:15,  3.62it/s] 60%|██████    | 223052/371472 [6:42:41<10:58:46,  3.75it/s] 60%|██████    | 223053/371472 [6:42:42<11:24:26,  3.61it/s] 60%|██████    | 223054/371472 [6:42:42<11:40:52,  3.53it/s] 60%|██████    | 223055/371472 [6:42:42<11:16:39,  3.66it/s] 60%|██████    | 223056/371472 [6:42:42<11:17:10,  3.65it/s] 60%|██████    | 223057/371472 [6:42:43<11:08:19,  3.70it/s] 60%|██████    | 223058/371472 [6:42:43<12:34:55,  3.28it/s] 60%|██████    | 223059/371472 [6:42:43<12:43:52,  3.24it/s] 60%|██████    | 223060/371472 [6:42:44<12:01:25,  3.43it/s]                                                            {'loss': 2.9255, 'learning_rate': 4.597653472386822e-07, 'epoch': 9.61}
 60%|██████    | 223060/371472 [6:42:44<12:01:25,  3.43it/s] 60%|██████    | 223061/371472 [6:42:44<11:58:51,  3.44it/s] 60%|██████    | 223062/371472 [6:42:44<11:40:14,  3.53it/s] 60%|██████    | 223063/371472 [6:42:44<11:26:14,  3.60it/s] 60%|██████    | 223064/371472 [6:42:45<12:22:41,  3.33it/s] 60%|██████    | 223065/371472 [6:42:45<11:57:28,  3.45it/s] 60%|██████    | 223066/371472 [6:42:45<12:12:34,  3.38it/s] 60%|██████    | 223067/371472 [6:42:46<11:46:38,  3.50it/s] 60%|██████    | 223068/371472 [6:42:46<11:26:54,  3.60it/s] 60%|██████    | 223069/371472 [6:42:46<11:26:17,  3.60it/s] 60%|██████    | 223070/371472 [6:42:46<11:38:43,  3.54it/s] 60%|██████    | 223071/371472 [6:42:47<12:39:55,  3.25it/s] 60%|██████    | 223072/371472 [6:42:47<12:27:21,  3.31it/s] 60%|██████    | 223073/371472 [6:42:47<12:37:08,  3.27it/s] 60%|██████    | 223074/371472 [6:42:48<11:57:05,  3.45it/s] 60%|██████    | 223075/371472 [6:42:48<12:56:57,  3.18it/s] 60%|██████    | 223076/371472 [6:42:48<12:50:07,  3.21it/s] 60%|██████    | 223077/371472 [6:42:49<12:01:23,  3.43it/s] 60%|██████    | 223078/371472 [6:42:49<11:48:12,  3.49it/s] 60%|██████    | 223079/371472 [6:42:49<11:40:51,  3.53it/s] 60%|██████    | 223080/371472 [6:42:49<11:27:09,  3.60it/s]                                                            {'loss': 2.9437, 'learning_rate': 4.597168652632032e-07, 'epoch': 9.61}
 60%|██████    | 223080/371472 [6:42:49<11:27:09,  3.60it/s] 60%|██████    | 223081/371472 [6:42:50<13:21:36,  3.09it/s] 60%|██████    | 223082/371472 [6:42:50<12:53:12,  3.20it/s] 60%|██████    | 223083/371472 [6:42:50<12:58:44,  3.18it/s] 60%|██████    | 223084/371472 [6:42:51<12:56:12,  3.19it/s] 60%|██████    | 223085/371472 [6:42:51<12:37:44,  3.26it/s] 60%|██████    | 223086/371472 [6:42:51<12:27:57,  3.31it/s] 60%|██████    | 223087/371472 [6:42:52<12:14:51,  3.37it/s] 60%|██████    | 223088/371472 [6:42:52<12:33:34,  3.28it/s] 60%|██████    | 223089/371472 [6:42:52<12:13:00,  3.37it/s] 60%|██████    | 223090/371472 [6:42:53<12:03:08,  3.42it/s] 60%|██████    | 223091/371472 [6:42:53<12:09:02,  3.39it/s] 60%|██████    | 223092/371472 [6:42:53<12:10:49,  3.38it/s] 60%|██████    | 223093/371472 [6:42:53<12:07:01,  3.40it/s] 60%|██████    | 223094/371472 [6:42:54<12:20:06,  3.34it/s] 60%|██████    | 223095/371472 [6:42:54<12:38:48,  3.26it/s] 60%|██████    | 223096/371472 [6:42:54<13:08:25,  3.14it/s] 60%|██████    | 223097/371472 [6:42:55<12:17:31,  3.35it/s] 60%|██████    | 223098/371472 [6:42:55<11:54:06,  3.46it/s] 60%|██████    | 223099/371472 [6:42:55<11:17:23,  3.65it/s] 60%|██████    | 223100/371472 [6:42:55<11:03:37,  3.73it/s]                                                            {'loss': 2.82, 'learning_rate': 4.596683832877244e-07, 'epoch': 9.61}
 60%|██████    | 223100/371472 [6:42:55<11:03:37,  3.73it/s] 60%|██████    | 223101/371472 [6:42:56<11:15:30,  3.66it/s] 60%|██████    | 223102/371472 [6:42:56<11:34:25,  3.56it/s] 60%|██████    | 223103/371472 [6:42:56<11:51:37,  3.47it/s] 60%|██████    | 223104/371472 [6:42:57<12:06:14,  3.40it/s] 60%|██████    | 223105/371472 [6:42:57<12:09:53,  3.39it/s] 60%|██████    | 223106/371472 [6:42:57<12:10:50,  3.38it/s] 60%|██████    | 223107/371472 [6:42:57<11:56:09,  3.45it/s] 60%|██████    | 223108/371472 [6:42:58<11:56:32,  3.45it/s] 60%|██████    | 223109/371472 [6:42:58<11:58:55,  3.44it/s] 60%|██████    | 223110/371472 [6:42:58<11:30:04,  3.58it/s] 60%|██████    | 223111/371472 [6:42:59<11:16:50,  3.65it/s] 60%|██████    | 223112/371472 [6:42:59<11:02:27,  3.73it/s] 60%|██████    | 223113/371472 [6:42:59<11:15:59,  3.66it/s] 60%|██████    | 223114/371472 [6:42:59<11:14:48,  3.66it/s] 60%|██████    | 223115/371472 [6:43:00<10:56:36,  3.77it/s] 60%|██████    | 223116/371472 [6:43:00<12:00:51,  3.43it/s] 60%|██████    | 223117/371472 [6:43:00<11:57:25,  3.45it/s] 60%|██████    | 223118/371472 [6:43:01<12:04:24,  3.41it/s] 60%|██████    | 223119/371472 [6:43:01<12:15:16,  3.36it/s] 60%|██████    | 223120/371472 [6:43:01<12:13:31,  3.37it/s]                                                            {'loss': 2.7974, 'learning_rate': 4.596199013122454e-07, 'epoch': 9.61}
 60%|██████    | 223120/371472 [6:43:01<12:13:31,  3.37it/s] 60%|██████    | 223121/371472 [6:43:01<12:14:04,  3.37it/s] 60%|██████    | 223122/371472 [6:43:02<11:51:40,  3.47it/s] 60%|██████    | 223123/371472 [6:43:02<12:10:56,  3.38it/s] 60%|██████    | 223124/371472 [6:43:02<12:42:34,  3.24it/s] 60%|██████    | 223125/371472 [6:43:03<11:57:27,  3.45it/s] 60%|██████    | 223126/371472 [6:43:03<11:54:09,  3.46it/s] 60%|██████    | 223127/371472 [6:43:03<12:14:59,  3.36it/s] 60%|██████    | 223128/371472 [6:43:03<11:57:53,  3.44it/s] 60%|██████    | 223129/371472 [6:43:04<12:10:37,  3.38it/s] 60%|██████    | 223130/371472 [6:43:04<11:33:41,  3.56it/s] 60%|██████    | 223131/371472 [6:43:04<11:37:31,  3.54it/s] 60%|██████    | 223132/371472 [6:43:05<11:13:51,  3.67it/s] 60%|██████    | 223133/371472 [6:43:05<12:09:45,  3.39it/s] 60%|██████    | 223134/371472 [6:43:05<12:40:04,  3.25it/s] 60%|██████    | 223135/371472 [6:43:06<12:39:09,  3.26it/s] 60%|██████    | 223136/371472 [6:43:06<12:14:18,  3.37it/s] 60%|██████    | 223137/371472 [6:43:06<13:09:21,  3.13it/s] 60%|██████    | 223138/371472 [6:43:06<12:33:26,  3.28it/s] 60%|██████    | 223139/371472 [6:43:07<13:00:33,  3.17it/s] 60%|██████    | 223140/371472 [6:43:07<12:55:49,  3.19it/s]                                                            {'loss': 2.8433, 'learning_rate': 4.595714193367666e-07, 'epoch': 9.61}
 60%|██████    | 223140/371472 [6:43:07<12:55:49,  3.19it/s] 60%|██████    | 223141/371472 [6:43:07<12:20:59,  3.34it/s] 60%|██████    | 223142/371472 [6:43:08<12:50:25,  3.21it/s] 60%|██████    | 223143/371472 [6:43:08<12:06:47,  3.40it/s] 60%|██████    | 223144/371472 [6:43:08<12:49:40,  3.21it/s] 60%|██████    | 223145/371472 [6:43:09<12:35:18,  3.27it/s] 60%|██████    | 223146/371472 [6:43:09<12:20:40,  3.34it/s] 60%|██████    | 223147/371472 [6:43:09<13:30:10,  3.05it/s] 60%|██████    | 223148/371472 [6:43:10<12:57:04,  3.18it/s] 60%|██████    | 223149/371472 [6:43:10<12:31:08,  3.29it/s] 60%|██████    | 223150/371472 [6:43:10<12:37:23,  3.26it/s] 60%|██████    | 223151/371472 [6:43:10<12:12:21,  3.38it/s] 60%|██████    | 223152/371472 [6:43:11<12:13:02,  3.37it/s] 60%|██████    | 223153/371472 [6:43:11<12:30:18,  3.29it/s] 60%|██████    | 223154/371472 [6:43:11<12:08:18,  3.39it/s] 60%|██████    | 223155/371472 [6:43:12<12:10:21,  3.38it/s] 60%|██████    | 223156/371472 [6:43:12<12:33:50,  3.28it/s] 60%|██████    | 223157/371472 [6:43:12<11:51:11,  3.48it/s] 60%|██████    | 223158/371472 [6:43:13<11:45:16,  3.50it/s] 60%|██████    | 223159/371472 [6:43:13<11:42:53,  3.52it/s] 60%|██████    | 223160/371472 [6:43:13<11:17:51,  3.65it/s]                                                            {'loss': 2.7514, 'learning_rate': 4.5952293736128765e-07, 'epoch': 9.61}
 60%|██████    | 223160/371472 [6:43:13<11:17:51,  3.65it/s] 60%|██████    | 223161/371472 [6:43:13<11:53:48,  3.46it/s] 60%|██████    | 223162/371472 [6:43:14<12:05:48,  3.41it/s] 60%|██████    | 223163/371472 [6:43:14<11:57:32,  3.44it/s] 60%|██████    | 223164/371472 [6:43:14<11:42:40,  3.52it/s] 60%|██████    | 223165/371472 [6:43:14<11:38:34,  3.54it/s] 60%|██████    | 223166/371472 [6:43:15<11:48:53,  3.49it/s] 60%|██████    | 223167/371472 [6:43:15<11:29:45,  3.58it/s] 60%|██████    | 223168/371472 [6:43:15<12:19:43,  3.34it/s] 60%|██████    | 223169/371472 [6:43:16<12:15:15,  3.36it/s] 60%|██████    | 223170/371472 [6:43:16<14:10:25,  2.91it/s] 60%|██████    | 223171/371472 [6:43:16<13:14:53,  3.11it/s] 60%|██████    | 223172/371472 [6:43:17<12:53:24,  3.20it/s] 60%|██████    | 223173/371472 [6:43:17<12:10:16,  3.38it/s] 60%|██████    | 223174/371472 [6:43:17<12:42:07,  3.24it/s] 60%|██████    | 223175/371472 [6:43:18<13:10:49,  3.13it/s] 60%|██████    | 223176/371472 [6:43:18<12:42:33,  3.24it/s] 60%|██████    | 223177/371472 [6:43:18<12:37:55,  3.26it/s] 60%|██████    | 223178/371472 [6:43:19<12:48:41,  3.22it/s] 60%|██████    | 223179/371472 [6:43:19<12:11:24,  3.38it/s] 60%|██████    | 223180/371472 [6:43:19<12:09:15,  3.39it/s]                                                            {'loss': 2.8071, 'learning_rate': 4.5947445538580883e-07, 'epoch': 9.61}
 60%|██████    | 223180/371472 [6:43:19<12:09:15,  3.39it/s] 60%|██████    | 223181/371472 [6:43:19<12:01:07,  3.43it/s] 60%|██████    | 223182/371472 [6:43:20<12:00:39,  3.43it/s] 60%|██████    | 223183/371472 [6:43:20<11:50:15,  3.48it/s] 60%|██████    | 223184/371472 [6:43:20<11:24:45,  3.61it/s] 60%|██████    | 223185/371472 [6:43:21<11:46:32,  3.50it/s] 60%|██████    | 223186/371472 [6:43:21<12:16:20,  3.36it/s] 60%|██████    | 223187/371472 [6:43:21<11:56:34,  3.45it/s] 60%|██████    | 223188/371472 [6:43:21<11:49:32,  3.48it/s] 60%|██████    | 223189/371472 [6:43:22<12:07:46,  3.40it/s] 60%|██████    | 223190/371472 [6:43:22<11:58:03,  3.44it/s] 60%|██████    | 223191/371472 [6:43:22<11:22:43,  3.62it/s] 60%|██████    | 223192/371472 [6:43:23<11:47:24,  3.49it/s] 60%|██████    | 223193/371472 [6:43:23<11:17:06,  3.65it/s] 60%|██████    | 223194/371472 [6:43:23<11:09:04,  3.69it/s] 60%|██████    | 223195/371472 [6:43:23<11:08:47,  3.70it/s] 60%|██████    | 223196/371472 [6:43:24<11:08:27,  3.70it/s] 60%|██████    | 223197/371472 [6:43:24<11:03:01,  3.73it/s] 60%|██████    | 223198/371472 [6:43:24<10:45:18,  3.83it/s] 60%|██████    | 223199/371472 [6:43:24<11:01:22,  3.74it/s] 60%|██████    | 223200/371472 [6:43:25<11:15:59,  3.66it/s]                                                            {'loss': 2.9067, 'learning_rate': 4.5942597341032985e-07, 'epoch': 9.61}
 60%|██████    | 223200/371472 [6:43:25<11:15:59,  3.66it/s] 60%|██████    | 223201/371472 [6:43:25<11:01:10,  3.74it/s] 60%|██████    | 223202/371472 [6:43:25<10:57:49,  3.76it/s] 60%|██████    | 223203/371472 [6:43:25<11:07:50,  3.70it/s] 60%|██████    | 223204/371472 [6:43:26<11:27:07,  3.60it/s] 60%|██████    | 223205/371472 [6:43:26<11:22:36,  3.62it/s] 60%|██████    | 223206/371472 [6:43:26<11:30:16,  3.58it/s] 60%|██████    | 223207/371472 [6:43:27<11:38:36,  3.54it/s] 60%|██████    | 223208/371472 [6:43:27<11:54:24,  3.46it/s] 60%|██████    | 223209/371472 [6:43:27<11:37:19,  3.54it/s] 60%|██████    | 223210/371472 [6:43:27<11:22:00,  3.62it/s] 60%|██████    | 223211/371472 [6:43:28<11:33:34,  3.56it/s] 60%|██████    | 223212/371472 [6:43:28<11:19:04,  3.64it/s] 60%|██████    | 223213/371472 [6:43:28<11:57:28,  3.44it/s] 60%|██████    | 223214/371472 [6:43:29<11:32:17,  3.57it/s] 60%|██████    | 223215/371472 [6:43:29<12:21:54,  3.33it/s] 60%|██████    | 223216/371472 [6:43:29<13:10:33,  3.13it/s] 60%|██████    | 223217/371472 [6:43:30<12:44:00,  3.23it/s] 60%|██████    | 223218/371472 [6:43:30<13:17:08,  3.10it/s] 60%|██████    | 223219/371472 [6:43:30<13:28:55,  3.05it/s] 60%|██████    | 223220/371472 [6:43:31<12:59:28,  3.17it/s]                                                            {'loss': 2.9614, 'learning_rate': 4.59377491434851e-07, 'epoch': 9.61}
 60%|██████    | 223220/371472 [6:43:31<12:59:28,  3.17it/s] 60%|██████    | 223221/371472 [6:43:31<12:54:41,  3.19it/s] 60%|██████    | 223222/371472 [6:43:31<12:56:02,  3.18it/s] 60%|██████    | 223223/371472 [6:43:31<12:52:38,  3.20it/s] 60%|██████    | 223224/371472 [6:43:32<12:05:34,  3.41it/s] 60%|██████    | 223225/371472 [6:43:32<12:22:21,  3.33it/s] 60%|██████    | 223226/371472 [6:43:32<11:48:55,  3.49it/s] 60%|██████    | 223227/371472 [6:43:33<11:30:36,  3.58it/s] 60%|██████    | 223228/371472 [6:43:33<11:24:13,  3.61it/s] 60%|██████    | 223229/371472 [6:43:33<11:57:04,  3.45it/s] 60%|██████    | 223230/371472 [6:43:33<11:25:34,  3.60it/s] 60%|██████    | 223231/371472 [6:43:34<12:17:49,  3.35it/s] 60%|██████    | 223232/371472 [6:43:34<12:14:16,  3.36it/s] 60%|██████    | 223233/371472 [6:43:34<11:55:11,  3.45it/s] 60%|██████    | 223234/371472 [6:43:35<11:58:37,  3.44it/s] 60%|██████    | 223235/371472 [6:43:35<12:35:01,  3.27it/s] 60%|██████    | 223236/371472 [6:43:35<13:15:25,  3.11it/s] 60%|██████    | 223237/371472 [6:43:36<12:22:29,  3.33it/s] 60%|██████    | 223238/371472 [6:43:36<12:21:55,  3.33it/s] 60%|██████    | 223239/371472 [6:43:36<12:06:53,  3.40it/s] 60%|██████    | 223240/371472 [6:43:36<12:21:45,  3.33it/s]                                                            {'loss': 2.9427, 'learning_rate': 4.593290094593721e-07, 'epoch': 9.62}
 60%|██████    | 223240/371472 [6:43:36<12:21:45,  3.33it/s] 60%|██████    | 223241/371472 [6:43:37<11:41:59,  3.52it/s] 60%|██████    | 223242/371472 [6:43:37<11:39:05,  3.53it/s] 60%|██████    | 223243/371472 [6:43:37<11:45:02,  3.50it/s] 60%|██████    | 223244/371472 [6:43:38<11:34:40,  3.56it/s] 60%|██████    | 223245/371472 [6:43:38<11:44:12,  3.51it/s] 60%|██████    | 223246/371472 [6:43:38<11:45:05,  3.50it/s] 60%|██████    | 223247/371472 [6:43:38<12:05:41,  3.40it/s] 60%|██████    | 223248/371472 [6:43:39<11:53:34,  3.46it/s] 60%|██████    | 223249/371472 [6:43:39<12:08:39,  3.39it/s] 60%|██████    | 223250/371472 [6:43:39<11:55:31,  3.45it/s] 60%|██████    | 223251/371472 [6:43:40<11:43:50,  3.51it/s] 60%|██████    | 223252/371472 [6:43:40<12:23:41,  3.32it/s] 60%|██████    | 223253/371472 [6:43:40<11:53:56,  3.46it/s] 60%|██████    | 223254/371472 [6:43:40<11:58:55,  3.44it/s] 60%|██████    | 223255/371472 [6:43:41<12:13:42,  3.37it/s] 60%|██████    | 223256/371472 [6:43:41<12:05:07,  3.41it/s] 60%|██████    | 223257/371472 [6:43:41<11:41:45,  3.52it/s] 60%|██████    | 223258/371472 [6:43:42<12:10:46,  3.38it/s] 60%|██████    | 223259/371472 [6:43:42<11:53:25,  3.46it/s] 60%|██████    | 223260/371472 [6:43:42<11:22:58,  3.62it/s]                                                            {'loss': 2.8806, 'learning_rate': 4.5928052748389317e-07, 'epoch': 9.62}
 60%|██████    | 223260/371472 [6:43:42<11:22:58,  3.62it/s] 60%|██████    | 223261/371472 [6:43:42<11:29:02,  3.58it/s] 60%|██████    | 223262/371472 [6:43:43<11:30:32,  3.58it/s] 60%|██████    | 223263/371472 [6:43:43<12:25:53,  3.31it/s] 60%|██████    | 223264/371472 [6:43:43<12:01:30,  3.42it/s] 60%|██████    | 223265/371472 [6:43:44<11:35:26,  3.55it/s] 60%|██████    | 223266/371472 [6:43:44<12:05:00,  3.41it/s] 60%|██████    | 223267/371472 [6:43:44<12:49:46,  3.21it/s] 60%|██████    | 223268/371472 [6:43:45<12:48:58,  3.21it/s] 60%|██████    | 223269/371472 [6:43:45<12:58:34,  3.17it/s] 60%|██████    | 223270/371472 [6:43:45<12:45:38,  3.23it/s] 60%|██████    | 223271/371472 [6:43:46<12:38:23,  3.26it/s] 60%|██████    | 223272/371472 [6:43:46<12:39:28,  3.25it/s] 60%|██████    | 223273/371472 [6:43:46<12:08:00,  3.39it/s] 60%|██████    | 223274/371472 [6:43:46<11:35:53,  3.55it/s] 60%|██████    | 223275/371472 [6:43:47<12:22:48,  3.33it/s] 60%|██████    | 223276/371472 [6:43:47<13:16:21,  3.10it/s] 60%|██████    | 223277/371472 [6:43:47<12:51:55,  3.20it/s] 60%|██████    | 223278/371472 [6:43:48<12:05:55,  3.40it/s] 60%|██████    | 223279/371472 [6:43:48<11:44:11,  3.51it/s] 60%|██████    | 223280/371472 [6:43:48<11:37:07,  3.54it/s]                                                            {'loss': 2.9197, 'learning_rate': 4.592320455084143e-07, 'epoch': 9.62}
 60%|██████    | 223280/371472 [6:43:48<11:37:07,  3.54it/s] 60%|██████    | 223281/371472 [6:43:48<11:20:04,  3.63it/s] 60%|██████    | 223282/371472 [6:43:49<11:24:47,  3.61it/s] 60%|██████    | 223283/371472 [6:43:49<11:12:20,  3.67it/s] 60%|██████    | 223284/371472 [6:43:49<11:15:36,  3.66it/s] 60%|██████    | 223285/371472 [6:43:49<10:56:45,  3.76it/s] 60%|██████    | 223286/371472 [6:43:50<11:37:11,  3.54it/s] 60%|██████    | 223287/371472 [6:43:50<11:17:55,  3.64it/s] 60%|██████    | 223288/371472 [6:43:50<11:12:54,  3.67it/s] 60%|██████    | 223289/371472 [6:43:51<10:56:21,  3.76it/s] 60%|██████    | 223290/371472 [6:43:51<11:01:14,  3.73it/s] 60%|██████    | 223291/371472 [6:43:51<11:01:57,  3.73it/s] 60%|██████    | 223292/371472 [6:43:51<10:55:36,  3.77it/s] 60%|██████    | 223293/371472 [6:43:52<11:33:01,  3.56it/s] 60%|██████    | 223294/371472 [6:43:52<11:52:23,  3.47it/s] 60%|██████    | 223295/371472 [6:43:52<11:41:44,  3.52it/s] 60%|██████    | 223296/371472 [6:43:53<11:33:25,  3.56it/s] 60%|██████    | 223297/371472 [6:43:53<11:10:33,  3.68it/s] 60%|██████    | 223298/371472 [6:43:53<11:25:04,  3.60it/s] 60%|██████    | 223299/371472 [6:43:53<12:09:34,  3.38it/s] 60%|██████    | 223300/371472 [6:43:54<11:50:45,  3.47it/s]                                                            {'loss': 2.9411, 'learning_rate': 4.5918356353293536e-07, 'epoch': 9.62}
 60%|██████    | 223300/371472 [6:43:54<11:50:45,  3.47it/s] 60%|██████    | 223301/371472 [6:43:54<11:38:46,  3.53it/s] 60%|██████    | 223302/371472 [6:43:54<11:19:47,  3.63it/s] 60%|██████    | 223303/371472 [6:43:55<11:31:30,  3.57it/s] 60%|██████    | 223304/371472 [6:43:55<11:11:55,  3.68it/s] 60%|██████    | 223305/371472 [6:43:55<11:18:20,  3.64it/s] 60%|██████    | 223306/371472 [6:43:55<11:22:58,  3.62it/s] 60%|██████    | 223307/371472 [6:43:56<12:07:43,  3.39it/s] 60%|██████    | 223308/371472 [6:43:56<12:06:50,  3.40it/s] 60%|██████    | 223309/371472 [6:43:56<11:51:00,  3.47it/s] 60%|██████    | 223310/371472 [6:43:57<12:43:34,  3.23it/s] 60%|██████    | 223311/371472 [6:43:57<12:41:59,  3.24it/s] 60%|██████    | 223312/371472 [6:43:57<11:56:48,  3.44it/s] 60%|██████    | 223313/371472 [6:43:57<12:19:21,  3.34it/s] 60%|██████    | 223314/371472 [6:43:58<12:10:18,  3.38it/s] 60%|██████    | 223315/371472 [6:43:58<11:58:44,  3.44it/s] 60%|██████    | 223316/371472 [6:43:58<11:42:15,  3.52it/s] 60%|██████    | 223317/371472 [6:43:59<12:00:11,  3.43it/s] 60%|██████    | 223318/371472 [6:43:59<11:54:14,  3.46it/s] 60%|██████    | 223319/371472 [6:43:59<11:39:27,  3.53it/s] 60%|██████    | 223320/371472 [6:43:59<11:52:13,  3.47it/s]                                                            {'loss': 2.8856, 'learning_rate': 4.5913508155745654e-07, 'epoch': 9.62}
 60%|██████    | 223320/371472 [6:43:59<11:52:13,  3.47it/s] 60%|██████    | 223321/371472 [6:44:00<11:54:26,  3.46it/s] 60%|██████    | 223322/371472 [6:44:00<11:27:40,  3.59it/s] 60%|██████    | 223323/371472 [6:44:00<11:42:40,  3.51it/s] 60%|██████    | 223324/371472 [6:44:01<11:49:41,  3.48it/s] 60%|██████    | 223325/371472 [6:44:01<12:24:55,  3.31it/s] 60%|██████    | 223326/371472 [6:44:01<12:15:45,  3.36it/s] 60%|██████    | 223327/371472 [6:44:02<11:57:46,  3.44it/s] 60%|██████    | 223328/371472 [6:44:02<11:49:20,  3.48it/s] 60%|██████    | 223329/371472 [6:44:02<12:29:41,  3.29it/s] 60%|██████    | 223330/371472 [6:44:02<12:47:31,  3.22it/s] 60%|██████    | 223331/371472 [6:44:03<12:44:56,  3.23it/s] 60%|██████    | 223332/371472 [6:44:03<12:14:32,  3.36it/s] 60%|██████    | 223333/371472 [6:44:03<12:12:30,  3.37it/s] 60%|██████    | 223334/371472 [6:44:04<11:43:15,  3.51it/s] 60%|██████    | 223335/371472 [6:44:04<11:35:36,  3.55it/s] 60%|██████    | 223336/371472 [6:44:04<11:31:35,  3.57it/s] 60%|██████    | 223337/371472 [6:44:04<11:39:43,  3.53it/s] 60%|██████    | 223338/371472 [6:44:05<12:12:54,  3.37it/s] 60%|██████    | 223339/371472 [6:44:05<11:43:48,  3.51it/s] 60%|██████    | 223340/371472 [6:44:05<11:37:25,  3.54it/s]                                                            {'loss': 3.0289, 'learning_rate': 4.5908659958197756e-07, 'epoch': 9.62}
 60%|██████    | 223340/371472 [6:44:05<11:37:25,  3.54it/s] 60%|██████    | 223341/371472 [6:44:06<11:55:13,  3.45it/s] 60%|██████    | 223342/371472 [6:44:06<11:48:49,  3.48it/s] 60%|██████    | 223343/371472 [6:44:06<11:19:53,  3.63it/s] 60%|██████    | 223344/371472 [6:44:06<10:59:34,  3.74it/s] 60%|██████    | 223345/371472 [6:44:07<12:21:58,  3.33it/s] 60%|██████    | 223346/371472 [6:44:07<11:50:07,  3.48it/s] 60%|██████    | 223347/371472 [6:44:07<11:50:08,  3.48it/s] 60%|██████    | 223348/371472 [6:44:08<13:16:56,  3.10it/s] 60%|██████    | 223349/371472 [6:44:08<13:08:42,  3.13it/s] 60%|██████    | 223350/371472 [6:44:08<12:32:35,  3.28it/s] 60%|██████    | 223351/371472 [6:44:09<13:39:10,  3.01it/s] 60%|██████    | 223352/371472 [6:44:09<12:39:36,  3.25it/s] 60%|██████    | 223353/371472 [6:44:09<12:29:46,  3.29it/s] 60%|██████    | 223354/371472 [6:44:10<12:25:59,  3.31it/s] 60%|██████    | 223355/371472 [6:44:10<12:19:39,  3.34it/s] 60%|██████    | 223356/371472 [6:44:10<12:08:55,  3.39it/s] 60%|██████    | 223357/371472 [6:44:10<12:06:17,  3.40it/s] 60%|██████    | 223358/371472 [6:44:11<11:29:33,  3.58it/s] 60%|██████    | 223359/371472 [6:44:11<11:09:11,  3.69it/s] 60%|██████    | 223360/371472 [6:44:11<11:10:05,  3.68it/s]                                                            {'loss': 2.9758, 'learning_rate': 4.5903811760649874e-07, 'epoch': 9.62}
 60%|██████    | 223360/371472 [6:44:11<11:10:05,  3.68it/s] 60%|██████    | 223361/371472 [6:44:11<11:25:13,  3.60it/s] 60%|██████    | 223362/371472 [6:44:12<11:43:52,  3.51it/s] 60%|██████    | 223363/371472 [6:44:12<12:10:16,  3.38it/s] 60%|██████    | 223364/371472 [6:44:12<12:24:22,  3.32it/s] 60%|██████    | 223365/371472 [6:44:13<12:18:19,  3.34it/s] 60%|██████    | 223366/371472 [6:44:13<11:53:56,  3.46it/s] 60%|██████    | 223367/371472 [6:44:13<11:37:50,  3.54it/s] 60%|██████    | 223368/371472 [6:44:13<11:28:49,  3.58it/s] 60%|██████    | 223369/371472 [6:44:14<11:37:05,  3.54it/s] 60%|██████    | 223370/371472 [6:44:14<11:52:16,  3.47it/s] 60%|██████    | 223371/371472 [6:44:14<11:37:24,  3.54it/s] 60%|██████    | 223372/371472 [6:44:15<11:59:35,  3.43it/s] 60%|██████    | 223373/371472 [6:44:15<12:09:18,  3.38it/s] 60%|██████    | 223374/371472 [6:44:15<12:04:18,  3.41it/s] 60%|██████    | 223375/371472 [6:44:16<11:51:06,  3.47it/s] 60%|██████    | 223376/371472 [6:44:16<12:39:42,  3.25it/s] 60%|██████    | 223377/371472 [6:44:16<12:20:54,  3.33it/s] 60%|██████    | 223378/371472 [6:44:16<11:57:22,  3.44it/s] 60%|██████    | 223379/371472 [6:44:17<11:52:02,  3.47it/s] 60%|██████    | 223380/371472 [6:44:17<12:33:50,  3.27it/s]                                                            {'loss': 2.9539, 'learning_rate': 4.589896356310198e-07, 'epoch': 9.62}
 60%|██████    | 223380/371472 [6:44:17<12:33:50,  3.27it/s] 60%|██████    | 223381/371472 [6:44:18<14:30:23,  2.84it/s] 60%|██████    | 223382/371472 [6:44:18<13:46:35,  2.99it/s] 60%|██████    | 223383/371472 [6:44:18<13:16:33,  3.10it/s] 60%|██████    | 223384/371472 [6:44:18<12:44:44,  3.23it/s] 60%|██████    | 223385/371472 [6:44:19<11:56:37,  3.44it/s] 60%|██████    | 223386/371472 [6:44:19<11:26:47,  3.59it/s] 60%|██████    | 223387/371472 [6:44:19<11:13:54,  3.66it/s] 60%|██████    | 223388/371472 [6:44:19<11:20:32,  3.63it/s] 60%|██████    | 223389/371472 [6:44:20<11:20:07,  3.63it/s] 60%|██████    | 223390/371472 [6:44:20<12:09:01,  3.39it/s] 60%|██████    | 223391/371472 [6:44:20<11:34:27,  3.55it/s] 60%|██████    | 223392/371472 [6:44:21<11:19:33,  3.63it/s] 60%|██████    | 223393/371472 [6:44:21<11:35:31,  3.55it/s] 60%|██████    | 223394/371472 [6:44:21<11:19:40,  3.63it/s] 60%|██████    | 223395/371472 [6:44:21<11:32:04,  3.57it/s] 60%|██████    | 223396/371472 [6:44:22<11:22:25,  3.62it/s] 60%|██████    | 223397/371472 [6:44:22<11:51:45,  3.47it/s] 60%|██████    | 223398/371472 [6:44:22<11:53:46,  3.46it/s] 60%|██████    | 223399/371472 [6:44:23<11:21:59,  3.62it/s] 60%|██████    | 223400/371472 [6:44:23<11:21:16,  3.62it/s]                                                            {'loss': 2.8156, 'learning_rate': 4.5894115365554093e-07, 'epoch': 9.62}
 60%|██████    | 223400/371472 [6:44:23<11:21:16,  3.62it/s] 60%|██████    | 223401/371472 [6:44:23<11:21:22,  3.62it/s] 60%|██████    | 223402/371472 [6:44:23<11:12:14,  3.67it/s] 60%|██████    | 223403/371472 [6:44:24<11:10:16,  3.68it/s] 60%|██████    | 223404/371472 [6:44:24<11:09:18,  3.69it/s] 60%|██████    | 223405/371472 [6:44:24<11:53:51,  3.46it/s] 60%|██████    | 223406/371472 [6:44:24<11:43:46,  3.51it/s] 60%|██████    | 223407/371472 [6:44:25<12:10:27,  3.38it/s] 60%|██████    | 223408/371472 [6:44:25<12:04:07,  3.41it/s] 60%|██████    | 223409/371472 [6:44:25<12:02:45,  3.41it/s] 60%|██████    | 223410/371472 [6:44:26<12:16:30,  3.35it/s] 60%|██████    | 223411/371472 [6:44:26<12:36:44,  3.26it/s] 60%|██████    | 223412/371472 [6:44:26<13:14:14,  3.11it/s] 60%|██████    | 223413/371472 [6:44:27<12:22:53,  3.32it/s] 60%|██████    | 223414/371472 [6:44:27<12:39:22,  3.25it/s] 60%|██████    | 223415/371472 [6:44:27<12:23:10,  3.32it/s] 60%|██████    | 223416/371472 [6:44:27<11:44:10,  3.50it/s] 60%|██████    | 223417/371472 [6:44:28<11:53:47,  3.46it/s] 60%|██████    | 223418/371472 [6:44:28<11:44:39,  3.50it/s] 60%|██████    | 223419/371472 [6:44:28<12:12:14,  3.37it/s] 60%|██████    | 223420/371472 [6:44:29<11:30:53,  3.57it/s]                                                            {'loss': 2.9821, 'learning_rate': 4.58892671680062e-07, 'epoch': 9.62}
 60%|██████    | 223420/371472 [6:44:29<11:30:53,  3.57it/s] 60%|██████    | 223421/371472 [6:44:29<11:40:08,  3.52it/s] 60%|██████    | 223422/371472 [6:44:29<11:26:22,  3.59it/s] 60%|██████    | 223423/371472 [6:44:29<11:14:55,  3.66it/s] 60%|██████    | 223424/371472 [6:44:30<11:26:12,  3.60it/s] 60%|██████    | 223425/371472 [6:44:30<11:20:09,  3.63it/s] 60%|██████    | 223426/371472 [6:44:30<12:24:02,  3.32it/s] 60%|██████    | 223427/371472 [6:44:31<12:27:17,  3.30it/s] 60%|██████    | 223428/371472 [6:44:31<13:07:52,  3.13it/s] 60%|██████    | 223429/371472 [6:44:31<12:44:54,  3.23it/s] 60%|██████    | 223430/371472 [6:44:32<12:25:45,  3.31it/s] 60%|██████    | 223431/371472 [6:44:32<11:39:32,  3.53it/s] 60%|██████    | 223432/371472 [6:44:32<12:09:59,  3.38it/s] 60%|██████    | 223433/371472 [6:44:32<11:47:30,  3.49it/s] 60%|██████    | 223434/371472 [6:44:33<12:31:35,  3.28it/s] 60%|██████    | 223435/371472 [6:44:33<12:19:29,  3.34it/s] 60%|██████    | 223436/371472 [6:44:33<11:31:42,  3.57it/s] 60%|██████    | 223437/371472 [6:44:34<12:14:41,  3.36it/s] 60%|██████    | 223438/371472 [6:44:34<12:17:34,  3.35it/s] 60%|██████    | 223439/371472 [6:44:34<11:37:21,  3.54it/s] 60%|██████    | 223440/371472 [6:44:35<11:52:57,  3.46it/s]                                                            {'loss': 2.8471, 'learning_rate': 4.588441897045832e-07, 'epoch': 9.62}
 60%|██████    | 223440/371472 [6:44:35<11:52:57,  3.46it/s] 60%|██████    | 223441/371472 [6:44:35<11:41:58,  3.51it/s] 60%|██████    | 223442/371472 [6:44:35<11:17:58,  3.64it/s] 60%|██████    | 223443/371472 [6:44:35<12:08:10,  3.39it/s] 60%|██████    | 223444/371472 [6:44:36<12:09:20,  3.38it/s] 60%|██████    | 223445/371472 [6:44:36<12:03:18,  3.41it/s] 60%|██████    | 223446/371472 [6:44:36<12:02:26,  3.41it/s] 60%|██████    | 223447/371472 [6:44:36<11:26:33,  3.59it/s] 60%|██████    | 223448/371472 [6:44:37<11:41:21,  3.52it/s] 60%|██████    | 223449/371472 [6:44:37<11:35:20,  3.55it/s] 60%|██████    | 223450/371472 [6:44:37<11:54:07,  3.45it/s] 60%|██████    | 223451/371472 [6:44:38<12:03:04,  3.41it/s] 60%|██████    | 223452/371472 [6:44:38<11:45:27,  3.50it/s] 60%|██████    | 223453/371472 [6:44:38<11:41:39,  3.52it/s] 60%|██████    | 223454/371472 [6:44:39<12:16:32,  3.35it/s] 60%|██████    | 223455/371472 [6:44:39<12:03:03,  3.41it/s] 60%|██████    | 223456/371472 [6:44:39<11:37:15,  3.54it/s] 60%|██████    | 223457/371472 [6:44:39<11:25:30,  3.60it/s] 60%|██████    | 223458/371472 [6:44:40<11:27:11,  3.59it/s] 60%|██████    | 223459/371472 [6:44:40<11:08:00,  3.69it/s] 60%|██████    | 223460/371472 [6:44:40<13:07:42,  3.13it/s]                                                            {'loss': 2.9386, 'learning_rate': 4.587957077291042e-07, 'epoch': 9.62}
 60%|██████    | 223460/371472 [6:44:40<13:07:42,  3.13it/s] 60%|██████    | 223461/371472 [6:44:41<13:19:58,  3.08it/s] 60%|██████    | 223462/371472 [6:44:41<13:07:54,  3.13it/s] 60%|██████    | 223463/371472 [6:44:41<12:34:15,  3.27it/s] 60%|██████    | 223464/371472 [6:44:42<12:26:49,  3.30it/s] 60%|██████    | 223465/371472 [6:44:42<12:51:18,  3.20it/s] 60%|██████    | 223466/371472 [6:44:42<13:16:55,  3.10it/s] 60%|██████    | 223467/371472 [6:44:42<12:26:48,  3.30it/s] 60%|██████    | 223468/371472 [6:44:43<12:17:33,  3.34it/s] 60%|██████    | 223469/371472 [6:44:43<11:54:19,  3.45it/s] 60%|██████    | 223470/371472 [6:44:43<12:05:57,  3.40it/s] 60%|██████    | 223471/371472 [6:44:44<12:15:02,  3.36it/s] 60%|██████    | 223472/371472 [6:44:44<12:07:04,  3.39it/s] 60%|██████    | 223473/371472 [6:44:44<11:58:18,  3.43it/s] 60%|██████    | 223474/371472 [6:44:45<11:58:17,  3.43it/s] 60%|██████    | 223475/371472 [6:44:45<11:32:57,  3.56it/s] 60%|██████    | 223476/371472 [6:44:45<12:18:58,  3.34it/s] 60%|██████    | 223477/371472 [6:44:45<12:39:43,  3.25it/s] 60%|██████    | 223478/371472 [6:44:46<12:37:29,  3.26it/s] 60%|██████    | 223479/371472 [6:44:46<12:56:31,  3.18it/s] 60%|██████    | 223480/371472 [6:44:46<12:50:19,  3.20it/s]                                                            {'loss': 2.8759, 'learning_rate': 4.587472257536254e-07, 'epoch': 9.63}
 60%|██████    | 223480/371472 [6:44:46<12:50:19,  3.20it/s] 60%|██████    | 223481/371472 [6:44:47<13:53:09,  2.96it/s] 60%|██████    | 223482/371472 [6:44:47<12:54:48,  3.18it/s] 60%|██████    | 223483/371472 [6:44:47<12:19:55,  3.33it/s] 60%|██████    | 223484/371472 [6:44:48<11:45:53,  3.49it/s] 60%|██████    | 223485/371472 [6:44:48<11:21:21,  3.62it/s] 60%|██████    | 223486/371472 [6:44:48<11:40:17,  3.52it/s] 60%|██████    | 223487/371472 [6:44:48<11:49:17,  3.48it/s] 60%|██████    | 223488/371472 [6:44:49<11:13:10,  3.66it/s] 60%|██████    | 223489/371472 [6:44:49<11:32:05,  3.56it/s] 60%|██████    | 223490/371472 [6:44:49<11:39:36,  3.53it/s] 60%|██████    | 223491/371472 [6:44:50<11:49:41,  3.48it/s] 60%|██████    | 223492/371472 [6:44:50<11:57:33,  3.44it/s] 60%|██████    | 223493/371472 [6:44:50<13:51:22,  2.97it/s] 60%|██████    | 223494/371472 [6:44:51<13:18:43,  3.09it/s] 60%|██████    | 223495/371472 [6:44:51<14:20:37,  2.87it/s] 60%|██████    | 223496/371472 [6:44:51<13:15:13,  3.10it/s] 60%|██████    | 223497/371472 [6:44:51<12:17:32,  3.34it/s] 60%|██████    | 223498/371472 [6:44:52<11:42:07,  3.51it/s] 60%|██████    | 223499/371472 [6:44:52<11:56:53,  3.44it/s] 60%|██████    | 223500/371472 [6:44:52<12:13:45,  3.36it/s]                                                            {'loss': 2.9128, 'learning_rate': 4.5869874377814645e-07, 'epoch': 9.63}
 60%|██████    | 223500/371472 [6:44:52<12:13:45,  3.36it/s] 60%|██████    | 223501/371472 [6:44:53<11:42:21,  3.51it/s] 60%|██████    | 223502/371472 [6:44:53<11:21:00,  3.62it/s] 60%|██████    | 223503/371472 [6:44:53<11:32:04,  3.56it/s] 60%|██████    | 223504/371472 [6:44:53<11:45:59,  3.49it/s] 60%|██████    | 223505/371472 [6:44:54<12:00:35,  3.42it/s] 60%|██████    | 223506/371472 [6:44:54<11:14:21,  3.66it/s] 60%|██████    | 223507/371472 [6:44:54<11:03:49,  3.71it/s] 60%|██████    | 223508/371472 [6:44:55<11:08:30,  3.69it/s] 60%|██████    | 223509/371472 [6:44:55<11:52:19,  3.46it/s] 60%|██████    | 223510/371472 [6:44:55<11:31:02,  3.57it/s] 60%|██████    | 223511/371472 [6:44:55<11:30:02,  3.57it/s] 60%|██████    | 223512/371472 [6:44:56<11:29:10,  3.58it/s] 60%|██████    | 223513/371472 [6:44:56<11:25:54,  3.60it/s] 60%|██████    | 223514/371472 [6:44:56<11:53:21,  3.46it/s] 60%|██████    | 223515/371472 [6:44:57<12:01:23,  3.42it/s] 60%|██████    | 223516/371472 [6:44:57<12:25:13,  3.31it/s] 60%|██████    | 223517/371472 [6:44:57<11:54:10,  3.45it/s] 60%|██████    | 223518/371472 [6:44:57<11:45:02,  3.50it/s] 60%|██████    | 223519/371472 [6:44:58<12:00:42,  3.42it/s] 60%|██████    | 223520/371472 [6:44:58<11:28:55,  3.58it/s]                                                            {'loss': 3.0027, 'learning_rate': 4.5865026180266757e-07, 'epoch': 9.63}
 60%|██████    | 223520/371472 [6:44:58<11:28:55,  3.58it/s] 60%|██████    | 223521/371472 [6:44:58<12:19:39,  3.33it/s] 60%|██████    | 223522/371472 [6:44:59<11:53:25,  3.46it/s] 60%|██████    | 223523/371472 [6:44:59<11:37:52,  3.53it/s] 60%|██████    | 223524/371472 [6:44:59<11:32:24,  3.56it/s] 60%|██████    | 223525/371472 [6:44:59<11:36:33,  3.54it/s] 60%|██████    | 223526/371472 [6:45:00<11:26:40,  3.59it/s] 60%|██████    | 223527/371472 [6:45:00<11:17:26,  3.64it/s] 60%|██████    | 223528/371472 [6:45:00<11:22:03,  3.62it/s] 60%|██████    | 223529/371472 [6:45:01<11:32:47,  3.56it/s] 60%|██████    | 223530/371472 [6:45:01<11:21:27,  3.62it/s] 60%|██████    | 223531/371472 [6:45:01<11:38:53,  3.53it/s] 60%|██████    | 223532/371472 [6:45:01<11:12:17,  3.67it/s] 60%|██████    | 223533/371472 [6:45:02<11:06:22,  3.70it/s] 60%|██████    | 223534/371472 [6:45:02<11:28:07,  3.58it/s] 60%|██████    | 223535/371472 [6:45:02<11:19:15,  3.63it/s] 60%|██████    | 223536/371472 [6:45:02<11:18:58,  3.63it/s] 60%|██████    | 223537/371472 [6:45:03<10:59:53,  3.74it/s] 60%|██████    | 223538/371472 [6:45:03<10:52:01,  3.78it/s] 60%|██████    | 223539/371472 [6:45:03<10:34:24,  3.89it/s] 60%|██████    | 223540/371472 [6:45:03<10:47:48,  3.81it/s]                                                            {'loss': 3.14, 'learning_rate': 4.586017798271886e-07, 'epoch': 9.63}
 60%|██████    | 223540/371472 [6:45:03<10:47:48,  3.81it/s] 60%|██████    | 223541/371472 [6:45:04<10:52:10,  3.78it/s] 60%|██████    | 223542/371472 [6:45:04<10:42:18,  3.84it/s] 60%|██████    | 223543/371472 [6:45:04<11:01:00,  3.73it/s] 60%|██████    | 223544/371472 [6:45:05<10:39:08,  3.86it/s] 60%|██████    | 223545/371472 [6:45:05<10:43:06,  3.83it/s] 60%|██████    | 223546/371472 [6:45:05<11:02:08,  3.72it/s] 60%|██████    | 223547/371472 [6:45:05<10:55:41,  3.76it/s] 60%|██████    | 223548/371472 [6:45:06<11:06:27,  3.70it/s] 60%|██████    | 223549/371472 [6:45:06<10:45:41,  3.82it/s] 60%|██████    | 223550/371472 [6:45:06<10:48:49,  3.80it/s] 60%|██████    | 223551/371472 [6:45:06<10:42:10,  3.84it/s] 60%|██████    | 223552/371472 [6:45:07<11:33:12,  3.56it/s] 60%|██████    | 223553/371472 [6:45:07<11:22:22,  3.61it/s] 60%|██████    | 223554/371472 [6:45:07<12:07:26,  3.39it/s] 60%|██████    | 223555/371472 [6:45:08<11:56:00,  3.44it/s] 60%|██████    | 223556/371472 [6:45:08<11:36:00,  3.54it/s] 60%|██████    | 223557/371472 [6:45:08<11:46:15,  3.49it/s] 60%|██████    | 223558/371472 [6:45:08<11:33:53,  3.55it/s] 60%|██████    | 223559/371472 [6:45:09<11:32:53,  3.56it/s] 60%|██████    | 223560/371472 [6:45:09<11:29:37,  3.57it/s]                                                            {'loss': 3.0504, 'learning_rate': 4.585532978517098e-07, 'epoch': 9.63}
 60%|██████    | 223560/371472 [6:45:09<11:29:37,  3.57it/s] 60%|██████    | 223561/371472 [6:45:09<12:42:48,  3.23it/s] 60%|██████    | 223562/371472 [6:45:10<11:48:37,  3.48it/s] 60%|██████    | 223563/371472 [6:45:10<11:50:24,  3.47it/s] 60%|██████    | 223564/371472 [6:45:10<12:43:58,  3.23it/s] 60%|██████    | 223565/371472 [6:45:11<12:07:40,  3.39it/s] 60%|██████    | 223566/371472 [6:45:11<12:00:08,  3.42it/s] 60%|██████    | 223567/371472 [6:45:11<11:49:43,  3.47it/s] 60%|██████    | 223568/371472 [6:45:11<11:47:22,  3.48it/s] 60%|██████    | 223569/371472 [6:45:12<11:54:09,  3.45it/s] 60%|██████    | 223570/371472 [6:45:12<11:48:58,  3.48it/s] 60%|██████    | 223571/371472 [6:45:12<11:43:50,  3.50it/s] 60%|██████    | 223572/371472 [6:45:12<11:22:45,  3.61it/s] 60%|██████    | 223573/371472 [6:45:13<13:10:42,  3.12it/s] 60%|██████    | 223574/371472 [6:45:13<12:25:16,  3.31it/s] 60%|██████    | 223575/371472 [6:45:14<13:18:51,  3.09it/s] 60%|██████    | 223576/371472 [6:45:14<13:31:14,  3.04it/s] 60%|██████    | 223577/371472 [6:45:14<13:22:21,  3.07it/s] 60%|██████    | 223578/371472 [6:45:15<14:16:26,  2.88it/s] 60%|██████    | 223579/371472 [6:45:15<13:10:38,  3.12it/s] 60%|██████    | 223580/371472 [6:45:15<12:27:02,  3.30it/s]                                                            {'loss': 2.9386, 'learning_rate': 4.5850481587623084e-07, 'epoch': 9.63}
 60%|██████    | 223580/371472 [6:45:15<12:27:02,  3.30it/s] 60%|██████    | 223581/371472 [6:45:15<11:58:02,  3.43it/s] 60%|██████    | 223582/371472 [6:45:16<11:43:00,  3.51it/s] 60%|██████    | 223583/371472 [6:45:16<12:08:47,  3.38it/s] 60%|██████    | 223584/371472 [6:45:16<12:12:21,  3.37it/s] 60%|██████    | 223585/371472 [6:45:17<12:04:05,  3.40it/s] 60%|██████    | 223586/371472 [6:45:17<12:19:47,  3.33it/s] 60%|██████    | 223587/371472 [6:45:17<12:01:45,  3.41it/s] 60%|██████    | 223588/371472 [6:45:17<12:02:34,  3.41it/s] 60%|██████    | 223589/371472 [6:45:18<12:22:21,  3.32it/s] 60%|██████    | 223590/371472 [6:45:18<12:00:16,  3.42it/s] 60%|██████    | 223591/371472 [6:45:18<12:22:56,  3.32it/s] 60%|██████    | 223592/371472 [6:45:19<13:19:23,  3.08it/s] 60%|██████    | 223593/371472 [6:45:19<13:00:57,  3.16it/s] 60%|██████    | 223594/371472 [6:45:19<13:06:48,  3.13it/s] 60%|██████    | 223595/371472 [6:45:20<13:01:47,  3.15it/s] 60%|██████    | 223596/371472 [6:45:20<12:21:54,  3.32it/s] 60%|██████    | 223597/371472 [6:45:20<12:51:22,  3.20it/s] 60%|██████    | 223598/371472 [6:45:21<12:20:36,  3.33it/s] 60%|██████    | 223599/371472 [6:45:21<12:11:06,  3.37it/s] 60%|██████    | 223600/371472 [6:45:21<11:43:23,  3.50it/s]                                                            {'loss': 3.0114, 'learning_rate': 4.58456333900752e-07, 'epoch': 9.63}
 60%|██████    | 223600/371472 [6:45:21<11:43:23,  3.50it/s] 60%|██████    | 223601/371472 [6:45:21<12:02:07,  3.41it/s] 60%|██████    | 223602/371472 [6:45:22<11:32:12,  3.56it/s] 60%|██████    | 223603/371472 [6:45:22<11:54:25,  3.45it/s] 60%|██████    | 223604/371472 [6:45:22<11:40:59,  3.52it/s] 60%|██████    | 223605/371472 [6:45:23<11:47:30,  3.48it/s] 60%|██████    | 223606/371472 [6:45:23<12:56:09,  3.18it/s] 60%|██████    | 223607/371472 [6:45:23<12:24:56,  3.31it/s] 60%|██████    | 223608/371472 [6:45:24<12:57:13,  3.17it/s] 60%|██████    | 223609/371472 [6:45:24<13:09:53,  3.12it/s] 60%|██████    | 223610/371472 [6:45:24<12:38:36,  3.25it/s] 60%|██████    | 223611/371472 [6:45:24<13:19:16,  3.08it/s] 60%|██████    | 223612/371472 [6:45:25<13:28:46,  3.05it/s] 60%|██████    | 223613/371472 [6:45:25<13:11:00,  3.12it/s] 60%|██████    | 223614/371472 [6:45:26<15:01:17,  2.73it/s] 60%|██████    | 223615/371472 [6:45:26<13:50:59,  2.97it/s] 60%|██████    | 223616/371472 [6:45:26<14:01:41,  2.93it/s] 60%|██████    | 223617/371472 [6:45:26<12:55:52,  3.18it/s] 60%|██████    | 223618/371472 [6:45:27<12:03:39,  3.41it/s] 60%|██████    | 223619/371472 [6:45:27<11:35:54,  3.54it/s] 60%|██████    | 223620/371472 [6:45:27<11:19:28,  3.63it/s]                                                            {'loss': 2.9665, 'learning_rate': 4.584078519252731e-07, 'epoch': 9.63}
 60%|██████    | 223620/371472 [6:45:27<11:19:28,  3.63it/s] 60%|██████    | 223621/371472 [6:45:28<11:17:39,  3.64it/s] 60%|██████    | 223622/371472 [6:45:28<10:58:56,  3.74it/s] 60%|██████    | 223623/371472 [6:45:28<10:45:30,  3.82it/s] 60%|██████    | 223624/371472 [6:45:28<11:01:25,  3.73it/s] 60%|██████    | 223625/371472 [6:45:29<11:12:26,  3.66it/s] 60%|██████    | 223626/371472 [6:45:29<12:07:09,  3.39it/s] 60%|██████    | 223627/371472 [6:45:29<13:13:19,  3.11it/s] 60%|██████    | 223628/371472 [6:45:30<12:30:23,  3.28it/s] 60%|██████    | 223629/371472 [6:45:30<12:17:00,  3.34it/s] 60%|██████    | 223630/371472 [6:45:30<12:01:09,  3.42it/s] 60%|██████    | 223631/371472 [6:45:30<11:49:35,  3.47it/s] 60%|██████    | 223632/371472 [6:45:31<11:48:33,  3.48it/s] 60%|██████    | 223633/371472 [6:45:31<11:42:08,  3.51it/s] 60%|██████    | 223634/371472 [6:45:31<11:23:16,  3.61it/s] 60%|██████    | 223635/371472 [6:45:31<11:10:48,  3.67it/s] 60%|██████    | 223636/371472 [6:45:32<10:54:13,  3.77it/s] 60%|██████    | 223637/371472 [6:45:32<10:52:32,  3.78it/s] 60%|██████    | 223638/371472 [6:45:32<11:16:40,  3.64it/s] 60%|██████    | 223639/371472 [6:45:33<11:03:18,  3.71it/s] 60%|██████    | 223640/371472 [6:45:33<11:13:14,  3.66it/s]                                                            {'loss': 2.9453, 'learning_rate': 4.583593699497942e-07, 'epoch': 9.63}
 60%|██████    | 223640/371472 [6:45:33<11:13:14,  3.66it/s] 60%|██████    | 223641/371472 [6:45:33<11:10:32,  3.67it/s] 60%|██████    | 223642/371472 [6:45:33<10:57:06,  3.75it/s] 60%|██████    | 223643/371472 [6:45:34<11:01:34,  3.72it/s] 60%|██████    | 223644/371472 [6:45:34<10:55:36,  3.76it/s] 60%|██████    | 223645/371472 [6:45:34<11:00:18,  3.73it/s] 60%|██████    | 223646/371472 [6:45:35<11:45:10,  3.49it/s] 60%|██████    | 223647/371472 [6:45:35<13:46:13,  2.98it/s] 60%|██████    | 223648/371472 [6:45:35<12:54:34,  3.18it/s] 60%|██████    | 223649/371472 [6:45:35<12:27:32,  3.30it/s] 60%|██████    | 223650/371472 [6:45:36<11:55:40,  3.44it/s] 60%|██████    | 223651/371472 [6:45:36<11:28:32,  3.58it/s] 60%|██████    | 223652/371472 [6:45:36<11:50:47,  3.47it/s] 60%|██████    | 223653/371472 [6:45:37<11:29:08,  3.57it/s] 60%|██████    | 223654/371472 [6:45:37<11:48:04,  3.48it/s] 60%|██████    | 223655/371472 [6:45:37<11:19:01,  3.63it/s] 60%|██████    | 223656/371472 [6:45:37<11:53:46,  3.45it/s] 60%|██████    | 223657/371472 [6:45:38<12:11:08,  3.37it/s] 60%|██████    | 223658/371472 [6:45:38<12:03:00,  3.41it/s] 60%|██████    | 223659/371472 [6:45:38<11:43:27,  3.50it/s] 60%|██████    | 223660/371472 [6:45:39<11:18:24,  3.63it/s]                                                            {'loss': 2.9952, 'learning_rate': 4.583108879743153e-07, 'epoch': 9.63}
 60%|██████    | 223660/371472 [6:45:39<11:18:24,  3.63it/s] 60%|██████    | 223661/371472 [6:45:39<11:04:15,  3.71it/s] 60%|██████    | 223662/371472 [6:45:39<10:50:31,  3.79it/s] 60%|██████    | 223663/371472 [6:45:39<11:10:00,  3.68it/s] 60%|██████    | 223664/371472 [6:45:40<11:31:52,  3.56it/s] 60%|██████    | 223665/371472 [6:45:40<11:43:18,  3.50it/s] 60%|██████    | 223666/371472 [6:45:40<11:37:27,  3.53it/s] 60%|██████    | 223667/371472 [6:45:41<11:35:25,  3.54it/s] 60%|██████    | 223668/371472 [6:45:41<11:39:25,  3.52it/s] 60%|██████    | 223669/371472 [6:45:41<11:33:25,  3.55it/s] 60%|██████    | 223670/371472 [6:45:41<11:59:37,  3.42it/s] 60%|██████    | 223671/371472 [6:45:42<11:29:06,  3.57it/s] 60%|██████    | 223672/371472 [6:45:42<11:15:18,  3.65it/s] 60%|██████    | 223673/371472 [6:45:42<12:19:51,  3.33it/s] 60%|██████    | 223674/371472 [6:45:43<12:18:57,  3.33it/s] 60%|██████    | 223675/371472 [6:45:43<12:37:39,  3.25it/s] 60%|██████    | 223676/371472 [6:45:43<12:25:50,  3.30it/s] 60%|██████    | 223677/371472 [6:45:43<11:51:01,  3.46it/s] 60%|██████    | 223678/371472 [6:45:44<11:48:08,  3.48it/s] 60%|██████    | 223679/371472 [6:45:44<12:18:32,  3.34it/s] 60%|██████    | 223680/371472 [6:45:44<12:18:29,  3.34it/s]                                                            {'loss': 2.9877, 'learning_rate': 4.5826240599883646e-07, 'epoch': 9.63}
 60%|██████    | 223680/371472 [6:45:44<12:18:29,  3.34it/s] 60%|██████    | 223681/371472 [6:45:45<12:09:26,  3.38it/s] 60%|██████    | 223682/371472 [6:45:45<11:45:39,  3.49it/s] 60%|██████    | 223683/371472 [6:45:45<12:12:38,  3.36it/s] 60%|██████    | 223684/371472 [6:45:46<11:46:34,  3.49it/s] 60%|██████    | 223685/371472 [6:45:46<12:12:33,  3.36it/s] 60%|██████    | 223686/371472 [6:45:46<12:36:05,  3.26it/s] 60%|██████    | 223687/371472 [6:45:46<12:00:01,  3.42it/s] 60%|██████    | 223688/371472 [6:45:47<11:39:34,  3.52it/s] 60%|██████    | 223689/371472 [6:45:47<11:38:13,  3.53it/s] 60%|██████    | 223690/371472 [6:45:47<11:10:07,  3.68it/s] 60%|██████    | 223691/371472 [6:45:48<11:36:08,  3.54it/s] 60%|██████    | 223692/371472 [6:45:48<11:29:41,  3.57it/s] 60%|██████    | 223693/371472 [6:45:48<12:30:41,  3.28it/s] 60%|██████    | 223694/371472 [6:45:48<12:25:27,  3.30it/s] 60%|██████    | 223695/371472 [6:45:49<12:29:24,  3.29it/s] 60%|██████    | 223696/371472 [6:45:49<12:20:56,  3.32it/s] 60%|██████    | 223697/371472 [6:45:49<12:02:36,  3.41it/s] 60%|██████    | 223698/371472 [6:45:50<12:15:53,  3.35it/s] 60%|██████    | 223699/371472 [6:45:50<11:46:43,  3.48it/s] 60%|██████    | 223700/371472 [6:45:50<11:49:40,  3.47it/s]                                                            {'loss': 3.0083, 'learning_rate': 4.5821392402335753e-07, 'epoch': 9.64}
 60%|██████    | 223700/371472 [6:45:50<11:49:40,  3.47it/s] 60%|██████    | 223701/371472 [6:45:50<11:21:19,  3.61it/s] 60%|██████    | 223702/371472 [6:45:51<12:03:29,  3.40it/s] 60%|██████    | 223703/371472 [6:45:51<11:43:21,  3.50it/s] 60%|██████    | 223704/371472 [6:45:51<11:25:53,  3.59it/s] 60%|██████    | 223705/371472 [6:45:52<11:34:51,  3.54it/s] 60%|██████    | 223706/371472 [6:45:52<11:36:02,  3.54it/s] 60%|██████    | 223707/371472 [6:45:52<11:41:27,  3.51it/s] 60%|██████    | 223708/371472 [6:45:52<11:54:15,  3.45it/s] 60%|██████    | 223709/371472 [6:45:53<11:43:05,  3.50it/s] 60%|██████    | 223710/371472 [6:45:53<11:11:38,  3.67it/s] 60%|██████    | 223711/371472 [6:45:53<11:10:49,  3.67it/s] 60%|██████    | 223712/371472 [6:45:54<12:01:16,  3.41it/s] 60%|██████    | 223713/371472 [6:45:54<12:27:27,  3.29it/s] 60%|██████    | 223714/371472 [6:45:54<11:57:54,  3.43it/s] 60%|██████    | 223715/371472 [6:45:54<11:48:08,  3.48it/s] 60%|██████    | 223716/371472 [6:45:55<11:18:26,  3.63it/s] 60%|██████    | 223717/371472 [6:45:55<12:10:14,  3.37it/s] 60%|██████    | 223718/371472 [6:45:55<11:57:42,  3.43it/s] 60%|██████    | 223719/371472 [6:45:56<12:28:19,  3.29it/s] 60%|██████    | 223720/371472 [6:45:56<12:07:57,  3.38it/s]                                                            {'loss': 2.854, 'learning_rate': 4.5816544204787866e-07, 'epoch': 9.64}
 60%|██████    | 223720/371472 [6:45:56<12:07:57,  3.38it/s] 60%|██████    | 223721/371472 [6:45:56<12:09:12,  3.38it/s] 60%|██████    | 223722/371472 [6:45:57<12:18:44,  3.33it/s] 60%|██████    | 223723/371472 [6:45:57<11:52:54,  3.45it/s] 60%|██████    | 223724/371472 [6:45:57<11:30:39,  3.57it/s] 60%|██████    | 223725/371472 [6:45:57<11:06:55,  3.69it/s] 60%|██████    | 223726/371472 [6:45:58<11:50:06,  3.47it/s] 60%|██████    | 223727/371472 [6:45:58<11:49:34,  3.47it/s] 60%|██████    | 223728/371472 [6:45:58<11:28:31,  3.58it/s] 60%|██████    | 223729/371472 [6:45:58<11:22:21,  3.61it/s] 60%|██████    | 223730/371472 [6:45:59<11:03:24,  3.71it/s] 60%|██████    | 223731/371472 [6:45:59<11:09:09,  3.68it/s] 60%|██████    | 223732/371472 [6:45:59<12:28:33,  3.29it/s] 60%|██████    | 223733/371472 [6:46:00<11:44:47,  3.49it/s] 60%|██████    | 223734/371472 [6:46:00<11:54:50,  3.44it/s] 60%|██████    | 223735/371472 [6:46:00<11:37:55,  3.53it/s] 60%|██████    | 223736/371472 [6:46:00<11:20:33,  3.62it/s] 60%|██████    | 223737/371472 [6:46:01<11:04:40,  3.70it/s] 60%|██████    | 223738/371472 [6:46:01<11:04:48,  3.70it/s] 60%|██████    | 223739/371472 [6:46:01<11:11:17,  3.67it/s] 60%|██████    | 223740/371472 [6:46:02<11:00:03,  3.73it/s]                                                            {'loss': 2.801, 'learning_rate': 4.5811696007239973e-07, 'epoch': 9.64}
 60%|██████    | 223740/371472 [6:46:02<11:00:03,  3.73it/s] 60%|██████    | 223741/371472 [6:46:02<11:37:08,  3.53it/s] 60%|██████    | 223742/371472 [6:46:02<11:34:30,  3.55it/s] 60%|██████    | 223743/371472 [6:46:02<11:47:05,  3.48it/s] 60%|██████    | 223744/371472 [6:46:03<12:50:39,  3.19it/s] 60%|██████    | 223745/371472 [6:46:03<12:53:38,  3.18it/s] 60%|██████    | 223746/371472 [6:46:03<13:41:16,  3.00it/s] 60%|██████    | 223747/371472 [6:46:04<13:47:49,  2.97it/s] 60%|██████    | 223748/371472 [6:46:04<13:38:30,  3.01it/s] 60%|██████    | 223749/371472 [6:46:05<14:12:23,  2.89it/s] 60%|██████    | 223750/371472 [6:46:05<13:40:59,  3.00it/s] 60%|██████    | 223751/371472 [6:46:05<13:55:54,  2.95it/s] 60%|██████    | 223752/371472 [6:46:05<13:24:00,  3.06it/s] 60%|██████    | 223753/371472 [6:46:06<12:30:01,  3.28it/s] 60%|██████    | 223754/371472 [6:46:06<11:58:48,  3.43it/s] 60%|██████    | 223755/371472 [6:46:06<12:31:32,  3.28it/s] 60%|██████    | 223756/371472 [6:46:07<12:42:01,  3.23it/s] 60%|██████    | 223757/371472 [6:46:07<13:12:42,  3.11it/s] 60%|██████    | 223758/371472 [6:46:07<12:41:24,  3.23it/s] 60%|██████    | 223759/371472 [6:46:08<12:42:40,  3.23it/s] 60%|██████    | 223760/371472 [6:46:08<12:18:06,  3.34it/s]                                                            {'loss': 2.8279, 'learning_rate': 4.580684780969209e-07, 'epoch': 9.64}
 60%|██████    | 223760/371472 [6:46:08<12:18:06,  3.34it/s] 60%|██████    | 223761/371472 [6:46:08<12:00:54,  3.41it/s] 60%|██████    | 223762/371472 [6:46:08<12:06:06,  3.39it/s] 60%|██████    | 223763/371472 [6:46:09<11:49:01,  3.47it/s] 60%|██████    | 223764/371472 [6:46:09<11:37:09,  3.53it/s] 60%|██████    | 223765/371472 [6:46:09<11:43:35,  3.50it/s] 60%|██████    | 223766/371472 [6:46:10<12:42:18,  3.23it/s] 60%|██████    | 223767/371472 [6:46:10<12:03:37,  3.40it/s] 60%|██████    | 223768/371472 [6:46:10<12:24:17,  3.31it/s] 60%|██████    | 223769/371472 [6:46:10<11:50:12,  3.47it/s] 60%|██████    | 223770/371472 [6:46:11<11:54:49,  3.44it/s] 60%|██████    | 223771/371472 [6:46:11<12:17:27,  3.34it/s] 60%|██████    | 223772/371472 [6:46:11<12:26:03,  3.30it/s] 60%|██████    | 223773/371472 [6:46:12<12:19:01,  3.33it/s] 60%|██████    | 223774/371472 [6:46:12<12:18:34,  3.33it/s] 60%|██████    | 223775/371472 [6:46:12<11:38:44,  3.52it/s] 60%|██████    | 223776/371472 [6:46:13<11:21:05,  3.61it/s] 60%|██████    | 223777/371472 [6:46:13<11:01:53,  3.72it/s] 60%|██████    | 223778/371472 [6:46:13<10:48:49,  3.79it/s] 60%|██████    | 223779/371472 [6:46:13<11:54:21,  3.45it/s] 60%|██████    | 223780/371472 [6:46:14<11:26:56,  3.58it/s]                                                            {'loss': 2.8157, 'learning_rate': 4.580199961214419e-07, 'epoch': 9.64}
 60%|██████    | 223780/371472 [6:46:14<11:26:56,  3.58it/s] 60%|██████    | 223781/371472 [6:46:14<11:06:28,  3.69it/s] 60%|██████    | 223782/371472 [6:46:14<10:55:54,  3.75it/s] 60%|██████    | 223783/371472 [6:46:14<10:59:58,  3.73it/s] 60%|██████    | 223784/371472 [6:46:15<10:43:28,  3.83it/s] 60%|██████    | 223785/371472 [6:46:15<11:09:27,  3.68it/s] 60%|██████    | 223786/371472 [6:46:15<11:36:15,  3.54it/s] 60%|██████    | 223787/371472 [6:46:15<11:11:00,  3.67it/s] 60%|██████    | 223788/371472 [6:46:16<10:47:46,  3.80it/s] 60%|██████    | 223789/371472 [6:46:16<10:49:11,  3.79it/s] 60%|██████    | 223790/371472 [6:46:16<11:11:50,  3.66it/s] 60%|██████    | 223791/371472 [6:46:17<11:35:14,  3.54it/s] 60%|██████    | 223792/371472 [6:46:17<12:27:34,  3.29it/s] 60%|██████    | 223793/371472 [6:46:17<12:40:26,  3.24it/s] 60%|██████    | 223794/371472 [6:46:18<12:24:39,  3.31it/s] 60%|██████    | 223795/371472 [6:46:18<11:50:15,  3.47it/s] 60%|██████    | 223796/371472 [6:46:18<11:34:14,  3.55it/s] 60%|██████    | 223797/371472 [6:46:18<11:12:58,  3.66it/s] 60%|██████    | 223798/371472 [6:46:19<12:06:26,  3.39it/s] 60%|██████    | 223799/371472 [6:46:19<11:41:35,  3.51it/s] 60%|██████    | 223800/371472 [6:46:19<11:56:59,  3.43it/s]                                                            {'loss': 2.9753, 'learning_rate': 4.57971514145963e-07, 'epoch': 9.64}
 60%|██████    | 223800/371472 [6:46:19<11:56:59,  3.43it/s] 60%|██████    | 223801/371472 [6:46:20<13:21:59,  3.07it/s] 60%|██████    | 223802/371472 [6:46:20<12:45:26,  3.22it/s] 60%|██████    | 223803/371472 [6:46:20<12:31:01,  3.28it/s] 60%|██████    | 223804/371472 [6:46:21<12:35:14,  3.26it/s] 60%|██████    | 223805/371472 [6:46:21<11:50:57,  3.46it/s] 60%|██████    | 223806/371472 [6:46:21<11:48:25,  3.47it/s] 60%|██████    | 223807/371472 [6:46:21<11:55:46,  3.44it/s] 60%|██████    | 223808/371472 [6:46:22<11:41:39,  3.51it/s] 60%|██████    | 223809/371472 [6:46:22<12:01:42,  3.41it/s] 60%|██████    | 223810/371472 [6:46:22<12:21:52,  3.32it/s] 60%|██████    | 223811/371472 [6:46:23<12:05:14,  3.39it/s] 60%|██████    | 223812/371472 [6:46:23<12:49:55,  3.20it/s] 60%|██████    | 223813/371472 [6:46:23<12:27:35,  3.29it/s] 60%|██████    | 223814/371472 [6:46:23<12:20:07,  3.33it/s] 60%|██████    | 223815/371472 [6:46:24<13:08:17,  3.12it/s] 60%|██████    | 223816/371472 [6:46:24<12:44:09,  3.22it/s] 60%|██████    | 223817/371472 [6:46:24<12:52:57,  3.18it/s] 60%|██████    | 223818/371472 [6:46:25<12:23:05,  3.31it/s] 60%|██████    | 223819/371472 [6:46:25<12:21:41,  3.32it/s] 60%|██████    | 223820/371472 [6:46:25<12:20:14,  3.32it/s]                                                            {'loss': 2.8573, 'learning_rate': 4.579230321704842e-07, 'epoch': 9.64}
 60%|██████    | 223820/371472 [6:46:25<12:20:14,  3.32it/s] 60%|██████    | 223821/371472 [6:46:26<12:01:52,  3.41it/s] 60%|██████    | 223822/371472 [6:46:26<11:38:22,  3.52it/s] 60%|██████    | 223823/371472 [6:46:26<11:20:50,  3.61it/s] 60%|██████    | 223824/371472 [6:46:27<13:29:26,  3.04it/s] 60%|██████    | 223825/371472 [6:46:27<13:01:13,  3.15it/s] 60%|██████    | 223826/371472 [6:46:27<12:28:20,  3.29it/s] 60%|██████    | 223827/371472 [6:46:27<12:27:31,  3.29it/s] 60%|██████    | 223828/371472 [6:46:28<12:37:04,  3.25it/s] 60%|██████    | 223829/371472 [6:46:28<12:03:20,  3.40it/s] 60%|██████    | 223830/371472 [6:46:28<11:46:52,  3.48it/s] 60%|██████    | 223831/371472 [6:46:29<11:46:36,  3.48it/s] 60%|██████    | 223832/371472 [6:46:29<11:34:57,  3.54it/s] 60%|██████    | 223833/371472 [6:46:29<11:18:17,  3.63it/s] 60%|██████    | 223834/371472 [6:46:29<12:34:10,  3.26it/s] 60%|██████    | 223835/371472 [6:46:30<12:09:35,  3.37it/s] 60%|██████    | 223836/371472 [6:46:30<11:28:44,  3.57it/s] 60%|██████    | 223837/371472 [6:46:30<12:13:58,  3.35it/s] 60%|██████    | 223838/371472 [6:46:31<12:08:02,  3.38it/s] 60%|██████    | 223839/371472 [6:46:31<12:40:58,  3.23it/s] 60%|██████    | 223840/371472 [6:46:31<12:08:05,  3.38it/s]                                                            {'loss': 2.9636, 'learning_rate': 4.578745501950052e-07, 'epoch': 9.64}
 60%|██████    | 223840/371472 [6:46:31<12:08:05,  3.38it/s] 60%|██████    | 223841/371472 [6:46:32<11:43:24,  3.50it/s] 60%|██████    | 223842/371472 [6:46:32<11:27:18,  3.58it/s] 60%|██████    | 223843/371472 [6:46:32<11:38:38,  3.52it/s] 60%|██████    | 223844/371472 [6:46:32<12:06:46,  3.39it/s] 60%|██████    | 223845/371472 [6:46:33<11:33:09,  3.55it/s] 60%|██████    | 223846/371472 [6:46:33<11:26:08,  3.59it/s] 60%|██████    | 223847/371472 [6:46:33<11:39:42,  3.52it/s] 60%|██████    | 223848/371472 [6:46:34<11:46:58,  3.48it/s] 60%|██████    | 223849/371472 [6:46:34<11:28:00,  3.58it/s] 60%|██████    | 223850/371472 [6:46:34<11:16:01,  3.64it/s] 60%|██████    | 223851/371472 [6:46:34<11:26:12,  3.59it/s] 60%|██████    | 223852/371472 [6:46:35<11:16:13,  3.64it/s] 60%|██████    | 223853/371472 [6:46:35<11:15:28,  3.64it/s] 60%|██████    | 223854/371472 [6:46:35<11:15:41,  3.64it/s] 60%|██████    | 223855/371472 [6:46:35<11:23:18,  3.60it/s] 60%|██████    | 223856/371472 [6:46:36<11:28:30,  3.57it/s] 60%|██████    | 223857/371472 [6:46:36<11:26:26,  3.58it/s] 60%|██████    | 223858/371472 [6:46:36<11:31:05,  3.56it/s] 60%|██████    | 223859/371472 [6:46:37<11:23:28,  3.60it/s] 60%|██████    | 223860/371472 [6:46:37<14:15:43,  2.88it/s]                                                            {'loss': 2.8846, 'learning_rate': 4.5782606821952637e-07, 'epoch': 9.64}
 60%|██████    | 223860/371472 [6:46:37<14:15:43,  2.88it/s] 60%|██████    | 223861/371472 [6:46:37<13:28:27,  3.04it/s] 60%|██████    | 223862/371472 [6:46:38<12:35:13,  3.26it/s] 60%|██████    | 223863/371472 [6:46:38<12:02:48,  3.40it/s] 60%|██████    | 223864/371472 [6:46:38<12:29:00,  3.28it/s] 60%|██████    | 223865/371472 [6:46:38<12:12:53,  3.36it/s] 60%|██████    | 223866/371472 [6:46:39<11:40:28,  3.51it/s] 60%|██████    | 223867/371472 [6:46:39<11:31:52,  3.56it/s] 60%|██████    | 223868/371472 [6:46:39<11:16:04,  3.64it/s] 60%|██████    | 223869/371472 [6:46:40<12:14:12,  3.35it/s] 60%|██████    | 223870/371472 [6:46:40<11:52:10,  3.45it/s] 60%|██████    | 223871/371472 [6:46:40<11:43:01,  3.50it/s] 60%|██████    | 223872/371472 [6:46:40<11:55:40,  3.44it/s] 60%|██████    | 223873/371472 [6:46:41<11:55:57,  3.44it/s] 60%|██████    | 223874/371472 [6:46:41<12:03:34,  3.40it/s] 60%|██████    | 223875/371472 [6:46:41<11:40:53,  3.51it/s] 60%|██████    | 223876/371472 [6:46:42<13:02:39,  3.14it/s] 60%|██████    | 223877/371472 [6:46:42<12:13:12,  3.36it/s] 60%|██████    | 223878/371472 [6:46:42<13:28:58,  3.04it/s] 60%|██████    | 223879/371472 [6:46:43<12:30:24,  3.28it/s] 60%|██████    | 223880/371472 [6:46:43<11:50:17,  3.46it/s]                                                            {'loss': 2.9118, 'learning_rate': 4.5777758624404744e-07, 'epoch': 9.64}
 60%|██████    | 223880/371472 [6:46:43<11:50:17,  3.46it/s] 60%|██████    | 223881/371472 [6:46:43<12:40:52,  3.23it/s] 60%|██████    | 223882/371472 [6:46:43<12:00:40,  3.41it/s] 60%|██████    | 223883/371472 [6:46:44<12:01:55,  3.41it/s] 60%|██████    | 223884/371472 [6:46:44<11:25:26,  3.59it/s] 60%|██████    | 223885/371472 [6:46:44<11:16:24,  3.64it/s] 60%|██████    | 223886/371472 [6:46:45<11:27:33,  3.58it/s] 60%|██████    | 223887/371472 [6:46:45<11:27:17,  3.58it/s] 60%|██████    | 223888/371472 [6:46:45<11:47:50,  3.47it/s] 60%|██████    | 223889/371472 [6:46:45<11:29:45,  3.57it/s] 60%|██████    | 223890/371472 [6:46:46<11:07:53,  3.68it/s] 60%|██████    | 223891/371472 [6:46:46<11:00:18,  3.73it/s] 60%|██████    | 223892/371472 [6:46:46<11:51:07,  3.46it/s] 60%|██████    | 223893/371472 [6:46:47<11:42:42,  3.50it/s] 60%|██████    | 223894/371472 [6:46:47<12:04:26,  3.40it/s] 60%|██████    | 223895/371472 [6:46:47<11:48:46,  3.47it/s] 60%|██████    | 223896/371472 [6:46:47<12:37:11,  3.25it/s] 60%|██████    | 223897/371472 [6:46:48<12:16:01,  3.34it/s] 60%|██████    | 223898/371472 [6:46:48<11:52:51,  3.45it/s] 60%|██████    | 223899/371472 [6:46:48<12:26:54,  3.29it/s] 60%|██████    | 223900/371472 [6:46:49<12:12:08,  3.36it/s]                                                            {'loss': 2.9539, 'learning_rate': 4.5772910426856857e-07, 'epoch': 9.64}
 60%|██████    | 223900/371472 [6:46:49<12:12:08,  3.36it/s] 60%|██████    | 223901/371472 [6:46:49<11:57:32,  3.43it/s] 60%|██████    | 223902/371472 [6:46:49<11:46:17,  3.48it/s] 60%|██████    | 223903/371472 [6:46:49<11:40:59,  3.51it/s] 60%|██████    | 223904/371472 [6:46:50<11:57:53,  3.43it/s] 60%|██████    | 223905/371472 [6:46:50<11:41:17,  3.51it/s] 60%|██████    | 223906/371472 [6:46:50<11:21:52,  3.61it/s] 60%|██████    | 223907/371472 [6:46:51<11:36:11,  3.53it/s] 60%|██████    | 223908/371472 [6:46:51<11:14:15,  3.65it/s] 60%|██████    | 223909/371472 [6:46:51<11:54:47,  3.44it/s] 60%|██████    | 223910/371472 [6:46:51<11:34:37,  3.54it/s] 60%|██████    | 223911/371472 [6:46:52<11:25:02,  3.59it/s] 60%|██████    | 223912/371472 [6:46:52<11:18:57,  3.62it/s] 60%|██████    | 223913/371472 [6:46:52<11:40:07,  3.51it/s] 60%|██████    | 223914/371472 [6:46:53<11:18:55,  3.62it/s] 60%|██████    | 223915/371472 [6:46:53<11:16:33,  3.63it/s] 60%|██████    | 223916/371472 [6:46:53<12:03:56,  3.40it/s] 60%|██████    | 223917/371472 [6:46:53<11:52:36,  3.45it/s] 60%|██████    | 223918/371472 [6:46:54<11:46:54,  3.48it/s] 60%|██████    | 223919/371472 [6:46:54<11:44:39,  3.49it/s] 60%|██████    | 223920/371472 [6:46:54<11:22:09,  3.61it/s]                                                            {'loss': 2.9292, 'learning_rate': 4.5768062229308964e-07, 'epoch': 9.64}
 60%|██████    | 223920/371472 [6:46:54<11:22:09,  3.61it/s] 60%|██████    | 223921/371472 [6:46:55<11:14:27,  3.65it/s] 60%|██████    | 223922/371472 [6:46:55<12:21:43,  3.32it/s] 60%|██████    | 223923/371472 [6:46:55<11:47:48,  3.47it/s] 60%|██████    | 223924/371472 [6:46:55<11:20:31,  3.61it/s] 60%|██████    | 223925/371472 [6:46:56<11:13:03,  3.65it/s] 60%|██████    | 223926/371472 [6:46:56<10:55:05,  3.75it/s] 60%|██████    | 223927/371472 [6:46:56<10:51:04,  3.78it/s] 60%|██████    | 223928/371472 [6:46:56<11:01:55,  3.71it/s] 60%|██████    | 223929/371472 [6:46:57<11:00:24,  3.72it/s] 60%|██████    | 223930/371472 [6:46:57<10:53:11,  3.76it/s] 60%|██████    | 223931/371472 [6:46:57<11:18:59,  3.62it/s] 60%|██████    | 223932/371472 [6:46:58<11:11:27,  3.66it/s] 60%|██████    | 223933/371472 [6:46:58<11:21:52,  3.61it/s] 60%|██████    | 223934/371472 [6:46:58<11:23:14,  3.60it/s] 60%|██████    | 223935/371472 [6:46:58<11:39:49,  3.51it/s] 60%|██████    | 223936/371472 [6:46:59<11:38:16,  3.52it/s] 60%|██████    | 223937/371472 [6:46:59<11:27:03,  3.58it/s] 60%|██████    | 223938/371472 [6:46:59<10:59:30,  3.73it/s] 60%|██████    | 223939/371472 [6:46:59<10:58:24,  3.73it/s] 60%|██████    | 223940/371472 [6:47:00<10:58:30,  3.73it/s]                                                            {'loss': 3.0514, 'learning_rate': 4.576321403176108e-07, 'epoch': 9.65}
 60%|██████    | 223940/371472 [6:47:00<10:58:30,  3.73it/s] 60%|██████    | 223941/371472 [6:47:00<11:32:13,  3.55it/s] 60%|██████    | 223942/371472 [6:47:00<12:24:47,  3.30it/s] 60%|██████    | 223943/371472 [6:47:01<11:42:18,  3.50it/s] 60%|██████    | 223944/371472 [6:47:01<12:05:24,  3.39it/s] 60%|██████    | 223945/371472 [6:47:01<12:06:51,  3.38it/s] 60%|██████    | 223946/371472 [6:47:02<11:37:28,  3.53it/s] 60%|██████    | 223947/371472 [6:47:02<11:23:38,  3.60it/s] 60%|██████    | 223948/371472 [6:47:02<11:16:12,  3.64it/s] 60%|██████    | 223949/371472 [6:47:02<11:00:26,  3.72it/s] 60%|██████    | 223950/371472 [6:47:03<11:14:29,  3.65it/s] 60%|██████    | 223951/371472 [6:47:03<11:18:20,  3.62it/s] 60%|██████    | 223952/371472 [6:47:03<10:54:26,  3.76it/s] 60%|██████    | 223953/371472 [6:47:03<10:45:47,  3.81it/s] 60%|██████    | 223954/371472 [6:47:04<10:45:55,  3.81it/s] 60%|██████    | 223955/371472 [6:47:04<11:50:49,  3.46it/s] 60%|██████    | 223956/371472 [6:47:04<11:26:41,  3.58it/s] 60%|██████    | 223957/371472 [6:47:05<12:03:04,  3.40it/s] 60%|██████    | 223958/371472 [6:47:05<12:04:08,  3.40it/s] 60%|██████    | 223959/371472 [6:47:05<11:55:55,  3.43it/s] 60%|██████    | 223960/371472 [6:47:05<11:42:33,  3.50it/s]                                                            {'loss': 2.913, 'learning_rate': 4.575836583421319e-07, 'epoch': 9.65}
 60%|██████    | 223960/371472 [6:47:05<11:42:33,  3.50it/s] 60%|██████    | 223961/371472 [6:47:06<11:34:22,  3.54it/s] 60%|██████    | 223962/371472 [6:47:06<11:54:45,  3.44it/s] 60%|██████    | 223963/371472 [6:47:06<11:32:49,  3.55it/s] 60%|██████    | 223964/371472 [6:47:07<11:27:38,  3.58it/s] 60%|██████    | 223965/371472 [6:47:07<11:26:31,  3.58it/s] 60%|██████    | 223966/371472 [6:47:07<11:22:57,  3.60it/s] 60%|██████    | 223967/371472 [6:47:07<11:00:58,  3.72it/s] 60%|██████    | 223968/371472 [6:47:08<11:04:16,  3.70it/s] 60%|██████    | 223969/371472 [6:47:08<10:46:04,  3.81it/s] 60%|██████    | 223970/371472 [6:47:08<11:14:15,  3.65it/s] 60%|██████    | 223971/371472 [6:47:08<11:02:14,  3.71it/s] 60%|██████    | 223972/371472 [6:47:09<10:56:19,  3.75it/s] 60%|██████    | 223973/371472 [6:47:09<11:34:15,  3.54it/s] 60%|██████    | 223974/371472 [6:47:09<11:14:15,  3.65it/s] 60%|██████    | 223975/371472 [6:47:10<11:52:04,  3.45it/s] 60%|██████    | 223976/371472 [6:47:10<11:25:19,  3.59it/s] 60%|██████    | 223977/371472 [6:47:10<11:28:03,  3.57it/s] 60%|██████    | 223978/371472 [6:47:10<11:57:55,  3.42it/s] 60%|██████    | 223979/371472 [6:47:11<11:52:28,  3.45it/s] 60%|██████    | 223980/371472 [6:47:11<11:43:59,  3.49it/s]                                                            {'loss': 2.8329, 'learning_rate': 4.57535176366653e-07, 'epoch': 9.65}
 60%|██████    | 223980/371472 [6:47:11<11:43:59,  3.49it/s] 60%|██████    | 223981/371472 [6:47:11<12:28:34,  3.28it/s] 60%|██████    | 223982/371472 [6:47:12<12:35:46,  3.25it/s] 60%|██████    | 223983/371472 [6:47:12<12:54:42,  3.17it/s] 60%|██████    | 223984/371472 [6:47:12<12:33:19,  3.26it/s] 60%|██████    | 223985/371472 [6:47:13<12:05:54,  3.39it/s] 60%|██████    | 223986/371472 [6:47:13<11:39:00,  3.52it/s] 60%|██████    | 223987/371472 [6:47:13<11:19:37,  3.62it/s] 60%|██████    | 223988/371472 [6:47:13<11:07:03,  3.68it/s] 60%|██████    | 223989/371472 [6:47:14<11:01:07,  3.72it/s] 60%|██████    | 223990/371472 [6:47:14<11:12:53,  3.65it/s] 60%|██████    | 223991/371472 [6:47:14<11:39:20,  3.51it/s] 60%|██████    | 223992/371472 [6:47:15<12:04:38,  3.39it/s] 60%|██████    | 223993/371472 [6:47:15<11:43:33,  3.49it/s] 60%|██████    | 223994/371472 [6:47:15<11:24:24,  3.59it/s] 60%|██████    | 223995/371472 [6:47:15<12:05:39,  3.39it/s] 60%|██████    | 223996/371472 [6:47:16<12:13:01,  3.35it/s] 60%|██████    | 223997/371472 [6:47:16<12:10:33,  3.36it/s] 60%|██████    | 223998/371472 [6:47:16<12:20:50,  3.32it/s] 60%|██████    | 223999/371472 [6:47:17<12:21:54,  3.31it/s] 60%|██████    | 224000/371472 [6:47:17<12:38:33,  3.24it/s]                                                            {'loss': 2.7999, 'learning_rate': 4.574866943911741e-07, 'epoch': 9.65}
 60%|██████    | 224000/371472 [6:47:17<12:38:33,  3.24it/s] 60%|██████    | 224001/371472 [6:47:17<12:06:39,  3.38it/s] 60%|██████    | 224002/371472 [6:47:17<12:20:34,  3.32it/s] 60%|██████    | 224003/371472 [6:47:18<12:08:17,  3.37it/s] 60%|██████    | 224004/371472 [6:47:18<11:43:15,  3.49it/s] 60%|██████    | 224005/371472 [6:47:18<11:32:46,  3.55it/s] 60%|██████    | 224006/371472 [6:47:19<11:21:27,  3.61it/s] 60%|██████    | 224007/371472 [6:47:19<11:54:25,  3.44it/s] 60%|██████    | 224008/371472 [6:47:19<11:36:04,  3.53it/s] 60%|██████    | 224009/371472 [6:47:19<11:43:16,  3.49it/s] 60%|██████    | 224010/371472 [6:47:20<12:06:28,  3.38it/s] 60%|██████    | 224011/371472 [6:47:20<11:51:49,  3.45it/s] 60%|██████    | 224012/371472 [6:47:20<11:27:40,  3.57it/s] 60%|██████    | 224013/371472 [6:47:21<11:12:35,  3.65it/s] 60%|██████    | 224014/371472 [6:47:21<11:12:00,  3.66it/s] 60%|██████    | 224015/371472 [6:47:21<11:18:10,  3.62it/s] 60%|██████    | 224016/371472 [6:47:21<11:09:48,  3.67it/s] 60%|██████    | 224017/371472 [6:47:22<10:54:08,  3.76it/s] 60%|██████    | 224018/371472 [6:47:22<11:18:32,  3.62it/s] 60%|██████    | 224019/371472 [6:47:22<10:54:47,  3.75it/s] 60%|██████    | 224020/371472 [6:47:23<11:53:10,  3.45it/s]                                                            {'loss': 2.9755, 'learning_rate': 4.5743821241569526e-07, 'epoch': 9.65}
 60%|██████    | 224020/371472 [6:47:23<11:53:10,  3.45it/s] 60%|██████    | 224021/371472 [6:47:23<11:35:28,  3.53it/s] 60%|██████    | 224022/371472 [6:47:23<11:35:24,  3.53it/s] 60%|██████    | 224023/371472 [6:47:23<11:08:29,  3.68it/s] 60%|██████    | 224024/371472 [6:47:24<11:12:59,  3.65it/s] 60%|██████    | 224025/371472 [6:47:24<12:07:48,  3.38it/s] 60%|██████    | 224026/371472 [6:47:24<11:38:17,  3.52it/s] 60%|██████    | 224027/371472 [6:47:25<12:03:54,  3.39it/s] 60%|██████    | 224028/371472 [6:47:25<11:52:38,  3.45it/s] 60%|██████    | 224029/371472 [6:47:25<11:41:21,  3.50it/s] 60%|██████    | 224030/371472 [6:47:25<11:49:46,  3.46it/s] 60%|██████    | 224031/371472 [6:47:26<11:43:45,  3.49it/s] 60%|██████    | 224032/371472 [6:47:26<11:28:36,  3.57it/s] 60%|██████    | 224033/371472 [6:47:26<11:34:14,  3.54it/s] 60%|██████    | 224034/371472 [6:47:27<11:40:12,  3.51it/s] 60%|██████    | 224035/371472 [6:47:27<11:57:19,  3.43it/s] 60%|██████    | 224036/371472 [6:47:27<12:05:36,  3.39it/s] 60%|██████    | 224037/371472 [6:47:27<12:05:52,  3.39it/s] 60%|██████    | 224038/371472 [6:47:28<12:40:56,  3.23it/s] 60%|██████    | 224039/371472 [6:47:28<12:40:13,  3.23it/s] 60%|██████    | 224040/371472 [6:47:28<12:43:17,  3.22it/s]                                                            {'loss': 2.9602, 'learning_rate': 4.573897304402163e-07, 'epoch': 9.65}
 60%|██████    | 224040/371472 [6:47:28<12:43:17,  3.22it/s] 60%|██████    | 224041/371472 [6:47:29<12:21:13,  3.32it/s] 60%|██████    | 224042/371472 [6:47:29<12:20:13,  3.32it/s] 60%|██████    | 224043/371472 [6:47:29<12:28:21,  3.28it/s] 60%|██████    | 224044/371472 [6:47:30<11:56:10,  3.43it/s] 60%|██████    | 224045/371472 [6:47:30<11:40:21,  3.51it/s] 60%|██████    | 224046/371472 [6:47:30<11:30:18,  3.56it/s] 60%|██████    | 224047/371472 [6:47:30<10:55:55,  3.75it/s] 60%|██████    | 224048/371472 [6:47:31<11:59:16,  3.42it/s] 60%|██████    | 224049/371472 [6:47:31<12:42:53,  3.22it/s] 60%|██████    | 224050/371472 [6:47:31<12:18:12,  3.33it/s] 60%|██████    | 224051/371472 [6:47:32<11:51:03,  3.46it/s] 60%|██████    | 224052/371472 [6:47:32<11:33:18,  3.54it/s] 60%|██████    | 224053/371472 [6:47:32<11:25:41,  3.58it/s] 60%|██████    | 224054/371472 [6:47:32<11:11:18,  3.66it/s] 60%|██████    | 224055/371472 [6:47:33<11:38:07,  3.52it/s] 60%|██████    | 224056/371472 [6:47:33<11:35:28,  3.53it/s] 60%|██████    | 224057/371472 [6:47:33<12:24:41,  3.30it/s] 60%|██████    | 224058/371472 [6:47:34<13:00:54,  3.15it/s] 60%|██████    | 224059/371472 [6:47:34<12:44:11,  3.22it/s] 60%|██████    | 224060/371472 [6:47:34<12:05:22,  3.39it/s]                                                            {'loss': 2.9851, 'learning_rate': 4.573412484647375e-07, 'epoch': 9.65}
 60%|██████    | 224060/371472 [6:47:34<12:05:22,  3.39it/s] 60%|██████    | 224061/371472 [6:47:34<11:36:08,  3.53it/s] 60%|██████    | 224062/371472 [6:47:35<11:10:38,  3.66it/s] 60%|██████    | 224063/371472 [6:47:35<10:55:50,  3.75it/s] 60%|██████    | 224064/371472 [6:47:35<10:34:03,  3.87it/s] 60%|██████    | 224065/371472 [6:47:35<10:44:02,  3.81it/s] 60%|██████    | 224066/371472 [6:47:36<11:15:12,  3.64it/s] 60%|██████    | 224067/371472 [6:47:36<11:28:00,  3.57it/s] 60%|██████    | 224068/371472 [6:47:36<11:23:44,  3.59it/s] 60%|██████    | 224069/371472 [6:47:37<12:34:39,  3.26it/s] 60%|██████    | 224070/371472 [6:47:37<12:21:07,  3.31it/s] 60%|██████    | 224071/371472 [6:47:37<12:04:07,  3.39it/s] 60%|██████    | 224072/371472 [6:47:38<12:05:33,  3.39it/s] 60%|██████    | 224073/371472 [6:47:38<11:43:04,  3.49it/s] 60%|██████    | 224074/371472 [6:47:38<11:33:24,  3.54it/s] 60%|██████    | 224075/371472 [6:47:38<11:24:17,  3.59it/s] 60%|██████    | 224076/371472 [6:47:39<10:52:56,  3.76it/s] 60%|██████    | 224077/371472 [6:47:39<10:48:44,  3.79it/s] 60%|██████    | 224078/371472 [6:47:39<10:56:09,  3.74it/s] 60%|██████    | 224079/371472 [6:47:39<11:00:34,  3.72it/s] 60%|██████    | 224080/371472 [6:47:40<11:03:56,  3.70it/s]                                                            {'loss': 2.8313, 'learning_rate': 4.5729276648925853e-07, 'epoch': 9.65}
 60%|██████    | 224080/371472 [6:47:40<11:03:56,  3.70it/s] 60%|██████    | 224081/371472 [6:47:40<11:22:26,  3.60it/s] 60%|██████    | 224082/371472 [6:47:40<11:22:48,  3.60it/s] 60%|██████    | 224083/371472 [6:47:41<11:03:48,  3.70it/s] 60%|██████    | 224084/371472 [6:47:41<11:05:28,  3.69it/s] 60%|██████    | 224085/371472 [6:47:41<11:11:12,  3.66it/s] 60%|██████    | 224086/371472 [6:47:41<11:12:29,  3.65it/s] 60%|██████    | 224087/371472 [6:47:42<10:59:57,  3.72it/s] 60%|██████    | 224088/371472 [6:47:42<11:10:55,  3.66it/s] 60%|██████    | 224089/371472 [6:47:42<11:56:29,  3.43it/s] 60%|██████    | 224090/371472 [6:47:43<12:03:19,  3.40it/s] 60%|██████    | 224091/371472 [6:47:43<12:26:18,  3.29it/s] 60%|██████    | 224092/371472 [6:47:43<11:58:38,  3.42it/s] 60%|██████    | 224093/371472 [6:47:43<11:54:45,  3.44it/s] 60%|██████    | 224094/371472 [6:47:44<11:29:56,  3.56it/s] 60%|██████    | 224095/371472 [6:47:44<11:13:39,  3.65it/s] 60%|██████    | 224096/371472 [6:47:44<11:03:34,  3.70it/s] 60%|██████    | 224097/371472 [6:47:44<11:34:57,  3.53it/s] 60%|██████    | 224098/371472 [6:47:45<12:56:01,  3.17it/s] 60%|██████    | 224099/371472 [6:47:45<13:54:40,  2.94it/s] 60%|██████    | 224100/371472 [6:47:46<13:25:13,  3.05it/s]                                                            {'loss': 2.9285, 'learning_rate': 4.5724428451377965e-07, 'epoch': 9.65}
 60%|██████    | 224100/371472 [6:47:46<13:25:13,  3.05it/s] 60%|██████    | 224101/371472 [6:47:46<13:23:04,  3.06it/s] 60%|██████    | 224102/371472 [6:47:46<13:14:40,  3.09it/s] 60%|██████    | 224103/371472 [6:47:47<12:43:56,  3.22it/s] 60%|██████    | 224104/371472 [6:47:47<13:18:35,  3.08it/s] 60%|██████    | 224105/371472 [6:47:47<12:23:40,  3.30it/s] 60%|██████    | 224106/371472 [6:47:47<11:51:27,  3.45it/s] 60%|██████    | 224107/371472 [6:47:48<11:48:14,  3.47it/s] 60%|██████    | 224108/371472 [6:47:48<11:43:44,  3.49it/s] 60%|██████    | 224109/371472 [6:47:48<11:22:23,  3.60it/s] 60%|██████    | 224110/371472 [6:47:49<11:46:06,  3.48it/s] 60%|██████    | 224111/371472 [6:47:49<11:21:24,  3.60it/s] 60%|██████    | 224112/371472 [6:47:49<10:57:29,  3.74it/s] 60%|██████    | 224113/371472 [6:47:49<11:38:29,  3.52it/s] 60%|██████    | 224114/371472 [6:47:50<11:59:18,  3.41it/s] 60%|██████    | 224115/371472 [6:47:50<11:45:47,  3.48it/s] 60%|██████    | 224116/371472 [6:47:50<11:57:12,  3.42it/s] 60%|██████    | 224117/371472 [6:47:50<11:44:09,  3.49it/s] 60%|██████    | 224118/371472 [6:47:51<11:22:07,  3.60it/s] 60%|██████    | 224119/371472 [6:47:51<11:36:24,  3.53it/s] 60%|██████    | 224120/371472 [6:47:51<11:32:48,  3.54it/s]                                                            {'loss': 2.8254, 'learning_rate': 4.571958025383007e-07, 'epoch': 9.65}
 60%|██████    | 224120/371472 [6:47:51<11:32:48,  3.54it/s] 60%|██████    | 224121/371472 [6:47:52<11:10:43,  3.66it/s] 60%|██████    | 224122/371472 [6:47:52<11:19:00,  3.62it/s] 60%|██████    | 224123/371472 [6:47:52<12:00:38,  3.41it/s] 60%|██████    | 224124/371472 [6:47:52<11:34:24,  3.54it/s] 60%|██████    | 224125/371472 [6:47:53<12:15:25,  3.34it/s] 60%|██████    | 224126/371472 [6:47:53<11:44:08,  3.49it/s] 60%|██████    | 224127/371472 [6:47:53<11:41:21,  3.50it/s] 60%|██████    | 224128/371472 [6:47:54<11:36:44,  3.52it/s] 60%|██████    | 224129/371472 [6:47:54<11:27:11,  3.57it/s] 60%|██████    | 224130/371472 [6:47:54<11:39:20,  3.51it/s] 60%|██████    | 224131/371472 [6:47:54<11:40:41,  3.50it/s] 60%|██████    | 224132/371472 [6:47:55<11:07:22,  3.68it/s] 60%|██████    | 224133/371472 [6:47:55<11:48:21,  3.47it/s] 60%|██████    | 224134/371472 [6:47:55<11:30:31,  3.56it/s] 60%|██████    | 224135/371472 [6:47:56<11:28:02,  3.57it/s] 60%|██████    | 224136/371472 [6:47:56<11:18:39,  3.62it/s] 60%|██████    | 224137/371472 [6:47:56<11:49:30,  3.46it/s] 60%|██████    | 224138/371472 [6:47:56<11:40:49,  3.50it/s] 60%|██████    | 224139/371472 [6:47:57<11:31:09,  3.55it/s] 60%|██████    | 224140/371472 [6:47:57<12:14:24,  3.34it/s]                                                            {'loss': 2.8505, 'learning_rate': 4.571473205628219e-07, 'epoch': 9.65}
 60%|██████    | 224140/371472 [6:47:57<12:14:24,  3.34it/s] 60%|██████    | 224141/371472 [6:47:57<12:22:03,  3.31it/s] 60%|██████    | 224142/371472 [6:47:58<13:01:11,  3.14it/s] 60%|██████    | 224143/371472 [6:47:58<12:25:28,  3.29it/s] 60%|██████    | 224144/371472 [6:47:58<12:39:37,  3.23it/s] 60%|██████    | 224145/371472 [6:47:59<12:25:17,  3.29it/s] 60%|██████    | 224146/371472 [6:47:59<11:56:13,  3.43it/s] 60%|██████    | 224147/371472 [6:47:59<11:30:29,  3.56it/s] 60%|██████    | 224148/371472 [6:47:59<12:01:07,  3.40it/s] 60%|██████    | 224149/371472 [6:48:00<11:50:30,  3.46it/s] 60%|██████    | 224150/371472 [6:48:00<11:30:08,  3.56it/s] 60%|██████    | 224151/371472 [6:48:00<11:09:30,  3.67it/s] 60%|██████    | 224152/371472 [6:48:01<12:02:32,  3.40it/s] 60%|██████    | 224153/371472 [6:48:01<12:08:05,  3.37it/s] 60%|██████    | 224154/371472 [6:48:01<11:55:16,  3.43it/s] 60%|██████    | 224155/371472 [6:48:01<11:45:50,  3.48it/s] 60%|██████    | 224156/371472 [6:48:02<11:20:21,  3.61it/s] 60%|██████    | 224157/371472 [6:48:02<10:56:47,  3.74it/s] 60%|██████    | 224158/371472 [6:48:02<10:55:38,  3.74it/s] 60%|██████    | 224159/371472 [6:48:02<11:12:16,  3.65it/s] 60%|██████    | 224160/371472 [6:48:03<11:03:23,  3.70it/s]                                                            {'loss': 2.8116, 'learning_rate': 4.570988385873429e-07, 'epoch': 9.65}
 60%|██████    | 224160/371472 [6:48:03<11:03:23,  3.70it/s] 60%|██████    | 224161/371472 [6:48:03<10:45:29,  3.80it/s] 60%|██████    | 224162/371472 [6:48:03<10:52:53,  3.76it/s] 60%|██████    | 224163/371472 [6:48:04<10:43:52,  3.81it/s] 60%|██████    | 224164/371472 [6:48:04<10:58:32,  3.73it/s] 60%|██████    | 224165/371472 [6:48:04<11:19:47,  3.61it/s] 60%|██████    | 224166/371472 [6:48:04<11:31:01,  3.55it/s] 60%|██████    | 224167/371472 [6:48:05<11:21:18,  3.60it/s] 60%|██████    | 224168/371472 [6:48:05<11:52:10,  3.45it/s] 60%|██████    | 224169/371472 [6:48:05<11:23:17,  3.59it/s] 60%|██████    | 224170/371472 [6:48:06<11:11:44,  3.65it/s] 60%|██████    | 224171/371472 [6:48:06<10:57:43,  3.73it/s] 60%|██████    | 224172/371472 [6:48:06<11:28:57,  3.56it/s] 60%|██████    | 224173/371472 [6:48:06<11:23:45,  3.59it/s] 60%|██████    | 224174/371472 [6:48:07<11:08:52,  3.67it/s] 60%|██████    | 224175/371472 [6:48:07<11:10:34,  3.66it/s] 60%|██████    | 224176/371472 [6:48:07<11:26:55,  3.57it/s] 60%|██████    | 224177/371472 [6:48:07<11:43:04,  3.49it/s] 60%|██████    | 224178/371472 [6:48:08<12:07:51,  3.37it/s] 60%|██████    | 224179/371472 [6:48:08<11:46:19,  3.48it/s] 60%|██████    | 224180/371472 [6:48:08<11:27:49,  3.57it/s]                                                            {'loss': 2.7975, 'learning_rate': 4.570503566118641e-07, 'epoch': 9.66}
 60%|██████    | 224180/371472 [6:48:08<11:27:49,  3.57it/s] 60%|██████    | 224181/371472 [6:48:09<11:38:16,  3.52it/s] 60%|██████    | 224182/371472 [6:48:09<11:33:21,  3.54it/s] 60%|██████    | 224183/371472 [6:48:09<11:39:15,  3.51it/s] 60%|██████    | 224184/371472 [6:48:09<11:37:47,  3.52it/s] 60%|██████    | 224185/371472 [6:48:10<11:55:54,  3.43it/s] 60%|██████    | 224186/371472 [6:48:10<11:56:01,  3.43it/s] 60%|██████    | 224187/371472 [6:48:10<11:35:49,  3.53it/s] 60%|██████    | 224188/371472 [6:48:11<11:11:18,  3.66it/s] 60%|██████    | 224189/371472 [6:48:11<10:50:05,  3.78it/s] 60%|██████    | 224190/371472 [6:48:11<11:13:46,  3.64it/s] 60%|██████    | 224191/371472 [6:48:11<11:50:56,  3.45it/s] 60%|██████    | 224192/371472 [6:48:12<11:36:13,  3.53it/s] 60%|██████    | 224193/371472 [6:48:12<11:35:58,  3.53it/s] 60%|██████    | 224194/371472 [6:48:12<12:20:26,  3.32it/s] 60%|██████    | 224195/371472 [6:48:13<12:00:46,  3.41it/s] 60%|██████    | 224196/371472 [6:48:13<11:39:34,  3.51it/s] 60%|██████    | 224197/371472 [6:48:13<11:22:25,  3.60it/s] 60%|██████    | 224198/371472 [6:48:13<12:00:43,  3.41it/s] 60%|██████    | 224199/371472 [6:48:14<12:07:48,  3.37it/s] 60%|██████    | 224200/371472 [6:48:14<11:41:02,  3.50it/s]                                                            {'loss': 2.8323, 'learning_rate': 4.5700187463638517e-07, 'epoch': 9.66}
 60%|██████    | 224200/371472 [6:48:14<11:41:02,  3.50it/s] 60%|██████    | 224201/371472 [6:48:14<11:44:30,  3.48it/s] 60%|██████    | 224202/371472 [6:48:15<11:45:02,  3.48it/s] 60%|██████    | 224203/371472 [6:48:15<11:57:36,  3.42it/s] 60%|██████    | 224204/371472 [6:48:15<12:17:25,  3.33it/s] 60%|██████    | 224205/371472 [6:48:16<12:05:26,  3.38it/s] 60%|██████    | 224206/371472 [6:48:16<11:43:20,  3.49it/s] 60%|██████    | 224207/371472 [6:48:16<11:35:41,  3.53it/s] 60%|██████    | 224208/371472 [6:48:16<11:06:14,  3.68it/s] 60%|██████    | 224209/371472 [6:48:17<11:06:19,  3.68it/s] 60%|██████    | 224210/371472 [6:48:17<12:13:58,  3.34it/s] 60%|██████    | 224211/371472 [6:48:17<12:00:12,  3.41it/s] 60%|██████    | 224212/371472 [6:48:17<11:44:44,  3.48it/s] 60%|██████    | 224213/371472 [6:48:18<11:32:51,  3.54it/s] 60%|██████    | 224214/371472 [6:48:18<12:03:26,  3.39it/s] 60%|██████    | 224215/371472 [6:48:18<11:24:38,  3.58it/s] 60%|██████    | 224216/371472 [6:48:19<11:14:40,  3.64it/s] 60%|██████    | 224217/371472 [6:48:19<11:28:47,  3.56it/s] 60%|██████    | 224218/371472 [6:48:19<12:38:29,  3.24it/s] 60%|██████    | 224219/371472 [6:48:20<11:55:55,  3.43it/s] 60%|██████    | 224220/371472 [6:48:20<11:39:38,  3.51it/s]                                                            {'loss': 2.8667, 'learning_rate': 4.569533926609063e-07, 'epoch': 9.66}
 60%|██████    | 224220/371472 [6:48:20<11:39:38,  3.51it/s] 60%|██████    | 224221/371472 [6:48:20<12:13:28,  3.35it/s] 60%|██████    | 224222/371472 [6:48:20<11:36:10,  3.53it/s] 60%|██████    | 224223/371472 [6:48:21<11:22:10,  3.60it/s] 60%|██████    | 224224/371472 [6:48:21<11:15:53,  3.63it/s] 60%|██████    | 224225/371472 [6:48:21<11:06:27,  3.68it/s] 60%|██████    | 224226/371472 [6:48:21<10:57:55,  3.73it/s] 60%|██████    | 224227/371472 [6:48:22<11:03:33,  3.70it/s] 60%|██████    | 224228/371472 [6:48:22<10:50:25,  3.77it/s] 60%|██████    | 224229/371472 [6:48:22<10:46:35,  3.80it/s] 60%|██████    | 224230/371472 [6:48:23<11:04:07,  3.70it/s] 60%|██████    | 224231/371472 [6:48:23<11:28:52,  3.56it/s] 60%|██████    | 224232/371472 [6:48:23<11:21:21,  3.60it/s] 60%|██████    | 224233/371472 [6:48:23<11:41:47,  3.50it/s] 60%|██████    | 224234/371472 [6:48:24<11:35:00,  3.53it/s] 60%|██████    | 224235/371472 [6:48:24<11:27:23,  3.57it/s] 60%|██████    | 224236/371472 [6:48:24<11:05:37,  3.69it/s] 60%|██████    | 224237/371472 [6:48:24<11:04:09,  3.69it/s] 60%|██████    | 224238/371472 [6:48:25<12:06:38,  3.38it/s] 60%|██████    | 224239/371472 [6:48:25<11:44:08,  3.48it/s] 60%|██████    | 224240/371472 [6:48:25<12:02:17,  3.40it/s]                                                            {'loss': 3.1103, 'learning_rate': 4.5690491068542736e-07, 'epoch': 9.66}
 60%|██████    | 224240/371472 [6:48:25<12:02:17,  3.40it/s] 60%|██████    | 224241/371472 [6:48:26<12:06:24,  3.38it/s] 60%|██████    | 224242/371472 [6:48:26<12:18:52,  3.32it/s] 60%|██████    | 224243/371472 [6:48:26<12:14:27,  3.34it/s] 60%|██████    | 224244/371472 [6:48:27<12:34:54,  3.25it/s] 60%|██████    | 224245/371472 [6:48:27<13:18:51,  3.07it/s] 60%|██████    | 224246/371472 [6:48:27<12:34:54,  3.25it/s] 60%|██████    | 224247/371472 [6:48:28<12:04:45,  3.39it/s] 60%|██████    | 224248/371472 [6:48:28<12:00:28,  3.41it/s] 60%|██████    | 224249/371472 [6:48:28<12:08:36,  3.37it/s] 60%|██████    | 224250/371472 [6:48:28<12:43:44,  3.21it/s] 60%|██████    | 224251/371472 [6:48:29<12:53:44,  3.17it/s] 60%|██████    | 224252/371472 [6:48:29<12:57:01,  3.16it/s] 60%|██████    | 224253/371472 [6:48:29<13:08:55,  3.11it/s] 60%|██████    | 224254/371472 [6:48:30<13:07:04,  3.12it/s] 60%|██████    | 224255/371472 [6:48:30<13:25:24,  3.05it/s] 60%|██████    | 224256/371472 [6:48:30<12:58:47,  3.15it/s] 60%|██████    | 224257/371472 [6:48:31<12:13:53,  3.34it/s] 60%|██████    | 224258/371472 [6:48:31<13:36:57,  3.00it/s] 60%|██████    | 224259/371472 [6:48:31<12:58:03,  3.15it/s] 60%|██████    | 224260/371472 [6:48:32<12:36:25,  3.24it/s]                                                            {'loss': 2.8347, 'learning_rate': 4.5685642870994854e-07, 'epoch': 9.66}
 60%|██████    | 224260/371472 [6:48:32<12:36:25,  3.24it/s] 60%|██████    | 224261/371472 [6:48:32<12:27:54,  3.28it/s] 60%|██████    | 224262/371472 [6:48:32<12:41:02,  3.22it/s] 60%|██████    | 224263/371472 [6:48:33<12:18:32,  3.32it/s] 60%|██████    | 224264/371472 [6:48:33<11:54:44,  3.43it/s] 60%|██████    | 224265/371472 [6:48:33<12:18:37,  3.32it/s] 60%|██████    | 224266/371472 [6:48:33<11:40:02,  3.50it/s] 60%|██████    | 224267/371472 [6:48:34<11:46:12,  3.47it/s] 60%|██████    | 224268/371472 [6:48:34<11:37:27,  3.52it/s] 60%|██████    | 224269/371472 [6:48:34<11:13:14,  3.64it/s] 60%|██████    | 224270/371472 [6:48:34<11:02:10,  3.71it/s] 60%|██████    | 224271/371472 [6:48:35<12:18:29,  3.32it/s] 60%|██████    | 224272/371472 [6:48:35<11:56:11,  3.43it/s] 60%|██████    | 224273/371472 [6:48:35<12:51:11,  3.18it/s] 60%|██████    | 224274/371472 [6:48:36<12:10:07,  3.36it/s] 60%|██████    | 224275/371472 [6:48:36<12:04:48,  3.38it/s] 60%|██████    | 224276/371472 [6:48:36<12:27:35,  3.28it/s] 60%|██████    | 224277/371472 [6:48:37<12:09:18,  3.36it/s] 60%|██████    | 224278/371472 [6:48:37<12:06:53,  3.37it/s] 60%|██████    | 224279/371472 [6:48:37<12:34:55,  3.25it/s] 60%|██████    | 224280/371472 [6:48:37<11:50:37,  3.45it/s]                                                            {'loss': 3.0707, 'learning_rate': 4.5680794673446956e-07, 'epoch': 9.66}
 60%|██████    | 224280/371472 [6:48:37<11:50:37,  3.45it/s] 60%|██████    | 224281/371472 [6:48:38<11:30:51,  3.55it/s] 60%|██████    | 224282/371472 [6:48:38<11:14:36,  3.64it/s] 60%|██████    | 224283/371472 [6:48:38<11:23:36,  3.59it/s] 60%|██████    | 224284/371472 [6:48:39<11:26:33,  3.57it/s] 60%|██████    | 224285/371472 [6:48:39<11:21:23,  3.60it/s] 60%|██████    | 224286/371472 [6:48:39<11:42:22,  3.49it/s] 60%|██████    | 224287/371472 [6:48:40<12:56:40,  3.16it/s] 60%|██████    | 224288/371472 [6:48:40<12:11:48,  3.35it/s] 60%|██████    | 224289/371472 [6:48:40<12:19:38,  3.32it/s] 60%|██████    | 224290/371472 [6:48:40<12:05:10,  3.38it/s] 60%|██████    | 224291/371472 [6:48:41<11:41:27,  3.50it/s] 60%|██████    | 224292/371472 [6:48:41<11:57:37,  3.42it/s] 60%|██████    | 224293/371472 [6:48:41<12:36:01,  3.24it/s] 60%|██████    | 224294/371472 [6:48:42<12:24:53,  3.29it/s] 60%|██████    | 224295/371472 [6:48:42<11:52:03,  3.44it/s] 60%|██████    | 224296/371472 [6:48:42<11:48:03,  3.46it/s] 60%|██████    | 224297/371472 [6:48:42<11:24:47,  3.58it/s] 60%|██████    | 224298/371472 [6:48:43<11:12:14,  3.65it/s] 60%|██████    | 224299/371472 [6:48:43<11:17:46,  3.62it/s] 60%|██████    | 224300/371472 [6:48:43<11:39:35,  3.51it/s]                                                            {'loss': 2.7652, 'learning_rate': 4.5675946475899063e-07, 'epoch': 9.66}
 60%|██████    | 224300/371472 [6:48:43<11:39:35,  3.51it/s] 60%|██████    | 224301/371472 [6:48:44<11:09:31,  3.66it/s] 60%|██████    | 224302/371472 [6:48:44<11:12:03,  3.65it/s] 60%|██████    | 224303/371472 [6:48:44<11:09:20,  3.66it/s] 60%|██████    | 224304/371472 [6:48:44<10:52:51,  3.76it/s] 60%|██████    | 224305/371472 [6:48:45<10:56:53,  3.73it/s] 60%|██████    | 224306/371472 [6:48:45<12:08:34,  3.37it/s] 60%|██████    | 224307/371472 [6:48:45<12:16:47,  3.33it/s] 60%|██████    | 224308/371472 [6:48:46<12:02:41,  3.39it/s] 60%|██████    | 224309/371472 [6:48:46<12:16:55,  3.33it/s] 60%|██████    | 224310/371472 [6:48:46<12:58:39,  3.15it/s] 60%|██████    | 224311/371472 [6:48:46<12:39:26,  3.23it/s] 60%|██████    | 224312/371472 [6:48:47<12:16:57,  3.33it/s] 60%|██████    | 224313/371472 [6:48:47<11:53:57,  3.44it/s] 60%|██████    | 224314/371472 [6:48:47<11:33:09,  3.54it/s] 60%|██████    | 224315/371472 [6:48:48<11:19:50,  3.61it/s] 60%|██████    | 224316/371472 [6:48:48<11:15:30,  3.63it/s] 60%|██████    | 224317/371472 [6:48:48<10:58:48,  3.72it/s] 60%|██████    | 224318/371472 [6:48:48<11:31:59,  3.54it/s] 60%|██████    | 224319/371472 [6:48:49<11:56:03,  3.43it/s] 60%|██████    | 224320/371472 [6:48:49<11:59:34,  3.41it/s]                                                            {'loss': 2.9771, 'learning_rate': 4.567109827835118e-07, 'epoch': 9.66}
 60%|██████    | 224320/371472 [6:48:49<11:59:34,  3.41it/s] 60%|██████    | 224321/371472 [6:48:49<11:36:48,  3.52it/s] 60%|██████    | 224322/371472 [6:48:50<11:50:45,  3.45it/s] 60%|██████    | 224323/371472 [6:48:50<11:37:07,  3.52it/s] 60%|██████    | 224324/371472 [6:48:50<11:21:13,  3.60it/s] 60%|██████    | 224325/371472 [6:48:50<11:43:22,  3.49it/s] 60%|██████    | 224326/371472 [6:48:51<11:29:29,  3.56it/s] 60%|██████    | 224327/371472 [6:48:51<11:31:54,  3.54it/s] 60%|██████    | 224328/371472 [6:48:51<11:19:08,  3.61it/s] 60%|██████    | 224329/371472 [6:48:52<11:33:22,  3.54it/s] 60%|██████    | 224330/371472 [6:48:52<11:22:37,  3.59it/s] 60%|██████    | 224331/371472 [6:48:52<11:53:26,  3.44it/s] 60%|██████    | 224332/371472 [6:48:52<12:09:11,  3.36it/s] 60%|██████    | 224333/371472 [6:48:53<11:44:21,  3.48it/s] 60%|██████    | 224334/371472 [6:48:53<11:20:47,  3.60it/s] 60%|██████    | 224335/371472 [6:48:53<11:56:39,  3.42it/s] 60%|██████    | 224336/371472 [6:48:54<11:33:35,  3.54it/s] 60%|██████    | 224337/371472 [6:48:54<11:34:13,  3.53it/s] 60%|██████    | 224338/371472 [6:48:54<11:22:49,  3.59it/s] 60%|██████    | 224339/371472 [6:48:54<12:40:28,  3.22it/s] 60%|██████    | 224340/371472 [6:48:55<11:58:35,  3.41it/s]                                                            {'loss': 2.8625, 'learning_rate': 4.566625008080329e-07, 'epoch': 9.66}
 60%|██████    | 224340/371472 [6:48:55<11:58:35,  3.41it/s] 60%|██████    | 224341/371472 [6:48:55<11:47:00,  3.47it/s] 60%|██████    | 224342/371472 [6:48:55<12:00:54,  3.40it/s] 60%|██████    | 224343/371472 [6:48:56<11:27:27,  3.57it/s] 60%|██████    | 224344/371472 [6:48:56<11:17:37,  3.62it/s] 60%|██████    | 224345/371472 [6:48:56<11:31:31,  3.55it/s] 60%|██████    | 224346/371472 [6:48:56<11:10:03,  3.66it/s] 60%|██████    | 224347/371472 [6:48:57<11:29:49,  3.55it/s] 60%|██████    | 224348/371472 [6:48:57<11:36:51,  3.52it/s] 60%|██████    | 224349/371472 [6:48:57<11:40:25,  3.50it/s] 60%|██████    | 224350/371472 [6:48:58<11:21:53,  3.60it/s] 60%|██████    | 224351/371472 [6:48:58<11:34:39,  3.53it/s] 60%|██████    | 224352/371472 [6:48:58<11:03:51,  3.69it/s] 60%|██████    | 224353/371472 [6:48:58<10:55:04,  3.74it/s] 60%|██████    | 224354/371472 [6:48:59<11:02:55,  3.70it/s] 60%|██████    | 224355/371472 [6:48:59<12:02:49,  3.39it/s] 60%|██████    | 224356/371472 [6:48:59<12:41:41,  3.22it/s] 60%|██████    | 224357/371472 [6:49:00<12:13:41,  3.34it/s] 60%|██████    | 224358/371472 [6:49:00<12:17:48,  3.32it/s] 60%|██████    | 224359/371472 [6:49:00<12:12:03,  3.35it/s] 60%|██████    | 224360/371472 [6:49:00<11:41:16,  3.50it/s]                                                            {'loss': 2.7393, 'learning_rate': 4.56614018832554e-07, 'epoch': 9.66}
 60%|██████    | 224360/371472 [6:49:00<11:41:16,  3.50it/s] 60%|██████    | 224361/371472 [6:49:01<11:54:04,  3.43it/s] 60%|██████    | 224362/371472 [6:49:01<12:09:43,  3.36it/s] 60%|██████    | 224363/371472 [6:49:01<12:11:42,  3.35it/s] 60%|██████    | 224364/371472 [6:49:02<11:55:50,  3.43it/s] 60%|██████    | 224365/371472 [6:49:02<11:28:37,  3.56it/s] 60%|██████    | 224366/371472 [6:49:02<11:34:38,  3.53it/s] 60%|██████    | 224367/371472 [6:49:02<11:38:04,  3.51it/s] 60%|██████    | 224368/371472 [6:49:03<11:20:14,  3.60it/s] 60%|██████    | 224369/371472 [6:49:03<12:19:44,  3.31it/s] 60%|██████    | 224370/371472 [6:49:03<11:33:23,  3.54it/s] 60%|██████    | 224371/371472 [6:49:04<11:58:48,  3.41it/s] 60%|██████    | 224372/371472 [6:49:04<11:45:42,  3.47it/s] 60%|██████    | 224373/371472 [6:49:04<11:21:47,  3.60it/s] 60%|██████    | 224374/371472 [6:49:04<11:10:58,  3.65it/s] 60%|██████    | 224375/371472 [6:49:05<10:57:57,  3.73it/s] 60%|██████    | 224376/371472 [6:49:05<10:55:48,  3.74it/s] 60%|██████    | 224377/371472 [6:49:05<10:56:34,  3.73it/s] 60%|██████    | 224378/371472 [6:49:05<11:03:04,  3.70it/s] 60%|██████    | 224379/371472 [6:49:06<11:12:59,  3.64it/s] 60%|██████    | 224380/371472 [6:49:06<12:08:40,  3.36it/s]                                                            {'loss': 2.8904, 'learning_rate': 4.565655368570751e-07, 'epoch': 9.66}
 60%|██████    | 224380/371472 [6:49:06<12:08:40,  3.36it/s] 60%|██████    | 224381/371472 [6:49:06<11:39:16,  3.51it/s] 60%|██████    | 224382/371472 [6:49:07<11:29:34,  3.56it/s] 60%|██████    | 224383/371472 [6:49:07<11:29:42,  3.55it/s] 60%|██████    | 224384/371472 [6:49:07<11:05:04,  3.69it/s] 60%|██████    | 224385/371472 [6:49:07<11:45:11,  3.48it/s] 60%|██████    | 224386/371472 [6:49:08<12:04:56,  3.38it/s] 60%|██████    | 224387/371472 [6:49:08<11:58:30,  3.41it/s] 60%|██████    | 224388/371472 [6:49:08<12:23:53,  3.30it/s] 60%|██████    | 224389/371472 [6:49:09<11:57:19,  3.42it/s] 60%|██████    | 224390/371472 [6:49:09<11:49:04,  3.46it/s] 60%|██████    | 224391/371472 [6:49:09<11:26:41,  3.57it/s] 60%|██████    | 224392/371472 [6:49:09<11:01:53,  3.70it/s] 60%|██████    | 224393/371472 [6:49:10<10:56:20,  3.73it/s] 60%|██████    | 224394/371472 [6:49:10<10:48:00,  3.78it/s] 60%|██████    | 224395/371472 [6:49:10<10:46:12,  3.79it/s] 60%|██████    | 224396/371472 [6:49:11<10:57:34,  3.73it/s] 60%|██████    | 224397/371472 [6:49:11<11:10:31,  3.66it/s] 60%|██████    | 224398/371472 [6:49:11<10:51:58,  3.76it/s] 60%|██████    | 224399/371472 [6:49:11<12:04:28,  3.38it/s] 60%|██████    | 224400/371472 [6:49:12<11:38:11,  3.51it/s]                                                            {'loss': 3.0087, 'learning_rate': 4.5651705488159625e-07, 'epoch': 9.67}
 60%|██████    | 224400/371472 [6:49:12<11:38:11,  3.51it/s] 60%|██████    | 224401/371472 [6:49:12<11:18:47,  3.61it/s] 60%|██████    | 224402/371472 [6:49:12<11:18:20,  3.61it/s] 60%|██████    | 224403/371472 [6:49:13<11:55:08,  3.43it/s] 60%|██████    | 224404/371472 [6:49:13<12:13:46,  3.34it/s] 60%|██████    | 224405/371472 [6:49:13<12:28:48,  3.27it/s] 60%|██████    | 224406/371472 [6:49:13<12:22:53,  3.30it/s] 60%|██████    | 224407/371472 [6:49:14<12:49:24,  3.19it/s] 60%|██████    | 224408/371472 [6:49:14<12:33:10,  3.25it/s] 60%|██████    | 224409/371472 [6:49:14<12:54:30,  3.16it/s] 60%|██████    | 224410/371472 [6:49:15<12:16:06,  3.33it/s] 60%|██████    | 224411/371472 [6:49:15<11:59:41,  3.41it/s] 60%|██████    | 224412/371472 [6:49:15<12:01:48,  3.40it/s] 60%|██████    | 224413/371472 [6:49:16<11:36:57,  3.52it/s] 60%|██████    | 224414/371472 [6:49:16<11:24:11,  3.58it/s] 60%|██████    | 224415/371472 [6:49:16<11:21:20,  3.60it/s] 60%|██████    | 224416/371472 [6:49:16<10:58:41,  3.72it/s] 60%|██████    | 224417/371472 [6:49:17<11:25:33,  3.58it/s] 60%|██████    | 224418/371472 [6:49:17<12:10:14,  3.36it/s] 60%|██████    | 224419/371472 [6:49:17<11:48:17,  3.46it/s] 60%|██████    | 224420/371472 [6:49:18<11:31:43,  3.54it/s]                                                            {'loss': 2.9238, 'learning_rate': 4.5646857290611727e-07, 'epoch': 9.67}
 60%|██████    | 224420/371472 [6:49:18<11:31:43,  3.54it/s] 60%|██████    | 224421/371472 [6:49:18<11:40:23,  3.50it/s] 60%|██████    | 224422/371472 [6:49:18<11:34:51,  3.53it/s] 60%|██████    | 224423/371472 [6:49:18<11:54:00,  3.43it/s] 60%|██████    | 224424/371472 [6:49:19<11:24:14,  3.58it/s] 60%|██████    | 224425/371472 [6:49:19<11:22:28,  3.59it/s] 60%|██████    | 224426/371472 [6:49:19<11:45:55,  3.47it/s] 60%|██████    | 224427/371472 [6:49:20<11:39:30,  3.50it/s] 60%|██████    | 224428/371472 [6:49:20<12:56:08,  3.16it/s] 60%|██████    | 224429/371472 [6:49:20<13:27:11,  3.04it/s] 60%|██████    | 224430/371472 [6:49:21<12:28:38,  3.27it/s] 60%|██████    | 224431/371472 [6:49:21<12:00:36,  3.40it/s] 60%|██████    | 224432/371472 [6:49:21<11:56:17,  3.42it/s] 60%|██████    | 224433/371472 [6:49:21<13:05:52,  3.12it/s] 60%|██████    | 224434/371472 [6:49:22<12:18:20,  3.32it/s] 60%|██████    | 224435/371472 [6:49:22<11:47:52,  3.46it/s] 60%|██████    | 224436/371472 [6:49:22<11:38:59,  3.51it/s] 60%|██████    | 224437/371472 [6:49:22<11:01:52,  3.70it/s] 60%|██████    | 224438/371472 [6:49:23<11:11:45,  3.65it/s] 60%|██████    | 224439/371472 [6:49:23<11:34:25,  3.53it/s] 60%|██████    | 224440/371472 [6:49:23<11:34:18,  3.53it/s]                                                            {'loss': 2.7865, 'learning_rate': 4.5642009093063845e-07, 'epoch': 9.67}
 60%|██████    | 224440/371472 [6:49:23<11:34:18,  3.53it/s] 60%|██████    | 224441/371472 [6:49:24<11:31:51,  3.54it/s] 60%|██████    | 224442/371472 [6:49:24<12:06:38,  3.37it/s] 60%|██████    | 224443/371472 [6:49:24<12:20:44,  3.31it/s] 60%|██████    | 224444/371472 [6:49:25<11:34:49,  3.53it/s] 60%|██████    | 224445/371472 [6:49:25<11:43:13,  3.48it/s] 60%|██████    | 224446/371472 [6:49:25<11:39:45,  3.50it/s] 60%|██████    | 224447/371472 [6:49:25<12:02:08,  3.39it/s] 60%|██████    | 224448/371472 [6:49:26<13:12:23,  3.09it/s] 60%|██████    | 224449/371472 [6:49:26<12:54:35,  3.16it/s] 60%|██████    | 224450/371472 [6:49:26<13:42:03,  2.98it/s] 60%|██████    | 224451/371472 [6:49:27<13:12:55,  3.09it/s] 60%|██████    | 224452/371472 [6:49:27<12:56:07,  3.16it/s] 60%|██████    | 224453/371472 [6:49:27<12:02:02,  3.39it/s] 60%|██████    | 224454/371472 [6:49:28<11:54:12,  3.43it/s] 60%|██████    | 224455/371472 [6:49:28<11:29:59,  3.55it/s] 60%|██████    | 224456/371472 [6:49:28<11:37:47,  3.51it/s] 60%|██████    | 224457/371472 [6:49:28<11:00:01,  3.71it/s] 60%|██████    | 224458/371472 [6:49:29<11:47:45,  3.46it/s] 60%|██████    | 224459/371472 [6:49:29<11:12:08,  3.65it/s] 60%|██████    | 224460/371472 [6:49:29<11:25:40,  3.57it/s]                                                            {'loss': 3.0034, 'learning_rate': 4.563716089551595e-07, 'epoch': 9.67}
 60%|██████    | 224460/371472 [6:49:29<11:25:40,  3.57it/s] 60%|██████    | 224461/371472 [6:49:30<11:03:20,  3.69it/s] 60%|██████    | 224462/371472 [6:49:30<10:52:23,  3.76it/s] 60%|██████    | 224463/371472 [6:49:30<11:25:36,  3.57it/s] 60%|██████    | 224464/371472 [6:49:30<11:30:17,  3.55it/s] 60%|██████    | 224465/371472 [6:49:31<11:36:08,  3.52it/s] 60%|██████    | 224466/371472 [6:49:31<11:57:32,  3.41it/s] 60%|██████    | 224467/371472 [6:49:31<11:48:32,  3.46it/s] 60%|██████    | 224468/371472 [6:49:32<11:35:52,  3.52it/s] 60%|██████    | 224469/371472 [6:49:32<11:36:01,  3.52it/s] 60%|██████    | 224470/371472 [6:49:32<11:25:48,  3.57it/s] 60%|██████    | 224471/371472 [6:49:32<11:49:24,  3.45it/s] 60%|██████    | 224472/371472 [6:49:33<11:32:27,  3.54it/s] 60%|██████    | 224473/371472 [6:49:33<11:24:49,  3.58it/s] 60%|██████    | 224474/371472 [6:49:33<11:01:37,  3.70it/s] 60%|██████    | 224475/371472 [6:49:33<10:50:40,  3.77it/s] 60%|██████    | 224476/371472 [6:49:34<10:49:35,  3.77it/s] 60%|██████    | 224477/371472 [6:49:34<10:51:04,  3.76it/s] 60%|██████    | 224478/371472 [6:49:34<10:57:10,  3.73it/s] 60%|██████    | 224479/371472 [6:49:35<11:26:32,  3.57it/s] 60%|██████    | 224480/371472 [6:49:35<11:25:55,  3.57it/s]                                                            {'loss': 2.8265, 'learning_rate': 4.563231269796807e-07, 'epoch': 9.67}
 60%|██████    | 224480/371472 [6:49:35<11:25:55,  3.57it/s] 60%|██████    | 224481/371472 [6:49:35<11:39:54,  3.50it/s] 60%|██████    | 224482/371472 [6:49:35<11:21:56,  3.59it/s] 60%|██████    | 224483/371472 [6:49:36<11:29:09,  3.55it/s] 60%|██████    | 224484/371472 [6:49:36<11:20:08,  3.60it/s] 60%|██████    | 224485/371472 [6:49:36<11:29:33,  3.55it/s] 60%|██████    | 224486/371472 [6:49:37<11:46:50,  3.47it/s] 60%|██████    | 224487/371472 [6:49:37<11:43:28,  3.48it/s] 60%|██████    | 224488/371472 [6:49:37<11:49:58,  3.45it/s] 60%|██████    | 224489/371472 [6:49:38<13:47:24,  2.96it/s] 60%|██████    | 224490/371472 [6:49:38<12:51:03,  3.18it/s] 60%|██████    | 224491/371472 [6:49:38<13:42:20,  2.98it/s] 60%|██████    | 224492/371472 [6:49:38<12:57:11,  3.15it/s] 60%|██████    | 224493/371472 [6:49:39<12:19:39,  3.31it/s] 60%|██████    | 224494/371472 [6:49:39<12:15:49,  3.33it/s] 60%|██████    | 224495/371472 [6:49:39<12:09:40,  3.36it/s] 60%|██████    | 224496/371472 [6:49:40<12:41:35,  3.22it/s] 60%|██████    | 224497/371472 [6:49:40<12:28:13,  3.27it/s] 60%|██████    | 224498/371472 [6:49:40<12:13:05,  3.34it/s] 60%|██████    | 224499/371472 [6:49:41<11:40:44,  3.50it/s] 60%|██████    | 224500/371472 [6:49:41<11:36:54,  3.51it/s]                                                            {'loss': 2.9636, 'learning_rate': 4.562746450042017e-07, 'epoch': 9.67}
 60%|██████    | 224500/371472 [6:49:41<11:36:54,  3.51it/s] 60%|██████    | 224501/371472 [6:49:41<11:18:11,  3.61it/s] 60%|██████    | 224502/371472 [6:49:41<11:12:04,  3.64it/s] 60%|██████    | 224503/371472 [6:49:42<11:17:49,  3.61it/s] 60%|██████    | 224504/371472 [6:49:42<12:01:03,  3.40it/s] 60%|██████    | 224505/371472 [6:49:42<11:51:54,  3.44it/s] 60%|██████    | 224506/371472 [6:49:42<11:31:10,  3.54it/s] 60%|██████    | 224507/371472 [6:49:43<11:40:35,  3.50it/s] 60%|██████    | 224508/371472 [6:49:43<11:57:11,  3.42it/s] 60%|██████    | 224509/371472 [6:49:43<11:38:37,  3.51it/s] 60%|██████    | 224510/371472 [6:49:44<11:56:06,  3.42it/s] 60%|██████    | 224511/371472 [6:49:44<13:30:16,  3.02it/s] 60%|██████    | 224512/371472 [6:49:44<13:11:51,  3.09it/s] 60%|██████    | 224513/371472 [6:49:45<12:36:05,  3.24it/s] 60%|██████    | 224514/371472 [6:49:45<12:31:16,  3.26it/s] 60%|██████    | 224515/371472 [6:49:45<12:17:58,  3.32it/s] 60%|██████    | 224516/371472 [6:49:46<11:44:03,  3.48it/s] 60%|██████    | 224517/371472 [6:49:46<11:34:07,  3.53it/s] 60%|██████    | 224518/371472 [6:49:46<11:37:19,  3.51it/s] 60%|██████    | 224519/371472 [6:49:46<11:13:03,  3.64it/s] 60%|██████    | 224520/371472 [6:49:47<12:04:41,  3.38it/s]                                                            {'loss': 2.89, 'learning_rate': 4.562261630287229e-07, 'epoch': 9.67}
 60%|██████    | 224520/371472 [6:49:47<12:04:41,  3.38it/s] 60%|██████    | 224521/371472 [6:49:47<12:14:43,  3.33it/s] 60%|██████    | 224522/371472 [6:49:47<11:57:05,  3.42it/s] 60%|██████    | 224523/371472 [6:49:48<12:02:00,  3.39it/s] 60%|██████    | 224524/371472 [6:49:48<12:28:15,  3.27it/s] 60%|██████    | 224525/371472 [6:49:48<12:02:47,  3.39it/s] 60%|██████    | 224526/371472 [6:49:48<11:56:15,  3.42it/s] 60%|██████    | 224527/371472 [6:49:49<11:25:03,  3.58it/s] 60%|██████    | 224528/371472 [6:49:49<12:04:57,  3.38it/s] 60%|██████    | 224529/371472 [6:49:49<12:35:47,  3.24it/s] 60%|██████    | 224530/371472 [6:49:50<12:30:18,  3.26it/s] 60%|██████    | 224531/371472 [6:49:50<12:09:42,  3.36it/s] 60%|██████    | 224532/371472 [6:49:50<11:41:08,  3.49it/s] 60%|██████    | 224533/371472 [6:49:50<11:33:00,  3.53it/s] 60%|██████    | 224534/371472 [6:49:51<11:40:29,  3.50it/s] 60%|██████    | 224535/371472 [6:49:51<11:08:57,  3.66it/s] 60%|██████    | 224536/371472 [6:49:51<11:00:07,  3.71it/s] 60%|██████    | 224537/371472 [6:49:52<11:26:17,  3.57it/s] 60%|██████    | 224538/371472 [6:49:52<11:24:56,  3.58it/s] 60%|██████    | 224539/371472 [6:49:52<11:14:12,  3.63it/s] 60%|██████    | 224540/371472 [6:49:52<11:23:38,  3.58it/s]                                                            {'loss': 2.859, 'learning_rate': 4.561776810532439e-07, 'epoch': 9.67}
 60%|██████    | 224540/371472 [6:49:52<11:23:38,  3.58it/s] 60%|██████    | 224541/371472 [6:49:53<11:39:08,  3.50it/s] 60%|██████    | 224542/371472 [6:49:53<11:25:38,  3.57it/s] 60%|██████    | 224543/371472 [6:49:53<11:18:04,  3.61it/s] 60%|██████    | 224544/371472 [6:49:54<11:14:31,  3.63it/s] 60%|██████    | 224545/371472 [6:49:54<12:18:50,  3.31it/s] 60%|██████    | 224546/371472 [6:49:54<11:38:34,  3.51it/s] 60%|██████    | 224547/371472 [6:49:54<11:22:11,  3.59it/s] 60%|██████    | 224548/371472 [6:49:55<10:56:54,  3.73it/s] 60%|██████    | 224549/371472 [6:49:55<10:53:27,  3.75it/s] 60%|██████    | 224550/371472 [6:49:55<12:20:19,  3.31it/s] 60%|██████    | 224551/371472 [6:49:56<12:23:43,  3.29it/s] 60%|██████    | 224552/371472 [6:49:56<11:54:34,  3.43it/s] 60%|██████    | 224553/371472 [6:49:56<11:30:21,  3.55it/s] 60%|██████    | 224554/371472 [6:49:56<11:36:21,  3.52it/s] 60%|██████    | 224555/371472 [6:49:57<11:16:35,  3.62it/s] 60%|██████    | 224556/371472 [6:49:57<11:18:48,  3.61it/s] 60%|██████    | 224557/371472 [6:49:57<11:27:45,  3.56it/s] 60%|██████    | 224558/371472 [6:49:58<12:45:37,  3.20it/s] 60%|██████    | 224559/371472 [6:49:58<12:20:35,  3.31it/s] 60%|██████    | 224560/371472 [6:49:58<12:11:00,  3.35it/s]                                                            {'loss': 2.9713, 'learning_rate': 4.561291990777651e-07, 'epoch': 9.67}
 60%|██████    | 224560/371472 [6:49:58<12:11:00,  3.35it/s] 60%|██████    | 224561/371472 [6:49:58<11:48:21,  3.46it/s] 60%|██████    | 224562/371472 [6:49:59<11:29:24,  3.55it/s] 60%|██████    | 224563/371472 [6:49:59<11:18:29,  3.61it/s] 60%|██████    | 224564/371472 [6:49:59<10:55:40,  3.73it/s] 60%|██████    | 224565/371472 [6:50:00<11:00:37,  3.71it/s] 60%|██████    | 224566/371472 [6:50:00<10:48:07,  3.78it/s] 60%|██████    | 224567/371472 [6:50:00<10:41:59,  3.81it/s] 60%|██████    | 224568/371472 [6:50:00<10:43:28,  3.80it/s] 60%|██████    | 224569/371472 [6:50:01<10:48:47,  3.77it/s] 60%|██████    | 224570/371472 [6:50:01<11:29:47,  3.55it/s] 60%|██████    | 224571/371472 [6:50:01<11:24:26,  3.58it/s] 60%|██████    | 224572/371472 [6:50:01<11:36:23,  3.52it/s] 60%|██████    | 224573/371472 [6:50:02<11:23:41,  3.58it/s] 60%|██████    | 224574/371472 [6:50:02<11:01:08,  3.70it/s] 60%|██████    | 224575/371472 [6:50:02<10:52:26,  3.75it/s] 60%|██████    | 224576/371472 [6:50:02<10:39:02,  3.83it/s] 60%|██████    | 224577/371472 [6:50:03<11:06:44,  3.67it/s] 60%|██████    | 224578/371472 [6:50:03<11:18:33,  3.61it/s] 60%|██████    | 224579/371472 [6:50:03<10:55:55,  3.73it/s] 60%|██████    | 224580/371472 [6:50:04<11:17:15,  3.61it/s]                                                            {'loss': 2.9222, 'learning_rate': 4.5608071710228616e-07, 'epoch': 9.67}
 60%|██████    | 224580/371472 [6:50:04<11:17:15,  3.61it/s] 60%|██████    | 224581/371472 [6:50:04<11:23:23,  3.58it/s] 60%|██████    | 224582/371472 [6:50:04<11:30:24,  3.55it/s] 60%|██████    | 224583/371472 [6:50:04<11:17:58,  3.61it/s] 60%|██████    | 224584/371472 [6:50:05<11:17:35,  3.61it/s] 60%|██████    | 224585/371472 [6:50:05<11:23:31,  3.58it/s] 60%|██████    | 224586/371472 [6:50:05<12:10:53,  3.35it/s] 60%|██████    | 224587/371472 [6:50:06<12:36:18,  3.24it/s] 60%|██████    | 224588/371472 [6:50:06<12:53:03,  3.17it/s] 60%|██████    | 224589/371472 [6:50:06<12:44:56,  3.20it/s] 60%|██████    | 224590/371472 [6:50:07<12:09:44,  3.35it/s] 60%|██████    | 224591/371472 [6:50:07<11:51:29,  3.44it/s] 60%|██████    | 224592/371472 [6:50:07<11:30:55,  3.54it/s] 60%|██████    | 224593/371472 [6:50:07<12:01:18,  3.39it/s] 60%|██████    | 224594/371472 [6:50:08<11:44:22,  3.48it/s] 60%|██████    | 224595/371472 [6:50:08<11:15:07,  3.63it/s] 60%|██████    | 224596/371472 [6:50:08<10:49:30,  3.77it/s] 60%|██████    | 224597/371472 [6:50:08<11:06:20,  3.67it/s] 60%|██████    | 224598/371472 [6:50:09<11:09:59,  3.65it/s] 60%|██████    | 224599/371472 [6:50:09<10:58:00,  3.72it/s] 60%|██████    | 224600/371472 [6:50:09<11:39:29,  3.50it/s]                                                            {'loss': 2.9965, 'learning_rate': 4.560322351268073e-07, 'epoch': 9.67}
 60%|██████    | 224600/371472 [6:50:09<11:39:29,  3.50it/s] 60%|██████    | 224601/371472 [6:50:10<11:44:19,  3.48it/s] 60%|██████    | 224602/371472 [6:50:10<11:18:34,  3.61it/s] 60%|██████    | 224603/371472 [6:50:10<11:13:09,  3.64it/s] 60%|██████    | 224604/371472 [6:50:10<11:52:26,  3.44it/s] 60%|██████    | 224605/371472 [6:50:11<11:31:06,  3.54it/s] 60%|██████    | 224606/371472 [6:50:11<11:26:10,  3.57it/s] 60%|██████    | 224607/371472 [6:50:11<11:43:31,  3.48it/s] 60%|██████    | 224608/371472 [6:50:12<11:34:48,  3.52it/s] 60%|██████    | 224609/371472 [6:50:12<12:29:39,  3.27it/s] 60%|██████    | 224610/371472 [6:50:12<12:27:28,  3.27it/s] 60%|██████    | 224611/371472 [6:50:13<11:52:31,  3.44it/s] 60%|██████    | 224612/371472 [6:50:13<12:21:53,  3.30it/s] 60%|██████    | 224613/371472 [6:50:13<12:07:40,  3.36it/s] 60%|██████    | 224614/371472 [6:50:13<11:27:55,  3.56it/s] 60%|██████    | 224615/371472 [6:50:14<11:14:00,  3.63it/s] 60%|██████    | 224616/371472 [6:50:14<11:45:41,  3.47it/s] 60%|██████    | 224617/371472 [6:50:14<11:46:56,  3.46it/s] 60%|██████    | 224618/371472 [6:50:15<11:44:55,  3.47it/s] 60%|██████    | 224619/371472 [6:50:15<11:20:38,  3.60it/s] 60%|██████    | 224620/371472 [6:50:15<11:21:20,  3.59it/s]                                                            {'loss': 2.8805, 'learning_rate': 4.5598375315132836e-07, 'epoch': 9.67}
 60%|██████    | 224620/371472 [6:50:15<11:21:20,  3.59it/s] 60%|██████    | 224621/371472 [6:50:15<11:11:50,  3.64it/s] 60%|██████    | 224622/371472 [6:50:16<11:01:33,  3.70it/s] 60%|██████    | 224623/371472 [6:50:16<11:25:27,  3.57it/s] 60%|██████    | 224624/371472 [6:50:16<11:51:00,  3.44it/s] 60%|██████    | 224625/371472 [6:50:16<11:32:21,  3.53it/s] 60%|██████    | 224626/371472 [6:50:17<12:15:52,  3.33it/s] 60%|██████    | 224627/371472 [6:50:17<11:46:01,  3.47it/s] 60%|██████    | 224628/371472 [6:50:17<12:08:29,  3.36it/s] 60%|██████    | 224629/371472 [6:50:18<11:59:58,  3.40it/s] 60%|██████    | 224630/371472 [6:50:18<11:24:44,  3.57it/s] 60%|██████    | 224631/371472 [6:50:18<10:57:17,  3.72it/s] 60%|██████    | 224632/371472 [6:50:18<10:49:58,  3.77it/s] 60%|██████    | 224633/371472 [6:50:19<10:48:21,  3.77it/s] 60%|██████    | 224634/371472 [6:50:19<11:21:32,  3.59it/s] 60%|██████    | 224635/371472 [6:50:19<10:59:05,  3.71it/s] 60%|██████    | 224636/371472 [6:50:20<13:01:21,  3.13it/s] 60%|██████    | 224637/371472 [6:50:20<12:32:13,  3.25it/s] 60%|██████    | 224638/371472 [6:50:20<12:06:43,  3.37it/s] 60%|██████    | 224639/371472 [6:50:21<12:08:32,  3.36it/s] 60%|██████    | 224640/371472 [6:50:21<12:02:53,  3.39it/s]                                                            {'loss': 2.933, 'learning_rate': 4.5593527117584954e-07, 'epoch': 9.68}
 60%|██████    | 224640/371472 [6:50:21<12:02:53,  3.39it/s] 60%|██████    | 224641/371472 [6:50:21<11:33:43,  3.53it/s] 60%|██████    | 224642/371472 [6:50:22<13:10:20,  3.10it/s] 60%|██████    | 224643/371472 [6:50:22<12:38:14,  3.23it/s] 60%|██████    | 224644/371472 [6:50:22<12:23:52,  3.29it/s] 60%|██████    | 224645/371472 [6:50:22<12:12:01,  3.34it/s] 60%|██████    | 224646/371472 [6:50:23<11:58:15,  3.41it/s] 60%|██████    | 224647/371472 [6:50:23<12:19:51,  3.31it/s] 60%|██████    | 224648/371472 [6:50:23<12:21:04,  3.30it/s] 60%|██████    | 224649/371472 [6:50:24<11:54:09,  3.43it/s] 60%|██████    | 224650/371472 [6:50:24<11:35:17,  3.52it/s] 60%|██████    | 224651/371472 [6:50:24<11:57:23,  3.41it/s] 60%|██████    | 224652/371472 [6:50:24<12:02:33,  3.39it/s] 60%|██████    | 224653/371472 [6:50:25<11:23:17,  3.58it/s] 60%|██████    | 224654/371472 [6:50:25<11:35:16,  3.52it/s] 60%|██████    | 224655/371472 [6:50:25<11:22:52,  3.58it/s] 60%|██████    | 224656/371472 [6:50:25<11:14:19,  3.63it/s] 60%|██████    | 224657/371472 [6:50:26<11:15:31,  3.62it/s] 60%|██████    | 224658/371472 [6:50:26<10:58:56,  3.71it/s] 60%|██████    | 224659/371472 [6:50:26<10:59:59,  3.71it/s] 60%|██████    | 224660/371472 [6:50:27<10:53:42,  3.74it/s]                                                            {'loss': 2.6303, 'learning_rate': 4.558867892003706e-07, 'epoch': 9.68}
 60%|██████    | 224660/371472 [6:50:27<10:53:42,  3.74it/s] 60%|██████    | 224661/371472 [6:50:27<11:17:29,  3.61it/s] 60%|██████    | 224662/371472 [6:50:27<11:25:13,  3.57it/s] 60%|██████    | 224663/371472 [6:50:27<11:43:56,  3.48it/s] 60%|██████    | 224664/371472 [6:50:28<11:34:08,  3.52it/s] 60%|██████    | 224665/371472 [6:50:28<11:38:33,  3.50it/s] 60%|██████    | 224666/371472 [6:50:28<11:23:51,  3.58it/s] 60%|██████    | 224667/371472 [6:50:29<11:18:02,  3.61it/s] 60%|██████    | 224668/371472 [6:50:29<11:11:57,  3.64it/s] 60%|██████    | 224669/371472 [6:50:29<10:59:26,  3.71it/s] 60%|██████    | 224670/371472 [6:50:29<10:59:08,  3.71it/s] 60%|██████    | 224671/371472 [6:50:30<11:07:14,  3.67it/s] 60%|██████    | 224672/371472 [6:50:30<10:57:05,  3.72it/s] 60%|██████    | 224673/371472 [6:50:30<11:00:55,  3.70it/s] 60%|██████    | 224674/371472 [6:50:30<10:53:08,  3.75it/s] 60%|██████    | 224675/371472 [6:50:31<12:23:19,  3.29it/s] 60%|██████    | 224676/371472 [6:50:31<11:53:49,  3.43it/s] 60%|██████    | 224677/371472 [6:50:31<11:41:28,  3.49it/s] 60%|██████    | 224678/371472 [6:50:32<11:36:05,  3.51it/s] 60%|██████    | 224679/371472 [6:50:32<11:33:08,  3.53it/s] 60%|██████    | 224680/371472 [6:50:32<11:21:12,  3.59it/s]                                                            {'loss': 2.8896, 'learning_rate': 4.5583830722489173e-07, 'epoch': 9.68}
 60%|██████    | 224680/371472 [6:50:32<11:21:12,  3.59it/s] 60%|██████    | 224681/371472 [6:50:32<11:08:29,  3.66it/s] 60%|██████    | 224682/371472 [6:50:33<11:13:12,  3.63it/s] 60%|██████    | 224683/371472 [6:50:33<11:50:11,  3.44it/s] 60%|██████    | 224684/371472 [6:50:33<11:44:02,  3.47it/s] 60%|██████    | 224685/371472 [6:50:34<11:41:52,  3.49it/s] 60%|██████    | 224686/371472 [6:50:34<11:23:24,  3.58it/s] 60%|██████    | 224687/371472 [6:50:34<11:27:39,  3.56it/s] 60%|██████    | 224688/371472 [6:50:35<12:37:19,  3.23it/s] 60%|██████    | 224689/371472 [6:50:35<12:21:08,  3.30it/s] 60%|██████    | 224690/371472 [6:50:35<12:04:43,  3.38it/s] 60%|██████    | 224691/371472 [6:50:35<11:44:47,  3.47it/s] 60%|██████    | 224692/371472 [6:50:36<11:48:09,  3.45it/s] 60%|██████    | 224693/371472 [6:50:36<11:17:13,  3.61it/s] 60%|██████    | 224694/371472 [6:50:36<11:21:45,  3.59it/s] 60%|██████    | 224695/371472 [6:50:36<11:14:02,  3.63it/s] 60%|██████    | 224696/371472 [6:50:37<11:55:58,  3.42it/s] 60%|██████    | 224697/371472 [6:50:37<11:28:26,  3.55it/s] 60%|██████    | 224698/371472 [6:50:37<11:02:38,  3.69it/s] 60%|██████    | 224699/371472 [6:50:38<12:45:43,  3.19it/s] 60%|██████    | 224700/371472 [6:50:38<12:35:22,  3.24it/s]                                                            {'loss': 3.0503, 'learning_rate': 4.557898252494128e-07, 'epoch': 9.68}
 60%|██████    | 224700/371472 [6:50:38<12:35:22,  3.24it/s] 60%|██████    | 224701/371472 [6:50:38<11:57:48,  3.41it/s] 60%|██████    | 224702/371472 [6:50:39<11:31:50,  3.54it/s] 60%|██████    | 224703/371472 [6:50:39<11:10:45,  3.65it/s] 60%|██████    | 224704/371472 [6:50:39<11:16:26,  3.62it/s] 60%|██████    | 224705/371472 [6:50:39<11:25:59,  3.57it/s] 60%|██████    | 224706/371472 [6:50:40<11:01:08,  3.70it/s] 60%|██████    | 224707/371472 [6:50:40<10:59:05,  3.71it/s] 60%|██████    | 224708/371472 [6:50:40<10:46:07,  3.79it/s] 60%|██████    | 224709/371472 [6:50:40<10:45:01,  3.79it/s] 60%|██████    | 224710/371472 [6:50:41<10:34:55,  3.85it/s] 60%|██████    | 224711/371472 [6:50:41<10:49:30,  3.77it/s] 60%|██████    | 224712/371472 [6:50:41<11:18:23,  3.61it/s] 60%|██████    | 224713/371472 [6:50:42<11:33:50,  3.53it/s] 60%|██████    | 224714/371472 [6:50:42<11:45:25,  3.47it/s] 60%|██████    | 224715/371472 [6:50:42<11:54:33,  3.42it/s] 60%|██████    | 224716/371472 [6:50:42<11:55:07,  3.42it/s] 60%|██████    | 224717/371472 [6:50:43<11:34:50,  3.52it/s] 60%|██████    | 224718/371472 [6:50:43<11:27:16,  3.56it/s] 60%|██████    | 224719/371472 [6:50:43<11:56:23,  3.41it/s] 60%|██████    | 224720/371472 [6:50:44<11:21:34,  3.59it/s]                                                            {'loss': 2.9433, 'learning_rate': 4.5574134327393393e-07, 'epoch': 9.68}
 60%|██████    | 224720/371472 [6:50:44<11:21:34,  3.59it/s] 60%|██████    | 224721/371472 [6:50:44<11:13:01,  3.63it/s] 60%|██████    | 224722/371472 [6:50:44<11:17:44,  3.61it/s] 60%|██████    | 224723/371472 [6:50:44<11:19:43,  3.60it/s] 60%|██████    | 224724/371472 [6:50:45<11:11:31,  3.64it/s] 60%|██████    | 224725/371472 [6:50:45<11:20:17,  3.60it/s] 60%|██████    | 224726/371472 [6:50:45<11:04:31,  3.68it/s] 60%|██████    | 224727/371472 [6:50:45<10:58:37,  3.71it/s] 60%|██████    | 224728/371472 [6:50:46<11:19:20,  3.60it/s] 60%|██████    | 224729/371472 [6:50:46<11:01:42,  3.70it/s] 60%|██████    | 224730/371472 [6:50:46<11:32:23,  3.53it/s] 60%|██████    | 224731/371472 [6:50:47<11:15:55,  3.62it/s] 60%|██████    | 224732/371472 [6:50:47<11:37:24,  3.51it/s] 60%|██████    | 224733/371472 [6:50:47<11:27:26,  3.56it/s] 60%|██████    | 224734/371472 [6:50:47<12:11:23,  3.34it/s] 60%|██████    | 224735/371472 [6:50:48<12:18:42,  3.31it/s] 60%|██████    | 224736/371472 [6:50:48<12:01:44,  3.39it/s] 60%|██████    | 224737/371472 [6:50:48<12:30:51,  3.26it/s] 60%|██████    | 224738/371472 [6:50:49<11:50:29,  3.44it/s] 60%|██████    | 224739/371472 [6:50:49<11:44:35,  3.47it/s] 60%|██████    | 224740/371472 [6:50:49<11:44:12,  3.47it/s]                                                            {'loss': 2.8422, 'learning_rate': 4.55692861298455e-07, 'epoch': 9.68}
 60%|██████    | 224740/371472 [6:50:49<11:44:12,  3.47it/s] 61%|██████    | 224741/371472 [6:50:49<11:46:46,  3.46it/s] 61%|██████    | 224742/371472 [6:50:50<11:34:10,  3.52it/s] 61%|██████    | 224743/371472 [6:50:50<11:27:14,  3.56it/s] 61%|██████    | 224744/371472 [6:50:50<11:29:58,  3.54it/s] 61%|██████    | 224745/371472 [6:50:51<11:18:01,  3.61it/s] 61%|██████    | 224746/371472 [6:50:51<10:57:24,  3.72it/s] 61%|██████    | 224747/371472 [6:50:51<11:04:37,  3.68it/s] 61%|██████    | 224748/371472 [6:50:51<11:26:34,  3.56it/s] 61%|██████    | 224749/371472 [6:50:52<11:16:59,  3.61it/s] 61%|██████    | 224750/371472 [6:50:52<11:23:19,  3.58it/s] 61%|██████    | 224751/371472 [6:50:52<11:18:49,  3.60it/s] 61%|██████    | 224752/371472 [6:50:53<12:45:21,  3.20it/s] 61%|██████    | 224753/371472 [6:50:53<12:31:43,  3.25it/s] 61%|██████    | 224754/371472 [6:50:53<11:51:35,  3.44it/s] 61%|██████    | 224755/371472 [6:50:53<12:06:45,  3.36it/s] 61%|██████    | 224756/371472 [6:50:54<12:02:44,  3.38it/s] 61%|██████    | 224757/371472 [6:50:54<11:44:38,  3.47it/s] 61%|██████    | 224758/371472 [6:50:54<12:05:19,  3.37it/s] 61%|██████    | 224759/371472 [6:50:55<11:32:21,  3.53it/s] 61%|██████    | 224760/371472 [6:50:55<11:34:38,  3.52it/s]                                                            {'loss': 2.8207, 'learning_rate': 4.556443793229762e-07, 'epoch': 9.68}
 61%|██████    | 224760/371472 [6:50:55<11:34:38,  3.52it/s] 61%|██████    | 224761/371472 [6:50:55<11:36:10,  3.51it/s] 61%|██████    | 224762/371472 [6:50:55<11:19:15,  3.60it/s] 61%|██████    | 224763/371472 [6:50:56<11:32:39,  3.53it/s] 61%|██████    | 224764/371472 [6:50:56<11:45:45,  3.46it/s] 61%|██████    | 224765/371472 [6:50:56<11:44:01,  3.47it/s] 61%|██████    | 224766/371472 [6:50:57<12:05:55,  3.37it/s] 61%|██████    | 224767/371472 [6:50:57<12:29:59,  3.26it/s] 61%|██████    | 224768/371472 [6:50:57<13:13:41,  3.08it/s] 61%|██████    | 224769/371472 [6:50:58<13:05:10,  3.11it/s] 61%|██████    | 224770/371472 [6:50:58<12:36:34,  3.23it/s] 61%|██████    | 224771/371472 [6:50:58<12:04:29,  3.37it/s] 61%|██████    | 224772/371472 [6:50:58<11:37:59,  3.50it/s] 61%|██████    | 224773/371472 [6:50:59<12:38:54,  3.22it/s] 61%|██████    | 224774/371472 [6:50:59<13:14:08,  3.08it/s] 61%|██████    | 224775/371472 [6:50:59<12:29:08,  3.26it/s] 61%|██████    | 224776/371472 [6:51:00<12:22:39,  3.29it/s] 61%|██████    | 224777/371472 [6:51:00<13:25:23,  3.04it/s] 61%|██████    | 224778/371472 [6:51:00<13:03:45,  3.12it/s] 61%|██████    | 224779/371472 [6:51:01<12:17:01,  3.32it/s] 61%|██████    | 224780/371472 [6:51:01<12:02:01,  3.39it/s]                                                            {'loss': 2.7705, 'learning_rate': 4.5559589734749725e-07, 'epoch': 9.68}
 61%|██████    | 224780/371472 [6:51:01<12:02:01,  3.39it/s] 61%|██████    | 224781/371472 [6:51:01<11:59:07,  3.40it/s] 61%|██████    | 224782/371472 [6:51:02<12:14:18,  3.33it/s] 61%|██████    | 224783/371472 [6:51:02<12:48:13,  3.18it/s] 61%|██████    | 224784/371472 [6:51:02<12:00:21,  3.39it/s] 61%|██████    | 224785/371472 [6:51:02<11:52:47,  3.43it/s] 61%|██████    | 224786/371472 [6:51:03<11:25:29,  3.57it/s] 61%|██████    | 224787/371472 [6:51:03<11:17:39,  3.61it/s] 61%|██████    | 224788/371472 [6:51:03<11:08:34,  3.66it/s] 61%|██████    | 224789/371472 [6:51:04<11:28:07,  3.55it/s] 61%|██████    | 224790/371472 [6:51:04<11:28:57,  3.55it/s] 61%|██████    | 224791/371472 [6:51:04<11:23:35,  3.58it/s] 61%|██████    | 224792/371472 [6:51:04<11:12:38,  3.63it/s] 61%|██████    | 224793/371472 [6:51:05<11:11:32,  3.64it/s] 61%|██████    | 224794/371472 [6:51:05<11:20:49,  3.59it/s] 61%|██████    | 224795/371472 [6:51:05<11:07:48,  3.66it/s] 61%|██████    | 224796/371472 [6:51:05<10:53:57,  3.74it/s] 61%|██████    | 224797/371472 [6:51:06<10:58:32,  3.71it/s] 61%|██████    | 224798/371472 [6:51:06<12:07:12,  3.36it/s] 61%|██████    | 224799/371472 [6:51:06<11:56:00,  3.41it/s] 61%|██████    | 224800/371472 [6:51:07<11:40:20,  3.49it/s]                                                            {'loss': 2.8799, 'learning_rate': 4.5554741537201837e-07, 'epoch': 9.68}
 61%|██████    | 224800/371472 [6:51:07<11:40:20,  3.49it/s] 61%|██████    | 224801/371472 [6:51:07<12:19:06,  3.31it/s] 61%|██████    | 224802/371472 [6:51:07<11:47:01,  3.46it/s] 61%|██████    | 224803/371472 [6:51:08<11:43:03,  3.48it/s] 61%|██████    | 224804/371472 [6:51:08<11:44:57,  3.47it/s] 61%|██████    | 224805/371472 [6:51:08<11:38:56,  3.50it/s] 61%|██████    | 224806/371472 [6:51:08<11:31:35,  3.53it/s] 61%|██████    | 224807/371472 [6:51:09<11:22:45,  3.58it/s] 61%|██████    | 224808/371472 [6:51:09<10:52:57,  3.74it/s] 61%|██████    | 224809/371472 [6:51:09<10:55:06,  3.73it/s] 61%|██████    | 224810/371472 [6:51:10<11:46:29,  3.46it/s] 61%|██████    | 224811/371472 [6:51:10<11:31:35,  3.53it/s] 61%|██████    | 224812/371472 [6:51:10<11:52:41,  3.43it/s] 61%|██████    | 224813/371472 [6:51:10<11:32:37,  3.53it/s] 61%|██████    | 224814/371472 [6:51:11<11:10:33,  3.65it/s] 61%|██████    | 224815/371472 [6:51:11<11:06:51,  3.67it/s] 61%|██████    | 224816/371472 [6:51:11<11:29:57,  3.54it/s] 61%|██████    | 224817/371472 [6:51:11<11:39:43,  3.49it/s] 61%|██████    | 224818/371472 [6:51:12<11:22:34,  3.58it/s] 61%|██████    | 224819/371472 [6:51:12<11:01:27,  3.70it/s] 61%|██████    | 224820/371472 [6:51:12<10:48:26,  3.77it/s]                                                            {'loss': 2.8503, 'learning_rate': 4.5549893339653944e-07, 'epoch': 9.68}
 61%|██████    | 224820/371472 [6:51:12<10:48:26,  3.77it/s] 61%|██████    | 224821/371472 [6:51:13<11:37:43,  3.50it/s] 61%|██████    | 224822/371472 [6:51:13<11:44:23,  3.47it/s] 61%|██████    | 224823/371472 [6:51:13<11:47:44,  3.45it/s] 61%|██████    | 224824/371472 [6:51:13<11:45:19,  3.47it/s] 61%|██████    | 224825/371472 [6:51:14<11:25:53,  3.56it/s] 61%|██████    | 224826/371472 [6:51:14<10:55:24,  3.73it/s] 61%|██████    | 224827/371472 [6:51:14<10:32:47,  3.86it/s] 61%|██████    | 224828/371472 [6:51:14<10:35:22,  3.85it/s] 61%|██████    | 224829/371472 [6:51:15<11:06:47,  3.67it/s] 61%|██████    | 224830/371472 [6:51:15<10:48:05,  3.77it/s] 61%|██████    | 224831/371472 [6:51:15<10:58:20,  3.71it/s] 61%|██████    | 224832/371472 [6:51:16<11:22:33,  3.58it/s] 61%|██████    | 224833/371472 [6:51:16<11:09:56,  3.65it/s] 61%|██████    | 224834/371472 [6:51:16<11:23:27,  3.58it/s] 61%|██████    | 224835/371472 [6:51:16<12:27:48,  3.27it/s] 61%|██████    | 224836/371472 [6:51:17<12:02:41,  3.38it/s] 61%|██████    | 224837/371472 [6:51:17<11:38:32,  3.50it/s] 61%|██████    | 224838/371472 [6:51:17<12:13:43,  3.33it/s] 61%|██████    | 224839/371472 [6:51:18<12:28:10,  3.27it/s] 61%|██████    | 224840/371472 [6:51:18<11:42:22,  3.48it/s]                                                            {'loss': 2.8917, 'learning_rate': 4.554504514210605e-07, 'epoch': 9.68}
 61%|██████    | 224840/371472 [6:51:18<11:42:22,  3.48it/s] 61%|██████    | 224841/371472 [6:51:18<11:23:16,  3.58it/s] 61%|██████    | 224842/371472 [6:51:18<11:16:18,  3.61it/s] 61%|██████    | 224843/371472 [6:51:19<10:59:04,  3.71it/s] 61%|██████    | 224844/371472 [6:51:19<11:16:11,  3.61it/s] 61%|██████    | 224845/371472 [6:51:19<11:09:03,  3.65it/s] 61%|██████    | 224846/371472 [6:51:20<10:46:11,  3.78it/s] 61%|██████    | 224847/371472 [6:51:20<11:10:19,  3.65it/s] 61%|██████    | 224848/371472 [6:51:20<10:56:57,  3.72it/s] 61%|██████    | 224849/371472 [6:51:20<11:42:35,  3.48it/s] 61%|██████    | 224850/371472 [6:51:21<11:43:45,  3.47it/s] 61%|██████    | 224851/371472 [6:51:21<11:39:03,  3.50it/s] 61%|██████    | 224852/371472 [6:51:21<11:09:36,  3.65it/s] 61%|██████    | 224853/371472 [6:51:21<10:49:46,  3.76it/s] 61%|██████    | 224854/371472 [6:51:22<11:06:20,  3.67it/s] 61%|██████    | 224855/371472 [6:51:22<12:19:02,  3.31it/s] 61%|██████    | 224856/371472 [6:51:22<12:30:12,  3.26it/s] 61%|██████    | 224857/371472 [6:51:23<12:07:00,  3.36it/s] 61%|██████    | 224858/371472 [6:51:23<11:44:44,  3.47it/s] 61%|██████    | 224859/371472 [6:51:23<12:05:51,  3.37it/s] 61%|██████    | 224860/371472 [6:51:24<12:02:24,  3.38it/s]                                                            {'loss': 2.8128, 'learning_rate': 4.5540196944558164e-07, 'epoch': 9.69}
 61%|██████    | 224860/371472 [6:51:24<12:02:24,  3.38it/s] 61%|██████    | 224861/371472 [6:51:24<12:29:21,  3.26it/s] 61%|██████    | 224862/371472 [6:51:24<12:27:53,  3.27it/s] 61%|██████    | 224863/371472 [6:51:24<11:44:35,  3.47it/s] 61%|██████    | 224864/371472 [6:51:25<12:08:47,  3.35it/s] 61%|██████    | 224865/371472 [6:51:25<11:35:56,  3.51it/s] 61%|██████    | 224866/371472 [6:51:25<11:48:26,  3.45it/s] 61%|██████    | 224867/371472 [6:51:26<11:23:00,  3.58it/s] 61%|██████    | 224868/371472 [6:51:26<11:37:41,  3.50it/s] 61%|██████    | 224869/371472 [6:51:26<11:56:26,  3.41it/s] 61%|██████    | 224870/371472 [6:51:27<11:51:35,  3.43it/s] 61%|██████    | 224871/371472 [6:51:27<12:00:38,  3.39it/s] 61%|██████    | 224872/371472 [6:51:27<11:28:56,  3.55it/s] 61%|██████    | 224873/371472 [6:51:27<12:01:55,  3.38it/s] 61%|██████    | 224874/371472 [6:51:28<11:20:56,  3.59it/s] 61%|██████    | 224875/371472 [6:51:28<11:29:26,  3.54it/s] 61%|██████    | 224876/371472 [6:51:28<11:18:07,  3.60it/s] 61%|██████    | 224877/371472 [6:51:28<10:59:01,  3.71it/s] 61%|██████    | 224878/371472 [6:51:29<11:05:22,  3.67it/s] 61%|██████    | 224879/371472 [6:51:29<10:55:04,  3.73it/s] 61%|██████    | 224880/371472 [6:51:29<11:33:19,  3.52it/s]                                                            {'loss': 3.0491, 'learning_rate': 4.553534874701027e-07, 'epoch': 9.69}
 61%|██████    | 224880/371472 [6:51:29<11:33:19,  3.52it/s] 61%|██████    | 224881/371472 [6:51:30<11:17:37,  3.61it/s] 61%|██████    | 224882/371472 [6:51:30<11:03:26,  3.68it/s] 61%|██████    | 224883/371472 [6:51:30<11:49:08,  3.45it/s] 61%|██████    | 224884/371472 [6:51:30<12:02:40,  3.38it/s] 61%|██████    | 224885/371472 [6:51:31<11:50:16,  3.44it/s] 61%|██████    | 224886/371472 [6:51:31<11:18:15,  3.60it/s] 61%|██████    | 224887/371472 [6:51:31<11:10:16,  3.64it/s] 61%|██████    | 224888/371472 [6:51:32<11:33:06,  3.52it/s] 61%|██████    | 224889/371472 [6:51:32<11:50:37,  3.44it/s] 61%|██████    | 224890/371472 [6:51:32<12:01:04,  3.39it/s] 61%|██████    | 224891/371472 [6:51:32<12:25:40,  3.28it/s] 61%|██████    | 224892/371472 [6:51:33<12:50:20,  3.17it/s] 61%|██████    | 224893/371472 [6:51:33<13:07:54,  3.10it/s] 61%|██████    | 224894/371472 [6:51:33<12:44:33,  3.20it/s] 61%|██████    | 224895/371472 [6:51:34<12:03:52,  3.37it/s] 61%|██████    | 224896/371472 [6:51:34<12:01:15,  3.39it/s] 61%|██████    | 224897/371472 [6:51:34<11:59:25,  3.40it/s] 61%|██████    | 224898/371472 [6:51:35<11:27:22,  3.55it/s] 61%|██████    | 224899/371472 [6:51:35<11:16:01,  3.61it/s] 61%|██████    | 224900/371472 [6:51:35<11:32:46,  3.53it/s]                                                            {'loss': 2.9078, 'learning_rate': 4.5530500549462384e-07, 'epoch': 9.69}
 61%|██████    | 224900/371472 [6:51:35<11:32:46,  3.53it/s] 61%|██████    | 224901/371472 [6:51:35<12:05:40,  3.37it/s] 61%|██████    | 224902/371472 [6:51:36<11:54:21,  3.42it/s] 61%|██████    | 224903/371472 [6:51:36<11:41:43,  3.48it/s] 61%|██████    | 224904/371472 [6:51:36<11:48:35,  3.45it/s] 61%|██████    | 224905/371472 [6:51:37<12:40:38,  3.21it/s] 61%|██████    | 224906/371472 [6:51:37<12:19:02,  3.31it/s] 61%|██████    | 224907/371472 [6:51:37<11:58:36,  3.40it/s] 61%|██████    | 224908/371472 [6:51:38<11:49:10,  3.44it/s] 61%|██████    | 224909/371472 [6:51:38<11:43:54,  3.47it/s] 61%|██████    | 224910/371472 [6:51:38<11:24:40,  3.57it/s] 61%|██████    | 224911/371472 [6:51:38<11:41:04,  3.48it/s] 61%|██████    | 224912/371472 [6:51:39<11:40:49,  3.49it/s] 61%|██████    | 224913/371472 [6:51:39<11:56:37,  3.41it/s] 61%|██████    | 224914/371472 [6:51:39<11:39:20,  3.49it/s] 61%|██████    | 224915/371472 [6:51:40<11:45:30,  3.46it/s] 61%|██████    | 224916/371472 [6:51:40<11:30:06,  3.54it/s] 61%|██████    | 224917/371472 [6:51:40<12:20:59,  3.30it/s] 61%|██████    | 224918/371472 [6:51:40<12:23:19,  3.29it/s] 61%|██████    | 224919/371472 [6:51:41<11:56:25,  3.41it/s] 61%|██████    | 224920/371472 [6:51:41<11:17:17,  3.61it/s]                                                            {'loss': 2.7761, 'learning_rate': 4.552565235191449e-07, 'epoch': 9.69}
 61%|██████    | 224920/371472 [6:51:41<11:17:17,  3.61it/s] 61%|██████    | 224921/371472 [6:51:41<10:56:18,  3.72it/s] 61%|██████    | 224922/371472 [6:51:41<10:48:31,  3.77it/s] 61%|██████    | 224923/371472 [6:51:42<10:51:19,  3.75it/s] 61%|██████    | 224924/371472 [6:51:42<10:56:12,  3.72it/s] 61%|██████    | 224925/371472 [6:51:42<11:25:11,  3.56it/s] 61%|██████    | 224926/371472 [6:51:43<12:09:20,  3.35it/s] 61%|██████    | 224927/371472 [6:51:43<11:32:17,  3.53it/s] 61%|██████    | 224928/371472 [6:51:43<11:02:59,  3.68it/s] 61%|██████    | 224929/371472 [6:51:43<10:58:24,  3.71it/s] 61%|██████    | 224930/371472 [6:51:44<11:27:18,  3.55it/s] 61%|██████    | 224931/371472 [6:51:44<11:07:07,  3.66it/s] 61%|██████    | 224932/371472 [6:51:44<10:53:24,  3.74it/s] 61%|██████    | 224933/371472 [6:51:45<11:12:20,  3.63it/s] 61%|██████    | 224934/371472 [6:51:45<11:01:36,  3.69it/s] 61%|██████    | 224935/371472 [6:51:45<11:37:31,  3.50it/s] 61%|██████    | 224936/371472 [6:51:45<11:24:49,  3.57it/s] 61%|██████    | 224937/371472 [6:51:46<11:27:51,  3.55it/s] 61%|██████    | 224938/371472 [6:51:46<11:17:06,  3.61it/s] 61%|██████    | 224939/371472 [6:51:46<11:51:23,  3.43it/s] 61%|██████    | 224940/371472 [6:51:47<11:50:55,  3.44it/s]                                                            {'loss': 2.8184, 'learning_rate': 4.552080415436661e-07, 'epoch': 9.69}
 61%|██████    | 224940/371472 [6:51:47<11:50:55,  3.44it/s] 61%|██████    | 224941/371472 [6:51:47<12:31:19,  3.25it/s] 61%|██████    | 224942/371472 [6:51:47<12:01:21,  3.39it/s] 61%|██████    | 224943/371472 [6:51:47<11:59:08,  3.40it/s] 61%|██████    | 224944/371472 [6:51:48<12:03:08,  3.38it/s] 61%|██████    | 224945/371472 [6:51:48<12:45:52,  3.19it/s] 61%|██████    | 224946/371472 [6:51:48<12:13:40,  3.33it/s] 61%|██████    | 224947/371472 [6:51:49<11:45:59,  3.46it/s] 61%|██████    | 224948/371472 [6:51:49<11:57:00,  3.41it/s] 61%|██████    | 224949/371472 [6:51:49<11:32:32,  3.53it/s] 61%|██████    | 224950/371472 [6:51:49<11:12:27,  3.63it/s] 61%|██████    | 224951/371472 [6:51:50<12:05:45,  3.36it/s] 61%|██████    | 224952/371472 [6:51:50<11:52:22,  3.43it/s] 61%|██████    | 224953/371472 [6:51:50<12:21:35,  3.29it/s] 61%|██████    | 224954/371472 [6:51:51<12:16:44,  3.31it/s] 61%|██████    | 224955/371472 [6:51:51<11:31:18,  3.53it/s] 61%|██████    | 224956/371472 [6:51:51<11:19:37,  3.59it/s] 61%|██████    | 224957/371472 [6:51:51<11:08:30,  3.65it/s] 61%|██████    | 224958/371472 [6:51:52<11:35:03,  3.51it/s] 61%|██████    | 224959/371472 [6:51:52<11:33:07,  3.52it/s] 61%|██████    | 224960/371472 [6:51:52<11:11:34,  3.64it/s]                                                            {'loss': 2.9426, 'learning_rate': 4.5515955956818716e-07, 'epoch': 9.69}
 61%|██████    | 224960/371472 [6:51:52<11:11:34,  3.64it/s] 61%|██████    | 224961/371472 [6:51:53<11:03:58,  3.68it/s] 61%|██████    | 224962/371472 [6:51:53<11:52:05,  3.43it/s] 61%|██████    | 224963/371472 [6:51:53<11:43:49,  3.47it/s] 61%|██████    | 224964/371472 [6:51:53<11:17:01,  3.61it/s] 61%|██████    | 224965/371472 [6:51:54<11:33:27,  3.52it/s] 61%|██████    | 224966/371472 [6:51:54<11:21:41,  3.58it/s] 61%|██████    | 224967/371472 [6:51:54<11:15:13,  3.62it/s] 61%|██████    | 224968/371472 [6:51:55<10:46:45,  3.78it/s] 61%|██████    | 224969/371472 [6:51:55<10:59:10,  3.70it/s] 61%|██████    | 224970/371472 [6:51:55<12:12:50,  3.33it/s] 61%|██████    | 224971/371472 [6:51:56<13:00:31,  3.13it/s] 61%|██████    | 224972/371472 [6:51:56<12:19:58,  3.30it/s] 61%|██████    | 224973/371472 [6:51:56<12:11:30,  3.34it/s] 61%|██████    | 224974/371472 [6:51:56<11:53:37,  3.42it/s] 61%|██████    | 224975/371472 [6:51:57<12:09:41,  3.35it/s] 61%|██████    | 224976/371472 [6:51:57<12:56:07,  3.15it/s] 61%|██████    | 224977/371472 [6:51:57<12:21:31,  3.29it/s] 61%|██████    | 224978/371472 [6:51:58<12:03:09,  3.38it/s] 61%|██████    | 224979/371472 [6:51:58<11:45:18,  3.46it/s] 61%|██████    | 224980/371472 [6:51:58<11:46:59,  3.45it/s]                                                            {'loss': 2.8731, 'learning_rate': 4.551110775927083e-07, 'epoch': 9.69}
 61%|██████    | 224980/371472 [6:51:58<11:46:59,  3.45it/s] 61%|██████    | 224981/371472 [6:51:58<12:12:15,  3.33it/s] 61%|██████    | 224982/371472 [6:51:59<11:38:53,  3.49it/s] 61%|██████    | 224983/371472 [6:51:59<11:40:44,  3.48it/s] 61%|██████    | 224984/371472 [6:51:59<11:45:51,  3.46it/s] 61%|██████    | 224985/371472 [6:52:00<11:32:27,  3.53it/s] 61%|██████    | 224986/371472 [6:52:00<11:16:44,  3.61it/s] 61%|██████    | 224987/371472 [6:52:00<11:33:42,  3.52it/s] 61%|██████    | 224988/371472 [6:52:00<11:41:35,  3.48it/s] 61%|██████    | 224989/371472 [6:52:01<11:35:31,  3.51it/s] 61%|██████    | 224990/371472 [6:52:01<12:44:13,  3.19it/s] 61%|██████    | 224991/371472 [6:52:01<12:14:11,  3.33it/s] 61%|██████    | 224992/371472 [6:52:02<12:27:07,  3.27it/s] 61%|██████    | 224993/371472 [6:52:02<13:04:29,  3.11it/s] 61%|██████    | 224994/371472 [6:52:02<12:34:36,  3.24it/s] 61%|██████    | 224995/371472 [6:52:03<11:56:29,  3.41it/s] 61%|██████    | 224996/371472 [6:52:03<12:07:59,  3.35it/s] 61%|██████    | 224997/371472 [6:52:03<11:53:40,  3.42it/s] 61%|██████    | 224998/371472 [6:52:04<13:39:25,  2.98it/s] 61%|██████    | 224999/371472 [6:52:04<12:27:28,  3.27it/s] 61%|██████    | 225000/371472 [6:52:04<12:23:03,  3.29it/s]                                                            {'loss': 2.8984, 'learning_rate': 4.5506259561722935e-07, 'epoch': 9.69}
 61%|██████    | 225000/371472 [6:52:04<12:23:03,  3.29it/s] 61%|██████    | 225001/371472 [6:52:04<12:03:44,  3.37it/s] 61%|██████    | 225002/371472 [6:52:05<11:49:47,  3.44it/s] 61%|██████    | 225003/371472 [6:52:05<11:31:09,  3.53it/s] 61%|██████    | 225004/371472 [6:52:05<11:38:04,  3.50it/s] 61%|██████    | 225005/371472 [6:52:06<11:30:04,  3.54it/s] 61%|██████    | 225006/371472 [6:52:06<11:17:30,  3.60it/s] 61%|██████    | 225007/371472 [6:52:06<10:58:14,  3.71it/s] 61%|██████    | 225008/371472 [6:52:06<12:17:17,  3.31it/s] 61%|██████    | 225009/371472 [6:52:07<12:25:29,  3.27it/s] 61%|██████    | 225010/371472 [6:52:07<12:01:45,  3.38it/s] 61%|██████    | 225011/371472 [6:52:07<12:24:25,  3.28it/s] 61%|██████    | 225012/371472 [6:52:08<11:59:05,  3.39it/s] 61%|██████    | 225013/371472 [6:52:08<11:23:56,  3.57it/s] 61%|██████    | 225014/371472 [6:52:08<11:48:58,  3.44it/s] 61%|██████    | 225015/371472 [6:52:08<11:33:15,  3.52it/s] 61%|██████    | 225016/371472 [6:52:09<12:13:56,  3.33it/s] 61%|██████    | 225017/371472 [6:52:09<13:23:35,  3.04it/s] 61%|██████    | 225018/371472 [6:52:09<12:45:46,  3.19it/s] 61%|██████    | 225019/371472 [6:52:10<12:45:31,  3.19it/s] 61%|██████    | 225020/371472 [6:52:10<11:56:50,  3.41it/s]                                                            {'loss': 2.8001, 'learning_rate': 4.5501411364175053e-07, 'epoch': 9.69}
 61%|██████    | 225020/371472 [6:52:10<11:56:50,  3.41it/s] 61%|██████    | 225021/371472 [6:52:10<12:28:56,  3.26it/s] 61%|██████    | 225022/371472 [6:52:11<12:40:04,  3.21it/s] 61%|██████    | 225023/371472 [6:52:11<12:05:28,  3.36it/s] 61%|██████    | 225024/371472 [6:52:11<11:41:39,  3.48it/s] 61%|██████    | 225025/371472 [6:52:12<12:02:39,  3.38it/s] 61%|██████    | 225026/371472 [6:52:12<11:39:11,  3.49it/s] 61%|██████    | 225027/371472 [6:52:12<11:14:42,  3.62it/s] 61%|██████    | 225028/371472 [6:52:12<11:40:10,  3.49it/s] 61%|██████    | 225029/371472 [6:52:13<11:32:41,  3.52it/s] 61%|██████    | 225030/371472 [6:52:13<12:18:01,  3.31it/s] 61%|██████    | 225031/371472 [6:52:13<11:40:55,  3.48it/s] 61%|██████    | 225032/371472 [6:52:13<11:25:45,  3.56it/s] 61%|██████    | 225033/371472 [6:52:14<11:45:55,  3.46it/s] 61%|██████    | 225034/371472 [6:52:14<11:26:25,  3.56it/s] 61%|██████    | 225035/371472 [6:52:14<11:32:52,  3.52it/s] 61%|██████    | 225036/371472 [6:52:15<11:32:09,  3.53it/s] 61%|██████    | 225037/371472 [6:52:15<11:40:08,  3.49it/s] 61%|██████    | 225038/371472 [6:52:15<11:21:35,  3.58it/s] 61%|██████    | 225039/371472 [6:52:15<10:52:55,  3.74it/s] 61%|██████    | 225040/371472 [6:52:16<11:04:09,  3.67it/s]                                                            {'loss': 2.831, 'learning_rate': 4.549656316662716e-07, 'epoch': 9.69}
 61%|██████    | 225040/371472 [6:52:16<11:04:09,  3.67it/s] 61%|██████    | 225041/371472 [6:52:16<11:03:47,  3.68it/s] 61%|██████    | 225042/371472 [6:52:16<11:00:35,  3.69it/s] 61%|██████    | 225043/371472 [6:52:17<11:10:38,  3.64it/s] 61%|██████    | 225044/371472 [6:52:17<11:22:21,  3.58it/s] 61%|██████    | 225045/371472 [6:52:17<12:03:23,  3.37it/s] 61%|██████    | 225046/371472 [6:52:17<11:38:55,  3.49it/s] 61%|██████    | 225047/371472 [6:52:18<11:54:08,  3.42it/s] 61%|██████    | 225048/371472 [6:52:18<11:38:15,  3.50it/s] 61%|██████    | 225049/371472 [6:52:18<11:20:51,  3.58it/s] 61%|██████    | 225050/371472 [6:52:19<11:42:51,  3.47it/s] 61%|██████    | 225051/371472 [6:52:19<12:56:20,  3.14it/s] 61%|██████    | 225052/371472 [6:52:19<12:20:30,  3.30it/s] 61%|██████    | 225053/371472 [6:52:20<12:53:37,  3.15it/s] 61%|██████    | 225054/371472 [6:52:20<12:38:05,  3.22it/s] 61%|██████    | 225055/371472 [6:52:20<12:09:19,  3.35it/s] 61%|██████    | 225056/371472 [6:52:20<11:33:07,  3.52it/s] 61%|██████    | 225057/371472 [6:52:21<11:07:23,  3.66it/s] 61%|██████    | 225058/371472 [6:52:21<11:49:36,  3.44it/s] 61%|██████    | 225059/371472 [6:52:21<11:44:41,  3.46it/s] 61%|██████    | 225060/371472 [6:52:22<11:43:22,  3.47it/s]                                                            {'loss': 2.9739, 'learning_rate': 4.549171496907927e-07, 'epoch': 9.69}
 61%|██████    | 225060/371472 [6:52:22<11:43:22,  3.47it/s] 61%|██████    | 225061/371472 [6:52:22<11:39:54,  3.49it/s] 61%|██████    | 225062/371472 [6:52:22<11:24:30,  3.56it/s] 61%|██████    | 225063/371472 [6:52:22<11:50:27,  3.43it/s] 61%|██████    | 225064/371472 [6:52:23<11:51:19,  3.43it/s] 61%|██████    | 225065/371472 [6:52:23<11:54:54,  3.41it/s] 61%|██████    | 225066/371472 [6:52:23<11:24:45,  3.56it/s] 61%|██████    | 225067/371472 [6:52:24<11:11:05,  3.64it/s] 61%|██████    | 225068/371472 [6:52:24<11:06:48,  3.66it/s] 61%|██████    | 225069/371472 [6:52:24<11:00:49,  3.69it/s] 61%|██████    | 225070/371472 [6:52:24<11:50:29,  3.43it/s] 61%|██████    | 225071/371472 [6:52:25<11:23:33,  3.57it/s] 61%|██████    | 225072/371472 [6:52:25<11:37:24,  3.50it/s] 61%|██████    | 225073/371472 [6:52:25<12:47:08,  3.18it/s] 61%|██████    | 225074/371472 [6:52:26<12:04:19,  3.37it/s] 61%|██████    | 225075/371472 [6:52:26<12:49:34,  3.17it/s] 61%|██████    | 225076/371472 [6:52:26<13:18:18,  3.06it/s] 61%|██████    | 225077/371472 [6:52:27<12:23:18,  3.28it/s] 61%|██████    | 225078/371472 [6:52:27<12:04:18,  3.37it/s] 61%|██████    | 225079/371472 [6:52:27<11:50:38,  3.43it/s] 61%|██████    | 225080/371472 [6:52:27<11:29:21,  3.54it/s]                                                            {'loss': 2.8681, 'learning_rate': 4.548686677153138e-07, 'epoch': 9.69}
 61%|██████    | 225080/371472 [6:52:27<11:29:21,  3.54it/s] 61%|██████    | 225081/371472 [6:52:28<11:58:26,  3.40it/s] 61%|██████    | 225082/371472 [6:52:28<11:23:18,  3.57it/s] 61%|██████    | 225083/371472 [6:52:28<11:09:43,  3.64it/s] 61%|██████    | 225084/371472 [6:52:28<10:51:20,  3.75it/s] 61%|██████    | 225085/371472 [6:52:29<12:21:46,  3.29it/s] 61%|██████    | 225086/371472 [6:52:29<12:50:08,  3.17it/s] 61%|██████    | 225087/371472 [6:52:29<12:12:13,  3.33it/s] 61%|██████    | 225088/371472 [6:52:30<11:46:35,  3.45it/s] 61%|██████    | 225089/371472 [6:52:30<11:44:12,  3.46it/s] 61%|██████    | 225090/371472 [6:52:30<11:41:34,  3.48it/s] 61%|██████    | 225091/371472 [6:52:31<11:36:12,  3.50it/s] 61%|██████    | 225092/371472 [6:52:31<11:28:40,  3.54it/s] 61%|██████    | 225093/371472 [6:52:31<11:14:04,  3.62it/s] 61%|██████    | 225094/371472 [6:52:31<11:05:55,  3.66it/s] 61%|██████    | 225095/371472 [6:52:32<11:09:23,  3.64it/s] 61%|██████    | 225096/371472 [6:52:32<11:02:54,  3.68it/s] 61%|██████    | 225097/371472 [6:52:32<10:49:32,  3.76it/s] 61%|██████    | 225098/371472 [6:52:32<10:43:56,  3.79it/s] 61%|██████    | 225099/371472 [6:52:33<10:52:19,  3.74it/s] 61%|██████    | 225100/371472 [6:52:33<10:54:30,  3.73it/s]                                                            {'loss': 3.0414, 'learning_rate': 4.54820185739835e-07, 'epoch': 9.7}
 61%|██████    | 225100/371472 [6:52:33<10:54:30,  3.73it/s] 61%|██████    | 225101/371472 [6:52:33<10:54:23,  3.73it/s] 61%|██████    | 225102/371472 [6:52:34<11:15:38,  3.61it/s] 61%|██████    | 225103/371472 [6:52:34<11:36:15,  3.50it/s] 61%|██████    | 225104/371472 [6:52:34<11:15:39,  3.61it/s] 61%|██████    | 225105/371472 [6:52:34<11:04:42,  3.67it/s] 61%|██████    | 225106/371472 [6:52:35<11:19:11,  3.59it/s] 61%|██████    | 225107/371472 [6:52:35<12:02:46,  3.38it/s] 61%|██████    | 225108/371472 [6:52:35<11:34:54,  3.51it/s] 61%|██████    | 225109/371472 [6:52:36<11:48:15,  3.44it/s] 61%|██████    | 225110/371472 [6:52:36<11:47:38,  3.45it/s] 61%|██████    | 225111/371472 [6:52:36<12:37:29,  3.22it/s] 61%|██████    | 225112/371472 [6:52:36<12:13:29,  3.33it/s] 61%|██████    | 225113/371472 [6:52:37<12:09:44,  3.34it/s] 61%|██████    | 225114/371472 [6:52:37<12:08:06,  3.35it/s] 61%|██████    | 225115/371472 [6:52:37<12:18:32,  3.30it/s] 61%|██████    | 225116/371472 [6:52:38<11:59:47,  3.39it/s] 61%|██████    | 225117/371472 [6:52:38<11:53:24,  3.42it/s] 61%|██████    | 225118/371472 [6:52:38<11:27:46,  3.55it/s] 61%|██████    | 225119/371472 [6:52:39<11:52:33,  3.42it/s] 61%|██████    | 225120/371472 [6:52:39<11:44:48,  3.46it/s]                                                            {'loss': 2.8479, 'learning_rate': 4.54771703764356e-07, 'epoch': 9.7}
 61%|██████    | 225120/371472 [6:52:39<11:44:48,  3.46it/s] 61%|██████    | 225121/371472 [6:52:39<11:59:01,  3.39it/s] 61%|██████    | 225122/371472 [6:52:39<11:31:30,  3.53it/s] 61%|██████    | 225123/371472 [6:52:40<11:22:52,  3.57it/s] 61%|██████    | 225124/371472 [6:52:40<10:56:53,  3.71it/s] 61%|██████    | 225125/371472 [6:52:40<11:00:08,  3.69it/s] 61%|██████    | 225126/371472 [6:52:40<10:50:31,  3.75it/s] 61%|██████    | 225127/371472 [6:52:41<12:08:03,  3.35it/s] 61%|██████    | 225128/371472 [6:52:41<11:57:40,  3.40it/s] 61%|██████    | 225129/371472 [6:52:41<12:30:08,  3.25it/s] 61%|██████    | 225130/371472 [6:52:42<12:33:01,  3.24it/s] 61%|██████    | 225131/371472 [6:52:42<11:58:27,  3.39it/s] 61%|██████    | 225132/371472 [6:52:42<11:40:40,  3.48it/s] 61%|██████    | 225133/371472 [6:52:43<11:32:34,  3.52it/s] 61%|██████    | 225134/371472 [6:52:43<11:48:22,  3.44it/s] 61%|██████    | 225135/371472 [6:52:43<11:46:13,  3.45it/s] 61%|██████    | 225136/371472 [6:52:43<11:47:12,  3.45it/s] 61%|██████    | 225137/371472 [6:52:44<11:56:00,  3.41it/s] 61%|██████    | 225138/371472 [6:52:44<11:41:15,  3.48it/s] 61%|██████    | 225139/371472 [6:52:44<11:27:45,  3.55it/s] 61%|██████    | 225140/371472 [6:52:45<11:24:29,  3.56it/s]                                                            {'loss': 2.9643, 'learning_rate': 4.5472322178887717e-07, 'epoch': 9.7}
 61%|██████    | 225140/371472 [6:52:45<11:24:29,  3.56it/s] 61%|██████    | 225141/371472 [6:52:45<12:00:18,  3.39it/s] 61%|██████    | 225142/371472 [6:52:45<11:52:54,  3.42it/s] 61%|██████    | 225143/371472 [6:52:45<11:48:12,  3.44it/s] 61%|██████    | 225144/371472 [6:52:46<11:52:06,  3.42it/s] 61%|██████    | 225145/371472 [6:52:46<11:41:48,  3.47it/s] 61%|██████    | 225146/371472 [6:52:46<11:16:23,  3.61it/s] 61%|██████    | 225147/371472 [6:52:47<10:57:55,  3.71it/s] 61%|██████    | 225148/371472 [6:52:47<11:37:47,  3.49it/s] 61%|██████    | 225149/371472 [6:52:47<11:15:26,  3.61it/s] 61%|██████    | 225150/371472 [6:52:47<11:56:26,  3.40it/s] 61%|██████    | 225151/371472 [6:52:48<11:29:48,  3.54it/s] 61%|██████    | 225152/371472 [6:52:48<11:37:44,  3.50it/s] 61%|██████    | 225153/371472 [6:52:48<11:10:46,  3.64it/s] 61%|██████    | 225154/371472 [6:52:49<11:32:42,  3.52it/s] 61%|██████    | 225155/371472 [6:52:49<11:45:28,  3.46it/s] 61%|██████    | 225156/371472 [6:52:49<11:45:39,  3.46it/s] 61%|██████    | 225157/371472 [6:52:49<11:30:24,  3.53it/s] 61%|██████    | 225158/371472 [6:52:50<11:28:04,  3.54it/s] 61%|██████    | 225159/371472 [6:52:50<11:20:04,  3.59it/s] 61%|██████    | 225160/371472 [6:52:50<11:09:44,  3.64it/s]                                                            {'loss': 2.8989, 'learning_rate': 4.5467473981339824e-07, 'epoch': 9.7}
 61%|██████    | 225160/371472 [6:52:50<11:09:44,  3.64it/s] 61%|██████    | 225161/371472 [6:52:51<11:22:49,  3.57it/s] 61%|██████    | 225162/371472 [6:52:51<11:31:07,  3.53it/s] 61%|██████    | 225163/371472 [6:52:51<11:44:03,  3.46it/s] 61%|██████    | 225164/371472 [6:52:51<11:50:31,  3.43it/s] 61%|██████    | 225165/371472 [6:52:52<11:51:47,  3.43it/s] 61%|██████    | 225166/371472 [6:52:52<11:55:15,  3.41it/s] 61%|██████    | 225167/371472 [6:52:52<11:29:52,  3.53it/s] 61%|██████    | 225168/371472 [6:52:53<11:26:15,  3.55it/s] 61%|██████    | 225169/371472 [6:52:53<11:26:14,  3.55it/s] 61%|██████    | 225170/371472 [6:52:53<11:16:39,  3.60it/s] 61%|██████    | 225171/371472 [6:52:53<10:51:12,  3.74it/s] 61%|██████    | 225172/371472 [6:52:54<11:17:10,  3.60it/s] 61%|██████    | 225173/371472 [6:52:54<11:16:34,  3.60it/s] 61%|██████    | 225174/371472 [6:52:54<11:17:14,  3.60it/s] 61%|██████    | 225175/371472 [6:52:54<11:43:58,  3.46it/s] 61%|██████    | 225176/371472 [6:52:55<11:23:26,  3.57it/s] 61%|██████    | 225177/371472 [6:52:55<12:40:45,  3.21it/s] 61%|██████    | 225178/371472 [6:52:55<12:57:05,  3.14it/s] 61%|██████    | 225179/371472 [6:52:56<12:15:08,  3.32it/s] 61%|██████    | 225180/371472 [6:52:56<11:44:35,  3.46it/s]                                                            {'loss': 2.6632, 'learning_rate': 4.5462625783791937e-07, 'epoch': 9.7}
 61%|██████    | 225180/371472 [6:52:56<11:44:35,  3.46it/s] 61%|██████    | 225181/371472 [6:52:56<11:18:36,  3.59it/s] 61%|██████    | 225182/371472 [6:52:56<10:58:04,  3.70it/s] 61%|██████    | 225183/371472 [6:52:57<10:58:52,  3.70it/s] 61%|██████    | 225184/371472 [6:52:57<11:10:10,  3.64it/s] 61%|██████    | 225185/371472 [6:52:57<11:01:44,  3.68it/s] 61%|██████    | 225186/371472 [6:52:58<11:49:21,  3.44it/s] 61%|██████    | 225187/371472 [6:52:58<12:11:30,  3.33it/s] 61%|██████    | 225188/371472 [6:52:58<12:07:07,  3.35it/s] 61%|██████    | 225189/371472 [6:52:59<11:27:08,  3.55it/s] 61%|██████    | 225190/371472 [6:52:59<10:59:40,  3.70it/s] 61%|██████    | 225191/371472 [6:52:59<11:23:13,  3.57it/s] 61%|██████    | 225192/371472 [6:52:59<10:55:54,  3.72it/s] 61%|██████    | 225193/371472 [6:53:00<11:51:21,  3.43it/s] 61%|██████    | 225194/371472 [6:53:00<12:11:41,  3.33it/s] 61%|██████    | 225195/371472 [6:53:00<11:58:25,  3.39it/s] 61%|██████    | 225196/371472 [6:53:01<11:42:55,  3.47it/s] 61%|██████    | 225197/371472 [6:53:01<11:15:43,  3.61it/s] 61%|██████    | 225198/371472 [6:53:01<11:15:31,  3.61it/s] 61%|██████    | 225199/371472 [6:53:01<11:00:43,  3.69it/s] 61%|██████    | 225200/371472 [6:53:02<10:54:10,  3.73it/s]                                                            {'loss': 2.7793, 'learning_rate': 4.5457777586244044e-07, 'epoch': 9.7}
 61%|██████    | 225200/371472 [6:53:02<10:54:10,  3.73it/s] 61%|██████    | 225201/371472 [6:53:02<11:02:44,  3.68it/s] 61%|██████    | 225202/371472 [6:53:02<11:16:10,  3.61it/s] 61%|██████    | 225203/371472 [6:53:02<11:13:02,  3.62it/s] 61%|██████    | 225204/371472 [6:53:03<10:59:08,  3.70it/s] 61%|██████    | 225205/371472 [6:53:03<10:54:56,  3.72it/s] 61%|██████    | 225206/371472 [6:53:03<10:58:13,  3.70it/s] 61%|██████    | 225207/371472 [6:53:03<11:13:05,  3.62it/s] 61%|██████    | 225208/371472 [6:53:04<11:11:30,  3.63it/s] 61%|██████    | 225209/371472 [6:53:04<11:09:04,  3.64it/s] 61%|██████    | 225210/371472 [6:53:04<11:33:36,  3.51it/s] 61%|██████    | 225211/371472 [6:53:05<11:19:54,  3.59it/s] 61%|██████    | 225212/371472 [6:53:05<11:12:14,  3.63it/s] 61%|██████    | 225213/371472 [6:53:05<11:23:25,  3.57it/s] 61%|██████    | 225214/371472 [6:53:05<11:20:49,  3.58it/s] 61%|██████    | 225215/371472 [6:53:06<12:22:08,  3.28it/s] 61%|██████    | 225216/371472 [6:53:06<12:17:46,  3.30it/s] 61%|██████    | 225217/371472 [6:53:06<12:36:21,  3.22it/s] 61%|██████    | 225218/371472 [6:53:07<12:50:20,  3.16it/s] 61%|██████    | 225219/371472 [6:53:07<12:57:45,  3.13it/s] 61%|██████    | 225220/371472 [6:53:07<12:53:40,  3.15it/s]                                                            {'loss': 2.9039, 'learning_rate': 4.545292938869616e-07, 'epoch': 9.7}
 61%|██████    | 225220/371472 [6:53:07<12:53:40,  3.15it/s] 61%|██████    | 225221/371472 [6:53:08<12:00:56,  3.38it/s] 61%|██████    | 225222/371472 [6:53:08<11:30:36,  3.53it/s] 61%|██████    | 225223/371472 [6:53:08<11:51:37,  3.43it/s] 61%|██████    | 225224/371472 [6:53:09<11:51:46,  3.42it/s] 61%|██████    | 225225/371472 [6:53:09<11:32:56,  3.52it/s] 61%|██████    | 225226/371472 [6:53:09<11:25:15,  3.56it/s] 61%|██████    | 225227/371472 [6:53:09<11:07:06,  3.65it/s] 61%|██████    | 225228/371472 [6:53:10<10:48:21,  3.76it/s] 61%|██████    | 225229/371472 [6:53:10<11:04:48,  3.67it/s] 61%|██████    | 225230/371472 [6:53:10<10:53:36,  3.73it/s] 61%|██████    | 225231/371472 [6:53:10<10:46:58,  3.77it/s] 61%|██████    | 225232/371472 [6:53:11<10:59:12,  3.70it/s] 61%|██████    | 225233/371472 [6:53:11<10:57:06,  3.71it/s] 61%|██████    | 225234/371472 [6:53:11<10:52:37,  3.73it/s] 61%|██████    | 225235/371472 [6:53:12<12:03:28,  3.37it/s] 61%|██████    | 225236/371472 [6:53:12<12:31:03,  3.25it/s] 61%|██████    | 225237/371472 [6:53:12<13:18:29,  3.05it/s] 61%|██████    | 225238/371472 [6:53:13<12:40:44,  3.20it/s] 61%|██████    | 225239/371472 [6:53:13<13:03:51,  3.11it/s] 61%|██████    | 225240/371472 [6:53:13<12:52:26,  3.16it/s]                                                            {'loss': 2.8991, 'learning_rate': 4.5448081191148263e-07, 'epoch': 9.7}
 61%|██████    | 225240/371472 [6:53:13<12:52:26,  3.16it/s] 61%|██████    | 225241/371472 [6:53:13<12:48:40,  3.17it/s] 61%|██████    | 225242/371472 [6:53:14<12:28:48,  3.25it/s] 61%|██████    | 225243/371472 [6:53:14<13:05:52,  3.10it/s] 61%|██████    | 225244/371472 [6:53:14<12:32:41,  3.24it/s] 61%|██████    | 225245/371472 [6:53:15<12:08:10,  3.35it/s] 61%|██████    | 225246/371472 [6:53:15<11:30:13,  3.53it/s] 61%|██████    | 225247/371472 [6:53:15<11:25:02,  3.56it/s] 61%|██████    | 225248/371472 [6:53:16<12:31:23,  3.24it/s] 61%|██████    | 225249/371472 [6:53:16<12:09:56,  3.34it/s] 61%|██████    | 225250/371472 [6:53:16<11:45:51,  3.45it/s] 61%|██████    | 225251/371472 [6:53:16<11:59:27,  3.39it/s] 61%|██████    | 225252/371472 [6:53:17<12:09:09,  3.34it/s] 61%|██████    | 225253/371472 [6:53:17<12:28:27,  3.26it/s] 61%|██████    | 225254/371472 [6:53:17<12:07:18,  3.35it/s] 61%|██████    | 225255/371472 [6:53:18<12:22:19,  3.28it/s] 61%|██████    | 225256/371472 [6:53:18<11:58:38,  3.39it/s] 61%|██████    | 225257/371472 [6:53:18<11:43:52,  3.46it/s] 61%|██████    | 225258/371472 [6:53:18<11:37:48,  3.49it/s] 61%|██████    | 225259/371472 [6:53:19<11:14:34,  3.61it/s] 61%|██████    | 225260/371472 [6:53:19<11:24:21,  3.56it/s]                                                            {'loss': 2.8418, 'learning_rate': 4.544323299360038e-07, 'epoch': 9.7}
 61%|██████    | 225260/371472 [6:53:19<11:24:21,  3.56it/s] 61%|██████    | 225261/371472 [6:53:19<10:59:20,  3.70it/s] 61%|██████    | 225262/371472 [6:53:20<11:06:58,  3.65it/s] 61%|██████    | 225263/371472 [6:53:20<11:17:26,  3.60it/s] 61%|██████    | 225264/371472 [6:53:20<11:13:18,  3.62it/s] 61%|██████    | 225265/371472 [6:53:20<11:23:20,  3.57it/s] 61%|██████    | 225266/371472 [6:53:21<12:10:22,  3.34it/s] 61%|██████    | 225267/371472 [6:53:21<11:48:09,  3.44it/s] 61%|██████    | 225268/371472 [6:53:21<11:19:48,  3.58it/s] 61%|██████    | 225269/371472 [6:53:22<11:13:04,  3.62it/s] 61%|██████    | 225270/371472 [6:53:22<11:46:37,  3.45it/s] 61%|██████    | 225271/371472 [6:53:22<11:55:30,  3.41it/s] 61%|██████    | 225272/371472 [6:53:22<11:35:45,  3.50it/s] 61%|██████    | 225273/371472 [6:53:23<11:21:12,  3.58it/s] 61%|██████    | 225274/371472 [6:53:23<10:49:54,  3.75it/s] 61%|██████    | 225275/371472 [6:53:23<11:17:16,  3.60it/s] 61%|██████    | 225276/371472 [6:53:24<11:19:47,  3.58it/s] 61%|██████    | 225277/371472 [6:53:24<11:31:43,  3.52it/s] 61%|██████    | 225278/371472 [6:53:24<11:37:10,  3.49it/s] 61%|██████    | 225279/371472 [6:53:25<13:02:47,  3.11it/s] 61%|██████    | 225280/371472 [6:53:25<12:30:58,  3.24it/s]                                                            {'loss': 2.8532, 'learning_rate': 4.543838479605249e-07, 'epoch': 9.7}
 61%|██████    | 225280/371472 [6:53:25<12:30:58,  3.24it/s] 61%|██████    | 225281/371472 [6:53:25<12:09:51,  3.34it/s] 61%|██████    | 225282/371472 [6:53:25<11:44:22,  3.46it/s] 61%|██████    | 225283/371472 [6:53:26<11:38:53,  3.49it/s] 61%|██████    | 225284/371472 [6:53:26<11:16:29,  3.60it/s] 61%|██████    | 225285/371472 [6:53:26<11:21:57,  3.57it/s] 61%|██████    | 225286/371472 [6:53:26<11:07:21,  3.65it/s] 61%|██████    | 225287/371472 [6:53:27<11:19:49,  3.58it/s] 61%|██████    | 225288/371472 [6:53:27<11:19:28,  3.59it/s] 61%|██████    | 225289/371472 [6:53:27<11:15:58,  3.60it/s] 61%|██████    | 225290/371472 [6:53:28<11:54:29,  3.41it/s] 61%|██████    | 225291/371472 [6:53:28<11:43:46,  3.46it/s] 61%|██████    | 225292/371472 [6:53:28<12:33:28,  3.23it/s] 61%|██████    | 225293/371472 [6:53:29<12:18:42,  3.30it/s] 61%|██████    | 225294/371472 [6:53:29<12:24:26,  3.27it/s] 61%|██████    | 225295/371472 [6:53:29<12:35:12,  3.23it/s] 61%|██████    | 225296/371472 [6:53:29<12:47:48,  3.17it/s] 61%|██████    | 225297/371472 [6:53:30<12:40:36,  3.20it/s] 61%|██████    | 225298/371472 [6:53:30<12:53:34,  3.15it/s] 61%|██████    | 225299/371472 [6:53:30<12:51:49,  3.16it/s] 61%|██████    | 225300/371472 [6:53:31<12:30:46,  3.24it/s]                                                            {'loss': 2.7694, 'learning_rate': 4.54335365985046e-07, 'epoch': 9.7}
 61%|██████    | 225300/371472 [6:53:31<12:30:46,  3.24it/s] 61%|██████    | 225301/371472 [6:53:31<11:47:39,  3.44it/s] 61%|██████    | 225302/371472 [6:53:31<11:20:33,  3.58it/s] 61%|██████    | 225303/371472 [6:53:32<11:27:01,  3.55it/s] 61%|██████    | 225304/371472 [6:53:32<11:04:55,  3.66it/s] 61%|██████    | 225305/371472 [6:53:32<11:39:56,  3.48it/s] 61%|██████    | 225306/371472 [6:53:32<11:17:26,  3.60it/s] 61%|██████    | 225307/371472 [6:53:33<14:07:44,  2.87it/s] 61%|██████    | 225308/371472 [6:53:33<13:03:02,  3.11it/s] 61%|██████    | 225309/371472 [6:53:33<12:13:54,  3.32it/s] 61%|██████    | 225310/371472 [6:53:34<12:31:00,  3.24it/s] 61%|██████    | 225311/371472 [6:53:34<11:56:11,  3.40it/s] 61%|██████    | 225312/371472 [6:53:34<11:35:26,  3.50it/s] 61%|██████    | 225313/371472 [6:53:34<11:04:46,  3.66it/s] 61%|██████    | 225314/371472 [6:53:35<12:20:35,  3.29it/s] 61%|██████    | 225315/371472 [6:53:35<12:07:49,  3.35it/s] 61%|██████    | 225316/371472 [6:53:35<12:25:08,  3.27it/s] 61%|██████    | 225317/371472 [6:53:36<11:53:58,  3.41it/s] 61%|██████    | 225318/371472 [6:53:36<12:01:50,  3.37it/s] 61%|██████    | 225319/371472 [6:53:36<12:39:52,  3.21it/s] 61%|██████    | 225320/371472 [6:53:37<13:08:31,  3.09it/s]                                                            {'loss': 3.0537, 'learning_rate': 4.54286884009567e-07, 'epoch': 9.7}
 61%|██████    | 225320/371472 [6:53:37<13:08:31,  3.09it/s] 61%|██████    | 225321/371472 [6:53:37<12:14:04,  3.32it/s] 61%|██████    | 225322/371472 [6:53:37<11:38:37,  3.49it/s] 61%|██████    | 225323/371472 [6:53:37<11:10:55,  3.63it/s] 61%|██████    | 225324/371472 [6:53:38<11:00:37,  3.69it/s] 61%|██████    | 225325/371472 [6:53:38<11:42:20,  3.47it/s] 61%|██████    | 225326/371472 [6:53:38<11:38:43,  3.49it/s] 61%|██████    | 225327/371472 [6:53:39<11:14:00,  3.61it/s] 61%|██████    | 225328/371472 [6:53:39<10:59:55,  3.69it/s] 61%|██████    | 225329/371472 [6:53:39<11:14:57,  3.61it/s] 61%|██████    | 225330/371472 [6:53:39<11:22:28,  3.57it/s] 61%|██████    | 225331/371472 [6:53:40<10:54:13,  3.72it/s] 61%|██████    | 225332/371472 [6:53:40<10:50:14,  3.75it/s] 61%|██████    | 225333/371472 [6:53:40<10:44:10,  3.78it/s] 61%|██████    | 225334/371472 [6:53:40<10:24:58,  3.90it/s] 61%|██████    | 225335/371472 [6:53:41<10:27:22,  3.88it/s] 61%|██████    | 225336/371472 [6:53:41<10:31:40,  3.86it/s] 61%|██████    | 225337/371472 [6:53:41<10:46:08,  3.77it/s] 61%|██████    | 225338/371472 [6:53:42<11:05:19,  3.66it/s] 61%|██████    | 225339/371472 [6:53:42<10:53:25,  3.73it/s] 61%|██████    | 225340/371472 [6:53:42<10:37:37,  3.82it/s]                                                            {'loss': 2.9334, 'learning_rate': 4.5423840203408826e-07, 'epoch': 9.71}
 61%|██████    | 225340/371472 [6:53:42<10:37:37,  3.82it/s] 61%|██████    | 225341/371472 [6:53:42<10:44:38,  3.78it/s] 61%|██████    | 225342/371472 [6:53:43<10:55:06,  3.72it/s] 61%|██████    | 225343/371472 [6:53:43<11:34:22,  3.51it/s] 61%|██████    | 225344/371472 [6:53:43<11:45:04,  3.45it/s] 61%|██████    | 225345/371472 [6:53:43<11:21:42,  3.57it/s] 61%|██████    | 225346/371472 [6:53:44<10:56:36,  3.71it/s] 61%|██████    | 225347/371472 [6:53:44<10:57:00,  3.71it/s] 61%|██████    | 225348/371472 [6:53:44<11:45:09,  3.45it/s] 61%|██████    | 225349/371472 [6:53:45<11:34:23,  3.51it/s] 61%|██████    | 225350/371472 [6:53:45<11:59:05,  3.39it/s] 61%|██████    | 225351/371472 [6:53:45<11:39:03,  3.48it/s] 61%|██████    | 225352/371472 [6:53:45<11:57:38,  3.39it/s] 61%|██████    | 225353/371472 [6:53:46<11:26:02,  3.55it/s] 61%|██████    | 225354/371472 [6:53:46<11:28:34,  3.54it/s] 61%|██████    | 225355/371472 [6:53:46<11:25:19,  3.55it/s] 61%|██████    | 225356/371472 [6:53:47<11:01:28,  3.68it/s] 61%|██████    | 225357/371472 [6:53:47<11:00:26,  3.69it/s] 61%|██████    | 225358/371472 [6:53:47<10:57:45,  3.70it/s] 61%|██████    | 225359/371472 [6:53:47<10:38:29,  3.81it/s] 61%|██████    | 225360/371472 [6:53:48<11:10:12,  3.63it/s]                                                            {'loss': 3.0068, 'learning_rate': 4.541899200586093e-07, 'epoch': 9.71}
 61%|██████    | 225360/371472 [6:53:48<11:10:12,  3.63it/s] 61%|██████    | 225361/371472 [6:53:48<10:53:27,  3.73it/s] 61%|██████    | 225362/371472 [6:53:48<10:40:14,  3.80it/s] 61%|██████    | 225363/371472 [6:53:48<11:28:15,  3.54it/s] 61%|██████    | 225364/371472 [6:53:49<11:27:01,  3.54it/s] 61%|██████    | 225365/371472 [6:53:49<11:30:10,  3.53it/s] 61%|██████    | 225366/371472 [6:53:49<11:42:59,  3.46it/s] 61%|██████    | 225367/371472 [6:53:50<12:19:18,  3.29it/s] 61%|██████    | 225368/371472 [6:53:50<11:31:45,  3.52it/s] 61%|██████    | 225369/371472 [6:53:50<11:48:02,  3.44it/s] 61%|██████    | 225370/371472 [6:53:50<11:15:45,  3.60it/s] 61%|██████    | 225371/371472 [6:53:51<11:00:24,  3.69it/s] 61%|██████    | 225372/371472 [6:53:51<11:12:38,  3.62it/s] 61%|██████    | 225373/371472 [6:53:51<11:07:34,  3.65it/s] 61%|██████    | 225374/371472 [6:53:52<11:15:44,  3.60it/s] 61%|██████    | 225375/371472 [6:53:52<11:12:54,  3.62it/s] 61%|██████    | 225376/371472 [6:53:52<11:34:22,  3.51it/s] 61%|██████    | 225377/371472 [6:53:52<12:00:10,  3.38it/s] 61%|██████    | 225378/371472 [6:53:53<13:19:17,  3.05it/s] 61%|██████    | 225379/371472 [6:53:53<12:50:15,  3.16it/s] 61%|██████    | 225380/371472 [6:53:53<12:06:17,  3.35it/s]                                                            {'loss': 2.7854, 'learning_rate': 4.5414143808313035e-07, 'epoch': 9.71}
 61%|██████    | 225380/371472 [6:53:53<12:06:17,  3.35it/s] 61%|██████    | 225381/371472 [6:53:54<11:45:52,  3.45it/s] 61%|██████    | 225382/371472 [6:53:54<11:28:05,  3.54it/s] 61%|██████    | 225383/371472 [6:53:54<11:20:04,  3.58it/s] 61%|██████    | 225384/371472 [6:53:55<11:28:37,  3.54it/s] 61%|██████    | 225385/371472 [6:53:55<11:02:39,  3.67it/s] 61%|██████    | 225386/371472 [6:53:55<11:03:32,  3.67it/s] 61%|██████    | 225387/371472 [6:53:55<10:56:44,  3.71it/s] 61%|██████    | 225388/371472 [6:53:56<10:51:33,  3.74it/s] 61%|██████    | 225389/371472 [6:53:56<11:23:23,  3.56it/s] 61%|██████    | 225390/371472 [6:53:56<11:16:16,  3.60it/s] 61%|██████    | 225391/371472 [6:53:56<11:26:05,  3.55it/s] 61%|██████    | 225392/371472 [6:53:57<11:26:21,  3.55it/s] 61%|██████    | 225393/371472 [6:53:57<11:10:48,  3.63it/s] 61%|██████    | 225394/371472 [6:53:57<11:04:39,  3.66it/s] 61%|██████    | 225395/371472 [6:53:57<10:59:24,  3.69it/s] 61%|██████    | 225396/371472 [6:53:58<10:48:56,  3.75it/s] 61%|██████    | 225397/371472 [6:53:58<10:33:06,  3.85it/s] 61%|██████    | 225398/371472 [6:53:58<10:28:58,  3.87it/s] 61%|██████    | 225399/371472 [6:53:59<10:28:48,  3.87it/s] 61%|██████    | 225400/371472 [6:53:59<10:34:02,  3.84it/s]                                                            {'loss': 2.9997, 'learning_rate': 4.540929561076515e-07, 'epoch': 9.71}
 61%|██████    | 225400/371472 [6:53:59<10:34:02,  3.84it/s] 61%|██████    | 225401/371472 [6:53:59<10:53:23,  3.73it/s] 61%|██████    | 225402/371472 [6:53:59<10:53:54,  3.72it/s] 61%|██████    | 225403/371472 [6:54:00<11:26:32,  3.55it/s] 61%|██████    | 225404/371472 [6:54:00<11:29:02,  3.53it/s] 61%|██████    | 225405/371472 [6:54:00<11:23:24,  3.56it/s] 61%|██████    | 225406/371472 [6:54:01<12:05:19,  3.36it/s] 61%|██████    | 225407/371472 [6:54:01<11:34:52,  3.50it/s] 61%|██████    | 225408/371472 [6:54:01<11:32:09,  3.52it/s] 61%|██████    | 225409/371472 [6:54:01<12:37:28,  3.21it/s] 61%|██████    | 225410/371472 [6:54:02<12:19:02,  3.29it/s] 61%|██████    | 225411/371472 [6:54:02<13:12:40,  3.07it/s] 61%|██████    | 225412/371472 [6:54:02<12:41:26,  3.20it/s] 61%|██████    | 225413/371472 [6:54:03<12:06:35,  3.35it/s] 61%|██████    | 225414/371472 [6:54:03<11:52:25,  3.42it/s] 61%|██████    | 225415/371472 [6:54:03<12:23:54,  3.27it/s] 61%|██████    | 225416/371472 [6:54:04<11:57:19,  3.39it/s] 61%|██████    | 225417/371472 [6:54:04<11:39:21,  3.48it/s] 61%|██████    | 225418/371472 [6:54:04<12:20:59,  3.29it/s] 61%|██████    | 225419/371472 [6:54:04<12:19:26,  3.29it/s] 61%|██████    | 225420/371472 [6:54:05<12:28:14,  3.25it/s]                                                            {'loss': 2.852, 'learning_rate': 4.540444741321726e-07, 'epoch': 9.71}
 61%|██████    | 225420/371472 [6:54:05<12:28:14,  3.25it/s] 61%|██████    | 225421/371472 [6:54:05<12:09:46,  3.34it/s] 61%|██████    | 225422/371472 [6:54:05<11:46:09,  3.45it/s] 61%|██████    | 225423/371472 [6:54:06<11:20:22,  3.58it/s] 61%|██████    | 225424/371472 [6:54:06<11:14:07,  3.61it/s] 61%|██████    | 225425/371472 [6:54:06<11:06:25,  3.65it/s] 61%|██████    | 225426/371472 [6:54:06<11:05:02,  3.66it/s] 61%|██████    | 225427/371472 [6:54:07<11:15:28,  3.60it/s] 61%|██████    | 225428/371472 [6:54:07<11:12:48,  3.62it/s] 61%|██████    | 225429/371472 [6:54:07<11:02:36,  3.67it/s] 61%|██████    | 225430/371472 [6:54:07<11:00:52,  3.68it/s] 61%|██████    | 225431/371472 [6:54:08<11:18:00,  3.59it/s] 61%|██████    | 225432/371472 [6:54:08<11:23:01,  3.56it/s] 61%|██████    | 225433/371472 [6:54:08<11:02:42,  3.67it/s] 61%|██████    | 225434/371472 [6:54:09<10:48:06,  3.76it/s] 61%|██████    | 225435/371472 [6:54:09<11:07:48,  3.64it/s] 61%|██████    | 225436/371472 [6:54:09<11:06:17,  3.65it/s] 61%|██████    | 225437/371472 [6:54:09<10:41:04,  3.80it/s] 61%|██████    | 225438/371472 [6:54:10<11:11:32,  3.62it/s] 61%|██████    | 225439/371472 [6:54:10<11:18:56,  3.58it/s] 61%|██████    | 225440/371472 [6:54:10<11:36:55,  3.49it/s]                                                            {'loss': 2.7744, 'learning_rate': 4.539959921566937e-07, 'epoch': 9.71}
 61%|██████    | 225440/371472 [6:54:10<11:36:55,  3.49it/s] 61%|██████    | 225441/371472 [6:54:11<11:22:58,  3.56it/s] 61%|██████    | 225442/371472 [6:54:11<11:15:39,  3.60it/s] 61%|██████    | 225443/371472 [6:54:11<11:08:04,  3.64it/s] 61%|██████    | 225444/371472 [6:54:11<10:53:55,  3.72it/s] 61%|██████    | 225445/371472 [6:54:12<10:40:59,  3.80it/s] 61%|██████    | 225446/371472 [6:54:12<11:37:05,  3.49it/s] 61%|██████    | 225447/371472 [6:54:12<12:08:22,  3.34it/s] 61%|██████    | 225448/371472 [6:54:13<11:53:06,  3.41it/s] 61%|██████    | 225449/371472 [6:54:13<11:45:50,  3.45it/s] 61%|██████    | 225450/371472 [6:54:13<13:12:35,  3.07it/s] 61%|██████    | 225451/371472 [6:54:14<12:35:53,  3.22it/s] 61%|██████    | 225452/371472 [6:54:14<12:42:35,  3.19it/s] 61%|██████    | 225453/371472 [6:54:14<12:10:36,  3.33it/s] 61%|██████    | 225454/371472 [6:54:14<11:37:12,  3.49it/s] 61%|██████    | 225455/371472 [6:54:15<12:15:35,  3.31it/s] 61%|██████    | 225456/371472 [6:54:15<12:12:36,  3.32it/s] 61%|██████    | 225457/371472 [6:54:15<11:53:03,  3.41it/s] 61%|██████    | 225458/371472 [6:54:16<12:58:57,  3.12it/s] 61%|██████    | 225459/371472 [6:54:16<13:22:41,  3.03it/s] 61%|██████    | 225460/371472 [6:54:16<12:34:41,  3.22it/s]                                                            {'loss': 2.784, 'learning_rate': 4.539475101812148e-07, 'epoch': 9.71}
 61%|██████    | 225460/371472 [6:54:16<12:34:41,  3.22it/s] 61%|██████    | 225461/371472 [6:54:17<12:20:10,  3.29it/s] 61%|██████    | 225462/371472 [6:54:17<12:34:41,  3.22it/s] 61%|██████    | 225463/371472 [6:54:17<12:09:38,  3.34it/s] 61%|██████    | 225464/371472 [6:54:17<12:14:31,  3.31it/s] 61%|██████    | 225465/371472 [6:54:18<11:56:06,  3.40it/s] 61%|██████    | 225466/371472 [6:54:18<12:03:29,  3.36it/s] 61%|██████    | 225467/371472 [6:54:18<11:46:36,  3.44it/s] 61%|██████    | 225468/371472 [6:54:19<11:24:30,  3.55it/s] 61%|██████    | 225469/371472 [6:54:19<11:13:20,  3.61it/s] 61%|██████    | 225470/371472 [6:54:19<11:46:11,  3.45it/s] 61%|██████    | 225471/371472 [6:54:19<11:51:16,  3.42it/s] 61%|██████    | 225472/371472 [6:54:20<12:10:02,  3.33it/s] 61%|██████    | 225473/371472 [6:54:20<11:41:53,  3.47it/s] 61%|██████    | 225474/371472 [6:54:20<12:15:07,  3.31it/s] 61%|██████    | 225475/371472 [6:54:21<12:17:57,  3.30it/s] 61%|██████    | 225476/371472 [6:54:21<11:50:32,  3.42it/s] 61%|██████    | 225477/371472 [6:54:21<11:50:03,  3.43it/s] 61%|██████    | 225478/371472 [6:54:22<11:49:32,  3.43it/s] 61%|██████    | 225479/371472 [6:54:22<12:01:52,  3.37it/s] 61%|██████    | 225480/371472 [6:54:22<11:43:54,  3.46it/s]                                                            {'loss': 2.7813, 'learning_rate': 4.5389902820573597e-07, 'epoch': 9.71}
 61%|██████    | 225480/371472 [6:54:22<11:43:54,  3.46it/s] 61%|██████    | 225481/371472 [6:54:22<11:15:08,  3.60it/s] 61%|██████    | 225482/371472 [6:54:23<11:05:54,  3.65it/s] 61%|██████    | 225483/371472 [6:54:23<11:16:33,  3.60it/s] 61%|██████    | 225484/371472 [6:54:23<12:02:01,  3.37it/s] 61%|██████    | 225485/371472 [6:54:24<12:05:45,  3.35it/s] 61%|██████    | 225486/371472 [6:54:24<11:57:59,  3.39it/s] 61%|██████    | 225487/371472 [6:54:24<12:29:56,  3.24it/s] 61%|██████    | 225488/371472 [6:54:24<11:57:44,  3.39it/s] 61%|██████    | 225489/371472 [6:54:25<11:27:16,  3.54it/s] 61%|██████    | 225490/371472 [6:54:25<12:18:40,  3.29it/s] 61%|██████    | 225491/371472 [6:54:25<12:01:31,  3.37it/s] 61%|██████    | 225492/371472 [6:54:26<12:18:35,  3.29it/s] 61%|██████    | 225493/371472 [6:54:26<11:31:25,  3.52it/s] 61%|██████    | 225494/371472 [6:54:26<12:14:33,  3.31it/s] 61%|██████    | 225495/371472 [6:54:26<11:46:41,  3.44it/s] 61%|██████    | 225496/371472 [6:54:27<11:48:57,  3.43it/s] 61%|██████    | 225497/371472 [6:54:27<13:07:38,  3.09it/s] 61%|██████    | 225498/371472 [6:54:27<12:17:24,  3.30it/s] 61%|██████    | 225499/371472 [6:54:28<12:12:36,  3.32it/s] 61%|██████    | 225500/371472 [6:54:28<12:24:19,  3.27it/s]                                                            {'loss': 2.9361, 'learning_rate': 4.53850546230257e-07, 'epoch': 9.71}
 61%|██████    | 225500/371472 [6:54:28<12:24:19,  3.27it/s] 61%|██████    | 225501/371472 [6:54:28<11:49:44,  3.43it/s] 61%|██████    | 225502/371472 [6:54:29<12:06:04,  3.35it/s] 61%|██████    | 225503/371472 [6:54:29<12:34:55,  3.22it/s] 61%|██████    | 225504/371472 [6:54:29<11:53:53,  3.41it/s] 61%|██████    | 225505/371472 [6:54:29<11:22:53,  3.56it/s] 61%|██████    | 225506/371472 [6:54:30<11:13:12,  3.61it/s] 61%|██████    | 225507/371472 [6:54:30<11:45:39,  3.45it/s] 61%|██████    | 225508/371472 [6:54:30<11:27:44,  3.54it/s] 61%|██████    | 225509/371472 [6:54:31<11:01:43,  3.68it/s] 61%|██████    | 225510/371472 [6:54:31<11:08:06,  3.64it/s] 61%|██████    | 225511/371472 [6:54:31<11:34:43,  3.50it/s] 61%|██████    | 225512/371472 [6:54:31<11:44:23,  3.45it/s] 61%|██████    | 225513/371472 [6:54:32<11:11:01,  3.63it/s] 61%|██████    | 225514/371472 [6:54:32<10:48:50,  3.75it/s] 61%|██████    | 225515/371472 [6:54:32<10:51:46,  3.73it/s] 61%|██████    | 225516/371472 [6:54:33<11:08:08,  3.64it/s] 61%|██████    | 225517/371472 [6:54:33<11:52:49,  3.41it/s] 61%|██████    | 225518/371472 [6:54:33<12:06:27,  3.35it/s] 61%|██████    | 225519/371472 [6:54:33<11:54:36,  3.40it/s] 61%|██████    | 225520/371472 [6:54:34<11:55:07,  3.40it/s]                                                            {'loss': 2.8554, 'learning_rate': 4.5380206425477816e-07, 'epoch': 9.71}
 61%|██████    | 225520/371472 [6:54:34<11:55:07,  3.40it/s] 61%|██████    | 225521/371472 [6:54:34<11:40:09,  3.47it/s] 61%|██████    | 225522/371472 [6:54:34<11:41:25,  3.47it/s] 61%|██████    | 225523/371472 [6:54:35<11:38:29,  3.48it/s] 61%|██████    | 225524/371472 [6:54:35<11:28:57,  3.53it/s] 61%|██████    | 225525/371472 [6:54:35<11:08:18,  3.64it/s] 61%|██████    | 225526/371472 [6:54:35<10:48:20,  3.75it/s] 61%|██████    | 225527/371472 [6:54:36<11:24:16,  3.55it/s] 61%|██████    | 225528/371472 [6:54:36<11:11:13,  3.62it/s] 61%|██████    | 225529/371472 [6:54:36<10:41:18,  3.79it/s] 61%|██████    | 225530/371472 [6:54:37<12:37:15,  3.21it/s] 61%|██████    | 225531/371472 [6:54:37<12:08:32,  3.34it/s] 61%|██████    | 225532/371472 [6:54:37<11:36:41,  3.49it/s] 61%|██████    | 225533/371472 [6:54:37<11:57:56,  3.39it/s] 61%|██████    | 225534/371472 [6:54:38<11:56:46,  3.39it/s] 61%|██████    | 225535/371472 [6:54:38<12:06:23,  3.35it/s] 61%|██████    | 225536/371472 [6:54:38<12:01:40,  3.37it/s] 61%|██████    | 225537/371472 [6:54:39<11:56:56,  3.39it/s] 61%|██████    | 225538/371472 [6:54:39<13:33:11,  2.99it/s] 61%|██████    | 225539/371472 [6:54:39<12:45:21,  3.18it/s] 61%|██████    | 225540/371472 [6:54:40<12:19:18,  3.29it/s]                                                            {'loss': 2.8515, 'learning_rate': 4.5375358227929923e-07, 'epoch': 9.71}
 61%|██████    | 225540/371472 [6:54:40<12:19:18,  3.29it/s] 61%|██████    | 225541/371472 [6:54:40<11:46:58,  3.44it/s] 61%|██████    | 225542/371472 [6:54:40<11:24:21,  3.55it/s] 61%|██████    | 225543/371472 [6:54:40<11:26:54,  3.54it/s] 61%|██████    | 225544/371472 [6:54:41<11:17:02,  3.59it/s] 61%|██████    | 225545/371472 [6:54:41<11:56:59,  3.39it/s] 61%|██████    | 225546/371472 [6:54:41<11:56:08,  3.40it/s] 61%|██████    | 225547/371472 [6:54:42<11:35:45,  3.50it/s] 61%|██████    | 225548/371472 [6:54:42<11:21:34,  3.57it/s] 61%|██████    | 225549/371472 [6:54:42<11:30:45,  3.52it/s] 61%|██████    | 225550/371472 [6:54:42<11:19:50,  3.58it/s] 61%|██████    | 225551/371472 [6:54:43<11:14:23,  3.61it/s] 61%|██████    | 225552/371472 [6:54:43<11:17:29,  3.59it/s] 61%|██████    | 225553/371472 [6:54:43<11:07:19,  3.64it/s] 61%|██████    | 225554/371472 [6:54:43<11:07:22,  3.64it/s] 61%|██████    | 225555/371472 [6:54:44<11:31:50,  3.52it/s] 61%|██████    | 225556/371472 [6:54:44<11:48:47,  3.43it/s] 61%|██████    | 225557/371472 [6:54:44<11:25:58,  3.55it/s] 61%|██████    | 225558/371472 [6:54:45<11:49:15,  3.43it/s] 61%|██████    | 225559/371472 [6:54:45<11:19:26,  3.58it/s] 61%|██████    | 225560/371472 [6:54:45<11:26:01,  3.54it/s]                                                            {'loss': 3.0192, 'learning_rate': 4.5370510030382036e-07, 'epoch': 9.72}
 61%|██████    | 225560/371472 [6:54:45<11:26:01,  3.54it/s] 61%|██████    | 225561/371472 [6:54:45<11:14:05,  3.61it/s] 61%|██████    | 225562/371472 [6:54:46<11:15:44,  3.60it/s] 61%|██████    | 225563/371472 [6:54:46<12:35:38,  3.22it/s] 61%|██████    | 225564/371472 [6:54:46<11:55:03,  3.40it/s] 61%|██████    | 225565/371472 [6:54:47<12:39:25,  3.20it/s] 61%|██████    | 225566/371472 [6:54:47<12:23:08,  3.27it/s] 61%|██████    | 225567/371472 [6:54:47<11:46:04,  3.44it/s] 61%|██████    | 225568/371472 [6:54:48<11:37:34,  3.49it/s] 61%|██████    | 225569/371472 [6:54:48<11:31:49,  3.51it/s] 61%|██████    | 225570/371472 [6:54:48<11:24:27,  3.55it/s] 61%|██████    | 225571/371472 [6:54:48<12:13:35,  3.31it/s] 61%|██████    | 225572/371472 [6:54:49<12:19:48,  3.29it/s] 61%|██████    | 225573/371472 [6:54:49<11:53:57,  3.41it/s] 61%|██████    | 225574/371472 [6:54:49<11:55:11,  3.40it/s] 61%|██████    | 225575/371472 [6:54:50<13:10:16,  3.08it/s] 61%|██████    | 225576/371472 [6:54:50<12:21:14,  3.28it/s] 61%|██████    | 225577/371472 [6:54:50<11:50:46,  3.42it/s] 61%|██████    | 225578/371472 [6:54:51<11:46:21,  3.44it/s] 61%|██████    | 225579/371472 [6:54:51<11:38:30,  3.48it/s] 61%|██████    | 225580/371472 [6:54:51<11:35:37,  3.50it/s]                                                            {'loss': 2.9731, 'learning_rate': 4.5365661832834143e-07, 'epoch': 9.72}
 61%|██████    | 225580/371472 [6:54:51<11:35:37,  3.50it/s] 61%|██████    | 225581/371472 [6:54:51<11:49:39,  3.43it/s] 61%|██████    | 225582/371472 [6:54:52<11:35:07,  3.50it/s] 61%|██████    | 225583/371472 [6:54:52<11:15:54,  3.60it/s] 61%|██████    | 225584/371472 [6:54:52<11:22:08,  3.56it/s] 61%|██████    | 225585/371472 [6:54:53<11:17:13,  3.59it/s] 61%|██████    | 225586/371472 [6:54:53<12:57:12,  3.13it/s] 61%|██████    | 225587/371472 [6:54:53<12:07:56,  3.34it/s] 61%|██████    | 225588/371472 [6:54:54<12:37:30,  3.21it/s] 61%|██████    | 225589/371472 [6:54:54<12:58:36,  3.12it/s] 61%|██████    | 225590/371472 [6:54:54<12:15:37,  3.31it/s] 61%|██████    | 225591/371472 [6:54:54<12:00:56,  3.37it/s] 61%|██████    | 225592/371472 [6:54:55<11:38:53,  3.48it/s] 61%|██████    | 225593/371472 [6:54:55<12:25:37,  3.26it/s] 61%|██████    | 225594/371472 [6:54:55<12:26:49,  3.26it/s] 61%|██████    | 225595/371472 [6:54:56<12:07:01,  3.34it/s] 61%|██████    | 225596/371472 [6:54:56<11:39:37,  3.48it/s] 61%|██████    | 225597/371472 [6:54:56<11:55:50,  3.40it/s] 61%|██████    | 225598/371472 [6:54:56<11:40:12,  3.47it/s] 61%|██████    | 225599/371472 [6:54:57<11:17:46,  3.59it/s] 61%|██████    | 225600/371472 [6:54:57<10:58:19,  3.69it/s]                                                            {'loss': 2.843, 'learning_rate': 4.536081363528626e-07, 'epoch': 9.72}
 61%|██████    | 225600/371472 [6:54:57<10:58:19,  3.69it/s] 61%|██████    | 225601/371472 [6:54:57<11:05:27,  3.65it/s] 61%|██████    | 225602/371472 [6:54:58<11:55:19,  3.40it/s] 61%|██████    | 225603/371472 [6:54:58<11:29:38,  3.53it/s] 61%|██████    | 225604/371472 [6:54:58<11:28:24,  3.53it/s] 61%|██████    | 225605/371472 [6:54:58<11:58:07,  3.39it/s] 61%|██████    | 225606/371472 [6:54:59<12:02:58,  3.36it/s] 61%|██████    | 225607/371472 [6:54:59<11:46:12,  3.44it/s] 61%|██████    | 225608/371472 [6:54:59<11:15:22,  3.60it/s] 61%|██████    | 225609/371472 [6:55:00<11:22:46,  3.56it/s] 61%|██████    | 225610/371472 [6:55:00<11:50:14,  3.42it/s] 61%|██████    | 225611/371472 [6:55:00<11:18:24,  3.58it/s] 61%|██████    | 225612/371472 [6:55:00<12:08:34,  3.34it/s] 61%|██████    | 225613/371472 [6:55:01<12:03:54,  3.36it/s] 61%|██████    | 225614/371472 [6:55:01<11:39:17,  3.48it/s] 61%|██████    | 225615/371472 [6:55:01<11:38:29,  3.48it/s] 61%|██████    | 225616/371472 [6:55:02<11:42:14,  3.46it/s] 61%|██████    | 225617/371472 [6:55:02<11:21:09,  3.57it/s] 61%|██████    | 225618/371472 [6:55:02<11:16:50,  3.59it/s] 61%|██████    | 225619/371472 [6:55:02<10:58:29,  3.69it/s] 61%|██████    | 225620/371472 [6:55:03<11:02:55,  3.67it/s]                                                            {'loss': 2.9789, 'learning_rate': 4.5355965437738363e-07, 'epoch': 9.72}
 61%|██████    | 225620/371472 [6:55:03<11:02:55,  3.67it/s] 61%|██████    | 225621/371472 [6:55:03<10:53:53,  3.72it/s] 61%|██████    | 225622/371472 [6:55:03<10:54:58,  3.71it/s] 61%|██████    | 225623/371472 [6:55:04<11:13:06,  3.61it/s] 61%|██████    | 225624/371472 [6:55:04<11:22:12,  3.56it/s] 61%|██████    | 225625/371472 [6:55:04<11:39:23,  3.48it/s] 61%|██████    | 225626/371472 [6:55:04<11:44:40,  3.45it/s] 61%|██████    | 225627/371472 [6:55:05<12:21:38,  3.28it/s] 61%|██████    | 225628/371472 [6:55:05<11:53:30,  3.41it/s] 61%|██████    | 225629/371472 [6:55:05<12:01:01,  3.37it/s] 61%|██████    | 225630/371472 [6:55:06<12:29:38,  3.24it/s] 61%|██████    | 225631/371472 [6:55:06<12:03:21,  3.36it/s] 61%|██████    | 225632/371472 [6:55:06<11:49:27,  3.43it/s] 61%|██████    | 225633/371472 [6:55:06<11:47:38,  3.43it/s] 61%|██████    | 225634/371472 [6:55:07<11:53:05,  3.41it/s] 61%|██████    | 225635/371472 [6:55:07<11:25:16,  3.55it/s] 61%|██████    | 225636/371472 [6:55:07<11:19:31,  3.58it/s] 61%|██████    | 225637/371472 [6:55:08<11:08:43,  3.63it/s] 61%|██████    | 225638/371472 [6:55:08<11:22:49,  3.56it/s] 61%|██████    | 225639/371472 [6:55:08<11:21:26,  3.57it/s] 61%|██████    | 225640/371472 [6:55:08<11:01:43,  3.67it/s]                                                            {'loss': 2.9726, 'learning_rate': 4.535111724019048e-07, 'epoch': 9.72}
 61%|██████    | 225640/371472 [6:55:08<11:01:43,  3.67it/s] 61%|██████    | 225641/371472 [6:55:09<10:58:43,  3.69it/s] 61%|██████    | 225642/371472 [6:55:09<12:04:21,  3.36it/s] 61%|██████    | 225643/371472 [6:55:09<12:22:26,  3.27it/s] 61%|██████    | 225644/371472 [6:55:10<11:57:38,  3.39it/s] 61%|██████    | 225645/371472 [6:55:10<11:34:28,  3.50it/s] 61%|██████    | 225646/371472 [6:55:10<11:36:36,  3.49it/s] 61%|██████    | 225647/371472 [6:55:10<11:38:43,  3.48it/s] 61%|██████    | 225648/371472 [6:55:11<11:22:57,  3.56it/s] 61%|██████    | 225649/371472 [6:55:11<10:58:30,  3.69it/s] 61%|██████    | 225650/371472 [6:55:11<10:53:47,  3.72it/s] 61%|██████    | 225651/371472 [6:55:12<10:41:50,  3.79it/s] 61%|██████    | 225652/371472 [6:55:12<10:55:23,  3.71it/s] 61%|██████    | 225653/371472 [6:55:12<11:53:02,  3.41it/s] 61%|██████    | 225654/371472 [6:55:12<11:34:29,  3.50it/s] 61%|██████    | 225655/371472 [6:55:13<11:41:21,  3.47it/s] 61%|██████    | 225656/371472 [6:55:13<12:01:07,  3.37it/s] 61%|██████    | 225657/371472 [6:55:13<12:05:50,  3.35it/s] 61%|██████    | 225658/371472 [6:55:14<12:05:53,  3.35it/s] 61%|██████    | 225659/371472 [6:55:14<11:40:58,  3.47it/s] 61%|██████    | 225660/371472 [6:55:14<11:38:04,  3.48it/s]                                                            {'loss': 2.8459, 'learning_rate': 4.534626904264259e-07, 'epoch': 9.72}
 61%|██████    | 225660/371472 [6:55:14<11:38:04,  3.48it/s] 61%|██████    | 225661/371472 [6:55:14<11:42:41,  3.46it/s] 61%|██████    | 225662/371472 [6:55:15<11:20:05,  3.57it/s] 61%|██████    | 225663/371472 [6:55:15<11:11:25,  3.62it/s] 61%|██████    | 225664/371472 [6:55:15<11:05:49,  3.65it/s] 61%|██████    | 225665/371472 [6:55:16<10:52:01,  3.73it/s] 61%|██████    | 225666/371472 [6:55:16<11:23:49,  3.55it/s] 61%|██████    | 225667/371472 [6:55:16<11:31:06,  3.52it/s] 61%|██████    | 225668/371472 [6:55:16<11:19:44,  3.58it/s] 61%|██████    | 225669/371472 [6:55:17<11:12:24,  3.61it/s] 61%|██████    | 225670/371472 [6:55:17<11:32:10,  3.51it/s] 61%|██████    | 225671/371472 [6:55:17<11:09:59,  3.63it/s] 61%|██████    | 225672/371472 [6:55:17<11:00:54,  3.68it/s] 61%|██████    | 225673/371472 [6:55:18<11:20:37,  3.57it/s] 61%|██████    | 225674/371472 [6:55:18<11:00:44,  3.68it/s] 61%|██████    | 225675/371472 [6:55:18<10:51:57,  3.73it/s] 61%|██████    | 225676/371472 [6:55:19<10:53:08,  3.72it/s] 61%|██████    | 225677/371472 [6:55:19<10:44:00,  3.77it/s] 61%|██████    | 225678/371472 [6:55:19<11:21:00,  3.57it/s] 61%|██████    | 225679/371472 [6:55:19<11:35:27,  3.49it/s] 61%|██████    | 225680/371472 [6:55:20<11:37:06,  3.49it/s]                                                            {'loss': 2.7872, 'learning_rate': 4.53414208450947e-07, 'epoch': 9.72}
 61%|██████    | 225680/371472 [6:55:20<11:37:06,  3.49it/s] 61%|██████    | 225681/371472 [6:55:20<11:16:07,  3.59it/s] 61%|██████    | 225682/371472 [6:55:20<11:42:02,  3.46it/s] 61%|██████    | 225683/371472 [6:55:21<11:32:43,  3.51it/s] 61%|██████    | 225684/371472 [6:55:21<11:17:49,  3.58it/s] 61%|██████    | 225685/371472 [6:55:21<12:17:22,  3.30it/s] 61%|██████    | 225686/371472 [6:55:21<12:15:55,  3.30it/s] 61%|██████    | 225687/371472 [6:55:22<11:55:23,  3.40it/s] 61%|██████    | 225688/371472 [6:55:22<11:40:43,  3.47it/s] 61%|██████    | 225689/371472 [6:55:22<11:34:43,  3.50it/s] 61%|██████    | 225690/371472 [6:55:23<11:27:58,  3.53it/s] 61%|██████    | 225691/371472 [6:55:23<11:10:08,  3.63it/s] 61%|██████    | 225692/371472 [6:55:23<11:25:16,  3.55it/s] 61%|██████    | 225693/371472 [6:55:23<11:31:01,  3.52it/s] 61%|██████    | 225694/371472 [6:55:24<11:31:07,  3.52it/s] 61%|██████    | 225695/371472 [6:55:24<11:41:42,  3.46it/s] 61%|██████    | 225696/371472 [6:55:24<11:31:09,  3.52it/s] 61%|██████    | 225697/371472 [6:55:25<11:24:39,  3.55it/s] 61%|██████    | 225698/371472 [6:55:25<11:04:47,  3.65it/s] 61%|██████    | 225699/371472 [6:55:25<12:44:04,  3.18it/s] 61%|██████    | 225700/371472 [6:55:25<11:58:24,  3.38it/s]                                                            {'loss': 2.8934, 'learning_rate': 4.5336572647546807e-07, 'epoch': 9.72}
 61%|██████    | 225700/371472 [6:55:25<11:58:24,  3.38it/s] 61%|██████    | 225701/371472 [6:55:26<12:06:42,  3.34it/s] 61%|██████    | 225702/371472 [6:55:26<11:47:35,  3.43it/s] 61%|██████    | 225703/371472 [6:55:26<11:56:00,  3.39it/s] 61%|██████    | 225704/371472 [6:55:27<11:43:20,  3.45it/s] 61%|██████    | 225705/371472 [6:55:27<11:37:46,  3.48it/s] 61%|██████    | 225706/371472 [6:55:27<12:00:04,  3.37it/s] 61%|██████    | 225707/371472 [6:55:28<11:26:46,  3.54it/s] 61%|██████    | 225708/371472 [6:55:28<11:35:17,  3.49it/s] 61%|██████    | 225709/371472 [6:55:28<11:28:53,  3.53it/s] 61%|██████    | 225710/371472 [6:55:28<11:09:41,  3.63it/s] 61%|██████    | 225711/371472 [6:55:29<11:00:30,  3.68it/s] 61%|██████    | 225712/371472 [6:55:29<10:47:14,  3.75it/s] 61%|██████    | 225713/371472 [6:55:29<11:30:46,  3.52it/s] 61%|██████    | 225714/371472 [6:55:29<11:21:31,  3.56it/s] 61%|██████    | 225715/371472 [6:55:30<11:32:52,  3.51it/s] 61%|██████    | 225716/371472 [6:55:30<11:49:02,  3.43it/s] 61%|██████    | 225717/371472 [6:55:30<11:22:11,  3.56it/s] 61%|██████    | 225718/371472 [6:55:31<11:34:45,  3.50it/s] 61%|██████    | 225719/371472 [6:55:31<11:10:48,  3.62it/s] 61%|██████    | 225720/371472 [6:55:31<11:07:21,  3.64it/s]                                                            {'loss': 3.0666, 'learning_rate': 4.5331724449998925e-07, 'epoch': 9.72}
 61%|██████    | 225720/371472 [6:55:31<11:07:21,  3.64it/s] 61%|██████    | 225721/371472 [6:55:31<10:42:22,  3.78it/s] 61%|██████    | 225722/371472 [6:55:32<10:42:22,  3.78it/s] 61%|██████    | 225723/371472 [6:55:32<10:26:38,  3.88it/s] 61%|██████    | 225724/371472 [6:55:32<10:44:22,  3.77it/s] 61%|██████    | 225725/371472 [6:55:32<10:41:56,  3.78it/s] 61%|██████    | 225726/371472 [6:55:33<10:37:50,  3.81it/s] 61%|██████    | 225727/371472 [6:55:33<10:38:10,  3.81it/s] 61%|██████    | 225728/371472 [6:55:33<10:43:02,  3.78it/s] 61%|██████    | 225729/371472 [6:55:33<10:57:13,  3.70it/s] 61%|██████    | 225730/371472 [6:55:34<10:44:20,  3.77it/s] 61%|██████    | 225731/371472 [6:55:34<11:10:08,  3.62it/s] 61%|██████    | 225732/371472 [6:55:34<11:06:00,  3.65it/s] 61%|██████    | 225733/371472 [6:55:35<10:49:59,  3.74it/s] 61%|██████    | 225734/371472 [6:55:35<10:34:43,  3.83it/s] 61%|██████    | 225735/371472 [6:55:35<10:42:48,  3.78it/s] 61%|██████    | 225736/371472 [6:55:35<12:24:41,  3.26it/s] 61%|██████    | 225737/371472 [6:55:36<11:57:52,  3.38it/s] 61%|██████    | 225738/371472 [6:55:36<11:37:19,  3.48it/s] 61%|██████    | 225739/371472 [6:55:36<11:50:10,  3.42it/s] 61%|██████    | 225740/371472 [6:55:37<11:55:44,  3.39it/s]                                                            {'loss': 2.7963, 'learning_rate': 4.532687625245103e-07, 'epoch': 9.72}
 61%|██████    | 225740/371472 [6:55:37<11:55:44,  3.39it/s] 61%|██████    | 225741/371472 [6:55:37<12:19:08,  3.29it/s] 61%|██████    | 225742/371472 [6:55:37<12:59:29,  3.12it/s] 61%|██████    | 225743/371472 [6:55:38<12:20:39,  3.28it/s] 61%|██████    | 225744/371472 [6:55:38<12:08:02,  3.34it/s] 61%|██████    | 225745/371472 [6:55:38<11:47:05,  3.43it/s] 61%|██████    | 225746/371472 [6:55:38<11:36:18,  3.49it/s] 61%|██████    | 225747/371472 [6:55:39<11:03:55,  3.66it/s] 61%|██████    | 225748/371472 [6:55:39<11:10:05,  3.62it/s] 61%|██████    | 225749/371472 [6:55:39<11:17:09,  3.59it/s] 61%|██████    | 225750/371472 [6:55:40<11:48:01,  3.43it/s] 61%|██████    | 225751/371472 [6:55:40<11:24:50,  3.55it/s] 61%|██████    | 225752/371472 [6:55:40<11:23:04,  3.56it/s] 61%|██████    | 225753/371472 [6:55:40<11:20:22,  3.57it/s] 61%|██████    | 225754/371472 [6:55:41<11:13:25,  3.61it/s] 61%|██████    | 225755/371472 [6:55:41<11:24:15,  3.55it/s] 61%|██████    | 225756/371472 [6:55:41<11:24:40,  3.55it/s] 61%|██████    | 225757/371472 [6:55:42<11:47:06,  3.43it/s] 61%|██████    | 225758/371472 [6:55:42<11:53:30,  3.40it/s] 61%|██████    | 225759/371472 [6:55:42<12:03:05,  3.36it/s] 61%|██████    | 225760/371472 [6:55:42<12:04:55,  3.35it/s]                                                            {'loss': 2.9686, 'learning_rate': 4.5322028054903144e-07, 'epoch': 9.72}
 61%|██████    | 225760/371472 [6:55:42<12:04:55,  3.35it/s] 61%|██████    | 225761/371472 [6:55:43<11:53:47,  3.40it/s] 61%|██████    | 225762/371472 [6:55:43<11:35:02,  3.49it/s] 61%|██████    | 225763/371472 [6:55:43<11:07:03,  3.64it/s] 61%|██████    | 225764/371472 [6:55:44<12:58:00,  3.12it/s] 61%|██████    | 225765/371472 [6:55:44<12:19:33,  3.28it/s] 61%|██████    | 225766/371472 [6:55:44<11:29:38,  3.52it/s] 61%|██████    | 225767/371472 [6:55:44<11:29:40,  3.52it/s] 61%|██████    | 225768/371472 [6:55:45<11:19:28,  3.57it/s] 61%|██████    | 225769/371472 [6:55:45<11:57:09,  3.39it/s] 61%|██████    | 225770/371472 [6:55:45<11:52:44,  3.41it/s] 61%|██████    | 225771/371472 [6:55:46<12:03:07,  3.36it/s] 61%|██████    | 225772/371472 [6:55:46<12:02:56,  3.36it/s] 61%|██████    | 225773/371472 [6:55:46<11:31:08,  3.51it/s] 61%|██████    | 225774/371472 [6:55:47<12:22:37,  3.27it/s] 61%|██████    | 225775/371472 [6:55:47<12:15:41,  3.30it/s] 61%|██████    | 225776/371472 [6:55:47<12:13:07,  3.31it/s] 61%|██████    | 225777/371472 [6:55:47<12:07:23,  3.34it/s] 61%|██████    | 225778/371472 [6:55:48<12:29:16,  3.24it/s] 61%|██████    | 225779/371472 [6:55:48<11:56:56,  3.39it/s] 61%|██████    | 225780/371472 [6:55:48<11:21:18,  3.56it/s]                                                            {'loss': 2.9751, 'learning_rate': 4.531717985735525e-07, 'epoch': 9.72}
 61%|██████    | 225780/371472 [6:55:48<11:21:18,  3.56it/s] 61%|██████    | 225781/371472 [6:55:49<11:37:35,  3.48it/s] 61%|██████    | 225782/371472 [6:55:49<11:23:36,  3.55it/s] 61%|██████    | 225783/371472 [6:55:49<11:47:14,  3.43it/s] 61%|██████    | 225784/371472 [6:55:49<11:45:18,  3.44it/s] 61%|██████    | 225785/371472 [6:55:50<11:31:11,  3.51it/s] 61%|██████    | 225786/371472 [6:55:50<11:29:53,  3.52it/s] 61%|██████    | 225787/371472 [6:55:50<10:53:46,  3.71it/s] 61%|██████    | 225788/371472 [6:55:50<10:37:57,  3.81it/s] 61%|██████    | 225789/371472 [6:55:51<10:28:31,  3.86it/s] 61%|██████    | 225790/371472 [6:55:51<10:37:50,  3.81it/s] 61%|██████    | 225791/371472 [6:55:51<10:29:48,  3.86it/s] 61%|██████    | 225792/371472 [6:55:52<10:51:31,  3.73it/s] 61%|██████    | 225793/371472 [6:55:52<10:37:27,  3.81it/s] 61%|██████    | 225794/371472 [6:55:52<11:10:00,  3.62it/s] 61%|██████    | 225795/371472 [6:55:52<10:53:36,  3.71it/s] 61%|██████    | 225796/371472 [6:55:53<10:35:44,  3.82it/s] 61%|██████    | 225797/371472 [6:55:53<11:21:01,  3.57it/s] 61%|██████    | 225798/371472 [6:55:53<11:36:49,  3.48it/s] 61%|██████    | 225799/371472 [6:55:54<12:08:50,  3.33it/s] 61%|██████    | 225800/371472 [6:55:54<12:40:15,  3.19it/s]                                                            {'loss': 3.0685, 'learning_rate': 4.531233165980737e-07, 'epoch': 9.73}
 61%|██████    | 225800/371472 [6:55:54<12:40:15,  3.19it/s] 61%|██████    | 225801/371472 [6:55:54<12:13:08,  3.31it/s] 61%|██████    | 225802/371472 [6:55:54<11:23:52,  3.55it/s] 61%|██████    | 225803/371472 [6:55:55<11:23:02,  3.55it/s] 61%|██████    | 225804/371472 [6:55:55<11:25:30,  3.54it/s] 61%|██████    | 225805/371472 [6:55:55<11:49:23,  3.42it/s] 61%|██████    | 225806/371472 [6:55:56<11:38:09,  3.48it/s] 61%|██████    | 225807/371472 [6:55:56<11:44:45,  3.44it/s] 61%|██████    | 225808/371472 [6:55:56<11:47:58,  3.43it/s] 61%|██████    | 225809/371472 [6:55:57<12:38:59,  3.20it/s] 61%|██████    | 225810/371472 [6:55:57<12:23:17,  3.27it/s] 61%|██████    | 225811/371472 [6:55:57<11:56:07,  3.39it/s] 61%|██████    | 225812/371472 [6:55:57<12:02:35,  3.36it/s] 61%|██████    | 225813/371472 [6:55:58<11:31:03,  3.51it/s] 61%|██████    | 225814/371472 [6:55:58<11:15:49,  3.59it/s] 61%|██████    | 225815/371472 [6:55:58<11:10:37,  3.62it/s] 61%|██████    | 225816/371472 [6:55:58<11:05:29,  3.65it/s] 61%|██████    | 225817/371472 [6:55:59<11:24:56,  3.54it/s] 61%|██████    | 225818/371472 [6:55:59<11:20:46,  3.57it/s] 61%|██████    | 225819/371472 [6:55:59<11:13:47,  3.60it/s] 61%|██████    | 225820/371472 [6:56:00<11:02:01,  3.67it/s]                                                            {'loss': 2.7814, 'learning_rate': 4.530748346225947e-07, 'epoch': 9.73}
 61%|██████    | 225820/371472 [6:56:00<11:02:01,  3.67it/s] 61%|██████    | 225821/371472 [6:56:00<11:19:37,  3.57it/s] 61%|██████    | 225822/371472 [6:56:00<11:43:07,  3.45it/s] 61%|██████    | 225823/371472 [6:56:00<11:14:46,  3.60it/s] 61%|██████    | 225824/371472 [6:56:01<10:59:48,  3.68it/s] 61%|██████    | 225825/371472 [6:56:01<10:59:51,  3.68it/s] 61%|██████    | 225826/371472 [6:56:01<10:57:51,  3.69it/s] 61%|██████    | 225827/371472 [6:56:02<11:21:03,  3.56it/s] 61%|██████    | 225828/371472 [6:56:02<11:57:20,  3.38it/s] 61%|██████    | 225829/371472 [6:56:02<11:42:13,  3.46it/s] 61%|██████    | 225830/371472 [6:56:02<11:17:22,  3.58it/s] 61%|██████    | 225831/371472 [6:56:03<10:57:02,  3.69it/s] 61%|██████    | 225832/371472 [6:56:03<11:28:31,  3.53it/s] 61%|██████    | 225833/371472 [6:56:03<11:19:11,  3.57it/s] 61%|██████    | 225834/371472 [6:56:03<11:06:52,  3.64it/s] 61%|██████    | 225835/371472 [6:56:04<10:48:03,  3.75it/s] 61%|██████    | 225836/371472 [6:56:04<11:25:07,  3.54it/s] 61%|██████    | 225837/371472 [6:56:04<11:48:00,  3.43it/s] 61%|██████    | 225838/371472 [6:56:05<11:34:18,  3.50it/s] 61%|██████    | 225839/371472 [6:56:05<11:18:26,  3.58it/s] 61%|██████    | 225840/371472 [6:56:05<11:06:39,  3.64it/s]                                                            {'loss': 2.8551, 'learning_rate': 4.5302635264711594e-07, 'epoch': 9.73}
 61%|██████    | 225840/371472 [6:56:05<11:06:39,  3.64it/s] 61%|██████    | 225841/371472 [6:56:06<12:22:04,  3.27it/s] 61%|██████    | 225842/371472 [6:56:06<11:49:31,  3.42it/s] 61%|██████    | 225843/371472 [6:56:06<11:42:33,  3.45it/s] 61%|██████    | 225844/371472 [6:56:06<11:41:44,  3.46it/s] 61%|██████    | 225845/371472 [6:56:07<11:15:37,  3.59it/s] 61%|██████    | 225846/371472 [6:56:07<11:37:33,  3.48it/s] 61%|██████    | 225847/371472 [6:56:07<11:35:04,  3.49it/s] 61%|██████    | 225848/371472 [6:56:08<11:43:16,  3.45it/s] 61%|██████    | 225849/371472 [6:56:08<11:23:39,  3.55it/s] 61%|██████    | 225850/371472 [6:56:08<12:08:13,  3.33it/s] 61%|██████    | 225851/371472 [6:56:08<11:45:49,  3.44it/s] 61%|██████    | 225852/371472 [6:56:09<11:48:16,  3.43it/s] 61%|██████    | 225853/371472 [6:56:09<12:09:17,  3.33it/s] 61%|██████    | 225854/371472 [6:56:09<12:16:31,  3.30it/s] 61%|██████    | 225855/371472 [6:56:10<11:55:19,  3.39it/s] 61%|██████    | 225856/371472 [6:56:10<11:30:17,  3.52it/s] 61%|██████    | 225857/371472 [6:56:10<11:31:43,  3.51it/s] 61%|██████    | 225858/371472 [6:56:11<12:26:06,  3.25it/s] 61%|██████    | 225859/371472 [6:56:11<12:31:52,  3.23it/s] 61%|██████    | 225860/371472 [6:56:11<12:13:08,  3.31it/s]                                                            {'loss': 2.7623, 'learning_rate': 4.5297787067163696e-07, 'epoch': 9.73}
 61%|██████    | 225860/371472 [6:56:11<12:13:08,  3.31it/s] 61%|██████    | 225861/371472 [6:56:11<12:26:08,  3.25it/s] 61%|██████    | 225862/371472 [6:56:12<11:43:07,  3.45it/s] 61%|██████    | 225863/371472 [6:56:12<11:47:15,  3.43it/s] 61%|██████    | 225864/371472 [6:56:12<11:21:41,  3.56it/s] 61%|██████    | 225865/371472 [6:56:12<11:15:17,  3.59it/s] 61%|██████    | 225866/371472 [6:56:13<10:55:18,  3.70it/s] 61%|██████    | 225867/371472 [6:56:13<11:13:00,  3.61it/s] 61%|██████    | 225868/371472 [6:56:13<11:18:37,  3.58it/s] 61%|██████    | 225869/371472 [6:56:14<11:03:10,  3.66it/s] 61%|██████    | 225870/371472 [6:56:14<11:02:40,  3.66it/s] 61%|██████    | 225871/371472 [6:56:14<10:53:56,  3.71it/s] 61%|██████    | 225872/371472 [6:56:14<10:54:17,  3.71it/s] 61%|██████    | 225873/371472 [6:56:15<10:49:57,  3.73it/s] 61%|██████    | 225874/371472 [6:56:15<11:06:59,  3.64it/s] 61%|██████    | 225875/371472 [6:56:15<11:26:26,  3.54it/s] 61%|██████    | 225876/371472 [6:56:16<12:04:18,  3.35it/s] 61%|██████    | 225877/371472 [6:56:16<11:53:28,  3.40it/s] 61%|██████    | 225878/371472 [6:56:16<11:25:29,  3.54it/s] 61%|██████    | 225879/371472 [6:56:17<13:03:40,  3.10it/s] 61%|██████    | 225880/371472 [6:56:17<12:39:13,  3.20it/s]                                                            {'loss': 2.9376, 'learning_rate': 4.529293886961581e-07, 'epoch': 9.73}
 61%|██████    | 225880/371472 [6:56:17<12:39:13,  3.20it/s] 61%|██████    | 225881/371472 [6:56:17<13:06:21,  3.09it/s] 61%|██████    | 225882/371472 [6:56:17<12:21:53,  3.27it/s] 61%|██████    | 225883/371472 [6:56:18<12:01:23,  3.36it/s] 61%|██████    | 225884/371472 [6:56:18<12:01:32,  3.36it/s] 61%|██████    | 225885/371472 [6:56:18<11:45:05,  3.44it/s] 61%|██████    | 225886/371472 [6:56:19<11:59:02,  3.37it/s] 61%|██████    | 225887/371472 [6:56:19<11:29:54,  3.52it/s] 61%|██████    | 225888/371472 [6:56:19<11:14:54,  3.60it/s] 61%|██████    | 225889/371472 [6:56:19<11:13:53,  3.60it/s] 61%|██████    | 225890/371472 [6:56:20<11:31:16,  3.51it/s] 61%|██████    | 225891/371472 [6:56:20<11:56:32,  3.39it/s] 61%|██████    | 225892/371472 [6:56:20<12:35:37,  3.21it/s] 61%|██████    | 225893/371472 [6:56:21<12:10:49,  3.32it/s] 61%|██████    | 225894/371472 [6:56:21<12:15:03,  3.30it/s] 61%|██████    | 225895/371472 [6:56:21<11:53:25,  3.40it/s] 61%|██████    | 225896/371472 [6:56:21<11:39:46,  3.47it/s] 61%|██████    | 225897/371472 [6:56:22<11:13:37,  3.60it/s] 61%|██████    | 225898/371472 [6:56:22<11:10:31,  3.62it/s] 61%|██████    | 225899/371472 [6:56:22<10:52:39,  3.72it/s] 61%|██████    | 225900/371472 [6:56:23<10:47:45,  3.75it/s]                                                            {'loss': 3.0411, 'learning_rate': 4.5288090672067916e-07, 'epoch': 9.73}
 61%|██████    | 225900/371472 [6:56:23<10:47:45,  3.75it/s] 61%|██████    | 225901/371472 [6:56:23<11:02:23,  3.66it/s] 61%|██████    | 225902/371472 [6:56:23<11:06:28,  3.64it/s] 61%|██████    | 225903/371472 [6:56:23<11:42:10,  3.46it/s] 61%|██████    | 225904/371472 [6:56:24<12:26:25,  3.25it/s] 61%|██████    | 225905/371472 [6:56:24<12:24:00,  3.26it/s] 61%|██████    | 225906/371472 [6:56:24<11:39:18,  3.47it/s] 61%|██████    | 225907/371472 [6:56:25<11:49:51,  3.42it/s] 61%|██████    | 225908/371472 [6:56:25<12:06:20,  3.34it/s] 61%|██████    | 225909/371472 [6:56:25<11:52:23,  3.41it/s] 61%|██████    | 225910/371472 [6:56:26<11:54:05,  3.40it/s] 61%|██████    | 225911/371472 [6:56:26<11:32:15,  3.50it/s] 61%|██████    | 225912/371472 [6:56:26<11:49:11,  3.42it/s] 61%|██████    | 225913/371472 [6:56:26<11:33:32,  3.50it/s] 61%|██████    | 225914/371472 [6:56:27<11:22:02,  3.56it/s] 61%|██████    | 225915/371472 [6:56:27<11:21:10,  3.56it/s] 61%|██████    | 225916/371472 [6:56:27<11:05:27,  3.65it/s] 61%|██████    | 225917/371472 [6:56:28<12:28:32,  3.24it/s] 61%|██████    | 225918/371472 [6:56:28<12:34:55,  3.21it/s] 61%|██████    | 225919/371472 [6:56:28<12:50:56,  3.15it/s] 61%|██████    | 225920/371472 [6:56:29<12:37:54,  3.20it/s]                                                            {'loss': 2.6144, 'learning_rate': 4.5283242474520023e-07, 'epoch': 9.73}
 61%|██████    | 225920/371472 [6:56:29<12:37:54,  3.20it/s] 61%|██████    | 225921/371472 [6:56:29<12:42:21,  3.18it/s] 61%|██████    | 225922/371472 [6:56:29<12:18:50,  3.28it/s] 61%|██████    | 225923/371472 [6:56:29<12:07:21,  3.34it/s] 61%|██████    | 225924/371472 [6:56:30<12:16:36,  3.29it/s] 61%|██████    | 225925/371472 [6:56:30<11:52:41,  3.40it/s] 61%|██████    | 225926/371472 [6:56:30<11:41:52,  3.46it/s] 61%|██████    | 225927/371472 [6:56:31<11:22:15,  3.56it/s] 61%|██████    | 225928/371472 [6:56:31<11:08:41,  3.63it/s] 61%|██████    | 225929/371472 [6:56:31<10:57:01,  3.69it/s] 61%|██████    | 225930/371472 [6:56:31<11:48:14,  3.42it/s] 61%|██████    | 225931/371472 [6:56:32<11:59:18,  3.37it/s] 61%|██████    | 225932/371472 [6:56:32<12:12:01,  3.31it/s] 61%|██████    | 225933/371472 [6:56:32<11:59:04,  3.37it/s] 61%|██████    | 225934/371472 [6:56:33<11:48:21,  3.42it/s] 61%|██████    | 225935/371472 [6:56:33<11:46:58,  3.43it/s] 61%|██████    | 225936/371472 [6:56:33<12:01:14,  3.36it/s] 61%|██████    | 225937/371472 [6:56:33<11:32:24,  3.50it/s] 61%|██████    | 225938/371472 [6:56:34<11:51:21,  3.41it/s] 61%|██████    | 225939/371472 [6:56:34<11:25:48,  3.54it/s] 61%|██████    | 225940/371472 [6:56:34<11:26:36,  3.53it/s]                                                            {'loss': 3.0435, 'learning_rate': 4.5278394276972135e-07, 'epoch': 9.73}
 61%|██████    | 225940/371472 [6:56:34<11:26:36,  3.53it/s] 61%|██████    | 225941/371472 [6:56:35<11:09:44,  3.62it/s] 61%|██████    | 225942/371472 [6:56:35<11:11:29,  3.61it/s] 61%|██████    | 225943/371472 [6:56:35<11:17:18,  3.58it/s] 61%|██████    | 225944/371472 [6:56:35<11:18:27,  3.57it/s] 61%|██████    | 225945/371472 [6:56:36<11:30:40,  3.51it/s] 61%|██████    | 225946/371472 [6:56:36<11:16:24,  3.59it/s] 61%|██████    | 225947/371472 [6:56:36<11:47:27,  3.43it/s] 61%|██████    | 225948/371472 [6:56:37<11:35:40,  3.49it/s] 61%|██████    | 225949/371472 [6:56:37<11:32:39,  3.50it/s] 61%|██████    | 225950/371472 [6:56:37<11:41:12,  3.46it/s] 61%|██████    | 225951/371472 [6:56:38<12:38:10,  3.20it/s] 61%|██████    | 225952/371472 [6:56:38<13:54:12,  2.91it/s] 61%|██████    | 225953/371472 [6:56:38<13:21:09,  3.03it/s] 61%|██████    | 225954/371472 [6:56:38<12:20:00,  3.28it/s] 61%|██████    | 225955/371472 [6:56:39<12:42:03,  3.18it/s] 61%|██████    | 225956/371472 [6:56:39<12:29:14,  3.24it/s] 61%|██████    | 225957/371472 [6:56:39<12:30:22,  3.23it/s] 61%|██████    | 225958/371472 [6:56:40<11:53:20,  3.40it/s] 61%|██████    | 225959/371472 [6:56:40<11:50:21,  3.41it/s] 61%|██████    | 225960/371472 [6:56:40<11:43:26,  3.45it/s]                                                            {'loss': 2.8213, 'learning_rate': 4.527354607942424e-07, 'epoch': 9.73}
 61%|██████    | 225960/371472 [6:56:40<11:43:26,  3.45it/s] 61%|██████    | 225961/371472 [6:56:41<11:46:59,  3.43it/s] 61%|██████    | 225962/371472 [6:56:41<11:29:36,  3.52it/s] 61%|██████    | 225963/371472 [6:56:41<12:01:19,  3.36it/s] 61%|██████    | 225964/371472 [6:56:41<11:46:34,  3.43it/s] 61%|██████    | 225965/371472 [6:56:42<11:37:08,  3.48it/s] 61%|██████    | 225966/371472 [6:56:42<11:35:54,  3.48it/s] 61%|██████    | 225967/371472 [6:56:42<11:28:34,  3.52it/s] 61%|██████    | 225968/371472 [6:56:43<11:11:03,  3.61it/s] 61%|██████    | 225969/371472 [6:56:43<11:20:54,  3.56it/s] 61%|██████    | 225970/371472 [6:56:43<11:07:50,  3.63it/s] 61%|██████    | 225971/371472 [6:56:43<10:52:32,  3.72it/s] 61%|██████    | 225972/371472 [6:56:44<10:57:54,  3.69it/s] 61%|██████    | 225973/371472 [6:56:44<10:33:56,  3.83it/s] 61%|██████    | 225974/371472 [6:56:44<14:12:24,  2.84it/s] 61%|██████    | 225975/371472 [6:56:45<13:26:47,  3.01it/s] 61%|██████    | 225976/371472 [6:56:45<13:37:47,  2.97it/s] 61%|██████    | 225977/371472 [6:56:45<13:28:37,  3.00it/s] 61%|██████    | 225978/371472 [6:56:46<12:32:21,  3.22it/s] 61%|██████    | 225979/371472 [6:56:46<12:00:15,  3.37it/s] 61%|██████    | 225980/371472 [6:56:46<11:34:00,  3.49it/s]                                                            {'loss': 2.807, 'learning_rate': 4.526869788187636e-07, 'epoch': 9.73}
 61%|██████    | 225980/371472 [6:56:46<11:34:00,  3.49it/s] 61%|██████    | 225981/371472 [6:56:46<11:17:29,  3.58it/s] 61%|██████    | 225982/371472 [6:56:47<11:12:40,  3.60it/s] 61%|██████    | 225983/371472 [6:56:47<10:59:09,  3.68it/s] 61%|██████    | 225984/371472 [6:56:47<11:17:13,  3.58it/s] 61%|██████    | 225985/371472 [6:56:47<11:09:54,  3.62it/s] 61%|██████    | 225986/371472 [6:56:48<11:39:25,  3.47it/s] 61%|██████    | 225987/371472 [6:56:48<11:32:59,  3.50it/s] 61%|██████    | 225988/371472 [6:56:48<11:38:45,  3.47it/s] 61%|██████    | 225989/371472 [6:56:49<11:33:22,  3.50it/s] 61%|██████    | 225990/371472 [6:56:49<11:25:05,  3.54it/s] 61%|██████    | 225991/371472 [6:56:49<11:30:07,  3.51it/s] 61%|██████    | 225992/371472 [6:56:50<12:06:19,  3.34it/s] 61%|██████    | 225993/371472 [6:56:50<12:16:26,  3.29it/s] 61%|██████    | 225994/371472 [6:56:50<11:32:13,  3.50it/s] 61%|██████    | 225995/371472 [6:56:50<11:21:20,  3.56it/s] 61%|██████    | 225996/371472 [6:56:51<11:27:53,  3.52it/s] 61%|██████    | 225997/371472 [6:56:51<11:52:12,  3.40it/s] 61%|██████    | 225998/371472 [6:56:51<12:03:50,  3.35it/s] 61%|██████    | 225999/371472 [6:56:52<12:22:08,  3.27it/s] 61%|██████    | 226000/371472 [6:56:52<12:15:39,  3.30it/s]                                                            {'loss': 2.8861, 'learning_rate': 4.526384968432846e-07, 'epoch': 9.73}
 61%|██████    | 226000/371472 [6:56:52<12:15:39,  3.30it/s] 61%|██████    | 226001/371472 [6:56:52<12:11:40,  3.31it/s] 61%|██████    | 226002/371472 [6:56:52<11:27:53,  3.52it/s] 61%|██████    | 226003/371472 [6:56:53<11:22:34,  3.55it/s] 61%|██████    | 226004/371472 [6:56:53<11:47:27,  3.43it/s] 61%|██████    | 226005/371472 [6:56:53<11:42:58,  3.45it/s] 61%|██████    | 226006/371472 [6:56:54<11:08:31,  3.63it/s] 61%|██████    | 226007/371472 [6:56:54<11:14:11,  3.60it/s] 61%|██████    | 226008/371472 [6:56:54<10:54:21,  3.71it/s] 61%|██████    | 226009/371472 [6:56:54<11:13:36,  3.60it/s] 61%|██████    | 226010/371472 [6:56:55<10:51:12,  3.72it/s] 61%|██████    | 226011/371472 [6:56:55<10:44:32,  3.76it/s] 61%|██████    | 226012/371472 [6:56:55<10:51:15,  3.72it/s] 61%|██████    | 226013/371472 [6:56:55<11:03:13,  3.66it/s] 61%|██████    | 226014/371472 [6:56:56<11:19:24,  3.57it/s] 61%|██████    | 226015/371472 [6:56:56<11:02:23,  3.66it/s] 61%|██████    | 226016/371472 [6:56:56<10:53:06,  3.71it/s] 61%|██████    | 226017/371472 [6:56:57<11:00:37,  3.67it/s] 61%|██████    | 226018/371472 [6:56:57<11:12:06,  3.61it/s] 61%|██████    | 226019/371472 [6:56:57<11:20:50,  3.56it/s] 61%|██████    | 226020/371472 [6:56:57<11:16:41,  3.58it/s]                                                            {'loss': 3.0023, 'learning_rate': 4.525900148678058e-07, 'epoch': 9.74}
 61%|██████    | 226020/371472 [6:56:57<11:16:41,  3.58it/s] 61%|██████    | 226021/371472 [6:56:58<11:09:20,  3.62it/s] 61%|██████    | 226022/371472 [6:56:58<10:55:42,  3.70it/s] 61%|██████    | 226023/371472 [6:56:58<11:36:42,  3.48it/s] 61%|██████    | 226024/371472 [6:56:59<11:05:15,  3.64it/s] 61%|██████    | 226025/371472 [6:56:59<11:19:15,  3.57it/s] 61%|██████    | 226026/371472 [6:56:59<11:04:16,  3.65it/s] 61%|██████    | 226027/371472 [6:56:59<10:55:56,  3.70it/s] 61%|██████    | 226028/371472 [6:57:00<11:03:10,  3.66it/s] 61%|██████    | 226029/371472 [6:57:00<10:46:09,  3.75it/s] 61%|██████    | 226030/371472 [6:57:00<10:56:20,  3.69it/s] 61%|██████    | 226031/371472 [6:57:00<10:56:57,  3.69it/s] 61%|██████    | 226032/371472 [6:57:01<11:13:02,  3.60it/s] 61%|██████    | 226033/371472 [6:57:01<10:56:14,  3.69it/s] 61%|██████    | 226034/371472 [6:57:01<10:43:16,  3.77it/s] 61%|██████    | 226035/371472 [6:57:02<11:06:17,  3.64it/s] 61%|██████    | 226036/371472 [6:57:02<11:30:24,  3.51it/s] 61%|██████    | 226037/371472 [6:57:02<11:28:02,  3.52it/s] 61%|██████    | 226038/371472 [6:57:02<11:18:03,  3.57it/s] 61%|██████    | 226039/371472 [6:57:03<11:33:00,  3.50it/s] 61%|██████    | 226040/371472 [6:57:03<11:30:46,  3.51it/s]                                                            {'loss': 2.8691, 'learning_rate': 4.5254153289232687e-07, 'epoch': 9.74}
 61%|██████    | 226040/371472 [6:57:03<11:30:46,  3.51it/s] 61%|██████    | 226041/371472 [6:57:03<11:40:08,  3.46it/s] 61%|██████    | 226042/371472 [6:57:04<11:12:35,  3.60it/s] 61%|██████    | 226043/371472 [6:57:04<11:45:29,  3.44it/s] 61%|██████    | 226044/371472 [6:57:04<12:00:22,  3.36it/s] 61%|██████    | 226045/371472 [6:57:04<12:13:14,  3.31it/s] 61%|██████    | 226046/371472 [6:57:05<12:27:29,  3.24it/s] 61%|██████    | 226047/371472 [6:57:05<11:53:29,  3.40it/s] 61%|██████    | 226048/371472 [6:57:05<11:46:00,  3.43it/s] 61%|██████    | 226049/371472 [6:57:06<11:40:58,  3.46it/s] 61%|██████    | 226050/371472 [6:57:06<11:44:30,  3.44it/s] 61%|██████    | 226051/371472 [6:57:06<12:12:57,  3.31it/s] 61%|██████    | 226052/371472 [6:57:07<11:58:00,  3.38it/s] 61%|██████    | 226053/371472 [6:57:07<12:07:06,  3.33it/s] 61%|██████    | 226054/371472 [6:57:07<12:09:01,  3.32it/s] 61%|██████    | 226055/371472 [6:57:07<12:39:46,  3.19it/s] 61%|██████    | 226056/371472 [6:57:08<12:19:44,  3.28it/s] 61%|██████    | 226057/371472 [6:57:08<12:36:50,  3.20it/s] 61%|██████    | 226058/371472 [6:57:08<11:57:40,  3.38it/s] 61%|██████    | 226059/371472 [6:57:09<12:12:39,  3.31it/s] 61%|██████    | 226060/371472 [6:57:09<11:37:05,  3.48it/s]                                                            {'loss': 2.8402, 'learning_rate': 4.52493050916848e-07, 'epoch': 9.74}
 61%|██████    | 226060/371472 [6:57:09<11:37:05,  3.48it/s] 61%|██████    | 226061/371472 [6:57:09<11:21:35,  3.56it/s] 61%|██████    | 226062/371472 [6:57:09<11:14:18,  3.59it/s] 61%|██████    | 226063/371472 [6:57:10<11:13:43,  3.60it/s] 61%|██████    | 226064/371472 [6:57:10<11:57:06,  3.38it/s] 61%|██████    | 226065/371472 [6:57:10<11:37:57,  3.47it/s] 61%|██████    | 226066/371472 [6:57:11<11:11:37,  3.61it/s] 61%|██████    | 226067/371472 [6:57:11<11:13:15,  3.60it/s] 61%|██████    | 226068/371472 [6:57:11<11:07:02,  3.63it/s] 61%|██████    | 226069/371472 [6:57:11<11:31:41,  3.50it/s] 61%|██████    | 226070/371472 [6:57:12<11:16:11,  3.58it/s] 61%|██████    | 226071/371472 [6:57:12<11:58:24,  3.37it/s] 61%|██████    | 226072/371472 [6:57:12<12:24:28,  3.26it/s] 61%|██████    | 226073/371472 [6:57:13<11:55:52,  3.39it/s] 61%|██████    | 226074/371472 [6:57:13<11:29:38,  3.51it/s] 61%|██████    | 226075/371472 [6:57:13<11:55:19,  3.39it/s] 61%|██████    | 226076/371472 [6:57:14<11:45:00,  3.44it/s] 61%|██████    | 226077/371472 [6:57:14<11:39:42,  3.46it/s] 61%|██████    | 226078/371472 [6:57:14<11:15:31,  3.59it/s] 61%|██████    | 226079/371472 [6:57:14<10:57:33,  3.69it/s] 61%|██████    | 226080/371472 [6:57:15<10:54:23,  3.70it/s]                                                            {'loss': 3.0131, 'learning_rate': 4.5244456894136907e-07, 'epoch': 9.74}
 61%|██████    | 226080/371472 [6:57:15<10:54:23,  3.70it/s] 61%|██████    | 226081/371472 [6:57:15<10:44:47,  3.76it/s] 61%|██████    | 226082/371472 [6:57:15<12:07:55,  3.33it/s] 61%|██████    | 226083/371472 [6:57:16<12:12:19,  3.31it/s] 61%|██████    | 226084/371472 [6:57:16<12:58:47,  3.11it/s] 61%|██████    | 226085/371472 [6:57:16<12:33:22,  3.22it/s] 61%|██████    | 226086/371472 [6:57:16<12:44:39,  3.17it/s] 61%|██████    | 226087/371472 [6:57:17<12:14:29,  3.30it/s] 61%|██████    | 226088/371472 [6:57:17<12:40:23,  3.19it/s] 61%|██████    | 226089/371472 [6:57:17<12:04:18,  3.35it/s] 61%|██████    | 226090/371472 [6:57:18<12:22:55,  3.26it/s] 61%|██████    | 226091/371472 [6:57:18<11:53:29,  3.40it/s] 61%|██████    | 226092/371472 [6:57:18<11:37:00,  3.48it/s] 61%|██████    | 226093/371472 [6:57:19<11:20:53,  3.56it/s] 61%|██████    | 226094/371472 [6:57:19<11:26:35,  3.53it/s] 61%|██████    | 226095/371472 [6:57:19<11:18:14,  3.57it/s] 61%|██████    | 226096/371472 [6:57:19<11:28:06,  3.52it/s] 61%|██████    | 226097/371472 [6:57:20<11:36:01,  3.48it/s] 61%|██████    | 226098/371472 [6:57:20<11:27:22,  3.52it/s] 61%|██████    | 226099/371472 [6:57:20<11:32:28,  3.50it/s] 61%|██████    | 226100/371472 [6:57:21<11:28:18,  3.52it/s]                                                            {'loss': 2.9312, 'learning_rate': 4.5239608696589024e-07, 'epoch': 9.74}
 61%|██████    | 226100/371472 [6:57:21<11:28:18,  3.52it/s] 61%|██████    | 226101/371472 [6:57:21<11:57:13,  3.38it/s] 61%|██████    | 226102/371472 [6:57:21<12:31:30,  3.22it/s] 61%|██████    | 226103/371472 [6:57:21<12:38:25,  3.19it/s] 61%|██████    | 226104/371472 [6:57:22<12:03:35,  3.35it/s] 61%|██████    | 226105/371472 [6:57:22<12:13:29,  3.30it/s] 61%|██████    | 226106/371472 [6:57:22<12:11:39,  3.31it/s] 61%|██████    | 226107/371472 [6:57:23<11:50:04,  3.41it/s] 61%|██████    | 226108/371472 [6:57:23<11:46:11,  3.43it/s] 61%|██████    | 226109/371472 [6:57:23<11:38:08,  3.47it/s] 61%|██████    | 226110/371472 [6:57:23<11:20:21,  3.56it/s] 61%|██████    | 226111/371472 [6:57:24<11:10:23,  3.61it/s] 61%|██████    | 226112/371472 [6:57:24<11:27:12,  3.53it/s] 61%|██████    | 226113/371472 [6:57:24<11:13:12,  3.60it/s] 61%|██████    | 226114/371472 [6:57:25<11:16:43,  3.58it/s] 61%|██████    | 226115/371472 [6:57:25<11:31:30,  3.50it/s] 61%|██████    | 226116/371472 [6:57:25<11:40:17,  3.46it/s] 61%|██████    | 226117/371472 [6:57:25<11:02:09,  3.66it/s] 61%|██████    | 226118/371472 [6:57:26<10:41:02,  3.78it/s] 61%|██████    | 226119/371472 [6:57:26<10:25:34,  3.87it/s] 61%|██████    | 226120/371472 [6:57:26<10:57:06,  3.69it/s]                                                            {'loss': 2.9153, 'learning_rate': 4.523476049904113e-07, 'epoch': 9.74}
 61%|██████    | 226120/371472 [6:57:26<10:57:06,  3.69it/s] 61%|██████    | 226121/371472 [6:57:27<11:36:12,  3.48it/s] 61%|██████    | 226122/371472 [6:57:27<11:42:48,  3.45it/s] 61%|██████    | 226123/371472 [6:57:27<11:21:30,  3.55it/s] 61%|██████    | 226124/371472 [6:57:27<10:48:01,  3.74it/s] 61%|██████    | 226125/371472 [6:57:28<10:41:14,  3.78it/s] 61%|██████    | 226126/371472 [6:57:28<10:50:57,  3.72it/s] 61%|██████    | 226127/371472 [6:57:28<11:54:14,  3.39it/s] 61%|██████    | 226128/371472 [6:57:28<11:27:51,  3.52it/s] 61%|██████    | 226129/371472 [6:57:29<11:53:30,  3.40it/s] 61%|██████    | 226130/371472 [6:57:29<12:31:50,  3.22it/s] 61%|██████    | 226131/371472 [6:57:29<11:50:00,  3.41it/s] 61%|██████    | 226132/371472 [6:57:30<11:49:27,  3.41it/s] 61%|██████    | 226133/371472 [6:57:30<11:43:16,  3.44it/s] 61%|██████    | 226134/371472 [6:57:30<11:24:07,  3.54it/s] 61%|██████    | 226135/371472 [6:57:31<11:12:10,  3.60it/s] 61%|██████    | 226136/371472 [6:57:31<11:44:24,  3.44it/s] 61%|██████    | 226137/371472 [6:57:31<11:23:27,  3.54it/s] 61%|██████    | 226138/371472 [6:57:31<10:59:19,  3.67it/s] 61%|██████    | 226139/371472 [6:57:32<10:46:08,  3.75it/s] 61%|██████    | 226140/371472 [6:57:32<10:49:56,  3.73it/s]                                                            {'loss': 2.7758, 'learning_rate': 4.5229912301493244e-07, 'epoch': 9.74}
 61%|██████    | 226140/371472 [6:57:32<10:49:56,  3.73it/s] 61%|██████    | 226141/371472 [6:57:32<11:16:34,  3.58it/s] 61%|██████    | 226142/371472 [6:57:32<10:58:14,  3.68it/s] 61%|██████    | 226143/371472 [6:57:33<11:04:09,  3.65it/s] 61%|██████    | 226144/371472 [6:57:33<11:09:49,  3.62it/s] 61%|██████    | 226145/371472 [6:57:33<11:14:33,  3.59it/s] 61%|██████    | 226146/371472 [6:57:34<12:21:33,  3.27it/s] 61%|██████    | 226147/371472 [6:57:34<12:11:47,  3.31it/s] 61%|██████    | 226148/371472 [6:57:34<11:53:33,  3.39it/s] 61%|██████    | 226149/371472 [6:57:35<11:55:49,  3.38it/s] 61%|██████    | 226150/371472 [6:57:35<11:46:31,  3.43it/s] 61%|██████    | 226151/371472 [6:57:35<11:44:06,  3.44it/s] 61%|██████    | 226152/371472 [6:57:35<11:24:38,  3.54it/s] 61%|██████    | 226153/371472 [6:57:36<11:00:41,  3.67it/s] 61%|██████    | 226154/371472 [6:57:36<10:40:40,  3.78it/s] 61%|██████    | 226155/371472 [6:57:36<10:50:34,  3.72it/s] 61%|██████    | 226156/371472 [6:57:36<10:51:12,  3.72it/s] 61%|██████    | 226157/371472 [6:57:37<11:01:07,  3.66it/s] 61%|██████    | 226158/371472 [6:57:37<11:57:22,  3.38it/s] 61%|██████    | 226159/371472 [6:57:37<11:37:14,  3.47it/s] 61%|██████    | 226160/371472 [6:57:38<12:04:57,  3.34it/s]                                                            {'loss': 3.0098, 'learning_rate': 4.522506410394535e-07, 'epoch': 9.74}
 61%|██████    | 226160/371472 [6:57:38<12:04:57,  3.34it/s] 61%|██████    | 226161/371472 [6:57:38<11:39:46,  3.46it/s] 61%|██████    | 226162/371472 [6:57:38<11:26:56,  3.53it/s] 61%|██████    | 226163/371472 [6:57:38<11:11:48,  3.60it/s] 61%|██████    | 226164/371472 [6:57:39<11:09:57,  3.61it/s] 61%|██████    | 226165/371472 [6:57:39<10:54:08,  3.70it/s] 61%|██████    | 226166/371472 [6:57:39<10:42:07,  3.77it/s] 61%|██████    | 226167/371472 [6:57:39<10:55:07,  3.70it/s] 61%|██████    | 226168/371472 [6:57:40<11:07:48,  3.63it/s] 61%|██████    | 226169/371472 [6:57:40<10:52:00,  3.71it/s] 61%|██████    | 226170/371472 [6:57:40<10:51:36,  3.72it/s] 61%|██████    | 226171/371472 [6:57:41<10:40:53,  3.78it/s] 61%|██████    | 226172/371472 [6:57:41<11:14:23,  3.59it/s] 61%|██████    | 226173/371472 [6:57:41<11:05:34,  3.64it/s] 61%|██████    | 226174/371472 [6:57:41<11:25:52,  3.53it/s] 61%|██████    | 226175/371472 [6:57:42<11:29:33,  3.51it/s] 61%|██████    | 226176/371472 [6:57:42<11:19:37,  3.56it/s] 61%|██████    | 226177/371472 [6:57:42<11:02:31,  3.66it/s] 61%|██████    | 226178/371472 [6:57:43<11:04:40,  3.64it/s] 61%|██████    | 226179/371472 [6:57:43<10:55:42,  3.69it/s] 61%|██████    | 226180/371472 [6:57:43<10:55:28,  3.69it/s]                                                            {'loss': 3.1328, 'learning_rate': 4.522021590639747e-07, 'epoch': 9.74}
 61%|██████    | 226180/371472 [6:57:43<10:55:28,  3.69it/s] 61%|██████    | 226181/371472 [6:57:43<10:52:49,  3.71it/s] 61%|██████    | 226182/371472 [6:57:44<10:48:20,  3.73it/s] 61%|██████    | 226183/371472 [6:57:44<11:17:54,  3.57it/s] 61%|██████    | 226184/371472 [6:57:44<11:06:26,  3.63it/s] 61%|██████    | 226185/371472 [6:57:44<11:04:42,  3.64it/s] 61%|██████    | 226186/371472 [6:57:45<11:11:17,  3.61it/s] 61%|██████    | 226187/371472 [6:57:45<11:16:01,  3.58it/s] 61%|██████    | 226188/371472 [6:57:45<11:33:38,  3.49it/s] 61%|██████    | 226189/371472 [6:57:46<11:29:24,  3.51it/s] 61%|██████    | 226190/371472 [6:57:46<11:01:24,  3.66it/s] 61%|██████    | 226191/371472 [6:57:46<10:52:28,  3.71it/s] 61%|██████    | 226192/371472 [6:57:46<12:04:03,  3.34it/s] 61%|██████    | 226193/371472 [6:57:47<11:30:58,  3.50it/s] 61%|██████    | 226194/371472 [6:57:47<11:10:54,  3.61it/s] 61%|██████    | 226195/371472 [6:57:47<11:32:46,  3.50it/s] 61%|██████    | 226196/371472 [6:57:48<11:01:23,  3.66it/s] 61%|██████    | 226197/371472 [6:57:48<11:30:15,  3.51it/s] 61%|██████    | 226198/371472 [6:57:48<11:07:59,  3.62it/s] 61%|██████    | 226199/371472 [6:57:48<10:50:06,  3.72it/s] 61%|██████    | 226200/371472 [6:57:49<11:06:04,  3.64it/s]                                                            {'loss': 2.8708, 'learning_rate': 4.521536770884957e-07, 'epoch': 9.74}
 61%|██████    | 226200/371472 [6:57:49<11:06:04,  3.64it/s] 61%|██████    | 226201/371472 [6:57:49<11:32:38,  3.50it/s] 61%|██████    | 226202/371472 [6:57:49<12:20:59,  3.27it/s] 61%|██████    | 226203/371472 [6:57:50<12:20:36,  3.27it/s] 61%|██████    | 226204/371472 [6:57:50<12:20:12,  3.27it/s] 61%|██████    | 226205/371472 [6:57:50<12:06:23,  3.33it/s] 61%|██████    | 226206/371472 [6:57:50<12:16:00,  3.29it/s] 61%|██████    | 226207/371472 [6:57:51<12:25:45,  3.25it/s] 61%|██████    | 226208/371472 [6:57:51<12:22:14,  3.26it/s] 61%|██████    | 226209/371472 [6:57:51<12:02:23,  3.35it/s] 61%|██████    | 226210/371472 [6:57:52<11:34:41,  3.49it/s] 61%|██████    | 226211/371472 [6:57:52<11:40:25,  3.46it/s] 61%|██████    | 226212/371472 [6:57:52<11:28:58,  3.51it/s] 61%|██████    | 226213/371472 [6:57:53<11:45:41,  3.43it/s] 61%|██████    | 226214/371472 [6:57:53<11:53:37,  3.39it/s] 61%|██████    | 226215/371472 [6:57:53<11:50:09,  3.41it/s] 61%|██████    | 226216/371472 [6:57:53<11:38:00,  3.47it/s] 61%|██████    | 226217/371472 [6:57:54<11:17:26,  3.57it/s] 61%|██████    | 226218/371472 [6:57:54<11:05:55,  3.64it/s] 61%|██████    | 226219/371472 [6:57:54<11:59:41,  3.36it/s] 61%|██████    | 226220/371472 [6:57:55<11:29:55,  3.51it/s]                                                            {'loss': 2.7554, 'learning_rate': 4.521051951130169e-07, 'epoch': 9.74}
 61%|██████    | 226220/371472 [6:57:55<11:29:55,  3.51it/s] 61%|██████    | 226221/371472 [6:57:55<11:21:26,  3.55it/s] 61%|██████    | 226222/371472 [6:57:55<11:18:46,  3.57it/s] 61%|██████    | 226223/371472 [6:57:55<12:01:34,  3.35it/s] 61%|██████    | 226224/371472 [6:57:56<12:00:07,  3.36it/s] 61%|██████    | 226225/371472 [6:57:56<11:44:20,  3.44it/s] 61%|██████    | 226226/371472 [6:57:56<11:31:59,  3.50it/s] 61%|██████    | 226227/371472 [6:57:57<12:18:56,  3.28it/s] 61%|██████    | 226228/371472 [6:57:57<12:01:15,  3.36it/s] 61%|██████    | 226229/371472 [6:57:57<12:01:06,  3.36it/s] 61%|██████    | 226230/371472 [6:57:57<11:29:27,  3.51it/s] 61%|██████    | 226231/371472 [6:57:58<11:29:38,  3.51it/s] 61%|██████    | 226232/371472 [6:57:58<11:10:08,  3.61it/s] 61%|██████    | 226233/371472 [6:57:58<11:35:29,  3.48it/s] 61%|██████    | 226234/371472 [6:57:59<10:57:18,  3.68it/s] 61%|██████    | 226235/371472 [6:57:59<10:37:05,  3.80it/s] 61%|██████    | 226236/371472 [6:57:59<10:37:14,  3.80it/s] 61%|██████    | 226237/371472 [6:57:59<10:44:38,  3.75it/s] 61%|██████    | 226238/371472 [6:58:00<10:34:16,  3.82it/s] 61%|██████    | 226239/371472 [6:58:00<11:19:51,  3.56it/s] 61%|██████    | 226240/371472 [6:58:00<10:48:21,  3.73it/s]                                                            {'loss': 2.9487, 'learning_rate': 4.5205671313753795e-07, 'epoch': 9.74}
 61%|██████    | 226240/371472 [6:58:00<10:48:21,  3.73it/s] 61%|██████    | 226241/371472 [6:58:00<10:48:06,  3.73it/s] 61%|██████    | 226242/371472 [6:58:01<10:32:25,  3.83it/s] 61%|██████    | 226243/371472 [6:58:01<11:03:33,  3.65it/s] 61%|██████    | 226244/371472 [6:58:01<12:50:08,  3.14it/s] 61%|██████    | 226245/371472 [6:58:02<12:03:41,  3.34it/s] 61%|██████    | 226246/371472 [6:58:02<11:40:26,  3.46it/s] 61%|██████    | 226247/371472 [6:58:02<11:30:36,  3.50it/s] 61%|██████    | 226248/371472 [6:58:02<11:37:06,  3.47it/s] 61%|██████    | 226249/371472 [6:58:03<11:44:37,  3.44it/s] 61%|██████    | 226250/371472 [6:58:03<11:20:15,  3.56it/s] 61%|██████    | 226251/371472 [6:58:03<11:15:25,  3.58it/s] 61%|██████    | 226252/371472 [6:58:04<11:38:40,  3.46it/s] 61%|██████    | 226253/371472 [6:58:04<14:28:26,  2.79it/s] 61%|██████    | 226254/371472 [6:58:04<13:16:09,  3.04it/s] 61%|██████    | 226255/371472 [6:58:05<12:55:57,  3.12it/s] 61%|██████    | 226256/371472 [6:58:05<13:13:54,  3.05it/s] 61%|██████    | 226257/371472 [6:58:05<12:47:19,  3.15it/s] 61%|██████    | 226258/371472 [6:58:06<11:55:42,  3.38it/s] 61%|██████    | 226259/371472 [6:58:06<11:35:10,  3.48it/s] 61%|██████    | 226260/371472 [6:58:06<11:23:10,  3.54it/s]                                                            {'loss': 2.8739, 'learning_rate': 4.5200823116205913e-07, 'epoch': 9.75}
 61%|██████    | 226260/371472 [6:58:06<11:23:10,  3.54it/s] 61%|██████    | 226261/371472 [6:58:06<12:02:47,  3.35it/s] 61%|██████    | 226262/371472 [6:58:07<11:48:32,  3.42it/s] 61%|██████    | 226263/371472 [6:58:07<11:54:49,  3.39it/s] 61%|██████    | 226264/371472 [6:58:07<11:48:23,  3.42it/s] 61%|██████    | 226265/371472 [6:58:08<12:00:13,  3.36it/s] 61%|██████    | 226266/371472 [6:58:08<11:54:59,  3.38it/s] 61%|██████    | 226267/371472 [6:58:08<12:22:16,  3.26it/s] 61%|██████    | 226268/371472 [6:58:09<12:06:18,  3.33it/s] 61%|██████    | 226269/371472 [6:58:09<11:28:05,  3.52it/s] 61%|██████    | 226270/371472 [6:58:09<11:54:17,  3.39it/s] 61%|██████    | 226271/371472 [6:58:09<12:26:15,  3.24it/s] 61%|██████    | 226272/371472 [6:58:10<12:59:12,  3.11it/s] 61%|██████    | 226273/371472 [6:58:10<12:36:15,  3.20it/s] 61%|██████    | 226274/371472 [6:58:10<12:48:42,  3.15it/s] 61%|██████    | 226275/371472 [6:58:11<11:58:57,  3.37it/s] 61%|██████    | 226276/371472 [6:58:11<11:32:43,  3.49it/s] 61%|██████    | 226277/371472 [6:58:11<10:59:22,  3.67it/s] 61%|██████    | 226278/371472 [6:58:11<11:02:48,  3.65it/s] 61%|██████    | 226279/371472 [6:58:12<10:44:41,  3.75it/s] 61%|██████    | 226280/371472 [6:58:12<11:24:32,  3.54it/s]                                                            {'loss': 3.0548, 'learning_rate': 4.5195974918658015e-07, 'epoch': 9.75}
 61%|██████    | 226280/371472 [6:58:12<11:24:32,  3.54it/s] 61%|██████    | 226281/371472 [6:58:12<11:30:28,  3.50it/s] 61%|██████    | 226282/371472 [6:58:13<11:21:10,  3.55it/s] 61%|██████    | 226283/371472 [6:58:13<11:09:41,  3.61it/s] 61%|██████    | 226284/371472 [6:58:13<10:45:31,  3.75it/s] 61%|██████    | 226285/371472 [6:58:13<11:09:11,  3.62it/s] 61%|██████    | 226286/371472 [6:58:14<11:56:05,  3.38it/s] 61%|██████    | 226287/371472 [6:58:14<11:30:52,  3.50it/s] 61%|██████    | 226288/371472 [6:58:14<11:29:09,  3.51it/s] 61%|██████    | 226289/371472 [6:58:15<11:31:24,  3.50it/s] 61%|██████    | 226290/371472 [6:58:15<11:21:32,  3.55it/s] 61%|██████    | 226291/371472 [6:58:15<11:57:30,  3.37it/s] 61%|██████    | 226292/371472 [6:58:16<13:12:07,  3.05it/s] 61%|██████    | 226293/371472 [6:58:16<12:30:39,  3.22it/s] 61%|██████    | 226294/371472 [6:58:16<11:47:54,  3.42it/s] 61%|██████    | 226295/371472 [6:58:16<11:46:45,  3.42it/s] 61%|██████    | 226296/371472 [6:58:17<12:02:15,  3.35it/s] 61%|██████    | 226297/371472 [6:58:17<12:00:41,  3.36it/s] 61%|██████    | 226298/371472 [6:58:17<11:43:03,  3.44it/s] 61%|██████    | 226299/371472 [6:58:18<11:38:28,  3.46it/s] 61%|██████    | 226300/371472 [6:58:18<12:05:07,  3.34it/s]                                                            {'loss': 3.088, 'learning_rate': 4.5191126721110133e-07, 'epoch': 9.75}
 61%|██████    | 226300/371472 [6:58:18<12:05:07,  3.34it/s] 61%|██████    | 226301/371472 [6:58:18<11:52:26,  3.40it/s] 61%|██████    | 226302/371472 [6:58:18<11:28:58,  3.51it/s] 61%|██████    | 226303/371472 [6:58:19<11:22:42,  3.54it/s] 61%|██████    | 226304/371472 [6:58:19<11:15:38,  3.58it/s] 61%|██████    | 226305/371472 [6:58:19<11:08:54,  3.62it/s] 61%|██████    | 226306/371472 [6:58:19<10:58:55,  3.67it/s] 61%|██████    | 226307/371472 [6:58:20<11:37:08,  3.47it/s] 61%|██████    | 226308/371472 [6:58:20<11:31:27,  3.50it/s] 61%|██████    | 226309/371472 [6:58:20<11:15:03,  3.58it/s] 61%|██████    | 226310/371472 [6:58:21<12:13:10,  3.30it/s] 61%|██████    | 226311/371472 [6:58:21<12:01:56,  3.35it/s] 61%|██████    | 226312/371472 [6:58:21<11:33:35,  3.49it/s] 61%|██████    | 226313/371472 [6:58:22<11:18:37,  3.57it/s] 61%|██████    | 226314/371472 [6:58:22<11:06:53,  3.63it/s] 61%|██████    | 226315/371472 [6:58:22<12:03:33,  3.34it/s] 61%|██████    | 226316/371472 [6:58:22<11:29:50,  3.51it/s] 61%|██████    | 226317/371472 [6:58:23<11:19:26,  3.56it/s] 61%|██████    | 226318/371472 [6:58:23<11:13:55,  3.59it/s] 61%|██████    | 226319/371472 [6:58:23<11:10:14,  3.61it/s] 61%|██████    | 226320/371472 [6:58:23<10:57:35,  3.68it/s]                                                            {'loss': 2.8864, 'learning_rate': 4.5186278523562235e-07, 'epoch': 9.75}
 61%|██████    | 226320/371472 [6:58:23<10:57:35,  3.68it/s] 61%|██████    | 226321/371472 [6:58:24<11:01:32,  3.66it/s] 61%|██████    | 226322/371472 [6:58:24<11:30:34,  3.50it/s] 61%|██████    | 226323/371472 [6:58:24<11:46:59,  3.42it/s] 61%|██████    | 226324/371472 [6:58:25<11:55:49,  3.38it/s] 61%|██████    | 226325/371472 [6:58:25<12:14:24,  3.29it/s] 61%|██████    | 226326/371472 [6:58:25<12:03:55,  3.34it/s] 61%|██████    | 226327/371472 [6:58:26<11:50:45,  3.40it/s] 61%|██████    | 226328/371472 [6:58:26<11:43:20,  3.44it/s] 61%|██████    | 226329/371472 [6:58:26<11:37:32,  3.47it/s] 61%|██████    | 226330/371472 [6:58:26<11:16:33,  3.58it/s] 61%|██████    | 226331/371472 [6:58:27<11:04:22,  3.64it/s] 61%|██████    | 226332/371472 [6:58:27<11:42:32,  3.44it/s] 61%|██████    | 226333/371472 [6:58:27<11:25:41,  3.53it/s] 61%|██████    | 226334/371472 [6:58:28<11:08:35,  3.62it/s] 61%|██████    | 226335/371472 [6:58:28<11:07:12,  3.63it/s] 61%|██████    | 226336/371472 [6:58:28<12:07:14,  3.33it/s] 61%|██████    | 226337/371472 [6:58:28<11:47:42,  3.42it/s] 61%|██████    | 226338/371472 [6:58:29<11:42:16,  3.44it/s] 61%|██████    | 226339/371472 [6:58:29<11:31:25,  3.50it/s] 61%|██████    | 226340/371472 [6:58:29<11:04:41,  3.64it/s]                                                            {'loss': 2.8336, 'learning_rate': 4.518143032601435e-07, 'epoch': 9.75}
 61%|██████    | 226340/371472 [6:58:29<11:04:41,  3.64it/s] 61%|██████    | 226341/371472 [6:58:29<10:37:39,  3.79it/s] 61%|██████    | 226342/371472 [6:58:30<10:16:34,  3.92it/s] 61%|██████    | 226343/371472 [6:58:30<11:10:16,  3.61it/s] 61%|██████    | 226344/371472 [6:58:30<11:38:43,  3.46it/s] 61%|██████    | 226345/371472 [6:58:31<11:16:39,  3.57it/s] 61%|██████    | 226346/371472 [6:58:31<12:33:25,  3.21it/s] 61%|██████    | 226347/371472 [6:58:31<12:04:51,  3.34it/s] 61%|██████    | 226348/371472 [6:58:32<11:47:24,  3.42it/s] 61%|██████    | 226349/371472 [6:58:32<12:39:20,  3.19it/s] 61%|██████    | 226350/371472 [6:58:32<12:15:17,  3.29it/s] 61%|██████    | 226351/371472 [6:58:32<11:45:32,  3.43it/s] 61%|██████    | 226352/371472 [6:58:33<11:34:21,  3.48it/s] 61%|██████    | 226353/371472 [6:58:33<11:13:32,  3.59it/s] 61%|██████    | 226354/371472 [6:58:33<11:20:32,  3.55it/s] 61%|██████    | 226355/371472 [6:58:34<11:48:02,  3.42it/s] 61%|██████    | 226356/371472 [6:58:34<11:54:41,  3.38it/s] 61%|██████    | 226357/371472 [6:58:34<11:24:41,  3.53it/s] 61%|██████    | 226358/371472 [6:58:34<12:05:26,  3.33it/s] 61%|██████    | 226359/371472 [6:58:35<11:55:21,  3.38it/s] 61%|██████    | 226360/371472 [6:58:35<11:35:58,  3.48it/s]                                                            {'loss': 3.0487, 'learning_rate': 4.517658212846646e-07, 'epoch': 9.75}
 61%|██████    | 226360/371472 [6:58:35<11:35:58,  3.48it/s] 61%|██████    | 226361/371472 [6:58:35<11:38:47,  3.46it/s] 61%|██████    | 226362/371472 [6:58:36<11:24:32,  3.53it/s] 61%|██████    | 226363/371472 [6:58:36<11:34:48,  3.48it/s] 61%|██████    | 226364/371472 [6:58:36<11:15:12,  3.58it/s] 61%|██████    | 226365/371472 [6:58:36<10:54:25,  3.70it/s] 61%|██████    | 226366/371472 [6:58:37<10:48:35,  3.73it/s] 61%|██████    | 226367/371472 [6:58:37<10:51:37,  3.71it/s] 61%|██████    | 226368/371472 [6:58:37<11:19:36,  3.56it/s] 61%|██████    | 226369/371472 [6:58:38<11:36:53,  3.47it/s] 61%|██████    | 226370/371472 [6:58:38<13:11:19,  3.06it/s] 61%|██████    | 226371/371472 [6:58:38<12:08:30,  3.32it/s] 61%|██████    | 226372/371472 [6:58:39<12:23:09,  3.25it/s] 61%|██████    | 226373/371472 [6:58:39<12:54:43,  3.12it/s] 61%|██████    | 226374/371472 [6:58:39<13:21:57,  3.02it/s] 61%|██████    | 226375/371472 [6:58:40<13:14:40,  3.04it/s] 61%|██████    | 226376/371472 [6:58:40<12:21:08,  3.26it/s] 61%|██████    | 226377/371472 [6:58:40<11:45:03,  3.43it/s] 61%|██████    | 226378/371472 [6:58:40<11:29:33,  3.51it/s] 61%|██████    | 226379/371472 [6:58:41<11:11:46,  3.60it/s] 61%|██████    | 226380/371472 [6:58:41<11:21:48,  3.55it/s]                                                            {'loss': 2.9973, 'learning_rate': 4.517173393091857e-07, 'epoch': 9.75}
 61%|██████    | 226380/371472 [6:58:41<11:21:48,  3.55it/s] 61%|██████    | 226381/371472 [6:58:41<11:54:59,  3.38it/s] 61%|██████    | 226382/371472 [6:58:42<12:01:30,  3.35it/s] 61%|██████    | 226383/371472 [6:58:42<11:24:06,  3.53it/s] 61%|██████    | 226384/371472 [6:58:42<11:47:11,  3.42it/s] 61%|██████    | 226385/371472 [6:58:42<12:43:26,  3.17it/s] 61%|██████    | 226386/371472 [6:58:43<12:04:36,  3.34it/s] 61%|██████    | 226387/371472 [6:58:43<11:40:35,  3.45it/s] 61%|██████    | 226388/371472 [6:58:43<11:29:57,  3.50it/s] 61%|██████    | 226389/371472 [6:58:44<11:23:05,  3.54it/s] 61%|██████    | 226390/371472 [6:58:44<11:49:46,  3.41it/s] 61%|██████    | 226391/371472 [6:58:44<11:29:42,  3.51it/s] 61%|██████    | 226392/371472 [6:58:44<11:12:02,  3.60it/s] 61%|██████    | 226393/371472 [6:58:45<12:08:49,  3.32it/s] 61%|██████    | 226394/371472 [6:58:45<11:42:08,  3.44it/s] 61%|██████    | 226395/371472 [6:58:45<11:51:56,  3.40it/s] 61%|██████    | 226396/371472 [6:58:46<12:11:34,  3.31it/s] 61%|██████    | 226397/371472 [6:58:46<12:07:51,  3.32it/s] 61%|██████    | 226398/371472 [6:58:46<12:47:21,  3.15it/s] 61%|██████    | 226399/371472 [6:58:47<12:27:28,  3.23it/s] 61%|██████    | 226400/371472 [6:58:47<12:23:54,  3.25it/s]                                                            {'loss': 2.7367, 'learning_rate': 4.516688573337068e-07, 'epoch': 9.75}
 61%|██████    | 226400/371472 [6:58:47<12:23:54,  3.25it/s] 61%|██████    | 226401/371472 [6:58:47<12:59:36,  3.10it/s] 61%|██████    | 226402/371472 [6:58:47<12:09:43,  3.31it/s] 61%|██████    | 226403/371472 [6:58:48<12:03:58,  3.34it/s] 61%|██████    | 226404/371472 [6:58:48<11:58:15,  3.37it/s] 61%|██████    | 226405/371472 [6:58:48<11:17:28,  3.57it/s] 61%|██████    | 226406/371472 [6:58:49<11:27:34,  3.52it/s] 61%|██████    | 226407/371472 [6:58:49<11:29:32,  3.51it/s] 61%|██████    | 226408/371472 [6:58:49<11:20:58,  3.55it/s] 61%|██████    | 226409/371472 [6:58:49<10:57:26,  3.68it/s] 61%|██████    | 226410/371472 [6:58:50<10:33:33,  3.82it/s] 61%|██████    | 226411/371472 [6:58:50<10:25:44,  3.86it/s] 61%|██████    | 226412/371472 [6:58:50<10:40:18,  3.78it/s] 61%|██████    | 226413/371472 [6:58:51<11:13:06,  3.59it/s] 61%|██████    | 226414/371472 [6:58:51<10:57:01,  3.68it/s] 61%|██████    | 226415/371472 [6:58:51<11:23:41,  3.54it/s] 61%|██████    | 226416/371472 [6:58:51<11:13:59,  3.59it/s] 61%|██████    | 226417/371472 [6:58:52<10:57:29,  3.68it/s] 61%|██████    | 226418/371472 [6:58:52<11:05:32,  3.63it/s] 61%|██████    | 226419/371472 [6:58:52<10:47:25,  3.73it/s] 61%|██████    | 226420/371472 [6:58:52<10:42:44,  3.76it/s]                                                            {'loss': 2.872, 'learning_rate': 4.5162037535822797e-07, 'epoch': 9.75}
 61%|██████    | 226420/371472 [6:58:52<10:42:44,  3.76it/s] 61%|██████    | 226421/371472 [6:58:53<11:01:42,  3.65it/s] 61%|██████    | 226422/371472 [6:58:53<10:48:35,  3.73it/s] 61%|██████    | 226423/371472 [6:58:53<11:06:22,  3.63it/s] 61%|██████    | 226424/371472 [6:58:54<11:14:23,  3.58it/s] 61%|██████    | 226425/371472 [6:58:54<11:31:05,  3.50it/s] 61%|██████    | 226426/371472 [6:58:54<11:17:04,  3.57it/s] 61%|██████    | 226427/371472 [6:58:54<11:27:53,  3.51it/s] 61%|██████    | 226428/371472 [6:58:55<11:18:10,  3.56it/s] 61%|██████    | 226429/371472 [6:58:55<11:12:27,  3.59it/s] 61%|██████    | 226430/371472 [6:58:55<11:10:37,  3.60it/s] 61%|██████    | 226431/371472 [6:58:55<11:18:09,  3.56it/s] 61%|██████    | 226432/371472 [6:58:56<11:07:09,  3.62it/s] 61%|██████    | 226433/371472 [6:58:56<12:11:35,  3.30it/s] 61%|██████    | 226434/371472 [6:58:56<12:02:24,  3.35it/s] 61%|██████    | 226435/371472 [6:58:57<11:37:22,  3.47it/s] 61%|██████    | 226436/371472 [6:58:57<11:51:14,  3.40it/s] 61%|██████    | 226437/371472 [6:58:57<11:22:22,  3.54it/s] 61%|██████    | 226438/371472 [6:58:58<11:53:15,  3.39it/s] 61%|██████    | 226439/371472 [6:58:58<11:54:17,  3.38it/s] 61%|██████    | 226440/371472 [6:58:58<11:32:22,  3.49it/s]                                                            {'loss': 3.033, 'learning_rate': 4.5157189338274904e-07, 'epoch': 9.75}
 61%|██████    | 226440/371472 [6:58:58<11:32:22,  3.49it/s] 61%|██████    | 226441/371472 [6:58:58<11:27:16,  3.52it/s] 61%|██████    | 226442/371472 [6:58:59<11:21:11,  3.55it/s] 61%|██████    | 226443/371472 [6:58:59<11:22:12,  3.54it/s] 61%|██████    | 226444/371472 [6:58:59<11:53:47,  3.39it/s] 61%|██████    | 226445/371472 [6:59:00<11:57:02,  3.37it/s] 61%|██████    | 226446/371472 [6:59:00<12:04:22,  3.34it/s] 61%|██████    | 226447/371472 [6:59:00<12:19:55,  3.27it/s] 61%|██████    | 226448/371472 [6:59:01<12:46:51,  3.15it/s] 61%|██████    | 226449/371472 [6:59:01<12:36:12,  3.20it/s] 61%|██████    | 226450/371472 [6:59:01<12:14:09,  3.29it/s] 61%|██████    | 226451/371472 [6:59:01<12:27:12,  3.23it/s] 61%|██████    | 226452/371472 [6:59:02<12:09:59,  3.31it/s] 61%|██████    | 226453/371472 [6:59:02<11:35:17,  3.48it/s] 61%|██████    | 226454/371472 [6:59:02<11:11:47,  3.60it/s] 61%|██████    | 226455/371472 [6:59:03<10:53:53,  3.70it/s] 61%|██████    | 226456/371472 [6:59:03<11:30:49,  3.50it/s] 61%|██████    | 226457/371472 [6:59:03<11:17:53,  3.57it/s] 61%|██████    | 226458/371472 [6:59:03<10:59:51,  3.66it/s] 61%|██████    | 226459/371472 [6:59:04<11:03:14,  3.64it/s] 61%|██████    | 226460/371472 [6:59:04<10:46:22,  3.74it/s]                                                            {'loss': 3.1051, 'learning_rate': 4.5152341140727006e-07, 'epoch': 9.75}
 61%|██████    | 226460/371472 [6:59:04<10:46:22,  3.74it/s] 61%|██████    | 226461/371472 [6:59:04<11:26:17,  3.52it/s] 61%|██████    | 226462/371472 [6:59:05<11:55:49,  3.38it/s] 61%|██████    | 226463/371472 [6:59:05<12:02:26,  3.35it/s] 61%|██████    | 226464/371472 [6:59:05<11:28:11,  3.51it/s] 61%|██████    | 226465/371472 [6:59:05<11:16:15,  3.57it/s] 61%|██████    | 226466/371472 [6:59:06<10:55:23,  3.69it/s] 61%|██████    | 226467/371472 [6:59:06<10:44:14,  3.75it/s] 61%|██████    | 226468/371472 [6:59:06<10:55:28,  3.69it/s] 61%|██████    | 226469/371472 [6:59:06<10:51:51,  3.71it/s] 61%|██████    | 226470/371472 [6:59:07<11:07:47,  3.62it/s] 61%|██████    | 226471/371472 [6:59:07<11:03:59,  3.64it/s] 61%|██████    | 226472/371472 [6:59:07<11:14:34,  3.58it/s] 61%|██████    | 226473/371472 [6:59:08<10:58:34,  3.67it/s] 61%|██████    | 226474/371472 [6:59:08<10:35:40,  3.80it/s] 61%|██████    | 226475/371472 [6:59:08<10:47:14,  3.73it/s] 61%|██████    | 226476/371472 [6:59:08<11:16:36,  3.57it/s] 61%|██████    | 226477/371472 [6:59:09<10:53:10,  3.70it/s] 61%|██████    | 226478/371472 [6:59:09<10:41:42,  3.77it/s] 61%|██████    | 226479/371472 [6:59:09<10:26:46,  3.86it/s] 61%|██████    | 226480/371472 [6:59:09<11:52:52,  3.39it/s]                                                            {'loss': 3.0134, 'learning_rate': 4.5147492943179124e-07, 'epoch': 9.75}
 61%|██████    | 226480/371472 [6:59:09<11:52:52,  3.39it/s] 61%|██████    | 226481/371472 [6:59:10<11:32:07,  3.49it/s] 61%|██████    | 226482/371472 [6:59:10<11:00:14,  3.66it/s] 61%|██████    | 226483/371472 [6:59:10<11:09:18,  3.61it/s] 61%|██████    | 226484/371472 [6:59:11<11:06:44,  3.62it/s] 61%|██████    | 226485/371472 [6:59:11<11:01:51,  3.65it/s] 61%|██████    | 226486/371472 [6:59:11<10:56:21,  3.68it/s] 61%|██████    | 226487/371472 [6:59:11<10:59:19,  3.66it/s] 61%|██████    | 226488/371472 [6:59:12<10:57:54,  3.67it/s] 61%|██████    | 226489/371472 [6:59:12<11:11:00,  3.60it/s] 61%|██████    | 226490/371472 [6:59:12<11:17:55,  3.56it/s] 61%|██████    | 226491/371472 [6:59:12<11:12:07,  3.60it/s] 61%|██████    | 226492/371472 [6:59:13<11:03:41,  3.64it/s] 61%|██████    | 226493/371472 [6:59:13<11:15:51,  3.58it/s] 61%|██████    | 226494/371472 [6:59:13<11:00:21,  3.66it/s] 61%|██████    | 226495/371472 [6:59:14<10:52:36,  3.70it/s] 61%|██████    | 226496/371472 [6:59:14<11:28:27,  3.51it/s] 61%|██████    | 226497/371472 [6:59:14<11:46:38,  3.42it/s] 61%|██████    | 226498/371472 [6:59:14<11:27:03,  3.52it/s] 61%|██████    | 226499/371472 [6:59:15<11:03:33,  3.64it/s] 61%|██████    | 226500/371472 [6:59:15<12:09:56,  3.31it/s]                                                            {'loss': 2.9302, 'learning_rate': 4.514264474563123e-07, 'epoch': 9.76}
 61%|██████    | 226500/371472 [6:59:15<12:09:56,  3.31it/s] 61%|██████    | 226501/371472 [6:59:15<11:50:53,  3.40it/s] 61%|██████    | 226502/371472 [6:59:16<11:29:04,  3.51it/s] 61%|██████    | 226503/371472 [6:59:16<12:18:39,  3.27it/s] 61%|██████    | 226504/371472 [6:59:16<12:18:48,  3.27it/s] 61%|██████    | 226505/371472 [6:59:17<12:24:08,  3.25it/s] 61%|██████    | 226506/371472 [6:59:17<12:29:41,  3.22it/s] 61%|██████    | 226507/371472 [6:59:17<12:57:26,  3.11it/s] 61%|██████    | 226508/371472 [6:59:18<12:21:45,  3.26it/s] 61%|██████    | 226509/371472 [6:59:18<12:22:40,  3.25it/s] 61%|██████    | 226510/371472 [6:59:18<12:02:02,  3.35it/s] 61%|██████    | 226511/371472 [6:59:18<11:31:05,  3.50it/s] 61%|██████    | 226512/371472 [6:59:19<11:01:55,  3.65it/s] 61%|██████    | 226513/371472 [6:59:19<10:59:11,  3.67it/s] 61%|██████    | 226514/371472 [6:59:19<11:18:22,  3.56it/s] 61%|██████    | 226515/371472 [6:59:19<10:54:38,  3.69it/s] 61%|██████    | 226516/371472 [6:59:20<10:50:07,  3.72it/s] 61%|██████    | 226517/371472 [6:59:20<11:07:15,  3.62it/s] 61%|██████    | 226518/371472 [6:59:20<11:10:06,  3.61it/s] 61%|██████    | 226519/371472 [6:59:21<10:55:49,  3.68it/s] 61%|██████    | 226520/371472 [6:59:21<11:01:57,  3.65it/s]                                                            {'loss': 2.8905, 'learning_rate': 4.5137796548083343e-07, 'epoch': 9.76}
 61%|██████    | 226520/371472 [6:59:21<11:01:57,  3.65it/s] 61%|██████    | 226521/371472 [6:59:21<11:42:16,  3.44it/s] 61%|██████    | 226522/371472 [6:59:21<12:04:28,  3.33it/s] 61%|██████    | 226523/371472 [6:59:22<13:13:36,  3.04it/s] 61%|██████    | 226524/371472 [6:59:22<12:21:59,  3.26it/s] 61%|██████    | 226525/371472 [6:59:22<11:49:57,  3.40it/s] 61%|██████    | 226526/371472 [6:59:23<11:41:44,  3.44it/s] 61%|██████    | 226527/371472 [6:59:23<11:33:44,  3.48it/s] 61%|██████    | 226528/371472 [6:59:23<11:19:50,  3.55it/s] 61%|██████    | 226529/371472 [6:59:23<10:55:30,  3.69it/s] 61%|██████    | 226530/371472 [6:59:24<11:21:27,  3.54it/s] 61%|██████    | 226531/371472 [6:59:24<11:23:31,  3.53it/s] 61%|██████    | 226532/371472 [6:59:24<11:22:57,  3.54it/s] 61%|██████    | 226533/371472 [6:59:25<11:02:02,  3.65it/s] 61%|██████    | 226534/371472 [6:59:25<11:15:21,  3.58it/s] 61%|██████    | 226535/371472 [6:59:25<11:34:33,  3.48it/s] 61%|██████    | 226536/371472 [6:59:25<11:05:10,  3.63it/s] 61%|██████    | 226537/371472 [6:59:26<10:55:57,  3.68it/s] 61%|██████    | 226538/371472 [6:59:26<10:58:06,  3.67it/s] 61%|██████    | 226539/371472 [6:59:26<11:11:02,  3.60it/s] 61%|██████    | 226540/371472 [6:59:27<13:01:52,  3.09it/s]                                                            {'loss': 2.9503, 'learning_rate': 4.513294835053545e-07, 'epoch': 9.76}
 61%|██████    | 226540/371472 [6:59:27<13:01:52,  3.09it/s] 61%|██████    | 226541/371472 [6:59:27<13:10:04,  3.06it/s] 61%|██████    | 226542/371472 [6:59:27<12:53:02,  3.12it/s] 61%|██████    | 226543/371472 [6:59:28<13:20:33,  3.02it/s] 61%|██████    | 226544/371472 [6:59:28<12:31:38,  3.21it/s] 61%|██████    | 226545/371472 [6:59:28<11:50:38,  3.40it/s] 61%|██████    | 226546/371472 [6:59:28<11:48:38,  3.41it/s] 61%|██████    | 226547/371472 [6:59:29<11:32:32,  3.49it/s] 61%|██████    | 226548/371472 [6:59:29<11:33:09,  3.48it/s] 61%|██████    | 226549/371472 [6:59:29<11:25:57,  3.52it/s] 61%|██████    | 226550/371472 [6:59:30<11:12:21,  3.59it/s] 61%|██████    | 226551/371472 [6:59:30<11:45:51,  3.42it/s] 61%|██████    | 226552/371472 [6:59:30<11:28:23,  3.51it/s] 61%|██████    | 226553/371472 [6:59:30<11:23:38,  3.53it/s] 61%|██████    | 226554/371472 [6:59:31<11:28:23,  3.51it/s] 61%|██████    | 226555/371472 [6:59:31<11:17:54,  3.56it/s] 61%|██████    | 226556/371472 [6:59:31<11:22:46,  3.54it/s] 61%|██████    | 226557/371472 [6:59:32<11:30:53,  3.50it/s] 61%|██████    | 226558/371472 [6:59:32<11:24:34,  3.53it/s] 61%|██████    | 226559/371472 [6:59:32<11:12:45,  3.59it/s] 61%|██████    | 226560/371472 [6:59:32<11:55:27,  3.38it/s]                                                            {'loss': 3.0028, 'learning_rate': 4.512810015298757e-07, 'epoch': 9.76}
 61%|██████    | 226560/371472 [6:59:32<11:55:27,  3.38it/s] 61%|██████    | 226561/371472 [6:59:33<11:23:37,  3.53it/s] 61%|██████    | 226562/371472 [6:59:33<11:21:56,  3.54it/s] 61%|██████    | 226563/371472 [6:59:33<10:56:39,  3.68it/s] 61%|██████    | 226564/371472 [6:59:34<10:53:15,  3.70it/s] 61%|██████    | 226565/371472 [6:59:34<10:51:06,  3.71it/s] 61%|██████    | 226566/371472 [6:59:34<10:45:54,  3.74it/s] 61%|██████    | 226567/371472 [6:59:34<10:42:45,  3.76it/s] 61%|██████    | 226568/371472 [6:59:35<10:28:58,  3.84it/s] 61%|██████    | 226569/371472 [6:59:35<10:19:49,  3.90it/s] 61%|██████    | 226570/371472 [6:59:35<10:34:46,  3.80it/s] 61%|██████    | 226571/371472 [6:59:35<11:12:26,  3.59it/s] 61%|██████    | 226572/371472 [6:59:36<11:11:41,  3.60it/s] 61%|██████    | 226573/371472 [6:59:36<11:02:51,  3.64it/s] 61%|██████    | 226574/371472 [6:59:36<11:29:25,  3.50it/s] 61%|██████    | 226575/371472 [6:59:37<12:15:40,  3.28it/s] 61%|██████    | 226576/371472 [6:59:37<12:00:10,  3.35it/s] 61%|██████    | 226577/371472 [6:59:37<11:44:01,  3.43it/s] 61%|██████    | 226578/371472 [6:59:37<11:22:41,  3.54it/s] 61%|██████    | 226579/371472 [6:59:38<11:09:59,  3.60it/s] 61%|██████    | 226580/371472 [6:59:38<11:33:20,  3.48it/s]                                                            {'loss': 2.9434, 'learning_rate': 4.512325195543967e-07, 'epoch': 9.76}
 61%|██████    | 226580/371472 [6:59:38<11:33:20,  3.48it/s] 61%|██████    | 226581/371472 [6:59:38<11:03:53,  3.64it/s] 61%|██████    | 226582/371472 [6:59:39<11:28:50,  3.51it/s] 61%|██████    | 226583/371472 [6:59:39<11:10:06,  3.60it/s] 61%|██████    | 226584/371472 [6:59:39<11:16:44,  3.57it/s] 61%|██████    | 226585/371472 [6:59:39<11:16:54,  3.57it/s] 61%|██████    | 226586/371472 [6:59:40<11:04:06,  3.64it/s] 61%|██████    | 226587/371472 [6:59:40<10:59:02,  3.66it/s] 61%|██████    | 226588/371472 [6:59:40<11:06:56,  3.62it/s] 61%|██████    | 226589/371472 [6:59:40<11:01:52,  3.65it/s] 61%|██████    | 226590/371472 [6:59:41<11:03:35,  3.64it/s] 61%|██████    | 226591/371472 [6:59:41<10:54:09,  3.69it/s] 61%|██████    | 226592/371472 [6:59:41<11:25:03,  3.52it/s] 61%|██████    | 226593/371472 [6:59:42<11:08:05,  3.61it/s] 61%|██████    | 226594/371472 [6:59:42<11:05:35,  3.63it/s] 61%|██████    | 226595/371472 [6:59:42<11:33:41,  3.48it/s] 61%|██████    | 226596/371472 [6:59:42<11:18:38,  3.56it/s] 61%|██████    | 226597/371472 [6:59:43<11:15:56,  3.57it/s] 61%|██████    | 226598/371472 [6:59:43<11:16:45,  3.57it/s] 61%|██████    | 226599/371472 [6:59:43<11:27:24,  3.51it/s] 61%|██████    | 226600/371472 [6:59:44<10:53:32,  3.69it/s]                                                            {'loss': 2.6865, 'learning_rate': 4.511840375789179e-07, 'epoch': 9.76}
 61%|██████    | 226600/371472 [6:59:44<10:53:32,  3.69it/s] 61%|██████    | 226601/371472 [6:59:44<10:59:16,  3.66it/s] 61%|██████    | 226602/371472 [6:59:44<11:10:54,  3.60it/s] 61%|██████    | 226603/371472 [6:59:44<11:01:06,  3.65it/s] 61%|██████    | 226604/371472 [6:59:45<11:09:16,  3.61it/s] 61%|██████    | 226605/371472 [6:59:45<11:05:26,  3.63it/s] 61%|██████    | 226606/371472 [6:59:45<13:16:04,  3.03it/s] 61%|██████    | 226607/371472 [6:59:46<12:30:23,  3.22it/s] 61%|██████    | 226608/371472 [6:59:46<12:09:12,  3.31it/s] 61%|██████    | 226609/371472 [6:59:46<12:19:57,  3.26it/s] 61%|██████    | 226610/371472 [6:59:47<11:52:19,  3.39it/s] 61%|██████    | 226611/371472 [6:59:47<11:37:33,  3.46it/s] 61%|██████    | 226612/371472 [6:59:47<11:20:30,  3.55it/s] 61%|██████    | 226613/371472 [6:59:47<11:12:46,  3.59it/s] 61%|██████    | 226614/371472 [6:59:48<10:49:50,  3.72it/s] 61%|██████    | 226615/371472 [6:59:48<10:46:08,  3.74it/s] 61%|██████    | 226616/371472 [6:59:48<11:38:09,  3.46it/s] 61%|██████    | 226617/371472 [6:59:48<11:12:08,  3.59it/s] 61%|██████    | 226618/371472 [6:59:49<10:57:03,  3.67it/s] 61%|██████    | 226619/371472 [6:59:49<10:54:18,  3.69it/s] 61%|██████    | 226620/371472 [6:59:49<10:50:32,  3.71it/s]                                                            {'loss': 2.8569, 'learning_rate': 4.5113555560343895e-07, 'epoch': 9.76}
 61%|██████    | 226620/371472 [6:59:49<10:50:32,  3.71it/s] 61%|██████    | 226621/371472 [6:59:49<11:02:26,  3.64it/s] 61%|██████    | 226622/371472 [6:59:50<10:57:15,  3.67it/s] 61%|██████    | 226623/371472 [6:59:50<11:18:33,  3.56it/s] 61%|██████    | 226624/371472 [6:59:50<11:06:33,  3.62it/s] 61%|██████    | 226625/371472 [6:59:51<11:18:24,  3.56it/s] 61%|██████    | 226626/371472 [6:59:51<12:40:17,  3.18it/s] 61%|██████    | 226627/371472 [6:59:51<11:53:08,  3.39it/s] 61%|██████    | 226628/371472 [6:59:52<11:48:59,  3.40it/s] 61%|██████    | 226629/371472 [6:59:52<11:49:29,  3.40it/s] 61%|██████    | 226630/371472 [6:59:52<12:01:25,  3.35it/s] 61%|██████    | 226631/371472 [6:59:52<11:49:58,  3.40it/s] 61%|██████    | 226632/371472 [6:59:53<11:43:00,  3.43it/s] 61%|██████    | 226633/371472 [6:59:53<11:42:42,  3.44it/s] 61%|██████    | 226634/371472 [6:59:53<11:37:31,  3.46it/s] 61%|██████    | 226635/371472 [6:59:54<11:54:52,  3.38it/s] 61%|██████    | 226636/371472 [6:59:54<11:40:29,  3.45it/s] 61%|██████    | 226637/371472 [6:59:54<11:05:17,  3.63it/s] 61%|██████    | 226638/371472 [6:59:54<12:09:06,  3.31it/s] 61%|██████    | 226639/371472 [6:59:55<11:50:39,  3.40it/s] 61%|██████    | 226640/371472 [6:59:55<11:54:14,  3.38it/s]                                                            {'loss': 2.982, 'learning_rate': 4.5108707362796007e-07, 'epoch': 9.76}
 61%|██████    | 226640/371472 [6:59:55<11:54:14,  3.38it/s] 61%|██████    | 226641/371472 [6:59:55<12:12:06,  3.30it/s] 61%|██████    | 226642/371472 [6:59:56<12:28:24,  3.23it/s] 61%|██████    | 226643/371472 [6:59:56<12:05:30,  3.33it/s] 61%|██████    | 226644/371472 [6:59:56<11:51:29,  3.39it/s] 61%|██████    | 226645/371472 [6:59:57<12:01:53,  3.34it/s] 61%|██████    | 226646/371472 [6:59:57<13:01:13,  3.09it/s] 61%|██████    | 226647/371472 [6:59:57<12:37:14,  3.19it/s] 61%|██████    | 226648/371472 [6:59:58<12:17:26,  3.27it/s] 61%|██████    | 226649/371472 [6:59:58<11:56:33,  3.37it/s] 61%|██████    | 226650/371472 [6:59:58<11:46:05,  3.42it/s] 61%|██████    | 226651/371472 [6:59:58<11:25:50,  3.52it/s] 61%|██████    | 226652/371472 [6:59:59<11:33:07,  3.48it/s] 61%|██████    | 226653/371472 [6:59:59<11:19:52,  3.55it/s] 61%|██████    | 226654/371472 [6:59:59<11:56:53,  3.37it/s] 61%|██████    | 226655/371472 [7:00:00<11:30:43,  3.49it/s] 61%|██████    | 226656/371472 [7:00:00<11:55:21,  3.37it/s] 61%|██████    | 226657/371472 [7:00:00<11:21:31,  3.54it/s] 61%|██████    | 226658/371472 [7:00:00<11:09:02,  3.61it/s] 61%|██████    | 226659/371472 [7:00:01<11:02:46,  3.64it/s] 61%|██████    | 226660/371472 [7:00:01<10:46:42,  3.73it/s]                                                            {'loss': 2.9397, 'learning_rate': 4.5103859165248114e-07, 'epoch': 9.76}
 61%|██████    | 226660/371472 [7:00:01<10:46:42,  3.73it/s] 61%|██████    | 226661/371472 [7:00:01<11:03:34,  3.64it/s] 61%|██████    | 226662/371472 [7:00:01<10:59:48,  3.66it/s] 61%|██████    | 226663/371472 [7:00:02<12:13:11,  3.29it/s] 61%|██████    | 226664/371472 [7:00:02<12:35:28,  3.19it/s] 61%|██████    | 226665/371472 [7:00:02<12:03:27,  3.34it/s] 61%|██████    | 226666/371472 [7:00:03<11:42:54,  3.43it/s] 61%|██████    | 226667/371472 [7:00:03<11:24:29,  3.53it/s] 61%|██████    | 226668/371472 [7:00:03<11:52:23,  3.39it/s] 61%|██████    | 226669/371472 [7:00:04<11:29:24,  3.50it/s] 61%|██████    | 226670/371472 [7:00:04<12:26:45,  3.23it/s] 61%|██████    | 226671/371472 [7:00:04<13:05:40,  3.07it/s] 61%|██████    | 226672/371472 [7:00:05<12:49:21,  3.14it/s] 61%|██████    | 226673/371472 [7:00:05<12:27:09,  3.23it/s] 61%|██████    | 226674/371472 [7:00:05<11:51:23,  3.39it/s] 61%|██████    | 226675/371472 [7:00:05<11:43:30,  3.43it/s] 61%|██████    | 226676/371472 [7:00:06<11:32:36,  3.48it/s] 61%|██████    | 226677/371472 [7:00:06<11:49:30,  3.40it/s] 61%|██████    | 226678/371472 [7:00:06<11:28:46,  3.50it/s] 61%|██████    | 226679/371472 [7:00:07<11:33:09,  3.48it/s] 61%|██████    | 226680/371472 [7:00:07<11:43:40,  3.43it/s]                                                            {'loss': 2.9148, 'learning_rate': 4.5099010967700227e-07, 'epoch': 9.76}
 61%|██████    | 226680/371472 [7:00:07<11:43:40,  3.43it/s] 61%|██████    | 226681/371472 [7:00:07<11:44:30,  3.43it/s] 61%|██████    | 226682/371472 [7:00:07<11:41:48,  3.44it/s] 61%|██████    | 226683/371472 [7:00:08<11:26:08,  3.52it/s] 61%|██████    | 226684/371472 [7:00:08<11:27:47,  3.51it/s] 61%|██████    | 226685/371472 [7:00:08<11:15:16,  3.57it/s] 61%|██████    | 226686/371472 [7:00:09<10:57:50,  3.67it/s] 61%|██████    | 226687/371472 [7:00:09<10:56:13,  3.68it/s] 61%|██████    | 226688/371472 [7:00:09<10:46:34,  3.73it/s] 61%|██████    | 226689/371472 [7:00:09<11:03:16,  3.64it/s] 61%|██████    | 226690/371472 [7:00:10<11:19:10,  3.55it/s] 61%|██████    | 226691/371472 [7:00:10<11:33:39,  3.48it/s] 61%|██████    | 226692/371472 [7:00:10<12:22:54,  3.25it/s] 61%|██████    | 226693/371472 [7:00:11<12:07:48,  3.32it/s] 61%|██████    | 226694/371472 [7:00:11<11:30:28,  3.49it/s] 61%|██████    | 226695/371472 [7:00:11<11:23:00,  3.53it/s] 61%|██████    | 226696/371472 [7:00:11<11:32:43,  3.48it/s] 61%|██████    | 226697/371472 [7:00:12<11:27:17,  3.51it/s] 61%|██████    | 226698/371472 [7:00:12<11:25:35,  3.52it/s] 61%|██████    | 226699/371472 [7:00:12<10:58:05,  3.67it/s] 61%|██████    | 226700/371472 [7:00:12<10:38:10,  3.78it/s]                                                            {'loss': 3.0527, 'learning_rate': 4.5094162770152334e-07, 'epoch': 9.76}
 61%|██████    | 226700/371472 [7:00:12<10:38:10,  3.78it/s] 61%|██████    | 226701/371472 [7:00:13<10:18:59,  3.90it/s] 61%|██████    | 226702/371472 [7:00:13<11:03:38,  3.64it/s] 61%|██████    | 226703/371472 [7:00:13<11:12:20,  3.59it/s] 61%|██████    | 226704/371472 [7:00:14<11:16:00,  3.57it/s] 61%|██████    | 226705/371472 [7:00:14<11:22:56,  3.53it/s] 61%|██████    | 226706/371472 [7:00:14<11:19:11,  3.55it/s] 61%|██████    | 226707/371472 [7:00:14<11:07:12,  3.62it/s] 61%|██████    | 226708/371472 [7:00:15<12:04:59,  3.33it/s] 61%|██████    | 226709/371472 [7:00:15<12:04:42,  3.33it/s] 61%|██████    | 226710/371472 [7:00:15<11:48:06,  3.41it/s] 61%|██████    | 226711/371472 [7:00:16<11:29:47,  3.50it/s] 61%|██████    | 226712/371472 [7:00:16<12:31:55,  3.21it/s] 61%|██████    | 226713/371472 [7:00:16<13:04:37,  3.07it/s] 61%|██████    | 226714/371472 [7:00:17<12:25:26,  3.24it/s] 61%|██████    | 226715/371472 [7:00:17<12:11:34,  3.30it/s] 61%|██████    | 226716/371472 [7:00:17<11:44:28,  3.42it/s] 61%|██████    | 226717/371472 [7:00:17<12:06:12,  3.32it/s] 61%|██████    | 226718/371472 [7:00:18<11:31:52,  3.49it/s] 61%|██████    | 226719/371472 [7:00:18<11:18:52,  3.55it/s] 61%|██████    | 226720/371472 [7:00:18<11:12:52,  3.59it/s]                                                            {'loss': 2.8857, 'learning_rate': 4.508931457260445e-07, 'epoch': 9.77}
 61%|██████    | 226720/371472 [7:00:18<11:12:52,  3.59it/s] 61%|██████    | 226721/371472 [7:00:19<11:14:52,  3.57it/s] 61%|██████    | 226722/371472 [7:00:19<11:17:36,  3.56it/s] 61%|██████    | 226723/371472 [7:00:19<11:22:32,  3.53it/s] 61%|██████    | 226724/371472 [7:00:19<10:55:30,  3.68it/s] 61%|██████    | 226725/371472 [7:00:20<10:33:21,  3.81it/s] 61%|██████    | 226726/371472 [7:00:20<11:13:09,  3.58it/s] 61%|██████    | 226727/371472 [7:00:20<10:58:03,  3.67it/s] 61%|██████    | 226728/371472 [7:00:20<10:49:57,  3.71it/s] 61%|██████    | 226729/371472 [7:00:21<11:42:00,  3.44it/s] 61%|██████    | 226730/371472 [7:00:21<11:16:13,  3.57it/s] 61%|██████    | 226731/371472 [7:00:21<11:01:09,  3.65it/s] 61%|██████    | 226732/371472 [7:00:22<10:38:43,  3.78it/s] 61%|██████    | 226733/371472 [7:00:22<10:53:48,  3.69it/s] 61%|██████    | 226734/371472 [7:00:22<11:26:43,  3.51it/s] 61%|██████    | 226735/371472 [7:00:22<11:38:51,  3.45it/s] 61%|██████    | 226736/371472 [7:00:23<11:40:31,  3.44it/s] 61%|██████    | 226737/371472 [7:00:23<11:23:47,  3.53it/s] 61%|██████    | 226738/371472 [7:00:23<11:20:50,  3.54it/s] 61%|██████    | 226739/371472 [7:00:24<11:32:35,  3.48it/s] 61%|██████    | 226740/371472 [7:00:24<11:15:53,  3.57it/s]                                                            {'loss': 2.8983, 'learning_rate': 4.508446637505656e-07, 'epoch': 9.77}
 61%|██████    | 226740/371472 [7:00:24<11:15:53,  3.57it/s] 61%|██████    | 226741/371472 [7:00:24<11:29:42,  3.50it/s] 61%|██████    | 226742/371472 [7:00:24<11:13:08,  3.58it/s] 61%|██████    | 226743/371472 [7:00:25<11:19:20,  3.55it/s] 61%|██████    | 226744/371472 [7:00:25<11:03:36,  3.63it/s] 61%|██████    | 226745/371472 [7:00:25<11:02:23,  3.64it/s] 61%|██████    | 226746/371472 [7:00:26<11:02:08,  3.64it/s] 61%|██████    | 226747/371472 [7:00:26<10:34:47,  3.80it/s] 61%|██████    | 226748/371472 [7:00:26<10:49:45,  3.71it/s] 61%|██████    | 226749/371472 [7:00:26<10:34:37,  3.80it/s] 61%|██████    | 226750/371472 [7:00:27<11:06:04,  3.62it/s] 61%|██████    | 226751/371472 [7:00:27<10:53:28,  3.69it/s] 61%|██████    | 226752/371472 [7:00:27<11:34:41,  3.47it/s] 61%|██████    | 226753/371472 [7:00:27<11:22:57,  3.53it/s] 61%|██████    | 226754/371472 [7:00:28<11:21:21,  3.54it/s] 61%|██████    | 226755/371472 [7:00:28<12:20:31,  3.26it/s] 61%|██████    | 226756/371472 [7:00:28<12:30:50,  3.21it/s] 61%|██████    | 226757/371472 [7:00:29<12:24:41,  3.24it/s] 61%|██████    | 226758/371472 [7:00:29<11:47:55,  3.41it/s] 61%|██████    | 226759/371472 [7:00:29<11:32:41,  3.48it/s] 61%|██████    | 226760/371472 [7:00:30<11:25:18,  3.52it/s]                                                            {'loss': 2.8846, 'learning_rate': 4.507961817750867e-07, 'epoch': 9.77}
 61%|██████    | 226760/371472 [7:00:30<11:25:18,  3.52it/s] 61%|██████    | 226761/371472 [7:00:30<10:57:15,  3.67it/s] 61%|██████    | 226762/371472 [7:00:30<11:20:15,  3.55it/s] 61%|██████    | 226763/371472 [7:00:30<11:12:47,  3.58it/s] 61%|██████    | 226764/371472 [7:00:31<10:44:53,  3.74it/s] 61%|██████    | 226765/371472 [7:00:31<10:53:55,  3.69it/s] 61%|██████    | 226766/371472 [7:00:31<10:41:11,  3.76it/s] 61%|██████    | 226767/371472 [7:00:31<10:29:37,  3.83it/s] 61%|██████    | 226768/371472 [7:00:32<10:44:23,  3.74it/s] 61%|██████    | 226769/371472 [7:00:32<10:57:18,  3.67it/s] 61%|██████    | 226770/371472 [7:00:32<11:20:25,  3.54it/s] 61%|██████    | 226771/371472 [7:00:33<11:04:11,  3.63it/s] 61%|██████    | 226772/371472 [7:00:33<10:59:13,  3.66it/s] 61%|██████    | 226773/371472 [7:00:33<11:45:32,  3.42it/s] 61%|██████    | 226774/371472 [7:00:33<11:15:20,  3.57it/s] 61%|██████    | 226775/371472 [7:00:34<11:03:44,  3.63it/s] 61%|██████    | 226776/371472 [7:00:34<10:55:11,  3.68it/s] 61%|██████    | 226777/371472 [7:00:34<10:59:41,  3.66it/s] 61%|██████    | 226778/371472 [7:00:34<10:58:45,  3.66it/s] 61%|██████    | 226779/371472 [7:00:35<10:53:37,  3.69it/s] 61%|██████    | 226780/371472 [7:00:35<11:22:37,  3.53it/s]                                                            {'loss': 2.8072, 'learning_rate': 4.507476997996078e-07, 'epoch': 9.77}
 61%|██████    | 226780/371472 [7:00:35<11:22:37,  3.53it/s] 61%|██████    | 226781/371472 [7:00:35<11:49:54,  3.40it/s] 61%|██████    | 226782/371472 [7:00:36<11:16:11,  3.57it/s] 61%|██████    | 226783/371472 [7:00:36<11:35:44,  3.47it/s] 61%|██████    | 226784/371472 [7:00:36<11:05:20,  3.62it/s] 61%|██████    | 226785/371472 [7:00:36<11:04:32,  3.63it/s] 61%|██████    | 226786/371472 [7:00:37<11:21:26,  3.54it/s] 61%|██████    | 226787/371472 [7:00:37<10:56:11,  3.67it/s] 61%|██████    | 226788/371472 [7:00:37<11:00:27,  3.65it/s] 61%|██████    | 226789/371472 [7:00:38<10:53:10,  3.69it/s] 61%|██████    | 226790/371472 [7:00:38<11:14:25,  3.58it/s] 61%|██████    | 226791/371472 [7:00:38<11:01:11,  3.65it/s] 61%|██████    | 226792/371472 [7:00:38<11:14:36,  3.57it/s] 61%|██████    | 226793/371472 [7:00:39<11:19:03,  3.55it/s] 61%|██████    | 226794/371472 [7:00:39<11:33:25,  3.48it/s] 61%|██████    | 226795/371472 [7:00:39<11:38:17,  3.45it/s] 61%|██████    | 226796/371472 [7:00:40<11:15:06,  3.57it/s] 61%|██████    | 226797/371472 [7:00:40<11:12:37,  3.58it/s] 61%|██████    | 226798/371472 [7:00:40<11:32:38,  3.48it/s] 61%|██████    | 226799/371472 [7:00:40<11:49:30,  3.40it/s] 61%|██████    | 226800/371472 [7:00:41<12:15:26,  3.28it/s]                                                            {'loss': 2.9403, 'learning_rate': 4.5069921782412896e-07, 'epoch': 9.77}
 61%|██████    | 226800/371472 [7:00:41<12:15:26,  3.28it/s] 61%|██████    | 226801/371472 [7:00:41<12:58:54,  3.10it/s] 61%|██████    | 226802/371472 [7:00:41<12:31:03,  3.21it/s] 61%|██████    | 226803/371472 [7:00:42<11:44:22,  3.42it/s] 61%|██████    | 226804/371472 [7:00:42<13:01:22,  3.09it/s] 61%|██████    | 226805/371472 [7:00:42<12:13:55,  3.29it/s] 61%|██████    | 226806/371472 [7:00:43<11:48:38,  3.40it/s] 61%|██████    | 226807/371472 [7:00:43<11:25:09,  3.52it/s] 61%|██████    | 226808/371472 [7:00:43<11:04:06,  3.63it/s] 61%|██████    | 226809/371472 [7:00:43<11:23:35,  3.53it/s] 61%|██████    | 226810/371472 [7:00:44<11:07:16,  3.61it/s] 61%|██████    | 226811/371472 [7:00:44<10:57:10,  3.67it/s] 61%|██████    | 226812/371472 [7:00:44<10:53:57,  3.69it/s] 61%|██████    | 226813/371472 [7:00:44<10:52:37,  3.69it/s] 61%|██████    | 226814/371472 [7:00:45<10:47:43,  3.72it/s] 61%|██████    | 226815/371472 [7:00:45<11:13:20,  3.58it/s] 61%|██████    | 226816/371472 [7:00:45<11:25:43,  3.52it/s] 61%|██████    | 226817/371472 [7:00:46<11:07:48,  3.61it/s] 61%|██████    | 226818/371472 [7:00:46<11:32:43,  3.48it/s] 61%|██████    | 226819/371472 [7:00:46<11:24:32,  3.52it/s] 61%|██████    | 226820/371472 [7:00:46<11:15:36,  3.57it/s]                                                            {'loss': 2.9493, 'learning_rate': 4.5065073584865003e-07, 'epoch': 9.77}
 61%|██████    | 226820/371472 [7:00:46<11:15:36,  3.57it/s] 61%|██████    | 226821/371472 [7:00:47<11:10:35,  3.60it/s] 61%|██████    | 226822/371472 [7:00:47<11:01:20,  3.65it/s] 61%|██████    | 226823/371472 [7:00:47<12:28:02,  3.22it/s] 61%|██████    | 226824/371472 [7:00:48<12:05:27,  3.32it/s] 61%|██████    | 226825/371472 [7:00:48<11:48:42,  3.40it/s] 61%|██████    | 226826/371472 [7:00:48<11:53:18,  3.38it/s] 61%|██████    | 226827/371472 [7:00:48<11:21:18,  3.54it/s] 61%|██████    | 226828/371472 [7:00:49<10:50:43,  3.70it/s] 61%|██████    | 226829/371472 [7:00:49<10:43:47,  3.74it/s] 61%|██████    | 226830/371472 [7:00:49<11:02:06,  3.64it/s] 61%|██████    | 226831/371472 [7:00:50<11:08:42,  3.60it/s] 61%|██████    | 226832/371472 [7:00:50<11:04:16,  3.63it/s] 61%|██████    | 226833/371472 [7:00:50<10:44:22,  3.74it/s] 61%|██████    | 226834/371472 [7:00:50<10:27:56,  3.84it/s] 61%|██████    | 226835/371472 [7:00:51<10:34:03,  3.80it/s] 61%|██████    | 226836/371472 [7:00:51<10:37:08,  3.78it/s] 61%|██████    | 226837/371472 [7:00:51<10:42:18,  3.75it/s] 61%|██████    | 226838/371472 [7:00:51<11:25:35,  3.52it/s] 61%|██████    | 226839/371472 [7:00:52<11:43:29,  3.43it/s] 61%|██████    | 226840/371472 [7:00:52<11:45:02,  3.42it/s]                                                            {'loss': 3.0599, 'learning_rate': 4.5060225387317116e-07, 'epoch': 9.77}
 61%|██████    | 226840/371472 [7:00:52<11:45:02,  3.42it/s] 61%|██████    | 226841/371472 [7:00:52<12:33:22,  3.20it/s] 61%|██████    | 226842/371472 [7:00:53<12:23:23,  3.24it/s] 61%|██████    | 226843/371472 [7:00:53<12:16:27,  3.27it/s] 61%|██████    | 226844/371472 [7:00:53<11:54:01,  3.38it/s] 61%|██████    | 226845/371472 [7:00:54<11:28:49,  3.50it/s] 61%|██████    | 226846/371472 [7:00:54<11:47:28,  3.41it/s] 61%|██████    | 226847/371472 [7:00:54<11:48:42,  3.40it/s] 61%|██████    | 226848/371472 [7:00:54<11:41:18,  3.44it/s] 61%|██████    | 226849/371472 [7:00:55<11:27:47,  3.50it/s] 61%|██████    | 226850/371472 [7:00:55<11:14:10,  3.58it/s] 61%|██████    | 226851/371472 [7:00:55<11:00:16,  3.65it/s] 61%|██████    | 226852/371472 [7:00:55<10:55:59,  3.67it/s] 61%|██████    | 226853/371472 [7:00:56<10:49:58,  3.71it/s] 61%|██████    | 226854/371472 [7:00:56<11:18:19,  3.55it/s] 61%|██████    | 226855/371472 [7:00:56<11:06:12,  3.62it/s] 61%|██████    | 226856/371472 [7:00:57<11:07:54,  3.61it/s] 61%|██████    | 226857/371472 [7:00:57<11:25:09,  3.52it/s] 61%|██████    | 226858/371472 [7:00:57<11:13:29,  3.58it/s] 61%|██████    | 226859/371472 [7:00:57<11:31:10,  3.49it/s] 61%|██████    | 226860/371472 [7:00:58<12:18:02,  3.27it/s]                                                            {'loss': 2.8361, 'learning_rate': 4.5055377189769223e-07, 'epoch': 9.77}
 61%|██████    | 226860/371472 [7:00:58<12:18:02,  3.27it/s] 61%|██████    | 226861/371472 [7:00:58<11:50:41,  3.39it/s] 61%|██████    | 226862/371472 [7:00:58<11:55:56,  3.37it/s] 61%|██████    | 226863/371472 [7:00:59<11:27:18,  3.51it/s] 61%|██████    | 226864/371472 [7:00:59<11:35:13,  3.47it/s] 61%|██████    | 226865/371472 [7:00:59<11:36:52,  3.46it/s] 61%|██████    | 226866/371472 [7:01:00<11:25:01,  3.52it/s] 61%|██████    | 226867/371472 [7:01:00<12:16:16,  3.27it/s] 61%|██████    | 226868/371472 [7:01:00<12:18:10,  3.26it/s] 61%|██████    | 226869/371472 [7:01:00<12:25:49,  3.23it/s] 61%|██████    | 226870/371472 [7:01:01<13:03:24,  3.08it/s] 61%|██████    | 226871/371472 [7:01:01<12:27:43,  3.22it/s] 61%|██████    | 226872/371472 [7:01:01<11:47:46,  3.41it/s] 61%|██████    | 226873/371472 [7:01:02<11:41:11,  3.44it/s] 61%|██████    | 226874/371472 [7:01:02<11:25:28,  3.52it/s] 61%|██████    | 226875/371472 [7:01:02<11:43:20,  3.43it/s] 61%|██████    | 226876/371472 [7:01:02<11:08:34,  3.60it/s] 61%|██████    | 226877/371472 [7:01:03<11:08:22,  3.61it/s] 61%|██████    | 226878/371472 [7:01:03<11:13:11,  3.58it/s] 61%|██████    | 226879/371472 [7:01:03<11:00:01,  3.65it/s] 61%|██████    | 226880/371472 [7:01:04<11:02:47,  3.64it/s]                                                            {'loss': 2.8572, 'learning_rate': 4.505052899222134e-07, 'epoch': 9.77}
 61%|██████    | 226880/371472 [7:01:04<11:02:47,  3.64it/s] 61%|██████    | 226881/371472 [7:01:04<11:34:49,  3.47it/s] 61%|██████    | 226882/371472 [7:01:04<11:05:13,  3.62it/s] 61%|██████    | 226883/371472 [7:01:04<10:48:31,  3.72it/s] 61%|██████    | 226884/371472 [7:01:05<10:35:37,  3.79it/s] 61%|██████    | 226885/371472 [7:01:05<11:03:11,  3.63it/s] 61%|██████    | 226886/371472 [7:01:05<11:08:51,  3.60it/s] 61%|██████    | 226887/371472 [7:01:06<11:05:09,  3.62it/s] 61%|██████    | 226888/371472 [7:01:06<10:42:54,  3.75it/s] 61%|██████    | 226889/371472 [7:01:06<10:35:18,  3.79it/s] 61%|██████    | 226890/371472 [7:01:06<10:32:56,  3.81it/s] 61%|██████    | 226891/371472 [7:01:07<10:55:43,  3.67it/s] 61%|██████    | 226892/371472 [7:01:07<11:03:39,  3.63it/s] 61%|██████    | 226893/371472 [7:01:07<11:25:01,  3.52it/s] 61%|██████    | 226894/371472 [7:01:07<11:02:30,  3.64it/s] 61%|██████    | 226895/371472 [7:01:08<11:03:29,  3.63it/s] 61%|██████    | 226896/371472 [7:01:08<12:43:16,  3.16it/s] 61%|██████    | 226897/371472 [7:01:08<12:06:13,  3.32it/s] 61%|██████    | 226898/371472 [7:01:09<11:52:46,  3.38it/s] 61%|██████    | 226899/371472 [7:01:09<11:35:37,  3.46it/s] 61%|██████    | 226900/371472 [7:01:09<11:45:27,  3.42it/s]                                                            {'loss': 2.9852, 'learning_rate': 4.504568079467344e-07, 'epoch': 9.77}
 61%|██████    | 226900/371472 [7:01:09<11:45:27,  3.42it/s] 61%|██████    | 226901/371472 [7:01:09<11:20:28,  3.54it/s] 61%|██████    | 226902/371472 [7:01:10<10:51:28,  3.70it/s] 61%|██████    | 226903/371472 [7:01:10<10:46:38,  3.73it/s] 61%|██████    | 226904/371472 [7:01:10<11:04:06,  3.63it/s] 61%|██████    | 226905/371472 [7:01:11<11:01:55,  3.64it/s] 61%|██████    | 226906/371472 [7:01:11<11:00:27,  3.65it/s] 61%|██████    | 226907/371472 [7:01:11<11:13:24,  3.58it/s] 61%|██████    | 226908/371472 [7:01:11<11:07:29,  3.61it/s] 61%|██████    | 226909/371472 [7:01:12<11:27:36,  3.50it/s] 61%|██████    | 226910/371472 [7:01:12<11:14:53,  3.57it/s] 61%|██████    | 226911/371472 [7:01:12<11:24:08,  3.52it/s] 61%|██████    | 226912/371472 [7:01:13<12:23:15,  3.24it/s] 61%|██████    | 226913/371472 [7:01:13<12:01:04,  3.34it/s] 61%|██████    | 226914/371472 [7:01:13<11:45:17,  3.42it/s] 61%|██████    | 226915/371472 [7:01:13<11:52:53,  3.38it/s] 61%|██████    | 226916/371472 [7:01:14<11:44:51,  3.42it/s] 61%|██████    | 226917/371472 [7:01:14<11:53:49,  3.38it/s] 61%|██████    | 226918/371472 [7:01:14<11:24:41,  3.52it/s] 61%|██████    | 226919/371472 [7:01:15<11:19:37,  3.54it/s] 61%|██████    | 226920/371472 [7:01:15<11:09:30,  3.60it/s]                                                            {'loss': 2.74, 'learning_rate': 4.504083259712556e-07, 'epoch': 9.77}
 61%|██████    | 226920/371472 [7:01:15<11:09:30,  3.60it/s] 61%|██████    | 226921/371472 [7:01:15<11:02:05,  3.64it/s] 61%|██████    | 226922/371472 [7:01:15<11:00:08,  3.65it/s] 61%|██████    | 226923/371472 [7:01:16<10:33:46,  3.80it/s] 61%|██████    | 226924/371472 [7:01:16<10:40:52,  3.76it/s] 61%|██████    | 226925/371472 [7:01:16<10:54:57,  3.68it/s] 61%|██████    | 226926/371472 [7:01:16<10:40:10,  3.76it/s] 61%|██████    | 226927/371472 [7:01:17<10:58:23,  3.66it/s] 61%|██████    | 226928/371472 [7:01:17<10:44:16,  3.74it/s] 61%|██████    | 226929/371472 [7:01:17<10:58:04,  3.66it/s] 61%|██████    | 226930/371472 [7:01:18<11:11:20,  3.59it/s] 61%|██████    | 226931/371472 [7:01:18<10:51:36,  3.70it/s] 61%|██████    | 226932/371472 [7:01:18<10:48:17,  3.72it/s] 61%|██████    | 226933/371472 [7:01:18<12:01:16,  3.34it/s] 61%|██████    | 226934/371472 [7:01:19<11:36:02,  3.46it/s] 61%|██████    | 226935/371472 [7:01:19<11:17:49,  3.55it/s] 61%|██████    | 226936/371472 [7:01:19<12:01:13,  3.34it/s] 61%|██████    | 226937/371472 [7:01:20<11:41:21,  3.43it/s] 61%|██████    | 226938/371472 [7:01:20<11:18:38,  3.55it/s] 61%|██████    | 226939/371472 [7:01:20<12:02:37,  3.33it/s] 61%|██████    | 226940/371472 [7:01:20<11:46:32,  3.41it/s]                                                            {'loss': 3.0735, 'learning_rate': 4.503598439957767e-07, 'epoch': 9.77}
 61%|██████    | 226940/371472 [7:01:20<11:46:32,  3.41it/s] 61%|██████    | 226941/371472 [7:01:21<11:46:52,  3.41it/s] 61%|██████    | 226942/371472 [7:01:21<11:47:58,  3.40it/s] 61%|██████    | 226943/371472 [7:01:21<12:07:35,  3.31it/s] 61%|██████    | 226944/371472 [7:01:22<11:59:25,  3.35it/s] 61%|██████    | 226945/371472 [7:01:22<11:24:15,  3.52it/s] 61%|██████    | 226946/371472 [7:01:22<11:20:32,  3.54it/s] 61%|██████    | 226947/371472 [7:01:23<11:15:52,  3.56it/s] 61%|██████    | 226948/371472 [7:01:23<11:06:16,  3.62it/s] 61%|██████    | 226949/371472 [7:01:23<11:26:24,  3.51it/s] 61%|██████    | 226950/371472 [7:01:23<11:45:46,  3.41it/s] 61%|██████    | 226951/371472 [7:01:24<11:46:21,  3.41it/s] 61%|██████    | 226952/371472 [7:01:24<11:15:32,  3.57it/s] 61%|██████    | 226953/371472 [7:01:24<11:13:33,  3.58it/s] 61%|██████    | 226954/371472 [7:01:25<11:25:41,  3.51it/s] 61%|██████    | 226955/371472 [7:01:25<11:21:07,  3.54it/s] 61%|██████    | 226956/371472 [7:01:25<11:24:32,  3.52it/s] 61%|██████    | 226957/371472 [7:01:25<11:32:06,  3.48it/s] 61%|██████    | 226958/371472 [7:01:26<11:23:10,  3.53it/s] 61%|██████    | 226959/371472 [7:01:26<10:55:10,  3.68it/s] 61%|██████    | 226960/371472 [7:01:26<11:06:53,  3.61it/s]                                                            {'loss': 2.8209, 'learning_rate': 4.503113620202978e-07, 'epoch': 9.78}
 61%|██████    | 226960/371472 [7:01:26<11:06:53,  3.61it/s] 61%|██████    | 226961/371472 [7:01:26<10:53:17,  3.69it/s] 61%|██████    | 226962/371472 [7:01:27<11:05:59,  3.62it/s] 61%|██████    | 226963/371472 [7:01:27<11:50:00,  3.39it/s] 61%|██████    | 226964/371472 [7:01:27<11:25:37,  3.51it/s] 61%|██████    | 226965/371472 [7:01:28<11:13:20,  3.58it/s] 61%|██████    | 226966/371472 [7:01:28<10:55:55,  3.67it/s] 61%|██████    | 226967/371472 [7:01:28<11:56:33,  3.36it/s] 61%|██████    | 226968/371472 [7:01:28<11:45:39,  3.41it/s] 61%|██████    | 226969/371472 [7:01:29<11:19:41,  3.54it/s] 61%|██████    | 226970/371472 [7:01:29<11:31:36,  3.48it/s] 61%|██████    | 226971/371472 [7:01:29<12:00:56,  3.34it/s] 61%|██████    | 226972/371472 [7:01:30<12:01:22,  3.34it/s] 61%|██████    | 226973/371472 [7:01:30<11:28:47,  3.50it/s] 61%|██████    | 226974/371472 [7:01:30<11:14:59,  3.57it/s] 61%|██████    | 226975/371472 [7:01:30<11:30:14,  3.49it/s] 61%|██████    | 226976/371472 [7:01:31<11:17:42,  3.55it/s] 61%|██████    | 226977/371472 [7:01:31<11:45:16,  3.41it/s] 61%|██████    | 226978/371472 [7:01:31<12:12:02,  3.29it/s] 61%|██████    | 226979/371472 [7:01:32<11:41:01,  3.44it/s] 61%|██████    | 226980/371472 [7:01:32<11:23:38,  3.52it/s]                                                            {'loss': 2.8183, 'learning_rate': 4.5026288004481887e-07, 'epoch': 9.78}
 61%|██████    | 226980/371472 [7:01:32<11:23:38,  3.52it/s] 61%|██████    | 226981/371472 [7:01:32<11:14:10,  3.57it/s] 61%|██████    | 226982/371472 [7:01:32<11:17:18,  3.56it/s] 61%|██████    | 226983/371472 [7:01:33<12:16:14,  3.27it/s] 61%|██████    | 226984/371472 [7:01:33<11:57:40,  3.36it/s] 61%|██████    | 226985/371472 [7:01:33<11:37:48,  3.45it/s] 61%|██████    | 226986/371472 [7:01:34<11:15:10,  3.57it/s] 61%|██████    | 226987/371472 [7:01:34<11:07:59,  3.60it/s] 61%|██████    | 226988/371472 [7:01:34<11:44:49,  3.42it/s] 61%|██████    | 226989/371472 [7:01:35<11:15:48,  3.56it/s] 61%|██████    | 226990/371472 [7:01:35<11:15:29,  3.56it/s] 61%|██████    | 226991/371472 [7:01:35<11:42:09,  3.43it/s] 61%|██████    | 226992/371472 [7:01:35<11:55:27,  3.37it/s] 61%|██████    | 226993/371472 [7:01:36<11:27:38,  3.50it/s] 61%|██████    | 226994/371472 [7:01:36<11:14:41,  3.57it/s] 61%|██████    | 226995/371472 [7:01:36<11:03:29,  3.63it/s] 61%|██████    | 226996/371472 [7:01:36<11:10:13,  3.59it/s] 61%|██████    | 226997/371472 [7:01:37<11:36:42,  3.46it/s] 61%|██████    | 226998/371472 [7:01:37<11:40:35,  3.44it/s] 61%|██████    | 226999/371472 [7:01:37<11:35:25,  3.46it/s] 61%|██████    | 227000/371472 [7:01:38<11:36:06,  3.46it/s]                                                            {'loss': 2.7452, 'learning_rate': 4.5021439806933994e-07, 'epoch': 9.78}
 61%|██████    | 227000/371472 [7:01:38<11:36:06,  3.46it/s] 61%|██████    | 227001/371472 [7:01:38<11:20:08,  3.54it/s] 61%|██████    | 227002/371472 [7:01:38<11:45:05,  3.41it/s] 61%|██████    | 227003/371472 [7:01:39<11:09:07,  3.60it/s] 61%|██████    | 227004/371472 [7:01:39<10:54:21,  3.68it/s] 61%|██████    | 227005/371472 [7:01:39<11:02:03,  3.64it/s] 61%|██████    | 227006/371472 [7:01:39<11:13:50,  3.57it/s] 61%|██████    | 227007/371472 [7:01:40<13:13:53,  3.03it/s] 61%|██████    | 227008/371472 [7:01:40<12:15:51,  3.27it/s] 61%|██████    | 227009/371472 [7:01:40<11:58:09,  3.35it/s] 61%|██████    | 227010/371472 [7:01:41<11:38:54,  3.44it/s] 61%|██████    | 227011/371472 [7:01:41<12:19:17,  3.26it/s] 61%|██████    | 227012/371472 [7:01:41<11:42:33,  3.43it/s] 61%|██████    | 227013/371472 [7:01:41<11:30:40,  3.49it/s] 61%|██████    | 227014/371472 [7:01:42<11:31:10,  3.48it/s] 61%|██████    | 227015/371472 [7:01:42<11:16:33,  3.56it/s] 61%|██████    | 227016/371472 [7:01:42<11:58:12,  3.35it/s] 61%|██████    | 227017/371472 [7:01:43<12:30:10,  3.21it/s] 61%|██████    | 227018/371472 [7:01:43<11:52:12,  3.38it/s] 61%|██████    | 227019/371472 [7:01:43<11:37:40,  3.45it/s] 61%|██████    | 227020/371472 [7:01:44<11:24:37,  3.52it/s]                                                            {'loss': 2.9586, 'learning_rate': 4.5016591609386107e-07, 'epoch': 9.78}
 61%|██████    | 227020/371472 [7:01:44<11:24:37,  3.52it/s] 61%|██████    | 227021/371472 [7:01:44<11:34:08,  3.47it/s] 61%|██████    | 227022/371472 [7:01:44<11:38:15,  3.45it/s] 61%|██████    | 227023/371472 [7:01:44<11:28:13,  3.50it/s] 61%|██████    | 227024/371472 [7:01:45<11:23:54,  3.52it/s] 61%|██████    | 227025/371472 [7:01:45<11:10:06,  3.59it/s] 61%|██████    | 227026/371472 [7:01:45<11:21:04,  3.53it/s] 61%|██████    | 227027/371472 [7:01:46<11:35:36,  3.46it/s] 61%|██████    | 227028/371472 [7:01:46<11:19:11,  3.54it/s] 61%|██████    | 227029/371472 [7:01:46<11:27:57,  3.50it/s] 61%|██████    | 227030/371472 [7:01:46<11:23:48,  3.52it/s] 61%|██████    | 227031/371472 [7:01:47<11:15:17,  3.56it/s] 61%|██████    | 227032/371472 [7:01:47<11:21:11,  3.53it/s] 61%|██████    | 227033/371472 [7:01:47<11:12:46,  3.58it/s] 61%|██████    | 227034/371472 [7:01:47<11:02:52,  3.63it/s] 61%|██████    | 227035/371472 [7:01:48<10:40:46,  3.76it/s] 61%|██████    | 227036/371472 [7:01:48<11:04:34,  3.62it/s] 61%|██████    | 227037/371472 [7:01:48<11:31:17,  3.48it/s] 61%|██████    | 227038/371472 [7:01:49<11:16:58,  3.56it/s] 61%|██████    | 227039/371472 [7:01:49<11:04:32,  3.62it/s] 61%|██████    | 227040/371472 [7:01:49<11:08:37,  3.60it/s]                                                            {'loss': 2.8812, 'learning_rate': 4.5011743411838214e-07, 'epoch': 9.78}
 61%|██████    | 227040/371472 [7:01:49<11:08:37,  3.60it/s] 61%|██████    | 227041/371472 [7:01:49<11:07:12,  3.61it/s] 61%|██████    | 227042/371472 [7:01:50<10:51:03,  3.70it/s] 61%|██████    | 227043/371472 [7:01:50<10:56:22,  3.67it/s] 61%|██████    | 227044/371472 [7:01:50<11:12:13,  3.58it/s] 61%|██████    | 227045/371472 [7:01:51<11:19:44,  3.54it/s] 61%|██████    | 227046/371472 [7:01:51<11:27:25,  3.50it/s] 61%|██████    | 227047/371472 [7:01:51<11:52:29,  3.38it/s] 61%|██████    | 227048/371472 [7:01:51<11:12:15,  3.58it/s] 61%|██████    | 227049/371472 [7:01:52<11:29:03,  3.49it/s] 61%|██████    | 227050/371472 [7:01:52<11:31:18,  3.48it/s] 61%|██████    | 227051/371472 [7:01:52<11:13:35,  3.57it/s] 61%|██████    | 227052/371472 [7:01:53<11:33:12,  3.47it/s] 61%|██████    | 227053/371472 [7:01:53<11:54:34,  3.37it/s] 61%|██████    | 227054/371472 [7:01:53<12:26:30,  3.22it/s] 61%|██████    | 227055/371472 [7:01:53<11:49:36,  3.39it/s] 61%|██████    | 227056/371472 [7:01:54<11:40:41,  3.44it/s] 61%|██████    | 227057/371472 [7:01:54<11:18:03,  3.55it/s] 61%|██████    | 227058/371472 [7:01:54<11:24:21,  3.52it/s] 61%|██████    | 227059/371472 [7:01:55<11:01:10,  3.64it/s] 61%|██████    | 227060/371472 [7:01:55<10:51:51,  3.69it/s]                                                            {'loss': 2.8062, 'learning_rate': 4.500689521429033e-07, 'epoch': 9.78}
 61%|██████    | 227060/371472 [7:01:55<10:51:51,  3.69it/s] 61%|██████    | 227061/371472 [7:01:55<10:37:35,  3.77it/s] 61%|██████    | 227062/371472 [7:01:55<10:39:11,  3.77it/s] 61%|██████    | 227063/371472 [7:01:56<10:38:45,  3.77it/s] 61%|██████    | 227064/371472 [7:01:56<10:47:34,  3.72it/s] 61%|██████    | 227065/371472 [7:01:56<11:07:24,  3.61it/s] 61%|██████    | 227066/371472 [7:01:56<11:50:58,  3.39it/s] 61%|██████    | 227067/371472 [7:01:57<11:39:31,  3.44it/s] 61%|██████    | 227068/371472 [7:01:57<11:37:28,  3.45it/s] 61%|██████    | 227069/371472 [7:01:57<11:15:35,  3.56it/s] 61%|██████    | 227070/371472 [7:01:58<11:01:30,  3.64it/s] 61%|██████    | 227071/371472 [7:01:58<12:13:44,  3.28it/s] 61%|██████    | 227072/371472 [7:01:58<11:33:06,  3.47it/s] 61%|██████    | 227073/371472 [7:01:58<11:27:41,  3.50it/s] 61%|██████    | 227074/371472 [7:01:59<11:04:07,  3.62it/s] 61%|██████    | 227075/371472 [7:01:59<10:56:23,  3.67it/s] 61%|██████    | 227076/371472 [7:01:59<11:26:30,  3.51it/s] 61%|██████    | 227077/371472 [7:02:00<10:57:59,  3.66it/s] 61%|██████    | 227078/371472 [7:02:00<10:57:14,  3.66it/s] 61%|██████    | 227079/371472 [7:02:00<11:24:40,  3.51it/s] 61%|██████    | 227080/371472 [7:02:00<11:42:02,  3.43it/s]                                                            {'loss': 2.8769, 'learning_rate': 4.5002047016742433e-07, 'epoch': 9.78}
 61%|██████    | 227080/371472 [7:02:00<11:42:02,  3.43it/s] 61%|██████    | 227081/371472 [7:02:01<11:16:00,  3.56it/s] 61%|██████    | 227082/371472 [7:02:01<10:57:54,  3.66it/s] 61%|██████    | 227083/371472 [7:02:01<10:59:53,  3.65it/s] 61%|██████    | 227084/371472 [7:02:02<11:32:19,  3.48it/s] 61%|██████    | 227085/371472 [7:02:02<11:25:00,  3.51it/s] 61%|██████    | 227086/371472 [7:02:02<11:10:27,  3.59it/s] 61%|██████    | 227087/371472 [7:02:02<11:27:26,  3.50it/s] 61%|██████    | 227088/371472 [7:02:03<11:04:50,  3.62it/s] 61%|██████    | 227089/371472 [7:02:03<11:23:59,  3.52it/s] 61%|██████    | 227090/371472 [7:02:03<11:09:33,  3.59it/s] 61%|██████    | 227091/371472 [7:02:03<10:58:44,  3.65it/s] 61%|██████    | 227092/371472 [7:02:04<12:21:12,  3.25it/s] 61%|██████    | 227093/371472 [7:02:04<11:50:56,  3.38it/s] 61%|██████    | 227094/371472 [7:02:04<11:38:26,  3.45it/s] 61%|██████    | 227095/371472 [7:02:05<11:11:35,  3.58it/s] 61%|██████    | 227096/371472 [7:02:05<11:03:23,  3.63it/s] 61%|██████    | 227097/371472 [7:02:05<10:53:19,  3.68it/s] 61%|██████    | 227098/371472 [7:02:06<11:25:08,  3.51it/s] 61%|██████    | 227099/371472 [7:02:06<11:16:00,  3.56it/s] 61%|██████    | 227100/371472 [7:02:06<11:06:09,  3.61it/s]                                                            {'loss': 2.9272, 'learning_rate': 4.4997198819194546e-07, 'epoch': 9.78}
 61%|██████    | 227100/371472 [7:02:06<11:06:09,  3.61it/s] 61%|██████    | 227101/371472 [7:02:06<10:48:09,  3.71it/s] 61%|██████    | 227102/371472 [7:02:07<10:56:28,  3.67it/s] 61%|██████    | 227103/371472 [7:02:07<11:14:49,  3.57it/s] 61%|██████    | 227104/371472 [7:02:07<11:17:44,  3.55it/s] 61%|██████    | 227105/371472 [7:02:07<11:00:22,  3.64it/s] 61%|██████    | 227106/371472 [7:02:08<10:56:17,  3.67it/s] 61%|██████    | 227107/371472 [7:02:08<10:50:14,  3.70it/s] 61%|██████    | 227108/371472 [7:02:08<11:27:36,  3.50it/s] 61%|██████    | 227109/371472 [7:02:09<11:11:04,  3.59it/s] 61%|██████    | 227110/371472 [7:02:09<11:35:19,  3.46it/s] 61%|██████    | 227111/371472 [7:02:09<11:43:16,  3.42it/s] 61%|██████    | 227112/371472 [7:02:10<12:52:51,  3.11it/s] 61%|██████    | 227113/371472 [7:02:10<12:00:49,  3.34it/s] 61%|██████    | 227114/371472 [7:02:10<11:59:42,  3.34it/s] 61%|██████    | 227115/371472 [7:02:10<11:31:21,  3.48it/s] 61%|██████    | 227116/371472 [7:02:11<11:24:21,  3.52it/s] 61%|██████    | 227117/371472 [7:02:11<12:09:29,  3.30it/s] 61%|██████    | 227118/371472 [7:02:11<11:50:26,  3.39it/s] 61%|██████    | 227119/371472 [7:02:12<12:02:25,  3.33it/s] 61%|██████    | 227120/371472 [7:02:12<11:25:30,  3.51it/s]                                                            {'loss': 2.9396, 'learning_rate': 4.499235062164666e-07, 'epoch': 9.78}
 61%|██████    | 227120/371472 [7:02:12<11:25:30,  3.51it/s] 61%|██████    | 227121/371472 [7:02:12<12:43:49,  3.15it/s] 61%|██████    | 227122/371472 [7:02:13<12:34:55,  3.19it/s] 61%|██████    | 227123/371472 [7:02:13<13:03:43,  3.07it/s] 61%|██████    | 227124/371472 [7:02:13<13:17:40,  3.02it/s] 61%|██████    | 227125/371472 [7:02:14<12:55:31,  3.10it/s] 61%|██████    | 227126/371472 [7:02:14<12:39:50,  3.17it/s] 61%|██████    | 227127/371472 [7:02:14<12:42:15,  3.16it/s] 61%|██████    | 227128/371472 [7:02:14<12:07:14,  3.31it/s] 61%|██████    | 227129/371472 [7:02:15<11:47:45,  3.40it/s] 61%|██████    | 227130/371472 [7:02:15<12:21:20,  3.25it/s] 61%|██████    | 227131/371472 [7:02:15<11:39:51,  3.44it/s] 61%|██████    | 227132/371472 [7:02:16<11:23:07,  3.52it/s] 61%|██████    | 227133/371472 [7:02:16<11:50:33,  3.39it/s] 61%|██████    | 227134/371472 [7:02:16<12:03:14,  3.33it/s] 61%|██████    | 227135/371472 [7:02:17<12:34:00,  3.19it/s] 61%|██████    | 227136/371472 [7:02:17<12:33:55,  3.19it/s] 61%|██████    | 227137/371472 [7:02:17<12:12:54,  3.28it/s] 61%|██████    | 227138/371472 [7:02:17<11:45:27,  3.41it/s] 61%|██████    | 227139/371472 [7:02:18<11:25:01,  3.51it/s] 61%|██████    | 227140/371472 [7:02:18<11:02:20,  3.63it/s]                                                            {'loss': 2.884, 'learning_rate': 4.498750242409877e-07, 'epoch': 9.78}
 61%|██████    | 227140/371472 [7:02:18<11:02:20,  3.63it/s] 61%|██████    | 227141/371472 [7:02:18<11:42:42,  3.42it/s] 61%|██████    | 227142/371472 [7:02:19<11:27:47,  3.50it/s] 61%|██████    | 227143/371472 [7:02:19<11:07:30,  3.60it/s] 61%|██████    | 227144/371472 [7:02:19<11:37:36,  3.45it/s] 61%|██████    | 227145/371472 [7:02:19<11:38:00,  3.45it/s] 61%|██████    | 227146/371472 [7:02:20<11:34:02,  3.47it/s] 61%|██████    | 227147/371472 [7:02:20<11:39:10,  3.44it/s] 61%|██████    | 227148/371472 [7:02:20<11:13:47,  3.57it/s] 61%|██████    | 227149/371472 [7:02:20<11:02:34,  3.63it/s] 61%|██████    | 227150/371472 [7:02:21<11:00:26,  3.64it/s] 61%|██████    | 227151/371472 [7:02:21<11:03:40,  3.62it/s] 61%|██████    | 227152/371472 [7:02:21<11:21:49,  3.53it/s] 61%|██████    | 227153/371472 [7:02:22<10:54:40,  3.67it/s] 61%|██████    | 227154/371472 [7:02:22<11:05:13,  3.62it/s] 61%|██████    | 227155/371472 [7:02:22<11:32:25,  3.47it/s] 61%|██████    | 227156/371472 [7:02:22<11:15:37,  3.56it/s] 61%|██████    | 227157/371472 [7:02:23<11:11:41,  3.58it/s] 61%|██████    | 227158/371472 [7:02:23<10:57:36,  3.66it/s] 61%|██████    | 227159/371472 [7:02:23<10:39:51,  3.76it/s] 61%|██████    | 227160/371472 [7:02:24<11:48:38,  3.39it/s]                                                            {'loss': 2.7748, 'learning_rate': 4.498265422655088e-07, 'epoch': 9.78}
 61%|██████    | 227160/371472 [7:02:24<11:48:38,  3.39it/s] 61%|██████    | 227161/371472 [7:02:24<11:36:21,  3.45it/s] 61%|██████    | 227162/371472 [7:02:24<11:19:53,  3.54it/s] 61%|██████    | 227163/371472 [7:02:24<11:34:06,  3.47it/s] 61%|██████    | 227164/371472 [7:02:25<10:57:13,  3.66it/s] 61%|██████    | 227165/371472 [7:02:25<11:26:02,  3.51it/s] 61%|██████    | 227166/371472 [7:02:25<11:01:12,  3.64it/s] 61%|██████    | 227167/371472 [7:02:25<10:37:37,  3.77it/s] 61%|██████    | 227168/371472 [7:02:26<11:05:18,  3.61it/s] 61%|██████    | 227169/371472 [7:02:26<10:43:26,  3.74it/s] 61%|██████    | 227170/371472 [7:02:26<11:37:42,  3.45it/s] 61%|██████    | 227171/371472 [7:02:27<11:18:52,  3.54it/s] 61%|██████    | 227172/371472 [7:02:27<11:25:23,  3.51it/s] 61%|██████    | 227173/371472 [7:02:27<11:23:28,  3.52it/s] 61%|██████    | 227174/371472 [7:02:27<11:06:26,  3.61it/s] 61%|██████    | 227175/371472 [7:02:28<11:55:44,  3.36it/s] 61%|██████    | 227176/371472 [7:02:28<11:20:49,  3.53it/s] 61%|██████    | 227177/371472 [7:02:28<11:28:29,  3.49it/s] 61%|██████    | 227178/371472 [7:02:29<11:21:58,  3.53it/s] 61%|██████    | 227179/371472 [7:02:29<11:08:30,  3.60it/s] 61%|██████    | 227180/371472 [7:02:29<11:40:16,  3.43it/s]                                                            {'loss': 2.9745, 'learning_rate': 4.4977806029002996e-07, 'epoch': 9.79}
 61%|██████    | 227180/371472 [7:02:29<11:40:16,  3.43it/s] 61%|██████    | 227181/371472 [7:02:29<11:21:03,  3.53it/s] 61%|██████    | 227182/371472 [7:02:30<12:57:57,  3.09it/s] 61%|██████    | 227183/371472 [7:02:30<11:54:39,  3.37it/s] 61%|██████    | 227184/371472 [7:02:30<12:23:41,  3.23it/s] 61%|██████    | 227185/371472 [7:02:31<12:16:10,  3.27it/s] 61%|██████    | 227186/371472 [7:02:31<11:39:30,  3.44it/s] 61%|██████    | 227187/371472 [7:02:31<11:16:46,  3.55it/s] 61%|██████    | 227188/371472 [7:02:32<10:55:12,  3.67it/s] 61%|██████    | 227189/371472 [7:02:32<11:05:15,  3.61it/s] 61%|██████    | 227190/371472 [7:02:32<11:37:05,  3.45it/s] 61%|██████    | 227191/371472 [7:02:32<11:30:02,  3.48it/s] 61%|██████    | 227192/371472 [7:02:33<11:03:15,  3.63it/s] 61%|██████    | 227193/371472 [7:02:33<10:50:41,  3.70it/s] 61%|██████    | 227194/371472 [7:02:33<10:51:24,  3.69it/s] 61%|██████    | 227195/371472 [7:02:34<11:37:31,  3.45it/s] 61%|██████    | 227196/371472 [7:02:34<11:48:36,  3.39it/s] 61%|██████    | 227197/371472 [7:02:34<12:01:11,  3.33it/s] 61%|██████    | 227198/371472 [7:02:35<12:40:36,  3.16it/s] 61%|██████    | 227199/371472 [7:02:35<12:53:28,  3.11it/s] 61%|██████    | 227200/371472 [7:02:35<12:13:18,  3.28it/s]                                                            {'loss': 2.9136, 'learning_rate': 4.4972957831455103e-07, 'epoch': 9.79}
 61%|██████    | 227200/371472 [7:02:35<12:13:18,  3.28it/s] 61%|██████    | 227201/371472 [7:02:35<11:38:19,  3.44it/s] 61%|██████    | 227202/371472 [7:02:36<11:46:21,  3.40it/s] 61%|██████    | 227203/371472 [7:02:36<11:53:41,  3.37it/s] 61%|██████    | 227204/371472 [7:02:36<11:10:53,  3.58it/s] 61%|██████    | 227205/371472 [7:02:36<11:11:48,  3.58it/s] 61%|██████    | 227206/371472 [7:02:37<11:22:47,  3.52it/s] 61%|██████    | 227207/371472 [7:02:37<11:02:37,  3.63it/s] 61%|██████    | 227208/371472 [7:02:37<11:16:25,  3.55it/s] 61%|██████    | 227209/371472 [7:02:38<11:08:58,  3.59it/s] 61%|██████    | 227210/371472 [7:02:38<10:58:19,  3.65it/s] 61%|██████    | 227211/371472 [7:02:38<10:46:59,  3.72it/s] 61%|██████    | 227212/371472 [7:02:38<10:49:35,  3.70it/s] 61%|██████    | 227213/371472 [7:02:39<11:40:04,  3.43it/s] 61%|██████    | 227214/371472 [7:02:39<11:27:20,  3.50it/s] 61%|██████    | 227215/371472 [7:02:39<11:00:40,  3.64it/s] 61%|██████    | 227216/371472 [7:02:40<11:11:39,  3.58it/s] 61%|██████    | 227217/371472 [7:02:40<11:30:36,  3.48it/s] 61%|██████    | 227218/371472 [7:02:40<11:42:08,  3.42it/s] 61%|██████    | 227219/371472 [7:02:41<12:16:56,  3.26it/s] 61%|██████    | 227220/371472 [7:02:41<12:04:09,  3.32it/s]                                                            {'loss': 3.0557, 'learning_rate': 4.4968109633907215e-07, 'epoch': 9.79}
 61%|██████    | 227220/371472 [7:02:41<12:04:09,  3.32it/s] 61%|██████    | 227221/371472 [7:02:41<12:01:15,  3.33it/s] 61%|██████    | 227222/371472 [7:02:41<11:41:11,  3.43it/s] 61%|██████    | 227223/371472 [7:02:42<11:28:06,  3.49it/s] 61%|██████    | 227224/371472 [7:02:42<11:13:28,  3.57it/s] 61%|██████    | 227225/371472 [7:02:42<10:53:28,  3.68it/s] 61%|██████    | 227226/371472 [7:02:42<11:11:24,  3.58it/s] 61%|██████    | 227227/371472 [7:02:43<11:02:05,  3.63it/s] 61%|██████    | 227228/371472 [7:02:43<11:05:08,  3.61it/s] 61%|██████    | 227229/371472 [7:02:43<10:42:15,  3.74it/s] 61%|██████    | 227230/371472 [7:02:43<10:30:49,  3.81it/s] 61%|██████    | 227231/371472 [7:02:44<11:00:04,  3.64it/s] 61%|██████    | 227232/371472 [7:02:44<10:55:01,  3.67it/s] 61%|██████    | 227233/371472 [7:02:44<11:02:03,  3.63it/s] 61%|██████    | 227234/371472 [7:02:45<10:57:57,  3.65it/s] 61%|██████    | 227235/371472 [7:02:45<11:05:01,  3.61it/s] 61%|██████    | 227236/371472 [7:02:45<11:59:59,  3.34it/s] 61%|██████    | 227237/371472 [7:02:46<12:04:31,  3.32it/s] 61%|██████    | 227238/371472 [7:02:46<11:44:31,  3.41it/s] 61%|██████    | 227239/371472 [7:02:46<11:26:24,  3.50it/s] 61%|██████    | 227240/371472 [7:02:46<11:39:55,  3.43it/s]                                                            {'loss': 3.0147, 'learning_rate': 4.496326143635932e-07, 'epoch': 9.79}
 61%|██████    | 227240/371472 [7:02:46<11:39:55,  3.43it/s] 61%|██████    | 227241/371472 [7:02:47<11:30:51,  3.48it/s] 61%|██████    | 227242/371472 [7:02:47<12:16:14,  3.27it/s] 61%|██████    | 227243/371472 [7:02:47<12:08:24,  3.30it/s] 61%|██████    | 227244/371472 [7:02:48<11:58:56,  3.34it/s] 61%|██████    | 227245/371472 [7:02:48<11:50:18,  3.38it/s] 61%|██████    | 227246/371472 [7:02:48<11:58:28,  3.35it/s] 61%|██████    | 227247/371472 [7:02:48<11:31:42,  3.48it/s] 61%|██████    | 227248/371472 [7:02:49<11:23:00,  3.52it/s] 61%|██████    | 227249/371472 [7:02:49<11:16:35,  3.55it/s] 61%|██████    | 227250/371472 [7:02:49<11:07:32,  3.60it/s] 61%|██████    | 227251/371472 [7:02:50<11:27:26,  3.50it/s] 61%|██████    | 227252/371472 [7:02:50<11:35:56,  3.45it/s] 61%|██████    | 227253/371472 [7:02:50<11:48:31,  3.39it/s] 61%|██████    | 227254/371472 [7:02:50<11:10:30,  3.58it/s] 61%|██████    | 227255/371472 [7:02:51<10:57:22,  3.66it/s] 61%|██████    | 227256/371472 [7:02:51<11:26:08,  3.50it/s] 61%|██████    | 227257/371472 [7:02:51<11:47:30,  3.40it/s] 61%|██████    | 227258/371472 [7:02:52<11:22:52,  3.52it/s] 61%|██████    | 227259/371472 [7:02:52<11:10:12,  3.59it/s] 61%|██████    | 227260/371472 [7:02:52<11:30:59,  3.48it/s]                                                            {'loss': 2.838, 'learning_rate': 4.495841323881144e-07, 'epoch': 9.79}
 61%|██████    | 227260/371472 [7:02:52<11:30:59,  3.48it/s] 61%|██████    | 227261/371472 [7:02:52<11:15:01,  3.56it/s] 61%|██████    | 227262/371472 [7:02:53<10:56:54,  3.66it/s] 61%|██████    | 227263/371472 [7:02:53<10:52:00,  3.69it/s] 61%|██████    | 227264/371472 [7:02:53<10:49:04,  3.70it/s] 61%|██████    | 227265/371472 [7:02:53<10:46:12,  3.72it/s] 61%|██████    | 227266/371472 [7:02:54<10:42:28,  3.74it/s] 61%|██████    | 227267/371472 [7:02:54<11:00:16,  3.64it/s] 61%|██████    | 227268/371472 [7:02:54<10:52:09,  3.69it/s] 61%|██████    | 227269/371472 [7:02:55<10:55:20,  3.67it/s] 61%|██████    | 227270/371472 [7:02:55<11:42:53,  3.42it/s] 61%|██████    | 227271/371472 [7:02:55<11:38:08,  3.44it/s] 61%|██████    | 227272/371472 [7:02:56<12:03:16,  3.32it/s] 61%|██████    | 227273/371472 [7:02:56<11:28:24,  3.49it/s] 61%|██████    | 227274/371472 [7:02:56<11:28:19,  3.49it/s] 61%|██████    | 227275/371472 [7:02:56<11:31:21,  3.48it/s] 61%|██████    | 227276/371472 [7:02:57<11:49:46,  3.39it/s] 61%|██████    | 227277/371472 [7:02:57<12:08:31,  3.30it/s] 61%|██████    | 227278/371472 [7:02:57<11:38:20,  3.44it/s] 61%|██████    | 227279/371472 [7:02:58<11:27:11,  3.50it/s] 61%|██████    | 227280/371472 [7:02:58<11:34:15,  3.46it/s]                                                            {'loss': 2.919, 'learning_rate': 4.495356504126354e-07, 'epoch': 9.79}
 61%|██████    | 227280/371472 [7:02:58<11:34:15,  3.46it/s] 61%|██████    | 227281/371472 [7:02:58<11:34:45,  3.46it/s] 61%|██████    | 227282/371472 [7:02:58<11:43:04,  3.42it/s] 61%|██████    | 227283/371472 [7:02:59<11:24:44,  3.51it/s] 61%|██████    | 227284/371472 [7:02:59<11:08:54,  3.59it/s] 61%|██████    | 227285/371472 [7:02:59<11:04:56,  3.61it/s] 61%|██████    | 227286/371472 [7:03:00<11:20:18,  3.53it/s] 61%|██████    | 227287/371472 [7:03:00<11:29:27,  3.49it/s] 61%|██████    | 227288/371472 [7:03:00<11:40:07,  3.43it/s] 61%|██████    | 227289/371472 [7:03:01<12:48:09,  3.13it/s] 61%|██████    | 227290/371472 [7:03:01<11:59:54,  3.34it/s] 61%|██████    | 227291/371472 [7:03:01<11:34:40,  3.46it/s] 61%|██████    | 227292/371472 [7:03:01<12:41:35,  3.16it/s] 61%|██████    | 227293/371472 [7:03:02<12:13:14,  3.28it/s] 61%|██████    | 227294/371472 [7:03:02<11:24:57,  3.51it/s] 61%|██████    | 227295/371472 [7:03:02<11:36:00,  3.45it/s] 61%|██████    | 227296/371472 [7:03:02<11:23:11,  3.52it/s] 61%|██████    | 227297/371472 [7:03:03<11:23:41,  3.51it/s] 61%|██████    | 227298/371472 [7:03:03<11:32:25,  3.47it/s] 61%|██████    | 227299/371472 [7:03:03<12:03:34,  3.32it/s] 61%|██████    | 227300/371472 [7:03:04<11:47:39,  3.40it/s]                                                            {'loss': 2.7432, 'learning_rate': 4.494871684371566e-07, 'epoch': 9.79}
 61%|██████    | 227300/371472 [7:03:04<11:47:39,  3.40it/s] 61%|██████    | 227301/371472 [7:03:04<11:20:56,  3.53it/s] 61%|██████    | 227302/371472 [7:03:04<11:21:48,  3.52it/s] 61%|██████    | 227303/371472 [7:03:04<10:46:40,  3.72it/s] 61%|██████    | 227304/371472 [7:03:05<10:33:44,  3.79it/s] 61%|██████    | 227305/371472 [7:03:05<10:33:16,  3.79it/s] 61%|██████    | 227306/371472 [7:03:05<11:23:57,  3.51it/s] 61%|██████    | 227307/371472 [7:03:06<11:29:30,  3.48it/s] 61%|██████    | 227308/371472 [7:03:06<11:40:04,  3.43it/s] 61%|██████    | 227309/371472 [7:03:06<11:31:15,  3.48it/s] 61%|██████    | 227310/371472 [7:03:06<11:18:14,  3.54it/s] 61%|██████    | 227311/371472 [7:03:07<11:31:59,  3.47it/s] 61%|██████    | 227312/371472 [7:03:07<12:23:13,  3.23it/s] 61%|██████    | 227313/371472 [7:03:07<11:45:38,  3.40it/s] 61%|██████    | 227314/371472 [7:03:08<12:01:02,  3.33it/s] 61%|██████    | 227315/371472 [7:03:08<11:50:54,  3.38it/s] 61%|██████    | 227316/371472 [7:03:08<11:26:28,  3.50it/s] 61%|██████    | 227317/371472 [7:03:08<10:57:35,  3.65it/s] 61%|██████    | 227318/371472 [7:03:09<11:58:55,  3.34it/s] 61%|██████    | 227319/371472 [7:03:09<12:02:37,  3.32it/s] 61%|██████    | 227320/371472 [7:03:09<11:33:51,  3.46it/s]                                                            {'loss': 2.8526, 'learning_rate': 4.4943868646167767e-07, 'epoch': 9.79}
 61%|██████    | 227320/371472 [7:03:09<11:33:51,  3.46it/s] 61%|██████    | 227321/371472 [7:03:10<11:51:34,  3.38it/s] 61%|██████    | 227322/371472 [7:03:10<11:55:41,  3.36it/s] 61%|██████    | 227323/371472 [7:03:10<11:42:10,  3.42it/s] 61%|██████    | 227324/371472 [7:03:11<12:02:38,  3.32it/s] 61%|██████    | 227325/371472 [7:03:11<12:43:41,  3.15it/s] 61%|██████    | 227326/371472 [7:03:11<12:17:40,  3.26it/s] 61%|██████    | 227327/371472 [7:03:12<11:42:21,  3.42it/s] 61%|██████    | 227328/371472 [7:03:12<11:15:09,  3.56it/s] 61%|██████    | 227329/371472 [7:03:12<11:33:08,  3.47it/s] 61%|██████    | 227330/371472 [7:03:12<11:42:02,  3.42it/s] 61%|██████    | 227331/371472 [7:03:13<11:46:45,  3.40it/s] 61%|██████    | 227332/371472 [7:03:13<12:14:32,  3.27it/s] 61%|██████    | 227333/371472 [7:03:13<11:52:11,  3.37it/s] 61%|██████    | 227334/371472 [7:03:14<12:05:07,  3.31it/s] 61%|██████    | 227335/371472 [7:03:14<11:41:52,  3.42it/s] 61%|██████    | 227336/371472 [7:03:14<11:16:59,  3.55it/s] 61%|██████    | 227337/371472 [7:03:14<10:53:46,  3.67it/s] 61%|██████    | 227338/371472 [7:03:15<10:36:41,  3.77it/s] 61%|██████    | 227339/371472 [7:03:15<10:21:33,  3.86it/s] 61%|██████    | 227340/371472 [7:03:15<10:21:31,  3.87it/s]                                                            {'loss': 3.0056, 'learning_rate': 4.493902044861988e-07, 'epoch': 9.79}
 61%|██████    | 227340/371472 [7:03:15<10:21:31,  3.87it/s] 61%|██████    | 227341/371472 [7:03:15<10:50:08,  3.69it/s] 61%|██████    | 227342/371472 [7:03:16<10:53:37,  3.68it/s] 61%|██████    | 227343/371472 [7:03:16<12:04:59,  3.31it/s] 61%|██████    | 227344/371472 [7:03:16<11:39:58,  3.43it/s] 61%|██████    | 227345/371472 [7:03:17<11:38:11,  3.44it/s] 61%|██████    | 227346/371472 [7:03:17<12:09:54,  3.29it/s] 61%|██████    | 227347/371472 [7:03:17<11:33:28,  3.46it/s] 61%|██████    | 227348/371472 [7:03:18<11:34:45,  3.46it/s] 61%|██████    | 227349/371472 [7:03:18<11:23:26,  3.51it/s] 61%|██████    | 227350/371472 [7:03:18<10:59:59,  3.64it/s] 61%|██████    | 227351/371472 [7:03:18<10:52:02,  3.68it/s] 61%|██████    | 227352/371472 [7:03:19<10:51:12,  3.69it/s] 61%|██████    | 227353/371472 [7:03:19<11:37:55,  3.44it/s] 61%|██████    | 227354/371472 [7:03:19<11:24:40,  3.51it/s] 61%|██████    | 227355/371472 [7:03:19<11:21:48,  3.52it/s] 61%|██████    | 227356/371472 [7:03:20<11:07:05,  3.60it/s] 61%|██████    | 227357/371472 [7:03:20<10:42:49,  3.74it/s] 61%|██████    | 227358/371472 [7:03:20<10:21:04,  3.87it/s] 61%|██████    | 227359/371472 [7:03:21<11:03:58,  3.62it/s] 61%|██████    | 227360/371472 [7:03:21<11:28:33,  3.49it/s]                                                            {'loss': 2.8441, 'learning_rate': 4.4934172251071986e-07, 'epoch': 9.79}
 61%|██████    | 227360/371472 [7:03:21<11:28:33,  3.49it/s] 61%|██████    | 227361/371472 [7:03:21<11:18:04,  3.54it/s] 61%|██████    | 227362/371472 [7:03:21<10:46:06,  3.72it/s] 61%|██████    | 227363/371472 [7:03:22<11:14:04,  3.56it/s] 61%|██████    | 227364/371472 [7:03:22<10:56:45,  3.66it/s] 61%|██████    | 227365/371472 [7:03:22<10:43:15,  3.73it/s] 61%|██████    | 227366/371472 [7:03:23<12:14:41,  3.27it/s] 61%|██████    | 227367/371472 [7:03:23<12:02:39,  3.32it/s] 61%|██████    | 227368/371472 [7:03:23<11:59:28,  3.34it/s] 61%|██████    | 227369/371472 [7:03:23<11:26:03,  3.50it/s] 61%|██████    | 227370/371472 [7:03:24<11:01:57,  3.63it/s] 61%|██████    | 227371/371472 [7:03:24<12:15:50,  3.26it/s] 61%|██████    | 227372/371472 [7:03:24<12:13:12,  3.28it/s] 61%|██████    | 227373/371472 [7:03:25<11:46:30,  3.40it/s] 61%|██████    | 227374/371472 [7:03:25<11:23:29,  3.51it/s] 61%|██████    | 227375/371472 [7:03:25<11:07:38,  3.60it/s] 61%|██████    | 227376/371472 [7:03:25<11:22:31,  3.52it/s] 61%|██████    | 227377/371472 [7:03:26<11:07:14,  3.60it/s] 61%|██████    | 227378/371472 [7:03:26<13:02:03,  3.07it/s] 61%|██████    | 227379/371472 [7:03:26<12:23:01,  3.23it/s] 61%|██████    | 227380/371472 [7:03:27<12:12:23,  3.28it/s]                                                            {'loss': 2.9399, 'learning_rate': 4.4929324053524104e-07, 'epoch': 9.79}
 61%|██████    | 227380/371472 [7:03:27<12:12:23,  3.28it/s] 61%|██████    | 227381/371472 [7:03:27<12:10:11,  3.29it/s] 61%|██████    | 227382/371472 [7:03:27<12:22:42,  3.23it/s] 61%|██████    | 227383/371472 [7:03:28<12:14:21,  3.27it/s] 61%|██████    | 227384/371472 [7:03:28<11:40:19,  3.43it/s] 61%|██████    | 227385/371472 [7:03:28<11:37:49,  3.44it/s] 61%|██████    | 227386/371472 [7:03:28<11:14:30,  3.56it/s] 61%|██████    | 227387/371472 [7:03:29<11:55:10,  3.36it/s] 61%|██████    | 227388/371472 [7:03:29<11:50:16,  3.38it/s] 61%|██████    | 227389/371472 [7:03:29<11:11:37,  3.58it/s] 61%|██████    | 227390/371472 [7:03:30<11:19:42,  3.53it/s] 61%|██████    | 227391/371472 [7:03:30<10:58:39,  3.65it/s] 61%|██████    | 227392/371472 [7:03:30<12:07:16,  3.30it/s] 61%|██████    | 227393/371472 [7:03:30<11:39:27,  3.43it/s] 61%|██████    | 227394/371472 [7:03:31<11:24:31,  3.51it/s] 61%|██████    | 227395/371472 [7:03:31<11:28:02,  3.49it/s] 61%|██████    | 227396/371472 [7:03:31<12:07:32,  3.30it/s] 61%|██████    | 227397/371472 [7:03:32<11:34:57,  3.46it/s] 61%|██████    | 227398/371472 [7:03:32<12:40:19,  3.16it/s] 61%|██████    | 227399/371472 [7:03:32<12:37:06,  3.17it/s] 61%|██████    | 227400/371472 [7:03:33<12:11:25,  3.28it/s]                                                            {'loss': 2.9522, 'learning_rate': 4.4924475855976206e-07, 'epoch': 9.79}
 61%|██████    | 227400/371472 [7:03:33<12:11:25,  3.28it/s] 61%|██████    | 227401/371472 [7:03:33<12:07:01,  3.30it/s] 61%|██████    | 227402/371472 [7:03:33<11:36:22,  3.45it/s] 61%|██████    | 227403/371472 [7:03:34<12:37:24,  3.17it/s] 61%|██████    | 227404/371472 [7:03:34<11:53:05,  3.37it/s] 61%|██████    | 227405/371472 [7:03:34<11:35:33,  3.45it/s] 61%|██████    | 227406/371472 [7:03:34<11:16:09,  3.55it/s] 61%|██████    | 227407/371472 [7:03:35<11:02:06,  3.63it/s] 61%|██████    | 227408/371472 [7:03:35<10:52:52,  3.68it/s] 61%|██████    | 227409/371472 [7:03:35<11:01:03,  3.63it/s] 61%|██████    | 227410/371472 [7:03:35<10:56:30,  3.66it/s] 61%|██████    | 227411/371472 [7:03:36<11:05:28,  3.61it/s] 61%|██████    | 227412/371472 [7:03:36<11:39:45,  3.43it/s] 61%|██████    | 227413/371472 [7:03:36<11:49:13,  3.39it/s] 61%|██████    | 227414/371472 [7:03:37<12:03:07,  3.32it/s] 61%|██████    | 227415/371472 [7:03:37<12:10:34,  3.29it/s] 61%|██████    | 227416/371472 [7:03:37<11:44:20,  3.41it/s] 61%|██████    | 227417/371472 [7:03:37<11:36:52,  3.45it/s] 61%|██████    | 227418/371472 [7:03:38<12:01:27,  3.33it/s] 61%|██████    | 227419/371472 [7:03:38<11:35:05,  3.45it/s] 61%|██████    | 227420/371472 [7:03:38<11:01:55,  3.63it/s]                                                            {'loss': 2.8226, 'learning_rate': 4.4919627658428324e-07, 'epoch': 9.8}
 61%|██████    | 227420/371472 [7:03:38<11:01:55,  3.63it/s] 61%|██████    | 227421/371472 [7:03:39<11:15:32,  3.55it/s] 61%|██████    | 227422/371472 [7:03:39<11:52:49,  3.37it/s] 61%|██████    | 227423/371472 [7:03:39<11:30:47,  3.48it/s] 61%|██████    | 227424/371472 [7:03:39<11:18:13,  3.54it/s] 61%|██████    | 227425/371472 [7:03:40<11:13:27,  3.56it/s] 61%|██████    | 227426/371472 [7:03:40<10:41:35,  3.74it/s] 61%|██████    | 227427/371472 [7:03:40<10:44:13,  3.73it/s] 61%|██████    | 227428/371472 [7:03:41<10:41:07,  3.74it/s] 61%|██████    | 227429/371472 [7:03:41<11:01:46,  3.63it/s] 61%|██████    | 227430/371472 [7:03:41<10:45:59,  3.72it/s] 61%|██████    | 227431/371472 [7:03:41<10:49:02,  3.70it/s] 61%|██████    | 227432/371472 [7:03:42<10:57:07,  3.65it/s] 61%|██████    | 227433/371472 [7:03:42<11:01:36,  3.63it/s] 61%|██████    | 227434/371472 [7:03:42<10:50:23,  3.69it/s] 61%|██████    | 227435/371472 [7:03:42<10:48:26,  3.70it/s] 61%|██████    | 227436/371472 [7:03:43<11:24:02,  3.51it/s] 61%|██████    | 227437/371472 [7:03:43<11:28:12,  3.49it/s] 61%|██████    | 227438/371472 [7:03:43<10:58:09,  3.65it/s] 61%|██████    | 227439/371472 [7:03:44<10:53:00,  3.68it/s] 61%|██████    | 227440/371472 [7:03:44<10:31:26,  3.80it/s]                                                            {'loss': 2.991, 'learning_rate': 4.491477946088043e-07, 'epoch': 9.8}
 61%|██████    | 227440/371472 [7:03:44<10:31:26,  3.80it/s] 61%|██████    | 227441/371472 [7:03:44<10:44:52,  3.72it/s] 61%|██████    | 227442/371472 [7:03:44<11:14:52,  3.56it/s] 61%|██████    | 227443/371472 [7:03:45<11:01:17,  3.63it/s] 61%|██████    | 227444/371472 [7:03:45<10:50:13,  3.69it/s] 61%|██████    | 227445/371472 [7:03:45<10:40:04,  3.75it/s] 61%|██████    | 227446/371472 [7:03:45<10:36:15,  3.77it/s] 61%|██████    | 227447/371472 [7:03:46<10:23:57,  3.85it/s] 61%|██████    | 227448/371472 [7:03:46<10:27:23,  3.83it/s] 61%|██████    | 227449/371472 [7:03:46<10:22:39,  3.86it/s] 61%|██████    | 227450/371472 [7:03:46<10:22:50,  3.85it/s] 61%|██████    | 227451/371472 [7:03:47<10:24:00,  3.85it/s] 61%|██████    | 227452/371472 [7:03:47<10:29:21,  3.81it/s] 61%|██████    | 227453/371472 [7:03:47<10:39:15,  3.75it/s] 61%|██████    | 227454/371472 [7:03:48<11:03:19,  3.62it/s] 61%|██████    | 227455/371472 [7:03:48<11:08:55,  3.59it/s] 61%|██████    | 227456/371472 [7:03:48<10:50:28,  3.69it/s] 61%|██████    | 227457/371472 [7:03:48<12:11:50,  3.28it/s] 61%|██████    | 227458/371472 [7:03:49<11:50:05,  3.38it/s] 61%|██████    | 227459/371472 [7:03:49<11:40:54,  3.42it/s] 61%|██████    | 227460/371472 [7:03:49<12:36:35,  3.17it/s]                                                            {'loss': 2.8225, 'learning_rate': 4.4909931263332543e-07, 'epoch': 9.8}
 61%|██████    | 227460/371472 [7:03:49<12:36:35,  3.17it/s] 61%|██████    | 227461/371472 [7:03:50<11:59:36,  3.34it/s] 61%|██████    | 227462/371472 [7:03:50<11:40:43,  3.43it/s] 61%|██████    | 227463/371472 [7:03:50<11:24:58,  3.50it/s] 61%|██████    | 227464/371472 [7:03:51<11:24:47,  3.50it/s] 61%|██████    | 227465/371472 [7:03:51<11:17:01,  3.55it/s] 61%|██████    | 227466/371472 [7:03:51<11:07:04,  3.60it/s] 61%|██████    | 227467/371472 [7:03:51<11:43:54,  3.41it/s] 61%|██████    | 227468/371472 [7:03:52<11:07:27,  3.60it/s] 61%|██████    | 227469/371472 [7:03:52<11:26:38,  3.50it/s] 61%|██████    | 227470/371472 [7:03:52<11:12:24,  3.57it/s] 61%|██████    | 227471/371472 [7:03:52<10:57:24,  3.65it/s] 61%|██████    | 227472/371472 [7:03:53<10:49:13,  3.70it/s] 61%|██████    | 227473/371472 [7:03:53<10:52:27,  3.68it/s] 61%|██████    | 227474/371472 [7:03:53<11:20:35,  3.53it/s] 61%|██████    | 227475/371472 [7:03:54<11:34:12,  3.46it/s] 61%|██████    | 227476/371472 [7:03:54<11:54:16,  3.36it/s] 61%|██████    | 227477/371472 [7:03:54<11:24:51,  3.50it/s] 61%|██████    | 227478/371472 [7:03:54<11:35:40,  3.45it/s] 61%|██████    | 227479/371472 [7:03:55<11:16:31,  3.55it/s] 61%|██████    | 227480/371472 [7:03:55<11:12:37,  3.57it/s]                                                            {'loss': 2.9458, 'learning_rate': 4.490508306578465e-07, 'epoch': 9.8}
 61%|██████    | 227480/371472 [7:03:55<11:12:37,  3.57it/s] 61%|██████    | 227481/371472 [7:03:55<11:48:01,  3.39it/s] 61%|██████    | 227482/371472 [7:03:56<11:52:06,  3.37it/s] 61%|██████    | 227483/371472 [7:03:56<11:20:01,  3.53it/s] 61%|██████    | 227484/371472 [7:03:56<12:00:23,  3.33it/s] 61%|██████    | 227485/371472 [7:03:56<11:25:43,  3.50it/s] 61%|██████    | 227486/371472 [7:03:57<11:12:01,  3.57it/s] 61%|██████    | 227487/371472 [7:03:57<11:23:52,  3.51it/s] 61%|██████    | 227488/371472 [7:03:57<11:42:13,  3.42it/s] 61%|██████    | 227489/371472 [7:03:58<11:22:05,  3.52it/s] 61%|██████    | 227490/371472 [7:03:58<11:09:38,  3.58it/s] 61%|██████    | 227491/371472 [7:03:58<11:10:04,  3.58it/s] 61%|██████    | 227492/371472 [7:03:58<11:05:49,  3.60it/s] 61%|██████    | 227493/371472 [7:03:59<11:02:00,  3.62it/s] 61%|██████    | 227494/371472 [7:03:59<11:33:37,  3.46it/s] 61%|██████    | 227495/371472 [7:03:59<10:58:32,  3.64it/s] 61%|██████    | 227496/371472 [7:04:00<11:11:36,  3.57it/s] 61%|██████    | 227497/371472 [7:04:00<11:25:16,  3.50it/s] 61%|██████    | 227498/371472 [7:04:00<11:13:20,  3.56it/s] 61%|██████    | 227499/371472 [7:04:00<11:09:35,  3.58it/s] 61%|██████    | 227500/371472 [7:04:01<11:03:33,  3.62it/s]                                                            {'loss': 2.6666, 'learning_rate': 4.490023486823677e-07, 'epoch': 9.8}
 61%|██████    | 227500/371472 [7:04:01<11:03:33,  3.62it/s] 61%|██████    | 227501/371472 [7:04:01<11:00:59,  3.63it/s] 61%|██████    | 227502/371472 [7:04:01<11:56:25,  3.35it/s] 61%|██████    | 227503/371472 [7:04:02<11:35:47,  3.45it/s] 61%|██████    | 227504/371472 [7:04:02<12:26:48,  3.21it/s] 61%|██████    | 227505/371472 [7:04:02<11:52:01,  3.37it/s] 61%|██████    | 227506/371472 [7:04:02<11:46:14,  3.40it/s] 61%|██████    | 227507/371472 [7:04:03<11:27:32,  3.49it/s] 61%|██████    | 227508/371472 [7:04:03<11:01:57,  3.62it/s] 61%|██████    | 227509/371472 [7:04:03<11:02:56,  3.62it/s] 61%|██████    | 227510/371472 [7:04:04<11:09:23,  3.58it/s] 61%|██████    | 227511/371472 [7:04:04<11:25:43,  3.50it/s] 61%|██████    | 227512/371472 [7:04:04<11:15:07,  3.55it/s] 61%|██████    | 227513/371472 [7:04:04<11:12:00,  3.57it/s] 61%|██████    | 227514/371472 [7:04:05<13:09:16,  3.04it/s] 61%|██████    | 227515/371472 [7:04:05<12:20:01,  3.24it/s] 61%|██████    | 227516/371472 [7:04:05<12:16:47,  3.26it/s] 61%|██████    | 227517/371472 [7:04:06<11:54:10,  3.36it/s] 61%|██████    | 227518/371472 [7:04:06<11:20:58,  3.52it/s] 61%|██████    | 227519/371472 [7:04:06<11:45:02,  3.40it/s] 61%|██████    | 227520/371472 [7:04:07<12:00:39,  3.33it/s]                                                            {'loss': 2.9069, 'learning_rate': 4.4895386670688875e-07, 'epoch': 9.8}
 61%|██████    | 227520/371472 [7:04:07<12:00:39,  3.33it/s] 61%|██████    | 227521/371472 [7:04:07<11:53:44,  3.36it/s] 61%|██████    | 227522/371472 [7:04:07<11:22:12,  3.52it/s] 61%|██████    | 227523/371472 [7:04:07<11:33:17,  3.46it/s] 61%|██████    | 227524/371472 [7:04:08<11:21:00,  3.52it/s] 61%|██████    | 227525/371472 [7:04:08<11:49:26,  3.38it/s] 61%|██████    | 227526/371472 [7:04:08<11:43:14,  3.41it/s] 61%|██████▏   | 227527/371472 [7:04:09<11:25:27,  3.50it/s] 61%|██████▏   | 227528/371472 [7:04:09<10:53:29,  3.67it/s] 61%|██████▏   | 227529/371472 [7:04:09<11:12:44,  3.57it/s] 61%|██████▏   | 227530/371472 [7:04:09<11:06:54,  3.60it/s] 61%|██████▏   | 227531/371472 [7:04:10<10:48:24,  3.70it/s] 61%|██████▏   | 227532/371472 [7:04:10<12:02:01,  3.32it/s] 61%|██████▏   | 227533/371472 [7:04:10<11:28:37,  3.48it/s] 61%|██████▏   | 227534/371472 [7:04:11<11:54:23,  3.36it/s] 61%|██████▏   | 227535/371472 [7:04:11<11:26:30,  3.49it/s] 61%|██████▏   | 227536/371472 [7:04:11<12:14:02,  3.27it/s] 61%|██████▏   | 227537/371472 [7:04:11<11:32:53,  3.46it/s] 61%|██████▏   | 227538/371472 [7:04:12<11:03:24,  3.62it/s] 61%|██████▏   | 227539/371472 [7:04:12<10:43:48,  3.73it/s] 61%|██████▏   | 227540/371472 [7:04:12<11:05:34,  3.60it/s]                                                            {'loss': 3.0872, 'learning_rate': 4.4890538473140977e-07, 'epoch': 9.8}
 61%|██████▏   | 227540/371472 [7:04:12<11:05:34,  3.60it/s] 61%|██████▏   | 227541/371472 [7:04:13<11:14:59,  3.55it/s] 61%|██████▏   | 227542/371472 [7:04:13<10:45:25,  3.72it/s] 61%|██████▏   | 227543/371472 [7:04:13<10:37:42,  3.76it/s] 61%|██████▏   | 227544/371472 [7:04:13<10:41:38,  3.74it/s] 61%|██████▏   | 227545/371472 [7:04:14<11:08:23,  3.59it/s] 61%|██████▏   | 227546/371472 [7:04:14<11:08:03,  3.59it/s] 61%|██████▏   | 227547/371472 [7:04:14<11:04:03,  3.61it/s] 61%|██████▏   | 227548/371472 [7:04:15<12:09:12,  3.29it/s] 61%|██████▏   | 227549/371472 [7:04:15<11:48:51,  3.38it/s] 61%|██████▏   | 227550/371472 [7:04:15<11:37:32,  3.44it/s] 61%|██████▏   | 227551/371472 [7:04:15<11:24:32,  3.50it/s] 61%|██████▏   | 227552/371472 [7:04:16<10:53:18,  3.67it/s] 61%|██████▏   | 227553/371472 [7:04:16<11:18:26,  3.54it/s] 61%|██████▏   | 227554/371472 [7:04:16<11:16:53,  3.54it/s] 61%|██████▏   | 227555/371472 [7:04:16<10:46:05,  3.71it/s] 61%|██████▏   | 227556/371472 [7:04:17<11:18:58,  3.53it/s] 61%|██████▏   | 227557/371472 [7:04:17<11:04:55,  3.61it/s] 61%|██████▏   | 227558/371472 [7:04:17<11:54:23,  3.36it/s] 61%|██████▏   | 227559/371472 [7:04:18<11:29:27,  3.48it/s] 61%|██████▏   | 227560/371472 [7:04:18<12:15:33,  3.26it/s]                                                            {'loss': 2.9714, 'learning_rate': 4.4885690275593095e-07, 'epoch': 9.8}
 61%|██████▏   | 227560/371472 [7:04:18<12:15:33,  3.26it/s] 61%|██████▏   | 227561/371472 [7:04:18<11:58:18,  3.34it/s] 61%|██████▏   | 227562/371472 [7:04:19<12:15:02,  3.26it/s] 61%|██████▏   | 227563/371472 [7:04:19<12:09:24,  3.29it/s] 61%|██████▏   | 227564/371472 [7:04:19<11:35:24,  3.45it/s] 61%|██████▏   | 227565/371472 [7:04:19<11:22:34,  3.51it/s] 61%|██████▏   | 227566/371472 [7:04:20<10:52:37,  3.68it/s] 61%|██████▏   | 227567/371472 [7:04:20<11:37:26,  3.44it/s] 61%|██████▏   | 227568/371472 [7:04:20<11:22:14,  3.52it/s] 61%|██████▏   | 227569/371472 [7:04:21<11:29:53,  3.48it/s] 61%|██████▏   | 227570/371472 [7:04:21<11:11:48,  3.57it/s] 61%|██████▏   | 227571/371472 [7:04:21<11:16:39,  3.54it/s] 61%|██████▏   | 227572/371472 [7:04:21<10:54:44,  3.66it/s] 61%|██████▏   | 227573/371472 [7:04:22<12:15:01,  3.26it/s] 61%|██████▏   | 227574/371472 [7:04:22<11:45:22,  3.40it/s] 61%|██████▏   | 227575/371472 [7:04:22<11:12:33,  3.57it/s] 61%|██████▏   | 227576/371472 [7:04:23<11:45:52,  3.40it/s] 61%|██████▏   | 227577/371472 [7:04:23<11:26:46,  3.49it/s] 61%|██████▏   | 227578/371472 [7:04:23<11:29:20,  3.48it/s] 61%|██████▏   | 227579/371472 [7:04:23<11:27:31,  3.49it/s] 61%|██████▏   | 227580/371472 [7:04:24<11:41:20,  3.42it/s]                                                            {'loss': 2.9422, 'learning_rate': 4.48808420780452e-07, 'epoch': 9.8}
 61%|██████▏   | 227580/371472 [7:04:24<11:41:20,  3.42it/s] 61%|██████▏   | 227581/371472 [7:04:24<11:44:36,  3.40it/s] 61%|██████▏   | 227582/371472 [7:04:24<11:36:54,  3.44it/s] 61%|██████▏   | 227583/371472 [7:04:25<11:23:04,  3.51it/s] 61%|██████▏   | 227584/371472 [7:04:25<11:19:14,  3.53it/s] 61%|██████▏   | 227585/371472 [7:04:25<11:00:50,  3.63it/s] 61%|██████▏   | 227586/371472 [7:04:25<11:18:54,  3.53it/s] 61%|██████▏   | 227587/371472 [7:04:26<11:10:20,  3.58it/s] 61%|██████▏   | 227588/371472 [7:04:26<10:43:54,  3.72it/s] 61%|██████▏   | 227589/371472 [7:04:26<10:47:17,  3.70it/s] 61%|██████▏   | 227590/371472 [7:04:27<11:43:28,  3.41it/s] 61%|██████▏   | 227591/371472 [7:04:27<12:02:16,  3.32it/s] 61%|██████▏   | 227592/371472 [7:04:27<11:56:46,  3.35it/s] 61%|██████▏   | 227593/371472 [7:04:27<11:31:50,  3.47it/s] 61%|██████▏   | 227594/371472 [7:04:28<11:26:56,  3.49it/s] 61%|██████▏   | 227595/371472 [7:04:28<10:57:42,  3.65it/s] 61%|██████▏   | 227596/371472 [7:04:28<11:05:47,  3.60it/s] 61%|██████▏   | 227597/371472 [7:04:29<10:55:27,  3.66it/s] 61%|██████▏   | 227598/371472 [7:04:29<10:55:52,  3.66it/s] 61%|██████▏   | 227599/371472 [7:04:29<11:01:56,  3.62it/s] 61%|██████▏   | 227600/371472 [7:04:30<13:19:06,  3.00it/s]                                                            {'loss': 2.8996, 'learning_rate': 4.4875993880497315e-07, 'epoch': 9.8}
 61%|██████▏   | 227600/371472 [7:04:30<13:19:06,  3.00it/s] 61%|██████▏   | 227601/371472 [7:04:30<12:41:52,  3.15it/s] 61%|██████▏   | 227602/371472 [7:04:30<12:25:32,  3.22it/s] 61%|██████▏   | 227603/371472 [7:04:30<11:52:38,  3.36it/s] 61%|██████▏   | 227604/371472 [7:04:31<11:32:16,  3.46it/s] 61%|██████▏   | 227605/371472 [7:04:31<11:17:55,  3.54it/s] 61%|██████▏   | 227606/371472 [7:04:31<11:27:11,  3.49it/s] 61%|██████▏   | 227607/371472 [7:04:31<11:14:06,  3.56it/s] 61%|██████▏   | 227608/371472 [7:04:32<11:16:18,  3.55it/s] 61%|██████▏   | 227609/371472 [7:04:32<11:27:57,  3.49it/s] 61%|██████▏   | 227610/371472 [7:04:32<12:19:09,  3.24it/s] 61%|██████▏   | 227611/371472 [7:04:33<12:15:31,  3.26it/s] 61%|██████▏   | 227612/371472 [7:04:33<11:53:13,  3.36it/s] 61%|██████▏   | 227613/371472 [7:04:33<11:11:13,  3.57it/s] 61%|██████▏   | 227614/371472 [7:04:34<11:13:31,  3.56it/s] 61%|██████▏   | 227615/371472 [7:04:34<11:39:48,  3.43it/s] 61%|██████▏   | 227616/371472 [7:04:34<11:41:58,  3.42it/s] 61%|██████▏   | 227617/371472 [7:04:34<11:25:45,  3.50it/s] 61%|██████▏   | 227618/371472 [7:04:35<11:29:57,  3.47it/s] 61%|██████▏   | 227619/371472 [7:04:35<10:53:03,  3.67it/s] 61%|██████▏   | 227620/371472 [7:04:35<11:18:49,  3.53it/s]                                                            {'loss': 3.0655, 'learning_rate': 4.487114568294942e-07, 'epoch': 9.8}
 61%|██████▏   | 227620/371472 [7:04:35<11:18:49,  3.53it/s] 61%|██████▏   | 227621/371472 [7:04:35<10:52:45,  3.67it/s] 61%|██████▏   | 227622/371472 [7:04:36<10:49:18,  3.69it/s] 61%|██████▏   | 227623/371472 [7:04:36<11:01:17,  3.63it/s] 61%|██████▏   | 227624/371472 [7:04:36<10:38:30,  3.75it/s] 61%|██████▏   | 227625/371472 [7:04:37<10:23:58,  3.84it/s] 61%|██████▏   | 227626/371472 [7:04:37<10:34:49,  3.78it/s] 61%|██████▏   | 227627/371472 [7:04:37<10:57:37,  3.65it/s] 61%|██████▏   | 227628/371472 [7:04:37<10:50:30,  3.69it/s] 61%|██████▏   | 227629/371472 [7:04:38<10:40:31,  3.74it/s] 61%|██████▏   | 227630/371472 [7:04:38<10:47:21,  3.70it/s] 61%|██████▏   | 227631/371472 [7:04:38<11:53:31,  3.36it/s] 61%|██████▏   | 227632/371472 [7:04:39<11:45:15,  3.40it/s] 61%|██████▏   | 227633/371472 [7:04:39<11:46:25,  3.39it/s] 61%|██████▏   | 227634/371472 [7:04:39<11:47:11,  3.39it/s] 61%|██████▏   | 227635/371472 [7:04:39<12:01:08,  3.32it/s] 61%|██████▏   | 227636/371472 [7:04:40<11:28:57,  3.48it/s] 61%|██████▏   | 227637/371472 [7:04:40<11:04:46,  3.61it/s] 61%|██████▏   | 227638/371472 [7:04:40<10:50:11,  3.69it/s] 61%|██████▏   | 227639/371472 [7:04:41<11:18:45,  3.53it/s] 61%|██████▏   | 227640/371472 [7:04:41<11:19:57,  3.53it/s]                                                            {'loss': 3.0768, 'learning_rate': 4.486629748540154e-07, 'epoch': 9.8}
 61%|██████▏   | 227640/371472 [7:04:41<11:19:57,  3.53it/s] 61%|██████▏   | 227641/371472 [7:04:41<11:25:42,  3.50it/s] 61%|██████▏   | 227642/371472 [7:04:41<11:43:26,  3.41it/s] 61%|██████▏   | 227643/371472 [7:04:42<11:10:08,  3.58it/s] 61%|██████▏   | 227644/371472 [7:04:42<11:10:54,  3.57it/s] 61%|██████▏   | 227645/371472 [7:04:42<11:08:49,  3.58it/s] 61%|██████▏   | 227646/371472 [7:04:43<11:09:01,  3.58it/s] 61%|██████▏   | 227647/371472 [7:04:43<11:12:33,  3.56it/s] 61%|██████▏   | 227648/371472 [7:04:43<10:50:55,  3.68it/s] 61%|██████▏   | 227649/371472 [7:04:43<10:44:11,  3.72it/s] 61%|██████▏   | 227650/371472 [7:04:44<11:31:08,  3.47it/s] 61%|██████▏   | 227651/371472 [7:04:44<11:40:41,  3.42it/s] 61%|██████▏   | 227652/371472 [7:04:44<12:45:15,  3.13it/s] 61%|██████▏   | 227653/371472 [7:04:45<12:45:35,  3.13it/s] 61%|██████▏   | 227654/371472 [7:04:45<12:05:20,  3.30it/s] 61%|██████▏   | 227655/371472 [7:04:45<11:50:34,  3.37it/s] 61%|██████▏   | 227656/371472 [7:04:45<11:29:14,  3.48it/s] 61%|██████▏   | 227657/371472 [7:04:46<11:07:15,  3.59it/s] 61%|██████▏   | 227658/371472 [7:04:46<10:49:58,  3.69it/s] 61%|██████▏   | 227659/371472 [7:04:46<10:58:57,  3.64it/s] 61%|██████▏   | 227660/371472 [7:04:47<10:52:48,  3.67it/s]                                                            {'loss': 2.8164, 'learning_rate': 4.486144928785364e-07, 'epoch': 9.81}
 61%|██████▏   | 227660/371472 [7:04:47<10:52:48,  3.67it/s] 61%|██████▏   | 227661/371472 [7:04:47<11:10:30,  3.57it/s] 61%|██████▏   | 227662/371472 [7:04:47<11:15:54,  3.55it/s] 61%|██████▏   | 227663/371472 [7:04:47<10:52:14,  3.67it/s] 61%|██████▏   | 227664/371472 [7:04:48<11:51:37,  3.37it/s] 61%|██████▏   | 227665/371472 [7:04:48<11:50:57,  3.37it/s] 61%|██████▏   | 227666/371472 [7:04:48<11:42:39,  3.41it/s] 61%|██████▏   | 227667/371472 [7:04:49<11:14:59,  3.55it/s] 61%|██████▏   | 227668/371472 [7:04:49<11:02:46,  3.62it/s] 61%|██████▏   | 227669/371472 [7:04:49<10:52:34,  3.67it/s] 61%|██████▏   | 227670/371472 [7:04:49<11:14:47,  3.55it/s] 61%|██████▏   | 227671/371472 [7:04:50<11:02:03,  3.62it/s] 61%|██████▏   | 227672/371472 [7:04:50<10:43:51,  3.72it/s] 61%|██████▏   | 227673/371472 [7:04:50<10:37:17,  3.76it/s] 61%|██████▏   | 227674/371472 [7:04:50<11:10:55,  3.57it/s] 61%|██████▏   | 227675/371472 [7:04:51<11:11:58,  3.57it/s] 61%|██████▏   | 227676/371472 [7:04:51<11:42:14,  3.41it/s] 61%|██████▏   | 227677/371472 [7:04:51<11:38:15,  3.43it/s] 61%|██████▏   | 227678/371472 [7:04:52<12:11:43,  3.28it/s] 61%|██████▏   | 227679/371472 [7:04:52<12:04:22,  3.31it/s] 61%|██████▏   | 227680/371472 [7:04:52<12:35:02,  3.17it/s]                                                            {'loss': 2.8971, 'learning_rate': 4.485660109030576e-07, 'epoch': 9.81}
 61%|██████▏   | 227680/371472 [7:04:52<12:35:02,  3.17it/s] 61%|██████▏   | 227681/371472 [7:04:53<13:01:34,  3.07it/s] 61%|██████▏   | 227682/371472 [7:04:53<12:20:21,  3.24it/s] 61%|██████▏   | 227683/371472 [7:04:53<12:11:29,  3.28it/s] 61%|██████▏   | 227684/371472 [7:04:54<12:18:51,  3.24it/s] 61%|██████▏   | 227685/371472 [7:04:54<12:00:13,  3.33it/s] 61%|██████▏   | 227686/371472 [7:04:54<11:35:38,  3.44it/s] 61%|██████▏   | 227687/371472 [7:04:54<11:46:05,  3.39it/s] 61%|██████▏   | 227688/371472 [7:04:55<11:22:50,  3.51it/s] 61%|██████▏   | 227689/371472 [7:04:55<12:07:31,  3.29it/s] 61%|██████▏   | 227690/371472 [7:04:55<11:18:38,  3.53it/s] 61%|██████▏   | 227691/371472 [7:04:56<11:10:01,  3.58it/s] 61%|██████▏   | 227692/371472 [7:04:56<10:41:58,  3.73it/s] 61%|██████▏   | 227693/371472 [7:04:56<11:02:32,  3.62it/s] 61%|██████▏   | 227694/371472 [7:04:56<11:14:32,  3.55it/s] 61%|██████▏   | 227695/371472 [7:04:57<11:01:32,  3.62it/s] 61%|██████▏   | 227696/371472 [7:04:57<11:31:45,  3.46it/s] 61%|██████▏   | 227697/371472 [7:04:57<11:32:03,  3.46it/s] 61%|██████▏   | 227698/371472 [7:04:58<13:22:03,  2.99it/s] 61%|██████▏   | 227699/371472 [7:04:58<12:30:33,  3.19it/s] 61%|██████▏   | 227700/371472 [7:04:58<11:57:26,  3.34it/s]                                                            {'loss': 2.8082, 'learning_rate': 4.4851752892757866e-07, 'epoch': 9.81}
 61%|██████▏   | 227700/371472 [7:04:58<11:57:26,  3.34it/s] 61%|██████▏   | 227701/371472 [7:04:59<12:19:20,  3.24it/s] 61%|██████▏   | 227702/371472 [7:04:59<11:48:40,  3.38it/s] 61%|██████▏   | 227703/371472 [7:04:59<11:58:38,  3.33it/s] 61%|██████▏   | 227704/371472 [7:04:59<11:31:08,  3.47it/s] 61%|██████▏   | 227705/371472 [7:05:00<11:46:16,  3.39it/s] 61%|██████▏   | 227706/371472 [7:05:00<11:22:03,  3.51it/s] 61%|██████▏   | 227707/371472 [7:05:00<11:21:39,  3.52it/s] 61%|██████▏   | 227708/371472 [7:05:00<11:06:57,  3.59it/s] 61%|██████▏   | 227709/371472 [7:05:01<11:31:09,  3.47it/s] 61%|██████▏   | 227710/371472 [7:05:01<11:24:40,  3.50it/s] 61%|██████▏   | 227711/371472 [7:05:01<11:53:46,  3.36it/s] 61%|██████▏   | 227712/371472 [7:05:02<11:47:06,  3.39it/s] 61%|██████▏   | 227713/371472 [7:05:02<11:16:46,  3.54it/s] 61%|██████▏   | 227714/371472 [7:05:02<11:03:49,  3.61it/s] 61%|██████▏   | 227715/371472 [7:05:02<11:08:22,  3.58it/s] 61%|██████▏   | 227716/371472 [7:05:03<10:57:55,  3.64it/s] 61%|██████▏   | 227717/371472 [7:05:03<10:54:26,  3.66it/s] 61%|██████▏   | 227718/371472 [7:05:03<11:10:35,  3.57it/s] 61%|██████▏   | 227719/371472 [7:05:04<10:54:08,  3.66it/s] 61%|██████▏   | 227720/371472 [7:05:04<10:38:52,  3.75it/s]                                                            {'loss': 2.8512, 'learning_rate': 4.484690469520998e-07, 'epoch': 9.81}
 61%|██████▏   | 227720/371472 [7:05:04<10:38:52,  3.75it/s] 61%|██████▏   | 227721/371472 [7:05:04<10:23:13,  3.84it/s] 61%|██████▏   | 227722/371472 [7:05:04<11:07:41,  3.59it/s] 61%|██████▏   | 227723/371472 [7:05:05<11:10:33,  3.57it/s] 61%|██████▏   | 227724/371472 [7:05:05<11:38:11,  3.43it/s] 61%|██████▏   | 227725/371472 [7:05:05<11:20:35,  3.52it/s] 61%|██████▏   | 227726/371472 [7:05:06<11:18:31,  3.53it/s] 61%|██████▏   | 227727/371472 [7:05:06<11:02:50,  3.61it/s] 61%|██████▏   | 227728/371472 [7:05:06<11:14:40,  3.55it/s] 61%|██████▏   | 227729/371472 [7:05:06<11:19:25,  3.53it/s] 61%|██████▏   | 227730/371472 [7:05:07<10:58:54,  3.64it/s] 61%|██████▏   | 227731/371472 [7:05:07<11:18:31,  3.53it/s] 61%|██████▏   | 227732/371472 [7:05:07<11:52:53,  3.36it/s] 61%|██████▏   | 227733/371472 [7:05:08<11:36:54,  3.44it/s] 61%|██████▏   | 227734/371472 [7:05:08<11:37:17,  3.44it/s] 61%|██████▏   | 227735/371472 [7:05:08<11:29:43,  3.47it/s] 61%|██████▏   | 227736/371472 [7:05:08<11:13:48,  3.56it/s] 61%|██████▏   | 227737/371472 [7:05:09<10:56:28,  3.65it/s] 61%|██████▏   | 227738/371472 [7:05:09<10:56:47,  3.65it/s] 61%|██████▏   | 227739/371472 [7:05:09<10:49:46,  3.69it/s] 61%|██████▏   | 227740/371472 [7:05:09<10:36:18,  3.76it/s]                                                            {'loss': 2.9921, 'learning_rate': 4.4842056497662086e-07, 'epoch': 9.81}
 61%|██████▏   | 227740/371472 [7:05:09<10:36:18,  3.76it/s] 61%|██████▏   | 227741/371472 [7:05:10<11:09:10,  3.58it/s] 61%|██████▏   | 227742/371472 [7:05:10<11:05:57,  3.60it/s] 61%|██████▏   | 227743/371472 [7:05:10<10:59:46,  3.63it/s] 61%|██████▏   | 227744/371472 [7:05:11<10:48:34,  3.69it/s] 61%|██████▏   | 227745/371472 [7:05:11<11:02:50,  3.61it/s] 61%|██████▏   | 227746/371472 [7:05:11<10:53:12,  3.67it/s] 61%|██████▏   | 227747/371472 [7:05:11<10:52:26,  3.67it/s] 61%|██████▏   | 227748/371472 [7:05:12<11:40:25,  3.42it/s] 61%|██████▏   | 227749/371472 [7:05:12<11:54:43,  3.35it/s] 61%|██████▏   | 227750/371472 [7:05:12<11:51:34,  3.37it/s] 61%|██████▏   | 227751/371472 [7:05:13<11:33:41,  3.45it/s] 61%|██████▏   | 227752/371472 [7:05:13<11:20:34,  3.52it/s] 61%|██████▏   | 227753/371472 [7:05:13<11:05:08,  3.60it/s] 61%|██████▏   | 227754/371472 [7:05:13<11:33:02,  3.46it/s] 61%|██████▏   | 227755/371472 [7:05:14<11:25:47,  3.49it/s] 61%|██████▏   | 227756/371472 [7:05:14<11:58:44,  3.33it/s] 61%|██████▏   | 227757/371472 [7:05:14<11:16:50,  3.54it/s] 61%|██████▏   | 227758/371472 [7:05:15<12:02:01,  3.32it/s] 61%|██████▏   | 227759/371472 [7:05:15<11:22:51,  3.51it/s] 61%|██████▏   | 227760/371472 [7:05:15<11:54:41,  3.35it/s]                                                            {'loss': 2.9215, 'learning_rate': 4.4837208300114204e-07, 'epoch': 9.81}
 61%|██████▏   | 227760/371472 [7:05:15<11:54:41,  3.35it/s] 61%|██████▏   | 227761/371472 [7:05:16<12:01:09,  3.32it/s] 61%|██████▏   | 227762/371472 [7:05:16<12:26:09,  3.21it/s] 61%|██████▏   | 227763/371472 [7:05:16<12:06:30,  3.30it/s] 61%|██████▏   | 227764/371472 [7:05:16<12:25:16,  3.21it/s] 61%|██████▏   | 227765/371472 [7:05:17<12:29:44,  3.19it/s] 61%|██████▏   | 227766/371472 [7:05:17<12:00:23,  3.32it/s] 61%|██████▏   | 227767/371472 [7:05:17<11:37:04,  3.44it/s] 61%|██████▏   | 227768/371472 [7:05:18<11:17:41,  3.53it/s] 61%|██████▏   | 227769/371472 [7:05:18<11:28:54,  3.48it/s] 61%|██████▏   | 227770/371472 [7:05:18<11:18:19,  3.53it/s] 61%|██████▏   | 227771/371472 [7:05:18<11:06:30,  3.59it/s] 61%|██████▏   | 227772/371472 [7:05:19<10:47:40,  3.70it/s] 61%|██████▏   | 227773/371472 [7:05:19<11:44:53,  3.40it/s] 61%|██████▏   | 227774/371472 [7:05:19<11:22:12,  3.51it/s] 61%|██████▏   | 227775/371472 [7:05:20<11:28:37,  3.48it/s] 61%|██████▏   | 227776/371472 [7:05:20<11:23:32,  3.50it/s] 61%|██████▏   | 227777/371472 [7:05:20<12:35:29,  3.17it/s] 61%|██████▏   | 227778/371472 [7:05:21<11:57:10,  3.34it/s] 61%|██████▏   | 227779/371472 [7:05:21<12:08:35,  3.29it/s] 61%|██████▏   | 227780/371472 [7:05:21<11:33:20,  3.45it/s]                                                            {'loss': 3.153, 'learning_rate': 4.4832360102566305e-07, 'epoch': 9.81}
 61%|██████▏   | 227780/371472 [7:05:21<11:33:20,  3.45it/s] 61%|██████▏   | 227781/371472 [7:05:21<11:23:12,  3.51it/s] 61%|██████▏   | 227782/371472 [7:05:22<11:55:56,  3.35it/s] 61%|██████▏   | 227783/371472 [7:05:22<11:38:31,  3.43it/s] 61%|██████▏   | 227784/371472 [7:05:22<12:42:27,  3.14it/s] 61%|██████▏   | 227785/371472 [7:05:23<12:17:31,  3.25it/s] 61%|██████▏   | 227786/371472 [7:05:23<12:48:06,  3.12it/s] 61%|██████▏   | 227787/371472 [7:05:23<12:50:20,  3.11it/s] 61%|██████▏   | 227788/371472 [7:05:24<11:54:17,  3.35it/s] 61%|██████▏   | 227789/371472 [7:05:24<12:27:17,  3.20it/s] 61%|██████▏   | 227790/371472 [7:05:24<11:46:50,  3.39it/s] 61%|██████▏   | 227791/371472 [7:05:24<11:11:54,  3.56it/s] 61%|██████▏   | 227792/371472 [7:05:25<11:00:17,  3.63it/s] 61%|██████▏   | 227793/371472 [7:05:25<10:56:32,  3.65it/s] 61%|██████▏   | 227794/371472 [7:05:25<10:55:56,  3.65it/s] 61%|██████▏   | 227795/371472 [7:05:26<11:19:58,  3.52it/s] 61%|██████▏   | 227796/371472 [7:05:26<11:12:33,  3.56it/s] 61%|██████▏   | 227797/371472 [7:05:26<11:06:53,  3.59it/s] 61%|██████▏   | 227798/371472 [7:05:26<11:34:21,  3.45it/s] 61%|██████▏   | 227799/371472 [7:05:27<11:39:28,  3.42it/s] 61%|██████▏   | 227800/371472 [7:05:27<11:23:51,  3.50it/s]                                                            {'loss': 2.9015, 'learning_rate': 4.4827511905018423e-07, 'epoch': 9.81}
 61%|██████▏   | 227800/371472 [7:05:27<11:23:51,  3.50it/s] 61%|██████▏   | 227801/371472 [7:05:27<11:44:09,  3.40it/s] 61%|██████▏   | 227802/371472 [7:05:28<11:42:12,  3.41it/s] 61%|██████▏   | 227803/371472 [7:05:28<11:30:29,  3.47it/s] 61%|██████▏   | 227804/371472 [7:05:28<11:30:32,  3.47it/s] 61%|██████▏   | 227805/371472 [7:05:28<11:17:48,  3.53it/s] 61%|██████▏   | 227806/371472 [7:05:29<11:58:43,  3.33it/s] 61%|██████▏   | 227807/371472 [7:05:29<11:31:19,  3.46it/s] 61%|██████▏   | 227808/371472 [7:05:29<11:27:35,  3.48it/s] 61%|██████▏   | 227809/371472 [7:05:30<11:14:07,  3.55it/s] 61%|██████▏   | 227810/371472 [7:05:30<11:55:03,  3.35it/s] 61%|██████▏   | 227811/371472 [7:05:30<12:49:37,  3.11it/s] 61%|██████▏   | 227812/371472 [7:05:31<13:01:26,  3.06it/s] 61%|██████▏   | 227813/371472 [7:05:31<12:13:49,  3.26it/s] 61%|██████▏   | 227814/371472 [7:05:31<11:54:27,  3.35it/s] 61%|██████▏   | 227815/371472 [7:05:31<11:58:24,  3.33it/s] 61%|██████▏   | 227816/371472 [7:05:32<12:06:09,  3.30it/s] 61%|██████▏   | 227817/371472 [7:05:32<12:27:19,  3.20it/s] 61%|██████▏   | 227818/371472 [7:05:32<12:12:34,  3.27it/s] 61%|██████▏   | 227819/371472 [7:05:33<11:40:32,  3.42it/s] 61%|██████▏   | 227820/371472 [7:05:33<11:57:49,  3.34it/s]                                                            {'loss': 3.0859, 'learning_rate': 4.482266370747053e-07, 'epoch': 9.81}
 61%|██████▏   | 227820/371472 [7:05:33<11:57:49,  3.34it/s] 61%|██████▏   | 227821/371472 [7:05:33<12:33:40,  3.18it/s] 61%|██████▏   | 227822/371472 [7:05:34<12:02:02,  3.32it/s] 61%|██████▏   | 227823/371472 [7:05:34<11:37:31,  3.43it/s] 61%|██████▏   | 227824/371472 [7:05:34<11:37:16,  3.43it/s] 61%|██████▏   | 227825/371472 [7:05:34<11:29:37,  3.47it/s] 61%|██████▏   | 227826/371472 [7:05:35<11:11:41,  3.56it/s] 61%|██████▏   | 227827/371472 [7:05:35<11:47:22,  3.38it/s] 61%|██████▏   | 227828/371472 [7:05:35<11:21:32,  3.51it/s] 61%|██████▏   | 227829/371472 [7:05:36<11:28:41,  3.48it/s] 61%|██████▏   | 227830/371472 [7:05:36<11:18:54,  3.53it/s] 61%|██████▏   | 227831/371472 [7:05:36<11:02:59,  3.61it/s] 61%|██████▏   | 227832/371472 [7:05:36<11:10:54,  3.57it/s] 61%|██████▏   | 227833/371472 [7:05:37<11:24:46,  3.50it/s] 61%|██████▏   | 227834/371472 [7:05:37<12:08:09,  3.29it/s] 61%|██████▏   | 227835/371472 [7:05:37<11:37:06,  3.43it/s] 61%|██████▏   | 227836/371472 [7:05:38<11:12:06,  3.56it/s] 61%|██████▏   | 227837/371472 [7:05:38<11:14:40,  3.55it/s] 61%|██████▏   | 227838/371472 [7:05:38<12:14:05,  3.26it/s] 61%|██████▏   | 227839/371472 [7:05:38<12:07:44,  3.29it/s] 61%|██████▏   | 227840/371472 [7:05:39<12:07:56,  3.29it/s]                                                            {'loss': 2.9796, 'learning_rate': 4.4817815509922643e-07, 'epoch': 9.81}
 61%|██████▏   | 227840/371472 [7:05:39<12:07:56,  3.29it/s] 61%|██████▏   | 227841/371472 [7:05:39<12:41:41,  3.14it/s] 61%|██████▏   | 227842/371472 [7:05:40<13:18:47,  3.00it/s] 61%|██████▏   | 227843/371472 [7:05:40<12:44:10,  3.13it/s] 61%|██████▏   | 227844/371472 [7:05:40<12:06:25,  3.30it/s] 61%|██████▏   | 227845/371472 [7:05:40<12:17:34,  3.25it/s] 61%|██████▏   | 227846/371472 [7:05:41<12:01:58,  3.32it/s] 61%|██████▏   | 227847/371472 [7:05:41<11:26:24,  3.49it/s] 61%|██████▏   | 227848/371472 [7:05:41<11:16:15,  3.54it/s] 61%|██████▏   | 227849/371472 [7:05:41<11:09:31,  3.58it/s] 61%|██████▏   | 227850/371472 [7:05:42<10:49:12,  3.69it/s] 61%|██████▏   | 227851/371472 [7:05:42<10:38:49,  3.75it/s] 61%|██████▏   | 227852/371472 [7:05:42<11:15:20,  3.54it/s] 61%|██████▏   | 227853/371472 [7:05:43<11:10:27,  3.57it/s] 61%|██████▏   | 227854/371472 [7:05:43<10:56:18,  3.65it/s] 61%|██████▏   | 227855/371472 [7:05:43<10:46:00,  3.71it/s] 61%|██████▏   | 227856/371472 [7:05:43<11:30:09,  3.47it/s] 61%|██████▏   | 227857/371472 [7:05:44<11:25:46,  3.49it/s] 61%|██████▏   | 227858/371472 [7:05:44<11:27:06,  3.48it/s] 61%|██████▏   | 227859/371472 [7:05:44<11:24:06,  3.50it/s] 61%|██████▏   | 227860/371472 [7:05:45<11:43:02,  3.40it/s]                                                            {'loss': 3.1393, 'learning_rate': 4.481296731237475e-07, 'epoch': 9.81}
 61%|██████▏   | 227860/371472 [7:05:45<11:43:02,  3.40it/s] 61%|██████▏   | 227861/371472 [7:05:45<11:15:11,  3.54it/s] 61%|██████▏   | 227862/371472 [7:05:45<10:53:50,  3.66it/s] 61%|██████▏   | 227863/371472 [7:05:45<10:28:10,  3.81it/s] 61%|██████▏   | 227864/371472 [7:05:46<10:33:47,  3.78it/s] 61%|██████▏   | 227865/371472 [7:05:46<10:41:42,  3.73it/s] 61%|██████▏   | 227866/371472 [7:05:46<10:49:20,  3.69it/s] 61%|██████▏   | 227867/371472 [7:05:47<12:17:33,  3.25it/s] 61%|██████▏   | 227868/371472 [7:05:47<12:01:31,  3.32it/s] 61%|██████▏   | 227869/371472 [7:05:47<11:27:05,  3.48it/s] 61%|██████▏   | 227870/371472 [7:05:47<11:40:56,  3.41it/s] 61%|██████▏   | 227871/371472 [7:05:48<11:20:42,  3.52it/s] 61%|██████▏   | 227872/371472 [7:05:48<12:28:27,  3.20it/s] 61%|██████▏   | 227873/371472 [7:05:48<12:05:14,  3.30it/s] 61%|██████▏   | 227874/371472 [7:05:49<11:57:31,  3.34it/s] 61%|██████▏   | 227875/371472 [7:05:49<11:21:57,  3.51it/s] 61%|██████▏   | 227876/371472 [7:05:49<11:10:22,  3.57it/s] 61%|██████▏   | 227877/371472 [7:05:49<11:16:38,  3.54it/s] 61%|██████▏   | 227878/371472 [7:05:50<10:46:12,  3.70it/s] 61%|██████▏   | 227879/371472 [7:05:50<10:53:43,  3.66it/s] 61%|██████▏   | 227880/371472 [7:05:50<11:14:02,  3.55it/s]                                                            {'loss': 3.0217, 'learning_rate': 4.480811911482687e-07, 'epoch': 9.82}
 61%|██████▏   | 227880/371472 [7:05:50<11:14:02,  3.55it/s] 61%|██████▏   | 227881/371472 [7:05:51<11:04:39,  3.60it/s] 61%|██████▏   | 227882/371472 [7:05:51<11:02:54,  3.61it/s] 61%|██████▏   | 227883/371472 [7:05:51<10:52:30,  3.67it/s] 61%|██████▏   | 227884/371472 [7:05:51<11:17:22,  3.53it/s] 61%|██████▏   | 227885/371472 [7:05:52<11:26:50,  3.48it/s] 61%|██████▏   | 227886/371472 [7:05:52<11:47:51,  3.38it/s] 61%|██████▏   | 227887/371472 [7:05:52<12:51:17,  3.10it/s] 61%|██████▏   | 227888/371472 [7:05:53<12:08:41,  3.28it/s] 61%|██████▏   | 227889/371472 [7:05:53<11:46:40,  3.39it/s] 61%|██████▏   | 227890/371472 [7:05:53<11:30:08,  3.47it/s] 61%|██████▏   | 227891/371472 [7:05:53<11:27:41,  3.48it/s] 61%|██████▏   | 227892/371472 [7:05:54<11:33:23,  3.45it/s] 61%|██████▏   | 227893/371472 [7:05:54<11:31:16,  3.46it/s] 61%|██████▏   | 227894/371472 [7:05:54<11:27:08,  3.48it/s] 61%|██████▏   | 227895/371472 [7:05:55<11:29:45,  3.47it/s] 61%|██████▏   | 227896/371472 [7:05:55<11:21:48,  3.51it/s] 61%|██████▏   | 227897/371472 [7:05:55<11:06:53,  3.59it/s] 61%|██████▏   | 227898/371472 [7:05:56<12:53:38,  3.09it/s] 61%|██████▏   | 227899/371472 [7:05:56<13:01:17,  3.06it/s] 61%|██████▏   | 227900/371472 [7:05:56<12:18:37,  3.24it/s]                                                            {'loss': 2.948, 'learning_rate': 4.4803270917278975e-07, 'epoch': 9.82}
 61%|██████▏   | 227900/371472 [7:05:56<12:18:37,  3.24it/s] 61%|██████▏   | 227901/371472 [7:05:56<11:36:58,  3.43it/s] 61%|██████▏   | 227902/371472 [7:05:57<12:11:44,  3.27it/s] 61%|██████▏   | 227903/371472 [7:05:57<11:57:33,  3.33it/s] 61%|██████▏   | 227904/371472 [7:05:57<11:18:11,  3.53it/s] 61%|██████▏   | 227905/371472 [7:05:58<11:08:06,  3.58it/s] 61%|██████▏   | 227906/371472 [7:05:58<11:44:06,  3.40it/s] 61%|██████▏   | 227907/371472 [7:05:58<11:11:18,  3.56it/s] 61%|██████▏   | 227908/371472 [7:05:58<10:49:17,  3.69it/s] 61%|██████▏   | 227909/371472 [7:05:59<10:46:33,  3.70it/s] 61%|██████▏   | 227910/371472 [7:05:59<11:11:00,  3.57it/s] 61%|██████▏   | 227911/371472 [7:05:59<10:54:47,  3.65it/s] 61%|██████▏   | 227912/371472 [7:05:59<10:43:44,  3.72it/s] 61%|██████▏   | 227913/371472 [7:06:00<10:42:22,  3.72it/s] 61%|██████▏   | 227914/371472 [7:06:00<10:40:35,  3.74it/s] 61%|██████▏   | 227915/371472 [7:06:00<10:40:53,  3.73it/s] 61%|██████▏   | 227916/371472 [7:06:01<10:41:36,  3.73it/s] 61%|██████▏   | 227917/371472 [7:06:01<10:36:02,  3.76it/s] 61%|██████▏   | 227918/371472 [7:06:01<10:27:18,  3.81it/s] 61%|██████▏   | 227919/371472 [7:06:01<11:43:39,  3.40it/s] 61%|██████▏   | 227920/371472 [7:06:02<11:13:14,  3.55it/s]                                                            {'loss': 2.9418, 'learning_rate': 4.4798422719731087e-07, 'epoch': 9.82}
 61%|██████▏   | 227920/371472 [7:06:02<11:13:14,  3.55it/s] 61%|██████▏   | 227921/371472 [7:06:02<12:22:34,  3.22it/s] 61%|██████▏   | 227922/371472 [7:06:02<12:55:24,  3.09it/s] 61%|██████▏   | 227923/371472 [7:06:03<12:16:55,  3.25it/s] 61%|██████▏   | 227924/371472 [7:06:03<11:41:32,  3.41it/s] 61%|██████▏   | 227925/371472 [7:06:03<11:09:08,  3.58it/s] 61%|██████▏   | 227926/371472 [7:06:03<10:54:26,  3.66it/s] 61%|██████▏   | 227927/371472 [7:06:04<10:36:03,  3.76it/s] 61%|██████▏   | 227928/371472 [7:06:04<10:32:59,  3.78it/s] 61%|██████▏   | 227929/371472 [7:06:04<11:10:02,  3.57it/s] 61%|██████▏   | 227930/371472 [7:06:05<11:37:38,  3.43it/s] 61%|██████▏   | 227931/371472 [7:06:05<11:49:08,  3.37it/s] 61%|██████▏   | 227932/371472 [7:06:05<11:44:32,  3.40it/s] 61%|██████▏   | 227933/371472 [7:06:05<11:20:25,  3.52it/s] 61%|██████▏   | 227934/371472 [7:06:06<11:05:46,  3.59it/s] 61%|██████▏   | 227935/371472 [7:06:06<10:58:14,  3.63it/s] 61%|██████▏   | 227936/371472 [7:06:06<11:03:18,  3.61it/s] 61%|██████▏   | 227937/371472 [7:06:07<11:21:07,  3.51it/s] 61%|██████▏   | 227938/371472 [7:06:07<11:29:23,  3.47it/s] 61%|██████▏   | 227939/371472 [7:06:07<11:11:53,  3.56it/s] 61%|██████▏   | 227940/371472 [7:06:07<11:12:45,  3.56it/s]                                                            {'loss': 3.0674, 'learning_rate': 4.4793574522183194e-07, 'epoch': 9.82}
 61%|██████▏   | 227940/371472 [7:06:07<11:12:45,  3.56it/s] 61%|██████▏   | 227941/371472 [7:06:08<11:02:44,  3.61it/s] 61%|██████▏   | 227942/371472 [7:06:08<11:12:41,  3.56it/s] 61%|██████▏   | 227943/371472 [7:06:08<11:00:45,  3.62it/s] 61%|██████▏   | 227944/371472 [7:06:09<11:14:07,  3.55it/s] 61%|██████▏   | 227945/371472 [7:06:09<11:12:07,  3.56it/s] 61%|██████▏   | 227946/371472 [7:06:09<10:57:27,  3.64it/s] 61%|██████▏   | 227947/371472 [7:06:09<10:49:04,  3.69it/s] 61%|██████▏   | 227948/371472 [7:06:10<10:41:59,  3.73it/s] 61%|██████▏   | 227949/371472 [7:06:10<10:44:00,  3.71it/s] 61%|██████▏   | 227950/371472 [7:06:10<10:27:10,  3.81it/s] 61%|██████▏   | 227951/371472 [7:06:10<10:35:16,  3.77it/s] 61%|██████▏   | 227952/371472 [7:06:11<10:41:17,  3.73it/s] 61%|██████▏   | 227953/371472 [7:06:11<10:41:06,  3.73it/s] 61%|██████▏   | 227954/371472 [7:06:11<11:05:33,  3.59it/s] 61%|██████▏   | 227955/371472 [7:06:12<11:55:39,  3.34it/s] 61%|██████▏   | 227956/371472 [7:06:12<11:24:50,  3.49it/s] 61%|██████▏   | 227957/371472 [7:06:12<10:58:03,  3.63it/s] 61%|██████▏   | 227958/371472 [7:06:12<11:19:46,  3.52it/s] 61%|██████▏   | 227959/371472 [7:06:13<11:20:13,  3.52it/s] 61%|██████▏   | 227960/371472 [7:06:13<11:02:29,  3.61it/s]                                                            {'loss': 2.8555, 'learning_rate': 4.478872632463531e-07, 'epoch': 9.82}
 61%|██████▏   | 227960/371472 [7:06:13<11:02:29,  3.61it/s] 61%|██████▏   | 227961/371472 [7:06:13<11:15:20,  3.54it/s] 61%|██████▏   | 227962/371472 [7:06:14<11:40:17,  3.42it/s] 61%|██████▏   | 227963/371472 [7:06:14<11:56:36,  3.34it/s] 61%|██████▏   | 227964/371472 [7:06:14<11:33:20,  3.45it/s] 61%|██████▏   | 227965/371472 [7:06:14<11:17:49,  3.53it/s] 61%|██████▏   | 227966/371472 [7:06:15<11:22:07,  3.51it/s] 61%|██████▏   | 227967/371472 [7:06:15<11:25:06,  3.49it/s] 61%|██████▏   | 227968/371472 [7:06:15<11:43:19,  3.40it/s] 61%|██████▏   | 227969/371472 [7:06:16<11:29:45,  3.47it/s] 61%|██████▏   | 227970/371472 [7:06:16<11:20:53,  3.51it/s] 61%|██████▏   | 227971/371472 [7:06:16<11:45:33,  3.39it/s] 61%|██████▏   | 227972/371472 [7:06:16<11:57:30,  3.33it/s] 61%|██████▏   | 227973/371472 [7:06:17<11:46:45,  3.38it/s] 61%|██████▏   | 227974/371472 [7:06:17<11:21:36,  3.51it/s] 61%|██████▏   | 227975/371472 [7:06:17<11:18:05,  3.53it/s] 61%|██████▏   | 227976/371472 [7:06:18<12:10:09,  3.28it/s] 61%|██████▏   | 227977/371472 [7:06:18<12:39:59,  3.15it/s] 61%|██████▏   | 227978/371472 [7:06:18<12:16:54,  3.25it/s] 61%|██████▏   | 227979/371472 [7:06:19<11:58:07,  3.33it/s] 61%|██████▏   | 227980/371472 [7:06:19<12:13:38,  3.26it/s]                                                            {'loss': 2.9346, 'learning_rate': 4.4783878127087414e-07, 'epoch': 9.82}
 61%|██████▏   | 227980/371472 [7:06:19<12:13:38,  3.26it/s] 61%|██████▏   | 227981/371472 [7:06:19<11:45:48,  3.39it/s] 61%|██████▏   | 227982/371472 [7:06:19<11:18:02,  3.53it/s] 61%|██████▏   | 227983/371472 [7:06:20<11:10:34,  3.57it/s] 61%|██████▏   | 227984/371472 [7:06:20<11:18:36,  3.52it/s] 61%|██████▏   | 227985/371472 [7:06:20<11:46:50,  3.38it/s] 61%|██████▏   | 227986/371472 [7:06:21<11:41:46,  3.41it/s] 61%|██████▏   | 227987/371472 [7:06:21<11:49:17,  3.37it/s] 61%|██████▏   | 227988/371472 [7:06:21<13:00:40,  3.06it/s] 61%|██████▏   | 227989/371472 [7:06:22<12:05:48,  3.29it/s] 61%|██████▏   | 227990/371472 [7:06:22<11:38:20,  3.42it/s] 61%|██████▏   | 227991/371472 [7:06:22<11:27:10,  3.48it/s] 61%|██████▏   | 227992/371472 [7:06:22<11:17:08,  3.53it/s] 61%|██████▏   | 227993/371472 [7:06:23<11:54:02,  3.35it/s] 61%|██████▏   | 227994/371472 [7:06:23<12:14:00,  3.26it/s] 61%|██████▏   | 227995/371472 [7:06:23<12:04:24,  3.30it/s] 61%|██████▏   | 227996/371472 [7:06:24<11:29:33,  3.47it/s] 61%|██████▏   | 227997/371472 [7:06:24<11:20:41,  3.51it/s] 61%|██████▏   | 227998/371472 [7:06:24<11:01:13,  3.62it/s] 61%|██████▏   | 227999/371472 [7:06:24<10:36:20,  3.76it/s] 61%|██████▏   | 228000/371472 [7:06:25<10:24:29,  3.83it/s]                                                            {'loss': 3.077, 'learning_rate': 4.477902992953953e-07, 'epoch': 9.82}
 61%|██████▏   | 228000/371472 [7:06:25<10:24:29,  3.83it/s] 61%|██████▏   | 228001/371472 [7:06:25<10:36:42,  3.76it/s] 61%|██████▏   | 228002/371472 [7:06:25<10:19:23,  3.86it/s] 61%|██████▏   | 228003/371472 [7:06:25<10:44:58,  3.71it/s] 61%|██████▏   | 228004/371472 [7:06:26<11:31:05,  3.46it/s] 61%|██████▏   | 228005/371472 [7:06:26<12:30:26,  3.19it/s] 61%|██████▏   | 228006/371472 [7:06:26<12:00:18,  3.32it/s] 61%|██████▏   | 228007/371472 [7:06:27<12:03:36,  3.30it/s] 61%|██████▏   | 228008/371472 [7:06:27<11:56:24,  3.34it/s] 61%|██████▏   | 228009/371472 [7:06:27<11:50:19,  3.37it/s] 61%|██████▏   | 228010/371472 [7:06:28<11:08:22,  3.58it/s] 61%|██████▏   | 228011/371472 [7:06:28<11:13:03,  3.55it/s] 61%|██████▏   | 228012/371472 [7:06:28<10:55:52,  3.65it/s] 61%|██████▏   | 228013/371472 [7:06:28<10:44:16,  3.71it/s] 61%|██████▏   | 228014/371472 [7:06:29<10:34:19,  3.77it/s] 61%|██████▏   | 228015/371472 [7:06:29<10:28:10,  3.81it/s] 61%|██████▏   | 228016/371472 [7:06:29<10:36:01,  3.76it/s] 61%|██████▏   | 228017/371472 [7:06:29<10:48:19,  3.69it/s] 61%|██████▏   | 228018/371472 [7:06:30<10:50:47,  3.67it/s] 61%|██████▏   | 228019/371472 [7:06:30<10:45:14,  3.71it/s] 61%|██████▏   | 228020/371472 [7:06:30<11:10:59,  3.56it/s]                                                            {'loss': 2.9054, 'learning_rate': 4.477418173199164e-07, 'epoch': 9.82}
 61%|██████▏   | 228020/371472 [7:06:30<11:10:59,  3.56it/s] 61%|██████▏   | 228021/371472 [7:06:31<11:26:36,  3.48it/s] 61%|██████▏   | 228022/371472 [7:06:31<11:39:52,  3.42it/s] 61%|██████▏   | 228023/371472 [7:06:31<11:26:04,  3.48it/s] 61%|██████▏   | 228024/371472 [7:06:31<11:40:30,  3.41it/s] 61%|██████▏   | 228025/371472 [7:06:32<11:23:02,  3.50it/s] 61%|██████▏   | 228026/371472 [7:06:32<11:03:33,  3.60it/s] 61%|██████▏   | 228027/371472 [7:06:32<11:24:52,  3.49it/s] 61%|██████▏   | 228028/371472 [7:06:33<11:14:41,  3.54it/s] 61%|██████▏   | 228029/371472 [7:06:33<11:15:14,  3.54it/s] 61%|██████▏   | 228030/371472 [7:06:33<11:04:58,  3.60it/s] 61%|██████▏   | 228031/371472 [7:06:33<10:43:37,  3.71it/s] 61%|██████▏   | 228032/371472 [7:06:34<10:39:28,  3.74it/s] 61%|██████▏   | 228033/371472 [7:06:34<11:11:31,  3.56it/s] 61%|██████▏   | 228034/371472 [7:06:34<11:50:54,  3.36it/s] 61%|██████▏   | 228035/371472 [7:06:34<11:22:14,  3.50it/s] 61%|██████▏   | 228036/371472 [7:06:35<11:01:35,  3.61it/s] 61%|██████▏   | 228037/371472 [7:06:35<10:44:32,  3.71it/s] 61%|██████▏   | 228038/371472 [7:06:35<11:01:21,  3.61it/s] 61%|██████▏   | 228039/371472 [7:06:36<11:15:04,  3.54it/s] 61%|██████▏   | 228040/371472 [7:06:36<11:17:33,  3.53it/s]                                                            {'loss': 2.7405, 'learning_rate': 4.4769333534443757e-07, 'epoch': 9.82}
 61%|██████▏   | 228040/371472 [7:06:36<11:17:33,  3.53it/s] 61%|██████▏   | 228041/371472 [7:06:36<11:24:43,  3.49it/s] 61%|██████▏   | 228042/371472 [7:06:36<11:13:33,  3.55it/s] 61%|██████▏   | 228043/371472 [7:06:37<11:22:50,  3.50it/s] 61%|██████▏   | 228044/371472 [7:06:37<13:10:57,  3.02it/s] 61%|██████▏   | 228045/371472 [7:06:37<12:23:21,  3.22it/s] 61%|██████▏   | 228046/371472 [7:06:38<13:06:53,  3.04it/s] 61%|██████▏   | 228047/371472 [7:06:38<12:53:27,  3.09it/s] 61%|██████▏   | 228048/371472 [7:06:38<12:30:33,  3.18it/s] 61%|██████▏   | 228049/371472 [7:06:39<12:02:20,  3.31it/s] 61%|██████▏   | 228050/371472 [7:06:39<13:07:28,  3.04it/s] 61%|██████▏   | 228051/371472 [7:06:39<12:29:48,  3.19it/s] 61%|██████▏   | 228052/371472 [7:06:40<13:05:18,  3.04it/s] 61%|██████▏   | 228053/371472 [7:06:40<12:42:16,  3.14it/s] 61%|██████▏   | 228054/371472 [7:06:40<12:07:38,  3.28it/s] 61%|██████▏   | 228055/371472 [7:06:41<12:14:59,  3.25it/s] 61%|██████▏   | 228056/371472 [7:06:41<11:49:41,  3.37it/s] 61%|██████▏   | 228057/371472 [7:06:41<11:28:09,  3.47it/s] 61%|██████▏   | 228058/371472 [7:06:41<11:52:22,  3.36it/s] 61%|██████▏   | 228059/371472 [7:06:42<11:08:41,  3.57it/s] 61%|██████▏   | 228060/371472 [7:06:42<10:56:12,  3.64it/s]                                                            {'loss': 2.9622, 'learning_rate': 4.476448533689586e-07, 'epoch': 9.82}
 61%|██████▏   | 228060/371472 [7:06:42<10:56:12,  3.64it/s] 61%|██████▏   | 228061/371472 [7:06:42<10:55:41,  3.65it/s] 61%|██████▏   | 228062/371472 [7:06:43<11:00:19,  3.62it/s] 61%|██████▏   | 228063/371472 [7:06:43<11:07:15,  3.58it/s] 61%|██████▏   | 228064/371472 [7:06:43<11:29:17,  3.47it/s] 61%|██████▏   | 228065/371472 [7:06:43<11:19:20,  3.52it/s] 61%|██████▏   | 228066/371472 [7:06:44<11:31:47,  3.45it/s] 61%|██████▏   | 228067/371472 [7:06:44<11:32:48,  3.45it/s] 61%|██████▏   | 228068/371472 [7:06:44<11:47:37,  3.38it/s] 61%|██████▏   | 228069/371472 [7:06:45<12:46:09,  3.12it/s] 61%|██████▏   | 228070/371472 [7:06:45<12:38:41,  3.15it/s] 61%|██████▏   | 228071/371472 [7:06:45<12:01:11,  3.31it/s] 61%|██████▏   | 228072/371472 [7:06:45<11:20:36,  3.51it/s] 61%|██████▏   | 228073/371472 [7:06:46<11:19:15,  3.52it/s] 61%|██████▏   | 228074/371472 [7:06:46<11:32:21,  3.45it/s] 61%|██████▏   | 228075/371472 [7:06:46<11:03:36,  3.60it/s] 61%|██████▏   | 228076/371472 [7:06:47<11:28:32,  3.47it/s] 61%|██████▏   | 228077/371472 [7:06:47<11:52:43,  3.35it/s] 61%|██████▏   | 228078/371472 [7:06:47<11:24:49,  3.49it/s] 61%|██████▏   | 228079/371472 [7:06:47<10:54:57,  3.65it/s] 61%|██████▏   | 228080/371472 [7:06:48<11:07:58,  3.58it/s]                                                            {'loss': 2.7233, 'learning_rate': 4.4759637139347966e-07, 'epoch': 9.82}
 61%|██████▏   | 228080/371472 [7:06:48<11:07:58,  3.58it/s] 61%|██████▏   | 228081/371472 [7:06:48<10:43:15,  3.72it/s] 61%|██████▏   | 228082/371472 [7:06:48<11:01:37,  3.61it/s] 61%|██████▏   | 228083/371472 [7:06:49<10:47:25,  3.69it/s] 61%|██████▏   | 228084/371472 [7:06:49<10:39:25,  3.74it/s] 61%|██████▏   | 228085/371472 [7:06:49<10:57:43,  3.63it/s] 61%|██████▏   | 228086/371472 [7:06:49<10:42:10,  3.72it/s] 61%|██████▏   | 228087/371472 [7:06:50<10:52:46,  3.66it/s] 61%|██████▏   | 228088/371472 [7:06:50<10:49:47,  3.68it/s] 61%|██████▏   | 228089/371472 [7:06:50<10:40:52,  3.73it/s] 61%|██████▏   | 228090/371472 [7:06:50<10:31:15,  3.79it/s] 61%|██████▏   | 228091/371472 [7:06:51<10:58:03,  3.63it/s] 61%|██████▏   | 228092/371472 [7:06:51<10:52:18,  3.66it/s] 61%|██████▏   | 228093/371472 [7:06:51<11:19:38,  3.52it/s] 61%|██████▏   | 228094/371472 [7:06:52<11:32:58,  3.45it/s] 61%|██████▏   | 228095/371472 [7:06:52<11:54:54,  3.34it/s] 61%|██████▏   | 228096/371472 [7:06:52<11:25:47,  3.48it/s] 61%|██████▏   | 228097/371472 [7:06:52<11:13:36,  3.55it/s] 61%|██████▏   | 228098/371472 [7:06:53<10:47:17,  3.69it/s] 61%|██████▏   | 228099/371472 [7:06:53<10:54:49,  3.65it/s] 61%|██████▏   | 228100/371472 [7:06:53<11:15:53,  3.54it/s]                                                            {'loss': 2.9686, 'learning_rate': 4.475478894180008e-07, 'epoch': 9.82}
 61%|██████▏   | 228100/371472 [7:06:53<11:15:53,  3.54it/s] 61%|██████▏   | 228101/371472 [7:06:54<11:05:12,  3.59it/s] 61%|██████▏   | 228102/371472 [7:06:54<11:32:53,  3.45it/s] 61%|██████▏   | 228103/371472 [7:06:54<11:23:22,  3.50it/s] 61%|██████▏   | 228104/371472 [7:06:54<11:05:02,  3.59it/s] 61%|██████▏   | 228105/371472 [7:06:55<10:47:31,  3.69it/s] 61%|██████▏   | 228106/371472 [7:06:55<10:40:23,  3.73it/s] 61%|██████▏   | 228107/371472 [7:06:55<11:02:41,  3.61it/s] 61%|██████▏   | 228108/371472 [7:06:55<10:47:56,  3.69it/s] 61%|██████▏   | 228109/371472 [7:06:56<10:55:03,  3.65it/s] 61%|██████▏   | 228110/371472 [7:06:56<11:16:53,  3.53it/s] 61%|██████▏   | 228111/371472 [7:06:56<11:20:02,  3.51it/s] 61%|██████▏   | 228112/371472 [7:06:57<11:14:14,  3.54it/s] 61%|██████▏   | 228113/371472 [7:06:57<11:24:12,  3.49it/s] 61%|██████▏   | 228114/371472 [7:06:57<11:22:48,  3.50it/s] 61%|██████▏   | 228115/371472 [7:06:58<11:24:31,  3.49it/s] 61%|██████▏   | 228116/371472 [7:06:58<11:03:51,  3.60it/s] 61%|██████▏   | 228117/371472 [7:06:58<11:02:16,  3.61it/s] 61%|██████▏   | 228118/371472 [7:06:58<11:20:01,  3.51it/s] 61%|██████▏   | 228119/371472 [7:06:59<11:12:47,  3.55it/s] 61%|██████▏   | 228120/371472 [7:06:59<11:56:56,  3.33it/s]                                                            {'loss': 2.8777, 'learning_rate': 4.4749940744252185e-07, 'epoch': 9.83}
 61%|██████▏   | 228120/371472 [7:06:59<11:56:56,  3.33it/s] 61%|██████▏   | 228121/371472 [7:06:59<11:36:20,  3.43it/s] 61%|██████▏   | 228122/371472 [7:07:00<11:40:02,  3.41it/s] 61%|██████▏   | 228123/371472 [7:07:00<11:24:52,  3.49it/s] 61%|██████▏   | 228124/371472 [7:07:00<11:19:23,  3.52it/s] 61%|██████▏   | 228125/371472 [7:07:00<11:19:35,  3.52it/s] 61%|██████▏   | 228126/371472 [7:07:01<11:06:41,  3.58it/s] 61%|██████▏   | 228127/371472 [7:07:01<10:56:56,  3.64it/s] 61%|██████▏   | 228128/371472 [7:07:01<11:11:42,  3.56it/s] 61%|██████▏   | 228129/371472 [7:07:01<10:53:04,  3.66it/s] 61%|██████▏   | 228130/371472 [7:07:02<10:50:58,  3.67it/s] 61%|██████▏   | 228131/371472 [7:07:02<10:35:41,  3.76it/s] 61%|██████▏   | 228132/371472 [7:07:02<10:33:31,  3.77it/s] 61%|██████▏   | 228133/371472 [7:07:03<11:14:47,  3.54it/s] 61%|██████▏   | 228134/371472 [7:07:03<11:11:10,  3.56it/s] 61%|██████▏   | 228135/371472 [7:07:03<11:01:39,  3.61it/s] 61%|██████▏   | 228136/371472 [7:07:03<11:23:30,  3.50it/s] 61%|██████▏   | 228137/371472 [7:07:04<11:08:53,  3.57it/s] 61%|██████▏   | 228138/371472 [7:07:04<11:04:25,  3.60it/s] 61%|██████▏   | 228139/371472 [7:07:04<11:29:53,  3.46it/s] 61%|██████▏   | 228140/371472 [7:07:05<11:34:29,  3.44it/s]                                                            {'loss': 2.8311, 'learning_rate': 4.4745092546704303e-07, 'epoch': 9.83}
 61%|██████▏   | 228140/371472 [7:07:05<11:34:29,  3.44it/s] 61%|██████▏   | 228141/371472 [7:07:05<11:04:44,  3.59it/s] 61%|██████▏   | 228142/371472 [7:07:05<10:38:39,  3.74it/s] 61%|██████▏   | 228143/371472 [7:07:05<11:02:48,  3.60it/s] 61%|██████▏   | 228144/371472 [7:07:06<11:31:47,  3.45it/s] 61%|██████▏   | 228145/371472 [7:07:06<11:00:32,  3.62it/s] 61%|██████▏   | 228146/371472 [7:07:06<11:14:06,  3.54it/s] 61%|██████▏   | 228147/371472 [7:07:06<10:41:48,  3.72it/s] 61%|██████▏   | 228148/371472 [7:07:07<10:51:19,  3.67it/s] 61%|██████▏   | 228149/371472 [7:07:07<10:44:22,  3.71it/s] 61%|██████▏   | 228150/371472 [7:07:07<10:59:26,  3.62it/s] 61%|██████▏   | 228151/371472 [7:07:08<10:59:20,  3.62it/s] 61%|██████▏   | 228152/371472 [7:07:08<11:07:06,  3.58it/s] 61%|██████▏   | 228153/371472 [7:07:08<10:46:45,  3.69it/s] 61%|██████▏   | 228154/371472 [7:07:08<10:36:49,  3.75it/s] 61%|██████▏   | 228155/371472 [7:07:09<10:32:21,  3.78it/s] 61%|██████▏   | 228156/371472 [7:07:09<10:11:15,  3.91it/s] 61%|██████▏   | 228157/371472 [7:07:09<11:38:39,  3.42it/s] 61%|██████▏   | 228158/371472 [7:07:09<11:21:18,  3.51it/s] 61%|██████▏   | 228159/371472 [7:07:10<11:17:07,  3.53it/s] 61%|██████▏   | 228160/371472 [7:07:10<10:53:11,  3.66it/s]                                                            {'loss': 3.034, 'learning_rate': 4.474024434915641e-07, 'epoch': 9.83}
 61%|██████▏   | 228160/371472 [7:07:10<10:53:11,  3.66it/s] 61%|██████▏   | 228161/371472 [7:07:10<10:46:29,  3.69it/s] 61%|██████▏   | 228162/371472 [7:07:11<10:26:47,  3.81it/s] 61%|██████▏   | 228163/371472 [7:07:11<10:42:47,  3.72it/s] 61%|██████▏   | 228164/371472 [7:07:11<10:28:44,  3.80it/s] 61%|██████▏   | 228165/371472 [7:07:11<10:58:46,  3.63it/s] 61%|██████▏   | 228166/371472 [7:07:12<10:57:58,  3.63it/s] 61%|██████▏   | 228167/371472 [7:07:12<11:13:02,  3.55it/s] 61%|██████▏   | 228168/371472 [7:07:12<10:52:55,  3.66it/s] 61%|██████▏   | 228169/371472 [7:07:13<12:06:21,  3.29it/s] 61%|██████▏   | 228170/371472 [7:07:13<11:34:17,  3.44it/s] 61%|██████▏   | 228171/371472 [7:07:13<11:28:49,  3.47it/s] 61%|██████▏   | 228172/371472 [7:07:13<11:21:43,  3.50it/s] 61%|██████▏   | 228173/371472 [7:07:14<11:13:01,  3.55it/s] 61%|██████▏   | 228174/371472 [7:07:14<11:24:09,  3.49it/s] 61%|██████▏   | 228175/371472 [7:07:14<11:00:49,  3.61it/s] 61%|██████▏   | 228176/371472 [7:07:15<11:29:11,  3.47it/s] 61%|██████▏   | 228177/371472 [7:07:15<11:00:12,  3.62it/s] 61%|██████▏   | 228178/371472 [7:07:15<11:41:19,  3.41it/s] 61%|██████▏   | 228179/371472 [7:07:15<11:23:07,  3.50it/s] 61%|██████▏   | 228180/371472 [7:07:16<11:41:46,  3.40it/s]                                                            {'loss': 3.0006, 'learning_rate': 4.473539615160852e-07, 'epoch': 9.83}
 61%|██████▏   | 228180/371472 [7:07:16<11:41:46,  3.40it/s] 61%|██████▏   | 228181/371472 [7:07:16<11:15:28,  3.54it/s] 61%|██████▏   | 228182/371472 [7:07:16<11:06:28,  3.58it/s] 61%|██████▏   | 228183/371472 [7:07:17<11:32:10,  3.45it/s] 61%|██████▏   | 228184/371472 [7:07:17<11:57:33,  3.33it/s] 61%|██████▏   | 228185/371472 [7:07:17<11:37:34,  3.42it/s] 61%|██████▏   | 228186/371472 [7:07:17<10:54:49,  3.65it/s] 61%|██████▏   | 228187/371472 [7:07:18<11:02:02,  3.61it/s] 61%|██████▏   | 228188/371472 [7:07:18<10:59:38,  3.62it/s] 61%|██████▏   | 228189/371472 [7:07:18<11:07:51,  3.58it/s] 61%|██████▏   | 228190/371472 [7:07:18<11:11:26,  3.56it/s] 61%|██████▏   | 228191/371472 [7:07:19<11:06:56,  3.58it/s] 61%|██████▏   | 228192/371472 [7:07:19<11:02:49,  3.60it/s] 61%|██████▏   | 228193/371472 [7:07:19<10:50:51,  3.67it/s] 61%|██████▏   | 228194/371472 [7:07:20<10:36:59,  3.75it/s] 61%|██████▏   | 228195/371472 [7:07:20<10:20:10,  3.85it/s] 61%|██████▏   | 228196/371472 [7:07:20<11:16:27,  3.53it/s] 61%|██████▏   | 228197/371472 [7:07:20<11:22:28,  3.50it/s] 61%|██████▏   | 228198/371472 [7:07:21<11:32:46,  3.45it/s] 61%|██████▏   | 228199/371472 [7:07:21<11:09:12,  3.57it/s] 61%|██████▏   | 228200/371472 [7:07:21<10:37:57,  3.74it/s]                                                            {'loss': 2.9744, 'learning_rate': 4.4730547954060635e-07, 'epoch': 9.83}
 61%|██████▏   | 228200/371472 [7:07:21<10:37:57,  3.74it/s] 61%|██████▏   | 228201/371472 [7:07:21<10:21:56,  3.84it/s] 61%|██████▏   | 228202/371472 [7:07:22<10:05:52,  3.94it/s] 61%|██████▏   | 228203/371472 [7:07:22<10:09:07,  3.92it/s] 61%|██████▏   | 228204/371472 [7:07:22<10:51:53,  3.66it/s] 61%|██████▏   | 228205/371472 [7:07:23<10:33:18,  3.77it/s] 61%|██████▏   | 228206/371472 [7:07:23<10:37:33,  3.75it/s] 61%|██████▏   | 228207/371472 [7:07:23<10:20:15,  3.85it/s] 61%|██████▏   | 228208/371472 [7:07:23<10:21:30,  3.84it/s] 61%|██████▏   | 228209/371472 [7:07:24<10:30:38,  3.79it/s] 61%|██████▏   | 228210/371472 [7:07:24<10:18:50,  3.86it/s] 61%|██████▏   | 228211/371472 [7:07:24<10:26:53,  3.81it/s] 61%|██████▏   | 228212/371472 [7:07:24<10:19:11,  3.86it/s] 61%|██████▏   | 228213/371472 [7:07:25<10:24:43,  3.82it/s] 61%|██████▏   | 228214/371472 [7:07:25<10:33:30,  3.77it/s] 61%|██████▏   | 228215/371472 [7:07:25<10:30:48,  3.79it/s] 61%|██████▏   | 228216/371472 [7:07:25<10:51:53,  3.66it/s] 61%|██████▏   | 228217/371472 [7:07:26<11:07:21,  3.58it/s] 61%|██████▏   | 228218/371472 [7:07:26<10:55:23,  3.64it/s] 61%|██████▏   | 228219/371472 [7:07:26<10:51:01,  3.67it/s] 61%|██████▏   | 228220/371472 [7:07:26<10:24:03,  3.83it/s]                                                            {'loss': 3.0899, 'learning_rate': 4.4725699756512747e-07, 'epoch': 9.83}
 61%|██████▏   | 228220/371472 [7:07:27<10:24:03,  3.83it/s] 61%|██████▏   | 228221/371472 [7:07:27<11:01:26,  3.61it/s] 61%|██████▏   | 228222/371472 [7:07:27<11:05:55,  3.59it/s] 61%|██████▏   | 228223/371472 [7:07:27<11:16:01,  3.53it/s] 61%|██████▏   | 228224/371472 [7:07:28<11:19:52,  3.51it/s] 61%|██████▏   | 228225/371472 [7:07:28<11:55:46,  3.34it/s] 61%|██████▏   | 228226/371472 [7:07:28<11:17:30,  3.52it/s] 61%|██████▏   | 228227/371472 [7:07:29<11:13:13,  3.55it/s] 61%|██████▏   | 228228/371472 [7:07:29<11:20:09,  3.51it/s] 61%|██████▏   | 228229/371472 [7:07:29<11:26:30,  3.48it/s] 61%|██████▏   | 228230/371472 [7:07:29<12:09:21,  3.27it/s] 61%|██████▏   | 228231/371472 [7:07:30<11:48:08,  3.37it/s] 61%|██████▏   | 228232/371472 [7:07:30<11:50:09,  3.36it/s] 61%|██████▏   | 228233/371472 [7:07:30<11:19:01,  3.52it/s] 61%|██████▏   | 228234/371472 [7:07:31<11:12:09,  3.55it/s] 61%|██████▏   | 228235/371472 [7:07:31<11:03:52,  3.60it/s] 61%|██████▏   | 228236/371472 [7:07:31<11:27:49,  3.47it/s] 61%|██████▏   | 228237/371472 [7:07:31<10:54:00,  3.65it/s] 61%|██████▏   | 228238/371472 [7:07:32<10:36:30,  3.75it/s] 61%|██████▏   | 228239/371472 [7:07:32<10:48:07,  3.68it/s] 61%|██████▏   | 228240/371472 [7:07:32<10:47:56,  3.68it/s]                                                            {'loss': 2.874, 'learning_rate': 4.472085155896485e-07, 'epoch': 9.83}
 61%|██████▏   | 228240/371472 [7:07:32<10:47:56,  3.68it/s] 61%|██████▏   | 228241/371472 [7:07:32<11:09:00,  3.57it/s] 61%|██████▏   | 228242/371472 [7:07:33<10:51:02,  3.67it/s] 61%|██████▏   | 228243/371472 [7:07:33<11:28:24,  3.47it/s] 61%|██████▏   | 228244/371472 [7:07:33<12:46:03,  3.12it/s] 61%|██████▏   | 228245/371472 [7:07:34<12:01:45,  3.31it/s] 61%|██████▏   | 228246/371472 [7:07:34<12:49:47,  3.10it/s] 61%|██████▏   | 228247/371472 [7:07:34<12:36:09,  3.16it/s] 61%|██████▏   | 228248/371472 [7:07:35<11:50:05,  3.36it/s] 61%|██████▏   | 228249/371472 [7:07:35<11:48:51,  3.37it/s] 61%|██████▏   | 228250/371472 [7:07:35<11:32:53,  3.45it/s] 61%|██████▏   | 228251/371472 [7:07:35<11:15:31,  3.53it/s] 61%|██████▏   | 228252/371472 [7:07:36<11:20:52,  3.51it/s] 61%|██████▏   | 228253/371472 [7:07:36<10:54:18,  3.65it/s] 61%|██████▏   | 228254/371472 [7:07:36<11:05:08,  3.59it/s] 61%|██████▏   | 228255/371472 [7:07:37<11:37:21,  3.42it/s] 61%|██████▏   | 228256/371472 [7:07:37<11:37:27,  3.42it/s] 61%|██████▏   | 228257/371472 [7:07:37<11:23:26,  3.49it/s] 61%|██████▏   | 228258/371472 [7:07:37<10:52:37,  3.66it/s] 61%|██████▏   | 228259/371472 [7:07:38<11:07:35,  3.58it/s] 61%|██████▏   | 228260/371472 [7:07:38<10:57:17,  3.63it/s]                                                            {'loss': 2.8359, 'learning_rate': 4.4716003361416967e-07, 'epoch': 9.83}
 61%|██████▏   | 228260/371472 [7:07:38<10:57:17,  3.63it/s] 61%|██████▏   | 228261/371472 [7:07:38<10:43:23,  3.71it/s] 61%|██████▏   | 228262/371472 [7:07:39<10:53:34,  3.65it/s] 61%|██████▏   | 228263/371472 [7:07:39<10:42:39,  3.71it/s] 61%|██████▏   | 228264/371472 [7:07:39<11:38:10,  3.42it/s] 61%|██████▏   | 228265/371472 [7:07:39<11:14:52,  3.54it/s] 61%|██████▏   | 228266/371472 [7:07:40<11:09:48,  3.56it/s] 61%|██████▏   | 228267/371472 [7:07:40<12:13:16,  3.25it/s] 61%|██████▏   | 228268/371472 [7:07:40<11:50:11,  3.36it/s] 61%|██████▏   | 228269/371472 [7:07:41<11:19:35,  3.51it/s] 61%|██████▏   | 228270/371472 [7:07:41<11:12:58,  3.55it/s] 61%|██████▏   | 228271/371472 [7:07:41<10:53:29,  3.65it/s] 61%|██████▏   | 228272/371472 [7:07:41<10:47:56,  3.68it/s] 61%|██████▏   | 228273/371472 [7:07:42<10:46:37,  3.69it/s] 61%|██████▏   | 228274/371472 [7:07:42<10:56:43,  3.63it/s] 61%|██████▏   | 228275/371472 [7:07:42<11:17:42,  3.52it/s] 61%|██████▏   | 228276/371472 [7:07:43<11:10:19,  3.56it/s] 61%|██████▏   | 228277/371472 [7:07:43<10:42:49,  3.71it/s] 61%|██████▏   | 228278/371472 [7:07:43<10:51:03,  3.67it/s] 61%|██████▏   | 228279/371472 [7:07:43<10:50:05,  3.67it/s] 61%|██████▏   | 228280/371472 [7:07:44<11:55:37,  3.33it/s]                                                            {'loss': 3.0168, 'learning_rate': 4.4711155163869074e-07, 'epoch': 9.83}
 61%|██████▏   | 228280/371472 [7:07:44<11:55:37,  3.33it/s] 61%|██████▏   | 228281/371472 [7:07:44<11:58:13,  3.32it/s] 61%|██████▏   | 228282/371472 [7:07:44<12:07:02,  3.28it/s] 61%|██████▏   | 228283/371472 [7:07:45<11:33:24,  3.44it/s] 61%|██████▏   | 228284/371472 [7:07:45<11:15:51,  3.53it/s] 61%|██████▏   | 228285/371472 [7:07:45<11:06:40,  3.58it/s] 61%|██████▏   | 228286/371472 [7:07:45<11:01:14,  3.61it/s] 61%|██████▏   | 228287/371472 [7:07:46<10:55:02,  3.64it/s] 61%|██████▏   | 228288/371472 [7:07:46<11:03:26,  3.60it/s] 61%|██████▏   | 228289/371472 [7:07:46<11:04:52,  3.59it/s] 61%|██████▏   | 228290/371472 [7:07:46<11:02:54,  3.60it/s] 61%|██████▏   | 228291/371472 [7:07:47<11:27:03,  3.47it/s] 61%|██████▏   | 228292/371472 [7:07:47<11:10:42,  3.56it/s] 61%|██████▏   | 228293/371472 [7:07:47<10:51:15,  3.66it/s] 61%|██████▏   | 228294/371472 [7:07:48<11:04:43,  3.59it/s] 61%|██████▏   | 228295/371472 [7:07:48<11:09:41,  3.56it/s] 61%|██████▏   | 228296/371472 [7:07:48<10:48:05,  3.68it/s] 61%|██████▏   | 228297/371472 [7:07:48<10:38:23,  3.74it/s] 61%|██████▏   | 228298/371472 [7:07:49<11:13:08,  3.54it/s] 61%|██████▏   | 228299/371472 [7:07:49<11:19:01,  3.51it/s] 61%|██████▏   | 228300/371472 [7:07:49<11:08:29,  3.57it/s]                                                            {'loss': 2.819, 'learning_rate': 4.4706306966321187e-07, 'epoch': 9.83}
 61%|██████▏   | 228300/371472 [7:07:49<11:08:29,  3.57it/s] 61%|██████▏   | 228301/371472 [7:07:50<10:48:20,  3.68it/s] 61%|██████▏   | 228302/371472 [7:07:50<11:11:10,  3.56it/s] 61%|██████▏   | 228303/371472 [7:07:50<11:08:58,  3.57it/s] 61%|██████▏   | 228304/371472 [7:07:50<11:21:26,  3.50it/s] 61%|██████▏   | 228305/371472 [7:07:51<11:09:13,  3.57it/s] 61%|██████▏   | 228306/371472 [7:07:51<11:14:00,  3.54it/s] 61%|██████▏   | 228307/371472 [7:07:51<11:23:15,  3.49it/s] 61%|██████▏   | 228308/371472 [7:07:52<11:08:17,  3.57it/s] 61%|██████▏   | 228309/371472 [7:07:52<11:38:25,  3.42it/s] 61%|██████▏   | 228310/371472 [7:07:52<11:31:14,  3.45it/s] 61%|██████▏   | 228311/371472 [7:07:52<11:27:26,  3.47it/s] 61%|██████▏   | 228312/371472 [7:07:53<10:56:28,  3.63it/s] 61%|██████▏   | 228313/371472 [7:07:53<10:55:31,  3.64it/s] 61%|██████▏   | 228314/371472 [7:07:53<11:52:42,  3.35it/s] 61%|██████▏   | 228315/371472 [7:07:54<12:16:59,  3.24it/s] 61%|██████▏   | 228316/371472 [7:07:54<12:42:27,  3.13it/s] 61%|██████▏   | 228317/371472 [7:07:54<12:54:49,  3.08it/s] 61%|██████▏   | 228318/371472 [7:07:55<12:19:57,  3.22it/s] 61%|██████▏   | 228319/371472 [7:07:55<12:10:12,  3.27it/s] 61%|██████▏   | 228320/371472 [7:07:55<12:06:10,  3.29it/s]                                                            {'loss': 2.9681, 'learning_rate': 4.4701458768773294e-07, 'epoch': 9.83}
 61%|██████▏   | 228320/371472 [7:07:55<12:06:10,  3.29it/s] 61%|██████▏   | 228321/371472 [7:07:55<11:54:26,  3.34it/s] 61%|██████▏   | 228322/371472 [7:07:56<11:46:53,  3.38it/s] 61%|██████▏   | 228323/371472 [7:07:56<11:34:08,  3.44it/s] 61%|██████▏   | 228324/371472 [7:07:56<11:47:43,  3.37it/s] 61%|██████▏   | 228325/371472 [7:07:57<11:53:04,  3.35it/s] 61%|██████▏   | 228326/371472 [7:07:57<12:14:02,  3.25it/s] 61%|██████▏   | 228327/371472 [7:07:57<11:43:31,  3.39it/s] 61%|██████▏   | 228328/371472 [7:07:58<11:36:53,  3.42it/s] 61%|██████▏   | 228329/371472 [7:07:58<11:00:54,  3.61it/s] 61%|██████▏   | 228330/371472 [7:07:58<11:07:29,  3.57it/s] 61%|██████▏   | 228331/371472 [7:07:58<10:54:24,  3.65it/s] 61%|██████▏   | 228332/371472 [7:07:59<10:33:22,  3.77it/s] 61%|██████▏   | 228333/371472 [7:07:59<10:51:39,  3.66it/s] 61%|██████▏   | 228334/371472 [7:07:59<11:17:44,  3.52it/s] 61%|██████▏   | 228335/371472 [7:07:59<10:55:11,  3.64it/s] 61%|██████▏   | 228336/371472 [7:08:00<10:57:36,  3.63it/s] 61%|██████▏   | 228337/371472 [7:08:00<11:16:03,  3.53it/s] 61%|██████▏   | 228338/371472 [7:08:00<11:10:42,  3.56it/s] 61%|██████▏   | 228339/371472 [7:08:01<11:13:16,  3.54it/s] 61%|██████▏   | 228340/371472 [7:08:01<11:20:46,  3.50it/s]                                                            {'loss': 2.7841, 'learning_rate': 4.469661057122541e-07, 'epoch': 9.84}
 61%|██████▏   | 228340/371472 [7:08:01<11:20:46,  3.50it/s] 61%|██████▏   | 228341/371472 [7:08:01<11:19:49,  3.51it/s] 61%|██████▏   | 228342/371472 [7:08:01<11:02:58,  3.60it/s] 61%|██████▏   | 228343/371472 [7:08:02<11:00:32,  3.61it/s] 61%|██████▏   | 228344/371472 [7:08:02<10:52:27,  3.66it/s] 61%|██████▏   | 228345/371472 [7:08:02<10:36:29,  3.75it/s] 61%|██████▏   | 228346/371472 [7:08:02<10:33:40,  3.76it/s] 61%|██████▏   | 228347/371472 [7:08:03<10:30:31,  3.78it/s] 61%|██████▏   | 228348/371472 [7:08:03<10:54:11,  3.65it/s] 61%|██████▏   | 228349/371472 [7:08:03<10:55:10,  3.64it/s] 61%|██████▏   | 228350/371472 [7:08:04<10:58:09,  3.62it/s] 61%|██████▏   | 228351/371472 [7:08:04<11:48:08,  3.37it/s] 61%|██████▏   | 228352/371472 [7:08:04<12:17:28,  3.23it/s] 61%|██████▏   | 228353/371472 [7:08:05<12:20:26,  3.22it/s] 61%|██████▏   | 228354/371472 [7:08:05<11:50:56,  3.36it/s] 61%|██████▏   | 228355/371472 [7:08:05<11:29:58,  3.46it/s] 61%|██████▏   | 228356/371472 [7:08:05<11:03:35,  3.59it/s] 61%|██████▏   | 228357/371472 [7:08:06<11:26:47,  3.47it/s] 61%|██████▏   | 228358/371472 [7:08:06<11:09:06,  3.56it/s] 61%|██████▏   | 228359/371472 [7:08:06<12:10:57,  3.26it/s] 61%|██████▏   | 228360/371472 [7:08:07<11:54:34,  3.34it/s]                                                            {'loss': 2.7372, 'learning_rate': 4.4691762373677513e-07, 'epoch': 9.84}
 61%|██████▏   | 228360/371472 [7:08:07<11:54:34,  3.34it/s] 61%|██████▏   | 228361/371472 [7:08:07<12:01:48,  3.30it/s] 61%|██████▏   | 228362/371472 [7:08:07<11:43:18,  3.39it/s] 61%|██████▏   | 228363/371472 [7:08:07<11:51:24,  3.35it/s] 61%|██████▏   | 228364/371472 [7:08:08<11:37:42,  3.42it/s] 61%|██████▏   | 228365/371472 [7:08:08<12:33:46,  3.16it/s] 61%|██████▏   | 228366/371472 [7:08:08<13:04:26,  3.04it/s] 61%|██████▏   | 228367/371472 [7:08:09<12:34:22,  3.16it/s] 61%|██████▏   | 228368/371472 [7:08:09<12:26:32,  3.19it/s] 61%|██████▏   | 228369/371472 [7:08:09<11:55:36,  3.33it/s] 61%|██████▏   | 228370/371472 [7:08:10<11:28:02,  3.47it/s] 61%|██████▏   | 228371/371472 [7:08:10<11:08:06,  3.57it/s] 61%|██████▏   | 228372/371472 [7:08:10<11:05:33,  3.58it/s] 61%|██████▏   | 228373/371472 [7:08:10<11:01:13,  3.61it/s] 61%|██████▏   | 228374/371472 [7:08:11<10:57:30,  3.63it/s] 61%|██████▏   | 228375/371472 [7:08:11<11:07:23,  3.57it/s] 61%|██████▏   | 228376/371472 [7:08:11<11:40:02,  3.41it/s] 61%|██████▏   | 228377/371472 [7:08:12<12:08:16,  3.27it/s] 61%|██████▏   | 228378/371472 [7:08:12<11:47:24,  3.37it/s] 61%|██████▏   | 228379/371472 [7:08:12<11:42:29,  3.39it/s] 61%|██████▏   | 228380/371472 [7:08:12<11:44:19,  3.39it/s]                                                            {'loss': 2.7795, 'learning_rate': 4.468691417612963e-07, 'epoch': 9.84}
 61%|██████▏   | 228380/371472 [7:08:12<11:44:19,  3.39it/s] 61%|██████▏   | 228381/371472 [7:08:13<11:35:09,  3.43it/s] 61%|██████▏   | 228382/371472 [7:08:13<11:10:03,  3.56it/s] 61%|██████▏   | 228383/371472 [7:08:13<11:01:57,  3.60it/s] 61%|██████▏   | 228384/371472 [7:08:14<10:51:06,  3.66it/s] 61%|██████▏   | 228385/371472 [7:08:14<10:39:36,  3.73it/s] 61%|██████▏   | 228386/371472 [7:08:14<12:10:20,  3.27it/s] 61%|██████▏   | 228387/371472 [7:08:15<12:11:38,  3.26it/s] 61%|██████▏   | 228388/371472 [7:08:15<11:59:33,  3.31it/s] 61%|██████▏   | 228389/371472 [7:08:15<11:30:30,  3.45it/s] 61%|██████▏   | 228390/371472 [7:08:15<11:20:38,  3.50it/s] 61%|██████▏   | 228391/371472 [7:08:16<11:19:42,  3.51it/s] 61%|██████▏   | 228392/371472 [7:08:16<11:50:22,  3.36it/s] 61%|██████▏   | 228393/371472 [7:08:16<11:22:48,  3.49it/s] 61%|██████▏   | 228394/371472 [7:08:17<11:44:50,  3.38it/s] 61%|██████▏   | 228395/371472 [7:08:17<11:39:11,  3.41it/s] 61%|██████▏   | 228396/371472 [7:08:17<11:21:32,  3.50it/s] 61%|██████▏   | 228397/371472 [7:08:17<11:21:38,  3.50it/s] 61%|██████▏   | 228398/371472 [7:08:18<11:07:11,  3.57it/s] 61%|██████▏   | 228399/371472 [7:08:18<11:41:29,  3.40it/s] 61%|██████▏   | 228400/371472 [7:08:18<11:29:57,  3.46it/s]                                                            {'loss': 2.819, 'learning_rate': 4.468206597858174e-07, 'epoch': 9.84}
 61%|██████▏   | 228400/371472 [7:08:18<11:29:57,  3.46it/s] 61%|██████▏   | 228401/371472 [7:08:19<14:42:30,  2.70it/s] 61%|██████▏   | 228402/371472 [7:08:19<13:32:28,  2.93it/s] 61%|██████▏   | 228403/371472 [7:08:19<12:43:44,  3.12it/s] 61%|██████▏   | 228404/371472 [7:08:20<11:49:37,  3.36it/s] 61%|██████▏   | 228405/371472 [7:08:20<11:31:14,  3.45it/s] 61%|██████▏   | 228406/371472 [7:08:20<11:12:57,  3.54it/s] 61%|██████▏   | 228407/371472 [7:08:20<11:02:33,  3.60it/s] 61%|██████▏   | 228408/371472 [7:08:21<12:16:09,  3.24it/s] 61%|██████▏   | 228409/371472 [7:08:21<11:59:26,  3.31it/s] 61%|██████▏   | 228410/371472 [7:08:21<12:06:44,  3.28it/s] 61%|██████▏   | 228411/371472 [7:08:22<11:50:41,  3.35it/s] 61%|██████▏   | 228412/371472 [7:08:22<11:56:28,  3.33it/s] 61%|██████▏   | 228413/371472 [7:08:22<11:29:26,  3.46it/s] 61%|██████▏   | 228414/371472 [7:08:23<11:41:56,  3.40it/s] 61%|██████▏   | 228415/371472 [7:08:23<11:35:26,  3.43it/s] 61%|██████▏   | 228416/371472 [7:08:23<11:18:26,  3.51it/s] 61%|██████▏   | 228417/371472 [7:08:23<11:00:18,  3.61it/s] 61%|██████▏   | 228418/371472 [7:08:24<10:31:47,  3.77it/s] 61%|██████▏   | 228419/371472 [7:08:24<10:45:00,  3.70it/s] 61%|██████▏   | 228420/371472 [7:08:24<10:36:18,  3.75it/s]                                                            {'loss': 2.796, 'learning_rate': 4.467721778103385e-07, 'epoch': 9.84}
 61%|██████▏   | 228420/371472 [7:08:24<10:36:18,  3.75it/s] 61%|██████▏   | 228421/371472 [7:08:24<11:24:51,  3.48it/s] 61%|██████▏   | 228422/371472 [7:08:25<11:09:31,  3.56it/s] 61%|██████▏   | 228423/371472 [7:08:25<11:01:55,  3.60it/s] 61%|██████▏   | 228424/371472 [7:08:25<11:00:43,  3.61it/s] 61%|██████▏   | 228425/371472 [7:08:26<12:07:39,  3.28it/s] 61%|██████▏   | 228426/371472 [7:08:26<11:52:13,  3.35it/s] 61%|██████▏   | 228427/371472 [7:08:26<11:27:16,  3.47it/s] 61%|██████▏   | 228428/371472 [7:08:26<11:37:56,  3.42it/s] 61%|██████▏   | 228429/371472 [7:08:27<11:20:52,  3.50it/s] 61%|██████▏   | 228430/371472 [7:08:27<11:40:47,  3.40it/s] 61%|██████▏   | 228431/371472 [7:08:27<11:22:05,  3.50it/s] 61%|██████▏   | 228432/371472 [7:08:28<11:29:52,  3.46it/s] 61%|██████▏   | 228433/371472 [7:08:28<11:34:43,  3.43it/s] 61%|██████▏   | 228434/371472 [7:08:28<11:19:11,  3.51it/s] 61%|██████▏   | 228435/371472 [7:08:29<11:45:02,  3.38it/s] 61%|██████▏   | 228436/371472 [7:08:29<11:17:59,  3.52it/s] 61%|██████▏   | 228437/371472 [7:08:29<11:00:11,  3.61it/s] 61%|██████▏   | 228438/371472 [7:08:29<11:35:00,  3.43it/s] 61%|██████▏   | 228439/371472 [7:08:30<11:47:19,  3.37it/s] 61%|██████▏   | 228440/371472 [7:08:30<12:09:35,  3.27it/s]                                                            {'loss': 2.8297, 'learning_rate': 4.467236958348596e-07, 'epoch': 9.84}
 61%|██████▏   | 228440/371472 [7:08:30<12:09:35,  3.27it/s] 61%|██████▏   | 228441/371472 [7:08:30<12:08:41,  3.27it/s] 61%|██████▏   | 228442/371472 [7:08:31<11:32:03,  3.44it/s] 61%|██████▏   | 228443/371472 [7:08:31<11:09:04,  3.56it/s] 61%|██████▏   | 228444/371472 [7:08:31<11:02:16,  3.60it/s] 61%|██████▏   | 228445/371472 [7:08:31<11:17:40,  3.52it/s] 61%|██████▏   | 228446/371472 [7:08:32<11:06:21,  3.58it/s] 61%|██████▏   | 228447/371472 [7:08:32<11:16:39,  3.52it/s] 61%|██████▏   | 228448/371472 [7:08:32<11:26:06,  3.47it/s] 61%|██████▏   | 228449/371472 [7:08:33<11:04:09,  3.59it/s] 61%|██████▏   | 228450/371472 [7:08:33<11:31:17,  3.45it/s] 61%|██████▏   | 228451/371472 [7:08:33<11:37:41,  3.42it/s] 61%|██████▏   | 228452/371472 [7:08:33<11:12:32,  3.54it/s] 61%|██████▏   | 228453/371472 [7:08:34<10:54:07,  3.64it/s] 61%|██████▏   | 228454/371472 [7:08:34<11:24:15,  3.48it/s] 61%|██████▏   | 228455/371472 [7:08:34<11:46:17,  3.37it/s] 62%|██████▏   | 228456/371472 [7:08:35<11:09:38,  3.56it/s] 62%|██████▏   | 228457/371472 [7:08:35<11:24:54,  3.48it/s] 62%|██████▏   | 228458/371472 [7:08:35<11:24:45,  3.48it/s] 62%|██████▏   | 228459/371472 [7:08:35<11:03:49,  3.59it/s] 62%|██████▏   | 228460/371472 [7:08:36<11:01:45,  3.60it/s]                                                            {'loss': 2.9239, 'learning_rate': 4.466752138593807e-07, 'epoch': 9.84}
 62%|██████▏   | 228460/371472 [7:08:36<11:01:45,  3.60it/s] 62%|██████▏   | 228461/371472 [7:08:36<11:11:34,  3.55it/s] 62%|██████▏   | 228462/371472 [7:08:36<11:00:09,  3.61it/s] 62%|██████▏   | 228463/371472 [7:08:36<10:44:05,  3.70it/s] 62%|██████▏   | 228464/371472 [7:08:37<10:59:24,  3.61it/s] 62%|██████▏   | 228465/371472 [7:08:37<11:24:08,  3.48it/s] 62%|██████▏   | 228466/371472 [7:08:37<11:12:47,  3.54it/s] 62%|██████▏   | 228467/371472 [7:08:38<10:53:33,  3.65it/s] 62%|██████▏   | 228468/371472 [7:08:38<10:54:33,  3.64it/s] 62%|██████▏   | 228469/371472 [7:08:38<10:45:38,  3.69it/s] 62%|██████▏   | 228470/371472 [7:08:38<10:58:09,  3.62it/s] 62%|██████▏   | 228471/371472 [7:08:39<11:26:38,  3.47it/s] 62%|██████▏   | 228472/371472 [7:08:39<11:29:15,  3.46it/s] 62%|██████▏   | 228473/371472 [7:08:39<10:51:51,  3.66it/s] 62%|██████▏   | 228474/371472 [7:08:40<11:07:18,  3.57it/s] 62%|██████▏   | 228475/371472 [7:08:40<11:05:52,  3.58it/s] 62%|██████▏   | 228476/371472 [7:08:40<11:03:15,  3.59it/s] 62%|██████▏   | 228477/371472 [7:08:40<10:54:10,  3.64it/s] 62%|██████▏   | 228478/371472 [7:08:41<10:48:36,  3.67it/s] 62%|██████▏   | 228479/371472 [7:08:41<10:35:14,  3.75it/s] 62%|██████▏   | 228480/371472 [7:08:41<10:51:07,  3.66it/s]                                                            {'loss': 3.0907, 'learning_rate': 4.4662673188390177e-07, 'epoch': 9.84}
 62%|██████▏   | 228480/371472 [7:08:41<10:51:07,  3.66it/s] 62%|██████▏   | 228481/371472 [7:08:41<10:49:59,  3.67it/s] 62%|██████▏   | 228482/371472 [7:08:42<11:29:14,  3.46it/s] 62%|██████▏   | 228483/371472 [7:08:42<11:22:33,  3.49it/s] 62%|██████▏   | 228484/371472 [7:08:42<10:58:41,  3.62it/s] 62%|██████▏   | 228485/371472 [7:08:43<10:37:40,  3.74it/s] 62%|██████▏   | 228486/371472 [7:08:43<10:40:14,  3.72it/s] 62%|██████▏   | 228487/371472 [7:08:43<11:02:10,  3.60it/s] 62%|██████▏   | 228488/371472 [7:08:43<10:55:24,  3.64it/s] 62%|██████▏   | 228489/371472 [7:08:44<10:44:13,  3.70it/s] 62%|██████▏   | 228490/371472 [7:08:44<10:26:18,  3.80it/s] 62%|██████▏   | 228491/371472 [7:08:44<10:15:17,  3.87it/s] 62%|██████▏   | 228492/371472 [7:08:44<10:25:58,  3.81it/s] 62%|██████▏   | 228493/371472 [7:08:45<11:33:51,  3.43it/s] 62%|██████▏   | 228494/371472 [7:08:45<11:17:07,  3.52it/s] 62%|██████▏   | 228495/371472 [7:08:45<11:21:33,  3.50it/s] 62%|██████▏   | 228496/371472 [7:08:46<11:07:46,  3.57it/s] 62%|██████▏   | 228497/371472 [7:08:46<10:47:57,  3.68it/s] 62%|██████▏   | 228498/371472 [7:08:46<11:01:25,  3.60it/s] 62%|██████▏   | 228499/371472 [7:08:46<10:55:33,  3.63it/s] 62%|██████▏   | 228500/371472 [7:08:47<10:46:29,  3.69it/s]                                                            {'loss': 2.7653, 'learning_rate': 4.4657824990842295e-07, 'epoch': 9.84}
 62%|██████▏   | 228500/371472 [7:08:47<10:46:29,  3.69it/s] 62%|██████▏   | 228501/371472 [7:08:47<10:50:27,  3.66it/s] 62%|██████▏   | 228502/371472 [7:08:47<10:38:17,  3.73it/s] 62%|██████▏   | 228503/371472 [7:08:47<10:46:35,  3.69it/s] 62%|██████▏   | 228504/371472 [7:08:48<10:51:36,  3.66it/s] 62%|██████▏   | 228505/371472 [7:08:48<10:44:15,  3.70it/s] 62%|██████▏   | 228506/371472 [7:08:48<10:38:59,  3.73it/s] 62%|██████▏   | 228507/371472 [7:08:49<11:16:23,  3.52it/s] 62%|██████▏   | 228508/371472 [7:08:49<11:00:43,  3.61it/s] 62%|██████▏   | 228509/371472 [7:08:49<10:55:30,  3.63it/s] 62%|██████▏   | 228510/371472 [7:08:49<11:25:45,  3.47it/s] 62%|██████▏   | 228511/371472 [7:08:50<11:08:40,  3.56it/s] 62%|██████▏   | 228512/371472 [7:08:50<10:48:02,  3.68it/s] 62%|██████▏   | 228513/371472 [7:08:50<10:30:01,  3.78it/s] 62%|██████▏   | 228514/371472 [7:08:50<10:31:57,  3.77it/s] 62%|██████▏   | 228515/371472 [7:08:51<10:24:19,  3.82it/s] 62%|██████▏   | 228516/371472 [7:08:51<10:46:42,  3.68it/s] 62%|██████▏   | 228517/371472 [7:08:51<10:51:26,  3.66it/s] 62%|██████▏   | 228518/371472 [7:08:52<11:36:13,  3.42it/s] 62%|██████▏   | 228519/371472 [7:08:52<12:30:23,  3.18it/s] 62%|██████▏   | 228520/371472 [7:08:52<12:46:57,  3.11it/s]                                                            {'loss': 2.7973, 'learning_rate': 4.46529767932944e-07, 'epoch': 9.84}
 62%|██████▏   | 228520/371472 [7:08:52<12:46:57,  3.11it/s] 62%|██████▏   | 228521/371472 [7:08:53<11:55:09,  3.33it/s] 62%|██████▏   | 228522/371472 [7:08:53<11:41:13,  3.40it/s] 62%|██████▏   | 228523/371472 [7:08:53<11:43:34,  3.39it/s] 62%|██████▏   | 228524/371472 [7:08:54<12:18:01,  3.23it/s] 62%|██████▏   | 228525/371472 [7:08:54<12:44:11,  3.12it/s] 62%|██████▏   | 228526/371472 [7:08:54<12:54:11,  3.08it/s] 62%|██████▏   | 228527/371472 [7:08:55<13:15:00,  3.00it/s] 62%|██████▏   | 228528/371472 [7:08:55<12:39:37,  3.14it/s] 62%|██████▏   | 228529/371472 [7:08:55<13:44:19,  2.89it/s] 62%|██████▏   | 228530/371472 [7:08:56<12:51:09,  3.09it/s] 62%|██████▏   | 228531/371472 [7:08:56<12:21:54,  3.21it/s] 62%|██████▏   | 228532/371472 [7:08:56<12:08:07,  3.27it/s] 62%|██████▏   | 228533/371472 [7:08:56<12:23:13,  3.21it/s] 62%|██████▏   | 228534/371472 [7:08:57<12:16:53,  3.23it/s] 62%|██████▏   | 228535/371472 [7:08:57<11:55:04,  3.33it/s] 62%|██████▏   | 228536/371472 [7:08:57<11:22:37,  3.49it/s] 62%|██████▏   | 228537/371472 [7:08:58<11:16:45,  3.52it/s] 62%|██████▏   | 228538/371472 [7:08:58<11:56:42,  3.32it/s] 62%|██████▏   | 228539/371472 [7:08:58<11:31:15,  3.45it/s] 62%|██████▏   | 228540/371472 [7:08:58<11:23:41,  3.48it/s]                                                            {'loss': 2.9799, 'learning_rate': 4.4648128595746515e-07, 'epoch': 9.84}
 62%|██████▏   | 228540/371472 [7:08:58<11:23:41,  3.48it/s] 62%|██████▏   | 228541/371472 [7:08:59<11:22:45,  3.49it/s] 62%|██████▏   | 228542/371472 [7:08:59<11:59:20,  3.31it/s] 62%|██████▏   | 228543/371472 [7:08:59<11:51:16,  3.35it/s] 62%|██████▏   | 228544/371472 [7:09:00<11:25:07,  3.48it/s] 62%|██████▏   | 228545/371472 [7:09:00<11:31:36,  3.44it/s] 62%|██████▏   | 228546/371472 [7:09:00<11:29:42,  3.45it/s] 62%|██████▏   | 228547/371472 [7:09:00<11:31:11,  3.45it/s] 62%|██████▏   | 228548/371472 [7:09:01<11:26:41,  3.47it/s] 62%|██████▏   | 228549/371472 [7:09:01<11:26:36,  3.47it/s] 62%|██████▏   | 228550/371472 [7:09:01<11:33:34,  3.43it/s] 62%|██████▏   | 228551/371472 [7:09:02<11:02:56,  3.59it/s] 62%|██████▏   | 228552/371472 [7:09:02<10:47:02,  3.68it/s] 62%|██████▏   | 228553/371472 [7:09:02<10:32:19,  3.77it/s] 62%|██████▏   | 228554/371472 [7:09:02<10:37:18,  3.74it/s] 62%|██████▏   | 228555/371472 [7:09:03<10:35:49,  3.75it/s] 62%|██████▏   | 228556/371472 [7:09:03<11:01:23,  3.60it/s] 62%|██████▏   | 228557/371472 [7:09:03<11:06:43,  3.57it/s] 62%|██████▏   | 228558/371472 [7:09:04<11:03:44,  3.59it/s] 62%|██████▏   | 228559/371472 [7:09:04<12:10:03,  3.26it/s] 62%|██████▏   | 228560/371472 [7:09:04<11:28:59,  3.46it/s]                                                            {'loss': 3.0104, 'learning_rate': 4.464328039819862e-07, 'epoch': 9.84}
 62%|██████▏   | 228560/371472 [7:09:04<11:28:59,  3.46it/s] 62%|██████▏   | 228561/371472 [7:09:04<12:05:04,  3.28it/s] 62%|██████▏   | 228562/371472 [7:09:05<12:01:32,  3.30it/s] 62%|██████▏   | 228563/371472 [7:09:05<11:24:11,  3.48it/s] 62%|██████▏   | 228564/371472 [7:09:05<11:13:30,  3.54it/s] 62%|██████▏   | 228565/371472 [7:09:06<11:32:32,  3.44it/s] 62%|██████▏   | 228566/371472 [7:09:06<11:19:10,  3.51it/s] 62%|██████▏   | 228567/371472 [7:09:06<10:57:22,  3.62it/s] 62%|██████▏   | 228568/371472 [7:09:07<12:08:47,  3.27it/s] 62%|██████▏   | 228569/371472 [7:09:07<12:32:13,  3.17it/s] 62%|██████▏   | 228570/371472 [7:09:07<12:52:44,  3.08it/s] 62%|██████▏   | 228571/371472 [7:09:07<12:14:45,  3.24it/s] 62%|██████▏   | 228572/371472 [7:09:08<11:39:55,  3.40it/s] 62%|██████▏   | 228573/371472 [7:09:08<11:45:42,  3.37it/s] 62%|██████▏   | 228574/371472 [7:09:08<12:40:12,  3.13it/s] 62%|██████▏   | 228575/371472 [7:09:09<12:26:23,  3.19it/s] 62%|██████▏   | 228576/371472 [7:09:09<12:41:09,  3.13it/s] 62%|██████▏   | 228577/371472 [7:09:09<12:19:46,  3.22it/s] 62%|██████▏   | 228578/371472 [7:09:10<12:40:37,  3.13it/s] 62%|██████▏   | 228579/371472 [7:09:10<12:03:27,  3.29it/s] 62%|██████▏   | 228580/371472 [7:09:10<11:40:16,  3.40it/s]                                                            {'loss': 2.8679, 'learning_rate': 4.463843220065074e-07, 'epoch': 9.85}
 62%|██████▏   | 228580/371472 [7:09:10<11:40:16,  3.40it/s] 62%|██████▏   | 228581/371472 [7:09:10<11:31:33,  3.44it/s] 62%|██████▏   | 228582/371472 [7:09:11<11:26:25,  3.47it/s] 62%|██████▏   | 228583/371472 [7:09:11<11:01:33,  3.60it/s] 62%|██████▏   | 228584/371472 [7:09:11<10:45:17,  3.69it/s] 62%|██████▏   | 228585/371472 [7:09:12<10:45:45,  3.69it/s] 62%|██████▏   | 228586/371472 [7:09:12<10:41:14,  3.71it/s] 62%|██████▏   | 228587/371472 [7:09:12<11:23:39,  3.48it/s] 62%|██████▏   | 228588/371472 [7:09:12<11:01:36,  3.60it/s] 62%|██████▏   | 228589/371472 [7:09:13<10:57:29,  3.62it/s] 62%|██████▏   | 228590/371472 [7:09:13<10:52:32,  3.65it/s] 62%|██████▏   | 228591/371472 [7:09:13<10:57:30,  3.62it/s] 62%|██████▏   | 228592/371472 [7:09:13<11:02:24,  3.60it/s] 62%|██████▏   | 228593/371472 [7:09:14<11:17:46,  3.51it/s] 62%|██████▏   | 228594/371472 [7:09:14<11:21:33,  3.49it/s] 62%|██████▏   | 228595/371472 [7:09:14<11:51:44,  3.35it/s] 62%|██████▏   | 228596/371472 [7:09:15<11:49:15,  3.36it/s] 62%|██████▏   | 228597/371472 [7:09:15<11:15:41,  3.52it/s] 62%|██████▏   | 228598/371472 [7:09:15<11:03:33,  3.59it/s] 62%|██████▏   | 228599/371472 [7:09:16<12:44:03,  3.12it/s] 62%|██████▏   | 228600/371472 [7:09:16<12:25:49,  3.19it/s]                                                            {'loss': 2.8234, 'learning_rate': 4.4633584003102847e-07, 'epoch': 9.85}
 62%|██████▏   | 228600/371472 [7:09:16<12:25:49,  3.19it/s] 62%|██████▏   | 228601/371472 [7:09:16<11:49:54,  3.35it/s] 62%|██████▏   | 228602/371472 [7:09:16<11:29:10,  3.46it/s] 62%|██████▏   | 228603/371472 [7:09:17<11:04:57,  3.58it/s] 62%|██████▏   | 228604/371472 [7:09:17<11:39:44,  3.40it/s] 62%|██████▏   | 228605/371472 [7:09:17<11:41:06,  3.40it/s] 62%|██████▏   | 228606/371472 [7:09:18<11:50:15,  3.35it/s] 62%|██████▏   | 228607/371472 [7:09:18<11:57:59,  3.32it/s] 62%|██████▏   | 228608/371472 [7:09:18<11:44:25,  3.38it/s] 62%|██████▏   | 228609/371472 [7:09:19<11:51:06,  3.35it/s] 62%|██████▏   | 228610/371472 [7:09:19<12:16:37,  3.23it/s] 62%|██████▏   | 228611/371472 [7:09:19<11:43:30,  3.38it/s] 62%|██████▏   | 228612/371472 [7:09:19<12:02:49,  3.29it/s] 62%|██████▏   | 228613/371472 [7:09:20<13:10:52,  3.01it/s] 62%|██████▏   | 228614/371472 [7:09:20<13:12:27,  3.00it/s] 62%|██████▏   | 228615/371472 [7:09:21<12:45:38,  3.11it/s] 62%|██████▏   | 228616/371472 [7:09:21<12:03:19,  3.29it/s] 62%|██████▏   | 228617/371472 [7:09:21<12:08:15,  3.27it/s] 62%|██████▏   | 228618/371472 [7:09:21<11:47:32,  3.37it/s] 62%|██████▏   | 228619/371472 [7:09:22<11:21:33,  3.49it/s] 62%|██████▏   | 228620/371472 [7:09:22<11:29:01,  3.46it/s]                                                            {'loss': 2.7889, 'learning_rate': 4.462873580555495e-07, 'epoch': 9.85}
 62%|██████▏   | 228620/371472 [7:09:22<11:29:01,  3.46it/s] 62%|██████▏   | 228621/371472 [7:09:22<11:21:36,  3.49it/s] 62%|██████▏   | 228622/371472 [7:09:22<11:23:20,  3.48it/s] 62%|██████▏   | 228623/371472 [7:09:23<11:14:52,  3.53it/s] 62%|██████▏   | 228624/371472 [7:09:23<10:59:15,  3.61it/s] 62%|██████▏   | 228625/371472 [7:09:23<11:01:41,  3.60it/s] 62%|██████▏   | 228626/371472 [7:09:24<10:40:42,  3.72it/s] 62%|██████▏   | 228627/371472 [7:09:24<11:24:10,  3.48it/s] 62%|██████▏   | 228628/371472 [7:09:24<11:04:14,  3.58it/s] 62%|██████▏   | 228629/371472 [7:09:24<10:51:55,  3.65it/s] 62%|██████▏   | 228630/371472 [7:09:25<10:36:08,  3.74it/s] 62%|██████▏   | 228631/371472 [7:09:25<11:02:43,  3.59it/s] 62%|██████▏   | 228632/371472 [7:09:25<11:36:07,  3.42it/s] 62%|██████▏   | 228633/371472 [7:09:26<12:05:12,  3.28it/s] 62%|██████▏   | 228634/371472 [7:09:26<12:09:38,  3.26it/s] 62%|██████▏   | 228635/371472 [7:09:26<11:58:58,  3.31it/s] 62%|██████▏   | 228636/371472 [7:09:27<11:54:45,  3.33it/s] 62%|██████▏   | 228637/371472 [7:09:27<11:45:35,  3.37it/s] 62%|██████▏   | 228638/371472 [7:09:27<12:37:48,  3.14it/s] 62%|██████▏   | 228639/371472 [7:09:27<11:56:30,  3.32it/s] 62%|██████▏   | 228640/371472 [7:09:28<11:37:24,  3.41it/s]                                                            {'loss': 2.9859, 'learning_rate': 4.4623887608007066e-07, 'epoch': 9.85}
 62%|██████▏   | 228640/371472 [7:09:28<11:37:24,  3.41it/s] 62%|██████▏   | 228641/371472 [7:09:28<11:22:18,  3.49it/s] 62%|██████▏   | 228642/371472 [7:09:28<10:59:26,  3.61it/s] 62%|██████▏   | 228643/371472 [7:09:29<11:00:04,  3.61it/s] 62%|██████▏   | 228644/371472 [7:09:29<11:01:11,  3.60it/s] 62%|██████▏   | 228645/371472 [7:09:29<10:52:44,  3.65it/s] 62%|██████▏   | 228646/371472 [7:09:29<10:37:16,  3.74it/s] 62%|██████▏   | 228647/371472 [7:09:30<11:05:27,  3.58it/s] 62%|██████▏   | 228648/371472 [7:09:30<11:10:18,  3.55it/s] 62%|██████▏   | 228649/371472 [7:09:30<10:59:09,  3.61it/s] 62%|██████▏   | 228650/371472 [7:09:30<10:55:04,  3.63it/s] 62%|██████▏   | 228651/371472 [7:09:31<10:32:31,  3.76it/s] 62%|██████▏   | 228652/371472 [7:09:31<10:31:26,  3.77it/s] 62%|██████▏   | 228653/371472 [7:09:31<10:40:41,  3.72it/s] 62%|██████▏   | 228654/371472 [7:09:32<10:51:58,  3.65it/s] 62%|██████▏   | 228655/371472 [7:09:32<10:51:33,  3.65it/s] 62%|██████▏   | 228656/371472 [7:09:32<10:46:15,  3.68it/s] 62%|██████▏   | 228657/371472 [7:09:32<10:56:54,  3.62it/s] 62%|██████▏   | 228658/371472 [7:09:33<10:51:31,  3.65it/s] 62%|██████▏   | 228659/371472 [7:09:33<10:26:46,  3.80it/s] 62%|██████▏   | 228660/371472 [7:09:33<10:45:19,  3.69it/s]                                                            {'loss': 2.9295, 'learning_rate': 4.4619039410459173e-07, 'epoch': 9.85}
 62%|██████▏   | 228660/371472 [7:09:33<10:45:19,  3.69it/s] 62%|██████▏   | 228661/371472 [7:09:33<10:52:44,  3.65it/s] 62%|██████▏   | 228662/371472 [7:09:34<10:40:39,  3.72it/s] 62%|██████▏   | 228663/371472 [7:09:34<10:31:39,  3.77it/s] 62%|██████▏   | 228664/371472 [7:09:34<10:38:46,  3.73it/s] 62%|██████▏   | 228665/371472 [7:09:34<10:27:38,  3.79it/s] 62%|██████▏   | 228666/371472 [7:09:35<10:37:00,  3.74it/s] 62%|██████▏   | 228667/371472 [7:09:35<10:38:05,  3.73it/s] 62%|██████▏   | 228668/371472 [7:09:35<11:34:59,  3.42it/s] 62%|██████▏   | 228669/371472 [7:09:36<11:19:27,  3.50it/s] 62%|██████▏   | 228670/371472 [7:09:36<11:18:46,  3.51it/s] 62%|██████▏   | 228671/371472 [7:09:36<10:55:58,  3.63it/s] 62%|██████▏   | 228672/371472 [7:09:37<11:50:41,  3.35it/s] 62%|██████▏   | 228673/371472 [7:09:37<11:34:20,  3.43it/s] 62%|██████▏   | 228674/371472 [7:09:37<11:44:53,  3.38it/s] 62%|██████▏   | 228675/371472 [7:09:37<11:24:14,  3.48it/s] 62%|██████▏   | 228676/371472 [7:09:38<11:05:21,  3.58it/s] 62%|██████▏   | 228677/371472 [7:09:38<10:50:28,  3.66it/s] 62%|██████▏   | 228678/371472 [7:09:38<11:15:58,  3.52it/s] 62%|██████▏   | 228679/371472 [7:09:38<11:00:32,  3.60it/s] 62%|██████▏   | 228680/371472 [7:09:39<10:58:04,  3.62it/s]                                                            {'loss': 2.8254, 'learning_rate': 4.4614191212911286e-07, 'epoch': 9.85}
 62%|██████▏   | 228680/371472 [7:09:39<10:58:04,  3.62it/s] 62%|██████▏   | 228681/371472 [7:09:39<10:44:50,  3.69it/s] 62%|██████▏   | 228682/371472 [7:09:39<11:47:21,  3.36it/s] 62%|██████▏   | 228683/371472 [7:09:40<11:49:45,  3.35it/s] 62%|██████▏   | 228684/371472 [7:09:40<11:21:34,  3.49it/s] 62%|██████▏   | 228685/371472 [7:09:40<11:14:59,  3.53it/s] 62%|██████▏   | 228686/371472 [7:09:40<11:42:56,  3.39it/s] 62%|██████▏   | 228687/371472 [7:09:41<11:43:01,  3.39it/s] 62%|██████▏   | 228688/371472 [7:09:41<11:57:06,  3.32it/s] 62%|██████▏   | 228689/371472 [7:09:41<11:30:00,  3.45it/s] 62%|██████▏   | 228690/371472 [7:09:42<11:21:19,  3.49it/s] 62%|██████▏   | 228691/371472 [7:09:42<12:00:58,  3.30it/s] 62%|██████▏   | 228692/371472 [7:09:42<11:23:39,  3.48it/s] 62%|██████▏   | 228693/371472 [7:09:43<11:46:45,  3.37it/s] 62%|██████▏   | 228694/371472 [7:09:43<11:16:23,  3.52it/s] 62%|██████▏   | 228695/371472 [7:09:43<10:52:07,  3.65it/s] 62%|██████▏   | 228696/371472 [7:09:43<11:12:32,  3.54it/s] 62%|██████▏   | 228697/371472 [7:09:44<11:01:03,  3.60it/s] 62%|██████▏   | 228698/371472 [7:09:44<10:56:45,  3.62it/s] 62%|██████▏   | 228699/371472 [7:09:44<10:41:34,  3.71it/s] 62%|██████▏   | 228700/371472 [7:09:44<10:57:59,  3.62it/s]                                                            {'loss': 2.8618, 'learning_rate': 4.4609343015363393e-07, 'epoch': 9.85}
 62%|██████▏   | 228700/371472 [7:09:44<10:57:59,  3.62it/s] 62%|██████▏   | 228701/371472 [7:09:45<11:29:18,  3.45it/s] 62%|██████▏   | 228702/371472 [7:09:45<11:09:50,  3.55it/s] 62%|██████▏   | 228703/371472 [7:09:45<10:49:08,  3.67it/s] 62%|██████▏   | 228704/371472 [7:09:46<10:43:29,  3.70it/s] 62%|██████▏   | 228705/371472 [7:09:46<11:07:09,  3.57it/s] 62%|██████▏   | 228706/371472 [7:09:46<11:09:50,  3.55it/s] 62%|██████▏   | 228707/371472 [7:09:46<11:17:33,  3.51it/s] 62%|██████▏   | 228708/371472 [7:09:47<11:01:38,  3.60it/s] 62%|██████▏   | 228709/371472 [7:09:47<11:27:02,  3.46it/s] 62%|██████▏   | 228710/371472 [7:09:47<11:08:25,  3.56it/s] 62%|██████▏   | 228711/371472 [7:09:48<11:05:11,  3.58it/s] 62%|██████▏   | 228712/371472 [7:09:48<11:10:38,  3.55it/s] 62%|██████▏   | 228713/371472 [7:09:48<10:52:07,  3.65it/s] 62%|██████▏   | 228714/371472 [7:09:48<11:55:38,  3.32it/s] 62%|██████▏   | 228715/371472 [7:09:49<11:22:59,  3.48it/s] 62%|██████▏   | 228716/371472 [7:09:49<11:27:14,  3.46it/s] 62%|██████▏   | 228717/371472 [7:09:49<12:06:20,  3.28it/s] 62%|██████▏   | 228718/371472 [7:09:50<11:37:29,  3.41it/s] 62%|██████▏   | 228719/371472 [7:09:50<11:15:34,  3.52it/s] 62%|██████▏   | 228720/371472 [7:09:50<11:19:58,  3.50it/s]                                                            {'loss': 2.8653, 'learning_rate': 4.460449481781551e-07, 'epoch': 9.85}
 62%|██████▏   | 228720/371472 [7:09:50<11:19:58,  3.50it/s] 62%|██████▏   | 228721/371472 [7:09:50<11:18:32,  3.51it/s] 62%|██████▏   | 228722/371472 [7:09:51<11:03:31,  3.59it/s] 62%|██████▏   | 228723/371472 [7:09:51<11:00:39,  3.60it/s] 62%|██████▏   | 228724/371472 [7:09:51<10:48:28,  3.67it/s] 62%|██████▏   | 228725/371472 [7:09:52<10:56:17,  3.63it/s] 62%|██████▏   | 228726/371472 [7:09:52<10:35:45,  3.74it/s] 62%|██████▏   | 228727/371472 [7:09:52<11:12:43,  3.54it/s] 62%|██████▏   | 228728/371472 [7:09:52<10:45:55,  3.68it/s] 62%|██████▏   | 228729/371472 [7:09:53<11:00:43,  3.60it/s] 62%|██████▏   | 228730/371472 [7:09:53<11:44:05,  3.38it/s] 62%|██████▏   | 228731/371472 [7:09:53<12:24:29,  3.20it/s] 62%|██████▏   | 228732/371472 [7:09:54<11:54:12,  3.33it/s] 62%|██████▏   | 228733/371472 [7:09:54<11:32:53,  3.43it/s] 62%|██████▏   | 228734/371472 [7:09:54<11:50:52,  3.35it/s] 62%|██████▏   | 228735/371472 [7:09:54<11:29:15,  3.45it/s] 62%|██████▏   | 228736/371472 [7:09:55<11:12:45,  3.54it/s] 62%|██████▏   | 228737/371472 [7:09:55<11:37:09,  3.41it/s] 62%|██████▏   | 228738/371472 [7:09:55<11:32:36,  3.43it/s] 62%|██████▏   | 228739/371472 [7:09:56<11:13:52,  3.53it/s] 62%|██████▏   | 228740/371472 [7:09:56<11:18:02,  3.51it/s]                                                            {'loss': 3.0907, 'learning_rate': 4.459964662026761e-07, 'epoch': 9.85}
 62%|██████▏   | 228740/371472 [7:09:56<11:18:02,  3.51it/s] 62%|██████▏   | 228741/371472 [7:09:56<11:18:51,  3.50it/s] 62%|██████▏   | 228742/371472 [7:09:56<11:24:53,  3.47it/s] 62%|██████▏   | 228743/371472 [7:09:57<11:57:41,  3.31it/s] 62%|██████▏   | 228744/371472 [7:09:57<12:26:36,  3.19it/s] 62%|██████▏   | 228745/371472 [7:09:57<11:53:17,  3.33it/s] 62%|██████▏   | 228746/371472 [7:09:58<11:44:04,  3.38it/s] 62%|██████▏   | 228747/371472 [7:09:58<11:14:32,  3.53it/s] 62%|██████▏   | 228748/371472 [7:09:58<11:16:46,  3.51it/s] 62%|██████▏   | 228749/371472 [7:09:58<10:54:04,  3.64it/s] 62%|██████▏   | 228750/371472 [7:09:59<11:19:24,  3.50it/s] 62%|██████▏   | 228751/371472 [7:09:59<10:56:29,  3.62it/s] 62%|██████▏   | 228752/371472 [7:09:59<10:57:39,  3.62it/s] 62%|██████▏   | 228753/371472 [7:10:00<10:46:54,  3.68it/s] 62%|██████▏   | 228754/371472 [7:10:00<10:30:05,  3.78it/s] 62%|██████▏   | 228755/371472 [7:10:00<10:35:13,  3.74it/s] 62%|██████▏   | 228756/371472 [7:10:00<10:32:42,  3.76it/s] 62%|██████▏   | 228757/371472 [7:10:01<10:37:11,  3.73it/s] 62%|██████▏   | 228758/371472 [7:10:01<10:30:30,  3.77it/s] 62%|██████▏   | 228759/371472 [7:10:01<10:54:02,  3.64it/s] 62%|██████▏   | 228760/371472 [7:10:01<11:09:15,  3.55it/s]                                                            {'loss': 2.904, 'learning_rate': 4.459479842271973e-07, 'epoch': 9.85}
 62%|██████▏   | 228760/371472 [7:10:01<11:09:15,  3.55it/s] 62%|██████▏   | 228761/371472 [7:10:02<11:17:26,  3.51it/s] 62%|██████▏   | 228762/371472 [7:10:02<11:08:44,  3.56it/s] 62%|██████▏   | 228763/371472 [7:10:02<10:54:45,  3.63it/s] 62%|██████▏   | 228764/371472 [7:10:03<10:29:56,  3.78it/s] 62%|██████▏   | 228765/371472 [7:10:03<10:26:17,  3.80it/s] 62%|██████▏   | 228766/371472 [7:10:03<12:39:26,  3.13it/s] 62%|██████▏   | 228767/371472 [7:10:04<12:27:07,  3.18it/s] 62%|██████▏   | 228768/371472 [7:10:04<11:40:48,  3.39it/s] 62%|██████▏   | 228769/371472 [7:10:04<11:38:28,  3.41it/s] 62%|██████▏   | 228770/371472 [7:10:04<11:47:24,  3.36it/s] 62%|██████▏   | 228771/371472 [7:10:05<11:13:40,  3.53it/s] 62%|██████▏   | 228772/371472 [7:10:05<11:21:45,  3.49it/s] 62%|██████▏   | 228773/371472 [7:10:05<11:17:52,  3.51it/s] 62%|██████▏   | 228774/371472 [7:10:06<11:17:22,  3.51it/s] 62%|██████▏   | 228775/371472 [7:10:06<11:44:35,  3.38it/s] 62%|██████▏   | 228776/371472 [7:10:06<11:12:48,  3.53it/s] 62%|██████▏   | 228777/371472 [7:10:06<11:07:35,  3.56it/s] 62%|██████▏   | 228778/371472 [7:10:07<11:02:04,  3.59it/s] 62%|██████▏   | 228779/371472 [7:10:07<11:10:47,  3.55it/s] 62%|██████▏   | 228780/371472 [7:10:07<10:52:54,  3.64it/s]                                                            {'loss': 2.9005, 'learning_rate': 4.458995022517184e-07, 'epoch': 9.85}
 62%|██████▏   | 228780/371472 [7:10:07<10:52:54,  3.64it/s] 62%|██████▏   | 228781/371472 [7:10:07<10:42:56,  3.70it/s] 62%|██████▏   | 228782/371472 [7:10:08<11:01:24,  3.60it/s] 62%|██████▏   | 228783/371472 [7:10:08<10:49:50,  3.66it/s] 62%|██████▏   | 228784/371472 [7:10:08<10:55:11,  3.63it/s] 62%|██████▏   | 228785/371472 [7:10:09<11:46:10,  3.37it/s] 62%|██████▏   | 228786/371472 [7:10:09<11:15:14,  3.52it/s] 62%|██████▏   | 228787/371472 [7:10:09<10:58:50,  3.61it/s] 62%|██████▏   | 228788/371472 [7:10:09<11:04:12,  3.58it/s] 62%|██████▏   | 228789/371472 [7:10:10<11:06:13,  3.57it/s] 62%|██████▏   | 228790/371472 [7:10:10<11:10:35,  3.55it/s] 62%|██████▏   | 228791/371472 [7:10:10<11:07:49,  3.56it/s] 62%|██████▏   | 228792/371472 [7:10:11<10:59:10,  3.61it/s] 62%|██████▏   | 228793/371472 [7:10:11<11:23:10,  3.48it/s] 62%|██████▏   | 228794/371472 [7:10:11<10:59:48,  3.60it/s] 62%|██████▏   | 228795/371472 [7:10:11<10:45:15,  3.69it/s] 62%|██████▏   | 228796/371472 [7:10:12<10:34:00,  3.75it/s] 62%|██████▏   | 228797/371472 [7:10:12<11:29:02,  3.45it/s] 62%|██████▏   | 228798/371472 [7:10:12<11:05:03,  3.58it/s] 62%|██████▏   | 228799/371472 [7:10:12<10:41:32,  3.71it/s] 62%|██████▏   | 228800/371472 [7:10:13<11:01:01,  3.60it/s]                                                            {'loss': 2.9995, 'learning_rate': 4.458510202762395e-07, 'epoch': 9.85}
 62%|██████▏   | 228800/371472 [7:10:13<11:01:01,  3.60it/s] 62%|██████▏   | 228801/371472 [7:10:13<10:47:37,  3.67it/s] 62%|██████▏   | 228802/371472 [7:10:13<10:37:52,  3.73it/s] 62%|██████▏   | 228803/371472 [7:10:14<10:57:28,  3.62it/s] 62%|██████▏   | 228804/371472 [7:10:14<10:39:39,  3.72it/s] 62%|██████▏   | 228805/371472 [7:10:14<10:31:15,  3.77it/s] 62%|██████▏   | 228806/371472 [7:10:14<11:17:52,  3.51it/s] 62%|██████▏   | 228807/371472 [7:10:15<11:26:24,  3.46it/s] 62%|██████▏   | 228808/371472 [7:10:15<11:02:32,  3.59it/s] 62%|██████▏   | 228809/371472 [7:10:15<11:44:30,  3.37it/s] 62%|██████▏   | 228810/371472 [7:10:16<11:29:31,  3.45it/s] 62%|██████▏   | 228811/371472 [7:10:16<11:33:43,  3.43it/s] 62%|██████▏   | 228812/371472 [7:10:16<11:38:28,  3.40it/s] 62%|██████▏   | 228813/371472 [7:10:16<11:20:52,  3.49it/s] 62%|██████▏   | 228814/371472 [7:10:17<11:31:49,  3.44it/s] 62%|██████▏   | 228815/371472 [7:10:17<11:19:39,  3.50it/s] 62%|██████▏   | 228816/371472 [7:10:17<11:31:25,  3.44it/s] 62%|██████▏   | 228817/371472 [7:10:18<11:59:14,  3.31it/s] 62%|██████▏   | 228818/371472 [7:10:18<11:13:44,  3.53it/s] 62%|██████▏   | 228819/371472 [7:10:18<11:35:11,  3.42it/s] 62%|██████▏   | 228820/371472 [7:10:19<11:52:04,  3.34it/s]                                                            {'loss': 2.7637, 'learning_rate': 4.4580253830076057e-07, 'epoch': 9.86}
 62%|██████▏   | 228820/371472 [7:10:19<11:52:04,  3.34it/s] 62%|██████▏   | 228821/371472 [7:10:19<11:40:29,  3.39it/s] 62%|██████▏   | 228822/371472 [7:10:19<11:11:09,  3.54it/s] 62%|██████▏   | 228823/371472 [7:10:19<11:06:56,  3.56it/s] 62%|██████▏   | 228824/371472 [7:10:20<10:50:56,  3.65it/s] 62%|██████▏   | 228825/371472 [7:10:20<10:35:29,  3.74it/s] 62%|██████▏   | 228826/371472 [7:10:20<10:36:51,  3.73it/s] 62%|██████▏   | 228827/371472 [7:10:20<10:27:19,  3.79it/s] 62%|██████▏   | 228828/371472 [7:10:21<10:33:00,  3.76it/s] 62%|██████▏   | 228829/371472 [7:10:21<11:03:02,  3.59it/s] 62%|██████▏   | 228830/371472 [7:10:21<10:58:25,  3.61it/s] 62%|██████▏   | 228831/371472 [7:10:22<10:52:20,  3.64it/s] 62%|██████▏   | 228832/371472 [7:10:22<10:57:03,  3.62it/s] 62%|██████▏   | 228833/371472 [7:10:22<10:51:42,  3.65it/s] 62%|██████▏   | 228834/371472 [7:10:22<10:54:03,  3.63it/s] 62%|██████▏   | 228835/371472 [7:10:23<10:34:26,  3.75it/s] 62%|██████▏   | 228836/371472 [7:10:23<10:25:19,  3.80it/s] 62%|██████▏   | 228837/371472 [7:10:23<12:18:03,  3.22it/s] 62%|██████▏   | 228838/371472 [7:10:24<11:56:16,  3.32it/s] 62%|██████▏   | 228839/371472 [7:10:24<12:00:12,  3.30it/s] 62%|██████▏   | 228840/371472 [7:10:24<11:32:21,  3.43it/s]                                                            {'loss': 2.7512, 'learning_rate': 4.4575405632528175e-07, 'epoch': 9.86}
 62%|██████▏   | 228840/371472 [7:10:24<11:32:21,  3.43it/s] 62%|██████▏   | 228841/371472 [7:10:24<11:09:49,  3.55it/s] 62%|██████▏   | 228842/371472 [7:10:25<11:04:54,  3.58it/s] 62%|██████▏   | 228843/371472 [7:10:25<11:00:58,  3.60it/s] 62%|██████▏   | 228844/371472 [7:10:25<10:51:04,  3.65it/s] 62%|██████▏   | 228845/371472 [7:10:25<10:59:05,  3.61it/s] 62%|██████▏   | 228846/371472 [7:10:26<10:56:44,  3.62it/s] 62%|██████▏   | 228847/371472 [7:10:26<10:42:08,  3.70it/s] 62%|██████▏   | 228848/371472 [7:10:26<11:12:20,  3.54it/s] 62%|██████▏   | 228849/371472 [7:10:27<12:12:54,  3.24it/s] 62%|██████▏   | 228850/371472 [7:10:27<13:06:05,  3.02it/s] 62%|██████▏   | 228851/371472 [7:10:27<12:10:38,  3.25it/s] 62%|██████▏   | 228852/371472 [7:10:28<11:59:44,  3.30it/s] 62%|██████▏   | 228853/371472 [7:10:28<11:24:15,  3.47it/s] 62%|██████▏   | 228854/371472 [7:10:28<11:38:23,  3.40it/s] 62%|██████▏   | 228855/371472 [7:10:28<12:00:02,  3.30it/s] 62%|██████▏   | 228856/371472 [7:10:29<11:25:35,  3.47it/s] 62%|██████▏   | 228857/371472 [7:10:29<10:56:59,  3.62it/s] 62%|██████▏   | 228858/371472 [7:10:29<12:07:13,  3.27it/s] 62%|██████▏   | 228859/371472 [7:10:30<11:25:46,  3.47it/s] 62%|██████▏   | 228860/371472 [7:10:30<11:04:48,  3.58it/s]                                                            {'loss': 2.8948, 'learning_rate': 4.4570557434980277e-07, 'epoch': 9.86}
 62%|██████▏   | 228860/371472 [7:10:30<11:04:48,  3.58it/s] 62%|██████▏   | 228861/371472 [7:10:30<11:15:06,  3.52it/s] 62%|██████▏   | 228862/371472 [7:10:30<11:01:19,  3.59it/s] 62%|██████▏   | 228863/371472 [7:10:31<10:40:58,  3.71it/s] 62%|██████▏   | 228864/371472 [7:10:31<11:07:59,  3.56it/s] 62%|██████▏   | 228865/371472 [7:10:31<11:06:27,  3.57it/s] 62%|██████▏   | 228866/371472 [7:10:32<11:39:05,  3.40it/s] 62%|██████▏   | 228867/371472 [7:10:32<11:52:56,  3.33it/s] 62%|██████▏   | 228868/371472 [7:10:32<11:24:39,  3.47it/s] 62%|██████▏   | 228869/371472 [7:10:32<11:13:09,  3.53it/s] 62%|██████▏   | 228870/371472 [7:10:33<10:55:35,  3.63it/s] 62%|██████▏   | 228871/371472 [7:10:33<10:53:57,  3.63it/s] 62%|██████▏   | 228872/371472 [7:10:33<10:38:52,  3.72it/s] 62%|██████▏   | 228873/371472 [7:10:34<10:59:20,  3.60it/s] 62%|██████▏   | 228874/371472 [7:10:34<11:32:14,  3.43it/s] 62%|██████▏   | 228875/371472 [7:10:34<11:33:21,  3.43it/s] 62%|██████▏   | 228876/371472 [7:10:34<11:11:42,  3.54it/s] 62%|██████▏   | 228877/371472 [7:10:35<10:59:24,  3.60it/s] 62%|██████▏   | 228878/371472 [7:10:35<10:52:35,  3.64it/s] 62%|██████▏   | 228879/371472 [7:10:35<11:22:49,  3.48it/s] 62%|██████▏   | 228880/371472 [7:10:36<10:54:18,  3.63it/s]                                                            {'loss': 2.8278, 'learning_rate': 4.456570923743239e-07, 'epoch': 9.86}
 62%|██████▏   | 228880/371472 [7:10:36<10:54:18,  3.63it/s] 62%|██████▏   | 228881/371472 [7:10:36<10:48:53,  3.66it/s] 62%|██████▏   | 228882/371472 [7:10:36<10:59:35,  3.60it/s] 62%|██████▏   | 228883/371472 [7:10:36<10:34:22,  3.75it/s] 62%|██████▏   | 228884/371472 [7:10:37<10:37:01,  3.73it/s] 62%|██████▏   | 228885/371472 [7:10:37<10:42:21,  3.70it/s] 62%|██████▏   | 228886/371472 [7:10:37<10:43:01,  3.70it/s] 62%|██████▏   | 228887/371472 [7:10:37<10:46:58,  3.67it/s] 62%|██████▏   | 228888/371472 [7:10:38<11:08:21,  3.56it/s] 62%|██████▏   | 228889/371472 [7:10:38<11:19:23,  3.50it/s] 62%|██████▏   | 228890/371472 [7:10:38<11:14:02,  3.53it/s] 62%|██████▏   | 228891/371472 [7:10:39<11:16:54,  3.51it/s] 62%|██████▏   | 228892/371472 [7:10:39<10:44:26,  3.69it/s] 62%|██████▏   | 228893/371472 [7:10:39<10:40:09,  3.71it/s] 62%|██████▏   | 228894/371472 [7:10:39<10:25:57,  3.80it/s] 62%|██████▏   | 228895/371472 [7:10:40<10:24:51,  3.80it/s] 62%|██████▏   | 228896/371472 [7:10:40<10:50:58,  3.65it/s] 62%|██████▏   | 228897/371472 [7:10:40<10:46:07,  3.68it/s] 62%|██████▏   | 228898/371472 [7:10:40<11:06:50,  3.56it/s] 62%|██████▏   | 228899/371472 [7:10:41<11:48:05,  3.36it/s] 62%|██████▏   | 228900/371472 [7:10:41<12:12:25,  3.24it/s]                                                            {'loss': 2.8606, 'learning_rate': 4.45608610398845e-07, 'epoch': 9.86}
 62%|██████▏   | 228900/371472 [7:10:41<12:12:25,  3.24it/s] 62%|██████▏   | 228901/371472 [7:10:41<12:32:14,  3.16it/s] 62%|██████▏   | 228902/371472 [7:10:42<12:34:25,  3.15it/s] 62%|██████▏   | 228903/371472 [7:10:42<11:58:51,  3.31it/s] 62%|██████▏   | 228904/371472 [7:10:42<11:43:01,  3.38it/s] 62%|██████▏   | 228905/371472 [7:10:43<11:10:45,  3.54it/s] 62%|██████▏   | 228906/371472 [7:10:43<10:58:49,  3.61it/s] 62%|██████▏   | 228907/371472 [7:10:43<10:50:37,  3.65it/s] 62%|██████▏   | 228908/371472 [7:10:43<11:23:04,  3.48it/s] 62%|██████▏   | 228909/371472 [7:10:44<11:20:57,  3.49it/s] 62%|██████▏   | 228910/371472 [7:10:44<11:43:36,  3.38it/s] 62%|██████▏   | 228911/371472 [7:10:44<11:28:50,  3.45it/s] 62%|██████▏   | 228912/371472 [7:10:45<11:51:43,  3.34it/s] 62%|██████▏   | 228913/371472 [7:10:45<12:07:05,  3.27it/s] 62%|██████▏   | 228914/371472 [7:10:45<11:44:39,  3.37it/s] 62%|██████▏   | 228915/371472 [7:10:45<11:21:43,  3.49it/s] 62%|██████▏   | 228916/371472 [7:10:46<11:23:33,  3.48it/s] 62%|██████▏   | 228917/371472 [7:10:46<11:11:09,  3.54it/s] 62%|██████▏   | 228918/371472 [7:10:46<10:47:37,  3.67it/s] 62%|██████▏   | 228919/371472 [7:10:47<10:31:28,  3.76it/s] 62%|██████▏   | 228920/371472 [7:10:47<11:29:26,  3.45it/s]                                                            {'loss': 2.8662, 'learning_rate': 4.4556012842336614e-07, 'epoch': 9.86}
 62%|██████▏   | 228920/371472 [7:10:47<11:29:26,  3.45it/s] 62%|██████▏   | 228921/371472 [7:10:47<11:18:16,  3.50it/s] 62%|██████▏   | 228922/371472 [7:10:47<11:20:35,  3.49it/s] 62%|██████▏   | 228923/371472 [7:10:48<11:11:07,  3.54it/s] 62%|██████▏   | 228924/371472 [7:10:48<12:13:46,  3.24it/s] 62%|██████▏   | 228925/371472 [7:10:48<11:38:56,  3.40it/s] 62%|██████▏   | 228926/371472 [7:10:49<11:16:20,  3.51it/s] 62%|██████▏   | 228927/371472 [7:10:49<11:31:21,  3.44it/s] 62%|██████▏   | 228928/371472 [7:10:49<11:43:18,  3.38it/s] 62%|██████▏   | 228929/371472 [7:10:49<11:08:32,  3.55it/s] 62%|██████▏   | 228930/371472 [7:10:50<11:18:10,  3.50it/s] 62%|██████▏   | 228931/371472 [7:10:50<12:00:40,  3.30it/s] 62%|██████▏   | 228932/371472 [7:10:50<11:58:54,  3.30it/s] 62%|██████▏   | 228933/371472 [7:10:51<11:57:28,  3.31it/s] 62%|██████▏   | 228934/371472 [7:10:51<11:50:32,  3.34it/s] 62%|██████▏   | 228935/371472 [7:10:51<12:14:47,  3.23it/s] 62%|██████▏   | 228936/371472 [7:10:52<11:41:15,  3.39it/s] 62%|██████▏   | 228937/371472 [7:10:52<11:16:49,  3.51it/s] 62%|██████▏   | 228938/371472 [7:10:52<11:12:13,  3.53it/s] 62%|██████▏   | 228939/371472 [7:10:52<11:04:07,  3.58it/s] 62%|██████▏   | 228940/371472 [7:10:53<10:56:38,  3.62it/s]                                                            {'loss': 2.8207, 'learning_rate': 4.455116464478872e-07, 'epoch': 9.86}
 62%|██████▏   | 228940/371472 [7:10:53<10:56:38,  3.62it/s] 62%|██████▏   | 228941/371472 [7:10:53<11:07:15,  3.56it/s] 62%|██████▏   | 228942/371472 [7:10:53<10:37:18,  3.73it/s] 62%|██████▏   | 228943/371472 [7:10:53<10:41:43,  3.70it/s] 62%|██████▏   | 228944/371472 [7:10:54<10:28:04,  3.78it/s] 62%|██████▏   | 228945/371472 [7:10:54<11:58:29,  3.31it/s] 62%|██████▏   | 228946/371472 [7:10:54<12:14:13,  3.24it/s] 62%|██████▏   | 228947/371472 [7:10:55<11:42:03,  3.38it/s] 62%|██████▏   | 228948/371472 [7:10:55<11:47:17,  3.36it/s] 62%|██████▏   | 228949/371472 [7:10:55<11:25:02,  3.47it/s] 62%|██████▏   | 228950/371472 [7:10:56<11:06:30,  3.56it/s] 62%|██████▏   | 228951/371472 [7:10:56<11:09:48,  3.55it/s] 62%|██████▏   | 228952/371472 [7:10:56<10:54:07,  3.63it/s] 62%|██████▏   | 228953/371472 [7:10:56<10:58:23,  3.61it/s] 62%|██████▏   | 228954/371472 [7:10:57<10:58:33,  3.61it/s] 62%|██████▏   | 228955/371472 [7:10:57<11:19:13,  3.50it/s] 62%|██████▏   | 228956/371472 [7:10:57<11:32:24,  3.43it/s] 62%|██████▏   | 228957/371472 [7:10:58<11:28:01,  3.45it/s] 62%|██████▏   | 228958/371472 [7:10:58<11:11:42,  3.54it/s] 62%|██████▏   | 228959/371472 [7:10:58<10:47:25,  3.67it/s] 62%|██████▏   | 228960/371472 [7:10:58<10:39:29,  3.71it/s]                                                            {'loss': 2.8653, 'learning_rate': 4.454631644724084e-07, 'epoch': 9.86}
 62%|██████▏   | 228960/371472 [7:10:58<10:39:29,  3.71it/s] 62%|██████▏   | 228961/371472 [7:10:59<10:48:55,  3.66it/s] 62%|██████▏   | 228962/371472 [7:10:59<10:48:50,  3.66it/s] 62%|██████▏   | 228963/371472 [7:10:59<11:50:46,  3.34it/s] 62%|██████▏   | 228964/371472 [7:11:00<11:30:01,  3.44it/s] 62%|██████▏   | 228965/371472 [7:11:00<11:49:49,  3.35it/s] 62%|██████▏   | 228966/371472 [7:11:00<11:50:01,  3.35it/s] 62%|██████▏   | 228967/371472 [7:11:00<11:33:37,  3.42it/s] 62%|██████▏   | 228968/371472 [7:11:01<11:24:51,  3.47it/s] 62%|██████▏   | 228969/371472 [7:11:01<11:09:41,  3.55it/s] 62%|██████▏   | 228970/371472 [7:11:01<11:01:55,  3.59it/s] 62%|██████▏   | 228971/371472 [7:11:01<10:46:47,  3.67it/s] 62%|██████▏   | 228972/371472 [7:11:02<10:39:37,  3.71it/s] 62%|██████▏   | 228973/371472 [7:11:02<10:39:49,  3.71it/s] 62%|██████▏   | 228974/371472 [7:11:02<11:36:01,  3.41it/s] 62%|██████▏   | 228975/371472 [7:11:03<11:40:28,  3.39it/s] 62%|██████▏   | 228976/371472 [7:11:03<11:16:07,  3.51it/s] 62%|██████▏   | 228977/371472 [7:11:03<11:09:36,  3.55it/s] 62%|██████▏   | 228978/371472 [7:11:03<11:10:24,  3.54it/s] 62%|██████▏   | 228979/371472 [7:11:04<10:49:16,  3.66it/s] 62%|██████▏   | 228980/371472 [7:11:04<10:42:34,  3.70it/s]                                                            {'loss': 2.8248, 'learning_rate': 4.4541468249692946e-07, 'epoch': 9.86}
 62%|██████▏   | 228980/371472 [7:11:04<10:42:34,  3.70it/s] 62%|██████▏   | 228981/371472 [7:11:04<11:27:56,  3.45it/s] 62%|██████▏   | 228982/371472 [7:11:05<11:17:28,  3.51it/s] 62%|██████▏   | 228983/371472 [7:11:05<11:00:05,  3.60it/s] 62%|██████▏   | 228984/371472 [7:11:05<11:03:01,  3.58it/s] 62%|██████▏   | 228985/371472 [7:11:05<11:26:40,  3.46it/s] 62%|██████▏   | 228986/371472 [7:11:06<11:17:31,  3.51it/s] 62%|██████▏   | 228987/371472 [7:11:06<11:45:31,  3.37it/s] 62%|██████▏   | 228988/371472 [7:11:06<11:28:35,  3.45it/s] 62%|██████▏   | 228989/371472 [7:11:07<12:20:14,  3.21it/s] 62%|██████▏   | 228990/371472 [7:11:07<12:06:57,  3.27it/s] 62%|██████▏   | 228991/371472 [7:11:07<12:25:22,  3.19it/s] 62%|██████▏   | 228992/371472 [7:11:08<11:48:30,  3.35it/s] 62%|██████▏   | 228993/371472 [7:11:08<11:23:28,  3.47it/s] 62%|██████▏   | 228994/371472 [7:11:08<11:49:43,  3.35it/s] 62%|██████▏   | 228995/371472 [7:11:08<11:33:39,  3.42it/s] 62%|██████▏   | 228996/371472 [7:11:09<11:26:42,  3.46it/s] 62%|██████▏   | 228997/371472 [7:11:09<11:23:14,  3.48it/s] 62%|██████▏   | 228998/371472 [7:11:09<11:12:22,  3.53it/s] 62%|██████▏   | 228999/371472 [7:11:10<11:38:22,  3.40it/s] 62%|██████▏   | 229000/371472 [7:11:10<11:11:01,  3.54it/s]                                                            {'loss': 2.7756, 'learning_rate': 4.453662005214506e-07, 'epoch': 9.86}
 62%|██████▏   | 229000/371472 [7:11:10<11:11:01,  3.54it/s] 62%|██████▏   | 229001/371472 [7:11:10<12:10:11,  3.25it/s] 62%|██████▏   | 229002/371472 [7:11:11<11:44:03,  3.37it/s] 62%|██████▏   | 229003/371472 [7:11:11<11:22:36,  3.48it/s] 62%|██████▏   | 229004/371472 [7:11:11<12:31:12,  3.16it/s] 62%|██████▏   | 229005/371472 [7:11:11<11:43:00,  3.38it/s] 62%|██████▏   | 229006/371472 [7:11:12<11:16:54,  3.51it/s] 62%|██████▏   | 229007/371472 [7:11:12<10:54:20,  3.63it/s] 62%|██████▏   | 229008/371472 [7:11:12<11:19:21,  3.50it/s] 62%|██████▏   | 229009/371472 [7:11:12<10:59:38,  3.60it/s] 62%|██████▏   | 229010/371472 [7:11:13<11:00:27,  3.60it/s] 62%|██████▏   | 229011/371472 [7:11:13<11:20:24,  3.49it/s] 62%|██████▏   | 229012/371472 [7:11:13<10:50:41,  3.65it/s] 62%|██████▏   | 229013/371472 [7:11:14<10:53:15,  3.63it/s] 62%|██████▏   | 229014/371472 [7:11:14<11:10:00,  3.54it/s] 62%|██████▏   | 229015/371472 [7:11:14<10:43:02,  3.69it/s] 62%|██████▏   | 229016/371472 [7:11:14<11:01:06,  3.59it/s] 62%|██████▏   | 229017/371472 [7:11:15<11:05:01,  3.57it/s] 62%|██████▏   | 229018/371472 [7:11:15<10:58:02,  3.61it/s] 62%|██████▏   | 229019/371472 [7:11:15<11:37:38,  3.40it/s] 62%|██████▏   | 229020/371472 [7:11:16<11:11:35,  3.54it/s]                                                            {'loss': 2.9387, 'learning_rate': 4.4531771854597166e-07, 'epoch': 9.86}
 62%|██████▏   | 229020/371472 [7:11:16<11:11:35,  3.54it/s] 62%|██████▏   | 229021/371472 [7:11:16<11:18:53,  3.50it/s] 62%|██████▏   | 229022/371472 [7:11:16<11:15:49,  3.51it/s] 62%|██████▏   | 229023/371472 [7:11:16<10:45:52,  3.68it/s] 62%|██████▏   | 229024/371472 [7:11:17<11:11:57,  3.53it/s] 62%|██████▏   | 229025/371472 [7:11:17<11:23:18,  3.47it/s] 62%|██████▏   | 229026/371472 [7:11:17<11:31:38,  3.43it/s] 62%|██████▏   | 229027/371472 [7:11:18<11:28:46,  3.45it/s] 62%|██████▏   | 229028/371472 [7:11:18<12:10:20,  3.25it/s] 62%|██████▏   | 229029/371472 [7:11:18<11:47:26,  3.36it/s] 62%|██████▏   | 229030/371472 [7:11:19<11:51:42,  3.34it/s] 62%|██████▏   | 229031/371472 [7:11:19<11:35:09,  3.42it/s] 62%|██████▏   | 229032/371472 [7:11:19<11:23:57,  3.47it/s] 62%|██████▏   | 229033/371472 [7:11:19<11:04:09,  3.57it/s] 62%|██████▏   | 229034/371472 [7:11:20<10:53:49,  3.63it/s] 62%|██████▏   | 229035/371472 [7:11:20<11:51:14,  3.34it/s] 62%|██████▏   | 229036/371472 [7:11:20<12:01:50,  3.29it/s] 62%|██████▏   | 229037/371472 [7:11:21<11:30:55,  3.44it/s] 62%|██████▏   | 229038/371472 [7:11:21<11:09:07,  3.55it/s] 62%|██████▏   | 229039/371472 [7:11:21<11:02:26,  3.58it/s] 62%|██████▏   | 229040/371472 [7:11:21<11:14:01,  3.52it/s]                                                            {'loss': 2.8676, 'learning_rate': 4.4526923657049283e-07, 'epoch': 9.87}
 62%|██████▏   | 229040/371472 [7:11:21<11:14:01,  3.52it/s] 62%|██████▏   | 229041/371472 [7:11:22<11:50:23,  3.34it/s] 62%|██████▏   | 229042/371472 [7:11:22<11:30:40,  3.44it/s] 62%|██████▏   | 229043/371472 [7:11:22<11:08:53,  3.55it/s] 62%|██████▏   | 229044/371472 [7:11:23<11:12:06,  3.53it/s] 62%|██████▏   | 229045/371472 [7:11:23<10:49:21,  3.66it/s] 62%|██████▏   | 229046/371472 [7:11:23<10:54:34,  3.63it/s] 62%|██████▏   | 229047/371472 [7:11:23<10:31:43,  3.76it/s] 62%|██████▏   | 229048/371472 [7:11:24<10:44:03,  3.69it/s] 62%|██████▏   | 229049/371472 [7:11:24<10:58:26,  3.61it/s] 62%|██████▏   | 229050/371472 [7:11:24<12:22:47,  3.20it/s] 62%|██████▏   | 229051/371472 [7:11:25<12:00:55,  3.29it/s] 62%|██████▏   | 229052/371472 [7:11:25<11:32:17,  3.43it/s] 62%|██████▏   | 229053/371472 [7:11:25<10:57:32,  3.61it/s] 62%|██████▏   | 229054/371472 [7:11:25<11:05:31,  3.57it/s] 62%|██████▏   | 229055/371472 [7:11:26<10:36:55,  3.73it/s] 62%|██████▏   | 229056/371472 [7:11:26<10:59:33,  3.60it/s] 62%|██████▏   | 229057/371472 [7:11:26<12:01:21,  3.29it/s] 62%|██████▏   | 229058/371472 [7:11:27<12:12:23,  3.24it/s] 62%|██████▏   | 229059/371472 [7:11:27<12:04:28,  3.28it/s] 62%|██████▏   | 229060/371472 [7:11:27<11:46:22,  3.36it/s]                                                            {'loss': 2.6801, 'learning_rate': 4.4522075459501385e-07, 'epoch': 9.87}
 62%|██████▏   | 229060/371472 [7:11:27<11:46:22,  3.36it/s] 62%|██████▏   | 229061/371472 [7:11:27<11:16:00,  3.51it/s] 62%|██████▏   | 229062/371472 [7:11:28<11:38:30,  3.40it/s] 62%|██████▏   | 229063/371472 [7:11:28<11:19:04,  3.50it/s] 62%|██████▏   | 229064/371472 [7:11:28<12:23:20,  3.19it/s] 62%|██████▏   | 229065/371472 [7:11:29<12:42:19,  3.11it/s] 62%|██████▏   | 229066/371472 [7:11:29<12:55:02,  3.06it/s] 62%|██████▏   | 229067/371472 [7:11:29<12:00:16,  3.30it/s] 62%|██████▏   | 229068/371472 [7:11:30<11:46:27,  3.36it/s] 62%|██████▏   | 229069/371472 [7:11:30<11:57:04,  3.31it/s] 62%|██████▏   | 229070/371472 [7:11:30<11:26:27,  3.46it/s] 62%|██████▏   | 229071/371472 [7:11:30<11:09:28,  3.55it/s] 62%|██████▏   | 229072/371472 [7:11:31<10:50:46,  3.65it/s] 62%|██████▏   | 229073/371472 [7:11:31<10:43:31,  3.69it/s] 62%|██████▏   | 229074/371472 [7:11:31<10:47:58,  3.66it/s] 62%|██████▏   | 229075/371472 [7:11:31<10:47:13,  3.67it/s] 62%|██████▏   | 229076/371472 [7:11:32<10:55:41,  3.62it/s] 62%|██████▏   | 229077/371472 [7:11:32<11:02:05,  3.58it/s] 62%|██████▏   | 229078/371472 [7:11:32<10:46:57,  3.67it/s] 62%|██████▏   | 229079/371472 [7:11:33<10:33:56,  3.74it/s] 62%|██████▏   | 229080/371472 [7:11:33<11:03:07,  3.58it/s]                                                            {'loss': 3.1202, 'learning_rate': 4.4517227261953503e-07, 'epoch': 9.87}
 62%|██████▏   | 229080/371472 [7:11:33<11:03:07,  3.58it/s] 62%|██████▏   | 229081/371472 [7:11:33<11:14:14,  3.52it/s] 62%|██████▏   | 229082/371472 [7:11:33<11:17:16,  3.50it/s] 62%|██████▏   | 229083/371472 [7:11:34<11:56:52,  3.31it/s] 62%|██████▏   | 229084/371472 [7:11:34<11:38:39,  3.40it/s] 62%|██████▏   | 229085/371472 [7:11:34<11:40:09,  3.39it/s] 62%|██████▏   | 229086/371472 [7:11:35<11:24:31,  3.47it/s] 62%|██████▏   | 229087/371472 [7:11:35<11:42:01,  3.38it/s] 62%|██████▏   | 229088/371472 [7:11:35<11:19:56,  3.49it/s] 62%|██████▏   | 229089/371472 [7:11:35<11:10:15,  3.54it/s] 62%|██████▏   | 229090/371472 [7:11:36<11:01:05,  3.59it/s] 62%|██████▏   | 229091/371472 [7:11:36<11:17:37,  3.50it/s] 62%|██████▏   | 229092/371472 [7:11:36<11:21:35,  3.48it/s] 62%|██████▏   | 229093/371472 [7:11:37<11:25:06,  3.46it/s] 62%|██████▏   | 229094/371472 [7:11:37<11:15:52,  3.51it/s] 62%|██████▏   | 229095/371472 [7:11:37<11:20:44,  3.49it/s] 62%|██████▏   | 229096/371472 [7:11:37<10:49:59,  3.65it/s] 62%|██████▏   | 229097/371472 [7:11:38<10:37:28,  3.72it/s] 62%|██████▏   | 229098/371472 [7:11:38<10:50:45,  3.65it/s] 62%|██████▏   | 229099/371472 [7:11:38<10:38:34,  3.72it/s] 62%|██████▏   | 229100/371472 [7:11:39<10:32:01,  3.75it/s]                                                            {'loss': 2.8864, 'learning_rate': 4.451237906440561e-07, 'epoch': 9.87}
 62%|██████▏   | 229100/371472 [7:11:39<10:32:01,  3.75it/s] 62%|██████▏   | 229101/371472 [7:11:39<10:57:57,  3.61it/s] 62%|██████▏   | 229102/371472 [7:11:39<11:01:04,  3.59it/s] 62%|██████▏   | 229103/371472 [7:11:39<11:27:04,  3.45it/s] 62%|██████▏   | 229104/371472 [7:11:40<11:32:31,  3.43it/s] 62%|██████▏   | 229105/371472 [7:11:40<11:36:31,  3.41it/s] 62%|██████▏   | 229106/371472 [7:11:40<11:45:10,  3.36it/s] 62%|██████▏   | 229107/371472 [7:11:41<11:18:45,  3.50it/s] 62%|██████▏   | 229108/371472 [7:11:41<11:04:38,  3.57it/s] 62%|██████▏   | 229109/371472 [7:11:41<11:16:45,  3.51it/s] 62%|██████▏   | 229110/371472 [7:11:41<11:30:30,  3.44it/s] 62%|██████▏   | 229111/371472 [7:11:42<10:54:57,  3.62it/s] 62%|██████▏   | 229112/371472 [7:11:42<10:51:45,  3.64it/s] 62%|██████▏   | 229113/371472 [7:11:42<11:20:26,  3.49it/s] 62%|██████▏   | 229114/371472 [7:11:43<10:50:44,  3.65it/s] 62%|██████▏   | 229115/371472 [7:11:43<10:38:34,  3.72it/s] 62%|██████▏   | 229116/371472 [7:11:43<11:44:56,  3.37it/s] 62%|██████▏   | 229117/371472 [7:11:43<11:40:14,  3.39it/s] 62%|██████▏   | 229118/371472 [7:11:44<11:09:47,  3.54it/s] 62%|██████▏   | 229119/371472 [7:11:44<10:47:17,  3.67it/s] 62%|██████▏   | 229120/371472 [7:11:44<10:52:42,  3.63it/s]                                                            {'loss': 2.8023, 'learning_rate': 4.450753086685772e-07, 'epoch': 9.87}
 62%|██████▏   | 229120/371472 [7:11:44<10:52:42,  3.63it/s] 62%|██████▏   | 229121/371472 [7:11:44<10:39:40,  3.71it/s] 62%|██████▏   | 229122/371472 [7:11:45<10:34:18,  3.74it/s] 62%|██████▏   | 229123/371472 [7:11:45<10:36:43,  3.73it/s] 62%|██████▏   | 229124/371472 [7:11:45<11:16:59,  3.50it/s] 62%|██████▏   | 229125/371472 [7:11:46<11:28:51,  3.44it/s] 62%|██████▏   | 229126/371472 [7:11:46<11:38:15,  3.40it/s] 62%|██████▏   | 229127/371472 [7:11:46<11:14:54,  3.52it/s] 62%|██████▏   | 229128/371472 [7:11:46<11:18:37,  3.50it/s] 62%|██████▏   | 229129/371472 [7:11:47<11:39:02,  3.39it/s] 62%|██████▏   | 229130/371472 [7:11:47<11:20:57,  3.48it/s] 62%|██████▏   | 229131/371472 [7:11:47<11:37:17,  3.40it/s] 62%|██████▏   | 229132/371472 [7:11:48<11:15:26,  3.51it/s] 62%|██████▏   | 229133/371472 [7:11:48<10:54:55,  3.62it/s] 62%|██████▏   | 229134/371472 [7:11:48<10:41:51,  3.70it/s] 62%|██████▏   | 229135/371472 [7:11:48<10:24:15,  3.80it/s] 62%|██████▏   | 229136/371472 [7:11:49<10:43:15,  3.69it/s] 62%|██████▏   | 229137/371472 [7:11:49<10:37:50,  3.72it/s] 62%|██████▏   | 229138/371472 [7:11:49<10:36:50,  3.72it/s] 62%|██████▏   | 229139/371472 [7:11:50<11:01:55,  3.58it/s] 62%|██████▏   | 229140/371472 [7:11:50<11:23:38,  3.47it/s]                                                            {'loss': 3.0727, 'learning_rate': 4.450268266930983e-07, 'epoch': 9.87}
 62%|██████▏   | 229140/371472 [7:11:50<11:23:38,  3.47it/s] 62%|██████▏   | 229141/371472 [7:11:50<10:57:06,  3.61it/s] 62%|██████▏   | 229142/371472 [7:11:50<11:14:17,  3.52it/s] 62%|██████▏   | 229143/371472 [7:11:51<11:28:31,  3.45it/s] 62%|██████▏   | 229144/371472 [7:11:51<11:13:14,  3.52it/s] 62%|██████▏   | 229145/371472 [7:11:51<11:12:33,  3.53it/s] 62%|██████▏   | 229146/371472 [7:11:51<11:01:23,  3.59it/s] 62%|██████▏   | 229147/371472 [7:11:52<10:41:07,  3.70it/s] 62%|██████▏   | 229148/371472 [7:11:52<10:31:36,  3.76it/s] 62%|██████▏   | 229149/371472 [7:11:52<10:37:34,  3.72it/s] 62%|██████▏   | 229150/371472 [7:11:53<10:31:21,  3.76it/s] 62%|██████▏   | 229151/371472 [7:11:53<10:48:16,  3.66it/s] 62%|██████▏   | 229152/371472 [7:11:53<10:30:19,  3.76it/s] 62%|██████▏   | 229153/371472 [7:11:53<11:24:20,  3.47it/s] 62%|██████▏   | 229154/371472 [7:11:54<11:34:44,  3.41it/s] 62%|██████▏   | 229155/371472 [7:11:54<11:09:06,  3.54it/s] 62%|██████▏   | 229156/371472 [7:11:54<11:44:19,  3.37it/s] 62%|██████▏   | 229157/371472 [7:11:55<11:26:59,  3.45it/s] 62%|██████▏   | 229158/371472 [7:11:55<11:03:44,  3.57it/s] 62%|██████▏   | 229159/371472 [7:11:55<10:59:35,  3.60it/s] 62%|██████▏   | 229160/371472 [7:11:56<12:30:29,  3.16it/s]                                                            {'loss': 2.8015, 'learning_rate': 4.4497834471761937e-07, 'epoch': 9.87}
 62%|██████▏   | 229160/371472 [7:11:56<12:30:29,  3.16it/s] 62%|██████▏   | 229161/371472 [7:11:56<12:03:01,  3.28it/s] 62%|██████▏   | 229162/371472 [7:11:56<11:35:59,  3.41it/s] 62%|██████▏   | 229163/371472 [7:11:56<11:32:25,  3.43it/s] 62%|██████▏   | 229164/371472 [7:11:57<11:32:17,  3.43it/s] 62%|██████▏   | 229165/371472 [7:11:57<11:30:13,  3.44it/s] 62%|██████▏   | 229166/371472 [7:11:57<11:29:07,  3.44it/s] 62%|██████▏   | 229167/371472 [7:11:57<11:12:13,  3.53it/s] 62%|██████▏   | 229168/371472 [7:11:58<10:56:17,  3.61it/s] 62%|██████▏   | 229169/371472 [7:11:58<10:41:40,  3.70it/s] 62%|██████▏   | 229170/371472 [7:11:58<11:18:02,  3.50it/s] 62%|██████▏   | 229171/371472 [7:11:59<11:11:56,  3.53it/s] 62%|██████▏   | 229172/371472 [7:11:59<11:01:38,  3.58it/s] 62%|██████▏   | 229173/371472 [7:11:59<12:03:51,  3.28it/s] 62%|██████▏   | 229174/371472 [7:11:59<11:29:34,  3.44it/s] 62%|██████▏   | 229175/371472 [7:12:00<11:08:09,  3.55it/s] 62%|██████▏   | 229176/371472 [7:12:00<10:51:39,  3.64it/s] 62%|██████▏   | 229177/371472 [7:12:00<10:37:52,  3.72it/s] 62%|██████▏   | 229178/371472 [7:12:01<11:05:15,  3.56it/s] 62%|██████▏   | 229179/371472 [7:12:01<11:34:13,  3.42it/s] 62%|██████▏   | 229180/371472 [7:12:01<11:50:20,  3.34it/s]                                                            {'loss': 2.7314, 'learning_rate': 4.449298627421405e-07, 'epoch': 9.87}
 62%|██████▏   | 229180/371472 [7:12:01<11:50:20,  3.34it/s] 62%|██████▏   | 229181/371472 [7:12:02<11:39:53,  3.39it/s] 62%|██████▏   | 229182/371472 [7:12:02<11:18:33,  3.49it/s] 62%|██████▏   | 229183/371472 [7:12:02<11:08:53,  3.55it/s] 62%|██████▏   | 229184/371472 [7:12:02<11:24:23,  3.47it/s] 62%|██████▏   | 229185/371472 [7:12:03<11:33:30,  3.42it/s] 62%|██████▏   | 229186/371472 [7:12:03<11:37:44,  3.40it/s] 62%|██████▏   | 229187/371472 [7:12:03<11:42:25,  3.38it/s] 62%|██████▏   | 229188/371472 [7:12:03<11:11:34,  3.53it/s] 62%|██████▏   | 229189/371472 [7:12:04<10:57:19,  3.61it/s] 62%|██████▏   | 229190/371472 [7:12:04<10:57:12,  3.61it/s] 62%|██████▏   | 229191/371472 [7:12:04<11:23:52,  3.47it/s] 62%|██████▏   | 229192/371472 [7:12:05<11:49:24,  3.34it/s] 62%|██████▏   | 229193/371472 [7:12:05<11:13:26,  3.52it/s] 62%|██████▏   | 229194/371472 [7:12:05<12:07:01,  3.26it/s] 62%|██████▏   | 229195/371472 [7:12:06<11:36:14,  3.41it/s] 62%|██████▏   | 229196/371472 [7:12:06<11:10:39,  3.54it/s] 62%|██████▏   | 229197/371472 [7:12:06<11:01:37,  3.58it/s] 62%|██████▏   | 229198/371472 [7:12:06<10:39:22,  3.71it/s] 62%|██████▏   | 229199/371472 [7:12:07<11:27:17,  3.45it/s] 62%|██████▏   | 229200/371472 [7:12:07<10:59:07,  3.60it/s]                                                            {'loss': 2.9033, 'learning_rate': 4.4488138076666156e-07, 'epoch': 9.87}
 62%|██████▏   | 229200/371472 [7:12:07<10:59:07,  3.60it/s] 62%|██████▏   | 229201/371472 [7:12:07<10:45:50,  3.67it/s] 62%|██████▏   | 229202/371472 [7:12:07<10:43:53,  3.68it/s] 62%|██████▏   | 229203/371472 [7:12:08<11:17:27,  3.50it/s] 62%|██████▏   | 229204/371472 [7:12:08<12:08:59,  3.25it/s] 62%|██████▏   | 229205/371472 [7:12:08<11:57:28,  3.30it/s] 62%|██████▏   | 229206/371472 [7:12:09<12:26:02,  3.18it/s] 62%|██████▏   | 229207/371472 [7:12:09<13:10:28,  3.00it/s] 62%|██████▏   | 229208/371472 [7:12:09<12:26:17,  3.18it/s] 62%|██████▏   | 229209/371472 [7:12:10<11:51:27,  3.33it/s] 62%|██████▏   | 229210/371472 [7:12:10<11:35:05,  3.41it/s] 62%|██████▏   | 229211/371472 [7:12:10<11:47:55,  3.35it/s] 62%|██████▏   | 229212/371472 [7:12:11<12:42:19,  3.11it/s] 62%|██████▏   | 229213/371472 [7:12:11<12:47:56,  3.09it/s] 62%|██████▏   | 229214/371472 [7:12:11<12:05:09,  3.27it/s] 62%|██████▏   | 229215/371472 [7:12:11<11:20:30,  3.48it/s] 62%|██████▏   | 229216/371472 [7:12:12<11:40:25,  3.39it/s] 62%|██████▏   | 229217/371472 [7:12:12<11:50:36,  3.34it/s] 62%|██████▏   | 229218/371472 [7:12:12<11:14:36,  3.51it/s] 62%|██████▏   | 229219/371472 [7:12:13<11:17:08,  3.50it/s] 62%|██████▏   | 229220/371472 [7:12:13<11:00:06,  3.59it/s]                                                            {'loss': 2.9349, 'learning_rate': 4.4483289879118274e-07, 'epoch': 9.87}
 62%|██████▏   | 229220/371472 [7:12:13<11:00:06,  3.59it/s] 62%|██████▏   | 229221/371472 [7:12:13<10:57:08,  3.61it/s] 62%|██████▏   | 229222/371472 [7:12:13<10:42:52,  3.69it/s] 62%|██████▏   | 229223/371472 [7:12:14<10:53:35,  3.63it/s] 62%|██████▏   | 229224/371472 [7:12:14<11:51:05,  3.33it/s] 62%|██████▏   | 229225/371472 [7:12:14<11:24:55,  3.46it/s] 62%|██████▏   | 229226/371472 [7:12:15<11:26:03,  3.46it/s] 62%|██████▏   | 229227/371472 [7:12:15<10:52:29,  3.63it/s] 62%|██████▏   | 229228/371472 [7:12:15<11:02:41,  3.58it/s] 62%|██████▏   | 229229/371472 [7:12:15<10:46:11,  3.67it/s] 62%|██████▏   | 229230/371472 [7:12:16<10:43:31,  3.68it/s] 62%|██████▏   | 229231/371472 [7:12:16<10:37:09,  3.72it/s] 62%|██████▏   | 229232/371472 [7:12:16<10:24:46,  3.79it/s] 62%|██████▏   | 229233/371472 [7:12:16<10:16:07,  3.85it/s] 62%|██████▏   | 229234/371472 [7:12:17<10:29:54,  3.76it/s] 62%|██████▏   | 229235/371472 [7:12:17<10:50:05,  3.65it/s] 62%|██████▏   | 229236/371472 [7:12:17<10:49:32,  3.65it/s] 62%|██████▏   | 229237/371472 [7:12:18<11:05:52,  3.56it/s] 62%|██████▏   | 229238/371472 [7:12:18<11:21:12,  3.48it/s] 62%|██████▏   | 229239/371472 [7:12:18<11:15:19,  3.51it/s] 62%|██████▏   | 229240/371472 [7:12:19<11:54:35,  3.32it/s]                                                            {'loss': 3.0775, 'learning_rate': 4.447844168157038e-07, 'epoch': 9.87}
 62%|██████▏   | 229240/371472 [7:12:19<11:54:35,  3.32it/s] 62%|██████▏   | 229241/371472 [7:12:19<11:56:01,  3.31it/s] 62%|██████▏   | 229242/371472 [7:12:19<12:25:51,  3.18it/s] 62%|██████▏   | 229243/371472 [7:12:19<11:38:07,  3.40it/s] 62%|██████▏   | 229244/371472 [7:12:20<11:38:32,  3.39it/s] 62%|██████▏   | 229245/371472 [7:12:20<11:10:03,  3.54it/s] 62%|██████▏   | 229246/371472 [7:12:20<11:06:24,  3.56it/s] 62%|██████▏   | 229247/371472 [7:12:20<10:54:21,  3.62it/s] 62%|██████▏   | 229248/371472 [7:12:21<11:46:37,  3.35it/s] 62%|██████▏   | 229249/371472 [7:12:21<11:50:47,  3.33it/s] 62%|██████▏   | 229250/371472 [7:12:21<11:53:25,  3.32it/s] 62%|██████▏   | 229251/371472 [7:12:22<12:00:22,  3.29it/s] 62%|██████▏   | 229252/371472 [7:12:22<12:57:24,  3.05it/s] 62%|██████▏   | 229253/371472 [7:12:22<13:01:06,  3.03it/s] 62%|██████▏   | 229254/371472 [7:12:23<12:35:43,  3.14it/s] 62%|██████▏   | 229255/371472 [7:12:23<12:08:13,  3.25it/s] 62%|██████▏   | 229256/371472 [7:12:23<11:25:17,  3.46it/s] 62%|██████▏   | 229257/371472 [7:12:24<11:03:51,  3.57it/s] 62%|██████▏   | 229258/371472 [7:12:24<11:23:42,  3.47it/s] 62%|██████▏   | 229259/371472 [7:12:24<11:04:45,  3.57it/s] 62%|██████▏   | 229260/371472 [7:12:25<12:21:04,  3.20it/s]                                                            {'loss': 2.8487, 'learning_rate': 4.4473593484022494e-07, 'epoch': 9.87}
 62%|██████▏   | 229260/371472 [7:12:25<12:21:04,  3.20it/s] 62%|██████▏   | 229261/371472 [7:12:25<12:58:16,  3.05it/s] 62%|██████▏   | 229262/371472 [7:12:25<12:54:29,  3.06it/s] 62%|██████▏   | 229263/371472 [7:12:25<12:03:07,  3.28it/s] 62%|██████▏   | 229264/371472 [7:12:26<12:09:27,  3.25it/s] 62%|██████▏   | 229265/371472 [7:12:26<11:39:11,  3.39it/s] 62%|██████▏   | 229266/371472 [7:12:26<11:09:57,  3.54it/s] 62%|██████▏   | 229267/371472 [7:12:27<11:03:33,  3.57it/s] 62%|██████▏   | 229268/371472 [7:12:27<11:42:57,  3.37it/s] 62%|██████▏   | 229269/371472 [7:12:27<11:47:25,  3.35it/s] 62%|██████▏   | 229270/371472 [7:12:27<11:18:10,  3.49it/s] 62%|██████▏   | 229271/371472 [7:12:28<11:18:03,  3.50it/s] 62%|██████▏   | 229272/371472 [7:12:28<11:09:20,  3.54it/s] 62%|██████▏   | 229273/371472 [7:12:28<10:57:58,  3.60it/s] 62%|██████▏   | 229274/371472 [7:12:29<11:21:48,  3.48it/s] 62%|██████▏   | 229275/371472 [7:12:29<11:31:00,  3.43it/s] 62%|██████▏   | 229276/371472 [7:12:29<11:11:12,  3.53it/s] 62%|██████▏   | 229277/371472 [7:12:29<11:23:13,  3.47it/s] 62%|██████▏   | 229278/371472 [7:12:30<11:41:56,  3.38it/s] 62%|██████▏   | 229279/371472 [7:12:30<11:24:52,  3.46it/s] 62%|██████▏   | 229280/371472 [7:12:30<11:01:09,  3.58it/s]                                                            {'loss': 3.0127, 'learning_rate': 4.44687452864746e-07, 'epoch': 9.88}
 62%|██████▏   | 229280/371472 [7:12:30<11:01:09,  3.58it/s] 62%|██████▏   | 229281/371472 [7:12:31<10:44:15,  3.68it/s] 62%|██████▏   | 229282/371472 [7:12:31<10:58:51,  3.60it/s] 62%|██████▏   | 229283/371472 [7:12:31<10:48:26,  3.65it/s] 62%|██████▏   | 229284/371472 [7:12:31<12:07:38,  3.26it/s] 62%|██████▏   | 229285/371472 [7:12:32<11:36:58,  3.40it/s] 62%|██████▏   | 229286/371472 [7:12:32<11:23:57,  3.46it/s] 62%|██████▏   | 229287/371472 [7:12:32<11:11:34,  3.53it/s] 62%|██████▏   | 229288/371472 [7:12:33<11:00:00,  3.59it/s] 62%|██████▏   | 229289/371472 [7:12:33<10:45:34,  3.67it/s] 62%|██████▏   | 229290/371472 [7:12:33<10:35:24,  3.73it/s] 62%|██████▏   | 229291/371472 [7:12:33<10:48:35,  3.65it/s] 62%|██████▏   | 229292/371472 [7:12:34<10:48:10,  3.66it/s] 62%|██████▏   | 229293/371472 [7:12:34<11:17:56,  3.50it/s] 62%|██████▏   | 229294/371472 [7:12:34<11:14:41,  3.51it/s] 62%|██████▏   | 229295/371472 [7:12:35<11:13:08,  3.52it/s] 62%|██████▏   | 229296/371472 [7:12:35<10:53:26,  3.63it/s] 62%|██████▏   | 229297/371472 [7:12:35<11:45:10,  3.36it/s] 62%|██████▏   | 229298/371472 [7:12:35<12:25:21,  3.18it/s] 62%|██████▏   | 229299/371472 [7:12:36<11:49:01,  3.34it/s] 62%|██████▏   | 229300/371472 [7:12:36<11:03:54,  3.57it/s]                                                            {'loss': 2.7968, 'learning_rate': 4.446389708892672e-07, 'epoch': 9.88}
 62%|██████▏   | 229300/371472 [7:12:36<11:03:54,  3.57it/s] 62%|██████▏   | 229301/371472 [7:12:36<12:01:05,  3.29it/s] 62%|██████▏   | 229302/371472 [7:12:37<12:02:35,  3.28it/s] 62%|██████▏   | 229303/371472 [7:12:37<11:51:56,  3.33it/s] 62%|██████▏   | 229304/371472 [7:12:37<11:25:39,  3.46it/s] 62%|██████▏   | 229305/371472 [7:12:37<11:01:12,  3.58it/s] 62%|██████▏   | 229306/371472 [7:12:38<10:49:59,  3.65it/s] 62%|██████▏   | 229307/371472 [7:12:38<11:16:01,  3.50it/s] 62%|██████▏   | 229308/371472 [7:12:38<11:24:48,  3.46it/s] 62%|██████▏   | 229309/371472 [7:12:39<11:56:35,  3.31it/s] 62%|██████▏   | 229310/371472 [7:12:39<12:20:35,  3.20it/s] 62%|██████▏   | 229311/371472 [7:12:39<11:37:38,  3.40it/s] 62%|██████▏   | 229312/371472 [7:12:40<12:00:45,  3.29it/s] 62%|██████▏   | 229313/371472 [7:12:40<11:31:50,  3.42it/s] 62%|██████▏   | 229314/371472 [7:12:40<11:03:02,  3.57it/s] 62%|██████▏   | 229315/371472 [7:12:40<12:13:21,  3.23it/s] 62%|██████▏   | 229316/371472 [7:12:41<11:39:16,  3.39it/s] 62%|██████▏   | 229317/371472 [7:12:41<11:26:55,  3.45it/s] 62%|██████▏   | 229318/371472 [7:12:41<11:15:57,  3.51it/s] 62%|██████▏   | 229319/371472 [7:12:42<11:10:28,  3.53it/s] 62%|██████▏   | 229320/371472 [7:12:42<11:40:59,  3.38it/s]                                                            {'loss': 2.7917, 'learning_rate': 4.445904889137882e-07, 'epoch': 9.88}
 62%|██████▏   | 229320/371472 [7:12:42<11:40:59,  3.38it/s] 62%|██████▏   | 229321/371472 [7:12:42<11:53:34,  3.32it/s] 62%|██████▏   | 229322/371472 [7:12:43<12:05:41,  3.26it/s] 62%|██████▏   | 229323/371472 [7:12:43<11:44:37,  3.36it/s] 62%|██████▏   | 229324/371472 [7:12:43<12:02:06,  3.28it/s] 62%|██████▏   | 229325/371472 [7:12:43<12:19:38,  3.20it/s] 62%|██████▏   | 229326/371472 [7:12:44<12:11:44,  3.24it/s] 62%|██████▏   | 229327/371472 [7:12:44<12:04:18,  3.27it/s] 62%|██████▏   | 229328/371472 [7:12:44<11:20:38,  3.48it/s] 62%|██████▏   | 229329/371472 [7:12:45<11:17:08,  3.50it/s] 62%|██████▏   | 229330/371472 [7:12:45<11:03:59,  3.57it/s] 62%|██████▏   | 229331/371472 [7:12:45<11:05:30,  3.56it/s] 62%|██████▏   | 229332/371472 [7:12:45<10:54:26,  3.62it/s] 62%|██████▏   | 229333/371472 [7:12:46<11:01:12,  3.58it/s] 62%|██████▏   | 229334/371472 [7:12:46<12:11:59,  3.24it/s] 62%|██████▏   | 229335/371472 [7:12:46<11:42:44,  3.37it/s] 62%|██████▏   | 229336/371472 [7:12:47<11:42:45,  3.37it/s] 62%|██████▏   | 229337/371472 [7:12:47<11:30:00,  3.43it/s] 62%|██████▏   | 229338/371472 [7:12:47<11:07:59,  3.55it/s] 62%|██████▏   | 229339/371472 [7:12:48<12:01:21,  3.28it/s] 62%|██████▏   | 229340/371472 [7:12:48<11:43:16,  3.37it/s]                                                            {'loss': 2.8056, 'learning_rate': 4.445420069383094e-07, 'epoch': 9.88}
 62%|██████▏   | 229340/371472 [7:12:48<11:43:16,  3.37it/s] 62%|██████▏   | 229341/371472 [7:12:48<12:18:57,  3.21it/s] 62%|██████▏   | 229342/371472 [7:12:48<11:40:02,  3.38it/s] 62%|██████▏   | 229343/371472 [7:12:49<12:10:58,  3.24it/s] 62%|██████▏   | 229344/371472 [7:12:49<12:18:24,  3.21it/s] 62%|██████▏   | 229345/371472 [7:12:49<11:41:15,  3.38it/s] 62%|██████▏   | 229346/371472 [7:12:50<11:38:27,  3.39it/s] 62%|██████▏   | 229347/371472 [7:12:50<12:15:56,  3.22it/s] 62%|██████▏   | 229348/371472 [7:12:50<11:33:36,  3.42it/s] 62%|██████▏   | 229349/371472 [7:12:50<11:20:17,  3.48it/s] 62%|██████▏   | 229350/371472 [7:12:51<10:54:45,  3.62it/s] 62%|██████▏   | 229351/371472 [7:12:51<11:04:36,  3.56it/s] 62%|██████▏   | 229352/371472 [7:12:51<11:22:36,  3.47it/s] 62%|██████▏   | 229353/371472 [7:12:52<11:03:04,  3.57it/s] 62%|██████▏   | 229354/371472 [7:12:52<11:29:01,  3.44it/s] 62%|██████▏   | 229355/371472 [7:12:52<10:59:33,  3.59it/s] 62%|██████▏   | 229356/371472 [7:12:52<11:03:22,  3.57it/s] 62%|██████▏   | 229357/371472 [7:12:53<10:41:39,  3.69it/s] 62%|██████▏   | 229358/371472 [7:12:53<10:52:32,  3.63it/s] 62%|██████▏   | 229359/371472 [7:12:53<10:32:19,  3.75it/s] 62%|██████▏   | 229360/371472 [7:12:54<10:43:06,  3.68it/s]                                                            {'loss': 2.8859, 'learning_rate': 4.4449352496283045e-07, 'epoch': 9.88}
 62%|██████▏   | 229360/371472 [7:12:54<10:43:06,  3.68it/s] 62%|██████▏   | 229361/371472 [7:12:54<10:50:46,  3.64it/s] 62%|██████▏   | 229362/371472 [7:12:54<11:12:49,  3.52it/s] 62%|██████▏   | 229363/371472 [7:12:54<11:47:49,  3.35it/s] 62%|██████▏   | 229364/371472 [7:12:55<11:40:41,  3.38it/s] 62%|██████▏   | 229365/371472 [7:12:55<11:22:24,  3.47it/s] 62%|██████▏   | 229366/371472 [7:12:55<12:15:40,  3.22it/s] 62%|██████▏   | 229367/371472 [7:12:56<12:42:37,  3.11it/s] 62%|██████▏   | 229368/371472 [7:12:56<12:27:03,  3.17it/s] 62%|██████▏   | 229369/371472 [7:12:56<11:39:56,  3.38it/s] 62%|██████▏   | 229370/371472 [7:12:57<11:51:45,  3.33it/s] 62%|██████▏   | 229371/371472 [7:12:57<11:55:23,  3.31it/s] 62%|██████▏   | 229372/371472 [7:12:57<11:40:23,  3.38it/s] 62%|██████▏   | 229373/371472 [7:12:57<11:25:50,  3.45it/s] 62%|██████▏   | 229374/371472 [7:12:58<11:20:28,  3.48it/s] 62%|██████▏   | 229375/371472 [7:12:58<10:57:34,  3.60it/s] 62%|██████▏   | 229376/371472 [7:12:58<11:55:43,  3.31it/s] 62%|██████▏   | 229377/371472 [7:12:59<11:38:42,  3.39it/s] 62%|██████▏   | 229378/371472 [7:12:59<11:23:18,  3.47it/s] 62%|██████▏   | 229379/371472 [7:12:59<11:46:35,  3.35it/s] 62%|██████▏   | 229380/371472 [7:13:00<12:00:32,  3.29it/s]                                                            {'loss': 2.7517, 'learning_rate': 4.444450429873516e-07, 'epoch': 9.88}
 62%|██████▏   | 229380/371472 [7:13:00<12:00:32,  3.29it/s] 62%|██████▏   | 229381/371472 [7:13:00<11:43:08,  3.37it/s] 62%|██████▏   | 229382/371472 [7:13:00<11:08:22,  3.54it/s] 62%|██████▏   | 229383/371472 [7:13:00<11:05:07,  3.56it/s] 62%|██████▏   | 229384/371472 [7:13:01<11:20:30,  3.48it/s] 62%|██████▏   | 229385/371472 [7:13:01<11:02:03,  3.58it/s] 62%|██████▏   | 229386/371472 [7:13:01<11:06:18,  3.55it/s] 62%|██████▏   | 229387/371472 [7:13:01<10:50:11,  3.64it/s] 62%|██████▏   | 229388/371472 [7:13:02<11:01:57,  3.58it/s] 62%|██████▏   | 229389/371472 [7:13:02<10:44:01,  3.68it/s] 62%|██████▏   | 229390/371472 [7:13:02<10:55:31,  3.61it/s] 62%|██████▏   | 229391/371472 [7:13:03<11:48:23,  3.34it/s] 62%|██████▏   | 229392/371472 [7:13:03<11:22:04,  3.47it/s] 62%|██████▏   | 229393/371472 [7:13:03<12:19:17,  3.20it/s] 62%|██████▏   | 229394/371472 [7:13:04<12:26:10,  3.17it/s] 62%|██████▏   | 229395/371472 [7:13:04<11:39:11,  3.39it/s] 62%|██████▏   | 229396/371472 [7:13:04<12:00:31,  3.29it/s] 62%|██████▏   | 229397/371472 [7:13:04<11:19:08,  3.49it/s] 62%|██████▏   | 229398/371472 [7:13:05<11:34:52,  3.41it/s] 62%|██████▏   | 229399/371472 [7:13:05<11:15:28,  3.51it/s] 62%|██████▏   | 229400/371472 [7:13:05<11:28:31,  3.44it/s]                                                            {'loss': 2.6351, 'learning_rate': 4.4439656101187265e-07, 'epoch': 9.88}
 62%|██████▏   | 229400/371472 [7:13:05<11:28:31,  3.44it/s] 62%|██████▏   | 229401/371472 [7:13:06<11:17:04,  3.50it/s] 62%|██████▏   | 229402/371472 [7:13:06<11:20:01,  3.48it/s] 62%|██████▏   | 229403/371472 [7:13:06<11:24:19,  3.46it/s] 62%|██████▏   | 229404/371472 [7:13:06<11:17:30,  3.49it/s] 62%|██████▏   | 229405/371472 [7:13:07<11:28:38,  3.44it/s] 62%|██████▏   | 229406/371472 [7:13:07<11:29:22,  3.43it/s] 62%|██████▏   | 229407/371472 [7:13:07<11:47:21,  3.35it/s] 62%|██████▏   | 229408/371472 [7:13:08<11:15:08,  3.51it/s] 62%|██████▏   | 229409/371472 [7:13:08<10:55:36,  3.61it/s] 62%|██████▏   | 229410/371472 [7:13:08<10:43:51,  3.68it/s] 62%|██████▏   | 229411/371472 [7:13:08<10:40:22,  3.70it/s] 62%|██████▏   | 229412/371472 [7:13:09<10:47:22,  3.66it/s] 62%|██████▏   | 229413/371472 [7:13:09<10:27:32,  3.77it/s] 62%|██████▏   | 229414/371472 [7:13:09<10:09:02,  3.89it/s] 62%|██████▏   | 229415/371472 [7:13:09<10:30:24,  3.76it/s] 62%|██████▏   | 229416/371472 [7:13:10<10:37:31,  3.71it/s] 62%|██████▏   | 229417/371472 [7:13:10<10:22:57,  3.80it/s] 62%|██████▏   | 229418/371472 [7:13:10<10:33:40,  3.74it/s] 62%|██████▏   | 229419/371472 [7:13:10<10:26:55,  3.78it/s] 62%|██████▏   | 229420/371472 [7:13:11<10:33:40,  3.74it/s]                                                            {'loss': 2.8023, 'learning_rate': 4.4434807903639383e-07, 'epoch': 9.88}
 62%|██████▏   | 229420/371472 [7:13:11<10:33:40,  3.74it/s] 62%|██████▏   | 229421/371472 [7:13:11<10:51:02,  3.64it/s] 62%|██████▏   | 229422/371472 [7:13:11<10:49:17,  3.65it/s] 62%|██████▏   | 229423/371472 [7:13:12<11:04:13,  3.56it/s] 62%|██████▏   | 229424/371472 [7:13:12<10:54:22,  3.62it/s] 62%|██████▏   | 229425/371472 [7:13:12<11:09:39,  3.54it/s] 62%|██████▏   | 229426/371472 [7:13:12<10:57:54,  3.60it/s] 62%|██████▏   | 229427/371472 [7:13:13<10:59:18,  3.59it/s] 62%|██████▏   | 229428/371472 [7:13:13<10:51:01,  3.64it/s] 62%|██████▏   | 229429/371472 [7:13:13<10:42:39,  3.68it/s] 62%|██████▏   | 229430/371472 [7:13:14<11:27:59,  3.44it/s] 62%|██████▏   | 229431/371472 [7:13:14<10:53:10,  3.62it/s] 62%|██████▏   | 229432/371472 [7:13:14<11:35:53,  3.40it/s] 62%|██████▏   | 229433/371472 [7:13:14<12:06:49,  3.26it/s] 62%|██████▏   | 229434/371472 [7:13:15<11:59:54,  3.29it/s] 62%|██████▏   | 229435/371472 [7:13:15<12:03:14,  3.27it/s] 62%|██████▏   | 229436/371472 [7:13:15<11:30:26,  3.43it/s] 62%|██████▏   | 229437/371472 [7:13:16<11:17:35,  3.49it/s] 62%|██████▏   | 229438/371472 [7:13:16<11:40:56,  3.38it/s] 62%|██████▏   | 229439/371472 [7:13:16<11:41:13,  3.38it/s] 62%|██████▏   | 229440/371472 [7:13:17<11:16:22,  3.50it/s]                                                            {'loss': 2.8465, 'learning_rate': 4.4429959706091485e-07, 'epoch': 9.88}
 62%|██████▏   | 229440/371472 [7:13:17<11:16:22,  3.50it/s] 62%|██████▏   | 229441/371472 [7:13:17<11:47:44,  3.34it/s] 62%|██████▏   | 229442/371472 [7:13:17<11:13:51,  3.51it/s] 62%|██████▏   | 229443/371472 [7:13:17<10:49:08,  3.65it/s] 62%|██████▏   | 229444/371472 [7:13:18<11:10:35,  3.53it/s] 62%|██████▏   | 229445/371472 [7:13:18<13:33:17,  2.91it/s] 62%|██████▏   | 229446/371472 [7:13:18<13:39:00,  2.89it/s] 62%|██████▏   | 229447/371472 [7:13:19<12:36:26,  3.13it/s] 62%|██████▏   | 229448/371472 [7:13:19<12:24:15,  3.18it/s] 62%|██████▏   | 229449/371472 [7:13:19<11:59:45,  3.29it/s] 62%|██████▏   | 229450/371472 [7:13:20<11:39:23,  3.38it/s] 62%|██████▏   | 229451/371472 [7:13:20<11:15:41,  3.50it/s] 62%|██████▏   | 229452/371472 [7:13:20<10:57:22,  3.60it/s] 62%|██████▏   | 229453/371472 [7:13:20<10:54:22,  3.62it/s] 62%|██████▏   | 229454/371472 [7:13:21<10:57:25,  3.60it/s] 62%|██████▏   | 229455/371472 [7:13:21<11:51:14,  3.33it/s] 62%|██████▏   | 229456/371472 [7:13:21<11:49:40,  3.34it/s] 62%|██████▏   | 229457/371472 [7:13:22<11:21:17,  3.47it/s] 62%|██████▏   | 229458/371472 [7:13:22<11:33:02,  3.42it/s] 62%|██████▏   | 229459/371472 [7:13:22<11:24:29,  3.46it/s] 62%|██████▏   | 229460/371472 [7:13:22<11:05:56,  3.55it/s]                                                            {'loss': 2.9496, 'learning_rate': 4.44251115085436e-07, 'epoch': 9.88}
 62%|██████▏   | 229460/371472 [7:13:22<11:05:56,  3.55it/s] 62%|██████▏   | 229461/371472 [7:13:23<10:54:28,  3.62it/s] 62%|██████▏   | 229462/371472 [7:13:23<10:40:50,  3.69it/s] 62%|██████▏   | 229463/371472 [7:13:23<11:11:29,  3.52it/s] 62%|██████▏   | 229464/371472 [7:13:24<10:46:29,  3.66it/s] 62%|██████▏   | 229465/371472 [7:13:24<11:30:07,  3.43it/s] 62%|██████▏   | 229466/371472 [7:13:24<11:31:03,  3.42it/s] 62%|██████▏   | 229467/371472 [7:13:24<11:46:24,  3.35it/s] 62%|██████▏   | 229468/371472 [7:13:25<11:27:58,  3.44it/s] 62%|██████▏   | 229469/371472 [7:13:25<11:18:02,  3.49it/s] 62%|██████▏   | 229470/371472 [7:13:25<10:42:36,  3.68it/s] 62%|██████▏   | 229471/371472 [7:13:26<10:56:57,  3.60it/s] 62%|██████▏   | 229472/371472 [7:13:26<11:46:08,  3.35it/s] 62%|██████▏   | 229473/371472 [7:13:26<11:24:33,  3.46it/s] 62%|██████▏   | 229474/371472 [7:13:26<11:40:50,  3.38it/s] 62%|██████▏   | 229475/371472 [7:13:27<11:46:45,  3.35it/s] 62%|██████▏   | 229476/371472 [7:13:27<11:11:11,  3.53it/s] 62%|██████▏   | 229477/371472 [7:13:27<11:22:04,  3.47it/s] 62%|██████▏   | 229478/371472 [7:13:28<11:22:09,  3.47it/s] 62%|██████▏   | 229479/371472 [7:13:28<11:45:49,  3.35it/s] 62%|██████▏   | 229480/371472 [7:13:28<11:28:50,  3.44it/s]                                                            {'loss': 2.8879, 'learning_rate': 4.442026331099571e-07, 'epoch': 9.88}
 62%|██████▏   | 229480/371472 [7:13:28<11:28:50,  3.44it/s] 62%|██████▏   | 229481/371472 [7:13:28<11:21:50,  3.47it/s] 62%|██████▏   | 229482/371472 [7:13:29<11:04:42,  3.56it/s] 62%|██████▏   | 229483/371472 [7:13:29<11:05:57,  3.55it/s] 62%|██████▏   | 229484/371472 [7:13:29<10:48:18,  3.65it/s] 62%|██████▏   | 229485/371472 [7:13:30<11:43:32,  3.36it/s] 62%|██████▏   | 229486/371472 [7:13:30<11:45:14,  3.36it/s] 62%|██████▏   | 229487/371472 [7:13:30<11:28:31,  3.44it/s] 62%|██████▏   | 229488/371472 [7:13:30<11:06:16,  3.55it/s] 62%|██████▏   | 229489/371472 [7:13:31<11:23:05,  3.46it/s] 62%|██████▏   | 229490/371472 [7:13:31<11:16:08,  3.50it/s] 62%|██████▏   | 229491/371472 [7:13:31<11:14:35,  3.51it/s] 62%|██████▏   | 229492/371472 [7:13:32<11:24:07,  3.46it/s] 62%|██████▏   | 229493/371472 [7:13:32<12:28:22,  3.16it/s] 62%|██████▏   | 229494/371472 [7:13:32<12:03:32,  3.27it/s] 62%|██████▏   | 229495/371472 [7:13:33<11:30:05,  3.43it/s] 62%|██████▏   | 229496/371472 [7:13:33<11:22:42,  3.47it/s] 62%|██████▏   | 229497/371472 [7:13:33<11:27:32,  3.44it/s] 62%|██████▏   | 229498/371472 [7:13:33<11:13:45,  3.51it/s] 62%|██████▏   | 229499/371472 [7:13:34<10:51:17,  3.63it/s] 62%|██████▏   | 229500/371472 [7:13:34<11:03:51,  3.56it/s]                                                            {'loss': 2.7457, 'learning_rate': 4.441541511344782e-07, 'epoch': 9.88}
 62%|██████▏   | 229500/371472 [7:13:34<11:03:51,  3.56it/s] 62%|██████▏   | 229501/371472 [7:13:34<12:11:48,  3.23it/s] 62%|██████▏   | 229502/371472 [7:13:35<12:01:03,  3.28it/s] 62%|██████▏   | 229503/371472 [7:13:35<11:23:38,  3.46it/s] 62%|██████▏   | 229504/371472 [7:13:35<11:12:00,  3.52it/s] 62%|██████▏   | 229505/371472 [7:13:35<11:06:50,  3.55it/s] 62%|██████▏   | 229506/371472 [7:13:36<11:27:58,  3.44it/s] 62%|██████▏   | 229507/371472 [7:13:36<11:17:59,  3.49it/s] 62%|██████▏   | 229508/371472 [7:13:36<12:15:09,  3.22it/s] 62%|██████▏   | 229509/371472 [7:13:37<12:13:06,  3.23it/s] 62%|██████▏   | 229510/371472 [7:13:37<12:04:18,  3.27it/s] 62%|██████▏   | 229511/371472 [7:13:37<12:01:14,  3.28it/s] 62%|██████▏   | 229512/371472 [7:13:38<13:00:59,  3.03it/s] 62%|██████▏   | 229513/371472 [7:13:38<13:00:01,  3.03it/s] 62%|██████▏   | 229514/371472 [7:13:38<13:02:40,  3.02it/s] 62%|██████▏   | 229515/371472 [7:13:39<12:09:51,  3.24it/s] 62%|██████▏   | 229516/371472 [7:13:39<11:47:03,  3.35it/s] 62%|██████▏   | 229517/371472 [7:13:39<11:24:03,  3.46it/s] 62%|██████▏   | 229518/371472 [7:13:39<11:07:11,  3.55it/s] 62%|██████▏   | 229519/371472 [7:13:40<10:54:29,  3.61it/s] 62%|██████▏   | 229520/371472 [7:13:40<10:56:46,  3.60it/s]                                                            {'loss': 2.8176, 'learning_rate': 4.441056691589993e-07, 'epoch': 9.89}
 62%|██████▏   | 229520/371472 [7:13:40<10:56:46,  3.60it/s] 62%|██████▏   | 229521/371472 [7:13:40<11:44:52,  3.36it/s] 62%|██████▏   | 229522/371472 [7:13:41<11:20:47,  3.48it/s] 62%|██████▏   | 229523/371472 [7:13:41<11:08:16,  3.54it/s] 62%|██████▏   | 229524/371472 [7:13:41<11:08:58,  3.54it/s] 62%|██████▏   | 229525/371472 [7:13:41<10:42:28,  3.68it/s] 62%|██████▏   | 229526/371472 [7:13:42<11:07:18,  3.55it/s] 62%|██████▏   | 229527/371472 [7:13:42<10:51:54,  3.63it/s] 62%|██████▏   | 229528/371472 [7:13:42<10:39:31,  3.70it/s] 62%|██████▏   | 229529/371472 [7:13:42<10:36:26,  3.72it/s] 62%|██████▏   | 229530/371472 [7:13:43<10:45:16,  3.67it/s] 62%|██████▏   | 229531/371472 [7:13:43<10:35:22,  3.72it/s] 62%|██████▏   | 229532/371472 [7:13:43<10:34:33,  3.73it/s] 62%|██████▏   | 229533/371472 [7:13:44<11:35:09,  3.40it/s] 62%|██████▏   | 229534/371472 [7:13:44<11:50:53,  3.33it/s] 62%|██████▏   | 229535/371472 [7:13:44<11:26:30,  3.45it/s] 62%|██████▏   | 229536/371472 [7:13:45<12:17:24,  3.21it/s] 62%|██████▏   | 229537/371472 [7:13:45<12:23:21,  3.18it/s] 62%|██████▏   | 229538/371472 [7:13:45<12:13:00,  3.23it/s] 62%|██████▏   | 229539/371472 [7:13:45<11:37:12,  3.39it/s] 62%|██████▏   | 229540/371472 [7:13:46<11:15:20,  3.50it/s]                                                            {'loss': 3.0789, 'learning_rate': 4.4405718718352047e-07, 'epoch': 9.89}
 62%|██████▏   | 229540/371472 [7:13:46<11:15:20,  3.50it/s] 62%|██████▏   | 229541/371472 [7:13:46<11:06:36,  3.55it/s] 62%|██████▏   | 229542/371472 [7:13:46<10:56:12,  3.60it/s] 62%|██████▏   | 229543/371472 [7:13:46<10:45:13,  3.67it/s] 62%|██████▏   | 229544/371472 [7:13:47<10:50:34,  3.64it/s] 62%|██████▏   | 229545/371472 [7:13:47<10:59:02,  3.59it/s] 62%|██████▏   | 229546/371472 [7:13:47<11:51:42,  3.32it/s] 62%|██████▏   | 229547/371472 [7:13:48<12:03:59,  3.27it/s] 62%|██████▏   | 229548/371472 [7:13:48<11:52:28,  3.32it/s] 62%|██████▏   | 229549/371472 [7:13:48<11:35:36,  3.40it/s] 62%|██████▏   | 229550/371472 [7:13:49<11:29:14,  3.43it/s] 62%|██████▏   | 229551/371472 [7:13:49<11:43:33,  3.36it/s] 62%|██████▏   | 229552/371472 [7:13:49<11:39:11,  3.38it/s] 62%|██████▏   | 229553/371472 [7:13:49<11:14:58,  3.50it/s] 62%|██████▏   | 229554/371472 [7:13:50<11:00:27,  3.58it/s] 62%|██████▏   | 229555/371472 [7:13:50<10:59:00,  3.59it/s] 62%|██████▏   | 229556/371472 [7:13:50<11:07:31,  3.54it/s] 62%|██████▏   | 229557/371472 [7:13:51<11:08:08,  3.54it/s] 62%|██████▏   | 229558/371472 [7:13:51<11:46:38,  3.35it/s] 62%|██████▏   | 229559/371472 [7:13:51<11:22:44,  3.46it/s] 62%|██████▏   | 229560/371472 [7:13:51<11:20:42,  3.47it/s]                                                            {'loss': 2.7189, 'learning_rate': 4.440087052080415e-07, 'epoch': 9.89}
 62%|██████▏   | 229560/371472 [7:13:51<11:20:42,  3.47it/s] 62%|██████▏   | 229561/371472 [7:13:52<11:19:18,  3.48it/s] 62%|██████▏   | 229562/371472 [7:13:52<11:15:41,  3.50it/s] 62%|██████▏   | 229563/371472 [7:13:52<11:31:52,  3.42it/s] 62%|██████▏   | 229564/371472 [7:13:53<11:44:07,  3.36it/s] 62%|██████▏   | 229565/371472 [7:13:53<11:35:02,  3.40it/s] 62%|██████▏   | 229566/371472 [7:13:53<11:13:14,  3.51it/s] 62%|██████▏   | 229567/371472 [7:13:53<11:18:53,  3.48it/s] 62%|██████▏   | 229568/371472 [7:13:54<10:58:47,  3.59it/s] 62%|██████▏   | 229569/371472 [7:13:54<11:25:10,  3.45it/s] 62%|██████▏   | 229570/371472 [7:13:54<11:31:40,  3.42it/s] 62%|██████▏   | 229571/371472 [7:13:55<12:17:24,  3.21it/s] 62%|██████▏   | 229572/371472 [7:13:55<11:51:01,  3.33it/s] 62%|██████▏   | 229573/371472 [7:13:55<11:56:55,  3.30it/s] 62%|██████▏   | 229574/371472 [7:13:56<11:48:15,  3.34it/s] 62%|██████▏   | 229575/371472 [7:13:56<11:41:04,  3.37it/s] 62%|██████▏   | 229576/371472 [7:13:56<11:27:22,  3.44it/s] 62%|██████▏   | 229577/371472 [7:13:56<11:12:07,  3.52it/s] 62%|██████▏   | 229578/371472 [7:13:57<10:58:03,  3.59it/s] 62%|██████▏   | 229579/371472 [7:13:57<10:49:04,  3.64it/s] 62%|██████▏   | 229580/371472 [7:13:57<10:53:10,  3.62it/s]                                                            {'loss': 2.9603, 'learning_rate': 4.4396022323256266e-07, 'epoch': 9.89}
 62%|██████▏   | 229580/371472 [7:13:57<10:53:10,  3.62it/s] 62%|██████▏   | 229581/371472 [7:13:57<10:41:12,  3.69it/s] 62%|██████▏   | 229582/371472 [7:13:58<10:26:35,  3.77it/s] 62%|██████▏   | 229583/371472 [7:13:58<12:35:38,  3.13it/s] 62%|██████▏   | 229584/371472 [7:13:59<12:39:04,  3.12it/s] 62%|██████▏   | 229585/371472 [7:13:59<12:32:39,  3.14it/s] 62%|██████▏   | 229586/371472 [7:13:59<11:44:11,  3.36it/s] 62%|██████▏   | 229587/371472 [7:13:59<11:09:16,  3.53it/s] 62%|██████▏   | 229588/371472 [7:14:00<11:08:46,  3.54it/s] 62%|██████▏   | 229589/371472 [7:14:00<10:44:57,  3.67it/s] 62%|██████▏   | 229590/371472 [7:14:00<10:35:39,  3.72it/s] 62%|██████▏   | 229591/371472 [7:14:00<10:14:16,  3.85it/s] 62%|██████▏   | 229592/371472 [7:14:01<9:58:49,  3.95it/s]  62%|██████▏   | 229593/371472 [7:14:01<10:41:25,  3.69it/s] 62%|██████▏   | 229594/371472 [7:14:01<11:08:53,  3.54it/s] 62%|██████▏   | 229595/371472 [7:14:01<11:11:29,  3.52it/s] 62%|██████▏   | 229596/371472 [7:14:02<11:44:07,  3.36it/s] 62%|██████▏   | 229597/371472 [7:14:02<12:26:19,  3.17it/s] 62%|██████▏   | 229598/371472 [7:14:02<11:55:26,  3.31it/s] 62%|██████▏   | 229599/371472 [7:14:03<11:42:53,  3.36it/s] 62%|██████▏   | 229600/371472 [7:14:03<11:12:27,  3.52it/s]                                                            {'loss': 2.9172, 'learning_rate': 4.4391174125708374e-07, 'epoch': 9.89}
 62%|██████▏   | 229600/371472 [7:14:03<11:12:27,  3.52it/s] 62%|██████▏   | 229601/371472 [7:14:03<11:00:40,  3.58it/s] 62%|██████▏   | 229602/371472 [7:14:04<10:41:37,  3.69it/s] 62%|██████▏   | 229603/371472 [7:14:04<10:26:42,  3.77it/s] 62%|██████▏   | 229604/371472 [7:14:04<10:02:08,  3.93it/s] 62%|██████▏   | 229605/371472 [7:14:04<10:12:34,  3.86it/s] 62%|██████▏   | 229606/371472 [7:14:05<10:27:59,  3.77it/s] 62%|██████▏   | 229607/371472 [7:14:05<10:22:17,  3.80it/s] 62%|██████▏   | 229608/371472 [7:14:05<11:08:23,  3.54it/s] 62%|██████▏   | 229609/371472 [7:14:05<11:22:48,  3.46it/s] 62%|██████▏   | 229610/371472 [7:14:06<11:00:02,  3.58it/s] 62%|██████▏   | 229611/371472 [7:14:06<11:02:35,  3.57it/s] 62%|██████▏   | 229612/371472 [7:14:06<11:28:19,  3.43it/s] 62%|██████▏   | 229613/371472 [7:14:07<10:50:52,  3.63it/s] 62%|██████▏   | 229614/371472 [7:14:07<11:56:27,  3.30it/s] 62%|██████▏   | 229615/371472 [7:14:07<11:07:30,  3.54it/s] 62%|██████▏   | 229616/371472 [7:14:07<11:23:54,  3.46it/s] 62%|██████▏   | 229617/371472 [7:14:08<11:50:31,  3.33it/s] 62%|██████▏   | 229618/371472 [7:14:08<11:15:56,  3.50it/s] 62%|██████▏   | 229619/371472 [7:14:08<11:20:30,  3.47it/s] 62%|██████▏   | 229620/371472 [7:14:09<11:21:44,  3.47it/s]                                                            {'loss': 2.8786, 'learning_rate': 4.4386325928160486e-07, 'epoch': 9.89}
 62%|██████▏   | 229620/371472 [7:14:09<11:21:44,  3.47it/s] 62%|██████▏   | 229621/371472 [7:14:09<11:41:02,  3.37it/s] 62%|██████▏   | 229622/371472 [7:14:09<11:34:52,  3.40it/s] 62%|██████▏   | 229623/371472 [7:14:10<11:49:34,  3.33it/s] 62%|██████▏   | 229624/371472 [7:14:10<11:56:43,  3.30it/s] 62%|██████▏   | 229625/371472 [7:14:10<11:43:51,  3.36it/s] 62%|██████▏   | 229626/371472 [7:14:10<12:14:15,  3.22it/s] 62%|██████▏   | 229627/371472 [7:14:11<11:49:00,  3.33it/s] 62%|██████▏   | 229628/371472 [7:14:11<11:38:44,  3.38it/s] 62%|██████▏   | 229629/371472 [7:14:11<11:55:38,  3.30it/s] 62%|██████▏   | 229630/371472 [7:14:12<11:17:57,  3.49it/s] 62%|██████▏   | 229631/371472 [7:14:12<10:51:03,  3.63it/s] 62%|██████▏   | 229632/371472 [7:14:12<10:39:04,  3.70it/s] 62%|██████▏   | 229633/371472 [7:14:12<10:41:28,  3.69it/s] 62%|██████▏   | 229634/371472 [7:14:13<10:37:56,  3.71it/s] 62%|██████▏   | 229635/371472 [7:14:13<11:13:36,  3.51it/s] 62%|██████▏   | 229636/371472 [7:14:13<11:19:32,  3.48it/s] 62%|██████▏   | 229637/371472 [7:14:14<12:40:57,  3.11it/s] 62%|██████▏   | 229638/371472 [7:14:14<12:21:09,  3.19it/s] 62%|██████▏   | 229639/371472 [7:14:14<11:57:26,  3.29it/s] 62%|██████▏   | 229640/371472 [7:14:14<11:30:30,  3.42it/s]                                                            {'loss': 2.7464, 'learning_rate': 4.4381477730612593e-07, 'epoch': 9.89}
 62%|██████▏   | 229640/371472 [7:14:14<11:30:30,  3.42it/s] 62%|██████▏   | 229641/371472 [7:14:15<11:11:22,  3.52it/s] 62%|██████▏   | 229642/371472 [7:14:15<11:15:16,  3.50it/s] 62%|██████▏   | 229643/371472 [7:14:15<11:33:07,  3.41it/s] 62%|██████▏   | 229644/371472 [7:14:16<11:03:17,  3.56it/s] 62%|██████▏   | 229645/371472 [7:14:16<10:57:14,  3.60it/s] 62%|██████▏   | 229646/371472 [7:14:16<11:16:12,  3.50it/s] 62%|██████▏   | 229647/371472 [7:14:16<11:08:22,  3.54it/s] 62%|██████▏   | 229648/371472 [7:14:17<10:53:27,  3.62it/s] 62%|██████▏   | 229649/371472 [7:14:17<10:45:00,  3.66it/s] 62%|██████▏   | 229650/371472 [7:14:17<11:09:23,  3.53it/s] 62%|██████▏   | 229651/371472 [7:14:18<11:09:37,  3.53it/s] 62%|██████▏   | 229652/371472 [7:14:18<11:33:52,  3.41it/s] 62%|██████▏   | 229653/371472 [7:14:18<11:32:52,  3.41it/s] 62%|██████▏   | 229654/371472 [7:14:18<11:32:41,  3.41it/s] 62%|██████▏   | 229655/371472 [7:14:19<11:07:02,  3.54it/s] 62%|██████▏   | 229656/371472 [7:14:19<10:51:42,  3.63it/s] 62%|██████▏   | 229657/371472 [7:14:19<10:42:03,  3.68it/s] 62%|██████▏   | 229658/371472 [7:14:20<10:47:55,  3.65it/s] 62%|██████▏   | 229659/371472 [7:14:20<10:43:45,  3.67it/s] 62%|██████▏   | 229660/371472 [7:14:20<11:03:50,  3.56it/s]                                                            {'loss': 2.9116, 'learning_rate': 4.437662953306471e-07, 'epoch': 9.89}
 62%|██████▏   | 229660/371472 [7:14:20<11:03:50,  3.56it/s] 62%|██████▏   | 229661/371472 [7:14:20<11:43:09,  3.36it/s] 62%|██████▏   | 229662/371472 [7:14:21<11:27:17,  3.44it/s] 62%|██████▏   | 229663/371472 [7:14:21<11:13:49,  3.51it/s] 62%|██████▏   | 229664/371472 [7:14:21<10:54:51,  3.61it/s] 62%|██████▏   | 229665/371472 [7:14:21<10:35:06,  3.72it/s] 62%|██████▏   | 229666/371472 [7:14:22<11:01:01,  3.58it/s] 62%|██████▏   | 229667/371472 [7:14:22<11:14:08,  3.51it/s] 62%|██████▏   | 229668/371472 [7:14:22<10:52:02,  3.62it/s] 62%|██████▏   | 229669/371472 [7:14:23<10:44:05,  3.67it/s] 62%|██████▏   | 229670/371472 [7:14:23<10:53:43,  3.62it/s] 62%|██████▏   | 229671/371472 [7:14:23<11:16:36,  3.49it/s] 62%|██████▏   | 229672/371472 [7:14:23<11:07:36,  3.54it/s] 62%|██████▏   | 229673/371472 [7:14:24<11:01:23,  3.57it/s] 62%|██████▏   | 229674/371472 [7:14:24<11:21:11,  3.47it/s] 62%|██████▏   | 229675/371472 [7:14:24<11:07:50,  3.54it/s] 62%|██████▏   | 229676/371472 [7:14:25<11:14:45,  3.50it/s] 62%|██████▏   | 229677/371472 [7:14:25<10:56:01,  3.60it/s] 62%|██████▏   | 229678/371472 [7:14:25<11:09:21,  3.53it/s] 62%|██████▏   | 229679/371472 [7:14:26<11:35:52,  3.40it/s] 62%|██████▏   | 229680/371472 [7:14:26<11:10:23,  3.53it/s]                                                            {'loss': 2.9078, 'learning_rate': 4.437178133551682e-07, 'epoch': 9.89}
 62%|██████▏   | 229680/371472 [7:14:26<11:10:23,  3.53it/s] 62%|██████▏   | 229681/371472 [7:14:26<11:11:16,  3.52it/s] 62%|██████▏   | 229682/371472 [7:14:26<11:32:42,  3.41it/s] 62%|██████▏   | 229683/371472 [7:14:27<11:07:15,  3.54it/s] 62%|██████▏   | 229684/371472 [7:14:27<11:09:00,  3.53it/s] 62%|██████▏   | 229685/371472 [7:14:27<11:17:51,  3.49it/s] 62%|██████▏   | 229686/371472 [7:14:28<11:33:10,  3.41it/s] 62%|██████▏   | 229687/371472 [7:14:28<11:05:40,  3.55it/s] 62%|██████▏   | 229688/371472 [7:14:28<11:38:21,  3.38it/s] 62%|██████▏   | 229689/371472 [7:14:28<12:09:20,  3.24it/s] 62%|██████▏   | 229690/371472 [7:14:29<12:05:04,  3.26it/s] 62%|██████▏   | 229691/371472 [7:14:29<11:27:14,  3.44it/s] 62%|██████▏   | 229692/371472 [7:14:29<11:16:12,  3.49it/s] 62%|██████▏   | 229693/371472 [7:14:30<10:55:57,  3.60it/s] 62%|██████▏   | 229694/371472 [7:14:30<10:31:04,  3.74it/s] 62%|██████▏   | 229695/371472 [7:14:30<10:48:11,  3.65it/s] 62%|██████▏   | 229696/371472 [7:14:30<10:42:54,  3.68it/s] 62%|██████▏   | 229697/371472 [7:14:31<10:28:39,  3.76it/s] 62%|██████▏   | 229698/371472 [7:14:31<11:17:04,  3.49it/s] 62%|██████▏   | 229699/371472 [7:14:31<11:09:54,  3.53it/s] 62%|██████▏   | 229700/371472 [7:14:31<10:39:31,  3.69it/s]                                                            {'loss': 2.8514, 'learning_rate': 4.436693313796892e-07, 'epoch': 9.89}
 62%|██████▏   | 229700/371472 [7:14:31<10:39:31,  3.69it/s] 62%|██████▏   | 229701/371472 [7:14:32<10:39:24,  3.70it/s] 62%|██████▏   | 229702/371472 [7:14:32<10:51:43,  3.63it/s] 62%|██████▏   | 229703/371472 [7:14:32<11:25:42,  3.45it/s] 62%|██████▏   | 229704/371472 [7:14:33<11:04:38,  3.56it/s] 62%|██████▏   | 229705/371472 [7:14:33<10:42:36,  3.68it/s] 62%|██████▏   | 229706/371472 [7:14:33<11:13:39,  3.51it/s] 62%|██████▏   | 229707/371472 [7:14:33<11:32:08,  3.41it/s] 62%|██████▏   | 229708/371472 [7:14:34<11:23:46,  3.46it/s] 62%|██████▏   | 229709/371472 [7:14:34<11:20:55,  3.47it/s] 62%|██████▏   | 229710/371472 [7:14:34<11:22:42,  3.46it/s] 62%|██████▏   | 229711/371472 [7:14:35<12:50:13,  3.07it/s] 62%|██████▏   | 229712/371472 [7:14:35<12:25:44,  3.17it/s] 62%|██████▏   | 229713/371472 [7:14:35<12:03:17,  3.27it/s] 62%|██████▏   | 229714/371472 [7:14:36<14:42:34,  2.68it/s] 62%|██████▏   | 229715/371472 [7:14:36<13:23:43,  2.94it/s] 62%|██████▏   | 229716/371472 [7:14:36<12:26:25,  3.17it/s] 62%|██████▏   | 229717/371472 [7:14:37<11:47:20,  3.34it/s] 62%|██████▏   | 229718/371472 [7:14:37<12:36:20,  3.12it/s] 62%|██████▏   | 229719/371472 [7:14:37<12:04:37,  3.26it/s] 62%|██████▏   | 229720/371472 [7:14:38<11:29:12,  3.43it/s]                                                            {'loss': 2.8536, 'learning_rate': 4.436208494042104e-07, 'epoch': 9.89}
 62%|██████▏   | 229720/371472 [7:14:38<11:29:12,  3.43it/s] 62%|██████▏   | 229721/371472 [7:14:38<11:42:02,  3.37it/s] 62%|██████▏   | 229722/371472 [7:14:38<11:25:54,  3.44it/s] 62%|██████▏   | 229723/371472 [7:14:38<11:10:36,  3.52it/s] 62%|██████▏   | 229724/371472 [7:14:39<11:45:40,  3.35it/s] 62%|██████▏   | 229725/371472 [7:14:39<11:28:21,  3.43it/s] 62%|██████▏   | 229726/371472 [7:14:39<12:21:56,  3.18it/s] 62%|██████▏   | 229727/371472 [7:14:40<11:54:31,  3.31it/s] 62%|██████▏   | 229728/371472 [7:14:40<11:33:11,  3.41it/s] 62%|██████▏   | 229729/371472 [7:14:40<11:44:15,  3.35it/s] 62%|██████▏   | 229730/371472 [7:14:41<12:27:49,  3.16it/s] 62%|██████▏   | 229731/371472 [7:14:41<12:07:56,  3.25it/s] 62%|██████▏   | 229732/371472 [7:14:41<11:53:06,  3.31it/s] 62%|██████▏   | 229733/371472 [7:14:41<11:24:09,  3.45it/s] 62%|██████▏   | 229734/371472 [7:14:42<11:45:54,  3.35it/s] 62%|██████▏   | 229735/371472 [7:14:42<11:32:36,  3.41it/s] 62%|██████▏   | 229736/371472 [7:14:42<11:35:59,  3.39it/s] 62%|██████▏   | 229737/371472 [7:14:43<11:42:30,  3.36it/s] 62%|██████▏   | 229738/371472 [7:14:43<11:16:11,  3.49it/s] 62%|██████▏   | 229739/371472 [7:14:43<11:13:33,  3.51it/s] 62%|██████▏   | 229740/371472 [7:14:43<11:19:02,  3.48it/s]                                                            {'loss': 2.9753, 'learning_rate': 4.4357236742873145e-07, 'epoch': 9.9}
 62%|██████▏   | 229740/371472 [7:14:43<11:19:02,  3.48it/s] 62%|██████▏   | 229741/371472 [7:14:44<10:57:11,  3.59it/s] 62%|██████▏   | 229742/371472 [7:14:44<10:55:09,  3.61it/s] 62%|██████▏   | 229743/371472 [7:14:44<10:46:36,  3.65it/s] 62%|██████▏   | 229744/371472 [7:14:44<10:45:15,  3.66it/s] 62%|██████▏   | 229745/371472 [7:14:45<10:40:16,  3.69it/s] 62%|██████▏   | 229746/371472 [7:14:45<10:51:15,  3.63it/s] 62%|██████▏   | 229747/371472 [7:14:45<11:01:23,  3.57it/s] 62%|██████▏   | 229748/371472 [7:14:46<10:54:25,  3.61it/s] 62%|██████▏   | 229749/371472 [7:14:46<10:46:22,  3.65it/s] 62%|██████▏   | 229750/371472 [7:14:46<10:42:55,  3.67it/s] 62%|██████▏   | 229751/371472 [7:14:46<10:52:21,  3.62it/s] 62%|██████▏   | 229752/371472 [7:14:47<11:00:34,  3.58it/s] 62%|██████▏   | 229753/371472 [7:14:47<11:35:05,  3.40it/s] 62%|██████▏   | 229754/371472 [7:14:47<11:04:59,  3.55it/s] 62%|██████▏   | 229755/371472 [7:14:48<10:49:10,  3.64it/s] 62%|██████▏   | 229756/371472 [7:14:48<10:45:02,  3.66it/s] 62%|██████▏   | 229757/371472 [7:14:48<10:30:50,  3.74it/s] 62%|██████▏   | 229758/371472 [7:14:48<11:30:58,  3.42it/s] 62%|██████▏   | 229759/371472 [7:14:49<10:59:44,  3.58it/s] 62%|██████▏   | 229760/371472 [7:14:49<11:13:12,  3.51it/s]                                                            {'loss': 2.8699, 'learning_rate': 4.4352388545325257e-07, 'epoch': 9.9}
 62%|██████▏   | 229760/371472 [7:14:49<11:13:12,  3.51it/s] 62%|██████▏   | 229761/371472 [7:14:49<11:16:49,  3.49it/s] 62%|██████▏   | 229762/371472 [7:14:50<11:30:52,  3.42it/s] 62%|██████▏   | 229763/371472 [7:14:50<11:23:39,  3.45it/s] 62%|██████▏   | 229764/371472 [7:14:50<11:31:00,  3.42it/s] 62%|██████▏   | 229765/371472 [7:14:50<11:17:29,  3.49it/s] 62%|██████▏   | 229766/371472 [7:14:51<11:43:04,  3.36it/s] 62%|██████▏   | 229767/371472 [7:14:51<11:19:31,  3.48it/s] 62%|██████▏   | 229768/371472 [7:14:51<11:38:12,  3.38it/s] 62%|██████▏   | 229769/371472 [7:14:52<11:40:23,  3.37it/s] 62%|██████▏   | 229770/371472 [7:14:52<10:59:06,  3.58it/s] 62%|██████▏   | 229771/371472 [7:14:52<11:28:33,  3.43it/s] 62%|██████▏   | 229772/371472 [7:14:52<10:57:51,  3.59it/s] 62%|██████▏   | 229773/371472 [7:14:53<11:22:45,  3.46it/s] 62%|██████▏   | 229774/371472 [7:14:53<11:02:37,  3.56it/s] 62%|██████▏   | 229775/371472 [7:14:53<10:47:56,  3.64it/s] 62%|██████▏   | 229776/371472 [7:14:54<12:04:14,  3.26it/s] 62%|██████▏   | 229777/371472 [7:14:54<12:16:31,  3.21it/s] 62%|██████▏   | 229778/371472 [7:14:54<11:29:30,  3.42it/s] 62%|██████▏   | 229779/371472 [7:14:54<11:03:34,  3.56it/s] 62%|██████▏   | 229780/371472 [7:14:55<10:51:21,  3.63it/s]                                                            {'loss': 2.9317, 'learning_rate': 4.4347540347777364e-07, 'epoch': 9.9}
 62%|██████▏   | 229780/371472 [7:14:55<10:51:21,  3.63it/s] 62%|██████▏   | 229781/371472 [7:14:55<12:02:19,  3.27it/s] 62%|██████▏   | 229782/371472 [7:14:55<11:34:07,  3.40it/s] 62%|██████▏   | 229783/371472 [7:14:56<11:20:22,  3.47it/s] 62%|██████▏   | 229784/371472 [7:14:56<11:15:31,  3.50it/s] 62%|██████▏   | 229785/371472 [7:14:56<11:49:00,  3.33it/s] 62%|██████▏   | 229786/371472 [7:14:57<11:10:24,  3.52it/s] 62%|██████▏   | 229787/371472 [7:14:57<11:20:43,  3.47it/s] 62%|██████▏   | 229788/371472 [7:14:57<11:27:54,  3.43it/s] 62%|██████▏   | 229789/371472 [7:14:57<11:11:53,  3.51it/s] 62%|██████▏   | 229790/371472 [7:14:58<10:45:50,  3.66it/s] 62%|██████▏   | 229791/371472 [7:14:58<10:45:39,  3.66it/s] 62%|██████▏   | 229792/371472 [7:14:58<10:45:38,  3.66it/s] 62%|██████▏   | 229793/371472 [7:14:58<11:05:46,  3.55it/s] 62%|██████▏   | 229794/371472 [7:14:59<10:52:48,  3.62it/s] 62%|██████▏   | 229795/371472 [7:14:59<11:09:46,  3.53it/s] 62%|██████▏   | 229796/371472 [7:14:59<10:42:30,  3.68it/s] 62%|██████▏   | 229797/371472 [7:15:00<11:44:52,  3.35it/s] 62%|██████▏   | 229798/371472 [7:15:00<11:28:43,  3.43it/s] 62%|██████▏   | 229799/371472 [7:15:00<11:06:18,  3.54it/s] 62%|██████▏   | 229800/371472 [7:15:00<11:02:50,  3.56it/s]                                                            {'loss': 2.9443, 'learning_rate': 4.434269215022948e-07, 'epoch': 9.9}
 62%|██████▏   | 229800/371472 [7:15:00<11:02:50,  3.56it/s] 62%|██████▏   | 229801/371472 [7:15:01<11:01:21,  3.57it/s] 62%|██████▏   | 229802/371472 [7:15:01<10:46:15,  3.65it/s] 62%|██████▏   | 229803/371472 [7:15:01<10:36:40,  3.71it/s] 62%|██████▏   | 229804/371472 [7:15:02<10:33:16,  3.73it/s] 62%|██████▏   | 229805/371472 [7:15:02<11:09:05,  3.53it/s] 62%|██████▏   | 229806/371472 [7:15:02<11:04:17,  3.55it/s] 62%|██████▏   | 229807/371472 [7:15:02<11:19:25,  3.48it/s] 62%|██████▏   | 229808/371472 [7:15:03<11:00:30,  3.57it/s] 62%|██████▏   | 229809/371472 [7:15:03<10:48:44,  3.64it/s] 62%|██████▏   | 229810/371472 [7:15:03<10:29:54,  3.75it/s] 62%|██████▏   | 229811/371472 [7:15:04<11:23:42,  3.45it/s] 62%|██████▏   | 229812/371472 [7:15:04<11:28:34,  3.43it/s] 62%|██████▏   | 229813/371472 [7:15:04<11:26:51,  3.44it/s] 62%|██████▏   | 229814/371472 [7:15:04<11:08:26,  3.53it/s] 62%|██████▏   | 229815/371472 [7:15:05<11:16:26,  3.49it/s] 62%|██████▏   | 229816/371472 [7:15:05<11:22:03,  3.46it/s] 62%|██████▏   | 229817/371472 [7:15:05<11:30:37,  3.42it/s] 62%|██████▏   | 229818/371472 [7:15:06<11:17:21,  3.49it/s] 62%|██████▏   | 229819/371472 [7:15:06<11:20:44,  3.47it/s] 62%|██████▏   | 229820/371472 [7:15:06<11:10:48,  3.52it/s]                                                            {'loss': 2.8382, 'learning_rate': 4.4337843952681584e-07, 'epoch': 9.9}
 62%|██████▏   | 229820/371472 [7:15:06<11:10:48,  3.52it/s] 62%|██████▏   | 229821/371472 [7:15:06<11:14:37,  3.50it/s] 62%|██████▏   | 229822/371472 [7:15:07<11:16:00,  3.49it/s] 62%|██████▏   | 229823/371472 [7:15:07<11:10:08,  3.52it/s] 62%|██████▏   | 229824/371472 [7:15:07<11:28:47,  3.43it/s] 62%|██████▏   | 229825/371472 [7:15:08<11:09:57,  3.52it/s] 62%|██████▏   | 229826/371472 [7:15:08<11:11:24,  3.52it/s] 62%|██████▏   | 229827/371472 [7:15:08<11:05:25,  3.55it/s] 62%|██████▏   | 229828/371472 [7:15:08<11:07:13,  3.54it/s] 62%|██████▏   | 229829/371472 [7:15:09<11:57:20,  3.29it/s] 62%|██████▏   | 229830/371472 [7:15:09<12:01:54,  3.27it/s] 62%|██████▏   | 229831/371472 [7:15:09<11:40:26,  3.37it/s] 62%|██████▏   | 229832/371472 [7:15:10<11:38:16,  3.38it/s] 62%|██████▏   | 229833/371472 [7:15:10<11:34:18,  3.40it/s] 62%|██████▏   | 229834/371472 [7:15:10<11:28:07,  3.43it/s] 62%|██████▏   | 229835/371472 [7:15:10<10:57:56,  3.59it/s] 62%|██████▏   | 229836/371472 [7:15:11<10:59:34,  3.58it/s] 62%|██████▏   | 229837/371472 [7:15:11<10:49:59,  3.63it/s] 62%|██████▏   | 229838/371472 [7:15:11<10:27:46,  3.76it/s] 62%|██████▏   | 229839/371472 [7:15:12<11:03:28,  3.56it/s] 62%|██████▏   | 229840/371472 [7:15:12<12:00:33,  3.28it/s]                                                            {'loss': 2.7225, 'learning_rate': 4.43329957551337e-07, 'epoch': 9.9}
 62%|██████▏   | 229840/371472 [7:15:12<12:00:33,  3.28it/s] 62%|██████▏   | 229841/371472 [7:15:12<12:14:53,  3.21it/s] 62%|██████▏   | 229842/371472 [7:15:13<11:54:24,  3.30it/s] 62%|██████▏   | 229843/371472 [7:15:13<11:35:44,  3.39it/s] 62%|██████▏   | 229844/371472 [7:15:13<11:27:10,  3.43it/s] 62%|██████▏   | 229845/371472 [7:15:13<11:19:31,  3.47it/s] 62%|██████▏   | 229846/371472 [7:15:14<11:14:06,  3.50it/s] 62%|██████▏   | 229847/371472 [7:15:14<10:54:47,  3.60it/s] 62%|██████▏   | 229848/371472 [7:15:14<11:21:50,  3.46it/s] 62%|██████▏   | 229849/371472 [7:15:14<10:49:54,  3.63it/s] 62%|██████▏   | 229850/371472 [7:15:15<10:34:04,  3.72it/s] 62%|██████▏   | 229851/371472 [7:15:15<11:31:07,  3.42it/s] 62%|██████▏   | 229852/371472 [7:15:15<11:19:36,  3.47it/s] 62%|██████▏   | 229853/371472 [7:15:16<11:03:56,  3.55it/s] 62%|██████▏   | 229854/371472 [7:15:16<11:43:34,  3.35it/s] 62%|██████▏   | 229855/371472 [7:15:16<11:15:02,  3.50it/s] 62%|██████▏   | 229856/371472 [7:15:16<11:14:33,  3.50it/s] 62%|██████▏   | 229857/371472 [7:15:17<11:05:54,  3.54it/s] 62%|██████▏   | 229858/371472 [7:15:17<10:43:50,  3.67it/s] 62%|██████▏   | 229859/371472 [7:15:17<10:45:11,  3.66it/s] 62%|██████▏   | 229860/371472 [7:15:18<11:25:33,  3.44it/s]                                                            {'loss': 2.9568, 'learning_rate': 4.432814755758581e-07, 'epoch': 9.9}
 62%|██████▏   | 229860/371472 [7:15:18<11:25:33,  3.44it/s] 62%|██████▏   | 229861/371472 [7:15:18<11:10:59,  3.52it/s] 62%|██████▏   | 229862/371472 [7:15:18<11:40:21,  3.37it/s] 62%|██████▏   | 229863/371472 [7:15:18<11:17:50,  3.48it/s] 62%|██████▏   | 229864/371472 [7:15:19<11:29:37,  3.42it/s] 62%|██████▏   | 229865/371472 [7:15:19<11:31:18,  3.41it/s] 62%|██████▏   | 229866/371472 [7:15:19<11:51:24,  3.32it/s] 62%|██████▏   | 229867/371472 [7:15:20<12:20:05,  3.19it/s] 62%|██████▏   | 229868/371472 [7:15:20<12:21:48,  3.18it/s] 62%|██████▏   | 229869/371472 [7:15:20<11:44:49,  3.35it/s] 62%|██████▏   | 229870/371472 [7:15:21<11:19:13,  3.47it/s] 62%|██████▏   | 229871/371472 [7:15:21<11:15:05,  3.50it/s] 62%|██████▏   | 229872/371472 [7:15:21<10:52:21,  3.62it/s] 62%|██████▏   | 229873/371472 [7:15:21<11:02:26,  3.56it/s] 62%|██████▏   | 229874/371472 [7:15:22<10:56:13,  3.60it/s] 62%|██████▏   | 229875/371472 [7:15:22<10:34:31,  3.72it/s] 62%|██████▏   | 229876/371472 [7:15:22<10:09:40,  3.87it/s] 62%|██████▏   | 229877/371472 [7:15:22<11:04:25,  3.55it/s] 62%|██████▏   | 229878/371472 [7:15:23<11:20:11,  3.47it/s] 62%|██████▏   | 229879/371472 [7:15:23<11:06:32,  3.54it/s] 62%|██████▏   | 229880/371472 [7:15:23<10:39:53,  3.69it/s]                                                            {'loss': 2.7614, 'learning_rate': 4.432329936003792e-07, 'epoch': 9.9}
 62%|██████▏   | 229880/371472 [7:15:23<10:39:53,  3.69it/s] 62%|██████▏   | 229881/371472 [7:15:24<10:43:39,  3.67it/s] 62%|██████▏   | 229882/371472 [7:15:24<10:53:32,  3.61it/s] 62%|██████▏   | 229883/371472 [7:15:24<11:02:08,  3.56it/s] 62%|██████▏   | 229884/371472 [7:15:24<10:51:55,  3.62it/s] 62%|██████▏   | 229885/371472 [7:15:25<11:00:18,  3.57it/s] 62%|██████▏   | 229886/371472 [7:15:25<11:37:39,  3.38it/s] 62%|██████▏   | 229887/371472 [7:15:25<12:32:06,  3.14it/s] 62%|██████▏   | 229888/371472 [7:15:26<12:24:12,  3.17it/s] 62%|██████▏   | 229889/371472 [7:15:26<11:48:24,  3.33it/s] 62%|██████▏   | 229890/371472 [7:15:26<11:26:19,  3.44it/s] 62%|██████▏   | 229891/371472 [7:15:27<11:28:26,  3.43it/s] 62%|██████▏   | 229892/371472 [7:15:27<11:18:48,  3.48it/s] 62%|██████▏   | 229893/371472 [7:15:27<11:00:39,  3.57it/s] 62%|██████▏   | 229894/371472 [7:15:27<10:47:54,  3.64it/s] 62%|██████▏   | 229895/371472 [7:15:28<10:45:00,  3.66it/s] 62%|██████▏   | 229896/371472 [7:15:28<11:36:12,  3.39it/s] 62%|██████▏   | 229897/371472 [7:15:28<11:56:20,  3.29it/s] 62%|██████▏   | 229898/371472 [7:15:29<11:30:02,  3.42it/s] 62%|██████▏   | 229899/371472 [7:15:29<11:13:05,  3.51it/s] 62%|██████▏   | 229900/371472 [7:15:29<10:42:59,  3.67it/s]                                                            {'loss': 2.8038, 'learning_rate': 4.431845116249003e-07, 'epoch': 9.9}
 62%|██████▏   | 229900/371472 [7:15:29<10:42:59,  3.67it/s] 62%|██████▏   | 229901/371472 [7:15:29<10:49:55,  3.63it/s] 62%|██████▏   | 229902/371472 [7:15:30<10:25:47,  3.77it/s] 62%|██████▏   | 229903/371472 [7:15:30<10:46:43,  3.65it/s] 62%|██████▏   | 229904/371472 [7:15:30<11:02:07,  3.56it/s] 62%|██████▏   | 229905/371472 [7:15:30<10:50:28,  3.63it/s] 62%|██████▏   | 229906/371472 [7:15:31<10:37:58,  3.70it/s] 62%|██████▏   | 229907/371472 [7:15:31<10:48:23,  3.64it/s] 62%|██████▏   | 229908/371472 [7:15:31<10:41:34,  3.68it/s] 62%|██████▏   | 229909/371472 [7:15:32<10:42:35,  3.67it/s] 62%|██████▏   | 229910/371472 [7:15:32<10:48:54,  3.64it/s] 62%|██████▏   | 229911/371472 [7:15:32<10:55:41,  3.60it/s] 62%|██████▏   | 229912/371472 [7:15:32<11:16:09,  3.49it/s] 62%|██████▏   | 229913/371472 [7:15:33<10:53:08,  3.61it/s] 62%|██████▏   | 229914/371472 [7:15:33<10:47:59,  3.64it/s] 62%|██████▏   | 229915/371472 [7:15:33<10:33:58,  3.72it/s] 62%|██████▏   | 229916/371472 [7:15:33<10:16:05,  3.83it/s] 62%|██████▏   | 229917/371472 [7:15:34<11:25:16,  3.44it/s] 62%|██████▏   | 229918/371472 [7:15:34<10:50:27,  3.63it/s] 62%|██████▏   | 229919/371472 [7:15:34<10:57:48,  3.59it/s] 62%|██████▏   | 229920/371472 [7:15:35<10:43:55,  3.66it/s]                                                            {'loss': 2.8218, 'learning_rate': 4.4313602964942146e-07, 'epoch': 9.9}
 62%|██████▏   | 229920/371472 [7:15:35<10:43:55,  3.66it/s] 62%|██████▏   | 229921/371472 [7:15:35<10:33:59,  3.72it/s] 62%|██████▏   | 229922/371472 [7:15:35<11:24:19,  3.45it/s] 62%|██████▏   | 229923/371472 [7:15:35<11:27:10,  3.43it/s] 62%|██████▏   | 229924/371472 [7:15:36<11:31:43,  3.41it/s] 62%|██████▏   | 229925/371472 [7:15:36<11:11:40,  3.51it/s] 62%|██████▏   | 229926/371472 [7:15:36<11:00:13,  3.57it/s] 62%|██████▏   | 229927/371472 [7:15:37<10:59:37,  3.58it/s] 62%|██████▏   | 229928/371472 [7:15:37<10:52:57,  3.61it/s] 62%|██████▏   | 229929/371472 [7:15:37<10:42:57,  3.67it/s] 62%|██████▏   | 229930/371472 [7:15:37<10:37:29,  3.70it/s] 62%|██████▏   | 229931/371472 [7:15:38<10:28:02,  3.76it/s] 62%|██████▏   | 229932/371472 [7:15:38<11:23:38,  3.45it/s] 62%|██████▏   | 229933/371472 [7:15:38<10:59:50,  3.58it/s] 62%|██████▏   | 229934/371472 [7:15:39<11:09:43,  3.52it/s] 62%|██████▏   | 229935/371472 [7:15:39<10:48:20,  3.64it/s] 62%|██████▏   | 229936/371472 [7:15:39<11:33:09,  3.40it/s] 62%|██████▏   | 229937/371472 [7:15:39<11:29:44,  3.42it/s] 62%|██████▏   | 229938/371472 [7:15:40<11:40:09,  3.37it/s] 62%|██████▏   | 229939/371472 [7:15:40<11:32:20,  3.41it/s] 62%|██████▏   | 229940/371472 [7:15:40<11:11:29,  3.51it/s]                                                            {'loss': 2.8357, 'learning_rate': 4.4308754767394253e-07, 'epoch': 9.9}
 62%|██████▏   | 229940/371472 [7:15:40<11:11:29,  3.51it/s] 62%|██████▏   | 229941/371472 [7:15:41<11:31:17,  3.41it/s] 62%|██████▏   | 229942/371472 [7:15:41<10:56:41,  3.59it/s] 62%|██████▏   | 229943/371472 [7:15:41<10:51:49,  3.62it/s] 62%|██████▏   | 229944/371472 [7:15:41<10:46:06,  3.65it/s] 62%|██████▏   | 229945/371472 [7:15:42<10:39:51,  3.69it/s] 62%|██████▏   | 229946/371472 [7:15:42<10:39:58,  3.69it/s] 62%|██████▏   | 229947/371472 [7:15:42<10:39:06,  3.69it/s] 62%|██████▏   | 229948/371472 [7:15:42<10:38:59,  3.69it/s] 62%|██████▏   | 229949/371472 [7:15:43<11:21:31,  3.46it/s] 62%|██████▏   | 229950/371472 [7:15:43<10:51:06,  3.62it/s] 62%|██████▏   | 229951/371472 [7:15:43<11:00:39,  3.57it/s] 62%|██████▏   | 229952/371472 [7:15:44<10:56:59,  3.59it/s] 62%|██████▏   | 229953/371472 [7:15:44<11:41:34,  3.36it/s] 62%|██████▏   | 229954/371472 [7:15:44<12:28:59,  3.15it/s] 62%|██████▏   | 229955/371472 [7:15:45<12:38:59,  3.11it/s] 62%|██████▏   | 229956/371472 [7:15:45<12:43:45,  3.09it/s] 62%|██████▏   | 229957/371472 [7:15:45<14:28:34,  2.72it/s] 62%|██████▏   | 229958/371472 [7:15:46<14:30:04,  2.71it/s] 62%|██████▏   | 229959/371472 [7:15:46<13:45:06,  2.86it/s] 62%|██████▏   | 229960/371472 [7:15:46<13:32:56,  2.90it/s]                                                            {'loss': 2.9781, 'learning_rate': 4.4303906569846366e-07, 'epoch': 9.9}
 62%|██████▏   | 229960/371472 [7:15:46<13:32:56,  2.90it/s] 62%|██████▏   | 229961/371472 [7:15:47<12:58:13,  3.03it/s] 62%|██████▏   | 229962/371472 [7:15:47<12:28:12,  3.15it/s] 62%|██████▏   | 229963/371472 [7:15:47<13:28:03,  2.92it/s] 62%|██████▏   | 229964/371472 [7:15:48<12:40:51,  3.10it/s] 62%|██████▏   | 229965/371472 [7:15:48<12:03:06,  3.26it/s] 62%|██████▏   | 229966/371472 [7:15:48<11:37:56,  3.38it/s] 62%|██████▏   | 229967/371472 [7:15:49<11:58:33,  3.28it/s] 62%|██████▏   | 229968/371472 [7:15:49<12:13:53,  3.21it/s] 62%|██████▏   | 229969/371472 [7:15:49<11:31:24,  3.41it/s] 62%|██████▏   | 229970/371472 [7:15:49<11:27:10,  3.43it/s] 62%|██████▏   | 229971/371472 [7:15:50<10:55:39,  3.60it/s] 62%|██████▏   | 229972/371472 [7:15:50<11:06:58,  3.54it/s] 62%|██████▏   | 229973/371472 [7:15:50<11:12:58,  3.50it/s] 62%|██████▏   | 229974/371472 [7:15:51<10:58:18,  3.58it/s] 62%|██████▏   | 229975/371472 [7:15:51<10:41:56,  3.67it/s] 62%|██████▏   | 229976/371472 [7:15:51<11:37:01,  3.38it/s] 62%|██████▏   | 229977/371472 [7:15:51<11:29:15,  3.42it/s] 62%|██████▏   | 229978/371472 [7:15:52<11:36:07,  3.39it/s] 62%|██████▏   | 229979/371472 [7:15:52<11:12:03,  3.51it/s] 62%|██████▏   | 229980/371472 [7:15:52<11:11:51,  3.51it/s]                                                            {'loss': 2.9832, 'learning_rate': 4.429905837229848e-07, 'epoch': 9.91}
 62%|██████▏   | 229980/371472 [7:15:52<11:11:51,  3.51it/s] 62%|██████▏   | 229981/371472 [7:15:53<10:56:26,  3.59it/s] 62%|██████▏   | 229982/371472 [7:15:53<10:43:46,  3.66it/s] 62%|██████▏   | 229983/371472 [7:15:53<10:29:22,  3.75it/s] 62%|██████▏   | 229984/371472 [7:15:53<10:31:05,  3.74it/s] 62%|██████▏   | 229985/371472 [7:15:54<10:35:13,  3.71it/s] 62%|██████▏   | 229986/371472 [7:15:54<10:23:42,  3.78it/s] 62%|██████▏   | 229987/371472 [7:15:54<11:00:39,  3.57it/s] 62%|██████▏   | 229988/371472 [7:15:54<10:50:02,  3.63it/s] 62%|██████▏   | 229989/371472 [7:15:55<11:00:42,  3.57it/s] 62%|██████▏   | 229990/371472 [7:15:55<10:46:02,  3.65it/s] 62%|██████▏   | 229991/371472 [7:15:55<10:37:26,  3.70it/s] 62%|██████▏   | 229992/371472 [7:15:56<11:17:59,  3.48it/s] 62%|██████▏   | 229993/371472 [7:15:56<12:34:35,  3.12it/s] 62%|██████▏   | 229994/371472 [7:15:56<12:00:53,  3.27it/s] 62%|██████▏   | 229995/371472 [7:15:56<11:34:41,  3.39it/s] 62%|██████▏   | 229996/371472 [7:15:57<11:52:12,  3.31it/s] 62%|██████▏   | 229997/371472 [7:15:57<11:41:11,  3.36it/s] 62%|██████▏   | 229998/371472 [7:15:57<11:51:37,  3.31it/s] 62%|██████▏   | 229999/371472 [7:15:58<11:31:50,  3.41it/s] 62%|██████▏   | 230000/371472 [7:15:58<11:23:03,  3.45it/s]                                                            {'loss': 2.7874, 'learning_rate': 4.429421017475059e-07, 'epoch': 9.91}
 62%|██████▏   | 230000/371472 [7:15:58<11:23:03,  3.45it/s] 62%|██████▏   | 230001/371472 [7:15:58<11:05:23,  3.54it/s] 62%|██████▏   | 230002/371472 [7:15:59<11:00:59,  3.57it/s] 62%|██████▏   | 230003/371472 [7:15:59<10:46:44,  3.65it/s] 62%|██████▏   | 230004/371472 [7:15:59<10:32:03,  3.73it/s] 62%|██████▏   | 230005/371472 [7:15:59<10:15:03,  3.83it/s] 62%|██████▏   | 230006/371472 [7:16:00<10:18:43,  3.81it/s] 62%|██████▏   | 230007/371472 [7:16:00<10:13:30,  3.84it/s] 62%|██████▏   | 230008/371472 [7:16:00<10:33:22,  3.72it/s] 62%|██████▏   | 230009/371472 [7:16:00<10:49:42,  3.63it/s] 62%|██████▏   | 230010/371472 [7:16:01<11:17:35,  3.48it/s] 62%|██████▏   | 230011/371472 [7:16:01<10:56:01,  3.59it/s] 62%|██████▏   | 230012/371472 [7:16:01<11:00:51,  3.57it/s] 62%|██████▏   | 230013/371472 [7:16:02<11:49:40,  3.32it/s] 62%|██████▏   | 230014/371472 [7:16:02<12:50:09,  3.06it/s] 62%|██████▏   | 230015/371472 [7:16:02<12:18:27,  3.19it/s] 62%|██████▏   | 230016/371472 [7:16:03<12:43:08,  3.09it/s] 62%|██████▏   | 230017/371472 [7:16:03<12:03:37,  3.26it/s] 62%|██████▏   | 230018/371472 [7:16:03<12:39:11,  3.11it/s] 62%|██████▏   | 230019/371472 [7:16:03<12:14:45,  3.21it/s] 62%|██████▏   | 230020/371472 [7:16:04<12:11:30,  3.22it/s]                                                            {'loss': 2.7742, 'learning_rate': 4.428936197720269e-07, 'epoch': 9.91}
 62%|██████▏   | 230020/371472 [7:16:04<12:11:30,  3.22it/s] 62%|██████▏   | 230021/371472 [7:16:04<12:40:13,  3.10it/s] 62%|██████▏   | 230022/371472 [7:16:04<12:21:07,  3.18it/s] 62%|██████▏   | 230023/371472 [7:16:05<12:02:39,  3.26it/s] 62%|██████▏   | 230024/371472 [7:16:05<11:26:18,  3.43it/s] 62%|██████▏   | 230025/371472 [7:16:05<10:58:38,  3.58it/s] 62%|██████▏   | 230026/371472 [7:16:06<11:47:15,  3.33it/s] 62%|██████▏   | 230027/371472 [7:16:06<11:24:36,  3.44it/s] 62%|██████▏   | 230028/371472 [7:16:06<10:50:11,  3.63it/s] 62%|██████▏   | 230029/371472 [7:16:06<10:56:08,  3.59it/s] 62%|██████▏   | 230030/371472 [7:16:07<10:56:23,  3.59it/s] 62%|██████▏   | 230031/371472 [7:16:07<10:46:22,  3.65it/s] 62%|██████▏   | 230032/371472 [7:16:07<11:52:32,  3.31it/s] 62%|██████▏   | 230033/371472 [7:16:08<11:39:50,  3.37it/s] 62%|██████▏   | 230034/371472 [7:16:08<12:13:57,  3.21it/s] 62%|██████▏   | 230035/371472 [7:16:08<12:16:08,  3.20it/s] 62%|██████▏   | 230036/371472 [7:16:09<11:45:42,  3.34it/s] 62%|██████▏   | 230037/371472 [7:16:09<13:09:39,  2.99it/s] 62%|██████▏   | 230038/371472 [7:16:09<13:04:50,  3.00it/s] 62%|██████▏   | 230039/371472 [7:16:10<12:25:10,  3.16it/s] 62%|██████▏   | 230040/371472 [7:16:10<12:01:26,  3.27it/s]                                                            {'loss': 3.0097, 'learning_rate': 4.428451377965481e-07, 'epoch': 9.91}
 62%|██████▏   | 230040/371472 [7:16:10<12:01:26,  3.27it/s] 62%|██████▏   | 230041/371472 [7:16:10<11:54:43,  3.30it/s] 62%|██████▏   | 230042/371472 [7:16:10<12:10:06,  3.23it/s] 62%|██████▏   | 230043/371472 [7:16:11<11:52:15,  3.31it/s] 62%|██████▏   | 230044/371472 [7:16:11<11:24:04,  3.45it/s] 62%|██████▏   | 230045/371472 [7:16:11<11:06:00,  3.54it/s] 62%|██████▏   | 230046/371472 [7:16:12<11:33:53,  3.40it/s] 62%|██████▏   | 230047/371472 [7:16:12<11:30:04,  3.42it/s] 62%|██████▏   | 230048/371472 [7:16:12<11:29:10,  3.42it/s] 62%|██████▏   | 230049/371472 [7:16:12<11:10:55,  3.51it/s] 62%|██████▏   | 230050/371472 [7:16:13<11:12:09,  3.51it/s] 62%|██████▏   | 230051/371472 [7:16:13<11:18:05,  3.48it/s] 62%|██████▏   | 230052/371472 [7:16:13<11:30:33,  3.41it/s] 62%|██████▏   | 230053/371472 [7:16:14<12:12:26,  3.22it/s] 62%|██████▏   | 230054/371472 [7:16:14<11:40:03,  3.37it/s] 62%|██████▏   | 230055/371472 [7:16:14<11:38:22,  3.37it/s] 62%|██████▏   | 230056/371472 [7:16:14<11:25:49,  3.44it/s] 62%|██████▏   | 230057/371472 [7:16:15<11:19:34,  3.47it/s] 62%|██████▏   | 230058/371472 [7:16:15<10:56:26,  3.59it/s] 62%|██████▏   | 230059/371472 [7:16:15<10:41:36,  3.67it/s] 62%|██████▏   | 230060/371472 [7:16:16<11:08:49,  3.52it/s]                                                            {'loss': 3.0739, 'learning_rate': 4.427966558210692e-07, 'epoch': 9.91}
 62%|██████▏   | 230060/371472 [7:16:16<11:08:49,  3.52it/s] 62%|██████▏   | 230061/371472 [7:16:16<11:06:29,  3.54it/s] 62%|██████▏   | 230062/371472 [7:16:16<11:00:05,  3.57it/s] 62%|██████▏   | 230063/371472 [7:16:16<10:40:41,  3.68it/s] 62%|██████▏   | 230064/371472 [7:16:17<10:58:52,  3.58it/s] 62%|██████▏   | 230065/371472 [7:16:17<11:13:14,  3.50it/s] 62%|██████▏   | 230066/371472 [7:16:17<10:45:02,  3.65it/s] 62%|██████▏   | 230067/371472 [7:16:18<11:30:43,  3.41it/s] 62%|██████▏   | 230068/371472 [7:16:18<11:44:10,  3.35it/s] 62%|██████▏   | 230069/371472 [7:16:18<12:03:41,  3.26it/s] 62%|██████▏   | 230070/371472 [7:16:18<11:21:37,  3.46it/s] 62%|██████▏   | 230071/371472 [7:16:19<11:06:42,  3.53it/s] 62%|██████▏   | 230072/371472 [7:16:19<10:55:17,  3.60it/s] 62%|██████▏   | 230073/371472 [7:16:19<10:47:23,  3.64it/s] 62%|██████▏   | 230074/371472 [7:16:20<11:10:30,  3.51it/s] 62%|██████▏   | 230075/371472 [7:16:20<11:11:11,  3.51it/s] 62%|██████▏   | 230076/371472 [7:16:20<12:24:20,  3.17it/s] 62%|██████▏   | 230077/371472 [7:16:21<11:40:59,  3.36it/s] 62%|██████▏   | 230078/371472 [7:16:21<11:27:20,  3.43it/s] 62%|██████▏   | 230079/371472 [7:16:21<11:12:41,  3.50it/s] 62%|██████▏   | 230080/371472 [7:16:21<10:48:42,  3.63it/s]                                                            {'loss': 2.8737, 'learning_rate': 4.427481738455903e-07, 'epoch': 9.91}
 62%|██████▏   | 230080/371472 [7:16:21<10:48:42,  3.63it/s] 62%|██████▏   | 230081/371472 [7:16:22<10:49:24,  3.63it/s] 62%|██████▏   | 230082/371472 [7:16:22<10:54:03,  3.60it/s] 62%|██████▏   | 230083/371472 [7:16:22<10:44:38,  3.66it/s] 62%|██████▏   | 230084/371472 [7:16:22<11:23:59,  3.45it/s] 62%|██████▏   | 230085/371472 [7:16:23<11:13:50,  3.50it/s] 62%|██████▏   | 230086/371472 [7:16:23<11:28:40,  3.42it/s] 62%|██████▏   | 230087/371472 [7:16:23<11:21:15,  3.46it/s] 62%|██████▏   | 230088/371472 [7:16:24<11:36:34,  3.38it/s] 62%|██████▏   | 230089/371472 [7:16:24<11:12:07,  3.51it/s] 62%|██████▏   | 230090/371472 [7:16:24<11:16:41,  3.48it/s] 62%|██████▏   | 230091/371472 [7:16:25<11:34:48,  3.39it/s] 62%|██████▏   | 230092/371472 [7:16:25<11:07:26,  3.53it/s] 62%|██████▏   | 230093/371472 [7:16:25<12:04:42,  3.25it/s] 62%|██████▏   | 230094/371472 [7:16:25<11:37:13,  3.38it/s] 62%|██████▏   | 230095/371472 [7:16:26<11:54:29,  3.30it/s] 62%|██████▏   | 230096/371472 [7:16:26<12:26:53,  3.15it/s] 62%|██████▏   | 230097/371472 [7:16:26<12:09:06,  3.23it/s] 62%|██████▏   | 230098/371472 [7:16:27<11:58:43,  3.28it/s] 62%|██████▏   | 230099/371472 [7:16:27<11:43:22,  3.35it/s] 62%|██████▏   | 230100/371472 [7:16:27<11:16:31,  3.48it/s]                                                            {'loss': 2.6869, 'learning_rate': 4.4269969187011137e-07, 'epoch': 9.91}
 62%|██████▏   | 230100/371472 [7:16:27<11:16:31,  3.48it/s] 62%|██████▏   | 230101/371472 [7:16:27<10:46:47,  3.64it/s] 62%|██████▏   | 230102/371472 [7:16:28<10:30:13,  3.74it/s] 62%|██████▏   | 230103/371472 [7:16:28<10:54:41,  3.60it/s] 62%|██████▏   | 230104/371472 [7:16:28<11:19:40,  3.47it/s] 62%|██████▏   | 230105/371472 [7:16:29<10:57:09,  3.59it/s] 62%|██████▏   | 230106/371472 [7:16:29<11:07:25,  3.53it/s] 62%|██████▏   | 230107/371472 [7:16:29<11:30:27,  3.41it/s] 62%|██████▏   | 230108/371472 [7:16:29<10:59:26,  3.57it/s] 62%|██████▏   | 230109/371472 [7:16:30<11:07:45,  3.53it/s] 62%|██████▏   | 230110/371472 [7:16:30<11:17:12,  3.48it/s] 62%|██████▏   | 230111/371472 [7:16:30<11:06:32,  3.53it/s] 62%|██████▏   | 230112/371472 [7:16:31<11:28:34,  3.42it/s] 62%|██████▏   | 230113/371472 [7:16:31<11:14:49,  3.49it/s] 62%|██████▏   | 230114/371472 [7:16:31<11:26:38,  3.43it/s] 62%|██████▏   | 230115/371472 [7:16:31<11:11:42,  3.51it/s] 62%|██████▏   | 230116/371472 [7:16:32<11:34:03,  3.39it/s] 62%|██████▏   | 230117/371472 [7:16:32<11:09:47,  3.52it/s] 62%|██████▏   | 230118/371472 [7:16:32<10:58:55,  3.58it/s] 62%|██████▏   | 230119/371472 [7:16:33<10:56:17,  3.59it/s] 62%|██████▏   | 230120/371472 [7:16:33<11:02:39,  3.56it/s]                                                            {'loss': 2.8788, 'learning_rate': 4.4265120989463255e-07, 'epoch': 9.91}
 62%|██████▏   | 230120/371472 [7:16:33<11:02:39,  3.56it/s] 62%|██████▏   | 230121/371472 [7:16:33<10:58:37,  3.58it/s] 62%|██████▏   | 230122/371472 [7:16:33<11:11:48,  3.51it/s] 62%|██████▏   | 230123/371472 [7:16:34<11:19:26,  3.47it/s] 62%|██████▏   | 230124/371472 [7:16:34<11:01:48,  3.56it/s] 62%|██████▏   | 230125/371472 [7:16:34<10:46:54,  3.64it/s] 62%|██████▏   | 230126/371472 [7:16:35<11:01:13,  3.56it/s] 62%|██████▏   | 230127/371472 [7:16:35<11:52:58,  3.30it/s] 62%|██████▏   | 230128/371472 [7:16:35<12:12:14,  3.22it/s] 62%|██████▏   | 230129/371472 [7:16:35<11:40:55,  3.36it/s] 62%|██████▏   | 230130/371472 [7:16:36<11:44:20,  3.34it/s] 62%|██████▏   | 230131/371472 [7:16:36<11:22:57,  3.45it/s] 62%|██████▏   | 230132/371472 [7:16:36<10:56:50,  3.59it/s] 62%|██████▏   | 230133/371472 [7:16:37<10:27:21,  3.75it/s] 62%|██████▏   | 230134/371472 [7:16:37<11:26:08,  3.43it/s] 62%|██████▏   | 230135/371472 [7:16:37<11:23:18,  3.45it/s] 62%|██████▏   | 230136/371472 [7:16:37<11:00:35,  3.57it/s] 62%|██████▏   | 230137/371472 [7:16:38<10:50:23,  3.62it/s] 62%|██████▏   | 230138/371472 [7:16:38<10:58:28,  3.58it/s] 62%|██████▏   | 230139/371472 [7:16:38<11:03:59,  3.55it/s] 62%|██████▏   | 230140/371472 [7:16:39<10:35:00,  3.71it/s]                                                            {'loss': 2.8534, 'learning_rate': 4.4260272791915357e-07, 'epoch': 9.91}
 62%|██████▏   | 230140/371472 [7:16:39<10:35:00,  3.71it/s] 62%|██████▏   | 230141/371472 [7:16:39<11:20:32,  3.46it/s] 62%|██████▏   | 230142/371472 [7:16:39<11:04:23,  3.55it/s] 62%|██████▏   | 230143/371472 [7:16:39<10:47:38,  3.64it/s] 62%|██████▏   | 230144/371472 [7:16:40<12:50:55,  3.06it/s] 62%|██████▏   | 230145/371472 [7:16:40<11:56:53,  3.29it/s] 62%|██████▏   | 230146/371472 [7:16:40<11:22:59,  3.45it/s] 62%|██████▏   | 230147/371472 [7:16:41<11:07:27,  3.53it/s] 62%|██████▏   | 230148/371472 [7:16:41<10:48:57,  3.63it/s] 62%|██████▏   | 230149/371472 [7:16:41<10:29:55,  3.74it/s] 62%|██████▏   | 230150/371472 [7:16:41<10:40:42,  3.68it/s] 62%|██████▏   | 230151/371472 [7:16:42<10:31:21,  3.73it/s] 62%|██████▏   | 230152/371472 [7:16:42<11:08:46,  3.52it/s] 62%|██████▏   | 230153/371472 [7:16:42<11:04:29,  3.54it/s] 62%|██████▏   | 230154/371472 [7:16:43<10:40:13,  3.68it/s] 62%|██████▏   | 230155/371472 [7:16:43<11:27:40,  3.42it/s] 62%|██████▏   | 230156/371472 [7:16:43<11:13:03,  3.50it/s] 62%|██████▏   | 230157/371472 [7:16:43<11:31:45,  3.40it/s] 62%|██████▏   | 230158/371472 [7:16:44<11:17:35,  3.48it/s] 62%|██████▏   | 230159/371472 [7:16:44<10:58:03,  3.58it/s] 62%|██████▏   | 230160/371472 [7:16:44<10:42:20,  3.67it/s]                                                            {'loss': 2.9711, 'learning_rate': 4.4255424594367474e-07, 'epoch': 9.91}
 62%|██████▏   | 230160/371472 [7:16:44<10:42:20,  3.67it/s] 62%|██████▏   | 230161/371472 [7:16:45<11:17:29,  3.48it/s] 62%|██████▏   | 230162/371472 [7:16:45<11:07:18,  3.53it/s] 62%|██████▏   | 230163/371472 [7:16:45<11:31:52,  3.40it/s] 62%|██████▏   | 230164/371472 [7:16:45<11:03:15,  3.55it/s] 62%|██████▏   | 230165/371472 [7:16:46<10:47:15,  3.64it/s] 62%|██████▏   | 230166/371472 [7:16:46<10:32:12,  3.73it/s] 62%|██████▏   | 230167/371472 [7:16:46<11:04:24,  3.54it/s] 62%|██████▏   | 230168/371472 [7:16:47<12:06:34,  3.24it/s] 62%|██████▏   | 230169/371472 [7:16:47<12:08:56,  3.23it/s] 62%|██████▏   | 230170/371472 [7:16:47<11:44:31,  3.34it/s] 62%|██████▏   | 230171/371472 [7:16:47<12:00:48,  3.27it/s] 62%|██████▏   | 230172/371472 [7:16:48<11:24:27,  3.44it/s] 62%|██████▏   | 230173/371472 [7:16:48<11:15:31,  3.49it/s] 62%|██████▏   | 230174/371472 [7:16:48<11:27:35,  3.42it/s] 62%|██████▏   | 230175/371472 [7:16:49<11:24:08,  3.44it/s] 62%|██████▏   | 230176/371472 [7:16:49<11:07:56,  3.53it/s] 62%|██████▏   | 230177/371472 [7:16:49<12:22:48,  3.17it/s] 62%|██████▏   | 230178/371472 [7:16:50<11:30:53,  3.41it/s] 62%|██████▏   | 230179/371472 [7:16:50<11:08:43,  3.52it/s] 62%|██████▏   | 230180/371472 [7:16:50<10:51:20,  3.62it/s]                                                            {'loss': 3.0424, 'learning_rate': 4.425057639681958e-07, 'epoch': 9.91}
 62%|██████▏   | 230180/371472 [7:16:50<10:51:20,  3.62it/s] 62%|██████▏   | 230181/371472 [7:16:50<10:44:22,  3.65it/s] 62%|██████▏   | 230182/371472 [7:16:51<11:12:37,  3.50it/s] 62%|██████▏   | 230183/371472 [7:16:51<11:16:43,  3.48it/s] 62%|██████▏   | 230184/371472 [7:16:51<11:19:45,  3.46it/s] 62%|██████▏   | 230185/371472 [7:16:52<11:31:12,  3.41it/s] 62%|██████▏   | 230186/371472 [7:16:52<11:14:05,  3.49it/s] 62%|██████▏   | 230187/371472 [7:16:52<11:08:11,  3.52it/s] 62%|██████▏   | 230188/371472 [7:16:52<10:46:03,  3.64it/s] 62%|██████▏   | 230189/371472 [7:16:53<11:03:17,  3.55it/s] 62%|██████▏   | 230190/371472 [7:16:53<11:14:47,  3.49it/s] 62%|██████▏   | 230191/371472 [7:16:53<11:09:38,  3.52it/s] 62%|██████▏   | 230192/371472 [7:16:53<11:06:30,  3.53it/s] 62%|██████▏   | 230193/371472 [7:16:54<11:02:04,  3.56it/s] 62%|██████▏   | 230194/371472 [7:16:54<10:48:19,  3.63it/s] 62%|██████▏   | 230195/371472 [7:16:54<11:13:48,  3.49it/s] 62%|██████▏   | 230196/371472 [7:16:55<10:55:52,  3.59it/s] 62%|██████▏   | 230197/371472 [7:16:55<11:50:01,  3.32it/s] 62%|██████▏   | 230198/371472 [7:16:55<11:33:34,  3.39it/s] 62%|██████▏   | 230199/371472 [7:16:55<11:11:23,  3.51it/s] 62%|██████▏   | 230200/371472 [7:16:56<10:57:25,  3.58it/s]                                                            {'loss': 2.8628, 'learning_rate': 4.4245728199271694e-07, 'epoch': 9.92}
 62%|██████▏   | 230200/371472 [7:16:56<10:57:25,  3.58it/s] 62%|██████▏   | 230201/371472 [7:16:56<10:55:53,  3.59it/s] 62%|██████▏   | 230202/371472 [7:16:56<10:59:11,  3.57it/s] 62%|██████▏   | 230203/371472 [7:16:57<10:47:45,  3.63it/s] 62%|██████▏   | 230204/371472 [7:16:57<11:23:16,  3.45it/s] 62%|██████▏   | 230205/371472 [7:16:57<11:17:42,  3.47it/s] 62%|██████▏   | 230206/371472 [7:16:57<10:50:48,  3.62it/s] 62%|██████▏   | 230207/371472 [7:16:58<10:37:09,  3.70it/s] 62%|██████▏   | 230208/371472 [7:16:58<10:40:39,  3.67it/s] 62%|██████▏   | 230209/371472 [7:16:58<10:50:37,  3.62it/s] 62%|██████▏   | 230210/371472 [7:16:59<10:46:00,  3.64it/s] 62%|██████▏   | 230211/371472 [7:16:59<10:49:22,  3.63it/s] 62%|██████▏   | 230212/371472 [7:16:59<10:38:57,  3.68it/s] 62%|██████▏   | 230213/371472 [7:16:59<10:42:49,  3.66it/s] 62%|██████▏   | 230214/371472 [7:17:00<10:39:06,  3.68it/s] 62%|██████▏   | 230215/371472 [7:17:00<11:00:36,  3.56it/s] 62%|██████▏   | 230216/371472 [7:17:00<11:03:49,  3.55it/s] 62%|██████▏   | 230217/371472 [7:17:00<10:48:01,  3.63it/s] 62%|██████▏   | 230218/371472 [7:17:01<11:00:16,  3.57it/s] 62%|██████▏   | 230219/371472 [7:17:01<10:45:21,  3.65it/s] 62%|██████▏   | 230220/371472 [7:17:01<10:46:40,  3.64it/s]                                                            {'loss': 2.8638, 'learning_rate': 4.42408800017238e-07, 'epoch': 9.92}
 62%|██████▏   | 230220/371472 [7:17:01<10:46:40,  3.64it/s] 62%|██████▏   | 230221/371472 [7:17:02<11:04:47,  3.54it/s] 62%|██████▏   | 230222/371472 [7:17:02<10:57:19,  3.58it/s] 62%|██████▏   | 230223/371472 [7:17:02<10:54:41,  3.60it/s] 62%|██████▏   | 230224/371472 [7:17:02<11:23:17,  3.45it/s] 62%|██████▏   | 230225/371472 [7:17:03<11:09:13,  3.52it/s] 62%|██████▏   | 230226/371472 [7:17:03<10:58:58,  3.57it/s] 62%|██████▏   | 230227/371472 [7:17:03<11:27:20,  3.42it/s] 62%|██████▏   | 230228/371472 [7:17:04<11:10:28,  3.51it/s] 62%|██████▏   | 230229/371472 [7:17:04<11:16:02,  3.48it/s] 62%|██████▏   | 230230/371472 [7:17:04<11:07:58,  3.52it/s] 62%|██████▏   | 230231/371472 [7:17:04<11:13:09,  3.50it/s] 62%|██████▏   | 230232/371472 [7:17:05<11:14:54,  3.49it/s] 62%|██████▏   | 230233/371472 [7:17:05<11:00:28,  3.56it/s] 62%|██████▏   | 230234/371472 [7:17:05<10:56:46,  3.58it/s] 62%|██████▏   | 230235/371472 [7:17:06<11:25:37,  3.43it/s] 62%|██████▏   | 230236/371472 [7:17:06<11:09:45,  3.51it/s] 62%|██████▏   | 230237/371472 [7:17:06<11:04:22,  3.54it/s] 62%|██████▏   | 230238/371472 [7:17:06<11:30:13,  3.41it/s] 62%|██████▏   | 230239/371472 [7:17:07<11:41:37,  3.35it/s] 62%|██████▏   | 230240/371472 [7:17:07<12:13:42,  3.21it/s]                                                            {'loss': 3.0281, 'learning_rate': 4.423603180417591e-07, 'epoch': 9.92}
 62%|██████▏   | 230240/371472 [7:17:07<12:13:42,  3.21it/s] 62%|██████▏   | 230241/371472 [7:17:07<11:30:58,  3.41it/s] 62%|██████▏   | 230242/371472 [7:17:08<11:12:37,  3.50it/s] 62%|██████▏   | 230243/371472 [7:17:08<11:07:05,  3.53it/s] 62%|██████▏   | 230244/371472 [7:17:08<11:06:45,  3.53it/s] 62%|██████▏   | 230245/371472 [7:17:08<11:00:04,  3.57it/s] 62%|██████▏   | 230246/371472 [7:17:09<10:58:55,  3.57it/s] 62%|██████▏   | 230247/371472 [7:17:09<10:49:50,  3.62it/s] 62%|██████▏   | 230248/371472 [7:17:09<10:48:45,  3.63it/s] 62%|██████▏   | 230249/371472 [7:17:10<11:39:43,  3.36it/s] 62%|██████▏   | 230250/371472 [7:17:10<12:01:55,  3.26it/s] 62%|██████▏   | 230251/371472 [7:17:10<12:56:26,  3.03it/s] 62%|██████▏   | 230252/371472 [7:17:11<12:26:06,  3.15it/s] 62%|██████▏   | 230253/371472 [7:17:11<11:35:44,  3.38it/s] 62%|██████▏   | 230254/371472 [7:17:11<11:16:39,  3.48it/s] 62%|██████▏   | 230255/371472 [7:17:11<11:11:44,  3.50it/s] 62%|██████▏   | 230256/371472 [7:17:12<11:39:11,  3.37it/s] 62%|██████▏   | 230257/371472 [7:17:12<11:24:17,  3.44it/s] 62%|██████▏   | 230258/371472 [7:17:12<11:08:16,  3.52it/s] 62%|██████▏   | 230259/371472 [7:17:13<10:57:38,  3.58it/s] 62%|██████▏   | 230260/371472 [7:17:13<11:33:27,  3.39it/s]                                                            {'loss': 2.9568, 'learning_rate': 4.423118360662802e-07, 'epoch': 9.92}
 62%|██████▏   | 230260/371472 [7:17:13<11:33:27,  3.39it/s] 62%|██████▏   | 230261/371472 [7:17:13<11:06:41,  3.53it/s] 62%|██████▏   | 230262/371472 [7:17:13<11:58:27,  3.28it/s] 62%|██████▏   | 230263/371472 [7:17:14<11:41:21,  3.36it/s] 62%|██████▏   | 230264/371472 [7:17:14<11:30:31,  3.41it/s] 62%|██████▏   | 230265/371472 [7:17:14<11:31:18,  3.40it/s] 62%|██████▏   | 230266/371472 [7:17:15<11:53:28,  3.30it/s] 62%|██████▏   | 230267/371472 [7:17:15<11:25:00,  3.44it/s] 62%|██████▏   | 230268/371472 [7:17:15<11:10:18,  3.51it/s] 62%|██████▏   | 230269/371472 [7:17:16<11:43:21,  3.35it/s] 62%|██████▏   | 230270/371472 [7:17:16<11:40:32,  3.36it/s] 62%|██████▏   | 230271/371472 [7:17:16<11:19:56,  3.46it/s] 62%|██████▏   | 230272/371472 [7:17:16<10:55:00,  3.59it/s] 62%|██████▏   | 230273/371472 [7:17:17<10:57:34,  3.58it/s] 62%|██████▏   | 230274/371472 [7:17:17<11:38:12,  3.37it/s] 62%|██████▏   | 230275/371472 [7:17:17<11:16:06,  3.48it/s] 62%|██████▏   | 230276/371472 [7:17:18<11:48:26,  3.32it/s] 62%|██████▏   | 230277/371472 [7:17:18<11:33:44,  3.39it/s] 62%|██████▏   | 230278/371472 [7:17:18<11:01:31,  3.56it/s] 62%|██████▏   | 230279/371472 [7:17:19<13:47:54,  2.84it/s] 62%|██████▏   | 230280/371472 [7:17:19<13:32:49,  2.90it/s]                                                            {'loss': 2.9836, 'learning_rate': 4.422633540908013e-07, 'epoch': 9.92}
 62%|██████▏   | 230280/371472 [7:17:19<13:32:49,  2.90it/s] 62%|██████▏   | 230281/371472 [7:17:19<13:08:09,  2.99it/s] 62%|██████▏   | 230282/371472 [7:17:20<12:15:06,  3.20it/s] 62%|██████▏   | 230283/371472 [7:17:20<11:53:16,  3.30it/s] 62%|██████▏   | 230284/371472 [7:17:20<11:54:14,  3.29it/s] 62%|██████▏   | 230285/371472 [7:17:20<11:30:37,  3.41it/s] 62%|██████▏   | 230286/371472 [7:17:21<11:05:35,  3.54it/s] 62%|██████▏   | 230287/371472 [7:17:21<11:28:00,  3.42it/s] 62%|██████▏   | 230288/371472 [7:17:21<12:05:27,  3.24it/s] 62%|██████▏   | 230289/371472 [7:17:22<12:01:57,  3.26it/s] 62%|██████▏   | 230290/371472 [7:17:22<11:21:13,  3.45it/s] 62%|██████▏   | 230291/371472 [7:17:22<11:00:49,  3.56it/s] 62%|██████▏   | 230292/371472 [7:17:22<11:09:16,  3.52it/s] 62%|██████▏   | 230293/371472 [7:17:23<10:50:25,  3.62it/s] 62%|██████▏   | 230294/371472 [7:17:23<10:44:22,  3.65it/s] 62%|██████▏   | 230295/371472 [7:17:23<10:51:37,  3.61it/s] 62%|██████▏   | 230296/371472 [7:17:24<11:11:02,  3.51it/s] 62%|██████▏   | 230297/371472 [7:17:24<11:09:25,  3.51it/s] 62%|██████▏   | 230298/371472 [7:17:24<10:59:26,  3.57it/s] 62%|██████▏   | 230299/371472 [7:17:24<11:17:44,  3.47it/s] 62%|██████▏   | 230300/371472 [7:17:25<11:09:18,  3.52it/s]                                                            {'loss': 2.901, 'learning_rate': 4.4221487211532246e-07, 'epoch': 9.92}
 62%|██████▏   | 230300/371472 [7:17:25<11:09:18,  3.52it/s] 62%|██████▏   | 230301/371472 [7:17:25<10:59:48,  3.57it/s] 62%|██████▏   | 230302/371472 [7:17:25<10:47:36,  3.63it/s] 62%|██████▏   | 230303/371472 [7:17:25<10:51:16,  3.61it/s] 62%|██████▏   | 230304/371472 [7:17:26<10:52:06,  3.61it/s] 62%|██████▏   | 230305/371472 [7:17:26<11:00:41,  3.56it/s] 62%|██████▏   | 230306/371472 [7:17:26<11:17:08,  3.47it/s] 62%|██████▏   | 230307/371472 [7:17:27<10:54:59,  3.59it/s] 62%|██████▏   | 230308/371472 [7:17:27<11:42:10,  3.35it/s] 62%|██████▏   | 230309/371472 [7:17:27<12:35:57,  3.11it/s] 62%|██████▏   | 230310/371472 [7:17:28<12:13:46,  3.21it/s] 62%|██████▏   | 230311/371472 [7:17:28<11:42:05,  3.35it/s] 62%|██████▏   | 230312/371472 [7:17:28<12:16:35,  3.19it/s] 62%|██████▏   | 230313/371472 [7:17:28<11:48:23,  3.32it/s] 62%|██████▏   | 230314/371472 [7:17:29<11:28:36,  3.42it/s] 62%|██████▏   | 230315/371472 [7:17:29<11:08:16,  3.52it/s] 62%|██████▏   | 230316/371472 [7:17:29<11:26:41,  3.43it/s] 62%|██████▏   | 230317/371472 [7:17:30<11:12:12,  3.50it/s] 62%|██████▏   | 230318/371472 [7:17:30<10:42:44,  3.66it/s] 62%|██████▏   | 230319/371472 [7:17:30<10:53:20,  3.60it/s] 62%|██████▏   | 230320/371472 [7:17:30<10:36:22,  3.70it/s]                                                            {'loss': 2.8624, 'learning_rate': 4.4216639013984353e-07, 'epoch': 9.92}
 62%|██████▏   | 230320/371472 [7:17:30<10:36:22,  3.70it/s] 62%|██████▏   | 230321/371472 [7:17:31<10:52:22,  3.61it/s] 62%|██████▏   | 230322/371472 [7:17:31<11:00:04,  3.56it/s] 62%|██████▏   | 230323/371472 [7:17:31<10:47:08,  3.64it/s] 62%|██████▏   | 230324/371472 [7:17:31<10:34:08,  3.71it/s] 62%|██████▏   | 230325/371472 [7:17:32<10:26:56,  3.75it/s] 62%|██████▏   | 230326/371472 [7:17:32<11:25:43,  3.43it/s] 62%|██████▏   | 230327/371472 [7:17:32<11:14:53,  3.49it/s] 62%|██████▏   | 230328/371472 [7:17:33<10:58:40,  3.57it/s] 62%|██████▏   | 230329/371472 [7:17:33<11:30:16,  3.41it/s] 62%|██████▏   | 230330/371472 [7:17:33<11:03:35,  3.54it/s] 62%|██████▏   | 230331/371472 [7:17:34<11:22:30,  3.45it/s] 62%|██████▏   | 230332/371472 [7:17:34<11:06:32,  3.53it/s] 62%|██████▏   | 230333/371472 [7:17:34<10:56:54,  3.58it/s] 62%|██████▏   | 230334/371472 [7:17:34<10:46:33,  3.64it/s] 62%|██████▏   | 230335/371472 [7:17:35<10:54:56,  3.59it/s] 62%|██████▏   | 230336/371472 [7:17:35<11:13:42,  3.49it/s] 62%|██████▏   | 230337/371472 [7:17:35<11:39:00,  3.37it/s] 62%|██████▏   | 230338/371472 [7:17:36<11:16:24,  3.48it/s] 62%|██████▏   | 230339/371472 [7:17:36<11:41:39,  3.35it/s] 62%|██████▏   | 230340/371472 [7:17:36<12:04:20,  3.25it/s]                                                            {'loss': 2.8061, 'learning_rate': 4.4211790816436465e-07, 'epoch': 9.92}
 62%|██████▏   | 230340/371472 [7:17:36<12:04:20,  3.25it/s] 62%|██████▏   | 230341/371472 [7:17:36<11:57:37,  3.28it/s] 62%|██████▏   | 230342/371472 [7:17:37<11:34:32,  3.39it/s] 62%|██████▏   | 230343/371472 [7:17:37<11:46:51,  3.33it/s] 62%|██████▏   | 230344/371472 [7:17:37<11:20:27,  3.46it/s] 62%|██████▏   | 230345/371472 [7:17:38<11:37:46,  3.37it/s] 62%|██████▏   | 230346/371472 [7:17:38<12:30:23,  3.13it/s] 62%|██████▏   | 230347/371472 [7:17:38<12:24:40,  3.16it/s] 62%|██████▏   | 230348/371472 [7:17:39<12:06:40,  3.24it/s] 62%|██████▏   | 230349/371472 [7:17:39<11:50:46,  3.31it/s] 62%|██████▏   | 230350/371472 [7:17:39<11:51:00,  3.31it/s] 62%|██████▏   | 230351/371472 [7:17:39<11:23:31,  3.44it/s] 62%|██████▏   | 230352/371472 [7:17:40<11:11:34,  3.50it/s] 62%|██████▏   | 230353/371472 [7:17:40<10:51:56,  3.61it/s] 62%|██████▏   | 230354/371472 [7:17:40<10:56:41,  3.58it/s] 62%|██████▏   | 230355/371472 [7:17:41<11:26:01,  3.43it/s] 62%|██████▏   | 230356/371472 [7:17:41<11:16:59,  3.47it/s] 62%|██████▏   | 230357/371472 [7:17:41<11:09:14,  3.51it/s] 62%|██████▏   | 230358/371472 [7:17:41<10:51:01,  3.61it/s] 62%|██████▏   | 230359/371472 [7:17:42<11:08:34,  3.52it/s] 62%|██████▏   | 230360/371472 [7:17:42<11:52:55,  3.30it/s]                                                            {'loss': 2.7936, 'learning_rate': 4.420694261888857e-07, 'epoch': 9.92}
 62%|██████▏   | 230360/371472 [7:17:42<11:52:55,  3.30it/s] 62%|██████▏   | 230361/371472 [7:17:42<11:36:42,  3.38it/s] 62%|██████▏   | 230362/371472 [7:17:43<11:20:35,  3.46it/s] 62%|██████▏   | 230363/371472 [7:17:43<11:22:18,  3.45it/s] 62%|██████▏   | 230364/371472 [7:17:43<10:59:23,  3.57it/s] 62%|██████▏   | 230365/371472 [7:17:43<10:36:36,  3.69it/s] 62%|██████▏   | 230366/371472 [7:17:44<10:24:29,  3.77it/s] 62%|██████▏   | 230367/371472 [7:17:44<10:45:20,  3.64it/s] 62%|██████▏   | 230368/371472 [7:17:44<10:33:55,  3.71it/s] 62%|██████▏   | 230369/371472 [7:17:45<12:09:08,  3.23it/s] 62%|██████▏   | 230370/371472 [7:17:45<11:26:22,  3.43it/s] 62%|██████▏   | 230371/371472 [7:17:45<11:01:53,  3.55it/s] 62%|██████▏   | 230372/371472 [7:17:45<11:06:52,  3.53it/s] 62%|██████▏   | 230373/371472 [7:17:46<10:40:28,  3.67it/s] 62%|██████▏   | 230374/371472 [7:17:46<10:23:28,  3.77it/s] 62%|██████▏   | 230375/371472 [7:17:46<11:05:09,  3.54it/s] 62%|██████▏   | 230376/371472 [7:17:46<10:43:58,  3.65it/s] 62%|██████▏   | 230377/371472 [7:17:47<10:36:41,  3.69it/s] 62%|██████▏   | 230378/371472 [7:17:47<10:31:32,  3.72it/s] 62%|██████▏   | 230379/371472 [7:17:47<10:52:57,  3.60it/s] 62%|██████▏   | 230380/371472 [7:17:48<10:37:32,  3.69it/s]                                                            {'loss': 2.7952, 'learning_rate': 4.420209442134069e-07, 'epoch': 9.92}
 62%|██████▏   | 230380/371472 [7:17:48<10:37:32,  3.69it/s] 62%|██████▏   | 230381/371472 [7:17:48<11:04:12,  3.54it/s] 62%|██████▏   | 230382/371472 [7:17:48<10:55:31,  3.59it/s] 62%|██████▏   | 230383/371472 [7:17:48<11:02:49,  3.55it/s] 62%|██████▏   | 230384/371472 [7:17:49<10:51:43,  3.61it/s] 62%|██████▏   | 230385/371472 [7:17:49<11:03:16,  3.55it/s] 62%|██████▏   | 230386/371472 [7:17:49<11:03:04,  3.55it/s] 62%|██████▏   | 230387/371472 [7:17:50<11:00:26,  3.56it/s] 62%|██████▏   | 230388/371472 [7:17:50<11:11:47,  3.50it/s] 62%|██████▏   | 230389/371472 [7:17:50<11:17:01,  3.47it/s] 62%|██████▏   | 230390/371472 [7:17:51<12:21:40,  3.17it/s] 62%|██████▏   | 230391/371472 [7:17:51<12:38:43,  3.10it/s] 62%|██████▏   | 230392/371472 [7:17:51<11:52:56,  3.30it/s] 62%|██████▏   | 230393/371472 [7:17:51<11:24:42,  3.43it/s] 62%|██████▏   | 230394/371472 [7:17:52<11:11:50,  3.50it/s] 62%|██████▏   | 230395/371472 [7:17:52<11:06:31,  3.53it/s] 62%|██████▏   | 230396/371472 [7:17:52<11:08:00,  3.52it/s] 62%|██████▏   | 230397/371472 [7:17:52<11:02:38,  3.55it/s] 62%|██████▏   | 230398/371472 [7:17:53<10:45:11,  3.64it/s] 62%|██████▏   | 230399/371472 [7:17:53<11:26:03,  3.43it/s] 62%|██████▏   | 230400/371472 [7:17:53<11:00:34,  3.56it/s]                                                            {'loss': 2.9804, 'learning_rate': 4.4197246223792797e-07, 'epoch': 9.92}
 62%|██████▏   | 230400/371472 [7:17:53<11:00:34,  3.56it/s] 62%|██████▏   | 230401/371472 [7:17:54<10:46:07,  3.64it/s] 62%|██████▏   | 230402/371472 [7:17:54<10:46:22,  3.64it/s] 62%|██████▏   | 230403/371472 [7:17:54<10:35:19,  3.70it/s] 62%|██████▏   | 230404/371472 [7:17:54<10:26:08,  3.75it/s] 62%|██████▏   | 230405/371472 [7:17:55<10:15:15,  3.82it/s] 62%|██████▏   | 230406/371472 [7:17:55<10:35:44,  3.70it/s] 62%|██████▏   | 230407/371472 [7:17:55<10:23:57,  3.77it/s] 62%|██████▏   | 230408/371472 [7:17:55<10:26:19,  3.75it/s] 62%|██████▏   | 230409/371472 [7:17:56<10:51:01,  3.61it/s] 62%|██████▏   | 230410/371472 [7:17:56<10:47:34,  3.63it/s] 62%|██████▏   | 230411/371472 [7:17:56<11:25:26,  3.43it/s] 62%|██████▏   | 230412/371472 [7:17:57<12:04:11,  3.25it/s] 62%|██████▏   | 230413/371472 [7:17:57<11:43:48,  3.34it/s] 62%|██████▏   | 230414/371472 [7:17:57<11:09:15,  3.51it/s] 62%|██████▏   | 230415/371472 [7:17:58<11:12:57,  3.49it/s] 62%|██████▏   | 230416/371472 [7:17:58<11:01:01,  3.56it/s] 62%|██████▏   | 230417/371472 [7:17:58<11:02:53,  3.55it/s] 62%|██████▏   | 230418/371472 [7:17:58<10:39:30,  3.68it/s] 62%|██████▏   | 230419/371472 [7:17:59<10:31:06,  3.72it/s] 62%|██████▏   | 230420/371472 [7:17:59<11:15:39,  3.48it/s]                                                            {'loss': 2.7058, 'learning_rate': 4.419239802624491e-07, 'epoch': 9.92}
 62%|██████▏   | 230420/371472 [7:17:59<11:15:39,  3.48it/s] 62%|██████▏   | 230421/371472 [7:17:59<11:08:49,  3.51it/s] 62%|██████▏   | 230422/371472 [7:17:59<11:12:26,  3.50it/s] 62%|██████▏   | 230423/371472 [7:18:00<11:22:22,  3.45it/s] 62%|██████▏   | 230424/371472 [7:18:00<10:53:16,  3.60it/s] 62%|██████▏   | 230425/371472 [7:18:00<11:21:20,  3.45it/s] 62%|██████▏   | 230426/371472 [7:18:01<11:08:36,  3.52it/s] 62%|██████▏   | 230427/371472 [7:18:01<10:57:51,  3.57it/s] 62%|██████▏   | 230428/371472 [7:18:01<10:58:54,  3.57it/s] 62%|██████▏   | 230429/371472 [7:18:01<11:00:30,  3.56it/s] 62%|██████▏   | 230430/371472 [7:18:02<11:13:02,  3.49it/s] 62%|██████▏   | 230431/371472 [7:18:02<11:45:44,  3.33it/s] 62%|██████▏   | 230432/371472 [7:18:02<11:44:45,  3.34it/s] 62%|██████▏   | 230433/371472 [7:18:03<11:34:39,  3.38it/s] 62%|██████▏   | 230434/371472 [7:18:03<12:09:37,  3.22it/s] 62%|██████▏   | 230435/371472 [7:18:03<11:40:00,  3.36it/s] 62%|██████▏   | 230436/371472 [7:18:04<11:40:32,  3.36it/s] 62%|██████▏   | 230437/371472 [7:18:04<11:40:15,  3.36it/s] 62%|██████▏   | 230438/371472 [7:18:04<11:48:52,  3.32it/s] 62%|██████▏   | 230439/371472 [7:18:05<12:01:50,  3.26it/s] 62%|██████▏   | 230440/371472 [7:18:05<11:26:52,  3.42it/s]                                                            {'loss': 2.8329, 'learning_rate': 4.4187549828697017e-07, 'epoch': 9.93}
 62%|██████▏   | 230440/371472 [7:18:05<11:26:52,  3.42it/s] 62%|██████▏   | 230441/371472 [7:18:05<11:58:03,  3.27it/s] 62%|██████▏   | 230442/371472 [7:18:05<11:44:23,  3.34it/s] 62%|██████▏   | 230443/371472 [7:18:06<12:22:29,  3.17it/s] 62%|██████▏   | 230444/371472 [7:18:06<11:46:04,  3.33it/s] 62%|██████▏   | 230445/371472 [7:18:06<11:39:14,  3.36it/s] 62%|██████▏   | 230446/371472 [7:18:07<11:24:02,  3.44it/s] 62%|██████▏   | 230447/371472 [7:18:07<11:43:53,  3.34it/s] 62%|██████▏   | 230448/371472 [7:18:07<11:56:19,  3.28it/s] 62%|██████▏   | 230449/371472 [7:18:07<11:37:20,  3.37it/s] 62%|██████▏   | 230450/371472 [7:18:08<11:11:03,  3.50it/s] 62%|██████▏   | 230451/371472 [7:18:08<11:11:07,  3.50it/s] 62%|██████▏   | 230452/371472 [7:18:08<11:07:23,  3.52it/s] 62%|██████▏   | 230453/371472 [7:18:09<10:50:07,  3.62it/s] 62%|██████▏   | 230454/371472 [7:18:09<11:39:53,  3.36it/s] 62%|██████▏   | 230455/371472 [7:18:09<11:26:14,  3.42it/s] 62%|██████▏   | 230456/371472 [7:18:09<11:15:32,  3.48it/s] 62%|██████▏   | 230457/371472 [7:18:10<11:46:35,  3.33it/s] 62%|██████▏   | 230458/371472 [7:18:10<11:24:29,  3.43it/s] 62%|██████▏   | 230459/371472 [7:18:10<11:41:37,  3.35it/s] 62%|██████▏   | 230460/371472 [7:18:11<11:14:49,  3.48it/s]                                                            {'loss': 2.8482, 'learning_rate': 4.418270163114913e-07, 'epoch': 9.93}
 62%|██████▏   | 230460/371472 [7:18:11<11:14:49,  3.48it/s] 62%|██████▏   | 230461/371472 [7:18:11<10:51:52,  3.61it/s] 62%|██████▏   | 230462/371472 [7:18:11<11:53:43,  3.29it/s] 62%|██████▏   | 230463/371472 [7:18:12<11:54:08,  3.29it/s] 62%|██████▏   | 230464/371472 [7:18:12<11:24:14,  3.43it/s] 62%|██████▏   | 230465/371472 [7:18:12<11:50:32,  3.31it/s] 62%|██████▏   | 230466/371472 [7:18:13<12:50:08,  3.05it/s] 62%|██████▏   | 230467/371472 [7:18:13<11:49:55,  3.31it/s] 62%|██████▏   | 230468/371472 [7:18:13<11:09:34,  3.51it/s] 62%|██████▏   | 230469/371472 [7:18:13<10:50:35,  3.61it/s] 62%|██████▏   | 230470/371472 [7:18:14<10:52:45,  3.60it/s] 62%|██████▏   | 230471/371472 [7:18:14<10:53:04,  3.60it/s] 62%|██████▏   | 230472/371472 [7:18:14<10:49:59,  3.62it/s] 62%|██████▏   | 230473/371472 [7:18:14<10:46:11,  3.64it/s] 62%|██████▏   | 230474/371472 [7:18:15<11:20:11,  3.45it/s] 62%|██████▏   | 230475/371472 [7:18:15<11:07:10,  3.52it/s] 62%|██████▏   | 230476/371472 [7:18:15<10:45:53,  3.64it/s] 62%|██████▏   | 230477/371472 [7:18:16<10:33:48,  3.71it/s] 62%|██████▏   | 230478/371472 [7:18:16<10:36:04,  3.69it/s] 62%|██████▏   | 230479/371472 [7:18:16<11:05:22,  3.53it/s] 62%|██████▏   | 230480/371472 [7:18:16<10:57:13,  3.58it/s]                                                            {'loss': 2.9184, 'learning_rate': 4.4177853433601236e-07, 'epoch': 9.93}
 62%|██████▏   | 230480/371472 [7:18:16<10:57:13,  3.58it/s] 62%|██████▏   | 230481/371472 [7:18:17<11:53:49,  3.29it/s] 62%|██████▏   | 230482/371472 [7:18:17<12:40:08,  3.09it/s] 62%|██████▏   | 230483/371472 [7:18:17<12:10:15,  3.22it/s] 62%|██████▏   | 230484/371472 [7:18:18<11:54:31,  3.29it/s] 62%|██████▏   | 230485/371472 [7:18:18<12:16:59,  3.19it/s] 62%|██████▏   | 230486/371472 [7:18:18<11:53:28,  3.29it/s] 62%|██████▏   | 230487/371472 [7:18:19<11:47:37,  3.32it/s] 62%|██████▏   | 230488/371472 [7:18:19<11:43:19,  3.34it/s] 62%|██████▏   | 230489/371472 [7:18:19<11:22:20,  3.44it/s] 62%|██████▏   | 230490/371472 [7:18:19<11:06:10,  3.53it/s] 62%|██████▏   | 230491/371472 [7:18:20<10:58:16,  3.57it/s] 62%|██████▏   | 230492/371472 [7:18:20<11:05:38,  3.53it/s] 62%|██████▏   | 230493/371472 [7:18:20<11:05:29,  3.53it/s] 62%|██████▏   | 230494/371472 [7:18:21<10:51:56,  3.60it/s] 62%|██████▏   | 230495/371472 [7:18:21<10:47:13,  3.63it/s] 62%|██████▏   | 230496/371472 [7:18:21<10:39:17,  3.68it/s] 62%|██████▏   | 230497/371472 [7:18:21<10:39:44,  3.67it/s] 62%|██████▏   | 230498/371472 [7:18:22<10:51:47,  3.60it/s] 62%|██████▏   | 230499/371472 [7:18:22<11:14:51,  3.48it/s] 62%|██████▏   | 230500/371472 [7:18:22<11:06:48,  3.52it/s]                                                            {'loss': 2.8437, 'learning_rate': 4.4173005236053354e-07, 'epoch': 9.93}
 62%|██████▏   | 230500/371472 [7:18:22<11:06:48,  3.52it/s] 62%|██████▏   | 230501/371472 [7:18:23<11:36:41,  3.37it/s] 62%|██████▏   | 230502/371472 [7:18:23<11:56:12,  3.28it/s] 62%|██████▏   | 230503/371472 [7:18:23<12:07:02,  3.23it/s] 62%|██████▏   | 230504/371472 [7:18:23<11:26:35,  3.42it/s] 62%|██████▏   | 230505/371472 [7:18:24<11:41:05,  3.35it/s] 62%|██████▏   | 230506/371472 [7:18:24<11:45:15,  3.33it/s] 62%|██████▏   | 230507/371472 [7:18:24<11:12:48,  3.49it/s] 62%|██████▏   | 230508/371472 [7:18:25<11:21:45,  3.45it/s] 62%|██████▏   | 230509/371472 [7:18:25<11:22:13,  3.44it/s] 62%|██████▏   | 230510/371472 [7:18:25<11:15:18,  3.48it/s] 62%|██████▏   | 230511/371472 [7:18:25<11:11:07,  3.50it/s] 62%|██████▏   | 230512/371472 [7:18:26<11:25:20,  3.43it/s] 62%|██████▏   | 230513/371472 [7:18:26<11:37:09,  3.37it/s] 62%|██████▏   | 230514/371472 [7:18:26<12:01:20,  3.26it/s] 62%|██████▏   | 230515/371472 [7:18:27<12:13:22,  3.20it/s] 62%|██████▏   | 230516/371472 [7:18:27<11:39:25,  3.36it/s] 62%|██████▏   | 230517/371472 [7:18:27<12:13:08,  3.20it/s] 62%|██████▏   | 230518/371472 [7:18:28<12:02:54,  3.25it/s] 62%|██████▏   | 230519/371472 [7:18:28<11:51:42,  3.30it/s] 62%|██████▏   | 230520/371472 [7:18:28<11:53:12,  3.29it/s]                                                            {'loss': 2.7636, 'learning_rate': 4.4168157038505456e-07, 'epoch': 9.93}
 62%|██████▏   | 230520/371472 [7:18:28<11:53:12,  3.29it/s] 62%|██████▏   | 230521/371472 [7:18:28<11:20:48,  3.45it/s] 62%|██████▏   | 230522/371472 [7:18:29<11:37:19,  3.37it/s] 62%|██████▏   | 230523/371472 [7:18:29<12:10:05,  3.22it/s] 62%|██████▏   | 230524/371472 [7:18:29<11:46:27,  3.33it/s] 62%|██████▏   | 230525/371472 [7:18:30<11:22:31,  3.44it/s] 62%|██████▏   | 230526/371472 [7:18:30<11:03:05,  3.54it/s] 62%|██████▏   | 230527/371472 [7:18:30<11:20:47,  3.45it/s] 62%|██████▏   | 230528/371472 [7:18:31<11:12:28,  3.49it/s] 62%|██████▏   | 230529/371472 [7:18:31<11:04:19,  3.54it/s] 62%|██████▏   | 230530/371472 [7:18:31<10:58:26,  3.57it/s] 62%|██████▏   | 230531/371472 [7:18:31<10:50:22,  3.61it/s] 62%|██████▏   | 230532/371472 [7:18:32<10:46:34,  3.63it/s] 62%|██████▏   | 230533/371472 [7:18:32<10:29:56,  3.73it/s] 62%|██████▏   | 230534/371472 [7:18:32<11:07:28,  3.52it/s] 62%|██████▏   | 230535/371472 [7:18:32<11:05:50,  3.53it/s] 62%|██████▏   | 230536/371472 [7:18:33<11:08:46,  3.51it/s] 62%|██████▏   | 230537/371472 [7:18:33<12:14:16,  3.20it/s] 62%|██████▏   | 230538/371472 [7:18:33<12:10:57,  3.21it/s] 62%|██████▏   | 230539/371472 [7:18:34<11:50:00,  3.31it/s] 62%|██████▏   | 230540/371472 [7:18:34<11:18:43,  3.46it/s]                                                            {'loss': 2.9066, 'learning_rate': 4.4163308840957574e-07, 'epoch': 9.93}
 62%|██████▏   | 230540/371472 [7:18:34<11:18:43,  3.46it/s] 62%|██████▏   | 230541/371472 [7:18:34<10:51:04,  3.61it/s] 62%|██████▏   | 230542/371472 [7:18:34<10:45:35,  3.64it/s] 62%|██████▏   | 230543/371472 [7:18:35<10:48:27,  3.62it/s] 62%|██████▏   | 230544/371472 [7:18:35<10:41:17,  3.66it/s] 62%|██████▏   | 230545/371472 [7:18:35<10:54:09,  3.59it/s] 62%|██████▏   | 230546/371472 [7:18:36<11:03:24,  3.54it/s] 62%|██████▏   | 230547/371472 [7:18:36<12:12:54,  3.20it/s] 62%|██████▏   | 230548/371472 [7:18:36<12:15:47,  3.19it/s] 62%|██████▏   | 230549/371472 [7:18:37<13:16:27,  2.95it/s] 62%|██████▏   | 230550/371472 [7:18:37<12:09:42,  3.22it/s] 62%|██████▏   | 230551/371472 [7:18:37<11:51:05,  3.30it/s] 62%|██████▏   | 230552/371472 [7:18:38<11:20:53,  3.45it/s] 62%|██████▏   | 230553/371472 [7:18:38<11:47:58,  3.32it/s] 62%|██████▏   | 230554/371472 [7:18:38<11:24:29,  3.43it/s] 62%|██████▏   | 230555/371472 [7:18:38<11:05:47,  3.53it/s] 62%|██████▏   | 230556/371472 [7:18:39<11:18:51,  3.46it/s] 62%|██████▏   | 230557/371472 [7:18:39<11:32:39,  3.39it/s] 62%|██████▏   | 230558/371472 [7:18:39<11:01:18,  3.55it/s] 62%|██████▏   | 230559/371472 [7:18:39<10:50:40,  3.61it/s] 62%|██████▏   | 230560/371472 [7:18:40<11:09:49,  3.51it/s]                                                            {'loss': 2.7888, 'learning_rate': 4.415846064340968e-07, 'epoch': 9.93}
 62%|██████▏   | 230560/371472 [7:18:40<11:09:49,  3.51it/s] 62%|██████▏   | 230561/371472 [7:18:40<11:13:10,  3.49it/s] 62%|██████▏   | 230562/371472 [7:18:40<11:29:20,  3.41it/s] 62%|██████▏   | 230563/371472 [7:18:41<11:02:45,  3.54it/s] 62%|██████▏   | 230564/371472 [7:18:41<11:13:17,  3.49it/s] 62%|██████▏   | 230565/371472 [7:18:41<11:24:24,  3.43it/s] 62%|██████▏   | 230566/371472 [7:18:42<11:38:45,  3.36it/s] 62%|██████▏   | 230567/371472 [7:18:42<11:08:05,  3.52it/s] 62%|██████▏   | 230568/371472 [7:18:42<10:54:38,  3.59it/s] 62%|██████▏   | 230569/371472 [7:18:42<10:25:58,  3.75it/s] 62%|██████▏   | 230570/371472 [7:18:43<10:48:40,  3.62it/s] 62%|██████▏   | 230571/371472 [7:18:43<11:18:53,  3.46it/s] 62%|██████▏   | 230572/371472 [7:18:43<12:00:13,  3.26it/s] 62%|██████▏   | 230573/371472 [7:18:44<11:47:54,  3.32it/s] 62%|██████▏   | 230574/371472 [7:18:44<11:26:00,  3.42it/s] 62%|██████▏   | 230575/371472 [7:18:44<11:03:47,  3.54it/s] 62%|██████▏   | 230576/371472 [7:18:44<11:08:20,  3.51it/s] 62%|██████▏   | 230577/371472 [7:18:45<11:48:58,  3.31it/s] 62%|██████▏   | 230578/371472 [7:18:45<11:39:51,  3.36it/s] 62%|██████▏   | 230579/371472 [7:18:45<11:19:24,  3.46it/s] 62%|██████▏   | 230580/371472 [7:18:46<11:16:12,  3.47it/s]                                                            {'loss': 2.8425, 'learning_rate': 4.4153612445861793e-07, 'epoch': 9.93}
 62%|██████▏   | 230580/371472 [7:18:46<11:16:12,  3.47it/s] 62%|██████▏   | 230581/371472 [7:18:46<11:13:33,  3.49it/s] 62%|██████▏   | 230582/371472 [7:18:46<11:18:31,  3.46it/s] 62%|██████▏   | 230583/371472 [7:18:46<11:25:58,  3.42it/s] 62%|██████▏   | 230584/371472 [7:18:47<10:58:09,  3.57it/s] 62%|██████▏   | 230585/371472 [7:18:47<10:39:54,  3.67it/s] 62%|██████▏   | 230586/371472 [7:18:47<10:47:07,  3.63it/s] 62%|██████▏   | 230587/371472 [7:18:48<10:52:00,  3.60it/s] 62%|██████▏   | 230588/371472 [7:18:48<10:52:28,  3.60it/s] 62%|██████▏   | 230589/371472 [7:18:48<11:06:09,  3.52it/s] 62%|██████▏   | 230590/371472 [7:18:48<11:06:11,  3.52it/s] 62%|██████▏   | 230591/371472 [7:18:49<10:55:52,  3.58it/s] 62%|██████▏   | 230592/371472 [7:18:49<10:40:07,  3.67it/s] 62%|██████▏   | 230593/371472 [7:18:49<10:34:53,  3.70it/s] 62%|██████▏   | 230594/371472 [7:18:49<10:52:31,  3.60it/s] 62%|██████▏   | 230595/371472 [7:18:50<11:31:56,  3.39it/s] 62%|██████▏   | 230596/371472 [7:18:50<11:07:33,  3.52it/s] 62%|██████▏   | 230597/371472 [7:18:50<12:02:59,  3.25it/s] 62%|██████▏   | 230598/371472 [7:18:51<11:55:26,  3.28it/s] 62%|██████▏   | 230599/371472 [7:18:51<11:24:31,  3.43it/s] 62%|██████▏   | 230600/371472 [7:18:51<11:14:12,  3.48it/s]                                                            {'loss': 2.7915, 'learning_rate': 4.41487642483139e-07, 'epoch': 9.93}
 62%|██████▏   | 230600/371472 [7:18:51<11:14:12,  3.48it/s] 62%|██████▏   | 230601/371472 [7:18:52<11:04:44,  3.53it/s] 62%|██████▏   | 230602/371472 [7:18:52<11:16:50,  3.47it/s] 62%|██████▏   | 230603/371472 [7:18:52<11:13:25,  3.49it/s] 62%|██████▏   | 230604/371472 [7:18:52<11:00:56,  3.55it/s] 62%|██████▏   | 230605/371472 [7:18:53<10:45:31,  3.64it/s] 62%|██████▏   | 230606/371472 [7:18:53<10:48:05,  3.62it/s] 62%|██████▏   | 230607/371472 [7:18:53<10:44:31,  3.64it/s] 62%|██████▏   | 230608/371472 [7:18:53<10:44:28,  3.64it/s] 62%|██████▏   | 230609/371472 [7:18:54<11:26:17,  3.42it/s] 62%|██████▏   | 230610/371472 [7:18:54<11:14:30,  3.48it/s] 62%|██████▏   | 230611/371472 [7:18:54<10:57:56,  3.57it/s] 62%|██████▏   | 230612/371472 [7:18:55<11:29:49,  3.40it/s] 62%|██████▏   | 230613/371472 [7:18:55<11:57:04,  3.27it/s] 62%|██████▏   | 230614/371472 [7:18:55<11:42:34,  3.34it/s] 62%|██████▏   | 230615/371472 [7:18:56<11:15:12,  3.48it/s] 62%|██████▏   | 230616/371472 [7:18:56<11:50:50,  3.30it/s] 62%|██████▏   | 230617/371472 [7:18:56<12:04:41,  3.24it/s] 62%|██████▏   | 230618/371472 [7:18:56<11:34:21,  3.38it/s] 62%|██████▏   | 230619/371472 [7:18:57<11:54:02,  3.29it/s] 62%|██████▏   | 230620/371472 [7:18:57<12:21:14,  3.17it/s]                                                            {'loss': 2.9513, 'learning_rate': 4.414391605076602e-07, 'epoch': 9.93}
 62%|██████▏   | 230620/371472 [7:18:57<12:21:14,  3.17it/s] 62%|██████▏   | 230621/371472 [7:18:57<11:48:30,  3.31it/s] 62%|██████▏   | 230622/371472 [7:18:58<11:27:25,  3.41it/s] 62%|██████▏   | 230623/371472 [7:18:58<11:38:11,  3.36it/s] 62%|██████▏   | 230624/371472 [7:18:58<11:32:53,  3.39it/s] 62%|██████▏   | 230625/371472 [7:18:59<10:58:08,  3.57it/s] 62%|██████▏   | 230626/371472 [7:18:59<11:03:10,  3.54it/s] 62%|██████▏   | 230627/371472 [7:18:59<11:00:12,  3.56it/s] 62%|██████▏   | 230628/371472 [7:18:59<10:47:07,  3.63it/s] 62%|██████▏   | 230629/371472 [7:19:00<10:41:06,  3.66it/s] 62%|██████▏   | 230630/371472 [7:19:00<11:08:58,  3.51it/s] 62%|██████▏   | 230631/371472 [7:19:00<11:07:44,  3.52it/s] 62%|██████▏   | 230632/371472 [7:19:00<10:46:34,  3.63it/s] 62%|██████▏   | 230633/371472 [7:19:01<10:43:33,  3.65it/s] 62%|██████▏   | 230634/371472 [7:19:01<11:19:20,  3.46it/s] 62%|██████▏   | 230635/371472 [7:19:01<10:58:31,  3.56it/s] 62%|██████▏   | 230636/371472 [7:19:02<10:58:53,  3.56it/s] 62%|██████▏   | 230637/371472 [7:19:02<10:39:51,  3.67it/s] 62%|██████▏   | 230638/371472 [7:19:02<11:07:23,  3.52it/s] 62%|██████▏   | 230639/371472 [7:19:02<10:39:10,  3.67it/s] 62%|██████▏   | 230640/371472 [7:19:03<10:29:22,  3.73it/s]                                                            {'loss': 2.8858, 'learning_rate': 4.413906785321812e-07, 'epoch': 9.93}
 62%|██████▏   | 230640/371472 [7:19:03<10:29:22,  3.73it/s] 62%|██████▏   | 230641/371472 [7:19:03<10:23:34,  3.76it/s] 62%|██████▏   | 230642/371472 [7:19:03<11:27:04,  3.42it/s] 62%|██████▏   | 230643/371472 [7:19:04<11:02:18,  3.54it/s] 62%|██████▏   | 230644/371472 [7:19:04<10:51:28,  3.60it/s] 62%|██████▏   | 230645/371472 [7:19:04<10:33:40,  3.70it/s] 62%|██████▏   | 230646/371472 [7:19:04<10:29:17,  3.73it/s] 62%|██████▏   | 230647/371472 [7:19:05<10:31:45,  3.72it/s] 62%|██████▏   | 230648/371472 [7:19:05<10:30:32,  3.72it/s] 62%|██████▏   | 230649/371472 [7:19:05<11:57:24,  3.27it/s] 62%|██████▏   | 230650/371472 [7:19:06<11:19:56,  3.45it/s] 62%|██████▏   | 230651/371472 [7:19:06<12:31:18,  3.12it/s] 62%|██████▏   | 230652/371472 [7:19:06<12:18:12,  3.18it/s] 62%|██████▏   | 230653/371472 [7:19:06<11:50:54,  3.30it/s] 62%|██████▏   | 230654/371472 [7:19:07<12:12:28,  3.20it/s] 62%|██████▏   | 230655/371472 [7:19:07<11:31:52,  3.39it/s] 62%|██████▏   | 230656/371472 [7:19:07<12:25:01,  3.15it/s] 62%|██████▏   | 230657/371472 [7:19:08<11:56:28,  3.28it/s] 62%|██████▏   | 230658/371472 [7:19:08<11:26:14,  3.42it/s] 62%|██████▏   | 230659/371472 [7:19:08<11:31:24,  3.39it/s] 62%|██████▏   | 230660/371472 [7:19:09<11:43:13,  3.34it/s]                                                            {'loss': 2.7894, 'learning_rate': 4.413421965567023e-07, 'epoch': 9.93}
 62%|██████▏   | 230660/371472 [7:19:09<11:43:13,  3.34it/s] 62%|██████▏   | 230661/371472 [7:19:09<11:46:08,  3.32it/s] 62%|██████▏   | 230662/371472 [7:19:09<12:25:02,  3.15it/s] 62%|██████▏   | 230663/371472 [7:19:10<11:56:09,  3.28it/s] 62%|██████▏   | 230664/371472 [7:19:10<11:22:29,  3.44it/s] 62%|██████▏   | 230665/371472 [7:19:10<11:20:28,  3.45it/s] 62%|██████▏   | 230666/371472 [7:19:10<11:15:48,  3.47it/s] 62%|██████▏   | 230667/371472 [7:19:11<11:15:31,  3.47it/s] 62%|██████▏   | 230668/371472 [7:19:11<11:02:37,  3.54it/s] 62%|██████▏   | 230669/371472 [7:19:11<10:57:29,  3.57it/s] 62%|██████▏   | 230670/371472 [7:19:11<11:05:30,  3.53it/s] 62%|██████▏   | 230671/371472 [7:19:12<11:01:56,  3.55it/s] 62%|██████▏   | 230672/371472 [7:19:12<11:04:08,  3.53it/s] 62%|██████▏   | 230673/371472 [7:19:12<10:57:40,  3.57it/s] 62%|██████▏   | 230674/371472 [7:19:13<10:38:04,  3.68it/s] 62%|██████▏   | 230675/371472 [7:19:13<10:35:43,  3.69it/s] 62%|██████▏   | 230676/371472 [7:19:13<10:50:40,  3.61it/s] 62%|██████▏   | 230677/371472 [7:19:13<11:07:03,  3.52it/s] 62%|██████▏   | 230678/371472 [7:19:14<10:59:43,  3.56it/s] 62%|██████▏   | 230679/371472 [7:19:14<10:46:24,  3.63it/s] 62%|██████▏   | 230680/371472 [7:19:14<10:46:20,  3.63it/s]                                                            {'loss': 2.8891, 'learning_rate': 4.4129371458122345e-07, 'epoch': 9.94}
 62%|██████▏   | 230680/371472 [7:19:14<10:46:20,  3.63it/s] 62%|██████▏   | 230681/371472 [7:19:15<10:45:13,  3.64it/s] 62%|██████▏   | 230682/371472 [7:19:15<11:32:34,  3.39it/s] 62%|██████▏   | 230683/371472 [7:19:15<11:41:59,  3.34it/s] 62%|██████▏   | 230684/371472 [7:19:16<12:16:36,  3.19it/s] 62%|██████▏   | 230685/371472 [7:19:16<11:50:44,  3.30it/s] 62%|██████▏   | 230686/371472 [7:19:16<11:22:35,  3.44it/s] 62%|██████▏   | 230687/371472 [7:19:16<11:17:43,  3.46it/s] 62%|██████▏   | 230688/371472 [7:19:17<11:12:22,  3.49it/s] 62%|██████▏   | 230689/371472 [7:19:17<11:29:27,  3.40it/s] 62%|██████▏   | 230690/371472 [7:19:17<11:08:17,  3.51it/s] 62%|██████▏   | 230691/371472 [7:19:17<10:44:21,  3.64it/s] 62%|██████▏   | 230692/371472 [7:19:18<11:25:43,  3.42it/s] 62%|██████▏   | 230693/371472 [7:19:18<11:41:57,  3.34it/s] 62%|██████▏   | 230694/371472 [7:19:18<11:08:05,  3.51it/s] 62%|██████▏   | 230695/371472 [7:19:19<11:23:05,  3.43it/s] 62%|██████▏   | 230696/371472 [7:19:19<11:41:33,  3.34it/s] 62%|██████▏   | 230697/371472 [7:19:19<11:43:48,  3.33it/s] 62%|██████▏   | 230698/371472 [7:19:20<11:25:04,  3.42it/s] 62%|██████▏   | 230699/371472 [7:19:20<11:28:25,  3.41it/s] 62%|██████▏   | 230700/371472 [7:19:20<11:22:16,  3.44it/s]                                                            {'loss': 2.8636, 'learning_rate': 4.412452326057446e-07, 'epoch': 9.94}
 62%|██████▏   | 230700/371472 [7:19:20<11:22:16,  3.44it/s] 62%|██████▏   | 230701/371472 [7:19:21<12:22:36,  3.16it/s] 62%|██████▏   | 230702/371472 [7:19:21<13:14:05,  2.95it/s] 62%|██████▏   | 230703/371472 [7:19:21<13:18:44,  2.94it/s] 62%|██████▏   | 230704/371472 [7:19:22<12:51:37,  3.04it/s] 62%|██████▏   | 230705/371472 [7:19:22<12:20:52,  3.17it/s] 62%|██████▏   | 230706/371472 [7:19:22<12:07:11,  3.23it/s] 62%|██████▏   | 230707/371472 [7:19:22<11:36:56,  3.37it/s] 62%|██████▏   | 230708/371472 [7:19:23<11:46:20,  3.32it/s] 62%|██████▏   | 230709/371472 [7:19:23<11:00:56,  3.55it/s] 62%|██████▏   | 230710/371472 [7:19:23<11:18:25,  3.46it/s] 62%|██████▏   | 230711/371472 [7:19:24<11:03:46,  3.53it/s] 62%|██████▏   | 230712/371472 [7:19:24<10:52:36,  3.59it/s] 62%|██████▏   | 230713/371472 [7:19:24<10:41:30,  3.66it/s] 62%|██████▏   | 230714/371472 [7:19:24<10:38:52,  3.67it/s] 62%|██████▏   | 230715/371472 [7:19:25<10:49:04,  3.61it/s] 62%|██████▏   | 230716/371472 [7:19:25<10:46:35,  3.63it/s] 62%|██████▏   | 230717/371472 [7:19:25<10:28:55,  3.73it/s] 62%|██████▏   | 230718/371472 [7:19:25<10:45:15,  3.64it/s] 62%|██████▏   | 230719/371472 [7:19:26<10:27:17,  3.74it/s] 62%|██████▏   | 230720/371472 [7:19:26<10:22:56,  3.77it/s]                                                            {'loss': 2.8724, 'learning_rate': 4.4119675063026565e-07, 'epoch': 9.94}
 62%|██████▏   | 230720/371472 [7:19:26<10:22:56,  3.77it/s] 62%|██████▏   | 230721/371472 [7:19:26<10:40:45,  3.66it/s] 62%|██████▏   | 230722/371472 [7:19:27<11:00:55,  3.55it/s] 62%|██████▏   | 230723/371472 [7:19:27<11:21:27,  3.44it/s] 62%|██████▏   | 230724/371472 [7:19:27<11:12:03,  3.49it/s] 62%|██████▏   | 230725/371472 [7:19:27<10:58:32,  3.56it/s] 62%|██████▏   | 230726/371472 [7:19:28<10:58:18,  3.56it/s] 62%|██████▏   | 230727/371472 [7:19:28<10:38:47,  3.67it/s] 62%|██████▏   | 230728/371472 [7:19:28<10:53:58,  3.59it/s] 62%|██████▏   | 230729/371472 [7:19:28<10:42:16,  3.65it/s] 62%|██████▏   | 230730/371472 [7:19:29<10:32:45,  3.71it/s] 62%|██████▏   | 230731/371472 [7:19:29<10:56:34,  3.57it/s] 62%|██████▏   | 230732/371472 [7:19:29<10:52:24,  3.60it/s] 62%|██████▏   | 230733/371472 [7:19:30<10:24:51,  3.75it/s] 62%|██████▏   | 230734/371472 [7:19:30<10:41:17,  3.66it/s] 62%|██████▏   | 230735/371472 [7:19:30<10:38:36,  3.67it/s] 62%|██████▏   | 230736/371472 [7:19:30<10:15:43,  3.81it/s] 62%|██████▏   | 230737/371472 [7:19:31<10:04:01,  3.88it/s] 62%|██████▏   | 230738/371472 [7:19:31<9:57:58,  3.92it/s]  62%|██████▏   | 230739/371472 [7:19:31<9:50:49,  3.97it/s] 62%|██████▏   | 230740/371472 [7:19:31<10:37:55,  3.68it/s]                                                            {'loss': 2.8267, 'learning_rate': 4.411482686547868e-07, 'epoch': 9.94}
 62%|██████▏   | 230740/371472 [7:19:31<10:37:55,  3.68it/s] 62%|██████▏   | 230741/371472 [7:19:32<10:35:43,  3.69it/s] 62%|██████▏   | 230742/371472 [7:19:32<11:04:30,  3.53it/s] 62%|██████▏   | 230743/371472 [7:19:32<11:09:42,  3.50it/s] 62%|██████▏   | 230744/371472 [7:19:33<11:02:03,  3.54it/s] 62%|██████▏   | 230745/371472 [7:19:33<10:46:31,  3.63it/s] 62%|██████▏   | 230746/371472 [7:19:33<10:20:35,  3.78it/s] 62%|██████▏   | 230747/371472 [7:19:33<10:40:13,  3.66it/s] 62%|██████▏   | 230748/371472 [7:19:34<10:26:20,  3.74it/s] 62%|██████▏   | 230749/371472 [7:19:34<10:09:53,  3.85it/s] 62%|██████▏   | 230750/371472 [7:19:34<10:40:50,  3.66it/s] 62%|██████▏   | 230751/371472 [7:19:34<10:30:00,  3.72it/s] 62%|██████▏   | 230752/371472 [7:19:35<10:28:32,  3.73it/s] 62%|██████▏   | 230753/371472 [7:19:35<10:44:51,  3.64it/s] 62%|██████▏   | 230754/371472 [7:19:35<10:51:12,  3.60it/s] 62%|██████▏   | 230755/371472 [7:19:36<10:41:00,  3.66it/s] 62%|██████▏   | 230756/371472 [7:19:36<10:34:14,  3.70it/s] 62%|██████▏   | 230757/371472 [7:19:36<11:12:35,  3.49it/s] 62%|██████▏   | 230758/371472 [7:19:36<11:24:50,  3.42it/s] 62%|██████▏   | 230759/371472 [7:19:37<11:17:40,  3.46it/s] 62%|██████▏   | 230760/371472 [7:19:37<11:24:00,  3.43it/s]                                                            {'loss': 3.0889, 'learning_rate': 4.410997866793079e-07, 'epoch': 9.94}
 62%|██████▏   | 230760/371472 [7:19:37<11:24:00,  3.43it/s] 62%|██████▏   | 230761/371472 [7:19:37<11:24:19,  3.43it/s] 62%|██████▏   | 230762/371472 [7:19:38<11:07:22,  3.51it/s] 62%|██████▏   | 230763/371472 [7:19:38<10:52:08,  3.60it/s] 62%|██████▏   | 230764/371472 [7:19:38<10:54:19,  3.58it/s] 62%|██████▏   | 230765/371472 [7:19:38<11:26:55,  3.41it/s] 62%|██████▏   | 230766/371472 [7:19:39<11:28:42,  3.41it/s] 62%|██████▏   | 230767/371472 [7:19:39<11:17:52,  3.46it/s] 62%|██████▏   | 230768/371472 [7:19:39<10:48:08,  3.62it/s] 62%|██████▏   | 230769/371472 [7:19:39<10:24:41,  3.75it/s] 62%|██████▏   | 230770/371472 [7:19:40<10:20:47,  3.78it/s] 62%|██████▏   | 230771/371472 [7:19:40<10:13:44,  3.82it/s] 62%|██████▏   | 230772/371472 [7:19:40<10:56:11,  3.57it/s] 62%|██████▏   | 230773/371472 [7:19:41<11:31:44,  3.39it/s] 62%|██████▏   | 230774/371472 [7:19:41<11:54:30,  3.28it/s] 62%|██████▏   | 230775/371472 [7:19:41<11:58:52,  3.26it/s] 62%|██████▏   | 230776/371472 [7:19:42<11:38:36,  3.36it/s] 62%|██████▏   | 230777/371472 [7:19:42<11:13:55,  3.48it/s] 62%|██████▏   | 230778/371472 [7:19:42<11:14:57,  3.47it/s] 62%|██████▏   | 230779/371472 [7:19:42<11:14:54,  3.47it/s] 62%|██████▏   | 230780/371472 [7:19:43<11:04:26,  3.53it/s]                                                            {'loss': 2.579, 'learning_rate': 4.410513047038289e-07, 'epoch': 9.94}
 62%|██████▏   | 230780/371472 [7:19:43<11:04:26,  3.53it/s] 62%|██████▏   | 230781/371472 [7:19:43<11:55:32,  3.28it/s] 62%|██████▏   | 230782/371472 [7:19:43<12:05:18,  3.23it/s] 62%|██████▏   | 230783/371472 [7:19:44<11:56:50,  3.27it/s] 62%|██████▏   | 230784/371472 [7:19:44<11:26:45,  3.41it/s] 62%|██████▏   | 230785/371472 [7:19:44<11:01:04,  3.55it/s] 62%|██████▏   | 230786/371472 [7:19:44<10:55:26,  3.58it/s] 62%|██████▏   | 230787/371472 [7:19:45<10:55:57,  3.57it/s] 62%|██████▏   | 230788/371472 [7:19:45<10:35:56,  3.69it/s] 62%|██████▏   | 230789/371472 [7:19:45<11:07:05,  3.51it/s] 62%|██████▏   | 230790/371472 [7:19:46<11:12:59,  3.48it/s] 62%|██████▏   | 230791/371472 [7:19:46<11:42:17,  3.34it/s] 62%|██████▏   | 230792/371472 [7:19:46<11:30:31,  3.40it/s] 62%|██████▏   | 230793/371472 [7:19:46<11:13:19,  3.48it/s] 62%|██████▏   | 230794/371472 [7:19:47<11:20:30,  3.45it/s] 62%|██████▏   | 230795/371472 [7:19:47<12:44:44,  3.07it/s] 62%|██████▏   | 230796/371472 [7:19:47<11:56:51,  3.27it/s] 62%|██████▏   | 230797/371472 [7:19:48<11:17:47,  3.46it/s] 62%|██████▏   | 230798/371472 [7:19:48<11:26:16,  3.42it/s] 62%|██████▏   | 230799/371472 [7:19:48<11:11:40,  3.49it/s] 62%|██████▏   | 230800/371472 [7:19:49<11:10:53,  3.49it/s]                                                            {'loss': 2.9829, 'learning_rate': 4.410028227283501e-07, 'epoch': 9.94}
 62%|██████▏   | 230800/371472 [7:19:49<11:10:53,  3.49it/s] 62%|██████▏   | 230801/371472 [7:19:49<11:06:39,  3.52it/s] 62%|██████▏   | 230802/371472 [7:19:49<10:41:02,  3.66it/s] 62%|██████▏   | 230803/371472 [7:19:49<10:31:19,  3.71it/s] 62%|██████▏   | 230804/371472 [7:19:50<10:32:35,  3.71it/s] 62%|██████▏   | 230805/371472 [7:19:50<10:25:21,  3.75it/s] 62%|██████▏   | 230806/371472 [7:19:50<10:26:35,  3.74it/s] 62%|██████▏   | 230807/371472 [7:19:50<10:56:59,  3.57it/s] 62%|██████▏   | 230808/371472 [7:19:51<11:20:36,  3.44it/s] 62%|██████▏   | 230809/371472 [7:19:51<11:45:43,  3.32it/s] 62%|██████▏   | 230810/371472 [7:19:51<11:33:19,  3.38it/s] 62%|██████▏   | 230811/371472 [7:19:52<11:14:12,  3.48it/s] 62%|██████▏   | 230812/371472 [7:19:52<11:03:51,  3.53it/s] 62%|██████▏   | 230813/371472 [7:19:52<11:06:24,  3.52it/s] 62%|██████▏   | 230814/371472 [7:19:52<11:09:15,  3.50it/s] 62%|██████▏   | 230815/371472 [7:19:53<10:37:31,  3.68it/s] 62%|██████▏   | 230816/371472 [7:19:53<10:33:19,  3.70it/s] 62%|██████▏   | 230817/371472 [7:19:53<10:24:48,  3.75it/s] 62%|██████▏   | 230818/371472 [7:19:54<10:23:50,  3.76it/s] 62%|██████▏   | 230819/371472 [7:19:54<10:57:25,  3.57it/s] 62%|██████▏   | 230820/371472 [7:19:54<11:10:07,  3.50it/s]                                                            {'loss': 2.9078, 'learning_rate': 4.409543407528711e-07, 'epoch': 9.94}
 62%|██████▏   | 230820/371472 [7:19:54<11:10:07,  3.50it/s] 62%|██████▏   | 230821/371472 [7:19:54<11:32:50,  3.38it/s] 62%|██████▏   | 230822/371472 [7:19:55<11:21:54,  3.44it/s] 62%|██████▏   | 230823/371472 [7:19:55<11:14:05,  3.48it/s] 62%|██████▏   | 230824/371472 [7:19:55<10:40:24,  3.66it/s] 62%|██████▏   | 230825/371472 [7:19:55<10:22:07,  3.77it/s] 62%|██████▏   | 230826/371472 [7:19:56<10:41:08,  3.66it/s] 62%|██████▏   | 230827/371472 [7:19:56<10:40:35,  3.66it/s] 62%|██████▏   | 230828/371472 [7:19:56<10:36:41,  3.68it/s] 62%|██████▏   | 230829/371472 [7:19:57<10:45:16,  3.63it/s] 62%|██████▏   | 230830/371472 [7:19:57<10:48:15,  3.62it/s] 62%|██████▏   | 230831/371472 [7:19:57<10:39:33,  3.67it/s] 62%|██████▏   | 230832/371472 [7:19:57<10:27:22,  3.74it/s] 62%|██████▏   | 230833/371472 [7:19:58<10:27:19,  3.74it/s] 62%|██████▏   | 230834/371472 [7:19:58<10:51:44,  3.60it/s] 62%|██████▏   | 230835/371472 [7:19:58<10:46:03,  3.63it/s] 62%|██████▏   | 230836/371472 [7:19:58<10:33:27,  3.70it/s] 62%|██████▏   | 230837/371472 [7:19:59<10:25:54,  3.74it/s] 62%|██████▏   | 230838/371472 [7:19:59<10:25:26,  3.75it/s] 62%|██████▏   | 230839/371472 [7:19:59<10:31:23,  3.71it/s] 62%|██████▏   | 230840/371472 [7:20:00<10:21:48,  3.77it/s]                                                            {'loss': 2.8378, 'learning_rate': 4.409058587773923e-07, 'epoch': 9.94}
 62%|██████▏   | 230840/371472 [7:20:00<10:21:48,  3.77it/s] 62%|██████▏   | 230841/371472 [7:20:00<11:03:25,  3.53it/s] 62%|██████▏   | 230842/371472 [7:20:00<11:19:51,  3.45it/s] 62%|██████▏   | 230843/371472 [7:20:00<11:00:35,  3.55it/s] 62%|██████▏   | 230844/371472 [7:20:01<10:58:29,  3.56it/s] 62%|██████▏   | 230845/371472 [7:20:01<10:38:17,  3.67it/s] 62%|██████▏   | 230846/371472 [7:20:01<11:00:23,  3.55it/s] 62%|██████▏   | 230847/371472 [7:20:02<10:42:30,  3.65it/s] 62%|██████▏   | 230848/371472 [7:20:02<11:18:44,  3.45it/s] 62%|██████▏   | 230849/371472 [7:20:02<11:13:33,  3.48it/s] 62%|██████▏   | 230850/371472 [7:20:02<10:57:45,  3.56it/s] 62%|██████▏   | 230851/371472 [7:20:03<10:38:30,  3.67it/s] 62%|██████▏   | 230852/371472 [7:20:03<10:29:05,  3.73it/s] 62%|██████▏   | 230853/371472 [7:20:03<11:21:12,  3.44it/s] 62%|██████▏   | 230854/371472 [7:20:04<10:54:41,  3.58it/s] 62%|██████▏   | 230855/371472 [7:20:04<11:35:08,  3.37it/s] 62%|██████▏   | 230856/371472 [7:20:04<11:24:29,  3.42it/s] 62%|██████▏   | 230857/371472 [7:20:04<10:49:32,  3.61it/s] 62%|██████▏   | 230858/371472 [7:20:05<10:43:37,  3.64it/s] 62%|██████▏   | 230859/371472 [7:20:05<10:56:59,  3.57it/s] 62%|██████▏   | 230860/371472 [7:20:05<10:48:57,  3.61it/s]                                                            {'loss': 2.7474, 'learning_rate': 4.4085737680191336e-07, 'epoch': 9.94}
 62%|██████▏   | 230860/371472 [7:20:05<10:48:57,  3.61it/s] 62%|██████▏   | 230861/371472 [7:20:05<10:43:49,  3.64it/s] 62%|██████▏   | 230862/371472 [7:20:06<10:23:35,  3.76it/s] 62%|██████▏   | 230863/371472 [7:20:06<10:45:11,  3.63it/s] 62%|██████▏   | 230864/371472 [7:20:06<10:27:33,  3.73it/s] 62%|██████▏   | 230865/371472 [7:20:07<10:15:08,  3.81it/s] 62%|██████▏   | 230866/371472 [7:20:07<10:36:44,  3.68it/s] 62%|██████▏   | 230867/371472 [7:20:07<10:35:22,  3.69it/s] 62%|██████▏   | 230868/371472 [7:20:07<10:30:27,  3.72it/s] 62%|██████▏   | 230869/371472 [7:20:08<10:30:57,  3.71it/s] 62%|██████▏   | 230870/371472 [7:20:08<10:37:56,  3.67it/s] 62%|██████▏   | 230871/371472 [7:20:08<10:34:08,  3.70it/s] 62%|██████▏   | 230872/371472 [7:20:08<10:40:33,  3.66it/s] 62%|██████▏   | 230873/371472 [7:20:09<10:19:08,  3.78it/s] 62%|██████▏   | 230874/371472 [7:20:09<11:50:17,  3.30it/s] 62%|██████▏   | 230875/371472 [7:20:09<11:38:43,  3.35it/s] 62%|██████▏   | 230876/371472 [7:20:10<11:36:23,  3.36it/s] 62%|██████▏   | 230877/371472 [7:20:10<11:15:44,  3.47it/s] 62%|██████▏   | 230878/371472 [7:20:10<11:03:50,  3.53it/s] 62%|██████▏   | 230879/371472 [7:20:10<11:00:13,  3.55it/s] 62%|██████▏   | 230880/371472 [7:20:11<10:57:24,  3.56it/s]                                                            {'loss': 2.8605, 'learning_rate': 4.4080889482643453e-07, 'epoch': 9.94}
 62%|██████▏   | 230880/371472 [7:20:11<10:57:24,  3.56it/s] 62%|██████▏   | 230881/371472 [7:20:11<11:53:00,  3.29it/s] 62%|██████▏   | 230882/371472 [7:20:11<11:43:52,  3.33it/s] 62%|██████▏   | 230883/371472 [7:20:12<11:24:06,  3.43it/s] 62%|██████▏   | 230884/371472 [7:20:12<11:15:40,  3.47it/s] 62%|██████▏   | 230885/371472 [7:20:12<11:17:11,  3.46it/s] 62%|██████▏   | 230886/371472 [7:20:13<11:14:09,  3.48it/s] 62%|██████▏   | 230887/371472 [7:20:13<12:21:55,  3.16it/s] 62%|██████▏   | 230888/371472 [7:20:13<12:09:28,  3.21it/s] 62%|██████▏   | 230889/371472 [7:20:14<11:58:07,  3.26it/s] 62%|██████▏   | 230890/371472 [7:20:14<11:39:33,  3.35it/s] 62%|██████▏   | 230891/371472 [7:20:14<11:37:54,  3.36it/s] 62%|██████▏   | 230892/371472 [7:20:14<11:35:04,  3.37it/s] 62%|██████▏   | 230893/371472 [7:20:15<11:11:51,  3.49it/s] 62%|██████▏   | 230894/371472 [7:20:15<10:45:44,  3.63it/s] 62%|██████▏   | 230895/371472 [7:20:15<10:53:04,  3.59it/s] 62%|██████▏   | 230896/371472 [7:20:16<12:00:51,  3.25it/s] 62%|██████▏   | 230897/371472 [7:20:16<11:31:48,  3.39it/s] 62%|██████▏   | 230898/371472 [7:20:16<11:08:24,  3.51it/s] 62%|██████▏   | 230899/371472 [7:20:16<10:53:59,  3.58it/s] 62%|██████▏   | 230900/371472 [7:20:17<12:16:22,  3.18it/s]                                                            {'loss': 2.9677, 'learning_rate': 4.4076041285095555e-07, 'epoch': 9.95}
 62%|██████▏   | 230900/371472 [7:20:17<12:16:22,  3.18it/s] 62%|██████▏   | 230901/371472 [7:20:17<12:07:33,  3.22it/s] 62%|██████▏   | 230902/371472 [7:20:17<11:33:27,  3.38it/s] 62%|██████▏   | 230903/371472 [7:20:18<11:21:19,  3.44it/s] 62%|██████▏   | 230904/371472 [7:20:18<11:21:26,  3.44it/s] 62%|██████▏   | 230905/371472 [7:20:18<11:15:46,  3.47it/s] 62%|██████▏   | 230906/371472 [7:20:18<11:25:13,  3.42it/s] 62%|██████▏   | 230907/371472 [7:20:19<11:01:28,  3.54it/s] 62%|██████▏   | 230908/371472 [7:20:19<11:06:21,  3.52it/s] 62%|██████▏   | 230909/371472 [7:20:19<11:06:17,  3.52it/s] 62%|██████▏   | 230910/371472 [7:20:20<10:56:00,  3.57it/s] 62%|██████▏   | 230911/371472 [7:20:20<10:52:40,  3.59it/s] 62%|██████▏   | 230912/371472 [7:20:20<10:34:07,  3.69it/s] 62%|██████▏   | 230913/371472 [7:20:20<11:28:25,  3.40it/s] 62%|██████▏   | 230914/371472 [7:20:21<12:50:13,  3.04it/s] 62%|██████▏   | 230915/371472 [7:20:21<12:29:52,  3.12it/s] 62%|██████▏   | 230916/371472 [7:20:21<12:24:59,  3.14it/s] 62%|██████▏   | 230917/371472 [7:20:22<11:46:11,  3.32it/s] 62%|██████▏   | 230918/371472 [7:20:22<11:40:56,  3.34it/s] 62%|██████▏   | 230919/371472 [7:20:22<11:37:36,  3.36it/s] 62%|██████▏   | 230920/371472 [7:20:23<11:54:22,  3.28it/s]                                                            {'loss': 2.9309, 'learning_rate': 4.4071193087547673e-07, 'epoch': 9.95}
 62%|██████▏   | 230920/371472 [7:20:23<11:54:22,  3.28it/s] 62%|██████▏   | 230921/371472 [7:20:23<11:17:34,  3.46it/s] 62%|██████▏   | 230922/371472 [7:20:23<10:47:32,  3.62it/s] 62%|██████▏   | 230923/371472 [7:20:23<10:45:23,  3.63it/s] 62%|██████▏   | 230924/371472 [7:20:24<10:48:38,  3.61it/s] 62%|██████▏   | 230925/371472 [7:20:24<10:25:36,  3.74it/s] 62%|██████▏   | 230926/371472 [7:20:24<10:17:09,  3.80it/s] 62%|██████▏   | 230927/371472 [7:20:24<10:28:17,  3.73it/s] 62%|██████▏   | 230928/371472 [7:20:25<10:35:01,  3.69it/s] 62%|██████▏   | 230929/371472 [7:20:25<10:37:46,  3.67it/s] 62%|██████▏   | 230930/371472 [7:20:25<11:04:03,  3.53it/s] 62%|██████▏   | 230931/371472 [7:20:26<11:05:39,  3.52it/s] 62%|██████▏   | 230932/371472 [7:20:26<10:53:59,  3.58it/s] 62%|██████▏   | 230933/371472 [7:20:26<11:15:54,  3.47it/s] 62%|██████▏   | 230934/371472 [7:20:26<10:48:54,  3.61it/s] 62%|██████▏   | 230935/371472 [7:20:27<10:43:14,  3.64it/s] 62%|██████▏   | 230936/371472 [7:20:27<15:02:59,  2.59it/s] 62%|██████▏   | 230937/371472 [7:20:28<14:03:09,  2.78it/s] 62%|██████▏   | 230938/371472 [7:20:28<13:20:37,  2.93it/s] 62%|██████▏   | 230939/371472 [7:20:28<12:45:20,  3.06it/s] 62%|██████▏   | 230940/371472 [7:20:29<12:06:03,  3.23it/s]                                                            {'loss': 2.8194, 'learning_rate': 4.406634488999978e-07, 'epoch': 9.95}
 62%|██████▏   | 230940/371472 [7:20:29<12:06:03,  3.23it/s] 62%|██████▏   | 230941/371472 [7:20:29<11:28:34,  3.40it/s] 62%|██████▏   | 230942/371472 [7:20:29<11:18:06,  3.45it/s] 62%|██████▏   | 230943/371472 [7:20:29<11:18:55,  3.45it/s] 62%|██████▏   | 230944/371472 [7:20:30<10:51:32,  3.59it/s] 62%|██████▏   | 230945/371472 [7:20:30<10:55:44,  3.57it/s] 62%|██████▏   | 230946/371472 [7:20:30<10:59:40,  3.55it/s] 62%|██████▏   | 230947/371472 [7:20:30<11:05:35,  3.52it/s] 62%|██████▏   | 230948/371472 [7:20:31<11:34:59,  3.37it/s] 62%|██████▏   | 230949/371472 [7:20:31<11:32:41,  3.38it/s] 62%|██████▏   | 230950/371472 [7:20:31<11:10:57,  3.49it/s] 62%|██████▏   | 230951/371472 [7:20:32<10:51:07,  3.60it/s] 62%|██████▏   | 230952/371472 [7:20:32<10:45:35,  3.63it/s] 62%|██████▏   | 230953/371472 [7:20:32<10:52:22,  3.59it/s] 62%|██████▏   | 230954/371472 [7:20:32<10:50:14,  3.60it/s] 62%|██████▏   | 230955/371472 [7:20:33<11:14:12,  3.47it/s] 62%|██████▏   | 230956/371472 [7:20:33<11:00:01,  3.55it/s] 62%|██████▏   | 230957/371472 [7:20:33<11:34:02,  3.37it/s] 62%|██████▏   | 230958/371472 [7:20:34<12:08:43,  3.21it/s] 62%|██████▏   | 230959/371472 [7:20:34<11:35:13,  3.37it/s] 62%|██████▏   | 230960/371472 [7:20:34<11:31:11,  3.39it/s]                                                            {'loss': 2.9373, 'learning_rate': 4.4061496692451893e-07, 'epoch': 9.95}
 62%|██████▏   | 230960/371472 [7:20:34<11:31:11,  3.39it/s] 62%|██████▏   | 230961/371472 [7:20:35<11:10:44,  3.49it/s] 62%|██████▏   | 230962/371472 [7:20:35<10:59:29,  3.55it/s] 62%|██████▏   | 230963/371472 [7:20:35<10:39:26,  3.66it/s] 62%|██████▏   | 230964/371472 [7:20:35<11:17:04,  3.46it/s] 62%|██████▏   | 230965/371472 [7:20:36<10:56:38,  3.57it/s] 62%|██████▏   | 230966/371472 [7:20:36<11:12:09,  3.48it/s] 62%|██████▏   | 230967/371472 [7:20:36<11:06:04,  3.52it/s] 62%|██████▏   | 230968/371472 [7:20:37<11:33:07,  3.38it/s] 62%|██████▏   | 230969/371472 [7:20:37<12:12:52,  3.20it/s] 62%|██████▏   | 230970/371472 [7:20:37<11:53:29,  3.28it/s] 62%|██████▏   | 230971/371472 [7:20:37<11:25:42,  3.41it/s] 62%|██████▏   | 230972/371472 [7:20:38<11:08:45,  3.50it/s] 62%|██████▏   | 230973/371472 [7:20:38<11:08:43,  3.50it/s] 62%|██████▏   | 230974/371472 [7:20:38<10:57:10,  3.56it/s] 62%|██████▏   | 230975/371472 [7:20:39<11:38:32,  3.35it/s] 62%|██████▏   | 230976/371472 [7:20:39<11:45:42,  3.32it/s] 62%|██████▏   | 230977/371472 [7:20:39<11:19:00,  3.45it/s] 62%|██████▏   | 230978/371472 [7:20:39<11:46:00,  3.32it/s] 62%|██████▏   | 230979/371472 [7:20:40<11:29:40,  3.40it/s] 62%|██████▏   | 230980/371472 [7:20:40<11:20:06,  3.44it/s]                                                            {'loss': 2.8734, 'learning_rate': 4.4056648494904e-07, 'epoch': 9.95}
 62%|██████▏   | 230980/371472 [7:20:40<11:20:06,  3.44it/s] 62%|██████▏   | 230981/371472 [7:20:40<11:00:43,  3.54it/s] 62%|██████▏   | 230982/371472 [7:20:41<10:49:45,  3.60it/s] 62%|██████▏   | 230983/371472 [7:20:41<10:45:21,  3.63it/s] 62%|██████▏   | 230984/371472 [7:20:41<11:55:06,  3.27it/s] 62%|██████▏   | 230985/371472 [7:20:41<11:28:06,  3.40it/s] 62%|██████▏   | 230986/371472 [7:20:42<11:07:53,  3.51it/s] 62%|██████▏   | 230987/371472 [7:20:42<10:56:41,  3.57it/s] 62%|██████▏   | 230988/371472 [7:20:42<10:48:07,  3.61it/s] 62%|██████▏   | 230989/371472 [7:20:43<10:44:04,  3.64it/s] 62%|██████▏   | 230990/371472 [7:20:43<10:50:16,  3.60it/s] 62%|██████▏   | 230991/371472 [7:20:43<11:13:07,  3.48it/s] 62%|██████▏   | 230992/371472 [7:20:43<11:07:58,  3.51it/s] 62%|██████▏   | 230993/371472 [7:20:44<11:30:07,  3.39it/s] 62%|██████▏   | 230994/371472 [7:20:44<11:03:47,  3.53it/s] 62%|██████▏   | 230995/371472 [7:20:44<10:55:12,  3.57it/s] 62%|██████▏   | 230996/371472 [7:20:45<10:46:27,  3.62it/s] 62%|██████▏   | 230997/371472 [7:20:45<10:58:24,  3.56it/s] 62%|██████▏   | 230998/371472 [7:20:45<10:51:06,  3.60it/s] 62%|██████▏   | 230999/371472 [7:20:45<10:51:31,  3.59it/s] 62%|██████▏   | 231000/371472 [7:20:46<10:30:42,  3.71it/s]                                                            {'loss': 2.9128, 'learning_rate': 4.405180029735612e-07, 'epoch': 9.95}
 62%|██████▏   | 231000/371472 [7:20:46<10:30:42,  3.71it/s] 62%|██████▏   | 231001/371472 [7:20:46<10:31:15,  3.71it/s] 62%|██████▏   | 231002/371472 [7:20:46<10:32:33,  3.70it/s] 62%|██████▏   | 231003/371472 [7:20:46<10:25:14,  3.74it/s] 62%|██████▏   | 231004/371472 [7:20:47<10:42:53,  3.64it/s] 62%|██████▏   | 231005/371472 [7:20:47<10:47:48,  3.61it/s] 62%|██████▏   | 231006/371472 [7:20:47<10:41:34,  3.65it/s] 62%|██████▏   | 231007/371472 [7:20:48<11:08:13,  3.50it/s] 62%|██████▏   | 231008/371472 [7:20:48<11:21:48,  3.43it/s] 62%|██████▏   | 231009/371472 [7:20:48<11:31:17,  3.39it/s] 62%|██████▏   | 231010/371472 [7:20:48<11:22:03,  3.43it/s] 62%|██████▏   | 231011/371472 [7:20:49<11:31:10,  3.39it/s] 62%|██████▏   | 231012/371472 [7:20:49<11:56:13,  3.27it/s] 62%|██████▏   | 231013/371472 [7:20:49<11:48:30,  3.30it/s] 62%|██████▏   | 231014/371472 [7:20:50<11:34:32,  3.37it/s] 62%|██████▏   | 231015/371472 [7:20:50<11:06:26,  3.51it/s] 62%|██████▏   | 231016/371472 [7:20:50<10:58:47,  3.55it/s] 62%|██████▏   | 231017/371472 [7:20:51<11:22:26,  3.43it/s] 62%|██████▏   | 231018/371472 [7:20:51<11:38:54,  3.35it/s] 62%|██████▏   | 231019/371472 [7:20:51<11:29:25,  3.40it/s] 62%|██████▏   | 231020/371472 [7:20:51<11:52:17,  3.29it/s]                                                            {'loss': 2.7679, 'learning_rate': 4.4046952099808225e-07, 'epoch': 9.95}
 62%|██████▏   | 231020/371472 [7:20:51<11:52:17,  3.29it/s] 62%|██████▏   | 231021/371472 [7:20:52<11:21:56,  3.43it/s] 62%|██████▏   | 231022/371472 [7:20:52<11:36:19,  3.36it/s] 62%|██████▏   | 231023/371472 [7:20:52<11:08:15,  3.50it/s] 62%|██████▏   | 231024/371472 [7:20:53<10:56:47,  3.56it/s] 62%|██████▏   | 231025/371472 [7:20:53<10:49:15,  3.61it/s] 62%|██████▏   | 231026/371472 [7:20:53<11:52:47,  3.28it/s] 62%|██████▏   | 231027/371472 [7:20:54<11:46:25,  3.31it/s] 62%|██████▏   | 231028/371472 [7:20:54<12:03:10,  3.24it/s] 62%|██████▏   | 231029/371472 [7:20:54<12:00:44,  3.25it/s] 62%|██████▏   | 231030/371472 [7:20:54<11:31:34,  3.38it/s] 62%|██████▏   | 231031/371472 [7:20:55<11:15:28,  3.47it/s] 62%|██████▏   | 231032/371472 [7:20:55<12:15:16,  3.18it/s] 62%|██████▏   | 231033/371472 [7:20:55<11:33:22,  3.38it/s] 62%|██████▏   | 231034/371472 [7:20:56<11:31:24,  3.39it/s] 62%|██████▏   | 231035/371472 [7:20:56<11:05:53,  3.51it/s] 62%|██████▏   | 231036/371472 [7:20:56<11:03:19,  3.53it/s] 62%|██████▏   | 231037/371472 [7:20:56<11:04:33,  3.52it/s] 62%|██████▏   | 231038/371472 [7:20:57<10:59:23,  3.55it/s] 62%|██████▏   | 231039/371472 [7:20:57<11:10:51,  3.49it/s] 62%|██████▏   | 231040/371472 [7:20:57<11:36:42,  3.36it/s]                                                            {'loss': 2.9024, 'learning_rate': 4.4042103902260337e-07, 'epoch': 9.95}
 62%|██████▏   | 231040/371472 [7:20:57<11:36:42,  3.36it/s] 62%|██████▏   | 231041/371472 [7:20:58<11:43:25,  3.33it/s] 62%|██████▏   | 231042/371472 [7:20:58<12:12:16,  3.20it/s] 62%|██████▏   | 231043/371472 [7:20:58<11:17:52,  3.45it/s] 62%|██████▏   | 231044/371472 [7:20:59<11:35:12,  3.37it/s] 62%|██████▏   | 231045/371472 [7:20:59<11:09:33,  3.50it/s] 62%|██████▏   | 231046/371472 [7:20:59<11:25:54,  3.41it/s] 62%|██████▏   | 231047/371472 [7:20:59<11:20:00,  3.44it/s] 62%|██████▏   | 231048/371472 [7:21:00<11:24:20,  3.42it/s] 62%|██████▏   | 231049/371472 [7:21:00<11:42:08,  3.33it/s] 62%|██████▏   | 231050/371472 [7:21:00<11:22:37,  3.43it/s] 62%|██████▏   | 231051/371472 [7:21:01<10:54:04,  3.58it/s] 62%|██████▏   | 231052/371472 [7:21:01<11:18:41,  3.45it/s] 62%|██████▏   | 231053/371472 [7:21:01<11:02:10,  3.53it/s] 62%|██████▏   | 231054/371472 [7:21:01<11:26:45,  3.41it/s] 62%|██████▏   | 231055/371472 [7:21:02<11:59:29,  3.25it/s] 62%|██████▏   | 231056/371472 [7:21:02<11:59:49,  3.25it/s] 62%|██████▏   | 231057/371472 [7:21:02<11:29:44,  3.39it/s] 62%|██████▏   | 231058/371472 [7:21:03<12:01:38,  3.24it/s] 62%|██████▏   | 231059/371472 [7:21:03<11:27:21,  3.40it/s] 62%|██████▏   | 231060/371472 [7:21:03<11:39:09,  3.35it/s]                                                            {'loss': 2.8449, 'learning_rate': 4.4037255704712444e-07, 'epoch': 9.95}
 62%|██████▏   | 231060/371472 [7:21:03<11:39:09,  3.35it/s] 62%|██████▏   | 231061/371472 [7:21:04<11:48:35,  3.30it/s] 62%|██████▏   | 231062/371472 [7:21:04<12:15:50,  3.18it/s] 62%|██████▏   | 231063/371472 [7:21:04<12:30:43,  3.12it/s] 62%|██████▏   | 231064/371472 [7:21:05<12:09:54,  3.21it/s] 62%|██████▏   | 231065/371472 [7:21:05<11:35:12,  3.37it/s] 62%|██████▏   | 231066/371472 [7:21:05<11:48:06,  3.30it/s] 62%|██████▏   | 231067/371472 [7:21:05<11:17:31,  3.45it/s] 62%|██████▏   | 231068/371472 [7:21:06<11:23:21,  3.42it/s] 62%|██████▏   | 231069/371472 [7:21:06<11:16:10,  3.46it/s] 62%|██████▏   | 231070/371472 [7:21:06<11:08:00,  3.50it/s] 62%|██████▏   | 231071/371472 [7:21:07<11:26:10,  3.41it/s] 62%|██████▏   | 231072/371472 [7:21:07<11:28:33,  3.40it/s] 62%|██████▏   | 231073/371472 [7:21:07<11:54:54,  3.27it/s] 62%|██████▏   | 231074/371472 [7:21:08<12:49:01,  3.04it/s] 62%|██████▏   | 231075/371472 [7:21:08<12:08:49,  3.21it/s] 62%|██████▏   | 231076/371472 [7:21:08<12:12:59,  3.19it/s] 62%|██████▏   | 231077/371472 [7:21:08<12:03:03,  3.24it/s] 62%|██████▏   | 231078/371472 [7:21:09<11:34:30,  3.37it/s] 62%|██████▏   | 231079/371472 [7:21:09<11:55:52,  3.27it/s] 62%|██████▏   | 231080/371472 [7:21:09<12:02:16,  3.24it/s]                                                            {'loss': 2.6699, 'learning_rate': 4.403240750716456e-07, 'epoch': 9.95}
 62%|██████▏   | 231080/371472 [7:21:09<12:02:16,  3.24it/s] 62%|██████▏   | 231081/371472 [7:21:10<12:24:32,  3.14it/s] 62%|██████▏   | 231082/371472 [7:21:10<11:45:19,  3.32it/s] 62%|██████▏   | 231083/371472 [7:21:10<11:49:18,  3.30it/s] 62%|██████▏   | 231084/371472 [7:21:11<11:40:40,  3.34it/s] 62%|██████▏   | 231085/371472 [7:21:11<11:23:45,  3.42it/s] 62%|██████▏   | 231086/371472 [7:21:11<11:49:32,  3.30it/s] 62%|██████▏   | 231087/371472 [7:21:12<12:39:37,  3.08it/s] 62%|██████▏   | 231088/371472 [7:21:12<12:18:21,  3.17it/s] 62%|██████▏   | 231089/371472 [7:21:12<12:00:57,  3.25it/s] 62%|██████▏   | 231090/371472 [7:21:12<12:20:49,  3.16it/s] 62%|██████▏   | 231091/371472 [7:21:13<12:27:09,  3.13it/s] 62%|██████▏   | 231092/371472 [7:21:13<11:34:59,  3.37it/s] 62%|██████▏   | 231093/371472 [7:21:13<12:38:49,  3.08it/s] 62%|██████▏   | 231094/371472 [7:21:14<11:58:43,  3.26it/s] 62%|██████▏   | 231095/371472 [7:21:14<12:27:48,  3.13it/s] 62%|██████▏   | 231096/371472 [7:21:14<12:26:08,  3.14it/s] 62%|██████▏   | 231097/371472 [7:21:15<12:19:28,  3.16it/s] 62%|██████▏   | 231098/371472 [7:21:15<12:01:43,  3.24it/s] 62%|██████▏   | 231099/371472 [7:21:15<12:19:31,  3.16it/s] 62%|██████▏   | 231100/371472 [7:21:16<12:00:00,  3.25it/s]                                                            {'loss': 2.8583, 'learning_rate': 4.4027559309616664e-07, 'epoch': 9.95}
 62%|██████▏   | 231100/371472 [7:21:16<12:00:00,  3.25it/s] 62%|██████▏   | 231101/371472 [7:21:16<11:21:29,  3.43it/s] 62%|██████▏   | 231102/371472 [7:21:16<11:05:45,  3.51it/s] 62%|██████▏   | 231103/371472 [7:21:16<10:47:18,  3.61it/s] 62%|██████▏   | 231104/371472 [7:21:17<10:51:43,  3.59it/s] 62%|██████▏   | 231105/371472 [7:21:17<11:06:54,  3.51it/s] 62%|██████▏   | 231106/371472 [7:21:17<10:46:40,  3.62it/s] 62%|██████▏   | 231107/371472 [7:21:17<10:57:43,  3.56it/s] 62%|██████▏   | 231108/371472 [7:21:18<10:35:32,  3.68it/s] 62%|██████▏   | 231109/371472 [7:21:18<10:45:09,  3.63it/s] 62%|██████▏   | 231110/371472 [7:21:18<10:43:11,  3.64it/s] 62%|██████▏   | 231111/371472 [7:21:19<10:43:10,  3.64it/s] 62%|██████▏   | 231112/371472 [7:21:19<10:57:43,  3.56it/s] 62%|██████▏   | 231113/371472 [7:21:19<10:33:58,  3.69it/s] 62%|██████▏   | 231114/371472 [7:21:19<10:39:56,  3.66it/s] 62%|██████▏   | 231115/371472 [7:21:20<10:42:50,  3.64it/s] 62%|██████▏   | 231116/371472 [7:21:20<10:36:19,  3.68it/s] 62%|██████▏   | 231117/371472 [7:21:20<10:34:47,  3.69it/s] 62%|██████▏   | 231118/371472 [7:21:20<10:36:53,  3.67it/s] 62%|██████▏   | 231119/371472 [7:21:21<11:42:54,  3.33it/s] 62%|██████▏   | 231120/371472 [7:21:21<11:25:34,  3.41it/s]                                                            {'loss': 2.9352, 'learning_rate': 4.402271111206878e-07, 'epoch': 9.95}
 62%|██████▏   | 231120/371472 [7:21:21<11:25:34,  3.41it/s] 62%|██████▏   | 231121/371472 [7:21:21<11:17:53,  3.45it/s] 62%|██████▏   | 231122/371472 [7:21:22<11:06:23,  3.51it/s] 62%|██████▏   | 231123/371472 [7:21:22<10:50:49,  3.59it/s] 62%|██████▏   | 231124/371472 [7:21:22<10:38:20,  3.66it/s] 62%|██████▏   | 231125/371472 [7:21:22<10:10:38,  3.83it/s] 62%|██████▏   | 231126/371472 [7:21:23<10:27:11,  3.73it/s] 62%|██████▏   | 231127/371472 [7:21:23<10:26:39,  3.73it/s] 62%|██████▏   | 231128/371472 [7:21:23<10:25:26,  3.74it/s] 62%|██████▏   | 231129/371472 [7:21:24<10:52:08,  3.59it/s] 62%|██████▏   | 231130/371472 [7:21:24<10:31:27,  3.70it/s] 62%|██████▏   | 231131/371472 [7:21:24<11:18:37,  3.45it/s] 62%|██████▏   | 231132/371472 [7:21:24<11:38:21,  3.35it/s] 62%|██████▏   | 231133/371472 [7:21:25<11:37:43,  3.35it/s] 62%|██████▏   | 231134/371472 [7:21:25<11:26:35,  3.41it/s] 62%|██████▏   | 231135/371472 [7:21:25<11:43:43,  3.32it/s] 62%|██████▏   | 231136/371472 [7:21:26<11:49:43,  3.30it/s] 62%|██████▏   | 231137/371472 [7:21:26<12:08:23,  3.21it/s] 62%|██████▏   | 231138/371472 [7:21:26<11:58:14,  3.26it/s] 62%|██████▏   | 231139/371472 [7:21:27<11:41:41,  3.33it/s] 62%|██████▏   | 231140/371472 [7:21:27<11:44:25,  3.32it/s]                                                            {'loss': 2.6435, 'learning_rate': 4.401786291452089e-07, 'epoch': 9.96}
 62%|██████▏   | 231140/371472 [7:21:27<11:44:25,  3.32it/s] 62%|██████▏   | 231141/371472 [7:21:27<11:19:15,  3.44it/s] 62%|██████▏   | 231142/371472 [7:21:27<12:05:24,  3.22it/s] 62%|██████▏   | 231143/371472 [7:21:28<11:44:11,  3.32it/s] 62%|██████▏   | 231144/371472 [7:21:28<11:20:14,  3.44it/s] 62%|██████▏   | 231145/371472 [7:21:28<11:39:04,  3.35it/s] 62%|██████▏   | 231146/371472 [7:21:29<11:34:07,  3.37it/s] 62%|██████▏   | 231147/371472 [7:21:29<11:27:40,  3.40it/s] 62%|██████▏   | 231148/371472 [7:21:29<11:10:55,  3.49it/s] 62%|██████▏   | 231149/371472 [7:21:29<10:46:25,  3.62it/s] 62%|██████▏   | 231150/371472 [7:21:30<10:29:32,  3.71it/s] 62%|██████▏   | 231151/371472 [7:21:30<11:28:29,  3.40it/s] 62%|██████▏   | 231152/371472 [7:21:30<11:08:09,  3.50it/s] 62%|██████▏   | 231153/371472 [7:21:31<11:46:32,  3.31it/s] 62%|██████▏   | 231154/371472 [7:21:31<11:43:10,  3.33it/s] 62%|██████▏   | 231155/371472 [7:21:31<11:35:15,  3.36it/s] 62%|██████▏   | 231156/371472 [7:21:32<11:43:05,  3.33it/s] 62%|██████▏   | 231157/371472 [7:21:32<11:38:56,  3.35it/s] 62%|██████▏   | 231158/371472 [7:21:32<11:28:04,  3.40it/s] 62%|██████▏   | 231159/371472 [7:21:32<10:59:52,  3.54it/s] 62%|██████▏   | 231160/371472 [7:21:33<10:40:39,  3.65it/s]                                                            {'loss': 2.8679, 'learning_rate': 4.4013014716973e-07, 'epoch': 9.96}
 62%|██████▏   | 231160/371472 [7:21:33<10:40:39,  3.65it/s] 62%|██████▏   | 231161/371472 [7:21:33<11:25:35,  3.41it/s] 62%|██████▏   | 231162/371472 [7:21:33<11:20:32,  3.44it/s] 62%|██████▏   | 231163/371472 [7:21:34<12:36:00,  3.09it/s] 62%|██████▏   | 231164/371472 [7:21:34<12:04:36,  3.23it/s] 62%|██████▏   | 231165/371472 [7:21:34<11:50:48,  3.29it/s] 62%|██████▏   | 231166/371472 [7:21:35<14:00:43,  2.78it/s] 62%|██████▏   | 231167/371472 [7:21:35<12:52:54,  3.03it/s] 62%|██████▏   | 231168/371472 [7:21:35<12:37:01,  3.09it/s] 62%|██████▏   | 231169/371472 [7:21:36<11:55:18,  3.27it/s] 62%|██████▏   | 231170/371472 [7:21:36<11:24:15,  3.42it/s] 62%|██████▏   | 231171/371472 [7:21:36<10:54:54,  3.57it/s] 62%|██████▏   | 231172/371472 [7:21:36<10:45:39,  3.62it/s] 62%|██████▏   | 231173/371472 [7:21:37<10:39:58,  3.65it/s] 62%|██████▏   | 231174/371472 [7:21:37<10:53:42,  3.58it/s] 62%|██████▏   | 231175/371472 [7:21:37<10:43:10,  3.64it/s] 62%|██████▏   | 231176/371472 [7:21:37<10:36:25,  3.67it/s] 62%|██████▏   | 231177/371472 [7:21:38<10:45:30,  3.62it/s] 62%|██████▏   | 231178/371472 [7:21:38<10:41:29,  3.65it/s] 62%|██████▏   | 231179/371472 [7:21:38<10:36:13,  3.68it/s] 62%|██████▏   | 231180/371472 [7:21:39<10:34:02,  3.69it/s]                                                            {'loss': 2.953, 'learning_rate': 4.400816651942511e-07, 'epoch': 9.96}
 62%|██████▏   | 231180/371472 [7:21:39<10:34:02,  3.69it/s] 62%|██████▏   | 231181/371472 [7:21:39<10:26:44,  3.73it/s] 62%|██████▏   | 231182/371472 [7:21:39<10:57:47,  3.55it/s] 62%|██████▏   | 231183/371472 [7:21:39<10:40:39,  3.65it/s] 62%|██████▏   | 231184/371472 [7:21:40<10:59:51,  3.54it/s] 62%|██████▏   | 231185/371472 [7:21:40<11:09:44,  3.49it/s] 62%|██████▏   | 231186/371472 [7:21:40<10:54:21,  3.57it/s] 62%|██████▏   | 231187/371472 [7:21:41<12:12:22,  3.19it/s] 62%|██████▏   | 231188/371472 [7:21:41<11:46:41,  3.31it/s] 62%|██████▏   | 231189/371472 [7:21:41<11:42:59,  3.33it/s] 62%|██████▏   | 231190/371472 [7:21:41<11:20:05,  3.44it/s] 62%|██████▏   | 231191/371472 [7:21:42<11:09:40,  3.49it/s] 62%|██████▏   | 231192/371472 [7:21:42<10:52:08,  3.59it/s] 62%|██████▏   | 231193/371472 [7:21:42<10:50:25,  3.59it/s] 62%|██████▏   | 231194/371472 [7:21:43<10:58:41,  3.55it/s] 62%|██████▏   | 231195/371472 [7:21:43<10:51:13,  3.59it/s] 62%|██████▏   | 231196/371472 [7:21:43<10:52:43,  3.58it/s] 62%|██████▏   | 231197/371472 [7:21:43<11:42:38,  3.33it/s] 62%|██████▏   | 231198/371472 [7:21:44<11:27:57,  3.40it/s] 62%|██████▏   | 231199/371472 [7:21:44<11:35:01,  3.36it/s] 62%|██████▏   | 231200/371472 [7:21:44<12:18:27,  3.17it/s]                                                            {'loss': 2.7149, 'learning_rate': 4.4003318321877226e-07, 'epoch': 9.96}
 62%|██████▏   | 231200/371472 [7:21:44<12:18:27,  3.17it/s] 62%|██████▏   | 231201/371472 [7:21:45<11:35:59,  3.36it/s] 62%|██████▏   | 231202/371472 [7:21:45<11:11:03,  3.48it/s] 62%|██████▏   | 231203/371472 [7:21:45<11:43:31,  3.32it/s] 62%|██████▏   | 231204/371472 [7:21:46<11:23:55,  3.42it/s] 62%|██████▏   | 231205/371472 [7:21:46<11:02:42,  3.53it/s] 62%|██████▏   | 231206/371472 [7:21:46<11:25:39,  3.41it/s] 62%|██████▏   | 231207/371472 [7:21:46<11:57:15,  3.26it/s] 62%|██████▏   | 231208/371472 [7:21:47<11:40:26,  3.34it/s] 62%|██████▏   | 231209/371472 [7:21:47<11:30:13,  3.39it/s] 62%|██████▏   | 231210/371472 [7:21:47<11:06:04,  3.51it/s] 62%|██████▏   | 231211/371472 [7:21:48<12:02:51,  3.23it/s] 62%|██████▏   | 231212/371472 [7:21:48<12:00:11,  3.25it/s] 62%|██████▏   | 231213/371472 [7:21:48<11:32:34,  3.38it/s] 62%|██████▏   | 231214/371472 [7:21:48<11:16:53,  3.45it/s] 62%|██████▏   | 231215/371472 [7:21:49<10:50:53,  3.59it/s] 62%|██████▏   | 231216/371472 [7:21:49<10:46:07,  3.62it/s] 62%|██████▏   | 231217/371472 [7:21:49<11:19:34,  3.44it/s] 62%|██████▏   | 231218/371472 [7:21:50<11:24:35,  3.41it/s] 62%|██████▏   | 231219/371472 [7:21:50<12:13:41,  3.19it/s] 62%|██████▏   | 231220/371472 [7:21:50<12:41:22,  3.07it/s]                                                            {'loss': 2.906, 'learning_rate': 4.399847012432933e-07, 'epoch': 9.96}
 62%|██████▏   | 231220/371472 [7:21:50<12:41:22,  3.07it/s] 62%|██████▏   | 231221/371472 [7:21:51<12:35:39,  3.09it/s] 62%|██████▏   | 231222/371472 [7:21:51<11:50:33,  3.29it/s] 62%|██████▏   | 231223/371472 [7:21:51<11:47:18,  3.30it/s] 62%|██████▏   | 231224/371472 [7:21:51<11:33:48,  3.37it/s] 62%|██████▏   | 231225/371472 [7:21:52<11:08:02,  3.50it/s] 62%|██████▏   | 231226/371472 [7:21:52<10:53:51,  3.57it/s] 62%|██████▏   | 231227/371472 [7:21:52<10:38:41,  3.66it/s] 62%|██████▏   | 231228/371472 [7:21:53<10:35:52,  3.68it/s] 62%|██████▏   | 231229/371472 [7:21:53<10:12:01,  3.82it/s] 62%|██████▏   | 231230/371472 [7:21:53<10:00:16,  3.89it/s] 62%|██████▏   | 231231/371472 [7:21:53<10:21:32,  3.76it/s] 62%|██████▏   | 231232/371472 [7:21:54<10:22:39,  3.75it/s] 62%|██████▏   | 231233/371472 [7:21:54<10:32:29,  3.70it/s] 62%|██████▏   | 231234/371472 [7:21:54<10:46:57,  3.61it/s] 62%|██████▏   | 231235/371472 [7:21:54<10:47:33,  3.61it/s] 62%|██████▏   | 231236/371472 [7:21:55<11:03:07,  3.52it/s] 62%|██████▏   | 231237/371472 [7:21:55<11:03:51,  3.52it/s] 62%|██████▏   | 231238/371472 [7:21:55<12:07:22,  3.21it/s] 62%|██████▏   | 231239/371472 [7:21:56<12:36:29,  3.09it/s] 62%|██████▏   | 231240/371472 [7:21:56<13:02:55,  2.99it/s]                                                            {'loss': 2.6882, 'learning_rate': 4.3993621926781446e-07, 'epoch': 9.96}
 62%|██████▏   | 231240/371472 [7:21:56<13:02:55,  2.99it/s] 62%|██████▏   | 231241/371472 [7:21:56<12:13:35,  3.19it/s] 62%|██████▏   | 231242/371472 [7:21:57<12:01:27,  3.24it/s] 62%|██████▏   | 231243/371472 [7:21:57<11:22:42,  3.42it/s] 62%|██████▏   | 231244/371472 [7:21:57<11:44:45,  3.32it/s] 62%|██████▏   | 231245/371472 [7:21:58<11:53:19,  3.28it/s] 62%|██████▏   | 231246/371472 [7:21:58<11:24:30,  3.41it/s] 62%|██████▏   | 231247/371472 [7:21:58<11:10:48,  3.48it/s] 62%|██████▏   | 231248/371472 [7:21:58<10:48:00,  3.61it/s] 62%|██████▏   | 231249/371472 [7:21:59<10:54:14,  3.57it/s] 62%|██████▏   | 231250/371472 [7:21:59<10:32:54,  3.69it/s] 62%|██████▏   | 231251/371472 [7:21:59<10:17:21,  3.79it/s] 62%|██████▏   | 231252/371472 [7:21:59<10:28:25,  3.72it/s] 62%|██████▏   | 231253/371472 [7:22:00<10:14:23,  3.80it/s] 62%|██████▏   | 231254/371472 [7:22:00<10:58:31,  3.55it/s] 62%|██████▏   | 231255/371472 [7:22:00<10:49:33,  3.60it/s] 62%|██████▏   | 231256/371472 [7:22:01<11:06:37,  3.51it/s] 62%|██████▏   | 231257/371472 [7:22:01<10:53:33,  3.58it/s] 62%|██████▏   | 231258/371472 [7:22:01<10:44:02,  3.63it/s] 62%|██████▏   | 231259/371472 [7:22:01<10:31:09,  3.70it/s] 62%|██████▏   | 231260/371472 [7:22:02<10:25:13,  3.74it/s]                                                            {'loss': 2.8631, 'learning_rate': 4.3988773729233553e-07, 'epoch': 9.96}
 62%|██████▏   | 231260/371472 [7:22:02<10:25:13,  3.74it/s] 62%|██████▏   | 231261/371472 [7:22:02<10:25:20,  3.74it/s] 62%|██████▏   | 231262/371472 [7:22:02<10:57:05,  3.56it/s] 62%|██████▏   | 231263/371472 [7:22:02<10:59:00,  3.55it/s] 62%|██████▏   | 231264/371472 [7:22:03<11:25:51,  3.41it/s] 62%|██████▏   | 231265/371472 [7:22:03<11:33:34,  3.37it/s] 62%|██████▏   | 231266/371472 [7:22:03<11:08:32,  3.50it/s] 62%|██████▏   | 231267/371472 [7:22:04<11:01:35,  3.53it/s] 62%|██████▏   | 231268/371472 [7:22:04<16:32:53,  2.35it/s] 62%|██████▏   | 231269/371472 [7:22:05<14:46:08,  2.64it/s] 62%|██████▏   | 231270/371472 [7:22:05<13:32:09,  2.88it/s] 62%|██████▏   | 231271/371472 [7:22:05<13:29:10,  2.89it/s] 62%|██████▏   | 231272/371472 [7:22:06<12:24:45,  3.14it/s] 62%|██████▏   | 231273/371472 [7:22:06<11:59:19,  3.25it/s] 62%|██████▏   | 231274/371472 [7:22:06<12:17:16,  3.17it/s] 62%|██████▏   | 231275/371472 [7:22:06<11:43:32,  3.32it/s] 62%|██████▏   | 231276/371472 [7:22:07<11:47:19,  3.30it/s] 62%|██████▏   | 231277/371472 [7:22:07<11:42:32,  3.33it/s] 62%|██████▏   | 231278/371472 [7:22:07<10:58:52,  3.55it/s] 62%|██████▏   | 231279/371472 [7:22:08<10:49:12,  3.60it/s] 62%|██████▏   | 231280/371472 [7:22:08<11:00:02,  3.54it/s]                                                            {'loss': 2.886, 'learning_rate': 4.3983925531685665e-07, 'epoch': 9.96}
 62%|██████▏   | 231280/371472 [7:22:08<11:00:02,  3.54it/s] 62%|██████▏   | 231281/371472 [7:22:08<10:54:32,  3.57it/s] 62%|██████▏   | 231282/371472 [7:22:08<10:29:05,  3.71it/s] 62%|██████▏   | 231283/371472 [7:22:09<11:05:46,  3.51it/s] 62%|██████▏   | 231284/371472 [7:22:09<11:22:58,  3.42it/s] 62%|██████▏   | 231285/371472 [7:22:09<10:51:47,  3.58it/s] 62%|██████▏   | 231286/371472 [7:22:09<10:32:18,  3.70it/s] 62%|██████▏   | 231287/371472 [7:22:10<11:58:01,  3.25it/s] 62%|██████▏   | 231288/371472 [7:22:10<12:10:07,  3.20it/s] 62%|██████▏   | 231289/371472 [7:22:10<11:25:27,  3.41it/s] 62%|██████▏   | 231290/371472 [7:22:11<11:15:00,  3.46it/s] 62%|██████▏   | 231291/371472 [7:22:11<11:26:18,  3.40it/s] 62%|██████▏   | 231292/371472 [7:22:11<11:47:28,  3.30it/s] 62%|██████▏   | 231293/371472 [7:22:12<11:43:12,  3.32it/s] 62%|██████▏   | 231294/371472 [7:22:12<11:25:21,  3.41it/s] 62%|██████▏   | 231295/371472 [7:22:12<12:10:00,  3.20it/s] 62%|██████▏   | 231296/371472 [7:22:13<11:43:10,  3.32it/s] 62%|██████▏   | 231297/371472 [7:22:13<11:49:11,  3.29it/s] 62%|██████▏   | 231298/371472 [7:22:13<11:12:06,  3.48it/s] 62%|██████▏   | 231299/371472 [7:22:13<11:10:26,  3.48it/s] 62%|██████▏   | 231300/371472 [7:22:14<11:23:02,  3.42it/s]                                                            {'loss': 3.0338, 'learning_rate': 4.397907733413777e-07, 'epoch': 9.96}
 62%|██████▏   | 231300/371472 [7:22:14<11:23:02,  3.42it/s] 62%|██████▏   | 231301/371472 [7:22:14<11:25:01,  3.41it/s] 62%|██████▏   | 231302/371472 [7:22:14<10:59:18,  3.54it/s] 62%|██████▏   | 231303/371472 [7:22:15<10:54:19,  3.57it/s] 62%|██████▏   | 231304/371472 [7:22:15<11:09:18,  3.49it/s] 62%|██████▏   | 231305/371472 [7:22:15<10:39:08,  3.66it/s] 62%|██████▏   | 231306/371472 [7:22:15<11:18:19,  3.44it/s] 62%|██████▏   | 231307/371472 [7:22:16<11:20:29,  3.43it/s] 62%|██████▏   | 231308/371472 [7:22:16<11:04:19,  3.52it/s] 62%|██████▏   | 231309/371472 [7:22:16<11:00:30,  3.54it/s] 62%|██████▏   | 231310/371472 [7:22:17<10:56:37,  3.56it/s] 62%|██████▏   | 231311/371472 [7:22:17<10:54:44,  3.57it/s] 62%|██████▏   | 231312/371472 [7:22:17<11:09:47,  3.49it/s] 62%|██████▏   | 231313/371472 [7:22:17<11:15:17,  3.46it/s] 62%|██████▏   | 231314/371472 [7:22:18<11:07:10,  3.50it/s] 62%|██████▏   | 231315/371472 [7:22:18<10:52:31,  3.58it/s] 62%|██████▏   | 231316/371472 [7:22:18<10:32:55,  3.69it/s] 62%|██████▏   | 231317/371472 [7:22:19<11:45:29,  3.31it/s] 62%|██████▏   | 231318/371472 [7:22:19<11:48:15,  3.30it/s] 62%|██████▏   | 231319/371472 [7:22:19<12:24:25,  3.14it/s] 62%|██████▏   | 231320/371472 [7:22:19<11:39:39,  3.34it/s]                                                            {'loss': 2.8277, 'learning_rate': 4.397422913658988e-07, 'epoch': 9.96}
 62%|██████▏   | 231320/371472 [7:22:19<11:39:39,  3.34it/s] 62%|██████▏   | 231321/371472 [7:22:20<11:25:57,  3.41it/s] 62%|██████▏   | 231322/371472 [7:22:20<11:25:20,  3.41it/s] 62%|██████▏   | 231323/371472 [7:22:20<11:04:12,  3.52it/s] 62%|██████▏   | 231324/371472 [7:22:21<11:03:27,  3.52it/s] 62%|██████▏   | 231325/371472 [7:22:21<11:22:05,  3.42it/s] 62%|██████▏   | 231326/371472 [7:22:21<11:35:56,  3.36it/s] 62%|██████▏   | 231327/371472 [7:22:21<11:00:51,  3.53it/s] 62%|██████▏   | 231328/371472 [7:22:22<11:09:22,  3.49it/s] 62%|██████▏   | 231329/371472 [7:22:22<10:44:39,  3.62it/s] 62%|██████▏   | 231330/371472 [7:22:22<11:03:47,  3.52it/s] 62%|██████▏   | 231331/371472 [7:22:23<11:34:46,  3.36it/s] 62%|██████▏   | 231332/371472 [7:22:23<11:13:51,  3.47it/s] 62%|██████▏   | 231333/371472 [7:22:23<11:29:13,  3.39it/s] 62%|██████▏   | 231334/371472 [7:22:24<11:46:57,  3.30it/s] 62%|██████▏   | 231335/371472 [7:22:24<12:35:57,  3.09it/s] 62%|██████▏   | 231336/371472 [7:22:24<11:54:07,  3.27it/s] 62%|██████▏   | 231337/371472 [7:22:25<13:06:08,  2.97it/s] 62%|██████▏   | 231338/371472 [7:22:25<12:41:45,  3.07it/s] 62%|██████▏   | 231339/371472 [7:22:25<12:28:01,  3.12it/s] 62%|██████▏   | 231340/371472 [7:22:25<11:59:21,  3.25it/s]                                                            {'loss': 2.7823, 'learning_rate': 4.396938093904199e-07, 'epoch': 9.96}
 62%|██████▏   | 231340/371472 [7:22:25<11:59:21,  3.25it/s] 62%|██████▏   | 231341/371472 [7:22:26<11:51:48,  3.28it/s] 62%|██████▏   | 231342/371472 [7:22:26<11:29:45,  3.39it/s] 62%|██████▏   | 231343/371472 [7:22:26<11:08:32,  3.49it/s] 62%|██████▏   | 231344/371472 [7:22:27<10:55:56,  3.56it/s] 62%|██████▏   | 231345/371472 [7:22:27<10:54:47,  3.57it/s] 62%|██████▏   | 231346/371472 [7:22:27<10:41:35,  3.64it/s] 62%|██████▏   | 231347/371472 [7:22:27<10:41:00,  3.64it/s] 62%|██████▏   | 231348/371472 [7:22:28<10:37:15,  3.66it/s] 62%|██████▏   | 231349/371472 [7:22:28<10:19:22,  3.77it/s] 62%|██████▏   | 231350/371472 [7:22:28<11:02:31,  3.52it/s] 62%|██████▏   | 231351/371472 [7:22:29<11:10:17,  3.48it/s] 62%|██████▏   | 231352/371472 [7:22:29<10:54:20,  3.57it/s] 62%|██████▏   | 231353/371472 [7:22:29<11:05:21,  3.51it/s] 62%|██████▏   | 231354/371472 [7:22:29<10:53:42,  3.57it/s] 62%|██████▏   | 231355/371472 [7:22:30<10:44:28,  3.62it/s] 62%|██████▏   | 231356/371472 [7:22:30<10:39:21,  3.65it/s] 62%|██████▏   | 231357/371472 [7:22:30<10:40:40,  3.64it/s] 62%|██████▏   | 231358/371472 [7:22:30<11:00:38,  3.53it/s] 62%|██████▏   | 231359/371472 [7:22:31<12:40:25,  3.07it/s] 62%|██████▏   | 231360/371472 [7:22:31<12:04:39,  3.22it/s]                                                            {'loss': 2.9588, 'learning_rate': 4.39645327414941e-07, 'epoch': 9.97}
 62%|██████▏   | 231360/371472 [7:22:31<12:04:39,  3.22it/s] 62%|██████▏   | 231361/371472 [7:22:31<11:23:24,  3.42it/s] 62%|██████▏   | 231362/371472 [7:22:32<11:11:16,  3.48it/s] 62%|██████▏   | 231363/371472 [7:22:32<11:21:52,  3.42it/s] 62%|██████▏   | 231364/371472 [7:22:32<11:36:31,  3.35it/s] 62%|██████▏   | 231365/371472 [7:22:33<11:03:52,  3.52it/s] 62%|██████▏   | 231366/371472 [7:22:33<11:15:37,  3.46it/s] 62%|██████▏   | 231367/371472 [7:22:33<11:03:39,  3.52it/s] 62%|██████▏   | 231368/371472 [7:22:33<10:54:39,  3.57it/s] 62%|██████▏   | 231369/371472 [7:22:34<10:53:31,  3.57it/s] 62%|██████▏   | 231370/371472 [7:22:34<11:49:49,  3.29it/s] 62%|██████▏   | 231371/371472 [7:22:34<11:52:36,  3.28it/s] 62%|██████▏   | 231372/371472 [7:22:35<12:03:54,  3.23it/s] 62%|██████▏   | 231373/371472 [7:22:35<12:34:05,  3.10it/s] 62%|██████▏   | 231374/371472 [7:22:35<13:10:54,  2.95it/s] 62%|██████▏   | 231375/371472 [7:22:36<12:48:09,  3.04it/s] 62%|██████▏   | 231376/371472 [7:22:36<11:59:52,  3.24it/s] 62%|██████▏   | 231377/371472 [7:22:36<11:49:58,  3.29it/s] 62%|██████▏   | 231378/371472 [7:22:37<13:37:30,  2.86it/s] 62%|██████▏   | 231379/371472 [7:22:37<12:30:36,  3.11it/s] 62%|██████▏   | 231380/371472 [7:22:37<11:49:26,  3.29it/s]                                                            {'loss': 2.9262, 'learning_rate': 4.3959684543946217e-07, 'epoch': 9.97}
 62%|██████▏   | 231380/371472 [7:22:37<11:49:26,  3.29it/s] 62%|██████▏   | 231381/371472 [7:22:38<11:38:10,  3.34it/s] 62%|██████▏   | 231382/371472 [7:22:38<11:07:41,  3.50it/s] 62%|██████▏   | 231383/371472 [7:22:38<10:43:13,  3.63it/s] 62%|██████▏   | 231384/371472 [7:22:38<11:25:05,  3.41it/s] 62%|██████▏   | 231385/371472 [7:22:39<11:12:41,  3.47it/s] 62%|██████▏   | 231386/371472 [7:22:39<11:03:14,  3.52it/s] 62%|██████▏   | 231387/371472 [7:22:39<13:08:29,  2.96it/s] 62%|██████▏   | 231388/371472 [7:22:40<12:15:26,  3.17it/s] 62%|██████▏   | 231389/371472 [7:22:40<12:30:05,  3.11it/s] 62%|██████▏   | 231390/371472 [7:22:40<12:00:43,  3.24it/s] 62%|██████▏   | 231391/371472 [7:22:41<12:11:38,  3.19it/s] 62%|██████▏   | 231392/371472 [7:22:41<12:19:52,  3.16it/s] 62%|██████▏   | 231393/371472 [7:22:41<11:51:43,  3.28it/s] 62%|██████▏   | 231394/371472 [7:22:42<11:59:09,  3.25it/s] 62%|██████▏   | 231395/371472 [7:22:42<12:43:25,  3.06it/s] 62%|██████▏   | 231396/371472 [7:22:42<12:36:00,  3.09it/s] 62%|██████▏   | 231397/371472 [7:22:42<12:02:50,  3.23it/s] 62%|██████▏   | 231398/371472 [7:22:43<14:00:29,  2.78it/s] 62%|██████▏   | 231399/371472 [7:22:43<12:55:48,  3.01it/s] 62%|██████▏   | 231400/371472 [7:22:43<12:04:07,  3.22it/s]                                                            {'loss': 2.8163, 'learning_rate': 4.3954836346398324e-07, 'epoch': 9.97}
 62%|██████▏   | 231400/371472 [7:22:43<12:04:07,  3.22it/s] 62%|██████▏   | 231401/371472 [7:22:44<12:11:21,  3.19it/s] 62%|██████▏   | 231402/371472 [7:22:44<11:59:56,  3.24it/s] 62%|██████▏   | 231403/371472 [7:22:44<11:39:51,  3.34it/s] 62%|██████▏   | 231404/371472 [7:22:45<11:38:32,  3.34it/s] 62%|██████▏   | 231405/371472 [7:22:45<11:48:46,  3.29it/s] 62%|██████▏   | 231406/371472 [7:22:45<11:47:10,  3.30it/s] 62%|██████▏   | 231407/371472 [7:22:46<11:21:55,  3.42it/s] 62%|██████▏   | 231408/371472 [7:22:46<10:53:49,  3.57it/s] 62%|██████▏   | 231409/371472 [7:22:46<12:19:02,  3.16it/s] 62%|██████▏   | 231410/371472 [7:22:47<12:03:19,  3.23it/s] 62%|██████▏   | 231411/371472 [7:22:47<11:56:02,  3.26it/s] 62%|██████▏   | 231412/371472 [7:22:47<11:27:21,  3.40it/s] 62%|██████▏   | 231413/371472 [7:22:47<11:08:10,  3.49it/s] 62%|██████▏   | 231414/371472 [7:22:48<10:53:20,  3.57it/s] 62%|██████▏   | 231415/371472 [7:22:48<11:13:50,  3.46it/s] 62%|██████▏   | 231416/371472 [7:22:48<10:52:05,  3.58it/s] 62%|██████▏   | 231417/371472 [7:22:48<10:40:55,  3.64it/s] 62%|██████▏   | 231418/371472 [7:22:49<11:10:16,  3.48it/s] 62%|██████▏   | 231419/371472 [7:22:49<10:51:25,  3.58it/s] 62%|██████▏   | 231420/371472 [7:22:49<11:15:36,  3.45it/s]                                                            {'loss': 2.8644, 'learning_rate': 4.3949988148850437e-07, 'epoch': 9.97}
 62%|██████▏   | 231420/371472 [7:22:49<11:15:36,  3.45it/s] 62%|██████▏   | 231421/371472 [7:22:50<11:20:38,  3.43it/s] 62%|██████▏   | 231422/371472 [7:22:50<10:54:55,  3.56it/s] 62%|██████▏   | 231423/371472 [7:22:50<11:20:34,  3.43it/s] 62%|██████▏   | 231424/371472 [7:22:51<12:04:01,  3.22it/s] 62%|██████▏   | 231425/371472 [7:22:51<11:31:35,  3.37it/s] 62%|██████▏   | 231426/371472 [7:22:51<11:19:34,  3.43it/s] 62%|██████▏   | 231427/371472 [7:22:51<10:44:37,  3.62it/s] 62%|██████▏   | 231428/371472 [7:22:52<11:40:31,  3.33it/s] 62%|██████▏   | 231429/371472 [7:22:52<11:25:18,  3.41it/s] 62%|██████▏   | 231430/371472 [7:22:52<11:12:41,  3.47it/s] 62%|██████▏   | 231431/371472 [7:22:53<11:05:04,  3.51it/s] 62%|██████▏   | 231432/371472 [7:22:53<12:34:45,  3.09it/s] 62%|██████▏   | 231433/371472 [7:22:53<12:18:10,  3.16it/s] 62%|██████▏   | 231434/371472 [7:22:53<11:34:58,  3.36it/s] 62%|██████▏   | 231435/371472 [7:22:54<11:27:06,  3.40it/s] 62%|██████▏   | 231436/371472 [7:22:54<11:01:41,  3.53it/s] 62%|██████▏   | 231437/371472 [7:22:54<11:03:43,  3.52it/s] 62%|██████▏   | 231438/371472 [7:22:55<11:03:31,  3.52it/s] 62%|██████▏   | 231439/371472 [7:22:55<11:31:48,  3.37it/s] 62%|██████▏   | 231440/371472 [7:22:55<11:22:32,  3.42it/s]                                                            {'loss': 2.8823, 'learning_rate': 4.3945139951302544e-07, 'epoch': 9.97}
 62%|██████▏   | 231440/371472 [7:22:55<11:22:32,  3.42it/s] 62%|██████▏   | 231441/371472 [7:22:56<12:08:36,  3.20it/s] 62%|██████▏   | 231442/371472 [7:22:56<11:28:15,  3.39it/s] 62%|██████▏   | 231443/371472 [7:22:56<11:03:41,  3.52it/s] 62%|██████▏   | 231444/371472 [7:22:56<10:49:04,  3.60it/s] 62%|██████▏   | 231445/371472 [7:22:57<10:40:08,  3.65it/s] 62%|██████▏   | 231446/371472 [7:22:57<10:38:57,  3.65it/s] 62%|██████▏   | 231447/371472 [7:22:57<11:09:40,  3.48it/s] 62%|██████▏   | 231448/371472 [7:22:57<10:55:19,  3.56it/s] 62%|██████▏   | 231449/371472 [7:22:58<11:11:31,  3.48it/s] 62%|██████▏   | 231450/371472 [7:22:58<10:43:21,  3.63it/s] 62%|██████▏   | 231451/371472 [7:22:58<10:42:19,  3.63it/s] 62%|██████▏   | 231452/371472 [7:22:59<11:10:08,  3.48it/s] 62%|██████▏   | 231453/371472 [7:22:59<11:06:48,  3.50it/s] 62%|██████▏   | 231454/371472 [7:22:59<10:48:31,  3.60it/s] 62%|██████▏   | 231455/371472 [7:22:59<10:37:05,  3.66it/s] 62%|██████▏   | 231456/371472 [7:23:00<11:17:24,  3.44it/s] 62%|██████▏   | 231457/371472 [7:23:00<10:55:10,  3.56it/s] 62%|██████▏   | 231458/371472 [7:23:00<11:00:12,  3.53it/s] 62%|██████▏   | 231459/371472 [7:23:01<10:54:29,  3.57it/s] 62%|██████▏   | 231460/371472 [7:23:01<11:21:25,  3.42it/s]                                                            {'loss': 2.9584, 'learning_rate': 4.394029175375466e-07, 'epoch': 9.97}
 62%|██████▏   | 231460/371472 [7:23:01<11:21:25,  3.42it/s] 62%|██████▏   | 231461/371472 [7:23:01<11:17:48,  3.44it/s] 62%|██████▏   | 231462/371472 [7:23:01<11:15:15,  3.46it/s] 62%|██████▏   | 231463/371472 [7:23:02<10:47:39,  3.60it/s] 62%|██████▏   | 231464/371472 [7:23:02<10:39:27,  3.65it/s] 62%|██████▏   | 231465/371472 [7:23:02<10:16:21,  3.79it/s] 62%|██████▏   | 231466/371472 [7:23:02<10:12:49,  3.81it/s] 62%|██████▏   | 231467/371472 [7:23:03<10:52:53,  3.57it/s] 62%|██████▏   | 231468/371472 [7:23:03<10:32:03,  3.69it/s] 62%|██████▏   | 231469/371472 [7:23:03<10:46:57,  3.61it/s] 62%|██████▏   | 231470/371472 [7:23:04<11:16:26,  3.45it/s] 62%|██████▏   | 231471/371472 [7:23:04<11:14:55,  3.46it/s] 62%|██████▏   | 231472/371472 [7:23:04<11:57:55,  3.25it/s] 62%|██████▏   | 231473/371472 [7:23:05<11:28:39,  3.39it/s] 62%|██████▏   | 231474/371472 [7:23:05<10:53:27,  3.57it/s] 62%|██████▏   | 231475/371472 [7:23:05<10:37:20,  3.66it/s] 62%|██████▏   | 231476/371472 [7:23:05<10:33:56,  3.68it/s] 62%|██████▏   | 231477/371472 [7:23:06<10:38:29,  3.65it/s] 62%|██████▏   | 231478/371472 [7:23:06<10:35:45,  3.67it/s] 62%|██████▏   | 231479/371472 [7:23:06<10:37:07,  3.66it/s] 62%|██████▏   | 231480/371472 [7:23:06<10:48:46,  3.60it/s]                                                            {'loss': 3.0315, 'learning_rate': 4.3935443556206763e-07, 'epoch': 9.97}
 62%|██████▏   | 231480/371472 [7:23:06<10:48:46,  3.60it/s] 62%|██████▏   | 231481/371472 [7:23:07<10:58:49,  3.54it/s] 62%|██████▏   | 231482/371472 [7:23:07<11:34:19,  3.36it/s] 62%|██████▏   | 231483/371472 [7:23:07<11:31:30,  3.37it/s] 62%|██████▏   | 231484/371472 [7:23:08<11:06:29,  3.50it/s] 62%|██████▏   | 231485/371472 [7:23:08<10:51:41,  3.58it/s] 62%|██████▏   | 231486/371472 [7:23:08<10:39:06,  3.65it/s] 62%|██████▏   | 231487/371472 [7:23:08<10:50:28,  3.59it/s] 62%|██████▏   | 231488/371472 [7:23:09<11:09:13,  3.49it/s] 62%|██████▏   | 231489/371472 [7:23:09<12:25:53,  3.13it/s] 62%|██████▏   | 231490/371472 [7:23:09<11:36:50,  3.35it/s] 62%|██████▏   | 231491/371472 [7:23:10<11:38:15,  3.34it/s] 62%|██████▏   | 231492/371472 [7:23:10<11:26:06,  3.40it/s] 62%|██████▏   | 231493/371472 [7:23:10<11:00:07,  3.53it/s] 62%|██████▏   | 231494/371472 [7:23:10<10:40:18,  3.64it/s] 62%|██████▏   | 231495/371472 [7:23:11<10:48:32,  3.60it/s] 62%|██████▏   | 231496/371472 [7:23:11<11:32:36,  3.37it/s] 62%|██████▏   | 231497/371472 [7:23:11<11:18:27,  3.44it/s] 62%|██████▏   | 231498/371472 [7:23:12<11:31:46,  3.37it/s] 62%|██████▏   | 231499/371472 [7:23:12<11:00:04,  3.53it/s] 62%|██████▏   | 231500/371472 [7:23:12<10:44:27,  3.62it/s]                                                            {'loss': 2.7778, 'learning_rate': 4.393059535865888e-07, 'epoch': 9.97}
 62%|██████▏   | 231500/371472 [7:23:12<10:44:27,  3.62it/s] 62%|██████▏   | 231501/371472 [7:23:13<12:27:47,  3.12it/s] 62%|██████▏   | 231502/371472 [7:23:13<12:01:57,  3.23it/s] 62%|██████▏   | 231503/371472 [7:23:13<12:38:00,  3.08it/s] 62%|██████▏   | 231504/371472 [7:23:14<12:05:43,  3.21it/s] 62%|██████▏   | 231505/371472 [7:23:14<12:03:24,  3.22it/s] 62%|██████▏   | 231506/371472 [7:23:14<11:30:38,  3.38it/s] 62%|██████▏   | 231507/371472 [7:23:14<10:58:43,  3.54it/s] 62%|██████▏   | 231508/371472 [7:23:15<10:35:21,  3.67it/s] 62%|██████▏   | 231509/371472 [7:23:15<10:24:43,  3.73it/s] 62%|██████▏   | 231510/371472 [7:23:15<10:47:44,  3.60it/s] 62%|██████▏   | 231511/371472 [7:23:15<11:11:08,  3.48it/s] 62%|██████▏   | 231512/371472 [7:23:16<10:57:29,  3.55it/s] 62%|██████▏   | 231513/371472 [7:23:16<11:17:14,  3.44it/s] 62%|██████▏   | 231514/371472 [7:23:16<11:07:11,  3.50it/s] 62%|██████▏   | 231515/371472 [7:23:17<10:56:40,  3.55it/s] 62%|██████▏   | 231516/371472 [7:23:17<11:06:18,  3.50it/s] 62%|██████▏   | 231517/371472 [7:23:17<10:46:55,  3.61it/s] 62%|██████▏   | 231518/371472 [7:23:17<11:00:40,  3.53it/s] 62%|██████▏   | 231519/371472 [7:23:18<10:52:10,  3.58it/s] 62%|██████▏   | 231520/371472 [7:23:18<11:02:00,  3.52it/s]                                                            {'loss': 2.8836, 'learning_rate': 4.392574716111099e-07, 'epoch': 9.97}
 62%|██████▏   | 231520/371472 [7:23:18<11:02:00,  3.52it/s] 62%|██████▏   | 231521/371472 [7:23:18<10:46:02,  3.61it/s] 62%|██████▏   | 231522/371472 [7:23:19<10:50:24,  3.59it/s] 62%|██████▏   | 231523/371472 [7:23:19<10:52:51,  3.57it/s] 62%|██████▏   | 231524/371472 [7:23:19<10:47:23,  3.60it/s] 62%|██████▏   | 231525/371472 [7:23:19<10:30:35,  3.70it/s] 62%|██████▏   | 231526/371472 [7:23:20<11:00:26,  3.53it/s] 62%|██████▏   | 231527/371472 [7:23:20<10:39:15,  3.65it/s] 62%|██████▏   | 231528/371472 [7:23:20<10:44:50,  3.62it/s] 62%|██████▏   | 231529/371472 [7:23:21<10:43:58,  3.62it/s] 62%|██████▏   | 231530/371472 [7:23:21<10:29:31,  3.71it/s] 62%|██████▏   | 231531/371472 [7:23:21<10:22:43,  3.75it/s] 62%|██████▏   | 231532/371472 [7:23:21<10:54:57,  3.56it/s] 62%|██████▏   | 231533/371472 [7:23:22<11:02:45,  3.52it/s] 62%|██████▏   | 231534/371472 [7:23:22<10:45:38,  3.61it/s] 62%|██████▏   | 231535/371472 [7:23:22<10:29:49,  3.70it/s] 62%|██████▏   | 231536/371472 [7:23:22<10:20:17,  3.76it/s] 62%|██████▏   | 231537/371472 [7:23:23<10:34:48,  3.67it/s] 62%|██████▏   | 231538/371472 [7:23:23<10:44:15,  3.62it/s] 62%|██████▏   | 231539/371472 [7:23:23<10:39:04,  3.65it/s] 62%|██████▏   | 231540/371472 [7:23:24<11:29:51,  3.38it/s]                                                            {'loss': 2.8617, 'learning_rate': 4.39208989635631e-07, 'epoch': 9.97}
 62%|██████▏   | 231540/371472 [7:23:24<11:29:51,  3.38it/s] 62%|██████▏   | 231541/371472 [7:23:24<11:23:02,  3.41it/s] 62%|██████▏   | 231542/371472 [7:23:24<10:44:29,  3.62it/s] 62%|██████▏   | 231543/371472 [7:23:24<10:25:33,  3.73it/s] 62%|██████▏   | 231544/371472 [7:23:25<10:07:49,  3.84it/s] 62%|██████▏   | 231545/371472 [7:23:25<10:33:48,  3.68it/s] 62%|██████▏   | 231546/371472 [7:23:25<11:06:13,  3.50it/s] 62%|██████▏   | 231547/371472 [7:23:26<11:06:20,  3.50it/s] 62%|██████▏   | 231548/371472 [7:23:26<10:53:32,  3.57it/s] 62%|██████▏   | 231549/371472 [7:23:26<11:09:45,  3.48it/s] 62%|██████▏   | 231550/371472 [7:23:26<11:14:30,  3.46it/s] 62%|██████▏   | 231551/371472 [7:23:27<11:29:26,  3.38it/s] 62%|██████▏   | 231552/371472 [7:23:27<11:06:42,  3.50it/s] 62%|██████▏   | 231553/371472 [7:23:27<11:03:27,  3.51it/s] 62%|██████▏   | 231554/371472 [7:23:27<10:25:43,  3.73it/s] 62%|██████▏   | 231555/371472 [7:23:28<10:24:21,  3.73it/s] 62%|██████▏   | 231556/371472 [7:23:28<11:07:20,  3.49it/s] 62%|██████▏   | 231557/371472 [7:23:28<11:19:11,  3.43it/s] 62%|██████▏   | 231558/371472 [7:23:29<10:52:33,  3.57it/s] 62%|██████▏   | 231559/371472 [7:23:29<11:21:57,  3.42it/s] 62%|██████▏   | 231560/371472 [7:23:29<11:06:01,  3.50it/s]                                                            {'loss': 2.9384, 'learning_rate': 4.391605076601521e-07, 'epoch': 9.97}
 62%|██████▏   | 231560/371472 [7:23:29<11:06:01,  3.50it/s] 62%|██████▏   | 231561/371472 [7:23:29<11:03:34,  3.51it/s] 62%|██████▏   | 231562/371472 [7:23:30<10:52:56,  3.57it/s] 62%|██████▏   | 231563/371472 [7:23:30<10:42:11,  3.63it/s] 62%|██████▏   | 231564/371472 [7:23:30<10:43:24,  3.62it/s] 62%|██████▏   | 231565/371472 [7:23:31<11:01:27,  3.53it/s] 62%|██████▏   | 231566/371472 [7:23:31<11:01:36,  3.52it/s] 62%|██████▏   | 231567/371472 [7:23:31<10:30:43,  3.70it/s] 62%|██████▏   | 231568/371472 [7:23:31<11:10:10,  3.48it/s] 62%|██████▏   | 231569/371472 [7:23:32<10:51:21,  3.58it/s] 62%|██████▏   | 231570/371472 [7:23:32<11:21:27,  3.42it/s] 62%|██████▏   | 231571/371472 [7:23:32<12:01:33,  3.23it/s] 62%|██████▏   | 231572/371472 [7:23:33<11:25:24,  3.40it/s] 62%|██████▏   | 231573/371472 [7:23:33<11:00:42,  3.53it/s] 62%|██████▏   | 231574/371472 [7:23:33<11:30:52,  3.37it/s] 62%|██████▏   | 231575/371472 [7:23:33<11:00:45,  3.53it/s] 62%|██████▏   | 231576/371472 [7:23:34<10:47:17,  3.60it/s] 62%|██████▏   | 231577/371472 [7:23:34<11:02:45,  3.52it/s] 62%|██████▏   | 231578/371472 [7:23:34<10:48:19,  3.60it/s] 62%|██████▏   | 231579/371472 [7:23:35<11:27:07,  3.39it/s] 62%|██████▏   | 231580/371472 [7:23:35<11:09:53,  3.48it/s]                                                            {'loss': 2.9157, 'learning_rate': 4.3911202568467325e-07, 'epoch': 9.97}
 62%|██████▏   | 231580/371472 [7:23:35<11:09:53,  3.48it/s] 62%|██████▏   | 231581/371472 [7:23:35<10:52:39,  3.57it/s] 62%|██████▏   | 231582/371472 [7:23:35<10:26:28,  3.72it/s] 62%|██████▏   | 231583/371472 [7:23:36<11:05:03,  3.51it/s] 62%|██████▏   | 231584/371472 [7:23:36<11:03:42,  3.51it/s] 62%|██████▏   | 231585/371472 [7:23:36<10:36:40,  3.66it/s] 62%|██████▏   | 231586/371472 [7:23:37<10:23:01,  3.74it/s] 62%|██████▏   | 231587/371472 [7:23:37<11:05:48,  3.50it/s] 62%|██████▏   | 231588/371472 [7:23:37<10:59:51,  3.53it/s] 62%|██████▏   | 231589/371472 [7:23:37<11:03:03,  3.52it/s] 62%|██████▏   | 231590/371472 [7:23:38<10:55:27,  3.56it/s] 62%|██████▏   | 231591/371472 [7:23:38<11:10:47,  3.48it/s] 62%|██████▏   | 231592/371472 [7:23:38<10:56:52,  3.55it/s] 62%|██████▏   | 231593/371472 [7:23:39<10:42:09,  3.63it/s] 62%|██████▏   | 231594/371472 [7:23:39<10:45:33,  3.61it/s] 62%|██████▏   | 231595/371472 [7:23:39<10:24:33,  3.73it/s] 62%|██████▏   | 231596/371472 [7:23:39<10:21:38,  3.75it/s] 62%|██████▏   | 231597/371472 [7:23:40<10:16:31,  3.78it/s] 62%|██████▏   | 231598/371472 [7:23:40<10:17:09,  3.78it/s] 62%|██████▏   | 231599/371472 [7:23:40<10:29:52,  3.70it/s] 62%|██████▏   | 231600/371472 [7:23:40<10:19:13,  3.76it/s]                                                            {'loss': 2.908, 'learning_rate': 4.3906354370919427e-07, 'epoch': 9.98}
 62%|██████▏   | 231600/371472 [7:23:40<10:19:13,  3.76it/s] 62%|██████▏   | 231601/371472 [7:23:41<10:10:26,  3.82it/s] 62%|██████▏   | 231602/371472 [7:23:41<10:33:41,  3.68it/s] 62%|██████▏   | 231603/371472 [7:23:41<10:36:07,  3.66it/s] 62%|██████▏   | 231604/371472 [7:23:41<10:13:24,  3.80it/s] 62%|██████▏   | 231605/371472 [7:23:42<10:57:06,  3.55it/s] 62%|██████▏   | 231606/371472 [7:23:42<10:55:14,  3.56it/s] 62%|██████▏   | 231607/371472 [7:23:42<10:45:04,  3.61it/s] 62%|██████▏   | 231608/371472 [7:23:43<10:21:07,  3.75it/s] 62%|██████▏   | 231609/371472 [7:23:43<9:49:45,  3.95it/s]  62%|██████▏   | 231610/371472 [7:23:43<9:31:22,  4.08it/s] 62%|██████▏   | 231611/371472 [7:23:43<9:35:44,  4.05it/s] 62%|██████▏   | 231612/371472 [7:23:44<10:13:25,  3.80it/s] 62%|██████▏   | 231613/371472 [7:23:44<10:10:25,  3.82it/s] 62%|██████▏   | 231614/371472 [7:23:44<10:48:52,  3.59it/s] 62%|██████▏   | 231615/371472 [7:23:44<10:28:36,  3.71it/s] 62%|██████▏   | 231616/371472 [7:23:45<10:25:54,  3.72it/s] 62%|██████▏   | 231617/371472 [7:23:45<10:51:42,  3.58it/s] 62%|██████▏   | 231618/371472 [7:23:45<10:30:39,  3.70it/s] 62%|██████▏   | 231619/371472 [7:23:46<11:21:17,  3.42it/s] 62%|██████▏   | 231620/371472 [7:23:46<11:19:31,  3.43it/s]                                                            {'loss': 2.9476, 'learning_rate': 4.3901506173371545e-07, 'epoch': 9.98}
 62%|██████▏   | 231620/371472 [7:23:46<11:19:31,  3.43it/s] 62%|██████▏   | 231621/371472 [7:23:46<11:27:08,  3.39it/s] 62%|██████▏   | 231622/371472 [7:23:46<11:11:39,  3.47it/s] 62%|██████▏   | 231623/371472 [7:23:47<11:23:58,  3.41it/s] 62%|██████▏   | 231624/371472 [7:23:47<10:49:32,  3.59it/s] 62%|██████▏   | 231625/371472 [7:23:47<10:34:52,  3.67it/s] 62%|██████▏   | 231626/371472 [7:23:47<10:41:58,  3.63it/s] 62%|██████▏   | 231627/371472 [7:23:48<10:43:16,  3.62it/s] 62%|██████▏   | 231628/371472 [7:23:48<10:14:27,  3.79it/s] 62%|██████▏   | 231629/371472 [7:23:48<10:11:50,  3.81it/s] 62%|██████▏   | 231630/371472 [7:23:49<10:47:15,  3.60it/s] 62%|██████▏   | 231631/371472 [7:23:49<10:22:02,  3.75it/s] 62%|██████▏   | 231632/371472 [7:23:49<10:08:25,  3.83it/s] 62%|██████▏   | 231633/371472 [7:23:49<9:53:50,  3.92it/s]  62%|██████▏   | 231634/371472 [7:23:50<10:05:16,  3.85it/s] 62%|██████▏   | 231635/371472 [7:23:50<10:04:04,  3.86it/s] 62%|██████▏   | 231636/371472 [7:23:50<10:01:39,  3.87it/s] 62%|██████▏   | 231637/371472 [7:23:50<10:01:32,  3.87it/s] 62%|██████▏   | 231638/371472 [7:23:51<10:13:17,  3.80it/s] 62%|██████▏   | 231639/371472 [7:23:51<10:57:30,  3.54it/s] 62%|██████▏   | 231640/371472 [7:23:51<10:52:38,  3.57it/s]                                                            {'loss': 2.7172, 'learning_rate': 4.389665797582365e-07, 'epoch': 9.98}
 62%|██████▏   | 231640/371472 [7:23:51<10:52:38,  3.57it/s] 62%|██████▏   | 231641/371472 [7:23:52<10:59:54,  3.53it/s] 62%|██████▏   | 231642/371472 [7:23:52<11:11:18,  3.47it/s] 62%|██████▏   | 231643/371472 [7:23:52<10:29:42,  3.70it/s] 62%|██████▏   | 231644/371472 [7:23:52<10:33:15,  3.68it/s] 62%|██████▏   | 231645/371472 [7:23:53<10:53:28,  3.57it/s] 62%|██████▏   | 231646/371472 [7:23:53<10:43:19,  3.62it/s] 62%|██████▏   | 231647/371472 [7:23:53<10:37:38,  3.65it/s] 62%|██████▏   | 231648/371472 [7:23:53<10:47:05,  3.60it/s] 62%|██████▏   | 231649/371472 [7:23:54<10:18:01,  3.77it/s] 62%|██████▏   | 231650/371472 [7:23:54<10:42:54,  3.62it/s] 62%|██████▏   | 231651/371472 [7:23:54<10:46:52,  3.60it/s] 62%|██████▏   | 231652/371472 [7:23:55<10:26:56,  3.72it/s] 62%|██████▏   | 231653/371472 [7:23:55<10:31:57,  3.69it/s] 62%|██████▏   | 231654/371472 [7:23:55<11:01:06,  3.52it/s] 62%|██████▏   | 231655/371472 [7:23:55<10:39:05,  3.65it/s] 62%|██████▏   | 231656/371472 [7:23:56<10:31:28,  3.69it/s] 62%|██████▏   | 231657/371472 [7:23:56<11:09:25,  3.48it/s] 62%|██████▏   | 231658/371472 [7:23:56<11:31:48,  3.37it/s] 62%|██████▏   | 231659/371472 [7:23:57<11:27:42,  3.39it/s] 62%|██████▏   | 231660/371472 [7:23:57<11:04:26,  3.51it/s]                                                            {'loss': 2.9997, 'learning_rate': 4.3891809778275765e-07, 'epoch': 9.98}
 62%|██████▏   | 231660/371472 [7:23:57<11:04:26,  3.51it/s] 62%|██████▏   | 231661/371472 [7:23:57<10:48:14,  3.59it/s] 62%|██████▏   | 231662/371472 [7:23:57<10:19:24,  3.76it/s] 62%|██████▏   | 231663/371472 [7:23:58<9:55:43,  3.91it/s]  62%|██████▏   | 231664/371472 [7:23:58<9:55:53,  3.91it/s] 62%|██████▏   | 231665/371472 [7:23:58<10:22:54,  3.74it/s] 62%|██████▏   | 231666/371472 [7:23:58<11:00:56,  3.53it/s] 62%|██████▏   | 231667/371472 [7:23:59<10:50:31,  3.58it/s] 62%|██████▏   | 231668/371472 [7:23:59<10:29:39,  3.70it/s] 62%|██████▏   | 231669/371472 [7:23:59<10:09:31,  3.82it/s] 62%|██████▏   | 231670/371472 [7:23:59<10:33:39,  3.68it/s] 62%|██████▏   | 231671/371472 [7:24:00<10:17:15,  3.77it/s] 62%|██████▏   | 231672/371472 [7:24:00<10:11:56,  3.81it/s] 62%|██████▏   | 231673/371472 [7:24:00<10:00:18,  3.88it/s] 62%|██████▏   | 231674/371472 [7:24:01<10:23:13,  3.74it/s] 62%|██████▏   | 231675/371472 [7:24:01<11:36:35,  3.34it/s] 62%|██████▏   | 231676/371472 [7:24:01<11:15:58,  3.45it/s] 62%|██████▏   | 231677/371472 [7:24:01<10:59:38,  3.53it/s] 62%|██████▏   | 231678/371472 [7:24:02<10:54:55,  3.56it/s] 62%|██████▏   | 231679/371472 [7:24:02<10:58:19,  3.54it/s] 62%|██████▏   | 231680/371472 [7:24:02<11:00:42,  3.53it/s]                                                            {'loss': 2.8957, 'learning_rate': 4.388696158072787e-07, 'epoch': 9.98}
 62%|██████▏   | 231680/371472 [7:24:02<11:00:42,  3.53it/s] 62%|██████▏   | 231681/371472 [7:24:03<10:50:41,  3.58it/s] 62%|██████▏   | 231682/371472 [7:24:03<10:40:18,  3.64it/s] 62%|██████▏   | 231683/371472 [7:24:03<10:15:26,  3.79it/s] 62%|██████▏   | 231684/371472 [7:24:03<9:59:05,  3.89it/s]  62%|██████▏   | 231685/371472 [7:24:04<10:16:53,  3.78it/s] 62%|██████▏   | 231686/371472 [7:24:04<9:52:23,  3.93it/s]  62%|██████▏   | 231687/371472 [7:24:04<10:29:48,  3.70it/s] 62%|██████▏   | 231688/371472 [7:24:04<10:09:10,  3.82it/s] 62%|██████▏   | 231689/371472 [7:24:05<11:23:01,  3.41it/s] 62%|██████▏   | 231690/371472 [7:24:05<11:40:05,  3.33it/s] 62%|██████▏   | 231691/371472 [7:24:05<11:29:43,  3.38it/s] 62%|██████▏   | 231692/371472 [7:24:06<11:08:13,  3.49it/s] 62%|██████▏   | 231693/371472 [7:24:06<10:46:35,  3.60it/s] 62%|██████▏   | 231694/371472 [7:24:06<11:14:14,  3.46it/s] 62%|██████▏   | 231695/371472 [7:24:06<11:32:03,  3.37it/s] 62%|██████▏   | 231696/371472 [7:24:07<11:20:44,  3.42it/s] 62%|██████▏   | 231697/371472 [7:24:07<11:15:57,  3.45it/s] 62%|██████▏   | 231698/371472 [7:24:07<11:04:01,  3.51it/s] 62%|██████▏   | 231699/371472 [7:24:08<11:01:33,  3.52it/s] 62%|██████▏   | 231700/371472 [7:24:08<11:19:16,  3.43it/s]                                                            {'loss': 2.8489, 'learning_rate': 4.388211338317999e-07, 'epoch': 9.98}
 62%|██████▏   | 231700/371472 [7:24:08<11:19:16,  3.43it/s] 62%|██████▏   | 231701/371472 [7:24:08<10:57:43,  3.54it/s] 62%|██████▏   | 231702/371472 [7:24:08<10:48:34,  3.59it/s] 62%|██████▏   | 231703/371472 [7:24:09<10:53:26,  3.56it/s] 62%|██████▏   | 231704/371472 [7:24:09<10:49:26,  3.59it/s] 62%|██████▏   | 231705/371472 [7:24:09<10:38:31,  3.65it/s] 62%|██████▏   | 231706/371472 [7:24:09<10:18:57,  3.76it/s] 62%|██████▏   | 231707/371472 [7:24:10<10:11:51,  3.81it/s] 62%|██████▏   | 231708/371472 [7:24:10<10:49:42,  3.59it/s] 62%|██████▏   | 231709/371472 [7:24:10<11:54:52,  3.26it/s] 62%|██████▏   | 231710/371472 [7:24:11<11:08:23,  3.48it/s] 62%|██████▏   | 231711/371472 [7:24:11<10:46:09,  3.60it/s] 62%|██████▏   | 231712/371472 [7:24:11<10:29:23,  3.70it/s] 62%|██████▏   | 231713/371472 [7:24:11<10:56:36,  3.55it/s] 62%|██████▏   | 231714/371472 [7:24:12<10:31:52,  3.69it/s] 62%|██████▏   | 231715/371472 [7:24:12<10:41:32,  3.63it/s] 62%|██████▏   | 231716/371472 [7:24:12<10:16:47,  3.78it/s] 62%|██████▏   | 231717/371472 [7:24:13<10:58:26,  3.54it/s] 62%|██████▏   | 231718/371472 [7:24:13<11:04:24,  3.51it/s] 62%|██████▏   | 231719/371472 [7:24:13<10:49:53,  3.58it/s] 62%|██████▏   | 231720/371472 [7:24:13<10:18:01,  3.77it/s]                                                            {'loss': 2.837, 'learning_rate': 4.3877265185632097e-07, 'epoch': 9.98}
 62%|██████▏   | 231720/371472 [7:24:13<10:18:01,  3.77it/s] 62%|██████▏   | 231721/371472 [7:24:14<10:09:36,  3.82it/s] 62%|██████▏   | 231722/371472 [7:24:14<11:09:58,  3.48it/s] 62%|██████▏   | 231723/371472 [7:24:14<10:51:07,  3.58it/s] 62%|██████▏   | 231724/371472 [7:24:15<10:44:04,  3.62it/s] 62%|██████▏   | 231725/371472 [7:24:15<10:29:09,  3.70it/s] 62%|██████▏   | 231726/371472 [7:24:15<10:28:29,  3.71it/s] 62%|██████▏   | 231727/371472 [7:24:15<10:59:58,  3.53it/s] 62%|██████▏   | 231728/371472 [7:24:16<11:00:26,  3.53it/s] 62%|██████▏   | 231729/371472 [7:24:16<11:06:57,  3.49it/s] 62%|██████▏   | 231730/371472 [7:24:16<10:43:17,  3.62it/s] 62%|██████▏   | 231731/371472 [7:24:16<10:21:49,  3.75it/s] 62%|██████▏   | 231732/371472 [7:24:17<10:30:38,  3.69it/s] 62%|██████▏   | 231733/371472 [7:24:17<10:45:39,  3.61it/s] 62%|██████▏   | 231734/371472 [7:24:17<10:22:27,  3.74it/s] 62%|██████▏   | 231735/371472 [7:24:18<11:18:55,  3.43it/s] 62%|██████▏   | 231736/371472 [7:24:18<11:00:47,  3.52it/s] 62%|██████▏   | 231737/371472 [7:24:18<10:51:21,  3.58it/s] 62%|██████▏   | 231738/371472 [7:24:18<10:16:04,  3.78it/s] 62%|██████▏   | 231739/371472 [7:24:19<10:26:36,  3.72it/s] 62%|██████▏   | 231740/371472 [7:24:19<10:13:07,  3.80it/s]                                                            {'loss': 2.8032, 'learning_rate': 4.387241698808421e-07, 'epoch': 9.98}
 62%|██████▏   | 231740/371472 [7:24:19<10:13:07,  3.80it/s] 62%|██████▏   | 231741/371472 [7:24:19<9:56:49,  3.90it/s]  62%|██████▏   | 231742/371472 [7:24:19<10:01:49,  3.87it/s] 62%|██████▏   | 231743/371472 [7:24:20<11:34:09,  3.35it/s] 62%|██████▏   | 231744/371472 [7:24:20<11:36:56,  3.34it/s] 62%|██████▏   | 231745/371472 [7:24:20<11:50:01,  3.28it/s] 62%|██████▏   | 231746/371472 [7:24:21<11:58:47,  3.24it/s] 62%|██████▏   | 231747/371472 [7:24:21<11:04:18,  3.51it/s] 62%|██████▏   | 231748/371472 [7:24:21<10:33:23,  3.68it/s] 62%|██████▏   | 231749/371472 [7:24:22<11:03:56,  3.51it/s] 62%|██████▏   | 231750/371472 [7:24:22<11:08:30,  3.48it/s] 62%|██████▏   | 231751/371472 [7:24:22<11:46:02,  3.30it/s] 62%|██████▏   | 231752/371472 [7:24:22<11:35:06,  3.35it/s] 62%|██████▏   | 231753/371472 [7:24:23<11:01:49,  3.52it/s] 62%|██████▏   | 231754/371472 [7:24:23<11:05:28,  3.50it/s] 62%|██████▏   | 231755/371472 [7:24:23<10:46:38,  3.60it/s] 62%|██████▏   | 231756/371472 [7:24:23<10:23:43,  3.73it/s] 62%|██████▏   | 231757/371472 [7:24:24<10:31:33,  3.69it/s] 62%|██████▏   | 231758/371472 [7:24:24<10:41:14,  3.63it/s] 62%|██████▏   | 231759/371472 [7:24:24<10:19:24,  3.76it/s] 62%|██████▏   | 231760/371472 [7:24:25<9:54:55,  3.91it/s]                                                            {'loss': 2.8163, 'learning_rate': 4.386756879053632e-07, 'epoch': 9.98}
 62%|██████▏   | 231760/371472 [7:24:25<9:54:55,  3.91it/s] 62%|██████▏   | 231761/371472 [7:24:25<10:10:49,  3.81it/s] 62%|██████▏   | 231762/371472 [7:24:25<10:10:14,  3.82it/s] 62%|██████▏   | 231763/371472 [7:24:25<10:51:55,  3.57it/s] 62%|██████▏   | 231764/371472 [7:24:26<10:28:12,  3.71it/s] 62%|██████▏   | 231765/371472 [7:24:26<10:24:55,  3.73it/s] 62%|██████▏   | 231766/371472 [7:24:26<10:20:38,  3.75it/s] 62%|██████▏   | 231767/371472 [7:24:26<10:43:57,  3.62it/s] 62%|██████▏   | 231768/371472 [7:24:27<11:24:19,  3.40it/s] 62%|██████▏   | 231769/371472 [7:24:27<11:01:05,  3.52it/s] 62%|██████▏   | 231770/371472 [7:24:27<10:41:46,  3.63it/s] 62%|██████▏   | 231771/371472 [7:24:28<10:25:28,  3.72it/s] 62%|██████▏   | 231772/371472 [7:24:28<10:21:11,  3.75it/s] 62%|██████▏   | 231773/371472 [7:24:28<11:26:23,  3.39it/s] 62%|██████▏   | 231774/371472 [7:24:28<11:09:33,  3.48it/s] 62%|██████▏   | 231775/371472 [7:24:29<10:38:49,  3.64it/s] 62%|██████▏   | 231776/371472 [7:24:29<11:03:38,  3.51it/s] 62%|██████▏   | 231777/371472 [7:24:29<10:42:11,  3.63it/s] 62%|██████▏   | 231778/371472 [7:24:30<10:25:23,  3.72it/s] 62%|██████▏   | 231779/371472 [7:24:30<10:02:52,  3.86it/s] 62%|██████▏   | 231780/371472 [7:24:30<9:50:26,  3.94it/s]                                                            {'loss': 2.9146, 'learning_rate': 4.3862720592988434e-07, 'epoch': 9.98}
 62%|██████▏   | 231780/371472 [7:24:30<9:50:26,  3.94it/s] 62%|██████▏   | 231781/371472 [7:24:30<10:04:21,  3.85it/s] 62%|██████▏   | 231782/371472 [7:24:31<9:59:46,  3.88it/s]  62%|██████▏   | 231783/371472 [7:24:31<9:50:35,  3.94it/s] 62%|██████▏   | 231784/371472 [7:24:31<9:37:23,  4.03it/s] 62%|██████▏   | 231785/371472 [7:24:31<9:27:38,  4.10it/s] 62%|██████▏   | 231786/371472 [7:24:31<9:32:58,  4.06it/s] 62%|██████▏   | 231787/371472 [7:24:32<9:35:24,  4.05it/s] 62%|██████▏   | 231788/371472 [7:24:32<9:36:57,  4.04it/s] 62%|██████▏   | 231789/371472 [7:24:32<9:42:15,  4.00it/s] 62%|██████▏   | 231790/371472 [7:24:33<10:50:10,  3.58it/s] 62%|██████▏   | 231791/371472 [7:24:33<11:10:50,  3.47it/s] 62%|██████▏   | 231792/371472 [7:24:33<11:21:16,  3.42it/s] 62%|██████▏   | 231793/371472 [7:24:33<11:34:13,  3.35it/s] 62%|██████▏   | 231794/371472 [7:24:34<11:02:04,  3.52it/s] 62%|██████▏   | 231795/371472 [7:24:34<10:54:09,  3.56it/s] 62%|██████▏   | 231796/371472 [7:24:34<11:28:58,  3.38it/s] 62%|██████▏   | 231797/371472 [7:24:35<11:17:38,  3.44it/s] 62%|██████▏   | 231798/371472 [7:24:35<11:25:02,  3.40it/s] 62%|██████▏   | 231799/371472 [7:24:35<11:10:00,  3.47it/s] 62%|██████▏   | 231800/371472 [7:24:35<10:58:58,  3.53it/s]                                                            {'loss': 2.9415, 'learning_rate': 4.3857872395440536e-07, 'epoch': 9.98}
 62%|██████▏   | 231800/371472 [7:24:35<10:58:58,  3.53it/s] 62%|██████▏   | 231801/371472 [7:24:36<10:42:02,  3.63it/s] 62%|██████▏   | 231802/371472 [7:24:36<10:30:49,  3.69it/s] 62%|██████▏   | 231803/371472 [7:24:36<10:12:14,  3.80it/s] 62%|██████▏   | 231804/371472 [7:24:36<10:04:21,  3.85it/s] 62%|██████▏   | 231805/371472 [7:24:37<10:48:55,  3.59it/s] 62%|██████▏   | 231806/371472 [7:24:37<11:26:54,  3.39it/s] 62%|██████▏   | 231807/371472 [7:24:37<10:51:00,  3.58it/s] 62%|██████▏   | 231808/371472 [7:24:38<11:31:09,  3.37it/s] 62%|██████▏   | 231809/371472 [7:24:38<11:18:12,  3.43it/s] 62%|██████▏   | 231810/371472 [7:24:38<11:03:28,  3.51it/s] 62%|██████▏   | 231811/371472 [7:24:39<10:58:47,  3.53it/s] 62%|██████▏   | 231812/371472 [7:24:39<10:50:42,  3.58it/s] 62%|██████▏   | 231813/371472 [7:24:39<10:52:27,  3.57it/s] 62%|██████▏   | 231814/371472 [7:24:39<10:58:54,  3.53it/s] 62%|██████▏   | 231815/371472 [7:24:40<11:21:42,  3.41it/s] 62%|██████▏   | 231816/371472 [7:24:40<10:57:21,  3.54it/s] 62%|██████▏   | 231817/371472 [7:24:40<11:07:07,  3.49it/s] 62%|██████▏   | 231818/371472 [7:24:41<11:25:02,  3.40it/s] 62%|██████▏   | 231819/371472 [7:24:41<11:04:02,  3.51it/s] 62%|██████▏   | 231820/371472 [7:24:41<10:59:13,  3.53it/s]                                                            {'loss': 2.7308, 'learning_rate': 4.3853024197892654e-07, 'epoch': 9.98}
 62%|██████▏   | 231820/371472 [7:24:41<10:59:13,  3.53it/s] 62%|██████▏   | 231821/371472 [7:24:41<10:57:03,  3.54it/s] 62%|██████▏   | 231822/371472 [7:24:42<10:55:29,  3.55it/s] 62%|██████▏   | 231823/371472 [7:24:42<10:34:19,  3.67it/s] 62%|██████▏   | 231824/371472 [7:24:42<11:06:24,  3.49it/s] 62%|██████▏   | 231825/371472 [7:24:43<12:14:52,  3.17it/s] 62%|██████▏   | 231826/371472 [7:24:43<11:37:33,  3.34it/s] 62%|██████▏   | 231827/371472 [7:24:43<11:06:07,  3.49it/s] 62%|██████▏   | 231828/371472 [7:24:43<10:34:08,  3.67it/s] 62%|██████▏   | 231829/371472 [7:24:44<10:30:09,  3.69it/s] 62%|██████▏   | 231830/371472 [7:24:44<11:47:40,  3.29it/s] 62%|██████▏   | 231831/371472 [7:24:44<11:26:50,  3.39it/s] 62%|██████▏   | 231832/371472 [7:24:45<10:54:00,  3.56it/s] 62%|██████▏   | 231833/371472 [7:24:45<11:37:37,  3.34it/s] 62%|██████▏   | 231834/371472 [7:24:45<11:23:11,  3.41it/s] 62%|██████▏   | 231835/371472 [7:24:45<10:58:03,  3.54it/s] 62%|██████▏   | 231836/371472 [7:24:46<11:26:47,  3.39it/s] 62%|██████▏   | 231837/371472 [7:24:46<10:53:19,  3.56it/s] 62%|██████▏   | 231838/371472 [7:24:46<11:08:24,  3.48it/s] 62%|██████▏   | 231839/371472 [7:24:47<11:18:43,  3.43it/s] 62%|██████▏   | 231840/371472 [7:24:47<11:15:55,  3.44it/s]                                                            {'loss': 2.9547, 'learning_rate': 4.384817600034476e-07, 'epoch': 9.99}
 62%|██████▏   | 231840/371472 [7:24:47<11:15:55,  3.44it/s] 62%|██████▏   | 231841/371472 [7:24:47<11:20:18,  3.42it/s] 62%|██████▏   | 231842/371472 [7:24:47<11:15:27,  3.45it/s] 62%|██████▏   | 231843/371472 [7:24:48<11:34:03,  3.35it/s] 62%|██████▏   | 231844/371472 [7:24:48<11:13:40,  3.45it/s] 62%|██████▏   | 231845/371472 [7:24:48<11:17:56,  3.43it/s] 62%|██████▏   | 231846/371472 [7:24:49<11:00:56,  3.52it/s] 62%|██████▏   | 231847/371472 [7:24:49<11:08:12,  3.48it/s] 62%|██████▏   | 231848/371472 [7:24:49<10:52:10,  3.57it/s] 62%|██████▏   | 231849/371472 [7:24:49<10:55:25,  3.55it/s] 62%|██████▏   | 231850/371472 [7:24:50<10:40:44,  3.63it/s] 62%|██████▏   | 231851/371472 [7:24:50<10:28:17,  3.70it/s] 62%|██████▏   | 231852/371472 [7:24:50<10:07:06,  3.83it/s] 62%|██████▏   | 231853/371472 [7:24:51<10:11:29,  3.81it/s] 62%|██████▏   | 231854/371472 [7:24:51<10:18:33,  3.76it/s] 62%|██████▏   | 231855/371472 [7:24:51<10:36:46,  3.65it/s] 62%|██████▏   | 231856/371472 [7:24:51<10:59:16,  3.53it/s] 62%|██████▏   | 231857/371472 [7:24:52<11:03:16,  3.51it/s] 62%|██████▏   | 231858/371472 [7:24:52<10:52:14,  3.57it/s] 62%|██████▏   | 231859/371472 [7:24:52<10:48:10,  3.59it/s] 62%|██████▏   | 231860/371472 [7:24:52<10:49:04,  3.58it/s]                                                            {'loss': 2.6798, 'learning_rate': 4.384332780279686e-07, 'epoch': 9.99}
 62%|██████▏   | 231860/371472 [7:24:52<10:49:04,  3.58it/s] 62%|██████▏   | 231861/371472 [7:24:53<10:28:21,  3.70it/s] 62%|██████▏   | 231862/371472 [7:24:53<11:44:34,  3.30it/s] 62%|██████▏   | 231863/371472 [7:24:53<11:35:32,  3.35it/s] 62%|██████▏   | 231864/371472 [7:24:54<10:59:28,  3.53it/s] 62%|██████▏   | 231865/371472 [7:24:54<10:36:05,  3.66it/s] 62%|██████▏   | 231866/371472 [7:24:54<10:13:37,  3.79it/s] 62%|██████▏   | 231867/371472 [7:24:54<10:49:06,  3.58it/s] 62%|██████▏   | 231868/371472 [7:24:55<10:30:55,  3.69it/s] 62%|██████▏   | 231869/371472 [7:24:55<10:42:10,  3.62it/s] 62%|██████▏   | 231870/371472 [7:24:55<10:45:58,  3.60it/s] 62%|██████▏   | 231871/371472 [7:24:56<11:06:46,  3.49it/s] 62%|██████▏   | 231872/371472 [7:24:56<11:23:50,  3.40it/s] 62%|██████▏   | 231873/371472 [7:24:56<11:05:56,  3.49it/s] 62%|██████▏   | 231874/371472 [7:24:57<12:56:15,  3.00it/s] 62%|██████▏   | 231875/371472 [7:24:57<12:53:29,  3.01it/s] 62%|██████▏   | 231876/371472 [7:24:57<12:05:11,  3.21it/s] 62%|██████▏   | 231877/371472 [7:24:58<12:12:53,  3.17it/s] 62%|██████▏   | 231878/371472 [7:24:58<11:34:24,  3.35it/s] 62%|██████▏   | 231879/371472 [7:24:58<11:04:59,  3.50it/s] 62%|██████▏   | 231880/371472 [7:24:58<10:42:42,  3.62it/s]                                                            {'loss': 2.8764, 'learning_rate': 4.383847960524898e-07, 'epoch': 9.99}
 62%|██████▏   | 231880/371472 [7:24:58<10:42:42,  3.62it/s] 62%|██████▏   | 231881/371472 [7:24:59<11:11:08,  3.47it/s] 62%|██████▏   | 231882/371472 [7:24:59<10:56:32,  3.54it/s] 62%|██████▏   | 231883/371472 [7:24:59<10:26:09,  3.72it/s] 62%|██████▏   | 231884/371472 [7:24:59<10:38:43,  3.64it/s] 62%|██████▏   | 231885/371472 [7:25:00<10:40:39,  3.63it/s] 62%|██████▏   | 231886/371472 [7:25:00<10:24:35,  3.72it/s] 62%|██████▏   | 231887/371472 [7:25:00<10:34:08,  3.67it/s] 62%|██████▏   | 231888/371472 [7:25:00<10:33:24,  3.67it/s] 62%|██████▏   | 231889/371472 [7:25:01<10:16:52,  3.77it/s] 62%|██████▏   | 231890/371472 [7:25:01<10:23:17,  3.73it/s] 62%|██████▏   | 231891/371472 [7:25:01<10:08:05,  3.83it/s] 62%|██████▏   | 231892/371472 [7:25:02<10:06:25,  3.84it/s] 62%|██████▏   | 231893/371472 [7:25:02<10:40:26,  3.63it/s] 62%|██████▏   | 231894/371472 [7:25:02<11:18:33,  3.43it/s] 62%|██████▏   | 231895/371472 [7:25:02<11:26:55,  3.39it/s] 62%|██████▏   | 231896/371472 [7:25:03<10:53:39,  3.56it/s] 62%|██████▏   | 231897/371472 [7:25:03<11:16:46,  3.44it/s] 62%|██████▏   | 231898/371472 [7:25:03<11:44:01,  3.30it/s] 62%|██████▏   | 231899/371472 [7:25:04<11:26:29,  3.39it/s] 62%|██████▏   | 231900/371472 [7:25:04<10:52:15,  3.57it/s]                                                            {'loss': 2.9113, 'learning_rate': 4.383363140770109e-07, 'epoch': 9.99}
 62%|██████▏   | 231900/371472 [7:25:04<10:52:15,  3.57it/s] 62%|██████▏   | 231901/371472 [7:25:04<11:14:23,  3.45it/s] 62%|██████▏   | 231902/371472 [7:25:05<11:49:50,  3.28it/s] 62%|██████▏   | 231903/371472 [7:25:05<11:41:58,  3.31it/s] 62%|██████▏   | 231904/371472 [7:25:05<11:12:10,  3.46it/s] 62%|██████▏   | 231905/371472 [7:25:05<11:35:41,  3.34it/s] 62%|██████▏   | 231906/371472 [7:25:06<10:51:25,  3.57it/s] 62%|██████▏   | 231907/371472 [7:25:06<10:28:34,  3.70it/s] 62%|██████▏   | 231908/371472 [7:25:06<10:03:38,  3.85it/s] 62%|██████▏   | 231909/371472 [7:25:07<11:28:09,  3.38it/s] 62%|██████▏   | 231910/371472 [7:25:07<11:36:55,  3.34it/s] 62%|██████▏   | 231911/371472 [7:25:07<11:30:43,  3.37it/s] 62%|██████▏   | 231912/371472 [7:25:07<11:27:51,  3.38it/s] 62%|██████▏   | 231913/371472 [7:25:08<11:18:13,  3.43it/s] 62%|██████▏   | 231914/371472 [7:25:08<11:36:12,  3.34it/s] 62%|██████▏   | 231915/371472 [7:25:08<11:01:03,  3.52it/s] 62%|██████▏   | 231916/371472 [7:25:09<10:41:05,  3.63it/s] 62%|██████▏   | 231917/371472 [7:25:09<11:20:42,  3.42it/s] 62%|██████▏   | 231918/371472 [7:25:09<10:59:14,  3.53it/s] 62%|██████▏   | 231919/371472 [7:25:09<11:13:31,  3.45it/s] 62%|██████▏   | 231920/371472 [7:25:10<10:34:00,  3.67it/s]                                                            {'loss': 3.0957, 'learning_rate': 4.38287832101532e-07, 'epoch': 9.99}
 62%|██████▏   | 231920/371472 [7:25:10<10:34:00,  3.67it/s] 62%|██████▏   | 231921/371472 [7:25:10<10:22:40,  3.74it/s] 62%|██████▏   | 231922/371472 [7:25:10<10:22:41,  3.74it/s] 62%|██████▏   | 231923/371472 [7:25:10<10:04:25,  3.85it/s] 62%|██████▏   | 231924/371472 [7:25:11<9:49:47,  3.94it/s]  62%|██████▏   | 231925/371472 [7:25:11<10:31:52,  3.68it/s] 62%|██████▏   | 231926/371472 [7:25:11<11:08:35,  3.48it/s] 62%|██████▏   | 231927/371472 [7:25:12<11:13:29,  3.45it/s] 62%|██████▏   | 231928/371472 [7:25:12<11:24:01,  3.40it/s] 62%|██████▏   | 231929/371472 [7:25:12<11:26:32,  3.39it/s] 62%|██████▏   | 231930/371472 [7:25:12<11:17:53,  3.43it/s] 62%|██████▏   | 231931/371472 [7:25:13<10:43:32,  3.61it/s] 62%|██████▏   | 231932/371472 [7:25:13<10:47:57,  3.59it/s] 62%|██████▏   | 231933/371472 [7:25:13<10:35:10,  3.66it/s] 62%|██████▏   | 231934/371472 [7:25:14<10:32:50,  3.67it/s] 62%|██████▏   | 231935/371472 [7:25:14<11:06:22,  3.49it/s] 62%|██████▏   | 231936/371472 [7:25:14<10:52:23,  3.56it/s] 62%|██████▏   | 231937/371472 [7:25:14<11:22:00,  3.41it/s] 62%|██████▏   | 231938/371472 [7:25:15<11:08:28,  3.48it/s] 62%|██████▏   | 231939/371472 [7:25:15<10:51:05,  3.57it/s] 62%|██████▏   | 231940/371472 [7:25:15<11:03:07,  3.51it/s]                                                            {'loss': 2.8149, 'learning_rate': 4.3823935012605307e-07, 'epoch': 9.99}
 62%|██████▏   | 231940/371472 [7:25:15<11:03:07,  3.51it/s] 62%|██████▏   | 231941/371472 [7:25:16<12:13:33,  3.17it/s] 62%|██████▏   | 231942/371472 [7:25:16<11:32:18,  3.36it/s] 62%|██████▏   | 231943/371472 [7:25:16<11:37:13,  3.34it/s] 62%|██████▏   | 231944/371472 [7:25:16<10:54:52,  3.55it/s] 62%|██████▏   | 231945/371472 [7:25:17<10:33:49,  3.67it/s] 62%|██████▏   | 231946/371472 [7:25:17<10:35:38,  3.66it/s] 62%|██████▏   | 231947/371472 [7:25:17<10:28:04,  3.70it/s] 62%|██████▏   | 231948/371472 [7:25:18<10:25:48,  3.72it/s] 62%|██████▏   | 231949/371472 [7:25:18<10:23:00,  3.73it/s] 62%|██████▏   | 231950/371472 [7:25:18<10:01:51,  3.86it/s] 62%|██████▏   | 231951/371472 [7:25:18<9:59:03,  3.88it/s]  62%|██████▏   | 231952/371472 [7:25:19<10:20:43,  3.75it/s] 62%|██████▏   | 231953/371472 [7:25:19<10:18:37,  3.76it/s] 62%|██████▏   | 231954/371472 [7:25:19<10:28:11,  3.70it/s] 62%|██████▏   | 231955/371472 [7:25:19<10:04:34,  3.85it/s] 62%|██████▏   | 231956/371472 [7:25:20<10:30:06,  3.69it/s] 62%|██████▏   | 231957/371472 [7:25:20<10:57:50,  3.53it/s] 62%|██████▏   | 231958/371472 [7:25:20<10:45:58,  3.60it/s] 62%|██████▏   | 231959/371472 [7:25:20<10:30:09,  3.69it/s] 62%|██████▏   | 231960/371472 [7:25:21<10:07:25,  3.83it/s]                                                            {'loss': 2.8905, 'learning_rate': 4.3819086815057425e-07, 'epoch': 9.99}
 62%|██████▏   | 231960/371472 [7:25:21<10:07:25,  3.83it/s] 62%|██████▏   | 231961/371472 [7:25:21<9:56:40,  3.90it/s]  62%|██████▏   | 231962/371472 [7:25:21<10:32:51,  3.67it/s] 62%|██████▏   | 231963/371472 [7:25:21<10:16:44,  3.77it/s] 62%|██████▏   | 231964/371472 [7:25:22<10:21:23,  3.74it/s] 62%|██████▏   | 231965/371472 [7:25:22<12:28:24,  3.11it/s] 62%|██████▏   | 231966/371472 [7:25:22<11:24:52,  3.39it/s] 62%|██████▏   | 231967/371472 [7:25:23<11:13:44,  3.45it/s] 62%|██████▏   | 231968/371472 [7:25:23<10:49:45,  3.58it/s] 62%|██████▏   | 231969/371472 [7:25:23<11:20:24,  3.42it/s] 62%|██████▏   | 231970/371472 [7:25:24<11:11:43,  3.46it/s] 62%|██████▏   | 231971/371472 [7:25:24<11:10:52,  3.47it/s] 62%|██████▏   | 231972/371472 [7:25:24<11:15:28,  3.44it/s] 62%|██████▏   | 231973/371472 [7:25:24<10:52:54,  3.56it/s] 62%|██████▏   | 231974/371472 [7:25:25<10:29:43,  3.69it/s] 62%|██████▏   | 231975/371472 [7:25:25<10:37:30,  3.65it/s] 62%|██████▏   | 231976/371472 [7:25:25<10:12:11,  3.80it/s] 62%|██████▏   | 231977/371472 [7:25:25<9:58:48,  3.88it/s]  62%|██████▏   | 231978/371472 [7:25:26<9:52:15,  3.93it/s] 62%|██████▏   | 231979/371472 [7:25:26<10:12:33,  3.80it/s] 62%|██████▏   | 231980/371472 [7:25:26<10:14:43,  3.78it/s]                                                            {'loss': 2.7873, 'learning_rate': 4.3814238617509527e-07, 'epoch': 9.99}
 62%|██████▏   | 231980/371472 [7:25:26<10:14:43,  3.78it/s] 62%|██████▏   | 231981/371472 [7:25:27<10:25:20,  3.72it/s] 62%|██████▏   | 231982/371472 [7:25:27<10:36:28,  3.65it/s] 62%|██████▏   | 231983/371472 [7:25:27<10:32:35,  3.68it/s] 62%|██████▏   | 231984/371472 [7:25:27<10:22:25,  3.74it/s] 62%|██████▏   | 231985/371472 [7:25:28<10:48:21,  3.59it/s] 62%|██████▏   | 231986/371472 [7:25:28<10:29:52,  3.69it/s] 62%|██████▏   | 231987/371472 [7:25:28<10:54:21,  3.55it/s] 62%|██████▏   | 231988/371472 [7:25:29<11:32:46,  3.36it/s] 62%|██████▏   | 231989/371472 [7:25:29<11:22:07,  3.41it/s] 62%|██████▏   | 231990/371472 [7:25:29<10:55:57,  3.54it/s] 62%|██████▏   | 231991/371472 [7:25:29<10:39:56,  3.63it/s] 62%|██████▏   | 231992/371472 [7:25:30<10:28:12,  3.70it/s] 62%|██████▏   | 231993/371472 [7:25:30<10:02:25,  3.86it/s] 62%|██████▏   | 231994/371472 [7:25:30<9:59:09,  3.88it/s]  62%|██████▏   | 231995/371472 [7:25:30<10:28:27,  3.70it/s] 62%|██████▏   | 231996/371472 [7:25:31<10:12:45,  3.79it/s] 62%|██████▏   | 231997/371472 [7:25:31<9:52:46,  3.92it/s]  62%|██████▏   | 231998/371472 [7:25:31<9:37:39,  4.02it/s] 62%|██████▏   | 231999/371472 [7:25:31<9:40:57,  4.00it/s] 62%|██████▏   | 232000/371472 [7:25:32<9:50:17,  3.94it/s]                                                           {'loss': 2.8741, 'learning_rate': 4.3809390419961644e-07, 'epoch': 9.99}
 62%|██████▏   | 232000/371472 [7:25:32<9:50:17,  3.94it/s] 62%|██████▏   | 232001/371472 [7:25:32<9:50:08,  3.94it/s] 62%|██████▏   | 232002/371472 [7:25:32<9:49:53,  3.94it/s] 62%|██████▏   | 232003/371472 [7:25:32<9:59:18,  3.88it/s] 62%|██████▏   | 232004/371472 [7:25:33<10:08:43,  3.82it/s] 62%|██████▏   | 232005/371472 [7:25:33<10:44:19,  3.61it/s] 62%|██████▏   | 232006/371472 [7:25:33<10:45:50,  3.60it/s] 62%|██████▏   | 232007/371472 [7:25:34<10:49:24,  3.58it/s] 62%|██████▏   | 232008/371472 [7:25:34<10:38:45,  3.64it/s] 62%|██████▏   | 232009/371472 [7:25:34<10:51:44,  3.57it/s] 62%|██████▏   | 232010/371472 [7:25:34<10:33:29,  3.67it/s] 62%|██████▏   | 232011/371472 [7:25:35<10:33:22,  3.67it/s] 62%|██████▏   | 232012/371472 [7:25:35<10:47:18,  3.59it/s] 62%|██████▏   | 232013/371472 [7:25:35<10:26:37,  3.71it/s] 62%|██████▏   | 232014/371472 [7:25:35<10:47:25,  3.59it/s] 62%|██████▏   | 232015/371472 [7:25:36<10:28:16,  3.70it/s] 62%|██████▏   | 232016/371472 [7:25:36<10:22:38,  3.73it/s] 62%|██████▏   | 232017/371472 [7:25:36<10:19:58,  3.75it/s] 62%|██████▏   | 232018/371472 [7:25:37<11:01:58,  3.51it/s] 62%|██████▏   | 232019/371472 [7:25:37<11:43:02,  3.31it/s] 62%|██████▏   | 232020/371472 [7:25:37<11:01:59,  3.51it/s]                                                            {'loss': 2.9483, 'learning_rate': 4.380454222241375e-07, 'epoch': 9.99}
 62%|██████▏   | 232020/371472 [7:25:37<11:01:59,  3.51it/s] 62%|██████▏   | 232021/371472 [7:25:37<10:42:06,  3.62it/s] 62%|██████▏   | 232022/371472 [7:25:38<11:07:37,  3.48it/s] 62%|██████▏   | 232023/371472 [7:25:38<11:05:13,  3.49it/s] 62%|██████▏   | 232024/371472 [7:25:38<10:36:41,  3.65it/s] 62%|██████▏   | 232025/371472 [7:25:39<11:03:16,  3.50it/s] 62%|██████▏   | 232026/371472 [7:25:39<11:12:37,  3.46it/s] 62%|██████▏   | 232027/371472 [7:25:39<11:24:27,  3.40it/s] 62%|██████▏   | 232028/371472 [7:25:39<10:42:30,  3.62it/s] 62%|██████▏   | 232029/371472 [7:25:40<10:24:19,  3.72it/s] 62%|██████▏   | 232030/371472 [7:25:40<10:08:27,  3.82it/s] 62%|██████▏   | 232031/371472 [7:25:40<10:15:53,  3.77it/s] 62%|██████▏   | 232032/371472 [7:25:40<10:26:17,  3.71it/s] 62%|██████▏   | 232033/371472 [7:25:41<10:12:09,  3.80it/s] 62%|██████▏   | 232034/371472 [7:25:41<10:17:24,  3.76it/s] 62%|██████▏   | 232035/371472 [7:25:41<9:53:45,  3.91it/s]  62%|██████▏   | 232036/371472 [7:25:41<10:01:05,  3.87it/s] 62%|██████▏   | 232037/371472 [7:25:42<10:31:20,  3.68it/s] 62%|██████▏   | 232038/371472 [7:25:42<10:41:48,  3.62it/s] 62%|██████▏   | 232039/371472 [7:25:42<10:29:26,  3.69it/s] 62%|██████▏   | 232040/371472 [7:25:43<10:39:09,  3.64it/s]                                                            {'loss': 3.0034, 'learning_rate': 4.3799694024865864e-07, 'epoch': 9.99}
 62%|██████▏   | 232040/371472 [7:25:43<10:39:09,  3.64it/s] 62%|██████▏   | 232041/371472 [7:25:43<10:24:00,  3.72it/s] 62%|██████▏   | 232042/371472 [7:25:43<11:10:48,  3.46it/s] 62%|██████▏   | 232043/371472 [7:25:43<10:58:10,  3.53it/s] 62%|██████▏   | 232044/371472 [7:25:44<11:17:30,  3.43it/s] 62%|██████▏   | 232045/371472 [7:25:44<10:55:22,  3.55it/s] 62%|██████▏   | 232046/371472 [7:25:44<12:18:46,  3.15it/s] 62%|██████▏   | 232047/371472 [7:25:45<11:34:31,  3.35it/s] 62%|██████▏   | 232048/371472 [7:25:45<11:18:48,  3.42it/s] 62%|██████▏   | 232049/371472 [7:25:45<11:24:05,  3.40it/s] 62%|██████▏   | 232050/371472 [7:25:46<11:02:27,  3.51it/s] 62%|██████▏   | 232051/371472 [7:25:46<10:38:16,  3.64it/s] 62%|██████▏   | 232052/371472 [7:25:46<11:09:49,  3.47it/s] 62%|██████▏   | 232053/371472 [7:25:46<10:37:18,  3.65it/s] 62%|██████▏   | 232054/371472 [7:25:47<10:47:52,  3.59it/s] 62%|██████▏   | 232055/371472 [7:25:47<11:31:39,  3.36it/s] 62%|██████▏   | 232056/371472 [7:25:47<10:44:47,  3.60it/s] 62%|██████▏   | 232057/371472 [7:25:47<10:15:28,  3.78it/s] 62%|██████▏   | 232058/371472 [7:25:48<11:33:36,  3.35it/s] 62%|██████▏   | 232059/371472 [7:25:48<11:33:13,  3.35it/s] 62%|██████▏   | 232060/371472 [7:25:48<11:13:46,  3.45it/s]                                                            {'loss': 2.9778, 'learning_rate': 4.379484582731797e-07, 'epoch': 10.0}
 62%|██████▏   | 232060/371472 [7:25:48<11:13:46,  3.45it/s] 62%|██████▏   | 232061/371472 [7:25:49<11:29:27,  3.37it/s] 62%|██████▏   | 232062/371472 [7:25:49<11:08:23,  3.48it/s] 62%|██████▏   | 232063/371472 [7:25:49<10:43:10,  3.61it/s] 62%|██████▏   | 232064/371472 [7:25:50<10:58:48,  3.53it/s] 62%|██████▏   | 232065/371472 [7:25:50<10:28:10,  3.70it/s] 62%|██████▏   | 232066/371472 [7:25:50<10:33:58,  3.66it/s] 62%|██████▏   | 232067/371472 [7:25:50<10:43:03,  3.61it/s] 62%|██████▏   | 232068/371472 [7:25:51<10:15:22,  3.78it/s] 62%|██████▏   | 232069/371472 [7:25:51<11:07:27,  3.48it/s] 62%|██████▏   | 232070/371472 [7:25:51<11:21:47,  3.41it/s] 62%|██████▏   | 232071/371472 [7:25:51<10:54:48,  3.55it/s] 62%|██████▏   | 232072/371472 [7:25:52<11:01:41,  3.51it/s] 62%|██████▏   | 232073/371472 [7:25:52<12:05:21,  3.20it/s] 62%|██████▏   | 232074/371472 [7:25:52<12:16:58,  3.15it/s] 62%|██████▏   | 232075/371472 [7:25:53<12:51:31,  3.01it/s] 62%|██████▏   | 232076/371472 [7:25:53<11:54:46,  3.25it/s] 62%|██████▏   | 232077/371472 [7:25:53<11:26:05,  3.39it/s] 62%|██████▏   | 232078/371472 [7:25:54<11:41:42,  3.31it/s] 62%|██████▏   | 232079/371472 [7:25:54<11:06:41,  3.48it/s] 62%|██████▏   | 232080/371472 [7:25:54<11:27:39,  3.38it/s]                                                            {'loss': 2.9125, 'learning_rate': 4.378999762977009e-07, 'epoch': 10.0}
 62%|██████▏   | 232080/371472 [7:25:54<11:27:39,  3.38it/s] 62%|██████▏   | 232081/371472 [7:25:55<11:26:47,  3.38it/s] 62%|██████▏   | 232082/371472 [7:25:55<10:58:31,  3.53it/s] 62%|██████▏   | 232083/371472 [7:25:55<11:46:25,  3.29it/s] 62%|██████▏   | 232084/371472 [7:25:55<11:15:00,  3.44it/s] 62%|██████▏   | 232085/371472 [7:25:56<10:53:05,  3.56it/s] 62%|██████▏   | 232086/371472 [7:25:56<10:37:15,  3.65it/s] 62%|██████▏   | 232087/371472 [7:25:56<10:25:03,  3.72it/s] 62%|██████▏   | 232088/371472 [7:25:57<11:43:35,  3.30it/s] 62%|██████▏   | 232089/371472 [7:25:57<11:32:06,  3.36it/s] 62%|██████▏   | 232090/371472 [7:25:57<12:43:42,  3.04it/s] 62%|██████▏   | 232091/371472 [7:25:57<11:51:07,  3.27it/s] 62%|██████▏   | 232092/371472 [7:25:58<11:26:58,  3.38it/s] 62%|██████▏   | 232093/371472 [7:25:58<10:56:19,  3.54it/s] 62%|██████▏   | 232094/371472 [7:25:58<11:44:39,  3.30it/s] 62%|██████▏   | 232095/371472 [7:25:59<11:09:56,  3.47it/s] 62%|██████▏   | 232096/371472 [7:25:59<10:51:39,  3.56it/s] 62%|██████▏   | 232097/371472 [7:25:59<10:32:26,  3.67it/s] 62%|██████▏   | 232098/371472 [7:25:59<10:23:25,  3.73it/s] 62%|██████▏   | 232099/371472 [7:26:00<11:52:08,  3.26it/s] 62%|██████▏   | 232100/371472 [7:26:00<12:01:41,  3.22it/s]                                                            {'loss': 2.8971, 'learning_rate': 4.3785149432222196e-07, 'epoch': 10.0}
 62%|██████▏   | 232100/371472 [7:26:00<12:01:41,  3.22it/s] 62%|██████▏   | 232101/371472 [7:26:00<11:19:53,  3.42it/s] 62%|██████▏   | 232102/371472 [7:26:01<10:49:41,  3.58it/s] 62%|██████▏   | 232103/371472 [7:26:01<10:28:01,  3.70it/s] 62%|██████▏   | 232104/371472 [7:26:01<10:29:25,  3.69it/s] 62%|██████▏   | 232105/371472 [7:26:01<11:41:22,  3.31it/s] 62%|██████▏   | 232106/371472 [7:26:02<12:19:44,  3.14it/s] 62%|██████▏   | 232107/371472 [7:26:02<12:18:36,  3.14it/s] 62%|██████▏   | 232108/371472 [7:26:02<12:21:02,  3.13it/s] 62%|██████▏   | 232109/371472 [7:26:03<11:42:29,  3.31it/s] 62%|██████▏   | 232110/371472 [7:26:03<11:30:49,  3.36it/s] 62%|██████▏   | 232111/371472 [7:26:03<11:14:33,  3.44it/s] 62%|██████▏   | 232112/371472 [7:26:04<10:40:52,  3.62it/s] 62%|██████▏   | 232113/371472 [7:26:04<10:39:46,  3.63it/s] 62%|██████▏   | 232114/371472 [7:26:04<10:28:21,  3.70it/s] 62%|██████▏   | 232115/371472 [7:26:04<10:43:53,  3.61it/s] 62%|██████▏   | 232116/371472 [7:26:05<11:30:45,  3.36it/s] 62%|██████▏   | 232117/371472 [7:26:05<10:51:00,  3.57it/s] 62%|██████▏   | 232118/371472 [7:26:05<11:25:43,  3.39it/s] 62%|██████▏   | 232119/371472 [7:26:06<10:56:53,  3.54it/s] 62%|██████▏   | 232120/371472 [7:26:06<12:28:29,  3.10it/s]                                                            {'loss': 2.9548, 'learning_rate': 4.378030123467431e-07, 'epoch': 10.0}
 62%|██████▏   | 232120/371472 [7:26:06<12:28:29,  3.10it/s] 62%|██████▏   | 232121/371472 [7:26:06<12:26:02,  3.11it/s] 62%|██████▏   | 232122/371472 [7:26:07<12:29:08,  3.10it/s] 62%|██████▏   | 232123/371472 [7:26:07<11:49:37,  3.27it/s] 62%|██████▏   | 232124/371472 [7:26:07<11:12:22,  3.45it/s] 62%|██████▏   | 232125/371472 [7:26:07<10:34:56,  3.66it/s] 62%|██████▏   | 232126/371472 [7:26:08<10:54:36,  3.55it/s] 62%|██████▏   | 232127/371472 [7:26:08<10:36:39,  3.65it/s] 62%|██████▏   | 232128/371472 [7:26:08<11:24:28,  3.39it/s] 62%|██████▏   | 232129/371472 [7:26:09<10:57:43,  3.53it/s] 62%|██████▏   | 232130/371472 [7:26:09<11:12:41,  3.45it/s] 62%|██████▏   | 232131/371472 [7:26:09<11:09:22,  3.47it/s] 62%|██████▏   | 232132/371472 [7:26:09<11:01:42,  3.51it/s] 62%|██████▏   | 232133/371472 [7:26:10<11:10:42,  3.46it/s] 62%|██████▏   | 232134/371472 [7:26:10<11:20:18,  3.41it/s] 62%|██████▏   | 232135/371472 [7:26:10<12:30:14,  3.10it/s] 62%|██████▏   | 232136/371472 [7:26:11<12:36:38,  3.07it/s] 62%|██████▏   | 232137/371472 [7:26:11<11:56:34,  3.24it/s] 62%|██████▏   | 232138/371472 [7:26:11<11:20:33,  3.41it/s] 62%|██████▏   | 232139/371472 [7:26:11<10:42:11,  3.62it/s] 62%|██████▏   | 232140/371472 [7:26:12<10:39:22,  3.63it/s]                                                            {'loss': 2.85, 'learning_rate': 4.3775453037126416e-07, 'epoch': 10.0}
 62%|██████▏   | 232140/371472 [7:26:12<10:39:22,  3.63it/s] 62%|██████▏   | 232141/371472 [7:26:12<10:24:18,  3.72it/s] 62%|██████▏   | 232142/371472 [7:26:12<10:48:05,  3.58it/s] 62%|██████▏   | 232143/371472 [7:26:13<10:52:42,  3.56it/s] 62%|██████▏   | 232144/371472 [7:26:13<10:54:44,  3.55it/s] 62%|██████▏   | 232145/371472 [7:26:13<11:10:03,  3.47it/s] 62%|██████▏   | 232146/371472 [7:26:13<10:56:09,  3.54it/s] 62%|██████▏   | 232147/371472 [7:26:14<11:07:16,  3.48it/s] 62%|██████▏   | 232148/371472 [7:26:14<10:59:07,  3.52it/s] 62%|██████▏   | 232149/371472 [7:26:14<10:54:03,  3.55it/s] 62%|██████▏   | 232150/371472 [7:26:15<11:19:15,  3.42it/s] 62%|██████▏   | 232151/371472 [7:26:15<11:02:16,  3.51it/s] 62%|██████▏   | 232152/371472 [7:26:15<10:44:35,  3.60it/s] 62%|██████▏   | 232153/371472 [7:26:15<11:16:17,  3.43it/s] 62%|██████▏   | 232154/371472 [7:26:16<10:44:43,  3.60it/s] 62%|██████▏   | 232155/371472 [7:26:16<11:04:58,  3.49it/s] 62%|██████▏   | 232156/371472 [7:26:16<10:52:13,  3.56it/s] 62%|██████▏   | 232157/371472 [7:26:17<10:44:58,  3.60it/s] 62%|██████▏   | 232158/371472 [7:26:17<10:41:56,  3.62it/s] 62%|██████▏   | 232159/371472 [7:26:17<10:45:16,  3.60it/s] 62%|██████▏   | 232160/371472 [7:26:17<10:33:30,  3.67it/s]                                                            {'loss': 2.8833, 'learning_rate': 4.3770604839578533e-07, 'epoch': 10.0}
 62%|██████▏   | 232160/371472 [7:26:17<10:33:30,  3.67it/s] 62%|██████▏   | 232161/371472 [7:26:18<10:37:52,  3.64it/s] 62%|██████▏   | 232162/371472 [7:26:18<10:19:34,  3.75it/s] 62%|██████▏   | 232163/371472 [7:26:18<10:19:13,  3.75it/s] 62%|██████▏   | 232164/371472 [7:26:18<10:05:50,  3.83it/s] 62%|██████▏   | 232165/371472 [7:26:19<10:00:44,  3.86it/s] 62%|██████▏   | 232166/371472 [7:26:19<10:02:32,  3.85it/s] 62%|██████▏   | 232167/371472 [7:26:19<10:40:25,  3.63it/s] 62%|██████▏   | 232168/371472 [7:26:19<10:17:06,  3.76it/s] 62%|██████▏   | 232169/371472 [7:26:20<10:12:44,  3.79it/s] 62%|██████▎   | 232170/371472 [7:26:20<10:33:06,  3.67it/s]Some non-default generation parameters are set in the model config. These should go into a GenerationConfig file (https://huggingface.co./docs/transformers/generation_strategies#save-a-custom-decoding-strategy-with-your-model) instead. This warning will be raised to an exception in v4.41.
Non-default generation parameters: {'max_length': 200, 'early_stopping': True, 'num_beams': 5, 'forced_eos_token_id': 2}
/opt/conda/lib/python3.10/multiprocessing/popen_fork.py:66: RuntimeWarning: os.fork() was called. os.fork() is incompatible with multithreaded code, and JAX is multithreaded, so this will likely lead to a deadlock.
  self.pid = os.fork()
 63%|██████▎   | 232171/371472 [7:26:46<306:06:29,  7.91s/it] 63%|██████▎   | 232172/371472 [7:26:46<217:39:19,  5.62s/it] 63%|██████▎   | 232173/371472 [7:26:46<156:07:09,  4.03s/it] 63%|██████▎   | 232174/371472 [7:26:47<112:50:37,  2.92s/it] 63%|██████▎   | 232175/371472 [7:26:47<83:11:30,  2.15s/it]  63%|██████▎   | 232176/371472 [7:26:47<62:45:31,  1.62s/it] 63%|██████▎   | 232177/371472 [7:26:48<47:06:06,  1.22s/it] 63%|██████▎   | 232178/371472 [7:26:48<36:05:47,  1.07it/s] 63%|██████▎   | 232179/371472 [7:26:48<28:31:15,  1.36it/s] 63%|██████▎   | 232180/371472 [7:26:49<23:08:08,  1.67it/s]                                                            {'loss': 2.9597, 'learning_rate': 4.376575664203064e-07, 'epoch': 10.0}
 63%|██████▎   | 232180/371472 [7:26:49<23:08:08,  1.67it/s] 63%|██████▎   | 232181/371472 [7:26:49<19:20:31,  2.00it/s] 63%|██████▎   | 232182/371472 [7:26:49<16:41:17,  2.32it/s] 63%|██████▎   | 232183/371472 [7:26:49<14:53:13,  2.60it/s] 63%|██████▎   | 232184/371472 [7:26:50<13:23:49,  2.89it/s] 63%|██████▎   | 232185/371472 [7:26:50<12:22:21,  3.13it/s] 63%|██████▎   | 232186/371472 [7:26:50<11:50:06,  3.27it/s] 63%|██████▎   | 232187/371472 [7:26:50<12:11:27,  3.17it/s] 63%|██████▎   | 232188/371472 [7:26:51<11:43:44,  3.30it/s] 63%|██████▎   | 232189/371472 [7:26:51<11:24:56,  3.39it/s] 63%|██████▎   | 232190/371472 [7:26:51<11:09:50,  3.47it/s] 63%|██████▎   | 232191/371472 [7:26:52<11:06:14,  3.48it/s] 63%|██████▎   | 232192/371472 [7:26:52<10:59:39,  3.52it/s] 63%|██████▎   | 232193/371472 [7:26:52<10:45:57,  3.59it/s] 63%|██████▎   | 232194/371472 [7:26:52<10:28:32,  3.69it/s] 63%|██████▎   | 232195/371472 [7:26:53<10:37:40,  3.64it/s] 63%|██████▎   | 232196/371472 [7:26:53<10:35:30,  3.65it/s] 63%|██████▎   | 232197/371472 [7:26:53<10:43:08,  3.61it/s] 63%|██████▎   | 232198/371472 [7:26:53<10:36:56,  3.64it/s] 63%|██████▎   | 232199/371472 [7:26:54<10:15:08,  3.77it/s] 63%|██████▎   | 232200/371472 [7:26:54<10:44:16,  3.60it/s]                                                            {'loss': 2.9665, 'learning_rate': 4.3760908444482753e-07, 'epoch': 10.0}
 63%|██████▎   | 232200/371472 [7:26:54<10:44:16,  3.60it/s] 63%|██████▎   | 232201/371472 [7:26:54<10:41:42,  3.62it/s] 63%|██████▎   | 232202/371472 [7:26:55<10:56:06,  3.54it/s] 63%|██████▎   | 232203/371472 [7:26:55<10:36:23,  3.65it/s] 63%|██████▎   | 232204/371472 [7:26:55<10:55:15,  3.54it/s] 63%|██████▎   | 232205/371472 [7:26:55<10:46:15,  3.59it/s] 63%|██████▎   | 232206/371472 [7:26:56<10:31:42,  3.67it/s] 63%|██████▎   | 232207/371472 [7:26:56<10:28:35,  3.69it/s] 63%|██████▎   | 232208/371472 [7:26:56<10:47:52,  3.58it/s] 63%|██████▎   | 232209/371472 [7:26:57<10:59:10,  3.52it/s] 63%|██████▎   | 232210/371472 [7:26:57<11:13:51,  3.44it/s] 63%|██████▎   | 232211/371472 [7:26:57<10:51:40,  3.56it/s] 63%|██████▎   | 232212/371472 [7:26:57<11:18:05,  3.42it/s] 63%|██████▎   | 232213/371472 [7:26:58<11:01:22,  3.51it/s] 63%|██████▎   | 232214/371472 [7:26:58<10:47:18,  3.59it/s] 63%|██████▎   | 232215/371472 [7:26:58<10:53:44,  3.55it/s] 63%|██████▎   | 232216/371472 [7:26:59<10:48:03,  3.58it/s] 63%|██████▎   | 232217/371472 [7:26:59<11:13:38,  3.45it/s] 63%|██████▎   | 232218/371472 [7:26:59<10:50:11,  3.57it/s] 63%|██████▎   | 232219/371472 [7:26:59<11:22:16,  3.40it/s] 63%|██████▎   | 232220/371472 [7:27:00<12:07:03,  3.19it/s]                                                            {'loss': 2.9843, 'learning_rate': 4.375606024693486e-07, 'epoch': 10.0}
 63%|██████▎   | 232220/371472 [7:27:00<12:07:03,  3.19it/s] 63%|██████▎   | 232221/371472 [7:27:00<11:39:04,  3.32it/s] 63%|██████▎   | 232222/371472 [7:27:00<11:41:02,  3.31it/s] 63%|██████▎   | 232223/371472 [7:27:01<11:31:53,  3.35it/s] 63%|██████▎   | 232224/371472 [7:27:01<11:26:46,  3.38it/s] 63%|██████▎   | 232225/371472 [7:27:01<12:09:47,  3.18it/s] 63%|██████▎   | 232226/371472 [7:27:02<11:23:38,  3.39it/s] 63%|██████▎   | 232227/371472 [7:27:02<11:08:42,  3.47it/s] 63%|██████▎   | 232228/371472 [7:27:02<10:49:03,  3.58it/s] 63%|██████▎   | 232229/371472 [7:27:02<10:43:30,  3.61it/s] 63%|██████▎   | 232230/371472 [7:27:03<10:38:10,  3.64it/s] 63%|██████▎   | 232231/371472 [7:27:03<10:53:45,  3.55it/s] 63%|██████▎   | 232232/371472 [7:27:03<11:23:32,  3.40it/s] 63%|██████▎   | 232233/371472 [7:27:04<11:57:10,  3.24it/s] 63%|██████▎   | 232234/371472 [7:27:04<11:17:51,  3.42it/s] 63%|██████▎   | 232235/371472 [7:27:04<10:52:41,  3.56it/s] 63%|██████▎   | 232236/371472 [7:27:04<10:53:28,  3.55it/s] 63%|██████▎   | 232237/371472 [7:27:05<11:37:48,  3.33it/s] 63%|██████▎   | 232238/371472 [7:27:05<11:11:16,  3.46it/s] 63%|██████▎   | 232239/371472 [7:27:05<11:02:16,  3.50it/s] 63%|██████▎   | 232240/371472 [7:27:06<11:30:04,  3.36it/s]                                                            {'loss': 2.7894, 'learning_rate': 4.375121204938697e-07, 'epoch': 10.0}
 63%|██████▎   | 232240/371472 [7:27:06<11:30:04,  3.36it/s] 63%|██████▎   | 232241/371472 [7:27:06<11:01:34,  3.51it/s] 63%|██████▎   | 232242/371472 [7:27:06<10:45:58,  3.59it/s] 63%|██████▎   | 232243/371472 [7:27:06<10:37:27,  3.64it/s] 63%|██████▎   | 232244/371472 [7:27:07<11:36:54,  3.33it/s] 63%|██████▎   | 232245/371472 [7:27:07<11:08:31,  3.47it/s] 63%|██████▎   | 232246/371472 [7:27:07<11:19:07,  3.42it/s] 63%|██████▎   | 232247/371472 [7:27:08<10:58:29,  3.52it/s] 63%|██████▎   | 232248/371472 [7:27:08<10:48:52,  3.58it/s] 63%|██████▎   | 232249/371472 [7:27:08<10:35:36,  3.65it/s] 63%|██████▎   | 232250/371472 [7:27:08<10:29:49,  3.68it/s] 63%|██████▎   | 232251/371472 [7:27:09<10:48:58,  3.58it/s] 63%|██████▎   | 232252/371472 [7:27:09<10:45:18,  3.60it/s] 63%|██████▎   | 232253/371472 [7:27:09<11:01:52,  3.51it/s] 63%|██████▎   | 232254/371472 [7:27:10<11:08:46,  3.47it/s] 63%|██████▎   | 232255/371472 [7:27:10<11:30:50,  3.36it/s] 63%|██████▎   | 232256/371472 [7:27:10<11:35:59,  3.33it/s] 63%|██████▎   | 232257/371472 [7:27:10<11:32:38,  3.35it/s] 63%|██████▎   | 232258/371472 [7:27:11<11:09:20,  3.47it/s] 63%|██████▎   | 232259/371472 [7:27:11<10:59:12,  3.52it/s] 63%|██████▎   | 232260/371472 [7:27:11<11:30:42,  3.36it/s]                                                            {'loss': 2.787, 'learning_rate': 4.374636385183908e-07, 'epoch': 10.0}
 63%|██████▎   | 232260/371472 [7:27:11<11:30:42,  3.36it/s] 63%|██████▎   | 232261/371472 [7:27:12<10:54:19,  3.55it/s] 63%|██████▎   | 232262/371472 [7:27:12<10:32:52,  3.67it/s] 63%|██████▎   | 232263/371472 [7:27:12<11:09:24,  3.47it/s] 63%|██████▎   | 232264/371472 [7:27:12<11:24:20,  3.39it/s] 63%|██████▎   | 232265/371472 [7:27:13<11:09:54,  3.46it/s] 63%|██████▎   | 232266/371472 [7:27:13<10:56:05,  3.54it/s] 63%|██████▎   | 232267/371472 [7:27:13<10:38:17,  3.63it/s] 63%|██████▎   | 232268/371472 [7:27:14<11:11:40,  3.45it/s] 63%|██████▎   | 232269/371472 [7:27:14<11:22:33,  3.40it/s] 63%|██████▎   | 232270/371472 [7:27:14<10:47:31,  3.58it/s] 63%|██████▎   | 232271/371472 [7:27:14<10:55:32,  3.54it/s] 63%|██████▎   | 232272/371472 [7:27:15<11:59:01,  3.23it/s] 63%|██████▎   | 232273/371472 [7:27:15<11:43:08,  3.30it/s] 63%|██████▎   | 232274/371472 [7:27:15<11:10:23,  3.46it/s] 63%|██████▎   | 232275/371472 [7:27:16<10:49:22,  3.57it/s] 63%|██████▎   | 232276/371472 [7:27:16<10:38:07,  3.64it/s] 63%|██████▎   | 232277/371472 [7:27:16<11:34:31,  3.34it/s] 63%|██████▎   | 232278/371472 [7:27:16<11:25:29,  3.38it/s] 63%|██████▎   | 232279/371472 [7:27:17<11:23:17,  3.40it/s] 63%|██████▎   | 232280/371472 [7:27:17<11:34:56,  3.34it/s]                                                            {'loss': 2.7755, 'learning_rate': 4.37415156542912e-07, 'epoch': 10.0}
 63%|██████▎   | 232280/371472 [7:27:17<11:34:56,  3.34it/s] 63%|██████▎   | 232281/371472 [7:27:17<11:02:18,  3.50it/s] 63%|██████▎   | 232282/371472 [7:27:18<10:35:37,  3.65it/s] 63%|██████▎   | 232283/371472 [7:27:18<11:57:55,  3.23it/s] 63%|██████▎   | 232284/371472 [7:27:18<11:45:20,  3.29it/s] 63%|██████▎   | 232285/371472 [7:27:19<11:49:41,  3.27it/s] 63%|██████▎   | 232286/371472 [7:27:19<11:24:33,  3.39it/s] 63%|██████▎   | 232287/371472 [7:27:19<10:55:00,  3.54it/s] 63%|██████▎   | 232288/371472 [7:27:19<10:34:52,  3.65it/s] 63%|██████▎   | 232289/371472 [7:27:20<10:54:35,  3.54it/s] 63%|██████▎   | 232290/371472 [7:27:20<10:25:32,  3.71it/s] 63%|██████▎   | 232291/371472 [7:27:20<10:42:24,  3.61it/s] 63%|██████▎   | 232292/371472 [7:27:21<11:19:22,  3.41it/s] 63%|██████▎   | 232293/371472 [7:27:21<11:23:07,  3.40it/s] 63%|██████▎   | 232294/371472 [7:27:21<11:03:31,  3.50it/s] 63%|██████▎   | 232295/371472 [7:27:21<10:59:49,  3.52it/s] 63%|██████▎   | 232296/371472 [7:27:22<12:12:49,  3.17it/s] 63%|██████▎   | 232297/371472 [7:27:22<11:29:30,  3.36it/s] 63%|██████▎   | 232298/371472 [7:27:22<11:22:07,  3.40it/s] 63%|██████▎   | 232299/371472 [7:27:23<10:42:21,  3.61it/s] 63%|██████▎   | 232300/371472 [7:27:23<11:05:01,  3.49it/s]                                                            {'loss': 2.8855, 'learning_rate': 4.37366674567433e-07, 'epoch': 10.01}
 63%|██████▎   | 232300/371472 [7:27:23<11:05:01,  3.49it/s] 63%|██████▎   | 232301/371472 [7:27:23<10:57:57,  3.53it/s] 63%|██████▎   | 232302/371472 [7:27:23<10:45:49,  3.59it/s] 63%|██████▎   | 232303/371472 [7:27:24<10:18:59,  3.75it/s] 63%|██████▎   | 232304/371472 [7:27:24<10:49:22,  3.57it/s] 63%|██████▎   | 232305/371472 [7:27:24<11:00:26,  3.51it/s] 63%|██████▎   | 232306/371472 [7:27:24<10:34:41,  3.65it/s] 63%|██████▎   | 232307/371472 [7:27:25<11:00:25,  3.51it/s] 63%|██████▎   | 232308/371472 [7:27:25<10:28:51,  3.69it/s] 63%|██████▎   | 232309/371472 [7:27:25<10:19:22,  3.74it/s] 63%|██████▎   | 232310/371472 [7:27:26<10:08:45,  3.81it/s] 63%|██████▎   | 232311/371472 [7:27:26<10:44:57,  3.60it/s] 63%|██████▎   | 232312/371472 [7:27:26<10:48:51,  3.57it/s] 63%|██████▎   | 232313/371472 [7:27:26<10:51:35,  3.56it/s] 63%|██████▎   | 232314/371472 [7:27:27<11:28:21,  3.37it/s] 63%|██████▎   | 232315/371472 [7:27:27<11:09:42,  3.46it/s] 63%|██████▎   | 232316/371472 [7:27:27<11:14:14,  3.44it/s] 63%|██████▎   | 232317/371472 [7:27:28<14:23:15,  2.69it/s] 63%|██████▎   | 232318/371472 [7:27:28<13:11:25,  2.93it/s] 63%|██████▎   | 232319/371472 [7:27:28<12:26:55,  3.10it/s] 63%|██████▎   | 232320/371472 [7:27:29<12:05:32,  3.20it/s]                                                            {'loss': 2.8523, 'learning_rate': 4.3731819259195417e-07, 'epoch': 10.01}
 63%|██████▎   | 232320/371472 [7:27:29<12:05:32,  3.20it/s] 63%|██████▎   | 232321/371472 [7:27:29<11:26:28,  3.38it/s] 63%|██████▎   | 232322/371472 [7:27:29<11:03:02,  3.50it/s] 63%|██████▎   | 232323/371472 [7:27:30<11:04:34,  3.49it/s] 63%|██████▎   | 232324/371472 [7:27:30<10:46:38,  3.59it/s] 63%|██████▎   | 232325/371472 [7:27:30<11:43:55,  3.29it/s] 63%|██████▎   | 232326/371472 [7:27:30<11:18:13,  3.42it/s] 63%|██████▎   | 232327/371472 [7:27:31<11:09:41,  3.46it/s] 63%|██████▎   | 232328/371472 [7:27:31<11:29:52,  3.36it/s] 63%|██████▎   | 232329/371472 [7:27:31<11:18:21,  3.42it/s] 63%|██████▎   | 232330/371472 [7:27:32<11:55:43,  3.24it/s] 63%|██████▎   | 232331/371472 [7:27:32<11:19:44,  3.41it/s] 63%|██████▎   | 232332/371472 [7:27:32<11:11:00,  3.46it/s] 63%|██████▎   | 232333/371472 [7:27:33<11:39:01,  3.32it/s] 63%|██████▎   | 232334/371472 [7:27:33<11:34:05,  3.34it/s] 63%|██████▎   | 232335/371472 [7:27:33<11:06:36,  3.48it/s] 63%|██████▎   | 232336/371472 [7:27:33<11:23:47,  3.39it/s] 63%|██████▎   | 232337/371472 [7:27:34<11:43:12,  3.30it/s] 63%|██████▎   | 232338/371472 [7:27:34<11:21:08,  3.40it/s] 63%|██████▎   | 232339/371472 [7:27:34<11:20:44,  3.41it/s] 63%|██████▎   | 232340/371472 [7:27:35<11:06:45,  3.48it/s]                                                            {'loss': 3.0394, 'learning_rate': 4.3726971061647524e-07, 'epoch': 10.01}
 63%|██████▎   | 232340/371472 [7:27:35<11:06:45,  3.48it/s] 63%|██████▎   | 232341/371472 [7:27:35<11:27:58,  3.37it/s] 63%|██████▎   | 232342/371472 [7:27:35<10:57:04,  3.53it/s] 63%|██████▎   | 232343/371472 [7:27:35<10:33:12,  3.66it/s] 63%|██████▎   | 232344/371472 [7:27:36<11:17:56,  3.42it/s] 63%|██████▎   | 232345/371472 [7:27:36<10:43:48,  3.60it/s] 63%|██████▎   | 232346/371472 [7:27:36<11:04:28,  3.49it/s] 63%|██████▎   | 232347/371472 [7:27:37<10:51:36,  3.56it/s] 63%|██████▎   | 232348/371472 [7:27:37<10:36:46,  3.64it/s] 63%|██████▎   | 232349/371472 [7:27:37<10:54:23,  3.54it/s] 63%|██████▎   | 232350/371472 [7:27:37<10:52:37,  3.55it/s] 63%|██████▎   | 232351/371472 [7:27:38<10:35:59,  3.65it/s] 63%|██████▎   | 232352/371472 [7:27:38<10:37:17,  3.64it/s] 63%|██████▎   | 232353/371472 [7:27:38<10:24:17,  3.71it/s] 63%|██████▎   | 232354/371472 [7:27:38<10:12:06,  3.79it/s] 63%|██████▎   | 232355/371472 [7:27:39<10:07:09,  3.82it/s] 63%|██████▎   | 232356/371472 [7:27:39<10:13:56,  3.78it/s] 63%|██████▎   | 232357/371472 [7:27:39<11:17:23,  3.42it/s] 63%|██████▎   | 232358/371472 [7:27:40<10:42:54,  3.61it/s] 63%|██████▎   | 232359/371472 [7:27:40<10:58:36,  3.52it/s] 63%|██████▎   | 232360/371472 [7:27:40<10:49:32,  3.57it/s]                                                            {'loss': 2.918, 'learning_rate': 4.3722122864099637e-07, 'epoch': 10.01}
 63%|██████▎   | 232360/371472 [7:27:40<10:49:32,  3.57it/s] 63%|██████▎   | 232361/371472 [7:27:40<10:35:19,  3.65it/s] 63%|██████▎   | 232362/371472 [7:27:41<10:27:35,  3.69it/s] 63%|██████▎   | 232363/371472 [7:27:41<10:39:50,  3.62it/s] 63%|██████▎   | 232364/371472 [7:27:41<10:43:17,  3.60it/s] 63%|██████▎   | 232365/371472 [7:27:41<10:55:36,  3.54it/s] 63%|██████▎   | 232366/371472 [7:27:42<10:38:38,  3.63it/s] 63%|██████▎   | 232367/371472 [7:27:42<10:17:06,  3.76it/s] 63%|██████▎   | 232368/371472 [7:27:42<12:05:19,  3.20it/s] 63%|██████▎   | 232369/371472 [7:27:43<11:20:42,  3.41it/s] 63%|██████▎   | 232370/371472 [7:27:43<11:35:05,  3.34it/s] 63%|██████▎   | 232371/371472 [7:27:43<10:56:17,  3.53it/s] 63%|██████▎   | 232372/371472 [7:27:44<11:04:19,  3.49it/s] 63%|██████▎   | 232373/371472 [7:27:44<11:25:43,  3.38it/s] 63%|██████▎   | 232374/371472 [7:27:44<11:06:41,  3.48it/s] 63%|██████▎   | 232375/371472 [7:27:44<10:53:37,  3.55it/s] 63%|██████▎   | 232376/371472 [7:27:45<11:07:18,  3.47it/s] 63%|██████▎   | 232377/371472 [7:27:45<10:39:27,  3.63it/s] 63%|██████▎   | 232378/371472 [7:27:45<10:21:18,  3.73it/s] 63%|██████▎   | 232379/371472 [7:27:45<10:15:53,  3.76it/s] 63%|██████▎   | 232380/371472 [7:27:46<10:13:48,  3.78it/s]                                                            {'loss': 2.8606, 'learning_rate': 4.3717274666551744e-07, 'epoch': 10.01}
 63%|██████▎   | 232380/371472 [7:27:46<10:13:48,  3.78it/s] 63%|██████▎   | 232381/371472 [7:27:46<9:56:46,  3.88it/s]  63%|██████▎   | 232382/371472 [7:27:46<10:35:55,  3.65it/s] 63%|██████▎   | 232383/371472 [7:27:47<10:23:25,  3.72it/s] 63%|██████▎   | 232384/371472 [7:27:47<11:21:27,  3.40it/s] 63%|██████▎   | 232385/371472 [7:27:47<11:36:10,  3.33it/s] 63%|██████▎   | 232386/371472 [7:27:47<11:17:42,  3.42it/s] 63%|██████▎   | 232387/371472 [7:27:48<10:56:08,  3.53it/s] 63%|██████▎   | 232388/371472 [7:27:48<12:13:23,  3.16it/s] 63%|██████▎   | 232389/371472 [7:27:48<11:42:54,  3.30it/s] 63%|██████▎   | 232390/371472 [7:27:49<10:56:55,  3.53it/s] 63%|██████▎   | 232391/371472 [7:27:49<10:57:58,  3.52it/s] 63%|██████▎   | 232392/371472 [7:27:49<11:01:24,  3.50it/s] 63%|██████▎   | 232393/371472 [7:27:49<10:29:22,  3.68it/s] 63%|██████▎   | 232394/371472 [7:27:50<11:28:00,  3.37it/s] 63%|██████▎   | 232395/371472 [7:27:50<11:33:07,  3.34it/s] 63%|██████▎   | 232396/371472 [7:27:50<11:31:20,  3.35it/s] 63%|██████▎   | 232397/371472 [7:27:51<11:23:41,  3.39it/s] 63%|██████▎   | 232398/371472 [7:27:51<11:20:37,  3.41it/s] 63%|██████▎   | 232399/371472 [7:27:51<11:18:02,  3.42it/s] 63%|██████▎   | 232400/371472 [7:27:52<11:04:28,  3.49it/s]                                                            {'loss': 2.7255, 'learning_rate': 4.371242646900385e-07, 'epoch': 10.01}
 63%|██████▎   | 232400/371472 [7:27:52<11:04:28,  3.49it/s] 63%|██████▎   | 232401/371472 [7:27:52<10:41:07,  3.62it/s] 63%|██████▎   | 232402/371472 [7:27:52<10:44:06,  3.60it/s] 63%|██████▎   | 232403/371472 [7:27:52<11:33:42,  3.34it/s] 63%|██████▎   | 232404/371472 [7:27:53<11:22:14,  3.40it/s] 63%|██████▎   | 232405/371472 [7:27:53<11:15:29,  3.43it/s] 63%|██████▎   | 232406/371472 [7:27:53<10:51:22,  3.56it/s] 63%|██████▎   | 232407/371472 [7:27:53<10:32:09,  3.67it/s] 63%|██████▎   | 232408/371472 [7:27:54<10:39:20,  3.63it/s] 63%|██████▎   | 232409/371472 [7:27:54<10:30:43,  3.67it/s] 63%|██████▎   | 232410/371472 [7:27:54<10:56:49,  3.53it/s] 63%|██████▎   | 232411/371472 [7:27:55<10:44:37,  3.60it/s] 63%|██████▎   | 232412/371472 [7:27:55<11:14:31,  3.44it/s] 63%|██████▎   | 232413/371472 [7:27:55<11:09:33,  3.46it/s] 63%|██████▎   | 232414/371472 [7:27:55<10:55:45,  3.53it/s] 63%|██████▎   | 232415/371472 [7:27:56<10:45:30,  3.59it/s] 63%|██████▎   | 232416/371472 [7:27:56<10:27:05,  3.70it/s] 63%|██████▎   | 232417/371472 [7:27:56<10:40:46,  3.62it/s] 63%|██████▎   | 232418/371472 [7:27:57<10:31:25,  3.67it/s] 63%|██████▎   | 232419/371472 [7:27:57<10:53:53,  3.54it/s] 63%|██████▎   | 232420/371472 [7:27:57<10:44:37,  3.60it/s]                                                            {'loss': 2.9796, 'learning_rate': 4.3707578271455963e-07, 'epoch': 10.01}
 63%|██████▎   | 232420/371472 [7:27:57<10:44:37,  3.60it/s] 63%|██████▎   | 232421/371472 [7:27:57<11:12:09,  3.45it/s] 63%|██████▎   | 232422/371472 [7:27:58<11:04:25,  3.49it/s] 63%|██████▎   | 232423/371472 [7:27:58<10:34:39,  3.65it/s] 63%|██████▎   | 232424/371472 [7:27:58<10:17:18,  3.75it/s] 63%|██████▎   | 232425/371472 [7:27:59<11:10:15,  3.46it/s] 63%|██████▎   | 232426/371472 [7:27:59<11:03:27,  3.49it/s] 63%|██████▎   | 232427/371472 [7:27:59<11:13:36,  3.44it/s] 63%|██████▎   | 232428/371472 [7:27:59<11:01:53,  3.50it/s] 63%|██████▎   | 232429/371472 [7:28:00<10:58:26,  3.52it/s] 63%|██████▎   | 232430/371472 [7:28:00<11:34:53,  3.33it/s] 63%|██████▎   | 232431/371472 [7:28:00<11:13:01,  3.44it/s] 63%|██████▎   | 232432/371472 [7:28:01<10:46:38,  3.58it/s] 63%|██████▎   | 232433/371472 [7:28:01<10:41:05,  3.61it/s] 63%|██████▎   | 232434/371472 [7:28:01<10:37:45,  3.63it/s] 63%|██████▎   | 232435/371472 [7:28:01<10:39:43,  3.62it/s] 63%|██████▎   | 232436/371472 [7:28:02<10:37:52,  3.63it/s] 63%|██████▎   | 232437/371472 [7:28:02<10:25:29,  3.70it/s] 63%|██████▎   | 232438/371472 [7:28:02<10:36:33,  3.64it/s] 63%|██████▎   | 232439/371472 [7:28:02<10:17:18,  3.75it/s] 63%|██████▎   | 232440/371472 [7:28:03<10:02:50,  3.84it/s]                                                            {'loss': 2.8521, 'learning_rate': 4.370273007390807e-07, 'epoch': 10.01}
 63%|██████▎   | 232440/371472 [7:28:03<10:02:50,  3.84it/s] 63%|██████▎   | 232441/371472 [7:28:03<10:55:38,  3.53it/s] 63%|██████▎   | 232442/371472 [7:28:03<11:10:51,  3.45it/s] 63%|██████▎   | 232443/371472 [7:28:04<11:43:32,  3.29it/s] 63%|██████▎   | 232444/371472 [7:28:04<11:33:38,  3.34it/s] 63%|██████▎   | 232445/371472 [7:28:04<12:10:49,  3.17it/s] 63%|██████▎   | 232446/371472 [7:28:05<11:31:26,  3.35it/s] 63%|██████▎   | 232447/371472 [7:28:05<11:16:24,  3.43it/s] 63%|██████▎   | 232448/371472 [7:28:05<11:08:09,  3.47it/s] 63%|██████▎   | 232449/371472 [7:28:05<12:04:09,  3.20it/s] 63%|██████▎   | 232450/371472 [7:28:06<11:35:02,  3.33it/s] 63%|██████▎   | 232451/371472 [7:28:06<11:24:21,  3.39it/s] 63%|██████▎   | 232452/371472 [7:28:06<11:00:36,  3.51it/s] 63%|██████▎   | 232453/371472 [7:28:07<10:56:14,  3.53it/s] 63%|██████▎   | 232454/371472 [7:28:07<10:46:12,  3.59it/s] 63%|██████▎   | 232455/371472 [7:28:07<10:29:30,  3.68it/s] 63%|██████▎   | 232456/371472 [7:28:07<10:35:26,  3.65it/s] 63%|██████▎   | 232457/371472 [7:28:08<10:51:26,  3.56it/s] 63%|██████▎   | 232458/371472 [7:28:08<10:41:42,  3.61it/s] 63%|██████▎   | 232459/371472 [7:28:08<10:37:37,  3.63it/s] 63%|██████▎   | 232460/371472 [7:28:08<10:26:01,  3.70it/s]                                                            {'loss': 2.9039, 'learning_rate': 4.369788187636019e-07, 'epoch': 10.01}
 63%|██████▎   | 232460/371472 [7:28:08<10:26:01,  3.70it/s] 63%|██████▎   | 232461/371472 [7:28:09<11:32:06,  3.35it/s] 63%|██████▎   | 232462/371472 [7:28:09<11:30:36,  3.35it/s] 63%|██████▎   | 232463/371472 [7:28:09<11:15:03,  3.43it/s] 63%|██████▎   | 232464/371472 [7:28:10<10:50:08,  3.56it/s] 63%|██████▎   | 232465/371472 [7:28:10<10:36:03,  3.64it/s] 63%|██████▎   | 232466/371472 [7:28:10<11:11:53,  3.45it/s] 63%|██████▎   | 232467/371472 [7:28:11<10:56:21,  3.53it/s] 63%|██████▎   | 232468/371472 [7:28:11<11:02:01,  3.50it/s] 63%|██████▎   | 232469/371472 [7:28:11<11:41:18,  3.30it/s] 63%|██████▎   | 232470/371472 [7:28:11<11:16:59,  3.42it/s] 63%|██████▎   | 232471/371472 [7:28:12<10:39:44,  3.62it/s] 63%|██████▎   | 232472/371472 [7:28:12<11:20:34,  3.40it/s] 63%|██████▎   | 232473/371472 [7:28:12<11:09:38,  3.46it/s] 63%|██████▎   | 232474/371472 [7:28:13<11:07:47,  3.47it/s] 63%|██████▎   | 232475/371472 [7:28:13<11:35:31,  3.33it/s] 63%|██████▎   | 232476/371472 [7:28:13<11:35:23,  3.33it/s] 63%|██████▎   | 232477/371472 [7:28:14<11:57:08,  3.23it/s] 63%|██████▎   | 232478/371472 [7:28:14<11:41:35,  3.30it/s] 63%|██████▎   | 232479/371472 [7:28:14<11:25:30,  3.38it/s] 63%|██████▎   | 232480/371472 [7:28:14<11:22:27,  3.39it/s]                                                            {'loss': 2.863, 'learning_rate': 4.3693033678812295e-07, 'epoch': 10.01}
 63%|██████▎   | 232480/371472 [7:28:14<11:22:27,  3.39it/s] 63%|██████▎   | 232481/371472 [7:28:15<11:14:21,  3.44it/s] 63%|██████▎   | 232482/371472 [7:28:15<11:14:56,  3.43it/s] 63%|██████▎   | 232483/371472 [7:28:15<11:03:39,  3.49it/s] 63%|██████▎   | 232484/371472 [7:28:16<11:26:39,  3.37it/s] 63%|██████▎   | 232485/371472 [7:28:16<11:15:54,  3.43it/s] 63%|██████▎   | 232486/371472 [7:28:16<11:03:30,  3.49it/s] 63%|██████▎   | 232487/371472 [7:28:16<10:43:15,  3.60it/s] 63%|██████▎   | 232488/371472 [7:28:17<10:56:46,  3.53it/s] 63%|██████▎   | 232489/371472 [7:28:17<11:41:19,  3.30it/s] 63%|██████▎   | 232490/371472 [7:28:17<11:04:46,  3.48it/s] 63%|██████▎   | 232491/371472 [7:28:18<10:42:39,  3.60it/s] 63%|██████▎   | 232492/371472 [7:28:18<10:23:28,  3.72it/s] 63%|██████▎   | 232493/371472 [7:28:18<10:54:30,  3.54it/s] 63%|██████▎   | 232494/371472 [7:28:18<10:31:18,  3.67it/s] 63%|██████▎   | 232495/371472 [7:28:19<10:16:08,  3.76it/s] 63%|██████▎   | 232496/371472 [7:28:19<10:23:54,  3.71it/s] 63%|██████▎   | 232497/371472 [7:28:19<11:02:14,  3.50it/s] 63%|██████▎   | 232498/371472 [7:28:19<10:49:06,  3.57it/s] 63%|██████▎   | 232499/371472 [7:28:20<10:56:55,  3.53it/s] 63%|██████▎   | 232500/371472 [7:28:20<11:29:07,  3.36it/s]                                                            {'loss': 2.8583, 'learning_rate': 4.368818548126441e-07, 'epoch': 10.01}
 63%|██████▎   | 232500/371472 [7:28:20<11:29:07,  3.36it/s] 63%|██████▎   | 232501/371472 [7:28:20<11:27:52,  3.37it/s] 63%|██████▎   | 232502/371472 [7:28:21<12:04:18,  3.20it/s] 63%|██████▎   | 232503/371472 [7:28:21<11:46:08,  3.28it/s] 63%|██████▎   | 232504/371472 [7:28:21<11:44:59,  3.29it/s] 63%|██████▎   | 232505/371472 [7:28:22<11:41:23,  3.30it/s] 63%|██████▎   | 232506/371472 [7:28:22<15:26:55,  2.50it/s] 63%|██████▎   | 232507/371472 [7:28:23<15:14:24,  2.53it/s] 63%|██████▎   | 232508/371472 [7:28:23<14:04:31,  2.74it/s] 63%|██████▎   | 232509/371472 [7:28:23<13:24:49,  2.88it/s] 63%|██████▎   | 232510/371472 [7:28:23<12:28:07,  3.10it/s] 63%|██████▎   | 232511/371472 [7:28:24<12:11:35,  3.17it/s] 63%|██████▎   | 232512/371472 [7:28:24<11:28:23,  3.36it/s] 63%|██████▎   | 232513/371472 [7:28:24<10:57:10,  3.52it/s] 63%|██████▎   | 232514/371472 [7:28:25<10:45:49,  3.59it/s] 63%|██████▎   | 232515/371472 [7:28:25<10:27:55,  3.69it/s] 63%|██████▎   | 232516/371472 [7:28:25<10:09:44,  3.80it/s] 63%|██████▎   | 232517/371472 [7:28:25<10:26:32,  3.70it/s] 63%|██████▎   | 232518/371472 [7:28:26<10:37:03,  3.64it/s] 63%|██████▎   | 232519/371472 [7:28:26<10:33:24,  3.66it/s] 63%|██████▎   | 232520/371472 [7:28:26<10:40:08,  3.62it/s]                                                            {'loss': 2.9127, 'learning_rate': 4.3683337283716515e-07, 'epoch': 10.02}
 63%|██████▎   | 232520/371472 [7:28:26<10:40:08,  3.62it/s] 63%|██████▎   | 232521/371472 [7:28:26<10:42:34,  3.60it/s] 63%|██████▎   | 232522/371472 [7:28:27<12:06:48,  3.19it/s] 63%|██████▎   | 232523/371472 [7:28:27<12:31:44,  3.08it/s] 63%|██████▎   | 232524/371472 [7:28:27<11:50:05,  3.26it/s] 63%|██████▎   | 232525/371472 [7:28:28<11:52:11,  3.25it/s] 63%|██████▎   | 232526/371472 [7:28:28<11:15:41,  3.43it/s] 63%|██████▎   | 232527/371472 [7:28:28<10:46:32,  3.58it/s] 63%|██████▎   | 232528/371472 [7:28:29<10:54:21,  3.54it/s] 63%|██████▎   | 232529/371472 [7:28:29<10:52:30,  3.55it/s] 63%|██████▎   | 232530/371472 [7:28:29<10:48:49,  3.57it/s] 63%|██████▎   | 232531/371472 [7:28:29<11:09:32,  3.46it/s] 63%|██████▎   | 232532/371472 [7:28:30<13:11:54,  2.92it/s] 63%|██████▎   | 232533/371472 [7:28:30<12:26:54,  3.10it/s] 63%|██████▎   | 232534/371472 [7:28:30<11:53:21,  3.25it/s] 63%|██████▎   | 232535/371472 [7:28:31<11:21:09,  3.40it/s] 63%|██████▎   | 232536/371472 [7:28:31<10:49:56,  3.56it/s] 63%|██████▎   | 232537/371472 [7:28:31<11:28:37,  3.36it/s] 63%|██████▎   | 232538/371472 [7:28:32<11:26:49,  3.37it/s] 63%|██████▎   | 232539/371472 [7:28:32<11:04:01,  3.49it/s] 63%|██████▎   | 232540/371472 [7:28:32<10:22:46,  3.72it/s]                                                            {'loss': 2.9064, 'learning_rate': 4.3678489086168633e-07, 'epoch': 10.02}
 63%|██████▎   | 232540/371472 [7:28:32<10:22:46,  3.72it/s] 63%|██████▎   | 232541/371472 [7:28:32<10:31:56,  3.66it/s] 63%|██████▎   | 232542/371472 [7:28:33<10:58:42,  3.52it/s] 63%|██████▎   | 232543/371472 [7:28:33<11:00:28,  3.51it/s] 63%|██████▎   | 232544/371472 [7:28:33<11:50:25,  3.26it/s] 63%|██████▎   | 232545/371472 [7:28:34<12:17:36,  3.14it/s] 63%|██████▎   | 232546/371472 [7:28:34<11:22:59,  3.39it/s] 63%|██████▎   | 232547/371472 [7:28:34<11:16:40,  3.42it/s] 63%|██████▎   | 232548/371472 [7:28:34<11:11:10,  3.45it/s] 63%|██████▎   | 232549/371472 [7:28:35<11:40:21,  3.31it/s] 63%|██████▎   | 232550/371472 [7:28:35<11:09:13,  3.46it/s] 63%|██████▎   | 232551/371472 [7:28:35<11:30:56,  3.35it/s] 63%|██████▎   | 232552/371472 [7:28:36<11:26:31,  3.37it/s] 63%|██████▎   | 232553/371472 [7:28:36<10:55:33,  3.53it/s] 63%|██████▎   | 232554/371472 [7:28:36<11:55:58,  3.23it/s] 63%|██████▎   | 232555/371472 [7:28:37<11:40:17,  3.31it/s] 63%|██████▎   | 232556/371472 [7:28:37<11:31:40,  3.35it/s] 63%|██████▎   | 232557/371472 [7:28:37<11:22:38,  3.39it/s] 63%|██████▎   | 232558/371472 [7:28:37<11:12:40,  3.44it/s] 63%|██████▎   | 232559/371472 [7:28:38<10:57:18,  3.52it/s] 63%|██████▎   | 232560/371472 [7:28:38<10:28:37,  3.68it/s]                                                            {'loss': 2.943, 'learning_rate': 4.3673640888620735e-07, 'epoch': 10.02}
 63%|██████▎   | 232560/371472 [7:28:38<10:28:37,  3.68it/s] 63%|██████▎   | 232561/371472 [7:28:38<10:41:53,  3.61it/s] 63%|██████▎   | 232562/371472 [7:28:39<10:51:55,  3.55it/s] 63%|██████▎   | 232563/371472 [7:28:39<10:34:03,  3.65it/s] 63%|██████▎   | 232564/371472 [7:28:39<10:40:54,  3.61it/s] 63%|██████▎   | 232565/371472 [7:28:39<10:57:17,  3.52it/s] 63%|██████▎   | 232566/371472 [7:28:40<11:10:10,  3.45it/s] 63%|██████▎   | 232567/371472 [7:28:40<10:49:03,  3.57it/s] 63%|██████▎   | 232568/371472 [7:28:40<10:46:34,  3.58it/s] 63%|██████▎   | 232569/371472 [7:28:40<10:27:40,  3.69it/s] 63%|██████▎   | 232570/371472 [7:28:41<10:55:44,  3.53it/s] 63%|██████▎   | 232571/371472 [7:28:41<10:35:31,  3.64it/s] 63%|██████▎   | 232572/371472 [7:28:41<11:00:53,  3.50it/s] 63%|██████▎   | 232573/371472 [7:28:42<11:26:58,  3.37it/s] 63%|██████▎   | 232574/371472 [7:28:42<11:18:03,  3.41it/s] 63%|██████▎   | 232575/371472 [7:28:42<11:27:10,  3.37it/s] 63%|██████▎   | 232576/371472 [7:28:43<11:34:40,  3.33it/s] 63%|██████▎   | 232577/371472 [7:28:43<11:54:49,  3.24it/s] 63%|██████▎   | 232578/371472 [7:28:43<11:33:00,  3.34it/s] 63%|██████▎   | 232579/371472 [7:28:43<11:07:40,  3.47it/s] 63%|██████▎   | 232580/371472 [7:28:44<11:18:51,  3.41it/s]                                                            {'loss': 2.9952, 'learning_rate': 4.366879269107285e-07, 'epoch': 10.02}
 63%|██████▎   | 232580/371472 [7:28:44<11:18:51,  3.41it/s] 63%|██████▎   | 232581/371472 [7:28:44<11:00:14,  3.51it/s] 63%|██████▎   | 232582/371472 [7:28:44<10:46:05,  3.58it/s] 63%|██████▎   | 232583/371472 [7:28:45<10:33:15,  3.66it/s] 63%|██████▎   | 232584/371472 [7:28:45<10:18:40,  3.74it/s] 63%|██████▎   | 232585/371472 [7:28:45<11:10:13,  3.45it/s] 63%|██████▎   | 232586/371472 [7:28:45<10:49:09,  3.57it/s] 63%|██████▎   | 232587/371472 [7:28:46<10:36:18,  3.64it/s] 63%|██████▎   | 232588/371472 [7:28:46<10:25:34,  3.70it/s] 63%|██████▎   | 232589/371472 [7:28:46<10:51:44,  3.55it/s] 63%|██████▎   | 232590/371472 [7:28:46<10:34:58,  3.65it/s] 63%|██████▎   | 232591/371472 [7:28:47<10:55:20,  3.53it/s] 63%|██████▎   | 232592/371472 [7:28:47<10:35:25,  3.64it/s] 63%|██████▎   | 232593/371472 [7:28:47<10:40:04,  3.62it/s] 63%|██████▎   | 232594/371472 [7:28:48<10:40:24,  3.61it/s] 63%|██████▎   | 232595/371472 [7:28:48<10:37:19,  3.63it/s] 63%|██████▎   | 232596/371472 [7:28:48<11:21:42,  3.40it/s] 63%|██████▎   | 232597/371472 [7:28:48<11:10:16,  3.45it/s] 63%|██████▎   | 232598/371472 [7:28:49<11:21:51,  3.39it/s] 63%|██████▎   | 232599/371472 [7:28:49<11:20:58,  3.40it/s] 63%|██████▎   | 232600/371472 [7:28:49<10:47:19,  3.58it/s]                                                            {'loss': 2.7346, 'learning_rate': 4.3663944493524954e-07, 'epoch': 10.02}
 63%|██████▎   | 232600/371472 [7:28:49<10:47:19,  3.58it/s] 63%|██████▎   | 232601/371472 [7:28:50<10:33:39,  3.65it/s] 63%|██████▎   | 232602/371472 [7:28:50<10:13:23,  3.77it/s] 63%|██████▎   | 232603/371472 [7:28:50<10:08:53,  3.80it/s] 63%|██████▎   | 232604/371472 [7:28:50<10:01:44,  3.85it/s] 63%|██████▎   | 232605/371472 [7:28:51<9:59:02,  3.86it/s]  63%|██████▎   | 232606/371472 [7:28:51<9:45:33,  3.95it/s] 63%|██████▎   | 232607/371472 [7:28:51<9:45:20,  3.95it/s] 63%|██████▎   | 232608/371472 [7:28:51<9:37:40,  4.01it/s] 63%|██████▎   | 232609/371472 [7:28:52<10:10:16,  3.79it/s] 63%|██████▎   | 232610/371472 [7:28:52<10:12:48,  3.78it/s] 63%|██████▎   | 232611/371472 [7:28:52<12:11:44,  3.16it/s] 63%|██████▎   | 232612/371472 [7:28:53<11:34:28,  3.33it/s] 63%|██████▎   | 232613/371472 [7:28:53<11:22:03,  3.39it/s] 63%|██████▎   | 232614/371472 [7:28:53<11:45:14,  3.28it/s] 63%|██████▎   | 232615/371472 [7:28:54<11:43:05,  3.29it/s] 63%|██████▎   | 232616/371472 [7:28:54<11:27:30,  3.37it/s] 63%|██████▎   | 232617/371472 [7:28:54<10:52:58,  3.54it/s] 63%|██████▎   | 232618/371472 [7:28:54<10:17:18,  3.75it/s] 63%|██████▎   | 232619/371472 [7:28:55<10:26:50,  3.69it/s] 63%|██████▎   | 232620/371472 [7:28:55<10:26:19,  3.69it/s]                                                            {'loss': 2.7908, 'learning_rate': 4.365909629597707e-07, 'epoch': 10.02}
 63%|██████▎   | 232620/371472 [7:28:55<10:26:19,  3.69it/s] 63%|██████▎   | 232621/371472 [7:28:55<10:37:04,  3.63it/s] 63%|██████▎   | 232622/371472 [7:28:55<10:48:27,  3.57it/s] 63%|██████▎   | 232623/371472 [7:28:56<10:35:18,  3.64it/s] 63%|██████▎   | 232624/371472 [7:28:56<10:30:40,  3.67it/s] 63%|██████▎   | 232625/371472 [7:28:56<10:55:04,  3.53it/s] 63%|██████▎   | 232626/371472 [7:28:57<10:48:34,  3.57it/s] 63%|██████▎   | 232627/371472 [7:28:57<11:01:46,  3.50it/s] 63%|██████▎   | 232628/371472 [7:28:57<10:43:10,  3.60it/s] 63%|██████▎   | 232629/371472 [7:28:57<10:30:08,  3.67it/s] 63%|██████▎   | 232630/371472 [7:28:58<10:11:59,  3.78it/s] 63%|██████▎   | 232631/371472 [7:28:58<10:10:18,  3.79it/s] 63%|██████▎   | 232632/371472 [7:28:58<10:58:50,  3.51it/s] 63%|██████▎   | 232633/371472 [7:28:58<10:44:21,  3.59it/s] 63%|██████▎   | 232634/371472 [7:28:59<10:28:30,  3.68it/s] 63%|██████▎   | 232635/371472 [7:28:59<10:19:59,  3.73it/s] 63%|██████▎   | 232636/371472 [7:28:59<10:27:49,  3.69it/s] 63%|██████▎   | 232637/371472 [7:29:00<10:39:37,  3.62it/s] 63%|██████▎   | 232638/371472 [7:29:00<10:53:46,  3.54it/s] 63%|██████▎   | 232639/371472 [7:29:00<10:34:53,  3.64it/s] 63%|██████▎   | 232640/371472 [7:29:00<10:30:12,  3.67it/s]                                                            {'loss': 2.8997, 'learning_rate': 4.365424809842918e-07, 'epoch': 10.02}
 63%|██████▎   | 232640/371472 [7:29:00<10:30:12,  3.67it/s] 63%|██████▎   | 232641/371472 [7:29:01<11:01:56,  3.50it/s] 63%|██████▎   | 232642/371472 [7:29:01<11:19:01,  3.41it/s] 63%|██████▎   | 232643/371472 [7:29:01<10:38:40,  3.62it/s] 63%|██████▎   | 232644/371472 [7:29:02<14:06:03,  2.73it/s] 63%|██████▎   | 232645/371472 [7:29:02<12:51:25,  3.00it/s] 63%|██████▎   | 232646/371472 [7:29:02<12:15:51,  3.14it/s] 63%|██████▎   | 232647/371472 [7:29:03<11:36:14,  3.32it/s] 63%|██████▎   | 232648/371472 [7:29:03<11:24:09,  3.38it/s] 63%|██████▎   | 232649/371472 [7:29:03<11:18:58,  3.41it/s] 63%|██████▎   | 232650/371472 [7:29:03<11:40:05,  3.30it/s] 63%|██████▎   | 232651/371472 [7:29:04<11:33:56,  3.33it/s] 63%|██████▎   | 232652/371472 [7:29:04<11:03:29,  3.49it/s] 63%|██████▎   | 232653/371472 [7:29:04<11:03:48,  3.49it/s] 63%|██████▎   | 232654/371472 [7:29:05<11:03:13,  3.49it/s] 63%|██████▎   | 232655/371472 [7:29:05<11:05:52,  3.47it/s] 63%|██████▎   | 232656/371472 [7:29:05<12:15:52,  3.14it/s] 63%|██████▎   | 232657/371472 [7:29:06<11:32:00,  3.34it/s] 63%|██████▎   | 232658/371472 [7:29:06<12:57:32,  2.98it/s] 63%|██████▎   | 232659/371472 [7:29:06<12:41:35,  3.04it/s] 63%|██████▎   | 232660/371472 [7:29:07<11:45:51,  3.28it/s]                                                            {'loss': 2.8544, 'learning_rate': 4.3649399900881297e-07, 'epoch': 10.02}
 63%|██████▎   | 232660/371472 [7:29:07<11:45:51,  3.28it/s] 63%|██████▎   | 232661/371472 [7:29:07<11:45:48,  3.28it/s] 63%|██████▎   | 232662/371472 [7:29:07<11:53:35,  3.24it/s] 63%|██████▎   | 232663/371472 [7:29:07<11:17:11,  3.42it/s] 63%|██████▎   | 232664/371472 [7:29:08<10:57:48,  3.52it/s] 63%|██████▎   | 232665/371472 [7:29:08<10:30:49,  3.67it/s] 63%|██████▎   | 232666/371472 [7:29:08<10:58:49,  3.51it/s] 63%|██████▎   | 232667/371472 [7:29:08<10:50:32,  3.56it/s] 63%|██████▎   | 232668/371472 [7:29:09<10:40:10,  3.61it/s] 63%|██████▎   | 232669/371472 [7:29:09<10:59:03,  3.51it/s] 63%|██████▎   | 232670/371472 [7:29:09<10:41:13,  3.61it/s] 63%|██████▎   | 232671/371472 [7:29:10<10:36:59,  3.63it/s] 63%|██████▎   | 232672/371472 [7:29:10<11:47:21,  3.27it/s] 63%|██████▎   | 232673/371472 [7:29:10<12:06:15,  3.19it/s] 63%|██████▎   | 232674/371472 [7:29:11<11:42:57,  3.29it/s] 63%|██████▎   | 232675/371472 [7:29:11<11:45:05,  3.28it/s] 63%|██████▎   | 232676/371472 [7:29:11<11:01:37,  3.50it/s] 63%|██████▎   | 232677/371472 [7:29:11<10:52:00,  3.55it/s] 63%|██████▎   | 232678/371472 [7:29:12<10:22:45,  3.71it/s] 63%|██████▎   | 232679/371472 [7:29:12<10:24:49,  3.70it/s] 63%|██████▎   | 232680/371472 [7:29:12<10:06:28,  3.81it/s]                                                            {'loss': 3.0867, 'learning_rate': 4.36445517033334e-07, 'epoch': 10.02}
 63%|██████▎   | 232680/371472 [7:29:12<10:06:28,  3.81it/s] 63%|██████▎   | 232681/371472 [7:29:12<11:00:12,  3.50it/s] 63%|██████▎   | 232682/371472 [7:29:13<11:08:08,  3.46it/s] 63%|██████▎   | 232683/371472 [7:29:13<11:35:48,  3.32it/s] 63%|██████▎   | 232684/371472 [7:29:13<12:10:26,  3.17it/s] 63%|██████▎   | 232685/371472 [7:29:14<11:29:10,  3.36it/s] 63%|██████▎   | 232686/371472 [7:29:14<11:07:56,  3.46it/s] 63%|██████▎   | 232687/371472 [7:29:14<10:49:45,  3.56it/s] 63%|██████▎   | 232688/371472 [7:29:15<10:50:02,  3.56it/s] 63%|██████▎   | 232689/371472 [7:29:15<10:35:03,  3.64it/s] 63%|██████▎   | 232690/371472 [7:29:15<11:01:40,  3.50it/s] 63%|██████▎   | 232691/371472 [7:29:15<10:37:18,  3.63it/s] 63%|██████▎   | 232692/371472 [7:29:16<10:34:40,  3.64it/s] 63%|██████▎   | 232693/371472 [7:29:16<10:25:24,  3.70it/s] 63%|██████▎   | 232694/371472 [7:29:16<10:36:40,  3.63it/s] 63%|██████▎   | 232695/371472 [7:29:16<10:42:30,  3.60it/s] 63%|██████▎   | 232696/371472 [7:29:17<10:53:35,  3.54it/s] 63%|██████▎   | 232697/371472 [7:29:17<10:53:03,  3.54it/s] 63%|██████▎   | 232698/371472 [7:29:17<10:56:17,  3.52it/s] 63%|██████▎   | 232699/371472 [7:29:18<11:57:39,  3.22it/s] 63%|██████▎   | 232700/371472 [7:29:18<11:24:15,  3.38it/s]                                                            {'loss': 2.9509, 'learning_rate': 4.3639703505785516e-07, 'epoch': 10.02}
 63%|██████▎   | 232700/371472 [7:29:18<11:24:15,  3.38it/s] 63%|██████▎   | 232701/371472 [7:29:18<11:30:38,  3.35it/s] 63%|██████▎   | 232702/371472 [7:29:19<11:28:32,  3.36it/s] 63%|██████▎   | 232703/371472 [7:29:19<10:59:59,  3.50it/s] 63%|██████▎   | 232704/371472 [7:29:19<10:44:17,  3.59it/s] 63%|██████▎   | 232705/371472 [7:29:19<11:00:49,  3.50it/s] 63%|██████▎   | 232706/371472 [7:29:20<11:11:00,  3.45it/s] 63%|██████▎   | 232707/371472 [7:29:20<11:24:23,  3.38it/s] 63%|██████▎   | 232708/371472 [7:29:20<11:02:06,  3.49it/s] 63%|██████▎   | 232709/371472 [7:29:21<10:45:23,  3.58it/s] 63%|██████▎   | 232710/371472 [7:29:21<10:23:46,  3.71it/s] 63%|██████▎   | 232711/371472 [7:29:21<10:48:48,  3.56it/s] 63%|██████▎   | 232712/371472 [7:29:21<11:09:41,  3.45it/s] 63%|██████▎   | 232713/371472 [7:29:22<11:35:53,  3.32it/s] 63%|██████▎   | 232714/371472 [7:29:22<11:03:43,  3.48it/s] 63%|██████▎   | 232715/371472 [7:29:22<10:52:01,  3.55it/s] 63%|██████▎   | 232716/371472 [7:29:23<10:48:57,  3.56it/s] 63%|██████▎   | 232717/371472 [7:29:23<11:00:14,  3.50it/s] 63%|██████▎   | 232718/371472 [7:29:23<10:44:49,  3.59it/s] 63%|██████▎   | 232719/371472 [7:29:23<11:03:01,  3.49it/s] 63%|██████▎   | 232720/371472 [7:29:24<10:28:06,  3.68it/s]                                                            {'loss': 2.9711, 'learning_rate': 4.3634855308237624e-07, 'epoch': 10.02}
 63%|██████▎   | 232720/371472 [7:29:24<10:28:06,  3.68it/s] 63%|██████▎   | 232721/371472 [7:29:24<10:55:51,  3.53it/s] 63%|██████▎   | 232722/371472 [7:29:24<10:37:21,  3.63it/s] 63%|██████▎   | 232723/371472 [7:29:24<10:52:11,  3.55it/s] 63%|██████▎   | 232724/371472 [7:29:25<12:13:35,  3.15it/s] 63%|██████▎   | 232725/371472 [7:29:25<12:57:03,  2.98it/s] 63%|██████▎   | 232726/371472 [7:29:26<13:31:20,  2.85it/s] 63%|██████▎   | 232727/371472 [7:29:26<13:20:09,  2.89it/s] 63%|██████▎   | 232728/371472 [7:29:26<13:20:20,  2.89it/s] 63%|██████▎   | 232729/371472 [7:29:27<13:03:18,  2.95it/s] 63%|██████▎   | 232730/371472 [7:29:27<13:38:46,  2.82it/s] 63%|██████▎   | 232731/371472 [7:29:27<13:08:55,  2.93it/s] 63%|██████▎   | 232732/371472 [7:29:28<12:25:01,  3.10it/s] 63%|██████▎   | 232733/371472 [7:29:28<11:51:34,  3.25it/s] 63%|██████▎   | 232734/371472 [7:29:28<12:47:13,  3.01it/s] 63%|██████▎   | 232735/371472 [7:29:29<11:58:49,  3.22it/s] 63%|██████▎   | 232736/371472 [7:29:29<11:41:14,  3.30it/s] 63%|██████▎   | 232737/371472 [7:29:29<12:35:18,  3.06it/s] 63%|██████▎   | 232738/371472 [7:29:29<12:00:31,  3.21it/s] 63%|██████▎   | 232739/371472 [7:29:30<12:08:12,  3.18it/s] 63%|██████▎   | 232740/371472 [7:29:30<11:36:28,  3.32it/s]                                                            {'loss': 2.8312, 'learning_rate': 4.3630007110689736e-07, 'epoch': 10.02}
 63%|██████▎   | 232740/371472 [7:29:30<11:36:28,  3.32it/s] 63%|██████▎   | 232741/371472 [7:29:30<11:02:37,  3.49it/s] 63%|██████▎   | 232742/371472 [7:29:31<11:45:24,  3.28it/s] 63%|██████▎   | 232743/371472 [7:29:31<12:58:48,  2.97it/s] 63%|██████▎   | 232744/371472 [7:29:31<12:26:37,  3.10it/s] 63%|██████▎   | 232745/371472 [7:29:32<11:25:10,  3.37it/s] 63%|██████▎   | 232746/371472 [7:29:32<11:15:58,  3.42it/s] 63%|██████▎   | 232747/371472 [7:29:32<10:40:49,  3.61it/s] 63%|██████▎   | 232748/371472 [7:29:33<11:42:18,  3.29it/s] 63%|██████▎   | 232749/371472 [7:29:33<11:59:47,  3.21it/s] 63%|██████▎   | 232750/371472 [7:29:33<11:20:13,  3.40it/s] 63%|██████▎   | 232751/371472 [7:29:33<11:05:02,  3.48it/s] 63%|██████▎   | 232752/371472 [7:29:34<11:22:31,  3.39it/s] 63%|██████▎   | 232753/371472 [7:29:34<11:00:59,  3.50it/s] 63%|██████▎   | 232754/371472 [7:29:34<11:30:30,  3.35it/s] 63%|██████▎   | 232755/371472 [7:29:35<11:31:37,  3.34it/s] 63%|██████▎   | 232756/371472 [7:29:35<10:56:15,  3.52it/s] 63%|██████▎   | 232757/371472 [7:29:35<10:36:50,  3.63it/s] 63%|██████▎   | 232758/371472 [7:29:35<10:16:26,  3.75it/s] 63%|██████▎   | 232759/371472 [7:29:36<10:24:38,  3.70it/s] 63%|██████▎   | 232760/371472 [7:29:36<10:46:14,  3.58it/s]                                                            {'loss': 2.6038, 'learning_rate': 4.3625158913141843e-07, 'epoch': 10.03}
 63%|██████▎   | 232760/371472 [7:29:36<10:46:14,  3.58it/s] 63%|██████▎   | 232761/371472 [7:29:36<11:25:07,  3.37it/s] 63%|██████▎   | 232762/371472 [7:29:37<11:04:14,  3.48it/s] 63%|██████▎   | 232763/371472 [7:29:37<10:44:20,  3.59it/s] 63%|██████▎   | 232764/371472 [7:29:37<10:59:36,  3.50it/s] 63%|██████▎   | 232765/371472 [7:29:37<10:39:28,  3.62it/s] 63%|██████▎   | 232766/371472 [7:29:38<10:25:45,  3.69it/s] 63%|██████▎   | 232767/371472 [7:29:38<10:27:36,  3.68it/s] 63%|██████▎   | 232768/371472 [7:29:38<10:11:02,  3.78it/s] 63%|██████▎   | 232769/371472 [7:29:38<9:58:37,  3.86it/s]  63%|██████▎   | 232770/371472 [7:29:39<10:07:42,  3.80it/s] 63%|██████▎   | 232771/371472 [7:29:39<10:36:35,  3.63it/s] 63%|██████▎   | 232772/371472 [7:29:39<10:41:33,  3.60it/s] 63%|██████▎   | 232773/371472 [7:29:39<10:41:09,  3.61it/s] 63%|██████▎   | 232774/371472 [7:29:40<10:23:27,  3.71it/s] 63%|██████▎   | 232775/371472 [7:29:40<10:49:10,  3.56it/s] 63%|██████▎   | 232776/371472 [7:29:40<10:54:28,  3.53it/s] 63%|██████▎   | 232777/371472 [7:29:41<10:46:52,  3.57it/s] 63%|██████▎   | 232778/371472 [7:29:41<10:34:50,  3.64it/s] 63%|██████▎   | 232779/371472 [7:29:41<10:42:14,  3.60it/s] 63%|██████▎   | 232780/371472 [7:29:41<10:50:02,  3.56it/s]                                                            {'loss': 3.0307, 'learning_rate': 4.362031071559396e-07, 'epoch': 10.03}
 63%|██████▎   | 232780/371472 [7:29:41<10:50:02,  3.56it/s] 63%|██████▎   | 232781/371472 [7:29:42<10:45:44,  3.58it/s] 63%|██████▎   | 232782/371472 [7:29:42<10:33:53,  3.65it/s] 63%|██████▎   | 232783/371472 [7:29:42<10:19:37,  3.73it/s] 63%|██████▎   | 232784/371472 [7:29:43<10:49:19,  3.56it/s] 63%|██████▎   | 232785/371472 [7:29:43<12:06:07,  3.18it/s] 63%|██████▎   | 232786/371472 [7:29:43<11:42:47,  3.29it/s] 63%|██████▎   | 232787/371472 [7:29:43<11:19:55,  3.40it/s] 63%|██████▎   | 232788/371472 [7:29:44<10:44:05,  3.59it/s] 63%|██████▎   | 232789/371472 [7:29:44<11:05:09,  3.47it/s] 63%|██████▎   | 232790/371472 [7:29:44<10:45:39,  3.58it/s] 63%|██████▎   | 232791/371472 [7:29:45<10:56:03,  3.52it/s] 63%|██████▎   | 232792/371472 [7:29:45<10:58:51,  3.51it/s] 63%|██████▎   | 232793/371472 [7:29:45<10:38:08,  3.62it/s] 63%|██████▎   | 232794/371472 [7:29:45<10:33:43,  3.65it/s] 63%|██████▎   | 232795/371472 [7:29:46<10:17:34,  3.74it/s] 63%|██████▎   | 232796/371472 [7:29:46<10:38:28,  3.62it/s] 63%|██████▎   | 232797/371472 [7:29:46<10:54:04,  3.53it/s] 63%|██████▎   | 232798/371472 [7:29:47<11:08:06,  3.46it/s] 63%|██████▎   | 232799/371472 [7:29:47<12:03:50,  3.19it/s] 63%|██████▎   | 232800/371472 [7:29:47<11:44:37,  3.28it/s]                                                            {'loss': 2.8837, 'learning_rate': 4.361546251804607e-07, 'epoch': 10.03}
 63%|██████▎   | 232800/371472 [7:29:47<11:44:37,  3.28it/s] 63%|██████▎   | 232801/371472 [7:29:48<11:42:04,  3.29it/s] 63%|██████▎   | 232802/371472 [7:29:48<11:23:31,  3.38it/s] 63%|██████▎   | 232803/371472 [7:29:48<11:25:59,  3.37it/s] 63%|██████▎   | 232804/371472 [7:29:48<11:09:29,  3.45it/s] 63%|██████▎   | 232805/371472 [7:29:49<11:08:29,  3.46it/s] 63%|██████▎   | 232806/371472 [7:29:49<10:36:16,  3.63it/s] 63%|██████▎   | 232807/371472 [7:29:49<11:26:09,  3.37it/s] 63%|██████▎   | 232808/371472 [7:29:50<11:16:15,  3.42it/s] 63%|██████▎   | 232809/371472 [7:29:50<10:37:59,  3.62it/s] 63%|██████▎   | 232810/371472 [7:29:50<11:08:07,  3.46it/s] 63%|██████▎   | 232811/371472 [7:29:50<10:35:12,  3.64it/s] 63%|██████▎   | 232812/371472 [7:29:51<11:20:01,  3.40it/s] 63%|██████▎   | 232813/371472 [7:29:51<11:15:49,  3.42it/s] 63%|██████▎   | 232814/371472 [7:29:51<10:54:03,  3.53it/s] 63%|██████▎   | 232815/371472 [7:29:51<10:57:07,  3.52it/s] 63%|██████▎   | 232816/371472 [7:29:52<10:23:57,  3.70it/s] 63%|██████▎   | 232817/371472 [7:29:52<10:42:43,  3.60it/s] 63%|██████▎   | 232818/371472 [7:29:52<10:22:04,  3.71it/s] 63%|██████▎   | 232819/371472 [7:29:53<10:47:05,  3.57it/s] 63%|██████▎   | 232820/371472 [7:29:53<11:13:16,  3.43it/s]                                                            {'loss': 2.8984, 'learning_rate': 4.361061432049818e-07, 'epoch': 10.03}
 63%|██████▎   | 232820/371472 [7:29:53<11:13:16,  3.43it/s] 63%|██████▎   | 232821/371472 [7:29:53<10:35:33,  3.64it/s] 63%|██████▎   | 232822/371472 [7:29:53<10:31:12,  3.66it/s] 63%|██████▎   | 232823/371472 [7:29:54<10:43:47,  3.59it/s] 63%|██████▎   | 232824/371472 [7:29:54<11:06:22,  3.47it/s] 63%|██████▎   | 232825/371472 [7:29:54<10:48:03,  3.57it/s] 63%|██████▎   | 232826/371472 [7:29:55<10:47:13,  3.57it/s] 63%|██████▎   | 232827/371472 [7:29:55<10:40:10,  3.61it/s] 63%|██████▎   | 232828/371472 [7:29:55<10:34:43,  3.64it/s] 63%|██████▎   | 232829/371472 [7:29:55<10:36:02,  3.63it/s] 63%|██████▎   | 232830/371472 [7:29:56<10:38:19,  3.62it/s] 63%|██████▎   | 232831/371472 [7:29:56<10:05:38,  3.82it/s] 63%|██████▎   | 232832/371472 [7:29:56<10:10:25,  3.79it/s] 63%|██████▎   | 232833/371472 [7:29:56<10:14:50,  3.76it/s] 63%|██████▎   | 232834/371472 [7:29:57<10:36:59,  3.63it/s] 63%|██████▎   | 232835/371472 [7:29:57<11:06:50,  3.47it/s] 63%|██████▎   | 232836/371472 [7:29:57<10:33:42,  3.65it/s] 63%|██████▎   | 232837/371472 [7:29:58<10:48:40,  3.56it/s] 63%|██████▎   | 232838/371472 [7:29:58<10:23:54,  3.70it/s] 63%|██████▎   | 232839/371472 [7:29:58<10:41:30,  3.60it/s] 63%|██████▎   | 232840/371472 [7:29:58<11:00:14,  3.50it/s]                                                            {'loss': 2.8623, 'learning_rate': 4.360576612295029e-07, 'epoch': 10.03}
 63%|██████▎   | 232840/371472 [7:29:58<11:00:14,  3.50it/s] 63%|██████▎   | 232841/371472 [7:29:59<10:29:23,  3.67it/s] 63%|██████▎   | 232842/371472 [7:29:59<10:59:30,  3.50it/s] 63%|██████▎   | 232843/371472 [7:29:59<10:32:35,  3.65it/s] 63%|██████▎   | 232844/371472 [7:29:59<10:33:21,  3.65it/s] 63%|██████▎   | 232845/371472 [7:30:00<11:33:01,  3.33it/s] 63%|██████▎   | 232846/371472 [7:30:00<11:22:00,  3.39it/s] 63%|██████▎   | 232847/371472 [7:30:00<10:47:19,  3.57it/s] 63%|██████▎   | 232848/371472 [7:30:01<11:07:28,  3.46it/s] 63%|██████▎   | 232849/371472 [7:30:01<11:02:31,  3.49it/s] 63%|██████▎   | 232850/371472 [7:30:01<11:06:35,  3.47it/s] 63%|██████▎   | 232851/371472 [7:30:02<11:18:11,  3.41it/s] 63%|██████▎   | 232852/371472 [7:30:02<11:14:19,  3.43it/s] 63%|██████▎   | 232853/371472 [7:30:02<11:03:18,  3.48it/s] 63%|██████▎   | 232854/371472 [7:30:02<11:29:16,  3.35it/s] 63%|██████▎   | 232855/371472 [7:30:03<10:49:27,  3.56it/s] 63%|██████▎   | 232856/371472 [7:30:03<10:53:46,  3.53it/s] 63%|██████▎   | 232857/371472 [7:30:03<11:57:08,  3.22it/s] 63%|██████▎   | 232858/371472 [7:30:04<11:17:42,  3.41it/s] 63%|██████▎   | 232859/371472 [7:30:04<10:34:59,  3.64it/s] 63%|██████▎   | 232860/371472 [7:30:04<11:20:52,  3.39it/s]                                                            {'loss': 2.8977, 'learning_rate': 4.3600917925402405e-07, 'epoch': 10.03}
 63%|██████▎   | 232860/371472 [7:30:04<11:20:52,  3.39it/s] 63%|██████▎   | 232861/371472 [7:30:04<10:55:35,  3.52it/s] 63%|██████▎   | 232862/371472 [7:30:05<10:55:09,  3.53it/s] 63%|██████▎   | 232863/371472 [7:30:05<11:19:26,  3.40it/s] 63%|██████▎   | 232864/371472 [7:30:05<11:07:15,  3.46it/s] 63%|██████▎   | 232865/371472 [7:30:06<10:38:17,  3.62it/s] 63%|██████▎   | 232866/371472 [7:30:06<10:56:58,  3.52it/s] 63%|██████▎   | 232867/371472 [7:30:06<11:52:06,  3.24it/s] 63%|██████▎   | 232868/371472 [7:30:07<12:01:10,  3.20it/s] 63%|██████▎   | 232869/371472 [7:30:07<11:53:28,  3.24it/s] 63%|██████▎   | 232870/371472 [7:30:07<11:21:22,  3.39it/s] 63%|██████▎   | 232871/371472 [7:30:07<11:04:43,  3.48it/s] 63%|██████▎   | 232872/371472 [7:30:08<11:03:18,  3.48it/s] 63%|██████▎   | 232873/371472 [7:30:08<10:25:38,  3.69it/s] 63%|██████▎   | 232874/371472 [7:30:08<10:19:03,  3.73it/s] 63%|██████▎   | 232875/371472 [7:30:08<10:07:16,  3.80it/s] 63%|██████▎   | 232876/371472 [7:30:09<10:18:35,  3.73it/s] 63%|██████▎   | 232877/371472 [7:30:09<10:17:13,  3.74it/s] 63%|██████▎   | 232878/371472 [7:30:09<10:00:03,  3.85it/s] 63%|██████▎   | 232879/371472 [7:30:09<9:56:00,  3.88it/s]  63%|██████▎   | 232880/371472 [7:30:10<10:47:38,  3.57it/s]                                                            {'loss': 2.8715, 'learning_rate': 4.3596069727854507e-07, 'epoch': 10.03}
 63%|██████▎   | 232880/371472 [7:30:10<10:47:38,  3.57it/s] 63%|██████▎   | 232881/371472 [7:30:10<10:35:00,  3.64it/s] 63%|██████▎   | 232882/371472 [7:30:10<11:00:45,  3.50it/s] 63%|██████▎   | 232883/371472 [7:30:11<10:53:53,  3.53it/s] 63%|██████▎   | 232884/371472 [7:30:11<10:31:46,  3.66it/s] 63%|██████▎   | 232885/371472 [7:30:11<10:55:52,  3.52it/s] 63%|██████▎   | 232886/371472 [7:30:11<10:58:28,  3.51it/s] 63%|██████▎   | 232887/371472 [7:30:12<10:35:13,  3.64it/s] 63%|██████▎   | 232888/371472 [7:30:12<10:41:21,  3.60it/s] 63%|██████▎   | 232889/371472 [7:30:12<10:24:29,  3.70it/s] 63%|██████▎   | 232890/371472 [7:30:13<10:23:28,  3.70it/s] 63%|██████▎   | 232891/371472 [7:30:13<11:21:08,  3.39it/s] 63%|██████▎   | 232892/371472 [7:30:13<10:39:53,  3.61it/s] 63%|██████▎   | 232893/371472 [7:30:13<10:17:11,  3.74it/s] 63%|██████▎   | 232894/371472 [7:30:14<10:07:29,  3.80it/s] 63%|██████▎   | 232895/371472 [7:30:14<10:17:47,  3.74it/s] 63%|██████▎   | 232896/371472 [7:30:14<10:08:17,  3.80it/s] 63%|██████▎   | 232897/371472 [7:30:14<9:57:56,  3.86it/s]  63%|██████▎   | 232898/371472 [7:30:15<10:05:41,  3.81it/s] 63%|██████▎   | 232899/371472 [7:30:15<10:48:29,  3.56it/s] 63%|██████▎   | 232900/371472 [7:30:15<10:31:02,  3.66it/s]                                                            {'loss': 2.7951, 'learning_rate': 4.3591221530306625e-07, 'epoch': 10.03}
 63%|██████▎   | 232900/371472 [7:30:15<10:31:02,  3.66it/s] 63%|██████▎   | 232901/371472 [7:30:16<11:14:22,  3.42it/s] 63%|██████▎   | 232902/371472 [7:30:16<11:21:20,  3.39it/s] 63%|██████▎   | 232903/371472 [7:30:16<10:50:02,  3.55it/s] 63%|██████▎   | 232904/371472 [7:30:16<10:39:34,  3.61it/s] 63%|██████▎   | 232905/371472 [7:30:17<10:26:34,  3.69it/s] 63%|██████▎   | 232906/371472 [7:30:17<10:51:39,  3.54it/s] 63%|██████▎   | 232907/371472 [7:30:17<10:20:59,  3.72it/s] 63%|██████▎   | 232908/371472 [7:30:17<10:08:00,  3.80it/s] 63%|██████▎   | 232909/371472 [7:30:18<9:48:58,  3.92it/s]  63%|██████▎   | 232910/371472 [7:30:18<10:25:03,  3.69it/s] 63%|██████▎   | 232911/371472 [7:30:18<10:30:57,  3.66it/s] 63%|██████▎   | 232912/371472 [7:30:19<10:07:15,  3.80it/s] 63%|██████▎   | 232913/371472 [7:30:19<10:28:13,  3.68it/s] 63%|██████▎   | 232914/371472 [7:30:19<11:05:00,  3.47it/s] 63%|██████▎   | 232915/371472 [7:30:19<10:56:11,  3.52it/s] 63%|██████▎   | 232916/371472 [7:30:20<10:45:33,  3.58it/s] 63%|██████▎   | 232917/371472 [7:30:20<10:37:55,  3.62it/s] 63%|██████▎   | 232918/371472 [7:30:20<10:15:38,  3.75it/s] 63%|██████▎   | 232919/371472 [7:30:21<12:02:10,  3.20it/s] 63%|██████▎   | 232920/371472 [7:30:21<11:43:13,  3.28it/s]                                                            {'loss': 2.8826, 'learning_rate': 4.358637333275873e-07, 'epoch': 10.03}
 63%|██████▎   | 232920/371472 [7:30:21<11:43:13,  3.28it/s] 63%|██████▎   | 232921/371472 [7:30:21<11:58:22,  3.21it/s] 63%|██████▎   | 232922/371472 [7:30:22<11:34:44,  3.32it/s] 63%|██████▎   | 232923/371472 [7:30:22<11:09:42,  3.45it/s] 63%|██████▎   | 232924/371472 [7:30:22<10:40:38,  3.60it/s] 63%|██████▎   | 232925/371472 [7:30:22<10:23:35,  3.70it/s] 63%|██████▎   | 232926/371472 [7:30:23<11:26:21,  3.36it/s] 63%|██████▎   | 232927/371472 [7:30:23<10:43:18,  3.59it/s] 63%|██████▎   | 232928/371472 [7:30:23<10:15:23,  3.75it/s] 63%|██████▎   | 232929/371472 [7:30:23<10:31:08,  3.66it/s] 63%|██████▎   | 232930/371472 [7:30:24<10:20:44,  3.72it/s] 63%|██████▎   | 232931/371472 [7:30:24<11:10:41,  3.44it/s] 63%|██████▎   | 232932/371472 [7:30:24<12:02:02,  3.20it/s] 63%|██████▎   | 232933/371472 [7:30:25<11:04:43,  3.47it/s] 63%|██████▎   | 232934/371472 [7:30:25<10:55:06,  3.52it/s] 63%|██████▎   | 232935/371472 [7:30:25<10:33:28,  3.64it/s] 63%|██████▎   | 232936/371472 [7:30:25<10:23:36,  3.70it/s] 63%|██████▎   | 232937/371472 [7:30:26<10:24:19,  3.70it/s] 63%|██████▎   | 232938/371472 [7:30:26<10:13:31,  3.76it/s] 63%|██████▎   | 232939/371472 [7:30:26<10:07:09,  3.80it/s] 63%|██████▎   | 232940/371472 [7:30:26<10:30:13,  3.66it/s]                                                            {'loss': 2.9427, 'learning_rate': 4.3581525135210834e-07, 'epoch': 10.03}
 63%|██████▎   | 232940/371472 [7:30:26<10:30:13,  3.66it/s] 63%|██████▎   | 232941/371472 [7:30:27<10:34:57,  3.64it/s] 63%|██████▎   | 232942/371472 [7:30:27<10:55:24,  3.52it/s] 63%|██████▎   | 232943/371472 [7:30:27<10:37:30,  3.62it/s] 63%|██████▎   | 232944/371472 [7:30:28<11:01:52,  3.49it/s] 63%|██████▎   | 232945/371472 [7:30:28<10:57:16,  3.51it/s] 63%|██████▎   | 232946/371472 [7:30:28<10:37:37,  3.62it/s] 63%|██████▎   | 232947/371472 [7:30:28<10:35:06,  3.64it/s] 63%|██████▎   | 232948/371472 [7:30:29<10:22:03,  3.71it/s] 63%|██████▎   | 232949/371472 [7:30:29<10:22:16,  3.71it/s] 63%|██████▎   | 232950/371472 [7:30:29<10:50:21,  3.55it/s] 63%|██████▎   | 232951/371472 [7:30:29<10:10:25,  3.78it/s] 63%|██████▎   | 232952/371472 [7:30:30<10:07:06,  3.80it/s] 63%|██████▎   | 232953/371472 [7:30:30<10:28:48,  3.67it/s] 63%|██████▎   | 232954/371472 [7:30:30<10:20:18,  3.72it/s] 63%|██████▎   | 232955/371472 [7:30:31<10:28:47,  3.67it/s] 63%|██████▎   | 232956/371472 [7:30:31<10:49:39,  3.55it/s] 63%|██████▎   | 232957/371472 [7:30:31<10:17:09,  3.74it/s] 63%|██████▎   | 232958/371472 [7:30:31<10:14:16,  3.76it/s] 63%|██████▎   | 232959/371472 [7:30:32<10:44:29,  3.58it/s] 63%|██████▎   | 232960/371472 [7:30:32<11:17:16,  3.41it/s]                                                            {'loss': 2.8787, 'learning_rate': 4.357667693766295e-07, 'epoch': 10.03}
 63%|██████▎   | 232960/371472 [7:30:32<11:17:16,  3.41it/s] 63%|██████▎   | 232961/371472 [7:30:32<10:50:09,  3.55it/s] 63%|██████▎   | 232962/371472 [7:30:33<10:31:50,  3.65it/s] 63%|██████▎   | 232963/371472 [7:30:33<11:06:37,  3.46it/s] 63%|██████▎   | 232964/371472 [7:30:33<10:46:13,  3.57it/s] 63%|██████▎   | 232965/371472 [7:30:33<11:23:41,  3.38it/s] 63%|██████▎   | 232966/371472 [7:30:34<11:31:39,  3.34it/s] 63%|██████▎   | 232967/371472 [7:30:34<10:57:14,  3.51it/s] 63%|██████▎   | 232968/371472 [7:30:34<11:18:03,  3.40it/s] 63%|██████▎   | 232969/371472 [7:30:35<12:03:08,  3.19it/s] 63%|██████▎   | 232970/371472 [7:30:35<11:38:41,  3.30it/s] 63%|██████▎   | 232971/371472 [7:30:35<11:10:19,  3.44it/s] 63%|██████▎   | 232972/371472 [7:30:36<12:18:17,  3.13it/s] 63%|██████▎   | 232973/371472 [7:30:36<11:37:55,  3.31it/s] 63%|██████▎   | 232974/371472 [7:30:36<11:05:26,  3.47it/s] 63%|██████▎   | 232975/371472 [7:30:37<12:30:55,  3.07it/s] 63%|██████▎   | 232976/371472 [7:30:37<12:52:44,  2.99it/s] 63%|██████▎   | 232977/371472 [7:30:37<11:50:55,  3.25it/s] 63%|██████▎   | 232978/371472 [7:30:37<12:28:37,  3.08it/s] 63%|██████▎   | 232979/371472 [7:30:38<12:19:32,  3.12it/s] 63%|██████▎   | 232980/371472 [7:30:38<13:03:56,  2.94it/s]                                                            {'loss': 2.7478, 'learning_rate': 4.357182874011506e-07, 'epoch': 10.03}
 63%|██████▎   | 232980/371472 [7:30:38<13:03:56,  2.94it/s] 63%|██████▎   | 232981/371472 [7:30:38<12:07:23,  3.17it/s] 63%|██████▎   | 232982/371472 [7:30:39<12:05:13,  3.18it/s] 63%|██████▎   | 232983/371472 [7:30:39<12:23:04,  3.11it/s] 63%|██████▎   | 232984/371472 [7:30:39<11:41:01,  3.29it/s] 63%|██████▎   | 232985/371472 [7:30:40<11:11:30,  3.44it/s] 63%|██████▎   | 232986/371472 [7:30:40<11:09:24,  3.45it/s] 63%|██████▎   | 232987/371472 [7:30:40<10:50:52,  3.55it/s] 63%|██████▎   | 232988/371472 [7:30:40<10:13:57,  3.76it/s] 63%|██████▎   | 232989/371472 [7:30:41<10:33:30,  3.64it/s] 63%|██████▎   | 232990/371472 [7:30:41<10:52:12,  3.54it/s] 63%|██████▎   | 232991/371472 [7:30:41<10:57:06,  3.51it/s] 63%|██████▎   | 232992/371472 [7:30:42<10:32:59,  3.65it/s] 63%|██████▎   | 232993/371472 [7:30:42<10:35:07,  3.63it/s] 63%|██████▎   | 232994/371472 [7:30:42<10:10:33,  3.78it/s] 63%|██████▎   | 232995/371472 [7:30:42<10:04:25,  3.82it/s] 63%|██████▎   | 232996/371472 [7:30:43<10:29:50,  3.66it/s] 63%|██████▎   | 232997/371472 [7:30:43<10:14:51,  3.75it/s] 63%|██████▎   | 232998/371472 [7:30:43<10:15:28,  3.75it/s] 63%|██████▎   | 232999/371472 [7:30:43<10:19:01,  3.73it/s] 63%|██████▎   | 233000/371472 [7:30:44<10:02:16,  3.83it/s]                                                            {'loss': 3.0213, 'learning_rate': 4.356698054256717e-07, 'epoch': 10.04}
 63%|██████▎   | 233000/371472 [7:30:44<10:02:16,  3.83it/s] 63%|██████▎   | 233001/371472 [7:30:44<10:15:01,  3.75it/s] 63%|██████▎   | 233002/371472 [7:30:44<10:35:19,  3.63it/s] 63%|██████▎   | 233003/371472 [7:30:44<10:19:19,  3.73it/s] 63%|██████▎   | 233004/371472 [7:30:45<10:43:34,  3.59it/s] 63%|██████▎   | 233005/371472 [7:30:45<11:18:16,  3.40it/s] 63%|██████▎   | 233006/371472 [7:30:45<11:20:29,  3.39it/s] 63%|██████▎   | 233007/371472 [7:30:46<11:15:22,  3.42it/s] 63%|██████▎   | 233008/371472 [7:30:46<11:32:54,  3.33it/s] 63%|██████▎   | 233009/371472 [7:30:46<10:43:36,  3.59it/s] 63%|██████▎   | 233010/371472 [7:30:47<10:41:42,  3.60it/s] 63%|██████▎   | 233011/371472 [7:30:47<11:18:12,  3.40it/s] 63%|██████▎   | 233012/371472 [7:30:47<11:16:09,  3.41it/s] 63%|██████▎   | 233013/371472 [7:30:47<10:58:34,  3.50it/s] 63%|██████▎   | 233014/371472 [7:30:48<10:59:05,  3.50it/s] 63%|██████▎   | 233015/371472 [7:30:48<10:38:56,  3.61it/s] 63%|██████▎   | 233016/371472 [7:30:48<10:39:28,  3.61it/s] 63%|██████▎   | 233017/371472 [7:30:49<10:52:47,  3.53it/s] 63%|██████▎   | 233018/371472 [7:30:49<10:28:59,  3.67it/s] 63%|██████▎   | 233019/371472 [7:30:49<10:43:03,  3.59it/s] 63%|██████▎   | 233020/371472 [7:30:49<10:33:05,  3.64it/s]                                                            {'loss': 2.9241, 'learning_rate': 4.3562132345019273e-07, 'epoch': 10.04}
 63%|██████▎   | 233020/371472 [7:30:49<10:33:05,  3.64it/s] 63%|██████▎   | 233021/371472 [7:30:50<10:43:01,  3.59it/s] 63%|██████▎   | 233022/371472 [7:30:50<10:32:57,  3.65it/s] 63%|██████▎   | 233023/371472 [7:30:50<10:49:08,  3.55it/s] 63%|██████▎   | 233024/371472 [7:30:50<10:21:43,  3.71it/s] 63%|██████▎   | 233025/371472 [7:30:51<11:10:01,  3.44it/s] 63%|██████▎   | 233026/371472 [7:30:51<10:54:16,  3.53it/s] 63%|██████▎   | 233027/371472 [7:30:51<10:35:04,  3.63it/s] 63%|██████▎   | 233028/371472 [7:30:52<10:28:22,  3.67it/s] 63%|██████▎   | 233029/371472 [7:30:52<10:38:42,  3.61it/s] 63%|██████▎   | 233030/371472 [7:30:52<10:20:09,  3.72it/s] 63%|██████▎   | 233031/371472 [7:30:52<10:35:34,  3.63it/s] 63%|██████▎   | 233032/371472 [7:30:53<11:32:05,  3.33it/s] 63%|██████▎   | 233033/371472 [7:30:53<11:08:30,  3.45it/s] 63%|██████▎   | 233034/371472 [7:30:53<10:36:05,  3.63it/s] 63%|██████▎   | 233035/371472 [7:30:54<10:45:43,  3.57it/s] 63%|██████▎   | 233036/371472 [7:30:54<10:24:14,  3.70it/s] 63%|██████▎   | 233037/371472 [7:30:54<10:39:22,  3.61it/s] 63%|██████▎   | 233038/371472 [7:30:54<10:13:43,  3.76it/s] 63%|██████▎   | 233039/371472 [7:30:55<10:24:40,  3.69it/s] 63%|██████▎   | 233040/371472 [7:30:55<10:32:48,  3.65it/s]                                                            {'loss': 2.8302, 'learning_rate': 4.3557284147471396e-07, 'epoch': 10.04}
 63%|██████▎   | 233040/371472 [7:30:55<10:32:48,  3.65it/s] 63%|██████▎   | 233041/371472 [7:30:55<10:12:40,  3.77it/s] 63%|██████▎   | 233042/371472 [7:30:55<9:51:23,  3.90it/s]  63%|██████▎   | 233043/371472 [7:30:56<11:25:37,  3.37it/s] 63%|██████▎   | 233044/371472 [7:30:56<10:41:38,  3.60it/s] 63%|██████▎   | 233045/371472 [7:30:56<11:00:25,  3.49it/s] 63%|██████▎   | 233046/371472 [7:30:57<11:00:56,  3.49it/s] 63%|██████▎   | 233047/371472 [7:30:57<10:52:55,  3.53it/s] 63%|██████▎   | 233048/371472 [7:30:57<10:43:26,  3.59it/s] 63%|██████▎   | 233049/371472 [7:30:57<10:52:34,  3.54it/s] 63%|██████▎   | 233050/371472 [7:30:58<10:57:07,  3.51it/s] 63%|██████▎   | 233051/371472 [7:30:58<10:52:53,  3.53it/s] 63%|██████▎   | 233052/371472 [7:30:58<10:40:08,  3.60it/s] 63%|██████▎   | 233053/371472 [7:30:59<10:49:33,  3.55it/s] 63%|██████▎   | 233054/371472 [7:30:59<10:42:31,  3.59it/s] 63%|██████▎   | 233055/371472 [7:30:59<10:44:10,  3.58it/s] 63%|██████▎   | 233056/371472 [7:30:59<11:25:09,  3.37it/s] 63%|██████▎   | 233057/371472 [7:31:00<11:47:16,  3.26it/s] 63%|██████▎   | 233058/371472 [7:31:00<11:34:26,  3.32it/s] 63%|██████▎   | 233059/371472 [7:31:00<11:39:00,  3.30it/s] 63%|██████▎   | 233060/371472 [7:31:01<11:12:18,  3.43it/s]                                                            {'loss': 2.8723, 'learning_rate': 4.35524359499235e-07, 'epoch': 10.04}
 63%|██████▎   | 233060/371472 [7:31:01<11:12:18,  3.43it/s] 63%|██████▎   | 233061/371472 [7:31:01<11:12:46,  3.43it/s] 63%|██████▎   | 233062/371472 [7:31:01<10:44:31,  3.58it/s] 63%|██████▎   | 233063/371472 [7:31:01<10:28:24,  3.67it/s] 63%|██████▎   | 233064/371472 [7:31:02<10:08:37,  3.79it/s] 63%|██████▎   | 233065/371472 [7:31:02<10:24:33,  3.69it/s] 63%|██████▎   | 233066/371472 [7:31:02<10:19:01,  3.73it/s] 63%|██████▎   | 233067/371472 [7:31:02<10:14:49,  3.75it/s] 63%|██████▎   | 233068/371472 [7:31:03<10:39:53,  3.60it/s] 63%|██████▎   | 233069/371472 [7:31:03<10:11:14,  3.77it/s] 63%|██████▎   | 233070/371472 [7:31:03<10:50:32,  3.55it/s] 63%|██████▎   | 233071/371472 [7:31:04<11:26:46,  3.36it/s] 63%|██████▎   | 233072/371472 [7:31:04<10:50:27,  3.55it/s] 63%|██████▎   | 233073/371472 [7:31:04<10:54:57,  3.52it/s] 63%|██████▎   | 233074/371472 [7:31:04<10:51:20,  3.54it/s] 63%|██████▎   | 233075/371472 [7:31:05<10:26:18,  3.68it/s] 63%|██████▎   | 233076/371472 [7:31:05<10:45:16,  3.57it/s] 63%|██████▎   | 233077/371472 [7:31:05<10:27:39,  3.67it/s] 63%|██████▎   | 233078/371472 [7:31:06<10:40:20,  3.60it/s] 63%|██████▎   | 233079/371472 [7:31:06<10:41:56,  3.59it/s] 63%|██████▎   | 233080/371472 [7:31:06<10:29:54,  3.66it/s]                                                            {'loss': 2.784, 'learning_rate': 4.3547587752375616e-07, 'epoch': 10.04}
 63%|██████▎   | 233080/371472 [7:31:06<10:29:54,  3.66it/s] 63%|██████▎   | 233081/371472 [7:31:06<10:12:49,  3.76it/s] 63%|██████▎   | 233082/371472 [7:31:07<9:59:41,  3.85it/s]  63%|██████▎   | 233083/371472 [7:31:07<10:31:42,  3.65it/s] 63%|██████▎   | 233084/371472 [7:31:07<10:23:13,  3.70it/s] 63%|██████▎   | 233085/371472 [7:31:07<10:12:12,  3.77it/s] 63%|██████▎   | 233086/371472 [7:31:08<9:50:42,  3.90it/s]  63%|██████▎   | 233087/371472 [7:31:08<10:02:43,  3.83it/s] 63%|██████▎   | 233088/371472 [7:31:08<10:12:22,  3.77it/s] 63%|██████▎   | 233089/371472 [7:31:09<10:39:23,  3.61it/s] 63%|██████▎   | 233090/371472 [7:31:09<10:19:29,  3.72it/s] 63%|██████▎   | 233091/371472 [7:31:09<10:00:31,  3.84it/s] 63%|██████▎   | 233092/371472 [7:31:09<10:33:56,  3.64it/s] 63%|██████▎   | 233093/371472 [7:31:10<10:04:25,  3.82it/s] 63%|██████▎   | 233094/371472 [7:31:10<10:18:50,  3.73it/s] 63%|██████▎   | 233095/371472 [7:31:10<10:38:08,  3.61it/s] 63%|██████▎   | 233096/371472 [7:31:10<10:27:51,  3.67it/s] 63%|██████▎   | 233097/371472 [7:31:11<10:33:17,  3.64it/s] 63%|██████▎   | 233098/371472 [7:31:11<10:22:44,  3.70it/s] 63%|██████▎   | 233099/371472 [7:31:11<10:15:47,  3.75it/s] 63%|██████▎   | 233100/371472 [7:31:11<10:33:30,  3.64it/s]                                                            {'loss': 2.8636, 'learning_rate': 4.3542739554827723e-07, 'epoch': 10.04}
 63%|██████▎   | 233100/371472 [7:31:11<10:33:30,  3.64it/s] 63%|██████▎   | 233101/371472 [7:31:12<10:11:53,  3.77it/s] 63%|██████▎   | 233102/371472 [7:31:12<9:55:47,  3.87it/s]  63%|██████▎   | 233103/371472 [7:31:12<10:23:55,  3.70it/s] 63%|██████▎   | 233104/371472 [7:31:13<10:25:23,  3.69it/s] 63%|██████▎   | 233105/371472 [7:31:13<10:30:30,  3.66it/s] 63%|██████▎   | 233106/371472 [7:31:13<11:04:24,  3.47it/s] 63%|██████▎   | 233107/371472 [7:31:13<10:47:40,  3.56it/s] 63%|██████▎   | 233108/371472 [7:31:14<10:25:15,  3.69it/s] 63%|██████▎   | 233109/371472 [7:31:14<10:19:28,  3.72it/s] 63%|██████▎   | 233110/371472 [7:31:14<10:20:40,  3.72it/s] 63%|██████▎   | 233111/371472 [7:31:14<10:08:46,  3.79it/s] 63%|██████▎   | 233112/371472 [7:31:15<10:20:23,  3.72it/s] 63%|██████▎   | 233113/371472 [7:31:15<10:30:28,  3.66it/s] 63%|██████▎   | 233114/371472 [7:31:15<10:26:38,  3.68it/s] 63%|██████▎   | 233115/371472 [7:31:16<10:21:30,  3.71it/s] 63%|██████▎   | 233116/371472 [7:31:16<10:28:10,  3.67it/s] 63%|██████▎   | 233117/371472 [7:31:16<10:08:27,  3.79it/s] 63%|██████▎   | 233118/371472 [7:31:16<10:08:31,  3.79it/s] 63%|██████▎   | 233119/371472 [7:31:17<10:10:54,  3.77it/s] 63%|██████▎   | 233120/371472 [7:31:17<10:11:18,  3.77it/s]                                                            {'loss': 3.0585, 'learning_rate': 4.3537891357279835e-07, 'epoch': 10.04}
 63%|██████▎   | 233120/371472 [7:31:17<10:11:18,  3.77it/s] 63%|██████▎   | 233121/371472 [7:31:17<10:32:00,  3.65it/s] 63%|██████▎   | 233122/371472 [7:31:17<10:36:06,  3.62it/s] 63%|██████▎   | 233123/371472 [7:31:18<10:25:04,  3.69it/s] 63%|██████▎   | 233124/371472 [7:31:18<10:36:19,  3.62it/s] 63%|██████▎   | 233125/371472 [7:31:18<10:12:47,  3.76it/s] 63%|██████▎   | 233126/371472 [7:31:18<9:52:28,  3.89it/s]  63%|██████▎   | 233127/371472 [7:31:19<10:17:59,  3.73it/s] 63%|██████▎   | 233128/371472 [7:31:19<9:57:39,  3.86it/s]  63%|██████▎   | 233129/371472 [7:31:19<10:18:23,  3.73it/s] 63%|██████▎   | 233130/371472 [7:31:20<10:14:10,  3.75it/s] 63%|██████▎   | 233131/371472 [7:31:20<11:45:24,  3.27it/s] 63%|██████▎   | 233132/371472 [7:31:20<12:46:47,  3.01it/s] 63%|██████▎   | 233133/371472 [7:31:21<12:03:50,  3.19it/s] 63%|██████▎   | 233134/371472 [7:31:21<11:31:55,  3.33it/s] 63%|██████▎   | 233135/371472 [7:31:21<11:46:44,  3.26it/s] 63%|██████▎   | 233136/371472 [7:31:21<11:16:58,  3.41it/s] 63%|██████▎   | 233137/371472 [7:31:22<10:59:24,  3.50it/s] 63%|██████▎   | 233138/371472 [7:31:22<10:39:08,  3.61it/s] 63%|██████▎   | 233139/371472 [7:31:22<11:23:40,  3.37it/s] 63%|██████▎   | 233140/371472 [7:31:23<10:54:09,  3.52it/s]                                                            {'loss': 2.7695, 'learning_rate': 4.353304315973194e-07, 'epoch': 10.04}
 63%|██████▎   | 233140/371472 [7:31:23<10:54:09,  3.52it/s] 63%|██████▎   | 233141/371472 [7:31:23<11:06:23,  3.46it/s] 63%|██████▎   | 233142/371472 [7:31:23<10:45:39,  3.57it/s] 63%|██████▎   | 233143/371472 [7:31:23<10:54:39,  3.52it/s] 63%|██████▎   | 233144/371472 [7:31:24<11:49:38,  3.25it/s] 63%|██████▎   | 233145/371472 [7:31:24<11:22:26,  3.38it/s] 63%|██████▎   | 233146/371472 [7:31:24<11:28:51,  3.35it/s] 63%|██████▎   | 233147/371472 [7:31:25<10:47:26,  3.56it/s] 63%|██████▎   | 233148/371472 [7:31:25<11:25:28,  3.36it/s] 63%|██████▎   | 233149/371472 [7:31:25<11:54:41,  3.23it/s] 63%|██████▎   | 233150/371472 [7:31:26<11:20:13,  3.39it/s] 63%|██████▎   | 233151/371472 [7:31:26<11:26:12,  3.36it/s] 63%|██████▎   | 233152/371472 [7:31:26<11:14:49,  3.42it/s] 63%|██████▎   | 233153/371472 [7:31:26<11:11:14,  3.43it/s] 63%|██████▎   | 233154/371472 [7:31:27<10:53:46,  3.53it/s] 63%|██████▎   | 233155/371472 [7:31:27<10:51:39,  3.54it/s] 63%|██████▎   | 233156/371472 [7:31:27<10:33:13,  3.64it/s] 63%|██████▎   | 233157/371472 [7:31:28<10:52:59,  3.53it/s] 63%|██████▎   | 233158/371472 [7:31:28<10:58:48,  3.50it/s] 63%|██████▎   | 233159/371472 [7:31:28<10:41:42,  3.59it/s] 63%|██████▎   | 233160/371472 [7:31:28<10:57:35,  3.51it/s]                                                            {'loss': 2.8594, 'learning_rate': 4.352819496218406e-07, 'epoch': 10.04}
 63%|██████▎   | 233160/371472 [7:31:28<10:57:35,  3.51it/s] 63%|██████▎   | 233161/371472 [7:31:29<10:33:13,  3.64it/s] 63%|██████▎   | 233162/371472 [7:31:29<11:16:58,  3.41it/s] 63%|██████▎   | 233163/371472 [7:31:29<11:07:07,  3.46it/s] 63%|██████▎   | 233164/371472 [7:31:30<10:59:45,  3.49it/s] 63%|██████▎   | 233165/371472 [7:31:30<10:31:39,  3.65it/s] 63%|██████▎   | 233166/371472 [7:31:30<10:34:55,  3.63it/s] 63%|██████▎   | 233167/371472 [7:31:30<11:07:25,  3.45it/s] 63%|██████▎   | 233168/371472 [7:31:31<10:59:54,  3.49it/s] 63%|██████▎   | 233169/371472 [7:31:31<10:29:41,  3.66it/s] 63%|██████▎   | 233170/371472 [7:31:31<11:24:49,  3.37it/s] 63%|██████▎   | 233171/371472 [7:31:32<11:14:22,  3.42it/s] 63%|██████▎   | 233172/371472 [7:31:32<10:44:08,  3.58it/s] 63%|██████▎   | 233173/371472 [7:31:32<10:19:28,  3.72it/s] 63%|██████▎   | 233174/371472 [7:31:32<11:39:18,  3.30it/s] 63%|██████▎   | 233175/371472 [7:31:33<11:41:51,  3.28it/s] 63%|██████▎   | 233176/371472 [7:31:33<11:51:42,  3.24it/s] 63%|██████▎   | 233177/371472 [7:31:33<11:13:13,  3.42it/s] 63%|██████▎   | 233178/371472 [7:31:34<11:22:45,  3.38it/s] 63%|██████▎   | 233179/371472 [7:31:34<10:40:10,  3.60it/s] 63%|██████▎   | 233180/371472 [7:31:34<10:36:35,  3.62it/s]                                                            {'loss': 2.8182, 'learning_rate': 4.352334676463617e-07, 'epoch': 10.04}
 63%|██████▎   | 233180/371472 [7:31:34<10:36:35,  3.62it/s] 63%|██████▎   | 233181/371472 [7:31:34<11:01:42,  3.48it/s] 63%|██████▎   | 233182/371472 [7:31:35<10:49:48,  3.55it/s] 63%|██████▎   | 233183/371472 [7:31:35<10:16:18,  3.74it/s] 63%|██████▎   | 233184/371472 [7:31:35<10:03:16,  3.82it/s] 63%|██████▎   | 233185/371472 [7:31:35<10:30:30,  3.66it/s] 63%|██████▎   | 233186/371472 [7:31:36<10:08:10,  3.79it/s] 63%|██████▎   | 233187/371472 [7:31:36<11:07:21,  3.45it/s] 63%|██████▎   | 233188/371472 [7:31:36<11:27:37,  3.35it/s] 63%|██████▎   | 233189/371472 [7:31:37<11:03:12,  3.48it/s] 63%|██████▎   | 233190/371472 [7:31:37<10:53:25,  3.53it/s] 63%|██████▎   | 233191/371472 [7:31:37<10:38:21,  3.61it/s] 63%|██████▎   | 233192/371472 [7:31:37<10:36:28,  3.62it/s] 63%|██████▎   | 233193/371472 [7:31:38<12:04:47,  3.18it/s] 63%|██████▎   | 233194/371472 [7:31:38<11:24:29,  3.37it/s] 63%|██████▎   | 233195/371472 [7:31:38<11:01:13,  3.49it/s] 63%|██████▎   | 233196/371472 [7:31:39<10:28:30,  3.67it/s] 63%|██████▎   | 233197/371472 [7:31:39<10:39:53,  3.60it/s] 63%|██████▎   | 233198/371472 [7:31:39<10:40:28,  3.60it/s] 63%|██████▎   | 233199/371472 [7:31:39<11:04:36,  3.47it/s] 63%|██████▎   | 233200/371472 [7:31:40<10:37:48,  3.61it/s]                                                            {'loss': 2.8611, 'learning_rate': 4.351849856708828e-07, 'epoch': 10.04}
 63%|██████▎   | 233200/371472 [7:31:40<10:37:48,  3.61it/s] 63%|██████▎   | 233201/371472 [7:31:40<10:41:52,  3.59it/s] 63%|██████▎   | 233202/371472 [7:31:40<10:37:43,  3.61it/s] 63%|██████▎   | 233203/371472 [7:31:41<11:24:29,  3.37it/s] 63%|██████▎   | 233204/371472 [7:31:41<11:06:42,  3.46it/s] 63%|██████▎   | 233205/371472 [7:31:41<10:51:20,  3.54it/s] 63%|██████▎   | 233206/371472 [7:31:41<11:21:28,  3.38it/s] 63%|██████▎   | 233207/371472 [7:31:42<10:58:19,  3.50it/s] 63%|██████▎   | 233208/371472 [7:31:42<10:46:55,  3.56it/s] 63%|██████▎   | 233209/371472 [7:31:42<10:20:33,  3.71it/s] 63%|██████▎   | 233210/371472 [7:31:43<10:30:57,  3.65it/s] 63%|██████▎   | 233211/371472 [7:31:43<10:52:25,  3.53it/s] 63%|██████▎   | 233212/371472 [7:31:43<10:50:24,  3.54it/s] 63%|██████▎   | 233213/371472 [7:31:43<11:13:18,  3.42it/s] 63%|██████▎   | 233214/371472 [7:31:44<11:02:24,  3.48it/s] 63%|██████▎   | 233215/371472 [7:31:44<10:41:05,  3.59it/s] 63%|██████▎   | 233216/371472 [7:31:44<10:32:29,  3.64it/s] 63%|██████▎   | 233217/371472 [7:31:45<10:32:44,  3.64it/s] 63%|██████▎   | 233218/371472 [7:31:45<10:26:18,  3.68it/s] 63%|██████▎   | 233219/371472 [7:31:45<11:08:13,  3.45it/s] 63%|██████▎   | 233220/371472 [7:31:45<10:41:43,  3.59it/s]                                                            {'loss': 2.9178, 'learning_rate': 4.3513650369540387e-07, 'epoch': 10.05}
 63%|██████▎   | 233220/371472 [7:31:45<10:41:43,  3.59it/s] 63%|██████▎   | 233221/371472 [7:31:46<10:25:42,  3.68it/s] 63%|██████▎   | 233222/371472 [7:31:46<10:19:21,  3.72it/s] 63%|██████▎   | 233223/371472 [7:31:46<11:03:02,  3.48it/s] 63%|██████▎   | 233224/371472 [7:31:46<10:28:45,  3.66it/s] 63%|██████▎   | 233225/371472 [7:31:47<10:11:00,  3.77it/s] 63%|██████▎   | 233226/371472 [7:31:47<9:52:35,  3.89it/s]  63%|██████▎   | 233227/371472 [7:31:47<9:28:05,  4.06it/s] 63%|██████▎   | 233228/371472 [7:31:47<9:31:39,  4.03it/s] 63%|██████▎   | 233229/371472 [7:31:48<9:26:28,  4.07it/s] 63%|██████▎   | 233230/371472 [7:31:48<9:37:07,  3.99it/s] 63%|██████▎   | 233231/371472 [7:31:48<10:08:50,  3.78it/s] 63%|██████▎   | 233232/371472 [7:31:48<10:12:01,  3.76it/s] 63%|██████▎   | 233233/371472 [7:31:49<10:08:18,  3.79it/s] 63%|██████▎   | 233234/371472 [7:31:49<10:50:00,  3.54it/s] 63%|██████▎   | 233235/371472 [7:31:49<11:29:55,  3.34it/s] 63%|██████▎   | 233236/371472 [7:31:50<10:51:36,  3.54it/s] 63%|██████▎   | 233237/371472 [7:31:50<12:00:27,  3.20it/s] 63%|██████▎   | 233238/371472 [7:31:50<11:22:57,  3.37it/s] 63%|██████▎   | 233239/371472 [7:31:51<11:42:39,  3.28it/s] 63%|██████▎   | 233240/371472 [7:31:51<12:00:33,  3.20it/s]                                                            {'loss': 3.0529, 'learning_rate': 4.3508802171992505e-07, 'epoch': 10.05}
 63%|██████▎   | 233240/371472 [7:31:51<12:00:33,  3.20it/s] 63%|██████▎   | 233241/371472 [7:31:51<11:25:45,  3.36it/s] 63%|██████▎   | 233242/371472 [7:31:51<10:54:51,  3.52it/s] 63%|██████▎   | 233243/371472 [7:31:52<10:50:15,  3.54it/s] 63%|██████▎   | 233244/371472 [7:31:52<10:22:37,  3.70it/s] 63%|██████▎   | 233245/371472 [7:31:52<10:33:07,  3.64it/s] 63%|██████▎   | 233246/371472 [7:31:53<11:05:12,  3.46it/s] 63%|██████▎   | 233247/371472 [7:31:53<10:39:15,  3.60it/s] 63%|██████▎   | 233248/371472 [7:31:53<10:12:39,  3.76it/s] 63%|██████▎   | 233249/371472 [7:31:53<9:53:21,  3.88it/s]  63%|██████▎   | 233250/371472 [7:31:54<10:17:08,  3.73it/s] 63%|██████▎   | 233251/371472 [7:31:54<10:45:50,  3.57it/s] 63%|██████▎   | 233252/371472 [7:31:54<10:51:32,  3.54it/s] 63%|██████▎   | 233253/371472 [7:31:55<10:55:59,  3.51it/s] 63%|██████▎   | 233254/371472 [7:31:55<11:14:53,  3.41it/s] 63%|██████▎   | 233255/371472 [7:31:55<10:57:02,  3.51it/s] 63%|██████▎   | 233256/371472 [7:31:55<10:31:55,  3.65it/s] 63%|██████▎   | 233257/371472 [7:31:56<10:24:40,  3.69it/s] 63%|██████▎   | 233258/371472 [7:31:56<10:27:47,  3.67it/s] 63%|██████▎   | 233259/371472 [7:31:56<10:17:00,  3.73it/s] 63%|██████▎   | 233260/371472 [7:31:56<10:58:40,  3.50it/s]                                                            {'loss': 2.9237, 'learning_rate': 4.3503953974444607e-07, 'epoch': 10.05}
 63%|██████▎   | 233260/371472 [7:31:56<10:58:40,  3.50it/s] 63%|██████▎   | 233261/371472 [7:31:57<10:56:46,  3.51it/s] 63%|██████▎   | 233262/371472 [7:31:57<11:08:39,  3.44it/s] 63%|██████▎   | 233263/371472 [7:31:57<10:48:26,  3.55it/s] 63%|██████▎   | 233264/371472 [7:31:58<10:29:41,  3.66it/s] 63%|██████▎   | 233265/371472 [7:31:58<10:45:04,  3.57it/s] 63%|██████▎   | 233266/371472 [7:31:58<10:44:36,  3.57it/s] 63%|██████▎   | 233267/371472 [7:31:58<10:38:46,  3.61it/s] 63%|██████▎   | 233268/371472 [7:31:59<10:34:20,  3.63it/s] 63%|██████▎   | 233269/371472 [7:31:59<10:27:54,  3.67it/s] 63%|██████▎   | 233270/371472 [7:31:59<11:13:40,  3.42it/s] 63%|██████▎   | 233271/371472 [7:32:00<10:59:32,  3.49it/s] 63%|██████▎   | 233272/371472 [7:32:00<11:13:37,  3.42it/s] 63%|██████▎   | 233273/371472 [7:32:00<12:09:42,  3.16it/s] 63%|██████▎   | 233274/371472 [7:32:00<11:23:19,  3.37it/s] 63%|██████▎   | 233275/371472 [7:32:01<10:51:57,  3.53it/s] 63%|██████▎   | 233276/371472 [7:32:01<10:29:10,  3.66it/s] 63%|██████▎   | 233277/371472 [7:32:01<10:07:10,  3.79it/s] 63%|██████▎   | 233278/371472 [7:32:02<10:30:54,  3.65it/s] 63%|██████▎   | 233279/371472 [7:32:02<10:13:10,  3.76it/s] 63%|██████▎   | 233280/371472 [7:32:02<9:57:53,  3.85it/s]                                                            {'loss': 2.7762, 'learning_rate': 4.3499105776896724e-07, 'epoch': 10.05}
 63%|██████▎   | 233280/371472 [7:32:02<9:57:53,  3.85it/s] 63%|██████▎   | 233281/371472 [7:32:02<10:44:11,  3.58it/s] 63%|██████▎   | 233282/371472 [7:32:03<11:13:36,  3.42it/s] 63%|██████▎   | 233283/371472 [7:32:03<10:59:08,  3.49it/s] 63%|██████▎   | 233284/371472 [7:32:03<10:33:16,  3.64it/s] 63%|██████▎   | 233285/371472 [7:32:03<10:52:58,  3.53it/s] 63%|██████▎   | 233286/371472 [7:32:04<10:57:23,  3.50it/s] 63%|██████▎   | 233287/371472 [7:32:04<11:04:47,  3.46it/s] 63%|██████▎   | 233288/371472 [7:32:04<10:42:02,  3.59it/s] 63%|██████▎   | 233289/371472 [7:32:05<10:52:38,  3.53it/s] 63%|██████▎   | 233290/371472 [7:32:05<10:24:15,  3.69it/s] 63%|██████▎   | 233291/371472 [7:32:05<12:54:44,  2.97it/s] 63%|██████▎   | 233292/371472 [7:32:06<12:09:33,  3.16it/s] 63%|██████▎   | 233293/371472 [7:32:06<11:42:00,  3.28it/s] 63%|██████▎   | 233294/371472 [7:32:06<11:24:36,  3.36it/s] 63%|██████▎   | 233295/371472 [7:32:06<11:13:27,  3.42it/s] 63%|██████▎   | 233296/371472 [7:32:07<10:53:55,  3.52it/s] 63%|██████▎   | 233297/371472 [7:32:07<11:07:45,  3.45it/s] 63%|██████▎   | 233298/371472 [7:32:07<11:31:52,  3.33it/s] 63%|██████▎   | 233299/371472 [7:32:08<12:37:14,  3.04it/s] 63%|██████▎   | 233300/371472 [7:32:08<12:22:49,  3.10it/s]                                                            {'loss': 2.8364, 'learning_rate': 4.349425757934883e-07, 'epoch': 10.05}
 63%|██████▎   | 233300/371472 [7:32:08<12:22:49,  3.10it/s] 63%|██████▎   | 233301/371472 [7:32:09<13:50:45,  2.77it/s] 63%|██████▎   | 233302/371472 [7:32:09<12:31:07,  3.07it/s] 63%|██████▎   | 233303/371472 [7:32:09<11:42:32,  3.28it/s] 63%|██████▎   | 233304/371472 [7:32:09<11:10:18,  3.44it/s] 63%|██████▎   | 233305/371472 [7:32:10<10:59:14,  3.49it/s] 63%|██████▎   | 233306/371472 [7:32:10<11:05:57,  3.46it/s] 63%|██████▎   | 233307/371472 [7:32:10<10:43:43,  3.58it/s] 63%|██████▎   | 233308/371472 [7:32:10<10:31:41,  3.65it/s] 63%|██████▎   | 233309/371472 [7:32:11<10:38:44,  3.61it/s] 63%|██████▎   | 233310/371472 [7:32:11<10:33:56,  3.63it/s] 63%|██████▎   | 233311/371472 [7:32:11<10:24:08,  3.69it/s] 63%|██████▎   | 233312/371472 [7:32:11<10:29:42,  3.66it/s] 63%|██████▎   | 233313/371472 [7:32:12<10:29:41,  3.66it/s] 63%|██████▎   | 233314/371472 [7:32:12<10:59:52,  3.49it/s] 63%|██████▎   | 233315/371472 [7:32:12<10:27:17,  3.67it/s] 63%|██████▎   | 233316/371472 [7:32:13<10:30:00,  3.65it/s] 63%|██████▎   | 233317/371472 [7:32:13<10:16:22,  3.74it/s] 63%|██████▎   | 233318/371472 [7:32:13<10:33:10,  3.64it/s] 63%|██████▎   | 233319/371472 [7:32:13<10:10:16,  3.77it/s] 63%|██████▎   | 233320/371472 [7:32:14<12:03:52,  3.18it/s]                                                            {'loss': 2.8621, 'learning_rate': 4.3489409381800944e-07, 'epoch': 10.05}
 63%|██████▎   | 233320/371472 [7:32:14<12:03:52,  3.18it/s] 63%|██████▎   | 233321/371472 [7:32:14<11:18:52,  3.39it/s] 63%|██████▎   | 233322/371472 [7:32:14<11:10:50,  3.43it/s] 63%|██████▎   | 233323/371472 [7:32:15<10:52:17,  3.53it/s] 63%|██████▎   | 233324/371472 [7:32:15<10:28:34,  3.66it/s] 63%|██████▎   | 233325/371472 [7:32:15<10:09:10,  3.78it/s] 63%|██████▎   | 233326/371472 [7:32:15<10:03:14,  3.82it/s] 63%|██████▎   | 233327/371472 [7:32:16<10:21:23,  3.71it/s] 63%|██████▎   | 233328/371472 [7:32:16<10:48:42,  3.55it/s] 63%|██████▎   | 233329/371472 [7:32:16<10:31:22,  3.65it/s] 63%|██████▎   | 233330/371472 [7:32:16<10:23:11,  3.69it/s] 63%|██████▎   | 233331/371472 [7:32:17<10:56:17,  3.51it/s] 63%|██████▎   | 233332/371472 [7:32:17<10:44:45,  3.57it/s] 63%|██████▎   | 233333/371472 [7:32:17<11:17:32,  3.40it/s] 63%|██████▎   | 233334/371472 [7:32:18<11:13:49,  3.42it/s] 63%|██████▎   | 233335/371472 [7:32:18<10:50:01,  3.54it/s] 63%|██████▎   | 233336/371472 [7:32:18<10:48:49,  3.55it/s] 63%|██████▎   | 233337/371472 [7:32:18<10:25:28,  3.68it/s] 63%|██████▎   | 233338/371472 [7:32:19<10:35:55,  3.62it/s] 63%|██████▎   | 233339/371472 [7:32:19<10:31:29,  3.65it/s] 63%|██████▎   | 233340/371472 [7:32:19<10:30:03,  3.65it/s]                                                            {'loss': 2.9134, 'learning_rate': 4.348456118425305e-07, 'epoch': 10.05}
 63%|██████▎   | 233340/371472 [7:32:19<10:30:03,  3.65it/s] 63%|██████▎   | 233341/371472 [7:32:20<10:27:21,  3.67it/s] 63%|██████▎   | 233342/371472 [7:32:20<10:18:16,  3.72it/s] 63%|██████▎   | 233343/371472 [7:32:20<10:30:43,  3.65it/s] 63%|██████▎   | 233344/371472 [7:32:20<10:20:03,  3.71it/s] 63%|██████▎   | 233345/371472 [7:32:21<10:50:06,  3.54it/s] 63%|██████▎   | 233346/371472 [7:32:21<10:32:33,  3.64it/s] 63%|██████▎   | 233347/371472 [7:32:21<10:20:18,  3.71it/s] 63%|██████▎   | 233348/371472 [7:32:21<10:50:12,  3.54it/s] 63%|██████▎   | 233349/371472 [7:32:22<11:06:46,  3.45it/s] 63%|██████▎   | 233350/371472 [7:32:22<10:47:22,  3.56it/s] 63%|██████▎   | 233351/371472 [7:32:22<10:25:39,  3.68it/s] 63%|██████▎   | 233352/371472 [7:32:23<10:21:40,  3.70it/s] 63%|██████▎   | 233353/371472 [7:32:23<9:56:06,  3.86it/s]  63%|██████▎   | 233354/371472 [7:32:23<9:41:49,  3.96it/s] 63%|██████▎   | 233355/371472 [7:32:23<9:46:20,  3.93it/s] 63%|██████▎   | 233356/371472 [7:32:24<9:39:44,  3.97it/s] 63%|██████▎   | 233357/371472 [7:32:24<9:46:41,  3.92it/s] 63%|██████▎   | 233358/371472 [7:32:24<10:07:10,  3.79it/s] 63%|██████▎   | 233359/371472 [7:32:24<9:52:00,  3.89it/s]  63%|██████▎   | 233360/371472 [7:32:25<10:00:57,  3.83it/s]                                                            {'loss': 3.0314, 'learning_rate': 4.347971298670517e-07, 'epoch': 10.05}
 63%|██████▎   | 233360/371472 [7:32:25<10:00:57,  3.83it/s] 63%|██████▎   | 233361/371472 [7:32:25<9:51:40,  3.89it/s]  63%|██████▎   | 233362/371472 [7:32:25<10:22:05,  3.70it/s] 63%|██████▎   | 233363/371472 [7:32:25<10:14:57,  3.74it/s] 63%|██████▎   | 233364/371472 [7:32:26<10:19:37,  3.71it/s] 63%|██████▎   | 233365/371472 [7:32:26<10:40:58,  3.59it/s] 63%|██████▎   | 233366/371472 [7:32:26<11:17:16,  3.40it/s] 63%|██████▎   | 233367/371472 [7:32:27<11:13:25,  3.42it/s] 63%|██████▎   | 233368/371472 [7:32:27<10:48:10,  3.55it/s] 63%|██████▎   | 233369/371472 [7:32:27<10:27:59,  3.67it/s] 63%|██████▎   | 233370/371472 [7:32:27<10:30:47,  3.65it/s] 63%|██████▎   | 233371/371472 [7:32:28<10:53:40,  3.52it/s] 63%|██████▎   | 233372/371472 [7:32:28<11:04:59,  3.46it/s] 63%|██████▎   | 233373/371472 [7:32:28<10:37:46,  3.61it/s] 63%|██████▎   | 233374/371472 [7:32:28<10:22:35,  3.70it/s] 63%|██████▎   | 233375/371472 [7:32:29<10:08:34,  3.78it/s] 63%|██████▎   | 233376/371472 [7:32:29<10:20:42,  3.71it/s] 63%|██████▎   | 233377/371472 [7:32:29<11:41:06,  3.28it/s] 63%|██████▎   | 233378/371472 [7:32:30<11:18:18,  3.39it/s] 63%|██████▎   | 233379/371472 [7:32:30<10:50:13,  3.54it/s] 63%|██████▎   | 233380/371472 [7:32:30<10:17:34,  3.73it/s]                                                            {'loss': 2.8845, 'learning_rate': 4.347486478915727e-07, 'epoch': 10.05}
 63%|██████▎   | 233380/371472 [7:32:30<10:17:34,  3.73it/s] 63%|██████▎   | 233381/371472 [7:32:30<10:19:50,  3.71it/s] 63%|██████▎   | 233382/371472 [7:32:31<10:09:01,  3.78it/s] 63%|██████▎   | 233383/371472 [7:32:31<10:31:59,  3.64it/s] 63%|██████▎   | 233384/371472 [7:32:31<10:18:12,  3.72it/s] 63%|██████▎   | 233385/371472 [7:32:32<10:06:46,  3.79it/s] 63%|██████▎   | 233386/371472 [7:32:32<9:57:58,  3.85it/s]  63%|██████▎   | 233387/371472 [7:32:32<9:40:28,  3.96it/s] 63%|██████▎   | 233388/371472 [7:32:32<9:48:06,  3.91it/s] 63%|██████▎   | 233389/371472 [7:32:33<9:56:04,  3.86it/s] 63%|██████▎   | 233390/371472 [7:32:33<10:05:41,  3.80it/s] 63%|██████▎   | 233391/371472 [7:32:33<10:08:16,  3.78it/s] 63%|██████▎   | 233392/371472 [7:32:33<9:46:39,  3.92it/s]  63%|██████▎   | 233393/371472 [7:32:34<10:14:56,  3.74it/s] 63%|██████▎   | 233394/371472 [7:32:34<11:32:05,  3.33it/s] 63%|██████▎   | 233395/371472 [7:32:34<11:12:48,  3.42it/s] 63%|██████▎   | 233396/371472 [7:32:35<12:01:04,  3.19it/s] 63%|██████▎   | 233397/371472 [7:32:35<11:48:57,  3.25it/s] 63%|██████▎   | 233398/371472 [7:32:35<11:30:05,  3.33it/s] 63%|██████▎   | 233399/371472 [7:32:35<11:11:20,  3.43it/s] 63%|██████▎   | 233400/371472 [7:32:36<11:43:43,  3.27it/s]                                                            {'loss': 2.7569, 'learning_rate': 4.347001659160939e-07, 'epoch': 10.05}
 63%|██████▎   | 233400/371472 [7:32:36<11:43:43,  3.27it/s] 63%|██████▎   | 233401/371472 [7:32:36<11:27:17,  3.35it/s] 63%|██████▎   | 233402/371472 [7:32:36<10:52:46,  3.53it/s] 63%|██████▎   | 233403/371472 [7:32:37<10:48:39,  3.55it/s] 63%|██████▎   | 233404/371472 [7:32:37<10:58:14,  3.50it/s] 63%|██████▎   | 233405/371472 [7:32:37<11:26:18,  3.35it/s] 63%|██████▎   | 233406/371472 [7:32:37<10:59:24,  3.49it/s] 63%|██████▎   | 233407/371472 [7:32:38<10:19:13,  3.72it/s] 63%|██████▎   | 233408/371472 [7:32:38<11:19:10,  3.39it/s] 63%|██████▎   | 233409/371472 [7:32:38<12:08:27,  3.16it/s] 63%|██████▎   | 233410/371472 [7:32:39<11:34:02,  3.32it/s] 63%|██████▎   | 233411/371472 [7:32:39<10:54:50,  3.51it/s] 63%|██████▎   | 233412/371472 [7:32:39<10:41:12,  3.59it/s] 63%|██████▎   | 233413/371472 [7:32:40<11:21:40,  3.38it/s] 63%|██████▎   | 233414/371472 [7:32:40<11:56:57,  3.21it/s] 63%|██████▎   | 233415/371472 [7:32:40<11:26:05,  3.35it/s] 63%|██████▎   | 233416/371472 [7:32:40<10:49:30,  3.54it/s] 63%|██████▎   | 233417/371472 [7:32:41<11:17:42,  3.40it/s] 63%|██████▎   | 233418/371472 [7:32:41<11:24:50,  3.36it/s] 63%|██████▎   | 233419/371472 [7:32:41<10:46:12,  3.56it/s] 63%|██████▎   | 233420/371472 [7:32:42<10:25:05,  3.68it/s]                                                            {'loss': 2.9819, 'learning_rate': 4.3465168394061496e-07, 'epoch': 10.05}
 63%|██████▎   | 233420/371472 [7:32:42<10:25:05,  3.68it/s] 63%|██████▎   | 233421/371472 [7:32:42<10:12:23,  3.76it/s] 63%|██████▎   | 233422/371472 [7:32:42<10:03:30,  3.81it/s] 63%|██████▎   | 233423/371472 [7:32:42<10:06:44,  3.79it/s] 63%|██████▎   | 233424/371472 [7:32:43<10:25:31,  3.68it/s] 63%|██████▎   | 233425/371472 [7:32:43<11:05:05,  3.46it/s] 63%|██████▎   | 233426/371472 [7:32:43<10:42:09,  3.58it/s] 63%|██████▎   | 233427/371472 [7:32:43<11:08:03,  3.44it/s] 63%|██████▎   | 233428/371472 [7:32:44<10:37:15,  3.61it/s] 63%|██████▎   | 233429/371472 [7:32:44<10:39:44,  3.60it/s] 63%|██████▎   | 233430/371472 [7:32:44<10:19:25,  3.71it/s] 63%|██████▎   | 233431/371472 [7:32:44<9:54:00,  3.87it/s]  63%|██████▎   | 233432/371472 [7:32:45<10:48:06,  3.55it/s] 63%|██████▎   | 233433/371472 [7:32:45<10:34:57,  3.62it/s] 63%|██████▎   | 233434/371472 [7:32:45<10:21:29,  3.70it/s] 63%|██████▎   | 233435/371472 [7:32:46<10:59:26,  3.49it/s] 63%|██████▎   | 233436/371472 [7:32:46<10:57:27,  3.50it/s] 63%|██████▎   | 233437/371472 [7:32:46<11:03:25,  3.47it/s] 63%|██████▎   | 233438/371472 [7:32:47<11:27:15,  3.35it/s] 63%|██████▎   | 233439/371472 [7:32:47<11:21:26,  3.38it/s] 63%|██████▎   | 233440/371472 [7:32:47<10:42:53,  3.58it/s]                                                            {'loss': 2.8921, 'learning_rate': 4.346032019651361e-07, 'epoch': 10.05}
 63%|██████▎   | 233440/371472 [7:32:47<10:42:53,  3.58it/s] 63%|██████▎   | 233441/371472 [7:32:47<10:46:15,  3.56it/s] 63%|██████▎   | 233442/371472 [7:32:48<10:51:40,  3.53it/s] 63%|██████▎   | 233443/371472 [7:32:48<10:41:39,  3.59it/s] 63%|██████▎   | 233444/371472 [7:32:48<10:43:35,  3.57it/s] 63%|██████▎   | 233445/371472 [7:32:48<10:30:53,  3.65it/s] 63%|██████▎   | 233446/371472 [7:32:49<10:21:36,  3.70it/s] 63%|██████▎   | 233447/371472 [7:32:49<11:37:56,  3.30it/s] 63%|██████▎   | 233448/371472 [7:32:49<11:17:13,  3.40it/s] 63%|██████▎   | 233449/371472 [7:32:50<11:05:33,  3.46it/s] 63%|██████▎   | 233450/371472 [7:32:50<10:48:50,  3.55it/s] 63%|██████▎   | 233451/371472 [7:32:50<10:35:10,  3.62it/s] 63%|██████▎   | 233452/371472 [7:32:50<10:33:27,  3.63it/s] 63%|██████▎   | 233453/371472 [7:32:51<10:49:30,  3.54it/s] 63%|██████▎   | 233454/371472 [7:32:51<10:36:09,  3.62it/s] 63%|██████▎   | 233455/371472 [7:32:51<10:17:14,  3.73it/s] 63%|██████▎   | 233456/371472 [7:32:52<10:35:46,  3.62it/s] 63%|██████▎   | 233457/371472 [7:32:52<10:40:47,  3.59it/s] 63%|██████▎   | 233458/371472 [7:32:52<10:25:42,  3.68it/s] 63%|██████▎   | 233459/371472 [7:32:52<10:55:43,  3.51it/s] 63%|██████▎   | 233460/371472 [7:32:53<10:42:14,  3.58it/s]                                                            {'loss': 2.8411, 'learning_rate': 4.3455471998965715e-07, 'epoch': 10.06}
 63%|██████▎   | 233460/371472 [7:32:53<10:42:14,  3.58it/s] 63%|██████▎   | 233461/371472 [7:32:53<10:44:45,  3.57it/s] 63%|██████▎   | 233462/371472 [7:32:53<11:11:52,  3.42it/s] 63%|██████▎   | 233463/371472 [7:32:54<10:57:17,  3.50it/s] 63%|██████▎   | 233464/371472 [7:32:54<10:43:09,  3.58it/s] 63%|██████▎   | 233465/371472 [7:32:54<10:23:24,  3.69it/s] 63%|██████▎   | 233466/371472 [7:32:54<10:15:20,  3.74it/s] 63%|██████▎   | 233467/371472 [7:32:55<10:32:21,  3.64it/s] 63%|██████▎   | 233468/371472 [7:32:55<10:15:48,  3.74it/s] 63%|██████▎   | 233469/371472 [7:32:55<10:50:10,  3.54it/s] 63%|██████▎   | 233470/371472 [7:32:55<10:44:10,  3.57it/s] 63%|██████▎   | 233471/371472 [7:32:56<10:34:11,  3.63it/s] 63%|██████▎   | 233472/371472 [7:32:56<10:27:14,  3.67it/s] 63%|██████▎   | 233473/371472 [7:32:56<10:04:08,  3.81it/s] 63%|██████▎   | 233474/371472 [7:32:57<10:07:15,  3.79it/s] 63%|██████▎   | 233475/371472 [7:32:57<11:13:24,  3.42it/s] 63%|██████▎   | 233476/371472 [7:32:57<10:53:44,  3.52it/s] 63%|██████▎   | 233477/371472 [7:32:57<10:28:37,  3.66it/s] 63%|██████▎   | 233478/371472 [7:32:58<10:18:14,  3.72it/s] 63%|██████▎   | 233479/371472 [7:32:58<9:58:26,  3.84it/s]  63%|██████▎   | 233480/371472 [7:32:58<10:45:54,  3.56it/s]                                                            {'loss': 3.0505, 'learning_rate': 4.345062380141782e-07, 'epoch': 10.06}
 63%|██████▎   | 233480/371472 [7:32:58<10:45:54,  3.56it/s] 63%|██████▎   | 233481/371472 [7:32:58<10:25:21,  3.68it/s] 63%|██████▎   | 233482/371472 [7:32:59<10:15:30,  3.74it/s] 63%|██████▎   | 233483/371472 [7:32:59<10:42:27,  3.58it/s] 63%|██████▎   | 233484/371472 [7:32:59<10:24:21,  3.68it/s] 63%|██████▎   | 233485/371472 [7:33:00<10:09:09,  3.78it/s] 63%|██████▎   | 233486/371472 [7:33:00<9:58:00,  3.85it/s]  63%|██████▎   | 233487/371472 [7:33:00<9:57:31,  3.85it/s] 63%|██████▎   | 233488/371472 [7:33:00<10:27:34,  3.66it/s] 63%|██████▎   | 233489/371472 [7:33:01<10:36:35,  3.61it/s] 63%|██████▎   | 233490/371472 [7:33:01<10:13:31,  3.75it/s] 63%|██████▎   | 233491/371472 [7:33:01<10:03:50,  3.81it/s] 63%|██████▎   | 233492/371472 [7:33:01<9:55:47,  3.86it/s]  63%|██████▎   | 233493/371472 [7:33:02<10:09:17,  3.77it/s] 63%|██████▎   | 233494/371472 [7:33:02<10:30:51,  3.65it/s] 63%|██████▎   | 233495/371472 [7:33:02<10:19:20,  3.71it/s] 63%|██████▎   | 233496/371472 [7:33:03<10:44:49,  3.57it/s] 63%|██████▎   | 233497/371472 [7:33:03<11:25:53,  3.35it/s] 63%|██████▎   | 233498/371472 [7:33:03<10:53:12,  3.52it/s] 63%|██████▎   | 233499/371472 [7:33:03<11:50:25,  3.24it/s] 63%|██████▎   | 233500/371472 [7:33:04<11:33:43,  3.31it/s]                                                            {'loss': 2.8849, 'learning_rate': 4.344577560386994e-07, 'epoch': 10.06}
 63%|██████▎   | 233500/371472 [7:33:04<11:33:43,  3.31it/s] 63%|██████▎   | 233501/371472 [7:33:04<11:33:03,  3.32it/s] 63%|██████▎   | 233502/371472 [7:33:04<11:08:36,  3.44it/s] 63%|██████▎   | 233503/371472 [7:33:05<10:41:39,  3.58it/s] 63%|██████▎   | 233504/371472 [7:33:05<10:34:34,  3.62it/s] 63%|██████▎   | 233505/371472 [7:33:05<10:21:22,  3.70it/s] 63%|██████▎   | 233506/371472 [7:33:05<10:22:41,  3.69it/s] 63%|██████▎   | 233507/371472 [7:33:06<10:36:19,  3.61it/s] 63%|██████▎   | 233508/371472 [7:33:06<11:19:05,  3.39it/s] 63%|██████▎   | 233509/371472 [7:33:06<11:33:40,  3.31it/s] 63%|██████▎   | 233510/371472 [7:33:07<11:04:14,  3.46it/s] 63%|██████▎   | 233511/371472 [7:33:07<11:26:29,  3.35it/s] 63%|██████▎   | 233512/371472 [7:33:07<11:27:17,  3.35it/s] 63%|██████▎   | 233513/371472 [7:33:08<11:17:44,  3.39it/s] 63%|██████▎   | 233514/371472 [7:33:08<10:37:01,  3.61it/s] 63%|██████▎   | 233515/371472 [7:33:08<10:37:52,  3.60it/s] 63%|██████▎   | 233516/371472 [7:33:08<10:51:06,  3.53it/s] 63%|██████▎   | 233517/371472 [7:33:09<10:33:56,  3.63it/s] 63%|██████▎   | 233518/371472 [7:33:09<10:30:16,  3.65it/s] 63%|██████▎   | 233519/371472 [7:33:09<10:13:56,  3.74it/s] 63%|██████▎   | 233520/371472 [7:33:09<10:31:19,  3.64it/s]                                                            {'loss': 2.8234, 'learning_rate': 4.344092740632204e-07, 'epoch': 10.06}
 63%|██████▎   | 233520/371472 [7:33:09<10:31:19,  3.64it/s] 63%|██████▎   | 233521/371472 [7:33:10<10:25:55,  3.67it/s] 63%|██████▎   | 233522/371472 [7:33:10<10:51:27,  3.53it/s] 63%|██████▎   | 233523/371472 [7:33:10<10:53:39,  3.52it/s] 63%|██████▎   | 233524/371472 [7:33:11<11:08:39,  3.44it/s] 63%|██████▎   | 233525/371472 [7:33:11<10:52:40,  3.52it/s] 63%|██████▎   | 233526/371472 [7:33:11<10:52:38,  3.52it/s] 63%|██████▎   | 233527/371472 [7:33:11<11:26:57,  3.35it/s] 63%|██████▎   | 233528/371472 [7:33:12<12:31:47,  3.06it/s] 63%|██████▎   | 233529/371472 [7:33:12<12:33:05,  3.05it/s] 63%|██████▎   | 233530/371472 [7:33:12<11:38:04,  3.29it/s] 63%|██████▎   | 233531/371472 [7:33:13<11:48:53,  3.24it/s] 63%|██████▎   | 233532/371472 [7:33:13<12:13:56,  3.13it/s] 63%|██████▎   | 233533/371472 [7:33:13<12:16:22,  3.12it/s] 63%|██████▎   | 233534/371472 [7:33:14<11:36:04,  3.30it/s] 63%|██████▎   | 233535/371472 [7:33:14<11:07:47,  3.44it/s] 63%|██████▎   | 233536/371472 [7:33:14<10:37:27,  3.61it/s] 63%|██████▎   | 233537/371472 [7:33:14<10:26:25,  3.67it/s] 63%|██████▎   | 233538/371472 [7:33:15<10:15:50,  3.73it/s] 63%|██████▎   | 233539/371472 [7:33:15<10:14:09,  3.74it/s] 63%|██████▎   | 233540/371472 [7:33:15<9:55:07,  3.86it/s]                                                            {'loss': 3.0112, 'learning_rate': 4.3436079208774165e-07, 'epoch': 10.06}
 63%|██████▎   | 233540/371472 [7:33:15<9:55:07,  3.86it/s] 63%|██████▎   | 233541/371472 [7:33:15<10:18:56,  3.71it/s] 63%|██████▎   | 233542/371472 [7:33:16<10:08:53,  3.78it/s] 63%|██████▎   | 233543/371472 [7:33:16<10:00:38,  3.83it/s] 63%|██████▎   | 233544/371472 [7:33:16<10:28:02,  3.66it/s] 63%|██████▎   | 233545/371472 [7:33:17<10:17:22,  3.72it/s] 63%|██████▎   | 233546/371472 [7:33:17<10:38:22,  3.60it/s] 63%|██████▎   | 233547/371472 [7:33:17<10:33:36,  3.63it/s] 63%|██████▎   | 233548/371472 [7:33:17<10:28:51,  3.66it/s] 63%|██████▎   | 233549/371472 [7:33:18<11:34:40,  3.31it/s] 63%|██████▎   | 233550/371472 [7:33:18<10:58:52,  3.49it/s] 63%|██████▎   | 233551/371472 [7:33:18<11:01:57,  3.47it/s] 63%|██████▎   | 233552/371472 [7:33:19<10:29:48,  3.65it/s] 63%|██████▎   | 233553/371472 [7:33:19<10:26:40,  3.67it/s] 63%|██████▎   | 233554/371472 [7:33:19<11:24:57,  3.36it/s] 63%|██████▎   | 233555/371472 [7:33:19<11:11:28,  3.42it/s] 63%|██████▎   | 233556/371472 [7:33:20<10:59:56,  3.48it/s] 63%|██████▎   | 233557/371472 [7:33:20<10:54:15,  3.51it/s] 63%|██████▎   | 233558/371472 [7:33:20<10:32:38,  3.63it/s] 63%|██████▎   | 233559/371472 [7:33:20<10:09:57,  3.77it/s] 63%|██████▎   | 233560/371472 [7:33:21<9:47:48,  3.91it/s]                                                            {'loss': 3.0086, 'learning_rate': 4.3431231011226267e-07, 'epoch': 10.06}
 63%|██████▎   | 233560/371472 [7:33:21<9:47:48,  3.91it/s] 63%|██████▎   | 233561/371472 [7:33:21<9:49:41,  3.90it/s] 63%|██████▎   | 233562/371472 [7:33:21<9:59:59,  3.83it/s] 63%|██████▎   | 233563/371472 [7:33:21<9:45:05,  3.93it/s] 63%|██████▎   | 233564/371472 [7:33:22<10:24:40,  3.68it/s] 63%|██████▎   | 233565/371472 [7:33:22<10:15:30,  3.73it/s] 63%|██████▎   | 233566/371472 [7:33:22<10:24:08,  3.68it/s] 63%|██████▎   | 233567/371472 [7:33:23<10:39:14,  3.60it/s] 63%|██████▎   | 233568/371472 [7:33:23<10:25:47,  3.67it/s] 63%|██████▎   | 233569/371472 [7:33:23<10:22:01,  3.70it/s] 63%|██████▎   | 233570/371472 [7:33:23<10:23:57,  3.68it/s] 63%|██████▎   | 233571/371472 [7:33:24<10:35:21,  3.62it/s] 63%|██████▎   | 233572/371472 [7:33:24<10:33:20,  3.63it/s] 63%|██████▎   | 233573/371472 [7:33:24<10:39:29,  3.59it/s] 63%|██████▎   | 233574/371472 [7:33:25<10:43:17,  3.57it/s] 63%|██████▎   | 233575/371472 [7:33:25<10:46:37,  3.55it/s] 63%|██████▎   | 233576/371472 [7:33:25<11:20:52,  3.38it/s] 63%|██████▎   | 233577/371472 [7:33:25<11:25:11,  3.35it/s] 63%|██████▎   | 233578/371472 [7:33:26<10:50:28,  3.53it/s] 63%|██████▎   | 233579/371472 [7:33:26<10:18:07,  3.72it/s] 63%|██████▎   | 233580/371472 [7:33:26<10:56:38,  3.50it/s]                                                            {'loss': 2.6346, 'learning_rate': 4.342638281367838e-07, 'epoch': 10.06}
 63%|██████▎   | 233580/371472 [7:33:26<10:56:38,  3.50it/s] 63%|██████▎   | 233581/371472 [7:33:27<10:43:46,  3.57it/s] 63%|██████▎   | 233582/371472 [7:33:27<10:40:39,  3.59it/s] 63%|██████▎   | 233583/371472 [7:33:27<10:22:54,  3.69it/s] 63%|██████▎   | 233584/371472 [7:33:27<10:06:10,  3.79it/s] 63%|██████▎   | 233585/371472 [7:33:28<10:09:26,  3.77it/s] 63%|██████▎   | 233586/371472 [7:33:28<10:04:01,  3.80it/s] 63%|██████▎   | 233587/371472 [7:33:28<11:39:04,  3.29it/s] 63%|██████▎   | 233588/371472 [7:33:29<11:02:27,  3.47it/s] 63%|██████▎   | 233589/371472 [7:33:29<10:46:02,  3.56it/s] 63%|██████▎   | 233590/371472 [7:33:29<10:29:34,  3.65it/s] 63%|██████▎   | 233591/371472 [7:33:29<10:16:33,  3.73it/s] 63%|██████▎   | 233592/371472 [7:33:30<9:58:33,  3.84it/s]  63%|██████▎   | 233593/371472 [7:33:30<9:54:13,  3.87it/s] 63%|██████▎   | 233594/371472 [7:33:30<9:38:27,  3.97it/s] 63%|██████▎   | 233595/371472 [7:33:30<9:53:15,  3.87it/s] 63%|██████▎   | 233596/371472 [7:33:31<9:55:25,  3.86it/s] 63%|██████▎   | 233597/371472 [7:33:31<10:09:50,  3.77it/s] 63%|██████▎   | 233598/371472 [7:33:31<9:55:51,  3.86it/s]  63%|██████▎   | 233599/371472 [7:33:31<9:37:35,  3.98it/s] 63%|██████▎   | 233600/371472 [7:33:32<9:51:12,  3.89it/s]                                                           {'loss': 2.9216, 'learning_rate': 4.3421534616130486e-07, 'epoch': 10.06}
 63%|██████▎   | 233600/371472 [7:33:32<9:51:12,  3.89it/s] 63%|██████▎   | 233601/371472 [7:33:32<9:36:51,  3.98it/s] 63%|██████▎   | 233602/371472 [7:33:32<10:32:59,  3.63it/s] 63%|██████▎   | 233603/371472 [7:33:32<10:12:07,  3.75it/s] 63%|██████▎   | 233604/371472 [7:33:33<10:28:48,  3.65it/s] 63%|██████▎   | 233605/371472 [7:33:33<10:29:53,  3.65it/s] 63%|██████▎   | 233606/371472 [7:33:33<10:09:56,  3.77it/s] 63%|██████▎   | 233607/371472 [7:33:33<10:17:35,  3.72it/s] 63%|██████▎   | 233608/371472 [7:33:34<10:31:42,  3.64it/s] 63%|██████▎   | 233609/371472 [7:33:34<10:15:17,  3.73it/s] 63%|██████▎   | 233610/371472 [7:33:34<10:20:22,  3.70it/s] 63%|██████▎   | 233611/371472 [7:33:35<10:55:18,  3.51it/s] 63%|██████▎   | 233612/371472 [7:33:35<11:13:06,  3.41it/s] 63%|██████▎   | 233613/371472 [7:33:35<10:48:49,  3.54it/s] 63%|██████▎   | 233614/371472 [7:33:35<10:56:12,  3.50it/s] 63%|██████▎   | 233615/371472 [7:33:36<11:32:08,  3.32it/s] 63%|██████▎   | 233616/371472 [7:33:36<11:10:54,  3.42it/s] 63%|██████▎   | 233617/371472 [7:33:36<11:12:37,  3.42it/s] 63%|██████▎   | 233618/371472 [7:33:37<10:55:07,  3.51it/s] 63%|██████▎   | 233619/371472 [7:33:37<11:38:11,  3.29it/s] 63%|██████▎   | 233620/371472 [7:33:37<12:13:00,  3.13it/s]                                                            {'loss': 2.86, 'learning_rate': 4.3416686418582604e-07, 'epoch': 10.06}
 63%|██████▎   | 233620/371472 [7:33:37<12:13:00,  3.13it/s] 63%|██████▎   | 233621/371472 [7:33:38<11:26:31,  3.35it/s] 63%|██████▎   | 233622/371472 [7:33:38<11:19:05,  3.38it/s] 63%|██████▎   | 233623/371472 [7:33:38<10:54:35,  3.51it/s] 63%|██████▎   | 233624/371472 [7:33:38<10:48:16,  3.54it/s] 63%|██████▎   | 233625/371472 [7:33:39<10:27:49,  3.66it/s] 63%|██████▎   | 233626/371472 [7:33:39<10:41:52,  3.58it/s] 63%|██████▎   | 233627/371472 [7:33:39<11:25:47,  3.35it/s] 63%|██████▎   | 233628/371472 [7:33:40<11:56:30,  3.21it/s] 63%|██████▎   | 233629/371472 [7:33:40<11:19:53,  3.38it/s] 63%|██████▎   | 233630/371472 [7:33:40<10:49:55,  3.53it/s] 63%|██████▎   | 233631/371472 [7:33:40<10:41:27,  3.58it/s] 63%|██████▎   | 233632/371472 [7:33:41<10:33:16,  3.63it/s] 63%|██████▎   | 233633/371472 [7:33:41<10:37:06,  3.61it/s] 63%|██████▎   | 233634/371472 [7:33:41<10:33:23,  3.63it/s] 63%|██████▎   | 233635/371472 [7:33:42<10:36:44,  3.61it/s] 63%|██████▎   | 233636/371472 [7:33:42<10:33:42,  3.63it/s] 63%|██████▎   | 233637/371472 [7:33:42<10:16:31,  3.73it/s] 63%|██████▎   | 233638/371472 [7:33:42<10:16:37,  3.73it/s] 63%|██████▎   | 233639/371472 [7:33:43<10:26:45,  3.67it/s] 63%|██████▎   | 233640/371472 [7:33:43<11:12:01,  3.42it/s]                                                            {'loss': 2.9154, 'learning_rate': 4.3411838221034706e-07, 'epoch': 10.06}
 63%|██████▎   | 233640/371472 [7:33:43<11:12:01,  3.42it/s] 63%|██████▎   | 233641/371472 [7:33:43<10:41:36,  3.58it/s] 63%|██████▎   | 233642/371472 [7:33:44<10:59:57,  3.48it/s] 63%|██████▎   | 233643/371472 [7:33:44<11:02:36,  3.47it/s] 63%|██████▎   | 233644/371472 [7:33:44<10:40:07,  3.59it/s] 63%|██████▎   | 233645/371472 [7:33:44<10:39:12,  3.59it/s] 63%|██████▎   | 233646/371472 [7:33:45<10:23:15,  3.69it/s] 63%|██████▎   | 233647/371472 [7:33:45<10:12:22,  3.75it/s] 63%|██████▎   | 233648/371472 [7:33:45<9:55:05,  3.86it/s]  63%|██████▎   | 233649/371472 [7:33:45<10:13:18,  3.75it/s] 63%|██████▎   | 233650/371472 [7:33:46<10:21:00,  3.70it/s] 63%|██████▎   | 233651/371472 [7:33:46<10:18:50,  3.71it/s] 63%|██████▎   | 233652/371472 [7:33:46<10:20:48,  3.70it/s] 63%|██████▎   | 233653/371472 [7:33:47<10:44:50,  3.56it/s] 63%|██████▎   | 233654/371472 [7:33:47<10:57:58,  3.49it/s] 63%|██████▎   | 233655/371472 [7:33:47<11:41:09,  3.28it/s] 63%|██████▎   | 233656/371472 [7:33:47<12:06:30,  3.16it/s] 63%|██████▎   | 233657/371472 [7:33:48<11:49:58,  3.24it/s] 63%|██████▎   | 233658/371472 [7:33:48<11:26:37,  3.35it/s] 63%|██████▎   | 233659/371472 [7:33:48<11:15:44,  3.40it/s] 63%|██████▎   | 233660/371472 [7:33:49<10:45:45,  3.56it/s]                                                            {'loss': 2.7932, 'learning_rate': 4.3406990023486824e-07, 'epoch': 10.06}
 63%|██████▎   | 233660/371472 [7:33:49<10:45:45,  3.56it/s] 63%|██████▎   | 233661/371472 [7:33:49<10:34:19,  3.62it/s] 63%|██████▎   | 233662/371472 [7:33:49<10:31:24,  3.64it/s] 63%|██████▎   | 233663/371472 [7:33:49<10:26:49,  3.66it/s] 63%|██████▎   | 233664/371472 [7:33:50<10:36:13,  3.61it/s] 63%|██████▎   | 233665/371472 [7:33:50<10:18:54,  3.71it/s] 63%|██████▎   | 233666/371472 [7:33:50<10:44:57,  3.56it/s] 63%|██████▎   | 233667/371472 [7:33:51<10:36:04,  3.61it/s] 63%|██████▎   | 233668/371472 [7:33:51<11:06:23,  3.45it/s] 63%|██████▎   | 233669/371472 [7:33:51<10:40:39,  3.58it/s] 63%|██████▎   | 233670/371472 [7:33:51<10:23:19,  3.68it/s] 63%|██████▎   | 233671/371472 [7:33:52<10:24:27,  3.68it/s] 63%|██████▎   | 233672/371472 [7:33:52<10:17:23,  3.72it/s] 63%|██████▎   | 233673/371472 [7:33:52<10:11:39,  3.75it/s] 63%|██████▎   | 233674/371472 [7:33:52<9:54:45,  3.86it/s]  63%|██████▎   | 233675/371472 [7:33:53<9:47:51,  3.91it/s] 63%|██████▎   | 233676/371472 [7:33:53<10:27:15,  3.66it/s] 63%|██████▎   | 233677/371472 [7:33:53<10:15:17,  3.73it/s] 63%|██████▎   | 233678/371472 [7:33:53<10:02:48,  3.81it/s] 63%|██████▎   | 233679/371472 [7:33:54<9:58:56,  3.83it/s]  63%|██████▎   | 233680/371472 [7:33:54<10:04:28,  3.80it/s]                                                            {'loss': 3.0443, 'learning_rate': 4.340214182593893e-07, 'epoch': 10.07}
 63%|██████▎   | 233680/371472 [7:33:54<10:04:28,  3.80it/s] 63%|██████▎   | 233681/371472 [7:33:54<10:17:29,  3.72it/s] 63%|██████▎   | 233682/371472 [7:33:54<9:53:39,  3.87it/s]  63%|██████▎   | 233683/371472 [7:33:55<9:53:13,  3.87it/s] 63%|██████▎   | 233684/371472 [7:33:55<9:46:32,  3.92it/s] 63%|██████▎   | 233685/371472 [7:33:55<9:59:48,  3.83it/s] 63%|██████▎   | 233686/371472 [7:33:56<10:13:50,  3.74it/s] 63%|██████▎   | 233687/371472 [7:33:56<10:08:14,  3.78it/s] 63%|██████▎   | 233688/371472 [7:33:56<9:55:11,  3.86it/s]  63%|██████▎   | 233689/371472 [7:33:56<9:53:32,  3.87it/s] 63%|██████▎   | 233690/371472 [7:33:57<9:49:06,  3.90it/s] 63%|██████▎   | 233691/371472 [7:33:57<10:05:07,  3.79it/s] 63%|██████▎   | 233692/371472 [7:33:57<10:11:44,  3.75it/s] 63%|██████▎   | 233693/371472 [7:33:57<10:08:55,  3.77it/s] 63%|██████▎   | 233694/371472 [7:33:58<10:35:12,  3.62it/s] 63%|██████▎   | 233695/371472 [7:33:58<10:12:47,  3.75it/s] 63%|██████▎   | 233696/371472 [7:33:58<10:26:22,  3.67it/s] 63%|██████▎   | 233697/371472 [7:33:58<10:29:45,  3.65it/s] 63%|██████▎   | 233698/371472 [7:33:59<10:11:40,  3.75it/s] 63%|██████▎   | 233699/371472 [7:33:59<10:29:01,  3.65it/s] 63%|██████▎   | 233700/371472 [7:33:59<11:17:07,  3.39it/s]                                                            {'loss': 2.7425, 'learning_rate': 4.3397293628391043e-07, 'epoch': 10.07}
 63%|██████▎   | 233700/371472 [7:33:59<11:17:07,  3.39it/s] 63%|██████▎   | 233701/371472 [7:34:00<10:54:22,  3.51it/s] 63%|██████▎   | 233702/371472 [7:34:00<11:46:48,  3.25it/s] 63%|██████▎   | 233703/371472 [7:34:00<11:41:30,  3.27it/s] 63%|██████▎   | 233704/371472 [7:34:01<11:13:53,  3.41it/s] 63%|██████▎   | 233705/371472 [7:34:01<10:47:25,  3.55it/s] 63%|██████▎   | 233706/371472 [7:34:01<10:31:07,  3.64it/s] 63%|██████▎   | 233707/371472 [7:34:01<10:36:42,  3.61it/s] 63%|██████▎   | 233708/371472 [7:34:02<10:17:49,  3.72it/s] 63%|██████▎   | 233709/371472 [7:34:02<10:26:00,  3.67it/s] 63%|██████▎   | 233710/371472 [7:34:02<10:22:13,  3.69it/s] 63%|██████▎   | 233711/371472 [7:34:02<10:15:09,  3.73it/s] 63%|██████▎   | 233712/371472 [7:34:03<9:57:59,  3.84it/s]  63%|██████▎   | 233713/371472 [7:34:03<10:52:10,  3.52it/s] 63%|██████▎   | 233714/371472 [7:34:03<10:43:33,  3.57it/s] 63%|██████▎   | 233715/371472 [7:34:04<12:04:15,  3.17it/s] 63%|██████▎   | 233716/371472 [7:34:04<12:20:26,  3.10it/s] 63%|██████▎   | 233717/371472 [7:34:04<11:32:34,  3.32it/s] 63%|██████▎   | 233718/371472 [7:34:05<10:57:42,  3.49it/s] 63%|██████▎   | 233719/371472 [7:34:05<10:32:19,  3.63it/s] 63%|██████▎   | 233720/371472 [7:34:05<10:41:39,  3.58it/s]                                                            {'loss': 2.8999, 'learning_rate': 4.339244543084315e-07, 'epoch': 10.07}
 63%|██████▎   | 233720/371472 [7:34:05<10:41:39,  3.58it/s] 63%|██████▎   | 233721/371472 [7:34:05<10:38:44,  3.59it/s] 63%|██████▎   | 233722/371472 [7:34:06<10:31:04,  3.64it/s] 63%|██████▎   | 233723/371472 [7:34:06<10:39:50,  3.59it/s] 63%|██████▎   | 233724/371472 [7:34:06<10:40:05,  3.59it/s] 63%|██████▎   | 233725/371472 [7:34:06<10:10:35,  3.76it/s] 63%|██████▎   | 233726/371472 [7:34:07<10:22:55,  3.69it/s] 63%|██████▎   | 233727/371472 [7:34:07<10:13:31,  3.74it/s] 63%|██████▎   | 233728/371472 [7:34:07<10:09:51,  3.76it/s] 63%|██████▎   | 233729/371472 [7:34:07<9:59:53,  3.83it/s]  63%|██████▎   | 233730/371472 [7:34:08<10:30:42,  3.64it/s] 63%|██████▎   | 233731/371472 [7:34:08<10:31:31,  3.64it/s] 63%|██████▎   | 233732/371472 [7:34:08<10:39:20,  3.59it/s] 63%|██████▎   | 233733/371472 [7:34:09<10:51:29,  3.52it/s] 63%|██████▎   | 233734/371472 [7:34:09<10:43:19,  3.57it/s] 63%|██████▎   | 233735/371472 [7:34:09<10:27:50,  3.66it/s] 63%|██████▎   | 233736/371472 [7:34:09<10:12:23,  3.75it/s] 63%|██████▎   | 233737/371472 [7:34:10<10:08:23,  3.77it/s] 63%|██████▎   | 233738/371472 [7:34:10<10:31:54,  3.63it/s] 63%|██████▎   | 233739/371472 [7:34:10<10:55:03,  3.50it/s] 63%|██████▎   | 233740/371472 [7:34:11<10:28:15,  3.65it/s]                                                            {'loss': 3.0483, 'learning_rate': 4.338759723329527e-07, 'epoch': 10.07}
 63%|██████▎   | 233740/371472 [7:34:11<10:28:15,  3.65it/s] 63%|██████▎   | 233741/371472 [7:34:11<10:39:02,  3.59it/s] 63%|██████▎   | 233742/371472 [7:34:11<11:35:49,  3.30it/s] 63%|██████▎   | 233743/371472 [7:34:11<11:32:03,  3.32it/s] 63%|██████▎   | 233744/371472 [7:34:12<11:57:02,  3.20it/s] 63%|██████▎   | 233745/371472 [7:34:12<11:14:38,  3.40it/s] 63%|██████▎   | 233746/371472 [7:34:12<11:55:26,  3.21it/s] 63%|██████▎   | 233747/371472 [7:34:13<11:17:01,  3.39it/s] 63%|██████▎   | 233748/371472 [7:34:13<10:58:27,  3.49it/s] 63%|██████▎   | 233749/371472 [7:34:13<11:34:18,  3.31it/s] 63%|██████▎   | 233750/371472 [7:34:14<10:53:47,  3.51it/s] 63%|██████▎   | 233751/371472 [7:34:14<10:59:32,  3.48it/s] 63%|██████▎   | 233752/371472 [7:34:14<10:35:54,  3.61it/s] 63%|██████▎   | 233753/371472 [7:34:14<10:29:25,  3.65it/s] 63%|██████▎   | 233754/371472 [7:34:15<11:06:46,  3.44it/s] 63%|██████▎   | 233755/371472 [7:34:15<10:50:20,  3.53it/s] 63%|██████▎   | 233756/371472 [7:34:15<11:20:37,  3.37it/s] 63%|██████▎   | 233757/371472 [7:34:16<11:06:40,  3.44it/s] 63%|██████▎   | 233758/371472 [7:34:16<10:26:13,  3.67it/s] 63%|██████▎   | 233759/371472 [7:34:16<10:23:40,  3.68it/s] 63%|██████▎   | 233760/371472 [7:34:16<10:18:18,  3.71it/s]                                                            {'loss': 2.829, 'learning_rate': 4.338274903574737e-07, 'epoch': 10.07}
 63%|██████▎   | 233760/371472 [7:34:16<10:18:18,  3.71it/s] 63%|██████▎   | 233761/371472 [7:34:17<10:23:41,  3.68it/s] 63%|██████▎   | 233762/371472 [7:34:17<10:18:42,  3.71it/s] 63%|██████▎   | 233763/371472 [7:34:17<10:11:40,  3.75it/s] 63%|██████▎   | 233764/371472 [7:34:17<9:56:06,  3.85it/s]  63%|██████▎   | 233765/371472 [7:34:18<9:57:59,  3.84it/s] 63%|██████▎   | 233766/371472 [7:34:18<11:10:28,  3.42it/s] 63%|██████▎   | 233767/371472 [7:34:18<10:34:58,  3.61it/s] 63%|██████▎   | 233768/371472 [7:34:18<10:23:14,  3.68it/s] 63%|██████▎   | 233769/371472 [7:34:19<10:36:24,  3.61it/s] 63%|██████▎   | 233770/371472 [7:34:19<10:11:27,  3.75it/s] 63%|██████▎   | 233771/371472 [7:34:19<10:07:03,  3.78it/s] 63%|██████▎   | 233772/371472 [7:34:19<9:46:44,  3.91it/s]  63%|██████▎   | 233773/371472 [7:34:20<9:41:34,  3.95it/s] 63%|██████▎   | 233774/371472 [7:34:20<9:54:22,  3.86it/s] 63%|██████▎   | 233775/371472 [7:34:20<10:03:24,  3.80it/s] 63%|██████▎   | 233776/371472 [7:34:21<9:41:52,  3.94it/s]  63%|██████▎   | 233777/371472 [7:34:21<10:22:32,  3.69it/s] 63%|██████▎   | 233778/371472 [7:34:21<10:23:38,  3.68it/s] 63%|██████▎   | 233779/371472 [7:34:21<10:00:38,  3.82it/s] 63%|██████▎   | 233780/371472 [7:34:22<9:56:30,  3.85it/s]                                                            {'loss': 2.9305, 'learning_rate': 4.337790083819949e-07, 'epoch': 10.07}
 63%|██████▎   | 233780/371472 [7:34:22<9:56:30,  3.85it/s] 63%|██████▎   | 233781/371472 [7:34:22<10:10:34,  3.76it/s] 63%|██████▎   | 233782/371472 [7:34:22<10:52:52,  3.52it/s] 63%|██████▎   | 233783/371472 [7:34:23<11:17:03,  3.39it/s] 63%|██████▎   | 233784/371472 [7:34:23<10:48:34,  3.54it/s] 63%|██████▎   | 233785/371472 [7:34:23<10:36:31,  3.61it/s] 63%|██████▎   | 233786/371472 [7:34:23<10:42:42,  3.57it/s] 63%|██████▎   | 233787/371472 [7:34:24<10:16:18,  3.72it/s] 63%|██████▎   | 233788/371472 [7:34:24<10:08:20,  3.77it/s] 63%|██████▎   | 233789/371472 [7:34:24<10:07:35,  3.78it/s] 63%|██████▎   | 233790/371472 [7:34:24<10:25:17,  3.67it/s] 63%|██████▎   | 233791/371472 [7:34:25<10:26:47,  3.66it/s] 63%|██████▎   | 233792/371472 [7:34:25<11:18:41,  3.38it/s] 63%|██████▎   | 233793/371472 [7:34:25<11:16:11,  3.39it/s] 63%|██████▎   | 233794/371472 [7:34:26<10:43:52,  3.56it/s] 63%|██████▎   | 233795/371472 [7:34:26<10:29:32,  3.64it/s] 63%|██████▎   | 233796/371472 [7:34:26<10:36:42,  3.60it/s] 63%|██████▎   | 233797/371472 [7:34:26<10:29:13,  3.65it/s] 63%|██████▎   | 233798/371472 [7:34:27<10:11:13,  3.75it/s] 63%|██████▎   | 233799/371472 [7:34:27<10:21:55,  3.69it/s] 63%|██████▎   | 233800/371472 [7:34:27<11:40:55,  3.27it/s]                                                            {'loss': 2.8804, 'learning_rate': 4.3373052640651595e-07, 'epoch': 10.07}
 63%|██████▎   | 233800/371472 [7:34:27<11:40:55,  3.27it/s] 63%|██████▎   | 233801/371472 [7:34:28<11:03:14,  3.46it/s] 63%|██████▎   | 233802/371472 [7:34:28<11:07:05,  3.44it/s] 63%|██████▎   | 233803/371472 [7:34:28<11:00:11,  3.48it/s] 63%|██████▎   | 233804/371472 [7:34:28<11:14:04,  3.40it/s] 63%|██████▎   | 233805/371472 [7:34:29<12:07:42,  3.15it/s] 63%|██████▎   | 233806/371472 [7:34:29<11:38:24,  3.29it/s] 63%|██████▎   | 233807/371472 [7:34:29<11:38:37,  3.28it/s] 63%|██████▎   | 233808/371472 [7:34:30<11:05:21,  3.45it/s] 63%|██████▎   | 233809/371472 [7:34:30<10:39:41,  3.59it/s] 63%|██████▎   | 233810/371472 [7:34:30<10:55:38,  3.50it/s] 63%|██████▎   | 233811/371472 [7:34:30<10:37:36,  3.60it/s] 63%|██████▎   | 233812/371472 [7:34:31<10:16:33,  3.72it/s] 63%|██████▎   | 233813/371472 [7:34:31<10:44:46,  3.56it/s] 63%|██████▎   | 233814/371472 [7:34:31<10:56:52,  3.49it/s] 63%|██████▎   | 233815/371472 [7:34:32<10:32:53,  3.63it/s] 63%|██████▎   | 233816/371472 [7:34:32<10:41:10,  3.58it/s] 63%|██████▎   | 233817/371472 [7:34:32<10:26:50,  3.66it/s] 63%|██████▎   | 233818/371472 [7:34:32<11:21:29,  3.37it/s] 63%|██████▎   | 233819/371472 [7:34:33<10:59:31,  3.48it/s] 63%|██████▎   | 233820/371472 [7:34:33<10:37:05,  3.60it/s]                                                            {'loss': 2.8475, 'learning_rate': 4.3368204443103707e-07, 'epoch': 10.07}
 63%|██████▎   | 233820/371472 [7:34:33<10:37:05,  3.60it/s] 63%|██████▎   | 233821/371472 [7:34:33<10:41:50,  3.57it/s] 63%|██████▎   | 233822/371472 [7:34:33<10:27:08,  3.66it/s] 63%|██████▎   | 233823/371472 [7:34:34<10:31:49,  3.63it/s] 63%|██████▎   | 233824/371472 [7:34:34<10:43:02,  3.57it/s] 63%|██████▎   | 233825/371472 [7:34:34<10:38:59,  3.59it/s] 63%|██████▎   | 233826/371472 [7:34:35<10:56:33,  3.49it/s] 63%|██████▎   | 233827/371472 [7:34:35<11:01:24,  3.47it/s] 63%|██████▎   | 233828/371472 [7:34:35<11:45:08,  3.25it/s] 63%|██████▎   | 233829/371472 [7:34:36<11:22:00,  3.36it/s] 63%|██████▎   | 233830/371472 [7:34:36<10:57:43,  3.49it/s] 63%|██████▎   | 233831/371472 [7:34:36<11:38:58,  3.28it/s] 63%|██████▎   | 233832/371472 [7:34:36<11:02:57,  3.46it/s] 63%|██████▎   | 233833/371472 [7:34:37<11:45:20,  3.25it/s] 63%|██████▎   | 233834/371472 [7:34:37<11:30:21,  3.32it/s] 63%|██████▎   | 233835/371472 [7:34:37<10:55:41,  3.50it/s] 63%|██████▎   | 233836/371472 [7:34:38<11:01:12,  3.47it/s] 63%|██████▎   | 233837/371472 [7:34:38<10:27:59,  3.65it/s] 63%|██████▎   | 233838/371472 [7:34:38<11:40:14,  3.28it/s] 63%|██████▎   | 233839/371472 [7:34:38<10:55:33,  3.50it/s] 63%|██████▎   | 233840/371472 [7:34:39<10:54:22,  3.51it/s]                                                            {'loss': 2.8963, 'learning_rate': 4.3363356245555814e-07, 'epoch': 10.07}
 63%|██████▎   | 233840/371472 [7:34:39<10:54:22,  3.51it/s] 63%|██████▎   | 233841/371472 [7:34:39<10:44:46,  3.56it/s] 63%|██████▎   | 233842/371472 [7:34:39<10:23:47,  3.68it/s] 63%|██████▎   | 233843/371472 [7:34:40<10:09:57,  3.76it/s] 63%|██████▎   | 233844/371472 [7:34:40<9:50:25,  3.88it/s]  63%|██████▎   | 233845/371472 [7:34:40<10:35:51,  3.61it/s] 63%|██████▎   | 233846/371472 [7:34:40<10:55:59,  3.50it/s] 63%|██████▎   | 233847/371472 [7:34:41<11:13:00,  3.41it/s] 63%|██████▎   | 233848/371472 [7:34:41<11:05:00,  3.45it/s] 63%|██████▎   | 233849/371472 [7:34:41<11:09:52,  3.42it/s] 63%|██████▎   | 233850/371472 [7:34:42<10:31:00,  3.63it/s] 63%|██████▎   | 233851/371472 [7:34:42<10:31:38,  3.63it/s] 63%|██████▎   | 233852/371472 [7:34:42<10:20:37,  3.70it/s] 63%|██████▎   | 233853/371472 [7:34:42<10:39:26,  3.59it/s] 63%|██████▎   | 233854/371472 [7:34:43<11:11:24,  3.42it/s] 63%|██████▎   | 233855/371472 [7:34:43<11:29:12,  3.33it/s] 63%|██████▎   | 233856/371472 [7:34:43<10:54:07,  3.51it/s] 63%|██████▎   | 233857/371472 [7:34:44<10:53:04,  3.51it/s] 63%|██████▎   | 233858/371472 [7:34:44<11:43:12,  3.26it/s] 63%|██████▎   | 233859/371472 [7:34:44<11:29:33,  3.33it/s] 63%|██████▎   | 233860/371472 [7:34:44<11:08:49,  3.43it/s]                                                            {'loss': 2.7511, 'learning_rate': 4.335850804800793e-07, 'epoch': 10.07}
 63%|██████▎   | 233860/371472 [7:34:44<11:08:49,  3.43it/s] 63%|██████▎   | 233861/371472 [7:34:45<10:59:05,  3.48it/s] 63%|██████▎   | 233862/371472 [7:34:45<11:46:06,  3.25it/s] 63%|██████▎   | 233863/371472 [7:34:45<11:12:23,  3.41it/s] 63%|██████▎   | 233864/371472 [7:34:46<10:58:15,  3.48it/s] 63%|██████▎   | 233865/371472 [7:34:46<11:25:31,  3.35it/s] 63%|██████▎   | 233866/371472 [7:34:46<11:03:57,  3.45it/s] 63%|██████▎   | 233867/371472 [7:34:46<10:44:06,  3.56it/s] 63%|██████▎   | 233868/371472 [7:34:47<11:37:37,  3.29it/s] 63%|██████▎   | 233869/371472 [7:34:47<11:30:38,  3.32it/s] 63%|██████▎   | 233870/371472 [7:34:47<11:32:25,  3.31it/s] 63%|██████▎   | 233871/371472 [7:34:48<11:14:54,  3.40it/s] 63%|██████▎   | 233872/371472 [7:34:48<11:22:09,  3.36it/s] 63%|██████▎   | 233873/371472 [7:34:48<11:46:51,  3.24it/s] 63%|██████▎   | 233874/371472 [7:34:49<11:22:14,  3.36it/s] 63%|██████▎   | 233875/371472 [7:34:49<11:03:08,  3.46it/s] 63%|██████▎   | 233876/371472 [7:34:49<10:56:54,  3.49it/s] 63%|██████▎   | 233877/371472 [7:34:49<10:49:41,  3.53it/s] 63%|██████▎   | 233878/371472 [7:34:50<10:36:35,  3.60it/s] 63%|██████▎   | 233879/371472 [7:34:50<10:39:25,  3.59it/s] 63%|██████▎   | 233880/371472 [7:34:50<11:20:51,  3.37it/s]                                                            {'loss': 2.8349, 'learning_rate': 4.335365985046004e-07, 'epoch': 10.07}
 63%|██████▎   | 233880/371472 [7:34:50<11:20:51,  3.37it/s] 63%|██████▎   | 233881/371472 [7:34:51<11:15:07,  3.40it/s] 63%|██████▎   | 233882/371472 [7:34:51<13:06:14,  2.92it/s] 63%|██████▎   | 233883/371472 [7:34:51<11:52:47,  3.22it/s] 63%|██████▎   | 233884/371472 [7:34:52<11:23:56,  3.35it/s] 63%|██████▎   | 233885/371472 [7:34:52<10:56:34,  3.49it/s] 63%|██████▎   | 233886/371472 [7:34:52<11:00:45,  3.47it/s] 63%|██████▎   | 233887/371472 [7:34:52<10:59:31,  3.48it/s] 63%|██████▎   | 233888/371472 [7:34:53<11:42:21,  3.26it/s] 63%|██████▎   | 233889/371472 [7:34:53<11:10:15,  3.42it/s] 63%|██████▎   | 233890/371472 [7:34:53<10:42:13,  3.57it/s] 63%|██████▎   | 233891/371472 [7:34:54<11:03:30,  3.46it/s] 63%|██████▎   | 233892/371472 [7:34:54<10:34:01,  3.62it/s] 63%|██████▎   | 233893/371472 [7:34:54<10:29:59,  3.64it/s] 63%|██████▎   | 233894/371472 [7:34:54<10:22:06,  3.69it/s] 63%|██████▎   | 233895/371472 [7:34:55<10:19:47,  3.70it/s] 63%|██████▎   | 233896/371472 [7:34:55<10:36:47,  3.60it/s] 63%|██████▎   | 233897/371472 [7:34:55<10:29:47,  3.64it/s] 63%|██████▎   | 233898/371472 [7:34:55<10:14:03,  3.73it/s] 63%|██████▎   | 233899/371472 [7:34:56<9:57:55,  3.83it/s]  63%|██████▎   | 233900/371472 [7:34:56<9:51:33,  3.88it/s]                                                           {'loss': 2.8754, 'learning_rate': 4.334881165291215e-07, 'epoch': 10.07}
 63%|██████▎   | 233900/371472 [7:34:56<9:51:33,  3.88it/s] 63%|██████▎   | 233901/371472 [7:34:56<10:07:44,  3.77it/s] 63%|██████▎   | 233902/371472 [7:34:57<10:26:07,  3.66it/s] 63%|██████▎   | 233903/371472 [7:34:57<10:35:03,  3.61it/s] 63%|██████▎   | 233904/371472 [7:34:57<10:22:14,  3.68it/s] 63%|██████▎   | 233905/371472 [7:34:57<10:48:13,  3.54it/s] 63%|██████▎   | 233906/371472 [7:34:58<10:30:18,  3.64it/s] 63%|██████▎   | 233907/371472 [7:34:58<10:26:48,  3.66it/s] 63%|██████▎   | 233908/371472 [7:34:58<10:17:13,  3.71it/s] 63%|██████▎   | 233909/371472 [7:34:58<10:27:58,  3.65it/s] 63%|██████▎   | 233910/371472 [7:34:59<11:10:16,  3.42it/s] 63%|██████▎   | 233911/371472 [7:34:59<10:58:15,  3.48it/s] 63%|██████▎   | 233912/371472 [7:34:59<10:58:10,  3.48it/s] 63%|██████▎   | 233913/371472 [7:35:00<10:35:02,  3.61it/s] 63%|██████▎   | 233914/371472 [7:35:00<10:20:04,  3.70it/s] 63%|██████▎   | 233915/371472 [7:35:00<10:27:43,  3.65it/s] 63%|██████▎   | 233916/371472 [7:35:00<10:26:47,  3.66it/s] 63%|██████▎   | 233917/371472 [7:35:01<10:48:29,  3.54it/s] 63%|██████▎   | 233918/371472 [7:35:01<10:29:19,  3.64it/s] 63%|██████▎   | 233919/371472 [7:35:01<10:01:04,  3.81it/s] 63%|██████▎   | 233920/371472 [7:35:01<10:13:48,  3.73it/s]                                                            {'loss': 2.9304, 'learning_rate': 4.334396345536426e-07, 'epoch': 10.08}
 63%|██████▎   | 233920/371472 [7:35:01<10:13:48,  3.73it/s] 63%|██████▎   | 233921/371472 [7:35:02<10:43:01,  3.57it/s] 63%|██████▎   | 233922/371472 [7:35:02<10:27:06,  3.66it/s] 63%|██████▎   | 233923/371472 [7:35:02<10:29:07,  3.64it/s] 63%|██████▎   | 233924/371472 [7:35:03<10:37:36,  3.60it/s] 63%|██████▎   | 233925/371472 [7:35:03<10:26:18,  3.66it/s] 63%|██████▎   | 233926/371472 [7:35:03<10:25:25,  3.67it/s] 63%|██████▎   | 233927/371472 [7:35:03<10:22:33,  3.68it/s] 63%|██████▎   | 233928/371472 [7:35:04<10:29:20,  3.64it/s] 63%|██████▎   | 233929/371472 [7:35:04<11:16:37,  3.39it/s] 63%|██████▎   | 233930/371472 [7:35:04<11:09:54,  3.42it/s] 63%|██████▎   | 233931/371472 [7:35:05<10:49:38,  3.53it/s] 63%|██████▎   | 233932/371472 [7:35:05<10:27:37,  3.65it/s] 63%|██████▎   | 233933/371472 [7:35:05<10:20:55,  3.69it/s] 63%|██████▎   | 233934/371472 [7:35:05<10:33:35,  3.62it/s] 63%|██████▎   | 233935/371472 [7:35:06<10:32:29,  3.62it/s] 63%|██████▎   | 233936/371472 [7:35:06<10:43:03,  3.56it/s] 63%|██████▎   | 233937/371472 [7:35:06<10:29:11,  3.64it/s] 63%|██████▎   | 233938/371472 [7:35:06<10:15:30,  3.72it/s] 63%|██████▎   | 233939/371472 [7:35:07<10:22:17,  3.68it/s] 63%|██████▎   | 233940/371472 [7:35:07<10:43:55,  3.56it/s]                                                            {'loss': 2.8387, 'learning_rate': 4.3339115257816377e-07, 'epoch': 10.08}
 63%|██████▎   | 233940/371472 [7:35:07<10:43:55,  3.56it/s] 63%|██████▎   | 233941/371472 [7:35:07<10:48:22,  3.54it/s] 63%|██████▎   | 233942/371472 [7:35:08<10:42:17,  3.57it/s] 63%|██████▎   | 233943/371472 [7:35:08<10:31:06,  3.63it/s] 63%|██████▎   | 233944/371472 [7:35:08<10:40:44,  3.58it/s] 63%|██████▎   | 233945/371472 [7:35:08<10:21:48,  3.69it/s] 63%|██████▎   | 233946/371472 [7:35:09<10:37:41,  3.59it/s] 63%|██████▎   | 233947/371472 [7:35:09<10:28:30,  3.65it/s] 63%|██████▎   | 233948/371472 [7:35:09<10:18:41,  3.70it/s] 63%|██████▎   | 233949/371472 [7:35:10<11:14:37,  3.40it/s] 63%|██████▎   | 233950/371472 [7:35:10<11:48:23,  3.24it/s] 63%|██████▎   | 233951/371472 [7:35:10<11:31:57,  3.31it/s] 63%|██████▎   | 233952/371472 [7:35:10<11:19:54,  3.37it/s] 63%|██████▎   | 233953/371472 [7:35:11<10:50:39,  3.52it/s] 63%|██████▎   | 233954/371472 [7:35:11<10:35:10,  3.61it/s] 63%|██████▎   | 233955/371472 [7:35:11<10:44:42,  3.56it/s] 63%|██████▎   | 233956/371472 [7:35:12<10:33:35,  3.62it/s] 63%|██████▎   | 233957/371472 [7:35:12<10:36:40,  3.60it/s] 63%|██████▎   | 233958/371472 [7:35:12<10:43:51,  3.56it/s] 63%|██████▎   | 233959/371472 [7:35:12<10:34:39,  3.61it/s] 63%|██████▎   | 233960/371472 [7:35:13<10:16:47,  3.72it/s]                                                            {'loss': 2.8098, 'learning_rate': 4.3334267060268484e-07, 'epoch': 10.08}
 63%|██████▎   | 233960/371472 [7:35:13<10:16:47,  3.72it/s] 63%|██████▎   | 233961/371472 [7:35:13<10:33:51,  3.62it/s] 63%|██████▎   | 233962/371472 [7:35:13<10:16:05,  3.72it/s] 63%|██████▎   | 233963/371472 [7:35:13<10:24:57,  3.67it/s] 63%|██████▎   | 233964/371472 [7:35:14<10:31:02,  3.63it/s] 63%|██████▎   | 233965/371472 [7:35:14<10:24:46,  3.67it/s] 63%|██████▎   | 233966/371472 [7:35:14<10:38:52,  3.59it/s] 63%|██████▎   | 233967/371472 [7:35:15<10:28:33,  3.65it/s] 63%|██████▎   | 233968/371472 [7:35:15<10:20:37,  3.69it/s] 63%|██████▎   | 233969/371472 [7:35:15<10:06:26,  3.78it/s] 63%|██████▎   | 233970/371472 [7:35:15<9:58:55,  3.83it/s]  63%|██████▎   | 233971/371472 [7:35:16<10:11:32,  3.75it/s] 63%|██████▎   | 233972/371472 [7:35:16<10:48:28,  3.53it/s] 63%|██████▎   | 233973/371472 [7:35:16<10:44:46,  3.55it/s] 63%|██████▎   | 233974/371472 [7:35:17<10:49:17,  3.53it/s] 63%|██████▎   | 233975/371472 [7:35:17<10:52:05,  3.51it/s] 63%|██████▎   | 233976/371472 [7:35:17<11:24:56,  3.35it/s] 63%|██████▎   | 233977/371472 [7:35:17<10:47:45,  3.54it/s] 63%|██████▎   | 233978/371472 [7:35:18<10:51:09,  3.52it/s] 63%|██████▎   | 233979/371472 [7:35:18<10:47:41,  3.54it/s] 63%|██████▎   | 233980/371472 [7:35:18<10:30:24,  3.64it/s]                                                            {'loss': 2.7956, 'learning_rate': 4.3329418862720596e-07, 'epoch': 10.08}
 63%|██████▎   | 233980/371472 [7:35:18<10:30:24,  3.64it/s] 63%|██████▎   | 233981/371472 [7:35:19<10:49:13,  3.53it/s] 63%|██████▎   | 233982/371472 [7:35:19<11:27:36,  3.33it/s] 63%|██████▎   | 233983/371472 [7:35:19<10:55:12,  3.50it/s] 63%|██████▎   | 233984/371472 [7:35:19<11:06:58,  3.44it/s] 63%|██████▎   | 233985/371472 [7:35:20<10:45:37,  3.55it/s] 63%|██████▎   | 233986/371472 [7:35:20<10:37:02,  3.60it/s] 63%|██████▎   | 233987/371472 [7:35:20<10:29:41,  3.64it/s] 63%|██████▎   | 233988/371472 [7:35:21<11:00:03,  3.47it/s] 63%|██████▎   | 233989/371472 [7:35:21<10:33:32,  3.62it/s] 63%|██████▎   | 233990/371472 [7:35:21<10:27:20,  3.65it/s] 63%|██████▎   | 233991/371472 [7:35:21<10:38:30,  3.59it/s] 63%|██████▎   | 233992/371472 [7:35:22<10:28:48,  3.64it/s] 63%|██████▎   | 233993/371472 [7:35:22<10:27:42,  3.65it/s] 63%|██████▎   | 233994/371472 [7:35:22<10:54:56,  3.50it/s] 63%|██████▎   | 233995/371472 [7:35:22<11:01:29,  3.46it/s] 63%|██████▎   | 233996/371472 [7:35:23<10:58:09,  3.48it/s] 63%|██████▎   | 233997/371472 [7:35:23<11:58:56,  3.19it/s] 63%|██████▎   | 233998/371472 [7:35:23<11:39:07,  3.28it/s] 63%|██████▎   | 233999/371472 [7:35:24<10:52:00,  3.51it/s] 63%|██████▎   | 234000/371472 [7:35:24<10:36:14,  3.60it/s]                                                            {'loss': 2.9105, 'learning_rate': 4.3324570665172703e-07, 'epoch': 10.08}
 63%|██████▎   | 234000/371472 [7:35:24<10:36:14,  3.60it/s] 63%|██████▎   | 234001/371472 [7:35:24<10:12:45,  3.74it/s] 63%|██████▎   | 234002/371472 [7:35:24<10:03:07,  3.80it/s] 63%|██████▎   | 234003/371472 [7:35:25<10:43:47,  3.56it/s] 63%|██████▎   | 234004/371472 [7:35:25<10:22:43,  3.68it/s] 63%|██████▎   | 234005/371472 [7:35:25<10:44:51,  3.55it/s] 63%|██████▎   | 234006/371472 [7:35:26<10:36:49,  3.60it/s] 63%|██████▎   | 234007/371472 [7:35:26<11:00:12,  3.47it/s] 63%|██████▎   | 234008/371472 [7:35:26<12:18:51,  3.10it/s] 63%|██████▎   | 234009/371472 [7:35:27<11:58:18,  3.19it/s] 63%|██████▎   | 234010/371472 [7:35:27<12:35:10,  3.03it/s] 63%|██████▎   | 234011/371472 [7:35:27<12:12:58,  3.13it/s] 63%|██████▎   | 234012/371472 [7:35:27<11:23:19,  3.35it/s] 63%|██████▎   | 234013/371472 [7:35:28<10:40:18,  3.58it/s] 63%|██████▎   | 234014/371472 [7:35:28<10:52:14,  3.51it/s] 63%|██████▎   | 234015/371472 [7:35:28<10:49:57,  3.52it/s] 63%|██████▎   | 234016/371472 [7:35:29<10:42:05,  3.57it/s] 63%|██████▎   | 234017/371472 [7:35:29<11:22:06,  3.36it/s] 63%|██████▎   | 234018/371472 [7:35:29<11:29:59,  3.32it/s] 63%|██████▎   | 234019/371472 [7:35:29<11:07:11,  3.43it/s] 63%|██████▎   | 234020/371472 [7:35:30<11:40:22,  3.27it/s]                                                            {'loss': 2.7143, 'learning_rate': 4.3319722467624805e-07, 'epoch': 10.08}
 63%|██████▎   | 234020/371472 [7:35:30<11:40:22,  3.27it/s] 63%|██████▎   | 234021/371472 [7:35:30<11:14:22,  3.40it/s] 63%|██████▎   | 234022/371472 [7:35:30<11:07:50,  3.43it/s] 63%|██████▎   | 234023/371472 [7:35:31<10:31:36,  3.63it/s] 63%|██████▎   | 234024/371472 [7:35:31<10:32:34,  3.62it/s] 63%|██████▎   | 234025/371472 [7:35:31<10:19:55,  3.70it/s] 63%|██████▎   | 234026/371472 [7:35:31<10:21:05,  3.69it/s] 63%|██████▎   | 234027/371472 [7:35:32<10:33:39,  3.62it/s] 63%|██████▎   | 234028/371472 [7:35:32<11:09:42,  3.42it/s] 63%|██████▎   | 234029/371472 [7:35:32<10:46:40,  3.54it/s] 63%|██████▎   | 234030/371472 [7:35:33<10:41:10,  3.57it/s] 63%|██████▎   | 234031/371472 [7:35:33<10:23:30,  3.67it/s] 63%|██████▎   | 234032/371472 [7:35:33<10:16:21,  3.72it/s] 63%|██████▎   | 234033/371472 [7:35:33<10:26:13,  3.66it/s] 63%|██████▎   | 234034/371472 [7:35:34<10:13:08,  3.74it/s] 63%|██████▎   | 234035/371472 [7:35:34<11:01:16,  3.46it/s] 63%|██████▎   | 234036/371472 [7:35:34<10:39:38,  3.58it/s] 63%|██████▎   | 234037/371472 [7:35:34<10:29:13,  3.64it/s] 63%|██████▎   | 234038/371472 [7:35:35<10:38:03,  3.59it/s] 63%|██████▎   | 234039/371472 [7:35:35<10:36:05,  3.60it/s] 63%|██████▎   | 234040/371472 [7:35:35<10:13:31,  3.73it/s]                                                            {'loss': 2.9883, 'learning_rate': 4.3314874270076923e-07, 'epoch': 10.08}
 63%|██████▎   | 234040/371472 [7:35:35<10:13:31,  3.73it/s] 63%|██████▎   | 234041/371472 [7:35:36<10:14:27,  3.73it/s] 63%|██████▎   | 234042/371472 [7:35:36<10:01:53,  3.81it/s] 63%|██████▎   | 234043/371472 [7:35:36<11:04:53,  3.44it/s] 63%|██████▎   | 234044/371472 [7:35:36<10:50:32,  3.52it/s] 63%|██████▎   | 234045/371472 [7:35:37<10:36:51,  3.60it/s] 63%|██████▎   | 234046/371472 [7:35:37<10:53:25,  3.51it/s] 63%|██████▎   | 234047/371472 [7:35:37<10:28:05,  3.65it/s] 63%|██████▎   | 234048/371472 [7:35:38<10:41:16,  3.57it/s] 63%|██████▎   | 234049/371472 [7:35:38<10:31:21,  3.63it/s] 63%|██████▎   | 234050/371472 [7:35:38<10:16:34,  3.71it/s] 63%|██████▎   | 234051/371472 [7:35:38<10:42:07,  3.57it/s] 63%|██████▎   | 234052/371472 [7:35:39<10:29:55,  3.64it/s] 63%|██████▎   | 234053/371472 [7:35:39<10:11:28,  3.75it/s] 63%|██████▎   | 234054/371472 [7:35:39<10:09:48,  3.76it/s] 63%|██████▎   | 234055/371472 [7:35:40<11:20:15,  3.37it/s] 63%|██████▎   | 234056/371472 [7:35:40<11:16:31,  3.39it/s] 63%|██████▎   | 234057/371472 [7:35:40<11:03:37,  3.45it/s] 63%|██████▎   | 234058/371472 [7:35:40<11:28:04,  3.33it/s] 63%|██████▎   | 234059/371472 [7:35:41<11:03:16,  3.45it/s] 63%|██████▎   | 234060/371472 [7:35:41<10:41:52,  3.57it/s]                                                            {'loss': 2.8373, 'learning_rate': 4.331002607252903e-07, 'epoch': 10.08}
 63%|██████▎   | 234060/371472 [7:35:41<10:41:52,  3.57it/s] 63%|██████▎   | 234061/371472 [7:35:41<11:00:57,  3.46it/s] 63%|██████▎   | 234062/371472 [7:35:42<12:08:23,  3.14it/s] 63%|██████▎   | 234063/371472 [7:35:42<11:33:47,  3.30it/s] 63%|██████▎   | 234064/371472 [7:35:42<12:08:50,  3.14it/s] 63%|██████▎   | 234065/371472 [7:35:43<12:17:35,  3.10it/s] 63%|██████▎   | 234066/371472 [7:35:43<11:40:14,  3.27it/s] 63%|██████▎   | 234067/371472 [7:35:43<11:28:06,  3.33it/s] 63%|██████▎   | 234068/371472 [7:35:43<11:11:01,  3.41it/s] 63%|██████▎   | 234069/371472 [7:35:44<11:06:10,  3.44it/s] 63%|██████▎   | 234070/371472 [7:35:44<11:24:26,  3.35it/s] 63%|██████▎   | 234071/371472 [7:35:44<10:46:37,  3.54it/s] 63%|██████▎   | 234072/371472 [7:35:44<10:24:38,  3.67it/s] 63%|██████▎   | 234073/371472 [7:35:45<10:38:12,  3.59it/s] 63%|██████▎   | 234074/371472 [7:35:45<10:34:42,  3.61it/s] 63%|██████▎   | 234075/371472 [7:35:45<10:14:43,  3.73it/s] 63%|██████▎   | 234076/371472 [7:35:46<10:04:27,  3.79it/s] 63%|██████▎   | 234077/371472 [7:35:46<11:05:45,  3.44it/s] 63%|██████▎   | 234078/371472 [7:35:46<10:47:18,  3.54it/s] 63%|██████▎   | 234079/371472 [7:35:46<10:29:00,  3.64it/s] 63%|██████▎   | 234080/371472 [7:35:47<10:41:33,  3.57it/s]                                                            {'loss': 2.9629, 'learning_rate': 4.330517787498114e-07, 'epoch': 10.08}
 63%|██████▎   | 234080/371472 [7:35:47<10:41:33,  3.57it/s] 63%|██████▎   | 234081/371472 [7:35:47<10:59:40,  3.47it/s] 63%|██████▎   | 234082/371472 [7:35:47<10:51:14,  3.52it/s] 63%|██████▎   | 234083/371472 [7:35:48<10:48:28,  3.53it/s] 63%|██████▎   | 234084/371472 [7:35:48<10:31:24,  3.63it/s] 63%|██████▎   | 234085/371472 [7:35:48<10:30:36,  3.63it/s] 63%|██████▎   | 234086/371472 [7:35:48<10:22:27,  3.68it/s] 63%|██████▎   | 234087/371472 [7:35:49<10:41:47,  3.57it/s] 63%|██████▎   | 234088/371472 [7:35:49<10:35:42,  3.60it/s] 63%|██████▎   | 234089/371472 [7:35:49<10:33:12,  3.62it/s] 63%|██████▎   | 234090/371472 [7:35:49<10:12:20,  3.74it/s] 63%|██████▎   | 234091/371472 [7:35:50<9:53:36,  3.86it/s]  63%|██████▎   | 234092/371472 [7:35:50<9:48:11,  3.89it/s] 63%|██████▎   | 234093/371472 [7:35:50<9:43:57,  3.92it/s] 63%|██████▎   | 234094/371472 [7:35:50<9:48:54,  3.89it/s] 63%|██████▎   | 234095/371472 [7:35:51<10:09:58,  3.75it/s] 63%|██████▎   | 234096/371472 [7:35:51<10:12:48,  3.74it/s] 63%|██████▎   | 234097/371472 [7:35:51<10:20:58,  3.69it/s] 63%|██████▎   | 234098/371472 [7:35:52<11:07:24,  3.43it/s] 63%|██████▎   | 234099/371472 [7:35:52<10:48:21,  3.53it/s] 63%|██████▎   | 234100/371472 [7:35:52<10:39:34,  3.58it/s]                                                            {'loss': 2.7209, 'learning_rate': 4.330032967743325e-07, 'epoch': 10.08}
 63%|██████▎   | 234100/371472 [7:35:52<10:39:34,  3.58it/s] 63%|██████▎   | 234101/371472 [7:35:53<10:56:21,  3.49it/s] 63%|██████▎   | 234102/371472 [7:35:53<10:36:23,  3.60it/s] 63%|██████▎   | 234103/371472 [7:35:53<10:44:02,  3.55it/s] 63%|██████▎   | 234104/371472 [7:35:53<10:35:09,  3.60it/s] 63%|██████▎   | 234105/371472 [7:35:54<10:17:22,  3.71it/s] 63%|██████▎   | 234106/371472 [7:35:54<10:17:20,  3.71it/s] 63%|██████▎   | 234107/371472 [7:35:54<11:02:32,  3.46it/s] 63%|██████▎   | 234108/371472 [7:35:54<10:44:02,  3.55it/s] 63%|██████▎   | 234109/371472 [7:35:55<11:06:09,  3.44it/s] 63%|██████▎   | 234110/371472 [7:35:55<10:44:07,  3.55it/s] 63%|██████▎   | 234111/371472 [7:35:55<10:27:52,  3.65it/s] 63%|██████▎   | 234112/371472 [7:35:56<10:44:31,  3.55it/s] 63%|██████▎   | 234113/371472 [7:35:56<10:50:57,  3.52it/s] 63%|██████▎   | 234114/371472 [7:35:56<10:42:53,  3.56it/s] 63%|██████▎   | 234115/371472 [7:35:56<10:25:57,  3.66it/s] 63%|██████▎   | 234116/371472 [7:35:57<10:29:00,  3.64it/s] 63%|██████▎   | 234117/371472 [7:35:57<10:47:49,  3.53it/s] 63%|██████▎   | 234118/371472 [7:35:57<10:44:24,  3.55it/s] 63%|██████▎   | 234119/371472 [7:35:58<11:12:09,  3.41it/s] 63%|██████▎   | 234120/371472 [7:35:58<10:59:14,  3.47it/s]                                                            {'loss': 3.0773, 'learning_rate': 4.329548147988537e-07, 'epoch': 10.08}
 63%|██████▎   | 234120/371472 [7:35:58<10:59:14,  3.47it/s] 63%|██████▎   | 234121/371472 [7:35:58<11:57:13,  3.19it/s] 63%|██████▎   | 234122/371472 [7:35:59<11:48:20,  3.23it/s] 63%|██████▎   | 234123/371472 [7:35:59<11:40:54,  3.27it/s] 63%|██████▎   | 234124/371472 [7:35:59<11:38:19,  3.28it/s] 63%|██████▎   | 234125/371472 [7:35:59<11:25:43,  3.34it/s] 63%|██████▎   | 234126/371472 [7:36:00<10:54:47,  3.50it/s] 63%|██████▎   | 234127/371472 [7:36:00<10:38:43,  3.58it/s] 63%|██████▎   | 234128/371472 [7:36:00<11:01:55,  3.46it/s] 63%|██████▎   | 234129/371472 [7:36:00<10:39:24,  3.58it/s] 63%|██████▎   | 234130/371472 [7:36:01<10:38:26,  3.59it/s] 63%|██████▎   | 234131/371472 [7:36:01<10:28:41,  3.64it/s] 63%|██████▎   | 234132/371472 [7:36:01<10:10:51,  3.75it/s] 63%|██████▎   | 234133/371472 [7:36:02<10:05:45,  3.78it/s] 63%|██████▎   | 234134/371472 [7:36:02<10:22:39,  3.68it/s] 63%|██████▎   | 234135/371472 [7:36:02<10:04:53,  3.78it/s] 63%|██████▎   | 234136/371472 [7:36:02<10:48:56,  3.53it/s] 63%|██████▎   | 234137/371472 [7:36:03<12:00:00,  3.18it/s] 63%|██████▎   | 234138/371472 [7:36:03<11:51:37,  3.22it/s] 63%|██████▎   | 234139/371472 [7:36:03<11:22:39,  3.35it/s] 63%|██████▎   | 234140/371472 [7:36:04<11:05:51,  3.44it/s]                                                            {'loss': 2.8062, 'learning_rate': 4.3290633282337475e-07, 'epoch': 10.08}
 63%|██████▎   | 234140/371472 [7:36:04<11:05:51,  3.44it/s] 63%|██████▎   | 234141/371472 [7:36:04<10:39:31,  3.58it/s] 63%|██████▎   | 234142/371472 [7:36:04<10:21:55,  3.68it/s] 63%|██████▎   | 234143/371472 [7:36:04<10:09:09,  3.76it/s] 63%|██████▎   | 234144/371472 [7:36:05<9:57:23,  3.83it/s]  63%|██████▎   | 234145/371472 [7:36:05<10:28:38,  3.64it/s] 63%|██████▎   | 234146/371472 [7:36:05<10:17:43,  3.71it/s] 63%|██████▎   | 234147/371472 [7:36:05<10:31:39,  3.62it/s] 63%|██████▎   | 234148/371472 [7:36:06<10:19:41,  3.69it/s] 63%|██████▎   | 234149/371472 [7:36:06<10:21:47,  3.68it/s] 63%|██████▎   | 234150/371472 [7:36:06<10:21:18,  3.68it/s] 63%|██████▎   | 234151/371472 [7:36:07<10:27:15,  3.65it/s] 63%|██████▎   | 234152/371472 [7:36:07<10:27:21,  3.65it/s] 63%|██████▎   | 234153/371472 [7:36:07<10:08:41,  3.76it/s] 63%|██████▎   | 234154/371472 [7:36:07<10:00:09,  3.81it/s] 63%|██████▎   | 234155/371472 [7:36:08<10:24:13,  3.67it/s] 63%|██████▎   | 234156/371472 [7:36:08<10:44:22,  3.55it/s] 63%|██████▎   | 234157/371472 [7:36:08<10:42:53,  3.56it/s] 63%|██████▎   | 234158/371472 [7:36:09<10:49:33,  3.52it/s] 63%|██████▎   | 234159/371472 [7:36:09<11:28:00,  3.33it/s] 63%|██████▎   | 234160/371472 [7:36:09<10:57:35,  3.48it/s]                                                            {'loss': 2.9334, 'learning_rate': 4.3285785084789587e-07, 'epoch': 10.09}
 63%|██████▎   | 234160/371472 [7:36:09<10:57:35,  3.48it/s] 63%|██████▎   | 234161/371472 [7:36:09<11:29:53,  3.32it/s] 63%|██████▎   | 234162/371472 [7:36:10<10:50:42,  3.52it/s] 63%|██████▎   | 234163/371472 [7:36:10<10:37:42,  3.59it/s] 63%|██████▎   | 234164/371472 [7:36:10<10:17:36,  3.71it/s] 63%|██████▎   | 234165/371472 [7:36:11<11:06:16,  3.43it/s] 63%|██████▎   | 234166/371472 [7:36:11<10:41:41,  3.57it/s] 63%|██████▎   | 234167/371472 [7:36:11<10:51:11,  3.51it/s] 63%|██████▎   | 234168/371472 [7:36:11<11:14:28,  3.39it/s] 63%|██████▎   | 234169/371472 [7:36:12<10:47:48,  3.53it/s] 63%|██████▎   | 234170/371472 [7:36:12<10:47:17,  3.54it/s] 63%|██████▎   | 234171/371472 [7:36:12<10:26:19,  3.65it/s] 63%|██████▎   | 234172/371472 [7:36:12<10:30:32,  3.63it/s] 63%|██████▎   | 234173/371472 [7:36:13<11:35:33,  3.29it/s] 63%|██████▎   | 234174/371472 [7:36:13<10:58:49,  3.47it/s] 63%|██████▎   | 234175/371472 [7:36:13<11:02:53,  3.45it/s] 63%|██████▎   | 234176/371472 [7:36:14<10:50:41,  3.52it/s] 63%|██████▎   | 234177/371472 [7:36:14<11:37:39,  3.28it/s] 63%|██████▎   | 234178/371472 [7:36:14<11:18:27,  3.37it/s] 63%|██████▎   | 234179/371472 [7:36:15<11:01:49,  3.46it/s] 63%|██████▎   | 234180/371472 [7:36:15<11:16:14,  3.38it/s]                                                            {'loss': 2.7328, 'learning_rate': 4.3280936887241694e-07, 'epoch': 10.09}
 63%|██████▎   | 234180/371472 [7:36:15<11:16:14,  3.38it/s] 63%|██████▎   | 234181/371472 [7:36:15<11:59:53,  3.18it/s] 63%|██████▎   | 234182/371472 [7:36:16<12:16:21,  3.11it/s] 63%|██████▎   | 234183/371472 [7:36:16<12:32:32,  3.04it/s] 63%|██████▎   | 234184/371472 [7:36:16<12:01:46,  3.17it/s] 63%|██████▎   | 234185/371472 [7:36:17<11:57:59,  3.19it/s] 63%|██████▎   | 234186/371472 [7:36:17<11:53:00,  3.21it/s] 63%|██████▎   | 234187/371472 [7:36:17<11:43:38,  3.25it/s] 63%|██████▎   | 234188/371472 [7:36:17<11:01:04,  3.46it/s] 63%|██████▎   | 234189/371472 [7:36:18<10:53:06,  3.50it/s] 63%|██████▎   | 234190/371472 [7:36:18<10:49:42,  3.52it/s] 63%|██████▎   | 234191/371472 [7:36:18<10:35:37,  3.60it/s] 63%|██████▎   | 234192/371472 [7:36:18<10:22:49,  3.67it/s] 63%|██████▎   | 234193/371472 [7:36:19<10:34:44,  3.60it/s] 63%|██████▎   | 234194/371472 [7:36:19<10:16:25,  3.71it/s] 63%|██████▎   | 234195/371472 [7:36:19<10:20:38,  3.69it/s] 63%|██████▎   | 234196/371472 [7:36:20<10:22:52,  3.67it/s] 63%|██████▎   | 234197/371472 [7:36:20<10:21:57,  3.68it/s] 63%|██████▎   | 234198/371472 [7:36:20<10:24:27,  3.66it/s] 63%|██████▎   | 234199/371472 [7:36:20<10:58:39,  3.47it/s] 63%|██████▎   | 234200/371472 [7:36:21<11:18:54,  3.37it/s]                                                            {'loss': 3.0254, 'learning_rate': 4.3276088689693807e-07, 'epoch': 10.09}
 63%|██████▎   | 234200/371472 [7:36:21<11:18:54,  3.37it/s] 63%|██████▎   | 234201/371472 [7:36:21<11:00:56,  3.46it/s] 63%|██████▎   | 234202/371472 [7:36:21<10:44:57,  3.55it/s] 63%|██████▎   | 234203/371472 [7:36:22<10:19:29,  3.69it/s] 63%|██████▎   | 234204/371472 [7:36:22<11:35:15,  3.29it/s] 63%|██████▎   | 234205/371472 [7:36:22<11:05:19,  3.44it/s] 63%|██████▎   | 234206/371472 [7:36:22<11:03:52,  3.45it/s] 63%|██████▎   | 234207/371472 [7:36:23<10:47:15,  3.53it/s] 63%|██████▎   | 234208/371472 [7:36:23<10:26:04,  3.65it/s] 63%|██████▎   | 234209/371472 [7:36:23<10:37:54,  3.59it/s] 63%|██████▎   | 234210/371472 [7:36:24<10:39:29,  3.58it/s] 63%|██████▎   | 234211/371472 [7:36:24<10:36:51,  3.59it/s] 63%|██████▎   | 234212/371472 [7:36:24<11:23:56,  3.34it/s] 63%|██████▎   | 234213/371472 [7:36:24<10:46:48,  3.54it/s] 63%|██████▎   | 234214/371472 [7:36:25<10:53:20,  3.50it/s] 63%|██████▎   | 234215/371472 [7:36:25<10:36:26,  3.59it/s] 63%|██████▎   | 234216/371472 [7:36:25<10:43:40,  3.55it/s] 63%|██████▎   | 234217/371472 [7:36:26<10:41:36,  3.57it/s] 63%|██████▎   | 234218/371472 [7:36:26<10:26:07,  3.65it/s] 63%|██████▎   | 234219/371472 [7:36:26<10:33:01,  3.61it/s] 63%|██████▎   | 234220/371472 [7:36:26<10:42:57,  3.56it/s]                                                            {'loss': 2.8315, 'learning_rate': 4.3271240492145914e-07, 'epoch': 10.09}
 63%|██████▎   | 234220/371472 [7:36:26<10:42:57,  3.56it/s] 63%|██████▎   | 234221/371472 [7:36:27<10:59:20,  3.47it/s] 63%|██████▎   | 234222/371472 [7:36:27<10:49:38,  3.52it/s] 63%|██████▎   | 234223/371472 [7:36:27<11:24:50,  3.34it/s] 63%|██████▎   | 234224/371472 [7:36:28<11:10:09,  3.41it/s] 63%|██████▎   | 234225/371472 [7:36:28<11:11:41,  3.41it/s] 63%|██████▎   | 234226/371472 [7:36:28<11:04:34,  3.44it/s] 63%|██████▎   | 234227/371472 [7:36:28<11:31:49,  3.31it/s] 63%|██████▎   | 234228/371472 [7:36:29<10:59:11,  3.47it/s] 63%|██████▎   | 234229/371472 [7:36:29<11:38:50,  3.27it/s] 63%|██████▎   | 234230/371472 [7:36:29<11:34:30,  3.29it/s] 63%|██████▎   | 234231/371472 [7:36:30<11:08:14,  3.42it/s] 63%|██████▎   | 234232/371472 [7:36:30<10:45:26,  3.54it/s] 63%|██████▎   | 234233/371472 [7:36:30<10:41:01,  3.57it/s] 63%|██████▎   | 234234/371472 [7:36:30<10:25:06,  3.66it/s] 63%|██████▎   | 234235/371472 [7:36:31<10:51:32,  3.51it/s] 63%|██████▎   | 234236/371472 [7:36:31<10:53:49,  3.50it/s] 63%|██████▎   | 234237/371472 [7:36:31<10:33:22,  3.61it/s] 63%|██████▎   | 234238/371472 [7:36:32<10:19:19,  3.69it/s] 63%|██████▎   | 234239/371472 [7:36:32<11:38:06,  3.28it/s] 63%|██████▎   | 234240/371472 [7:36:32<11:19:33,  3.37it/s]                                                            {'loss': 2.8493, 'learning_rate': 4.326639229459803e-07, 'epoch': 10.09}
 63%|██████▎   | 234240/371472 [7:36:32<11:19:33,  3.37it/s] 63%|██████▎   | 234241/371472 [7:36:32<10:59:19,  3.47it/s] 63%|██████▎   | 234242/371472 [7:36:33<10:33:34,  3.61it/s] 63%|██████▎   | 234243/371472 [7:36:33<11:19:29,  3.37it/s] 63%|██████▎   | 234244/371472 [7:36:33<11:20:48,  3.36it/s] 63%|██████▎   | 234245/371472 [7:36:34<10:51:36,  3.51it/s] 63%|██████▎   | 234246/371472 [7:36:34<10:42:50,  3.56it/s] 63%|██████▎   | 234247/371472 [7:36:34<10:12:42,  3.73it/s] 63%|██████▎   | 234248/371472 [7:36:34<10:39:58,  3.57it/s] 63%|██████▎   | 234249/371472 [7:36:35<10:12:25,  3.73it/s] 63%|██████▎   | 234250/371472 [7:36:35<10:35:04,  3.60it/s] 63%|██████▎   | 234251/371472 [7:36:35<10:15:56,  3.71it/s] 63%|██████▎   | 234252/371472 [7:36:36<10:54:20,  3.50it/s] 63%|██████▎   | 234253/371472 [7:36:36<10:56:29,  3.48it/s] 63%|██████▎   | 234254/371472 [7:36:36<11:02:03,  3.45it/s] 63%|██████▎   | 234255/371472 [7:36:36<10:56:42,  3.48it/s] 63%|██████▎   | 234256/371472 [7:36:37<10:54:45,  3.49it/s] 63%|██████▎   | 234257/371472 [7:36:37<10:50:50,  3.51it/s] 63%|██████▎   | 234258/371472 [7:36:37<10:33:21,  3.61it/s] 63%|██████▎   | 234259/371472 [7:36:38<10:34:34,  3.60it/s] 63%|██████▎   | 234260/371472 [7:36:38<10:34:05,  3.61it/s]                                                            {'loss': 2.7214, 'learning_rate': 4.326154409705014e-07, 'epoch': 10.09}
 63%|██████▎   | 234260/371472 [7:36:38<10:34:05,  3.61it/s] 63%|██████▎   | 234261/371472 [7:36:38<10:34:24,  3.60it/s] 63%|██████▎   | 234262/371472 [7:36:38<10:51:23,  3.51it/s] 63%|██████▎   | 234263/371472 [7:36:39<12:22:55,  3.08it/s] 63%|██████▎   | 234264/371472 [7:36:39<11:40:36,  3.26it/s] 63%|██████▎   | 234265/371472 [7:36:39<11:35:10,  3.29it/s] 63%|██████▎   | 234266/371472 [7:36:40<11:05:26,  3.44it/s] 63%|██████▎   | 234267/371472 [7:36:40<10:42:47,  3.56it/s] 63%|██████▎   | 234268/371472 [7:36:40<10:27:59,  3.64it/s] 63%|██████▎   | 234269/371472 [7:36:40<10:28:57,  3.64it/s] 63%|██████▎   | 234270/371472 [7:36:41<10:18:07,  3.70it/s] 63%|██████▎   | 234271/371472 [7:36:41<10:34:05,  3.61it/s] 63%|██████▎   | 234272/371472 [7:36:41<12:10:03,  3.13it/s] 63%|██████▎   | 234273/371472 [7:36:42<11:50:51,  3.22it/s] 63%|██████▎   | 234274/371472 [7:36:42<11:22:48,  3.35it/s] 63%|██████▎   | 234275/371472 [7:36:42<11:10:11,  3.41it/s] 63%|██████▎   | 234276/371472 [7:36:42<10:52:59,  3.50it/s] 63%|██████▎   | 234277/371472 [7:36:43<11:01:30,  3.46it/s] 63%|██████▎   | 234278/371472 [7:36:43<10:33:22,  3.61it/s] 63%|██████▎   | 234279/371472 [7:36:43<10:16:28,  3.71it/s] 63%|██████▎   | 234280/371472 [7:36:44<10:04:32,  3.78it/s]                                                            {'loss': 2.7732, 'learning_rate': 4.325669589950225e-07, 'epoch': 10.09}
 63%|██████▎   | 234280/371472 [7:36:44<10:04:32,  3.78it/s] 63%|██████▎   | 234281/371472 [7:36:44<10:13:48,  3.73it/s] 63%|██████▎   | 234282/371472 [7:36:44<10:03:19,  3.79it/s] 63%|██████▎   | 234283/371472 [7:36:44<10:24:57,  3.66it/s] 63%|██████▎   | 234284/371472 [7:36:45<11:31:23,  3.31it/s] 63%|██████▎   | 234285/371472 [7:36:45<11:15:27,  3.39it/s] 63%|██████▎   | 234286/371472 [7:36:45<11:08:39,  3.42it/s] 63%|██████▎   | 234287/371472 [7:36:46<11:08:18,  3.42it/s] 63%|██████▎   | 234288/371472 [7:36:46<11:48:15,  3.23it/s] 63%|██████▎   | 234289/371472 [7:36:46<11:00:22,  3.46it/s] 63%|██████▎   | 234290/371472 [7:36:47<11:25:11,  3.34it/s] 63%|██████▎   | 234291/371472 [7:36:47<11:36:00,  3.28it/s] 63%|██████▎   | 234292/371472 [7:36:47<10:59:39,  3.47it/s] 63%|██████▎   | 234293/371472 [7:36:47<11:40:45,  3.26it/s] 63%|██████▎   | 234294/371472 [7:36:48<11:21:14,  3.36it/s] 63%|██████▎   | 234295/371472 [7:36:48<10:52:42,  3.50it/s] 63%|██████▎   | 234296/371472 [7:36:48<12:57:33,  2.94it/s] 63%|██████▎   | 234297/371472 [7:36:49<12:50:42,  2.97it/s] 63%|██████▎   | 234298/371472 [7:36:49<12:03:45,  3.16it/s] 63%|██████▎   | 234299/371472 [7:36:49<11:55:56,  3.19it/s] 63%|██████▎   | 234300/371472 [7:36:50<11:10:21,  3.41it/s]                                                            {'loss': 2.7375, 'learning_rate': 4.325184770195436e-07, 'epoch': 10.09}
 63%|██████▎   | 234300/371472 [7:36:50<11:10:21,  3.41it/s] 63%|██████▎   | 234301/371472 [7:36:50<10:45:50,  3.54it/s] 63%|██████▎   | 234302/371472 [7:36:50<11:22:10,  3.35it/s] 63%|██████▎   | 234303/371472 [7:36:51<11:49:58,  3.22it/s] 63%|██████▎   | 234304/371472 [7:36:51<12:08:59,  3.14it/s] 63%|██████▎   | 234305/371472 [7:36:51<11:46:04,  3.24it/s] 63%|██████▎   | 234306/371472 [7:36:51<12:06:44,  3.15it/s] 63%|██████▎   | 234307/371472 [7:36:52<11:29:46,  3.31it/s] 63%|██████▎   | 234308/371472 [7:36:52<11:20:08,  3.36it/s] 63%|██████▎   | 234309/371472 [7:36:52<11:14:12,  3.39it/s] 63%|██████▎   | 234310/371472 [7:36:53<11:02:39,  3.45it/s] 63%|██████▎   | 234311/371472 [7:36:53<12:05:30,  3.15it/s] 63%|██████▎   | 234312/371472 [7:36:53<11:28:00,  3.32it/s] 63%|██████▎   | 234313/371472 [7:36:53<10:44:12,  3.55it/s] 63%|██████▎   | 234314/371472 [7:36:54<10:37:00,  3.59it/s] 63%|██████▎   | 234315/371472 [7:36:54<11:24:20,  3.34it/s] 63%|██████▎   | 234316/371472 [7:36:54<11:33:52,  3.29it/s] 63%|██████▎   | 234317/371472 [7:36:55<10:57:24,  3.48it/s] 63%|██████▎   | 234318/371472 [7:36:55<10:51:57,  3.51it/s] 63%|██████▎   | 234319/371472 [7:36:55<10:28:21,  3.64it/s] 63%|██████▎   | 234320/371472 [7:36:55<10:30:26,  3.63it/s]                                                            {'loss': 2.8935, 'learning_rate': 4.3246999504406476e-07, 'epoch': 10.09}
 63%|██████▎   | 234320/371472 [7:36:55<10:30:26,  3.63it/s] 63%|██████▎   | 234321/371472 [7:36:56<10:40:00,  3.57it/s] 63%|██████▎   | 234322/371472 [7:36:56<10:24:54,  3.66it/s] 63%|██████▎   | 234323/371472 [7:36:56<10:29:29,  3.63it/s] 63%|██████▎   | 234324/371472 [7:36:57<10:42:59,  3.55it/s] 63%|██████▎   | 234325/371472 [7:36:57<10:41:36,  3.56it/s] 63%|██████▎   | 234326/371472 [7:36:57<10:28:44,  3.64it/s] 63%|██████▎   | 234327/371472 [7:36:57<10:44:08,  3.55it/s] 63%|██████▎   | 234328/371472 [7:36:58<11:37:54,  3.28it/s] 63%|██████▎   | 234329/371472 [7:36:58<11:05:12,  3.44it/s] 63%|██████▎   | 234330/371472 [7:36:58<10:34:09,  3.60it/s] 63%|██████▎   | 234331/371472 [7:36:59<10:03:36,  3.79it/s] 63%|██████▎   | 234332/371472 [7:36:59<10:15:05,  3.72it/s] 63%|██████▎   | 234333/371472 [7:36:59<10:25:52,  3.65it/s] 63%|██████▎   | 234334/371472 [7:36:59<11:08:03,  3.42it/s] 63%|██████▎   | 234335/371472 [7:37:00<11:36:37,  3.28it/s] 63%|██████▎   | 234336/371472 [7:37:00<11:05:37,  3.43it/s] 63%|██████▎   | 234337/371472 [7:37:00<10:55:13,  3.49it/s] 63%|██████▎   | 234338/371472 [7:37:01<10:43:22,  3.55it/s] 63%|██████▎   | 234339/371472 [7:37:01<10:24:06,  3.66it/s] 63%|██████▎   | 234340/371472 [7:37:01<10:28:37,  3.64it/s]                                                            {'loss': 2.8558, 'learning_rate': 4.324215130685858e-07, 'epoch': 10.09}
 63%|██████▎   | 234340/371472 [7:37:01<10:28:37,  3.64it/s] 63%|██████▎   | 234341/371472 [7:37:01<10:37:16,  3.59it/s] 63%|██████▎   | 234342/371472 [7:37:02<10:32:34,  3.61it/s] 63%|██████▎   | 234343/371472 [7:37:02<11:06:17,  3.43it/s] 63%|██████▎   | 234344/371472 [7:37:02<11:25:13,  3.34it/s] 63%|██████▎   | 234345/371472 [7:37:03<11:02:47,  3.45it/s] 63%|██████▎   | 234346/371472 [7:37:03<11:27:53,  3.32it/s] 63%|██████▎   | 234347/371472 [7:37:03<11:02:55,  3.45it/s] 63%|██████▎   | 234348/371472 [7:37:03<10:38:27,  3.58it/s] 63%|██████▎   | 234349/371472 [7:37:04<10:13:24,  3.73it/s] 63%|██████▎   | 234350/371472 [7:37:04<10:12:07,  3.73it/s] 63%|██████▎   | 234351/371472 [7:37:04<10:05:32,  3.77it/s] 63%|██████▎   | 234352/371472 [7:37:04<10:02:55,  3.79it/s] 63%|██████▎   | 234353/371472 [7:37:05<10:11:03,  3.74it/s] 63%|██████▎   | 234354/371472 [7:37:05<10:35:31,  3.60it/s] 63%|██████▎   | 234355/371472 [7:37:05<10:15:38,  3.71it/s] 63%|██████▎   | 234356/371472 [7:37:06<10:20:45,  3.68it/s] 63%|██████▎   | 234357/371472 [7:37:06<10:57:13,  3.48it/s] 63%|██████▎   | 234358/371472 [7:37:06<12:23:44,  3.07it/s] 63%|██████▎   | 234359/371472 [7:37:07<11:52:22,  3.21it/s] 63%|██████▎   | 234360/371472 [7:37:07<12:19:49,  3.09it/s]                                                            {'loss': 2.8363, 'learning_rate': 4.3237303109310696e-07, 'epoch': 10.09}
 63%|██████▎   | 234360/371472 [7:37:07<12:19:49,  3.09it/s] 63%|██████▎   | 234361/371472 [7:37:07<11:40:07,  3.26it/s] 63%|██████▎   | 234362/371472 [7:37:07<11:20:02,  3.36it/s] 63%|██████▎   | 234363/371472 [7:37:08<11:03:16,  3.45it/s] 63%|██████▎   | 234364/371472 [7:37:08<10:32:36,  3.61it/s] 63%|██████▎   | 234365/371472 [7:37:08<10:47:21,  3.53it/s] 63%|██████▎   | 234366/371472 [7:37:09<11:06:50,  3.43it/s] 63%|██████▎   | 234367/371472 [7:37:09<10:38:58,  3.58it/s] 63%|██████▎   | 234368/371472 [7:37:09<10:16:04,  3.71it/s] 63%|██████▎   | 234369/371472 [7:37:09<10:35:35,  3.60it/s] 63%|██████▎   | 234370/371472 [7:37:10<10:27:18,  3.64it/s] 63%|██████▎   | 234371/371472 [7:37:10<9:57:16,  3.83it/s]  63%|██████▎   | 234372/371472 [7:37:10<9:59:48,  3.81it/s] 63%|██████▎   | 234373/371472 [7:37:10<11:03:00,  3.45it/s] 63%|██████▎   | 234374/371472 [7:37:11<10:39:44,  3.57it/s] 63%|██████▎   | 234375/371472 [7:37:11<10:45:51,  3.54it/s] 63%|██████▎   | 234376/371472 [7:37:11<10:20:39,  3.68it/s] 63%|██████▎   | 234377/371472 [7:37:12<10:40:26,  3.57it/s] 63%|██████▎   | 234378/371472 [7:37:12<10:44:24,  3.55it/s] 63%|██████▎   | 234379/371472 [7:37:12<12:19:10,  3.09it/s] 63%|██████▎   | 234380/371472 [7:37:13<11:32:38,  3.30it/s]                                                            {'loss': 2.9932, 'learning_rate': 4.32324549117628e-07, 'epoch': 10.1}
 63%|██████▎   | 234380/371472 [7:37:13<11:32:38,  3.30it/s] 63%|██████▎   | 234381/371472 [7:37:13<11:23:32,  3.34it/s] 63%|██████▎   | 234382/371472 [7:37:13<11:12:09,  3.40it/s] 63%|██████▎   | 234383/371472 [7:37:13<11:03:09,  3.45it/s] 63%|██████▎   | 234384/371472 [7:37:14<10:32:03,  3.61it/s] 63%|██████▎   | 234385/371472 [7:37:14<10:16:10,  3.71it/s] 63%|██████▎   | 234386/371472 [7:37:14<10:06:58,  3.76it/s] 63%|██████▎   | 234387/371472 [7:37:14<10:00:08,  3.81it/s] 63%|██████▎   | 234388/371472 [7:37:15<10:07:45,  3.76it/s] 63%|██████▎   | 234389/371472 [7:37:15<10:29:21,  3.63it/s] 63%|██████▎   | 234390/371472 [7:37:15<10:32:14,  3.61it/s] 63%|██████▎   | 234391/371472 [7:37:16<10:32:13,  3.61it/s] 63%|██████▎   | 234392/371472 [7:37:16<10:15:01,  3.71it/s] 63%|██████▎   | 234393/371472 [7:37:16<10:54:52,  3.49it/s] 63%|██████▎   | 234394/371472 [7:37:16<11:11:54,  3.40it/s] 63%|██████▎   | 234395/371472 [7:37:17<10:57:46,  3.47it/s] 63%|██████▎   | 234396/371472 [7:37:17<10:44:35,  3.54it/s] 63%|██████▎   | 234397/371472 [7:37:17<10:46:03,  3.54it/s] 63%|██████▎   | 234398/371472 [7:37:18<10:50:52,  3.51it/s] 63%|██████▎   | 234399/371472 [7:37:18<10:26:16,  3.65it/s] 63%|██████▎   | 234400/371472 [7:37:18<10:43:00,  3.55it/s]                                                            {'loss': 2.9108, 'learning_rate': 4.3227606714214915e-07, 'epoch': 10.1}
 63%|██████▎   | 234400/371472 [7:37:18<10:43:00,  3.55it/s] 63%|██████▎   | 234401/371472 [7:37:18<10:54:07,  3.49it/s] 63%|██████▎   | 234402/371472 [7:37:19<11:11:38,  3.40it/s] 63%|██████▎   | 234403/371472 [7:37:19<11:24:43,  3.34it/s] 63%|██████▎   | 234404/371472 [7:37:19<11:04:18,  3.44it/s] 63%|██████▎   | 234405/371472 [7:37:20<10:35:39,  3.59it/s] 63%|██████▎   | 234406/371472 [7:37:20<11:19:19,  3.36it/s] 63%|██████▎   | 234407/371472 [7:37:20<10:59:36,  3.46it/s] 63%|██████▎   | 234408/371472 [7:37:20<10:44:25,  3.54it/s] 63%|██████▎   | 234409/371472 [7:37:21<10:23:05,  3.67it/s] 63%|██████▎   | 234410/371472 [7:37:21<11:32:04,  3.30it/s] 63%|██████▎   | 234411/371472 [7:37:21<11:31:09,  3.31it/s] 63%|██████▎   | 234412/371472 [7:37:22<11:01:10,  3.45it/s] 63%|██████▎   | 234413/371472 [7:37:22<11:33:31,  3.29it/s] 63%|██████▎   | 234414/371472 [7:37:22<12:06:40,  3.14it/s] 63%|██████▎   | 234415/371472 [7:37:23<11:58:11,  3.18it/s] 63%|██████▎   | 234416/371472 [7:37:23<11:27:57,  3.32it/s] 63%|██████▎   | 234417/371472 [7:37:23<11:12:42,  3.40it/s] 63%|██████▎   | 234418/371472 [7:37:23<10:52:28,  3.50it/s] 63%|██████▎   | 234419/371472 [7:37:24<10:42:41,  3.55it/s] 63%|██████▎   | 234420/371472 [7:37:24<10:32:11,  3.61it/s]                                                            {'loss': 2.7449, 'learning_rate': 4.322275851666702e-07, 'epoch': 10.1}
 63%|██████▎   | 234420/371472 [7:37:24<10:32:11,  3.61it/s] 63%|██████▎   | 234421/371472 [7:37:24<10:16:53,  3.70it/s] 63%|██████▎   | 234422/371472 [7:37:24<10:02:17,  3.79it/s] 63%|██████▎   | 234423/371472 [7:37:25<9:48:49,  3.88it/s]  63%|██████▎   | 234424/371472 [7:37:25<10:14:42,  3.72it/s] 63%|██████▎   | 234425/371472 [7:37:25<11:54:13,  3.20it/s] 63%|██████▎   | 234426/371472 [7:37:26<11:03:37,  3.44it/s] 63%|██████▎   | 234427/371472 [7:37:26<10:58:55,  3.47it/s] 63%|██████▎   | 234428/371472 [7:37:26<10:56:54,  3.48it/s] 63%|██████▎   | 234429/371472 [7:37:26<10:40:13,  3.57it/s] 63%|██████▎   | 234430/371472 [7:37:27<11:25:48,  3.33it/s] 63%|██████▎   | 234431/371472 [7:37:27<10:47:40,  3.53it/s] 63%|██████▎   | 234432/371472 [7:37:27<10:46:14,  3.53it/s] 63%|██████▎   | 234433/371472 [7:37:28<10:43:14,  3.55it/s] 63%|██████▎   | 234434/371472 [7:37:28<10:29:15,  3.63it/s] 63%|██████▎   | 234435/371472 [7:37:28<11:23:21,  3.34it/s] 63%|██████▎   | 234436/371472 [7:37:29<11:15:42,  3.38it/s] 63%|██████▎   | 234437/371472 [7:37:29<10:53:08,  3.50it/s] 63%|██████▎   | 234438/371472 [7:37:29<11:01:16,  3.45it/s] 63%|██████▎   | 234439/371472 [7:37:29<11:06:16,  3.43it/s] 63%|██████▎   | 234440/371472 [7:37:30<10:45:44,  3.54it/s]                                                            {'loss': 2.7835, 'learning_rate': 4.321791031911914e-07, 'epoch': 10.1}
 63%|██████▎   | 234440/371472 [7:37:30<10:45:44,  3.54it/s] 63%|██████▎   | 234441/371472 [7:37:30<11:05:36,  3.43it/s] 63%|██████▎   | 234442/371472 [7:37:30<11:13:58,  3.39it/s] 63%|██████▎   | 234443/371472 [7:37:31<11:02:21,  3.45it/s] 63%|██████▎   | 234444/371472 [7:37:31<10:45:10,  3.54it/s] 63%|██████▎   | 234445/371472 [7:37:31<10:38:28,  3.58it/s] 63%|██████▎   | 234446/371472 [7:37:31<11:26:26,  3.33it/s] 63%|██████▎   | 234447/371472 [7:37:32<11:55:33,  3.19it/s] 63%|██████▎   | 234448/371472 [7:37:32<11:17:01,  3.37it/s] 63%|██████▎   | 234449/371472 [7:37:32<11:12:20,  3.40it/s] 63%|██████▎   | 234450/371472 [7:37:33<11:00:43,  3.46it/s] 63%|██████▎   | 234451/371472 [7:37:33<11:10:28,  3.41it/s] 63%|██████▎   | 234452/371472 [7:37:33<10:43:03,  3.55it/s] 63%|██████▎   | 234453/371472 [7:37:33<10:21:19,  3.68it/s] 63%|██████▎   | 234454/371472 [7:37:34<10:23:31,  3.66it/s] 63%|██████▎   | 234455/371472 [7:37:34<10:15:28,  3.71it/s] 63%|██████▎   | 234456/371472 [7:37:34<13:09:53,  2.89it/s] 63%|██████▎   | 234457/371472 [7:37:35<12:45:25,  2.98it/s] 63%|██████▎   | 234458/371472 [7:37:35<12:28:30,  3.05it/s] 63%|██████▎   | 234459/371472 [7:37:35<11:24:08,  3.34it/s] 63%|██████▎   | 234460/371472 [7:37:36<11:26:11,  3.33it/s]                                                            {'loss': 2.7994, 'learning_rate': 4.321306212157124e-07, 'epoch': 10.1}
 63%|██████▎   | 234460/371472 [7:37:36<11:26:11,  3.33it/s] 63%|██████▎   | 234461/371472 [7:37:36<11:06:04,  3.43it/s] 63%|██████▎   | 234462/371472 [7:37:36<10:55:00,  3.49it/s] 63%|██████▎   | 234463/371472 [7:37:36<11:18:10,  3.37it/s] 63%|██████▎   | 234464/371472 [7:37:37<10:56:08,  3.48it/s] 63%|██████▎   | 234465/371472 [7:37:37<10:30:03,  3.62it/s] 63%|██████▎   | 234466/371472 [7:37:37<10:12:25,  3.73it/s] 63%|██████▎   | 234467/371472 [7:37:38<10:46:16,  3.53it/s] 63%|██████▎   | 234468/371472 [7:37:38<10:57:25,  3.47it/s] 63%|██████▎   | 234469/371472 [7:37:38<10:27:01,  3.64it/s] 63%|██████▎   | 234470/371472 [7:37:38<10:26:53,  3.64it/s] 63%|██████▎   | 234471/371472 [7:37:39<10:39:40,  3.57it/s] 63%|██████▎   | 234472/371472 [7:37:39<10:26:02,  3.65it/s] 63%|██████▎   | 234473/371472 [7:37:39<10:54:24,  3.49it/s] 63%|██████▎   | 234474/371472 [7:37:40<11:08:09,  3.42it/s] 63%|██████▎   | 234475/371472 [7:37:40<10:37:11,  3.58it/s] 63%|██████▎   | 234476/371472 [7:37:40<10:22:06,  3.67it/s] 63%|██████▎   | 234477/371472 [7:37:40<11:37:23,  3.27it/s] 63%|██████▎   | 234478/371472 [7:37:41<11:07:27,  3.42it/s] 63%|██████▎   | 234479/371472 [7:37:41<11:43:02,  3.25it/s] 63%|██████▎   | 234480/371472 [7:37:41<11:06:50,  3.42it/s]                                                            {'loss': 2.8869, 'learning_rate': 4.320821392402336e-07, 'epoch': 10.1}
 63%|██████▎   | 234480/371472 [7:37:41<11:06:50,  3.42it/s] 63%|██████▎   | 234481/371472 [7:37:42<10:58:52,  3.47it/s] 63%|██████▎   | 234482/371472 [7:37:42<10:51:58,  3.50it/s] 63%|██████▎   | 234483/371472 [7:37:42<11:24:05,  3.34it/s] 63%|██████▎   | 234484/371472 [7:37:43<11:51:38,  3.21it/s] 63%|██████▎   | 234485/371472 [7:37:43<11:27:11,  3.32it/s] 63%|██████▎   | 234486/371472 [7:37:43<11:00:27,  3.46it/s] 63%|██████▎   | 234487/371472 [7:37:43<11:27:26,  3.32it/s] 63%|██████▎   | 234488/371472 [7:37:44<11:57:24,  3.18it/s] 63%|██████▎   | 234489/371472 [7:37:44<11:52:05,  3.21it/s] 63%|██████▎   | 234490/371472 [7:37:44<11:35:16,  3.28it/s] 63%|██████▎   | 234491/371472 [7:37:45<11:20:58,  3.35it/s] 63%|██████▎   | 234492/371472 [7:37:45<11:36:08,  3.28it/s] 63%|██████▎   | 234493/371472 [7:37:45<11:53:38,  3.20it/s] 63%|██████▎   | 234494/371472 [7:37:46<11:27:55,  3.32it/s] 63%|██████▎   | 234495/371472 [7:37:46<10:59:42,  3.46it/s] 63%|██████▎   | 234496/371472 [7:37:46<12:04:31,  3.15it/s] 63%|██████▎   | 234497/371472 [7:37:46<11:47:28,  3.23it/s] 63%|██████▎   | 234498/371472 [7:37:47<13:11:53,  2.88it/s] 63%|██████▎   | 234499/371472 [7:37:47<12:39:00,  3.01it/s] 63%|██████▎   | 234500/371472 [7:37:47<11:51:35,  3.21it/s]                                                            {'loss': 2.8864, 'learning_rate': 4.3203365726475467e-07, 'epoch': 10.1}
 63%|██████▎   | 234500/371472 [7:37:47<11:51:35,  3.21it/s] 63%|██████▎   | 234501/371472 [7:37:48<11:15:44,  3.38it/s] 63%|██████▎   | 234502/371472 [7:37:48<11:01:39,  3.45it/s] 63%|██████▎   | 234503/371472 [7:37:48<10:35:32,  3.59it/s] 63%|██████▎   | 234504/371472 [7:37:49<11:23:19,  3.34it/s] 63%|██████▎   | 234505/371472 [7:37:49<11:18:33,  3.36it/s] 63%|██████▎   | 234506/371472 [7:37:49<11:08:19,  3.42it/s] 63%|██████▎   | 234507/371472 [7:37:49<10:52:47,  3.50it/s] 63%|██████▎   | 234508/371472 [7:37:50<11:05:43,  3.43it/s] 63%|██████▎   | 234509/371472 [7:37:50<10:50:31,  3.51it/s] 63%|██████▎   | 234510/371472 [7:37:50<10:29:55,  3.62it/s] 63%|██████▎   | 234511/371472 [7:37:51<10:31:48,  3.61it/s] 63%|██████▎   | 234512/371472 [7:37:51<10:53:55,  3.49it/s] 63%|██████▎   | 234513/371472 [7:37:51<10:45:15,  3.54it/s] 63%|██████▎   | 234514/371472 [7:37:51<10:44:41,  3.54it/s] 63%|██████▎   | 234515/371472 [7:37:52<11:03:51,  3.44it/s] 63%|██████▎   | 234516/371472 [7:37:52<11:05:40,  3.43it/s] 63%|██████▎   | 234517/371472 [7:37:52<10:52:35,  3.50it/s] 63%|██████▎   | 234518/371472 [7:37:53<12:04:25,  3.15it/s] 63%|██████▎   | 234519/371472 [7:37:53<11:42:44,  3.25it/s] 63%|██████▎   | 234520/371472 [7:37:53<11:16:49,  3.37it/s]                                                            {'loss': 3.0242, 'learning_rate': 4.319851752892758e-07, 'epoch': 10.1}
 63%|██████▎   | 234520/371472 [7:37:53<11:16:49,  3.37it/s] 63%|██████▎   | 234521/371472 [7:37:54<10:47:46,  3.52it/s] 63%|██████▎   | 234522/371472 [7:37:54<10:39:05,  3.57it/s] 63%|██████▎   | 234523/371472 [7:37:54<10:14:27,  3.71it/s] 63%|██████▎   | 234524/371472 [7:37:54<10:18:35,  3.69it/s] 63%|██████▎   | 234525/371472 [7:37:55<10:15:06,  3.71it/s] 63%|██████▎   | 234526/371472 [7:37:55<10:24:30,  3.65it/s] 63%|██████▎   | 234527/371472 [7:37:55<10:03:54,  3.78it/s] 63%|██████▎   | 234528/371472 [7:37:55<10:47:59,  3.52it/s] 63%|██████▎   | 234529/371472 [7:37:56<10:43:12,  3.55it/s] 63%|██████▎   | 234530/371472 [7:37:56<12:16:55,  3.10it/s] 63%|██████▎   | 234531/371472 [7:37:56<12:42:29,  2.99it/s] 63%|██████▎   | 234532/371472 [7:37:57<12:06:42,  3.14it/s] 63%|██████▎   | 234533/371472 [7:37:57<11:50:35,  3.21it/s] 63%|██████▎   | 234534/371472 [7:37:57<11:16:23,  3.37it/s] 63%|██████▎   | 234535/371472 [7:37:58<10:54:30,  3.49it/s] 63%|██████▎   | 234536/371472 [7:37:58<11:15:27,  3.38it/s] 63%|██████▎   | 234537/371472 [7:37:58<10:59:19,  3.46it/s] 63%|██████▎   | 234538/371472 [7:37:58<10:25:39,  3.65it/s] 63%|██████▎   | 234539/371472 [7:37:59<10:07:22,  3.76it/s] 63%|██████▎   | 234540/371472 [7:37:59<10:20:14,  3.68it/s]                                                            {'loss': 2.8927, 'learning_rate': 4.3193669331379686e-07, 'epoch': 10.1}
 63%|██████▎   | 234540/371472 [7:37:59<10:20:14,  3.68it/s] 63%|██████▎   | 234541/371472 [7:37:59<10:28:57,  3.63it/s] 63%|██████▎   | 234542/371472 [7:37:59<10:18:27,  3.69it/s] 63%|██████▎   | 234543/371472 [7:38:00<11:15:14,  3.38it/s] 63%|██████▎   | 234544/371472 [7:38:00<10:38:40,  3.57it/s] 63%|██████▎   | 234545/371472 [7:38:00<11:26:49,  3.32it/s] 63%|██████▎   | 234546/371472 [7:38:01<10:52:46,  3.50it/s] 63%|██████▎   | 234547/371472 [7:38:01<10:59:32,  3.46it/s] 63%|██████▎   | 234548/371472 [7:38:01<10:42:39,  3.55it/s] 63%|██████▎   | 234549/371472 [7:38:02<11:34:50,  3.28it/s] 63%|██████▎   | 234550/371472 [7:38:02<11:40:39,  3.26it/s] 63%|██████▎   | 234551/371472 [7:38:02<11:09:35,  3.41it/s] 63%|██████▎   | 234552/371472 [7:38:02<11:08:20,  3.41it/s] 63%|██████▎   | 234553/371472 [7:38:03<12:30:15,  3.04it/s] 63%|██████▎   | 234554/371472 [7:38:03<11:22:01,  3.35it/s] 63%|██████▎   | 234555/371472 [7:38:03<10:42:37,  3.55it/s] 63%|██████▎   | 234556/371472 [7:38:04<10:44:42,  3.54it/s] 63%|██████▎   | 234557/371472 [7:38:04<11:00:54,  3.45it/s] 63%|██████▎   | 234558/371472 [7:38:04<10:40:42,  3.56it/s] 63%|██████▎   | 234559/371472 [7:38:04<10:17:02,  3.70it/s] 63%|██████▎   | 234560/371472 [7:38:05<10:34:07,  3.60it/s]                                                            {'loss': 3.0053, 'learning_rate': 4.3188821133831794e-07, 'epoch': 10.1}
 63%|██████▎   | 234560/371472 [7:38:05<10:34:07,  3.60it/s] 63%|██████▎   | 234561/371472 [7:38:05<10:17:01,  3.70it/s] 63%|██████▎   | 234562/371472 [7:38:05<10:19:06,  3.69it/s] 63%|██████▎   | 234563/371472 [7:38:06<10:43:20,  3.55it/s] 63%|██████▎   | 234564/371472 [7:38:06<10:59:43,  3.46it/s] 63%|██████▎   | 234565/371472 [7:38:06<11:03:07,  3.44it/s] 63%|██████▎   | 234566/371472 [7:38:06<10:48:53,  3.52it/s] 63%|██████▎   | 234567/371472 [7:38:07<10:45:13,  3.54it/s] 63%|██████▎   | 234568/371472 [7:38:07<11:41:57,  3.25it/s] 63%|██████▎   | 234569/371472 [7:38:07<11:15:16,  3.38it/s] 63%|██████▎   | 234570/371472 [7:38:08<10:46:57,  3.53it/s] 63%|██████▎   | 234571/371472 [7:38:08<10:25:18,  3.65it/s] 63%|██████▎   | 234572/371472 [7:38:08<10:29:38,  3.62it/s] 63%|██████▎   | 234573/371472 [7:38:08<10:21:11,  3.67it/s] 63%|██████▎   | 234574/371472 [7:38:09<10:16:28,  3.70it/s] 63%|██████▎   | 234575/371472 [7:38:09<10:53:25,  3.49it/s] 63%|██████▎   | 234576/371472 [7:38:09<10:42:48,  3.55it/s] 63%|██████▎   | 234577/371472 [7:38:10<11:15:14,  3.38it/s] 63%|██████▎   | 234578/371472 [7:38:10<10:45:44,  3.53it/s] 63%|██████▎   | 234579/371472 [7:38:10<10:16:12,  3.70it/s] 63%|██████▎   | 234580/371472 [7:38:10<10:17:04,  3.70it/s]                                                            {'loss': 2.7759, 'learning_rate': 4.318397293628391e-07, 'epoch': 10.1}
 63%|██████▎   | 234580/371472 [7:38:10<10:17:04,  3.70it/s] 63%|██████▎   | 234581/371472 [7:38:11<10:44:13,  3.54it/s] 63%|██████▎   | 234582/371472 [7:38:11<10:39:20,  3.57it/s] 63%|██████▎   | 234583/371472 [7:38:11<10:37:41,  3.58it/s] 63%|██████▎   | 234584/371472 [7:38:11<10:21:02,  3.67it/s] 63%|██████▎   | 234585/371472 [7:38:12<10:20:47,  3.68it/s] 63%|██████▎   | 234586/371472 [7:38:12<10:16:28,  3.70it/s] 63%|██████▎   | 234587/371472 [7:38:12<11:29:09,  3.31it/s] 63%|██████▎   | 234588/371472 [7:38:13<11:18:16,  3.36it/s] 63%|██████▎   | 234589/371472 [7:38:13<10:56:47,  3.47it/s] 63%|██████▎   | 234590/371472 [7:38:13<10:39:05,  3.57it/s] 63%|██████▎   | 234591/371472 [7:38:13<10:09:54,  3.74it/s] 63%|██████▎   | 234592/371472 [7:38:14<9:59:16,  3.81it/s]  63%|██████▎   | 234593/371472 [7:38:14<10:39:38,  3.57it/s] 63%|██████▎   | 234594/371472 [7:38:14<10:25:00,  3.65it/s] 63%|██████▎   | 234595/371472 [7:38:15<11:15:17,  3.38it/s] 63%|██████▎   | 234596/371472 [7:38:15<10:50:20,  3.51it/s] 63%|██████▎   | 234597/371472 [7:38:15<10:55:01,  3.48it/s] 63%|██████▎   | 234598/371472 [7:38:16<11:29:32,  3.31it/s] 63%|██████▎   | 234599/371472 [7:38:16<12:05:19,  3.15it/s] 63%|██████▎   | 234600/371472 [7:38:16<11:23:29,  3.34it/s]                                                            {'loss': 2.8928, 'learning_rate': 4.3179124738736013e-07, 'epoch': 10.1}
 63%|██████▎   | 234600/371472 [7:38:16<11:23:29,  3.34it/s] 63%|██████▎   | 234601/371472 [7:38:16<11:01:33,  3.45it/s] 63%|██████▎   | 234602/371472 [7:38:17<11:06:13,  3.42it/s] 63%|██████▎   | 234603/371472 [7:38:17<10:49:50,  3.51it/s] 63%|██████▎   | 234604/371472 [7:38:17<10:35:48,  3.59it/s] 63%|██████▎   | 234605/371472 [7:38:18<10:29:38,  3.62it/s] 63%|██████▎   | 234606/371472 [7:38:18<10:06:50,  3.76it/s] 63%|██████▎   | 234607/371472 [7:38:18<10:36:05,  3.59it/s] 63%|██████▎   | 234608/371472 [7:38:18<10:10:30,  3.74it/s] 63%|██████▎   | 234609/371472 [7:38:19<10:24:20,  3.65it/s] 63%|██████▎   | 234610/371472 [7:38:19<10:19:15,  3.68it/s] 63%|██████▎   | 234611/371472 [7:38:19<10:59:37,  3.46it/s] 63%|██████▎   | 234612/371472 [7:38:19<10:27:24,  3.64it/s] 63%|██████▎   | 234613/371472 [7:38:20<10:20:29,  3.68it/s] 63%|██████▎   | 234614/371472 [7:38:20<10:52:56,  3.49it/s] 63%|██████▎   | 234615/371472 [7:38:20<10:46:48,  3.53it/s] 63%|██████▎   | 234616/371472 [7:38:21<10:25:31,  3.65it/s] 63%|██████▎   | 234617/371472 [7:38:21<10:26:05,  3.64it/s] 63%|██████▎   | 234618/371472 [7:38:21<10:37:47,  3.58it/s] 63%|██████▎   | 234619/371472 [7:38:21<10:11:40,  3.73it/s] 63%|██████▎   | 234620/371472 [7:38:22<10:09:26,  3.74it/s]                                                            {'loss': 3.0115, 'learning_rate': 4.317427654118813e-07, 'epoch': 10.11}
 63%|██████▎   | 234620/371472 [7:38:22<10:09:26,  3.74it/s] 63%|██████▎   | 234621/371472 [7:38:22<10:32:35,  3.61it/s] 63%|██████▎   | 234622/371472 [7:38:22<10:51:23,  3.50it/s] 63%|██████▎   | 234623/371472 [7:38:22<10:22:39,  3.66it/s] 63%|██████▎   | 234624/371472 [7:38:23<10:37:29,  3.58it/s] 63%|██████▎   | 234625/371472 [7:38:23<10:38:08,  3.57it/s] 63%|██████▎   | 234626/371472 [7:38:23<10:22:17,  3.67it/s] 63%|██████▎   | 234627/371472 [7:38:24<11:39:55,  3.26it/s] 63%|██████▎   | 234628/371472 [7:38:24<11:48:37,  3.22it/s] 63%|██████▎   | 234629/371472 [7:38:24<11:36:55,  3.27it/s] 63%|██████▎   | 234630/371472 [7:38:25<11:31:13,  3.30it/s] 63%|██████▎   | 234631/371472 [7:38:25<11:33:42,  3.29it/s] 63%|██████▎   | 234632/371472 [7:38:25<11:32:37,  3.29it/s] 63%|██████▎   | 234633/371472 [7:38:25<10:54:50,  3.48it/s] 63%|██████▎   | 234634/371472 [7:38:26<10:27:09,  3.64it/s] 63%|██████▎   | 234635/371472 [7:38:26<10:58:44,  3.46it/s] 63%|██████▎   | 234636/371472 [7:38:26<11:25:58,  3.32it/s] 63%|██████▎   | 234637/371472 [7:38:27<11:10:42,  3.40it/s] 63%|██████▎   | 234638/371472 [7:38:27<11:29:23,  3.31it/s] 63%|██████▎   | 234639/371472 [7:38:27<11:02:51,  3.44it/s] 63%|██████▎   | 234640/371472 [7:38:27<10:55:31,  3.48it/s]                                                            {'loss': 2.843, 'learning_rate': 4.316942834364024e-07, 'epoch': 10.11}
 63%|██████▎   | 234640/371472 [7:38:27<10:55:31,  3.48it/s] 63%|██████▎   | 234641/371472 [7:38:28<10:55:33,  3.48it/s] 63%|██████▎   | 234642/371472 [7:38:28<11:32:39,  3.29it/s] 63%|██████▎   | 234643/371472 [7:38:28<11:50:30,  3.21it/s] 63%|██████▎   | 234644/371472 [7:38:29<11:20:08,  3.35it/s] 63%|██████▎   | 234645/371472 [7:38:29<11:04:57,  3.43it/s] 63%|██████▎   | 234646/371472 [7:38:29<10:26:00,  3.64it/s] 63%|██████▎   | 234647/371472 [7:38:29<10:03:31,  3.78it/s] 63%|██████▎   | 234648/371472 [7:38:30<10:20:05,  3.68it/s] 63%|██████▎   | 234649/371472 [7:38:30<10:03:20,  3.78it/s] 63%|██████▎   | 234650/371472 [7:38:30<9:39:42,  3.93it/s]  63%|██████▎   | 234651/371472 [7:38:31<10:37:27,  3.58it/s] 63%|██████▎   | 234652/371472 [7:38:31<10:58:04,  3.47it/s] 63%|██████▎   | 234653/371472 [7:38:31<11:02:58,  3.44it/s] 63%|██████▎   | 234654/371472 [7:38:31<10:53:13,  3.49it/s] 63%|██████▎   | 234655/371472 [7:38:32<10:29:25,  3.62it/s] 63%|██████▎   | 234656/371472 [7:38:32<10:44:42,  3.54it/s] 63%|██████▎   | 234657/371472 [7:38:32<10:39:43,  3.56it/s] 63%|██████▎   | 234658/371472 [7:38:33<10:14:07,  3.71it/s] 63%|██████▎   | 234659/371472 [7:38:33<10:05:43,  3.76it/s] 63%|██████▎   | 234660/371472 [7:38:33<10:02:20,  3.79it/s]                                                            {'loss': 2.8304, 'learning_rate': 4.316458014609235e-07, 'epoch': 10.11}
 63%|██████▎   | 234660/371472 [7:38:33<10:02:20,  3.79it/s] 63%|██████▎   | 234661/371472 [7:38:33<10:11:56,  3.73it/s] 63%|██████▎   | 234662/371472 [7:38:34<10:56:12,  3.47it/s] 63%|██████▎   | 234663/371472 [7:38:34<11:20:09,  3.35it/s] 63%|██████▎   | 234664/371472 [7:38:34<10:49:33,  3.51it/s] 63%|██████▎   | 234665/371472 [7:38:34<10:24:06,  3.65it/s] 63%|██████▎   | 234666/371472 [7:38:35<10:09:17,  3.74it/s] 63%|██████▎   | 234667/371472 [7:38:35<10:06:08,  3.76it/s] 63%|██████▎   | 234668/371472 [7:38:35<9:53:51,  3.84it/s]  63%|██████▎   | 234669/371472 [7:38:36<10:00:14,  3.80it/s] 63%|██████▎   | 234670/371472 [7:38:36<10:04:52,  3.77it/s] 63%|██████▎   | 234671/371472 [7:38:36<9:48:48,  3.87it/s]  63%|██████▎   | 234672/371472 [7:38:36<10:03:16,  3.78it/s] 63%|██████▎   | 234673/371472 [7:38:37<10:08:32,  3.75it/s] 63%|██████▎   | 234674/371472 [7:38:37<10:54:03,  3.49it/s] 63%|██████▎   | 234675/371472 [7:38:37<10:45:17,  3.53it/s] 63%|██████▎   | 234676/371472 [7:38:37<10:55:45,  3.48it/s] 63%|██████▎   | 234677/371472 [7:38:38<10:26:38,  3.64it/s] 63%|██████▎   | 234678/371472 [7:38:38<10:04:51,  3.77it/s] 63%|██████▎   | 234679/371472 [7:38:38<11:07:03,  3.42it/s] 63%|██████▎   | 234680/371472 [7:38:39<10:59:40,  3.46it/s]                                                            {'loss': 3.1166, 'learning_rate': 4.315973194854446e-07, 'epoch': 10.11}
 63%|██████▎   | 234680/371472 [7:38:39<10:59:40,  3.46it/s] 63%|██████▎   | 234681/371472 [7:38:39<10:47:38,  3.52it/s] 63%|██████▎   | 234682/371472 [7:38:39<11:24:11,  3.33it/s] 63%|██████▎   | 234683/371472 [7:38:39<10:56:59,  3.47it/s] 63%|██████▎   | 234684/371472 [7:38:40<10:48:53,  3.51it/s] 63%|██████▎   | 234685/371472 [7:38:40<10:31:17,  3.61it/s] 63%|██████▎   | 234686/371472 [7:38:40<10:54:32,  3.48it/s] 63%|██████▎   | 234687/371472 [7:38:41<10:32:14,  3.61it/s] 63%|██████▎   | 234688/371472 [7:38:41<10:33:47,  3.60it/s] 63%|██████▎   | 234689/371472 [7:38:41<11:09:58,  3.40it/s] 63%|██████▎   | 234690/371472 [7:38:41<10:44:06,  3.54it/s] 63%|██████▎   | 234691/371472 [7:38:42<11:33:00,  3.29it/s] 63%|██████▎   | 234692/371472 [7:38:42<11:21:45,  3.34it/s] 63%|██████▎   | 234693/371472 [7:38:42<10:55:03,  3.48it/s] 63%|██████▎   | 234694/371472 [7:38:43<10:35:18,  3.59it/s] 63%|██████▎   | 234695/371472 [7:38:43<10:17:37,  3.69it/s] 63%|██████▎   | 234696/371472 [7:38:43<10:21:09,  3.67it/s] 63%|██████▎   | 234697/371472 [7:38:43<10:08:54,  3.74it/s] 63%|██████▎   | 234698/371472 [7:38:44<10:02:05,  3.79it/s] 63%|██████▎   | 234699/371472 [7:38:44<10:10:26,  3.73it/s] 63%|██████▎   | 234700/371472 [7:38:44<10:05:57,  3.76it/s]                                                            {'loss': 2.8839, 'learning_rate': 4.3154883750996575e-07, 'epoch': 10.11}
 63%|██████▎   | 234700/371472 [7:38:44<10:05:57,  3.76it/s] 63%|██████▎   | 234701/371472 [7:38:44<10:28:58,  3.62it/s] 63%|██████▎   | 234702/371472 [7:38:45<10:27:41,  3.63it/s] 63%|██████▎   | 234703/371472 [7:38:45<11:23:58,  3.33it/s] 63%|██████▎   | 234704/371472 [7:38:45<11:52:52,  3.20it/s] 63%|██████▎   | 234705/371472 [7:38:46<11:35:07,  3.28it/s] 63%|██████▎   | 234706/371472 [7:38:46<10:50:34,  3.50it/s] 63%|██████▎   | 234707/371472 [7:38:46<10:21:34,  3.67it/s] 63%|██████▎   | 234708/371472 [7:38:47<10:37:50,  3.57it/s] 63%|██████▎   | 234709/371472 [7:38:47<10:44:44,  3.54it/s] 63%|██████▎   | 234710/371472 [7:38:47<10:29:44,  3.62it/s] 63%|██████▎   | 234711/371472 [7:38:47<10:01:33,  3.79it/s] 63%|██████▎   | 234712/371472 [7:38:48<9:59:58,  3.80it/s]  63%|██████▎   | 234713/371472 [7:38:48<9:50:47,  3.86it/s] 63%|██████▎   | 234714/371472 [7:38:48<9:42:59,  3.91it/s] 63%|██████▎   | 234715/371472 [7:38:48<9:59:29,  3.80it/s] 63%|██████▎   | 234716/371472 [7:38:49<9:49:32,  3.87it/s] 63%|██████▎   | 234717/371472 [7:38:49<9:43:21,  3.91it/s] 63%|██████▎   | 234718/371472 [7:38:49<9:51:21,  3.85it/s] 63%|██████▎   | 234719/371472 [7:38:49<9:45:10,  3.89it/s] 63%|██████▎   | 234720/371472 [7:38:50<10:31:44,  3.61it/s]                                                            {'loss': 2.9041, 'learning_rate': 4.3150035553448677e-07, 'epoch': 10.11}
 63%|██████▎   | 234720/371472 [7:38:50<10:31:44,  3.61it/s] 63%|██████▎   | 234721/371472 [7:38:50<10:25:27,  3.64it/s] 63%|██████▎   | 234722/371472 [7:38:50<10:12:57,  3.72it/s] 63%|██████▎   | 234723/371472 [7:38:50<10:29:51,  3.62it/s] 63%|██████▎   | 234724/371472 [7:38:51<11:21:11,  3.35it/s] 63%|██████▎   | 234725/371472 [7:38:51<10:48:45,  3.51it/s] 63%|██████▎   | 234726/371472 [7:38:51<10:43:58,  3.54it/s] 63%|██████▎   | 234727/371472 [7:38:52<10:25:53,  3.64it/s] 63%|██████▎   | 234728/371472 [7:38:52<10:08:59,  3.74it/s] 63%|██████▎   | 234729/371472 [7:38:52<10:17:55,  3.69it/s] 63%|██████▎   | 234730/371472 [7:38:52<10:11:46,  3.73it/s] 63%|██████▎   | 234731/371472 [7:38:53<10:19:38,  3.68it/s] 63%|██████▎   | 234732/371472 [7:38:53<10:49:43,  3.51it/s] 63%|██████▎   | 234733/371472 [7:38:53<10:41:48,  3.55it/s] 63%|██████▎   | 234734/371472 [7:38:54<11:01:45,  3.44it/s] 63%|██████▎   | 234735/371472 [7:38:54<11:32:49,  3.29it/s] 63%|██████▎   | 234736/371472 [7:38:54<11:13:02,  3.39it/s] 63%|██████▎   | 234737/371472 [7:38:54<10:47:54,  3.52it/s] 63%|██████▎   | 234738/371472 [7:38:55<10:32:51,  3.60it/s] 63%|██████▎   | 234739/371472 [7:38:55<10:39:53,  3.56it/s] 63%|██████▎   | 234740/371472 [7:38:55<10:16:18,  3.70it/s]                                                            {'loss': 2.7842, 'learning_rate': 4.3145187355900795e-07, 'epoch': 10.11}
 63%|██████▎   | 234740/371472 [7:38:55<10:16:18,  3.70it/s] 63%|██████▎   | 234741/371472 [7:38:56<9:58:56,  3.80it/s]  63%|██████▎   | 234742/371472 [7:38:56<11:45:34,  3.23it/s] 63%|██████▎   | 234743/371472 [7:38:56<11:00:38,  3.45it/s] 63%|██████▎   | 234744/371472 [7:38:57<11:42:17,  3.24it/s] 63%|██████▎   | 234745/371472 [7:38:57<11:56:28,  3.18it/s] 63%|██████▎   | 234746/371472 [7:38:57<11:43:16,  3.24it/s] 63%|██████▎   | 234747/371472 [7:38:57<11:22:05,  3.34it/s] 63%|██████▎   | 234748/371472 [7:38:58<11:06:09,  3.42it/s] 63%|██████▎   | 234749/371472 [7:38:58<11:52:42,  3.20it/s] 63%|██████▎   | 234750/371472 [7:38:58<11:06:35,  3.42it/s] 63%|██████▎   | 234751/371472 [7:38:59<12:19:55,  3.08it/s] 63%|██████▎   | 234752/371472 [7:38:59<11:53:18,  3.19it/s] 63%|██████▎   | 234753/371472 [7:38:59<11:10:06,  3.40it/s] 63%|██████▎   | 234754/371472 [7:39:00<11:24:02,  3.33it/s] 63%|██████▎   | 234755/371472 [7:39:00<10:45:44,  3.53it/s] 63%|██████▎   | 234756/371472 [7:39:00<10:26:21,  3.64it/s] 63%|██████▎   | 234757/371472 [7:39:00<10:33:06,  3.60it/s] 63%|██████▎   | 234758/371472 [7:39:01<10:19:48,  3.68it/s] 63%|██████▎   | 234759/371472 [7:39:01<10:53:01,  3.49it/s] 63%|██████▎   | 234760/371472 [7:39:01<10:36:31,  3.58it/s]                                                            {'loss': 2.9759, 'learning_rate': 4.31403391583529e-07, 'epoch': 10.11}
 63%|██████▎   | 234760/371472 [7:39:01<10:36:31,  3.58it/s] 63%|██████▎   | 234761/371472 [7:39:02<11:02:42,  3.44it/s] 63%|██████▎   | 234762/371472 [7:39:02<10:46:49,  3.52it/s] 63%|██████▎   | 234763/371472 [7:39:02<10:50:50,  3.50it/s] 63%|██████▎   | 234764/371472 [7:39:02<10:27:12,  3.63it/s] 63%|██████▎   | 234765/371472 [7:39:03<10:28:53,  3.62it/s] 63%|██████▎   | 234766/371472 [7:39:03<10:05:51,  3.76it/s] 63%|██████▎   | 234767/371472 [7:39:03<10:24:22,  3.65it/s] 63%|██████▎   | 234768/371472 [7:39:03<10:49:36,  3.51it/s] 63%|██████▎   | 234769/371472 [7:39:04<10:45:56,  3.53it/s] 63%|██████▎   | 234770/371472 [7:39:04<10:31:47,  3.61it/s] 63%|██████▎   | 234771/371472 [7:39:04<10:29:37,  3.62it/s] 63%|██████▎   | 234772/371472 [7:39:05<10:48:30,  3.51it/s] 63%|██████▎   | 234773/371472 [7:39:05<10:31:35,  3.61it/s] 63%|██████▎   | 234774/371472 [7:39:05<10:44:10,  3.54it/s] 63%|██████▎   | 234775/371472 [7:39:05<10:21:44,  3.66it/s] 63%|██████▎   | 234776/371472 [7:39:06<11:07:56,  3.41it/s] 63%|██████▎   | 234777/371472 [7:39:06<10:46:27,  3.52it/s] 63%|██████▎   | 234778/371472 [7:39:06<10:36:49,  3.58it/s] 63%|██████▎   | 234779/371472 [7:39:07<10:52:29,  3.49it/s] 63%|██████▎   | 234780/371472 [7:39:07<11:06:18,  3.42it/s]                                                            {'loss': 2.8695, 'learning_rate': 4.3135490960805015e-07, 'epoch': 10.11}
 63%|██████▎   | 234780/371472 [7:39:07<11:06:18,  3.42it/s] 63%|██████▎   | 234781/371472 [7:39:07<10:51:55,  3.49it/s] 63%|██████▎   | 234782/371472 [7:39:07<10:51:20,  3.50it/s] 63%|██████▎   | 234783/371472 [7:39:08<10:58:51,  3.46it/s] 63%|██████▎   | 234784/371472 [7:39:08<11:10:49,  3.40it/s] 63%|██████▎   | 234785/371472 [7:39:08<10:58:29,  3.46it/s] 63%|██████▎   | 234786/371472 [7:39:09<10:42:29,  3.55it/s] 63%|██████▎   | 234787/371472 [7:39:09<10:18:07,  3.69it/s] 63%|██████▎   | 234788/371472 [7:39:09<10:28:42,  3.62it/s] 63%|██████▎   | 234789/371472 [7:39:09<10:15:41,  3.70it/s] 63%|██████▎   | 234790/371472 [7:39:10<11:59:45,  3.16it/s] 63%|██████▎   | 234791/371472 [7:39:10<11:22:58,  3.34it/s] 63%|██████▎   | 234792/371472 [7:39:10<10:51:41,  3.50it/s] 63%|██████▎   | 234793/371472 [7:39:11<10:46:23,  3.52it/s] 63%|██████▎   | 234794/371472 [7:39:11<10:53:16,  3.49it/s] 63%|██████▎   | 234795/371472 [7:39:11<11:59:29,  3.17it/s] 63%|██████▎   | 234796/371472 [7:39:12<11:29:59,  3.30it/s] 63%|██████▎   | 234797/371472 [7:39:12<11:24:55,  3.33it/s] 63%|██████▎   | 234798/371472 [7:39:12<10:46:30,  3.52it/s] 63%|██████▎   | 234799/371472 [7:39:12<10:30:44,  3.61it/s] 63%|██████▎   | 234800/371472 [7:39:13<10:09:34,  3.74it/s]                                                            {'loss': 2.9111, 'learning_rate': 4.3130642763257116e-07, 'epoch': 10.11}
 63%|██████▎   | 234800/371472 [7:39:13<10:09:34,  3.74it/s] 63%|██████▎   | 234801/371472 [7:39:13<10:14:25,  3.71it/s] 63%|██████▎   | 234802/371472 [7:39:13<10:07:40,  3.75it/s] 63%|██████▎   | 234803/371472 [7:39:13<10:45:22,  3.53it/s] 63%|██████▎   | 234804/371472 [7:39:14<10:30:25,  3.61it/s] 63%|██████▎   | 234805/371472 [7:39:14<11:01:42,  3.44it/s] 63%|██████▎   | 234806/371472 [7:39:14<10:44:47,  3.53it/s] 63%|██████▎   | 234807/371472 [7:39:15<10:38:03,  3.57it/s] 63%|██████▎   | 234808/371472 [7:39:15<10:41:05,  3.55it/s] 63%|██████▎   | 234809/371472 [7:39:15<10:51:04,  3.50it/s] 63%|██████▎   | 234810/371472 [7:39:15<11:31:44,  3.29it/s] 63%|██████▎   | 234811/371472 [7:39:16<11:31:09,  3.30it/s] 63%|██████▎   | 234812/371472 [7:39:16<10:55:53,  3.47it/s] 63%|██████▎   | 234813/371472 [7:39:16<10:40:21,  3.56it/s] 63%|██████▎   | 234814/371472 [7:39:17<11:02:06,  3.44it/s] 63%|██████▎   | 234815/371472 [7:39:17<11:24:22,  3.33it/s] 63%|██████▎   | 234816/371472 [7:39:17<10:49:44,  3.51it/s] 63%|██████▎   | 234817/371472 [7:39:17<10:57:15,  3.47it/s] 63%|██████▎   | 234818/371472 [7:39:18<10:43:26,  3.54it/s] 63%|██████▎   | 234819/371472 [7:39:18<10:48:46,  3.51it/s] 63%|██████▎   | 234820/371472 [7:39:18<10:18:25,  3.68it/s]                                                            {'loss': 2.7276, 'learning_rate': 4.312579456570924e-07, 'epoch': 10.11}
 63%|██████▎   | 234820/371472 [7:39:18<10:18:25,  3.68it/s] 63%|██████▎   | 234821/371472 [7:39:19<10:03:49,  3.77it/s] 63%|██████▎   | 234822/371472 [7:39:19<9:52:53,  3.84it/s]  63%|██████▎   | 234823/371472 [7:39:19<10:14:24,  3.71it/s] 63%|██████▎   | 234824/371472 [7:39:19<10:38:26,  3.57it/s] 63%|██████▎   | 234825/371472 [7:39:20<10:36:42,  3.58it/s] 63%|██████▎   | 234826/371472 [7:39:20<10:40:32,  3.56it/s] 63%|██████▎   | 234827/371472 [7:39:20<10:43:02,  3.54it/s] 63%|██████▎   | 234828/371472 [7:39:20<10:39:30,  3.56it/s] 63%|██████▎   | 234829/371472 [7:39:21<10:58:19,  3.46it/s] 63%|██████▎   | 234830/371472 [7:39:21<11:10:00,  3.40it/s] 63%|██████▎   | 234831/371472 [7:39:21<10:41:00,  3.55it/s] 63%|██████▎   | 234832/371472 [7:39:22<10:22:34,  3.66it/s] 63%|██████▎   | 234833/371472 [7:39:22<10:15:52,  3.70it/s] 63%|██████▎   | 234834/371472 [7:39:22<10:59:34,  3.45it/s] 63%|██████▎   | 234835/371472 [7:39:22<10:31:21,  3.61it/s] 63%|██████▎   | 234836/371472 [7:39:23<10:09:29,  3.74it/s] 63%|██████▎   | 234837/371472 [7:39:23<10:49:34,  3.51it/s] 63%|██████▎   | 234838/371472 [7:39:23<11:26:45,  3.32it/s] 63%|██████▎   | 234839/371472 [7:39:24<11:36:33,  3.27it/s] 63%|██████▎   | 234840/371472 [7:39:24<11:11:09,  3.39it/s]                                                            {'loss': 3.0737, 'learning_rate': 4.312094636816134e-07, 'epoch': 10.12}
 63%|██████▎   | 234840/371472 [7:39:24<11:11:09,  3.39it/s] 63%|██████▎   | 234841/371472 [7:39:24<11:19:35,  3.35it/s] 63%|██████▎   | 234842/371472 [7:39:25<12:03:26,  3.15it/s] 63%|██████▎   | 234843/371472 [7:39:25<11:39:18,  3.26it/s] 63%|██████▎   | 234844/371472 [7:39:25<13:27:51,  2.82it/s] 63%|██████▎   | 234845/371472 [7:39:26<12:17:56,  3.09it/s] 63%|██████▎   | 234846/371472 [7:39:26<11:55:01,  3.18it/s] 63%|██████▎   | 234847/371472 [7:39:26<11:32:54,  3.29it/s] 63%|██████▎   | 234848/371472 [7:39:26<11:31:42,  3.29it/s] 63%|██████▎   | 234849/371472 [7:39:27<11:22:12,  3.34it/s] 63%|██████▎   | 234850/371472 [7:39:27<11:36:38,  3.27it/s] 63%|██████▎   | 234851/371472 [7:39:27<11:29:04,  3.30it/s] 63%|██████▎   | 234852/371472 [7:39:28<11:51:33,  3.20it/s] 63%|██████▎   | 234853/371472 [7:39:28<12:07:10,  3.13it/s] 63%|██████▎   | 234854/371472 [7:39:28<11:26:30,  3.32it/s] 63%|██████▎   | 234855/371472 [7:39:29<11:29:24,  3.30it/s] 63%|██████▎   | 234856/371472 [7:39:29<11:26:51,  3.31it/s] 63%|██████▎   | 234857/371472 [7:39:29<10:48:47,  3.51it/s] 63%|██████▎   | 234858/371472 [7:39:29<10:36:33,  3.58it/s] 63%|██████▎   | 234859/371472 [7:39:30<11:37:06,  3.27it/s] 63%|██████▎   | 234860/371472 [7:39:30<11:24:27,  3.33it/s]                                                            {'loss': 2.8991, 'learning_rate': 4.311609817061346e-07, 'epoch': 10.12}
 63%|██████▎   | 234860/371472 [7:39:30<11:24:27,  3.33it/s] 63%|██████▎   | 234861/371472 [7:39:30<11:07:59,  3.41it/s] 63%|██████▎   | 234862/371472 [7:39:31<10:37:02,  3.57it/s] 63%|██████▎   | 234863/371472 [7:39:31<10:25:43,  3.64it/s] 63%|██████▎   | 234864/371472 [7:39:31<10:33:30,  3.59it/s] 63%|██████▎   | 234865/371472 [7:39:31<10:28:20,  3.62it/s] 63%|██████▎   | 234866/371472 [7:39:32<11:22:33,  3.34it/s] 63%|██████▎   | 234867/371472 [7:39:32<10:57:22,  3.46it/s] 63%|██████▎   | 234868/371472 [7:39:32<10:38:59,  3.56it/s] 63%|██████▎   | 234869/371472 [7:39:33<10:09:30,  3.74it/s] 63%|██████▎   | 234870/371472 [7:39:33<10:03:03,  3.78it/s] 63%|██████▎   | 234871/371472 [7:39:33<10:26:53,  3.63it/s] 63%|██████▎   | 234872/371472 [7:39:33<10:11:53,  3.72it/s] 63%|██████▎   | 234873/371472 [7:39:34<10:03:11,  3.77it/s] 63%|██████▎   | 234874/371472 [7:39:34<10:05:51,  3.76it/s] 63%|██████▎   | 234875/371472 [7:39:34<10:01:51,  3.78it/s] 63%|██████▎   | 234876/371472 [7:39:34<9:50:29,  3.86it/s]  63%|██████▎   | 234877/371472 [7:39:35<9:38:11,  3.94it/s] 63%|██████▎   | 234878/371472 [7:39:35<9:38:00,  3.94it/s] 63%|██████▎   | 234879/371472 [7:39:35<10:00:06,  3.79it/s] 63%|██████▎   | 234880/371472 [7:39:35<9:55:44,  3.82it/s]                                                            {'loss': 2.9442, 'learning_rate': 4.3111249973065566e-07, 'epoch': 10.12}
 63%|██████▎   | 234880/371472 [7:39:35<9:55:44,  3.82it/s] 63%|██████▎   | 234881/371472 [7:39:36<10:24:08,  3.65it/s] 63%|██████▎   | 234882/371472 [7:39:36<10:25:31,  3.64it/s] 63%|██████▎   | 234883/371472 [7:39:36<10:33:43,  3.59it/s] 63%|██████▎   | 234884/371472 [7:39:37<10:27:35,  3.63it/s] 63%|██████▎   | 234885/371472 [7:39:37<10:33:19,  3.59it/s] 63%|██████▎   | 234886/371472 [7:39:37<10:20:31,  3.67it/s] 63%|██████▎   | 234887/371472 [7:39:37<11:04:49,  3.42it/s] 63%|██████▎   | 234888/371472 [7:39:38<10:37:43,  3.57it/s] 63%|██████▎   | 234889/371472 [7:39:38<10:24:52,  3.64it/s] 63%|██████▎   | 234890/371472 [7:39:38<10:54:26,  3.48it/s] 63%|██████▎   | 234891/371472 [7:39:39<10:33:08,  3.60it/s] 63%|██████▎   | 234892/371472 [7:39:39<10:45:41,  3.53it/s] 63%|██████▎   | 234893/371472 [7:39:39<10:25:31,  3.64it/s] 63%|██████▎   | 234894/371472 [7:39:39<10:38:45,  3.56it/s] 63%|██████▎   | 234895/371472 [7:39:40<11:26:26,  3.32it/s] 63%|██████▎   | 234896/371472 [7:39:40<11:12:24,  3.39it/s] 63%|██████▎   | 234897/371472 [7:39:40<11:01:21,  3.44it/s] 63%|██████▎   | 234898/371472 [7:39:41<11:57:52,  3.17it/s] 63%|██████▎   | 234899/371472 [7:39:41<12:07:24,  3.13it/s] 63%|██████▎   | 234900/371472 [7:39:41<11:40:17,  3.25it/s]                                                            {'loss': 2.9239, 'learning_rate': 4.310640177551768e-07, 'epoch': 10.12}
 63%|██████▎   | 234900/371472 [7:39:41<11:40:17,  3.25it/s] 63%|██████▎   | 234901/371472 [7:39:42<11:13:07,  3.38it/s] 63%|██████▎   | 234902/371472 [7:39:42<12:02:27,  3.15it/s] 63%|██████▎   | 234903/371472 [7:39:42<11:14:56,  3.37it/s] 63%|██████▎   | 234904/371472 [7:39:42<10:46:44,  3.52it/s] 63%|██████▎   | 234905/371472 [7:39:43<10:21:43,  3.66it/s] 63%|██████▎   | 234906/371472 [7:39:43<10:13:02,  3.71it/s] 63%|██████▎   | 234907/371472 [7:39:43<10:09:52,  3.73it/s] 63%|██████▎   | 234908/371472 [7:39:44<10:44:57,  3.53it/s] 63%|██████▎   | 234909/371472 [7:39:44<10:36:21,  3.58it/s] 63%|██████▎   | 234910/371472 [7:39:44<10:25:55,  3.64it/s] 63%|██████▎   | 234911/371472 [7:39:44<10:12:47,  3.71it/s] 63%|██████▎   | 234912/371472 [7:39:45<11:02:58,  3.43it/s] 63%|██████▎   | 234913/371472 [7:39:45<10:47:33,  3.51it/s] 63%|██████▎   | 234914/371472 [7:39:45<10:50:10,  3.50it/s] 63%|██████▎   | 234915/371472 [7:39:45<10:19:55,  3.67it/s] 63%|██████▎   | 234916/371472 [7:39:46<10:17:12,  3.69it/s] 63%|██████▎   | 234917/371472 [7:39:46<10:38:07,  3.57it/s] 63%|██████▎   | 234918/371472 [7:39:46<11:09:30,  3.40it/s] 63%|██████▎   | 234919/371472 [7:39:47<11:05:21,  3.42it/s] 63%|██████▎   | 234920/371472 [7:39:47<11:48:04,  3.21it/s]                                                            {'loss': 2.76, 'learning_rate': 4.3101553577969786e-07, 'epoch': 10.12}
 63%|██████▎   | 234920/371472 [7:39:47<11:48:04,  3.21it/s] 63%|██████▎   | 234921/371472 [7:39:47<12:05:24,  3.14it/s] 63%|██████▎   | 234922/371472 [7:39:48<11:26:33,  3.31it/s] 63%|██████▎   | 234923/371472 [7:39:48<11:04:32,  3.42it/s] 63%|██████▎   | 234924/371472 [7:39:48<11:20:26,  3.34it/s] 63%|██████▎   | 234925/371472 [7:39:48<10:58:40,  3.46it/s] 63%|██████▎   | 234926/371472 [7:39:49<11:01:19,  3.44it/s] 63%|██████▎   | 234927/371472 [7:39:49<11:01:41,  3.44it/s] 63%|██████▎   | 234928/371472 [7:39:49<10:42:57,  3.54it/s] 63%|██████▎   | 234929/371472 [7:39:50<10:22:52,  3.65it/s] 63%|██████▎   | 234930/371472 [7:39:50<10:34:52,  3.58it/s] 63%|██████▎   | 234931/371472 [7:39:50<10:17:39,  3.68it/s] 63%|██████▎   | 234932/371472 [7:39:50<11:24:45,  3.32it/s] 63%|██████▎   | 234933/371472 [7:39:51<11:04:15,  3.43it/s] 63%|██████▎   | 234934/371472 [7:39:51<10:52:07,  3.49it/s] 63%|██████▎   | 234935/371472 [7:39:51<10:58:21,  3.46it/s] 63%|██████▎   | 234936/371472 [7:39:52<10:42:19,  3.54it/s] 63%|██████▎   | 234937/371472 [7:39:52<10:31:29,  3.60it/s] 63%|██████▎   | 234938/371472 [7:39:52<10:17:32,  3.68it/s] 63%|██████▎   | 234939/371472 [7:39:52<11:23:08,  3.33it/s] 63%|██████▎   | 234940/371472 [7:39:53<11:14:49,  3.37it/s]                                                            {'loss': 2.7535, 'learning_rate': 4.3096705380421904e-07, 'epoch': 10.12}
 63%|██████▎   | 234940/371472 [7:39:53<11:14:49,  3.37it/s] 63%|██████▎   | 234941/371472 [7:39:53<10:56:39,  3.47it/s] 63%|██████▎   | 234942/371472 [7:39:53<10:46:17,  3.52it/s] 63%|██████▎   | 234943/371472 [7:39:54<10:24:33,  3.64it/s] 63%|██████▎   | 234944/371472 [7:39:54<11:33:43,  3.28it/s] 63%|██████▎   | 234945/371472 [7:39:54<11:05:18,  3.42it/s] 63%|██████▎   | 234946/371472 [7:39:54<10:57:47,  3.46it/s] 63%|██████▎   | 234947/371472 [7:39:55<10:47:44,  3.51it/s] 63%|██████▎   | 234948/371472 [7:39:55<10:37:34,  3.57it/s] 63%|██████▎   | 234949/371472 [7:39:55<10:18:53,  3.68it/s] 63%|██████▎   | 234950/371472 [7:39:56<10:30:18,  3.61it/s] 63%|██████▎   | 234951/371472 [7:39:56<10:38:40,  3.56it/s] 63%|██████▎   | 234952/371472 [7:39:56<10:43:34,  3.54it/s] 63%|██████▎   | 234953/371472 [7:39:56<10:56:57,  3.46it/s] 63%|██████▎   | 234954/371472 [7:39:57<11:05:17,  3.42it/s] 63%|██████▎   | 234955/371472 [7:39:57<10:33:49,  3.59it/s] 63%|██████▎   | 234956/371472 [7:39:57<10:18:51,  3.68it/s] 63%|██████▎   | 234957/371472 [7:39:57<10:05:26,  3.76it/s] 63%|██████▎   | 234958/371472 [7:39:58<10:12:48,  3.71it/s] 63%|██████▎   | 234959/371472 [7:39:58<10:23:17,  3.65it/s] 63%|██████▎   | 234960/371472 [7:39:58<10:17:45,  3.68it/s]                                                            {'loss': 3.058, 'learning_rate': 4.309185718287401e-07, 'epoch': 10.12}
 63%|██████▎   | 234960/371472 [7:39:58<10:17:45,  3.68it/s] 63%|██████▎   | 234961/371472 [7:39:59<10:51:38,  3.49it/s] 63%|██████▎   | 234962/371472 [7:39:59<10:46:09,  3.52it/s] 63%|██████▎   | 234963/371472 [7:39:59<11:03:08,  3.43it/s] 63%|██████▎   | 234964/371472 [7:39:59<10:35:34,  3.58it/s] 63%|██████▎   | 234965/371472 [7:40:00<10:31:11,  3.60it/s] 63%|██████▎   | 234966/371472 [7:40:00<10:26:59,  3.63it/s] 63%|██████▎   | 234967/371472 [7:40:00<10:32:05,  3.60it/s] 63%|██████▎   | 234968/371472 [7:40:01<10:38:32,  3.56it/s] 63%|██████▎   | 234969/371472 [7:40:01<10:43:53,  3.53it/s] 63%|██████▎   | 234970/371472 [7:40:01<10:49:39,  3.50it/s] 63%|██████▎   | 234971/371472 [7:40:01<10:42:35,  3.54it/s] 63%|██████▎   | 234972/371472 [7:40:02<10:32:14,  3.60it/s] 63%|██████▎   | 234973/371472 [7:40:02<10:18:09,  3.68it/s] 63%|██████▎   | 234974/371472 [7:40:02<10:23:16,  3.65it/s] 63%|██████▎   | 234975/371472 [7:40:02<10:11:07,  3.72it/s] 63%|██████▎   | 234976/371472 [7:40:03<11:08:03,  3.41it/s] 63%|██████▎   | 234977/371472 [7:40:03<11:18:08,  3.35it/s] 63%|██████▎   | 234978/371472 [7:40:03<10:44:02,  3.53it/s] 63%|██████▎   | 234979/371472 [7:40:04<10:30:51,  3.61it/s] 63%|██████▎   | 234980/371472 [7:40:04<10:22:06,  3.66it/s]                                                            {'loss': 2.7691, 'learning_rate': 4.3087008985326123e-07, 'epoch': 10.12}
 63%|██████▎   | 234980/371472 [7:40:04<10:22:06,  3.66it/s] 63%|██████▎   | 234981/371472 [7:40:04<10:00:45,  3.79it/s] 63%|██████▎   | 234982/371472 [7:40:04<10:11:08,  3.72it/s] 63%|██████▎   | 234983/371472 [7:40:05<10:30:45,  3.61it/s] 63%|██████▎   | 234984/371472 [7:40:05<10:41:25,  3.55it/s] 63%|██████▎   | 234985/371472 [7:40:05<10:54:59,  3.47it/s] 63%|██████▎   | 234986/371472 [7:40:06<10:33:44,  3.59it/s] 63%|██████▎   | 234987/371472 [7:40:06<10:19:09,  3.67it/s] 63%|██████▎   | 234988/371472 [7:40:06<10:20:37,  3.67it/s] 63%|██████▎   | 234989/371472 [7:40:06<10:03:35,  3.77it/s] 63%|██████▎   | 234990/371472 [7:40:07<9:43:45,  3.90it/s]  63%|██████▎   | 234991/371472 [7:40:07<10:24:26,  3.64it/s] 63%|██████▎   | 234992/371472 [7:40:07<11:28:24,  3.30it/s] 63%|██████▎   | 234993/371472 [7:40:08<11:07:58,  3.41it/s] 63%|██████▎   | 234994/371472 [7:40:08<11:05:35,  3.42it/s] 63%|██████▎   | 234995/371472 [7:40:08<10:59:20,  3.45it/s] 63%|██████▎   | 234996/371472 [7:40:08<10:58:38,  3.45it/s] 63%|██████▎   | 234997/371472 [7:40:09<10:50:22,  3.50it/s] 63%|██████▎   | 234998/371472 [7:40:09<10:34:47,  3.58it/s] 63%|██████▎   | 234999/371472 [7:40:09<10:19:52,  3.67it/s] 63%|██████▎   | 235000/371472 [7:40:10<11:05:30,  3.42it/s]                                                            {'loss': 3.0156, 'learning_rate': 4.308216078777823e-07, 'epoch': 10.12}
 63%|██████▎   | 235000/371472 [7:40:10<11:05:30,  3.42it/s] 63%|██████▎   | 235001/371472 [7:40:10<10:47:32,  3.51it/s] 63%|██████▎   | 235002/371472 [7:40:10<10:55:56,  3.47it/s] 63%|██████▎   | 235003/371472 [7:40:10<10:52:20,  3.49it/s] 63%|██████▎   | 235004/371472 [7:40:11<10:40:10,  3.55it/s] 63%|██████▎   | 235005/371472 [7:40:11<10:54:47,  3.47it/s] 63%|██████▎   | 235006/371472 [7:40:11<10:33:46,  3.59it/s] 63%|██████▎   | 235007/371472 [7:40:12<10:26:15,  3.63it/s] 63%|██████▎   | 235008/371472 [7:40:12<10:03:33,  3.77it/s] 63%|██████▎   | 235009/371472 [7:40:12<10:04:20,  3.76it/s] 63%|██████▎   | 235010/371472 [7:40:12<9:58:24,  3.80it/s]  63%|██████▎   | 235011/371472 [7:40:13<10:22:42,  3.65it/s] 63%|██████▎   | 235012/371472 [7:40:13<10:13:33,  3.71it/s] 63%|██████▎   | 235013/371472 [7:40:13<10:24:40,  3.64it/s] 63%|██████▎   | 235014/371472 [7:40:13<10:44:44,  3.53it/s] 63%|██████▎   | 235015/371472 [7:40:14<10:41:06,  3.55it/s] 63%|██████▎   | 235016/371472 [7:40:14<10:21:06,  3.66it/s] 63%|██████▎   | 235017/371472 [7:40:14<10:04:33,  3.76it/s] 63%|██████▎   | 235018/371472 [7:40:15<10:28:47,  3.62it/s] 63%|██████▎   | 235019/371472 [7:40:15<10:50:22,  3.50it/s] 63%|██████▎   | 235020/371472 [7:40:15<10:52:30,  3.49it/s]                                                            {'loss': 2.8453, 'learning_rate': 4.307731259023035e-07, 'epoch': 10.12}
 63%|██████▎   | 235020/371472 [7:40:15<10:52:30,  3.49it/s] 63%|██████▎   | 235021/371472 [7:40:15<10:32:21,  3.60it/s] 63%|██████▎   | 235022/371472 [7:40:16<11:26:36,  3.31it/s] 63%|██████▎   | 235023/371472 [7:40:16<11:07:16,  3.41it/s] 63%|██████▎   | 235024/371472 [7:40:16<10:51:25,  3.49it/s] 63%|██████▎   | 235025/371472 [7:40:17<10:58:37,  3.45it/s] 63%|██████▎   | 235026/371472 [7:40:17<10:47:47,  3.51it/s] 63%|██████▎   | 235027/371472 [7:40:17<11:32:42,  3.28it/s] 63%|██████▎   | 235028/371472 [7:40:17<11:17:14,  3.36it/s] 63%|██████▎   | 235029/371472 [7:40:18<10:49:43,  3.50it/s] 63%|██████▎   | 235030/371472 [7:40:18<10:43:30,  3.53it/s] 63%|██████▎   | 235031/371472 [7:40:18<10:30:13,  3.61it/s] 63%|██████▎   | 235032/371472 [7:40:19<10:19:36,  3.67it/s] 63%|██████▎   | 235033/371472 [7:40:19<10:02:58,  3.77it/s] 63%|██████▎   | 235034/371472 [7:40:19<10:08:03,  3.74it/s] 63%|██████▎   | 235035/371472 [7:40:19<9:59:09,  3.80it/s]  63%|██████▎   | 235036/371472 [7:40:20<11:36:12,  3.27it/s] 63%|██████▎   | 235037/371472 [7:40:20<11:30:26,  3.29it/s] 63%|██████▎   | 235038/371472 [7:40:20<11:35:15,  3.27it/s] 63%|██████▎   | 235039/371472 [7:40:21<11:30:11,  3.29it/s] 63%|██████▎   | 235040/371472 [7:40:21<11:29:18,  3.30it/s]                                                            {'loss': 2.8668, 'learning_rate': 4.307246439268245e-07, 'epoch': 10.12}
 63%|██████▎   | 235040/371472 [7:40:21<11:29:18,  3.30it/s] 63%|██████▎   | 235041/371472 [7:40:21<11:48:59,  3.21it/s] 63%|██████▎   | 235042/371472 [7:40:22<11:20:39,  3.34it/s] 63%|██████▎   | 235043/371472 [7:40:22<10:38:53,  3.56it/s] 63%|██████▎   | 235044/371472 [7:40:22<10:58:37,  3.45it/s] 63%|██████▎   | 235045/371472 [7:40:22<11:33:20,  3.28it/s] 63%|██████▎   | 235046/371472 [7:40:23<11:11:27,  3.39it/s] 63%|██████▎   | 235047/371472 [7:40:23<12:16:12,  3.09it/s] 63%|██████▎   | 235048/371472 [7:40:23<11:16:12,  3.36it/s] 63%|██████▎   | 235049/371472 [7:40:24<11:05:35,  3.42it/s] 63%|██████▎   | 235050/371472 [7:40:24<10:58:19,  3.45it/s] 63%|██████▎   | 235051/371472 [7:40:24<10:43:59,  3.53it/s] 63%|██████▎   | 235052/371472 [7:40:24<10:43:24,  3.53it/s] 63%|██████▎   | 235053/371472 [7:40:25<11:39:28,  3.25it/s] 63%|██████▎   | 235054/371472 [7:40:25<11:01:42,  3.44it/s] 63%|██████▎   | 235055/371472 [7:40:25<10:48:44,  3.50it/s] 63%|██████▎   | 235056/371472 [7:40:26<10:45:35,  3.52it/s] 63%|██████▎   | 235057/371472 [7:40:26<10:51:32,  3.49it/s] 63%|██████▎   | 235058/371472 [7:40:26<11:33:56,  3.28it/s] 63%|██████▎   | 235059/371472 [7:40:26<10:57:53,  3.46it/s] 63%|██████▎   | 235060/371472 [7:40:27<10:29:15,  3.61it/s]                                                            {'loss': 2.7903, 'learning_rate': 4.306761619513457e-07, 'epoch': 10.12}
 63%|██████▎   | 235060/371472 [7:40:27<10:29:15,  3.61it/s] 63%|██████▎   | 235061/371472 [7:40:27<10:29:17,  3.61it/s] 63%|██████▎   | 235062/371472 [7:40:27<10:38:56,  3.56it/s] 63%|██████▎   | 235063/371472 [7:40:28<10:38:53,  3.56it/s] 63%|██████▎   | 235064/371472 [7:40:28<10:56:19,  3.46it/s] 63%|██████▎   | 235065/371472 [7:40:28<10:50:22,  3.50it/s] 63%|██████▎   | 235066/371472 [7:40:28<10:46:36,  3.52it/s] 63%|██████▎   | 235067/371472 [7:40:29<10:53:16,  3.48it/s] 63%|██████▎   | 235068/371472 [7:40:29<11:34:28,  3.27it/s] 63%|██████▎   | 235069/371472 [7:40:29<10:56:10,  3.46it/s] 63%|██████▎   | 235070/371472 [7:40:30<11:30:04,  3.29it/s] 63%|██████▎   | 235071/371472 [7:40:30<11:09:29,  3.40it/s] 63%|██████▎   | 235072/371472 [7:40:30<10:34:20,  3.58it/s] 63%|██████▎   | 235073/371472 [7:40:30<10:21:58,  3.65it/s] 63%|██████▎   | 235074/371472 [7:40:31<10:12:04,  3.71it/s] 63%|██████▎   | 235075/371472 [7:40:31<9:53:07,  3.83it/s]  63%|██████▎   | 235076/371472 [7:40:31<10:01:01,  3.78it/s] 63%|██████▎   | 235077/371472 [7:40:32<10:09:19,  3.73it/s] 63%|██████▎   | 235078/371472 [7:40:32<10:09:02,  3.73it/s] 63%|██████▎   | 235079/371472 [7:40:32<9:58:09,  3.80it/s]  63%|██████▎   | 235080/371472 [7:40:32<9:56:44,  3.81it/s]                                                           {'loss': 2.9745, 'learning_rate': 4.3062767997586675e-07, 'epoch': 10.13}
 63%|██████▎   | 235080/371472 [7:40:32<9:56:44,  3.81it/s] 63%|██████▎   | 235081/371472 [7:40:33<10:02:46,  3.77it/s] 63%|██████▎   | 235082/371472 [7:40:33<10:24:45,  3.64it/s] 63%|██████▎   | 235083/371472 [7:40:33<11:20:28,  3.34it/s] 63%|██████▎   | 235084/371472 [7:40:34<11:08:29,  3.40it/s] 63%|██████▎   | 235085/371472 [7:40:34<10:47:38,  3.51it/s] 63%|██████▎   | 235086/371472 [7:40:34<11:22:22,  3.33it/s] 63%|██████▎   | 235087/371472 [7:40:34<10:52:13,  3.49it/s] 63%|██████▎   | 235088/371472 [7:40:35<11:05:13,  3.42it/s] 63%|██████▎   | 235089/371472 [7:40:35<11:02:49,  3.43it/s] 63%|██████▎   | 235090/371472 [7:40:35<10:59:31,  3.45it/s] 63%|██████▎   | 235091/371472 [7:40:35<10:35:12,  3.58it/s] 63%|██████▎   | 235092/371472 [7:40:36<11:09:23,  3.40it/s] 63%|██████▎   | 235093/371472 [7:40:36<10:47:01,  3.51it/s] 63%|██████▎   | 235094/371472 [7:40:36<10:54:28,  3.47it/s] 63%|██████▎   | 235095/371472 [7:40:37<10:48:32,  3.50it/s] 63%|██████▎   | 235096/371472 [7:40:37<11:07:21,  3.41it/s] 63%|██████▎   | 235097/371472 [7:40:37<10:40:10,  3.55it/s] 63%|██████▎   | 235098/371472 [7:40:38<10:43:43,  3.53it/s] 63%|██████▎   | 235099/371472 [7:40:38<10:48:24,  3.51it/s] 63%|██████▎   | 235100/371472 [7:40:38<13:51:09,  2.73it/s]                                                            {'loss': 2.8187, 'learning_rate': 4.3057919800038777e-07, 'epoch': 10.13}
 63%|██████▎   | 235100/371472 [7:40:38<13:51:09,  2.73it/s] 63%|██████▎   | 235101/371472 [7:40:39<12:50:57,  2.95it/s] 63%|██████▎   | 235102/371472 [7:40:39<13:20:43,  2.84it/s] 63%|██████▎   | 235103/371472 [7:40:39<12:26:53,  3.04it/s] 63%|██████▎   | 235104/371472 [7:40:40<12:02:33,  3.15it/s] 63%|██████▎   | 235105/371472 [7:40:40<11:52:03,  3.19it/s] 63%|██████▎   | 235106/371472 [7:40:40<11:36:03,  3.27it/s] 63%|██████▎   | 235107/371472 [7:40:40<11:29:01,  3.30it/s] 63%|██████▎   | 235108/371472 [7:40:41<11:02:09,  3.43it/s] 63%|██████▎   | 235109/371472 [7:40:41<11:15:24,  3.36it/s] 63%|██████▎   | 235110/371472 [7:40:41<11:24:41,  3.32it/s] 63%|██████▎   | 235111/371472 [7:40:42<10:49:54,  3.50it/s] 63%|██████▎   | 235112/371472 [7:40:42<10:29:52,  3.61it/s] 63%|██████▎   | 235113/371472 [7:40:42<10:29:08,  3.61it/s] 63%|██████▎   | 235114/371472 [7:40:42<10:18:39,  3.67it/s] 63%|██████▎   | 235115/371472 [7:40:43<10:18:29,  3.67it/s] 63%|██████▎   | 235116/371472 [7:40:43<10:29:07,  3.61it/s] 63%|██████▎   | 235117/371472 [7:40:43<10:09:45,  3.73it/s] 63%|██████▎   | 235118/371472 [7:40:43<10:06:11,  3.75it/s] 63%|██████▎   | 235119/371472 [7:40:44<9:59:53,  3.79it/s]  63%|██████▎   | 235120/371472 [7:40:44<10:22:36,  3.65it/s]                                                            {'loss': 3.0, 'learning_rate': 4.3053071602490894e-07, 'epoch': 10.13}
 63%|██████▎   | 235120/371472 [7:40:44<10:22:36,  3.65it/s] 63%|██████▎   | 235121/371472 [7:40:44<10:48:34,  3.50it/s] 63%|██████▎   | 235122/371472 [7:40:45<11:03:57,  3.42it/s] 63%|██████▎   | 235123/371472 [7:40:45<10:39:38,  3.55it/s] 63%|██████▎   | 235124/371472 [7:40:45<10:44:58,  3.52it/s] 63%|██████▎   | 235125/371472 [7:40:45<10:29:06,  3.61it/s] 63%|██████▎   | 235126/371472 [7:40:46<10:28:44,  3.61it/s] 63%|██████▎   | 235127/371472 [7:40:46<10:32:08,  3.59it/s] 63%|██████▎   | 235128/371472 [7:40:46<11:12:19,  3.38it/s] 63%|██████▎   | 235129/371472 [7:40:47<11:21:14,  3.34it/s] 63%|██████▎   | 235130/371472 [7:40:47<12:04:43,  3.14it/s] 63%|██████▎   | 235131/371472 [7:40:47<11:21:56,  3.33it/s] 63%|██████▎   | 235132/371472 [7:40:48<11:03:18,  3.43it/s] 63%|██████▎   | 235133/371472 [7:40:48<10:37:00,  3.57it/s] 63%|██████▎   | 235134/371472 [7:40:48<10:47:44,  3.51it/s] 63%|██████▎   | 235135/371472 [7:40:48<10:23:03,  3.65it/s] 63%|██████▎   | 235136/371472 [7:40:49<11:06:12,  3.41it/s] 63%|██████▎   | 235137/371472 [7:40:49<10:37:50,  3.56it/s] 63%|██████▎   | 235138/371472 [7:40:49<10:23:50,  3.64it/s] 63%|██████▎   | 235139/371472 [7:40:49<10:37:50,  3.56it/s] 63%|██████▎   | 235140/371472 [7:40:50<10:51:47,  3.49it/s]                                                            {'loss': 2.7807, 'learning_rate': 4.3048223404943e-07, 'epoch': 10.13}
 63%|██████▎   | 235140/371472 [7:40:50<10:51:47,  3.49it/s] 63%|██████▎   | 235141/371472 [7:40:50<11:17:02,  3.36it/s] 63%|██████▎   | 235142/371472 [7:40:50<12:05:26,  3.13it/s] 63%|██████▎   | 235143/371472 [7:40:51<12:18:10,  3.08it/s] 63%|██████▎   | 235144/371472 [7:40:51<12:55:08,  2.93it/s] 63%|██████▎   | 235145/371472 [7:40:51<11:53:39,  3.18it/s] 63%|██████▎   | 235146/371472 [7:40:52<12:41:23,  2.98it/s] 63%|██████▎   | 235147/371472 [7:40:52<12:17:05,  3.08it/s] 63%|██████▎   | 235148/371472 [7:40:52<11:32:53,  3.28it/s] 63%|██████▎   | 235149/371472 [7:40:53<10:55:39,  3.47it/s] 63%|██████▎   | 235150/371472 [7:40:53<10:26:23,  3.63it/s] 63%|██████▎   | 235151/371472 [7:40:53<10:30:37,  3.60it/s] 63%|██████▎   | 235152/371472 [7:40:53<10:28:34,  3.61it/s] 63%|██████▎   | 235153/371472 [7:40:54<11:39:44,  3.25it/s] 63%|██████▎   | 235154/371472 [7:40:54<10:55:41,  3.47it/s] 63%|██████▎   | 235155/371472 [7:40:54<10:19:56,  3.66it/s] 63%|██████▎   | 235156/371472 [7:40:55<10:17:19,  3.68it/s] 63%|██████▎   | 235157/371472 [7:40:55<10:01:06,  3.78it/s] 63%|██████▎   | 235158/371472 [7:40:55<11:07:59,  3.40it/s] 63%|██████▎   | 235159/371472 [7:40:55<11:11:57,  3.38it/s] 63%|██████▎   | 235160/371472 [7:40:56<10:46:14,  3.52it/s]                                                            {'loss': 2.8143, 'learning_rate': 4.3043375207395114e-07, 'epoch': 10.13}
 63%|██████▎   | 235160/371472 [7:40:56<10:46:14,  3.52it/s] 63%|██████▎   | 235161/371472 [7:40:56<10:24:38,  3.64it/s] 63%|██████▎   | 235162/371472 [7:40:56<10:34:37,  3.58it/s] 63%|██████▎   | 235163/371472 [7:40:57<10:22:26,  3.65it/s] 63%|██████▎   | 235164/371472 [7:40:57<10:32:39,  3.59it/s] 63%|██████▎   | 235165/371472 [7:40:57<10:37:53,  3.56it/s] 63%|██████▎   | 235166/371472 [7:40:57<10:26:37,  3.63it/s] 63%|██████▎   | 235167/371472 [7:40:58<10:19:05,  3.67it/s] 63%|██████▎   | 235168/371472 [7:40:58<10:04:26,  3.76it/s] 63%|██████▎   | 235169/371472 [7:40:58<10:20:58,  3.66it/s] 63%|██████▎   | 235170/371472 [7:40:58<10:36:20,  3.57it/s] 63%|██████▎   | 235171/371472 [7:40:59<10:42:43,  3.53it/s] 63%|██████▎   | 235172/371472 [7:40:59<10:45:19,  3.52it/s] 63%|██████▎   | 235173/371472 [7:40:59<10:30:57,  3.60it/s] 63%|██████▎   | 235174/371472 [7:41:00<10:50:11,  3.49it/s] 63%|██████▎   | 235175/371472 [7:41:00<11:08:57,  3.40it/s] 63%|██████▎   | 235176/371472 [7:41:00<10:57:43,  3.45it/s] 63%|██████▎   | 235177/371472 [7:41:00<10:29:24,  3.61it/s] 63%|██████▎   | 235178/371472 [7:41:01<10:48:59,  3.50it/s] 63%|██████▎   | 235179/371472 [7:41:01<10:29:06,  3.61it/s] 63%|██████▎   | 235180/371472 [7:41:01<11:22:49,  3.33it/s]                                                            {'loss': 2.9193, 'learning_rate': 4.303852700984722e-07, 'epoch': 10.13}
 63%|██████▎   | 235180/371472 [7:41:01<11:22:49,  3.33it/s] 63%|██████▎   | 235181/371472 [7:41:02<12:05:53,  3.13it/s] 63%|██████▎   | 235182/371472 [7:41:02<12:10:44,  3.11it/s] 63%|██████▎   | 235183/371472 [7:41:02<11:20:10,  3.34it/s] 63%|██████▎   | 235184/371472 [7:41:03<10:41:18,  3.54it/s] 63%|██████▎   | 235185/371472 [7:41:03<10:28:25,  3.61it/s] 63%|██████▎   | 235186/371472 [7:41:03<10:16:07,  3.69it/s] 63%|██████▎   | 235187/371472 [7:41:03<10:06:15,  3.75it/s] 63%|██████▎   | 235188/371472 [7:41:04<10:05:21,  3.75it/s] 63%|██████▎   | 235189/371472 [7:41:04<10:03:05,  3.77it/s] 63%|██████▎   | 235190/371472 [7:41:04<9:49:30,  3.85it/s]  63%|██████▎   | 235191/371472 [7:41:04<10:00:06,  3.78it/s] 63%|██████▎   | 235192/371472 [7:41:05<10:38:12,  3.56it/s] 63%|██████▎   | 235193/371472 [7:41:05<10:24:43,  3.64it/s] 63%|██████▎   | 235194/371472 [7:41:05<10:05:35,  3.75it/s] 63%|██████▎   | 235195/371472 [7:41:06<10:49:27,  3.50it/s] 63%|██████▎   | 235196/371472 [7:41:06<10:38:09,  3.56it/s] 63%|██████▎   | 235197/371472 [7:41:06<11:14:23,  3.37it/s] 63%|██████▎   | 235198/371472 [7:41:06<10:47:03,  3.51it/s] 63%|██████▎   | 235199/371472 [7:41:07<10:52:33,  3.48it/s] 63%|██████▎   | 235200/371472 [7:41:07<10:51:15,  3.49it/s]                                                            {'loss': 2.9002, 'learning_rate': 4.303367881229934e-07, 'epoch': 10.13}
 63%|██████▎   | 235200/371472 [7:41:07<10:51:15,  3.49it/s] 63%|██████▎   | 235201/371472 [7:41:07<10:17:21,  3.68it/s] 63%|██████▎   | 235202/371472 [7:41:08<10:12:08,  3.71it/s] 63%|██████▎   | 235203/371472 [7:41:08<10:34:56,  3.58it/s] 63%|██████▎   | 235204/371472 [7:41:08<10:58:03,  3.45it/s] 63%|██████▎   | 235205/371472 [7:41:08<11:10:16,  3.39it/s] 63%|██████▎   | 235206/371472 [7:41:09<11:02:38,  3.43it/s] 63%|██████▎   | 235207/371472 [7:41:09<10:34:44,  3.58it/s] 63%|██████▎   | 235208/371472 [7:41:09<10:14:38,  3.69it/s] 63%|██████▎   | 235209/371472 [7:41:09<10:14:55,  3.69it/s] 63%|██████▎   | 235210/371472 [7:41:10<10:10:16,  3.72it/s] 63%|██████▎   | 235211/371472 [7:41:10<10:38:25,  3.56it/s] 63%|██████▎   | 235212/371472 [7:41:10<11:19:39,  3.34it/s] 63%|██████▎   | 235213/371472 [7:41:11<10:49:26,  3.50it/s] 63%|██████▎   | 235214/371472 [7:41:11<10:41:03,  3.54it/s] 63%|██████▎   | 235215/371472 [7:41:11<10:31:51,  3.59it/s] 63%|██████▎   | 235216/371472 [7:41:12<11:24:51,  3.32it/s] 63%|██████▎   | 235217/371472 [7:41:12<11:06:29,  3.41it/s] 63%|██████▎   | 235218/371472 [7:41:12<10:43:16,  3.53it/s] 63%|██████▎   | 235219/371472 [7:41:13<12:45:43,  2.97it/s] 63%|██████▎   | 235220/371472 [7:41:13<11:55:36,  3.17it/s]                                                            {'loss': 2.8388, 'learning_rate': 4.3028830614751446e-07, 'epoch': 10.13}
 63%|██████▎   | 235220/371472 [7:41:13<11:55:36,  3.17it/s] 63%|██████▎   | 235221/371472 [7:41:13<11:27:27,  3.30it/s] 63%|██████▎   | 235222/371472 [7:41:13<11:37:20,  3.26it/s] 63%|██████▎   | 235223/371472 [7:41:14<11:09:02,  3.39it/s] 63%|██████▎   | 235224/371472 [7:41:14<10:48:31,  3.50it/s] 63%|██████▎   | 235225/371472 [7:41:14<10:28:43,  3.61it/s] 63%|██████▎   | 235226/371472 [7:41:14<10:46:24,  3.51it/s] 63%|██████▎   | 235227/371472 [7:41:15<10:53:45,  3.47it/s] 63%|██████▎   | 235228/371472 [7:41:15<10:39:00,  3.55it/s] 63%|██████▎   | 235229/371472 [7:41:15<10:57:22,  3.45it/s] 63%|██████▎   | 235230/371472 [7:41:16<11:15:11,  3.36it/s] 63%|██████▎   | 235231/371472 [7:41:16<11:02:54,  3.43it/s] 63%|██████▎   | 235232/371472 [7:41:16<11:29:22,  3.29it/s] 63%|██████▎   | 235233/371472 [7:41:17<11:32:57,  3.28it/s] 63%|██████▎   | 235234/371472 [7:41:17<11:44:33,  3.22it/s] 63%|██████▎   | 235235/371472 [7:41:17<11:30:05,  3.29it/s] 63%|██████▎   | 235236/371472 [7:41:17<11:03:56,  3.42it/s] 63%|██████▎   | 235237/371472 [7:41:18<11:00:53,  3.44it/s] 63%|██████▎   | 235238/371472 [7:41:18<11:10:19,  3.39it/s] 63%|██████▎   | 235239/371472 [7:41:18<10:46:36,  3.51it/s] 63%|██████▎   | 235240/371472 [7:41:19<10:13:52,  3.70it/s]                                                            {'loss': 2.9643, 'learning_rate': 4.302398241720356e-07, 'epoch': 10.13}
 63%|██████▎   | 235240/371472 [7:41:19<10:13:52,  3.70it/s] 63%|██████▎   | 235241/371472 [7:41:19<10:04:05,  3.76it/s] 63%|██████▎   | 235242/371472 [7:41:19<9:56:51,  3.80it/s]  63%|██████▎   | 235243/371472 [7:41:19<9:58:22,  3.79it/s] 63%|██████▎   | 235244/371472 [7:41:20<9:44:57,  3.88it/s] 63%|██████▎   | 235245/371472 [7:41:20<10:09:35,  3.72it/s] 63%|██████▎   | 235246/371472 [7:41:20<9:57:07,  3.80it/s]  63%|██████▎   | 235247/371472 [7:41:20<10:03:57,  3.76it/s] 63%|██████▎   | 235248/371472 [7:41:21<10:04:39,  3.75it/s] 63%|██████▎   | 235249/371472 [7:41:21<10:31:22,  3.60it/s] 63%|██████▎   | 235250/371472 [7:41:21<10:21:23,  3.65it/s] 63%|██████▎   | 235251/371472 [7:41:22<11:04:57,  3.41it/s] 63%|██████▎   | 235252/371472 [7:41:22<10:50:27,  3.49it/s] 63%|██████▎   | 235253/371472 [7:41:22<12:40:48,  2.98it/s] 63%|██████▎   | 235254/371472 [7:41:23<12:39:25,  2.99it/s] 63%|██████▎   | 235255/371472 [7:41:23<11:55:34,  3.17it/s] 63%|██████▎   | 235256/371472 [7:41:23<11:35:48,  3.26it/s] 63%|██████▎   | 235257/371472 [7:41:23<10:56:27,  3.46it/s] 63%|██████▎   | 235258/371472 [7:41:24<10:58:21,  3.45it/s] 63%|██████▎   | 235259/371472 [7:41:24<10:41:24,  3.54it/s] 63%|██████▎   | 235260/371472 [7:41:24<10:32:06,  3.59it/s]                                                            {'loss': 2.844, 'learning_rate': 4.3019134219655666e-07, 'epoch': 10.13}
 63%|██████▎   | 235260/371472 [7:41:24<10:32:06,  3.59it/s] 63%|██████▎   | 235261/371472 [7:41:25<11:09:31,  3.39it/s] 63%|██████▎   | 235262/371472 [7:41:25<12:22:39,  3.06it/s] 63%|██████▎   | 235263/371472 [7:41:25<11:32:23,  3.28it/s] 63%|██████▎   | 235264/371472 [7:41:26<11:06:17,  3.41it/s] 63%|██████▎   | 235265/371472 [7:41:26<10:48:05,  3.50it/s] 63%|██████▎   | 235266/371472 [7:41:26<10:26:27,  3.62it/s] 63%|██████▎   | 235267/371472 [7:41:26<10:11:49,  3.71it/s] 63%|██████▎   | 235268/371472 [7:41:27<10:23:11,  3.64it/s] 63%|██████▎   | 235269/371472 [7:41:27<10:29:04,  3.61it/s] 63%|██████▎   | 235270/371472 [7:41:27<10:20:23,  3.66it/s] 63%|██████▎   | 235271/371472 [7:41:27<10:28:30,  3.61it/s] 63%|██████▎   | 235272/371472 [7:41:28<10:59:14,  3.44it/s] 63%|██████▎   | 235273/371472 [7:41:28<10:50:07,  3.49it/s] 63%|██████▎   | 235274/371472 [7:41:28<10:32:06,  3.59it/s] 63%|██████▎   | 235275/371472 [7:41:29<10:53:43,  3.47it/s] 63%|██████▎   | 235276/371472 [7:41:29<10:57:24,  3.45it/s] 63%|██████▎   | 235277/371472 [7:41:29<10:43:20,  3.53it/s] 63%|██████▎   | 235278/371472 [7:41:29<10:27:24,  3.62it/s] 63%|██████▎   | 235279/371472 [7:41:30<10:56:39,  3.46it/s] 63%|██████▎   | 235280/371472 [7:41:30<10:54:33,  3.47it/s]                                                            {'loss': 2.7598, 'learning_rate': 4.3014286022107783e-07, 'epoch': 10.13}
 63%|██████▎   | 235280/371472 [7:41:30<10:54:33,  3.47it/s] 63%|██████▎   | 235281/371472 [7:41:30<11:30:15,  3.29it/s] 63%|██████▎   | 235282/371472 [7:41:31<11:25:52,  3.31it/s] 63%|██████▎   | 235283/371472 [7:41:31<11:20:13,  3.34it/s] 63%|██████▎   | 235284/371472 [7:41:31<10:52:41,  3.48it/s] 63%|██████▎   | 235285/371472 [7:41:31<10:52:22,  3.48it/s] 63%|██████▎   | 235286/371472 [7:41:32<10:50:24,  3.49it/s] 63%|██████▎   | 235287/371472 [7:41:32<11:04:37,  3.42it/s] 63%|██████▎   | 235288/371472 [7:41:32<10:36:25,  3.57it/s] 63%|██████▎   | 235289/371472 [7:41:33<10:37:44,  3.56it/s] 63%|██████▎   | 235290/371472 [7:41:33<10:21:42,  3.65it/s] 63%|██████▎   | 235291/371472 [7:41:33<10:14:49,  3.69it/s] 63%|██████▎   | 235292/371472 [7:41:33<10:06:47,  3.74it/s] 63%|██████▎   | 235293/371472 [7:41:34<10:02:42,  3.77it/s] 63%|██████▎   | 235294/371472 [7:41:34<10:38:58,  3.55it/s] 63%|██████▎   | 235295/371472 [7:41:34<11:40:14,  3.24it/s] 63%|██████▎   | 235296/371472 [7:41:35<10:59:39,  3.44it/s] 63%|██████▎   | 235297/371472 [7:41:35<10:39:14,  3.55it/s] 63%|██████▎   | 235298/371472 [7:41:35<10:34:13,  3.58it/s] 63%|██████▎   | 235299/371472 [7:41:35<10:30:05,  3.60it/s] 63%|██████▎   | 235300/371472 [7:41:36<10:23:11,  3.64it/s]                                                            {'loss': 2.8586, 'learning_rate': 4.3009437824559885e-07, 'epoch': 10.13}
 63%|██████▎   | 235300/371472 [7:41:36<10:23:11,  3.64it/s] 63%|██████▎   | 235301/371472 [7:41:36<10:13:35,  3.70it/s] 63%|██████▎   | 235302/371472 [7:41:36<10:03:08,  3.76it/s] 63%|██████▎   | 235303/371472 [7:41:36<10:10:41,  3.72it/s] 63%|██████▎   | 235304/371472 [7:41:37<10:28:24,  3.61it/s] 63%|██████▎   | 235305/371472 [7:41:37<11:19:00,  3.34it/s] 63%|██████▎   | 235306/371472 [7:41:37<11:21:59,  3.33it/s] 63%|██████▎   | 235307/371472 [7:41:38<10:51:56,  3.48it/s] 63%|██████▎   | 235308/371472 [7:41:38<10:34:45,  3.58it/s] 63%|██████▎   | 235309/371472 [7:41:38<11:13:15,  3.37it/s] 63%|██████▎   | 235310/371472 [7:41:39<11:45:33,  3.22it/s] 63%|██████▎   | 235311/371472 [7:41:39<11:42:08,  3.23it/s] 63%|██████▎   | 235312/371472 [7:41:39<11:14:51,  3.36it/s] 63%|██████▎   | 235313/371472 [7:41:40<12:15:04,  3.09it/s] 63%|██████▎   | 235314/371472 [7:41:40<11:55:18,  3.17it/s] 63%|██████▎   | 235315/371472 [7:41:40<11:23:53,  3.32it/s] 63%|██████▎   | 235316/371472 [7:41:40<11:04:53,  3.41it/s] 63%|██████▎   | 235317/371472 [7:41:41<10:32:05,  3.59it/s] 63%|██████▎   | 235318/371472 [7:41:41<10:12:24,  3.71it/s] 63%|██████▎   | 235319/371472 [7:41:41<10:19:18,  3.66it/s] 63%|██████▎   | 235320/371472 [7:41:41<10:22:25,  3.65it/s]                                                            {'loss': 2.7754, 'learning_rate': 4.300458962701201e-07, 'epoch': 10.14}
 63%|██████▎   | 235320/371472 [7:41:41<10:22:25,  3.65it/s] 63%|██████▎   | 235321/371472 [7:41:42<11:31:49,  3.28it/s] 63%|██████▎   | 235322/371472 [7:41:42<10:54:12,  3.47it/s] 63%|██████▎   | 235323/371472 [7:41:42<10:34:05,  3.58it/s] 63%|██████▎   | 235324/371472 [7:41:43<10:48:38,  3.50it/s] 63%|██████▎   | 235325/371472 [7:41:43<10:29:39,  3.60it/s] 63%|██████▎   | 235326/371472 [7:41:43<10:20:26,  3.66it/s] 63%|██████▎   | 235327/371472 [7:41:43<10:46:46,  3.51it/s] 63%|██████▎   | 235328/371472 [7:41:44<10:19:18,  3.66it/s] 63%|██████▎   | 235329/371472 [7:41:44<10:10:05,  3.72it/s] 63%|██████▎   | 235330/371472 [7:41:44<10:10:14,  3.72it/s] 63%|██████▎   | 235331/371472 [7:41:45<10:09:47,  3.72it/s] 63%|██████▎   | 235332/371472 [7:41:45<10:26:23,  3.62it/s] 63%|██████▎   | 235333/371472 [7:41:45<10:20:21,  3.66it/s] 63%|██████▎   | 235334/371472 [7:41:45<10:19:37,  3.66it/s] 63%|██████▎   | 235335/371472 [7:41:46<10:14:48,  3.69it/s] 63%|██████▎   | 235336/371472 [7:41:46<10:03:06,  3.76it/s] 63%|██████▎   | 235337/371472 [7:41:46<10:40:16,  3.54it/s] 63%|██████▎   | 235338/371472 [7:41:47<10:57:36,  3.45it/s] 63%|██████▎   | 235339/371472 [7:41:47<11:44:41,  3.22it/s] 63%|██████▎   | 235340/371472 [7:41:47<10:55:08,  3.46it/s]                                                            {'loss': 2.8215, 'learning_rate': 4.299974142946411e-07, 'epoch': 10.14}
 63%|██████▎   | 235340/371472 [7:41:47<10:55:08,  3.46it/s] 63%|██████▎   | 235341/371472 [7:41:47<10:56:18,  3.46it/s] 63%|██████▎   | 235342/371472 [7:41:48<10:35:44,  3.57it/s] 63%|██████▎   | 235343/371472 [7:41:48<10:41:39,  3.54it/s] 63%|██████▎   | 235344/371472 [7:41:48<10:47:30,  3.50it/s] 63%|██████▎   | 235345/371472 [7:41:49<10:55:40,  3.46it/s] 63%|██████▎   | 235346/371472 [7:41:49<13:57:37,  2.71it/s] 63%|██████▎   | 235347/371472 [7:41:49<12:50:08,  2.95it/s] 63%|██████▎   | 235348/371472 [7:41:50<12:20:19,  3.06it/s] 63%|██████▎   | 235349/371472 [7:41:50<11:32:01,  3.28it/s] 63%|██████▎   | 235350/371472 [7:41:50<11:52:45,  3.18it/s] 63%|██████▎   | 235351/371472 [7:41:51<11:50:05,  3.19it/s] 63%|██████▎   | 235352/371472 [7:41:51<11:54:46,  3.17it/s] 63%|██████▎   | 235353/371472 [7:41:51<11:32:45,  3.27it/s] 63%|██████▎   | 235354/371472 [7:41:51<11:27:16,  3.30it/s] 63%|██████▎   | 235355/371472 [7:41:52<12:01:26,  3.14it/s] 63%|██████▎   | 235356/371472 [7:41:52<11:19:47,  3.34it/s] 63%|██████▎   | 235357/371472 [7:41:52<10:45:23,  3.52it/s] 63%|██████▎   | 235358/371472 [7:41:53<10:47:32,  3.50it/s] 63%|██████▎   | 235359/371472 [7:41:53<10:23:42,  3.64it/s] 63%|██████▎   | 235360/371472 [7:41:53<10:08:57,  3.73it/s]                                                            {'loss': 2.8125, 'learning_rate': 4.299489323191622e-07, 'epoch': 10.14}
 63%|██████▎   | 235360/371472 [7:41:53<10:08:57,  3.73it/s] 63%|██████▎   | 235361/371472 [7:41:53<10:30:56,  3.60it/s] 63%|██████▎   | 235362/371472 [7:41:54<10:28:43,  3.61it/s] 63%|██████▎   | 235363/371472 [7:41:54<10:35:07,  3.57it/s] 63%|██████▎   | 235364/371472 [7:41:54<10:41:51,  3.53it/s] 63%|██████▎   | 235365/371472 [7:41:55<11:05:38,  3.41it/s] 63%|██████▎   | 235366/371472 [7:41:55<12:02:49,  3.14it/s] 63%|██████▎   | 235367/371472 [7:41:55<11:45:32,  3.22it/s] 63%|██████▎   | 235368/371472 [7:41:56<11:11:28,  3.38it/s] 63%|██████▎   | 235369/371472 [7:41:56<11:08:21,  3.39it/s] 63%|██████▎   | 235370/371472 [7:41:56<11:09:46,  3.39it/s] 63%|██████▎   | 235371/371472 [7:41:56<10:53:58,  3.47it/s] 63%|██████▎   | 235372/371472 [7:41:57<10:45:19,  3.52it/s] 63%|██████▎   | 235373/371472 [7:41:57<11:15:33,  3.36it/s] 63%|██████▎   | 235374/371472 [7:41:57<11:54:21,  3.18it/s] 63%|██████▎   | 235375/371472 [7:41:58<11:37:53,  3.25it/s] 63%|██████▎   | 235376/371472 [7:41:58<11:32:47,  3.27it/s] 63%|██████▎   | 235377/371472 [7:41:58<11:20:34,  3.33it/s] 63%|██████▎   | 235378/371472 [7:41:58<10:58:29,  3.44it/s] 63%|██████▎   | 235379/371472 [7:41:59<11:48:38,  3.20it/s] 63%|██████▎   | 235380/371472 [7:41:59<11:25:29,  3.31it/s]                                                            {'loss': 2.8452, 'learning_rate': 4.299004503436833e-07, 'epoch': 10.14}
 63%|██████▎   | 235380/371472 [7:41:59<11:25:29,  3.31it/s] 63%|██████▎   | 235381/371472 [7:41:59<11:09:44,  3.39it/s] 63%|██████▎   | 235382/371472 [7:42:00<10:53:57,  3.47it/s] 63%|██████▎   | 235383/371472 [7:42:00<10:43:04,  3.53it/s] 63%|██████▎   | 235384/371472 [7:42:00<11:07:30,  3.40it/s] 63%|██████▎   | 235385/371472 [7:42:01<11:12:07,  3.37it/s] 63%|██████▎   | 235386/371472 [7:42:01<10:52:16,  3.48it/s] 63%|██████▎   | 235387/371472 [7:42:01<10:42:54,  3.53it/s] 63%|██████▎   | 235388/371472 [7:42:01<11:12:23,  3.37it/s] 63%|██████▎   | 235389/371472 [7:42:02<11:54:28,  3.17it/s] 63%|██████▎   | 235390/371472 [7:42:02<11:49:59,  3.19it/s] 63%|██████▎   | 235391/371472 [7:42:02<11:32:58,  3.27it/s] 63%|██████▎   | 235392/371472 [7:42:03<11:26:17,  3.30it/s] 63%|██████▎   | 235393/371472 [7:42:03<10:56:58,  3.45it/s] 63%|██████▎   | 235394/371472 [7:42:03<10:46:30,  3.51it/s] 63%|██████▎   | 235395/371472 [7:42:04<10:53:23,  3.47it/s] 63%|██████▎   | 235396/371472 [7:42:04<10:41:12,  3.54it/s] 63%|██████▎   | 235397/371472 [7:42:04<10:31:49,  3.59it/s] 63%|██████▎   | 235398/371472 [7:42:04<10:28:06,  3.61it/s] 63%|██████▎   | 235399/371472 [7:42:05<11:02:45,  3.42it/s] 63%|██████▎   | 235400/371472 [7:42:05<11:00:13,  3.44it/s]                                                            {'loss': 2.7508, 'learning_rate': 4.298519683682045e-07, 'epoch': 10.14}
 63%|██████▎   | 235400/371472 [7:42:05<11:00:13,  3.44it/s] 63%|██████▎   | 235401/371472 [7:42:05<10:51:21,  3.48it/s] 63%|██████▎   | 235402/371472 [7:42:05<10:31:14,  3.59it/s] 63%|██████▎   | 235403/371472 [7:42:06<10:17:57,  3.67it/s] 63%|██████▎   | 235404/371472 [7:42:06<10:13:21,  3.70it/s] 63%|██████▎   | 235405/371472 [7:42:06<10:09:58,  3.72it/s] 63%|██████▎   | 235406/371472 [7:42:07<9:55:42,  3.81it/s]  63%|██████▎   | 235407/371472 [7:42:07<10:17:59,  3.67it/s] 63%|██████▎   | 235408/371472 [7:42:07<10:16:24,  3.68it/s] 63%|██████▎   | 235409/371472 [7:42:07<11:17:44,  3.35it/s] 63%|██████▎   | 235410/371472 [7:42:08<10:52:43,  3.47it/s] 63%|██████▎   | 235411/371472 [7:42:08<10:40:44,  3.54it/s] 63%|██████▎   | 235412/371472 [7:42:08<10:36:03,  3.57it/s] 63%|██████▎   | 235413/371472 [7:42:09<10:28:13,  3.61it/s] 63%|██████▎   | 235414/371472 [7:42:09<10:11:50,  3.71it/s] 63%|██████▎   | 235415/371472 [7:42:09<9:58:44,  3.79it/s]  63%|██████▎   | 235416/371472 [7:42:09<9:49:27,  3.85it/s] 63%|██████▎   | 235417/371472 [7:42:10<10:01:27,  3.77it/s] 63%|██████▎   | 235418/371472 [7:42:10<10:17:30,  3.67it/s] 63%|██████▎   | 235419/371472 [7:42:10<10:20:00,  3.66it/s] 63%|██████▎   | 235420/371472 [7:42:10<10:48:00,  3.50it/s]                                                            {'loss': 2.8295, 'learning_rate': 4.298034863927255e-07, 'epoch': 10.14}
 63%|██████▎   | 235420/371472 [7:42:10<10:48:00,  3.50it/s] 63%|██████▎   | 235421/371472 [7:42:11<10:41:13,  3.54it/s] 63%|██████▎   | 235422/371472 [7:42:11<10:46:02,  3.51it/s] 63%|██████▎   | 235423/371472 [7:42:11<11:04:09,  3.41it/s] 63%|██████▎   | 235424/371472 [7:42:12<10:46:19,  3.51it/s] 63%|██████▎   | 235425/371472 [7:42:12<10:25:54,  3.62it/s] 63%|██████▎   | 235426/371472 [7:42:12<10:12:30,  3.70it/s] 63%|██████▎   | 235427/371472 [7:42:12<9:59:28,  3.78it/s]  63%|██████▎   | 235428/371472 [7:42:13<10:00:17,  3.78it/s] 63%|██████▎   | 235429/371472 [7:42:13<10:35:59,  3.57it/s] 63%|██████▎   | 235430/371472 [7:42:13<11:13:40,  3.37it/s] 63%|██████▎   | 235431/371472 [7:42:14<11:07:55,  3.39it/s] 63%|██████▎   | 235432/371472 [7:42:14<10:45:21,  3.51it/s] 63%|██████▎   | 235433/371472 [7:42:14<10:55:55,  3.46it/s] 63%|██████▎   | 235434/371472 [7:42:14<10:37:47,  3.55it/s] 63%|██████▎   | 235435/371472 [7:42:15<10:25:46,  3.62it/s] 63%|██████▎   | 235436/371472 [7:42:15<10:26:50,  3.62it/s] 63%|██████▎   | 235437/371472 [7:42:15<10:37:48,  3.55it/s] 63%|██████▎   | 235438/371472 [7:42:15<10:17:45,  3.67it/s] 63%|██████▎   | 235439/371472 [7:42:16<10:18:12,  3.67it/s] 63%|██████▎   | 235440/371472 [7:42:16<10:04:58,  3.75it/s]                                                            {'loss': 2.8932, 'learning_rate': 4.2975500441724667e-07, 'epoch': 10.14}
 63%|██████▎   | 235440/371472 [7:42:16<10:04:58,  3.75it/s] 63%|██████▎   | 235441/371472 [7:42:16<10:17:26,  3.67it/s] 63%|██████▎   | 235442/371472 [7:42:17<10:14:43,  3.69it/s] 63%|██████▎   | 235443/371472 [7:42:17<10:55:21,  3.46it/s] 63%|██████▎   | 235444/371472 [7:42:17<11:30:33,  3.28it/s] 63%|██████▎   | 235445/371472 [7:42:17<10:57:38,  3.45it/s] 63%|██████▎   | 235446/371472 [7:42:18<11:03:06,  3.42it/s] 63%|██████▎   | 235447/371472 [7:42:18<10:55:45,  3.46it/s] 63%|██████▎   | 235448/371472 [7:42:18<10:43:17,  3.52it/s] 63%|██████▎   | 235449/371472 [7:42:19<10:19:47,  3.66it/s] 63%|██████▎   | 235450/371472 [7:42:19<10:16:29,  3.68it/s] 63%|██████▎   | 235451/371472 [7:42:19<10:09:12,  3.72it/s] 63%|██████▎   | 235452/371472 [7:42:19<9:57:40,  3.79it/s]  63%|██████▎   | 235453/371472 [7:42:20<9:51:11,  3.83it/s] 63%|██████▎   | 235454/371472 [7:42:20<9:41:23,  3.90it/s] 63%|██████▎   | 235455/371472 [7:42:20<9:39:13,  3.91it/s] 63%|██████▎   | 235456/371472 [7:42:20<9:54:23,  3.81it/s] 63%|██████▎   | 235457/371472 [7:42:21<10:28:45,  3.61it/s] 63%|██████▎   | 235458/371472 [7:42:21<10:22:26,  3.64it/s] 63%|██████▎   | 235459/371472 [7:42:21<10:24:13,  3.63it/s] 63%|██████▎   | 235460/371472 [7:42:21<10:18:58,  3.66it/s]                                                            {'loss': 2.8288, 'learning_rate': 4.2970652244176774e-07, 'epoch': 10.14}
 63%|██████▎   | 235460/371472 [7:42:21<10:18:58,  3.66it/s] 63%|██████▎   | 235461/371472 [7:42:22<11:28:58,  3.29it/s] 63%|██████▎   | 235462/371472 [7:42:22<10:44:36,  3.52it/s] 63%|██████▎   | 235463/371472 [7:42:22<10:43:44,  3.52it/s] 63%|██████▎   | 235464/371472 [7:42:23<10:54:10,  3.47it/s] 63%|██████▎   | 235465/371472 [7:42:23<10:52:41,  3.47it/s] 63%|██████▎   | 235466/371472 [7:42:23<11:03:57,  3.41it/s] 63%|██████▎   | 235467/371472 [7:42:24<11:03:02,  3.42it/s] 63%|██████▎   | 235468/371472 [7:42:24<10:42:56,  3.53it/s] 63%|██████▎   | 235469/371472 [7:42:24<10:35:49,  3.56it/s] 63%|██████▎   | 235470/371472 [7:42:24<10:39:16,  3.55it/s] 63%|██████▎   | 235471/371472 [7:42:25<10:12:58,  3.70it/s] 63%|██████▎   | 235472/371472 [7:42:25<10:07:47,  3.73it/s] 63%|██████▎   | 235473/371472 [7:42:25<11:21:03,  3.33it/s] 63%|██████▎   | 235474/371472 [7:42:26<11:12:22,  3.37it/s] 63%|██████▎   | 235475/371472 [7:42:26<10:58:53,  3.44it/s] 63%|██████▎   | 235476/371472 [7:42:26<10:56:58,  3.45it/s] 63%|██████▎   | 235477/371472 [7:42:26<11:32:24,  3.27it/s] 63%|██████▎   | 235478/371472 [7:42:27<12:10:12,  3.10it/s] 63%|██████▎   | 235479/371472 [7:42:27<12:08:48,  3.11it/s] 63%|██████▎   | 235480/371472 [7:42:27<11:40:43,  3.23it/s]                                                            {'loss': 2.9611, 'learning_rate': 4.2965804046628887e-07, 'epoch': 10.14}
 63%|██████▎   | 235480/371472 [7:42:27<11:40:43,  3.23it/s] 63%|██████▎   | 235481/371472 [7:42:28<11:45:11,  3.21it/s] 63%|██████▎   | 235482/371472 [7:42:28<11:21:55,  3.32it/s] 63%|██████▎   | 235483/371472 [7:42:28<11:20:53,  3.33it/s] 63%|██████▎   | 235484/371472 [7:42:29<10:45:29,  3.51it/s] 63%|██████▎   | 235485/371472 [7:42:29<10:30:51,  3.59it/s] 63%|██████▎   | 235486/371472 [7:42:29<10:14:45,  3.69it/s] 63%|██████▎   | 235487/371472 [7:42:29<10:21:35,  3.65it/s] 63%|██████▎   | 235488/371472 [7:42:30<9:58:41,  3.79it/s]  63%|██████▎   | 235489/371472 [7:42:30<10:15:48,  3.68it/s] 63%|██████▎   | 235490/371472 [7:42:30<10:46:22,  3.51it/s] 63%|██████▎   | 235491/371472 [7:42:30<10:32:30,  3.58it/s] 63%|██████▎   | 235492/371472 [7:42:31<10:36:13,  3.56it/s] 63%|██████▎   | 235493/371472 [7:42:31<10:29:46,  3.60it/s] 63%|██████▎   | 235494/371472 [7:42:31<10:20:43,  3.65it/s] 63%|██████▎   | 235495/371472 [7:42:32<10:16:23,  3.68it/s] 63%|██████▎   | 235496/371472 [7:42:32<10:37:11,  3.56it/s] 63%|██████▎   | 235497/371472 [7:42:32<11:48:48,  3.20it/s] 63%|██████▎   | 235498/371472 [7:42:33<11:02:36,  3.42it/s] 63%|██████▎   | 235499/371472 [7:42:33<10:45:21,  3.51it/s] 63%|██████▎   | 235500/371472 [7:42:33<10:12:20,  3.70it/s]                                                            {'loss': 2.852, 'learning_rate': 4.2960955849080994e-07, 'epoch': 10.14}
 63%|██████▎   | 235500/371472 [7:42:33<10:12:20,  3.70it/s] 63%|██████▎   | 235501/371472 [7:42:33<10:02:16,  3.76it/s] 63%|██████▎   | 235502/371472 [7:42:34<10:36:23,  3.56it/s] 63%|██████▎   | 235503/371472 [7:42:34<10:36:51,  3.56it/s] 63%|██████▎   | 235504/371472 [7:42:34<10:34:59,  3.57it/s] 63%|██████▎   | 235505/371472 [7:42:34<10:26:52,  3.61it/s] 63%|██████▎   | 235506/371472 [7:42:35<10:03:05,  3.76it/s] 63%|██████▎   | 235507/371472 [7:42:35<10:32:27,  3.58it/s] 63%|██████▎   | 235508/371472 [7:42:35<11:02:05,  3.42it/s] 63%|██████▎   | 235509/371472 [7:42:36<11:23:03,  3.32it/s] 63%|██████▎   | 235510/371472 [7:42:36<10:56:28,  3.45it/s] 63%|██████▎   | 235511/371472 [7:42:36<11:28:39,  3.29it/s] 63%|██████▎   | 235512/371472 [7:42:36<11:02:45,  3.42it/s] 63%|██████▎   | 235513/371472 [7:42:37<10:40:59,  3.54it/s] 63%|██████▎   | 235514/371472 [7:42:37<10:43:00,  3.52it/s] 63%|██████▎   | 235515/371472 [7:42:37<10:43:35,  3.52it/s] 63%|██████▎   | 235516/371472 [7:42:38<10:55:01,  3.46it/s] 63%|██████▎   | 235517/371472 [7:42:38<10:27:09,  3.61it/s] 63%|██████▎   | 235518/371472 [7:42:38<11:01:28,  3.43it/s] 63%|██████▎   | 235519/371472 [7:42:38<10:28:09,  3.61it/s] 63%|██████▎   | 235520/371472 [7:42:39<10:23:30,  3.63it/s]                                                            {'loss': 2.8876, 'learning_rate': 4.295610765153311e-07, 'epoch': 10.14}
 63%|██████▎   | 235520/371472 [7:42:39<10:23:30,  3.63it/s] 63%|██████▎   | 235521/371472 [7:42:39<10:04:49,  3.75it/s] 63%|██████▎   | 235522/371472 [7:42:39<9:55:28,  3.81it/s]  63%|██████▎   | 235523/371472 [7:42:39<9:52:04,  3.83it/s] 63%|██████▎   | 235524/371472 [7:42:40<10:23:49,  3.63it/s] 63%|██████▎   | 235525/371472 [7:42:40<10:08:57,  3.72it/s] 63%|██████▎   | 235526/371472 [7:42:40<9:55:08,  3.81it/s]  63%|██████▎   | 235527/371472 [7:42:41<10:00:13,  3.77it/s] 63%|██████▎   | 235528/371472 [7:42:41<10:42:18,  3.53it/s] 63%|██████▎   | 235529/371472 [7:42:41<10:24:11,  3.63it/s] 63%|██████▎   | 235530/371472 [7:42:41<10:08:00,  3.73it/s] 63%|██████▎   | 235531/371472 [7:42:42<9:52:55,  3.82it/s]  63%|██████▎   | 235532/371472 [7:42:42<10:02:07,  3.76it/s] 63%|██████▎   | 235533/371472 [7:42:42<10:02:23,  3.76it/s] 63%|██████▎   | 235534/371472 [7:42:42<10:52:00,  3.47it/s] 63%|██████▎   | 235535/371472 [7:42:43<10:26:20,  3.62it/s] 63%|██████▎   | 235536/371472 [7:42:43<10:08:25,  3.72it/s] 63%|██████▎   | 235537/371472 [7:42:43<10:00:58,  3.77it/s] 63%|██████▎   | 235538/371472 [7:42:43<9:49:56,  3.84it/s]  63%|██████▎   | 235539/371472 [7:42:44<9:49:38,  3.84it/s] 63%|██████▎   | 235540/371472 [7:42:44<9:46:22,  3.86it/s]                                                           {'loss': 2.8638, 'learning_rate': 4.2951259453985213e-07, 'epoch': 10.15}
 63%|██████▎   | 235540/371472 [7:42:44<9:46:22,  3.86it/s] 63%|██████▎   | 235541/371472 [7:42:44<10:13:19,  3.69it/s] 63%|██████▎   | 235542/371472 [7:42:45<10:41:50,  3.53it/s] 63%|██████▎   | 235543/371472 [7:42:45<10:25:47,  3.62it/s] 63%|██████▎   | 235544/371472 [7:42:45<10:20:53,  3.65it/s] 63%|██████▎   | 235545/371472 [7:42:45<10:39:01,  3.55it/s] 63%|██████▎   | 235546/371472 [7:42:46<10:45:23,  3.51it/s] 63%|██████▎   | 235547/371472 [7:42:46<10:43:12,  3.52it/s] 63%|██████▎   | 235548/371472 [7:42:46<11:07:17,  3.39it/s] 63%|██████▎   | 235549/371472 [7:42:47<11:11:31,  3.37it/s] 63%|██████▎   | 235550/371472 [7:42:47<11:00:30,  3.43it/s] 63%|██████▎   | 235551/371472 [7:42:47<10:53:55,  3.46it/s] 63%|██████▎   | 235552/371472 [7:42:47<10:27:53,  3.61it/s] 63%|██████▎   | 235553/371472 [7:42:48<10:11:20,  3.71it/s] 63%|██████▎   | 235554/371472 [7:42:48<10:02:17,  3.76it/s] 63%|██████▎   | 235555/371472 [7:42:48<10:17:25,  3.67it/s] 63%|██████▎   | 235556/371472 [7:42:49<11:07:33,  3.39it/s] 63%|██████▎   | 235557/371472 [7:42:49<11:10:14,  3.38it/s] 63%|██████▎   | 235558/371472 [7:42:49<11:06:04,  3.40it/s] 63%|██████▎   | 235559/371472 [7:42:49<10:33:44,  3.57it/s] 63%|██████▎   | 235560/371472 [7:42:50<10:16:21,  3.68it/s]                                                            {'loss': 2.8175, 'learning_rate': 4.294641125643733e-07, 'epoch': 10.15}
 63%|██████▎   | 235560/371472 [7:42:50<10:16:21,  3.68it/s] 63%|██████▎   | 235561/371472 [7:42:50<10:00:52,  3.77it/s] 63%|██████▎   | 235562/371472 [7:42:50<9:48:47,  3.85it/s]  63%|██████▎   | 235563/371472 [7:42:50<9:37:58,  3.92it/s] 63%|██████▎   | 235564/371472 [7:42:51<9:25:54,  4.00it/s] 63%|██████▎   | 235565/371472 [7:42:51<9:34:13,  3.94it/s] 63%|██████▎   | 235566/371472 [7:42:51<9:41:31,  3.90it/s] 63%|██████▎   | 235567/371472 [7:42:51<10:10:19,  3.71it/s] 63%|██████▎   | 235568/371472 [7:42:52<10:57:50,  3.44it/s] 63%|██████▎   | 235569/371472 [7:42:52<11:39:36,  3.24it/s] 63%|██████▎   | 235570/371472 [7:42:52<11:42:53,  3.22it/s] 63%|██████▎   | 235571/371472 [7:42:53<11:23:03,  3.32it/s] 63%|██████▎   | 235572/371472 [7:42:53<10:59:15,  3.44it/s] 63%|██████▎   | 235573/371472 [7:42:53<10:52:26,  3.47it/s] 63%|██████▎   | 235574/371472 [7:42:54<10:46:51,  3.50it/s] 63%|██████▎   | 235575/371472 [7:42:54<10:48:41,  3.49it/s] 63%|██████▎   | 235576/371472 [7:42:54<10:55:32,  3.46it/s] 63%|██████▎   | 235577/371472 [7:42:54<10:37:13,  3.55it/s] 63%|██████▎   | 235578/371472 [7:42:55<10:35:10,  3.57it/s] 63%|██████▎   | 235579/371472 [7:42:55<11:12:40,  3.37it/s] 63%|██████▎   | 235580/371472 [7:42:55<10:59:05,  3.44it/s]                                                            {'loss': 2.8745, 'learning_rate': 4.294156305888944e-07, 'epoch': 10.15}
 63%|██████▎   | 235580/371472 [7:42:55<10:59:05,  3.44it/s] 63%|██████▎   | 235581/371472 [7:42:56<10:48:59,  3.49it/s] 63%|██████▎   | 235582/371472 [7:42:56<10:32:07,  3.58it/s] 63%|██████▎   | 235583/371472 [7:42:56<10:49:13,  3.49it/s] 63%|██████▎   | 235584/371472 [7:42:56<10:23:06,  3.63it/s] 63%|██████▎   | 235585/371472 [7:42:57<10:07:39,  3.73it/s] 63%|██████▎   | 235586/371472 [7:42:57<10:07:09,  3.73it/s] 63%|██████▎   | 235587/371472 [7:42:57<10:18:33,  3.66it/s] 63%|██████▎   | 235588/371472 [7:42:58<10:49:35,  3.49it/s] 63%|██████▎   | 235589/371472 [7:42:58<11:00:39,  3.43it/s] 63%|██████▎   | 235590/371472 [7:42:58<10:31:18,  3.59it/s] 63%|██████▎   | 235591/371472 [7:42:58<10:19:26,  3.66it/s] 63%|██████▎   | 235592/371472 [7:42:59<10:17:08,  3.67it/s] 63%|██████▎   | 235593/371472 [7:42:59<10:09:28,  3.72it/s] 63%|██████▎   | 235594/371472 [7:42:59<10:32:06,  3.58it/s] 63%|██████▎   | 235595/371472 [7:43:00<11:06:30,  3.40it/s] 63%|██████▎   | 235596/371472 [7:43:00<11:36:26,  3.25it/s] 63%|██████▎   | 235597/371472 [7:43:00<11:13:04,  3.36it/s] 63%|██████▎   | 235598/371472 [7:43:00<11:10:26,  3.38it/s] 63%|██████▎   | 235599/371472 [7:43:01<11:04:50,  3.41it/s] 63%|██████▎   | 235600/371472 [7:43:01<10:59:54,  3.43it/s]                                                            {'loss': 2.8727, 'learning_rate': 4.293671486134155e-07, 'epoch': 10.15}
 63%|██████▎   | 235600/371472 [7:43:01<10:59:54,  3.43it/s] 63%|██████▎   | 235601/371472 [7:43:01<11:09:56,  3.38it/s] 63%|██████▎   | 235602/371472 [7:43:02<10:56:58,  3.45it/s] 63%|██████▎   | 235603/371472 [7:43:02<10:29:43,  3.60it/s] 63%|██████▎   | 235604/371472 [7:43:02<10:34:30,  3.57it/s] 63%|██████▎   | 235605/371472 [7:43:02<10:48:42,  3.49it/s] 63%|██████▎   | 235606/371472 [7:43:03<10:18:07,  3.66it/s] 63%|██████▎   | 235607/371472 [7:43:03<9:53:09,  3.82it/s]  63%|██████▎   | 235608/371472 [7:43:03<10:04:52,  3.74it/s] 63%|██████▎   | 235609/371472 [7:43:03<10:20:15,  3.65it/s] 63%|██████▎   | 235610/371472 [7:43:04<10:23:03,  3.63it/s] 63%|██████▎   | 235611/371472 [7:43:04<9:58:55,  3.78it/s]  63%|██████▎   | 235612/371472 [7:43:04<10:29:04,  3.60it/s] 63%|██████▎   | 235613/371472 [7:43:05<9:57:53,  3.79it/s]  63%|██████▎   | 235614/371472 [7:43:05<9:42:16,  3.89it/s] 63%|██████▎   | 235615/371472 [7:43:05<10:34:57,  3.57it/s] 63%|██████▎   | 235616/371472 [7:43:05<11:11:13,  3.37it/s] 63%|██████▎   | 235617/371472 [7:43:06<10:55:22,  3.45it/s] 63%|██████▎   | 235618/371472 [7:43:06<11:19:46,  3.33it/s] 63%|██████▎   | 235619/371472 [7:43:06<11:38:51,  3.24it/s] 63%|██████▎   | 235620/371472 [7:43:07<11:22:36,  3.32it/s]                                                            {'loss': 2.8814, 'learning_rate': 4.293186666379366e-07, 'epoch': 10.15}
 63%|██████▎   | 235620/371472 [7:43:07<11:22:36,  3.32it/s] 63%|██████▎   | 235621/371472 [7:43:07<12:04:26,  3.13it/s] 63%|██████▎   | 235622/371472 [7:43:07<11:46:29,  3.20it/s] 63%|██████▎   | 235623/371472 [7:43:08<10:56:58,  3.45it/s] 63%|██████▎   | 235624/371472 [7:43:08<11:55:19,  3.17it/s] 63%|██████▎   | 235625/371472 [7:43:08<11:10:30,  3.38it/s] 63%|██████▎   | 235626/371472 [7:43:09<11:31:13,  3.28it/s] 63%|██████▎   | 235627/371472 [7:43:09<11:37:45,  3.24it/s] 63%|██████▎   | 235628/371472 [7:43:09<11:09:59,  3.38it/s] 63%|██████▎   | 235629/371472 [7:43:09<10:27:45,  3.61it/s] 63%|██████▎   | 235630/371472 [7:43:10<10:09:39,  3.71it/s] 63%|██████▎   | 235631/371472 [7:43:10<10:02:37,  3.76it/s] 63%|██████▎   | 235632/371472 [7:43:10<10:19:36,  3.65it/s] 63%|██████▎   | 235633/371472 [7:43:10<10:18:59,  3.66it/s] 63%|██████▎   | 235634/371472 [7:43:11<10:09:16,  3.72it/s] 63%|██████▎   | 235635/371472 [7:43:11<10:17:07,  3.67it/s] 63%|██████▎   | 235636/371472 [7:43:11<10:13:21,  3.69it/s] 63%|██████▎   | 235637/371472 [7:43:12<10:32:33,  3.58it/s] 63%|██████▎   | 235638/371472 [7:43:12<11:57:46,  3.15it/s] 63%|██████▎   | 235639/371472 [7:43:12<11:27:07,  3.29it/s] 63%|██████▎   | 235640/371472 [7:43:12<11:18:40,  3.34it/s]                                                            {'loss': 2.8908, 'learning_rate': 4.2927018466245765e-07, 'epoch': 10.15}
 63%|██████▎   | 235640/371472 [7:43:12<11:18:40,  3.34it/s] 63%|██████▎   | 235641/371472 [7:43:13<10:55:25,  3.45it/s] 63%|██████▎   | 235642/371472 [7:43:13<10:39:07,  3.54it/s] 63%|██████▎   | 235643/371472 [7:43:13<10:21:14,  3.64it/s] 63%|██████▎   | 235644/371472 [7:43:14<10:28:14,  3.60it/s] 63%|██████▎   | 235645/371472 [7:43:14<10:42:42,  3.52it/s] 63%|██████▎   | 235646/371472 [7:43:14<10:54:15,  3.46it/s] 63%|██████▎   | 235647/371472 [7:43:14<10:36:38,  3.56it/s] 63%|██████▎   | 235648/371472 [7:43:15<10:20:19,  3.65it/s] 63%|██████▎   | 235649/371472 [7:43:15<10:23:02,  3.63it/s] 63%|██████▎   | 235650/371472 [7:43:15<10:28:06,  3.60it/s] 63%|██████▎   | 235651/371472 [7:43:15<10:09:53,  3.71it/s] 63%|██████▎   | 235652/371472 [7:43:16<10:14:46,  3.68it/s] 63%|██████▎   | 235653/371472 [7:43:16<9:59:17,  3.78it/s]  63%|██████▎   | 235654/371472 [7:43:16<10:19:23,  3.65it/s] 63%|██████▎   | 235655/371472 [7:43:17<11:05:51,  3.40it/s] 63%|██████▎   | 235656/371472 [7:43:17<11:01:29,  3.42it/s] 63%|██████▎   | 235657/371472 [7:43:17<11:45:30,  3.21it/s] 63%|██████▎   | 235658/371472 [7:43:18<11:16:53,  3.34it/s] 63%|██████▎   | 235659/371472 [7:43:18<10:56:20,  3.45it/s] 63%|██████▎   | 235660/371472 [7:43:18<10:49:19,  3.49it/s]                                                            {'loss': 2.7536, 'learning_rate': 4.2922170268697883e-07, 'epoch': 10.15}
 63%|██████▎   | 235660/371472 [7:43:18<10:49:19,  3.49it/s] 63%|██████▎   | 235661/371472 [7:43:18<10:43:16,  3.52it/s] 63%|██████▎   | 235662/371472 [7:43:19<10:45:34,  3.51it/s] 63%|██████▎   | 235663/371472 [7:43:19<10:21:37,  3.64it/s] 63%|██████▎   | 235664/371472 [7:43:19<11:10:17,  3.38it/s] 63%|██████▎   | 235665/371472 [7:43:20<10:45:30,  3.51it/s] 63%|██████▎   | 235666/371472 [7:43:20<10:33:27,  3.57it/s] 63%|██████▎   | 235667/371472 [7:43:20<10:09:48,  3.71it/s] 63%|██████▎   | 235668/371472 [7:43:20<10:21:04,  3.64it/s] 63%|██████▎   | 235669/371472 [7:43:21<10:09:47,  3.71it/s] 63%|██████▎   | 235670/371472 [7:43:21<9:57:24,  3.79it/s]  63%|██████▎   | 235671/371472 [7:43:21<11:57:36,  3.15it/s] 63%|██████▎   | 235672/371472 [7:43:22<11:38:12,  3.24it/s] 63%|██████▎   | 235673/371472 [7:43:22<11:53:04,  3.17it/s] 63%|██████▎   | 235674/371472 [7:43:22<11:43:09,  3.22it/s] 63%|██████▎   | 235675/371472 [7:43:22<11:04:55,  3.40it/s] 63%|██████▎   | 235676/371472 [7:43:23<11:43:45,  3.22it/s] 63%|██████▎   | 235677/371472 [7:43:23<11:27:21,  3.29it/s] 63%|██████▎   | 235678/371472 [7:43:23<11:33:24,  3.26it/s] 63%|██████▎   | 235679/371472 [7:43:24<11:53:53,  3.17it/s] 63%|██████▎   | 235680/371472 [7:43:24<11:07:04,  3.39it/s]                                                            {'loss': 3.0106, 'learning_rate': 4.2917322071149985e-07, 'epoch': 10.15}
 63%|██████▎   | 235680/371472 [7:43:24<11:07:04,  3.39it/s] 63%|██████▎   | 235681/371472 [7:43:24<11:15:28,  3.35it/s] 63%|██████▎   | 235682/371472 [7:43:25<11:34:42,  3.26it/s] 63%|██████▎   | 235683/371472 [7:43:25<11:48:00,  3.20it/s] 63%|██████▎   | 235684/371472 [7:43:25<11:18:59,  3.33it/s] 63%|██████▎   | 235685/371472 [7:43:25<11:12:34,  3.36it/s] 63%|██████▎   | 235686/371472 [7:43:26<11:18:09,  3.34it/s] 63%|██████▎   | 235687/371472 [7:43:26<10:58:55,  3.43it/s] 63%|██████▎   | 235688/371472 [7:43:26<10:39:42,  3.54it/s] 63%|██████▎   | 235689/371472 [7:43:27<10:26:35,  3.61it/s] 63%|██████▎   | 235690/371472 [7:43:27<10:28:03,  3.60it/s] 63%|██████▎   | 235691/371472 [7:43:27<11:39:31,  3.24it/s] 63%|██████▎   | 235692/371472 [7:43:28<12:25:33,  3.04it/s] 63%|██████▎   | 235693/371472 [7:43:28<13:09:40,  2.87it/s] 63%|██████▎   | 235694/371472 [7:43:28<12:12:24,  3.09it/s] 63%|██████▎   | 235695/371472 [7:43:29<11:30:02,  3.28it/s] 63%|██████▎   | 235696/371472 [7:43:29<11:11:47,  3.37it/s] 63%|██████▎   | 235697/371472 [7:43:29<10:57:05,  3.44it/s] 63%|██████▎   | 235698/371472 [7:43:29<11:02:11,  3.42it/s] 63%|██████▎   | 235699/371472 [7:43:30<11:04:52,  3.40it/s] 63%|██████▎   | 235700/371472 [7:43:30<10:27:14,  3.61it/s]                                                            {'loss': 2.8685, 'learning_rate': 4.29124738736021e-07, 'epoch': 10.15}
 63%|██████▎   | 235700/371472 [7:43:30<10:27:14,  3.61it/s] 63%|██████▎   | 235701/371472 [7:43:30<10:12:31,  3.69it/s] 63%|██████▎   | 235702/371472 [7:43:30<10:15:36,  3.68it/s] 63%|██████▎   | 235703/371472 [7:43:31<11:28:54,  3.28it/s] 63%|██████▎   | 235704/371472 [7:43:31<11:02:25,  3.42it/s] 63%|██████▎   | 235705/371472 [7:43:32<12:00:17,  3.14it/s] 63%|██████▎   | 235706/371472 [7:43:32<11:38:37,  3.24it/s] 63%|██████▎   | 235707/371472 [7:43:32<11:19:29,  3.33it/s] 63%|██████▎   | 235708/371472 [7:43:32<11:02:01,  3.42it/s] 63%|██████▎   | 235709/371472 [7:43:33<11:12:51,  3.36it/s] 63%|██████▎   | 235710/371472 [7:43:33<10:41:23,  3.53it/s] 63%|██████▎   | 235711/371472 [7:43:33<11:31:38,  3.27it/s] 63%|██████▎   | 235712/371472 [7:43:34<11:29:21,  3.28it/s] 63%|██████▎   | 235713/371472 [7:43:34<10:46:13,  3.50it/s] 63%|██████▎   | 235714/371472 [7:43:34<11:02:30,  3.42it/s] 63%|██████▎   | 235715/371472 [7:43:34<10:56:25,  3.45it/s] 63%|██████▎   | 235716/371472 [7:43:35<10:44:02,  3.51it/s] 63%|██████▎   | 235717/371472 [7:43:35<10:26:52,  3.61it/s] 63%|██████▎   | 235718/371472 [7:43:35<11:03:04,  3.41it/s] 63%|██████▎   | 235719/371472 [7:43:36<10:55:38,  3.45it/s] 63%|██████▎   | 235720/371472 [7:43:36<10:29:20,  3.60it/s]                                                            {'loss': 2.6483, 'learning_rate': 4.290762567605421e-07, 'epoch': 10.15}
 63%|██████▎   | 235720/371472 [7:43:36<10:29:20,  3.60it/s] 63%|██████▎   | 235721/371472 [7:43:36<10:46:57,  3.50it/s] 63%|██████▎   | 235722/371472 [7:43:36<10:26:19,  3.61it/s] 63%|██████▎   | 235723/371472 [7:43:37<10:40:45,  3.53it/s] 63%|██████▎   | 235724/371472 [7:43:37<10:45:45,  3.50it/s] 63%|██████▎   | 235725/371472 [7:43:37<11:03:47,  3.41it/s] 63%|██████▎   | 235726/371472 [7:43:38<11:16:26,  3.34it/s] 63%|██████▎   | 235727/371472 [7:43:38<10:56:34,  3.45it/s] 63%|██████▎   | 235728/371472 [7:43:38<11:01:54,  3.42it/s] 63%|██████▎   | 235729/371472 [7:43:38<10:41:42,  3.53it/s] 63%|██████▎   | 235730/371472 [7:43:39<10:43:08,  3.52it/s] 63%|██████▎   | 235731/371472 [7:43:39<10:27:39,  3.60it/s] 63%|██████▎   | 235732/371472 [7:43:39<10:47:52,  3.49it/s] 63%|██████▎   | 235733/371472 [7:43:40<10:45:40,  3.50it/s] 63%|██████▎   | 235734/371472 [7:43:40<10:54:40,  3.46it/s] 63%|██████▎   | 235735/371472 [7:43:40<10:26:26,  3.61it/s] 63%|██████▎   | 235736/371472 [7:43:40<10:05:42,  3.73it/s] 63%|██████▎   | 235737/371472 [7:43:41<10:07:56,  3.72it/s] 63%|██████▎   | 235738/371472 [7:43:41<10:00:27,  3.77it/s] 63%|██████▎   | 235739/371472 [7:43:41<10:51:04,  3.47it/s] 63%|██████▎   | 235740/371472 [7:43:41<10:48:01,  3.49it/s]                                                            {'loss': 2.7786, 'learning_rate': 4.2902777478506327e-07, 'epoch': 10.15}
 63%|██████▎   | 235740/371472 [7:43:41<10:48:01,  3.49it/s] 63%|██████▎   | 235741/371472 [7:43:42<11:33:51,  3.26it/s] 63%|██████▎   | 235742/371472 [7:43:42<11:29:01,  3.28it/s] 63%|██████▎   | 235743/371472 [7:43:42<11:49:21,  3.19it/s] 63%|██████▎   | 235744/371472 [7:43:43<11:20:30,  3.32it/s] 63%|██████▎   | 235745/371472 [7:43:43<11:32:21,  3.27it/s] 63%|██████▎   | 235746/371472 [7:43:43<10:49:59,  3.48it/s] 63%|██████▎   | 235747/371472 [7:43:44<10:35:41,  3.56it/s] 63%|██████▎   | 235748/371472 [7:43:44<10:18:18,  3.66it/s] 63%|██████▎   | 235749/371472 [7:43:44<10:19:44,  3.65it/s] 63%|██████▎   | 235750/371472 [7:43:44<10:14:47,  3.68it/s] 63%|██████▎   | 235751/371472 [7:43:45<10:15:21,  3.68it/s] 63%|██████▎   | 235752/371472 [7:43:45<10:19:35,  3.65it/s] 63%|██████▎   | 235753/371472 [7:43:45<10:22:02,  3.64it/s] 63%|██████▎   | 235754/371472 [7:43:45<10:28:38,  3.60it/s] 63%|██████▎   | 235755/371472 [7:43:46<10:36:20,  3.55it/s] 63%|██████▎   | 235756/371472 [7:43:46<11:20:43,  3.32it/s] 63%|██████▎   | 235757/371472 [7:43:46<11:20:14,  3.33it/s] 63%|██████▎   | 235758/371472 [7:43:47<11:12:07,  3.37it/s] 63%|██████▎   | 235759/371472 [7:43:47<10:52:56,  3.46it/s] 63%|██████▎   | 235760/371472 [7:43:47<10:17:37,  3.66it/s]                                                            {'loss': 2.9401, 'learning_rate': 4.289792928095843e-07, 'epoch': 10.15}
 63%|██████▎   | 235760/371472 [7:43:47<10:17:37,  3.66it/s] 63%|██████▎   | 235761/371472 [7:43:47<10:19:46,  3.65it/s] 63%|██████▎   | 235762/371472 [7:43:48<10:41:16,  3.53it/s] 63%|██████▎   | 235763/371472 [7:43:48<10:25:58,  3.61it/s] 63%|██████▎   | 235764/371472 [7:43:48<10:32:12,  3.58it/s] 63%|██████▎   | 235765/371472 [7:43:49<10:19:58,  3.65it/s] 63%|██████▎   | 235766/371472 [7:43:49<10:33:02,  3.57it/s] 63%|██████▎   | 235767/371472 [7:43:49<11:27:19,  3.29it/s] 63%|██████▎   | 235768/371472 [7:43:50<10:56:17,  3.45it/s] 63%|██████▎   | 235769/371472 [7:43:50<11:12:00,  3.37it/s] 63%|██████▎   | 235770/371472 [7:43:50<11:04:15,  3.40it/s] 63%|██████▎   | 235771/371472 [7:43:50<10:38:26,  3.54it/s] 63%|██████▎   | 235772/371472 [7:43:51<10:30:21,  3.59it/s] 63%|██████▎   | 235773/371472 [7:43:51<10:51:32,  3.47it/s] 63%|██████▎   | 235774/371472 [7:43:51<11:45:55,  3.20it/s] 63%|██████▎   | 235775/371472 [7:43:52<10:56:27,  3.45it/s] 63%|██████▎   | 235776/371472 [7:43:52<11:00:42,  3.42it/s] 63%|██████▎   | 235777/371472 [7:43:52<10:37:49,  3.55it/s] 63%|██████▎   | 235778/371472 [7:43:52<10:42:03,  3.52it/s] 63%|██████▎   | 235779/371472 [7:43:53<10:32:48,  3.57it/s] 63%|██████▎   | 235780/371472 [7:43:53<10:34:42,  3.56it/s]                                                            {'loss': 2.9923, 'learning_rate': 4.2893081083410547e-07, 'epoch': 10.16}
 63%|██████▎   | 235780/371472 [7:43:53<10:34:42,  3.56it/s] 63%|██████▎   | 235781/371472 [7:43:53<11:10:51,  3.37it/s] 63%|██████▎   | 235782/371472 [7:43:54<10:33:53,  3.57it/s] 63%|██████▎   | 235783/371472 [7:43:54<10:39:18,  3.54it/s] 63%|██████▎   | 235784/371472 [7:43:54<10:40:19,  3.53it/s] 63%|██████▎   | 235785/371472 [7:43:54<10:27:21,  3.60it/s] 63%|██████▎   | 235786/371472 [7:43:55<10:23:42,  3.63it/s] 63%|██████▎   | 235787/371472 [7:43:55<11:05:36,  3.40it/s] 63%|██████▎   | 235788/371472 [7:43:55<11:51:50,  3.18it/s] 63%|██████▎   | 235789/371472 [7:43:56<11:43:14,  3.22it/s] 63%|██████▎   | 235790/371472 [7:43:56<11:07:11,  3.39it/s] 63%|██████▎   | 235791/371472 [7:43:56<11:07:00,  3.39it/s] 63%|██████▎   | 235792/371472 [7:43:57<11:23:17,  3.31it/s] 63%|██████▎   | 235793/371472 [7:43:57<11:30:35,  3.27it/s] 63%|██████▎   | 235794/371472 [7:43:57<11:04:43,  3.40it/s] 63%|██████▎   | 235795/371472 [7:43:57<10:36:36,  3.55it/s] 63%|██████▎   | 235796/371472 [7:43:58<10:12:20,  3.69it/s] 63%|██████▎   | 235797/371472 [7:43:58<10:16:30,  3.67it/s] 63%|██████▎   | 235798/371472 [7:43:58<10:29:34,  3.59it/s] 63%|██████▎   | 235799/371472 [7:43:58<10:43:27,  3.51it/s] 63%|██████▎   | 235800/371472 [7:43:59<10:52:30,  3.47it/s]                                                            {'loss': 2.8164, 'learning_rate': 4.288823288586265e-07, 'epoch': 10.16}
 63%|██████▎   | 235800/371472 [7:43:59<10:52:30,  3.47it/s] 63%|██████▎   | 235801/371472 [7:43:59<10:30:01,  3.59it/s] 63%|██████▎   | 235802/371472 [7:43:59<10:12:11,  3.69it/s] 63%|██████▎   | 235803/371472 [7:44:00<10:17:41,  3.66it/s] 63%|██████▎   | 235804/371472 [7:44:00<10:45:55,  3.50it/s] 63%|██████▎   | 235805/371472 [7:44:00<11:48:37,  3.19it/s] 63%|██████▎   | 235806/371472 [7:44:01<11:37:53,  3.24it/s] 63%|██████▎   | 235807/371472 [7:44:01<11:38:16,  3.24it/s] 63%|██████▎   | 235808/371472 [7:44:01<11:03:48,  3.41it/s] 63%|██████▎   | 235809/371472 [7:44:01<10:54:41,  3.45it/s] 63%|██████▎   | 235810/371472 [7:44:02<10:37:34,  3.55it/s] 63%|██████▎   | 235811/371472 [7:44:02<10:35:57,  3.56it/s] 63%|██████▎   | 235812/371472 [7:44:02<10:46:58,  3.49it/s] 63%|██████▎   | 235813/371472 [7:44:02<10:32:54,  3.57it/s] 63%|██████▎   | 235814/371472 [7:44:03<11:13:27,  3.36it/s] 63%|██████▎   | 235815/371472 [7:44:03<11:46:20,  3.20it/s] 63%|██████▎   | 235816/371472 [7:44:03<11:14:40,  3.35it/s] 63%|██████▎   | 235817/371472 [7:44:04<10:35:56,  3.56it/s] 63%|██████▎   | 235818/371472 [7:44:04<10:45:38,  3.50it/s] 63%|██████▎   | 235819/371472 [7:44:04<10:40:39,  3.53it/s] 63%|██████▎   | 235820/371472 [7:44:05<10:22:12,  3.63it/s]                                                            {'loss': 2.7779, 'learning_rate': 4.2883384688314766e-07, 'epoch': 10.16}
 63%|██████▎   | 235820/371472 [7:44:05<10:22:12,  3.63it/s] 63%|██████▎   | 235821/371472 [7:44:05<10:17:24,  3.66it/s] 63%|██████▎   | 235822/371472 [7:44:05<10:14:31,  3.68it/s] 63%|██████▎   | 235823/371472 [7:44:05<10:08:26,  3.72it/s] 63%|██████▎   | 235824/371472 [7:44:06<10:03:35,  3.75it/s] 63%|██████▎   | 235825/371472 [7:44:06<10:47:24,  3.49it/s] 63%|██████▎   | 235826/371472 [7:44:06<10:21:39,  3.64it/s] 63%|██████▎   | 235827/371472 [7:44:06<10:13:32,  3.68it/s] 63%|██████▎   | 235828/371472 [7:44:07<10:17:04,  3.66it/s] 63%|██████▎   | 235829/371472 [7:44:07<11:06:05,  3.39it/s] 63%|██████▎   | 235830/371472 [7:44:07<10:41:34,  3.52it/s] 63%|██████▎   | 235831/371472 [7:44:08<11:28:08,  3.29it/s] 63%|██████▎   | 235832/371472 [7:44:08<11:42:29,  3.22it/s] 63%|██████▎   | 235833/371472 [7:44:08<11:33:04,  3.26it/s] 63%|██████▎   | 235834/371472 [7:44:09<11:16:01,  3.34it/s] 63%|██████▎   | 235835/371472 [7:44:09<11:15:10,  3.35it/s] 63%|██████▎   | 235836/371472 [7:44:09<10:50:03,  3.48it/s] 63%|██████▎   | 235837/371472 [7:44:09<10:52:20,  3.47it/s] 63%|██████▎   | 235838/371472 [7:44:10<10:58:00,  3.44it/s] 63%|██████▎   | 235839/371472 [7:44:10<10:41:42,  3.52it/s] 63%|██████▎   | 235840/371472 [7:44:10<10:26:05,  3.61it/s]                                                            {'loss': 2.8662, 'learning_rate': 4.2878536490766874e-07, 'epoch': 10.16}
 63%|██████▎   | 235840/371472 [7:44:10<10:26:05,  3.61it/s] 63%|██████▎   | 235841/371472 [7:44:11<10:34:51,  3.56it/s] 63%|██████▎   | 235842/371472 [7:44:11<10:33:58,  3.57it/s] 63%|██████▎   | 235843/371472 [7:44:11<10:30:51,  3.58it/s] 63%|██████▎   | 235844/371472 [7:44:11<10:51:03,  3.47it/s] 63%|██████▎   | 235845/371472 [7:44:12<10:44:24,  3.51it/s] 63%|██████▎   | 235846/371472 [7:44:12<10:31:10,  3.58it/s] 63%|██████▎   | 235847/371472 [7:44:12<10:28:20,  3.60it/s] 63%|██████▎   | 235848/371472 [7:44:12<10:23:50,  3.62it/s] 63%|██████▎   | 235849/371472 [7:44:13<10:16:05,  3.67it/s] 63%|██████▎   | 235850/371472 [7:44:13<10:06:42,  3.73it/s] 63%|██████▎   | 235851/371472 [7:44:13<10:03:52,  3.74it/s] 63%|██████▎   | 235852/371472 [7:44:14<10:21:24,  3.64it/s] 63%|██████▎   | 235853/371472 [7:44:14<10:19:59,  3.65it/s] 63%|██████▎   | 235854/371472 [7:44:14<10:34:40,  3.56it/s] 63%|██████▎   | 235855/371472 [7:44:14<10:22:31,  3.63it/s] 63%|██████▎   | 235856/371472 [7:44:15<11:24:21,  3.30it/s] 63%|██████▎   | 235857/371472 [7:44:15<10:56:44,  3.44it/s] 63%|██████▎   | 235858/371472 [7:44:15<12:07:57,  3.10it/s] 63%|██████▎   | 235859/371472 [7:44:16<11:47:25,  3.20it/s] 63%|██████▎   | 235860/371472 [7:44:16<11:28:41,  3.28it/s]                                                            {'loss': 2.8219, 'learning_rate': 4.2873688293218986e-07, 'epoch': 10.16}
 63%|██████▎   | 235860/371472 [7:44:16<11:28:41,  3.28it/s] 63%|██████▎   | 235861/371472 [7:44:16<11:05:24,  3.40it/s] 63%|██████▎   | 235862/371472 [7:44:17<10:36:28,  3.55it/s] 63%|██████▎   | 235863/371472 [7:44:17<11:36:54,  3.24it/s] 63%|██████▎   | 235864/371472 [7:44:17<12:20:16,  3.05it/s] 63%|██████▎   | 235865/371472 [7:44:18<11:41:30,  3.22it/s] 63%|██████▎   | 235866/371472 [7:44:18<11:27:21,  3.29it/s] 63%|██████▎   | 235867/371472 [7:44:18<11:05:48,  3.39it/s] 63%|██████▎   | 235868/371472 [7:44:18<10:52:13,  3.47it/s] 63%|██████▎   | 235869/371472 [7:44:19<10:26:33,  3.61it/s] 63%|██████▎   | 235870/371472 [7:44:19<10:23:02,  3.63it/s] 63%|██████▎   | 235871/371472 [7:44:19<10:45:16,  3.50it/s] 63%|██████▎   | 235872/371472 [7:44:19<10:44:09,  3.51it/s] 63%|██████▎   | 235873/371472 [7:44:20<11:36:03,  3.25it/s] 63%|██████▎   | 235874/371472 [7:44:20<11:26:58,  3.29it/s] 63%|██████▎   | 235875/371472 [7:44:20<10:49:47,  3.48it/s] 63%|██████▎   | 235876/371472 [7:44:21<10:38:50,  3.54it/s] 63%|██████▎   | 235877/371472 [7:44:21<10:17:28,  3.66it/s] 63%|██████▎   | 235878/371472 [7:44:21<11:11:00,  3.37it/s] 63%|██████▎   | 235879/371472 [7:44:22<10:52:33,  3.46it/s] 63%|██████▎   | 235880/371472 [7:44:22<10:52:49,  3.46it/s]                                                            {'loss': 2.8571, 'learning_rate': 4.2868840095671093e-07, 'epoch': 10.16}
 63%|██████▎   | 235880/371472 [7:44:22<10:52:49,  3.46it/s] 63%|██████▎   | 235881/371472 [7:44:22<10:49:04,  3.48it/s] 63%|██████▎   | 235882/371472 [7:44:22<10:29:28,  3.59it/s] 63%|██████▎   | 235883/371472 [7:44:23<10:20:36,  3.64it/s] 63%|██████▎   | 235884/371472 [7:44:23<10:03:22,  3.75it/s] 64%|██████▎   | 235885/371472 [7:44:23<10:18:17,  3.65it/s] 64%|██████▎   | 235886/371472 [7:44:23<10:05:57,  3.73it/s] 64%|██████▎   | 235887/371472 [7:44:24<10:19:16,  3.65it/s] 64%|██████▎   | 235888/371472 [7:44:24<10:10:29,  3.70it/s] 64%|██████▎   | 235889/371472 [7:44:24<10:57:26,  3.44it/s] 64%|██████▎   | 235890/371472 [7:44:25<10:28:07,  3.60it/s] 64%|██████▎   | 235891/371472 [7:44:25<10:17:22,  3.66it/s] 64%|██████▎   | 235892/371472 [7:44:25<10:14:26,  3.68it/s] 64%|██████▎   | 235893/371472 [7:44:25<10:04:58,  3.74it/s] 64%|██████▎   | 235894/371472 [7:44:26<9:46:41,  3.85it/s]  64%|██████▎   | 235895/371472 [7:44:26<9:44:24,  3.87it/s] 64%|██████▎   | 235896/371472 [7:44:26<10:41:51,  3.52it/s] 64%|██████▎   | 235897/371472 [7:44:26<10:58:55,  3.43it/s] 64%|██████▎   | 235898/371472 [7:44:27<11:05:29,  3.40it/s] 64%|██████▎   | 235899/371472 [7:44:27<10:52:04,  3.47it/s] 64%|██████▎   | 235900/371472 [7:44:27<10:54:12,  3.45it/s]                                                            {'loss': 2.8419, 'learning_rate': 4.286399189812321e-07, 'epoch': 10.16}
 64%|██████▎   | 235900/371472 [7:44:27<10:54:12,  3.45it/s] 64%|██████▎   | 235901/371472 [7:44:28<10:51:42,  3.47it/s] 64%|██████▎   | 235902/371472 [7:44:28<11:18:29,  3.33it/s] 64%|██████▎   | 235903/371472 [7:44:28<11:19:14,  3.33it/s] 64%|██████▎   | 235904/371472 [7:44:29<11:43:11,  3.21it/s] 64%|██████▎   | 235905/371472 [7:44:29<11:04:17,  3.40it/s] 64%|██████▎   | 235906/371472 [7:44:29<10:47:21,  3.49it/s] 64%|██████▎   | 235907/371472 [7:44:29<10:31:26,  3.58it/s] 64%|██████▎   | 235908/371472 [7:44:30<10:41:16,  3.52it/s] 64%|██████▎   | 235909/371472 [7:44:30<10:28:57,  3.59it/s] 64%|██████▎   | 235910/371472 [7:44:30<10:00:43,  3.76it/s] 64%|██████▎   | 235911/371472 [7:44:31<11:14:11,  3.35it/s] 64%|██████▎   | 235912/371472 [7:44:31<10:51:57,  3.47it/s] 64%|██████▎   | 235913/371472 [7:44:31<10:18:03,  3.66it/s] 64%|██████▎   | 235914/371472 [7:44:31<10:14:41,  3.68it/s] 64%|██████▎   | 235915/371472 [7:44:32<10:16:30,  3.66it/s] 64%|██████▎   | 235916/371472 [7:44:32<10:35:31,  3.55it/s] 64%|██████▎   | 235917/371472 [7:44:32<10:21:18,  3.64it/s] 64%|██████▎   | 235918/371472 [7:44:32<10:36:46,  3.55it/s] 64%|██████▎   | 235919/371472 [7:44:33<10:22:23,  3.63it/s] 64%|██████▎   | 235920/371472 [7:44:33<10:52:23,  3.46it/s]                                                            {'loss': 2.8924, 'learning_rate': 4.285914370057532e-07, 'epoch': 10.16}
 64%|██████▎   | 235920/371472 [7:44:33<10:52:23,  3.46it/s] 64%|██████▎   | 235921/371472 [7:44:33<10:35:02,  3.56it/s] 64%|██████▎   | 235922/371472 [7:44:34<10:34:35,  3.56it/s] 64%|██████▎   | 235923/371472 [7:44:34<10:17:00,  3.66it/s] 64%|██████▎   | 235924/371472 [7:44:34<10:38:42,  3.54it/s] 64%|██████▎   | 235925/371472 [7:44:34<10:29:30,  3.59it/s] 64%|██████▎   | 235926/371472 [7:44:35<9:59:20,  3.77it/s]  64%|██████▎   | 235927/371472 [7:44:35<9:53:34,  3.81it/s] 64%|██████▎   | 235928/371472 [7:44:35<10:00:31,  3.76it/s] 64%|██████▎   | 235929/371472 [7:44:35<9:53:53,  3.80it/s]  64%|██████▎   | 235930/371472 [7:44:36<10:20:51,  3.64it/s] 64%|██████▎   | 235931/371472 [7:44:36<10:14:45,  3.67it/s] 64%|██████▎   | 235932/371472 [7:44:36<10:01:27,  3.76it/s] 64%|██████▎   | 235933/371472 [7:44:37<9:57:13,  3.78it/s]  64%|██████▎   | 235934/371472 [7:44:37<10:15:27,  3.67it/s] 64%|██████▎   | 235935/371472 [7:44:37<9:56:52,  3.78it/s]  64%|██████▎   | 235936/371472 [7:44:37<10:14:59,  3.67it/s] 64%|██████▎   | 235937/371472 [7:44:38<11:04:03,  3.40it/s] 64%|██████▎   | 235938/371472 [7:44:38<10:47:15,  3.49it/s] 64%|██████▎   | 235939/371472 [7:44:38<10:39:46,  3.53it/s] 64%|██████▎   | 235940/371472 [7:44:39<10:50:26,  3.47it/s]                                                            {'loss': 2.9723, 'learning_rate': 4.285429550302743e-07, 'epoch': 10.16}
 64%|██████▎   | 235940/371472 [7:44:39<10:50:26,  3.47it/s] 64%|██████▎   | 235941/371472 [7:44:39<10:24:20,  3.62it/s] 64%|██████▎   | 235942/371472 [7:44:39<10:30:58,  3.58it/s] 64%|██████▎   | 235943/371472 [7:44:39<10:08:55,  3.71it/s] 64%|██████▎   | 235944/371472 [7:44:40<10:28:44,  3.59it/s] 64%|██████▎   | 235945/371472 [7:44:40<10:42:59,  3.51it/s] 64%|██████▎   | 235946/371472 [7:44:40<10:48:56,  3.48it/s] 64%|██████▎   | 235947/371472 [7:44:40<10:52:41,  3.46it/s] 64%|██████▎   | 235948/371472 [7:44:41<11:31:11,  3.27it/s] 64%|██████▎   | 235949/371472 [7:44:41<11:00:29,  3.42it/s] 64%|██████▎   | 235950/371472 [7:44:41<10:55:14,  3.45it/s] 64%|██████▎   | 235951/371472 [7:44:42<11:12:52,  3.36it/s] 64%|██████▎   | 235952/371472 [7:44:42<11:56:53,  3.15it/s] 64%|██████▎   | 235953/371472 [7:44:42<12:41:29,  2.97it/s] 64%|██████▎   | 235954/371472 [7:44:43<11:46:34,  3.20it/s] 64%|██████▎   | 235955/371472 [7:44:43<10:55:12,  3.45it/s] 64%|██████▎   | 235956/371472 [7:44:43<10:29:45,  3.59it/s] 64%|██████▎   | 235957/371472 [7:44:43<10:31:56,  3.57it/s] 64%|██████▎   | 235958/371472 [7:44:44<10:30:28,  3.58it/s] 64%|██████▎   | 235959/371472 [7:44:44<10:46:38,  3.49it/s] 64%|██████▎   | 235960/371472 [7:44:44<10:35:17,  3.56it/s]                                                            {'loss': 2.9206, 'learning_rate': 4.284944730547954e-07, 'epoch': 10.16}
 64%|██████▎   | 235960/371472 [7:44:44<10:35:17,  3.56it/s] 64%|██████▎   | 235961/371472 [7:44:45<10:15:13,  3.67it/s] 64%|██████▎   | 235962/371472 [7:44:45<9:57:26,  3.78it/s]  64%|██████▎   | 235963/371472 [7:44:45<9:53:24,  3.81it/s] 64%|██████▎   | 235964/371472 [7:44:45<10:06:01,  3.73it/s] 64%|██████▎   | 235965/371472 [7:44:46<10:41:57,  3.52it/s] 64%|██████▎   | 235966/371472 [7:44:46<10:55:52,  3.44it/s] 64%|██████▎   | 235967/371472 [7:44:46<10:38:15,  3.54it/s] 64%|██████▎   | 235968/371472 [7:44:47<10:41:33,  3.52it/s] 64%|██████▎   | 235969/371472 [7:44:47<11:15:46,  3.34it/s] 64%|██████▎   | 235970/371472 [7:44:47<11:22:10,  3.31it/s] 64%|██████▎   | 235971/371472 [7:44:47<10:52:22,  3.46it/s] 64%|██████▎   | 235972/371472 [7:44:48<10:43:59,  3.51it/s] 64%|██████▎   | 235973/371472 [7:44:48<10:08:46,  3.71it/s] 64%|██████▎   | 235974/371472 [7:44:48<10:05:47,  3.73it/s] 64%|██████▎   | 235975/371472 [7:44:49<10:23:57,  3.62it/s] 64%|██████▎   | 235976/371472 [7:44:49<10:57:16,  3.44it/s] 64%|██████▎   | 235977/371472 [7:44:49<10:40:55,  3.52it/s] 64%|██████▎   | 235978/371472 [7:44:49<11:25:23,  3.29it/s] 64%|██████▎   | 235979/371472 [7:44:50<10:58:12,  3.43it/s] 64%|██████▎   | 235980/371472 [7:44:50<11:11:34,  3.36it/s]                                                            {'loss': 3.0309, 'learning_rate': 4.284459910793165e-07, 'epoch': 10.16}
 64%|██████▎   | 235980/371472 [7:44:50<11:11:34,  3.36it/s] 64%|██████▎   | 235981/371472 [7:44:50<10:42:32,  3.51it/s] 64%|██████▎   | 235982/371472 [7:44:51<11:14:16,  3.35it/s] 64%|██████▎   | 235983/371472 [7:44:51<10:41:54,  3.52it/s] 64%|██████▎   | 235984/371472 [7:44:51<10:37:16,  3.54it/s] 64%|██████▎   | 235985/371472 [7:44:51<10:26:34,  3.60it/s] 64%|██████▎   | 235986/371472 [7:44:52<10:45:09,  3.50it/s] 64%|██████▎   | 235987/371472 [7:44:52<10:53:37,  3.45it/s] 64%|██████▎   | 235988/371472 [7:44:52<10:55:24,  3.45it/s] 64%|██████▎   | 235989/371472 [7:44:53<10:43:02,  3.51it/s] 64%|██████▎   | 235990/371472 [7:44:53<11:01:31,  3.41it/s] 64%|██████▎   | 235991/371472 [7:44:53<10:42:29,  3.51it/s] 64%|██████▎   | 235992/371472 [7:44:53<10:14:16,  3.68it/s] 64%|██████▎   | 235993/371472 [7:44:54<10:15:49,  3.67it/s] 64%|██████▎   | 235994/371472 [7:44:54<10:42:45,  3.51it/s] 64%|██████▎   | 235995/371472 [7:44:54<10:25:13,  3.61it/s] 64%|██████▎   | 235996/371472 [7:44:55<10:13:37,  3.68it/s] 64%|██████▎   | 235997/371472 [7:44:55<10:49:47,  3.47it/s] 64%|██████▎   | 235998/371472 [7:44:55<10:17:52,  3.65it/s] 64%|██████▎   | 235999/371472 [7:44:55<11:27:42,  3.28it/s] 64%|██████▎   | 236000/371472 [7:44:56<11:43:47,  3.21it/s]                                                            {'loss': 2.8396, 'learning_rate': 4.2839750910383757e-07, 'epoch': 10.16}
 64%|██████▎   | 236000/371472 [7:44:56<11:43:47,  3.21it/s] 64%|██████▎   | 236001/371472 [7:44:56<11:01:23,  3.41it/s] 64%|██████▎   | 236002/371472 [7:44:56<10:45:32,  3.50it/s] 64%|██████▎   | 236003/371472 [7:44:57<11:15:51,  3.34it/s] 64%|██████▎   | 236004/371472 [7:44:57<11:26:46,  3.29it/s] 64%|██████▎   | 236005/371472 [7:44:57<11:07:25,  3.38it/s] 64%|██████▎   | 236006/371472 [7:44:57<10:43:50,  3.51it/s] 64%|██████▎   | 236007/371472 [7:44:58<10:26:15,  3.61it/s] 64%|██████▎   | 236008/371472 [7:44:58<10:15:59,  3.67it/s] 64%|██████▎   | 236009/371472 [7:44:58<10:44:26,  3.50it/s] 64%|██████▎   | 236010/371472 [7:44:59<10:28:47,  3.59it/s] 64%|██████▎   | 236011/371472 [7:44:59<10:27:57,  3.60it/s] 64%|██████▎   | 236012/371472 [7:44:59<11:00:40,  3.42it/s] 64%|██████▎   | 236013/371472 [7:44:59<10:49:51,  3.47it/s] 64%|██████▎   | 236014/371472 [7:45:00<10:28:18,  3.59it/s] 64%|██████▎   | 236015/371472 [7:45:00<10:36:33,  3.55it/s] 64%|██████▎   | 236016/371472 [7:45:00<10:46:42,  3.49it/s] 64%|██████▎   | 236017/371472 [7:45:01<10:19:25,  3.64it/s] 64%|██████▎   | 236018/371472 [7:45:01<11:06:32,  3.39it/s] 64%|██████▎   | 236019/371472 [7:45:01<11:05:34,  3.39it/s] 64%|██████▎   | 236020/371472 [7:45:01<10:49:04,  3.48it/s]                                                            {'loss': 2.7736, 'learning_rate': 4.2834902712835875e-07, 'epoch': 10.17}
 64%|██████▎   | 236020/371472 [7:45:01<10:49:04,  3.48it/s] 64%|██████▎   | 236021/371472 [7:45:02<11:00:58,  3.42it/s] 64%|██████▎   | 236022/371472 [7:45:02<11:17:48,  3.33it/s] 64%|██████▎   | 236023/371472 [7:45:02<10:42:33,  3.51it/s] 64%|██████▎   | 236024/371472 [7:45:03<10:39:11,  3.53it/s] 64%|██████▎   | 236025/371472 [7:45:03<10:26:42,  3.60it/s] 64%|██████▎   | 236026/371472 [7:45:03<10:12:23,  3.69it/s] 64%|██████▎   | 236027/371472 [7:45:03<9:54:07,  3.80it/s]  64%|██████▎   | 236028/371472 [7:45:04<10:48:09,  3.48it/s] 64%|██████▎   | 236029/371472 [7:45:04<10:30:44,  3.58it/s] 64%|██████▎   | 236030/371472 [7:45:04<10:48:06,  3.48it/s] 64%|██████▎   | 236031/371472 [7:45:05<10:43:14,  3.51it/s] 64%|██████▎   | 236032/371472 [7:45:05<10:22:29,  3.63it/s] 64%|██████▎   | 236033/371472 [7:45:05<10:06:53,  3.72it/s] 64%|██████▎   | 236034/371472 [7:45:05<9:59:24,  3.77it/s]  64%|██████▎   | 236035/371472 [7:45:06<11:06:58,  3.38it/s] 64%|██████▎   | 236036/371472 [7:45:06<10:53:13,  3.46it/s] 64%|██████▎   | 236037/371472 [7:45:06<10:29:54,  3.58it/s] 64%|██████▎   | 236038/371472 [7:45:06<10:14:28,  3.67it/s] 64%|██████▎   | 236039/371472 [7:45:07<10:09:07,  3.71it/s] 64%|██████▎   | 236040/371472 [7:45:07<10:00:13,  3.76it/s]                                                            {'loss': 2.9078, 'learning_rate': 4.283005451528798e-07, 'epoch': 10.17}
 64%|██████▎   | 236040/371472 [7:45:07<10:00:13,  3.76it/s] 64%|██████▎   | 236041/371472 [7:45:07<10:35:17,  3.55it/s] 64%|██████▎   | 236042/371472 [7:45:08<11:27:38,  3.28it/s] 64%|██████▎   | 236043/371472 [7:45:08<11:01:20,  3.41it/s] 64%|██████▎   | 236044/371472 [7:45:08<11:03:36,  3.40it/s] 64%|██████▎   | 236045/371472 [7:45:09<11:17:09,  3.33it/s] 64%|██████▎   | 236046/371472 [7:45:09<11:32:15,  3.26it/s] 64%|██████▎   | 236047/371472 [7:45:09<11:28:41,  3.28it/s] 64%|██████▎   | 236048/371472 [7:45:09<11:03:57,  3.40it/s] 64%|██████▎   | 236049/371472 [7:45:10<10:34:50,  3.56it/s] 64%|██████▎   | 236050/371472 [7:45:10<11:34:57,  3.25it/s] 64%|██████▎   | 236051/371472 [7:45:10<11:06:27,  3.39it/s] 64%|██████▎   | 236052/371472 [7:45:11<10:27:10,  3.60it/s] 64%|██████▎   | 236053/371472 [7:45:11<10:33:02,  3.57it/s] 64%|██████▎   | 236054/371472 [7:45:11<10:56:54,  3.44it/s] 64%|██████▎   | 236055/371472 [7:45:11<11:05:13,  3.39it/s] 64%|██████▎   | 236056/371472 [7:45:12<10:49:16,  3.48it/s] 64%|██████▎   | 236057/371472 [7:45:12<10:28:11,  3.59it/s] 64%|██████▎   | 236058/371472 [7:45:12<10:59:06,  3.42it/s] 64%|██████▎   | 236059/371472 [7:45:13<10:49:17,  3.48it/s] 64%|██████▎   | 236060/371472 [7:45:13<11:21:46,  3.31it/s]                                                            {'loss': 2.9617, 'learning_rate': 4.2825206317740095e-07, 'epoch': 10.17}
 64%|██████▎   | 236060/371472 [7:45:13<11:21:46,  3.31it/s] 64%|██████▎   | 236061/371472 [7:45:13<11:33:13,  3.26it/s] 64%|██████▎   | 236062/371472 [7:45:14<11:06:29,  3.39it/s] 64%|██████▎   | 236063/371472 [7:45:14<10:30:04,  3.58it/s] 64%|██████▎   | 236064/371472 [7:45:14<10:05:52,  3.72it/s] 64%|██████▎   | 236065/371472 [7:45:14<10:16:36,  3.66it/s] 64%|██████▎   | 236066/371472 [7:45:15<10:07:53,  3.71it/s] 64%|██████▎   | 236067/371472 [7:45:15<10:34:08,  3.56it/s] 64%|██████▎   | 236068/371472 [7:45:15<10:06:14,  3.72it/s] 64%|██████▎   | 236069/371472 [7:45:15<10:32:54,  3.57it/s] 64%|██████▎   | 236070/371472 [7:45:16<11:05:30,  3.39it/s] 64%|██████▎   | 236071/371472 [7:45:16<10:28:44,  3.59it/s] 64%|██████▎   | 236072/371472 [7:45:16<10:39:20,  3.53it/s] 64%|██████▎   | 236073/371472 [7:45:17<10:45:05,  3.50it/s] 64%|██████▎   | 236074/371472 [7:45:17<11:58:29,  3.14it/s] 64%|██████▎   | 236075/371472 [7:45:17<11:22:29,  3.31it/s] 64%|██████▎   | 236076/371472 [7:45:18<11:28:26,  3.28it/s] 64%|██████▎   | 236077/371472 [7:45:18<11:24:14,  3.30it/s] 64%|██████▎   | 236078/371472 [7:45:18<10:37:47,  3.54it/s] 64%|██████▎   | 236079/371472 [7:45:18<10:23:37,  3.62it/s] 64%|██████▎   | 236080/371472 [7:45:19<10:29:12,  3.59it/s]                                                            {'loss': 2.854, 'learning_rate': 4.28203581201922e-07, 'epoch': 10.17}
 64%|██████▎   | 236080/371472 [7:45:19<10:29:12,  3.59it/s] 64%|██████▎   | 236081/371472 [7:45:19<10:12:25,  3.68it/s] 64%|██████▎   | 236082/371472 [7:45:19<10:14:53,  3.67it/s] 64%|██████▎   | 236083/371472 [7:45:19<10:23:12,  3.62it/s] 64%|██████▎   | 236084/371472 [7:45:20<10:39:34,  3.53it/s] 64%|██████▎   | 236085/371472 [7:45:20<10:23:08,  3.62it/s] 64%|██████▎   | 236086/371472 [7:45:20<10:23:07,  3.62it/s] 64%|██████▎   | 236087/371472 [7:45:21<10:13:32,  3.68it/s] 64%|██████▎   | 236088/371472 [7:45:21<9:59:31,  3.76it/s]  64%|██████▎   | 236089/371472 [7:45:21<10:40:25,  3.52it/s] 64%|██████▎   | 236090/371472 [7:45:21<10:34:12,  3.56it/s] 64%|██████▎   | 236091/371472 [7:45:22<10:35:50,  3.55it/s] 64%|██████▎   | 236092/371472 [7:45:22<10:53:05,  3.45it/s] 64%|██████▎   | 236093/371472 [7:45:22<10:54:19,  3.45it/s] 64%|██████▎   | 236094/371472 [7:45:23<10:52:49,  3.46it/s] 64%|██████▎   | 236095/371472 [7:45:23<11:29:06,  3.27it/s] 64%|██████▎   | 236096/371472 [7:45:23<11:12:34,  3.35it/s] 64%|██████▎   | 236097/371472 [7:45:23<11:14:36,  3.34it/s] 64%|██████▎   | 236098/371472 [7:45:24<11:18:49,  3.32it/s] 64%|██████▎   | 236099/371472 [7:45:24<10:52:32,  3.46it/s] 64%|██████▎   | 236100/371472 [7:45:24<10:20:44,  3.63it/s]                                                            {'loss': 2.9356, 'learning_rate': 4.281550992264432e-07, 'epoch': 10.17}
 64%|██████▎   | 236100/371472 [7:45:24<10:20:44,  3.63it/s] 64%|██████▎   | 236101/371472 [7:45:25<10:09:34,  3.70it/s] 64%|██████▎   | 236102/371472 [7:45:25<9:53:46,  3.80it/s]  64%|██████▎   | 236103/371472 [7:45:25<10:17:22,  3.65it/s] 64%|██████▎   | 236104/371472 [7:45:25<10:08:00,  3.71it/s] 64%|██████▎   | 236105/371472 [7:45:26<10:34:28,  3.56it/s] 64%|██████▎   | 236106/371472 [7:45:26<10:20:26,  3.64it/s] 64%|██████▎   | 236107/371472 [7:45:26<11:03:48,  3.40it/s] 64%|██████▎   | 236108/371472 [7:45:27<11:30:18,  3.27it/s] 64%|██████▎   | 236109/371472 [7:45:27<11:29:51,  3.27it/s] 64%|██████▎   | 236110/371472 [7:45:27<11:27:47,  3.28it/s] 64%|██████▎   | 236111/371472 [7:45:27<10:42:14,  3.51it/s] 64%|██████▎   | 236112/371472 [7:45:28<10:58:56,  3.42it/s] 64%|██████▎   | 236113/371472 [7:45:28<10:51:20,  3.46it/s] 64%|██████▎   | 236114/371472 [7:45:28<11:17:36,  3.33it/s] 64%|██████▎   | 236115/371472 [7:45:29<11:06:07,  3.39it/s] 64%|██████▎   | 236116/371472 [7:45:29<10:36:04,  3.55it/s] 64%|██████▎   | 236117/371472 [7:45:29<11:19:11,  3.32it/s] 64%|██████▎   | 236118/371472 [7:45:30<12:19:24,  3.05it/s] 64%|██████▎   | 236119/371472 [7:45:30<11:58:02,  3.14it/s] 64%|██████▎   | 236120/371472 [7:45:30<11:29:51,  3.27it/s]                                                            {'loss': 2.7902, 'learning_rate': 4.281066172509642e-07, 'epoch': 10.17}
 64%|██████▎   | 236120/371472 [7:45:30<11:29:51,  3.27it/s] 64%|██████▎   | 236121/371472 [7:45:30<11:26:02,  3.29it/s] 64%|██████▎   | 236122/371472 [7:45:31<10:58:13,  3.43it/s] 64%|██████▎   | 236123/371472 [7:45:31<10:34:04,  3.56it/s] 64%|██████▎   | 236124/371472 [7:45:31<10:41:37,  3.52it/s] 64%|██████▎   | 236125/371472 [7:45:32<10:28:34,  3.59it/s] 64%|██████▎   | 236126/371472 [7:45:32<11:25:48,  3.29it/s] 64%|██████▎   | 236127/371472 [7:45:32<11:16:08,  3.34it/s] 64%|██████▎   | 236128/371472 [7:45:32<10:47:37,  3.48it/s] 64%|██████▎   | 236129/371472 [7:45:33<10:33:20,  3.56it/s] 64%|██████▎   | 236130/371472 [7:45:33<10:51:26,  3.46it/s] 64%|██████▎   | 236131/371472 [7:45:33<10:26:56,  3.60it/s] 64%|██████▎   | 236132/371472 [7:45:34<10:08:29,  3.71it/s] 64%|██████▎   | 236133/371472 [7:45:34<10:20:49,  3.63it/s] 64%|██████▎   | 236134/371472 [7:45:34<10:09:49,  3.70it/s] 64%|██████▎   | 236135/371472 [7:45:34<9:56:44,  3.78it/s]  64%|██████▎   | 236136/371472 [7:45:35<10:02:59,  3.74it/s] 64%|██████▎   | 236137/371472 [7:45:35<10:02:10,  3.75it/s] 64%|██████▎   | 236138/371472 [7:45:35<9:50:51,  3.82it/s]  64%|██████▎   | 236139/371472 [7:45:35<9:43:33,  3.87it/s] 64%|██████▎   | 236140/371472 [7:45:36<9:33:45,  3.93it/s]                                                           {'loss': 2.8966, 'learning_rate': 4.280581352754854e-07, 'epoch': 10.17}
 64%|██████▎   | 236140/371472 [7:45:36<9:33:45,  3.93it/s] 64%|██████▎   | 236141/371472 [7:45:36<9:38:43,  3.90it/s] 64%|██████▎   | 236142/371472 [7:45:36<9:58:02,  3.77it/s] 64%|██████▎   | 236143/371472 [7:45:36<9:51:35,  3.81it/s] 64%|██████▎   | 236144/371472 [7:45:37<10:15:58,  3.66it/s] 64%|██████▎   | 236145/371472 [7:45:37<10:38:42,  3.53it/s] 64%|██████▎   | 236146/371472 [7:45:37<10:46:30,  3.49it/s] 64%|██████▎   | 236147/371472 [7:45:38<11:54:04,  3.16it/s] 64%|██████▎   | 236148/371472 [7:45:38<12:09:01,  3.09it/s] 64%|██████▎   | 236149/371472 [7:45:38<12:18:25,  3.05it/s] 64%|██████▎   | 236150/371472 [7:45:39<11:20:16,  3.32it/s] 64%|██████▎   | 236151/371472 [7:45:39<10:55:50,  3.44it/s] 64%|██████▎   | 236152/371472 [7:45:39<10:19:09,  3.64it/s] 64%|██████▎   | 236153/371472 [7:45:39<10:13:12,  3.68it/s] 64%|██████▎   | 236154/371472 [7:45:40<9:59:38,  3.76it/s]  64%|██████▎   | 236155/371472 [7:45:40<10:10:47,  3.69it/s] 64%|██████▎   | 236156/371472 [7:45:40<10:01:28,  3.75it/s] 64%|██████▎   | 236157/371472 [7:45:40<9:59:41,  3.76it/s]  64%|██████▎   | 236158/371472 [7:45:41<9:51:28,  3.81it/s] 64%|██████▎   | 236159/371472 [7:45:41<10:07:17,  3.71it/s] 64%|██████▎   | 236160/371472 [7:45:41<10:04:42,  3.73it/s]                                                            {'loss': 2.7286, 'learning_rate': 4.280096533000064e-07, 'epoch': 10.17}
 64%|██████▎   | 236160/371472 [7:45:41<10:04:42,  3.73it/s] 64%|██████▎   | 236161/371472 [7:45:42<11:10:00,  3.37it/s] 64%|██████▎   | 236162/371472 [7:45:42<10:40:58,  3.52it/s] 64%|██████▎   | 236163/371472 [7:45:42<10:44:03,  3.50it/s] 64%|██████▎   | 236164/371472 [7:45:42<10:21:32,  3.63it/s] 64%|██████▎   | 236165/371472 [7:45:43<10:21:27,  3.63it/s] 64%|██████▎   | 236166/371472 [7:45:43<11:02:37,  3.40it/s] 64%|██████▎   | 236167/371472 [7:45:43<10:53:13,  3.45it/s] 64%|██████▎   | 236168/371472 [7:45:44<10:40:44,  3.52it/s] 64%|██████▎   | 236169/371472 [7:45:44<10:33:05,  3.56it/s] 64%|██████▎   | 236170/371472 [7:45:44<10:37:08,  3.54it/s] 64%|██████▎   | 236171/371472 [7:45:44<10:46:52,  3.49it/s] 64%|██████▎   | 236172/371472 [7:45:45<10:32:55,  3.56it/s] 64%|██████▎   | 236173/371472 [7:45:45<10:44:18,  3.50it/s] 64%|██████▎   | 236174/371472 [7:45:45<10:28:30,  3.59it/s] 64%|██████▎   | 236175/371472 [7:45:46<10:51:27,  3.46it/s] 64%|██████▎   | 236176/371472 [7:45:46<11:11:00,  3.36it/s] 64%|██████▎   | 236177/371472 [7:45:46<11:14:51,  3.34it/s] 64%|██████▎   | 236178/371472 [7:45:47<11:19:43,  3.32it/s] 64%|██████▎   | 236179/371472 [7:45:47<11:15:24,  3.34it/s] 64%|██████▎   | 236180/371472 [7:45:47<11:03:12,  3.40it/s]                                                            {'loss': 2.901, 'learning_rate': 4.279611713245275e-07, 'epoch': 10.17}
 64%|██████▎   | 236180/371472 [7:45:47<11:03:12,  3.40it/s] 64%|██████▎   | 236181/371472 [7:45:47<10:39:49,  3.52it/s] 64%|██████▎   | 236182/371472 [7:45:48<10:23:58,  3.61it/s] 64%|██████▎   | 236183/371472 [7:45:48<11:32:40,  3.26it/s] 64%|██████▎   | 236184/371472 [7:45:48<11:23:08,  3.30it/s] 64%|██████▎   | 236185/371472 [7:45:49<11:01:12,  3.41it/s] 64%|██████▎   | 236186/371472 [7:45:49<11:54:59,  3.15it/s] 64%|██████▎   | 236187/371472 [7:45:49<12:29:05,  3.01it/s] 64%|██████▎   | 236188/371472 [7:45:50<11:51:00,  3.17it/s] 64%|██████▎   | 236189/371472 [7:45:50<11:50:52,  3.17it/s] 64%|██████▎   | 236190/371472 [7:45:50<11:37:32,  3.23it/s] 64%|██████▎   | 236191/371472 [7:45:50<11:21:09,  3.31it/s] 64%|██████▎   | 236192/371472 [7:45:51<10:46:29,  3.49it/s] 64%|██████▎   | 236193/371472 [7:45:51<10:34:08,  3.56it/s] 64%|██████▎   | 236194/371472 [7:45:51<10:31:26,  3.57it/s] 64%|██████▎   | 236195/371472 [7:45:52<10:23:44,  3.61it/s] 64%|██████▎   | 236196/371472 [7:45:52<10:28:20,  3.59it/s] 64%|██████▎   | 236197/371472 [7:45:52<10:25:16,  3.61it/s] 64%|██████▎   | 236198/371472 [7:45:52<10:04:16,  3.73it/s] 64%|██████▎   | 236199/371472 [7:45:53<10:02:03,  3.74it/s] 64%|██████▎   | 236200/371472 [7:45:53<10:08:34,  3.70it/s]                                                            {'loss': 2.7698, 'learning_rate': 4.2791268934904866e-07, 'epoch': 10.17}
 64%|██████▎   | 236200/371472 [7:45:53<10:08:34,  3.70it/s] 64%|██████▎   | 236201/371472 [7:45:53<10:15:52,  3.66it/s] 64%|██████▎   | 236202/371472 [7:45:53<10:06:41,  3.72it/s] 64%|██████▎   | 236203/371472 [7:45:54<11:08:06,  3.37it/s] 64%|██████▎   | 236204/371472 [7:45:54<10:45:20,  3.49it/s] 64%|██████▎   | 236205/371472 [7:45:54<11:43:23,  3.21it/s] 64%|██████▎   | 236206/371472 [7:45:55<11:18:32,  3.32it/s] 64%|██████▎   | 236207/371472 [7:45:55<10:59:40,  3.42it/s] 64%|██████▎   | 236208/371472 [7:45:55<11:13:19,  3.35it/s] 64%|██████▎   | 236209/371472 [7:45:56<10:51:24,  3.46it/s] 64%|██████▎   | 236210/371472 [7:45:56<10:45:26,  3.49it/s] 64%|██████▎   | 236211/371472 [7:45:56<10:47:55,  3.48it/s] 64%|██████▎   | 236212/371472 [7:45:56<10:28:10,  3.59it/s] 64%|██████▎   | 236213/371472 [7:45:57<10:50:58,  3.46it/s] 64%|██████▎   | 236214/371472 [7:45:57<10:35:44,  3.55it/s] 64%|██████▎   | 236215/371472 [7:45:57<10:49:04,  3.47it/s] 64%|██████▎   | 236216/371472 [7:45:58<10:31:59,  3.57it/s] 64%|██████▎   | 236217/371472 [7:45:58<10:24:23,  3.61it/s] 64%|██████▎   | 236218/371472 [7:45:58<10:31:33,  3.57it/s] 64%|██████▎   | 236219/371472 [7:45:58<10:29:58,  3.58it/s] 64%|██████▎   | 236220/371472 [7:45:59<10:54:04,  3.45it/s]                                                            {'loss': 3.0101, 'learning_rate': 4.2786420737356973e-07, 'epoch': 10.17}
 64%|██████▎   | 236220/371472 [7:45:59<10:54:04,  3.45it/s] 64%|██████▎   | 236221/371472 [7:45:59<11:30:03,  3.27it/s] 64%|██████▎   | 236222/371472 [7:45:59<11:39:28,  3.22it/s] 64%|██████▎   | 236223/371472 [7:46:00<10:56:22,  3.43it/s] 64%|██████▎   | 236224/371472 [7:46:00<10:28:46,  3.58it/s] 64%|██████▎   | 236225/371472 [7:46:00<10:52:21,  3.46it/s] 64%|██████▎   | 236226/371472 [7:46:00<10:27:28,  3.59it/s] 64%|██████▎   | 236227/371472 [7:46:01<10:32:17,  3.56it/s] 64%|██████▎   | 236228/371472 [7:46:01<10:25:12,  3.61it/s] 64%|██████▎   | 236229/371472 [7:46:01<10:35:42,  3.55it/s] 64%|██████▎   | 236230/371472 [7:46:02<10:38:52,  3.53it/s] 64%|██████▎   | 236231/371472 [7:46:02<10:49:26,  3.47it/s] 64%|██████▎   | 236232/371472 [7:46:02<10:43:19,  3.50it/s] 64%|██████▎   | 236233/371472 [7:46:02<10:37:35,  3.54it/s] 64%|██████▎   | 236234/371472 [7:46:03<10:42:36,  3.51it/s] 64%|██████▎   | 236235/371472 [7:46:03<11:00:03,  3.41it/s] 64%|██████▎   | 236236/371472 [7:46:03<10:29:38,  3.58it/s] 64%|██████▎   | 236237/371472 [7:46:04<11:09:47,  3.37it/s] 64%|██████▎   | 236238/371472 [7:46:04<10:52:44,  3.45it/s] 64%|██████▎   | 236239/371472 [7:46:04<10:48:04,  3.48it/s] 64%|██████▎   | 236240/371472 [7:46:04<11:00:56,  3.41it/s]                                                            {'loss': 3.046, 'learning_rate': 4.2781572539809085e-07, 'epoch': 10.18}
 64%|██████▎   | 236240/371472 [7:46:04<11:00:56,  3.41it/s] 64%|██████▎   | 236241/371472 [7:46:05<11:15:56,  3.33it/s] 64%|██████▎   | 236242/371472 [7:46:05<10:31:35,  3.57it/s] 64%|██████▎   | 236243/371472 [7:46:05<10:26:10,  3.60it/s] 64%|██████▎   | 236244/371472 [7:46:06<10:46:43,  3.48it/s] 64%|██████▎   | 236245/371472 [7:46:06<10:55:27,  3.44it/s] 64%|██████▎   | 236246/371472 [7:46:06<10:34:24,  3.55it/s] 64%|██████▎   | 236247/371472 [7:46:06<10:24:59,  3.61it/s] 64%|██████▎   | 236248/371472 [7:46:07<10:48:38,  3.47it/s] 64%|██████▎   | 236249/371472 [7:46:07<10:16:19,  3.66it/s] 64%|██████▎   | 236250/371472 [7:46:07<11:11:20,  3.36it/s] 64%|██████▎   | 236251/371472 [7:46:08<10:53:25,  3.45it/s] 64%|██████▎   | 236252/371472 [7:46:08<10:52:58,  3.45it/s] 64%|██████▎   | 236253/371472 [7:46:08<10:28:18,  3.59it/s] 64%|██████▎   | 236254/371472 [7:46:08<10:29:17,  3.58it/s] 64%|██████▎   | 236255/371472 [7:46:09<11:19:57,  3.31it/s] 64%|██████▎   | 236256/371472 [7:46:09<11:20:35,  3.31it/s] 64%|██████▎   | 236257/371472 [7:46:09<11:30:15,  3.26it/s] 64%|██████▎   | 236258/371472 [7:46:10<11:29:21,  3.27it/s] 64%|██████▎   | 236259/371472 [7:46:10<10:58:53,  3.42it/s] 64%|██████▎   | 236260/371472 [7:46:10<10:30:48,  3.57it/s]                                                            {'loss': 3.0687, 'learning_rate': 4.277672434226119e-07, 'epoch': 10.18}
 64%|██████▎   | 236260/371472 [7:46:10<10:30:48,  3.57it/s] 64%|██████▎   | 236261/371472 [7:46:10<10:26:03,  3.60it/s] 64%|██████▎   | 236262/371472 [7:46:11<10:14:32,  3.67it/s] 64%|██████▎   | 236263/371472 [7:46:11<10:03:46,  3.73it/s] 64%|██████▎   | 236264/371472 [7:46:11<10:02:03,  3.74it/s] 64%|██████▎   | 236265/371472 [7:46:11<9:53:46,  3.80it/s]  64%|██████▎   | 236266/371472 [7:46:12<9:56:27,  3.78it/s] 64%|██████▎   | 236267/371472 [7:46:12<10:02:36,  3.74it/s] 64%|██████▎   | 236268/371472 [7:46:12<9:48:55,  3.83it/s]  64%|██████▎   | 236269/371472 [7:46:13<10:00:30,  3.75it/s] 64%|██████▎   | 236270/371472 [7:46:13<10:47:44,  3.48it/s] 64%|██████▎   | 236271/371472 [7:46:13<10:46:05,  3.49it/s] 64%|██████▎   | 236272/371472 [7:46:13<10:26:34,  3.60it/s] 64%|██████▎   | 236273/371472 [7:46:14<10:19:30,  3.64it/s] 64%|██████▎   | 236274/371472 [7:46:14<10:22:25,  3.62it/s] 64%|██████▎   | 236275/371472 [7:46:14<10:03:31,  3.73it/s] 64%|██████▎   | 236276/371472 [7:46:15<10:13:34,  3.67it/s] 64%|██████▎   | 236277/371472 [7:46:15<10:30:55,  3.57it/s] 64%|██████▎   | 236278/371472 [7:46:15<10:31:14,  3.57it/s] 64%|██████▎   | 236279/371472 [7:46:15<10:34:05,  3.55it/s] 64%|██████▎   | 236280/371472 [7:46:16<10:16:58,  3.65it/s]                                                            {'loss': 2.9011, 'learning_rate': 4.277187614471331e-07, 'epoch': 10.18}
 64%|██████▎   | 236280/371472 [7:46:16<10:16:58,  3.65it/s] 64%|██████▎   | 236281/371472 [7:46:16<10:49:28,  3.47it/s] 64%|██████▎   | 236282/371472 [7:46:16<11:52:40,  3.16it/s] 64%|██████▎   | 236283/371472 [7:46:17<11:21:18,  3.31it/s] 64%|██████▎   | 236284/371472 [7:46:17<11:12:41,  3.35it/s] 64%|██████▎   | 236285/371472 [7:46:17<12:42:47,  2.95it/s] 64%|██████▎   | 236286/371472 [7:46:18<12:03:10,  3.12it/s] 64%|██████▎   | 236287/371472 [7:46:18<12:03:17,  3.12it/s] 64%|██████▎   | 236288/371472 [7:46:18<11:55:14,  3.15it/s] 64%|██████▎   | 236289/371472 [7:46:19<11:46:37,  3.19it/s] 64%|██████▎   | 236290/371472 [7:46:19<11:17:34,  3.33it/s] 64%|██████▎   | 236291/371472 [7:46:19<11:09:47,  3.36it/s] 64%|██████▎   | 236292/371472 [7:46:19<10:56:06,  3.43it/s] 64%|██████▎   | 236293/371472 [7:46:20<11:02:41,  3.40it/s] 64%|██████▎   | 236294/371472 [7:46:20<10:48:32,  3.47it/s] 64%|██████▎   | 236295/371472 [7:46:20<10:42:48,  3.50it/s] 64%|██████▎   | 236296/371472 [7:46:21<10:59:53,  3.41it/s] 64%|██████▎   | 236297/371472 [7:46:21<11:05:12,  3.39it/s] 64%|██████▎   | 236298/371472 [7:46:21<11:30:37,  3.26it/s] 64%|██████▎   | 236299/371472 [7:46:21<11:31:57,  3.26it/s] 64%|██████▎   | 236300/371472 [7:46:22<11:07:07,  3.38it/s]                                                            {'loss': 2.9096, 'learning_rate': 4.276702794716542e-07, 'epoch': 10.18}
 64%|██████▎   | 236300/371472 [7:46:22<11:07:07,  3.38it/s] 64%|██████▎   | 236301/371472 [7:46:22<11:05:43,  3.38it/s] 64%|██████▎   | 236302/371472 [7:46:22<11:03:17,  3.40it/s] 64%|██████▎   | 236303/371472 [7:46:23<11:42:32,  3.21it/s] 64%|██████▎   | 236304/371472 [7:46:23<11:56:22,  3.14it/s] 64%|██████▎   | 236305/371472 [7:46:23<11:26:45,  3.28it/s] 64%|██████▎   | 236306/371472 [7:46:24<10:56:57,  3.43it/s] 64%|██████▎   | 236307/371472 [7:46:24<11:14:15,  3.34it/s] 64%|██████▎   | 236308/371472 [7:46:24<12:06:23,  3.10it/s] 64%|██████▎   | 236309/371472 [7:46:25<11:32:00,  3.26it/s] 64%|██████▎   | 236310/371472 [7:46:25<11:05:00,  3.39it/s] 64%|██████▎   | 236311/371472 [7:46:25<12:04:40,  3.11it/s] 64%|██████▎   | 236312/371472 [7:46:25<11:25:03,  3.29it/s] 64%|██████▎   | 236313/371472 [7:46:26<11:38:09,  3.23it/s] 64%|██████▎   | 236314/371472 [7:46:26<11:30:15,  3.26it/s] 64%|██████▎   | 236315/371472 [7:46:26<11:02:30,  3.40it/s] 64%|██████▎   | 236316/371472 [7:46:27<10:53:39,  3.45it/s] 64%|██████▎   | 236317/371472 [7:46:27<10:52:33,  3.45it/s] 64%|██████▎   | 236318/371472 [7:46:27<10:26:14,  3.60it/s] 64%|██████▎   | 236319/371472 [7:46:27<10:17:27,  3.65it/s] 64%|██████▎   | 236320/371472 [7:46:28<10:12:45,  3.68it/s]                                                            {'loss': 2.7537, 'learning_rate': 4.276217974961753e-07, 'epoch': 10.18}
 64%|██████▎   | 236320/371472 [7:46:28<10:12:45,  3.68it/s] 64%|██████▎   | 236321/371472 [7:46:28<10:16:48,  3.65it/s] 64%|██████▎   | 236322/371472 [7:46:28<11:11:00,  3.36it/s] 64%|██████▎   | 236323/371472 [7:46:29<10:52:56,  3.45it/s] 64%|██████▎   | 236324/371472 [7:46:29<10:52:47,  3.45it/s] 64%|██████▎   | 236325/371472 [7:46:29<10:23:05,  3.61it/s] 64%|██████▎   | 236326/371472 [7:46:29<10:13:56,  3.67it/s] 64%|██████▎   | 236327/371472 [7:46:30<10:36:58,  3.54it/s] 64%|██████▎   | 236328/371472 [7:46:30<11:04:35,  3.39it/s] 64%|██████▎   | 236329/371472 [7:46:30<10:45:17,  3.49it/s] 64%|██████▎   | 236330/371472 [7:46:31<10:28:19,  3.58it/s] 64%|██████▎   | 236331/371472 [7:46:31<10:06:19,  3.71it/s] 64%|██████▎   | 236332/371472 [7:46:31<10:48:38,  3.47it/s] 64%|██████▎   | 236333/371472 [7:46:31<10:22:31,  3.62it/s] 64%|██████▎   | 236334/371472 [7:46:32<10:10:57,  3.69it/s] 64%|██████▎   | 236335/371472 [7:46:32<10:11:51,  3.68it/s] 64%|██████▎   | 236336/371472 [7:46:32<10:06:22,  3.71it/s] 64%|██████▎   | 236337/371472 [7:46:32<10:11:42,  3.68it/s] 64%|██████▎   | 236338/371472 [7:46:33<10:07:01,  3.71it/s] 64%|██████▎   | 236339/371472 [7:46:33<10:18:36,  3.64it/s] 64%|██████▎   | 236340/371472 [7:46:33<10:33:14,  3.56it/s]                                                            {'loss': 2.9379, 'learning_rate': 4.2757331552069637e-07, 'epoch': 10.18}
 64%|██████▎   | 236340/371472 [7:46:33<10:33:14,  3.56it/s] 64%|██████▎   | 236341/371472 [7:46:34<10:27:34,  3.59it/s] 64%|██████▎   | 236342/371472 [7:46:34<10:16:30,  3.65it/s] 64%|██████▎   | 236343/371472 [7:46:34<10:04:55,  3.72it/s] 64%|██████▎   | 236344/371472 [7:46:34<10:04:27,  3.73it/s] 64%|██████▎   | 236345/371472 [7:46:35<10:08:45,  3.70it/s] 64%|██████▎   | 236346/371472 [7:46:35<10:08:06,  3.70it/s] 64%|██████▎   | 236347/371472 [7:46:35<10:42:47,  3.50it/s] 64%|██████▎   | 236348/371472 [7:46:36<11:03:14,  3.40it/s] 64%|██████▎   | 236349/371472 [7:46:36<10:42:02,  3.51it/s] 64%|██████▎   | 236350/371472 [7:46:36<10:16:01,  3.66it/s] 64%|██████▎   | 236351/371472 [7:46:36<10:12:20,  3.68it/s] 64%|██████▎   | 236352/371472 [7:46:37<9:49:25,  3.82it/s]  64%|██████▎   | 236353/371472 [7:46:37<10:33:33,  3.55it/s] 64%|██████▎   | 236354/371472 [7:46:37<10:39:44,  3.52it/s] 64%|██████▎   | 236355/371472 [7:46:37<10:10:16,  3.69it/s] 64%|██████▎   | 236356/371472 [7:46:38<10:32:45,  3.56it/s] 64%|██████▎   | 236357/371472 [7:46:38<11:02:24,  3.40it/s] 64%|██████▎   | 236358/371472 [7:46:38<11:22:07,  3.30it/s] 64%|██████▎   | 236359/371472 [7:46:39<11:10:52,  3.36it/s] 64%|██████▎   | 236360/371472 [7:46:39<11:00:14,  3.41it/s]                                                            {'loss': 3.044, 'learning_rate': 4.2752483354521755e-07, 'epoch': 10.18}
 64%|██████▎   | 236360/371472 [7:46:39<11:00:14,  3.41it/s] 64%|██████▎   | 236361/371472 [7:46:39<10:34:44,  3.55it/s] 64%|██████▎   | 236362/371472 [7:46:39<10:20:28,  3.63it/s] 64%|██████▎   | 236363/371472 [7:46:40<9:55:52,  3.78it/s]  64%|██████▎   | 236364/371472 [7:46:40<10:29:40,  3.58it/s] 64%|██████▎   | 236365/371472 [7:46:40<10:18:28,  3.64it/s] 64%|██████▎   | 236366/371472 [7:46:41<10:39:59,  3.52it/s] 64%|██████▎   | 236367/371472 [7:46:41<10:07:07,  3.71it/s] 64%|██████▎   | 236368/371472 [7:46:41<11:53:19,  3.16it/s] 64%|██████▎   | 236369/371472 [7:46:42<11:40:41,  3.21it/s] 64%|██████▎   | 236370/371472 [7:46:42<11:46:52,  3.19it/s] 64%|██████▎   | 236371/371472 [7:46:42<11:25:37,  3.28it/s] 64%|██████▎   | 236372/371472 [7:46:42<12:02:32,  3.12it/s] 64%|██████▎   | 236373/371472 [7:46:43<11:24:49,  3.29it/s] 64%|██████▎   | 236374/371472 [7:46:43<10:55:58,  3.43it/s] 64%|██████▎   | 236375/371472 [7:46:43<10:20:51,  3.63it/s] 64%|██████▎   | 236376/371472 [7:46:44<10:23:33,  3.61it/s] 64%|██████▎   | 236377/371472 [7:46:44<11:39:06,  3.22it/s] 64%|██████▎   | 236378/371472 [7:46:44<10:58:14,  3.42it/s] 64%|██████▎   | 236379/371472 [7:46:44<10:34:41,  3.55it/s] 64%|██████▎   | 236380/371472 [7:46:45<10:55:59,  3.43it/s]                                                            {'loss': 2.8018, 'learning_rate': 4.2747635156973857e-07, 'epoch': 10.18}
 64%|██████▎   | 236380/371472 [7:46:45<10:55:59,  3.43it/s] 64%|██████▎   | 236381/371472 [7:46:45<10:27:24,  3.59it/s] 64%|██████▎   | 236382/371472 [7:46:45<11:22:56,  3.30it/s] 64%|██████▎   | 236383/371472 [7:46:46<10:57:53,  3.42it/s] 64%|██████▎   | 236384/371472 [7:46:46<11:10:54,  3.36it/s] 64%|██████▎   | 236385/371472 [7:46:46<11:04:30,  3.39it/s] 64%|██████▎   | 236386/371472 [7:46:47<10:52:16,  3.45it/s] 64%|██████▎   | 236387/371472 [7:46:47<10:59:03,  3.42it/s] 64%|██████▎   | 236388/371472 [7:46:47<11:58:10,  3.13it/s] 64%|██████▎   | 236389/371472 [7:46:47<11:20:30,  3.31it/s] 64%|██████▎   | 236390/371472 [7:46:48<10:45:11,  3.49it/s] 64%|██████▎   | 236391/371472 [7:46:48<10:27:28,  3.59it/s] 64%|██████▎   | 236392/371472 [7:46:48<10:19:51,  3.63it/s] 64%|██████▎   | 236393/371472 [7:46:48<10:07:10,  3.71it/s] 64%|██████▎   | 236394/371472 [7:46:49<10:16:50,  3.65it/s] 64%|██████▎   | 236395/371472 [7:46:49<11:14:16,  3.34it/s] 64%|██████▎   | 236396/371472 [7:46:49<11:20:56,  3.31it/s] 64%|██████▎   | 236397/371472 [7:46:50<10:46:19,  3.48it/s] 64%|██████▎   | 236398/371472 [7:46:50<10:10:40,  3.69it/s] 64%|██████▎   | 236399/371472 [7:46:50<10:05:02,  3.72it/s] 64%|██████▎   | 236400/371472 [7:46:50<10:10:39,  3.69it/s]                                                            {'loss': 2.8133, 'learning_rate': 4.2742786959425974e-07, 'epoch': 10.18}
 64%|██████▎   | 236400/371472 [7:46:50<10:10:39,  3.69it/s] 64%|██████▎   | 236401/371472 [7:46:51<10:14:10,  3.67it/s] 64%|██████▎   | 236402/371472 [7:46:51<10:08:01,  3.70it/s] 64%|██████▎   | 236403/371472 [7:46:51<10:09:18,  3.69it/s] 64%|██████▎   | 236404/371472 [7:46:52<10:09:27,  3.69it/s] 64%|██████▎   | 236405/371472 [7:46:52<9:56:46,  3.77it/s]  64%|██████▎   | 236406/371472 [7:46:52<10:06:37,  3.71it/s] 64%|██████▎   | 236407/371472 [7:46:52<10:45:01,  3.49it/s] 64%|██████▎   | 236408/371472 [7:46:53<10:35:59,  3.54it/s] 64%|██████▎   | 236409/371472 [7:46:53<10:50:50,  3.46it/s] 64%|██████▎   | 236410/371472 [7:46:53<10:20:09,  3.63it/s] 64%|██████▎   | 236411/371472 [7:46:53<10:13:29,  3.67it/s] 64%|██████▎   | 236412/371472 [7:46:54<10:14:45,  3.66it/s] 64%|██████▎   | 236413/371472 [7:46:54<10:13:41,  3.67it/s] 64%|██████▎   | 236414/371472 [7:46:54<10:10:15,  3.69it/s] 64%|██████▎   | 236415/371472 [7:46:55<9:59:28,  3.75it/s]  64%|██████▎   | 236416/371472 [7:46:55<10:38:52,  3.52it/s] 64%|██████▎   | 236417/371472 [7:46:55<10:20:35,  3.63it/s] 64%|██████▎   | 236418/371472 [7:46:55<11:11:27,  3.35it/s] 64%|██████▎   | 236419/371472 [7:46:56<11:07:01,  3.37it/s] 64%|██████▎   | 236420/371472 [7:46:56<10:44:41,  3.49it/s]                                                            {'loss': 3.0464, 'learning_rate': 4.273793876187808e-07, 'epoch': 10.18}
 64%|██████▎   | 236420/371472 [7:46:56<10:44:41,  3.49it/s] 64%|██████▎   | 236421/371472 [7:46:56<11:24:37,  3.29it/s] 64%|██████▎   | 236422/371472 [7:46:57<11:32:52,  3.25it/s] 64%|██████▎   | 236423/371472 [7:46:57<11:31:16,  3.26it/s] 64%|██████▎   | 236424/371472 [7:46:57<11:20:37,  3.31it/s] 64%|██████▎   | 236425/371472 [7:46:58<11:06:14,  3.38it/s] 64%|██████▎   | 236426/371472 [7:46:58<10:39:31,  3.52it/s] 64%|██████▎   | 236427/371472 [7:46:58<10:47:12,  3.48it/s] 64%|██████▎   | 236428/371472 [7:46:58<10:22:18,  3.62it/s] 64%|██████▎   | 236429/371472 [7:46:59<10:11:00,  3.68it/s] 64%|██████▎   | 236430/371472 [7:46:59<9:48:22,  3.83it/s]  64%|██████▎   | 236431/371472 [7:46:59<9:47:09,  3.83it/s] 64%|██████▎   | 236432/371472 [7:46:59<10:28:28,  3.58it/s] 64%|██████▎   | 236433/371472 [7:47:00<10:49:28,  3.47it/s] 64%|██████▎   | 236434/371472 [7:47:00<10:45:17,  3.49it/s] 64%|██████▎   | 236435/371472 [7:47:00<11:27:32,  3.27it/s] 64%|██████▎   | 236436/371472 [7:47:01<11:07:44,  3.37it/s] 64%|██████▎   | 236437/371472 [7:47:01<12:14:30,  3.06it/s] 64%|██████▎   | 236438/371472 [7:47:01<12:41:44,  2.95it/s] 64%|██████▎   | 236439/371472 [7:47:02<11:51:47,  3.16it/s] 64%|██████▎   | 236440/371472 [7:47:02<10:56:22,  3.43it/s]                                                            {'loss': 2.9628, 'learning_rate': 4.2733090564330194e-07, 'epoch': 10.18}
 64%|██████▎   | 236440/371472 [7:47:02<10:56:22,  3.43it/s] 64%|██████▎   | 236441/371472 [7:47:02<10:38:16,  3.53it/s] 64%|██████▎   | 236442/371472 [7:47:02<10:28:31,  3.58it/s] 64%|██████▎   | 236443/371472 [7:47:03<10:17:58,  3.64it/s] 64%|██████▎   | 236444/371472 [7:47:03<10:07:03,  3.71it/s] 64%|██████▎   | 236445/371472 [7:47:03<9:46:03,  3.84it/s]  64%|██████▎   | 236446/371472 [7:47:03<9:37:04,  3.90it/s] 64%|██████▎   | 236447/371472 [7:47:04<10:03:38,  3.73it/s] 64%|██████▎   | 236448/371472 [7:47:04<9:43:42,  3.86it/s]  64%|██████▎   | 236449/371472 [7:47:04<9:47:17,  3.83it/s] 64%|██████▎   | 236450/371472 [7:47:05<10:22:05,  3.62it/s] 64%|██████▎   | 236451/371472 [7:47:05<10:36:28,  3.54it/s] 64%|██████▎   | 236452/371472 [7:47:05<10:40:33,  3.51it/s] 64%|██████▎   | 236453/371472 [7:47:06<11:15:24,  3.33it/s] 64%|██████▎   | 236454/371472 [7:47:06<11:29:34,  3.26it/s] 64%|██████▎   | 236455/371472 [7:47:06<10:57:55,  3.42it/s] 64%|██████▎   | 236456/371472 [7:47:06<10:30:32,  3.57it/s] 64%|██████▎   | 236457/371472 [7:47:07<10:42:44,  3.50it/s] 64%|██████▎   | 236458/371472 [7:47:07<10:37:48,  3.53it/s] 64%|██████▎   | 236459/371472 [7:47:07<12:06:48,  3.10it/s] 64%|██████▎   | 236460/371472 [7:47:08<11:28:29,  3.27it/s]                                                            {'loss': 2.8244, 'learning_rate': 4.27282423667823e-07, 'epoch': 10.18}
 64%|██████▎   | 236460/371472 [7:47:08<11:28:29,  3.27it/s] 64%|██████▎   | 236461/371472 [7:47:08<11:08:41,  3.37it/s] 64%|██████▎   | 236462/371472 [7:47:08<10:53:44,  3.44it/s] 64%|██████▎   | 236463/371472 [7:47:08<10:30:14,  3.57it/s] 64%|██████▎   | 236464/371472 [7:47:09<11:10:53,  3.35it/s] 64%|██████▎   | 236465/371472 [7:47:09<11:06:13,  3.38it/s] 64%|██████▎   | 236466/371472 [7:47:09<11:04:00,  3.39it/s] 64%|██████▎   | 236467/371472 [7:47:10<10:34:38,  3.55it/s] 64%|██████▎   | 236468/371472 [7:47:10<11:30:44,  3.26it/s] 64%|██████▎   | 236469/371472 [7:47:10<10:58:15,  3.42it/s] 64%|██████▎   | 236470/371472 [7:47:11<10:57:34,  3.42it/s] 64%|██████▎   | 236471/371472 [7:47:11<10:48:35,  3.47it/s] 64%|██████▎   | 236472/371472 [7:47:11<10:19:41,  3.63it/s] 64%|██████▎   | 236473/371472 [7:47:11<9:57:07,  3.77it/s]  64%|██████▎   | 236474/371472 [7:47:12<10:51:38,  3.45it/s] 64%|██████▎   | 236475/371472 [7:47:12<11:37:30,  3.23it/s] 64%|██████▎   | 236476/371472 [7:47:12<11:12:07,  3.35it/s] 64%|██████▎   | 236477/371472 [7:47:13<11:03:19,  3.39it/s] 64%|██████▎   | 236478/371472 [7:47:13<10:58:58,  3.41it/s] 64%|██████▎   | 236479/371472 [7:47:13<10:49:28,  3.46it/s] 64%|██████▎   | 236480/371472 [7:47:13<11:19:45,  3.31it/s]                                                            {'loss': 2.759, 'learning_rate': 4.272339416923442e-07, 'epoch': 10.19}
 64%|██████▎   | 236480/371472 [7:47:13<11:19:45,  3.31it/s] 64%|██████▎   | 236481/371472 [7:47:14<11:21:52,  3.30it/s] 64%|██████▎   | 236482/371472 [7:47:14<10:42:56,  3.50it/s] 64%|██████▎   | 236483/371472 [7:47:14<10:29:25,  3.57it/s] 64%|██████▎   | 236484/371472 [7:47:15<10:59:08,  3.41it/s] 64%|██████▎   | 236485/371472 [7:47:15<10:38:30,  3.52it/s] 64%|██████▎   | 236486/371472 [7:47:15<10:13:48,  3.67it/s] 64%|██████▎   | 236487/371472 [7:47:15<10:04:32,  3.72it/s] 64%|██████▎   | 236488/371472 [7:47:16<9:51:44,  3.80it/s]  64%|██████▎   | 236489/371472 [7:47:16<10:28:57,  3.58it/s] 64%|██████▎   | 236490/371472 [7:47:16<10:32:02,  3.56it/s] 64%|██████▎   | 236491/371472 [7:47:16<10:24:36,  3.60it/s] 64%|██████▎   | 236492/371472 [7:47:17<10:22:40,  3.61it/s] 64%|██████▎   | 236493/371472 [7:47:17<10:32:00,  3.56it/s] 64%|██████▎   | 236494/371472 [7:47:17<10:15:45,  3.65it/s] 64%|██████▎   | 236495/371472 [7:47:18<11:14:14,  3.34it/s] 64%|██████▎   | 236496/371472 [7:47:18<11:13:56,  3.34it/s] 64%|██████▎   | 236497/371472 [7:47:18<10:53:10,  3.44it/s] 64%|██████▎   | 236498/371472 [7:47:18<10:28:22,  3.58it/s] 64%|██████▎   | 236499/371472 [7:47:19<10:21:14,  3.62it/s] 64%|██████▎   | 236500/371472 [7:47:19<10:00:01,  3.75it/s]                                                            {'loss': 2.9747, 'learning_rate': 4.271854597168652e-07, 'epoch': 10.19}
 64%|██████▎   | 236500/371472 [7:47:19<10:00:01,  3.75it/s] 64%|██████▎   | 236501/371472 [7:47:19<10:24:31,  3.60it/s] 64%|██████▎   | 236502/371472 [7:47:20<10:29:26,  3.57it/s] 64%|██████▎   | 236503/371472 [7:47:20<10:25:38,  3.60it/s] 64%|██████▎   | 236504/371472 [7:47:20<11:01:22,  3.40it/s] 64%|██████▎   | 236505/371472 [7:47:20<10:39:33,  3.52it/s] 64%|██████▎   | 236506/371472 [7:47:21<10:37:31,  3.53it/s] 64%|██████▎   | 236507/371472 [7:47:21<10:25:55,  3.59it/s] 64%|██████▎   | 236508/371472 [7:47:21<11:06:49,  3.37it/s] 64%|██████▎   | 236509/371472 [7:47:22<10:45:27,  3.48it/s] 64%|██████▎   | 236510/371472 [7:47:22<11:09:00,  3.36it/s] 64%|██████▎   | 236511/371472 [7:47:22<12:00:04,  3.12it/s] 64%|██████▎   | 236512/371472 [7:47:23<11:17:21,  3.32it/s] 64%|██████▎   | 236513/371472 [7:47:23<10:37:10,  3.53it/s] 64%|██████▎   | 236514/371472 [7:47:23<10:56:07,  3.43it/s] 64%|██████▎   | 236515/371472 [7:47:23<10:51:55,  3.45it/s] 64%|██████▎   | 236516/371472 [7:47:24<10:26:41,  3.59it/s] 64%|██████▎   | 236517/371472 [7:47:24<10:14:56,  3.66it/s] 64%|██████▎   | 236518/371472 [7:47:24<10:03:52,  3.72it/s] 64%|██████▎   | 236519/371472 [7:47:24<10:02:48,  3.73it/s] 64%|██████▎   | 236520/371472 [7:47:25<9:49:33,  3.82it/s]                                                            {'loss': 2.8488, 'learning_rate': 4.271369777413864e-07, 'epoch': 10.19}
 64%|██████▎   | 236520/371472 [7:47:25<9:49:33,  3.82it/s] 64%|██████▎   | 236521/371472 [7:47:25<9:55:54,  3.77it/s] 64%|██████▎   | 236522/371472 [7:47:25<10:06:51,  3.71it/s] 64%|██████▎   | 236523/371472 [7:47:26<10:13:04,  3.67it/s] 64%|██████▎   | 236524/371472 [7:47:26<10:09:54,  3.69it/s] 64%|██████▎   | 236525/371472 [7:47:26<10:57:12,  3.42it/s] 64%|██████▎   | 236526/371472 [7:47:26<11:10:30,  3.35it/s] 64%|██████▎   | 236527/371472 [7:47:27<10:54:30,  3.44it/s] 64%|██████▎   | 236528/371472 [7:47:27<10:35:46,  3.54it/s] 64%|██████▎   | 236529/371472 [7:47:27<10:34:16,  3.55it/s] 64%|██████▎   | 236530/371472 [7:47:27<10:02:05,  3.74it/s] 64%|██████▎   | 236531/371472 [7:47:28<10:08:52,  3.69it/s] 64%|██████▎   | 236532/371472 [7:47:28<11:44:18,  3.19it/s] 64%|██████▎   | 236533/371472 [7:47:28<11:29:24,  3.26it/s] 64%|██████▎   | 236534/371472 [7:47:29<11:01:20,  3.40it/s] 64%|██████▎   | 236535/371472 [7:47:29<10:38:14,  3.52it/s] 64%|██████▎   | 236536/371472 [7:47:29<10:19:11,  3.63it/s] 64%|██████▎   | 236537/371472 [7:47:30<10:41:45,  3.50it/s] 64%|██████▎   | 236538/371472 [7:47:30<11:06:42,  3.37it/s] 64%|██████▎   | 236539/371472 [7:47:30<12:48:33,  2.93it/s] 64%|██████▎   | 236540/371472 [7:47:31<11:50:00,  3.17it/s]                                                            {'loss': 2.8869, 'learning_rate': 4.2708849576590746e-07, 'epoch': 10.19}
 64%|██████▎   | 236540/371472 [7:47:31<11:50:00,  3.17it/s] 64%|██████▎   | 236541/371472 [7:47:31<11:35:15,  3.23it/s] 64%|██████▎   | 236542/371472 [7:47:31<11:31:52,  3.25it/s] 64%|██████▎   | 236543/371472 [7:47:31<11:09:11,  3.36it/s] 64%|██████▎   | 236544/371472 [7:47:32<10:44:08,  3.49it/s] 64%|██████▎   | 236545/371472 [7:47:32<10:30:23,  3.57it/s] 64%|██████▎   | 236546/371472 [7:47:32<10:12:56,  3.67it/s] 64%|██████▎   | 236547/371472 [7:47:33<10:21:18,  3.62it/s] 64%|██████▎   | 236548/371472 [7:47:33<10:03:35,  3.73it/s] 64%|██████▎   | 236549/371472 [7:47:33<10:34:02,  3.55it/s] 64%|██████▎   | 236550/371472 [7:47:33<11:09:50,  3.36it/s] 64%|██████▎   | 236551/371472 [7:47:34<11:00:51,  3.40it/s] 64%|██████▎   | 236552/371472 [7:47:34<10:41:17,  3.51it/s] 64%|██████▎   | 236553/371472 [7:47:34<10:25:56,  3.59it/s] 64%|██████▎   | 236554/371472 [7:47:35<10:47:30,  3.47it/s] 64%|██████▎   | 236555/371472 [7:47:35<10:21:28,  3.62it/s] 64%|██████▎   | 236556/371472 [7:47:35<10:20:00,  3.63it/s] 64%|██████▎   | 236557/371472 [7:47:35<9:55:43,  3.77it/s]  64%|██████▎   | 236558/371472 [7:47:36<9:55:25,  3.78it/s] 64%|██████▎   | 236559/371472 [7:47:36<10:03:53,  3.72it/s] 64%|██████▎   | 236560/371472 [7:47:36<10:16:17,  3.65it/s]                                                            {'loss': 2.755, 'learning_rate': 4.270400137904286e-07, 'epoch': 10.19}
 64%|██████▎   | 236560/371472 [7:47:36<10:16:17,  3.65it/s] 64%|██████▎   | 236561/371472 [7:47:36<10:31:25,  3.56it/s] 64%|██████▎   | 236562/371472 [7:47:37<10:43:56,  3.49it/s] 64%|██████▎   | 236563/371472 [7:47:37<10:36:13,  3.53it/s] 64%|██████▎   | 236564/371472 [7:47:37<11:25:42,  3.28it/s] 64%|██████▎   | 236565/371472 [7:47:38<11:08:34,  3.36it/s] 64%|██████▎   | 236566/371472 [7:47:38<10:52:21,  3.45it/s] 64%|██████▎   | 236567/371472 [7:47:38<10:29:22,  3.57it/s] 64%|██████▎   | 236568/371472 [7:47:38<10:24:34,  3.60it/s] 64%|██████▎   | 236569/371472 [7:47:39<10:06:29,  3.71it/s] 64%|██████▎   | 236570/371472 [7:47:39<10:03:38,  3.72it/s] 64%|██████▎   | 236571/371472 [7:47:39<10:21:24,  3.62it/s] 64%|██████▎   | 236572/371472 [7:47:40<10:12:13,  3.67it/s] 64%|██████▎   | 236573/371472 [7:47:40<10:19:48,  3.63it/s] 64%|██████▎   | 236574/371472 [7:47:40<11:01:00,  3.40it/s] 64%|██████▎   | 236575/371472 [7:47:40<10:58:22,  3.41it/s] 64%|██████▎   | 236576/371472 [7:47:41<10:38:47,  3.52it/s] 64%|██████▎   | 236577/371472 [7:47:41<11:04:58,  3.38it/s] 64%|██████▎   | 236578/371472 [7:47:41<10:50:54,  3.45it/s] 64%|██████▎   | 236579/371472 [7:47:42<10:38:54,  3.52it/s] 64%|██████▎   | 236580/371472 [7:47:42<10:28:41,  3.58it/s]                                                            {'loss': 2.6971, 'learning_rate': 4.269915318149496e-07, 'epoch': 10.19}
 64%|██████▎   | 236580/371472 [7:47:42<10:28:41,  3.58it/s] 64%|██████▎   | 236581/371472 [7:47:42<10:29:57,  3.57it/s] 64%|██████▎   | 236582/371472 [7:47:42<10:33:08,  3.55it/s] 64%|██████▎   | 236583/371472 [7:47:43<10:49:55,  3.46it/s] 64%|██████▎   | 236584/371472 [7:47:43<10:55:28,  3.43it/s] 64%|██████▎   | 236585/371472 [7:47:43<10:30:48,  3.56it/s] 64%|██████▎   | 236586/371472 [7:47:43<10:14:15,  3.66it/s] 64%|██████▎   | 236587/371472 [7:47:44<10:09:47,  3.69it/s] 64%|██████▎   | 236588/371472 [7:47:44<11:10:08,  3.35it/s] 64%|██████▎   | 236589/371472 [7:47:44<10:44:40,  3.49it/s] 64%|██████▎   | 236590/371472 [7:47:45<10:44:48,  3.49it/s] 64%|██████▎   | 236591/371472 [7:47:45<10:49:14,  3.46it/s] 64%|██████▎   | 236592/371472 [7:47:45<11:02:07,  3.40it/s] 64%|██████▎   | 236593/371472 [7:47:46<10:30:38,  3.56it/s] 64%|██████▎   | 236594/371472 [7:47:46<10:27:26,  3.58it/s] 64%|██████▎   | 236595/371472 [7:47:46<10:21:29,  3.62it/s] 64%|██████▎   | 236596/371472 [7:47:46<10:38:20,  3.52it/s] 64%|██████▎   | 236597/371472 [7:47:47<10:20:38,  3.62it/s] 64%|██████▎   | 236598/371472 [7:47:47<10:22:41,  3.61it/s] 64%|██████▎   | 236599/371472 [7:47:47<10:16:02,  3.65it/s] 64%|██████▎   | 236600/371472 [7:47:47<10:15:51,  3.65it/s]                                                            {'loss': 3.0584, 'learning_rate': 4.2694304983947083e-07, 'epoch': 10.19}
 64%|██████▎   | 236600/371472 [7:47:47<10:15:51,  3.65it/s] 64%|██████▎   | 236601/371472 [7:47:48<10:10:13,  3.68it/s] 64%|██████▎   | 236602/371472 [7:47:48<10:12:48,  3.67it/s] 64%|██████▎   | 236603/371472 [7:47:48<9:59:57,  3.75it/s]  64%|██████▎   | 236604/371472 [7:47:49<9:57:46,  3.76it/s] 64%|██████▎   | 236605/371472 [7:47:49<10:36:18,  3.53it/s] 64%|██████▎   | 236606/371472 [7:47:49<10:39:21,  3.52it/s] 64%|██████▎   | 236607/371472 [7:47:49<10:37:48,  3.52it/s] 64%|██████▎   | 236608/371472 [7:47:50<10:25:03,  3.60it/s] 64%|██████▎   | 236609/371472 [7:47:50<10:23:51,  3.60it/s] 64%|██████▎   | 236610/371472 [7:47:50<10:21:34,  3.62it/s] 64%|██████▎   | 236611/371472 [7:47:50<10:27:10,  3.58it/s] 64%|██████▎   | 236612/371472 [7:47:51<10:32:45,  3.55it/s] 64%|██████▎   | 236613/371472 [7:47:51<10:22:50,  3.61it/s] 64%|██████▎   | 236614/371472 [7:47:51<10:47:10,  3.47it/s] 64%|██████▎   | 236615/371472 [7:47:52<10:57:16,  3.42it/s] 64%|██████▎   | 236616/371472 [7:47:52<10:47:54,  3.47it/s] 64%|██████▎   | 236617/371472 [7:47:52<10:43:57,  3.49it/s] 64%|██████▎   | 236618/371472 [7:47:53<10:39:58,  3.51it/s] 64%|██████▎   | 236619/371472 [7:47:53<10:31:56,  3.56it/s] 64%|██████▎   | 236620/371472 [7:47:53<10:10:24,  3.68it/s]                                                            {'loss': 2.9209, 'learning_rate': 4.2689456786399185e-07, 'epoch': 10.19}
 64%|██████▎   | 236620/371472 [7:47:53<10:10:24,  3.68it/s] 64%|██████▎   | 236621/371472 [7:47:53<10:05:35,  3.71it/s] 64%|██████▎   | 236622/371472 [7:47:54<10:23:24,  3.61it/s] 64%|██████▎   | 236623/371472 [7:47:54<10:30:08,  3.57it/s] 64%|██████▎   | 236624/371472 [7:47:54<10:42:54,  3.50it/s] 64%|██████▎   | 236625/371472 [7:47:54<10:25:17,  3.59it/s] 64%|██████▎   | 236626/371472 [7:47:55<10:16:36,  3.64it/s] 64%|██████▎   | 236627/371472 [7:47:55<10:01:22,  3.74it/s] 64%|██████▎   | 236628/371472 [7:47:55<9:49:54,  3.81it/s]  64%|██████▎   | 236629/371472 [7:47:56<10:37:00,  3.53it/s] 64%|██████▎   | 236630/371472 [7:47:56<10:29:03,  3.57it/s] 64%|██████▎   | 236631/371472 [7:47:56<10:09:47,  3.69it/s] 64%|██████▎   | 236632/371472 [7:47:56<10:09:11,  3.69it/s] 64%|██████▎   | 236633/371472 [7:47:57<10:21:51,  3.61it/s] 64%|██████▎   | 236634/371472 [7:47:57<10:52:36,  3.44it/s] 64%|██████▎   | 236635/371472 [7:47:57<10:45:08,  3.48it/s] 64%|██████▎   | 236636/371472 [7:47:57<10:37:45,  3.52it/s] 64%|██████▎   | 236637/371472 [7:47:58<10:23:58,  3.60it/s] 64%|██████▎   | 236638/371472 [7:47:58<10:18:07,  3.64it/s] 64%|██████▎   | 236639/371472 [7:47:58<11:07:04,  3.37it/s] 64%|██████▎   | 236640/371472 [7:47:59<10:32:38,  3.55it/s]                                                            {'loss': 2.8079, 'learning_rate': 4.26846085888513e-07, 'epoch': 10.19}
 64%|██████▎   | 236640/371472 [7:47:59<10:32:38,  3.55it/s] 64%|██████▎   | 236641/371472 [7:47:59<10:10:44,  3.68it/s] 64%|██████▎   | 236642/371472 [7:47:59<9:55:41,  3.77it/s]  64%|██████▎   | 236643/371472 [7:47:59<10:33:13,  3.55it/s] 64%|██████▎   | 236644/371472 [7:48:00<10:34:18,  3.54it/s] 64%|██████▎   | 236645/371472 [7:48:00<11:42:09,  3.20it/s] 64%|██████▎   | 236646/371472 [7:48:00<11:22:54,  3.29it/s] 64%|██████▎   | 236647/371472 [7:48:01<11:20:24,  3.30it/s] 64%|██████▎   | 236648/371472 [7:48:01<10:53:03,  3.44it/s] 64%|██████▎   | 236649/371472 [7:48:01<10:34:29,  3.54it/s] 64%|██████▎   | 236650/371472 [7:48:01<10:06:36,  3.70it/s] 64%|██████▎   | 236651/371472 [7:48:02<10:19:53,  3.62it/s] 64%|██████▎   | 236652/371472 [7:48:02<10:32:06,  3.55it/s] 64%|██████▎   | 236653/371472 [7:48:02<10:26:13,  3.59it/s] 64%|██████▎   | 236654/371472 [7:48:03<10:04:34,  3.72it/s] 64%|██████▎   | 236655/371472 [7:48:03<9:59:43,  3.75it/s]  64%|██████▎   | 236656/371472 [7:48:03<9:38:58,  3.88it/s] 64%|██████▎   | 236657/371472 [7:48:03<10:25:26,  3.59it/s] 64%|██████▎   | 236658/371472 [7:48:04<10:19:56,  3.62it/s] 64%|██████▎   | 236659/371472 [7:48:04<10:28:59,  3.57it/s] 64%|██████▎   | 236660/371472 [7:48:04<10:04:45,  3.72it/s]                                                            {'loss': 2.8885, 'learning_rate': 4.267976039130341e-07, 'epoch': 10.19}
 64%|██████▎   | 236660/371472 [7:48:04<10:04:45,  3.72it/s] 64%|██████▎   | 236661/371472 [7:48:04<10:12:02,  3.67it/s] 64%|██████▎   | 236662/371472 [7:48:05<10:01:21,  3.74it/s] 64%|██████▎   | 236663/371472 [7:48:05<11:12:14,  3.34it/s] 64%|██████▎   | 236664/371472 [7:48:05<10:33:14,  3.55it/s] 64%|██████▎   | 236665/371472 [7:48:06<10:27:55,  3.58it/s] 64%|██████▎   | 236666/371472 [7:48:06<10:05:18,  3.71it/s] 64%|██████▎   | 236667/371472 [7:48:06<9:59:35,  3.75it/s]  64%|██████▎   | 236668/371472 [7:48:06<10:09:14,  3.69it/s] 64%|██████▎   | 236669/371472 [7:48:07<10:31:28,  3.56it/s] 64%|██████▎   | 236670/371472 [7:48:07<10:30:35,  3.56it/s] 64%|██████▎   | 236671/371472 [7:48:07<10:36:12,  3.53it/s] 64%|██████▎   | 236672/371472 [7:48:08<10:17:01,  3.64it/s] 64%|██████▎   | 236673/371472 [7:48:08<10:04:56,  3.71it/s] 64%|██████▎   | 236674/371472 [7:48:08<10:55:53,  3.43it/s] 64%|██████▎   | 236675/371472 [7:48:08<10:44:33,  3.49it/s] 64%|██████▎   | 236676/371472 [7:48:09<11:01:31,  3.40it/s] 64%|██████▎   | 236677/371472 [7:48:09<11:20:51,  3.30it/s] 64%|██████▎   | 236678/371472 [7:48:09<11:04:07,  3.38it/s] 64%|██████▎   | 236679/371472 [7:48:10<10:34:48,  3.54it/s] 64%|██████▎   | 236680/371472 [7:48:10<10:19:26,  3.63it/s]                                                            {'loss': 2.8441, 'learning_rate': 4.267491219375552e-07, 'epoch': 10.19}
 64%|██████▎   | 236680/371472 [7:48:10<10:19:26,  3.63it/s] 64%|██████▎   | 236681/371472 [7:48:10<10:06:28,  3.70it/s] 64%|██████▎   | 236682/371472 [7:48:10<9:46:32,  3.83it/s]  64%|██████▎   | 236683/371472 [7:48:11<10:34:32,  3.54it/s] 64%|██████▎   | 236684/371472 [7:48:11<10:12:11,  3.67it/s] 64%|██████▎   | 236685/371472 [7:48:11<10:19:02,  3.63it/s] 64%|██████▎   | 236686/371472 [7:48:12<10:47:57,  3.47it/s] 64%|██████▎   | 236687/371472 [7:48:12<10:14:01,  3.66it/s] 64%|██████▎   | 236688/371472 [7:48:12<9:48:45,  3.82it/s]  64%|██████▎   | 236689/371472 [7:48:12<9:31:53,  3.93it/s] 64%|██████▎   | 236690/371472 [7:48:13<10:32:24,  3.55it/s] 64%|██████▎   | 236691/371472 [7:48:13<10:31:55,  3.55it/s] 64%|██████▎   | 236692/371472 [7:48:13<10:35:07,  3.54it/s] 64%|██████▎   | 236693/371472 [7:48:13<10:32:21,  3.55it/s] 64%|██████▎   | 236694/371472 [7:48:14<10:38:10,  3.52it/s] 64%|██████▎   | 236695/371472 [7:48:14<11:21:48,  3.29it/s] 64%|██████▎   | 236696/371472 [7:48:14<10:40:53,  3.50it/s] 64%|██████▎   | 236697/371472 [7:48:15<11:06:04,  3.37it/s] 64%|██████▎   | 236698/371472 [7:48:15<10:29:01,  3.57it/s] 64%|██████▎   | 236699/371472 [7:48:15<10:11:06,  3.68it/s] 64%|██████▎   | 236700/371472 [7:48:15<10:11:01,  3.68it/s]                                                            {'loss': 2.8709, 'learning_rate': 4.267006399620763e-07, 'epoch': 10.2}
 64%|██████▎   | 236700/371472 [7:48:15<10:11:01,  3.68it/s] 64%|██████▎   | 236701/371472 [7:48:16<10:20:20,  3.62it/s] 64%|██████▎   | 236702/371472 [7:48:16<9:56:16,  3.77it/s]  64%|██████▎   | 236703/371472 [7:48:16<9:47:03,  3.83it/s] 64%|██████▎   | 236704/371472 [7:48:16<9:41:58,  3.86it/s] 64%|██████▎   | 236705/371472 [7:48:17<9:59:42,  3.75it/s] 64%|██████▎   | 236706/371472 [7:48:17<9:52:05,  3.79it/s] 64%|██████▎   | 236707/371472 [7:48:17<9:54:57,  3.78it/s] 64%|██████▎   | 236708/371472 [7:48:17<9:52:06,  3.79it/s] 64%|██████▎   | 236709/371472 [7:48:18<10:20:24,  3.62it/s] 64%|██████▎   | 236710/371472 [7:48:18<10:29:47,  3.57it/s] 64%|██████▎   | 236711/371472 [7:48:18<10:07:50,  3.70it/s] 64%|██████▎   | 236712/371472 [7:48:19<9:55:15,  3.77it/s]  64%|██████▎   | 236713/371472 [7:48:19<9:48:06,  3.82it/s] 64%|██████▎   | 236714/371472 [7:48:19<9:32:28,  3.92it/s] 64%|██████▎   | 236715/371472 [7:48:19<9:45:03,  3.84it/s] 64%|██████▎   | 236716/371472 [7:48:20<10:35:59,  3.53it/s] 64%|██████▎   | 236717/371472 [7:48:20<10:15:31,  3.65it/s] 64%|██████▎   | 236718/371472 [7:48:20<10:43:15,  3.49it/s] 64%|██████▎   | 236719/371472 [7:48:21<10:36:10,  3.53it/s] 64%|██████▎   | 236720/371472 [7:48:21<10:34:06,  3.54it/s]                                                            {'loss': 2.9686, 'learning_rate': 4.2665215798659736e-07, 'epoch': 10.2}
 64%|██████▎   | 236720/371472 [7:48:21<10:34:06,  3.54it/s] 64%|██████▎   | 236721/371472 [7:48:21<12:19:36,  3.04it/s] 64%|██████▎   | 236722/371472 [7:48:22<11:43:02,  3.19it/s] 64%|██████▎   | 236723/371472 [7:48:22<11:22:46,  3.29it/s] 64%|██████▎   | 236724/371472 [7:48:22<11:15:55,  3.32it/s] 64%|██████▎   | 236725/371472 [7:48:22<11:40:34,  3.21it/s] 64%|██████▎   | 236726/371472 [7:48:23<10:59:12,  3.41it/s] 64%|██████▎   | 236727/371472 [7:48:23<10:49:59,  3.46it/s] 64%|██████▎   | 236728/371472 [7:48:23<10:38:46,  3.52it/s] 64%|██████▎   | 236729/371472 [7:48:24<10:21:30,  3.61it/s] 64%|██████▎   | 236730/371472 [7:48:24<10:43:56,  3.49it/s] 64%|██████▎   | 236731/371472 [7:48:24<10:42:21,  3.50it/s] 64%|██████▎   | 236732/371472 [7:48:24<10:57:48,  3.41it/s] 64%|██████▎   | 236733/371472 [7:48:25<11:32:04,  3.24it/s] 64%|██████▎   | 236734/371472 [7:48:25<11:11:34,  3.34it/s] 64%|██████▎   | 236735/371472 [7:48:25<11:17:07,  3.32it/s] 64%|██████▎   | 236736/371472 [7:48:26<10:42:05,  3.50it/s] 64%|██████▎   | 236737/371472 [7:48:26<10:22:48,  3.61it/s] 64%|██████▎   | 236738/371472 [7:48:26<10:18:44,  3.63it/s] 64%|██████▎   | 236739/371472 [7:48:26<10:00:53,  3.74it/s] 64%|██████▎   | 236740/371472 [7:48:27<11:01:34,  3.39it/s]                                                            {'loss': 2.688, 'learning_rate': 4.2660367601111854e-07, 'epoch': 10.2}
 64%|██████▎   | 236740/371472 [7:48:27<11:01:34,  3.39it/s] 64%|██████▎   | 236741/371472 [7:48:27<10:30:14,  3.56it/s] 64%|██████▎   | 236742/371472 [7:48:27<9:58:02,  3.75it/s]  64%|██████▎   | 236743/371472 [7:48:27<10:04:44,  3.71it/s] 64%|██████▎   | 236744/371472 [7:48:28<10:24:02,  3.60it/s] 64%|██████▎   | 236745/371472 [7:48:28<10:19:14,  3.63it/s] 64%|██████▎   | 236746/371472 [7:48:28<10:20:28,  3.62it/s] 64%|██████▎   | 236747/371472 [7:48:29<10:03:37,  3.72it/s] 64%|██████▎   | 236748/371472 [7:48:29<10:02:27,  3.73it/s] 64%|██████▎   | 236749/371472 [7:48:29<9:48:49,  3.81it/s]  64%|██████▎   | 236750/371472 [7:48:29<9:52:44,  3.79it/s] 64%|██████▎   | 236751/371472 [7:48:30<9:49:12,  3.81it/s] 64%|██████▎   | 236752/371472 [7:48:30<10:46:01,  3.48it/s] 64%|██████▎   | 236753/371472 [7:48:30<10:28:52,  3.57it/s] 64%|██████▎   | 236754/371472 [7:48:31<11:16:03,  3.32it/s] 64%|██████▎   | 236755/371472 [7:48:31<11:29:03,  3.26it/s] 64%|██████▎   | 236756/371472 [7:48:31<12:08:08,  3.08it/s] 64%|██████▎   | 236757/371472 [7:48:32<11:18:47,  3.31it/s] 64%|██████▎   | 236758/371472 [7:48:32<10:45:07,  3.48it/s] 64%|██████▎   | 236759/371472 [7:48:32<10:15:30,  3.65it/s] 64%|██████▎   | 236760/371472 [7:48:32<10:56:01,  3.42it/s]                                                            {'loss': 2.9012, 'learning_rate': 4.2655519403563956e-07, 'epoch': 10.2}
 64%|██████▎   | 236760/371472 [7:48:32<10:56:01,  3.42it/s] 64%|██████▎   | 236761/371472 [7:48:33<10:43:26,  3.49it/s] 64%|██████▎   | 236762/371472 [7:48:33<10:27:31,  3.58it/s] 64%|██████▎   | 236763/371472 [7:48:33<10:53:59,  3.43it/s] 64%|██████▎   | 236764/371472 [7:48:33<10:51:49,  3.44it/s] 64%|██████▎   | 236765/371472 [7:48:34<10:24:31,  3.59it/s] 64%|██████▎   | 236766/371472 [7:48:34<10:19:40,  3.62it/s] 64%|██████▎   | 236767/371472 [7:48:34<10:17:46,  3.63it/s] 64%|██████▎   | 236768/371472 [7:48:35<10:44:13,  3.48it/s] 64%|██████▎   | 236769/371472 [7:48:35<10:16:46,  3.64it/s] 64%|██████▎   | 236770/371472 [7:48:35<10:02:29,  3.73it/s] 64%|██████▎   | 236771/371472 [7:48:35<9:57:57,  3.75it/s]  64%|██████▎   | 236772/371472 [7:48:36<10:32:44,  3.55it/s] 64%|██████▎   | 236773/371472 [7:48:36<10:11:20,  3.67it/s] 64%|██████▎   | 236774/371472 [7:48:36<10:33:38,  3.54it/s] 64%|██████▎   | 236775/371472 [7:48:36<10:22:54,  3.60it/s] 64%|██████▎   | 236776/371472 [7:48:37<10:21:44,  3.61it/s] 64%|██████▎   | 236777/371472 [7:48:37<10:20:03,  3.62it/s] 64%|██████▎   | 236778/371472 [7:48:37<11:22:59,  3.29it/s] 64%|██████▎   | 236779/371472 [7:48:38<11:43:25,  3.19it/s] 64%|██████▎   | 236780/371472 [7:48:38<11:15:45,  3.32it/s]                                                            {'loss': 2.936, 'learning_rate': 4.2650671206016074e-07, 'epoch': 10.2}
 64%|██████▎   | 236780/371472 [7:48:38<11:15:45,  3.32it/s] 64%|██████▎   | 236781/371472 [7:48:38<10:42:16,  3.50it/s] 64%|██████▎   | 236782/371472 [7:48:39<10:17:44,  3.63it/s] 64%|██████▎   | 236783/371472 [7:48:39<9:59:02,  3.75it/s]  64%|██████▎   | 236784/371472 [7:48:39<10:37:11,  3.52it/s] 64%|██████▎   | 236785/371472 [7:48:39<10:48:54,  3.46it/s] 64%|██████▎   | 236786/371472 [7:48:40<10:52:27,  3.44it/s] 64%|██████▎   | 236787/371472 [7:48:40<12:03:13,  3.10it/s] 64%|██████▎   | 236788/371472 [7:48:40<11:20:01,  3.30it/s] 64%|██████▎   | 236789/371472 [7:48:41<10:56:06,  3.42it/s] 64%|██████▎   | 236790/371472 [7:48:41<10:30:47,  3.56it/s] 64%|██████▎   | 236791/371472 [7:48:41<10:26:07,  3.58it/s] 64%|██████▎   | 236792/371472 [7:48:41<11:00:38,  3.40it/s] 64%|██████▎   | 236793/371472 [7:48:42<10:48:59,  3.46it/s] 64%|██████▎   | 236794/371472 [7:48:42<11:23:35,  3.28it/s] 64%|██████▎   | 236795/371472 [7:48:42<11:18:49,  3.31it/s] 64%|██████▎   | 236796/371472 [7:48:43<10:50:42,  3.45it/s] 64%|██████▎   | 236797/371472 [7:48:43<10:32:47,  3.55it/s] 64%|██████▎   | 236798/371472 [7:48:43<10:51:50,  3.44it/s] 64%|██████▎   | 236799/371472 [7:48:44<10:51:11,  3.45it/s] 64%|██████▎   | 236800/371472 [7:48:44<10:33:10,  3.54it/s]                                                            {'loss': 2.8275, 'learning_rate': 4.264582300846818e-07, 'epoch': 10.2}
 64%|██████▎   | 236800/371472 [7:48:44<10:33:10,  3.54it/s] 64%|██████▎   | 236801/371472 [7:48:44<10:22:05,  3.61it/s] 64%|██████▎   | 236802/371472 [7:48:44<12:16:08,  3.05it/s] 64%|██████▎   | 236803/371472 [7:48:45<11:24:56,  3.28it/s] 64%|██████▎   | 236804/371472 [7:48:45<11:01:31,  3.39it/s] 64%|██████▎   | 236805/371472 [7:48:45<10:31:32,  3.55it/s] 64%|██████▎   | 236806/371472 [7:48:46<10:42:52,  3.49it/s] 64%|██████▎   | 236807/371472 [7:48:46<10:22:30,  3.61it/s] 64%|██████▎   | 236808/371472 [7:48:46<10:20:25,  3.62it/s] 64%|██████▎   | 236809/371472 [7:48:46<10:40:59,  3.50it/s] 64%|██████▎   | 236810/371472 [7:48:47<12:13:32,  3.06it/s] 64%|██████▎   | 236811/371472 [7:48:47<11:53:51,  3.14it/s] 64%|██████▎   | 236812/371472 [7:48:47<11:05:42,  3.37it/s] 64%|██████▎   | 236813/371472 [7:48:48<10:45:05,  3.48it/s] 64%|██████▍   | 236814/371472 [7:48:48<10:14:47,  3.65it/s] 64%|██████▍   | 236815/371472 [7:48:48<10:14:37,  3.65it/s] 64%|██████▍   | 236816/371472 [7:48:48<9:48:55,  3.81it/s]  64%|██████▍   | 236817/371472 [7:48:49<9:51:56,  3.79it/s] 64%|██████▍   | 236818/371472 [7:48:49<9:54:01,  3.78it/s] 64%|██████▍   | 236819/371472 [7:48:49<10:11:49,  3.67it/s] 64%|██████▍   | 236820/371472 [7:48:50<10:43:12,  3.49it/s]                                                            {'loss': 2.8892, 'learning_rate': 4.2640974810920293e-07, 'epoch': 10.2}
 64%|██████▍   | 236820/371472 [7:48:50<10:43:12,  3.49it/s] 64%|██████▍   | 236821/371472 [7:48:50<10:37:40,  3.52it/s] 64%|██████▍   | 236822/371472 [7:48:50<10:45:40,  3.48it/s] 64%|██████▍   | 236823/371472 [7:48:50<10:54:31,  3.43it/s] 64%|██████▍   | 236824/371472 [7:48:51<10:53:18,  3.44it/s] 64%|██████▍   | 236825/371472 [7:48:51<10:52:16,  3.44it/s] 64%|██████▍   | 236826/371472 [7:48:51<10:32:03,  3.55it/s] 64%|██████▍   | 236827/371472 [7:48:52<10:23:05,  3.60it/s] 64%|██████▍   | 236828/371472 [7:48:52<10:26:40,  3.58it/s] 64%|██████▍   | 236829/371472 [7:48:52<10:55:00,  3.43it/s] 64%|██████▍   | 236830/371472 [7:48:52<11:26:58,  3.27it/s] 64%|██████▍   | 236831/371472 [7:48:53<11:28:14,  3.26it/s] 64%|██████▍   | 236832/371472 [7:48:53<11:32:33,  3.24it/s] 64%|██████▍   | 236833/371472 [7:48:53<11:42:00,  3.20it/s] 64%|██████▍   | 236834/371472 [7:48:54<11:14:35,  3.33it/s] 64%|██████▍   | 236835/371472 [7:48:54<11:19:10,  3.30it/s] 64%|██████▍   | 236836/371472 [7:48:54<10:41:13,  3.50it/s] 64%|██████▍   | 236837/371472 [7:48:54<10:34:07,  3.54it/s] 64%|██████▍   | 236838/371472 [7:48:55<10:15:59,  3.64it/s] 64%|██████▍   | 236839/371472 [7:48:55<10:23:36,  3.60it/s] 64%|██████▍   | 236840/371472 [7:48:55<10:32:03,  3.55it/s]                                                            {'loss': 2.9191, 'learning_rate': 4.26361266133724e-07, 'epoch': 10.2}
 64%|██████▍   | 236840/371472 [7:48:55<10:32:03,  3.55it/s] 64%|██████▍   | 236841/371472 [7:48:56<10:48:09,  3.46it/s] 64%|██████▍   | 236842/371472 [7:48:56<10:31:44,  3.55it/s] 64%|██████▍   | 236843/371472 [7:48:56<11:03:40,  3.38it/s] 64%|██████▍   | 236844/371472 [7:48:57<11:07:51,  3.36it/s] 64%|██████▍   | 236845/371472 [7:48:57<11:04:44,  3.38it/s] 64%|██████▍   | 236846/371472 [7:48:57<10:38:05,  3.52it/s] 64%|██████▍   | 236847/371472 [7:48:57<10:28:00,  3.57it/s] 64%|██████▍   | 236848/371472 [7:48:58<10:33:20,  3.54it/s] 64%|██████▍   | 236849/371472 [7:48:58<10:21:36,  3.61it/s] 64%|██████▍   | 236850/371472 [7:48:58<10:23:32,  3.60it/s] 64%|██████▍   | 236851/371472 [7:48:58<10:24:09,  3.59it/s] 64%|██████▍   | 236852/371472 [7:48:59<10:42:44,  3.49it/s] 64%|██████▍   | 236853/371472 [7:48:59<10:49:01,  3.46it/s] 64%|██████▍   | 236854/371472 [7:48:59<11:12:24,  3.34it/s] 64%|██████▍   | 236855/371472 [7:49:00<10:37:14,  3.52it/s] 64%|██████▍   | 236856/371472 [7:49:00<10:36:04,  3.53it/s] 64%|██████▍   | 236857/371472 [7:49:00<10:57:55,  3.41it/s] 64%|██████▍   | 236858/371472 [7:49:00<10:40:13,  3.50it/s] 64%|██████▍   | 236859/371472 [7:49:01<10:18:44,  3.63it/s] 64%|██████▍   | 236860/371472 [7:49:01<10:45:08,  3.48it/s]                                                            {'loss': 2.9947, 'learning_rate': 4.263127841582452e-07, 'epoch': 10.2}
 64%|██████▍   | 236860/371472 [7:49:01<10:45:08,  3.48it/s] 64%|██████▍   | 236861/371472 [7:49:01<10:28:31,  3.57it/s] 64%|██████▍   | 236862/371472 [7:49:02<10:13:09,  3.66it/s] 64%|██████▍   | 236863/371472 [7:49:02<10:05:00,  3.71it/s] 64%|██████▍   | 236864/371472 [7:49:02<10:00:51,  3.73it/s] 64%|██████▍   | 236865/371472 [7:49:02<10:16:21,  3.64it/s] 64%|██████▍   | 236866/371472 [7:49:03<10:25:29,  3.59it/s] 64%|██████▍   | 236867/371472 [7:49:03<10:11:44,  3.67it/s] 64%|██████▍   | 236868/371472 [7:49:03<10:18:06,  3.63it/s] 64%|██████▍   | 236869/371472 [7:49:03<10:07:12,  3.69it/s] 64%|██████▍   | 236870/371472 [7:49:04<10:32:35,  3.55it/s] 64%|██████▍   | 236871/371472 [7:49:04<12:10:23,  3.07it/s] 64%|██████▍   | 236872/371472 [7:49:05<11:39:55,  3.21it/s] 64%|██████▍   | 236873/371472 [7:49:05<11:07:51,  3.36it/s] 64%|██████▍   | 236874/371472 [7:49:05<11:08:53,  3.35it/s] 64%|██████▍   | 236875/371472 [7:49:05<10:40:56,  3.50it/s] 64%|██████▍   | 236876/371472 [7:49:06<10:11:15,  3.67it/s] 64%|██████▍   | 236877/371472 [7:49:06<10:09:51,  3.68it/s] 64%|██████▍   | 236878/371472 [7:49:06<11:10:57,  3.34it/s] 64%|██████▍   | 236879/371472 [7:49:06<10:49:57,  3.45it/s] 64%|██████▍   | 236880/371472 [7:49:07<11:10:03,  3.35it/s]                                                            {'loss': 2.8667, 'learning_rate': 4.262643021827662e-07, 'epoch': 10.2}
 64%|██████▍   | 236880/371472 [7:49:07<11:10:03,  3.35it/s] 64%|██████▍   | 236881/371472 [7:49:07<10:37:26,  3.52it/s] 64%|██████▍   | 236882/371472 [7:49:07<10:30:14,  3.56it/s] 64%|██████▍   | 236883/371472 [7:49:08<10:39:00,  3.51it/s] 64%|██████▍   | 236884/371472 [7:49:08<10:53:24,  3.43it/s] 64%|██████▍   | 236885/371472 [7:49:08<10:58:38,  3.41it/s] 64%|██████▍   | 236886/371472 [7:49:08<10:33:24,  3.54it/s] 64%|██████▍   | 236887/371472 [7:49:09<10:44:09,  3.48it/s] 64%|██████▍   | 236888/371472 [7:49:09<10:20:00,  3.62it/s] 64%|██████▍   | 236889/371472 [7:49:09<10:40:37,  3.50it/s] 64%|██████▍   | 236890/371472 [7:49:10<10:32:59,  3.54it/s] 64%|██████▍   | 236891/371472 [7:49:10<10:42:38,  3.49it/s] 64%|██████▍   | 236892/371472 [7:49:10<10:26:24,  3.58it/s] 64%|██████▍   | 236893/371472 [7:49:10<9:58:31,  3.75it/s]  64%|██████▍   | 236894/371472 [7:49:11<9:50:09,  3.80it/s] 64%|██████▍   | 236895/371472 [7:49:11<10:03:39,  3.72it/s] 64%|██████▍   | 236896/371472 [7:49:11<10:08:34,  3.69it/s] 64%|██████▍   | 236897/371472 [7:49:11<10:12:10,  3.66it/s] 64%|██████▍   | 236898/371472 [7:49:12<9:58:48,  3.75it/s]  64%|██████▍   | 236899/371472 [7:49:12<10:15:03,  3.65it/s] 64%|██████▍   | 236900/371472 [7:49:12<9:56:37,  3.76it/s]                                                            {'loss': 2.8644, 'learning_rate': 4.262158202072874e-07, 'epoch': 10.2}
 64%|██████▍   | 236900/371472 [7:49:12<9:56:37,  3.76it/s] 64%|██████▍   | 236901/371472 [7:49:13<10:15:27,  3.64it/s] 64%|██████▍   | 236902/371472 [7:49:13<10:25:57,  3.58it/s] 64%|██████▍   | 236903/371472 [7:49:13<10:05:29,  3.70it/s] 64%|██████▍   | 236904/371472 [7:49:13<10:47:41,  3.46it/s] 64%|██████▍   | 236905/371472 [7:49:14<10:30:51,  3.56it/s] 64%|██████▍   | 236906/371472 [7:49:14<10:40:06,  3.50it/s] 64%|██████▍   | 236907/371472 [7:49:14<10:39:58,  3.50it/s] 64%|██████▍   | 236908/371472 [7:49:15<10:43:57,  3.48it/s] 64%|██████▍   | 236909/371472 [7:49:15<10:31:06,  3.55it/s] 64%|██████▍   | 236910/371472 [7:49:15<10:16:30,  3.64it/s] 64%|██████▍   | 236911/371472 [7:49:15<10:23:33,  3.60it/s] 64%|██████▍   | 236912/371472 [7:49:16<10:41:39,  3.50it/s] 64%|██████▍   | 236913/371472 [7:49:16<10:27:05,  3.58it/s] 64%|██████▍   | 236914/371472 [7:49:16<10:42:52,  3.49it/s] 64%|██████▍   | 236915/371472 [7:49:17<10:56:19,  3.42it/s] 64%|██████▍   | 236916/371472 [7:49:17<10:31:22,  3.55it/s] 64%|██████▍   | 236917/371472 [7:49:17<10:03:09,  3.72it/s] 64%|██████▍   | 236918/371472 [7:49:17<10:07:14,  3.69it/s] 64%|██████▍   | 236919/371472 [7:49:18<10:17:33,  3.63it/s] 64%|██████▍   | 236920/371472 [7:49:18<10:21:11,  3.61it/s]                                                            {'loss': 2.8327, 'learning_rate': 4.2616733823180845e-07, 'epoch': 10.2}
 64%|██████▍   | 236920/371472 [7:49:18<10:21:11,  3.61it/s] 64%|██████▍   | 236921/371472 [7:49:18<10:19:13,  3.62it/s] 64%|██████▍   | 236922/371472 [7:49:18<10:15:03,  3.65it/s] 64%|██████▍   | 236923/371472 [7:49:19<10:22:54,  3.60it/s] 64%|██████▍   | 236924/371472 [7:49:19<10:08:24,  3.69it/s] 64%|██████▍   | 236925/371472 [7:49:19<9:52:15,  3.79it/s]  64%|██████▍   | 236926/371472 [7:49:20<10:31:01,  3.55it/s] 64%|██████▍   | 236927/371472 [7:49:20<10:34:55,  3.53it/s] 64%|██████▍   | 236928/371472 [7:49:20<10:38:52,  3.51it/s] 64%|██████▍   | 236929/371472 [7:49:20<10:21:15,  3.61it/s] 64%|██████▍   | 236930/371472 [7:49:21<10:05:01,  3.71it/s] 64%|██████▍   | 236931/371472 [7:49:21<10:31:20,  3.55it/s] 64%|██████▍   | 236932/371472 [7:49:21<10:19:47,  3.62it/s] 64%|██████▍   | 236933/371472 [7:49:22<10:54:45,  3.42it/s] 64%|██████▍   | 236934/371472 [7:49:22<10:28:26,  3.57it/s] 64%|██████▍   | 236935/371472 [7:49:22<10:22:14,  3.60it/s] 64%|██████▍   | 236936/371472 [7:49:22<10:18:39,  3.62it/s] 64%|██████▍   | 236937/371472 [7:49:23<10:20:50,  3.61it/s] 64%|██████▍   | 236938/371472 [7:49:23<10:20:00,  3.62it/s] 64%|██████▍   | 236939/371472 [7:49:23<10:24:19,  3.59it/s] 64%|██████▍   | 236940/371472 [7:49:23<10:26:51,  3.58it/s]                                                            {'loss': 2.8409, 'learning_rate': 4.2611885625632957e-07, 'epoch': 10.21}
 64%|██████▍   | 236940/371472 [7:49:23<10:26:51,  3.58it/s] 64%|██████▍   | 236941/371472 [7:49:24<10:29:53,  3.56it/s] 64%|██████▍   | 236942/371472 [7:49:24<10:39:22,  3.51it/s] 64%|██████▍   | 236943/371472 [7:49:24<10:35:32,  3.53it/s] 64%|██████▍   | 236944/371472 [7:49:25<10:29:48,  3.56it/s] 64%|██████▍   | 236945/371472 [7:49:25<11:17:05,  3.31it/s] 64%|██████▍   | 236946/371472 [7:49:25<11:18:00,  3.31it/s] 64%|██████▍   | 236947/371472 [7:49:26<10:43:45,  3.48it/s] 64%|██████▍   | 236948/371472 [7:49:26<10:46:02,  3.47it/s] 64%|██████▍   | 236949/371472 [7:49:26<10:24:12,  3.59it/s] 64%|██████▍   | 236950/371472 [7:49:26<10:13:25,  3.65it/s] 64%|██████▍   | 236951/371472 [7:49:27<10:12:26,  3.66it/s] 64%|██████▍   | 236952/371472 [7:49:27<10:17:21,  3.63it/s] 64%|██████▍   | 236953/371472 [7:49:27<10:42:58,  3.49it/s] 64%|██████▍   | 236954/371472 [7:49:27<10:22:49,  3.60it/s] 64%|██████▍   | 236955/371472 [7:49:28<10:46:26,  3.47it/s] 64%|██████▍   | 236956/371472 [7:49:28<10:32:21,  3.55it/s] 64%|██████▍   | 236957/371472 [7:49:28<11:14:30,  3.32it/s] 64%|██████▍   | 236958/371472 [7:49:29<11:03:22,  3.38it/s] 64%|██████▍   | 236959/371472 [7:49:29<11:07:10,  3.36it/s] 64%|██████▍   | 236960/371472 [7:49:29<11:53:05,  3.14it/s]                                                            {'loss': 2.8753, 'learning_rate': 4.2607037428085064e-07, 'epoch': 10.21}
 64%|██████▍   | 236960/371472 [7:49:29<11:53:05,  3.14it/s] 64%|██████▍   | 236961/371472 [7:49:30<11:34:32,  3.23it/s] 64%|██████▍   | 236962/371472 [7:49:30<10:56:00,  3.42it/s] 64%|██████▍   | 236963/371472 [7:49:30<10:43:38,  3.48it/s] 64%|██████▍   | 236964/371472 [7:49:30<11:08:05,  3.36it/s] 64%|██████▍   | 236965/371472 [7:49:31<10:48:45,  3.46it/s] 64%|██████▍   | 236966/371472 [7:49:31<10:18:37,  3.62it/s] 64%|██████▍   | 236967/371472 [7:49:31<9:57:25,  3.75it/s]  64%|██████▍   | 236968/371472 [7:49:31<9:54:43,  3.77it/s] 64%|██████▍   | 236969/371472 [7:49:32<9:48:18,  3.81it/s] 64%|██████▍   | 236970/371472 [7:49:32<9:43:04,  3.84it/s] 64%|██████▍   | 236971/371472 [7:49:32<10:04:15,  3.71it/s] 64%|██████▍   | 236972/371472 [7:49:33<9:48:03,  3.81it/s]  64%|██████▍   | 236973/371472 [7:49:33<9:46:19,  3.82it/s] 64%|██████▍   | 236974/371472 [7:49:33<9:44:50,  3.83it/s] 64%|██████▍   | 236975/371472 [7:49:33<9:52:31,  3.78it/s] 64%|██████▍   | 236976/371472 [7:49:34<9:55:05,  3.77it/s] 64%|██████▍   | 236977/371472 [7:49:34<9:58:48,  3.74it/s] 64%|██████▍   | 236978/371472 [7:49:34<10:10:56,  3.67it/s] 64%|██████▍   | 236979/371472 [7:49:34<10:24:43,  3.59it/s] 64%|██████▍   | 236980/371472 [7:49:35<10:29:21,  3.56it/s]                                                            {'loss': 2.8131, 'learning_rate': 4.260218923053718e-07, 'epoch': 10.21}
 64%|██████▍   | 236980/371472 [7:49:35<10:29:21,  3.56it/s] 64%|██████▍   | 236981/371472 [7:49:35<10:32:14,  3.55it/s] 64%|██████▍   | 236982/371472 [7:49:35<10:19:15,  3.62it/s] 64%|██████▍   | 236983/371472 [7:49:36<10:22:55,  3.60it/s] 64%|██████▍   | 236984/371472 [7:49:36<10:26:33,  3.58it/s] 64%|██████▍   | 236985/371472 [7:49:36<11:11:45,  3.34it/s] 64%|██████▍   | 236986/371472 [7:49:36<10:30:36,  3.55it/s] 64%|██████▍   | 236987/371472 [7:49:37<10:05:01,  3.70it/s] 64%|██████▍   | 236988/371472 [7:49:37<10:07:04,  3.69it/s] 64%|██████▍   | 236989/371472 [7:49:37<11:25:30,  3.27it/s] 64%|██████▍   | 236990/371472 [7:49:38<10:57:05,  3.41it/s] 64%|██████▍   | 236991/371472 [7:49:38<10:33:14,  3.54it/s] 64%|██████▍   | 236992/371472 [7:49:38<10:55:38,  3.42it/s] 64%|██████▍   | 236993/371472 [7:49:38<10:34:47,  3.53it/s] 64%|██████▍   | 236994/371472 [7:49:39<10:56:10,  3.42it/s] 64%|██████▍   | 236995/371472 [7:49:39<10:39:40,  3.50it/s] 64%|██████▍   | 236996/371472 [7:49:39<10:17:27,  3.63it/s] 64%|██████▍   | 236997/371472 [7:49:40<10:04:07,  3.71it/s] 64%|██████▍   | 236998/371472 [7:49:40<10:16:03,  3.64it/s] 64%|██████▍   | 236999/371472 [7:49:40<10:32:54,  3.54it/s] 64%|██████▍   | 237000/371472 [7:49:40<10:22:13,  3.60it/s]                                                            {'loss': 2.8442, 'learning_rate': 4.259734103298929e-07, 'epoch': 10.21}
 64%|██████▍   | 237000/371472 [7:49:40<10:22:13,  3.60it/s] 64%|██████▍   | 237001/371472 [7:49:41<10:18:17,  3.62it/s] 64%|██████▍   | 237002/371472 [7:49:41<10:11:17,  3.67it/s] 64%|██████▍   | 237003/371472 [7:49:41<11:19:58,  3.30it/s] 64%|██████▍   | 237004/371472 [7:49:42<11:16:05,  3.31it/s] 64%|██████▍   | 237005/371472 [7:49:42<11:40:15,  3.20it/s] 64%|██████▍   | 237006/371472 [7:49:42<11:06:16,  3.36it/s] 64%|██████▍   | 237007/371472 [7:49:42<10:49:26,  3.45it/s] 64%|██████▍   | 237008/371472 [7:49:43<10:26:14,  3.58it/s] 64%|██████▍   | 237009/371472 [7:49:43<10:38:06,  3.51it/s] 64%|██████▍   | 237010/371472 [7:49:43<10:26:59,  3.57it/s] 64%|██████▍   | 237011/371472 [7:49:44<10:33:20,  3.54it/s] 64%|██████▍   | 237012/371472 [7:49:44<10:16:02,  3.64it/s] 64%|██████▍   | 237013/371472 [7:49:44<10:22:08,  3.60it/s] 64%|██████▍   | 237014/371472 [7:49:44<9:58:27,  3.74it/s]  64%|██████▍   | 237015/371472 [7:49:45<9:45:26,  3.83it/s] 64%|██████▍   | 237016/371472 [7:49:45<10:36:44,  3.52it/s] 64%|██████▍   | 237017/371472 [7:49:45<10:28:13,  3.57it/s] 64%|██████▍   | 237018/371472 [7:49:45<10:14:38,  3.65it/s] 64%|██████▍   | 237019/371472 [7:49:46<10:07:36,  3.69it/s] 64%|██████▍   | 237020/371472 [7:49:46<10:18:36,  3.62it/s]                                                            {'loss': 2.8273, 'learning_rate': 4.25924928354414e-07, 'epoch': 10.21}
 64%|██████▍   | 237020/371472 [7:49:46<10:18:36,  3.62it/s] 64%|██████▍   | 237021/371472 [7:49:46<10:02:19,  3.72it/s] 64%|██████▍   | 237022/371472 [7:49:47<10:15:09,  3.64it/s] 64%|██████▍   | 237023/371472 [7:49:47<10:11:17,  3.67it/s] 64%|██████▍   | 237024/371472 [7:49:47<11:26:43,  3.26it/s] 64%|██████▍   | 237025/371472 [7:49:47<10:51:29,  3.44it/s] 64%|██████▍   | 237026/371472 [7:49:48<11:18:53,  3.30it/s] 64%|██████▍   | 237027/371472 [7:49:48<10:59:23,  3.40it/s] 64%|██████▍   | 237028/371472 [7:49:48<11:55:30,  3.13it/s] 64%|██████▍   | 237029/371472 [7:49:49<11:22:23,  3.28it/s] 64%|██████▍   | 237030/371472 [7:49:49<10:58:23,  3.40it/s] 64%|██████▍   | 237031/371472 [7:49:49<11:29:46,  3.25it/s] 64%|██████▍   | 237032/371472 [7:49:50<11:10:49,  3.34it/s] 64%|██████▍   | 237033/371472 [7:49:50<11:45:17,  3.18it/s] 64%|██████▍   | 237034/371472 [7:49:50<11:08:15,  3.35it/s] 64%|██████▍   | 237035/371472 [7:49:50<10:40:53,  3.50it/s] 64%|██████▍   | 237036/371472 [7:49:51<10:33:07,  3.54it/s] 64%|██████▍   | 237037/371472 [7:49:51<10:15:09,  3.64it/s] 64%|██████▍   | 237038/371472 [7:49:51<10:10:01,  3.67it/s] 64%|██████▍   | 237039/371472 [7:49:52<9:57:18,  3.75it/s]  64%|██████▍   | 237040/371472 [7:49:52<9:51:16,  3.79it/s]                                                           {'loss': 2.8301, 'learning_rate': 4.258764463789351e-07, 'epoch': 10.21}
 64%|██████▍   | 237040/371472 [7:49:52<9:51:16,  3.79it/s] 64%|██████▍   | 237041/371472 [7:49:52<9:44:38,  3.83it/s] 64%|██████▍   | 237042/371472 [7:49:52<9:49:58,  3.80it/s] 64%|██████▍   | 237043/371472 [7:49:53<9:46:09,  3.82it/s] 64%|██████▍   | 237044/371472 [7:49:53<9:54:15,  3.77it/s] 64%|██████▍   | 237045/371472 [7:49:53<10:36:47,  3.52it/s] 64%|██████▍   | 237046/371472 [7:49:53<10:12:20,  3.66it/s] 64%|██████▍   | 237047/371472 [7:49:54<10:28:30,  3.56it/s] 64%|██████▍   | 237048/371472 [7:49:54<10:31:21,  3.55it/s] 64%|██████▍   | 237049/371472 [7:49:54<10:25:30,  3.58it/s] 64%|██████▍   | 237050/371472 [7:49:55<10:31:01,  3.55it/s] 64%|██████▍   | 237051/371472 [7:49:55<10:40:47,  3.50it/s] 64%|██████▍   | 237052/371472 [7:49:55<10:39:59,  3.50it/s] 64%|██████▍   | 237053/371472 [7:49:55<11:16:48,  3.31it/s] 64%|██████▍   | 237054/371472 [7:49:56<11:03:08,  3.38it/s] 64%|██████▍   | 237055/371472 [7:49:56<11:42:30,  3.19it/s] 64%|██████▍   | 237056/371472 [7:49:56<11:56:10,  3.13it/s] 64%|██████▍   | 237057/371472 [7:49:57<12:11:17,  3.06it/s] 64%|██████▍   | 237058/371472 [7:49:57<11:42:18,  3.19it/s] 64%|██████▍   | 237059/371472 [7:49:57<11:05:06,  3.37it/s] 64%|██████▍   | 237060/371472 [7:49:58<10:52:27,  3.43it/s]                                                            {'loss': 3.0289, 'learning_rate': 4.2582796440345627e-07, 'epoch': 10.21}
 64%|██████▍   | 237060/371472 [7:49:58<10:52:27,  3.43it/s] 64%|██████▍   | 237061/371472 [7:49:58<10:26:08,  3.58it/s] 64%|██████▍   | 237062/371472 [7:49:58<10:26:32,  3.58it/s] 64%|██████▍   | 237063/371472 [7:49:58<10:16:26,  3.63it/s] 64%|██████▍   | 237064/371472 [7:49:59<10:38:54,  3.51it/s] 64%|██████▍   | 237065/371472 [7:49:59<10:42:22,  3.49it/s] 64%|██████▍   | 237066/371472 [7:49:59<11:11:25,  3.34it/s] 64%|██████▍   | 237067/371472 [7:50:00<11:06:42,  3.36it/s] 64%|██████▍   | 237068/371472 [7:50:00<10:48:24,  3.45it/s] 64%|██████▍   | 237069/371472 [7:50:00<11:25:52,  3.27it/s] 64%|██████▍   | 237070/371472 [7:50:01<11:16:34,  3.31it/s] 64%|██████▍   | 237071/371472 [7:50:01<10:59:20,  3.40it/s] 64%|██████▍   | 237072/371472 [7:50:01<11:02:45,  3.38it/s] 64%|██████▍   | 237073/371472 [7:50:01<10:51:21,  3.44it/s] 64%|██████▍   | 237074/371472 [7:50:02<10:41:47,  3.49it/s] 64%|██████▍   | 237075/371472 [7:50:02<10:54:13,  3.42it/s] 64%|██████▍   | 237076/371472 [7:50:02<10:54:46,  3.42it/s] 64%|██████▍   | 237077/371472 [7:50:03<10:33:45,  3.53it/s] 64%|██████▍   | 237078/371472 [7:50:03<10:28:33,  3.56it/s] 64%|██████▍   | 237079/371472 [7:50:03<10:54:14,  3.42it/s] 64%|██████▍   | 237080/371472 [7:50:03<10:33:36,  3.54it/s]                                                            {'loss': 2.8045, 'learning_rate': 4.257794824279773e-07, 'epoch': 10.21}
 64%|██████▍   | 237080/371472 [7:50:03<10:33:36,  3.54it/s] 64%|██████▍   | 237081/371472 [7:50:04<10:12:32,  3.66it/s] 64%|██████▍   | 237082/371472 [7:50:04<10:08:31,  3.68it/s] 64%|██████▍   | 237083/371472 [7:50:04<10:05:31,  3.70it/s] 64%|██████▍   | 237084/371472 [7:50:04<10:03:00,  3.71it/s] 64%|██████▍   | 237085/371472 [7:50:05<10:41:27,  3.49it/s] 64%|██████▍   | 237086/371472 [7:50:05<10:39:53,  3.50it/s] 64%|██████▍   | 237087/371472 [7:50:05<10:34:41,  3.53it/s] 64%|██████▍   | 237088/371472 [7:50:06<10:10:31,  3.67it/s] 64%|██████▍   | 237089/371472 [7:50:06<10:01:47,  3.72it/s] 64%|██████▍   | 237090/371472 [7:50:06<9:57:07,  3.75it/s]  64%|██████▍   | 237091/371472 [7:50:06<10:30:51,  3.55it/s] 64%|██████▍   | 237092/371472 [7:50:07<11:08:06,  3.35it/s] 64%|██████▍   | 237093/371472 [7:50:07<10:56:45,  3.41it/s] 64%|██████▍   | 237094/371472 [7:50:07<10:32:11,  3.54it/s] 64%|██████▍   | 237095/371472 [7:50:08<10:22:10,  3.60it/s] 64%|██████▍   | 237096/371472 [7:50:08<10:41:15,  3.49it/s] 64%|██████▍   | 237097/371472 [7:50:08<10:39:22,  3.50it/s] 64%|██████▍   | 237098/371472 [7:50:08<10:36:40,  3.52it/s] 64%|██████▍   | 237099/371472 [7:50:09<10:57:24,  3.41it/s] 64%|██████▍   | 237100/371472 [7:50:09<10:33:35,  3.53it/s]                                                            {'loss': 2.776, 'learning_rate': 4.257310004524985e-07, 'epoch': 10.21}
 64%|██████▍   | 237100/371472 [7:50:09<10:33:35,  3.53it/s] 64%|██████▍   | 237101/371472 [7:50:09<11:20:21,  3.29it/s] 64%|██████▍   | 237102/371472 [7:50:10<11:15:15,  3.32it/s] 64%|██████▍   | 237103/371472 [7:50:10<10:54:33,  3.42it/s] 64%|██████▍   | 237104/371472 [7:50:10<11:29:48,  3.25it/s] 64%|██████▍   | 237105/371472 [7:50:11<11:09:22,  3.35it/s] 64%|██████▍   | 237106/371472 [7:50:11<10:56:55,  3.41it/s] 64%|██████▍   | 237107/371472 [7:50:11<10:51:48,  3.44it/s] 64%|██████▍   | 237108/371472 [7:50:11<10:57:33,  3.41it/s] 64%|██████▍   | 237109/371472 [7:50:12<10:55:23,  3.42it/s] 64%|██████▍   | 237110/371472 [7:50:12<11:04:26,  3.37it/s] 64%|██████▍   | 237111/371472 [7:50:12<11:06:22,  3.36it/s] 64%|██████▍   | 237112/371472 [7:50:13<11:04:32,  3.37it/s] 64%|██████▍   | 237113/371472 [7:50:13<11:00:01,  3.39it/s] 64%|██████▍   | 237114/371472 [7:50:13<10:43:33,  3.48it/s] 64%|██████▍   | 237115/371472 [7:50:13<10:50:01,  3.44it/s] 64%|██████▍   | 237116/371472 [7:50:14<11:05:39,  3.36it/s] 64%|██████▍   | 237117/371472 [7:50:14<11:22:41,  3.28it/s] 64%|██████▍   | 237118/371472 [7:50:14<10:47:31,  3.46it/s] 64%|██████▍   | 237119/371472 [7:50:15<10:27:00,  3.57it/s] 64%|██████▍   | 237120/371472 [7:50:15<10:39:50,  3.50it/s]                                                            {'loss': 2.699, 'learning_rate': 4.2568251847701953e-07, 'epoch': 10.21}
 64%|██████▍   | 237120/371472 [7:50:15<10:39:50,  3.50it/s] 64%|██████▍   | 237121/371472 [7:50:15<10:32:03,  3.54it/s] 64%|██████▍   | 237122/371472 [7:50:15<10:54:34,  3.42it/s] 64%|██████▍   | 237123/371472 [7:50:16<10:26:06,  3.58it/s] 64%|██████▍   | 237124/371472 [7:50:16<10:17:27,  3.63it/s] 64%|██████▍   | 237125/371472 [7:50:16<10:03:54,  3.71it/s] 64%|██████▍   | 237126/371472 [7:50:16<9:49:28,  3.80it/s]  64%|██████▍   | 237127/371472 [7:50:17<10:05:19,  3.70it/s] 64%|██████▍   | 237128/371472 [7:50:17<10:41:57,  3.49it/s] 64%|██████▍   | 237129/371472 [7:50:17<10:25:21,  3.58it/s] 64%|██████▍   | 237130/371472 [7:50:18<11:15:47,  3.31it/s] 64%|██████▍   | 237131/371472 [7:50:18<11:53:20,  3.14it/s] 64%|██████▍   | 237132/371472 [7:50:18<11:52:42,  3.14it/s] 64%|██████▍   | 237133/371472 [7:50:19<12:05:49,  3.08it/s] 64%|██████▍   | 237134/371472 [7:50:19<11:17:06,  3.31it/s] 64%|██████▍   | 237135/371472 [7:50:19<11:43:48,  3.18it/s] 64%|██████▍   | 237136/371472 [7:50:20<11:09:04,  3.35it/s] 64%|██████▍   | 237137/371472 [7:50:20<10:51:14,  3.44it/s] 64%|██████▍   | 237138/371472 [7:50:20<11:14:40,  3.32it/s] 64%|██████▍   | 237139/371472 [7:50:20<10:38:42,  3.51it/s] 64%|██████▍   | 237140/371472 [7:50:21<10:17:07,  3.63it/s]                                                            {'loss': 2.9159, 'learning_rate': 4.2563403650154066e-07, 'epoch': 10.21}
 64%|██████▍   | 237140/371472 [7:50:21<10:17:07,  3.63it/s] 64%|██████▍   | 237141/371472 [7:50:21<10:08:03,  3.68it/s] 64%|██████▍   | 237142/371472 [7:50:21<9:58:47,  3.74it/s]  64%|██████▍   | 237143/371472 [7:50:21<9:47:19,  3.81it/s] 64%|██████▍   | 237144/371472 [7:50:22<9:34:28,  3.90it/s] 64%|██████▍   | 237145/371472 [7:50:22<9:49:11,  3.80it/s] 64%|██████▍   | 237146/371472 [7:50:22<9:55:17,  3.76it/s] 64%|██████▍   | 237147/371472 [7:50:23<11:22:48,  3.28it/s] 64%|██████▍   | 237148/371472 [7:50:23<11:01:35,  3.38it/s] 64%|██████▍   | 237149/371472 [7:50:23<11:05:34,  3.36it/s] 64%|██████▍   | 237150/371472 [7:50:23<10:40:18,  3.50it/s] 64%|██████▍   | 237151/371472 [7:50:24<11:22:20,  3.28it/s] 64%|██████▍   | 237152/371472 [7:50:24<11:09:48,  3.34it/s] 64%|██████▍   | 237153/371472 [7:50:24<10:44:55,  3.47it/s] 64%|██████▍   | 237154/371472 [7:50:25<10:38:12,  3.51it/s] 64%|██████▍   | 237155/371472 [7:50:25<10:20:21,  3.61it/s] 64%|██████▍   | 237156/371472 [7:50:25<10:39:38,  3.50it/s] 64%|██████▍   | 237157/371472 [7:50:26<10:34:43,  3.53it/s] 64%|██████▍   | 237158/371472 [7:50:26<10:04:33,  3.70it/s] 64%|██████▍   | 237159/371472 [7:50:26<10:03:21,  3.71it/s] 64%|██████▍   | 237160/371472 [7:50:26<10:24:07,  3.59it/s]                                                            {'loss': 2.8493, 'learning_rate': 4.2558555452606173e-07, 'epoch': 10.21}
 64%|██████▍   | 237160/371472 [7:50:26<10:24:07,  3.59it/s] 64%|██████▍   | 237161/371472 [7:50:27<10:08:18,  3.68it/s] 64%|██████▍   | 237162/371472 [7:50:27<11:30:35,  3.24it/s] 64%|██████▍   | 237163/371472 [7:50:27<11:21:26,  3.28it/s] 64%|██████▍   | 237164/371472 [7:50:28<11:34:57,  3.22it/s] 64%|██████▍   | 237165/371472 [7:50:28<11:08:32,  3.35it/s] 64%|██████▍   | 237166/371472 [7:50:28<11:02:27,  3.38it/s] 64%|██████▍   | 237167/371472 [7:50:29<11:54:07,  3.13it/s] 64%|██████▍   | 237168/371472 [7:50:29<11:40:20,  3.20it/s] 64%|██████▍   | 237169/371472 [7:50:29<11:10:46,  3.34it/s] 64%|██████▍   | 237170/371472 [7:50:29<10:53:53,  3.42it/s] 64%|██████▍   | 237171/371472 [7:50:30<10:12:39,  3.65it/s] 64%|██████▍   | 237172/371472 [7:50:30<10:00:48,  3.73it/s] 64%|██████▍   | 237173/371472 [7:50:30<10:15:07,  3.64it/s] 64%|██████▍   | 237174/371472 [7:50:30<10:09:15,  3.67it/s] 64%|██████▍   | 237175/371472 [7:50:31<10:06:20,  3.69it/s] 64%|██████▍   | 237176/371472 [7:50:31<9:45:25,  3.82it/s]  64%|██████▍   | 237177/371472 [7:50:31<9:52:57,  3.77it/s] 64%|██████▍   | 237178/371472 [7:50:31<10:12:55,  3.65it/s] 64%|██████▍   | 237179/371472 [7:50:32<11:25:36,  3.26it/s] 64%|██████▍   | 237180/371472 [7:50:32<10:54:53,  3.42it/s]                                                            {'loss': 2.9661, 'learning_rate': 4.255370725505829e-07, 'epoch': 10.22}
 64%|██████▍   | 237180/371472 [7:50:32<10:54:53,  3.42it/s] 64%|██████▍   | 237181/371472 [7:50:32<10:47:24,  3.46it/s] 64%|██████▍   | 237182/371472 [7:50:33<10:25:10,  3.58it/s] 64%|██████▍   | 237183/371472 [7:50:33<10:11:30,  3.66it/s] 64%|██████▍   | 237184/371472 [7:50:33<10:08:49,  3.68it/s] 64%|██████▍   | 237185/371472 [7:50:33<10:28:12,  3.56it/s] 64%|██████▍   | 237186/371472 [7:50:34<10:12:03,  3.66it/s] 64%|██████▍   | 237187/371472 [7:50:34<10:21:04,  3.60it/s] 64%|██████▍   | 237188/371472 [7:50:34<10:22:03,  3.60it/s] 64%|██████▍   | 237189/371472 [7:50:35<10:35:40,  3.52it/s] 64%|██████▍   | 237190/371472 [7:50:35<11:02:16,  3.38it/s] 64%|██████▍   | 237191/371472 [7:50:35<10:29:48,  3.55it/s] 64%|██████▍   | 237192/371472 [7:50:35<10:39:41,  3.50it/s] 64%|██████▍   | 237193/371472 [7:50:36<10:34:53,  3.53it/s] 64%|██████▍   | 237194/371472 [7:50:36<10:21:47,  3.60it/s] 64%|██████▍   | 237195/371472 [7:50:36<11:02:26,  3.38it/s] 64%|██████▍   | 237196/371472 [7:50:37<10:29:49,  3.55it/s] 64%|██████▍   | 237197/371472 [7:50:37<10:36:45,  3.51it/s] 64%|██████▍   | 237198/371472 [7:50:37<10:21:58,  3.60it/s] 64%|██████▍   | 237199/371472 [7:50:37<10:11:59,  3.66it/s] 64%|██████▍   | 237200/371472 [7:50:38<10:41:45,  3.49it/s]                                                            {'loss': 2.7932, 'learning_rate': 4.254885905751039e-07, 'epoch': 10.22}
 64%|██████▍   | 237200/371472 [7:50:38<10:41:45,  3.49it/s] 64%|██████▍   | 237201/371472 [7:50:38<10:30:57,  3.55it/s] 64%|██████▍   | 237202/371472 [7:50:38<10:31:54,  3.54it/s] 64%|██████▍   | 237203/371472 [7:50:39<10:10:17,  3.67it/s] 64%|██████▍   | 237204/371472 [7:50:39<10:17:16,  3.63it/s] 64%|██████▍   | 237205/371472 [7:50:39<10:35:19,  3.52it/s] 64%|██████▍   | 237206/371472 [7:50:39<10:22:20,  3.60it/s] 64%|██████▍   | 237207/371472 [7:50:40<10:13:46,  3.65it/s] 64%|██████▍   | 237208/371472 [7:50:40<11:09:17,  3.34it/s] 64%|██████▍   | 237209/371472 [7:50:40<10:55:02,  3.42it/s] 64%|██████▍   | 237210/371472 [7:50:41<11:48:43,  3.16it/s] 64%|██████▍   | 237211/371472 [7:50:41<11:05:28,  3.36it/s] 64%|██████▍   | 237212/371472 [7:50:41<11:08:10,  3.35it/s] 64%|██████▍   | 237213/371472 [7:50:41<10:49:50,  3.44it/s] 64%|██████▍   | 237214/371472 [7:50:42<10:24:52,  3.58it/s] 64%|██████▍   | 237215/371472 [7:50:42<10:29:06,  3.56it/s] 64%|██████▍   | 237216/371472 [7:50:42<10:39:59,  3.50it/s] 64%|██████▍   | 237217/371472 [7:50:43<10:47:47,  3.45it/s] 64%|██████▍   | 237218/371472 [7:50:43<10:38:59,  3.50it/s] 64%|██████▍   | 237219/371472 [7:50:43<10:16:12,  3.63it/s] 64%|██████▍   | 237220/371472 [7:50:43<9:55:22,  3.76it/s]                                                            {'loss': 2.9453, 'learning_rate': 4.254401085996251e-07, 'epoch': 10.22}
 64%|██████▍   | 237220/371472 [7:50:43<9:55:22,  3.76it/s] 64%|██████▍   | 237221/371472 [7:50:44<10:42:02,  3.48it/s] 64%|██████▍   | 237222/371472 [7:50:44<10:23:36,  3.59it/s] 64%|██████▍   | 237223/371472 [7:50:44<10:05:54,  3.69it/s] 64%|██████▍   | 237224/371472 [7:50:45<10:10:25,  3.67it/s] 64%|██████▍   | 237225/371472 [7:50:45<10:16:20,  3.63it/s] 64%|██████▍   | 237226/371472 [7:50:45<10:41:07,  3.49it/s] 64%|██████▍   | 237227/371472 [7:50:45<11:00:50,  3.39it/s] 64%|██████▍   | 237228/371472 [7:50:46<10:46:40,  3.46it/s] 64%|██████▍   | 237229/371472 [7:50:46<10:23:31,  3.59it/s] 64%|██████▍   | 237230/371472 [7:50:46<10:06:05,  3.69it/s] 64%|██████▍   | 237231/371472 [7:50:46<10:15:03,  3.64it/s] 64%|██████▍   | 237232/371472 [7:50:47<10:16:00,  3.63it/s] 64%|██████▍   | 237233/371472 [7:50:47<10:20:58,  3.60it/s] 64%|██████▍   | 237234/371472 [7:50:47<10:33:02,  3.53it/s] 64%|██████▍   | 237235/371472 [7:50:48<10:49:10,  3.45it/s] 64%|██████▍   | 237236/371472 [7:50:48<10:24:37,  3.58it/s] 64%|██████▍   | 237237/371472 [7:50:48<10:35:30,  3.52it/s] 64%|██████▍   | 237238/371472 [7:50:48<10:36:35,  3.51it/s] 64%|██████▍   | 237239/371472 [7:50:49<10:52:17,  3.43it/s] 64%|██████▍   | 237240/371472 [7:50:49<10:55:32,  3.41it/s]                                                            {'loss': 2.9602, 'learning_rate': 4.253916266241462e-07, 'epoch': 10.22}
 64%|██████▍   | 237240/371472 [7:50:49<10:55:32,  3.41it/s] 64%|██████▍   | 237241/371472 [7:50:49<10:39:03,  3.50it/s] 64%|██████▍   | 237242/371472 [7:50:50<11:17:41,  3.30it/s] 64%|██████▍   | 237243/371472 [7:50:50<11:07:49,  3.35it/s] 64%|██████▍   | 237244/371472 [7:50:50<10:46:38,  3.46it/s] 64%|██████▍   | 237245/371472 [7:50:51<10:37:31,  3.51it/s] 64%|██████▍   | 237246/371472 [7:50:51<10:19:38,  3.61it/s] 64%|██████▍   | 237247/371472 [7:50:51<10:26:49,  3.57it/s] 64%|██████▍   | 237248/371472 [7:50:51<10:06:17,  3.69it/s] 64%|██████▍   | 237249/371472 [7:50:52<10:25:23,  3.58it/s] 64%|██████▍   | 237250/371472 [7:50:52<10:26:29,  3.57it/s] 64%|██████▍   | 237251/371472 [7:50:52<10:10:38,  3.66it/s] 64%|██████▍   | 237252/371472 [7:50:52<9:57:13,  3.75it/s]  64%|██████▍   | 237253/371472 [7:50:53<9:50:59,  3.79it/s] 64%|██████▍   | 237254/371472 [7:50:53<9:33:45,  3.90it/s] 64%|██████▍   | 237255/371472 [7:50:53<9:40:38,  3.85it/s] 64%|██████▍   | 237256/371472 [7:50:53<9:56:44,  3.75it/s] 64%|██████▍   | 237257/371472 [7:50:54<9:58:20,  3.74it/s] 64%|██████▍   | 237258/371472 [7:50:54<9:50:49,  3.79it/s] 64%|██████▍   | 237259/371472 [7:50:54<9:59:05,  3.73it/s] 64%|██████▍   | 237260/371472 [7:50:55<10:39:58,  3.50it/s]                                                            {'loss': 2.7128, 'learning_rate': 4.253431446486672e-07, 'epoch': 10.22}
 64%|██████▍   | 237260/371472 [7:50:55<10:39:58,  3.50it/s] 64%|██████▍   | 237261/371472 [7:50:55<10:12:34,  3.65it/s] 64%|██████▍   | 237262/371472 [7:50:55<10:41:48,  3.49it/s] 64%|██████▍   | 237263/371472 [7:50:55<10:33:07,  3.53it/s] 64%|██████▍   | 237264/371472 [7:50:56<11:58:09,  3.11it/s] 64%|██████▍   | 237265/371472 [7:50:56<11:22:53,  3.28it/s] 64%|██████▍   | 237266/371472 [7:50:56<11:39:51,  3.20it/s] 64%|██████▍   | 237267/371472 [7:50:57<12:22:44,  3.01it/s] 64%|██████▍   | 237268/371472 [7:50:57<11:52:29,  3.14it/s] 64%|██████▍   | 237269/371472 [7:50:57<11:33:54,  3.22it/s] 64%|██████▍   | 237270/371472 [7:50:58<10:57:44,  3.40it/s] 64%|██████▍   | 237271/371472 [7:50:58<11:34:20,  3.22it/s] 64%|██████▍   | 237272/371472 [7:50:58<11:16:26,  3.31it/s] 64%|██████▍   | 237273/371472 [7:50:59<10:58:45,  3.40it/s] 64%|██████▍   | 237274/371472 [7:50:59<11:09:25,  3.34it/s] 64%|██████▍   | 237275/371472 [7:50:59<11:16:59,  3.30it/s] 64%|██████▍   | 237276/371472 [7:50:59<11:02:10,  3.38it/s] 64%|██████▍   | 237277/371472 [7:51:00<10:41:38,  3.49it/s] 64%|██████▍   | 237278/371472 [7:51:00<10:43:25,  3.48it/s] 64%|██████▍   | 237279/371472 [7:51:00<10:16:25,  3.63it/s] 64%|██████▍   | 237280/371472 [7:51:01<10:16:26,  3.63it/s]                                                            {'loss': 2.7634, 'learning_rate': 4.2529466267318837e-07, 'epoch': 10.22}
 64%|██████▍   | 237280/371472 [7:51:01<10:16:26,  3.63it/s] 64%|██████▍   | 237281/371472 [7:51:01<10:30:02,  3.55it/s] 64%|██████▍   | 237282/371472 [7:51:01<10:21:32,  3.60it/s] 64%|██████▍   | 237283/371472 [7:51:01<10:11:47,  3.66it/s] 64%|██████▍   | 237284/371472 [7:51:02<10:00:46,  3.72it/s] 64%|██████▍   | 237285/371472 [7:51:02<10:14:13,  3.64it/s] 64%|██████▍   | 237286/371472 [7:51:02<9:47:31,  3.81it/s]  64%|██████▍   | 237287/371472 [7:51:02<9:46:02,  3.82it/s] 64%|██████▍   | 237288/371472 [7:51:03<11:07:03,  3.35it/s] 64%|██████▍   | 237289/371472 [7:51:03<11:21:45,  3.28it/s] 64%|██████▍   | 237290/371472 [7:51:03<10:52:25,  3.43it/s] 64%|██████▍   | 237291/371472 [7:51:04<10:48:42,  3.45it/s] 64%|██████▍   | 237292/371472 [7:51:04<10:53:19,  3.42it/s] 64%|██████▍   | 237293/371472 [7:51:04<10:55:57,  3.41it/s] 64%|██████▍   | 237294/371472 [7:51:05<11:23:38,  3.27it/s] 64%|██████▍   | 237295/371472 [7:51:05<11:31:53,  3.23it/s] 64%|██████▍   | 237296/371472 [7:51:05<10:54:27,  3.42it/s] 64%|██████▍   | 237297/371472 [7:51:05<10:59:58,  3.39it/s] 64%|██████▍   | 237298/371472 [7:51:06<10:48:13,  3.45it/s] 64%|██████▍   | 237299/371472 [7:51:06<10:29:01,  3.56it/s] 64%|██████▍   | 237300/371472 [7:51:06<11:09:06,  3.34it/s]                                                            {'loss': 2.8303, 'learning_rate': 4.2524618069770944e-07, 'epoch': 10.22}
 64%|██████▍   | 237300/371472 [7:51:06<11:09:06,  3.34it/s] 64%|██████▍   | 237301/371472 [7:51:07<11:28:48,  3.25it/s] 64%|██████▍   | 237302/371472 [7:51:07<11:23:15,  3.27it/s] 64%|██████▍   | 237303/371472 [7:51:07<10:50:56,  3.44it/s] 64%|██████▍   | 237304/371472 [7:51:07<10:30:01,  3.55it/s] 64%|██████▍   | 237305/371472 [7:51:08<10:59:33,  3.39it/s] 64%|██████▍   | 237306/371472 [7:51:08<10:35:07,  3.52it/s] 64%|██████▍   | 237307/371472 [7:51:08<10:08:01,  3.68it/s] 64%|██████▍   | 237308/371472 [7:51:09<9:52:38,  3.77it/s]  64%|██████▍   | 237309/371472 [7:51:09<10:11:24,  3.66it/s] 64%|██████▍   | 237310/371472 [7:51:09<9:57:57,  3.74it/s]  64%|██████▍   | 237311/371472 [7:51:09<10:08:30,  3.67it/s] 64%|██████▍   | 237312/371472 [7:51:10<9:56:10,  3.75it/s]  64%|██████▍   | 237313/371472 [7:51:10<9:55:27,  3.76it/s] 64%|██████▍   | 237314/371472 [7:51:10<9:42:31,  3.84it/s] 64%|██████▍   | 237315/371472 [7:51:10<9:41:45,  3.84it/s] 64%|██████▍   | 237316/371472 [7:51:11<9:32:58,  3.90it/s] 64%|██████▍   | 237317/371472 [7:51:11<9:31:54,  3.91it/s] 64%|██████▍   | 237318/371472 [7:51:11<9:49:32,  3.79it/s] 64%|██████▍   | 237319/371472 [7:51:11<9:36:45,  3.88it/s] 64%|██████▍   | 237320/371472 [7:51:12<10:28:53,  3.56it/s]                                                            {'loss': 2.8821, 'learning_rate': 4.2519769872223057e-07, 'epoch': 10.22}
 64%|██████▍   | 237320/371472 [7:51:12<10:28:53,  3.56it/s] 64%|██████▍   | 237321/371472 [7:51:12<10:18:37,  3.61it/s] 64%|██████▍   | 237322/371472 [7:51:12<10:13:02,  3.65it/s] 64%|██████▍   | 237323/371472 [7:51:13<9:55:50,  3.75it/s]  64%|██████▍   | 237324/371472 [7:51:13<9:44:25,  3.83it/s] 64%|██████▍   | 237325/371472 [7:51:13<10:12:12,  3.65it/s] 64%|██████▍   | 237326/371472 [7:51:13<9:57:57,  3.74it/s]  64%|██████▍   | 237327/371472 [7:51:14<10:15:56,  3.63it/s] 64%|██████▍   | 237328/371472 [7:51:14<10:48:11,  3.45it/s] 64%|██████▍   | 237329/371472 [7:51:14<10:16:08,  3.63it/s] 64%|██████▍   | 237330/371472 [7:51:14<9:48:36,  3.80it/s]  64%|██████▍   | 237331/371472 [7:51:15<10:28:07,  3.56it/s] 64%|██████▍   | 237332/371472 [7:51:15<10:58:37,  3.39it/s] 64%|██████▍   | 237333/371472 [7:51:15<11:08:52,  3.34it/s] 64%|██████▍   | 237334/371472 [7:51:16<11:07:57,  3.35it/s] 64%|██████▍   | 237335/371472 [7:51:16<10:26:02,  3.57it/s] 64%|██████▍   | 237336/371472 [7:51:16<11:04:52,  3.36it/s] 64%|██████▍   | 237337/371472 [7:51:17<10:49:48,  3.44it/s] 64%|██████▍   | 237338/371472 [7:51:17<10:52:09,  3.43it/s] 64%|██████▍   | 237339/371472 [7:51:17<11:31:42,  3.23it/s] 64%|██████▍   | 237340/371472 [7:51:17<10:51:38,  3.43it/s]                                                            {'loss': 2.7955, 'learning_rate': 4.2514921674675164e-07, 'epoch': 10.22}
 64%|██████▍   | 237340/371472 [7:51:17<10:51:38,  3.43it/s] 64%|██████▍   | 237341/371472 [7:51:18<10:33:34,  3.53it/s] 64%|██████▍   | 237342/371472 [7:51:18<10:30:06,  3.55it/s] 64%|██████▍   | 237343/371472 [7:51:18<10:49:39,  3.44it/s] 64%|██████▍   | 237344/371472 [7:51:19<10:32:29,  3.53it/s] 64%|██████▍   | 237345/371472 [7:51:19<11:03:47,  3.37it/s] 64%|██████▍   | 237346/371472 [7:51:19<10:24:26,  3.58it/s] 64%|██████▍   | 237347/371472 [7:51:19<10:09:25,  3.67it/s] 64%|██████▍   | 237348/371472 [7:51:20<10:28:38,  3.56it/s] 64%|██████▍   | 237349/371472 [7:51:20<10:13:03,  3.65it/s] 64%|██████▍   | 237350/371472 [7:51:20<10:14:31,  3.64it/s] 64%|██████▍   | 237351/371472 [7:51:21<10:01:10,  3.72it/s] 64%|██████▍   | 237352/371472 [7:51:21<10:11:02,  3.66it/s] 64%|██████▍   | 237353/371472 [7:51:21<9:48:48,  3.80it/s]  64%|██████▍   | 237354/371472 [7:51:21<9:57:29,  3.74it/s] 64%|██████▍   | 237355/371472 [7:51:22<9:43:50,  3.83it/s] 64%|██████▍   | 237356/371472 [7:51:22<10:06:04,  3.69it/s] 64%|██████▍   | 237357/371472 [7:51:22<10:00:16,  3.72it/s] 64%|██████▍   | 237358/371472 [7:51:22<10:24:24,  3.58it/s] 64%|██████▍   | 237359/371472 [7:51:23<10:11:24,  3.66it/s] 64%|██████▍   | 237360/371472 [7:51:23<10:20:08,  3.60it/s]                                                            {'loss': 2.6379, 'learning_rate': 4.251007347712728e-07, 'epoch': 10.22}
 64%|██████▍   | 237360/371472 [7:51:23<10:20:08,  3.60it/s] 64%|██████▍   | 237361/371472 [7:51:23<10:29:17,  3.55it/s] 64%|██████▍   | 237362/371472 [7:51:24<10:10:43,  3.66it/s] 64%|██████▍   | 237363/371472 [7:51:24<10:10:50,  3.66it/s] 64%|██████▍   | 237364/371472 [7:51:24<9:59:43,  3.73it/s]  64%|██████▍   | 237365/371472 [7:51:24<11:09:35,  3.34it/s] 64%|██████▍   | 237366/371472 [7:51:25<11:35:02,  3.22it/s] 64%|██████▍   | 237367/371472 [7:51:25<12:18:36,  3.03it/s] 64%|██████▍   | 237368/371472 [7:51:25<12:04:11,  3.09it/s] 64%|██████▍   | 237369/371472 [7:51:26<11:34:03,  3.22it/s] 64%|██████▍   | 237370/371472 [7:51:26<11:11:03,  3.33it/s] 64%|██████▍   | 237371/371472 [7:51:26<11:11:19,  3.33it/s] 64%|██████▍   | 237372/371472 [7:51:27<11:15:04,  3.31it/s] 64%|██████▍   | 237373/371472 [7:51:27<11:26:11,  3.26it/s] 64%|██████▍   | 237374/371472 [7:51:27<11:24:33,  3.26it/s] 64%|██████▍   | 237375/371472 [7:51:28<12:07:08,  3.07it/s] 64%|██████▍   | 237376/371472 [7:51:28<11:33:34,  3.22it/s] 64%|██████▍   | 237377/371472 [7:51:28<10:57:53,  3.40it/s] 64%|██████▍   | 237378/371472 [7:51:28<10:27:46,  3.56it/s] 64%|██████▍   | 237379/371472 [7:51:29<10:17:18,  3.62it/s] 64%|██████▍   | 237380/371472 [7:51:29<10:18:00,  3.62it/s]                                                            {'loss': 2.9257, 'learning_rate': 4.250522527957939e-07, 'epoch': 10.22}
 64%|██████▍   | 237380/371472 [7:51:29<10:18:00,  3.62it/s] 64%|██████▍   | 237381/371472 [7:51:29<10:09:51,  3.66it/s] 64%|██████▍   | 237382/371472 [7:51:29<10:29:27,  3.55it/s] 64%|██████▍   | 237383/371472 [7:51:30<10:24:25,  3.58it/s] 64%|██████▍   | 237384/371472 [7:51:30<10:07:16,  3.68it/s] 64%|██████▍   | 237385/371472 [7:51:30<10:40:16,  3.49it/s] 64%|██████▍   | 237386/371472 [7:51:31<10:37:49,  3.50it/s] 64%|██████▍   | 237387/371472 [7:51:31<10:21:58,  3.59it/s] 64%|██████▍   | 237388/371472 [7:51:31<10:38:03,  3.50it/s] 64%|██████▍   | 237389/371472 [7:51:31<10:13:47,  3.64it/s] 64%|██████▍   | 237390/371472 [7:51:32<10:46:51,  3.45it/s] 64%|██████▍   | 237391/371472 [7:51:32<10:44:29,  3.47it/s] 64%|██████▍   | 237392/371472 [7:51:32<10:20:51,  3.60it/s] 64%|██████▍   | 237393/371472 [7:51:33<10:26:14,  3.57it/s] 64%|██████▍   | 237394/371472 [7:51:33<10:16:54,  3.62it/s] 64%|██████▍   | 237395/371472 [7:51:33<9:54:30,  3.76it/s]  64%|██████▍   | 237396/371472 [7:51:33<10:17:23,  3.62it/s] 64%|██████▍   | 237397/371472 [7:51:34<10:33:45,  3.53it/s] 64%|██████▍   | 237398/371472 [7:51:34<10:45:31,  3.46it/s] 64%|██████▍   | 237399/371472 [7:51:34<10:18:13,  3.61it/s] 64%|██████▍   | 237400/371472 [7:51:35<10:19:11,  3.61it/s]                                                            {'loss': 2.925, 'learning_rate': 4.25003770820315e-07, 'epoch': 10.23}
 64%|██████▍   | 237400/371472 [7:51:35<10:19:11,  3.61it/s] 64%|██████▍   | 237401/371472 [7:51:35<10:14:50,  3.63it/s] 64%|██████▍   | 237402/371472 [7:51:35<10:16:12,  3.63it/s] 64%|██████▍   | 237403/371472 [7:51:35<10:42:25,  3.48it/s] 64%|██████▍   | 237404/371472 [7:51:36<10:22:30,  3.59it/s] 64%|██████▍   | 237405/371472 [7:51:36<10:45:07,  3.46it/s] 64%|██████▍   | 237406/371472 [7:51:36<10:26:30,  3.57it/s] 64%|██████▍   | 237407/371472 [7:51:37<11:13:53,  3.32it/s] 64%|██████▍   | 237408/371472 [7:51:37<11:16:05,  3.30it/s] 64%|██████▍   | 237409/371472 [7:51:37<10:32:37,  3.53it/s] 64%|██████▍   | 237410/371472 [7:51:38<14:11:40,  2.62it/s] 64%|██████▍   | 237411/371472 [7:51:38<13:18:39,  2.80it/s] 64%|██████▍   | 237412/371472 [7:51:38<13:15:45,  2.81it/s] 64%|██████▍   | 237413/371472 [7:51:39<12:18:28,  3.03it/s] 64%|██████▍   | 237414/371472 [7:51:39<11:37:15,  3.20it/s] 64%|██████▍   | 237415/371472 [7:51:39<11:02:50,  3.37it/s] 64%|██████▍   | 237416/371472 [7:51:39<10:21:39,  3.59it/s] 64%|██████▍   | 237417/371472 [7:51:40<10:26:01,  3.57it/s] 64%|██████▍   | 237418/371472 [7:51:40<10:31:27,  3.54it/s] 64%|██████▍   | 237419/371472 [7:51:40<10:37:28,  3.50it/s] 64%|██████▍   | 237420/371472 [7:51:41<10:26:56,  3.56it/s]                                                            {'loss': 2.8373, 'learning_rate': 4.249552888448361e-07, 'epoch': 10.23}
 64%|██████▍   | 237420/371472 [7:51:41<10:26:56,  3.56it/s] 64%|██████▍   | 237421/371472 [7:51:41<10:29:11,  3.55it/s] 64%|██████▍   | 237422/371472 [7:51:41<10:14:18,  3.64it/s] 64%|██████▍   | 237423/371472 [7:51:42<13:20:11,  2.79it/s] 64%|██████▍   | 237424/371472 [7:51:42<12:10:25,  3.06it/s] 64%|██████▍   | 237425/371472 [7:51:42<12:31:45,  2.97it/s] 64%|██████▍   | 237426/371472 [7:51:43<11:53:04,  3.13it/s] 64%|██████▍   | 237427/371472 [7:51:43<12:38:34,  2.95it/s] 64%|██████▍   | 237428/371472 [7:51:43<12:00:22,  3.10it/s] 64%|██████▍   | 237429/371472 [7:51:43<11:20:09,  3.28it/s] 64%|██████▍   | 237430/371472 [7:51:44<11:43:52,  3.17it/s] 64%|██████▍   | 237431/371472 [7:51:44<11:14:52,  3.31it/s] 64%|██████▍   | 237432/371472 [7:51:44<11:15:38,  3.31it/s] 64%|██████▍   | 237433/371472 [7:51:45<11:03:24,  3.37it/s] 64%|██████▍   | 237434/371472 [7:51:45<10:50:40,  3.43it/s] 64%|██████▍   | 237435/371472 [7:51:45<10:18:46,  3.61it/s] 64%|██████▍   | 237436/371472 [7:51:45<10:43:38,  3.47it/s] 64%|██████▍   | 237437/371472 [7:51:46<10:33:34,  3.53it/s] 64%|██████▍   | 237438/371472 [7:51:46<10:38:04,  3.50it/s] 64%|██████▍   | 237439/371472 [7:51:46<10:49:54,  3.44it/s] 64%|██████▍   | 237440/371472 [7:51:47<10:33:13,  3.53it/s]                                                            {'loss': 2.7596, 'learning_rate': 4.2490680686935726e-07, 'epoch': 10.23}
 64%|██████▍   | 237440/371472 [7:51:47<10:33:13,  3.53it/s] 64%|██████▍   | 237441/371472 [7:51:47<10:56:38,  3.40it/s] 64%|██████▍   | 237442/371472 [7:51:47<10:57:44,  3.40it/s] 64%|██████▍   | 237443/371472 [7:51:48<10:49:11,  3.44it/s] 64%|██████▍   | 237444/371472 [7:51:48<12:04:14,  3.08it/s] 64%|██████▍   | 237445/371472 [7:51:48<11:37:18,  3.20it/s] 64%|██████▍   | 237446/371472 [7:51:48<11:01:28,  3.38it/s] 64%|██████▍   | 237447/371472 [7:51:49<11:41:05,  3.19it/s] 64%|██████▍   | 237448/371472 [7:51:49<11:09:52,  3.33it/s] 64%|██████▍   | 237449/371472 [7:51:49<11:10:43,  3.33it/s] 64%|██████▍   | 237450/371472 [7:51:50<11:46:18,  3.16it/s] 64%|██████▍   | 237451/371472 [7:51:50<11:36:20,  3.21it/s] 64%|██████▍   | 237452/371472 [7:51:50<11:07:39,  3.35it/s] 64%|██████▍   | 237453/371472 [7:51:51<11:41:47,  3.18it/s] 64%|██████▍   | 237454/371472 [7:51:51<11:03:29,  3.37it/s] 64%|██████▍   | 237455/371472 [7:51:51<10:37:23,  3.50it/s] 64%|██████▍   | 237456/371472 [7:51:51<10:30:09,  3.54it/s] 64%|██████▍   | 237457/371472 [7:51:52<10:21:08,  3.60it/s] 64%|██████▍   | 237458/371472 [7:51:52<10:13:12,  3.64it/s] 64%|██████▍   | 237459/371472 [7:51:52<10:02:56,  3.70it/s] 64%|██████▍   | 237460/371472 [7:51:52<9:44:37,  3.82it/s]                                                            {'loss': 2.7659, 'learning_rate': 4.248583248938783e-07, 'epoch': 10.23}
 64%|██████▍   | 237460/371472 [7:51:52<9:44:37,  3.82it/s] 64%|██████▍   | 237461/371472 [7:51:53<9:43:29,  3.83it/s] 64%|██████▍   | 237462/371472 [7:51:53<10:00:25,  3.72it/s] 64%|██████▍   | 237463/371472 [7:51:53<10:46:57,  3.45it/s] 64%|██████▍   | 237464/371472 [7:51:54<10:33:35,  3.53it/s] 64%|██████▍   | 237465/371472 [7:51:54<10:19:26,  3.61it/s] 64%|██████▍   | 237466/371472 [7:51:54<10:19:24,  3.61it/s] 64%|██████▍   | 237467/371472 [7:51:54<10:29:17,  3.55it/s] 64%|██████▍   | 237468/371472 [7:51:55<10:25:47,  3.57it/s] 64%|██████▍   | 237469/371472 [7:51:55<11:02:46,  3.37it/s] 64%|██████▍   | 237470/371472 [7:51:55<10:48:39,  3.44it/s] 64%|██████▍   | 237471/371472 [7:51:56<10:14:31,  3.63it/s] 64%|██████▍   | 237472/371472 [7:51:56<10:31:14,  3.54it/s] 64%|██████▍   | 237473/371472 [7:51:56<10:18:32,  3.61it/s] 64%|██████▍   | 237474/371472 [7:51:56<10:06:17,  3.68it/s] 64%|██████▍   | 237475/371472 [7:51:57<10:12:00,  3.65it/s] 64%|██████▍   | 237476/371472 [7:51:57<10:15:12,  3.63it/s] 64%|██████▍   | 237477/371472 [7:51:57<10:23:59,  3.58it/s] 64%|██████▍   | 237478/371472 [7:51:58<10:12:50,  3.64it/s] 64%|██████▍   | 237479/371472 [7:51:58<10:21:37,  3.59it/s] 64%|██████▍   | 237480/371472 [7:51:58<10:50:30,  3.43it/s]                                                            {'loss': 2.8957, 'learning_rate': 4.2480984291839946e-07, 'epoch': 10.23}
 64%|██████▍   | 237480/371472 [7:51:58<10:50:30,  3.43it/s] 64%|██████▍   | 237481/371472 [7:51:58<10:56:38,  3.40it/s] 64%|██████▍   | 237482/371472 [7:51:59<10:35:27,  3.51it/s] 64%|██████▍   | 237483/371472 [7:51:59<10:02:44,  3.71it/s] 64%|██████▍   | 237484/371472 [7:51:59<10:58:48,  3.39it/s] 64%|██████▍   | 237485/371472 [7:52:00<10:25:47,  3.57it/s] 64%|██████▍   | 237486/371472 [7:52:00<12:02:13,  3.09it/s] 64%|██████▍   | 237487/371472 [7:52:00<11:35:11,  3.21it/s] 64%|██████▍   | 237488/371472 [7:52:01<11:10:44,  3.33it/s] 64%|██████▍   | 237489/371472 [7:52:01<10:43:18,  3.47it/s] 64%|██████▍   | 237490/371472 [7:52:01<11:00:34,  3.38it/s] 64%|██████▍   | 237491/371472 [7:52:01<10:36:21,  3.51it/s] 64%|██████▍   | 237492/371472 [7:52:02<10:43:46,  3.47it/s] 64%|██████▍   | 237493/371472 [7:52:02<10:49:19,  3.44it/s] 64%|██████▍   | 237494/371472 [7:52:02<10:33:03,  3.53it/s] 64%|██████▍   | 237495/371472 [7:52:03<11:00:38,  3.38it/s] 64%|██████▍   | 237496/371472 [7:52:03<11:09:30,  3.34it/s] 64%|██████▍   | 237497/371472 [7:52:03<10:53:49,  3.42it/s] 64%|██████▍   | 237498/371472 [7:52:03<10:27:41,  3.56it/s] 64%|██████▍   | 237499/371472 [7:52:04<12:16:44,  3.03it/s] 64%|██████▍   | 237500/371472 [7:52:04<11:50:06,  3.14it/s]                                                            {'loss': 2.7648, 'learning_rate': 4.2476136094292053e-07, 'epoch': 10.23}
 64%|██████▍   | 237500/371472 [7:52:04<11:50:06,  3.14it/s] 64%|██████▍   | 237501/371472 [7:52:04<11:25:02,  3.26it/s] 64%|██████▍   | 237502/371472 [7:52:05<10:45:53,  3.46it/s] 64%|██████▍   | 237503/371472 [7:52:05<10:31:32,  3.54it/s] 64%|██████▍   | 237504/371472 [7:52:05<10:16:53,  3.62it/s] 64%|██████▍   | 237505/371472 [7:52:05<10:20:08,  3.60it/s] 64%|██████▍   | 237506/371472 [7:52:06<10:08:56,  3.67it/s] 64%|██████▍   | 237507/371472 [7:52:06<10:14:17,  3.63it/s] 64%|██████▍   | 237508/371472 [7:52:06<10:03:07,  3.70it/s] 64%|██████▍   | 237509/371472 [7:52:07<10:24:44,  3.57it/s] 64%|██████▍   | 237510/371472 [7:52:07<10:28:23,  3.55it/s] 64%|██████▍   | 237511/371472 [7:52:07<11:33:20,  3.22it/s] 64%|██████▍   | 237512/371472 [7:52:07<10:49:54,  3.44it/s] 64%|██████▍   | 237513/371472 [7:52:08<10:35:30,  3.51it/s] 64%|██████▍   | 237514/371472 [7:52:08<10:05:09,  3.69it/s] 64%|██████▍   | 237515/371472 [7:52:08<10:20:46,  3.60it/s] 64%|██████▍   | 237516/371472 [7:52:09<10:02:54,  3.70it/s] 64%|██████▍   | 237517/371472 [7:52:09<10:06:47,  3.68it/s] 64%|██████▍   | 237518/371472 [7:52:09<11:30:07,  3.24it/s] 64%|██████▍   | 237519/371472 [7:52:09<11:17:11,  3.30it/s] 64%|██████▍   | 237520/371472 [7:52:10<11:07:44,  3.34it/s]                                                            {'loss': 2.7959, 'learning_rate': 4.247128789674417e-07, 'epoch': 10.23}
 64%|██████▍   | 237520/371472 [7:52:10<11:07:44,  3.34it/s] 64%|██████▍   | 237521/371472 [7:52:10<10:34:10,  3.52it/s] 64%|██████▍   | 237522/371472 [7:52:10<10:35:18,  3.51it/s] 64%|██████▍   | 237523/371472 [7:52:11<10:41:38,  3.48it/s] 64%|██████▍   | 237524/371472 [7:52:11<10:55:37,  3.41it/s] 64%|██████▍   | 237525/371472 [7:52:11<10:24:07,  3.58it/s] 64%|██████▍   | 237526/371472 [7:52:12<11:35:41,  3.21it/s] 64%|██████▍   | 237527/371472 [7:52:12<11:21:16,  3.28it/s] 64%|██████▍   | 237528/371472 [7:52:12<11:24:38,  3.26it/s] 64%|██████▍   | 237529/371472 [7:52:12<10:48:57,  3.44it/s] 64%|██████▍   | 237530/371472 [7:52:13<10:38:35,  3.50it/s] 64%|██████▍   | 237531/371472 [7:52:13<10:17:21,  3.62it/s] 64%|██████▍   | 237532/371472 [7:52:13<11:03:02,  3.37it/s] 64%|██████▍   | 237533/371472 [7:52:14<11:51:32,  3.14it/s] 64%|██████▍   | 237534/371472 [7:52:14<11:08:30,  3.34it/s] 64%|██████▍   | 237535/371472 [7:52:14<10:58:46,  3.39it/s] 64%|██████▍   | 237536/371472 [7:52:14<11:05:14,  3.36it/s] 64%|██████▍   | 237537/371472 [7:52:15<11:04:07,  3.36it/s] 64%|██████▍   | 237538/371472 [7:52:15<11:26:46,  3.25it/s] 64%|██████▍   | 237539/371472 [7:52:15<10:51:54,  3.42it/s] 64%|██████▍   | 237540/371472 [7:52:16<10:47:43,  3.45it/s]                                                            {'loss': 2.8134, 'learning_rate': 4.246643969919627e-07, 'epoch': 10.23}
 64%|██████▍   | 237540/371472 [7:52:16<10:47:43,  3.45it/s] 64%|██████▍   | 237541/371472 [7:52:16<11:05:54,  3.35it/s] 64%|██████▍   | 237542/371472 [7:52:16<10:53:38,  3.41it/s] 64%|██████▍   | 237543/371472 [7:52:17<10:37:54,  3.50it/s] 64%|██████▍   | 237544/371472 [7:52:17<11:08:29,  3.34it/s] 64%|██████▍   | 237545/371472 [7:52:17<10:52:57,  3.42it/s] 64%|██████▍   | 237546/371472 [7:52:17<10:46:11,  3.45it/s] 64%|██████▍   | 237547/371472 [7:52:18<10:11:18,  3.65it/s] 64%|██████▍   | 237548/371472 [7:52:18<10:25:35,  3.57it/s] 64%|██████▍   | 237549/371472 [7:52:18<10:10:08,  3.66it/s] 64%|██████▍   | 237550/371472 [7:52:18<9:50:30,  3.78it/s]  64%|██████▍   | 237551/371472 [7:52:19<10:00:43,  3.72it/s] 64%|██████▍   | 237552/371472 [7:52:19<10:33:55,  3.52it/s] 64%|██████▍   | 237553/371472 [7:52:19<10:26:30,  3.56it/s] 64%|██████▍   | 237554/371472 [7:52:20<11:45:37,  3.16it/s] 64%|██████▍   | 237555/371472 [7:52:20<10:56:55,  3.40it/s] 64%|██████▍   | 237556/371472 [7:52:20<11:09:26,  3.33it/s] 64%|██████▍   | 237557/371472 [7:52:21<10:53:26,  3.42it/s] 64%|██████▍   | 237558/371472 [7:52:21<10:10:02,  3.66it/s] 64%|██████▍   | 237559/371472 [7:52:21<10:08:13,  3.67it/s] 64%|██████▍   | 237560/371472 [7:52:21<10:17:26,  3.61it/s]                                                            {'loss': 2.9787, 'learning_rate': 4.246159150164839e-07, 'epoch': 10.23}
 64%|██████▍   | 237560/371472 [7:52:21<10:17:26,  3.61it/s] 64%|██████▍   | 237561/371472 [7:52:22<10:28:05,  3.55it/s] 64%|██████▍   | 237562/371472 [7:52:22<10:51:41,  3.42it/s] 64%|██████▍   | 237563/371472 [7:52:22<11:06:51,  3.35it/s] 64%|██████▍   | 237564/371472 [7:52:23<11:05:22,  3.35it/s] 64%|██████▍   | 237565/371472 [7:52:23<10:39:47,  3.49it/s] 64%|██████▍   | 237566/371472 [7:52:23<10:14:48,  3.63it/s] 64%|██████▍   | 237567/371472 [7:52:23<10:05:12,  3.69it/s] 64%|██████▍   | 237568/371472 [7:52:24<10:52:37,  3.42it/s] 64%|██████▍   | 237569/371472 [7:52:24<10:43:58,  3.47it/s] 64%|██████▍   | 237570/371472 [7:52:24<10:32:05,  3.53it/s] 64%|██████▍   | 237571/371472 [7:52:24<10:08:08,  3.67it/s] 64%|██████▍   | 237572/371472 [7:52:25<10:00:00,  3.72it/s] 64%|██████▍   | 237573/371472 [7:52:25<9:45:19,  3.81it/s]  64%|██████▍   | 237574/371472 [7:52:25<10:22:40,  3.58it/s] 64%|██████▍   | 237575/371472 [7:52:26<9:59:46,  3.72it/s]  64%|██████▍   | 237576/371472 [7:52:26<10:14:44,  3.63it/s] 64%|██████▍   | 237577/371472 [7:52:26<10:17:17,  3.62it/s] 64%|██████▍   | 237578/371472 [7:52:26<11:23:13,  3.27it/s] 64%|██████▍   | 237579/371472 [7:52:27<11:27:26,  3.25it/s] 64%|██████▍   | 237580/371472 [7:52:27<11:31:52,  3.23it/s]                                                            {'loss': 2.7819, 'learning_rate': 4.245674330410049e-07, 'epoch': 10.23}
 64%|██████▍   | 237580/371472 [7:52:27<11:31:52,  3.23it/s] 64%|██████▍   | 237581/371472 [7:52:27<11:23:47,  3.26it/s] 64%|██████▍   | 237582/371472 [7:52:28<10:39:19,  3.49it/s] 64%|██████▍   | 237583/371472 [7:52:28<10:40:09,  3.49it/s] 64%|██████▍   | 237584/371472 [7:52:28<10:09:24,  3.66it/s] 64%|██████▍   | 237585/371472 [7:52:29<12:22:45,  3.00it/s] 64%|██████▍   | 237586/371472 [7:52:29<11:36:56,  3.20it/s] 64%|██████▍   | 237587/371472 [7:52:29<11:09:40,  3.33it/s] 64%|██████▍   | 237588/371472 [7:52:29<10:57:21,  3.39it/s] 64%|██████▍   | 237589/371472 [7:52:30<10:29:04,  3.55it/s] 64%|██████▍   | 237590/371472 [7:52:30<10:20:09,  3.60it/s] 64%|██████▍   | 237591/371472 [7:52:30<10:51:27,  3.43it/s] 64%|██████▍   | 237592/371472 [7:52:31<10:38:54,  3.49it/s] 64%|██████▍   | 237593/371472 [7:52:31<11:13:32,  3.31it/s] 64%|██████▍   | 237594/371472 [7:52:31<11:01:21,  3.37it/s] 64%|██████▍   | 237595/371472 [7:52:32<11:23:06,  3.27it/s] 64%|██████▍   | 237596/371472 [7:52:32<12:40:17,  2.93it/s] 64%|██████▍   | 237597/371472 [7:52:32<11:56:38,  3.11it/s] 64%|██████▍   | 237598/371472 [7:52:33<11:41:10,  3.18it/s] 64%|██████▍   | 237599/371472 [7:52:33<11:46:12,  3.16it/s] 64%|██████▍   | 237600/371472 [7:52:33<12:07:27,  3.07it/s]                                                            {'loss': 2.7122, 'learning_rate': 4.245189510655261e-07, 'epoch': 10.23}
 64%|██████▍   | 237600/371472 [7:52:33<12:07:27,  3.07it/s] 64%|██████▍   | 237601/371472 [7:52:33<11:41:24,  3.18it/s] 64%|██████▍   | 237602/371472 [7:52:34<11:42:27,  3.18it/s] 64%|██████▍   | 237603/371472 [7:52:34<11:30:06,  3.23it/s] 64%|██████▍   | 237604/371472 [7:52:34<12:21:08,  3.01it/s] 64%|██████▍   | 237605/371472 [7:52:35<12:26:26,  2.99it/s] 64%|██████▍   | 237606/371472 [7:52:35<11:56:14,  3.12it/s] 64%|██████▍   | 237607/371472 [7:52:35<11:28:50,  3.24it/s] 64%|██████▍   | 237608/371472 [7:52:36<10:47:30,  3.45it/s] 64%|██████▍   | 237609/371472 [7:52:36<10:31:46,  3.53it/s] 64%|██████▍   | 237610/371472 [7:52:36<10:20:18,  3.60it/s] 64%|██████▍   | 237611/371472 [7:52:36<10:06:51,  3.68it/s] 64%|██████▍   | 237612/371472 [7:52:37<10:18:29,  3.61it/s] 64%|██████▍   | 237613/371472 [7:52:37<10:19:24,  3.60it/s] 64%|██████▍   | 237614/371472 [7:52:37<10:00:03,  3.72it/s] 64%|██████▍   | 237615/371472 [7:52:37<9:47:28,  3.80it/s]  64%|██████▍   | 237616/371472 [7:52:38<10:13:16,  3.64it/s] 64%|██████▍   | 237617/371472 [7:52:38<10:08:14,  3.67it/s] 64%|██████▍   | 237618/371472 [7:52:38<10:11:18,  3.65it/s] 64%|██████▍   | 237619/371472 [7:52:39<10:40:19,  3.48it/s] 64%|██████▍   | 237620/371472 [7:52:39<10:21:36,  3.59it/s]                                                            {'loss': 2.8805, 'learning_rate': 4.2447046909004717e-07, 'epoch': 10.23}
 64%|██████▍   | 237620/371472 [7:52:39<10:21:36,  3.59it/s] 64%|██████▍   | 237621/371472 [7:52:39<10:20:10,  3.60it/s] 64%|██████▍   | 237622/371472 [7:52:39<10:15:20,  3.63it/s] 64%|██████▍   | 237623/371472 [7:52:40<9:56:22,  3.74it/s]  64%|██████▍   | 237624/371472 [7:52:40<10:39:29,  3.49it/s] 64%|██████▍   | 237625/371472 [7:52:40<10:37:43,  3.50it/s] 64%|██████▍   | 237626/371472 [7:52:41<10:38:30,  3.49it/s] 64%|██████▍   | 237627/371472 [7:52:41<10:40:22,  3.48it/s] 64%|██████▍   | 237628/371472 [7:52:41<10:34:31,  3.52it/s] 64%|██████▍   | 237629/371472 [7:52:41<10:40:28,  3.48it/s] 64%|██████▍   | 237630/371472 [7:52:42<10:45:06,  3.46it/s] 64%|██████▍   | 237631/371472 [7:52:42<10:48:57,  3.44it/s] 64%|██████▍   | 237632/371472 [7:52:42<11:10:06,  3.33it/s] 64%|██████▍   | 237633/371472 [7:52:43<10:47:55,  3.44it/s] 64%|██████▍   | 237634/371472 [7:52:43<10:28:59,  3.55it/s] 64%|██████▍   | 237635/371472 [7:52:43<10:08:49,  3.66it/s] 64%|██████▍   | 237636/371472 [7:52:43<10:01:11,  3.71it/s] 64%|██████▍   | 237637/371472 [7:52:44<10:19:36,  3.60it/s] 64%|██████▍   | 237638/371472 [7:52:44<9:58:34,  3.73it/s]  64%|██████▍   | 237639/371472 [7:52:44<10:37:29,  3.50it/s] 64%|██████▍   | 237640/371472 [7:52:45<10:51:23,  3.42it/s]                                                            {'loss': 2.7862, 'learning_rate': 4.244219871145683e-07, 'epoch': 10.24}
 64%|██████▍   | 237640/371472 [7:52:45<10:51:23,  3.42it/s] 64%|██████▍   | 237641/371472 [7:52:45<10:30:22,  3.54it/s] 64%|██████▍   | 237642/371472 [7:52:45<10:47:10,  3.45it/s] 64%|██████▍   | 237643/371472 [7:52:45<10:21:49,  3.59it/s] 64%|██████▍   | 237644/371472 [7:52:46<9:58:10,  3.73it/s]  64%|██████▍   | 237645/371472 [7:52:46<9:53:13,  3.76it/s] 64%|██████▍   | 237646/371472 [7:52:46<10:05:56,  3.68it/s] 64%|██████▍   | 237647/371472 [7:52:47<10:31:39,  3.53it/s] 64%|██████▍   | 237648/371472 [7:52:47<10:38:42,  3.49it/s] 64%|██████▍   | 237649/371472 [7:52:47<10:18:59,  3.60it/s] 64%|██████▍   | 237650/371472 [7:52:47<10:01:07,  3.71it/s] 64%|██████▍   | 237651/371472 [7:52:48<11:01:47,  3.37it/s] 64%|██████▍   | 237652/371472 [7:52:48<10:48:55,  3.44it/s] 64%|██████▍   | 237653/371472 [7:52:48<10:19:39,  3.60it/s] 64%|██████▍   | 237654/371472 [7:52:49<10:49:14,  3.44it/s] 64%|██████▍   | 237655/371472 [7:52:49<10:56:20,  3.40it/s] 64%|██████▍   | 237656/371472 [7:52:49<10:48:12,  3.44it/s] 64%|██████▍   | 237657/371472 [7:52:49<10:37:19,  3.50it/s] 64%|██████▍   | 237658/371472 [7:52:50<10:24:55,  3.57it/s] 64%|██████▍   | 237659/371472 [7:52:50<10:06:04,  3.68it/s] 64%|██████▍   | 237660/371472 [7:52:50<10:21:19,  3.59it/s]                                                            {'loss': 2.9104, 'learning_rate': 4.2437350513908936e-07, 'epoch': 10.24}
 64%|██████▍   | 237660/371472 [7:52:50<10:21:19,  3.59it/s] 64%|██████▍   | 237661/371472 [7:52:50<10:07:40,  3.67it/s] 64%|██████▍   | 237662/371472 [7:52:51<10:53:47,  3.41it/s] 64%|██████▍   | 237663/371472 [7:52:51<10:31:52,  3.53it/s] 64%|██████▍   | 237664/371472 [7:52:51<10:21:56,  3.59it/s] 64%|██████▍   | 237665/371472 [7:52:52<11:03:42,  3.36it/s] 64%|██████▍   | 237666/371472 [7:52:52<11:00:35,  3.38it/s] 64%|██████▍   | 237667/371472 [7:52:52<10:26:24,  3.56it/s] 64%|██████▍   | 237668/371472 [7:52:52<10:00:18,  3.71it/s] 64%|██████▍   | 237669/371472 [7:52:53<10:10:49,  3.65it/s] 64%|██████▍   | 237670/371472 [7:52:53<10:28:31,  3.55it/s] 64%|██████▍   | 237671/371472 [7:52:53<10:45:45,  3.45it/s] 64%|██████▍   | 237672/371472 [7:52:54<11:05:59,  3.35it/s] 64%|██████▍   | 237673/371472 [7:52:54<12:12:15,  3.05it/s] 64%|██████▍   | 237674/371472 [7:52:54<11:30:20,  3.23it/s] 64%|██████▍   | 237675/371472 [7:52:55<10:59:42,  3.38it/s] 64%|██████▍   | 237676/371472 [7:52:55<11:19:08,  3.28it/s] 64%|██████▍   | 237677/371472 [7:52:55<11:04:56,  3.35it/s] 64%|██████▍   | 237678/371472 [7:52:56<11:10:14,  3.33it/s] 64%|██████▍   | 237679/371472 [7:52:56<10:53:20,  3.41it/s] 64%|██████▍   | 237680/371472 [7:52:56<10:33:12,  3.52it/s]                                                            {'loss': 2.8662, 'learning_rate': 4.2432502316361054e-07, 'epoch': 10.24}
 64%|██████▍   | 237680/371472 [7:52:56<10:33:12,  3.52it/s] 64%|██████▍   | 237681/371472 [7:52:56<10:24:46,  3.57it/s] 64%|██████▍   | 237682/371472 [7:52:57<10:38:42,  3.49it/s] 64%|██████▍   | 237683/371472 [7:52:57<10:27:15,  3.55it/s] 64%|██████▍   | 237684/371472 [7:52:57<10:23:00,  3.58it/s] 64%|██████▍   | 237685/371472 [7:52:57<10:29:02,  3.54it/s] 64%|██████▍   | 237686/371472 [7:52:58<10:19:24,  3.60it/s] 64%|██████▍   | 237687/371472 [7:52:58<10:38:48,  3.49it/s] 64%|██████▍   | 237688/371472 [7:52:58<10:32:44,  3.52it/s] 64%|██████▍   | 237689/371472 [7:52:59<10:56:06,  3.40it/s] 64%|██████▍   | 237690/371472 [7:52:59<10:38:48,  3.49it/s] 64%|██████▍   | 237691/371472 [7:52:59<10:13:21,  3.64it/s] 64%|██████▍   | 237692/371472 [7:52:59<10:01:52,  3.70it/s] 64%|██████▍   | 237693/371472 [7:53:00<9:53:28,  3.76it/s]  64%|██████▍   | 237694/371472 [7:53:00<9:55:14,  3.75it/s] 64%|██████▍   | 237695/371472 [7:53:00<10:05:21,  3.68it/s] 64%|██████▍   | 237696/371472 [7:53:00<9:58:13,  3.73it/s]  64%|██████▍   | 237697/371472 [7:53:01<10:29:15,  3.54it/s] 64%|██████▍   | 237698/371472 [7:53:01<10:46:16,  3.45it/s] 64%|██████▍   | 237699/371472 [7:53:01<10:24:33,  3.57it/s] 64%|██████▍   | 237700/371472 [7:53:02<10:02:12,  3.70it/s]                                                            {'loss': 2.8829, 'learning_rate': 4.242765411881316e-07, 'epoch': 10.24}
 64%|██████▍   | 237700/371472 [7:53:02<10:02:12,  3.70it/s] 64%|██████▍   | 237701/371472 [7:53:02<9:49:00,  3.79it/s]  64%|██████▍   | 237702/371472 [7:53:02<9:37:30,  3.86it/s] 64%|██████▍   | 237703/371472 [7:53:02<9:40:42,  3.84it/s] 64%|██████▍   | 237704/371472 [7:53:03<9:23:59,  3.95it/s] 64%|██████▍   | 237705/371472 [7:53:03<9:48:40,  3.79it/s] 64%|██████▍   | 237706/371472 [7:53:03<10:37:46,  3.50it/s] 64%|██████▍   | 237707/371472 [7:53:03<10:33:12,  3.52it/s] 64%|██████▍   | 237708/371472 [7:53:04<10:27:17,  3.55it/s] 64%|██████▍   | 237709/371472 [7:53:04<10:27:24,  3.55it/s] 64%|██████▍   | 237710/371472 [7:53:04<10:44:44,  3.46it/s] 64%|██████▍   | 237711/371472 [7:53:05<10:35:28,  3.51it/s] 64%|██████▍   | 237712/371472 [7:53:05<10:56:45,  3.39it/s] 64%|██████▍   | 237713/371472 [7:53:05<11:29:46,  3.23it/s] 64%|██████▍   | 237714/371472 [7:53:06<11:14:38,  3.30it/s] 64%|██████▍   | 237715/371472 [7:53:06<10:50:32,  3.43it/s] 64%|██████▍   | 237716/371472 [7:53:06<11:38:38,  3.19it/s] 64%|██████▍   | 237717/371472 [7:53:06<11:13:31,  3.31it/s] 64%|██████▍   | 237718/371472 [7:53:07<11:00:01,  3.38it/s] 64%|██████▍   | 237719/371472 [7:53:07<10:52:59,  3.41it/s] 64%|██████▍   | 237720/371472 [7:53:07<11:01:57,  3.37it/s]                                                            {'loss': 2.8827, 'learning_rate': 4.2422805921265274e-07, 'epoch': 10.24}
 64%|██████▍   | 237720/371472 [7:53:07<11:01:57,  3.37it/s] 64%|██████▍   | 237721/371472 [7:53:08<10:42:31,  3.47it/s] 64%|██████▍   | 237722/371472 [7:53:08<10:33:55,  3.52it/s] 64%|██████▍   | 237723/371472 [7:53:08<10:38:30,  3.49it/s] 64%|██████▍   | 237724/371472 [7:53:09<11:40:56,  3.18it/s] 64%|██████▍   | 237725/371472 [7:53:09<11:10:14,  3.33it/s] 64%|██████▍   | 237726/371472 [7:53:09<11:13:46,  3.31it/s] 64%|██████▍   | 237727/371472 [7:53:09<10:57:51,  3.39it/s] 64%|██████▍   | 237728/371472 [7:53:10<10:29:40,  3.54it/s] 64%|██████▍   | 237729/371472 [7:53:10<10:28:40,  3.55it/s] 64%|██████▍   | 237730/371472 [7:53:10<10:35:03,  3.51it/s] 64%|██████▍   | 237731/371472 [7:53:11<10:33:58,  3.52it/s] 64%|██████▍   | 237732/371472 [7:53:11<10:47:51,  3.44it/s] 64%|██████▍   | 237733/371472 [7:53:11<10:48:44,  3.44it/s] 64%|██████▍   | 237734/371472 [7:53:11<10:32:27,  3.52it/s] 64%|██████▍   | 237735/371472 [7:53:12<10:14:17,  3.63it/s] 64%|██████▍   | 237736/371472 [7:53:12<9:59:10,  3.72it/s]  64%|██████▍   | 237737/371472 [7:53:12<9:54:16,  3.75it/s] 64%|██████▍   | 237738/371472 [7:53:12<9:47:13,  3.80it/s] 64%|██████▍   | 237739/371472 [7:53:13<9:48:15,  3.79it/s] 64%|██████▍   | 237740/371472 [7:53:13<10:29:21,  3.54it/s]                                                            {'loss': 2.8004, 'learning_rate': 4.241795772371738e-07, 'epoch': 10.24}
 64%|██████▍   | 237740/371472 [7:53:13<10:29:21,  3.54it/s] 64%|██████▍   | 237741/371472 [7:53:13<10:26:12,  3.56it/s] 64%|██████▍   | 237742/371472 [7:53:14<10:19:41,  3.60it/s] 64%|██████▍   | 237743/371472 [7:53:14<10:22:40,  3.58it/s] 64%|██████▍   | 237744/371472 [7:53:14<10:12:53,  3.64it/s] 64%|██████▍   | 237745/371472 [7:53:14<10:01:28,  3.71it/s] 64%|██████▍   | 237746/371472 [7:53:15<11:09:20,  3.33it/s] 64%|██████▍   | 237747/371472 [7:53:15<11:15:29,  3.30it/s] 64%|██████▍   | 237748/371472 [7:53:15<11:38:37,  3.19it/s] 64%|██████▍   | 237749/371472 [7:53:16<11:25:50,  3.25it/s] 64%|██████▍   | 237750/371472 [7:53:16<10:57:14,  3.39it/s] 64%|██████▍   | 237751/371472 [7:53:16<10:22:51,  3.58it/s] 64%|██████▍   | 237752/371472 [7:53:17<11:21:00,  3.27it/s] 64%|██████▍   | 237753/371472 [7:53:17<10:50:35,  3.43it/s] 64%|██████▍   | 237754/371472 [7:53:17<10:14:03,  3.63it/s] 64%|██████▍   | 237755/371472 [7:53:17<9:54:20,  3.75it/s]  64%|██████▍   | 237756/371472 [7:53:18<9:49:36,  3.78it/s] 64%|██████▍   | 237757/371472 [7:53:18<9:54:49,  3.75it/s] 64%|██████▍   | 237758/371472 [7:53:18<10:33:49,  3.52it/s] 64%|██████▍   | 237759/371472 [7:53:18<11:00:53,  3.37it/s] 64%|██████▍   | 237760/371472 [7:53:19<11:06:21,  3.34it/s]                                                            {'loss': 2.9025, 'learning_rate': 4.2413109526169493e-07, 'epoch': 10.24}
 64%|██████▍   | 237760/371472 [7:53:19<11:06:21,  3.34it/s] 64%|██████▍   | 237761/371472 [7:53:19<10:53:08,  3.41it/s] 64%|██████▍   | 237762/371472 [7:53:19<10:49:59,  3.43it/s] 64%|██████▍   | 237763/371472 [7:53:20<10:44:45,  3.46it/s] 64%|██████▍   | 237764/371472 [7:53:20<10:38:23,  3.49it/s] 64%|██████▍   | 237765/371472 [7:53:20<10:39:09,  3.49it/s] 64%|██████▍   | 237766/371472 [7:53:20<10:13:53,  3.63it/s] 64%|██████▍   | 237767/371472 [7:53:21<10:02:09,  3.70it/s] 64%|██████▍   | 237768/371472 [7:53:21<10:07:21,  3.67it/s] 64%|██████▍   | 237769/371472 [7:53:21<10:32:50,  3.52it/s] 64%|██████▍   | 237770/371472 [7:53:22<10:26:51,  3.55it/s] 64%|██████▍   | 237771/371472 [7:53:22<10:06:06,  3.68it/s] 64%|██████▍   | 237772/371472 [7:53:22<10:00:42,  3.71it/s] 64%|██████▍   | 237773/371472 [7:53:22<10:19:04,  3.60it/s] 64%|██████▍   | 237774/371472 [7:53:23<10:01:06,  3.71it/s] 64%|██████▍   | 237775/371472 [7:53:23<10:03:05,  3.69it/s] 64%|██████▍   | 237776/371472 [7:53:23<11:59:38,  3.10it/s] 64%|██████▍   | 237777/371472 [7:53:24<11:32:22,  3.22it/s] 64%|██████▍   | 237778/371472 [7:53:24<11:36:06,  3.20it/s] 64%|██████▍   | 237779/371472 [7:53:24<11:37:49,  3.19it/s] 64%|██████▍   | 237780/371472 [7:53:25<11:11:12,  3.32it/s]                                                            {'loss': 2.7782, 'learning_rate': 4.24082613286216e-07, 'epoch': 10.24}
 64%|██████▍   | 237780/371472 [7:53:25<11:11:12,  3.32it/s] 64%|██████▍   | 237781/371472 [7:53:25<10:40:50,  3.48it/s] 64%|██████▍   | 237782/371472 [7:53:25<10:58:41,  3.38it/s] 64%|██████▍   | 237783/371472 [7:53:25<10:26:28,  3.56it/s] 64%|██████▍   | 237784/371472 [7:53:26<10:19:39,  3.60it/s] 64%|██████▍   | 237785/371472 [7:53:26<11:06:18,  3.34it/s] 64%|██████▍   | 237786/371472 [7:53:26<10:50:39,  3.42it/s] 64%|██████▍   | 237787/371472 [7:53:27<10:34:32,  3.51it/s] 64%|██████▍   | 237788/371472 [7:53:27<10:37:26,  3.50it/s] 64%|██████▍   | 237789/371472 [7:53:27<10:38:08,  3.49it/s] 64%|██████▍   | 237790/371472 [7:53:27<10:23:02,  3.58it/s] 64%|██████▍   | 237791/371472 [7:53:28<10:52:41,  3.41it/s] 64%|██████▍   | 237792/371472 [7:53:28<10:28:32,  3.54it/s] 64%|██████▍   | 237793/371472 [7:53:28<10:21:39,  3.58it/s] 64%|██████▍   | 237794/371472 [7:53:29<10:21:42,  3.58it/s] 64%|██████▍   | 237795/371472 [7:53:29<11:25:05,  3.25it/s] 64%|██████▍   | 237796/371472 [7:53:29<10:51:11,  3.42it/s] 64%|██████▍   | 237797/371472 [7:53:29<10:13:20,  3.63it/s] 64%|██████▍   | 237798/371472 [7:53:30<10:08:05,  3.66it/s] 64%|██████▍   | 237799/371472 [7:53:30<9:58:23,  3.72it/s]  64%|██████▍   | 237800/371472 [7:53:30<10:03:27,  3.69it/s]                                                            {'loss': 2.8071, 'learning_rate': 4.240341313107371e-07, 'epoch': 10.24}
 64%|██████▍   | 237800/371472 [7:53:30<10:03:27,  3.69it/s] 64%|██████▍   | 237801/371472 [7:53:31<10:59:28,  3.38it/s] 64%|██████▍   | 237802/371472 [7:53:31<10:52:10,  3.42it/s] 64%|██████▍   | 237803/371472 [7:53:31<11:00:18,  3.37it/s] 64%|██████▍   | 237804/371472 [7:53:31<10:41:48,  3.47it/s] 64%|██████▍   | 237805/371472 [7:53:32<10:30:28,  3.53it/s] 64%|██████▍   | 237806/371472 [7:53:32<10:19:00,  3.60it/s] 64%|██████▍   | 237807/371472 [7:53:32<10:11:02,  3.65it/s] 64%|██████▍   | 237808/371472 [7:53:32<10:02:37,  3.70it/s] 64%|██████▍   | 237809/371472 [7:53:33<11:26:49,  3.24it/s] 64%|██████▍   | 237810/371472 [7:53:33<10:50:56,  3.42it/s] 64%|██████▍   | 237811/371472 [7:53:33<10:29:56,  3.54it/s] 64%|██████▍   | 237812/371472 [7:53:34<10:12:06,  3.64it/s] 64%|██████▍   | 237813/371472 [7:53:34<10:28:34,  3.54it/s] 64%|██████▍   | 237814/371472 [7:53:34<10:25:55,  3.56it/s] 64%|██████▍   | 237815/371472 [7:53:34<10:13:32,  3.63it/s] 64%|██████▍   | 237816/371472 [7:53:35<10:41:59,  3.47it/s] 64%|██████▍   | 237817/371472 [7:53:35<10:58:09,  3.38it/s] 64%|██████▍   | 237818/371472 [7:53:35<10:45:24,  3.45it/s] 64%|██████▍   | 237819/371472 [7:53:36<10:54:42,  3.40it/s] 64%|██████▍   | 237820/371472 [7:53:36<11:36:49,  3.20it/s]                                                            {'loss': 3.0125, 'learning_rate': 4.2398564933525825e-07, 'epoch': 10.24}
 64%|██████▍   | 237820/371472 [7:53:36<11:36:49,  3.20it/s] 64%|██████▍   | 237821/371472 [7:53:36<11:37:42,  3.19it/s] 64%|██████▍   | 237822/371472 [7:53:37<11:54:44,  3.12it/s] 64%|██████▍   | 237823/371472 [7:53:37<11:22:57,  3.26it/s] 64%|██████▍   | 237824/371472 [7:53:37<10:53:47,  3.41it/s] 64%|██████▍   | 237825/371472 [7:53:38<11:13:57,  3.31it/s] 64%|██████▍   | 237826/371472 [7:53:38<10:54:24,  3.40it/s] 64%|██████▍   | 237827/371472 [7:53:38<10:59:11,  3.38it/s] 64%|██████▍   | 237828/371472 [7:53:38<10:30:32,  3.53it/s] 64%|██████▍   | 237829/371472 [7:53:39<10:12:19,  3.64it/s] 64%|██████▍   | 237830/371472 [7:53:39<10:15:25,  3.62it/s] 64%|██████▍   | 237831/371472 [7:53:39<10:01:02,  3.71it/s] 64%|██████▍   | 237832/371472 [7:53:39<9:49:38,  3.78it/s]  64%|██████▍   | 237833/371472 [7:53:40<9:42:56,  3.82it/s] 64%|██████▍   | 237834/371472 [7:53:40<9:44:44,  3.81it/s] 64%|██████▍   | 237835/371472 [7:53:40<10:26:58,  3.55it/s] 64%|██████▍   | 237836/371472 [7:53:41<11:47:06,  3.15it/s] 64%|██████▍   | 237837/371472 [7:53:41<11:15:45,  3.30it/s] 64%|██████▍   | 237838/371472 [7:53:41<11:02:36,  3.36it/s] 64%|██████▍   | 237839/371472 [7:53:41<10:51:10,  3.42it/s] 64%|██████▍   | 237840/371472 [7:53:42<11:13:08,  3.31it/s]                                                            {'loss': 3.0222, 'learning_rate': 4.2393716735977927e-07, 'epoch': 10.24}
 64%|██████▍   | 237840/371472 [7:53:42<11:13:08,  3.31it/s] 64%|██████▍   | 237841/371472 [7:53:42<11:24:02,  3.26it/s] 64%|██████▍   | 237842/371472 [7:53:42<11:20:30,  3.27it/s] 64%|██████▍   | 237843/371472 [7:53:43<11:33:52,  3.21it/s] 64%|██████▍   | 237844/371472 [7:53:43<12:04:45,  3.07it/s] 64%|██████▍   | 237845/371472 [7:53:43<11:36:50,  3.20it/s] 64%|██████▍   | 237846/371472 [7:53:44<10:48:23,  3.43it/s] 64%|██████▍   | 237847/371472 [7:53:44<11:03:51,  3.35it/s] 64%|██████▍   | 237848/371472 [7:53:44<10:29:33,  3.54it/s] 64%|██████▍   | 237849/371472 [7:53:45<11:46:39,  3.15it/s] 64%|██████▍   | 237850/371472 [7:53:45<11:11:25,  3.32it/s] 64%|██████▍   | 237851/371472 [7:53:45<11:06:47,  3.34it/s] 64%|██████▍   | 237852/371472 [7:53:45<10:44:56,  3.45it/s] 64%|██████▍   | 237853/371472 [7:53:46<10:46:55,  3.44it/s] 64%|██████▍   | 237854/371472 [7:53:46<10:53:12,  3.41it/s] 64%|██████▍   | 237855/371472 [7:53:46<10:39:12,  3.48it/s] 64%|██████▍   | 237856/371472 [7:53:47<10:46:18,  3.45it/s] 64%|██████▍   | 237857/371472 [7:53:47<10:31:01,  3.53it/s] 64%|██████▍   | 237858/371472 [7:53:47<10:16:55,  3.61it/s] 64%|██████▍   | 237859/371472 [7:53:47<11:20:34,  3.27it/s] 64%|██████▍   | 237860/371472 [7:53:48<11:11:36,  3.32it/s]                                                            {'loss': 2.676, 'learning_rate': 4.2388868538430045e-07, 'epoch': 10.25}
 64%|██████▍   | 237860/371472 [7:53:48<11:11:36,  3.32it/s] 64%|██████▍   | 237861/371472 [7:53:48<11:27:00,  3.24it/s] 64%|██████▍   | 237862/371472 [7:53:48<11:09:56,  3.32it/s] 64%|██████▍   | 237863/371472 [7:53:49<10:44:32,  3.45it/s] 64%|██████▍   | 237864/371472 [7:53:49<10:45:08,  3.45it/s] 64%|██████▍   | 237865/371472 [7:53:49<10:57:18,  3.39it/s] 64%|██████▍   | 237866/371472 [7:53:50<10:44:59,  3.45it/s] 64%|██████▍   | 237867/371472 [7:53:50<12:00:19,  3.09it/s] 64%|██████▍   | 237868/371472 [7:53:50<12:00:43,  3.09it/s] 64%|██████▍   | 237869/371472 [7:53:51<11:18:25,  3.28it/s] 64%|██████▍   | 237870/371472 [7:53:51<10:54:02,  3.40it/s] 64%|██████▍   | 237871/371472 [7:53:51<10:19:26,  3.59it/s] 64%|██████▍   | 237872/371472 [7:53:51<10:10:43,  3.65it/s] 64%|██████▍   | 237873/371472 [7:53:52<10:02:50,  3.69it/s] 64%|██████▍   | 237874/371472 [7:53:52<10:22:27,  3.58it/s] 64%|██████▍   | 237875/371472 [7:53:52<10:08:53,  3.66it/s] 64%|██████▍   | 237876/371472 [7:53:52<10:22:46,  3.58it/s] 64%|██████▍   | 237877/371472 [7:53:53<11:08:48,  3.33it/s] 64%|██████▍   | 237878/371472 [7:53:53<10:42:43,  3.46it/s] 64%|██████▍   | 237879/371472 [7:53:53<10:31:34,  3.53it/s] 64%|██████▍   | 237880/371472 [7:53:54<11:05:41,  3.34it/s]                                                            {'loss': 2.9778, 'learning_rate': 4.238402034088215e-07, 'epoch': 10.25}
 64%|██████▍   | 237880/371472 [7:53:54<11:05:41,  3.34it/s] 64%|██████▍   | 237881/371472 [7:53:54<11:39:56,  3.18it/s] 64%|██████▍   | 237882/371472 [7:53:54<11:18:19,  3.28it/s] 64%|██████▍   | 237883/371472 [7:53:55<11:00:21,  3.37it/s] 64%|██████▍   | 237884/371472 [7:53:55<10:37:17,  3.49it/s] 64%|██████▍   | 237885/371472 [7:53:55<10:10:03,  3.65it/s] 64%|██████▍   | 237886/371472 [7:53:55<10:09:21,  3.65it/s] 64%|██████▍   | 237887/371472 [7:53:56<10:38:28,  3.49it/s] 64%|██████▍   | 237888/371472 [7:53:56<10:11:23,  3.64it/s] 64%|██████▍   | 237889/371472 [7:53:56<10:24:07,  3.57it/s] 64%|██████▍   | 237890/371472 [7:53:56<10:55:40,  3.40it/s] 64%|██████▍   | 237891/371472 [7:53:57<11:18:49,  3.28it/s] 64%|██████▍   | 237892/371472 [7:53:57<10:36:09,  3.50it/s] 64%|██████▍   | 237893/371472 [7:53:57<10:26:33,  3.55it/s] 64%|██████▍   | 237894/371472 [7:53:58<10:35:39,  3.50it/s] 64%|██████▍   | 237895/371472 [7:53:58<10:24:57,  3.56it/s] 64%|██████▍   | 237896/371472 [7:53:58<11:10:32,  3.32it/s] 64%|██████▍   | 237897/371472 [7:53:59<10:45:38,  3.45it/s] 64%|██████▍   | 237898/371472 [7:53:59<10:22:07,  3.58it/s] 64%|██████▍   | 237899/371472 [7:53:59<10:24:05,  3.57it/s] 64%|██████▍   | 237900/371472 [7:53:59<10:21:35,  3.58it/s]                                                            {'loss': 2.9969, 'learning_rate': 4.2379172143334265e-07, 'epoch': 10.25}
 64%|██████▍   | 237900/371472 [7:53:59<10:21:35,  3.58it/s] 64%|██████▍   | 237901/371472 [7:54:00<10:55:05,  3.40it/s] 64%|██████▍   | 237902/371472 [7:54:00<10:13:11,  3.63it/s] 64%|██████▍   | 237903/371472 [7:54:00<10:40:35,  3.48it/s] 64%|██████▍   | 237904/371472 [7:54:00<10:24:48,  3.56it/s] 64%|██████▍   | 237905/371472 [7:54:01<10:39:47,  3.48it/s] 64%|██████▍   | 237906/371472 [7:54:01<11:26:33,  3.24it/s] 64%|██████▍   | 237907/371472 [7:54:01<11:12:42,  3.31it/s] 64%|██████▍   | 237908/371472 [7:54:02<11:34:40,  3.20it/s] 64%|██████▍   | 237909/371472 [7:54:02<11:14:01,  3.30it/s] 64%|██████▍   | 237910/371472 [7:54:02<11:07:31,  3.33it/s] 64%|██████▍   | 237911/371472 [7:54:03<10:59:58,  3.37it/s] 64%|██████▍   | 237912/371472 [7:54:03<10:25:00,  3.56it/s] 64%|██████▍   | 237913/371472 [7:54:03<11:03:39,  3.35it/s] 64%|██████▍   | 237914/371472 [7:54:03<10:57:23,  3.39it/s] 64%|██████▍   | 237915/371472 [7:54:04<10:36:37,  3.50it/s] 64%|██████▍   | 237916/371472 [7:54:04<10:14:21,  3.62it/s] 64%|██████▍   | 237917/371472 [7:54:04<10:22:58,  3.57it/s] 64%|██████▍   | 237918/371472 [7:54:05<10:13:21,  3.63it/s] 64%|██████▍   | 237919/371472 [7:54:05<10:49:31,  3.43it/s] 64%|██████▍   | 237920/371472 [7:54:05<10:35:27,  3.50it/s]                                                            {'loss': 2.9052, 'learning_rate': 4.237432394578637e-07, 'epoch': 10.25}
 64%|██████▍   | 237920/371472 [7:54:05<10:35:27,  3.50it/s] 64%|██████▍   | 237921/371472 [7:54:05<10:11:47,  3.64it/s] 64%|██████▍   | 237922/371472 [7:54:06<10:17:19,  3.61it/s] 64%|██████▍   | 237923/371472 [7:54:06<10:18:15,  3.60it/s] 64%|██████▍   | 237924/371472 [7:54:06<10:29:25,  3.54it/s] 64%|██████▍   | 237925/371472 [7:54:07<10:40:34,  3.47it/s] 64%|██████▍   | 237926/371472 [7:54:07<10:42:31,  3.46it/s] 64%|██████▍   | 237927/371472 [7:54:07<10:28:41,  3.54it/s] 64%|██████▍   | 237928/371472 [7:54:07<11:08:32,  3.33it/s] 64%|██████▍   | 237929/371472 [7:54:08<11:41:48,  3.17it/s] 64%|██████▍   | 237930/371472 [7:54:08<11:15:40,  3.29it/s] 64%|██████▍   | 237931/371472 [7:54:08<11:03:38,  3.35it/s] 64%|██████▍   | 237932/371472 [7:54:09<10:31:58,  3.52it/s] 64%|██████▍   | 237933/371472 [7:54:09<10:27:24,  3.55it/s] 64%|██████▍   | 237934/371472 [7:54:09<10:09:47,  3.65it/s] 64%|██████▍   | 237935/371472 [7:54:09<10:29:24,  3.54it/s] 64%|██████▍   | 237936/371472 [7:54:10<10:46:30,  3.44it/s] 64%|██████▍   | 237937/371472 [7:54:10<10:29:19,  3.54it/s] 64%|██████▍   | 237938/371472 [7:54:10<10:22:32,  3.58it/s] 64%|██████▍   | 237939/371472 [7:54:11<10:05:20,  3.68it/s] 64%|██████▍   | 237940/371472 [7:54:11<10:03:04,  3.69it/s]                                                            {'loss': 2.8974, 'learning_rate': 4.2369475748238484e-07, 'epoch': 10.25}
 64%|██████▍   | 237940/371472 [7:54:11<10:03:04,  3.69it/s] 64%|██████▍   | 237941/371472 [7:54:11<9:49:48,  3.77it/s]  64%|██████▍   | 237942/371472 [7:54:11<10:58:44,  3.38it/s] 64%|██████▍   | 237943/371472 [7:54:12<10:35:42,  3.50it/s] 64%|██████▍   | 237944/371472 [7:54:12<10:08:01,  3.66it/s] 64%|██████▍   | 237945/371472 [7:54:12<10:42:18,  3.46it/s] 64%|██████▍   | 237946/371472 [7:54:13<11:46:33,  3.15it/s] 64%|██████▍   | 237947/371472 [7:54:13<11:46:34,  3.15it/s] 64%|██████▍   | 237948/371472 [7:54:13<11:10:53,  3.32it/s] 64%|██████▍   | 237949/371472 [7:54:14<10:37:23,  3.49it/s] 64%|██████▍   | 237950/371472 [7:54:14<10:23:50,  3.57it/s] 64%|██████▍   | 237951/371472 [7:54:14<10:25:01,  3.56it/s] 64%|██████▍   | 237952/371472 [7:54:14<10:34:25,  3.51it/s] 64%|██████▍   | 237953/371472 [7:54:15<10:35:35,  3.50it/s] 64%|██████▍   | 237954/371472 [7:54:15<10:25:41,  3.56it/s] 64%|██████▍   | 237955/371472 [7:54:15<10:37:32,  3.49it/s] 64%|██████▍   | 237956/371472 [7:54:15<10:37:18,  3.49it/s] 64%|██████▍   | 237957/371472 [7:54:16<10:23:58,  3.57it/s] 64%|██████▍   | 237958/371472 [7:54:16<10:37:56,  3.49it/s] 64%|██████▍   | 237959/371472 [7:54:16<10:21:59,  3.58it/s] 64%|██████▍   | 237960/371472 [7:54:17<10:33:55,  3.51it/s]                                                            {'loss': 2.7644, 'learning_rate': 4.236462755069059e-07, 'epoch': 10.25}
 64%|██████▍   | 237960/371472 [7:54:17<10:33:55,  3.51it/s] 64%|██████▍   | 237961/371472 [7:54:17<11:51:54,  3.13it/s] 64%|██████▍   | 237962/371472 [7:54:17<11:04:56,  3.35it/s] 64%|██████▍   | 237963/371472 [7:54:18<10:46:31,  3.44it/s] 64%|██████▍   | 237964/371472 [7:54:18<10:28:43,  3.54it/s] 64%|██████▍   | 237965/371472 [7:54:18<10:40:43,  3.47it/s] 64%|██████▍   | 237966/371472 [7:54:18<10:45:28,  3.45it/s] 64%|██████▍   | 237967/371472 [7:54:19<10:13:06,  3.63it/s] 64%|██████▍   | 237968/371472 [7:54:19<10:10:05,  3.65it/s] 64%|██████▍   | 237969/371472 [7:54:19<9:48:16,  3.78it/s]  64%|██████▍   | 237970/371472 [7:54:19<10:23:07,  3.57it/s] 64%|██████▍   | 237971/371472 [7:54:20<10:53:11,  3.41it/s] 64%|██████▍   | 237972/371472 [7:54:20<10:59:46,  3.37it/s] 64%|██████▍   | 237973/371472 [7:54:20<10:38:06,  3.49it/s] 64%|██████▍   | 237974/371472 [7:54:21<10:46:24,  3.44it/s] 64%|██████▍   | 237975/371472 [7:54:21<10:36:47,  3.49it/s] 64%|██████▍   | 237976/371472 [7:54:21<10:37:17,  3.49it/s] 64%|██████▍   | 237977/371472 [7:54:21<10:23:32,  3.57it/s] 64%|██████▍   | 237978/371472 [7:54:22<10:08:35,  3.66it/s] 64%|██████▍   | 237979/371472 [7:54:22<10:00:54,  3.70it/s] 64%|██████▍   | 237980/371472 [7:54:22<10:03:06,  3.69it/s]                                                            {'loss': 3.0208, 'learning_rate': 4.235977935314271e-07, 'epoch': 10.25}
 64%|██████▍   | 237980/371472 [7:54:22<10:03:06,  3.69it/s] 64%|██████▍   | 237981/371472 [7:54:23<10:01:12,  3.70it/s] 64%|██████▍   | 237982/371472 [7:54:23<10:04:38,  3.68it/s] 64%|██████▍   | 237983/371472 [7:54:23<9:51:17,  3.76it/s]  64%|██████▍   | 237984/371472 [7:54:23<10:37:23,  3.49it/s] 64%|██████▍   | 237985/371472 [7:54:24<11:01:06,  3.37it/s] 64%|██████▍   | 237986/371472 [7:54:24<10:46:38,  3.44it/s] 64%|██████▍   | 237987/371472 [7:54:24<10:15:18,  3.62it/s] 64%|██████▍   | 237988/371472 [7:54:25<9:58:25,  3.72it/s]  64%|██████▍   | 237989/371472 [7:54:25<9:55:42,  3.73it/s] 64%|██████▍   | 237990/371472 [7:54:25<10:19:01,  3.59it/s] 64%|██████▍   | 237991/371472 [7:54:25<10:22:25,  3.57it/s] 64%|██████▍   | 237992/371472 [7:54:26<10:03:05,  3.69it/s] 64%|██████▍   | 237993/371472 [7:54:26<10:12:05,  3.63it/s] 64%|██████▍   | 237994/371472 [7:54:26<10:35:52,  3.50it/s] 64%|██████▍   | 237995/371472 [7:54:27<10:57:25,  3.38it/s] 64%|██████▍   | 237996/371472 [7:54:27<10:59:45,  3.37it/s] 64%|██████▍   | 237997/371472 [7:54:27<10:38:45,  3.48it/s] 64%|██████▍   | 237998/371472 [7:54:27<10:37:54,  3.49it/s] 64%|██████▍   | 237999/371472 [7:54:28<10:26:36,  3.55it/s] 64%|██████▍   | 238000/371472 [7:54:28<10:17:51,  3.60it/s]                                                            {'loss': 2.7165, 'learning_rate': 4.2354931155594816e-07, 'epoch': 10.25}
 64%|██████▍   | 238000/371472 [7:54:28<10:17:51,  3.60it/s] 64%|██████▍   | 238001/371472 [7:54:28<10:08:36,  3.66it/s] 64%|██████▍   | 238002/371472 [7:54:28<10:01:04,  3.70it/s] 64%|██████▍   | 238003/371472 [7:54:29<9:40:15,  3.83it/s]  64%|██████▍   | 238004/371472 [7:54:29<9:23:27,  3.95it/s] 64%|██████▍   | 238005/371472 [7:54:29<9:35:15,  3.87it/s] 64%|██████▍   | 238006/371472 [7:54:29<9:49:44,  3.77it/s] 64%|██████▍   | 238007/371472 [7:54:30<10:22:48,  3.57it/s] 64%|██████▍   | 238008/371472 [7:54:30<10:09:23,  3.65it/s] 64%|██████▍   | 238009/371472 [7:54:30<9:49:14,  3.77it/s]  64%|██████▍   | 238010/371472 [7:54:31<9:48:45,  3.78it/s] 64%|██████▍   | 238011/371472 [7:54:31<10:00:19,  3.71it/s] 64%|██████▍   | 238012/371472 [7:54:31<10:47:36,  3.43it/s] 64%|██████▍   | 238013/371472 [7:54:31<10:46:18,  3.44it/s] 64%|██████▍   | 238014/371472 [7:54:32<10:23:57,  3.56it/s] 64%|██████▍   | 238015/371472 [7:54:32<10:20:31,  3.58it/s] 64%|██████▍   | 238016/371472 [7:54:32<11:01:18,  3.36it/s] 64%|██████▍   | 238017/371472 [7:54:33<10:42:13,  3.46it/s] 64%|██████▍   | 238018/371472 [7:54:33<10:20:13,  3.59it/s] 64%|██████▍   | 238019/371472 [7:54:33<10:13:59,  3.62it/s] 64%|██████▍   | 238020/371472 [7:54:33<10:24:12,  3.56it/s]                                                            {'loss': 2.9093, 'learning_rate': 4.235008295804693e-07, 'epoch': 10.25}
 64%|██████▍   | 238020/371472 [7:54:33<10:24:12,  3.56it/s] 64%|██████▍   | 238021/371472 [7:54:34<10:42:51,  3.46it/s] 64%|██████▍   | 238022/371472 [7:54:34<10:21:37,  3.58it/s] 64%|██████▍   | 238023/371472 [7:54:34<10:56:05,  3.39it/s] 64%|██████▍   | 238024/371472 [7:54:35<10:31:53,  3.52it/s] 64%|██████▍   | 238025/371472 [7:54:35<10:03:13,  3.69it/s] 64%|██████▍   | 238026/371472 [7:54:35<10:01:40,  3.70it/s] 64%|██████▍   | 238027/371472 [7:54:35<10:04:01,  3.68it/s] 64%|██████▍   | 238028/371472 [7:54:36<9:53:46,  3.75it/s]  64%|██████▍   | 238029/371472 [7:54:36<11:33:12,  3.21it/s] 64%|██████▍   | 238030/371472 [7:54:36<11:09:15,  3.32it/s] 64%|██████▍   | 238031/371472 [7:54:37<10:56:46,  3.39it/s] 64%|██████▍   | 238032/371472 [7:54:37<10:50:01,  3.42it/s] 64%|██████▍   | 238033/371472 [7:54:37<10:38:29,  3.48it/s] 64%|██████▍   | 238034/371472 [7:54:37<10:35:45,  3.50it/s] 64%|██████▍   | 238035/371472 [7:54:38<10:34:14,  3.51it/s] 64%|██████▍   | 238036/371472 [7:54:38<10:21:51,  3.58it/s] 64%|██████▍   | 238037/371472 [7:54:38<10:02:16,  3.69it/s] 64%|██████▍   | 238038/371472 [7:54:38<10:01:45,  3.70it/s] 64%|██████▍   | 238039/371472 [7:54:39<10:07:45,  3.66it/s] 64%|██████▍   | 238040/371472 [7:54:39<10:12:59,  3.63it/s]                                                            {'loss': 2.8954, 'learning_rate': 4.2345234760499036e-07, 'epoch': 10.25}
 64%|██████▍   | 238040/371472 [7:54:39<10:12:59,  3.63it/s] 64%|██████▍   | 238041/371472 [7:54:39<10:20:43,  3.58it/s] 64%|██████▍   | 238042/371472 [7:54:40<10:19:16,  3.59it/s] 64%|██████▍   | 238043/371472 [7:54:40<10:10:09,  3.64it/s] 64%|██████▍   | 238044/371472 [7:54:40<10:02:42,  3.69it/s] 64%|██████▍   | 238045/371472 [7:54:40<10:07:43,  3.66it/s] 64%|██████▍   | 238046/371472 [7:54:41<9:52:05,  3.76it/s]  64%|██████▍   | 238047/371472 [7:54:41<9:57:28,  3.72it/s] 64%|██████▍   | 238048/371472 [7:54:41<9:45:37,  3.80it/s] 64%|██████▍   | 238049/371472 [7:54:42<10:14:34,  3.62it/s] 64%|██████▍   | 238050/371472 [7:54:42<11:43:39,  3.16it/s] 64%|██████▍   | 238051/371472 [7:54:42<11:47:53,  3.14it/s] 64%|██████▍   | 238052/371472 [7:54:43<11:45:36,  3.15it/s] 64%|██████▍   | 238053/371472 [7:54:43<11:22:06,  3.26it/s] 64%|██████▍   | 238054/371472 [7:54:43<11:09:17,  3.32it/s] 64%|██████▍   | 238055/371472 [7:54:43<11:22:47,  3.26it/s] 64%|██████▍   | 238056/371472 [7:54:44<10:49:17,  3.42it/s] 64%|██████▍   | 238057/371472 [7:54:44<11:22:58,  3.26it/s] 64%|██████▍   | 238058/371472 [7:54:44<10:45:33,  3.44it/s] 64%|██████▍   | 238059/371472 [7:54:45<10:53:06,  3.40it/s] 64%|██████▍   | 238060/371472 [7:54:45<10:28:05,  3.54it/s]                                                            {'loss': 2.8393, 'learning_rate': 4.2340386562951154e-07, 'epoch': 10.25}
 64%|██████▍   | 238060/371472 [7:54:45<10:28:05,  3.54it/s] 64%|██████▍   | 238061/371472 [7:54:45<10:13:16,  3.63it/s] 64%|██████▍   | 238062/371472 [7:54:45<9:48:48,  3.78it/s]  64%|██████▍   | 238063/371472 [7:54:46<10:01:28,  3.70it/s] 64%|██████▍   | 238064/371472 [7:54:46<11:10:15,  3.32it/s] 64%|██████▍   | 238065/371472 [7:54:46<11:52:31,  3.12it/s] 64%|██████▍   | 238066/371472 [7:54:47<11:37:09,  3.19it/s] 64%|██████▍   | 238067/371472 [7:54:47<11:23:37,  3.25it/s] 64%|██████▍   | 238068/371472 [7:54:47<10:57:52,  3.38it/s] 64%|██████▍   | 238069/371472 [7:54:48<11:20:14,  3.27it/s] 64%|██████▍   | 238070/371472 [7:54:48<11:10:12,  3.32it/s] 64%|██████▍   | 238071/371472 [7:54:48<11:11:06,  3.31it/s] 64%|██████▍   | 238072/371472 [7:54:48<11:26:59,  3.24it/s] 64%|██████▍   | 238073/371472 [7:54:49<11:36:07,  3.19it/s] 64%|██████▍   | 238074/371472 [7:54:49<11:03:45,  3.35it/s] 64%|██████▍   | 238075/371472 [7:54:49<10:35:34,  3.50it/s] 64%|██████▍   | 238076/371472 [7:54:50<10:43:17,  3.46it/s] 64%|██████▍   | 238077/371472 [7:54:50<10:37:11,  3.49it/s] 64%|██████▍   | 238078/371472 [7:54:50<10:18:34,  3.59it/s] 64%|██████▍   | 238079/371472 [7:54:50<10:01:31,  3.70it/s] 64%|██████▍   | 238080/371472 [7:54:51<10:21:44,  3.58it/s]                                                            {'loss': 2.8791, 'learning_rate': 4.233553836540326e-07, 'epoch': 10.25}
 64%|██████▍   | 238080/371472 [7:54:51<10:21:44,  3.58it/s] 64%|██████▍   | 238081/371472 [7:54:51<10:47:32,  3.43it/s] 64%|██████▍   | 238082/371472 [7:54:51<10:24:03,  3.56it/s] 64%|██████▍   | 238083/371472 [7:54:52<10:23:59,  3.56it/s] 64%|██████▍   | 238084/371472 [7:54:52<10:16:17,  3.61it/s] 64%|██████▍   | 238085/371472 [7:54:52<10:07:29,  3.66it/s] 64%|██████▍   | 238086/371472 [7:54:52<9:57:13,  3.72it/s]  64%|██████▍   | 238087/371472 [7:54:53<10:03:03,  3.69it/s] 64%|██████▍   | 238088/371472 [7:54:53<10:58:53,  3.37it/s] 64%|██████▍   | 238089/371472 [7:54:53<10:37:04,  3.49it/s] 64%|██████▍   | 238090/371472 [7:54:54<10:29:48,  3.53it/s] 64%|██████▍   | 238091/371472 [7:54:54<10:36:51,  3.49it/s] 64%|██████▍   | 238092/371472 [7:54:54<10:49:11,  3.42it/s] 64%|██████▍   | 238093/371472 [7:54:54<10:53:35,  3.40it/s] 64%|██████▍   | 238094/371472 [7:54:55<11:09:55,  3.32it/s] 64%|██████▍   | 238095/371472 [7:54:55<10:26:40,  3.55it/s] 64%|██████▍   | 238096/371472 [7:54:55<10:31:24,  3.52it/s] 64%|██████▍   | 238097/371472 [7:54:56<10:03:23,  3.68it/s] 64%|██████▍   | 238098/371472 [7:54:56<9:41:47,  3.82it/s]  64%|██████▍   | 238099/371472 [7:54:56<9:40:11,  3.83it/s] 64%|██████▍   | 238100/371472 [7:54:56<9:55:36,  3.73it/s]                                                           {'loss': 3.0217, 'learning_rate': 4.2330690167855373e-07, 'epoch': 10.26}
 64%|██████▍   | 238100/371472 [7:54:56<9:55:36,  3.73it/s] 64%|██████▍   | 238101/371472 [7:54:57<9:52:47,  3.75it/s] 64%|██████▍   | 238102/371472 [7:54:57<9:54:29,  3.74it/s] 64%|██████▍   | 238103/371472 [7:54:57<9:46:02,  3.79it/s] 64%|██████▍   | 238104/371472 [7:54:57<10:00:45,  3.70it/s] 64%|██████▍   | 238105/371472 [7:54:58<9:54:12,  3.74it/s]  64%|██████▍   | 238106/371472 [7:54:58<9:58:04,  3.72it/s] 64%|██████▍   | 238107/371472 [7:54:58<10:00:56,  3.70it/s] 64%|██████▍   | 238108/371472 [7:54:58<9:55:58,  3.73it/s]  64%|██████▍   | 238109/371472 [7:54:59<10:15:34,  3.61it/s] 64%|██████▍   | 238110/371472 [7:54:59<10:00:19,  3.70it/s] 64%|██████▍   | 238111/371472 [7:54:59<10:09:30,  3.65it/s] 64%|██████▍   | 238112/371472 [7:55:00<9:52:12,  3.75it/s]  64%|██████▍   | 238113/371472 [7:55:00<9:30:47,  3.89it/s] 64%|██████▍   | 238114/371472 [7:55:00<9:56:12,  3.73it/s] 64%|██████▍   | 238115/371472 [7:55:00<10:07:23,  3.66it/s] 64%|██████▍   | 238116/371472 [7:55:01<9:55:54,  3.73it/s]  64%|██████▍   | 238117/371472 [7:55:01<9:52:06,  3.75it/s] 64%|██████▍   | 238118/371472 [7:55:01<9:57:08,  3.72it/s] 64%|██████▍   | 238119/371472 [7:55:01<9:49:59,  3.77it/s] 64%|██████▍   | 238120/371472 [7:55:02<10:04:36,  3.68it/s]                                                            {'loss': 2.7831, 'learning_rate': 4.232584197030748e-07, 'epoch': 10.26}
 64%|██████▍   | 238120/371472 [7:55:02<10:04:36,  3.68it/s] 64%|██████▍   | 238121/371472 [7:55:02<10:07:18,  3.66it/s] 64%|██████▍   | 238122/371472 [7:55:02<10:11:12,  3.64it/s] 64%|██████▍   | 238123/371472 [7:55:03<10:04:12,  3.68it/s] 64%|██████▍   | 238124/371472 [7:55:03<9:56:42,  3.72it/s]  64%|██████▍   | 238125/371472 [7:55:03<10:13:31,  3.62it/s] 64%|██████▍   | 238126/371472 [7:55:03<10:04:32,  3.68it/s] 64%|██████▍   | 238127/371472 [7:55:04<9:56:00,  3.73it/s]  64%|██████▍   | 238128/371472 [7:55:04<10:17:04,  3.60it/s] 64%|██████▍   | 238129/371472 [7:55:04<10:00:26,  3.70it/s] 64%|██████▍   | 238130/371472 [7:55:05<11:10:12,  3.32it/s] 64%|██████▍   | 238131/371472 [7:55:05<10:49:10,  3.42it/s] 64%|██████▍   | 238132/371472 [7:55:05<10:33:29,  3.51it/s] 64%|██████▍   | 238133/371472 [7:55:05<10:05:18,  3.67it/s] 64%|██████▍   | 238134/371472 [7:55:06<10:07:00,  3.66it/s] 64%|██████▍   | 238135/371472 [7:55:06<9:43:12,  3.81it/s]  64%|██████▍   | 238136/371472 [7:55:06<9:26:38,  3.92it/s] 64%|██████▍   | 238137/371472 [7:55:06<10:07:25,  3.66it/s] 64%|██████▍   | 238138/371472 [7:55:07<10:33:28,  3.51it/s] 64%|██████▍   | 238139/371472 [7:55:07<10:18:50,  3.59it/s] 64%|██████▍   | 238140/371472 [7:55:07<10:09:34,  3.65it/s]                                                            {'loss': 2.8808, 'learning_rate': 4.23209937727596e-07, 'epoch': 10.26}
 64%|██████▍   | 238140/371472 [7:55:07<10:09:34,  3.65it/s] 64%|██████▍   | 238141/371472 [7:55:07<10:16:36,  3.60it/s] 64%|██████▍   | 238142/371472 [7:55:08<11:04:53,  3.34it/s] 64%|██████▍   | 238143/371472 [7:55:08<11:17:16,  3.28it/s] 64%|██████▍   | 238144/371472 [7:55:08<11:12:10,  3.31it/s] 64%|██████▍   | 238145/371472 [7:55:09<10:49:23,  3.42it/s] 64%|██████▍   | 238146/371472 [7:55:09<10:27:45,  3.54it/s] 64%|██████▍   | 238147/371472 [7:55:09<10:08:34,  3.65it/s] 64%|██████▍   | 238148/371472 [7:55:09<9:50:36,  3.76it/s]  64%|██████▍   | 238149/371472 [7:55:10<9:56:19,  3.73it/s] 64%|██████▍   | 238150/371472 [7:55:10<10:05:11,  3.67it/s] 64%|██████▍   | 238151/371472 [7:55:10<10:46:48,  3.44it/s] 64%|██████▍   | 238152/371472 [7:55:11<10:42:12,  3.46it/s] 64%|██████▍   | 238153/371472 [7:55:11<10:28:05,  3.54it/s] 64%|██████▍   | 238154/371472 [7:55:11<11:06:36,  3.33it/s] 64%|██████▍   | 238155/371472 [7:55:12<11:19:48,  3.27it/s] 64%|██████▍   | 238156/371472 [7:55:12<11:10:35,  3.31it/s] 64%|██████▍   | 238157/371472 [7:55:12<11:24:07,  3.25it/s] 64%|██████▍   | 238158/371472 [7:55:12<11:01:28,  3.36it/s] 64%|██████▍   | 238159/371472 [7:55:13<10:45:12,  3.44it/s] 64%|██████▍   | 238160/371472 [7:55:13<10:24:32,  3.56it/s]                                                            {'loss': 2.7111, 'learning_rate': 4.23161455752117e-07, 'epoch': 10.26}
 64%|██████▍   | 238160/371472 [7:55:13<10:24:32,  3.56it/s] 64%|██████▍   | 238161/371472 [7:55:13<11:59:15,  3.09it/s] 64%|██████▍   | 238162/371472 [7:55:14<11:06:32,  3.33it/s] 64%|██████▍   | 238163/371472 [7:55:14<10:45:44,  3.44it/s] 64%|██████▍   | 238164/371472 [7:55:14<10:20:49,  3.58it/s] 64%|██████▍   | 238165/371472 [7:55:14<10:33:21,  3.51it/s] 64%|██████▍   | 238166/371472 [7:55:15<10:25:25,  3.55it/s] 64%|██████▍   | 238167/371472 [7:55:15<10:11:45,  3.63it/s] 64%|██████▍   | 238168/371472 [7:55:15<9:56:26,  3.72it/s]  64%|██████▍   | 238169/371472 [7:55:16<9:49:54,  3.77it/s] 64%|██████▍   | 238170/371472 [7:55:16<10:15:15,  3.61it/s] 64%|██████▍   | 238171/371472 [7:55:16<11:02:09,  3.36it/s] 64%|██████▍   | 238172/371472 [7:55:16<10:55:18,  3.39it/s] 64%|██████▍   | 238173/371472 [7:55:17<10:44:04,  3.45it/s] 64%|██████▍   | 238174/371472 [7:55:17<10:33:14,  3.51it/s] 64%|██████▍   | 238175/371472 [7:55:17<10:30:32,  3.52it/s] 64%|██████▍   | 238176/371472 [7:55:18<10:07:36,  3.66it/s] 64%|██████▍   | 238177/371472 [7:55:18<10:03:54,  3.68it/s] 64%|██████▍   | 238178/371472 [7:55:18<10:10:25,  3.64it/s] 64%|██████▍   | 238179/371472 [7:55:18<10:01:32,  3.69it/s] 64%|██████▍   | 238180/371472 [7:55:19<10:13:18,  3.62it/s]                                                            {'loss': 2.8857, 'learning_rate': 4.231129737766382e-07, 'epoch': 10.26}
 64%|██████▍   | 238180/371472 [7:55:19<10:13:18,  3.62it/s] 64%|██████▍   | 238181/371472 [7:55:19<10:02:58,  3.68it/s] 64%|██████▍   | 238182/371472 [7:55:19<9:54:20,  3.74it/s]  64%|██████▍   | 238183/371472 [7:55:19<9:54:24,  3.74it/s] 64%|██████▍   | 238184/371472 [7:55:20<10:15:55,  3.61it/s] 64%|██████▍   | 238185/371472 [7:55:20<9:58:35,  3.71it/s]  64%|██████▍   | 238186/371472 [7:55:20<10:19:18,  3.59it/s] 64%|██████▍   | 238187/371472 [7:55:21<9:56:32,  3.72it/s]  64%|██████▍   | 238188/371472 [7:55:21<10:04:34,  3.67it/s] 64%|██████▍   | 238189/371472 [7:55:21<10:41:20,  3.46it/s] 64%|██████▍   | 238190/371472 [7:55:21<10:56:39,  3.38it/s] 64%|██████▍   | 238191/371472 [7:55:22<10:31:32,  3.52it/s] 64%|██████▍   | 238192/371472 [7:55:22<11:12:55,  3.30it/s] 64%|██████▍   | 238193/371472 [7:55:22<10:53:10,  3.40it/s] 64%|██████▍   | 238194/371472 [7:55:23<10:53:10,  3.40it/s] 64%|██████▍   | 238195/371472 [7:55:23<10:46:02,  3.44it/s] 64%|██████▍   | 238196/371472 [7:55:23<11:11:01,  3.31it/s] 64%|██████▍   | 238197/371472 [7:55:23<10:40:49,  3.47it/s] 64%|██████▍   | 238198/371472 [7:55:24<10:19:54,  3.58it/s] 64%|██████▍   | 238199/371472 [7:55:24<10:14:26,  3.61it/s] 64%|██████▍   | 238200/371472 [7:55:24<10:03:09,  3.68it/s]                                                            {'loss': 2.7503, 'learning_rate': 4.2306449180115925e-07, 'epoch': 10.26}
 64%|██████▍   | 238200/371472 [7:55:24<10:03:09,  3.68it/s] 64%|██████▍   | 238201/371472 [7:55:25<10:01:09,  3.69it/s] 64%|██████▍   | 238202/371472 [7:55:25<10:33:54,  3.50it/s] 64%|██████▍   | 238203/371472 [7:55:25<10:46:33,  3.44it/s] 64%|██████▍   | 238204/371472 [7:55:25<10:37:22,  3.48it/s] 64%|██████▍   | 238205/371472 [7:55:26<10:39:58,  3.47it/s] 64%|██████▍   | 238206/371472 [7:55:26<10:33:58,  3.50it/s] 64%|██████▍   | 238207/371472 [7:55:26<10:40:54,  3.47it/s] 64%|██████▍   | 238208/371472 [7:55:27<10:24:11,  3.56it/s] 64%|██████▍   | 238209/371472 [7:55:27<10:29:14,  3.53it/s] 64%|██████▍   | 238210/371472 [7:55:27<10:50:42,  3.41it/s] 64%|██████▍   | 238211/371472 [7:55:27<10:36:37,  3.49it/s] 64%|██████▍   | 238212/371472 [7:55:28<10:12:57,  3.62it/s] 64%|██████▍   | 238213/371472 [7:55:28<9:50:53,  3.76it/s]  64%|██████▍   | 238214/371472 [7:55:28<9:43:23,  3.81it/s] 64%|██████▍   | 238215/371472 [7:55:29<10:06:24,  3.66it/s] 64%|██████▍   | 238216/371472 [7:55:29<9:52:22,  3.75it/s]  64%|██████▍   | 238217/371472 [7:55:29<10:07:06,  3.66it/s] 64%|██████▍   | 238218/371472 [7:55:29<11:01:37,  3.36it/s] 64%|██████▍   | 238219/371472 [7:55:30<10:31:33,  3.52it/s] 64%|██████▍   | 238220/371472 [7:55:30<10:29:24,  3.53it/s]                                                            {'loss': 2.7815, 'learning_rate': 4.2301600982568037e-07, 'epoch': 10.26}
 64%|██████▍   | 238220/371472 [7:55:30<10:29:24,  3.53it/s] 64%|██████▍   | 238221/371472 [7:55:30<10:17:52,  3.59it/s] 64%|██████▍   | 238222/371472 [7:55:30<10:08:40,  3.65it/s] 64%|██████▍   | 238223/371472 [7:55:31<10:05:13,  3.67it/s] 64%|██████▍   | 238224/371472 [7:55:31<10:17:53,  3.59it/s] 64%|██████▍   | 238225/371472 [7:55:31<10:36:34,  3.49it/s] 64%|██████▍   | 238226/371472 [7:55:32<11:27:21,  3.23it/s] 64%|██████▍   | 238227/371472 [7:55:32<10:49:51,  3.42it/s] 64%|██████▍   | 238228/371472 [7:55:32<10:59:47,  3.37it/s] 64%|██████▍   | 238229/371472 [7:55:33<11:38:31,  3.18it/s] 64%|██████▍   | 238230/371472 [7:55:33<11:43:19,  3.16it/s] 64%|██████▍   | 238231/371472 [7:55:33<11:20:54,  3.26it/s] 64%|██████▍   | 238232/371472 [7:55:33<11:03:46,  3.35it/s] 64%|██████▍   | 238233/371472 [7:55:34<11:01:42,  3.36it/s] 64%|██████▍   | 238234/371472 [7:55:34<10:37:22,  3.48it/s] 64%|██████▍   | 238235/371472 [7:55:34<10:49:52,  3.42it/s] 64%|██████▍   | 238236/371472 [7:55:35<10:16:58,  3.60it/s] 64%|██████▍   | 238237/371472 [7:55:35<10:23:22,  3.56it/s] 64%|██████▍   | 238238/371472 [7:55:35<10:36:01,  3.49it/s] 64%|██████▍   | 238239/371472 [7:55:36<11:22:37,  3.25it/s] 64%|██████▍   | 238240/371472 [7:55:36<11:01:16,  3.36it/s]                                                            {'loss': 2.7953, 'learning_rate': 4.2296752785020144e-07, 'epoch': 10.26}
 64%|██████▍   | 238240/371472 [7:55:36<11:01:16,  3.36it/s] 64%|██████▍   | 238241/371472 [7:55:36<11:18:42,  3.27it/s] 64%|██████▍   | 238242/371472 [7:55:36<10:53:39,  3.40it/s] 64%|██████▍   | 238243/371472 [7:55:37<10:40:04,  3.47it/s] 64%|██████▍   | 238244/371472 [7:55:37<10:29:26,  3.53it/s] 64%|██████▍   | 238245/371472 [7:55:37<10:27:00,  3.54it/s] 64%|██████▍   | 238246/371472 [7:55:38<10:26:04,  3.55it/s] 64%|██████▍   | 238247/371472 [7:55:38<10:32:27,  3.51it/s] 64%|██████▍   | 238248/371472 [7:55:38<10:19:59,  3.58it/s] 64%|██████▍   | 238249/371472 [7:55:38<10:05:17,  3.67it/s] 64%|██████▍   | 238250/371472 [7:55:39<10:02:55,  3.68it/s] 64%|██████▍   | 238251/371472 [7:55:39<10:05:44,  3.67it/s] 64%|██████▍   | 238252/371472 [7:55:39<10:08:19,  3.65it/s] 64%|██████▍   | 238253/371472 [7:55:39<10:13:15,  3.62it/s] 64%|██████▍   | 238254/371472 [7:55:40<10:06:25,  3.66it/s] 64%|██████▍   | 238255/371472 [7:55:40<9:49:51,  3.76it/s]  64%|██████▍   | 238256/371472 [7:55:40<10:01:40,  3.69it/s] 64%|██████▍   | 238257/371472 [7:55:41<10:11:01,  3.63it/s] 64%|██████▍   | 238258/371472 [7:55:41<9:53:30,  3.74it/s]  64%|██████▍   | 238259/371472 [7:55:41<10:21:48,  3.57it/s] 64%|██████▍   | 238260/371472 [7:55:41<10:17:01,  3.60it/s]                                                            {'loss': 2.789, 'learning_rate': 4.229190458747226e-07, 'epoch': 10.26}
 64%|██████▍   | 238260/371472 [7:55:41<10:17:01,  3.60it/s] 64%|██████▍   | 238261/371472 [7:55:42<10:00:48,  3.70it/s] 64%|██████▍   | 238262/371472 [7:55:42<9:52:50,  3.75it/s]  64%|██████▍   | 238263/371472 [7:55:42<9:58:21,  3.71it/s] 64%|██████▍   | 238264/371472 [7:55:42<9:52:29,  3.75it/s] 64%|██████▍   | 238265/371472 [7:55:43<10:00:24,  3.70it/s] 64%|██████▍   | 238266/371472 [7:55:43<10:42:31,  3.46it/s] 64%|██████▍   | 238267/371472 [7:55:43<11:25:11,  3.24it/s] 64%|██████▍   | 238268/371472 [7:55:44<11:32:03,  3.21it/s] 64%|██████▍   | 238269/371472 [7:55:44<11:22:02,  3.25it/s] 64%|██████▍   | 238270/371472 [7:55:44<10:59:46,  3.36it/s] 64%|██████▍   | 238271/371472 [7:55:45<11:27:20,  3.23it/s] 64%|██████▍   | 238272/371472 [7:55:45<10:45:13,  3.44it/s] 64%|██████▍   | 238273/371472 [7:55:45<10:13:15,  3.62it/s] 64%|██████▍   | 238274/371472 [7:55:45<10:24:12,  3.56it/s] 64%|██████▍   | 238275/371472 [7:55:46<10:16:35,  3.60it/s] 64%|██████▍   | 238276/371472 [7:55:46<10:03:42,  3.68it/s] 64%|██████▍   | 238277/371472 [7:55:46<9:57:15,  3.72it/s]  64%|██████▍   | 238278/371472 [7:55:46<10:30:44,  3.52it/s] 64%|██████▍   | 238279/371472 [7:55:47<10:21:44,  3.57it/s] 64%|██████▍   | 238280/371472 [7:55:47<10:42:56,  3.45it/s]                                                            {'loss': 2.9304, 'learning_rate': 4.2287056389924364e-07, 'epoch': 10.26}
 64%|██████▍   | 238280/371472 [7:55:47<10:42:56,  3.45it/s] 64%|██████▍   | 238281/371472 [7:55:47<11:08:01,  3.32it/s] 64%|██████▍   | 238282/371472 [7:55:48<10:42:43,  3.45it/s] 64%|██████▍   | 238283/371472 [7:55:48<11:17:14,  3.28it/s] 64%|██████▍   | 238284/371472 [7:55:48<10:56:39,  3.38it/s] 64%|██████▍   | 238285/371472 [7:55:49<10:58:55,  3.37it/s] 64%|██████▍   | 238286/371472 [7:55:49<10:33:59,  3.50it/s] 64%|██████▍   | 238287/371472 [7:55:49<11:08:57,  3.32it/s] 64%|██████▍   | 238288/371472 [7:55:49<10:33:25,  3.50it/s] 64%|██████▍   | 238289/371472 [7:55:50<11:25:12,  3.24it/s] 64%|██████▍   | 238290/371472 [7:55:50<12:15:20,  3.02it/s] 64%|██████▍   | 238291/371472 [7:55:50<11:34:49,  3.19it/s] 64%|██████▍   | 238292/371472 [7:55:51<11:04:38,  3.34it/s] 64%|██████▍   | 238293/371472 [7:55:51<11:24:16,  3.24it/s] 64%|██████▍   | 238294/371472 [7:55:51<10:58:37,  3.37it/s] 64%|██████▍   | 238295/371472 [7:55:52<10:35:39,  3.49it/s] 64%|██████▍   | 238296/371472 [7:55:52<10:28:57,  3.53it/s] 64%|██████▍   | 238297/371472 [7:55:52<10:16:11,  3.60it/s] 64%|██████▍   | 238298/371472 [7:55:52<10:09:43,  3.64it/s] 64%|██████▍   | 238299/371472 [7:55:53<10:24:00,  3.56it/s] 64%|██████▍   | 238300/371472 [7:55:53<10:13:48,  3.62it/s]                                                            {'loss': 2.738, 'learning_rate': 4.228220819237648e-07, 'epoch': 10.26}
 64%|██████▍   | 238300/371472 [7:55:53<10:13:48,  3.62it/s] 64%|██████▍   | 238301/371472 [7:55:53<10:29:43,  3.52it/s] 64%|██████▍   | 238302/371472 [7:55:54<10:15:49,  3.60it/s] 64%|██████▍   | 238303/371472 [7:55:54<10:05:46,  3.66it/s] 64%|██████▍   | 238304/371472 [7:55:54<10:00:32,  3.70it/s] 64%|██████▍   | 238305/371472 [7:55:54<9:50:49,  3.76it/s]  64%|██████▍   | 238306/371472 [7:55:55<9:46:32,  3.78it/s] 64%|██████▍   | 238307/371472 [7:55:55<9:46:32,  3.78it/s] 64%|██████▍   | 238308/371472 [7:55:55<9:45:24,  3.79it/s] 64%|██████▍   | 238309/371472 [7:55:55<9:49:40,  3.76it/s] 64%|██████▍   | 238310/371472 [7:55:56<10:26:56,  3.54it/s] 64%|██████▍   | 238311/371472 [7:55:56<10:31:33,  3.51it/s] 64%|██████▍   | 238312/371472 [7:55:56<10:31:15,  3.52it/s] 64%|██████▍   | 238313/371472 [7:55:57<10:18:26,  3.59it/s] 64%|██████▍   | 238314/371472 [7:55:57<10:06:39,  3.66it/s] 64%|██████▍   | 238315/371472 [7:55:57<10:32:08,  3.51it/s] 64%|██████▍   | 238316/371472 [7:55:57<10:24:02,  3.56it/s] 64%|██████▍   | 238317/371472 [7:55:58<10:47:40,  3.43it/s] 64%|██████▍   | 238318/371472 [7:55:58<10:22:53,  3.56it/s] 64%|██████▍   | 238319/371472 [7:55:58<10:18:33,  3.59it/s] 64%|██████▍   | 238320/371472 [7:55:59<11:19:43,  3.26it/s]                                                            {'loss': 2.8329, 'learning_rate': 4.227735999482859e-07, 'epoch': 10.26}
 64%|██████▍   | 238320/371472 [7:55:59<11:19:43,  3.26it/s] 64%|██████▍   | 238321/371472 [7:55:59<11:05:06,  3.34it/s] 64%|██████▍   | 238322/371472 [7:55:59<10:38:53,  3.47it/s] 64%|██████▍   | 238323/371472 [7:55:59<10:23:56,  3.56it/s] 64%|██████▍   | 238324/371472 [7:56:00<12:00:43,  3.08it/s] 64%|██████▍   | 238325/371472 [7:56:00<11:11:47,  3.30it/s] 64%|██████▍   | 238326/371472 [7:56:00<10:51:24,  3.41it/s] 64%|██████▍   | 238327/371472 [7:56:01<10:38:31,  3.48it/s] 64%|██████▍   | 238328/371472 [7:56:01<10:21:28,  3.57it/s] 64%|██████▍   | 238329/371472 [7:56:01<10:11:05,  3.63it/s] 64%|██████▍   | 238330/371472 [7:56:01<10:13:42,  3.62it/s] 64%|██████▍   | 238331/371472 [7:56:02<10:33:50,  3.50it/s] 64%|██████▍   | 238332/371472 [7:56:02<10:56:31,  3.38it/s] 64%|██████▍   | 238333/371472 [7:56:02<10:31:32,  3.51it/s] 64%|██████▍   | 238334/371472 [7:56:03<10:22:22,  3.57it/s] 64%|██████▍   | 238335/371472 [7:56:03<10:09:04,  3.64it/s] 64%|██████▍   | 238336/371472 [7:56:03<10:07:15,  3.65it/s] 64%|██████▍   | 238337/371472 [7:56:03<10:28:53,  3.53it/s] 64%|██████▍   | 238338/371472 [7:56:04<10:27:32,  3.54it/s] 64%|██████▍   | 238339/371472 [7:56:04<10:31:17,  3.51it/s] 64%|██████▍   | 238340/371472 [7:56:04<10:19:16,  3.58it/s]                                                            {'loss': 2.9862, 'learning_rate': 4.227251179728069e-07, 'epoch': 10.27}
 64%|██████▍   | 238340/371472 [7:56:04<10:19:16,  3.58it/s] 64%|██████▍   | 238341/371472 [7:56:05<10:11:40,  3.63it/s] 64%|██████▍   | 238342/371472 [7:56:05<10:38:41,  3.47it/s] 64%|██████▍   | 238343/371472 [7:56:05<10:38:56,  3.47it/s] 64%|██████▍   | 238344/371472 [7:56:05<10:21:03,  3.57it/s] 64%|██████▍   | 238345/371472 [7:56:06<10:43:01,  3.45it/s] 64%|██████▍   | 238346/371472 [7:56:06<10:42:06,  3.46it/s] 64%|██████▍   | 238347/371472 [7:56:06<10:36:46,  3.48it/s] 64%|██████▍   | 238348/371472 [7:56:07<11:08:50,  3.32it/s] 64%|██████▍   | 238349/371472 [7:56:07<10:54:28,  3.39it/s] 64%|██████▍   | 238350/371472 [7:56:07<10:29:26,  3.52it/s] 64%|██████▍   | 238351/371472 [7:56:07<10:28:44,  3.53it/s] 64%|██████▍   | 238352/371472 [7:56:08<13:11:00,  2.80it/s] 64%|██████▍   | 238353/371472 [7:56:08<12:20:41,  3.00it/s] 64%|██████▍   | 238354/371472 [7:56:09<12:47:25,  2.89it/s] 64%|██████▍   | 238355/371472 [7:56:09<12:17:29,  3.01it/s] 64%|██████▍   | 238356/371472 [7:56:09<11:44:22,  3.15it/s] 64%|██████▍   | 238357/371472 [7:56:09<11:18:11,  3.27it/s] 64%|██████▍   | 238358/371472 [7:56:10<11:02:09,  3.35it/s] 64%|██████▍   | 238359/371472 [7:56:10<10:22:29,  3.56it/s] 64%|██████▍   | 238360/371472 [7:56:10<11:04:29,  3.34it/s]                                                            {'loss': 2.9572, 'learning_rate': 4.2267663599732803e-07, 'epoch': 10.27}
 64%|██████▍   | 238360/371472 [7:56:10<11:04:29,  3.34it/s] 64%|██████▍   | 238361/371472 [7:56:11<10:46:33,  3.43it/s] 64%|██████▍   | 238362/371472 [7:56:11<10:26:02,  3.54it/s] 64%|██████▍   | 238363/371472 [7:56:11<10:01:09,  3.69it/s] 64%|██████▍   | 238364/371472 [7:56:11<9:44:15,  3.80it/s]  64%|██████▍   | 238365/371472 [7:56:12<9:52:50,  3.74it/s] 64%|██████▍   | 238366/371472 [7:56:12<9:49:21,  3.76it/s] 64%|██████▍   | 238367/371472 [7:56:12<9:48:54,  3.77it/s] 64%|██████▍   | 238368/371472 [7:56:12<9:31:33,  3.88it/s] 64%|██████▍   | 238369/371472 [7:56:13<9:28:25,  3.90it/s] 64%|██████▍   | 238370/371472 [7:56:13<9:23:18,  3.94it/s] 64%|██████▍   | 238371/371472 [7:56:13<9:30:11,  3.89it/s] 64%|██████▍   | 238372/371472 [7:56:13<9:39:49,  3.83it/s] 64%|██████▍   | 238373/371472 [7:56:14<9:46:33,  3.78it/s] 64%|██████▍   | 238374/371472 [7:56:14<9:41:01,  3.82it/s] 64%|██████▍   | 238375/371472 [7:56:14<10:11:48,  3.63it/s] 64%|██████▍   | 238376/371472 [7:56:15<10:17:13,  3.59it/s] 64%|██████▍   | 238377/371472 [7:56:15<10:26:08,  3.54it/s] 64%|██████▍   | 238378/371472 [7:56:15<10:26:55,  3.54it/s] 64%|██████▍   | 238379/371472 [7:56:15<10:20:12,  3.58it/s] 64%|██████▍   | 238380/371472 [7:56:16<10:25:07,  3.55it/s]                                                            {'loss': 2.8613, 'learning_rate': 4.2262815402184916e-07, 'epoch': 10.27}
 64%|██████▍   | 238380/371472 [7:56:16<10:25:07,  3.55it/s] 64%|██████▍   | 238381/371472 [7:56:16<11:23:21,  3.25it/s] 64%|██████▍   | 238382/371472 [7:56:16<11:17:28,  3.27it/s] 64%|██████▍   | 238383/371472 [7:56:17<10:43:47,  3.45it/s] 64%|██████▍   | 238384/371472 [7:56:17<10:41:04,  3.46it/s] 64%|██████▍   | 238385/371472 [7:56:17<10:29:34,  3.52it/s] 64%|██████▍   | 238386/371472 [7:56:17<10:03:53,  3.67it/s] 64%|██████▍   | 238387/371472 [7:56:18<9:54:24,  3.73it/s]  64%|██████▍   | 238388/371472 [7:56:18<9:53:13,  3.74it/s] 64%|██████▍   | 238389/371472 [7:56:18<10:37:15,  3.48it/s] 64%|██████▍   | 238390/371472 [7:56:19<10:30:32,  3.52it/s] 64%|██████▍   | 238391/371472 [7:56:19<11:24:49,  3.24it/s] 64%|██████▍   | 238392/371472 [7:56:19<11:26:13,  3.23it/s] 64%|██████▍   | 238393/371472 [7:56:20<11:27:55,  3.22it/s] 64%|██████▍   | 238394/371472 [7:56:20<11:53:40,  3.11it/s] 64%|██████▍   | 238395/371472 [7:56:20<11:30:43,  3.21it/s] 64%|██████▍   | 238396/371472 [7:56:20<11:25:54,  3.23it/s] 64%|██████▍   | 238397/371472 [7:56:21<11:09:59,  3.31it/s] 64%|██████▍   | 238398/371472 [7:56:21<11:04:33,  3.34it/s] 64%|██████▍   | 238399/371472 [7:56:21<10:37:00,  3.48it/s] 64%|██████▍   | 238400/371472 [7:56:22<11:01:28,  3.35it/s]                                                            {'loss': 2.8694, 'learning_rate': 4.225796720463703e-07, 'epoch': 10.27}
 64%|██████▍   | 238400/371472 [7:56:22<11:01:28,  3.35it/s] 64%|██████▍   | 238401/371472 [7:56:22<11:37:24,  3.18it/s] 64%|██████▍   | 238402/371472 [7:56:22<11:14:34,  3.29it/s] 64%|██████▍   | 238403/371472 [7:56:23<10:49:22,  3.42it/s] 64%|██████▍   | 238404/371472 [7:56:23<10:51:04,  3.41it/s] 64%|██████▍   | 238405/371472 [7:56:23<10:24:04,  3.55it/s] 64%|██████▍   | 238406/371472 [7:56:23<10:04:59,  3.67it/s] 64%|██████▍   | 238407/371472 [7:56:24<9:58:19,  3.71it/s]  64%|██████▍   | 238408/371472 [7:56:24<10:12:35,  3.62it/s] 64%|██████▍   | 238409/371472 [7:56:24<10:00:35,  3.69it/s] 64%|██████▍   | 238410/371472 [7:56:24<9:58:39,  3.70it/s]  64%|██████▍   | 238411/371472 [7:56:25<9:59:50,  3.70it/s] 64%|██████▍   | 238412/371472 [7:56:25<10:03:57,  3.67it/s] 64%|██████▍   | 238413/371472 [7:56:25<9:45:13,  3.79it/s]  64%|██████▍   | 238414/371472 [7:56:26<10:42:30,  3.45it/s] 64%|██████▍   | 238415/371472 [7:56:26<10:29:47,  3.52it/s] 64%|██████▍   | 238416/371472 [7:56:26<10:04:58,  3.67it/s] 64%|██████▍   | 238417/371472 [7:56:26<10:37:32,  3.48it/s] 64%|██████▍   | 238418/371472 [7:56:27<10:17:03,  3.59it/s] 64%|██████▍   | 238419/371472 [7:56:27<10:15:54,  3.60it/s] 64%|██████▍   | 238420/371472 [7:56:27<10:15:59,  3.60it/s]                                                            {'loss': 2.9938, 'learning_rate': 4.2253119007089135e-07, 'epoch': 10.27}
 64%|██████▍   | 238420/371472 [7:56:27<10:15:59,  3.60it/s] 64%|██████▍   | 238421/371472 [7:56:27<10:10:12,  3.63it/s] 64%|██████▍   | 238422/371472 [7:56:28<10:42:39,  3.45it/s] 64%|██████▍   | 238423/371472 [7:56:28<10:14:01,  3.61it/s] 64%|██████▍   | 238424/371472 [7:56:28<11:08:13,  3.32it/s] 64%|██████▍   | 238425/371472 [7:56:29<10:52:20,  3.40it/s] 64%|██████▍   | 238426/371472 [7:56:29<10:26:03,  3.54it/s] 64%|██████▍   | 238427/371472 [7:56:29<10:54:01,  3.39it/s] 64%|██████▍   | 238428/371472 [7:56:30<10:42:46,  3.45it/s] 64%|██████▍   | 238429/371472 [7:56:30<11:19:19,  3.26it/s] 64%|██████▍   | 238430/371472 [7:56:30<11:14:54,  3.29it/s] 64%|██████▍   | 238431/371472 [7:56:30<10:43:08,  3.45it/s] 64%|██████▍   | 238432/371472 [7:56:31<11:04:26,  3.34it/s] 64%|██████▍   | 238433/371472 [7:56:31<10:34:51,  3.49it/s] 64%|██████▍   | 238434/371472 [7:56:31<11:32:31,  3.20it/s] 64%|██████▍   | 238435/371472 [7:56:32<10:52:33,  3.40it/s] 64%|██████▍   | 238436/371472 [7:56:32<11:06:41,  3.33it/s] 64%|██████▍   | 238437/371472 [7:56:32<10:48:53,  3.42it/s] 64%|██████▍   | 238438/371472 [7:56:32<10:34:34,  3.49it/s] 64%|██████▍   | 238439/371472 [7:56:33<10:33:44,  3.50it/s] 64%|██████▍   | 238440/371472 [7:56:33<10:39:51,  3.47it/s]                                                            {'loss': 2.886, 'learning_rate': 4.2248270809541253e-07, 'epoch': 10.27}
 64%|██████▍   | 238440/371472 [7:56:33<10:39:51,  3.47it/s] 64%|██████▍   | 238441/371472 [7:56:33<10:21:06,  3.57it/s] 64%|██████▍   | 238442/371472 [7:56:34<10:12:43,  3.62it/s] 64%|██████▍   | 238443/371472 [7:56:34<10:11:18,  3.63it/s] 64%|██████▍   | 238444/371472 [7:56:34<10:34:45,  3.49it/s] 64%|██████▍   | 238445/371472 [7:56:34<10:31:11,  3.51it/s] 64%|██████▍   | 238446/371472 [7:56:35<10:36:33,  3.48it/s] 64%|██████▍   | 238447/371472 [7:56:35<10:24:20,  3.55it/s] 64%|██████▍   | 238448/371472 [7:56:35<10:51:45,  3.40it/s] 64%|██████▍   | 238449/371472 [7:56:36<10:44:55,  3.44it/s] 64%|██████▍   | 238450/371472 [7:56:36<10:13:58,  3.61it/s] 64%|██████▍   | 238451/371472 [7:56:36<10:14:08,  3.61it/s] 64%|██████▍   | 238452/371472 [7:56:36<10:01:25,  3.69it/s] 64%|██████▍   | 238453/371472 [7:56:37<10:39:15,  3.47it/s] 64%|██████▍   | 238454/371472 [7:56:37<11:28:16,  3.22it/s] 64%|██████▍   | 238455/371472 [7:56:37<11:33:34,  3.20it/s] 64%|██████▍   | 238456/371472 [7:56:38<11:31:07,  3.21it/s] 64%|██████▍   | 238457/371472 [7:56:38<11:23:55,  3.24it/s] 64%|██████▍   | 238458/371472 [7:56:38<10:40:22,  3.46it/s] 64%|██████▍   | 238459/371472 [7:56:39<10:14:39,  3.61it/s] 64%|██████▍   | 238460/371472 [7:56:39<10:29:54,  3.52it/s]                                                            {'loss': 2.9385, 'learning_rate': 4.224342261199336e-07, 'epoch': 10.27}
 64%|██████▍   | 238460/371472 [7:56:39<10:29:54,  3.52it/s] 64%|██████▍   | 238461/371472 [7:56:39<10:07:22,  3.65it/s] 64%|██████▍   | 238462/371472 [7:56:39<10:16:57,  3.59it/s] 64%|██████▍   | 238463/371472 [7:56:40<10:05:33,  3.66it/s] 64%|██████▍   | 238464/371472 [7:56:40<10:12:56,  3.62it/s] 64%|██████▍   | 238465/371472 [7:56:40<10:38:31,  3.47it/s] 64%|██████▍   | 238466/371472 [7:56:41<10:46:41,  3.43it/s] 64%|██████▍   | 238467/371472 [7:56:41<10:52:23,  3.40it/s] 64%|██████▍   | 238468/371472 [7:56:41<11:08:56,  3.31it/s] 64%|██████▍   | 238469/371472 [7:56:41<11:19:20,  3.26it/s] 64%|██████▍   | 238470/371472 [7:56:42<11:10:14,  3.31it/s] 64%|██████▍   | 238471/371472 [7:56:42<10:47:23,  3.42it/s] 64%|██████▍   | 238472/371472 [7:56:42<10:31:00,  3.51it/s] 64%|██████▍   | 238473/371472 [7:56:43<10:26:50,  3.54it/s] 64%|██████▍   | 238474/371472 [7:56:43<10:05:30,  3.66it/s] 64%|██████▍   | 238475/371472 [7:56:43<10:14:33,  3.61it/s] 64%|██████▍   | 238476/371472 [7:56:43<10:02:27,  3.68it/s] 64%|██████▍   | 238477/371472 [7:56:44<10:13:32,  3.61it/s] 64%|██████▍   | 238478/371472 [7:56:44<10:04:59,  3.66it/s] 64%|██████▍   | 238479/371472 [7:56:44<10:45:21,  3.43it/s] 64%|██████▍   | 238480/371472 [7:56:45<10:34:42,  3.49it/s]                                                            {'loss': 2.9256, 'learning_rate': 4.223857441444547e-07, 'epoch': 10.27}
 64%|██████▍   | 238480/371472 [7:56:45<10:34:42,  3.49it/s] 64%|██████▍   | 238481/371472 [7:56:45<10:21:20,  3.57it/s] 64%|██████▍   | 238482/371472 [7:56:45<10:13:40,  3.61it/s] 64%|██████▍   | 238483/371472 [7:56:45<10:05:00,  3.66it/s] 64%|██████▍   | 238484/371472 [7:56:46<10:18:30,  3.58it/s] 64%|██████▍   | 238485/371472 [7:56:46<10:52:10,  3.40it/s] 64%|██████▍   | 238486/371472 [7:56:46<10:49:52,  3.41it/s] 64%|██████▍   | 238487/371472 [7:56:47<10:59:33,  3.36it/s] 64%|██████▍   | 238488/371472 [7:56:47<11:45:11,  3.14it/s] 64%|██████▍   | 238489/371472 [7:56:47<11:18:36,  3.27it/s] 64%|██████▍   | 238490/371472 [7:56:47<11:00:42,  3.35it/s] 64%|██████▍   | 238491/371472 [7:56:48<10:21:11,  3.57it/s] 64%|██████▍   | 238492/371472 [7:56:48<9:56:32,  3.72it/s]  64%|██████▍   | 238493/371472 [7:56:48<9:45:49,  3.78it/s] 64%|██████▍   | 238494/371472 [7:56:48<10:01:05,  3.69it/s] 64%|██████▍   | 238495/371472 [7:56:49<10:03:31,  3.67it/s] 64%|██████▍   | 238496/371472 [7:56:49<10:10:52,  3.63it/s] 64%|██████▍   | 238497/371472 [7:56:49<9:59:03,  3.70it/s]  64%|██████▍   | 238498/371472 [7:56:50<10:40:04,  3.46it/s] 64%|██████▍   | 238499/371472 [7:56:50<10:43:02,  3.45it/s] 64%|██████▍   | 238500/371472 [7:56:50<10:23:42,  3.55it/s]                                                            {'loss': 2.7134, 'learning_rate': 4.223372621689758e-07, 'epoch': 10.27}
 64%|██████▍   | 238500/371472 [7:56:50<10:23:42,  3.55it/s] 64%|██████▍   | 238501/371472 [7:56:50<10:19:06,  3.58it/s] 64%|██████▍   | 238502/371472 [7:56:51<10:03:27,  3.67it/s] 64%|██████▍   | 238503/371472 [7:56:51<9:52:17,  3.74it/s]  64%|██████▍   | 238504/371472 [7:56:51<10:02:02,  3.68it/s] 64%|██████▍   | 238505/371472 [7:56:52<10:02:31,  3.68it/s] 64%|██████▍   | 238506/371472 [7:56:52<9:50:03,  3.76it/s]  64%|██████▍   | 238507/371472 [7:56:52<9:51:52,  3.74it/s] 64%|██████▍   | 238508/371472 [7:56:52<9:51:42,  3.75it/s] 64%|██████▍   | 238509/371472 [7:56:53<9:58:18,  3.70it/s] 64%|██████▍   | 238510/371472 [7:56:53<10:08:07,  3.64it/s] 64%|██████▍   | 238511/371472 [7:56:53<10:29:19,  3.52it/s] 64%|██████▍   | 238512/371472 [7:56:53<10:42:16,  3.45it/s] 64%|██████▍   | 238513/371472 [7:56:54<10:27:13,  3.53it/s] 64%|██████▍   | 238514/371472 [7:56:54<10:36:55,  3.48it/s] 64%|██████▍   | 238515/371472 [7:56:54<10:17:04,  3.59it/s] 64%|██████▍   | 238516/371472 [7:56:55<10:31:26,  3.51it/s] 64%|██████▍   | 238517/371472 [7:56:55<10:02:45,  3.68it/s] 64%|██████▍   | 238518/371472 [7:56:55<9:52:53,  3.74it/s]  64%|██████▍   | 238519/371472 [7:56:55<9:42:30,  3.80it/s] 64%|██████▍   | 238520/371472 [7:56:56<10:05:03,  3.66it/s]                                                            {'loss': 2.839, 'learning_rate': 4.22288780193497e-07, 'epoch': 10.27}
 64%|██████▍   | 238520/371472 [7:56:56<10:05:03,  3.66it/s] 64%|██████▍   | 238521/371472 [7:56:56<9:50:58,  3.75it/s]  64%|██████▍   | 238522/371472 [7:56:56<10:16:42,  3.59it/s] 64%|██████▍   | 238523/371472 [7:56:56<9:57:36,  3.71it/s]  64%|██████▍   | 238524/371472 [7:56:57<10:14:40,  3.60it/s] 64%|██████▍   | 238525/371472 [7:56:57<10:05:49,  3.66it/s] 64%|██████▍   | 238526/371472 [7:56:57<10:09:55,  3.63it/s] 64%|██████▍   | 238527/371472 [7:56:58<10:03:04,  3.67it/s] 64%|██████▍   | 238528/371472 [7:56:58<9:57:07,  3.71it/s]  64%|██████▍   | 238529/371472 [7:56:58<10:22:19,  3.56it/s] 64%|██████▍   | 238530/371472 [7:56:58<9:50:34,  3.75it/s]  64%|██████▍   | 238531/371472 [7:56:59<10:32:59,  3.50it/s] 64%|██████▍   | 238532/371472 [7:56:59<10:17:07,  3.59it/s] 64%|██████▍   | 238533/371472 [7:56:59<10:03:22,  3.67it/s] 64%|██████▍   | 238534/371472 [7:56:59<10:00:07,  3.69it/s] 64%|██████▍   | 238535/371472 [7:57:00<9:57:39,  3.71it/s]  64%|██████▍   | 238536/371472 [7:57:00<9:54:18,  3.73it/s] 64%|██████▍   | 238537/371472 [7:57:00<9:50:08,  3.75it/s] 64%|██████▍   | 238538/371472 [7:57:01<10:15:17,  3.60it/s] 64%|██████▍   | 238539/371472 [7:57:01<10:04:13,  3.67it/s] 64%|██████▍   | 238540/371472 [7:57:01<10:44:03,  3.44it/s]                                                            {'loss': 3.1027, 'learning_rate': 4.22240298218018e-07, 'epoch': 10.27}
 64%|██████▍   | 238540/371472 [7:57:01<10:44:03,  3.44it/s] 64%|██████▍   | 238541/371472 [7:57:01<10:18:04,  3.58it/s] 64%|██████▍   | 238542/371472 [7:57:02<10:05:08,  3.66it/s] 64%|██████▍   | 238543/371472 [7:57:02<10:01:51,  3.68it/s] 64%|██████▍   | 238544/371472 [7:57:02<10:06:23,  3.65it/s] 64%|██████▍   | 238545/371472 [7:57:03<10:07:02,  3.65it/s] 64%|██████▍   | 238546/371472 [7:57:03<9:57:56,  3.71it/s]  64%|██████▍   | 238547/371472 [7:57:03<9:43:46,  3.79it/s] 64%|██████▍   | 238548/371472 [7:57:03<9:52:28,  3.74it/s] 64%|██████▍   | 238549/371472 [7:57:04<9:47:23,  3.77it/s] 64%|██████▍   | 238550/371472 [7:57:04<9:31:28,  3.88it/s] 64%|██████▍   | 238551/371472 [7:57:04<9:46:15,  3.78it/s] 64%|██████▍   | 238552/371472 [7:57:04<9:48:23,  3.77it/s] 64%|██████▍   | 238553/371472 [7:57:05<10:20:04,  3.57it/s] 64%|██████▍   | 238554/371472 [7:57:05<10:35:52,  3.48it/s] 64%|██████▍   | 238555/371472 [7:57:05<10:17:13,  3.59it/s] 64%|██████▍   | 238556/371472 [7:57:06<10:36:30,  3.48it/s] 64%|██████▍   | 238557/371472 [7:57:06<10:30:40,  3.51it/s] 64%|██████▍   | 238558/371472 [7:57:06<11:22:05,  3.25it/s] 64%|██████▍   | 238559/371472 [7:57:06<10:59:06,  3.36it/s] 64%|██████▍   | 238560/371472 [7:57:07<10:52:55,  3.39it/s]                                                            {'loss': 2.8947, 'learning_rate': 4.2219181624253917e-07, 'epoch': 10.28}
 64%|██████▍   | 238560/371472 [7:57:07<10:52:55,  3.39it/s] 64%|██████▍   | 238561/371472 [7:57:07<10:23:36,  3.55it/s] 64%|██████▍   | 238562/371472 [7:57:07<10:07:21,  3.65it/s] 64%|██████▍   | 238563/371472 [7:57:08<10:01:19,  3.68it/s] 64%|██████▍   | 238564/371472 [7:57:08<9:47:29,  3.77it/s]  64%|██████▍   | 238565/371472 [7:57:08<9:54:54,  3.72it/s] 64%|██████▍   | 238566/371472 [7:57:08<9:45:27,  3.78it/s] 64%|██████▍   | 238567/371472 [7:57:09<10:39:20,  3.46it/s] 64%|██████▍   | 238568/371472 [7:57:09<10:45:58,  3.43it/s] 64%|██████▍   | 238569/371472 [7:57:09<10:35:53,  3.48it/s] 64%|██████▍   | 238570/371472 [7:57:09<10:26:42,  3.53it/s] 64%|██████▍   | 238571/371472 [7:57:10<10:38:31,  3.47it/s] 64%|██████▍   | 238572/371472 [7:57:10<10:22:02,  3.56it/s] 64%|██████▍   | 238573/371472 [7:57:10<10:15:51,  3.60it/s] 64%|██████▍   | 238574/371472 [7:57:11<9:56:26,  3.71it/s]  64%|██████▍   | 238575/371472 [7:57:11<10:13:37,  3.61it/s] 64%|██████▍   | 238576/371472 [7:57:11<10:47:10,  3.42it/s] 64%|██████▍   | 238577/371472 [7:57:11<10:50:36,  3.40it/s] 64%|██████▍   | 238578/371472 [7:57:12<10:38:22,  3.47it/s] 64%|██████▍   | 238579/371472 [7:57:12<10:24:15,  3.55it/s] 64%|██████▍   | 238580/371472 [7:57:12<10:47:21,  3.42it/s]                                                            {'loss': 2.9289, 'learning_rate': 4.2214333426706024e-07, 'epoch': 10.28}
 64%|██████▍   | 238580/371472 [7:57:12<10:47:21,  3.42it/s] 64%|██████▍   | 238581/371472 [7:57:13<10:28:26,  3.52it/s] 64%|██████▍   | 238582/371472 [7:57:13<10:09:31,  3.63it/s] 64%|██████▍   | 238583/371472 [7:57:13<10:09:01,  3.64it/s] 64%|██████▍   | 238584/371472 [7:57:13<10:21:27,  3.56it/s] 64%|██████▍   | 238585/371472 [7:57:14<10:17:09,  3.59it/s] 64%|██████▍   | 238586/371472 [7:57:14<10:10:57,  3.63it/s] 64%|██████▍   | 238587/371472 [7:57:14<10:06:09,  3.65it/s] 64%|██████▍   | 238588/371472 [7:57:15<10:28:38,  3.52it/s] 64%|██████▍   | 238589/371472 [7:57:15<10:02:39,  3.67it/s] 64%|██████▍   | 238590/371472 [7:57:15<9:48:56,  3.76it/s]  64%|██████▍   | 238591/371472 [7:57:15<10:26:16,  3.54it/s] 64%|██████▍   | 238592/371472 [7:57:16<10:09:43,  3.63it/s] 64%|██████▍   | 238593/371472 [7:57:16<10:54:15,  3.38it/s] 64%|██████▍   | 238594/371472 [7:57:16<11:14:18,  3.28it/s] 64%|██████▍   | 238595/371472 [7:57:17<11:09:15,  3.31it/s] 64%|██████▍   | 238596/371472 [7:57:17<10:53:28,  3.39it/s] 64%|██████▍   | 238597/371472 [7:57:17<10:55:05,  3.38it/s] 64%|██████▍   | 238598/371472 [7:57:18<11:12:56,  3.29it/s] 64%|██████▍   | 238599/371472 [7:57:18<11:29:35,  3.21it/s] 64%|██████▍   | 238600/371472 [7:57:18<11:41:45,  3.16it/s]                                                            {'loss': 2.797, 'learning_rate': 4.2209485229158137e-07, 'epoch': 10.28}
 64%|██████▍   | 238600/371472 [7:57:18<11:41:45,  3.16it/s] 64%|██████▍   | 238601/371472 [7:57:18<11:33:14,  3.19it/s] 64%|██████▍   | 238602/371472 [7:57:19<10:58:37,  3.36it/s] 64%|██████▍   | 238603/371472 [7:57:19<10:21:41,  3.56it/s] 64%|██████▍   | 238604/371472 [7:57:19<10:45:02,  3.43it/s] 64%|██████▍   | 238605/371472 [7:57:20<10:19:55,  3.57it/s] 64%|██████▍   | 238606/371472 [7:57:20<10:22:33,  3.56it/s] 64%|██████▍   | 238607/371472 [7:57:20<10:46:12,  3.43it/s] 64%|██████▍   | 238608/371472 [7:57:20<10:48:20,  3.42it/s] 64%|██████▍   | 238609/371472 [7:57:21<10:27:22,  3.53it/s] 64%|██████▍   | 238610/371472 [7:57:21<10:33:17,  3.50it/s] 64%|██████▍   | 238611/371472 [7:57:21<10:04:40,  3.66it/s] 64%|██████▍   | 238612/371472 [7:57:22<11:27:54,  3.22it/s] 64%|██████▍   | 238613/371472 [7:57:22<10:48:16,  3.42it/s] 64%|██████▍   | 238614/371472 [7:57:22<10:25:41,  3.54it/s] 64%|██████▍   | 238615/371472 [7:57:22<10:18:50,  3.58it/s] 64%|██████▍   | 238616/371472 [7:57:23<10:50:27,  3.40it/s] 64%|██████▍   | 238617/371472 [7:57:23<10:49:08,  3.41it/s] 64%|██████▍   | 238618/371472 [7:57:23<10:29:47,  3.52it/s] 64%|██████▍   | 238619/371472 [7:57:24<10:23:51,  3.55it/s] 64%|██████▍   | 238620/371472 [7:57:24<10:12:51,  3.61it/s]                                                            {'loss': 2.6879, 'learning_rate': 4.2204637031610244e-07, 'epoch': 10.28}
 64%|██████▍   | 238620/371472 [7:57:24<10:12:51,  3.61it/s] 64%|██████▍   | 238621/371472 [7:57:24<9:51:56,  3.74it/s]  64%|██████▍   | 238622/371472 [7:57:24<10:02:38,  3.67it/s] 64%|██████▍   | 238623/371472 [7:57:25<10:34:07,  3.49it/s] 64%|██████▍   | 238624/371472 [7:57:25<10:18:37,  3.58it/s] 64%|██████▍   | 238625/371472 [7:57:25<10:29:26,  3.52it/s] 64%|██████▍   | 238626/371472 [7:57:26<11:36:40,  3.18it/s] 64%|██████▍   | 238627/371472 [7:57:26<11:17:52,  3.27it/s] 64%|██████▍   | 238628/371472 [7:57:26<11:47:31,  3.13it/s] 64%|██████▍   | 238629/371472 [7:57:27<11:14:48,  3.28it/s] 64%|██████▍   | 238630/371472 [7:57:27<11:30:11,  3.21it/s] 64%|██████▍   | 238631/371472 [7:57:27<11:00:01,  3.35it/s] 64%|██████▍   | 238632/371472 [7:57:27<10:49:56,  3.41it/s] 64%|██████▍   | 238633/371472 [7:57:28<10:38:10,  3.47it/s] 64%|██████▍   | 238634/371472 [7:57:28<10:43:09,  3.44it/s] 64%|██████▍   | 238635/371472 [7:57:28<11:05:04,  3.33it/s] 64%|██████▍   | 238636/371472 [7:57:29<10:45:38,  3.43it/s] 64%|██████▍   | 238637/371472 [7:57:29<10:54:39,  3.38it/s] 64%|██████▍   | 238638/371472 [7:57:29<11:06:19,  3.32it/s] 64%|██████▍   | 238639/371472 [7:57:30<11:24:25,  3.23it/s] 64%|██████▍   | 238640/371472 [7:57:30<10:41:40,  3.45it/s]                                                            {'loss': 2.8615, 'learning_rate': 4.219978883406236e-07, 'epoch': 10.28}
 64%|██████▍   | 238640/371472 [7:57:30<10:41:40,  3.45it/s] 64%|██████▍   | 238641/371472 [7:57:30<10:40:59,  3.45it/s] 64%|██████▍   | 238642/371472 [7:57:30<10:46:36,  3.42it/s] 64%|██████▍   | 238643/371472 [7:57:31<10:17:14,  3.59it/s] 64%|██████▍   | 238644/371472 [7:57:31<10:10:24,  3.63it/s] 64%|██████▍   | 238645/371472 [7:57:31<11:19:17,  3.26it/s] 64%|██████▍   | 238646/371472 [7:57:32<10:48:21,  3.41it/s] 64%|██████▍   | 238647/371472 [7:57:32<10:25:47,  3.54it/s] 64%|██████▍   | 238648/371472 [7:57:32<10:39:31,  3.46it/s] 64%|██████▍   | 238649/371472 [7:57:32<10:23:20,  3.55it/s] 64%|██████▍   | 238650/371472 [7:57:33<10:03:45,  3.67it/s] 64%|██████▍   | 238651/371472 [7:57:33<10:18:54,  3.58it/s] 64%|██████▍   | 238652/371472 [7:57:33<9:47:30,  3.77it/s]  64%|██████▍   | 238653/371472 [7:57:33<9:47:07,  3.77it/s] 64%|██████▍   | 238654/371472 [7:57:34<10:37:07,  3.47it/s] 64%|██████▍   | 238655/371472 [7:57:34<10:14:40,  3.60it/s] 64%|██████▍   | 238656/371472 [7:57:34<10:09:42,  3.63it/s] 64%|██████▍   | 238657/371472 [7:57:35<9:59:07,  3.69it/s]  64%|██████▍   | 238658/371472 [7:57:35<11:07:41,  3.32it/s] 64%|██████▍   | 238659/371472 [7:57:35<11:22:35,  3.24it/s] 64%|██████▍   | 238660/371472 [7:57:35<11:08:27,  3.31it/s]                                                            {'loss': 2.8147, 'learning_rate': 4.2194940636514463e-07, 'epoch': 10.28}
 64%|██████▍   | 238660/371472 [7:57:35<11:08:27,  3.31it/s] 64%|██████▍   | 238661/371472 [7:57:36<10:44:55,  3.43it/s] 64%|██████▍   | 238662/371472 [7:57:36<10:40:34,  3.46it/s] 64%|██████▍   | 238663/371472 [7:57:36<10:38:59,  3.46it/s] 64%|██████▍   | 238664/371472 [7:57:37<10:28:21,  3.52it/s] 64%|██████▍   | 238665/371472 [7:57:37<10:35:16,  3.48it/s] 64%|██████▍   | 238666/371472 [7:57:37<10:14:40,  3.60it/s] 64%|██████▍   | 238667/371472 [7:57:37<10:44:49,  3.43it/s] 64%|██████▍   | 238668/371472 [7:57:38<10:36:46,  3.48it/s] 64%|██████▍   | 238669/371472 [7:57:38<10:21:26,  3.56it/s] 64%|██████▍   | 238670/371472 [7:57:38<10:16:17,  3.59it/s] 64%|██████▍   | 238671/371472 [7:57:39<11:29:47,  3.21it/s] 64%|██████▍   | 238672/371472 [7:57:39<11:03:15,  3.34it/s] 64%|██████▍   | 238673/371472 [7:57:39<11:08:24,  3.31it/s] 64%|██████▍   | 238674/371472 [7:57:40<11:10:57,  3.30it/s] 64%|██████▍   | 238675/371472 [7:57:40<11:10:21,  3.30it/s] 64%|██████▍   | 238676/371472 [7:57:40<11:54:37,  3.10it/s] 64%|██████▍   | 238677/371472 [7:57:41<11:42:53,  3.15it/s] 64%|██████▍   | 238678/371472 [7:57:41<11:41:58,  3.15it/s] 64%|██████▍   | 238679/371472 [7:57:41<10:55:38,  3.38it/s] 64%|██████▍   | 238680/371472 [7:57:41<10:54:21,  3.38it/s]                                                            {'loss': 2.8483, 'learning_rate': 4.219009243896658e-07, 'epoch': 10.28}
 64%|██████▍   | 238680/371472 [7:57:41<10:54:21,  3.38it/s] 64%|██████▍   | 238681/371472 [7:57:42<11:38:08,  3.17it/s] 64%|██████▍   | 238682/371472 [7:57:42<12:09:59,  3.03it/s] 64%|██████▍   | 238683/371472 [7:57:42<12:10:50,  3.03it/s] 64%|██████▍   | 238684/371472 [7:57:43<11:32:04,  3.20it/s] 64%|██████▍   | 238685/371472 [7:57:43<11:02:54,  3.34it/s] 64%|██████▍   | 238686/371472 [7:57:43<10:25:03,  3.54it/s] 64%|██████▍   | 238687/371472 [7:57:44<10:27:14,  3.53it/s] 64%|██████▍   | 238688/371472 [7:57:44<10:30:59,  3.51it/s] 64%|██████▍   | 238689/371472 [7:57:44<10:28:18,  3.52it/s] 64%|██████▍   | 238690/371472 [7:57:44<10:11:34,  3.62it/s] 64%|██████▍   | 238691/371472 [7:57:45<10:11:23,  3.62it/s] 64%|██████▍   | 238692/371472 [7:57:45<10:07:54,  3.64it/s] 64%|██████▍   | 238693/371472 [7:57:45<10:30:37,  3.51it/s] 64%|██████▍   | 238694/371472 [7:57:45<10:28:33,  3.52it/s] 64%|██████▍   | 238695/371472 [7:57:46<11:12:30,  3.29it/s] 64%|██████▍   | 238696/371472 [7:57:46<10:42:45,  3.44it/s] 64%|██████▍   | 238697/371472 [7:57:46<10:30:18,  3.51it/s] 64%|██████▍   | 238698/371472 [7:57:47<11:17:49,  3.26it/s] 64%|██████▍   | 238699/371472 [7:57:47<11:09:00,  3.31it/s] 64%|██████▍   | 238700/371472 [7:57:47<10:33:23,  3.49it/s]                                                            {'loss': 2.999, 'learning_rate': 4.218524424141869e-07, 'epoch': 10.28}
 64%|██████▍   | 238700/371472 [7:57:47<10:33:23,  3.49it/s] 64%|██████▍   | 238701/371472 [7:57:48<10:12:57,  3.61it/s] 64%|██████▍   | 238702/371472 [7:57:48<10:14:24,  3.60it/s] 64%|██████▍   | 238703/371472 [7:57:48<10:22:00,  3.56it/s] 64%|██████▍   | 238704/371472 [7:57:48<10:20:11,  3.57it/s] 64%|██████▍   | 238705/371472 [7:57:49<10:19:04,  3.57it/s] 64%|██████▍   | 238706/371472 [7:57:49<10:27:04,  3.53it/s] 64%|██████▍   | 238707/371472 [7:57:49<10:31:23,  3.50it/s] 64%|██████▍   | 238708/371472 [7:57:50<11:21:08,  3.25it/s] 64%|██████▍   | 238709/371472 [7:57:50<11:21:11,  3.25it/s] 64%|██████▍   | 238710/371472 [7:57:50<10:59:18,  3.36it/s] 64%|██████▍   | 238711/371472 [7:57:50<10:53:01,  3.39it/s] 64%|██████▍   | 238712/371472 [7:57:51<10:42:04,  3.45it/s] 64%|██████▍   | 238713/371472 [7:57:51<10:21:38,  3.56it/s] 64%|██████▍   | 238714/371472 [7:57:51<10:40:25,  3.45it/s] 64%|██████▍   | 238715/371472 [7:57:52<10:58:04,  3.36it/s] 64%|██████▍   | 238716/371472 [7:57:52<10:46:05,  3.42it/s] 64%|██████▍   | 238717/371472 [7:57:52<10:40:57,  3.45it/s] 64%|██████▍   | 238718/371472 [7:57:53<10:57:31,  3.36it/s] 64%|██████▍   | 238719/371472 [7:57:53<10:33:02,  3.50it/s] 64%|██████▍   | 238720/371472 [7:57:53<10:44:28,  3.43it/s]                                                            {'loss': 2.983, 'learning_rate': 4.21803960438708e-07, 'epoch': 10.28}
 64%|██████▍   | 238720/371472 [7:57:53<10:44:28,  3.43it/s] 64%|██████▍   | 238721/371472 [7:57:53<11:10:23,  3.30it/s] 64%|██████▍   | 238722/371472 [7:57:54<10:30:00,  3.51it/s] 64%|██████▍   | 238723/371472 [7:57:54<10:56:38,  3.37it/s] 64%|██████▍   | 238724/371472 [7:57:54<10:52:27,  3.39it/s] 64%|██████▍   | 238725/371472 [7:57:55<10:31:34,  3.50it/s] 64%|██████▍   | 238726/371472 [7:57:55<10:53:12,  3.39it/s] 64%|██████▍   | 238727/371472 [7:57:55<10:33:27,  3.49it/s] 64%|██████▍   | 238728/371472 [7:57:55<10:26:35,  3.53it/s] 64%|██████▍   | 238729/371472 [7:57:56<10:17:34,  3.58it/s] 64%|██████▍   | 238730/371472 [7:57:56<10:48:03,  3.41it/s] 64%|██████▍   | 238731/371472 [7:57:56<10:39:38,  3.46it/s] 64%|██████▍   | 238732/371472 [7:57:57<10:24:58,  3.54it/s] 64%|██████▍   | 238733/371472 [7:57:57<10:56:47,  3.37it/s] 64%|██████▍   | 238734/371472 [7:57:57<11:47:26,  3.13it/s] 64%|██████▍   | 238735/371472 [7:57:58<11:44:19,  3.14it/s] 64%|██████▍   | 238736/371472 [7:57:58<12:00:51,  3.07it/s] 64%|██████▍   | 238737/371472 [7:57:58<11:34:40,  3.18it/s] 64%|██████▍   | 238738/371472 [7:57:58<11:06:39,  3.32it/s] 64%|██████▍   | 238739/371472 [7:57:59<10:38:35,  3.46it/s] 64%|██████▍   | 238740/371472 [7:57:59<10:39:15,  3.46it/s]                                                            {'loss': 2.9435, 'learning_rate': 4.217554784632291e-07, 'epoch': 10.28}
 64%|██████▍   | 238740/371472 [7:57:59<10:39:15,  3.46it/s] 64%|██████▍   | 238741/371472 [7:57:59<10:29:26,  3.51it/s] 64%|██████▍   | 238742/371472 [7:58:00<10:17:59,  3.58it/s] 64%|██████▍   | 238743/371472 [7:58:00<10:32:26,  3.50it/s] 64%|██████▍   | 238744/371472 [7:58:00<10:28:42,  3.52it/s] 64%|██████▍   | 238745/371472 [7:58:00<10:51:45,  3.39it/s] 64%|██████▍   | 238746/371472 [7:58:01<11:12:51,  3.29it/s] 64%|██████▍   | 238747/371472 [7:58:01<10:51:46,  3.39it/s] 64%|██████▍   | 238748/371472 [7:58:01<11:07:19,  3.31it/s] 64%|██████▍   | 238749/371472 [7:58:02<10:55:36,  3.37it/s] 64%|██████▍   | 238750/371472 [7:58:02<10:55:44,  3.37it/s] 64%|██████▍   | 238751/371472 [7:58:02<10:26:41,  3.53it/s] 64%|██████▍   | 238752/371472 [7:58:02<10:45:47,  3.43it/s] 64%|██████▍   | 238753/371472 [7:58:03<10:25:33,  3.54it/s] 64%|██████▍   | 238754/371472 [7:58:03<10:17:40,  3.58it/s] 64%|██████▍   | 238755/371472 [7:58:03<10:58:40,  3.36it/s] 64%|██████▍   | 238756/371472 [7:58:04<10:50:35,  3.40it/s] 64%|██████▍   | 238757/371472 [7:58:04<10:52:23,  3.39it/s] 64%|██████▍   | 238758/371472 [7:58:04<10:58:06,  3.36it/s] 64%|██████▍   | 238759/371472 [7:58:05<10:42:54,  3.44it/s] 64%|██████▍   | 238760/371472 [7:58:05<10:19:50,  3.57it/s]                                                            {'loss': 2.9025, 'learning_rate': 4.2170699648775026e-07, 'epoch': 10.28}
 64%|██████▍   | 238760/371472 [7:58:05<10:19:50,  3.57it/s] 64%|██████▍   | 238761/371472 [7:58:05<11:09:46,  3.30it/s] 64%|██████▍   | 238762/371472 [7:58:05<10:51:26,  3.40it/s] 64%|██████▍   | 238763/371472 [7:58:06<11:02:02,  3.34it/s] 64%|██████▍   | 238764/371472 [7:58:06<10:57:19,  3.36it/s] 64%|██████▍   | 238765/371472 [7:58:06<10:37:06,  3.47it/s] 64%|██████▍   | 238766/371472 [7:58:07<10:29:31,  3.51it/s] 64%|██████▍   | 238767/371472 [7:58:07<10:38:52,  3.46it/s] 64%|██████▍   | 238768/371472 [7:58:07<10:24:12,  3.54it/s] 64%|██████▍   | 238769/371472 [7:58:07<10:25:27,  3.54it/s] 64%|██████▍   | 238770/371472 [7:58:08<10:06:06,  3.65it/s] 64%|██████▍   | 238771/371472 [7:58:08<9:49:06,  3.75it/s]  64%|██████▍   | 238772/371472 [7:58:08<10:13:53,  3.60it/s] 64%|██████▍   | 238773/371472 [7:58:09<10:34:03,  3.49it/s] 64%|██████▍   | 238774/371472 [7:58:09<10:54:08,  3.38it/s] 64%|██████▍   | 238775/371472 [7:58:09<10:50:31,  3.40it/s] 64%|██████▍   | 238776/371472 [7:58:09<11:22:14,  3.24it/s] 64%|██████▍   | 238777/371472 [7:58:10<10:44:57,  3.43it/s] 64%|██████▍   | 238778/371472 [7:58:10<10:18:48,  3.57it/s] 64%|██████▍   | 238779/371472 [7:58:10<10:29:36,  3.51it/s] 64%|██████▍   | 238780/371472 [7:58:11<10:06:48,  3.64it/s]                                                            {'loss': 3.0444, 'learning_rate': 4.2165851451227133e-07, 'epoch': 10.28}
 64%|██████▍   | 238780/371472 [7:58:11<10:06:48,  3.64it/s] 64%|██████▍   | 238781/371472 [7:58:11<9:44:33,  3.78it/s]  64%|██████▍   | 238782/371472 [7:58:11<9:40:46,  3.81it/s] 64%|██████▍   | 238783/371472 [7:58:11<9:27:53,  3.89it/s] 64%|██████▍   | 238784/371472 [7:58:12<9:31:27,  3.87it/s] 64%|██████▍   | 238785/371472 [7:58:12<9:35:29,  3.84it/s] 64%|██████▍   | 238786/371472 [7:58:12<10:06:05,  3.65it/s] 64%|██████▍   | 238787/371472 [7:58:12<10:11:52,  3.61it/s] 64%|██████▍   | 238788/371472 [7:58:13<10:10:33,  3.62it/s] 64%|██████▍   | 238789/371472 [7:58:13<10:39:25,  3.46it/s] 64%|██████▍   | 238790/371472 [7:58:13<10:41:34,  3.45it/s] 64%|██████▍   | 238791/371472 [7:58:14<10:06:50,  3.64it/s] 64%|██████▍   | 238792/371472 [7:58:14<9:58:47,  3.69it/s]  64%|██████▍   | 238793/371472 [7:58:14<9:43:59,  3.79it/s] 64%|██████▍   | 238794/371472 [7:58:14<9:41:50,  3.80it/s] 64%|██████▍   | 238795/371472 [7:58:15<10:34:09,  3.49it/s] 64%|██████▍   | 238796/371472 [7:58:15<10:13:48,  3.60it/s] 64%|██████▍   | 238797/371472 [7:58:15<10:10:07,  3.62it/s] 64%|██████▍   | 238798/371472 [7:58:15<10:15:09,  3.59it/s] 64%|██████▍   | 238799/371472 [7:58:16<10:22:59,  3.55it/s] 64%|██████▍   | 238800/371472 [7:58:16<10:11:11,  3.62it/s]                                                            {'loss': 2.7642, 'learning_rate': 4.2161003253679245e-07, 'epoch': 10.29}
 64%|██████▍   | 238800/371472 [7:58:16<10:11:11,  3.62it/s] 64%|██████▍   | 238801/371472 [7:58:16<10:17:56,  3.58it/s] 64%|██████▍   | 238802/371472 [7:58:17<9:56:15,  3.71it/s]  64%|██████▍   | 238803/371472 [7:58:17<10:22:47,  3.55it/s] 64%|██████▍   | 238804/371472 [7:58:17<10:15:22,  3.59it/s] 64%|██████▍   | 238805/371472 [7:58:17<10:02:51,  3.67it/s] 64%|██████▍   | 238806/371472 [7:58:18<10:06:05,  3.65it/s] 64%|██████▍   | 238807/371472 [7:58:18<10:03:02,  3.67it/s] 64%|██████▍   | 238808/371472 [7:58:18<10:06:48,  3.64it/s] 64%|██████▍   | 238809/371472 [7:58:18<10:06:55,  3.64it/s] 64%|██████▍   | 238810/371472 [7:58:19<10:05:38,  3.65it/s] 64%|██████▍   | 238811/371472 [7:58:19<10:00:48,  3.68it/s] 64%|██████▍   | 238812/371472 [7:58:19<9:55:39,  3.71it/s]  64%|██████▍   | 238813/371472 [7:58:20<10:07:52,  3.64it/s] 64%|██████▍   | 238814/371472 [7:58:20<10:27:27,  3.52it/s] 64%|██████▍   | 238815/371472 [7:58:20<11:01:20,  3.34it/s] 64%|██████▍   | 238816/371472 [7:58:20<10:47:52,  3.41it/s] 64%|██████▍   | 238817/371472 [7:58:21<11:06:38,  3.32it/s] 64%|██████▍   | 238818/371472 [7:58:21<10:42:06,  3.44it/s] 64%|██████▍   | 238819/371472 [7:58:21<10:31:58,  3.50it/s] 64%|██████▍   | 238820/371472 [7:58:22<10:14:12,  3.60it/s]                                                            {'loss': 2.7166, 'learning_rate': 4.215615505613135e-07, 'epoch': 10.29}
 64%|██████▍   | 238820/371472 [7:58:22<10:14:12,  3.60it/s] 64%|██████▍   | 238821/371472 [7:58:22<10:04:15,  3.66it/s] 64%|██████▍   | 238822/371472 [7:58:22<10:04:07,  3.66it/s] 64%|██████▍   | 238823/371472 [7:58:22<10:52:17,  3.39it/s] 64%|██████▍   | 238824/371472 [7:58:23<11:02:13,  3.34it/s] 64%|██████▍   | 238825/371472 [7:58:23<10:56:37,  3.37it/s] 64%|██████▍   | 238826/371472 [7:58:23<10:56:10,  3.37it/s] 64%|██████▍   | 238827/371472 [7:58:24<10:51:55,  3.39it/s] 64%|██████▍   | 238828/371472 [7:58:24<10:20:24,  3.56it/s] 64%|██████▍   | 238829/371472 [7:58:24<10:43:36,  3.43it/s] 64%|██████▍   | 238830/371472 [7:58:24<10:21:27,  3.56it/s] 64%|██████▍   | 238831/371472 [7:58:25<9:55:29,  3.71it/s]  64%|██████▍   | 238832/371472 [7:58:25<9:42:00,  3.80it/s] 64%|██████▍   | 238833/371472 [7:58:25<9:34:01,  3.85it/s] 64%|██████▍   | 238834/371472 [7:58:26<9:50:27,  3.74it/s] 64%|██████▍   | 238835/371472 [7:58:26<9:52:35,  3.73it/s] 64%|██████▍   | 238836/371472 [7:58:26<10:00:45,  3.68it/s] 64%|██████▍   | 238837/371472 [7:58:26<11:18:19,  3.26it/s] 64%|██████▍   | 238838/371472 [7:58:27<11:47:45,  3.12it/s] 64%|██████▍   | 238839/371472 [7:58:27<11:19:18,  3.25it/s] 64%|██████▍   | 238840/371472 [7:58:27<11:20:03,  3.25it/s]                                                            {'loss': 2.7073, 'learning_rate': 4.215130685858347e-07, 'epoch': 10.29}
 64%|██████▍   | 238840/371472 [7:58:27<11:20:03,  3.25it/s] 64%|██████▍   | 238841/371472 [7:58:28<11:00:56,  3.34it/s] 64%|██████▍   | 238842/371472 [7:58:28<11:18:00,  3.26it/s] 64%|██████▍   | 238843/371472 [7:58:28<11:11:05,  3.29it/s] 64%|██████▍   | 238844/371472 [7:58:29<10:47:48,  3.41it/s] 64%|██████▍   | 238845/371472 [7:58:29<10:23:48,  3.54it/s] 64%|██████▍   | 238846/371472 [7:58:29<10:15:18,  3.59it/s] 64%|██████▍   | 238847/371472 [7:58:29<10:19:13,  3.57it/s] 64%|██████▍   | 238848/371472 [7:58:30<9:51:42,  3.74it/s]  64%|██████▍   | 238849/371472 [7:58:30<10:27:06,  3.52it/s] 64%|██████▍   | 238850/371472 [7:58:30<10:35:15,  3.48it/s] 64%|██████▍   | 238851/371472 [7:58:31<10:28:58,  3.51it/s] 64%|██████▍   | 238852/371472 [7:58:31<10:26:21,  3.53it/s] 64%|██████▍   | 238853/371472 [7:58:31<10:29:42,  3.51it/s] 64%|██████▍   | 238854/371472 [7:58:31<10:12:36,  3.61it/s] 64%|██████▍   | 238855/371472 [7:58:32<10:10:01,  3.62it/s] 64%|██████▍   | 238856/371472 [7:58:32<10:38:38,  3.46it/s] 64%|██████▍   | 238857/371472 [7:58:32<10:44:20,  3.43it/s] 64%|██████▍   | 238858/371472 [7:58:33<10:40:05,  3.45it/s] 64%|██████▍   | 238859/371472 [7:58:33<10:46:45,  3.42it/s] 64%|██████▍   | 238860/371472 [7:58:33<10:11:34,  3.61it/s]                                                            {'loss': 2.8548, 'learning_rate': 4.214645866103557e-07, 'epoch': 10.29}
 64%|██████▍   | 238860/371472 [7:58:33<10:11:34,  3.61it/s] 64%|██████▍   | 238861/371472 [7:58:33<10:10:33,  3.62it/s] 64%|██████▍   | 238862/371472 [7:58:34<10:14:33,  3.60it/s] 64%|██████▍   | 238863/371472 [7:58:34<11:08:47,  3.30it/s] 64%|██████▍   | 238864/371472 [7:58:34<10:42:50,  3.44it/s] 64%|██████▍   | 238865/371472 [7:58:35<10:46:04,  3.42it/s] 64%|██████▍   | 238866/371472 [7:58:35<10:48:16,  3.41it/s] 64%|██████▍   | 238867/371472 [7:58:35<10:36:06,  3.47it/s] 64%|██████▍   | 238868/371472 [7:58:35<10:57:27,  3.36it/s] 64%|██████▍   | 238869/371472 [7:58:36<11:40:16,  3.16it/s] 64%|██████▍   | 238870/371472 [7:58:36<11:43:57,  3.14it/s] 64%|██████▍   | 238871/371472 [7:58:36<11:22:48,  3.24it/s] 64%|██████▍   | 238872/371472 [7:58:37<11:13:07,  3.28it/s] 64%|██████▍   | 238873/371472 [7:58:37<10:46:03,  3.42it/s] 64%|██████▍   | 238874/371472 [7:58:37<10:37:24,  3.47it/s] 64%|██████▍   | 238875/371472 [7:58:37<10:15:04,  3.59it/s] 64%|██████▍   | 238876/371472 [7:58:38<10:32:16,  3.50it/s] 64%|██████▍   | 238877/371472 [7:58:38<11:14:17,  3.28it/s] 64%|██████▍   | 238878/371472 [7:58:38<10:59:39,  3.35it/s] 64%|██████▍   | 238879/371472 [7:58:39<11:22:45,  3.24it/s] 64%|██████▍   | 238880/371472 [7:58:39<11:31:56,  3.19it/s]                                                            {'loss': 2.7809, 'learning_rate': 4.214161046348768e-07, 'epoch': 10.29}
 64%|██████▍   | 238880/371472 [7:58:39<11:31:56,  3.19it/s] 64%|██████▍   | 238881/371472 [7:58:39<11:08:16,  3.31it/s] 64%|██████▍   | 238882/371472 [7:58:40<11:12:16,  3.29it/s] 64%|██████▍   | 238883/371472 [7:58:40<10:43:51,  3.43it/s] 64%|██████▍   | 238884/371472 [7:58:40<10:28:46,  3.51it/s] 64%|██████▍   | 238885/371472 [7:58:40<10:11:48,  3.61it/s] 64%|██████▍   | 238886/371472 [7:58:41<10:33:39,  3.49it/s] 64%|██████▍   | 238887/371472 [7:58:41<10:29:21,  3.51it/s] 64%|██████▍   | 238888/371472 [7:58:41<10:32:12,  3.50it/s] 64%|██████▍   | 238889/371472 [7:58:42<10:23:55,  3.54it/s] 64%|██████▍   | 238890/371472 [7:58:42<10:10:24,  3.62it/s] 64%|██████▍   | 238891/371472 [7:58:42<10:26:55,  3.52it/s] 64%|██████▍   | 238892/371472 [7:58:42<10:06:28,  3.64it/s] 64%|██████▍   | 238893/371472 [7:58:43<9:57:47,  3.70it/s]  64%|██████▍   | 238894/371472 [7:58:43<9:52:32,  3.73it/s] 64%|██████▍   | 238895/371472 [7:58:43<10:13:10,  3.60it/s] 64%|██████▍   | 238896/371472 [7:58:44<10:42:25,  3.44it/s] 64%|██████▍   | 238897/371472 [7:58:44<10:16:49,  3.58it/s] 64%|██████▍   | 238898/371472 [7:58:44<10:35:29,  3.48it/s] 64%|██████▍   | 238899/371472 [7:58:44<10:27:51,  3.52it/s] 64%|██████▍   | 238900/371472 [7:58:45<10:29:18,  3.51it/s]                                                            {'loss': 2.8546, 'learning_rate': 4.2136762265939797e-07, 'epoch': 10.29}
 64%|██████▍   | 238900/371472 [7:58:45<10:29:18,  3.51it/s] 64%|██████▍   | 238901/371472 [7:58:45<10:42:47,  3.44it/s] 64%|██████▍   | 238902/371472 [7:58:45<10:21:06,  3.56it/s] 64%|██████▍   | 238903/371472 [7:58:46<10:18:34,  3.57it/s] 64%|██████▍   | 238904/371472 [7:58:46<10:00:15,  3.68it/s] 64%|██████▍   | 238905/371472 [7:58:46<10:01:27,  3.67it/s] 64%|██████▍   | 238906/371472 [7:58:46<10:00:51,  3.68it/s] 64%|██████▍   | 238907/371472 [7:58:47<10:42:05,  3.44it/s] 64%|██████▍   | 238908/371472 [7:58:47<10:29:14,  3.51it/s] 64%|██████▍   | 238909/371472 [7:58:47<10:23:14,  3.54it/s] 64%|██████▍   | 238910/371472 [7:58:47<10:17:06,  3.58it/s] 64%|██████▍   | 238911/371472 [7:58:48<10:21:28,  3.56it/s] 64%|██████▍   | 238912/371472 [7:58:48<10:14:30,  3.60it/s] 64%|██████▍   | 238913/371472 [7:58:48<10:03:56,  3.66it/s] 64%|██████▍   | 238914/371472 [7:58:49<10:25:45,  3.53it/s] 64%|██████▍   | 238915/371472 [7:58:49<10:02:38,  3.67it/s] 64%|██████▍   | 238916/371472 [7:58:49<10:21:18,  3.56it/s] 64%|██████▍   | 238917/371472 [7:58:49<9:55:39,  3.71it/s]  64%|██████▍   | 238918/371472 [7:58:50<9:46:47,  3.76it/s] 64%|██████▍   | 238919/371472 [7:58:50<9:38:42,  3.82it/s] 64%|██████▍   | 238920/371472 [7:58:50<9:58:24,  3.69it/s]                                                           {'loss': 2.9007, 'learning_rate': 4.21319140683919e-07, 'epoch': 10.29}
 64%|██████▍   | 238920/371472 [7:58:50<9:58:24,  3.69it/s] 64%|██████▍   | 238921/371472 [7:58:50<9:43:35,  3.79it/s] 64%|██████▍   | 238922/371472 [7:58:51<9:38:44,  3.82it/s] 64%|██████▍   | 238923/371472 [7:58:51<9:58:11,  3.69it/s] 64%|██████▍   | 238924/371472 [7:58:51<9:46:23,  3.77it/s] 64%|██████▍   | 238925/371472 [7:58:51<9:37:33,  3.82it/s] 64%|██████▍   | 238926/371472 [7:58:52<9:38:39,  3.82it/s] 64%|██████▍   | 238927/371472 [7:58:52<10:39:06,  3.46it/s] 64%|██████▍   | 238928/371472 [7:58:52<11:21:51,  3.24it/s] 64%|██████▍   | 238929/371472 [7:58:53<11:10:47,  3.29it/s] 64%|██████▍   | 238930/371472 [7:58:53<10:42:20,  3.44it/s] 64%|██████▍   | 238931/371472 [7:58:53<10:56:59,  3.36it/s] 64%|██████▍   | 238932/371472 [7:58:54<10:39:22,  3.45it/s] 64%|██████▍   | 238933/371472 [7:58:54<10:26:11,  3.53it/s] 64%|██████▍   | 238934/371472 [7:58:54<10:19:14,  3.57it/s] 64%|██████▍   | 238935/371472 [7:58:54<10:03:47,  3.66it/s] 64%|██████▍   | 238936/371472 [7:58:55<10:05:04,  3.65it/s] 64%|██████▍   | 238937/371472 [7:58:55<9:49:52,  3.74it/s]  64%|██████▍   | 238938/371472 [7:58:55<9:40:28,  3.81it/s] 64%|██████▍   | 238939/371472 [7:58:55<9:50:49,  3.74it/s] 64%|██████▍   | 238940/371472 [7:58:56<10:11:40,  3.61it/s]                                                            {'loss': 2.8348, 'learning_rate': 4.2127065870844016e-07, 'epoch': 10.29}
 64%|██████▍   | 238940/371472 [7:58:56<10:11:40,  3.61it/s] 64%|██████▍   | 238941/371472 [7:58:56<10:13:47,  3.60it/s] 64%|██████▍   | 238942/371472 [7:58:56<10:43:06,  3.43it/s] 64%|██████▍   | 238943/371472 [7:58:57<10:24:49,  3.54it/s] 64%|██████▍   | 238944/371472 [7:58:57<10:24:59,  3.53it/s] 64%|██████▍   | 238945/371472 [7:58:57<10:29:42,  3.51it/s] 64%|██████▍   | 238946/371472 [7:58:58<10:50:34,  3.40it/s] 64%|██████▍   | 238947/371472 [7:58:58<10:25:43,  3.53it/s] 64%|██████▍   | 238948/371472 [7:58:58<10:40:39,  3.45it/s] 64%|██████▍   | 238949/371472 [7:58:58<10:40:39,  3.45it/s] 64%|██████▍   | 238950/371472 [7:58:59<10:32:31,  3.49it/s] 64%|██████▍   | 238951/371472 [7:58:59<11:02:02,  3.34it/s] 64%|██████▍   | 238952/371472 [7:58:59<10:49:52,  3.40it/s] 64%|██████▍   | 238953/371472 [7:59:00<10:28:08,  3.52it/s] 64%|██████▍   | 238954/371472 [7:59:00<10:27:38,  3.52it/s] 64%|██████▍   | 238955/371472 [7:59:00<11:04:27,  3.32it/s] 64%|██████▍   | 238956/371472 [7:59:00<11:02:46,  3.33it/s] 64%|██████▍   | 238957/371472 [7:59:01<10:59:27,  3.35it/s] 64%|██████▍   | 238958/371472 [7:59:01<10:53:59,  3.38it/s] 64%|██████▍   | 238959/371472 [7:59:01<10:49:44,  3.40it/s] 64%|██████▍   | 238960/371472 [7:59:02<11:16:37,  3.26it/s]                                                            {'loss': 2.7324, 'learning_rate': 4.2122217673296123e-07, 'epoch': 10.29}
 64%|██████▍   | 238960/371472 [7:59:02<11:16:37,  3.26it/s] 64%|██████▍   | 238961/371472 [7:59:02<11:00:31,  3.34it/s] 64%|██████▍   | 238962/371472 [7:59:02<10:52:45,  3.38it/s] 64%|██████▍   | 238963/371472 [7:59:02<10:38:13,  3.46it/s] 64%|██████▍   | 238964/371472 [7:59:03<10:46:12,  3.42it/s] 64%|██████▍   | 238965/371472 [7:59:03<10:49:51,  3.40it/s] 64%|██████▍   | 238966/371472 [7:59:03<11:12:23,  3.28it/s] 64%|██████▍   | 238967/371472 [7:59:04<10:43:56,  3.43it/s] 64%|██████▍   | 238968/371472 [7:59:04<10:47:46,  3.41it/s] 64%|██████▍   | 238969/371472 [7:59:04<10:21:23,  3.55it/s] 64%|██████▍   | 238970/371472 [7:59:04<10:08:28,  3.63it/s] 64%|██████▍   | 238971/371472 [7:59:05<9:56:19,  3.70it/s]  64%|██████▍   | 238972/371472 [7:59:05<9:58:15,  3.69it/s] 64%|██████▍   | 238973/371472 [7:59:05<10:09:08,  3.63it/s] 64%|██████▍   | 238974/371472 [7:59:06<10:48:58,  3.40it/s] 64%|██████▍   | 238975/371472 [7:59:06<10:38:27,  3.46it/s] 64%|██████▍   | 238976/371472 [7:59:06<11:42:22,  3.14it/s] 64%|██████▍   | 238977/371472 [7:59:07<11:25:31,  3.22it/s] 64%|██████▍   | 238978/371472 [7:59:07<11:10:21,  3.29it/s] 64%|██████▍   | 238979/371472 [7:59:07<11:05:18,  3.32it/s] 64%|██████▍   | 238980/371472 [7:59:07<11:03:08,  3.33it/s]                                                            {'loss': 2.7591, 'learning_rate': 4.2117369475748236e-07, 'epoch': 10.29}
 64%|██████▍   | 238980/371472 [7:59:07<11:03:08,  3.33it/s] 64%|██████▍   | 238981/371472 [7:59:08<11:16:06,  3.27it/s] 64%|██████▍   | 238982/371472 [7:59:08<10:37:17,  3.46it/s] 64%|██████▍   | 238983/371472 [7:59:08<10:49:54,  3.40it/s] 64%|██████▍   | 238984/371472 [7:59:09<10:39:32,  3.45it/s] 64%|██████▍   | 238985/371472 [7:59:09<10:35:07,  3.48it/s] 64%|██████▍   | 238986/371472 [7:59:09<10:21:00,  3.56it/s] 64%|██████▍   | 238987/371472 [7:59:10<11:00:28,  3.34it/s] 64%|██████▍   | 238988/371472 [7:59:10<10:34:37,  3.48it/s] 64%|██████▍   | 238989/371472 [7:59:10<10:21:09,  3.55it/s] 64%|██████▍   | 238990/371472 [7:59:10<10:25:45,  3.53it/s] 64%|██████▍   | 238991/371472 [7:59:11<10:22:22,  3.55it/s] 64%|██████▍   | 238992/371472 [7:59:11<11:00:31,  3.34it/s] 64%|██████▍   | 238993/371472 [7:59:11<10:34:44,  3.48it/s] 64%|██████▍   | 238994/371472 [7:59:11<10:30:46,  3.50it/s] 64%|██████▍   | 238995/371472 [7:59:12<10:26:43,  3.52it/s] 64%|██████▍   | 238996/371472 [7:59:12<10:29:42,  3.51it/s] 64%|██████▍   | 238997/371472 [7:59:12<10:13:58,  3.60it/s] 64%|██████▍   | 238998/371472 [7:59:13<10:25:03,  3.53it/s] 64%|██████▍   | 238999/371472 [7:59:13<10:49:05,  3.40it/s] 64%|██████▍   | 239000/371472 [7:59:13<10:56:04,  3.37it/s]                                                            {'loss': 2.973, 'learning_rate': 4.2112521278200343e-07, 'epoch': 10.29}
 64%|██████▍   | 239000/371472 [7:59:13<10:56:04,  3.37it/s] 64%|██████▍   | 239001/371472 [7:59:14<11:14:23,  3.27it/s] 64%|██████▍   | 239002/371472 [7:59:14<10:49:20,  3.40it/s] 64%|██████▍   | 239003/371472 [7:59:14<10:27:13,  3.52it/s] 64%|██████▍   | 239004/371472 [7:59:14<11:04:34,  3.32it/s] 64%|██████▍   | 239005/371472 [7:59:15<10:48:07,  3.41it/s] 64%|██████▍   | 239006/371472 [7:59:15<10:19:41,  3.56it/s] 64%|██████▍   | 239007/371472 [7:59:15<10:27:47,  3.52it/s] 64%|██████▍   | 239008/371472 [7:59:16<10:25:23,  3.53it/s] 64%|██████▍   | 239009/371472 [7:59:16<10:07:16,  3.64it/s] 64%|██████▍   | 239010/371472 [7:59:16<10:22:09,  3.55it/s] 64%|██████▍   | 239011/371472 [7:59:16<11:09:34,  3.30it/s] 64%|██████▍   | 239012/371472 [7:59:17<10:50:38,  3.39it/s] 64%|██████▍   | 239013/371472 [7:59:17<11:50:20,  3.11it/s] 64%|██████▍   | 239014/371472 [7:59:17<11:24:56,  3.22it/s] 64%|██████▍   | 239015/371472 [7:59:18<11:04:31,  3.32it/s] 64%|██████▍   | 239016/371472 [7:59:18<11:30:22,  3.20it/s] 64%|██████▍   | 239017/371472 [7:59:18<11:39:12,  3.16it/s] 64%|██████▍   | 239018/371472 [7:59:19<11:33:52,  3.18it/s] 64%|██████▍   | 239019/371472 [7:59:19<11:46:02,  3.13it/s] 64%|██████▍   | 239020/371472 [7:59:19<11:04:56,  3.32it/s]                                                            {'loss': 2.8362, 'learning_rate': 4.210767308065246e-07, 'epoch': 10.3}
 64%|██████▍   | 239020/371472 [7:59:19<11:04:56,  3.32it/s] 64%|██████▍   | 239021/371472 [7:59:20<10:53:03,  3.38it/s] 64%|██████▍   | 239022/371472 [7:59:20<11:16:35,  3.26it/s] 64%|██████▍   | 239023/371472 [7:59:20<10:37:17,  3.46it/s] 64%|██████▍   | 239024/371472 [7:59:20<10:32:09,  3.49it/s] 64%|██████▍   | 239025/371472 [7:59:21<10:39:09,  3.45it/s] 64%|██████▍   | 239026/371472 [7:59:21<10:33:49,  3.48it/s] 64%|██████▍   | 239027/371472 [7:59:21<10:22:24,  3.55it/s] 64%|██████▍   | 239028/371472 [7:59:21<10:08:42,  3.63it/s] 64%|██████▍   | 239029/371472 [7:59:22<10:05:01,  3.65it/s] 64%|██████▍   | 239030/371472 [7:59:22<10:32:57,  3.49it/s] 64%|██████▍   | 239031/371472 [7:59:22<10:52:34,  3.38it/s] 64%|██████▍   | 239032/371472 [7:59:23<10:56:10,  3.36it/s] 64%|██████▍   | 239033/371472 [7:59:23<10:35:18,  3.47it/s] 64%|██████▍   | 239034/371472 [7:59:23<10:37:49,  3.46it/s] 64%|██████▍   | 239035/371472 [7:59:24<11:03:12,  3.33it/s] 64%|██████▍   | 239036/371472 [7:59:24<11:01:22,  3.34it/s] 64%|██████▍   | 239037/371472 [7:59:24<10:38:02,  3.46it/s] 64%|██████▍   | 239038/371472 [7:59:24<11:12:45,  3.28it/s] 64%|██████▍   | 239039/371472 [7:59:25<10:42:15,  3.44it/s] 64%|██████▍   | 239040/371472 [7:59:25<10:51:53,  3.39it/s]                                                            {'loss': 2.845, 'learning_rate': 4.2102824883104563e-07, 'epoch': 10.3}
 64%|██████▍   | 239040/371472 [7:59:25<10:51:53,  3.39it/s] 64%|██████▍   | 239041/371472 [7:59:25<11:06:55,  3.31it/s] 64%|██████▍   | 239042/371472 [7:59:26<11:15:51,  3.27it/s] 64%|██████▍   | 239043/371472 [7:59:26<11:05:18,  3.32it/s] 64%|██████▍   | 239044/371472 [7:59:26<10:52:06,  3.38it/s] 64%|██████▍   | 239045/371472 [7:59:27<10:56:46,  3.36it/s] 64%|██████▍   | 239046/371472 [7:59:27<10:38:39,  3.46it/s] 64%|██████▍   | 239047/371472 [7:59:27<11:33:43,  3.18it/s] 64%|██████▍   | 239048/371472 [7:59:27<10:52:12,  3.38it/s] 64%|██████▍   | 239049/371472 [7:59:28<10:51:27,  3.39it/s] 64%|██████▍   | 239050/371472 [7:59:28<10:27:38,  3.52it/s] 64%|██████▍   | 239051/371472 [7:59:28<10:16:20,  3.58it/s] 64%|██████▍   | 239052/371472 [7:59:29<9:59:25,  3.68it/s]  64%|██████▍   | 239053/371472 [7:59:29<9:44:22,  3.78it/s] 64%|██████▍   | 239054/371472 [7:59:29<9:53:55,  3.72it/s] 64%|██████▍   | 239055/371472 [7:59:29<9:55:12,  3.71it/s] 64%|██████▍   | 239056/371472 [7:59:30<9:47:48,  3.75it/s] 64%|██████▍   | 239057/371472 [7:59:30<9:35:06,  3.84it/s] 64%|██████▍   | 239058/371472 [7:59:30<9:31:04,  3.86it/s] 64%|██████▍   | 239059/371472 [7:59:30<9:27:33,  3.89it/s] 64%|██████▍   | 239060/371472 [7:59:31<9:41:59,  3.79it/s]                                                           {'loss': 2.7932, 'learning_rate': 4.209797668555668e-07, 'epoch': 10.3}
 64%|██████▍   | 239060/371472 [7:59:31<9:41:59,  3.79it/s] 64%|██████▍   | 239061/371472 [7:59:31<9:56:35,  3.70it/s] 64%|██████▍   | 239062/371472 [7:59:31<9:41:18,  3.80it/s] 64%|██████▍   | 239063/371472 [7:59:31<9:30:23,  3.87it/s] 64%|██████▍   | 239064/371472 [7:59:32<9:42:19,  3.79it/s] 64%|██████▍   | 239065/371472 [7:59:32<9:58:48,  3.69it/s] 64%|██████▍   | 239066/371472 [7:59:32<9:46:24,  3.76it/s] 64%|██████▍   | 239067/371472 [7:59:33<10:13:35,  3.60it/s] 64%|██████▍   | 239068/371472 [7:59:33<10:38:26,  3.46it/s] 64%|██████▍   | 239069/371472 [7:59:33<10:29:57,  3.50it/s] 64%|██████▍   | 239070/371472 [7:59:33<10:20:49,  3.55it/s] 64%|██████▍   | 239071/371472 [7:59:34<10:09:25,  3.62it/s] 64%|██████▍   | 239072/371472 [7:59:34<10:05:29,  3.64it/s] 64%|██████▍   | 239073/371472 [7:59:34<10:17:25,  3.57it/s] 64%|██████▍   | 239074/371472 [7:59:35<10:38:58,  3.45it/s] 64%|██████▍   | 239075/371472 [7:59:35<10:29:36,  3.50it/s] 64%|██████▍   | 239076/371472 [7:59:35<10:55:29,  3.37it/s] 64%|██████▍   | 239077/371472 [7:59:35<10:46:41,  3.41it/s] 64%|██████▍   | 239078/371472 [7:59:36<10:24:37,  3.53it/s] 64%|██████▍   | 239079/371472 [7:59:36<10:18:13,  3.57it/s] 64%|██████▍   | 239080/371472 [7:59:36<10:49:20,  3.40it/s]                                                            {'loss': 2.855, 'learning_rate': 4.209312848800879e-07, 'epoch': 10.3}
 64%|██████▍   | 239080/371472 [7:59:36<10:49:20,  3.40it/s] 64%|██████▍   | 239081/371472 [7:59:37<11:11:15,  3.29it/s] 64%|██████▍   | 239082/371472 [7:59:37<11:04:00,  3.32it/s] 64%|██████▍   | 239083/371472 [7:59:37<10:30:04,  3.50it/s] 64%|██████▍   | 239084/371472 [7:59:37<9:56:07,  3.70it/s]  64%|██████▍   | 239085/371472 [7:59:38<10:04:00,  3.65it/s] 64%|██████▍   | 239086/371472 [7:59:38<9:49:56,  3.74it/s]  64%|██████▍   | 239087/371472 [7:59:38<10:02:15,  3.66it/s] 64%|██████▍   | 239088/371472 [7:59:38<10:04:26,  3.65it/s] 64%|██████▍   | 239089/371472 [7:59:39<9:56:27,  3.70it/s]  64%|██████▍   | 239090/371472 [7:59:39<10:19:39,  3.56it/s] 64%|██████▍   | 239091/371472 [7:59:39<10:12:12,  3.60it/s] 64%|██████▍   | 239092/371472 [7:59:40<9:46:11,  3.76it/s]  64%|██████▍   | 239093/371472 [7:59:40<10:02:05,  3.66it/s] 64%|██████▍   | 239094/371472 [7:59:40<10:04:56,  3.65it/s] 64%|██████▍   | 239095/371472 [7:59:40<10:05:14,  3.65it/s] 64%|██████▍   | 239096/371472 [7:59:41<9:42:08,  3.79it/s]  64%|██████▍   | 239097/371472 [7:59:41<10:35:15,  3.47it/s] 64%|██████▍   | 239098/371472 [7:59:41<10:32:29,  3.49it/s] 64%|██████▍   | 239099/371472 [7:59:42<10:46:32,  3.41it/s] 64%|██████▍   | 239100/371472 [7:59:42<10:07:31,  3.63it/s]                                                            {'loss': 2.6235, 'learning_rate': 4.20882802904609e-07, 'epoch': 10.3}
 64%|██████▍   | 239100/371472 [7:59:42<10:07:31,  3.63it/s] 64%|██████▍   | 239101/371472 [7:59:42<10:13:40,  3.60it/s] 64%|██████▍   | 239102/371472 [7:59:42<10:00:51,  3.67it/s] 64%|██████▍   | 239103/371472 [7:59:43<9:44:17,  3.78it/s]  64%|██████▍   | 239104/371472 [7:59:43<9:48:48,  3.75it/s] 64%|██████▍   | 239105/371472 [7:59:43<11:46:38,  3.12it/s] 64%|██████▍   | 239106/371472 [7:59:44<11:51:00,  3.10it/s] 64%|██████▍   | 239107/371472 [7:59:44<11:00:45,  3.34it/s] 64%|██████▍   | 239108/371472 [7:59:44<10:38:34,  3.45it/s] 64%|██████▍   | 239109/371472 [7:59:44<10:08:52,  3.62it/s] 64%|██████▍   | 239110/371472 [7:59:45<9:58:06,  3.69it/s]  64%|██████▍   | 239111/371472 [7:59:45<9:37:44,  3.82it/s] 64%|██████▍   | 239112/371472 [7:59:45<9:36:14,  3.83it/s] 64%|██████▍   | 239113/371472 [7:59:45<9:53:02,  3.72it/s] 64%|██████▍   | 239114/371472 [7:59:46<10:06:35,  3.64it/s] 64%|██████▍   | 239115/371472 [7:59:46<9:52:52,  3.72it/s]  64%|██████▍   | 239116/371472 [7:59:46<9:55:40,  3.70it/s] 64%|██████▍   | 239117/371472 [7:59:47<10:10:43,  3.61it/s] 64%|██████▍   | 239118/371472 [7:59:47<10:18:38,  3.57it/s] 64%|██████▍   | 239119/371472 [7:59:47<10:03:18,  3.66it/s] 64%|██████▍   | 239120/371472 [7:59:47<10:14:51,  3.59it/s]                                                            {'loss': 2.8251, 'learning_rate': 4.2083432092913007e-07, 'epoch': 10.3}
 64%|██████▍   | 239120/371472 [7:59:47<10:14:51,  3.59it/s] 64%|██████▍   | 239121/371472 [7:59:48<10:13:14,  3.60it/s] 64%|██████▍   | 239122/371472 [7:59:48<10:14:04,  3.59it/s] 64%|██████▍   | 239123/371472 [7:59:48<10:38:54,  3.45it/s] 64%|██████▍   | 239124/371472 [7:59:48<10:03:50,  3.65it/s] 64%|██████▍   | 239125/371472 [7:59:49<10:18:21,  3.57it/s] 64%|██████▍   | 239126/371472 [7:59:49<10:22:23,  3.54it/s] 64%|██████▍   | 239127/371472 [7:59:49<10:11:23,  3.61it/s] 64%|██████▍   | 239128/371472 [7:59:50<10:00:06,  3.68it/s] 64%|██████▍   | 239129/371472 [7:59:50<9:45:16,  3.77it/s]  64%|██████▍   | 239130/371472 [7:59:50<10:40:41,  3.44it/s] 64%|██████▍   | 239131/371472 [7:59:50<10:33:37,  3.48it/s] 64%|██████▍   | 239132/371472 [7:59:51<10:31:24,  3.49it/s] 64%|██████▍   | 239133/371472 [7:59:51<10:58:34,  3.35it/s] 64%|██████▍   | 239134/371472 [7:59:51<10:30:08,  3.50it/s] 64%|██████▍   | 239135/371472 [7:59:52<10:42:22,  3.43it/s] 64%|██████▍   | 239136/371472 [7:59:52<10:43:16,  3.43it/s] 64%|██████▍   | 239137/371472 [7:59:52<10:37:01,  3.46it/s] 64%|██████▍   | 239138/371472 [7:59:52<10:23:22,  3.54it/s] 64%|██████▍   | 239139/371472 [7:59:53<10:48:31,  3.40it/s] 64%|██████▍   | 239140/371472 [7:59:53<11:00:58,  3.34it/s]                                                            {'loss': 2.9021, 'learning_rate': 4.2078583895365125e-07, 'epoch': 10.3}
 64%|██████▍   | 239140/371472 [7:59:53<11:00:58,  3.34it/s] 64%|██████▍   | 239141/371472 [7:59:53<10:47:25,  3.41it/s] 64%|██████▍   | 239142/371472 [7:59:54<10:23:10,  3.54it/s] 64%|██████▍   | 239143/371472 [7:59:54<10:23:54,  3.53it/s] 64%|██████▍   | 239144/371472 [7:59:54<10:46:45,  3.41it/s] 64%|██████▍   | 239145/371472 [7:59:55<10:21:17,  3.55it/s] 64%|██████▍   | 239146/371472 [7:59:55<10:42:08,  3.43it/s] 64%|██████▍   | 239147/371472 [7:59:55<10:29:19,  3.50it/s] 64%|██████▍   | 239148/371472 [7:59:55<10:26:44,  3.52it/s] 64%|██████▍   | 239149/371472 [7:59:56<10:31:32,  3.49it/s] 64%|██████▍   | 239150/371472 [7:59:56<10:43:00,  3.43it/s] 64%|██████▍   | 239151/371472 [7:59:56<11:41:16,  3.14it/s] 64%|██████▍   | 239152/371472 [7:59:57<10:53:10,  3.38it/s] 64%|██████▍   | 239153/371472 [7:59:57<10:36:56,  3.46it/s] 64%|██████▍   | 239154/371472 [7:59:57<10:01:43,  3.66it/s] 64%|██████▍   | 239155/371472 [7:59:57<10:34:17,  3.48it/s] 64%|██████▍   | 239156/371472 [7:59:58<10:31:45,  3.49it/s] 64%|██████▍   | 239157/371472 [7:59:58<10:11:22,  3.61it/s] 64%|██████▍   | 239158/371472 [7:59:58<9:48:03,  3.75it/s]  64%|██████▍   | 239159/371472 [7:59:58<9:36:10,  3.83it/s] 64%|██████▍   | 239160/371472 [7:59:59<9:24:28,  3.91it/s]                                                           {'loss': 2.8316, 'learning_rate': 4.207373569781723e-07, 'epoch': 10.3}
 64%|██████▍   | 239160/371472 [7:59:59<9:24:28,  3.91it/s] 64%|██████▍   | 239161/371472 [7:59:59<9:39:19,  3.81it/s] 64%|██████▍   | 239162/371472 [7:59:59<10:04:59,  3.64it/s] 64%|██████▍   | 239163/371472 [8:00:00<9:46:39,  3.76it/s]  64%|██████▍   | 239164/371472 [8:00:00<9:42:23,  3.79it/s] 64%|██████▍   | 239165/371472 [8:00:00<9:31:04,  3.86it/s] 64%|██████▍   | 239166/371472 [8:00:00<10:50:23,  3.39it/s] 64%|██████▍   | 239167/371472 [8:00:01<10:31:25,  3.49it/s] 64%|██████▍   | 239168/371472 [8:00:01<10:28:02,  3.51it/s] 64%|██████▍   | 239169/371472 [8:00:01<9:59:32,  3.68it/s]  64%|██████▍   | 239170/371472 [8:00:01<10:08:25,  3.62it/s] 64%|██████▍   | 239171/371472 [8:00:02<10:21:11,  3.55it/s] 64%|██████▍   | 239172/371472 [8:00:02<10:08:44,  3.62it/s] 64%|██████▍   | 239173/371472 [8:00:02<9:58:23,  3.68it/s]  64%|██████▍   | 239174/371472 [8:00:03<10:47:51,  3.40it/s] 64%|██████▍   | 239175/371472 [8:00:03<10:40:50,  3.44it/s] 64%|██████▍   | 239176/371472 [8:00:03<11:00:43,  3.34it/s] 64%|██████▍   | 239177/371472 [8:00:04<10:35:12,  3.47it/s] 64%|██████▍   | 239178/371472 [8:00:04<10:40:38,  3.44it/s] 64%|██████▍   | 239179/371472 [8:00:04<10:56:40,  3.36it/s] 64%|██████▍   | 239180/371472 [8:00:04<10:32:49,  3.48it/s]                                                            {'loss': 2.8478, 'learning_rate': 4.2068887500269344e-07, 'epoch': 10.3}
 64%|██████▍   | 239180/371472 [8:00:04<10:32:49,  3.48it/s] 64%|██████▍   | 239181/371472 [8:00:05<10:14:38,  3.59it/s] 64%|██████▍   | 239182/371472 [8:00:05<9:59:31,  3.68it/s]  64%|██████▍   | 239183/371472 [8:00:05<10:08:00,  3.63it/s] 64%|██████▍   | 239184/371472 [8:00:06<10:47:23,  3.41it/s] 64%|██████▍   | 239185/371472 [8:00:06<10:25:48,  3.52it/s] 64%|██████▍   | 239186/371472 [8:00:06<10:53:25,  3.37it/s] 64%|██████▍   | 239187/371472 [8:00:06<10:36:46,  3.46it/s] 64%|██████▍   | 239188/371472 [8:00:07<10:21:13,  3.55it/s] 64%|██████▍   | 239189/371472 [8:00:07<10:30:32,  3.50it/s] 64%|██████▍   | 239190/371472 [8:00:07<10:31:00,  3.49it/s] 64%|██████▍   | 239191/371472 [8:00:08<11:05:00,  3.32it/s] 64%|██████▍   | 239192/371472 [8:00:08<12:02:20,  3.05it/s] 64%|██████▍   | 239193/371472 [8:00:08<11:21:53,  3.23it/s] 64%|██████▍   | 239194/371472 [8:00:09<11:37:05,  3.16it/s] 64%|██████▍   | 239195/371472 [8:00:09<11:13:16,  3.27it/s] 64%|██████▍   | 239196/371472 [8:00:09<11:26:58,  3.21it/s] 64%|██████▍   | 239197/371472 [8:00:09<10:56:18,  3.36it/s] 64%|██████▍   | 239198/371472 [8:00:10<11:04:55,  3.32it/s] 64%|██████▍   | 239199/371472 [8:00:10<10:25:45,  3.52it/s] 64%|██████▍   | 239200/371472 [8:00:10<10:07:42,  3.63it/s]                                                            {'loss': 2.7871, 'learning_rate': 4.206403930272145e-07, 'epoch': 10.3}
 64%|██████▍   | 239200/371472 [8:00:10<10:07:42,  3.63it/s] 64%|██████▍   | 239201/371472 [8:00:11<10:08:19,  3.62it/s] 64%|██████▍   | 239202/371472 [8:00:11<10:26:19,  3.52it/s] 64%|██████▍   | 239203/371472 [8:00:11<10:30:50,  3.49it/s] 64%|██████▍   | 239204/371472 [8:00:11<10:22:13,  3.54it/s] 64%|██████▍   | 239205/371472 [8:00:12<9:59:52,  3.67it/s]  64%|██████▍   | 239206/371472 [8:00:12<9:52:15,  3.72it/s] 64%|██████▍   | 239207/371472 [8:00:12<10:11:01,  3.61it/s] 64%|██████▍   | 239208/371472 [8:00:12<10:23:05,  3.54it/s] 64%|██████▍   | 239209/371472 [8:00:13<10:07:09,  3.63it/s] 64%|██████▍   | 239210/371472 [8:00:13<10:02:24,  3.66it/s] 64%|██████▍   | 239211/371472 [8:00:13<10:21:19,  3.55it/s] 64%|██████▍   | 239212/371472 [8:00:14<10:35:43,  3.47it/s] 64%|██████▍   | 239213/371472 [8:00:14<10:48:01,  3.40it/s] 64%|██████▍   | 239214/371472 [8:00:14<10:42:17,  3.43it/s] 64%|██████▍   | 239215/371472 [8:00:14<10:38:03,  3.45it/s] 64%|██████▍   | 239216/371472 [8:00:15<10:36:48,  3.46it/s] 64%|██████▍   | 239217/371472 [8:00:15<10:33:11,  3.48it/s] 64%|██████▍   | 239218/371472 [8:00:15<10:15:46,  3.58it/s] 64%|██████▍   | 239219/371472 [8:00:16<10:14:17,  3.59it/s] 64%|██████▍   | 239220/371472 [8:00:16<10:05:17,  3.64it/s]                                                            {'loss': 2.8483, 'learning_rate': 4.205919110517357e-07, 'epoch': 10.3}
 64%|██████▍   | 239220/371472 [8:00:16<10:05:17,  3.64it/s] 64%|██████▍   | 239221/371472 [8:00:16<10:16:18,  3.58it/s] 64%|██████▍   | 239222/371472 [8:00:16<10:28:16,  3.51it/s] 64%|██████▍   | 239223/371472 [8:00:17<10:54:23,  3.37it/s] 64%|██████▍   | 239224/371472 [8:00:17<10:14:41,  3.59it/s] 64%|██████▍   | 239225/371472 [8:00:17<10:19:25,  3.56it/s] 64%|██████▍   | 239226/371472 [8:00:18<10:21:00,  3.55it/s] 64%|██████▍   | 239227/371472 [8:00:18<10:15:22,  3.58it/s] 64%|██████▍   | 239228/371472 [8:00:18<10:52:28,  3.38it/s] 64%|██████▍   | 239229/371472 [8:00:18<10:20:46,  3.55it/s] 64%|██████▍   | 239230/371472 [8:00:19<10:09:38,  3.62it/s] 64%|██████▍   | 239231/371472 [8:00:19<10:29:42,  3.50it/s] 64%|██████▍   | 239232/371472 [8:00:19<10:21:33,  3.55it/s] 64%|██████▍   | 239233/371472 [8:00:20<10:30:25,  3.50it/s] 64%|██████▍   | 239234/371472 [8:00:20<10:22:24,  3.54it/s] 64%|██████▍   | 239235/371472 [8:00:20<10:40:29,  3.44it/s] 64%|██████▍   | 239236/371472 [8:00:20<10:22:03,  3.54it/s] 64%|██████▍   | 239237/371472 [8:00:21<10:15:04,  3.58it/s] 64%|██████▍   | 239238/371472 [8:00:21<10:17:16,  3.57it/s] 64%|██████▍   | 239239/371472 [8:00:21<9:45:05,  3.77it/s]  64%|██████▍   | 239240/371472 [8:00:22<10:45:38,  3.41it/s]                                                            {'loss': 2.8935, 'learning_rate': 4.205434290762567e-07, 'epoch': 10.3}
 64%|██████▍   | 239240/371472 [8:00:22<10:45:38,  3.41it/s] 64%|██████▍   | 239241/371472 [8:00:22<11:10:50,  3.29it/s] 64%|██████▍   | 239242/371472 [8:00:22<10:48:28,  3.40it/s] 64%|██████▍   | 239243/371472 [8:00:22<10:49:01,  3.40it/s] 64%|██████▍   | 239244/371472 [8:00:23<10:27:41,  3.51it/s] 64%|██████▍   | 239245/371472 [8:00:23<10:04:01,  3.65it/s] 64%|██████▍   | 239246/371472 [8:00:23<10:12:19,  3.60it/s] 64%|██████▍   | 239247/371472 [8:00:24<10:17:43,  3.57it/s] 64%|██████▍   | 239248/371472 [8:00:24<9:56:14,  3.70it/s]  64%|██████▍   | 239249/371472 [8:00:24<10:46:53,  3.41it/s] 64%|██████▍   | 239250/371472 [8:00:24<10:11:59,  3.60it/s] 64%|██████▍   | 239251/371472 [8:00:25<10:13:49,  3.59it/s] 64%|██████▍   | 239252/371472 [8:00:25<9:54:39,  3.71it/s]  64%|██████▍   | 239253/371472 [8:00:25<9:55:03,  3.70it/s] 64%|██████▍   | 239254/371472 [8:00:25<9:50:42,  3.73it/s] 64%|██████▍   | 239255/371472 [8:00:26<10:06:57,  3.63it/s] 64%|██████▍   | 239256/371472 [8:00:26<10:34:03,  3.48it/s] 64%|██████▍   | 239257/371472 [8:00:26<10:40:51,  3.44it/s] 64%|██████▍   | 239258/371472 [8:00:27<10:52:53,  3.38it/s] 64%|██████▍   | 239259/371472 [8:00:27<10:52:49,  3.38it/s] 64%|██████▍   | 239260/371472 [8:00:27<10:35:08,  3.47it/s]                                                            {'loss': 2.7257, 'learning_rate': 4.204949471007779e-07, 'epoch': 10.31}
 64%|██████▍   | 239260/371472 [8:00:27<10:35:08,  3.47it/s] 64%|██████▍   | 239261/371472 [8:00:28<10:27:32,  3.51it/s] 64%|██████▍   | 239262/371472 [8:00:28<10:38:37,  3.45it/s] 64%|██████▍   | 239263/371472 [8:00:28<10:10:17,  3.61it/s] 64%|██████▍   | 239264/371472 [8:00:28<10:18:57,  3.56it/s] 64%|██████▍   | 239265/371472 [8:00:29<10:23:07,  3.54it/s] 64%|██████▍   | 239266/371472 [8:00:29<10:05:15,  3.64it/s] 64%|██████▍   | 239267/371472 [8:00:29<10:36:12,  3.46it/s] 64%|██████▍   | 239268/371472 [8:00:30<10:58:22,  3.35it/s] 64%|██████▍   | 239269/371472 [8:00:30<11:01:45,  3.33it/s] 64%|██████▍   | 239270/371472 [8:00:30<11:15:15,  3.26it/s] 64%|██████▍   | 239271/371472 [8:00:30<10:58:03,  3.35it/s] 64%|██████▍   | 239272/371472 [8:00:31<10:42:49,  3.43it/s] 64%|██████▍   | 239273/371472 [8:00:31<11:16:57,  3.25it/s] 64%|██████▍   | 239274/371472 [8:00:31<10:52:30,  3.38it/s] 64%|██████▍   | 239275/371472 [8:00:32<10:46:46,  3.41it/s] 64%|██████▍   | 239276/371472 [8:00:32<10:34:49,  3.47it/s] 64%|██████▍   | 239277/371472 [8:00:32<10:18:54,  3.56it/s] 64%|██████▍   | 239278/371472 [8:00:32<10:24:17,  3.53it/s] 64%|██████▍   | 239279/371472 [8:00:33<9:54:34,  3.71it/s]  64%|██████▍   | 239280/371472 [8:00:33<10:15:14,  3.58it/s]                                                            {'loss': 2.8453, 'learning_rate': 4.2044646512529896e-07, 'epoch': 10.31}
 64%|██████▍   | 239280/371472 [8:00:33<10:15:14,  3.58it/s] 64%|██████▍   | 239281/371472 [8:00:33<10:59:46,  3.34it/s] 64%|██████▍   | 239282/371472 [8:00:34<11:20:57,  3.24it/s] 64%|██████▍   | 239283/371472 [8:00:34<10:34:28,  3.47it/s] 64%|██████▍   | 239284/371472 [8:00:34<10:37:45,  3.45it/s] 64%|██████▍   | 239285/371472 [8:00:34<10:14:36,  3.58it/s] 64%|██████▍   | 239286/371472 [8:00:35<10:21:16,  3.55it/s] 64%|██████▍   | 239287/371472 [8:00:35<10:14:39,  3.58it/s] 64%|██████▍   | 239288/371472 [8:00:35<10:12:53,  3.59it/s] 64%|██████▍   | 239289/371472 [8:00:36<10:16:32,  3.57it/s] 64%|██████▍   | 239290/371472 [8:00:36<10:23:27,  3.53it/s] 64%|██████▍   | 239291/371472 [8:00:36<10:17:22,  3.57it/s] 64%|██████▍   | 239292/371472 [8:00:36<10:02:12,  3.66it/s] 64%|██████▍   | 239293/371472 [8:00:37<10:12:08,  3.60it/s] 64%|██████▍   | 239294/371472 [8:00:37<11:05:50,  3.31it/s] 64%|██████▍   | 239295/371472 [8:00:37<11:03:44,  3.32it/s] 64%|██████▍   | 239296/371472 [8:00:38<10:48:34,  3.40it/s] 64%|██████▍   | 239297/371472 [8:00:38<10:31:37,  3.49it/s] 64%|██████▍   | 239298/371472 [8:00:38<10:03:38,  3.65it/s] 64%|██████▍   | 239299/371472 [8:00:38<9:50:20,  3.73it/s]  64%|██████▍   | 239300/371472 [8:00:39<10:06:56,  3.63it/s]                                                            {'loss': 2.978, 'learning_rate': 4.2039798314982014e-07, 'epoch': 10.31}
 64%|██████▍   | 239300/371472 [8:00:39<10:06:56,  3.63it/s] 64%|██████▍   | 239301/371472 [8:00:39<10:02:36,  3.66it/s] 64%|██████▍   | 239302/371472 [8:00:39<10:01:15,  3.66it/s] 64%|██████▍   | 239303/371472 [8:00:40<10:20:44,  3.55it/s] 64%|██████▍   | 239304/371472 [8:00:40<10:35:25,  3.47it/s] 64%|██████▍   | 239305/371472 [8:00:40<10:14:09,  3.59it/s] 64%|██████▍   | 239306/371472 [8:00:40<9:57:28,  3.69it/s]  64%|██████▍   | 239307/371472 [8:00:41<10:47:33,  3.40it/s] 64%|██████▍   | 239308/371472 [8:00:41<10:30:03,  3.50it/s] 64%|██████▍   | 239309/371472 [8:00:41<10:48:23,  3.40it/s] 64%|██████▍   | 239310/371472 [8:00:42<10:38:51,  3.45it/s] 64%|██████▍   | 239311/371472 [8:00:42<10:25:31,  3.52it/s] 64%|██████▍   | 239312/371472 [8:00:42<10:29:30,  3.50it/s] 64%|██████▍   | 239313/371472 [8:00:42<10:26:46,  3.51it/s] 64%|██████▍   | 239314/371472 [8:00:43<10:13:12,  3.59it/s] 64%|██████▍   | 239315/371472 [8:00:43<10:01:25,  3.66it/s] 64%|██████▍   | 239316/371472 [8:00:43<10:42:15,  3.43it/s] 64%|██████▍   | 239317/371472 [8:00:44<11:05:50,  3.31it/s] 64%|██████▍   | 239318/371472 [8:00:44<10:36:57,  3.46it/s] 64%|██████▍   | 239319/371472 [8:00:44<11:17:42,  3.25it/s] 64%|██████▍   | 239320/371472 [8:00:44<10:43:45,  3.42it/s]                                                            {'loss': 2.8739, 'learning_rate': 4.2034950117434116e-07, 'epoch': 10.31}
 64%|██████▍   | 239320/371472 [8:00:44<10:43:45,  3.42it/s] 64%|██████▍   | 239321/371472 [8:00:45<10:35:59,  3.46it/s] 64%|██████▍   | 239322/371472 [8:00:45<10:15:59,  3.58it/s] 64%|██████▍   | 239323/371472 [8:00:45<10:11:30,  3.60it/s] 64%|██████▍   | 239324/371472 [8:00:46<10:16:51,  3.57it/s] 64%|██████▍   | 239325/371472 [8:00:46<9:51:25,  3.72it/s]  64%|██████▍   | 239326/371472 [8:00:46<9:53:18,  3.71it/s] 64%|██████▍   | 239327/371472 [8:00:46<9:54:36,  3.70it/s] 64%|██████▍   | 239328/371472 [8:00:47<10:11:57,  3.60it/s] 64%|██████▍   | 239329/371472 [8:00:47<10:09:19,  3.61it/s] 64%|██████▍   | 239330/371472 [8:00:47<10:01:59,  3.66it/s] 64%|██████▍   | 239331/371472 [8:00:47<10:44:32,  3.42it/s] 64%|██████▍   | 239332/371472 [8:00:48<10:50:17,  3.39it/s] 64%|██████▍   | 239333/371472 [8:00:48<10:11:52,  3.60it/s] 64%|██████▍   | 239334/371472 [8:00:48<10:09:37,  3.61it/s] 64%|██████▍   | 239335/371472 [8:00:49<10:07:16,  3.63it/s] 64%|██████▍   | 239336/371472 [8:00:49<9:46:06,  3.76it/s]  64%|██████▍   | 239337/371472 [8:00:49<10:12:43,  3.59it/s] 64%|██████▍   | 239338/371472 [8:00:49<9:58:01,  3.68it/s]  64%|██████▍   | 239339/371472 [8:00:50<9:39:29,  3.80it/s] 64%|██████▍   | 239340/371472 [8:00:50<9:28:25,  3.87it/s]                                                           {'loss': 2.9606, 'learning_rate': 4.2030101919886233e-07, 'epoch': 10.31}
 64%|██████▍   | 239340/371472 [8:00:50<9:28:25,  3.87it/s] 64%|██████▍   | 239341/371472 [8:00:50<9:55:27,  3.70it/s] 64%|██████▍   | 239342/371472 [8:00:50<10:11:57,  3.60it/s] 64%|██████▍   | 239343/371472 [8:00:51<10:03:59,  3.65it/s] 64%|██████▍   | 239344/371472 [8:00:51<9:46:42,  3.75it/s]  64%|██████▍   | 239345/371472 [8:00:51<9:43:03,  3.78it/s] 64%|██████▍   | 239346/371472 [8:00:52<9:49:30,  3.74it/s] 64%|██████▍   | 239347/371472 [8:00:52<9:28:25,  3.87it/s] 64%|██████▍   | 239348/371472 [8:00:52<10:24:02,  3.53it/s] 64%|██████▍   | 239349/371472 [8:00:52<10:11:52,  3.60it/s] 64%|██████▍   | 239350/371472 [8:00:53<10:47:30,  3.40it/s] 64%|██████▍   | 239351/371472 [8:00:53<10:24:53,  3.52it/s] 64%|██████▍   | 239352/371472 [8:00:53<10:34:04,  3.47it/s] 64%|██████▍   | 239353/371472 [8:00:54<10:28:31,  3.50it/s] 64%|██████▍   | 239354/371472 [8:00:54<10:26:39,  3.51it/s] 64%|██████▍   | 239355/371472 [8:00:54<9:57:18,  3.69it/s]  64%|██████▍   | 239356/371472 [8:00:54<9:41:04,  3.79it/s] 64%|██████▍   | 239357/371472 [8:00:55<9:42:36,  3.78it/s] 64%|██████▍   | 239358/371472 [8:00:55<9:54:19,  3.70it/s] 64%|██████▍   | 239359/371472 [8:00:55<9:58:05,  3.68it/s] 64%|██████▍   | 239360/371472 [8:00:55<10:01:28,  3.66it/s]                                                            {'loss': 2.8283, 'learning_rate': 4.2025253722338335e-07, 'epoch': 10.31}
 64%|██████▍   | 239360/371472 [8:00:55<10:01:28,  3.66it/s] 64%|██████▍   | 239361/371472 [8:00:56<9:44:55,  3.76it/s]  64%|██████▍   | 239362/371472 [8:00:56<10:00:38,  3.67it/s] 64%|██████▍   | 239363/371472 [8:00:56<10:03:36,  3.65it/s] 64%|██████▍   | 239364/371472 [8:00:57<11:21:33,  3.23it/s] 64%|██████▍   | 239365/371472 [8:00:57<11:14:58,  3.26it/s] 64%|██████▍   | 239366/371472 [8:00:57<10:44:57,  3.41it/s] 64%|██████▍   | 239367/371472 [8:00:57<10:19:36,  3.55it/s] 64%|██████▍   | 239368/371472 [8:00:58<10:09:40,  3.61it/s] 64%|██████▍   | 239369/371472 [8:00:58<11:07:57,  3.30it/s] 64%|██████▍   | 239370/371472 [8:00:58<10:50:37,  3.38it/s] 64%|██████▍   | 239371/371472 [8:00:59<10:36:57,  3.46it/s] 64%|██████▍   | 239372/371472 [8:00:59<10:40:19,  3.44it/s] 64%|██████▍   | 239373/371472 [8:00:59<10:27:25,  3.51it/s] 64%|██████▍   | 239374/371472 [8:00:59<10:03:03,  3.65it/s] 64%|██████▍   | 239375/371472 [8:01:00<10:17:27,  3.57it/s] 64%|██████▍   | 239376/371472 [8:01:00<9:55:02,  3.70it/s]  64%|██████▍   | 239377/371472 [8:01:00<9:43:01,  3.78it/s] 64%|██████▍   | 239378/371472 [8:01:00<9:49:58,  3.73it/s] 64%|██████▍   | 239379/371472 [8:01:01<9:36:48,  3.82it/s] 64%|██████▍   | 239380/371472 [8:01:01<10:00:38,  3.67it/s]                                                            {'loss': 2.9331, 'learning_rate': 4.2020405524790453e-07, 'epoch': 10.31}
 64%|██████▍   | 239380/371472 [8:01:01<10:00:38,  3.67it/s] 64%|██████▍   | 239381/371472 [8:01:01<9:57:36,  3.68it/s]  64%|██████▍   | 239382/371472 [8:01:02<9:57:44,  3.68it/s] 64%|██████▍   | 239383/371472 [8:01:02<9:51:34,  3.72it/s] 64%|██████▍   | 239384/371472 [8:01:02<9:50:31,  3.73it/s] 64%|██████▍   | 239385/371472 [8:01:02<10:21:04,  3.54it/s] 64%|██████▍   | 239386/371472 [8:01:03<10:25:50,  3.52it/s] 64%|██████▍   | 239387/371472 [8:01:03<11:14:07,  3.27it/s] 64%|██████▍   | 239388/371472 [8:01:03<10:48:17,  3.40it/s] 64%|██████▍   | 239389/371472 [8:01:04<10:28:26,  3.50it/s] 64%|██████▍   | 239390/371472 [8:01:04<10:16:19,  3.57it/s] 64%|██████▍   | 239391/371472 [8:01:04<10:17:31,  3.56it/s] 64%|██████▍   | 239392/371472 [8:01:04<10:09:20,  3.61it/s] 64%|██████▍   | 239393/371472 [8:01:05<10:08:54,  3.62it/s] 64%|██████▍   | 239394/371472 [8:01:05<10:42:53,  3.42it/s] 64%|██████▍   | 239395/371472 [8:01:05<10:31:17,  3.49it/s] 64%|██████▍   | 239396/371472 [8:01:06<10:17:38,  3.56it/s] 64%|██████▍   | 239397/371472 [8:01:06<11:03:21,  3.32it/s] 64%|██████▍   | 239398/371472 [8:01:06<11:42:48,  3.13it/s] 64%|██████▍   | 239399/371472 [8:01:07<11:20:56,  3.23it/s] 64%|██████▍   | 239400/371472 [8:01:07<11:02:08,  3.32it/s]                                                            {'loss': 2.8145, 'learning_rate': 4.201555732724256e-07, 'epoch': 10.31}
 64%|██████▍   | 239400/371472 [8:01:07<11:02:08,  3.32it/s] 64%|██████▍   | 239401/371472 [8:01:07<10:38:22,  3.45it/s] 64%|██████▍   | 239402/371472 [8:01:07<10:43:02,  3.42it/s] 64%|██████▍   | 239403/371472 [8:01:08<10:22:32,  3.54it/s] 64%|██████▍   | 239404/371472 [8:01:08<10:06:10,  3.63it/s] 64%|██████▍   | 239405/371472 [8:01:08<9:49:27,  3.73it/s]  64%|██████▍   | 239406/371472 [8:01:09<10:35:27,  3.46it/s] 64%|██████▍   | 239407/371472 [8:01:09<10:13:55,  3.59it/s] 64%|██████▍   | 239408/371472 [8:01:09<10:07:24,  3.62it/s] 64%|██████▍   | 239409/371472 [8:01:09<10:09:11,  3.61it/s] 64%|██████▍   | 239410/371472 [8:01:10<10:17:14,  3.57it/s] 64%|██████▍   | 239411/371472 [8:01:10<10:03:31,  3.65it/s] 64%|██████▍   | 239412/371472 [8:01:10<11:23:53,  3.22it/s] 64%|██████▍   | 239413/371472 [8:01:11<10:50:01,  3.39it/s] 64%|██████▍   | 239414/371472 [8:01:11<10:41:15,  3.43it/s] 64%|██████▍   | 239415/371472 [8:01:11<10:38:28,  3.45it/s] 64%|██████▍   | 239416/371472 [8:01:11<10:25:54,  3.52it/s] 64%|██████▍   | 239417/371472 [8:01:12<10:43:40,  3.42it/s] 64%|██████▍   | 239418/371472 [8:01:12<10:14:45,  3.58it/s] 64%|██████▍   | 239419/371472 [8:01:12<9:58:38,  3.68it/s]  64%|██████▍   | 239420/371472 [8:01:12<9:50:15,  3.73it/s]                                                           {'loss': 2.8592, 'learning_rate': 4.2010709129694667e-07, 'epoch': 10.31}
 64%|██████▍   | 239420/371472 [8:01:12<9:50:15,  3.73it/s] 64%|██████▍   | 239421/371472 [8:01:13<9:54:23,  3.70it/s] 64%|██████▍   | 239422/371472 [8:01:13<10:06:48,  3.63it/s] 64%|██████▍   | 239423/371472 [8:01:13<10:05:35,  3.63it/s] 64%|██████▍   | 239424/371472 [8:01:14<10:32:14,  3.48it/s] 64%|██████▍   | 239425/371472 [8:01:14<10:40:17,  3.44it/s] 64%|██████▍   | 239426/371472 [8:01:14<11:03:39,  3.32it/s] 64%|██████▍   | 239427/371472 [8:01:14<10:49:08,  3.39it/s] 64%|██████▍   | 239428/371472 [8:01:15<10:25:01,  3.52it/s] 64%|██████▍   | 239429/371472 [8:01:15<10:49:38,  3.39it/s] 64%|██████▍   | 239430/371472 [8:01:15<10:42:53,  3.42it/s] 64%|██████▍   | 239431/371472 [8:01:16<10:31:21,  3.49it/s] 64%|██████▍   | 239432/371472 [8:01:16<10:05:00,  3.64it/s] 64%|██████▍   | 239433/371472 [8:01:16<10:00:03,  3.67it/s] 64%|██████▍   | 239434/371472 [8:01:17<11:36:36,  3.16it/s] 64%|██████▍   | 239435/371472 [8:01:17<11:09:51,  3.29it/s] 64%|██████▍   | 239436/371472 [8:01:17<10:55:10,  3.36it/s] 64%|██████▍   | 239437/371472 [8:01:17<10:35:00,  3.47it/s] 64%|██████▍   | 239438/371472 [8:01:18<11:19:35,  3.24it/s] 64%|██████▍   | 239439/371472 [8:01:18<10:57:17,  3.35it/s] 64%|██████▍   | 239440/371472 [8:01:18<11:13:00,  3.27it/s]                                                            {'loss': 2.8084, 'learning_rate': 4.200586093214678e-07, 'epoch': 10.31}
 64%|██████▍   | 239440/371472 [8:01:18<11:13:00,  3.27it/s] 64%|██████▍   | 239441/371472 [8:01:19<10:45:11,  3.41it/s] 64%|██████▍   | 239442/371472 [8:01:19<10:30:40,  3.49it/s] 64%|██████▍   | 239443/371472 [8:01:19<10:39:21,  3.44it/s] 64%|██████▍   | 239444/371472 [8:01:19<10:27:15,  3.51it/s] 64%|██████▍   | 239445/371472 [8:01:20<10:18:27,  3.56it/s] 64%|██████▍   | 239446/371472 [8:01:20<10:12:51,  3.59it/s] 64%|██████▍   | 239447/371472 [8:01:20<10:52:14,  3.37it/s] 64%|██████▍   | 239448/371472 [8:01:21<10:58:11,  3.34it/s] 64%|██████▍   | 239449/371472 [8:01:21<10:29:53,  3.49it/s] 64%|██████▍   | 239450/371472 [8:01:21<10:21:20,  3.54it/s] 64%|██████▍   | 239451/371472 [8:01:21<10:29:27,  3.50it/s] 64%|██████▍   | 239452/371472 [8:01:22<10:13:43,  3.59it/s] 64%|██████▍   | 239453/371472 [8:01:22<10:29:35,  3.49it/s] 64%|██████▍   | 239454/371472 [8:01:22<11:27:34,  3.20it/s] 64%|██████▍   | 239455/371472 [8:01:23<11:32:14,  3.18it/s] 64%|██████▍   | 239456/371472 [8:01:23<11:02:56,  3.32it/s] 64%|██████▍   | 239457/371472 [8:01:23<11:00:51,  3.33it/s] 64%|██████▍   | 239458/371472 [8:01:24<11:05:33,  3.31it/s] 64%|██████▍   | 239459/371472 [8:01:24<10:35:01,  3.46it/s] 64%|██████▍   | 239460/371472 [8:01:24<10:30:35,  3.49it/s]                                                            {'loss': 2.7075, 'learning_rate': 4.200101273459889e-07, 'epoch': 10.31}
 64%|██████▍   | 239460/371472 [8:01:24<10:30:35,  3.49it/s] 64%|██████▍   | 239461/371472 [8:01:24<10:33:44,  3.47it/s] 64%|██████▍   | 239462/371472 [8:01:25<10:40:05,  3.44it/s] 64%|██████▍   | 239463/371472 [8:01:25<10:23:56,  3.53it/s] 64%|██████▍   | 239464/371472 [8:01:25<10:46:39,  3.40it/s] 64%|██████▍   | 239465/371472 [8:01:26<10:29:18,  3.50it/s] 64%|██████▍   | 239466/371472 [8:01:26<10:48:06,  3.39it/s] 64%|██████▍   | 239467/371472 [8:01:26<11:29:33,  3.19it/s] 64%|██████▍   | 239468/371472 [8:01:26<10:48:08,  3.39it/s] 64%|██████▍   | 239469/371472 [8:01:27<10:39:20,  3.44it/s] 64%|██████▍   | 239470/371472 [8:01:27<10:22:13,  3.54it/s] 64%|██████▍   | 239471/371472 [8:01:27<10:03:00,  3.65it/s] 64%|██████▍   | 239472/371472 [8:01:28<10:23:34,  3.53it/s] 64%|██████▍   | 239473/371472 [8:01:28<10:25:21,  3.52it/s] 64%|██████▍   | 239474/371472 [8:01:28<11:00:03,  3.33it/s] 64%|██████▍   | 239475/371472 [8:01:29<11:11:36,  3.28it/s] 64%|██████▍   | 239476/371472 [8:01:29<10:42:07,  3.43it/s] 64%|██████▍   | 239477/371472 [8:01:29<10:33:21,  3.47it/s] 64%|██████▍   | 239478/371472 [8:01:29<10:16:44,  3.57it/s] 64%|██████▍   | 239479/371472 [8:01:30<10:29:11,  3.50it/s] 64%|██████▍   | 239480/371472 [8:01:30<11:06:34,  3.30it/s]                                                            {'loss': 2.7826, 'learning_rate': 4.1996164537051005e-07, 'epoch': 10.31}
 64%|██████▍   | 239480/371472 [8:01:30<11:06:34,  3.30it/s] 64%|██████▍   | 239481/371472 [8:01:30<11:13:42,  3.27it/s] 64%|██████▍   | 239482/371472 [8:01:31<11:36:50,  3.16it/s] 64%|██████▍   | 239483/371472 [8:01:31<11:22:36,  3.22it/s] 64%|██████▍   | 239484/371472 [8:01:31<10:54:37,  3.36it/s] 64%|██████▍   | 239485/371472 [8:01:31<10:47:43,  3.40it/s] 64%|██████▍   | 239486/371472 [8:01:32<10:43:21,  3.42it/s] 64%|██████▍   | 239487/371472 [8:01:32<10:29:59,  3.49it/s] 64%|██████▍   | 239488/371472 [8:01:32<10:43:22,  3.42it/s] 64%|██████▍   | 239489/371472 [8:01:33<10:38:06,  3.45it/s] 64%|██████▍   | 239490/371472 [8:01:33<10:24:47,  3.52it/s] 64%|██████▍   | 239491/371472 [8:01:33<10:21:14,  3.54it/s] 64%|██████▍   | 239492/371472 [8:01:33<10:19:08,  3.55it/s] 64%|██████▍   | 239493/371472 [8:01:34<10:05:32,  3.63it/s] 64%|██████▍   | 239494/371472 [8:01:34<10:03:13,  3.65it/s] 64%|██████▍   | 239495/371472 [8:01:34<9:53:28,  3.71it/s]  64%|██████▍   | 239496/371472 [8:01:35<9:50:39,  3.72it/s] 64%|██████▍   | 239497/371472 [8:01:35<9:52:23,  3.71it/s] 64%|██████▍   | 239498/371472 [8:01:35<10:01:26,  3.66it/s] 64%|██████▍   | 239499/371472 [8:01:35<10:09:30,  3.61it/s] 64%|██████▍   | 239500/371472 [8:01:36<9:53:41,  3.70it/s]                                                            {'loss': 2.9542, 'learning_rate': 4.1991316339503107e-07, 'epoch': 10.32}
 64%|██████▍   | 239500/371472 [8:01:36<9:53:41,  3.70it/s] 64%|██████▍   | 239501/371472 [8:01:36<9:56:35,  3.69it/s] 64%|██████▍   | 239502/371472 [8:01:36<9:59:29,  3.67it/s] 64%|██████▍   | 239503/371472 [8:01:37<10:56:22,  3.35it/s] 64%|██████▍   | 239504/371472 [8:01:37<10:49:57,  3.38it/s] 64%|██████▍   | 239505/371472 [8:01:37<10:53:35,  3.37it/s] 64%|██████▍   | 239506/371472 [8:01:37<10:30:22,  3.49it/s] 64%|██████▍   | 239507/371472 [8:01:38<10:18:52,  3.55it/s] 64%|██████▍   | 239508/371472 [8:01:38<10:23:55,  3.53it/s] 64%|██████▍   | 239509/371472 [8:01:38<10:00:05,  3.67it/s] 64%|██████▍   | 239510/371472 [8:01:38<10:04:48,  3.64it/s] 64%|██████▍   | 239511/371472 [8:01:39<9:52:48,  3.71it/s]  64%|██████▍   | 239512/371472 [8:01:39<10:07:42,  3.62it/s] 64%|██████▍   | 239513/371472 [8:01:39<10:12:50,  3.59it/s] 64%|██████▍   | 239514/371472 [8:01:40<9:42:43,  3.77it/s]  64%|██████▍   | 239515/371472 [8:01:40<10:15:53,  3.57it/s] 64%|██████▍   | 239516/371472 [8:01:40<10:26:01,  3.51it/s] 64%|██████▍   | 239517/371472 [8:01:40<10:15:48,  3.57it/s] 64%|██████▍   | 239518/371472 [8:01:41<10:29:44,  3.49it/s] 64%|██████▍   | 239519/371472 [8:01:41<10:20:50,  3.54it/s] 64%|██████▍   | 239520/371472 [8:01:41<10:01:56,  3.65it/s]                                                            {'loss': 2.7922, 'learning_rate': 4.1986468141955224e-07, 'epoch': 10.32}
 64%|██████▍   | 239520/371472 [8:01:41<10:01:56,  3.65it/s] 64%|██████▍   | 239521/371472 [8:01:41<9:52:02,  3.71it/s]  64%|██████▍   | 239522/371472 [8:01:42<9:44:16,  3.76it/s] 64%|██████▍   | 239523/371472 [8:01:42<9:47:40,  3.74it/s] 64%|██████▍   | 239524/371472 [8:01:42<9:41:17,  3.78it/s] 64%|██████▍   | 239525/371472 [8:01:43<9:57:48,  3.68it/s] 64%|██████▍   | 239526/371472 [8:01:43<10:15:16,  3.57it/s] 64%|██████▍   | 239527/371472 [8:01:43<9:59:47,  3.67it/s]  64%|██████▍   | 239528/371472 [8:01:43<9:44:48,  3.76it/s] 64%|██████▍   | 239529/371472 [8:01:44<9:37:06,  3.81it/s] 64%|██████▍   | 239530/371472 [8:01:44<9:40:57,  3.79it/s] 64%|██████▍   | 239531/371472 [8:01:44<9:26:42,  3.88it/s] 64%|██████▍   | 239532/371472 [8:01:44<9:48:59,  3.73it/s] 64%|██████▍   | 239533/371472 [8:01:45<10:08:01,  3.62it/s] 64%|██████▍   | 239534/371472 [8:01:45<10:16:59,  3.56it/s] 64%|██████▍   | 239535/371472 [8:01:45<9:59:44,  3.67it/s]  64%|██████▍   | 239536/371472 [8:01:46<9:47:01,  3.75it/s] 64%|██████▍   | 239537/371472 [8:01:46<10:21:30,  3.54it/s] 64%|██████▍   | 239538/371472 [8:01:46<10:24:13,  3.52it/s] 64%|██████▍   | 239539/371472 [8:01:46<10:03:19,  3.64it/s] 64%|██████▍   | 239540/371472 [8:01:47<10:56:07,  3.35it/s]                                                            {'loss': 2.9649, 'learning_rate': 4.198161994440733e-07, 'epoch': 10.32}
 64%|██████▍   | 239540/371472 [8:01:47<10:56:07,  3.35it/s] 64%|██████▍   | 239541/371472 [8:01:47<10:25:59,  3.51it/s] 64%|██████▍   | 239542/371472 [8:01:47<9:55:10,  3.69it/s]  64%|██████▍   | 239543/371472 [8:01:48<9:56:51,  3.68it/s] 64%|██████▍   | 239544/371472 [8:01:48<9:49:35,  3.73it/s] 64%|██████▍   | 239545/371472 [8:01:48<10:29:45,  3.49it/s] 64%|██████▍   | 239546/371472 [8:01:48<10:08:04,  3.62it/s] 64%|██████▍   | 239547/371472 [8:01:49<10:03:16,  3.64it/s] 64%|██████▍   | 239548/371472 [8:01:49<10:16:11,  3.57it/s] 64%|██████▍   | 239549/371472 [8:01:49<9:59:18,  3.67it/s]  64%|██████▍   | 239550/371472 [8:01:49<9:57:42,  3.68it/s] 64%|██████▍   | 239551/371472 [8:01:50<9:40:13,  3.79it/s] 64%|██████▍   | 239552/371472 [8:01:50<9:40:06,  3.79it/s] 64%|██████▍   | 239553/371472 [8:01:50<9:53:22,  3.71it/s] 64%|██████▍   | 239554/371472 [8:01:51<10:27:34,  3.50it/s] 64%|██████▍   | 239555/371472 [8:01:51<10:18:53,  3.55it/s] 64%|██████▍   | 239556/371472 [8:01:51<10:16:01,  3.57it/s] 64%|██████▍   | 239557/371472 [8:01:51<9:59:54,  3.66it/s]  64%|██████▍   | 239558/371472 [8:01:52<9:42:10,  3.78it/s] 64%|██████▍   | 239559/371472 [8:01:52<9:55:25,  3.69it/s] 64%|██████▍   | 239560/371472 [8:01:52<10:01:45,  3.65it/s]                                                            {'loss': 2.9466, 'learning_rate': 4.1976771746859444e-07, 'epoch': 10.32}
 64%|██████▍   | 239560/371472 [8:01:52<10:01:45,  3.65it/s] 64%|██████▍   | 239561/371472 [8:01:52<10:12:54,  3.59it/s] 64%|██████▍   | 239562/371472 [8:01:53<10:18:03,  3.56it/s] 64%|██████▍   | 239563/371472 [8:01:53<10:04:38,  3.64it/s] 64%|██████▍   | 239564/371472 [8:01:53<10:16:08,  3.57it/s] 64%|██████▍   | 239565/371472 [8:01:54<9:38:58,  3.80it/s]  64%|██████▍   | 239566/371472 [8:01:54<10:23:08,  3.53it/s] 64%|██████▍   | 239567/371472 [8:01:54<10:00:15,  3.66it/s] 64%|██████▍   | 239568/371472 [8:01:54<10:18:42,  3.55it/s] 64%|██████▍   | 239569/371472 [8:01:55<9:55:22,  3.69it/s]  64%|██████▍   | 239570/371472 [8:01:55<10:15:34,  3.57it/s] 64%|██████▍   | 239571/371472 [8:01:55<11:26:09,  3.20it/s] 64%|██████▍   | 239572/371472 [8:01:56<11:14:37,  3.26it/s] 64%|██████▍   | 239573/371472 [8:01:56<11:28:03,  3.19it/s] 64%|██████▍   | 239574/371472 [8:01:56<10:47:01,  3.40it/s] 64%|██████▍   | 239575/371472 [8:01:56<10:42:25,  3.42it/s] 64%|██████▍   | 239576/371472 [8:01:57<10:31:28,  3.48it/s] 64%|██████▍   | 239577/371472 [8:01:57<10:09:28,  3.61it/s] 64%|██████▍   | 239578/371472 [8:01:57<9:40:45,  3.79it/s]  64%|██████▍   | 239579/371472 [8:01:58<9:55:58,  3.69it/s] 64%|██████▍   | 239580/371472 [8:01:58<9:54:38,  3.70it/s]                                                           {'loss': 2.9064, 'learning_rate': 4.197192354931155e-07, 'epoch': 10.32}
 64%|██████▍   | 239580/371472 [8:01:58<9:54:38,  3.70it/s] 64%|██████▍   | 239581/371472 [8:01:58<10:07:37,  3.62it/s] 64%|██████▍   | 239582/371472 [8:01:58<10:30:21,  3.49it/s] 64%|██████▍   | 239583/371472 [8:01:59<10:39:49,  3.44it/s] 64%|██████▍   | 239584/371472 [8:01:59<10:28:58,  3.49it/s] 64%|██████▍   | 239585/371472 [8:01:59<11:27:06,  3.20it/s] 64%|██████▍   | 239586/371472 [8:02:00<10:52:03,  3.37it/s] 64%|██████▍   | 239587/371472 [8:02:00<10:23:24,  3.53it/s] 64%|██████▍   | 239588/371472 [8:02:00<10:01:45,  3.65it/s] 64%|██████▍   | 239589/371472 [8:02:00<9:48:24,  3.74it/s]  64%|██████▍   | 239590/371472 [8:02:01<10:38:11,  3.44it/s] 64%|██████▍   | 239591/371472 [8:02:01<10:17:17,  3.56it/s] 64%|██████▍   | 239592/371472 [8:02:01<10:22:30,  3.53it/s] 64%|██████▍   | 239593/371472 [8:02:02<10:42:17,  3.42it/s] 64%|██████▍   | 239594/371472 [8:02:02<11:37:37,  3.15it/s] 64%|██████▍   | 239595/371472 [8:02:02<11:00:20,  3.33it/s] 64%|██████▍   | 239596/371472 [8:02:02<10:34:43,  3.46it/s] 64%|██████▍   | 239597/371472 [8:02:03<10:20:47,  3.54it/s] 64%|██████▍   | 239598/371472 [8:02:03<10:10:37,  3.60it/s] 64%|██████▍   | 239599/371472 [8:02:03<10:17:15,  3.56it/s] 65%|██████▍   | 239600/371472 [8:02:04<10:21:12,  3.54it/s]                                                            {'loss': 2.856, 'learning_rate': 4.196707535176367e-07, 'epoch': 10.32}
 65%|██████▍   | 239600/371472 [8:02:04<10:21:12,  3.54it/s] 65%|██████▍   | 239601/371472 [8:02:04<10:30:27,  3.49it/s] 65%|██████▍   | 239602/371472 [8:02:04<10:30:21,  3.49it/s] 65%|██████▍   | 239603/371472 [8:02:05<11:28:01,  3.19it/s] 65%|██████▍   | 239604/371472 [8:02:05<11:22:13,  3.22it/s] 65%|██████▍   | 239605/371472 [8:02:05<10:55:23,  3.35it/s] 65%|██████▍   | 239606/371472 [8:02:05<10:31:22,  3.48it/s] 65%|██████▍   | 239607/371472 [8:02:06<10:11:33,  3.59it/s] 65%|██████▍   | 239608/371472 [8:02:06<9:53:27,  3.70it/s]  65%|██████▍   | 239609/371472 [8:02:06<9:52:03,  3.71it/s] 65%|██████▍   | 239610/371472 [8:02:07<10:36:42,  3.45it/s] 65%|██████▍   | 239611/371472 [8:02:07<10:37:49,  3.45it/s] 65%|██████▍   | 239612/371472 [8:02:07<10:47:30,  3.39it/s] 65%|██████▍   | 239613/371472 [8:02:07<10:24:35,  3.52it/s] 65%|██████▍   | 239614/371472 [8:02:08<10:54:55,  3.36it/s] 65%|██████▍   | 239615/371472 [8:02:08<10:25:11,  3.52it/s] 65%|██████▍   | 239616/371472 [8:02:08<10:24:51,  3.52it/s] 65%|██████▍   | 239617/371472 [8:02:08<10:14:41,  3.58it/s] 65%|██████▍   | 239618/371472 [8:02:09<10:08:30,  3.61it/s] 65%|██████▍   | 239619/371472 [8:02:09<10:07:35,  3.62it/s] 65%|██████▍   | 239620/371472 [8:02:09<11:02:42,  3.32it/s]                                                            {'loss': 2.7955, 'learning_rate': 4.196222715421577e-07, 'epoch': 10.32}
 65%|██████▍   | 239620/371472 [8:02:09<11:02:42,  3.32it/s] 65%|██████▍   | 239621/371472 [8:02:10<10:35:59,  3.46it/s] 65%|██████▍   | 239622/371472 [8:02:10<10:31:05,  3.48it/s] 65%|██████▍   | 239623/371472 [8:02:10<10:39:10,  3.44it/s] 65%|██████▍   | 239624/371472 [8:02:11<10:25:44,  3.51it/s] 65%|██████▍   | 239625/371472 [8:02:11<11:17:50,  3.24it/s] 65%|██████▍   | 239626/371472 [8:02:11<11:06:45,  3.30it/s] 65%|██████▍   | 239627/371472 [8:02:12<12:35:01,  2.91it/s] 65%|██████▍   | 239628/371472 [8:02:12<12:29:39,  2.93it/s] 65%|██████▍   | 239629/371472 [8:02:12<11:53:30,  3.08it/s] 65%|██████▍   | 239630/371472 [8:02:13<11:37:57,  3.15it/s] 65%|██████▍   | 239631/371472 [8:02:13<11:41:54,  3.13it/s] 65%|██████▍   | 239632/371472 [8:02:13<11:02:35,  3.32it/s] 65%|██████▍   | 239633/371472 [8:02:13<10:47:19,  3.39it/s] 65%|██████▍   | 239634/371472 [8:02:14<10:29:09,  3.49it/s] 65%|██████▍   | 239635/371472 [8:02:14<10:14:33,  3.58it/s] 65%|██████▍   | 239636/371472 [8:02:14<10:53:41,  3.36it/s] 65%|██████▍   | 239637/371472 [8:02:15<10:47:38,  3.39it/s] 65%|██████▍   | 239638/371472 [8:02:15<11:15:48,  3.25it/s] 65%|██████▍   | 239639/371472 [8:02:15<10:37:19,  3.45it/s] 65%|██████▍   | 239640/371472 [8:02:15<10:18:54,  3.55it/s]                                                            {'loss': 2.7034, 'learning_rate': 4.195737895666789e-07, 'epoch': 10.32}
 65%|██████▍   | 239640/371472 [8:02:15<10:18:54,  3.55it/s] 65%|██████▍   | 239641/371472 [8:02:16<10:35:51,  3.46it/s] 65%|██████▍   | 239642/371472 [8:02:16<10:32:22,  3.47it/s] 65%|██████▍   | 239643/371472 [8:02:16<10:20:12,  3.54it/s] 65%|██████▍   | 239644/371472 [8:02:17<11:08:28,  3.29it/s] 65%|██████▍   | 239645/371472 [8:02:17<11:08:57,  3.28it/s] 65%|██████▍   | 239646/371472 [8:02:17<10:32:45,  3.47it/s] 65%|██████▍   | 239647/371472 [8:02:17<10:14:13,  3.58it/s] 65%|██████▍   | 239648/371472 [8:02:18<9:59:49,  3.66it/s]  65%|██████▍   | 239649/371472 [8:02:18<10:00:30,  3.66it/s] 65%|██████▍   | 239650/371472 [8:02:18<10:09:02,  3.61it/s] 65%|██████▍   | 239651/371472 [8:02:19<9:51:24,  3.71it/s]  65%|██████▍   | 239652/371472 [8:02:19<9:58:06,  3.67it/s] 65%|██████▍   | 239653/371472 [8:02:19<9:54:49,  3.69it/s] 65%|██████▍   | 239654/371472 [8:02:19<9:42:30,  3.77it/s] 65%|██████▍   | 239655/371472 [8:02:20<10:08:01,  3.61it/s] 65%|██████▍   | 239656/371472 [8:02:20<10:04:53,  3.63it/s] 65%|██████▍   | 239657/371472 [8:02:20<10:04:12,  3.64it/s] 65%|██████▍   | 239658/371472 [8:02:20<10:41:24,  3.43it/s] 65%|██████▍   | 239659/371472 [8:02:21<10:25:59,  3.51it/s] 65%|██████▍   | 239660/371472 [8:02:21<10:50:17,  3.38it/s]                                                            {'loss': 2.8718, 'learning_rate': 4.1952530759119995e-07, 'epoch': 10.32}
 65%|██████▍   | 239660/371472 [8:02:21<10:50:17,  3.38it/s] 65%|██████▍   | 239661/371472 [8:02:21<10:33:44,  3.47it/s] 65%|██████▍   | 239662/371472 [8:02:22<10:33:30,  3.47it/s] 65%|██████▍   | 239663/371472 [8:02:22<10:27:44,  3.50it/s] 65%|██████▍   | 239664/371472 [8:02:22<10:11:13,  3.59it/s] 65%|██████▍   | 239665/371472 [8:02:22<10:26:47,  3.50it/s] 65%|██████▍   | 239666/371472 [8:02:23<10:23:18,  3.52it/s] 65%|██████▍   | 239667/371472 [8:02:23<10:10:49,  3.60it/s] 65%|██████▍   | 239668/371472 [8:02:23<10:29:22,  3.49it/s] 65%|██████▍   | 239669/371472 [8:02:24<10:35:57,  3.45it/s] 65%|██████▍   | 239670/371472 [8:02:24<10:11:23,  3.59it/s] 65%|██████▍   | 239671/371472 [8:02:24<9:43:02,  3.77it/s]  65%|██████▍   | 239672/371472 [8:02:24<11:00:07,  3.33it/s] 65%|██████▍   | 239673/371472 [8:02:25<10:39:31,  3.43it/s] 65%|██████▍   | 239674/371472 [8:02:25<10:22:32,  3.53it/s] 65%|██████▍   | 239675/371472 [8:02:25<10:00:24,  3.66it/s] 65%|██████▍   | 239676/371472 [8:02:26<9:36:51,  3.81it/s]  65%|██████▍   | 239677/371472 [8:02:26<9:32:00,  3.84it/s] 65%|██████▍   | 239678/371472 [8:02:26<9:47:01,  3.74it/s] 65%|██████▍   | 239679/371472 [8:02:26<10:06:18,  3.62it/s] 65%|██████▍   | 239680/371472 [8:02:27<10:02:01,  3.65it/s]                                                            {'loss': 2.9219, 'learning_rate': 4.194768256157211e-07, 'epoch': 10.32}
 65%|██████▍   | 239680/371472 [8:02:27<10:02:01,  3.65it/s] 65%|██████▍   | 239681/371472 [8:02:27<10:16:49,  3.56it/s] 65%|██████▍   | 239682/371472 [8:02:27<10:23:22,  3.52it/s] 65%|██████▍   | 239683/371472 [8:02:27<9:58:45,  3.67it/s]  65%|██████▍   | 239684/371472 [8:02:28<10:28:24,  3.50it/s] 65%|██████▍   | 239685/371472 [8:02:28<10:31:58,  3.48it/s] 65%|██████▍   | 239686/371472 [8:02:28<10:25:19,  3.51it/s] 65%|██████▍   | 239687/371472 [8:02:29<10:19:45,  3.54it/s] 65%|██████▍   | 239688/371472 [8:02:29<10:05:15,  3.63it/s] 65%|██████▍   | 239689/371472 [8:02:29<9:59:06,  3.67it/s]  65%|██████▍   | 239690/371472 [8:02:29<9:42:34,  3.77it/s] 65%|██████▍   | 239691/371472 [8:02:30<9:45:07,  3.75it/s] 65%|██████▍   | 239692/371472 [8:02:30<9:48:02,  3.73it/s] 65%|██████▍   | 239693/371472 [8:02:30<9:45:33,  3.75it/s] 65%|██████▍   | 239694/371472 [8:02:30<9:58:01,  3.67it/s] 65%|██████▍   | 239695/371472 [8:02:31<9:58:53,  3.67it/s] 65%|██████▍   | 239696/371472 [8:02:31<10:06:53,  3.62it/s] 65%|██████▍   | 239697/371472 [8:02:31<9:56:30,  3.68it/s]  65%|██████▍   | 239698/371472 [8:02:32<9:48:59,  3.73it/s] 65%|██████▍   | 239699/371472 [8:02:32<10:50:51,  3.37it/s] 65%|██████▍   | 239700/371472 [8:02:32<10:24:45,  3.52it/s]                                                            {'loss': 2.9832, 'learning_rate': 4.1942834364024215e-07, 'epoch': 10.32}
 65%|██████▍   | 239700/371472 [8:02:32<10:24:45,  3.52it/s] 65%|██████▍   | 239701/371472 [8:02:32<10:24:18,  3.52it/s] 65%|██████▍   | 239702/371472 [8:02:33<10:31:12,  3.48it/s] 65%|██████▍   | 239703/371472 [8:02:33<11:02:02,  3.32it/s] 65%|██████▍   | 239704/371472 [8:02:33<11:08:00,  3.29it/s] 65%|██████▍   | 239705/371472 [8:02:34<11:35:49,  3.16it/s] 65%|██████▍   | 239706/371472 [8:02:34<11:36:25,  3.15it/s] 65%|██████▍   | 239707/371472 [8:02:34<11:16:48,  3.24it/s] 65%|██████▍   | 239708/371472 [8:02:35<11:07:14,  3.29it/s] 65%|██████▍   | 239709/371472 [8:02:35<10:29:29,  3.49it/s] 65%|██████▍   | 239710/371472 [8:02:35<10:23:17,  3.52it/s] 65%|██████▍   | 239711/371472 [8:02:35<10:12:26,  3.59it/s] 65%|██████▍   | 239712/371472 [8:02:36<10:17:00,  3.56it/s] 65%|██████▍   | 239713/371472 [8:02:36<10:10:01,  3.60it/s] 65%|██████▍   | 239714/371472 [8:02:36<10:01:20,  3.65it/s] 65%|██████▍   | 239715/371472 [8:02:37<10:22:44,  3.53it/s] 65%|██████▍   | 239716/371472 [8:02:37<11:04:18,  3.31it/s] 65%|██████▍   | 239717/371472 [8:02:37<11:10:35,  3.27it/s] 65%|██████▍   | 239718/371472 [8:02:37<10:48:03,  3.39it/s] 65%|██████▍   | 239719/371472 [8:02:38<10:27:45,  3.50it/s] 65%|██████▍   | 239720/371472 [8:02:38<10:21:18,  3.53it/s]                                                            {'loss': 2.8878, 'learning_rate': 4.193798616647633e-07, 'epoch': 10.33}
 65%|██████▍   | 239720/371472 [8:02:38<10:21:18,  3.53it/s] 65%|██████▍   | 239721/371472 [8:02:38<11:07:19,  3.29it/s] 65%|██████▍   | 239722/371472 [8:02:39<11:13:31,  3.26it/s] 65%|██████▍   | 239723/371472 [8:02:39<10:39:52,  3.43it/s] 65%|██████▍   | 239724/371472 [8:02:39<10:25:26,  3.51it/s] 65%|██████▍   | 239725/371472 [8:02:40<10:23:46,  3.52it/s] 65%|██████▍   | 239726/371472 [8:02:40<10:33:30,  3.47it/s] 65%|██████▍   | 239727/371472 [8:02:40<10:18:22,  3.55it/s] 65%|██████▍   | 239728/371472 [8:02:40<10:05:44,  3.62it/s] 65%|██████▍   | 239729/371472 [8:02:41<10:00:19,  3.66it/s] 65%|██████▍   | 239730/371472 [8:02:41<10:08:26,  3.61it/s] 65%|██████▍   | 239731/371472 [8:02:41<11:02:27,  3.31it/s] 65%|██████▍   | 239732/371472 [8:02:41<10:20:34,  3.54it/s] 65%|██████▍   | 239733/371472 [8:02:42<11:09:29,  3.28it/s] 65%|██████▍   | 239734/371472 [8:02:42<10:51:50,  3.37it/s] 65%|██████▍   | 239735/371472 [8:02:42<10:44:59,  3.40it/s] 65%|██████▍   | 239736/371472 [8:02:43<11:48:59,  3.10it/s] 65%|██████▍   | 239737/371472 [8:02:43<11:15:56,  3.25it/s] 65%|██████▍   | 239738/371472 [8:02:43<10:59:29,  3.33it/s] 65%|██████▍   | 239739/371472 [8:02:44<10:51:41,  3.37it/s] 65%|██████▍   | 239740/371472 [8:02:44<10:23:29,  3.52it/s]                                                            {'loss': 2.9684, 'learning_rate': 4.1933137968928435e-07, 'epoch': 10.33}
 65%|██████▍   | 239740/371472 [8:02:44<10:23:29,  3.52it/s] 65%|██████▍   | 239741/371472 [8:02:44<10:49:14,  3.38it/s] 65%|██████▍   | 239742/371472 [8:02:45<10:56:15,  3.35it/s] 65%|██████▍   | 239743/371472 [8:02:45<10:41:24,  3.42it/s] 65%|██████▍   | 239744/371472 [8:02:45<10:24:28,  3.52it/s] 65%|██████▍   | 239745/371472 [8:02:45<10:22:28,  3.53it/s] 65%|██████▍   | 239746/371472 [8:02:46<10:16:09,  3.56it/s] 65%|██████▍   | 239747/371472 [8:02:46<9:59:21,  3.66it/s]  65%|██████▍   | 239748/371472 [8:02:46<10:38:27,  3.44it/s] 65%|██████▍   | 239749/371472 [8:02:46<10:28:05,  3.50it/s] 65%|██████▍   | 239750/371472 [8:02:47<10:36:07,  3.45it/s] 65%|██████▍   | 239751/371472 [8:02:47<10:37:43,  3.44it/s] 65%|██████▍   | 239752/371472 [8:02:47<10:21:31,  3.53it/s] 65%|██████▍   | 239753/371472 [8:02:48<10:23:52,  3.52it/s] 65%|██████▍   | 239754/371472 [8:02:48<10:50:25,  3.38it/s] 65%|██████▍   | 239755/371472 [8:02:48<10:27:32,  3.50it/s] 65%|██████▍   | 239756/371472 [8:02:48<10:24:45,  3.51it/s] 65%|██████▍   | 239757/371472 [8:02:49<10:10:18,  3.60it/s] 65%|██████▍   | 239758/371472 [8:02:49<10:20:35,  3.54it/s] 65%|██████▍   | 239759/371472 [8:02:49<11:23:32,  3.21it/s] 65%|██████▍   | 239760/371472 [8:02:50<10:37:56,  3.44it/s]                                                            {'loss': 2.9659, 'learning_rate': 4.192828977138055e-07, 'epoch': 10.33}
 65%|██████▍   | 239760/371472 [8:02:50<10:37:56,  3.44it/s] 65%|██████▍   | 239761/371472 [8:02:50<10:23:42,  3.52it/s] 65%|██████▍   | 239762/371472 [8:02:50<10:17:58,  3.55it/s] 65%|██████▍   | 239763/371472 [8:02:51<10:21:00,  3.53it/s] 65%|██████▍   | 239764/371472 [8:02:51<10:03:23,  3.64it/s] 65%|██████▍   | 239765/371472 [8:02:51<10:01:59,  3.65it/s] 65%|██████▍   | 239766/371472 [8:02:51<10:18:08,  3.55it/s] 65%|██████▍   | 239767/371472 [8:02:52<10:39:47,  3.43it/s] 65%|██████▍   | 239768/371472 [8:02:52<10:43:37,  3.41it/s] 65%|██████▍   | 239769/371472 [8:02:52<10:25:33,  3.51it/s] 65%|██████▍   | 239770/371472 [8:02:52<10:09:13,  3.60it/s] 65%|██████▍   | 239771/371472 [8:02:53<10:20:55,  3.54it/s] 65%|██████▍   | 239772/371472 [8:02:53<11:01:14,  3.32it/s] 65%|██████▍   | 239773/371472 [8:02:53<11:39:15,  3.14it/s] 65%|██████▍   | 239774/371472 [8:02:54<11:13:27,  3.26it/s] 65%|██████▍   | 239775/371472 [8:02:54<10:47:15,  3.39it/s] 65%|██████▍   | 239776/371472 [8:02:54<10:26:30,  3.50it/s] 65%|██████▍   | 239777/371472 [8:02:55<10:23:21,  3.52it/s] 65%|██████▍   | 239778/371472 [8:02:55<9:51:56,  3.71it/s]  65%|██████▍   | 239779/371472 [8:02:55<10:10:10,  3.60it/s] 65%|██████▍   | 239780/371472 [8:02:55<11:05:33,  3.30it/s]                                                            {'loss': 2.9007, 'learning_rate': 4.192344157383266e-07, 'epoch': 10.33}
 65%|██████▍   | 239780/371472 [8:02:55<11:05:33,  3.30it/s] 65%|██████▍   | 239781/371472 [8:02:56<11:18:22,  3.24it/s] 65%|██████▍   | 239782/371472 [8:02:56<11:07:33,  3.29it/s] 65%|██████▍   | 239783/371472 [8:02:56<11:04:42,  3.30it/s] 65%|██████▍   | 239784/371472 [8:02:57<11:26:54,  3.20it/s] 65%|██████▍   | 239785/371472 [8:02:57<10:53:00,  3.36it/s] 65%|██████▍   | 239786/371472 [8:02:57<10:42:34,  3.42it/s] 65%|██████▍   | 239787/371472 [8:02:58<10:25:54,  3.51it/s] 65%|██████▍   | 239788/371472 [8:02:58<10:10:46,  3.59it/s] 65%|██████▍   | 239789/371472 [8:02:58<9:57:44,  3.67it/s]  65%|██████▍   | 239790/371472 [8:02:58<10:17:22,  3.55it/s] 65%|██████▍   | 239791/371472 [8:02:59<10:00:31,  3.65it/s] 65%|██████▍   | 239792/371472 [8:02:59<10:02:02,  3.65it/s] 65%|██████▍   | 239793/371472 [8:02:59<10:18:25,  3.55it/s] 65%|██████▍   | 239794/371472 [8:02:59<10:15:57,  3.56it/s] 65%|██████▍   | 239795/371472 [8:03:00<10:49:30,  3.38it/s] 65%|██████▍   | 239796/371472 [8:03:00<10:30:19,  3.48it/s] 65%|██████▍   | 239797/371472 [8:03:00<10:38:07,  3.44it/s] 65%|██████▍   | 239798/371472 [8:03:01<10:15:14,  3.57it/s] 65%|██████▍   | 239799/371472 [8:03:01<9:54:04,  3.69it/s]  65%|██████▍   | 239800/371472 [8:03:01<9:57:14,  3.67it/s]                                                           {'loss': 2.9019, 'learning_rate': 4.191859337628477e-07, 'epoch': 10.33}
 65%|██████▍   | 239800/371472 [8:03:01<9:57:14,  3.67it/s] 65%|██████▍   | 239801/371472 [8:03:01<10:21:13,  3.53it/s] 65%|██████▍   | 239802/371472 [8:03:02<10:01:19,  3.65it/s] 65%|██████▍   | 239803/371472 [8:03:02<11:14:48,  3.25it/s] 65%|██████▍   | 239804/371472 [8:03:02<10:55:18,  3.35it/s] 65%|██████▍   | 239805/371472 [8:03:03<10:25:35,  3.51it/s] 65%|██████▍   | 239806/371472 [8:03:03<10:36:21,  3.45it/s] 65%|██████▍   | 239807/371472 [8:03:03<10:58:18,  3.33it/s] 65%|██████▍   | 239808/371472 [8:03:04<10:46:09,  3.40it/s] 65%|██████▍   | 239809/371472 [8:03:04<10:26:55,  3.50it/s] 65%|██████▍   | 239810/371472 [8:03:04<10:19:35,  3.54it/s] 65%|██████▍   | 239811/371472 [8:03:04<10:23:28,  3.52it/s] 65%|██████▍   | 239812/371472 [8:03:05<10:16:46,  3.56it/s] 65%|██████▍   | 239813/371472 [8:03:05<10:14:36,  3.57it/s] 65%|██████▍   | 239814/371472 [8:03:05<10:09:31,  3.60it/s] 65%|██████▍   | 239815/371472 [8:03:05<10:01:09,  3.65it/s] 65%|██████▍   | 239816/371472 [8:03:06<9:48:47,  3.73it/s]  65%|██████▍   | 239817/371472 [8:03:06<9:54:19,  3.69it/s] 65%|██████▍   | 239818/371472 [8:03:06<10:14:32,  3.57it/s] 65%|██████▍   | 239819/371472 [8:03:07<10:32:26,  3.47it/s] 65%|██████▍   | 239820/371472 [8:03:07<11:13:55,  3.26it/s]                                                            {'loss': 2.9702, 'learning_rate': 4.191374517873688e-07, 'epoch': 10.33}
 65%|██████▍   | 239820/371472 [8:03:07<11:13:55,  3.26it/s] 65%|██████▍   | 239821/371472 [8:03:07<10:29:05,  3.49it/s] 65%|██████▍   | 239822/371472 [8:03:07<10:06:27,  3.62it/s] 65%|██████▍   | 239823/371472 [8:03:08<9:50:39,  3.71it/s]  65%|██████▍   | 239824/371472 [8:03:08<10:04:39,  3.63it/s] 65%|██████▍   | 239825/371472 [8:03:08<10:04:43,  3.63it/s] 65%|██████▍   | 239826/371472 [8:03:09<10:19:40,  3.54it/s] 65%|██████▍   | 239827/371472 [8:03:09<10:27:02,  3.50it/s] 65%|██████▍   | 239828/371472 [8:03:09<10:33:02,  3.47it/s] 65%|██████▍   | 239829/371472 [8:03:09<10:14:25,  3.57it/s] 65%|██████▍   | 239830/371472 [8:03:10<10:10:24,  3.59it/s] 65%|██████▍   | 239831/371472 [8:03:10<9:55:14,  3.69it/s]  65%|██████▍   | 239832/371472 [8:03:10<9:44:53,  3.75it/s] 65%|██████▍   | 239833/371472 [8:03:10<10:16:25,  3.56it/s] 65%|██████▍   | 239834/371472 [8:03:11<10:32:41,  3.47it/s] 65%|██████▍   | 239835/371472 [8:03:11<10:10:40,  3.59it/s] 65%|██████▍   | 239836/371472 [8:03:11<10:18:09,  3.55it/s] 65%|██████▍   | 239837/371472 [8:03:12<9:56:51,  3.68it/s]  65%|██████▍   | 239838/371472 [8:03:12<10:09:01,  3.60it/s] 65%|██████▍   | 239839/371472 [8:03:12<10:39:15,  3.43it/s] 65%|██████▍   | 239840/371472 [8:03:12<10:31:46,  3.47it/s]                                                            {'loss': 2.9309, 'learning_rate': 4.1908896981188997e-07, 'epoch': 10.33}
 65%|██████▍   | 239840/371472 [8:03:12<10:31:46,  3.47it/s] 65%|██████▍   | 239841/371472 [8:03:13<10:37:52,  3.44it/s] 65%|██████▍   | 239842/371472 [8:03:13<10:36:42,  3.45it/s] 65%|██████▍   | 239843/371472 [8:03:13<10:08:23,  3.61it/s] 65%|██████▍   | 239844/371472 [8:03:14<9:57:42,  3.67it/s]  65%|██████▍   | 239845/371472 [8:03:14<9:36:45,  3.80it/s] 65%|██████▍   | 239846/371472 [8:03:14<9:40:27,  3.78it/s] 65%|██████▍   | 239847/371472 [8:03:14<9:47:19,  3.74it/s] 65%|██████▍   | 239848/371472 [8:03:15<10:01:17,  3.65it/s] 65%|██████▍   | 239849/371472 [8:03:15<10:36:12,  3.45it/s] 65%|██████▍   | 239850/371472 [8:03:15<10:32:10,  3.47it/s] 65%|██████▍   | 239851/371472 [8:03:15<10:02:14,  3.64it/s] 65%|██████▍   | 239852/371472 [8:03:16<9:49:03,  3.72it/s]  65%|██████▍   | 239853/371472 [8:03:16<9:34:02,  3.82it/s] 65%|██████▍   | 239854/371472 [8:03:16<10:22:06,  3.53it/s] 65%|██████▍   | 239855/371472 [8:03:17<10:12:11,  3.58it/s] 65%|██████▍   | 239856/371472 [8:03:17<10:05:06,  3.63it/s] 65%|██████▍   | 239857/371472 [8:03:17<10:12:52,  3.58it/s] 65%|██████▍   | 239858/371472 [8:03:18<11:50:34,  3.09it/s] 65%|██████▍   | 239859/371472 [8:03:18<11:15:32,  3.25it/s] 65%|██████▍   | 239860/371472 [8:03:18<11:26:24,  3.20it/s]                                                            {'loss': 3.0042, 'learning_rate': 4.1904048783641104e-07, 'epoch': 10.33}
 65%|██████▍   | 239860/371472 [8:03:18<11:26:24,  3.20it/s] 65%|██████▍   | 239861/371472 [8:03:18<10:55:44,  3.35it/s] 65%|██████▍   | 239862/371472 [8:03:19<11:21:38,  3.22it/s] 65%|██████▍   | 239863/371472 [8:03:19<10:40:14,  3.43it/s] 65%|██████▍   | 239864/371472 [8:03:19<11:07:01,  3.29it/s] 65%|██████▍   | 239865/371472 [8:03:20<10:49:34,  3.38it/s] 65%|██████▍   | 239866/371472 [8:03:20<10:30:00,  3.48it/s] 65%|██████▍   | 239867/371472 [8:03:20<10:57:41,  3.34it/s] 65%|██████▍   | 239868/371472 [8:03:20<10:32:35,  3.47it/s] 65%|██████▍   | 239869/371472 [8:03:21<10:02:48,  3.64it/s] 65%|██████▍   | 239870/371472 [8:03:21<10:40:48,  3.42it/s] 65%|██████▍   | 239871/371472 [8:03:21<11:11:47,  3.26it/s] 65%|██████▍   | 239872/371472 [8:03:22<11:01:16,  3.32it/s] 65%|██████▍   | 239873/371472 [8:03:22<10:37:35,  3.44it/s] 65%|██████▍   | 239874/371472 [8:03:22<10:37:16,  3.44it/s] 65%|██████▍   | 239875/371472 [8:03:23<10:09:42,  3.60it/s] 65%|██████▍   | 239876/371472 [8:03:23<10:01:02,  3.65it/s] 65%|██████▍   | 239877/371472 [8:03:23<9:56:36,  3.68it/s]  65%|██████▍   | 239878/371472 [8:03:23<10:17:14,  3.55it/s] 65%|██████▍   | 239879/371472 [8:03:24<10:11:26,  3.59it/s] 65%|██████▍   | 239880/371472 [8:03:24<10:50:19,  3.37it/s]                                                            {'loss': 2.9979, 'learning_rate': 4.1899200586093216e-07, 'epoch': 10.33}
 65%|██████▍   | 239880/371472 [8:03:24<10:50:19,  3.37it/s] 65%|██████▍   | 239881/371472 [8:03:24<10:40:05,  3.43it/s] 65%|██████▍   | 239882/371472 [8:03:24<10:17:11,  3.55it/s] 65%|██████▍   | 239883/371472 [8:03:25<10:22:23,  3.52it/s] 65%|██████▍   | 239884/371472 [8:03:25<10:52:29,  3.36it/s] 65%|██████▍   | 239885/371472 [8:03:25<10:15:00,  3.57it/s] 65%|██████▍   | 239886/371472 [8:03:26<10:08:09,  3.61it/s] 65%|██████▍   | 239887/371472 [8:03:26<11:26:08,  3.20it/s] 65%|██████▍   | 239888/371472 [8:03:26<11:04:48,  3.30it/s] 65%|██████▍   | 239889/371472 [8:03:27<12:24:10,  2.95it/s] 65%|██████▍   | 239890/371472 [8:03:27<11:36:49,  3.15it/s] 65%|██████▍   | 239891/371472 [8:03:27<10:58:48,  3.33it/s] 65%|██████▍   | 239892/371472 [8:03:28<10:33:22,  3.46it/s] 65%|██████▍   | 239893/371472 [8:03:28<10:19:09,  3.54it/s] 65%|██████▍   | 239894/371472 [8:03:28<10:12:56,  3.58it/s] 65%|██████▍   | 239895/371472 [8:03:28<10:55:59,  3.34it/s] 65%|██████▍   | 239896/371472 [8:03:29<10:34:21,  3.46it/s] 65%|██████▍   | 239897/371472 [8:03:29<11:01:29,  3.32it/s] 65%|██████▍   | 239898/371472 [8:03:29<11:10:21,  3.27it/s] 65%|██████▍   | 239899/371472 [8:03:30<11:04:54,  3.30it/s] 65%|██████▍   | 239900/371472 [8:03:30<10:52:17,  3.36it/s]                                                            {'loss': 2.9086, 'learning_rate': 4.1894352388545324e-07, 'epoch': 10.33}
 65%|██████▍   | 239900/371472 [8:03:30<10:52:17,  3.36it/s] 65%|██████▍   | 239901/371472 [8:03:30<11:34:14,  3.16it/s] 65%|██████▍   | 239902/371472 [8:03:31<11:08:36,  3.28it/s] 65%|██████▍   | 239903/371472 [8:03:31<11:07:47,  3.28it/s] 65%|██████▍   | 239904/371472 [8:03:31<11:34:41,  3.16it/s] 65%|██████▍   | 239905/371472 [8:03:31<11:29:04,  3.18it/s] 65%|██████▍   | 239906/371472 [8:03:32<12:02:13,  3.04it/s] 65%|██████▍   | 239907/371472 [8:03:32<11:38:11,  3.14it/s] 65%|██████▍   | 239908/371472 [8:03:32<11:12:22,  3.26it/s] 65%|██████▍   | 239909/371472 [8:03:33<10:57:07,  3.34it/s] 65%|██████▍   | 239910/371472 [8:03:33<10:50:19,  3.37it/s] 65%|██████▍   | 239911/371472 [8:03:33<10:27:46,  3.49it/s] 65%|██████▍   | 239912/371472 [8:03:34<10:07:40,  3.61it/s] 65%|██████▍   | 239913/371472 [8:03:34<10:52:44,  3.36it/s] 65%|██████▍   | 239914/371472 [8:03:34<10:26:33,  3.50it/s] 65%|██████▍   | 239915/371472 [8:03:34<10:22:09,  3.52it/s] 65%|██████▍   | 239916/371472 [8:03:35<10:04:16,  3.63it/s] 65%|██████▍   | 239917/371472 [8:03:35<9:55:11,  3.68it/s]  65%|██████▍   | 239918/371472 [8:03:35<10:17:51,  3.55it/s] 65%|██████▍   | 239919/371472 [8:03:35<10:04:55,  3.62it/s] 65%|██████▍   | 239920/371472 [8:03:36<10:08:33,  3.60it/s]                                                            {'loss': 2.9217, 'learning_rate': 4.188950419099744e-07, 'epoch': 10.33}
 65%|██████▍   | 239920/371472 [8:03:36<10:08:33,  3.60it/s] 65%|██████▍   | 239921/371472 [8:03:36<10:08:47,  3.60it/s] 65%|██████▍   | 239922/371472 [8:03:36<10:22:24,  3.52it/s] 65%|██████▍   | 239923/371472 [8:03:37<10:05:47,  3.62it/s] 65%|██████▍   | 239924/371472 [8:03:37<10:08:58,  3.60it/s] 65%|██████▍   | 239925/371472 [8:03:37<11:18:12,  3.23it/s] 65%|██████▍   | 239926/371472 [8:03:38<11:13:41,  3.25it/s] 65%|██████▍   | 239927/371472 [8:03:38<11:14:16,  3.25it/s] 65%|██████▍   | 239928/371472 [8:03:38<10:41:10,  3.42it/s] 65%|██████▍   | 239929/371472 [8:03:38<11:13:49,  3.25it/s] 65%|██████▍   | 239930/371472 [8:03:39<10:52:09,  3.36it/s] 65%|██████▍   | 239931/371472 [8:03:39<10:14:55,  3.57it/s] 65%|██████▍   | 239932/371472 [8:03:39<10:19:22,  3.54it/s] 65%|██████▍   | 239933/371472 [8:03:40<10:04:21,  3.63it/s] 65%|██████▍   | 239934/371472 [8:03:40<10:10:53,  3.59it/s] 65%|██████▍   | 239935/371472 [8:03:40<10:04:12,  3.63it/s] 65%|██████▍   | 239936/371472 [8:03:40<9:52:44,  3.70it/s]  65%|██████▍   | 239937/371472 [8:03:41<9:39:52,  3.78it/s] 65%|██████▍   | 239938/371472 [8:03:41<10:16:56,  3.55it/s] 65%|██████▍   | 239939/371472 [8:03:41<9:54:46,  3.69it/s]  65%|██████▍   | 239940/371472 [8:03:41<9:33:47,  3.82it/s]                                                           {'loss': 2.9671, 'learning_rate': 4.1884655993449543e-07, 'epoch': 10.33}
 65%|██████▍   | 239940/371472 [8:03:41<9:33:47,  3.82it/s] 65%|██████▍   | 239941/371472 [8:03:42<10:02:16,  3.64it/s] 65%|██████▍   | 239942/371472 [8:03:42<10:01:50,  3.64it/s] 65%|██████▍   | 239943/371472 [8:03:42<10:04:10,  3.63it/s] 65%|██████▍   | 239944/371472 [8:03:43<9:51:05,  3.71it/s]  65%|██████▍   | 239945/371472 [8:03:43<9:37:23,  3.80it/s] 65%|██████▍   | 239946/371472 [8:03:43<10:04:05,  3.63it/s] 65%|██████▍   | 239947/371472 [8:03:43<10:45:07,  3.40it/s] 65%|██████▍   | 239948/371472 [8:03:44<10:35:47,  3.45it/s] 65%|██████▍   | 239949/371472 [8:03:44<10:43:35,  3.41it/s] 65%|██████▍   | 239950/371472 [8:03:44<10:16:52,  3.55it/s] 65%|██████▍   | 239951/371472 [8:03:45<10:10:01,  3.59it/s] 65%|██████▍   | 239952/371472 [8:03:45<9:42:52,  3.76it/s]  65%|██████▍   | 239953/371472 [8:03:45<10:08:53,  3.60it/s] 65%|██████▍   | 239954/371472 [8:03:45<10:11:27,  3.58it/s] 65%|██████▍   | 239955/371472 [8:03:46<11:14:46,  3.25it/s] 65%|██████▍   | 239956/371472 [8:03:46<10:43:43,  3.41it/s] 65%|██████▍   | 239957/371472 [8:03:46<10:18:02,  3.55it/s] 65%|██████▍   | 239958/371472 [8:03:47<10:38:00,  3.44it/s] 65%|██████▍   | 239959/371472 [8:03:47<10:49:52,  3.37it/s] 65%|██████▍   | 239960/371472 [8:03:47<10:21:17,  3.53it/s]                                                            {'loss': 2.9144, 'learning_rate': 4.187980779590165e-07, 'epoch': 10.34}
 65%|██████▍   | 239960/371472 [8:03:47<10:21:17,  3.53it/s] 65%|██████▍   | 239961/371472 [8:03:48<11:42:35,  3.12it/s] 65%|██████▍   | 239962/371472 [8:03:48<11:01:57,  3.31it/s] 65%|██████▍   | 239963/371472 [8:03:48<11:06:54,  3.29it/s] 65%|██████▍   | 239964/371472 [8:03:48<10:35:47,  3.45it/s] 65%|██████▍   | 239965/371472 [8:03:49<10:34:12,  3.46it/s] 65%|██████▍   | 239966/371472 [8:03:49<11:23:27,  3.21it/s] 65%|██████▍   | 239967/371472 [8:03:49<11:00:36,  3.32it/s] 65%|██████▍   | 239968/371472 [8:03:50<10:45:13,  3.40it/s] 65%|██████▍   | 239969/371472 [8:03:50<10:17:18,  3.55it/s] 65%|██████▍   | 239970/371472 [8:03:50<9:50:38,  3.71it/s]  65%|██████▍   | 239971/371472 [8:03:50<10:06:15,  3.62it/s] 65%|██████▍   | 239972/371472 [8:03:51<10:09:26,  3.60it/s] 65%|██████▍   | 239973/371472 [8:03:51<10:13:18,  3.57it/s] 65%|██████▍   | 239974/371472 [8:03:51<9:48:54,  3.72it/s]  65%|██████▍   | 239975/371472 [8:03:51<9:53:18,  3.69it/s] 65%|██████▍   | 239976/371472 [8:03:52<9:42:31,  3.76it/s] 65%|██████▍   | 239977/371472 [8:03:52<9:18:28,  3.92it/s] 65%|██████▍   | 239978/371472 [8:03:52<9:16:36,  3.94it/s] 65%|██████▍   | 239979/371472 [8:03:52<9:02:37,  4.04it/s] 65%|██████▍   | 239980/371472 [8:03:53<9:01:23,  4.05it/s]                                                           {'loss': 2.6921, 'learning_rate': 4.187495959835377e-07, 'epoch': 10.34}
 65%|██████▍   | 239980/371472 [8:03:53<9:01:23,  4.05it/s] 65%|██████▍   | 239981/371472 [8:03:53<10:04:03,  3.63it/s] 65%|██████▍   | 239982/371472 [8:03:53<9:51:37,  3.70it/s]  65%|██████▍   | 239983/371472 [8:03:53<9:43:54,  3.75it/s] 65%|██████▍   | 239984/371472 [8:03:54<9:58:21,  3.66it/s] 65%|██████▍   | 239985/371472 [8:03:54<10:01:04,  3.65it/s] 65%|██████▍   | 239986/371472 [8:03:54<9:43:16,  3.76it/s]  65%|██████▍   | 239987/371472 [8:03:55<9:39:23,  3.78it/s] 65%|██████▍   | 239988/371472 [8:03:55<9:43:32,  3.76it/s] 65%|██████▍   | 239989/371472 [8:03:55<9:45:13,  3.74it/s] 65%|██████▍   | 239990/371472 [8:03:55<9:49:45,  3.72it/s] 65%|██████▍   | 239991/371472 [8:03:56<9:50:44,  3.71it/s] 65%|██████▍   | 239992/371472 [8:03:56<9:52:08,  3.70it/s] 65%|██████▍   | 239993/371472 [8:03:56<10:00:37,  3.65it/s] 65%|██████▍   | 239994/371472 [8:03:56<10:09:47,  3.59it/s] 65%|██████▍   | 239995/371472 [8:03:57<10:04:52,  3.62it/s] 65%|██████▍   | 239996/371472 [8:03:57<10:03:31,  3.63it/s] 65%|██████▍   | 239997/371472 [8:03:57<9:56:15,  3.67it/s]  65%|██████▍   | 239998/371472 [8:03:58<10:44:06,  3.40it/s] 65%|██████▍   | 239999/371472 [8:03:58<10:34:03,  3.46it/s] 65%|██████▍   | 240000/371472 [8:03:58<10:32:43,  3.46it/s]                                                            {'loss': 2.7335, 'learning_rate': 4.187011140080587e-07, 'epoch': 10.34}
 65%|██████▍   | 240000/371472 [8:03:58<10:32:43,  3.46it/s] 65%|██████▍   | 240001/371472 [8:03:58<10:26:39,  3.50it/s] 65%|██████▍   | 240002/371472 [8:03:59<10:37:59,  3.43it/s] 65%|██████▍   | 240003/371472 [8:03:59<10:35:07,  3.45it/s] 65%|██████▍   | 240004/371472 [8:03:59<10:49:32,  3.37it/s] 65%|██████▍   | 240005/371472 [8:04:00<11:27:39,  3.19it/s] 65%|██████▍   | 240006/371472 [8:04:00<11:21:00,  3.22it/s] 65%|██████▍   | 240007/371472 [8:04:00<10:55:18,  3.34it/s] 65%|██████▍   | 240008/371472 [8:04:01<10:36:00,  3.44it/s] 65%|██████▍   | 240009/371472 [8:04:01<10:27:59,  3.49it/s] 65%|██████▍   | 240010/371472 [8:04:01<10:45:21,  3.40it/s] 65%|██████▍   | 240011/371472 [8:04:01<10:27:33,  3.49it/s] 65%|██████▍   | 240012/371472 [8:04:02<11:59:30,  3.05it/s] 65%|██████▍   | 240013/371472 [8:04:02<11:54:17,  3.07it/s] 65%|██████▍   | 240014/371472 [8:04:02<11:08:45,  3.28it/s] 65%|██████▍   | 240015/371472 [8:04:03<10:51:00,  3.37it/s] 65%|██████▍   | 240016/371472 [8:04:03<10:19:40,  3.54it/s] 65%|██████▍   | 240017/371472 [8:04:03<10:26:03,  3.50it/s] 65%|██████▍   | 240018/371472 [8:04:04<10:19:00,  3.54it/s] 65%|██████▍   | 240019/371472 [8:04:04<10:04:35,  3.62it/s] 65%|██████▍   | 240020/371472 [8:04:04<9:55:53,  3.68it/s]                                                            {'loss': 2.7453, 'learning_rate': 4.186526320325799e-07, 'epoch': 10.34}
 65%|██████▍   | 240020/371472 [8:04:04<9:55:53,  3.68it/s] 65%|██████▍   | 240021/371472 [8:04:04<10:14:14,  3.57it/s] 65%|██████▍   | 240022/371472 [8:04:05<10:05:31,  3.62it/s] 65%|██████▍   | 240023/371472 [8:04:05<10:14:21,  3.57it/s] 65%|██████▍   | 240024/371472 [8:04:05<9:48:42,  3.72it/s]  65%|██████▍   | 240025/371472 [8:04:05<10:07:34,  3.61it/s] 65%|██████▍   | 240026/371472 [8:04:06<9:53:24,  3.69it/s]  65%|██████▍   | 240027/371472 [8:04:06<9:46:33,  3.73it/s] 65%|██████▍   | 240028/371472 [8:04:06<9:44:40,  3.75it/s] 65%|██████▍   | 240029/371472 [8:04:06<9:37:45,  3.79it/s] 65%|██████▍   | 240030/371472 [8:04:07<9:41:30,  3.77it/s] 65%|██████▍   | 240031/371472 [8:04:07<9:48:21,  3.72it/s] 65%|██████▍   | 240032/371472 [8:04:07<9:50:24,  3.71it/s] 65%|██████▍   | 240033/371472 [8:04:08<10:02:40,  3.63it/s] 65%|██████▍   | 240034/371472 [8:04:08<10:38:43,  3.43it/s] 65%|██████▍   | 240035/371472 [8:04:08<10:49:16,  3.37it/s] 65%|██████▍   | 240036/371472 [8:04:08<10:24:43,  3.51it/s] 65%|██████▍   | 240037/371472 [8:04:09<10:10:28,  3.59it/s] 65%|██████▍   | 240038/371472 [8:04:09<10:01:30,  3.64it/s] 65%|██████▍   | 240039/371472 [8:04:09<9:46:50,  3.73it/s]  65%|██████▍   | 240040/371472 [8:04:10<9:35:15,  3.81it/s]                                                           {'loss': 2.741, 'learning_rate': 4.1860415005710095e-07, 'epoch': 10.34}
 65%|██████▍   | 240040/371472 [8:04:10<9:35:15,  3.81it/s] 65%|██████▍   | 240041/371472 [8:04:10<10:15:50,  3.56it/s] 65%|██████▍   | 240042/371472 [8:04:10<9:47:08,  3.73it/s]  65%|██████▍   | 240043/371472 [8:04:10<9:52:26,  3.70it/s] 65%|██████▍   | 240044/371472 [8:04:11<9:47:10,  3.73it/s] 65%|██████▍   | 240045/371472 [8:04:11<9:43:59,  3.75it/s] 65%|██████▍   | 240046/371472 [8:04:11<9:49:11,  3.72it/s] 65%|██████▍   | 240047/371472 [8:04:11<9:44:22,  3.75it/s] 65%|██████▍   | 240048/371472 [8:04:12<9:40:30,  3.77it/s] 65%|██████▍   | 240049/371472 [8:04:12<9:53:43,  3.69it/s] 65%|██████▍   | 240050/371472 [8:04:12<9:53:58,  3.69it/s] 65%|██████▍   | 240051/371472 [8:04:13<9:47:58,  3.73it/s] 65%|██████▍   | 240052/371472 [8:04:13<9:40:01,  3.78it/s] 65%|██████▍   | 240053/371472 [8:04:13<9:33:42,  3.82it/s] 65%|██████▍   | 240054/371472 [8:04:13<9:41:13,  3.77it/s] 65%|██████▍   | 240055/371472 [8:04:14<9:42:19,  3.76it/s] 65%|██████▍   | 240056/371472 [8:04:14<9:54:16,  3.69it/s] 65%|██████▍   | 240057/371472 [8:04:14<9:50:43,  3.71it/s] 65%|██████▍   | 240058/371472 [8:04:14<9:43:58,  3.75it/s] 65%|██████▍   | 240059/371472 [8:04:15<10:15:23,  3.56it/s] 65%|██████▍   | 240060/371472 [8:04:15<10:12:20,  3.58it/s]                                                            {'loss': 2.9329, 'learning_rate': 4.1855566808162207e-07, 'epoch': 10.34}
 65%|██████▍   | 240060/371472 [8:04:15<10:12:20,  3.58it/s] 65%|██████▍   | 240061/371472 [8:04:15<10:37:20,  3.44it/s] 65%|██████▍   | 240062/371472 [8:04:16<10:27:06,  3.49it/s] 65%|██████▍   | 240063/371472 [8:04:16<10:05:09,  3.62it/s] 65%|██████▍   | 240064/371472 [8:04:16<10:21:09,  3.53it/s] 65%|██████▍   | 240065/371472 [8:04:16<10:01:34,  3.64it/s] 65%|██████▍   | 240066/371472 [8:04:17<10:01:48,  3.64it/s] 65%|██████▍   | 240067/371472 [8:04:17<9:58:38,  3.66it/s]  65%|██████▍   | 240068/371472 [8:04:17<9:57:44,  3.66it/s] 65%|██████▍   | 240069/371472 [8:04:17<9:34:23,  3.81it/s] 65%|██████▍   | 240070/371472 [8:04:18<9:48:19,  3.72it/s] 65%|██████▍   | 240071/371472 [8:04:18<9:42:51,  3.76it/s] 65%|██████▍   | 240072/371472 [8:04:18<9:54:15,  3.69it/s] 65%|██████▍   | 240073/371472 [8:04:19<9:49:15,  3.72it/s] 65%|██████▍   | 240074/371472 [8:04:19<10:20:11,  3.53it/s] 65%|██████▍   | 240075/371472 [8:04:19<10:26:40,  3.49it/s] 65%|██████▍   | 240076/371472 [8:04:19<10:20:33,  3.53it/s] 65%|██████▍   | 240077/371472 [8:04:20<10:17:55,  3.54it/s] 65%|██████▍   | 240078/371472 [8:04:20<10:01:10,  3.64it/s] 65%|██████▍   | 240079/371472 [8:04:20<9:59:16,  3.65it/s]  65%|██████▍   | 240080/371472 [8:04:20<9:55:33,  3.68it/s]                                                           {'loss': 3.0622, 'learning_rate': 4.1850718610614314e-07, 'epoch': 10.34}
 65%|██████▍   | 240080/371472 [8:04:20<9:55:33,  3.68it/s] 65%|██████▍   | 240081/371472 [8:04:21<10:22:29,  3.52it/s] 65%|██████▍   | 240082/371472 [8:04:21<10:20:13,  3.53it/s] 65%|██████▍   | 240083/371472 [8:04:21<10:11:55,  3.58it/s] 65%|██████▍   | 240084/371472 [8:04:22<9:57:40,  3.66it/s]  65%|██████▍   | 240085/371472 [8:04:22<9:45:36,  3.74it/s] 65%|██████▍   | 240086/371472 [8:04:22<9:39:15,  3.78it/s] 65%|██████▍   | 240087/371472 [8:04:22<10:06:38,  3.61it/s] 65%|██████▍   | 240088/371472 [8:04:23<11:02:40,  3.30it/s] 65%|██████▍   | 240089/371472 [8:04:23<10:29:47,  3.48it/s] 65%|██████▍   | 240090/371472 [8:04:23<10:09:12,  3.59it/s] 65%|██████▍   | 240091/371472 [8:04:24<10:07:09,  3.61it/s] 65%|██████▍   | 240092/371472 [8:04:24<10:12:37,  3.57it/s] 65%|██████▍   | 240093/371472 [8:04:24<10:12:21,  3.58it/s] 65%|██████▍   | 240094/371472 [8:04:24<10:40:55,  3.42it/s] 65%|██████▍   | 240095/371472 [8:04:25<10:01:52,  3.64it/s] 65%|██████▍   | 240096/371472 [8:04:25<10:18:31,  3.54it/s] 65%|██████▍   | 240097/371472 [8:04:25<10:05:54,  3.61it/s] 65%|██████▍   | 240098/371472 [8:04:26<10:25:51,  3.50it/s] 65%|██████▍   | 240099/371472 [8:04:26<10:07:56,  3.60it/s] 65%|██████▍   | 240100/371472 [8:04:26<10:54:20,  3.35it/s]                                                            {'loss': 2.9692, 'learning_rate': 4.184587041306643e-07, 'epoch': 10.34}
 65%|██████▍   | 240100/371472 [8:04:26<10:54:20,  3.35it/s] 65%|██████▍   | 240101/371472 [8:04:26<10:17:05,  3.55it/s] 65%|██████▍   | 240102/371472 [8:04:27<10:13:36,  3.57it/s] 65%|██████▍   | 240103/371472 [8:04:27<10:52:23,  3.36it/s] 65%|██████▍   | 240104/371472 [8:04:27<10:33:46,  3.45it/s] 65%|██████▍   | 240105/371472 [8:04:28<10:16:08,  3.55it/s] 65%|██████▍   | 240106/371472 [8:04:28<10:06:58,  3.61it/s] 65%|██████▍   | 240107/371472 [8:04:28<9:47:10,  3.73it/s]  65%|██████▍   | 240108/371472 [8:04:28<10:06:59,  3.61it/s] 65%|██████▍   | 240109/371472 [8:04:29<9:52:14,  3.70it/s]  65%|██████▍   | 240110/371472 [8:04:29<10:04:06,  3.62it/s] 65%|██████▍   | 240111/371472 [8:04:29<10:08:32,  3.60it/s] 65%|██████▍   | 240112/371472 [8:04:29<10:17:47,  3.54it/s] 65%|██████▍   | 240113/371472 [8:04:30<10:51:11,  3.36it/s] 65%|██████▍   | 240114/371472 [8:04:30<10:32:41,  3.46it/s] 65%|██████▍   | 240115/371472 [8:04:30<10:14:49,  3.56it/s] 65%|██████▍   | 240116/371472 [8:04:31<10:44:42,  3.40it/s] 65%|██████▍   | 240117/371472 [8:04:31<10:20:04,  3.53it/s] 65%|██████▍   | 240118/371472 [8:04:31<10:15:26,  3.56it/s] 65%|██████▍   | 240119/371472 [8:04:31<9:58:12,  3.66it/s]  65%|██████▍   | 240120/371472 [8:04:32<9:55:27,  3.68it/s]                                                           {'loss': 2.8565, 'learning_rate': 4.1841022215518534e-07, 'epoch': 10.34}
 65%|██████▍   | 240120/371472 [8:04:32<9:55:27,  3.68it/s] 65%|██████▍   | 240121/371472 [8:04:32<10:54:23,  3.35it/s] 65%|██████▍   | 240122/371472 [8:04:32<10:20:45,  3.53it/s] 65%|██████▍   | 240123/371472 [8:04:33<9:57:17,  3.67it/s]  65%|██████▍   | 240124/371472 [8:04:33<9:41:54,  3.76it/s] 65%|██████▍   | 240125/371472 [8:04:33<9:42:43,  3.76it/s] 65%|██████▍   | 240126/371472 [8:04:33<9:36:21,  3.80it/s] 65%|██████▍   | 240127/371472 [8:04:34<10:12:53,  3.57it/s] 65%|██████▍   | 240128/371472 [8:04:34<10:05:31,  3.62it/s] 65%|██████▍   | 240129/371472 [8:04:34<9:50:33,  3.71it/s]  65%|██████▍   | 240130/371472 [8:04:34<10:03:25,  3.63it/s] 65%|██████▍   | 240131/371472 [8:04:35<9:52:04,  3.70it/s]  65%|██████▍   | 240132/371472 [8:04:35<10:37:33,  3.43it/s] 65%|██████▍   | 240133/371472 [8:04:35<10:01:23,  3.64it/s] 65%|██████▍   | 240134/371472 [8:04:36<10:30:05,  3.47it/s] 65%|██████▍   | 240135/371472 [8:04:36<10:52:43,  3.35it/s] 65%|██████▍   | 240136/371472 [8:04:36<10:29:57,  3.47it/s] 65%|██████▍   | 240137/371472 [8:04:36<10:22:57,  3.51it/s] 65%|██████▍   | 240138/371472 [8:04:37<10:50:08,  3.37it/s] 65%|██████▍   | 240139/371472 [8:04:37<10:43:10,  3.40it/s] 65%|██████▍   | 240140/371472 [8:04:37<10:36:40,  3.44it/s]                                                            {'loss': 2.9228, 'learning_rate': 4.1836174017970646e-07, 'epoch': 10.34}
 65%|██████▍   | 240140/371472 [8:04:37<10:36:40,  3.44it/s] 65%|██████▍   | 240141/371472 [8:04:38<11:07:02,  3.28it/s] 65%|██████▍   | 240142/371472 [8:04:38<11:00:13,  3.32it/s] 65%|██████▍   | 240143/371472 [8:04:38<10:42:54,  3.40it/s] 65%|██████▍   | 240144/371472 [8:04:39<10:14:19,  3.56it/s] 65%|██████▍   | 240145/371472 [8:04:39<9:54:25,  3.68it/s]  65%|██████▍   | 240146/371472 [8:04:39<9:46:45,  3.73it/s] 65%|██████▍   | 240147/371472 [8:04:39<10:12:35,  3.57it/s] 65%|██████▍   | 240148/371472 [8:04:40<10:13:28,  3.57it/s] 65%|██████▍   | 240149/371472 [8:04:40<10:17:34,  3.54it/s] 65%|██████▍   | 240150/371472 [8:04:40<10:05:23,  3.62it/s] 65%|██████▍   | 240151/371472 [8:04:40<10:07:32,  3.60it/s] 65%|██████▍   | 240152/371472 [8:04:41<10:26:38,  3.49it/s] 65%|██████▍   | 240153/371472 [8:04:41<10:04:59,  3.62it/s] 65%|██████▍   | 240154/371472 [8:04:41<10:26:40,  3.49it/s] 65%|██████▍   | 240155/371472 [8:04:42<10:39:26,  3.42it/s] 65%|██████▍   | 240156/371472 [8:04:42<10:27:00,  3.49it/s] 65%|██████▍   | 240157/371472 [8:04:42<9:57:12,  3.66it/s]  65%|██████▍   | 240158/371472 [8:04:42<9:34:50,  3.81it/s] 65%|██████▍   | 240159/371472 [8:04:43<9:36:44,  3.79it/s] 65%|██████▍   | 240160/371472 [8:04:43<9:23:15,  3.89it/s]                                                           {'loss': 2.819, 'learning_rate': 4.183132582042276e-07, 'epoch': 10.34}
 65%|██████▍   | 240160/371472 [8:04:43<9:23:15,  3.89it/s] 65%|██████▍   | 240161/371472 [8:04:43<9:26:04,  3.87it/s] 65%|██████▍   | 240162/371472 [8:04:43<9:49:13,  3.71it/s] 65%|██████▍   | 240163/371472 [8:04:44<10:42:18,  3.41it/s] 65%|██████▍   | 240164/371472 [8:04:44<10:28:30,  3.48it/s] 65%|██████▍   | 240165/371472 [8:04:44<10:24:31,  3.50it/s] 65%|██████▍   | 240166/371472 [8:04:45<10:16:05,  3.55it/s] 65%|██████▍   | 240167/371472 [8:04:45<9:54:01,  3.68it/s]  65%|██████▍   | 240168/371472 [8:04:45<9:31:58,  3.83it/s] 65%|██████▍   | 240169/371472 [8:04:45<10:00:08,  3.65it/s] 65%|██████▍   | 240170/371472 [8:04:46<10:14:26,  3.56it/s] 65%|██████▍   | 240171/371472 [8:04:46<10:34:39,  3.45it/s] 65%|██████▍   | 240172/371472 [8:04:46<10:28:16,  3.48it/s] 65%|██████▍   | 240173/371472 [8:04:47<10:08:51,  3.59it/s] 65%|██████▍   | 240174/371472 [8:04:47<10:05:43,  3.61it/s] 65%|██████▍   | 240175/371472 [8:04:47<10:17:47,  3.54it/s] 65%|██████▍   | 240176/371472 [8:04:47<10:03:58,  3.62it/s] 65%|██████▍   | 240177/371472 [8:04:48<10:41:15,  3.41it/s] 65%|██████▍   | 240178/371472 [8:04:48<10:34:09,  3.45it/s] 65%|██████▍   | 240179/371472 [8:04:48<10:44:44,  3.39it/s] 65%|██████▍   | 240180/371472 [8:04:49<10:15:42,  3.55it/s]                                                            {'loss': 2.9876, 'learning_rate': 4.182647762287487e-07, 'epoch': 10.35}
 65%|██████▍   | 240180/371472 [8:04:49<10:15:42,  3.55it/s] 65%|██████▍   | 240181/371472 [8:04:49<10:45:06,  3.39it/s] 65%|██████▍   | 240182/371472 [8:04:49<10:40:47,  3.41it/s] 65%|██████▍   | 240183/371472 [8:04:50<10:53:59,  3.35it/s] 65%|██████▍   | 240184/371472 [8:04:50<10:53:02,  3.35it/s] 65%|██████▍   | 240185/371472 [8:04:50<10:36:43,  3.44it/s] 65%|██████▍   | 240186/371472 [8:04:50<10:28:14,  3.48it/s] 65%|██████▍   | 240187/371472 [8:04:51<10:31:18,  3.47it/s] 65%|██████▍   | 240188/371472 [8:04:51<10:09:28,  3.59it/s] 65%|██████▍   | 240189/371472 [8:04:51<10:11:24,  3.58it/s] 65%|██████▍   | 240190/371472 [8:04:52<11:15:42,  3.24it/s] 65%|██████▍   | 240191/371472 [8:04:52<11:41:07,  3.12it/s] 65%|██████▍   | 240192/371472 [8:04:52<11:02:46,  3.30it/s] 65%|██████▍   | 240193/371472 [8:04:52<10:19:57,  3.53it/s] 65%|██████▍   | 240194/371472 [8:04:53<10:10:41,  3.58it/s] 65%|██████▍   | 240195/371472 [8:04:53<9:59:43,  3.65it/s]  65%|██████▍   | 240196/371472 [8:04:53<10:33:43,  3.45it/s] 65%|██████▍   | 240197/371472 [8:04:54<10:38:09,  3.43it/s] 65%|██████▍   | 240198/371472 [8:04:54<10:35:26,  3.44it/s] 65%|██████▍   | 240199/371472 [8:04:54<11:20:11,  3.22it/s] 65%|██████▍   | 240200/371472 [8:04:55<11:11:25,  3.26it/s]                                                            {'loss': 2.7723, 'learning_rate': 4.182162942532698e-07, 'epoch': 10.35}
 65%|██████▍   | 240200/371472 [8:04:55<11:11:25,  3.26it/s] 65%|██████▍   | 240201/371472 [8:04:55<10:38:45,  3.43it/s] 65%|██████▍   | 240202/371472 [8:04:55<11:04:10,  3.29it/s] 65%|██████▍   | 240203/371472 [8:04:55<10:44:21,  3.40it/s] 65%|██████▍   | 240204/371472 [8:04:56<10:39:58,  3.42it/s] 65%|██████▍   | 240205/371472 [8:04:56<10:22:24,  3.51it/s] 65%|██████▍   | 240206/371472 [8:04:56<10:10:55,  3.58it/s] 65%|██████▍   | 240207/371472 [8:04:56<10:13:32,  3.57it/s] 65%|██████▍   | 240208/371472 [8:04:57<10:50:49,  3.36it/s] 65%|██████▍   | 240209/371472 [8:04:57<10:29:11,  3.48it/s] 65%|██████▍   | 240210/371472 [8:04:57<10:19:11,  3.53it/s] 65%|██████▍   | 240211/371472 [8:04:58<10:26:17,  3.49it/s] 65%|██████▍   | 240212/371472 [8:04:58<10:15:53,  3.55it/s] 65%|██████▍   | 240213/371472 [8:04:58<10:17:30,  3.54it/s] 65%|██████▍   | 240214/371472 [8:04:58<10:04:25,  3.62it/s] 65%|██████▍   | 240215/371472 [8:04:59<9:59:11,  3.65it/s]  65%|██████▍   | 240216/371472 [8:04:59<10:39:06,  3.42it/s] 65%|██████▍   | 240217/371472 [8:04:59<10:27:08,  3.49it/s] 65%|██████▍   | 240218/371472 [8:05:00<10:15:10,  3.56it/s] 65%|██████▍   | 240219/371472 [8:05:00<9:59:17,  3.65it/s]  65%|██████▍   | 240220/371472 [8:05:00<10:16:07,  3.55it/s]                                                            {'loss': 2.7839, 'learning_rate': 4.1816781227779096e-07, 'epoch': 10.35}
 65%|██████▍   | 240220/371472 [8:05:00<10:16:07,  3.55it/s] 65%|██████▍   | 240221/371472 [8:05:00<9:45:42,  3.73it/s]  65%|██████▍   | 240222/371472 [8:05:01<9:50:21,  3.71it/s] 65%|██████▍   | 240223/371472 [8:05:01<9:57:08,  3.66it/s] 65%|██████▍   | 240224/371472 [8:05:01<10:23:04,  3.51it/s] 65%|██████▍   | 240225/371472 [8:05:02<10:54:54,  3.34it/s] 65%|██████▍   | 240226/371472 [8:05:02<10:48:39,  3.37it/s] 65%|██████▍   | 240227/371472 [8:05:03<15:00:38,  2.43it/s] 65%|██████▍   | 240228/371472 [8:05:03<13:22:57,  2.72it/s] 65%|██████▍   | 240229/371472 [8:05:03<12:25:22,  2.93it/s] 65%|██████▍   | 240230/371472 [8:05:03<11:23:31,  3.20it/s] 65%|██████▍   | 240231/371472 [8:05:04<10:55:09,  3.34it/s] 65%|██████▍   | 240232/371472 [8:05:04<10:52:06,  3.35it/s] 65%|██████▍   | 240233/371472 [8:05:04<10:45:41,  3.39it/s] 65%|██████▍   | 240234/371472 [8:05:05<10:51:12,  3.36it/s] 65%|██████▍   | 240235/371472 [8:05:05<10:31:38,  3.46it/s] 65%|██████▍   | 240236/371472 [8:05:05<10:12:31,  3.57it/s] 65%|██████▍   | 240237/371472 [8:05:05<9:52:30,  3.69it/s]  65%|██████▍   | 240238/371472 [8:05:06<9:38:02,  3.78it/s] 65%|██████▍   | 240239/371472 [8:05:06<9:52:06,  3.69it/s] 65%|██████▍   | 240240/371472 [8:05:06<9:27:23,  3.85it/s]                                                           {'loss': 2.8755, 'learning_rate': 4.1811933030231203e-07, 'epoch': 10.35}
 65%|██████▍   | 240240/371472 [8:05:06<9:27:23,  3.85it/s] 65%|██████▍   | 240241/371472 [8:05:06<9:39:43,  3.77it/s] 65%|██████▍   | 240242/371472 [8:05:07<9:46:36,  3.73it/s] 65%|██████▍   | 240243/371472 [8:05:07<10:10:19,  3.58it/s] 65%|██████▍   | 240244/371472 [8:05:07<10:19:10,  3.53it/s] 65%|██████▍   | 240245/371472 [8:05:07<10:17:02,  3.54it/s] 65%|██████▍   | 240246/371472 [8:05:08<9:58:36,  3.65it/s]  65%|██████▍   | 240247/371472 [8:05:08<10:18:10,  3.54it/s] 65%|██████▍   | 240248/371472 [8:05:08<11:05:28,  3.29it/s] 65%|██████▍   | 240249/371472 [8:05:09<11:26:21,  3.19it/s] 65%|██████▍   | 240250/371472 [8:05:09<12:03:50,  3.02it/s] 65%|██████▍   | 240251/371472 [8:05:09<11:58:32,  3.04it/s] 65%|██████▍   | 240252/371472 [8:05:10<11:11:14,  3.26it/s] 65%|██████▍   | 240253/371472 [8:05:10<11:24:22,  3.20it/s] 65%|██████▍   | 240254/371472 [8:05:10<11:15:38,  3.24it/s] 65%|██████▍   | 240255/371472 [8:05:11<11:04:44,  3.29it/s] 65%|██████▍   | 240256/371472 [8:05:11<11:01:37,  3.31it/s] 65%|██████▍   | 240257/371472 [8:05:11<11:01:24,  3.31it/s] 65%|██████▍   | 240258/371472 [8:05:11<10:42:30,  3.40it/s] 65%|██████▍   | 240259/371472 [8:05:12<10:35:10,  3.44it/s] 65%|██████▍   | 240260/371472 [8:05:12<10:28:36,  3.48it/s]                                                            {'loss': 2.8823, 'learning_rate': 4.1807084832683316e-07, 'epoch': 10.35}
 65%|██████▍   | 240260/371472 [8:05:12<10:28:36,  3.48it/s] 65%|██████▍   | 240261/371472 [8:05:12<11:10:06,  3.26it/s] 65%|██████▍   | 240262/371472 [8:05:13<10:54:37,  3.34it/s] 65%|██████▍   | 240263/371472 [8:05:13<10:40:49,  3.41it/s] 65%|██████▍   | 240264/371472 [8:05:13<10:23:27,  3.51it/s] 65%|██████▍   | 240265/371472 [8:05:13<9:58:58,  3.65it/s]  65%|██████▍   | 240266/371472 [8:05:14<10:10:03,  3.58it/s] 65%|██████▍   | 240267/371472 [8:05:14<10:18:26,  3.54it/s] 65%|██████▍   | 240268/371472 [8:05:14<9:51:51,  3.69it/s]  65%|██████▍   | 240269/371472 [8:05:15<10:10:42,  3.58it/s] 65%|██████▍   | 240270/371472 [8:05:15<9:43:15,  3.75it/s]  65%|██████▍   | 240271/371472 [8:05:15<9:24:50,  3.87it/s] 65%|██████▍   | 240272/371472 [8:05:15<9:47:25,  3.72it/s] 65%|██████▍   | 240273/371472 [8:05:16<10:07:51,  3.60it/s] 65%|██████▍   | 240274/371472 [8:05:16<9:49:53,  3.71it/s]  65%|██████▍   | 240275/371472 [8:05:16<9:39:41,  3.77it/s] 65%|██████▍   | 240276/371472 [8:05:16<9:46:50,  3.73it/s] 65%|██████▍   | 240277/371472 [8:05:17<9:42:01,  3.76it/s] 65%|██████▍   | 240278/371472 [8:05:17<9:36:53,  3.79it/s] 65%|██████▍   | 240279/371472 [8:05:17<9:31:11,  3.83it/s] 65%|██████▍   | 240280/371472 [8:05:17<9:12:14,  3.96it/s]                                                           {'loss': 3.0576, 'learning_rate': 4.1802236635135423e-07, 'epoch': 10.35}
 65%|██████▍   | 240280/371472 [8:05:17<9:12:14,  3.96it/s] 65%|██████▍   | 240281/371472 [8:05:18<9:42:16,  3.76it/s] 65%|██████▍   | 240282/371472 [8:05:18<10:57:17,  3.33it/s] 65%|██████▍   | 240283/371472 [8:05:18<11:17:06,  3.23it/s] 65%|██████▍   | 240284/371472 [8:05:19<10:31:16,  3.46it/s] 65%|██████▍   | 240285/371472 [8:05:19<10:23:27,  3.51it/s] 65%|██████▍   | 240286/371472 [8:05:19<9:52:13,  3.69it/s]  65%|██████▍   | 240287/371472 [8:05:20<10:05:07,  3.61it/s] 65%|██████▍   | 240288/371472 [8:05:20<10:31:59,  3.46it/s] 65%|██████▍   | 240289/371472 [8:05:20<10:14:36,  3.56it/s] 65%|██████▍   | 240290/371472 [8:05:20<10:02:30,  3.63it/s] 65%|██████▍   | 240291/371472 [8:05:21<10:27:56,  3.48it/s] 65%|██████▍   | 240292/371472 [8:05:21<11:24:39,  3.19it/s] 65%|██████▍   | 240293/371472 [8:05:21<11:24:24,  3.19it/s] 65%|██████▍   | 240294/371472 [8:05:22<11:36:35,  3.14it/s] 65%|██████▍   | 240295/371472 [8:05:22<11:42:21,  3.11it/s] 65%|██████▍   | 240296/371472 [8:05:22<10:57:58,  3.32it/s] 65%|██████▍   | 240297/371472 [8:05:23<10:57:20,  3.33it/s] 65%|██████▍   | 240298/371472 [8:05:23<10:32:57,  3.45it/s] 65%|██████▍   | 240299/371472 [8:05:23<10:47:43,  3.38it/s] 65%|██████▍   | 240300/371472 [8:05:23<10:28:25,  3.48it/s]                                                            {'loss': 2.8883, 'learning_rate': 4.179738843758754e-07, 'epoch': 10.35}
 65%|██████▍   | 240300/371472 [8:05:23<10:28:25,  3.48it/s] 65%|██████▍   | 240301/371472 [8:05:24<10:08:07,  3.59it/s] 65%|██████▍   | 240302/371472 [8:05:24<11:52:26,  3.07it/s] 65%|██████▍   | 240303/371472 [8:05:24<11:07:59,  3.27it/s] 65%|██████▍   | 240304/371472 [8:05:25<10:35:34,  3.44it/s] 65%|██████▍   | 240305/371472 [8:05:25<10:09:20,  3.59it/s] 65%|██████▍   | 240306/371472 [8:05:25<9:51:12,  3.70it/s]  65%|██████▍   | 240307/371472 [8:05:25<10:35:17,  3.44it/s] 65%|██████▍   | 240308/371472 [8:05:26<10:51:05,  3.36it/s] 65%|██████▍   | 240309/371472 [8:05:26<10:35:33,  3.44it/s] 65%|██████▍   | 240310/371472 [8:05:26<10:22:06,  3.51it/s] 65%|██████▍   | 240311/371472 [8:05:27<9:58:30,  3.65it/s]  65%|██████▍   | 240312/371472 [8:05:27<9:55:51,  3.67it/s] 65%|██████▍   | 240313/371472 [8:05:27<10:16:29,  3.55it/s] 65%|██████▍   | 240314/371472 [8:05:27<10:23:48,  3.50it/s] 65%|██████▍   | 240315/371472 [8:05:28<10:06:35,  3.60it/s] 65%|██████▍   | 240316/371472 [8:05:28<10:07:10,  3.60it/s] 65%|██████▍   | 240317/371472 [8:05:28<10:01:20,  3.64it/s] 65%|██████▍   | 240318/371472 [8:05:29<10:15:29,  3.55it/s] 65%|██████▍   | 240319/371472 [8:05:29<10:06:36,  3.60it/s] 65%|██████▍   | 240320/371472 [8:05:29<9:48:59,  3.71it/s]                                                            {'loss': 2.744, 'learning_rate': 4.179254024003964e-07, 'epoch': 10.35}
 65%|██████▍   | 240320/371472 [8:05:29<9:48:59,  3.71it/s] 65%|██████▍   | 240321/371472 [8:05:29<9:47:09,  3.72it/s] 65%|██████▍   | 240322/371472 [8:05:30<10:29:58,  3.47it/s] 65%|██████▍   | 240323/371472 [8:05:30<10:18:14,  3.54it/s] 65%|██████▍   | 240324/371472 [8:05:30<10:21:00,  3.52it/s] 65%|██████▍   | 240325/371472 [8:05:30<9:58:02,  3.65it/s]  65%|██████▍   | 240326/371472 [8:05:31<9:45:56,  3.73it/s] 65%|██████▍   | 240327/371472 [8:05:31<9:52:23,  3.69it/s] 65%|██████▍   | 240328/371472 [8:05:31<9:28:47,  3.84it/s] 65%|██████▍   | 240329/371472 [8:05:32<9:49:09,  3.71it/s] 65%|██████▍   | 240330/371472 [8:05:32<9:59:23,  3.65it/s] 65%|██████▍   | 240331/371472 [8:05:32<10:01:34,  3.63it/s] 65%|██████▍   | 240332/371472 [8:05:32<9:48:18,  3.72it/s]  65%|██████▍   | 240333/371472 [8:05:33<10:09:17,  3.59it/s] 65%|██████▍   | 240334/371472 [8:05:33<9:50:44,  3.70it/s]  65%|██████▍   | 240335/371472 [8:05:33<9:41:03,  3.76it/s] 65%|██████▍   | 240336/371472 [8:05:33<10:00:01,  3.64it/s] 65%|██████▍   | 240337/371472 [8:05:34<9:37:57,  3.78it/s]  65%|██████▍   | 240338/371472 [8:05:34<9:26:52,  3.86it/s] 65%|██████▍   | 240339/371472 [8:05:34<9:18:26,  3.91it/s] 65%|██████▍   | 240340/371472 [8:05:35<10:30:16,  3.47it/s]                                                            {'loss': 2.8487, 'learning_rate': 4.178769204249176e-07, 'epoch': 10.35}
 65%|██████▍   | 240340/371472 [8:05:35<10:30:16,  3.47it/s] 65%|██████▍   | 240341/371472 [8:05:35<10:18:39,  3.53it/s] 65%|██████▍   | 240342/371472 [8:05:35<10:45:57,  3.38it/s] 65%|██████▍   | 240343/371472 [8:05:35<10:37:14,  3.43it/s] 65%|██████▍   | 240344/371472 [8:05:36<10:14:25,  3.56it/s] 65%|██████▍   | 240345/371472 [8:05:36<9:58:55,  3.65it/s]  65%|██████▍   | 240346/371472 [8:05:36<10:03:40,  3.62it/s] 65%|██████▍   | 240347/371472 [8:05:36<9:40:17,  3.77it/s]  65%|██████▍   | 240348/371472 [8:05:37<9:35:01,  3.80it/s] 65%|██████▍   | 240349/371472 [8:05:37<9:41:23,  3.76it/s] 65%|██████▍   | 240350/371472 [8:05:37<10:13:08,  3.56it/s] 65%|██████▍   | 240351/371472 [8:05:38<10:45:52,  3.38it/s] 65%|██████▍   | 240352/371472 [8:05:38<10:14:14,  3.56it/s] 65%|██████▍   | 240353/371472 [8:05:38<10:01:45,  3.63it/s] 65%|██████▍   | 240354/371472 [8:05:39<11:05:22,  3.28it/s] 65%|██████▍   | 240355/371472 [8:05:39<10:47:58,  3.37it/s] 65%|██████▍   | 240356/371472 [8:05:39<10:13:28,  3.56it/s] 65%|██████▍   | 240357/371472 [8:05:39<10:59:06,  3.32it/s] 65%|██████▍   | 240358/371472 [8:05:40<10:40:40,  3.41it/s] 65%|██████▍   | 240359/371472 [8:05:40<10:39:16,  3.42it/s] 65%|██████▍   | 240360/371472 [8:05:40<10:15:33,  3.55it/s]                                                            {'loss': 2.9843, 'learning_rate': 4.178284384494387e-07, 'epoch': 10.35}
 65%|██████▍   | 240360/371472 [8:05:40<10:15:33,  3.55it/s] 65%|██████▍   | 240361/371472 [8:05:40<10:12:06,  3.57it/s] 65%|██████▍   | 240362/371472 [8:05:41<10:07:18,  3.60it/s] 65%|██████▍   | 240363/371472 [8:05:41<9:59:45,  3.64it/s]  65%|██████▍   | 240364/371472 [8:05:41<9:33:27,  3.81it/s] 65%|██████▍   | 240365/371472 [8:05:41<9:16:20,  3.93it/s] 65%|██████▍   | 240366/371472 [8:05:42<9:17:57,  3.92it/s] 65%|██████▍   | 240367/371472 [8:05:42<9:44:57,  3.74it/s] 65%|██████▍   | 240368/371472 [8:05:42<9:54:34,  3.67it/s] 65%|██████▍   | 240369/371472 [8:05:43<10:25:14,  3.49it/s] 65%|██████▍   | 240370/371472 [8:05:43<10:13:18,  3.56it/s] 65%|██████▍   | 240371/371472 [8:05:43<10:08:02,  3.59it/s] 65%|██████▍   | 240372/371472 [8:05:43<9:59:33,  3.64it/s]  65%|██████▍   | 240373/371472 [8:05:44<9:47:32,  3.72it/s] 65%|██████▍   | 240374/371472 [8:05:44<9:50:31,  3.70it/s] 65%|██████▍   | 240375/371472 [8:05:44<9:57:19,  3.66it/s] 65%|██████▍   | 240376/371472 [8:05:45<10:48:10,  3.37it/s] 65%|██████▍   | 240377/371472 [8:05:45<10:09:54,  3.58it/s] 65%|██████▍   | 240378/371472 [8:05:45<10:04:24,  3.61it/s] 65%|██████▍   | 240379/371472 [8:05:45<10:01:58,  3.63it/s] 65%|██████▍   | 240380/371472 [8:05:46<9:50:13,  3.70it/s]                                                            {'loss': 2.8375, 'learning_rate': 4.177799564739598e-07, 'epoch': 10.35}
 65%|██████▍   | 240380/371472 [8:05:46<9:50:13,  3.70it/s] 65%|██████▍   | 240381/371472 [8:05:46<9:41:38,  3.76it/s] 65%|██████▍   | 240382/371472 [8:05:46<11:24:12,  3.19it/s] 65%|██████▍   | 240383/371472 [8:05:47<10:41:30,  3.41it/s] 65%|██████▍   | 240384/371472 [8:05:47<11:09:04,  3.27it/s] 65%|██████▍   | 240385/371472 [8:05:47<10:56:37,  3.33it/s] 65%|██████▍   | 240386/371472 [8:05:47<10:26:52,  3.49it/s] 65%|██████▍   | 240387/371472 [8:05:48<10:04:44,  3.61it/s] 65%|██████▍   | 240388/371472 [8:05:48<9:57:37,  3.66it/s]  65%|██████▍   | 240389/371472 [8:05:48<9:57:07,  3.66it/s] 65%|██████▍   | 240390/371472 [8:05:49<9:57:04,  3.66it/s] 65%|██████▍   | 240391/371472 [8:05:49<11:03:01,  3.30it/s] 65%|██████▍   | 240392/371472 [8:05:49<10:53:02,  3.35it/s] 65%|██████▍   | 240393/371472 [8:05:49<10:16:43,  3.54it/s] 65%|██████▍   | 240394/371472 [8:05:50<10:06:31,  3.60it/s] 65%|██████▍   | 240395/371472 [8:05:50<9:53:08,  3.68it/s]  65%|██████▍   | 240396/371472 [8:05:50<9:42:36,  3.75it/s] 65%|██████▍   | 240397/371472 [8:05:50<9:26:53,  3.85it/s] 65%|██████▍   | 240398/371472 [8:05:51<9:32:27,  3.82it/s] 65%|██████▍   | 240399/371472 [8:05:51<9:48:50,  3.71it/s] 65%|██████▍   | 240400/371472 [8:05:51<9:51:15,  3.69it/s]                                                           {'loss': 2.9957, 'learning_rate': 4.1773147449848087e-07, 'epoch': 10.35}
 65%|██████▍   | 240400/371472 [8:05:51<9:51:15,  3.69it/s] 65%|██████▍   | 240401/371472 [8:05:52<10:03:47,  3.62it/s] 65%|██████▍   | 240402/371472 [8:05:52<10:03:51,  3.62it/s] 65%|██████▍   | 240403/371472 [8:05:52<10:14:11,  3.56it/s] 65%|██████▍   | 240404/371472 [8:05:52<10:04:24,  3.61it/s] 65%|██████▍   | 240405/371472 [8:05:53<10:17:47,  3.54it/s] 65%|██████▍   | 240406/371472 [8:05:53<10:00:06,  3.64it/s] 65%|██████▍   | 240407/371472 [8:05:53<10:45:32,  3.38it/s] 65%|██████▍   | 240408/371472 [8:05:54<10:40:07,  3.41it/s] 65%|██████▍   | 240409/371472 [8:05:54<10:37:21,  3.43it/s] 65%|██████▍   | 240410/371472 [8:05:54<10:32:08,  3.46it/s] 65%|██████▍   | 240411/371472 [8:05:55<11:05:35,  3.28it/s] 65%|██████▍   | 240412/371472 [8:05:55<11:03:04,  3.29it/s] 65%|██████▍   | 240413/371472 [8:05:55<10:56:03,  3.33it/s] 65%|██████▍   | 240414/371472 [8:05:55<11:00:01,  3.31it/s] 65%|██████▍   | 240415/371472 [8:05:56<10:48:48,  3.37it/s] 65%|██████▍   | 240416/371472 [8:05:56<10:29:21,  3.47it/s] 65%|██████▍   | 240417/371472 [8:05:56<10:06:18,  3.60it/s] 65%|██████▍   | 240418/371472 [8:05:56<9:48:12,  3.71it/s]  65%|██████▍   | 240419/371472 [8:05:57<10:32:35,  3.45it/s] 65%|██████▍   | 240420/371472 [8:05:57<10:07:46,  3.59it/s]                                                            {'loss': 2.7579, 'learning_rate': 4.1768299252300205e-07, 'epoch': 10.36}
 65%|██████▍   | 240420/371472 [8:05:57<10:07:46,  3.59it/s] 65%|██████▍   | 240421/371472 [8:05:57<10:12:19,  3.57it/s] 65%|██████▍   | 240422/371472 [8:05:58<10:01:30,  3.63it/s] 65%|██████▍   | 240423/371472 [8:05:58<9:49:47,  3.70it/s]  65%|██████▍   | 240424/371472 [8:05:58<10:10:32,  3.58it/s] 65%|██████▍   | 240425/371472 [8:05:58<10:12:03,  3.57it/s] 65%|██████▍   | 240426/371472 [8:05:59<10:06:59,  3.60it/s] 65%|██████▍   | 240427/371472 [8:05:59<10:17:19,  3.54it/s] 65%|██████▍   | 240428/371472 [8:05:59<10:24:39,  3.50it/s] 65%|██████▍   | 240429/371472 [8:06:00<10:16:15,  3.54it/s] 65%|██████▍   | 240430/371472 [8:06:00<10:22:17,  3.51it/s] 65%|██████▍   | 240431/371472 [8:06:00<10:19:22,  3.53it/s] 65%|██████▍   | 240432/371472 [8:06:00<10:37:18,  3.43it/s] 65%|██████▍   | 240433/371472 [8:06:01<10:26:37,  3.49it/s] 65%|██████▍   | 240434/371472 [8:06:01<10:13:51,  3.56it/s] 65%|██████▍   | 240435/371472 [8:06:01<9:59:57,  3.64it/s]  65%|██████▍   | 240436/371472 [8:06:02<10:00:09,  3.64it/s] 65%|██████▍   | 240437/371472 [8:06:02<9:55:40,  3.67it/s]  65%|██████▍   | 240438/371472 [8:06:02<11:05:52,  3.28it/s] 65%|██████▍   | 240439/371472 [8:06:02<10:52:21,  3.35it/s] 65%|██████▍   | 240440/371472 [8:06:03<11:28:22,  3.17it/s]                                                            {'loss': 2.8736, 'learning_rate': 4.1763451054752307e-07, 'epoch': 10.36}
 65%|██████▍   | 240440/371472 [8:06:03<11:28:22,  3.17it/s] 65%|██████▍   | 240441/371472 [8:06:03<11:28:18,  3.17it/s] 65%|██████▍   | 240442/371472 [8:06:03<11:00:55,  3.30it/s] 65%|██████▍   | 240443/371472 [8:06:04<10:49:10,  3.36it/s] 65%|██████▍   | 240444/371472 [8:06:04<10:43:26,  3.39it/s] 65%|██████▍   | 240445/371472 [8:06:04<10:15:47,  3.55it/s] 65%|██████▍   | 240446/371472 [8:06:05<10:27:54,  3.48it/s] 65%|██████▍   | 240447/371472 [8:06:05<10:25:45,  3.49it/s] 65%|██████▍   | 240448/371472 [8:06:05<10:17:26,  3.54it/s] 65%|██████▍   | 240449/371472 [8:06:05<10:31:19,  3.46it/s] 65%|██████▍   | 240450/371472 [8:06:06<10:25:03,  3.49it/s] 65%|██████▍   | 240451/371472 [8:06:06<10:05:48,  3.60it/s] 65%|██████▍   | 240452/371472 [8:06:06<10:00:23,  3.64it/s] 65%|██████▍   | 240453/371472 [8:06:07<10:33:57,  3.44it/s] 65%|██████▍   | 240454/371472 [8:06:07<10:48:51,  3.37it/s] 65%|██████▍   | 240455/371472 [8:06:07<10:44:52,  3.39it/s] 65%|██████▍   | 240456/371472 [8:06:07<10:46:27,  3.38it/s] 65%|██████▍   | 240457/371472 [8:06:08<11:00:21,  3.31it/s] 65%|██████▍   | 240458/371472 [8:06:08<11:35:04,  3.14it/s] 65%|██████▍   | 240459/371472 [8:06:08<10:45:00,  3.39it/s] 65%|██████▍   | 240460/371472 [8:06:09<10:22:48,  3.51it/s]                                                            {'loss': 3.1442, 'learning_rate': 4.1758602857204424e-07, 'epoch': 10.36}
 65%|██████▍   | 240460/371472 [8:06:09<10:22:48,  3.51it/s] 65%|██████▍   | 240461/371472 [8:06:09<10:27:34,  3.48it/s] 65%|██████▍   | 240462/371472 [8:06:09<9:54:16,  3.67it/s]  65%|██████▍   | 240463/371472 [8:06:09<9:52:29,  3.69it/s] 65%|██████▍   | 240464/371472 [8:06:10<10:17:11,  3.54it/s] 65%|██████▍   | 240465/371472 [8:06:10<9:58:10,  3.65it/s]  65%|██████▍   | 240466/371472 [8:06:10<10:03:05,  3.62it/s] 65%|██████▍   | 240467/371472 [8:06:11<10:03:48,  3.62it/s] 65%|██████▍   | 240468/371472 [8:06:11<11:59:02,  3.04it/s] 65%|██████▍   | 240469/371472 [8:06:11<11:29:30,  3.17it/s] 65%|██████▍   | 240470/371472 [8:06:12<10:43:14,  3.39it/s] 65%|██████▍   | 240471/371472 [8:06:12<10:26:49,  3.48it/s] 65%|██████▍   | 240472/371472 [8:06:12<10:18:31,  3.53it/s] 65%|██████▍   | 240473/371472 [8:06:12<10:10:21,  3.58it/s] 65%|██████▍   | 240474/371472 [8:06:13<10:02:28,  3.62it/s] 65%|██████▍   | 240475/371472 [8:06:13<10:23:25,  3.50it/s] 65%|██████▍   | 240476/371472 [8:06:13<10:15:57,  3.54it/s] 65%|██████▍   | 240477/371472 [8:06:13<10:02:45,  3.62it/s] 65%|██████▍   | 240478/371472 [8:06:14<10:03:27,  3.62it/s] 65%|██████▍   | 240479/371472 [8:06:14<10:10:50,  3.57it/s] 65%|██████▍   | 240480/371472 [8:06:14<10:02:11,  3.63it/s]                                                            {'loss': 2.9747, 'learning_rate': 4.175375465965653e-07, 'epoch': 10.36}
 65%|██████▍   | 240480/371472 [8:06:14<10:02:11,  3.63it/s] 65%|██████▍   | 240481/371472 [8:06:15<10:05:37,  3.60it/s] 65%|██████▍   | 240482/371472 [8:06:15<10:10:37,  3.58it/s] 65%|██████▍   | 240483/371472 [8:06:15<9:58:29,  3.65it/s]  65%|██████▍   | 240484/371472 [8:06:15<10:39:24,  3.41it/s] 65%|██████▍   | 240485/371472 [8:06:16<10:11:50,  3.57it/s] 65%|██████▍   | 240486/371472 [8:06:16<10:31:58,  3.45it/s] 65%|██████▍   | 240487/371472 [8:06:16<10:30:52,  3.46it/s] 65%|██████▍   | 240488/371472 [8:06:17<10:20:08,  3.52it/s] 65%|██████▍   | 240489/371472 [8:06:17<10:19:13,  3.53it/s] 65%|██████▍   | 240490/371472 [8:06:17<10:32:11,  3.45it/s] 65%|██████▍   | 240491/371472 [8:06:17<10:29:54,  3.47it/s] 65%|██████▍   | 240492/371472 [8:06:18<10:07:52,  3.59it/s] 65%|██████▍   | 240493/371472 [8:06:18<9:51:18,  3.69it/s]  65%|██████▍   | 240494/371472 [8:06:18<9:56:24,  3.66it/s] 65%|██████▍   | 240495/371472 [8:06:19<10:23:33,  3.50it/s] 65%|██████▍   | 240496/371472 [8:06:19<10:11:15,  3.57it/s] 65%|██████▍   | 240497/371472 [8:06:19<9:49:08,  3.71it/s]  65%|██████▍   | 240498/371472 [8:06:19<9:42:09,  3.75it/s] 65%|██████▍   | 240499/371472 [8:06:20<10:17:05,  3.54it/s] 65%|██████▍   | 240500/371472 [8:06:20<11:00:43,  3.30it/s]                                                            {'loss': 2.8587, 'learning_rate': 4.174890646210864e-07, 'epoch': 10.36}
 65%|██████▍   | 240500/371472 [8:06:20<11:00:43,  3.30it/s] 65%|██████▍   | 240501/371472 [8:06:20<10:33:35,  3.45it/s] 65%|██████▍   | 240502/371472 [8:06:21<10:55:21,  3.33it/s] 65%|██████▍   | 240503/371472 [8:06:21<10:29:50,  3.47it/s] 65%|██████▍   | 240504/371472 [8:06:21<9:55:50,  3.66it/s]  65%|██████▍   | 240505/371472 [8:06:21<9:50:16,  3.70it/s] 65%|██████▍   | 240506/371472 [8:06:22<9:42:13,  3.75it/s] 65%|██████▍   | 240507/371472 [8:06:22<9:39:55,  3.76it/s] 65%|██████▍   | 240508/371472 [8:06:22<10:56:37,  3.32it/s] 65%|██████▍   | 240509/371472 [8:06:22<10:22:45,  3.50it/s] 65%|██████▍   | 240510/371472 [8:06:23<9:55:10,  3.67it/s]  65%|██████▍   | 240511/371472 [8:06:23<9:41:30,  3.75it/s] 65%|██████▍   | 240512/371472 [8:06:23<9:35:26,  3.79it/s] 65%|██████▍   | 240513/371472 [8:06:23<9:27:46,  3.84it/s] 65%|██████▍   | 240514/371472 [8:06:24<9:11:30,  3.96it/s] 65%|██████▍   | 240515/371472 [8:06:24<9:17:51,  3.91it/s] 65%|██████▍   | 240516/371472 [8:06:24<9:30:07,  3.83it/s] 65%|██████▍   | 240517/371472 [8:06:25<10:20:28,  3.52it/s] 65%|██████▍   | 240518/371472 [8:06:25<9:56:43,  3.66it/s]  65%|██████▍   | 240519/371472 [8:06:25<10:13:52,  3.56it/s] 65%|██████▍   | 240520/371472 [8:06:25<10:18:28,  3.53it/s]                                                            {'loss': 2.7885, 'learning_rate': 4.174405826456075e-07, 'epoch': 10.36}
 65%|██████▍   | 240520/371472 [8:06:25<10:18:28,  3.53it/s] 65%|██████▍   | 240521/371472 [8:06:26<10:36:27,  3.43it/s] 65%|██████▍   | 240522/371472 [8:06:26<10:36:54,  3.43it/s] 65%|██████▍   | 240523/371472 [8:06:26<10:26:26,  3.48it/s] 65%|██████▍   | 240524/371472 [8:06:27<10:13:55,  3.55it/s] 65%|██████▍   | 240525/371472 [8:06:27<10:21:41,  3.51it/s] 65%|██████▍   | 240526/371472 [8:06:27<10:53:46,  3.34it/s] 65%|██████▍   | 240527/371472 [8:06:27<10:24:35,  3.49it/s] 65%|██████▍   | 240528/371472 [8:06:28<10:04:56,  3.61it/s] 65%|██████▍   | 240529/371472 [8:06:28<10:24:38,  3.49it/s] 65%|██████▍   | 240530/371472 [8:06:28<9:55:29,  3.66it/s]  65%|██████▍   | 240531/371472 [8:06:29<9:52:43,  3.68it/s] 65%|██████▍   | 240532/371472 [8:06:29<9:46:40,  3.72it/s] 65%|██████▍   | 240533/371472 [8:06:29<10:54:35,  3.33it/s] 65%|██████▍   | 240534/371472 [8:06:29<10:34:08,  3.44it/s] 65%|██████▍   | 240535/371472 [8:06:30<10:20:06,  3.52it/s] 65%|██████▍   | 240536/371472 [8:06:30<10:03:10,  3.62it/s] 65%|██████▍   | 240537/371472 [8:06:30<9:56:32,  3.66it/s]  65%|██████▍   | 240538/371472 [8:06:31<10:52:19,  3.35it/s] 65%|██████▍   | 240539/371472 [8:06:31<10:20:17,  3.52it/s] 65%|██████▍   | 240540/371472 [8:06:31<10:11:55,  3.57it/s]                                                            {'loss': 2.9606, 'learning_rate': 4.173921006701286e-07, 'epoch': 10.36}
 65%|██████▍   | 240540/371472 [8:06:31<10:11:55,  3.57it/s] 65%|██████▍   | 240541/371472 [8:06:31<10:10:02,  3.58it/s] 65%|██████▍   | 240542/371472 [8:06:32<9:46:01,  3.72it/s]  65%|██████▍   | 240543/371472 [8:06:32<9:51:17,  3.69it/s] 65%|██████▍   | 240544/371472 [8:06:32<9:51:34,  3.69it/s] 65%|██████▍   | 240545/371472 [8:06:32<9:55:00,  3.67it/s] 65%|██████▍   | 240546/371472 [8:06:33<10:03:54,  3.61it/s] 65%|██████▍   | 240547/371472 [8:06:33<9:49:05,  3.70it/s]  65%|██████▍   | 240548/371472 [8:06:33<9:29:50,  3.83it/s] 65%|██████▍   | 240549/371472 [8:06:34<9:53:16,  3.68it/s] 65%|██████▍   | 240550/371472 [8:06:34<10:01:14,  3.63it/s] 65%|██████▍   | 240551/371472 [8:06:34<10:02:53,  3.62it/s] 65%|██████▍   | 240552/371472 [8:06:34<9:41:03,  3.76it/s]  65%|██████▍   | 240553/371472 [8:06:35<10:43:04,  3.39it/s] 65%|██████▍   | 240554/371472 [8:06:35<10:14:37,  3.55it/s] 65%|██████▍   | 240555/371472 [8:06:35<12:21:05,  2.94it/s] 65%|██████▍   | 240556/371472 [8:06:36<11:23:48,  3.19it/s] 65%|██████▍   | 240557/371472 [8:06:36<10:45:28,  3.38it/s] 65%|██████▍   | 240558/371472 [8:06:36<11:23:16,  3.19it/s] 65%|██████▍   | 240559/371472 [8:06:37<10:59:29,  3.31it/s] 65%|██████▍   | 240560/371472 [8:06:37<11:02:16,  3.29it/s]                                                            {'loss': 2.9694, 'learning_rate': 4.1734361869464976e-07, 'epoch': 10.36}
 65%|██████▍   | 240560/371472 [8:06:37<11:02:16,  3.29it/s] 65%|██████▍   | 240561/371472 [8:06:37<10:28:07,  3.47it/s] 65%|██████▍   | 240562/371472 [8:06:37<9:58:05,  3.65it/s]  65%|██████▍   | 240563/371472 [8:06:38<10:07:14,  3.59it/s] 65%|██████▍   | 240564/371472 [8:06:38<10:17:04,  3.54it/s] 65%|██████▍   | 240565/371472 [8:06:38<9:43:40,  3.74it/s]  65%|██████▍   | 240566/371472 [8:06:39<11:00:26,  3.30it/s] 65%|██████▍   | 240567/371472 [8:06:39<10:31:18,  3.46it/s] 65%|██████▍   | 240568/371472 [8:06:39<10:32:35,  3.45it/s] 65%|██████▍   | 240569/371472 [8:06:39<10:09:36,  3.58it/s] 65%|██████▍   | 240570/371472 [8:06:40<9:56:20,  3.66it/s]  65%|██████▍   | 240571/371472 [8:06:40<9:34:53,  3.79it/s] 65%|██████▍   | 240572/371472 [8:06:40<9:37:21,  3.78it/s] 65%|██████▍   | 240573/371472 [8:06:40<9:25:11,  3.86it/s] 65%|██████▍   | 240574/371472 [8:06:41<9:29:25,  3.83it/s] 65%|██████▍   | 240575/371472 [8:06:41<9:41:48,  3.75it/s] 65%|██████▍   | 240576/371472 [8:06:41<10:48:28,  3.36it/s] 65%|██████▍   | 240577/371472 [8:06:42<10:24:25,  3.49it/s] 65%|██████▍   | 240578/371472 [8:06:42<10:32:58,  3.45it/s] 65%|██████▍   | 240579/371472 [8:06:42<10:37:06,  3.42it/s] 65%|██████▍   | 240580/371472 [8:06:42<10:28:27,  3.47it/s]                                                            {'loss': 2.9585, 'learning_rate': 4.172951367191708e-07, 'epoch': 10.36}
 65%|██████▍   | 240580/371472 [8:06:42<10:28:27,  3.47it/s] 65%|██████▍   | 240581/371472 [8:06:43<10:12:51,  3.56it/s] 65%|██████▍   | 240582/371472 [8:06:43<10:21:20,  3.51it/s] 65%|██████▍   | 240583/371472 [8:06:43<10:11:43,  3.57it/s] 65%|██████▍   | 240584/371472 [8:06:44<9:59:14,  3.64it/s]  65%|██████▍   | 240585/371472 [8:06:44<10:21:52,  3.51it/s] 65%|██████▍   | 240586/371472 [8:06:44<10:43:30,  3.39it/s] 65%|██████▍   | 240587/371472 [8:06:44<10:16:00,  3.54it/s] 65%|██████▍   | 240588/371472 [8:06:45<10:26:16,  3.48it/s] 65%|██████▍   | 240589/371472 [8:06:45<10:19:13,  3.52it/s] 65%|██████▍   | 240590/371472 [8:06:45<10:33:38,  3.44it/s] 65%|██████▍   | 240591/371472 [8:06:46<10:20:06,  3.52it/s] 65%|██████▍   | 240592/371472 [8:06:46<10:18:56,  3.52it/s] 65%|██████▍   | 240593/371472 [8:06:46<10:15:03,  3.55it/s] 65%|██████▍   | 240594/371472 [8:06:46<10:04:17,  3.61it/s] 65%|██████▍   | 240595/371472 [8:06:47<9:51:38,  3.69it/s]  65%|██████▍   | 240596/371472 [8:06:47<10:13:11,  3.56it/s] 65%|██████▍   | 240597/371472 [8:06:47<10:28:37,  3.47it/s] 65%|██████▍   | 240598/371472 [8:06:47<10:09:52,  3.58it/s] 65%|██████▍   | 240599/371472 [8:06:48<9:52:21,  3.68it/s]  65%|██████▍   | 240600/371472 [8:06:48<9:58:14,  3.65it/s]                                                           {'loss': 2.7796, 'learning_rate': 4.1724665474369196e-07, 'epoch': 10.36}
 65%|██████▍   | 240600/371472 [8:06:48<9:58:14,  3.65it/s] 65%|██████▍   | 240601/371472 [8:06:48<9:44:20,  3.73it/s] 65%|██████▍   | 240602/371472 [8:06:49<9:29:01,  3.83it/s] 65%|██████▍   | 240603/371472 [8:06:49<10:39:48,  3.41it/s] 65%|██████▍   | 240604/371472 [8:06:49<10:34:28,  3.44it/s] 65%|██████▍   | 240605/371472 [8:06:49<10:19:30,  3.52it/s] 65%|██████▍   | 240606/371472 [8:06:50<10:02:20,  3.62it/s] 65%|██████▍   | 240607/371472 [8:06:50<10:02:37,  3.62it/s] 65%|██████▍   | 240608/371472 [8:06:50<10:00:23,  3.63it/s] 65%|██████▍   | 240609/371472 [8:06:51<9:55:32,  3.66it/s]  65%|██████▍   | 240610/371472 [8:06:51<10:30:23,  3.46it/s] 65%|██████▍   | 240611/371472 [8:06:51<10:43:45,  3.39it/s] 65%|██████▍   | 240612/371472 [8:06:51<10:54:37,  3.33it/s] 65%|██████▍   | 240613/371472 [8:06:52<10:38:03,  3.42it/s] 65%|██████▍   | 240614/371472 [8:06:52<10:21:22,  3.51it/s] 65%|██████▍   | 240615/371472 [8:06:52<10:20:21,  3.52it/s] 65%|██████▍   | 240616/371472 [8:06:53<10:32:48,  3.45it/s] 65%|██████▍   | 240617/371472 [8:06:53<10:22:26,  3.50it/s] 65%|██████▍   | 240618/371472 [8:06:53<11:03:16,  3.29it/s] 65%|██████▍   | 240619/371472 [8:06:53<10:45:12,  3.38it/s] 65%|██████▍   | 240620/371472 [8:06:54<10:08:10,  3.59it/s]                                                            {'loss': 2.8403, 'learning_rate': 4.1719817276821303e-07, 'epoch': 10.36}
 65%|██████▍   | 240620/371472 [8:06:54<10:08:10,  3.59it/s] 65%|██████▍   | 240621/371472 [8:06:54<9:57:56,  3.65it/s]  65%|██████▍   | 240622/371472 [8:06:54<9:52:49,  3.68it/s] 65%|██████▍   | 240623/371472 [8:06:54<9:29:20,  3.83it/s] 65%|██████▍   | 240624/371472 [8:06:55<9:32:23,  3.81it/s] 65%|██████▍   | 240625/371472 [8:06:55<9:27:46,  3.84it/s] 65%|██████▍   | 240626/371472 [8:06:55<9:40:42,  3.76it/s] 65%|██████▍   | 240627/371472 [8:06:56<9:27:21,  3.84it/s] 65%|██████▍   | 240628/371472 [8:06:56<9:29:38,  3.83it/s] 65%|██████▍   | 240629/371472 [8:06:56<10:13:51,  3.55it/s] 65%|██████▍   | 240630/371472 [8:06:56<10:32:59,  3.45it/s] 65%|██████▍   | 240631/371472 [8:06:57<10:21:45,  3.51it/s] 65%|██████▍   | 240632/371472 [8:06:57<10:23:44,  3.50it/s] 65%|██████▍   | 240633/371472 [8:06:57<10:13:01,  3.56it/s] 65%|██████▍   | 240634/371472 [8:06:58<10:20:23,  3.51it/s] 65%|██████▍   | 240635/371472 [8:06:58<10:20:21,  3.52it/s] 65%|██████▍   | 240636/371472 [8:06:58<10:11:20,  3.57it/s] 65%|██████▍   | 240637/371472 [8:06:58<10:43:56,  3.39it/s] 65%|██████▍   | 240638/371472 [8:06:59<10:12:57,  3.56it/s] 65%|██████▍   | 240639/371472 [8:06:59<9:56:21,  3.66it/s]  65%|██████▍   | 240640/371472 [8:06:59<9:58:52,  3.64it/s]                                                           {'loss': 2.9279, 'learning_rate': 4.1714969079273415e-07, 'epoch': 10.36}
 65%|██████▍   | 240640/371472 [8:06:59<9:58:52,  3.64it/s] 65%|██████▍   | 240641/371472 [8:06:59<9:46:30,  3.72it/s] 65%|██████▍   | 240642/371472 [8:07:00<9:46:48,  3.72it/s] 65%|██████▍   | 240643/371472 [8:07:00<9:55:27,  3.66it/s] 65%|██████▍   | 240644/371472 [8:07:00<9:35:42,  3.79it/s] 65%|██████▍   | 240645/371472 [8:07:01<9:30:17,  3.82it/s] 65%|██████▍   | 240646/371472 [8:07:01<9:52:23,  3.68it/s] 65%|██████▍   | 240647/371472 [8:07:01<9:48:27,  3.71it/s] 65%|██████▍   | 240648/371472 [8:07:01<9:28:37,  3.83it/s] 65%|██████▍   | 240649/371472 [8:07:02<9:36:55,  3.78it/s] 65%|██████▍   | 240650/371472 [8:07:02<9:50:21,  3.69it/s] 65%|██████▍   | 240651/371472 [8:07:02<9:59:11,  3.64it/s] 65%|██████▍   | 240652/371472 [8:07:02<9:52:24,  3.68it/s] 65%|██████▍   | 240653/371472 [8:07:03<10:16:11,  3.54it/s] 65%|██████▍   | 240654/371472 [8:07:03<10:16:13,  3.54it/s] 65%|██████▍   | 240655/371472 [8:07:03<10:38:21,  3.42it/s] 65%|██████▍   | 240656/371472 [8:07:04<10:44:53,  3.38it/s] 65%|██████▍   | 240657/371472 [8:07:04<10:24:32,  3.49it/s] 65%|██████▍   | 240658/371472 [8:07:04<10:05:38,  3.60it/s] 65%|██████▍   | 240659/371472 [8:07:04<9:53:51,  3.67it/s]  65%|██████▍   | 240660/371472 [8:07:05<9:55:55,  3.66it/s]                                                           {'loss': 2.8205, 'learning_rate': 4.171012088172552e-07, 'epoch': 10.37}
 65%|██████▍   | 240660/371472 [8:07:05<9:55:55,  3.66it/s] 65%|██████▍   | 240661/371472 [8:07:05<10:05:44,  3.60it/s] 65%|██████▍   | 240662/371472 [8:07:05<10:22:00,  3.51it/s] 65%|██████▍   | 240663/371472 [8:07:06<9:59:41,  3.64it/s]  65%|██████▍   | 240664/371472 [8:07:06<9:50:02,  3.69it/s] 65%|██████▍   | 240665/371472 [8:07:06<9:37:15,  3.78it/s] 65%|██████▍   | 240666/371472 [8:07:06<9:28:35,  3.83it/s] 65%|██████▍   | 240667/371472 [8:07:07<9:57:47,  3.65it/s] 65%|██████▍   | 240668/371472 [8:07:07<10:07:39,  3.59it/s] 65%|██████▍   | 240669/371472 [8:07:07<10:14:22,  3.55it/s] 65%|██████▍   | 240670/371472 [8:07:07<9:55:23,  3.66it/s]  65%|██████▍   | 240671/371472 [8:07:08<9:42:11,  3.74it/s] 65%|██████▍   | 240672/371472 [8:07:08<9:55:37,  3.66it/s] 65%|██████▍   | 240673/371472 [8:07:08<9:55:38,  3.66it/s] 65%|██████▍   | 240674/371472 [8:07:09<9:43:52,  3.73it/s] 65%|██████▍   | 240675/371472 [8:07:09<9:48:12,  3.71it/s] 65%|██████▍   | 240676/371472 [8:07:09<9:59:26,  3.64it/s] 65%|██████▍   | 240677/371472 [8:07:09<10:35:46,  3.43it/s] 65%|██████▍   | 240678/371472 [8:07:10<11:24:58,  3.18it/s] 65%|██████▍   | 240679/371472 [8:07:10<11:01:49,  3.29it/s] 65%|██████▍   | 240680/371472 [8:07:10<10:40:21,  3.40it/s]                                                            {'loss': 3.0433, 'learning_rate': 4.170527268417764e-07, 'epoch': 10.37}
 65%|██████▍   | 240680/371472 [8:07:10<10:40:21,  3.40it/s] 65%|██████▍   | 240681/371472 [8:07:11<10:34:13,  3.44it/s] 65%|██████▍   | 240682/371472 [8:07:11<10:35:47,  3.43it/s] 65%|██████▍   | 240683/371472 [8:07:11<10:21:38,  3.51it/s] 65%|██████▍   | 240684/371472 [8:07:11<10:41:06,  3.40it/s] 65%|██████▍   | 240685/371472 [8:07:12<10:41:21,  3.40it/s] 65%|██████▍   | 240686/371472 [8:07:12<11:20:20,  3.20it/s] 65%|██████▍   | 240687/371472 [8:07:12<10:53:31,  3.34it/s] 65%|██████▍   | 240688/371472 [8:07:13<10:45:07,  3.38it/s] 65%|██████▍   | 240689/371472 [8:07:13<10:24:26,  3.49it/s] 65%|██████▍   | 240690/371472 [8:07:13<10:13:09,  3.55it/s] 65%|██████▍   | 240691/371472 [8:07:13<9:56:57,  3.65it/s]  65%|██████▍   | 240692/371472 [8:07:14<10:12:18,  3.56it/s] 65%|██████▍   | 240693/371472 [8:07:14<10:23:48,  3.49it/s] 65%|██████▍   | 240694/371472 [8:07:14<10:44:27,  3.38it/s] 65%|██████▍   | 240695/371472 [8:07:15<10:44:59,  3.38it/s] 65%|██████▍   | 240696/371472 [8:07:15<10:43:14,  3.39it/s] 65%|██████▍   | 240697/371472 [8:07:15<10:40:38,  3.40it/s] 65%|██████▍   | 240698/371472 [8:07:16<10:06:02,  3.60it/s] 65%|██████▍   | 240699/371472 [8:07:16<9:57:27,  3.65it/s]  65%|██████▍   | 240700/371472 [8:07:16<9:45:51,  3.72it/s]                                                           {'loss': 2.785, 'learning_rate': 4.170042448662974e-07, 'epoch': 10.37}
 65%|██████▍   | 240700/371472 [8:07:16<9:45:51,  3.72it/s] 65%|██████▍   | 240701/371472 [8:07:16<9:44:34,  3.73it/s] 65%|██████▍   | 240702/371472 [8:07:17<9:36:38,  3.78it/s] 65%|██████▍   | 240703/371472 [8:07:17<10:01:05,  3.63it/s] 65%|██████▍   | 240704/371472 [8:07:17<11:10:36,  3.25it/s] 65%|██████▍   | 240705/371472 [8:07:18<10:45:39,  3.38it/s] 65%|██████▍   | 240706/371472 [8:07:18<11:10:41,  3.25it/s] 65%|██████▍   | 240707/371472 [8:07:18<12:36:13,  2.88it/s] 65%|██████▍   | 240708/371472 [8:07:19<12:20:25,  2.94it/s] 65%|██████▍   | 240709/371472 [8:07:19<12:09:26,  2.99it/s] 65%|██████▍   | 240710/371472 [8:07:19<11:45:50,  3.09it/s] 65%|██████▍   | 240711/371472 [8:07:19<10:55:53,  3.32it/s] 65%|██████▍   | 240712/371472 [8:07:20<10:25:06,  3.49it/s] 65%|██████▍   | 240713/371472 [8:07:20<10:18:22,  3.52it/s] 65%|██████▍   | 240714/371472 [8:07:20<9:47:14,  3.71it/s]  65%|██████▍   | 240715/371472 [8:07:21<10:06:17,  3.59it/s] 65%|██████▍   | 240716/371472 [8:07:21<10:29:35,  3.46it/s] 65%|██████▍   | 240717/371472 [8:07:21<10:34:28,  3.43it/s] 65%|██████▍   | 240718/371472 [8:07:21<10:38:41,  3.41it/s] 65%|██████▍   | 240719/371472 [8:07:22<11:22:13,  3.19it/s] 65%|██████▍   | 240720/371472 [8:07:22<10:56:06,  3.32it/s]                                                            {'loss': 2.8016, 'learning_rate': 4.169557628908186e-07, 'epoch': 10.37}
 65%|██████▍   | 240720/371472 [8:07:22<10:56:06,  3.32it/s] 65%|██████▍   | 240721/371472 [8:07:22<11:01:00,  3.30it/s] 65%|██████▍   | 240722/371472 [8:07:23<10:33:27,  3.44it/s] 65%|██████▍   | 240723/371472 [8:07:23<10:43:39,  3.39it/s] 65%|██████▍   | 240724/371472 [8:07:23<10:21:11,  3.51it/s] 65%|██████▍   | 240725/371472 [8:07:24<10:18:37,  3.52it/s] 65%|██████▍   | 240726/371472 [8:07:24<10:18:21,  3.52it/s] 65%|██████▍   | 240727/371472 [8:07:24<10:27:15,  3.47it/s] 65%|██████▍   | 240728/371472 [8:07:24<10:31:25,  3.45it/s] 65%|██████▍   | 240729/371472 [8:07:25<10:34:36,  3.43it/s] 65%|██████▍   | 240730/371472 [8:07:25<10:09:26,  3.58it/s] 65%|██████▍   | 240731/371472 [8:07:25<10:41:24,  3.40it/s] 65%|██████▍   | 240732/371472 [8:07:26<10:32:21,  3.45it/s] 65%|██████▍   | 240733/371472 [8:07:26<10:16:46,  3.53it/s] 65%|██████▍   | 240734/371472 [8:07:26<10:55:20,  3.32it/s] 65%|██████▍   | 240735/371472 [8:07:26<10:22:02,  3.50it/s] 65%|██████▍   | 240736/371472 [8:07:27<10:02:20,  3.62it/s] 65%|██████▍   | 240737/371472 [8:07:27<10:07:49,  3.58it/s] 65%|██████▍   | 240738/371472 [8:07:27<9:56:16,  3.65it/s]  65%|██████▍   | 240739/371472 [8:07:27<9:44:46,  3.73it/s] 65%|██████▍   | 240740/371472 [8:07:28<9:56:47,  3.65it/s]                                                           {'loss': 2.9566, 'learning_rate': 4.1690728091533967e-07, 'epoch': 10.37}
 65%|██████▍   | 240740/371472 [8:07:28<9:56:47,  3.65it/s] 65%|██████▍   | 240741/371472 [8:07:28<10:20:23,  3.51it/s] 65%|██████▍   | 240742/371472 [8:07:28<10:15:25,  3.54it/s] 65%|██████▍   | 240743/371472 [8:07:29<10:55:56,  3.32it/s] 65%|██████▍   | 240744/371472 [8:07:29<10:24:16,  3.49it/s] 65%|██████▍   | 240745/371472 [8:07:29<10:10:50,  3.57it/s] 65%|██████▍   | 240746/371472 [8:07:30<10:32:52,  3.44it/s] 65%|██████▍   | 240747/371472 [8:07:30<11:13:31,  3.23it/s] 65%|██████▍   | 240748/371472 [8:07:30<11:28:52,  3.16it/s] 65%|██████▍   | 240749/371472 [8:07:30<11:02:19,  3.29it/s] 65%|██████▍   | 240750/371472 [8:07:31<10:42:01,  3.39it/s] 65%|██████▍   | 240751/371472 [8:07:31<10:23:34,  3.49it/s] 65%|██████▍   | 240752/371472 [8:07:31<10:09:41,  3.57it/s] 65%|██████▍   | 240753/371472 [8:07:32<10:35:11,  3.43it/s] 65%|██████▍   | 240754/371472 [8:07:32<10:08:58,  3.58it/s] 65%|██████▍   | 240755/371472 [8:07:32<9:49:12,  3.70it/s]  65%|██████▍   | 240756/371472 [8:07:32<9:39:54,  3.76it/s] 65%|██████▍   | 240757/371472 [8:07:33<10:52:36,  3.34it/s] 65%|██████▍   | 240758/371472 [8:07:33<10:51:42,  3.34it/s] 65%|██████▍   | 240759/371472 [8:07:33<11:11:10,  3.25it/s] 65%|██████▍   | 240760/371472 [8:07:34<10:43:29,  3.39it/s]                                                            {'loss': 2.6595, 'learning_rate': 4.168587989398608e-07, 'epoch': 10.37}
 65%|██████▍   | 240760/371472 [8:07:34<10:43:29,  3.39it/s] 65%|██████▍   | 240761/371472 [8:07:34<10:55:20,  3.32it/s] 65%|██████▍   | 240762/371472 [8:07:34<10:35:54,  3.43it/s] 65%|██████▍   | 240763/371472 [8:07:35<10:54:48,  3.33it/s] 65%|██████▍   | 240764/371472 [8:07:35<10:45:50,  3.37it/s] 65%|██████▍   | 240765/371472 [8:07:35<10:32:37,  3.44it/s] 65%|██████▍   | 240766/371472 [8:07:35<10:41:36,  3.40it/s] 65%|██████▍   | 240767/371472 [8:07:36<10:53:34,  3.33it/s] 65%|██████▍   | 240768/371472 [8:07:36<10:18:32,  3.52it/s] 65%|██████▍   | 240769/371472 [8:07:36<10:13:01,  3.55it/s] 65%|██████▍   | 240770/371472 [8:07:36<9:58:24,  3.64it/s]  65%|██████▍   | 240771/371472 [8:07:37<9:45:38,  3.72it/s] 65%|██████▍   | 240772/371472 [8:07:37<10:07:44,  3.58it/s] 65%|██████▍   | 240773/371472 [8:07:37<10:09:50,  3.57it/s] 65%|██████▍   | 240774/371472 [8:07:38<10:06:36,  3.59it/s] 65%|██████▍   | 240775/371472 [8:07:38<10:23:18,  3.49it/s] 65%|██████▍   | 240776/371472 [8:07:38<10:04:55,  3.60it/s] 65%|██████▍   | 240777/371472 [8:07:38<9:53:03,  3.67it/s]  65%|██████▍   | 240778/371472 [8:07:39<10:19:04,  3.52it/s] 65%|██████▍   | 240779/371472 [8:07:39<10:41:14,  3.40it/s] 65%|██████▍   | 240780/371472 [8:07:39<10:22:01,  3.50it/s]                                                            {'loss': 2.9266, 'learning_rate': 4.1681031696438186e-07, 'epoch': 10.37}
 65%|██████▍   | 240780/371472 [8:07:39<10:22:01,  3.50it/s] 65%|██████▍   | 240781/371472 [8:07:40<10:14:46,  3.54it/s] 65%|██████▍   | 240782/371472 [8:07:40<10:08:51,  3.58it/s] 65%|██████▍   | 240783/371472 [8:07:40<10:16:33,  3.53it/s] 65%|██████▍   | 240784/371472 [8:07:40<10:12:57,  3.55it/s] 65%|██████▍   | 240785/371472 [8:07:41<9:58:09,  3.64it/s]  65%|██████▍   | 240786/371472 [8:07:41<10:01:25,  3.62it/s] 65%|██████▍   | 240787/371472 [8:07:41<9:49:05,  3.70it/s]  65%|██████▍   | 240788/371472 [8:07:41<9:34:49,  3.79it/s] 65%|██████▍   | 240789/371472 [8:07:42<9:41:23,  3.75it/s] 65%|██████▍   | 240790/371472 [8:07:42<9:42:22,  3.74it/s] 65%|██████▍   | 240791/371472 [8:07:42<9:22:39,  3.87it/s] 65%|██████▍   | 240792/371472 [8:07:43<9:44:52,  3.72it/s] 65%|██████▍   | 240793/371472 [8:07:43<9:31:07,  3.81it/s] 65%|██████▍   | 240794/371472 [8:07:43<9:54:06,  3.67it/s] 65%|██████▍   | 240795/371472 [8:07:43<10:32:25,  3.44it/s] 65%|██████▍   | 240796/371472 [8:07:44<10:12:43,  3.55it/s] 65%|██████▍   | 240797/371472 [8:07:44<10:04:02,  3.61it/s] 65%|██████▍   | 240798/371472 [8:07:44<10:25:22,  3.48it/s] 65%|██████▍   | 240799/371472 [8:07:45<10:19:29,  3.52it/s] 65%|██████▍   | 240800/371472 [8:07:45<10:38:36,  3.41it/s]                                                            {'loss': 2.9934, 'learning_rate': 4.1676183498890304e-07, 'epoch': 10.37}
 65%|██████▍   | 240800/371472 [8:07:45<10:38:36,  3.41it/s] 65%|██████▍   | 240801/371472 [8:07:45<10:34:04,  3.43it/s] 65%|██████▍   | 240802/371472 [8:07:45<10:22:06,  3.50it/s] 65%|██████▍   | 240803/371472 [8:07:46<10:45:59,  3.37it/s] 65%|██████▍   | 240804/371472 [8:07:46<11:54:32,  3.05it/s] 65%|██████▍   | 240805/371472 [8:07:46<11:01:28,  3.29it/s] 65%|██████▍   | 240806/371472 [8:07:47<11:02:48,  3.29it/s] 65%|██████▍   | 240807/371472 [8:07:47<11:20:26,  3.20it/s] 65%|██████▍   | 240808/371472 [8:07:47<10:46:16,  3.37it/s] 65%|██████▍   | 240809/371472 [8:07:48<10:51:53,  3.34it/s] 65%|██████▍   | 240810/371472 [8:07:48<10:42:13,  3.39it/s] 65%|██████▍   | 240811/371472 [8:07:48<10:05:44,  3.60it/s] 65%|██████▍   | 240812/371472 [8:07:48<10:11:07,  3.56it/s] 65%|██████▍   | 240813/371472 [8:07:49<10:50:50,  3.35it/s] 65%|██████▍   | 240814/371472 [8:07:49<10:37:20,  3.42it/s] 65%|██████▍   | 240815/371472 [8:07:49<10:28:24,  3.47it/s] 65%|██████▍   | 240816/371472 [8:07:50<10:05:12,  3.60it/s] 65%|██████▍   | 240817/371472 [8:07:50<10:11:09,  3.56it/s] 65%|██████▍   | 240818/371472 [8:07:50<10:04:24,  3.60it/s] 65%|██████▍   | 240819/371472 [8:07:50<10:01:18,  3.62it/s] 65%|██████▍   | 240820/371472 [8:07:51<10:06:18,  3.59it/s]                                                            {'loss': 2.8157, 'learning_rate': 4.1671335301342406e-07, 'epoch': 10.37}
 65%|██████▍   | 240820/371472 [8:07:51<10:06:18,  3.59it/s] 65%|██████▍   | 240821/371472 [8:07:51<9:38:20,  3.77it/s]  65%|██████▍   | 240822/371472 [8:07:51<9:36:54,  3.77it/s] 65%|██████▍   | 240823/371472 [8:07:51<9:25:57,  3.85it/s] 65%|██████▍   | 240824/371472 [8:07:52<9:16:52,  3.91it/s] 65%|██████▍   | 240825/371472 [8:07:52<9:40:06,  3.75it/s] 65%|██████▍   | 240826/371472 [8:07:52<9:32:48,  3.80it/s] 65%|██████▍   | 240827/371472 [8:07:52<9:47:06,  3.71it/s] 65%|██████▍   | 240828/371472 [8:07:53<9:36:34,  3.78it/s] 65%|██████▍   | 240829/371472 [8:07:53<9:32:47,  3.80it/s] 65%|██████▍   | 240830/371472 [8:07:53<9:34:51,  3.79it/s] 65%|██████▍   | 240831/371472 [8:07:54<9:26:20,  3.84it/s] 65%|██████▍   | 240832/371472 [8:07:54<9:22:48,  3.87it/s] 65%|██████▍   | 240833/371472 [8:07:54<9:28:48,  3.83it/s] 65%|██████▍   | 240834/371472 [8:07:54<9:45:54,  3.72it/s] 65%|██████▍   | 240835/371472 [8:07:55<10:31:37,  3.45it/s] 65%|██████▍   | 240836/371472 [8:07:55<10:29:34,  3.46it/s] 65%|██████▍   | 240837/371472 [8:07:55<10:05:12,  3.60it/s] 65%|██████▍   | 240838/371472 [8:07:55<9:56:57,  3.65it/s]  65%|██████▍   | 240839/371472 [8:07:56<9:59:57,  3.63it/s] 65%|██████▍   | 240840/371472 [8:07:56<10:42:40,  3.39it/s]                                                            {'loss': 2.9155, 'learning_rate': 4.1666487103794524e-07, 'epoch': 10.37}
 65%|██████▍   | 240840/371472 [8:07:56<10:42:40,  3.39it/s] 65%|██████▍   | 240841/371472 [8:07:56<10:24:03,  3.49it/s] 65%|██████▍   | 240842/371472 [8:07:57<10:00:50,  3.62it/s] 65%|██████▍   | 240843/371472 [8:07:57<10:37:35,  3.41it/s] 65%|██████▍   | 240844/371472 [8:07:57<10:25:20,  3.48it/s] 65%|██████▍   | 240845/371472 [8:07:58<10:19:43,  3.51it/s] 65%|██████▍   | 240846/371472 [8:07:58<10:31:22,  3.45it/s] 65%|██████▍   | 240847/371472 [8:07:58<10:15:55,  3.53it/s] 65%|██████▍   | 240848/371472 [8:07:58<10:08:00,  3.58it/s] 65%|██████▍   | 240849/371472 [8:07:59<9:59:20,  3.63it/s]  65%|██████▍   | 240850/371472 [8:07:59<10:06:41,  3.59it/s] 65%|██████▍   | 240851/371472 [8:07:59<10:03:10,  3.61it/s] 65%|██████▍   | 240852/371472 [8:07:59<10:32:26,  3.44it/s] 65%|██████▍   | 240853/371472 [8:08:00<10:04:07,  3.60it/s] 65%|██████▍   | 240854/371472 [8:08:00<9:54:02,  3.66it/s]  65%|██████▍   | 240855/371472 [8:08:00<9:50:25,  3.69it/s] 65%|██████▍   | 240856/371472 [8:08:01<9:53:41,  3.67it/s] 65%|██████▍   | 240857/371472 [8:08:01<10:09:11,  3.57it/s] 65%|██████▍   | 240858/371472 [8:08:01<10:11:18,  3.56it/s] 65%|██████▍   | 240859/371472 [8:08:02<12:18:13,  2.95it/s] 65%|██████▍   | 240860/371472 [8:08:02<12:05:55,  3.00it/s]                                                            {'loss': 2.8188, 'learning_rate': 4.166163890624663e-07, 'epoch': 10.37}
 65%|██████▍   | 240860/371472 [8:08:02<12:05:55,  3.00it/s] 65%|██████▍   | 240861/371472 [8:08:02<11:19:55,  3.20it/s] 65%|██████▍   | 240862/371472 [8:08:02<10:39:31,  3.40it/s] 65%|██████▍   | 240863/371472 [8:08:03<10:29:42,  3.46it/s] 65%|██████▍   | 240864/371472 [8:08:03<10:32:08,  3.44it/s] 65%|██████▍   | 240865/371472 [8:08:03<10:48:39,  3.36it/s] 65%|██████▍   | 240866/371472 [8:08:04<10:29:14,  3.46it/s] 65%|██████▍   | 240867/371472 [8:08:04<10:56:12,  3.32it/s] 65%|██████▍   | 240868/371472 [8:08:04<10:20:31,  3.51it/s] 65%|██████▍   | 240869/371472 [8:08:04<10:52:03,  3.34it/s] 65%|██████▍   | 240870/371472 [8:08:05<10:23:59,  3.49it/s] 65%|██████▍   | 240871/371472 [8:08:05<10:38:04,  3.41it/s] 65%|██████▍   | 240872/371472 [8:08:05<10:36:33,  3.42it/s] 65%|██████▍   | 240873/371472 [8:08:06<10:26:33,  3.47it/s] 65%|██████▍   | 240874/371472 [8:08:06<10:28:48,  3.46it/s] 65%|██████▍   | 240875/371472 [8:08:06<10:03:48,  3.60it/s] 65%|██████▍   | 240876/371472 [8:08:06<9:54:24,  3.66it/s]  65%|██████▍   | 240877/371472 [8:08:07<10:15:20,  3.54it/s] 65%|██████▍   | 240878/371472 [8:08:07<9:48:31,  3.70it/s]  65%|██████▍   | 240879/371472 [8:08:07<10:02:56,  3.61it/s] 65%|██████▍   | 240880/371472 [8:08:08<9:57:18,  3.64it/s]                                                            {'loss': 2.9935, 'learning_rate': 4.1656790708698743e-07, 'epoch': 10.38}
 65%|██████▍   | 240880/371472 [8:08:08<9:57:18,  3.64it/s] 65%|██████▍   | 240881/371472 [8:08:08<9:51:25,  3.68it/s] 65%|██████▍   | 240882/371472 [8:08:08<10:18:04,  3.52it/s] 65%|██████▍   | 240883/371472 [8:08:08<10:14:52,  3.54it/s] 65%|██████▍   | 240884/371472 [8:08:09<10:12:48,  3.55it/s] 65%|██████▍   | 240885/371472 [8:08:09<10:01:24,  3.62it/s] 65%|██████▍   | 240886/371472 [8:08:09<9:57:55,  3.64it/s]  65%|██████▍   | 240887/371472 [8:08:09<10:02:04,  3.61it/s] 65%|██████▍   | 240888/371472 [8:08:10<9:42:57,  3.73it/s]  65%|██████▍   | 240889/371472 [8:08:10<9:43:27,  3.73it/s] 65%|██████▍   | 240890/371472 [8:08:10<9:55:41,  3.65it/s] 65%|██████▍   | 240891/371472 [8:08:11<9:53:11,  3.67it/s] 65%|██████▍   | 240892/371472 [8:08:11<10:12:13,  3.55it/s] 65%|██████▍   | 240893/371472 [8:08:11<10:18:51,  3.52it/s] 65%|██████▍   | 240894/371472 [8:08:11<9:58:25,  3.64it/s]  65%|██████▍   | 240895/371472 [8:08:12<10:27:10,  3.47it/s] 65%|██████▍   | 240896/371472 [8:08:12<10:25:35,  3.48it/s] 65%|██████▍   | 240897/371472 [8:08:12<10:40:33,  3.40it/s] 65%|██████▍   | 240898/371472 [8:08:13<11:04:52,  3.27it/s] 65%|██████▍   | 240899/371472 [8:08:13<10:38:20,  3.41it/s] 65%|██████▍   | 240900/371472 [8:08:13<10:20:12,  3.51it/s]                                                            {'loss': 2.9043, 'learning_rate': 4.165194251115085e-07, 'epoch': 10.38}
 65%|██████▍   | 240900/371472 [8:08:13<10:20:12,  3.51it/s] 65%|██████▍   | 240901/371472 [8:08:13<10:15:43,  3.53it/s] 65%|██████▍   | 240902/371472 [8:08:14<9:48:57,  3.69it/s]  65%|██████▍   | 240903/371472 [8:08:14<9:51:00,  3.68it/s] 65%|██████▍   | 240904/371472 [8:08:14<9:45:05,  3.72it/s] 65%|██████▍   | 240905/371472 [8:08:15<9:50:49,  3.68it/s] 65%|██████▍   | 240906/371472 [8:08:15<9:49:07,  3.69it/s] 65%|██████▍   | 240907/371472 [8:08:15<9:56:34,  3.65it/s] 65%|██████▍   | 240908/371472 [8:08:15<10:05:38,  3.59it/s] 65%|██████▍   | 240909/371472 [8:08:16<10:09:22,  3.57it/s] 65%|██████▍   | 240910/371472 [8:08:16<10:11:22,  3.56it/s] 65%|██████▍   | 240911/371472 [8:08:16<11:12:46,  3.23it/s] 65%|██████▍   | 240912/371472 [8:08:17<10:42:43,  3.39it/s] 65%|██████▍   | 240913/371472 [8:08:17<10:39:42,  3.40it/s] 65%|██████▍   | 240914/371472 [8:08:17<10:21:14,  3.50it/s] 65%|██████▍   | 240915/371472 [8:08:17<10:13:14,  3.55it/s] 65%|██████▍   | 240916/371472 [8:08:18<9:58:12,  3.64it/s]  65%|██████▍   | 240917/371472 [8:08:18<9:45:14,  3.72it/s] 65%|██████▍   | 240918/371472 [8:08:18<10:28:09,  3.46it/s] 65%|██████▍   | 240919/371472 [8:08:18<10:00:26,  3.62it/s] 65%|██████▍   | 240920/371472 [8:08:19<9:58:22,  3.64it/s]                                                            {'loss': 2.9468, 'learning_rate': 4.164709431360297e-07, 'epoch': 10.38}
 65%|██████▍   | 240920/371472 [8:08:19<9:58:22,  3.64it/s] 65%|██████▍   | 240921/371472 [8:08:19<10:40:05,  3.40it/s] 65%|██████▍   | 240922/371472 [8:08:19<10:53:33,  3.33it/s] 65%|██████▍   | 240923/371472 [8:08:20<10:37:49,  3.41it/s] 65%|██████▍   | 240924/371472 [8:08:20<10:30:43,  3.45it/s] 65%|██████▍   | 240925/371472 [8:08:20<10:23:19,  3.49it/s] 65%|██████▍   | 240926/371472 [8:08:21<10:51:12,  3.34it/s] 65%|██████▍   | 240927/371472 [8:08:21<10:36:47,  3.42it/s] 65%|██████▍   | 240928/371472 [8:08:21<10:59:53,  3.30it/s] 65%|██████▍   | 240929/371472 [8:08:21<10:58:22,  3.30it/s] 65%|██████▍   | 240930/371472 [8:08:22<10:19:20,  3.51it/s] 65%|██████▍   | 240931/371472 [8:08:22<10:00:04,  3.63it/s] 65%|██████▍   | 240932/371472 [8:08:22<10:08:22,  3.58it/s] 65%|██████▍   | 240933/371472 [8:08:23<10:28:38,  3.46it/s] 65%|██████▍   | 240934/371472 [8:08:23<10:52:37,  3.33it/s] 65%|██████▍   | 240935/371472 [8:08:23<10:30:50,  3.45it/s] 65%|██████▍   | 240936/371472 [8:08:23<10:07:30,  3.58it/s] 65%|██████▍   | 240937/371472 [8:08:24<10:31:06,  3.45it/s] 65%|██████▍   | 240938/371472 [8:08:24<10:05:33,  3.59it/s] 65%|██████▍   | 240939/371472 [8:08:24<10:05:55,  3.59it/s] 65%|██████▍   | 240940/371472 [8:08:25<10:07:33,  3.58it/s]                                                            {'loss': 2.8401, 'learning_rate': 4.1642246116055075e-07, 'epoch': 10.38}
 65%|██████▍   | 240940/371472 [8:08:25<10:07:33,  3.58it/s] 65%|██████▍   | 240941/371472 [8:08:25<10:19:44,  3.51it/s] 65%|██████▍   | 240942/371472 [8:08:25<10:02:16,  3.61it/s] 65%|██████▍   | 240943/371472 [8:08:25<10:20:23,  3.51it/s] 65%|██████▍   | 240944/371472 [8:08:26<12:50:57,  2.82it/s] 65%|██████▍   | 240945/371472 [8:08:26<12:09:28,  2.98it/s] 65%|██████▍   | 240946/371472 [8:08:27<11:36:22,  3.12it/s] 65%|██████▍   | 240947/371472 [8:08:27<11:52:51,  3.05it/s] 65%|██████▍   | 240948/371472 [8:08:27<11:05:05,  3.27it/s] 65%|██████▍   | 240949/371472 [8:08:27<10:31:19,  3.45it/s] 65%|██████▍   | 240950/371472 [8:08:28<10:08:03,  3.58it/s] 65%|██████▍   | 240951/371472 [8:08:28<10:12:53,  3.55it/s] 65%|██████▍   | 240952/371472 [8:08:28<9:59:01,  3.63it/s]  65%|██████▍   | 240953/371472 [8:08:28<9:48:20,  3.70it/s] 65%|██████▍   | 240954/371472 [8:08:29<9:24:21,  3.85it/s] 65%|██████▍   | 240955/371472 [8:08:29<9:18:05,  3.90it/s] 65%|██████▍   | 240956/371472 [8:08:29<9:16:09,  3.91it/s] 65%|██████▍   | 240957/371472 [8:08:29<9:54:03,  3.66it/s] 65%|██████▍   | 240958/371472 [8:08:30<9:34:34,  3.79it/s] 65%|██████▍   | 240959/371472 [8:08:30<9:33:22,  3.79it/s] 65%|██████▍   | 240960/371472 [8:08:30<10:40:51,  3.39it/s]                                                            {'loss': 2.8695, 'learning_rate': 4.163739791850719e-07, 'epoch': 10.38}
 65%|██████▍   | 240960/371472 [8:08:30<10:40:51,  3.39it/s] 65%|██████▍   | 240961/371472 [8:08:31<10:16:12,  3.53it/s] 65%|██████▍   | 240962/371472 [8:08:31<9:58:40,  3.63it/s]  65%|██████▍   | 240963/371472 [8:08:31<9:44:39,  3.72it/s] 65%|██████▍   | 240964/371472 [8:08:31<10:29:34,  3.45it/s] 65%|██████▍   | 240965/371472 [8:08:32<10:08:46,  3.57it/s] 65%|██████▍   | 240966/371472 [8:08:32<10:01:04,  3.62it/s] 65%|██████▍   | 240967/371472 [8:08:32<9:41:17,  3.74it/s]  65%|██████▍   | 240968/371472 [8:08:32<9:27:32,  3.83it/s] 65%|██████▍   | 240969/371472 [8:08:33<10:01:04,  3.62it/s] 65%|██████▍   | 240970/371472 [8:08:33<9:45:13,  3.72it/s]  65%|██████▍   | 240971/371472 [8:08:33<9:42:17,  3.74it/s] 65%|██████▍   | 240972/371472 [8:08:34<9:46:35,  3.71it/s] 65%|██████▍   | 240973/371472 [8:08:34<9:38:37,  3.76it/s] 65%|██████▍   | 240974/371472 [8:08:34<9:46:22,  3.71it/s] 65%|██████▍   | 240975/371472 [8:08:34<9:30:36,  3.81it/s] 65%|██████▍   | 240976/371472 [8:08:35<9:22:40,  3.87it/s] 65%|██████▍   | 240977/371472 [8:08:35<9:47:10,  3.70it/s] 65%|██████▍   | 240978/371472 [8:08:35<9:45:09,  3.72it/s] 65%|██████▍   | 240979/371472 [8:08:35<9:48:27,  3.70it/s] 65%|██████▍   | 240980/371472 [8:08:36<9:38:26,  3.76it/s]                                                           {'loss': 2.9624, 'learning_rate': 4.1632549720959295e-07, 'epoch': 10.38}
 65%|██████▍   | 240980/371472 [8:08:36<9:38:26,  3.76it/s] 65%|██████▍   | 240981/371472 [8:08:36<10:12:37,  3.55it/s] 65%|██████▍   | 240982/371472 [8:08:36<10:04:04,  3.60it/s] 65%|██████▍   | 240983/371472 [8:08:37<10:26:57,  3.47it/s] 65%|██████▍   | 240984/371472 [8:08:37<10:32:35,  3.44it/s] 65%|██████▍   | 240985/371472 [8:08:37<10:13:42,  3.54it/s] 65%|██████▍   | 240986/371472 [8:08:37<9:56:03,  3.65it/s]  65%|██████▍   | 240987/371472 [8:08:38<9:50:15,  3.68it/s] 65%|██████▍   | 240988/371472 [8:08:38<9:57:34,  3.64it/s] 65%|██████▍   | 240989/371472 [8:08:38<9:47:45,  3.70it/s] 65%|██████▍   | 240990/371472 [8:08:39<10:01:33,  3.62it/s] 65%|██████▍   | 240991/371472 [8:08:39<9:57:30,  3.64it/s]  65%|██████▍   | 240992/371472 [8:08:39<9:44:41,  3.72it/s] 65%|██████▍   | 240993/371472 [8:08:39<9:47:20,  3.70it/s] 65%|██████▍   | 240994/371472 [8:08:40<9:49:24,  3.69it/s] 65%|██████▍   | 240995/371472 [8:08:40<9:58:06,  3.64it/s] 65%|██████▍   | 240996/371472 [8:08:40<10:04:21,  3.60it/s] 65%|██████▍   | 240997/371472 [8:08:40<10:03:20,  3.60it/s] 65%|██████▍   | 240998/371472 [8:08:41<10:00:15,  3.62it/s] 65%|██████▍   | 240999/371472 [8:08:41<10:01:41,  3.61it/s] 65%|██████▍   | 241000/371472 [8:08:41<9:45:29,  3.71it/s]                                                            {'loss': 2.911, 'learning_rate': 4.16277015234114e-07, 'epoch': 10.38}
 65%|██████▍   | 241000/371472 [8:08:41<9:45:29,  3.71it/s] 65%|██████▍   | 241001/371472 [8:08:41<9:39:15,  3.75it/s] 65%|██████▍   | 241002/371472 [8:08:42<9:34:01,  3.79it/s] 65%|██████▍   | 241003/371472 [8:08:42<10:43:37,  3.38it/s] 65%|██████▍   | 241004/371472 [8:08:42<10:29:17,  3.46it/s] 65%|██████▍   | 241005/371472 [8:08:43<10:08:06,  3.58it/s] 65%|██████▍   | 241006/371472 [8:08:43<9:50:41,  3.68it/s]  65%|██████▍   | 241007/371472 [8:08:43<10:38:44,  3.40it/s] 65%|██████▍   | 241008/371472 [8:08:44<10:36:07,  3.42it/s] 65%|██████▍   | 241009/371472 [8:08:44<10:58:27,  3.30it/s] 65%|██████▍   | 241010/371472 [8:08:44<10:43:35,  3.38it/s] 65%|██████▍   | 241011/371472 [8:08:45<11:33:19,  3.14it/s] 65%|██████▍   | 241012/371472 [8:08:45<10:41:53,  3.39it/s] 65%|██████▍   | 241013/371472 [8:08:45<10:56:28,  3.31it/s] 65%|██████▍   | 241014/371472 [8:08:45<10:31:47,  3.44it/s] 65%|██████▍   | 241015/371472 [8:08:46<10:39:34,  3.40it/s] 65%|██████▍   | 241016/371472 [8:08:46<10:58:34,  3.30it/s] 65%|██████▍   | 241017/371472 [8:08:46<10:43:12,  3.38it/s] 65%|██████▍   | 241018/371472 [8:08:47<10:25:50,  3.47it/s] 65%|██████▍   | 241019/371472 [8:08:47<10:31:52,  3.44it/s] 65%|██████▍   | 241020/371472 [8:08:47<9:56:30,  3.64it/s]                                                            {'loss': 2.8051, 'learning_rate': 4.1622853325863515e-07, 'epoch': 10.38}
 65%|██████▍   | 241020/371472 [8:08:47<9:56:30,  3.64it/s] 65%|██████▍   | 241021/371472 [8:08:47<9:41:18,  3.74it/s] 65%|██████▍   | 241022/371472 [8:08:48<9:49:01,  3.69it/s] 65%|██████▍   | 241023/371472 [8:08:48<9:31:07,  3.81it/s] 65%|██████▍   | 241024/371472 [8:08:48<9:36:32,  3.77it/s] 65%|██████▍   | 241025/371472 [8:08:48<10:55:42,  3.32it/s] 65%|██████▍   | 241026/371472 [8:08:49<10:46:55,  3.36it/s] 65%|██████▍   | 241027/371472 [8:08:49<10:34:22,  3.43it/s] 65%|██████▍   | 241028/371472 [8:08:49<10:16:22,  3.53it/s] 65%|██████▍   | 241029/371472 [8:08:50<10:06:25,  3.58it/s] 65%|██████▍   | 241030/371472 [8:08:50<10:26:57,  3.47it/s] 65%|██████▍   | 241031/371472 [8:08:50<10:10:12,  3.56it/s] 65%|██████▍   | 241032/371472 [8:08:50<10:16:12,  3.53it/s] 65%|██████▍   | 241033/371472 [8:08:51<10:09:15,  3.57it/s] 65%|██████▍   | 241034/371472 [8:08:51<9:57:58,  3.64it/s]  65%|██████▍   | 241035/371472 [8:08:51<9:40:32,  3.74it/s] 65%|██████▍   | 241036/371472 [8:08:51<9:34:30,  3.78it/s] 65%|██████▍   | 241037/371472 [8:08:52<9:35:10,  3.78it/s] 65%|██████▍   | 241038/371472 [8:08:52<9:49:51,  3.69it/s] 65%|██████▍   | 241039/371472 [8:08:52<10:03:21,  3.60it/s] 65%|██████▍   | 241040/371472 [8:08:53<9:52:30,  3.67it/s]                                                            {'loss': 2.8986, 'learning_rate': 4.161800512831562e-07, 'epoch': 10.38}
 65%|██████▍   | 241040/371472 [8:08:53<9:52:30,  3.67it/s] 65%|██████▍   | 241041/371472 [8:08:53<10:23:23,  3.49it/s] 65%|██████▍   | 241042/371472 [8:08:53<10:04:37,  3.60it/s] 65%|██████▍   | 241043/371472 [8:08:53<9:50:39,  3.68it/s]  65%|██████▍   | 241044/371472 [8:08:54<10:49:56,  3.34it/s] 65%|██████▍   | 241045/371472 [8:08:54<10:43:41,  3.38it/s] 65%|██████▍   | 241046/371472 [8:08:54<10:34:06,  3.43it/s] 65%|██████▍   | 241047/371472 [8:08:55<10:07:04,  3.58it/s] 65%|██████▍   | 241048/371472 [8:08:55<10:43:35,  3.38it/s] 65%|██████▍   | 241049/371472 [8:08:55<10:49:36,  3.35it/s] 65%|██████▍   | 241050/371472 [8:08:56<11:29:31,  3.15it/s] 65%|██████▍   | 241051/371472 [8:08:56<10:43:15,  3.38it/s] 65%|██████▍   | 241052/371472 [8:08:56<10:44:17,  3.37it/s] 65%|██████▍   | 241053/371472 [8:08:56<10:18:49,  3.51it/s] 65%|██████▍   | 241054/371472 [8:08:57<10:15:22,  3.53it/s] 65%|██████▍   | 241055/371472 [8:08:57<10:38:22,  3.40it/s] 65%|██████▍   | 241056/371472 [8:08:57<10:26:48,  3.47it/s] 65%|██████▍   | 241057/371472 [8:08:58<10:03:39,  3.60it/s] 65%|██████▍   | 241058/371472 [8:08:58<9:45:31,  3.71it/s]  65%|██████▍   | 241059/371472 [8:08:58<9:37:35,  3.76it/s] 65%|██████▍   | 241060/371472 [8:08:58<9:29:05,  3.82it/s]                                                           {'loss': 2.9085, 'learning_rate': 4.161315693076774e-07, 'epoch': 10.38}
 65%|██████▍   | 241060/371472 [8:08:58<9:29:05,  3.82it/s] 65%|██████▍   | 241061/371472 [8:08:59<9:32:47,  3.79it/s] 65%|██████▍   | 241062/371472 [8:08:59<9:28:58,  3.82it/s] 65%|██████▍   | 241063/371472 [8:08:59<9:40:59,  3.74it/s] 65%|██████▍   | 241064/371472 [8:08:59<10:13:13,  3.54it/s] 65%|██████▍   | 241065/371472 [8:09:00<10:31:09,  3.44it/s] 65%|██████▍   | 241066/371472 [8:09:00<10:23:51,  3.48it/s] 65%|██████▍   | 241067/371472 [8:09:00<10:08:18,  3.57it/s] 65%|██████▍   | 241068/371472 [8:09:01<10:02:22,  3.61it/s] 65%|██████▍   | 241069/371472 [8:09:01<10:04:26,  3.60it/s] 65%|██████▍   | 241070/371472 [8:09:01<9:53:47,  3.66it/s]  65%|██████▍   | 241071/371472 [8:09:01<9:52:10,  3.67it/s] 65%|██████▍   | 241072/371472 [8:09:02<10:03:57,  3.60it/s] 65%|██████▍   | 241073/371472 [8:09:02<10:32:19,  3.44it/s] 65%|██████▍   | 241074/371472 [8:09:02<10:33:04,  3.43it/s] 65%|██████▍   | 241075/371472 [8:09:03<10:26:43,  3.47it/s] 65%|██████▍   | 241076/371472 [8:09:03<10:10:49,  3.56it/s] 65%|██████▍   | 241077/371472 [8:09:03<10:03:26,  3.60it/s] 65%|██████▍   | 241078/371472 [8:09:03<10:11:34,  3.55it/s] 65%|██████▍   | 241079/371472 [8:09:04<10:23:41,  3.48it/s] 65%|██████▍   | 241080/371472 [8:09:04<10:01:14,  3.61it/s]                                                            {'loss': 2.6737, 'learning_rate': 4.160830873321984e-07, 'epoch': 10.38}
 65%|██████▍   | 241080/371472 [8:09:04<10:01:14,  3.61it/s] 65%|██████▍   | 241081/371472 [8:09:04<9:52:44,  3.67it/s]  65%|██████▍   | 241082/371472 [8:09:04<10:15:09,  3.53it/s] 65%|██████▍   | 241083/371472 [8:09:05<10:31:28,  3.44it/s] 65%|██████▍   | 241084/371472 [8:09:05<10:49:26,  3.35it/s] 65%|██████▍   | 241085/371472 [8:09:05<10:07:58,  3.57it/s] 65%|██████▍   | 241086/371472 [8:09:06<9:41:23,  3.74it/s]  65%|██████▍   | 241087/371472 [8:09:06<10:12:50,  3.55it/s] 65%|██████▍   | 241088/371472 [8:09:06<10:01:38,  3.61it/s] 65%|██████▍   | 241089/371472 [8:09:06<9:50:43,  3.68it/s]  65%|██████▍   | 241090/371472 [8:09:07<10:04:04,  3.60it/s] 65%|██████▍   | 241091/371472 [8:09:07<10:14:31,  3.54it/s] 65%|██████▍   | 241092/371472 [8:09:07<9:54:38,  3.65it/s]  65%|██████▍   | 241093/371472 [8:09:08<10:06:36,  3.58it/s] 65%|██████▍   | 241094/371472 [8:09:08<10:09:08,  3.57it/s] 65%|██████▍   | 241095/371472 [8:09:08<10:42:13,  3.38it/s] 65%|██████▍   | 241096/371472 [8:09:08<10:17:30,  3.52it/s] 65%|██████▍   | 241097/371472 [8:09:09<10:19:54,  3.51it/s] 65%|██████▍   | 241098/371472 [8:09:09<9:52:45,  3.67it/s]  65%|██████▍   | 241099/371472 [8:09:09<10:16:30,  3.52it/s] 65%|██████▍   | 241100/371472 [8:09:10<10:23:46,  3.48it/s]                                                            {'loss': 2.8121, 'learning_rate': 4.160346053567196e-07, 'epoch': 10.38}
 65%|██████▍   | 241100/371472 [8:09:10<10:23:46,  3.48it/s] 65%|██████▍   | 241101/371472 [8:09:10<10:33:24,  3.43it/s] 65%|██████▍   | 241102/371472 [8:09:10<10:27:45,  3.46it/s] 65%|██████▍   | 241103/371472 [8:09:10<10:29:49,  3.45it/s] 65%|██████▍   | 241104/371472 [8:09:11<10:47:06,  3.36it/s] 65%|██████▍   | 241105/371472 [8:09:11<11:21:20,  3.19it/s] 65%|██████▍   | 241106/371472 [8:09:11<11:02:17,  3.28it/s] 65%|██████▍   | 241107/371472 [8:09:12<10:34:09,  3.43it/s] 65%|██████▍   | 241108/371472 [8:09:12<10:26:21,  3.47it/s] 65%|██████▍   | 241109/371472 [8:09:12<10:00:25,  3.62it/s] 65%|██████▍   | 241110/371472 [8:09:12<10:19:22,  3.51it/s] 65%|██████▍   | 241111/371472 [8:09:13<10:45:26,  3.37it/s] 65%|██████▍   | 241112/371472 [8:09:13<11:52:06,  3.05it/s] 65%|██████▍   | 241113/371472 [8:09:13<11:08:56,  3.25it/s] 65%|██████▍   | 241114/371472 [8:09:14<10:37:36,  3.41it/s] 65%|██████▍   | 241115/371472 [8:09:14<10:19:51,  3.51it/s] 65%|██████▍   | 241116/371472 [8:09:14<10:19:29,  3.51it/s] 65%|██████▍   | 241117/371472 [8:09:15<10:45:52,  3.36it/s] 65%|██████▍   | 241118/371472 [8:09:15<10:10:35,  3.56it/s] 65%|██████▍   | 241119/371472 [8:09:15<10:37:29,  3.41it/s] 65%|██████▍   | 241120/371472 [8:09:16<10:57:43,  3.30it/s]                                                            {'loss': 2.8647, 'learning_rate': 4.1598612338124066e-07, 'epoch': 10.39}
 65%|██████▍   | 241120/371472 [8:09:16<10:57:43,  3.30it/s] 65%|██████▍   | 241121/371472 [8:09:16<10:50:45,  3.34it/s] 65%|██████▍   | 241122/371472 [8:09:16<10:18:07,  3.51it/s] 65%|██████▍   | 241123/371472 [8:09:16<10:25:36,  3.47it/s] 65%|██████▍   | 241124/371472 [8:09:17<10:39:34,  3.40it/s] 65%|██████▍   | 241125/371472 [8:09:17<10:41:37,  3.39it/s] 65%|██████▍   | 241126/371472 [8:09:17<10:07:19,  3.58it/s] 65%|██████▍   | 241127/371472 [8:09:18<10:48:37,  3.35it/s] 65%|██████▍   | 241128/371472 [8:09:18<10:18:25,  3.51it/s] 65%|██████▍   | 241129/371472 [8:09:18<10:18:16,  3.51it/s] 65%|██████▍   | 241130/371472 [8:09:18<10:32:37,  3.43it/s] 65%|██████▍   | 241131/371472 [8:09:19<10:46:48,  3.36it/s] 65%|██████▍   | 241132/371472 [8:09:19<10:52:06,  3.33it/s] 65%|██████▍   | 241133/371472 [8:09:19<10:40:26,  3.39it/s] 65%|██████▍   | 241134/371472 [8:09:20<10:24:33,  3.48it/s] 65%|██████▍   | 241135/371472 [8:09:20<10:17:42,  3.52it/s] 65%|██████▍   | 241136/371472 [8:09:20<10:07:33,  3.58it/s] 65%|██████▍   | 241137/371472 [8:09:20<9:49:21,  3.69it/s]  65%|██████▍   | 241138/371472 [8:09:21<10:12:08,  3.55it/s] 65%|██████▍   | 241139/371472 [8:09:21<10:41:56,  3.38it/s] 65%|██████▍   | 241140/371472 [8:09:21<10:43:06,  3.38it/s]                                                            {'loss': 2.9447, 'learning_rate': 4.159376414057618e-07, 'epoch': 10.39}
 65%|██████▍   | 241140/371472 [8:09:21<10:43:06,  3.38it/s] 65%|██████▍   | 241141/371472 [8:09:22<10:37:11,  3.41it/s] 65%|██████▍   | 241142/371472 [8:09:22<10:20:10,  3.50it/s] 65%|██████▍   | 241143/371472 [8:09:22<11:30:14,  3.15it/s] 65%|██████▍   | 241144/371472 [8:09:23<11:25:17,  3.17it/s] 65%|██████▍   | 241145/371472 [8:09:23<11:08:19,  3.25it/s] 65%|██████▍   | 241146/371472 [8:09:23<10:39:46,  3.40it/s] 65%|██████▍   | 241147/371472 [8:09:23<10:15:44,  3.53it/s] 65%|██████▍   | 241148/371472 [8:09:24<10:52:20,  3.33it/s] 65%|██████▍   | 241149/371472 [8:09:24<10:45:57,  3.36it/s] 65%|██████▍   | 241150/371472 [8:09:24<10:35:54,  3.42it/s] 65%|██████▍   | 241151/371472 [8:09:25<10:39:48,  3.39it/s] 65%|██████▍   | 241152/371472 [8:09:25<10:19:16,  3.51it/s] 65%|██████▍   | 241153/371472 [8:09:25<10:05:34,  3.59it/s] 65%|██████▍   | 241154/371472 [8:09:25<10:03:45,  3.60it/s] 65%|██████▍   | 241155/371472 [8:09:26<9:51:32,  3.67it/s]  65%|██████▍   | 241156/371472 [8:09:26<10:23:24,  3.48it/s] 65%|██████▍   | 241157/371472 [8:09:26<10:21:56,  3.49it/s] 65%|██████▍   | 241158/371472 [8:09:27<10:33:07,  3.43it/s] 65%|██████▍   | 241159/371472 [8:09:27<10:55:43,  3.31it/s] 65%|██████▍   | 241160/371472 [8:09:27<10:16:46,  3.52it/s]                                                            {'loss': 2.9149, 'learning_rate': 4.1588915943028286e-07, 'epoch': 10.39}
 65%|██████▍   | 241160/371472 [8:09:27<10:16:46,  3.52it/s] 65%|██████▍   | 241161/371472 [8:09:27<10:20:42,  3.50it/s] 65%|██████▍   | 241162/371472 [8:09:28<9:54:11,  3.66it/s]  65%|██████▍   | 241163/371472 [8:09:28<9:53:30,  3.66it/s] 65%|██████▍   | 241164/371472 [8:09:28<10:25:16,  3.47it/s] 65%|██████▍   | 241165/371472 [8:09:29<10:16:45,  3.52it/s] 65%|██████▍   | 241166/371472 [8:09:29<10:15:12,  3.53it/s] 65%|██████▍   | 241167/371472 [8:09:29<9:51:37,  3.67it/s]  65%|██████▍   | 241168/371472 [8:09:29<9:40:28,  3.74it/s] 65%|██████▍   | 241169/371472 [8:09:30<9:31:05,  3.80it/s] 65%|██████▍   | 241170/371472 [8:09:30<10:27:55,  3.46it/s] 65%|██████▍   | 241171/371472 [8:09:30<10:17:37,  3.52it/s] 65%|██████▍   | 241172/371472 [8:09:30<10:11:48,  3.55it/s] 65%|██████▍   | 241173/371472 [8:09:31<10:07:39,  3.57it/s] 65%|██████▍   | 241174/371472 [8:09:31<10:27:26,  3.46it/s] 65%|██████▍   | 241175/371472 [8:09:31<10:06:56,  3.58it/s] 65%|██████▍   | 241176/371472 [8:09:32<9:54:45,  3.65it/s]  65%|██████▍   | 241177/371472 [8:09:32<9:38:37,  3.75it/s] 65%|██████▍   | 241178/371472 [8:09:32<9:44:01,  3.72it/s] 65%|██████▍   | 241179/371472 [8:09:32<9:49:36,  3.68it/s] 65%|██████▍   | 241180/371472 [8:09:33<9:30:38,  3.81it/s]                                                           {'loss': 2.9659, 'learning_rate': 4.1584067745480404e-07, 'epoch': 10.39}
 65%|██████▍   | 241180/371472 [8:09:33<9:30:38,  3.81it/s] 65%|██████▍   | 241181/371472 [8:09:33<10:13:12,  3.54it/s] 65%|██████▍   | 241182/371472 [8:09:33<10:36:44,  3.41it/s] 65%|██████▍   | 241183/371472 [8:09:34<11:05:18,  3.26it/s] 65%|██████▍   | 241184/371472 [8:09:34<11:12:19,  3.23it/s] 65%|██████▍   | 241185/371472 [8:09:34<11:14:38,  3.22it/s] 65%|██████▍   | 241186/371472 [8:09:34<10:41:39,  3.38it/s] 65%|██████▍   | 241187/371472 [8:09:35<10:32:46,  3.43it/s] 65%|██████▍   | 241188/371472 [8:09:35<11:00:03,  3.29it/s] 65%|██████▍   | 241189/371472 [8:09:35<11:09:21,  3.24it/s] 65%|██████▍   | 241190/371472 [8:09:36<10:26:12,  3.47it/s] 65%|██████▍   | 241191/371472 [8:09:36<10:36:24,  3.41it/s] 65%|██████▍   | 241192/371472 [8:09:36<10:30:23,  3.44it/s] 65%|██████▍   | 241193/371472 [8:09:36<10:16:32,  3.52it/s] 65%|██████▍   | 241194/371472 [8:09:37<10:48:36,  3.35it/s] 65%|██████▍   | 241195/371472 [8:09:37<10:18:33,  3.51it/s] 65%|██████▍   | 241196/371472 [8:09:37<10:45:12,  3.37it/s] 65%|██████▍   | 241197/371472 [8:09:38<10:23:05,  3.48it/s] 65%|██████▍   | 241198/371472 [8:09:38<10:24:33,  3.48it/s] 65%|██████▍   | 241199/371472 [8:09:38<10:26:49,  3.46it/s] 65%|██████▍   | 241200/371472 [8:09:39<10:07:10,  3.58it/s]                                                            {'loss': 2.8037, 'learning_rate': 4.157921954793251e-07, 'epoch': 10.39}
 65%|██████▍   | 241200/371472 [8:09:39<10:07:10,  3.58it/s] 65%|██████▍   | 241201/371472 [8:09:39<10:50:57,  3.34it/s] 65%|██████▍   | 241202/371472 [8:09:39<10:42:56,  3.38it/s] 65%|██████▍   | 241203/371472 [8:09:39<10:56:14,  3.31it/s] 65%|██████▍   | 241204/371472 [8:09:40<10:34:28,  3.42it/s] 65%|██████▍   | 241205/371472 [8:09:40<10:43:32,  3.37it/s] 65%|██████▍   | 241206/371472 [8:09:40<10:58:12,  3.30it/s] 65%|██████▍   | 241207/371472 [8:09:41<10:46:06,  3.36it/s] 65%|██████▍   | 241208/371472 [8:09:41<10:51:48,  3.33it/s] 65%|██████▍   | 241209/371472 [8:09:41<11:09:53,  3.24it/s] 65%|██████▍   | 241210/371472 [8:09:42<10:36:25,  3.41it/s] 65%|██████▍   | 241211/371472 [8:09:42<10:24:46,  3.47it/s] 65%|██████▍   | 241212/371472 [8:09:42<10:06:18,  3.58it/s] 65%|██████▍   | 241213/371472 [8:09:42<10:30:54,  3.44it/s] 65%|██████▍   | 241214/371472 [8:09:43<10:21:50,  3.49it/s] 65%|██████▍   | 241215/371472 [8:09:43<10:15:12,  3.53it/s] 65%|██████▍   | 241216/371472 [8:09:43<10:04:54,  3.59it/s] 65%|██████▍   | 241217/371472 [8:09:43<10:01:34,  3.61it/s] 65%|██████▍   | 241218/371472 [8:09:44<11:12:26,  3.23it/s] 65%|██████▍   | 241219/371472 [8:09:44<10:39:12,  3.40it/s] 65%|██████▍   | 241220/371472 [8:09:44<10:24:00,  3.48it/s]                                                            {'loss': 2.7922, 'learning_rate': 4.1574371350384623e-07, 'epoch': 10.39}
 65%|██████▍   | 241220/371472 [8:09:44<10:24:00,  3.48it/s] 65%|██████▍   | 241221/371472 [8:09:45<10:11:12,  3.55it/s] 65%|██████▍   | 241222/371472 [8:09:45<10:40:17,  3.39it/s] 65%|██████▍   | 241223/371472 [8:09:45<10:27:48,  3.46it/s] 65%|██████▍   | 241224/371472 [8:09:46<10:15:11,  3.53it/s] 65%|██████▍   | 241225/371472 [8:09:46<10:16:35,  3.52it/s] 65%|██████▍   | 241226/371472 [8:09:46<10:15:18,  3.53it/s] 65%|██████▍   | 241227/371472 [8:09:46<10:13:56,  3.54it/s] 65%|██████▍   | 241228/371472 [8:09:47<10:06:59,  3.58it/s] 65%|██████▍   | 241229/371472 [8:09:47<11:02:09,  3.28it/s] 65%|██████▍   | 241230/371472 [8:09:47<10:43:32,  3.37it/s] 65%|██████▍   | 241231/371472 [8:09:48<10:19:18,  3.51it/s] 65%|██████▍   | 241232/371472 [8:09:48<10:16:41,  3.52it/s] 65%|██████▍   | 241233/371472 [8:09:48<9:52:32,  3.66it/s]  65%|██████▍   | 241234/371472 [8:09:48<11:09:59,  3.24it/s] 65%|██████▍   | 241235/371472 [8:09:49<11:36:35,  3.12it/s] 65%|██████▍   | 241236/371472 [8:09:49<10:51:37,  3.33it/s] 65%|██████▍   | 241237/371472 [8:09:49<10:23:03,  3.48it/s] 65%|██████▍   | 241238/371472 [8:09:50<10:18:36,  3.51it/s] 65%|██████▍   | 241239/371472 [8:09:50<9:55:45,  3.64it/s]  65%|██████▍   | 241240/371472 [8:09:50<10:10:02,  3.56it/s]                                                            {'loss': 2.7934, 'learning_rate': 4.1569523152836736e-07, 'epoch': 10.39}
 65%|██████▍   | 241240/371472 [8:09:50<10:10:02,  3.56it/s] 65%|██████▍   | 241241/371472 [8:09:50<10:42:36,  3.38it/s] 65%|██████▍   | 241242/371472 [8:09:51<10:24:36,  3.47it/s] 65%|██████▍   | 241243/371472 [8:09:51<10:23:11,  3.48it/s] 65%|██████▍   | 241244/371472 [8:09:51<10:01:50,  3.61it/s] 65%|██████▍   | 241245/371472 [8:09:52<9:47:38,  3.69it/s]  65%|██████▍   | 241246/371472 [8:09:52<9:54:35,  3.65it/s] 65%|██████▍   | 241247/371472 [8:09:52<9:55:46,  3.64it/s] 65%|██████▍   | 241248/371472 [8:09:52<10:12:27,  3.54it/s] 65%|██████▍   | 241249/371472 [8:09:53<9:58:12,  3.63it/s]  65%|██████▍   | 241250/371472 [8:09:53<9:55:32,  3.64it/s] 65%|██████▍   | 241251/371472 [8:09:53<9:49:30,  3.68it/s] 65%|██████▍   | 241252/371472 [8:09:53<9:52:33,  3.66it/s] 65%|██████▍   | 241253/371472 [8:09:54<10:19:09,  3.51it/s] 65%|██████▍   | 241254/371472 [8:09:54<10:33:14,  3.43it/s] 65%|██████▍   | 241255/371472 [8:09:54<10:18:58,  3.51it/s] 65%|██████▍   | 241256/371472 [8:09:55<10:23:59,  3.48it/s] 65%|██████▍   | 241257/371472 [8:09:55<10:16:09,  3.52it/s] 65%|██████▍   | 241258/371472 [8:09:55<9:56:48,  3.64it/s]  65%|██████▍   | 241259/371472 [8:09:55<10:04:26,  3.59it/s] 65%|██████▍   | 241260/371472 [8:09:56<9:58:25,  3.63it/s]                                                            {'loss': 3.0495, 'learning_rate': 4.156467495528885e-07, 'epoch': 10.39}
 65%|██████▍   | 241260/371472 [8:09:56<9:58:25,  3.63it/s] 65%|██████▍   | 241261/371472 [8:09:56<9:52:31,  3.66it/s] 65%|██████▍   | 241262/371472 [8:09:56<10:36:06,  3.41it/s] 65%|██████▍   | 241263/371472 [8:09:57<10:18:28,  3.51it/s] 65%|██████▍   | 241264/371472 [8:09:57<10:40:54,  3.39it/s] 65%|██████▍   | 241265/371472 [8:09:57<10:10:41,  3.55it/s] 65%|██████▍   | 241266/371472 [8:09:57<10:27:48,  3.46it/s] 65%|██████▍   | 241267/371472 [8:09:58<10:31:20,  3.44it/s] 65%|██████▍   | 241268/371472 [8:09:58<10:15:26,  3.53it/s] 65%|██████▍   | 241269/371472 [8:09:58<10:24:26,  3.48it/s] 65%|██████▍   | 241270/371472 [8:09:59<12:06:46,  2.99it/s] 65%|██████▍   | 241271/371472 [8:09:59<11:17:58,  3.20it/s] 65%|██████▍   | 241272/371472 [8:09:59<11:11:54,  3.23it/s] 65%|██████▍   | 241273/371472 [8:10:00<10:49:45,  3.34it/s] 65%|██████▍   | 241274/371472 [8:10:00<10:30:29,  3.44it/s] 65%|██████▍   | 241275/371472 [8:10:00<10:10:57,  3.55it/s] 65%|██████▍   | 241276/371472 [8:10:00<10:19:20,  3.50it/s] 65%|██████▍   | 241277/371472 [8:10:01<10:26:50,  3.46it/s] 65%|██████▍   | 241278/371472 [8:10:01<10:38:11,  3.40it/s] 65%|██████▍   | 241279/371472 [8:10:01<10:12:38,  3.54it/s] 65%|██████▍   | 241280/371472 [8:10:02<10:13:48,  3.54it/s]                                                            {'loss': 2.9014, 'learning_rate': 4.155982675774095e-07, 'epoch': 10.39}
 65%|██████▍   | 241280/371472 [8:10:02<10:13:48,  3.54it/s] 65%|██████▍   | 241281/371472 [8:10:02<10:01:52,  3.61it/s] 65%|██████▍   | 241282/371472 [8:10:02<10:02:03,  3.60it/s] 65%|██████▍   | 241283/371472 [8:10:02<10:43:33,  3.37it/s] 65%|██████▍   | 241284/371472 [8:10:03<10:15:23,  3.53it/s] 65%|██████▍   | 241285/371472 [8:10:03<10:13:10,  3.54it/s] 65%|██████▍   | 241286/371472 [8:10:03<10:22:52,  3.48it/s] 65%|██████▍   | 241287/371472 [8:10:04<10:03:14,  3.60it/s] 65%|██████▍   | 241288/371472 [8:10:04<9:54:54,  3.65it/s]  65%|██████▍   | 241289/371472 [8:10:04<10:06:16,  3.58it/s] 65%|██████▍   | 241290/371472 [8:10:04<10:07:08,  3.57it/s] 65%|██████▍   | 241291/371472 [8:10:05<9:52:51,  3.66it/s]  65%|██████▍   | 241292/371472 [8:10:05<9:35:35,  3.77it/s] 65%|██████▍   | 241293/371472 [8:10:05<9:36:05,  3.77it/s] 65%|██████▍   | 241294/371472 [8:10:05<9:48:21,  3.69it/s] 65%|██████▍   | 241295/371472 [8:10:06<9:58:21,  3.63it/s] 65%|██████▍   | 241296/371472 [8:10:06<9:52:43,  3.66it/s] 65%|██████▍   | 241297/371472 [8:10:06<9:54:55,  3.65it/s] 65%|██████▍   | 241298/371472 [8:10:07<11:03:39,  3.27it/s] 65%|██████▍   | 241299/371472 [8:10:07<10:28:14,  3.45it/s] 65%|██████▍   | 241300/371472 [8:10:07<10:26:34,  3.46it/s]                                                            {'loss': 2.8079, 'learning_rate': 4.155497856019307e-07, 'epoch': 10.39}
 65%|██████▍   | 241300/371472 [8:10:07<10:26:34,  3.46it/s] 65%|██████▍   | 241301/371472 [8:10:08<10:38:21,  3.40it/s] 65%|██████▍   | 241302/371472 [8:10:08<10:30:19,  3.44it/s] 65%|██████▍   | 241303/371472 [8:10:08<9:57:41,  3.63it/s]  65%|██████▍   | 241304/371472 [8:10:08<10:16:26,  3.52it/s] 65%|██████▍   | 241305/371472 [8:10:09<10:17:14,  3.51it/s] 65%|██████▍   | 241306/371472 [8:10:09<10:25:00,  3.47it/s] 65%|██████▍   | 241307/371472 [8:10:09<10:31:09,  3.44it/s] 65%|██████▍   | 241308/371472 [8:10:10<13:12:30,  2.74it/s] 65%|██████▍   | 241309/371472 [8:10:10<12:16:49,  2.94it/s] 65%|██████▍   | 241310/371472 [8:10:10<12:17:03,  2.94it/s] 65%|██████▍   | 241311/371472 [8:10:11<11:22:45,  3.18it/s] 65%|██████▍   | 241312/371472 [8:10:11<10:40:20,  3.39it/s] 65%|██████▍   | 241313/371472 [8:10:11<10:16:04,  3.52it/s] 65%|██████▍   | 241314/371472 [8:10:11<10:09:37,  3.56it/s] 65%|██████▍   | 241315/371472 [8:10:12<10:11:46,  3.55it/s] 65%|██████▍   | 241316/371472 [8:10:12<10:35:16,  3.41it/s] 65%|██████▍   | 241317/371472 [8:10:12<10:25:58,  3.47it/s] 65%|██████▍   | 241318/371472 [8:10:13<9:58:25,  3.62it/s]  65%|██████▍   | 241319/371472 [8:10:13<9:43:16,  3.72it/s] 65%|██████▍   | 241320/371472 [8:10:13<9:34:45,  3.77it/s]                                                           {'loss': 2.9584, 'learning_rate': 4.1550130362645175e-07, 'epoch': 10.39}
 65%|██████▍   | 241320/371472 [8:10:13<9:34:45,  3.77it/s] 65%|██████▍   | 241321/371472 [8:10:13<9:30:25,  3.80it/s] 65%|██████▍   | 241322/371472 [8:10:14<10:46:51,  3.35it/s] 65%|██████▍   | 241323/371472 [8:10:14<10:09:27,  3.56it/s] 65%|██████▍   | 241324/371472 [8:10:14<9:48:58,  3.68it/s]  65%|██████▍   | 241325/371472 [8:10:15<10:11:37,  3.55it/s] 65%|██████▍   | 241326/371472 [8:10:15<9:57:00,  3.63it/s]  65%|██████▍   | 241327/371472 [8:10:15<10:08:02,  3.57it/s] 65%|██████▍   | 241328/371472 [8:10:15<10:57:06,  3.30it/s] 65%|██████▍   | 241329/371472 [8:10:16<10:32:43,  3.43it/s] 65%|██████▍   | 241330/371472 [8:10:16<10:27:10,  3.46it/s] 65%|██████▍   | 241331/371472 [8:10:16<10:12:42,  3.54it/s] 65%|██████▍   | 241332/371472 [8:10:17<10:22:56,  3.48it/s] 65%|██████▍   | 241333/371472 [8:10:17<10:33:15,  3.43it/s] 65%|██████▍   | 241334/371472 [8:10:17<10:06:03,  3.58it/s] 65%|██████▍   | 241335/371472 [8:10:17<9:44:45,  3.71it/s]  65%|██████▍   | 241336/371472 [8:10:18<9:45:10,  3.71it/s] 65%|██████▍   | 241337/371472 [8:10:18<9:37:11,  3.76it/s] 65%|██████▍   | 241338/371472 [8:10:18<10:16:56,  3.52it/s] 65%|██████▍   | 241339/371472 [8:10:18<9:58:47,  3.62it/s]  65%|██████▍   | 241340/371472 [8:10:19<9:37:11,  3.76it/s]                                                           {'loss': 2.8479, 'learning_rate': 4.1545282165097287e-07, 'epoch': 10.39}
 65%|██████▍   | 241340/371472 [8:10:19<9:37:11,  3.76it/s] 65%|██████▍   | 241341/371472 [8:10:19<9:28:44,  3.81it/s] 65%|██████▍   | 241342/371472 [8:10:19<9:17:33,  3.89it/s] 65%|██████▍   | 241343/371472 [8:10:19<9:25:16,  3.84it/s] 65%|██████▍   | 241344/371472 [8:10:20<9:36:12,  3.76it/s] 65%|██████▍   | 241345/371472 [8:10:20<9:22:58,  3.85it/s] 65%|██████▍   | 241346/371472 [8:10:20<9:15:33,  3.90it/s] 65%|██████▍   | 241347/371472 [8:10:20<9:25:32,  3.83it/s] 65%|██████▍   | 241348/371472 [8:10:21<9:42:54,  3.72it/s] 65%|██████▍   | 241349/371472 [8:10:21<9:32:57,  3.79it/s] 65%|██████▍   | 241350/371472 [8:10:21<9:46:57,  3.69it/s] 65%|██████▍   | 241351/371472 [8:10:22<9:57:37,  3.63it/s] 65%|██████▍   | 241352/371472 [8:10:22<10:04:35,  3.59it/s] 65%|██████▍   | 241353/371472 [8:10:22<10:40:51,  3.38it/s] 65%|██████▍   | 241354/371472 [8:10:23<11:30:45,  3.14it/s] 65%|██████▍   | 241355/371472 [8:10:23<10:43:22,  3.37it/s] 65%|██████▍   | 241356/371472 [8:10:23<10:27:19,  3.46it/s] 65%|██████▍   | 241357/371472 [8:10:23<10:47:12,  3.35it/s] 65%|██████▍   | 241358/371472 [8:10:24<13:00:00,  2.78it/s] 65%|██████▍   | 241359/371472 [8:10:24<11:53:18,  3.04it/s] 65%|██████▍   | 241360/371472 [8:10:24<11:08:13,  3.25it/s]                                                            {'loss': 3.0081, 'learning_rate': 4.1540433967549394e-07, 'epoch': 10.4}
 65%|██████▍   | 241360/371472 [8:10:24<11:08:13,  3.25it/s] 65%|██████▍   | 241361/371472 [8:10:25<10:44:01,  3.37it/s] 65%|██████▍   | 241362/371472 [8:10:25<10:20:44,  3.49it/s] 65%|██████▍   | 241363/371472 [8:10:25<9:51:55,  3.66it/s]  65%|██████▍   | 241364/371472 [8:10:26<10:43:03,  3.37it/s] 65%|██████▍   | 241365/371472 [8:10:26<10:46:36,  3.35it/s] 65%|██████▍   | 241366/371472 [8:10:26<11:08:05,  3.25it/s] 65%|██████▍   | 241367/371472 [8:10:26<10:47:32,  3.35it/s] 65%|██████▍   | 241368/371472 [8:10:27<10:52:28,  3.32it/s] 65%|██████▍   | 241369/371472 [8:10:27<10:33:03,  3.43it/s] 65%|██████▍   | 241370/371472 [8:10:27<10:04:26,  3.59it/s] 65%|██████▍   | 241371/371472 [8:10:28<9:58:18,  3.62it/s]  65%|██████▍   | 241372/371472 [8:10:28<10:23:31,  3.48it/s] 65%|██████▍   | 241373/371472 [8:10:28<10:47:30,  3.35it/s] 65%|██████▍   | 241374/371472 [8:10:29<10:43:36,  3.37it/s] 65%|██████▍   | 241375/371472 [8:10:29<10:46:46,  3.35it/s] 65%|██████▍   | 241376/371472 [8:10:29<10:09:59,  3.55it/s] 65%|██████▍   | 241377/371472 [8:10:29<10:22:26,  3.48it/s] 65%|██████▍   | 241378/371472 [8:10:30<10:39:05,  3.39it/s] 65%|██████▍   | 241379/371472 [8:10:30<10:26:15,  3.46it/s] 65%|██████▍   | 241380/371472 [8:10:30<10:55:38,  3.31it/s]                                                            {'loss': 2.7531, 'learning_rate': 4.153558577000151e-07, 'epoch': 10.4}
 65%|██████▍   | 241380/371472 [8:10:30<10:55:38,  3.31it/s] 65%|██████▍   | 241381/371472 [8:10:31<10:49:05,  3.34it/s] 65%|██████▍   | 241382/371472 [8:10:31<10:30:43,  3.44it/s] 65%|██████▍   | 241383/371472 [8:10:31<10:04:22,  3.59it/s] 65%|██████▍   | 241384/371472 [8:10:31<9:50:15,  3.67it/s]  65%|██████▍   | 241385/371472 [8:10:32<10:25:39,  3.47it/s] 65%|██████▍   | 241386/371472 [8:10:32<9:53:01,  3.66it/s]  65%|██████▍   | 241387/371472 [8:10:32<9:53:25,  3.65it/s] 65%|██████▍   | 241388/371472 [8:10:32<9:56:35,  3.63it/s] 65%|██████▍   | 241389/371472 [8:10:33<10:28:44,  3.45it/s] 65%|██████▍   | 241390/371472 [8:10:33<10:15:30,  3.52it/s] 65%|██████▍   | 241391/371472 [8:10:33<10:17:02,  3.51it/s] 65%|██████▍   | 241392/371472 [8:10:34<10:12:12,  3.54it/s] 65%|██████▍   | 241393/371472 [8:10:34<10:48:59,  3.34it/s] 65%|██████▍   | 241394/371472 [8:10:34<10:42:36,  3.37it/s] 65%|██████▍   | 241395/371472 [8:10:35<10:22:51,  3.48it/s] 65%|██████▍   | 241396/371472 [8:10:35<10:27:33,  3.45it/s] 65%|██████▍   | 241397/371472 [8:10:35<10:18:18,  3.51it/s] 65%|██████▍   | 241398/371472 [8:10:35<10:42:41,  3.37it/s] 65%|██████▍   | 241399/371472 [8:10:36<10:35:22,  3.41it/s] 65%|██████▍   | 241400/371472 [8:10:36<10:15:38,  3.52it/s]                                                            {'loss': 2.8114, 'learning_rate': 4.1530737572453614e-07, 'epoch': 10.4}
 65%|██████▍   | 241400/371472 [8:10:36<10:15:38,  3.52it/s] 65%|██████▍   | 241401/371472 [8:10:36<9:51:49,  3.66it/s]  65%|██████▍   | 241402/371472 [8:10:37<10:23:16,  3.48it/s] 65%|██████▍   | 241403/371472 [8:10:37<11:01:56,  3.27it/s] 65%|██████▍   | 241404/371472 [8:10:37<10:38:30,  3.40it/s] 65%|██████▍   | 241405/371472 [8:10:37<10:12:09,  3.54it/s] 65%|██████▍   | 241406/371472 [8:10:38<10:06:54,  3.57it/s] 65%|██████▍   | 241407/371472 [8:10:38<10:40:26,  3.38it/s] 65%|██████▍   | 241408/371472 [8:10:38<10:20:13,  3.50it/s] 65%|██████▍   | 241409/371472 [8:10:39<10:15:49,  3.52it/s] 65%|██████▍   | 241410/371472 [8:10:39<10:31:04,  3.43it/s] 65%|██████▍   | 241411/371472 [8:10:39<10:15:27,  3.52it/s] 65%|██████▍   | 241412/371472 [8:10:39<10:16:23,  3.52it/s] 65%|██████▍   | 241413/371472 [8:10:40<10:28:54,  3.45it/s] 65%|██████▍   | 241414/371472 [8:10:40<10:33:24,  3.42it/s] 65%|██████▍   | 241415/371472 [8:10:40<10:32:37,  3.43it/s] 65%|██████▍   | 241416/371472 [8:10:41<10:15:25,  3.52it/s] 65%|██████▍   | 241417/371472 [8:10:41<10:21:34,  3.49it/s] 65%|██████▍   | 241418/371472 [8:10:41<11:05:09,  3.26it/s] 65%|██████▍   | 241419/371472 [8:10:41<10:39:16,  3.39it/s] 65%|██████▍   | 241420/371472 [8:10:42<10:43:09,  3.37it/s]                                                            {'loss': 2.9653, 'learning_rate': 4.152588937490573e-07, 'epoch': 10.4}
 65%|██████▍   | 241420/371472 [8:10:42<10:43:09,  3.37it/s] 65%|██████▍   | 241421/371472 [8:10:42<10:45:06,  3.36it/s] 65%|██████▍   | 241422/371472 [8:10:42<10:36:24,  3.41it/s] 65%|██████▍   | 241423/371472 [8:10:43<10:17:36,  3.51it/s] 65%|██████▍   | 241424/371472 [8:10:43<9:59:24,  3.62it/s]  65%|██████▍   | 241425/371472 [8:10:43<11:01:09,  3.28it/s] 65%|██████▍   | 241426/371472 [8:10:44<11:33:50,  3.12it/s] 65%|██████▍   | 241427/371472 [8:10:44<11:10:55,  3.23it/s] 65%|██████▍   | 241428/371472 [8:10:44<10:43:52,  3.37it/s] 65%|██████▍   | 241429/371472 [8:10:44<10:37:45,  3.40it/s] 65%|██████▍   | 241430/371472 [8:10:45<10:13:36,  3.53it/s] 65%|██████▍   | 241431/371472 [8:10:45<10:50:31,  3.33it/s] 65%|██████▍   | 241432/371472 [8:10:45<10:29:32,  3.44it/s] 65%|██████▍   | 241433/371472 [8:10:46<10:11:39,  3.54it/s] 65%|██████▍   | 241434/371472 [8:10:46<9:50:20,  3.67it/s]  65%|██████▍   | 241435/371472 [8:10:46<9:31:00,  3.80it/s] 65%|██████▍   | 241436/371472 [8:10:46<9:29:05,  3.81it/s] 65%|██████▍   | 241437/371472 [8:10:47<10:13:15,  3.53it/s] 65%|██████▍   | 241438/371472 [8:10:47<10:00:25,  3.61it/s] 65%|██████▍   | 241439/371472 [8:10:47<9:47:54,  3.69it/s]  65%|██████▍   | 241440/371472 [8:10:47<9:29:21,  3.81it/s]                                                           {'loss': 2.9949, 'learning_rate': 4.152104117735784e-07, 'epoch': 10.4}
 65%|██████▍   | 241440/371472 [8:10:47<9:29:21,  3.81it/s] 65%|██████▍   | 241441/371472 [8:10:48<9:28:15,  3.81it/s] 65%|██████▍   | 241442/371472 [8:10:48<9:24:39,  3.84it/s] 65%|██████▍   | 241443/371472 [8:10:48<9:22:31,  3.85it/s] 65%|██████▍   | 241444/371472 [8:10:48<9:34:20,  3.77it/s] 65%|██████▍   | 241445/371472 [8:10:49<9:36:59,  3.76it/s] 65%|██████▍   | 241446/371472 [8:10:49<9:39:31,  3.74it/s] 65%|██████▍   | 241447/371472 [8:10:49<9:50:21,  3.67it/s] 65%|██████▍   | 241448/371472 [8:10:50<9:53:34,  3.65it/s] 65%|██████▍   | 241449/371472 [8:10:50<10:42:06,  3.37it/s] 65%|██████▍   | 241450/371472 [8:10:50<10:41:47,  3.38it/s] 65%|██████▍   | 241451/371472 [8:10:50<10:18:09,  3.51it/s] 65%|██████▍   | 241452/371472 [8:10:51<9:53:24,  3.65it/s]  65%|██████▍   | 241453/371472 [8:10:51<10:08:10,  3.56it/s] 65%|██████▍   | 241454/371472 [8:10:51<10:13:01,  3.53it/s] 65%|██████▍   | 241455/371472 [8:10:52<10:04:48,  3.58it/s] 65%|██████▍   | 241456/371472 [8:10:52<10:07:24,  3.57it/s] 65%|██████▌   | 241457/371472 [8:10:52<10:13:29,  3.53it/s] 65%|██████▌   | 241458/371472 [8:10:52<10:10:30,  3.55it/s] 65%|██████▌   | 241459/371472 [8:10:53<10:02:57,  3.59it/s] 65%|██████▌   | 241460/371472 [8:10:53<10:06:09,  3.57it/s]                                                            {'loss': 2.8473, 'learning_rate': 4.151619297980995e-07, 'epoch': 10.4}
 65%|██████▌   | 241460/371472 [8:10:53<10:06:09,  3.57it/s] 65%|██████▌   | 241461/371472 [8:10:53<9:59:25,  3.61it/s]  65%|██████▌   | 241462/371472 [8:10:54<10:04:38,  3.58it/s] 65%|██████▌   | 241463/371472 [8:10:54<10:16:57,  3.51it/s] 65%|██████▌   | 241464/371472 [8:10:54<10:06:07,  3.57it/s] 65%|██████▌   | 241465/371472 [8:10:54<9:50:42,  3.67it/s]  65%|██████▌   | 241466/371472 [8:10:55<9:54:41,  3.64it/s] 65%|██████▌   | 241467/371472 [8:10:55<10:41:44,  3.38it/s] 65%|██████▌   | 241468/371472 [8:10:55<10:47:49,  3.34it/s] 65%|██████▌   | 241469/371472 [8:10:56<10:13:13,  3.53it/s] 65%|██████▌   | 241470/371472 [8:10:56<10:17:51,  3.51it/s] 65%|██████▌   | 241471/371472 [8:10:56<11:01:23,  3.28it/s] 65%|██████▌   | 241472/371472 [8:10:56<10:31:13,  3.43it/s] 65%|██████▌   | 241473/371472 [8:10:57<10:17:04,  3.51it/s] 65%|██████▌   | 241474/371472 [8:10:57<10:12:13,  3.54it/s] 65%|██████▌   | 241475/371472 [8:10:57<10:06:27,  3.57it/s] 65%|██████▌   | 241476/371472 [8:10:58<10:35:34,  3.41it/s] 65%|██████▌   | 241477/371472 [8:10:58<10:26:31,  3.46it/s] 65%|██████▌   | 241478/371472 [8:10:58<10:30:29,  3.44it/s] 65%|██████▌   | 241479/371472 [8:10:58<10:38:25,  3.39it/s] 65%|██████▌   | 241480/371472 [8:10:59<10:24:07,  3.47it/s]                                                            {'loss': 2.8794, 'learning_rate': 4.151134478226206e-07, 'epoch': 10.4}
 65%|██████▌   | 241480/371472 [8:10:59<10:24:07,  3.47it/s] 65%|██████▌   | 241481/371472 [8:10:59<10:15:24,  3.52it/s] 65%|██████▌   | 241482/371472 [8:10:59<10:22:46,  3.48it/s] 65%|██████▌   | 241483/371472 [8:11:00<10:42:48,  3.37it/s] 65%|██████▌   | 241484/371472 [8:11:00<10:26:34,  3.46it/s] 65%|██████▌   | 241485/371472 [8:11:00<10:02:29,  3.60it/s] 65%|██████▌   | 241486/371472 [8:11:00<10:01:22,  3.60it/s] 65%|██████▌   | 241487/371472 [8:11:01<10:42:45,  3.37it/s] 65%|██████▌   | 241488/371472 [8:11:01<10:08:35,  3.56it/s] 65%|██████▌   | 241489/371472 [8:11:01<10:09:14,  3.56it/s] 65%|██████▌   | 241490/371472 [8:11:02<10:01:37,  3.60it/s] 65%|██████▌   | 241491/371472 [8:11:02<10:00:13,  3.61it/s] 65%|██████▌   | 241492/371472 [8:11:02<9:45:47,  3.70it/s]  65%|██████▌   | 241493/371472 [8:11:02<9:28:44,  3.81it/s] 65%|██████▌   | 241494/371472 [8:11:03<9:19:35,  3.87it/s] 65%|██████▌   | 241495/371472 [8:11:03<9:42:13,  3.72it/s] 65%|██████▌   | 241496/371472 [8:11:03<10:51:57,  3.32it/s] 65%|██████▌   | 241497/371472 [8:11:04<10:44:41,  3.36it/s] 65%|██████▌   | 241498/371472 [8:11:04<10:28:46,  3.45it/s] 65%|██████▌   | 241499/371472 [8:11:04<10:05:27,  3.58it/s] 65%|██████▌   | 241500/371472 [8:11:04<10:35:39,  3.41it/s]                                                            {'loss': 2.798, 'learning_rate': 4.150649658471417e-07, 'epoch': 10.4}
 65%|██████▌   | 241500/371472 [8:11:04<10:35:39,  3.41it/s] 65%|██████▌   | 241501/371472 [8:11:05<10:19:44,  3.50it/s] 65%|██████▌   | 241502/371472 [8:11:05<10:09:10,  3.56it/s] 65%|██████▌   | 241503/371472 [8:11:05<9:36:15,  3.76it/s]  65%|██████▌   | 241504/371472 [8:11:05<9:35:23,  3.76it/s] 65%|██████▌   | 241505/371472 [8:11:06<9:46:06,  3.70it/s] 65%|██████▌   | 241506/371472 [8:11:06<10:17:13,  3.51it/s] 65%|██████▌   | 241507/371472 [8:11:06<10:20:11,  3.49it/s] 65%|██████▌   | 241508/371472 [8:11:07<10:09:02,  3.56it/s] 65%|██████▌   | 241509/371472 [8:11:07<10:11:24,  3.54it/s] 65%|██████▌   | 241510/371472 [8:11:07<10:07:49,  3.56it/s] 65%|██████▌   | 241511/371472 [8:11:07<10:44:01,  3.36it/s] 65%|██████▌   | 241512/371472 [8:11:08<10:39:56,  3.38it/s] 65%|██████▌   | 241513/371472 [8:11:08<10:38:04,  3.39it/s] 65%|██████▌   | 241514/371472 [8:11:08<10:08:11,  3.56it/s] 65%|██████▌   | 241515/371472 [8:11:09<9:52:00,  3.66it/s]  65%|██████▌   | 241516/371472 [8:11:09<9:31:18,  3.79it/s] 65%|██████▌   | 241517/371472 [8:11:09<11:33:28,  3.12it/s] 65%|██████▌   | 241518/371472 [8:11:10<10:50:14,  3.33it/s] 65%|██████▌   | 241519/371472 [8:11:10<10:14:03,  3.53it/s] 65%|██████▌   | 241520/371472 [8:11:10<9:50:09,  3.67it/s]                                                            {'loss': 2.7728, 'learning_rate': 4.150164838716628e-07, 'epoch': 10.4}
 65%|██████▌   | 241520/371472 [8:11:10<9:50:09,  3.67it/s] 65%|██████▌   | 241521/371472 [8:11:10<9:52:17,  3.66it/s] 65%|██████▌   | 241522/371472 [8:11:11<9:49:13,  3.68it/s] 65%|██████▌   | 241523/371472 [8:11:11<9:28:31,  3.81it/s] 65%|██████▌   | 241524/371472 [8:11:11<9:33:51,  3.77it/s] 65%|██████▌   | 241525/371472 [8:11:11<9:29:20,  3.80it/s] 65%|██████▌   | 241526/371472 [8:11:12<9:35:32,  3.76it/s] 65%|██████▌   | 241527/371472 [8:11:12<9:27:59,  3.81it/s] 65%|██████▌   | 241528/371472 [8:11:12<10:31:15,  3.43it/s] 65%|██████▌   | 241529/371472 [8:11:13<10:27:06,  3.45it/s] 65%|██████▌   | 241530/371472 [8:11:13<9:50:55,  3.66it/s]  65%|██████▌   | 241531/371472 [8:11:13<9:24:57,  3.83it/s] 65%|██████▌   | 241532/371472 [8:11:13<9:10:37,  3.93it/s] 65%|██████▌   | 241533/371472 [8:11:13<9:16:40,  3.89it/s] 65%|██████▌   | 241534/371472 [8:11:14<10:41:33,  3.38it/s] 65%|██████▌   | 241535/371472 [8:11:14<10:24:02,  3.47it/s] 65%|██████▌   | 241536/371472 [8:11:14<10:19:52,  3.49it/s] 65%|██████▌   | 241537/371472 [8:11:15<10:01:09,  3.60it/s] 65%|██████▌   | 241538/371472 [8:11:15<10:09:49,  3.55it/s] 65%|██████▌   | 241539/371472 [8:11:15<10:26:58,  3.45it/s] 65%|██████▌   | 241540/371472 [8:11:16<10:26:32,  3.46it/s]                                                            {'loss': 2.9225, 'learning_rate': 4.1496800189618385e-07, 'epoch': 10.4}
 65%|██████▌   | 241540/371472 [8:11:16<10:26:32,  3.46it/s] 65%|██████▌   | 241541/371472 [8:11:16<10:34:09,  3.41it/s] 65%|██████▌   | 241542/371472 [8:11:16<10:16:32,  3.51it/s] 65%|██████▌   | 241543/371472 [8:11:16<9:46:01,  3.70it/s]  65%|██████▌   | 241544/371472 [8:11:17<10:32:51,  3.42it/s] 65%|██████▌   | 241545/371472 [8:11:17<10:02:54,  3.59it/s] 65%|██████▌   | 241546/371472 [8:11:17<9:42:48,  3.72it/s]  65%|██████▌   | 241547/371472 [8:11:17<9:46:36,  3.69it/s] 65%|██████▌   | 241548/371472 [8:11:18<9:56:01,  3.63it/s] 65%|██████▌   | 241549/371472 [8:11:18<10:00:38,  3.61it/s] 65%|██████▌   | 241550/371472 [8:11:18<10:10:09,  3.55it/s] 65%|██████▌   | 241551/371472 [8:11:19<9:53:29,  3.65it/s]  65%|██████▌   | 241552/371472 [8:11:19<10:12:38,  3.53it/s] 65%|██████▌   | 241553/371472 [8:11:19<10:30:48,  3.43it/s] 65%|██████▌   | 241554/371472 [8:11:20<10:54:26,  3.31it/s] 65%|██████▌   | 241555/371472 [8:11:20<10:17:41,  3.51it/s] 65%|██████▌   | 241556/371472 [8:11:20<10:20:05,  3.49it/s] 65%|██████▌   | 241557/371472 [8:11:20<10:58:21,  3.29it/s] 65%|██████▌   | 241558/371472 [8:11:21<10:16:21,  3.51it/s] 65%|██████▌   | 241559/371472 [8:11:21<9:43:10,  3.71it/s]  65%|██████▌   | 241560/371472 [8:11:21<11:15:24,  3.21it/s]                                                            {'loss': 2.8209, 'learning_rate': 4.1491951992070503e-07, 'epoch': 10.4}
 65%|██████▌   | 241560/371472 [8:11:21<11:15:24,  3.21it/s] 65%|██████▌   | 241561/371472 [8:11:22<10:37:31,  3.40it/s] 65%|██████▌   | 241562/371472 [8:11:22<11:07:31,  3.24it/s] 65%|██████▌   | 241563/371472 [8:11:22<10:18:33,  3.50it/s] 65%|██████▌   | 241564/371472 [8:11:22<10:52:09,  3.32it/s] 65%|██████▌   | 241565/371472 [8:11:23<10:49:14,  3.33it/s] 65%|██████▌   | 241566/371472 [8:11:23<10:22:30,  3.48it/s] 65%|██████▌   | 241567/371472 [8:11:23<10:15:20,  3.52it/s] 65%|██████▌   | 241568/371472 [8:11:24<10:21:01,  3.49it/s] 65%|██████▌   | 241569/371472 [8:11:24<10:02:37,  3.59it/s] 65%|██████▌   | 241570/371472 [8:11:24<9:29:26,  3.80it/s]  65%|██████▌   | 241571/371472 [8:11:24<9:30:46,  3.79it/s] 65%|██████▌   | 241572/371472 [8:11:25<9:47:36,  3.68it/s] 65%|██████▌   | 241573/371472 [8:11:25<9:55:42,  3.63it/s] 65%|██████▌   | 241574/371472 [8:11:25<9:35:17,  3.76it/s] 65%|██████▌   | 241575/371472 [8:11:25<9:29:43,  3.80it/s] 65%|██████▌   | 241576/371472 [8:11:26<9:31:27,  3.79it/s] 65%|██████▌   | 241577/371472 [8:11:26<9:25:48,  3.83it/s] 65%|██████▌   | 241578/371472 [8:11:26<9:59:17,  3.61it/s] 65%|██████▌   | 241579/371472 [8:11:27<9:55:10,  3.64it/s] 65%|██████▌   | 241580/371472 [8:11:27<9:52:20,  3.65it/s]                                                           {'loss': 2.8428, 'learning_rate': 4.148710379452261e-07, 'epoch': 10.41}
 65%|██████▌   | 241580/371472 [8:11:27<9:52:20,  3.65it/s] 65%|██████▌   | 241581/371472 [8:11:27<10:03:32,  3.59it/s] 65%|██████▌   | 241582/371472 [8:11:27<10:12:11,  3.54it/s] 65%|██████▌   | 241583/371472 [8:11:28<10:12:12,  3.54it/s] 65%|██████▌   | 241584/371472 [8:11:28<10:40:07,  3.38it/s] 65%|██████▌   | 241585/371472 [8:11:28<10:52:43,  3.32it/s] 65%|██████▌   | 241586/371472 [8:11:29<10:32:48,  3.42it/s] 65%|██████▌   | 241587/371472 [8:11:29<11:01:03,  3.27it/s] 65%|██████▌   | 241588/371472 [8:11:29<11:17:42,  3.19it/s] 65%|██████▌   | 241589/371472 [8:11:30<11:00:24,  3.28it/s] 65%|██████▌   | 241590/371472 [8:11:30<10:31:27,  3.43it/s] 65%|██████▌   | 241591/371472 [8:11:30<10:32:51,  3.42it/s] 65%|██████▌   | 241592/371472 [8:11:30<10:02:41,  3.59it/s] 65%|██████▌   | 241593/371472 [8:11:31<10:22:21,  3.48it/s] 65%|██████▌   | 241594/371472 [8:11:31<10:22:06,  3.48it/s] 65%|██████▌   | 241595/371472 [8:11:31<10:15:13,  3.52it/s] 65%|██████▌   | 241596/371472 [8:11:31<10:03:58,  3.58it/s] 65%|██████▌   | 241597/371472 [8:11:32<10:01:49,  3.60it/s] 65%|██████▌   | 241598/371472 [8:11:32<10:04:32,  3.58it/s] 65%|██████▌   | 241599/371472 [8:11:32<9:56:17,  3.63it/s]  65%|██████▌   | 241600/371472 [8:11:33<10:03:47,  3.58it/s]                                                            {'loss': 2.8274, 'learning_rate': 4.148225559697472e-07, 'epoch': 10.41}
 65%|██████▌   | 241600/371472 [8:11:33<10:03:47,  3.58it/s] 65%|██████▌   | 241601/371472 [8:11:33<9:55:17,  3.64it/s]  65%|██████▌   | 241602/371472 [8:11:33<10:41:53,  3.37it/s] 65%|██████▌   | 241603/371472 [8:11:33<10:23:12,  3.47it/s] 65%|██████▌   | 241604/371472 [8:11:34<10:08:13,  3.56it/s] 65%|██████▌   | 241605/371472 [8:11:34<10:09:53,  3.55it/s] 65%|██████▌   | 241606/371472 [8:11:34<10:06:36,  3.57it/s] 65%|██████▌   | 241607/371472 [8:11:35<9:40:09,  3.73it/s]  65%|██████▌   | 241608/371472 [8:11:35<10:00:44,  3.60it/s] 65%|██████▌   | 241609/371472 [8:11:35<9:56:30,  3.63it/s]  65%|██████▌   | 241610/371472 [8:11:35<9:49:18,  3.67it/s] 65%|██████▌   | 241611/371472 [8:11:36<9:35:58,  3.76it/s] 65%|██████▌   | 241612/371472 [8:11:36<9:37:25,  3.75it/s] 65%|██████▌   | 241613/371472 [8:11:36<9:14:14,  3.91it/s] 65%|██████▌   | 241614/371472 [8:11:36<9:54:46,  3.64it/s] 65%|██████▌   | 241615/371472 [8:11:37<9:59:17,  3.61it/s] 65%|██████▌   | 241616/371472 [8:11:37<10:09:05,  3.55it/s] 65%|██████▌   | 241617/371472 [8:11:37<9:52:36,  3.65it/s]  65%|██████▌   | 241618/371472 [8:11:38<10:14:44,  3.52it/s] 65%|██████▌   | 241619/371472 [8:11:38<9:51:35,  3.66it/s]  65%|██████▌   | 241620/371472 [8:11:38<9:38:34,  3.74it/s]                                                           {'loss': 2.8248, 'learning_rate': 4.147740739942683e-07, 'epoch': 10.41}
 65%|██████▌   | 241620/371472 [8:11:38<9:38:34,  3.74it/s] 65%|██████▌   | 241621/371472 [8:11:38<9:17:36,  3.88it/s] 65%|██████▌   | 241622/371472 [8:11:39<9:36:49,  3.75it/s] 65%|██████▌   | 241623/371472 [8:11:39<9:58:00,  3.62it/s] 65%|██████▌   | 241624/371472 [8:11:39<10:57:16,  3.29it/s] 65%|██████▌   | 241625/371472 [8:11:39<10:14:52,  3.52it/s] 65%|██████▌   | 241626/371472 [8:11:40<10:40:08,  3.38it/s] 65%|██████▌   | 241627/371472 [8:11:40<10:41:13,  3.37it/s] 65%|██████▌   | 241628/371472 [8:11:40<10:11:49,  3.54it/s] 65%|██████▌   | 241629/371472 [8:11:41<10:25:47,  3.46it/s] 65%|██████▌   | 241630/371472 [8:11:41<10:12:42,  3.53it/s] 65%|██████▌   | 241631/371472 [8:11:41<10:27:14,  3.45it/s] 65%|██████▌   | 241632/371472 [8:11:41<9:57:46,  3.62it/s]  65%|██████▌   | 241633/371472 [8:11:42<9:46:17,  3.69it/s] 65%|██████▌   | 241634/371472 [8:11:42<9:36:51,  3.75it/s] 65%|██████▌   | 241635/371472 [8:11:42<9:31:21,  3.79it/s] 65%|██████▌   | 241636/371472 [8:11:43<9:25:19,  3.83it/s] 65%|██████▌   | 241637/371472 [8:11:43<9:09:52,  3.94it/s] 65%|██████▌   | 241638/371472 [8:11:43<9:07:50,  3.95it/s] 65%|██████▌   | 241639/371472 [8:11:43<10:15:18,  3.52it/s] 65%|██████▌   | 241640/371472 [8:11:44<10:02:06,  3.59it/s]                                                            {'loss': 2.8687, 'learning_rate': 4.1472559201878947e-07, 'epoch': 10.41}
 65%|██████▌   | 241640/371472 [8:11:44<10:02:06,  3.59it/s] 65%|██████▌   | 241641/371472 [8:11:44<10:42:36,  3.37it/s] 65%|██████▌   | 241642/371472 [8:11:44<10:19:20,  3.49it/s] 65%|██████▌   | 241643/371472 [8:11:44<10:00:16,  3.60it/s] 65%|██████▌   | 241644/371472 [8:11:45<10:28:47,  3.44it/s] 65%|██████▌   | 241645/371472 [8:11:45<10:39:43,  3.38it/s] 65%|██████▌   | 241646/371472 [8:11:45<10:34:52,  3.41it/s] 65%|██████▌   | 241647/371472 [8:11:46<10:43:17,  3.36it/s] 65%|██████▌   | 241648/371472 [8:11:46<10:19:50,  3.49it/s] 65%|██████▌   | 241649/371472 [8:11:46<10:00:30,  3.60it/s] 65%|██████▌   | 241650/371472 [8:11:46<9:56:38,  3.63it/s]  65%|██████▌   | 241651/371472 [8:11:47<9:56:05,  3.63it/s] 65%|██████▌   | 241652/371472 [8:11:47<10:03:21,  3.59it/s] 65%|██████▌   | 241653/371472 [8:11:47<9:43:54,  3.71it/s]  65%|██████▌   | 241654/371472 [8:11:48<10:35:21,  3.41it/s] 65%|██████▌   | 241655/371472 [8:11:48<11:16:20,  3.20it/s] 65%|██████▌   | 241656/371472 [8:11:48<11:04:56,  3.25it/s] 65%|██████▌   | 241657/371472 [8:11:49<10:41:03,  3.37it/s] 65%|██████▌   | 241658/371472 [8:11:49<10:08:38,  3.55it/s] 65%|██████▌   | 241659/371472 [8:11:49<9:56:48,  3.63it/s]  65%|██████▌   | 241660/371472 [8:11:49<10:23:26,  3.47it/s]                                                            {'loss': 2.8664, 'learning_rate': 4.146771100433105e-07, 'epoch': 10.41}
 65%|██████▌   | 241660/371472 [8:11:49<10:23:26,  3.47it/s] 65%|██████▌   | 241661/371472 [8:11:50<10:34:30,  3.41it/s] 65%|██████▌   | 241662/371472 [8:11:50<10:22:34,  3.48it/s] 65%|██████▌   | 241663/371472 [8:11:50<10:16:50,  3.51it/s] 65%|██████▌   | 241664/371472 [8:11:51<10:00:56,  3.60it/s] 65%|██████▌   | 241665/371472 [8:11:51<9:47:28,  3.68it/s]  65%|██████▌   | 241666/371472 [8:11:51<9:29:43,  3.80it/s] 65%|██████▌   | 241667/371472 [8:11:51<9:25:48,  3.82it/s] 65%|██████▌   | 241668/371472 [8:11:52<9:45:09,  3.70it/s] 65%|██████▌   | 241669/371472 [8:11:52<9:50:37,  3.66it/s] 65%|██████▌   | 241670/371472 [8:11:52<9:49:36,  3.67it/s] 65%|██████▌   | 241671/371472 [8:11:52<9:41:50,  3.72it/s] 65%|██████▌   | 241672/371472 [8:11:53<10:07:45,  3.56it/s] 65%|██████▌   | 241673/371472 [8:11:53<11:06:55,  3.24it/s] 65%|██████▌   | 241674/371472 [8:11:53<10:22:11,  3.48it/s] 65%|██████▌   | 241675/371472 [8:11:54<12:41:19,  2.84it/s] 65%|██████▌   | 241676/371472 [8:11:54<11:48:04,  3.06it/s] 65%|██████▌   | 241677/371472 [8:11:54<11:29:39,  3.14it/s] 65%|██████▌   | 241678/371472 [8:11:55<10:58:18,  3.29it/s] 65%|██████▌   | 241679/371472 [8:11:55<10:40:24,  3.38it/s] 65%|██████▌   | 241680/371472 [8:11:55<10:09:14,  3.55it/s]                                                            {'loss': 2.6073, 'learning_rate': 4.1462862806783167e-07, 'epoch': 10.41}
 65%|██████▌   | 241680/371472 [8:11:55<10:09:14,  3.55it/s] 65%|██████▌   | 241681/371472 [8:11:55<9:51:11,  3.66it/s]  65%|██████▌   | 241682/371472 [8:11:56<9:54:41,  3.64it/s] 65%|██████▌   | 241683/371472 [8:11:56<11:10:49,  3.22it/s] 65%|██████▌   | 241684/371472 [8:11:56<10:34:04,  3.41it/s] 65%|██████▌   | 241685/371472 [8:11:57<11:49:25,  3.05it/s] 65%|██████▌   | 241686/371472 [8:11:57<10:57:13,  3.29it/s] 65%|██████▌   | 241687/371472 [8:11:57<11:11:27,  3.22it/s] 65%|██████▌   | 241688/371472 [8:11:58<10:27:07,  3.45it/s] 65%|██████▌   | 241689/371472 [8:11:58<10:29:44,  3.43it/s] 65%|██████▌   | 241690/371472 [8:11:58<10:05:43,  3.57it/s] 65%|██████▌   | 241691/371472 [8:11:58<9:42:46,  3.71it/s]  65%|██████▌   | 241692/371472 [8:11:59<9:32:45,  3.78it/s] 65%|██████▌   | 241693/371472 [8:11:59<10:08:18,  3.56it/s] 65%|██████▌   | 241694/371472 [8:11:59<9:50:41,  3.66it/s]  65%|██████▌   | 241695/371472 [8:12:00<10:15:50,  3.51it/s] 65%|██████▌   | 241696/371472 [8:12:00<10:31:41,  3.42it/s] 65%|██████▌   | 241697/371472 [8:12:00<10:19:17,  3.49it/s] 65%|██████▌   | 241698/371472 [8:12:00<10:21:04,  3.48it/s] 65%|██████▌   | 241699/371472 [8:12:01<11:48:28,  3.05it/s] 65%|██████▌   | 241700/371472 [8:12:01<11:11:39,  3.22it/s]                                                            {'loss': 2.8657, 'learning_rate': 4.1458014609235274e-07, 'epoch': 10.41}
 65%|██████▌   | 241700/371472 [8:12:01<11:11:39,  3.22it/s] 65%|██████▌   | 241701/371472 [8:12:01<10:31:35,  3.42it/s] 65%|██████▌   | 241702/371472 [8:12:02<10:05:59,  3.57it/s] 65%|██████▌   | 241703/371472 [8:12:02<10:37:46,  3.39it/s] 65%|██████▌   | 241704/371472 [8:12:02<10:40:50,  3.37it/s] 65%|██████▌   | 241705/371472 [8:12:02<10:12:36,  3.53it/s] 65%|██████▌   | 241706/371472 [8:12:03<10:59:59,  3.28it/s] 65%|██████▌   | 241707/371472 [8:12:03<10:44:27,  3.36it/s] 65%|██████▌   | 241708/371472 [8:12:03<10:58:35,  3.28it/s] 65%|██████▌   | 241709/371472 [8:12:04<10:25:13,  3.46it/s] 65%|██████▌   | 241710/371472 [8:12:04<10:08:44,  3.55it/s] 65%|██████▌   | 241711/371472 [8:12:04<10:26:53,  3.45it/s] 65%|██████▌   | 241712/371472 [8:12:05<10:18:20,  3.50it/s] 65%|██████▌   | 241713/371472 [8:12:05<10:16:11,  3.51it/s] 65%|██████▌   | 241714/371472 [8:12:05<10:16:06,  3.51it/s] 65%|██████▌   | 241715/371472 [8:12:05<10:11:28,  3.54it/s] 65%|██████▌   | 241716/371472 [8:12:06<9:45:41,  3.69it/s]  65%|██████▌   | 241717/371472 [8:12:06<10:01:06,  3.60it/s] 65%|██████▌   | 241718/371472 [8:12:06<10:06:24,  3.57it/s] 65%|██████▌   | 241719/371472 [8:12:06<9:51:12,  3.66it/s]  65%|██████▌   | 241720/371472 [8:12:07<10:06:52,  3.56it/s]                                                            {'loss': 2.9552, 'learning_rate': 4.1453166411687387e-07, 'epoch': 10.41}
 65%|██████▌   | 241720/371472 [8:12:07<10:06:52,  3.56it/s] 65%|██████▌   | 241721/371472 [8:12:07<10:11:20,  3.54it/s] 65%|██████▌   | 241722/371472 [8:12:07<9:50:07,  3.66it/s]  65%|██████▌   | 241723/371472 [8:12:08<10:24:25,  3.46it/s] 65%|██████▌   | 241724/371472 [8:12:08<9:50:46,  3.66it/s]  65%|██████▌   | 241725/371472 [8:12:08<9:41:42,  3.72it/s] 65%|██████▌   | 241726/371472 [8:12:08<9:30:44,  3.79it/s] 65%|██████▌   | 241727/371472 [8:12:09<10:25:19,  3.46it/s] 65%|██████▌   | 241728/371472 [8:12:09<10:03:13,  3.58it/s] 65%|██████▌   | 241729/371472 [8:12:09<10:09:22,  3.55it/s] 65%|██████▌   | 241730/371472 [8:12:09<9:44:25,  3.70it/s]  65%|██████▌   | 241731/371472 [8:12:10<9:33:17,  3.77it/s] 65%|██████▌   | 241732/371472 [8:12:10<9:42:18,  3.71it/s] 65%|██████▌   | 241733/371472 [8:12:10<9:34:26,  3.76it/s] 65%|██████▌   | 241734/371472 [8:12:11<9:30:01,  3.79it/s] 65%|██████▌   | 241735/371472 [8:12:11<9:48:58,  3.67it/s] 65%|██████▌   | 241736/371472 [8:12:11<12:32:12,  2.87it/s] 65%|██████▌   | 241737/371472 [8:12:12<11:23:06,  3.17it/s] 65%|██████▌   | 241738/371472 [8:12:12<10:49:40,  3.33it/s] 65%|██████▌   | 241739/371472 [8:12:12<10:14:40,  3.52it/s] 65%|██████▌   | 241740/371472 [8:12:12<9:56:47,  3.62it/s]                                                            {'loss': 2.83, 'learning_rate': 4.1448318214139494e-07, 'epoch': 10.41}
 65%|██████▌   | 241740/371472 [8:12:12<9:56:47,  3.62it/s] 65%|██████▌   | 241741/371472 [8:12:13<9:28:23,  3.80it/s] 65%|██████▌   | 241742/371472 [8:12:13<9:43:04,  3.71it/s] 65%|██████▌   | 241743/371472 [8:12:13<9:43:49,  3.70it/s] 65%|██████▌   | 241744/371472 [8:12:13<9:36:02,  3.75it/s] 65%|██████▌   | 241745/371472 [8:12:14<10:09:16,  3.55it/s] 65%|██████▌   | 241746/371472 [8:12:14<10:21:18,  3.48it/s] 65%|██████▌   | 241747/371472 [8:12:14<10:00:01,  3.60it/s] 65%|██████▌   | 241748/371472 [8:12:15<9:55:13,  3.63it/s]  65%|██████▌   | 241749/371472 [8:12:15<9:48:22,  3.67it/s] 65%|██████▌   | 241750/371472 [8:12:15<10:21:17,  3.48it/s] 65%|██████▌   | 241751/371472 [8:12:15<10:04:35,  3.58it/s] 65%|██████▌   | 241752/371472 [8:12:16<10:28:22,  3.44it/s] 65%|██████▌   | 241753/371472 [8:12:16<10:01:53,  3.59it/s] 65%|██████▌   | 241754/371472 [8:12:16<9:35:41,  3.76it/s]  65%|██████▌   | 241755/371472 [8:12:16<9:45:48,  3.69it/s] 65%|██████▌   | 241756/371472 [8:12:17<9:55:43,  3.63it/s] 65%|██████▌   | 241757/371472 [8:12:17<9:50:35,  3.66it/s] 65%|██████▌   | 241758/371472 [8:12:17<9:55:55,  3.63it/s] 65%|██████▌   | 241759/371472 [8:12:18<10:25:36,  3.46it/s] 65%|██████▌   | 241760/371472 [8:12:18<9:51:54,  3.65it/s]                                                            {'loss': 2.9591, 'learning_rate': 4.144347001659161e-07, 'epoch': 10.41}
 65%|██████▌   | 241760/371472 [8:12:18<9:51:54,  3.65it/s] 65%|██████▌   | 241761/371472 [8:12:18<10:11:44,  3.53it/s] 65%|██████▌   | 241762/371472 [8:12:18<9:56:14,  3.63it/s]  65%|██████▌   | 241763/371472 [8:12:19<9:43:51,  3.70it/s] 65%|██████▌   | 241764/371472 [8:12:19<9:46:06,  3.69it/s] 65%|██████▌   | 241765/371472 [8:12:19<9:27:39,  3.81it/s] 65%|██████▌   | 241766/371472 [8:12:19<9:22:17,  3.84it/s] 65%|██████▌   | 241767/371472 [8:12:20<9:38:26,  3.74it/s] 65%|██████▌   | 241768/371472 [8:12:20<9:32:04,  3.78it/s] 65%|██████▌   | 241769/371472 [8:12:20<9:17:18,  3.88it/s] 65%|██████▌   | 241770/371472 [8:12:21<10:09:59,  3.54it/s] 65%|██████▌   | 241771/371472 [8:12:21<9:55:39,  3.63it/s]  65%|██████▌   | 241772/371472 [8:12:21<9:35:57,  3.75it/s] 65%|██████▌   | 241773/371472 [8:12:21<9:35:22,  3.76it/s] 65%|██████▌   | 241774/371472 [8:12:22<9:22:16,  3.84it/s] 65%|██████▌   | 241775/371472 [8:12:22<9:17:44,  3.88it/s] 65%|██████▌   | 241776/371472 [8:12:22<9:01:26,  3.99it/s] 65%|██████▌   | 241777/371472 [8:12:22<9:08:21,  3.94it/s] 65%|██████▌   | 241778/371472 [8:12:23<9:10:28,  3.93it/s] 65%|██████▌   | 241779/371472 [8:12:23<9:11:29,  3.92it/s] 65%|██████▌   | 241780/371472 [8:12:23<9:07:01,  3.95it/s]                                                           {'loss': 3.0259, 'learning_rate': 4.1438621819043713e-07, 'epoch': 10.41}
 65%|██████▌   | 241780/371472 [8:12:23<9:07:01,  3.95it/s] 65%|██████▌   | 241781/371472 [8:12:23<10:17:53,  3.50it/s] 65%|██████▌   | 241782/371472 [8:12:24<9:43:08,  3.71it/s]  65%|██████▌   | 241783/371472 [8:12:24<9:28:28,  3.80it/s] 65%|██████▌   | 241784/371472 [8:12:24<9:16:27,  3.88it/s] 65%|██████▌   | 241785/371472 [8:12:24<9:21:16,  3.85it/s] 65%|██████▌   | 241786/371472 [8:12:25<9:16:16,  3.89it/s] 65%|██████▌   | 241787/371472 [8:12:25<9:35:52,  3.75it/s] 65%|██████▌   | 241788/371472 [8:12:25<9:28:18,  3.80it/s] 65%|██████▌   | 241789/371472 [8:12:26<9:27:03,  3.81it/s] 65%|██████▌   | 241790/371472 [8:12:26<9:21:29,  3.85it/s] 65%|██████▌   | 241791/371472 [8:12:26<9:10:01,  3.93it/s] 65%|██████▌   | 241792/371472 [8:12:26<9:43:13,  3.71it/s] 65%|██████▌   | 241793/371472 [8:12:27<9:37:27,  3.74it/s] 65%|██████▌   | 241794/371472 [8:12:27<10:32:25,  3.42it/s] 65%|██████▌   | 241795/371472 [8:12:27<10:20:32,  3.48it/s] 65%|██████▌   | 241796/371472 [8:12:27<9:48:09,  3.67it/s]  65%|██████▌   | 241797/371472 [8:12:28<10:41:03,  3.37it/s] 65%|██████▌   | 241798/371472 [8:12:28<10:12:52,  3.53it/s] 65%|██████▌   | 241799/371472 [8:12:28<9:44:33,  3.70it/s]  65%|██████▌   | 241800/371472 [8:12:29<9:49:30,  3.67it/s]                                                           {'loss': 2.8477, 'learning_rate': 4.143377362149583e-07, 'epoch': 10.41}
 65%|██████▌   | 241800/371472 [8:12:29<9:49:30,  3.67it/s] 65%|██████▌   | 241801/371472 [8:12:29<9:39:50,  3.73it/s] 65%|██████▌   | 241802/371472 [8:12:29<9:56:30,  3.62it/s] 65%|██████▌   | 241803/371472 [8:12:29<9:36:55,  3.75it/s] 65%|██████▌   | 241804/371472 [8:12:30<9:48:18,  3.67it/s] 65%|██████▌   | 241805/371472 [8:12:30<10:14:51,  3.51it/s] 65%|██████▌   | 241806/371472 [8:12:30<10:01:02,  3.60it/s] 65%|██████▌   | 241807/371472 [8:12:31<10:21:45,  3.48it/s] 65%|██████▌   | 241808/371472 [8:12:31<10:42:46,  3.36it/s] 65%|██████▌   | 241809/371472 [8:12:31<10:31:40,  3.42it/s] 65%|██████▌   | 241810/371472 [8:12:31<10:12:30,  3.53it/s] 65%|██████▌   | 241811/371472 [8:12:32<10:08:19,  3.55it/s] 65%|██████▌   | 241812/371472 [8:12:32<10:02:46,  3.59it/s] 65%|██████▌   | 241813/371472 [8:12:32<10:01:53,  3.59it/s] 65%|██████▌   | 241814/371472 [8:12:32<9:34:30,  3.76it/s]  65%|██████▌   | 241815/371472 [8:12:33<9:55:51,  3.63it/s] 65%|██████▌   | 241816/371472 [8:12:33<9:52:44,  3.65it/s] 65%|██████▌   | 241817/371472 [8:12:33<9:39:26,  3.73it/s] 65%|██████▌   | 241818/371472 [8:12:34<9:43:01,  3.71it/s] 65%|██████▌   | 241819/371472 [8:12:34<9:38:27,  3.74it/s] 65%|██████▌   | 241820/371472 [8:12:34<9:33:07,  3.77it/s]                                                           {'loss': 2.757, 'learning_rate': 4.142892542394794e-07, 'epoch': 10.42}
 65%|██████▌   | 241820/371472 [8:12:34<9:33:07,  3.77it/s] 65%|██████▌   | 241821/371472 [8:12:34<10:54:52,  3.30it/s] 65%|██████▌   | 241822/371472 [8:12:35<11:29:17,  3.13it/s] 65%|██████▌   | 241823/371472 [8:12:35<10:55:08,  3.30it/s] 65%|██████▌   | 241824/371472 [8:12:35<10:19:57,  3.49it/s] 65%|██████▌   | 241825/371472 [8:12:36<9:44:16,  3.70it/s]  65%|██████▌   | 241826/371472 [8:12:36<9:55:03,  3.63it/s] 65%|██████▌   | 241827/371472 [8:12:36<9:40:18,  3.72it/s] 65%|██████▌   | 241828/371472 [8:12:36<9:23:39,  3.83it/s] 65%|██████▌   | 241829/371472 [8:12:37<9:22:30,  3.84it/s] 65%|██████▌   | 241830/371472 [8:12:37<9:22:59,  3.84it/s] 65%|██████▌   | 241831/371472 [8:12:37<9:13:43,  3.90it/s] 65%|██████▌   | 241832/371472 [8:12:37<9:36:03,  3.75it/s] 65%|██████▌   | 241833/371472 [8:12:38<9:53:31,  3.64it/s] 65%|██████▌   | 241834/371472 [8:12:38<9:55:03,  3.63it/s] 65%|██████▌   | 241835/371472 [8:12:38<9:45:57,  3.69it/s] 65%|██████▌   | 241836/371472 [8:12:39<9:38:59,  3.73it/s] 65%|██████▌   | 241837/371472 [8:12:39<9:56:44,  3.62it/s] 65%|██████▌   | 241838/371472 [8:12:39<9:50:15,  3.66it/s] 65%|██████▌   | 241839/371472 [8:12:39<10:22:56,  3.47it/s] 65%|██████▌   | 241840/371472 [8:12:40<10:09:17,  3.55it/s]                                                            {'loss': 3.0161, 'learning_rate': 4.142407722640005e-07, 'epoch': 10.42}
 65%|██████▌   | 241840/371472 [8:12:40<10:09:17,  3.55it/s] 65%|██████▌   | 241841/371472 [8:12:40<10:50:28,  3.32it/s] 65%|██████▌   | 241842/371472 [8:12:40<10:28:15,  3.44it/s] 65%|██████▌   | 241843/371472 [8:12:41<11:21:55,  3.17it/s] 65%|██████▌   | 241844/371472 [8:12:41<11:11:59,  3.22it/s] 65%|██████▌   | 241845/371472 [8:12:41<10:41:42,  3.37it/s] 65%|██████▌   | 241846/371472 [8:12:42<10:46:42,  3.34it/s] 65%|██████▌   | 241847/371472 [8:12:42<10:44:30,  3.35it/s] 65%|██████▌   | 241848/371472 [8:12:42<10:12:10,  3.53it/s] 65%|██████▌   | 241849/371472 [8:12:42<10:06:44,  3.56it/s] 65%|██████▌   | 241850/371472 [8:12:43<9:50:59,  3.66it/s]  65%|██████▌   | 241851/371472 [8:12:43<9:41:42,  3.71it/s] 65%|██████▌   | 241852/371472 [8:12:43<9:37:55,  3.74it/s] 65%|██████▌   | 241853/371472 [8:12:43<9:34:50,  3.76it/s] 65%|██████▌   | 241854/371472 [8:12:44<9:08:52,  3.94it/s] 65%|██████▌   | 241855/371472 [8:12:44<9:27:08,  3.81it/s] 65%|██████▌   | 241856/371472 [8:12:44<9:09:53,  3.93it/s] 65%|██████▌   | 241857/371472 [8:12:44<9:11:43,  3.92it/s] 65%|██████▌   | 241858/371472 [8:12:45<9:16:39,  3.88it/s] 65%|██████▌   | 241859/371472 [8:12:45<9:30:53,  3.78it/s] 65%|██████▌   | 241860/371472 [8:12:45<10:18:15,  3.49it/s]                                                            {'loss': 2.9097, 'learning_rate': 4.141922902885216e-07, 'epoch': 10.42}
 65%|██████▌   | 241860/371472 [8:12:45<10:18:15,  3.49it/s] 65%|██████▌   | 241861/371472 [8:12:46<11:41:52,  3.08it/s] 65%|██████▌   | 241862/371472 [8:12:46<10:50:02,  3.32it/s] 65%|██████▌   | 241863/371472 [8:12:46<10:12:12,  3.53it/s] 65%|██████▌   | 241864/371472 [8:12:46<10:27:36,  3.44it/s] 65%|██████▌   | 241865/371472 [8:12:47<9:57:47,  3.61it/s]  65%|██████▌   | 241866/371472 [8:12:47<10:03:12,  3.58it/s] 65%|██████▌   | 241867/371472 [8:12:47<9:49:17,  3.67it/s]  65%|██████▌   | 241868/371472 [8:12:48<10:06:41,  3.56it/s] 65%|██████▌   | 241869/371472 [8:12:48<10:22:36,  3.47it/s] 65%|██████▌   | 241870/371472 [8:12:48<10:15:15,  3.51it/s] 65%|██████▌   | 241871/371472 [8:12:48<9:48:18,  3.67it/s]  65%|██████▌   | 241872/371472 [8:12:49<9:30:10,  3.79it/s] 65%|██████▌   | 241873/371472 [8:12:49<9:20:09,  3.86it/s] 65%|██████▌   | 241874/371472 [8:12:49<9:42:02,  3.71it/s] 65%|██████▌   | 241875/371472 [8:12:49<9:23:46,  3.83it/s] 65%|██████▌   | 241876/371472 [8:12:50<9:44:06,  3.70it/s] 65%|██████▌   | 241877/371472 [8:12:50<9:35:13,  3.75it/s] 65%|██████▌   | 241878/371472 [8:12:50<9:23:22,  3.83it/s] 65%|██████▌   | 241879/371472 [8:12:50<9:20:42,  3.85it/s] 65%|██████▌   | 241880/371472 [8:12:51<9:17:57,  3.87it/s]                                                           {'loss': 2.9386, 'learning_rate': 4.1414380831304275e-07, 'epoch': 10.42}
 65%|██████▌   | 241880/371472 [8:12:51<9:17:57,  3.87it/s] 65%|██████▌   | 241881/371472 [8:12:51<10:02:53,  3.58it/s] 65%|██████▌   | 241882/371472 [8:12:51<9:37:02,  3.74it/s]  65%|██████▌   | 241883/371472 [8:12:52<9:34:36,  3.76it/s] 65%|██████▌   | 241884/371472 [8:12:52<9:33:11,  3.77it/s] 65%|██████▌   | 241885/371472 [8:12:52<9:51:50,  3.65it/s] 65%|██████▌   | 241886/371472 [8:12:52<9:33:39,  3.76it/s] 65%|██████▌   | 241887/371472 [8:12:53<9:30:08,  3.79it/s] 65%|██████▌   | 241888/371472 [8:12:53<9:48:39,  3.67it/s] 65%|██████▌   | 241889/371472 [8:12:53<10:04:16,  3.57it/s] 65%|██████▌   | 241890/371472 [8:12:53<10:01:41,  3.59it/s] 65%|██████▌   | 241891/371472 [8:12:54<10:09:22,  3.54it/s] 65%|██████▌   | 241892/371472 [8:12:54<10:29:08,  3.43it/s] 65%|██████▌   | 241893/371472 [8:12:54<10:15:57,  3.51it/s] 65%|██████▌   | 241894/371472 [8:12:55<9:43:52,  3.70it/s]  65%|██████▌   | 241895/371472 [8:12:55<9:32:45,  3.77it/s] 65%|██████▌   | 241896/371472 [8:12:55<9:26:59,  3.81it/s] 65%|██████▌   | 241897/371472 [8:12:55<9:13:22,  3.90it/s] 65%|██████▌   | 241898/371472 [8:12:56<9:31:31,  3.78it/s] 65%|██████▌   | 241899/371472 [8:12:56<10:19:05,  3.49it/s] 65%|██████▌   | 241900/371472 [8:12:56<10:39:17,  3.38it/s]                                                            {'loss': 2.813, 'learning_rate': 4.1409532633756377e-07, 'epoch': 10.42}
 65%|██████▌   | 241900/371472 [8:12:56<10:39:17,  3.38it/s] 65%|██████▌   | 241901/371472 [8:12:57<10:31:28,  3.42it/s] 65%|██████▌   | 241902/371472 [8:12:57<10:45:36,  3.34it/s] 65%|██████▌   | 241903/371472 [8:12:57<11:32:56,  3.12it/s] 65%|██████▌   | 241904/371472 [8:12:58<10:52:02,  3.31it/s] 65%|██████▌   | 241905/371472 [8:12:58<10:37:59,  3.38it/s] 65%|██████▌   | 241906/371472 [8:12:58<10:42:34,  3.36it/s] 65%|██████▌   | 241907/371472 [8:12:58<10:32:28,  3.41it/s] 65%|██████▌   | 241908/371472 [8:12:59<10:32:27,  3.41it/s] 65%|██████▌   | 241909/371472 [8:12:59<10:08:35,  3.55it/s] 65%|██████▌   | 241910/371472 [8:12:59<10:01:48,  3.59it/s] 65%|██████▌   | 241911/371472 [8:12:59<9:44:54,  3.69it/s]  65%|██████▌   | 241912/371472 [8:13:00<9:35:49,  3.75it/s] 65%|██████▌   | 241913/371472 [8:13:00<10:04:09,  3.57it/s] 65%|██████▌   | 241914/371472 [8:13:00<10:01:22,  3.59it/s] 65%|██████▌   | 241915/371472 [8:13:01<9:48:19,  3.67it/s]  65%|██████▌   | 241916/371472 [8:13:01<9:47:49,  3.67it/s] 65%|██████▌   | 241917/371472 [8:13:01<9:37:34,  3.74it/s] 65%|██████▌   | 241918/371472 [8:13:01<9:40:19,  3.72it/s] 65%|██████▌   | 241919/371472 [8:13:02<10:07:59,  3.55it/s] 65%|██████▌   | 241920/371472 [8:13:02<10:09:51,  3.54it/s]                                                            {'loss': 2.9615, 'learning_rate': 4.140468443620849e-07, 'epoch': 10.42}
 65%|██████▌   | 241920/371472 [8:13:02<10:09:51,  3.54it/s] 65%|██████▌   | 241921/371472 [8:13:02<9:46:40,  3.68it/s]  65%|██████▌   | 241922/371472 [8:13:02<9:23:05,  3.83it/s] 65%|██████▌   | 241923/371472 [8:13:03<9:22:50,  3.84it/s] 65%|██████▌   | 241924/371472 [8:13:03<9:32:09,  3.77it/s] 65%|██████▌   | 241925/371472 [8:13:03<10:02:57,  3.58it/s] 65%|██████▌   | 241926/371472 [8:13:04<9:59:29,  3.60it/s]  65%|██████▌   | 241927/371472 [8:13:04<10:09:47,  3.54it/s] 65%|██████▌   | 241928/371472 [8:13:04<10:28:24,  3.44it/s] 65%|██████▌   | 241929/371472 [8:13:04<10:23:30,  3.46it/s] 65%|██████▌   | 241930/371472 [8:13:05<11:16:54,  3.19it/s] 65%|██████▌   | 241931/371472 [8:13:05<11:56:42,  3.01it/s] 65%|██████▌   | 241932/371472 [8:13:05<11:16:31,  3.19it/s] 65%|██████▌   | 241933/371472 [8:13:06<11:14:16,  3.20it/s] 65%|██████▌   | 241934/371472 [8:13:06<10:55:09,  3.30it/s] 65%|██████▌   | 241935/371472 [8:13:06<10:19:48,  3.48it/s] 65%|██████▌   | 241936/371472 [8:13:07<10:39:47,  3.37it/s] 65%|██████▌   | 241937/371472 [8:13:07<10:26:07,  3.45it/s] 65%|██████▌   | 241938/371472 [8:13:07<10:12:48,  3.52it/s] 65%|██████▌   | 241939/371472 [8:13:08<10:57:17,  3.28it/s] 65%|██████▌   | 241940/371472 [8:13:08<10:22:56,  3.47it/s]                                                            {'loss': 2.7823, 'learning_rate': 4.13998362386606e-07, 'epoch': 10.42}
 65%|██████▌   | 241940/371472 [8:13:08<10:22:56,  3.47it/s] 65%|██████▌   | 241941/371472 [8:13:08<9:59:10,  3.60it/s]  65%|██████▌   | 241942/371472 [8:13:08<10:19:31,  3.48it/s] 65%|██████▌   | 241943/371472 [8:13:09<10:30:03,  3.43it/s] 65%|██████▌   | 241944/371472 [8:13:09<10:31:36,  3.42it/s] 65%|██████▌   | 241945/371472 [8:13:09<10:15:46,  3.51it/s] 65%|██████▌   | 241946/371472 [8:13:10<11:44:04,  3.07it/s] 65%|██████▌   | 241947/371472 [8:13:10<10:54:13,  3.30it/s] 65%|██████▌   | 241948/371472 [8:13:10<10:28:19,  3.44it/s] 65%|██████▌   | 241949/371472 [8:13:10<9:53:28,  3.64it/s]  65%|██████▌   | 241950/371472 [8:13:11<9:37:21,  3.74it/s] 65%|██████▌   | 241951/371472 [8:13:11<9:56:20,  3.62it/s] 65%|██████▌   | 241952/371472 [8:13:11<9:35:06,  3.75it/s] 65%|██████▌   | 241953/371472 [8:13:11<9:24:17,  3.83it/s] 65%|██████▌   | 241954/371472 [8:13:12<9:34:39,  3.76it/s] 65%|██████▌   | 241955/371472 [8:13:12<10:00:34,  3.59it/s] 65%|██████▌   | 241956/371472 [8:13:12<9:35:01,  3.75it/s]  65%|██████▌   | 241957/371472 [8:13:12<9:28:54,  3.79it/s] 65%|██████▌   | 241958/371472 [8:13:13<9:55:45,  3.62it/s] 65%|██████▌   | 241959/371472 [8:13:13<9:31:48,  3.77it/s] 65%|██████▌   | 241960/371472 [8:13:13<9:33:32,  3.76it/s]                                                           {'loss': 3.1021, 'learning_rate': 4.1394988041112715e-07, 'epoch': 10.42}
 65%|██████▌   | 241960/371472 [8:13:13<9:33:32,  3.76it/s] 65%|██████▌   | 241961/371472 [8:13:14<9:19:01,  3.86it/s] 65%|██████▌   | 241962/371472 [8:13:14<9:12:32,  3.91it/s] 65%|██████▌   | 241963/371472 [8:13:14<9:13:00,  3.90it/s] 65%|██████▌   | 241964/371472 [8:13:14<10:06:34,  3.56it/s] 65%|██████▌   | 241965/371472 [8:13:15<9:57:26,  3.61it/s]  65%|██████▌   | 241966/371472 [8:13:15<10:08:59,  3.54it/s] 65%|██████▌   | 241967/371472 [8:13:15<10:01:40,  3.59it/s] 65%|██████▌   | 241968/371472 [8:13:16<11:33:35,  3.11it/s] 65%|██████▌   | 241969/371472 [8:13:16<11:16:53,  3.19it/s] 65%|██████▌   | 241970/371472 [8:13:16<10:33:28,  3.41it/s] 65%|██████▌   | 241971/371472 [8:13:16<9:54:02,  3.63it/s]  65%|██████▌   | 241972/371472 [8:13:17<9:45:03,  3.69it/s] 65%|██████▌   | 241973/371472 [8:13:17<9:49:21,  3.66it/s] 65%|██████▌   | 241974/371472 [8:13:17<9:40:06,  3.72it/s] 65%|██████▌   | 241975/371472 [8:13:17<9:57:10,  3.61it/s] 65%|██████▌   | 241976/371472 [8:13:18<9:53:23,  3.64it/s] 65%|██████▌   | 241977/371472 [8:13:18<10:06:23,  3.56it/s] 65%|██████▌   | 241978/371472 [8:13:18<10:30:14,  3.42it/s] 65%|██████▌   | 241979/371472 [8:13:19<10:18:02,  3.49it/s] 65%|██████▌   | 241980/371472 [8:13:19<10:13:37,  3.52it/s]                                                            {'loss': 2.7084, 'learning_rate': 4.139013984356482e-07, 'epoch': 10.42}
 65%|██████▌   | 241980/371472 [8:13:19<10:13:37,  3.52it/s] 65%|██████▌   | 241981/371472 [8:13:19<10:11:39,  3.53it/s] 65%|██████▌   | 241982/371472 [8:13:19<10:11:47,  3.53it/s] 65%|██████▌   | 241983/371472 [8:13:20<9:42:44,  3.70it/s]  65%|██████▌   | 241984/371472 [8:13:20<9:25:36,  3.82it/s] 65%|██████▌   | 241985/371472 [8:13:20<10:07:07,  3.55it/s] 65%|██████▌   | 241986/371472 [8:13:21<10:33:31,  3.41it/s] 65%|██████▌   | 241987/371472 [8:13:21<10:32:12,  3.41it/s] 65%|██████▌   | 241988/371472 [8:13:21<10:18:21,  3.49it/s] 65%|██████▌   | 241989/371472 [8:13:21<10:10:50,  3.53it/s] 65%|██████▌   | 241990/371472 [8:13:22<10:20:26,  3.48it/s] 65%|██████▌   | 241991/371472 [8:13:22<9:43:42,  3.70it/s]  65%|██████▌   | 241992/371472 [8:13:22<10:00:53,  3.59it/s] 65%|██████▌   | 241993/371472 [8:13:23<9:47:25,  3.67it/s]  65%|██████▌   | 241994/371472 [8:13:23<10:32:06,  3.41it/s] 65%|██████▌   | 241995/371472 [8:13:23<10:43:51,  3.35it/s] 65%|██████▌   | 241996/371472 [8:13:24<11:17:27,  3.19it/s] 65%|██████▌   | 241997/371472 [8:13:24<10:46:21,  3.34it/s] 65%|██████▌   | 241998/371472 [8:13:24<10:26:01,  3.45it/s] 65%|██████▌   | 241999/371472 [8:13:24<10:04:41,  3.57it/s] 65%|██████▌   | 242000/371472 [8:13:25<9:37:08,  3.74it/s]                                                            {'loss': 2.8578, 'learning_rate': 4.138529164601694e-07, 'epoch': 10.42}
 65%|██████▌   | 242000/371472 [8:13:25<9:37:08,  3.74it/s] 65%|██████▌   | 242001/371472 [8:13:25<10:03:53,  3.57it/s] 65%|██████▌   | 242002/371472 [8:13:25<10:02:02,  3.58it/s] 65%|██████▌   | 242003/371472 [8:13:25<10:23:27,  3.46it/s] 65%|██████▌   | 242004/371472 [8:13:26<11:17:27,  3.19it/s] 65%|██████▌   | 242005/371472 [8:13:26<11:21:17,  3.17it/s] 65%|██████▌   | 242006/371472 [8:13:26<10:45:41,  3.34it/s] 65%|██████▌   | 242007/371472 [8:13:27<10:19:47,  3.48it/s] 65%|██████▌   | 242008/371472 [8:13:27<10:46:15,  3.34it/s] 65%|██████▌   | 242009/371472 [8:13:27<10:26:44,  3.44it/s] 65%|██████▌   | 242010/371472 [8:13:28<10:18:04,  3.49it/s] 65%|██████▌   | 242011/371472 [8:13:28<10:01:52,  3.58it/s] 65%|██████▌   | 242012/371472 [8:13:28<9:53:31,  3.64it/s]  65%|██████▌   | 242013/371472 [8:13:28<10:45:45,  3.34it/s] 65%|██████▌   | 242014/371472 [8:13:29<10:04:39,  3.57it/s] 65%|██████▌   | 242015/371472 [8:13:29<9:48:46,  3.66it/s]  65%|██████▌   | 242016/371472 [8:13:29<10:14:49,  3.51it/s] 65%|██████▌   | 242017/371472 [8:13:30<10:29:40,  3.43it/s] 65%|██████▌   | 242018/371472 [8:13:30<10:19:34,  3.48it/s] 65%|██████▌   | 242019/371472 [8:13:30<10:21:59,  3.47it/s] 65%|██████▌   | 242020/371472 [8:13:30<9:55:19,  3.62it/s]                                                            {'loss': 2.7607, 'learning_rate': 4.1380443448469047e-07, 'epoch': 10.42}
 65%|██████▌   | 242020/371472 [8:13:30<9:55:19,  3.62it/s] 65%|██████▌   | 242021/371472 [8:13:31<9:23:19,  3.83it/s] 65%|██████▌   | 242022/371472 [8:13:31<9:15:44,  3.88it/s] 65%|██████▌   | 242023/371472 [8:13:31<9:46:24,  3.68it/s] 65%|██████▌   | 242024/371472 [8:13:31<9:33:40,  3.76it/s] 65%|██████▌   | 242025/371472 [8:13:32<9:21:18,  3.84it/s] 65%|██████▌   | 242026/371472 [8:13:32<9:15:10,  3.89it/s] 65%|██████▌   | 242027/371472 [8:13:32<10:13:58,  3.51it/s] 65%|██████▌   | 242028/371472 [8:13:33<10:15:09,  3.51it/s] 65%|██████▌   | 242029/371472 [8:13:33<9:53:10,  3.64it/s]  65%|██████▌   | 242030/371472 [8:13:33<9:56:50,  3.61it/s] 65%|██████▌   | 242031/371472 [8:13:33<9:49:06,  3.66it/s] 65%|██████▌   | 242032/371472 [8:13:34<9:37:54,  3.73it/s] 65%|██████▌   | 242033/371472 [8:13:34<9:32:16,  3.77it/s] 65%|██████▌   | 242034/371472 [8:13:34<11:21:16,  3.17it/s] 65%|██████▌   | 242035/371472 [8:13:35<11:43:01,  3.07it/s] 65%|██████▌   | 242036/371472 [8:13:35<10:40:08,  3.37it/s] 65%|██████▌   | 242037/371472 [8:13:35<10:17:35,  3.49it/s] 65%|██████▌   | 242038/371472 [8:13:35<10:24:00,  3.46it/s] 65%|██████▌   | 242039/371472 [8:13:36<10:51:46,  3.31it/s] 65%|██████▌   | 242040/371472 [8:13:36<10:53:50,  3.30it/s]                                                            {'loss': 2.9652, 'learning_rate': 4.137559525092116e-07, 'epoch': 10.43}
 65%|██████▌   | 242040/371472 [8:13:36<10:53:50,  3.30it/s] 65%|██████▌   | 242041/371472 [8:13:36<10:39:52,  3.37it/s] 65%|██████▌   | 242042/371472 [8:13:37<10:00:18,  3.59it/s] 65%|██████▌   | 242043/371472 [8:13:37<9:56:31,  3.62it/s]  65%|██████▌   | 242044/371472 [8:13:37<9:34:27,  3.76it/s] 65%|██████▌   | 242045/371472 [8:13:37<9:17:18,  3.87it/s] 65%|██████▌   | 242046/371472 [8:13:38<9:11:38,  3.91it/s] 65%|██████▌   | 242047/371472 [8:13:38<9:36:09,  3.74it/s] 65%|██████▌   | 242048/371472 [8:13:38<10:17:11,  3.49it/s] 65%|██████▌   | 242049/371472 [8:13:39<10:24:01,  3.46it/s] 65%|██████▌   | 242050/371472 [8:13:39<10:11:37,  3.53it/s] 65%|██████▌   | 242051/371472 [8:13:39<10:03:13,  3.58it/s] 65%|██████▌   | 242052/371472 [8:13:39<9:39:34,  3.72it/s]  65%|██████▌   | 242053/371472 [8:13:40<9:20:01,  3.85it/s] 65%|██████▌   | 242054/371472 [8:13:40<9:34:45,  3.75it/s] 65%|██████▌   | 242055/371472 [8:13:40<9:21:18,  3.84it/s] 65%|██████▌   | 242056/371472 [8:13:40<9:24:48,  3.82it/s] 65%|██████▌   | 242057/371472 [8:13:41<9:15:36,  3.88it/s] 65%|██████▌   | 242058/371472 [8:13:41<9:34:07,  3.76it/s] 65%|██████▌   | 242059/371472 [8:13:41<9:30:54,  3.78it/s] 65%|██████▌   | 242060/371472 [8:13:41<9:28:49,  3.79it/s]                                                           {'loss': 2.9762, 'learning_rate': 4.1370747053373266e-07, 'epoch': 10.43}
 65%|██████▌   | 242060/371472 [8:13:41<9:28:49,  3.79it/s] 65%|██████▌   | 242061/371472 [8:13:42<9:29:18,  3.79it/s] 65%|██████▌   | 242062/371472 [8:13:42<9:21:35,  3.84it/s] 65%|██████▌   | 242063/371472 [8:13:42<9:29:47,  3.79it/s] 65%|██████▌   | 242064/371472 [8:13:42<9:51:53,  3.64it/s] 65%|██████▌   | 242065/371472 [8:13:43<9:50:49,  3.65it/s] 65%|██████▌   | 242066/371472 [8:13:43<9:48:51,  3.66it/s] 65%|██████▌   | 242067/371472 [8:13:43<9:47:17,  3.67it/s] 65%|██████▌   | 242068/371472 [8:13:44<9:36:17,  3.74it/s] 65%|██████▌   | 242069/371472 [8:13:44<9:23:57,  3.82it/s] 65%|██████▌   | 242070/371472 [8:13:44<9:09:05,  3.93it/s] 65%|██████▌   | 242071/371472 [8:13:44<9:03:10,  3.97it/s] 65%|██████▌   | 242072/371472 [8:13:45<9:13:32,  3.90it/s] 65%|██████▌   | 242073/371472 [8:13:45<10:21:10,  3.47it/s] 65%|██████▌   | 242074/371472 [8:13:45<10:13:30,  3.52it/s] 65%|██████▌   | 242075/371472 [8:13:45<10:26:22,  3.44it/s] 65%|██████▌   | 242076/371472 [8:13:46<10:06:18,  3.56it/s] 65%|██████▌   | 242077/371472 [8:13:46<9:47:57,  3.67it/s]  65%|██████▌   | 242078/371472 [8:13:46<9:53:05,  3.64it/s] 65%|██████▌   | 242079/371472 [8:13:47<9:48:29,  3.66it/s] 65%|██████▌   | 242080/371472 [8:13:47<9:50:37,  3.65it/s]                                                           {'loss': 2.7743, 'learning_rate': 4.136589885582537e-07, 'epoch': 10.43}
 65%|██████▌   | 242080/371472 [8:13:47<9:50:37,  3.65it/s] 65%|██████▌   | 242081/371472 [8:13:47<9:43:29,  3.70it/s] 65%|██████▌   | 242082/371472 [8:13:47<9:53:09,  3.64it/s] 65%|██████▌   | 242083/371472 [8:13:48<9:48:00,  3.67it/s] 65%|██████▌   | 242084/371472 [8:13:48<9:38:43,  3.73it/s] 65%|██████▌   | 242085/371472 [8:13:48<9:44:53,  3.69it/s] 65%|██████▌   | 242086/371472 [8:13:48<9:26:57,  3.80it/s] 65%|██████▌   | 242087/371472 [8:13:49<9:25:10,  3.82it/s] 65%|██████▌   | 242088/371472 [8:13:49<9:35:00,  3.75it/s] 65%|██████▌   | 242089/371472 [8:13:49<9:27:29,  3.80it/s] 65%|██████▌   | 242090/371472 [8:13:49<9:34:10,  3.76it/s] 65%|██████▌   | 242091/371472 [8:13:50<9:31:32,  3.77it/s] 65%|██████▌   | 242092/371472 [8:13:50<9:32:15,  3.77it/s] 65%|██████▌   | 242093/371472 [8:13:50<9:23:26,  3.83it/s] 65%|██████▌   | 242094/371472 [8:13:51<9:14:57,  3.89it/s] 65%|██████▌   | 242095/371472 [8:13:51<9:08:37,  3.93it/s] 65%|██████▌   | 242096/371472 [8:13:51<9:28:01,  3.80it/s] 65%|██████▌   | 242097/371472 [8:13:51<9:29:23,  3.79it/s] 65%|██████▌   | 242098/371472 [8:13:52<9:44:10,  3.69it/s] 65%|██████▌   | 242099/371472 [8:13:52<9:28:38,  3.79it/s] 65%|██████▌   | 242100/371472 [8:13:52<9:28:30,  3.79it/s]                                                           {'loss': 2.8297, 'learning_rate': 4.1361050658277486e-07, 'epoch': 10.43}
 65%|██████▌   | 242100/371472 [8:13:52<9:28:30,  3.79it/s] 65%|██████▌   | 242101/371472 [8:13:52<9:29:35,  3.79it/s] 65%|██████▌   | 242102/371472 [8:13:53<10:17:45,  3.49it/s] 65%|██████▌   | 242103/371472 [8:13:53<9:45:52,  3.68it/s]  65%|██████▌   | 242104/371472 [8:13:53<9:27:43,  3.80it/s] 65%|██████▌   | 242105/371472 [8:13:53<9:14:49,  3.89it/s] 65%|██████▌   | 242106/371472 [8:13:54<9:29:32,  3.79it/s] 65%|██████▌   | 242107/371472 [8:13:54<9:15:20,  3.88it/s] 65%|██████▌   | 242108/371472 [8:13:54<10:02:26,  3.58it/s] 65%|██████▌   | 242109/371472 [8:13:55<10:03:50,  3.57it/s] 65%|██████▌   | 242110/371472 [8:13:55<10:16:05,  3.50it/s] 65%|██████▌   | 242111/371472 [8:13:55<10:21:29,  3.47it/s] 65%|██████▌   | 242112/371472 [8:13:55<10:03:40,  3.57it/s] 65%|██████▌   | 242113/371472 [8:13:56<9:41:14,  3.71it/s]  65%|██████▌   | 242114/371472 [8:13:56<11:52:06,  3.03it/s] 65%|██████▌   | 242115/371472 [8:13:56<11:03:29,  3.25it/s] 65%|██████▌   | 242116/371472 [8:13:57<10:28:12,  3.43it/s] 65%|██████▌   | 242117/371472 [8:13:57<10:21:07,  3.47it/s] 65%|██████▌   | 242118/371472 [8:13:57<10:45:59,  3.34it/s] 65%|██████▌   | 242119/371472 [8:13:58<10:32:03,  3.41it/s] 65%|██████▌   | 242120/371472 [8:13:58<10:00:57,  3.59it/s]                                                            {'loss': 3.0978, 'learning_rate': 4.1356202460729593e-07, 'epoch': 10.43}
 65%|██████▌   | 242120/371472 [8:13:58<10:00:57,  3.59it/s] 65%|██████▌   | 242121/371472 [8:13:58<10:21:01,  3.47it/s] 65%|██████▌   | 242122/371472 [8:13:58<10:16:02,  3.50it/s] 65%|██████▌   | 242123/371472 [8:13:59<10:09:49,  3.54it/s] 65%|██████▌   | 242124/371472 [8:13:59<9:35:30,  3.75it/s]  65%|██████▌   | 242125/371472 [8:13:59<9:53:11,  3.63it/s] 65%|██████▌   | 242126/371472 [8:13:59<10:30:48,  3.42it/s] 65%|██████▌   | 242127/371472 [8:14:00<9:54:44,  3.62it/s]  65%|██████▌   | 242128/371472 [8:14:00<9:50:37,  3.65it/s] 65%|██████▌   | 242129/371472 [8:14:00<10:52:22,  3.30it/s] 65%|██████▌   | 242130/371472 [8:14:01<10:12:38,  3.52it/s] 65%|██████▌   | 242131/371472 [8:14:01<10:56:00,  3.29it/s] 65%|██████▌   | 242132/371472 [8:14:01<10:54:16,  3.29it/s] 65%|██████▌   | 242133/371472 [8:14:02<11:30:32,  3.12it/s] 65%|██████▌   | 242134/371472 [8:14:02<10:53:05,  3.30it/s] 65%|██████▌   | 242135/371472 [8:14:02<10:21:53,  3.47it/s] 65%|██████▌   | 242136/371472 [8:14:03<11:55:24,  3.01it/s] 65%|██████▌   | 242137/371472 [8:14:03<11:06:08,  3.24it/s] 65%|██████▌   | 242138/371472 [8:14:03<11:05:23,  3.24it/s] 65%|██████▌   | 242139/371472 [8:14:03<11:01:13,  3.26it/s] 65%|██████▌   | 242140/371472 [8:14:04<10:31:01,  3.42it/s]                                                            {'loss': 2.9973, 'learning_rate': 4.135135426318171e-07, 'epoch': 10.43}
 65%|██████▌   | 242140/371472 [8:14:04<10:31:01,  3.42it/s] 65%|██████▌   | 242141/371472 [8:14:04<10:21:02,  3.47it/s] 65%|██████▌   | 242142/371472 [8:14:04<9:58:27,  3.60it/s]  65%|██████▌   | 242143/371472 [8:14:04<9:33:51,  3.76it/s] 65%|██████▌   | 242144/371472 [8:14:05<9:39:50,  3.72it/s] 65%|██████▌   | 242145/371472 [8:14:05<9:34:22,  3.75it/s] 65%|██████▌   | 242146/371472 [8:14:05<9:32:47,  3.76it/s] 65%|██████▌   | 242147/371472 [8:14:06<10:09:29,  3.54it/s] 65%|██████▌   | 242148/371472 [8:14:06<10:26:53,  3.44it/s] 65%|██████▌   | 242149/371472 [8:14:06<10:04:07,  3.57it/s] 65%|██████▌   | 242150/371472 [8:14:06<10:12:01,  3.52it/s] 65%|██████▌   | 242151/371472 [8:14:07<10:38:23,  3.38it/s] 65%|██████▌   | 242152/371472 [8:14:07<12:26:09,  2.89it/s] 65%|██████▌   | 242153/371472 [8:14:08<12:18:24,  2.92it/s] 65%|██████▌   | 242154/371472 [8:14:08<12:08:48,  2.96it/s] 65%|██████▌   | 242155/371472 [8:14:08<11:53:27,  3.02it/s] 65%|██████▌   | 242156/371472 [8:14:09<11:28:01,  3.13it/s] 65%|██████▌   | 242157/371472 [8:14:09<11:06:27,  3.23it/s] 65%|██████▌   | 242158/371472 [8:14:09<10:56:57,  3.28it/s] 65%|██████▌   | 242159/371472 [8:14:09<10:13:42,  3.51it/s] 65%|██████▌   | 242160/371472 [8:14:10<10:19:22,  3.48it/s]                                                            {'loss': 2.7198, 'learning_rate': 4.134650606563381e-07, 'epoch': 10.43}
 65%|██████▌   | 242160/371472 [8:14:10<10:19:22,  3.48it/s] 65%|██████▌   | 242161/371472 [8:14:10<9:42:29,  3.70it/s]  65%|██████▌   | 242162/371472 [8:14:10<10:01:41,  3.58it/s] 65%|██████▌   | 242163/371472 [8:14:10<9:51:26,  3.64it/s]  65%|██████▌   | 242164/371472 [8:14:11<9:55:46,  3.62it/s] 65%|██████▌   | 242165/371472 [8:14:11<9:32:26,  3.76it/s] 65%|██████▌   | 242166/371472 [8:14:11<9:24:20,  3.82it/s] 65%|██████▌   | 242167/371472 [8:14:11<9:57:45,  3.61it/s] 65%|██████▌   | 242168/371472 [8:14:12<9:56:32,  3.61it/s] 65%|██████▌   | 242169/371472 [8:14:12<9:39:45,  3.72it/s] 65%|██████▌   | 242170/371472 [8:14:12<9:20:03,  3.85it/s] 65%|██████▌   | 242171/371472 [8:14:13<9:30:52,  3.77it/s] 65%|██████▌   | 242172/371472 [8:14:13<9:40:01,  3.72it/s] 65%|██████▌   | 242173/371472 [8:14:13<9:28:31,  3.79it/s] 65%|██████▌   | 242174/371472 [8:14:13<9:55:11,  3.62it/s] 65%|██████▌   | 242175/371472 [8:14:14<10:31:35,  3.41it/s] 65%|██████▌   | 242176/371472 [8:14:14<10:31:49,  3.41it/s] 65%|██████▌   | 242177/371472 [8:14:14<10:03:22,  3.57it/s] 65%|██████▌   | 242178/371472 [8:14:15<10:05:22,  3.56it/s] 65%|██████▌   | 242179/371472 [8:14:15<10:19:18,  3.48it/s] 65%|██████▌   | 242180/371472 [8:14:15<10:00:55,  3.59it/s]                                                            {'loss': 2.8513, 'learning_rate': 4.134165786808593e-07, 'epoch': 10.43}
 65%|██████▌   | 242180/371472 [8:14:15<10:00:55,  3.59it/s] 65%|██████▌   | 242181/371472 [8:14:15<10:11:27,  3.52it/s] 65%|██████▌   | 242182/371472 [8:14:16<10:07:38,  3.55it/s] 65%|██████▌   | 242183/371472 [8:14:16<10:05:45,  3.56it/s] 65%|██████▌   | 242184/371472 [8:14:16<10:16:16,  3.50it/s] 65%|██████▌   | 242185/371472 [8:14:17<10:26:27,  3.44it/s] 65%|██████▌   | 242186/371472 [8:14:17<11:17:29,  3.18it/s] 65%|██████▌   | 242187/371472 [8:14:17<10:41:29,  3.36it/s] 65%|██████▌   | 242188/371472 [8:14:17<10:47:40,  3.33it/s] 65%|██████▌   | 242189/371472 [8:14:18<10:18:58,  3.48it/s] 65%|██████▌   | 242190/371472 [8:14:18<10:43:53,  3.35it/s] 65%|██████▌   | 242191/371472 [8:14:18<10:51:56,  3.31it/s] 65%|██████▌   | 242192/371472 [8:14:19<10:41:18,  3.36it/s] 65%|██████▌   | 242193/371472 [8:14:19<10:13:38,  3.51it/s] 65%|██████▌   | 242194/371472 [8:14:19<9:56:21,  3.61it/s]  65%|██████▌   | 242195/371472 [8:14:20<11:44:35,  3.06it/s] 65%|██████▌   | 242196/371472 [8:14:20<11:11:59,  3.21it/s] 65%|██████▌   | 242197/371472 [8:14:20<10:39:11,  3.37it/s] 65%|██████▌   | 242198/371472 [8:14:20<10:19:59,  3.48it/s] 65%|██████▌   | 242199/371472 [8:14:21<9:48:16,  3.66it/s]  65%|██████▌   | 242200/371472 [8:14:21<9:52:44,  3.63it/s]                                                           {'loss': 2.6429, 'learning_rate': 4.133680967053804e-07, 'epoch': 10.43}
 65%|██████▌   | 242200/371472 [8:14:21<9:52:44,  3.63it/s] 65%|██████▌   | 242201/371472 [8:14:21<10:01:56,  3.58it/s] 65%|██████▌   | 242202/371472 [8:14:21<9:45:23,  3.68it/s]  65%|██████▌   | 242203/371472 [8:14:22<9:52:33,  3.64it/s] 65%|██████▌   | 242204/371472 [8:14:22<9:53:53,  3.63it/s] 65%|██████▌   | 242205/371472 [8:14:22<9:38:00,  3.73it/s] 65%|██████▌   | 242206/371472 [8:14:23<9:52:35,  3.64it/s] 65%|██████▌   | 242207/371472 [8:14:23<10:07:17,  3.55it/s] 65%|██████▌   | 242208/371472 [8:14:23<10:15:12,  3.50it/s] 65%|██████▌   | 242209/371472 [8:14:23<10:01:48,  3.58it/s] 65%|██████▌   | 242210/371472 [8:14:24<9:36:44,  3.74it/s]  65%|██████▌   | 242211/371472 [8:14:24<10:04:29,  3.56it/s] 65%|██████▌   | 242212/371472 [8:14:24<9:32:55,  3.76it/s]  65%|██████▌   | 242213/371472 [8:14:24<9:16:23,  3.87it/s] 65%|██████▌   | 242214/371472 [8:14:25<9:16:05,  3.87it/s] 65%|██████▌   | 242215/371472 [8:14:25<9:15:28,  3.88it/s] 65%|██████▌   | 242216/371472 [8:14:25<9:58:55,  3.60it/s] 65%|██████▌   | 242217/371472 [8:14:26<9:37:32,  3.73it/s] 65%|██████▌   | 242218/371472 [8:14:26<9:20:34,  3.84it/s] 65%|██████▌   | 242219/371472 [8:14:26<9:41:32,  3.70it/s] 65%|██████▌   | 242220/371472 [8:14:26<9:25:54,  3.81it/s]                                                           {'loss': 2.9159, 'learning_rate': 4.133196147299015e-07, 'epoch': 10.43}
 65%|██████▌   | 242220/371472 [8:14:26<9:25:54,  3.81it/s] 65%|██████▌   | 242221/371472 [8:14:27<9:21:58,  3.83it/s] 65%|██████▌   | 242222/371472 [8:14:27<9:41:18,  3.71it/s] 65%|██████▌   | 242223/371472 [8:14:27<9:29:14,  3.78it/s] 65%|██████▌   | 242224/371472 [8:14:27<9:19:00,  3.85it/s] 65%|██████▌   | 242225/371472 [8:14:28<9:30:59,  3.77it/s] 65%|██████▌   | 242226/371472 [8:14:28<9:10:41,  3.91it/s] 65%|██████▌   | 242227/371472 [8:14:28<8:59:41,  3.99it/s] 65%|██████▌   | 242228/371472 [8:14:28<9:34:40,  3.75it/s] 65%|██████▌   | 242229/371472 [8:14:29<9:56:21,  3.61it/s] 65%|██████▌   | 242230/371472 [8:14:29<9:57:43,  3.60it/s] 65%|██████▌   | 242231/371472 [8:14:29<9:38:41,  3.72it/s] 65%|██████▌   | 242232/371472 [8:14:30<9:20:23,  3.84it/s] 65%|██████▌   | 242233/371472 [8:14:30<9:10:06,  3.92it/s] 65%|██████▌   | 242234/371472 [8:14:30<9:10:54,  3.91it/s] 65%|██████▌   | 242235/371472 [8:14:30<8:54:14,  4.03it/s] 65%|██████▌   | 242236/371472 [8:14:31<9:24:28,  3.82it/s] 65%|██████▌   | 242237/371472 [8:14:31<9:12:14,  3.90it/s] 65%|██████▌   | 242238/371472 [8:14:31<9:15:30,  3.88it/s] 65%|██████▌   | 242239/371472 [8:14:31<9:14:36,  3.88it/s] 65%|██████▌   | 242240/371472 [8:14:32<9:02:24,  3.97it/s]                                                           {'loss': 2.8527, 'learning_rate': 4.1327113275442257e-07, 'epoch': 10.43}
 65%|██████▌   | 242240/371472 [8:14:32<9:02:24,  3.97it/s] 65%|██████▌   | 242241/371472 [8:14:32<8:55:53,  4.02it/s] 65%|██████▌   | 242242/371472 [8:14:32<9:12:53,  3.90it/s] 65%|██████▌   | 242243/371472 [8:14:32<9:49:01,  3.66it/s] 65%|██████▌   | 242244/371472 [8:14:33<10:03:54,  3.57it/s] 65%|██████▌   | 242245/371472 [8:14:33<9:57:40,  3.60it/s]  65%|██████▌   | 242246/371472 [8:14:33<10:10:40,  3.53it/s] 65%|██████▌   | 242247/371472 [8:14:34<10:33:56,  3.40it/s] 65%|██████▌   | 242248/371472 [8:14:34<10:11:58,  3.52it/s] 65%|██████▌   | 242249/371472 [8:14:34<9:48:50,  3.66it/s]  65%|██████▌   | 242250/371472 [8:14:34<9:48:31,  3.66it/s] 65%|██████▌   | 242251/371472 [8:14:35<9:31:25,  3.77it/s] 65%|██████▌   | 242252/371472 [8:14:35<11:35:49,  3.10it/s] 65%|██████▌   | 242253/371472 [8:14:35<11:07:15,  3.23it/s] 65%|██████▌   | 242254/371472 [8:14:36<10:43:44,  3.35it/s] 65%|██████▌   | 242255/371472 [8:14:36<10:56:00,  3.28it/s] 65%|██████▌   | 242256/371472 [8:14:36<10:47:43,  3.32it/s] 65%|██████▌   | 242257/371472 [8:14:36<10:25:30,  3.44it/s] 65%|██████▌   | 242258/371472 [8:14:37<10:16:24,  3.49it/s] 65%|██████▌   | 242259/371472 [8:14:37<11:02:05,  3.25it/s] 65%|██████▌   | 242260/371472 [8:14:37<10:29:51,  3.42it/s]                                                            {'loss': 2.8484, 'learning_rate': 4.1322265077894375e-07, 'epoch': 10.43}
 65%|██████▌   | 242260/371472 [8:14:37<10:29:51,  3.42it/s] 65%|██████▌   | 242261/371472 [8:14:38<10:05:24,  3.56it/s] 65%|██████▌   | 242262/371472 [8:14:38<9:40:34,  3.71it/s]  65%|██████▌   | 242263/371472 [8:14:38<9:18:00,  3.86it/s] 65%|██████▌   | 242264/371472 [8:14:38<9:22:57,  3.83it/s] 65%|██████▌   | 242265/371472 [8:14:39<9:33:33,  3.75it/s] 65%|██████▌   | 242266/371472 [8:14:39<10:07:23,  3.55it/s] 65%|██████▌   | 242267/371472 [8:14:39<10:47:05,  3.33it/s] 65%|██████▌   | 242268/371472 [8:14:40<10:48:13,  3.32it/s] 65%|██████▌   | 242269/371472 [8:14:40<10:21:45,  3.46it/s] 65%|██████▌   | 242270/371472 [8:14:40<9:51:40,  3.64it/s]  65%|██████▌   | 242271/371472 [8:14:40<9:38:10,  3.72it/s] 65%|██████▌   | 242272/371472 [8:14:41<9:23:40,  3.82it/s] 65%|██████▌   | 242273/371472 [8:14:41<9:12:02,  3.90it/s] 65%|██████▌   | 242274/371472 [8:14:41<9:18:14,  3.86it/s] 65%|██████▌   | 242275/371472 [8:14:41<9:01:09,  3.98it/s] 65%|██████▌   | 242276/371472 [8:14:42<9:18:56,  3.85it/s] 65%|██████▌   | 242277/371472 [8:14:42<9:48:35,  3.66it/s] 65%|██████▌   | 242278/371472 [8:14:42<9:34:31,  3.75it/s] 65%|██████▌   | 242279/371472 [8:14:42<9:38:33,  3.72it/s] 65%|██████▌   | 242280/371472 [8:14:43<9:24:21,  3.82it/s]                                                           {'loss': 2.9427, 'learning_rate': 4.131741688034648e-07, 'epoch': 10.44}
 65%|██████▌   | 242280/371472 [8:14:43<9:24:21,  3.82it/s] 65%|██████▌   | 242281/371472 [8:14:43<9:35:01,  3.74it/s] 65%|██████▌   | 242282/371472 [8:14:43<11:08:56,  3.22it/s] 65%|██████▌   | 242283/371472 [8:14:44<11:20:09,  3.17it/s] 65%|██████▌   | 242284/371472 [8:14:44<10:34:57,  3.39it/s] 65%|██████▌   | 242285/371472 [8:14:44<10:09:06,  3.53it/s] 65%|██████▌   | 242286/371472 [8:14:44<10:13:16,  3.51it/s] 65%|██████▌   | 242287/371472 [8:14:45<9:58:39,  3.60it/s]  65%|██████▌   | 242288/371472 [8:14:45<10:36:00,  3.39it/s] 65%|██████▌   | 242289/371472 [8:14:45<10:18:57,  3.48it/s] 65%|██████▌   | 242290/371472 [8:14:46<10:04:46,  3.56it/s] 65%|██████▌   | 242291/371472 [8:14:46<10:02:47,  3.57it/s] 65%|██████▌   | 242292/371472 [8:14:46<9:47:55,  3.66it/s]  65%|██████▌   | 242293/371472 [8:14:46<9:49:21,  3.65it/s] 65%|██████▌   | 242294/371472 [8:14:47<9:30:10,  3.78it/s] 65%|██████▌   | 242295/371472 [8:14:47<9:24:21,  3.81it/s] 65%|██████▌   | 242296/371472 [8:14:47<10:11:18,  3.52it/s] 65%|██████▌   | 242297/371472 [8:14:48<10:12:31,  3.51it/s] 65%|██████▌   | 242298/371472 [8:14:48<9:40:22,  3.71it/s]  65%|██████▌   | 242299/371472 [8:14:48<9:37:00,  3.73it/s] 65%|██████▌   | 242300/371472 [8:14:48<9:19:59,  3.84it/s]                                                           {'loss': 2.8063, 'learning_rate': 4.1312568682798594e-07, 'epoch': 10.44}
 65%|██████▌   | 242300/371472 [8:14:48<9:19:59,  3.84it/s] 65%|██████▌   | 242301/371472 [8:14:49<9:46:24,  3.67it/s] 65%|██████▌   | 242302/371472 [8:14:49<9:30:03,  3.78it/s] 65%|██████▌   | 242303/371472 [8:14:49<10:12:23,  3.52it/s] 65%|██████▌   | 242304/371472 [8:14:49<9:51:49,  3.64it/s]  65%|██████▌   | 242305/371472 [8:14:50<9:40:19,  3.71it/s] 65%|██████▌   | 242306/371472 [8:14:50<10:20:33,  3.47it/s] 65%|██████▌   | 242307/371472 [8:14:50<9:56:27,  3.61it/s]  65%|██████▌   | 242308/371472 [8:14:51<9:38:39,  3.72it/s] 65%|██████▌   | 242309/371472 [8:14:51<9:31:06,  3.77it/s] 65%|██████▌   | 242310/371472 [8:14:51<9:05:24,  3.95it/s] 65%|██████▌   | 242311/371472 [8:14:51<9:14:44,  3.88it/s] 65%|██████▌   | 242312/371472 [8:14:52<9:34:12,  3.75it/s] 65%|██████▌   | 242313/371472 [8:14:52<9:40:11,  3.71it/s] 65%|██████▌   | 242314/371472 [8:14:52<9:41:21,  3.70it/s] 65%|██████▌   | 242315/371472 [8:14:52<9:31:34,  3.77it/s] 65%|██████▌   | 242316/371472 [8:14:53<9:29:52,  3.78it/s] 65%|██████▌   | 242317/371472 [8:14:53<9:18:20,  3.86it/s] 65%|██████▌   | 242318/371472 [8:14:53<9:41:28,  3.70it/s] 65%|██████▌   | 242319/371472 [8:14:53<9:23:42,  3.82it/s] 65%|██████▌   | 242320/371472 [8:14:54<10:09:56,  3.53it/s]                                                            {'loss': 3.0325, 'learning_rate': 4.13077204852507e-07, 'epoch': 10.44}
 65%|██████▌   | 242320/371472 [8:14:54<10:09:56,  3.53it/s] 65%|██████▌   | 242321/371472 [8:14:54<9:58:23,  3.60it/s]  65%|██████▌   | 242322/371472 [8:14:54<10:17:00,  3.49it/s] 65%|██████▌   | 242323/371472 [8:14:55<10:01:36,  3.58it/s] 65%|██████▌   | 242324/371472 [8:14:55<10:03:34,  3.57it/s] 65%|██████▌   | 242325/371472 [8:14:55<9:48:06,  3.66it/s]  65%|██████▌   | 242326/371472 [8:14:55<9:30:06,  3.78it/s] 65%|██████▌   | 242327/371472 [8:14:56<9:28:47,  3.78it/s] 65%|██████▌   | 242328/371472 [8:14:56<9:46:57,  3.67it/s] 65%|██████▌   | 242329/371472 [8:14:56<9:33:45,  3.75it/s] 65%|██████▌   | 242330/371472 [8:14:56<9:33:47,  3.75it/s] 65%|██████▌   | 242331/371472 [8:14:57<9:29:43,  3.78it/s] 65%|██████▌   | 242332/371472 [8:14:57<9:54:07,  3.62it/s] 65%|██████▌   | 242333/371472 [8:14:57<11:07:24,  3.22it/s] 65%|██████▌   | 242334/371472 [8:14:58<10:19:24,  3.47it/s] 65%|██████▌   | 242335/371472 [8:14:58<9:40:50,  3.71it/s]  65%|██████▌   | 242336/371472 [8:14:58<9:50:05,  3.65it/s] 65%|██████▌   | 242337/371472 [8:14:58<10:07:32,  3.54it/s] 65%|██████▌   | 242338/371472 [8:14:59<10:48:29,  3.32it/s] 65%|██████▌   | 242339/371472 [8:14:59<10:11:35,  3.52it/s] 65%|██████▌   | 242340/371472 [8:14:59<10:12:27,  3.51it/s]                                                            {'loss': 2.9978, 'learning_rate': 4.130287228770282e-07, 'epoch': 10.44}
 65%|██████▌   | 242340/371472 [8:14:59<10:12:27,  3.51it/s] 65%|██████▌   | 242341/371472 [8:15:00<9:49:41,  3.65it/s]  65%|██████▌   | 242342/371472 [8:15:00<9:29:08,  3.78it/s] 65%|██████▌   | 242343/371472 [8:15:00<9:23:59,  3.82it/s] 65%|██████▌   | 242344/371472 [8:15:00<9:40:27,  3.71it/s] 65%|██████▌   | 242345/371472 [8:15:01<10:20:19,  3.47it/s] 65%|██████▌   | 242346/371472 [8:15:01<11:01:02,  3.26it/s] 65%|██████▌   | 242347/371472 [8:15:01<11:27:30,  3.13it/s] 65%|██████▌   | 242348/371472 [8:15:02<10:49:24,  3.31it/s] 65%|██████▌   | 242349/371472 [8:15:02<10:47:19,  3.32it/s] 65%|██████▌   | 242350/371472 [8:15:02<10:26:42,  3.43it/s] 65%|██████▌   | 242351/371472 [8:15:02<10:09:30,  3.53it/s] 65%|██████▌   | 242352/371472 [8:15:03<9:49:54,  3.65it/s]  65%|██████▌   | 242353/371472 [8:15:03<9:31:48,  3.76it/s] 65%|██████▌   | 242354/371472 [8:15:03<9:58:10,  3.60it/s] 65%|██████▌   | 242355/371472 [8:15:04<9:50:43,  3.64it/s] 65%|██████▌   | 242356/371472 [8:15:04<9:52:22,  3.63it/s] 65%|██████▌   | 242357/371472 [8:15:04<10:06:56,  3.55it/s] 65%|██████▌   | 242358/371472 [8:15:04<9:41:47,  3.70it/s]  65%|██████▌   | 242359/371472 [8:15:05<10:38:38,  3.37it/s] 65%|██████▌   | 242360/371472 [8:15:05<10:15:10,  3.50it/s]                                                            {'loss': 2.7447, 'learning_rate': 4.129802409015492e-07, 'epoch': 10.44}
 65%|██████▌   | 242360/371472 [8:15:05<10:15:10,  3.50it/s] 65%|██████▌   | 242361/371472 [8:15:05<9:42:04,  3.70it/s]  65%|██████▌   | 242362/371472 [8:15:05<9:27:11,  3.79it/s] 65%|██████▌   | 242363/371472 [8:15:06<9:44:13,  3.68it/s] 65%|██████▌   | 242364/371472 [8:15:06<9:44:57,  3.68it/s] 65%|██████▌   | 242365/371472 [8:15:06<9:50:03,  3.65it/s] 65%|██████▌   | 242366/371472 [8:15:07<10:06:31,  3.55it/s] 65%|██████▌   | 242367/371472 [8:15:07<9:48:33,  3.66it/s]  65%|██████▌   | 242368/371472 [8:15:07<9:34:00,  3.75it/s] 65%|██████▌   | 242369/371472 [8:15:07<10:27:51,  3.43it/s] 65%|██████▌   | 242370/371472 [8:15:08<10:54:43,  3.29it/s] 65%|██████▌   | 242371/371472 [8:15:08<10:18:08,  3.48it/s] 65%|██████▌   | 242372/371472 [8:15:08<10:12:36,  3.51it/s] 65%|██████▌   | 242373/371472 [8:15:09<10:12:41,  3.51it/s] 65%|██████▌   | 242374/371472 [8:15:09<10:17:19,  3.49it/s] 65%|██████▌   | 242375/371472 [8:15:09<9:52:00,  3.63it/s]  65%|██████▌   | 242376/371472 [8:15:09<9:42:32,  3.69it/s] 65%|██████▌   | 242377/371472 [8:15:10<9:30:12,  3.77it/s] 65%|██████▌   | 242378/371472 [8:15:10<9:32:25,  3.76it/s] 65%|██████▌   | 242379/371472 [8:15:10<9:32:10,  3.76it/s] 65%|██████▌   | 242380/371472 [8:15:11<10:16:50,  3.49it/s]                                                            {'loss': 2.8849, 'learning_rate': 4.129317589260704e-07, 'epoch': 10.44}
 65%|██████▌   | 242380/371472 [8:15:11<10:16:50,  3.49it/s] 65%|██████▌   | 242381/371472 [8:15:11<10:24:33,  3.44it/s] 65%|██████▌   | 242382/371472 [8:15:11<10:40:18,  3.36it/s] 65%|██████▌   | 242383/371472 [8:15:11<10:34:38,  3.39it/s] 65%|██████▌   | 242384/371472 [8:15:12<10:29:23,  3.42it/s] 65%|██████▌   | 242385/371472 [8:15:12<10:15:04,  3.50it/s] 65%|██████▌   | 242386/371472 [8:15:12<10:26:53,  3.43it/s] 65%|██████▌   | 242387/371472 [8:15:13<10:39:30,  3.36it/s] 65%|██████▌   | 242388/371472 [8:15:13<10:21:05,  3.46it/s] 65%|██████▌   | 242389/371472 [8:15:13<10:24:15,  3.45it/s] 65%|██████▌   | 242390/371472 [8:15:13<10:21:10,  3.46it/s] 65%|██████▌   | 242391/371472 [8:15:14<10:04:28,  3.56it/s] 65%|██████▌   | 242392/371472 [8:15:14<10:03:29,  3.56it/s] 65%|██████▌   | 242393/371472 [8:15:14<10:00:31,  3.58it/s] 65%|██████▌   | 242394/371472 [8:15:15<9:41:14,  3.70it/s]  65%|██████▌   | 242395/371472 [8:15:15<9:29:27,  3.78it/s] 65%|██████▌   | 242396/371472 [8:15:15<9:33:02,  3.75it/s] 65%|██████▌   | 242397/371472 [8:15:15<9:23:50,  3.82it/s] 65%|██████▌   | 242398/371472 [8:15:16<9:41:05,  3.70it/s] 65%|██████▌   | 242399/371472 [8:15:16<9:45:43,  3.67it/s] 65%|██████▌   | 242400/371472 [8:15:16<10:09:41,  3.53it/s]                                                            {'loss': 2.8542, 'learning_rate': 4.1288327695059146e-07, 'epoch': 10.44}
 65%|██████▌   | 242400/371472 [8:15:16<10:09:41,  3.53it/s] 65%|██████▌   | 242401/371472 [8:15:16<10:15:07,  3.50it/s] 65%|██████▌   | 242402/371472 [8:15:17<10:12:38,  3.51it/s] 65%|██████▌   | 242403/371472 [8:15:17<10:41:01,  3.36it/s] 65%|██████▌   | 242404/371472 [8:15:17<10:45:19,  3.33it/s] 65%|██████▌   | 242405/371472 [8:15:18<10:13:16,  3.51it/s] 65%|██████▌   | 242406/371472 [8:15:18<10:09:18,  3.53it/s] 65%|██████▌   | 242407/371472 [8:15:18<9:58:06,  3.60it/s]  65%|██████▌   | 242408/371472 [8:15:18<9:55:13,  3.61it/s] 65%|██████▌   | 242409/371472 [8:15:19<9:47:58,  3.66it/s] 65%|██████▌   | 242410/371472 [8:15:19<10:00:11,  3.58it/s] 65%|██████▌   | 242411/371472 [8:15:19<10:05:06,  3.55it/s] 65%|██████▌   | 242412/371472 [8:15:20<9:48:02,  3.66it/s]  65%|██████▌   | 242413/371472 [8:15:20<10:00:49,  3.58it/s] 65%|██████▌   | 242414/371472 [8:15:20<10:07:17,  3.54it/s] 65%|██████▌   | 242415/371472 [8:15:20<10:36:20,  3.38it/s] 65%|██████▌   | 242416/371472 [8:15:21<10:43:13,  3.34it/s] 65%|██████▌   | 242417/371472 [8:15:21<10:10:22,  3.52it/s] 65%|██████▌   | 242418/371472 [8:15:21<9:59:54,  3.59it/s]  65%|██████▌   | 242419/371472 [8:15:22<9:55:28,  3.61it/s] 65%|██████▌   | 242420/371472 [8:15:22<9:30:51,  3.77it/s]                                                           {'loss': 2.7823, 'learning_rate': 4.128347949751126e-07, 'epoch': 10.44}
 65%|██████▌   | 242420/371472 [8:15:22<9:30:51,  3.77it/s] 65%|██████▌   | 242421/371472 [8:15:22<9:25:25,  3.80it/s] 65%|██████▌   | 242422/371472 [8:15:22<10:15:38,  3.49it/s] 65%|██████▌   | 242423/371472 [8:15:23<10:13:26,  3.51it/s] 65%|██████▌   | 242424/371472 [8:15:23<10:03:17,  3.57it/s] 65%|██████▌   | 242425/371472 [8:15:23<9:49:48,  3.65it/s]  65%|██████▌   | 242426/371472 [8:15:23<9:46:45,  3.67it/s] 65%|██████▌   | 242427/371472 [8:15:24<9:29:59,  3.77it/s] 65%|██████▌   | 242428/371472 [8:15:24<9:42:29,  3.69it/s] 65%|██████▌   | 242429/371472 [8:15:24<9:48:32,  3.65it/s] 65%|██████▌   | 242430/371472 [8:15:25<9:56:50,  3.60it/s] 65%|██████▌   | 242431/371472 [8:15:25<9:48:55,  3.65it/s] 65%|██████▌   | 242432/371472 [8:15:25<9:50:54,  3.64it/s] 65%|██████▌   | 242433/371472 [8:15:25<10:17:20,  3.48it/s] 65%|██████▌   | 242434/371472 [8:15:26<10:17:27,  3.48it/s] 65%|██████▌   | 242435/371472 [8:15:26<9:59:43,  3.59it/s]  65%|██████▌   | 242436/371472 [8:15:26<10:25:39,  3.44it/s] 65%|██████▌   | 242437/371472 [8:15:27<10:14:43,  3.50it/s] 65%|██████▌   | 242438/371472 [8:15:27<10:11:34,  3.52it/s] 65%|██████▌   | 242439/371472 [8:15:27<10:19:03,  3.47it/s] 65%|██████▌   | 242440/371472 [8:15:27<10:16:10,  3.49it/s]                                                            {'loss': 2.6983, 'learning_rate': 4.1278631299963366e-07, 'epoch': 10.44}
 65%|██████▌   | 242440/371472 [8:15:27<10:16:10,  3.49it/s] 65%|██████▌   | 242441/371472 [8:15:28<9:54:47,  3.62it/s]  65%|██████▌   | 242442/371472 [8:15:28<9:36:06,  3.73it/s] 65%|██████▌   | 242443/371472 [8:15:28<9:39:12,  3.71it/s] 65%|██████▌   | 242444/371472 [8:15:28<9:53:16,  3.62it/s] 65%|██████▌   | 242445/371472 [8:15:29<9:39:48,  3.71it/s] 65%|██████▌   | 242446/371472 [8:15:29<9:28:17,  3.78it/s] 65%|██████▌   | 242447/371472 [8:15:29<9:58:11,  3.59it/s] 65%|██████▌   | 242448/371472 [8:15:30<10:26:30,  3.43it/s] 65%|██████▌   | 242449/371472 [8:15:30<10:16:20,  3.49it/s] 65%|██████▌   | 242450/371472 [8:15:30<9:48:08,  3.66it/s]  65%|██████▌   | 242451/371472 [8:15:30<9:42:15,  3.69it/s] 65%|██████▌   | 242452/371472 [8:15:31<9:25:20,  3.80it/s] 65%|██████▌   | 242453/371472 [8:15:31<9:22:25,  3.82it/s] 65%|██████▌   | 242454/371472 [8:15:31<10:22:58,  3.45it/s] 65%|██████▌   | 242455/371472 [8:15:32<10:41:53,  3.35it/s] 65%|██████▌   | 242456/371472 [8:15:32<10:33:12,  3.40it/s] 65%|██████▌   | 242457/371472 [8:15:32<10:35:04,  3.39it/s] 65%|██████▌   | 242458/371472 [8:15:32<10:01:52,  3.57it/s] 65%|██████▌   | 242459/371472 [8:15:33<9:55:45,  3.61it/s]  65%|██████▌   | 242460/371472 [8:15:33<10:27:43,  3.43it/s]                                                            {'loss': 2.8226, 'learning_rate': 4.1273783102415483e-07, 'epoch': 10.44}
 65%|██████▌   | 242460/371472 [8:15:33<10:27:43,  3.43it/s] 65%|██████▌   | 242461/371472 [8:15:33<10:42:33,  3.35it/s] 65%|██████▌   | 242462/371472 [8:15:34<10:23:37,  3.45it/s] 65%|██████▌   | 242463/371472 [8:15:34<10:02:33,  3.57it/s] 65%|██████▌   | 242464/371472 [8:15:34<10:27:44,  3.43it/s] 65%|██████▌   | 242465/371472 [8:15:34<9:54:26,  3.62it/s]  65%|██████▌   | 242466/371472 [8:15:35<9:44:18,  3.68it/s] 65%|██████▌   | 242467/371472 [8:15:35<9:46:19,  3.67it/s] 65%|██████▌   | 242468/371472 [8:15:35<9:42:39,  3.69it/s] 65%|██████▌   | 242469/371472 [8:15:35<9:35:22,  3.74it/s] 65%|██████▌   | 242470/371472 [8:15:36<9:56:51,  3.60it/s] 65%|██████▌   | 242471/371472 [8:15:36<9:40:40,  3.70it/s] 65%|██████▌   | 242472/371472 [8:15:36<9:22:49,  3.82it/s] 65%|██████▌   | 242473/371472 [8:15:37<9:12:08,  3.89it/s] 65%|██████▌   | 242474/371472 [8:15:37<9:18:34,  3.85it/s] 65%|██████▌   | 242475/371472 [8:15:37<9:07:03,  3.93it/s] 65%|██████▌   | 242476/371472 [8:15:37<9:00:38,  3.98it/s] 65%|██████▌   | 242477/371472 [8:15:38<9:36:43,  3.73it/s] 65%|██████▌   | 242478/371472 [8:15:38<9:36:26,  3.73it/s] 65%|██████▌   | 242479/371472 [8:15:38<11:19:45,  3.16it/s] 65%|██████▌   | 242480/371472 [8:15:39<11:17:54,  3.17it/s]                                                            {'loss': 2.8756, 'learning_rate': 4.1268934904867585e-07, 'epoch': 10.44}
 65%|██████▌   | 242480/371472 [8:15:39<11:17:54,  3.17it/s] 65%|██████▌   | 242481/371472 [8:15:39<10:54:51,  3.28it/s] 65%|██████▌   | 242482/371472 [8:15:39<10:42:44,  3.34it/s] 65%|██████▌   | 242483/371472 [8:15:39<10:45:30,  3.33it/s] 65%|██████▌   | 242484/371472 [8:15:40<10:17:26,  3.48it/s] 65%|██████▌   | 242485/371472 [8:15:40<9:43:23,  3.68it/s]  65%|██████▌   | 242486/371472 [8:15:40<9:38:21,  3.72it/s] 65%|██████▌   | 242487/371472 [8:15:40<9:43:53,  3.68it/s] 65%|██████▌   | 242488/371472 [8:15:41<9:37:00,  3.73it/s] 65%|██████▌   | 242489/371472 [8:15:41<9:22:40,  3.82it/s] 65%|██████▌   | 242490/371472 [8:15:41<10:19:04,  3.47it/s] 65%|██████▌   | 242491/371472 [8:15:42<10:14:42,  3.50it/s] 65%|██████▌   | 242492/371472 [8:15:42<10:31:26,  3.40it/s] 65%|██████▌   | 242493/371472 [8:15:42<10:35:26,  3.38it/s] 65%|██████▌   | 242494/371472 [8:15:43<10:36:41,  3.38it/s] 65%|██████▌   | 242495/371472 [8:15:43<10:42:00,  3.35it/s] 65%|██████▌   | 242496/371472 [8:15:43<10:26:28,  3.43it/s] 65%|██████▌   | 242497/371472 [8:15:43<9:51:42,  3.63it/s]  65%|██████▌   | 242498/371472 [8:15:44<9:31:41,  3.76it/s] 65%|██████▌   | 242499/371472 [8:15:44<9:34:37,  3.74it/s] 65%|██████▌   | 242500/371472 [8:15:44<9:41:12,  3.70it/s]                                                           {'loss': 2.7535, 'learning_rate': 4.1264086707319703e-07, 'epoch': 10.44}
 65%|██████▌   | 242500/371472 [8:15:44<9:41:12,  3.70it/s] 65%|██████▌   | 242501/371472 [8:15:44<9:29:36,  3.77it/s] 65%|██████▌   | 242502/371472 [8:15:45<9:13:12,  3.89it/s] 65%|██████▌   | 242503/371472 [8:15:45<9:25:54,  3.80it/s] 65%|██████▌   | 242504/371472 [8:15:45<9:48:14,  3.65it/s] 65%|██████▌   | 242505/371472 [8:15:45<9:52:37,  3.63it/s] 65%|██████▌   | 242506/371472 [8:15:46<9:45:19,  3.67it/s] 65%|██████▌   | 242507/371472 [8:15:46<10:00:28,  3.58it/s] 65%|██████▌   | 242508/371472 [8:15:46<9:43:58,  3.68it/s]  65%|██████▌   | 242509/371472 [8:15:47<9:48:55,  3.65it/s] 65%|██████▌   | 242510/371472 [8:15:47<10:02:32,  3.57it/s] 65%|██████▌   | 242511/371472 [8:15:47<10:03:34,  3.56it/s] 65%|██████▌   | 242512/371472 [8:15:47<9:59:14,  3.59it/s]  65%|██████▌   | 242513/371472 [8:15:48<10:32:08,  3.40it/s] 65%|██████▌   | 242514/371472 [8:15:48<10:15:44,  3.49it/s] 65%|██████▌   | 242515/371472 [8:15:48<9:57:39,  3.60it/s]  65%|██████▌   | 242516/371472 [8:15:49<9:26:03,  3.80it/s] 65%|██████▌   | 242517/371472 [8:15:49<9:29:07,  3.78it/s] 65%|██████▌   | 242518/371472 [8:15:49<9:58:16,  3.59it/s] 65%|██████▌   | 242519/371472 [8:15:49<9:58:37,  3.59it/s] 65%|██████▌   | 242520/371472 [8:15:50<10:42:15,  3.35it/s]                                                            {'loss': 2.6422, 'learning_rate': 4.125923850977181e-07, 'epoch': 10.45}
 65%|██████▌   | 242520/371472 [8:15:50<10:42:15,  3.35it/s] 65%|██████▌   | 242521/371472 [8:15:50<10:33:26,  3.39it/s] 65%|██████▌   | 242522/371472 [8:15:50<10:17:18,  3.48it/s] 65%|██████▌   | 242523/371472 [8:15:51<10:29:55,  3.41it/s] 65%|██████▌   | 242524/371472 [8:15:51<10:07:45,  3.54it/s] 65%|██████▌   | 242525/371472 [8:15:51<10:19:27,  3.47it/s] 65%|██████▌   | 242526/371472 [8:15:51<10:14:53,  3.50it/s] 65%|██████▌   | 242527/371472 [8:15:52<11:47:34,  3.04it/s] 65%|██████▌   | 242528/371472 [8:15:52<10:56:37,  3.27it/s] 65%|██████▌   | 242529/371472 [8:15:52<11:12:33,  3.20it/s] 65%|██████▌   | 242530/371472 [8:15:53<10:30:30,  3.41it/s] 65%|██████▌   | 242531/371472 [8:15:53<11:19:30,  3.16it/s] 65%|██████▌   | 242532/371472 [8:15:53<10:44:09,  3.34it/s] 65%|██████▌   | 242533/371472 [8:15:54<10:20:41,  3.46it/s] 65%|██████▌   | 242534/371472 [8:15:54<10:05:14,  3.55it/s] 65%|██████▌   | 242535/371472 [8:15:54<10:00:35,  3.58it/s] 65%|██████▌   | 242536/371472 [8:15:54<9:41:04,  3.70it/s]  65%|██████▌   | 242537/371472 [8:15:55<9:46:32,  3.66it/s] 65%|██████▌   | 242538/371472 [8:15:55<9:37:06,  3.72it/s] 65%|██████▌   | 242539/371472 [8:15:55<9:28:57,  3.78it/s] 65%|██████▌   | 242540/371472 [8:15:55<9:49:12,  3.65it/s]                                                           {'loss': 2.8537, 'learning_rate': 4.125439031222392e-07, 'epoch': 10.45}
 65%|██████▌   | 242540/371472 [8:15:55<9:49:12,  3.65it/s] 65%|██████▌   | 242541/371472 [8:15:56<10:12:23,  3.51it/s] 65%|██████▌   | 242542/371472 [8:15:56<10:58:43,  3.26it/s] 65%|██████▌   | 242543/371472 [8:15:56<10:21:52,  3.46it/s] 65%|██████▌   | 242544/371472 [8:15:57<10:11:13,  3.52it/s] 65%|██████▌   | 242545/371472 [8:15:57<10:04:53,  3.55it/s] 65%|██████▌   | 242546/371472 [8:15:57<9:35:21,  3.73it/s]  65%|██████▌   | 242547/371472 [8:15:57<10:13:51,  3.50it/s] 65%|██████▌   | 242548/371472 [8:15:58<10:52:17,  3.29it/s] 65%|██████▌   | 242549/371472 [8:15:58<10:14:03,  3.50it/s] 65%|██████▌   | 242550/371472 [8:15:58<9:50:48,  3.64it/s]  65%|██████▌   | 242551/371472 [8:15:59<9:42:42,  3.69it/s] 65%|██████▌   | 242552/371472 [8:15:59<9:35:33,  3.73it/s] 65%|██████▌   | 242553/371472 [8:15:59<9:29:13,  3.77it/s] 65%|██████▌   | 242554/371472 [8:15:59<9:53:22,  3.62it/s] 65%|██████▌   | 242555/371472 [8:16:00<9:28:39,  3.78it/s] 65%|██████▌   | 242556/371472 [8:16:00<9:07:16,  3.93it/s] 65%|██████▌   | 242557/371472 [8:16:00<9:12:07,  3.89it/s] 65%|██████▌   | 242558/371472 [8:16:00<9:13:32,  3.88it/s] 65%|██████▌   | 242559/371472 [8:16:01<9:31:45,  3.76it/s] 65%|██████▌   | 242560/371472 [8:16:01<10:45:56,  3.33it/s]                                                            {'loss': 2.8258, 'learning_rate': 4.124954211467603e-07, 'epoch': 10.45}
 65%|██████▌   | 242560/371472 [8:16:01<10:45:56,  3.33it/s] 65%|██████▌   | 242561/371472 [8:16:01<10:28:22,  3.42it/s] 65%|██████▌   | 242562/371472 [8:16:02<10:33:56,  3.39it/s] 65%|██████▌   | 242563/371472 [8:16:02<10:03:48,  3.56it/s] 65%|██████▌   | 242564/371472 [8:16:02<10:29:51,  3.41it/s] 65%|██████▌   | 242565/371472 [8:16:03<10:30:27,  3.41it/s] 65%|██████▌   | 242566/371472 [8:16:03<10:17:07,  3.48it/s] 65%|██████▌   | 242567/371472 [8:16:03<9:54:46,  3.61it/s]  65%|██████▌   | 242568/371472 [8:16:03<9:47:27,  3.66it/s] 65%|██████▌   | 242569/371472 [8:16:04<9:17:27,  3.85it/s] 65%|██████▌   | 242570/371472 [8:16:04<9:34:15,  3.74it/s] 65%|██████▌   | 242571/371472 [8:16:04<9:37:13,  3.72it/s] 65%|██████▌   | 242572/371472 [8:16:04<9:20:28,  3.83it/s] 65%|██████▌   | 242573/371472 [8:16:05<9:15:24,  3.87it/s] 65%|██████▌   | 242574/371472 [8:16:05<9:25:32,  3.80it/s] 65%|██████▌   | 242575/371472 [8:16:05<9:23:46,  3.81it/s] 65%|██████▌   | 242576/371472 [8:16:05<9:28:13,  3.78it/s] 65%|██████▌   | 242577/371472 [8:16:06<9:29:30,  3.77it/s] 65%|██████▌   | 242578/371472 [8:16:06<10:14:58,  3.49it/s] 65%|██████▌   | 242579/371472 [8:16:06<9:57:02,  3.60it/s]  65%|██████▌   | 242580/371472 [8:16:06<9:43:28,  3.68it/s]                                                           {'loss': 2.7816, 'learning_rate': 4.124469391712815e-07, 'epoch': 10.45}
 65%|██████▌   | 242580/371472 [8:16:06<9:43:28,  3.68it/s] 65%|██████▌   | 242581/371472 [8:16:07<9:58:34,  3.59it/s] 65%|██████▌   | 242582/371472 [8:16:07<9:42:02,  3.69it/s] 65%|██████▌   | 242583/371472 [8:16:07<9:33:45,  3.74it/s] 65%|██████▌   | 242584/371472 [8:16:08<10:34:43,  3.38it/s] 65%|██████▌   | 242585/371472 [8:16:08<10:53:14,  3.29it/s] 65%|██████▌   | 242586/371472 [8:16:08<10:46:47,  3.32it/s] 65%|██████▌   | 242587/371472 [8:16:09<11:07:03,  3.22it/s] 65%|██████▌   | 242588/371472 [8:16:09<11:12:51,  3.19it/s] 65%|██████▌   | 242589/371472 [8:16:09<10:54:42,  3.28it/s] 65%|██████▌   | 242590/371472 [8:16:09<10:22:03,  3.45it/s] 65%|██████▌   | 242591/371472 [8:16:10<9:50:13,  3.64it/s]  65%|██████▌   | 242592/371472 [8:16:10<9:42:08,  3.69it/s] 65%|██████▌   | 242593/371472 [8:16:10<10:23:42,  3.44it/s] 65%|██████▌   | 242594/371472 [8:16:11<9:53:51,  3.62it/s]  65%|██████▌   | 242595/371472 [8:16:11<10:20:17,  3.46it/s] 65%|██████▌   | 242596/371472 [8:16:11<10:01:09,  3.57it/s] 65%|██████▌   | 242597/371472 [8:16:11<9:56:23,  3.60it/s]  65%|██████▌   | 242598/371472 [8:16:12<9:32:31,  3.75it/s] 65%|██████▌   | 242599/371472 [8:16:12<9:50:41,  3.64it/s] 65%|██████▌   | 242600/371472 [8:16:12<9:36:41,  3.72it/s]                                                           {'loss': 2.7882, 'learning_rate': 4.123984571958025e-07, 'epoch': 10.45}
 65%|██████▌   | 242600/371472 [8:16:12<9:36:41,  3.72it/s] 65%|██████▌   | 242601/371472 [8:16:12<9:47:25,  3.66it/s] 65%|██████▌   | 242602/371472 [8:16:13<9:35:32,  3.73it/s] 65%|██████▌   | 242603/371472 [8:16:13<9:10:53,  3.90it/s] 65%|██████▌   | 242604/371472 [8:16:13<9:22:20,  3.82it/s] 65%|██████▌   | 242605/371472 [8:16:14<9:41:50,  3.69it/s] 65%|██████▌   | 242606/371472 [8:16:14<10:34:30,  3.38it/s] 65%|██████▌   | 242607/371472 [8:16:14<10:02:55,  3.56it/s] 65%|██████▌   | 242608/371472 [8:16:14<10:12:46,  3.50it/s] 65%|██████▌   | 242609/371472 [8:16:15<10:00:36,  3.58it/s] 65%|██████▌   | 242610/371472 [8:16:15<9:46:43,  3.66it/s]  65%|██████▌   | 242611/371472 [8:16:15<10:32:03,  3.40it/s] 65%|██████▌   | 242612/371472 [8:16:16<10:52:24,  3.29it/s] 65%|██████▌   | 242613/371472 [8:16:16<10:12:37,  3.51it/s] 65%|██████▌   | 242614/371472 [8:16:16<10:14:29,  3.49it/s] 65%|██████▌   | 242615/371472 [8:16:16<9:44:41,  3.67it/s]  65%|██████▌   | 242616/371472 [8:16:17<9:49:55,  3.64it/s] 65%|██████▌   | 242617/371472 [8:16:17<9:41:28,  3.69it/s] 65%|██████▌   | 242618/371472 [8:16:17<9:56:34,  3.60it/s] 65%|██████▌   | 242619/371472 [8:16:18<10:15:06,  3.49it/s] 65%|██████▌   | 242620/371472 [8:16:18<10:06:08,  3.54it/s]                                                            {'loss': 2.7949, 'learning_rate': 4.1234997522032356e-07, 'epoch': 10.45}
 65%|██████▌   | 242620/371472 [8:16:18<10:06:08,  3.54it/s] 65%|██████▌   | 242621/371472 [8:16:18<10:29:48,  3.41it/s] 65%|██████▌   | 242622/371472 [8:16:18<10:25:40,  3.43it/s] 65%|██████▌   | 242623/371472 [8:16:19<10:11:54,  3.51it/s] 65%|██████▌   | 242624/371472 [8:16:19<10:24:37,  3.44it/s] 65%|██████▌   | 242625/371472 [8:16:19<10:15:55,  3.49it/s] 65%|██████▌   | 242626/371472 [8:16:20<9:51:50,  3.63it/s]  65%|██████▌   | 242627/371472 [8:16:20<9:48:54,  3.65it/s] 65%|██████▌   | 242628/371472 [8:16:20<9:41:30,  3.69it/s] 65%|██████▌   | 242629/371472 [8:16:20<9:35:05,  3.73it/s] 65%|██████▌   | 242630/371472 [8:16:21<10:50:54,  3.30it/s] 65%|██████▌   | 242631/371472 [8:16:21<10:28:15,  3.42it/s] 65%|██████▌   | 242632/371472 [8:16:21<10:51:57,  3.29it/s] 65%|██████▌   | 242633/371472 [8:16:22<10:33:19,  3.39it/s] 65%|██████▌   | 242634/371472 [8:16:22<10:19:42,  3.47it/s] 65%|██████▌   | 242635/371472 [8:16:22<10:16:23,  3.48it/s] 65%|██████▌   | 242636/371472 [8:16:22<10:21:26,  3.46it/s] 65%|██████▌   | 242637/371472 [8:16:23<10:45:19,  3.33it/s] 65%|██████▌   | 242638/371472 [8:16:23<11:12:45,  3.19it/s] 65%|██████▌   | 242639/371472 [8:16:23<10:55:46,  3.27it/s] 65%|██████▌   | 242640/371472 [8:16:24<10:27:17,  3.42it/s]                                                            {'loss': 2.8093, 'learning_rate': 4.1230149324484474e-07, 'epoch': 10.45}
 65%|██████▌   | 242640/371472 [8:16:24<10:27:17,  3.42it/s] 65%|██████▌   | 242641/371472 [8:16:24<10:11:56,  3.51it/s] 65%|██████▌   | 242642/371472 [8:16:24<10:36:03,  3.38it/s] 65%|██████▌   | 242643/371472 [8:16:25<10:23:57,  3.44it/s] 65%|██████▌   | 242644/371472 [8:16:25<10:10:44,  3.52it/s] 65%|██████▌   | 242645/371472 [8:16:25<10:03:49,  3.56it/s] 65%|██████▌   | 242646/371472 [8:16:25<10:03:02,  3.56it/s] 65%|██████▌   | 242647/371472 [8:16:26<9:51:14,  3.63it/s]  65%|██████▌   | 242648/371472 [8:16:26<9:51:59,  3.63it/s] 65%|██████▌   | 242649/371472 [8:16:26<10:10:50,  3.51it/s] 65%|██████▌   | 242650/371472 [8:16:26<9:47:47,  3.65it/s]  65%|██████▌   | 242651/371472 [8:16:27<10:23:10,  3.45it/s] 65%|██████▌   | 242652/371472 [8:16:27<10:14:40,  3.49it/s] 65%|██████▌   | 242653/371472 [8:16:27<10:13:24,  3.50it/s] 65%|██████▌   | 242654/371472 [8:16:28<10:13:16,  3.50it/s] 65%|██████▌   | 242655/371472 [8:16:28<10:05:24,  3.55it/s] 65%|██████▌   | 242656/371472 [8:16:28<9:58:42,  3.59it/s]  65%|██████▌   | 242657/371472 [8:16:28<9:50:48,  3.63it/s] 65%|██████▌   | 242658/371472 [8:16:29<9:29:33,  3.77it/s] 65%|██████▌   | 242659/371472 [8:16:29<9:46:59,  3.66it/s] 65%|██████▌   | 242660/371472 [8:16:29<9:39:14,  3.71it/s]                                                           {'loss': 2.7618, 'learning_rate': 4.122530112693658e-07, 'epoch': 10.45}
 65%|██████▌   | 242660/371472 [8:16:29<9:39:14,  3.71it/s] 65%|██████▌   | 242661/371472 [8:16:29<9:51:19,  3.63it/s] 65%|██████▌   | 242662/371472 [8:16:30<9:44:55,  3.67it/s] 65%|██████▌   | 242663/371472 [8:16:30<9:55:07,  3.61it/s] 65%|██████▌   | 242664/371472 [8:16:30<9:59:30,  3.58it/s] 65%|██████▌   | 242665/371472 [8:16:31<9:50:18,  3.64it/s] 65%|██████▌   | 242666/371472 [8:16:31<9:26:41,  3.79it/s] 65%|██████▌   | 242667/371472 [8:16:31<9:22:44,  3.81it/s] 65%|██████▌   | 242668/371472 [8:16:31<9:23:52,  3.81it/s] 65%|██████▌   | 242669/371472 [8:16:32<9:23:36,  3.81it/s] 65%|██████▌   | 242670/371472 [8:16:32<9:20:53,  3.83it/s] 65%|██████▌   | 242671/371472 [8:16:32<9:11:23,  3.89it/s] 65%|██████▌   | 242672/371472 [8:16:32<9:11:52,  3.89it/s] 65%|██████▌   | 242673/371472 [8:16:33<9:29:39,  3.77it/s] 65%|██████▌   | 242674/371472 [8:16:33<9:27:46,  3.78it/s] 65%|██████▌   | 242675/371472 [8:16:33<9:24:57,  3.80it/s] 65%|██████▌   | 242676/371472 [8:16:33<9:27:15,  3.78it/s] 65%|██████▌   | 242677/371472 [8:16:34<10:44:49,  3.33it/s] 65%|██████▌   | 242678/371472 [8:16:34<10:43:50,  3.33it/s] 65%|██████▌   | 242679/371472 [8:16:34<10:25:53,  3.43it/s] 65%|██████▌   | 242680/371472 [8:16:35<10:09:03,  3.52it/s]                                                            {'loss': 2.9215, 'learning_rate': 4.1220452929388694e-07, 'epoch': 10.45}
 65%|██████▌   | 242680/371472 [8:16:35<10:09:03,  3.52it/s] 65%|██████▌   | 242681/371472 [8:16:35<10:36:06,  3.37it/s] 65%|██████▌   | 242682/371472 [8:16:35<10:00:32,  3.57it/s] 65%|██████▌   | 242683/371472 [8:16:36<9:57:19,  3.59it/s]  65%|██████▌   | 242684/371472 [8:16:36<9:58:20,  3.59it/s] 65%|██████▌   | 242685/371472 [8:16:36<10:42:46,  3.34it/s] 65%|██████▌   | 242686/371472 [8:16:36<10:24:49,  3.44it/s] 65%|██████▌   | 242687/371472 [8:16:37<10:32:44,  3.39it/s] 65%|██████▌   | 242688/371472 [8:16:37<10:13:06,  3.50it/s] 65%|██████▌   | 242689/371472 [8:16:37<9:46:35,  3.66it/s]  65%|██████▌   | 242690/371472 [8:16:37<9:45:50,  3.66it/s] 65%|██████▌   | 242691/371472 [8:16:38<9:34:02,  3.74it/s] 65%|██████▌   | 242692/371472 [8:16:38<9:33:51,  3.74it/s] 65%|██████▌   | 242693/371472 [8:16:38<9:16:27,  3.86it/s] 65%|██████▌   | 242694/371472 [8:16:39<9:11:04,  3.89it/s] 65%|██████▌   | 242695/371472 [8:16:39<9:34:20,  3.74it/s] 65%|██████▌   | 242696/371472 [8:16:39<9:17:43,  3.85it/s] 65%|██████▌   | 242697/371472 [8:16:39<9:10:50,  3.90it/s] 65%|██████▌   | 242698/371472 [8:16:40<9:51:54,  3.63it/s] 65%|██████▌   | 242699/371472 [8:16:40<9:38:36,  3.71it/s] 65%|██████▌   | 242700/371472 [8:16:40<9:19:47,  3.83it/s]                                                           {'loss': 2.778, 'learning_rate': 4.12156047318408e-07, 'epoch': 10.45}
 65%|██████▌   | 242700/371472 [8:16:40<9:19:47,  3.83it/s] 65%|██████▌   | 242701/371472 [8:16:40<9:21:56,  3.82it/s] 65%|██████▌   | 242702/371472 [8:16:41<9:21:14,  3.82it/s] 65%|██████▌   | 242703/371472 [8:16:41<9:10:54,  3.90it/s] 65%|██████▌   | 242704/371472 [8:16:41<9:29:06,  3.77it/s] 65%|██████▌   | 242705/371472 [8:16:41<9:06:36,  3.93it/s] 65%|██████▌   | 242706/371472 [8:16:42<9:05:46,  3.93it/s] 65%|██████▌   | 242707/371472 [8:16:42<9:30:56,  3.76it/s] 65%|██████▌   | 242708/371472 [8:16:42<9:20:10,  3.83it/s] 65%|██████▌   | 242709/371472 [8:16:42<9:22:08,  3.82it/s] 65%|██████▌   | 242710/371472 [8:16:43<9:18:16,  3.84it/s] 65%|██████▌   | 242711/371472 [8:16:43<9:15:40,  3.86it/s] 65%|██████▌   | 242712/371472 [8:16:43<10:31:18,  3.40it/s] 65%|██████▌   | 242713/371472 [8:16:44<10:44:24,  3.33it/s] 65%|██████▌   | 242714/371472 [8:16:44<10:37:28,  3.37it/s] 65%|██████▌   | 242715/371472 [8:16:44<10:50:42,  3.30it/s] 65%|██████▌   | 242716/371472 [8:16:45<10:45:26,  3.32it/s] 65%|██████▌   | 242717/371472 [8:16:45<10:30:45,  3.40it/s] 65%|██████▌   | 242718/371472 [8:16:45<10:29:13,  3.41it/s] 65%|██████▌   | 242719/371472 [8:16:45<10:22:12,  3.45it/s] 65%|██████▌   | 242720/371472 [8:16:46<10:30:32,  3.40it/s]                                                            {'loss': 2.8376, 'learning_rate': 4.121075653429292e-07, 'epoch': 10.45}
 65%|██████▌   | 242720/371472 [8:16:46<10:30:32,  3.40it/s] 65%|██████▌   | 242721/371472 [8:16:46<10:13:15,  3.50it/s] 65%|██████▌   | 242722/371472 [8:16:46<10:06:58,  3.54it/s] 65%|██████▌   | 242723/371472 [8:16:47<10:13:49,  3.50it/s] 65%|██████▌   | 242724/371472 [8:16:47<10:41:15,  3.35it/s] 65%|██████▌   | 242725/371472 [8:16:47<10:12:46,  3.50it/s] 65%|██████▌   | 242726/371472 [8:16:47<9:53:59,  3.61it/s]  65%|██████▌   | 242727/371472 [8:16:48<9:34:16,  3.74it/s] 65%|██████▌   | 242728/371472 [8:16:48<9:16:14,  3.86it/s] 65%|██████▌   | 242729/371472 [8:16:48<9:11:32,  3.89it/s] 65%|██████▌   | 242730/371472 [8:16:48<10:01:48,  3.57it/s] 65%|██████▌   | 242731/371472 [8:16:49<9:40:01,  3.70it/s]  65%|██████▌   | 242732/371472 [8:16:49<9:35:46,  3.73it/s] 65%|██████▌   | 242733/371472 [8:16:49<9:18:51,  3.84it/s] 65%|██████▌   | 242734/371472 [8:16:50<10:51:21,  3.29it/s] 65%|██████▌   | 242735/371472 [8:16:50<10:25:19,  3.43it/s] 65%|██████▌   | 242736/371472 [8:16:50<10:35:41,  3.38it/s] 65%|██████▌   | 242737/371472 [8:16:50<9:53:30,  3.62it/s]  65%|██████▌   | 242738/371472 [8:16:51<10:10:14,  3.52it/s] 65%|██████▌   | 242739/371472 [8:16:51<10:38:07,  3.36it/s] 65%|██████▌   | 242740/371472 [8:16:51<10:38:32,  3.36it/s]                                                            {'loss': 2.9757, 'learning_rate': 4.120590833674502e-07, 'epoch': 10.46}
 65%|██████▌   | 242740/371472 [8:16:51<10:38:32,  3.36it/s] 65%|██████▌   | 242741/371472 [8:16:52<10:28:48,  3.41it/s] 65%|██████▌   | 242742/371472 [8:16:52<10:13:54,  3.49it/s] 65%|██████▌   | 242743/371472 [8:16:52<10:19:48,  3.46it/s] 65%|██████▌   | 242744/371472 [8:16:52<10:10:11,  3.52it/s] 65%|██████▌   | 242745/371472 [8:16:53<10:15:09,  3.49it/s] 65%|██████▌   | 242746/371472 [8:16:53<9:59:20,  3.58it/s]  65%|██████▌   | 242747/371472 [8:16:53<9:53:49,  3.61it/s] 65%|██████▌   | 242748/371472 [8:16:54<10:18:27,  3.47it/s] 65%|██████▌   | 242749/371472 [8:16:54<10:00:45,  3.57it/s] 65%|██████▌   | 242750/371472 [8:16:54<9:38:31,  3.71it/s]  65%|██████▌   | 242751/371472 [8:16:54<10:26:59,  3.42it/s] 65%|██████▌   | 242752/371472 [8:16:55<10:23:23,  3.44it/s] 65%|██████▌   | 242753/371472 [8:16:55<10:15:48,  3.48it/s] 65%|██████▌   | 242754/371472 [8:16:55<10:04:42,  3.55it/s] 65%|██████▌   | 242755/371472 [8:16:56<9:43:32,  3.68it/s]  65%|██████▌   | 242756/371472 [8:16:56<9:42:22,  3.68it/s] 65%|██████▌   | 242757/371472 [8:16:56<9:34:43,  3.73it/s] 65%|██████▌   | 242758/371472 [8:16:56<9:39:24,  3.70it/s] 65%|██████▌   | 242759/371472 [8:16:57<9:34:58,  3.73it/s] 65%|██████▌   | 242760/371472 [8:16:57<10:07:53,  3.53it/s]                                                            {'loss': 2.9655, 'learning_rate': 4.120106013919714e-07, 'epoch': 10.46}
 65%|██████▌   | 242760/371472 [8:16:57<10:07:53,  3.53it/s] 65%|██████▌   | 242761/371472 [8:16:57<9:55:03,  3.60it/s]  65%|██████▌   | 242762/371472 [8:16:57<9:28:53,  3.77it/s] 65%|██████▌   | 242763/371472 [8:16:58<9:35:08,  3.73it/s] 65%|██████▌   | 242764/371472 [8:16:58<10:00:59,  3.57it/s] 65%|██████▌   | 242765/371472 [8:16:58<10:15:26,  3.49it/s] 65%|██████▌   | 242766/371472 [8:16:59<9:51:10,  3.63it/s]  65%|██████▌   | 242767/371472 [8:16:59<9:42:17,  3.68it/s] 65%|██████▌   | 242768/371472 [8:16:59<9:30:27,  3.76it/s] 65%|██████▌   | 242769/371472 [8:16:59<9:49:45,  3.64it/s] 65%|██████▌   | 242770/371472 [8:17:00<9:28:47,  3.77it/s] 65%|██████▌   | 242771/371472 [8:17:00<10:09:18,  3.52it/s] 65%|██████▌   | 242772/371472 [8:17:00<9:44:38,  3.67it/s]  65%|██████▌   | 242773/371472 [8:17:00<9:32:41,  3.75it/s] 65%|██████▌   | 242774/371472 [8:17:01<9:34:03,  3.74it/s] 65%|██████▌   | 242775/371472 [8:17:01<9:46:50,  3.66it/s] 65%|██████▌   | 242776/371472 [8:17:01<9:52:57,  3.62it/s] 65%|██████▌   | 242777/371472 [8:17:02<9:33:47,  3.74it/s] 65%|██████▌   | 242778/371472 [8:17:02<9:12:14,  3.88it/s] 65%|██████▌   | 242779/371472 [8:17:02<9:45:06,  3.67it/s] 65%|██████▌   | 242780/371472 [8:17:02<10:21:51,  3.45it/s]                                                            {'loss': 2.9655, 'learning_rate': 4.1196211941649245e-07, 'epoch': 10.46}
 65%|██████▌   | 242780/371472 [8:17:02<10:21:51,  3.45it/s] 65%|██████▌   | 242781/371472 [8:17:03<9:59:12,  3.58it/s]  65%|██████▌   | 242782/371472 [8:17:03<10:05:11,  3.54it/s] 65%|██████▌   | 242783/371472 [8:17:03<10:34:22,  3.38it/s] 65%|██████▌   | 242784/371472 [8:17:04<10:11:06,  3.51it/s] 65%|██████▌   | 242785/371472 [8:17:04<10:07:28,  3.53it/s] 65%|██████▌   | 242786/371472 [8:17:04<9:41:14,  3.69it/s]  65%|██████▌   | 242787/371472 [8:17:04<9:42:51,  3.68it/s] 65%|██████▌   | 242788/371472 [8:17:05<9:36:43,  3.72it/s] 65%|██████▌   | 242789/371472 [8:17:05<9:30:59,  3.76it/s] 65%|██████▌   | 242790/371472 [8:17:05<9:24:46,  3.80it/s] 65%|██████▌   | 242791/371472 [8:17:05<9:43:40,  3.67it/s] 65%|██████▌   | 242792/371472 [8:17:06<10:39:04,  3.36it/s] 65%|██████▌   | 242793/371472 [8:17:06<10:02:37,  3.56it/s] 65%|██████▌   | 242794/371472 [8:17:06<9:44:20,  3.67it/s]  65%|██████▌   | 242795/371472 [8:17:07<9:24:10,  3.80it/s] 65%|██████▌   | 242796/371472 [8:17:07<9:32:57,  3.74it/s] 65%|██████▌   | 242797/371472 [8:17:07<9:45:29,  3.66it/s] 65%|██████▌   | 242798/371472 [8:17:07<9:30:37,  3.76it/s] 65%|██████▌   | 242799/371472 [8:17:08<9:12:43,  3.88it/s] 65%|██████▌   | 242800/371472 [8:17:08<9:11:37,  3.89it/s]                                                           {'loss': 2.9524, 'learning_rate': 4.119136374410136e-07, 'epoch': 10.46}
 65%|██████▌   | 242800/371472 [8:17:08<9:11:37,  3.89it/s] 65%|██████▌   | 242801/371472 [8:17:08<9:02:44,  3.95it/s] 65%|██████▌   | 242802/371472 [8:17:08<9:28:22,  3.77it/s] 65%|██████▌   | 242803/371472 [8:17:09<9:18:03,  3.84it/s] 65%|██████▌   | 242804/371472 [8:17:09<9:18:59,  3.84it/s] 65%|██████▌   | 242805/371472 [8:17:09<10:20:38,  3.46it/s] 65%|██████▌   | 242806/371472 [8:17:10<10:26:50,  3.42it/s] 65%|██████▌   | 242807/371472 [8:17:10<10:50:22,  3.30it/s] 65%|██████▌   | 242808/371472 [8:17:10<10:14:41,  3.49it/s] 65%|██████▌   | 242809/371472 [8:17:10<9:46:28,  3.66it/s]  65%|██████▌   | 242810/371472 [8:17:11<9:18:53,  3.84it/s] 65%|██████▌   | 242811/371472 [8:17:11<9:17:52,  3.84it/s] 65%|██████▌   | 242812/371472 [8:17:11<9:31:09,  3.75it/s] 65%|██████▌   | 242813/371472 [8:17:11<9:13:17,  3.88it/s] 65%|██████▌   | 242814/371472 [8:17:12<8:55:29,  4.00it/s] 65%|██████▌   | 242815/371472 [8:17:12<8:57:15,  3.99it/s] 65%|██████▌   | 242816/371472 [8:17:12<10:18:22,  3.47it/s] 65%|██████▌   | 242817/371472 [8:17:12<10:04:24,  3.55it/s] 65%|██████▌   | 242818/371472 [8:17:13<10:16:09,  3.48it/s] 65%|██████▌   | 242819/371472 [8:17:13<9:57:32,  3.59it/s]  65%|██████▌   | 242820/371472 [8:17:13<9:32:34,  3.74it/s]                                                           {'loss': 2.8481, 'learning_rate': 4.1186515546553465e-07, 'epoch': 10.46}
 65%|██████▌   | 242820/371472 [8:17:13<9:32:34,  3.74it/s] 65%|██████▌   | 242821/371472 [8:17:14<9:52:10,  3.62it/s] 65%|██████▌   | 242822/371472 [8:17:14<9:45:25,  3.66it/s] 65%|██████▌   | 242823/371472 [8:17:14<9:50:21,  3.63it/s] 65%|██████▌   | 242824/371472 [8:17:14<9:34:31,  3.73it/s] 65%|██████▌   | 242825/371472 [8:17:15<9:41:26,  3.69it/s] 65%|██████▌   | 242826/371472 [8:17:15<9:49:44,  3.64it/s] 65%|██████▌   | 242827/371472 [8:17:15<10:21:16,  3.45it/s] 65%|██████▌   | 242828/371472 [8:17:16<10:12:33,  3.50it/s] 65%|██████▌   | 242829/371472 [8:17:16<9:51:25,  3.63it/s]  65%|██████▌   | 242830/371472 [8:17:16<9:49:24,  3.64it/s] 65%|██████▌   | 242831/371472 [8:17:16<11:17:54,  3.16it/s] 65%|██████▌   | 242832/371472 [8:17:17<11:11:33,  3.19it/s] 65%|██████▌   | 242833/371472 [8:17:17<10:47:18,  3.31it/s] 65%|██████▌   | 242834/371472 [8:17:17<10:16:19,  3.48it/s] 65%|██████▌   | 242835/371472 [8:17:18<10:23:22,  3.44it/s] 65%|██████▌   | 242836/371472 [8:17:18<10:23:23,  3.44it/s] 65%|██████▌   | 242837/371472 [8:17:18<10:17:50,  3.47it/s] 65%|██████▌   | 242838/371472 [8:17:18<10:08:57,  3.52it/s] 65%|██████▌   | 242839/371472 [8:17:19<10:03:00,  3.56it/s] 65%|██████▌   | 242840/371472 [8:17:19<10:47:55,  3.31it/s]                                                            {'loss': 2.6331, 'learning_rate': 4.1181667349005583e-07, 'epoch': 10.46}
 65%|██████▌   | 242840/371472 [8:17:19<10:47:55,  3.31it/s] 65%|██████▌   | 242841/371472 [8:17:19<10:39:37,  3.35it/s] 65%|██████▌   | 242842/371472 [8:17:20<9:59:34,  3.58it/s]  65%|██████▌   | 242843/371472 [8:17:20<10:24:20,  3.43it/s] 65%|██████▌   | 242844/371472 [8:17:20<10:20:51,  3.45it/s] 65%|██████▌   | 242845/371472 [8:17:20<10:04:37,  3.55it/s] 65%|██████▌   | 242846/371472 [8:17:21<10:10:33,  3.51it/s] 65%|██████▌   | 242847/371472 [8:17:21<10:21:31,  3.45it/s] 65%|██████▌   | 242848/371472 [8:17:21<10:33:35,  3.38it/s] 65%|██████▌   | 242849/371472 [8:17:22<10:29:30,  3.41it/s] 65%|██████▌   | 242850/371472 [8:17:22<10:23:44,  3.44it/s] 65%|██████▌   | 242851/371472 [8:17:22<10:38:56,  3.36it/s] 65%|██████▌   | 242852/371472 [8:17:23<10:32:39,  3.39it/s] 65%|██████▌   | 242853/371472 [8:17:23<10:32:46,  3.39it/s] 65%|██████▌   | 242854/371472 [8:17:23<10:08:42,  3.52it/s] 65%|██████▌   | 242855/371472 [8:17:23<10:19:59,  3.46it/s] 65%|██████▌   | 242856/371472 [8:17:24<10:00:42,  3.57it/s] 65%|██████▌   | 242857/371472 [8:17:24<11:02:51,  3.23it/s] 65%|██████▌   | 242858/371472 [8:17:24<11:10:17,  3.20it/s] 65%|██████▌   | 242859/371472 [8:17:25<10:23:54,  3.44it/s] 65%|██████▌   | 242860/371472 [8:17:25<10:25:23,  3.43it/s]                                                            {'loss': 2.7673, 'learning_rate': 4.1176819151457685e-07, 'epoch': 10.46}
 65%|██████▌   | 242860/371472 [8:17:25<10:25:23,  3.43it/s] 65%|██████▌   | 242861/371472 [8:17:25<10:46:16,  3.32it/s] 65%|██████▌   | 242862/371472 [8:17:26<10:52:56,  3.28it/s] 65%|██████▌   | 242863/371472 [8:17:26<11:10:15,  3.20it/s] 65%|██████▌   | 242864/371472 [8:17:26<10:49:07,  3.30it/s] 65%|██████▌   | 242865/371472 [8:17:26<11:22:46,  3.14it/s] 65%|██████▌   | 242866/371472 [8:17:27<10:44:35,  3.33it/s] 65%|██████▌   | 242867/371472 [8:17:27<10:32:01,  3.39it/s] 65%|██████▌   | 242868/371472 [8:17:27<10:31:45,  3.39it/s] 65%|██████▌   | 242869/371472 [8:17:28<10:00:25,  3.57it/s] 65%|██████▌   | 242870/371472 [8:17:28<9:43:29,  3.67it/s]  65%|██████▌   | 242871/371472 [8:17:28<9:27:36,  3.78it/s] 65%|██████▌   | 242872/371472 [8:17:28<10:23:25,  3.44it/s] 65%|██████▌   | 242873/371472 [8:17:29<10:00:22,  3.57it/s] 65%|██████▌   | 242874/371472 [8:17:29<9:40:43,  3.69it/s]  65%|██████▌   | 242875/371472 [8:17:29<9:29:46,  3.76it/s] 65%|██████▌   | 242876/371472 [8:17:30<10:36:43,  3.37it/s] 65%|██████▌   | 242877/371472 [8:17:30<12:17:44,  2.91it/s] 65%|██████▌   | 242878/371472 [8:17:30<12:13:48,  2.92it/s] 65%|██████▌   | 242879/371472 [8:17:31<11:15:19,  3.17it/s] 65%|██████▌   | 242880/371472 [8:17:31<10:32:56,  3.39it/s]                                                            {'loss': 2.8594, 'learning_rate': 4.11719709539098e-07, 'epoch': 10.46}
 65%|██████▌   | 242880/371472 [8:17:31<10:32:56,  3.39it/s] 65%|██████▌   | 242881/371472 [8:17:31<10:07:26,  3.53it/s] 65%|██████▌   | 242882/371472 [8:17:31<9:56:42,  3.59it/s]  65%|██████▌   | 242883/371472 [8:17:32<9:51:38,  3.62it/s] 65%|██████▌   | 242884/371472 [8:17:32<9:34:07,  3.73it/s] 65%|██████▌   | 242885/371472 [8:17:32<9:53:43,  3.61it/s] 65%|██████▌   | 242886/371472 [8:17:32<9:44:47,  3.66it/s] 65%|██████▌   | 242887/371472 [8:17:33<10:15:33,  3.48it/s] 65%|██████▌   | 242888/371472 [8:17:33<10:10:39,  3.51it/s] 65%|██████▌   | 242889/371472 [8:17:33<9:55:29,  3.60it/s]  65%|██████▌   | 242890/371472 [8:17:34<10:14:56,  3.48it/s] 65%|██████▌   | 242891/371472 [8:17:34<10:14:39,  3.49it/s] 65%|██████▌   | 242892/371472 [8:17:34<10:56:33,  3.26it/s] 65%|██████▌   | 242893/371472 [8:17:35<11:06:59,  3.21it/s] 65%|██████▌   | 242894/371472 [8:17:35<11:10:09,  3.20it/s] 65%|██████▌   | 242895/371472 [8:17:35<11:01:12,  3.24it/s] 65%|██████▌   | 242896/371472 [8:17:36<11:25:20,  3.13it/s] 65%|██████▌   | 242897/371472 [8:17:36<11:03:29,  3.23it/s] 65%|██████▌   | 242898/371472 [8:17:36<10:52:40,  3.28it/s] 65%|██████▌   | 242899/371472 [8:17:36<10:29:54,  3.40it/s] 65%|██████▌   | 242900/371472 [8:17:37<10:40:54,  3.34it/s]                                                            {'loss': 2.8524, 'learning_rate': 4.116712275636191e-07, 'epoch': 10.46}
 65%|██████▌   | 242900/371472 [8:17:37<10:40:54,  3.34it/s] 65%|██████▌   | 242901/371472 [8:17:37<10:16:00,  3.48it/s] 65%|██████▌   | 242902/371472 [8:17:37<10:02:39,  3.56it/s] 65%|██████▌   | 242903/371472 [8:17:37<9:37:43,  3.71it/s]  65%|██████▌   | 242904/371472 [8:17:38<9:26:37,  3.78it/s] 65%|██████▌   | 242905/371472 [8:17:38<9:46:53,  3.65it/s] 65%|██████▌   | 242906/371472 [8:17:38<9:25:21,  3.79it/s] 65%|██████▌   | 242907/371472 [8:17:39<9:44:42,  3.66it/s] 65%|██████▌   | 242908/371472 [8:17:39<10:24:41,  3.43it/s] 65%|██████▌   | 242909/371472 [8:17:39<9:59:58,  3.57it/s]  65%|██████▌   | 242910/371472 [8:17:39<10:19:21,  3.46it/s] 65%|██████▌   | 242911/371472 [8:17:40<10:07:32,  3.53it/s] 65%|██████▌   | 242912/371472 [8:17:40<10:37:36,  3.36it/s] 65%|██████▌   | 242913/371472 [8:17:40<10:31:53,  3.39it/s] 65%|██████▌   | 242914/371472 [8:17:41<10:10:36,  3.51it/s] 65%|██████▌   | 242915/371472 [8:17:41<9:43:35,  3.67it/s]  65%|██████▌   | 242916/371472 [8:17:41<10:22:01,  3.44it/s] 65%|██████▌   | 242917/371472 [8:17:41<10:09:32,  3.52it/s] 65%|██████▌   | 242918/371472 [8:17:42<9:45:11,  3.66it/s]  65%|██████▌   | 242919/371472 [8:17:42<9:35:57,  3.72it/s] 65%|██████▌   | 242920/371472 [8:17:42<9:20:18,  3.82it/s]                                                           {'loss': 2.9724, 'learning_rate': 4.116227455881402e-07, 'epoch': 10.46}
 65%|██████▌   | 242920/371472 [8:17:42<9:20:18,  3.82it/s] 65%|██████▌   | 242921/371472 [8:17:43<10:24:08,  3.43it/s] 65%|██████▌   | 242922/371472 [8:17:43<10:28:38,  3.41it/s] 65%|██████▌   | 242923/371472 [8:17:43<10:07:25,  3.53it/s] 65%|██████▌   | 242924/371472 [8:17:43<9:55:33,  3.60it/s]  65%|██████▌   | 242925/371472 [8:17:44<9:32:43,  3.74it/s] 65%|██████▌   | 242926/371472 [8:17:44<9:52:17,  3.62it/s] 65%|██████▌   | 242927/371472 [8:17:44<9:38:17,  3.70it/s] 65%|██████▌   | 242928/371472 [8:17:44<9:46:53,  3.65it/s] 65%|██████▌   | 242929/371472 [8:17:45<9:41:44,  3.68it/s] 65%|██████▌   | 242930/371472 [8:17:45<9:49:08,  3.64it/s] 65%|██████▌   | 242931/371472 [8:17:45<9:46:33,  3.65it/s] 65%|██████▌   | 242932/371472 [8:17:46<9:27:51,  3.77it/s] 65%|██████▌   | 242933/371472 [8:17:46<9:09:28,  3.90it/s] 65%|██████▌   | 242934/371472 [8:17:46<9:05:24,  3.93it/s] 65%|██████▌   | 242935/371472 [8:17:46<9:39:08,  3.70it/s] 65%|██████▌   | 242936/371472 [8:17:47<9:38:44,  3.70it/s] 65%|██████▌   | 242937/371472 [8:17:47<9:35:40,  3.72it/s] 65%|██████▌   | 242938/371472 [8:17:47<9:30:56,  3.75it/s] 65%|██████▌   | 242939/371472 [8:17:47<9:27:47,  3.77it/s] 65%|██████▌   | 242940/371472 [8:17:48<9:25:26,  3.79it/s]                                                           {'loss': 2.7537, 'learning_rate': 4.115742636126613e-07, 'epoch': 10.46}
 65%|██████▌   | 242940/371472 [8:17:48<9:25:26,  3.79it/s] 65%|██████▌   | 242941/371472 [8:17:48<9:28:00,  3.77it/s] 65%|██████▌   | 242942/371472 [8:17:48<10:35:01,  3.37it/s] 65%|██████▌   | 242943/371472 [8:17:49<10:10:22,  3.51it/s] 65%|██████▌   | 242944/371472 [8:17:49<9:49:35,  3.63it/s]  65%|██████▌   | 242945/371472 [8:17:49<9:40:25,  3.69it/s] 65%|██████▌   | 242946/371472 [8:17:49<9:38:16,  3.70it/s] 65%|██████▌   | 242947/371472 [8:17:50<9:39:23,  3.70it/s] 65%|██████▌   | 242948/371472 [8:17:50<10:03:10,  3.55it/s] 65%|██████▌   | 242949/371472 [8:17:50<10:00:26,  3.57it/s] 65%|██████▌   | 242950/371472 [8:17:50<10:03:53,  3.55it/s] 65%|██████▌   | 242951/371472 [8:17:51<9:46:01,  3.66it/s]  65%|██████▌   | 242952/371472 [8:17:51<9:43:08,  3.67it/s] 65%|██████▌   | 242953/371472 [8:17:51<10:17:19,  3.47it/s] 65%|██████▌   | 242954/371472 [8:17:52<10:25:02,  3.43it/s] 65%|██████▌   | 242955/371472 [8:17:52<10:35:18,  3.37it/s] 65%|██████▌   | 242956/371472 [8:17:52<10:20:30,  3.45it/s] 65%|██████▌   | 242957/371472 [8:17:53<11:39:24,  3.06it/s] 65%|██████▌   | 242958/371472 [8:17:53<11:59:12,  2.98it/s] 65%|██████▌   | 242959/371472 [8:17:53<12:14:36,  2.92it/s] 65%|██████▌   | 242960/371472 [8:17:54<11:00:45,  3.24it/s]                                                            {'loss': 2.9491, 'learning_rate': 4.1152578163718247e-07, 'epoch': 10.46}
 65%|██████▌   | 242960/371472 [8:17:54<11:00:45,  3.24it/s] 65%|██████▌   | 242961/371472 [8:17:54<11:11:32,  3.19it/s] 65%|██████▌   | 242962/371472 [8:17:54<10:44:54,  3.32it/s] 65%|██████▌   | 242963/371472 [8:17:54<10:17:30,  3.47it/s] 65%|██████▌   | 242964/371472 [8:17:55<10:40:18,  3.34it/s] 65%|██████▌   | 242965/371472 [8:17:55<9:55:09,  3.60it/s]  65%|██████▌   | 242966/371472 [8:17:55<9:43:07,  3.67it/s] 65%|██████▌   | 242967/371472 [8:17:56<9:56:34,  3.59it/s] 65%|██████▌   | 242968/371472 [8:17:56<10:03:05,  3.55it/s] 65%|██████▌   | 242969/371472 [8:17:56<9:48:29,  3.64it/s]  65%|██████▌   | 242970/371472 [8:17:56<9:33:40,  3.73it/s] 65%|██████▌   | 242971/371472 [8:17:57<9:38:44,  3.70it/s] 65%|██████▌   | 242972/371472 [8:17:57<9:46:37,  3.65it/s] 65%|██████▌   | 242973/371472 [8:17:57<9:39:07,  3.70it/s] 65%|██████▌   | 242974/371472 [8:17:57<10:01:44,  3.56it/s] 65%|██████▌   | 242975/371472 [8:17:58<10:52:41,  3.28it/s] 65%|██████▌   | 242976/371472 [8:17:58<10:20:04,  3.45it/s] 65%|██████▌   | 242977/371472 [8:17:58<11:21:27,  3.14it/s] 65%|██████▌   | 242978/371472 [8:17:59<10:40:18,  3.34it/s] 65%|██████▌   | 242979/371472 [8:17:59<10:06:04,  3.53it/s] 65%|██████▌   | 242980/371472 [8:17:59<10:23:54,  3.43it/s]                                                            {'loss': 2.7779, 'learning_rate': 4.1147729966170354e-07, 'epoch': 10.47}
 65%|██████▌   | 242980/371472 [8:17:59<10:23:54,  3.43it/s] 65%|██████▌   | 242981/371472 [8:18:00<10:13:28,  3.49it/s] 65%|██████▌   | 242982/371472 [8:18:00<9:43:46,  3.67it/s]  65%|██████▌   | 242983/371472 [8:18:00<9:41:00,  3.69it/s] 65%|██████▌   | 242984/371472 [8:18:00<9:31:23,  3.75it/s] 65%|██████▌   | 242985/371472 [8:18:01<10:04:52,  3.54it/s] 65%|██████▌   | 242986/371472 [8:18:01<10:06:22,  3.53it/s] 65%|██████▌   | 242987/371472 [8:18:01<10:01:22,  3.56it/s] 65%|██████▌   | 242988/371472 [8:18:01<9:49:18,  3.63it/s]  65%|██████▌   | 242989/371472 [8:18:02<9:31:24,  3.75it/s] 65%|██████▌   | 242990/371472 [8:18:02<9:52:44,  3.61it/s] 65%|██████▌   | 242991/371472 [8:18:02<9:33:08,  3.74it/s] 65%|██████▌   | 242992/371472 [8:18:02<9:39:12,  3.70it/s] 65%|██████▌   | 242993/371472 [8:18:03<9:51:47,  3.62it/s] 65%|██████▌   | 242994/371472 [8:18:03<9:41:57,  3.68it/s] 65%|██████▌   | 242995/371472 [8:18:03<9:32:47,  3.74it/s] 65%|██████▌   | 242996/371472 [8:18:04<9:58:54,  3.58it/s] 65%|██████▌   | 242997/371472 [8:18:04<10:17:00,  3.47it/s] 65%|██████▌   | 242998/371472 [8:18:04<9:58:54,  3.58it/s]  65%|██████▌   | 242999/371472 [8:18:04<9:32:01,  3.74it/s] 65%|██████▌   | 243000/371472 [8:18:05<10:53:14,  3.28it/s]                                                            {'loss': 2.7045, 'learning_rate': 4.1142881768622466e-07, 'epoch': 10.47}
 65%|██████▌   | 243000/371472 [8:18:05<10:53:14,  3.28it/s] 65%|██████▌   | 243001/371472 [8:18:05<11:15:23,  3.17it/s] 65%|██████▌   | 243002/371472 [8:18:05<10:39:22,  3.35it/s] 65%|██████▌   | 243003/371472 [8:18:06<10:13:42,  3.49it/s] 65%|██████▌   | 243004/371472 [8:18:06<10:45:37,  3.32it/s] 65%|██████▌   | 243005/371472 [8:18:06<10:54:04,  3.27it/s] 65%|██████▌   | 243006/371472 [8:18:07<10:19:34,  3.46it/s] 65%|██████▌   | 243007/371472 [8:18:07<10:19:46,  3.45it/s] 65%|██████▌   | 243008/371472 [8:18:07<10:02:43,  3.55it/s] 65%|██████▌   | 243009/371472 [8:18:07<9:48:51,  3.64it/s]  65%|██████▌   | 243010/371472 [8:18:08<9:26:35,  3.78it/s] 65%|██████▌   | 243011/371472 [8:18:08<9:09:11,  3.90it/s] 65%|██████▌   | 243012/371472 [8:18:08<8:59:28,  3.97it/s] 65%|██████▌   | 243013/371472 [8:18:08<9:51:33,  3.62it/s] 65%|██████▌   | 243014/371472 [8:18:09<9:38:46,  3.70it/s] 65%|██████▌   | 243015/371472 [8:18:09<9:35:15,  3.72it/s] 65%|██████▌   | 243016/371472 [8:18:09<9:26:26,  3.78it/s] 65%|██████▌   | 243017/371472 [8:18:10<10:02:50,  3.55it/s] 65%|██████▌   | 243018/371472 [8:18:10<10:02:56,  3.55it/s] 65%|██████▌   | 243019/371472 [8:18:10<9:32:13,  3.74it/s]  65%|██████▌   | 243020/371472 [8:18:10<9:36:32,  3.71it/s]                                                           {'loss': 2.8686, 'learning_rate': 4.113803357107458e-07, 'epoch': 10.47}
 65%|██████▌   | 243020/371472 [8:18:10<9:36:32,  3.71it/s] 65%|██████▌   | 243021/371472 [8:18:11<9:15:58,  3.85it/s] 65%|██████▌   | 243022/371472 [8:18:11<9:19:10,  3.83it/s] 65%|██████▌   | 243023/371472 [8:18:11<9:12:42,  3.87it/s] 65%|██████▌   | 243024/371472 [8:18:11<9:28:45,  3.76it/s] 65%|██████▌   | 243025/371472 [8:18:12<9:29:45,  3.76it/s] 65%|██████▌   | 243026/371472 [8:18:12<9:14:07,  3.86it/s] 65%|██████▌   | 243027/371472 [8:18:12<8:56:21,  3.99it/s] 65%|██████▌   | 243028/371472 [8:18:12<9:08:33,  3.90it/s] 65%|██████▌   | 243029/371472 [8:18:13<9:04:16,  3.93it/s] 65%|██████▌   | 243030/371472 [8:18:13<9:00:08,  3.96it/s] 65%|██████▌   | 243031/371472 [8:18:13<10:44:04,  3.32it/s] 65%|██████▌   | 243032/371472 [8:18:14<10:13:51,  3.49it/s] 65%|██████▌   | 243033/371472 [8:18:14<9:56:57,  3.59it/s]  65%|██████▌   | 243034/371472 [8:18:14<9:57:41,  3.58it/s] 65%|██████▌   | 243035/371472 [8:18:14<10:01:20,  3.56it/s] 65%|██████▌   | 243036/371472 [8:18:15<9:53:12,  3.61it/s]  65%|██████▌   | 243037/371472 [8:18:15<10:19:03,  3.46it/s] 65%|██████▌   | 243038/371472 [8:18:15<10:07:34,  3.52it/s] 65%|██████▌   | 243039/371472 [8:18:15<10:01:15,  3.56it/s] 65%|██████▌   | 243040/371472 [8:18:16<10:07:24,  3.52it/s]                                                            {'loss': 2.8866, 'learning_rate': 4.113318537352669e-07, 'epoch': 10.47}
 65%|██████▌   | 243040/371472 [8:18:16<10:07:24,  3.52it/s] 65%|██████▌   | 243041/371472 [8:18:16<9:59:55,  3.57it/s]  65%|██████▌   | 243042/371472 [8:18:16<9:37:15,  3.71it/s] 65%|██████▌   | 243043/371472 [8:18:17<10:07:43,  3.52it/s] 65%|██████▌   | 243044/371472 [8:18:17<9:54:53,  3.60it/s]  65%|██████▌   | 243045/371472 [8:18:17<10:06:16,  3.53it/s] 65%|██████▌   | 243046/371472 [8:18:17<9:54:42,  3.60it/s]  65%|██████▌   | 243047/371472 [8:18:18<9:38:27,  3.70it/s] 65%|██████▌   | 243048/371472 [8:18:18<9:51:46,  3.62it/s] 65%|██████▌   | 243049/371472 [8:18:18<9:53:14,  3.61it/s] 65%|██████▌   | 243050/371472 [8:18:19<9:56:23,  3.59it/s] 65%|██████▌   | 243051/371472 [8:18:19<10:16:07,  3.47it/s] 65%|██████▌   | 243052/371472 [8:18:19<9:50:02,  3.63it/s]  65%|██████▌   | 243053/371472 [8:18:19<9:27:22,  3.77it/s] 65%|██████▌   | 243054/371472 [8:18:20<9:15:15,  3.85it/s] 65%|██████▌   | 243055/371472 [8:18:20<9:33:57,  3.73it/s] 65%|██████▌   | 243056/371472 [8:18:20<9:26:13,  3.78it/s] 65%|██████▌   | 243057/371472 [8:18:20<9:22:30,  3.80it/s] 65%|██████▌   | 243058/371472 [8:18:21<9:29:07,  3.76it/s] 65%|██████▌   | 243059/371472 [8:18:21<9:12:08,  3.88it/s] 65%|██████▌   | 243060/371472 [8:18:21<9:18:42,  3.83it/s]                                                           {'loss': 2.9541, 'learning_rate': 4.1128337175978793e-07, 'epoch': 10.47}
 65%|██████▌   | 243060/371472 [8:18:21<9:18:42,  3.83it/s] 65%|██████▌   | 243061/371472 [8:18:21<9:48:54,  3.63it/s] 65%|██████▌   | 243062/371472 [8:18:22<10:17:24,  3.47it/s] 65%|██████▌   | 243063/371472 [8:18:22<10:48:07,  3.30it/s] 65%|██████▌   | 243064/371472 [8:18:22<10:56:34,  3.26it/s] 65%|██████▌   | 243065/371472 [8:18:23<11:08:23,  3.20it/s] 65%|██████▌   | 243066/371472 [8:18:23<10:18:22,  3.46it/s] 65%|██████▌   | 243067/371472 [8:18:23<9:59:24,  3.57it/s]  65%|██████▌   | 243068/371472 [8:18:24<9:34:52,  3.72it/s] 65%|██████▌   | 243069/371472 [8:18:24<9:30:35,  3.75it/s] 65%|██████▌   | 243070/371472 [8:18:24<9:18:22,  3.83it/s] 65%|██████▌   | 243071/371472 [8:18:24<9:45:32,  3.65it/s] 65%|██████▌   | 243072/371472 [8:18:25<9:23:04,  3.80it/s] 65%|██████▌   | 243073/371472 [8:18:25<9:34:42,  3.72it/s] 65%|██████▌   | 243074/371472 [8:18:25<9:29:56,  3.75it/s] 65%|██████▌   | 243075/371472 [8:18:25<9:42:42,  3.67it/s] 65%|██████▌   | 243076/371472 [8:18:26<10:05:14,  3.54it/s] 65%|██████▌   | 243077/371472 [8:18:26<9:26:37,  3.78it/s]  65%|██████▌   | 243078/371472 [8:18:26<9:23:30,  3.80it/s] 65%|██████▌   | 243079/371472 [8:18:26<9:32:56,  3.73it/s] 65%|██████▌   | 243080/371472 [8:18:27<9:57:13,  3.58it/s]                                                           {'loss': 2.8343, 'learning_rate': 4.112348897843091e-07, 'epoch': 10.47}
 65%|██████▌   | 243080/371472 [8:18:27<9:57:13,  3.58it/s] 65%|██████▌   | 243081/371472 [8:18:27<10:27:36,  3.41it/s] 65%|██████▌   | 243082/371472 [8:18:27<9:56:22,  3.59it/s]  65%|██████▌   | 243083/371472 [8:18:28<9:54:55,  3.60it/s] 65%|██████▌   | 243084/371472 [8:18:28<9:34:51,  3.72it/s] 65%|██████▌   | 243085/371472 [8:18:28<10:01:33,  3.56it/s] 65%|██████▌   | 243086/371472 [8:18:28<9:59:00,  3.57it/s]  65%|██████▌   | 243087/371472 [8:18:29<9:53:00,  3.61it/s] 65%|██████▌   | 243088/371472 [8:18:29<9:59:13,  3.57it/s] 65%|██████▌   | 243089/371472 [8:18:29<10:45:16,  3.32it/s] 65%|██████▌   | 243090/371472 [8:18:30<10:14:09,  3.48it/s] 65%|██████▌   | 243091/371472 [8:18:30<10:05:50,  3.53it/s] 65%|██████▌   | 243092/371472 [8:18:30<10:08:49,  3.51it/s] 65%|██████▌   | 243093/371472 [8:18:30<9:34:46,  3.72it/s]  65%|██████▌   | 243094/371472 [8:18:31<9:36:49,  3.71it/s] 65%|██████▌   | 243095/371472 [8:18:31<10:09:43,  3.51it/s] 65%|██████▌   | 243096/371472 [8:18:31<10:16:08,  3.47it/s] 65%|██████▌   | 243097/371472 [8:18:32<10:01:34,  3.56it/s] 65%|██████▌   | 243098/371472 [8:18:32<10:25:03,  3.42it/s] 65%|██████▌   | 243099/371472 [8:18:32<10:02:44,  3.55it/s] 65%|██████▌   | 243100/371472 [8:18:32<9:45:52,  3.65it/s]                                                            {'loss': 2.6936, 'learning_rate': 4.111864078088302e-07, 'epoch': 10.47}
 65%|██████▌   | 243100/371472 [8:18:32<9:45:52,  3.65it/s] 65%|██████▌   | 243101/371472 [8:18:33<9:28:44,  3.76it/s] 65%|██████▌   | 243102/371472 [8:18:33<9:23:43,  3.80it/s] 65%|██████▌   | 243103/371472 [8:18:33<9:46:53,  3.65it/s] 65%|██████▌   | 243104/371472 [8:18:34<10:09:51,  3.51it/s] 65%|██████▌   | 243105/371472 [8:18:34<9:51:25,  3.62it/s]  65%|██████▌   | 243106/371472 [8:18:34<10:17:38,  3.46it/s] 65%|██████▌   | 243107/371472 [8:18:34<11:11:49,  3.18it/s] 65%|██████▌   | 243108/371472 [8:18:35<11:55:19,  2.99it/s] 65%|██████▌   | 243109/371472 [8:18:35<11:41:31,  3.05it/s] 65%|██████▌   | 243110/371472 [8:18:35<11:16:36,  3.16it/s] 65%|██████▌   | 243111/371472 [8:18:36<11:08:58,  3.20it/s] 65%|██████▌   | 243112/371472 [8:18:36<10:31:23,  3.39it/s] 65%|██████▌   | 243113/371472 [8:18:36<10:02:55,  3.55it/s] 65%|██████▌   | 243114/371472 [8:18:36<9:48:34,  3.63it/s]  65%|██████▌   | 243115/371472 [8:18:37<10:03:43,  3.54it/s] 65%|██████▌   | 243116/371472 [8:18:37<9:46:38,  3.65it/s]  65%|██████▌   | 243117/371472 [8:18:37<9:31:34,  3.74it/s] 65%|██████▌   | 243118/371472 [8:18:38<9:37:58,  3.70it/s] 65%|██████▌   | 243119/371472 [8:18:38<9:45:32,  3.65it/s] 65%|██████▌   | 243120/371472 [8:18:38<9:36:11,  3.71it/s]                                                           {'loss': 2.8204, 'learning_rate': 4.111379258333513e-07, 'epoch': 10.47}
 65%|██████▌   | 243120/371472 [8:18:38<9:36:11,  3.71it/s] 65%|██████▌   | 243121/371472 [8:18:38<9:30:57,  3.75it/s] 65%|██████▌   | 243122/371472 [8:18:39<9:23:56,  3.79it/s] 65%|██████▌   | 243123/371472 [8:18:39<10:20:41,  3.45it/s] 65%|██████▌   | 243124/371472 [8:18:39<9:53:50,  3.60it/s]  65%|██████▌   | 243125/371472 [8:18:40<9:56:19,  3.59it/s] 65%|██████▌   | 243126/371472 [8:18:40<10:23:02,  3.43it/s] 65%|██████▌   | 243127/371472 [8:18:40<10:14:55,  3.48it/s] 65%|██████▌   | 243128/371472 [8:18:40<10:09:31,  3.51it/s] 65%|██████▌   | 243129/371472 [8:18:41<11:02:34,  3.23it/s] 65%|██████▌   | 243130/371472 [8:18:41<11:23:54,  3.13it/s] 65%|██████▌   | 243131/371472 [8:18:41<10:55:04,  3.27it/s] 65%|██████▌   | 243132/371472 [8:18:42<10:23:59,  3.43it/s] 65%|██████▌   | 243133/371472 [8:18:42<10:11:57,  3.50it/s] 65%|██████▌   | 243134/371472 [8:18:42<10:31:25,  3.39it/s] 65%|██████▌   | 243135/371472 [8:18:43<10:28:52,  3.40it/s] 65%|██████▌   | 243136/371472 [8:18:43<10:34:20,  3.37it/s] 65%|██████▌   | 243137/371472 [8:18:43<10:50:27,  3.29it/s] 65%|██████▌   | 243138/371472 [8:18:43<10:43:17,  3.32it/s] 65%|██████▌   | 243139/371472 [8:18:44<10:23:43,  3.43it/s] 65%|██████▌   | 243140/371472 [8:18:44<10:02:52,  3.55it/s]                                                            {'loss': 2.714, 'learning_rate': 4.110894438578724e-07, 'epoch': 10.47}
 65%|██████▌   | 243140/371472 [8:18:44<10:02:52,  3.55it/s] 65%|██████▌   | 243141/371472 [8:18:44<9:48:18,  3.64it/s]  65%|██████▌   | 243142/371472 [8:18:45<10:14:42,  3.48it/s] 65%|██████▌   | 243143/371472 [8:18:45<10:18:29,  3.46it/s] 65%|██████▌   | 243144/371472 [8:18:45<10:02:33,  3.55it/s] 65%|██████▌   | 243145/371472 [8:18:45<9:49:57,  3.63it/s]  65%|██████▌   | 243146/371472 [8:18:46<10:12:58,  3.49it/s] 65%|██████▌   | 243147/371472 [8:18:46<10:49:02,  3.30it/s] 65%|██████▌   | 243148/371472 [8:18:46<10:29:59,  3.39it/s] 65%|██████▌   | 243149/371472 [8:18:47<10:08:09,  3.52it/s] 65%|██████▌   | 243150/371472 [8:18:47<10:37:50,  3.35it/s] 65%|██████▌   | 243151/371472 [8:18:47<10:28:19,  3.40it/s] 65%|██████▌   | 243152/371472 [8:18:47<10:48:16,  3.30it/s] 65%|██████▌   | 243153/371472 [8:18:48<10:34:30,  3.37it/s] 65%|██████▌   | 243154/371472 [8:18:48<10:07:46,  3.52it/s] 65%|██████▌   | 243155/371472 [8:18:48<10:11:05,  3.50it/s] 65%|██████▌   | 243156/371472 [8:18:49<9:59:09,  3.57it/s]  65%|██████▌   | 243157/371472 [8:18:49<9:35:44,  3.71it/s] 65%|██████▌   | 243158/371472 [8:18:49<9:44:35,  3.66it/s] 65%|██████▌   | 243159/371472 [8:18:49<10:21:58,  3.44it/s] 65%|██████▌   | 243160/371472 [8:18:50<10:32:07,  3.38it/s]                                                            {'loss': 2.8031, 'learning_rate': 4.1104096188239345e-07, 'epoch': 10.47}
 65%|██████▌   | 243160/371472 [8:18:50<10:32:07,  3.38it/s] 65%|██████▌   | 243161/371472 [8:18:50<10:11:34,  3.50it/s] 65%|██████▌   | 243162/371472 [8:18:50<9:56:21,  3.59it/s]  65%|██████▌   | 243163/371472 [8:18:51<9:51:57,  3.61it/s] 65%|██████▌   | 243164/371472 [8:18:51<9:20:50,  3.81it/s] 65%|██████▌   | 243165/371472 [8:18:51<9:55:57,  3.59it/s] 65%|██████▌   | 243166/371472 [8:18:51<10:20:57,  3.44it/s] 65%|██████▌   | 243167/371472 [8:18:52<10:54:30,  3.27it/s] 65%|██████▌   | 243168/371472 [8:18:52<10:33:15,  3.38it/s] 65%|██████▌   | 243169/371472 [8:18:52<10:44:56,  3.32it/s] 65%|██████▌   | 243170/371472 [8:18:53<10:21:41,  3.44it/s] 65%|██████▌   | 243171/371472 [8:18:53<10:29:50,  3.40it/s] 65%|██████▌   | 243172/371472 [8:18:53<10:50:52,  3.29it/s] 65%|██████▌   | 243173/371472 [8:18:53<10:12:51,  3.49it/s] 65%|██████▌   | 243174/371472 [8:18:54<10:23:20,  3.43it/s] 65%|██████▌   | 243175/371472 [8:18:54<10:20:24,  3.45it/s] 65%|██████▌   | 243176/371472 [8:18:54<9:47:48,  3.64it/s]  65%|██████▌   | 243177/371472 [8:18:55<9:53:44,  3.60it/s] 65%|██████▌   | 243178/371472 [8:18:55<10:02:14,  3.55it/s] 65%|██████▌   | 243179/371472 [8:18:55<9:53:26,  3.60it/s]  65%|██████▌   | 243180/371472 [8:18:55<9:42:39,  3.67it/s]                                                           {'loss': 2.8777, 'learning_rate': 4.1099247990691457e-07, 'epoch': 10.47}
 65%|██████▌   | 243180/371472 [8:18:55<9:42:39,  3.67it/s] 65%|██████▌   | 243181/371472 [8:18:56<9:22:01,  3.80it/s] 65%|██████▌   | 243182/371472 [8:18:56<9:14:28,  3.86it/s] 65%|██████▌   | 243183/371472 [8:18:56<9:13:25,  3.86it/s] 65%|██████▌   | 243184/371472 [8:18:56<9:10:05,  3.89it/s] 65%|██████▌   | 243185/371472 [8:18:57<9:30:11,  3.75it/s] 65%|██████▌   | 243186/371472 [8:18:57<9:21:53,  3.81it/s] 65%|██████▌   | 243187/371472 [8:18:57<9:00:14,  3.96it/s] 65%|██████▌   | 243188/371472 [8:18:57<8:59:11,  3.97it/s] 65%|██████▌   | 243189/371472 [8:18:58<9:20:54,  3.81it/s] 65%|██████▌   | 243190/371472 [8:18:58<10:23:09,  3.43it/s] 65%|██████▌   | 243191/371472 [8:18:58<9:46:33,  3.65it/s]  65%|██████▌   | 243192/371472 [8:18:59<9:43:18,  3.67it/s] 65%|██████▌   | 243193/371472 [8:18:59<9:46:59,  3.64it/s] 65%|██████▌   | 243194/371472 [8:18:59<10:04:24,  3.54it/s] 65%|██████▌   | 243195/371472 [8:19:00<10:39:01,  3.35it/s] 65%|██████▌   | 243196/371472 [8:19:00<9:58:39,  3.57it/s]  65%|██████▌   | 243197/371472 [8:19:00<10:06:22,  3.53it/s] 65%|██████▌   | 243198/371472 [8:19:00<10:05:01,  3.53it/s] 65%|██████▌   | 243199/371472 [8:19:01<9:44:07,  3.66it/s]  65%|██████▌   | 243200/371472 [8:19:01<9:41:44,  3.67it/s]                                                           {'loss': 2.8353, 'learning_rate': 4.1094399793143564e-07, 'epoch': 10.48}
 65%|██████▌   | 243200/371472 [8:19:01<9:41:44,  3.67it/s] 65%|██████▌   | 243201/371472 [8:19:01<9:31:50,  3.74it/s] 65%|██████▌   | 243202/371472 [8:19:01<10:11:39,  3.50it/s] 65%|██████▌   | 243203/371472 [8:19:02<9:49:05,  3.63it/s]  65%|██████▌   | 243204/371472 [8:19:02<9:32:28,  3.73it/s] 65%|██████▌   | 243205/371472 [8:19:02<9:49:02,  3.63it/s] 65%|██████▌   | 243206/371472 [8:19:02<9:23:42,  3.79it/s] 65%|██████▌   | 243207/371472 [8:19:03<9:22:09,  3.80it/s] 65%|██████▌   | 243208/371472 [8:19:03<9:20:27,  3.81it/s] 65%|██████▌   | 243209/371472 [8:19:03<9:46:52,  3.64it/s] 65%|██████▌   | 243210/371472 [8:19:04<9:56:39,  3.58it/s] 65%|██████▌   | 243211/371472 [8:19:04<9:44:44,  3.66it/s] 65%|██████▌   | 243212/371472 [8:19:04<9:38:49,  3.69it/s] 65%|██████▌   | 243213/371472 [8:19:04<9:39:59,  3.69it/s] 65%|██████▌   | 243214/371472 [8:19:05<9:24:18,  3.79it/s] 65%|██████▌   | 243215/371472 [8:19:05<9:25:32,  3.78it/s] 65%|██████▌   | 243216/371472 [8:19:05<9:58:53,  3.57it/s] 65%|██████▌   | 243217/371472 [8:19:05<9:29:56,  3.75it/s] 65%|██████▌   | 243218/371472 [8:19:06<9:16:43,  3.84it/s] 65%|██████▌   | 243219/371472 [8:19:06<9:15:12,  3.85it/s] 65%|██████▌   | 243220/371472 [8:19:06<10:24:51,  3.42it/s]                                                            {'loss': 2.8916, 'learning_rate': 4.108955159559568e-07, 'epoch': 10.48}
 65%|██████▌   | 243220/371472 [8:19:06<10:24:51,  3.42it/s] 65%|██████▌   | 243221/371472 [8:19:07<10:29:35,  3.40it/s] 65%|██████▌   | 243222/371472 [8:19:07<10:17:38,  3.46it/s] 65%|██████▌   | 243223/371472 [8:19:07<10:21:27,  3.44it/s] 65%|██████▌   | 243224/371472 [8:19:07<9:45:40,  3.65it/s]  65%|██████▌   | 243225/371472 [8:19:08<9:24:09,  3.79it/s] 65%|██████▌   | 243226/371472 [8:19:08<9:37:39,  3.70it/s] 65%|██████▌   | 243227/371472 [8:19:08<9:22:09,  3.80it/s] 65%|██████▌   | 243228/371472 [8:19:08<9:17:17,  3.84it/s] 65%|██████▌   | 243229/371472 [8:19:09<9:01:40,  3.95it/s] 65%|██████▌   | 243230/371472 [8:19:09<9:01:11,  3.95it/s] 65%|██████▌   | 243231/371472 [8:19:09<9:24:16,  3.79it/s] 65%|██████▌   | 243232/371472 [8:19:09<9:35:09,  3.72it/s] 65%|██████▌   | 243233/371472 [8:19:10<10:39:11,  3.34it/s] 65%|██████▌   | 243234/371472 [8:19:10<10:38:25,  3.35it/s] 65%|██████▌   | 243235/371472 [8:19:10<10:03:23,  3.54it/s] 65%|██████▌   | 243236/371472 [8:19:11<9:52:33,  3.61it/s]  65%|██████▌   | 243237/371472 [8:19:11<9:57:34,  3.58it/s] 65%|██████▌   | 243238/371472 [8:19:11<9:44:46,  3.65it/s] 65%|██████▌   | 243239/371472 [8:19:11<9:42:58,  3.67it/s] 65%|██████▌   | 243240/371472 [8:19:12<9:40:45,  3.68it/s]                                                           {'loss': 2.9302, 'learning_rate': 4.1084703398047784e-07, 'epoch': 10.48}
 65%|██████▌   | 243240/371472 [8:19:12<9:40:45,  3.68it/s] 65%|██████▌   | 243241/371472 [8:19:12<9:55:25,  3.59it/s] 65%|██████▌   | 243242/371472 [8:19:12<9:30:23,  3.75it/s] 65%|██████▌   | 243243/371472 [8:19:13<9:48:38,  3.63it/s] 65%|██████▌   | 243244/371472 [8:19:13<9:18:09,  3.83it/s] 65%|██████▌   | 243245/371472 [8:19:13<9:49:30,  3.63it/s] 65%|██████▌   | 243246/371472 [8:19:13<10:13:20,  3.48it/s] 65%|██████▌   | 243247/371472 [8:19:14<9:55:28,  3.59it/s]  65%|██████▌   | 243248/371472 [8:19:14<9:52:25,  3.61it/s] 65%|██████▌   | 243249/371472 [8:19:14<10:35:56,  3.36it/s] 65%|██████▌   | 243250/371472 [8:19:15<10:06:17,  3.52it/s] 65%|██████▌   | 243251/371472 [8:19:15<10:07:23,  3.52it/s] 65%|██████▌   | 243252/371472 [8:19:15<10:04:26,  3.54it/s] 65%|██████▌   | 243253/371472 [8:19:15<10:13:23,  3.48it/s] 65%|██████▌   | 243254/371472 [8:19:16<9:44:13,  3.66it/s]  65%|██████▌   | 243255/371472 [8:19:16<9:57:21,  3.58it/s] 65%|██████▌   | 243256/371472 [8:19:16<9:37:29,  3.70it/s] 65%|██████▌   | 243257/371472 [8:19:17<9:52:08,  3.61it/s] 65%|██████▌   | 243258/371472 [8:19:17<11:00:03,  3.24it/s] 65%|██████▌   | 243259/371472 [8:19:17<10:21:25,  3.44it/s] 65%|██████▌   | 243260/371472 [8:19:17<10:33:32,  3.37it/s]                                                            {'loss': 2.8802, 'learning_rate': 4.10798552004999e-07, 'epoch': 10.48}
 65%|██████▌   | 243260/371472 [8:19:17<10:33:32,  3.37it/s] 65%|██████▌   | 243261/371472 [8:19:18<10:58:22,  3.25it/s] 65%|██████▌   | 243262/371472 [8:19:18<10:25:33,  3.42it/s] 65%|██████▌   | 243263/371472 [8:19:18<10:02:56,  3.54it/s] 65%|██████▌   | 243264/371472 [8:19:19<10:12:01,  3.49it/s] 65%|██████▌   | 243265/371472 [8:19:19<9:37:50,  3.70it/s]  65%|██████▌   | 243266/371472 [8:19:19<10:15:55,  3.47it/s] 65%|██████▌   | 243267/371472 [8:19:19<9:56:09,  3.58it/s]  65%|██████▌   | 243268/371472 [8:19:20<9:35:14,  3.71it/s] 65%|██████▌   | 243269/371472 [8:19:20<10:29:48,  3.39it/s] 65%|██████▌   | 243270/371472 [8:19:20<10:02:47,  3.54it/s] 65%|██████▌   | 243271/371472 [8:19:21<10:12:46,  3.49it/s] 65%|██████▌   | 243272/371472 [8:19:21<10:14:04,  3.48it/s] 65%|██████▌   | 243273/371472 [8:19:21<9:42:03,  3.67it/s]  65%|██████▌   | 243274/371472 [8:19:21<10:05:58,  3.53it/s] 65%|██████▌   | 243275/371472 [8:19:22<10:01:18,  3.55it/s] 65%|██████▌   | 243276/371472 [8:19:22<9:39:08,  3.69it/s]  65%|██████▌   | 243277/371472 [8:19:22<9:09:16,  3.89it/s] 65%|██████▌   | 243278/371472 [8:19:22<8:58:00,  3.97it/s] 65%|██████▌   | 243279/371472 [8:19:23<9:37:09,  3.70it/s] 65%|██████▌   | 243280/371472 [8:19:23<9:27:14,  3.77it/s]                                                           {'loss': 3.0594, 'learning_rate': 4.107500700295201e-07, 'epoch': 10.48}
 65%|██████▌   | 243280/371472 [8:19:23<9:27:14,  3.77it/s] 65%|██████▌   | 243281/371472 [8:19:23<9:42:50,  3.67it/s] 65%|██████▌   | 243282/371472 [8:19:24<10:09:37,  3.50it/s] 65%|██████▌   | 243283/371472 [8:19:24<10:52:38,  3.27it/s] 65%|██████▌   | 243284/371472 [8:19:24<11:06:46,  3.20it/s] 65%|██████▌   | 243285/371472 [8:19:25<11:02:31,  3.22it/s] 65%|██████▌   | 243286/371472 [8:19:25<10:15:30,  3.47it/s] 65%|██████▌   | 243287/371472 [8:19:25<9:42:30,  3.67it/s]  65%|██████▌   | 243288/371472 [8:19:25<10:08:01,  3.51it/s] 65%|██████▌   | 243289/371472 [8:19:26<10:39:54,  3.34it/s] 65%|██████▌   | 243290/371472 [8:19:26<10:09:39,  3.50it/s] 65%|██████▌   | 243291/371472 [8:19:26<10:54:53,  3.26it/s] 65%|██████▌   | 243292/371472 [8:19:27<10:45:55,  3.31it/s] 65%|██████▌   | 243293/371472 [8:19:27<10:24:26,  3.42it/s] 65%|██████▌   | 243294/371472 [8:19:27<10:12:10,  3.49it/s] 65%|██████▌   | 243295/371472 [8:19:27<9:53:03,  3.60it/s]  65%|██████▌   | 243296/371472 [8:19:28<9:33:11,  3.73it/s] 65%|██████▌   | 243297/371472 [8:19:28<9:18:32,  3.82it/s] 65%|██████▌   | 243298/371472 [8:19:28<9:19:44,  3.82it/s] 65%|██████▌   | 243299/371472 [8:19:28<9:24:17,  3.79it/s] 65%|██████▌   | 243300/371472 [8:19:29<9:30:53,  3.74it/s]                                                           {'loss': 2.6782, 'learning_rate': 4.107015880540412e-07, 'epoch': 10.48}
 65%|██████▌   | 243300/371472 [8:19:29<9:30:53,  3.74it/s] 65%|██████▌   | 243301/371472 [8:19:29<9:29:18,  3.75it/s] 65%|██████▌   | 243302/371472 [8:19:29<9:42:16,  3.67it/s] 65%|██████▌   | 243303/371472 [8:19:30<9:52:12,  3.61it/s] 65%|██████▌   | 243304/371472 [8:19:30<10:29:13,  3.39it/s] 65%|██████▌   | 243305/371472 [8:19:30<10:38:01,  3.35it/s] 65%|██████▌   | 243306/371472 [8:19:30<10:35:03,  3.36it/s] 65%|██████▌   | 243307/371472 [8:19:31<10:49:14,  3.29it/s] 65%|██████▌   | 243308/371472 [8:19:31<10:02:10,  3.55it/s] 65%|██████▌   | 243309/371472 [8:19:31<9:52:44,  3.60it/s]  65%|██████▌   | 243310/371472 [8:19:32<9:42:26,  3.67it/s] 65%|██████▌   | 243311/371472 [8:19:32<9:19:10,  3.82it/s] 65%|██████▌   | 243312/371472 [8:19:32<9:48:20,  3.63it/s] 65%|██████▌   | 243313/371472 [8:19:32<9:25:57,  3.77it/s] 65%|██████▌   | 243314/371472 [8:19:33<9:23:02,  3.79it/s] 66%|██████▌   | 243315/371472 [8:19:33<9:18:09,  3.83it/s] 66%|██████▌   | 243316/371472 [8:19:33<10:02:55,  3.54it/s] 66%|██████▌   | 243317/371472 [8:19:33<10:08:07,  3.51it/s] 66%|██████▌   | 243318/371472 [8:19:34<9:51:32,  3.61it/s]  66%|██████▌   | 243319/371472 [8:19:34<9:44:23,  3.65it/s] 66%|██████▌   | 243320/371472 [8:19:34<9:37:40,  3.70it/s]                                                           {'loss': 2.9102, 'learning_rate': 4.106531060785623e-07, 'epoch': 10.48}
 66%|██████▌   | 243320/371472 [8:19:34<9:37:40,  3.70it/s] 66%|██████▌   | 243321/371472 [8:19:35<10:01:35,  3.55it/s] 66%|██████▌   | 243322/371472 [8:19:35<10:29:03,  3.40it/s] 66%|██████▌   | 243323/371472 [8:19:35<10:30:57,  3.39it/s] 66%|██████▌   | 243324/371472 [8:19:35<10:02:46,  3.54it/s] 66%|██████▌   | 243325/371472 [8:19:36<9:37:41,  3.70it/s]  66%|██████▌   | 243326/371472 [8:19:36<10:45:29,  3.31it/s] 66%|██████▌   | 243327/371472 [8:19:36<10:43:49,  3.32it/s] 66%|██████▌   | 243328/371472 [8:19:37<10:06:25,  3.52it/s] 66%|██████▌   | 243329/371472 [8:19:37<9:47:20,  3.64it/s]  66%|██████▌   | 243330/371472 [8:19:37<9:41:40,  3.67it/s] 66%|██████▌   | 243331/371472 [8:19:37<9:56:19,  3.58it/s] 66%|██████▌   | 243332/371472 [8:19:38<9:39:21,  3.69it/s] 66%|██████▌   | 243333/371472 [8:19:38<9:50:29,  3.62it/s] 66%|██████▌   | 243334/371472 [8:19:38<10:28:48,  3.40it/s] 66%|██████▌   | 243335/371472 [8:19:39<10:07:18,  3.52it/s] 66%|██████▌   | 243336/371472 [8:19:39<11:44:41,  3.03it/s] 66%|██████▌   | 243337/371472 [8:19:39<11:32:35,  3.08it/s] 66%|██████▌   | 243338/371472 [8:19:40<11:49:20,  3.01it/s] 66%|██████▌   | 243339/371472 [8:19:40<10:53:33,  3.27it/s] 66%|██████▌   | 243340/371472 [8:19:40<10:29:41,  3.39it/s]                                                            {'loss': 2.685, 'learning_rate': 4.1060462410308346e-07, 'epoch': 10.48}
 66%|██████▌   | 243340/371472 [8:19:40<10:29:41,  3.39it/s] 66%|██████▌   | 243341/371472 [8:19:40<10:13:20,  3.48it/s] 66%|██████▌   | 243342/371472 [8:19:41<10:19:13,  3.45it/s] 66%|██████▌   | 243343/371472 [8:19:41<9:45:13,  3.65it/s]  66%|██████▌   | 243344/371472 [8:19:41<9:20:09,  3.81it/s] 66%|██████▌   | 243345/371472 [8:19:41<9:26:41,  3.77it/s] 66%|██████▌   | 243346/371472 [8:19:42<9:20:07,  3.81it/s] 66%|██████▌   | 243347/371472 [8:19:42<10:17:53,  3.46it/s] 66%|██████▌   | 243348/371472 [8:19:42<10:28:43,  3.40it/s] 66%|██████▌   | 243349/371472 [8:19:43<10:03:28,  3.54it/s] 66%|██████▌   | 243350/371472 [8:19:43<10:19:40,  3.45it/s] 66%|██████▌   | 243351/371472 [8:19:43<10:45:39,  3.31it/s] 66%|██████▌   | 243352/371472 [8:19:44<10:09:03,  3.51it/s] 66%|██████▌   | 243353/371472 [8:19:44<10:05:42,  3.53it/s] 66%|██████▌   | 243354/371472 [8:19:44<9:49:42,  3.62it/s]  66%|██████▌   | 243355/371472 [8:19:44<9:50:54,  3.61it/s] 66%|██████▌   | 243356/371472 [8:19:45<10:01:59,  3.55it/s] 66%|██████▌   | 243357/371472 [8:19:45<9:38:02,  3.69it/s]  66%|██████▌   | 243358/371472 [8:19:45<9:57:50,  3.57it/s] 66%|██████▌   | 243359/371472 [8:19:45<10:11:22,  3.49it/s] 66%|██████▌   | 243360/371472 [8:19:46<9:49:21,  3.62it/s]                                                            {'loss': 2.769, 'learning_rate': 4.1055614212760453e-07, 'epoch': 10.48}
 66%|██████▌   | 243360/371472 [8:19:46<9:49:21,  3.62it/s] 66%|██████▌   | 243361/371472 [8:19:46<9:52:08,  3.61it/s] 66%|██████▌   | 243362/371472 [8:19:46<9:38:33,  3.69it/s] 66%|██████▌   | 243363/371472 [8:19:46<9:21:51,  3.80it/s] 66%|██████▌   | 243364/371472 [8:19:47<10:22:06,  3.43it/s] 66%|██████▌   | 243365/371472 [8:19:47<11:06:38,  3.20it/s] 66%|██████▌   | 243366/371472 [8:19:47<10:32:38,  3.37it/s] 66%|██████▌   | 243367/371472 [8:19:48<10:07:15,  3.52it/s] 66%|██████▌   | 243368/371472 [8:19:48<9:57:11,  3.58it/s]  66%|██████▌   | 243369/371472 [8:19:48<9:36:59,  3.70it/s] 66%|██████▌   | 243370/371472 [8:19:48<9:14:52,  3.85it/s] 66%|██████▌   | 243371/371472 [8:19:49<9:15:41,  3.84it/s] 66%|██████▌   | 243372/371472 [8:19:49<10:04:20,  3.53it/s] 66%|██████▌   | 243373/371472 [8:19:49<9:49:21,  3.62it/s]  66%|██████▌   | 243374/371472 [8:19:50<9:51:35,  3.61it/s] 66%|██████▌   | 243375/371472 [8:19:50<9:41:03,  3.67it/s] 66%|██████▌   | 243376/371472 [8:19:50<9:32:11,  3.73it/s] 66%|██████▌   | 243377/371472 [8:19:50<9:18:43,  3.82it/s] 66%|██████▌   | 243378/371472 [8:19:51<9:16:06,  3.84it/s] 66%|██████▌   | 243379/371472 [8:19:51<9:42:13,  3.67it/s] 66%|██████▌   | 243380/371472 [8:19:51<9:52:07,  3.61it/s]                                                           {'loss': 3.073, 'learning_rate': 4.1050766015212566e-07, 'epoch': 10.48}
 66%|██████▌   | 243380/371472 [8:19:51<9:52:07,  3.61it/s] 66%|██████▌   | 243381/371472 [8:19:52<9:59:15,  3.56it/s] 66%|██████▌   | 243382/371472 [8:19:52<10:02:44,  3.54it/s] 66%|██████▌   | 243383/371472 [8:19:52<9:38:03,  3.69it/s]  66%|██████▌   | 243384/371472 [8:19:52<9:46:42,  3.64it/s] 66%|██████▌   | 243385/371472 [8:19:53<9:16:26,  3.84it/s] 66%|██████▌   | 243386/371472 [8:19:53<8:54:05,  4.00it/s] 66%|██████▌   | 243387/371472 [8:19:53<9:01:58,  3.94it/s] 66%|██████▌   | 243388/371472 [8:19:53<9:13:32,  3.86it/s] 66%|██████▌   | 243389/371472 [8:19:54<9:30:31,  3.74it/s] 66%|██████▌   | 243390/371472 [8:19:54<9:20:52,  3.81it/s] 66%|██████▌   | 243391/371472 [8:19:54<9:27:14,  3.76it/s] 66%|██████▌   | 243392/371472 [8:19:54<9:42:11,  3.67it/s] 66%|██████▌   | 243393/371472 [8:19:55<10:03:33,  3.54it/s] 66%|██████▌   | 243394/371472 [8:19:55<12:07:40,  2.93it/s] 66%|██████▌   | 243395/371472 [8:19:56<11:57:56,  2.97it/s] 66%|██████▌   | 243396/371472 [8:19:56<11:04:24,  3.21it/s] 66%|██████▌   | 243397/371472 [8:19:56<11:08:44,  3.19it/s] 66%|██████▌   | 243398/371472 [8:19:56<10:49:52,  3.28it/s] 66%|██████▌   | 243399/371472 [8:19:57<10:39:02,  3.34it/s] 66%|██████▌   | 243400/371472 [8:19:57<10:36:43,  3.35it/s]                                                            {'loss': 3.0161, 'learning_rate': 4.1045917817664673e-07, 'epoch': 10.48}
 66%|██████▌   | 243400/371472 [8:19:57<10:36:43,  3.35it/s] 66%|██████▌   | 243401/371472 [8:19:57<11:15:25,  3.16it/s] 66%|██████▌   | 243402/371472 [8:19:58<10:39:27,  3.34it/s] 66%|██████▌   | 243403/371472 [8:19:58<10:10:12,  3.50it/s] 66%|██████▌   | 243404/371472 [8:19:58<9:58:35,  3.57it/s]  66%|██████▌   | 243405/371472 [8:19:58<10:18:16,  3.45it/s] 66%|██████▌   | 243406/371472 [8:19:59<10:43:22,  3.32it/s] 66%|██████▌   | 243407/371472 [8:19:59<10:06:41,  3.52it/s] 66%|██████▌   | 243408/371472 [8:19:59<10:33:23,  3.37it/s] 66%|██████▌   | 243409/371472 [8:20:00<9:51:09,  3.61it/s]  66%|██████▌   | 243410/371472 [8:20:00<9:24:51,  3.78it/s] 66%|██████▌   | 243411/371472 [8:20:00<10:02:28,  3.54it/s] 66%|██████▌   | 243412/371472 [8:20:00<10:46:17,  3.30it/s] 66%|██████▌   | 243413/371472 [8:20:01<10:15:09,  3.47it/s] 66%|██████▌   | 243414/371472 [8:20:01<9:51:17,  3.61it/s]  66%|██████▌   | 243415/371472 [8:20:01<9:41:45,  3.67it/s] 66%|██████▌   | 243416/371472 [8:20:01<9:31:34,  3.73it/s] 66%|██████▌   | 243417/371472 [8:20:02<9:18:07,  3.82it/s] 66%|██████▌   | 243418/371472 [8:20:02<9:42:33,  3.66it/s] 66%|██████▌   | 243419/371472 [8:20:02<9:50:28,  3.61it/s] 66%|██████▌   | 243420/371472 [8:20:03<9:33:35,  3.72it/s]                                                           {'loss': 2.8726, 'learning_rate': 4.104106962011679e-07, 'epoch': 10.48}
 66%|██████▌   | 243420/371472 [8:20:03<9:33:35,  3.72it/s] 66%|██████▌   | 243421/371472 [8:20:03<9:25:12,  3.78it/s] 66%|██████▌   | 243422/371472 [8:20:03<9:47:48,  3.63it/s] 66%|██████▌   | 243423/371472 [8:20:03<9:43:50,  3.66it/s] 66%|██████▌   | 243424/371472 [8:20:04<9:36:47,  3.70it/s] 66%|██████▌   | 243425/371472 [8:20:04<9:23:11,  3.79it/s] 66%|██████▌   | 243426/371472 [8:20:04<9:26:05,  3.77it/s] 66%|██████▌   | 243427/371472 [8:20:04<9:48:14,  3.63it/s] 66%|██████▌   | 243428/371472 [8:20:05<9:30:33,  3.74it/s] 66%|██████▌   | 243429/371472 [8:20:05<9:28:39,  3.75it/s] 66%|██████▌   | 243430/371472 [8:20:05<9:28:39,  3.75it/s] 66%|██████▌   | 243431/371472 [8:20:06<9:22:58,  3.79it/s] 66%|██████▌   | 243432/371472 [8:20:06<9:30:05,  3.74it/s] 66%|██████▌   | 243433/371472 [8:20:06<9:25:00,  3.78it/s] 66%|██████▌   | 243434/371472 [8:20:06<9:31:36,  3.73it/s] 66%|██████▌   | 243435/371472 [8:20:07<9:19:37,  3.81it/s] 66%|██████▌   | 243436/371472 [8:20:07<9:45:32,  3.64it/s] 66%|██████▌   | 243437/371472 [8:20:07<9:34:25,  3.71it/s] 66%|██████▌   | 243438/371472 [8:20:07<9:06:26,  3.91it/s] 66%|██████▌   | 243439/371472 [8:20:08<9:01:33,  3.94it/s] 66%|██████▌   | 243440/371472 [8:20:08<9:55:07,  3.59it/s]                                                           {'loss': 2.704, 'learning_rate': 4.10362214225689e-07, 'epoch': 10.49}
 66%|██████▌   | 243440/371472 [8:20:08<9:55:07,  3.59it/s] 66%|██████▌   | 243441/371472 [8:20:08<9:46:19,  3.64it/s] 66%|██████▌   | 243442/371472 [8:20:09<10:02:18,  3.54it/s] 66%|██████▌   | 243443/371472 [8:20:09<10:00:32,  3.55it/s] 66%|██████▌   | 243444/371472 [8:20:09<9:59:21,  3.56it/s]  66%|██████▌   | 243445/371472 [8:20:09<10:07:07,  3.51it/s] 66%|██████▌   | 243446/371472 [8:20:10<10:14:36,  3.47it/s] 66%|██████▌   | 243447/371472 [8:20:10<10:16:20,  3.46it/s] 66%|██████▌   | 243448/371472 [8:20:10<9:57:20,  3.57it/s]  66%|██████▌   | 243449/371472 [8:20:10<9:38:47,  3.69it/s] 66%|██████▌   | 243450/371472 [8:20:11<10:19:29,  3.44it/s] 66%|██████▌   | 243451/371472 [8:20:11<10:44:54,  3.31it/s] 66%|██████▌   | 243452/371472 [8:20:11<10:03:18,  3.54it/s] 66%|██████▌   | 243453/371472 [8:20:12<10:28:27,  3.40it/s] 66%|██████▌   | 243454/371472 [8:20:12<10:15:38,  3.47it/s] 66%|██████▌   | 243455/371472 [8:20:12<9:44:01,  3.65it/s]  66%|██████▌   | 243456/371472 [8:20:12<9:34:29,  3.71it/s] 66%|██████▌   | 243457/371472 [8:20:13<9:41:38,  3.67it/s] 66%|██████▌   | 243458/371472 [8:20:13<9:53:51,  3.59it/s] 66%|██████▌   | 243459/371472 [8:20:13<9:23:14,  3.79it/s] 66%|██████▌   | 243460/371472 [8:20:14<10:12:11,  3.49it/s]                                                            {'loss': 2.7353, 'learning_rate': 4.103137322502101e-07, 'epoch': 10.49}
 66%|██████▌   | 243460/371472 [8:20:14<10:12:11,  3.49it/s] 66%|██████▌   | 243461/371472 [8:20:14<9:40:38,  3.67it/s]  66%|██████▌   | 243462/371472 [8:20:14<9:50:46,  3.61it/s] 66%|██████▌   | 243463/371472 [8:20:14<10:08:21,  3.51it/s] 66%|██████▌   | 243464/371472 [8:20:15<10:07:24,  3.51it/s] 66%|██████▌   | 243465/371472 [8:20:15<10:01:15,  3.55it/s] 66%|██████▌   | 243466/371472 [8:20:15<11:28:38,  3.10it/s] 66%|██████▌   | 243467/371472 [8:20:16<11:12:19,  3.17it/s] 66%|██████▌   | 243468/371472 [8:20:16<11:37:11,  3.06it/s] 66%|██████▌   | 243469/371472 [8:20:16<11:41:32,  3.04it/s] 66%|██████▌   | 243470/371472 [8:20:17<10:56:42,  3.25it/s] 66%|██████▌   | 243471/371472 [8:20:17<11:28:53,  3.10it/s] 66%|██████▌   | 243472/371472 [8:20:17<10:44:45,  3.31it/s] 66%|██████▌   | 243473/371472 [8:20:18<10:46:31,  3.30it/s] 66%|██████▌   | 243474/371472 [8:20:18<10:47:04,  3.30it/s] 66%|██████▌   | 243475/371472 [8:20:18<10:01:30,  3.55it/s] 66%|██████▌   | 243476/371472 [8:20:18<10:21:39,  3.43it/s] 66%|██████▌   | 243477/371472 [8:20:19<10:30:32,  3.38it/s] 66%|██████▌   | 243478/371472 [8:20:19<10:01:59,  3.54it/s] 66%|██████▌   | 243479/371472 [8:20:19<10:43:49,  3.31it/s] 66%|██████▌   | 243480/371472 [8:20:20<10:42:52,  3.32it/s]                                                            {'loss': 2.8407, 'learning_rate': 4.102652502747312e-07, 'epoch': 10.49}
 66%|██████▌   | 243480/371472 [8:20:20<10:42:52,  3.32it/s] 66%|██████▌   | 243481/371472 [8:20:20<10:25:04,  3.41it/s] 66%|██████▌   | 243482/371472 [8:20:20<10:13:44,  3.48it/s] 66%|██████▌   | 243483/371472 [8:20:20<10:35:25,  3.36it/s] 66%|██████▌   | 243484/371472 [8:20:21<10:42:24,  3.32it/s] 66%|██████▌   | 243485/371472 [8:20:21<10:14:06,  3.47it/s] 66%|██████▌   | 243486/371472 [8:20:21<9:59:25,  3.56it/s]  66%|██████▌   | 243487/371472 [8:20:22<9:57:53,  3.57it/s] 66%|██████▌   | 243488/371472 [8:20:22<9:46:43,  3.64it/s] 66%|██████▌   | 243489/371472 [8:20:22<9:43:08,  3.66it/s] 66%|██████▌   | 243490/371472 [8:20:23<10:54:38,  3.26it/s] 66%|██████▌   | 243491/371472 [8:20:23<10:20:43,  3.44it/s] 66%|██████▌   | 243492/371472 [8:20:23<10:34:05,  3.36it/s] 66%|██████▌   | 243493/371472 [8:20:23<10:27:14,  3.40it/s] 66%|██████▌   | 243494/371472 [8:20:24<10:01:44,  3.54it/s] 66%|██████▌   | 243495/371472 [8:20:24<9:53:59,  3.59it/s]  66%|██████▌   | 243496/371472 [8:20:24<10:30:12,  3.38it/s] 66%|██████▌   | 243497/371472 [8:20:25<10:21:45,  3.43it/s] 66%|██████▌   | 243498/371472 [8:20:25<10:14:19,  3.47it/s] 66%|██████▌   | 243499/371472 [8:20:25<9:48:18,  3.63it/s]  66%|██████▌   | 243500/371472 [8:20:25<9:36:38,  3.70it/s]                                                           {'loss': 2.8298, 'learning_rate': 4.102167682992523e-07, 'epoch': 10.49}
 66%|██████▌   | 243500/371472 [8:20:25<9:36:38,  3.70it/s] 66%|██████▌   | 243501/371472 [8:20:26<10:28:32,  3.39it/s] 66%|██████▌   | 243502/371472 [8:20:26<9:47:02,  3.63it/s]  66%|██████▌   | 243503/371472 [8:20:26<10:06:26,  3.52it/s] 66%|██████▌   | 243504/371472 [8:20:26<9:52:51,  3.60it/s]  66%|██████▌   | 243505/371472 [8:20:27<9:46:36,  3.64it/s] 66%|██████▌   | 243506/371472 [8:20:27<11:18:14,  3.14it/s] 66%|██████▌   | 243507/371472 [8:20:27<10:53:16,  3.26it/s] 66%|██████▌   | 243508/371472 [8:20:28<10:22:56,  3.42it/s] 66%|██████▌   | 243509/371472 [8:20:28<10:06:44,  3.52it/s] 66%|██████▌   | 243510/371472 [8:20:28<10:34:18,  3.36it/s] 66%|██████▌   | 243511/371472 [8:20:28<9:55:15,  3.58it/s]  66%|██████▌   | 243512/371472 [8:20:29<9:53:24,  3.59it/s] 66%|██████▌   | 243513/371472 [8:20:29<9:40:36,  3.67it/s] 66%|██████▌   | 243514/371472 [8:20:29<10:16:12,  3.46it/s] 66%|██████▌   | 243515/371472 [8:20:30<10:17:44,  3.45it/s] 66%|██████▌   | 243516/371472 [8:20:30<10:28:31,  3.39it/s] 66%|██████▌   | 243517/371472 [8:20:30<10:26:02,  3.41it/s] 66%|██████▌   | 243518/371472 [8:20:31<10:04:38,  3.53it/s] 66%|██████▌   | 243519/371472 [8:20:31<9:49:10,  3.62it/s]  66%|██████▌   | 243520/371472 [8:20:31<9:47:56,  3.63it/s]                                                           {'loss': 2.8021, 'learning_rate': 4.1016828632377337e-07, 'epoch': 10.49}
 66%|██████▌   | 243520/371472 [8:20:31<9:47:56,  3.63it/s] 66%|██████▌   | 243521/371472 [8:20:31<9:51:44,  3.60it/s] 66%|██████▌   | 243522/371472 [8:20:32<10:03:21,  3.53it/s] 66%|██████▌   | 243523/371472 [8:20:32<11:20:54,  3.13it/s] 66%|██████▌   | 243524/371472 [8:20:32<10:38:11,  3.34it/s] 66%|██████▌   | 243525/371472 [8:20:33<10:01:02,  3.55it/s] 66%|██████▌   | 243526/371472 [8:20:33<9:44:41,  3.65it/s]  66%|██████▌   | 243527/371472 [8:20:33<10:28:58,  3.39it/s] 66%|██████▌   | 243528/371472 [8:20:33<10:05:15,  3.52it/s] 66%|██████▌   | 243529/371472 [8:20:34<9:47:04,  3.63it/s]  66%|██████▌   | 243530/371472 [8:20:34<9:35:09,  3.71it/s] 66%|██████▌   | 243531/371472 [8:20:34<9:38:28,  3.69it/s] 66%|██████▌   | 243532/371472 [8:20:34<9:31:10,  3.73it/s] 66%|██████▌   | 243533/371472 [8:20:35<9:36:52,  3.70it/s] 66%|██████▌   | 243534/371472 [8:20:35<9:46:37,  3.63it/s] 66%|██████▌   | 243535/371472 [8:20:35<9:32:51,  3.72it/s] 66%|██████▌   | 243536/371472 [8:20:36<9:33:42,  3.72it/s] 66%|██████▌   | 243537/371472 [8:20:36<9:19:41,  3.81it/s] 66%|██████▌   | 243538/371472 [8:20:36<9:37:36,  3.69it/s] 66%|██████▌   | 243539/371472 [8:20:36<9:11:52,  3.86it/s] 66%|██████▌   | 243540/371472 [8:20:37<9:03:49,  3.92it/s]                                                           {'loss': 2.8826, 'learning_rate': 4.1011980434829455e-07, 'epoch': 10.49}
 66%|██████▌   | 243540/371472 [8:20:37<9:03:49,  3.92it/s] 66%|██████▌   | 243541/371472 [8:20:37<9:16:53,  3.83it/s] 66%|██████▌   | 243542/371472 [8:20:37<9:25:58,  3.77it/s] 66%|██████▌   | 243543/371472 [8:20:37<9:26:53,  3.76it/s] 66%|██████▌   | 243544/371472 [8:20:38<9:12:48,  3.86it/s] 66%|██████▌   | 243545/371472 [8:20:38<9:18:10,  3.82it/s] 66%|██████▌   | 243546/371472 [8:20:38<9:52:30,  3.60it/s] 66%|██████▌   | 243547/371472 [8:20:38<9:34:57,  3.71it/s] 66%|██████▌   | 243548/371472 [8:20:39<10:22:19,  3.43it/s] 66%|██████▌   | 243549/371472 [8:20:39<11:01:49,  3.22it/s] 66%|██████▌   | 243550/371472 [8:20:39<10:30:24,  3.38it/s] 66%|██████▌   | 243551/371472 [8:20:40<10:40:25,  3.33it/s] 66%|██████▌   | 243552/371472 [8:20:40<10:32:42,  3.37it/s] 66%|██████▌   | 243553/371472 [8:20:40<10:46:34,  3.30it/s] 66%|██████▌   | 243554/371472 [8:20:41<10:18:18,  3.45it/s] 66%|██████▌   | 243555/371472 [8:20:41<9:55:49,  3.58it/s]  66%|██████▌   | 243556/371472 [8:20:41<10:09:42,  3.50it/s] 66%|██████▌   | 243557/371472 [8:20:41<10:31:18,  3.38it/s] 66%|██████▌   | 243558/371472 [8:20:42<10:17:56,  3.45it/s] 66%|██████▌   | 243559/371472 [8:20:42<9:41:59,  3.66it/s]  66%|██████▌   | 243560/371472 [8:20:42<9:24:40,  3.78it/s]                                                           {'loss': 2.941, 'learning_rate': 4.1007132237281557e-07, 'epoch': 10.49}
 66%|██████▌   | 243560/371472 [8:20:42<9:24:40,  3.78it/s] 66%|██████▌   | 243561/371472 [8:20:42<9:41:06,  3.67it/s] 66%|██████▌   | 243562/371472 [8:20:43<9:24:37,  3.78it/s] 66%|██████▌   | 243563/371472 [8:20:43<9:24:50,  3.77it/s] 66%|██████▌   | 243564/371472 [8:20:43<9:41:08,  3.67it/s] 66%|██████▌   | 243565/371472 [8:20:44<10:11:48,  3.48it/s] 66%|██████▌   | 243566/371472 [8:20:44<9:46:07,  3.64it/s]  66%|██████▌   | 243567/371472 [8:20:44<9:58:47,  3.56it/s] 66%|██████▌   | 243568/371472 [8:20:44<9:40:46,  3.67it/s] 66%|██████▌   | 243569/371472 [8:20:45<9:20:19,  3.80it/s] 66%|██████▌   | 243570/371472 [8:20:45<9:28:11,  3.75it/s] 66%|██████▌   | 243571/371472 [8:20:45<9:42:50,  3.66it/s] 66%|██████▌   | 243572/371472 [8:20:46<10:05:38,  3.52it/s] 66%|██████▌   | 243573/371472 [8:20:46<9:45:40,  3.64it/s]  66%|██████▌   | 243574/371472 [8:20:46<9:21:15,  3.80it/s] 66%|██████▌   | 243575/371472 [8:20:46<9:42:14,  3.66it/s] 66%|██████▌   | 243576/371472 [8:20:47<9:33:00,  3.72it/s] 66%|██████▌   | 243577/371472 [8:20:47<9:33:10,  3.72it/s] 66%|██████▌   | 243578/371472 [8:20:47<9:28:19,  3.75it/s] 66%|██████▌   | 243579/371472 [8:20:47<9:13:08,  3.85it/s] 66%|██████▌   | 243580/371472 [8:20:48<9:27:45,  3.75it/s]                                                           {'loss': 2.6722, 'learning_rate': 4.1002284039733674e-07, 'epoch': 10.49}
 66%|██████▌   | 243580/371472 [8:20:48<9:27:45,  3.75it/s] 66%|██████▌   | 243581/371472 [8:20:48<9:29:44,  3.74it/s] 66%|██████▌   | 243582/371472 [8:20:48<9:57:20,  3.57it/s] 66%|██████▌   | 243583/371472 [8:20:48<9:43:45,  3.65it/s] 66%|██████▌   | 243584/371472 [8:20:49<9:29:54,  3.74it/s] 66%|██████▌   | 243585/371472 [8:20:49<10:29:35,  3.39it/s] 66%|██████▌   | 243586/371472 [8:20:49<11:49:35,  3.00it/s] 66%|██████▌   | 243587/371472 [8:20:50<10:59:59,  3.23it/s] 66%|██████▌   | 243588/371472 [8:20:50<10:32:30,  3.37it/s] 66%|██████▌   | 243589/371472 [8:20:50<10:23:37,  3.42it/s] 66%|██████▌   | 243590/371472 [8:20:51<10:43:20,  3.31it/s] 66%|██████▌   | 243591/371472 [8:20:51<10:42:29,  3.32it/s] 66%|██████▌   | 243592/371472 [8:20:51<10:08:06,  3.50it/s] 66%|██████▌   | 243593/371472 [8:20:51<9:45:11,  3.64it/s]  66%|██████▌   | 243594/371472 [8:20:52<9:46:57,  3.63it/s] 66%|██████▌   | 243595/371472 [8:20:52<9:16:37,  3.83it/s] 66%|██████▌   | 243596/371472 [8:20:52<9:45:50,  3.64it/s] 66%|██████▌   | 243597/371472 [8:20:52<9:31:23,  3.73it/s] 66%|██████▌   | 243598/371472 [8:20:53<9:30:04,  3.74it/s] 66%|██████▌   | 243599/371472 [8:20:53<9:36:07,  3.70it/s] 66%|██████▌   | 243600/371472 [8:20:53<9:23:31,  3.78it/s]                                                           {'loss': 2.7556, 'learning_rate': 4.099743584218578e-07, 'epoch': 10.49}
 66%|██████▌   | 243600/371472 [8:20:53<9:23:31,  3.78it/s] 66%|██████▌   | 243601/371472 [8:20:54<9:26:37,  3.76it/s] 66%|██████▌   | 243602/371472 [8:20:54<9:14:01,  3.85it/s] 66%|██████▌   | 243603/371472 [8:20:54<9:45:11,  3.64it/s] 66%|██████▌   | 243604/371472 [8:20:54<9:27:50,  3.75it/s] 66%|██████▌   | 243605/371472 [8:20:55<9:23:31,  3.78it/s] 66%|██████▌   | 243606/371472 [8:20:55<9:26:01,  3.77it/s] 66%|██████▌   | 243607/371472 [8:20:55<10:12:19,  3.48it/s] 66%|██████▌   | 243608/371472 [8:20:55<10:02:29,  3.54it/s] 66%|██████▌   | 243609/371472 [8:20:56<9:52:43,  3.60it/s]  66%|██████▌   | 243610/371472 [8:20:56<9:38:45,  3.68it/s] 66%|██████▌   | 243611/371472 [8:20:56<9:42:08,  3.66it/s] 66%|██████▌   | 243612/371472 [8:20:57<9:56:14,  3.57it/s] 66%|██████▌   | 243613/371472 [8:20:57<10:12:14,  3.48it/s] 66%|██████▌   | 243614/371472 [8:20:57<9:42:01,  3.66it/s]  66%|██████▌   | 243615/371472 [8:20:57<9:13:51,  3.85it/s] 66%|██████▌   | 243616/371472 [8:20:58<9:46:56,  3.63it/s] 66%|██████▌   | 243617/371472 [8:20:58<10:23:31,  3.42it/s] 66%|██████▌   | 243618/371472 [8:20:58<10:09:46,  3.49it/s] 66%|██████▌   | 243619/371472 [8:20:58<9:42:48,  3.66it/s]  66%|██████▌   | 243620/371472 [8:20:59<10:44:32,  3.31it/s]                                                            {'loss': 2.7902, 'learning_rate': 4.0992587644637894e-07, 'epoch': 10.49}
 66%|██████▌   | 243620/371472 [8:20:59<10:44:32,  3.31it/s] 66%|██████▌   | 243621/371472 [8:20:59<10:27:19,  3.40it/s] 66%|██████▌   | 243622/371472 [8:20:59<10:07:44,  3.51it/s] 66%|██████▌   | 243623/371472 [8:21:00<9:51:19,  3.60it/s]  66%|██████▌   | 243624/371472 [8:21:00<9:39:35,  3.68it/s] 66%|██████▌   | 243625/371472 [8:21:00<9:38:21,  3.68it/s] 66%|██████▌   | 243626/371472 [8:21:01<10:15:18,  3.46it/s] 66%|██████▌   | 243627/371472 [8:21:01<10:27:23,  3.40it/s] 66%|██████▌   | 243628/371472 [8:21:01<9:59:25,  3.55it/s]  66%|██████▌   | 243629/371472 [8:21:01<9:35:22,  3.70it/s] 66%|██████▌   | 243630/371472 [8:21:02<10:01:11,  3.54it/s] 66%|██████▌   | 243631/371472 [8:21:02<9:55:38,  3.58it/s]  66%|██████▌   | 243632/371472 [8:21:02<9:47:03,  3.63it/s] 66%|██████▌   | 243633/371472 [8:21:03<10:26:43,  3.40it/s] 66%|██████▌   | 243634/371472 [8:21:03<10:05:06,  3.52it/s] 66%|██████▌   | 243635/371472 [8:21:03<10:26:31,  3.40it/s] 66%|██████▌   | 243636/371472 [8:21:03<10:04:04,  3.53it/s] 66%|██████▌   | 243637/371472 [8:21:04<10:14:39,  3.47it/s] 66%|██████▌   | 243638/371472 [8:21:04<10:17:21,  3.45it/s] 66%|██████▌   | 243639/371472 [8:21:04<10:26:44,  3.40it/s] 66%|██████▌   | 243640/371472 [8:21:05<10:04:21,  3.53it/s]                                                            {'loss': 2.8128, 'learning_rate': 4.098773944709e-07, 'epoch': 10.49}
 66%|██████▌   | 243640/371472 [8:21:05<10:04:21,  3.53it/s] 66%|██████▌   | 243641/371472 [8:21:05<9:38:00,  3.69it/s]  66%|██████▌   | 243642/371472 [8:21:05<10:56:22,  3.25it/s] 66%|██████▌   | 243643/371472 [8:21:05<10:29:25,  3.38it/s] 66%|██████▌   | 243644/371472 [8:21:06<10:48:05,  3.29it/s] 66%|██████▌   | 243645/371472 [8:21:06<10:49:59,  3.28it/s] 66%|██████▌   | 243646/371472 [8:21:06<10:44:09,  3.31it/s] 66%|██████▌   | 243647/371472 [8:21:07<11:37:43,  3.05it/s] 66%|██████▌   | 243648/371472 [8:21:07<10:58:57,  3.23it/s] 66%|██████▌   | 243649/371472 [8:21:07<11:22:26,  3.12it/s] 66%|██████▌   | 243650/371472 [8:21:08<11:00:05,  3.23it/s] 66%|██████▌   | 243651/371472 [8:21:08<10:22:39,  3.42it/s] 66%|██████▌   | 243652/371472 [8:21:08<9:55:58,  3.57it/s]  66%|██████▌   | 243653/371472 [8:21:09<11:09:07,  3.18it/s] 66%|██████▌   | 243654/371472 [8:21:09<10:34:06,  3.36it/s] 66%|██████▌   | 243655/371472 [8:21:09<10:01:41,  3.54it/s] 66%|██████▌   | 243656/371472 [8:21:09<9:46:10,  3.63it/s]  66%|██████▌   | 243657/371472 [8:21:10<10:17:36,  3.45it/s] 66%|██████▌   | 243658/371472 [8:21:10<9:42:35,  3.66it/s]  66%|██████▌   | 243659/371472 [8:21:10<9:35:51,  3.70it/s] 66%|██████▌   | 243660/371472 [8:21:10<9:54:32,  3.58it/s]                                                           {'loss': 2.8449, 'learning_rate': 4.098289124954212e-07, 'epoch': 10.49}
 66%|██████▌   | 243660/371472 [8:21:10<9:54:32,  3.58it/s] 66%|██████▌   | 243661/371472 [8:21:11<10:13:48,  3.47it/s] 66%|██████▌   | 243662/371472 [8:21:11<9:57:34,  3.56it/s]  66%|██████▌   | 243663/371472 [8:21:11<10:24:30,  3.41it/s] 66%|██████▌   | 243664/371472 [8:21:12<9:52:33,  3.59it/s]  66%|██████▌   | 243665/371472 [8:21:12<9:45:27,  3.64it/s] 66%|██████▌   | 243666/371472 [8:21:12<10:15:32,  3.46it/s] 66%|██████▌   | 243667/371472 [8:21:12<9:46:55,  3.63it/s]  66%|██████▌   | 243668/371472 [8:21:13<9:32:16,  3.72it/s] 66%|██████▌   | 243669/371472 [8:21:13<9:28:04,  3.75it/s] 66%|██████▌   | 243670/371472 [8:21:13<11:00:04,  3.23it/s] 66%|██████▌   | 243671/371472 [8:21:14<10:50:38,  3.27it/s] 66%|██████▌   | 243672/371472 [8:21:14<10:06:04,  3.51it/s] 66%|██████▌   | 243673/371472 [8:21:14<10:20:50,  3.43it/s] 66%|██████▌   | 243674/371472 [8:21:14<10:41:39,  3.32it/s] 66%|██████▌   | 243675/371472 [8:21:15<10:27:57,  3.39it/s] 66%|██████▌   | 243676/371472 [8:21:15<10:03:13,  3.53it/s] 66%|██████▌   | 243677/371472 [8:21:15<9:53:54,  3.59it/s]  66%|██████▌   | 243678/371472 [8:21:16<9:34:23,  3.71it/s] 66%|██████▌   | 243679/371472 [8:21:16<9:21:44,  3.79it/s] 66%|██████▌   | 243680/371472 [8:21:16<9:12:28,  3.86it/s]                                                           {'loss': 2.8533, 'learning_rate': 4.097804305199422e-07, 'epoch': 10.5}
 66%|██████▌   | 243680/371472 [8:21:16<9:12:28,  3.86it/s] 66%|██████▌   | 243681/371472 [8:21:16<9:07:45,  3.89it/s] 66%|██████▌   | 243682/371472 [8:21:17<9:26:31,  3.76it/s] 66%|██████▌   | 243683/371472 [8:21:17<9:30:10,  3.74it/s] 66%|██████▌   | 243684/371472 [8:21:17<9:10:21,  3.87it/s] 66%|██████▌   | 243685/371472 [8:21:17<9:28:29,  3.75it/s] 66%|██████▌   | 243686/371472 [8:21:18<9:53:24,  3.59it/s] 66%|██████▌   | 243687/371472 [8:21:18<9:28:22,  3.75it/s] 66%|██████▌   | 243688/371472 [8:21:18<9:35:10,  3.70it/s] 66%|██████▌   | 243689/371472 [8:21:18<10:10:42,  3.49it/s] 66%|██████▌   | 243690/371472 [8:21:19<9:52:15,  3.60it/s]  66%|██████▌   | 243691/371472 [8:21:19<10:12:15,  3.48it/s] 66%|██████▌   | 243692/371472 [8:21:19<10:29:21,  3.38it/s] 66%|██████▌   | 243693/371472 [8:21:20<10:10:32,  3.49it/s] 66%|██████▌   | 243694/371472 [8:21:20<10:41:26,  3.32it/s] 66%|██████▌   | 243695/371472 [8:21:20<10:07:00,  3.51it/s] 66%|██████▌   | 243696/371472 [8:21:21<10:10:24,  3.49it/s] 66%|██████▌   | 243697/371472 [8:21:21<9:36:28,  3.69it/s]  66%|██████▌   | 243698/371472 [8:21:21<10:57:59,  3.24it/s] 66%|██████▌   | 243699/371472 [8:21:22<11:24:22,  3.11it/s] 66%|██████▌   | 243700/371472 [8:21:22<10:38:40,  3.33it/s]                                                            {'loss': 2.7845, 'learning_rate': 4.097319485444633e-07, 'epoch': 10.5}
 66%|██████▌   | 243700/371472 [8:21:22<10:38:40,  3.33it/s] 66%|██████▌   | 243701/371472 [8:21:22<9:55:49,  3.57it/s]  66%|██████▌   | 243702/371472 [8:21:22<9:40:49,  3.67it/s] 66%|██████▌   | 243703/371472 [8:21:22<9:15:01,  3.84it/s] 66%|██████▌   | 243704/371472 [8:21:23<9:29:49,  3.74it/s] 66%|██████▌   | 243705/371472 [8:21:23<9:32:29,  3.72it/s] 66%|██████▌   | 243706/371472 [8:21:23<9:31:52,  3.72it/s] 66%|██████▌   | 243707/371472 [8:21:24<10:02:00,  3.54it/s] 66%|██████▌   | 243708/371472 [8:21:24<9:46:04,  3.63it/s]  66%|██████▌   | 243709/371472 [8:21:24<9:36:09,  3.70it/s] 66%|██████▌   | 243710/371472 [8:21:24<9:34:29,  3.71it/s] 66%|██████▌   | 243711/371472 [8:21:25<9:49:00,  3.62it/s] 66%|██████▌   | 243712/371472 [8:21:25<9:52:21,  3.59it/s] 66%|██████▌   | 243713/371472 [8:21:25<9:38:22,  3.68it/s] 66%|██████▌   | 243714/371472 [8:21:25<9:25:13,  3.77it/s] 66%|██████▌   | 243715/371472 [8:21:26<10:34:17,  3.36it/s] 66%|██████▌   | 243716/371472 [8:21:26<10:03:37,  3.53it/s] 66%|██████▌   | 243717/371472 [8:21:26<10:04:07,  3.52it/s] 66%|██████▌   | 243718/371472 [8:21:27<9:42:48,  3.65it/s]  66%|██████▌   | 243719/371472 [8:21:27<10:50:02,  3.28it/s] 66%|██████▌   | 243720/371472 [8:21:27<10:28:28,  3.39it/s]                                                            {'loss': 2.8275, 'learning_rate': 4.0968346656898446e-07, 'epoch': 10.5}
 66%|██████▌   | 243720/371472 [8:21:27<10:28:28,  3.39it/s] 66%|██████▌   | 243721/371472 [8:21:28<10:05:29,  3.52it/s] 66%|██████▌   | 243722/371472 [8:21:28<9:40:47,  3.67it/s]  66%|██████▌   | 243723/371472 [8:21:28<9:38:43,  3.68it/s] 66%|██████▌   | 243724/371472 [8:21:28<9:30:59,  3.73it/s] 66%|██████▌   | 243725/371472 [8:21:29<9:16:28,  3.83it/s] 66%|██████▌   | 243726/371472 [8:21:29<9:21:48,  3.79it/s] 66%|██████▌   | 243727/371472 [8:21:29<9:21:56,  3.79it/s] 66%|██████▌   | 243728/371472 [8:21:29<9:14:51,  3.84it/s] 66%|██████▌   | 243729/371472 [8:21:30<9:32:04,  3.72it/s] 66%|██████▌   | 243730/371472 [8:21:30<10:12:22,  3.48it/s] 66%|██████▌   | 243731/371472 [8:21:30<9:47:46,  3.62it/s]  66%|██████▌   | 243732/371472 [8:21:31<10:04:35,  3.52it/s] 66%|██████▌   | 243733/371472 [8:21:31<10:02:43,  3.53it/s] 66%|██████▌   | 243734/371472 [8:21:31<10:07:37,  3.50it/s] 66%|██████▌   | 243735/371472 [8:21:31<11:02:50,  3.21it/s] 66%|██████▌   | 243736/371472 [8:21:32<10:43:37,  3.31it/s] 66%|██████▌   | 243737/371472 [8:21:32<10:40:36,  3.32it/s] 66%|██████▌   | 243738/371472 [8:21:32<10:38:28,  3.33it/s] 66%|██████▌   | 243739/371472 [8:21:33<10:02:16,  3.53it/s] 66%|██████▌   | 243740/371472 [8:21:33<9:52:41,  3.59it/s]                                                            {'loss': 2.7654, 'learning_rate': 4.0963498459350553e-07, 'epoch': 10.5}
 66%|██████▌   | 243740/371472 [8:21:33<9:52:41,  3.59it/s] 66%|██████▌   | 243741/371472 [8:21:33<9:55:51,  3.57it/s] 66%|██████▌   | 243742/371472 [8:21:33<9:43:17,  3.65it/s] 66%|██████▌   | 243743/371472 [8:21:34<9:59:11,  3.55it/s] 66%|██████▌   | 243744/371472 [8:21:34<10:43:17,  3.31it/s] 66%|██████▌   | 243745/371472 [8:21:34<11:12:40,  3.16it/s] 66%|██████▌   | 243746/371472 [8:21:35<10:25:26,  3.40it/s] 66%|██████▌   | 243747/371472 [8:21:35<10:26:52,  3.40it/s] 66%|██████▌   | 243748/371472 [8:21:35<10:00:43,  3.54it/s] 66%|██████▌   | 243749/371472 [8:21:35<10:05:03,  3.52it/s] 66%|██████▌   | 243750/371472 [8:21:36<10:26:03,  3.40it/s] 66%|██████▌   | 243751/371472 [8:21:36<9:59:52,  3.55it/s]  66%|██████▌   | 243752/371472 [8:21:36<9:43:23,  3.65it/s] 66%|██████▌   | 243753/371472 [8:21:37<10:15:58,  3.46it/s] 66%|██████▌   | 243754/371472 [8:21:37<10:18:53,  3.44it/s] 66%|██████▌   | 243755/371472 [8:21:37<9:56:02,  3.57it/s]  66%|██████▌   | 243756/371472 [8:21:37<9:46:06,  3.63it/s] 66%|██████▌   | 243757/371472 [8:21:38<9:34:07,  3.71it/s] 66%|██████▌   | 243758/371472 [8:21:38<9:37:25,  3.69it/s] 66%|██████▌   | 243759/371472 [8:21:38<9:23:41,  3.78it/s] 66%|██████▌   | 243760/371472 [8:21:38<9:14:58,  3.84it/s]                                                           {'loss': 2.7517, 'learning_rate': 4.0958650261802665e-07, 'epoch': 10.5}
 66%|██████▌   | 243760/371472 [8:21:38<9:14:58,  3.84it/s] 66%|██████▌   | 243761/371472 [8:21:39<9:11:05,  3.86it/s] 66%|██████▌   | 243762/371472 [8:21:39<9:49:10,  3.61it/s] 66%|██████▌   | 243763/371472 [8:21:39<9:35:32,  3.70it/s] 66%|██████▌   | 243764/371472 [8:21:40<9:49:51,  3.61it/s] 66%|██████▌   | 243765/371472 [8:21:40<10:01:43,  3.54it/s] 66%|██████▌   | 243766/371472 [8:21:40<9:48:44,  3.62it/s]  66%|██████▌   | 243767/371472 [8:21:40<9:49:36,  3.61it/s] 66%|██████▌   | 243768/371472 [8:21:41<9:35:09,  3.70it/s] 66%|██████▌   | 243769/371472 [8:21:41<9:24:33,  3.77it/s] 66%|██████▌   | 243770/371472 [8:21:41<9:31:24,  3.72it/s] 66%|██████▌   | 243771/371472 [8:21:42<10:08:42,  3.50it/s] 66%|██████▌   | 243772/371472 [8:21:42<9:38:20,  3.68it/s]  66%|██████▌   | 243773/371472 [8:21:42<9:42:01,  3.66it/s] 66%|██████▌   | 243774/371472 [8:21:42<9:40:34,  3.67it/s] 66%|██████▌   | 243775/371472 [8:21:43<9:25:51,  3.76it/s] 66%|██████▌   | 243776/371472 [8:21:43<10:08:08,  3.50it/s] 66%|██████▌   | 243777/371472 [8:21:43<9:48:31,  3.62it/s]  66%|██████▌   | 243778/371472 [8:21:43<10:04:31,  3.52it/s] 66%|██████▌   | 243779/371472 [8:21:44<9:48:40,  3.62it/s]  66%|██████▌   | 243780/371472 [8:21:44<9:56:08,  3.57it/s]                                                           {'loss': 3.142, 'learning_rate': 4.095380206425477e-07, 'epoch': 10.5}
 66%|██████▌   | 243780/371472 [8:21:44<9:56:08,  3.57it/s] 66%|██████▌   | 243781/371472 [8:21:44<9:50:31,  3.60it/s] 66%|██████▌   | 243782/371472 [8:21:45<10:13:29,  3.47it/s] 66%|██████▌   | 243783/371472 [8:21:45<10:07:24,  3.50it/s] 66%|██████▌   | 243784/371472 [8:21:45<10:17:01,  3.45it/s] 66%|██████▌   | 243785/371472 [8:21:45<9:58:18,  3.56it/s]  66%|██████▌   | 243786/371472 [8:21:46<9:52:48,  3.59it/s] 66%|██████▌   | 243787/371472 [8:21:46<9:39:18,  3.67it/s] 66%|██████▌   | 243788/371472 [8:21:46<9:20:24,  3.80it/s] 66%|██████▌   | 243789/371472 [8:21:46<9:10:05,  3.87it/s] 66%|██████▌   | 243790/371472 [8:21:47<9:08:22,  3.88it/s] 66%|██████▌   | 243791/371472 [8:21:47<9:13:15,  3.85it/s] 66%|██████▌   | 243792/371472 [8:21:47<9:45:23,  3.64it/s] 66%|██████▌   | 243793/371472 [8:21:48<9:58:19,  3.56it/s] 66%|██████▌   | 243794/371472 [8:21:48<10:05:48,  3.51it/s] 66%|██████▌   | 243795/371472 [8:21:48<9:44:49,  3.64it/s]  66%|██████▌   | 243796/371472 [8:21:48<9:54:03,  3.58it/s] 66%|██████▌   | 243797/371472 [8:21:49<9:41:28,  3.66it/s] 66%|██████▌   | 243798/371472 [8:21:49<9:13:55,  3.84it/s] 66%|██████▌   | 243799/371472 [8:21:49<9:12:49,  3.85it/s] 66%|██████▌   | 243800/371472 [8:21:49<9:18:20,  3.81it/s]                                                           {'loss': 2.8274, 'learning_rate': 4.094895386670689e-07, 'epoch': 10.5}
 66%|██████▌   | 243800/371472 [8:21:49<9:18:20,  3.81it/s] 66%|██████▌   | 243801/371472 [8:21:50<10:04:57,  3.52it/s] 66%|██████▌   | 243802/371472 [8:21:50<9:29:28,  3.74it/s]  66%|██████▌   | 243803/371472 [8:21:50<9:13:53,  3.84it/s] 66%|██████▌   | 243804/371472 [8:21:50<8:59:10,  3.95it/s] 66%|██████▌   | 243805/371472 [8:21:51<9:18:36,  3.81it/s] 66%|██████▌   | 243806/371472 [8:21:51<9:22:22,  3.78it/s] 66%|██████▌   | 243807/371472 [8:21:51<9:10:26,  3.87it/s] 66%|██████▌   | 243808/371472 [8:21:52<9:17:20,  3.82it/s] 66%|██████▌   | 243809/371472 [8:21:52<9:43:45,  3.64it/s] 66%|██████▌   | 243810/371472 [8:21:52<9:14:51,  3.83it/s] 66%|██████▌   | 243811/371472 [8:21:52<9:39:42,  3.67it/s] 66%|██████▌   | 243812/371472 [8:21:53<9:29:36,  3.74it/s] 66%|██████▌   | 243813/371472 [8:21:53<9:28:41,  3.74it/s] 66%|██████▌   | 243814/371472 [8:21:53<9:18:02,  3.81it/s] 66%|██████▌   | 243815/371472 [8:21:53<9:26:18,  3.76it/s] 66%|██████▌   | 243816/371472 [8:21:54<9:46:36,  3.63it/s] 66%|██████▌   | 243817/371472 [8:21:54<10:15:08,  3.46it/s] 66%|██████▌   | 243818/371472 [8:21:54<10:45:31,  3.30it/s] 66%|██████▌   | 243819/371472 [8:21:55<10:56:25,  3.24it/s] 66%|██████▌   | 243820/371472 [8:21:55<10:26:16,  3.40it/s]                                                            {'loss': 2.918, 'learning_rate': 4.094410566915899e-07, 'epoch': 10.5}
 66%|██████▌   | 243820/371472 [8:21:55<10:26:16,  3.40it/s] 66%|██████▌   | 243821/371472 [8:21:55<9:56:01,  3.57it/s]  66%|██████▌   | 243822/371472 [8:21:55<9:36:53,  3.69it/s] 66%|██████▌   | 243823/371472 [8:21:56<9:34:52,  3.70it/s] 66%|██████▌   | 243824/371472 [8:21:56<9:15:20,  3.83it/s] 66%|██████▌   | 243825/371472 [8:21:56<9:20:21,  3.80it/s] 66%|██████▌   | 243826/371472 [8:21:56<9:15:34,  3.83it/s] 66%|██████▌   | 243827/371472 [8:21:57<9:37:06,  3.69it/s] 66%|██████▌   | 243828/371472 [8:21:57<9:23:00,  3.78it/s] 66%|██████▌   | 243829/371472 [8:21:57<9:15:07,  3.83it/s] 66%|██████▌   | 243830/371472 [8:21:58<11:07:44,  3.19it/s] 66%|██████▌   | 243831/371472 [8:21:58<10:36:26,  3.34it/s] 66%|██████▌   | 243832/371472 [8:21:58<10:10:57,  3.48it/s] 66%|██████▌   | 243833/371472 [8:21:59<10:09:52,  3.49it/s] 66%|██████▌   | 243834/371472 [8:21:59<10:19:26,  3.43it/s] 66%|██████▌   | 243835/371472 [8:21:59<10:18:53,  3.44it/s] 66%|██████▌   | 243836/371472 [8:21:59<9:57:51,  3.56it/s]  66%|██████▌   | 243837/371472 [8:22:00<9:53:23,  3.58it/s] 66%|██████▌   | 243838/371472 [8:22:00<9:41:43,  3.66it/s] 66%|██████▌   | 243839/371472 [8:22:00<9:13:57,  3.84it/s] 66%|██████▌   | 243840/371472 [8:22:00<9:45:28,  3.63it/s]                                                           {'loss': 2.8593, 'learning_rate': 4.093925747161111e-07, 'epoch': 10.5}
 66%|██████▌   | 243840/371472 [8:22:00<9:45:28,  3.63it/s] 66%|██████▌   | 243841/371472 [8:22:01<9:59:41,  3.55it/s] 66%|██████▌   | 243842/371472 [8:22:01<9:50:39,  3.60it/s] 66%|██████▌   | 243843/371472 [8:22:01<10:04:19,  3.52it/s] 66%|██████▌   | 243844/371472 [8:22:02<10:16:33,  3.45it/s] 66%|██████▌   | 243845/371472 [8:22:02<9:58:57,  3.55it/s]  66%|██████▌   | 243846/371472 [8:22:02<10:26:05,  3.40it/s] 66%|██████▌   | 243847/371472 [8:22:02<9:58:19,  3.56it/s]  66%|██████▌   | 243848/371472 [8:22:03<9:56:08,  3.57it/s] 66%|██████▌   | 243849/371472 [8:22:03<10:31:30,  3.37it/s] 66%|██████▌   | 243850/371472 [8:22:03<10:40:40,  3.32it/s] 66%|██████▌   | 243851/371472 [8:22:04<10:00:57,  3.54it/s] 66%|██████▌   | 243852/371472 [8:22:04<10:26:18,  3.40it/s] 66%|██████▌   | 243853/371472 [8:22:04<10:25:54,  3.40it/s] 66%|██████▌   | 243854/371472 [8:22:05<10:10:10,  3.49it/s] 66%|██████▌   | 243855/371472 [8:22:05<9:44:17,  3.64it/s]  66%|██████▌   | 243856/371472 [8:22:05<9:22:27,  3.78it/s] 66%|██████▌   | 243857/371472 [8:22:05<9:29:40,  3.73it/s] 66%|██████▌   | 243858/371472 [8:22:06<9:20:27,  3.79it/s] 66%|██████▌   | 243859/371472 [8:22:06<9:19:27,  3.80it/s] 66%|██████▌   | 243860/371472 [8:22:06<10:02:38,  3.53it/s]                                                            {'loss': 2.8557, 'learning_rate': 4.093440927406321e-07, 'epoch': 10.5}
 66%|██████▌   | 243860/371472 [8:22:06<10:02:38,  3.53it/s] 66%|██████▌   | 243861/371472 [8:22:06<10:18:47,  3.44it/s] 66%|██████▌   | 243862/371472 [8:22:07<10:09:17,  3.49it/s] 66%|██████▌   | 243863/371472 [8:22:07<10:05:43,  3.51it/s] 66%|██████▌   | 243864/371472 [8:22:07<10:13:04,  3.47it/s] 66%|██████▌   | 243865/371472 [8:22:08<10:06:53,  3.50it/s] 66%|██████▌   | 243866/371472 [8:22:08<10:04:51,  3.52it/s] 66%|██████▌   | 243867/371472 [8:22:08<10:22:09,  3.42it/s] 66%|██████▌   | 243868/371472 [8:22:08<10:37:29,  3.34it/s] 66%|██████▌   | 243869/371472 [8:22:09<10:09:14,  3.49it/s] 66%|██████▌   | 243870/371472 [8:22:09<9:54:23,  3.58it/s]  66%|██████▌   | 243871/371472 [8:22:09<10:09:16,  3.49it/s] 66%|██████▌   | 243872/371472 [8:22:10<10:03:46,  3.52it/s] 66%|██████▌   | 243873/371472 [8:22:10<9:29:22,  3.74it/s]  66%|██████▌   | 243874/371472 [8:22:10<9:41:02,  3.66it/s] 66%|██████▌   | 243875/371472 [8:22:10<9:30:25,  3.73it/s] 66%|██████▌   | 243876/371472 [8:22:11<9:56:07,  3.57it/s] 66%|██████▌   | 243877/371472 [8:22:11<11:14:54,  3.15it/s] 66%|██████▌   | 243878/371472 [8:22:11<12:12:54,  2.90it/s] 66%|██████▌   | 243879/371472 [8:22:12<11:33:38,  3.07it/s] 66%|██████▌   | 243880/371472 [8:22:12<10:50:42,  3.27it/s]                                                            {'loss': 2.8169, 'learning_rate': 4.092956107651533e-07, 'epoch': 10.5}
 66%|██████▌   | 243880/371472 [8:22:12<10:50:42,  3.27it/s] 66%|██████▌   | 243881/371472 [8:22:12<10:19:41,  3.43it/s] 66%|██████▌   | 243882/371472 [8:22:13<10:27:34,  3.39it/s] 66%|██████▌   | 243883/371472 [8:22:13<10:52:57,  3.26it/s] 66%|██████▌   | 243884/371472 [8:22:13<11:46:03,  3.01it/s] 66%|██████▌   | 243885/371472 [8:22:14<10:45:15,  3.30it/s] 66%|██████▌   | 243886/371472 [8:22:14<10:47:38,  3.28it/s] 66%|██████▌   | 243887/371472 [8:22:14<11:11:58,  3.16it/s] 66%|██████▌   | 243888/371472 [8:22:15<11:17:46,  3.14it/s] 66%|██████▌   | 243889/371472 [8:22:15<10:52:00,  3.26it/s] 66%|██████▌   | 243890/371472 [8:22:15<10:31:21,  3.37it/s] 66%|██████▌   | 243891/371472 [8:22:15<10:07:58,  3.50it/s] 66%|██████▌   | 243892/371472 [8:22:16<9:56:28,  3.56it/s]  66%|██████▌   | 243893/371472 [8:22:16<9:36:05,  3.69it/s] 66%|██████▌   | 243894/371472 [8:22:16<9:41:15,  3.66it/s] 66%|██████▌   | 243895/371472 [8:22:16<9:58:05,  3.56it/s] 66%|██████▌   | 243896/371472 [8:22:17<10:58:18,  3.23it/s] 66%|██████▌   | 243897/371472 [8:22:17<10:17:00,  3.45it/s] 66%|██████▌   | 243898/371472 [8:22:17<9:54:37,  3.58it/s]  66%|██████▌   | 243899/371472 [8:22:18<10:34:06,  3.35it/s] 66%|██████▌   | 243900/371472 [8:22:18<10:04:47,  3.52it/s]                                                            {'loss': 2.7588, 'learning_rate': 4.0924712878967436e-07, 'epoch': 10.51}
 66%|██████▌   | 243900/371472 [8:22:18<10:04:47,  3.52it/s] 66%|██████▌   | 243901/371472 [8:22:18<9:48:00,  3.62it/s]  66%|██████▌   | 243902/371472 [8:22:18<9:18:08,  3.81it/s] 66%|██████▌   | 243903/371472 [8:22:19<10:13:24,  3.47it/s] 66%|██████▌   | 243904/371472 [8:22:19<9:41:06,  3.66it/s]  66%|██████▌   | 243905/371472 [8:22:19<9:46:49,  3.62it/s] 66%|██████▌   | 243906/371472 [8:22:19<9:31:18,  3.72it/s] 66%|██████▌   | 243907/371472 [8:22:20<9:19:56,  3.80it/s] 66%|██████▌   | 243908/371472 [8:22:20<9:32:30,  3.71it/s] 66%|██████▌   | 243909/371472 [8:22:20<9:58:46,  3.55it/s] 66%|██████▌   | 243910/371472 [8:22:21<9:46:22,  3.63it/s] 66%|██████▌   | 243911/371472 [8:22:21<10:04:59,  3.51it/s] 66%|██████▌   | 243912/371472 [8:22:21<10:10:08,  3.48it/s] 66%|██████▌   | 243913/371472 [8:22:21<10:10:29,  3.48it/s] 66%|██████▌   | 243914/371472 [8:22:22<9:38:47,  3.67it/s]  66%|██████▌   | 243915/371472 [8:22:22<9:27:24,  3.75it/s] 66%|██████▌   | 243916/371472 [8:22:22<9:52:30,  3.59it/s] 66%|██████▌   | 243917/371472 [8:22:23<9:30:27,  3.73it/s] 66%|██████▌   | 243918/371472 [8:22:23<9:34:33,  3.70it/s] 66%|██████▌   | 243919/371472 [8:22:23<9:14:32,  3.83it/s] 66%|██████▌   | 243920/371472 [8:22:23<9:04:39,  3.90it/s]                                                           {'loss': 2.7523, 'learning_rate': 4.0919864681419554e-07, 'epoch': 10.51}
 66%|██████▌   | 243920/371472 [8:22:23<9:04:39,  3.90it/s] 66%|██████▌   | 243921/371472 [8:22:24<9:09:16,  3.87it/s] 66%|██████▌   | 243922/371472 [8:22:24<9:39:43,  3.67it/s] 66%|██████▌   | 243923/371472 [8:22:24<9:30:42,  3.72it/s] 66%|██████▌   | 243924/371472 [8:22:24<9:09:06,  3.87it/s] 66%|██████▌   | 243925/371472 [8:22:25<9:28:36,  3.74it/s] 66%|██████▌   | 243926/371472 [8:22:25<10:24:07,  3.41it/s] 66%|██████▌   | 243927/371472 [8:22:25<10:12:54,  3.47it/s] 66%|██████▌   | 243928/371472 [8:22:26<9:47:52,  3.62it/s]  66%|██████▌   | 243929/371472 [8:22:26<10:16:11,  3.45it/s] 66%|██████▌   | 243930/371472 [8:22:26<9:57:38,  3.56it/s]  66%|██████▌   | 243931/371472 [8:22:26<9:38:55,  3.67it/s] 66%|██████▌   | 243932/371472 [8:22:27<9:29:48,  3.73it/s] 66%|██████▌   | 243933/371472 [8:22:27<9:46:18,  3.63it/s] 66%|██████▌   | 243934/371472 [8:22:27<9:24:22,  3.77it/s] 66%|██████▌   | 243935/371472 [8:22:27<9:15:33,  3.83it/s] 66%|██████▌   | 243936/371472 [8:22:28<9:21:49,  3.78it/s] 66%|██████▌   | 243937/371472 [8:22:28<11:09:50,  3.17it/s] 66%|██████▌   | 243938/371472 [8:22:28<10:45:29,  3.29it/s] 66%|██████▌   | 243939/371472 [8:22:29<10:21:36,  3.42it/s] 66%|██████▌   | 243940/371472 [8:22:29<10:33:11,  3.36it/s]                                                            {'loss': 2.9415, 'learning_rate': 4.0915016483871656e-07, 'epoch': 10.51}
 66%|██████▌   | 243940/371472 [8:22:29<10:33:11,  3.36it/s] 66%|██████▌   | 243941/371472 [8:22:29<10:11:27,  3.48it/s] 66%|██████▌   | 243942/371472 [8:22:30<10:12:03,  3.47it/s] 66%|██████▌   | 243943/371472 [8:22:30<10:00:43,  3.54it/s] 66%|██████▌   | 243944/371472 [8:22:30<10:03:38,  3.52it/s] 66%|██████▌   | 243945/371472 [8:22:30<9:38:05,  3.68it/s]  66%|██████▌   | 243946/371472 [8:22:31<10:26:50,  3.39it/s] 66%|██████▌   | 243947/371472 [8:22:31<10:02:42,  3.53it/s] 66%|██████▌   | 243948/371472 [8:22:31<9:41:47,  3.65it/s]  66%|██████▌   | 243949/371472 [8:22:31<9:30:56,  3.72it/s] 66%|██████▌   | 243950/371472 [8:22:32<9:04:15,  3.91it/s] 66%|██████▌   | 243951/371472 [8:22:32<9:08:43,  3.87it/s] 66%|██████▌   | 243952/371472 [8:22:32<9:15:44,  3.82it/s] 66%|██████▌   | 243953/371472 [8:22:32<9:38:20,  3.67it/s] 66%|██████▌   | 243954/371472 [8:22:33<9:27:29,  3.75it/s] 66%|██████▌   | 243955/371472 [8:22:33<10:09:31,  3.49it/s] 66%|██████▌   | 243956/371472 [8:22:33<10:24:53,  3.40it/s] 66%|██████▌   | 243957/371472 [8:22:34<10:17:52,  3.44it/s] 66%|██████▌   | 243958/371472 [8:22:34<10:08:40,  3.49it/s] 66%|██████▌   | 243959/371472 [8:22:34<10:00:10,  3.54it/s] 66%|██████▌   | 243960/371472 [8:22:34<9:32:54,  3.71it/s]                                                            {'loss': 2.8765, 'learning_rate': 4.0910168286323774e-07, 'epoch': 10.51}
 66%|██████▌   | 243960/371472 [8:22:34<9:32:54,  3.71it/s] 66%|██████▌   | 243961/371472 [8:22:35<9:12:01,  3.85it/s] 66%|██████▌   | 243962/371472 [8:22:35<9:11:44,  3.85it/s] 66%|██████▌   | 243963/371472 [8:22:35<9:03:40,  3.91it/s] 66%|██████▌   | 243964/371472 [8:22:35<9:22:09,  3.78it/s] 66%|██████▌   | 243965/371472 [8:22:36<9:19:03,  3.80it/s] 66%|██████▌   | 243966/371472 [8:22:36<9:11:31,  3.85it/s] 66%|██████▌   | 243967/371472 [8:22:36<9:07:56,  3.88it/s] 66%|██████▌   | 243968/371472 [8:22:37<9:30:35,  3.72it/s] 66%|██████▌   | 243969/371472 [8:22:37<10:15:24,  3.45it/s] 66%|██████▌   | 243970/371472 [8:22:37<10:03:50,  3.52it/s] 66%|██████▌   | 243971/371472 [8:22:37<10:02:53,  3.52it/s] 66%|██████▌   | 243972/371472 [8:22:38<9:29:24,  3.73it/s]  66%|██████▌   | 243973/371472 [8:22:38<9:24:07,  3.77it/s] 66%|██████▌   | 243974/371472 [8:22:38<9:00:06,  3.93it/s] 66%|██████▌   | 243975/371472 [8:22:38<9:01:24,  3.92it/s] 66%|██████▌   | 243976/371472 [8:22:39<9:04:00,  3.91it/s] 66%|██████▌   | 243977/371472 [8:22:39<8:56:47,  3.96it/s] 66%|██████▌   | 243978/371472 [8:22:39<8:43:44,  4.06it/s] 66%|██████▌   | 243979/371472 [8:22:39<8:41:21,  4.08it/s] 66%|██████▌   | 243980/371472 [8:22:40<9:15:22,  3.83it/s]                                                           {'loss': 2.9411, 'learning_rate': 4.090532008877588e-07, 'epoch': 10.51}
 66%|██████▌   | 243980/371472 [8:22:40<9:15:22,  3.83it/s] 66%|██████▌   | 243981/371472 [8:22:40<9:13:48,  3.84it/s] 66%|██████▌   | 243982/371472 [8:22:40<9:14:14,  3.83it/s] 66%|██████▌   | 243983/371472 [8:22:40<9:10:32,  3.86it/s] 66%|██████▌   | 243984/371472 [8:22:41<9:47:03,  3.62it/s] 66%|██████▌   | 243985/371472 [8:22:41<9:25:37,  3.76it/s] 66%|██████▌   | 243986/371472 [8:22:41<9:14:54,  3.83it/s] 66%|██████▌   | 243987/371472 [8:22:42<9:17:39,  3.81it/s] 66%|██████▌   | 243988/371472 [8:22:42<9:28:15,  3.74it/s] 66%|██████▌   | 243989/371472 [8:22:42<9:13:13,  3.84it/s] 66%|██████▌   | 243990/371472 [8:22:42<9:52:01,  3.59it/s] 66%|██████▌   | 243991/371472 [8:22:43<9:26:17,  3.75it/s] 66%|██████▌   | 243992/371472 [8:22:43<9:59:08,  3.55it/s] 66%|██████▌   | 243993/371472 [8:22:43<9:52:25,  3.59it/s] 66%|██████▌   | 243994/371472 [8:22:43<9:35:30,  3.69it/s] 66%|██████▌   | 243995/371472 [8:22:44<9:24:53,  3.76it/s] 66%|██████▌   | 243996/371472 [8:22:44<9:19:24,  3.80it/s] 66%|██████▌   | 243997/371472 [8:22:44<9:18:24,  3.80it/s] 66%|██████▌   | 243998/371472 [8:22:44<9:05:05,  3.90it/s] 66%|██████▌   | 243999/371472 [8:22:45<9:43:30,  3.64it/s] 66%|██████▌   | 244000/371472 [8:22:45<9:38:34,  3.67it/s]                                                           {'loss': 2.9213, 'learning_rate': 4.0900471891227993e-07, 'epoch': 10.51}
 66%|██████▌   | 244000/371472 [8:22:45<9:38:34,  3.67it/s] 66%|██████▌   | 244001/371472 [8:22:45<9:42:48,  3.65it/s] 66%|██████▌   | 244002/371472 [8:22:46<9:43:52,  3.64it/s] 66%|██████▌   | 244003/371472 [8:22:46<9:40:16,  3.66it/s] 66%|██████▌   | 244004/371472 [8:22:46<9:23:59,  3.77it/s] 66%|██████▌   | 244005/371472 [8:22:46<9:12:21,  3.85it/s] 66%|██████▌   | 244006/371472 [8:22:47<9:00:54,  3.93it/s] 66%|██████▌   | 244007/371472 [8:22:47<9:18:42,  3.80it/s] 66%|██████▌   | 244008/371472 [8:22:47<9:12:44,  3.84it/s] 66%|██████▌   | 244009/371472 [8:22:47<9:57:50,  3.55it/s] 66%|██████▌   | 244010/371472 [8:22:48<10:22:50,  3.41it/s] 66%|██████▌   | 244011/371472 [8:22:48<10:07:32,  3.50it/s] 66%|██████▌   | 244012/371472 [8:22:48<9:43:55,  3.64it/s]  66%|██████▌   | 244013/371472 [8:22:49<9:16:11,  3.82it/s] 66%|██████▌   | 244014/371472 [8:22:49<10:04:43,  3.51it/s] 66%|██████▌   | 244015/371472 [8:22:49<9:53:50,  3.58it/s]  66%|██████▌   | 244016/371472 [8:22:49<9:40:28,  3.66it/s] 66%|██████▌   | 244017/371472 [8:22:50<10:01:11,  3.53it/s] 66%|██████▌   | 244018/371472 [8:22:50<10:12:29,  3.47it/s] 66%|██████▌   | 244019/371472 [8:22:50<10:07:31,  3.50it/s] 66%|██████▌   | 244020/371472 [8:22:51<9:53:49,  3.58it/s]                                                            {'loss': 2.8714, 'learning_rate': 4.08956236936801e-07, 'epoch': 10.51}
 66%|██████▌   | 244020/371472 [8:22:51<9:53:49,  3.58it/s] 66%|██████▌   | 244021/371472 [8:22:51<10:01:25,  3.53it/s] 66%|██████▌   | 244022/371472 [8:22:51<10:09:18,  3.49it/s] 66%|██████▌   | 244023/371472 [8:22:51<9:54:51,  3.57it/s]  66%|██████▌   | 244024/371472 [8:22:52<9:33:05,  3.71it/s] 66%|██████▌   | 244025/371472 [8:22:52<9:28:38,  3.74it/s] 66%|██████▌   | 244026/371472 [8:22:52<9:35:47,  3.69it/s] 66%|██████▌   | 244027/371472 [8:22:53<9:58:17,  3.55it/s] 66%|██████▌   | 244028/371472 [8:22:53<9:42:14,  3.65it/s] 66%|██████▌   | 244029/371472 [8:22:53<10:17:47,  3.44it/s] 66%|██████▌   | 244030/371472 [8:22:53<10:22:55,  3.41it/s] 66%|██████▌   | 244031/371472 [8:22:54<10:34:33,  3.35it/s] 66%|██████▌   | 244032/371472 [8:22:54<10:40:03,  3.32it/s] 66%|██████▌   | 244033/371472 [8:22:54<10:28:56,  3.38it/s] 66%|██████▌   | 244034/371472 [8:22:55<11:18:12,  3.13it/s] 66%|██████▌   | 244035/371472 [8:22:55<10:33:22,  3.35it/s] 66%|██████▌   | 244036/371472 [8:22:55<10:17:37,  3.44it/s] 66%|██████▌   | 244037/371472 [8:22:56<11:04:02,  3.20it/s] 66%|██████▌   | 244038/371472 [8:22:56<10:33:12,  3.35it/s] 66%|██████▌   | 244039/371472 [8:22:56<10:11:04,  3.48it/s] 66%|██████▌   | 244040/371472 [8:22:56<9:53:54,  3.58it/s]                                                            {'loss': 2.6551, 'learning_rate': 4.089077549613222e-07, 'epoch': 10.51}
 66%|██████▌   | 244040/371472 [8:22:56<9:53:54,  3.58it/s] 66%|██████▌   | 244041/371472 [8:22:57<9:42:02,  3.65it/s] 66%|██████▌   | 244042/371472 [8:22:57<10:01:20,  3.53it/s] 66%|██████▌   | 244043/371472 [8:22:57<10:33:21,  3.35it/s] 66%|██████▌   | 244044/371472 [8:22:58<10:12:12,  3.47it/s] 66%|██████▌   | 244045/371472 [8:22:58<9:57:38,  3.55it/s]  66%|██████▌   | 244046/371472 [8:22:58<9:49:34,  3.60it/s] 66%|██████▌   | 244047/371472 [8:22:58<9:35:12,  3.69it/s] 66%|██████▌   | 244048/371472 [8:22:59<9:40:13,  3.66it/s] 66%|██████▌   | 244049/371472 [8:22:59<9:31:30,  3.72it/s] 66%|██████▌   | 244050/371472 [8:22:59<9:48:02,  3.61it/s] 66%|██████▌   | 244051/371472 [8:22:59<9:46:04,  3.62it/s] 66%|██████▌   | 244052/371472 [8:23:00<9:37:08,  3.68it/s] 66%|██████▌   | 244053/371472 [8:23:00<9:38:15,  3.67it/s] 66%|██████▌   | 244054/371472 [8:23:00<9:38:11,  3.67it/s] 66%|██████▌   | 244055/371472 [8:23:00<9:32:52,  3.71it/s] 66%|██████▌   | 244056/371472 [8:23:01<9:27:00,  3.75it/s] 66%|██████▌   | 244057/371472 [8:23:01<9:30:42,  3.72it/s] 66%|██████▌   | 244058/371472 [8:23:01<9:28:04,  3.74it/s] 66%|██████▌   | 244059/371472 [8:23:02<9:12:57,  3.84it/s] 66%|██████▌   | 244060/371472 [8:23:02<10:10:46,  3.48it/s]                                                            {'loss': 2.9795, 'learning_rate': 4.0885927298584325e-07, 'epoch': 10.51}
 66%|██████▌   | 244060/371472 [8:23:02<10:10:46,  3.48it/s] 66%|██████▌   | 244061/371472 [8:23:02<11:05:28,  3.19it/s] 66%|██████▌   | 244062/371472 [8:23:03<10:51:28,  3.26it/s] 66%|██████▌   | 244063/371472 [8:23:03<10:33:08,  3.35it/s] 66%|██████▌   | 244064/371472 [8:23:03<10:05:19,  3.51it/s] 66%|██████▌   | 244065/371472 [8:23:03<9:49:10,  3.60it/s]  66%|██████▌   | 244066/371472 [8:23:04<9:31:00,  3.72it/s] 66%|██████▌   | 244067/371472 [8:23:04<9:38:35,  3.67it/s] 66%|██████▌   | 244068/371472 [8:23:04<10:53:06,  3.25it/s] 66%|██████▌   | 244069/371472 [8:23:05<10:37:22,  3.33it/s] 66%|██████▌   | 244070/371472 [8:23:05<10:41:21,  3.31it/s] 66%|██████▌   | 244071/371472 [8:23:05<10:04:24,  3.51it/s] 66%|██████▌   | 244072/371472 [8:23:05<10:08:55,  3.49it/s] 66%|██████▌   | 244073/371472 [8:23:06<10:01:50,  3.53it/s] 66%|██████▌   | 244074/371472 [8:23:06<10:06:34,  3.50it/s] 66%|██████▌   | 244075/371472 [8:23:06<10:13:15,  3.46it/s] 66%|██████▌   | 244076/371472 [8:23:07<10:30:29,  3.37it/s] 66%|██████▌   | 244077/371472 [8:23:07<10:16:48,  3.44it/s] 66%|██████▌   | 244078/371472 [8:23:07<10:57:04,  3.23it/s] 66%|██████▌   | 244079/371472 [8:23:07<10:55:09,  3.24it/s] 66%|██████▌   | 244080/371472 [8:23:08<10:28:21,  3.38it/s]                                                            {'loss': 2.8696, 'learning_rate': 4.088107910103644e-07, 'epoch': 10.51}
 66%|██████▌   | 244080/371472 [8:23:08<10:28:21,  3.38it/s] 66%|██████▌   | 244081/371472 [8:23:08<10:11:47,  3.47it/s] 66%|██████▌   | 244082/371472 [8:23:08<10:18:29,  3.43it/s] 66%|██████▌   | 244083/371472 [8:23:09<9:53:53,  3.57it/s]  66%|██████▌   | 244084/371472 [8:23:09<9:51:17,  3.59it/s] 66%|██████▌   | 244085/371472 [8:23:09<11:05:29,  3.19it/s] 66%|██████▌   | 244086/371472 [8:23:10<10:24:28,  3.40it/s] 66%|██████▌   | 244087/371472 [8:23:10<11:14:39,  3.15it/s] 66%|██████▌   | 244088/371472 [8:23:10<11:12:58,  3.15it/s] 66%|██████▌   | 244089/371472 [8:23:10<11:07:36,  3.18it/s] 66%|██████▌   | 244090/371472 [8:23:11<10:34:33,  3.35it/s] 66%|██████▌   | 244091/371472 [8:23:11<12:29:22,  2.83it/s] 66%|██████▌   | 244092/371472 [8:23:12<11:36:06,  3.05it/s] 66%|██████▌   | 244093/371472 [8:23:12<10:52:04,  3.26it/s] 66%|██████▌   | 244094/371472 [8:23:12<11:31:14,  3.07it/s] 66%|██████▌   | 244095/371472 [8:23:12<10:40:27,  3.31it/s] 66%|██████▌   | 244096/371472 [8:23:13<10:04:47,  3.51it/s] 66%|██████▌   | 244097/371472 [8:23:13<10:11:38,  3.47it/s] 66%|██████▌   | 244098/371472 [8:23:13<9:58:17,  3.55it/s]  66%|██████▌   | 244099/371472 [8:23:14<10:37:13,  3.33it/s] 66%|██████▌   | 244100/371472 [8:23:14<10:20:17,  3.42it/s]                                                            {'loss': 2.7138, 'learning_rate': 4.0876230903488545e-07, 'epoch': 10.51}
 66%|██████▌   | 244100/371472 [8:23:14<10:20:17,  3.42it/s] 66%|██████▌   | 244101/371472 [8:23:14<10:18:41,  3.43it/s] 66%|██████▌   | 244102/371472 [8:23:14<10:01:22,  3.53it/s] 66%|██████▌   | 244103/371472 [8:23:15<10:13:00,  3.46it/s] 66%|██████▌   | 244104/371472 [8:23:15<9:34:21,  3.70it/s]  66%|██████▌   | 244105/371472 [8:23:15<11:11:42,  3.16it/s] 66%|██████▌   | 244106/371472 [8:23:16<10:24:22,  3.40it/s] 66%|██████▌   | 244107/371472 [8:23:16<11:08:05,  3.18it/s] 66%|██████▌   | 244108/371472 [8:23:16<11:18:38,  3.13it/s] 66%|██████▌   | 244109/371472 [8:23:17<10:40:39,  3.31it/s] 66%|██████▌   | 244110/371472 [8:23:17<10:19:20,  3.43it/s] 66%|██████▌   | 244111/371472 [8:23:17<10:27:08,  3.38it/s] 66%|██████▌   | 244112/371472 [8:23:17<10:40:05,  3.32it/s] 66%|██████▌   | 244113/371472 [8:23:18<10:05:05,  3.51it/s] 66%|██████▌   | 244114/371472 [8:23:18<10:33:04,  3.35it/s] 66%|██████▌   | 244115/371472 [8:23:18<10:44:48,  3.29it/s] 66%|██████▌   | 244116/371472 [8:23:19<10:20:22,  3.42it/s] 66%|██████▌   | 244117/371472 [8:23:19<10:08:16,  3.49it/s] 66%|██████▌   | 244118/371472 [8:23:19<9:47:43,  3.61it/s]  66%|██████▌   | 244119/371472 [8:23:19<9:59:00,  3.54it/s] 66%|██████▌   | 244120/371472 [8:23:20<9:59:43,  3.54it/s]                                                           {'loss': 2.9857, 'learning_rate': 4.0871382705940663e-07, 'epoch': 10.51}
 66%|██████▌   | 244120/371472 [8:23:20<9:59:43,  3.54it/s] 66%|██████▌   | 244121/371472 [8:23:20<10:19:04,  3.43it/s] 66%|██████▌   | 244122/371472 [8:23:20<10:03:53,  3.51it/s] 66%|██████▌   | 244123/371472 [8:23:21<9:46:07,  3.62it/s]  66%|██████▌   | 244124/371472 [8:23:21<9:51:18,  3.59it/s] 66%|██████▌   | 244125/371472 [8:23:21<9:22:20,  3.77it/s] 66%|██████▌   | 244126/371472 [8:23:21<9:03:20,  3.91it/s] 66%|██████▌   | 244127/371472 [8:23:22<9:32:55,  3.70it/s] 66%|██████▌   | 244128/371472 [8:23:22<9:25:07,  3.76it/s] 66%|██████▌   | 244129/371472 [8:23:22<10:14:00,  3.46it/s] 66%|██████▌   | 244130/371472 [8:23:22<9:47:39,  3.61it/s]  66%|██████▌   | 244131/371472 [8:23:23<9:40:58,  3.65it/s] 66%|██████▌   | 244132/371472 [8:23:23<10:17:13,  3.44it/s] 66%|██████▌   | 244133/371472 [8:23:23<9:55:19,  3.56it/s]  66%|██████▌   | 244134/371472 [8:23:24<9:33:37,  3.70it/s] 66%|██████▌   | 244135/371472 [8:23:24<9:39:16,  3.66it/s] 66%|██████▌   | 244136/371472 [8:23:24<9:35:15,  3.69it/s] 66%|██████▌   | 244137/371472 [8:23:24<9:20:21,  3.79it/s] 66%|██████▌   | 244138/371472 [8:23:25<11:02:27,  3.20it/s] 66%|██████▌   | 244139/371472 [8:23:25<10:22:30,  3.41it/s] 66%|██████▌   | 244140/371472 [8:23:25<10:09:33,  3.48it/s]                                                            {'loss': 2.8253, 'learning_rate': 4.0866534508392765e-07, 'epoch': 10.52}
 66%|██████▌   | 244140/371472 [8:23:25<10:09:33,  3.48it/s] 66%|██████▌   | 244141/371472 [8:23:26<9:57:24,  3.55it/s]  66%|██████▌   | 244142/371472 [8:23:26<9:33:42,  3.70it/s] 66%|██████▌   | 244143/371472 [8:23:26<9:42:11,  3.65it/s] 66%|██████▌   | 244144/371472 [8:23:26<9:49:13,  3.60it/s] 66%|██████▌   | 244145/371472 [8:23:27<9:56:08,  3.56it/s] 66%|██████▌   | 244146/371472 [8:23:27<10:27:20,  3.38it/s] 66%|██████▌   | 244147/371472 [8:23:27<10:06:34,  3.50it/s] 66%|██████▌   | 244148/371472 [8:23:28<10:38:33,  3.32it/s] 66%|██████▌   | 244149/371472 [8:23:28<10:38:16,  3.32it/s] 66%|██████▌   | 244150/371472 [8:23:28<10:16:42,  3.44it/s] 66%|██████▌   | 244151/371472 [8:23:28<9:48:28,  3.61it/s]  66%|██████▌   | 244152/371472 [8:23:29<10:02:38,  3.52it/s] 66%|██████▌   | 244153/371472 [8:23:29<9:55:51,  3.56it/s]  66%|██████▌   | 244154/371472 [8:23:29<9:59:29,  3.54it/s] 66%|██████▌   | 244155/371472 [8:23:29<9:54:57,  3.57it/s] 66%|██████▌   | 244156/371472 [8:23:30<9:33:05,  3.70it/s] 66%|██████▌   | 244157/371472 [8:23:30<9:28:10,  3.73it/s] 66%|██████▌   | 244158/371472 [8:23:30<9:36:36,  3.68it/s] 66%|██████▌   | 244159/371472 [8:23:31<9:28:01,  3.74it/s] 66%|██████▌   | 244160/371472 [8:23:31<9:10:43,  3.85it/s]                                                           {'loss': 2.7987, 'learning_rate': 4.086168631084488e-07, 'epoch': 10.52}
 66%|██████▌   | 244160/371472 [8:23:31<9:10:43,  3.85it/s] 66%|██████▌   | 244161/371472 [8:23:31<9:12:42,  3.84it/s] 66%|██████▌   | 244162/371472 [8:23:31<9:21:11,  3.78it/s] 66%|██████▌   | 244163/371472 [8:23:32<9:38:09,  3.67it/s] 66%|██████▌   | 244164/371472 [8:23:32<9:39:41,  3.66it/s] 66%|██████▌   | 244165/371472 [8:23:32<9:22:22,  3.77it/s] 66%|██████▌   | 244166/371472 [8:23:32<9:33:15,  3.70it/s] 66%|██████▌   | 244167/371472 [8:23:33<9:28:17,  3.73it/s] 66%|██████▌   | 244168/371472 [8:23:33<9:41:03,  3.65it/s] 66%|██████▌   | 244169/371472 [8:23:33<10:00:57,  3.53it/s] 66%|██████▌   | 244170/371472 [8:23:34<9:43:59,  3.63it/s]  66%|██████▌   | 244171/371472 [8:23:34<9:31:48,  3.71it/s] 66%|██████▌   | 244172/371472 [8:23:34<10:09:51,  3.48it/s] 66%|██████▌   | 244173/371472 [8:23:34<10:42:30,  3.30it/s] 66%|██████▌   | 244174/371472 [8:23:35<10:08:57,  3.48it/s] 66%|██████▌   | 244175/371472 [8:23:35<10:15:41,  3.45it/s] 66%|██████▌   | 244176/371472 [8:23:35<9:52:07,  3.58it/s]  66%|██████▌   | 244177/371472 [8:23:35<9:31:20,  3.71it/s] 66%|██████▌   | 244178/371472 [8:23:36<9:11:31,  3.85it/s] 66%|██████▌   | 244179/371472 [8:23:36<9:28:08,  3.73it/s] 66%|██████▌   | 244180/371472 [8:23:36<9:39:33,  3.66it/s]                                                           {'loss': 2.6387, 'learning_rate': 4.085683811329699e-07, 'epoch': 10.52}
 66%|██████▌   | 244180/371472 [8:23:36<9:39:33,  3.66it/s] 66%|██████▌   | 244181/371472 [8:23:37<9:24:52,  3.76it/s] 66%|██████▌   | 244182/371472 [8:23:37<9:54:34,  3.57it/s] 66%|██████▌   | 244183/371472 [8:23:37<9:48:57,  3.60it/s] 66%|██████▌   | 244184/371472 [8:23:37<10:23:22,  3.40it/s] 66%|██████▌   | 244185/371472 [8:23:38<10:08:37,  3.49it/s] 66%|██████▌   | 244186/371472 [8:23:38<9:56:58,  3.55it/s]  66%|██████▌   | 244187/371472 [8:23:38<9:47:59,  3.61it/s] 66%|██████▌   | 244188/371472 [8:23:39<9:31:04,  3.71it/s] 66%|██████▌   | 244189/371472 [8:23:39<9:15:20,  3.82it/s] 66%|██████▌   | 244190/371472 [8:23:39<9:22:02,  3.77it/s] 66%|██████▌   | 244191/371472 [8:23:39<9:25:56,  3.75it/s] 66%|██████▌   | 244192/371472 [8:23:40<9:27:06,  3.74it/s] 66%|██████▌   | 244193/371472 [8:23:40<9:23:28,  3.76it/s] 66%|██████▌   | 244194/371472 [8:23:40<9:24:41,  3.76it/s] 66%|██████▌   | 244195/371472 [8:23:40<9:57:30,  3.55it/s] 66%|██████▌   | 244196/371472 [8:23:41<9:45:24,  3.62it/s] 66%|██████▌   | 244197/371472 [8:23:41<10:14:31,  3.45it/s] 66%|██████▌   | 244198/371472 [8:23:41<9:51:24,  3.59it/s]  66%|██████▌   | 244199/371472 [8:23:42<10:03:50,  3.51it/s] 66%|██████▌   | 244200/371472 [8:23:42<9:49:42,  3.60it/s]                                                            {'loss': 2.8444, 'learning_rate': 4.08519899157491e-07, 'epoch': 10.52}
 66%|██████▌   | 244200/371472 [8:23:42<9:49:42,  3.60it/s] 66%|██████▌   | 244201/371472 [8:23:42<9:31:56,  3.71it/s] 66%|██████▌   | 244202/371472 [8:23:42<9:24:04,  3.76it/s] 66%|██████▌   | 244203/371472 [8:23:43<9:12:40,  3.84it/s] 66%|██████▌   | 244204/371472 [8:23:43<9:05:06,  3.89it/s] 66%|██████▌   | 244205/371472 [8:23:43<9:18:41,  3.80it/s] 66%|██████▌   | 244206/371472 [8:23:43<9:07:30,  3.87it/s] 66%|██████▌   | 244207/371472 [8:23:44<9:27:45,  3.74it/s] 66%|██████▌   | 244208/371472 [8:23:44<9:57:51,  3.55it/s] 66%|██████▌   | 244209/371472 [8:23:44<9:46:14,  3.62it/s] 66%|██████▌   | 244210/371472 [8:23:45<10:02:59,  3.52it/s] 66%|██████▌   | 244211/371472 [8:23:45<9:31:32,  3.71it/s]  66%|██████▌   | 244212/371472 [8:23:45<9:19:36,  3.79it/s] 66%|██████▌   | 244213/371472 [8:23:45<9:29:11,  3.73it/s] 66%|██████▌   | 244214/371472 [8:23:46<9:22:47,  3.77it/s] 66%|██████▌   | 244215/371472 [8:23:46<10:04:58,  3.51it/s] 66%|██████▌   | 244216/371472 [8:23:46<11:11:53,  3.16it/s] 66%|██████▌   | 244217/371472 [8:23:47<12:08:40,  2.91it/s] 66%|██████▌   | 244218/371472 [8:23:47<11:16:54,  3.13it/s] 66%|██████▌   | 244219/371472 [8:23:47<10:50:10,  3.26it/s] 66%|██████▌   | 244220/371472 [8:23:47<10:03:13,  3.52it/s]                                                            {'loss': 2.7983, 'learning_rate': 4.084714171820121e-07, 'epoch': 10.52}
 66%|██████▌   | 244220/371472 [8:23:47<10:03:13,  3.52it/s] 66%|██████▌   | 244221/371472 [8:23:48<10:43:14,  3.30it/s] 66%|██████▌   | 244222/371472 [8:23:48<10:51:49,  3.25it/s] 66%|██████▌   | 244223/371472 [8:23:48<10:20:16,  3.42it/s] 66%|██████▌   | 244224/371472 [8:23:49<9:46:34,  3.62it/s]  66%|██████▌   | 244225/371472 [8:23:49<10:03:22,  3.51it/s] 66%|██████▌   | 244226/371472 [8:23:49<10:17:39,  3.43it/s] 66%|██████▌   | 244227/371472 [8:23:50<10:58:54,  3.22it/s] 66%|██████▌   | 244228/371472 [8:23:50<10:26:01,  3.39it/s] 66%|██████▌   | 244229/371472 [8:23:50<10:12:22,  3.46it/s] 66%|██████▌   | 244230/371472 [8:23:50<9:41:35,  3.65it/s]  66%|██████▌   | 244231/371472 [8:23:51<9:39:12,  3.66it/s] 66%|██████▌   | 244232/371472 [8:23:51<9:16:32,  3.81it/s] 66%|██████▌   | 244233/371472 [8:23:51<9:29:35,  3.72it/s] 66%|██████▌   | 244234/371472 [8:23:52<10:26:31,  3.38it/s] 66%|██████▌   | 244235/371472 [8:23:52<9:49:20,  3.60it/s]  66%|██████▌   | 244236/371472 [8:23:52<9:34:46,  3.69it/s] 66%|██████▌   | 244237/371472 [8:23:52<9:42:38,  3.64it/s] 66%|██████▌   | 244238/371472 [8:23:53<10:13:54,  3.45it/s] 66%|██████▌   | 244239/371472 [8:23:53<9:59:44,  3.54it/s]  66%|██████▌   | 244240/371472 [8:23:53<9:44:54,  3.63it/s]                                                           {'loss': 2.6933, 'learning_rate': 4.0842293520653316e-07, 'epoch': 10.52}
 66%|██████▌   | 244240/371472 [8:23:53<9:44:54,  3.63it/s] 66%|██████▌   | 244241/371472 [8:23:53<9:42:38,  3.64it/s] 66%|██████▌   | 244242/371472 [8:23:54<9:20:35,  3.78it/s] 66%|██████▌   | 244243/371472 [8:23:54<9:13:09,  3.83it/s] 66%|██████▌   | 244244/371472 [8:23:54<9:05:44,  3.89it/s] 66%|██████▌   | 244245/371472 [8:23:54<9:14:17,  3.83it/s] 66%|██████▌   | 244246/371472 [8:23:55<9:39:36,  3.66it/s] 66%|██████▌   | 244247/371472 [8:23:55<9:21:36,  3.78it/s] 66%|██████▌   | 244248/371472 [8:23:55<9:39:52,  3.66it/s] 66%|██████▌   | 244249/371472 [8:23:56<9:52:23,  3.58it/s] 66%|██████▌   | 244250/371472 [8:23:56<10:04:19,  3.51it/s] 66%|██████▌   | 244251/371472 [8:23:56<9:54:53,  3.56it/s]  66%|██████▌   | 244252/371472 [8:23:56<9:35:56,  3.68it/s] 66%|██████▌   | 244253/371472 [8:23:57<10:37:49,  3.32it/s] 66%|██████▌   | 244254/371472 [8:23:57<10:25:44,  3.39it/s] 66%|██████▌   | 244255/371472 [8:23:57<9:59:44,  3.54it/s]  66%|██████▌   | 244256/371472 [8:23:58<9:39:05,  3.66it/s] 66%|██████▌   | 244257/371472 [8:23:58<9:24:19,  3.76it/s] 66%|██████▌   | 244258/371472 [8:23:58<9:26:08,  3.75it/s] 66%|██████▌   | 244259/371472 [8:23:58<9:36:59,  3.67it/s] 66%|██████▌   | 244260/371472 [8:23:59<10:12:28,  3.46it/s]                                                            {'loss': 2.9039, 'learning_rate': 4.083744532310543e-07, 'epoch': 10.52}
 66%|██████▌   | 244260/371472 [8:23:59<10:12:28,  3.46it/s] 66%|██████▌   | 244261/371472 [8:23:59<9:48:57,  3.60it/s]  66%|██████▌   | 244262/371472 [8:23:59<10:16:16,  3.44it/s] 66%|██████▌   | 244263/371472 [8:23:59<9:59:25,  3.54it/s]  66%|██████▌   | 244264/371472 [8:24:00<10:18:56,  3.43it/s] 66%|██████▌   | 244265/371472 [8:24:00<10:53:10,  3.25it/s] 66%|██████▌   | 244266/371472 [8:24:00<10:25:29,  3.39it/s] 66%|██████▌   | 244267/371472 [8:24:01<9:50:46,  3.59it/s]  66%|██████▌   | 244268/371472 [8:24:01<9:38:15,  3.67it/s] 66%|██████▌   | 244269/371472 [8:24:01<10:52:56,  3.25it/s] 66%|██████▌   | 244270/371472 [8:24:02<10:26:50,  3.38it/s] 66%|██████▌   | 244271/371472 [8:24:02<10:03:29,  3.51it/s] 66%|██████▌   | 244272/371472 [8:24:02<11:12:34,  3.15it/s] 66%|██████▌   | 244273/371472 [8:24:03<11:21:06,  3.11it/s] 66%|██████▌   | 244274/371472 [8:24:03<10:43:13,  3.30it/s] 66%|██████▌   | 244275/371472 [8:24:03<10:08:32,  3.48it/s] 66%|██████▌   | 244276/371472 [8:24:03<10:14:43,  3.45it/s] 66%|██████▌   | 244277/371472 [8:24:04<9:58:30,  3.54it/s]  66%|██████▌   | 244278/371472 [8:24:04<10:43:12,  3.30it/s] 66%|██████▌   | 244279/371472 [8:24:04<10:06:33,  3.49it/s] 66%|██████▌   | 244280/371472 [8:24:05<10:01:41,  3.52it/s]                                                            {'loss': 2.8858, 'learning_rate': 4.083259712555753e-07, 'epoch': 10.52}
 66%|██████▌   | 244280/371472 [8:24:05<10:01:41,  3.52it/s] 66%|██████▌   | 244281/371472 [8:24:05<10:02:05,  3.52it/s] 66%|██████▌   | 244282/371472 [8:24:05<9:47:49,  3.61it/s]  66%|██████▌   | 244283/371472 [8:24:05<9:51:54,  3.58it/s] 66%|██████▌   | 244284/371472 [8:24:06<9:49:34,  3.60it/s] 66%|██████▌   | 244285/371472 [8:24:06<10:29:26,  3.37it/s] 66%|██████▌   | 244286/371472 [8:24:06<10:16:55,  3.44it/s] 66%|██████▌   | 244287/371472 [8:24:07<10:42:13,  3.30it/s] 66%|██████▌   | 244288/371472 [8:24:07<10:48:11,  3.27it/s] 66%|██████▌   | 244289/371472 [8:24:07<10:12:47,  3.46it/s] 66%|██████▌   | 244290/371472 [8:24:07<10:20:56,  3.41it/s] 66%|██████▌   | 244291/371472 [8:24:08<11:13:40,  3.15it/s] 66%|██████▌   | 244292/371472 [8:24:08<10:40:01,  3.31it/s] 66%|██████▌   | 244293/371472 [8:24:08<10:09:47,  3.48it/s] 66%|██████▌   | 244294/371472 [8:24:09<10:14:39,  3.45it/s] 66%|██████▌   | 244295/371472 [8:24:09<9:46:45,  3.61it/s]  66%|██████▌   | 244296/371472 [8:24:09<9:40:27,  3.65it/s] 66%|██████▌   | 244297/371472 [8:24:09<9:21:10,  3.78it/s] 66%|██████▌   | 244298/371472 [8:24:10<9:22:13,  3.77it/s] 66%|██████▌   | 244299/371472 [8:24:10<9:14:34,  3.82it/s] 66%|██████▌   | 244300/371472 [8:24:10<9:42:42,  3.64it/s]                                                           {'loss': 2.8241, 'learning_rate': 4.0827748928009653e-07, 'epoch': 10.52}
 66%|██████▌   | 244300/371472 [8:24:10<9:42:42,  3.64it/s] 66%|██████▌   | 244301/371472 [8:24:10<9:57:13,  3.55it/s] 66%|██████▌   | 244302/371472 [8:24:11<9:35:14,  3.68it/s] 66%|██████▌   | 244303/371472 [8:24:11<9:49:29,  3.60it/s] 66%|██████▌   | 244304/371472 [8:24:11<9:58:47,  3.54it/s] 66%|██████▌   | 244305/371472 [8:24:12<9:51:36,  3.58it/s] 66%|██████▌   | 244306/371472 [8:24:12<9:39:38,  3.66it/s] 66%|██████▌   | 244307/371472 [8:24:12<9:20:40,  3.78it/s] 66%|██████▌   | 244308/371472 [8:24:12<9:26:16,  3.74it/s] 66%|██████▌   | 244309/371472 [8:24:13<9:22:17,  3.77it/s] 66%|██████▌   | 244310/371472 [8:24:13<9:07:08,  3.87it/s] 66%|██████▌   | 244311/371472 [8:24:13<8:59:37,  3.93it/s] 66%|██████▌   | 244312/371472 [8:24:13<8:57:34,  3.94it/s] 66%|██████▌   | 244313/371472 [8:24:14<8:59:03,  3.93it/s] 66%|██████▌   | 244314/371472 [8:24:14<8:59:38,  3.93it/s] 66%|██████▌   | 244315/371472 [8:24:14<9:11:28,  3.84it/s] 66%|██████▌   | 244316/371472 [8:24:14<9:21:57,  3.77it/s] 66%|██████▌   | 244317/371472 [8:24:15<9:38:37,  3.66it/s] 66%|██████▌   | 244318/371472 [8:24:15<10:12:47,  3.46it/s] 66%|██████▌   | 244319/371472 [8:24:15<10:13:12,  3.46it/s] 66%|██████▌   | 244320/371472 [8:24:16<11:03:56,  3.19it/s]                                                            {'loss': 2.8422, 'learning_rate': 4.0822900730461755e-07, 'epoch': 10.52}
 66%|██████▌   | 244320/371472 [8:24:16<11:03:56,  3.19it/s] 66%|██████▌   | 244321/371472 [8:24:16<10:45:57,  3.28it/s] 66%|██████▌   | 244322/371472 [8:24:16<10:39:33,  3.31it/s] 66%|██████▌   | 244323/371472 [8:24:17<10:07:11,  3.49it/s] 66%|██████▌   | 244324/371472 [8:24:17<11:05:34,  3.18it/s] 66%|██████▌   | 244325/371472 [8:24:17<10:41:02,  3.31it/s] 66%|██████▌   | 244326/371472 [8:24:17<10:27:22,  3.38it/s] 66%|██████▌   | 244327/371472 [8:24:18<10:14:08,  3.45it/s] 66%|██████▌   | 244328/371472 [8:24:18<9:51:17,  3.58it/s]  66%|██████▌   | 244329/371472 [8:24:18<9:37:43,  3.67it/s] 66%|██████▌   | 244330/371472 [8:24:19<10:13:54,  3.45it/s] 66%|██████▌   | 244331/371472 [8:24:19<10:00:19,  3.53it/s] 66%|██████▌   | 244332/371472 [8:24:19<9:44:14,  3.63it/s]  66%|██████▌   | 244333/371472 [8:24:19<9:18:41,  3.79it/s] 66%|██████▌   | 244334/371472 [8:24:20<9:02:56,  3.90it/s] 66%|██████▌   | 244335/371472 [8:24:20<8:55:37,  3.96it/s] 66%|██████▌   | 244336/371472 [8:24:20<8:50:53,  3.99it/s] 66%|██████▌   | 244337/371472 [8:24:20<9:26:10,  3.74it/s] 66%|██████▌   | 244338/371472 [8:24:21<10:15:03,  3.45it/s] 66%|██████▌   | 244339/371472 [8:24:21<9:52:27,  3.58it/s]  66%|██████▌   | 244340/371472 [8:24:21<9:58:05,  3.54it/s]                                                           {'loss': 2.788, 'learning_rate': 4.0818052532913873e-07, 'epoch': 10.52}
 66%|██████▌   | 244340/371472 [8:24:21<9:58:05,  3.54it/s] 66%|██████▌   | 244341/371472 [8:24:22<9:41:23,  3.64it/s] 66%|██████▌   | 244342/371472 [8:24:22<9:35:06,  3.68it/s] 66%|██████▌   | 244343/371472 [8:24:22<9:26:15,  3.74it/s] 66%|██████▌   | 244344/371472 [8:24:22<9:07:30,  3.87it/s] 66%|██████▌   | 244345/371472 [8:24:23<9:28:35,  3.73it/s] 66%|██████▌   | 244346/371472 [8:24:23<9:31:56,  3.70it/s] 66%|██████▌   | 244347/371472 [8:24:23<9:33:49,  3.69it/s] 66%|██████▌   | 244348/371472 [8:24:23<10:20:38,  3.41it/s] 66%|██████▌   | 244349/371472 [8:24:24<10:13:41,  3.45it/s] 66%|██████▌   | 244350/371472 [8:24:24<9:58:53,  3.54it/s]  66%|██████▌   | 244351/371472 [8:24:24<10:19:34,  3.42it/s] 66%|██████▌   | 244352/371472 [8:24:25<10:26:48,  3.38it/s] 66%|██████▌   | 244353/371472 [8:24:25<10:13:15,  3.45it/s] 66%|██████▌   | 244354/371472 [8:24:25<9:41:33,  3.64it/s]  66%|██████▌   | 244355/371472 [8:24:26<10:37:37,  3.32it/s] 66%|██████▌   | 244356/371472 [8:24:26<9:56:32,  3.55it/s]  66%|██████▌   | 244357/371472 [8:24:26<10:55:04,  3.23it/s] 66%|██████▌   | 244358/371472 [8:24:26<10:15:06,  3.44it/s] 66%|██████▌   | 244359/371472 [8:24:27<10:12:53,  3.46it/s] 66%|██████▌   | 244360/371472 [8:24:27<10:00:21,  3.53it/s]                                                            {'loss': 2.7385, 'learning_rate': 4.081320433536598e-07, 'epoch': 10.53}
 66%|██████▌   | 244360/371472 [8:24:27<10:00:21,  3.53it/s] 66%|██████▌   | 244361/371472 [8:24:27<10:08:43,  3.48it/s] 66%|██████▌   | 244362/371472 [8:24:27<9:57:32,  3.55it/s]  66%|██████▌   | 244363/371472 [8:24:28<9:37:03,  3.67it/s] 66%|██████▌   | 244364/371472 [8:24:28<9:30:51,  3.71it/s] 66%|██████▌   | 244365/371472 [8:24:28<9:24:04,  3.76it/s] 66%|██████▌   | 244366/371472 [8:24:29<9:32:09,  3.70it/s] 66%|██████▌   | 244367/371472 [8:24:29<9:47:42,  3.60it/s] 66%|██████▌   | 244368/371472 [8:24:29<10:08:19,  3.48it/s] 66%|██████▌   | 244369/371472 [8:24:29<9:58:22,  3.54it/s]  66%|██████▌   | 244370/371472 [8:24:30<9:49:09,  3.60it/s] 66%|██████▌   | 244371/371472 [8:24:30<9:29:51,  3.72it/s] 66%|██████▌   | 244372/371472 [8:24:30<9:35:46,  3.68it/s] 66%|██████▌   | 244373/371472 [8:24:31<9:53:07,  3.57it/s] 66%|██████▌   | 244374/371472 [8:24:31<9:17:16,  3.80it/s] 66%|██████▌   | 244375/371472 [8:24:31<9:12:13,  3.84it/s] 66%|██████▌   | 244376/371472 [8:24:31<8:59:06,  3.93it/s] 66%|██████▌   | 244377/371472 [8:24:31<8:49:56,  4.00it/s] 66%|██████▌   | 244378/371472 [8:24:32<9:23:26,  3.76it/s] 66%|██████▌   | 244379/371472 [8:24:32<10:20:11,  3.42it/s] 66%|██████▌   | 244380/371472 [8:24:32<10:12:44,  3.46it/s]                                                            {'loss': 2.7961, 'learning_rate': 4.0808356137818093e-07, 'epoch': 10.53}
 66%|██████▌   | 244380/371472 [8:24:32<10:12:44,  3.46it/s] 66%|██████▌   | 244381/371472 [8:24:33<10:17:05,  3.43it/s] 66%|██████▌   | 244382/371472 [8:24:33<9:45:21,  3.62it/s]  66%|██████▌   | 244383/371472 [8:24:33<9:36:55,  3.67it/s] 66%|██████▌   | 244384/371472 [8:24:33<9:28:56,  3.72it/s] 66%|██████▌   | 244385/371472 [8:24:34<10:30:24,  3.36it/s] 66%|██████▌   | 244386/371472 [8:24:34<10:32:03,  3.35it/s] 66%|██████▌   | 244387/371472 [8:24:34<10:25:19,  3.39it/s] 66%|██████▌   | 244388/371472 [8:24:35<10:48:37,  3.27it/s] 66%|██████▌   | 244389/371472 [8:24:35<10:07:48,  3.48it/s] 66%|██████▌   | 244390/371472 [8:24:35<10:16:22,  3.44it/s] 66%|██████▌   | 244391/371472 [8:24:36<10:18:07,  3.43it/s] 66%|██████▌   | 244392/371472 [8:24:36<9:38:07,  3.66it/s]  66%|██████▌   | 244393/371472 [8:24:36<9:47:20,  3.61it/s] 66%|██████▌   | 244394/371472 [8:24:36<9:49:25,  3.59it/s] 66%|██████▌   | 244395/371472 [8:24:37<9:43:13,  3.63it/s] 66%|██████▌   | 244396/371472 [8:24:37<10:15:59,  3.44it/s] 66%|██████▌   | 244397/371472 [8:24:37<9:45:29,  3.62it/s]  66%|██████▌   | 244398/371472 [8:24:38<10:06:40,  3.49it/s] 66%|██████▌   | 244399/371472 [8:24:38<9:42:48,  3.63it/s]  66%|██████▌   | 244400/371472 [8:24:38<9:34:01,  3.69it/s]                                                           {'loss': 2.8629, 'learning_rate': 4.08035079402702e-07, 'epoch': 10.53}
 66%|██████▌   | 244400/371472 [8:24:38<9:34:01,  3.69it/s] 66%|██████▌   | 244401/371472 [8:24:38<9:13:06,  3.83it/s] 66%|██████▌   | 244402/371472 [8:24:39<9:07:16,  3.87it/s] 66%|██████▌   | 244403/371472 [8:24:39<9:44:01,  3.63it/s] 66%|██████▌   | 244404/371472 [8:24:39<9:51:18,  3.58it/s] 66%|██████▌   | 244405/371472 [8:24:39<10:14:44,  3.45it/s] 66%|██████▌   | 244406/371472 [8:24:40<10:20:38,  3.41it/s] 66%|██████▌   | 244407/371472 [8:24:40<10:42:26,  3.30it/s] 66%|██████▌   | 244408/371472 [8:24:40<11:12:44,  3.15it/s] 66%|██████▌   | 244409/371472 [8:24:41<11:03:29,  3.19it/s] 66%|██████▌   | 244410/371472 [8:24:41<10:39:10,  3.31it/s] 66%|██████▌   | 244411/371472 [8:24:41<10:27:05,  3.38it/s] 66%|██████▌   | 244412/371472 [8:24:42<10:21:05,  3.41it/s] 66%|██████▌   | 244413/371472 [8:24:42<11:25:27,  3.09it/s] 66%|██████▌   | 244414/371472 [8:24:42<10:56:28,  3.23it/s] 66%|██████▌   | 244415/371472 [8:24:43<10:33:02,  3.35it/s] 66%|██████▌   | 244416/371472 [8:24:43<10:09:17,  3.48it/s] 66%|██████▌   | 244417/371472 [8:24:43<10:07:21,  3.49it/s] 66%|██████▌   | 244418/371472 [8:24:43<9:28:05,  3.73it/s]  66%|██████▌   | 244419/371472 [8:24:44<9:12:03,  3.84it/s] 66%|██████▌   | 244420/371472 [8:24:44<9:58:03,  3.54it/s]                                                           {'loss': 2.6339, 'learning_rate': 4.079865974272232e-07, 'epoch': 10.53}
 66%|██████▌   | 244420/371472 [8:24:44<9:58:03,  3.54it/s] 66%|██████▌   | 244421/371472 [8:24:44<10:06:43,  3.49it/s] 66%|██████▌   | 244422/371472 [8:24:44<9:53:48,  3.57it/s]  66%|██████▌   | 244423/371472 [8:24:45<9:59:48,  3.53it/s] 66%|██████▌   | 244424/371472 [8:24:45<9:44:51,  3.62it/s] 66%|██████▌   | 244425/371472 [8:24:45<9:35:06,  3.68it/s] 66%|██████▌   | 244426/371472 [8:24:45<9:17:46,  3.80it/s] 66%|██████▌   | 244427/371472 [8:24:46<9:34:26,  3.69it/s] 66%|██████▌   | 244428/371472 [8:24:46<10:00:06,  3.53it/s] 66%|██████▌   | 244429/371472 [8:24:46<9:44:54,  3.62it/s]  66%|██████▌   | 244430/371472 [8:24:47<9:31:38,  3.70it/s] 66%|██████▌   | 244431/371472 [8:24:47<9:51:20,  3.58it/s] 66%|██████▌   | 244432/371472 [8:24:47<10:26:09,  3.38it/s] 66%|██████▌   | 244433/371472 [8:24:47<9:42:32,  3.63it/s]  66%|██████▌   | 244434/371472 [8:24:48<10:03:07,  3.51it/s] 66%|██████▌   | 244435/371472 [8:24:48<10:07:07,  3.49it/s] 66%|██████▌   | 244436/371472 [8:24:48<9:55:30,  3.56it/s]  66%|██████▌   | 244437/371472 [8:24:49<10:38:54,  3.31it/s] 66%|██████▌   | 244438/371472 [8:24:49<9:58:28,  3.54it/s]  66%|██████▌   | 244439/371472 [8:24:49<10:47:40,  3.27it/s] 66%|██████▌   | 244440/371472 [8:24:50<10:05:59,  3.49it/s]                                                            {'loss': 2.9472, 'learning_rate': 4.0793811545174425e-07, 'epoch': 10.53}
 66%|██████▌   | 244440/371472 [8:24:50<10:05:59,  3.49it/s] 66%|██████▌   | 244441/371472 [8:24:50<9:51:00,  3.58it/s]  66%|██████▌   | 244442/371472 [8:24:50<9:45:32,  3.62it/s] 66%|██████▌   | 244443/371472 [8:24:50<10:01:45,  3.52it/s] 66%|██████▌   | 244444/371472 [8:24:51<10:02:29,  3.51it/s] 66%|██████▌   | 244445/371472 [8:24:51<9:37:57,  3.66it/s]  66%|██████▌   | 244446/371472 [8:24:51<10:09:25,  3.47it/s] 66%|██████▌   | 244447/371472 [8:24:51<9:48:35,  3.60it/s]  66%|██████▌   | 244448/371472 [8:24:52<9:33:43,  3.69it/s] 66%|██████▌   | 244449/371472 [8:24:52<9:29:31,  3.72it/s] 66%|██████▌   | 244450/371472 [8:24:52<9:20:30,  3.78it/s] 66%|██████▌   | 244451/371472 [8:24:53<9:13:00,  3.83it/s] 66%|██████▌   | 244452/371472 [8:24:53<9:16:35,  3.80it/s] 66%|██████▌   | 244453/371472 [8:24:53<9:14:02,  3.82it/s] 66%|██████▌   | 244454/371472 [8:24:53<9:08:58,  3.86it/s] 66%|██████▌   | 244455/371472 [8:24:54<9:37:51,  3.66it/s] 66%|██████▌   | 244456/371472 [8:24:54<10:50:58,  3.25it/s] 66%|██████▌   | 244457/371472 [8:24:54<10:26:24,  3.38it/s] 66%|██████▌   | 244458/371472 [8:24:55<10:46:18,  3.28it/s] 66%|██████▌   | 244459/371472 [8:24:55<10:19:45,  3.42it/s] 66%|██████▌   | 244460/371472 [8:24:55<11:01:13,  3.20it/s]                                                            {'loss': 2.9384, 'learning_rate': 4.0788963347626537e-07, 'epoch': 10.53}
 66%|██████▌   | 244460/371472 [8:24:55<11:01:13,  3.20it/s] 66%|██████▌   | 244461/371472 [8:24:55<10:39:31,  3.31it/s] 66%|██████▌   | 244462/371472 [8:24:56<10:14:43,  3.44it/s] 66%|██████▌   | 244463/371472 [8:24:56<10:05:41,  3.49it/s] 66%|██████▌   | 244464/371472 [8:24:56<9:47:46,  3.60it/s]  66%|██████▌   | 244465/371472 [8:24:57<9:54:55,  3.56it/s] 66%|██████▌   | 244466/371472 [8:24:57<9:43:49,  3.63it/s] 66%|██████▌   | 244467/371472 [8:24:57<9:30:53,  3.71it/s] 66%|██████▌   | 244468/371472 [8:24:57<9:24:55,  3.75it/s] 66%|██████▌   | 244469/371472 [8:24:58<9:22:37,  3.76it/s] 66%|██████▌   | 244470/371472 [8:24:58<9:40:22,  3.65it/s] 66%|██████▌   | 244471/371472 [8:24:58<9:17:04,  3.80it/s] 66%|██████▌   | 244472/371472 [8:24:58<9:44:27,  3.62it/s] 66%|██████▌   | 244473/371472 [8:24:59<10:10:08,  3.47it/s] 66%|██████▌   | 244474/371472 [8:24:59<10:42:35,  3.29it/s] 66%|██████▌   | 244475/371472 [8:24:59<10:24:48,  3.39it/s] 66%|██████▌   | 244476/371472 [8:25:00<10:43:49,  3.29it/s] 66%|██████▌   | 244477/371472 [8:25:00<10:03:16,  3.51it/s] 66%|██████▌   | 244478/371472 [8:25:00<9:58:40,  3.54it/s]  66%|██████▌   | 244479/371472 [8:25:01<10:13:38,  3.45it/s] 66%|██████▌   | 244480/371472 [8:25:01<10:04:20,  3.50it/s]                                                            {'loss': 2.8811, 'learning_rate': 4.0784115150078644e-07, 'epoch': 10.53}
 66%|██████▌   | 244480/371472 [8:25:01<10:04:20,  3.50it/s] 66%|██████▌   | 244481/371472 [8:25:01<9:50:20,  3.59it/s]  66%|██████▌   | 244482/371472 [8:25:01<9:39:57,  3.65it/s] 66%|██████▌   | 244483/371472 [8:25:02<9:49:02,  3.59it/s] 66%|██████▌   | 244484/371472 [8:25:02<9:42:18,  3.63it/s] 66%|██████▌   | 244485/371472 [8:25:02<9:35:24,  3.68it/s] 66%|██████▌   | 244486/371472 [8:25:02<9:23:18,  3.76it/s] 66%|██████▌   | 244487/371472 [8:25:03<9:41:49,  3.64it/s] 66%|██████▌   | 244488/371472 [8:25:03<9:32:25,  3.70it/s] 66%|██████▌   | 244489/371472 [8:25:03<9:18:59,  3.79it/s] 66%|██████▌   | 244490/371472 [8:25:03<9:36:46,  3.67it/s] 66%|██████▌   | 244491/371472 [8:25:04<9:25:33,  3.74it/s] 66%|██████▌   | 244492/371472 [8:25:04<9:29:37,  3.72it/s] 66%|██████▌   | 244493/371472 [8:25:04<9:26:17,  3.74it/s] 66%|██████▌   | 244494/371472 [8:25:05<10:40:44,  3.30it/s] 66%|██████▌   | 244495/371472 [8:25:05<10:24:57,  3.39it/s] 66%|██████▌   | 244496/371472 [8:25:05<10:08:51,  3.48it/s] 66%|██████▌   | 244497/371472 [8:25:06<10:06:11,  3.49it/s] 66%|██████▌   | 244498/371472 [8:25:06<10:07:22,  3.48it/s] 66%|██████▌   | 244499/371472 [8:25:06<9:54:23,  3.56it/s]  66%|██████▌   | 244500/371472 [8:25:06<9:35:51,  3.67it/s]                                                           {'loss': 2.9261, 'learning_rate': 4.077926695253076e-07, 'epoch': 10.53}
 66%|██████▌   | 244500/371472 [8:25:06<9:35:51,  3.67it/s] 66%|██████▌   | 244501/371472 [8:25:07<9:26:31,  3.74it/s] 66%|██████▌   | 244502/371472 [8:25:07<9:28:21,  3.72it/s] 66%|██████▌   | 244503/371472 [8:25:07<9:49:24,  3.59it/s] 66%|██████▌   | 244504/371472 [8:25:07<9:41:35,  3.64it/s] 66%|██████▌   | 244505/371472 [8:25:08<9:42:11,  3.63it/s] 66%|██████▌   | 244506/371472 [8:25:08<9:23:58,  3.75it/s] 66%|██████▌   | 244507/371472 [8:25:08<9:25:19,  3.74it/s] 66%|██████▌   | 244508/371472 [8:25:08<9:17:39,  3.79it/s] 66%|██████▌   | 244509/371472 [8:25:09<9:10:05,  3.85it/s] 66%|██████▌   | 244510/371472 [8:25:09<8:56:45,  3.94it/s] 66%|██████▌   | 244511/371472 [8:25:09<9:34:44,  3.68it/s] 66%|██████▌   | 244512/371472 [8:25:10<9:24:34,  3.75it/s] 66%|██████▌   | 244513/371472 [8:25:10<9:05:06,  3.88it/s] 66%|██████▌   | 244514/371472 [8:25:10<9:07:12,  3.87it/s] 66%|██████▌   | 244515/371472 [8:25:10<9:29:53,  3.71it/s] 66%|██████▌   | 244516/371472 [8:25:11<9:57:54,  3.54it/s] 66%|██████▌   | 244517/371472 [8:25:11<10:08:36,  3.48it/s] 66%|██████▌   | 244518/371472 [8:25:11<10:15:45,  3.44it/s] 66%|██████▌   | 244519/371472 [8:25:12<10:33:33,  3.34it/s] 66%|██████▌   | 244520/371472 [8:25:12<10:43:34,  3.29it/s]                                                            {'loss': 2.8287, 'learning_rate': 4.0774418754982864e-07, 'epoch': 10.53}
 66%|██████▌   | 244520/371472 [8:25:12<10:43:34,  3.29it/s] 66%|██████▌   | 244521/371472 [8:25:12<10:11:55,  3.46it/s] 66%|██████▌   | 244522/371472 [8:25:12<10:29:40,  3.36it/s] 66%|██████▌   | 244523/371472 [8:25:13<10:01:28,  3.52it/s] 66%|██████▌   | 244524/371472 [8:25:13<9:48:55,  3.59it/s]  66%|██████▌   | 244525/371472 [8:25:13<9:27:23,  3.73it/s] 66%|██████▌   | 244526/371472 [8:25:14<10:19:53,  3.41it/s] 66%|██████▌   | 244527/371472 [8:25:14<9:53:47,  3.56it/s]  66%|██████▌   | 244528/371472 [8:25:14<10:02:26,  3.51it/s] 66%|██████▌   | 244529/371472 [8:25:14<9:46:05,  3.61it/s]  66%|██████▌   | 244530/371472 [8:25:15<9:39:58,  3.65it/s] 66%|██████▌   | 244531/371472 [8:25:15<9:46:57,  3.60it/s] 66%|██████▌   | 244532/371472 [8:25:15<9:32:10,  3.70it/s] 66%|██████▌   | 244533/371472 [8:25:15<9:44:33,  3.62it/s] 66%|██████▌   | 244534/371472 [8:25:16<9:24:50,  3.75it/s] 66%|██████▌   | 244535/371472 [8:25:16<9:10:45,  3.84it/s] 66%|██████▌   | 244536/371472 [8:25:16<9:26:41,  3.73it/s] 66%|██████▌   | 244537/371472 [8:25:16<9:07:32,  3.86it/s] 66%|██████▌   | 244538/371472 [8:25:17<8:58:18,  3.93it/s] 66%|██████▌   | 244539/371472 [8:25:17<9:03:26,  3.89it/s] 66%|██████▌   | 244540/371472 [8:25:17<9:05:54,  3.88it/s]                                                           {'loss': 2.9956, 'learning_rate': 4.076957055743498e-07, 'epoch': 10.53}
 66%|██████▌   | 244540/371472 [8:25:17<9:05:54,  3.88it/s] 66%|██████▌   | 244541/371472 [8:25:17<9:01:06,  3.91it/s] 66%|██████▌   | 244542/371472 [8:25:18<9:20:42,  3.77it/s] 66%|██████▌   | 244543/371472 [8:25:18<9:25:06,  3.74it/s] 66%|██████▌   | 244544/371472 [8:25:18<9:34:54,  3.68it/s] 66%|██████▌   | 244545/371472 [8:25:19<9:14:16,  3.82it/s] 66%|██████▌   | 244546/371472 [8:25:19<9:55:46,  3.55it/s] 66%|██████▌   | 244547/371472 [8:25:19<10:10:19,  3.47it/s] 66%|██████▌   | 244548/371472 [8:25:19<9:34:19,  3.68it/s]  66%|██████▌   | 244549/371472 [8:25:20<9:19:04,  3.78it/s] 66%|██████▌   | 244550/371472 [8:25:20<10:08:33,  3.48it/s] 66%|██████▌   | 244551/371472 [8:25:20<10:12:27,  3.45it/s] 66%|██████▌   | 244552/371472 [8:25:21<10:08:47,  3.47it/s] 66%|██████▌   | 244553/371472 [8:25:21<10:35:15,  3.33it/s] 66%|██████▌   | 244554/371472 [8:25:21<10:10:21,  3.47it/s] 66%|██████▌   | 244555/371472 [8:25:22<10:45:25,  3.28it/s] 66%|██████▌   | 244556/371472 [8:25:22<10:19:48,  3.41it/s] 66%|██████▌   | 244557/371472 [8:25:22<10:05:12,  3.50it/s] 66%|██████▌   | 244558/371472 [8:25:22<10:08:23,  3.48it/s] 66%|██████▌   | 244559/371472 [8:25:23<9:46:18,  3.61it/s]  66%|██████▌   | 244560/371472 [8:25:23<10:01:25,  3.52it/s]                                                            {'loss': 2.8369, 'learning_rate': 4.076472235988709e-07, 'epoch': 10.53}
 66%|██████▌   | 244560/371472 [8:25:23<10:01:25,  3.52it/s] 66%|██████▌   | 244561/371472 [8:25:23<9:29:23,  3.71it/s]  66%|██████▌   | 244562/371472 [8:25:23<9:44:55,  3.62it/s] 66%|██████▌   | 244563/371472 [8:25:24<9:40:22,  3.64it/s] 66%|██████▌   | 244564/371472 [8:25:24<9:40:00,  3.65it/s] 66%|██████▌   | 244565/371472 [8:25:24<9:29:56,  3.71it/s] 66%|██████▌   | 244566/371472 [8:25:24<9:14:16,  3.82it/s] 66%|██████▌   | 244567/371472 [8:25:25<9:19:13,  3.78it/s] 66%|██████▌   | 244568/371472 [8:25:25<9:18:39,  3.79it/s] 66%|██████▌   | 244569/371472 [8:25:25<10:07:58,  3.48it/s] 66%|██████▌   | 244570/371472 [8:25:26<9:40:13,  3.65it/s]  66%|██████▌   | 244571/371472 [8:25:26<9:34:34,  3.68it/s] 66%|██████▌   | 244572/371472 [8:25:26<9:23:42,  3.75it/s] 66%|██████▌   | 244573/371472 [8:25:26<9:22:34,  3.76it/s] 66%|██████▌   | 244574/371472 [8:25:27<9:21:15,  3.77it/s] 66%|██████▌   | 244575/371472 [8:25:27<9:42:10,  3.63it/s] 66%|██████▌   | 244576/371472 [8:25:27<9:56:16,  3.55it/s] 66%|██████▌   | 244577/371472 [8:25:28<10:55:08,  3.23it/s] 66%|██████▌   | 244578/371472 [8:25:28<11:06:36,  3.17it/s] 66%|██████▌   | 244579/371472 [8:25:28<10:33:45,  3.34it/s] 66%|██████▌   | 244580/371472 [8:25:29<11:30:36,  3.06it/s]                                                            {'loss': 2.8808, 'learning_rate': 4.07598741623392e-07, 'epoch': 10.53}
 66%|██████▌   | 244580/371472 [8:25:29<11:30:36,  3.06it/s] 66%|██████▌   | 244581/371472 [8:25:29<11:03:41,  3.19it/s] 66%|██████▌   | 244582/371472 [8:25:29<10:37:25,  3.32it/s] 66%|██████▌   | 244583/371472 [8:25:29<10:04:18,  3.50it/s] 66%|██████▌   | 244584/371472 [8:25:30<9:47:23,  3.60it/s]  66%|██████▌   | 244585/371472 [8:25:30<10:15:01,  3.44it/s] 66%|██████▌   | 244586/371472 [8:25:30<9:56:38,  3.54it/s]  66%|██████▌   | 244587/371472 [8:25:31<9:56:54,  3.54it/s] 66%|██████▌   | 244588/371472 [8:25:31<10:10:54,  3.46it/s] 66%|██████▌   | 244589/371472 [8:25:31<9:56:29,  3.55it/s]  66%|██████▌   | 244590/371472 [8:25:31<10:18:51,  3.42it/s] 66%|██████▌   | 244591/371472 [8:25:32<9:53:54,  3.56it/s]  66%|██████▌   | 244592/371472 [8:25:32<10:07:49,  3.48it/s] 66%|██████▌   | 244593/371472 [8:25:32<9:54:50,  3.55it/s]  66%|██████▌   | 244594/371472 [8:25:32<9:30:55,  3.70it/s] 66%|██████▌   | 244595/371472 [8:25:33<9:28:38,  3.72it/s] 66%|██████▌   | 244596/371472 [8:25:33<9:31:01,  3.70it/s] 66%|██████▌   | 244597/371472 [8:25:33<9:26:17,  3.73it/s] 66%|██████▌   | 244598/371472 [8:25:34<9:43:44,  3.62it/s] 66%|██████▌   | 244599/371472 [8:25:34<9:41:01,  3.64it/s] 66%|██████▌   | 244600/371472 [8:25:34<10:27:19,  3.37it/s]                                                            {'loss': 2.8509, 'learning_rate': 4.075502596479131e-07, 'epoch': 10.54}
 66%|██████▌   | 244600/371472 [8:25:34<10:27:19,  3.37it/s] 66%|██████▌   | 244601/371472 [8:25:34<10:22:59,  3.39it/s] 66%|██████▌   | 244602/371472 [8:25:35<9:50:36,  3.58it/s]  66%|██████▌   | 244603/371472 [8:25:35<10:01:26,  3.52it/s] 66%|██████▌   | 244604/371472 [8:25:35<10:01:11,  3.52it/s] 66%|██████▌   | 244605/371472 [8:25:36<9:38:11,  3.66it/s]  66%|██████▌   | 244606/371472 [8:25:36<10:04:51,  3.50it/s] 66%|██████▌   | 244607/371472 [8:25:36<9:51:44,  3.57it/s]  66%|██████▌   | 244608/371472 [8:25:36<9:27:42,  3.72it/s] 66%|██████▌   | 244609/371472 [8:25:37<9:12:10,  3.83it/s] 66%|██████▌   | 244610/371472 [8:25:37<9:34:23,  3.68it/s] 66%|██████▌   | 244611/371472 [8:25:37<9:10:50,  3.84it/s] 66%|██████▌   | 244612/371472 [8:25:37<8:58:07,  3.93it/s] 66%|██████▌   | 244613/371472 [8:25:38<8:57:36,  3.93it/s] 66%|██████▌   | 244614/371472 [8:25:38<9:14:13,  3.81it/s] 66%|██████▌   | 244615/371472 [8:25:38<9:14:34,  3.81it/s] 66%|██████▌   | 244616/371472 [8:25:38<9:16:49,  3.80it/s] 66%|██████▌   | 244617/371472 [8:25:39<9:11:41,  3.83it/s] 66%|██████▌   | 244618/371472 [8:25:39<9:14:36,  3.81it/s] 66%|██████▌   | 244619/371472 [8:25:39<9:07:40,  3.86it/s] 66%|██████▌   | 244620/371472 [8:25:39<9:15:29,  3.81it/s]                                                           {'loss': 2.9705, 'learning_rate': 4.0750177767243426e-07, 'epoch': 10.54}
 66%|██████▌   | 244620/371472 [8:25:39<9:15:29,  3.81it/s] 66%|██████▌   | 244621/371472 [8:25:40<10:45:19,  3.28it/s] 66%|██████▌   | 244622/371472 [8:25:40<10:09:59,  3.47it/s] 66%|██████▌   | 244623/371472 [8:25:40<9:41:28,  3.64it/s]  66%|██████▌   | 244624/371472 [8:25:41<9:56:11,  3.55it/s] 66%|██████▌   | 244625/371472 [8:25:41<9:40:32,  3.64it/s] 66%|██████▌   | 244626/371472 [8:25:41<10:15:42,  3.43it/s] 66%|██████▌   | 244627/371472 [8:25:42<10:51:30,  3.24it/s] 66%|██████▌   | 244628/371472 [8:25:42<11:10:46,  3.15it/s] 66%|██████▌   | 244629/371472 [8:25:42<10:40:09,  3.30it/s] 66%|██████▌   | 244630/371472 [8:25:42<10:04:40,  3.50it/s] 66%|██████▌   | 244631/371472 [8:25:43<10:14:25,  3.44it/s] 66%|██████▌   | 244632/371472 [8:25:43<9:54:22,  3.56it/s]  66%|██████▌   | 244633/371472 [8:25:43<9:47:34,  3.60it/s] 66%|██████▌   | 244634/371472 [8:25:44<10:09:50,  3.47it/s] 66%|██████▌   | 244635/371472 [8:25:44<9:47:10,  3.60it/s]  66%|██████▌   | 244636/371472 [8:25:44<10:00:09,  3.52it/s] 66%|██████▌   | 244637/371472 [8:25:44<9:46:34,  3.60it/s]  66%|██████▌   | 244638/371472 [8:25:45<9:26:46,  3.73it/s] 66%|██████▌   | 244639/371472 [8:25:45<9:19:39,  3.78it/s] 66%|██████▌   | 244640/371472 [8:25:45<9:33:48,  3.68it/s]                                                           {'loss': 2.8371, 'learning_rate': 4.074532956969553e-07, 'epoch': 10.54}
 66%|██████▌   | 244640/371472 [8:25:45<9:33:48,  3.68it/s] 66%|██████▌   | 244641/371472 [8:25:46<10:10:02,  3.47it/s] 66%|██████▌   | 244642/371472 [8:25:46<9:49:50,  3.58it/s]  66%|██████▌   | 244643/371472 [8:25:46<9:28:30,  3.72it/s] 66%|██████▌   | 244644/371472 [8:25:46<9:22:46,  3.76it/s] 66%|██████▌   | 244645/371472 [8:25:47<9:13:04,  3.82it/s] 66%|██████▌   | 244646/371472 [8:25:47<9:15:01,  3.81it/s] 66%|██████▌   | 244647/371472 [8:25:47<9:19:58,  3.77it/s] 66%|██████▌   | 244648/371472 [8:25:47<9:32:32,  3.69it/s] 66%|██████▌   | 244649/371472 [8:25:48<9:46:16,  3.61it/s] 66%|██████▌   | 244650/371472 [8:25:48<9:59:20,  3.53it/s] 66%|██████▌   | 244651/371472 [8:25:48<10:35:26,  3.33it/s] 66%|██████▌   | 244652/371472 [8:25:49<10:48:32,  3.26it/s] 66%|██████▌   | 244653/371472 [8:25:49<10:09:04,  3.47it/s] 66%|██████▌   | 244654/371472 [8:25:49<10:02:18,  3.51it/s] 66%|██████▌   | 244655/371472 [8:25:49<9:36:54,  3.66it/s]  66%|██████▌   | 244656/371472 [8:25:50<9:41:05,  3.64it/s] 66%|██████▌   | 244657/371472 [8:25:50<9:24:05,  3.75it/s] 66%|██████▌   | 244658/371472 [8:25:50<9:00:06,  3.91it/s] 66%|██████▌   | 244659/371472 [8:25:50<8:52:34,  3.97it/s] 66%|██████▌   | 244660/371472 [8:25:51<8:52:04,  3.97it/s]                                                           {'loss': 2.8506, 'learning_rate': 4.0740481372147646e-07, 'epoch': 10.54}
 66%|██████▌   | 244660/371472 [8:25:51<8:52:04,  3.97it/s] 66%|██████▌   | 244661/371472 [8:25:51<9:07:23,  3.86it/s] 66%|██████▌   | 244662/371472 [8:25:51<10:26:06,  3.38it/s] 66%|██████▌   | 244663/371472 [8:25:52<10:12:09,  3.45it/s] 66%|██████▌   | 244664/371472 [8:25:52<9:39:31,  3.65it/s]  66%|██████▌   | 244665/371472 [8:25:52<9:42:06,  3.63it/s] 66%|██████▌   | 244666/371472 [8:25:52<9:14:03,  3.81it/s] 66%|██████▌   | 244667/371472 [8:25:53<9:07:36,  3.86it/s] 66%|██████▌   | 244668/371472 [8:25:53<9:30:30,  3.70it/s] 66%|██████▌   | 244669/371472 [8:25:53<9:18:20,  3.79it/s] 66%|██████▌   | 244670/371472 [8:25:53<9:07:20,  3.86it/s] 66%|██████▌   | 244671/371472 [8:25:54<9:10:31,  3.84it/s] 66%|██████▌   | 244672/371472 [8:25:54<8:58:51,  3.92it/s] 66%|██████▌   | 244673/371472 [8:25:54<9:18:11,  3.79it/s] 66%|██████▌   | 244674/371472 [8:25:54<9:52:50,  3.56it/s] 66%|██████▌   | 244675/371472 [8:25:55<10:24:32,  3.38it/s] 66%|██████▌   | 244676/371472 [8:25:55<9:54:30,  3.55it/s]  66%|██████▌   | 244677/371472 [8:25:55<9:40:17,  3.64it/s] 66%|██████▌   | 244678/371472 [8:25:56<9:24:08,  3.75it/s] 66%|██████▌   | 244679/371472 [8:25:56<9:12:43,  3.82it/s] 66%|██████▌   | 244680/371472 [8:25:56<9:51:41,  3.57it/s]                                                           {'loss': 2.9529, 'learning_rate': 4.0735633174599753e-07, 'epoch': 10.54}
 66%|██████▌   | 244680/371472 [8:25:56<9:51:41,  3.57it/s] 66%|██████▌   | 244681/371472 [8:25:56<10:02:32,  3.51it/s] 66%|██████▌   | 244682/371472 [8:25:57<9:55:47,  3.55it/s]  66%|██████▌   | 244683/371472 [8:25:57<10:15:10,  3.44it/s] 66%|██████▌   | 244684/371472 [8:25:57<9:52:04,  3.57it/s]  66%|██████▌   | 244685/371472 [8:25:58<9:34:17,  3.68it/s] 66%|██████▌   | 244686/371472 [8:25:58<9:19:53,  3.77it/s] 66%|██████▌   | 244687/371472 [8:25:58<9:48:32,  3.59it/s] 66%|██████▌   | 244688/371472 [8:25:58<9:20:02,  3.77it/s] 66%|██████▌   | 244689/371472 [8:25:59<9:35:22,  3.67it/s] 66%|██████▌   | 244690/371472 [8:25:59<10:10:03,  3.46it/s] 66%|██████▌   | 244691/371472 [8:25:59<9:50:05,  3.58it/s]  66%|██████▌   | 244692/371472 [8:25:59<9:39:55,  3.64it/s] 66%|██████▌   | 244693/371472 [8:26:00<9:32:58,  3.69it/s] 66%|██████▌   | 244694/371472 [8:26:00<9:40:26,  3.64it/s] 66%|██████▌   | 244695/371472 [8:26:00<9:27:06,  3.73it/s] 66%|██████▌   | 244696/371472 [8:26:01<9:12:13,  3.83it/s] 66%|██████▌   | 244697/371472 [8:26:01<10:04:04,  3.50it/s] 66%|██████▌   | 244698/371472 [8:26:01<9:48:52,  3.59it/s]  66%|██████▌   | 244699/371472 [8:26:01<9:40:29,  3.64it/s] 66%|██████▌   | 244700/371472 [8:26:02<10:05:43,  3.49it/s]                                                            {'loss': 2.9215, 'learning_rate': 4.0730784977051865e-07, 'epoch': 10.54}
 66%|██████▌   | 244700/371472 [8:26:02<10:05:43,  3.49it/s] 66%|██████▌   | 244701/371472 [8:26:02<10:09:34,  3.47it/s] 66%|██████▌   | 244702/371472 [8:26:02<10:41:08,  3.30it/s] 66%|██████▌   | 244703/371472 [8:26:03<10:18:39,  3.42it/s] 66%|██████▌   | 244704/371472 [8:26:03<10:02:31,  3.51it/s] 66%|██████▌   | 244705/371472 [8:26:03<9:34:53,  3.68it/s]  66%|██████▌   | 244706/371472 [8:26:03<9:12:16,  3.83it/s] 66%|██████▌   | 244707/371472 [8:26:04<9:05:37,  3.87it/s] 66%|██████▌   | 244708/371472 [8:26:04<9:05:53,  3.87it/s] 66%|██████▌   | 244709/371472 [8:26:04<9:18:58,  3.78it/s] 66%|██████▌   | 244710/371472 [8:26:04<9:39:06,  3.65it/s] 66%|██████▌   | 244711/371472 [8:26:05<10:34:09,  3.33it/s] 66%|██████▌   | 244712/371472 [8:26:05<10:30:46,  3.35it/s] 66%|██████▌   | 244713/371472 [8:26:05<10:08:42,  3.47it/s] 66%|██████▌   | 244714/371472 [8:26:06<9:52:31,  3.57it/s]  66%|██████▌   | 244715/371472 [8:26:06<9:51:45,  3.57it/s] 66%|██████▌   | 244716/371472 [8:26:06<9:40:20,  3.64it/s] 66%|██████▌   | 244717/371472 [8:26:06<9:28:42,  3.71it/s] 66%|██████▌   | 244718/371472 [8:26:07<9:23:43,  3.75it/s] 66%|██████▌   | 244719/371472 [8:26:07<9:18:55,  3.78it/s] 66%|██████▌   | 244720/371472 [8:26:07<9:08:06,  3.85it/s]                                                           {'loss': 2.8731, 'learning_rate': 4.072593677950397e-07, 'epoch': 10.54}
 66%|██████▌   | 244720/371472 [8:26:07<9:08:06,  3.85it/s] 66%|██████▌   | 244721/371472 [8:26:07<9:06:46,  3.86it/s] 66%|██████▌   | 244722/371472 [8:26:08<9:34:31,  3.68it/s] 66%|██████▌   | 244723/371472 [8:26:08<9:46:17,  3.60it/s] 66%|██████▌   | 244724/371472 [8:26:08<9:19:58,  3.77it/s] 66%|██████▌   | 244725/371472 [8:26:09<9:23:36,  3.75it/s] 66%|██████▌   | 244726/371472 [8:26:09<9:35:19,  3.67it/s] 66%|██████▌   | 244727/371472 [8:26:09<9:48:40,  3.59it/s] 66%|██████▌   | 244728/371472 [8:26:09<10:37:58,  3.31it/s] 66%|██████▌   | 244729/371472 [8:26:10<10:16:11,  3.43it/s] 66%|██████▌   | 244730/371472 [8:26:10<9:51:36,  3.57it/s]  66%|██████▌   | 244731/371472 [8:26:10<9:47:24,  3.60it/s] 66%|██████▌   | 244732/371472 [8:26:11<9:24:51,  3.74it/s] 66%|██████▌   | 244733/371472 [8:26:11<9:18:09,  3.78it/s] 66%|██████▌   | 244734/371472 [8:26:11<9:31:10,  3.70it/s] 66%|██████▌   | 244735/371472 [8:26:11<9:51:38,  3.57it/s] 66%|██████▌   | 244736/371472 [8:26:12<9:24:58,  3.74it/s] 66%|██████▌   | 244737/371472 [8:26:12<9:27:15,  3.72it/s] 66%|██████▌   | 244738/371472 [8:26:12<9:39:31,  3.64it/s] 66%|██████▌   | 244739/371472 [8:26:12<9:52:54,  3.56it/s] 66%|██████▌   | 244740/371472 [8:26:13<11:39:57,  3.02it/s]                                                            {'loss': 2.7206, 'learning_rate': 4.072108858195609e-07, 'epoch': 10.54}
 66%|██████▌   | 244740/371472 [8:26:13<11:39:57,  3.02it/s] 66%|██████▌   | 244741/371472 [8:26:13<10:37:35,  3.31it/s] 66%|██████▌   | 244742/371472 [8:26:13<10:19:57,  3.41it/s] 66%|██████▌   | 244743/371472 [8:26:14<10:10:52,  3.46it/s] 66%|██████▌   | 244744/371472 [8:26:14<9:46:07,  3.60it/s]  66%|██████▌   | 244745/371472 [8:26:14<9:45:17,  3.61it/s] 66%|██████▌   | 244746/371472 [8:26:15<10:26:00,  3.37it/s] 66%|██████▌   | 244747/371472 [8:26:15<10:31:42,  3.34it/s] 66%|██████▌   | 244748/371472 [8:26:15<10:29:40,  3.35it/s] 66%|██████▌   | 244749/371472 [8:26:15<9:59:45,  3.52it/s]  66%|██████▌   | 244750/371472 [8:26:16<11:58:31,  2.94it/s] 66%|██████▌   | 244751/371472 [8:26:16<11:12:23,  3.14it/s] 66%|██████▌   | 244752/371472 [8:26:16<10:44:33,  3.28it/s] 66%|██████▌   | 244753/371472 [8:26:17<10:41:32,  3.29it/s] 66%|██████▌   | 244754/371472 [8:26:17<10:26:00,  3.37it/s] 66%|██████▌   | 244755/371472 [8:26:17<10:09:30,  3.46it/s] 66%|██████▌   | 244756/371472 [8:26:18<10:28:51,  3.36it/s] 66%|██████▌   | 244757/371472 [8:26:18<10:34:16,  3.33it/s] 66%|██████▌   | 244758/371472 [8:26:18<9:52:25,  3.56it/s]  66%|██████▌   | 244759/371472 [8:26:18<9:28:11,  3.72it/s] 66%|██████▌   | 244760/371472 [8:26:19<9:20:39,  3.77it/s]                                                           {'loss': 2.9216, 'learning_rate': 4.0716240384408197e-07, 'epoch': 10.54}
 66%|██████▌   | 244760/371472 [8:26:19<9:20:39,  3.77it/s] 66%|██████▌   | 244761/371472 [8:26:19<9:12:05,  3.83it/s] 66%|██████▌   | 244762/371472 [8:26:19<9:31:02,  3.70it/s] 66%|██████▌   | 244763/371472 [8:26:19<9:26:42,  3.73it/s] 66%|██████▌   | 244764/371472 [8:26:20<10:15:51,  3.43it/s] 66%|██████▌   | 244765/371472 [8:26:20<9:46:20,  3.60it/s]  66%|██████▌   | 244766/371472 [8:26:20<9:30:38,  3.70it/s] 66%|██████▌   | 244767/371472 [8:26:21<9:22:22,  3.76it/s] 66%|██████▌   | 244768/371472 [8:26:21<9:05:54,  3.87it/s] 66%|██████▌   | 244769/371472 [8:26:21<8:56:14,  3.94it/s] 66%|██████▌   | 244770/371472 [8:26:21<9:03:25,  3.89it/s] 66%|██████▌   | 244771/371472 [8:26:22<9:59:52,  3.52it/s] 66%|██████▌   | 244772/371472 [8:26:22<9:37:37,  3.66it/s] 66%|██████▌   | 244773/371472 [8:26:22<9:40:55,  3.63it/s] 66%|██████▌   | 244774/371472 [8:26:22<10:18:14,  3.42it/s] 66%|██████▌   | 244775/371472 [8:26:23<9:59:18,  3.52it/s]  66%|██████▌   | 244776/371472 [8:26:23<9:57:36,  3.53it/s] 66%|██████▌   | 244777/371472 [8:26:23<9:46:45,  3.60it/s] 66%|██████▌   | 244778/371472 [8:26:24<9:31:13,  3.70it/s] 66%|██████▌   | 244779/371472 [8:26:24<9:19:12,  3.78it/s] 66%|██████▌   | 244780/371472 [8:26:24<9:44:17,  3.61it/s]                                                           {'loss': 2.7353, 'learning_rate': 4.07113921868603e-07, 'epoch': 10.54}
 66%|██████▌   | 244780/371472 [8:26:24<9:44:17,  3.61it/s] 66%|██████▌   | 244781/371472 [8:26:24<9:49:11,  3.58it/s] 66%|██████▌   | 244782/371472 [8:26:25<9:21:03,  3.76it/s] 66%|██████▌   | 244783/371472 [8:26:25<9:07:09,  3.86it/s] 66%|██████▌   | 244784/371472 [8:26:25<9:07:35,  3.86it/s] 66%|██████▌   | 244785/371472 [8:26:25<9:01:48,  3.90it/s] 66%|██████▌   | 244786/371472 [8:26:26<9:36:27,  3.66it/s] 66%|██████▌   | 244787/371472 [8:26:26<9:50:23,  3.58it/s] 66%|██████▌   | 244788/371472 [8:26:26<9:52:47,  3.56it/s] 66%|██████▌   | 244789/371472 [8:26:27<9:28:42,  3.71it/s] 66%|██████▌   | 244790/371472 [8:26:27<9:41:21,  3.63it/s] 66%|██████▌   | 244791/371472 [8:26:27<9:29:22,  3.71it/s] 66%|██████▌   | 244792/371472 [8:26:27<9:50:11,  3.58it/s] 66%|██████▌   | 244793/371472 [8:26:28<9:29:17,  3.71it/s] 66%|██████▌   | 244794/371472 [8:26:28<9:09:23,  3.84it/s] 66%|██████▌   | 244795/371472 [8:26:28<9:02:17,  3.89it/s] 66%|██████▌   | 244796/371472 [8:26:28<9:42:42,  3.62it/s] 66%|██████▌   | 244797/371472 [8:26:29<9:41:16,  3.63it/s] 66%|██████▌   | 244798/371472 [8:26:29<10:39:47,  3.30it/s] 66%|██████▌   | 244799/371472 [8:26:29<10:20:31,  3.40it/s] 66%|██████▌   | 244800/371472 [8:26:30<10:12:31,  3.45it/s]                                                            {'loss': 2.7489, 'learning_rate': 4.070654398931242e-07, 'epoch': 10.54}
 66%|██████▌   | 244800/371472 [8:26:30<10:12:31,  3.45it/s] 66%|██████▌   | 244801/371472 [8:26:30<9:44:56,  3.61it/s]  66%|██████▌   | 244802/371472 [8:26:30<10:12:51,  3.44it/s] 66%|██████▌   | 244803/371472 [8:26:30<9:38:42,  3.65it/s]  66%|██████▌   | 244804/371472 [8:26:31<9:31:56,  3.69it/s] 66%|██████▌   | 244805/371472 [8:26:31<10:06:17,  3.48it/s] 66%|██████▌   | 244806/371472 [8:26:31<9:54:47,  3.55it/s]  66%|██████▌   | 244807/371472 [8:26:32<9:49:37,  3.58it/s] 66%|██████▌   | 244808/371472 [8:26:32<9:39:30,  3.64it/s] 66%|██████▌   | 244809/371472 [8:26:32<9:24:39,  3.74it/s] 66%|██████▌   | 244810/371472 [8:26:32<9:13:05,  3.82it/s] 66%|██████▌   | 244811/371472 [8:26:33<9:12:25,  3.82it/s] 66%|██████▌   | 244812/371472 [8:26:33<9:18:36,  3.78it/s] 66%|██████▌   | 244813/371472 [8:26:33<9:25:09,  3.74it/s] 66%|██████▌   | 244814/371472 [8:26:33<9:34:58,  3.67it/s] 66%|██████▌   | 244815/371472 [8:26:34<9:27:25,  3.72it/s] 66%|██████▌   | 244816/371472 [8:26:34<10:11:50,  3.45it/s] 66%|██████▌   | 244817/371472 [8:26:34<9:50:53,  3.57it/s]  66%|██████▌   | 244818/371472 [8:26:35<9:54:41,  3.55it/s] 66%|██████▌   | 244819/371472 [8:26:35<9:58:32,  3.53it/s] 66%|██████▌   | 244820/371472 [8:26:35<9:50:25,  3.58it/s]                                                           {'loss': 2.867, 'learning_rate': 4.0701695791764524e-07, 'epoch': 10.54}
 66%|██████▌   | 244820/371472 [8:26:35<9:50:25,  3.58it/s] 66%|██████▌   | 244821/371472 [8:26:35<9:56:01,  3.54it/s] 66%|██████▌   | 244822/371472 [8:26:36<9:48:05,  3.59it/s] 66%|██████▌   | 244823/371472 [8:26:36<9:42:21,  3.62it/s] 66%|██████▌   | 244824/371472 [8:26:36<9:28:12,  3.71it/s] 66%|██████▌   | 244825/371472 [8:26:37<10:01:46,  3.51it/s] 66%|██████▌   | 244826/371472 [8:26:37<10:09:58,  3.46it/s] 66%|██████▌   | 244827/371472 [8:26:37<10:21:02,  3.40it/s] 66%|██████▌   | 244828/371472 [8:26:37<9:50:32,  3.57it/s]  66%|██████▌   | 244829/371472 [8:26:38<9:59:02,  3.52it/s] 66%|██████▌   | 244830/371472 [8:26:38<9:37:19,  3.66it/s] 66%|██████▌   | 244831/371472 [8:26:38<10:06:36,  3.48it/s] 66%|██████▌   | 244832/371472 [8:26:39<11:04:34,  3.18it/s] 66%|██████▌   | 244833/371472 [8:26:39<10:55:15,  3.22it/s] 66%|██████▌   | 244834/371472 [8:26:39<11:03:51,  3.18it/s] 66%|██████▌   | 244835/371472 [8:26:39<10:17:00,  3.42it/s] 66%|██████▌   | 244836/371472 [8:26:40<9:50:21,  3.58it/s]  66%|██████▌   | 244837/371472 [8:26:40<9:34:43,  3.67it/s] 66%|██████▌   | 244838/371472 [8:26:40<10:06:29,  3.48it/s] 66%|██████▌   | 244839/371472 [8:26:41<10:09:25,  3.46it/s] 66%|██████▌   | 244840/371472 [8:26:41<9:55:42,  3.54it/s]                                                            {'loss': 2.7139, 'learning_rate': 4.0696847594216637e-07, 'epoch': 10.55}
 66%|██████▌   | 244840/371472 [8:26:41<9:55:42,  3.54it/s] 66%|██████▌   | 244841/371472 [8:26:41<9:52:55,  3.56it/s] 66%|██████▌   | 244842/371472 [8:26:41<9:31:47,  3.69it/s] 66%|██████▌   | 244843/371472 [8:26:42<9:29:57,  3.70it/s] 66%|██████▌   | 244844/371472 [8:26:42<9:38:50,  3.65it/s] 66%|██████▌   | 244845/371472 [8:26:42<9:34:56,  3.67it/s] 66%|██████▌   | 244846/371472 [8:26:42<9:13:39,  3.81it/s] 66%|██████▌   | 244847/371472 [8:26:43<9:29:42,  3.70it/s] 66%|██████▌   | 244848/371472 [8:26:43<10:00:06,  3.52it/s] 66%|██████▌   | 244849/371472 [8:26:43<10:08:12,  3.47it/s] 66%|██████▌   | 244850/371472 [8:26:44<9:52:06,  3.56it/s]  66%|██████▌   | 244851/371472 [8:26:44<9:41:23,  3.63it/s] 66%|██████▌   | 244852/371472 [8:26:44<9:38:44,  3.65it/s] 66%|██████▌   | 244853/371472 [8:26:44<9:19:01,  3.77it/s] 66%|██████▌   | 244854/371472 [8:26:45<9:03:10,  3.89it/s] 66%|██████▌   | 244855/371472 [8:26:45<8:51:39,  3.97it/s] 66%|██████▌   | 244856/371472 [8:26:45<9:35:22,  3.67it/s] 66%|██████▌   | 244857/371472 [8:26:45<9:34:23,  3.67it/s] 66%|██████▌   | 244858/371472 [8:26:46<10:05:32,  3.48it/s] 66%|██████▌   | 244859/371472 [8:26:46<10:36:35,  3.31it/s] 66%|██████▌   | 244860/371472 [8:26:46<11:07:13,  3.16it/s]                                                            {'loss': 2.821, 'learning_rate': 4.0691999396668744e-07, 'epoch': 10.55}
 66%|██████▌   | 244860/371472 [8:26:46<11:07:13,  3.16it/s] 66%|██████▌   | 244861/371472 [8:26:47<11:27:39,  3.07it/s] 66%|██████▌   | 244862/371472 [8:26:47<10:44:16,  3.28it/s] 66%|██████▌   | 244863/371472 [8:26:47<9:58:51,  3.52it/s]  66%|██████▌   | 244864/371472 [8:26:48<9:46:12,  3.60it/s] 66%|██████▌   | 244865/371472 [8:26:48<10:13:49,  3.44it/s] 66%|██████▌   | 244866/371472 [8:26:48<9:57:55,  3.53it/s]  66%|██████▌   | 244867/371472 [8:26:48<9:41:30,  3.63it/s] 66%|██████▌   | 244868/371472 [8:26:49<9:44:11,  3.61it/s] 66%|██████▌   | 244869/371472 [8:26:49<9:50:23,  3.57it/s] 66%|██████▌   | 244870/371472 [8:26:49<9:52:38,  3.56it/s] 66%|██████▌   | 244871/371472 [8:26:50<9:36:44,  3.66it/s] 66%|██████▌   | 244872/371472 [8:26:50<9:37:39,  3.65it/s] 66%|██████▌   | 244873/371472 [8:26:50<9:43:48,  3.61it/s] 66%|██████▌   | 244874/371472 [8:26:50<9:53:32,  3.55it/s] 66%|██████▌   | 244875/371472 [8:26:51<10:42:02,  3.29it/s] 66%|██████▌   | 244876/371472 [8:26:51<10:13:27,  3.44it/s] 66%|██████▌   | 244877/371472 [8:26:51<10:05:41,  3.48it/s] 66%|██████▌   | 244878/371472 [8:26:52<10:19:25,  3.41it/s] 66%|██████▌   | 244879/371472 [8:26:52<9:46:59,  3.59it/s]  66%|██████▌   | 244880/371472 [8:26:52<9:54:45,  3.55it/s]                                                           {'loss': 2.7853, 'learning_rate': 4.068715119912086e-07, 'epoch': 10.55}
 66%|██████▌   | 244880/371472 [8:26:52<9:54:45,  3.55it/s] 66%|██████▌   | 244881/371472 [8:26:52<9:39:09,  3.64it/s] 66%|██████▌   | 244882/371472 [8:26:53<9:55:44,  3.54it/s] 66%|██████▌   | 244883/371472 [8:26:53<9:38:55,  3.64it/s] 66%|██████▌   | 244884/371472 [8:26:53<9:34:16,  3.67it/s] 66%|██████▌   | 244885/371472 [8:26:53<9:17:55,  3.78it/s] 66%|██████▌   | 244886/371472 [8:26:54<9:34:25,  3.67it/s] 66%|██████▌   | 244887/371472 [8:26:54<9:38:33,  3.65it/s] 66%|██████▌   | 244888/371472 [8:26:54<9:58:53,  3.52it/s] 66%|██████▌   | 244889/371472 [8:26:55<10:02:13,  3.50it/s] 66%|██████▌   | 244890/371472 [8:26:55<9:32:32,  3.68it/s]  66%|██████▌   | 244891/371472 [8:26:55<9:46:13,  3.60it/s] 66%|██████▌   | 244892/371472 [8:26:55<10:00:32,  3.51it/s] 66%|██████▌   | 244893/371472 [8:26:56<9:59:29,  3.52it/s]  66%|██████▌   | 244894/371472 [8:26:56<9:51:44,  3.57it/s] 66%|██████▌   | 244895/371472 [8:26:56<10:23:49,  3.38it/s] 66%|██████▌   | 244896/371472 [8:26:57<10:04:03,  3.49it/s] 66%|██████▌   | 244897/371472 [8:26:57<9:59:18,  3.52it/s]  66%|██████▌   | 244898/371472 [8:26:57<9:37:37,  3.65it/s] 66%|██████▌   | 244899/371472 [8:26:57<9:40:32,  3.63it/s] 66%|██████▌   | 244900/371472 [8:26:58<9:15:31,  3.80it/s]                                                           {'loss': 2.8347, 'learning_rate': 4.0682303001572963e-07, 'epoch': 10.55}
 66%|██████▌   | 244900/371472 [8:26:58<9:15:31,  3.80it/s] 66%|██████▌   | 244901/371472 [8:26:58<9:31:20,  3.69it/s] 66%|██████▌   | 244902/371472 [8:26:58<9:13:47,  3.81it/s] 66%|██████▌   | 244903/371472 [8:26:58<9:00:47,  3.90it/s] 66%|██████▌   | 244904/371472 [8:26:59<9:09:06,  3.84it/s] 66%|██████▌   | 244905/371472 [8:26:59<8:59:39,  3.91it/s] 66%|██████▌   | 244906/371472 [8:26:59<8:53:21,  3.96it/s] 66%|██████▌   | 244907/371472 [8:26:59<9:39:32,  3.64it/s] 66%|██████▌   | 244908/371472 [8:27:00<10:34:44,  3.32it/s] 66%|██████▌   | 244909/371472 [8:27:00<10:35:55,  3.32it/s] 66%|██████▌   | 244910/371472 [8:27:00<10:02:02,  3.50it/s] 66%|██████▌   | 244911/371472 [8:27:01<10:14:11,  3.43it/s] 66%|██████▌   | 244912/371472 [8:27:01<9:46:49,  3.59it/s]  66%|██████▌   | 244913/371472 [8:27:01<9:46:48,  3.59it/s] 66%|██████▌   | 244914/371472 [8:27:02<9:54:36,  3.55it/s] 66%|██████▌   | 244915/371472 [8:27:02<10:25:21,  3.37it/s] 66%|██████▌   | 244916/371472 [8:27:02<10:52:36,  3.23it/s] 66%|██████▌   | 244917/371472 [8:27:02<10:33:23,  3.33it/s] 66%|██████▌   | 244918/371472 [8:27:03<10:45:14,  3.27it/s] 66%|██████▌   | 244919/371472 [8:27:03<10:12:52,  3.44it/s] 66%|██████▌   | 244920/371472 [8:27:03<10:15:34,  3.43it/s]                                                            {'loss': 2.8383, 'learning_rate': 4.067745480402508e-07, 'epoch': 10.55}
 66%|██████▌   | 244920/371472 [8:27:03<10:15:34,  3.43it/s] 66%|██████▌   | 244921/371472 [8:27:04<9:54:32,  3.55it/s]  66%|██████▌   | 244922/371472 [8:27:04<9:36:39,  3.66it/s] 66%|██████▌   | 244923/371472 [8:27:04<9:39:41,  3.64it/s] 66%|██████▌   | 244924/371472 [8:27:04<9:30:37,  3.70it/s] 66%|██████▌   | 244925/371472 [8:27:05<10:06:12,  3.48it/s] 66%|██████▌   | 244926/371472 [8:27:05<10:22:16,  3.39it/s] 66%|██████▌   | 244927/371472 [8:27:05<9:45:01,  3.61it/s]  66%|██████▌   | 244928/371472 [8:27:05<9:23:33,  3.74it/s] 66%|██████▌   | 244929/371472 [8:27:06<8:57:11,  3.93it/s] 66%|██████▌   | 244930/371472 [8:27:06<9:44:13,  3.61it/s] 66%|██████▌   | 244931/371472 [8:27:06<9:48:04,  3.59it/s] 66%|██████▌   | 244932/371472 [8:27:07<9:59:51,  3.52it/s] 66%|██████▌   | 244933/371472 [8:27:07<9:49:24,  3.58it/s] 66%|██████▌   | 244934/371472 [8:27:07<10:10:30,  3.45it/s] 66%|██████▌   | 244935/371472 [8:27:07<10:00:12,  3.51it/s] 66%|██████▌   | 244936/371472 [8:27:08<10:14:34,  3.43it/s] 66%|██████▌   | 244937/371472 [8:27:08<9:44:12,  3.61it/s]  66%|██████▌   | 244938/371472 [8:27:08<9:36:00,  3.66it/s] 66%|██████▌   | 244939/371472 [8:27:09<9:33:28,  3.68it/s] 66%|██████▌   | 244940/371472 [8:27:09<9:42:40,  3.62it/s]                                                           {'loss': 2.8723, 'learning_rate': 4.067260660647719e-07, 'epoch': 10.55}
 66%|██████▌   | 244940/371472 [8:27:09<9:42:40,  3.62it/s] 66%|██████▌   | 244941/371472 [8:27:09<9:39:02,  3.64it/s] 66%|██████▌   | 244942/371472 [8:27:09<9:32:20,  3.68it/s] 66%|██████▌   | 244943/371472 [8:27:10<10:37:14,  3.31it/s] 66%|██████▌   | 244944/371472 [8:27:10<10:29:42,  3.35it/s] 66%|██████▌   | 244945/371472 [8:27:10<10:49:35,  3.25it/s] 66%|██████▌   | 244946/371472 [8:27:11<10:50:29,  3.24it/s] 66%|██████▌   | 244947/371472 [8:27:11<10:01:57,  3.50it/s] 66%|██████▌   | 244948/371472 [8:27:11<9:35:19,  3.67it/s]  66%|██████▌   | 244949/371472 [8:27:11<10:01:15,  3.51it/s] 66%|██████▌   | 244950/371472 [8:27:12<9:50:34,  3.57it/s]  66%|██████▌   | 244951/371472 [8:27:12<10:04:12,  3.49it/s] 66%|██████▌   | 244952/371472 [8:27:12<9:47:03,  3.59it/s]  66%|██████▌   | 244953/371472 [8:27:13<9:46:23,  3.60it/s] 66%|██████▌   | 244954/371472 [8:27:13<9:52:27,  3.56it/s] 66%|██████▌   | 244955/371472 [8:27:13<9:41:28,  3.63it/s] 66%|██████▌   | 244956/371472 [8:27:13<9:22:59,  3.75it/s] 66%|██████▌   | 244957/371472 [8:27:14<10:03:33,  3.49it/s] 66%|██████▌   | 244958/371472 [8:27:14<9:34:38,  3.67it/s]  66%|██████▌   | 244959/371472 [8:27:14<9:39:38,  3.64it/s] 66%|██████▌   | 244960/371472 [8:27:15<9:58:45,  3.52it/s]                                                           {'loss': 2.9038, 'learning_rate': 4.06677584089293e-07, 'epoch': 10.55}
 66%|██████▌   | 244960/371472 [8:27:15<9:58:45,  3.52it/s] 66%|██████▌   | 244961/371472 [8:27:15<9:24:53,  3.73it/s] 66%|██████▌   | 244962/371472 [8:27:15<9:40:46,  3.63it/s] 66%|██████▌   | 244963/371472 [8:27:15<9:28:55,  3.71it/s] 66%|██████▌   | 244964/371472 [8:27:16<10:00:09,  3.51it/s] 66%|██████▌   | 244965/371472 [8:27:16<9:43:01,  3.62it/s]  66%|██████▌   | 244966/371472 [8:27:16<9:19:09,  3.77it/s] 66%|██████▌   | 244967/371472 [8:27:16<9:58:18,  3.52it/s] 66%|██████▌   | 244968/371472 [8:27:17<9:57:46,  3.53it/s] 66%|██████▌   | 244969/371472 [8:27:17<10:35:28,  3.32it/s] 66%|██████▌   | 244970/371472 [8:27:17<10:44:52,  3.27it/s] 66%|██████▌   | 244971/371472 [8:27:18<10:37:36,  3.31it/s] 66%|██████▌   | 244972/371472 [8:27:18<10:32:02,  3.34it/s] 66%|██████▌   | 244973/371472 [8:27:18<10:13:54,  3.43it/s] 66%|██████▌   | 244974/371472 [8:27:19<9:51:36,  3.56it/s]  66%|██████▌   | 244975/371472 [8:27:19<10:01:57,  3.50it/s] 66%|██████▌   | 244976/371472 [8:27:19<9:47:50,  3.59it/s]  66%|██████▌   | 244977/371472 [8:27:19<9:41:43,  3.62it/s] 66%|██████▌   | 244978/371472 [8:27:20<11:07:51,  3.16it/s] 66%|██████▌   | 244979/371472 [8:27:20<10:31:22,  3.34it/s] 66%|██████▌   | 244980/371472 [8:27:20<9:47:00,  3.59it/s]                                                            {'loss': 2.8467, 'learning_rate': 4.066291021138141e-07, 'epoch': 10.55}
 66%|██████▌   | 244980/371472 [8:27:20<9:47:00,  3.59it/s] 66%|██████▌   | 244981/371472 [8:27:21<9:31:50,  3.69it/s] 66%|██████▌   | 244982/371472 [8:27:21<9:43:53,  3.61it/s] 66%|██████▌   | 244983/371472 [8:27:21<9:53:54,  3.55it/s] 66%|██████▌   | 244984/371472 [8:27:21<10:10:50,  3.45it/s] 66%|██████▌   | 244985/371472 [8:27:22<10:35:37,  3.32it/s] 66%|██████▌   | 244986/371472 [8:27:22<10:10:08,  3.46it/s] 66%|██████▌   | 244987/371472 [8:27:22<9:45:07,  3.60it/s]  66%|██████▌   | 244988/371472 [8:27:23<9:38:57,  3.64it/s] 66%|██████▌   | 244989/371472 [8:27:23<9:22:40,  3.75it/s] 66%|██████▌   | 244990/371472 [8:27:23<9:39:49,  3.64it/s] 66%|██████▌   | 244991/371472 [8:27:23<9:22:12,  3.75it/s] 66%|██████▌   | 244992/371472 [8:27:24<8:54:01,  3.95it/s] 66%|██████▌   | 244993/371472 [8:27:24<9:38:01,  3.65it/s] 66%|██████▌   | 244994/371472 [8:27:24<10:24:55,  3.37it/s] 66%|██████▌   | 244995/371472 [8:27:25<10:44:06,  3.27it/s] 66%|██████▌   | 244996/371472 [8:27:25<10:23:46,  3.38it/s] 66%|██████▌   | 244997/371472 [8:27:25<9:54:21,  3.55it/s]  66%|██████▌   | 244998/371472 [8:27:25<10:20:50,  3.40it/s] 66%|██████▌   | 244999/371472 [8:27:26<10:00:31,  3.51it/s] 66%|██████▌   | 245000/371472 [8:27:26<9:40:33,  3.63it/s]                                                            {'loss': 2.7221, 'learning_rate': 4.0658062013833525e-07, 'epoch': 10.55}
 66%|██████▌   | 245000/371472 [8:27:26<9:40:33,  3.63it/s] 66%|██████▌   | 245001/371472 [8:27:26<10:33:16,  3.33it/s] 66%|██████▌   | 245002/371472 [8:27:27<10:49:47,  3.24it/s] 66%|██████▌   | 245003/371472 [8:27:27<10:32:49,  3.33it/s] 66%|██████▌   | 245004/371472 [8:27:27<10:04:44,  3.49it/s] 66%|██████▌   | 245005/371472 [8:27:27<10:01:08,  3.51it/s] 66%|██████▌   | 245006/371472 [8:27:28<9:58:29,  3.52it/s]  66%|██████▌   | 245007/371472 [8:27:28<9:40:48,  3.63it/s] 66%|██████▌   | 245008/371472 [8:27:28<9:44:51,  3.60it/s] 66%|██████▌   | 245009/371472 [8:27:29<10:26:06,  3.37it/s] 66%|██████▌   | 245010/371472 [8:27:29<10:19:37,  3.40it/s] 66%|██████▌   | 245011/371472 [8:27:29<10:03:35,  3.49it/s] 66%|██████▌   | 245012/371472 [8:27:29<10:09:23,  3.46it/s] 66%|██████▌   | 245013/371472 [8:27:30<9:54:50,  3.54it/s]  66%|██████▌   | 245014/371472 [8:27:30<9:49:44,  3.57it/s] 66%|██████▌   | 245015/371472 [8:27:30<9:50:31,  3.57it/s] 66%|██████▌   | 245016/371472 [8:27:30<9:34:57,  3.67it/s] 66%|██████▌   | 245017/371472 [8:27:31<9:39:44,  3.64it/s] 66%|██████▌   | 245018/371472 [8:27:31<9:37:17,  3.65it/s] 66%|██████▌   | 245019/371472 [8:27:31<9:36:52,  3.65it/s] 66%|██████▌   | 245020/371472 [8:27:32<9:15:15,  3.80it/s]                                                           {'loss': 2.9386, 'learning_rate': 4.0653213816285627e-07, 'epoch': 10.55}
 66%|██████▌   | 245020/371472 [8:27:32<9:15:15,  3.80it/s] 66%|██████▌   | 245021/371472 [8:27:32<9:09:47,  3.83it/s] 66%|██████▌   | 245022/371472 [8:27:32<9:12:20,  3.82it/s] 66%|██████▌   | 245023/371472 [8:27:32<8:59:18,  3.91it/s] 66%|██████▌   | 245024/371472 [8:27:33<8:58:32,  3.91it/s] 66%|██████▌   | 245025/371472 [8:27:33<9:24:37,  3.73it/s] 66%|██████▌   | 245026/371472 [8:27:33<9:09:23,  3.84it/s] 66%|██████▌   | 245027/371472 [8:27:33<9:12:09,  3.82it/s] 66%|██████▌   | 245028/371472 [8:27:34<9:51:47,  3.56it/s] 66%|██████▌   | 245029/371472 [8:27:34<9:39:11,  3.64it/s] 66%|██████▌   | 245030/371472 [8:27:34<9:41:01,  3.63it/s] 66%|██████▌   | 245031/371472 [8:27:34<9:35:58,  3.66it/s] 66%|██████▌   | 245032/371472 [8:27:35<9:14:40,  3.80it/s] 66%|██████▌   | 245033/371472 [8:27:35<9:26:59,  3.72it/s] 66%|██████▌   | 245034/371472 [8:27:35<9:07:15,  3.85it/s] 66%|██████▌   | 245035/371472 [8:27:35<8:56:38,  3.93it/s] 66%|██████▌   | 245036/371472 [8:27:36<9:12:17,  3.82it/s] 66%|██████▌   | 245037/371472 [8:27:36<9:52:11,  3.56it/s] 66%|██████▌   | 245038/371472 [8:27:36<10:42:49,  3.28it/s] 66%|██████▌   | 245039/371472 [8:27:37<10:05:22,  3.48it/s] 66%|██████▌   | 245040/371472 [8:27:37<10:25:58,  3.37it/s]                                                            {'loss': 2.8489, 'learning_rate': 4.0648365618737745e-07, 'epoch': 10.55}
 66%|██████▌   | 245040/371472 [8:27:37<10:25:58,  3.37it/s] 66%|██████▌   | 245041/371472 [8:27:37<10:12:09,  3.44it/s] 66%|██████▌   | 245042/371472 [8:27:38<10:08:05,  3.47it/s] 66%|██████▌   | 245043/371472 [8:27:38<9:58:06,  3.52it/s]  66%|██████▌   | 245044/371472 [8:27:38<9:35:20,  3.66it/s] 66%|██████▌   | 245045/371472 [8:27:38<9:12:35,  3.81it/s] 66%|██████▌   | 245046/371472 [8:27:39<9:46:11,  3.59it/s] 66%|██████▌   | 245047/371472 [8:27:39<9:24:47,  3.73it/s] 66%|██████▌   | 245048/371472 [8:27:39<9:30:15,  3.69it/s] 66%|██████▌   | 245049/371472 [8:27:39<9:45:29,  3.60it/s] 66%|██████▌   | 245050/371472 [8:27:40<9:52:23,  3.56it/s] 66%|██████▌   | 245051/371472 [8:27:40<9:53:31,  3.55it/s] 66%|██████▌   | 245052/371472 [8:27:40<9:31:39,  3.69it/s] 66%|██████▌   | 245053/371472 [8:27:41<9:37:08,  3.65it/s] 66%|██████▌   | 245054/371472 [8:27:41<9:06:54,  3.85it/s] 66%|██████▌   | 245055/371472 [8:27:41<9:05:13,  3.86it/s] 66%|██████▌   | 245056/371472 [8:27:41<9:08:00,  3.84it/s] 66%|██████▌   | 245057/371472 [8:27:42<8:53:42,  3.95it/s] 66%|██████▌   | 245058/371472 [8:27:42<8:48:41,  3.99it/s] 66%|██████▌   | 245059/371472 [8:27:42<9:10:30,  3.83it/s] 66%|██████▌   | 245060/371472 [8:27:42<9:42:41,  3.62it/s]                                                           {'loss': 2.9406, 'learning_rate': 4.064351742118985e-07, 'epoch': 10.56}
 66%|██████▌   | 245060/371472 [8:27:42<9:42:41,  3.62it/s] 66%|██████▌   | 245061/371472 [8:27:43<9:33:52,  3.67it/s] 66%|██████▌   | 245062/371472 [8:27:43<9:49:04,  3.58it/s] 66%|██████▌   | 245063/371472 [8:27:43<10:50:17,  3.24it/s] 66%|██████▌   | 245064/371472 [8:27:44<10:31:02,  3.34it/s] 66%|██████▌   | 245065/371472 [8:27:44<10:16:25,  3.42it/s] 66%|██████▌   | 245066/371472 [8:27:44<9:53:19,  3.55it/s]  66%|██████▌   | 245067/371472 [8:27:44<9:24:41,  3.73it/s] 66%|██████▌   | 245068/371472 [8:27:45<9:40:01,  3.63it/s] 66%|██████▌   | 245069/371472 [8:27:45<9:39:24,  3.64it/s] 66%|██████▌   | 245070/371472 [8:27:45<10:12:18,  3.44it/s] 66%|██████▌   | 245071/371472 [8:27:46<10:32:39,  3.33it/s] 66%|██████▌   | 245072/371472 [8:27:46<10:05:18,  3.48it/s] 66%|██████▌   | 245073/371472 [8:27:46<9:51:31,  3.56it/s]  66%|██████▌   | 245074/371472 [8:27:46<9:50:52,  3.57it/s] 66%|██████▌   | 245075/371472 [8:27:47<10:00:56,  3.51it/s] 66%|██████▌   | 245076/371472 [8:27:47<9:35:49,  3.66it/s]  66%|██████▌   | 245077/371472 [8:27:47<9:15:50,  3.79it/s] 66%|██████▌   | 245078/371472 [8:27:47<9:01:54,  3.89it/s] 66%|██████▌   | 245079/371472 [8:27:48<9:10:30,  3.83it/s] 66%|██████▌   | 245080/371472 [8:27:48<9:48:28,  3.58it/s]                                                           {'loss': 2.8764, 'learning_rate': 4.0638669223641965e-07, 'epoch': 10.56}
 66%|██████▌   | 245080/371472 [8:27:48<9:48:28,  3.58it/s] 66%|██████▌   | 245081/371472 [8:27:48<10:20:26,  3.40it/s] 66%|██████▌   | 245082/371472 [8:27:49<9:50:38,  3.57it/s]  66%|██████▌   | 245083/371472 [8:27:49<10:14:23,  3.43it/s] 66%|██████▌   | 245084/371472 [8:27:49<10:05:59,  3.48it/s] 66%|██████▌   | 245085/371472 [8:27:49<9:41:20,  3.62it/s]  66%|██████▌   | 245086/371472 [8:27:50<9:50:37,  3.57it/s] 66%|██████▌   | 245087/371472 [8:27:50<9:57:36,  3.52it/s] 66%|██████▌   | 245088/371472 [8:27:50<9:54:56,  3.54it/s] 66%|██████▌   | 245089/371472 [8:27:51<9:49:27,  3.57it/s] 66%|██████▌   | 245090/371472 [8:27:51<9:36:23,  3.65it/s] 66%|██████▌   | 245091/371472 [8:27:51<10:41:08,  3.29it/s] 66%|██████▌   | 245092/371472 [8:27:52<11:10:43,  3.14it/s] 66%|██████▌   | 245093/371472 [8:27:52<10:45:11,  3.26it/s] 66%|██████▌   | 245094/371472 [8:27:52<10:31:09,  3.34it/s] 66%|██████▌   | 245095/371472 [8:27:52<10:32:00,  3.33it/s] 66%|██████▌   | 245096/371472 [8:27:53<10:06:00,  3.48it/s] 66%|██████▌   | 245097/371472 [8:27:53<9:49:02,  3.58it/s]  66%|██████▌   | 245098/371472 [8:27:53<9:34:20,  3.67it/s] 66%|██████▌   | 245099/371472 [8:27:54<10:09:48,  3.45it/s] 66%|██████▌   | 245100/371472 [8:27:54<10:49:20,  3.24it/s]                                                            {'loss': 2.8631, 'learning_rate': 4.063382102609407e-07, 'epoch': 10.56}
 66%|██████▌   | 245100/371472 [8:27:54<10:49:20,  3.24it/s] 66%|██████▌   | 245101/371472 [8:27:54<10:17:07,  3.41it/s] 66%|██████▌   | 245102/371472 [8:27:54<10:12:50,  3.44it/s] 66%|██████▌   | 245103/371472 [8:27:55<9:54:09,  3.54it/s]  66%|██████▌   | 245104/371472 [8:27:55<9:44:01,  3.61it/s] 66%|██████▌   | 245105/371472 [8:27:55<9:24:31,  3.73it/s] 66%|██████▌   | 245106/371472 [8:27:55<9:25:53,  3.72it/s] 66%|██████▌   | 245107/371472 [8:27:56<9:27:08,  3.71it/s] 66%|██████▌   | 245108/371472 [8:27:56<9:03:30,  3.87it/s] 66%|██████▌   | 245109/371472 [8:27:56<9:20:21,  3.76it/s] 66%|██████▌   | 245110/371472 [8:27:56<9:01:50,  3.89it/s] 66%|██████▌   | 245111/371472 [8:27:57<9:22:50,  3.74it/s] 66%|██████▌   | 245112/371472 [8:27:57<8:59:47,  3.90it/s] 66%|██████▌   | 245113/371472 [8:27:57<8:57:35,  3.92it/s] 66%|██████▌   | 245114/371472 [8:27:58<8:57:43,  3.92it/s] 66%|██████▌   | 245115/371472 [8:27:58<8:48:43,  3.98it/s] 66%|██████▌   | 245116/371472 [8:27:58<9:09:08,  3.83it/s] 66%|██████▌   | 245117/371472 [8:27:58<10:28:24,  3.35it/s] 66%|██████▌   | 245118/371472 [8:27:59<10:11:14,  3.45it/s] 66%|██████▌   | 245119/371472 [8:27:59<9:43:04,  3.61it/s]  66%|██████▌   | 245120/371472 [8:27:59<9:29:43,  3.70it/s]                                                           {'loss': 2.7572, 'learning_rate': 4.062897282854619e-07, 'epoch': 10.56}
 66%|██████▌   | 245120/371472 [8:27:59<9:29:43,  3.70it/s] 66%|██████▌   | 245121/371472 [8:27:59<9:35:58,  3.66it/s] 66%|██████▌   | 245122/371472 [8:28:00<10:27:38,  3.36it/s] 66%|██████▌   | 245123/371472 [8:28:00<9:54:45,  3.54it/s]  66%|██████▌   | 245124/371472 [8:28:00<9:54:42,  3.54it/s] 66%|██████▌   | 245125/371472 [8:28:01<9:52:58,  3.55it/s] 66%|██████▌   | 245126/371472 [8:28:01<10:11:30,  3.44it/s] 66%|██████▌   | 245127/371472 [8:28:01<9:40:49,  3.63it/s]  66%|██████▌   | 245128/371472 [8:28:01<9:19:08,  3.77it/s] 66%|██████▌   | 245129/371472 [8:28:02<9:35:25,  3.66it/s] 66%|██████▌   | 245130/371472 [8:28:02<9:12:30,  3.81it/s] 66%|██████▌   | 245131/371472 [8:28:02<9:32:11,  3.68it/s] 66%|██████▌   | 245132/371472 [8:28:03<10:06:55,  3.47it/s] 66%|██████▌   | 245133/371472 [8:28:03<10:28:38,  3.35it/s] 66%|██████▌   | 245134/371472 [8:28:03<10:18:57,  3.40it/s] 66%|██████▌   | 245135/371472 [8:28:03<10:08:35,  3.46it/s] 66%|██████▌   | 245136/371472 [8:28:04<9:44:47,  3.60it/s]  66%|██████▌   | 245137/371472 [8:28:04<9:24:37,  3.73it/s] 66%|██████▌   | 245138/371472 [8:28:04<9:24:06,  3.73it/s] 66%|██████▌   | 245139/371472 [8:28:04<9:11:28,  3.82it/s] 66%|██████▌   | 245140/371472 [8:28:05<9:36:00,  3.66it/s]                                                           {'loss': 2.7063, 'learning_rate': 4.0624124630998297e-07, 'epoch': 10.56}
 66%|██████▌   | 245140/371472 [8:28:05<9:36:00,  3.66it/s] 66%|██████▌   | 245141/371472 [8:28:05<9:50:32,  3.57it/s] 66%|██████▌   | 245142/371472 [8:28:05<9:36:27,  3.65it/s] 66%|██████▌   | 245143/371472 [8:28:06<9:40:37,  3.63it/s] 66%|██████▌   | 245144/371472 [8:28:06<9:25:37,  3.72it/s] 66%|██████▌   | 245145/371472 [8:28:06<9:26:46,  3.71it/s] 66%|██████▌   | 245146/371472 [8:28:06<9:07:34,  3.84it/s] 66%|██████▌   | 245147/371472 [8:28:07<9:03:59,  3.87it/s] 66%|██████▌   | 245148/371472 [8:28:07<9:27:38,  3.71it/s] 66%|██████▌   | 245149/371472 [8:28:07<10:10:45,  3.45it/s] 66%|██████▌   | 245150/371472 [8:28:08<9:44:26,  3.60it/s]  66%|██████▌   | 245151/371472 [8:28:08<9:58:56,  3.52it/s] 66%|██████▌   | 245152/371472 [8:28:08<10:19:21,  3.40it/s] 66%|██████▌   | 245153/371472 [8:28:08<10:23:01,  3.38it/s] 66%|██████▌   | 245154/371472 [8:28:09<9:58:30,  3.52it/s]  66%|██████▌   | 245155/371472 [8:28:09<10:00:19,  3.51it/s] 66%|██████▌   | 245156/371472 [8:28:09<9:30:42,  3.69it/s]  66%|██████▌   | 245157/371472 [8:28:09<9:11:13,  3.82it/s] 66%|██████▌   | 245158/371472 [8:28:10<9:04:59,  3.86it/s] 66%|██████▌   | 245159/371472 [8:28:10<9:17:37,  3.78it/s] 66%|██████▌   | 245160/371472 [8:28:10<9:14:14,  3.80it/s]                                                           {'loss': 3.054, 'learning_rate': 4.061927643345041e-07, 'epoch': 10.56}
 66%|██████▌   | 245160/371472 [8:28:10<9:14:14,  3.80it/s] 66%|██████▌   | 245161/371472 [8:28:11<9:21:19,  3.75it/s] 66%|██████▌   | 245162/371472 [8:28:11<9:40:11,  3.63it/s] 66%|██████▌   | 245163/371472 [8:28:11<9:39:36,  3.63it/s] 66%|██████▌   | 245164/371472 [8:28:11<9:46:38,  3.59it/s] 66%|██████▌   | 245165/371472 [8:28:12<12:46:59,  2.74it/s] 66%|██████▌   | 245166/371472 [8:28:12<11:40:35,  3.00it/s] 66%|██████▌   | 245167/371472 [8:28:13<11:27:52,  3.06it/s] 66%|██████▌   | 245168/371472 [8:28:13<10:51:35,  3.23it/s] 66%|██████▌   | 245169/371472 [8:28:13<11:03:26,  3.17it/s] 66%|██████▌   | 245170/371472 [8:28:13<10:54:51,  3.21it/s] 66%|██████▌   | 245171/371472 [8:28:14<10:16:19,  3.42it/s] 66%|██████▌   | 245172/371472 [8:28:14<11:09:24,  3.14it/s] 66%|██████▌   | 245173/371472 [8:28:14<10:23:57,  3.37it/s] 66%|██████▌   | 245174/371472 [8:28:15<10:49:39,  3.24it/s] 66%|██████▌   | 245175/371472 [8:28:15<10:15:10,  3.42it/s] 66%|██████▌   | 245176/371472 [8:28:15<9:35:20,  3.66it/s]  66%|██████▌   | 245177/371472 [8:28:15<9:15:27,  3.79it/s] 66%|██████▌   | 245178/371472 [8:28:16<9:02:33,  3.88it/s] 66%|██████▌   | 245179/371472 [8:28:16<8:57:43,  3.91it/s] 66%|██████▌   | 245180/371472 [8:28:16<9:02:53,  3.88it/s]                                                           {'loss': 2.8574, 'learning_rate': 4.0614428235902516e-07, 'epoch': 10.56}
 66%|██████▌   | 245180/371472 [8:28:16<9:02:53,  3.88it/s] 66%|██████▌   | 245181/371472 [8:28:16<9:23:32,  3.74it/s] 66%|██████▌   | 245182/371472 [8:28:17<9:22:53,  3.74it/s] 66%|██████▌   | 245183/371472 [8:28:17<9:07:26,  3.84it/s] 66%|██████▌   | 245184/371472 [8:28:17<9:30:49,  3.69it/s] 66%|██████▌   | 245185/371472 [8:28:17<9:24:28,  3.73it/s] 66%|██████▌   | 245186/371472 [8:28:18<9:17:26,  3.78it/s] 66%|██████▌   | 245187/371472 [8:28:18<9:32:53,  3.67it/s] 66%|██████▌   | 245188/371472 [8:28:18<9:44:54,  3.60it/s] 66%|██████▌   | 245189/371472 [8:28:19<9:33:45,  3.67it/s] 66%|██████▌   | 245190/371472 [8:28:19<9:47:48,  3.58it/s] 66%|██████▌   | 245191/371472 [8:28:19<9:44:07,  3.60it/s] 66%|██████▌   | 245192/371472 [8:28:19<9:39:54,  3.63it/s] 66%|██████▌   | 245193/371472 [8:28:20<9:45:31,  3.59it/s] 66%|██████▌   | 245194/371472 [8:28:20<9:46:03,  3.59it/s] 66%|██████▌   | 245195/371472 [8:28:20<9:38:26,  3.64it/s] 66%|██████▌   | 245196/371472 [8:28:21<9:50:17,  3.57it/s] 66%|██████▌   | 245197/371472 [8:28:21<9:55:42,  3.53it/s] 66%|██████▌   | 245198/371472 [8:28:21<10:17:26,  3.41it/s] 66%|██████▌   | 245199/371472 [8:28:21<10:14:48,  3.42it/s] 66%|██████▌   | 245200/371472 [8:28:22<9:54:19,  3.54it/s]                                                            {'loss': 3.0175, 'learning_rate': 4.0609580038354634e-07, 'epoch': 10.56}
 66%|██████▌   | 245200/371472 [8:28:22<9:54:19,  3.54it/s] 66%|██████▌   | 245201/371472 [8:28:22<9:54:01,  3.54it/s] 66%|██████▌   | 245202/371472 [8:28:22<9:55:54,  3.53it/s] 66%|██████▌   | 245203/371472 [8:28:23<9:31:19,  3.68it/s] 66%|██████▌   | 245204/371472 [8:28:23<9:18:42,  3.77it/s] 66%|██████▌   | 245205/371472 [8:28:23<9:15:25,  3.79it/s] 66%|██████▌   | 245206/371472 [8:28:23<9:02:28,  3.88it/s] 66%|██████▌   | 245207/371472 [8:28:24<9:02:00,  3.88it/s] 66%|██████▌   | 245208/371472 [8:28:24<9:43:46,  3.60it/s] 66%|██████▌   | 245209/371472 [8:28:24<9:35:10,  3.66it/s] 66%|██████▌   | 245210/371472 [8:28:24<9:55:50,  3.53it/s] 66%|██████▌   | 245211/371472 [8:28:25<10:05:13,  3.48it/s] 66%|██████▌   | 245212/371472 [8:28:25<9:29:28,  3.70it/s]  66%|██████▌   | 245213/371472 [8:28:25<9:13:47,  3.80it/s] 66%|██████▌   | 245214/371472 [8:28:26<9:55:46,  3.53it/s] 66%|██████▌   | 245215/371472 [8:28:26<9:59:56,  3.51it/s] 66%|██████▌   | 245216/371472 [8:28:26<9:37:58,  3.64it/s] 66%|██████▌   | 245217/371472 [8:28:26<9:32:37,  3.67it/s] 66%|██████▌   | 245218/371472 [8:28:27<10:38:11,  3.30it/s] 66%|██████▌   | 245219/371472 [8:28:27<10:01:46,  3.50it/s] 66%|██████▌   | 245220/371472 [8:28:27<9:50:03,  3.57it/s]                                                            {'loss': 2.7361, 'learning_rate': 4.060473184080674e-07, 'epoch': 10.56}
 66%|██████▌   | 245220/371472 [8:28:27<9:50:03,  3.57it/s] 66%|██████▌   | 245221/371472 [8:28:28<10:41:33,  3.28it/s] 66%|██████▌   | 245222/371472 [8:28:28<10:05:49,  3.47it/s] 66%|██████▌   | 245223/371472 [8:28:28<10:15:32,  3.42it/s] 66%|██████▌   | 245224/371472 [8:28:28<9:53:08,  3.55it/s]  66%|██████▌   | 245225/371472 [8:28:29<10:10:46,  3.44it/s] 66%|██████▌   | 245226/371472 [8:28:29<9:53:41,  3.54it/s]  66%|██████▌   | 245227/371472 [8:28:29<10:07:04,  3.47it/s] 66%|██████▌   | 245228/371472 [8:28:30<9:50:37,  3.56it/s]  66%|██████▌   | 245229/371472 [8:28:30<9:33:18,  3.67it/s] 66%|██████▌   | 245230/371472 [8:28:30<9:44:06,  3.60it/s] 66%|██████▌   | 245231/371472 [8:28:30<9:41:10,  3.62it/s] 66%|██████▌   | 245232/371472 [8:28:31<9:28:28,  3.70it/s] 66%|██████▌   | 245233/371472 [8:28:31<9:27:37,  3.71it/s] 66%|██████▌   | 245234/371472 [8:28:31<9:32:29,  3.68it/s] 66%|██████▌   | 245235/371472 [8:28:31<9:48:31,  3.57it/s] 66%|██████▌   | 245236/371472 [8:28:32<9:35:34,  3.66it/s] 66%|██████▌   | 245237/371472 [8:28:32<9:35:14,  3.66it/s] 66%|██████▌   | 245238/371472 [8:28:32<9:33:12,  3.67it/s] 66%|██████▌   | 245239/371472 [8:28:33<9:30:40,  3.69it/s] 66%|██████▌   | 245240/371472 [8:28:33<9:21:28,  3.75it/s]                                                           {'loss': 2.8103, 'learning_rate': 4.0599883643258854e-07, 'epoch': 10.56}
 66%|██████▌   | 245240/371472 [8:28:33<9:21:28,  3.75it/s] 66%|██████▌   | 245241/371472 [8:28:33<9:08:56,  3.83it/s] 66%|██████▌   | 245242/371472 [8:28:33<9:46:22,  3.59it/s] 66%|██████▌   | 245243/371472 [8:28:34<9:24:55,  3.72it/s] 66%|██████▌   | 245244/371472 [8:28:34<9:21:20,  3.75it/s] 66%|██████▌   | 245245/371472 [8:28:34<9:28:50,  3.70it/s] 66%|██████▌   | 245246/371472 [8:28:34<9:28:44,  3.70it/s] 66%|██████▌   | 245247/371472 [8:28:35<9:16:54,  3.78it/s] 66%|██████▌   | 245248/371472 [8:28:35<9:34:26,  3.66it/s] 66%|██████▌   | 245249/371472 [8:28:35<9:25:28,  3.72it/s] 66%|██████▌   | 245250/371472 [8:28:35<9:10:41,  3.82it/s] 66%|██████▌   | 245251/371472 [8:28:36<9:29:38,  3.69it/s] 66%|██████▌   | 245252/371472 [8:28:36<9:17:07,  3.78it/s] 66%|██████▌   | 245253/371472 [8:28:36<9:40:00,  3.63it/s] 66%|██████▌   | 245254/371472 [8:28:37<9:53:18,  3.55it/s] 66%|██████▌   | 245255/371472 [8:28:37<10:02:38,  3.49it/s] 66%|██████▌   | 245256/371472 [8:28:37<10:14:46,  3.42it/s] 66%|██████▌   | 245257/371472 [8:28:37<10:30:19,  3.34it/s] 66%|██████▌   | 245258/371472 [8:28:38<10:51:29,  3.23it/s] 66%|██████▌   | 245259/371472 [8:28:38<10:23:42,  3.37it/s] 66%|██████▌   | 245260/371472 [8:28:38<10:00:05,  3.51it/s]                                                            {'loss': 3.0218, 'learning_rate': 4.059503544571096e-07, 'epoch': 10.56}
 66%|██████▌   | 245260/371472 [8:28:38<10:00:05,  3.51it/s] 66%|██████▌   | 245261/371472 [8:28:39<9:49:05,  3.57it/s]  66%|██████▌   | 245262/371472 [8:28:39<9:34:05,  3.66it/s] 66%|██████▌   | 245263/371472 [8:28:39<9:28:17,  3.70it/s] 66%|██████▌   | 245264/371472 [8:28:39<9:36:47,  3.65it/s] 66%|██████▌   | 245265/371472 [8:28:40<9:17:50,  3.77it/s] 66%|██████▌   | 245266/371472 [8:28:40<10:00:20,  3.50it/s] 66%|██████▌   | 245267/371472 [8:28:40<9:45:51,  3.59it/s]  66%|██████▌   | 245268/371472 [8:28:41<9:25:09,  3.72it/s] 66%|██████▌   | 245269/371472 [8:28:41<9:24:35,  3.73it/s] 66%|██████▌   | 245270/371472 [8:28:41<9:40:57,  3.62it/s] 66%|██████▌   | 245271/371472 [8:28:41<10:13:06,  3.43it/s] 66%|██████▌   | 245272/371472 [8:28:42<9:41:45,  3.62it/s]  66%|██████▌   | 245273/371472 [8:28:42<10:03:29,  3.49it/s] 66%|██████▌   | 245274/371472 [8:28:42<9:43:16,  3.61it/s]  66%|██████▌   | 245275/371472 [8:28:42<9:35:14,  3.66it/s] 66%|██████▌   | 245276/371472 [8:28:43<9:11:17,  3.82it/s] 66%|██████▌   | 245277/371472 [8:28:43<9:26:14,  3.71it/s] 66%|██████▌   | 245278/371472 [8:28:43<9:13:44,  3.80it/s] 66%|██████▌   | 245279/371472 [8:28:43<8:56:05,  3.92it/s] 66%|██████▌   | 245280/371472 [8:28:44<9:07:51,  3.84it/s]                                                           {'loss': 2.8368, 'learning_rate': 4.0590187248163073e-07, 'epoch': 10.56}
 66%|██████▌   | 245280/371472 [8:28:44<9:07:51,  3.84it/s] 66%|██████▌   | 245281/371472 [8:28:44<9:12:55,  3.80it/s] 66%|██████▌   | 245282/371472 [8:28:44<9:14:55,  3.79it/s] 66%|██████▌   | 245283/371472 [8:28:45<9:12:45,  3.80it/s] 66%|██████▌   | 245284/371472 [8:28:45<9:57:27,  3.52it/s] 66%|██████▌   | 245285/371472 [8:28:45<10:14:52,  3.42it/s] 66%|██████▌   | 245286/371472 [8:28:46<10:26:53,  3.35it/s] 66%|██████▌   | 245287/371472 [8:28:46<10:41:19,  3.28it/s] 66%|██████▌   | 245288/371472 [8:28:46<10:02:45,  3.49it/s] 66%|██████▌   | 245289/371472 [8:28:46<11:25:18,  3.07it/s] 66%|██████▌   | 245290/371472 [8:28:47<10:46:30,  3.25it/s] 66%|██████▌   | 245291/371472 [8:28:47<10:20:54,  3.39it/s] 66%|██████▌   | 245292/371472 [8:28:47<9:40:07,  3.63it/s]  66%|██████▌   | 245293/371472 [8:28:48<9:39:18,  3.63it/s] 66%|██████▌   | 245294/371472 [8:28:48<10:22:03,  3.38it/s] 66%|██████▌   | 245295/371472 [8:28:48<11:16:19,  3.11it/s] 66%|██████▌   | 245296/371472 [8:28:49<10:49:04,  3.24it/s] 66%|██████▌   | 245297/371472 [8:28:49<10:12:46,  3.43it/s] 66%|██████▌   | 245298/371472 [8:28:49<10:04:40,  3.48it/s] 66%|██████▌   | 245299/371472 [8:28:49<9:43:09,  3.61it/s]  66%|██████▌   | 245300/371472 [8:28:50<9:22:33,  3.74it/s]                                                           {'loss': 2.9361, 'learning_rate': 4.058533905061518e-07, 'epoch': 10.57}
 66%|██████▌   | 245300/371472 [8:28:50<9:22:33,  3.74it/s] 66%|██████▌   | 245301/371472 [8:28:50<9:33:52,  3.66it/s] 66%|██████▌   | 245302/371472 [8:28:50<9:21:59,  3.74it/s] 66%|██████▌   | 245303/371472 [8:28:50<9:04:25,  3.86it/s] 66%|██████▌   | 245304/371472 [8:28:51<9:04:06,  3.86it/s] 66%|██████▌   | 245305/371472 [8:28:51<8:44:38,  4.01it/s] 66%|██████▌   | 245306/371472 [8:28:51<8:58:52,  3.90it/s] 66%|██████▌   | 245307/371472 [8:28:51<8:50:57,  3.96it/s] 66%|██████▌   | 245308/371472 [8:28:52<8:59:15,  3.90it/s] 66%|██████▌   | 245309/371472 [8:28:52<8:48:14,  3.98it/s] 66%|██████▌   | 245310/371472 [8:28:52<9:18:11,  3.77it/s] 66%|██████▌   | 245311/371472 [8:28:52<9:32:57,  3.67it/s] 66%|██████▌   | 245312/371472 [8:28:53<10:47:46,  3.25it/s] 66%|██████▌   | 245313/371472 [8:28:53<10:39:36,  3.29it/s] 66%|██████▌   | 245314/371472 [8:28:53<10:15:47,  3.41it/s] 66%|██████▌   | 245315/371472 [8:28:54<10:13:21,  3.43it/s] 66%|██████▌   | 245316/371472 [8:28:54<9:48:47,  3.57it/s]  66%|██████▌   | 245317/371472 [8:28:54<9:47:14,  3.58it/s] 66%|██████▌   | 245318/371472 [8:28:54<9:43:24,  3.60it/s] 66%|██████▌   | 245319/371472 [8:28:55<9:58:02,  3.52it/s] 66%|██████▌   | 245320/371472 [8:28:55<9:49:51,  3.56it/s]                                                           {'loss': 2.8011, 'learning_rate': 4.058049085306729e-07, 'epoch': 10.57}
 66%|██████▌   | 245320/371472 [8:28:55<9:49:51,  3.56it/s] 66%|██████▌   | 245321/371472 [8:28:55<9:33:20,  3.67it/s] 66%|██████▌   | 245322/371472 [8:28:56<9:31:10,  3.68it/s] 66%|██████▌   | 245323/371472 [8:28:56<9:48:17,  3.57it/s] 66%|██████▌   | 245324/371472 [8:28:56<9:39:11,  3.63it/s] 66%|██████▌   | 245325/371472 [8:28:56<10:09:19,  3.45it/s] 66%|██████▌   | 245326/371472 [8:28:57<12:25:53,  2.82it/s] 66%|██████▌   | 245327/371472 [8:28:57<11:27:25,  3.06it/s] 66%|██████▌   | 245328/371472 [8:28:57<10:47:26,  3.25it/s] 66%|██████▌   | 245329/371472 [8:28:58<10:15:01,  3.42it/s] 66%|██████▌   | 245330/371472 [8:28:58<9:58:35,  3.51it/s]  66%|██████▌   | 245331/371472 [8:28:58<9:39:41,  3.63it/s] 66%|██████▌   | 245332/371472 [8:28:59<9:45:57,  3.59it/s] 66%|██████▌   | 245333/371472 [8:28:59<9:44:03,  3.60it/s] 66%|██████▌   | 245334/371472 [8:28:59<9:45:52,  3.59it/s] 66%|██████▌   | 245335/371472 [8:28:59<9:25:47,  3.72it/s] 66%|██████▌   | 245336/371472 [8:29:00<9:17:57,  3.77it/s] 66%|██████▌   | 245337/371472 [8:29:00<9:27:03,  3.71it/s] 66%|██████▌   | 245338/371472 [8:29:00<9:48:37,  3.57it/s] 66%|██████▌   | 245339/371472 [8:29:00<9:41:06,  3.62it/s] 66%|██████▌   | 245340/371472 [8:29:01<9:44:23,  3.60it/s]                                                           {'loss': 2.8076, 'learning_rate': 4.05756426555194e-07, 'epoch': 10.57}
 66%|██████▌   | 245340/371472 [8:29:01<9:44:23,  3.60it/s] 66%|██████▌   | 245341/371472 [8:29:01<10:04:20,  3.48it/s] 66%|██████▌   | 245342/371472 [8:29:01<10:42:56,  3.27it/s] 66%|██████▌   | 245343/371472 [8:29:02<10:09:43,  3.45it/s] 66%|██████▌   | 245344/371472 [8:29:02<10:18:35,  3.40it/s] 66%|██████▌   | 245345/371472 [8:29:02<9:50:30,  3.56it/s]  66%|██████▌   | 245346/371472 [8:29:03<10:03:52,  3.48it/s] 66%|██████▌   | 245347/371472 [8:29:03<9:40:22,  3.62it/s]  66%|██████▌   | 245348/371472 [8:29:03<9:25:42,  3.72it/s] 66%|██████▌   | 245349/371472 [8:29:03<9:43:03,  3.61it/s] 66%|██████▌   | 245350/371472 [8:29:04<9:48:48,  3.57it/s] 66%|██████▌   | 245351/371472 [8:29:04<10:59:06,  3.19it/s] 66%|██████▌   | 245352/371472 [8:29:04<10:34:21,  3.31it/s] 66%|██████▌   | 245353/371472 [8:29:04<9:49:34,  3.57it/s]  66%|██████▌   | 245354/371472 [8:29:05<10:28:26,  3.34it/s] 66%|██████▌   | 245355/371472 [8:29:05<10:00:59,  3.50it/s] 66%|██████▌   | 245356/371472 [8:29:05<10:20:42,  3.39it/s] 66%|██████▌   | 245357/371472 [8:29:06<10:30:36,  3.33it/s] 66%|██████▌   | 245358/371472 [8:29:06<9:56:59,  3.52it/s]  66%|██████▌   | 245359/371472 [8:29:06<10:07:39,  3.46it/s] 66%|██████▌   | 245360/371472 [8:29:07<10:10:32,  3.44it/s]                                                            {'loss': 2.8064, 'learning_rate': 4.0570794457971507e-07, 'epoch': 10.57}
 66%|██████▌   | 245360/371472 [8:29:07<10:10:32,  3.44it/s] 66%|██████▌   | 245361/371472 [8:29:07<11:02:30,  3.17it/s] 66%|██████▌   | 245362/371472 [8:29:07<11:30:34,  3.04it/s] 66%|██████▌   | 245363/371472 [8:29:08<10:51:16,  3.23it/s] 66%|██████▌   | 245364/371472 [8:29:08<10:24:30,  3.37it/s] 66%|██████▌   | 245365/371472 [8:29:08<9:59:44,  3.50it/s]  66%|██████▌   | 245366/371472 [8:29:08<9:45:57,  3.59it/s] 66%|██████▌   | 245367/371472 [8:29:09<9:32:27,  3.67it/s] 66%|██████▌   | 245368/371472 [8:29:09<9:22:33,  3.74it/s] 66%|██████▌   | 245369/371472 [8:29:09<9:16:40,  3.78it/s] 66%|██████▌   | 245370/371472 [8:29:09<9:32:22,  3.67it/s] 66%|██████▌   | 245371/371472 [8:29:10<9:45:24,  3.59it/s] 66%|██████▌   | 245372/371472 [8:29:10<9:20:36,  3.75it/s] 66%|██████▌   | 245373/371472 [8:29:10<9:23:40,  3.73it/s] 66%|██████▌   | 245374/371472 [8:29:10<9:19:26,  3.76it/s] 66%|██████▌   | 245375/371472 [8:29:11<9:14:42,  3.79it/s] 66%|██████▌   | 245376/371472 [8:29:11<9:13:50,  3.79it/s] 66%|██████▌   | 245377/371472 [8:29:11<8:54:59,  3.93it/s] 66%|██████▌   | 245378/371472 [8:29:11<9:03:36,  3.87it/s] 66%|██████▌   | 245379/371472 [8:29:12<9:09:45,  3.82it/s] 66%|██████▌   | 245380/371472 [8:29:12<9:46:40,  3.58it/s]                                                           {'loss': 2.6836, 'learning_rate': 4.0565946260423625e-07, 'epoch': 10.57}
 66%|██████▌   | 245380/371472 [8:29:12<9:46:40,  3.58it/s] 66%|██████▌   | 245381/371472 [8:29:12<9:45:52,  3.59it/s] 66%|██████▌   | 245382/371472 [8:29:13<9:47:22,  3.58it/s] 66%|██████▌   | 245383/371472 [8:29:13<9:45:27,  3.59it/s] 66%|██████▌   | 245384/371472 [8:29:13<9:39:22,  3.63it/s] 66%|██████▌   | 245385/371472 [8:29:13<9:30:26,  3.68it/s] 66%|██████▌   | 245386/371472 [8:29:14<9:18:17,  3.76it/s] 66%|██████▌   | 245387/371472 [8:29:14<9:08:26,  3.83it/s] 66%|██████▌   | 245388/371472 [8:29:14<8:57:35,  3.91it/s] 66%|██████▌   | 245389/371472 [8:29:14<8:55:11,  3.93it/s] 66%|██████▌   | 245390/371472 [8:29:15<8:59:22,  3.90it/s] 66%|██████▌   | 245391/371472 [8:29:15<8:54:04,  3.93it/s] 66%|██████▌   | 245392/371472 [8:29:15<8:43:59,  4.01it/s] 66%|██████▌   | 245393/371472 [8:29:15<9:13:09,  3.80it/s] 66%|██████▌   | 245394/371472 [8:29:16<9:23:01,  3.73it/s] 66%|██████▌   | 245395/371472 [8:29:16<9:00:09,  3.89it/s] 66%|██████▌   | 245396/371472 [8:29:16<9:25:12,  3.72it/s] 66%|██████▌   | 245397/371472 [8:29:17<9:14:29,  3.79it/s] 66%|██████▌   | 245398/371472 [8:29:17<9:23:35,  3.73it/s] 66%|██████▌   | 245399/371472 [8:29:17<9:09:14,  3.83it/s] 66%|██████▌   | 245400/371472 [8:29:17<9:05:09,  3.85it/s]                                                           {'loss': 2.98, 'learning_rate': 4.0561098062875727e-07, 'epoch': 10.57}
 66%|██████▌   | 245400/371472 [8:29:17<9:05:09,  3.85it/s] 66%|██████▌   | 245401/371472 [8:29:18<9:32:53,  3.67it/s] 66%|██████▌   | 245402/371472 [8:29:18<10:43:40,  3.26it/s] 66%|██████▌   | 245403/371472 [8:29:18<10:01:30,  3.49it/s] 66%|██████▌   | 245404/371472 [8:29:19<9:35:16,  3.65it/s]  66%|██████▌   | 245405/371472 [8:29:19<9:20:13,  3.75it/s] 66%|██████▌   | 245406/371472 [8:29:19<9:30:14,  3.68it/s] 66%|██████▌   | 245407/371472 [8:29:19<9:51:29,  3.55it/s] 66%|██████▌   | 245408/371472 [8:29:20<9:41:05,  3.62it/s] 66%|██████▌   | 245409/371472 [8:29:20<9:32:15,  3.67it/s] 66%|██████▌   | 245410/371472 [8:29:20<9:16:47,  3.77it/s] 66%|██████▌   | 245411/371472 [8:29:20<9:56:37,  3.52it/s] 66%|██████▌   | 245412/371472 [8:29:21<9:47:09,  3.58it/s] 66%|██████▌   | 245413/371472 [8:29:21<9:18:58,  3.76it/s] 66%|██████▌   | 245414/371472 [8:29:21<9:20:32,  3.75it/s] 66%|██████▌   | 245415/371472 [8:29:21<9:30:27,  3.68it/s] 66%|██████▌   | 245416/371472 [8:29:22<9:12:15,  3.80it/s] 66%|██████▌   | 245417/371472 [8:29:22<9:32:36,  3.67it/s] 66%|██████▌   | 245418/371472 [8:29:22<9:23:41,  3.73it/s] 66%|██████▌   | 245419/371472 [8:29:23<9:22:13,  3.74it/s] 66%|██████▌   | 245420/371472 [8:29:23<9:21:22,  3.74it/s]                                                           {'loss': 2.8401, 'learning_rate': 4.0556249865327844e-07, 'epoch': 10.57}
 66%|██████▌   | 245420/371472 [8:29:23<9:21:22,  3.74it/s] 66%|██████▌   | 245421/371472 [8:29:23<10:01:03,  3.50it/s] 66%|██████▌   | 245422/371472 [8:29:23<9:51:38,  3.55it/s]  66%|██████▌   | 245423/371472 [8:29:24<10:01:58,  3.49it/s] 66%|██████▌   | 245424/371472 [8:29:24<9:46:02,  3.58it/s]  66%|██████▌   | 245425/371472 [8:29:24<9:42:04,  3.61it/s] 66%|██████▌   | 245426/371472 [8:29:25<9:48:49,  3.57it/s] 66%|██████▌   | 245427/371472 [8:29:25<9:17:51,  3.77it/s] 66%|██████▌   | 245428/371472 [8:29:25<10:10:16,  3.44it/s] 66%|██████▌   | 245429/371472 [8:29:25<10:04:17,  3.48it/s] 66%|██████▌   | 245430/371472 [8:29:26<10:26:20,  3.35it/s] 66%|██████▌   | 245431/371472 [8:29:26<10:00:23,  3.50it/s] 66%|██████▌   | 245432/371472 [8:29:26<9:42:02,  3.61it/s]  66%|██████▌   | 245433/371472 [8:29:27<9:31:03,  3.68it/s] 66%|██████▌   | 245434/371472 [8:29:27<9:45:02,  3.59it/s] 66%|██████▌   | 245435/371472 [8:29:27<9:33:21,  3.66it/s] 66%|██████▌   | 245436/371472 [8:29:27<9:15:31,  3.78it/s] 66%|██████▌   | 245437/371472 [8:29:28<9:14:51,  3.79it/s] 66%|██████▌   | 245438/371472 [8:29:28<9:17:16,  3.77it/s] 66%|██████▌   | 245439/371472 [8:29:28<9:23:28,  3.73it/s] 66%|██████▌   | 245440/371472 [8:29:28<9:57:40,  3.51it/s]                                                           {'loss': 2.8088, 'learning_rate': 4.055140166777995e-07, 'epoch': 10.57}
 66%|██████▌   | 245440/371472 [8:29:28<9:57:40,  3.51it/s] 66%|██████▌   | 245441/371472 [8:29:29<11:08:58,  3.14it/s] 66%|██████▌   | 245442/371472 [8:29:29<12:01:13,  2.91it/s] 66%|██████▌   | 245443/371472 [8:29:30<11:17:38,  3.10it/s] 66%|██████▌   | 245444/371472 [8:29:30<11:18:23,  3.10it/s] 66%|██████▌   | 245445/371472 [8:29:30<10:30:19,  3.33it/s] 66%|██████▌   | 245446/371472 [8:29:30<10:00:16,  3.50it/s] 66%|██████▌   | 245447/371472 [8:29:31<10:36:52,  3.30it/s] 66%|██████▌   | 245448/371472 [8:29:31<10:23:39,  3.37it/s] 66%|██████▌   | 245449/371472 [8:29:31<9:56:10,  3.52it/s]  66%|██████▌   | 245450/371472 [8:29:31<9:36:54,  3.64it/s] 66%|██████▌   | 245451/371472 [8:29:32<9:54:33,  3.53it/s] 66%|██████▌   | 245452/371472 [8:29:32<10:13:41,  3.42it/s] 66%|██████▌   | 245453/371472 [8:29:32<9:52:42,  3.54it/s]  66%|██████▌   | 245454/371472 [8:29:33<9:54:15,  3.53it/s] 66%|██████▌   | 245455/371472 [8:29:33<9:30:18,  3.68it/s] 66%|██████▌   | 245456/371472 [8:29:33<9:36:25,  3.64it/s] 66%|██████▌   | 245457/371472 [8:29:33<9:46:28,  3.58it/s] 66%|██████▌   | 245458/371472 [8:29:34<9:17:38,  3.77it/s] 66%|██████▌   | 245459/371472 [8:29:34<9:23:46,  3.73it/s] 66%|██████▌   | 245460/371472 [8:29:34<9:29:37,  3.69it/s]                                                           {'loss': 2.9309, 'learning_rate': 4.0546553470232064e-07, 'epoch': 10.57}
 66%|██████▌   | 245460/371472 [8:29:34<9:29:37,  3.69it/s] 66%|██████▌   | 245461/371472 [8:29:34<9:21:32,  3.74it/s] 66%|██████▌   | 245462/371472 [8:29:35<9:07:41,  3.83it/s] 66%|██████▌   | 245463/371472 [8:29:35<9:49:41,  3.56it/s] 66%|██████▌   | 245464/371472 [8:29:35<9:50:07,  3.56it/s] 66%|██████▌   | 245465/371472 [8:29:36<9:25:04,  3.72it/s] 66%|██████▌   | 245466/371472 [8:29:36<9:11:13,  3.81it/s] 66%|██████▌   | 245467/371472 [8:29:36<9:43:06,  3.60it/s] 66%|██████▌   | 245468/371472 [8:29:36<9:39:43,  3.62it/s] 66%|██████▌   | 245469/371472 [8:29:37<9:57:12,  3.52it/s] 66%|██████▌   | 245470/371472 [8:29:37<9:47:04,  3.58it/s] 66%|██████▌   | 245471/371472 [8:29:37<9:50:25,  3.56it/s] 66%|██████▌   | 245472/371472 [8:29:38<9:44:19,  3.59it/s] 66%|██████▌   | 245473/371472 [8:29:38<9:54:54,  3.53it/s] 66%|██████▌   | 245474/371472 [8:29:38<9:43:04,  3.60it/s] 66%|██████▌   | 245475/371472 [8:29:38<9:22:53,  3.73it/s] 66%|██████▌   | 245476/371472 [8:29:39<9:34:43,  3.65it/s] 66%|██████▌   | 245477/371472 [8:29:39<10:18:52,  3.39it/s] 66%|██████▌   | 245478/371472 [8:29:39<10:15:00,  3.41it/s] 66%|██████▌   | 245479/371472 [8:29:40<10:24:33,  3.36it/s] 66%|██████▌   | 245480/371472 [8:29:40<10:14:17,  3.42it/s]                                                            {'loss': 2.8395, 'learning_rate': 4.054170527268417e-07, 'epoch': 10.57}
 66%|██████▌   | 245480/371472 [8:29:40<10:14:17,  3.42it/s] 66%|██████▌   | 245481/371472 [8:29:40<10:31:55,  3.32it/s] 66%|██████▌   | 245482/371472 [8:29:40<10:46:36,  3.25it/s] 66%|██████▌   | 245483/371472 [8:29:41<10:28:52,  3.34it/s] 66%|██████▌   | 245484/371472 [8:29:41<10:16:26,  3.41it/s] 66%|██████▌   | 245485/371472 [8:29:41<9:47:28,  3.57it/s]  66%|██████▌   | 245486/371472 [8:29:42<10:47:06,  3.24it/s] 66%|██████▌   | 245487/371472 [8:29:42<10:07:22,  3.46it/s] 66%|██████▌   | 245488/371472 [8:29:42<9:42:39,  3.60it/s]  66%|██████▌   | 245489/371472 [8:29:42<9:44:07,  3.59it/s] 66%|██████▌   | 245490/371472 [8:29:43<9:20:24,  3.75it/s] 66%|██████▌   | 245491/371472 [8:29:43<8:55:14,  3.92it/s] 66%|██████▌   | 245492/371472 [8:29:43<8:51:16,  3.95it/s] 66%|██████▌   | 245493/371472 [8:29:43<8:49:17,  3.97it/s] 66%|██████▌   | 245494/371472 [8:29:44<9:09:29,  3.82it/s] 66%|██████▌   | 245495/371472 [8:29:44<9:10:46,  3.81it/s] 66%|██████▌   | 245496/371472 [8:29:44<9:04:53,  3.85it/s] 66%|██████▌   | 245497/371472 [8:29:44<9:13:56,  3.79it/s] 66%|██████▌   | 245498/371472 [8:29:45<9:14:42,  3.78it/s] 66%|██████▌   | 245499/371472 [8:29:45<10:07:55,  3.45it/s] 66%|██████▌   | 245500/371472 [8:29:45<9:42:17,  3.61it/s]                                                            {'loss': 3.0989, 'learning_rate': 4.053685707513629e-07, 'epoch': 10.57}
 66%|██████▌   | 245500/371472 [8:29:45<9:42:17,  3.61it/s] 66%|██████▌   | 245501/371472 [8:29:46<9:59:33,  3.50it/s] 66%|██████▌   | 245502/371472 [8:29:46<10:42:21,  3.27it/s] 66%|██████▌   | 245503/371472 [8:29:46<10:13:05,  3.42it/s] 66%|██████▌   | 245504/371472 [8:29:47<10:28:07,  3.34it/s] 66%|██████▌   | 245505/371472 [8:29:47<10:54:10,  3.21it/s] 66%|██████▌   | 245506/371472 [8:29:47<10:23:59,  3.36it/s] 66%|██████▌   | 245507/371472 [8:29:47<10:22:59,  3.37it/s] 66%|██████▌   | 245508/371472 [8:29:48<9:47:23,  3.57it/s]  66%|██████▌   | 245509/371472 [8:29:48<10:06:21,  3.46it/s] 66%|██████▌   | 245510/371472 [8:29:48<10:26:24,  3.35it/s] 66%|██████▌   | 245511/371472 [8:29:49<10:31:27,  3.32it/s] 66%|██████▌   | 245512/371472 [8:29:49<10:12:54,  3.43it/s] 66%|██████▌   | 245513/371472 [8:29:49<10:10:35,  3.44it/s] 66%|██████▌   | 245514/371472 [8:29:50<9:57:58,  3.51it/s]  66%|██████▌   | 245515/371472 [8:29:50<10:24:28,  3.36it/s] 66%|██████▌   | 245516/371472 [8:29:50<10:27:04,  3.35it/s] 66%|██████▌   | 245517/371472 [8:29:51<12:01:32,  2.91it/s] 66%|██████▌   | 245518/371472 [8:29:51<11:19:56,  3.09it/s] 66%|██████▌   | 245519/371472 [8:29:51<11:01:01,  3.18it/s] 66%|██████▌   | 245520/371472 [8:29:51<10:27:24,  3.35it/s]                                                            {'loss': 2.8757, 'learning_rate': 4.0532008877588396e-07, 'epoch': 10.58}
 66%|██████▌   | 245520/371472 [8:29:51<10:27:24,  3.35it/s] 66%|██████▌   | 245521/371472 [8:29:52<10:03:52,  3.48it/s] 66%|██████▌   | 245522/371472 [8:29:52<10:07:31,  3.46it/s] 66%|██████▌   | 245523/371472 [8:29:52<9:49:52,  3.56it/s]  66%|██████▌   | 245524/371472 [8:29:52<9:27:28,  3.70it/s] 66%|██████▌   | 245525/371472 [8:29:53<9:26:39,  3.70it/s] 66%|██████▌   | 245526/371472 [8:29:53<9:21:09,  3.74it/s] 66%|██████▌   | 245527/371472 [8:29:53<9:39:38,  3.62it/s] 66%|██████▌   | 245528/371472 [8:29:54<9:23:48,  3.72it/s] 66%|██████▌   | 245529/371472 [8:29:54<9:32:27,  3.67it/s] 66%|██████▌   | 245530/371472 [8:29:54<9:15:35,  3.78it/s] 66%|██████▌   | 245531/371472 [8:29:54<10:12:13,  3.43it/s] 66%|██████▌   | 245532/371472 [8:29:55<10:16:17,  3.41it/s] 66%|██████▌   | 245533/371472 [8:29:55<9:54:51,  3.53it/s]  66%|██████▌   | 245534/371472 [8:29:55<10:26:28,  3.35it/s] 66%|██████▌   | 245535/371472 [8:29:56<10:04:33,  3.47it/s] 66%|██████▌   | 245536/371472 [8:29:56<9:46:41,  3.58it/s]  66%|██████▌   | 245537/371472 [8:29:56<10:08:00,  3.45it/s] 66%|██████▌   | 245538/371472 [8:29:56<10:25:00,  3.36it/s] 66%|██████▌   | 245539/371472 [8:29:57<9:58:25,  3.51it/s]  66%|██████▌   | 245540/371472 [8:29:57<9:29:20,  3.69it/s]                                                           {'loss': 2.8214, 'learning_rate': 4.052716068004051e-07, 'epoch': 10.58}
 66%|██████▌   | 245540/371472 [8:29:57<9:29:20,  3.69it/s] 66%|██████▌   | 245541/371472 [8:29:57<10:43:28,  3.26it/s] 66%|██████▌   | 245542/371472 [8:29:58<10:15:18,  3.41it/s] 66%|██████▌   | 245543/371472 [8:29:58<9:57:06,  3.52it/s]  66%|██████▌   | 245544/371472 [8:29:58<9:48:49,  3.56it/s] 66%|██████▌   | 245545/371472 [8:29:58<10:05:05,  3.47it/s] 66%|██████▌   | 245546/371472 [8:29:59<9:34:51,  3.65it/s]  66%|██████▌   | 245547/371472 [8:29:59<9:36:48,  3.64it/s] 66%|██████▌   | 245548/371472 [8:29:59<9:40:53,  3.61it/s] 66%|██████▌   | 245549/371472 [8:30:00<9:16:51,  3.77it/s] 66%|██████▌   | 245550/371472 [8:30:00<9:19:38,  3.75it/s] 66%|██████▌   | 245551/371472 [8:30:00<9:04:33,  3.85it/s] 66%|██████▌   | 245552/371472 [8:30:00<9:48:04,  3.57it/s] 66%|██████▌   | 245553/371472 [8:30:01<9:58:57,  3.50it/s] 66%|██████▌   | 245554/371472 [8:30:01<9:42:43,  3.60it/s] 66%|██████▌   | 245555/371472 [8:30:01<9:39:15,  3.62it/s] 66%|██████▌   | 245556/371472 [8:30:01<10:03:06,  3.48it/s] 66%|██████▌   | 245557/371472 [8:30:02<9:41:49,  3.61it/s]  66%|██████▌   | 245558/371472 [8:30:02<9:40:19,  3.62it/s] 66%|██████▌   | 245559/371472 [8:30:02<9:08:53,  3.82it/s] 66%|██████▌   | 245560/371472 [8:30:03<9:28:27,  3.69it/s]                                                           {'loss': 2.9077, 'learning_rate': 4.0522312482492616e-07, 'epoch': 10.58}
 66%|██████▌   | 245560/371472 [8:30:03<9:28:27,  3.69it/s] 66%|██████▌   | 245561/371472 [8:30:03<9:15:02,  3.78it/s] 66%|██████▌   | 245562/371472 [8:30:03<9:03:05,  3.86it/s] 66%|██████▌   | 245563/371472 [8:30:03<9:48:56,  3.56it/s] 66%|██████▌   | 245564/371472 [8:30:04<10:04:40,  3.47it/s] 66%|██████▌   | 245565/371472 [8:30:04<10:15:11,  3.41it/s] 66%|██████▌   | 245566/371472 [8:30:04<9:42:10,  3.60it/s]  66%|██████▌   | 245567/371472 [8:30:05<10:34:50,  3.31it/s] 66%|██████▌   | 245568/371472 [8:30:05<10:20:38,  3.38it/s] 66%|██████▌   | 245569/371472 [8:30:05<9:59:50,  3.50it/s]  66%|██████▌   | 245570/371472 [8:30:05<9:31:24,  3.67it/s] 66%|██████▌   | 245571/371472 [8:30:06<9:28:24,  3.69it/s] 66%|██████▌   | 245572/371472 [8:30:06<9:25:35,  3.71it/s] 66%|██████▌   | 245573/371472 [8:30:06<10:02:58,  3.48it/s] 66%|██████▌   | 245574/371472 [8:30:07<10:56:43,  3.20it/s] 66%|██████▌   | 245575/371472 [8:30:07<10:35:35,  3.30it/s] 66%|██████▌   | 245576/371472 [8:30:07<10:00:33,  3.49it/s] 66%|██████▌   | 245577/371472 [8:30:07<9:46:54,  3.58it/s]  66%|██████▌   | 245578/371472 [8:30:08<9:41:30,  3.61it/s] 66%|██████▌   | 245579/371472 [8:30:08<9:40:44,  3.61it/s] 66%|██████▌   | 245580/371472 [8:30:08<9:43:10,  3.60it/s]                                                           {'loss': 2.8756, 'learning_rate': 4.0517464284944733e-07, 'epoch': 10.58}
 66%|██████▌   | 245580/371472 [8:30:08<9:43:10,  3.60it/s] 66%|██████▌   | 245581/371472 [8:30:09<10:14:26,  3.41it/s] 66%|██████▌   | 245582/371472 [8:30:09<9:48:12,  3.57it/s]  66%|██████▌   | 245583/371472 [8:30:09<9:36:26,  3.64it/s] 66%|██████▌   | 245584/371472 [8:30:09<9:19:43,  3.75it/s] 66%|██████▌   | 245585/371472 [8:30:10<9:37:36,  3.63it/s] 66%|██████▌   | 245586/371472 [8:30:10<9:30:30,  3.68it/s] 66%|██████▌   | 245587/371472 [8:30:10<9:38:12,  3.63it/s] 66%|██████▌   | 245588/371472 [8:30:10<9:36:58,  3.64it/s] 66%|██████▌   | 245589/371472 [8:30:11<9:11:57,  3.80it/s] 66%|██████▌   | 245590/371472 [8:30:11<11:27:57,  3.05it/s] 66%|██████▌   | 245591/371472 [8:30:11<11:08:36,  3.14it/s] 66%|██████▌   | 245592/371472 [8:30:12<10:33:06,  3.31it/s] 66%|██████▌   | 245593/371472 [8:30:12<10:43:16,  3.26it/s] 66%|██████▌   | 245594/371472 [8:30:12<10:07:37,  3.45it/s] 66%|██████▌   | 245595/371472 [8:30:13<10:00:11,  3.50it/s] 66%|██████▌   | 245596/371472 [8:30:13<10:05:36,  3.46it/s] 66%|██████▌   | 245597/371472 [8:30:13<9:57:25,  3.51it/s]  66%|██████▌   | 245598/371472 [8:30:13<10:17:58,  3.39it/s] 66%|██████▌   | 245599/371472 [8:30:14<9:55:15,  3.52it/s]  66%|██████▌   | 245600/371472 [8:30:14<9:34:49,  3.65it/s]                                                           {'loss': 2.8791, 'learning_rate': 4.0512616087396835e-07, 'epoch': 10.58}
 66%|██████▌   | 245600/371472 [8:30:14<9:34:49,  3.65it/s] 66%|██████▌   | 245601/371472 [8:30:14<9:43:50,  3.59it/s] 66%|██████▌   | 245602/371472 [8:30:15<9:43:53,  3.59it/s] 66%|██████▌   | 245603/371472 [8:30:15<9:45:39,  3.58it/s] 66%|██████▌   | 245604/371472 [8:30:15<9:21:15,  3.74it/s] 66%|██████▌   | 245605/371472 [8:30:15<9:46:05,  3.58it/s] 66%|██████▌   | 245606/371472 [8:30:16<10:00:02,  3.50it/s] 66%|██████▌   | 245607/371472 [8:30:16<9:37:03,  3.64it/s]  66%|██████▌   | 245608/371472 [8:30:16<9:28:47,  3.69it/s] 66%|██████▌   | 245609/371472 [8:30:16<9:10:24,  3.81it/s] 66%|██████▌   | 245610/371472 [8:30:17<9:06:15,  3.84it/s] 66%|██████▌   | 245611/371472 [8:30:17<9:29:28,  3.68it/s] 66%|██████▌   | 245612/371472 [8:30:17<9:31:01,  3.67it/s] 66%|██████▌   | 245613/371472 [8:30:17<9:34:16,  3.65it/s] 66%|██████▌   | 245614/371472 [8:30:18<9:28:40,  3.69it/s] 66%|██████▌   | 245615/371472 [8:30:18<9:37:48,  3.63it/s] 66%|██████▌   | 245616/371472 [8:30:18<9:33:04,  3.66it/s] 66%|██████▌   | 245617/371472 [8:30:19<9:07:14,  3.83it/s] 66%|██████▌   | 245618/371472 [8:30:19<9:01:33,  3.87it/s] 66%|██████▌   | 245619/371472 [8:30:19<8:47:43,  3.97it/s] 66%|██████▌   | 245620/371472 [8:30:19<8:47:43,  3.97it/s]                                                           {'loss': 3.0601, 'learning_rate': 4.0507767889848953e-07, 'epoch': 10.58}
 66%|██████▌   | 245620/371472 [8:30:19<8:47:43,  3.97it/s] 66%|██████▌   | 245621/371472 [8:30:20<8:46:51,  3.98it/s] 66%|██████▌   | 245622/371472 [8:30:20<8:52:08,  3.94it/s] 66%|██████▌   | 245623/371472 [8:30:20<9:16:57,  3.77it/s] 66%|██████▌   | 245624/371472 [8:30:20<9:03:41,  3.86it/s] 66%|██████▌   | 245625/371472 [8:30:21<9:41:49,  3.61it/s] 66%|██████▌   | 245626/371472 [8:30:21<9:57:06,  3.51it/s] 66%|██████▌   | 245627/371472 [8:30:21<9:34:21,  3.65it/s] 66%|██████▌   | 245628/371472 [8:30:21<9:23:32,  3.72it/s] 66%|██████▌   | 245629/371472 [8:30:22<9:10:14,  3.81it/s] 66%|██████▌   | 245630/371472 [8:30:22<9:19:32,  3.75it/s] 66%|██████▌   | 245631/371472 [8:30:22<9:03:29,  3.86it/s] 66%|██████▌   | 245632/371472 [8:30:23<9:47:44,  3.57it/s] 66%|██████▌   | 245633/371472 [8:30:23<10:18:59,  3.39it/s] 66%|██████▌   | 245634/371472 [8:30:23<9:54:43,  3.53it/s]  66%|██████▌   | 245635/371472 [8:30:23<9:51:33,  3.55it/s] 66%|██████▌   | 245636/371472 [8:30:24<9:40:47,  3.61it/s] 66%|██████▌   | 245637/371472 [8:30:24<9:36:50,  3.64it/s] 66%|██████▌   | 245638/371472 [8:30:24<9:23:02,  3.72it/s] 66%|██████▌   | 245639/371472 [8:30:24<9:11:01,  3.81it/s] 66%|██████▌   | 245640/371472 [8:30:25<9:55:38,  3.52it/s]                                                           {'loss': 2.8741, 'learning_rate': 4.0502919692301055e-07, 'epoch': 10.58}
 66%|██████▌   | 245640/371472 [8:30:25<9:55:38,  3.52it/s] 66%|██████▌   | 245641/371472 [8:30:25<10:29:49,  3.33it/s] 66%|██████▌   | 245642/371472 [8:30:25<9:57:34,  3.51it/s]  66%|██████▌   | 245643/371472 [8:30:26<10:43:33,  3.26it/s] 66%|██████▌   | 245644/371472 [8:30:26<11:12:20,  3.12it/s] 66%|██████▌   | 245645/371472 [8:30:26<11:19:02,  3.09it/s] 66%|██████▌   | 245646/371472 [8:30:27<11:20:15,  3.08it/s] 66%|██████▌   | 245647/371472 [8:30:27<11:00:43,  3.17it/s] 66%|██████▌   | 245648/371472 [8:30:27<10:30:22,  3.33it/s] 66%|██████▌   | 245649/371472 [8:30:28<9:53:46,  3.53it/s]  66%|██████▌   | 245650/371472 [8:30:28<9:29:23,  3.68it/s] 66%|██████▌   | 245651/371472 [8:30:28<9:23:20,  3.72it/s] 66%|██████▌   | 245652/371472 [8:30:28<9:42:31,  3.60it/s] 66%|██████▌   | 245653/371472 [8:30:29<9:28:21,  3.69it/s] 66%|██████▌   | 245654/371472 [8:30:29<9:18:51,  3.75it/s] 66%|██████▌   | 245655/371472 [8:30:29<9:15:30,  3.77it/s] 66%|██████▌   | 245656/371472 [8:30:29<9:49:38,  3.56it/s] 66%|██████▌   | 245657/371472 [8:30:30<9:44:50,  3.59it/s] 66%|██████▌   | 245658/371472 [8:30:30<9:44:02,  3.59it/s] 66%|██████▌   | 245659/371472 [8:30:30<9:26:44,  3.70it/s] 66%|██████▌   | 245660/371472 [8:30:30<9:06:08,  3.84it/s]                                                           {'loss': 2.8701, 'learning_rate': 4.049807149475317e-07, 'epoch': 10.58}
 66%|██████▌   | 245660/371472 [8:30:30<9:06:08,  3.84it/s] 66%|██████▌   | 245661/371472 [8:30:31<9:25:52,  3.71it/s] 66%|██████▌   | 245662/371472 [8:30:31<9:09:16,  3.82it/s] 66%|██████▌   | 245663/371472 [8:30:31<9:12:05,  3.80it/s] 66%|██████▌   | 245664/371472 [8:30:32<9:36:21,  3.64it/s] 66%|██████▌   | 245665/371472 [8:30:32<9:30:54,  3.67it/s] 66%|██████▌   | 245666/371472 [8:30:32<9:21:34,  3.73it/s] 66%|██████▌   | 245667/371472 [8:30:33<11:15:28,  3.10it/s] 66%|██████▌   | 245668/371472 [8:30:33<11:03:12,  3.16it/s] 66%|██████▌   | 245669/371472 [8:30:33<10:35:24,  3.30it/s] 66%|██████▌   | 245670/371472 [8:30:33<11:09:07,  3.13it/s] 66%|██████▌   | 245671/371472 [8:30:34<11:11:11,  3.12it/s] 66%|██████▌   | 245672/371472 [8:30:34<10:30:01,  3.33it/s] 66%|██████▌   | 245673/371472 [8:30:34<10:23:00,  3.37it/s] 66%|██████▌   | 245674/371472 [8:30:35<10:03:17,  3.48it/s] 66%|██████▌   | 245675/371472 [8:30:35<9:39:56,  3.62it/s]  66%|██████▌   | 245676/371472 [8:30:35<9:17:48,  3.76it/s] 66%|██████▌   | 245677/371472 [8:30:35<9:12:20,  3.80it/s] 66%|██████▌   | 245678/371472 [8:30:36<9:37:33,  3.63it/s] 66%|██████▌   | 245679/371472 [8:30:36<9:59:02,  3.50it/s] 66%|██████▌   | 245680/371472 [8:30:36<10:26:56,  3.34it/s]                                                            {'loss': 2.9446, 'learning_rate': 4.049322329720528e-07, 'epoch': 10.58}
 66%|██████▌   | 245680/371472 [8:30:36<10:26:56,  3.34it/s] 66%|██████▌   | 245681/371472 [8:30:37<10:06:25,  3.46it/s] 66%|██████▌   | 245682/371472 [8:30:37<9:53:58,  3.53it/s]  66%|██████▌   | 245683/371472 [8:30:37<9:51:14,  3.55it/s] 66%|██████▌   | 245684/371472 [8:30:38<12:24:58,  2.81it/s] 66%|██████▌   | 245685/371472 [8:30:38<11:16:50,  3.10it/s] 66%|██████▌   | 245686/371472 [8:30:38<10:24:07,  3.36it/s] 66%|██████▌   | 245687/371472 [8:30:38<9:50:22,  3.55it/s]  66%|██████▌   | 245688/371472 [8:30:39<10:06:59,  3.45it/s] 66%|██████▌   | 245689/371472 [8:30:39<10:18:16,  3.39it/s] 66%|██████▌   | 245690/371472 [8:30:39<9:50:41,  3.55it/s]  66%|██████▌   | 245691/371472 [8:30:40<9:58:35,  3.50it/s] 66%|██████▌   | 245692/371472 [8:30:40<9:34:56,  3.65it/s] 66%|██████▌   | 245693/371472 [8:30:40<9:31:43,  3.67it/s] 66%|██████▌   | 245694/371472 [8:30:40<11:03:10,  3.16it/s] 66%|██████▌   | 245695/371472 [8:30:41<10:54:55,  3.20it/s] 66%|██████▌   | 245696/371472 [8:30:41<10:26:25,  3.35it/s] 66%|██████▌   | 245697/371472 [8:30:41<10:16:03,  3.40it/s] 66%|██████▌   | 245698/371472 [8:30:42<9:45:48,  3.58it/s]  66%|██████▌   | 245699/371472 [8:30:42<10:03:02,  3.48it/s] 66%|██████▌   | 245700/371472 [8:30:42<9:39:21,  3.62it/s]                                                            {'loss': 2.7383, 'learning_rate': 4.04883750996574e-07, 'epoch': 10.58}
 66%|██████▌   | 245700/371472 [8:30:42<9:39:21,  3.62it/s] 66%|██████▌   | 245701/371472 [8:30:42<9:32:04,  3.66it/s] 66%|██████▌   | 245702/371472 [8:30:43<9:26:48,  3.70it/s] 66%|██████▌   | 245703/371472 [8:30:43<9:12:13,  3.80it/s] 66%|██████▌   | 245704/371472 [8:30:43<9:36:14,  3.64it/s] 66%|██████▌   | 245705/371472 [8:30:44<9:43:32,  3.59it/s] 66%|██████▌   | 245706/371472 [8:30:44<9:38:01,  3.63it/s] 66%|██████▌   | 245707/371472 [8:30:44<9:21:39,  3.73it/s] 66%|██████▌   | 245708/371472 [8:30:44<9:21:58,  3.73it/s] 66%|██████▌   | 245709/371472 [8:30:45<10:10:15,  3.43it/s] 66%|██████▌   | 245710/371472 [8:30:45<9:39:03,  3.62it/s]  66%|██████▌   | 245711/371472 [8:30:45<10:17:24,  3.39it/s] 66%|██████▌   | 245712/371472 [8:30:46<10:20:02,  3.38it/s] 66%|██████▌   | 245713/371472 [8:30:46<10:11:00,  3.43it/s] 66%|██████▌   | 245714/371472 [8:30:46<9:50:21,  3.55it/s]  66%|██████▌   | 245715/371472 [8:30:46<9:22:51,  3.72it/s] 66%|██████▌   | 245716/371472 [8:30:47<9:17:04,  3.76it/s] 66%|██████▌   | 245717/371472 [8:30:47<9:11:58,  3.80it/s] 66%|██████▌   | 245718/371472 [8:30:47<9:53:49,  3.53it/s] 66%|██████▌   | 245719/371472 [8:30:47<9:31:10,  3.67it/s] 66%|██████▌   | 245720/371472 [8:30:48<9:40:44,  3.61it/s]                                                           {'loss': 2.7535, 'learning_rate': 4.04835269021095e-07, 'epoch': 10.58}
 66%|██████▌   | 245720/371472 [8:30:48<9:40:44,  3.61it/s] 66%|██████▌   | 245721/371472 [8:30:48<9:39:13,  3.62it/s] 66%|██████▌   | 245722/371472 [8:30:48<10:02:58,  3.48it/s] 66%|██████▌   | 245723/371472 [8:30:49<9:48:05,  3.56it/s]  66%|██████▌   | 245724/371472 [8:30:49<9:46:12,  3.58it/s] 66%|██████▌   | 245725/371472 [8:30:49<10:11:39,  3.43it/s] 66%|██████▌   | 245726/371472 [8:30:49<10:01:58,  3.48it/s] 66%|██████▌   | 245727/371472 [8:30:50<9:49:52,  3.55it/s]  66%|██████▌   | 245728/371472 [8:30:50<9:54:33,  3.52it/s] 66%|██████▌   | 245729/371472 [8:30:50<9:29:34,  3.68it/s] 66%|██████▌   | 245730/371472 [8:30:50<9:28:31,  3.69it/s] 66%|██████▌   | 245731/371472 [8:30:51<9:17:32,  3.76it/s] 66%|██████▌   | 245732/371472 [8:30:51<9:31:28,  3.67it/s] 66%|██████▌   | 245733/371472 [8:30:51<9:22:02,  3.73it/s] 66%|██████▌   | 245734/371472 [8:30:52<9:39:21,  3.62it/s] 66%|██████▌   | 245735/371472 [8:30:52<9:37:13,  3.63it/s] 66%|██████▌   | 245736/371472 [8:30:52<9:33:57,  3.65it/s] 66%|██████▌   | 245737/371472 [8:30:52<9:48:51,  3.56it/s] 66%|██████▌   | 245738/371472 [8:30:53<9:27:09,  3.69it/s] 66%|██████▌   | 245739/371472 [8:30:53<10:18:58,  3.39it/s] 66%|██████▌   | 245740/371472 [8:30:53<10:02:42,  3.48it/s]                                                            {'loss': 2.9015, 'learning_rate': 4.0478678704561617e-07, 'epoch': 10.58}
 66%|██████▌   | 245740/371472 [8:30:53<10:02:42,  3.48it/s] 66%|██████▌   | 245741/371472 [8:30:54<9:27:55,  3.69it/s]  66%|██████▌   | 245742/371472 [8:30:54<9:57:35,  3.51it/s] 66%|██████▌   | 245743/371472 [8:30:54<9:44:27,  3.59it/s] 66%|██████▌   | 245744/371472 [8:30:54<9:37:18,  3.63it/s] 66%|██████▌   | 245745/371472 [8:30:55<9:06:42,  3.83it/s] 66%|██████▌   | 245746/371472 [8:30:55<8:57:06,  3.90it/s] 66%|██████▌   | 245747/371472 [8:30:55<9:01:15,  3.87it/s] 66%|██████▌   | 245748/371472 [8:30:55<9:06:12,  3.84it/s] 66%|██████▌   | 245749/371472 [8:30:56<9:23:25,  3.72it/s] 66%|██████▌   | 245750/371472 [8:30:56<10:00:01,  3.49it/s] 66%|██████▌   | 245751/371472 [8:30:56<9:42:03,  3.60it/s]  66%|██████▌   | 245752/371472 [8:30:57<9:36:25,  3.64it/s] 66%|██████▌   | 245753/371472 [8:30:57<9:35:54,  3.64it/s] 66%|██████▌   | 245754/371472 [8:30:57<9:09:16,  3.81it/s] 66%|██████▌   | 245755/371472 [8:30:57<9:49:15,  3.56it/s] 66%|██████▌   | 245756/371472 [8:30:58<11:31:28,  3.03it/s] 66%|██████▌   | 245757/371472 [8:30:58<10:48:41,  3.23it/s] 66%|██████▌   | 245758/371472 [8:30:58<10:31:35,  3.32it/s] 66%|██████▌   | 245759/371472 [8:30:59<10:21:49,  3.37it/s] 66%|██████▌   | 245760/371472 [8:30:59<10:40:09,  3.27it/s]                                                            {'loss': 2.8034, 'learning_rate': 4.0473830507013724e-07, 'epoch': 10.59}
 66%|██████▌   | 245760/371472 [8:30:59<10:40:09,  3.27it/s] 66%|██████▌   | 245761/371472 [8:30:59<10:48:39,  3.23it/s] 66%|██████▌   | 245762/371472 [8:31:00<11:29:33,  3.04it/s] 66%|██████▌   | 245763/371472 [8:31:00<10:30:43,  3.32it/s] 66%|██████▌   | 245764/371472 [8:31:00<11:01:43,  3.17it/s] 66%|██████▌   | 245765/371472 [8:31:01<11:12:57,  3.11it/s] 66%|██████▌   | 245766/371472 [8:31:01<11:09:00,  3.13it/s] 66%|██████▌   | 245767/371472 [8:31:01<10:28:09,  3.34it/s] 66%|██████▌   | 245768/371472 [8:31:01<10:00:43,  3.49it/s] 66%|██████▌   | 245769/371472 [8:31:02<9:45:32,  3.58it/s]  66%|██████▌   | 245770/371472 [8:31:02<9:23:43,  3.72it/s] 66%|██████▌   | 245771/371472 [8:31:02<9:11:08,  3.80it/s] 66%|██████▌   | 245772/371472 [8:31:02<9:17:23,  3.76it/s] 66%|██████▌   | 245773/371472 [8:31:03<9:47:12,  3.57it/s] 66%|██████▌   | 245774/371472 [8:31:03<9:40:53,  3.61it/s] 66%|██████▌   | 245775/371472 [8:31:03<9:38:09,  3.62it/s] 66%|██████▌   | 245776/371472 [8:31:04<10:16:14,  3.40it/s] 66%|██████▌   | 245777/371472 [8:31:04<9:47:36,  3.57it/s]  66%|██████▌   | 245778/371472 [8:31:04<9:34:53,  3.64it/s] 66%|██████▌   | 245779/371472 [8:31:04<9:24:38,  3.71it/s] 66%|██████▌   | 245780/371472 [8:31:05<9:34:23,  3.65it/s]                                                           {'loss': 2.779, 'learning_rate': 4.0468982309465837e-07, 'epoch': 10.59}
 66%|██████▌   | 245780/371472 [8:31:05<9:34:23,  3.65it/s] 66%|██████▌   | 245781/371472 [8:31:05<9:36:44,  3.63it/s] 66%|██████▌   | 245782/371472 [8:31:05<10:13:19,  3.42it/s] 66%|██████▌   | 245783/371472 [8:31:06<11:00:36,  3.17it/s] 66%|██████▌   | 245784/371472 [8:31:06<10:30:31,  3.32it/s] 66%|██████▌   | 245785/371472 [8:31:06<10:51:13,  3.22it/s] 66%|██████▌   | 245786/371472 [8:31:06<10:12:06,  3.42it/s] 66%|██████▌   | 245787/371472 [8:31:07<10:17:17,  3.39it/s] 66%|██████▌   | 245788/371472 [8:31:07<10:22:41,  3.36it/s] 66%|██████▌   | 245789/371472 [8:31:07<9:43:20,  3.59it/s]  66%|██████▌   | 245790/371472 [8:31:08<9:46:11,  3.57it/s] 66%|██████▌   | 245791/371472 [8:31:08<10:30:28,  3.32it/s] 66%|██████▌   | 245792/371472 [8:31:08<10:01:18,  3.48it/s] 66%|██████▌   | 245793/371472 [8:31:08<10:00:39,  3.49it/s] 66%|██████▌   | 245794/371472 [8:31:09<9:40:48,  3.61it/s]  66%|██████▌   | 245795/371472 [8:31:09<10:08:21,  3.44it/s] 66%|██████▌   | 245796/371472 [8:31:09<10:43:52,  3.25it/s] 66%|██████▌   | 245797/371472 [8:31:10<10:20:05,  3.38it/s] 66%|██████▌   | 245798/371472 [8:31:10<10:11:58,  3.42it/s] 66%|██████▌   | 245799/371472 [8:31:10<9:51:02,  3.54it/s]  66%|██████▌   | 245800/371472 [8:31:11<9:53:45,  3.53it/s]                                                           {'loss': 2.9091, 'learning_rate': 4.0464134111917944e-07, 'epoch': 10.59}
 66%|██████▌   | 245800/371472 [8:31:11<9:53:45,  3.53it/s] 66%|██████▌   | 245801/371472 [8:31:11<9:32:39,  3.66it/s] 66%|██████▌   | 245802/371472 [8:31:11<9:19:19,  3.74it/s] 66%|██████▌   | 245803/371472 [8:31:11<10:32:36,  3.31it/s] 66%|██████▌   | 245804/371472 [8:31:12<9:56:16,  3.51it/s]  66%|██████▌   | 245805/371472 [8:31:12<9:37:15,  3.63it/s] 66%|██████▌   | 245806/371472 [8:31:12<9:39:27,  3.61it/s] 66%|██████▌   | 245807/371472 [8:31:12<9:32:25,  3.66it/s] 66%|██████▌   | 245808/371472 [8:31:13<9:19:51,  3.74it/s] 66%|██████▌   | 245809/371472 [8:31:13<9:08:05,  3.82it/s] 66%|██████▌   | 245810/371472 [8:31:13<9:49:17,  3.55it/s] 66%|██████▌   | 245811/371472 [8:31:14<10:56:55,  3.19it/s] 66%|██████▌   | 245812/371472 [8:31:14<10:32:10,  3.31it/s] 66%|██████▌   | 245813/371472 [8:31:14<9:53:21,  3.53it/s]  66%|██████▌   | 245814/371472 [8:31:14<9:28:25,  3.68it/s] 66%|██████▌   | 245815/371472 [8:31:15<9:53:54,  3.53it/s] 66%|██████▌   | 245816/371472 [8:31:15<9:30:58,  3.67it/s] 66%|██████▌   | 245817/371472 [8:31:15<9:31:44,  3.66it/s] 66%|██████▌   | 245818/371472 [8:31:16<9:26:33,  3.70it/s] 66%|██████▌   | 245819/371472 [8:31:16<9:16:02,  3.77it/s] 66%|██████▌   | 245820/371472 [8:31:16<9:07:31,  3.82it/s]                                                           {'loss': 2.7478, 'learning_rate': 4.045928591437006e-07, 'epoch': 10.59}
 66%|██████▌   | 245820/371472 [8:31:16<9:07:31,  3.82it/s] 66%|██████▌   | 245821/371472 [8:31:16<9:26:16,  3.70it/s] 66%|██████▌   | 245822/371472 [8:31:17<9:10:11,  3.81it/s] 66%|██████▌   | 245823/371472 [8:31:17<9:13:41,  3.78it/s] 66%|██████▌   | 245824/371472 [8:31:17<9:26:22,  3.70it/s] 66%|██████▌   | 245825/371472 [8:31:17<9:19:21,  3.74it/s] 66%|██████▌   | 245826/371472 [8:31:18<8:54:42,  3.92it/s] 66%|██████▌   | 245827/371472 [8:31:18<9:08:12,  3.82it/s] 66%|██████▌   | 245828/371472 [8:31:18<9:12:24,  3.79it/s] 66%|██████▌   | 245829/371472 [8:31:18<8:49:22,  3.96it/s] 66%|██████▌   | 245830/371472 [8:31:19<9:16:33,  3.76it/s] 66%|██████▌   | 245831/371472 [8:31:19<9:04:28,  3.85it/s] 66%|██████▌   | 245832/371472 [8:31:19<9:06:16,  3.83it/s] 66%|██████▌   | 245833/371472 [8:31:19<8:53:26,  3.93it/s] 66%|██████▌   | 245834/371472 [8:31:20<9:13:17,  3.78it/s] 66%|██████▌   | 245835/371472 [8:31:20<9:10:54,  3.80it/s] 66%|██████▌   | 245836/371472 [8:31:20<8:53:01,  3.93it/s] 66%|██████▌   | 245837/371472 [8:31:21<9:50:16,  3.55it/s] 66%|██████▌   | 245838/371472 [8:31:21<9:33:09,  3.65it/s] 66%|██████▌   | 245839/371472 [8:31:21<9:44:59,  3.58it/s] 66%|██████▌   | 245840/371472 [8:31:21<9:35:44,  3.64it/s]                                                           {'loss': 2.7332, 'learning_rate': 4.045443771682217e-07, 'epoch': 10.59}
 66%|██████▌   | 245840/371472 [8:31:21<9:35:44,  3.64it/s] 66%|██████▌   | 245841/371472 [8:31:22<9:19:12,  3.74it/s] 66%|██████▌   | 245842/371472 [8:31:22<9:37:57,  3.62it/s] 66%|██████▌   | 245843/371472 [8:31:22<9:23:26,  3.72it/s] 66%|██████▌   | 245844/371472 [8:31:22<9:05:53,  3.84it/s] 66%|██████▌   | 245845/371472 [8:31:23<9:16:58,  3.76it/s] 66%|██████▌   | 245846/371472 [8:31:23<9:39:49,  3.61it/s] 66%|██████▌   | 245847/371472 [8:31:23<9:34:07,  3.65it/s] 66%|██████▌   | 245848/371472 [8:31:23<9:15:50,  3.77it/s] 66%|██████▌   | 245849/371472 [8:31:24<9:39:16,  3.61it/s] 66%|██████▌   | 245850/371472 [8:31:24<9:16:00,  3.77it/s] 66%|██████▌   | 245851/371472 [8:31:24<9:45:25,  3.58it/s] 66%|██████▌   | 245852/371472 [8:31:25<9:18:56,  3.75it/s] 66%|██████▌   | 245853/371472 [8:31:25<9:30:34,  3.67it/s] 66%|██████▌   | 245854/371472 [8:31:25<9:34:16,  3.65it/s] 66%|██████▌   | 245855/371472 [8:31:25<9:57:03,  3.51it/s] 66%|██████▌   | 245856/371472 [8:31:26<9:41:04,  3.60it/s] 66%|██████▌   | 245857/371472 [8:31:26<9:26:22,  3.70it/s] 66%|██████▌   | 245858/371472 [8:31:26<9:47:56,  3.56it/s] 66%|██████▌   | 245859/371472 [8:31:27<9:41:54,  3.60it/s] 66%|██████▌   | 245860/371472 [8:31:27<10:34:12,  3.30it/s]                                                            {'loss': 2.7768, 'learning_rate': 4.044958951927427e-07, 'epoch': 10.59}
 66%|██████▌   | 245860/371472 [8:31:27<10:34:12,  3.30it/s] 66%|██████▌   | 245861/371472 [8:31:27<10:00:29,  3.49it/s] 66%|██████▌   | 245862/371472 [8:31:27<10:25:40,  3.35it/s] 66%|██████▌   | 245863/371472 [8:31:28<9:59:01,  3.49it/s]  66%|██████▌   | 245864/371472 [8:31:28<9:28:30,  3.68it/s] 66%|██████▌   | 245865/371472 [8:31:28<9:37:52,  3.62it/s] 66%|██████▌   | 245866/371472 [8:31:29<10:01:46,  3.48it/s] 66%|██████▌   | 245867/371472 [8:31:29<9:52:38,  3.53it/s]  66%|██████▌   | 245868/371472 [8:31:29<9:41:35,  3.60it/s] 66%|██████▌   | 245869/371472 [8:31:29<9:14:09,  3.78it/s] 66%|██████▌   | 245870/371472 [8:31:30<9:36:13,  3.63it/s] 66%|██████▌   | 245871/371472 [8:31:30<9:57:53,  3.50it/s] 66%|██████▌   | 245872/371472 [8:31:30<10:29:06,  3.33it/s] 66%|██████▌   | 245873/371472 [8:31:31<10:20:02,  3.38it/s] 66%|██████▌   | 245874/371472 [8:31:31<10:39:59,  3.27it/s] 66%|██████▌   | 245875/371472 [8:31:31<10:03:36,  3.47it/s] 66%|██████▌   | 245876/371472 [8:31:31<10:07:49,  3.44it/s] 66%|██████▌   | 245877/371472 [8:31:32<9:40:56,  3.60it/s]  66%|██████▌   | 245878/371472 [8:31:32<9:28:01,  3.69it/s] 66%|██████▌   | 245879/371472 [8:31:32<9:19:36,  3.74it/s] 66%|██████▌   | 245880/371472 [8:31:32<9:11:54,  3.79it/s]                                                           {'loss': 2.7807, 'learning_rate': 4.044474132172639e-07, 'epoch': 10.59}
 66%|██████▌   | 245880/371472 [8:31:32<9:11:54,  3.79it/s] 66%|██████▌   | 245881/371472 [8:31:33<9:46:13,  3.57it/s] 66%|██████▌   | 245882/371472 [8:31:33<10:31:57,  3.31it/s] 66%|██████▌   | 245883/371472 [8:31:33<10:05:13,  3.46it/s] 66%|██████▌   | 245884/371472 [8:31:34<10:03:46,  3.47it/s] 66%|██████▌   | 245885/371472 [8:31:34<10:16:15,  3.40it/s] 66%|██████▌   | 245886/371472 [8:31:34<10:26:36,  3.34it/s] 66%|██████▌   | 245887/371472 [8:31:35<10:19:35,  3.38it/s] 66%|██████▌   | 245888/371472 [8:31:35<9:56:53,  3.51it/s]  66%|██████▌   | 245889/371472 [8:31:35<9:34:57,  3.64it/s] 66%|██████▌   | 245890/371472 [8:31:35<10:05:16,  3.46it/s] 66%|██████▌   | 245891/371472 [8:31:36<9:56:13,  3.51it/s]  66%|██████▌   | 245892/371472 [8:31:36<9:42:22,  3.59it/s] 66%|██████▌   | 245893/371472 [8:31:36<9:33:29,  3.65it/s] 66%|██████▌   | 245894/371472 [8:31:36<9:22:51,  3.72it/s] 66%|██████▌   | 245895/371472 [8:31:37<10:10:24,  3.43it/s] 66%|██████▌   | 245896/371472 [8:31:37<9:36:55,  3.63it/s]  66%|██████▌   | 245897/371472 [8:31:37<10:35:08,  3.30it/s] 66%|██████▌   | 245898/371472 [8:31:38<9:56:01,  3.51it/s]  66%|██████▌   | 245899/371472 [8:31:38<9:33:03,  3.65it/s] 66%|██████▌   | 245900/371472 [8:31:38<9:26:17,  3.70it/s]                                                           {'loss': 2.9478, 'learning_rate': 4.0439893124178495e-07, 'epoch': 10.59}
 66%|██████▌   | 245900/371472 [8:31:38<9:26:17,  3.70it/s] 66%|██████▌   | 245901/371472 [8:31:38<9:09:53,  3.81it/s] 66%|██████▌   | 245902/371472 [8:31:39<9:27:55,  3.69it/s] 66%|██████▌   | 245903/371472 [8:31:39<9:39:32,  3.61it/s] 66%|██████▌   | 245904/371472 [8:31:39<10:01:00,  3.48it/s] 66%|██████▌   | 245905/371472 [8:31:40<10:02:09,  3.48it/s] 66%|██████▌   | 245906/371472 [8:31:40<10:10:16,  3.43it/s] 66%|██████▌   | 245907/371472 [8:31:40<10:18:03,  3.39it/s] 66%|██████▌   | 245908/371472 [8:31:40<9:35:33,  3.64it/s]  66%|██████▌   | 245909/371472 [8:31:41<10:13:20,  3.41it/s] 66%|██████▌   | 245910/371472 [8:31:41<10:11:29,  3.42it/s] 66%|██████▌   | 245911/371472 [8:31:41<10:09:29,  3.43it/s] 66%|██████▌   | 245912/371472 [8:31:42<9:51:00,  3.54it/s]  66%|██████▌   | 245913/371472 [8:31:42<10:05:30,  3.46it/s] 66%|██████▌   | 245914/371472 [8:31:42<9:45:29,  3.57it/s]  66%|██████▌   | 245915/371472 [8:31:42<9:19:09,  3.74it/s] 66%|██████▌   | 245916/371472 [8:31:43<9:16:20,  3.76it/s] 66%|██████▌   | 245917/371472 [8:31:43<9:11:25,  3.79it/s] 66%|██████▌   | 245918/371472 [8:31:43<9:39:43,  3.61it/s] 66%|██████▌   | 245919/371472 [8:31:44<9:32:18,  3.66it/s] 66%|██████▌   | 245920/371472 [8:31:44<9:11:22,  3.80it/s]                                                           {'loss': 2.7797, 'learning_rate': 4.043504492663061e-07, 'epoch': 10.59}
 66%|██████▌   | 245920/371472 [8:31:44<9:11:22,  3.80it/s] 66%|██████▌   | 245921/371472 [8:31:44<9:15:18,  3.77it/s] 66%|██████▌   | 245922/371472 [8:31:44<9:18:11,  3.75it/s] 66%|██████▌   | 245923/371472 [8:31:45<9:05:25,  3.84it/s] 66%|██████▌   | 245924/371472 [8:31:45<9:18:17,  3.75it/s] 66%|██████▌   | 245925/371472 [8:31:45<9:35:38,  3.64it/s] 66%|██████▌   | 245926/371472 [8:31:45<10:22:58,  3.36it/s] 66%|██████▌   | 245927/371472 [8:31:46<10:07:37,  3.44it/s] 66%|██████▌   | 245928/371472 [8:31:46<9:35:51,  3.63it/s]  66%|██████▌   | 245929/371472 [8:31:46<9:27:51,  3.68it/s] 66%|██████▌   | 245930/371472 [8:31:47<9:51:48,  3.54it/s] 66%|██████▌   | 245931/371472 [8:31:47<10:21:11,  3.37it/s] 66%|██████▌   | 245932/371472 [8:31:47<9:55:52,  3.51it/s]  66%|██████▌   | 245933/371472 [8:31:47<9:43:09,  3.59it/s] 66%|██████▌   | 245934/371472 [8:31:48<9:26:37,  3.69it/s] 66%|██████▌   | 245935/371472 [8:31:48<9:12:08,  3.79it/s] 66%|██████▌   | 245936/371472 [8:31:48<9:12:15,  3.79it/s] 66%|██████▌   | 245937/371472 [8:31:48<8:57:35,  3.89it/s] 66%|██████▌   | 245938/371472 [8:31:49<8:45:31,  3.98it/s] 66%|██████▌   | 245939/371472 [8:31:49<9:01:06,  3.87it/s] 66%|██████▌   | 245940/371472 [8:31:49<9:05:00,  3.84it/s]                                                           {'loss': 3.016, 'learning_rate': 4.0430196729082715e-07, 'epoch': 10.59}
 66%|██████▌   | 245940/371472 [8:31:49<9:05:00,  3.84it/s] 66%|██████▌   | 245941/371472 [8:31:49<9:14:13,  3.77it/s] 66%|██████▌   | 245942/371472 [8:31:50<9:24:35,  3.71it/s] 66%|██████▌   | 245943/371472 [8:31:50<9:16:02,  3.76it/s] 66%|██████▌   | 245944/371472 [8:31:50<9:15:39,  3.77it/s] 66%|██████▌   | 245945/371472 [8:31:51<9:10:26,  3.80it/s] 66%|██████▌   | 245946/371472 [8:31:51<9:06:41,  3.83it/s] 66%|██████▌   | 245947/371472 [8:31:51<9:39:02,  3.61it/s] 66%|██████▌   | 245948/371472 [8:31:51<9:22:51,  3.72it/s] 66%|██████▌   | 245949/371472 [8:31:52<9:20:39,  3.73it/s] 66%|██████▌   | 245950/371472 [8:31:52<9:22:52,  3.72it/s] 66%|██████▌   | 245951/371472 [8:31:52<9:22:42,  3.72it/s] 66%|██████▌   | 245952/371472 [8:31:52<9:39:12,  3.61it/s] 66%|██████▌   | 245953/371472 [8:31:53<9:31:32,  3.66it/s] 66%|██████▌   | 245954/371472 [8:31:53<9:35:38,  3.63it/s] 66%|██████▌   | 245955/371472 [8:31:53<9:51:21,  3.54it/s] 66%|██████▌   | 245956/371472 [8:31:54<9:51:07,  3.54it/s] 66%|██████▌   | 245957/371472 [8:31:54<9:23:20,  3.71it/s] 66%|██████▌   | 245958/371472 [8:31:54<9:21:25,  3.73it/s] 66%|██████▌   | 245959/371472 [8:31:54<9:17:42,  3.75it/s] 66%|██████▌   | 245960/371472 [8:31:55<9:58:40,  3.49it/s]                                                           {'loss': 2.8166, 'learning_rate': 4.0425348531534833e-07, 'epoch': 10.59}
 66%|██████▌   | 245960/371472 [8:31:55<9:58:40,  3.49it/s] 66%|██████▌   | 245961/371472 [8:31:55<9:30:55,  3.66it/s] 66%|██████▌   | 245962/371472 [8:31:55<10:31:13,  3.31it/s] 66%|██████▌   | 245963/371472 [8:31:56<10:06:12,  3.45it/s] 66%|██████▌   | 245964/371472 [8:31:56<10:28:16,  3.33it/s] 66%|██████▌   | 245965/371472 [8:31:56<10:18:12,  3.38it/s] 66%|██████▌   | 245966/371472 [8:31:56<10:43:54,  3.25it/s] 66%|██████▌   | 245967/371472 [8:31:57<10:43:09,  3.25it/s] 66%|██████▌   | 245968/371472 [8:31:57<10:30:42,  3.32it/s] 66%|██████▌   | 245969/371472 [8:31:57<9:58:10,  3.50it/s]  66%|██████▌   | 245970/371472 [8:31:58<9:40:13,  3.61it/s] 66%|██████▌   | 245971/371472 [8:31:58<9:27:41,  3.68it/s] 66%|██████▌   | 245972/371472 [8:31:58<9:18:50,  3.74it/s] 66%|██████▌   | 245973/371472 [8:31:58<9:38:29,  3.62it/s] 66%|██████▌   | 245974/371472 [8:31:59<10:02:35,  3.47it/s] 66%|██████▌   | 245975/371472 [8:31:59<9:36:02,  3.63it/s]  66%|██████▌   | 245976/371472 [8:31:59<9:35:24,  3.63it/s] 66%|██████▌   | 245977/371472 [8:32:00<9:56:35,  3.51it/s] 66%|██████▌   | 245978/371472 [8:32:00<9:57:33,  3.50it/s] 66%|██████▌   | 245979/371472 [8:32:00<9:39:07,  3.61it/s] 66%|██████▌   | 245980/371472 [8:32:00<10:07:46,  3.44it/s]                                                            {'loss': 2.8358, 'learning_rate': 4.0420500333986935e-07, 'epoch': 10.59}
 66%|██████▌   | 245980/371472 [8:32:00<10:07:46,  3.44it/s] 66%|██████▌   | 245981/371472 [8:32:01<9:58:15,  3.50it/s]  66%|██████▌   | 245982/371472 [8:32:01<9:32:17,  3.65it/s] 66%|██████▌   | 245983/371472 [8:32:01<10:05:49,  3.45it/s] 66%|██████▌   | 245984/371472 [8:32:02<10:34:45,  3.29it/s] 66%|██████▌   | 245985/371472 [8:32:02<10:37:00,  3.28it/s] 66%|██████▌   | 245986/371472 [8:32:02<10:53:46,  3.20it/s] 66%|██████▌   | 245987/371472 [8:32:03<10:43:28,  3.25it/s] 66%|██████▌   | 245988/371472 [8:32:03<10:26:42,  3.34it/s] 66%|██████▌   | 245989/371472 [8:32:03<9:55:49,  3.51it/s]  66%|██████▌   | 245990/371472 [8:32:03<10:10:43,  3.42it/s] 66%|██████▌   | 245991/371472 [8:32:04<10:15:07,  3.40it/s] 66%|██████▌   | 245992/371472 [8:32:04<9:45:48,  3.57it/s]  66%|██████▌   | 245993/371472 [8:32:04<9:43:45,  3.58it/s] 66%|██████▌   | 245994/371472 [8:32:05<10:02:11,  3.47it/s] 66%|██████▌   | 245995/371472 [8:32:05<9:45:11,  3.57it/s]  66%|██████▌   | 245996/371472 [8:32:05<9:37:20,  3.62it/s] 66%|██████▌   | 245997/371472 [8:32:05<9:24:50,  3.70it/s] 66%|██████▌   | 245998/371472 [8:32:06<9:31:50,  3.66it/s] 66%|██████▌   | 245999/371472 [8:32:06<9:29:45,  3.67it/s] 66%|██████▌   | 246000/371472 [8:32:06<9:45:25,  3.57it/s]                                                           {'loss': 2.8103, 'learning_rate': 4.041565213643905e-07, 'epoch': 10.6}
 66%|██████▌   | 246000/371472 [8:32:06<9:45:25,  3.57it/s] 66%|██████▌   | 246001/371472 [8:32:06<9:21:23,  3.73it/s] 66%|██████▌   | 246002/371472 [8:32:07<10:35:32,  3.29it/s] 66%|██████▌   | 246003/371472 [8:32:07<10:21:39,  3.36it/s] 66%|██████▌   | 246004/371472 [8:32:07<9:58:58,  3.49it/s]  66%|██████▌   | 246005/371472 [8:32:08<10:50:13,  3.22it/s] 66%|██████▌   | 246006/371472 [8:32:08<10:40:48,  3.26it/s] 66%|██████▌   | 246007/371472 [8:32:08<10:33:56,  3.30it/s] 66%|██████▌   | 246008/371472 [8:32:09<10:55:42,  3.19it/s] 66%|██████▌   | 246009/371472 [8:32:09<10:36:00,  3.29it/s] 66%|██████▌   | 246010/371472 [8:32:09<10:04:32,  3.46it/s] 66%|██████▌   | 246011/371472 [8:32:09<10:39:24,  3.27it/s] 66%|██████▌   | 246012/371472 [8:32:10<10:31:48,  3.31it/s] 66%|██████▌   | 246013/371472 [8:32:10<10:01:48,  3.47it/s] 66%|██████▌   | 246014/371472 [8:32:10<10:32:54,  3.30it/s] 66%|██████▌   | 246015/371472 [8:32:11<10:30:44,  3.32it/s] 66%|██████▌   | 246016/371472 [8:32:11<9:59:29,  3.49it/s]  66%|██████▌   | 246017/371472 [8:32:11<9:32:03,  3.66it/s] 66%|██████▌   | 246018/371472 [8:32:11<9:12:47,  3.78it/s] 66%|██████▌   | 246019/371472 [8:32:12<10:49:56,  3.22it/s] 66%|██████▌   | 246020/371472 [8:32:12<10:23:12,  3.36it/s]                                                            {'loss': 2.815, 'learning_rate': 4.041080393889116e-07, 'epoch': 10.6}
 66%|██████▌   | 246020/371472 [8:32:12<10:23:12,  3.36it/s] 66%|██████▌   | 246021/371472 [8:32:12<9:57:28,  3.50it/s]  66%|██████▌   | 246022/371472 [8:32:13<9:40:47,  3.60it/s] 66%|██████▌   | 246023/371472 [8:32:13<9:42:07,  3.59it/s] 66%|██████▌   | 246024/371472 [8:32:13<9:48:56,  3.55it/s] 66%|██████▌   | 246025/371472 [8:32:13<9:46:31,  3.56it/s] 66%|██████▌   | 246026/371472 [8:32:14<9:46:57,  3.56it/s] 66%|██████▌   | 246027/371472 [8:32:14<9:56:48,  3.50it/s] 66%|██████▌   | 246028/371472 [8:32:14<10:13:20,  3.41it/s] 66%|██████▌   | 246029/371472 [8:32:15<10:12:13,  3.41it/s] 66%|██████▌   | 246030/371472 [8:32:15<9:59:07,  3.49it/s]  66%|██████▌   | 246031/371472 [8:32:15<10:30:51,  3.31it/s] 66%|██████▌   | 246032/371472 [8:32:16<10:30:20,  3.32it/s] 66%|██████▌   | 246033/371472 [8:32:16<9:51:55,  3.53it/s]  66%|██████▌   | 246034/371472 [8:32:16<9:32:18,  3.65it/s] 66%|██████▌   | 246035/371472 [8:32:16<9:37:02,  3.62it/s] 66%|██████▌   | 246036/371472 [8:32:17<9:39:42,  3.61it/s] 66%|██████▌   | 246037/371472 [8:32:17<9:28:19,  3.68it/s] 66%|██████▌   | 246038/371472 [8:32:17<10:02:47,  3.47it/s] 66%|██████▌   | 246039/371472 [8:32:18<10:17:41,  3.38it/s] 66%|██████▌   | 246040/371472 [8:32:18<10:07:48,  3.44it/s]                                                            {'loss': 2.8294, 'learning_rate': 4.040595574134327e-07, 'epoch': 10.6}
 66%|██████▌   | 246040/371472 [8:32:18<10:07:48,  3.44it/s] 66%|██████▌   | 246041/371472 [8:32:18<10:00:13,  3.48it/s] 66%|██████▌   | 246042/371472 [8:32:18<9:22:34,  3.72it/s]  66%|██████▌   | 246043/371472 [8:32:19<9:23:37,  3.71it/s] 66%|██████▌   | 246044/371472 [8:32:19<9:28:13,  3.68it/s] 66%|██████▌   | 246045/371472 [8:32:19<9:38:27,  3.61it/s] 66%|██████▌   | 246046/371472 [8:32:19<9:27:58,  3.68it/s] 66%|██████▌   | 246047/371472 [8:32:20<9:24:24,  3.70it/s] 66%|██████▌   | 246048/371472 [8:32:20<10:08:31,  3.44it/s] 66%|██████▌   | 246049/371472 [8:32:20<10:00:11,  3.48it/s] 66%|██████▌   | 246050/371472 [8:32:21<9:41:09,  3.60it/s]  66%|██████▌   | 246051/371472 [8:32:21<9:48:37,  3.55it/s] 66%|██████▌   | 246052/371472 [8:32:21<9:33:16,  3.65it/s] 66%|██████▌   | 246053/371472 [8:32:21<9:25:12,  3.70it/s] 66%|██████▌   | 246054/371472 [8:32:22<9:02:44,  3.85it/s] 66%|██████▌   | 246055/371472 [8:32:22<9:09:12,  3.81it/s] 66%|██████▌   | 246056/371472 [8:32:22<9:21:48,  3.72it/s] 66%|██████▌   | 246057/371472 [8:32:22<9:11:47,  3.79it/s] 66%|██████▌   | 246058/371472 [8:32:23<8:57:33,  3.89it/s] 66%|██████▌   | 246059/371472 [8:32:23<9:24:36,  3.70it/s] 66%|██████▌   | 246060/371472 [8:32:23<9:17:52,  3.75it/s]                                                           {'loss': 2.7577, 'learning_rate': 4.0401107543795374e-07, 'epoch': 10.6}
 66%|██████▌   | 246060/371472 [8:32:23<9:17:52,  3.75it/s] 66%|██████▌   | 246061/371472 [8:32:23<9:17:06,  3.75it/s] 66%|██████▌   | 246062/371472 [8:32:24<10:01:51,  3.47it/s] 66%|██████▌   | 246063/371472 [8:32:24<9:43:39,  3.58it/s]  66%|██████▌   | 246064/371472 [8:32:24<9:34:53,  3.64it/s] 66%|██████▌   | 246065/371472 [8:32:25<9:30:22,  3.66it/s] 66%|██████▌   | 246066/371472 [8:32:25<9:57:21,  3.50it/s] 66%|██████▌   | 246067/371472 [8:32:25<9:38:40,  3.61it/s] 66%|██████▌   | 246068/371472 [8:32:25<9:07:31,  3.82it/s] 66%|██████▌   | 246069/371472 [8:32:26<9:03:40,  3.84it/s] 66%|██████▌   | 246070/371472 [8:32:26<9:38:09,  3.62it/s] 66%|██████▌   | 246071/371472 [8:32:26<9:58:58,  3.49it/s] 66%|██████▌   | 246072/371472 [8:32:27<10:28:38,  3.32it/s] 66%|██████▌   | 246073/371472 [8:32:27<10:37:10,  3.28it/s] 66%|██████▌   | 246074/371472 [8:32:27<10:58:18,  3.17it/s] 66%|██████▌   | 246075/371472 [8:32:27<10:22:21,  3.36it/s] 66%|██████▌   | 246076/371472 [8:32:28<10:18:22,  3.38it/s] 66%|██████▌   | 246077/371472 [8:32:28<9:44:55,  3.57it/s]  66%|██████▌   | 246078/371472 [8:32:28<9:38:02,  3.62it/s] 66%|██████▌   | 246079/371472 [8:32:29<9:34:31,  3.64it/s] 66%|██████▌   | 246080/371472 [8:32:29<9:40:44,  3.60it/s]                                                           {'loss': 2.9574, 'learning_rate': 4.0396259346247497e-07, 'epoch': 10.6}
 66%|██████▌   | 246080/371472 [8:32:29<9:40:44,  3.60it/s] 66%|██████▌   | 246081/371472 [8:32:29<9:54:57,  3.51it/s] 66%|██████▌   | 246082/371472 [8:32:29<9:31:30,  3.66it/s] 66%|██████▌   | 246083/371472 [8:32:30<9:11:42,  3.79it/s] 66%|██████▌   | 246084/371472 [8:32:30<9:10:16,  3.80it/s] 66%|██████▌   | 246085/371472 [8:32:30<9:02:11,  3.85it/s] 66%|██████▌   | 246086/371472 [8:32:30<9:29:24,  3.67it/s] 66%|██████▌   | 246087/371472 [8:32:31<9:57:08,  3.50it/s] 66%|██████▌   | 246088/371472 [8:32:31<9:37:53,  3.62it/s] 66%|██████▌   | 246089/371472 [8:32:31<10:01:24,  3.47it/s] 66%|██████▌   | 246090/371472 [8:32:32<9:53:28,  3.52it/s]  66%|██████▌   | 246091/371472 [8:32:32<11:01:49,  3.16it/s] 66%|██████▌   | 246092/371472 [8:32:32<10:07:13,  3.44it/s] 66%|██████▌   | 246093/371472 [8:32:33<9:49:28,  3.54it/s]  66%|██████▌   | 246094/371472 [8:32:33<9:27:55,  3.68it/s] 66%|██████▌   | 246095/371472 [8:32:33<9:46:57,  3.56it/s] 66%|██████▌   | 246096/371472 [8:32:33<10:01:39,  3.47it/s] 66%|██████▌   | 246097/371472 [8:32:34<10:04:49,  3.45it/s] 66%|██████▌   | 246098/371472 [8:32:34<9:52:10,  3.53it/s]  66%|██████▌   | 246099/371472 [8:32:34<10:05:28,  3.45it/s] 66%|██████▌   | 246100/371472 [8:32:35<10:01:52,  3.47it/s]                                                            {'loss': 2.9365, 'learning_rate': 4.03914111486996e-07, 'epoch': 10.6}
 66%|██████▌   | 246100/371472 [8:32:35<10:01:52,  3.47it/s] 66%|██████▋   | 246101/371472 [8:32:35<9:59:43,  3.48it/s]  66%|██████▋   | 246102/371472 [8:32:35<9:30:25,  3.66it/s] 66%|██████▋   | 246103/371472 [8:32:35<9:37:39,  3.62it/s] 66%|██████▋   | 246104/371472 [8:32:36<9:57:55,  3.49it/s] 66%|██████▋   | 246105/371472 [8:32:36<9:46:07,  3.56it/s] 66%|██████▋   | 246106/371472 [8:32:36<9:55:02,  3.51it/s] 66%|██████▋   | 246107/371472 [8:32:36<9:39:48,  3.60it/s] 66%|██████▋   | 246108/371472 [8:32:37<10:18:48,  3.38it/s] 66%|██████▋   | 246109/371472 [8:32:37<11:02:09,  3.16it/s] 66%|██████▋   | 246110/371472 [8:32:37<10:41:25,  3.26it/s] 66%|██████▋   | 246111/371472 [8:32:38<11:27:55,  3.04it/s] 66%|██████▋   | 246112/371472 [8:32:38<10:54:48,  3.19it/s] 66%|██████▋   | 246113/371472 [8:32:38<10:17:58,  3.38it/s] 66%|██████▋   | 246114/371472 [8:32:39<10:30:23,  3.31it/s] 66%|██████▋   | 246115/371472 [8:32:39<10:06:06,  3.45it/s] 66%|██████▋   | 246116/371472 [8:32:39<9:46:41,  3.56it/s]  66%|██████▋   | 246117/371472 [8:32:40<10:11:13,  3.42it/s] 66%|██████▋   | 246118/371472 [8:32:40<10:00:20,  3.48it/s] 66%|██████▋   | 246119/371472 [8:32:40<10:17:56,  3.38it/s] 66%|██████▋   | 246120/371472 [8:32:40<10:05:46,  3.45it/s]                                                            {'loss': 2.6916, 'learning_rate': 4.0386562951151716e-07, 'epoch': 10.6}
 66%|██████▋   | 246120/371472 [8:32:40<10:05:46,  3.45it/s] 66%|██████▋   | 246121/371472 [8:32:41<10:00:45,  3.48it/s] 66%|██████▋   | 246122/371472 [8:32:41<9:36:54,  3.62it/s]  66%|██████▋   | 246123/371472 [8:32:41<9:21:42,  3.72it/s] 66%|██████▋   | 246124/371472 [8:32:41<9:13:41,  3.77it/s] 66%|██████▋   | 246125/371472 [8:32:42<9:36:13,  3.63it/s] 66%|██████▋   | 246126/371472 [8:32:42<9:55:28,  3.51it/s] 66%|██████▋   | 246127/371472 [8:32:42<9:57:07,  3.50it/s] 66%|██████▋   | 246128/371472 [8:32:43<9:28:35,  3.67it/s] 66%|██████▋   | 246129/371472 [8:32:43<9:16:51,  3.75it/s] 66%|██████▋   | 246130/371472 [8:32:43<9:18:57,  3.74it/s] 66%|██████▋   | 246131/371472 [8:32:43<9:29:06,  3.67it/s] 66%|██████▋   | 246132/371472 [8:32:44<9:04:27,  3.84it/s] 66%|██████▋   | 246133/371472 [8:32:44<9:09:59,  3.80it/s] 66%|██████▋   | 246134/371472 [8:32:44<8:49:09,  3.95it/s] 66%|██████▋   | 246135/371472 [8:32:44<8:58:53,  3.88it/s] 66%|██████▋   | 246136/371472 [8:32:45<8:59:36,  3.87it/s] 66%|██████▋   | 246137/371472 [8:32:45<9:07:38,  3.81it/s] 66%|██████▋   | 246138/371472 [8:32:45<9:42:59,  3.58it/s] 66%|██████▋   | 246139/371472 [8:32:45<9:29:09,  3.67it/s] 66%|██████▋   | 246140/371472 [8:32:46<9:24:11,  3.70it/s]                                                           {'loss': 3.0611, 'learning_rate': 4.0381714753603824e-07, 'epoch': 10.6}
 66%|██████▋   | 246140/371472 [8:32:46<9:24:11,  3.70it/s] 66%|██████▋   | 246141/371472 [8:32:46<9:12:43,  3.78it/s] 66%|██████▋   | 246142/371472 [8:32:46<9:00:37,  3.86it/s] 66%|██████▋   | 246143/371472 [8:32:47<9:26:31,  3.69it/s] 66%|██████▋   | 246144/371472 [8:32:47<9:55:04,  3.51it/s] 66%|██████▋   | 246145/371472 [8:32:47<9:48:18,  3.55it/s] 66%|██████▋   | 246146/371472 [8:32:47<10:04:01,  3.46it/s] 66%|██████▋   | 246147/371472 [8:32:48<10:39:16,  3.27it/s] 66%|██████▋   | 246148/371472 [8:32:48<10:00:10,  3.48it/s] 66%|██████▋   | 246149/371472 [8:32:48<9:56:09,  3.50it/s]  66%|██████▋   | 246150/371472 [8:32:49<9:44:25,  3.57it/s] 66%|██████▋   | 246151/371472 [8:32:49<9:35:59,  3.63it/s] 66%|██████▋   | 246152/371472 [8:32:49<9:37:04,  3.62it/s] 66%|██████▋   | 246153/371472 [8:32:49<9:28:55,  3.67it/s] 66%|██████▋   | 246154/371472 [8:32:50<9:12:27,  3.78it/s] 66%|██████▋   | 246155/371472 [8:32:50<8:57:44,  3.88it/s] 66%|██████▋   | 246156/371472 [8:32:50<9:45:33,  3.57it/s] 66%|██████▋   | 246157/371472 [8:32:50<9:38:04,  3.61it/s] 66%|██████▋   | 246158/371472 [8:32:51<9:39:07,  3.61it/s] 66%|██████▋   | 246159/371472 [8:32:51<10:15:58,  3.39it/s] 66%|██████▋   | 246160/371472 [8:32:51<10:21:20,  3.36it/s]                                                            {'loss': 2.7856, 'learning_rate': 4.0376866556055936e-07, 'epoch': 10.6}
 66%|██████▋   | 246160/371472 [8:32:51<10:21:20,  3.36it/s] 66%|██████▋   | 246161/371472 [8:32:52<9:57:02,  3.50it/s]  66%|██████▋   | 246162/371472 [8:32:52<9:35:34,  3.63it/s] 66%|██████▋   | 246163/371472 [8:32:52<9:50:31,  3.54it/s] 66%|██████▋   | 246164/371472 [8:32:52<9:23:10,  3.71it/s] 66%|██████▋   | 246165/371472 [8:32:53<9:21:35,  3.72it/s] 66%|██████▋   | 246166/371472 [8:32:53<9:13:26,  3.77it/s] 66%|██████▋   | 246167/371472 [8:32:53<9:07:33,  3.81it/s] 66%|██████▋   | 246168/371472 [8:32:54<9:53:19,  3.52it/s] 66%|██████▋   | 246169/371472 [8:32:54<9:57:24,  3.50it/s] 66%|██████▋   | 246170/371472 [8:32:54<9:20:34,  3.73it/s] 66%|██████▋   | 246171/371472 [8:32:54<9:19:02,  3.74it/s] 66%|██████▋   | 246172/371472 [8:32:55<9:29:48,  3.66it/s] 66%|██████▋   | 246173/371472 [8:32:55<9:23:32,  3.71it/s] 66%|██████▋   | 246174/371472 [8:32:55<9:40:29,  3.60it/s] 66%|██████▋   | 246175/371472 [8:32:55<9:20:34,  3.73it/s] 66%|██████▋   | 246176/371472 [8:32:56<9:51:31,  3.53it/s] 66%|██████▋   | 246177/371472 [8:32:56<10:00:42,  3.48it/s] 66%|██████▋   | 246178/371472 [8:32:56<9:38:26,  3.61it/s]  66%|██████▋   | 246179/371472 [8:32:57<9:08:17,  3.81it/s] 66%|██████▋   | 246180/371472 [8:32:57<9:40:00,  3.60it/s]                                                           {'loss': 2.847, 'learning_rate': 4.0372018358508043e-07, 'epoch': 10.6}
 66%|██████▋   | 246180/371472 [8:32:57<9:40:00,  3.60it/s] 66%|██████▋   | 246181/371472 [8:32:57<9:59:54,  3.48it/s] 66%|██████▋   | 246182/371472 [8:32:57<10:20:52,  3.36it/s] 66%|██████▋   | 246183/371472 [8:32:58<9:58:14,  3.49it/s]  66%|██████▋   | 246184/371472 [8:32:58<9:39:11,  3.61it/s] 66%|██████▋   | 246185/371472 [8:32:58<9:24:38,  3.70it/s] 66%|██████▋   | 246186/371472 [8:32:59<9:31:06,  3.66it/s] 66%|██████▋   | 246187/371472 [8:32:59<9:53:17,  3.52it/s] 66%|██████▋   | 246188/371472 [8:32:59<9:18:38,  3.74it/s] 66%|██████▋   | 246189/371472 [8:32:59<9:36:32,  3.62it/s] 66%|██████▋   | 246190/371472 [8:33:00<9:10:26,  3.79it/s] 66%|██████▋   | 246191/371472 [8:33:00<9:19:21,  3.73it/s] 66%|██████▋   | 246192/371472 [8:33:00<10:25:26,  3.34it/s] 66%|██████▋   | 246193/371472 [8:33:01<10:11:11,  3.42it/s] 66%|██████▋   | 246194/371472 [8:33:01<10:31:59,  3.30it/s] 66%|██████▋   | 246195/371472 [8:33:01<9:56:27,  3.50it/s]  66%|██████▋   | 246196/371472 [8:33:01<9:43:17,  3.58it/s] 66%|██████▋   | 246197/371472 [8:33:02<9:45:00,  3.57it/s] 66%|██████▋   | 246198/371472 [8:33:02<9:36:59,  3.62it/s] 66%|██████▋   | 246199/371472 [8:33:02<9:24:26,  3.70it/s] 66%|██████▋   | 246200/371472 [8:33:02<9:09:54,  3.80it/s]                                                           {'loss': 2.8786, 'learning_rate': 4.036717016096016e-07, 'epoch': 10.6}
 66%|██████▋   | 246200/371472 [8:33:02<9:09:54,  3.80it/s] 66%|██████▋   | 246201/371472 [8:33:03<9:58:39,  3.49it/s] 66%|██████▋   | 246202/371472 [8:33:03<9:28:27,  3.67it/s] 66%|██████▋   | 246203/371472 [8:33:03<9:26:44,  3.68it/s] 66%|██████▋   | 246204/371472 [8:33:04<9:47:22,  3.55it/s] 66%|██████▋   | 246205/371472 [8:33:04<9:32:53,  3.64it/s] 66%|██████▋   | 246206/371472 [8:33:04<9:29:30,  3.67it/s] 66%|██████▋   | 246207/371472 [8:33:04<9:22:20,  3.71it/s] 66%|██████▋   | 246208/371472 [8:33:05<10:05:24,  3.45it/s] 66%|██████▋   | 246209/371472 [8:33:05<10:19:24,  3.37it/s] 66%|██████▋   | 246210/371472 [8:33:05<9:57:26,  3.49it/s]  66%|██████▋   | 246211/371472 [8:33:06<10:04:48,  3.45it/s] 66%|██████▋   | 246212/371472 [8:33:06<10:37:39,  3.27it/s] 66%|██████▋   | 246213/371472 [8:33:06<10:13:19,  3.40it/s] 66%|██████▋   | 246214/371472 [8:33:06<10:01:56,  3.47it/s] 66%|██████▋   | 246215/371472 [8:33:07<10:01:08,  3.47it/s] 66%|██████▋   | 246216/371472 [8:33:07<9:32:29,  3.65it/s]  66%|██████▋   | 246217/371472 [8:33:07<9:47:19,  3.55it/s] 66%|██████▋   | 246218/371472 [8:33:08<9:50:23,  3.54it/s] 66%|██████▋   | 246219/371472 [8:33:08<9:32:47,  3.64it/s] 66%|██████▋   | 246220/371472 [8:33:08<9:27:21,  3.68it/s]                                                           {'loss': 2.811, 'learning_rate': 4.036232196341227e-07, 'epoch': 10.61}
 66%|██████▋   | 246220/371472 [8:33:08<9:27:21,  3.68it/s] 66%|██████▋   | 246221/371472 [8:33:08<10:00:49,  3.47it/s] 66%|██████▋   | 246222/371472 [8:33:09<9:29:15,  3.67it/s]  66%|██████▋   | 246223/371472 [8:33:09<10:05:08,  3.45it/s] 66%|██████▋   | 246224/371472 [8:33:09<10:23:14,  3.35it/s] 66%|██████▋   | 246225/371472 [8:33:10<9:51:15,  3.53it/s]  66%|██████▋   | 246226/371472 [8:33:10<10:17:19,  3.38it/s] 66%|██████▋   | 246227/371472 [8:33:10<11:40:00,  2.98it/s] 66%|██████▋   | 246228/371472 [8:33:11<10:32:57,  3.30it/s] 66%|██████▋   | 246229/371472 [8:33:11<10:56:11,  3.18it/s] 66%|██████▋   | 246230/371472 [8:33:11<10:15:17,  3.39it/s] 66%|██████▋   | 246231/371472 [8:33:11<9:50:56,  3.53it/s]  66%|██████▋   | 246232/371472 [8:33:12<9:41:08,  3.59it/s] 66%|██████▋   | 246233/371472 [8:33:12<9:27:34,  3.68it/s] 66%|██████▋   | 246234/371472 [8:33:12<9:34:09,  3.64it/s] 66%|██████▋   | 246235/371472 [8:33:12<9:46:39,  3.56it/s] 66%|██████▋   | 246236/371472 [8:33:13<9:49:20,  3.54it/s] 66%|██████▋   | 246237/371472 [8:33:13<9:27:11,  3.68it/s] 66%|██████▋   | 246238/371472 [8:33:13<9:44:55,  3.57it/s] 66%|██████▋   | 246239/371472 [8:33:14<9:32:48,  3.64it/s] 66%|██████▋   | 246240/371472 [8:33:14<9:32:11,  3.65it/s]                                                           {'loss': 2.8544, 'learning_rate': 4.035747376586438e-07, 'epoch': 10.61}
 66%|██████▋   | 246240/371472 [8:33:14<9:32:11,  3.65it/s] 66%|██████▋   | 246241/371472 [8:33:14<9:27:28,  3.68it/s] 66%|██████▋   | 246242/371472 [8:33:14<9:12:54,  3.77it/s] 66%|██████▋   | 246243/371472 [8:33:15<9:44:06,  3.57it/s] 66%|██████▋   | 246244/371472 [8:33:15<10:03:09,  3.46it/s] 66%|██████▋   | 246245/371472 [8:33:15<10:01:16,  3.47it/s] 66%|██████▋   | 246246/371472 [8:33:15<9:31:59,  3.65it/s]  66%|██████▋   | 246247/371472 [8:33:16<10:00:29,  3.48it/s] 66%|██████▋   | 246248/371472 [8:33:16<9:40:38,  3.59it/s]  66%|██████▋   | 246249/371472 [8:33:16<9:26:23,  3.68it/s] 66%|██████▋   | 246250/371472 [8:33:17<9:30:56,  3.66it/s] 66%|██████▋   | 246251/371472 [8:33:17<9:18:33,  3.74it/s] 66%|██████▋   | 246252/371472 [8:33:17<9:15:56,  3.75it/s] 66%|██████▋   | 246253/371472 [8:33:17<8:53:52,  3.91it/s] 66%|██████▋   | 246254/371472 [8:33:18<8:50:48,  3.93it/s] 66%|██████▋   | 246255/371472 [8:33:18<9:34:52,  3.63it/s] 66%|██████▋   | 246256/371472 [8:33:18<9:36:41,  3.62it/s] 66%|██████▋   | 246257/371472 [8:33:18<9:41:44,  3.59it/s] 66%|██████▋   | 246258/371472 [8:33:19<9:39:05,  3.60it/s] 66%|██████▋   | 246259/371472 [8:33:19<9:29:30,  3.66it/s] 66%|██████▋   | 246260/371472 [8:33:19<9:40:48,  3.59it/s]                                                           {'loss': 3.0073, 'learning_rate': 4.035262556831649e-07, 'epoch': 10.61}
 66%|██████▋   | 246260/371472 [8:33:19<9:40:48,  3.59it/s] 66%|██████▋   | 246261/371472 [8:33:20<9:37:39,  3.61it/s] 66%|██████▋   | 246262/371472 [8:33:20<9:29:10,  3.67it/s] 66%|██████▋   | 246263/371472 [8:33:20<9:16:14,  3.75it/s] 66%|██████▋   | 246264/371472 [8:33:20<9:27:41,  3.68it/s] 66%|██████▋   | 246265/371472 [8:33:21<10:24:30,  3.34it/s] 66%|██████▋   | 246266/371472 [8:33:21<10:04:58,  3.45it/s] 66%|██████▋   | 246267/371472 [8:33:21<10:45:08,  3.23it/s] 66%|██████▋   | 246268/371472 [8:33:22<11:33:46,  3.01it/s] 66%|██████▋   | 246269/371472 [8:33:22<10:47:19,  3.22it/s] 66%|██████▋   | 246270/371472 [8:33:22<10:40:40,  3.26it/s] 66%|██████▋   | 246271/371472 [8:33:23<10:10:47,  3.42it/s] 66%|██████▋   | 246272/371472 [8:33:23<9:45:14,  3.57it/s]  66%|██████▋   | 246273/371472 [8:33:23<9:30:58,  3.65it/s] 66%|██████▋   | 246274/371472 [8:33:23<9:10:51,  3.79it/s] 66%|██████▋   | 246275/371472 [8:33:24<9:01:22,  3.85it/s] 66%|██████▋   | 246276/371472 [8:33:24<9:30:51,  3.66it/s] 66%|██████▋   | 246277/371472 [8:33:24<9:13:48,  3.77it/s] 66%|██████▋   | 246278/371472 [8:33:24<10:18:59,  3.37it/s] 66%|██████▋   | 246279/371472 [8:33:25<9:50:48,  3.53it/s]  66%|██████▋   | 246280/371472 [8:33:25<9:30:43,  3.66it/s]                                                           {'loss': 2.874, 'learning_rate': 4.0347777370768605e-07, 'epoch': 10.61}
 66%|██████▋   | 246280/371472 [8:33:25<9:30:43,  3.66it/s] 66%|██████▋   | 246281/371472 [8:33:25<9:28:26,  3.67it/s] 66%|██████▋   | 246282/371472 [8:33:26<9:24:49,  3.69it/s] 66%|██████▋   | 246283/371472 [8:33:26<9:08:50,  3.80it/s] 66%|██████▋   | 246284/371472 [8:33:26<9:03:25,  3.84it/s] 66%|██████▋   | 246285/371472 [8:33:26<9:02:23,  3.85it/s] 66%|██████▋   | 246286/371472 [8:33:27<9:24:24,  3.70it/s] 66%|██████▋   | 246287/371472 [8:33:27<9:30:12,  3.66it/s] 66%|██████▋   | 246288/371472 [8:33:27<9:37:02,  3.62it/s] 66%|██████▋   | 246289/371472 [8:33:27<9:21:00,  3.72it/s] 66%|██████▋   | 246290/371472 [8:33:28<9:38:20,  3.61it/s] 66%|██████▋   | 246291/371472 [8:33:28<9:12:49,  3.77it/s] 66%|██████▋   | 246292/371472 [8:33:28<9:14:14,  3.76it/s] 66%|██████▋   | 246293/371472 [8:33:29<10:08:32,  3.43it/s] 66%|██████▋   | 246294/371472 [8:33:29<10:11:21,  3.41it/s] 66%|██████▋   | 246295/371472 [8:33:29<9:38:15,  3.61it/s]  66%|██████▋   | 246296/371472 [8:33:29<9:38:17,  3.61it/s] 66%|██████▋   | 246297/371472 [8:33:30<9:31:11,  3.65it/s] 66%|██████▋   | 246298/371472 [8:33:30<9:28:34,  3.67it/s] 66%|██████▋   | 246299/371472 [8:33:30<9:19:19,  3.73it/s] 66%|██████▋   | 246300/371472 [8:33:30<9:53:24,  3.52it/s]                                                           {'loss': 3.0069, 'learning_rate': 4.0342929173220707e-07, 'epoch': 10.61}
 66%|██████▋   | 246300/371472 [8:33:30<9:53:24,  3.52it/s] 66%|██████▋   | 246301/371472 [8:33:31<9:47:00,  3.55it/s] 66%|██████▋   | 246302/371472 [8:33:31<9:20:48,  3.72it/s] 66%|██████▋   | 246303/371472 [8:33:31<9:35:15,  3.63it/s] 66%|██████▋   | 246304/371472 [8:33:32<9:19:18,  3.73it/s] 66%|██████▋   | 246305/371472 [8:33:32<9:19:03,  3.73it/s] 66%|██████▋   | 246306/371472 [8:33:32<9:18:49,  3.73it/s] 66%|██████▋   | 246307/371472 [8:33:33<12:16:39,  2.83it/s] 66%|██████▋   | 246308/371472 [8:33:33<12:06:19,  2.87it/s] 66%|██████▋   | 246309/371472 [8:33:33<12:10:47,  2.85it/s] 66%|██████▋   | 246310/371472 [8:33:34<11:17:21,  3.08it/s] 66%|██████▋   | 246311/371472 [8:33:34<11:19:00,  3.07it/s] 66%|██████▋   | 246312/371472 [8:33:34<10:34:53,  3.29it/s] 66%|██████▋   | 246313/371472 [8:33:34<10:36:29,  3.28it/s] 66%|██████▋   | 246314/371472 [8:33:35<10:38:46,  3.27it/s] 66%|██████▋   | 246315/371472 [8:33:35<10:00:38,  3.47it/s] 66%|██████▋   | 246316/371472 [8:33:35<11:31:34,  3.02it/s] 66%|██████▋   | 246317/371472 [8:33:36<10:35:53,  3.28it/s] 66%|██████▋   | 246318/371472 [8:33:36<10:50:09,  3.21it/s] 66%|██████▋   | 246319/371472 [8:33:36<10:14:39,  3.39it/s] 66%|██████▋   | 246320/371472 [8:33:37<9:57:36,  3.49it/s]                                                            {'loss': 2.7608, 'learning_rate': 4.0338080975672825e-07, 'epoch': 10.61}
 66%|██████▋   | 246320/371472 [8:33:37<9:57:36,  3.49it/s] 66%|██████▋   | 246321/371472 [8:33:37<10:12:06,  3.41it/s] 66%|██████▋   | 246322/371472 [8:33:37<11:30:29,  3.02it/s] 66%|██████▋   | 246323/371472 [8:33:38<11:04:57,  3.14it/s] 66%|██████▋   | 246324/371472 [8:33:38<10:55:12,  3.18it/s] 66%|██████▋   | 246325/371472 [8:33:38<10:59:23,  3.16it/s] 66%|██████▋   | 246326/371472 [8:33:38<10:22:39,  3.35it/s] 66%|██████▋   | 246327/371472 [8:33:39<9:59:52,  3.48it/s]  66%|██████▋   | 246328/371472 [8:33:39<10:35:17,  3.28it/s] 66%|██████▋   | 246329/371472 [8:33:39<9:55:41,  3.50it/s]  66%|██████▋   | 246330/371472 [8:33:40<10:22:26,  3.35it/s] 66%|██████▋   | 246331/371472 [8:33:40<9:53:24,  3.51it/s]  66%|██████▋   | 246332/371472 [8:33:40<9:33:58,  3.63it/s] 66%|██████▋   | 246333/371472 [8:33:40<9:40:03,  3.60it/s] 66%|██████▋   | 246334/371472 [8:33:41<9:30:57,  3.65it/s] 66%|██████▋   | 246335/371472 [8:33:41<10:02:36,  3.46it/s] 66%|██████▋   | 246336/371472 [8:33:41<9:51:05,  3.53it/s]  66%|██████▋   | 246337/371472 [8:33:42<9:58:17,  3.49it/s] 66%|██████▋   | 246338/371472 [8:33:42<9:56:18,  3.50it/s] 66%|██████▋   | 246339/371472 [8:33:42<9:39:45,  3.60it/s] 66%|██████▋   | 246340/371472 [8:33:42<10:26:46,  3.33it/s]                                                            {'loss': 2.6251, 'learning_rate': 4.033323277812493e-07, 'epoch': 10.61}
 66%|██████▋   | 246340/371472 [8:33:42<10:26:46,  3.33it/s] 66%|██████▋   | 246341/371472 [8:33:43<9:53:36,  3.51it/s]  66%|██████▋   | 246342/371472 [8:33:43<9:44:24,  3.57it/s] 66%|██████▋   | 246343/371472 [8:33:43<9:20:31,  3.72it/s] 66%|██████▋   | 246344/371472 [8:33:44<9:30:47,  3.65it/s] 66%|██████▋   | 246345/371472 [8:33:44<9:17:01,  3.74it/s] 66%|██████▋   | 246346/371472 [8:33:44<9:00:23,  3.86it/s] 66%|██████▋   | 246347/371472 [8:33:44<8:51:15,  3.93it/s] 66%|██████▋   | 246348/371472 [8:33:45<9:37:23,  3.61it/s] 66%|██████▋   | 246349/371472 [8:33:45<9:09:44,  3.79it/s] 66%|██████▋   | 246350/371472 [8:33:46<13:45:10,  2.53it/s] 66%|██████▋   | 246351/371472 [8:33:46<12:30:44,  2.78it/s] 66%|██████▋   | 246352/371472 [8:33:46<11:14:31,  3.09it/s] 66%|██████▋   | 246353/371472 [8:33:46<10:43:43,  3.24it/s] 66%|██████▋   | 246354/371472 [8:33:47<10:26:28,  3.33it/s] 66%|██████▋   | 246355/371472 [8:33:47<10:14:09,  3.40it/s] 66%|██████▋   | 246356/371472 [8:33:47<10:09:46,  3.42it/s] 66%|██████▋   | 246357/371472 [8:33:47<9:32:28,  3.64it/s]  66%|██████▋   | 246358/371472 [8:33:48<9:38:25,  3.61it/s] 66%|██████▋   | 246359/371472 [8:33:48<9:27:53,  3.67it/s] 66%|██████▋   | 246360/371472 [8:33:48<9:17:39,  3.74it/s]                                                           {'loss': 3.0751, 'learning_rate': 4.0328384580577045e-07, 'epoch': 10.61}
 66%|██████▋   | 246360/371472 [8:33:48<9:17:39,  3.74it/s] 66%|██████▋   | 246361/371472 [8:33:48<9:15:11,  3.76it/s] 66%|██████▋   | 246362/371472 [8:33:49<9:21:45,  3.71it/s] 66%|██████▋   | 246363/371472 [8:33:49<9:17:40,  3.74it/s] 66%|██████▋   | 246364/371472 [8:33:49<9:37:09,  3.61it/s] 66%|██████▋   | 246365/371472 [8:33:50<9:43:35,  3.57it/s] 66%|██████▋   | 246366/371472 [8:33:50<9:38:16,  3.61it/s] 66%|██████▋   | 246367/371472 [8:33:50<9:30:50,  3.65it/s] 66%|██████▋   | 246368/371472 [8:33:50<10:24:46,  3.34it/s] 66%|██████▋   | 246369/371472 [8:33:51<10:21:21,  3.36it/s] 66%|██████▋   | 246370/371472 [8:33:51<10:42:44,  3.24it/s] 66%|██████▋   | 246371/371472 [8:33:51<10:15:13,  3.39it/s] 66%|██████▋   | 246372/371472 [8:33:52<10:05:43,  3.44it/s] 66%|██████▋   | 246373/371472 [8:33:52<11:04:12,  3.14it/s] 66%|██████▋   | 246374/371472 [8:33:52<11:12:44,  3.10it/s] 66%|██████▋   | 246375/371472 [8:33:53<10:38:00,  3.27it/s] 66%|██████▋   | 246376/371472 [8:33:53<10:06:06,  3.44it/s] 66%|██████▋   | 246377/371472 [8:33:53<9:45:16,  3.56it/s]  66%|██████▋   | 246378/371472 [8:33:53<9:20:06,  3.72it/s] 66%|██████▋   | 246379/371472 [8:33:54<9:11:40,  3.78it/s] 66%|██████▋   | 246380/371472 [8:33:54<9:04:07,  3.83it/s]                                                           {'loss': 2.7045, 'learning_rate': 4.032353638302915e-07, 'epoch': 10.61}
 66%|██████▋   | 246380/371472 [8:33:54<9:04:07,  3.83it/s] 66%|██████▋   | 246381/371472 [8:33:54<9:03:39,  3.83it/s] 66%|██████▋   | 246382/371472 [8:33:54<8:57:52,  3.88it/s] 66%|██████▋   | 246383/371472 [8:33:55<9:09:10,  3.80it/s] 66%|██████▋   | 246384/371472 [8:33:55<9:03:53,  3.83it/s] 66%|██████▋   | 246385/371472 [8:33:55<8:57:38,  3.88it/s] 66%|██████▋   | 246386/371472 [8:33:56<10:17:52,  3.37it/s] 66%|██████▋   | 246387/371472 [8:33:56<10:20:35,  3.36it/s] 66%|██████▋   | 246388/371472 [8:33:56<9:45:15,  3.56it/s]  66%|██████▋   | 246389/371472 [8:33:56<9:17:19,  3.74it/s] 66%|██████▋   | 246390/371472 [8:33:57<9:26:31,  3.68it/s] 66%|██████▋   | 246391/371472 [8:33:57<9:36:48,  3.61it/s] 66%|██████▋   | 246392/371472 [8:33:57<9:43:50,  3.57it/s] 66%|██████▋   | 246393/371472 [8:33:57<9:24:18,  3.69it/s] 66%|██████▋   | 246394/371472 [8:33:58<9:10:18,  3.79it/s] 66%|██████▋   | 246395/371472 [8:33:58<9:13:13,  3.77it/s] 66%|██████▋   | 246396/371472 [8:33:58<9:04:37,  3.83it/s] 66%|██████▋   | 246397/371472 [8:33:59<9:22:49,  3.70it/s] 66%|██████▋   | 246398/371472 [8:33:59<9:38:09,  3.61it/s] 66%|██████▋   | 246399/371472 [8:33:59<9:24:36,  3.69it/s] 66%|██████▋   | 246400/371472 [8:33:59<9:17:50,  3.74it/s]                                                           {'loss': 2.8683, 'learning_rate': 4.031868818548126e-07, 'epoch': 10.61}
 66%|██████▋   | 246400/371472 [8:33:59<9:17:50,  3.74it/s] 66%|██████▋   | 246401/371472 [8:34:00<9:14:13,  3.76it/s] 66%|██████▋   | 246402/371472 [8:34:00<9:00:08,  3.86it/s] 66%|██████▋   | 246403/371472 [8:34:00<9:19:09,  3.73it/s] 66%|██████▋   | 246404/371472 [8:34:00<9:09:42,  3.79it/s] 66%|██████▋   | 246405/371472 [8:34:01<9:33:15,  3.64it/s] 66%|██████▋   | 246406/371472 [8:34:01<9:08:08,  3.80it/s] 66%|██████▋   | 246407/371472 [8:34:01<8:54:07,  3.90it/s] 66%|██████▋   | 246408/371472 [8:34:01<8:50:53,  3.93it/s] 66%|██████▋   | 246409/371472 [8:34:02<8:53:37,  3.91it/s] 66%|██████▋   | 246410/371472 [8:34:02<9:31:49,  3.65it/s] 66%|██████▋   | 246411/371472 [8:34:02<9:17:22,  3.74it/s] 66%|██████▋   | 246412/371472 [8:34:02<9:14:11,  3.76it/s] 66%|██████▋   | 246413/371472 [8:34:03<9:31:05,  3.65it/s] 66%|██████▋   | 246414/371472 [8:34:03<9:13:10,  3.77it/s] 66%|██████▋   | 246415/371472 [8:34:03<9:08:13,  3.80it/s] 66%|██████▋   | 246416/371472 [8:34:04<9:33:23,  3.64it/s] 66%|██████▋   | 246417/371472 [8:34:04<10:19:49,  3.36it/s] 66%|██████▋   | 246418/371472 [8:34:04<10:04:55,  3.45it/s] 66%|██████▋   | 246419/371472 [8:34:05<10:46:36,  3.22it/s] 66%|██████▋   | 246420/371472 [8:34:05<10:32:11,  3.30it/s]                                                            {'loss': 2.8851, 'learning_rate': 4.031383998793337e-07, 'epoch': 10.61}
 66%|██████▋   | 246420/371472 [8:34:05<10:32:11,  3.30it/s] 66%|██████▋   | 246421/371472 [8:34:05<10:06:27,  3.44it/s] 66%|██████▋   | 246422/371472 [8:34:05<9:57:03,  3.49it/s]  66%|██████▋   | 246423/371472 [8:34:06<9:29:00,  3.66it/s] 66%|██████▋   | 246424/371472 [8:34:06<9:26:53,  3.68it/s] 66%|██████▋   | 246425/371472 [8:34:06<9:00:59,  3.85it/s] 66%|██████▋   | 246426/371472 [8:34:06<9:20:32,  3.72it/s] 66%|██████▋   | 246427/371472 [8:34:07<9:30:07,  3.66it/s] 66%|██████▋   | 246428/371472 [8:34:07<9:22:58,  3.70it/s] 66%|██████▋   | 246429/371472 [8:34:07<9:20:17,  3.72it/s] 66%|██████▋   | 246430/371472 [8:34:08<9:34:44,  3.63it/s] 66%|██████▋   | 246431/371472 [8:34:08<10:11:16,  3.41it/s] 66%|██████▋   | 246432/371472 [8:34:08<11:55:41,  2.91it/s] 66%|██████▋   | 246433/371472 [8:34:09<12:30:03,  2.78it/s] 66%|██████▋   | 246434/371472 [8:34:09<11:38:48,  2.98it/s] 66%|██████▋   | 246435/371472 [8:34:09<11:01:47,  3.15it/s] 66%|██████▋   | 246436/371472 [8:34:10<10:17:46,  3.37it/s] 66%|██████▋   | 246437/371472 [8:34:10<10:15:20,  3.39it/s] 66%|██████▋   | 246438/371472 [8:34:10<10:15:09,  3.39it/s] 66%|██████▋   | 246439/371472 [8:34:10<10:06:31,  3.44it/s] 66%|██████▋   | 246440/371472 [8:34:11<10:24:19,  3.34it/s]                                                            {'loss': 2.7883, 'learning_rate': 4.030899179038548e-07, 'epoch': 10.61}
 66%|██████▋   | 246440/371472 [8:34:11<10:24:19,  3.34it/s] 66%|██████▋   | 246441/371472 [8:34:11<9:51:23,  3.52it/s]  66%|██████▋   | 246442/371472 [8:34:11<9:30:49,  3.65it/s] 66%|██████▋   | 246443/371472 [8:34:11<9:18:02,  3.73it/s] 66%|██████▋   | 246444/371472 [8:34:12<9:55:33,  3.50it/s] 66%|██████▋   | 246445/371472 [8:34:12<9:32:16,  3.64it/s] 66%|██████▋   | 246446/371472 [8:34:12<10:06:19,  3.44it/s] 66%|██████▋   | 246447/371472 [8:34:13<9:31:06,  3.65it/s]  66%|██████▋   | 246448/371472 [8:34:13<9:12:26,  3.77it/s] 66%|██████▋   | 246449/371472 [8:34:13<8:58:09,  3.87it/s] 66%|██████▋   | 246450/371472 [8:34:13<8:50:20,  3.93it/s] 66%|██████▋   | 246451/371472 [8:34:14<9:11:07,  3.78it/s] 66%|██████▋   | 246452/371472 [8:34:14<9:28:12,  3.67it/s] 66%|██████▋   | 246453/371472 [8:34:14<9:55:02,  3.50it/s] 66%|██████▋   | 246454/371472 [8:34:14<9:43:33,  3.57it/s] 66%|██████▋   | 246455/371472 [8:34:15<10:00:32,  3.47it/s] 66%|██████▋   | 246456/371472 [8:34:15<9:35:51,  3.62it/s]  66%|██████▋   | 246457/371472 [8:34:15<9:20:16,  3.72it/s] 66%|██████▋   | 246458/371472 [8:34:16<9:15:10,  3.75it/s] 66%|██████▋   | 246459/371472 [8:34:16<9:48:22,  3.54it/s] 66%|██████▋   | 246460/371472 [8:34:16<9:59:28,  3.48it/s]                                                           {'loss': 2.7739, 'learning_rate': 4.0304143592837596e-07, 'epoch': 10.62}
 66%|██████▋   | 246460/371472 [8:34:16<9:59:28,  3.48it/s] 66%|██████▋   | 246461/371472 [8:34:16<9:35:06,  3.62it/s] 66%|██████▋   | 246462/371472 [8:34:17<9:33:38,  3.63it/s] 66%|██████▋   | 246463/371472 [8:34:17<9:16:08,  3.75it/s] 66%|██████▋   | 246464/371472 [8:34:17<9:18:32,  3.73it/s] 66%|██████▋   | 246465/371472 [8:34:17<9:07:28,  3.81it/s] 66%|██████▋   | 246466/371472 [8:34:18<9:44:09,  3.57it/s] 66%|██████▋   | 246467/371472 [8:34:18<10:17:00,  3.38it/s] 66%|██████▋   | 246468/371472 [8:34:18<9:44:09,  3.57it/s]  66%|██████▋   | 246469/371472 [8:34:19<9:41:08,  3.58it/s] 66%|██████▋   | 246470/371472 [8:34:19<9:55:51,  3.50it/s] 66%|██████▋   | 246471/371472 [8:34:19<9:46:39,  3.55it/s] 66%|██████▋   | 246472/371472 [8:34:20<10:02:14,  3.46it/s] 66%|██████▋   | 246473/371472 [8:34:20<11:02:59,  3.14it/s] 66%|██████▋   | 246474/371472 [8:34:20<10:20:50,  3.36it/s] 66%|██████▋   | 246475/371472 [8:34:20<9:54:17,  3.51it/s]  66%|██████▋   | 246476/371472 [8:34:21<9:29:41,  3.66it/s] 66%|██████▋   | 246477/371472 [8:34:21<9:04:28,  3.83it/s] 66%|██████▋   | 246478/371472 [8:34:21<9:09:20,  3.79it/s] 66%|██████▋   | 246479/371472 [8:34:21<9:18:15,  3.73it/s] 66%|██████▋   | 246480/371472 [8:34:22<9:44:26,  3.56it/s]                                                           {'loss': 2.9042, 'learning_rate': 4.0299295395289703e-07, 'epoch': 10.62}
 66%|██████▋   | 246480/371472 [8:34:22<9:44:26,  3.56it/s] 66%|██████▋   | 246481/371472 [8:34:22<9:37:45,  3.61it/s] 66%|██████▋   | 246482/371472 [8:34:22<9:19:28,  3.72it/s] 66%|██████▋   | 246483/371472 [8:34:23<10:03:08,  3.45it/s] 66%|██████▋   | 246484/371472 [8:34:23<9:42:03,  3.58it/s]  66%|██████▋   | 246485/371472 [8:34:23<9:49:49,  3.53it/s] 66%|██████▋   | 246486/371472 [8:34:23<9:21:36,  3.71it/s] 66%|██████▋   | 246487/371472 [8:34:24<9:12:14,  3.77it/s] 66%|██████▋   | 246488/371472 [8:34:24<9:47:24,  3.55it/s] 66%|██████▋   | 246489/371472 [8:34:24<10:12:47,  3.40it/s] 66%|██████▋   | 246490/371472 [8:34:25<9:30:30,  3.65it/s]  66%|██████▋   | 246491/371472 [8:34:25<9:12:35,  3.77it/s] 66%|██████▋   | 246492/371472 [8:34:25<8:54:22,  3.90it/s] 66%|██████▋   | 246493/371472 [8:34:25<9:20:59,  3.71it/s] 66%|██████▋   | 246494/371472 [8:34:26<9:08:03,  3.80it/s] 66%|██████▋   | 246495/371472 [8:34:26<9:10:51,  3.78it/s] 66%|██████▋   | 246496/371472 [8:34:26<9:37:06,  3.61it/s] 66%|██████▋   | 246497/371472 [8:34:26<9:18:56,  3.73it/s] 66%|██████▋   | 246498/371472 [8:34:27<9:27:42,  3.67it/s] 66%|██████▋   | 246499/371472 [8:34:27<9:18:10,  3.73it/s] 66%|██████▋   | 246500/371472 [8:34:27<9:10:20,  3.78it/s]                                                           {'loss': 2.8501, 'learning_rate': 4.0294447197741816e-07, 'epoch': 10.62}
 66%|██████▋   | 246500/371472 [8:34:27<9:10:20,  3.78it/s] 66%|██████▋   | 246501/371472 [8:34:27<9:24:56,  3.69it/s] 66%|██████▋   | 246502/371472 [8:34:28<9:40:03,  3.59it/s] 66%|██████▋   | 246503/371472 [8:34:28<9:55:20,  3.50it/s] 66%|██████▋   | 246504/371472 [8:34:28<9:34:47,  3.62it/s] 66%|██████▋   | 246505/371472 [8:34:29<9:21:30,  3.71it/s] 66%|██████▋   | 246506/371472 [8:34:29<9:13:50,  3.76it/s] 66%|██████▋   | 246507/371472 [8:34:29<9:20:11,  3.72it/s] 66%|██████▋   | 246508/371472 [8:34:29<9:38:30,  3.60it/s] 66%|██████▋   | 246509/371472 [8:34:30<9:17:23,  3.74it/s] 66%|██████▋   | 246510/371472 [8:34:30<9:24:46,  3.69it/s] 66%|██████▋   | 246511/371472 [8:34:30<9:15:54,  3.75it/s] 66%|██████▋   | 246512/371472 [8:34:30<9:36:07,  3.61it/s] 66%|██████▋   | 246513/371472 [8:34:31<10:35:11,  3.28it/s] 66%|██████▋   | 246514/371472 [8:34:31<9:54:43,  3.50it/s]  66%|██████▋   | 246515/371472 [8:34:31<9:35:06,  3.62it/s] 66%|██████▋   | 246516/371472 [8:34:32<9:29:55,  3.65it/s] 66%|██████▋   | 246517/371472 [8:34:32<9:10:38,  3.78it/s] 66%|██████▋   | 246518/371472 [8:34:32<9:11:47,  3.77it/s] 66%|██████▋   | 246519/371472 [8:34:32<9:37:17,  3.61it/s] 66%|██████▋   | 246520/371472 [8:34:33<9:54:59,  3.50it/s]                                                           {'loss': 2.7304, 'learning_rate': 4.0289599000193923e-07, 'epoch': 10.62}
 66%|██████▋   | 246520/371472 [8:34:33<9:54:59,  3.50it/s] 66%|██████▋   | 246521/371472 [8:34:33<9:41:53,  3.58it/s] 66%|██████▋   | 246522/371472 [8:34:33<9:37:05,  3.61it/s] 66%|██████▋   | 246523/371472 [8:34:34<9:38:30,  3.60it/s] 66%|██████▋   | 246524/371472 [8:34:34<9:24:37,  3.69it/s] 66%|██████▋   | 246525/371472 [8:34:34<9:27:33,  3.67it/s] 66%|██████▋   | 246526/371472 [8:34:34<10:00:11,  3.47it/s] 66%|██████▋   | 246527/371472 [8:34:35<9:26:43,  3.67it/s]  66%|██████▋   | 246528/371472 [8:34:35<9:04:46,  3.82it/s] 66%|██████▋   | 246529/371472 [8:34:35<8:57:33,  3.87it/s] 66%|██████▋   | 246530/371472 [8:34:35<9:17:44,  3.73it/s] 66%|██████▋   | 246531/371472 [8:34:36<9:03:20,  3.83it/s] 66%|██████▋   | 246532/371472 [8:34:36<9:06:30,  3.81it/s] 66%|██████▋   | 246533/371472 [8:34:36<8:57:27,  3.87it/s] 66%|██████▋   | 246534/371472 [8:34:36<9:17:43,  3.73it/s] 66%|██████▋   | 246535/371472 [8:34:37<9:15:18,  3.75it/s] 66%|██████▋   | 246536/371472 [8:34:37<9:30:38,  3.65it/s] 66%|██████▋   | 246537/371472 [8:34:37<9:43:43,  3.57it/s] 66%|██████▋   | 246538/371472 [8:34:38<9:28:17,  3.66it/s] 66%|██████▋   | 246539/371472 [8:34:38<9:11:45,  3.77it/s] 66%|██████▋   | 246540/371472 [8:34:38<9:39:19,  3.59it/s]                                                           {'loss': 3.0191, 'learning_rate': 4.028475080264604e-07, 'epoch': 10.62}
 66%|██████▋   | 246540/371472 [8:34:38<9:39:19,  3.59it/s] 66%|██████▋   | 246541/371472 [8:34:38<10:07:57,  3.42it/s] 66%|██████▋   | 246542/371472 [8:34:39<10:18:56,  3.36it/s] 66%|██████▋   | 246543/371472 [8:34:39<10:30:37,  3.30it/s] 66%|██████▋   | 246544/371472 [8:34:39<9:54:21,  3.50it/s]  66%|██████▋   | 246545/371472 [8:34:40<9:41:24,  3.58it/s] 66%|██████▋   | 246546/371472 [8:34:40<9:54:30,  3.50it/s] 66%|██████▋   | 246547/371472 [8:34:40<9:54:02,  3.50it/s] 66%|██████▋   | 246548/371472 [8:34:40<9:53:04,  3.51it/s] 66%|██████▋   | 246549/371472 [8:34:41<9:36:23,  3.61it/s] 66%|██████▋   | 246550/371472 [8:34:41<10:10:31,  3.41it/s] 66%|██████▋   | 246551/371472 [8:34:41<9:51:36,  3.52it/s]  66%|██████▋   | 246552/371472 [8:34:42<9:46:05,  3.55it/s] 66%|██████▋   | 246553/371472 [8:34:42<9:56:02,  3.49it/s] 66%|██████▋   | 246554/371472 [8:34:42<9:46:33,  3.55it/s] 66%|██████▋   | 246555/371472 [8:34:42<9:33:54,  3.63it/s] 66%|██████▋   | 246556/371472 [8:34:43<10:09:15,  3.42it/s] 66%|██████▋   | 246557/371472 [8:34:43<9:36:21,  3.61it/s]  66%|██████▋   | 246558/371472 [8:34:43<9:19:31,  3.72it/s] 66%|██████▋   | 246559/371472 [8:34:44<10:46:30,  3.22it/s] 66%|██████▋   | 246560/371472 [8:34:44<10:17:01,  3.37it/s]                                                            {'loss': 2.8881, 'learning_rate': 4.027990260509814e-07, 'epoch': 10.62}
 66%|██████▋   | 246560/371472 [8:34:44<10:17:01,  3.37it/s] 66%|██████▋   | 246561/371472 [8:34:44<10:22:53,  3.34it/s] 66%|██████▋   | 246562/371472 [8:34:44<10:13:00,  3.40it/s] 66%|██████▋   | 246563/371472 [8:34:45<9:49:46,  3.53it/s]  66%|██████▋   | 246564/371472 [8:34:45<9:39:39,  3.59it/s] 66%|██████▋   | 246565/371472 [8:34:45<9:35:20,  3.62it/s] 66%|██████▋   | 246566/371472 [8:34:46<9:52:28,  3.51it/s] 66%|██████▋   | 246567/371472 [8:34:46<10:23:26,  3.34it/s] 66%|██████▋   | 246568/371472 [8:34:46<10:05:41,  3.44it/s] 66%|██████▋   | 246569/371472 [8:34:46<10:09:26,  3.42it/s] 66%|██████▋   | 246570/371472 [8:34:47<10:17:08,  3.37it/s] 66%|██████▋   | 246571/371472 [8:34:47<9:48:06,  3.54it/s]  66%|██████▋   | 246572/371472 [8:34:47<9:15:19,  3.75it/s] 66%|██████▋   | 246573/371472 [8:34:48<8:51:08,  3.92it/s] 66%|██████▋   | 246574/371472 [8:34:48<9:13:44,  3.76it/s] 66%|██████▋   | 246575/371472 [8:34:48<9:13:09,  3.76it/s] 66%|██████▋   | 246576/371472 [8:34:48<9:30:07,  3.65it/s] 66%|██████▋   | 246577/371472 [8:34:49<9:10:34,  3.78it/s] 66%|██████▋   | 246578/371472 [8:34:49<9:00:10,  3.85it/s] 66%|██████▋   | 246579/371472 [8:34:49<10:17:22,  3.37it/s] 66%|██████▋   | 246580/371472 [8:34:50<10:19:53,  3.36it/s]                                                            {'loss': 2.8836, 'learning_rate': 4.0275054407550266e-07, 'epoch': 10.62}
 66%|██████▋   | 246580/371472 [8:34:50<10:19:53,  3.36it/s] 66%|██████▋   | 246581/371472 [8:34:50<10:42:10,  3.24it/s] 66%|██████▋   | 246582/371472 [8:34:50<11:06:10,  3.12it/s] 66%|██████▋   | 246583/371472 [8:34:50<10:18:24,  3.37it/s] 66%|██████▋   | 246584/371472 [8:34:51<10:13:12,  3.39it/s] 66%|██████▋   | 246585/371472 [8:34:51<9:59:27,  3.47it/s]  66%|██████▋   | 246586/371472 [8:34:51<10:31:52,  3.29it/s] 66%|██████▋   | 246587/371472 [8:34:52<9:57:37,  3.48it/s]  66%|██████▋   | 246588/371472 [8:34:52<9:36:40,  3.61it/s] 66%|██████▋   | 246589/371472 [8:34:52<10:06:53,  3.43it/s] 66%|██████▋   | 246590/371472 [8:34:52<10:07:45,  3.42it/s] 66%|██████▋   | 246591/371472 [8:34:53<11:06:05,  3.12it/s] 66%|██████▋   | 246592/371472 [8:34:53<11:50:13,  2.93it/s] 66%|██████▋   | 246593/371472 [8:34:54<11:41:57,  2.96it/s] 66%|██████▋   | 246594/371472 [8:34:54<11:07:42,  3.12it/s] 66%|██████▋   | 246595/371472 [8:34:54<11:22:17,  3.05it/s] 66%|██████▋   | 246596/371472 [8:34:55<11:10:10,  3.11it/s] 66%|██████▋   | 246597/371472 [8:34:55<10:54:01,  3.18it/s] 66%|██████▋   | 246598/371472 [8:34:55<10:47:00,  3.22it/s] 66%|██████▋   | 246599/371472 [8:34:55<10:02:31,  3.45it/s] 66%|██████▋   | 246600/371472 [8:34:56<10:19:14,  3.36it/s]                                                            {'loss': 2.8634, 'learning_rate': 4.027020621000237e-07, 'epoch': 10.62}
 66%|██████▋   | 246600/371472 [8:34:56<10:19:14,  3.36it/s] 66%|██████▋   | 246601/371472 [8:34:56<10:22:43,  3.34it/s] 66%|██████▋   | 246602/371472 [8:34:56<9:59:34,  3.47it/s]  66%|██████▋   | 246603/371472 [8:34:57<9:51:38,  3.52it/s] 66%|██████▋   | 246604/371472 [8:34:57<10:10:41,  3.41it/s] 66%|██████▋   | 246605/371472 [8:34:57<10:19:29,  3.36it/s] 66%|██████▋   | 246606/371472 [8:34:57<9:41:04,  3.58it/s]  66%|██████▋   | 246607/371472 [8:34:58<10:24:13,  3.33it/s] 66%|██████▋   | 246608/371472 [8:34:58<10:08:23,  3.42it/s] 66%|██████▋   | 246609/371472 [8:34:58<9:48:21,  3.54it/s]  66%|██████▋   | 246610/371472 [8:34:59<10:10:45,  3.41it/s] 66%|██████▋   | 246611/371472 [8:34:59<9:49:21,  3.53it/s]  66%|██████▋   | 246612/371472 [8:34:59<9:29:55,  3.65it/s] 66%|██████▋   | 246613/371472 [8:34:59<9:24:42,  3.69it/s] 66%|██████▋   | 246614/371472 [8:35:00<9:12:27,  3.77it/s] 66%|██████▋   | 246615/371472 [8:35:00<9:15:56,  3.74it/s] 66%|██████▋   | 246616/371472 [8:35:00<9:29:26,  3.65it/s] 66%|██████▋   | 246617/371472 [8:35:00<9:32:59,  3.63it/s] 66%|██████▋   | 246618/371472 [8:35:01<9:59:48,  3.47it/s] 66%|██████▋   | 246619/371472 [8:35:01<9:37:55,  3.60it/s] 66%|██████▋   | 246620/371472 [8:35:01<9:30:22,  3.65it/s]                                                           {'loss': 2.7964, 'learning_rate': 4.026535801245448e-07, 'epoch': 10.62}
 66%|██████▋   | 246620/371472 [8:35:01<9:30:22,  3.65it/s] 66%|██████▋   | 246621/371472 [8:35:02<9:39:47,  3.59it/s] 66%|██████▋   | 246622/371472 [8:35:02<9:22:22,  3.70it/s] 66%|██████▋   | 246623/371472 [8:35:02<9:11:15,  3.77it/s] 66%|██████▋   | 246624/371472 [8:35:02<9:20:55,  3.71it/s] 66%|██████▋   | 246625/371472 [8:35:03<9:24:14,  3.69it/s] 66%|██████▋   | 246626/371472 [8:35:03<9:12:04,  3.77it/s] 66%|██████▋   | 246627/371472 [8:35:03<9:46:29,  3.55it/s] 66%|██████▋   | 246628/371472 [8:35:04<10:16:08,  3.38it/s] 66%|██████▋   | 246629/371472 [8:35:04<10:04:21,  3.44it/s] 66%|██████▋   | 246630/371472 [8:35:04<9:37:36,  3.60it/s]  66%|██████▋   | 246631/371472 [8:35:04<9:22:33,  3.70it/s] 66%|██████▋   | 246632/371472 [8:35:05<10:09:46,  3.41it/s] 66%|██████▋   | 246633/371472 [8:35:05<10:10:44,  3.41it/s] 66%|██████▋   | 246634/371472 [8:35:05<9:45:08,  3.56it/s]  66%|██████▋   | 246635/371472 [8:35:05<9:35:05,  3.62it/s] 66%|██████▋   | 246636/371472 [8:35:06<10:24:10,  3.33it/s] 66%|██████▋   | 246637/371472 [8:35:06<10:07:30,  3.42it/s] 66%|██████▋   | 246638/371472 [8:35:06<9:26:25,  3.67it/s]  66%|██████▋   | 246639/371472 [8:35:07<10:20:26,  3.35it/s] 66%|██████▋   | 246640/371472 [8:35:07<10:28:33,  3.31it/s]                                                            {'loss': 2.9948, 'learning_rate': 4.0260509814906587e-07, 'epoch': 10.62}
 66%|██████▋   | 246640/371472 [8:35:07<10:28:33,  3.31it/s] 66%|██████▋   | 246641/371472 [8:35:07<9:46:46,  3.55it/s]  66%|██████▋   | 246642/371472 [8:35:08<9:44:28,  3.56it/s] 66%|██████▋   | 246643/371472 [8:35:08<9:36:13,  3.61it/s] 66%|██████▋   | 246644/371472 [8:35:08<9:36:44,  3.61it/s] 66%|██████▋   | 246645/371472 [8:35:08<9:25:08,  3.68it/s] 66%|██████▋   | 246646/371472 [8:35:09<9:28:21,  3.66it/s] 66%|██████▋   | 246647/371472 [8:35:09<9:35:03,  3.62it/s] 66%|██████▋   | 246648/371472 [8:35:09<9:21:06,  3.71it/s] 66%|██████▋   | 246649/371472 [8:35:09<9:30:38,  3.65it/s] 66%|██████▋   | 246650/371472 [8:35:10<9:50:36,  3.52it/s] 66%|██████▋   | 246651/371472 [8:35:10<9:58:02,  3.48it/s] 66%|██████▋   | 246652/371472 [8:35:10<10:18:21,  3.36it/s] 66%|██████▋   | 246653/371472 [8:35:11<10:25:47,  3.32it/s] 66%|██████▋   | 246654/371472 [8:35:11<10:02:24,  3.45it/s] 66%|██████▋   | 246655/371472 [8:35:11<9:53:57,  3.50it/s]  66%|██████▋   | 246656/371472 [8:35:12<11:34:18,  3.00it/s] 66%|██████▋   | 246657/371472 [8:35:12<11:01:04,  3.15it/s] 66%|██████▋   | 246658/371472 [8:35:12<10:19:54,  3.36it/s] 66%|██████▋   | 246659/371472 [8:35:12<10:40:09,  3.25it/s] 66%|██████▋   | 246660/371472 [8:35:13<10:10:53,  3.41it/s]                                                            {'loss': 2.9357, 'learning_rate': 4.0255661617358705e-07, 'epoch': 10.62}
 66%|██████▋   | 246660/371472 [8:35:13<10:10:53,  3.41it/s] 66%|██████▋   | 246661/371472 [8:35:13<10:22:34,  3.34it/s] 66%|██████▋   | 246662/371472 [8:35:13<10:09:48,  3.41it/s] 66%|██████▋   | 246663/371472 [8:35:14<9:45:25,  3.55it/s]  66%|██████▋   | 246664/371472 [8:35:14<9:58:35,  3.48it/s] 66%|██████▋   | 246665/371472 [8:35:14<9:49:46,  3.53it/s] 66%|██████▋   | 246666/371472 [8:35:14<9:28:09,  3.66it/s] 66%|██████▋   | 246667/371472 [8:35:15<8:58:31,  3.86it/s] 66%|██████▋   | 246668/371472 [8:35:15<9:44:17,  3.56it/s] 66%|██████▋   | 246669/371472 [8:35:15<9:31:23,  3.64it/s] 66%|██████▋   | 246670/371472 [8:35:16<9:29:33,  3.65it/s] 66%|██████▋   | 246671/371472 [8:35:16<9:20:38,  3.71it/s] 66%|██████▋   | 246672/371472 [8:35:16<9:28:01,  3.66it/s] 66%|██████▋   | 246673/371472 [8:35:16<9:09:52,  3.78it/s] 66%|██████▋   | 246674/371472 [8:35:17<9:42:37,  3.57it/s] 66%|██████▋   | 246675/371472 [8:35:17<9:52:08,  3.51it/s] 66%|██████▋   | 246676/371472 [8:35:17<9:24:47,  3.68it/s] 66%|██████▋   | 246677/371472 [8:35:17<9:09:47,  3.78it/s] 66%|██████▋   | 246678/371472 [8:35:18<10:06:28,  3.43it/s] 66%|██████▋   | 246679/371472 [8:35:18<9:45:48,  3.55it/s]  66%|██████▋   | 246680/371472 [8:35:18<9:22:12,  3.70it/s]                                                           {'loss': 2.9076, 'learning_rate': 4.0250813419810807e-07, 'epoch': 10.62}
 66%|██████▋   | 246680/371472 [8:35:18<9:22:12,  3.70it/s] 66%|██████▋   | 246681/371472 [8:35:19<9:22:03,  3.70it/s] 66%|██████▋   | 246682/371472 [8:35:19<9:17:17,  3.73it/s] 66%|██████▋   | 246683/371472 [8:35:19<9:02:25,  3.83it/s] 66%|██████▋   | 246684/371472 [8:35:19<9:40:11,  3.58it/s] 66%|██████▋   | 246685/371472 [8:35:20<10:18:56,  3.36it/s] 66%|██████▋   | 246686/371472 [8:35:20<10:03:08,  3.45it/s] 66%|██████▋   | 246687/371472 [8:35:20<11:10:34,  3.10it/s] 66%|██████▋   | 246688/371472 [8:35:21<10:20:46,  3.35it/s] 66%|██████▋   | 246689/371472 [8:35:21<9:43:08,  3.57it/s]  66%|██████▋   | 246690/371472 [8:35:21<9:31:06,  3.64it/s] 66%|██████▋   | 246691/371472 [8:35:21<9:12:15,  3.77it/s] 66%|██████▋   | 246692/371472 [8:35:22<9:22:02,  3.70it/s] 66%|██████▋   | 246693/371472 [8:35:22<10:02:41,  3.45it/s] 66%|██████▋   | 246694/371472 [8:35:22<10:11:41,  3.40it/s] 66%|██████▋   | 246695/371472 [8:35:23<9:34:11,  3.62it/s]  66%|██████▋   | 246696/371472 [8:35:23<10:21:58,  3.34it/s] 66%|██████▋   | 246697/371472 [8:35:23<9:49:12,  3.53it/s]  66%|██████▋   | 246698/371472 [8:35:23<9:23:12,  3.69it/s] 66%|██████▋   | 246699/371472 [8:35:24<9:42:40,  3.57it/s] 66%|██████▋   | 246700/371472 [8:35:24<9:32:12,  3.63it/s]                                                           {'loss': 2.7043, 'learning_rate': 4.0245965222262924e-07, 'epoch': 10.63}
 66%|██████▋   | 246700/371472 [8:35:24<9:32:12,  3.63it/s] 66%|██████▋   | 246701/371472 [8:35:24<9:12:05,  3.77it/s] 66%|██████▋   | 246702/371472 [8:35:24<9:14:39,  3.75it/s] 66%|██████▋   | 246703/371472 [8:35:25<9:24:31,  3.68it/s] 66%|██████▋   | 246704/371472 [8:35:25<9:36:53,  3.60it/s] 66%|██████▋   | 246705/371472 [8:35:25<9:52:56,  3.51it/s] 66%|██████▋   | 246706/371472 [8:35:26<10:11:05,  3.40it/s] 66%|██████▋   | 246707/371472 [8:35:26<9:46:05,  3.55it/s]  66%|██████▋   | 246708/371472 [8:35:26<10:10:29,  3.41it/s] 66%|██████▋   | 246709/371472 [8:35:26<9:58:44,  3.47it/s]  66%|██████▋   | 246710/371472 [8:35:27<9:54:47,  3.50it/s] 66%|██████▋   | 246711/371472 [8:35:27<10:16:12,  3.37it/s] 66%|██████▋   | 246712/371472 [8:35:27<9:52:04,  3.51it/s]  66%|██████▋   | 246713/371472 [8:35:28<9:52:06,  3.51it/s] 66%|██████▋   | 246714/371472 [8:35:28<9:44:40,  3.56it/s] 66%|██████▋   | 246715/371472 [8:35:28<9:11:45,  3.77it/s] 66%|██████▋   | 246716/371472 [8:35:28<8:55:00,  3.89it/s] 66%|██████▋   | 246717/371472 [8:35:29<9:01:39,  3.84it/s] 66%|██████▋   | 246718/371472 [8:35:29<9:27:25,  3.66it/s] 66%|██████▋   | 246719/371472 [8:35:29<9:29:21,  3.65it/s] 66%|██████▋   | 246720/371472 [8:35:29<9:19:45,  3.71it/s]                                                           {'loss': 2.7146, 'learning_rate': 4.024111702471503e-07, 'epoch': 10.63}
 66%|██████▋   | 246720/371472 [8:35:29<9:19:45,  3.71it/s] 66%|██████▋   | 246721/371472 [8:35:30<9:22:38,  3.70it/s] 66%|██████▋   | 246722/371472 [8:35:30<9:20:57,  3.71it/s] 66%|██████▋   | 246723/371472 [8:35:30<9:15:55,  3.74it/s] 66%|██████▋   | 246724/371472 [8:35:31<9:13:24,  3.76it/s] 66%|██████▋   | 246725/371472 [8:35:31<10:31:21,  3.29it/s] 66%|██████▋   | 246726/371472 [8:35:31<10:29:56,  3.30it/s] 66%|██████▋   | 246727/371472 [8:35:31<9:53:47,  3.50it/s]  66%|██████▋   | 246728/371472 [8:35:32<9:35:27,  3.61it/s] 66%|██████▋   | 246729/371472 [8:35:32<9:25:43,  3.68it/s] 66%|██████▋   | 246730/371472 [8:35:32<9:38:09,  3.60it/s] 66%|██████▋   | 246731/371472 [8:35:33<9:25:17,  3.68it/s] 66%|██████▋   | 246732/371472 [8:35:33<10:10:26,  3.41it/s] 66%|██████▋   | 246733/371472 [8:35:33<10:33:25,  3.28it/s] 66%|██████▋   | 246734/371472 [8:35:34<10:42:41,  3.23it/s] 66%|██████▋   | 246735/371472 [8:35:34<10:07:07,  3.42it/s] 66%|██████▋   | 246736/371472 [8:35:34<9:58:58,  3.47it/s]  66%|██████▋   | 246737/371472 [8:35:34<9:56:46,  3.48it/s] 66%|██████▋   | 246738/371472 [8:35:35<9:59:43,  3.47it/s] 66%|██████▋   | 246739/371472 [8:35:35<11:13:20,  3.09it/s] 66%|██████▋   | 246740/371472 [8:35:35<10:13:53,  3.39it/s]                                                            {'loss': 2.7766, 'learning_rate': 4.0236268827167144e-07, 'epoch': 10.63}
 66%|██████▋   | 246740/371472 [8:35:35<10:13:53,  3.39it/s] 66%|██████▋   | 246741/371472 [8:35:36<10:58:35,  3.16it/s] 66%|██████▋   | 246742/371472 [8:35:36<10:53:19,  3.18it/s] 66%|██████▋   | 246743/371472 [8:35:36<10:25:12,  3.32it/s] 66%|██████▋   | 246744/371472 [8:35:36<9:58:19,  3.47it/s]  66%|██████▋   | 246745/371472 [8:35:37<10:59:36,  3.15it/s] 66%|██████▋   | 246746/371472 [8:35:37<10:56:44,  3.17it/s] 66%|██████▋   | 246747/371472 [8:35:37<10:23:23,  3.33it/s] 66%|██████▋   | 246748/371472 [8:35:38<11:07:17,  3.12it/s] 66%|██████▋   | 246749/371472 [8:35:38<10:21:16,  3.35it/s] 66%|██████▋   | 246750/371472 [8:35:38<10:18:41,  3.36it/s] 66%|██████▋   | 246751/371472 [8:35:39<10:03:13,  3.45it/s] 66%|██████▋   | 246752/371472 [8:35:39<9:47:53,  3.54it/s]  66%|██████▋   | 246753/371472 [8:35:39<10:05:53,  3.43it/s] 66%|██████▋   | 246754/371472 [8:35:39<10:07:40,  3.42it/s] 66%|██████▋   | 246755/371472 [8:35:40<10:07:47,  3.42it/s] 66%|██████▋   | 246756/371472 [8:35:40<11:36:25,  2.98it/s] 66%|██████▋   | 246757/371472 [8:35:40<10:58:14,  3.16it/s] 66%|██████▋   | 246758/371472 [8:35:41<10:38:10,  3.26it/s] 66%|██████▋   | 246759/371472 [8:35:41<9:51:54,  3.51it/s]  66%|██████▋   | 246760/371472 [8:35:41<9:38:45,  3.59it/s]                                                           {'loss': 2.9135, 'learning_rate': 4.023142062961925e-07, 'epoch': 10.63}
 66%|██████▋   | 246760/371472 [8:35:41<9:38:45,  3.59it/s] 66%|██████▋   | 246761/371472 [8:35:42<10:26:42,  3.32it/s] 66%|██████▋   | 246762/371472 [8:35:42<9:57:23,  3.48it/s]  66%|██████▋   | 246763/371472 [8:35:42<9:39:50,  3.58it/s] 66%|██████▋   | 246764/371472 [8:35:42<9:41:13,  3.58it/s] 66%|██████▋   | 246765/371472 [8:35:43<9:24:39,  3.68it/s] 66%|██████▋   | 246766/371472 [8:35:43<9:12:21,  3.76it/s] 66%|██████▋   | 246767/371472 [8:35:43<9:21:11,  3.70it/s] 66%|██████▋   | 246768/371472 [8:35:43<9:26:48,  3.67it/s] 66%|██████▋   | 246769/371472 [8:35:44<9:15:32,  3.74it/s] 66%|██████▋   | 246770/371472 [8:35:44<9:02:55,  3.83it/s] 66%|██████▋   | 246771/371472 [8:35:44<9:07:32,  3.80it/s] 66%|██████▋   | 246772/371472 [8:35:45<9:23:22,  3.69it/s] 66%|██████▋   | 246773/371472 [8:35:45<9:17:22,  3.73it/s] 66%|██████▋   | 246774/371472 [8:35:45<9:09:09,  3.78it/s] 66%|██████▋   | 246775/371472 [8:35:45<9:17:32,  3.73it/s] 66%|██████▋   | 246776/371472 [8:35:46<9:01:59,  3.83it/s] 66%|██████▋   | 246777/371472 [8:35:46<8:53:11,  3.90it/s] 66%|██████▋   | 246778/371472 [8:35:46<8:39:17,  4.00it/s] 66%|██████▋   | 246779/371472 [8:35:46<9:54:31,  3.50it/s] 66%|██████▋   | 246780/371472 [8:35:47<9:45:03,  3.55it/s]                                                           {'loss': 2.9584, 'learning_rate': 4.022657243207137e-07, 'epoch': 10.63}
 66%|██████▋   | 246780/371472 [8:35:47<9:45:03,  3.55it/s] 66%|██████▋   | 246781/371472 [8:35:47<9:47:23,  3.54it/s] 66%|██████▋   | 246782/371472 [8:35:47<9:48:41,  3.53it/s] 66%|██████▋   | 246783/371472 [8:35:48<9:30:00,  3.65it/s] 66%|██████▋   | 246784/371472 [8:35:48<9:11:18,  3.77it/s] 66%|██████▋   | 246785/371472 [8:35:48<8:46:02,  3.95it/s] 66%|██████▋   | 246786/371472 [8:35:48<8:53:09,  3.90it/s] 66%|██████▋   | 246787/371472 [8:35:49<8:46:39,  3.95it/s] 66%|██████▋   | 246788/371472 [8:35:49<8:41:27,  3.99it/s] 66%|██████▋   | 246789/371472 [8:35:49<9:04:08,  3.82it/s] 66%|██████▋   | 246790/371472 [8:35:49<8:57:50,  3.86it/s] 66%|██████▋   | 246791/371472 [8:35:50<8:52:18,  3.90it/s] 66%|██████▋   | 246792/371472 [8:35:50<8:57:40,  3.86it/s] 66%|██████▋   | 246793/371472 [8:35:50<9:06:38,  3.80it/s] 66%|██████▋   | 246794/371472 [8:35:50<9:31:51,  3.63it/s] 66%|██████▋   | 246795/371472 [8:35:51<9:21:22,  3.70it/s] 66%|██████▋   | 246796/371472 [8:35:51<9:22:30,  3.69it/s] 66%|██████▋   | 246797/371472 [8:35:51<10:08:01,  3.42it/s] 66%|██████▋   | 246798/371472 [8:35:52<9:50:23,  3.52it/s]  66%|██████▋   | 246799/371472 [8:35:52<9:38:58,  3.59it/s] 66%|██████▋   | 246800/371472 [8:35:52<9:58:45,  3.47it/s]                                                           {'loss': 2.9363, 'learning_rate': 4.022172423452347e-07, 'epoch': 10.63}
 66%|██████▋   | 246800/371472 [8:35:52<9:58:45,  3.47it/s] 66%|██████▋   | 246801/371472 [8:35:52<9:39:34,  3.59it/s] 66%|██████▋   | 246802/371472 [8:35:53<9:55:52,  3.49it/s] 66%|██████▋   | 246803/371472 [8:35:53<9:51:07,  3.51it/s] 66%|██████▋   | 246804/371472 [8:35:53<10:37:46,  3.26it/s] 66%|██████▋   | 246805/371472 [8:35:54<10:21:11,  3.34it/s] 66%|██████▋   | 246806/371472 [8:35:54<11:39:16,  2.97it/s] 66%|██████▋   | 246807/371472 [8:35:54<10:46:13,  3.22it/s] 66%|██████▋   | 246808/371472 [8:35:55<10:13:41,  3.39it/s] 66%|██████▋   | 246809/371472 [8:35:55<10:09:11,  3.41it/s] 66%|██████▋   | 246810/371472 [8:35:55<10:12:44,  3.39it/s] 66%|██████▋   | 246811/371472 [8:35:55<10:00:00,  3.46it/s] 66%|██████▋   | 246812/371472 [8:35:56<9:43:54,  3.56it/s]  66%|██████▋   | 246813/371472 [8:35:56<9:52:46,  3.50it/s] 66%|██████▋   | 246814/371472 [8:35:56<9:31:59,  3.63it/s] 66%|██████▋   | 246815/371472 [8:35:56<9:13:23,  3.75it/s] 66%|██████▋   | 246816/371472 [8:35:57<9:58:46,  3.47it/s] 66%|██████▋   | 246817/371472 [8:35:57<9:45:47,  3.55it/s] 66%|██████▋   | 246818/371472 [8:35:57<9:19:07,  3.72it/s] 66%|██████▋   | 246819/371472 [8:35:58<10:03:30,  3.44it/s] 66%|██████▋   | 246820/371472 [8:35:58<9:26:58,  3.66it/s]                                                            {'loss': 2.7414, 'learning_rate': 4.021687603697559e-07, 'epoch': 10.63}
 66%|██████▋   | 246820/371472 [8:35:58<9:26:58,  3.66it/s] 66%|██████▋   | 246821/371472 [8:35:58<9:22:03,  3.70it/s] 66%|██████▋   | 246822/371472 [8:35:58<9:22:45,  3.69it/s] 66%|██████▋   | 246823/371472 [8:35:59<9:40:47,  3.58it/s] 66%|██████▋   | 246824/371472 [8:35:59<9:29:30,  3.65it/s] 66%|██████▋   | 246825/371472 [8:35:59<9:21:49,  3.70it/s] 66%|██████▋   | 246826/371472 [8:35:59<9:17:46,  3.72it/s] 66%|██████▋   | 246827/371472 [8:36:00<8:57:24,  3.87it/s] 66%|██████▋   | 246828/371472 [8:36:00<8:50:40,  3.91it/s] 66%|██████▋   | 246829/371472 [8:36:00<9:15:44,  3.74it/s] 66%|██████▋   | 246830/371472 [8:36:00<9:04:16,  3.82it/s] 66%|██████▋   | 246831/371472 [8:36:01<9:11:17,  3.77it/s] 66%|██████▋   | 246832/371472 [8:36:01<9:42:58,  3.56it/s] 66%|██████▋   | 246833/371472 [8:36:01<9:41:54,  3.57it/s] 66%|██████▋   | 246834/371472 [8:36:02<9:33:53,  3.62it/s] 66%|██████▋   | 246835/371472 [8:36:02<9:30:47,  3.64it/s] 66%|██████▋   | 246836/371472 [8:36:02<9:50:42,  3.52it/s] 66%|██████▋   | 246837/371472 [8:36:02<9:36:04,  3.61it/s] 66%|██████▋   | 246838/371472 [8:36:03<9:31:55,  3.63it/s] 66%|██████▋   | 246839/371472 [8:36:03<9:29:57,  3.64it/s] 66%|██████▋   | 246840/371472 [8:36:03<9:20:08,  3.71it/s]                                                           {'loss': 2.8153, 'learning_rate': 4.0212027839427696e-07, 'epoch': 10.63}
 66%|██████▋   | 246840/371472 [8:36:03<9:20:08,  3.71it/s] 66%|██████▋   | 246841/371472 [8:36:04<9:40:46,  3.58it/s] 66%|██████▋   | 246842/371472 [8:36:04<9:45:07,  3.55it/s] 66%|██████▋   | 246843/371472 [8:36:04<9:19:42,  3.71it/s] 66%|██████▋   | 246844/371472 [8:36:04<9:25:00,  3.68it/s] 66%|██████▋   | 246845/371472 [8:36:05<9:26:57,  3.66it/s] 66%|██████▋   | 246846/371472 [8:36:05<9:52:03,  3.51it/s] 66%|██████▋   | 246847/371472 [8:36:05<9:43:42,  3.56it/s] 66%|██████▋   | 246848/371472 [8:36:05<9:30:01,  3.64it/s] 66%|██████▋   | 246849/371472 [8:36:06<9:47:08,  3.54it/s] 66%|██████▋   | 246850/371472 [8:36:06<10:15:54,  3.37it/s] 66%|██████▋   | 246851/371472 [8:36:06<10:00:23,  3.46it/s] 66%|██████▋   | 246852/371472 [8:36:07<9:44:47,  3.55it/s]  66%|██████▋   | 246853/371472 [8:36:07<10:09:14,  3.41it/s] 66%|██████▋   | 246854/371472 [8:36:07<10:37:42,  3.26it/s] 66%|██████▋   | 246855/371472 [8:36:08<10:38:40,  3.25it/s] 66%|██████▋   | 246856/371472 [8:36:08<10:07:29,  3.42it/s] 66%|██████▋   | 246857/371472 [8:36:08<9:40:28,  3.58it/s]  66%|██████▋   | 246858/371472 [8:36:08<9:23:10,  3.69it/s] 66%|██████▋   | 246859/371472 [8:36:09<9:54:07,  3.50it/s] 66%|██████▋   | 246860/371472 [8:36:09<9:54:32,  3.49it/s]                                                           {'loss': 2.8522, 'learning_rate': 4.020717964187981e-07, 'epoch': 10.63}
 66%|██████▋   | 246860/371472 [8:36:09<9:54:32,  3.49it/s] 66%|██████▋   | 246861/371472 [8:36:09<9:32:39,  3.63it/s] 66%|██████▋   | 246862/371472 [8:36:10<9:40:17,  3.58it/s] 66%|██████▋   | 246863/371472 [8:36:10<9:45:28,  3.55it/s] 66%|██████▋   | 246864/371472 [8:36:10<9:21:35,  3.70it/s] 66%|██████▋   | 246865/371472 [8:36:10<9:11:11,  3.77it/s] 66%|██████▋   | 246866/371472 [8:36:11<8:47:36,  3.94it/s] 66%|██████▋   | 246867/371472 [8:36:11<9:06:03,  3.80it/s] 66%|██████▋   | 246868/371472 [8:36:11<9:05:57,  3.80it/s] 66%|██████▋   | 246869/371472 [8:36:11<8:59:06,  3.85it/s] 66%|██████▋   | 246870/371472 [8:36:12<9:56:32,  3.48it/s] 66%|██████▋   | 246871/371472 [8:36:12<9:50:53,  3.51it/s] 66%|██████▋   | 246872/371472 [8:36:12<9:43:36,  3.56it/s] 66%|██████▋   | 246873/371472 [8:36:13<9:26:22,  3.67it/s] 66%|██████▋   | 246874/371472 [8:36:13<9:10:06,  3.77it/s] 66%|██████▋   | 246875/371472 [8:36:13<9:25:09,  3.67it/s] 66%|██████▋   | 246876/371472 [8:36:13<9:15:00,  3.74it/s] 66%|██████▋   | 246877/371472 [8:36:14<9:13:43,  3.75it/s] 66%|██████▋   | 246878/371472 [8:36:14<9:46:47,  3.54it/s] 66%|██████▋   | 246879/371472 [8:36:14<9:41:51,  3.57it/s] 66%|██████▋   | 246880/371472 [8:36:14<9:43:36,  3.56it/s]                                                           {'loss': 2.8492, 'learning_rate': 4.0202331444331915e-07, 'epoch': 10.63}
 66%|██████▋   | 246880/371472 [8:36:14<9:43:36,  3.56it/s] 66%|██████▋   | 246881/371472 [8:36:15<9:45:49,  3.54it/s] 66%|██████▋   | 246882/371472 [8:36:15<9:59:48,  3.46it/s] 66%|██████▋   | 246883/371472 [8:36:15<9:31:08,  3.64it/s] 66%|██████▋   | 246884/371472 [8:36:16<9:22:39,  3.69it/s] 66%|██████▋   | 246885/371472 [8:36:16<9:22:14,  3.69it/s] 66%|██████▋   | 246886/371472 [8:36:16<9:23:15,  3.69it/s] 66%|██████▋   | 246887/371472 [8:36:16<9:25:46,  3.67it/s] 66%|██████▋   | 246888/371472 [8:36:17<10:12:37,  3.39it/s] 66%|██████▋   | 246889/371472 [8:36:17<9:51:43,  3.51it/s]  66%|██████▋   | 246890/371472 [8:36:17<10:39:25,  3.25it/s] 66%|██████▋   | 246891/371472 [8:36:18<10:34:05,  3.27it/s] 66%|██████▋   | 246892/371472 [8:36:18<9:59:47,  3.46it/s]  66%|██████▋   | 246893/371472 [8:36:18<10:39:16,  3.25it/s] 66%|██████▋   | 246894/371472 [8:36:18<10:11:51,  3.39it/s] 66%|██████▋   | 246895/371472 [8:36:19<9:53:40,  3.50it/s]  66%|██████▋   | 246896/371472 [8:36:19<9:57:46,  3.47it/s] 66%|██████▋   | 246897/371472 [8:36:19<9:47:15,  3.54it/s] 66%|██████▋   | 246898/371472 [8:36:20<9:39:29,  3.58it/s] 66%|██████▋   | 246899/371472 [8:36:20<9:19:01,  3.71it/s] 66%|██████▋   | 246900/371472 [8:36:20<9:36:37,  3.60it/s]                                                           {'loss': 2.8646, 'learning_rate': 4.0197483246784033e-07, 'epoch': 10.63}
 66%|██████▋   | 246900/371472 [8:36:20<9:36:37,  3.60it/s] 66%|██████▋   | 246901/371472 [8:36:20<9:45:32,  3.55it/s] 66%|██████▋   | 246902/371472 [8:36:21<9:39:50,  3.58it/s] 66%|██████▋   | 246903/371472 [8:36:21<10:26:52,  3.31it/s] 66%|██████▋   | 246904/371472 [8:36:21<10:09:40,  3.41it/s] 66%|██████▋   | 246905/371472 [8:36:22<9:59:09,  3.47it/s]  66%|██████▋   | 246906/371472 [8:36:22<9:56:42,  3.48it/s] 66%|██████▋   | 246907/371472 [8:36:22<10:01:09,  3.45it/s] 66%|██████▋   | 246908/371472 [8:36:22<10:00:14,  3.46it/s] 66%|██████▋   | 246909/371472 [8:36:23<9:35:34,  3.61it/s]  66%|██████▋   | 246910/371472 [8:36:23<10:02:48,  3.44it/s] 66%|██████▋   | 246911/371472 [8:36:23<10:14:17,  3.38it/s] 66%|██████▋   | 246912/371472 [8:36:24<9:53:32,  3.50it/s]  66%|██████▋   | 246913/371472 [8:36:24<9:30:23,  3.64it/s] 66%|██████▋   | 246914/371472 [8:36:24<9:20:59,  3.70it/s] 66%|██████▋   | 246915/371472 [8:36:24<8:58:41,  3.85it/s] 66%|██████▋   | 246916/371472 [8:36:25<9:40:20,  3.58it/s] 66%|██████▋   | 246917/371472 [8:36:25<9:43:38,  3.56it/s] 66%|██████▋   | 246918/371472 [8:36:25<9:45:17,  3.55it/s] 66%|██████▋   | 246919/371472 [8:36:26<9:34:05,  3.62it/s] 66%|██████▋   | 246920/371472 [8:36:26<9:23:34,  3.68it/s]                                                           {'loss': 2.8443, 'learning_rate': 4.019263504923614e-07, 'epoch': 10.64}
 66%|██████▋   | 246920/371472 [8:36:26<9:23:34,  3.68it/s] 66%|██████▋   | 246921/371472 [8:36:26<9:01:36,  3.83it/s] 66%|██████▋   | 246922/371472 [8:36:26<9:18:24,  3.72it/s] 66%|██████▋   | 246923/371472 [8:36:27<9:17:31,  3.72it/s] 66%|██████▋   | 246924/371472 [8:36:27<9:36:03,  3.60it/s] 66%|██████▋   | 246925/371472 [8:36:27<9:31:44,  3.63it/s] 66%|██████▋   | 246926/371472 [8:36:27<9:33:42,  3.62it/s] 66%|██████▋   | 246927/371472 [8:36:28<9:26:39,  3.66it/s] 66%|██████▋   | 246928/371472 [8:36:28<9:14:44,  3.74it/s] 66%|██████▋   | 246929/371472 [8:36:28<9:41:12,  3.57it/s] 66%|██████▋   | 246930/371472 [8:36:29<10:37:08,  3.26it/s] 66%|██████▋   | 246931/371472 [8:36:29<10:20:47,  3.34it/s] 66%|██████▋   | 246932/371472 [8:36:29<10:08:54,  3.41it/s] 66%|██████▋   | 246933/371472 [8:36:29<9:48:17,  3.53it/s]  66%|██████▋   | 246934/371472 [8:36:30<9:28:40,  3.65it/s] 66%|██████▋   | 246935/371472 [8:36:30<9:23:37,  3.68it/s] 66%|██████▋   | 246936/371472 [8:36:30<9:21:56,  3.69it/s] 66%|██████▋   | 246937/371472 [8:36:31<9:46:45,  3.54it/s] 66%|██████▋   | 246938/371472 [8:36:31<9:48:25,  3.53it/s] 66%|██████▋   | 246939/371472 [8:36:31<9:29:54,  3.64it/s] 66%|██████▋   | 246940/371472 [8:36:31<9:56:20,  3.48it/s]                                                           {'loss': 2.934, 'learning_rate': 4.018778685168824e-07, 'epoch': 10.64}
 66%|██████▋   | 246940/371472 [8:36:31<9:56:20,  3.48it/s] 66%|██████▋   | 246941/371472 [8:36:32<11:33:25,  2.99it/s] 66%|██████▋   | 246942/371472 [8:36:32<10:48:58,  3.20it/s] 66%|██████▋   | 246943/371472 [8:36:32<10:12:24,  3.39it/s] 66%|██████▋   | 246944/371472 [8:36:33<10:07:43,  3.42it/s] 66%|██████▋   | 246945/371472 [8:36:33<9:46:33,  3.54it/s]  66%|██████▋   | 246946/371472 [8:36:33<9:47:31,  3.53it/s] 66%|██████▋   | 246947/371472 [8:36:33<9:46:54,  3.54it/s] 66%|██████▋   | 246948/371472 [8:36:34<10:03:09,  3.44it/s] 66%|██████▋   | 246949/371472 [8:36:34<10:13:27,  3.38it/s] 66%|██████▋   | 246950/371472 [8:36:34<9:40:18,  3.58it/s]  66%|██████▋   | 246951/371472 [8:36:35<9:43:28,  3.56it/s] 66%|██████▋   | 246952/371472 [8:36:35<9:44:25,  3.55it/s] 66%|██████▋   | 246953/371472 [8:36:35<10:51:45,  3.18it/s] 66%|██████▋   | 246954/371472 [8:36:36<10:28:05,  3.30it/s] 66%|██████▋   | 246955/371472 [8:36:36<10:26:21,  3.31it/s] 66%|██████▋   | 246956/371472 [8:36:36<10:13:53,  3.38it/s] 66%|██████▋   | 246957/371472 [8:36:36<10:49:36,  3.19it/s] 66%|██████▋   | 246958/371472 [8:36:37<10:25:26,  3.32it/s] 66%|██████▋   | 246959/371472 [8:36:37<9:56:22,  3.48it/s]  66%|██████▋   | 246960/371472 [8:36:37<9:40:01,  3.58it/s]                                                           {'loss': 2.8241, 'learning_rate': 4.018293865414036e-07, 'epoch': 10.64}
 66%|██████▋   | 246960/371472 [8:36:37<9:40:01,  3.58it/s] 66%|██████▋   | 246961/371472 [8:36:38<10:01:32,  3.45it/s] 66%|██████▋   | 246962/371472 [8:36:38<10:04:01,  3.44it/s] 66%|██████▋   | 246963/371472 [8:36:38<9:40:49,  3.57it/s]  66%|██████▋   | 246964/371472 [8:36:38<9:32:16,  3.63it/s] 66%|██████▋   | 246965/371472 [8:36:39<12:24:19,  2.79it/s] 66%|██████▋   | 246966/371472 [8:36:39<11:31:20,  3.00it/s] 66%|██████▋   | 246967/371472 [8:36:40<11:00:33,  3.14it/s] 66%|██████▋   | 246968/371472 [8:36:40<10:17:39,  3.36it/s] 66%|██████▋   | 246969/371472 [8:36:40<10:08:27,  3.41it/s] 66%|██████▋   | 246970/371472 [8:36:40<9:59:46,  3.46it/s]  66%|██████▋   | 246971/371472 [8:36:41<9:53:10,  3.50it/s] 66%|██████▋   | 246972/371472 [8:36:41<10:00:13,  3.46it/s] 66%|██████▋   | 246973/371472 [8:36:41<9:56:00,  3.48it/s]  66%|██████▋   | 246974/371472 [8:36:41<9:32:47,  3.62it/s] 66%|██████▋   | 246975/371472 [8:36:42<9:50:04,  3.52it/s] 66%|██████▋   | 246976/371472 [8:36:42<9:21:48,  3.69it/s] 66%|██████▋   | 246977/371472 [8:36:42<9:09:06,  3.78it/s] 66%|██████▋   | 246978/371472 [8:36:43<9:23:01,  3.69it/s] 66%|██████▋   | 246979/371472 [8:36:43<9:52:01,  3.50it/s] 66%|██████▋   | 246980/371472 [8:36:43<9:59:12,  3.46it/s]                                                           {'loss': 2.8886, 'learning_rate': 4.0178090456592467e-07, 'epoch': 10.64}
 66%|██████▋   | 246980/371472 [8:36:43<9:59:12,  3.46it/s] 66%|██████▋   | 246981/371472 [8:36:43<9:48:55,  3.52it/s] 66%|██████▋   | 246982/371472 [8:36:44<9:22:52,  3.69it/s] 66%|██████▋   | 246983/371472 [8:36:44<9:50:54,  3.51it/s] 66%|██████▋   | 246984/371472 [8:36:44<9:34:05,  3.61it/s] 66%|██████▋   | 246985/371472 [8:36:44<9:26:28,  3.66it/s] 66%|██████▋   | 246986/371472 [8:36:45<9:20:49,  3.70it/s] 66%|██████▋   | 246987/371472 [8:36:45<11:18:01,  3.06it/s] 66%|██████▋   | 246988/371472 [8:36:45<10:59:57,  3.14it/s] 66%|██████▋   | 246989/371472 [8:36:46<10:55:38,  3.16it/s] 66%|██████▋   | 246990/371472 [8:36:46<11:18:11,  3.06it/s] 66%|██████▋   | 246991/371472 [8:36:46<11:10:40,  3.09it/s] 66%|██████▋   | 246992/371472 [8:36:47<10:28:22,  3.30it/s] 66%|██████▋   | 246993/371472 [8:36:47<10:23:16,  3.33it/s] 66%|██████▋   | 246994/371472 [8:36:47<10:23:19,  3.33it/s] 66%|██████▋   | 246995/371472 [8:36:48<10:12:47,  3.39it/s] 66%|██████▋   | 246996/371472 [8:36:48<9:50:34,  3.51it/s]  66%|██████▋   | 246997/371472 [8:36:48<10:02:40,  3.44it/s] 66%|██████▋   | 246998/371472 [8:36:48<9:41:56,  3.56it/s]  66%|██████▋   | 246999/371472 [8:36:49<9:24:11,  3.68it/s] 66%|██████▋   | 247000/371472 [8:36:49<9:08:10,  3.78it/s]                                                           {'loss': 2.7455, 'learning_rate': 4.0173242259044584e-07, 'epoch': 10.64}
 66%|██████▋   | 247000/371472 [8:36:49<9:08:10,  3.78it/s] 66%|██████▋   | 247001/371472 [8:36:49<9:30:23,  3.64it/s] 66%|██████▋   | 247002/371472 [8:36:50<9:50:33,  3.51it/s] 66%|██████▋   | 247003/371472 [8:36:50<9:52:29,  3.50it/s] 66%|██████▋   | 247004/371472 [8:36:50<10:12:39,  3.39it/s] 66%|██████▋   | 247005/371472 [8:36:50<9:47:23,  3.53it/s]  66%|██████▋   | 247006/371472 [8:36:51<9:50:59,  3.51it/s] 66%|██████▋   | 247007/371472 [8:36:51<9:44:32,  3.55it/s] 66%|██████▋   | 247008/371472 [8:36:51<9:43:18,  3.56it/s] 66%|██████▋   | 247009/371472 [8:36:51<9:18:00,  3.72it/s] 66%|██████▋   | 247010/371472 [8:36:52<9:32:55,  3.62it/s] 66%|██████▋   | 247011/371472 [8:36:52<9:10:41,  3.77it/s] 66%|██████▋   | 247012/371472 [8:36:52<8:59:59,  3.84it/s] 66%|██████▋   | 247013/371472 [8:36:53<9:20:02,  3.70it/s] 66%|██████▋   | 247014/371472 [8:36:53<9:50:20,  3.51it/s] 66%|██████▋   | 247015/371472 [8:36:53<9:21:43,  3.69it/s] 66%|██████▋   | 247016/371472 [8:36:53<9:27:27,  3.66it/s] 66%|██████▋   | 247017/371472 [8:36:54<9:15:54,  3.73it/s] 66%|██████▋   | 247018/371472 [8:36:54<9:46:17,  3.54it/s] 66%|██████▋   | 247019/371472 [8:36:54<9:19:37,  3.71it/s] 66%|██████▋   | 247020/371472 [8:36:54<9:18:32,  3.71it/s]                                                           {'loss': 2.9546, 'learning_rate': 4.0168394061496686e-07, 'epoch': 10.64}
 66%|██████▋   | 247020/371472 [8:36:54<9:18:32,  3.71it/s] 66%|██████▋   | 247021/371472 [8:36:55<9:18:46,  3.71it/s] 66%|██████▋   | 247022/371472 [8:36:55<9:05:22,  3.80it/s] 66%|██████▋   | 247023/371472 [8:36:55<9:30:00,  3.64it/s] 66%|██████▋   | 247024/371472 [8:36:56<9:21:06,  3.70it/s] 66%|██████▋   | 247025/371472 [8:36:56<10:03:32,  3.44it/s] 66%|██████▋   | 247026/371472 [8:36:56<10:04:01,  3.43it/s] 66%|██████▋   | 247027/371472 [8:36:56<9:40:41,  3.57it/s]  66%|██████▋   | 247028/371472 [8:36:57<9:42:28,  3.56it/s] 67%|██████▋   | 247029/371472 [8:36:57<9:23:54,  3.68it/s] 67%|██████▋   | 247030/371472 [8:36:57<9:16:08,  3.73it/s] 67%|██████▋   | 247031/371472 [8:36:58<9:47:21,  3.53it/s] 67%|██████▋   | 247032/371472 [8:36:58<9:46:54,  3.53it/s] 67%|██████▋   | 247033/371472 [8:36:58<9:52:02,  3.50it/s] 67%|██████▋   | 247034/371472 [8:36:58<9:43:19,  3.56it/s] 67%|██████▋   | 247035/371472 [8:36:59<9:38:31,  3.58it/s] 67%|██████▋   | 247036/371472 [8:36:59<9:08:35,  3.78it/s] 67%|██████▋   | 247037/371472 [8:36:59<9:40:01,  3.58it/s] 67%|██████▋   | 247038/371472 [8:36:59<9:09:23,  3.77it/s] 67%|██████▋   | 247039/371472 [8:37:00<9:10:24,  3.77it/s] 67%|██████▋   | 247040/371472 [8:37:00<8:56:26,  3.87it/s]                                                           {'loss': 2.6874, 'learning_rate': 4.0163545863948804e-07, 'epoch': 10.64}
 67%|██████▋   | 247040/371472 [8:37:00<8:56:26,  3.87it/s] 67%|██████▋   | 247041/371472 [8:37:00<8:58:30,  3.85it/s] 67%|██████▋   | 247042/371472 [8:37:01<9:13:52,  3.74it/s] 67%|██████▋   | 247043/371472 [8:37:01<9:15:18,  3.73it/s] 67%|██████▋   | 247044/371472 [8:37:01<9:00:11,  3.84it/s] 67%|██████▋   | 247045/371472 [8:37:01<8:58:19,  3.85it/s] 67%|██████▋   | 247046/371472 [8:37:02<9:00:00,  3.84it/s] 67%|██████▋   | 247047/371472 [8:37:02<8:42:30,  3.97it/s] 67%|██████▋   | 247048/371472 [8:37:02<8:49:13,  3.92it/s] 67%|██████▋   | 247049/371472 [8:37:02<8:49:47,  3.91it/s] 67%|██████▋   | 247050/371472 [8:37:03<9:19:03,  3.71it/s] 67%|██████▋   | 247051/371472 [8:37:03<9:33:22,  3.62it/s] 67%|██████▋   | 247052/371472 [8:37:03<9:24:49,  3.67it/s] 67%|██████▋   | 247053/371472 [8:37:03<9:07:57,  3.78it/s] 67%|██████▋   | 247054/371472 [8:37:04<8:52:03,  3.90it/s] 67%|██████▋   | 247055/371472 [8:37:04<8:37:07,  4.01it/s] 67%|██████▋   | 247056/371472 [8:37:04<8:35:06,  4.03it/s] 67%|██████▋   | 247057/371472 [8:37:04<8:22:08,  4.13it/s] 67%|██████▋   | 247058/371472 [8:37:05<8:48:19,  3.92it/s] 67%|██████▋   | 247059/371472 [8:37:05<9:01:50,  3.83it/s] 67%|██████▋   | 247060/371472 [8:37:05<9:45:33,  3.54it/s]                                                           {'loss': 2.9298, 'learning_rate': 4.0158697666400906e-07, 'epoch': 10.64}
 67%|██████▋   | 247060/371472 [8:37:05<9:45:33,  3.54it/s] 67%|██████▋   | 247061/371472 [8:37:06<9:43:44,  3.55it/s] 67%|██████▋   | 247062/371472 [8:37:06<9:38:01,  3.59it/s] 67%|██████▋   | 247063/371472 [8:37:06<9:39:21,  3.58it/s] 67%|██████▋   | 247064/371472 [8:37:06<9:41:32,  3.57it/s] 67%|██████▋   | 247065/371472 [8:37:07<9:57:55,  3.47it/s] 67%|██████▋   | 247066/371472 [8:37:07<9:53:44,  3.49it/s] 67%|██████▋   | 247067/371472 [8:37:07<9:29:28,  3.64it/s] 67%|██████▋   | 247068/371472 [8:37:07<9:26:12,  3.66it/s] 67%|██████▋   | 247069/371472 [8:37:08<9:22:03,  3.69it/s] 67%|██████▋   | 247070/371472 [8:37:08<9:35:23,  3.60it/s] 67%|██████▋   | 247071/371472 [8:37:08<9:32:06,  3.62it/s] 67%|██████▋   | 247072/371472 [8:37:09<9:24:28,  3.67it/s] 67%|██████▋   | 247073/371472 [8:37:09<9:30:10,  3.64it/s] 67%|██████▋   | 247074/371472 [8:37:09<9:46:31,  3.53it/s] 67%|██████▋   | 247075/371472 [8:37:09<10:14:02,  3.38it/s] 67%|██████▋   | 247076/371472 [8:37:10<9:56:15,  3.48it/s]  67%|██████▋   | 247077/371472 [8:37:10<10:35:31,  3.26it/s] 67%|██████▋   | 247078/371472 [8:37:10<10:13:44,  3.38it/s] 67%|██████▋   | 247079/371472 [8:37:11<9:57:12,  3.47it/s]  67%|██████▋   | 247080/371472 [8:37:11<9:45:14,  3.54it/s]                                                           {'loss': 2.8487, 'learning_rate': 4.0153849468853024e-07, 'epoch': 10.64}
 67%|██████▋   | 247080/371472 [8:37:11<9:45:14,  3.54it/s] 67%|██████▋   | 247081/371472 [8:37:11<9:49:39,  3.52it/s] 67%|██████▋   | 247082/371472 [8:37:12<10:37:00,  3.25it/s] 67%|██████▋   | 247083/371472 [8:37:12<10:39:01,  3.24it/s] 67%|██████▋   | 247084/371472 [8:37:12<10:14:49,  3.37it/s] 67%|██████▋   | 247085/371472 [8:37:12<10:43:04,  3.22it/s] 67%|██████▋   | 247086/371472 [8:37:13<10:18:46,  3.35it/s] 67%|██████▋   | 247087/371472 [8:37:13<10:26:56,  3.31it/s] 67%|██████▋   | 247088/371472 [8:37:13<10:38:58,  3.24it/s] 67%|██████▋   | 247089/371472 [8:37:14<10:02:51,  3.44it/s] 67%|██████▋   | 247090/371472 [8:37:14<9:39:37,  3.58it/s]  67%|██████▋   | 247091/371472 [8:37:14<9:37:57,  3.59it/s] 67%|██████▋   | 247092/371472 [8:37:14<9:30:40,  3.63it/s] 67%|██████▋   | 247093/371472 [8:37:15<9:47:40,  3.53it/s] 67%|██████▋   | 247094/371472 [8:37:15<9:49:33,  3.52it/s] 67%|██████▋   | 247095/371472 [8:37:15<9:52:13,  3.50it/s] 67%|██████▋   | 247096/371472 [8:37:16<11:02:44,  3.13it/s] 67%|██████▋   | 247097/371472 [8:37:16<10:55:14,  3.16it/s] 67%|██████▋   | 247098/371472 [8:37:16<11:20:58,  3.04it/s] 67%|██████▋   | 247099/371472 [8:37:17<10:32:21,  3.28it/s] 67%|██████▋   | 247100/371472 [8:37:17<10:48:25,  3.20it/s]                                                            {'loss': 2.8698, 'learning_rate': 4.014900127130513e-07, 'epoch': 10.64}
 67%|██████▋   | 247100/371472 [8:37:17<10:48:25,  3.20it/s] 67%|██████▋   | 247101/371472 [8:37:17<10:41:20,  3.23it/s] 67%|██████▋   | 247102/371472 [8:37:18<11:32:43,  2.99it/s] 67%|██████▋   | 247103/371472 [8:37:18<11:04:41,  3.12it/s] 67%|██████▋   | 247104/371472 [8:37:18<11:33:27,  2.99it/s] 67%|██████▋   | 247105/371472 [8:37:19<11:11:43,  3.09it/s] 67%|██████▋   | 247106/371472 [8:37:19<11:13:49,  3.08it/s] 67%|██████▋   | 247107/371472 [8:37:19<10:17:48,  3.35it/s] 67%|██████▋   | 247108/371472 [8:37:19<10:01:43,  3.44it/s] 67%|██████▋   | 247109/371472 [8:37:20<10:14:14,  3.37it/s] 67%|██████▋   | 247110/371472 [8:37:20<10:09:16,  3.40it/s] 67%|██████▋   | 247111/371472 [8:37:20<9:35:01,  3.60it/s]  67%|██████▋   | 247112/371472 [8:37:21<10:22:24,  3.33it/s] 67%|██████▋   | 247113/371472 [8:37:21<11:23:00,  3.03it/s] 67%|██████▋   | 247114/371472 [8:37:21<10:44:12,  3.22it/s] 67%|██████▋   | 247115/371472 [8:37:21<9:53:08,  3.49it/s]  67%|██████▋   | 247116/371472 [8:37:22<9:26:23,  3.66it/s] 67%|██████▋   | 247117/371472 [8:37:22<9:13:30,  3.74it/s] 67%|██████▋   | 247118/371472 [8:37:22<9:13:15,  3.75it/s] 67%|██████▋   | 247119/371472 [8:37:23<9:32:50,  3.62it/s] 67%|██████▋   | 247120/371472 [8:37:23<10:13:45,  3.38it/s]                                                            {'loss': 2.9566, 'learning_rate': 4.0144153073757243e-07, 'epoch': 10.64}
 67%|██████▋   | 247120/371472 [8:37:23<10:13:45,  3.38it/s] 67%|██████▋   | 247121/371472 [8:37:23<10:44:33,  3.22it/s] 67%|██████▋   | 247122/371472 [8:37:24<10:31:57,  3.28it/s] 67%|██████▋   | 247123/371472 [8:37:24<9:51:28,  3.50it/s]  67%|██████▋   | 247124/371472 [8:37:24<9:20:11,  3.70it/s] 67%|██████▋   | 247125/371472 [8:37:24<9:51:52,  3.50it/s] 67%|██████▋   | 247126/371472 [8:37:25<9:55:30,  3.48it/s] 67%|██████▋   | 247127/371472 [8:37:25<9:44:16,  3.55it/s] 67%|██████▋   | 247128/371472 [8:37:25<9:17:49,  3.72it/s] 67%|██████▋   | 247129/371472 [8:37:25<9:02:54,  3.82it/s] 67%|██████▋   | 247130/371472 [8:37:26<9:25:21,  3.67it/s] 67%|██████▋   | 247131/371472 [8:37:26<9:08:07,  3.78it/s] 67%|██████▋   | 247132/371472 [8:37:26<9:20:12,  3.70it/s] 67%|██████▋   | 247133/371472 [8:37:26<9:27:33,  3.65it/s] 67%|██████▋   | 247134/371472 [8:37:27<9:06:32,  3.79it/s] 67%|██████▋   | 247135/371472 [8:37:27<9:32:49,  3.62it/s] 67%|██████▋   | 247136/371472 [8:37:27<9:28:16,  3.65it/s] 67%|██████▋   | 247137/371472 [8:37:28<9:25:24,  3.67it/s] 67%|██████▋   | 247138/371472 [8:37:28<9:25:03,  3.67it/s] 67%|██████▋   | 247139/371472 [8:37:28<9:17:44,  3.72it/s] 67%|██████▋   | 247140/371472 [8:37:28<9:09:08,  3.77it/s]                                                           {'loss': 3.0913, 'learning_rate': 4.013930487620935e-07, 'epoch': 10.64}
 67%|██████▋   | 247140/371472 [8:37:28<9:09:08,  3.77it/s] 67%|██████▋   | 247141/371472 [8:37:29<9:16:23,  3.72it/s] 67%|██████▋   | 247142/371472 [8:37:29<10:15:35,  3.37it/s] 67%|██████▋   | 247143/371472 [8:37:29<10:03:27,  3.43it/s] 67%|██████▋   | 247144/371472 [8:37:30<9:52:12,  3.50it/s]  67%|██████▋   | 247145/371472 [8:37:30<9:56:02,  3.48it/s] 67%|██████▋   | 247146/371472 [8:37:30<9:38:51,  3.58it/s] 67%|██████▋   | 247147/371472 [8:37:30<9:15:53,  3.73it/s] 67%|██████▋   | 247148/371472 [8:37:31<9:33:22,  3.61it/s] 67%|██████▋   | 247149/371472 [8:37:31<9:23:17,  3.68it/s] 67%|██████▋   | 247150/371472 [8:37:31<9:28:09,  3.65it/s] 67%|██████▋   | 247151/371472 [8:37:31<9:09:28,  3.77it/s] 67%|██████▋   | 247152/371472 [8:37:32<8:58:41,  3.85it/s] 67%|██████▋   | 247153/371472 [8:37:32<9:16:42,  3.72it/s] 67%|██████▋   | 247154/371472 [8:37:32<9:44:56,  3.54it/s] 67%|██████▋   | 247155/371472 [8:37:33<10:11:22,  3.39it/s] 67%|██████▋   | 247156/371472 [8:37:33<10:23:45,  3.32it/s] 67%|██████▋   | 247157/371472 [8:37:33<9:57:20,  3.47it/s]  67%|██████▋   | 247158/371472 [8:37:33<9:32:53,  3.62it/s] 67%|██████▋   | 247159/371472 [8:37:34<9:17:33,  3.72it/s] 67%|██████▋   | 247160/371472 [8:37:34<9:19:22,  3.70it/s]                                                           {'loss': 2.9348, 'learning_rate': 4.013445667866147e-07, 'epoch': 10.65}
 67%|██████▋   | 247160/371472 [8:37:34<9:19:22,  3.70it/s] 67%|██████▋   | 247161/371472 [8:37:34<9:12:43,  3.75it/s] 67%|██████▋   | 247162/371472 [8:37:34<9:10:05,  3.77it/s] 67%|██████▋   | 247163/371472 [8:37:35<9:06:57,  3.79it/s] 67%|██████▋   | 247164/371472 [8:37:35<9:18:46,  3.71it/s] 67%|██████▋   | 247165/371472 [8:37:35<9:03:53,  3.81it/s] 67%|██████▋   | 247166/371472 [8:37:36<8:58:35,  3.85it/s] 67%|██████▋   | 247167/371472 [8:37:36<9:03:56,  3.81it/s] 67%|██████▋   | 247168/371472 [8:37:36<9:04:50,  3.80it/s] 67%|██████▋   | 247169/371472 [8:37:36<9:27:05,  3.65it/s] 67%|██████▋   | 247170/371472 [8:37:37<9:24:56,  3.67it/s] 67%|██████▋   | 247171/371472 [8:37:37<9:54:30,  3.48it/s] 67%|██████▋   | 247172/371472 [8:37:37<9:41:23,  3.56it/s] 67%|██████▋   | 247173/371472 [8:37:37<9:30:38,  3.63it/s] 67%|██████▋   | 247174/371472 [8:37:38<9:34:06,  3.61it/s] 67%|██████▋   | 247175/371472 [8:37:38<10:37:05,  3.25it/s] 67%|██████▋   | 247176/371472 [8:37:38<10:25:08,  3.31it/s] 67%|██████▋   | 247177/371472 [8:37:39<10:14:45,  3.37it/s] 67%|██████▋   | 247178/371472 [8:37:39<9:41:59,  3.56it/s]  67%|██████▋   | 247179/371472 [8:37:39<11:30:37,  3.00it/s] 67%|██████▋   | 247180/371472 [8:37:40<10:45:37,  3.21it/s]                                                            {'loss': 2.7678, 'learning_rate': 4.0129608481113575e-07, 'epoch': 10.65}
 67%|██████▋   | 247180/371472 [8:37:40<10:45:37,  3.21it/s] 67%|██████▋   | 247181/371472 [8:37:40<10:25:11,  3.31it/s] 67%|██████▋   | 247182/371472 [8:37:40<10:06:03,  3.42it/s] 67%|██████▋   | 247183/371472 [8:37:40<9:49:26,  3.51it/s]  67%|██████▋   | 247184/371472 [8:37:41<9:29:24,  3.64it/s] 67%|██████▋   | 247185/371472 [8:37:41<9:22:30,  3.68it/s] 67%|██████▋   | 247186/371472 [8:37:41<9:31:44,  3.62it/s] 67%|██████▋   | 247187/371472 [8:37:42<9:25:24,  3.66it/s] 67%|██████▋   | 247188/371472 [8:37:42<9:28:31,  3.64it/s] 67%|██████▋   | 247189/371472 [8:37:42<9:33:06,  3.61it/s] 67%|██████▋   | 247190/371472 [8:37:42<10:02:50,  3.44it/s] 67%|██████▋   | 247191/371472 [8:37:43<9:33:16,  3.61it/s]  67%|██████▋   | 247192/371472 [8:37:43<9:28:00,  3.65it/s] 67%|██████▋   | 247193/371472 [8:37:43<9:28:12,  3.65it/s] 67%|██████▋   | 247194/371472 [8:37:44<9:40:07,  3.57it/s] 67%|██████▋   | 247195/371472 [8:37:44<10:23:22,  3.32it/s] 67%|██████▋   | 247196/371472 [8:37:44<9:50:04,  3.51it/s]  67%|██████▋   | 247197/371472 [8:37:44<9:40:00,  3.57it/s] 67%|██████▋   | 247198/371472 [8:37:45<9:48:38,  3.52it/s] 67%|██████▋   | 247199/371472 [8:37:45<9:56:15,  3.47it/s] 67%|██████▋   | 247200/371472 [8:37:45<9:42:17,  3.56it/s]                                                           {'loss': 2.8038, 'learning_rate': 4.012476028356569e-07, 'epoch': 10.65}
 67%|██████▋   | 247200/371472 [8:37:45<9:42:17,  3.56it/s] 67%|██████▋   | 247201/371472 [8:37:46<9:42:50,  3.55it/s] 67%|██████▋   | 247202/371472 [8:37:46<9:40:54,  3.57it/s] 67%|██████▋   | 247203/371472 [8:37:46<10:06:30,  3.41it/s] 67%|██████▋   | 247204/371472 [8:37:46<10:32:57,  3.27it/s] 67%|██████▋   | 247205/371472 [8:37:47<11:00:45,  3.13it/s] 67%|██████▋   | 247206/371472 [8:37:47<10:45:15,  3.21it/s] 67%|██████▋   | 247207/371472 [8:37:47<10:01:12,  3.44it/s] 67%|██████▋   | 247208/371472 [8:37:48<9:40:36,  3.57it/s]  67%|██████▋   | 247209/371472 [8:37:48<9:27:16,  3.65it/s] 67%|██████▋   | 247210/371472 [8:37:48<9:23:08,  3.68it/s] 67%|██████▋   | 247211/371472 [8:37:48<9:57:30,  3.47it/s] 67%|██████▋   | 247212/371472 [8:37:49<9:26:13,  3.66it/s] 67%|██████▋   | 247213/371472 [8:37:49<9:23:54,  3.67it/s] 67%|██████▋   | 247214/371472 [8:37:49<9:49:49,  3.51it/s] 67%|██████▋   | 247215/371472 [8:37:50<9:51:33,  3.50it/s] 67%|██████▋   | 247216/371472 [8:37:50<9:52:33,  3.49it/s] 67%|██████▋   | 247217/371472 [8:37:50<10:13:55,  3.37it/s] 67%|██████▋   | 247218/371472 [8:37:50<9:55:26,  3.48it/s]  67%|██████▋   | 247219/371472 [8:37:51<9:40:16,  3.57it/s] 67%|██████▋   | 247220/371472 [8:37:51<9:41:21,  3.56it/s]                                                           {'loss': 2.7365, 'learning_rate': 4.0119912086017795e-07, 'epoch': 10.65}
 67%|██████▋   | 247220/371472 [8:37:51<9:41:21,  3.56it/s] 67%|██████▋   | 247221/371472 [8:37:51<9:36:30,  3.59it/s] 67%|██████▋   | 247222/371472 [8:37:52<9:24:04,  3.67it/s] 67%|██████▋   | 247223/371472 [8:37:52<9:46:31,  3.53it/s] 67%|██████▋   | 247224/371472 [8:37:52<9:30:58,  3.63it/s] 67%|██████▋   | 247225/371472 [8:37:52<9:10:45,  3.76it/s] 67%|██████▋   | 247226/371472 [8:37:53<9:09:46,  3.77it/s] 67%|██████▋   | 247227/371472 [8:37:53<9:37:16,  3.59it/s] 67%|██████▋   | 247228/371472 [8:37:53<9:41:25,  3.56it/s] 67%|██████▋   | 247229/371472 [8:37:54<10:28:59,  3.29it/s] 67%|██████▋   | 247230/371472 [8:37:54<10:13:25,  3.38it/s] 67%|██████▋   | 247231/371472 [8:37:54<9:51:33,  3.50it/s]  67%|██████▋   | 247232/371472 [8:37:54<10:21:01,  3.33it/s] 67%|██████▋   | 247233/371472 [8:37:55<9:37:24,  3.59it/s]  67%|██████▋   | 247234/371472 [8:37:55<9:42:39,  3.55it/s] 67%|██████▋   | 247235/371472 [8:37:55<9:55:00,  3.48it/s] 67%|██████▋   | 247236/371472 [8:37:55<9:46:30,  3.53it/s] 67%|██████▋   | 247237/371472 [8:37:56<9:25:59,  3.66it/s] 67%|██████▋   | 247238/371472 [8:37:56<10:31:40,  3.28it/s] 67%|██████▋   | 247239/371472 [8:37:56<10:18:31,  3.35it/s] 67%|██████▋   | 247240/371472 [8:37:57<10:10:39,  3.39it/s]                                                            {'loss': 2.92, 'learning_rate': 4.0115063888469907e-07, 'epoch': 10.65}
 67%|██████▋   | 247240/371472 [8:37:57<10:10:39,  3.39it/s] 67%|██████▋   | 247241/371472 [8:37:57<10:13:14,  3.38it/s] 67%|██████▋   | 247242/371472 [8:37:57<10:00:41,  3.45it/s] 67%|██████▋   | 247243/371472 [8:37:58<9:46:03,  3.53it/s]  67%|██████▋   | 247244/371472 [8:37:58<9:49:48,  3.51it/s] 67%|██████▋   | 247245/371472 [8:37:58<9:44:31,  3.54it/s] 67%|██████▋   | 247246/371472 [8:37:58<9:35:08,  3.60it/s] 67%|██████▋   | 247247/371472 [8:37:59<9:04:14,  3.80it/s] 67%|██████▋   | 247248/371472 [8:37:59<8:55:39,  3.87it/s] 67%|██████▋   | 247249/371472 [8:37:59<9:03:55,  3.81it/s] 67%|██████▋   | 247250/371472 [8:37:59<9:10:36,  3.76it/s] 67%|██████▋   | 247251/371472 [8:38:00<9:14:13,  3.74it/s] 67%|██████▋   | 247252/371472 [8:38:00<9:53:37,  3.49it/s] 67%|██████▋   | 247253/371472 [8:38:00<10:11:58,  3.38it/s] 67%|██████▋   | 247254/371472 [8:38:01<9:51:36,  3.50it/s]  67%|██████▋   | 247255/371472 [8:38:01<9:38:46,  3.58it/s] 67%|██████▋   | 247256/371472 [8:38:01<9:20:55,  3.69it/s] 67%|██████▋   | 247257/371472 [8:38:01<9:11:06,  3.76it/s] 67%|██████▋   | 247258/371472 [8:38:02<9:59:28,  3.45it/s] 67%|██████▋   | 247259/371472 [8:38:02<9:39:28,  3.57it/s] 67%|██████▋   | 247260/371472 [8:38:02<9:50:13,  3.51it/s]                                                           {'loss': 2.8063, 'learning_rate': 4.0110215690922014e-07, 'epoch': 10.65}
 67%|██████▋   | 247260/371472 [8:38:02<9:50:13,  3.51it/s] 67%|██████▋   | 247261/371472 [8:38:03<9:38:15,  3.58it/s] 67%|██████▋   | 247262/371472 [8:38:03<9:30:59,  3.63it/s] 67%|██████▋   | 247263/371472 [8:38:03<9:05:44,  3.79it/s] 67%|██████▋   | 247264/371472 [8:38:03<9:02:48,  3.81it/s] 67%|██████▋   | 247265/371472 [8:38:04<9:09:54,  3.76it/s] 67%|██████▋   | 247266/371472 [8:38:04<9:05:25,  3.80it/s] 67%|██████▋   | 247267/371472 [8:38:04<8:51:11,  3.90it/s] 67%|██████▋   | 247268/371472 [8:38:04<8:46:44,  3.93it/s] 67%|██████▋   | 247269/371472 [8:38:05<9:30:52,  3.63it/s] 67%|██████▋   | 247270/371472 [8:38:05<9:20:55,  3.69it/s] 67%|██████▋   | 247271/371472 [8:38:05<9:30:14,  3.63it/s] 67%|██████▋   | 247272/371472 [8:38:05<9:18:56,  3.70it/s] 67%|██████▋   | 247273/371472 [8:38:06<9:31:51,  3.62it/s] 67%|██████▋   | 247274/371472 [8:38:06<9:58:42,  3.46it/s] 67%|██████▋   | 247275/371472 [8:38:06<9:34:43,  3.60it/s] 67%|██████▋   | 247276/371472 [8:38:07<10:01:34,  3.44it/s] 67%|██████▋   | 247277/371472 [8:38:07<9:51:08,  3.50it/s]  67%|██████▋   | 247278/371472 [8:38:07<9:36:47,  3.59it/s] 67%|██████▋   | 247279/371472 [8:38:08<10:54:44,  3.16it/s] 67%|██████▋   | 247280/371472 [8:38:08<10:15:14,  3.36it/s]                                                            {'loss': 2.8152, 'learning_rate': 4.010536749337413e-07, 'epoch': 10.65}
 67%|██████▋   | 247280/371472 [8:38:08<10:15:14,  3.36it/s] 67%|██████▋   | 247281/371472 [8:38:08<10:29:19,  3.29it/s] 67%|██████▋   | 247282/371472 [8:38:08<10:05:11,  3.42it/s] 67%|██████▋   | 247283/371472 [8:38:09<9:36:16,  3.59it/s]  67%|██████▋   | 247284/371472 [8:38:09<9:30:00,  3.63it/s] 67%|██████▋   | 247285/371472 [8:38:09<9:31:26,  3.62it/s] 67%|██████▋   | 247286/371472 [8:38:09<9:33:08,  3.61it/s] 67%|██████▋   | 247287/371472 [8:38:10<9:14:10,  3.73it/s] 67%|██████▋   | 247288/371472 [8:38:10<8:53:27,  3.88it/s] 67%|██████▋   | 247289/371472 [8:38:10<9:41:18,  3.56it/s] 67%|██████▋   | 247290/371472 [8:38:11<9:59:57,  3.45it/s] 67%|██████▋   | 247291/371472 [8:38:11<10:08:04,  3.40it/s] 67%|██████▋   | 247292/371472 [8:38:11<9:52:43,  3.49it/s]  67%|██████▋   | 247293/371472 [8:38:12<10:39:28,  3.24it/s] 67%|██████▋   | 247294/371472 [8:38:12<10:13:18,  3.37it/s] 67%|██████▋   | 247295/371472 [8:38:12<10:14:14,  3.37it/s] 67%|██████▋   | 247296/371472 [8:38:12<9:37:08,  3.59it/s]  67%|██████▋   | 247297/371472 [8:38:13<9:39:41,  3.57it/s] 67%|██████▋   | 247298/371472 [8:38:13<10:10:13,  3.39it/s] 67%|██████▋   | 247299/371472 [8:38:13<10:29:13,  3.29it/s] 67%|██████▋   | 247300/371472 [8:38:14<10:11:09,  3.39it/s]                                                            {'loss': 2.8482, 'learning_rate': 4.010051929582624e-07, 'epoch': 10.65}
 67%|██████▋   | 247300/371472 [8:38:14<10:11:09,  3.39it/s] 67%|██████▋   | 247301/371472 [8:38:14<9:43:46,  3.55it/s]  67%|██████▋   | 247302/371472 [8:38:14<9:55:55,  3.47it/s] 67%|██████▋   | 247303/371472 [8:38:14<9:35:23,  3.60it/s] 67%|██████▋   | 247304/371472 [8:38:15<9:26:26,  3.65it/s] 67%|██████▋   | 247305/371472 [8:38:15<10:15:46,  3.36it/s] 67%|██████▋   | 247306/371472 [8:38:15<9:52:29,  3.49it/s]  67%|██████▋   | 247307/371472 [8:38:15<9:31:42,  3.62it/s] 67%|██████▋   | 247308/371472 [8:38:16<9:56:21,  3.47it/s] 67%|██████▋   | 247309/371472 [8:38:16<9:20:38,  3.69it/s] 67%|██████▋   | 247310/371472 [8:38:16<9:18:24,  3.71it/s] 67%|██████▋   | 247311/371472 [8:38:17<9:08:22,  3.77it/s] 67%|██████▋   | 247312/371472 [8:38:17<9:49:06,  3.51it/s] 67%|██████▋   | 247313/371472 [8:38:17<9:24:38,  3.66it/s] 67%|██████▋   | 247314/371472 [8:38:17<9:13:46,  3.74it/s] 67%|██████▋   | 247315/371472 [8:38:18<9:33:07,  3.61it/s] 67%|██████▋   | 247316/371472 [8:38:18<9:08:28,  3.77it/s] 67%|██████▋   | 247317/371472 [8:38:18<9:05:31,  3.79it/s] 67%|██████▋   | 247318/371472 [8:38:18<9:15:29,  3.72it/s] 67%|██████▋   | 247319/371472 [8:38:19<9:55:18,  3.48it/s] 67%|██████▋   | 247320/371472 [8:38:19<9:30:58,  3.62it/s]                                                           {'loss': 2.7132, 'learning_rate': 4.009567109827835e-07, 'epoch': 10.65}
 67%|██████▋   | 247320/371472 [8:38:19<9:30:58,  3.62it/s] 67%|██████▋   | 247321/371472 [8:38:19<9:59:46,  3.45it/s] 67%|██████▋   | 247322/371472 [8:38:20<9:46:12,  3.53it/s] 67%|██████▋   | 247323/371472 [8:38:20<9:49:46,  3.51it/s] 67%|██████▋   | 247324/371472 [8:38:20<9:39:55,  3.57it/s] 67%|██████▋   | 247325/371472 [8:38:20<9:20:34,  3.69it/s] 67%|██████▋   | 247326/371472 [8:38:21<10:31:27,  3.28it/s] 67%|██████▋   | 247327/371472 [8:38:21<10:36:49,  3.25it/s] 67%|██████▋   | 247328/371472 [8:38:21<10:02:13,  3.44it/s] 67%|██████▋   | 247329/371472 [8:38:22<10:43:35,  3.21it/s] 67%|██████▋   | 247330/371472 [8:38:22<10:50:14,  3.18it/s] 67%|██████▋   | 247331/371472 [8:38:22<11:00:41,  3.13it/s] 67%|██████▋   | 247332/371472 [8:38:23<10:47:12,  3.20it/s] 67%|██████▋   | 247333/371472 [8:38:23<10:26:48,  3.30it/s] 67%|██████▋   | 247334/371472 [8:38:23<9:59:38,  3.45it/s]  67%|██████▋   | 247335/371472 [8:38:23<9:38:43,  3.58it/s] 67%|██████▋   | 247336/371472 [8:38:24<9:34:14,  3.60it/s] 67%|██████▋   | 247337/371472 [8:38:24<9:19:30,  3.70it/s] 67%|██████▋   | 247338/371472 [8:38:24<9:25:20,  3.66it/s] 67%|██████▋   | 247339/371472 [8:38:25<10:07:47,  3.40it/s] 67%|██████▋   | 247340/371472 [8:38:25<9:50:07,  3.51it/s]                                                            {'loss': 2.7281, 'learning_rate': 4.009082290073046e-07, 'epoch': 10.65}
 67%|██████▋   | 247340/371472 [8:38:25<9:50:07,  3.51it/s] 67%|██████▋   | 247341/371472 [8:38:25<10:06:33,  3.41it/s] 67%|██████▋   | 247342/371472 [8:38:25<9:56:52,  3.47it/s]  67%|██████▋   | 247343/371472 [8:38:26<9:46:08,  3.53it/s] 67%|██████▋   | 247344/371472 [8:38:26<9:34:52,  3.60it/s] 67%|██████▋   | 247345/371472 [8:38:26<9:28:06,  3.64it/s] 67%|██████▋   | 247346/371472 [8:38:27<9:26:33,  3.65it/s] 67%|██████▋   | 247347/371472 [8:38:27<9:38:14,  3.58it/s] 67%|██████▋   | 247348/371472 [8:38:27<9:30:45,  3.62it/s] 67%|██████▋   | 247349/371472 [8:38:27<9:18:27,  3.70it/s] 67%|██████▋   | 247350/371472 [8:38:28<9:17:06,  3.71it/s] 67%|██████▋   | 247351/371472 [8:38:28<9:18:54,  3.70it/s] 67%|██████▋   | 247352/371472 [8:38:28<9:05:29,  3.79it/s] 67%|██████▋   | 247353/371472 [8:38:28<9:26:52,  3.65it/s] 67%|██████▋   | 247354/371472 [8:38:29<9:11:43,  3.75it/s] 67%|██████▋   | 247355/371472 [8:38:29<9:02:05,  3.82it/s] 67%|██████▋   | 247356/371472 [8:38:29<9:13:59,  3.73it/s] 67%|██████▋   | 247357/371472 [8:38:30<9:14:18,  3.73it/s] 67%|██████▋   | 247358/371472 [8:38:30<9:30:48,  3.62it/s] 67%|██████▋   | 247359/371472 [8:38:30<9:10:41,  3.76it/s] 67%|██████▋   | 247360/371472 [8:38:30<9:17:59,  3.71it/s]                                                           {'loss': 3.0214, 'learning_rate': 4.0085974703182577e-07, 'epoch': 10.65}
 67%|██████▋   | 247360/371472 [8:38:30<9:17:59,  3.71it/s] 67%|██████▋   | 247361/371472 [8:38:31<9:20:48,  3.69it/s] 67%|██████▋   | 247362/371472 [8:38:31<9:42:05,  3.55it/s] 67%|██████▋   | 247363/371472 [8:38:31<9:21:55,  3.68it/s] 67%|██████▋   | 247364/371472 [8:38:31<9:43:51,  3.54it/s] 67%|██████▋   | 247365/371472 [8:38:32<9:38:42,  3.57it/s] 67%|██████▋   | 247366/371472 [8:38:32<9:16:09,  3.72it/s] 67%|██████▋   | 247367/371472 [8:38:32<9:29:02,  3.63it/s] 67%|██████▋   | 247368/371472 [8:38:33<9:28:29,  3.64it/s] 67%|██████▋   | 247369/371472 [8:38:33<9:19:30,  3.70it/s] 67%|██████▋   | 247370/371472 [8:38:33<9:05:34,  3.79it/s] 67%|██████▋   | 247371/371472 [8:38:33<9:33:32,  3.61it/s] 67%|██████▋   | 247372/371472 [8:38:34<9:49:55,  3.51it/s] 67%|██████▋   | 247373/371472 [8:38:34<9:45:50,  3.53it/s] 67%|██████▋   | 247374/371472 [8:38:34<9:41:43,  3.56it/s] 67%|██████▋   | 247375/371472 [8:38:34<9:18:52,  3.70it/s] 67%|██████▋   | 247376/371472 [8:38:35<9:12:16,  3.74it/s] 67%|██████▋   | 247377/371472 [8:38:35<9:08:35,  3.77it/s] 67%|██████▋   | 247378/371472 [8:38:35<8:57:40,  3.85it/s] 67%|██████▋   | 247379/371472 [8:38:36<9:29:06,  3.63it/s] 67%|██████▋   | 247380/371472 [8:38:36<9:29:47,  3.63it/s]                                                           {'loss': 2.8932, 'learning_rate': 4.008112650563468e-07, 'epoch': 10.66}
 67%|██████▋   | 247380/371472 [8:38:36<9:29:47,  3.63it/s] 67%|██████▋   | 247381/371472 [8:38:36<9:14:52,  3.73it/s] 67%|██████▋   | 247382/371472 [8:38:36<9:13:50,  3.73it/s] 67%|██████▋   | 247383/371472 [8:38:37<9:15:05,  3.73it/s] 67%|██████▋   | 247384/371472 [8:38:37<9:28:28,  3.64it/s] 67%|██████▋   | 247385/371472 [8:38:37<9:26:25,  3.65it/s] 67%|██████▋   | 247386/371472 [8:38:37<10:05:10,  3.42it/s] 67%|██████▋   | 247387/371472 [8:38:38<10:07:21,  3.41it/s] 67%|██████▋   | 247388/371472 [8:38:38<10:03:39,  3.43it/s] 67%|██████▋   | 247389/371472 [8:38:38<9:31:16,  3.62it/s]  67%|██████▋   | 247390/371472 [8:38:39<9:43:31,  3.54it/s] 67%|██████▋   | 247391/371472 [8:38:39<9:20:41,  3.69it/s] 67%|██████▋   | 247392/371472 [8:38:39<9:15:16,  3.72it/s] 67%|██████▋   | 247393/371472 [8:38:39<9:13:24,  3.74it/s] 67%|██████▋   | 247394/371472 [8:38:40<9:44:30,  3.54it/s] 67%|██████▋   | 247395/371472 [8:38:40<9:22:25,  3.68it/s] 67%|██████▋   | 247396/371472 [8:38:40<10:01:53,  3.44it/s] 67%|██████▋   | 247397/371472 [8:38:41<10:22:25,  3.32it/s] 67%|██████▋   | 247398/371472 [8:38:41<10:13:45,  3.37it/s] 67%|██████▋   | 247399/371472 [8:38:41<9:44:32,  3.54it/s]  67%|██████▋   | 247400/371472 [8:38:42<10:37:58,  3.24it/s]                                                            {'loss': 2.8742, 'learning_rate': 4.0076278308086796e-07, 'epoch': 10.66}
 67%|██████▋   | 247400/371472 [8:38:42<10:37:58,  3.24it/s] 67%|██████▋   | 247401/371472 [8:38:42<10:14:04,  3.37it/s] 67%|██████▋   | 247402/371472 [8:38:42<10:11:43,  3.38it/s] 67%|██████▋   | 247403/371472 [8:38:42<10:35:48,  3.25it/s] 67%|██████▋   | 247404/371472 [8:38:43<10:13:32,  3.37it/s] 67%|██████▋   | 247405/371472 [8:38:43<9:52:06,  3.49it/s]  67%|██████▋   | 247406/371472 [8:38:43<10:27:40,  3.29it/s] 67%|██████▋   | 247407/371472 [8:38:44<10:50:05,  3.18it/s] 67%|██████▋   | 247408/371472 [8:38:44<9:58:45,  3.45it/s]  67%|██████▋   | 247409/371472 [8:38:44<9:29:05,  3.63it/s] 67%|██████▋   | 247410/371472 [8:38:44<9:42:59,  3.55it/s] 67%|██████▋   | 247411/371472 [8:38:45<9:50:15,  3.50it/s] 67%|██████▋   | 247412/371472 [8:38:45<9:29:22,  3.63it/s] 67%|██████▋   | 247413/371472 [8:38:45<9:09:42,  3.76it/s] 67%|██████▋   | 247414/371472 [8:38:46<10:03:43,  3.42it/s] 67%|██████▋   | 247415/371472 [8:38:46<10:39:35,  3.23it/s] 67%|██████▋   | 247416/371472 [8:38:46<10:15:57,  3.36it/s] 67%|██████▋   | 247417/371472 [8:38:47<10:38:55,  3.24it/s] 67%|██████▋   | 247418/371472 [8:38:47<10:14:55,  3.36it/s] 67%|██████▋   | 247419/371472 [8:38:47<9:39:40,  3.57it/s]  67%|██████▋   | 247420/371472 [8:38:47<9:16:44,  3.71it/s]                                                           {'loss': 2.9043, 'learning_rate': 4.00714301105389e-07, 'epoch': 10.66}
 67%|██████▋   | 247420/371472 [8:38:47<9:16:44,  3.71it/s] 67%|██████▋   | 247421/371472 [8:38:48<10:20:48,  3.33it/s] 67%|██████▋   | 247422/371472 [8:38:48<9:41:00,  3.56it/s]  67%|██████▋   | 247423/371472 [8:38:48<9:40:11,  3.56it/s] 67%|██████▋   | 247424/371472 [8:38:48<9:37:02,  3.58it/s] 67%|██████▋   | 247425/371472 [8:38:49<9:28:05,  3.64it/s] 67%|██████▋   | 247426/371472 [8:38:49<9:55:51,  3.47it/s] 67%|██████▋   | 247427/371472 [8:38:49<9:37:01,  3.58it/s] 67%|██████▋   | 247428/371472 [8:38:50<9:51:11,  3.50it/s] 67%|██████▋   | 247429/371472 [8:38:50<9:36:30,  3.59it/s] 67%|██████▋   | 247430/371472 [8:38:50<10:08:01,  3.40it/s] 67%|██████▋   | 247431/371472 [8:38:50<9:44:09,  3.54it/s]  67%|██████▋   | 247432/371472 [8:38:51<10:04:44,  3.42it/s] 67%|██████▋   | 247433/371472 [8:38:51<10:15:57,  3.36it/s] 67%|██████▋   | 247434/371472 [8:38:51<11:13:17,  3.07it/s] 67%|██████▋   | 247435/371472 [8:38:52<10:26:04,  3.30it/s] 67%|██████▋   | 247436/371472 [8:38:52<10:26:26,  3.30it/s] 67%|██████▋   | 247437/371472 [8:38:52<10:03:37,  3.42it/s] 67%|██████▋   | 247438/371472 [8:38:53<11:04:17,  3.11it/s] 67%|██████▋   | 247439/371472 [8:38:53<11:23:16,  3.03it/s] 67%|██████▋   | 247440/371472 [8:38:53<10:51:12,  3.17it/s]                                                            {'loss': 2.7501, 'learning_rate': 4.0066581912991016e-07, 'epoch': 10.66}
 67%|██████▋   | 247440/371472 [8:38:53<10:51:12,  3.17it/s] 67%|██████▋   | 247441/371472 [8:38:54<10:20:59,  3.33it/s] 67%|██████▋   | 247442/371472 [8:38:54<9:49:09,  3.51it/s]  67%|██████▋   | 247443/371472 [8:38:54<10:55:49,  3.15it/s] 67%|██████▋   | 247444/371472 [8:38:54<10:34:45,  3.26it/s] 67%|██████▋   | 247445/371472 [8:38:55<10:05:07,  3.42it/s] 67%|██████▋   | 247446/371472 [8:38:55<9:52:54,  3.49it/s]  67%|██████▋   | 247447/371472 [8:38:55<9:50:46,  3.50it/s] 67%|██████▋   | 247448/371472 [8:38:56<9:29:12,  3.63it/s] 67%|██████▋   | 247449/371472 [8:38:56<9:05:11,  3.79it/s] 67%|██████▋   | 247450/371472 [8:38:56<9:23:24,  3.67it/s] 67%|██████▋   | 247451/371472 [8:38:56<9:49:05,  3.51it/s] 67%|██████▋   | 247452/371472 [8:38:57<9:22:48,  3.67it/s] 67%|██████▋   | 247453/371472 [8:38:57<9:16:01,  3.72it/s] 67%|██████▋   | 247454/371472 [8:38:57<9:06:16,  3.78it/s] 67%|██████▋   | 247455/371472 [8:38:57<9:25:31,  3.65it/s] 67%|██████▋   | 247456/371472 [8:38:58<9:05:58,  3.79it/s] 67%|██████▋   | 247457/371472 [8:38:58<9:12:31,  3.74it/s] 67%|██████▋   | 247458/371472 [8:38:58<9:07:23,  3.78it/s] 67%|██████▋   | 247459/371472 [8:38:58<8:59:29,  3.83it/s] 67%|██████▋   | 247460/371472 [8:38:59<8:49:55,  3.90it/s]                                                           {'loss': 2.9613, 'learning_rate': 4.0061733715443123e-07, 'epoch': 10.66}
 67%|██████▋   | 247460/371472 [8:38:59<8:49:55,  3.90it/s] 67%|██████▋   | 247461/371472 [8:38:59<9:06:32,  3.78it/s] 67%|██████▋   | 247462/371472 [8:38:59<8:52:12,  3.88it/s] 67%|██████▋   | 247463/371472 [8:38:59<8:56:29,  3.85it/s] 67%|██████▋   | 247464/371472 [8:39:00<8:52:02,  3.88it/s] 67%|██████▋   | 247465/371472 [8:39:00<8:45:45,  3.93it/s] 67%|██████▋   | 247466/371472 [8:39:00<8:54:27,  3.87it/s] 67%|██████▋   | 247467/371472 [8:39:01<8:58:45,  3.84it/s] 67%|██████▋   | 247468/371472 [8:39:01<9:03:15,  3.80it/s] 67%|██████▋   | 247469/371472 [8:39:01<9:25:41,  3.65it/s] 67%|██████▋   | 247470/371472 [8:39:01<9:06:23,  3.78it/s] 67%|██████▋   | 247471/371472 [8:39:02<9:16:35,  3.71it/s] 67%|██████▋   | 247472/371472 [8:39:02<9:05:01,  3.79it/s] 67%|██████▋   | 247473/371472 [8:39:02<9:25:03,  3.66it/s] 67%|██████▋   | 247474/371472 [8:39:02<9:09:17,  3.76it/s] 67%|██████▋   | 247475/371472 [8:39:03<9:21:56,  3.68it/s] 67%|██████▋   | 247476/371472 [8:39:03<9:04:11,  3.80it/s] 67%|██████▋   | 247477/371472 [8:39:03<9:05:53,  3.79it/s] 67%|██████▋   | 247478/371472 [8:39:03<9:07:32,  3.77it/s] 67%|██████▋   | 247479/371472 [8:39:04<9:49:43,  3.50it/s] 67%|██████▋   | 247480/371472 [8:39:04<10:08:50,  3.39it/s]                                                            {'loss': 2.7262, 'learning_rate': 4.005688551789523e-07, 'epoch': 10.66}
 67%|██████▋   | 247480/371472 [8:39:04<10:08:50,  3.39it/s] 67%|██████▋   | 247481/371472 [8:39:04<9:37:51,  3.58it/s]  67%|██████▋   | 247482/371472 [8:39:05<10:03:45,  3.42it/s] 67%|██████▋   | 247483/371472 [8:39:05<9:35:00,  3.59it/s]  67%|██████▋   | 247484/371472 [8:39:05<9:26:19,  3.65it/s] 67%|██████▋   | 247485/371472 [8:39:06<9:48:33,  3.51it/s] 67%|██████▋   | 247486/371472 [8:39:06<10:00:38,  3.44it/s] 67%|██████▋   | 247487/371472 [8:39:06<10:09:42,  3.39it/s] 67%|██████▋   | 247488/371472 [8:39:06<10:13:22,  3.37it/s] 67%|██████▋   | 247489/371472 [8:39:07<10:10:29,  3.38it/s] 67%|██████▋   | 247490/371472 [8:39:07<9:53:46,  3.48it/s]  67%|██████▋   | 247491/371472 [8:39:07<9:53:45,  3.48it/s] 67%|██████▋   | 247492/371472 [8:39:08<10:17:55,  3.34it/s] 67%|██████▋   | 247493/371472 [8:39:08<9:54:48,  3.47it/s]  67%|██████▋   | 247494/371472 [8:39:08<10:11:54,  3.38it/s] 67%|██████▋   | 247495/371472 [8:39:08<9:32:51,  3.61it/s]  67%|██████▋   | 247496/371472 [8:39:09<9:16:02,  3.72it/s] 67%|██████▋   | 247497/371472 [8:39:09<9:21:27,  3.68it/s] 67%|██████▋   | 247498/371472 [8:39:09<9:12:20,  3.74it/s] 67%|██████▋   | 247499/371472 [8:39:09<8:46:27,  3.92it/s] 67%|██████▋   | 247500/371472 [8:39:10<9:02:48,  3.81it/s]                                                           {'loss': 2.8231, 'learning_rate': 4.005203732034734e-07, 'epoch': 10.66}
 67%|██████▋   | 247500/371472 [8:39:10<9:02:48,  3.81it/s] 67%|██████▋   | 247501/371472 [8:39:10<9:26:17,  3.65it/s] 67%|██████▋   | 247502/371472 [8:39:10<9:37:23,  3.58it/s] 67%|██████▋   | 247503/371472 [8:39:11<9:42:01,  3.55it/s] 67%|██████▋   | 247504/371472 [8:39:11<9:55:20,  3.47it/s] 67%|██████▋   | 247505/371472 [8:39:11<9:47:39,  3.52it/s] 67%|██████▋   | 247506/371472 [8:39:11<9:37:28,  3.58it/s] 67%|██████▋   | 247507/371472 [8:39:12<9:19:43,  3.69it/s] 67%|██████▋   | 247508/371472 [8:39:12<9:19:35,  3.69it/s] 67%|██████▋   | 247509/371472 [8:39:12<9:13:56,  3.73it/s] 67%|██████▋   | 247510/371472 [8:39:12<8:58:18,  3.84it/s] 67%|██████▋   | 247511/371472 [8:39:13<9:12:23,  3.74it/s] 67%|██████▋   | 247512/371472 [8:39:13<9:33:51,  3.60it/s] 67%|██████▋   | 247513/371472 [8:39:13<9:36:52,  3.58it/s] 67%|██████▋   | 247514/371472 [8:39:14<9:38:56,  3.57it/s] 67%|██████▋   | 247515/371472 [8:39:14<9:36:32,  3.58it/s] 67%|██████▋   | 247516/371472 [8:39:14<9:07:52,  3.77it/s] 67%|██████▋   | 247517/371472 [8:39:14<9:28:09,  3.64it/s] 67%|██████▋   | 247518/371472 [8:39:15<9:24:38,  3.66it/s] 67%|██████▋   | 247519/371472 [8:39:15<9:12:59,  3.74it/s] 67%|██████▋   | 247520/371472 [8:39:15<9:26:47,  3.64it/s]                                                           {'loss': 2.881, 'learning_rate': 4.004718912279945e-07, 'epoch': 10.66}
 67%|██████▋   | 247520/371472 [8:39:15<9:26:47,  3.64it/s] 67%|██████▋   | 247521/371472 [8:39:16<9:46:46,  3.52it/s] 67%|██████▋   | 247522/371472 [8:39:16<9:42:43,  3.55it/s] 67%|██████▋   | 247523/371472 [8:39:16<9:27:21,  3.64it/s] 67%|██████▋   | 247524/371472 [8:39:16<10:28:14,  3.29it/s] 67%|██████▋   | 247525/371472 [8:39:17<10:14:32,  3.36it/s] 67%|██████▋   | 247526/371472 [8:39:17<10:59:54,  3.13it/s] 67%|██████▋   | 247527/371472 [8:39:17<10:29:15,  3.28it/s] 67%|██████▋   | 247528/371472 [8:39:18<10:15:31,  3.36it/s] 67%|██████▋   | 247529/371472 [8:39:18<10:33:30,  3.26it/s] 67%|██████▋   | 247530/371472 [8:39:18<10:07:23,  3.40it/s] 67%|██████▋   | 247531/371472 [8:39:19<10:06:10,  3.41it/s] 67%|██████▋   | 247532/371472 [8:39:19<9:42:44,  3.54it/s]  67%|██████▋   | 247533/371472 [8:39:19<9:30:53,  3.62it/s] 67%|██████▋   | 247534/371472 [8:39:19<10:03:23,  3.42it/s] 67%|██████▋   | 247535/371472 [8:39:20<9:56:03,  3.47it/s]  67%|██████▋   | 247536/371472 [8:39:20<9:37:43,  3.58it/s] 67%|██████▋   | 247537/371472 [8:39:20<9:32:12,  3.61it/s] 67%|██████▋   | 247538/371472 [8:39:21<11:41:04,  2.95it/s] 67%|██████▋   | 247539/371472 [8:39:21<10:42:14,  3.22it/s] 67%|██████▋   | 247540/371472 [8:39:21<10:12:45,  3.37it/s]                                                            {'loss': 2.8154, 'learning_rate': 4.004234092525157e-07, 'epoch': 10.66}
 67%|██████▋   | 247540/371472 [8:39:21<10:12:45,  3.37it/s] 67%|██████▋   | 247541/371472 [8:39:21<10:00:16,  3.44it/s] 67%|██████▋   | 247542/371472 [8:39:22<9:43:29,  3.54it/s]  67%|██████▋   | 247543/371472 [8:39:22<9:40:46,  3.56it/s] 67%|██████▋   | 247544/371472 [8:39:22<9:44:29,  3.53it/s] 67%|██████▋   | 247545/371472 [8:39:23<9:35:45,  3.59it/s] 67%|██████▋   | 247546/371472 [8:39:23<10:45:14,  3.20it/s] 67%|██████▋   | 247547/371472 [8:39:23<10:31:55,  3.27it/s] 67%|██████▋   | 247548/371472 [8:39:23<10:00:54,  3.44it/s] 67%|██████▋   | 247549/371472 [8:39:24<9:59:21,  3.45it/s]  67%|██████▋   | 247550/371472 [8:39:24<9:43:56,  3.54it/s] 67%|██████▋   | 247551/371472 [8:39:24<10:41:44,  3.22it/s] 67%|██████▋   | 247552/371472 [8:39:25<11:22:00,  3.03it/s] 67%|██████▋   | 247553/371472 [8:39:25<10:50:10,  3.18it/s] 67%|██████▋   | 247554/371472 [8:39:25<10:27:57,  3.29it/s] 67%|██████▋   | 247555/371472 [8:39:26<10:40:13,  3.23it/s] 67%|██████▋   | 247556/371472 [8:39:26<10:03:55,  3.42it/s] 67%|██████▋   | 247557/371472 [8:39:26<9:36:12,  3.58it/s]  67%|██████▋   | 247558/371472 [8:39:27<10:12:30,  3.37it/s] 67%|██████▋   | 247559/371472 [8:39:27<10:22:06,  3.32it/s] 67%|██████▋   | 247560/371472 [8:39:27<9:45:41,  3.53it/s]                                                            {'loss': 2.8377, 'learning_rate': 4.0037492727703675e-07, 'epoch': 10.66}
 67%|██████▋   | 247560/371472 [8:39:27<9:45:41,  3.53it/s] 67%|██████▋   | 247561/371472 [8:39:27<11:18:29,  3.04it/s] 67%|██████▋   | 247562/371472 [8:39:28<11:06:39,  3.10it/s] 67%|██████▋   | 247563/371472 [8:39:28<10:50:22,  3.18it/s] 67%|██████▋   | 247564/371472 [8:39:28<10:21:55,  3.32it/s] 67%|██████▋   | 247565/371472 [8:39:29<9:59:50,  3.44it/s]  67%|██████▋   | 247566/371472 [8:39:29<9:40:07,  3.56it/s] 67%|██████▋   | 247567/371472 [8:39:29<9:21:23,  3.68it/s] 67%|██████▋   | 247568/371472 [8:39:29<9:15:13,  3.72it/s] 67%|██████▋   | 247569/371472 [8:39:30<9:20:32,  3.68it/s] 67%|██████▋   | 247570/371472 [8:39:30<9:15:46,  3.72it/s] 67%|██████▋   | 247571/371472 [8:39:30<9:14:13,  3.73it/s] 67%|██████▋   | 247572/371472 [8:39:30<9:26:32,  3.64it/s] 67%|██████▋   | 247573/371472 [8:39:31<9:26:13,  3.65it/s] 67%|██████▋   | 247574/371472 [8:39:31<9:06:46,  3.78it/s] 67%|██████▋   | 247575/371472 [8:39:31<9:08:08,  3.77it/s] 67%|██████▋   | 247576/371472 [8:39:32<9:08:08,  3.77it/s] 67%|██████▋   | 247577/371472 [8:39:32<8:57:45,  3.84it/s] 67%|██████▋   | 247578/371472 [8:39:32<9:05:48,  3.78it/s] 67%|██████▋   | 247579/371472 [8:39:32<9:49:52,  3.50it/s] 67%|██████▋   | 247580/371472 [8:39:33<9:45:06,  3.53it/s]                                                           {'loss': 3.0109, 'learning_rate': 4.0032644530155787e-07, 'epoch': 10.66}
 67%|██████▋   | 247580/371472 [8:39:33<9:45:06,  3.53it/s] 67%|██████▋   | 247581/371472 [8:39:33<9:48:39,  3.51it/s] 67%|██████▋   | 247582/371472 [8:39:33<9:40:16,  3.56it/s] 67%|██████▋   | 247583/371472 [8:39:34<9:37:56,  3.57it/s] 67%|██████▋   | 247584/371472 [8:39:34<11:23:24,  3.02it/s] 67%|██████▋   | 247585/371472 [8:39:34<10:51:23,  3.17it/s] 67%|██████▋   | 247586/371472 [8:39:35<10:54:24,  3.16it/s] 67%|██████▋   | 247587/371472 [8:39:35<10:50:57,  3.17it/s] 67%|██████▋   | 247588/371472 [8:39:35<10:24:35,  3.31it/s] 67%|██████▋   | 247589/371472 [8:39:35<10:03:29,  3.42it/s] 67%|██████▋   | 247590/371472 [8:39:36<10:31:12,  3.27it/s] 67%|██████▋   | 247591/371472 [8:39:36<10:00:43,  3.44it/s] 67%|██████▋   | 247592/371472 [8:39:36<10:08:14,  3.39it/s] 67%|██████▋   | 247593/371472 [8:39:37<9:57:08,  3.46it/s]  67%|██████▋   | 247594/371472 [8:39:37<10:00:09,  3.44it/s] 67%|██████▋   | 247595/371472 [8:39:37<10:48:46,  3.18it/s] 67%|██████▋   | 247596/371472 [8:39:38<10:30:34,  3.27it/s] 67%|██████▋   | 247597/371472 [8:39:38<9:45:29,  3.53it/s]  67%|██████▋   | 247598/371472 [8:39:38<9:35:00,  3.59it/s] 67%|██████▋   | 247599/371472 [8:39:38<9:23:00,  3.67it/s] 67%|██████▋   | 247600/371472 [8:39:39<10:11:49,  3.37it/s]                                                            {'loss': 2.8462, 'learning_rate': 4.0027796332607894e-07, 'epoch': 10.66}
 67%|██████▋   | 247600/371472 [8:39:39<10:11:49,  3.37it/s] 67%|██████▋   | 247601/371472 [8:39:39<9:38:38,  3.57it/s]  67%|██████▋   | 247602/371472 [8:39:39<9:47:46,  3.51it/s] 67%|██████▋   | 247603/371472 [8:39:39<9:23:19,  3.66it/s] 67%|██████▋   | 247604/371472 [8:39:40<9:10:49,  3.75it/s] 67%|██████▋   | 247605/371472 [8:39:40<9:11:46,  3.74it/s] 67%|██████▋   | 247606/371472 [8:39:40<9:12:03,  3.74it/s] 67%|██████▋   | 247607/371472 [8:39:41<10:11:14,  3.38it/s] 67%|██████▋   | 247608/371472 [8:39:41<10:41:38,  3.22it/s] 67%|██████▋   | 247609/371472 [8:39:41<10:12:25,  3.37it/s] 67%|██████▋   | 247610/371472 [8:39:41<10:05:44,  3.41it/s] 67%|██████▋   | 247611/371472 [8:39:42<10:21:36,  3.32it/s] 67%|██████▋   | 247612/371472 [8:39:42<9:52:16,  3.49it/s]  67%|██████▋   | 247613/371472 [8:39:42<9:28:55,  3.63it/s] 67%|██████▋   | 247614/371472 [8:39:43<9:15:09,  3.72it/s] 67%|██████▋   | 247615/371472 [8:39:43<9:09:01,  3.76it/s] 67%|██████▋   | 247616/371472 [8:39:43<9:08:47,  3.76it/s] 67%|██████▋   | 247617/371472 [8:39:43<9:14:39,  3.72it/s] 67%|██████▋   | 247618/371472 [8:39:44<9:43:24,  3.54it/s] 67%|██████▋   | 247619/371472 [8:39:44<10:06:22,  3.40it/s] 67%|██████▋   | 247620/371472 [8:39:44<9:41:58,  3.55it/s]                                                            {'loss': 2.9346, 'learning_rate': 4.002294813506001e-07, 'epoch': 10.67}
 67%|██████▋   | 247620/371472 [8:39:44<9:41:58,  3.55it/s] 67%|██████▋   | 247621/371472 [8:39:45<9:51:09,  3.49it/s] 67%|██████▋   | 247622/371472 [8:39:45<10:01:21,  3.43it/s] 67%|██████▋   | 247623/371472 [8:39:45<9:47:05,  3.52it/s]  67%|██████▋   | 247624/371472 [8:39:45<9:21:21,  3.68it/s] 67%|██████▋   | 247625/371472 [8:39:46<9:11:12,  3.74it/s] 67%|██████▋   | 247626/371472 [8:39:46<9:15:51,  3.71it/s] 67%|██████▋   | 247627/371472 [8:39:46<9:19:19,  3.69it/s] 67%|██████▋   | 247628/371472 [8:39:46<9:22:48,  3.67it/s] 67%|██████▋   | 247629/371472 [8:39:47<9:54:47,  3.47it/s] 67%|██████▋   | 247630/371472 [8:39:47<10:01:44,  3.43it/s] 67%|██████▋   | 247631/371472 [8:39:47<9:40:54,  3.55it/s]  67%|██████▋   | 247632/371472 [8:39:48<9:28:03,  3.63it/s] 67%|██████▋   | 247633/371472 [8:39:48<10:07:04,  3.40it/s] 67%|██████▋   | 247634/371472 [8:39:48<9:43:28,  3.54it/s]  67%|██████▋   | 247635/371472 [8:39:48<9:11:55,  3.74it/s] 67%|██████▋   | 247636/371472 [8:39:49<9:08:38,  3.76it/s] 67%|██████▋   | 247637/371472 [8:39:49<9:28:36,  3.63it/s] 67%|██████▋   | 247638/371472 [8:39:49<10:06:36,  3.40it/s] 67%|██████▋   | 247639/371472 [8:39:50<10:06:03,  3.41it/s] 67%|██████▋   | 247640/371472 [8:39:50<9:41:24,  3.55it/s]                                                            {'loss': 2.8441, 'learning_rate': 4.0018099937512114e-07, 'epoch': 10.67}
 67%|██████▋   | 247640/371472 [8:39:50<9:41:24,  3.55it/s] 67%|██████▋   | 247641/371472 [8:39:50<9:30:53,  3.62it/s] 67%|██████▋   | 247642/371472 [8:39:50<9:21:39,  3.67it/s] 67%|██████▋   | 247643/371472 [8:39:51<9:20:51,  3.68it/s] 67%|██████▋   | 247644/371472 [8:39:51<9:05:15,  3.79it/s] 67%|██████▋   | 247645/371472 [8:39:51<8:57:42,  3.84it/s] 67%|██████▋   | 247646/371472 [8:39:51<9:17:38,  3.70it/s] 67%|██████▋   | 247647/371472 [8:39:52<9:03:30,  3.80it/s] 67%|██████▋   | 247648/371472 [8:39:52<10:07:13,  3.40it/s] 67%|██████▋   | 247649/371472 [8:39:52<9:37:25,  3.57it/s]  67%|██████▋   | 247650/371472 [8:39:53<9:27:30,  3.64it/s] 67%|██████▋   | 247651/371472 [8:39:53<10:02:24,  3.43it/s] 67%|██████▋   | 247652/371472 [8:39:53<9:40:43,  3.55it/s]  67%|██████▋   | 247653/371472 [8:39:53<9:44:24,  3.53it/s] 67%|██████▋   | 247654/371472 [8:39:54<9:36:06,  3.58it/s] 67%|██████▋   | 247655/371472 [8:39:54<9:21:28,  3.68it/s] 67%|██████▋   | 247656/371472 [8:39:54<9:10:25,  3.75it/s] 67%|██████▋   | 247657/371472 [8:39:54<9:11:14,  3.74it/s] 67%|██████▋   | 247658/371472 [8:39:55<8:50:55,  3.89it/s] 67%|██████▋   | 247659/371472 [8:39:55<8:41:26,  3.96it/s] 67%|██████▋   | 247660/371472 [8:39:55<8:45:39,  3.93it/s]                                                           {'loss': 3.0761, 'learning_rate': 4.001325173996423e-07, 'epoch': 10.67}
 67%|██████▋   | 247660/371472 [8:39:55<8:45:39,  3.93it/s] 67%|██████▋   | 247661/371472 [8:39:55<8:47:09,  3.91it/s] 67%|██████▋   | 247662/371472 [8:39:56<9:05:56,  3.78it/s] 67%|██████▋   | 247663/371472 [8:39:56<9:15:25,  3.72it/s] 67%|██████▋   | 247664/371472 [8:39:56<9:12:15,  3.74it/s] 67%|██████▋   | 247665/371472 [8:39:57<9:05:49,  3.78it/s] 67%|██████▋   | 247666/371472 [8:39:57<9:20:53,  3.68it/s] 67%|██████▋   | 247667/371472 [8:39:57<9:29:29,  3.62it/s] 67%|██████▋   | 247668/371472 [8:39:57<9:57:35,  3.45it/s] 67%|██████▋   | 247669/371472 [8:39:58<9:35:54,  3.58it/s] 67%|██████▋   | 247670/371472 [8:39:58<9:20:07,  3.68it/s] 67%|██████▋   | 247671/371472 [8:39:58<9:01:22,  3.81it/s] 67%|██████▋   | 247672/371472 [8:39:58<8:48:37,  3.90it/s] 67%|██████▋   | 247673/371472 [8:39:59<9:02:41,  3.80it/s] 67%|██████▋   | 247674/371472 [8:39:59<9:41:17,  3.55it/s] 67%|██████▋   | 247675/371472 [8:39:59<9:44:33,  3.53it/s] 67%|██████▋   | 247676/371472 [8:40:00<9:35:26,  3.59it/s] 67%|██████▋   | 247677/371472 [8:40:00<10:05:24,  3.41it/s] 67%|██████▋   | 247678/371472 [8:40:00<10:19:31,  3.33it/s] 67%|██████▋   | 247679/371472 [8:40:01<9:43:20,  3.54it/s]  67%|██████▋   | 247680/371472 [8:40:01<9:18:41,  3.69it/s]                                                           {'loss': 2.8316, 'learning_rate': 4.000840354241634e-07, 'epoch': 10.67}
 67%|██████▋   | 247680/371472 [8:40:01<9:18:41,  3.69it/s] 67%|██████▋   | 247681/371472 [8:40:01<8:58:51,  3.83it/s] 67%|██████▋   | 247682/371472 [8:40:01<8:53:59,  3.86it/s] 67%|██████▋   | 247683/371472 [8:40:02<9:39:41,  3.56it/s] 67%|██████▋   | 247684/371472 [8:40:02<9:09:00,  3.76it/s] 67%|██████▋   | 247685/371472 [8:40:02<9:21:09,  3.68it/s] 67%|██████▋   | 247686/371472 [8:40:02<9:15:54,  3.71it/s] 67%|██████▋   | 247687/371472 [8:40:03<9:06:14,  3.78it/s] 67%|██████▋   | 247688/371472 [8:40:03<9:55:10,  3.47it/s] 67%|██████▋   | 247689/371472 [8:40:03<9:52:28,  3.48it/s] 67%|██████▋   | 247690/371472 [8:40:03<9:38:33,  3.57it/s] 67%|██████▋   | 247691/371472 [8:40:04<9:43:38,  3.53it/s] 67%|██████▋   | 247692/371472 [8:40:04<9:32:10,  3.61it/s] 67%|██████▋   | 247693/371472 [8:40:04<9:33:24,  3.60it/s] 67%|██████▋   | 247694/371472 [8:40:05<9:43:38,  3.53it/s] 67%|██████▋   | 247695/371472 [8:40:05<9:49:53,  3.50it/s] 67%|██████▋   | 247696/371472 [8:40:05<9:26:08,  3.64it/s] 67%|██████▋   | 247697/371472 [8:40:05<9:18:02,  3.70it/s] 67%|██████▋   | 247698/371472 [8:40:06<9:21:45,  3.67it/s] 67%|██████▋   | 247699/371472 [8:40:06<9:11:55,  3.74it/s] 67%|██████▋   | 247700/371472 [8:40:06<9:18:00,  3.70it/s]                                                           {'loss': 2.7986, 'learning_rate': 4.000355534486845e-07, 'epoch': 10.67}
 67%|██████▋   | 247700/371472 [8:40:06<9:18:00,  3.70it/s] 67%|██████▋   | 247701/371472 [8:40:06<9:11:02,  3.74it/s] 67%|██████▋   | 247702/371472 [8:40:07<9:13:34,  3.73it/s] 67%|██████▋   | 247703/371472 [8:40:07<8:57:24,  3.84it/s] 67%|██████▋   | 247704/371472 [8:40:07<8:47:30,  3.91it/s] 67%|██████▋   | 247705/371472 [8:40:08<8:50:32,  3.89it/s] 67%|██████▋   | 247706/371472 [8:40:08<8:32:31,  4.02it/s] 67%|██████▋   | 247707/371472 [8:40:08<8:43:04,  3.94it/s] 67%|██████▋   | 247708/371472 [8:40:08<9:04:44,  3.79it/s] 67%|██████▋   | 247709/371472 [8:40:09<9:25:21,  3.65it/s] 67%|██████▋   | 247710/371472 [8:40:09<9:21:04,  3.68it/s] 67%|██████▋   | 247711/371472 [8:40:09<9:17:38,  3.70it/s] 67%|██████▋   | 247712/371472 [8:40:09<9:05:57,  3.78it/s] 67%|██████▋   | 247713/371472 [8:40:10<9:07:06,  3.77it/s] 67%|██████▋   | 247714/371472 [8:40:10<9:33:38,  3.60it/s] 67%|██████▋   | 247715/371472 [8:40:10<9:22:16,  3.67it/s] 67%|██████▋   | 247716/371472 [8:40:10<9:26:26,  3.64it/s] 67%|██████▋   | 247717/371472 [8:40:11<9:18:23,  3.69it/s] 67%|██████▋   | 247718/371472 [8:40:11<9:07:08,  3.77it/s] 67%|██████▋   | 247719/371472 [8:40:11<9:25:45,  3.65it/s] 67%|██████▋   | 247720/371472 [8:40:12<10:18:07,  3.34it/s]                                                            {'loss': 2.7343, 'learning_rate': 3.999870714732056e-07, 'epoch': 10.67}
 67%|██████▋   | 247720/371472 [8:40:12<10:18:07,  3.34it/s] 67%|██████▋   | 247721/371472 [8:40:12<9:55:23,  3.46it/s]  67%|██████▋   | 247722/371472 [8:40:12<10:20:36,  3.32it/s] 67%|██████▋   | 247723/371472 [8:40:13<10:06:30,  3.40it/s] 67%|██████▋   | 247724/371472 [8:40:13<9:22:24,  3.67it/s]  67%|██████▋   | 247725/371472 [8:40:13<9:13:01,  3.73it/s] 67%|██████▋   | 247726/371472 [8:40:13<8:58:45,  3.83it/s] 67%|██████▋   | 247727/371472 [8:40:14<9:26:30,  3.64it/s] 67%|██████▋   | 247728/371472 [8:40:14<10:18:11,  3.34it/s] 67%|██████▋   | 247729/371472 [8:40:14<9:43:47,  3.53it/s]  67%|██████▋   | 247730/371472 [8:40:15<10:52:35,  3.16it/s] 67%|██████▋   | 247731/371472 [8:40:15<10:19:28,  3.33it/s] 67%|██████▋   | 247732/371472 [8:40:15<9:44:09,  3.53it/s]  67%|██████▋   | 247733/371472 [8:40:15<9:34:44,  3.59it/s] 67%|██████▋   | 247734/371472 [8:40:16<9:18:54,  3.69it/s] 67%|██████▋   | 247735/371472 [8:40:16<10:30:04,  3.27it/s] 67%|██████▋   | 247736/371472 [8:40:16<10:11:45,  3.37it/s] 67%|██████▋   | 247737/371472 [8:40:17<11:36:19,  2.96it/s] 67%|██████▋   | 247738/371472 [8:40:17<10:48:39,  3.18it/s] 67%|██████▋   | 247739/371472 [8:40:17<10:16:33,  3.34it/s] 67%|██████▋   | 247740/371472 [8:40:18<10:28:08,  3.28it/s]                                                            {'loss': 2.683, 'learning_rate': 3.9993858949772676e-07, 'epoch': 10.67}
 67%|██████▋   | 247740/371472 [8:40:18<10:28:08,  3.28it/s] 67%|██████▋   | 247741/371472 [8:40:18<9:46:09,  3.52it/s]  67%|██████▋   | 247742/371472 [8:40:18<9:44:50,  3.53it/s] 67%|██████▋   | 247743/371472 [8:40:18<9:58:06,  3.45it/s] 67%|██████▋   | 247744/371472 [8:40:19<9:35:31,  3.58it/s] 67%|██████▋   | 247745/371472 [8:40:19<9:23:46,  3.66it/s] 67%|██████▋   | 247746/371472 [8:40:19<9:04:07,  3.79it/s] 67%|██████▋   | 247747/371472 [8:40:19<8:53:54,  3.86it/s] 67%|██████▋   | 247748/371472 [8:40:20<8:53:56,  3.86it/s] 67%|██████▋   | 247749/371472 [8:40:20<9:06:20,  3.77it/s] 67%|██████▋   | 247750/371472 [8:40:20<10:06:11,  3.40it/s] 67%|██████▋   | 247751/371472 [8:40:21<9:56:51,  3.45it/s]  67%|██████▋   | 247752/371472 [8:40:21<9:39:08,  3.56it/s] 67%|██████▋   | 247753/371472 [8:40:21<9:37:42,  3.57it/s] 67%|██████▋   | 247754/371472 [8:40:21<10:08:57,  3.39it/s] 67%|██████▋   | 247755/371472 [8:40:22<9:54:43,  3.47it/s]  67%|██████▋   | 247756/371472 [8:40:22<9:32:12,  3.60it/s] 67%|██████▋   | 247757/371472 [8:40:22<9:21:52,  3.67it/s] 67%|██████▋   | 247758/371472 [8:40:22<9:05:34,  3.78it/s] 67%|██████▋   | 247759/371472 [8:40:23<8:47:47,  3.91it/s] 67%|██████▋   | 247760/371472 [8:40:23<9:01:51,  3.81it/s]                                                           {'loss': 3.0695, 'learning_rate': 3.998901075222478e-07, 'epoch': 10.67}
 67%|██████▋   | 247760/371472 [8:40:23<9:01:51,  3.81it/s] 67%|██████▋   | 247761/371472 [8:40:23<9:09:18,  3.75it/s] 67%|██████▋   | 247762/371472 [8:40:23<8:56:47,  3.84it/s] 67%|██████▋   | 247763/371472 [8:40:24<8:56:51,  3.84it/s] 67%|██████▋   | 247764/371472 [8:40:24<9:33:21,  3.60it/s] 67%|██████▋   | 247765/371472 [8:40:24<9:13:21,  3.73it/s] 67%|██████▋   | 247766/371472 [8:40:25<9:09:59,  3.75it/s] 67%|██████▋   | 247767/371472 [8:40:25<9:20:28,  3.68it/s] 67%|██████▋   | 247768/371472 [8:40:25<9:32:21,  3.60it/s] 67%|██████▋   | 247769/371472 [8:40:25<10:07:00,  3.40it/s] 67%|██████▋   | 247770/371472 [8:40:26<10:34:18,  3.25it/s] 67%|██████▋   | 247771/371472 [8:40:26<10:02:12,  3.42it/s] 67%|██████▋   | 247772/371472 [8:40:26<9:48:23,  3.50it/s]  67%|██████▋   | 247773/371472 [8:40:27<9:23:58,  3.66it/s] 67%|██████▋   | 247774/371472 [8:40:27<9:25:48,  3.64it/s] 67%|██████▋   | 247775/371472 [8:40:27<9:03:39,  3.79it/s] 67%|██████▋   | 247776/371472 [8:40:27<9:27:49,  3.63it/s] 67%|██████▋   | 247777/371472 [8:40:28<9:35:07,  3.58it/s] 67%|██████▋   | 247778/371472 [8:40:28<9:41:53,  3.54it/s] 67%|██████▋   | 247779/371472 [8:40:28<9:19:11,  3.69it/s] 67%|██████▋   | 247780/371472 [8:40:28<9:27:16,  3.63it/s]                                                           {'loss': 2.9061, 'learning_rate': 3.9984162554676896e-07, 'epoch': 10.67}
 67%|██████▋   | 247780/371472 [8:40:29<9:27:16,  3.63it/s] 67%|██████▋   | 247781/371472 [8:40:29<9:48:16,  3.50it/s] 67%|██████▋   | 247782/371472 [8:40:29<10:46:32,  3.19it/s] 67%|██████▋   | 247783/371472 [8:40:29<10:11:00,  3.37it/s] 67%|██████▋   | 247784/371472 [8:40:30<9:47:19,  3.51it/s]  67%|██████▋   | 247785/371472 [8:40:30<9:32:03,  3.60it/s] 67%|██████▋   | 247786/371472 [8:40:30<9:27:22,  3.63it/s] 67%|██████▋   | 247787/371472 [8:40:31<9:29:39,  3.62it/s] 67%|██████▋   | 247788/371472 [8:40:31<9:18:08,  3.69it/s] 67%|██████▋   | 247789/371472 [8:40:31<9:11:19,  3.74it/s] 67%|██████▋   | 247790/371472 [8:40:31<9:48:34,  3.50it/s] 67%|██████▋   | 247791/371472 [8:40:32<9:20:47,  3.68it/s] 67%|██████▋   | 247792/371472 [8:40:32<9:13:20,  3.73it/s] 67%|██████▋   | 247793/371472 [8:40:32<9:49:21,  3.50it/s] 67%|██████▋   | 247794/371472 [8:40:33<10:53:28,  3.15it/s] 67%|██████▋   | 247795/371472 [8:40:33<10:34:36,  3.25it/s] 67%|██████▋   | 247796/371472 [8:40:33<10:33:43,  3.25it/s] 67%|██████▋   | 247797/371472 [8:40:34<10:57:03,  3.14it/s] 67%|██████▋   | 247798/371472 [8:40:34<10:28:51,  3.28it/s] 67%|██████▋   | 247799/371472 [8:40:34<10:32:57,  3.26it/s] 67%|██████▋   | 247800/371472 [8:40:34<10:40:37,  3.22it/s]                                                            {'loss': 2.7742, 'learning_rate': 3.9979314357129003e-07, 'epoch': 10.67}
 67%|██████▋   | 247800/371472 [8:40:34<10:40:37,  3.22it/s] 67%|██████▋   | 247801/371472 [8:40:35<10:08:08,  3.39it/s] 67%|██████▋   | 247802/371472 [8:40:35<9:51:13,  3.49it/s]  67%|██████▋   | 247803/371472 [8:40:35<9:36:04,  3.58it/s] 67%|██████▋   | 247804/371472 [8:40:36<9:49:07,  3.50it/s] 67%|██████▋   | 247805/371472 [8:40:36<10:48:18,  3.18it/s] 67%|██████▋   | 247806/371472 [8:40:36<10:28:44,  3.28it/s] 67%|██████▋   | 247807/371472 [8:40:36<9:49:45,  3.49it/s]  67%|██████▋   | 247808/371472 [8:40:37<9:50:54,  3.49it/s] 67%|██████▋   | 247809/371472 [8:40:37<9:39:32,  3.56it/s] 67%|██████▋   | 247810/371472 [8:40:37<9:50:38,  3.49it/s] 67%|██████▋   | 247811/371472 [8:40:38<9:48:34,  3.50it/s] 67%|██████▋   | 247812/371472 [8:40:38<9:28:57,  3.62it/s] 67%|██████▋   | 247813/371472 [8:40:38<9:11:33,  3.74it/s] 67%|██████▋   | 247814/371472 [8:40:38<9:06:49,  3.77it/s] 67%|██████▋   | 247815/371472 [8:40:39<9:32:10,  3.60it/s] 67%|██████▋   | 247816/371472 [8:40:39<9:09:56,  3.75it/s] 67%|██████▋   | 247817/371472 [8:40:39<9:05:34,  3.78it/s] 67%|██████▋   | 247818/371472 [8:40:39<9:08:16,  3.76it/s] 67%|██████▋   | 247819/371472 [8:40:40<9:02:02,  3.80it/s] 67%|██████▋   | 247820/371472 [8:40:40<9:30:30,  3.61it/s]                                                           {'loss': 2.8589, 'learning_rate': 3.9974466159581115e-07, 'epoch': 10.67}
 67%|██████▋   | 247820/371472 [8:40:40<9:30:30,  3.61it/s] 67%|██████▋   | 247821/371472 [8:40:40<9:32:36,  3.60it/s] 67%|██████▋   | 247822/371472 [8:40:40<9:06:52,  3.77it/s] 67%|██████▋   | 247823/371472 [8:40:41<9:31:17,  3.61it/s] 67%|██████▋   | 247824/371472 [8:40:41<9:44:00,  3.53it/s] 67%|██████▋   | 247825/371472 [8:40:41<10:13:17,  3.36it/s] 67%|██████▋   | 247826/371472 [8:40:42<10:33:49,  3.25it/s] 67%|██████▋   | 247827/371472 [8:40:42<10:22:59,  3.31it/s] 67%|██████▋   | 247828/371472 [8:40:42<10:28:26,  3.28it/s] 67%|██████▋   | 247829/371472 [8:40:43<10:16:08,  3.34it/s] 67%|██████▋   | 247830/371472 [8:40:43<10:00:32,  3.43it/s] 67%|██████▋   | 247831/371472 [8:40:43<10:34:07,  3.25it/s] 67%|██████▋   | 247832/371472 [8:40:44<11:14:14,  3.06it/s] 67%|██████▋   | 247833/371472 [8:40:44<10:33:09,  3.25it/s] 67%|██████▋   | 247834/371472 [8:40:44<11:11:37,  3.07it/s] 67%|██████▋   | 247835/371472 [8:40:45<10:30:47,  3.27it/s] 67%|██████▋   | 247836/371472 [8:40:45<10:23:28,  3.31it/s] 67%|██████▋   | 247837/371472 [8:40:45<10:02:21,  3.42it/s] 67%|██████▋   | 247838/371472 [8:40:45<9:53:37,  3.47it/s]  67%|██████▋   | 247839/371472 [8:40:46<9:46:12,  3.52it/s] 67%|██████▋   | 247840/371472 [8:40:46<10:34:19,  3.25it/s]                                                            {'loss': 2.8509, 'learning_rate': 3.9969617962033217e-07, 'epoch': 10.67}
 67%|██████▋   | 247840/371472 [8:40:46<10:34:19,  3.25it/s] 67%|██████▋   | 247841/371472 [8:40:46<10:13:34,  3.36it/s] 67%|██████▋   | 247842/371472 [8:40:47<11:01:07,  3.12it/s] 67%|██████▋   | 247843/371472 [8:40:47<10:41:16,  3.21it/s] 67%|██████▋   | 247844/371472 [8:40:47<10:30:08,  3.27it/s] 67%|██████▋   | 247845/371472 [8:40:48<11:35:34,  2.96it/s] 67%|██████▋   | 247846/371472 [8:40:48<10:53:38,  3.15it/s] 67%|██████▋   | 247847/371472 [8:40:48<10:22:32,  3.31it/s] 67%|██████▋   | 247848/371472 [8:40:49<11:05:02,  3.10it/s] 67%|██████▋   | 247849/371472 [8:40:49<10:45:10,  3.19it/s] 67%|██████▋   | 247850/371472 [8:40:49<11:08:29,  3.08it/s] 67%|██████▋   | 247851/371472 [8:40:49<10:26:49,  3.29it/s] 67%|██████▋   | 247852/371472 [8:40:50<9:44:40,  3.52it/s]  67%|██████▋   | 247853/371472 [8:40:50<9:19:14,  3.68it/s] 67%|██████▋   | 247854/371472 [8:40:50<9:12:21,  3.73it/s] 67%|██████▋   | 247855/371472 [8:40:50<9:27:17,  3.63it/s] 67%|██████▋   | 247856/371472 [8:40:51<9:30:20,  3.61it/s] 67%|██████▋   | 247857/371472 [8:40:51<8:59:17,  3.82it/s] 67%|██████▋   | 247858/371472 [8:40:51<9:03:25,  3.79it/s] 67%|██████▋   | 247859/371472 [8:40:52<9:45:10,  3.52it/s] 67%|██████▋   | 247860/371472 [8:40:52<10:30:10,  3.27it/s]                                                            {'loss': 3.0373, 'learning_rate': 3.996476976448534e-07, 'epoch': 10.68}
 67%|██████▋   | 247860/371472 [8:40:52<10:30:10,  3.27it/s] 67%|██████▋   | 247861/371472 [8:40:52<10:24:24,  3.30it/s] 67%|██████▋   | 247862/371472 [8:40:52<9:52:29,  3.48it/s]  67%|██████▋   | 247863/371472 [8:40:53<9:47:29,  3.51it/s] 67%|██████▋   | 247864/371472 [8:40:53<9:21:22,  3.67it/s] 67%|██████▋   | 247865/371472 [8:40:53<9:13:45,  3.72it/s] 67%|██████▋   | 247866/371472 [8:40:54<9:01:44,  3.80it/s] 67%|██████▋   | 247867/371472 [8:40:54<9:00:15,  3.81it/s] 67%|██████▋   | 247868/371472 [8:40:54<8:49:42,  3.89it/s] 67%|██████▋   | 247869/371472 [8:40:54<9:09:00,  3.75it/s] 67%|██████▋   | 247870/371472 [8:40:55<8:59:07,  3.82it/s] 67%|██████▋   | 247871/371472 [8:40:55<8:46:52,  3.91it/s] 67%|██████▋   | 247872/371472 [8:40:55<8:52:16,  3.87it/s] 67%|██████▋   | 247873/371472 [8:40:55<9:12:38,  3.73it/s] 67%|██████▋   | 247874/371472 [8:40:56<9:03:16,  3.79it/s] 67%|██████▋   | 247875/371472 [8:40:56<9:19:20,  3.68it/s] 67%|██████▋   | 247876/371472 [8:40:56<9:58:22,  3.44it/s] 67%|██████▋   | 247877/371472 [8:40:57<9:57:33,  3.45it/s] 67%|██████▋   | 247878/371472 [8:40:57<10:12:32,  3.36it/s] 67%|██████▋   | 247879/371472 [8:40:57<9:48:34,  3.50it/s]  67%|██████▋   | 247880/371472 [8:40:57<9:45:33,  3.52it/s]                                                           {'loss': 2.8453, 'learning_rate': 3.995992156693744e-07, 'epoch': 10.68}
 67%|██████▋   | 247880/371472 [8:40:57<9:45:33,  3.52it/s] 67%|██████▋   | 247881/371472 [8:40:58<9:38:14,  3.56it/s] 67%|██████▋   | 247882/371472 [8:40:58<9:26:59,  3.63it/s] 67%|██████▋   | 247883/371472 [8:40:58<9:51:10,  3.48it/s] 67%|██████▋   | 247884/371472 [8:40:58<9:34:22,  3.59it/s] 67%|██████▋   | 247885/371472 [8:40:59<9:33:57,  3.59it/s] 67%|██████▋   | 247886/371472 [8:40:59<9:37:10,  3.57it/s] 67%|██████▋   | 247887/371472 [8:40:59<9:42:55,  3.53it/s] 67%|██████▋   | 247888/371472 [8:41:00<9:24:19,  3.65it/s] 67%|██████▋   | 247889/371472 [8:41:00<10:35:38,  3.24it/s] 67%|██████▋   | 247890/371472 [8:41:00<9:55:21,  3.46it/s]  67%|██████▋   | 247891/371472 [8:41:00<9:42:51,  3.53it/s] 67%|██████▋   | 247892/371472 [8:41:01<9:15:37,  3.71it/s] 67%|██████▋   | 247893/371472 [8:41:01<9:11:30,  3.73it/s] 67%|██████▋   | 247894/371472 [8:41:01<9:01:05,  3.81it/s] 67%|██████▋   | 247895/371472 [8:41:02<9:07:10,  3.76it/s] 67%|██████▋   | 247896/371472 [8:41:02<9:13:11,  3.72it/s] 67%|██████▋   | 247897/371472 [8:41:02<9:43:52,  3.53it/s] 67%|██████▋   | 247898/371472 [8:41:02<9:23:01,  3.66it/s] 67%|██████▋   | 247899/371472 [8:41:03<9:02:36,  3.80it/s] 67%|██████▋   | 247900/371472 [8:41:03<8:43:14,  3.94it/s]                                                           {'loss': 2.9088, 'learning_rate': 3.995507336938956e-07, 'epoch': 10.68}
 67%|██████▋   | 247900/371472 [8:41:03<8:43:14,  3.94it/s] 67%|██████▋   | 247901/371472 [8:41:03<9:03:31,  3.79it/s] 67%|██████▋   | 247902/371472 [8:41:04<10:33:40,  3.25it/s] 67%|██████▋   | 247903/371472 [8:41:04<10:18:43,  3.33it/s] 67%|██████▋   | 247904/371472 [8:41:04<9:36:40,  3.57it/s]  67%|██████▋   | 247905/371472 [8:41:04<10:16:40,  3.34it/s] 67%|██████▋   | 247906/371472 [8:41:05<10:20:07,  3.32it/s] 67%|██████▋   | 247907/371472 [8:41:05<10:14:25,  3.35it/s] 67%|██████▋   | 247908/371472 [8:41:05<9:49:53,  3.49it/s]  67%|██████▋   | 247909/371472 [8:41:06<9:47:26,  3.51it/s] 67%|██████▋   | 247910/371472 [8:41:06<9:38:58,  3.56it/s] 67%|██████▋   | 247911/371472 [8:41:06<9:30:42,  3.61it/s] 67%|██████▋   | 247912/371472 [8:41:06<9:09:19,  3.75it/s] 67%|██████▋   | 247913/371472 [8:41:07<8:58:56,  3.82it/s] 67%|██████▋   | 247914/371472 [8:41:07<9:17:55,  3.69it/s] 67%|██████▋   | 247915/371472 [8:41:07<9:09:53,  3.74it/s] 67%|██████▋   | 247916/371472 [8:41:07<9:13:38,  3.72it/s] 67%|██████▋   | 247917/371472 [8:41:08<9:09:01,  3.75it/s] 67%|██████▋   | 247918/371472 [8:41:08<10:10:06,  3.38it/s] 67%|██████▋   | 247919/371472 [8:41:08<9:41:21,  3.54it/s]  67%|██████▋   | 247920/371472 [8:41:09<9:42:02,  3.54it/s]                                                           {'loss': 2.8075, 'learning_rate': 3.9950225171841667e-07, 'epoch': 10.68}
 67%|██████▋   | 247920/371472 [8:41:09<9:42:02,  3.54it/s] 67%|██████▋   | 247921/371472 [8:41:09<9:16:54,  3.70it/s] 67%|██████▋   | 247922/371472 [8:41:09<9:18:03,  3.69it/s] 67%|██████▋   | 247923/371472 [8:41:09<9:11:13,  3.74it/s] 67%|██████▋   | 247924/371472 [8:41:10<10:12:00,  3.36it/s] 67%|██████▋   | 247925/371472 [8:41:10<9:48:37,  3.50it/s]  67%|██████▋   | 247926/371472 [8:41:10<9:29:16,  3.62it/s] 67%|██████▋   | 247927/371472 [8:41:11<9:57:22,  3.45it/s] 67%|██████▋   | 247928/371472 [8:41:11<9:55:21,  3.46it/s] 67%|██████▋   | 247929/371472 [8:41:11<9:54:00,  3.47it/s] 67%|██████▋   | 247930/371472 [8:41:11<10:01:19,  3.42it/s] 67%|██████▋   | 247931/371472 [8:41:12<9:58:11,  3.44it/s]  67%|██████▋   | 247932/371472 [8:41:12<10:21:46,  3.31it/s] 67%|██████▋   | 247933/371472 [8:41:12<9:51:22,  3.48it/s]  67%|██████▋   | 247934/371472 [8:41:13<9:33:00,  3.59it/s] 67%|██████▋   | 247935/371472 [8:41:13<9:12:46,  3.72it/s] 67%|██████▋   | 247936/371472 [8:41:13<8:58:40,  3.82it/s] 67%|██████▋   | 247937/371472 [8:41:13<9:01:58,  3.80it/s] 67%|██████▋   | 247938/371472 [8:41:14<8:53:58,  3.86it/s] 67%|██████▋   | 247939/371472 [8:41:14<10:01:01,  3.43it/s] 67%|██████▋   | 247940/371472 [8:41:14<9:59:43,  3.43it/s]                                                            {'loss': 2.7569, 'learning_rate': 3.994537697429378e-07, 'epoch': 10.68}
 67%|██████▋   | 247940/371472 [8:41:14<9:59:43,  3.43it/s] 67%|██████▋   | 247941/371472 [8:41:14<9:41:58,  3.54it/s] 67%|██████▋   | 247942/371472 [8:41:15<9:44:46,  3.52it/s] 67%|██████▋   | 247943/371472 [8:41:15<9:11:44,  3.73it/s] 67%|██████▋   | 247944/371472 [8:41:15<9:27:07,  3.63it/s] 67%|██████▋   | 247945/371472 [8:41:16<9:39:02,  3.56it/s] 67%|██████▋   | 247946/371472 [8:41:16<9:36:10,  3.57it/s] 67%|██████▋   | 247947/371472 [8:41:16<9:40:02,  3.55it/s] 67%|██████▋   | 247948/371472 [8:41:16<9:22:54,  3.66it/s] 67%|██████▋   | 247949/371472 [8:41:17<9:06:22,  3.77it/s] 67%|██████▋   | 247950/371472 [8:41:17<9:16:44,  3.70it/s] 67%|██████▋   | 247951/371472 [8:41:17<10:12:09,  3.36it/s] 67%|██████▋   | 247952/371472 [8:41:18<10:21:16,  3.31it/s] 67%|██████▋   | 247953/371472 [8:41:18<9:52:24,  3.48it/s]  67%|██████▋   | 247954/371472 [8:41:18<9:56:58,  3.45it/s] 67%|██████▋   | 247955/371472 [8:41:18<10:05:06,  3.40it/s] 67%|██████▋   | 247956/371472 [8:41:19<9:41:04,  3.54it/s]  67%|██████▋   | 247957/371472 [8:41:19<9:37:51,  3.56it/s] 67%|██████▋   | 247958/371472 [8:41:19<9:31:37,  3.60it/s] 67%|██████▋   | 247959/371472 [8:41:20<9:51:39,  3.48it/s] 67%|██████▋   | 247960/371472 [8:41:20<9:32:53,  3.59it/s]                                                           {'loss': 2.8852, 'learning_rate': 3.9940528776745886e-07, 'epoch': 10.68}
 67%|██████▋   | 247960/371472 [8:41:20<9:32:53,  3.59it/s] 67%|██████▋   | 247961/371472 [8:41:20<9:08:15,  3.75it/s] 67%|██████▋   | 247962/371472 [8:41:20<8:58:44,  3.82it/s] 67%|██████▋   | 247963/371472 [8:41:21<8:45:49,  3.91it/s] 67%|██████▋   | 247964/371472 [8:41:21<9:13:27,  3.72it/s] 67%|██████▋   | 247965/371472 [8:41:21<9:24:48,  3.64it/s] 67%|██████▋   | 247966/371472 [8:41:21<9:05:49,  3.77it/s] 67%|██████▋   | 247967/371472 [8:41:22<8:54:09,  3.85it/s] 67%|██████▋   | 247968/371472 [8:41:22<9:02:00,  3.80it/s] 67%|██████▋   | 247969/371472 [8:41:22<8:44:59,  3.92it/s] 67%|██████▋   | 247970/371472 [8:41:22<8:36:05,  3.99it/s] 67%|██████▋   | 247971/371472 [8:41:23<8:32:00,  4.02it/s] 67%|██████▋   | 247972/371472 [8:41:23<8:34:12,  4.00it/s] 67%|██████▋   | 247973/371472 [8:41:23<8:35:35,  3.99it/s] 67%|██████▋   | 247974/371472 [8:41:23<8:52:53,  3.86it/s] 67%|██████▋   | 247975/371472 [8:41:24<8:39:43,  3.96it/s] 67%|██████▋   | 247976/371472 [8:41:24<8:33:17,  4.01it/s] 67%|██████▋   | 247977/371472 [8:41:24<8:31:24,  4.02it/s] 67%|██████▋   | 247978/371472 [8:41:24<8:50:01,  3.88it/s] 67%|██████▋   | 247979/371472 [8:41:25<9:28:35,  3.62it/s] 67%|██████▋   | 247980/371472 [8:41:25<10:00:30,  3.43it/s]                                                            {'loss': 3.0035, 'learning_rate': 3.9935680579198004e-07, 'epoch': 10.68}
 67%|██████▋   | 247980/371472 [8:41:25<10:00:30,  3.43it/s] 67%|██████▋   | 247981/371472 [8:41:25<9:39:48,  3.55it/s]  67%|██████▋   | 247982/371472 [8:41:26<9:55:52,  3.45it/s] 67%|██████▋   | 247983/371472 [8:41:26<9:57:39,  3.44it/s] 67%|██████▋   | 247984/371472 [8:41:26<9:40:39,  3.54it/s] 67%|██████▋   | 247985/371472 [8:41:26<9:13:26,  3.72it/s] 67%|██████▋   | 247986/371472 [8:41:27<9:21:13,  3.67it/s] 67%|██████▋   | 247987/371472 [8:41:27<9:08:47,  3.75it/s] 67%|██████▋   | 247988/371472 [8:41:27<9:11:51,  3.73it/s] 67%|██████▋   | 247989/371472 [8:41:27<8:58:22,  3.82it/s] 67%|██████▋   | 247990/371472 [8:41:28<8:55:33,  3.84it/s] 67%|██████▋   | 247991/371472 [8:41:28<8:56:12,  3.84it/s] 67%|██████▋   | 247992/371472 [8:41:28<9:15:00,  3.71it/s] 67%|██████▋   | 247993/371472 [8:41:29<9:14:27,  3.71it/s] 67%|██████▋   | 247994/371472 [8:41:29<9:09:11,  3.75it/s] 67%|██████▋   | 247995/371472 [8:41:29<8:54:24,  3.85it/s] 67%|██████▋   | 247996/371472 [8:41:29<9:22:16,  3.66it/s] 67%|██████▋   | 247997/371472 [8:41:30<9:03:45,  3.78it/s] 67%|██████▋   | 247998/371472 [8:41:30<9:37:21,  3.56it/s] 67%|██████▋   | 247999/371472 [8:41:30<9:56:32,  3.45it/s] 67%|██████▋   | 248000/371472 [8:41:30<10:01:06,  3.42it/s]                                                            {'loss': 3.0173, 'learning_rate': 3.993083238165011e-07, 'epoch': 10.68}
 67%|██████▋   | 248000/371472 [8:41:30<10:01:06,  3.42it/s] 67%|██████▋   | 248001/371472 [8:41:31<9:53:26,  3.47it/s]  67%|██████▋   | 248002/371472 [8:41:31<9:59:13,  3.43it/s] 67%|██████▋   | 248003/371472 [8:41:31<9:37:48,  3.56it/s] 67%|██████▋   | 248004/371472 [8:41:32<9:27:07,  3.63it/s] 67%|██████▋   | 248005/371472 [8:41:32<9:18:00,  3.69it/s] 67%|██████▋   | 248006/371472 [8:41:32<9:33:48,  3.59it/s] 67%|██████▋   | 248007/371472 [8:41:32<9:30:08,  3.61it/s] 67%|██████▋   | 248008/371472 [8:41:33<9:27:36,  3.63it/s] 67%|██████▋   | 248009/371472 [8:41:33<9:53:56,  3.46it/s] 67%|██████▋   | 248010/371472 [8:41:33<9:55:23,  3.46it/s] 67%|██████▋   | 248011/371472 [8:41:34<9:43:56,  3.52it/s] 67%|██████▋   | 248012/371472 [8:41:34<9:43:33,  3.53it/s] 67%|██████▋   | 248013/371472 [8:41:34<9:50:24,  3.49it/s] 67%|██████▋   | 248014/371472 [8:41:34<9:39:32,  3.55it/s] 67%|██████▋   | 248015/371472 [8:41:35<10:27:16,  3.28it/s] 67%|██████▋   | 248016/371472 [8:41:35<10:53:21,  3.15it/s] 67%|██████▋   | 248017/371472 [8:41:35<10:48:37,  3.17it/s] 67%|██████▋   | 248018/371472 [8:41:36<10:09:01,  3.38it/s] 67%|██████▋   | 248019/371472 [8:41:36<9:59:48,  3.43it/s]  67%|██████▋   | 248020/371472 [8:41:36<9:56:19,  3.45it/s]                                                           {'loss': 2.9818, 'learning_rate': 3.9925984184102213e-07, 'epoch': 10.68}
 67%|██████▋   | 248020/371472 [8:41:36<9:56:19,  3.45it/s] 67%|██████▋   | 248021/371472 [8:41:37<9:43:45,  3.52it/s] 67%|██████▋   | 248022/371472 [8:41:37<9:41:43,  3.54it/s] 67%|██████▋   | 248023/371472 [8:41:37<9:18:56,  3.68it/s] 67%|██████▋   | 248024/371472 [8:41:37<9:16:48,  3.70it/s] 67%|██████▋   | 248025/371472 [8:41:38<9:05:33,  3.77it/s] 67%|██████▋   | 248026/371472 [8:41:38<10:08:02,  3.38it/s] 67%|██████▋   | 248027/371472 [8:41:38<10:20:15,  3.32it/s] 67%|██████▋   | 248028/371472 [8:41:39<9:48:36,  3.50it/s]  67%|██████▋   | 248029/371472 [8:41:39<9:42:25,  3.53it/s] 67%|██████▋   | 248030/371472 [8:41:39<9:22:40,  3.66it/s] 67%|██████▋   | 248031/371472 [8:41:39<9:26:32,  3.63it/s] 67%|██████▋   | 248032/371472 [8:41:40<9:26:03,  3.63it/s] 67%|██████▋   | 248033/371472 [8:41:40<9:30:32,  3.61it/s] 67%|██████▋   | 248034/371472 [8:41:40<9:33:18,  3.59it/s] 67%|██████▋   | 248035/371472 [8:41:40<9:42:19,  3.53it/s] 67%|██████▋   | 248036/371472 [8:41:41<9:39:14,  3.55it/s] 67%|██████▋   | 248037/371472 [8:41:41<9:10:31,  3.74it/s] 67%|██████▋   | 248038/371472 [8:41:41<8:51:42,  3.87it/s] 67%|██████▋   | 248039/371472 [8:41:41<9:03:30,  3.79it/s] 67%|██████▋   | 248040/371472 [8:41:42<9:11:28,  3.73it/s]                                                           {'loss': 3.0031, 'learning_rate': 3.992113598655433e-07, 'epoch': 10.68}
 67%|██████▋   | 248040/371472 [8:41:42<9:11:28,  3.73it/s] 67%|██████▋   | 248041/371472 [8:41:42<9:14:48,  3.71it/s] 67%|██████▋   | 248042/371472 [8:41:42<9:36:34,  3.57it/s] 67%|██████▋   | 248043/371472 [8:41:43<9:15:56,  3.70it/s] 67%|██████▋   | 248044/371472 [8:41:43<9:07:31,  3.76it/s] 67%|██████▋   | 248045/371472 [8:41:43<9:13:32,  3.72it/s] 67%|██████▋   | 248046/371472 [8:41:43<9:00:28,  3.81it/s] 67%|██████▋   | 248047/371472 [8:41:44<9:10:00,  3.74it/s] 67%|██████▋   | 248048/371472 [8:41:44<8:49:47,  3.88it/s] 67%|██████▋   | 248049/371472 [8:41:44<10:06:11,  3.39it/s] 67%|██████▋   | 248050/371472 [8:41:44<9:40:28,  3.54it/s]  67%|██████▋   | 248051/371472 [8:41:45<9:43:06,  3.53it/s] 67%|██████▋   | 248052/371472 [8:41:45<9:37:46,  3.56it/s] 67%|██████▋   | 248053/371472 [8:41:45<10:47:05,  3.18it/s] 67%|██████▋   | 248054/371472 [8:41:46<9:59:59,  3.43it/s]  67%|██████▋   | 248055/371472 [8:41:46<10:01:30,  3.42it/s] 67%|██████▋   | 248056/371472 [8:41:46<9:38:31,  3.56it/s]  67%|██████▋   | 248057/371472 [8:41:47<9:46:03,  3.51it/s] 67%|██████▋   | 248058/371472 [8:41:47<9:45:27,  3.51it/s] 67%|██████▋   | 248059/371472 [8:41:47<10:42:44,  3.20it/s] 67%|██████▋   | 248060/371472 [8:41:47<10:12:45,  3.36it/s]                                                            {'loss': 2.9029, 'learning_rate': 3.991628778900644e-07, 'epoch': 10.68}
 67%|██████▋   | 248060/371472 [8:41:47<10:12:45,  3.36it/s] 67%|██████▋   | 248061/371472 [8:41:48<9:58:56,  3.43it/s]  67%|██████▋   | 248062/371472 [8:41:48<9:53:34,  3.47it/s] 67%|██████▋   | 248063/371472 [8:41:48<9:20:19,  3.67it/s] 67%|██████▋   | 248064/371472 [8:41:49<9:41:16,  3.54it/s] 67%|██████▋   | 248065/371472 [8:41:49<9:28:05,  3.62it/s] 67%|██████▋   | 248066/371472 [8:41:49<9:31:21,  3.60it/s] 67%|██████▋   | 248067/371472 [8:41:49<9:19:07,  3.68it/s] 67%|██████▋   | 248068/371472 [8:41:50<9:06:59,  3.76it/s] 67%|██████▋   | 248069/371472 [8:41:50<9:11:07,  3.73it/s] 67%|██████▋   | 248070/371472 [8:41:50<9:20:23,  3.67it/s] 67%|██████▋   | 248071/371472 [8:41:50<9:11:48,  3.73it/s] 67%|██████▋   | 248072/371472 [8:41:51<9:03:50,  3.78it/s] 67%|██████▋   | 248073/371472 [8:41:51<9:04:22,  3.78it/s] 67%|██████▋   | 248074/371472 [8:41:51<9:33:59,  3.58it/s] 67%|██████▋   | 248075/371472 [8:41:52<9:15:15,  3.70it/s] 67%|██████▋   | 248076/371472 [8:41:52<9:04:39,  3.78it/s] 67%|██████▋   | 248077/371472 [8:41:52<9:03:48,  3.78it/s] 67%|██████▋   | 248078/371472 [8:41:52<9:03:53,  3.78it/s] 67%|██████▋   | 248079/371472 [8:41:53<8:52:17,  3.86it/s] 67%|██████▋   | 248080/371472 [8:41:53<8:53:36,  3.85it/s]                                                           {'loss': 3.0489, 'learning_rate': 3.991143959145855e-07, 'epoch': 10.69}
 67%|██████▋   | 248080/371472 [8:41:53<8:53:36,  3.85it/s] 67%|██████▋   | 248081/371472 [8:41:53<9:37:06,  3.56it/s] 67%|██████▋   | 248082/371472 [8:41:53<9:32:40,  3.59it/s] 67%|██████▋   | 248083/371472 [8:41:54<9:54:10,  3.46it/s] 67%|██████▋   | 248084/371472 [8:41:54<10:02:29,  3.41it/s] 67%|██████▋   | 248085/371472 [8:41:54<9:38:01,  3.56it/s]  67%|██████▋   | 248086/371472 [8:41:55<10:45:13,  3.19it/s] 67%|██████▋   | 248087/371472 [8:41:55<10:29:55,  3.26it/s] 67%|██████▋   | 248088/371472 [8:41:55<10:16:28,  3.34it/s] 67%|██████▋   | 248089/371472 [8:41:56<10:01:41,  3.42it/s] 67%|██████▋   | 248090/371472 [8:41:56<9:53:25,  3.47it/s]  67%|██████▋   | 248091/371472 [8:41:56<9:55:18,  3.45it/s] 67%|██████▋   | 248092/371472 [8:41:56<9:42:00,  3.53it/s] 67%|██████▋   | 248093/371472 [8:41:57<9:59:08,  3.43it/s] 67%|██████▋   | 248094/371472 [8:41:57<9:57:13,  3.44it/s] 67%|██████▋   | 248095/371472 [8:41:57<9:35:35,  3.57it/s] 67%|██████▋   | 248096/371472 [8:41:57<9:43:49,  3.52it/s] 67%|██████▋   | 248097/371472 [8:41:58<9:52:45,  3.47it/s] 67%|██████▋   | 248098/371472 [8:41:58<9:44:32,  3.52it/s] 67%|██████▋   | 248099/371472 [8:41:58<9:19:02,  3.68it/s] 67%|██████▋   | 248100/371472 [8:41:59<8:55:33,  3.84it/s]                                                           {'loss': 2.6996, 'learning_rate': 3.990659139391066e-07, 'epoch': 10.69}
 67%|██████▋   | 248100/371472 [8:41:59<8:55:33,  3.84it/s] 67%|██████▋   | 248101/371472 [8:41:59<9:18:25,  3.68it/s] 67%|██████▋   | 248102/371472 [8:41:59<9:37:54,  3.56it/s] 67%|██████▋   | 248103/371472 [8:42:00<10:45:49,  3.18it/s] 67%|██████▋   | 248104/371472 [8:42:00<11:07:58,  3.08it/s] 67%|██████▋   | 248105/371472 [8:42:00<10:22:02,  3.31it/s] 67%|██████▋   | 248106/371472 [8:42:00<9:45:26,  3.51it/s]  67%|██████▋   | 248107/371472 [8:42:01<9:42:13,  3.53it/s] 67%|██████▋   | 248108/371472 [8:42:01<9:31:47,  3.60it/s] 67%|██████▋   | 248109/371472 [8:42:01<10:18:27,  3.32it/s] 67%|██████▋   | 248110/371472 [8:42:02<10:26:26,  3.28it/s] 67%|██████▋   | 248111/371472 [8:42:02<9:56:57,  3.44it/s]  67%|██████▋   | 248112/371472 [8:42:02<10:07:16,  3.39it/s] 67%|██████▋   | 248113/371472 [8:42:02<10:08:43,  3.38it/s] 67%|██████▋   | 248114/371472 [8:42:03<10:01:41,  3.42it/s] 67%|██████▋   | 248115/371472 [8:42:03<9:47:18,  3.50it/s]  67%|██████▋   | 248116/371472 [8:42:03<9:41:24,  3.54it/s] 67%|██████▋   | 248117/371472 [8:42:04<9:16:26,  3.69it/s] 67%|██████▋   | 248118/371472 [8:42:04<11:03:55,  3.10it/s] 67%|██████▋   | 248119/371472 [8:42:04<10:31:24,  3.26it/s] 67%|██████▋   | 248120/371472 [8:42:04<9:46:17,  3.51it/s]                                                            {'loss': 2.5997, 'learning_rate': 3.9901743196362775e-07, 'epoch': 10.69}
 67%|██████▋   | 248120/371472 [8:42:04<9:46:17,  3.51it/s] 67%|██████▋   | 248121/371472 [8:42:05<9:40:50,  3.54it/s] 67%|██████▋   | 248122/371472 [8:42:05<9:35:33,  3.57it/s] 67%|██████▋   | 248123/371472 [8:42:05<9:19:29,  3.67it/s] 67%|██████▋   | 248124/371472 [8:42:06<9:15:40,  3.70it/s] 67%|██████▋   | 248125/371472 [8:42:06<9:53:02,  3.47it/s] 67%|██████▋   | 248126/371472 [8:42:06<9:26:41,  3.63it/s] 67%|██████▋   | 248127/371472 [8:42:06<9:19:00,  3.68it/s] 67%|██████▋   | 248128/371472 [8:42:07<9:27:41,  3.62it/s] 67%|██████▋   | 248129/371472 [8:42:07<10:23:08,  3.30it/s] 67%|██████▋   | 248130/371472 [8:42:07<10:46:07,  3.18it/s] 67%|██████▋   | 248131/371472 [8:42:08<10:19:45,  3.32it/s] 67%|██████▋   | 248132/371472 [8:42:08<9:45:29,  3.51it/s]  67%|██████▋   | 248133/371472 [8:42:08<9:35:25,  3.57it/s] 67%|██████▋   | 248134/371472 [8:42:08<9:35:13,  3.57it/s] 67%|██████▋   | 248135/371472 [8:42:09<9:59:05,  3.43it/s] 67%|██████▋   | 248136/371472 [8:42:09<9:59:55,  3.43it/s] 67%|██████▋   | 248137/371472 [8:42:09<9:59:55,  3.43it/s] 67%|██████▋   | 248138/371472 [8:42:10<9:57:12,  3.44it/s] 67%|██████▋   | 248139/371472 [8:42:10<9:39:54,  3.54it/s] 67%|██████▋   | 248140/371472 [8:42:10<9:44:53,  3.51it/s]                                                           {'loss': 2.9318, 'learning_rate': 3.9896894998814877e-07, 'epoch': 10.69}
 67%|██████▋   | 248140/371472 [8:42:10<9:44:53,  3.51it/s] 67%|██████▋   | 248141/371472 [8:42:10<9:37:36,  3.56it/s] 67%|██████▋   | 248142/371472 [8:42:11<9:25:41,  3.63it/s] 67%|██████▋   | 248143/371472 [8:42:11<10:28:59,  3.27it/s] 67%|██████▋   | 248144/371472 [8:42:11<10:22:34,  3.30it/s] 67%|██████▋   | 248145/371472 [8:42:12<9:49:40,  3.49it/s]  67%|██████▋   | 248146/371472 [8:42:12<9:19:29,  3.67it/s] 67%|██████▋   | 248147/371472 [8:42:12<9:50:44,  3.48it/s] 67%|██████▋   | 248148/371472 [8:42:12<9:44:57,  3.51it/s] 67%|██████▋   | 248149/371472 [8:42:13<9:21:46,  3.66it/s] 67%|██████▋   | 248150/371472 [8:42:13<9:14:03,  3.71it/s] 67%|██████▋   | 248151/371472 [8:42:13<9:59:06,  3.43it/s] 67%|██████▋   | 248152/371472 [8:42:14<9:33:15,  3.59it/s] 67%|██████▋   | 248153/371472 [8:42:14<9:30:27,  3.60it/s] 67%|██████▋   | 248154/371472 [8:42:14<9:30:27,  3.60it/s] 67%|██████▋   | 248155/371472 [8:42:14<9:51:25,  3.48it/s] 67%|██████▋   | 248156/371472 [8:42:15<9:24:05,  3.64it/s] 67%|██████▋   | 248157/371472 [8:42:15<9:31:02,  3.60it/s] 67%|██████▋   | 248158/371472 [8:42:15<9:55:19,  3.45it/s] 67%|██████▋   | 248159/371472 [8:42:16<9:23:08,  3.65it/s] 67%|██████▋   | 248160/371472 [8:42:16<9:39:34,  3.55it/s]                                                           {'loss': 2.8338, 'learning_rate': 3.9892046801266995e-07, 'epoch': 10.69}
 67%|██████▋   | 248160/371472 [8:42:16<9:39:34,  3.55it/s] 67%|██████▋   | 248161/371472 [8:42:16<10:15:27,  3.34it/s] 67%|██████▋   | 248162/371472 [8:42:16<9:44:32,  3.52it/s]  67%|██████▋   | 248163/371472 [8:42:17<9:38:34,  3.55it/s] 67%|██████▋   | 248164/371472 [8:42:17<9:06:51,  3.76it/s] 67%|██████▋   | 248165/371472 [8:42:17<8:48:53,  3.89it/s] 67%|██████▋   | 248166/371472 [8:42:17<8:57:50,  3.82it/s] 67%|██████▋   | 248167/371472 [8:42:18<9:51:06,  3.48it/s] 67%|██████▋   | 248168/371472 [8:42:18<10:02:08,  3.41it/s] 67%|██████▋   | 248169/371472 [8:42:18<9:40:19,  3.54it/s]  67%|██████▋   | 248170/371472 [8:42:19<9:35:06,  3.57it/s] 67%|██████▋   | 248171/371472 [8:42:19<9:46:25,  3.50it/s] 67%|██████▋   | 248172/371472 [8:42:19<9:27:41,  3.62it/s] 67%|██████▋   | 248173/371472 [8:42:19<9:21:54,  3.66it/s] 67%|██████▋   | 248174/371472 [8:42:20<9:23:36,  3.65it/s] 67%|██████▋   | 248175/371472 [8:42:20<9:08:45,  3.74it/s] 67%|██████▋   | 248176/371472 [8:42:20<8:41:51,  3.94it/s] 67%|██████▋   | 248177/371472 [8:42:20<8:51:37,  3.87it/s] 67%|██████▋   | 248178/371472 [8:42:21<9:02:06,  3.79it/s] 67%|██████▋   | 248179/371472 [8:42:21<9:02:09,  3.79it/s] 67%|██████▋   | 248180/371472 [8:42:21<8:50:06,  3.88it/s]                                                           {'loss': 2.8102, 'learning_rate': 3.98871986037191e-07, 'epoch': 10.69}
 67%|██████▋   | 248180/371472 [8:42:21<8:50:06,  3.88it/s] 67%|██████▋   | 248181/371472 [8:42:22<8:57:34,  3.82it/s] 67%|██████▋   | 248182/371472 [8:42:22<8:59:49,  3.81it/s] 67%|██████▋   | 248183/371472 [8:42:22<8:41:35,  3.94it/s] 67%|██████▋   | 248184/371472 [8:42:22<8:46:11,  3.91it/s] 67%|██████▋   | 248185/371472 [8:42:23<9:54:01,  3.46it/s] 67%|██████▋   | 248186/371472 [8:42:23<9:24:31,  3.64it/s] 67%|██████▋   | 248187/371472 [8:42:23<9:48:02,  3.49it/s] 67%|██████▋   | 248188/371472 [8:42:23<9:38:45,  3.55it/s] 67%|██████▋   | 248189/371472 [8:42:24<9:31:37,  3.59it/s] 67%|██████▋   | 248190/371472 [8:42:24<9:09:22,  3.74it/s] 67%|██████▋   | 248191/371472 [8:42:24<9:43:57,  3.52it/s] 67%|██████▋   | 248192/371472 [8:42:25<9:16:47,  3.69it/s] 67%|██████▋   | 248193/371472 [8:42:25<9:20:41,  3.66it/s] 67%|██████▋   | 248194/371472 [8:42:25<9:28:51,  3.61it/s] 67%|██████▋   | 248195/371472 [8:42:25<9:08:34,  3.75it/s] 67%|██████▋   | 248196/371472 [8:42:26<9:32:45,  3.59it/s] 67%|██████▋   | 248197/371472 [8:42:26<9:23:05,  3.65it/s] 67%|██████▋   | 248198/371472 [8:42:26<9:27:13,  3.62it/s] 67%|██████▋   | 248199/371472 [8:42:26<9:27:12,  3.62it/s] 67%|██████▋   | 248200/371472 [8:42:27<9:07:28,  3.75it/s]                                                           {'loss': 2.8166, 'learning_rate': 3.9882350406171215e-07, 'epoch': 10.69}
 67%|██████▋   | 248200/371472 [8:42:27<9:07:28,  3.75it/s] 67%|██████▋   | 248201/371472 [8:42:27<8:59:03,  3.81it/s] 67%|██████▋   | 248202/371472 [8:42:27<9:32:38,  3.59it/s] 67%|██████▋   | 248203/371472 [8:42:28<9:22:28,  3.65it/s] 67%|██████▋   | 248204/371472 [8:42:28<9:11:36,  3.72it/s] 67%|██████▋   | 248205/371472 [8:42:28<9:05:19,  3.77it/s] 67%|██████▋   | 248206/371472 [8:42:28<9:04:20,  3.77it/s] 67%|██████▋   | 248207/371472 [8:42:29<8:41:45,  3.94it/s] 67%|██████▋   | 248208/371472 [8:42:29<8:43:21,  3.93it/s] 67%|██████▋   | 248209/371472 [8:42:29<9:25:14,  3.63it/s] 67%|██████▋   | 248210/371472 [8:42:29<9:43:42,  3.52it/s] 67%|██████▋   | 248211/371472 [8:42:30<9:23:14,  3.65it/s] 67%|██████▋   | 248212/371472 [8:42:30<10:27:04,  3.28it/s] 67%|██████▋   | 248213/371472 [8:42:30<9:54:46,  3.45it/s]  67%|██████▋   | 248214/371472 [8:42:31<10:39:04,  3.21it/s] 67%|██████▋   | 248215/371472 [8:42:31<10:08:15,  3.38it/s] 67%|██████▋   | 248216/371472 [8:42:31<9:42:56,  3.52it/s]  67%|██████▋   | 248217/371472 [8:42:32<9:56:12,  3.45it/s] 67%|██████▋   | 248218/371472 [8:42:32<9:36:10,  3.57it/s] 67%|██████▋   | 248219/371472 [8:42:32<9:53:51,  3.46it/s] 67%|██████▋   | 248220/371472 [8:42:32<9:40:26,  3.54it/s]                                                           {'loss': 3.0341, 'learning_rate': 3.987750220862332e-07, 'epoch': 10.69}
 67%|██████▋   | 248220/371472 [8:42:32<9:40:26,  3.54it/s] 67%|██████▋   | 248221/371472 [8:42:33<9:46:53,  3.50it/s] 67%|██████▋   | 248222/371472 [8:42:33<10:11:20,  3.36it/s] 67%|██████▋   | 248223/371472 [8:42:33<9:43:28,  3.52it/s]  67%|██████▋   | 248224/371472 [8:42:34<10:11:15,  3.36it/s] 67%|██████▋   | 248225/371472 [8:42:34<10:17:27,  3.33it/s] 67%|██████▋   | 248226/371472 [8:42:34<10:11:49,  3.36it/s] 67%|██████▋   | 248227/371472 [8:42:34<9:49:45,  3.48it/s]  67%|██████▋   | 248228/371472 [8:42:35<10:32:48,  3.25it/s] 67%|██████▋   | 248229/371472 [8:42:35<10:07:16,  3.38it/s] 67%|██████▋   | 248230/371472 [8:42:35<9:52:29,  3.47it/s]  67%|██████▋   | 248231/371472 [8:42:36<9:40:46,  3.54it/s] 67%|██████▋   | 248232/371472 [8:42:36<9:14:42,  3.70it/s] 67%|██████▋   | 248233/371472 [8:42:36<9:20:36,  3.66it/s] 67%|██████▋   | 248234/371472 [8:42:36<9:24:22,  3.64it/s] 67%|██████▋   | 248235/371472 [8:42:37<9:00:27,  3.80it/s] 67%|██████▋   | 248236/371472 [8:42:37<9:03:09,  3.78it/s] 67%|██████▋   | 248237/371472 [8:42:37<8:57:43,  3.82it/s] 67%|██████▋   | 248238/371472 [8:42:37<9:11:54,  3.72it/s] 67%|██████▋   | 248239/371472 [8:42:38<9:27:26,  3.62it/s] 67%|██████▋   | 248240/371472 [8:42:38<9:23:53,  3.64it/s]                                                           {'loss': 2.9628, 'learning_rate': 3.987265401107544e-07, 'epoch': 10.69}
 67%|██████▋   | 248240/371472 [8:42:38<9:23:53,  3.64it/s] 67%|██████▋   | 248241/371472 [8:42:38<9:27:47,  3.62it/s] 67%|██████▋   | 248242/371472 [8:42:39<9:47:14,  3.50it/s] 67%|██████▋   | 248243/371472 [8:42:39<9:40:37,  3.54it/s] 67%|██████▋   | 248244/371472 [8:42:39<10:14:15,  3.34it/s] 67%|██████▋   | 248245/371472 [8:42:39<10:04:25,  3.40it/s] 67%|██████▋   | 248246/371472 [8:42:40<9:43:17,  3.52it/s]  67%|██████▋   | 248247/371472 [8:42:40<9:13:01,  3.71it/s] 67%|██████▋   | 248248/371472 [8:42:40<9:02:42,  3.78it/s] 67%|██████▋   | 248249/371472 [8:42:40<9:02:12,  3.79it/s] 67%|██████▋   | 248250/371472 [8:42:41<9:53:39,  3.46it/s] 67%|██████▋   | 248251/371472 [8:42:41<9:22:30,  3.65it/s] 67%|██████▋   | 248252/371472 [8:42:41<9:20:17,  3.67it/s] 67%|██████▋   | 248253/371472 [8:42:42<9:16:07,  3.69it/s] 67%|██████▋   | 248254/371472 [8:42:42<9:23:15,  3.65it/s] 67%|██████▋   | 248255/371472 [8:42:42<9:21:15,  3.66it/s] 67%|██████▋   | 248256/371472 [8:42:42<9:29:29,  3.61it/s] 67%|██████▋   | 248257/371472 [8:42:43<9:10:03,  3.73it/s] 67%|██████▋   | 248258/371472 [8:42:43<9:03:50,  3.78it/s] 67%|██████▋   | 248259/371472 [8:42:43<9:05:50,  3.76it/s] 67%|██████▋   | 248260/371472 [8:42:43<9:02:43,  3.78it/s]                                                           {'loss': 3.0161, 'learning_rate': 3.9867805813527547e-07, 'epoch': 10.69}
 67%|██████▋   | 248260/371472 [8:42:43<9:02:43,  3.78it/s] 67%|██████▋   | 248261/371472 [8:42:44<9:13:32,  3.71it/s] 67%|██████▋   | 248262/371472 [8:42:44<9:21:36,  3.66it/s] 67%|██████▋   | 248263/371472 [8:42:44<9:31:24,  3.59it/s] 67%|██████▋   | 248264/371472 [8:42:45<9:32:40,  3.59it/s] 67%|██████▋   | 248265/371472 [8:42:45<9:38:51,  3.55it/s] 67%|██████▋   | 248266/371472 [8:42:45<9:21:03,  3.66it/s] 67%|██████▋   | 248267/371472 [8:42:45<9:26:42,  3.62it/s] 67%|██████▋   | 248268/371472 [8:42:46<9:15:34,  3.70it/s] 67%|██████▋   | 248269/371472 [8:42:46<9:18:25,  3.68it/s] 67%|██████▋   | 248270/371472 [8:42:46<10:10:29,  3.36it/s] 67%|██████▋   | 248271/371472 [8:42:47<9:46:20,  3.50it/s]  67%|██████▋   | 248272/371472 [8:42:47<9:33:45,  3.58it/s] 67%|██████▋   | 248273/371472 [8:42:47<9:47:02,  3.50it/s] 67%|██████▋   | 248274/371472 [8:42:47<10:01:38,  3.41it/s] 67%|██████▋   | 248275/371472 [8:42:48<9:45:33,  3.51it/s]  67%|██████▋   | 248276/371472 [8:42:48<9:19:12,  3.67it/s] 67%|██████▋   | 248277/371472 [8:42:48<9:22:06,  3.65it/s] 67%|██████▋   | 248278/371472 [8:42:48<9:05:14,  3.77it/s] 67%|██████▋   | 248279/371472 [8:42:49<8:50:59,  3.87it/s] 67%|██████▋   | 248280/371472 [8:42:49<9:06:26,  3.76it/s]                                                           {'loss': 2.8523, 'learning_rate': 3.986295761597966e-07, 'epoch': 10.69}
 67%|██████▋   | 248280/371472 [8:42:49<9:06:26,  3.76it/s] 67%|██████▋   | 248281/371472 [8:42:49<9:10:54,  3.73it/s] 67%|██████▋   | 248282/371472 [8:42:50<9:01:54,  3.79it/s] 67%|██████▋   | 248283/371472 [8:42:50<9:02:25,  3.79it/s] 67%|██████▋   | 248284/371472 [8:42:50<8:54:12,  3.84it/s] 67%|██████▋   | 248285/371472 [8:42:50<9:13:36,  3.71it/s] 67%|██████▋   | 248286/371472 [8:42:51<8:59:02,  3.81it/s] 67%|██████▋   | 248287/371472 [8:42:51<8:48:17,  3.89it/s] 67%|██████▋   | 248288/371472 [8:42:51<8:53:45,  3.85it/s] 67%|██████▋   | 248289/371472 [8:42:51<8:57:30,  3.82it/s] 67%|██████▋   | 248290/371472 [8:42:52<8:49:21,  3.88it/s] 67%|██████▋   | 248291/371472 [8:42:52<8:31:08,  4.02it/s] 67%|██████▋   | 248292/371472 [8:42:52<8:32:41,  4.00it/s] 67%|██████▋   | 248293/371472 [8:42:52<8:44:04,  3.92it/s] 67%|██████▋   | 248294/371472 [8:42:53<9:01:58,  3.79it/s] 67%|██████▋   | 248295/371472 [8:42:53<9:16:59,  3.69it/s] 67%|██████▋   | 248296/371472 [8:42:53<9:06:04,  3.76it/s] 67%|██████▋   | 248297/371472 [8:42:53<8:46:49,  3.90it/s] 67%|██████▋   | 248298/371472 [8:42:54<9:26:16,  3.63it/s] 67%|██████▋   | 248299/371472 [8:42:54<9:07:20,  3.75it/s] 67%|██████▋   | 248300/371472 [8:42:54<9:23:14,  3.64it/s]                                                           {'loss': 2.8777, 'learning_rate': 3.9858109418431766e-07, 'epoch': 10.69}
 67%|██████▋   | 248300/371472 [8:42:54<9:23:14,  3.64it/s] 67%|██████▋   | 248301/371472 [8:42:55<9:10:28,  3.73it/s] 67%|██████▋   | 248302/371472 [8:42:55<9:25:48,  3.63it/s] 67%|██████▋   | 248303/371472 [8:42:55<9:18:49,  3.67it/s] 67%|██████▋   | 248304/371472 [8:42:55<9:14:24,  3.70it/s] 67%|██████▋   | 248305/371472 [8:42:56<9:38:35,  3.55it/s] 67%|██████▋   | 248306/371472 [8:42:56<9:09:52,  3.73it/s] 67%|██████▋   | 248307/371472 [8:42:56<9:06:30,  3.76it/s] 67%|██████▋   | 248308/371472 [8:42:56<9:01:54,  3.79it/s] 67%|██████▋   | 248309/371472 [8:42:57<9:41:35,  3.53it/s] 67%|██████▋   | 248310/371472 [8:42:57<10:01:12,  3.41it/s] 67%|██████▋   | 248311/371472 [8:42:57<10:23:02,  3.29it/s] 67%|██████▋   | 248312/371472 [8:42:58<9:53:48,  3.46it/s]  67%|██████▋   | 248313/371472 [8:42:58<10:03:55,  3.40it/s] 67%|██████▋   | 248314/371472 [8:42:58<9:57:59,  3.43it/s]  67%|██████▋   | 248315/371472 [8:42:58<9:33:36,  3.58it/s] 67%|██████▋   | 248316/371472 [8:42:59<10:13:56,  3.34it/s] 67%|██████▋   | 248317/371472 [8:42:59<10:12:29,  3.35it/s] 67%|██████▋   | 248318/371472 [8:42:59<10:15:43,  3.33it/s] 67%|██████▋   | 248319/371472 [8:43:00<9:53:00,  3.46it/s]  67%|██████▋   | 248320/371472 [8:43:00<10:03:36,  3.40it/s]                                                            {'loss': 2.9585, 'learning_rate': 3.9853261220883884e-07, 'epoch': 10.7}
 67%|██████▋   | 248320/371472 [8:43:00<10:03:36,  3.40it/s] 67%|██████▋   | 248321/371472 [8:43:00<10:02:59,  3.40it/s] 67%|██████▋   | 248322/371472 [8:43:01<9:43:47,  3.52it/s]  67%|██████▋   | 248323/371472 [8:43:01<10:06:43,  3.38it/s] 67%|██████▋   | 248324/371472 [8:43:01<9:39:09,  3.54it/s]  67%|██████▋   | 248325/371472 [8:43:01<9:51:39,  3.47it/s] 67%|██████▋   | 248326/371472 [8:43:02<9:38:35,  3.55it/s] 67%|██████▋   | 248327/371472 [8:43:02<9:38:17,  3.55it/s] 67%|██████▋   | 248328/371472 [8:43:02<9:58:50,  3.43it/s] 67%|██████▋   | 248329/371472 [8:43:03<10:11:00,  3.36it/s] 67%|██████▋   | 248330/371472 [8:43:03<9:59:14,  3.42it/s]  67%|██████▋   | 248331/371472 [8:43:03<9:47:43,  3.49it/s] 67%|██████▋   | 248332/371472 [8:43:03<9:47:44,  3.49it/s] 67%|██████▋   | 248333/371472 [8:43:04<9:37:39,  3.55it/s] 67%|██████▋   | 248334/371472 [8:43:04<9:32:58,  3.58it/s] 67%|██████▋   | 248335/371472 [8:43:04<9:42:51,  3.52it/s] 67%|██████▋   | 248336/371472 [8:43:05<9:44:53,  3.51it/s] 67%|██████▋   | 248337/371472 [8:43:05<9:23:02,  3.64it/s] 67%|██████▋   | 248338/371472 [8:43:05<9:56:39,  3.44it/s] 67%|██████▋   | 248339/371472 [8:43:05<10:12:00,  3.35it/s] 67%|██████▋   | 248340/371472 [8:43:06<10:20:19,  3.31it/s]                                                            {'loss': 2.6922, 'learning_rate': 3.9848413023335986e-07, 'epoch': 10.7}
 67%|██████▋   | 248340/371472 [8:43:06<10:20:19,  3.31it/s] 67%|██████▋   | 248341/371472 [8:43:06<10:35:57,  3.23it/s] 67%|██████▋   | 248342/371472 [8:43:06<10:26:43,  3.27it/s] 67%|██████▋   | 248343/371472 [8:43:07<10:17:20,  3.32it/s] 67%|██████▋   | 248344/371472 [8:43:07<10:02:55,  3.40it/s] 67%|██████▋   | 248345/371472 [8:43:07<10:22:19,  3.30it/s] 67%|██████▋   | 248346/371472 [8:43:08<9:56:48,  3.44it/s]  67%|██████▋   | 248347/371472 [8:43:08<9:33:15,  3.58it/s] 67%|██████▋   | 248348/371472 [8:43:08<9:28:14,  3.61it/s] 67%|██████▋   | 248349/371472 [8:43:08<9:24:34,  3.63it/s] 67%|██████▋   | 248350/371472 [8:43:09<9:20:45,  3.66it/s] 67%|██████▋   | 248351/371472 [8:43:09<9:11:16,  3.72it/s] 67%|██████▋   | 248352/371472 [8:43:09<8:48:48,  3.88it/s] 67%|██████▋   | 248353/371472 [8:43:09<8:33:42,  3.99it/s] 67%|██████▋   | 248354/371472 [8:43:10<8:53:41,  3.84it/s] 67%|██████▋   | 248355/371472 [8:43:10<9:27:52,  3.61it/s] 67%|██████▋   | 248356/371472 [8:43:10<9:25:50,  3.63it/s] 67%|██████▋   | 248357/371472 [8:43:11<9:44:22,  3.51it/s] 67%|██████▋   | 248358/371472 [8:43:11<9:19:06,  3.67it/s] 67%|██████▋   | 248359/371472 [8:43:11<9:11:45,  3.72it/s] 67%|██████▋   | 248360/371472 [8:43:12<11:29:12,  2.98it/s]                                                            {'loss': 2.933, 'learning_rate': 3.984356482578811e-07, 'epoch': 10.7}
 67%|██████▋   | 248360/371472 [8:43:12<11:29:12,  2.98it/s] 67%|██████▋   | 248361/371472 [8:43:12<10:39:30,  3.21it/s] 67%|██████▋   | 248362/371472 [8:43:12<9:52:20,  3.46it/s]  67%|██████▋   | 248363/371472 [8:43:12<9:31:34,  3.59it/s] 67%|██████▋   | 248364/371472 [8:43:13<9:11:54,  3.72it/s] 67%|██████▋   | 248365/371472 [8:43:13<9:38:10,  3.55it/s] 67%|██████▋   | 248366/371472 [8:43:13<9:19:18,  3.67it/s] 67%|██████▋   | 248367/371472 [8:43:13<9:26:08,  3.62it/s] 67%|██████▋   | 248368/371472 [8:43:14<9:53:40,  3.46it/s] 67%|██████▋   | 248369/371472 [8:43:14<9:34:39,  3.57it/s] 67%|██████▋   | 248370/371472 [8:43:14<10:12:03,  3.35it/s] 67%|██████▋   | 248371/371472 [8:43:15<10:19:31,  3.31it/s] 67%|██████▋   | 248372/371472 [8:43:15<9:37:40,  3.55it/s]  67%|██████▋   | 248373/371472 [8:43:15<9:37:48,  3.55it/s] 67%|██████▋   | 248374/371472 [8:43:15<9:21:38,  3.65it/s] 67%|██████▋   | 248375/371472 [8:43:16<9:15:53,  3.69it/s] 67%|██████▋   | 248376/371472 [8:43:16<9:43:43,  3.51it/s] 67%|██████▋   | 248377/371472 [8:43:16<9:41:29,  3.53it/s] 67%|██████▋   | 248378/371472 [8:43:16<9:17:47,  3.68it/s] 67%|██████▋   | 248379/371472 [8:43:17<9:06:28,  3.75it/s] 67%|██████▋   | 248380/371472 [8:43:17<9:18:04,  3.68it/s]                                                           {'loss': 2.8785, 'learning_rate': 3.983871662824021e-07, 'epoch': 10.7}
 67%|██████▋   | 248380/371472 [8:43:17<9:18:04,  3.68it/s] 67%|██████▋   | 248381/371472 [8:43:17<8:55:24,  3.83it/s] 67%|██████▋   | 248382/371472 [8:43:18<8:54:41,  3.84it/s] 67%|██████▋   | 248383/371472 [8:43:18<9:00:40,  3.79it/s] 67%|██████▋   | 248384/371472 [8:43:18<8:53:40,  3.84it/s] 67%|██████▋   | 248385/371472 [8:43:18<8:48:07,  3.88it/s] 67%|██████▋   | 248386/371472 [8:43:19<8:49:29,  3.87it/s] 67%|██████▋   | 248387/371472 [8:43:19<8:51:51,  3.86it/s] 67%|██████▋   | 248388/371472 [8:43:19<9:31:56,  3.59it/s] 67%|██████▋   | 248389/371472 [8:43:19<9:22:45,  3.65it/s] 67%|██████▋   | 248390/371472 [8:43:20<9:50:18,  3.48it/s] 67%|██████▋   | 248391/371472 [8:43:20<9:36:47,  3.56it/s] 67%|██████▋   | 248392/371472 [8:43:20<9:43:02,  3.52it/s] 67%|██████▋   | 248393/371472 [8:43:21<9:25:01,  3.63it/s] 67%|██████▋   | 248394/371472 [8:43:21<10:30:35,  3.25it/s] 67%|██████▋   | 248395/371472 [8:43:21<10:33:06,  3.24it/s] 67%|██████▋   | 248396/371472 [8:43:21<10:20:55,  3.30it/s] 67%|██████▋   | 248397/371472 [8:43:22<10:18:28,  3.32it/s] 67%|██████▋   | 248398/371472 [8:43:22<10:02:17,  3.41it/s] 67%|██████▋   | 248399/371472 [8:43:22<9:45:58,  3.50it/s]  67%|██████▋   | 248400/371472 [8:43:23<9:44:39,  3.51it/s]                                                           {'loss': 2.8783, 'learning_rate': 3.9833868430692323e-07, 'epoch': 10.7}
 67%|██████▋   | 248400/371472 [8:43:23<9:44:39,  3.51it/s] 67%|██████▋   | 248401/371472 [8:43:23<9:12:38,  3.71it/s] 67%|██████▋   | 248402/371472 [8:43:23<9:42:02,  3.52it/s] 67%|██████▋   | 248403/371472 [8:43:23<9:30:17,  3.60it/s] 67%|██████▋   | 248404/371472 [8:43:24<9:15:38,  3.69it/s] 67%|██████▋   | 248405/371472 [8:43:24<9:24:01,  3.64it/s] 67%|██████▋   | 248406/371472 [8:43:24<10:01:11,  3.41it/s] 67%|██████▋   | 248407/371472 [8:43:25<9:53:48,  3.45it/s]  67%|██████▋   | 248408/371472 [8:43:25<9:36:42,  3.56it/s] 67%|██████▋   | 248409/371472 [8:43:25<9:39:23,  3.54it/s] 67%|██████▋   | 248410/371472 [8:43:25<9:16:17,  3.69it/s] 67%|██████▋   | 248411/371472 [8:43:26<8:57:50,  3.81it/s] 67%|██████▋   | 248412/371472 [8:43:26<9:08:42,  3.74it/s] 67%|██████▋   | 248413/371472 [8:43:26<9:01:46,  3.79it/s] 67%|██████▋   | 248414/371472 [8:43:26<9:15:36,  3.69it/s] 67%|██████▋   | 248415/371472 [8:43:27<9:12:03,  3.72it/s] 67%|██████▋   | 248416/371472 [8:43:27<9:37:44,  3.55it/s] 67%|██████▋   | 248417/371472 [8:43:27<9:30:19,  3.60it/s] 67%|██████▋   | 248418/371472 [8:43:28<9:06:40,  3.75it/s] 67%|██████▋   | 248419/371472 [8:43:28<9:28:21,  3.61it/s] 67%|██████▋   | 248420/371472 [8:43:28<9:21:48,  3.65it/s]                                                           {'loss': 2.9596, 'learning_rate': 3.982902023314443e-07, 'epoch': 10.7}
 67%|██████▋   | 248420/371472 [8:43:28<9:21:48,  3.65it/s] 67%|██████▋   | 248421/371472 [8:43:28<9:04:37,  3.77it/s] 67%|██████▋   | 248422/371472 [8:43:29<8:50:30,  3.87it/s] 67%|██████▋   | 248423/371472 [8:43:29<9:26:01,  3.62it/s] 67%|██████▋   | 248424/371472 [8:43:29<10:09:39,  3.36it/s] 67%|██████▋   | 248425/371472 [8:43:30<9:51:18,  3.47it/s]  67%|██████▋   | 248426/371472 [8:43:30<9:36:33,  3.56it/s] 67%|██████▋   | 248427/371472 [8:43:30<9:17:20,  3.68it/s] 67%|██████▋   | 248428/371472 [8:43:30<9:06:07,  3.76it/s] 67%|██████▋   | 248429/371472 [8:43:31<8:56:16,  3.82it/s] 67%|██████▋   | 248430/371472 [8:43:31<9:04:23,  3.77it/s] 67%|██████▋   | 248431/371472 [8:43:31<9:02:39,  3.78it/s] 67%|██████▋   | 248432/371472 [8:43:31<8:54:37,  3.84it/s] 67%|██████▋   | 248433/371472 [8:43:32<8:41:05,  3.94it/s] 67%|██████▋   | 248434/371472 [8:43:32<9:15:57,  3.69it/s] 67%|██████▋   | 248435/371472 [8:43:32<9:06:08,  3.75it/s] 67%|██████▋   | 248436/371472 [8:43:32<9:10:49,  3.72it/s] 67%|██████▋   | 248437/371472 [8:43:33<9:10:07,  3.73it/s] 67%|██████▋   | 248438/371472 [8:43:33<9:11:46,  3.72it/s] 67%|██████▋   | 248439/371472 [8:43:33<9:54:21,  3.45it/s] 67%|██████▋   | 248440/371472 [8:43:34<9:23:33,  3.64it/s]                                                           {'loss': 2.8601, 'learning_rate': 3.982417203559655e-07, 'epoch': 10.7}
 67%|██████▋   | 248440/371472 [8:43:34<9:23:33,  3.64it/s] 67%|██████▋   | 248441/371472 [8:43:34<9:19:30,  3.66it/s] 67%|██████▋   | 248442/371472 [8:43:34<9:41:13,  3.53it/s] 67%|██████▋   | 248443/371472 [8:43:35<11:56:40,  2.86it/s] 67%|██████▋   | 248444/371472 [8:43:35<11:20:32,  3.01it/s] 67%|██████▋   | 248445/371472 [8:43:35<10:42:34,  3.19it/s] 67%|██████▋   | 248446/371472 [8:43:35<10:44:53,  3.18it/s] 67%|██████▋   | 248447/371472 [8:43:36<10:06:57,  3.38it/s] 67%|██████▋   | 248448/371472 [8:43:36<9:43:01,  3.52it/s]  67%|██████▋   | 248449/371472 [8:43:36<9:50:41,  3.47it/s] 67%|██████▋   | 248450/371472 [8:43:37<9:44:15,  3.51it/s] 67%|██████▋   | 248451/371472 [8:43:37<9:56:02,  3.44it/s] 67%|██████▋   | 248452/371472 [8:43:37<10:08:41,  3.37it/s] 67%|██████▋   | 248453/371472 [8:43:37<9:39:12,  3.54it/s]  67%|██████▋   | 248454/371472 [8:43:38<9:19:30,  3.66it/s] 67%|██████▋   | 248455/371472 [8:43:38<10:32:24,  3.24it/s] 67%|██████▋   | 248456/371472 [8:43:38<10:45:36,  3.18it/s] 67%|██████▋   | 248457/371472 [8:43:39<10:21:16,  3.30it/s] 67%|██████▋   | 248458/371472 [8:43:39<10:08:28,  3.37it/s] 67%|██████▋   | 248459/371472 [8:43:39<10:17:27,  3.32it/s] 67%|██████▋   | 248460/371472 [8:43:40<9:59:09,  3.42it/s]                                                            {'loss': 2.7852, 'learning_rate': 3.981932383804865e-07, 'epoch': 10.7}
 67%|██████▋   | 248460/371472 [8:43:40<9:59:09,  3.42it/s] 67%|██████▋   | 248461/371472 [8:43:40<10:26:59,  3.27it/s] 67%|██████▋   | 248462/371472 [8:43:40<9:52:07,  3.46it/s]  67%|██████▋   | 248463/371472 [8:43:40<9:58:05,  3.43it/s] 67%|██████▋   | 248464/371472 [8:43:41<9:33:29,  3.57it/s] 67%|██████▋   | 248465/371472 [8:43:41<9:12:54,  3.71it/s] 67%|██████▋   | 248466/371472 [8:43:41<8:56:22,  3.82it/s] 67%|██████▋   | 248467/371472 [8:43:41<8:55:23,  3.83it/s] 67%|██████▋   | 248468/371472 [8:43:42<8:45:25,  3.90it/s] 67%|██████▋   | 248469/371472 [8:43:42<8:47:28,  3.89it/s] 67%|██████▋   | 248470/371472 [8:43:42<8:49:42,  3.87it/s] 67%|██████▋   | 248471/371472 [8:43:42<8:35:50,  3.97it/s] 67%|██████▋   | 248472/371472 [8:43:43<8:51:51,  3.85it/s] 67%|██████▋   | 248473/371472 [8:43:43<8:47:10,  3.89it/s] 67%|██████▋   | 248474/371472 [8:43:43<9:36:46,  3.55it/s] 67%|██████▋   | 248475/371472 [8:43:44<9:14:18,  3.70it/s] 67%|██████▋   | 248476/371472 [8:43:44<9:16:40,  3.68it/s] 67%|██████▋   | 248477/371472 [8:43:44<9:02:25,  3.78it/s] 67%|██████▋   | 248478/371472 [8:43:44<9:35:10,  3.56it/s] 67%|██████▋   | 248479/371472 [8:43:45<9:19:39,  3.66it/s] 67%|██████▋   | 248480/371472 [8:43:45<10:01:05,  3.41it/s]                                                            {'loss': 2.8542, 'learning_rate': 3.981447564050077e-07, 'epoch': 10.7}
 67%|██████▋   | 248480/371472 [8:43:45<10:01:05,  3.41it/s] 67%|██████▋   | 248481/371472 [8:43:45<10:11:42,  3.35it/s] 67%|██████▋   | 248482/371472 [8:43:46<10:13:14,  3.34it/s] 67%|██████▋   | 248483/371472 [8:43:46<9:32:28,  3.58it/s]  67%|██████▋   | 248484/371472 [8:43:46<9:17:39,  3.68it/s] 67%|██████▋   | 248485/371472 [8:43:46<9:36:35,  3.56it/s] 67%|██████▋   | 248486/371472 [8:43:47<9:25:11,  3.63it/s] 67%|██████▋   | 248487/371472 [8:43:47<9:54:13,  3.45it/s] 67%|██████▋   | 248488/371472 [8:43:47<9:19:05,  3.67it/s] 67%|██████▋   | 248489/371472 [8:43:47<9:07:45,  3.74it/s] 67%|██████▋   | 248490/371472 [8:43:48<9:24:16,  3.63it/s] 67%|██████▋   | 248491/371472 [8:43:48<9:41:17,  3.53it/s] 67%|██████▋   | 248492/371472 [8:43:48<9:40:52,  3.53it/s] 67%|██████▋   | 248493/371472 [8:43:49<9:59:30,  3.42it/s] 67%|██████▋   | 248494/371472 [8:43:49<10:22:54,  3.29it/s] 67%|██████▋   | 248495/371472 [8:43:49<10:04:41,  3.39it/s] 67%|██████▋   | 248496/371472 [8:43:49<9:26:14,  3.62it/s]  67%|██████▋   | 248497/371472 [8:43:50<10:26:28,  3.27it/s] 67%|██████▋   | 248498/371472 [8:43:50<11:06:46,  3.07it/s] 67%|██████▋   | 248499/371472 [8:43:51<10:37:54,  3.21it/s] 67%|██████▋   | 248500/371472 [8:43:51<9:57:43,  3.43it/s]                                                            {'loss': 2.9365, 'learning_rate': 3.9809627442952875e-07, 'epoch': 10.7}
 67%|██████▋   | 248500/371472 [8:43:51<9:57:43,  3.43it/s] 67%|██████▋   | 248501/371472 [8:43:51<10:12:56,  3.34it/s] 67%|██████▋   | 248502/371472 [8:43:51<9:57:46,  3.43it/s]  67%|██████▋   | 248503/371472 [8:43:52<11:13:23,  3.04it/s] 67%|██████▋   | 248504/371472 [8:43:52<10:29:30,  3.26it/s] 67%|██████▋   | 248505/371472 [8:43:52<9:51:11,  3.47it/s]  67%|██████▋   | 248506/371472 [8:43:53<9:26:17,  3.62it/s] 67%|██████▋   | 248507/371472 [8:43:53<9:43:18,  3.51it/s] 67%|██████▋   | 248508/371472 [8:43:53<9:32:11,  3.58it/s] 67%|██████▋   | 248509/371472 [8:43:53<10:09:02,  3.36it/s] 67%|██████▋   | 248510/371472 [8:43:54<9:34:34,  3.57it/s]  67%|██████▋   | 248511/371472 [8:43:54<9:13:15,  3.70it/s] 67%|██████▋   | 248512/371472 [8:43:54<9:18:20,  3.67it/s] 67%|██████▋   | 248513/371472 [8:43:54<8:51:09,  3.86it/s] 67%|██████▋   | 248514/371472 [8:43:55<9:04:45,  3.76it/s] 67%|██████▋   | 248515/371472 [8:43:55<9:57:57,  3.43it/s] 67%|██████▋   | 248516/371472 [8:43:55<9:52:36,  3.46it/s] 67%|██████▋   | 248517/371472 [8:43:56<9:54:47,  3.45it/s] 67%|██████▋   | 248518/371472 [8:43:56<9:55:33,  3.44it/s] 67%|██████▋   | 248519/371472 [8:43:56<9:34:01,  3.57it/s] 67%|██████▋   | 248520/371472 [8:43:56<9:15:10,  3.69it/s]                                                           {'loss': 2.9045, 'learning_rate': 3.9804779245404987e-07, 'epoch': 10.7}
 67%|██████▋   | 248520/371472 [8:43:56<9:15:10,  3.69it/s] 67%|██████▋   | 248521/371472 [8:43:57<9:11:30,  3.72it/s] 67%|██████▋   | 248522/371472 [8:43:57<9:53:10,  3.45it/s] 67%|██████▋   | 248523/371472 [8:43:57<9:45:58,  3.50it/s] 67%|██████▋   | 248524/371472 [8:43:58<9:57:53,  3.43it/s] 67%|██████▋   | 248525/371472 [8:43:58<10:07:35,  3.37it/s] 67%|██████▋   | 248526/371472 [8:43:58<10:58:57,  3.11it/s] 67%|██████▋   | 248527/371472 [8:43:59<10:23:45,  3.29it/s] 67%|██████▋   | 248528/371472 [8:43:59<10:54:16,  3.13it/s] 67%|██████▋   | 248529/371472 [8:43:59<12:10:11,  2.81it/s] 67%|██████▋   | 248530/371472 [8:44:00<11:26:20,  2.99it/s] 67%|██████▋   | 248531/371472 [8:44:00<10:41:12,  3.20it/s] 67%|██████▋   | 248532/371472 [8:44:00<10:06:16,  3.38it/s] 67%|██████▋   | 248533/371472 [8:44:00<9:49:52,  3.47it/s]  67%|██████▋   | 248534/371472 [8:44:01<9:30:58,  3.59it/s] 67%|██████▋   | 248535/371472 [8:44:01<9:25:28,  3.62it/s] 67%|██████▋   | 248536/371472 [8:44:01<9:19:20,  3.66it/s] 67%|██████▋   | 248537/371472 [8:44:01<9:10:12,  3.72it/s] 67%|██████▋   | 248538/371472 [8:44:02<8:58:11,  3.81it/s] 67%|██████▋   | 248539/371472 [8:44:02<9:05:22,  3.76it/s] 67%|██████▋   | 248540/371472 [8:44:02<8:51:27,  3.86it/s]                                                           {'loss': 2.9377, 'learning_rate': 3.9799931047857094e-07, 'epoch': 10.71}
 67%|██████▋   | 248540/371472 [8:44:02<8:51:27,  3.86it/s] 67%|██████▋   | 248541/371472 [8:44:02<8:41:16,  3.93it/s] 67%|██████▋   | 248542/371472 [8:44:03<10:23:25,  3.29it/s] 67%|██████▋   | 248543/371472 [8:44:03<9:46:01,  3.50it/s]  67%|██████▋   | 248544/371472 [8:44:03<9:51:18,  3.46it/s] 67%|██████▋   | 248545/371472 [8:44:04<9:23:39,  3.63it/s] 67%|██████▋   | 248546/371472 [8:44:04<9:34:27,  3.57it/s] 67%|██████▋   | 248547/371472 [8:44:04<9:03:02,  3.77it/s] 67%|██████▋   | 248548/371472 [8:44:04<9:10:45,  3.72it/s] 67%|██████▋   | 248549/371472 [8:44:05<9:08:42,  3.73it/s] 67%|██████▋   | 248550/371472 [8:44:05<8:58:57,  3.80it/s] 67%|██████▋   | 248551/371472 [8:44:05<8:39:23,  3.94it/s] 67%|██████▋   | 248552/371472 [8:44:06<8:50:05,  3.86it/s] 67%|██████▋   | 248553/371472 [8:44:06<9:47:07,  3.49it/s] 67%|██████▋   | 248554/371472 [8:44:06<9:38:08,  3.54it/s] 67%|██████▋   | 248555/371472 [8:44:06<9:15:03,  3.69it/s] 67%|██████▋   | 248556/371472 [8:44:07<8:59:28,  3.80it/s] 67%|██████▋   | 248557/371472 [8:44:07<9:02:26,  3.78it/s] 67%|██████▋   | 248558/371472 [8:44:07<8:48:19,  3.88it/s] 67%|██████▋   | 248559/371472 [8:44:07<9:20:50,  3.65it/s] 67%|██████▋   | 248560/371472 [8:44:08<9:00:55,  3.79it/s]                                                           {'loss': 2.9179, 'learning_rate': 3.97950828503092e-07, 'epoch': 10.71}
 67%|██████▋   | 248560/371472 [8:44:08<9:00:55,  3.79it/s] 67%|██████▋   | 248561/371472 [8:44:08<8:55:09,  3.83it/s] 67%|██████▋   | 248562/371472 [8:44:08<9:11:09,  3.72it/s] 67%|██████▋   | 248563/371472 [8:44:09<9:54:47,  3.44it/s] 67%|██████▋   | 248564/371472 [8:44:09<9:48:58,  3.48it/s] 67%|██████▋   | 248565/371472 [8:44:09<9:37:35,  3.55it/s] 67%|██████▋   | 248566/371472 [8:44:09<9:19:43,  3.66it/s] 67%|██████▋   | 248567/371472 [8:44:10<10:16:41,  3.32it/s] 67%|██████▋   | 248568/371472 [8:44:10<9:53:09,  3.45it/s]  67%|██████▋   | 248569/371472 [8:44:10<9:57:48,  3.43it/s] 67%|██████▋   | 248570/371472 [8:44:11<10:03:16,  3.40it/s] 67%|██████▋   | 248571/371472 [8:44:11<9:29:33,  3.60it/s]  67%|██████▋   | 248572/371472 [8:44:11<9:29:06,  3.60it/s] 67%|██████▋   | 248573/371472 [8:44:11<9:20:07,  3.66it/s] 67%|██████▋   | 248574/371472 [8:44:12<9:35:53,  3.56it/s] 67%|██████▋   | 248575/371472 [8:44:12<9:20:46,  3.65it/s] 67%|██████▋   | 248576/371472 [8:44:12<9:14:36,  3.69it/s] 67%|██████▋   | 248577/371472 [8:44:12<9:03:47,  3.77it/s] 67%|██████▋   | 248578/371472 [8:44:13<9:05:41,  3.75it/s] 67%|██████▋   | 248579/371472 [8:44:13<9:05:15,  3.76it/s] 67%|██████▋   | 248580/371472 [8:44:13<8:58:25,  3.80it/s]                                                           {'loss': 2.7555, 'learning_rate': 3.9790234652761314e-07, 'epoch': 10.71}
 67%|██████▋   | 248580/371472 [8:44:13<8:58:25,  3.80it/s] 67%|██████▋   | 248581/371472 [8:44:13<8:40:57,  3.93it/s] 67%|██████▋   | 248582/371472 [8:44:14<8:59:17,  3.80it/s] 67%|██████▋   | 248583/371472 [8:44:14<9:11:30,  3.71it/s] 67%|██████▋   | 248584/371472 [8:44:14<9:10:23,  3.72it/s] 67%|██████▋   | 248585/371472 [8:44:15<9:55:19,  3.44it/s] 67%|██████▋   | 248586/371472 [8:44:15<9:57:08,  3.43it/s] 67%|██████▋   | 248587/371472 [8:44:15<10:00:20,  3.41it/s] 67%|██████▋   | 248588/371472 [8:44:15<9:25:34,  3.62it/s]  67%|██████▋   | 248589/371472 [8:44:16<9:42:11,  3.52it/s] 67%|██████▋   | 248590/371472 [8:44:16<9:28:59,  3.60it/s] 67%|██████▋   | 248591/371472 [8:44:16<9:07:18,  3.74it/s] 67%|██████▋   | 248592/371472 [8:44:17<8:51:06,  3.86it/s] 67%|██████▋   | 248593/371472 [8:44:17<8:58:08,  3.81it/s] 67%|██████▋   | 248594/371472 [8:44:17<8:50:13,  3.86it/s] 67%|██████▋   | 248595/371472 [8:44:17<9:02:26,  3.78it/s] 67%|██████▋   | 248596/371472 [8:44:18<9:21:09,  3.65it/s] 67%|██████▋   | 248597/371472 [8:44:18<9:26:28,  3.62it/s] 67%|██████▋   | 248598/371472 [8:44:18<9:17:30,  3.67it/s] 67%|██████▋   | 248599/371472 [8:44:18<9:14:41,  3.69it/s] 67%|██████▋   | 248600/371472 [8:44:19<9:25:16,  3.62it/s]                                                           {'loss': 2.8309, 'learning_rate': 3.978538645521342e-07, 'epoch': 10.71}
 67%|██████▋   | 248600/371472 [8:44:19<9:25:16,  3.62it/s] 67%|██████▋   | 248601/371472 [8:44:19<9:13:21,  3.70it/s] 67%|██████▋   | 248602/371472 [8:44:19<9:53:32,  3.45it/s] 67%|██████▋   | 248603/371472 [8:44:20<9:48:24,  3.48it/s] 67%|██████▋   | 248604/371472 [8:44:20<10:09:11,  3.36it/s] 67%|██████▋   | 248605/371472 [8:44:20<9:35:27,  3.56it/s]  67%|██████▋   | 248606/371472 [8:44:20<9:42:03,  3.52it/s] 67%|██████▋   | 248607/371472 [8:44:21<9:16:43,  3.68it/s] 67%|██████▋   | 248608/371472 [8:44:21<9:13:12,  3.70it/s] 67%|██████▋   | 248609/371472 [8:44:21<9:09:58,  3.72it/s] 67%|██████▋   | 248610/371472 [8:44:21<8:54:16,  3.83it/s] 67%|██████▋   | 248611/371472 [8:44:22<9:24:23,  3.63it/s] 67%|██████▋   | 248612/371472 [8:44:22<9:40:53,  3.52it/s] 67%|██████▋   | 248613/371472 [8:44:22<9:13:01,  3.70it/s] 67%|██████▋   | 248614/371472 [8:44:23<9:19:49,  3.66it/s] 67%|██████▋   | 248615/371472 [8:44:23<9:19:50,  3.66it/s] 67%|██████▋   | 248616/371472 [8:44:23<8:49:29,  3.87it/s] 67%|██████▋   | 248617/371472 [8:44:23<8:55:24,  3.82it/s] 67%|██████▋   | 248618/371472 [8:44:24<8:43:37,  3.91it/s] 67%|██████▋   | 248619/371472 [8:44:24<9:18:22,  3.67it/s] 67%|██████▋   | 248620/371472 [8:44:24<9:14:45,  3.69it/s]                                                           {'loss': 2.7303, 'learning_rate': 3.978053825766554e-07, 'epoch': 10.71}
 67%|██████▋   | 248620/371472 [8:44:24<9:14:45,  3.69it/s] 67%|██████▋   | 248621/371472 [8:44:24<9:21:05,  3.65it/s] 67%|██████▋   | 248622/371472 [8:44:25<9:30:30,  3.59it/s] 67%|██████▋   | 248623/371472 [8:44:25<9:26:42,  3.61it/s] 67%|██████▋   | 248624/371472 [8:44:25<9:20:27,  3.65it/s] 67%|██████▋   | 248625/371472 [8:44:26<9:05:20,  3.75it/s] 67%|██████▋   | 248626/371472 [8:44:26<9:28:05,  3.60it/s] 67%|██████▋   | 248627/371472 [8:44:26<10:04:16,  3.39it/s] 67%|██████▋   | 248628/371472 [8:44:26<9:41:44,  3.52it/s]  67%|██████▋   | 248629/371472 [8:44:27<9:30:11,  3.59it/s] 67%|██████▋   | 248630/371472 [8:44:27<9:19:06,  3.66it/s] 67%|██████▋   | 248631/371472 [8:44:27<9:10:43,  3.72it/s] 67%|██████▋   | 248632/371472 [8:44:27<8:53:24,  3.84it/s] 67%|██████▋   | 248633/371472 [8:44:28<8:49:43,  3.86it/s] 67%|██████▋   | 248634/371472 [8:44:28<9:12:47,  3.70it/s] 67%|██████▋   | 248635/371472 [8:44:28<8:57:24,  3.81it/s] 67%|██████▋   | 248636/371472 [8:44:29<9:05:27,  3.75it/s] 67%|██████▋   | 248637/371472 [8:44:29<8:58:01,  3.81it/s] 67%|██████▋   | 248638/371472 [8:44:29<8:42:04,  3.92it/s] 67%|██████▋   | 248639/371472 [8:44:29<9:14:01,  3.70it/s] 67%|██████▋   | 248640/371472 [8:44:30<9:23:09,  3.64it/s]                                                           {'loss': 2.8866, 'learning_rate': 3.9775690060117646e-07, 'epoch': 10.71}
 67%|██████▋   | 248640/371472 [8:44:30<9:23:09,  3.64it/s] 67%|██████▋   | 248641/371472 [8:44:30<9:12:30,  3.71it/s] 67%|██████▋   | 248642/371472 [8:44:30<9:31:25,  3.58it/s] 67%|██████▋   | 248643/371472 [8:44:31<9:55:47,  3.44it/s] 67%|██████▋   | 248644/371472 [8:44:31<10:43:43,  3.18it/s] 67%|██████▋   | 248645/371472 [8:44:31<10:41:09,  3.19it/s] 67%|██████▋   | 248646/371472 [8:44:32<11:17:48,  3.02it/s] 67%|██████▋   | 248647/371472 [8:44:32<10:49:12,  3.15it/s] 67%|██████▋   | 248648/371472 [8:44:32<10:04:30,  3.39it/s] 67%|██████▋   | 248649/371472 [8:44:32<9:42:03,  3.52it/s]  67%|██████▋   | 248650/371472 [8:44:33<9:18:31,  3.67it/s] 67%|██████▋   | 248651/371472 [8:44:33<9:06:39,  3.74it/s] 67%|██████▋   | 248652/371472 [8:44:33<9:35:58,  3.55it/s] 67%|██████▋   | 248653/371472 [8:44:33<9:23:05,  3.64it/s] 67%|██████▋   | 248654/371472 [8:44:34<9:23:22,  3.63it/s] 67%|██████▋   | 248655/371472 [8:44:34<9:30:47,  3.59it/s] 67%|██████▋   | 248656/371472 [8:44:34<9:10:45,  3.72it/s] 67%|██████▋   | 248657/371472 [8:44:35<9:16:59,  3.67it/s] 67%|██████▋   | 248658/371472 [8:44:35<9:20:06,  3.65it/s] 67%|██████▋   | 248659/371472 [8:44:35<9:25:43,  3.62it/s] 67%|██████▋   | 248660/371472 [8:44:35<9:36:27,  3.55it/s]                                                           {'loss': 2.9979, 'learning_rate': 3.977084186256976e-07, 'epoch': 10.71}
 67%|██████▋   | 248660/371472 [8:44:35<9:36:27,  3.55it/s] 67%|██████▋   | 248661/371472 [8:44:36<9:57:49,  3.42it/s] 67%|██████▋   | 248662/371472 [8:44:36<10:16:32,  3.32it/s] 67%|██████▋   | 248663/371472 [8:44:36<9:55:16,  3.44it/s]  67%|██████▋   | 248664/371472 [8:44:37<9:31:26,  3.58it/s] 67%|██████▋   | 248665/371472 [8:44:37<9:29:52,  3.59it/s] 67%|██████▋   | 248666/371472 [8:44:37<9:24:31,  3.63it/s] 67%|██████▋   | 248667/371472 [8:44:37<9:28:00,  3.60it/s] 67%|██████▋   | 248668/371472 [8:44:38<9:05:07,  3.75it/s] 67%|██████▋   | 248669/371472 [8:44:38<9:05:35,  3.75it/s] 67%|██████▋   | 248670/371472 [8:44:38<8:48:02,  3.88it/s] 67%|██████▋   | 248671/371472 [8:44:38<9:05:53,  3.75it/s] 67%|██████▋   | 248672/371472 [8:44:39<9:06:09,  3.75it/s] 67%|██████▋   | 248673/371472 [8:44:39<8:52:51,  3.84it/s] 67%|██████▋   | 248674/371472 [8:44:39<9:36:48,  3.55it/s] 67%|██████▋   | 248675/371472 [8:44:39<9:22:31,  3.64it/s] 67%|██████▋   | 248676/371472 [8:44:40<10:00:23,  3.41it/s] 67%|██████▋   | 248677/371472 [8:44:40<10:15:54,  3.32it/s] 67%|██████▋   | 248678/371472 [8:44:40<10:08:09,  3.37it/s] 67%|██████▋   | 248679/371472 [8:44:41<10:03:47,  3.39it/s] 67%|██████▋   | 248680/371472 [8:44:41<9:51:41,  3.46it/s]                                                            {'loss': 2.6885, 'learning_rate': 3.9765993665021866e-07, 'epoch': 10.71}
 67%|██████▋   | 248680/371472 [8:44:41<9:51:41,  3.46it/s] 67%|██████▋   | 248681/371472 [8:44:41<9:53:06,  3.45it/s] 67%|██████▋   | 248682/371472 [8:44:42<9:19:32,  3.66it/s] 67%|██████▋   | 248683/371472 [8:44:42<8:57:53,  3.80it/s] 67%|██████▋   | 248684/371472 [8:44:42<8:58:11,  3.80it/s] 67%|██████▋   | 248685/371472 [8:44:42<9:15:48,  3.68it/s] 67%|██████▋   | 248686/371472 [8:44:43<10:13:22,  3.34it/s] 67%|██████▋   | 248687/371472 [8:44:43<9:40:57,  3.52it/s]  67%|██████▋   | 248688/371472 [8:44:43<9:53:31,  3.45it/s] 67%|██████▋   | 248689/371472 [8:44:43<9:37:44,  3.54it/s] 67%|██████▋   | 248690/371472 [8:44:44<9:21:52,  3.64it/s] 67%|██████▋   | 248691/371472 [8:44:44<10:11:22,  3.35it/s] 67%|██████▋   | 248692/371472 [8:44:44<10:04:41,  3.38it/s] 67%|██████▋   | 248693/371472 [8:44:45<9:53:28,  3.45it/s]  67%|██████▋   | 248694/371472 [8:44:45<9:40:09,  3.53it/s] 67%|██████▋   | 248695/371472 [8:44:45<10:00:15,  3.41it/s] 67%|██████▋   | 248696/371472 [8:44:46<10:22:07,  3.29it/s] 67%|██████▋   | 248697/371472 [8:44:46<10:31:59,  3.24it/s] 67%|██████▋   | 248698/371472 [8:44:46<9:48:10,  3.48it/s]  67%|██████▋   | 248699/371472 [8:44:46<9:47:53,  3.48it/s] 67%|██████▋   | 248700/371472 [8:44:47<9:33:01,  3.57it/s]                                                           {'loss': 2.8284, 'learning_rate': 3.9761145467473983e-07, 'epoch': 10.71}
 67%|██████▋   | 248700/371472 [8:44:47<9:33:01,  3.57it/s] 67%|██████▋   | 248701/371472 [8:44:47<9:26:32,  3.61it/s] 67%|██████▋   | 248702/371472 [8:44:47<9:31:53,  3.58it/s] 67%|██████▋   | 248703/371472 [8:44:48<9:24:04,  3.63it/s] 67%|██████▋   | 248704/371472 [8:44:48<9:04:38,  3.76it/s] 67%|██████▋   | 248705/371472 [8:44:48<9:40:56,  3.52it/s] 67%|██████▋   | 248706/371472 [8:44:48<9:42:30,  3.51it/s] 67%|██████▋   | 248707/371472 [8:44:49<9:44:59,  3.50it/s] 67%|██████▋   | 248708/371472 [8:44:49<10:07:52,  3.37it/s] 67%|██████▋   | 248709/371472 [8:44:49<9:32:50,  3.57it/s]  67%|██████▋   | 248710/371472 [8:44:49<9:24:51,  3.62it/s] 67%|██████▋   | 248711/371472 [8:44:50<9:06:22,  3.74it/s] 67%|██████▋   | 248712/371472 [8:44:50<9:17:52,  3.67it/s] 67%|██████▋   | 248713/371472 [8:44:50<9:23:13,  3.63it/s] 67%|██████▋   | 248714/371472 [8:44:51<9:26:06,  3.61it/s] 67%|██████▋   | 248715/371472 [8:44:51<9:07:48,  3.73it/s] 67%|██████▋   | 248716/371472 [8:44:51<8:53:10,  3.84it/s] 67%|██████▋   | 248717/371472 [8:44:51<8:47:48,  3.88it/s] 67%|██████▋   | 248718/371472 [8:44:52<8:51:00,  3.85it/s] 67%|██████▋   | 248719/371472 [8:44:52<9:11:37,  3.71it/s] 67%|██████▋   | 248720/371472 [8:44:52<9:01:01,  3.78it/s]                                                           {'loss': 2.7435, 'learning_rate': 3.9756297269926085e-07, 'epoch': 10.71}
 67%|██████▋   | 248720/371472 [8:44:52<9:01:01,  3.78it/s] 67%|██████▋   | 248721/371472 [8:44:52<8:59:53,  3.79it/s] 67%|██████▋   | 248722/371472 [8:44:53<8:56:07,  3.82it/s] 67%|██████▋   | 248723/371472 [8:44:53<9:46:33,  3.49it/s] 67%|██████▋   | 248724/371472 [8:44:53<9:43:42,  3.50it/s] 67%|██████▋   | 248725/371472 [8:44:54<9:23:36,  3.63it/s] 67%|██████▋   | 248726/371472 [8:44:54<9:11:49,  3.71it/s] 67%|██████▋   | 248727/371472 [8:44:54<9:01:53,  3.78it/s] 67%|██████▋   | 248728/371472 [8:44:54<9:54:34,  3.44it/s] 67%|██████▋   | 248729/371472 [8:44:55<9:28:44,  3.60it/s] 67%|██████▋   | 248730/371472 [8:44:55<9:24:25,  3.62it/s] 67%|██████▋   | 248731/371472 [8:44:55<9:18:33,  3.66it/s] 67%|██████▋   | 248732/371472 [8:44:55<9:04:57,  3.75it/s] 67%|██████▋   | 248733/371472 [8:44:56<8:44:48,  3.90it/s] 67%|██████▋   | 248734/371472 [8:44:56<9:22:39,  3.64it/s] 67%|██████▋   | 248735/371472 [8:44:56<9:47:53,  3.48it/s] 67%|██████▋   | 248736/371472 [8:44:57<9:31:49,  3.58it/s] 67%|██████▋   | 248737/371472 [8:44:57<9:32:10,  3.58it/s] 67%|██████▋   | 248738/371472 [8:44:57<9:30:13,  3.59it/s] 67%|██████▋   | 248739/371472 [8:44:57<9:09:26,  3.72it/s] 67%|██████▋   | 248740/371472 [8:44:58<9:22:10,  3.64it/s]                                                           {'loss': 2.766, 'learning_rate': 3.9751449072378203e-07, 'epoch': 10.71}
 67%|██████▋   | 248740/371472 [8:44:58<9:22:10,  3.64it/s] 67%|██████▋   | 248741/371472 [8:44:58<9:33:59,  3.56it/s] 67%|██████▋   | 248742/371472 [8:44:58<9:18:09,  3.66it/s] 67%|██████▋   | 248743/371472 [8:44:58<9:02:55,  3.77it/s] 67%|██████▋   | 248744/371472 [8:44:59<8:55:23,  3.82it/s] 67%|██████▋   | 248745/371472 [8:44:59<8:52:32,  3.84it/s] 67%|██████▋   | 248746/371472 [8:44:59<9:20:40,  3.65it/s] 67%|██████▋   | 248747/371472 [8:45:00<10:00:36,  3.41it/s] 67%|██████▋   | 248748/371472 [8:45:00<9:59:33,  3.41it/s]  67%|██████▋   | 248749/371472 [8:45:00<9:41:53,  3.52it/s] 67%|██████▋   | 248750/371472 [8:45:00<9:22:03,  3.64it/s] 67%|██████▋   | 248751/371472 [8:45:01<9:22:12,  3.64it/s] 67%|██████▋   | 248752/371472 [8:45:01<10:11:50,  3.34it/s] 67%|██████▋   | 248753/371472 [8:45:01<10:35:59,  3.22it/s] 67%|██████▋   | 248754/371472 [8:45:02<10:18:09,  3.31it/s] 67%|██████▋   | 248755/371472 [8:45:02<9:53:58,  3.44it/s]  67%|██████▋   | 248756/371472 [8:45:02<9:51:29,  3.46it/s] 67%|██████▋   | 248757/371472 [8:45:02<9:26:56,  3.61it/s] 67%|██████▋   | 248758/371472 [8:45:03<9:14:01,  3.69it/s] 67%|██████▋   | 248759/371472 [8:45:03<8:59:25,  3.79it/s] 67%|██████▋   | 248760/371472 [8:45:03<9:07:56,  3.73it/s]                                                           {'loss': 2.9922, 'learning_rate': 3.974660087483031e-07, 'epoch': 10.71}
 67%|██████▋   | 248760/371472 [8:45:03<9:07:56,  3.73it/s] 67%|██████▋   | 248761/371472 [8:45:04<9:39:41,  3.53it/s] 67%|██████▋   | 248762/371472 [8:45:04<9:53:19,  3.45it/s] 67%|██████▋   | 248763/371472 [8:45:04<9:34:31,  3.56it/s] 67%|██████▋   | 248764/371472 [8:45:04<9:13:57,  3.69it/s] 67%|██████▋   | 248765/371472 [8:45:05<9:05:02,  3.75it/s] 67%|██████▋   | 248766/371472 [8:45:05<9:12:49,  3.70it/s] 67%|██████▋   | 248767/371472 [8:45:05<8:54:12,  3.83it/s] 67%|██████▋   | 248768/371472 [8:45:05<8:51:12,  3.85it/s] 67%|██████▋   | 248769/371472 [8:45:06<9:35:04,  3.56it/s] 67%|██████▋   | 248770/371472 [8:45:06<9:58:11,  3.42it/s] 67%|██████▋   | 248771/371472 [8:45:06<9:25:58,  3.61it/s] 67%|██████▋   | 248772/371472 [8:45:07<9:18:32,  3.66it/s] 67%|██████▋   | 248773/371472 [8:45:07<9:44:37,  3.50it/s] 67%|██████▋   | 248774/371472 [8:45:07<9:38:48,  3.53it/s] 67%|██████▋   | 248775/371472 [8:45:07<9:09:50,  3.72it/s] 67%|██████▋   | 248776/371472 [8:45:08<10:07:22,  3.37it/s] 67%|██████▋   | 248777/371472 [8:45:08<9:48:16,  3.48it/s]  67%|██████▋   | 248778/371472 [8:45:08<9:25:09,  3.62it/s] 67%|██████▋   | 248779/371472 [8:45:09<9:17:08,  3.67it/s] 67%|██████▋   | 248780/371472 [8:45:09<9:01:24,  3.78it/s]                                                           {'loss': 2.747, 'learning_rate': 3.974175267728243e-07, 'epoch': 10.72}
 67%|██████▋   | 248780/371472 [8:45:09<9:01:24,  3.78it/s] 67%|██████▋   | 248781/371472 [8:45:09<8:56:55,  3.81it/s] 67%|██████▋   | 248782/371472 [8:45:09<9:31:56,  3.58it/s] 67%|██████▋   | 248783/371472 [8:45:10<9:24:01,  3.63it/s] 67%|██████▋   | 248784/371472 [8:45:10<9:02:50,  3.77it/s] 67%|██████▋   | 248785/371472 [8:45:10<9:02:43,  3.77it/s] 67%|██████▋   | 248786/371472 [8:45:10<9:16:06,  3.68it/s] 67%|██████▋   | 248787/371472 [8:45:11<9:31:09,  3.58it/s] 67%|██████▋   | 248788/371472 [8:45:11<9:56:28,  3.43it/s] 67%|██████▋   | 248789/371472 [8:45:11<9:41:01,  3.52it/s] 67%|██████▋   | 248790/371472 [8:45:12<9:58:02,  3.42it/s] 67%|██████▋   | 248791/371472 [8:45:12<10:14:33,  3.33it/s] 67%|██████▋   | 248792/371472 [8:45:12<9:49:39,  3.47it/s]  67%|██████▋   | 248793/371472 [8:45:12<9:54:49,  3.44it/s] 67%|██████▋   | 248794/371472 [8:45:13<10:26:45,  3.26it/s] 67%|██████▋   | 248795/371472 [8:45:13<10:17:34,  3.31it/s] 67%|██████▋   | 248796/371472 [8:45:13<9:43:22,  3.50it/s]  67%|██████▋   | 248797/371472 [8:45:14<9:12:30,  3.70it/s] 67%|██████▋   | 248798/371472 [8:45:14<9:12:14,  3.70it/s] 67%|██████▋   | 248799/371472 [8:45:14<9:40:20,  3.52it/s] 67%|██████▋   | 248800/371472 [8:45:14<9:30:41,  3.58it/s]                                                           {'loss': 2.8719, 'learning_rate': 3.973690447973453e-07, 'epoch': 10.72}
 67%|██████▋   | 248800/371472 [8:45:14<9:30:41,  3.58it/s] 67%|██████▋   | 248801/371472 [8:45:15<9:08:11,  3.73it/s] 67%|██████▋   | 248802/371472 [8:45:15<9:27:49,  3.60it/s] 67%|██████▋   | 248803/371472 [8:45:15<10:12:35,  3.34it/s] 67%|██████▋   | 248804/371472 [8:45:16<9:46:59,  3.48it/s]  67%|██████▋   | 248805/371472 [8:45:16<9:30:30,  3.58it/s] 67%|██████▋   | 248806/371472 [8:45:16<9:20:51,  3.65it/s] 67%|██████▋   | 248807/371472 [8:45:16<10:03:45,  3.39it/s] 67%|██████▋   | 248808/371472 [8:45:17<10:24:55,  3.27it/s] 67%|██████▋   | 248809/371472 [8:45:17<9:55:29,  3.43it/s]  67%|██████▋   | 248810/371472 [8:45:17<9:51:49,  3.45it/s] 67%|██████▋   | 248811/371472 [8:45:18<9:22:46,  3.63it/s] 67%|██████▋   | 248812/371472 [8:45:18<9:18:15,  3.66it/s] 67%|██████▋   | 248813/371472 [8:45:18<9:44:59,  3.49it/s] 67%|██████▋   | 248814/371472 [8:45:18<9:59:01,  3.41it/s] 67%|██████▋   | 248815/371472 [8:45:19<10:22:22,  3.28it/s] 67%|██████▋   | 248816/371472 [8:45:19<9:40:12,  3.52it/s]  67%|██████▋   | 248817/371472 [8:45:19<10:02:20,  3.39it/s] 67%|██████▋   | 248818/371472 [8:45:20<9:39:37,  3.53it/s]  67%|██████▋   | 248819/371472 [8:45:20<9:13:37,  3.69it/s] 67%|██████▋   | 248820/371472 [8:45:20<9:42:20,  3.51it/s]                                                           {'loss': 2.8216, 'learning_rate': 3.973205628218665e-07, 'epoch': 10.72}
 67%|██████▋   | 248820/371472 [8:45:20<9:42:20,  3.51it/s] 67%|██████▋   | 248821/371472 [8:45:20<9:32:05,  3.57it/s] 67%|██████▋   | 248822/371472 [8:45:21<9:08:36,  3.73it/s] 67%|██████▋   | 248823/371472 [8:45:21<8:52:46,  3.84it/s] 67%|██████▋   | 248824/371472 [8:45:21<10:01:22,  3.40it/s] 67%|██████▋   | 248825/371472 [8:45:22<10:20:01,  3.30it/s] 67%|██████▋   | 248826/371472 [8:45:22<9:44:56,  3.49it/s]  67%|██████▋   | 248827/371472 [8:45:22<9:38:01,  3.54it/s] 67%|██████▋   | 248828/371472 [8:45:22<9:19:10,  3.66it/s] 67%|██████▋   | 248829/371472 [8:45:23<9:05:36,  3.75it/s] 67%|██████▋   | 248830/371472 [8:45:23<9:06:15,  3.74it/s] 67%|██████▋   | 248831/371472 [8:45:23<9:34:28,  3.56it/s] 67%|██████▋   | 248832/371472 [8:45:24<10:05:58,  3.37it/s] 67%|██████▋   | 248833/371472 [8:45:24<9:25:32,  3.61it/s]  67%|██████▋   | 248834/371472 [8:45:24<9:10:12,  3.71it/s] 67%|██████▋   | 248835/371472 [8:45:24<9:02:20,  3.77it/s] 67%|██████▋   | 248836/371472 [8:45:25<9:16:43,  3.67it/s] 67%|██████▋   | 248837/371472 [8:45:25<9:32:12,  3.57it/s] 67%|██████▋   | 248838/371472 [8:45:25<9:14:52,  3.68it/s] 67%|██████▋   | 248839/371472 [8:45:25<9:54:05,  3.44it/s] 67%|██████▋   | 248840/371472 [8:45:26<10:08:28,  3.36it/s]                                                            {'loss': 2.8457, 'learning_rate': 3.972720808463875e-07, 'epoch': 10.72}
 67%|██████▋   | 248840/371472 [8:45:26<10:08:28,  3.36it/s] 67%|██████▋   | 248841/371472 [8:45:26<10:54:07,  3.12it/s] 67%|██████▋   | 248842/371472 [8:45:26<10:33:21,  3.23it/s] 67%|██████▋   | 248843/371472 [8:45:27<10:04:43,  3.38it/s] 67%|██████▋   | 248844/371472 [8:45:27<10:04:29,  3.38it/s] 67%|██████▋   | 248845/371472 [8:45:27<11:58:01,  2.85it/s] 67%|██████▋   | 248846/371472 [8:45:28<10:52:26,  3.13it/s] 67%|██████▋   | 248847/371472 [8:45:28<10:09:43,  3.35it/s] 67%|██████▋   | 248848/371472 [8:45:28<9:52:36,  3.45it/s]  67%|██████▋   | 248849/371472 [8:45:29<9:44:26,  3.50it/s] 67%|██████▋   | 248850/371472 [8:45:29<10:13:49,  3.33it/s] 67%|██████▋   | 248851/371472 [8:45:29<9:49:37,  3.47it/s]  67%|██████▋   | 248852/371472 [8:45:29<9:49:06,  3.47it/s] 67%|██████▋   | 248853/371472 [8:45:30<9:09:05,  3.72it/s] 67%|██████▋   | 248854/371472 [8:45:30<9:19:05,  3.66it/s] 67%|██████▋   | 248855/371472 [8:45:30<9:22:50,  3.63it/s] 67%|██████▋   | 248856/371472 [8:45:31<9:37:03,  3.54it/s] 67%|██████▋   | 248857/371472 [8:45:31<9:21:33,  3.64it/s] 67%|██████▋   | 248858/371472 [8:45:31<9:29:14,  3.59it/s] 67%|██████▋   | 248859/371472 [8:45:31<9:12:22,  3.70it/s] 67%|██████▋   | 248860/371472 [8:45:32<9:01:18,  3.78it/s]                                                           {'loss': 2.7072, 'learning_rate': 3.9722359887090867e-07, 'epoch': 10.72}
 67%|██████▋   | 248860/371472 [8:45:32<9:01:18,  3.78it/s] 67%|██████▋   | 248861/371472 [8:45:32<8:58:02,  3.80it/s] 67%|██████▋   | 248862/371472 [8:45:32<9:10:55,  3.71it/s] 67%|██████▋   | 248863/371472 [8:45:32<9:13:57,  3.69it/s] 67%|██████▋   | 248864/371472 [8:45:33<10:44:05,  3.17it/s] 67%|██████▋   | 248865/371472 [8:45:33<10:23:54,  3.28it/s] 67%|██████▋   | 248866/371472 [8:45:33<10:20:29,  3.29it/s] 67%|██████▋   | 248867/371472 [8:45:34<9:42:08,  3.51it/s]  67%|██████▋   | 248868/371472 [8:45:34<10:09:27,  3.35it/s] 67%|██████▋   | 248869/371472 [8:45:34<9:51:51,  3.45it/s]  67%|██████▋   | 248870/371472 [8:45:34<9:36:07,  3.55it/s] 67%|██████▋   | 248871/371472 [8:45:35<9:46:05,  3.49it/s] 67%|██████▋   | 248872/371472 [8:45:35<9:27:57,  3.60it/s] 67%|██████▋   | 248873/371472 [8:45:35<9:05:44,  3.74it/s] 67%|██████▋   | 248874/371472 [8:45:36<9:10:21,  3.71it/s] 67%|██████▋   | 248875/371472 [8:45:36<9:11:48,  3.70it/s] 67%|██████▋   | 248876/371472 [8:45:36<9:09:18,  3.72it/s] 67%|██████▋   | 248877/371472 [8:45:36<9:01:28,  3.77it/s] 67%|██████▋   | 248878/371472 [8:45:37<9:13:43,  3.69it/s] 67%|██████▋   | 248879/371472 [8:45:37<9:35:09,  3.55it/s] 67%|██████▋   | 248880/371472 [8:45:37<9:30:02,  3.58it/s]                                                           {'loss': 2.7272, 'learning_rate': 3.9717511689542974e-07, 'epoch': 10.72}
 67%|██████▋   | 248880/371472 [8:45:37<9:30:02,  3.58it/s] 67%|██████▋   | 248881/371472 [8:45:37<9:34:23,  3.56it/s] 67%|██████▋   | 248882/371472 [8:45:38<9:24:45,  3.62it/s] 67%|██████▋   | 248883/371472 [8:45:38<9:40:45,  3.52it/s] 67%|██████▋   | 248884/371472 [8:45:38<9:22:04,  3.63it/s] 67%|██████▋   | 248885/371472 [8:45:39<9:16:21,  3.67it/s] 67%|██████▋   | 248886/371472 [8:45:39<9:53:04,  3.44it/s] 67%|██████▋   | 248887/371472 [8:45:39<9:28:30,  3.59it/s] 67%|██████▋   | 248888/371472 [8:45:39<9:11:59,  3.70it/s] 67%|██████▋   | 248889/371472 [8:45:40<9:11:52,  3.70it/s] 67%|██████▋   | 248890/371472 [8:45:40<9:23:04,  3.63it/s] 67%|██████▋   | 248891/371472 [8:45:40<9:24:52,  3.62it/s] 67%|██████▋   | 248892/371472 [8:45:41<9:34:35,  3.56it/s] 67%|██████▋   | 248893/371472 [8:45:41<10:38:19,  3.20it/s] 67%|██████▋   | 248894/371472 [8:45:41<10:04:15,  3.38it/s] 67%|██████▋   | 248895/371472 [8:45:41<9:39:33,  3.52it/s]  67%|██████▋   | 248896/371472 [8:45:42<9:37:03,  3.54it/s] 67%|██████▋   | 248897/371472 [8:45:42<9:19:51,  3.65it/s] 67%|██████▋   | 248898/371472 [8:45:42<9:59:16,  3.41it/s] 67%|██████▋   | 248899/371472 [8:45:43<9:56:12,  3.43it/s] 67%|██████▋   | 248900/371472 [8:45:43<9:42:51,  3.50it/s]                                                           {'loss': 2.756, 'learning_rate': 3.9712663491995087e-07, 'epoch': 10.72}
 67%|██████▋   | 248900/371472 [8:45:43<9:42:51,  3.50it/s] 67%|██████▋   | 248901/371472 [8:45:43<9:35:06,  3.55it/s] 67%|██████▋   | 248902/371472 [8:45:43<9:38:32,  3.53it/s] 67%|██████▋   | 248903/371472 [8:45:44<9:46:39,  3.48it/s] 67%|██████▋   | 248904/371472 [8:45:44<10:10:38,  3.35it/s] 67%|██████▋   | 248905/371472 [8:45:44<9:53:32,  3.44it/s]  67%|██████▋   | 248906/371472 [8:45:45<9:50:40,  3.46it/s] 67%|██████▋   | 248907/371472 [8:45:45<10:37:04,  3.21it/s] 67%|██████▋   | 248908/371472 [8:45:45<10:10:45,  3.34it/s] 67%|██████▋   | 248909/371472 [8:45:46<10:00:17,  3.40it/s] 67%|██████▋   | 248910/371472 [8:45:46<9:42:52,  3.50it/s]  67%|██████▋   | 248911/371472 [8:45:46<10:30:27,  3.24it/s] 67%|██████▋   | 248912/371472 [8:45:46<9:46:31,  3.48it/s]  67%|██████▋   | 248913/371472 [8:45:47<10:11:07,  3.34it/s] 67%|██████▋   | 248914/371472 [8:45:47<9:52:29,  3.45it/s]  67%|██████▋   | 248915/371472 [8:45:47<9:43:52,  3.50it/s] 67%|██████▋   | 248916/371472 [8:45:48<9:36:30,  3.54it/s] 67%|██████▋   | 248917/371472 [8:45:48<9:16:01,  3.67it/s] 67%|██████▋   | 248918/371472 [8:45:48<9:05:35,  3.74it/s] 67%|██████▋   | 248919/371472 [8:45:48<9:09:13,  3.72it/s] 67%|██████▋   | 248920/371472 [8:45:49<9:21:38,  3.64it/s]                                                           {'loss': 2.7385, 'learning_rate': 3.9707815294447194e-07, 'epoch': 10.72}
 67%|██████▋   | 248920/371472 [8:45:49<9:21:38,  3.64it/s] 67%|██████▋   | 248921/371472 [8:45:49<9:12:36,  3.70it/s] 67%|██████▋   | 248922/371472 [8:45:49<9:26:51,  3.60it/s] 67%|██████▋   | 248923/371472 [8:45:49<9:39:02,  3.53it/s] 67%|██████▋   | 248924/371472 [8:45:50<9:20:55,  3.64it/s] 67%|██████▋   | 248925/371472 [8:45:50<9:35:19,  3.55it/s] 67%|██████▋   | 248926/371472 [8:45:50<9:14:42,  3.68it/s] 67%|██████▋   | 248927/371472 [8:45:51<9:09:06,  3.72it/s] 67%|██████▋   | 248928/371472 [8:45:51<9:28:11,  3.59it/s] 67%|██████▋   | 248929/371472 [8:45:51<8:57:50,  3.80it/s] 67%|██████▋   | 248930/371472 [8:45:51<8:57:09,  3.80it/s] 67%|██████▋   | 248931/371472 [8:45:52<9:08:03,  3.73it/s] 67%|██████▋   | 248932/371472 [8:45:52<9:13:48,  3.69it/s] 67%|██████▋   | 248933/371472 [8:45:52<9:24:55,  3.62it/s] 67%|██████▋   | 248934/371472 [8:45:52<9:05:21,  3.74it/s] 67%|██████▋   | 248935/371472 [8:45:53<8:59:27,  3.79it/s] 67%|██████▋   | 248936/371472 [8:45:53<8:54:14,  3.82it/s] 67%|██████▋   | 248937/371472 [8:45:53<8:41:20,  3.92it/s] 67%|██████▋   | 248938/371472 [8:45:53<8:34:11,  3.97it/s] 67%|██████▋   | 248939/371472 [8:45:54<8:29:25,  4.01it/s] 67%|██████▋   | 248940/371472 [8:45:54<8:33:02,  3.98it/s]                                                           {'loss': 2.852, 'learning_rate': 3.970296709689931e-07, 'epoch': 10.72}
 67%|██████▋   | 248940/371472 [8:45:54<8:33:02,  3.98it/s] 67%|██████▋   | 248941/371472 [8:45:54<9:48:14,  3.47it/s] 67%|██████▋   | 248942/371472 [8:45:55<10:17:09,  3.31it/s] 67%|██████▋   | 248943/371472 [8:45:55<9:45:05,  3.49it/s]  67%|██████▋   | 248944/371472 [8:45:55<9:54:17,  3.44it/s] 67%|██████▋   | 248945/371472 [8:45:55<9:35:35,  3.55it/s] 67%|██████▋   | 248946/371472 [8:45:56<10:12:59,  3.33it/s] 67%|██████▋   | 248947/371472 [8:45:56<9:59:08,  3.41it/s]  67%|██████▋   | 248948/371472 [8:45:56<9:44:05,  3.50it/s] 67%|██████▋   | 248949/371472 [8:45:57<9:48:00,  3.47it/s] 67%|██████▋   | 248950/371472 [8:45:57<10:02:10,  3.39it/s] 67%|██████▋   | 248951/371472 [8:45:57<10:06:18,  3.37it/s] 67%|██████▋   | 248952/371472 [8:45:57<9:52:07,  3.45it/s]  67%|██████▋   | 248953/371472 [8:45:58<9:43:43,  3.50it/s] 67%|██████▋   | 248954/371472 [8:45:58<9:28:27,  3.59it/s] 67%|██████▋   | 248955/371472 [8:45:58<9:03:17,  3.76it/s] 67%|██████▋   | 248956/371472 [8:45:59<8:50:31,  3.85it/s] 67%|██████▋   | 248957/371472 [8:45:59<8:53:09,  3.83it/s] 67%|██████▋   | 248958/371472 [8:45:59<9:41:04,  3.51it/s] 67%|██████▋   | 248959/371472 [8:45:59<9:41:48,  3.51it/s] 67%|██████▋   | 248960/371472 [8:46:00<9:16:30,  3.67it/s]                                                           {'loss': 2.7849, 'learning_rate': 3.969811889935142e-07, 'epoch': 10.72}
 67%|██████▋   | 248960/371472 [8:46:00<9:16:30,  3.67it/s] 67%|██████▋   | 248961/371472 [8:46:00<9:19:12,  3.65it/s] 67%|██████▋   | 248962/371472 [8:46:00<9:26:10,  3.61it/s] 67%|██████▋   | 248963/371472 [8:46:00<9:04:52,  3.75it/s] 67%|██████▋   | 248964/371472 [8:46:01<8:56:05,  3.81it/s] 67%|██████▋   | 248965/371472 [8:46:01<8:54:19,  3.82it/s] 67%|██████▋   | 248966/371472 [8:46:01<9:00:01,  3.78it/s] 67%|██████▋   | 248967/371472 [8:46:01<8:47:13,  3.87it/s] 67%|██████▋   | 248968/371472 [8:46:02<9:10:02,  3.71it/s] 67%|██████▋   | 248969/371472 [8:46:02<9:37:23,  3.54it/s] 67%|██████▋   | 248970/371472 [8:46:02<9:38:34,  3.53it/s] 67%|██████▋   | 248971/371472 [8:46:03<9:27:38,  3.60it/s] 67%|██████▋   | 248972/371472 [8:46:03<9:43:27,  3.50it/s] 67%|██████▋   | 248973/371472 [8:46:03<9:24:33,  3.62it/s] 67%|██████▋   | 248974/371472 [8:46:03<9:30:01,  3.58it/s] 67%|██████▋   | 248975/371472 [8:46:04<10:00:11,  3.40it/s] 67%|██████▋   | 248976/371472 [8:46:04<10:08:57,  3.35it/s] 67%|██████▋   | 248977/371472 [8:46:04<10:43:47,  3.17it/s] 67%|██████▋   | 248978/371472 [8:46:05<10:12:17,  3.33it/s] 67%|██████▋   | 248979/371472 [8:46:05<9:50:01,  3.46it/s]  67%|██████▋   | 248980/371472 [8:46:05<9:26:17,  3.61it/s]                                                           {'loss': 2.7606, 'learning_rate': 3.969327070180353e-07, 'epoch': 10.72}
 67%|██████▋   | 248980/371472 [8:46:05<9:26:17,  3.61it/s] 67%|██████▋   | 248981/371472 [8:46:06<9:21:32,  3.64it/s] 67%|██████▋   | 248982/371472 [8:46:06<9:47:03,  3.48it/s] 67%|██████▋   | 248983/371472 [8:46:06<9:31:16,  3.57it/s] 67%|██████▋   | 248984/371472 [8:46:06<9:38:31,  3.53it/s] 67%|██████▋   | 248985/371472 [8:46:07<9:19:20,  3.65it/s] 67%|██████▋   | 248986/371472 [8:46:07<9:28:31,  3.59it/s] 67%|██████▋   | 248987/371472 [8:46:07<9:20:57,  3.64it/s] 67%|██████▋   | 248988/371472 [8:46:07<9:15:56,  3.67it/s] 67%|██████▋   | 248989/371472 [8:46:08<9:37:48,  3.53it/s] 67%|██████▋   | 248990/371472 [8:46:08<9:32:19,  3.57it/s] 67%|██████▋   | 248991/371472 [8:46:08<9:27:45,  3.60it/s] 67%|██████▋   | 248992/371472 [8:46:09<8:55:42,  3.81it/s] 67%|██████▋   | 248993/371472 [8:46:09<9:03:10,  3.76it/s] 67%|██████▋   | 248994/371472 [8:46:09<9:02:23,  3.76it/s] 67%|██████▋   | 248995/371472 [8:46:09<8:54:29,  3.82it/s] 67%|██████▋   | 248996/371472 [8:46:10<8:53:33,  3.83it/s] 67%|██████▋   | 248997/371472 [8:46:10<8:41:40,  3.91it/s] 67%|██████▋   | 248998/371472 [8:46:10<9:38:29,  3.53it/s] 67%|██████▋   | 248999/371472 [8:46:10<9:55:27,  3.43it/s] 67%|██████▋   | 249000/371472 [8:46:11<10:51:51,  3.13it/s]                                                            {'loss': 2.762, 'learning_rate': 3.968842250425564e-07, 'epoch': 10.72}
 67%|██████▋   | 249000/371472 [8:46:11<10:51:51,  3.13it/s] 67%|██████▋   | 249001/371472 [8:46:11<10:21:48,  3.28it/s] 67%|██████▋   | 249002/371472 [8:46:11<10:10:28,  3.34it/s] 67%|██████▋   | 249003/371472 [8:46:12<10:04:33,  3.38it/s] 67%|██████▋   | 249004/371472 [8:46:12<9:33:46,  3.56it/s]  67%|██████▋   | 249005/371472 [8:46:12<9:09:33,  3.71it/s] 67%|██████▋   | 249006/371472 [8:46:12<9:07:12,  3.73it/s] 67%|██████▋   | 249007/371472 [8:46:13<9:17:33,  3.66it/s] 67%|██████▋   | 249008/371472 [8:46:13<8:51:13,  3.84it/s] 67%|██████▋   | 249009/371472 [8:46:13<8:52:30,  3.83it/s] 67%|██████▋   | 249010/371472 [8:46:14<8:45:04,  3.89it/s] 67%|██████▋   | 249011/371472 [8:46:14<9:11:16,  3.70it/s] 67%|██████▋   | 249012/371472 [8:46:14<9:39:44,  3.52it/s] 67%|██████▋   | 249013/371472 [8:46:14<9:39:16,  3.52it/s] 67%|██████▋   | 249014/371472 [8:46:15<9:42:39,  3.50it/s] 67%|██████▋   | 249015/371472 [8:46:15<10:06:47,  3.36it/s] 67%|██████▋   | 249016/371472 [8:46:15<10:15:57,  3.31it/s] 67%|██████▋   | 249017/371472 [8:46:16<10:01:46,  3.39it/s] 67%|██████▋   | 249018/371472 [8:46:16<10:18:02,  3.30it/s] 67%|██████▋   | 249019/371472 [8:46:16<9:39:28,  3.52it/s]  67%|██████▋   | 249020/371472 [8:46:16<9:27:56,  3.59it/s]                                                           {'loss': 3.0477, 'learning_rate': 3.968357430670775e-07, 'epoch': 10.73}
 67%|██████▋   | 249020/371472 [8:46:16<9:27:56,  3.59it/s] 67%|██████▋   | 249021/371472 [8:46:17<9:12:35,  3.69it/s] 67%|██████▋   | 249022/371472 [8:46:17<9:34:46,  3.55it/s] 67%|██████▋   | 249023/371472 [8:46:17<9:21:49,  3.63it/s] 67%|██████▋   | 249024/371472 [8:46:17<9:03:22,  3.76it/s] 67%|██████▋   | 249025/371472 [8:46:18<9:21:43,  3.63it/s] 67%|██████▋   | 249026/371472 [8:46:18<9:19:20,  3.65it/s] 67%|██████▋   | 249027/371472 [8:46:18<9:08:01,  3.72it/s] 67%|██████▋   | 249028/371472 [8:46:19<9:11:50,  3.70it/s] 67%|██████▋   | 249029/371472 [8:46:19<9:18:53,  3.65it/s] 67%|██████▋   | 249030/371472 [8:46:19<9:35:15,  3.55it/s] 67%|██████▋   | 249031/371472 [8:46:19<9:28:06,  3.59it/s] 67%|██████▋   | 249032/371472 [8:46:20<9:16:15,  3.67it/s] 67%|██████▋   | 249033/371472 [8:46:20<10:13:23,  3.33it/s] 67%|██████▋   | 249034/371472 [8:46:20<9:44:21,  3.49it/s]  67%|██████▋   | 249035/371472 [8:46:21<9:26:33,  3.60it/s] 67%|██████▋   | 249036/371472 [8:46:21<9:44:59,  3.49it/s] 67%|██████▋   | 249037/371472 [8:46:21<10:11:11,  3.34it/s] 67%|██████▋   | 249038/371472 [8:46:21<9:26:08,  3.60it/s]  67%|██████▋   | 249039/371472 [8:46:22<9:20:01,  3.64it/s] 67%|██████▋   | 249040/371472 [8:46:22<9:07:46,  3.73it/s]                                                           {'loss': 2.9698, 'learning_rate': 3.967872610915986e-07, 'epoch': 10.73}
 67%|██████▋   | 249040/371472 [8:46:22<9:07:46,  3.73it/s] 67%|██████▋   | 249041/371472 [8:46:22<9:04:17,  3.75it/s] 67%|██████▋   | 249042/371472 [8:46:23<9:09:00,  3.72it/s] 67%|██████▋   | 249043/371472 [8:46:23<8:50:24,  3.85it/s] 67%|██████▋   | 249044/371472 [8:46:23<9:10:22,  3.71it/s] 67%|██████▋   | 249045/371472 [8:46:23<9:50:17,  3.46it/s] 67%|██████▋   | 249046/371472 [8:46:24<10:12:06,  3.33it/s] 67%|██████▋   | 249047/371472 [8:46:24<9:56:33,  3.42it/s]  67%|██████▋   | 249048/371472 [8:46:24<9:55:41,  3.43it/s] 67%|██████▋   | 249049/371472 [8:46:25<9:23:22,  3.62it/s] 67%|██████▋   | 249050/371472 [8:46:25<9:04:07,  3.75it/s] 67%|██████▋   | 249051/371472 [8:46:25<9:03:46,  3.75it/s] 67%|██████▋   | 249052/371472 [8:46:25<9:07:45,  3.72it/s] 67%|██████▋   | 249053/371472 [8:46:26<8:56:49,  3.80it/s] 67%|██████▋   | 249054/371472 [8:46:26<10:00:04,  3.40it/s] 67%|██████▋   | 249055/371472 [8:46:26<9:39:51,  3.52it/s]  67%|██████▋   | 249056/371472 [8:46:26<9:42:10,  3.50it/s] 67%|██████▋   | 249057/371472 [8:46:27<9:35:07,  3.55it/s] 67%|██████▋   | 249058/371472 [8:46:27<9:07:00,  3.73it/s] 67%|██████▋   | 249059/371472 [8:46:27<9:11:57,  3.70it/s] 67%|██████▋   | 249060/371472 [8:46:27<8:57:10,  3.80it/s]                                                           {'loss': 2.8541, 'learning_rate': 3.9673877911611976e-07, 'epoch': 10.73}
 67%|██████▋   | 249060/371472 [8:46:27<8:57:10,  3.80it/s] 67%|██████▋   | 249061/371472 [8:46:28<8:44:42,  3.89it/s] 67%|██████▋   | 249062/371472 [8:46:28<8:53:18,  3.83it/s] 67%|██████▋   | 249063/371472 [8:46:28<8:33:31,  3.97it/s] 67%|██████▋   | 249064/371472 [8:46:29<8:48:00,  3.86it/s] 67%|██████▋   | 249065/371472 [8:46:29<8:53:37,  3.82it/s] 67%|██████▋   | 249066/371472 [8:46:29<9:10:56,  3.70it/s] 67%|██████▋   | 249067/371472 [8:46:29<9:26:09,  3.60it/s] 67%|██████▋   | 249068/371472 [8:46:30<9:17:30,  3.66it/s] 67%|██████▋   | 249069/371472 [8:46:30<9:16:31,  3.67it/s] 67%|██████▋   | 249070/371472 [8:46:30<9:20:38,  3.64it/s] 67%|██████▋   | 249071/371472 [8:46:30<9:22:36,  3.63it/s] 67%|██████▋   | 249072/371472 [8:46:31<9:18:35,  3.65it/s] 67%|██████▋   | 249073/371472 [8:46:31<8:56:22,  3.80it/s] 67%|██████▋   | 249074/371472 [8:46:31<8:47:37,  3.87it/s] 67%|██████▋   | 249075/371472 [8:46:31<8:38:17,  3.94it/s] 67%|██████▋   | 249076/371472 [8:46:32<8:56:46,  3.80it/s] 67%|██████▋   | 249077/371472 [8:46:32<9:52:38,  3.44it/s] 67%|██████▋   | 249078/371472 [8:46:32<9:32:10,  3.57it/s] 67%|██████▋   | 249079/371472 [8:46:33<9:41:20,  3.51it/s] 67%|██████▋   | 249080/371472 [8:46:33<9:50:20,  3.46it/s]                                                           {'loss': 2.7647, 'learning_rate': 3.9669029714064083e-07, 'epoch': 10.73}
 67%|██████▋   | 249080/371472 [8:46:33<9:50:20,  3.46it/s] 67%|██████▋   | 249081/371472 [8:46:33<9:45:58,  3.48it/s] 67%|██████▋   | 249082/371472 [8:46:34<9:45:19,  3.48it/s] 67%|██████▋   | 249083/371472 [8:46:34<10:22:22,  3.28it/s] 67%|██████▋   | 249084/371472 [8:46:34<9:59:27,  3.40it/s]  67%|██████▋   | 249085/371472 [8:46:34<9:42:08,  3.50it/s] 67%|██████▋   | 249086/371472 [8:46:35<9:29:55,  3.58it/s] 67%|██████▋   | 249087/371472 [8:46:35<9:18:48,  3.65it/s] 67%|██████▋   | 249088/371472 [8:46:35<9:05:58,  3.74it/s] 67%|██████▋   | 249089/371472 [8:46:36<9:55:29,  3.43it/s] 67%|██████▋   | 249090/371472 [8:46:36<10:09:01,  3.35it/s] 67%|██████▋   | 249091/371472 [8:46:36<10:36:00,  3.21it/s] 67%|██████▋   | 249092/371472 [8:46:36<10:18:46,  3.30it/s] 67%|██████▋   | 249093/371472 [8:46:37<10:37:04,  3.20it/s] 67%|██████▋   | 249094/371472 [8:46:37<10:36:45,  3.20it/s] 67%|██████▋   | 249095/371472 [8:46:37<9:55:31,  3.42it/s]  67%|██████▋   | 249096/371472 [8:46:38<9:50:25,  3.45it/s] 67%|██████▋   | 249097/371472 [8:46:38<9:43:31,  3.50it/s] 67%|██████▋   | 249098/371472 [8:46:38<9:07:35,  3.72it/s] 67%|██████▋   | 249099/371472 [8:46:38<9:22:32,  3.63it/s] 67%|██████▋   | 249100/371472 [8:46:39<8:59:40,  3.78it/s]                                                           {'loss': 2.9455, 'learning_rate': 3.9664181516516185e-07, 'epoch': 10.73}
 67%|██████▋   | 249100/371472 [8:46:39<8:59:40,  3.78it/s] 67%|██████▋   | 249101/371472 [8:46:39<9:27:08,  3.60it/s] 67%|██████▋   | 249102/371472 [8:46:39<9:21:41,  3.63it/s] 67%|██████▋   | 249103/371472 [8:46:40<9:51:50,  3.45it/s] 67%|██████▋   | 249104/371472 [8:46:40<9:36:18,  3.54it/s] 67%|██████▋   | 249105/371472 [8:46:40<9:26:24,  3.60it/s] 67%|██████▋   | 249106/371472 [8:46:40<9:06:16,  3.73it/s] 67%|██████▋   | 249107/371472 [8:46:41<9:08:27,  3.72it/s] 67%|██████▋   | 249108/371472 [8:46:41<9:18:57,  3.65it/s] 67%|██████▋   | 249109/371472 [8:46:41<9:53:08,  3.44it/s] 67%|██████▋   | 249110/371472 [8:46:42<10:25:16,  3.26it/s] 67%|██████▋   | 249111/371472 [8:46:42<9:40:22,  3.51it/s]  67%|██████▋   | 249112/371472 [8:46:42<9:27:32,  3.59it/s] 67%|██████▋   | 249113/371472 [8:46:42<9:38:26,  3.53it/s] 67%|██████▋   | 249114/371472 [8:46:43<9:39:03,  3.52it/s] 67%|██████▋   | 249115/371472 [8:46:43<10:03:10,  3.38it/s] 67%|██████▋   | 249116/371472 [8:46:43<9:40:15,  3.51it/s]  67%|██████▋   | 249117/371472 [8:46:44<9:39:03,  3.52it/s] 67%|██████▋   | 249118/371472 [8:46:44<9:57:48,  3.41it/s] 67%|██████▋   | 249119/371472 [8:46:44<9:30:25,  3.57it/s] 67%|██████▋   | 249120/371472 [8:46:44<9:19:12,  3.65it/s]                                                           {'loss': 2.821, 'learning_rate': 3.96593333189683e-07, 'epoch': 10.73}
 67%|██████▋   | 249120/371472 [8:46:44<9:19:12,  3.65it/s] 67%|██████▋   | 249121/371472 [8:46:45<9:12:39,  3.69it/s] 67%|██████▋   | 249122/371472 [8:46:45<9:45:19,  3.48it/s] 67%|██████▋   | 249123/371472 [8:46:45<9:25:26,  3.61it/s] 67%|██████▋   | 249124/371472 [8:46:45<9:37:35,  3.53it/s] 67%|██████▋   | 249125/371472 [8:46:46<10:48:42,  3.14it/s] 67%|██████▋   | 249126/371472 [8:46:46<10:45:51,  3.16it/s] 67%|██████▋   | 249127/371472 [8:46:46<10:20:33,  3.29it/s] 67%|██████▋   | 249128/371472 [8:46:47<10:26:45,  3.25it/s] 67%|██████▋   | 249129/371472 [8:46:47<10:09:05,  3.35it/s] 67%|██████▋   | 249130/371472 [8:46:47<9:30:15,  3.58it/s]  67%|██████▋   | 249131/371472 [8:46:48<9:32:04,  3.56it/s] 67%|██████▋   | 249132/371472 [8:46:48<10:13:38,  3.32it/s] 67%|██████▋   | 249133/371472 [8:46:48<9:51:37,  3.45it/s]  67%|██████▋   | 249134/371472 [8:46:48<9:38:53,  3.52it/s] 67%|██████▋   | 249135/371472 [8:46:49<9:14:48,  3.68it/s] 67%|██████▋   | 249136/371472 [8:46:49<8:58:20,  3.79it/s] 67%|██████▋   | 249137/371472 [8:46:49<9:13:47,  3.68it/s] 67%|██████▋   | 249138/371472 [8:46:50<9:14:50,  3.67it/s] 67%|██████▋   | 249139/371472 [8:46:50<9:16:48,  3.66it/s] 67%|██████▋   | 249140/371472 [8:46:50<9:59:43,  3.40it/s]                                                           {'loss': 2.8853, 'learning_rate': 3.965448512142041e-07, 'epoch': 10.73}
 67%|██████▋   | 249140/371472 [8:46:50<9:59:43,  3.40it/s] 67%|██████▋   | 249141/371472 [8:46:50<9:57:47,  3.41it/s] 67%|██████▋   | 249142/371472 [8:46:51<9:52:14,  3.44it/s] 67%|██████▋   | 249143/371472 [8:46:51<9:37:40,  3.53it/s] 67%|██████▋   | 249144/371472 [8:46:51<9:30:58,  3.57it/s] 67%|██████▋   | 249145/371472 [8:46:52<9:32:33,  3.56it/s] 67%|██████▋   | 249146/371472 [8:46:52<9:45:07,  3.48it/s] 67%|██████▋   | 249147/371472 [8:46:52<10:14:38,  3.32it/s] 67%|██████▋   | 249148/371472 [8:46:52<9:42:42,  3.50it/s]  67%|██████▋   | 249149/371472 [8:46:53<9:30:31,  3.57it/s] 67%|██████▋   | 249150/371472 [8:46:53<9:58:08,  3.41it/s] 67%|██████▋   | 249151/371472 [8:46:53<9:26:49,  3.60it/s] 67%|██████▋   | 249152/371472 [8:46:54<9:19:22,  3.64it/s] 67%|██████▋   | 249153/371472 [8:46:54<9:29:19,  3.58it/s] 67%|██████▋   | 249154/371472 [8:46:54<9:04:19,  3.75it/s] 67%|██████▋   | 249155/371472 [8:46:54<9:21:28,  3.63it/s] 67%|██████▋   | 249156/371472 [8:46:55<9:22:40,  3.62it/s] 67%|██████▋   | 249157/371472 [8:46:55<11:01:27,  3.08it/s] 67%|██████▋   | 249158/371472 [8:46:55<10:03:22,  3.38it/s] 67%|██████▋   | 249159/371472 [8:46:56<9:37:26,  3.53it/s]  67%|██████▋   | 249160/371472 [8:46:56<9:38:20,  3.52it/s]                                                           {'loss': 2.8274, 'learning_rate': 3.964963692387252e-07, 'epoch': 10.73}
 67%|██████▋   | 249160/371472 [8:46:56<9:38:20,  3.52it/s] 67%|██████▋   | 249161/371472 [8:46:56<9:21:05,  3.63it/s] 67%|██████▋   | 249162/371472 [8:46:56<9:05:25,  3.74it/s] 67%|██████▋   | 249163/371472 [8:46:57<8:48:40,  3.86it/s] 67%|██████▋   | 249164/371472 [8:46:57<8:57:01,  3.80it/s] 67%|██████▋   | 249165/371472 [8:46:57<8:45:05,  3.88it/s] 67%|██████▋   | 249166/371472 [8:46:57<8:40:38,  3.92it/s] 67%|██████▋   | 249167/371472 [8:46:58<8:54:35,  3.81it/s] 67%|██████▋   | 249168/371472 [8:46:58<8:59:33,  3.78it/s] 67%|██████▋   | 249169/371472 [8:46:58<8:49:07,  3.85it/s] 67%|██████▋   | 249170/371472 [8:46:58<8:55:13,  3.81it/s] 67%|██████▋   | 249171/371472 [8:46:59<8:59:05,  3.78it/s] 67%|██████▋   | 249172/371472 [8:46:59<9:13:59,  3.68it/s] 67%|██████▋   | 249173/371472 [8:46:59<9:14:06,  3.68it/s] 67%|██████▋   | 249174/371472 [8:46:59<9:02:26,  3.76it/s] 67%|██████▋   | 249175/371472 [8:47:00<9:02:51,  3.75it/s] 67%|██████▋   | 249176/371472 [8:47:00<9:02:34,  3.76it/s] 67%|██████▋   | 249177/371472 [8:47:00<9:05:26,  3.74it/s] 67%|██████▋   | 249178/371472 [8:47:01<10:07:52,  3.35it/s] 67%|██████▋   | 249179/371472 [8:47:01<10:42:47,  3.17it/s] 67%|██████▋   | 249180/371472 [8:47:01<10:13:30,  3.32it/s]                                                            {'loss': 2.9587, 'learning_rate': 3.964478872632463e-07, 'epoch': 10.73}
 67%|██████▋   | 249180/371472 [8:47:01<10:13:30,  3.32it/s] 67%|██████▋   | 249181/371472 [8:47:02<9:46:57,  3.47it/s]  67%|██████▋   | 249182/371472 [8:47:02<9:16:37,  3.66it/s] 67%|██████▋   | 249183/371472 [8:47:02<9:35:47,  3.54it/s] 67%|██████▋   | 249184/371472 [8:47:02<9:17:44,  3.65it/s] 67%|██████▋   | 249185/371472 [8:47:03<9:43:26,  3.49it/s] 67%|██████▋   | 249186/371472 [8:47:03<9:53:39,  3.43it/s] 67%|██████▋   | 249187/371472 [8:47:03<9:32:14,  3.56it/s] 67%|██████▋   | 249188/371472 [8:47:03<9:27:21,  3.59it/s] 67%|██████▋   | 249189/371472 [8:47:04<10:03:09,  3.38it/s] 67%|██████▋   | 249190/371472 [8:47:04<9:45:15,  3.48it/s]  67%|██████▋   | 249191/371472 [8:47:04<9:34:00,  3.55it/s] 67%|██████▋   | 249192/371472 [8:47:05<9:01:56,  3.76it/s] 67%|██████▋   | 249193/371472 [8:47:05<9:10:32,  3.70it/s] 67%|██████▋   | 249194/371472 [8:47:05<8:45:08,  3.88it/s] 67%|██████▋   | 249195/371472 [8:47:05<8:56:06,  3.80it/s] 67%|██████▋   | 249196/371472 [8:47:06<8:50:19,  3.84it/s] 67%|██████▋   | 249197/371472 [8:47:06<8:43:38,  3.89it/s] 67%|██████▋   | 249198/371472 [8:47:06<9:43:36,  3.49it/s] 67%|██████▋   | 249199/371472 [8:47:06<9:06:58,  3.73it/s] 67%|██████▋   | 249200/371472 [8:47:07<9:42:24,  3.50it/s]                                                           {'loss': 3.0002, 'learning_rate': 3.963994052877674e-07, 'epoch': 10.73}
 67%|██████▋   | 249200/371472 [8:47:07<9:42:24,  3.50it/s] 67%|██████▋   | 249201/371472 [8:47:07<10:32:46,  3.22it/s] 67%|██████▋   | 249202/371472 [8:47:07<9:57:18,  3.41it/s]  67%|██████▋   | 249203/371472 [8:47:08<9:29:17,  3.58it/s] 67%|██████▋   | 249204/371472 [8:47:08<9:07:28,  3.72it/s] 67%|██████▋   | 249205/371472 [8:47:08<9:29:45,  3.58it/s] 67%|██████▋   | 249206/371472 [8:47:08<9:10:48,  3.70it/s] 67%|██████▋   | 249207/371472 [8:47:09<9:19:35,  3.64it/s] 67%|██████▋   | 249208/371472 [8:47:09<9:38:00,  3.53it/s] 67%|██████▋   | 249209/371472 [8:47:09<9:58:03,  3.41it/s] 67%|██████▋   | 249210/371472 [8:47:10<9:59:49,  3.40it/s] 67%|██████▋   | 249211/371472 [8:47:10<9:41:44,  3.50it/s] 67%|██████▋   | 249212/371472 [8:47:10<9:41:08,  3.51it/s] 67%|██████▋   | 249213/371472 [8:47:10<9:13:54,  3.68it/s] 67%|██████▋   | 249214/371472 [8:47:11<10:01:59,  3.38it/s] 67%|██████▋   | 249215/371472 [8:47:11<9:54:45,  3.43it/s]  67%|██████▋   | 249216/371472 [8:47:11<10:04:42,  3.37it/s] 67%|██████▋   | 249217/371472 [8:47:12<10:52:23,  3.12it/s] 67%|██████▋   | 249218/371472 [8:47:12<10:11:44,  3.33it/s] 67%|██████▋   | 249219/371472 [8:47:12<10:08:56,  3.35it/s] 67%|██████▋   | 249220/371472 [8:47:13<9:42:47,  3.50it/s]                                                            {'loss': 2.9325, 'learning_rate': 3.963509233122885e-07, 'epoch': 10.73}
 67%|██████▋   | 249220/371472 [8:47:13<9:42:47,  3.50it/s] 67%|██████▋   | 249221/371472 [8:47:13<9:30:54,  3.57it/s] 67%|██████▋   | 249222/371472 [8:47:13<9:21:24,  3.63it/s] 67%|██████▋   | 249223/371472 [8:47:13<9:18:12,  3.65it/s] 67%|██████▋   | 249224/371472 [8:47:14<9:11:38,  3.69it/s] 67%|██████▋   | 249225/371472 [8:47:14<9:20:47,  3.63it/s] 67%|██████▋   | 249226/371472 [8:47:14<8:54:32,  3.81it/s] 67%|██████▋   | 249227/371472 [8:47:14<8:55:00,  3.81it/s] 67%|██████▋   | 249228/371472 [8:47:15<9:12:07,  3.69it/s] 67%|██████▋   | 249229/371472 [8:47:15<8:48:29,  3.86it/s] 67%|██████▋   | 249230/371472 [8:47:15<10:38:37,  3.19it/s] 67%|██████▋   | 249231/371472 [8:47:16<10:15:17,  3.31it/s] 67%|██████▋   | 249232/371472 [8:47:16<9:59:22,  3.40it/s]  67%|██████▋   | 249233/371472 [8:47:16<9:20:43,  3.63it/s] 67%|██████▋   | 249234/371472 [8:47:16<9:38:46,  3.52it/s] 67%|██████▋   | 249235/371472 [8:47:17<9:21:17,  3.63it/s] 67%|██████▋   | 249236/371472 [8:47:17<9:50:43,  3.45it/s] 67%|██████▋   | 249237/371472 [8:47:17<9:58:36,  3.40it/s] 67%|██████▋   | 249238/371472 [8:47:18<9:41:35,  3.50it/s] 67%|██████▋   | 249239/371472 [8:47:18<9:18:36,  3.65it/s] 67%|██████▋   | 249240/371472 [8:47:18<9:43:26,  3.49it/s]                                                           {'loss': 2.6846, 'learning_rate': 3.9630244133680966e-07, 'epoch': 10.74}
 67%|██████▋   | 249240/371472 [8:47:18<9:43:26,  3.49it/s] 67%|██████▋   | 249241/371472 [8:47:18<9:47:57,  3.46it/s] 67%|██████▋   | 249242/371472 [8:47:19<10:18:36,  3.29it/s] 67%|██████▋   | 249243/371472 [8:47:19<9:44:48,  3.48it/s]  67%|██████▋   | 249244/371472 [8:47:19<9:54:16,  3.43it/s] 67%|██████▋   | 249245/371472 [8:47:20<9:33:15,  3.55it/s] 67%|██████▋   | 249246/371472 [8:47:20<9:37:23,  3.53it/s] 67%|██████▋   | 249247/371472 [8:47:20<9:32:46,  3.56it/s] 67%|██████▋   | 249248/371472 [8:47:20<9:17:14,  3.66it/s] 67%|██████▋   | 249249/371472 [8:47:21<9:16:04,  3.66it/s] 67%|██████▋   | 249250/371472 [8:47:21<9:05:55,  3.73it/s] 67%|██████▋   | 249251/371472 [8:47:21<9:11:28,  3.69it/s] 67%|██████▋   | 249252/371472 [8:47:21<9:01:25,  3.76it/s] 67%|██████▋   | 249253/371472 [8:47:22<8:51:37,  3.83it/s] 67%|██████▋   | 249254/371472 [8:47:22<8:36:05,  3.95it/s] 67%|██████▋   | 249255/371472 [8:47:22<8:27:28,  4.01it/s] 67%|██████▋   | 249256/371472 [8:47:23<9:39:53,  3.51it/s] 67%|██████▋   | 249257/371472 [8:47:23<9:25:00,  3.61it/s] 67%|██████▋   | 249258/371472 [8:47:23<10:42:12,  3.17it/s] 67%|██████▋   | 249259/371472 [8:47:24<10:22:05,  3.27it/s] 67%|██████▋   | 249260/371472 [8:47:24<10:07:38,  3.35it/s]                                                            {'loss': 2.9024, 'learning_rate': 3.9625395936133074e-07, 'epoch': 10.74}
 67%|██████▋   | 249260/371472 [8:47:24<10:07:38,  3.35it/s] 67%|██████▋   | 249261/371472 [8:47:24<9:48:29,  3.46it/s]  67%|██████▋   | 249262/371472 [8:47:24<9:30:19,  3.57it/s] 67%|██████▋   | 249263/371472 [8:47:25<9:28:57,  3.58it/s] 67%|██████▋   | 249264/371472 [8:47:25<9:01:28,  3.76it/s] 67%|██████▋   | 249265/371472 [8:47:25<9:05:02,  3.74it/s] 67%|██████▋   | 249266/371472 [8:47:25<8:56:31,  3.80it/s] 67%|██████▋   | 249267/371472 [8:47:26<8:43:34,  3.89it/s] 67%|██████▋   | 249268/371472 [8:47:26<8:58:58,  3.78it/s] 67%|██████▋   | 249269/371472 [8:47:26<8:53:51,  3.82it/s] 67%|██████▋   | 249270/371472 [8:47:26<9:04:10,  3.74it/s] 67%|██████▋   | 249271/371472 [8:47:27<9:17:17,  3.65it/s] 67%|██████▋   | 249272/371472 [8:47:27<9:05:57,  3.73it/s] 67%|██████▋   | 249273/371472 [8:47:27<9:07:27,  3.72it/s] 67%|██████▋   | 249274/371472 [8:47:28<9:03:22,  3.75it/s] 67%|██████▋   | 249275/371472 [8:47:28<9:20:53,  3.63it/s] 67%|██████▋   | 249276/371472 [8:47:28<9:37:29,  3.53it/s] 67%|██████▋   | 249277/371472 [8:47:28<9:32:14,  3.56it/s] 67%|██████▋   | 249278/371472 [8:47:29<9:32:00,  3.56it/s] 67%|██████▋   | 249279/371472 [8:47:29<9:20:25,  3.63it/s] 67%|██████▋   | 249280/371472 [8:47:29<9:27:12,  3.59it/s]                                                           {'loss': 2.7834, 'learning_rate': 3.9620547738585186e-07, 'epoch': 10.74}
 67%|██████▋   | 249280/371472 [8:47:29<9:27:12,  3.59it/s] 67%|██████▋   | 249281/371472 [8:47:29<9:13:50,  3.68it/s] 67%|██████▋   | 249282/371472 [8:47:30<9:05:33,  3.73it/s] 67%|██████▋   | 249283/371472 [8:47:30<8:50:02,  3.84it/s] 67%|██████▋   | 249284/371472 [8:47:30<8:42:33,  3.90it/s] 67%|██████▋   | 249285/371472 [8:47:30<8:28:10,  4.01it/s] 67%|██████▋   | 249286/371472 [8:47:31<8:40:17,  3.91it/s] 67%|██████▋   | 249287/371472 [8:47:31<8:46:50,  3.87it/s] 67%|██████▋   | 249288/371472 [8:47:31<9:21:57,  3.62it/s] 67%|██████▋   | 249289/371472 [8:47:32<9:18:25,  3.65it/s] 67%|██████▋   | 249290/371472 [8:47:32<10:07:29,  3.35it/s] 67%|██████▋   | 249291/371472 [8:47:32<9:44:55,  3.48it/s]  67%|██████▋   | 249292/371472 [8:47:32<9:30:22,  3.57it/s] 67%|██████▋   | 249293/371472 [8:47:33<9:14:32,  3.67it/s] 67%|██████▋   | 249294/371472 [8:47:33<9:20:28,  3.63it/s] 67%|██████▋   | 249295/371472 [8:47:33<8:58:17,  3.78it/s] 67%|██████▋   | 249296/371472 [8:47:33<9:02:17,  3.75it/s] 67%|██████▋   | 249297/371472 [8:47:34<8:54:28,  3.81it/s] 67%|██████▋   | 249298/371472 [8:47:34<9:11:07,  3.69it/s] 67%|██████▋   | 249299/371472 [8:47:34<9:17:04,  3.66it/s] 67%|██████▋   | 249300/371472 [8:47:35<9:00:23,  3.77it/s]                                                           {'loss': 2.7053, 'learning_rate': 3.9615699541037293e-07, 'epoch': 10.74}
 67%|██████▋   | 249300/371472 [8:47:35<9:00:23,  3.77it/s] 67%|██████▋   | 249301/371472 [8:47:35<9:54:09,  3.43it/s] 67%|██████▋   | 249302/371472 [8:47:35<9:29:10,  3.58it/s] 67%|██████▋   | 249303/371472 [8:47:35<9:44:17,  3.48it/s] 67%|██████▋   | 249304/371472 [8:47:36<9:32:58,  3.55it/s] 67%|██████▋   | 249305/371472 [8:47:36<9:20:08,  3.64it/s] 67%|██████▋   | 249306/371472 [8:47:36<9:47:12,  3.47it/s] 67%|██████▋   | 249307/371472 [8:47:37<9:50:58,  3.45it/s] 67%|██████▋   | 249308/371472 [8:47:37<10:08:11,  3.35it/s] 67%|██████▋   | 249309/371472 [8:47:37<9:36:06,  3.53it/s]  67%|██████▋   | 249310/371472 [8:47:37<9:16:19,  3.66it/s] 67%|██████▋   | 249311/371472 [8:47:38<9:17:21,  3.65it/s] 67%|██████▋   | 249312/371472 [8:47:38<9:09:45,  3.70it/s] 67%|██████▋   | 249313/371472 [8:47:38<9:00:47,  3.76it/s] 67%|██████▋   | 249314/371472 [8:47:38<8:56:26,  3.80it/s] 67%|██████▋   | 249315/371472 [8:47:39<9:12:58,  3.68it/s] 67%|██████▋   | 249316/371472 [8:47:39<9:14:39,  3.67it/s] 67%|██████▋   | 249317/371472 [8:47:39<9:26:31,  3.59it/s] 67%|██████▋   | 249318/371472 [8:47:40<9:10:01,  3.70it/s] 67%|██████▋   | 249319/371472 [8:47:40<9:39:06,  3.52it/s] 67%|██████▋   | 249320/371472 [8:47:40<9:35:02,  3.54it/s]                                                           {'loss': 2.739, 'learning_rate': 3.961085134348941e-07, 'epoch': 10.74}
 67%|██████▋   | 249320/371472 [8:47:40<9:35:02,  3.54it/s] 67%|██████▋   | 249321/371472 [8:47:40<9:16:23,  3.66it/s] 67%|██████▋   | 249322/371472 [8:47:41<9:21:16,  3.63it/s] 67%|██████▋   | 249323/371472 [8:47:41<9:10:51,  3.70it/s] 67%|██████▋   | 249324/371472 [8:47:41<9:05:26,  3.73it/s] 67%|██████▋   | 249325/371472 [8:47:42<9:09:15,  3.71it/s] 67%|██████▋   | 249326/371472 [8:47:42<9:50:57,  3.44it/s] 67%|██████▋   | 249327/371472 [8:47:42<9:21:54,  3.62it/s] 67%|██████▋   | 249328/371472 [8:47:42<9:26:55,  3.59it/s] 67%|██████▋   | 249329/371472 [8:47:43<9:28:37,  3.58it/s] 67%|██████▋   | 249330/371472 [8:47:43<9:21:17,  3.63it/s] 67%|██████▋   | 249331/371472 [8:47:43<9:00:44,  3.76it/s] 67%|██████▋   | 249332/371472 [8:47:43<9:04:20,  3.74it/s] 67%|██████▋   | 249333/371472 [8:47:44<9:00:49,  3.76it/s] 67%|██████▋   | 249334/371472 [8:47:44<8:58:22,  3.78it/s] 67%|██████▋   | 249335/371472 [8:47:44<8:50:18,  3.84it/s] 67%|██████▋   | 249336/371472 [8:47:44<8:51:07,  3.83it/s] 67%|██████▋   | 249337/371472 [8:47:45<8:44:55,  3.88it/s] 67%|██████▋   | 249338/371472 [8:47:45<8:31:34,  3.98it/s] 67%|██████▋   | 249339/371472 [8:47:45<9:15:06,  3.67it/s] 67%|██████▋   | 249340/371472 [8:47:46<10:16:14,  3.30it/s]                                                            {'loss': 2.9674, 'learning_rate': 3.960600314594152e-07, 'epoch': 10.74}
 67%|██████▋   | 249340/371472 [8:47:46<10:16:14,  3.30it/s] 67%|██████▋   | 249341/371472 [8:47:46<9:58:27,  3.40it/s]  67%|██████▋   | 249342/371472 [8:47:46<9:56:34,  3.41it/s] 67%|██████▋   | 249343/371472 [8:47:47<10:04:24,  3.37it/s] 67%|██████▋   | 249344/371472 [8:47:47<10:31:21,  3.22it/s] 67%|██████▋   | 249345/371472 [8:47:47<10:07:58,  3.35it/s] 67%|██████▋   | 249346/371472 [8:47:47<9:58:59,  3.40it/s]  67%|██████▋   | 249347/371472 [8:47:48<9:28:32,  3.58it/s] 67%|██████▋   | 249348/371472 [8:47:48<9:20:19,  3.63it/s] 67%|██████▋   | 249349/371472 [8:47:48<9:07:02,  3.72it/s] 67%|██████▋   | 249350/371472 [8:47:48<8:48:25,  3.85it/s] 67%|██████▋   | 249351/371472 [8:47:49<8:50:43,  3.84it/s] 67%|██████▋   | 249352/371472 [8:47:49<8:39:08,  3.92it/s] 67%|██████▋   | 249353/371472 [8:47:49<9:03:47,  3.74it/s] 67%|██████▋   | 249354/371472 [8:47:50<9:11:38,  3.69it/s] 67%|██████▋   | 249355/371472 [8:47:50<9:14:29,  3.67it/s] 67%|██████▋   | 249356/371472 [8:47:50<9:16:48,  3.66it/s] 67%|██████▋   | 249357/371472 [8:47:50<8:55:49,  3.80it/s] 67%|██████▋   | 249358/371472 [8:47:51<8:54:49,  3.81it/s] 67%|██████▋   | 249359/371472 [8:47:51<10:21:06,  3.28it/s] 67%|██████▋   | 249360/371472 [8:47:51<10:10:34,  3.33it/s]                                                            {'loss': 2.9267, 'learning_rate': 3.960115494839363e-07, 'epoch': 10.74}
 67%|██████▋   | 249360/371472 [8:47:51<10:10:34,  3.33it/s] 67%|██████▋   | 249361/371472 [8:47:52<9:53:17,  3.43it/s]  67%|██████▋   | 249362/371472 [8:47:52<10:01:30,  3.38it/s] 67%|██████▋   | 249363/371472 [8:47:52<9:35:15,  3.54it/s]  67%|██████▋   | 249364/371472 [8:47:52<9:12:12,  3.69it/s] 67%|██████▋   | 249365/371472 [8:47:53<9:27:39,  3.59it/s] 67%|██████▋   | 249366/371472 [8:47:53<9:07:20,  3.72it/s] 67%|██████▋   | 249367/371472 [8:47:53<9:06:13,  3.73it/s] 67%|██████▋   | 249368/371472 [8:47:53<8:51:51,  3.83it/s] 67%|██████▋   | 249369/371472 [8:47:54<8:45:38,  3.87it/s] 67%|██████▋   | 249370/371472 [8:47:54<8:45:42,  3.87it/s] 67%|██████▋   | 249371/371472 [8:47:54<9:58:22,  3.40it/s] 67%|██████▋   | 249372/371472 [8:47:55<9:40:37,  3.50it/s] 67%|██████▋   | 249373/371472 [8:47:55<9:37:44,  3.52it/s] 67%|██████▋   | 249374/371472 [8:47:55<9:36:49,  3.53it/s] 67%|██████▋   | 249375/371472 [8:47:55<9:14:10,  3.67it/s] 67%|██████▋   | 249376/371472 [8:47:56<9:16:26,  3.66it/s] 67%|██████▋   | 249377/371472 [8:47:56<9:28:37,  3.58it/s] 67%|██████▋   | 249378/371472 [8:47:56<9:25:54,  3.60it/s] 67%|██████▋   | 249379/371472 [8:47:56<9:12:29,  3.68it/s] 67%|██████▋   | 249380/371472 [8:47:57<9:20:46,  3.63it/s]                                                           {'loss': 2.8215, 'learning_rate': 3.959630675084574e-07, 'epoch': 10.74}
 67%|██████▋   | 249380/371472 [8:47:57<9:20:46,  3.63it/s] 67%|██████▋   | 249381/371472 [8:47:57<9:33:45,  3.55it/s] 67%|██████▋   | 249382/371472 [8:47:57<9:45:43,  3.47it/s] 67%|██████▋   | 249383/371472 [8:47:58<9:18:44,  3.64it/s] 67%|██████▋   | 249384/371472 [8:47:58<9:20:07,  3.63it/s] 67%|██████▋   | 249385/371472 [8:47:58<9:04:19,  3.74it/s] 67%|██████▋   | 249386/371472 [8:47:58<9:13:22,  3.68it/s] 67%|██████▋   | 249387/371472 [8:47:59<9:10:16,  3.70it/s] 67%|██████▋   | 249388/371472 [8:47:59<9:41:49,  3.50it/s] 67%|██████▋   | 249389/371472 [8:47:59<9:26:24,  3.59it/s] 67%|██████▋   | 249390/371472 [8:47:59<9:10:26,  3.70it/s] 67%|██████▋   | 249391/371472 [8:48:00<10:01:02,  3.39it/s] 67%|██████▋   | 249392/371472 [8:48:00<9:52:57,  3.43it/s]  67%|██████▋   | 249393/371472 [8:48:00<9:25:46,  3.60it/s] 67%|██████▋   | 249394/371472 [8:48:01<9:12:57,  3.68it/s] 67%|██████▋   | 249395/371472 [8:48:01<9:00:53,  3.76it/s] 67%|██████▋   | 249396/371472 [8:48:01<8:45:58,  3.87it/s] 67%|██████▋   | 249397/371472 [8:48:01<8:46:09,  3.87it/s] 67%|██████▋   | 249398/371472 [8:48:02<8:52:36,  3.82it/s] 67%|██████▋   | 249399/371472 [8:48:02<9:06:39,  3.72it/s] 67%|██████▋   | 249400/371472 [8:48:02<9:17:03,  3.65it/s]                                                           {'loss': 2.9283, 'learning_rate': 3.9591458553297855e-07, 'epoch': 10.74}
 67%|██████▋   | 249400/371472 [8:48:02<9:17:03,  3.65it/s] 67%|██████▋   | 249401/371472 [8:48:02<9:12:43,  3.68it/s] 67%|██████▋   | 249402/371472 [8:48:03<9:01:11,  3.76it/s] 67%|██████▋   | 249403/371472 [8:48:03<8:48:22,  3.85it/s] 67%|██████▋   | 249404/371472 [8:48:03<8:41:53,  3.90it/s] 67%|██████▋   | 249405/371472 [8:48:03<8:34:21,  3.96it/s] 67%|██████▋   | 249406/371472 [8:48:04<9:59:34,  3.39it/s] 67%|██████▋   | 249407/371472 [8:48:04<10:15:01,  3.31it/s] 67%|██████▋   | 249408/371472 [8:48:04<9:57:17,  3.41it/s]  67%|██████▋   | 249409/371472 [8:48:05<9:31:30,  3.56it/s] 67%|██████▋   | 249410/371472 [8:48:05<9:45:37,  3.47it/s] 67%|██████▋   | 249411/371472 [8:48:05<9:57:21,  3.41it/s] 67%|██████▋   | 249412/371472 [8:48:06<9:35:22,  3.54it/s] 67%|██████▋   | 249413/371472 [8:48:06<9:16:00,  3.66it/s] 67%|██████▋   | 249414/371472 [8:48:06<9:49:59,  3.45it/s] 67%|██████▋   | 249415/371472 [8:48:07<10:20:55,  3.28it/s] 67%|██████▋   | 249416/371472 [8:48:07<10:18:50,  3.29it/s] 67%|██████▋   | 249417/371472 [8:48:07<9:44:47,  3.48it/s]  67%|██████▋   | 249418/371472 [8:48:07<9:51:06,  3.44it/s] 67%|██████▋   | 249419/371472 [8:48:08<10:07:55,  3.35it/s] 67%|██████▋   | 249420/371472 [8:48:08<10:00:50,  3.39it/s]                                                            {'loss': 2.9136, 'learning_rate': 3.9586610355749957e-07, 'epoch': 10.74}
 67%|██████▋   | 249420/371472 [8:48:08<10:00:50,  3.39it/s] 67%|██████▋   | 249421/371472 [8:48:08<9:32:18,  3.55it/s]  67%|██████▋   | 249422/371472 [8:48:08<9:13:15,  3.68it/s] 67%|██████▋   | 249423/371472 [8:48:09<9:01:29,  3.76it/s] 67%|██████▋   | 249424/371472 [8:48:09<11:03:22,  3.07it/s] 67%|██████▋   | 249425/371472 [8:48:09<10:22:29,  3.27it/s] 67%|██████▋   | 249426/371472 [8:48:10<10:15:13,  3.31it/s] 67%|██████▋   | 249427/371472 [8:48:10<10:36:51,  3.19it/s] 67%|██████▋   | 249428/371472 [8:48:10<10:11:50,  3.32it/s] 67%|██████▋   | 249429/371472 [8:48:11<9:58:20,  3.40it/s]  67%|██████▋   | 249430/371472 [8:48:11<9:38:06,  3.52it/s] 67%|██████▋   | 249431/371472 [8:48:11<9:45:50,  3.47it/s] 67%|██████▋   | 249432/371472 [8:48:11<9:45:56,  3.47it/s] 67%|██████▋   | 249433/371472 [8:48:12<9:28:15,  3.58it/s] 67%|██████▋   | 249434/371472 [8:48:12<9:12:03,  3.68it/s] 67%|██████▋   | 249435/371472 [8:48:12<9:22:47,  3.61it/s] 67%|██████▋   | 249436/371472 [8:48:13<9:05:03,  3.73it/s] 67%|██████▋   | 249437/371472 [8:48:13<8:43:44,  3.88it/s] 67%|██████▋   | 249438/371472 [8:48:13<9:08:09,  3.71it/s] 67%|██████▋   | 249439/371472 [8:48:13<8:49:46,  3.84it/s] 67%|██████▋   | 249440/371472 [8:48:14<10:08:15,  3.34it/s]                                                            {'loss': 2.8233, 'learning_rate': 3.9581762158202075e-07, 'epoch': 10.74}
 67%|██████▋   | 249440/371472 [8:48:14<10:08:15,  3.34it/s] 67%|██████▋   | 249441/371472 [8:48:14<9:56:09,  3.41it/s]  67%|██████▋   | 249442/371472 [8:48:14<9:32:06,  3.56it/s] 67%|██████▋   | 249443/371472 [8:48:15<11:45:21,  2.88it/s] 67%|██████▋   | 249444/371472 [8:48:15<10:55:03,  3.10it/s] 67%|██████▋   | 249445/371472 [8:48:15<10:22:22,  3.27it/s] 67%|██████▋   | 249446/371472 [8:48:16<10:28:33,  3.24it/s] 67%|██████▋   | 249447/371472 [8:48:16<10:01:29,  3.38it/s] 67%|██████▋   | 249448/371472 [8:48:16<9:28:46,  3.58it/s]  67%|██████▋   | 249449/371472 [8:48:16<9:19:45,  3.63it/s] 67%|██████▋   | 249450/371472 [8:48:17<9:07:16,  3.72it/s] 67%|██████▋   | 249451/371472 [8:48:17<8:58:43,  3.78it/s] 67%|██████▋   | 249452/371472 [8:48:17<8:42:36,  3.89it/s] 67%|██████▋   | 249453/371472 [8:48:17<9:21:25,  3.62it/s] 67%|██████▋   | 249454/371472 [8:48:18<9:01:19,  3.76it/s] 67%|██████▋   | 249455/371472 [8:48:18<8:54:39,  3.80it/s] 67%|██████▋   | 249456/371472 [8:48:18<8:58:27,  3.78it/s] 67%|██████▋   | 249457/371472 [8:48:18<8:55:19,  3.80it/s] 67%|██████▋   | 249458/371472 [8:48:19<8:45:57,  3.87it/s] 67%|██████▋   | 249459/371472 [8:48:19<9:02:54,  3.75it/s] 67%|██████▋   | 249460/371472 [8:48:19<8:55:03,  3.80it/s]                                                           {'loss': 2.9242, 'learning_rate': 3.957691396065418e-07, 'epoch': 10.74}
 67%|██████▋   | 249460/371472 [8:48:19<8:55:03,  3.80it/s] 67%|██████▋   | 249461/371472 [8:48:19<8:43:42,  3.88it/s] 67%|██████▋   | 249462/371472 [8:48:20<8:37:41,  3.93it/s] 67%|██████▋   | 249463/371472 [8:48:20<8:38:36,  3.92it/s] 67%|██████▋   | 249464/371472 [8:48:20<9:15:05,  3.66it/s] 67%|██████▋   | 249465/371472 [8:48:21<9:36:04,  3.53it/s] 67%|██████▋   | 249466/371472 [8:48:21<10:05:57,  3.36it/s] 67%|██████▋   | 249467/371472 [8:48:21<10:10:45,  3.33it/s] 67%|██████▋   | 249468/371472 [8:48:21<9:49:41,  3.45it/s]  67%|██████▋   | 249469/371472 [8:48:22<9:51:56,  3.44it/s] 67%|██████▋   | 249470/371472 [8:48:22<10:05:13,  3.36it/s] 67%|██████▋   | 249471/371472 [8:48:22<10:07:24,  3.35it/s] 67%|██████▋   | 249472/371472 [8:48:23<10:22:10,  3.27it/s] 67%|██████▋   | 249473/371472 [8:48:23<9:55:29,  3.41it/s]  67%|██████▋   | 249474/371472 [8:48:23<10:52:10,  3.12it/s] 67%|██████▋   | 249475/371472 [8:48:24<10:26:30,  3.25it/s] 67%|██████▋   | 249476/371472 [8:48:24<9:53:54,  3.42it/s]  67%|██████▋   | 249477/371472 [8:48:24<10:13:32,  3.31it/s] 67%|██████▋   | 249478/371472 [8:48:24<9:35:36,  3.53it/s]  67%|██████▋   | 249479/371472 [8:48:25<9:07:16,  3.72it/s] 67%|██████▋   | 249480/371472 [8:48:25<9:20:44,  3.63it/s]                                                           {'loss': 2.7983, 'learning_rate': 3.9572065763106295e-07, 'epoch': 10.75}
 67%|██████▋   | 249480/371472 [8:48:25<9:20:44,  3.63it/s] 67%|██████▋   | 249481/371472 [8:48:25<9:38:40,  3.51it/s] 67%|██████▋   | 249482/371472 [8:48:26<9:18:52,  3.64it/s] 67%|██████▋   | 249483/371472 [8:48:26<9:32:25,  3.55it/s] 67%|██████▋   | 249484/371472 [8:48:26<9:57:00,  3.41it/s] 67%|██████▋   | 249485/371472 [8:48:26<9:25:15,  3.60it/s] 67%|██████▋   | 249486/371472 [8:48:27<9:20:58,  3.62it/s] 67%|██████▋   | 249487/371472 [8:48:27<9:26:09,  3.59it/s] 67%|██████▋   | 249488/371472 [8:48:27<9:14:18,  3.67it/s] 67%|██████▋   | 249489/371472 [8:48:28<9:43:01,  3.49it/s] 67%|██████▋   | 249490/371472 [8:48:28<9:27:09,  3.58it/s] 67%|██████▋   | 249491/371472 [8:48:28<9:14:52,  3.66it/s] 67%|██████▋   | 249492/371472 [8:48:28<9:10:41,  3.69it/s] 67%|██████▋   | 249493/371472 [8:48:29<9:05:56,  3.72it/s] 67%|██████▋   | 249494/371472 [8:48:29<9:08:54,  3.70it/s] 67%|██████▋   | 249495/371472 [8:48:29<9:29:52,  3.57it/s] 67%|██████▋   | 249496/371472 [8:48:29<9:17:07,  3.65it/s] 67%|██████▋   | 249497/371472 [8:48:30<8:59:42,  3.77it/s] 67%|██████▋   | 249498/371472 [8:48:30<9:27:26,  3.58it/s] 67%|██████▋   | 249499/371472 [8:48:30<9:12:08,  3.68it/s] 67%|██████▋   | 249500/371472 [8:48:30<8:58:47,  3.77it/s]                                                           {'loss': 2.7463, 'learning_rate': 3.95672175655584e-07, 'epoch': 10.75}
 67%|██████▋   | 249500/371472 [8:48:30<8:58:47,  3.77it/s] 67%|██████▋   | 249501/371472 [8:48:31<8:48:36,  3.85it/s] 67%|██████▋   | 249502/371472 [8:48:31<8:36:27,  3.94it/s] 67%|██████▋   | 249503/371472 [8:48:31<8:58:43,  3.77it/s] 67%|██████▋   | 249504/371472 [8:48:32<9:26:36,  3.59it/s] 67%|██████▋   | 249505/371472 [8:48:32<9:10:26,  3.69it/s] 67%|██████▋   | 249506/371472 [8:48:32<9:13:32,  3.67it/s] 67%|██████▋   | 249507/371472 [8:48:32<9:55:07,  3.42it/s] 67%|██████▋   | 249508/371472 [8:48:33<9:29:36,  3.57it/s] 67%|██████▋   | 249509/371472 [8:48:33<9:18:05,  3.64it/s] 67%|██████▋   | 249510/371472 [8:48:33<9:06:24,  3.72it/s] 67%|██████▋   | 249511/371472 [8:48:34<9:45:46,  3.47it/s] 67%|██████▋   | 249512/371472 [8:48:34<10:11:33,  3.32it/s] 67%|██████▋   | 249513/371472 [8:48:34<9:41:28,  3.50it/s]  67%|██████▋   | 249514/371472 [8:48:35<11:07:29,  3.05it/s] 67%|██████▋   | 249515/371472 [8:48:35<10:21:15,  3.27it/s] 67%|██████▋   | 249516/371472 [8:48:35<10:05:16,  3.36it/s] 67%|██████▋   | 249517/371472 [8:48:35<10:26:34,  3.24it/s] 67%|██████▋   | 249518/371472 [8:48:36<10:20:03,  3.28it/s] 67%|██████▋   | 249519/371472 [8:48:36<9:38:24,  3.51it/s]  67%|██████▋   | 249520/371472 [8:48:36<9:14:44,  3.66it/s]                                                           {'loss': 2.9453, 'learning_rate': 3.956236936801052e-07, 'epoch': 10.75}
 67%|██████▋   | 249520/371472 [8:48:36<9:14:44,  3.66it/s] 67%|██████▋   | 249521/371472 [8:48:36<9:06:32,  3.72it/s] 67%|██████▋   | 249522/371472 [8:48:37<9:13:25,  3.67it/s] 67%|██████▋   | 249523/371472 [8:48:37<8:54:16,  3.80it/s] 67%|██████▋   | 249524/371472 [8:48:37<10:40:31,  3.17it/s] 67%|██████▋   | 249525/371472 [8:48:38<10:26:18,  3.25it/s] 67%|██████▋   | 249526/371472 [8:48:38<10:21:23,  3.27it/s] 67%|██████▋   | 249527/371472 [8:48:38<10:30:26,  3.22it/s] 67%|██████▋   | 249528/371472 [8:48:39<9:55:49,  3.41it/s]  67%|██████▋   | 249529/371472 [8:48:39<10:16:52,  3.29it/s] 67%|██████▋   | 249530/371472 [8:48:39<9:39:09,  3.51it/s]  67%|██████▋   | 249531/371472 [8:48:39<9:14:55,  3.66it/s] 67%|██████▋   | 249532/371472 [8:48:40<9:43:06,  3.49it/s] 67%|██████▋   | 249533/371472 [8:48:40<9:26:58,  3.58it/s] 67%|██████▋   | 249534/371472 [8:48:40<9:30:21,  3.56it/s] 67%|██████▋   | 249535/371472 [8:48:41<9:20:21,  3.63it/s] 67%|██████▋   | 249536/371472 [8:48:41<9:52:44,  3.43it/s] 67%|██████▋   | 249537/371472 [8:48:41<10:10:29,  3.33it/s] 67%|██████▋   | 249538/371472 [8:48:41<9:39:14,  3.51it/s]  67%|██████▋   | 249539/371472 [8:48:42<9:32:19,  3.55it/s] 67%|██████▋   | 249540/371472 [8:48:42<9:10:50,  3.69it/s]                                                           {'loss': 2.8029, 'learning_rate': 3.955752117046262e-07, 'epoch': 10.75}
 67%|██████▋   | 249540/371472 [8:48:42<9:10:50,  3.69it/s] 67%|██████▋   | 249541/371472 [8:48:42<9:17:18,  3.65it/s] 67%|██████▋   | 249542/371472 [8:48:43<9:37:59,  3.52it/s] 67%|██████▋   | 249543/371472 [8:48:43<9:45:02,  3.47it/s] 67%|██████▋   | 249544/371472 [8:48:43<9:30:28,  3.56it/s] 67%|██████▋   | 249545/371472 [8:48:43<9:37:22,  3.52it/s] 67%|██████▋   | 249546/371472 [8:48:44<10:16:29,  3.30it/s] 67%|██████▋   | 249547/371472 [8:48:44<9:46:41,  3.46it/s]  67%|██████▋   | 249548/371472 [8:48:44<9:49:09,  3.45it/s] 67%|██████▋   | 249549/371472 [8:48:45<10:04:27,  3.36it/s] 67%|██████▋   | 249550/371472 [8:48:45<10:00:13,  3.39it/s] 67%|██████▋   | 249551/371472 [8:48:45<9:52:35,  3.43it/s]  67%|██████▋   | 249552/371472 [8:48:45<9:34:01,  3.54it/s] 67%|██████▋   | 249553/371472 [8:48:46<9:32:32,  3.55it/s] 67%|██████▋   | 249554/371472 [8:48:46<9:12:50,  3.68it/s] 67%|██████▋   | 249555/371472 [8:48:46<10:05:13,  3.36it/s] 67%|██████▋   | 249556/371472 [8:48:47<9:49:28,  3.45it/s]  67%|██████▋   | 249557/371472 [8:48:47<9:33:26,  3.54it/s] 67%|██████▋   | 249558/371472 [8:48:47<9:21:58,  3.62it/s] 67%|██████▋   | 249559/371472 [8:48:47<9:05:10,  3.73it/s] 67%|██████▋   | 249560/371472 [8:48:48<9:14:14,  3.67it/s]                                                           {'loss': 2.7629, 'learning_rate': 3.955267297291474e-07, 'epoch': 10.75}
 67%|██████▋   | 249560/371472 [8:48:48<9:14:14,  3.67it/s] 67%|██████▋   | 249561/371472 [8:48:48<9:08:58,  3.70it/s] 67%|██████▋   | 249562/371472 [8:48:48<9:36:27,  3.52it/s] 67%|██████▋   | 249563/371472 [8:48:48<9:27:51,  3.58it/s] 67%|██████▋   | 249564/371472 [8:48:49<9:12:31,  3.68it/s] 67%|██████▋   | 249565/371472 [8:48:49<9:20:34,  3.62it/s] 67%|██████▋   | 249566/371472 [8:48:49<9:34:29,  3.54it/s] 67%|██████▋   | 249567/371472 [8:48:50<9:03:28,  3.74it/s] 67%|██████▋   | 249568/371472 [8:48:50<8:59:32,  3.77it/s] 67%|██████▋   | 249569/371472 [8:48:50<8:47:06,  3.85it/s] 67%|██████▋   | 249570/371472 [8:48:50<9:07:08,  3.71it/s] 67%|██████▋   | 249571/371472 [8:48:51<8:45:09,  3.87it/s] 67%|██████▋   | 249572/371472 [8:48:51<9:15:33,  3.66it/s] 67%|██████▋   | 249573/371472 [8:48:51<9:18:27,  3.64it/s] 67%|██████▋   | 249574/371472 [8:48:51<8:56:18,  3.79it/s] 67%|██████▋   | 249575/371472 [8:48:52<8:50:42,  3.83it/s] 67%|██████▋   | 249576/371472 [8:48:52<8:47:54,  3.85it/s] 67%|██████▋   | 249577/371472 [8:48:52<8:44:32,  3.87it/s] 67%|██████▋   | 249578/371472 [8:48:52<9:00:32,  3.76it/s] 67%|██████▋   | 249579/371472 [8:48:53<9:51:11,  3.44it/s] 67%|██████▋   | 249580/371472 [8:48:53<10:03:49,  3.36it/s]                                                            {'loss': 2.7932, 'learning_rate': 3.9547824775366846e-07, 'epoch': 10.75}
 67%|██████▋   | 249580/371472 [8:48:53<10:03:49,  3.36it/s] 67%|██████▋   | 249581/371472 [8:48:53<10:04:24,  3.36it/s] 67%|██████▋   | 249582/371472 [8:48:54<10:12:51,  3.31it/s] 67%|██████▋   | 249583/371472 [8:48:54<10:13:39,  3.31it/s] 67%|██████▋   | 249584/371472 [8:48:54<10:15:18,  3.30it/s] 67%|██████▋   | 249585/371472 [8:48:55<9:55:44,  3.41it/s]  67%|██████▋   | 249586/371472 [8:48:55<9:41:00,  3.50it/s] 67%|██████▋   | 249587/371472 [8:48:55<9:31:30,  3.55it/s] 67%|██████▋   | 249588/371472 [8:48:55<9:21:03,  3.62it/s] 67%|██████▋   | 249589/371472 [8:48:56<8:57:35,  3.78it/s] 67%|██████▋   | 249590/371472 [8:48:56<9:19:17,  3.63it/s] 67%|██████▋   | 249591/371472 [8:48:56<10:04:16,  3.36it/s] 67%|██████▋   | 249592/371472 [8:48:57<9:57:12,  3.40it/s]  67%|██████▋   | 249593/371472 [8:48:57<9:38:18,  3.51it/s] 67%|██████▋   | 249594/371472 [8:48:57<9:24:55,  3.60it/s] 67%|██████▋   | 249595/371472 [8:48:57<9:34:51,  3.53it/s] 67%|██████▋   | 249596/371472 [8:48:58<9:12:17,  3.68it/s] 67%|██████▋   | 249597/371472 [8:48:58<9:14:26,  3.66it/s] 67%|██████▋   | 249598/371472 [8:48:58<9:29:32,  3.57it/s] 67%|██████▋   | 249599/371472 [8:48:58<9:02:12,  3.75it/s] 67%|██████▋   | 249600/371472 [8:48:59<8:52:51,  3.81it/s]                                                           {'loss': 2.8735, 'learning_rate': 3.954297657781896e-07, 'epoch': 10.75}
 67%|██████▋   | 249600/371472 [8:48:59<8:52:51,  3.81it/s] 67%|██████▋   | 249601/371472 [8:48:59<8:55:52,  3.79it/s] 67%|██████▋   | 249602/371472 [8:48:59<8:43:38,  3.88it/s] 67%|██████▋   | 249603/371472 [8:49:00<9:15:29,  3.66it/s] 67%|██████▋   | 249604/371472 [8:49:00<9:12:03,  3.68it/s] 67%|██████▋   | 249605/371472 [8:49:00<9:06:44,  3.71it/s] 67%|██████▋   | 249606/371472 [8:49:00<8:58:56,  3.77it/s] 67%|██████▋   | 249607/371472 [8:49:01<9:16:24,  3.65it/s] 67%|██████▋   | 249608/371472 [8:49:01<8:49:36,  3.83it/s] 67%|██████▋   | 249609/371472 [8:49:01<8:35:19,  3.94it/s] 67%|██████▋   | 249610/371472 [8:49:01<9:25:05,  3.59it/s] 67%|██████▋   | 249611/371472 [8:49:02<9:35:46,  3.53it/s] 67%|██████▋   | 249612/371472 [8:49:02<9:12:47,  3.67it/s] 67%|██████▋   | 249613/371472 [8:49:02<8:58:30,  3.77it/s] 67%|██████▋   | 249614/371472 [8:49:03<9:48:55,  3.45it/s] 67%|██████▋   | 249615/371472 [8:49:03<9:25:35,  3.59it/s] 67%|██████▋   | 249616/371472 [8:49:03<9:41:12,  3.49it/s] 67%|██████▋   | 249617/371472 [8:49:03<9:46:04,  3.47it/s] 67%|██████▋   | 249618/371472 [8:49:04<10:01:26,  3.38it/s] 67%|██████▋   | 249619/371472 [8:49:04<9:40:49,  3.50it/s]  67%|██████▋   | 249620/371472 [8:49:04<9:30:25,  3.56it/s]                                                           {'loss': 2.8813, 'learning_rate': 3.953812838027106e-07, 'epoch': 10.75}
 67%|██████▋   | 249620/371472 [8:49:04<9:30:25,  3.56it/s] 67%|██████▋   | 249621/371472 [8:49:05<9:45:09,  3.47it/s] 67%|██████▋   | 249622/371472 [8:49:05<9:24:09,  3.60it/s] 67%|██████▋   | 249623/371472 [8:49:05<9:05:42,  3.72it/s] 67%|██████▋   | 249624/371472 [8:49:05<9:13:13,  3.67it/s] 67%|██████▋   | 249625/371472 [8:49:06<8:57:07,  3.78it/s] 67%|██████▋   | 249626/371472 [8:49:06<9:13:46,  3.67it/s] 67%|██████▋   | 249627/371472 [8:49:06<9:41:48,  3.49it/s] 67%|██████▋   | 249628/371472 [8:49:06<9:38:50,  3.51it/s] 67%|██████▋   | 249629/371472 [8:49:07<9:34:53,  3.53it/s] 67%|██████▋   | 249630/371472 [8:49:07<9:31:09,  3.56it/s] 67%|██████▋   | 249631/371472 [8:49:07<9:26:09,  3.59it/s] 67%|██████▋   | 249632/371472 [8:49:08<9:16:06,  3.65it/s] 67%|██████▋   | 249633/371472 [8:49:08<9:44:08,  3.48it/s] 67%|██████▋   | 249634/371472 [8:49:08<9:46:49,  3.46it/s] 67%|██████▋   | 249635/371472 [8:49:08<9:38:36,  3.51it/s] 67%|██████▋   | 249636/371472 [8:49:09<9:14:20,  3.66it/s] 67%|██████▋   | 249637/371472 [8:49:09<9:00:34,  3.76it/s] 67%|██████▋   | 249638/371472 [8:49:09<9:07:13,  3.71it/s] 67%|██████▋   | 249639/371472 [8:49:10<9:48:13,  3.45it/s] 67%|██████▋   | 249640/371472 [8:49:10<9:32:27,  3.55it/s]                                                           {'loss': 2.9248, 'learning_rate': 3.9533280182723173e-07, 'epoch': 10.75}
 67%|██████▋   | 249640/371472 [8:49:10<9:32:27,  3.55it/s] 67%|██████▋   | 249641/371472 [8:49:10<9:21:04,  3.62it/s] 67%|██████▋   | 249642/371472 [8:49:10<9:09:36,  3.69it/s] 67%|██████▋   | 249643/371472 [8:49:11<9:06:49,  3.71it/s] 67%|██████▋   | 249644/371472 [8:49:11<9:16:51,  3.65it/s] 67%|██████▋   | 249645/371472 [8:49:11<9:05:55,  3.72it/s] 67%|██████▋   | 249646/371472 [8:49:11<9:10:46,  3.69it/s] 67%|██████▋   | 249647/371472 [8:49:12<8:48:15,  3.84it/s] 67%|██████▋   | 249648/371472 [8:49:12<8:59:54,  3.76it/s] 67%|██████▋   | 249649/371472 [8:49:12<9:04:45,  3.73it/s] 67%|██████▋   | 249650/371472 [8:49:13<9:05:11,  3.72it/s] 67%|██████▋   | 249651/371472 [8:49:13<8:45:03,  3.87it/s] 67%|██████▋   | 249652/371472 [8:49:13<8:39:04,  3.91it/s] 67%|██████▋   | 249653/371472 [8:49:13<8:44:19,  3.87it/s] 67%|██████▋   | 249654/371472 [8:49:14<9:16:43,  3.65it/s] 67%|██████▋   | 249655/371472 [8:49:14<9:03:24,  3.74it/s] 67%|██████▋   | 249656/371472 [8:49:14<8:51:23,  3.82it/s] 67%|██████▋   | 249657/371472 [8:49:14<8:45:16,  3.87it/s] 67%|██████▋   | 249658/371472 [8:49:15<9:58:56,  3.39it/s] 67%|██████▋   | 249659/371472 [8:49:15<9:46:28,  3.46it/s] 67%|██████▋   | 249660/371472 [8:49:15<9:21:42,  3.61it/s]                                                           {'loss': 2.7933, 'learning_rate': 3.9528431985175285e-07, 'epoch': 10.75}
 67%|██████▋   | 249660/371472 [8:49:15<9:21:42,  3.61it/s] 67%|██████▋   | 249661/371472 [8:49:15<9:24:51,  3.59it/s] 67%|██████▋   | 249662/371472 [8:49:16<9:05:30,  3.72it/s] 67%|██████▋   | 249663/371472 [8:49:16<8:57:07,  3.78it/s] 67%|██████▋   | 249664/371472 [8:49:16<9:08:37,  3.70it/s] 67%|██████▋   | 249665/371472 [8:49:17<9:44:20,  3.47it/s] 67%|██████▋   | 249666/371472 [8:49:17<9:49:27,  3.44it/s] 67%|██████▋   | 249667/371472 [8:49:17<9:22:53,  3.61it/s] 67%|██████▋   | 249668/371472 [8:49:17<9:30:09,  3.56it/s] 67%|██████▋   | 249669/371472 [8:49:18<9:16:25,  3.65it/s] 67%|██████▋   | 249670/371472 [8:49:18<9:40:49,  3.50it/s] 67%|██████▋   | 249671/371472 [8:49:18<9:35:33,  3.53it/s] 67%|██████▋   | 249672/371472 [8:49:19<9:46:21,  3.46it/s] 67%|██████▋   | 249673/371472 [8:49:19<9:32:06,  3.55it/s] 67%|██████▋   | 249674/371472 [8:49:19<9:09:41,  3.69it/s] 67%|██████▋   | 249675/371472 [8:49:19<9:01:29,  3.75it/s] 67%|██████▋   | 249676/371472 [8:49:20<9:09:46,  3.69it/s] 67%|██████▋   | 249677/371472 [8:49:20<9:04:30,  3.73it/s] 67%|██████▋   | 249678/371472 [8:49:20<9:08:05,  3.70it/s] 67%|██████▋   | 249679/371472 [8:49:20<9:07:53,  3.70it/s] 67%|██████▋   | 249680/371472 [8:49:21<9:07:04,  3.71it/s]                                                           {'loss': 2.9048, 'learning_rate': 3.952358378762739e-07, 'epoch': 10.75}
 67%|██████▋   | 249680/371472 [8:49:21<9:07:04,  3.71it/s] 67%|██████▋   | 249681/371472 [8:49:21<9:08:11,  3.70it/s] 67%|██████▋   | 249682/371472 [8:49:21<8:57:43,  3.77it/s] 67%|██████▋   | 249683/371472 [8:49:21<8:42:37,  3.88it/s] 67%|██████▋   | 249684/371472 [8:49:22<8:57:23,  3.78it/s] 67%|██████▋   | 249685/371472 [8:49:22<9:23:33,  3.60it/s] 67%|██████▋   | 249686/371472 [8:49:22<9:37:46,  3.51it/s] 67%|██████▋   | 249687/371472 [8:49:23<9:36:59,  3.52it/s] 67%|██████▋   | 249688/371472 [8:49:23<9:03:07,  3.74it/s] 67%|██████▋   | 249689/371472 [8:49:23<9:08:21,  3.70it/s] 67%|██████▋   | 249690/371472 [8:49:23<9:03:55,  3.73it/s] 67%|██████▋   | 249691/371472 [8:49:24<9:05:45,  3.72it/s] 67%|██████▋   | 249692/371472 [8:49:24<9:11:29,  3.68it/s] 67%|██████▋   | 249693/371472 [8:49:24<9:09:52,  3.69it/s] 67%|██████▋   | 249694/371472 [8:49:24<8:57:49,  3.77it/s] 67%|██████▋   | 249695/371472 [8:49:25<8:58:48,  3.77it/s] 67%|██████▋   | 249696/371472 [8:49:25<8:59:07,  3.76it/s] 67%|██████▋   | 249697/371472 [8:49:25<9:03:12,  3.74it/s] 67%|██████▋   | 249698/371472 [8:49:26<8:49:36,  3.83it/s] 67%|██████▋   | 249699/371472 [8:49:26<9:07:05,  3.71it/s] 67%|██████▋   | 249700/371472 [8:49:26<9:06:39,  3.71it/s]                                                           {'loss': 3.0998, 'learning_rate': 3.951873559007951e-07, 'epoch': 10.76}
 67%|██████▋   | 249700/371472 [8:49:26<9:06:39,  3.71it/s] 67%|██████▋   | 249701/371472 [8:49:26<9:08:11,  3.70it/s] 67%|██████▋   | 249702/371472 [8:49:27<8:57:15,  3.78it/s] 67%|██████▋   | 249703/371472 [8:49:27<9:16:51,  3.64it/s] 67%|██████▋   | 249704/371472 [8:49:27<9:08:14,  3.70it/s] 67%|██████▋   | 249705/371472 [8:49:27<9:14:33,  3.66it/s] 67%|██████▋   | 249706/371472 [8:49:28<8:55:14,  3.79it/s] 67%|██████▋   | 249707/371472 [8:49:28<9:02:34,  3.74it/s] 67%|██████▋   | 249708/371472 [8:49:28<8:59:55,  3.76it/s] 67%|██████▋   | 249709/371472 [8:49:28<8:52:16,  3.81it/s] 67%|██████▋   | 249710/371472 [8:49:29<8:51:39,  3.82it/s] 67%|██████▋   | 249711/371472 [8:49:29<8:45:59,  3.86it/s] 67%|██████▋   | 249712/371472 [8:49:29<8:40:45,  3.90it/s] 67%|██████▋   | 249713/371472 [8:49:30<8:29:48,  3.98it/s] 67%|██████▋   | 249714/371472 [8:49:30<8:36:35,  3.93it/s] 67%|██████▋   | 249715/371472 [8:49:30<8:38:00,  3.92it/s] 67%|██████▋   | 249716/371472 [8:49:30<8:47:51,  3.84it/s] 67%|██████▋   | 249717/371472 [8:49:31<9:39:48,  3.50it/s] 67%|██████▋   | 249718/371472 [8:49:31<9:44:58,  3.47it/s] 67%|██████▋   | 249719/371472 [8:49:31<9:45:13,  3.47it/s] 67%|██████▋   | 249720/371472 [8:49:31<9:23:27,  3.60it/s]                                                           {'loss': 2.7288, 'learning_rate': 3.951388739253162e-07, 'epoch': 10.76}
 67%|██████▋   | 249720/371472 [8:49:31<9:23:27,  3.60it/s] 67%|██████▋   | 249721/371472 [8:49:32<9:56:30,  3.40it/s] 67%|██████▋   | 249722/371472 [8:49:32<9:57:41,  3.40it/s] 67%|██████▋   | 249723/371472 [8:49:32<9:49:08,  3.44it/s] 67%|██████▋   | 249724/371472 [8:49:33<9:42:04,  3.49it/s] 67%|██████▋   | 249725/371472 [8:49:33<9:21:37,  3.61it/s] 67%|██████▋   | 249726/371472 [8:49:33<9:10:48,  3.68it/s] 67%|██████▋   | 249727/371472 [8:49:33<9:33:17,  3.54it/s] 67%|██████▋   | 249728/371472 [8:49:34<9:05:17,  3.72it/s] 67%|██████▋   | 249729/371472 [8:49:34<9:13:25,  3.67it/s] 67%|██████▋   | 249730/371472 [8:49:34<9:21:09,  3.62it/s] 67%|██████▋   | 249731/371472 [8:49:35<8:52:25,  3.81it/s] 67%|██████▋   | 249732/371472 [8:49:35<9:03:09,  3.74it/s] 67%|██████▋   | 249733/371472 [8:49:35<8:55:05,  3.79it/s] 67%|██████▋   | 249734/371472 [8:49:35<9:39:09,  3.50it/s] 67%|██████▋   | 249735/371472 [8:49:36<9:31:43,  3.55it/s] 67%|██████▋   | 249736/371472 [8:49:36<9:22:41,  3.61it/s] 67%|██████▋   | 249737/371472 [8:49:36<9:03:17,  3.73it/s] 67%|██████▋   | 249738/371472 [8:49:36<9:00:27,  3.75it/s] 67%|██████▋   | 249739/371472 [8:49:37<9:30:42,  3.55it/s] 67%|██████▋   | 249740/371472 [8:49:37<9:12:54,  3.67it/s]                                                           {'loss': 2.8761, 'learning_rate': 3.950903919498373e-07, 'epoch': 10.76}
 67%|██████▋   | 249740/371472 [8:49:37<9:12:54,  3.67it/s] 67%|██████▋   | 249741/371472 [8:49:37<9:29:22,  3.56it/s] 67%|██████▋   | 249742/371472 [8:49:38<9:31:05,  3.55it/s] 67%|██████▋   | 249743/371472 [8:49:38<9:12:55,  3.67it/s] 67%|██████▋   | 249744/371472 [8:49:38<9:31:16,  3.55it/s] 67%|██████▋   | 249745/371472 [8:49:38<9:22:02,  3.61it/s] 67%|██████▋   | 249746/371472 [8:49:39<10:53:31,  3.10it/s] 67%|██████▋   | 249747/371472 [8:49:39<11:05:48,  3.05it/s] 67%|██████▋   | 249748/371472 [8:49:39<10:29:33,  3.22it/s] 67%|██████▋   | 249749/371472 [8:49:40<10:13:36,  3.31it/s] 67%|██████▋   | 249750/371472 [8:49:40<9:43:24,  3.48it/s]  67%|██████▋   | 249751/371472 [8:49:40<9:19:56,  3.62it/s] 67%|██████▋   | 249752/371472 [8:49:40<8:54:03,  3.80it/s] 67%|██████▋   | 249753/371472 [8:49:41<8:46:30,  3.85it/s] 67%|██████▋   | 249754/371472 [8:49:41<8:37:12,  3.92it/s] 67%|██████▋   | 249755/371472 [8:49:41<9:16:08,  3.65it/s] 67%|██████▋   | 249756/371472 [8:49:42<8:53:51,  3.80it/s] 67%|██████▋   | 249757/371472 [8:49:42<8:33:56,  3.95it/s] 67%|██████▋   | 249758/371472 [8:49:42<8:39:19,  3.91it/s] 67%|██████▋   | 249759/371472 [8:49:42<9:05:23,  3.72it/s] 67%|██████▋   | 249760/371472 [8:49:43<9:05:53,  3.72it/s]                                                           {'loss': 2.8132, 'learning_rate': 3.9504190997435837e-07, 'epoch': 10.76}
 67%|██████▋   | 249760/371472 [8:49:43<9:05:53,  3.72it/s] 67%|██████▋   | 249761/371472 [8:49:43<8:54:39,  3.79it/s] 67%|██████▋   | 249762/371472 [8:49:43<9:17:18,  3.64it/s] 67%|██████▋   | 249763/371472 [8:49:43<9:05:36,  3.72it/s] 67%|██████▋   | 249764/371472 [8:49:44<9:24:41,  3.59it/s] 67%|██████▋   | 249765/371472 [8:49:44<10:01:07,  3.37it/s] 67%|██████▋   | 249766/371472 [8:49:44<10:23:01,  3.26it/s] 67%|██████▋   | 249767/371472 [8:49:45<10:07:05,  3.34it/s] 67%|██████▋   | 249768/371472 [8:49:45<10:08:44,  3.33it/s] 67%|██████▋   | 249769/371472 [8:49:45<9:59:49,  3.38it/s]  67%|██████▋   | 249770/371472 [8:49:45<9:27:19,  3.58it/s] 67%|██████▋   | 249771/371472 [8:49:46<9:04:47,  3.72it/s] 67%|██████▋   | 249772/371472 [8:49:46<9:03:07,  3.73it/s] 67%|██████▋   | 249773/371472 [8:49:46<9:56:07,  3.40it/s] 67%|██████▋   | 249774/371472 [8:49:47<9:32:48,  3.54it/s] 67%|██████▋   | 249775/371472 [8:49:47<9:13:00,  3.67it/s] 67%|██████▋   | 249776/371472 [8:49:47<9:17:33,  3.64it/s] 67%|██████▋   | 249777/371472 [8:49:47<8:54:54,  3.79it/s] 67%|██████▋   | 249778/371472 [8:49:48<9:05:39,  3.72it/s] 67%|██████▋   | 249779/371472 [8:49:48<9:34:04,  3.53it/s] 67%|██████▋   | 249780/371472 [8:49:48<9:19:31,  3.62it/s]                                                           {'loss': 2.9514, 'learning_rate': 3.9499342799887955e-07, 'epoch': 10.76}
 67%|██████▋   | 249780/371472 [8:49:48<9:19:31,  3.62it/s] 67%|██████▋   | 249781/371472 [8:49:49<9:36:06,  3.52it/s] 67%|██████▋   | 249782/371472 [8:49:49<9:23:06,  3.60it/s] 67%|██████▋   | 249783/371472 [8:49:49<9:40:19,  3.49it/s] 67%|██████▋   | 249784/371472 [8:49:49<9:16:59,  3.64it/s] 67%|██████▋   | 249785/371472 [8:49:50<9:46:20,  3.46it/s] 67%|██████▋   | 249786/371472 [8:49:50<10:06:26,  3.34it/s] 67%|██████▋   | 249787/371472 [8:49:50<9:36:58,  3.51it/s]  67%|██████▋   | 249788/371472 [8:49:50<9:24:34,  3.59it/s] 67%|██████▋   | 249789/371472 [8:49:51<9:41:42,  3.49it/s] 67%|██████▋   | 249790/371472 [8:49:51<9:36:19,  3.52it/s] 67%|██████▋   | 249791/371472 [8:49:51<9:28:19,  3.57it/s] 67%|██████▋   | 249792/371472 [8:49:52<10:13:42,  3.30it/s] 67%|██████▋   | 249793/371472 [8:49:52<10:01:46,  3.37it/s] 67%|██████▋   | 249794/371472 [8:49:52<9:44:44,  3.47it/s]  67%|██████▋   | 249795/371472 [8:49:53<9:29:48,  3.56it/s] 67%|██████▋   | 249796/371472 [8:49:53<10:09:42,  3.33it/s] 67%|██████▋   | 249797/371472 [8:49:53<9:33:52,  3.53it/s]  67%|██████▋   | 249798/371472 [8:49:53<9:04:57,  3.72it/s] 67%|██████▋   | 249799/371472 [8:49:54<8:51:34,  3.81it/s] 67%|██████▋   | 249800/371472 [8:49:54<8:50:41,  3.82it/s]                                                           {'loss': 2.7965, 'learning_rate': 3.9494494602340057e-07, 'epoch': 10.76}
 67%|██████▋   | 249800/371472 [8:49:54<8:50:41,  3.82it/s] 67%|██████▋   | 249801/371472 [8:49:54<9:33:15,  3.54it/s] 67%|██████▋   | 249802/371472 [8:49:54<9:39:52,  3.50it/s] 67%|██████▋   | 249803/371472 [8:49:55<9:28:06,  3.57it/s] 67%|██████▋   | 249804/371472 [8:49:55<9:04:43,  3.72it/s] 67%|██████▋   | 249805/371472 [8:49:55<9:38:07,  3.51it/s] 67%|██████▋   | 249806/371472 [8:49:56<9:26:25,  3.58it/s] 67%|██████▋   | 249807/371472 [8:49:56<9:26:56,  3.58it/s] 67%|██████▋   | 249808/371472 [8:49:56<9:15:23,  3.65it/s] 67%|██████▋   | 249809/371472 [8:49:56<9:12:51,  3.67it/s] 67%|██████▋   | 249810/371472 [8:49:57<9:30:15,  3.56it/s] 67%|██████▋   | 249811/371472 [8:49:57<9:55:11,  3.41it/s] 67%|██████▋   | 249812/371472 [8:49:57<9:26:46,  3.58it/s] 67%|██████▋   | 249813/371472 [8:49:57<9:07:39,  3.70it/s] 67%|██████▋   | 249814/371472 [8:49:58<9:30:11,  3.56it/s] 67%|██████▋   | 249815/371472 [8:49:58<9:21:24,  3.61it/s] 67%|██████▋   | 249816/371472 [8:49:58<9:23:51,  3.60it/s] 67%|██████▋   | 249817/371472 [8:49:59<9:46:20,  3.46it/s] 67%|██████▋   | 249818/371472 [8:49:59<9:50:17,  3.43it/s] 67%|██████▋   | 249819/371472 [8:49:59<10:14:32,  3.30it/s] 67%|██████▋   | 249820/371472 [8:50:00<9:46:40,  3.46it/s]                                                            {'loss': 2.9526, 'learning_rate': 3.9489646404792174e-07, 'epoch': 10.76}
 67%|██████▋   | 249820/371472 [8:50:00<9:46:40,  3.46it/s] 67%|██████▋   | 249821/371472 [8:50:00<9:30:30,  3.55it/s] 67%|██████▋   | 249822/371472 [8:50:00<9:06:29,  3.71it/s] 67%|██████▋   | 249823/371472 [8:50:00<9:37:22,  3.51it/s] 67%|██████▋   | 249824/371472 [8:50:01<9:26:07,  3.58it/s] 67%|██████▋   | 249825/371472 [8:50:01<9:22:40,  3.60it/s] 67%|██████▋   | 249826/371472 [8:50:01<9:42:48,  3.48it/s] 67%|██████▋   | 249827/371472 [8:50:02<10:04:10,  3.36it/s] 67%|██████▋   | 249828/371472 [8:50:02<9:41:39,  3.49it/s]  67%|██████▋   | 249829/371472 [8:50:02<9:39:54,  3.50it/s] 67%|██████▋   | 249830/371472 [8:50:02<9:32:02,  3.54it/s] 67%|██████▋   | 249831/371472 [8:50:03<9:52:58,  3.42it/s] 67%|██████▋   | 249832/371472 [8:50:03<9:27:44,  3.57it/s] 67%|██████▋   | 249833/371472 [8:50:03<9:24:04,  3.59it/s] 67%|██████▋   | 249834/371472 [8:50:03<9:24:04,  3.59it/s] 67%|██████▋   | 249835/371472 [8:50:04<9:06:26,  3.71it/s] 67%|██████▋   | 249836/371472 [8:50:04<9:03:09,  3.73it/s] 67%|██████▋   | 249837/371472 [8:50:04<8:59:02,  3.76it/s] 67%|██████▋   | 249838/371472 [8:50:05<9:00:30,  3.75it/s] 67%|██████▋   | 249839/371472 [8:50:05<9:43:41,  3.47it/s] 67%|██████▋   | 249840/371472 [8:50:05<9:44:10,  3.47it/s]                                                           {'loss': 2.7673, 'learning_rate': 3.948479820724428e-07, 'epoch': 10.76}
 67%|██████▋   | 249840/371472 [8:50:05<9:44:10,  3.47it/s] 67%|██████▋   | 249841/371472 [8:50:05<9:43:27,  3.47it/s] 67%|██████▋   | 249842/371472 [8:50:06<9:47:41,  3.45it/s] 67%|██████▋   | 249843/371472 [8:50:06<9:45:21,  3.46it/s] 67%|██████▋   | 249844/371472 [8:50:06<9:57:48,  3.39it/s] 67%|██████▋   | 249845/371472 [8:50:07<9:54:50,  3.41it/s] 67%|██████▋   | 249846/371472 [8:50:07<9:52:45,  3.42it/s] 67%|██████▋   | 249847/371472 [8:50:07<9:28:27,  3.57it/s] 67%|██████▋   | 249848/371472 [8:50:07<9:39:17,  3.50it/s] 67%|██████▋   | 249849/371472 [8:50:08<10:01:58,  3.37it/s] 67%|██████▋   | 249850/371472 [8:50:08<9:46:03,  3.46it/s]  67%|██████▋   | 249851/371472 [8:50:08<9:37:04,  3.51it/s] 67%|██████▋   | 249852/371472 [8:50:09<9:27:09,  3.57it/s] 67%|██████▋   | 249853/371472 [8:50:09<9:07:23,  3.70it/s] 67%|██████▋   | 249854/371472 [8:50:09<9:12:11,  3.67it/s] 67%|██████▋   | 249855/371472 [8:50:09<9:13:01,  3.67it/s] 67%|██████▋   | 249856/371472 [8:50:10<9:11:13,  3.68it/s] 67%|██████▋   | 249857/371472 [8:50:10<9:17:20,  3.64it/s] 67%|██████▋   | 249858/371472 [8:50:10<9:05:23,  3.72it/s] 67%|██████▋   | 249859/371472 [8:50:10<8:54:11,  3.79it/s] 67%|██████▋   | 249860/371472 [8:50:11<8:43:55,  3.87it/s]                                                           {'loss': 2.8793, 'learning_rate': 3.9479950009696394e-07, 'epoch': 10.76}
 67%|██████▋   | 249860/371472 [8:50:11<8:43:55,  3.87it/s] 67%|██████▋   | 249861/371472 [8:50:11<8:41:54,  3.88it/s] 67%|██████▋   | 249862/371472 [8:50:11<8:52:14,  3.81it/s] 67%|██████▋   | 249863/371472 [8:50:11<8:42:48,  3.88it/s] 67%|██████▋   | 249864/371472 [8:50:12<8:34:59,  3.94it/s] 67%|██████▋   | 249865/371472 [8:50:12<9:00:15,  3.75it/s] 67%|██████▋   | 249866/371472 [8:50:12<9:02:39,  3.73it/s] 67%|██████▋   | 249867/371472 [8:50:13<9:21:20,  3.61it/s] 67%|██████▋   | 249868/371472 [8:50:13<9:27:42,  3.57it/s] 67%|██████▋   | 249869/371472 [8:50:13<8:57:54,  3.77it/s] 67%|██████▋   | 249870/371472 [8:50:13<8:48:56,  3.83it/s] 67%|██████▋   | 249871/371472 [8:50:14<8:43:01,  3.87it/s] 67%|██████▋   | 249872/371472 [8:50:14<8:38:09,  3.91it/s] 67%|██████▋   | 249873/371472 [8:50:14<9:18:31,  3.63it/s] 67%|██████▋   | 249874/371472 [8:50:15<9:48:52,  3.44it/s] 67%|██████▋   | 249875/371472 [8:50:15<9:26:29,  3.58it/s] 67%|██████▋   | 249876/371472 [8:50:15<9:21:08,  3.61it/s] 67%|██████▋   | 249877/371472 [8:50:15<9:56:58,  3.39it/s] 67%|██████▋   | 249878/371472 [8:50:16<9:53:09,  3.42it/s] 67%|██████▋   | 249879/371472 [8:50:16<9:31:27,  3.55it/s] 67%|██████▋   | 249880/371472 [8:50:16<9:28:04,  3.57it/s]                                                           {'loss': 2.8122, 'learning_rate': 3.94751018121485e-07, 'epoch': 10.76}
 67%|██████▋   | 249880/371472 [8:50:16<9:28:04,  3.57it/s] 67%|██████▋   | 249881/371472 [8:50:16<9:23:22,  3.60it/s] 67%|██████▋   | 249882/371472 [8:50:17<9:05:07,  3.72it/s] 67%|██████▋   | 249883/371472 [8:50:17<10:21:23,  3.26it/s] 67%|██████▋   | 249884/371472 [8:50:17<10:03:32,  3.36it/s] 67%|██████▋   | 249885/371472 [8:50:18<9:43:11,  3.47it/s]  67%|██████▋   | 249886/371472 [8:50:18<9:22:51,  3.60it/s] 67%|██████▋   | 249887/371472 [8:50:18<9:15:50,  3.65it/s] 67%|██████▋   | 249888/371472 [8:50:18<9:33:47,  3.53it/s] 67%|██████▋   | 249889/371472 [8:50:19<9:17:49,  3.63it/s] 67%|██████▋   | 249890/371472 [8:50:19<9:14:07,  3.66it/s] 67%|██████▋   | 249891/371472 [8:50:19<9:37:16,  3.51it/s] 67%|██████▋   | 249892/371472 [8:50:20<9:35:26,  3.52it/s] 67%|██████▋   | 249893/371472 [8:50:20<9:50:44,  3.43it/s] 67%|██████▋   | 249894/371472 [8:50:20<9:22:28,  3.60it/s] 67%|██████▋   | 249895/371472 [8:50:20<8:52:35,  3.80it/s] 67%|██████▋   | 249896/371472 [8:50:21<8:58:45,  3.76it/s] 67%|██████▋   | 249897/371472 [8:50:21<8:43:15,  3.87it/s] 67%|██████▋   | 249898/371472 [8:50:21<8:48:50,  3.83it/s] 67%|██████▋   | 249899/371472 [8:50:21<9:14:59,  3.65it/s] 67%|██████▋   | 249900/371472 [8:50:22<8:57:29,  3.77it/s]                                                           {'loss': 2.752, 'learning_rate': 3.947025361460062e-07, 'epoch': 10.76}
 67%|██████▋   | 249900/371472 [8:50:22<8:57:29,  3.77it/s] 67%|██████▋   | 249901/371472 [8:50:22<8:53:21,  3.80it/s] 67%|██████▋   | 249902/371472 [8:50:22<9:03:55,  3.73it/s] 67%|██████▋   | 249903/371472 [8:50:22<8:50:32,  3.82it/s] 67%|██████▋   | 249904/371472 [8:50:23<9:00:55,  3.75it/s] 67%|██████▋   | 249905/371472 [8:50:23<9:17:08,  3.64it/s] 67%|██████▋   | 249906/371472 [8:50:23<9:21:43,  3.61it/s] 67%|██████▋   | 249907/371472 [8:50:24<9:27:37,  3.57it/s] 67%|██████▋   | 249908/371472 [8:50:24<9:44:45,  3.46it/s] 67%|██████▋   | 249909/371472 [8:50:24<9:26:53,  3.57it/s] 67%|██████▋   | 249910/371472 [8:50:25<10:04:45,  3.35it/s] 67%|██████▋   | 249911/371472 [8:50:25<9:42:26,  3.48it/s]  67%|██████▋   | 249912/371472 [8:50:25<9:50:28,  3.43it/s] 67%|██████▋   | 249913/371472 [8:50:25<9:33:41,  3.53it/s] 67%|██████▋   | 249914/371472 [8:50:26<9:16:52,  3.64it/s] 67%|██████▋   | 249915/371472 [8:50:26<9:10:57,  3.68it/s] 67%|██████▋   | 249916/371472 [8:50:26<9:17:18,  3.64it/s] 67%|██████▋   | 249917/371472 [8:50:26<9:03:32,  3.73it/s] 67%|██████▋   | 249918/371472 [8:50:27<8:56:03,  3.78it/s] 67%|██████▋   | 249919/371472 [8:50:27<9:52:37,  3.42it/s] 67%|██████▋   | 249920/371472 [8:50:27<9:43:27,  3.47it/s]                                                           {'loss': 2.7637, 'learning_rate': 3.946540541705272e-07, 'epoch': 10.76}
 67%|██████▋   | 249920/371472 [8:50:27<9:43:27,  3.47it/s] 67%|██████▋   | 249921/371472 [8:50:28<11:13:29,  3.01it/s] 67%|██████▋   | 249922/371472 [8:50:28<10:52:16,  3.11it/s] 67%|██████▋   | 249923/371472 [8:50:28<10:21:39,  3.26it/s] 67%|██████▋   | 249924/371472 [8:50:29<9:44:56,  3.46it/s]  67%|██████▋   | 249925/371472 [8:50:29<10:05:35,  3.35it/s] 67%|██████▋   | 249926/371472 [8:50:29<10:03:16,  3.36it/s] 67%|██████▋   | 249927/371472 [8:50:29<10:00:47,  3.37it/s] 67%|██████▋   | 249928/371472 [8:50:30<9:24:12,  3.59it/s]  67%|██████▋   | 249929/371472 [8:50:30<9:52:48,  3.42it/s] 67%|██████▋   | 249930/371472 [8:50:30<10:17:23,  3.28it/s] 67%|██████▋   | 249931/371472 [8:50:31<9:50:07,  3.43it/s]  67%|██████▋   | 249932/371472 [8:50:31<9:23:01,  3.60it/s] 67%|██████▋   | 249933/371472 [8:50:31<9:13:57,  3.66it/s] 67%|██████▋   | 249934/371472 [8:50:32<10:16:19,  3.29it/s] 67%|██████▋   | 249935/371472 [8:50:32<9:55:10,  3.40it/s]  67%|██████▋   | 249936/371472 [8:50:32<9:24:51,  3.59it/s] 67%|██████▋   | 249937/371472 [8:50:32<9:05:18,  3.71it/s] 67%|██████▋   | 249938/371472 [8:50:33<9:59:45,  3.38it/s] 67%|██████▋   | 249939/371472 [8:50:33<9:24:55,  3.59it/s] 67%|██████▋   | 249940/371472 [8:50:33<9:03:24,  3.73it/s]                                                           {'loss': 2.8339, 'learning_rate': 3.946055721950484e-07, 'epoch': 10.77}
 67%|██████▋   | 249940/371472 [8:50:33<9:03:24,  3.73it/s] 67%|██████▋   | 249941/371472 [8:50:33<8:57:33,  3.77it/s] 67%|██████▋   | 249942/371472 [8:50:34<8:49:32,  3.82it/s] 67%|██████▋   | 249943/371472 [8:50:34<8:54:34,  3.79it/s] 67%|██████▋   | 249944/371472 [8:50:34<8:47:21,  3.84it/s] 67%|██████▋   | 249945/371472 [8:50:34<8:51:55,  3.81it/s] 67%|██████▋   | 249946/371472 [8:50:35<8:52:49,  3.80it/s] 67%|██████▋   | 249947/371472 [8:50:35<8:58:23,  3.76it/s] 67%|██████▋   | 249948/371472 [8:50:35<9:30:10,  3.55it/s] 67%|██████▋   | 249949/371472 [8:50:36<9:32:06,  3.54it/s] 67%|██████▋   | 249950/371472 [8:50:36<9:58:14,  3.39it/s] 67%|██████▋   | 249951/371472 [8:50:36<10:08:25,  3.33it/s] 67%|██████▋   | 249952/371472 [8:50:36<9:45:11,  3.46it/s]  67%|██████▋   | 249953/371472 [8:50:37<9:46:21,  3.45it/s] 67%|██████▋   | 249954/371472 [8:50:37<10:14:20,  3.30it/s] 67%|██████▋   | 249955/371472 [8:50:37<9:50:51,  3.43it/s]  67%|██████▋   | 249956/371472 [8:50:38<9:18:00,  3.63it/s] 67%|██████▋   | 249957/371472 [8:50:38<9:28:57,  3.56it/s] 67%|██████▋   | 249958/371472 [8:50:38<9:38:24,  3.50it/s] 67%|██████▋   | 249959/371472 [8:50:38<9:08:51,  3.69it/s] 67%|██████▋   | 249960/371472 [8:50:39<9:10:26,  3.68it/s]                                                           {'loss': 2.724, 'learning_rate': 3.9455709021956946e-07, 'epoch': 10.77}
 67%|██████▋   | 249960/371472 [8:50:39<9:10:26,  3.68it/s] 67%|██████▋   | 249961/371472 [8:50:39<9:00:35,  3.75it/s] 67%|██████▋   | 249962/371472 [8:50:39<9:04:11,  3.72it/s] 67%|██████▋   | 249963/371472 [8:50:40<9:31:13,  3.55it/s] 67%|██████▋   | 249964/371472 [8:50:40<9:09:50,  3.68it/s] 67%|██████▋   | 249965/371472 [8:50:40<9:35:23,  3.52it/s] 67%|██████▋   | 249966/371472 [8:50:40<9:10:25,  3.68it/s] 67%|██████▋   | 249967/371472 [8:50:41<9:27:23,  3.57it/s] 67%|██████▋   | 249968/371472 [8:50:41<9:50:41,  3.43it/s] 67%|██████▋   | 249969/371472 [8:50:41<9:59:29,  3.38it/s] 67%|██████▋   | 249970/371472 [8:50:42<9:36:33,  3.51it/s] 67%|██████▋   | 249971/371472 [8:50:42<10:07:29,  3.33it/s] 67%|██████▋   | 249972/371472 [8:50:42<10:03:26,  3.36it/s] 67%|██████▋   | 249973/371472 [8:50:42<9:40:38,  3.49it/s]  67%|██████▋   | 249974/371472 [8:50:43<10:04:14,  3.35it/s] 67%|██████▋   | 249975/371472 [8:50:43<10:25:23,  3.24it/s] 67%|██████▋   | 249976/371472 [8:50:43<10:16:28,  3.28it/s] 67%|██████▋   | 249977/371472 [8:50:44<9:49:20,  3.44it/s]  67%|██████▋   | 249978/371472 [8:50:44<9:52:14,  3.42it/s] 67%|██████▋   | 249979/371472 [8:50:44<9:36:37,  3.51it/s] 67%|██████▋   | 249980/371472 [8:50:44<9:21:53,  3.60it/s]                                                           {'loss': 2.8425, 'learning_rate': 3.945086082440906e-07, 'epoch': 10.77}
 67%|██████▋   | 249980/371472 [8:50:44<9:21:53,  3.60it/s] 67%|██████▋   | 249981/371472 [8:50:45<9:18:20,  3.63it/s] 67%|██████▋   | 249982/371472 [8:50:45<9:03:56,  3.72it/s] 67%|██████▋   | 249983/371472 [8:50:45<9:29:30,  3.56it/s] 67%|██████▋   | 249984/371472 [8:50:46<9:15:05,  3.65it/s] 67%|██████▋   | 249985/371472 [8:50:46<9:04:39,  3.72it/s] 67%|██████▋   | 249986/371472 [8:50:46<9:19:15,  3.62it/s] 67%|██████▋   | 249987/371472 [8:50:46<9:24:15,  3.59it/s] 67%|██████▋   | 249988/371472 [8:50:47<9:07:12,  3.70it/s] 67%|██████▋   | 249989/371472 [8:50:47<9:31:33,  3.54it/s] 67%|██████▋   | 249990/371472 [8:50:47<9:22:30,  3.60it/s] 67%|██████▋   | 249991/371472 [8:50:47<8:58:16,  3.76it/s] 67%|██████▋   | 249992/371472 [8:50:48<9:04:29,  3.72it/s] 67%|██████▋   | 249993/371472 [8:50:48<8:52:31,  3.80it/s] 67%|██████▋   | 249994/371472 [8:50:48<8:40:38,  3.89it/s] 67%|██████▋   | 249995/371472 [8:50:48<8:33:58,  3.94it/s] 67%|██████▋   | 249996/371472 [8:50:49<8:44:05,  3.86it/s] 67%|██████▋   | 249997/371472 [8:50:49<8:33:41,  3.94it/s] 67%|██████▋   | 249998/371472 [8:50:49<9:18:51,  3.62it/s] 67%|██████▋   | 249999/371472 [8:50:50<9:23:53,  3.59it/s] 67%|██████▋   | 250000/371472 [8:50:50<9:18:45,  3.62it/s]                                                           {'loss': 2.7479, 'learning_rate': 3.9446012626861165e-07, 'epoch': 10.77}
 67%|██████▋   | 250000/371472 [8:50:50<9:18:45,  3.62it/s] 67%|██████▋   | 250001/371472 [8:50:50<9:04:56,  3.72it/s] 67%|██████▋   | 250002/371472 [8:50:50<9:50:23,  3.43it/s] 67%|██████▋   | 250003/371472 [8:50:51<9:21:17,  3.61it/s] 67%|██████▋   | 250004/371472 [8:50:51<9:23:57,  3.59it/s] 67%|██████▋   | 250005/371472 [8:50:51<10:37:41,  3.17it/s] 67%|██████▋   | 250006/371472 [8:50:52<10:19:32,  3.27it/s] 67%|██████▋   | 250007/371472 [8:50:52<10:13:36,  3.30it/s] 67%|██████▋   | 250008/371472 [8:50:52<9:44:40,  3.46it/s]  67%|██████▋   | 250009/371472 [8:50:52<9:46:00,  3.45it/s] 67%|██████▋   | 250010/371472 [8:50:53<9:34:12,  3.53it/s] 67%|██████▋   | 250011/371472 [8:50:53<9:08:31,  3.69it/s] 67%|██████▋   | 250012/371472 [8:50:53<9:02:59,  3.73it/s] 67%|██████▋   | 250013/371472 [8:50:54<8:55:36,  3.78it/s] 67%|██████▋   | 250014/371472 [8:50:54<9:04:47,  3.72it/s] 67%|██████▋   | 250015/371472 [8:50:54<8:56:23,  3.77it/s] 67%|██████▋   | 250016/371472 [8:50:54<9:12:57,  3.66it/s] 67%|██████▋   | 250017/371472 [8:50:55<9:16:02,  3.64it/s] 67%|██████▋   | 250018/371472 [8:50:55<9:04:54,  3.71it/s] 67%|██████▋   | 250019/371472 [8:50:55<9:27:08,  3.57it/s] 67%|██████▋   | 250020/371472 [8:50:56<10:02:34,  3.36it/s]                                                            {'loss': 2.9058, 'learning_rate': 3.9441164429313283e-07, 'epoch': 10.77}
 67%|██████▋   | 250020/371472 [8:50:56<10:02:34,  3.36it/s] 67%|██████▋   | 250021/371472 [8:50:56<9:25:13,  3.58it/s]  67%|██████▋   | 250022/371472 [8:50:56<9:13:09,  3.66it/s] 67%|██████▋   | 250023/371472 [8:50:56<9:00:08,  3.75it/s] 67%|██████▋   | 250024/371472 [8:50:57<9:29:31,  3.55it/s] 67%|██████▋   | 250025/371472 [8:50:57<9:30:01,  3.55it/s] 67%|██████▋   | 250026/371472 [8:50:57<10:41:05,  3.16it/s] 67%|██████▋   | 250027/371472 [8:50:58<10:03:52,  3.35it/s] 67%|██████▋   | 250028/371472 [8:50:58<9:28:28,  3.56it/s]  67%|██████▋   | 250029/371472 [8:50:58<9:10:13,  3.68it/s] 67%|██████▋   | 250030/371472 [8:50:58<9:07:47,  3.69it/s] 67%|██████▋   | 250031/371472 [8:50:59<8:51:52,  3.81it/s] 67%|██████▋   | 250032/371472 [8:50:59<8:58:35,  3.76it/s] 67%|██████▋   | 250033/371472 [8:50:59<9:23:56,  3.59it/s] 67%|██████▋   | 250034/371472 [8:50:59<9:36:56,  3.51it/s] 67%|██████▋   | 250035/371472 [8:51:00<9:50:33,  3.43it/s] 67%|██████▋   | 250036/371472 [8:51:00<9:47:52,  3.44it/s] 67%|██████▋   | 250037/371472 [8:51:00<9:22:12,  3.60it/s] 67%|██████▋   | 250038/371472 [8:51:01<9:31:11,  3.54it/s] 67%|██████▋   | 250039/371472 [8:51:01<9:39:37,  3.49it/s] 67%|██████▋   | 250040/371472 [8:51:01<9:30:40,  3.55it/s]                                                           {'loss': 3.0081, 'learning_rate': 3.943631623176539e-07, 'epoch': 10.77}
 67%|██████▋   | 250040/371472 [8:51:01<9:30:40,  3.55it/s] 67%|██████▋   | 250041/371472 [8:51:01<9:12:30,  3.66it/s] 67%|██████▋   | 250042/371472 [8:51:02<8:55:17,  3.78it/s] 67%|██████▋   | 250043/371472 [8:51:02<9:28:09,  3.56it/s] 67%|██████▋   | 250044/371472 [8:51:02<9:39:51,  3.49it/s] 67%|██████▋   | 250045/371472 [8:51:03<9:51:11,  3.42it/s] 67%|██████▋   | 250046/371472 [8:51:03<9:33:39,  3.53it/s] 67%|██████▋   | 250047/371472 [8:51:03<9:19:51,  3.61it/s] 67%|██████▋   | 250048/371472 [8:51:03<9:37:11,  3.51it/s] 67%|██████▋   | 250049/371472 [8:51:04<9:19:59,  3.61it/s] 67%|██████▋   | 250050/371472 [8:51:04<9:32:05,  3.54it/s] 67%|██████▋   | 250051/371472 [8:51:04<10:13:40,  3.30it/s] 67%|██████▋   | 250052/371472 [8:51:05<10:03:29,  3.35it/s] 67%|██████▋   | 250053/371472 [8:51:05<9:35:36,  3.52it/s]  67%|██████▋   | 250054/371472 [8:51:05<9:24:29,  3.58it/s] 67%|██████▋   | 250055/371472 [8:51:05<9:05:01,  3.71it/s] 67%|██████▋   | 250056/371472 [8:51:06<9:25:47,  3.58it/s] 67%|██████▋   | 250057/371472 [8:51:06<9:03:19,  3.72it/s] 67%|██████▋   | 250058/371472 [8:51:06<9:00:03,  3.75it/s] 67%|██████▋   | 250059/371472 [8:51:06<8:59:45,  3.75it/s] 67%|██████▋   | 250060/371472 [8:51:07<8:54:06,  3.79it/s]                                                           {'loss': 2.7854, 'learning_rate': 3.94314680342175e-07, 'epoch': 10.77}
 67%|██████▋   | 250060/371472 [8:51:07<8:54:06,  3.79it/s] 67%|██████▋   | 250061/371472 [8:51:07<8:45:02,  3.85it/s] 67%|██████▋   | 250062/371472 [8:51:07<8:40:55,  3.88it/s] 67%|██████▋   | 250063/371472 [8:51:07<8:44:15,  3.86it/s] 67%|██████▋   | 250064/371472 [8:51:08<8:28:53,  3.98it/s] 67%|██████▋   | 250065/371472 [8:51:08<9:07:02,  3.70it/s] 67%|██████▋   | 250066/371472 [8:51:08<8:59:29,  3.75it/s] 67%|██████▋   | 250067/371472 [8:51:08<8:57:07,  3.77it/s] 67%|██████▋   | 250068/371472 [8:51:09<9:15:27,  3.64it/s] 67%|██████▋   | 250069/371472 [8:51:09<9:02:54,  3.73it/s] 67%|██████▋   | 250070/371472 [8:51:09<8:47:03,  3.84it/s] 67%|██████▋   | 250071/371472 [8:51:10<9:15:34,  3.64it/s] 67%|██████▋   | 250072/371472 [8:51:10<10:27:36,  3.22it/s] 67%|██████▋   | 250073/371472 [8:51:10<10:13:49,  3.30it/s] 67%|██████▋   | 250074/371472 [8:51:11<9:51:00,  3.42it/s]  67%|██████▋   | 250075/371472 [8:51:11<9:30:24,  3.55it/s] 67%|██████▋   | 250076/371472 [8:51:11<9:38:53,  3.50it/s] 67%|██████▋   | 250077/371472 [8:51:11<10:37:35,  3.17it/s] 67%|██████▋   | 250078/371472 [8:51:12<9:57:03,  3.39it/s]  67%|██████▋   | 250079/371472 [8:51:12<10:02:45,  3.36it/s] 67%|██████▋   | 250080/371472 [8:51:12<9:47:23,  3.44it/s]                                                            {'loss': 2.8686, 'learning_rate': 3.942661983666961e-07, 'epoch': 10.77}
 67%|██████▋   | 250080/371472 [8:51:12<9:47:23,  3.44it/s] 67%|██████▋   | 250081/371472 [8:51:13<10:00:52,  3.37it/s] 67%|██████▋   | 250082/371472 [8:51:13<10:21:14,  3.26it/s] 67%|██████▋   | 250083/371472 [8:51:13<9:51:24,  3.42it/s]  67%|██████▋   | 250084/371472 [8:51:14<10:02:18,  3.36it/s] 67%|██████▋   | 250085/371472 [8:51:14<10:08:45,  3.32it/s] 67%|██████▋   | 250086/371472 [8:51:14<9:49:12,  3.43it/s]  67%|██████▋   | 250087/371472 [8:51:14<9:43:01,  3.47it/s] 67%|██████▋   | 250088/371472 [8:51:15<9:48:00,  3.44it/s] 67%|██████▋   | 250089/371472 [8:51:15<9:44:02,  3.46it/s] 67%|██████▋   | 250090/371472 [8:51:15<10:08:46,  3.32it/s] 67%|██████▋   | 250091/371472 [8:51:16<9:36:33,  3.51it/s]  67%|██████▋   | 250092/371472 [8:51:16<9:10:21,  3.68it/s] 67%|██████▋   | 250093/371472 [8:51:16<9:37:08,  3.51it/s] 67%|██████▋   | 250094/371472 [8:51:16<9:18:33,  3.62it/s] 67%|██████▋   | 250095/371472 [8:51:17<9:11:49,  3.67it/s] 67%|██████▋   | 250096/371472 [8:51:17<9:24:51,  3.58it/s] 67%|██████▋   | 250097/371472 [8:51:17<9:29:25,  3.55it/s] 67%|██████▋   | 250098/371472 [8:51:17<9:25:19,  3.58it/s] 67%|██████▋   | 250099/371472 [8:51:18<9:15:19,  3.64it/s] 67%|██████▋   | 250100/371472 [8:51:18<8:55:18,  3.78it/s]                                                           {'loss': 2.7338, 'learning_rate': 3.9421771639121727e-07, 'epoch': 10.77}
 67%|██████▋   | 250100/371472 [8:51:18<8:55:18,  3.78it/s] 67%|██████▋   | 250101/371472 [8:51:18<8:47:55,  3.83it/s] 67%|██████▋   | 250102/371472 [8:51:18<8:51:09,  3.81it/s] 67%|██████▋   | 250103/371472 [8:51:19<8:50:21,  3.81it/s] 67%|██████▋   | 250104/371472 [8:51:19<8:52:01,  3.80it/s] 67%|██████▋   | 250105/371472 [8:51:19<9:20:00,  3.61it/s] 67%|██████▋   | 250106/371472 [8:51:20<10:06:24,  3.34it/s] 67%|██████▋   | 250107/371472 [8:51:20<9:54:49,  3.40it/s]  67%|██████▋   | 250108/371472 [8:51:20<9:42:04,  3.48it/s] 67%|██████▋   | 250109/371472 [8:51:21<9:57:33,  3.38it/s] 67%|██████▋   | 250110/371472 [8:51:21<9:25:01,  3.58it/s] 67%|██████▋   | 250111/371472 [8:51:21<9:51:46,  3.42it/s] 67%|██████▋   | 250112/371472 [8:51:21<10:47:41,  3.12it/s] 67%|██████▋   | 250113/371472 [8:51:22<10:18:02,  3.27it/s] 67%|██████▋   | 250114/371472 [8:51:22<9:55:28,  3.40it/s]  67%|██████▋   | 250115/371472 [8:51:22<9:28:53,  3.56it/s] 67%|██████▋   | 250116/371472 [8:51:23<9:23:52,  3.59it/s] 67%|██████▋   | 250117/371472 [8:51:23<9:01:53,  3.73it/s] 67%|██████▋   | 250118/371472 [8:51:23<9:07:58,  3.69it/s] 67%|██████▋   | 250119/371472 [8:51:23<9:47:21,  3.44it/s] 67%|██████▋   | 250120/371472 [8:51:24<9:16:02,  3.64it/s]                                                           {'loss': 2.754, 'learning_rate': 3.941692344157383e-07, 'epoch': 10.77}
 67%|██████▋   | 250120/371472 [8:51:24<9:16:02,  3.64it/s] 67%|██████▋   | 250121/371472 [8:51:24<9:01:23,  3.74it/s] 67%|██████▋   | 250122/371472 [8:51:24<8:47:14,  3.84it/s] 67%|██████▋   | 250123/371472 [8:51:24<8:43:35,  3.86it/s] 67%|██████▋   | 250124/371472 [8:51:25<8:49:20,  3.82it/s] 67%|██████▋   | 250125/371472 [8:51:25<9:28:33,  3.56it/s] 67%|██████▋   | 250126/371472 [8:51:25<9:27:47,  3.56it/s] 67%|██████▋   | 250127/371472 [8:51:26<9:27:49,  3.56it/s] 67%|██████▋   | 250128/371472 [8:51:26<9:23:04,  3.59it/s] 67%|██████▋   | 250129/371472 [8:51:26<9:20:38,  3.61it/s] 67%|██████▋   | 250130/371472 [8:51:26<9:09:14,  3.68it/s] 67%|██████▋   | 250131/371472 [8:51:27<9:09:00,  3.68it/s] 67%|██████▋   | 250132/371472 [8:51:27<9:23:14,  3.59it/s] 67%|██████▋   | 250133/371472 [8:51:27<9:02:16,  3.73it/s] 67%|██████▋   | 250134/371472 [8:51:27<9:28:51,  3.56it/s] 67%|██████▋   | 250135/371472 [8:51:28<9:39:17,  3.49it/s] 67%|██████▋   | 250136/371472 [8:51:28<9:17:34,  3.63it/s] 67%|██████▋   | 250137/371472 [8:51:28<8:49:58,  3.82it/s] 67%|██████▋   | 250138/371472 [8:51:29<9:26:21,  3.57it/s] 67%|██████▋   | 250139/371472 [8:51:29<9:01:06,  3.74it/s] 67%|██████▋   | 250140/371472 [8:51:29<9:08:32,  3.69it/s]                                                           {'loss': 2.8295, 'learning_rate': 3.941207524402595e-07, 'epoch': 10.77}
 67%|██████▋   | 250140/371472 [8:51:29<9:08:32,  3.69it/s] 67%|██████▋   | 250141/371472 [8:51:29<9:16:41,  3.63it/s] 67%|██████▋   | 250142/371472 [8:51:30<9:15:44,  3.64it/s] 67%|██████▋   | 250143/371472 [8:51:30<9:00:44,  3.74it/s] 67%|██████▋   | 250144/371472 [8:51:30<8:54:55,  3.78it/s] 67%|██████▋   | 250145/371472 [8:51:30<9:32:24,  3.53it/s] 67%|██████▋   | 250146/371472 [8:51:31<9:38:00,  3.50it/s] 67%|██████▋   | 250147/371472 [8:51:31<9:23:08,  3.59it/s] 67%|██████▋   | 250148/371472 [8:51:31<9:31:32,  3.54it/s] 67%|██████▋   | 250149/371472 [8:51:32<9:12:54,  3.66it/s] 67%|██████▋   | 250150/371472 [8:51:32<9:33:14,  3.53it/s] 67%|██████▋   | 250151/371472 [8:51:32<9:33:59,  3.52it/s] 67%|██████▋   | 250152/371472 [8:51:32<9:02:01,  3.73it/s] 67%|██████▋   | 250153/371472 [8:51:33<8:55:30,  3.78it/s] 67%|██████▋   | 250154/371472 [8:51:33<8:48:30,  3.83it/s] 67%|██████▋   | 250155/371472 [8:51:33<8:45:54,  3.84it/s] 67%|██████▋   | 250156/371472 [8:51:33<8:52:01,  3.80it/s] 67%|██████▋   | 250157/371472 [8:51:34<9:12:19,  3.66it/s] 67%|██████▋   | 250158/371472 [8:51:34<9:45:31,  3.45it/s] 67%|██████▋   | 250159/371472 [8:51:34<9:40:38,  3.48it/s] 67%|██████▋   | 250160/371472 [8:51:35<9:10:51,  3.67it/s]                                                           {'loss': 2.835, 'learning_rate': 3.9407227046478054e-07, 'epoch': 10.77}
 67%|██████▋   | 250160/371472 [8:51:35<9:10:51,  3.67it/s] 67%|██████▋   | 250161/371472 [8:51:35<8:58:50,  3.75it/s] 67%|██████▋   | 250162/371472 [8:51:35<8:47:43,  3.83it/s] 67%|██████▋   | 250163/371472 [8:51:35<10:01:04,  3.36it/s] 67%|██████▋   | 250164/371472 [8:51:36<10:12:46,  3.30it/s] 67%|██████▋   | 250165/371472 [8:51:36<9:28:57,  3.55it/s]  67%|██████▋   | 250166/371472 [8:51:36<9:45:19,  3.45it/s] 67%|██████▋   | 250167/371472 [8:51:37<9:43:25,  3.47it/s] 67%|██████▋   | 250168/371472 [8:51:37<9:43:53,  3.46it/s] 67%|██████▋   | 250169/371472 [8:51:37<9:24:54,  3.58it/s] 67%|██████▋   | 250170/371472 [8:51:37<9:53:51,  3.40it/s] 67%|██████▋   | 250171/371472 [8:51:38<9:32:50,  3.53it/s] 67%|██████▋   | 250172/371472 [8:51:38<10:31:08,  3.20it/s] 67%|██████▋   | 250173/371472 [8:51:38<10:12:46,  3.30it/s] 67%|██████▋   | 250174/371472 [8:51:39<9:44:43,  3.46it/s]  67%|██████▋   | 250175/371472 [8:51:39<9:27:08,  3.56it/s] 67%|██████▋   | 250176/371472 [8:51:39<10:32:44,  3.20it/s] 67%|██████▋   | 250177/371472 [8:51:40<10:31:32,  3.20it/s] 67%|██████▋   | 250178/371472 [8:51:40<9:54:52,  3.40it/s]  67%|██████▋   | 250179/371472 [8:51:40<9:37:51,  3.50it/s] 67%|██████▋   | 250180/371472 [8:51:40<9:52:50,  3.41it/s]                                                           {'loss': 2.6723, 'learning_rate': 3.9402378848930156e-07, 'epoch': 10.78}
 67%|██████▋   | 250180/371472 [8:51:40<9:52:50,  3.41it/s] 67%|██████▋   | 250181/371472 [8:51:41<9:23:53,  3.58it/s] 67%|██████▋   | 250182/371472 [8:51:41<9:00:35,  3.74it/s] 67%|██████▋   | 250183/371472 [8:51:41<9:34:51,  3.52it/s] 67%|██████▋   | 250184/371472 [8:51:42<9:10:23,  3.67it/s] 67%|██████▋   | 250185/371472 [8:51:42<9:17:22,  3.63it/s] 67%|██████▋   | 250186/371472 [8:51:42<9:19:27,  3.61it/s] 67%|██████▋   | 250187/371472 [8:51:42<9:13:13,  3.65it/s] 67%|██████▋   | 250188/371472 [8:51:43<9:28:06,  3.56it/s] 67%|██████▋   | 250189/371472 [8:51:43<9:21:51,  3.60it/s] 67%|██████▋   | 250190/371472 [8:51:43<9:41:43,  3.47it/s] 67%|██████▋   | 250191/371472 [8:51:43<9:20:57,  3.60it/s] 67%|██████▋   | 250192/371472 [8:51:44<9:41:54,  3.47it/s] 67%|██████▋   | 250193/371472 [8:51:44<10:37:07,  3.17it/s] 67%|██████▋   | 250194/371472 [8:51:44<9:57:52,  3.38it/s]  67%|██████▋   | 250195/371472 [8:51:45<10:02:59,  3.35it/s] 67%|██████▋   | 250196/371472 [8:51:45<9:56:39,  3.39it/s]  67%|██████▋   | 250197/371472 [8:51:45<9:40:31,  3.48it/s] 67%|██████▋   | 250198/371472 [8:51:46<9:36:41,  3.50it/s] 67%|██████▋   | 250199/371472 [8:51:46<9:43:19,  3.46it/s] 67%|██████▋   | 250200/371472 [8:51:46<10:04:07,  3.35it/s]                                                            {'loss': 2.6764, 'learning_rate': 3.9397530651382274e-07, 'epoch': 10.78}
 67%|██████▋   | 250200/371472 [8:51:46<10:04:07,  3.35it/s] 67%|██████▋   | 250201/371472 [8:51:46<9:47:26,  3.44it/s]  67%|██████▋   | 250202/371472 [8:51:47<9:53:25,  3.41it/s] 67%|██████▋   | 250203/371472 [8:51:47<10:09:36,  3.32it/s] 67%|██████▋   | 250204/371472 [8:51:47<9:53:20,  3.41it/s]  67%|██████▋   | 250205/371472 [8:51:48<9:38:00,  3.50it/s] 67%|██████▋   | 250206/371472 [8:51:48<9:12:44,  3.66it/s] 67%|██████▋   | 250207/371472 [8:51:48<9:12:16,  3.66it/s] 67%|██████▋   | 250208/371472 [8:51:48<9:01:54,  3.73it/s] 67%|██████▋   | 250209/371472 [8:51:49<9:04:04,  3.71it/s] 67%|██████▋   | 250210/371472 [8:51:49<9:45:07,  3.45it/s] 67%|██████▋   | 250211/371472 [8:51:49<10:31:42,  3.20it/s] 67%|██████▋   | 250212/371472 [8:51:50<10:14:45,  3.29it/s] 67%|██████▋   | 250213/371472 [8:51:50<11:05:24,  3.04it/s] 67%|██████▋   | 250214/371472 [8:51:50<10:42:20,  3.15it/s] 67%|██████▋   | 250215/371472 [8:51:51<9:57:31,  3.38it/s]  67%|██████▋   | 250216/371472 [8:51:51<9:21:53,  3.60it/s] 67%|██████▋   | 250217/371472 [8:51:51<8:56:22,  3.77it/s] 67%|██████▋   | 250218/371472 [8:51:51<8:59:20,  3.75it/s] 67%|██████▋   | 250219/371472 [8:51:52<9:33:41,  3.52it/s] 67%|██████▋   | 250220/371472 [8:51:52<10:19:07,  3.26it/s]                                                            {'loss': 2.7453, 'learning_rate': 3.939268245383438e-07, 'epoch': 10.78}
 67%|██████▋   | 250220/371472 [8:51:52<10:19:07,  3.26it/s] 67%|██████▋   | 250221/371472 [8:51:52<9:56:33,  3.39it/s]  67%|██████▋   | 250222/371472 [8:51:53<10:06:21,  3.33it/s] 67%|██████▋   | 250223/371472 [8:51:53<9:28:54,  3.55it/s]  67%|██████▋   | 250224/371472 [8:51:53<9:18:42,  3.62it/s] 67%|██████▋   | 250225/371472 [8:51:53<8:47:02,  3.83it/s] 67%|██████▋   | 250226/371472 [8:51:54<9:10:17,  3.67it/s] 67%|██████▋   | 250227/371472 [8:51:54<10:20:02,  3.26it/s] 67%|██████▋   | 250228/371472 [8:51:54<9:43:40,  3.46it/s]  67%|██████▋   | 250229/371472 [8:51:55<9:33:23,  3.52it/s] 67%|██████▋   | 250230/371472 [8:51:55<9:13:37,  3.65it/s] 67%|██████▋   | 250231/371472 [8:51:55<9:09:18,  3.68it/s] 67%|██████▋   | 250232/371472 [8:51:55<10:06:59,  3.33it/s] 67%|██████▋   | 250233/371472 [8:51:56<9:21:44,  3.60it/s]  67%|██████▋   | 250234/371472 [8:51:56<9:06:41,  3.70it/s] 67%|██████▋   | 250235/371472 [8:51:56<10:26:07,  3.23it/s] 67%|██████▋   | 250236/371472 [8:51:57<9:54:13,  3.40it/s]  67%|██████▋   | 250237/371472 [8:51:57<10:07:52,  3.32it/s] 67%|██████▋   | 250238/371472 [8:51:57<9:56:57,  3.38it/s]  67%|██████▋   | 250239/371472 [8:51:57<9:56:20,  3.39it/s] 67%|██████▋   | 250240/371472 [8:51:58<9:35:23,  3.51it/s]                                                           {'loss': 2.9196, 'learning_rate': 3.9387834256286493e-07, 'epoch': 10.78}
 67%|██████▋   | 250240/371472 [8:51:58<9:35:23,  3.51it/s] 67%|██████▋   | 250241/371472 [8:51:58<9:12:36,  3.66it/s] 67%|██████▋   | 250242/371472 [8:51:58<9:45:07,  3.45it/s] 67%|██████▋   | 250243/371472 [8:51:59<9:15:03,  3.64it/s] 67%|██████▋   | 250244/371472 [8:51:59<8:55:02,  3.78it/s] 67%|██████▋   | 250245/371472 [8:51:59<8:40:52,  3.88it/s] 67%|██████▋   | 250246/371472 [8:51:59<9:03:34,  3.72it/s] 67%|██████▋   | 250247/371472 [8:52:00<9:07:29,  3.69it/s] 67%|██████▋   | 250248/371472 [8:52:00<10:37:19,  3.17it/s] 67%|██████▋   | 250249/371472 [8:52:00<10:06:07,  3.33it/s] 67%|██████▋   | 250250/371472 [8:52:00<9:36:05,  3.51it/s]  67%|██████▋   | 250251/371472 [8:52:01<9:57:24,  3.38it/s] 67%|██████▋   | 250252/371472 [8:52:01<9:55:51,  3.39it/s] 67%|██████▋   | 250253/371472 [8:52:01<9:39:19,  3.49it/s] 67%|██████▋   | 250254/371472 [8:52:02<10:04:08,  3.34it/s] 67%|██████▋   | 250255/371472 [8:52:02<9:44:26,  3.46it/s]  67%|██████▋   | 250256/371472 [8:52:02<9:53:00,  3.41it/s] 67%|██████▋   | 250257/371472 [8:52:03<10:10:17,  3.31it/s] 67%|██████▋   | 250258/371472 [8:52:03<10:13:19,  3.29it/s] 67%|██████▋   | 250259/371472 [8:52:03<10:53:05,  3.09it/s] 67%|██████▋   | 250260/371472 [8:52:04<10:17:50,  3.27it/s]                                                            {'loss': 2.8888, 'learning_rate': 3.93829860587386e-07, 'epoch': 10.78}
 67%|██████▋   | 250260/371472 [8:52:04<10:17:50,  3.27it/s] 67%|██████▋   | 250261/371472 [8:52:04<10:21:24,  3.25it/s] 67%|██████▋   | 250262/371472 [8:52:04<10:01:32,  3.36it/s] 67%|██████▋   | 250263/371472 [8:52:04<9:56:14,  3.39it/s]  67%|██████▋   | 250264/371472 [8:52:05<10:20:06,  3.26it/s] 67%|██████▋   | 250265/371472 [8:52:05<10:04:02,  3.34it/s] 67%|██████▋   | 250266/371472 [8:52:05<9:25:49,  3.57it/s]  67%|██████▋   | 250267/371472 [8:52:06<9:06:27,  3.70it/s] 67%|██████▋   | 250268/371472 [8:52:06<9:23:59,  3.58it/s] 67%|██████▋   | 250269/371472 [8:52:06<9:01:10,  3.73it/s] 67%|██████▋   | 250270/371472 [8:52:06<9:33:51,  3.52it/s] 67%|██████▋   | 250271/371472 [8:52:07<9:30:18,  3.54it/s] 67%|██████▋   | 250272/371472 [8:52:07<10:02:33,  3.35it/s] 67%|██████▋   | 250273/371472 [8:52:07<9:36:08,  3.51it/s]  67%|██████▋   | 250274/371472 [8:52:08<9:25:41,  3.57it/s] 67%|██████▋   | 250275/371472 [8:52:08<9:11:23,  3.66it/s] 67%|██████▋   | 250276/371472 [8:52:08<9:28:49,  3.55it/s] 67%|██████▋   | 250277/371472 [8:52:08<8:56:59,  3.76it/s] 67%|██████▋   | 250278/371472 [8:52:09<8:57:23,  3.76it/s] 67%|██████▋   | 250279/371472 [8:52:09<9:11:13,  3.66it/s] 67%|██████▋   | 250280/371472 [8:52:09<10:11:30,  3.30it/s]                                                            {'loss': 2.8977, 'learning_rate': 3.937813786119072e-07, 'epoch': 10.78}
 67%|██████▋   | 250280/371472 [8:52:09<10:11:30,  3.30it/s] 67%|██████▋   | 250281/371472 [8:52:10<10:09:22,  3.31it/s] 67%|██████▋   | 250282/371472 [8:52:10<10:08:02,  3.32it/s] 67%|██████▋   | 250283/371472 [8:52:10<9:30:39,  3.54it/s]  67%|██████▋   | 250284/371472 [8:52:10<9:52:42,  3.41it/s] 67%|██████▋   | 250285/371472 [8:52:11<9:27:11,  3.56it/s] 67%|██████▋   | 250286/371472 [8:52:11<9:41:52,  3.47it/s] 67%|██████▋   | 250287/371472 [8:52:11<9:20:15,  3.61it/s] 67%|██████▋   | 250288/371472 [8:52:11<8:56:58,  3.76it/s] 67%|██████▋   | 250289/371472 [8:52:12<8:41:25,  3.87it/s] 67%|██████▋   | 250290/371472 [8:52:12<8:23:26,  4.01it/s] 67%|██████▋   | 250291/371472 [8:52:12<9:11:08,  3.66it/s] 67%|██████▋   | 250292/371472 [8:52:12<8:58:38,  3.75it/s] 67%|██████▋   | 250293/371472 [8:52:13<8:37:34,  3.90it/s] 67%|██████▋   | 250294/371472 [8:52:13<8:28:48,  3.97it/s] 67%|██████▋   | 250295/371472 [8:52:13<9:04:53,  3.71it/s] 67%|██████▋   | 250296/371472 [8:52:14<8:48:37,  3.82it/s] 67%|██████▋   | 250297/371472 [8:52:14<8:44:16,  3.85it/s] 67%|██████▋   | 250298/371472 [8:52:14<8:50:14,  3.81it/s] 67%|██████▋   | 250299/371472 [8:52:14<9:02:33,  3.72it/s] 67%|██████▋   | 250300/371472 [8:52:15<9:26:27,  3.57it/s]                                                           {'loss': 2.93, 'learning_rate': 3.937328966364282e-07, 'epoch': 10.78}
 67%|██████▋   | 250300/371472 [8:52:15<9:26:27,  3.57it/s] 67%|██████▋   | 250301/371472 [8:52:15<9:27:49,  3.56it/s] 67%|██████▋   | 250302/371472 [8:52:15<9:14:31,  3.64it/s] 67%|██████▋   | 250303/371472 [8:52:15<8:52:23,  3.79it/s] 67%|██████▋   | 250304/371472 [8:52:16<9:15:26,  3.64it/s] 67%|██████▋   | 250305/371472 [8:52:16<9:04:28,  3.71it/s] 67%|██████▋   | 250306/371472 [8:52:16<9:37:09,  3.50it/s] 67%|██████▋   | 250307/371472 [8:52:17<9:25:50,  3.57it/s] 67%|██████▋   | 250308/371472 [8:52:17<9:25:16,  3.57it/s] 67%|██████▋   | 250309/371472 [8:52:17<9:19:43,  3.61it/s] 67%|██████▋   | 250310/371472 [8:52:17<9:35:52,  3.51it/s] 67%|██████▋   | 250311/371472 [8:52:18<9:52:43,  3.41it/s] 67%|██████▋   | 250312/371472 [8:52:18<9:35:47,  3.51it/s] 67%|██████▋   | 250313/371472 [8:52:18<9:30:48,  3.54it/s] 67%|██████▋   | 250314/371472 [8:52:19<9:27:03,  3.56it/s] 67%|██████▋   | 250315/371472 [8:52:19<9:24:15,  3.58it/s] 67%|██████▋   | 250316/371472 [8:52:19<9:28:03,  3.55it/s] 67%|██████▋   | 250317/371472 [8:52:19<9:28:50,  3.55it/s] 67%|██████▋   | 250318/371472 [8:52:20<9:20:28,  3.60it/s] 67%|██████▋   | 250319/371472 [8:52:20<9:07:44,  3.69it/s] 67%|██████▋   | 250320/371472 [8:52:20<9:28:05,  3.55it/s]                                                           {'loss': 2.8507, 'learning_rate': 3.936844146609494e-07, 'epoch': 10.78}
 67%|██████▋   | 250320/371472 [8:52:20<9:28:05,  3.55it/s] 67%|██████▋   | 250321/371472 [8:52:21<9:55:21,  3.39it/s] 67%|██████▋   | 250322/371472 [8:52:21<9:49:11,  3.43it/s] 67%|██████▋   | 250323/371472 [8:52:21<9:40:49,  3.48it/s] 67%|██████▋   | 250324/371472 [8:52:21<9:44:43,  3.45it/s] 67%|██████▋   | 250325/371472 [8:52:22<10:30:24,  3.20it/s] 67%|██████▋   | 250326/371472 [8:52:22<10:06:01,  3.33it/s] 67%|██████▋   | 250327/371472 [8:52:22<9:44:45,  3.45it/s]  67%|██████▋   | 250328/371472 [8:52:23<9:51:23,  3.41it/s] 67%|██████▋   | 250329/371472 [8:52:23<9:31:04,  3.54it/s] 67%|██████▋   | 250330/371472 [8:52:23<9:19:14,  3.61it/s] 67%|██████▋   | 250331/371472 [8:52:23<9:04:27,  3.71it/s] 67%|██████▋   | 250332/371472 [8:52:24<9:00:22,  3.74it/s] 67%|██████▋   | 250333/371472 [8:52:24<8:59:54,  3.74it/s] 67%|██████▋   | 250334/371472 [8:52:24<8:48:20,  3.82it/s] 67%|██████▋   | 250335/371472 [8:52:24<8:55:11,  3.77it/s] 67%|██████▋   | 250336/371472 [8:52:25<9:40:49,  3.48it/s] 67%|██████▋   | 250337/371472 [8:52:25<9:23:09,  3.58it/s] 67%|██████▋   | 250338/371472 [8:52:25<8:58:38,  3.75it/s] 67%|██████▋   | 250339/371472 [8:52:26<8:52:50,  3.79it/s] 67%|██████▋   | 250340/371472 [8:52:26<9:24:11,  3.58it/s]                                                           {'loss': 2.8187, 'learning_rate': 3.9363593268547045e-07, 'epoch': 10.78}
 67%|██████▋   | 250340/371472 [8:52:26<9:24:11,  3.58it/s] 67%|██████▋   | 250341/371472 [8:52:26<9:08:11,  3.68it/s] 67%|██████▋   | 250342/371472 [8:52:26<8:55:26,  3.77it/s] 67%|██████▋   | 250343/371472 [8:52:27<9:09:51,  3.67it/s] 67%|██████▋   | 250344/371472 [8:52:27<9:56:14,  3.39it/s] 67%|██████▋   | 250345/371472 [8:52:27<9:45:43,  3.45it/s] 67%|██████▋   | 250346/371472 [8:52:28<9:27:33,  3.56it/s] 67%|██████▋   | 250347/371472 [8:52:28<9:17:02,  3.62it/s] 67%|██████▋   | 250348/371472 [8:52:28<9:41:18,  3.47it/s] 67%|██████▋   | 250349/371472 [8:52:28<9:17:37,  3.62it/s] 67%|██████▋   | 250350/371472 [8:52:29<9:34:03,  3.52it/s] 67%|██████▋   | 250351/371472 [8:52:29<9:09:01,  3.68it/s] 67%|██████▋   | 250352/371472 [8:52:29<8:58:58,  3.75it/s] 67%|██████▋   | 250353/371472 [8:52:29<8:45:03,  3.84it/s] 67%|██████▋   | 250354/371472 [8:52:30<8:52:15,  3.79it/s] 67%|██████▋   | 250355/371472 [8:52:30<8:46:40,  3.83it/s] 67%|██████▋   | 250356/371472 [8:52:30<8:43:59,  3.85it/s] 67%|██████▋   | 250357/371472 [8:52:30<8:51:26,  3.80it/s] 67%|██████▋   | 250358/371472 [8:52:31<8:48:30,  3.82it/s] 67%|██████▋   | 250359/371472 [8:52:31<8:50:52,  3.80it/s] 67%|██████▋   | 250360/371472 [8:52:31<8:49:13,  3.81it/s]                                                           {'loss': 2.8433, 'learning_rate': 3.9358745070999157e-07, 'epoch': 10.78}
 67%|██████▋   | 250360/371472 [8:52:31<8:49:13,  3.81it/s] 67%|██████▋   | 250361/371472 [8:52:32<9:04:17,  3.71it/s] 67%|██████▋   | 250362/371472 [8:52:32<9:12:23,  3.65it/s] 67%|██████▋   | 250363/371472 [8:52:32<9:31:20,  3.53it/s] 67%|██████▋   | 250364/371472 [8:52:32<9:24:26,  3.58it/s] 67%|██████▋   | 250365/371472 [8:52:33<9:00:18,  3.74it/s] 67%|██████▋   | 250366/371472 [8:52:33<8:51:29,  3.80it/s] 67%|██████▋   | 250367/371472 [8:52:33<8:41:04,  3.87it/s] 67%|██████▋   | 250368/371472 [8:52:34<10:09:59,  3.31it/s] 67%|██████▋   | 250369/371472 [8:52:34<9:52:20,  3.41it/s]  67%|██████▋   | 250370/371472 [8:52:34<9:47:51,  3.43it/s] 67%|██████▋   | 250371/371472 [8:52:34<9:33:45,  3.52it/s] 67%|██████▋   | 250372/371472 [8:52:35<9:38:14,  3.49it/s] 67%|██████▋   | 250373/371472 [8:52:35<9:26:33,  3.56it/s] 67%|██████▋   | 250374/371472 [8:52:35<9:19:17,  3.61it/s] 67%|██████▋   | 250375/371472 [8:52:35<9:13:49,  3.64it/s] 67%|██████▋   | 250376/371472 [8:52:36<10:29:14,  3.21it/s] 67%|██████▋   | 250377/371472 [8:52:36<10:03:48,  3.34it/s] 67%|██████▋   | 250378/371472 [8:52:36<10:09:07,  3.31it/s] 67%|██████▋   | 250379/371472 [8:52:37<9:49:48,  3.42it/s]  67%|██████▋   | 250380/371472 [8:52:37<9:26:31,  3.56it/s]                                                           {'loss': 2.9556, 'learning_rate': 3.9353896873451264e-07, 'epoch': 10.78}
 67%|██████▋   | 250380/371472 [8:52:37<9:26:31,  3.56it/s] 67%|██████▋   | 250381/371472 [8:52:37<9:18:37,  3.61it/s] 67%|██████▋   | 250382/371472 [8:52:37<9:17:51,  3.62it/s] 67%|██████▋   | 250383/371472 [8:52:38<9:32:33,  3.52it/s] 67%|██████▋   | 250384/371472 [8:52:38<9:14:50,  3.64it/s] 67%|██████▋   | 250385/371472 [8:52:38<9:10:30,  3.67it/s] 67%|██████▋   | 250386/371472 [8:52:39<9:18:13,  3.62it/s] 67%|██████▋   | 250387/371472 [8:52:39<9:03:25,  3.71it/s] 67%|██████▋   | 250388/371472 [8:52:39<8:50:46,  3.80it/s] 67%|██████▋   | 250389/371472 [8:52:39<9:23:53,  3.58it/s] 67%|██████▋   | 250390/371472 [8:52:40<9:36:04,  3.50it/s] 67%|██████▋   | 250391/371472 [8:52:40<9:12:53,  3.65it/s] 67%|██████▋   | 250392/371472 [8:52:40<9:57:59,  3.37it/s] 67%|██████▋   | 250393/371472 [8:52:41<10:17:44,  3.27it/s] 67%|██████▋   | 250394/371472 [8:52:41<10:04:04,  3.34it/s] 67%|██████▋   | 250395/371472 [8:52:41<9:50:29,  3.42it/s]  67%|██████▋   | 250396/371472 [8:52:41<9:53:54,  3.40it/s] 67%|██████▋   | 250397/371472 [8:52:42<10:03:49,  3.34it/s] 67%|██████▋   | 250398/371472 [8:52:42<10:06:29,  3.33it/s] 67%|██████▋   | 250399/371472 [8:52:42<10:21:08,  3.25it/s] 67%|██████▋   | 250400/371472 [8:52:43<10:01:49,  3.35it/s]                                                            {'loss': 2.7986, 'learning_rate': 3.934904867590338e-07, 'epoch': 10.79}
 67%|██████▋   | 250400/371472 [8:52:43<10:01:49,  3.35it/s] 67%|██████▋   | 250401/371472 [8:52:43<10:19:52,  3.26it/s] 67%|██████▋   | 250402/371472 [8:52:43<9:46:18,  3.44it/s]  67%|██████▋   | 250403/371472 [8:52:44<9:40:38,  3.48it/s] 67%|██████▋   | 250404/371472 [8:52:44<9:42:34,  3.46it/s] 67%|██████▋   | 250405/371472 [8:52:44<9:25:43,  3.57it/s] 67%|██████▋   | 250406/371472 [8:52:44<9:22:32,  3.59it/s] 67%|██████▋   | 250407/371472 [8:52:45<9:09:29,  3.67it/s] 67%|██████▋   | 250408/371472 [8:52:45<9:32:31,  3.52it/s] 67%|██████▋   | 250409/371472 [8:52:45<9:24:58,  3.57it/s] 67%|██████▋   | 250410/371472 [8:52:46<9:56:06,  3.38it/s] 67%|██████▋   | 250411/371472 [8:52:46<10:03:03,  3.35it/s] 67%|██████▋   | 250412/371472 [8:52:46<10:29:07,  3.21it/s] 67%|██████▋   | 250413/371472 [8:52:46<10:12:08,  3.30it/s] 67%|██████▋   | 250414/371472 [8:52:47<9:56:23,  3.38it/s]  67%|██████▋   | 250415/371472 [8:52:47<10:43:32,  3.14it/s] 67%|██████▋   | 250416/371472 [8:52:47<10:31:41,  3.19it/s] 67%|██████▋   | 250417/371472 [8:52:48<9:53:01,  3.40it/s]  67%|██████▋   | 250418/371472 [8:52:48<9:49:13,  3.42it/s] 67%|██████▋   | 250419/371472 [8:52:48<10:01:59,  3.35it/s] 67%|██████▋   | 250420/371472 [8:52:49<9:43:44,  3.46it/s]                                                            {'loss': 2.7877, 'learning_rate': 3.934420047835549e-07, 'epoch': 10.79}
 67%|██████▋   | 250420/371472 [8:52:49<9:43:44,  3.46it/s] 67%|██████▋   | 250421/371472 [8:52:49<10:25:32,  3.23it/s] 67%|██████▋   | 250422/371472 [8:52:49<10:20:35,  3.25it/s] 67%|██████▋   | 250423/371472 [8:52:49<9:44:23,  3.45it/s]  67%|██████▋   | 250424/371472 [8:52:50<9:34:07,  3.51it/s] 67%|██████▋   | 250425/371472 [8:52:50<9:44:51,  3.45it/s] 67%|██████▋   | 250426/371472 [8:52:50<9:37:18,  3.49it/s] 67%|██████▋   | 250427/371472 [8:52:51<9:17:03,  3.62it/s] 67%|██████▋   | 250428/371472 [8:52:51<9:43:54,  3.45it/s] 67%|██████▋   | 250429/371472 [8:52:51<10:20:06,  3.25it/s] 67%|██████▋   | 250430/371472 [8:52:52<10:07:34,  3.32it/s] 67%|██████▋   | 250431/371472 [8:52:52<10:29:33,  3.20it/s] 67%|██████▋   | 250432/371472 [8:52:52<10:09:51,  3.31it/s] 67%|██████▋   | 250433/371472 [8:52:52<9:42:36,  3.46it/s]  67%|██████▋   | 250434/371472 [8:52:53<9:27:28,  3.55it/s] 67%|██████▋   | 250435/371472 [8:52:53<9:01:31,  3.73it/s] 67%|██████▋   | 250436/371472 [8:52:53<8:40:45,  3.87it/s] 67%|██████▋   | 250437/371472 [8:52:53<9:07:16,  3.69it/s] 67%|██████▋   | 250438/371472 [8:52:54<8:55:29,  3.77it/s] 67%|██████▋   | 250439/371472 [8:52:54<8:55:58,  3.76it/s] 67%|██████▋   | 250440/371472 [8:52:54<9:15:51,  3.63it/s]                                                           {'loss': 2.7448, 'learning_rate': 3.93393522808076e-07, 'epoch': 10.79}
 67%|██████▋   | 250440/371472 [8:52:54<9:15:51,  3.63it/s] 67%|██████▋   | 250441/371472 [8:52:55<9:33:34,  3.52it/s] 67%|██████▋   | 250442/371472 [8:52:55<10:14:19,  3.28it/s] 67%|██████▋   | 250443/371472 [8:52:55<9:36:19,  3.50it/s]  67%|██████▋   | 250444/371472 [8:52:55<9:34:35,  3.51it/s] 67%|██████▋   | 250445/371472 [8:52:56<9:22:27,  3.59it/s] 67%|██████▋   | 250446/371472 [8:52:56<10:27:53,  3.21it/s] 67%|██████▋   | 250447/371472 [8:52:56<9:58:43,  3.37it/s]  67%|██████▋   | 250448/371472 [8:52:57<9:32:18,  3.52it/s] 67%|██████▋   | 250449/371472 [8:52:57<10:38:15,  3.16it/s] 67%|██████▋   | 250450/371472 [8:52:57<9:54:01,  3.40it/s]  67%|██████▋   | 250451/371472 [8:52:58<9:28:46,  3.55it/s] 67%|██████▋   | 250452/371472 [8:52:58<9:41:47,  3.47it/s] 67%|██████▋   | 250453/371472 [8:52:58<10:02:14,  3.35it/s] 67%|██████▋   | 250454/371472 [8:52:58<9:27:06,  3.56it/s]  67%|██████▋   | 250455/371472 [8:52:59<9:14:01,  3.64it/s] 67%|██████▋   | 250456/371472 [8:52:59<9:33:48,  3.51it/s] 67%|██████▋   | 250457/371472 [8:52:59<9:07:03,  3.69it/s] 67%|██████▋   | 250458/371472 [8:52:59<9:05:17,  3.70it/s] 67%|██████▋   | 250459/371472 [8:53:00<8:58:41,  3.74it/s] 67%|██████▋   | 250460/371472 [8:53:00<9:14:50,  3.63it/s]                                                           {'loss': 2.7813, 'learning_rate': 3.933450408325971e-07, 'epoch': 10.79}
 67%|██████▋   | 250460/371472 [8:53:00<9:14:50,  3.63it/s] 67%|██████▋   | 250461/371472 [8:53:00<9:23:04,  3.58it/s] 67%|██████▋   | 250462/371472 [8:53:01<9:52:04,  3.41it/s] 67%|██████▋   | 250463/371472 [8:53:01<10:22:01,  3.24it/s] 67%|██████▋   | 250464/371472 [8:53:01<9:45:31,  3.44it/s]  67%|██████▋   | 250465/371472 [8:53:01<9:28:16,  3.55it/s] 67%|██████▋   | 250466/371472 [8:53:02<9:43:41,  3.46it/s] 67%|██████▋   | 250467/371472 [8:53:02<9:52:46,  3.40it/s] 67%|██████▋   | 250468/371472 [8:53:02<9:40:54,  3.47it/s] 67%|██████▋   | 250469/371472 [8:53:03<9:39:23,  3.48it/s] 67%|██████▋   | 250470/371472 [8:53:03<9:25:25,  3.57it/s] 67%|██████▋   | 250471/371472 [8:53:03<9:56:45,  3.38it/s] 67%|██████▋   | 250472/371472 [8:53:04<9:42:50,  3.46it/s] 67%|██████▋   | 250473/371472 [8:53:04<9:46:27,  3.44it/s] 67%|██████▋   | 250474/371472 [8:53:04<10:02:37,  3.35it/s] 67%|██████▋   | 250475/371472 [8:53:04<9:37:29,  3.49it/s]  67%|██████▋   | 250476/371472 [8:53:05<9:08:47,  3.67it/s] 67%|██████▋   | 250477/371472 [8:53:05<9:38:52,  3.48it/s] 67%|██████▋   | 250478/371472 [8:53:05<9:50:42,  3.41it/s] 67%|██████▋   | 250479/371472 [8:53:06<9:34:05,  3.51it/s] 67%|██████▋   | 250480/371472 [8:53:06<9:19:25,  3.60it/s]                                                           {'loss': 2.8129, 'learning_rate': 3.9329655885711827e-07, 'epoch': 10.79}
 67%|██████▋   | 250480/371472 [8:53:06<9:19:25,  3.60it/s] 67%|██████▋   | 250481/371472 [8:53:06<9:24:42,  3.57it/s] 67%|██████▋   | 250482/371472 [8:53:06<9:17:24,  3.62it/s] 67%|██████▋   | 250483/371472 [8:53:07<9:23:01,  3.58it/s] 67%|██████▋   | 250484/371472 [8:53:07<9:45:19,  3.45it/s] 67%|██████▋   | 250485/371472 [8:53:07<9:31:12,  3.53it/s] 67%|██████▋   | 250486/371472 [8:53:07<9:12:36,  3.65it/s] 67%|██████▋   | 250487/371472 [8:53:08<9:13:58,  3.64it/s] 67%|██████▋   | 250488/371472 [8:53:08<9:10:11,  3.66it/s] 67%|██████▋   | 250489/371472 [8:53:08<9:18:14,  3.61it/s] 67%|██████▋   | 250490/371472 [8:53:09<9:06:23,  3.69it/s] 67%|██████▋   | 250491/371472 [8:53:09<10:27:56,  3.21it/s] 67%|██████▋   | 250492/371472 [8:53:09<9:57:41,  3.37it/s]  67%|██████▋   | 250493/371472 [8:53:09<9:40:43,  3.47it/s] 67%|██████▋   | 250494/371472 [8:53:10<9:30:35,  3.53it/s] 67%|██████▋   | 250495/371472 [8:53:10<9:33:16,  3.52it/s] 67%|██████▋   | 250496/371472 [8:53:10<10:18:19,  3.26it/s] 67%|██████▋   | 250497/371472 [8:53:11<9:42:57,  3.46it/s]  67%|██████▋   | 250498/371472 [8:53:11<9:51:39,  3.41it/s] 67%|██████▋   | 250499/371472 [8:53:11<9:42:10,  3.46it/s] 67%|██████▋   | 250500/371472 [8:53:12<10:26:11,  3.22it/s]                                                            {'loss': 2.9891, 'learning_rate': 3.932480768816393e-07, 'epoch': 10.79}
 67%|██████▋   | 250500/371472 [8:53:12<10:26:11,  3.22it/s] 67%|██████▋   | 250501/371472 [8:53:12<10:37:49,  3.16it/s] 67%|██████▋   | 250502/371472 [8:53:12<10:19:17,  3.26it/s] 67%|██████▋   | 250503/371472 [8:53:13<10:55:40,  3.07it/s] 67%|██████▋   | 250504/371472 [8:53:13<10:36:25,  3.17it/s] 67%|██████▋   | 250505/371472 [8:53:13<10:02:10,  3.35it/s] 67%|██████▋   | 250506/371472 [8:53:13<9:36:05,  3.50it/s]  67%|██████▋   | 250507/371472 [8:53:14<9:49:05,  3.42it/s] 67%|██████▋   | 250508/371472 [8:53:14<9:19:45,  3.60it/s] 67%|██████▋   | 250509/371472 [8:53:14<9:22:09,  3.59it/s] 67%|██████▋   | 250510/371472 [8:53:15<10:12:39,  3.29it/s] 67%|██████▋   | 250511/371472 [8:53:15<9:53:36,  3.40it/s]  67%|██████▋   | 250512/371472 [8:53:15<9:29:57,  3.54it/s] 67%|██████▋   | 250513/371472 [8:53:15<9:18:27,  3.61it/s] 67%|██████▋   | 250514/371472 [8:53:16<9:04:15,  3.70it/s] 67%|██████▋   | 250515/371472 [8:53:16<9:07:15,  3.68it/s] 67%|██████▋   | 250516/371472 [8:53:16<9:35:08,  3.51it/s] 67%|██████▋   | 250517/371472 [8:53:17<10:32:26,  3.19it/s] 67%|██████▋   | 250518/371472 [8:53:17<10:19:36,  3.25it/s] 67%|██████▋   | 250519/371472 [8:53:17<10:03:58,  3.34it/s] 67%|██████▋   | 250520/371472 [8:53:17<9:26:29,  3.56it/s]                                                            {'loss': 2.7887, 'learning_rate': 3.9319959490616046e-07, 'epoch': 10.79}
 67%|██████▋   | 250520/371472 [8:53:17<9:26:29,  3.56it/s] 67%|██████▋   | 250521/371472 [8:53:18<9:26:36,  3.56it/s] 67%|██████▋   | 250522/371472 [8:53:18<9:31:19,  3.53it/s] 67%|██████▋   | 250523/371472 [8:53:18<9:06:37,  3.69it/s] 67%|██████▋   | 250524/371472 [8:53:18<9:05:06,  3.70it/s] 67%|██████▋   | 250525/371472 [8:53:19<9:15:49,  3.63it/s] 67%|██████▋   | 250526/371472 [8:53:19<9:08:25,  3.68it/s] 67%|██████▋   | 250527/371472 [8:53:19<9:27:37,  3.55it/s] 67%|██████▋   | 250528/371472 [8:53:20<9:13:05,  3.64it/s] 67%|██████▋   | 250529/371472 [8:53:20<9:32:37,  3.52it/s] 67%|██████▋   | 250530/371472 [8:53:20<9:33:53,  3.51it/s] 67%|██████▋   | 250531/371472 [8:53:20<9:20:46,  3.59it/s] 67%|██████▋   | 250532/371472 [8:53:21<9:10:42,  3.66it/s] 67%|██████▋   | 250533/371472 [8:53:21<9:09:19,  3.67it/s] 67%|██████▋   | 250534/371472 [8:53:21<9:12:01,  3.65it/s] 67%|██████▋   | 250535/371472 [8:53:22<9:09:29,  3.67it/s] 67%|██████▋   | 250536/371472 [8:53:22<9:12:56,  3.65it/s] 67%|██████▋   | 250537/371472 [8:53:22<9:15:27,  3.63it/s] 67%|██████▋   | 250538/371472 [8:53:22<9:10:45,  3.66it/s] 67%|██████▋   | 250539/371472 [8:53:23<8:57:34,  3.75it/s] 67%|██████▋   | 250540/371472 [8:53:23<9:11:26,  3.65it/s]                                                           {'loss': 2.8381, 'learning_rate': 3.9315111293068153e-07, 'epoch': 10.79}
 67%|██████▋   | 250540/371472 [8:53:23<9:11:26,  3.65it/s] 67%|██████▋   | 250541/371472 [8:53:23<9:20:56,  3.59it/s] 67%|██████▋   | 250542/371472 [8:53:23<9:16:38,  3.62it/s] 67%|██████▋   | 250543/371472 [8:53:24<9:53:50,  3.39it/s] 67%|██████▋   | 250544/371472 [8:53:24<9:43:11,  3.46it/s] 67%|██████▋   | 250545/371472 [8:53:24<9:12:21,  3.65it/s] 67%|██████▋   | 250546/371472 [8:53:25<8:57:15,  3.75it/s] 67%|██████▋   | 250547/371472 [8:53:25<9:36:11,  3.50it/s] 67%|██████▋   | 250548/371472 [8:53:25<9:20:58,  3.59it/s] 67%|██████▋   | 250549/371472 [8:53:25<8:58:41,  3.74it/s] 67%|██████▋   | 250550/371472 [8:53:26<9:05:51,  3.69it/s] 67%|██████▋   | 250551/371472 [8:53:26<9:00:21,  3.73it/s] 67%|██████▋   | 250552/371472 [8:53:26<9:15:10,  3.63it/s] 67%|██████▋   | 250553/371472 [8:53:26<8:58:44,  3.74it/s] 67%|██████▋   | 250554/371472 [8:53:27<9:01:24,  3.72it/s] 67%|██████▋   | 250555/371472 [8:53:27<8:55:18,  3.76it/s] 67%|██████▋   | 250556/371472 [8:53:27<9:24:22,  3.57it/s] 67%|██████▋   | 250557/371472 [8:53:28<9:28:36,  3.54it/s] 67%|██████▋   | 250558/371472 [8:53:28<9:26:22,  3.56it/s] 67%|██████▋   | 250559/371472 [8:53:28<9:37:17,  3.49it/s] 67%|██████▋   | 250560/371472 [8:53:28<9:45:00,  3.44it/s]                                                           {'loss': 2.9896, 'learning_rate': 3.931026309552027e-07, 'epoch': 10.79}
 67%|██████▋   | 250560/371472 [8:53:28<9:45:00,  3.44it/s] 67%|██████▋   | 250561/371472 [8:53:29<9:27:20,  3.55it/s] 67%|██████▋   | 250562/371472 [8:53:29<9:37:56,  3.49it/s] 67%|██████▋   | 250563/371472 [8:53:29<9:13:02,  3.64it/s] 67%|██████▋   | 250564/371472 [8:53:30<9:43:33,  3.45it/s] 67%|██████▋   | 250565/371472 [8:53:30<10:07:42,  3.32it/s] 67%|██████▋   | 250566/371472 [8:53:30<10:21:27,  3.24it/s] 67%|██████▋   | 250567/371472 [8:53:31<10:25:13,  3.22it/s] 67%|██████▋   | 250568/371472 [8:53:31<10:13:12,  3.29it/s] 67%|██████▋   | 250569/371472 [8:53:31<9:37:30,  3.49it/s]  67%|██████▋   | 250570/371472 [8:53:31<9:21:25,  3.59it/s] 67%|██████▋   | 250571/371472 [8:53:32<8:57:14,  3.75it/s] 67%|██████▋   | 250572/371472 [8:53:32<9:00:37,  3.73it/s] 67%|██████▋   | 250573/371472 [8:53:32<9:28:03,  3.55it/s] 67%|██████▋   | 250574/371472 [8:53:32<9:17:25,  3.61it/s] 67%|██████▋   | 250575/371472 [8:53:33<10:01:02,  3.35it/s] 67%|██████▋   | 250576/371472 [8:53:33<9:42:25,  3.46it/s]  67%|██████▋   | 250577/371472 [8:53:33<10:43:44,  3.13it/s] 67%|██████▋   | 250578/371472 [8:53:34<10:18:14,  3.26it/s] 67%|██████▋   | 250579/371472 [8:53:34<10:44:51,  3.12it/s] 67%|██████▋   | 250580/371472 [8:53:34<11:00:21,  3.05it/s]                                                            {'loss': 2.8467, 'learning_rate': 3.9305414897972373e-07, 'epoch': 10.79}
 67%|██████▋   | 250580/371472 [8:53:34<11:00:21,  3.05it/s] 67%|██████▋   | 250581/371472 [8:53:35<10:22:59,  3.23it/s] 67%|██████▋   | 250582/371472 [8:53:35<10:04:09,  3.33it/s] 67%|██████▋   | 250583/371472 [8:53:35<10:06:53,  3.32it/s] 67%|██████▋   | 250584/371472 [8:53:36<9:36:42,  3.49it/s]  67%|██████▋   | 250585/371472 [8:53:36<9:56:20,  3.38it/s] 67%|██████▋   | 250586/371472 [8:53:36<10:26:29,  3.22it/s] 67%|██████▋   | 250587/371472 [8:53:36<10:17:23,  3.26it/s] 67%|██████▋   | 250588/371472 [8:53:37<11:03:20,  3.04it/s] 67%|██████▋   | 250589/371472 [8:53:37<10:10:48,  3.30it/s] 67%|██████▋   | 250590/371472 [8:53:37<9:47:09,  3.43it/s]  67%|██████▋   | 250591/371472 [8:53:38<9:25:49,  3.56it/s] 67%|██████▋   | 250592/371472 [8:53:38<9:38:20,  3.48it/s] 67%|██████▋   | 250593/371472 [8:53:38<9:22:38,  3.58it/s] 67%|██████▋   | 250594/371472 [8:53:38<9:16:56,  3.62it/s] 67%|██████▋   | 250595/371472 [8:53:39<11:06:10,  3.02it/s] 67%|██████▋   | 250596/371472 [8:53:39<10:29:56,  3.20it/s] 67%|██████▋   | 250597/371472 [8:53:39<10:06:13,  3.32it/s] 67%|██████▋   | 250598/371472 [8:53:40<9:58:18,  3.37it/s]  67%|██████▋   | 250599/371472 [8:53:40<9:32:14,  3.52it/s] 67%|██████▋   | 250600/371472 [8:53:40<9:23:46,  3.57it/s]                                                           {'loss': 2.8864, 'learning_rate': 3.930056670042449e-07, 'epoch': 10.79}
 67%|██████▋   | 250600/371472 [8:53:40<9:23:46,  3.57it/s] 67%|██████▋   | 250601/371472 [8:53:41<9:19:59,  3.60it/s] 67%|██████▋   | 250602/371472 [8:53:41<9:03:19,  3.71it/s] 67%|██████▋   | 250603/371472 [8:53:41<9:04:44,  3.70it/s] 67%|██████▋   | 250604/371472 [8:53:41<9:07:47,  3.68it/s] 67%|██████▋   | 250605/371472 [8:53:42<8:58:16,  3.74it/s] 67%|██████▋   | 250606/371472 [8:53:42<9:08:57,  3.67it/s] 67%|██████▋   | 250607/371472 [8:53:42<9:02:37,  3.71it/s] 67%|██████▋   | 250608/371472 [8:53:42<9:01:29,  3.72it/s] 67%|██████▋   | 250609/371472 [8:53:43<8:50:12,  3.80it/s] 67%|██████▋   | 250610/371472 [8:53:43<8:43:56,  3.84it/s] 67%|██████▋   | 250611/371472 [8:53:43<9:25:46,  3.56it/s] 67%|██████▋   | 250612/371472 [8:53:44<9:10:00,  3.66it/s] 67%|██████▋   | 250613/371472 [8:53:44<9:10:23,  3.66it/s] 67%|██████▋   | 250614/371472 [8:53:44<9:00:54,  3.72it/s] 67%|██████▋   | 250615/371472 [8:53:44<8:59:09,  3.74it/s] 67%|██████▋   | 250616/371472 [8:53:45<8:46:44,  3.82it/s] 67%|██████▋   | 250617/371472 [8:53:45<8:56:08,  3.76it/s] 67%|██████▋   | 250618/371472 [8:53:45<9:37:22,  3.49it/s] 67%|██████▋   | 250619/371472 [8:53:45<9:11:01,  3.66it/s] 67%|██████▋   | 250620/371472 [8:53:46<8:51:39,  3.79it/s]                                                           {'loss': 2.8035, 'learning_rate': 3.929571850287659e-07, 'epoch': 10.79}
 67%|██████▋   | 250620/371472 [8:53:46<8:51:39,  3.79it/s] 67%|██████▋   | 250621/371472 [8:53:46<9:24:30,  3.57it/s] 67%|██████▋   | 250622/371472 [8:53:46<10:15:03,  3.27it/s] 67%|██████▋   | 250623/371472 [8:53:47<9:34:55,  3.50it/s]  67%|██████▋   | 250624/371472 [8:53:47<10:59:20,  3.05it/s] 67%|██████▋   | 250625/371472 [8:53:47<10:10:48,  3.30it/s] 67%|██████▋   | 250626/371472 [8:53:48<9:43:57,  3.45it/s]  67%|██████▋   | 250627/371472 [8:53:48<9:50:04,  3.41it/s] 67%|██████▋   | 250628/371472 [8:53:48<9:36:43,  3.49it/s] 67%|██████▋   | 250629/371472 [8:53:48<9:15:26,  3.63it/s] 67%|██████▋   | 250630/371472 [8:53:49<9:21:56,  3.58it/s] 67%|██████▋   | 250631/371472 [8:53:49<9:33:43,  3.51it/s] 67%|██████▋   | 250632/371472 [8:53:49<9:05:51,  3.69it/s] 67%|██████▋   | 250633/371472 [8:53:49<9:12:59,  3.64it/s] 67%|██████▋   | 250634/371472 [8:53:50<8:58:42,  3.74it/s] 67%|██████▋   | 250635/371472 [8:53:50<9:03:43,  3.70it/s] 67%|██████▋   | 250636/371472 [8:53:50<8:44:50,  3.84it/s] 67%|██████▋   | 250637/371472 [8:53:50<8:58:12,  3.74it/s] 67%|██████▋   | 250638/371472 [8:53:51<8:35:12,  3.91it/s] 67%|██████▋   | 250639/371472 [8:53:51<8:57:22,  3.75it/s] 67%|██████▋   | 250640/371472 [8:53:51<9:13:58,  3.64it/s]                                                           {'loss': 2.7519, 'learning_rate': 3.929087030532871e-07, 'epoch': 10.8}
 67%|██████▋   | 250640/371472 [8:53:51<9:13:58,  3.64it/s] 67%|██████▋   | 250641/371472 [8:53:52<9:08:11,  3.67it/s] 67%|██████▋   | 250642/371472 [8:53:52<8:51:00,  3.79it/s] 67%|██████▋   | 250643/371472 [8:53:52<8:44:50,  3.84it/s] 67%|██████▋   | 250644/371472 [8:53:52<8:42:45,  3.85it/s] 67%|██████▋   | 250645/371472 [8:53:53<8:43:43,  3.85it/s] 67%|██████▋   | 250646/371472 [8:53:53<8:32:30,  3.93it/s] 67%|██████▋   | 250647/371472 [8:53:53<9:37:39,  3.49it/s] 67%|██████▋   | 250648/371472 [8:53:53<9:17:53,  3.61it/s] 67%|██████▋   | 250649/371472 [8:53:54<9:27:12,  3.55it/s] 67%|██████▋   | 250650/371472 [8:53:54<9:13:26,  3.64it/s] 67%|██████▋   | 250651/371472 [8:53:54<9:33:14,  3.51it/s] 67%|██████▋   | 250652/371472 [8:53:55<9:57:50,  3.37it/s] 67%|██████▋   | 250653/371472 [8:53:55<9:32:45,  3.52it/s] 67%|██████▋   | 250654/371472 [8:53:55<9:23:29,  3.57it/s] 67%|██████▋   | 250655/371472 [8:53:55<8:58:52,  3.74it/s] 67%|██████▋   | 250656/371472 [8:53:56<9:01:18,  3.72it/s] 67%|██████▋   | 250657/371472 [8:53:56<8:51:56,  3.79it/s] 67%|██████▋   | 250658/371472 [8:53:56<9:04:25,  3.70it/s] 67%|██████▋   | 250659/371472 [8:53:57<9:46:14,  3.43it/s] 67%|██████▋   | 250660/371472 [8:53:57<9:45:01,  3.44it/s]                                                           {'loss': 2.8253, 'learning_rate': 3.928602210778082e-07, 'epoch': 10.8}
 67%|██████▋   | 250660/371472 [8:53:57<9:45:01,  3.44it/s] 67%|██████▋   | 250661/371472 [8:53:57<9:55:12,  3.38it/s] 67%|██████▋   | 250662/371472 [8:53:57<9:39:43,  3.47it/s] 67%|██████▋   | 250663/371472 [8:53:58<9:37:31,  3.49it/s] 67%|██████▋   | 250664/371472 [8:53:58<10:23:44,  3.23it/s] 67%|██████▋   | 250665/371472 [8:53:58<10:33:22,  3.18it/s] 67%|██████▋   | 250666/371472 [8:53:59<9:49:47,  3.41it/s]  67%|██████▋   | 250667/371472 [8:53:59<9:57:25,  3.37it/s] 67%|██████▋   | 250668/371472 [8:53:59<9:25:52,  3.56it/s] 67%|██████▋   | 250669/371472 [8:53:59<9:10:57,  3.65it/s] 67%|██████▋   | 250670/371472 [8:54:00<9:25:45,  3.56it/s] 67%|██████▋   | 250671/371472 [8:54:00<9:03:12,  3.71it/s] 67%|██████▋   | 250672/371472 [8:54:00<9:00:41,  3.72it/s] 67%|██████▋   | 250673/371472 [8:54:01<9:22:07,  3.58it/s] 67%|██████▋   | 250674/371472 [8:54:01<9:10:03,  3.66it/s] 67%|██████▋   | 250675/371472 [8:54:01<9:00:49,  3.72it/s] 67%|██████▋   | 250676/371472 [8:54:01<10:09:10,  3.30it/s] 67%|██████▋   | 250677/371472 [8:54:02<10:34:34,  3.17it/s] 67%|██████▋   | 250678/371472 [8:54:02<10:01:42,  3.35it/s] 67%|██████▋   | 250679/371472 [8:54:02<9:42:12,  3.46it/s]  67%|██████▋   | 250680/371472 [8:54:03<9:26:52,  3.55it/s]                                                           {'loss': 2.7492, 'learning_rate': 3.928117391023293e-07, 'epoch': 10.8}
 67%|██████▋   | 250680/371472 [8:54:03<9:26:52,  3.55it/s] 67%|██████▋   | 250681/371472 [8:54:03<9:12:32,  3.64it/s] 67%|██████▋   | 250682/371472 [8:54:03<9:05:17,  3.69it/s] 67%|██████▋   | 250683/371472 [8:54:03<8:51:40,  3.79it/s] 67%|██████▋   | 250684/371472 [8:54:04<9:14:41,  3.63it/s] 67%|██████▋   | 250685/371472 [8:54:04<9:31:53,  3.52it/s] 67%|██████▋   | 250686/371472 [8:54:04<9:54:32,  3.39it/s] 67%|██████▋   | 250687/371472 [8:54:05<9:57:23,  3.37it/s] 67%|██████▋   | 250688/371472 [8:54:05<9:36:17,  3.49it/s] 67%|██████▋   | 250689/371472 [8:54:05<9:34:57,  3.50it/s] 67%|██████▋   | 250690/371472 [8:54:05<9:28:53,  3.54it/s] 67%|██████▋   | 250691/371472 [8:54:06<9:17:37,  3.61it/s] 67%|██████▋   | 250692/371472 [8:54:06<9:01:30,  3.72it/s] 67%|██████▋   | 250693/371472 [8:54:06<8:52:03,  3.78it/s] 67%|██████▋   | 250694/371472 [8:54:06<8:47:52,  3.81it/s] 67%|██████▋   | 250695/371472 [8:54:07<9:15:36,  3.62it/s] 67%|██████▋   | 250696/371472 [8:54:07<9:05:38,  3.69it/s] 67%|██████▋   | 250697/371472 [8:54:07<9:17:44,  3.61it/s] 67%|██████▋   | 250698/371472 [8:54:08<9:05:22,  3.69it/s] 67%|██████▋   | 250699/371472 [8:54:08<9:08:55,  3.67it/s] 67%|██████▋   | 250700/371472 [8:54:08<9:50:37,  3.41it/s]                                                           {'loss': 2.7333, 'learning_rate': 3.9276325712685037e-07, 'epoch': 10.8}
 67%|██████▋   | 250700/371472 [8:54:08<9:50:37,  3.41it/s] 67%|██████▋   | 250701/371472 [8:54:08<9:39:17,  3.47it/s] 67%|██████▋   | 250702/371472 [8:54:09<9:40:26,  3.47it/s] 67%|██████▋   | 250703/371472 [8:54:09<9:26:33,  3.55it/s] 67%|██████▋   | 250704/371472 [8:54:09<9:09:24,  3.66it/s] 67%|██████▋   | 250705/371472 [8:54:09<8:51:27,  3.79it/s] 67%|██████▋   | 250706/371472 [8:54:10<8:44:23,  3.84it/s] 67%|██████▋   | 250707/371472 [8:54:10<8:56:37,  3.75it/s] 67%|██████▋   | 250708/371472 [8:54:10<8:52:49,  3.78it/s] 67%|██████▋   | 250709/371472 [8:54:11<8:51:35,  3.79it/s] 67%|██████▋   | 250710/371472 [8:54:11<9:07:43,  3.67it/s] 67%|██████▋   | 250711/371472 [8:54:11<9:09:13,  3.66it/s] 67%|██████▋   | 250712/371472 [8:54:11<9:47:51,  3.42it/s] 67%|██████▋   | 250713/371472 [8:54:12<9:19:49,  3.60it/s] 67%|██████▋   | 250714/371472 [8:54:12<9:19:18,  3.60it/s] 67%|██████▋   | 250715/371472 [8:54:12<9:15:34,  3.62it/s] 67%|██████▋   | 250716/371472 [8:54:13<11:02:36,  3.04it/s] 67%|██████▋   | 250717/371472 [8:54:13<10:20:54,  3.24it/s] 67%|██████▋   | 250718/371472 [8:54:13<9:53:40,  3.39it/s]  67%|██████▋   | 250719/371472 [8:54:13<9:14:48,  3.63it/s] 67%|██████▋   | 250720/371472 [8:54:14<9:02:45,  3.71it/s]                                                           {'loss': 2.9225, 'learning_rate': 3.927147751513715e-07, 'epoch': 10.8}
 67%|██████▋   | 250720/371472 [8:54:14<9:02:45,  3.71it/s] 67%|██████▋   | 250721/371472 [8:54:14<9:09:06,  3.67it/s] 67%|██████▋   | 250722/371472 [8:54:14<8:47:29,  3.82it/s] 67%|██████▋   | 250723/371472 [8:54:15<9:31:05,  3.52it/s] 67%|██████▋   | 250724/371472 [8:54:15<9:35:28,  3.50it/s] 67%|██████▋   | 250725/371472 [8:54:15<9:40:28,  3.47it/s] 67%|██████▋   | 250726/371472 [8:54:15<9:29:48,  3.53it/s] 67%|██████▋   | 250727/371472 [8:54:16<9:03:38,  3.70it/s] 67%|██████▋   | 250728/371472 [8:54:16<9:44:29,  3.44it/s] 67%|██████▋   | 250729/371472 [8:54:16<9:44:05,  3.45it/s] 67%|██████▋   | 250730/371472 [8:54:17<9:39:03,  3.48it/s] 67%|██████▋   | 250731/371472 [8:54:17<9:43:43,  3.45it/s] 67%|██████▋   | 250732/371472 [8:54:17<9:16:49,  3.61it/s] 67%|██████▋   | 250733/371472 [8:54:17<9:33:43,  3.51it/s] 67%|██████▋   | 250734/371472 [8:54:18<9:17:41,  3.61it/s] 67%|██████▋   | 250735/371472 [8:54:18<9:14:15,  3.63it/s] 67%|██████▋   | 250736/371472 [8:54:18<8:53:25,  3.77it/s] 67%|██████▋   | 250737/371472 [8:54:18<8:39:53,  3.87it/s] 67%|██████▋   | 250738/371472 [8:54:19<9:23:07,  3.57it/s] 67%|██████▋   | 250739/371472 [8:54:19<9:00:50,  3.72it/s] 67%|██████▋   | 250740/371472 [8:54:19<9:14:41,  3.63it/s]                                                           {'loss': 2.9293, 'learning_rate': 3.926662931758926e-07, 'epoch': 10.8}
 67%|██████▋   | 250740/371472 [8:54:19<9:14:41,  3.63it/s] 67%|██████▋   | 250741/371472 [8:54:20<8:57:51,  3.74it/s] 67%|██████▋   | 250742/371472 [8:54:20<8:46:48,  3.82it/s] 67%|██████▋   | 250743/371472 [8:54:20<8:50:27,  3.79it/s] 68%|██████▊   | 250744/371472 [8:54:20<8:46:19,  3.82it/s] 68%|██████▊   | 250745/371472 [8:54:21<8:51:38,  3.78it/s] 68%|██████▊   | 250746/371472 [8:54:21<9:09:51,  3.66it/s] 68%|██████▊   | 250747/371472 [8:54:21<9:11:00,  3.65it/s] 68%|██████▊   | 250748/371472 [8:54:22<10:06:03,  3.32it/s] 68%|██████▊   | 250749/371472 [8:54:22<9:51:37,  3.40it/s]  68%|██████▊   | 250750/371472 [8:54:22<9:44:44,  3.44it/s] 68%|██████▊   | 250751/371472 [8:54:22<9:52:26,  3.40it/s] 68%|██████▊   | 250752/371472 [8:54:23<9:59:32,  3.36it/s] 68%|██████▊   | 250753/371472 [8:54:23<9:43:27,  3.45it/s] 68%|██████▊   | 250754/371472 [8:54:23<9:26:35,  3.55it/s] 68%|██████▊   | 250755/371472 [8:54:24<10:24:17,  3.22it/s] 68%|██████▊   | 250756/371472 [8:54:24<9:55:14,  3.38it/s]  68%|██████▊   | 250757/371472 [8:54:24<9:38:01,  3.48it/s] 68%|██████▊   | 250758/371472 [8:54:24<9:06:32,  3.68it/s] 68%|██████▊   | 250759/371472 [8:54:25<8:58:23,  3.74it/s] 68%|██████▊   | 250760/371472 [8:54:25<9:42:38,  3.45it/s]                                                           {'loss': 2.9089, 'learning_rate': 3.9261781120041364e-07, 'epoch': 10.8}
 68%|██████▊   | 250760/371472 [8:54:25<9:42:38,  3.45it/s] 68%|██████▊   | 250761/371472 [8:54:25<9:23:11,  3.57it/s] 68%|██████▊   | 250762/371472 [8:54:25<8:55:11,  3.76it/s] 68%|██████▊   | 250763/371472 [8:54:26<8:49:48,  3.80it/s] 68%|██████▊   | 250764/371472 [8:54:26<8:43:08,  3.85it/s] 68%|██████▊   | 250765/371472 [8:54:26<8:50:20,  3.79it/s] 68%|██████▊   | 250766/371472 [8:54:26<8:44:08,  3.84it/s] 68%|██████▊   | 250767/371472 [8:54:27<9:13:27,  3.63it/s] 68%|██████▊   | 250768/371472 [8:54:27<9:57:44,  3.37it/s] 68%|██████▊   | 250769/371472 [8:54:27<10:07:25,  3.31it/s] 68%|██████▊   | 250770/371472 [8:54:28<9:50:13,  3.41it/s]  68%|██████▊   | 250771/371472 [8:54:28<9:23:51,  3.57it/s] 68%|██████▊   | 250772/371472 [8:54:28<9:41:20,  3.46it/s] 68%|██████▊   | 250773/371472 [8:54:29<9:51:38,  3.40it/s] 68%|██████▊   | 250774/371472 [8:54:29<9:36:41,  3.49it/s] 68%|██████▊   | 250775/371472 [8:54:29<9:45:23,  3.44it/s] 68%|██████▊   | 250776/371472 [8:54:29<9:21:57,  3.58it/s] 68%|██████▊   | 250777/371472 [8:54:30<9:09:55,  3.66it/s] 68%|██████▊   | 250778/371472 [8:54:30<8:56:21,  3.75it/s] 68%|██████▊   | 250779/371472 [8:54:30<8:42:52,  3.85it/s] 68%|██████▊   | 250780/371472 [8:54:30<8:44:27,  3.84it/s]                                                           {'loss': 2.7526, 'learning_rate': 3.925693292249348e-07, 'epoch': 10.8}
 68%|██████▊   | 250780/371472 [8:54:30<8:44:27,  3.84it/s] 68%|██████▊   | 250781/371472 [8:54:31<9:36:51,  3.49it/s] 68%|██████▊   | 250782/371472 [8:54:31<9:06:18,  3.68it/s] 68%|██████▊   | 250783/371472 [8:54:31<9:10:33,  3.65it/s] 68%|██████▊   | 250784/371472 [8:54:32<8:53:49,  3.77it/s] 68%|██████▊   | 250785/371472 [8:54:32<9:24:54,  3.56it/s] 68%|██████▊   | 250786/371472 [8:54:32<9:19:02,  3.60it/s] 68%|██████▊   | 250787/371472 [8:54:32<9:25:10,  3.56it/s] 68%|██████▊   | 250788/371472 [8:54:33<9:38:20,  3.48it/s] 68%|██████▊   | 250789/371472 [8:54:33<9:45:30,  3.44it/s] 68%|██████▊   | 250790/371472 [8:54:33<9:21:07,  3.58it/s] 68%|██████▊   | 250791/371472 [8:54:34<10:10:37,  3.29it/s] 68%|██████▊   | 250792/371472 [8:54:34<9:48:16,  3.42it/s]  68%|██████▊   | 250793/371472 [8:54:34<9:45:38,  3.43it/s] 68%|██████▊   | 250794/371472 [8:54:35<10:30:06,  3.19it/s] 68%|██████▊   | 250795/371472 [8:54:35<9:45:56,  3.43it/s]  68%|██████▊   | 250796/371472 [8:54:35<9:55:06,  3.38it/s] 68%|██████▊   | 250797/371472 [8:54:35<9:51:16,  3.40it/s] 68%|██████▊   | 250798/371472 [8:54:36<9:48:06,  3.42it/s] 68%|██████▊   | 250799/371472 [8:54:36<9:24:22,  3.56it/s] 68%|██████▊   | 250800/371472 [8:54:36<9:04:14,  3.70it/s]                                                           {'loss': 2.7974, 'learning_rate': 3.925208472494559e-07, 'epoch': 10.8}
 68%|██████▊   | 250800/371472 [8:54:36<9:04:14,  3.70it/s] 68%|██████▊   | 250801/371472 [8:54:36<9:03:41,  3.70it/s] 68%|██████▊   | 250802/371472 [8:54:37<9:13:49,  3.63it/s] 68%|██████▊   | 250803/371472 [8:54:37<9:06:02,  3.68it/s] 68%|██████▊   | 250804/371472 [8:54:37<9:00:21,  3.72it/s] 68%|██████▊   | 250805/371472 [8:54:38<8:52:48,  3.77it/s] 68%|██████▊   | 250806/371472 [8:54:38<8:44:53,  3.83it/s] 68%|██████▊   | 250807/371472 [8:54:38<8:48:26,  3.81it/s] 68%|██████▊   | 250808/371472 [8:54:38<9:52:25,  3.39it/s] 68%|██████▊   | 250809/371472 [8:54:39<9:38:21,  3.48it/s] 68%|██████▊   | 250810/371472 [8:54:39<9:23:02,  3.57it/s] 68%|██████▊   | 250811/371472 [8:54:39<9:25:29,  3.56it/s] 68%|██████▊   | 250812/371472 [8:54:39<9:12:40,  3.64it/s] 68%|██████▊   | 250813/371472 [8:54:40<9:16:57,  3.61it/s] 68%|██████▊   | 250814/371472 [8:54:40<9:37:58,  3.48it/s] 68%|██████▊   | 250815/371472 [8:54:40<9:38:28,  3.48it/s] 68%|██████▊   | 250816/371472 [8:54:41<9:33:31,  3.51it/s] 68%|██████▊   | 250817/371472 [8:54:41<9:31:10,  3.52it/s] 68%|██████▊   | 250818/371472 [8:54:41<9:56:05,  3.37it/s] 68%|██████▊   | 250819/371472 [8:54:42<10:09:22,  3.30it/s] 68%|██████▊   | 250820/371472 [8:54:42<10:28:34,  3.20it/s]                                                            {'loss': 2.7513, 'learning_rate': 3.92472365273977e-07, 'epoch': 10.8}
 68%|██████▊   | 250820/371472 [8:54:42<10:28:34,  3.20it/s] 68%|██████▊   | 250821/371472 [8:54:42<10:47:27,  3.11it/s] 68%|██████▊   | 250822/371472 [8:54:43<10:49:03,  3.10it/s] 68%|██████▊   | 250823/371472 [8:54:43<10:17:00,  3.26it/s] 68%|██████▊   | 250824/371472 [8:54:43<10:04:48,  3.32it/s] 68%|██████▊   | 250825/371472 [8:54:43<9:55:32,  3.38it/s]  68%|██████▊   | 250826/371472 [8:54:44<9:36:48,  3.49it/s] 68%|██████▊   | 250827/371472 [8:54:44<9:36:30,  3.49it/s] 68%|██████▊   | 250828/371472 [8:54:44<9:28:03,  3.54it/s] 68%|██████▊   | 250829/371472 [8:54:45<11:55:26,  2.81it/s] 68%|██████▊   | 250830/371472 [8:54:45<10:51:57,  3.08it/s] 68%|██████▊   | 250831/371472 [8:54:45<10:18:31,  3.25it/s] 68%|██████▊   | 250832/371472 [8:54:46<9:56:50,  3.37it/s]  68%|██████▊   | 250833/371472 [8:54:46<9:32:06,  3.51it/s] 68%|██████▊   | 250834/371472 [8:54:46<9:27:14,  3.54it/s] 68%|██████▊   | 250835/371472 [8:54:46<9:40:00,  3.47it/s] 68%|██████▊   | 250836/371472 [8:54:47<9:23:50,  3.57it/s] 68%|██████▊   | 250837/371472 [8:54:47<9:34:33,  3.50it/s] 68%|██████▊   | 250838/371472 [8:54:47<9:37:14,  3.48it/s] 68%|██████▊   | 250839/371472 [8:54:47<9:16:12,  3.61it/s] 68%|██████▊   | 250840/371472 [8:54:48<9:01:56,  3.71it/s]                                                           {'loss': 2.6834, 'learning_rate': 3.924238832984981e-07, 'epoch': 10.8}
 68%|██████▊   | 250840/371472 [8:54:48<9:01:56,  3.71it/s] 68%|██████▊   | 250841/371472 [8:54:48<9:11:57,  3.64it/s] 68%|██████▊   | 250842/371472 [8:54:48<9:30:43,  3.52it/s] 68%|██████▊   | 250843/371472 [8:54:49<9:04:02,  3.70it/s] 68%|██████▊   | 250844/371472 [8:54:49<9:02:21,  3.71it/s] 68%|██████▊   | 250845/371472 [8:54:49<9:31:02,  3.52it/s] 68%|██████▊   | 250846/371472 [8:54:49<10:06:27,  3.32it/s] 68%|██████▊   | 250847/371472 [8:54:50<9:40:20,  3.46it/s]  68%|██████▊   | 250848/371472 [8:54:50<10:09:55,  3.30it/s] 68%|██████▊   | 250849/371472 [8:54:50<9:43:54,  3.44it/s]  68%|██████▊   | 250850/371472 [8:54:51<9:36:03,  3.49it/s] 68%|██████▊   | 250851/371472 [8:54:51<9:50:19,  3.41it/s] 68%|██████▊   | 250852/371472 [8:54:51<9:26:11,  3.55it/s] 68%|██████▊   | 250853/371472 [8:54:51<9:13:06,  3.63it/s] 68%|██████▊   | 250854/371472 [8:54:52<8:53:03,  3.77it/s] 68%|██████▊   | 250855/371472 [8:54:52<9:35:30,  3.49it/s] 68%|██████▊   | 250856/371472 [8:54:52<9:09:18,  3.66it/s] 68%|██████▊   | 250857/371472 [8:54:53<9:00:20,  3.72it/s] 68%|██████▊   | 250858/371472 [8:54:53<9:00:43,  3.72it/s] 68%|██████▊   | 250859/371472 [8:54:53<8:52:09,  3.78it/s] 68%|██████▊   | 250860/371472 [8:54:53<8:53:49,  3.77it/s]                                                           {'loss': 2.837, 'learning_rate': 3.9237540132301926e-07, 'epoch': 10.81}
 68%|██████▊   | 250860/371472 [8:54:53<8:53:49,  3.77it/s] 68%|██████▊   | 250861/371472 [8:54:54<9:47:05,  3.42it/s] 68%|██████▊   | 250862/371472 [8:54:54<10:29:42,  3.19it/s] 68%|██████▊   | 250863/371472 [8:54:54<10:14:05,  3.27it/s] 68%|██████▊   | 250864/371472 [8:54:55<10:18:53,  3.25it/s] 68%|██████▊   | 250865/371472 [8:54:55<9:49:54,  3.41it/s]  68%|██████▊   | 250866/371472 [8:54:55<9:23:37,  3.57it/s] 68%|██████▊   | 250867/371472 [8:54:55<9:14:53,  3.62it/s] 68%|██████▊   | 250868/371472 [8:54:56<9:14:05,  3.63it/s] 68%|██████▊   | 250869/371472 [8:54:56<9:18:16,  3.60it/s] 68%|██████▊   | 250870/371472 [8:54:56<9:51:14,  3.40it/s] 68%|██████▊   | 250871/371472 [8:54:57<9:45:19,  3.43it/s] 68%|██████▊   | 250872/371472 [8:54:57<9:29:28,  3.53it/s] 68%|██████▊   | 250873/371472 [8:54:57<9:29:54,  3.53it/s] 68%|██████▊   | 250874/371472 [8:54:57<9:30:36,  3.52it/s] 68%|██████▊   | 250875/371472 [8:54:58<9:31:12,  3.52it/s] 68%|██████▊   | 250876/371472 [8:54:58<9:36:25,  3.49it/s] 68%|██████▊   | 250877/371472 [8:54:58<9:50:15,  3.41it/s] 68%|██████▊   | 250878/371472 [8:54:59<9:31:46,  3.52it/s] 68%|██████▊   | 250879/371472 [8:54:59<9:26:19,  3.55it/s] 68%|██████▊   | 250880/371472 [8:54:59<9:08:46,  3.66it/s]                                                           {'loss': 2.8656, 'learning_rate': 3.923269193475403e-07, 'epoch': 10.81}
 68%|██████▊   | 250880/371472 [8:54:59<9:08:46,  3.66it/s] 68%|██████▊   | 250881/371472 [8:54:59<9:15:31,  3.62it/s] 68%|██████▊   | 250882/371472 [8:55:00<9:40:59,  3.46it/s] 68%|██████▊   | 250883/371472 [8:55:00<10:34:07,  3.17it/s] 68%|██████▊   | 250884/371472 [8:55:00<9:57:24,  3.36it/s]  68%|██████▊   | 250885/371472 [8:55:01<9:50:24,  3.40it/s] 68%|██████▊   | 250886/371472 [8:55:01<9:42:28,  3.45it/s] 68%|██████▊   | 250887/371472 [8:55:01<9:12:49,  3.64it/s] 68%|██████▊   | 250888/371472 [8:55:01<8:58:16,  3.73it/s] 68%|██████▊   | 250889/371472 [8:55:02<8:40:13,  3.86it/s] 68%|██████▊   | 250890/371472 [8:55:02<9:01:36,  3.71it/s] 68%|██████▊   | 250891/371472 [8:55:02<8:37:55,  3.88it/s] 68%|██████▊   | 250892/371472 [8:55:02<8:51:41,  3.78it/s] 68%|██████▊   | 250893/371472 [8:55:03<8:51:00,  3.78it/s] 68%|██████▊   | 250894/371472 [8:55:03<9:02:28,  3.70it/s] 68%|██████▊   | 250895/371472 [8:55:03<8:53:31,  3.77it/s] 68%|██████▊   | 250896/371472 [8:55:04<8:59:32,  3.72it/s] 68%|██████▊   | 250897/371472 [8:55:04<9:04:18,  3.69it/s] 68%|██████▊   | 250898/371472 [8:55:04<9:08:44,  3.66it/s] 68%|██████▊   | 250899/371472 [8:55:04<8:54:00,  3.76it/s] 68%|██████▊   | 250900/371472 [8:55:05<9:09:18,  3.66it/s]                                                           {'loss': 2.8475, 'learning_rate': 3.9227843737206146e-07, 'epoch': 10.81}
 68%|██████▊   | 250900/371472 [8:55:05<9:09:18,  3.66it/s] 68%|██████▊   | 250901/371472 [8:55:05<8:53:28,  3.77it/s] 68%|██████▊   | 250902/371472 [8:55:05<8:51:53,  3.78it/s] 68%|██████▊   | 250903/371472 [8:55:05<8:39:16,  3.87it/s] 68%|██████▊   | 250904/371472 [8:55:06<9:50:36,  3.40it/s] 68%|██████▊   | 250905/371472 [8:55:06<9:31:08,  3.52it/s] 68%|██████▊   | 250906/371472 [8:55:06<9:39:50,  3.47it/s] 68%|██████▊   | 250907/371472 [8:55:07<9:06:32,  3.68it/s] 68%|██████▊   | 250908/371472 [8:55:07<9:13:07,  3.63it/s] 68%|██████▊   | 250909/371472 [8:55:07<10:20:05,  3.24it/s] 68%|██████▊   | 250910/371472 [8:55:07<9:55:18,  3.38it/s]  68%|██████▊   | 250911/371472 [8:55:08<9:38:48,  3.47it/s] 68%|██████▊   | 250912/371472 [8:55:08<10:11:26,  3.29it/s] 68%|██████▊   | 250913/371472 [8:55:08<11:03:34,  3.03it/s] 68%|██████▊   | 250914/371472 [8:55:09<10:47:20,  3.10it/s] 68%|██████▊   | 250915/371472 [8:55:09<10:01:26,  3.34it/s] 68%|██████▊   | 250916/371472 [8:55:09<9:38:15,  3.47it/s]  68%|██████▊   | 250917/371472 [8:55:10<9:42:35,  3.45it/s] 68%|██████▊   | 250918/371472 [8:55:10<9:17:46,  3.60it/s] 68%|██████▊   | 250919/371472 [8:55:10<11:30:32,  2.91it/s] 68%|██████▊   | 250920/371472 [8:55:11<11:26:07,  2.93it/s]                                                            {'loss': 2.727, 'learning_rate': 3.9222995539658253e-07, 'epoch': 10.81}
 68%|██████▊   | 250920/371472 [8:55:11<11:26:07,  2.93it/s] 68%|██████▊   | 250921/371472 [8:55:11<10:40:05,  3.14it/s] 68%|██████▊   | 250922/371472 [8:55:11<10:04:38,  3.32it/s] 68%|██████▊   | 250923/371472 [8:55:11<9:51:37,  3.40it/s]  68%|██████▊   | 250924/371472 [8:55:12<9:52:36,  3.39it/s] 68%|██████▊   | 250925/371472 [8:55:12<9:37:32,  3.48it/s] 68%|██████▊   | 250926/371472 [8:55:12<9:40:11,  3.46it/s] 68%|██████▊   | 250927/371472 [8:55:13<9:26:29,  3.55it/s] 68%|██████▊   | 250928/371472 [8:55:13<9:06:38,  3.68it/s] 68%|██████▊   | 250929/371472 [8:55:13<9:56:48,  3.37it/s] 68%|██████▊   | 250930/371472 [8:55:13<9:53:06,  3.39it/s] 68%|██████▊   | 250931/371472 [8:55:14<9:48:20,  3.41it/s] 68%|██████▊   | 250932/371472 [8:55:14<10:17:54,  3.25it/s] 68%|██████▊   | 250933/371472 [8:55:14<9:44:39,  3.44it/s]  68%|██████▊   | 250934/371472 [8:55:15<9:26:00,  3.55it/s] 68%|██████▊   | 250935/371472 [8:55:15<9:37:49,  3.48it/s] 68%|██████▊   | 250936/371472 [8:55:15<9:48:41,  3.41it/s] 68%|██████▊   | 250937/371472 [8:55:16<9:37:17,  3.48it/s] 68%|██████▊   | 250938/371472 [8:55:16<9:31:40,  3.51it/s] 68%|██████▊   | 250939/371472 [8:55:16<9:28:59,  3.53it/s] 68%|██████▊   | 250940/371472 [8:55:16<9:50:17,  3.40it/s]                                                           {'loss': 2.8424, 'learning_rate': 3.9218147342110365e-07, 'epoch': 10.81}
 68%|██████▊   | 250940/371472 [8:55:16<9:50:17,  3.40it/s] 68%|██████▊   | 250941/371472 [8:55:17<9:47:28,  3.42it/s] 68%|██████▊   | 250942/371472 [8:55:17<9:25:09,  3.55it/s] 68%|██████▊   | 250943/371472 [8:55:17<9:52:32,  3.39it/s] 68%|██████▊   | 250944/371472 [8:55:18<9:32:19,  3.51it/s] 68%|██████▊   | 250945/371472 [8:55:18<10:26:39,  3.21it/s] 68%|██████▊   | 250946/371472 [8:55:18<10:16:50,  3.26it/s] 68%|██████▊   | 250947/371472 [8:55:19<10:22:03,  3.23it/s] 68%|██████▊   | 250948/371472 [8:55:19<10:06:16,  3.31it/s] 68%|██████▊   | 250949/371472 [8:55:19<9:39:03,  3.47it/s]  68%|██████▊   | 250950/371472 [8:55:19<9:41:34,  3.45it/s] 68%|██████▊   | 250951/371472 [8:55:20<9:31:08,  3.52it/s] 68%|██████▊   | 250952/371472 [8:55:20<9:35:38,  3.49it/s] 68%|██████▊   | 250953/371472 [8:55:20<9:24:44,  3.56it/s] 68%|██████▊   | 250954/371472 [8:55:20<9:25:05,  3.55it/s] 68%|██████▊   | 250955/371472 [8:55:21<9:47:11,  3.42it/s] 68%|██████▊   | 250956/371472 [8:55:21<9:32:58,  3.51it/s] 68%|██████▊   | 250957/371472 [8:55:21<9:06:41,  3.67it/s] 68%|██████▊   | 250958/371472 [8:55:22<8:45:04,  3.83it/s] 68%|██████▊   | 250959/371472 [8:55:22<8:45:18,  3.82it/s] 68%|██████▊   | 250960/371472 [8:55:22<8:53:41,  3.76it/s]                                                           {'loss': 2.7377, 'learning_rate': 3.921329914456247e-07, 'epoch': 10.81}
 68%|██████▊   | 250960/371472 [8:55:22<8:53:41,  3.76it/s] 68%|██████▊   | 250961/371472 [8:55:22<9:04:29,  3.69it/s] 68%|██████▊   | 250962/371472 [8:55:23<9:02:56,  3.70it/s] 68%|██████▊   | 250963/371472 [8:55:23<9:04:33,  3.69it/s] 68%|██████▊   | 250964/371472 [8:55:23<8:44:06,  3.83it/s] 68%|██████▊   | 250965/371472 [8:55:23<9:04:31,  3.69it/s] 68%|██████▊   | 250966/371472 [8:55:24<8:54:14,  3.76it/s] 68%|██████▊   | 250967/371472 [8:55:24<8:44:05,  3.83it/s] 68%|██████▊   | 250968/371472 [8:55:24<8:41:39,  3.85it/s] 68%|██████▊   | 250969/371472 [8:55:24<9:03:47,  3.69it/s] 68%|██████▊   | 250970/371472 [8:55:25<9:04:20,  3.69it/s] 68%|██████▊   | 250971/371472 [8:55:25<9:27:53,  3.54it/s] 68%|██████▊   | 250972/371472 [8:55:25<9:16:42,  3.61it/s] 68%|██████▊   | 250973/371472 [8:55:26<9:03:23,  3.70it/s] 68%|██████▊   | 250974/371472 [8:55:26<9:14:15,  3.62it/s] 68%|██████▊   | 250975/371472 [8:55:26<9:19:17,  3.59it/s] 68%|██████▊   | 250976/371472 [8:55:26<9:22:15,  3.57it/s] 68%|██████▊   | 250977/371472 [8:55:27<9:22:00,  3.57it/s] 68%|██████▊   | 250978/371472 [8:55:27<9:06:30,  3.67it/s] 68%|██████▊   | 250979/371472 [8:55:27<9:10:22,  3.65it/s] 68%|██████▊   | 250980/371472 [8:55:28<9:22:39,  3.57it/s]                                                           {'loss': 2.983, 'learning_rate': 3.9208450947014585e-07, 'epoch': 10.81}
 68%|██████▊   | 250980/371472 [8:55:28<9:22:39,  3.57it/s] 68%|██████▊   | 250981/371472 [8:55:28<9:00:24,  3.72it/s] 68%|██████▊   | 250982/371472 [8:55:28<8:36:30,  3.89it/s] 68%|██████▊   | 250983/371472 [8:55:28<8:35:05,  3.90it/s] 68%|██████▊   | 250984/371472 [8:55:29<8:39:48,  3.86it/s] 68%|██████▊   | 250985/371472 [8:55:29<8:36:23,  3.89it/s] 68%|██████▊   | 250986/371472 [8:55:29<9:01:05,  3.71it/s] 68%|██████▊   | 250987/371472 [8:55:29<9:39:06,  3.47it/s] 68%|██████▊   | 250988/371472 [8:55:30<9:23:42,  3.56it/s] 68%|██████▊   | 250989/371472 [8:55:30<9:26:58,  3.54it/s] 68%|██████▊   | 250990/371472 [8:55:30<9:54:29,  3.38it/s] 68%|██████▊   | 250991/371472 [8:55:31<9:21:19,  3.58it/s] 68%|██████▊   | 250992/371472 [8:55:31<8:59:49,  3.72it/s] 68%|██████▊   | 250993/371472 [8:55:31<8:44:02,  3.83it/s] 68%|██████▊   | 250994/371472 [8:55:31<8:43:42,  3.83it/s] 68%|██████▊   | 250995/371472 [8:55:32<9:35:06,  3.49it/s] 68%|██████▊   | 250996/371472 [8:55:32<9:04:46,  3.69it/s] 68%|██████▊   | 250997/371472 [8:55:32<9:19:07,  3.59it/s] 68%|██████▊   | 250998/371472 [8:55:32<9:21:34,  3.58it/s] 68%|██████▊   | 250999/371472 [8:55:33<9:07:16,  3.67it/s] 68%|██████▊   | 251000/371472 [8:55:33<9:24:51,  3.55it/s]                                                           {'loss': 2.6517, 'learning_rate': 3.920360274946669e-07, 'epoch': 10.81}
 68%|██████▊   | 251000/371472 [8:55:33<9:24:51,  3.55it/s] 68%|██████▊   | 251001/371472 [8:55:33<9:02:21,  3.70it/s] 68%|██████▊   | 251002/371472 [8:55:34<9:04:44,  3.69it/s] 68%|██████▊   | 251003/371472 [8:55:34<9:35:33,  3.49it/s] 68%|██████▊   | 251004/371472 [8:55:34<9:49:58,  3.40it/s] 68%|██████▊   | 251005/371472 [8:55:34<9:56:32,  3.37it/s] 68%|██████▊   | 251006/371472 [8:55:35<9:24:29,  3.56it/s] 68%|██████▊   | 251007/371472 [8:55:35<8:55:52,  3.75it/s] 68%|██████▊   | 251008/371472 [8:55:35<8:43:17,  3.84it/s] 68%|██████▊   | 251009/371472 [8:55:35<8:26:38,  3.96it/s] 68%|██████▊   | 251010/371472 [8:55:36<8:50:50,  3.78it/s] 68%|██████▊   | 251011/371472 [8:55:36<8:57:33,  3.73it/s] 68%|██████▊   | 251012/371472 [8:55:36<9:34:15,  3.50it/s] 68%|██████▊   | 251013/371472 [8:55:37<9:16:00,  3.61it/s] 68%|██████▊   | 251014/371472 [8:55:37<9:22:19,  3.57it/s] 68%|██████▊   | 251015/371472 [8:55:37<10:29:10,  3.19it/s] 68%|██████▊   | 251016/371472 [8:55:38<10:14:10,  3.27it/s] 68%|██████▊   | 251017/371472 [8:55:38<10:33:49,  3.17it/s] 68%|██████▊   | 251018/371472 [8:55:38<9:48:58,  3.41it/s]  68%|██████▊   | 251019/371472 [8:55:38<9:14:10,  3.62it/s] 68%|██████▊   | 251020/371472 [8:55:39<8:58:32,  3.73it/s]                                                           {'loss': 2.8317, 'learning_rate': 3.919875455191881e-07, 'epoch': 10.81}
 68%|██████▊   | 251020/371472 [8:55:39<8:58:32,  3.73it/s] 68%|██████▊   | 251021/371472 [8:55:39<9:02:53,  3.70it/s] 68%|██████▊   | 251022/371472 [8:55:39<9:10:03,  3.65it/s] 68%|██████▊   | 251023/371472 [8:55:39<8:56:14,  3.74it/s] 68%|██████▊   | 251024/371472 [8:55:40<9:34:32,  3.49it/s] 68%|██████▊   | 251025/371472 [8:55:40<9:44:51,  3.43it/s] 68%|██████▊   | 251026/371472 [8:55:40<10:14:15,  3.27it/s] 68%|██████▊   | 251027/371472 [8:55:41<10:03:39,  3.33it/s] 68%|██████▊   | 251028/371472 [8:55:41<9:20:35,  3.58it/s]  68%|██████▊   | 251029/371472 [8:55:41<9:37:06,  3.48it/s] 68%|██████▊   | 251030/371472 [8:55:41<9:25:59,  3.55it/s] 68%|██████▊   | 251031/371472 [8:55:42<9:16:31,  3.61it/s] 68%|██████▊   | 251032/371472 [8:55:42<9:16:37,  3.61it/s] 68%|██████▊   | 251033/371472 [8:55:42<9:19:08,  3.59it/s] 68%|██████▊   | 251034/371472 [8:55:43<9:06:47,  3.67it/s] 68%|██████▊   | 251035/371472 [8:55:43<10:09:15,  3.29it/s] 68%|██████▊   | 251036/371472 [8:55:43<9:53:10,  3.38it/s]  68%|██████▊   | 251037/371472 [8:55:43<9:43:58,  3.44it/s] 68%|██████▊   | 251038/371472 [8:55:44<9:26:10,  3.55it/s] 68%|██████▊   | 251039/371472 [8:55:44<9:25:27,  3.55it/s] 68%|██████▊   | 251040/371472 [8:55:44<9:40:34,  3.46it/s]                                                           {'loss': 2.7965, 'learning_rate': 3.9193906354370917e-07, 'epoch': 10.81}
 68%|██████▊   | 251040/371472 [8:55:44<9:40:34,  3.46it/s] 68%|██████▊   | 251041/371472 [8:55:45<9:45:37,  3.43it/s] 68%|██████▊   | 251042/371472 [8:55:45<9:11:15,  3.64it/s] 68%|██████▊   | 251043/371472 [8:55:45<9:40:42,  3.46it/s] 68%|██████▊   | 251044/371472 [8:55:46<10:00:56,  3.34it/s] 68%|██████▊   | 251045/371472 [8:55:46<10:03:28,  3.33it/s] 68%|██████▊   | 251046/371472 [8:55:46<9:32:47,  3.50it/s]  68%|██████▊   | 251047/371472 [8:55:46<9:03:11,  3.70it/s] 68%|██████▊   | 251048/371472 [8:55:47<9:17:10,  3.60it/s] 68%|██████▊   | 251049/371472 [8:55:47<9:22:28,  3.57it/s] 68%|██████▊   | 251050/371472 [8:55:47<9:26:44,  3.54it/s] 68%|██████▊   | 251051/371472 [8:55:47<9:22:16,  3.57it/s] 68%|██████▊   | 251052/371472 [8:55:48<9:53:36,  3.38it/s] 68%|██████▊   | 251053/371472 [8:55:48<10:05:24,  3.32it/s] 68%|██████▊   | 251054/371472 [8:55:48<9:52:02,  3.39it/s]  68%|██████▊   | 251055/371472 [8:55:49<9:33:13,  3.50it/s] 68%|██████▊   | 251056/371472 [8:55:49<9:12:01,  3.64it/s] 68%|██████▊   | 251057/371472 [8:55:49<9:17:57,  3.60it/s] 68%|██████▊   | 251058/371472 [8:55:49<9:25:09,  3.55it/s] 68%|██████▊   | 251059/371472 [8:55:50<9:50:20,  3.40it/s] 68%|██████▊   | 251060/371472 [8:55:50<9:38:00,  3.47it/s]                                                           {'loss': 2.8637, 'learning_rate': 3.918905815682303e-07, 'epoch': 10.81}
 68%|██████▊   | 251060/371472 [8:55:50<9:38:00,  3.47it/s] 68%|██████▊   | 251061/371472 [8:55:50<9:49:59,  3.40it/s] 68%|██████▊   | 251062/371472 [8:55:51<9:47:47,  3.41it/s] 68%|██████▊   | 251063/371472 [8:55:51<10:08:43,  3.30it/s] 68%|██████▊   | 251064/371472 [8:55:51<9:57:23,  3.36it/s]  68%|██████▊   | 251065/371472 [8:55:52<9:29:53,  3.52it/s] 68%|██████▊   | 251066/371472 [8:55:52<9:12:16,  3.63it/s] 68%|██████▊   | 251067/371472 [8:55:52<8:55:08,  3.75it/s] 68%|██████▊   | 251068/371472 [8:55:52<8:57:53,  3.73it/s] 68%|██████▊   | 251069/371472 [8:55:53<9:03:54,  3.69it/s] 68%|██████▊   | 251070/371472 [8:55:53<9:10:26,  3.65it/s] 68%|██████▊   | 251071/371472 [8:55:53<9:12:20,  3.63it/s] 68%|██████▊   | 251072/371472 [8:55:53<9:13:23,  3.63it/s] 68%|██████▊   | 251073/371472 [8:55:54<9:01:15,  3.71it/s] 68%|██████▊   | 251074/371472 [8:55:54<9:47:19,  3.42it/s] 68%|██████▊   | 251075/371472 [8:55:54<9:28:14,  3.53it/s] 68%|██████▊   | 251076/371472 [8:55:54<9:00:25,  3.71it/s] 68%|██████▊   | 251077/371472 [8:55:55<9:37:17,  3.48it/s] 68%|██████▊   | 251078/371472 [8:55:55<9:21:22,  3.57it/s] 68%|██████▊   | 251079/371472 [8:55:55<9:00:47,  3.71it/s] 68%|██████▊   | 251080/371472 [8:55:56<8:51:46,  3.77it/s]                                                           {'loss': 2.8462, 'learning_rate': 3.9184209959275136e-07, 'epoch': 10.81}
 68%|██████▊   | 251080/371472 [8:55:56<8:51:46,  3.77it/s] 68%|██████▊   | 251081/371472 [8:55:56<8:51:48,  3.77it/s] 68%|██████▊   | 251082/371472 [8:55:56<9:03:33,  3.69it/s] 68%|██████▊   | 251083/371472 [8:55:56<8:44:50,  3.82it/s] 68%|██████▊   | 251084/371472 [8:55:57<9:04:28,  3.69it/s] 68%|██████▊   | 251085/371472 [8:55:57<9:30:29,  3.52it/s] 68%|██████▊   | 251086/371472 [8:55:57<9:18:10,  3.59it/s] 68%|██████▊   | 251087/371472 [8:55:58<10:16:41,  3.25it/s] 68%|██████▊   | 251088/371472 [8:55:58<11:03:06,  3.03it/s] 68%|██████▊   | 251089/371472 [8:55:58<10:04:27,  3.32it/s] 68%|██████▊   | 251090/371472 [8:55:59<9:47:24,  3.42it/s]  68%|██████▊   | 251091/371472 [8:55:59<9:27:41,  3.53it/s] 68%|██████▊   | 251092/371472 [8:55:59<9:20:50,  3.58it/s] 68%|██████▊   | 251093/371472 [8:55:59<9:28:40,  3.53it/s] 68%|██████▊   | 251094/371472 [8:56:00<9:16:43,  3.60it/s] 68%|██████▊   | 251095/371472 [8:56:00<9:27:22,  3.54it/s] 68%|██████▊   | 251096/371472 [8:56:00<10:05:40,  3.31it/s] 68%|██████▊   | 251097/371472 [8:56:01<9:37:38,  3.47it/s]  68%|██████▊   | 251098/371472 [8:56:01<11:25:36,  2.93it/s] 68%|██████▊   | 251099/371472 [8:56:01<10:22:26,  3.22it/s] 68%|██████▊   | 251100/371472 [8:56:01<9:50:32,  3.40it/s]                                                            {'loss': 2.8885, 'learning_rate': 3.9179361761727254e-07, 'epoch': 10.82}
 68%|██████▊   | 251100/371472 [8:56:01<9:50:32,  3.40it/s] 68%|██████▊   | 251101/371472 [8:56:02<9:43:32,  3.44it/s] 68%|██████▊   | 251102/371472 [8:56:02<9:45:25,  3.43it/s] 68%|██████▊   | 251103/371472 [8:56:02<9:39:27,  3.46it/s] 68%|██████▊   | 251104/371472 [8:56:03<9:49:03,  3.41it/s] 68%|██████▊   | 251105/371472 [8:56:03<9:29:21,  3.52it/s] 68%|██████▊   | 251106/371472 [8:56:03<9:00:50,  3.71it/s] 68%|██████▊   | 251107/371472 [8:56:03<8:41:00,  3.85it/s] 68%|██████▊   | 251108/371472 [8:56:04<9:18:45,  3.59it/s] 68%|██████▊   | 251109/371472 [8:56:04<9:08:00,  3.66it/s] 68%|██████▊   | 251110/371472 [8:56:04<8:51:58,  3.77it/s] 68%|██████▊   | 251111/371472 [8:56:04<8:41:55,  3.84it/s] 68%|██████▊   | 251112/371472 [8:56:05<8:38:51,  3.87it/s] 68%|██████▊   | 251113/371472 [8:56:05<8:45:49,  3.81it/s] 68%|██████▊   | 251114/371472 [8:56:05<10:43:04,  3.12it/s] 68%|██████▊   | 251115/371472 [8:56:06<10:06:54,  3.31it/s] 68%|██████▊   | 251116/371472 [8:56:06<10:09:34,  3.29it/s] 68%|██████▊   | 251117/371472 [8:56:06<9:33:37,  3.50it/s]  68%|██████▊   | 251118/371472 [8:56:07<9:47:00,  3.42it/s] 68%|██████▊   | 251119/371472 [8:56:07<10:04:26,  3.32it/s] 68%|██████▊   | 251120/371472 [8:56:07<9:35:04,  3.49it/s]                                                            {'loss': 2.7104, 'learning_rate': 3.917451356417936e-07, 'epoch': 10.82}
 68%|██████▊   | 251120/371472 [8:56:07<9:35:04,  3.49it/s] 68%|██████▊   | 251121/371472 [8:56:07<10:32:01,  3.17it/s] 68%|██████▊   | 251122/371472 [8:56:08<10:01:22,  3.34it/s] 68%|██████▊   | 251123/371472 [8:56:08<9:44:01,  3.43it/s]  68%|██████▊   | 251124/371472 [8:56:08<9:22:00,  3.57it/s] 68%|██████▊   | 251125/371472 [8:56:09<9:33:05,  3.50it/s] 68%|██████▊   | 251126/371472 [8:56:09<9:15:02,  3.61it/s] 68%|██████▊   | 251127/371472 [8:56:09<9:16:02,  3.61it/s] 68%|██████▊   | 251128/371472 [8:56:09<8:54:53,  3.75it/s] 68%|██████▊   | 251129/371472 [8:56:10<8:54:50,  3.75it/s] 68%|██████▊   | 251130/371472 [8:56:10<9:12:31,  3.63it/s] 68%|██████▊   | 251131/371472 [8:56:10<8:55:03,  3.75it/s] 68%|██████▊   | 251132/371472 [8:56:10<9:08:42,  3.66it/s] 68%|██████▊   | 251133/371472 [8:56:11<8:57:31,  3.73it/s] 68%|██████▊   | 251134/371472 [8:56:11<8:42:45,  3.84it/s] 68%|██████▊   | 251135/371472 [8:56:11<8:52:39,  3.77it/s] 68%|██████▊   | 251136/371472 [8:56:11<8:46:39,  3.81it/s] 68%|██████▊   | 251137/371472 [8:56:12<8:31:56,  3.92it/s] 68%|██████▊   | 251138/371472 [8:56:12<8:44:42,  3.82it/s] 68%|██████▊   | 251139/371472 [8:56:12<8:48:47,  3.79it/s] 68%|██████▊   | 251140/371472 [8:56:13<9:08:32,  3.66it/s]                                                           {'loss': 2.9144, 'learning_rate': 3.9169665366631474e-07, 'epoch': 10.82}
 68%|██████▊   | 251140/371472 [8:56:13<9:08:32,  3.66it/s] 68%|██████▊   | 251141/371472 [8:56:13<9:21:52,  3.57it/s] 68%|██████▊   | 251142/371472 [8:56:13<9:06:55,  3.67it/s] 68%|██████▊   | 251143/371472 [8:56:13<9:00:31,  3.71it/s] 68%|██████▊   | 251144/371472 [8:56:14<9:16:48,  3.60it/s] 68%|██████▊   | 251145/371472 [8:56:14<9:01:33,  3.70it/s] 68%|██████▊   | 251146/371472 [8:56:14<8:45:48,  3.81it/s] 68%|██████▊   | 251147/371472 [8:56:14<8:54:42,  3.75it/s] 68%|██████▊   | 251148/371472 [8:56:15<10:45:45,  3.11it/s] 68%|██████▊   | 251149/371472 [8:56:15<10:06:13,  3.31it/s] 68%|██████▊   | 251150/371472 [8:56:15<9:59:53,  3.34it/s]  68%|██████▊   | 251151/371472 [8:56:16<9:42:16,  3.44it/s] 68%|██████▊   | 251152/371472 [8:56:16<9:20:07,  3.58it/s] 68%|██████▊   | 251153/371472 [8:56:16<9:03:30,  3.69it/s] 68%|██████▊   | 251154/371472 [8:56:16<8:42:25,  3.84it/s] 68%|██████▊   | 251155/371472 [8:56:17<8:53:02,  3.76it/s] 68%|██████▊   | 251156/371472 [8:56:17<8:56:08,  3.74it/s] 68%|██████▊   | 251157/371472 [8:56:17<9:19:55,  3.58it/s] 68%|██████▊   | 251158/371472 [8:56:18<9:35:34,  3.48it/s] 68%|██████▊   | 251159/371472 [8:56:18<9:12:11,  3.63it/s] 68%|██████▊   | 251160/371472 [8:56:18<9:49:14,  3.40it/s]                                                           {'loss': 2.9292, 'learning_rate': 3.916481716908358e-07, 'epoch': 10.82}
 68%|██████▊   | 251160/371472 [8:56:18<9:49:14,  3.40it/s] 68%|██████▊   | 251161/371472 [8:56:19<10:08:03,  3.30it/s] 68%|██████▊   | 251162/371472 [8:56:19<9:44:55,  3.43it/s]  68%|██████▊   | 251163/371472 [8:56:19<9:58:32,  3.35it/s] 68%|██████▊   | 251164/371472 [8:56:19<9:43:45,  3.43it/s] 68%|██████▊   | 251165/371472 [8:56:20<9:47:39,  3.41it/s] 68%|██████▊   | 251166/371472 [8:56:20<10:02:41,  3.33it/s] 68%|██████▊   | 251167/371472 [8:56:20<10:02:13,  3.33it/s] 68%|██████▊   | 251168/371472 [8:56:21<9:17:32,  3.60it/s]  68%|██████▊   | 251169/371472 [8:56:21<10:10:47,  3.28it/s] 68%|██████▊   | 251170/371472 [8:56:21<10:23:38,  3.22it/s] 68%|██████▊   | 251171/371472 [8:56:22<10:04:03,  3.32it/s] 68%|██████▊   | 251172/371472 [8:56:22<11:06:05,  3.01it/s] 68%|██████▊   | 251173/371472 [8:56:22<10:55:43,  3.06it/s] 68%|██████▊   | 251174/371472 [8:56:23<10:29:03,  3.19it/s] 68%|██████▊   | 251175/371472 [8:56:23<9:47:26,  3.41it/s]  68%|██████▊   | 251176/371472 [8:56:23<9:29:49,  3.52it/s] 68%|██████▊   | 251177/371472 [8:56:23<9:56:35,  3.36it/s] 68%|██████▊   | 251178/371472 [8:56:24<9:43:37,  3.44it/s] 68%|██████▊   | 251179/371472 [8:56:24<9:22:14,  3.57it/s] 68%|██████▊   | 251180/371472 [8:56:24<9:03:41,  3.69it/s]                                                           {'loss': 2.7636, 'learning_rate': 3.91599689715357e-07, 'epoch': 10.82}
 68%|██████▊   | 251180/371472 [8:56:24<9:03:41,  3.69it/s] 68%|██████▊   | 251181/371472 [8:56:24<9:10:27,  3.64it/s] 68%|██████▊   | 251182/371472 [8:56:25<8:51:16,  3.77it/s] 68%|██████▊   | 251183/371472 [8:56:25<8:45:48,  3.81it/s] 68%|██████▊   | 251184/371472 [8:56:25<8:37:26,  3.87it/s] 68%|██████▊   | 251185/371472 [8:56:25<9:20:41,  3.58it/s] 68%|██████▊   | 251186/371472 [8:56:26<9:35:06,  3.49it/s] 68%|██████▊   | 251187/371472 [8:56:26<9:09:23,  3.65it/s] 68%|██████▊   | 251188/371472 [8:56:26<8:55:58,  3.74it/s] 68%|██████▊   | 251189/371472 [8:56:27<8:56:35,  3.74it/s] 68%|██████▊   | 251190/371472 [8:56:27<9:06:57,  3.67it/s] 68%|██████▊   | 251191/371472 [8:56:27<9:22:19,  3.56it/s] 68%|██████▊   | 251192/371472 [8:56:27<9:11:38,  3.63it/s] 68%|██████▊   | 251193/371472 [8:56:28<9:06:36,  3.67it/s] 68%|██████▊   | 251194/371472 [8:56:28<9:17:53,  3.59it/s] 68%|██████▊   | 251195/371472 [8:56:28<9:10:38,  3.64it/s] 68%|██████▊   | 251196/371472 [8:56:29<9:18:38,  3.59it/s] 68%|██████▊   | 251197/371472 [8:56:29<9:09:40,  3.65it/s] 68%|██████▊   | 251198/371472 [8:56:29<9:01:34,  3.70it/s] 68%|██████▊   | 251199/371472 [8:56:29<9:15:03,  3.61it/s] 68%|██████▊   | 251200/371472 [8:56:30<9:23:46,  3.56it/s]                                                           {'loss': 2.9416, 'learning_rate': 3.91551207739878e-07, 'epoch': 10.82}
 68%|██████▊   | 251200/371472 [8:56:30<9:23:46,  3.56it/s] 68%|██████▊   | 251201/371472 [8:56:30<9:17:11,  3.60it/s] 68%|██████▊   | 251202/371472 [8:56:30<9:27:26,  3.53it/s] 68%|██████▊   | 251203/371472 [8:56:30<9:16:27,  3.60it/s] 68%|██████▊   | 251204/371472 [8:56:31<9:39:05,  3.46it/s] 68%|██████▊   | 251205/371472 [8:56:31<9:25:03,  3.55it/s] 68%|██████▊   | 251206/371472 [8:56:31<9:14:03,  3.62it/s] 68%|██████▊   | 251207/371472 [8:56:32<9:02:03,  3.70it/s] 68%|██████▊   | 251208/371472 [8:56:32<8:58:50,  3.72it/s] 68%|██████▊   | 251209/371472 [8:56:32<8:59:11,  3.72it/s] 68%|██████▊   | 251210/371472 [8:56:32<9:04:22,  3.68it/s] 68%|██████▊   | 251211/371472 [8:56:33<9:18:08,  3.59it/s] 68%|██████▊   | 251212/371472 [8:56:33<9:02:01,  3.70it/s] 68%|██████▊   | 251213/371472 [8:56:33<8:49:06,  3.79it/s] 68%|██████▊   | 251214/371472 [8:56:33<8:46:34,  3.81it/s] 68%|██████▊   | 251215/371472 [8:56:34<8:59:50,  3.71it/s] 68%|██████▊   | 251216/371472 [8:56:34<9:19:47,  3.58it/s] 68%|██████▊   | 251217/371472 [8:56:34<9:21:20,  3.57it/s] 68%|██████▊   | 251218/371472 [8:56:35<9:13:26,  3.62it/s] 68%|██████▊   | 251219/371472 [8:56:35<9:41:54,  3.44it/s] 68%|██████▊   | 251220/371472 [8:56:35<11:02:22,  3.03it/s]                                                            {'loss': 2.8762, 'learning_rate': 3.915027257643992e-07, 'epoch': 10.82}
 68%|██████▊   | 251220/371472 [8:56:35<11:02:22,  3.03it/s] 68%|██████▊   | 251221/371472 [8:56:36<10:33:27,  3.16it/s] 68%|██████▊   | 251222/371472 [8:56:36<9:52:05,  3.38it/s]  68%|██████▊   | 251223/371472 [8:56:36<10:03:29,  3.32it/s] 68%|██████▊   | 251224/371472 [8:56:36<10:05:10,  3.31it/s] 68%|██████▊   | 251225/371472 [8:56:37<9:39:00,  3.46it/s]  68%|██████▊   | 251226/371472 [8:56:37<9:19:49,  3.58it/s] 68%|██████▊   | 251227/371472 [8:56:37<9:30:41,  3.51it/s] 68%|██████▊   | 251228/371472 [8:56:38<9:34:12,  3.49it/s] 68%|██████▊   | 251229/371472 [8:56:38<9:08:11,  3.66it/s] 68%|██████▊   | 251230/371472 [8:56:38<9:25:24,  3.54it/s] 68%|██████▊   | 251231/371472 [8:56:38<9:09:53,  3.64it/s] 68%|██████▊   | 251232/371472 [8:56:39<8:41:38,  3.84it/s] 68%|██████▊   | 251233/371472 [8:56:39<8:53:34,  3.76it/s] 68%|██████▊   | 251234/371472 [8:56:39<9:00:38,  3.71it/s] 68%|██████▊   | 251235/371472 [8:56:40<11:05:22,  3.01it/s] 68%|██████▊   | 251236/371472 [8:56:40<10:40:39,  3.13it/s] 68%|██████▊   | 251237/371472 [8:56:40<9:53:34,  3.38it/s]  68%|██████▊   | 251238/371472 [8:56:40<9:22:45,  3.56it/s] 68%|██████▊   | 251239/371472 [8:56:41<9:41:28,  3.45it/s] 68%|██████▊   | 251240/371472 [8:56:41<9:53:10,  3.38it/s]                                                           {'loss': 2.8578, 'learning_rate': 3.9145424378892025e-07, 'epoch': 10.82}
 68%|██████▊   | 251240/371472 [8:56:41<9:53:10,  3.38it/s] 68%|██████▊   | 251241/371472 [8:56:41<9:20:29,  3.58it/s] 68%|██████▊   | 251242/371472 [8:56:42<9:19:16,  3.58it/s] 68%|██████▊   | 251243/371472 [8:56:42<9:07:10,  3.66it/s] 68%|██████▊   | 251244/371472 [8:56:42<8:50:16,  3.78it/s] 68%|██████▊   | 251245/371472 [8:56:42<8:36:29,  3.88it/s] 68%|██████▊   | 251246/371472 [8:56:43<9:10:29,  3.64it/s] 68%|██████▊   | 251247/371472 [8:56:43<9:08:14,  3.65it/s] 68%|██████▊   | 251248/371472 [8:56:43<9:48:11,  3.41it/s] 68%|██████▊   | 251249/371472 [8:56:43<9:37:04,  3.47it/s] 68%|██████▊   | 251250/371472 [8:56:44<9:40:52,  3.45it/s] 68%|██████▊   | 251251/371472 [8:56:44<9:18:54,  3.58it/s] 68%|██████▊   | 251252/371472 [8:56:44<9:35:43,  3.48it/s] 68%|██████▊   | 251253/371472 [8:56:45<10:02:24,  3.33it/s] 68%|██████▊   | 251254/371472 [8:56:45<9:32:01,  3.50it/s]  68%|██████▊   | 251255/371472 [8:56:45<9:14:28,  3.61it/s] 68%|██████▊   | 251256/371472 [8:56:45<9:27:06,  3.53it/s] 68%|██████▊   | 251257/371472 [8:56:46<9:10:59,  3.64it/s] 68%|██████▊   | 251258/371472 [8:56:46<9:32:50,  3.50it/s] 68%|██████▊   | 251259/371472 [8:56:46<9:34:55,  3.48it/s] 68%|██████▊   | 251260/371472 [8:56:47<10:08:12,  3.29it/s]                                                            {'loss': 2.9038, 'learning_rate': 3.9140576181344127e-07, 'epoch': 10.82}
 68%|██████▊   | 251260/371472 [8:56:47<10:08:12,  3.29it/s] 68%|██████▊   | 251261/371472 [8:56:47<10:01:06,  3.33it/s] 68%|██████▊   | 251262/371472 [8:56:47<10:38:39,  3.14it/s] 68%|██████▊   | 251263/371472 [8:56:48<10:17:58,  3.24it/s] 68%|██████▊   | 251264/371472 [8:56:48<9:56:30,  3.36it/s]  68%|██████▊   | 251265/371472 [8:56:48<9:23:09,  3.56it/s] 68%|██████▊   | 251266/371472 [8:56:48<9:33:07,  3.50it/s] 68%|██████▊   | 251267/371472 [8:56:49<9:12:34,  3.63it/s] 68%|██████▊   | 251268/371472 [8:56:49<9:10:15,  3.64it/s] 68%|██████▊   | 251269/371472 [8:56:49<9:17:45,  3.59it/s] 68%|██████▊   | 251270/371472 [8:56:49<8:58:22,  3.72it/s] 68%|██████▊   | 251271/371472 [8:56:50<9:00:35,  3.71it/s] 68%|██████▊   | 251272/371472 [8:56:50<9:07:36,  3.66it/s] 68%|██████▊   | 251273/371472 [8:56:50<9:16:46,  3.60it/s] 68%|██████▊   | 251274/371472 [8:56:51<9:29:08,  3.52it/s] 68%|██████▊   | 251275/371472 [8:56:51<9:11:26,  3.63it/s] 68%|██████▊   | 251276/371472 [8:56:51<9:22:20,  3.56it/s] 68%|██████▊   | 251277/371472 [8:56:51<9:09:27,  3.65it/s] 68%|██████▊   | 251278/371472 [8:56:52<9:01:49,  3.70it/s] 68%|██████▊   | 251279/371472 [8:56:52<8:51:53,  3.77it/s] 68%|██████▊   | 251280/371472 [8:56:52<9:12:25,  3.63it/s]                                                           {'loss': 2.8882, 'learning_rate': 3.9135727983796245e-07, 'epoch': 10.82}
 68%|██████▊   | 251280/371472 [8:56:52<9:12:25,  3.63it/s] 68%|██████▊   | 251281/371472 [8:56:52<8:56:36,  3.73it/s] 68%|██████▊   | 251282/371472 [8:56:53<8:55:58,  3.74it/s] 68%|██████▊   | 251283/371472 [8:56:53<8:56:07,  3.74it/s] 68%|██████▊   | 251284/371472 [8:56:53<8:51:24,  3.77it/s] 68%|██████▊   | 251285/371472 [8:56:54<9:05:25,  3.67it/s] 68%|██████▊   | 251286/371472 [8:56:54<9:16:13,  3.60it/s] 68%|██████▊   | 251287/371472 [8:56:54<9:15:29,  3.61it/s] 68%|██████▊   | 251288/371472 [8:56:54<9:05:29,  3.67it/s] 68%|██████▊   | 251289/371472 [8:56:55<9:25:17,  3.54it/s] 68%|██████▊   | 251290/371472 [8:56:55<9:46:46,  3.41it/s] 68%|██████▊   | 251291/371472 [8:56:55<9:22:01,  3.56it/s] 68%|██████▊   | 251292/371472 [8:56:56<9:49:58,  3.40it/s] 68%|██████▊   | 251293/371472 [8:56:56<9:35:08,  3.48it/s] 68%|██████▊   | 251294/371472 [8:56:56<9:27:15,  3.53it/s] 68%|██████▊   | 251295/371472 [8:56:56<9:17:03,  3.60it/s] 68%|██████▊   | 251296/371472 [8:56:57<9:18:46,  3.58it/s] 68%|██████▊   | 251297/371472 [8:56:57<9:27:33,  3.53it/s] 68%|██████▊   | 251298/371472 [8:56:57<9:16:16,  3.60it/s] 68%|██████▊   | 251299/371472 [8:56:58<9:07:50,  3.66it/s] 68%|██████▊   | 251300/371472 [8:56:58<9:04:20,  3.68it/s]                                                           {'loss': 2.8898, 'learning_rate': 3.913087978624835e-07, 'epoch': 10.82}
 68%|██████▊   | 251300/371472 [8:56:58<9:04:20,  3.68it/s] 68%|██████▊   | 251301/371472 [8:56:58<9:37:29,  3.47it/s] 68%|██████▊   | 251302/371472 [8:56:58<9:13:33,  3.62it/s] 68%|██████▊   | 251303/371472 [8:56:59<9:07:51,  3.66it/s] 68%|██████▊   | 251304/371472 [8:56:59<9:00:49,  3.70it/s] 68%|██████▊   | 251305/371472 [8:56:59<8:39:34,  3.85it/s] 68%|██████▊   | 251306/371472 [8:56:59<9:01:00,  3.70it/s] 68%|██████▊   | 251307/371472 [8:57:00<8:59:06,  3.71it/s] 68%|██████▊   | 251308/371472 [8:57:00<9:34:08,  3.49it/s] 68%|██████▊   | 251309/371472 [8:57:00<9:17:35,  3.59it/s] 68%|██████▊   | 251310/371472 [8:57:01<9:18:54,  3.58it/s] 68%|██████▊   | 251311/371472 [8:57:01<9:04:21,  3.68it/s] 68%|██████▊   | 251312/371472 [8:57:01<9:01:45,  3.70it/s] 68%|██████▊   | 251313/371472 [8:57:01<8:59:18,  3.71it/s] 68%|██████▊   | 251314/371472 [8:57:02<9:23:11,  3.56it/s] 68%|██████▊   | 251315/371472 [8:57:02<9:17:21,  3.59it/s] 68%|██████▊   | 251316/371472 [8:57:02<10:38:14,  3.14it/s] 68%|██████▊   | 251317/371472 [8:57:03<10:06:24,  3.30it/s] 68%|██████▊   | 251318/371472 [8:57:03<10:57:40,  3.04it/s] 68%|██████▊   | 251319/371472 [8:57:03<10:25:07,  3.20it/s] 68%|██████▊   | 251320/371472 [8:57:04<9:49:40,  3.40it/s]                                                            {'loss': 2.8746, 'learning_rate': 3.9126031588700465e-07, 'epoch': 10.82}
 68%|██████▊   | 251320/371472 [8:57:04<9:49:40,  3.40it/s] 68%|██████▊   | 251321/371472 [8:57:04<10:04:00,  3.32it/s] 68%|██████▊   | 251322/371472 [8:57:04<9:38:45,  3.46it/s]  68%|██████▊   | 251323/371472 [8:57:04<9:26:14,  3.54it/s] 68%|██████▊   | 251324/371472 [8:57:05<9:30:46,  3.51it/s] 68%|██████▊   | 251325/371472 [8:57:05<8:59:00,  3.72it/s] 68%|██████▊   | 251326/371472 [8:57:05<8:54:49,  3.74it/s] 68%|██████▊   | 251327/371472 [8:57:06<10:09:34,  3.28it/s] 68%|██████▊   | 251328/371472 [8:57:06<9:43:30,  3.43it/s]  68%|██████▊   | 251329/371472 [8:57:06<9:19:19,  3.58it/s] 68%|██████▊   | 251330/371472 [8:57:06<8:52:54,  3.76it/s] 68%|██████▊   | 251331/371472 [8:57:07<8:55:41,  3.74it/s] 68%|██████▊   | 251332/371472 [8:57:07<9:44:01,  3.43it/s] 68%|██████▊   | 251333/371472 [8:57:07<9:46:43,  3.41it/s] 68%|██████▊   | 251334/371472 [8:57:07<9:18:18,  3.59it/s] 68%|██████▊   | 251335/371472 [8:57:08<9:05:55,  3.67it/s] 68%|██████▊   | 251336/371472 [8:57:08<8:56:14,  3.73it/s] 68%|██████▊   | 251337/371472 [8:57:08<8:44:58,  3.81it/s] 68%|██████▊   | 251338/371472 [8:57:09<10:12:21,  3.27it/s] 68%|██████▊   | 251339/371472 [8:57:09<10:14:46,  3.26it/s] 68%|██████▊   | 251340/371472 [8:57:09<9:52:37,  3.38it/s]                                                            {'loss': 2.9246, 'learning_rate': 3.912118339115257e-07, 'epoch': 10.83}
 68%|██████▊   | 251340/371472 [8:57:09<9:52:37,  3.38it/s] 68%|██████▊   | 251341/371472 [8:57:09<9:31:47,  3.50it/s] 68%|██████▊   | 251342/371472 [8:57:10<9:50:26,  3.39it/s] 68%|██████▊   | 251343/371472 [8:57:10<9:34:10,  3.49it/s] 68%|██████▊   | 251344/371472 [8:57:10<9:34:43,  3.48it/s] 68%|██████▊   | 251345/371472 [8:57:11<10:10:12,  3.28it/s] 68%|██████▊   | 251346/371472 [8:57:11<9:45:41,  3.42it/s]  68%|██████▊   | 251347/371472 [8:57:11<10:21:27,  3.22it/s] 68%|██████▊   | 251348/371472 [8:57:12<9:47:39,  3.41it/s]  68%|██████▊   | 251349/371472 [8:57:12<9:17:44,  3.59it/s] 68%|██████▊   | 251350/371472 [8:57:12<9:09:42,  3.64it/s] 68%|██████▊   | 251351/371472 [8:57:12<9:25:12,  3.54it/s] 68%|██████▊   | 251352/371472 [8:57:13<9:52:32,  3.38it/s] 68%|██████▊   | 251353/371472 [8:57:13<9:52:45,  3.38it/s] 68%|██████▊   | 251354/371472 [8:57:13<10:14:35,  3.26it/s] 68%|██████▊   | 251355/371472 [8:57:14<9:34:32,  3.48it/s]  68%|██████▊   | 251356/371472 [8:57:14<9:41:48,  3.44it/s] 68%|██████▊   | 251357/371472 [8:57:14<9:36:08,  3.47it/s] 68%|██████▊   | 251358/371472 [8:57:14<9:58:21,  3.35it/s] 68%|██████▊   | 251359/371472 [8:57:15<9:26:36,  3.53it/s] 68%|██████▊   | 251360/371472 [8:57:15<9:04:02,  3.68it/s]                                                           {'loss': 2.8203, 'learning_rate': 3.911633519360469e-07, 'epoch': 10.83}
 68%|██████▊   | 251360/371472 [8:57:15<9:04:02,  3.68it/s] 68%|██████▊   | 251361/371472 [8:57:15<9:22:06,  3.56it/s] 68%|██████▊   | 251362/371472 [8:57:16<9:26:55,  3.53it/s] 68%|██████▊   | 251363/371472 [8:57:16<10:01:43,  3.33it/s] 68%|██████▊   | 251364/371472 [8:57:16<9:36:49,  3.47it/s]  68%|██████▊   | 251365/371472 [8:57:16<9:35:43,  3.48it/s] 68%|██████▊   | 251366/371472 [8:57:17<9:34:44,  3.48it/s] 68%|██████▊   | 251367/371472 [8:57:17<9:44:57,  3.42it/s] 68%|██████▊   | 251368/371472 [8:57:17<9:22:06,  3.56it/s] 68%|██████▊   | 251369/371472 [8:57:18<9:03:26,  3.68it/s] 68%|██████▊   | 251370/371472 [8:57:18<9:11:45,  3.63it/s] 68%|██████▊   | 251371/371472 [8:57:18<9:31:58,  3.50it/s] 68%|██████▊   | 251372/371472 [8:57:18<9:36:57,  3.47it/s] 68%|██████▊   | 251373/371472 [8:57:19<9:18:23,  3.58it/s] 68%|██████▊   | 251374/371472 [8:57:19<9:08:38,  3.65it/s] 68%|██████▊   | 251375/371472 [8:57:19<8:50:57,  3.77it/s] 68%|██████▊   | 251376/371472 [8:57:19<8:37:40,  3.87it/s] 68%|██████▊   | 251377/371472 [8:57:20<8:45:48,  3.81it/s] 68%|██████▊   | 251378/371472 [8:57:20<8:39:00,  3.86it/s] 68%|██████▊   | 251379/371472 [8:57:20<8:48:53,  3.78it/s] 68%|██████▊   | 251380/371472 [8:57:20<8:49:49,  3.78it/s]                                                           {'loss': 2.7926, 'learning_rate': 3.911148699605679e-07, 'epoch': 10.83}
 68%|██████▊   | 251380/371472 [8:57:20<8:49:49,  3.78it/s] 68%|██████▊   | 251381/371472 [8:57:21<8:41:38,  3.84it/s] 68%|██████▊   | 251382/371472 [8:57:21<8:37:20,  3.87it/s] 68%|██████▊   | 251383/371472 [8:57:21<9:06:04,  3.67it/s] 68%|██████▊   | 251384/371472 [8:57:22<8:44:32,  3.82it/s] 68%|██████▊   | 251385/371472 [8:57:22<8:50:37,  3.77it/s] 68%|██████▊   | 251386/371472 [8:57:22<8:56:37,  3.73it/s] 68%|██████▊   | 251387/371472 [8:57:22<9:25:16,  3.54it/s] 68%|██████▊   | 251388/371472 [8:57:23<9:39:46,  3.45it/s] 68%|██████▊   | 251389/371472 [8:57:23<9:19:28,  3.58it/s] 68%|██████▊   | 251390/371472 [8:57:23<9:28:21,  3.52it/s] 68%|██████▊   | 251391/371472 [8:57:24<10:15:27,  3.25it/s] 68%|██████▊   | 251392/371472 [8:57:24<10:29:47,  3.18it/s] 68%|██████▊   | 251393/371472 [8:57:24<10:16:25,  3.25it/s] 68%|██████▊   | 251394/371472 [8:57:25<10:23:15,  3.21it/s] 68%|██████▊   | 251395/371472 [8:57:25<9:39:15,  3.45it/s]  68%|██████▊   | 251396/371472 [8:57:25<9:59:34,  3.34it/s] 68%|██████▊   | 251397/371472 [8:57:25<9:50:45,  3.39it/s] 68%|██████▊   | 251398/371472 [8:57:26<9:49:27,  3.40it/s] 68%|██████▊   | 251399/371472 [8:57:26<9:42:05,  3.44it/s] 68%|██████▊   | 251400/371472 [8:57:26<10:10:46,  3.28it/s]                                                            {'loss': 2.6715, 'learning_rate': 3.9106638798508904e-07, 'epoch': 10.83}
 68%|██████▊   | 251400/371472 [8:57:26<10:10:46,  3.28it/s] 68%|██████▊   | 251401/371472 [8:57:27<9:42:21,  3.44it/s]  68%|██████▊   | 251402/371472 [8:57:27<9:16:50,  3.59it/s] 68%|██████▊   | 251403/371472 [8:57:27<9:44:26,  3.42it/s] 68%|██████▊   | 251404/371472 [8:57:27<9:45:10,  3.42it/s] 68%|██████▊   | 251405/371472 [8:57:28<9:20:29,  3.57it/s] 68%|██████▊   | 251406/371472 [8:57:28<9:12:37,  3.62it/s] 68%|██████▊   | 251407/371472 [8:57:28<9:31:17,  3.50it/s] 68%|██████▊   | 251408/371472 [8:57:29<9:36:00,  3.47it/s] 68%|██████▊   | 251409/371472 [8:57:29<9:15:57,  3.60it/s] 68%|██████▊   | 251410/371472 [8:57:29<9:25:28,  3.54it/s] 68%|██████▊   | 251411/371472 [8:57:29<10:08:07,  3.29it/s] 68%|██████▊   | 251412/371472 [8:57:30<10:16:40,  3.24it/s] 68%|██████▊   | 251413/371472 [8:57:30<10:03:55,  3.31it/s] 68%|██████▊   | 251414/371472 [8:57:30<9:45:01,  3.42it/s]  68%|██████▊   | 251415/371472 [8:57:31<9:39:25,  3.45it/s] 68%|██████▊   | 251416/371472 [8:57:31<9:50:07,  3.39it/s] 68%|██████▊   | 251417/371472 [8:57:31<9:24:43,  3.54it/s] 68%|██████▊   | 251418/371472 [8:57:32<9:53:55,  3.37it/s] 68%|██████▊   | 251419/371472 [8:57:32<9:38:36,  3.46it/s] 68%|██████▊   | 251420/371472 [8:57:32<9:44:21,  3.42it/s]                                                           {'loss': 2.8358, 'learning_rate': 3.9101790600961016e-07, 'epoch': 10.83}
 68%|██████▊   | 251420/371472 [8:57:32<9:44:21,  3.42it/s] 68%|██████▊   | 251421/371472 [8:57:32<9:16:41,  3.59it/s] 68%|██████▊   | 251422/371472 [8:57:33<9:02:59,  3.68it/s] 68%|██████▊   | 251423/371472 [8:57:33<9:57:32,  3.35it/s] 68%|██████▊   | 251424/371472 [8:57:33<10:13:22,  3.26it/s] 68%|██████▊   | 251425/371472 [8:57:34<9:56:09,  3.36it/s]  68%|██████▊   | 251426/371472 [8:57:34<9:33:29,  3.49it/s] 68%|██████▊   | 251427/371472 [8:57:34<9:09:18,  3.64it/s] 68%|██████▊   | 251428/371472 [8:57:34<9:31:31,  3.50it/s] 68%|██████▊   | 251429/371472 [8:57:35<9:41:37,  3.44it/s] 68%|██████▊   | 251430/371472 [8:57:35<9:05:10,  3.67it/s] 68%|██████▊   | 251431/371472 [8:57:35<9:01:22,  3.70it/s] 68%|██████▊   | 251432/371472 [8:57:35<8:48:38,  3.78it/s] 68%|██████▊   | 251433/371472 [8:57:36<8:47:55,  3.79it/s] 68%|██████▊   | 251434/371472 [8:57:36<8:52:21,  3.76it/s] 68%|██████▊   | 251435/371472 [8:57:36<8:54:09,  3.75it/s] 68%|██████▊   | 251436/371472 [8:57:37<9:17:25,  3.59it/s] 68%|██████▊   | 251437/371472 [8:57:37<9:17:03,  3.59it/s] 68%|██████▊   | 251438/371472 [8:57:37<9:06:53,  3.66it/s] 68%|██████▊   | 251439/371472 [8:57:37<9:02:42,  3.69it/s] 68%|██████▊   | 251440/371472 [8:57:38<8:47:21,  3.79it/s]                                                           {'loss': 2.7255, 'learning_rate': 3.909694240341313e-07, 'epoch': 10.83}
 68%|██████▊   | 251440/371472 [8:57:38<8:47:21,  3.79it/s] 68%|██████▊   | 251441/371472 [8:57:38<8:39:25,  3.85it/s] 68%|██████▊   | 251442/371472 [8:57:38<9:10:24,  3.63it/s] 68%|██████▊   | 251443/371472 [8:57:38<9:00:01,  3.70it/s] 68%|██████▊   | 251444/371472 [8:57:39<8:46:56,  3.80it/s] 68%|██████▊   | 251445/371472 [8:57:39<8:40:23,  3.84it/s] 68%|██████▊   | 251446/371472 [8:57:39<9:22:59,  3.55it/s] 68%|██████▊   | 251447/371472 [8:57:40<9:29:23,  3.51it/s] 68%|██████▊   | 251448/371472 [8:57:40<9:12:16,  3.62it/s] 68%|██████▊   | 251449/371472 [8:57:40<8:54:01,  3.75it/s] 68%|██████▊   | 251450/371472 [8:57:40<9:17:55,  3.59it/s] 68%|██████▊   | 251451/371472 [8:57:41<8:51:03,  3.77it/s] 68%|██████▊   | 251452/371472 [8:57:41<8:47:56,  3.79it/s] 68%|██████▊   | 251453/371472 [8:57:41<8:34:50,  3.89it/s] 68%|██████▊   | 251454/371472 [8:57:41<8:26:44,  3.95it/s] 68%|██████▊   | 251455/371472 [8:57:42<8:55:42,  3.73it/s] 68%|██████▊   | 251456/371472 [8:57:42<9:41:54,  3.44it/s] 68%|██████▊   | 251457/371472 [8:57:42<9:43:09,  3.43it/s] 68%|██████▊   | 251458/371472 [8:57:43<9:52:04,  3.38it/s] 68%|██████▊   | 251459/371472 [8:57:43<9:44:29,  3.42it/s] 68%|██████▊   | 251460/371472 [8:57:43<10:06:01,  3.30it/s]                                                            {'loss': 2.8978, 'learning_rate': 3.9092094205865236e-07, 'epoch': 10.83}
 68%|██████▊   | 251460/371472 [8:57:43<10:06:01,  3.30it/s] 68%|██████▊   | 251461/371472 [8:57:44<10:27:55,  3.19it/s] 68%|██████▊   | 251462/371472 [8:57:44<9:35:54,  3.47it/s]  68%|██████▊   | 251463/371472 [8:57:44<9:10:41,  3.63it/s] 68%|██████▊   | 251464/371472 [8:57:44<9:16:27,  3.59it/s] 68%|██████▊   | 251465/371472 [8:57:45<8:59:49,  3.71it/s] 68%|██████▊   | 251466/371472 [8:57:45<9:17:45,  3.59it/s] 68%|██████▊   | 251467/371472 [8:57:45<9:12:38,  3.62it/s] 68%|██████▊   | 251468/371472 [8:57:45<9:04:22,  3.67it/s] 68%|██████▊   | 251469/371472 [8:57:46<8:53:40,  3.75it/s] 68%|██████▊   | 251470/371472 [8:57:46<8:45:48,  3.80it/s] 68%|██████▊   | 251471/371472 [8:57:46<9:17:35,  3.59it/s] 68%|██████▊   | 251472/371472 [8:57:46<9:11:03,  3.63it/s] 68%|██████▊   | 251473/371472 [8:57:47<9:03:44,  3.68it/s] 68%|██████▊   | 251474/371472 [8:57:47<9:30:51,  3.50it/s] 68%|██████▊   | 251475/371472 [8:57:47<9:10:38,  3.63it/s] 68%|██████▊   | 251476/371472 [8:57:48<8:52:17,  3.76it/s] 68%|██████▊   | 251477/371472 [8:57:48<8:36:57,  3.87it/s] 68%|██████▊   | 251478/371472 [8:57:48<8:32:19,  3.90it/s] 68%|██████▊   | 251479/371472 [8:57:48<8:45:57,  3.80it/s] 68%|██████▊   | 251480/371472 [8:57:49<9:32:50,  3.49it/s]                                                           {'loss': 2.8346, 'learning_rate': 3.9087246008317354e-07, 'epoch': 10.83}
 68%|██████▊   | 251480/371472 [8:57:49<9:32:50,  3.49it/s] 68%|██████▊   | 251481/371472 [8:57:49<10:18:29,  3.23it/s] 68%|██████▊   | 251482/371472 [8:57:49<10:22:38,  3.21it/s] 68%|██████▊   | 251483/371472 [8:57:50<12:10:36,  2.74it/s] 68%|██████▊   | 251484/371472 [8:57:50<11:45:35,  2.83it/s] 68%|██████▊   | 251485/371472 [8:57:50<11:15:37,  2.96it/s] 68%|██████▊   | 251486/371472 [8:57:51<11:03:08,  3.02it/s] 68%|██████▊   | 251487/371472 [8:57:51<10:44:44,  3.10it/s] 68%|██████▊   | 251488/371472 [8:57:51<9:58:55,  3.34it/s]  68%|██████▊   | 251489/371472 [8:57:52<9:31:30,  3.50it/s] 68%|██████▊   | 251490/371472 [8:57:52<9:21:19,  3.56it/s] 68%|██████▊   | 251491/371472 [8:57:52<9:19:07,  3.58it/s] 68%|██████▊   | 251492/371472 [8:57:52<9:08:28,  3.65it/s] 68%|██████▊   | 251493/371472 [8:57:53<9:15:17,  3.60it/s] 68%|██████▊   | 251494/371472 [8:57:53<8:58:02,  3.72it/s] 68%|██████▊   | 251495/371472 [8:57:53<8:45:55,  3.80it/s] 68%|██████▊   | 251496/371472 [8:57:53<8:54:04,  3.74it/s] 68%|██████▊   | 251497/371472 [8:57:54<9:03:38,  3.68it/s] 68%|██████▊   | 251498/371472 [8:57:54<9:02:54,  3.68it/s] 68%|██████▊   | 251499/371472 [8:57:54<9:21:11,  3.56it/s] 68%|██████▊   | 251500/371472 [8:57:55<9:19:55,  3.57it/s]                                                           {'loss': 2.6441, 'learning_rate': 3.908239781076946e-07, 'epoch': 10.83}
 68%|██████▊   | 251500/371472 [8:57:55<9:19:55,  3.57it/s] 68%|██████▊   | 251501/371472 [8:57:55<10:12:33,  3.26it/s] 68%|██████▊   | 251502/371472 [8:57:55<9:36:44,  3.47it/s]  68%|██████▊   | 251503/371472 [8:57:55<9:31:30,  3.50it/s] 68%|██████▊   | 251504/371472 [8:57:56<9:06:18,  3.66it/s] 68%|██████▊   | 251505/371472 [8:57:56<9:17:15,  3.59it/s] 68%|██████▊   | 251506/371472 [8:57:56<9:44:38,  3.42it/s] 68%|██████▊   | 251507/371472 [8:57:57<9:35:53,  3.47it/s] 68%|██████▊   | 251508/371472 [8:57:57<9:55:04,  3.36it/s] 68%|██████▊   | 251509/371472 [8:57:57<10:37:03,  3.14it/s] 68%|██████▊   | 251510/371472 [8:57:58<10:22:59,  3.21it/s] 68%|██████▊   | 251511/371472 [8:57:58<10:11:37,  3.27it/s] 68%|██████▊   | 251512/371472 [8:57:58<9:44:27,  3.42it/s]  68%|██████▊   | 251513/371472 [8:57:58<9:23:07,  3.55it/s] 68%|██████▊   | 251514/371472 [8:57:59<9:24:45,  3.54it/s] 68%|██████▊   | 251515/371472 [8:57:59<9:25:56,  3.53it/s] 68%|██████▊   | 251516/371472 [8:57:59<9:27:31,  3.52it/s] 68%|██████▊   | 251517/371472 [8:57:59<9:09:12,  3.64it/s] 68%|██████▊   | 251518/371472 [8:58:00<8:48:31,  3.78it/s] 68%|██████▊   | 251519/371472 [8:58:00<8:35:33,  3.88it/s] 68%|██████▊   | 251520/371472 [8:58:00<8:21:50,  3.98it/s]                                                           {'loss': 3.0129, 'learning_rate': 3.9077549613221573e-07, 'epoch': 10.83}
 68%|██████▊   | 251520/371472 [8:58:00<8:21:50,  3.98it/s] 68%|██████▊   | 251521/371472 [8:58:00<8:29:06,  3.93it/s] 68%|██████▊   | 251522/371472 [8:58:01<8:23:51,  3.97it/s] 68%|██████▊   | 251523/371472 [8:58:01<8:25:43,  3.95it/s] 68%|██████▊   | 251524/371472 [8:58:01<8:29:43,  3.92it/s] 68%|██████▊   | 251525/371472 [8:58:02<8:48:34,  3.78it/s] 68%|██████▊   | 251526/371472 [8:58:02<9:00:53,  3.70it/s] 68%|██████▊   | 251527/371472 [8:58:02<9:10:47,  3.63it/s] 68%|██████▊   | 251528/371472 [8:58:02<9:36:05,  3.47it/s] 68%|██████▊   | 251529/371472 [8:58:03<13:43:59,  2.43it/s] 68%|██████▊   | 251530/371472 [8:58:03<12:07:12,  2.75it/s] 68%|██████▊   | 251531/371472 [8:58:04<12:21:24,  2.70it/s] 68%|██████▊   | 251532/371472 [8:58:04<11:30:26,  2.90it/s] 68%|██████▊   | 251533/371472 [8:58:04<10:30:08,  3.17it/s] 68%|██████▊   | 251534/371472 [8:58:05<9:47:37,  3.40it/s]  68%|██████▊   | 251535/371472 [8:58:05<9:27:13,  3.52it/s] 68%|██████▊   | 251536/371472 [8:58:05<9:24:22,  3.54it/s] 68%|██████▊   | 251537/371472 [8:58:05<9:10:44,  3.63it/s] 68%|██████▊   | 251538/371472 [8:58:06<9:08:17,  3.65it/s] 68%|██████▊   | 251539/371472 [8:58:06<9:56:32,  3.35it/s] 68%|██████▊   | 251540/371472 [8:58:06<9:39:41,  3.45it/s]                                                           {'loss': 2.8213, 'learning_rate': 3.907270141567368e-07, 'epoch': 10.83}
 68%|██████▊   | 251540/371472 [8:58:06<9:39:41,  3.45it/s] 68%|██████▊   | 251541/371472 [8:58:06<9:31:15,  3.50it/s] 68%|██████▊   | 251542/371472 [8:58:07<9:45:14,  3.42it/s] 68%|██████▊   | 251543/371472 [8:58:07<9:27:55,  3.52it/s] 68%|██████▊   | 251544/371472 [8:58:07<9:36:50,  3.47it/s] 68%|██████▊   | 251545/371472 [8:58:08<9:15:30,  3.60it/s] 68%|██████▊   | 251546/371472 [8:58:08<9:33:14,  3.49it/s] 68%|██████▊   | 251547/371472 [8:58:08<10:05:44,  3.30it/s] 68%|██████▊   | 251548/371472 [8:58:09<9:40:05,  3.45it/s]  68%|██████▊   | 251549/371472 [8:58:09<9:35:07,  3.48it/s] 68%|██████▊   | 251550/371472 [8:58:09<9:51:42,  3.38it/s] 68%|██████▊   | 251551/371472 [8:58:09<9:39:55,  3.45it/s] 68%|██████▊   | 251552/371472 [8:58:10<9:32:10,  3.49it/s] 68%|██████▊   | 251553/371472 [8:58:10<9:17:15,  3.59it/s] 68%|██████▊   | 251554/371472 [8:58:10<8:58:47,  3.71it/s] 68%|██████▊   | 251555/371472 [8:58:10<8:48:13,  3.78it/s] 68%|██████▊   | 251556/371472 [8:58:11<9:05:21,  3.66it/s] 68%|██████▊   | 251557/371472 [8:58:11<9:05:27,  3.66it/s] 68%|██████▊   | 251558/371472 [8:58:11<8:54:27,  3.74it/s] 68%|██████▊   | 251559/371472 [8:58:12<8:59:30,  3.70it/s] 68%|██████▊   | 251560/371472 [8:58:12<8:58:35,  3.71it/s]                                                           {'loss': 3.0219, 'learning_rate': 3.90678532181258e-07, 'epoch': 10.84}
 68%|██████▊   | 251560/371472 [8:58:12<8:58:35,  3.71it/s] 68%|██████▊   | 251561/371472 [8:58:12<9:33:55,  3.48it/s] 68%|██████▊   | 251562/371472 [8:58:12<9:23:30,  3.55it/s] 68%|██████▊   | 251563/371472 [8:58:13<9:16:08,  3.59it/s] 68%|██████▊   | 251564/371472 [8:58:13<9:18:21,  3.58it/s] 68%|██████▊   | 251565/371472 [8:58:13<9:14:46,  3.60it/s] 68%|██████▊   | 251566/371472 [8:58:13<9:11:34,  3.62it/s] 68%|██████▊   | 251567/371472 [8:58:14<9:04:33,  3.67it/s] 68%|██████▊   | 251568/371472 [8:58:14<8:51:31,  3.76it/s] 68%|██████▊   | 251569/371472 [8:58:14<8:44:34,  3.81it/s] 68%|██████▊   | 251570/371472 [8:58:15<8:36:31,  3.87it/s] 68%|██████▊   | 251571/371472 [8:58:15<8:46:46,  3.79it/s] 68%|██████▊   | 251572/371472 [8:58:15<8:50:18,  3.77it/s] 68%|██████▊   | 251573/371472 [8:58:15<8:58:05,  3.71it/s] 68%|██████▊   | 251574/371472 [8:58:16<9:02:36,  3.68it/s] 68%|██████▊   | 251575/371472 [8:58:16<9:28:51,  3.51it/s] 68%|██████▊   | 251576/371472 [8:58:16<9:12:44,  3.62it/s] 68%|██████▊   | 251577/371472 [8:58:16<9:06:47,  3.65it/s] 68%|██████▊   | 251578/371472 [8:58:17<8:58:38,  3.71it/s] 68%|██████▊   | 251579/371472 [8:58:17<8:59:15,  3.71it/s] 68%|██████▊   | 251580/371472 [8:58:17<9:15:26,  3.60it/s]                                                           {'loss': 2.7446, 'learning_rate': 3.90630050205779e-07, 'epoch': 10.84}
 68%|██████▊   | 251580/371472 [8:58:17<9:15:26,  3.60it/s] 68%|██████▊   | 251581/371472 [8:58:18<9:14:47,  3.60it/s] 68%|██████▊   | 251582/371472 [8:58:18<9:10:06,  3.63it/s] 68%|██████▊   | 251583/371472 [8:58:18<9:31:46,  3.49it/s] 68%|██████▊   | 251584/371472 [8:58:18<9:37:40,  3.46it/s] 68%|██████▊   | 251585/371472 [8:58:19<10:32:48,  3.16it/s] 68%|██████▊   | 251586/371472 [8:58:19<9:56:41,  3.35it/s]  68%|██████▊   | 251587/371472 [8:58:19<10:10:32,  3.27it/s] 68%|██████▊   | 251588/371472 [8:58:20<10:42:19,  3.11it/s] 68%|██████▊   | 251589/371472 [8:58:20<10:13:28,  3.26it/s] 68%|██████▊   | 251590/371472 [8:58:20<9:51:11,  3.38it/s]  68%|██████▊   | 251591/371472 [8:58:21<9:34:49,  3.48it/s] 68%|██████▊   | 251592/371472 [8:58:21<9:27:04,  3.52it/s] 68%|██████▊   | 251593/371472 [8:58:21<9:26:52,  3.52it/s] 68%|██████▊   | 251594/371472 [8:58:21<9:20:28,  3.56it/s] 68%|██████▊   | 251595/371472 [8:58:22<9:22:02,  3.55it/s] 68%|██████▊   | 251596/371472 [8:58:22<9:23:53,  3.54it/s] 68%|██████▊   | 251597/371472 [8:58:22<9:46:44,  3.41it/s] 68%|██████▊   | 251598/371472 [8:58:23<9:27:35,  3.52it/s] 68%|██████▊   | 251599/371472 [8:58:23<9:16:10,  3.59it/s] 68%|██████▊   | 251600/371472 [8:58:23<9:19:44,  3.57it/s]                                                           {'loss': 2.8841, 'learning_rate': 3.905815682303002e-07, 'epoch': 10.84}
 68%|██████▊   | 251600/371472 [8:58:23<9:19:44,  3.57it/s] 68%|██████▊   | 251601/371472 [8:58:23<9:03:00,  3.68it/s] 68%|██████▊   | 251602/371472 [8:58:24<9:15:00,  3.60it/s] 68%|██████▊   | 251603/371472 [8:58:24<9:00:30,  3.70it/s] 68%|██████▊   | 251604/371472 [8:58:24<9:38:56,  3.45it/s] 68%|██████▊   | 251605/371472 [8:58:24<9:19:35,  3.57it/s] 68%|██████▊   | 251606/371472 [8:58:25<9:15:49,  3.59it/s] 68%|██████▊   | 251607/371472 [8:58:25<9:27:08,  3.52it/s] 68%|██████▊   | 251608/371472 [8:58:25<8:59:42,  3.70it/s] 68%|██████▊   | 251609/371472 [8:58:26<8:41:53,  3.83it/s] 68%|██████▊   | 251610/371472 [8:58:26<8:58:48,  3.71it/s] 68%|██████▊   | 251611/371472 [8:58:26<8:55:32,  3.73it/s] 68%|██████▊   | 251612/371472 [8:58:26<9:11:34,  3.62it/s] 68%|██████▊   | 251613/371472 [8:58:27<10:11:17,  3.27it/s] 68%|██████▊   | 251614/371472 [8:58:27<9:30:08,  3.50it/s]  68%|██████▊   | 251615/371472 [8:58:27<9:27:27,  3.52it/s] 68%|██████▊   | 251616/371472 [8:58:28<9:27:11,  3.52it/s] 68%|██████▊   | 251617/371472 [8:58:28<9:04:22,  3.67it/s] 68%|██████▊   | 251618/371472 [8:58:28<9:13:31,  3.61it/s] 68%|██████▊   | 251619/371472 [8:58:28<9:16:50,  3.59it/s] 68%|██████▊   | 251620/371472 [8:58:29<9:31:55,  3.49it/s]                                                           {'loss': 2.8729, 'learning_rate': 3.9053308625482125e-07, 'epoch': 10.84}
 68%|██████▊   | 251620/371472 [8:58:29<9:31:55,  3.49it/s] 68%|██████▊   | 251621/371472 [8:58:29<9:00:30,  3.70it/s] 68%|██████▊   | 251622/371472 [8:58:29<9:43:26,  3.42it/s] 68%|██████▊   | 251623/371472 [8:58:30<9:22:16,  3.55it/s] 68%|██████▊   | 251624/371472 [8:58:30<8:59:33,  3.70it/s] 68%|██████▊   | 251625/371472 [8:58:30<9:16:09,  3.59it/s] 68%|██████▊   | 251626/371472 [8:58:30<9:03:46,  3.67it/s] 68%|██████▊   | 251627/371472 [8:58:31<8:53:22,  3.74it/s] 68%|██████▊   | 251628/371472 [8:58:31<8:41:01,  3.83it/s] 68%|██████▊   | 251629/371472 [8:58:31<8:46:14,  3.80it/s] 68%|██████▊   | 251630/371472 [8:58:31<8:24:09,  3.96it/s] 68%|██████▊   | 251631/371472 [8:58:32<8:36:53,  3.86it/s] 68%|██████▊   | 251632/371472 [8:58:32<8:49:16,  3.77it/s] 68%|██████▊   | 251633/371472 [8:58:32<9:10:22,  3.63it/s] 68%|██████▊   | 251634/371472 [8:58:32<9:13:31,  3.61it/s] 68%|██████▊   | 251635/371472 [8:58:33<9:11:42,  3.62it/s] 68%|██████▊   | 251636/371472 [8:58:33<9:00:23,  3.70it/s] 68%|██████▊   | 251637/371472 [8:58:33<8:48:26,  3.78it/s] 68%|██████▊   | 251638/371472 [8:58:34<9:17:16,  3.58it/s] 68%|██████▊   | 251639/371472 [8:58:34<9:05:09,  3.66it/s] 68%|██████▊   | 251640/371472 [8:58:34<8:56:53,  3.72it/s]                                                           {'loss': 2.7769, 'learning_rate': 3.9048460427934237e-07, 'epoch': 10.84}
 68%|██████▊   | 251640/371472 [8:58:34<8:56:53,  3.72it/s] 68%|██████▊   | 251641/371472 [8:58:34<9:23:32,  3.54it/s] 68%|██████▊   | 251642/371472 [8:58:35<9:12:24,  3.62it/s] 68%|██████▊   | 251643/371472 [8:58:35<9:04:37,  3.67it/s] 68%|██████▊   | 251644/371472 [8:58:35<9:34:05,  3.48it/s] 68%|██████▊   | 251645/371472 [8:58:36<9:59:15,  3.33it/s] 68%|██████▊   | 251646/371472 [8:58:36<9:41:53,  3.43it/s] 68%|██████▊   | 251647/371472 [8:58:36<9:16:30,  3.59it/s] 68%|██████▊   | 251648/371472 [8:58:36<9:00:22,  3.70it/s] 68%|██████▊   | 251649/371472 [8:58:37<9:00:22,  3.70it/s] 68%|██████▊   | 251650/371472 [8:58:37<9:09:13,  3.64it/s] 68%|██████▊   | 251651/371472 [8:58:37<8:56:37,  3.72it/s] 68%|██████▊   | 251652/371472 [8:58:37<8:56:58,  3.72it/s] 68%|██████▊   | 251653/371472 [8:58:38<9:12:26,  3.61it/s] 68%|██████▊   | 251654/371472 [8:58:38<9:06:46,  3.65it/s] 68%|██████▊   | 251655/371472 [8:58:38<9:14:00,  3.60it/s] 68%|██████▊   | 251656/371472 [8:58:38<8:55:08,  3.73it/s] 68%|██████▊   | 251657/371472 [8:58:39<9:28:01,  3.52it/s] 68%|██████▊   | 251658/371472 [8:58:39<9:16:06,  3.59it/s] 68%|██████▊   | 251659/371472 [8:58:39<9:31:15,  3.50it/s] 68%|██████▊   | 251660/371472 [8:58:40<9:09:43,  3.63it/s]                                                           {'loss': 2.9334, 'learning_rate': 3.9043612230386344e-07, 'epoch': 10.84}
 68%|██████▊   | 251660/371472 [8:58:40<9:09:43,  3.63it/s] 68%|██████▊   | 251661/371472 [8:58:40<8:55:22,  3.73it/s] 68%|██████▊   | 251662/371472 [8:58:40<9:19:35,  3.57it/s] 68%|██████▊   | 251663/371472 [8:58:40<9:02:42,  3.68it/s] 68%|██████▊   | 251664/371472 [8:58:41<8:44:23,  3.81it/s] 68%|██████▊   | 251665/371472 [8:58:41<8:39:14,  3.85it/s] 68%|██████▊   | 251666/371472 [8:58:41<8:47:19,  3.79it/s] 68%|██████▊   | 251667/371472 [8:58:41<8:49:59,  3.77it/s] 68%|██████▊   | 251668/371472 [8:58:42<8:48:30,  3.78it/s] 68%|██████▊   | 251669/371472 [8:58:42<9:03:33,  3.67it/s] 68%|██████▊   | 251670/371472 [8:58:42<9:08:37,  3.64it/s] 68%|██████▊   | 251671/371472 [8:58:43<8:45:27,  3.80it/s] 68%|██████▊   | 251672/371472 [8:58:43<9:35:54,  3.47it/s] 68%|██████▊   | 251673/371472 [8:58:43<9:25:55,  3.53it/s] 68%|██████▊   | 251674/371472 [8:58:43<9:09:14,  3.64it/s] 68%|██████▊   | 251675/371472 [8:58:44<9:00:07,  3.70it/s] 68%|██████▊   | 251676/371472 [8:58:44<10:02:32,  3.31it/s] 68%|██████▊   | 251677/371472 [8:58:44<9:47:14,  3.40it/s]  68%|██████▊   | 251678/371472 [8:58:45<9:54:05,  3.36it/s] 68%|██████▊   | 251679/371472 [8:58:45<9:55:39,  3.35it/s] 68%|██████▊   | 251680/371472 [8:58:45<9:22:03,  3.55it/s]                                                           {'loss': 2.9346, 'learning_rate': 3.903876403283846e-07, 'epoch': 10.84}
 68%|██████▊   | 251680/371472 [8:58:45<9:22:03,  3.55it/s] 68%|██████▊   | 251681/371472 [8:58:45<9:16:35,  3.59it/s] 68%|██████▊   | 251682/371472 [8:58:46<9:13:08,  3.61it/s] 68%|██████▊   | 251683/371472 [8:58:46<9:42:38,  3.43it/s] 68%|██████▊   | 251684/371472 [8:58:46<9:36:29,  3.46it/s] 68%|██████▊   | 251685/371472 [8:58:47<9:22:24,  3.55it/s] 68%|██████▊   | 251686/371472 [8:58:47<9:27:34,  3.52it/s] 68%|██████▊   | 251687/371472 [8:58:47<9:31:43,  3.49it/s] 68%|██████▊   | 251688/371472 [8:58:47<9:25:27,  3.53it/s] 68%|██████▊   | 251689/371472 [8:58:48<9:03:51,  3.67it/s] 68%|██████▊   | 251690/371472 [8:58:48<9:35:20,  3.47it/s] 68%|██████▊   | 251691/371472 [8:58:48<9:12:12,  3.62it/s] 68%|██████▊   | 251692/371472 [8:58:49<9:18:13,  3.58it/s] 68%|██████▊   | 251693/371472 [8:58:49<9:23:36,  3.54it/s] 68%|██████▊   | 251694/371472 [8:58:49<9:21:27,  3.56it/s] 68%|██████▊   | 251695/371472 [8:58:49<9:14:02,  3.60it/s] 68%|██████▊   | 251696/371472 [8:58:50<8:54:12,  3.74it/s] 68%|██████▊   | 251697/371472 [8:58:50<8:48:00,  3.78it/s] 68%|██████▊   | 251698/371472 [8:58:50<9:39:10,  3.45it/s] 68%|██████▊   | 251699/371472 [8:58:51<9:40:35,  3.44it/s] 68%|██████▊   | 251700/371472 [8:58:51<9:22:49,  3.55it/s]                                                           {'loss': 2.9054, 'learning_rate': 3.9033915835290564e-07, 'epoch': 10.84}
 68%|██████▊   | 251700/371472 [8:58:51<9:22:49,  3.55it/s] 68%|██████▊   | 251701/371472 [8:58:51<9:04:42,  3.66it/s] 68%|██████▊   | 251702/371472 [8:58:51<8:54:48,  3.73it/s] 68%|██████▊   | 251703/371472 [8:58:52<9:13:37,  3.61it/s] 68%|██████▊   | 251704/371472 [8:58:52<9:31:36,  3.49it/s] 68%|██████▊   | 251705/371472 [8:58:52<9:32:51,  3.48it/s] 68%|██████▊   | 251706/371472 [8:58:53<10:36:00,  3.14it/s] 68%|██████▊   | 251707/371472 [8:58:53<10:07:12,  3.29it/s] 68%|██████▊   | 251708/371472 [8:58:53<10:52:29,  3.06it/s] 68%|██████▊   | 251709/371472 [8:58:54<10:15:13,  3.24it/s] 68%|██████▊   | 251710/371472 [8:58:54<10:27:21,  3.18it/s] 68%|██████▊   | 251711/371472 [8:58:54<9:53:10,  3.37it/s]  68%|██████▊   | 251712/371472 [8:58:54<9:21:09,  3.56it/s] 68%|██████▊   | 251713/371472 [8:58:55<9:09:55,  3.63it/s] 68%|██████▊   | 251714/371472 [8:58:55<9:06:16,  3.65it/s] 68%|██████▊   | 251715/371472 [8:58:55<9:09:20,  3.63it/s] 68%|██████▊   | 251716/371472 [8:58:55<8:58:40,  3.71it/s] 68%|██████▊   | 251717/371472 [8:58:56<8:47:21,  3.78it/s] 68%|██████▊   | 251718/371472 [8:58:56<8:40:34,  3.83it/s] 68%|██████▊   | 251719/371472 [8:58:56<8:52:56,  3.75it/s] 68%|██████▊   | 251720/371472 [8:58:56<9:01:55,  3.68it/s]                                                           {'loss': 2.8851, 'learning_rate': 3.902906763774268e-07, 'epoch': 10.84}
 68%|██████▊   | 251720/371472 [8:58:56<9:01:55,  3.68it/s] 68%|██████▊   | 251721/371472 [8:58:57<9:00:35,  3.69it/s] 68%|██████▊   | 251722/371472 [8:58:57<8:41:58,  3.82it/s] 68%|██████▊   | 251723/371472 [8:58:57<8:23:22,  3.96it/s] 68%|██████▊   | 251724/371472 [8:58:57<8:33:32,  3.89it/s] 68%|██████▊   | 251725/371472 [8:58:58<8:35:00,  3.88it/s] 68%|██████▊   | 251726/371472 [8:58:58<8:56:38,  3.72it/s] 68%|██████▊   | 251727/371472 [8:58:58<9:24:46,  3.53it/s] 68%|██████▊   | 251728/371472 [8:58:59<9:47:16,  3.40it/s] 68%|██████▊   | 251729/371472 [8:58:59<9:25:56,  3.53it/s] 68%|██████▊   | 251730/371472 [8:58:59<9:07:54,  3.64it/s] 68%|██████▊   | 251731/371472 [8:58:59<8:47:44,  3.78it/s] 68%|██████▊   | 251732/371472 [8:59:00<9:06:14,  3.65it/s] 68%|██████▊   | 251733/371472 [8:59:00<8:59:00,  3.70it/s] 68%|██████▊   | 251734/371472 [8:59:00<9:02:18,  3.68it/s] 68%|██████▊   | 251735/371472 [8:59:01<8:47:14,  3.79it/s] 68%|██████▊   | 251736/371472 [8:59:01<8:45:38,  3.80it/s] 68%|██████▊   | 251737/371472 [8:59:01<9:04:00,  3.67it/s] 68%|██████▊   | 251738/371472 [8:59:01<10:10:38,  3.27it/s] 68%|██████▊   | 251739/371472 [8:59:02<9:46:31,  3.40it/s]  68%|██████▊   | 251740/371472 [8:59:02<9:49:11,  3.39it/s]                                                           {'loss': 2.9972, 'learning_rate': 3.902421944019479e-07, 'epoch': 10.84}
 68%|██████▊   | 251740/371472 [8:59:02<9:49:11,  3.39it/s] 68%|██████▊   | 251741/371472 [8:59:02<9:20:25,  3.56it/s] 68%|██████▊   | 251742/371472 [8:59:03<9:08:36,  3.64it/s] 68%|██████▊   | 251743/371472 [8:59:03<9:07:44,  3.64it/s] 68%|██████▊   | 251744/371472 [8:59:03<9:32:19,  3.49it/s] 68%|██████▊   | 251745/371472 [8:59:03<9:59:57,  3.33it/s] 68%|██████▊   | 251746/371472 [8:59:04<9:58:52,  3.33it/s] 68%|██████▊   | 251747/371472 [8:59:04<9:38:15,  3.45it/s] 68%|██████▊   | 251748/371472 [8:59:04<9:28:32,  3.51it/s] 68%|██████▊   | 251749/371472 [8:59:05<9:16:01,  3.59it/s] 68%|██████▊   | 251750/371472 [8:59:05<9:28:05,  3.51it/s] 68%|██████▊   | 251751/371472 [8:59:05<9:26:33,  3.52it/s] 68%|██████▊   | 251752/371472 [8:59:05<9:28:52,  3.51it/s] 68%|██████▊   | 251753/371472 [8:59:06<9:40:54,  3.43it/s] 68%|██████▊   | 251754/371472 [8:59:06<9:13:24,  3.61it/s] 68%|██████▊   | 251755/371472 [8:59:06<9:17:51,  3.58it/s] 68%|██████▊   | 251756/371472 [8:59:07<9:00:20,  3.69it/s] 68%|██████▊   | 251757/371472 [8:59:07<9:34:25,  3.47it/s] 68%|██████▊   | 251758/371472 [8:59:07<9:01:17,  3.69it/s] 68%|██████▊   | 251759/371472 [8:59:07<9:04:45,  3.66it/s] 68%|██████▊   | 251760/371472 [8:59:08<9:00:34,  3.69it/s]                                                           {'loss': 2.9633, 'learning_rate': 3.90193712426469e-07, 'epoch': 10.84}
 68%|██████▊   | 251760/371472 [8:59:08<9:00:34,  3.69it/s] 68%|██████▊   | 251761/371472 [8:59:08<9:20:23,  3.56it/s] 68%|██████▊   | 251762/371472 [8:59:08<9:31:48,  3.49it/s] 68%|██████▊   | 251763/371472 [8:59:08<9:00:46,  3.69it/s] 68%|██████▊   | 251764/371472 [8:59:09<9:00:51,  3.69it/s] 68%|██████▊   | 251765/371472 [8:59:09<8:55:58,  3.72it/s] 68%|██████▊   | 251766/371472 [8:59:09<8:51:00,  3.76it/s] 68%|██████▊   | 251767/371472 [8:59:10<9:09:59,  3.63it/s] 68%|██████▊   | 251768/371472 [8:59:10<8:57:02,  3.71it/s] 68%|██████▊   | 251769/371472 [8:59:10<9:43:11,  3.42it/s] 68%|██████▊   | 251770/371472 [8:59:10<9:42:45,  3.42it/s] 68%|██████▊   | 251771/371472 [8:59:11<9:14:23,  3.60it/s] 68%|██████▊   | 251772/371472 [8:59:11<9:14:52,  3.60it/s] 68%|██████▊   | 251773/371472 [8:59:11<9:56:07,  3.35it/s] 68%|██████▊   | 251774/371472 [8:59:12<9:35:50,  3.46it/s] 68%|██████▊   | 251775/371472 [8:59:12<9:27:20,  3.52it/s] 68%|██████▊   | 251776/371472 [8:59:12<9:13:07,  3.61it/s] 68%|██████▊   | 251777/371472 [8:59:12<9:06:30,  3.65it/s] 68%|██████▊   | 251778/371472 [8:59:13<9:24:30,  3.53it/s] 68%|██████▊   | 251779/371472 [8:59:13<9:25:57,  3.52it/s] 68%|██████▊   | 251780/371472 [8:59:13<9:03:39,  3.67it/s]                                                           {'loss': 2.8134, 'learning_rate': 3.901452304509901e-07, 'epoch': 10.84}
 68%|██████▊   | 251780/371472 [8:59:13<9:03:39,  3.67it/s] 68%|██████▊   | 251781/371472 [8:59:13<9:08:36,  3.64it/s] 68%|██████▊   | 251782/371472 [8:59:14<9:08:09,  3.64it/s] 68%|██████▊   | 251783/371472 [8:59:14<10:08:21,  3.28it/s] 68%|██████▊   | 251784/371472 [8:59:14<9:55:18,  3.35it/s]  68%|██████▊   | 251785/371472 [8:59:15<9:22:34,  3.55it/s] 68%|██████▊   | 251786/371472 [8:59:15<9:45:53,  3.40it/s] 68%|██████▊   | 251787/371472 [8:59:15<10:05:14,  3.30it/s] 68%|██████▊   | 251788/371472 [8:59:16<9:38:49,  3.45it/s]  68%|██████▊   | 251789/371472 [8:59:16<9:59:20,  3.33it/s] 68%|██████▊   | 251790/371472 [8:59:16<10:04:49,  3.30it/s] 68%|██████▊   | 251791/371472 [8:59:16<9:41:37,  3.43it/s]  68%|██████▊   | 251792/371472 [8:59:17<9:23:55,  3.54it/s] 68%|██████▊   | 251793/371472 [8:59:17<8:58:01,  3.71it/s] 68%|██████▊   | 251794/371472 [8:59:17<8:53:24,  3.74it/s] 68%|██████▊   | 251795/371472 [8:59:18<8:59:33,  3.70it/s] 68%|██████▊   | 251796/371472 [8:59:18<9:16:40,  3.58it/s] 68%|██████▊   | 251797/371472 [8:59:18<9:19:08,  3.57it/s] 68%|██████▊   | 251798/371472 [8:59:18<9:09:24,  3.63it/s] 68%|██████▊   | 251799/371472 [8:59:19<9:24:43,  3.53it/s] 68%|██████▊   | 251800/371472 [8:59:19<9:01:15,  3.68it/s]                                                           {'loss': 2.8373, 'learning_rate': 3.9009674847551116e-07, 'epoch': 10.85}
 68%|██████▊   | 251800/371472 [8:59:19<9:01:15,  3.68it/s] 68%|██████▊   | 251801/371472 [8:59:19<9:17:06,  3.58it/s] 68%|██████▊   | 251802/371472 [8:59:19<8:58:29,  3.70it/s] 68%|██████▊   | 251803/371472 [8:59:20<8:46:39,  3.79it/s] 68%|██████▊   | 251804/371472 [8:59:20<8:44:00,  3.81it/s] 68%|██████▊   | 251805/371472 [8:59:20<9:08:25,  3.64it/s] 68%|██████▊   | 251806/371472 [8:59:21<8:52:33,  3.75it/s] 68%|██████▊   | 251807/371472 [8:59:21<8:51:20,  3.75it/s] 68%|██████▊   | 251808/371472 [8:59:21<9:55:58,  3.35it/s] 68%|██████▊   | 251809/371472 [8:59:21<9:27:10,  3.52it/s] 68%|██████▊   | 251810/371472 [8:59:22<9:10:03,  3.63it/s] 68%|██████▊   | 251811/371472 [8:59:22<8:53:59,  3.73it/s] 68%|██████▊   | 251812/371472 [8:59:22<8:43:51,  3.81it/s] 68%|██████▊   | 251813/371472 [8:59:22<8:46:04,  3.79it/s] 68%|██████▊   | 251814/371472 [8:59:23<8:54:15,  3.73it/s] 68%|██████▊   | 251815/371472 [8:59:23<8:29:18,  3.92it/s] 68%|██████▊   | 251816/371472 [8:59:23<8:45:08,  3.80it/s] 68%|██████▊   | 251817/371472 [8:59:23<8:29:46,  3.91it/s] 68%|██████▊   | 251818/371472 [8:59:24<8:47:19,  3.78it/s] 68%|██████▊   | 251819/371472 [8:59:24<9:53:18,  3.36it/s] 68%|██████▊   | 251820/371472 [8:59:24<9:53:13,  3.36it/s]                                                           {'loss': 3.1026, 'learning_rate': 3.9004826650003233e-07, 'epoch': 10.85}
 68%|██████▊   | 251820/371472 [8:59:24<9:53:13,  3.36it/s] 68%|██████▊   | 251821/371472 [8:59:25<10:17:34,  3.23it/s] 68%|██████▊   | 251822/371472 [8:59:25<10:10:18,  3.27it/s] 68%|██████▊   | 251823/371472 [8:59:25<9:40:27,  3.44it/s]  68%|██████▊   | 251824/371472 [8:59:26<10:43:23,  3.10it/s] 68%|██████▊   | 251825/371472 [8:59:26<10:20:20,  3.21it/s] 68%|██████▊   | 251826/371472 [8:59:26<10:20:51,  3.21it/s] 68%|██████▊   | 251827/371472 [8:59:27<9:55:34,  3.35it/s]  68%|██████▊   | 251828/371472 [8:59:27<9:29:22,  3.50it/s] 68%|██████▊   | 251829/371472 [8:59:27<9:16:58,  3.58it/s] 68%|██████▊   | 251830/371472 [8:59:27<9:33:39,  3.48it/s] 68%|██████▊   | 251831/371472 [8:59:28<9:46:10,  3.40it/s] 68%|██████▊   | 251832/371472 [8:59:28<9:19:45,  3.56it/s] 68%|██████▊   | 251833/371472 [8:59:28<9:13:03,  3.61it/s] 68%|██████▊   | 251834/371472 [8:59:28<9:01:02,  3.69it/s] 68%|██████▊   | 251835/371472 [8:59:29<8:47:32,  3.78it/s] 68%|██████▊   | 251836/371472 [8:59:29<9:00:39,  3.69it/s] 68%|██████▊   | 251837/371472 [8:59:29<8:33:00,  3.89it/s] 68%|██████▊   | 251838/371472 [8:59:30<9:31:55,  3.49it/s] 68%|██████▊   | 251839/371472 [8:59:30<9:06:01,  3.65it/s] 68%|██████▊   | 251840/371472 [8:59:30<8:54:48,  3.73it/s]                                                           {'loss': 2.8209, 'learning_rate': 3.8999978452455335e-07, 'epoch': 10.85}
 68%|██████▊   | 251840/371472 [8:59:30<8:54:48,  3.73it/s] 68%|██████▊   | 251841/371472 [8:59:30<9:26:03,  3.52it/s] 68%|██████▊   | 251842/371472 [8:59:31<9:09:25,  3.63it/s] 68%|██████▊   | 251843/371472 [8:59:31<9:26:30,  3.52it/s] 68%|██████▊   | 251844/371472 [8:59:31<9:03:55,  3.67it/s] 68%|██████▊   | 251845/371472 [8:59:31<8:44:05,  3.80it/s] 68%|██████▊   | 251846/371472 [8:59:32<8:53:15,  3.74it/s] 68%|██████▊   | 251847/371472 [8:59:32<8:54:04,  3.73it/s] 68%|██████▊   | 251848/371472 [8:59:32<8:57:26,  3.71it/s] 68%|██████▊   | 251849/371472 [8:59:33<9:05:16,  3.66it/s] 68%|██████▊   | 251850/371472 [8:59:33<9:02:17,  3.68it/s] 68%|██████▊   | 251851/371472 [8:59:33<8:48:39,  3.77it/s] 68%|██████▊   | 251852/371472 [8:59:33<8:49:28,  3.77it/s] 68%|██████▊   | 251853/371472 [8:59:34<9:19:33,  3.56it/s] 68%|██████▊   | 251854/371472 [8:59:34<9:35:27,  3.46it/s] 68%|██████▊   | 251855/371472 [8:59:34<9:24:48,  3.53it/s] 68%|██████▊   | 251856/371472 [8:59:35<9:37:23,  3.45it/s] 68%|██████▊   | 251857/371472 [8:59:35<9:15:45,  3.59it/s] 68%|██████▊   | 251858/371472 [8:59:35<9:15:32,  3.59it/s] 68%|██████▊   | 251859/371472 [8:59:35<9:19:54,  3.56it/s] 68%|██████▊   | 251860/371472 [8:59:36<8:58:07,  3.70it/s]                                                           {'loss': 2.837, 'learning_rate': 3.8995130254907453e-07, 'epoch': 10.85}
 68%|██████▊   | 251860/371472 [8:59:36<8:58:07,  3.70it/s] 68%|██████▊   | 251861/371472 [8:59:36<8:54:58,  3.73it/s] 68%|██████▊   | 251862/371472 [8:59:36<8:59:54,  3.69it/s] 68%|██████▊   | 251863/371472 [8:59:36<8:45:52,  3.79it/s] 68%|██████▊   | 251864/371472 [8:59:37<8:48:13,  3.77it/s] 68%|██████▊   | 251865/371472 [8:59:37<8:48:08,  3.77it/s] 68%|██████▊   | 251866/371472 [8:59:37<9:07:58,  3.64it/s] 68%|██████▊   | 251867/371472 [8:59:38<10:04:04,  3.30it/s] 68%|██████▊   | 251868/371472 [8:59:38<9:37:08,  3.45it/s]  68%|██████▊   | 251869/371472 [8:59:38<9:13:45,  3.60it/s] 68%|██████▊   | 251870/371472 [8:59:38<9:10:01,  3.62it/s] 68%|██████▊   | 251871/371472 [8:59:39<9:13:11,  3.60it/s] 68%|██████▊   | 251872/371472 [8:59:39<9:12:26,  3.61it/s] 68%|██████▊   | 251873/371472 [8:59:39<9:21:42,  3.55it/s] 68%|██████▊   | 251874/371472 [8:59:39<9:01:12,  3.68it/s] 68%|██████▊   | 251875/371472 [8:59:40<9:07:00,  3.64it/s] 68%|██████▊   | 251876/371472 [8:59:40<9:13:47,  3.60it/s] 68%|██████▊   | 251877/371472 [8:59:40<9:20:20,  3.56it/s] 68%|██████▊   | 251878/371472 [8:59:41<8:54:47,  3.73it/s] 68%|██████▊   | 251879/371472 [8:59:41<9:04:58,  3.66it/s] 68%|██████▊   | 251880/371472 [8:59:41<9:21:05,  3.55it/s]                                                           {'loss': 2.7915, 'learning_rate': 3.899028205735956e-07, 'epoch': 10.85}
 68%|██████▊   | 251880/371472 [8:59:41<9:21:05,  3.55it/s] 68%|██████▊   | 251881/371472 [8:59:41<9:08:35,  3.63it/s] 68%|██████▊   | 251882/371472 [8:59:42<8:54:28,  3.73it/s] 68%|██████▊   | 251883/371472 [8:59:42<8:51:57,  3.75it/s] 68%|██████▊   | 251884/371472 [8:59:42<9:56:16,  3.34it/s] 68%|██████▊   | 251885/371472 [8:59:43<9:47:15,  3.39it/s] 68%|██████▊   | 251886/371472 [8:59:43<9:54:31,  3.35it/s] 68%|██████▊   | 251887/371472 [8:59:43<9:38:34,  3.44it/s] 68%|██████▊   | 251888/371472 [8:59:43<9:56:48,  3.34it/s] 68%|██████▊   | 251889/371472 [8:59:44<9:46:22,  3.40it/s] 68%|██████▊   | 251890/371472 [8:59:44<10:02:53,  3.31it/s] 68%|██████▊   | 251891/371472 [8:59:44<9:53:19,  3.36it/s]  68%|██████▊   | 251892/371472 [8:59:45<9:22:48,  3.54it/s] 68%|██████▊   | 251893/371472 [8:59:45<9:11:22,  3.61it/s] 68%|██████▊   | 251894/371472 [8:59:45<9:31:50,  3.49it/s] 68%|██████▊   | 251895/371472 [8:59:45<9:28:46,  3.50it/s] 68%|██████▊   | 251896/371472 [8:59:46<9:19:29,  3.56it/s] 68%|██████▊   | 251897/371472 [8:59:46<8:58:27,  3.70it/s] 68%|██████▊   | 251898/371472 [8:59:46<9:31:16,  3.49it/s] 68%|██████▊   | 251899/371472 [8:59:47<9:18:27,  3.57it/s] 68%|██████▊   | 251900/371472 [8:59:47<13:06:50,  2.53it/s]                                                            {'loss': 2.8663, 'learning_rate': 3.898543385981167e-07, 'epoch': 10.85}
 68%|██████▊   | 251900/371472 [8:59:47<13:06:50,  2.53it/s] 68%|██████▊   | 251901/371472 [8:59:47<11:42:41,  2.84it/s] 68%|██████▊   | 251902/371472 [8:59:48<11:09:48,  2.98it/s] 68%|██████▊   | 251903/371472 [8:59:48<11:02:35,  3.01it/s] 68%|██████▊   | 251904/371472 [8:59:48<10:29:49,  3.16it/s] 68%|██████▊   | 251905/371472 [8:59:49<10:39:40,  3.12it/s] 68%|██████▊   | 251906/371472 [8:59:49<10:09:46,  3.27it/s] 68%|██████▊   | 251907/371472 [8:59:49<9:53:35,  3.36it/s]  68%|██████▊   | 251908/371472 [8:59:50<9:23:38,  3.54it/s] 68%|██████▊   | 251909/371472 [8:59:50<9:01:13,  3.68it/s] 68%|██████▊   | 251910/371472 [8:59:50<10:06:38,  3.28it/s] 68%|██████▊   | 251911/371472 [8:59:50<9:53:11,  3.36it/s]  68%|██████▊   | 251912/371472 [8:59:51<9:57:59,  3.33it/s] 68%|██████▊   | 251913/371472 [8:59:51<9:45:34,  3.40it/s] 68%|██████▊   | 251914/371472 [8:59:51<9:38:29,  3.44it/s] 68%|██████▊   | 251915/371472 [8:59:52<9:40:45,  3.43it/s] 68%|██████▊   | 251916/371472 [8:59:52<9:11:43,  3.61it/s] 68%|██████▊   | 251917/371472 [8:59:52<9:00:18,  3.69it/s] 68%|██████▊   | 251918/371472 [8:59:52<8:43:26,  3.81it/s] 68%|██████▊   | 251919/371472 [8:59:53<8:44:23,  3.80it/s] 68%|██████▊   | 251920/371472 [8:59:53<8:33:00,  3.88it/s]                                                           {'loss': 2.8782, 'learning_rate': 3.898058566226378e-07, 'epoch': 10.85}
 68%|██████▊   | 251920/371472 [8:59:53<8:33:00,  3.88it/s] 68%|██████▊   | 251921/371472 [8:59:53<8:34:08,  3.88it/s] 68%|██████▊   | 251922/371472 [8:59:53<9:13:04,  3.60it/s] 68%|██████▊   | 251923/371472 [8:59:54<9:09:31,  3.63it/s] 68%|██████▊   | 251924/371472 [8:59:54<9:00:14,  3.69it/s] 68%|██████▊   | 251925/371472 [8:59:54<8:56:03,  3.72it/s] 68%|██████▊   | 251926/371472 [8:59:54<8:45:32,  3.79it/s] 68%|██████▊   | 251927/371472 [8:59:55<8:50:56,  3.75it/s] 68%|██████▊   | 251928/371472 [8:59:55<9:05:32,  3.65it/s] 68%|██████▊   | 251929/371472 [8:59:55<8:59:47,  3.69it/s] 68%|██████▊   | 251930/371472 [8:59:56<8:53:30,  3.73it/s] 68%|██████▊   | 251931/371472 [8:59:56<9:06:27,  3.65it/s] 68%|██████▊   | 251932/371472 [8:59:56<9:07:06,  3.64it/s] 68%|██████▊   | 251933/371472 [8:59:56<8:51:31,  3.75it/s] 68%|██████▊   | 251934/371472 [8:59:57<9:05:45,  3.65it/s] 68%|██████▊   | 251935/371472 [8:59:57<9:02:50,  3.67it/s] 68%|██████▊   | 251936/371472 [8:59:57<9:25:45,  3.52it/s] 68%|██████▊   | 251937/371472 [8:59:57<8:59:47,  3.69it/s] 68%|██████▊   | 251938/371472 [8:59:58<9:39:07,  3.44it/s] 68%|██████▊   | 251939/371472 [8:59:58<10:35:38,  3.13it/s] 68%|██████▊   | 251940/371472 [8:59:58<9:51:33,  3.37it/s]                                                            {'loss': 2.8738, 'learning_rate': 3.89757374647159e-07, 'epoch': 10.85}
 68%|██████▊   | 251940/371472 [8:59:58<9:51:33,  3.37it/s] 68%|██████▊   | 251941/371472 [8:59:59<9:30:13,  3.49it/s] 68%|██████▊   | 251942/371472 [8:59:59<8:55:00,  3.72it/s] 68%|██████▊   | 251943/371472 [8:59:59<8:46:36,  3.78it/s] 68%|██████▊   | 251944/371472 [9:00:00<9:54:34,  3.35it/s] 68%|██████▊   | 251945/371472 [9:00:00<9:39:57,  3.43it/s] 68%|██████▊   | 251946/371472 [9:00:00<9:41:25,  3.43it/s] 68%|██████▊   | 251947/371472 [9:00:00<9:42:30,  3.42it/s] 68%|██████▊   | 251948/371472 [9:00:01<9:33:48,  3.47it/s] 68%|██████▊   | 251949/371472 [9:00:01<9:17:01,  3.58it/s] 68%|██████▊   | 251950/371472 [9:00:01<9:11:37,  3.61it/s] 68%|██████▊   | 251951/371472 [9:00:02<9:13:13,  3.60it/s] 68%|██████▊   | 251952/371472 [9:00:02<8:58:18,  3.70it/s] 68%|██████▊   | 251953/371472 [9:00:02<8:49:31,  3.76it/s] 68%|██████▊   | 251954/371472 [9:00:02<9:43:58,  3.41it/s] 68%|██████▊   | 251955/371472 [9:00:03<9:49:35,  3.38it/s] 68%|██████▊   | 251956/371472 [9:00:03<9:27:26,  3.51it/s] 68%|██████▊   | 251957/371472 [9:00:03<10:28:44,  3.17it/s] 68%|██████▊   | 251958/371472 [9:00:04<9:56:54,  3.34it/s]  68%|██████▊   | 251959/371472 [9:00:04<9:35:48,  3.46it/s] 68%|██████▊   | 251960/371472 [9:00:04<9:52:01,  3.36it/s]                                                           {'loss': 2.7913, 'learning_rate': 3.8970889267168e-07, 'epoch': 10.85}
 68%|██████▊   | 251960/371472 [9:00:04<9:52:01,  3.36it/s] 68%|██████▊   | 251961/371472 [9:00:04<9:33:50,  3.47it/s] 68%|██████▊   | 251962/371472 [9:00:05<9:41:26,  3.43it/s] 68%|██████▊   | 251963/371472 [9:00:05<9:27:17,  3.51it/s] 68%|██████▊   | 251964/371472 [9:00:05<9:39:31,  3.44it/s] 68%|██████▊   | 251965/371472 [9:00:06<9:10:12,  3.62it/s] 68%|██████▊   | 251966/371472 [9:00:06<9:56:05,  3.34it/s] 68%|██████▊   | 251967/371472 [9:00:06<9:29:32,  3.50it/s] 68%|██████▊   | 251968/371472 [9:00:06<9:10:13,  3.62it/s] 68%|██████▊   | 251969/371472 [9:00:07<9:10:13,  3.62it/s] 68%|██████▊   | 251970/371472 [9:00:07<9:13:25,  3.60it/s] 68%|██████▊   | 251971/371472 [9:00:07<8:59:14,  3.69it/s] 68%|██████▊   | 251972/371472 [9:00:07<8:46:11,  3.79it/s] 68%|██████▊   | 251973/371472 [9:00:08<9:33:22,  3.47it/s] 68%|██████▊   | 251974/371472 [9:00:08<9:27:31,  3.51it/s] 68%|██████▊   | 251975/371472 [9:00:08<9:13:37,  3.60it/s] 68%|██████▊   | 251976/371472 [9:00:09<9:25:50,  3.52it/s] 68%|██████▊   | 251977/371472 [9:00:09<10:00:05,  3.32it/s] 68%|██████▊   | 251978/371472 [9:00:09<10:08:06,  3.27it/s] 68%|██████▊   | 251979/371472 [9:00:10<10:09:09,  3.27it/s] 68%|██████▊   | 251980/371472 [9:00:10<9:46:30,  3.40it/s]                                                            {'loss': 3.0585, 'learning_rate': 3.8966041069620117e-07, 'epoch': 10.85}
 68%|██████▊   | 251980/371472 [9:00:10<9:46:30,  3.40it/s] 68%|██████▊   | 251981/371472 [9:00:10<9:25:53,  3.52it/s] 68%|██████▊   | 251982/371472 [9:00:10<9:13:06,  3.60it/s] 68%|██████▊   | 251983/371472 [9:00:11<9:25:30,  3.52it/s] 68%|██████▊   | 251984/371472 [9:00:11<9:17:44,  3.57it/s] 68%|██████▊   | 251985/371472 [9:00:11<9:06:22,  3.64it/s] 68%|██████▊   | 251986/371472 [9:00:12<8:57:23,  3.71it/s] 68%|██████▊   | 251987/371472 [9:00:12<8:52:48,  3.74it/s] 68%|██████▊   | 251988/371472 [9:00:12<8:37:14,  3.85it/s] 68%|██████▊   | 251989/371472 [9:00:12<8:47:44,  3.77it/s] 68%|██████▊   | 251990/371472 [9:00:13<8:44:34,  3.80it/s] 68%|██████▊   | 251991/371472 [9:00:13<8:33:11,  3.88it/s] 68%|██████▊   | 251992/371472 [9:00:13<8:26:12,  3.93it/s] 68%|██████▊   | 251993/371472 [9:00:13<8:15:23,  4.02it/s] 68%|██████▊   | 251994/371472 [9:00:14<8:11:02,  4.06it/s] 68%|██████▊   | 251995/371472 [9:00:14<8:16:17,  4.01it/s] 68%|██████▊   | 251996/371472 [9:00:14<8:21:27,  3.97it/s] 68%|██████▊   | 251997/371472 [9:00:14<8:27:44,  3.92it/s] 68%|██████▊   | 251998/371472 [9:00:15<8:40:32,  3.83it/s] 68%|██████▊   | 251999/371472 [9:00:15<8:40:03,  3.83it/s] 68%|██████▊   | 252000/371472 [9:00:15<8:52:12,  3.74it/s]                                                           {'loss': 2.813, 'learning_rate': 3.8961192872072224e-07, 'epoch': 10.85}
 68%|██████▊   | 252000/371472 [9:00:15<8:52:12,  3.74it/s] 68%|██████▊   | 252001/371472 [9:00:15<8:53:17,  3.73it/s] 68%|██████▊   | 252002/371472 [9:00:16<8:54:19,  3.73it/s] 68%|██████▊   | 252003/371472 [9:00:16<8:52:15,  3.74it/s] 68%|██████▊   | 252004/371472 [9:00:16<8:48:32,  3.77it/s] 68%|██████▊   | 252005/371472 [9:00:16<8:55:02,  3.72it/s] 68%|██████▊   | 252006/371472 [9:00:17<9:04:25,  3.66it/s] 68%|██████▊   | 252007/371472 [9:00:17<9:15:32,  3.58it/s] 68%|██████▊   | 252008/371472 [9:00:17<9:20:26,  3.55it/s] 68%|██████▊   | 252009/371472 [9:00:18<9:20:24,  3.55it/s] 68%|██████▊   | 252010/371472 [9:00:18<9:19:54,  3.56it/s] 68%|██████▊   | 252011/371472 [9:00:18<10:45:20,  3.09it/s] 68%|██████▊   | 252012/371472 [9:00:19<10:41:27,  3.10it/s] 68%|██████▊   | 252013/371472 [9:00:19<10:18:50,  3.22it/s] 68%|██████▊   | 252014/371472 [9:00:19<9:38:02,  3.44it/s]  68%|██████▊   | 252015/371472 [9:00:19<9:30:36,  3.49it/s] 68%|██████▊   | 252016/371472 [9:00:20<9:07:39,  3.64it/s] 68%|██████▊   | 252017/371472 [9:00:20<10:22:58,  3.20it/s] 68%|██████▊   | 252018/371472 [9:00:20<10:08:05,  3.27it/s] 68%|██████▊   | 252019/371472 [9:00:21<9:34:33,  3.47it/s]  68%|██████▊   | 252020/371472 [9:00:21<9:53:25,  3.35it/s]                                                           {'loss': 2.8263, 'learning_rate': 3.8956344674524337e-07, 'epoch': 10.85}
 68%|██████▊   | 252020/371472 [9:00:21<9:53:25,  3.35it/s] 68%|██████▊   | 252021/371472 [9:00:21<10:12:27,  3.25it/s] 68%|██████▊   | 252022/371472 [9:00:22<9:36:24,  3.45it/s]  68%|██████▊   | 252023/371472 [9:00:22<9:07:39,  3.64it/s] 68%|██████▊   | 252024/371472 [9:00:22<8:51:42,  3.74it/s] 68%|██████▊   | 252025/371472 [9:00:22<8:33:34,  3.88it/s] 68%|██████▊   | 252026/371472 [9:00:22<8:34:56,  3.87it/s] 68%|██████▊   | 252027/371472 [9:00:23<8:14:06,  4.03it/s] 68%|██████▊   | 252028/371472 [9:00:23<8:10:59,  4.05it/s] 68%|██████▊   | 252029/371472 [9:00:23<8:25:44,  3.94it/s] 68%|██████▊   | 252030/371472 [9:00:24<8:32:42,  3.88it/s] 68%|██████▊   | 252031/371472 [9:00:24<8:37:33,  3.85it/s] 68%|██████▊   | 252032/371472 [9:00:24<8:54:18,  3.73it/s] 68%|██████▊   | 252033/371472 [9:00:24<9:12:02,  3.61it/s] 68%|██████▊   | 252034/371472 [9:00:25<9:01:10,  3.68it/s] 68%|██████▊   | 252035/371472 [9:00:25<9:14:47,  3.59it/s] 68%|██████▊   | 252036/371472 [9:00:25<8:50:38,  3.75it/s] 68%|██████▊   | 252037/371472 [9:00:25<9:04:44,  3.65it/s] 68%|██████▊   | 252038/371472 [9:00:26<8:45:48,  3.79it/s] 68%|██████▊   | 252039/371472 [9:00:26<9:09:55,  3.62it/s] 68%|██████▊   | 252040/371472 [9:00:26<9:15:03,  3.59it/s]                                                           {'loss': 2.9531, 'learning_rate': 3.8951496476976444e-07, 'epoch': 10.86}
 68%|██████▊   | 252040/371472 [9:00:26<9:15:03,  3.59it/s] 68%|██████▊   | 252041/371472 [9:00:27<9:14:36,  3.59it/s] 68%|██████▊   | 252042/371472 [9:00:27<9:28:41,  3.50it/s] 68%|██████▊   | 252043/371472 [9:00:27<9:42:34,  3.42it/s] 68%|██████▊   | 252044/371472 [9:00:27<9:22:54,  3.54it/s] 68%|██████▊   | 252045/371472 [9:00:28<9:16:06,  3.58it/s] 68%|██████▊   | 252046/371472 [9:00:28<9:05:57,  3.65it/s] 68%|██████▊   | 252047/371472 [9:00:28<9:15:22,  3.58it/s] 68%|██████▊   | 252048/371472 [9:00:29<9:19:25,  3.56it/s] 68%|██████▊   | 252049/371472 [9:00:29<9:39:12,  3.44it/s] 68%|██████▊   | 252050/371472 [9:00:29<9:52:14,  3.36it/s] 68%|██████▊   | 252051/371472 [9:00:29<10:08:25,  3.27it/s] 68%|██████▊   | 252052/371472 [9:00:30<10:13:09,  3.25it/s] 68%|██████▊   | 252053/371472 [9:00:30<10:15:58,  3.23it/s] 68%|██████▊   | 252054/371472 [9:00:30<9:53:15,  3.35it/s]  68%|██████▊   | 252055/371472 [9:00:31<9:30:21,  3.49it/s] 68%|██████▊   | 252056/371472 [9:00:31<9:25:27,  3.52it/s] 68%|██████▊   | 252057/371472 [9:00:31<9:35:38,  3.46it/s] 68%|██████▊   | 252058/371472 [9:00:32<9:42:48,  3.41it/s] 68%|██████▊   | 252059/371472 [9:00:32<9:30:23,  3.49it/s] 68%|██████▊   | 252060/371472 [9:00:32<9:10:53,  3.61it/s]                                                           {'loss': 2.8026, 'learning_rate': 3.894664827942856e-07, 'epoch': 10.86}
 68%|██████▊   | 252060/371472 [9:00:32<9:10:53,  3.61it/s] 68%|██████▊   | 252061/371472 [9:00:32<9:26:40,  3.51it/s] 68%|██████▊   | 252062/371472 [9:00:33<9:31:46,  3.48it/s] 68%|██████▊   | 252063/371472 [9:00:33<9:05:38,  3.65it/s] 68%|██████▊   | 252064/371472 [9:00:33<8:57:15,  3.70it/s] 68%|██████▊   | 252065/371472 [9:00:33<9:08:12,  3.63it/s] 68%|██████▊   | 252066/371472 [9:00:34<9:01:57,  3.67it/s] 68%|██████▊   | 252067/371472 [9:00:34<8:58:06,  3.70it/s] 68%|██████▊   | 252068/371472 [9:00:34<8:57:08,  3.70it/s] 68%|██████▊   | 252069/371472 [9:00:35<9:35:46,  3.46it/s] 68%|██████▊   | 252070/371472 [9:00:35<9:32:14,  3.48it/s] 68%|██████▊   | 252071/371472 [9:00:35<9:46:16,  3.39it/s] 68%|██████▊   | 252072/371472 [9:00:35<9:32:42,  3.47it/s] 68%|██████▊   | 252073/371472 [9:00:36<9:20:57,  3.55it/s] 68%|██████▊   | 252074/371472 [9:00:36<9:06:12,  3.64it/s] 68%|██████▊   | 252075/371472 [9:00:36<8:51:08,  3.75it/s] 68%|██████▊   | 252076/371472 [9:00:37<9:47:27,  3.39it/s] 68%|██████▊   | 252077/371472 [9:00:37<9:38:18,  3.44it/s] 68%|██████▊   | 252078/371472 [9:00:37<9:59:20,  3.32it/s] 68%|██████▊   | 252079/371472 [9:00:37<9:36:36,  3.45it/s] 68%|██████▊   | 252080/371472 [9:00:38<9:46:40,  3.39it/s]                                                           {'loss': 2.8609, 'learning_rate': 3.8941800081880663e-07, 'epoch': 10.86}
 68%|██████▊   | 252080/371472 [9:00:38<9:46:40,  3.39it/s] 68%|██████▊   | 252081/371472 [9:00:38<9:34:17,  3.46it/s] 68%|██████▊   | 252082/371472 [9:00:38<9:03:05,  3.66it/s] 68%|██████▊   | 252083/371472 [9:00:38<8:43:14,  3.80it/s] 68%|██████▊   | 252084/371472 [9:00:39<10:07:14,  3.28it/s] 68%|██████▊   | 252085/371472 [9:00:39<10:21:42,  3.20it/s] 68%|██████▊   | 252086/371472 [9:00:40<11:02:16,  3.00it/s] 68%|██████▊   | 252087/371472 [9:00:40<10:32:21,  3.15it/s] 68%|██████▊   | 252088/371472 [9:00:40<10:21:18,  3.20it/s] 68%|██████▊   | 252089/371472 [9:00:40<9:47:58,  3.38it/s]  68%|██████▊   | 252090/371472 [9:00:41<10:09:32,  3.26it/s] 68%|██████▊   | 252091/371472 [9:00:41<9:53:21,  3.35it/s]  68%|██████▊   | 252092/371472 [9:00:41<9:37:14,  3.45it/s] 68%|██████▊   | 252093/371472 [9:00:42<9:09:31,  3.62it/s] 68%|██████▊   | 252094/371472 [9:00:42<9:30:46,  3.49it/s] 68%|██████▊   | 252095/371472 [9:00:42<9:24:13,  3.53it/s] 68%|██████▊   | 252096/371472 [9:00:42<9:06:07,  3.64it/s] 68%|██████▊   | 252097/371472 [9:00:43<9:02:29,  3.67it/s] 68%|██████▊   | 252098/371472 [9:00:43<9:05:15,  3.65it/s] 68%|██████▊   | 252099/371472 [9:00:43<9:31:41,  3.48it/s] 68%|██████▊   | 252100/371472 [9:00:44<9:32:01,  3.48it/s]                                                           {'loss': 2.8749, 'learning_rate': 3.893695188433278e-07, 'epoch': 10.86}
 68%|██████▊   | 252100/371472 [9:00:44<9:32:01,  3.48it/s] 68%|██████▊   | 252101/371472 [9:00:44<9:13:18,  3.60it/s] 68%|██████▊   | 252102/371472 [9:00:44<8:58:54,  3.69it/s] 68%|██████▊   | 252103/371472 [9:00:44<8:52:58,  3.73it/s] 68%|██████▊   | 252104/371472 [9:00:45<8:59:00,  3.69it/s] 68%|██████▊   | 252105/371472 [9:00:45<8:32:52,  3.88it/s] 68%|██████▊   | 252106/371472 [9:00:45<8:48:24,  3.76it/s] 68%|██████▊   | 252107/371472 [9:00:45<8:40:14,  3.82it/s] 68%|██████▊   | 252108/371472 [9:00:46<8:29:18,  3.91it/s] 68%|██████▊   | 252109/371472 [9:00:46<8:40:19,  3.82it/s] 68%|██████▊   | 252110/371472 [9:00:46<8:38:38,  3.84it/s] 68%|██████▊   | 252111/371472 [9:00:47<9:33:15,  3.47it/s] 68%|██████▊   | 252112/371472 [9:00:47<9:28:56,  3.50it/s] 68%|██████▊   | 252113/371472 [9:00:47<9:33:26,  3.47it/s] 68%|██████▊   | 252114/371472 [9:00:47<9:34:55,  3.46it/s] 68%|██████▊   | 252115/371472 [9:00:48<9:35:44,  3.46it/s] 68%|██████▊   | 252116/371472 [9:00:48<9:33:52,  3.47it/s] 68%|██████▊   | 252117/371472 [9:00:48<10:20:36,  3.21it/s] 68%|██████▊   | 252118/371472 [9:00:49<10:04:05,  3.29it/s] 68%|██████▊   | 252119/371472 [9:00:49<9:40:39,  3.43it/s]  68%|██████▊   | 252120/371472 [9:00:49<9:14:13,  3.59it/s]                                                           {'loss': 2.8547, 'learning_rate': 3.893210368678489e-07, 'epoch': 10.86}
 68%|██████▊   | 252120/371472 [9:00:49<9:14:13,  3.59it/s] 68%|██████▊   | 252121/371472 [9:00:49<9:23:30,  3.53it/s] 68%|██████▊   | 252122/371472 [9:00:50<9:06:06,  3.64it/s] 68%|██████▊   | 252123/371472 [9:00:50<8:59:52,  3.68it/s] 68%|██████▊   | 252124/371472 [9:00:50<8:47:06,  3.77it/s] 68%|██████▊   | 252125/371472 [9:00:50<8:37:16,  3.85it/s] 68%|██████▊   | 252126/371472 [9:00:51<9:14:53,  3.58it/s] 68%|██████▊   | 252127/371472 [9:00:51<9:18:45,  3.56it/s] 68%|██████▊   | 252128/371472 [9:00:51<8:57:44,  3.70it/s] 68%|██████▊   | 252129/371472 [9:00:52<9:02:29,  3.67it/s] 68%|██████▊   | 252130/371472 [9:00:52<8:49:35,  3.76it/s] 68%|██████▊   | 252131/371472 [9:00:52<8:55:46,  3.71it/s] 68%|██████▊   | 252132/371472 [9:00:52<8:55:43,  3.71it/s] 68%|██████▊   | 252133/371472 [9:00:53<9:30:42,  3.49it/s] 68%|██████▊   | 252134/371472 [9:00:53<9:09:24,  3.62it/s] 68%|██████▊   | 252135/371472 [9:00:53<9:40:36,  3.43it/s] 68%|██████▊   | 252136/371472 [9:00:54<9:45:04,  3.40it/s] 68%|██████▊   | 252137/371472 [9:00:54<9:25:51,  3.51it/s] 68%|██████▊   | 252138/371472 [9:00:54<9:20:48,  3.55it/s] 68%|██████▊   | 252139/371472 [9:00:54<9:46:01,  3.39it/s] 68%|██████▊   | 252140/371472 [9:00:55<9:43:48,  3.41it/s]                                                           {'loss': 2.6931, 'learning_rate': 3.8927255489237e-07, 'epoch': 10.86}
 68%|██████▊   | 252140/371472 [9:00:55<9:43:48,  3.41it/s] 68%|██████▊   | 252141/371472 [9:00:55<9:29:31,  3.49it/s] 68%|██████▊   | 252142/371472 [9:00:55<9:33:01,  3.47it/s] 68%|██████▊   | 252143/371472 [9:00:56<9:37:04,  3.45it/s] 68%|██████▊   | 252144/371472 [9:00:56<10:04:36,  3.29it/s] 68%|██████▊   | 252145/371472 [9:00:56<9:35:21,  3.46it/s]  68%|██████▊   | 252146/371472 [9:00:56<9:18:24,  3.56it/s] 68%|██████▊   | 252147/371472 [9:00:57<8:54:35,  3.72it/s] 68%|██████▊   | 252148/371472 [9:00:57<8:58:55,  3.69it/s] 68%|██████▊   | 252149/371472 [9:00:57<8:56:54,  3.70it/s] 68%|██████▊   | 252150/371472 [9:00:57<9:01:52,  3.67it/s] 68%|██████▊   | 252151/371472 [9:00:58<9:00:52,  3.68it/s] 68%|██████▊   | 252152/371472 [9:00:58<9:39:50,  3.43it/s] 68%|██████▊   | 252153/371472 [9:00:58<10:09:19,  3.26it/s] 68%|██████▊   | 252154/371472 [9:00:59<9:57:15,  3.33it/s]  68%|██████▊   | 252155/371472 [9:00:59<10:27:27,  3.17it/s] 68%|██████▊   | 252156/371472 [9:00:59<10:15:01,  3.23it/s] 68%|██████▊   | 252157/371472 [9:01:00<10:05:26,  3.28it/s] 68%|██████▊   | 252158/371472 [9:01:00<9:39:25,  3.43it/s]  68%|██████▊   | 252159/371472 [9:01:00<9:36:49,  3.45it/s] 68%|██████▊   | 252160/371472 [9:01:01<9:41:14,  3.42it/s]                                                           {'loss': 2.9677, 'learning_rate': 3.892240729168911e-07, 'epoch': 10.86}
 68%|██████▊   | 252160/371472 [9:01:01<9:41:14,  3.42it/s] 68%|██████▊   | 252161/371472 [9:01:01<9:08:15,  3.63it/s] 68%|██████▊   | 252162/371472 [9:01:01<9:51:47,  3.36it/s] 68%|██████▊   | 252163/371472 [9:01:01<9:41:49,  3.42it/s] 68%|██████▊   | 252164/371472 [9:01:02<9:47:33,  3.38it/s] 68%|██████▊   | 252165/371472 [9:01:02<9:26:53,  3.51it/s] 68%|██████▊   | 252166/371472 [9:01:02<9:27:35,  3.50it/s] 68%|██████▊   | 252167/371472 [9:01:02<9:25:56,  3.51it/s] 68%|██████▊   | 252168/371472 [9:01:03<9:18:55,  3.56it/s] 68%|██████▊   | 252169/371472 [9:01:03<9:14:02,  3.59it/s] 68%|██████▊   | 252170/371472 [9:01:03<9:06:55,  3.64it/s] 68%|██████▊   | 252171/371472 [9:01:04<9:10:41,  3.61it/s] 68%|██████▊   | 252172/371472 [9:01:04<8:47:36,  3.77it/s] 68%|██████▊   | 252173/371472 [9:01:04<9:27:42,  3.50it/s] 68%|██████▊   | 252174/371472 [9:01:04<9:05:46,  3.64it/s] 68%|██████▊   | 252175/371472 [9:01:05<9:03:46,  3.66it/s] 68%|██████▊   | 252176/371472 [9:01:05<8:40:46,  3.82it/s] 68%|██████▊   | 252177/371472 [9:01:05<9:19:48,  3.55it/s] 68%|██████▊   | 252178/371472 [9:01:06<9:34:02,  3.46it/s] 68%|██████▊   | 252179/371472 [9:01:06<9:42:09,  3.42it/s] 68%|██████▊   | 252180/371472 [9:01:06<9:08:19,  3.63it/s]                                                           {'loss': 2.8588, 'learning_rate': 3.8917559094141226e-07, 'epoch': 10.86}
 68%|██████▊   | 252180/371472 [9:01:06<9:08:19,  3.63it/s] 68%|██████▊   | 252181/371472 [9:01:06<9:06:41,  3.64it/s] 68%|██████▊   | 252182/371472 [9:01:07<9:48:57,  3.38it/s] 68%|██████▊   | 252183/371472 [9:01:07<10:10:36,  3.26it/s] 68%|██████▊   | 252184/371472 [9:01:07<9:49:59,  3.37it/s]  68%|██████▊   | 252185/371472 [9:01:08<9:26:20,  3.51it/s] 68%|██████▊   | 252186/371472 [9:01:08<8:58:28,  3.69it/s] 68%|██████▊   | 252187/371472 [9:01:08<9:50:18,  3.37it/s] 68%|██████▊   | 252188/371472 [9:01:08<9:27:45,  3.50it/s] 68%|██████▊   | 252189/371472 [9:01:09<9:27:45,  3.50it/s] 68%|██████▊   | 252190/371472 [9:01:09<9:19:41,  3.55it/s] 68%|██████▊   | 252191/371472 [9:01:09<9:25:04,  3.52it/s] 68%|██████▊   | 252192/371472 [9:01:10<9:23:30,  3.53it/s] 68%|██████▊   | 252193/371472 [9:01:10<9:10:41,  3.61it/s] 68%|██████▊   | 252194/371472 [9:01:10<9:32:28,  3.47it/s] 68%|██████▊   | 252195/371472 [9:01:10<9:56:50,  3.33it/s] 68%|██████▊   | 252196/371472 [9:01:11<9:29:58,  3.49it/s] 68%|██████▊   | 252197/371472 [9:01:11<9:08:37,  3.62it/s] 68%|██████▊   | 252198/371472 [9:01:11<9:14:40,  3.58it/s] 68%|██████▊   | 252199/371472 [9:01:12<9:24:46,  3.52it/s] 68%|██████▊   | 252200/371472 [9:01:12<9:19:09,  3.56it/s]                                                           {'loss': 2.6202, 'learning_rate': 3.8912710896593333e-07, 'epoch': 10.86}
 68%|██████▊   | 252200/371472 [9:01:12<9:19:09,  3.56it/s] 68%|██████▊   | 252201/371472 [9:01:12<9:25:28,  3.52it/s] 68%|██████▊   | 252202/371472 [9:01:12<9:14:46,  3.58it/s] 68%|██████▊   | 252203/371472 [9:01:13<9:21:09,  3.54it/s] 68%|██████▊   | 252204/371472 [9:01:13<9:03:59,  3.65it/s] 68%|██████▊   | 252205/371472 [9:01:13<9:17:12,  3.57it/s] 68%|██████▊   | 252206/371472 [9:01:14<9:16:56,  3.57it/s] 68%|██████▊   | 252207/371472 [9:01:14<9:09:57,  3.61it/s] 68%|██████▊   | 252208/371472 [9:01:14<9:05:26,  3.64it/s] 68%|██████▊   | 252209/371472 [9:01:14<9:00:18,  3.68it/s] 68%|██████▊   | 252210/371472 [9:01:15<8:36:17,  3.85it/s] 68%|██████▊   | 252211/371472 [9:01:15<8:43:22,  3.80it/s] 68%|██████▊   | 252212/371472 [9:01:15<9:04:49,  3.65it/s] 68%|██████▊   | 252213/371472 [9:01:15<9:57:17,  3.33it/s] 68%|██████▊   | 252214/371472 [9:01:16<9:26:14,  3.51it/s] 68%|██████▊   | 252215/371472 [9:01:16<9:29:44,  3.49it/s] 68%|██████▊   | 252216/371472 [9:01:16<9:16:30,  3.57it/s] 68%|██████▊   | 252217/371472 [9:01:17<8:55:15,  3.71it/s] 68%|██████▊   | 252218/371472 [9:01:17<9:24:31,  3.52it/s] 68%|██████▊   | 252219/371472 [9:01:17<9:06:40,  3.64it/s] 68%|██████▊   | 252220/371472 [9:01:17<9:08:18,  3.62it/s]                                                           {'loss': 2.7904, 'learning_rate': 3.8907862699045445e-07, 'epoch': 10.86}
 68%|██████▊   | 252220/371472 [9:01:17<9:08:18,  3.62it/s] 68%|██████▊   | 252221/371472 [9:01:18<9:11:27,  3.60it/s] 68%|██████▊   | 252222/371472 [9:01:18<9:02:07,  3.67it/s] 68%|██████▊   | 252223/371472 [9:01:18<9:02:25,  3.66it/s] 68%|██████▊   | 252224/371472 [9:01:18<9:08:57,  3.62it/s] 68%|██████▊   | 252225/371472 [9:01:19<8:49:32,  3.75it/s] 68%|██████▊   | 252226/371472 [9:01:19<9:10:32,  3.61it/s] 68%|██████▊   | 252227/371472 [9:01:19<9:02:33,  3.66it/s] 68%|██████▊   | 252228/371472 [9:01:20<9:17:34,  3.56it/s] 68%|██████▊   | 252229/371472 [9:01:20<9:12:21,  3.60it/s] 68%|██████▊   | 252230/371472 [9:01:20<9:48:01,  3.38it/s] 68%|██████▊   | 252231/371472 [9:01:20<9:36:59,  3.44it/s] 68%|██████▊   | 252232/371472 [9:01:21<9:27:44,  3.50it/s] 68%|██████▊   | 252233/371472 [9:01:21<9:03:10,  3.66it/s] 68%|██████▊   | 252234/371472 [9:01:21<9:38:35,  3.43it/s] 68%|██████▊   | 252235/371472 [9:01:22<9:15:55,  3.57it/s] 68%|██████▊   | 252236/371472 [9:01:22<9:07:25,  3.63it/s] 68%|██████▊   | 252237/371472 [9:01:22<8:41:20,  3.81it/s] 68%|██████▊   | 252238/371472 [9:01:22<8:28:10,  3.91it/s] 68%|██████▊   | 252239/371472 [9:01:23<8:32:42,  3.88it/s] 68%|██████▊   | 252240/371472 [9:01:23<8:30:23,  3.89it/s]                                                           {'loss': 2.8254, 'learning_rate': 3.890301450149755e-07, 'epoch': 10.86}
 68%|██████▊   | 252240/371472 [9:01:23<8:30:23,  3.89it/s] 68%|██████▊   | 252241/371472 [9:01:23<8:25:11,  3.93it/s] 68%|██████▊   | 252242/371472 [9:01:23<8:10:08,  4.05it/s] 68%|██████▊   | 252243/371472 [9:01:24<8:06:44,  4.08it/s] 68%|██████▊   | 252244/371472 [9:01:24<8:12:37,  4.03it/s] 68%|██████▊   | 252245/371472 [9:01:24<10:34:44,  3.13it/s] 68%|██████▊   | 252246/371472 [9:01:25<10:07:57,  3.27it/s] 68%|██████▊   | 252247/371472 [9:01:25<9:44:54,  3.40it/s]  68%|██████▊   | 252248/371472 [9:01:25<9:07:17,  3.63it/s] 68%|██████▊   | 252249/371472 [9:01:25<8:50:49,  3.74it/s] 68%|██████▊   | 252250/371472 [9:01:26<8:44:42,  3.79it/s] 68%|██████▊   | 252251/371472 [9:01:26<9:28:26,  3.50it/s] 68%|██████▊   | 252252/371472 [9:01:26<9:29:17,  3.49it/s] 68%|██████▊   | 252253/371472 [9:01:26<9:45:20,  3.39it/s] 68%|██████▊   | 252254/371472 [9:01:27<9:57:19,  3.33it/s] 68%|██████▊   | 252255/371472 [9:01:27<9:43:11,  3.41it/s] 68%|██████▊   | 252256/371472 [9:01:27<9:12:09,  3.60it/s] 68%|██████▊   | 252257/371472 [9:01:28<9:39:31,  3.43it/s] 68%|██████▊   | 252258/371472 [9:01:28<9:09:49,  3.61it/s] 68%|██████▊   | 252259/371472 [9:01:28<10:11:49,  3.25it/s] 68%|██████▊   | 252260/371472 [9:01:29<9:25:04,  3.52it/s]                                                            {'loss': 2.7863, 'learning_rate': 3.889816630394967e-07, 'epoch': 10.87}
 68%|██████▊   | 252260/371472 [9:01:29<9:25:04,  3.52it/s] 68%|██████▊   | 252261/371472 [9:01:29<9:37:27,  3.44it/s] 68%|██████▊   | 252262/371472 [9:01:29<9:27:32,  3.50it/s] 68%|██████▊   | 252263/371472 [9:01:29<9:18:59,  3.55it/s] 68%|██████▊   | 252264/371472 [9:01:30<9:17:44,  3.56it/s] 68%|██████▊   | 252265/371472 [9:01:30<9:02:17,  3.66it/s] 68%|██████▊   | 252266/371472 [9:01:30<8:58:45,  3.69it/s] 68%|██████▊   | 252267/371472 [9:01:30<9:04:25,  3.65it/s] 68%|██████▊   | 252268/371472 [9:01:31<8:57:05,  3.70it/s] 68%|██████▊   | 252269/371472 [9:01:31<9:39:32,  3.43it/s] 68%|██████▊   | 252270/371472 [9:01:31<9:34:57,  3.46it/s] 68%|██████▊   | 252271/371472 [9:01:32<10:01:33,  3.30it/s] 68%|██████▊   | 252272/371472 [9:01:32<9:25:49,  3.51it/s]  68%|██████▊   | 252273/371472 [9:01:32<10:09:15,  3.26it/s] 68%|██████▊   | 252274/371472 [9:01:33<9:42:42,  3.41it/s]  68%|██████▊   | 252275/371472 [9:01:33<9:17:51,  3.56it/s] 68%|██████▊   | 252276/371472 [9:01:33<9:14:42,  3.58it/s] 68%|██████▊   | 252277/371472 [9:01:33<9:09:08,  3.62it/s] 68%|██████▊   | 252278/371472 [9:01:34<8:58:38,  3.69it/s] 68%|██████▊   | 252279/371472 [9:01:34<8:54:52,  3.71it/s] 68%|██████▊   | 252280/371472 [9:01:34<8:47:50,  3.76it/s]                                                           {'loss': 2.8245, 'learning_rate': 3.889331810640177e-07, 'epoch': 10.87}
 68%|██████▊   | 252280/371472 [9:01:34<8:47:50,  3.76it/s] 68%|██████▊   | 252281/371472 [9:01:34<8:41:38,  3.81it/s] 68%|██████▊   | 252282/371472 [9:01:35<9:14:37,  3.58it/s] 68%|██████▊   | 252283/371472 [9:01:35<9:02:40,  3.66it/s] 68%|██████▊   | 252284/371472 [9:01:35<8:44:31,  3.79it/s] 68%|██████▊   | 252285/371472 [9:01:35<8:50:47,  3.74it/s] 68%|██████▊   | 252286/371472 [9:01:36<10:00:12,  3.31it/s] 68%|██████▊   | 252287/371472 [9:01:36<9:53:39,  3.35it/s]  68%|██████▊   | 252288/371472 [9:01:36<9:52:21,  3.35it/s] 68%|██████▊   | 252289/371472 [9:01:37<9:38:10,  3.44it/s] 68%|██████▊   | 252290/371472 [9:01:37<9:10:58,  3.61it/s] 68%|██████▊   | 252291/371472 [9:01:37<9:18:51,  3.55it/s] 68%|██████▊   | 252292/371472 [9:01:38<9:32:59,  3.47it/s] 68%|██████▊   | 252293/371472 [9:01:38<9:39:33,  3.43it/s] 68%|██████▊   | 252294/371472 [9:01:38<9:20:17,  3.55it/s] 68%|██████▊   | 252295/371472 [9:01:38<9:11:24,  3.60it/s] 68%|██████▊   | 252296/371472 [9:01:39<9:21:06,  3.54it/s] 68%|██████▊   | 252297/371472 [9:01:39<8:59:15,  3.68it/s] 68%|██████▊   | 252298/371472 [9:01:39<9:05:46,  3.64it/s] 68%|██████▊   | 252299/371472 [9:01:39<8:37:45,  3.84it/s] 68%|██████▊   | 252300/371472 [9:01:40<8:26:17,  3.92it/s]                                                           {'loss': 2.7688, 'learning_rate': 3.888846990885389e-07, 'epoch': 10.87}
 68%|██████▊   | 252300/371472 [9:01:40<8:26:17,  3.92it/s] 68%|██████▊   | 252301/371472 [9:01:40<8:39:50,  3.82it/s] 68%|██████▊   | 252302/371472 [9:01:40<8:46:59,  3.77it/s] 68%|██████▊   | 252303/371472 [9:01:40<8:59:43,  3.68it/s] 68%|██████▊   | 252304/371472 [9:01:41<8:46:23,  3.77it/s] 68%|██████▊   | 252305/371472 [9:01:41<9:13:08,  3.59it/s] 68%|██████▊   | 252306/371472 [9:01:41<9:51:17,  3.36it/s] 68%|██████▊   | 252307/371472 [9:01:42<9:21:27,  3.54it/s] 68%|██████▊   | 252308/371472 [9:01:42<10:48:55,  3.06it/s] 68%|██████▊   | 252309/371472 [9:01:42<10:12:49,  3.24it/s] 68%|██████▊   | 252310/371472 [9:01:43<9:59:01,  3.32it/s]  68%|██████▊   | 252311/371472 [9:01:43<9:41:18,  3.42it/s] 68%|██████▊   | 252312/371472 [9:01:43<9:28:38,  3.49it/s] 68%|██████▊   | 252313/371472 [9:01:43<9:25:41,  3.51it/s] 68%|██████▊   | 252314/371472 [9:01:44<9:23:40,  3.52it/s] 68%|██████▊   | 252315/371472 [9:01:44<9:21:14,  3.54it/s] 68%|██████▊   | 252316/371472 [9:01:44<9:16:38,  3.57it/s] 68%|██████▊   | 252317/371472 [9:01:45<9:02:24,  3.66it/s] 68%|██████▊   | 252318/371472 [9:01:45<8:42:49,  3.80it/s] 68%|██████▊   | 252319/371472 [9:01:45<9:07:40,  3.63it/s] 68%|██████▊   | 252320/371472 [9:01:45<9:25:33,  3.51it/s]                                                           {'loss': 2.7685, 'learning_rate': 3.8883621711305997e-07, 'epoch': 10.87}
 68%|██████▊   | 252320/371472 [9:01:45<9:25:33,  3.51it/s] 68%|██████▊   | 252321/371472 [9:01:46<9:19:13,  3.55it/s] 68%|██████▊   | 252322/371472 [9:01:46<9:19:02,  3.55it/s] 68%|██████▊   | 252323/371472 [9:01:46<9:12:54,  3.59it/s] 68%|██████▊   | 252324/371472 [9:01:46<8:49:41,  3.75it/s] 68%|██████▊   | 252325/371472 [9:01:47<8:39:17,  3.82it/s] 68%|██████▊   | 252326/371472 [9:01:47<8:48:14,  3.76it/s] 68%|██████▊   | 252327/371472 [9:01:47<9:00:50,  3.67it/s] 68%|██████▊   | 252328/371472 [9:01:48<9:02:40,  3.66it/s] 68%|██████▊   | 252329/371472 [9:01:48<8:51:14,  3.74it/s] 68%|██████▊   | 252330/371472 [9:01:48<8:44:55,  3.78it/s] 68%|██████▊   | 252331/371472 [9:01:48<8:59:42,  3.68it/s] 68%|██████▊   | 252332/371472 [9:01:49<8:34:54,  3.86it/s] 68%|██████▊   | 252333/371472 [9:01:49<9:13:14,  3.59it/s] 68%|██████▊   | 252334/371472 [9:01:49<9:43:40,  3.40it/s] 68%|██████▊   | 252335/371472 [9:01:50<9:35:52,  3.45it/s] 68%|██████▊   | 252336/371472 [9:01:50<9:25:59,  3.51it/s] 68%|██████▊   | 252337/371472 [9:01:50<9:30:19,  3.48it/s] 68%|██████▊   | 252338/371472 [9:01:50<9:21:02,  3.54it/s] 68%|██████▊   | 252339/371472 [9:01:51<9:00:31,  3.67it/s] 68%|██████▊   | 252340/371472 [9:01:51<9:06:42,  3.63it/s]                                                           {'loss': 2.8424, 'learning_rate': 3.88787735137581e-07, 'epoch': 10.87}
 68%|██████▊   | 252340/371472 [9:01:51<9:06:42,  3.63it/s] 68%|██████▊   | 252341/371472 [9:01:51<9:04:46,  3.64it/s] 68%|██████▊   | 252342/371472 [9:01:51<8:51:54,  3.73it/s] 68%|██████▊   | 252343/371472 [9:01:52<8:42:56,  3.80it/s] 68%|██████▊   | 252344/371472 [9:01:52<8:27:30,  3.91it/s] 68%|██████▊   | 252345/371472 [9:01:52<8:45:23,  3.78it/s] 68%|██████▊   | 252346/371472 [9:01:52<8:27:19,  3.91it/s] 68%|██████▊   | 252347/371472 [9:01:53<8:24:00,  3.94it/s] 68%|██████▊   | 252348/371472 [9:01:53<8:29:31,  3.90it/s] 68%|██████▊   | 252349/371472 [9:01:53<8:21:02,  3.96it/s] 68%|██████▊   | 252350/371472 [9:01:53<8:40:12,  3.82it/s] 68%|██████▊   | 252351/371472 [9:01:54<9:10:39,  3.61it/s] 68%|██████▊   | 252352/371472 [9:01:54<9:14:07,  3.58it/s] 68%|██████▊   | 252353/371472 [9:01:54<9:08:08,  3.62it/s] 68%|██████▊   | 252354/371472 [9:01:55<9:08:38,  3.62it/s] 68%|██████▊   | 252355/371472 [9:01:55<8:49:49,  3.75it/s] 68%|██████▊   | 252356/371472 [9:01:55<8:55:23,  3.71it/s] 68%|██████▊   | 252357/371472 [9:01:55<8:43:50,  3.79it/s] 68%|██████▊   | 252358/371472 [9:01:56<8:40:48,  3.81it/s] 68%|██████▊   | 252359/371472 [9:01:56<8:29:44,  3.89it/s] 68%|██████▊   | 252360/371472 [9:01:56<8:33:06,  3.87it/s]                                                           {'loss': 2.823, 'learning_rate': 3.8873925316210216e-07, 'epoch': 10.87}
 68%|██████▊   | 252360/371472 [9:01:56<8:33:06,  3.87it/s] 68%|██████▊   | 252361/371472 [9:01:56<8:38:28,  3.83it/s] 68%|██████▊   | 252362/371472 [9:01:57<8:35:19,  3.85it/s] 68%|██████▊   | 252363/371472 [9:01:57<8:52:14,  3.73it/s] 68%|██████▊   | 252364/371472 [9:01:57<8:55:38,  3.71it/s] 68%|██████▊   | 252365/371472 [9:01:58<13:36:45,  2.43it/s] 68%|██████▊   | 252366/371472 [9:01:58<12:46:49,  2.59it/s] 68%|██████▊   | 252367/371472 [9:01:59<11:36:35,  2.85it/s] 68%|██████▊   | 252368/371472 [9:01:59<10:45:08,  3.08it/s] 68%|██████▊   | 252369/371472 [9:01:59<10:15:14,  3.23it/s] 68%|██████▊   | 252370/371472 [9:01:59<9:44:55,  3.39it/s]  68%|██████▊   | 252371/371472 [9:02:00<9:27:56,  3.50it/s] 68%|██████▊   | 252372/371472 [9:02:00<9:16:53,  3.56it/s] 68%|██████▊   | 252373/371472 [9:02:00<9:26:31,  3.50it/s] 68%|██████▊   | 252374/371472 [9:02:00<9:14:35,  3.58it/s] 68%|██████▊   | 252375/371472 [9:02:01<9:22:18,  3.53it/s] 68%|██████▊   | 252376/371472 [9:02:01<9:39:11,  3.43it/s] 68%|██████▊   | 252377/371472 [9:02:01<10:26:06,  3.17it/s] 68%|██████▊   | 252378/371472 [9:02:02<10:11:12,  3.25it/s] 68%|██████▊   | 252379/371472 [9:02:02<9:41:42,  3.41it/s]  68%|██████▊   | 252380/371472 [9:02:02<9:31:17,  3.47it/s]                                                           {'loss': 2.7799, 'learning_rate': 3.8869077118662323e-07, 'epoch': 10.87}
 68%|██████▊   | 252380/371472 [9:02:02<9:31:17,  3.47it/s] 68%|██████▊   | 252381/371472 [9:02:03<10:08:31,  3.26it/s] 68%|██████▊   | 252382/371472 [9:02:03<10:15:54,  3.22it/s] 68%|██████▊   | 252383/371472 [9:02:03<9:48:08,  3.37it/s]  68%|██████▊   | 252384/371472 [9:02:03<9:30:38,  3.48it/s] 68%|██████▊   | 252385/371472 [9:02:04<9:39:59,  3.42it/s] 68%|██████▊   | 252386/371472 [9:02:04<9:35:36,  3.45it/s] 68%|██████▊   | 252387/371472 [9:02:04<9:29:20,  3.49it/s] 68%|██████▊   | 252388/371472 [9:02:05<9:21:16,  3.54it/s] 68%|██████▊   | 252389/371472 [9:02:05<9:27:26,  3.50it/s] 68%|██████▊   | 252390/371472 [9:02:05<9:38:08,  3.43it/s] 68%|██████▊   | 252391/371472 [9:02:05<9:31:33,  3.47it/s] 68%|██████▊   | 252392/371472 [9:02:06<9:18:39,  3.55it/s] 68%|██████▊   | 252393/371472 [9:02:06<8:58:48,  3.68it/s] 68%|██████▊   | 252394/371472 [9:02:06<9:09:39,  3.61it/s] 68%|██████▊   | 252395/371472 [9:02:07<9:40:26,  3.42it/s] 68%|██████▊   | 252396/371472 [9:02:07<9:48:09,  3.37it/s] 68%|██████▊   | 252397/371472 [9:02:07<9:38:35,  3.43it/s] 68%|██████▊   | 252398/371472 [9:02:07<9:14:17,  3.58it/s] 68%|██████▊   | 252399/371472 [9:02:08<9:43:17,  3.40it/s] 68%|██████▊   | 252400/371472 [9:02:08<9:13:36,  3.58it/s]                                                           {'loss': 2.8706, 'learning_rate': 3.8864228921114436e-07, 'epoch': 10.87}
 68%|██████▊   | 252400/371472 [9:02:08<9:13:36,  3.58it/s] 68%|██████▊   | 252401/371472 [9:02:08<9:35:38,  3.45it/s] 68%|██████▊   | 252402/371472 [9:02:09<9:06:56,  3.63it/s] 68%|██████▊   | 252403/371472 [9:02:09<9:21:53,  3.53it/s] 68%|██████▊   | 252404/371472 [9:02:09<8:58:32,  3.68it/s] 68%|██████▊   | 252405/371472 [9:02:09<9:03:40,  3.65it/s] 68%|██████▊   | 252406/371472 [9:02:10<9:07:11,  3.63it/s] 68%|██████▊   | 252407/371472 [9:02:10<8:51:06,  3.74it/s] 68%|██████▊   | 252408/371472 [9:02:10<9:08:04,  3.62it/s] 68%|██████▊   | 252409/371472 [9:02:11<9:22:07,  3.53it/s] 68%|██████▊   | 252410/371472 [9:02:11<9:36:55,  3.44it/s] 68%|██████▊   | 252411/371472 [9:02:11<10:06:10,  3.27it/s] 68%|██████▊   | 252412/371472 [9:02:11<9:41:07,  3.41it/s]  68%|██████▊   | 252413/371472 [9:02:12<9:24:39,  3.51it/s] 68%|██████▊   | 252414/371472 [9:02:12<9:09:14,  3.61it/s] 68%|██████▊   | 252415/371472 [9:02:12<9:09:20,  3.61it/s] 68%|██████▊   | 252416/371472 [9:02:13<9:18:15,  3.55it/s] 68%|██████▊   | 252417/371472 [9:02:13<8:51:08,  3.74it/s] 68%|██████▊   | 252418/371472 [9:02:13<8:45:22,  3.78it/s] 68%|██████▊   | 252419/371472 [9:02:13<8:39:20,  3.82it/s] 68%|██████▊   | 252420/371472 [9:02:13<8:21:05,  3.96it/s]                                                           {'loss': 2.7512, 'learning_rate': 3.8859380723566543e-07, 'epoch': 10.87}
 68%|██████▊   | 252420/371472 [9:02:14<8:21:05,  3.96it/s] 68%|██████▊   | 252421/371472 [9:02:14<8:16:47,  3.99it/s] 68%|██████▊   | 252422/371472 [9:02:14<9:28:09,  3.49it/s] 68%|██████▊   | 252423/371472 [9:02:14<9:18:17,  3.55it/s] 68%|██████▊   | 252424/371472 [9:02:15<9:12:45,  3.59it/s] 68%|██████▊   | 252425/371472 [9:02:15<8:49:26,  3.75it/s] 68%|██████▊   | 252426/371472 [9:02:15<8:54:01,  3.72it/s] 68%|██████▊   | 252427/371472 [9:02:15<8:47:16,  3.76it/s] 68%|██████▊   | 252428/371472 [9:02:16<9:01:42,  3.66it/s] 68%|██████▊   | 252429/371472 [9:02:16<9:55:18,  3.33it/s] 68%|██████▊   | 252430/371472 [9:02:16<9:28:10,  3.49it/s] 68%|██████▊   | 252431/371472 [9:02:17<10:40:56,  3.10it/s] 68%|██████▊   | 252432/371472 [9:02:17<11:07:07,  2.97it/s] 68%|██████▊   | 252433/371472 [9:02:17<11:10:35,  2.96it/s] 68%|██████▊   | 252434/371472 [9:02:18<10:37:00,  3.11it/s] 68%|██████▊   | 252435/371472 [9:02:18<10:07:54,  3.26it/s] 68%|██████▊   | 252436/371472 [9:02:18<9:44:03,  3.40it/s]  68%|██████▊   | 252437/371472 [9:02:19<9:13:49,  3.58it/s] 68%|██████▊   | 252438/371472 [9:02:19<9:13:02,  3.59it/s] 68%|██████▊   | 252439/371472 [9:02:19<9:08:33,  3.62it/s] 68%|██████▊   | 252440/371472 [9:02:19<8:54:22,  3.71it/s]                                                           {'loss': 2.6946, 'learning_rate': 3.885453252601866e-07, 'epoch': 10.87}
 68%|██████▊   | 252440/371472 [9:02:19<8:54:22,  3.71it/s] 68%|██████▊   | 252441/371472 [9:02:20<8:56:13,  3.70it/s] 68%|██████▊   | 252442/371472 [9:02:20<8:53:59,  3.72it/s] 68%|██████▊   | 252443/371472 [9:02:20<8:48:45,  3.75it/s] 68%|██████▊   | 252444/371472 [9:02:20<9:12:06,  3.59it/s] 68%|██████▊   | 252445/371472 [9:02:21<9:04:05,  3.65it/s] 68%|██████▊   | 252446/371472 [9:02:21<9:01:34,  3.66it/s] 68%|██████▊   | 252447/371472 [9:02:21<8:50:31,  3.74it/s] 68%|██████▊   | 252448/371472 [9:02:21<8:59:00,  3.68it/s] 68%|██████▊   | 252449/371472 [9:02:22<8:47:24,  3.76it/s] 68%|██████▊   | 252450/371472 [9:02:22<8:31:05,  3.88it/s] 68%|██████▊   | 252451/371472 [9:02:22<9:18:55,  3.55it/s] 68%|██████▊   | 252452/371472 [9:02:23<8:48:09,  3.76it/s] 68%|██████▊   | 252453/371472 [9:02:23<8:48:38,  3.75it/s] 68%|██████▊   | 252454/371472 [9:02:23<8:50:30,  3.74it/s] 68%|██████▊   | 252455/371472 [9:02:23<8:43:35,  3.79it/s] 68%|██████▊   | 252456/371472 [9:02:24<9:04:11,  3.65it/s] 68%|██████▊   | 252457/371472 [9:02:24<8:56:39,  3.70it/s] 68%|██████▊   | 252458/371472 [9:02:24<9:06:26,  3.63it/s] 68%|██████▊   | 252459/371472 [9:02:24<8:52:35,  3.72it/s] 68%|██████▊   | 252460/371472 [9:02:25<9:20:49,  3.54it/s]                                                           {'loss': 2.7631, 'learning_rate': 3.884968432847077e-07, 'epoch': 10.87}
 68%|██████▊   | 252460/371472 [9:02:25<9:20:49,  3.54it/s] 68%|██████▊   | 252461/371472 [9:02:25<8:59:22,  3.68it/s] 68%|██████▊   | 252462/371472 [9:02:25<8:59:33,  3.68it/s] 68%|██████▊   | 252463/371472 [9:02:26<9:00:07,  3.67it/s] 68%|██████▊   | 252464/371472 [9:02:26<9:06:33,  3.63it/s] 68%|██████▊   | 252465/371472 [9:02:26<8:43:20,  3.79it/s] 68%|██████▊   | 252466/371472 [9:02:26<8:27:11,  3.91it/s] 68%|██████▊   | 252467/371472 [9:02:27<8:23:11,  3.94it/s] 68%|██████▊   | 252468/371472 [9:02:27<8:33:41,  3.86it/s] 68%|██████▊   | 252469/371472 [9:02:27<8:30:14,  3.89it/s] 68%|██████▊   | 252470/371472 [9:02:27<8:37:50,  3.83it/s] 68%|██████▊   | 252471/371472 [9:02:28<8:40:39,  3.81it/s] 68%|██████▊   | 252472/371472 [9:02:28<8:51:15,  3.73it/s] 68%|██████▊   | 252473/371472 [9:02:28<9:18:57,  3.55it/s] 68%|██████▊   | 252474/371472 [9:02:28<9:13:10,  3.59it/s] 68%|██████▊   | 252475/371472 [9:02:29<8:47:59,  3.76it/s] 68%|██████▊   | 252476/371472 [9:02:29<8:27:49,  3.91it/s] 68%|██████▊   | 252477/371472 [9:02:29<8:38:00,  3.83it/s] 68%|██████▊   | 252478/371472 [9:02:30<8:47:34,  3.76it/s] 68%|██████▊   | 252479/371472 [9:02:30<8:52:58,  3.72it/s] 68%|██████▊   | 252480/371472 [9:02:30<9:13:40,  3.58it/s]                                                           {'loss': 2.7395, 'learning_rate': 3.884483613092288e-07, 'epoch': 10.87}
 68%|██████▊   | 252480/371472 [9:02:30<9:13:40,  3.58it/s] 68%|██████▊   | 252481/371472 [9:02:30<9:21:24,  3.53it/s] 68%|██████▊   | 252482/371472 [9:02:31<9:07:20,  3.62it/s] 68%|██████▊   | 252483/371472 [9:02:31<8:49:01,  3.75it/s] 68%|██████▊   | 252484/371472 [9:02:31<8:32:08,  3.87it/s] 68%|██████▊   | 252485/371472 [9:02:31<8:55:59,  3.70it/s] 68%|██████▊   | 252486/371472 [9:02:32<8:41:14,  3.80it/s] 68%|██████▊   | 252487/371472 [9:02:32<8:31:38,  3.88it/s] 68%|██████▊   | 252488/371472 [9:02:32<8:48:34,  3.75it/s] 68%|██████▊   | 252489/371472 [9:02:32<8:50:11,  3.74it/s] 68%|██████▊   | 252490/371472 [9:02:33<9:05:14,  3.64it/s] 68%|██████▊   | 252491/371472 [9:02:33<8:58:25,  3.68it/s] 68%|██████▊   | 252492/371472 [9:02:33<9:15:01,  3.57it/s] 68%|██████▊   | 252493/371472 [9:02:34<9:12:14,  3.59it/s] 68%|██████▊   | 252494/371472 [9:02:34<8:56:12,  3.70it/s] 68%|██████▊   | 252495/371472 [9:02:34<9:11:49,  3.59it/s] 68%|██████▊   | 252496/371472 [9:02:34<8:53:01,  3.72it/s] 68%|██████▊   | 252497/371472 [9:02:35<9:27:07,  3.50it/s] 68%|██████▊   | 252498/371472 [9:02:35<9:14:48,  3.57it/s] 68%|██████▊   | 252499/371472 [9:02:35<9:15:02,  3.57it/s] 68%|██████▊   | 252500/371472 [9:02:36<9:11:29,  3.60it/s]                                                           {'loss': 2.9258, 'learning_rate': 3.8839987933374993e-07, 'epoch': 10.88}
 68%|██████▊   | 252500/371472 [9:02:36<9:11:29,  3.60it/s] 68%|██████▊   | 252501/371472 [9:02:36<9:08:45,  3.61it/s] 68%|██████▊   | 252502/371472 [9:02:36<9:18:43,  3.55it/s] 68%|██████▊   | 252503/371472 [9:02:36<9:37:28,  3.43it/s] 68%|██████▊   | 252504/371472 [9:02:37<9:14:21,  3.58it/s] 68%|██████▊   | 252505/371472 [9:02:37<9:14:35,  3.58it/s] 68%|██████▊   | 252506/371472 [9:02:37<8:59:16,  3.68it/s] 68%|██████▊   | 252507/371472 [9:02:37<8:52:33,  3.72it/s] 68%|██████▊   | 252508/371472 [9:02:38<8:57:24,  3.69it/s] 68%|██████▊   | 252509/371472 [9:02:38<8:48:12,  3.75it/s] 68%|██████▊   | 252510/371472 [9:02:38<8:57:17,  3.69it/s] 68%|██████▊   | 252511/371472 [9:02:39<9:04:11,  3.64it/s] 68%|██████▊   | 252512/371472 [9:02:39<9:05:26,  3.64it/s] 68%|██████▊   | 252513/371472 [9:02:39<8:48:42,  3.75it/s] 68%|██████▊   | 252514/371472 [9:02:39<8:40:40,  3.81it/s] 68%|██████▊   | 252515/371472 [9:02:40<8:35:36,  3.85it/s] 68%|██████▊   | 252516/371472 [9:02:40<9:20:53,  3.53it/s] 68%|██████▊   | 252517/371472 [9:02:40<9:00:00,  3.67it/s] 68%|██████▊   | 252518/371472 [9:02:40<8:41:49,  3.80it/s] 68%|██████▊   | 252519/371472 [9:02:41<8:45:06,  3.78it/s] 68%|██████▊   | 252520/371472 [9:02:41<8:35:03,  3.85it/s]                                                           {'loss': 3.0228, 'learning_rate': 3.8835139735827105e-07, 'epoch': 10.88}
 68%|██████▊   | 252520/371472 [9:02:41<8:35:03,  3.85it/s] 68%|██████▊   | 252521/371472 [9:02:41<8:20:25,  3.96it/s] 68%|██████▊   | 252522/371472 [9:02:41<8:26:22,  3.92it/s] 68%|██████▊   | 252523/371472 [9:02:42<8:49:31,  3.74it/s] 68%|██████▊   | 252524/371472 [9:02:42<9:02:09,  3.66it/s] 68%|██████▊   | 252525/371472 [9:02:42<9:17:32,  3.56it/s] 68%|██████▊   | 252526/371472 [9:02:43<9:29:02,  3.48it/s] 68%|██████▊   | 252527/371472 [9:02:43<9:38:02,  3.43it/s] 68%|██████▊   | 252528/371472 [9:02:43<9:27:21,  3.49it/s] 68%|██████▊   | 252529/371472 [9:02:43<9:16:23,  3.56it/s] 68%|██████▊   | 252530/371472 [9:02:44<8:50:09,  3.74it/s] 68%|██████▊   | 252531/371472 [9:02:44<8:49:47,  3.74it/s] 68%|██████▊   | 252532/371472 [9:02:44<8:50:29,  3.74it/s] 68%|██████▊   | 252533/371472 [9:02:44<8:40:17,  3.81it/s] 68%|██████▊   | 252534/371472 [9:02:45<8:55:06,  3.70it/s] 68%|██████▊   | 252535/371472 [9:02:45<8:41:37,  3.80it/s] 68%|██████▊   | 252536/371472 [9:02:45<8:47:22,  3.76it/s] 68%|██████▊   | 252537/371472 [9:02:46<8:41:12,  3.80it/s] 68%|██████▊   | 252538/371472 [9:02:46<8:43:47,  3.78it/s] 68%|██████▊   | 252539/371472 [9:02:46<8:46:12,  3.77it/s] 68%|██████▊   | 252540/371472 [9:02:46<8:47:22,  3.76it/s]                                                           {'loss': 2.8839, 'learning_rate': 3.8830291538279207e-07, 'epoch': 10.88}
 68%|██████▊   | 252540/371472 [9:02:46<8:47:22,  3.76it/s] 68%|██████▊   | 252541/371472 [9:02:47<10:15:55,  3.22it/s] 68%|██████▊   | 252542/371472 [9:02:47<9:52:19,  3.35it/s]  68%|██████▊   | 252543/371472 [9:02:47<9:33:17,  3.46it/s] 68%|██████▊   | 252544/371472 [9:02:48<9:11:47,  3.59it/s] 68%|██████▊   | 252545/371472 [9:02:48<9:18:06,  3.55it/s] 68%|██████▊   | 252546/371472 [9:02:48<9:41:08,  3.41it/s] 68%|██████▊   | 252547/371472 [9:02:48<9:06:57,  3.62it/s] 68%|██████▊   | 252548/371472 [9:02:49<8:49:38,  3.74it/s] 68%|██████▊   | 252549/371472 [9:02:49<8:39:20,  3.82it/s] 68%|██████▊   | 252550/371472 [9:02:49<8:31:39,  3.87it/s] 68%|██████▊   | 252551/371472 [9:02:49<8:45:50,  3.77it/s] 68%|██████▊   | 252552/371472 [9:02:50<9:06:47,  3.62it/s] 68%|██████▊   | 252553/371472 [9:02:50<9:08:53,  3.61it/s] 68%|██████▊   | 252554/371472 [9:02:50<10:04:01,  3.28it/s] 68%|██████▊   | 252555/371472 [9:02:51<9:56:10,  3.32it/s]  68%|██████▊   | 252556/371472 [9:02:51<9:26:05,  3.50it/s] 68%|██████▊   | 252557/371472 [9:02:51<9:23:15,  3.52it/s] 68%|██████▊   | 252558/371472 [9:02:52<9:35:26,  3.44it/s] 68%|██████▊   | 252559/371472 [9:02:52<11:07:33,  2.97it/s] 68%|██████▊   | 252560/371472 [9:02:52<10:38:46,  3.10it/s]                                                            {'loss': 3.0869, 'learning_rate': 3.8825443340731325e-07, 'epoch': 10.88}
 68%|██████▊   | 252560/371472 [9:02:52<10:38:46,  3.10it/s] 68%|██████▊   | 252561/371472 [9:02:53<10:11:14,  3.24it/s] 68%|██████▊   | 252562/371472 [9:02:53<10:00:40,  3.30it/s] 68%|██████▊   | 252563/371472 [9:02:53<9:41:36,  3.41it/s]  68%|██████▊   | 252564/371472 [9:02:53<9:15:34,  3.57it/s] 68%|██████▊   | 252565/371472 [9:02:54<8:58:01,  3.68it/s] 68%|██████▊   | 252566/371472 [9:02:54<9:38:34,  3.43it/s] 68%|██████▊   | 252567/371472 [9:02:54<9:19:08,  3.54it/s] 68%|██████▊   | 252568/371472 [9:02:54<9:41:38,  3.41it/s] 68%|██████▊   | 252569/371472 [9:02:55<9:35:42,  3.44it/s] 68%|██████▊   | 252570/371472 [9:02:55<9:10:41,  3.60it/s] 68%|██████▊   | 252571/371472 [9:02:55<9:39:38,  3.42it/s] 68%|██████▊   | 252572/371472 [9:02:56<9:33:19,  3.46it/s] 68%|██████▊   | 252573/371472 [9:02:56<9:10:29,  3.60it/s] 68%|██████▊   | 252574/371472 [9:02:56<8:51:25,  3.73it/s] 68%|██████▊   | 252575/371472 [9:02:56<8:44:38,  3.78it/s] 68%|██████▊   | 252576/371472 [9:02:57<8:43:57,  3.78it/s] 68%|██████▊   | 252577/371472 [9:02:57<9:29:09,  3.48it/s] 68%|██████▊   | 252578/371472 [9:02:57<9:07:00,  3.62it/s] 68%|██████▊   | 252579/371472 [9:02:57<8:54:53,  3.70it/s] 68%|██████▊   | 252580/371472 [9:02:58<10:28:06,  3.15it/s]                                                            {'loss': 2.6797, 'learning_rate': 3.882059514318343e-07, 'epoch': 10.88}
 68%|██████▊   | 252580/371472 [9:02:58<10:28:06,  3.15it/s] 68%|██████▊   | 252581/371472 [9:02:58<10:06:40,  3.27it/s] 68%|██████▊   | 252582/371472 [9:02:58<9:29:55,  3.48it/s]  68%|██████▊   | 252583/371472 [9:02:59<9:21:18,  3.53it/s] 68%|██████▊   | 252584/371472 [9:02:59<8:54:24,  3.71it/s] 68%|██████▊   | 252585/371472 [9:02:59<8:53:23,  3.71it/s] 68%|██████▊   | 252586/371472 [9:02:59<8:47:41,  3.75it/s] 68%|██████▊   | 252587/371472 [9:03:00<8:54:04,  3.71it/s] 68%|██████▊   | 252588/371472 [9:03:00<9:20:10,  3.54it/s] 68%|██████▊   | 252589/371472 [9:03:00<9:11:27,  3.59it/s] 68%|██████▊   | 252590/371472 [9:03:01<9:09:33,  3.61it/s] 68%|██████▊   | 252591/371472 [9:03:01<8:52:37,  3.72it/s] 68%|██████▊   | 252592/371472 [9:03:01<8:51:53,  3.73it/s] 68%|██████▊   | 252593/371472 [9:03:01<8:54:24,  3.71it/s] 68%|██████▊   | 252594/371472 [9:03:02<8:55:12,  3.70it/s] 68%|██████▊   | 252595/371472 [9:03:02<9:18:31,  3.55it/s] 68%|██████▊   | 252596/371472 [9:03:02<9:28:52,  3.48it/s] 68%|██████▊   | 252597/371472 [9:03:03<9:23:14,  3.52it/s] 68%|██████▊   | 252598/371472 [9:03:03<9:22:34,  3.52it/s] 68%|██████▊   | 252599/371472 [9:03:03<9:00:57,  3.66it/s] 68%|██████▊   | 252600/371472 [9:03:03<8:47:21,  3.76it/s]                                                           {'loss': 2.7581, 'learning_rate': 3.8815746945635544e-07, 'epoch': 10.88}
 68%|██████▊   | 252600/371472 [9:03:03<8:47:21,  3.76it/s] 68%|██████▊   | 252601/371472 [9:03:04<8:48:38,  3.75it/s] 68%|██████▊   | 252602/371472 [9:03:04<8:48:36,  3.75it/s] 68%|██████▊   | 252603/371472 [9:03:04<8:59:24,  3.67it/s] 68%|██████▊   | 252604/371472 [9:03:04<8:47:27,  3.76it/s] 68%|██████▊   | 252605/371472 [9:03:05<8:37:13,  3.83it/s] 68%|██████▊   | 252606/371472 [9:03:05<9:01:34,  3.66it/s] 68%|██████▊   | 252607/371472 [9:03:05<9:03:41,  3.64it/s] 68%|██████▊   | 252608/371472 [9:03:06<9:06:32,  3.62it/s] 68%|██████▊   | 252609/371472 [9:03:06<9:03:06,  3.65it/s] 68%|██████▊   | 252610/371472 [9:03:06<9:29:47,  3.48it/s] 68%|██████▊   | 252611/371472 [9:03:06<9:02:02,  3.65it/s] 68%|██████▊   | 252612/371472 [9:03:07<9:08:32,  3.61it/s] 68%|██████▊   | 252613/371472 [9:03:07<9:03:25,  3.65it/s] 68%|██████▊   | 252614/371472 [9:03:07<8:50:28,  3.73it/s] 68%|██████▊   | 252615/371472 [9:03:07<8:44:40,  3.78it/s] 68%|██████▊   | 252616/371472 [9:03:08<8:40:19,  3.81it/s] 68%|██████▊   | 252617/371472 [9:03:08<9:27:36,  3.49it/s] 68%|██████▊   | 252618/371472 [9:03:08<9:25:19,  3.50it/s] 68%|██████▊   | 252619/371472 [9:03:09<9:05:51,  3.63it/s] 68%|██████▊   | 252620/371472 [9:03:09<9:03:54,  3.64it/s]                                                           {'loss': 2.7613, 'learning_rate': 3.881089874808765e-07, 'epoch': 10.88}
 68%|██████▊   | 252620/371472 [9:03:09<9:03:54,  3.64it/s] 68%|██████▊   | 252621/371472 [9:03:09<8:55:26,  3.70it/s] 68%|██████▊   | 252622/371472 [9:03:09<8:36:23,  3.84it/s] 68%|██████▊   | 252623/371472 [9:03:10<8:43:48,  3.78it/s] 68%|██████▊   | 252624/371472 [9:03:10<8:59:14,  3.67it/s] 68%|██████▊   | 252625/371472 [9:03:10<8:49:23,  3.74it/s] 68%|██████▊   | 252626/371472 [9:03:10<9:12:20,  3.59it/s] 68%|██████▊   | 252627/371472 [9:03:11<9:05:01,  3.63it/s] 68%|██████▊   | 252628/371472 [9:03:11<9:22:01,  3.52it/s] 68%|██████▊   | 252629/371472 [9:03:11<8:51:57,  3.72it/s] 68%|██████▊   | 252630/371472 [9:03:12<9:02:06,  3.65it/s] 68%|██████▊   | 252631/371472 [9:03:12<9:08:32,  3.61it/s] 68%|██████▊   | 252632/371472 [9:03:12<9:27:09,  3.49it/s] 68%|██████▊   | 252633/371472 [9:03:12<9:44:35,  3.39it/s] 68%|██████▊   | 252634/371472 [9:03:13<9:30:57,  3.47it/s] 68%|██████▊   | 252635/371472 [9:03:13<9:30:23,  3.47it/s] 68%|██████▊   | 252636/371472 [9:03:13<8:55:00,  3.70it/s] 68%|██████▊   | 252637/371472 [9:03:13<8:46:51,  3.76it/s] 68%|██████▊   | 252638/371472 [9:03:14<9:24:15,  3.51it/s] 68%|██████▊   | 252639/371472 [9:03:14<8:59:52,  3.67it/s] 68%|██████▊   | 252640/371472 [9:03:14<8:50:24,  3.73it/s]                                                           {'loss': 2.8487, 'learning_rate': 3.880605055053977e-07, 'epoch': 10.88}
 68%|██████▊   | 252640/371472 [9:03:14<8:50:24,  3.73it/s] 68%|██████▊   | 252641/371472 [9:03:15<9:01:44,  3.66it/s] 68%|██████▊   | 252642/371472 [9:03:15<8:58:55,  3.67it/s] 68%|██████▊   | 252643/371472 [9:03:15<9:11:54,  3.59it/s] 68%|██████▊   | 252644/371472 [9:03:15<8:57:15,  3.69it/s] 68%|██████▊   | 252645/371472 [9:03:16<9:23:24,  3.52it/s] 68%|██████▊   | 252646/371472 [9:03:16<9:05:15,  3.63it/s] 68%|██████▊   | 252647/371472 [9:03:16<9:19:27,  3.54it/s] 68%|██████▊   | 252648/371472 [9:03:17<10:10:32,  3.24it/s] 68%|██████▊   | 252649/371472 [9:03:17<9:51:03,  3.35it/s]  68%|██████▊   | 252650/371472 [9:03:17<9:36:33,  3.43it/s] 68%|██████▊   | 252651/371472 [9:03:17<9:18:00,  3.55it/s] 68%|██████▊   | 252652/371472 [9:03:18<8:59:09,  3.67it/s] 68%|██████▊   | 252653/371472 [9:03:18<8:39:31,  3.81it/s] 68%|██████▊   | 252654/371472 [9:03:18<8:43:32,  3.78it/s] 68%|██████▊   | 252655/371472 [9:03:19<9:11:17,  3.59it/s] 68%|██████▊   | 252656/371472 [9:03:19<8:51:38,  3.72it/s] 68%|██████▊   | 252657/371472 [9:03:19<8:41:14,  3.80it/s] 68%|██████▊   | 252658/371472 [9:03:19<8:52:53,  3.72it/s] 68%|██████▊   | 252659/371472 [9:03:20<8:47:20,  3.76it/s] 68%|██████▊   | 252660/371472 [9:03:20<8:53:42,  3.71it/s]                                                           {'loss': 2.8303, 'learning_rate': 3.880120235299187e-07, 'epoch': 10.88}
 68%|██████▊   | 252660/371472 [9:03:20<8:53:42,  3.71it/s] 68%|██████▊   | 252661/371472 [9:03:20<8:57:25,  3.68it/s] 68%|██████▊   | 252662/371472 [9:03:20<8:50:33,  3.73it/s] 68%|██████▊   | 252663/371472 [9:03:21<8:33:05,  3.86it/s] 68%|██████▊   | 252664/371472 [9:03:21<9:16:56,  3.56it/s] 68%|██████▊   | 252665/371472 [9:03:21<9:03:53,  3.64it/s] 68%|██████▊   | 252666/371472 [9:03:21<8:53:50,  3.71it/s] 68%|██████▊   | 252667/371472 [9:03:22<8:43:19,  3.78it/s] 68%|██████▊   | 252668/371472 [9:03:22<8:32:35,  3.86it/s] 68%|██████▊   | 252669/371472 [9:03:22<8:47:12,  3.76it/s] 68%|██████▊   | 252670/371472 [9:03:23<9:10:50,  3.59it/s] 68%|██████▊   | 252671/371472 [9:03:23<8:59:42,  3.67it/s] 68%|██████▊   | 252672/371472 [9:03:23<8:48:47,  3.74it/s] 68%|██████▊   | 252673/371472 [9:03:23<8:27:20,  3.90it/s] 68%|██████▊   | 252674/371472 [9:03:24<8:49:44,  3.74it/s] 68%|██████▊   | 252675/371472 [9:03:24<8:41:02,  3.80it/s] 68%|██████▊   | 252676/371472 [9:03:24<9:06:19,  3.62it/s] 68%|██████▊   | 252677/371472 [9:03:24<8:37:30,  3.83it/s] 68%|██████▊   | 252678/371472 [9:03:25<8:36:06,  3.84it/s] 68%|██████▊   | 252679/371472 [9:03:25<8:36:34,  3.83it/s] 68%|██████▊   | 252680/371472 [9:03:25<9:03:23,  3.64it/s]                                                           {'loss': 2.8159, 'learning_rate': 3.879635415544399e-07, 'epoch': 10.88}
 68%|██████▊   | 252680/371472 [9:03:25<9:03:23,  3.64it/s] 68%|██████▊   | 252681/371472 [9:03:25<8:51:06,  3.73it/s] 68%|██████▊   | 252682/371472 [9:03:26<8:41:45,  3.79it/s] 68%|██████▊   | 252683/371472 [9:03:26<9:16:34,  3.56it/s] 68%|██████▊   | 252684/371472 [9:03:26<9:08:44,  3.61it/s] 68%|██████▊   | 252685/371472 [9:03:27<8:51:28,  3.73it/s] 68%|██████▊   | 252686/371472 [9:03:27<9:03:41,  3.64it/s] 68%|██████▊   | 252687/371472 [9:03:27<9:14:47,  3.57it/s] 68%|██████▊   | 252688/371472 [9:03:27<9:16:25,  3.56it/s] 68%|██████▊   | 252689/371472 [9:03:28<8:57:42,  3.68it/s] 68%|██████▊   | 252690/371472 [9:03:28<8:48:37,  3.74it/s] 68%|██████▊   | 252691/371472 [9:03:28<8:46:33,  3.76it/s] 68%|██████▊   | 252692/371472 [9:03:28<8:37:20,  3.83it/s] 68%|██████▊   | 252693/371472 [9:03:29<9:24:09,  3.51it/s] 68%|██████▊   | 252694/371472 [9:03:29<9:46:34,  3.37it/s] 68%|██████▊   | 252695/371472 [9:03:29<9:26:11,  3.50it/s] 68%|██████▊   | 252696/371472 [9:03:30<9:40:25,  3.41it/s] 68%|██████▊   | 252697/371472 [9:03:30<9:11:30,  3.59it/s] 68%|██████▊   | 252698/371472 [9:03:30<9:16:23,  3.56it/s] 68%|██████▊   | 252699/371472 [9:03:31<9:26:06,  3.50it/s] 68%|██████▊   | 252700/371472 [9:03:31<9:30:31,  3.47it/s]                                                           {'loss': 2.9024, 'learning_rate': 3.8791505957896096e-07, 'epoch': 10.88}
 68%|██████▊   | 252700/371472 [9:03:31<9:30:31,  3.47it/s] 68%|██████▊   | 252701/371472 [9:03:31<9:25:14,  3.50it/s] 68%|██████▊   | 252702/371472 [9:03:31<9:29:13,  3.48it/s] 68%|██████▊   | 252703/371472 [9:03:32<9:33:55,  3.45it/s] 68%|██████▊   | 252704/371472 [9:03:32<9:20:05,  3.53it/s] 68%|██████▊   | 252705/371472 [9:03:32<9:31:15,  3.47it/s] 68%|██████▊   | 252706/371472 [9:03:32<9:03:14,  3.64it/s] 68%|██████▊   | 252707/371472 [9:03:33<8:44:46,  3.77it/s] 68%|██████▊   | 252708/371472 [9:03:33<8:36:34,  3.83it/s] 68%|██████▊   | 252709/371472 [9:03:33<8:49:51,  3.74it/s] 68%|██████▊   | 252710/371472 [9:03:34<8:45:20,  3.77it/s] 68%|██████▊   | 252711/371472 [9:03:34<9:08:13,  3.61it/s] 68%|██████▊   | 252712/371472 [9:03:34<10:11:22,  3.24it/s] 68%|██████▊   | 252713/371472 [9:03:34<9:37:23,  3.43it/s]  68%|██████▊   | 252714/371472 [9:03:35<9:46:38,  3.37it/s] 68%|██████▊   | 252715/371472 [9:03:35<9:17:02,  3.55it/s] 68%|██████▊   | 252716/371472 [9:03:35<9:14:15,  3.57it/s] 68%|██████▊   | 252717/371472 [9:03:36<8:50:50,  3.73it/s] 68%|██████▊   | 252718/371472 [9:03:36<9:21:14,  3.53it/s] 68%|██████▊   | 252719/371472 [9:03:36<10:06:37,  3.26it/s] 68%|██████▊   | 252720/371472 [9:03:37<10:10:44,  3.24it/s]                                                            {'loss': 2.7674, 'learning_rate': 3.878665776034821e-07, 'epoch': 10.89}
 68%|██████▊   | 252720/371472 [9:03:37<10:10:44,  3.24it/s] 68%|██████▊   | 252721/371472 [9:03:37<10:04:09,  3.28it/s] 68%|██████▊   | 252722/371472 [9:03:37<9:45:14,  3.38it/s]  68%|██████▊   | 252723/371472 [9:03:37<9:56:46,  3.32it/s] 68%|██████▊   | 252724/371472 [9:03:38<9:58:56,  3.30it/s] 68%|██████▊   | 252725/371472 [9:03:38<9:31:50,  3.46it/s] 68%|██████▊   | 252726/371472 [9:03:38<9:44:49,  3.38it/s] 68%|██████▊   | 252727/371472 [9:03:39<10:04:26,  3.27it/s] 68%|██████▊   | 252728/371472 [9:03:39<9:45:25,  3.38it/s]  68%|██████▊   | 252729/371472 [9:03:39<9:28:38,  3.48it/s] 68%|██████▊   | 252730/371472 [9:03:39<9:15:06,  3.57it/s] 68%|██████▊   | 252731/371472 [9:03:40<8:47:33,  3.75it/s] 68%|██████▊   | 252732/371472 [9:03:40<8:43:12,  3.78it/s] 68%|██████▊   | 252733/371472 [9:03:40<9:25:07,  3.50it/s] 68%|██████▊   | 252734/371472 [9:03:40<9:02:33,  3.65it/s] 68%|██████▊   | 252735/371472 [9:03:41<8:42:19,  3.79it/s] 68%|██████▊   | 252736/371472 [9:03:41<8:31:23,  3.87it/s] 68%|██████▊   | 252737/371472 [9:03:41<8:34:28,  3.85it/s] 68%|██████▊   | 252738/371472 [9:03:42<9:13:47,  3.57it/s] 68%|██████▊   | 252739/371472 [9:03:42<8:50:08,  3.73it/s] 68%|██████▊   | 252740/371472 [9:03:42<8:42:09,  3.79it/s]                                                           {'loss': 3.0725, 'learning_rate': 3.8781809562800316e-07, 'epoch': 10.89}
 68%|██████▊   | 252740/371472 [9:03:42<8:42:09,  3.79it/s] 68%|██████▊   | 252741/371472 [9:03:42<8:31:48,  3.87it/s] 68%|██████▊   | 252742/371472 [9:03:43<8:25:18,  3.92it/s] 68%|██████▊   | 252743/371472 [9:03:43<8:49:03,  3.74it/s] 68%|██████▊   | 252744/371472 [9:03:43<9:01:45,  3.65it/s] 68%|██████▊   | 252745/371472 [9:03:43<8:39:52,  3.81it/s] 68%|██████▊   | 252746/371472 [9:03:44<8:45:50,  3.76it/s] 68%|██████▊   | 252747/371472 [9:03:44<9:44:44,  3.38it/s] 68%|██████▊   | 252748/371472 [9:03:44<9:20:29,  3.53it/s] 68%|██████▊   | 252749/371472 [9:03:45<10:05:33,  3.27it/s] 68%|██████▊   | 252750/371472 [9:03:45<9:53:52,  3.33it/s]  68%|██████▊   | 252751/371472 [9:03:45<9:49:06,  3.36it/s] 68%|██████▊   | 252752/371472 [9:03:46<9:56:31,  3.32it/s] 68%|██████▊   | 252753/371472 [9:03:46<9:47:02,  3.37it/s] 68%|██████▊   | 252754/371472 [9:03:46<9:21:39,  3.52it/s] 68%|██████▊   | 252755/371472 [9:03:46<9:16:00,  3.56it/s] 68%|██████▊   | 252756/371472 [9:03:47<9:44:56,  3.38it/s] 68%|██████▊   | 252757/371472 [9:03:47<9:17:45,  3.55it/s] 68%|██████▊   | 252758/371472 [9:03:47<8:48:15,  3.75it/s] 68%|██████▊   | 252759/371472 [9:03:47<9:22:27,  3.52it/s] 68%|██████▊   | 252760/371472 [9:03:48<9:01:06,  3.66it/s]                                                           {'loss': 2.8202, 'learning_rate': 3.877696136525243e-07, 'epoch': 10.89}
 68%|██████▊   | 252760/371472 [9:03:48<9:01:06,  3.66it/s] 68%|██████▊   | 252761/371472 [9:03:48<9:05:44,  3.63it/s] 68%|██████▊   | 252762/371472 [9:03:48<9:40:42,  3.41it/s] 68%|██████▊   | 252763/371472 [9:03:49<9:30:36,  3.47it/s] 68%|██████▊   | 252764/371472 [9:03:49<9:22:10,  3.52it/s] 68%|██████▊   | 252765/371472 [9:03:49<9:00:48,  3.66it/s] 68%|██████▊   | 252766/371472 [9:03:49<9:04:13,  3.64it/s] 68%|██████▊   | 252767/371472 [9:03:50<9:34:45,  3.44it/s] 68%|██████▊   | 252768/371472 [9:03:50<9:08:55,  3.60it/s] 68%|██████▊   | 252769/371472 [9:03:50<8:55:19,  3.70it/s] 68%|██████▊   | 252770/371472 [9:03:51<9:11:40,  3.59it/s] 68%|██████▊   | 252771/371472 [9:03:51<9:22:10,  3.52it/s] 68%|██████▊   | 252772/371472 [9:03:51<9:45:32,  3.38it/s] 68%|██████▊   | 252773/371472 [9:03:51<9:59:20,  3.30it/s] 68%|██████▊   | 252774/371472 [9:03:52<10:17:44,  3.20it/s] 68%|██████▊   | 252775/371472 [9:03:52<10:29:22,  3.14it/s] 68%|██████▊   | 252776/371472 [9:03:53<10:50:42,  3.04it/s] 68%|██████▊   | 252777/371472 [9:03:53<10:44:01,  3.07it/s] 68%|██████▊   | 252778/371472 [9:03:53<10:02:53,  3.28it/s] 68%|██████▊   | 252779/371472 [9:03:53<9:31:08,  3.46it/s]  68%|██████▊   | 252780/371472 [9:03:54<9:25:26,  3.50it/s]                                                           {'loss': 2.9157, 'learning_rate': 3.8772113167704535e-07, 'epoch': 10.89}
 68%|██████▊   | 252780/371472 [9:03:54<9:25:26,  3.50it/s] 68%|██████▊   | 252781/371472 [9:03:54<8:55:13,  3.70it/s] 68%|██████▊   | 252782/371472 [9:03:54<9:51:08,  3.35it/s] 68%|██████▊   | 252783/371472 [9:03:54<9:34:53,  3.44it/s] 68%|██████▊   | 252784/371472 [9:03:55<9:27:23,  3.49it/s] 68%|██████▊   | 252785/371472 [9:03:55<8:58:19,  3.67it/s] 68%|██████▊   | 252786/371472 [9:03:55<9:00:00,  3.66it/s] 68%|██████▊   | 252787/371472 [9:03:56<8:49:12,  3.74it/s] 68%|██████▊   | 252788/371472 [9:03:56<8:51:25,  3.72it/s] 68%|██████▊   | 252789/371472 [9:03:56<9:03:59,  3.64it/s] 68%|██████▊   | 252790/371472 [9:03:56<9:10:51,  3.59it/s] 68%|██████▊   | 252791/371472 [9:03:57<8:49:11,  3.74it/s] 68%|██████▊   | 252792/371472 [9:03:57<9:13:06,  3.58it/s] 68%|██████▊   | 252793/371472 [9:03:57<9:45:40,  3.38it/s] 68%|██████▊   | 252794/371472 [9:03:58<9:28:28,  3.48it/s] 68%|██████▊   | 252795/371472 [9:03:58<9:42:25,  3.40it/s] 68%|██████▊   | 252796/371472 [9:03:58<9:11:42,  3.59it/s] 68%|██████▊   | 252797/371472 [9:03:58<9:37:28,  3.43it/s] 68%|██████▊   | 252798/371472 [9:03:59<9:16:28,  3.55it/s] 68%|██████▊   | 252799/371472 [9:03:59<9:00:53,  3.66it/s] 68%|██████▊   | 252800/371472 [9:03:59<8:56:00,  3.69it/s]                                                           {'loss': 2.7437, 'learning_rate': 3.8767264970156653e-07, 'epoch': 10.89}
 68%|██████▊   | 252800/371472 [9:03:59<8:56:00,  3.69it/s] 68%|██████▊   | 252801/371472 [9:03:59<9:00:52,  3.66it/s] 68%|██████▊   | 252802/371472 [9:04:00<8:40:23,  3.80it/s] 68%|██████▊   | 252803/371472 [9:04:00<9:51:22,  3.34it/s] 68%|██████▊   | 252804/371472 [9:04:00<9:27:33,  3.48it/s] 68%|██████▊   | 252805/371472 [9:04:01<9:23:19,  3.51it/s] 68%|██████▊   | 252806/371472 [9:04:01<8:55:07,  3.70it/s] 68%|██████▊   | 252807/371472 [9:04:01<9:03:15,  3.64it/s] 68%|██████▊   | 252808/371472 [9:04:01<8:59:57,  3.66it/s] 68%|██████▊   | 252809/371472 [9:04:02<8:55:13,  3.70it/s] 68%|██████▊   | 252810/371472 [9:04:02<8:47:47,  3.75it/s] 68%|██████▊   | 252811/371472 [9:04:02<9:41:26,  3.40it/s] 68%|██████▊   | 252812/371472 [9:04:03<9:20:01,  3.53it/s] 68%|██████▊   | 252813/371472 [9:04:03<9:10:26,  3.59it/s] 68%|██████▊   | 252814/371472 [9:04:03<8:48:49,  3.74it/s] 68%|██████▊   | 252815/371472 [9:04:03<8:48:10,  3.74it/s] 68%|██████▊   | 252816/371472 [9:04:04<8:48:01,  3.75it/s] 68%|██████▊   | 252817/371472 [9:04:04<8:36:19,  3.83it/s] 68%|██████▊   | 252818/371472 [9:04:04<9:30:19,  3.47it/s] 68%|██████▊   | 252819/371472 [9:04:04<9:07:58,  3.61it/s] 68%|██████▊   | 252820/371472 [9:04:05<9:04:06,  3.63it/s]                                                           {'loss': 2.9591, 'learning_rate': 3.876241677260876e-07, 'epoch': 10.89}
 68%|██████▊   | 252820/371472 [9:04:05<9:04:06,  3.63it/s] 68%|██████▊   | 252821/371472 [9:04:05<9:18:14,  3.54it/s] 68%|██████▊   | 252822/371472 [9:04:05<9:08:11,  3.61it/s] 68%|██████▊   | 252823/371472 [9:04:06<9:09:18,  3.60it/s] 68%|██████▊   | 252824/371472 [9:04:06<8:49:14,  3.74it/s] 68%|██████▊   | 252825/371472 [9:04:06<9:30:51,  3.46it/s] 68%|██████▊   | 252826/371472 [9:04:06<9:15:24,  3.56it/s] 68%|██████▊   | 252827/371472 [9:04:07<8:58:15,  3.67it/s] 68%|██████▊   | 252828/371472 [9:04:07<9:08:28,  3.61it/s] 68%|██████▊   | 252829/371472 [9:04:07<8:56:42,  3.68it/s] 68%|██████▊   | 252830/371472 [9:04:07<8:46:51,  3.75it/s] 68%|██████▊   | 252831/371472 [9:04:08<8:21:18,  3.94it/s] 68%|██████▊   | 252832/371472 [9:04:08<8:52:27,  3.71it/s] 68%|██████▊   | 252833/371472 [9:04:08<9:03:56,  3.64it/s] 68%|██████▊   | 252834/371472 [9:04:09<8:54:59,  3.70it/s] 68%|██████▊   | 252835/371472 [9:04:09<9:16:45,  3.55it/s] 68%|██████▊   | 252836/371472 [9:04:09<9:09:39,  3.60it/s] 68%|██████▊   | 252837/371472 [9:04:09<9:07:44,  3.61it/s] 68%|██████▊   | 252838/371472 [9:04:10<8:56:59,  3.68it/s] 68%|██████▊   | 252839/371472 [9:04:10<9:09:21,  3.60it/s] 68%|██████▊   | 252840/371472 [9:04:10<10:07:12,  3.26it/s]                                                            {'loss': 2.7014, 'learning_rate': 3.875756857506087e-07, 'epoch': 10.89}
 68%|██████▊   | 252840/371472 [9:04:10<10:07:12,  3.26it/s] 68%|██████▊   | 252841/371472 [9:04:11<9:41:43,  3.40it/s]  68%|██████▊   | 252842/371472 [9:04:11<9:14:31,  3.57it/s] 68%|██████▊   | 252843/371472 [9:04:11<8:56:11,  3.69it/s] 68%|██████▊   | 252844/371472 [9:04:11<10:21:25,  3.18it/s] 68%|██████▊   | 252845/371472 [9:04:12<10:09:45,  3.24it/s] 68%|██████▊   | 252846/371472 [9:04:12<9:48:35,  3.36it/s]  68%|██████▊   | 252847/371472 [9:04:12<10:15:57,  3.21it/s] 68%|██████▊   | 252848/371472 [9:04:13<10:15:33,  3.21it/s] 68%|██████▊   | 252849/371472 [9:04:13<10:43:20,  3.07it/s] 68%|██████▊   | 252850/371472 [9:04:13<10:30:14,  3.14it/s] 68%|██████▊   | 252851/371472 [9:04:14<10:09:01,  3.25it/s] 68%|██████▊   | 252852/371472 [9:04:14<9:45:00,  3.38it/s]  68%|██████▊   | 252853/371472 [9:04:14<9:23:39,  3.51it/s] 68%|██████▊   | 252854/371472 [9:04:14<9:07:50,  3.61it/s] 68%|██████▊   | 252855/371472 [9:04:15<8:51:32,  3.72it/s] 68%|██████▊   | 252856/371472 [9:04:15<8:45:35,  3.76it/s] 68%|██████▊   | 252857/371472 [9:04:15<9:25:01,  3.50it/s] 68%|██████▊   | 252858/371472 [9:04:16<10:06:17,  3.26it/s] 68%|██████▊   | 252859/371472 [9:04:16<10:14:04,  3.22it/s] 68%|██████▊   | 252860/371472 [9:04:16<9:40:57,  3.40it/s]                                                            {'loss': 2.7922, 'learning_rate': 3.875272037751298e-07, 'epoch': 10.89}
 68%|██████▊   | 252860/371472 [9:04:16<9:40:57,  3.40it/s] 68%|██████▊   | 252861/371472 [9:04:16<9:19:44,  3.53it/s] 68%|██████▊   | 252862/371472 [9:04:17<9:01:43,  3.65it/s] 68%|██████▊   | 252863/371472 [9:04:17<10:41:33,  3.08it/s] 68%|██████▊   | 252864/371472 [9:04:17<10:11:11,  3.23it/s] 68%|██████▊   | 252865/371472 [9:04:18<10:31:43,  3.13it/s] 68%|██████▊   | 252866/371472 [9:04:18<10:30:32,  3.14it/s] 68%|██████▊   | 252867/371472 [9:04:18<9:57:30,  3.31it/s]  68%|██████▊   | 252868/371472 [9:04:19<9:38:50,  3.41it/s] 68%|██████▊   | 252869/371472 [9:04:19<9:19:47,  3.53it/s] 68%|██████▊   | 252870/371472 [9:04:19<8:50:45,  3.72it/s] 68%|██████▊   | 252871/371472 [9:04:19<8:36:33,  3.83it/s] 68%|██████▊   | 252872/371472 [9:04:20<8:32:24,  3.86it/s] 68%|██████▊   | 252873/371472 [9:04:20<8:22:41,  3.93it/s] 68%|██████▊   | 252874/371472 [9:04:20<8:52:22,  3.71it/s] 68%|██████▊   | 252875/371472 [9:04:20<8:53:58,  3.70it/s] 68%|██████▊   | 252876/371472 [9:04:21<8:44:14,  3.77it/s] 68%|██████▊   | 252877/371472 [9:04:21<8:41:29,  3.79it/s] 68%|██████▊   | 252878/371472 [9:04:21<8:30:40,  3.87it/s] 68%|██████▊   | 252879/371472 [9:04:21<8:33:15,  3.85it/s] 68%|██████▊   | 252880/371472 [9:04:22<8:39:29,  3.80it/s]                                                           {'loss': 2.9765, 'learning_rate': 3.8747872179965087e-07, 'epoch': 10.89}
 68%|██████▊   | 252880/371472 [9:04:22<8:39:29,  3.80it/s] 68%|██████▊   | 252881/371472 [9:04:22<8:55:52,  3.69it/s] 68%|██████▊   | 252882/371472 [9:04:22<8:59:09,  3.67it/s] 68%|██████▊   | 252883/371472 [9:04:23<9:09:51,  3.59it/s] 68%|██████▊   | 252884/371472 [9:04:23<9:03:22,  3.64it/s] 68%|██████▊   | 252885/371472 [9:04:23<9:08:23,  3.60it/s] 68%|██████▊   | 252886/371472 [9:04:23<9:03:55,  3.63it/s] 68%|██████▊   | 252887/371472 [9:04:24<9:08:26,  3.60it/s] 68%|██████▊   | 252888/371472 [9:04:24<8:53:47,  3.70it/s] 68%|██████▊   | 252889/371472 [9:04:24<8:40:23,  3.80it/s] 68%|██████▊   | 252890/371472 [9:04:24<8:26:04,  3.91it/s] 68%|██████▊   | 252891/371472 [9:04:25<9:20:37,  3.53it/s] 68%|██████▊   | 252892/371472 [9:04:25<9:54:49,  3.32it/s] 68%|██████▊   | 252893/371472 [9:04:25<10:32:41,  3.12it/s] 68%|██████▊   | 252894/371472 [9:04:26<10:16:34,  3.21it/s] 68%|██████▊   | 252895/371472 [9:04:26<9:52:21,  3.34it/s]  68%|██████▊   | 252896/371472 [9:04:26<9:16:18,  3.55it/s] 68%|██████▊   | 252897/371472 [9:04:27<9:45:05,  3.38it/s] 68%|██████▊   | 252898/371472 [9:04:27<9:32:20,  3.45it/s] 68%|██████▊   | 252899/371472 [9:04:27<9:56:35,  3.31it/s] 68%|██████▊   | 252900/371472 [9:04:27<9:29:10,  3.47it/s]                                                           {'loss': 2.7002, 'learning_rate': 3.8743023982417205e-07, 'epoch': 10.89}
 68%|██████▊   | 252900/371472 [9:04:27<9:29:10,  3.47it/s] 68%|██████▊   | 252901/371472 [9:04:28<9:45:29,  3.38it/s] 68%|██████▊   | 252902/371472 [9:04:28<9:15:52,  3.56it/s] 68%|██████▊   | 252903/371472 [9:04:28<9:17:19,  3.55it/s] 68%|██████▊   | 252904/371472 [9:04:29<9:03:23,  3.64it/s] 68%|██████▊   | 252905/371472 [9:04:29<9:01:10,  3.65it/s] 68%|██████▊   | 252906/371472 [9:04:29<9:50:26,  3.35it/s] 68%|██████▊   | 252907/371472 [9:04:30<10:03:37,  3.27it/s] 68%|██████▊   | 252908/371472 [9:04:30<10:08:44,  3.25it/s] 68%|██████▊   | 252909/371472 [9:04:30<10:59:18,  3.00it/s] 68%|██████▊   | 252910/371472 [9:04:31<10:18:34,  3.19it/s] 68%|██████▊   | 252911/371472 [9:04:31<9:53:37,  3.33it/s]  68%|██████▊   | 252912/371472 [9:04:31<9:25:52,  3.49it/s] 68%|██████▊   | 252913/371472 [9:04:31<9:27:39,  3.48it/s] 68%|██████▊   | 252914/371472 [9:04:32<9:17:10,  3.55it/s] 68%|██████▊   | 252915/371472 [9:04:32<9:02:15,  3.64it/s] 68%|██████▊   | 252916/371472 [9:04:32<8:50:55,  3.72it/s] 68%|██████▊   | 252917/371472 [9:04:32<8:45:29,  3.76it/s] 68%|██████▊   | 252918/371472 [9:04:33<8:45:03,  3.76it/s] 68%|██████▊   | 252919/371472 [9:04:33<9:05:14,  3.62it/s] 68%|██████▊   | 252920/371472 [9:04:33<8:58:50,  3.67it/s]                                                           {'loss': 2.8686, 'learning_rate': 3.8738175784869307e-07, 'epoch': 10.89}
 68%|██████▊   | 252920/371472 [9:04:33<8:58:50,  3.67it/s] 68%|██████▊   | 252921/371472 [9:04:33<8:57:31,  3.68it/s] 68%|██████▊   | 252922/371472 [9:04:34<9:01:01,  3.65it/s] 68%|██████▊   | 252923/371472 [9:04:34<8:50:48,  3.72it/s] 68%|██████▊   | 252924/371472 [9:04:34<9:06:39,  3.61it/s] 68%|██████▊   | 252925/371472 [9:04:35<8:53:16,  3.71it/s] 68%|██████▊   | 252926/371472 [9:04:35<8:44:29,  3.77it/s] 68%|██████▊   | 252927/371472 [9:04:35<8:40:26,  3.80it/s] 68%|██████▊   | 252928/371472 [9:04:35<8:56:43,  3.68it/s] 68%|██████▊   | 252929/371472 [9:04:36<9:05:43,  3.62it/s] 68%|██████▊   | 252930/371472 [9:04:36<9:33:10,  3.45it/s] 68%|██████▊   | 252931/371472 [9:04:36<9:09:42,  3.59it/s] 68%|██████▊   | 252932/371472 [9:04:36<8:52:04,  3.71it/s] 68%|██████▊   | 252933/371472 [9:04:37<8:39:12,  3.81it/s] 68%|██████▊   | 252934/371472 [9:04:37<8:23:22,  3.92it/s] 68%|██████▊   | 252935/371472 [9:04:37<8:39:20,  3.80it/s] 68%|██████▊   | 252936/371472 [9:04:37<8:33:19,  3.85it/s] 68%|██████▊   | 252937/371472 [9:04:38<8:17:27,  3.97it/s] 68%|██████▊   | 252938/371472 [9:04:38<8:26:48,  3.90it/s] 68%|██████▊   | 252939/371472 [9:04:38<8:48:07,  3.74it/s] 68%|██████▊   | 252940/371472 [9:04:39<8:35:32,  3.83it/s]                                                           {'loss': 2.6365, 'learning_rate': 3.8733327587321424e-07, 'epoch': 10.89}
 68%|██████▊   | 252940/371472 [9:04:39<8:35:32,  3.83it/s] 68%|██████▊   | 252941/371472 [9:04:39<9:01:09,  3.65it/s] 68%|██████▊   | 252942/371472 [9:04:39<9:14:05,  3.57it/s] 68%|██████▊   | 252943/371472 [9:04:39<8:43:00,  3.78it/s] 68%|██████▊   | 252944/371472 [9:04:40<9:19:54,  3.53it/s] 68%|██████▊   | 252945/371472 [9:04:40<9:34:54,  3.44it/s] 68%|██████▊   | 252946/371472 [9:04:40<9:20:58,  3.52it/s] 68%|██████▊   | 252947/371472 [9:04:41<9:03:43,  3.63it/s] 68%|██████▊   | 252948/371472 [9:04:41<9:19:45,  3.53it/s] 68%|██████▊   | 252949/371472 [9:04:41<9:55:35,  3.32it/s] 68%|██████▊   | 252950/371472 [9:04:41<9:27:25,  3.48it/s] 68%|██████▊   | 252951/371472 [9:04:42<10:00:12,  3.29it/s] 68%|██████▊   | 252952/371472 [9:04:42<9:36:53,  3.42it/s]  68%|██████▊   | 252953/371472 [9:04:42<9:14:30,  3.56it/s] 68%|██████▊   | 252954/371472 [9:04:43<9:06:27,  3.61it/s] 68%|██████▊   | 252955/371472 [9:04:43<8:55:37,  3.69it/s] 68%|██████▊   | 252956/371472 [9:04:43<9:01:09,  3.65it/s] 68%|██████▊   | 252957/371472 [9:04:43<9:09:15,  3.60it/s] 68%|██████▊   | 252958/371472 [9:04:44<9:27:34,  3.48it/s] 68%|██████▊   | 252959/371472 [9:04:44<9:27:55,  3.48it/s] 68%|██████▊   | 252960/371472 [9:04:44<9:28:16,  3.48it/s]                                                           {'loss': 2.8512, 'learning_rate': 3.872847938977353e-07, 'epoch': 10.9}
 68%|██████▊   | 252960/371472 [9:04:44<9:28:16,  3.48it/s] 68%|██████▊   | 252961/371472 [9:04:45<9:31:29,  3.46it/s] 68%|██████▊   | 252962/371472 [9:04:45<8:54:54,  3.69it/s] 68%|██████▊   | 252963/371472 [9:04:45<8:59:44,  3.66it/s] 68%|██████▊   | 252964/371472 [9:04:45<9:00:04,  3.66it/s] 68%|██████▊   | 252965/371472 [9:04:46<8:34:11,  3.84it/s] 68%|██████▊   | 252966/371472 [9:04:46<8:48:05,  3.74it/s] 68%|██████▊   | 252967/371472 [9:04:46<9:52:50,  3.33it/s] 68%|██████▊   | 252968/371472 [9:04:46<9:21:19,  3.52it/s] 68%|██████▊   | 252969/371472 [9:04:47<9:06:47,  3.61it/s] 68%|██████▊   | 252970/371472 [9:04:47<8:49:00,  3.73it/s] 68%|██████▊   | 252971/371472 [9:04:47<8:44:09,  3.77it/s] 68%|██████▊   | 252972/371472 [9:04:48<8:54:02,  3.70it/s] 68%|██████▊   | 252973/371472 [9:04:48<8:36:48,  3.82it/s] 68%|██████▊   | 252974/371472 [9:04:48<8:39:32,  3.80it/s] 68%|██████▊   | 252975/371472 [9:04:48<8:34:05,  3.84it/s] 68%|██████▊   | 252976/371472 [9:04:49<8:28:43,  3.88it/s] 68%|██████▊   | 252977/371472 [9:04:49<9:25:20,  3.49it/s] 68%|██████▊   | 252978/371472 [9:04:49<9:01:00,  3.65it/s] 68%|██████▊   | 252979/371472 [9:04:50<10:47:27,  3.05it/s] 68%|██████▊   | 252980/371472 [9:04:50<10:28:42,  3.14it/s]                                                            {'loss': 2.8822, 'learning_rate': 3.8723631192225644e-07, 'epoch': 10.9}
 68%|██████▊   | 252980/371472 [9:04:50<10:28:42,  3.14it/s] 68%|██████▊   | 252981/371472 [9:04:50<10:07:53,  3.25it/s] 68%|██████▊   | 252982/371472 [9:04:50<9:30:21,  3.46it/s]  68%|██████▊   | 252983/371472 [9:04:51<9:19:27,  3.53it/s] 68%|██████▊   | 252984/371472 [9:04:51<8:57:28,  3.67it/s] 68%|██████▊   | 252985/371472 [9:04:51<8:47:58,  3.74it/s] 68%|██████▊   | 252986/371472 [9:04:51<8:40:38,  3.79it/s] 68%|██████▊   | 252987/371472 [9:04:52<8:38:37,  3.81it/s] 68%|██████▊   | 252988/371472 [9:04:52<8:32:22,  3.85it/s] 68%|██████▊   | 252989/371472 [9:04:52<9:02:57,  3.64it/s] 68%|██████▊   | 252990/371472 [9:04:53<9:21:08,  3.52it/s] 68%|██████▊   | 252991/371472 [9:04:53<9:12:29,  3.57it/s] 68%|██████▊   | 252992/371472 [9:04:53<8:57:18,  3.68it/s] 68%|██████▊   | 252993/371472 [9:04:53<8:57:43,  3.67it/s] 68%|██████▊   | 252994/371472 [9:04:54<9:07:43,  3.61it/s] 68%|██████▊   | 252995/371472 [9:04:54<9:02:36,  3.64it/s] 68%|██████▊   | 252996/371472 [9:04:54<8:55:09,  3.69it/s] 68%|██████▊   | 252997/371472 [9:04:54<8:45:45,  3.76it/s] 68%|██████▊   | 252998/371472 [9:04:55<8:48:00,  3.74it/s] 68%|██████▊   | 252999/371472 [9:04:55<8:38:44,  3.81it/s] 68%|██████▊   | 253000/371472 [9:04:55<8:26:35,  3.90it/s]                                                           {'loss': 2.8732, 'learning_rate': 3.871878299467775e-07, 'epoch': 10.9}
 68%|██████▊   | 253000/371472 [9:04:55<8:26:35,  3.90it/s] 68%|██████▊   | 253001/371472 [9:04:55<8:24:03,  3.92it/s] 68%|██████▊   | 253002/371472 [9:04:56<9:00:18,  3.65it/s] 68%|██████▊   | 253003/371472 [9:04:56<9:11:15,  3.58it/s] 68%|██████▊   | 253004/371472 [9:04:56<9:30:05,  3.46it/s] 68%|██████▊   | 253005/371472 [9:04:57<9:05:38,  3.62it/s] 68%|██████▊   | 253006/371472 [9:04:57<9:00:49,  3.65it/s] 68%|██████▊   | 253007/371472 [9:04:57<8:53:03,  3.70it/s] 68%|██████▊   | 253008/371472 [9:04:57<8:45:26,  3.76it/s] 68%|██████▊   | 253009/371472 [9:04:58<8:38:34,  3.81it/s] 68%|██████▊   | 253010/371472 [9:04:58<8:46:51,  3.75it/s] 68%|██████▊   | 253011/371472 [9:04:58<8:59:55,  3.66it/s] 68%|██████▊   | 253012/371472 [9:04:59<9:14:11,  3.56it/s] 68%|██████▊   | 253013/371472 [9:04:59<8:53:20,  3.70it/s] 68%|██████▊   | 253014/371472 [9:04:59<9:00:18,  3.65it/s] 68%|██████▊   | 253015/371472 [9:04:59<9:11:18,  3.58it/s] 68%|██████▊   | 253016/371472 [9:05:00<8:47:27,  3.74it/s] 68%|██████▊   | 253017/371472 [9:05:00<8:39:37,  3.80it/s] 68%|██████▊   | 253018/371472 [9:05:00<8:33:31,  3.84it/s] 68%|██████▊   | 253019/371472 [9:05:00<8:52:16,  3.71it/s] 68%|██████▊   | 253020/371472 [9:05:01<8:54:52,  3.69it/s]                                                           {'loss': 2.8302, 'learning_rate': 3.871393479712987e-07, 'epoch': 10.9}
 68%|██████▊   | 253020/371472 [9:05:01<8:54:52,  3.69it/s] 68%|██████▊   | 253021/371472 [9:05:01<9:05:43,  3.62it/s] 68%|██████▊   | 253022/371472 [9:05:01<8:57:21,  3.67it/s] 68%|██████▊   | 253023/371472 [9:05:02<9:30:42,  3.46it/s] 68%|██████▊   | 253024/371472 [9:05:02<9:35:27,  3.43it/s] 68%|██████▊   | 253025/371472 [9:05:02<9:38:02,  3.42it/s] 68%|██████▊   | 253026/371472 [9:05:02<9:25:42,  3.49it/s] 68%|██████▊   | 253027/371472 [9:05:03<9:33:21,  3.44it/s] 68%|██████▊   | 253028/371472 [9:05:03<9:51:48,  3.34it/s] 68%|██████▊   | 253029/371472 [9:05:03<9:25:47,  3.49it/s] 68%|██████▊   | 253030/371472 [9:05:04<9:14:49,  3.56it/s] 68%|██████▊   | 253031/371472 [9:05:04<9:04:59,  3.62it/s] 68%|██████▊   | 253032/371472 [9:05:04<9:00:14,  3.65it/s] 68%|██████▊   | 253033/371472 [9:05:04<8:53:15,  3.70it/s] 68%|██████▊   | 253034/371472 [9:05:05<8:55:39,  3.69it/s] 68%|██████▊   | 253035/371472 [9:05:05<8:37:15,  3.82it/s] 68%|██████▊   | 253036/371472 [9:05:05<8:58:33,  3.67it/s] 68%|██████▊   | 253037/371472 [9:05:05<8:49:38,  3.73it/s] 68%|██████▊   | 253038/371472 [9:05:06<9:28:16,  3.47it/s] 68%|██████▊   | 253039/371472 [9:05:06<9:01:04,  3.65it/s] 68%|██████▊   | 253040/371472 [9:05:06<9:38:01,  3.41it/s]                                                           {'loss': 2.7081, 'learning_rate': 3.870908659958197e-07, 'epoch': 10.9}
 68%|██████▊   | 253040/371472 [9:05:06<9:38:01,  3.41it/s] 68%|██████▊   | 253041/371472 [9:05:07<9:28:58,  3.47it/s] 68%|██████▊   | 253042/371472 [9:05:07<9:27:26,  3.48it/s] 68%|██████▊   | 253043/371472 [9:05:07<9:10:47,  3.58it/s] 68%|██████▊   | 253044/371472 [9:05:07<9:28:48,  3.47it/s] 68%|██████▊   | 253045/371472 [9:05:08<9:11:48,  3.58it/s] 68%|██████▊   | 253046/371472 [9:05:08<9:14:53,  3.56it/s] 68%|██████▊   | 253047/371472 [9:05:08<9:45:35,  3.37it/s] 68%|██████▊   | 253048/371472 [9:05:09<9:41:26,  3.39it/s] 68%|██████▊   | 253049/371472 [9:05:09<9:14:43,  3.56it/s] 68%|██████▊   | 253050/371472 [9:05:09<9:11:54,  3.58it/s] 68%|██████▊   | 253051/371472 [9:05:09<8:53:27,  3.70it/s] 68%|██████▊   | 253052/371472 [9:05:10<8:41:45,  3.78it/s] 68%|██████▊   | 253053/371472 [9:05:10<8:58:35,  3.66it/s] 68%|██████▊   | 253054/371472 [9:05:10<9:44:39,  3.38it/s] 68%|██████▊   | 253055/371472 [9:05:11<9:14:40,  3.56it/s] 68%|██████▊   | 253056/371472 [9:05:11<9:06:59,  3.61it/s] 68%|██████▊   | 253057/371472 [9:05:11<9:18:08,  3.54it/s] 68%|██████▊   | 253058/371472 [9:05:11<9:17:36,  3.54it/s] 68%|██████▊   | 253059/371472 [9:05:12<9:05:22,  3.62it/s] 68%|██████▊   | 253060/371472 [9:05:12<8:51:00,  3.72it/s]                                                           {'loss': 2.7551, 'learning_rate': 3.870423840203409e-07, 'epoch': 10.9}
 68%|██████▊   | 253060/371472 [9:05:12<8:51:00,  3.72it/s] 68%|██████▊   | 253061/371472 [9:05:12<8:56:36,  3.68it/s] 68%|██████▊   | 253062/371472 [9:05:12<8:52:53,  3.70it/s] 68%|██████▊   | 253063/371472 [9:05:13<9:03:14,  3.63it/s] 68%|██████▊   | 253064/371472 [9:05:13<8:59:28,  3.66it/s] 68%|██████▊   | 253065/371472 [9:05:13<8:43:32,  3.77it/s] 68%|██████▊   | 253066/371472 [9:05:14<9:06:29,  3.61it/s] 68%|██████▊   | 253067/371472 [9:05:14<10:16:27,  3.20it/s] 68%|██████▊   | 253068/371472 [9:05:14<10:09:18,  3.24it/s] 68%|██████▊   | 253069/371472 [9:05:14<9:44:18,  3.38it/s]  68%|██████▊   | 253070/371472 [9:05:15<9:28:18,  3.47it/s] 68%|██████▊   | 253071/371472 [9:05:15<9:14:44,  3.56it/s] 68%|██████▊   | 253072/371472 [9:05:15<9:11:01,  3.58it/s] 68%|██████▊   | 253073/371472 [9:05:16<9:53:46,  3.32it/s] 68%|██████▊   | 253074/371472 [9:05:16<9:33:41,  3.44it/s] 68%|██████▊   | 253075/371472 [9:05:16<9:27:20,  3.48it/s] 68%|██████▊   | 253076/371472 [9:05:16<9:16:40,  3.54it/s] 68%|██████▊   | 253077/371472 [9:05:17<9:51:29,  3.34it/s] 68%|██████▊   | 253078/371472 [9:05:17<9:46:48,  3.36it/s] 68%|██████▊   | 253079/371472 [9:05:17<9:22:08,  3.51it/s] 68%|██████▊   | 253080/371472 [9:05:18<9:09:21,  3.59it/s]                                                           {'loss': 2.7322, 'learning_rate': 3.8699390204486195e-07, 'epoch': 10.9}
 68%|██████▊   | 253080/371472 [9:05:18<9:09:21,  3.59it/s] 68%|██████▊   | 253081/371472 [9:05:18<9:01:23,  3.64it/s] 68%|██████▊   | 253082/371472 [9:05:18<8:59:18,  3.66it/s] 68%|██████▊   | 253083/371472 [9:05:18<8:48:54,  3.73it/s] 68%|██████▊   | 253084/371472 [9:05:19<8:50:26,  3.72it/s] 68%|██████▊   | 253085/371472 [9:05:19<8:57:53,  3.67it/s] 68%|██████▊   | 253086/371472 [9:05:19<9:34:10,  3.44it/s] 68%|██████▊   | 253087/371472 [9:05:20<9:24:36,  3.49it/s] 68%|██████▊   | 253088/371472 [9:05:20<9:04:01,  3.63it/s] 68%|██████▊   | 253089/371472 [9:05:20<9:04:23,  3.62it/s] 68%|██████▊   | 253090/371472 [9:05:20<8:38:37,  3.80it/s] 68%|██████▊   | 253091/371472 [9:05:21<9:16:42,  3.54it/s] 68%|██████▊   | 253092/371472 [9:05:21<9:43:57,  3.38it/s] 68%|██████▊   | 253093/371472 [9:05:21<9:19:40,  3.53it/s] 68%|██████▊   | 253094/371472 [9:05:22<9:21:57,  3.51it/s] 68%|██████▊   | 253095/371472 [9:05:22<10:11:22,  3.23it/s] 68%|██████▊   | 253096/371472 [9:05:22<10:08:07,  3.24it/s] 68%|██████▊   | 253097/371472 [9:05:23<10:01:16,  3.28it/s] 68%|██████▊   | 253098/371472 [9:05:23<9:21:53,  3.51it/s]  68%|██████▊   | 253099/371472 [9:05:23<9:26:06,  3.49it/s] 68%|██████▊   | 253100/371472 [9:05:23<9:12:31,  3.57it/s]                                                           {'loss': 2.8544, 'learning_rate': 3.869454200693831e-07, 'epoch': 10.9}
 68%|██████▊   | 253100/371472 [9:05:23<9:12:31,  3.57it/s] 68%|██████▊   | 253101/371472 [9:05:24<9:16:34,  3.54it/s] 68%|██████▊   | 253102/371472 [9:05:24<9:15:53,  3.55it/s] 68%|██████▊   | 253103/371472 [9:05:24<8:50:04,  3.72it/s] 68%|██████▊   | 253104/371472 [9:05:24<8:55:57,  3.68it/s] 68%|██████▊   | 253105/371472 [9:05:25<8:55:02,  3.69it/s] 68%|██████▊   | 253106/371472 [9:05:25<8:47:40,  3.74it/s] 68%|██████▊   | 253107/371472 [9:05:25<8:37:14,  3.81it/s] 68%|██████▊   | 253108/371472 [9:05:25<8:53:26,  3.70it/s] 68%|██████▊   | 253109/371472 [9:05:26<8:54:44,  3.69it/s] 68%|██████▊   | 253110/371472 [9:05:26<8:42:24,  3.78it/s] 68%|██████▊   | 253111/371472 [9:05:26<8:54:27,  3.69it/s] 68%|██████▊   | 253112/371472 [9:05:27<9:05:21,  3.62it/s] 68%|██████▊   | 253113/371472 [9:05:27<9:10:52,  3.58it/s] 68%|██████▊   | 253114/371472 [9:05:27<8:46:30,  3.75it/s] 68%|██████▊   | 253115/371472 [9:05:27<9:00:15,  3.65it/s] 68%|██████▊   | 253116/371472 [9:05:28<8:59:58,  3.65it/s] 68%|██████▊   | 253117/371472 [9:05:28<8:54:40,  3.69it/s] 68%|██████▊   | 253118/371472 [9:05:28<9:00:57,  3.65it/s] 68%|██████▊   | 253119/371472 [9:05:28<8:56:29,  3.68it/s] 68%|██████▊   | 253120/371472 [9:05:29<9:00:45,  3.65it/s]                                                           {'loss': 2.7952, 'learning_rate': 3.8689693809390415e-07, 'epoch': 10.9}
 68%|██████▊   | 253120/371472 [9:05:29<9:00:45,  3.65it/s] 68%|██████▊   | 253121/371472 [9:05:29<9:02:04,  3.64it/s] 68%|██████▊   | 253122/371472 [9:05:29<8:49:54,  3.72it/s] 68%|██████▊   | 253123/371472 [9:05:30<8:41:01,  3.79it/s] 68%|██████▊   | 253124/371472 [9:05:30<9:19:30,  3.53it/s] 68%|██████▊   | 253125/371472 [9:05:30<9:10:17,  3.58it/s] 68%|██████▊   | 253126/371472 [9:05:30<8:46:53,  3.74it/s] 68%|██████▊   | 253127/371472 [9:05:31<9:17:39,  3.54it/s] 68%|██████▊   | 253128/371472 [9:05:31<10:00:45,  3.28it/s] 68%|██████▊   | 253129/371472 [9:05:31<9:50:46,  3.34it/s]  68%|██████▊   | 253130/371472 [9:05:32<9:23:37,  3.50it/s] 68%|██████▊   | 253131/371472 [9:05:32<9:17:32,  3.54it/s] 68%|██████▊   | 253132/371472 [9:05:32<9:06:25,  3.61it/s] 68%|██████▊   | 253133/371472 [9:05:32<8:47:18,  3.74it/s] 68%|██████▊   | 253134/371472 [9:05:33<8:52:48,  3.70it/s] 68%|██████▊   | 253135/371472 [9:05:33<9:40:16,  3.40it/s] 68%|██████▊   | 253136/371472 [9:05:33<9:21:15,  3.51it/s] 68%|██████▊   | 253137/371472 [9:05:33<8:54:52,  3.69it/s] 68%|██████▊   | 253138/371472 [9:05:34<8:58:22,  3.66it/s] 68%|██████▊   | 253139/371472 [9:05:34<9:42:24,  3.39it/s] 68%|██████▊   | 253140/371472 [9:05:34<9:17:44,  3.54it/s]                                                           {'loss': 2.6736, 'learning_rate': 3.8684845611842533e-07, 'epoch': 10.9}
 68%|██████▊   | 253140/371472 [9:05:34<9:17:44,  3.54it/s] 68%|██████▊   | 253141/371472 [9:05:35<8:48:57,  3.73it/s] 68%|██████▊   | 253142/371472 [9:05:35<8:41:08,  3.78it/s] 68%|██████▊   | 253143/371472 [9:05:35<8:34:21,  3.83it/s] 68%|██████▊   | 253144/371472 [9:05:35<8:49:15,  3.73it/s] 68%|██████▊   | 253145/371472 [9:05:36<8:34:25,  3.83it/s] 68%|██████▊   | 253146/371472 [9:05:36<8:31:26,  3.86it/s] 68%|██████▊   | 253147/371472 [9:05:36<8:41:35,  3.78it/s] 68%|██████▊   | 253148/371472 [9:05:36<8:56:13,  3.68it/s] 68%|██████▊   | 253149/371472 [9:05:37<8:46:20,  3.75it/s] 68%|██████▊   | 253150/371472 [9:05:37<8:34:11,  3.84it/s] 68%|██████▊   | 253151/371472 [9:05:37<9:13:37,  3.56it/s] 68%|██████▊   | 253152/371472 [9:05:38<9:33:18,  3.44it/s] 68%|██████▊   | 253153/371472 [9:05:38<9:03:42,  3.63it/s] 68%|██████▊   | 253154/371472 [9:05:38<9:08:48,  3.59it/s] 68%|██████▊   | 253155/371472 [9:05:38<8:50:05,  3.72it/s] 68%|██████▊   | 253156/371472 [9:05:39<9:09:16,  3.59it/s] 68%|██████▊   | 253157/371472 [9:05:39<8:48:25,  3.73it/s] 68%|██████▊   | 253158/371472 [9:05:39<9:28:52,  3.47it/s] 68%|██████▊   | 253159/371472 [9:05:40<9:38:48,  3.41it/s] 68%|██████▊   | 253160/371472 [9:05:40<9:06:35,  3.61it/s]                                                           {'loss': 2.8139, 'learning_rate': 3.8679997414294635e-07, 'epoch': 10.9}
 68%|██████▊   | 253160/371472 [9:05:40<9:06:35,  3.61it/s] 68%|██████▊   | 253161/371472 [9:05:40<8:55:02,  3.69it/s] 68%|██████▊   | 253162/371472 [9:05:40<9:41:44,  3.39it/s] 68%|██████▊   | 253163/371472 [9:05:41<9:48:33,  3.35it/s] 68%|██████▊   | 253164/371472 [9:05:41<9:18:28,  3.53it/s] 68%|██████▊   | 253165/371472 [9:05:41<9:02:18,  3.64it/s] 68%|██████▊   | 253166/371472 [9:05:41<8:42:33,  3.77it/s] 68%|██████▊   | 253167/371472 [9:05:42<8:26:10,  3.90it/s] 68%|██████▊   | 253168/371472 [9:05:42<8:19:24,  3.95it/s] 68%|██████▊   | 253169/371472 [9:05:42<8:48:06,  3.73it/s] 68%|██████▊   | 253170/371472 [9:05:43<8:49:30,  3.72it/s] 68%|██████▊   | 253171/371472 [9:05:43<9:06:42,  3.61it/s] 68%|██████▊   | 253172/371472 [9:05:43<8:44:32,  3.76it/s] 68%|██████▊   | 253173/371472 [9:05:43<8:58:26,  3.66it/s] 68%|██████▊   | 253174/371472 [9:05:44<9:23:50,  3.50it/s] 68%|██████▊   | 253175/371472 [9:05:44<9:10:07,  3.58it/s] 68%|██████▊   | 253176/371472 [9:05:44<9:10:49,  3.58it/s] 68%|██████▊   | 253177/371472 [9:05:44<9:03:13,  3.63it/s] 68%|██████▊   | 253178/371472 [9:05:45<10:11:51,  3.22it/s] 68%|██████▊   | 253179/371472 [9:05:45<10:16:16,  3.20it/s] 68%|██████▊   | 253180/371472 [9:05:45<9:46:51,  3.36it/s]                                                            {'loss': 2.9112, 'learning_rate': 3.8675149216746747e-07, 'epoch': 10.9}
 68%|██████▊   | 253180/371472 [9:05:45<9:46:51,  3.36it/s] 68%|██████▊   | 253181/371472 [9:05:46<9:18:30,  3.53it/s] 68%|██████▊   | 253182/371472 [9:05:46<9:41:32,  3.39it/s] 68%|██████▊   | 253183/371472 [9:05:46<9:27:22,  3.47it/s] 68%|██████▊   | 253184/371472 [9:05:47<9:29:40,  3.46it/s] 68%|██████▊   | 253185/371472 [9:05:47<9:16:34,  3.54it/s] 68%|██████▊   | 253186/371472 [9:05:47<9:01:01,  3.64it/s] 68%|██████▊   | 253187/371472 [9:05:47<9:47:21,  3.36it/s] 68%|██████▊   | 253188/371472 [9:05:48<9:39:06,  3.40it/s] 68%|██████▊   | 253189/371472 [9:05:48<9:31:38,  3.45it/s] 68%|██████▊   | 253190/371472 [9:05:48<9:42:23,  3.38it/s] 68%|██████▊   | 253191/371472 [9:05:49<9:20:13,  3.52it/s] 68%|██████▊   | 253192/371472 [9:05:49<9:02:45,  3.63it/s] 68%|██████▊   | 253193/371472 [9:05:49<8:37:13,  3.81it/s] 68%|██████▊   | 253194/371472 [9:05:49<9:02:01,  3.64it/s] 68%|██████▊   | 253195/371472 [9:05:50<8:50:24,  3.72it/s] 68%|██████▊   | 253196/371472 [9:05:50<9:16:59,  3.54it/s] 68%|██████▊   | 253197/371472 [9:05:50<9:16:19,  3.54it/s] 68%|██████▊   | 253198/371472 [9:05:50<9:14:50,  3.55it/s] 68%|██████▊   | 253199/371472 [9:05:51<9:11:00,  3.58it/s] 68%|██████▊   | 253200/371472 [9:05:51<8:55:14,  3.68it/s]                                                           {'loss': 2.8758, 'learning_rate': 3.867030101919886e-07, 'epoch': 10.91}
 68%|██████▊   | 253200/371472 [9:05:51<8:55:14,  3.68it/s] 68%|██████▊   | 253201/371472 [9:05:51<8:43:49,  3.76it/s] 68%|██████▊   | 253202/371472 [9:05:52<8:44:36,  3.76it/s] 68%|██████▊   | 253203/371472 [9:05:52<8:32:52,  3.84it/s] 68%|██████▊   | 253204/371472 [9:05:52<8:22:30,  3.92it/s] 68%|██████▊   | 253205/371472 [9:05:52<8:24:16,  3.91it/s] 68%|██████▊   | 253206/371472 [9:05:53<8:27:43,  3.88it/s] 68%|██████▊   | 253207/371472 [9:05:53<8:50:18,  3.72it/s] 68%|██████▊   | 253208/371472 [9:05:53<8:43:20,  3.77it/s] 68%|██████▊   | 253209/371472 [9:05:53<8:55:16,  3.68it/s] 68%|██████▊   | 253210/371472 [9:05:54<8:41:50,  3.78it/s] 68%|██████▊   | 253211/371472 [9:05:54<8:45:44,  3.75it/s] 68%|██████▊   | 253212/371472 [9:05:54<8:54:32,  3.69it/s] 68%|██████▊   | 253213/371472 [9:05:54<8:52:31,  3.70it/s] 68%|██████▊   | 253214/371472 [9:05:55<9:10:42,  3.58it/s] 68%|██████▊   | 253215/371472 [9:05:55<9:01:46,  3.64it/s] 68%|██████▊   | 253216/371472 [9:05:55<8:47:30,  3.74it/s] 68%|██████▊   | 253217/371472 [9:05:56<8:43:46,  3.76it/s] 68%|██████▊   | 253218/371472 [9:05:56<8:36:53,  3.81it/s] 68%|██████▊   | 253219/371472 [9:05:56<9:09:15,  3.59it/s] 68%|██████▊   | 253220/371472 [9:05:56<8:56:52,  3.67it/s]                                                           {'loss': 2.7202, 'learning_rate': 3.866545282165097e-07, 'epoch': 10.91}
 68%|██████▊   | 253220/371472 [9:05:56<8:56:52,  3.67it/s] 68%|██████▊   | 253221/371472 [9:05:57<10:23:56,  3.16it/s] 68%|██████▊   | 253222/371472 [9:05:57<9:40:09,  3.40it/s]  68%|██████▊   | 253223/371472 [9:05:57<9:24:36,  3.49it/s] 68%|██████▊   | 253224/371472 [9:05:58<8:53:34,  3.69it/s] 68%|██████▊   | 253225/371472 [9:05:58<9:03:51,  3.62it/s] 68%|██████▊   | 253226/371472 [9:05:58<9:08:40,  3.59it/s] 68%|██████▊   | 253227/371472 [9:05:58<9:13:14,  3.56it/s] 68%|██████▊   | 253228/371472 [9:05:59<9:03:32,  3.63it/s] 68%|██████▊   | 253229/371472 [9:05:59<8:37:27,  3.81it/s] 68%|██████▊   | 253230/371472 [9:05:59<8:52:37,  3.70it/s] 68%|██████▊   | 253231/371472 [9:05:59<8:39:14,  3.80it/s] 68%|██████▊   | 253232/371472 [9:06:00<8:47:19,  3.74it/s] 68%|██████▊   | 253233/371472 [9:06:00<9:47:03,  3.36it/s] 68%|██████▊   | 253234/371472 [9:06:00<9:35:21,  3.43it/s] 68%|██████▊   | 253235/371472 [9:06:01<9:02:42,  3.63it/s] 68%|██████▊   | 253236/371472 [9:06:01<8:42:30,  3.77it/s] 68%|██████▊   | 253237/371472 [9:06:01<8:27:07,  3.89it/s] 68%|██████▊   | 253238/371472 [9:06:01<8:20:28,  3.94it/s] 68%|██████▊   | 253239/371472 [9:06:02<8:30:59,  3.86it/s] 68%|██████▊   | 253240/371472 [9:06:02<8:22:15,  3.92it/s]                                                           {'loss': 2.8961, 'learning_rate': 3.866060462410308e-07, 'epoch': 10.91}
 68%|██████▊   | 253240/371472 [9:06:02<8:22:15,  3.92it/s] 68%|██████▊   | 253241/371472 [9:06:02<8:17:31,  3.96it/s] 68%|██████▊   | 253242/371472 [9:06:02<8:10:21,  4.02it/s] 68%|██████▊   | 253243/371472 [9:06:03<8:22:10,  3.92it/s] 68%|██████▊   | 253244/371472 [9:06:03<8:12:36,  4.00it/s] 68%|██████▊   | 253245/371472 [9:06:03<8:26:12,  3.89it/s] 68%|██████▊   | 253246/371472 [9:06:03<8:38:09,  3.80it/s] 68%|██████▊   | 253247/371472 [9:06:04<8:36:36,  3.81it/s] 68%|██████▊   | 253248/371472 [9:06:04<8:33:03,  3.84it/s] 68%|██████▊   | 253249/371472 [9:06:04<8:27:49,  3.88it/s] 68%|██████▊   | 253250/371472 [9:06:04<9:23:42,  3.50it/s] 68%|██████▊   | 253251/371472 [9:06:05<8:50:18,  3.72it/s] 68%|██████▊   | 253252/371472 [9:06:05<8:42:56,  3.77it/s] 68%|██████▊   | 253253/371472 [9:06:05<9:13:46,  3.56it/s] 68%|██████▊   | 253254/371472 [9:06:06<9:01:29,  3.64it/s] 68%|██████▊   | 253255/371472 [9:06:06<9:18:19,  3.53it/s] 68%|██████▊   | 253256/371472 [9:06:06<9:24:08,  3.49it/s] 68%|██████▊   | 253257/371472 [9:06:06<9:32:18,  3.44it/s] 68%|██████▊   | 253258/371472 [9:06:07<9:23:50,  3.49it/s] 68%|██████▊   | 253259/371472 [9:06:07<8:56:25,  3.67it/s] 68%|██████▊   | 253260/371472 [9:06:07<9:00:22,  3.65it/s]                                                           {'loss': 2.9228, 'learning_rate': 3.8655756426555197e-07, 'epoch': 10.91}
 68%|██████▊   | 253260/371472 [9:06:07<9:00:22,  3.65it/s] 68%|██████▊   | 253261/371472 [9:06:07<8:45:44,  3.75it/s] 68%|██████▊   | 253262/371472 [9:06:08<9:11:11,  3.57it/s] 68%|██████▊   | 253263/371472 [9:06:08<9:38:20,  3.41it/s] 68%|██████▊   | 253264/371472 [9:06:08<9:34:23,  3.43it/s] 68%|██████▊   | 253265/371472 [9:06:09<9:15:31,  3.55it/s] 68%|██████▊   | 253266/371472 [9:06:09<9:13:00,  3.56it/s] 68%|██████▊   | 253267/371472 [9:06:09<8:54:51,  3.68it/s] 68%|██████▊   | 253268/371472 [9:06:09<8:44:51,  3.75it/s] 68%|██████▊   | 253269/371472 [9:06:10<9:54:05,  3.32it/s] 68%|██████▊   | 253270/371472 [9:06:10<9:25:41,  3.48it/s] 68%|██████▊   | 253271/371472 [9:06:10<9:22:34,  3.50it/s] 68%|██████▊   | 253272/371472 [9:06:11<9:25:10,  3.49it/s] 68%|██████▊   | 253273/371472 [9:06:11<9:05:09,  3.61it/s] 68%|██████▊   | 253274/371472 [9:06:11<8:44:25,  3.76it/s] 68%|██████▊   | 253275/371472 [9:06:11<8:49:28,  3.72it/s] 68%|██████▊   | 253276/371472 [9:06:12<8:40:44,  3.78it/s] 68%|██████▊   | 253277/371472 [9:06:12<8:43:24,  3.76it/s] 68%|██████▊   | 253278/371472 [9:06:12<8:32:38,  3.84it/s] 68%|██████▊   | 253279/371472 [9:06:13<9:40:04,  3.40it/s] 68%|██████▊   | 253280/371472 [9:06:13<9:18:07,  3.53it/s]                                                           {'loss': 2.7281, 'learning_rate': 3.8650908229007304e-07, 'epoch': 10.91}
 68%|██████▊   | 253280/371472 [9:06:13<9:18:07,  3.53it/s] 68%|██████▊   | 253281/371472 [9:06:13<9:17:02,  3.54it/s] 68%|██████▊   | 253282/371472 [9:06:13<9:20:15,  3.52it/s] 68%|██████▊   | 253283/371472 [9:06:14<9:08:17,  3.59it/s] 68%|██████▊   | 253284/371472 [9:06:14<9:00:51,  3.64it/s] 68%|██████▊   | 253285/371472 [9:06:14<9:15:06,  3.55it/s] 68%|██████▊   | 253286/371472 [9:06:15<9:07:15,  3.60it/s] 68%|██████▊   | 253287/371472 [9:06:15<9:01:28,  3.64it/s] 68%|██████▊   | 253288/371472 [9:06:15<9:07:08,  3.60it/s] 68%|██████▊   | 253289/371472 [9:06:15<9:56:10,  3.30it/s] 68%|██████▊   | 253290/371472 [9:06:16<9:46:46,  3.36it/s] 68%|██████▊   | 253291/371472 [9:06:16<9:19:15,  3.52it/s] 68%|██████▊   | 253292/371472 [9:06:16<9:08:45,  3.59it/s] 68%|██████▊   | 253293/371472 [9:06:16<9:02:01,  3.63it/s] 68%|██████▊   | 253294/371472 [9:06:17<8:53:00,  3.70it/s] 68%|██████▊   | 253295/371472 [9:06:17<9:24:44,  3.49it/s] 68%|██████▊   | 253296/371472 [9:06:17<9:18:55,  3.52it/s] 68%|██████▊   | 253297/371472 [9:06:18<9:02:55,  3.63it/s] 68%|██████▊   | 253298/371472 [9:06:18<9:21:11,  3.51it/s] 68%|██████▊   | 253299/371472 [9:06:18<9:19:42,  3.52it/s] 68%|██████▊   | 253300/371472 [9:06:18<9:02:47,  3.63it/s]                                                           {'loss': 2.8065, 'learning_rate': 3.8646060031459416e-07, 'epoch': 10.91}
 68%|██████▊   | 253300/371472 [9:06:18<9:02:47,  3.63it/s] 68%|██████▊   | 253301/371472 [9:06:19<8:55:48,  3.68it/s] 68%|██████▊   | 253302/371472 [9:06:19<8:46:04,  3.74it/s] 68%|██████▊   | 253303/371472 [9:06:19<8:37:42,  3.80it/s] 68%|██████▊   | 253304/371472 [9:06:19<8:31:21,  3.85it/s] 68%|██████▊   | 253305/371472 [9:06:20<8:28:38,  3.87it/s] 68%|██████▊   | 253306/371472 [9:06:20<8:59:54,  3.65it/s] 68%|██████▊   | 253307/371472 [9:06:20<8:39:58,  3.79it/s] 68%|██████▊   | 253308/371472 [9:06:21<8:23:14,  3.91it/s] 68%|██████▊   | 253309/371472 [9:06:21<8:40:42,  3.78it/s] 68%|██████▊   | 253310/371472 [9:06:21<8:36:29,  3.81it/s] 68%|██████▊   | 253311/371472 [9:06:21<9:03:17,  3.62it/s] 68%|██████▊   | 253312/371472 [9:06:22<8:38:10,  3.80it/s] 68%|██████▊   | 253313/371472 [9:06:22<8:32:32,  3.84it/s] 68%|██████▊   | 253314/371472 [9:06:22<8:55:46,  3.68it/s] 68%|██████▊   | 253315/371472 [9:06:22<9:00:38,  3.64it/s] 68%|██████▊   | 253316/371472 [9:06:23<8:53:59,  3.69it/s] 68%|██████▊   | 253317/371472 [9:06:23<8:58:47,  3.65it/s] 68%|██████▊   | 253318/371472 [9:06:23<9:11:41,  3.57it/s] 68%|██████▊   | 253319/371472 [9:06:24<9:17:18,  3.53it/s] 68%|██████▊   | 253320/371472 [9:06:24<9:10:13,  3.58it/s]                                                           {'loss': 2.7927, 'learning_rate': 3.8641211833911524e-07, 'epoch': 10.91}
 68%|██████▊   | 253320/371472 [9:06:24<9:10:13,  3.58it/s] 68%|██████▊   | 253321/371472 [9:06:24<9:06:14,  3.60it/s] 68%|██████▊   | 253322/371472 [9:06:24<9:32:02,  3.44it/s] 68%|██████▊   | 253323/371472 [9:06:25<9:11:50,  3.57it/s] 68%|██████▊   | 253324/371472 [9:06:25<9:57:43,  3.29it/s] 68%|██████▊   | 253325/371472 [9:06:25<9:55:32,  3.31it/s] 68%|██████▊   | 253326/371472 [9:06:26<9:40:20,  3.39it/s] 68%|██████▊   | 253327/371472 [9:06:26<9:51:15,  3.33it/s] 68%|██████▊   | 253328/371472 [9:06:26<9:37:05,  3.41it/s] 68%|██████▊   | 253329/371472 [9:06:26<9:01:03,  3.64it/s] 68%|██████▊   | 253330/371472 [9:06:27<8:54:39,  3.68it/s] 68%|██████▊   | 253331/371472 [9:06:27<9:15:49,  3.54it/s] 68%|██████▊   | 253332/371472 [9:06:27<9:15:12,  3.55it/s] 68%|██████▊   | 253333/371472 [9:06:28<8:51:33,  3.70it/s] 68%|██████▊   | 253334/371472 [9:06:28<8:49:29,  3.72it/s] 68%|██████▊   | 253335/371472 [9:06:28<9:03:54,  3.62it/s] 68%|██████▊   | 253336/371472 [9:06:28<9:01:33,  3.64it/s] 68%|██████▊   | 253337/371472 [9:06:29<8:47:36,  3.73it/s] 68%|██████▊   | 253338/371472 [9:06:29<8:40:26,  3.78it/s] 68%|██████▊   | 253339/371472 [9:06:29<9:09:41,  3.58it/s] 68%|██████▊   | 253340/371472 [9:06:29<9:03:31,  3.62it/s]                                                           {'loss': 2.8555, 'learning_rate': 3.863636363636364e-07, 'epoch': 10.91}
 68%|██████▊   | 253340/371472 [9:06:29<9:03:31,  3.62it/s] 68%|██████▊   | 253341/371472 [9:06:30<9:09:20,  3.58it/s] 68%|██████▊   | 253342/371472 [9:06:30<8:47:20,  3.73it/s] 68%|██████▊   | 253343/371472 [9:06:30<8:49:23,  3.72it/s] 68%|██████▊   | 253344/371472 [9:06:31<8:51:08,  3.71it/s] 68%|██████▊   | 253345/371472 [9:06:31<8:49:23,  3.72it/s] 68%|██████▊   | 253346/371472 [9:06:31<8:34:46,  3.82it/s] 68%|██████▊   | 253347/371472 [9:06:31<8:34:20,  3.83it/s] 68%|██████▊   | 253348/371472 [9:06:32<8:25:32,  3.89it/s] 68%|██████▊   | 253349/371472 [9:06:32<8:34:12,  3.83it/s] 68%|██████▊   | 253350/371472 [9:06:32<8:16:22,  3.97it/s] 68%|██████▊   | 253351/371472 [9:06:32<8:21:44,  3.92it/s] 68%|██████▊   | 253352/371472 [9:06:33<8:21:17,  3.93it/s] 68%|██████▊   | 253353/371472 [9:06:33<8:38:59,  3.79it/s] 68%|██████▊   | 253354/371472 [9:06:33<8:49:27,  3.72it/s] 68%|██████▊   | 253355/371472 [9:06:33<8:36:00,  3.82it/s] 68%|██████▊   | 253356/371472 [9:06:34<9:08:15,  3.59it/s] 68%|██████▊   | 253357/371472 [9:06:34<9:31:59,  3.44it/s] 68%|██████▊   | 253358/371472 [9:06:34<9:55:22,  3.31it/s] 68%|██████▊   | 253359/371472 [9:06:35<10:05:08,  3.25it/s] 68%|██████▊   | 253360/371472 [9:06:35<9:17:31,  3.53it/s]                                                            {'loss': 2.8318, 'learning_rate': 3.8631515438815743e-07, 'epoch': 10.91}
 68%|██████▊   | 253360/371472 [9:06:35<9:17:31,  3.53it/s] 68%|██████▊   | 253361/371472 [9:06:35<9:02:26,  3.63it/s] 68%|██████▊   | 253362/371472 [9:06:35<9:15:49,  3.54it/s] 68%|██████▊   | 253363/371472 [9:06:36<8:47:28,  3.73it/s] 68%|██████▊   | 253364/371472 [9:06:36<8:39:29,  3.79it/s] 68%|██████▊   | 253365/371472 [9:06:36<8:35:39,  3.82it/s] 68%|██████▊   | 253366/371472 [9:06:36<9:04:19,  3.62it/s] 68%|██████▊   | 253367/371472 [9:06:37<8:47:52,  3.73it/s] 68%|██████▊   | 253368/371472 [9:06:37<8:25:06,  3.90it/s] 68%|██████▊   | 253369/371472 [9:06:37<8:49:34,  3.72it/s] 68%|██████▊   | 253370/371472 [9:06:38<8:46:59,  3.74it/s] 68%|██████▊   | 253371/371472 [9:06:38<9:22:56,  3.50it/s] 68%|██████▊   | 253372/371472 [9:06:38<9:44:00,  3.37it/s] 68%|██████▊   | 253373/371472 [9:06:38<9:11:53,  3.57it/s] 68%|██████▊   | 253374/371472 [9:06:39<8:47:00,  3.73it/s] 68%|██████▊   | 253375/371472 [9:06:39<9:21:02,  3.51it/s] 68%|██████▊   | 253376/371472 [9:06:39<9:08:36,  3.59it/s] 68%|██████▊   | 253377/371472 [9:06:40<9:36:57,  3.41it/s] 68%|██████▊   | 253378/371472 [9:06:40<9:34:37,  3.43it/s] 68%|██████▊   | 253379/371472 [9:06:40<9:15:40,  3.54it/s] 68%|██████▊   | 253380/371472 [9:06:40<8:51:01,  3.71it/s]                                                           {'loss': 2.9747, 'learning_rate': 3.862666724126786e-07, 'epoch': 10.91}
 68%|██████▊   | 253380/371472 [9:06:40<8:51:01,  3.71it/s] 68%|██████▊   | 253381/371472 [9:06:41<8:37:52,  3.80it/s] 68%|██████▊   | 253382/371472 [9:06:41<9:15:56,  3.54it/s] 68%|██████▊   | 253383/371472 [9:06:41<9:08:29,  3.59it/s] 68%|██████▊   | 253384/371472 [9:06:42<9:23:39,  3.49it/s] 68%|██████▊   | 253385/371472 [9:06:42<9:14:05,  3.55it/s] 68%|██████▊   | 253386/371472 [9:06:42<8:47:38,  3.73it/s] 68%|██████▊   | 253387/371472 [9:06:42<8:26:43,  3.88it/s] 68%|██████▊   | 253388/371472 [9:06:43<8:21:33,  3.92it/s] 68%|██████▊   | 253389/371472 [9:06:43<8:28:39,  3.87it/s] 68%|██████▊   | 253390/371472 [9:06:43<8:26:50,  3.88it/s] 68%|██████▊   | 253391/371472 [9:06:43<8:23:51,  3.91it/s] 68%|██████▊   | 253392/371472 [9:06:44<8:18:05,  3.95it/s] 68%|██████▊   | 253393/371472 [9:06:44<8:38:17,  3.80it/s] 68%|██████▊   | 253394/371472 [9:06:44<8:50:20,  3.71it/s] 68%|██████▊   | 253395/371472 [9:06:44<8:46:03,  3.74it/s] 68%|██████▊   | 253396/371472 [9:06:45<8:33:11,  3.83it/s] 68%|██████▊   | 253397/371472 [9:06:45<8:51:15,  3.70it/s] 68%|██████▊   | 253398/371472 [9:06:45<8:33:06,  3.84it/s] 68%|██████▊   | 253399/371472 [9:06:45<8:38:47,  3.79it/s] 68%|██████▊   | 253400/371472 [9:06:46<9:15:00,  3.55it/s]                                                           {'loss': 2.8773, 'learning_rate': 3.862181904371997e-07, 'epoch': 10.91}
 68%|██████▊   | 253400/371472 [9:06:46<9:15:00,  3.55it/s] 68%|██████▊   | 253401/371472 [9:06:46<8:59:24,  3.65it/s] 68%|██████▊   | 253402/371472 [9:06:46<9:01:47,  3.63it/s] 68%|██████▊   | 253403/371472 [9:06:47<9:06:25,  3.60it/s] 68%|██████▊   | 253404/371472 [9:06:47<9:19:14,  3.52it/s] 68%|██████▊   | 253405/371472 [9:06:47<10:47:09,  3.04it/s] 68%|██████▊   | 253406/371472 [9:06:48<10:06:27,  3.24it/s] 68%|██████▊   | 253407/371472 [9:06:48<9:29:33,  3.45it/s]  68%|██████▊   | 253408/371472 [9:06:48<9:13:00,  3.56it/s] 68%|██████▊   | 253409/371472 [9:06:48<8:45:25,  3.75it/s] 68%|██████▊   | 253410/371472 [9:06:49<8:58:06,  3.66it/s] 68%|██████▊   | 253411/371472 [9:06:49<9:49:38,  3.34it/s] 68%|██████▊   | 253412/371472 [9:06:49<9:26:16,  3.47it/s] 68%|██████▊   | 253413/371472 [9:06:49<9:07:07,  3.60it/s] 68%|██████▊   | 253414/371472 [9:06:50<8:51:36,  3.70it/s] 68%|██████▊   | 253415/371472 [9:06:50<8:42:56,  3.76it/s] 68%|██████▊   | 253416/371472 [9:06:50<8:26:40,  3.88it/s] 68%|██████▊   | 253417/371472 [9:06:50<8:45:03,  3.75it/s] 68%|██████▊   | 253418/371472 [9:06:51<8:38:31,  3.79it/s] 68%|██████▊   | 253419/371472 [9:06:51<8:39:17,  3.79it/s] 68%|██████▊   | 253420/371472 [9:06:51<8:47:43,  3.73it/s]                                                           {'loss': 2.8811, 'learning_rate': 3.861697084617207e-07, 'epoch': 10.92}
 68%|██████▊   | 253420/371472 [9:06:51<8:47:43,  3.73it/s] 68%|██████▊   | 253421/371472 [9:06:52<9:01:18,  3.63it/s] 68%|██████▊   | 253422/371472 [9:06:52<9:09:36,  3.58it/s] 68%|██████▊   | 253423/371472 [9:06:52<8:59:13,  3.65it/s] 68%|██████▊   | 253424/371472 [9:06:52<9:04:29,  3.61it/s] 68%|██████▊   | 253425/371472 [9:06:53<9:07:45,  3.59it/s] 68%|██████▊   | 253426/371472 [9:06:53<8:50:19,  3.71it/s] 68%|██████▊   | 253427/371472 [9:06:53<8:59:40,  3.65it/s] 68%|██████▊   | 253428/371472 [9:06:53<8:45:19,  3.75it/s] 68%|██████▊   | 253429/371472 [9:06:54<8:53:11,  3.69it/s] 68%|██████▊   | 253430/371472 [9:06:54<9:14:13,  3.55it/s] 68%|██████▊   | 253431/371472 [9:06:54<8:46:11,  3.74it/s] 68%|██████▊   | 253432/371472 [9:06:55<9:08:41,  3.59it/s] 68%|██████▊   | 253433/371472 [9:06:55<8:43:29,  3.76it/s] 68%|██████▊   | 253434/371472 [9:06:55<8:38:18,  3.80it/s] 68%|██████▊   | 253435/371472 [9:06:55<8:30:16,  3.86it/s] 68%|██████▊   | 253436/371472 [9:06:56<8:31:04,  3.85it/s] 68%|██████▊   | 253437/371472 [9:06:56<8:27:01,  3.88it/s] 68%|██████▊   | 253438/371472 [9:06:56<8:43:11,  3.76it/s] 68%|██████▊   | 253439/371472 [9:06:56<9:32:38,  3.44it/s] 68%|██████▊   | 253440/371472 [9:06:57<9:46:45,  3.35it/s]                                                           {'loss': 2.932, 'learning_rate': 3.861212264862419e-07, 'epoch': 10.92}
 68%|██████▊   | 253440/371472 [9:06:57<9:46:45,  3.35it/s] 68%|██████▊   | 253441/371472 [9:06:57<9:14:28,  3.55it/s] 68%|██████▊   | 253442/371472 [9:06:57<8:55:17,  3.67it/s] 68%|██████▊   | 253443/371472 [9:06:58<8:42:07,  3.77it/s] 68%|██████▊   | 253444/371472 [9:06:58<8:34:49,  3.82it/s] 68%|██████▊   | 253445/371472 [9:06:58<8:15:27,  3.97it/s] 68%|██████▊   | 253446/371472 [9:06:58<8:28:44,  3.87it/s] 68%|██████▊   | 253447/371472 [9:06:59<8:38:41,  3.79it/s] 68%|██████▊   | 253448/371472 [9:06:59<8:23:26,  3.91it/s] 68%|██████▊   | 253449/371472 [9:06:59<8:38:37,  3.79it/s] 68%|██████▊   | 253450/371472 [9:06:59<8:23:51,  3.90it/s] 68%|██████▊   | 253451/371472 [9:07:00<8:50:58,  3.70it/s] 68%|██████▊   | 253452/371472 [9:07:00<8:50:33,  3.71it/s] 68%|██████▊   | 253453/371472 [9:07:00<9:02:39,  3.62it/s] 68%|██████▊   | 253454/371472 [9:07:00<8:45:18,  3.74it/s] 68%|██████▊   | 253455/371472 [9:07:01<8:30:38,  3.85it/s] 68%|██████▊   | 253456/371472 [9:07:01<8:28:15,  3.87it/s] 68%|██████▊   | 253457/371472 [9:07:01<8:36:12,  3.81it/s] 68%|██████▊   | 253458/371472 [9:07:02<8:45:32,  3.74it/s] 68%|██████▊   | 253459/371472 [9:07:02<8:44:59,  3.75it/s] 68%|██████▊   | 253460/371472 [9:07:02<8:56:38,  3.67it/s]                                                           {'loss': 3.0393, 'learning_rate': 3.8607274451076295e-07, 'epoch': 10.92}
 68%|██████▊   | 253460/371472 [9:07:02<8:56:38,  3.67it/s] 68%|██████▊   | 253461/371472 [9:07:02<8:40:43,  3.78it/s] 68%|██████▊   | 253462/371472 [9:07:03<8:19:23,  3.94it/s] 68%|██████▊   | 253463/371472 [9:07:03<8:22:55,  3.91it/s] 68%|██████▊   | 253464/371472 [9:07:03<8:46:09,  3.74it/s] 68%|██████▊   | 253465/371472 [9:07:03<8:43:24,  3.76it/s] 68%|██████▊   | 253466/371472 [9:07:04<8:34:44,  3.82it/s] 68%|██████▊   | 253467/371472 [9:07:04<8:17:19,  3.95it/s] 68%|██████▊   | 253468/371472 [9:07:04<8:33:50,  3.83it/s] 68%|██████▊   | 253469/371472 [9:07:04<8:30:25,  3.85it/s] 68%|██████▊   | 253470/371472 [9:07:05<8:35:16,  3.82it/s] 68%|██████▊   | 253471/371472 [9:07:05<8:35:24,  3.82it/s] 68%|██████▊   | 253472/371472 [9:07:05<8:52:06,  3.70it/s] 68%|██████▊   | 253473/371472 [9:07:05<9:00:28,  3.64it/s] 68%|██████▊   | 253474/371472 [9:07:06<8:47:01,  3.73it/s] 68%|██████▊   | 253475/371472 [9:07:06<9:05:11,  3.61it/s] 68%|██████▊   | 253476/371472 [9:07:06<10:03:39,  3.26it/s] 68%|██████▊   | 253477/371472 [9:07:07<9:46:44,  3.35it/s]  68%|██████▊   | 253478/371472 [9:07:07<9:47:58,  3.34it/s] 68%|██████▊   | 253479/371472 [9:07:07<9:28:29,  3.46it/s] 68%|██████▊   | 253480/371472 [9:07:08<9:30:52,  3.44it/s]                                                           {'loss': 3.0404, 'learning_rate': 3.8602426253528407e-07, 'epoch': 10.92}
 68%|██████▊   | 253480/371472 [9:07:08<9:30:52,  3.44it/s] 68%|██████▊   | 253481/371472 [9:07:08<9:27:37,  3.46it/s] 68%|██████▊   | 253482/371472 [9:07:08<9:26:57,  3.47it/s] 68%|██████▊   | 253483/371472 [9:07:08<9:23:50,  3.49it/s] 68%|██████▊   | 253484/371472 [9:07:09<8:53:35,  3.69it/s] 68%|██████▊   | 253485/371472 [9:07:09<9:19:19,  3.52it/s] 68%|██████▊   | 253486/371472 [9:07:09<9:27:17,  3.47it/s] 68%|██████▊   | 253487/371472 [9:07:10<9:15:11,  3.54it/s] 68%|██████▊   | 253488/371472 [9:07:10<9:32:41,  3.43it/s] 68%|██████▊   | 253489/371472 [9:07:10<10:07:42,  3.24it/s] 68%|██████▊   | 253490/371472 [9:07:10<9:34:00,  3.43it/s]  68%|██████▊   | 253491/371472 [9:07:11<9:08:54,  3.58it/s] 68%|██████▊   | 253492/371472 [9:07:11<8:41:23,  3.77it/s] 68%|██████▊   | 253493/371472 [9:07:11<9:09:27,  3.58it/s] 68%|██████▊   | 253494/371472 [9:07:11<9:05:03,  3.61it/s] 68%|██████▊   | 253495/371472 [9:07:12<8:43:13,  3.76it/s] 68%|██████▊   | 253496/371472 [9:07:12<9:48:44,  3.34it/s] 68%|██████▊   | 253497/371472 [9:07:12<10:08:58,  3.23it/s] 68%|██████▊   | 253498/371472 [9:07:13<9:39:50,  3.39it/s]  68%|██████▊   | 253499/371472 [9:07:13<9:21:44,  3.50it/s] 68%|██████▊   | 253500/371472 [9:07:13<9:04:23,  3.61it/s]                                                           {'loss': 2.894, 'learning_rate': 3.8597578055980514e-07, 'epoch': 10.92}
 68%|██████▊   | 253500/371472 [9:07:13<9:04:23,  3.61it/s] 68%|██████▊   | 253501/371472 [9:07:13<8:58:04,  3.65it/s] 68%|██████▊   | 253502/371472 [9:07:14<10:25:49,  3.14it/s] 68%|██████▊   | 253503/371472 [9:07:14<9:45:42,  3.36it/s]  68%|██████▊   | 253504/371472 [9:07:14<9:50:59,  3.33it/s] 68%|██████▊   | 253505/371472 [9:07:15<9:04:58,  3.61it/s] 68%|██████▊   | 253506/371472 [9:07:15<8:54:21,  3.68it/s] 68%|██████▊   | 253507/371472 [9:07:15<8:46:50,  3.73it/s] 68%|██████▊   | 253508/371472 [9:07:15<8:54:33,  3.68it/s] 68%|██████▊   | 253509/371472 [9:07:16<8:51:27,  3.70it/s] 68%|██████▊   | 253510/371472 [9:07:16<8:47:36,  3.73it/s] 68%|██████▊   | 253511/371472 [9:07:16<8:54:49,  3.68it/s] 68%|██████▊   | 253512/371472 [9:07:17<8:59:42,  3.64it/s] 68%|██████▊   | 253513/371472 [9:07:17<8:48:24,  3.72it/s] 68%|██████▊   | 253514/371472 [9:07:17<9:10:20,  3.57it/s] 68%|██████▊   | 253515/371472 [9:07:17<9:13:15,  3.55it/s] 68%|██████▊   | 253516/371472 [9:07:18<9:23:06,  3.49it/s] 68%|██████▊   | 253517/371472 [9:07:18<9:03:06,  3.62it/s] 68%|██████▊   | 253518/371472 [9:07:18<9:51:06,  3.33it/s] 68%|██████▊   | 253519/371472 [9:07:19<10:23:14,  3.15it/s] 68%|██████▊   | 253520/371472 [9:07:19<10:30:07,  3.12it/s]                                                            {'loss': 2.9075, 'learning_rate': 3.859272985843263e-07, 'epoch': 10.92}
 68%|██████▊   | 253520/371472 [9:07:19<10:30:07,  3.12it/s] 68%|██████▊   | 253521/371472 [9:07:19<10:19:47,  3.17it/s] 68%|██████▊   | 253522/371472 [9:07:20<9:51:58,  3.32it/s]  68%|██████▊   | 253523/371472 [9:07:20<9:23:28,  3.49it/s] 68%|██████▊   | 253524/371472 [9:07:20<9:09:56,  3.57it/s] 68%|██████▊   | 253525/371472 [9:07:20<9:07:24,  3.59it/s] 68%|██████▊   | 253526/371472 [9:07:21<8:37:57,  3.80it/s] 68%|██████▊   | 253527/371472 [9:07:21<10:01:06,  3.27it/s] 68%|██████▊   | 253528/371472 [9:07:21<10:03:46,  3.26it/s] 68%|██████▊   | 253529/371472 [9:07:22<9:56:31,  3.30it/s]  68%|██████▊   | 253530/371472 [9:07:22<9:52:30,  3.32it/s] 68%|██████▊   | 253531/371472 [9:07:22<9:22:17,  3.50it/s] 68%|██████▊   | 253532/371472 [9:07:22<9:09:33,  3.58it/s] 68%|██████▊   | 253533/371472 [9:07:23<9:00:41,  3.64it/s] 68%|██████▊   | 253534/371472 [9:07:23<9:08:58,  3.58it/s] 68%|██████▊   | 253535/371472 [9:07:23<9:01:47,  3.63it/s] 68%|██████▊   | 253536/371472 [9:07:24<8:50:54,  3.70it/s] 68%|██████▊   | 253537/371472 [9:07:24<9:12:28,  3.56it/s] 68%|██████▊   | 253538/371472 [9:07:24<10:27:38,  3.13it/s] 68%|██████▊   | 253539/371472 [9:07:25<10:10:10,  3.22it/s] 68%|██████▊   | 253540/371472 [9:07:25<9:44:25,  3.36it/s]                                                            {'loss': 2.8533, 'learning_rate': 3.858788166088474e-07, 'epoch': 10.92}
 68%|██████▊   | 253540/371472 [9:07:25<9:44:25,  3.36it/s] 68%|██████▊   | 253541/371472 [9:07:25<9:30:07,  3.45it/s] 68%|██████▊   | 253542/371472 [9:07:25<8:59:40,  3.64it/s] 68%|██████▊   | 253543/371472 [9:07:26<8:34:15,  3.82it/s] 68%|██████▊   | 253544/371472 [9:07:26<8:30:48,  3.85it/s] 68%|██████▊   | 253545/371472 [9:07:26<9:21:46,  3.50it/s] 68%|██████▊   | 253546/371472 [9:07:26<9:02:34,  3.62it/s] 68%|██████▊   | 253547/371472 [9:07:27<8:36:22,  3.81it/s] 68%|██████▊   | 253548/371472 [9:07:27<9:17:13,  3.53it/s] 68%|██████▊   | 253549/371472 [9:07:27<8:54:53,  3.67it/s] 68%|██████▊   | 253550/371472 [9:07:27<8:37:44,  3.80it/s] 68%|██████▊   | 253551/371472 [9:07:28<8:17:31,  3.95it/s] 68%|██████▊   | 253552/371472 [9:07:28<8:10:47,  4.00it/s] 68%|██████▊   | 253553/371472 [9:07:28<8:11:50,  4.00it/s] 68%|██████▊   | 253554/371472 [9:07:28<8:18:38,  3.94it/s] 68%|██████▊   | 253555/371472 [9:07:29<8:56:08,  3.67it/s] 68%|██████▊   | 253556/371472 [9:07:29<9:17:57,  3.52it/s] 68%|██████▊   | 253557/371472 [9:07:29<9:01:54,  3.63it/s] 68%|██████▊   | 253558/371472 [9:07:30<9:03:19,  3.62it/s] 68%|██████▊   | 253559/371472 [9:07:30<8:50:58,  3.70it/s] 68%|██████▊   | 253560/371472 [9:07:30<9:13:02,  3.55it/s]                                                           {'loss': 2.9995, 'learning_rate': 3.858303346333685e-07, 'epoch': 10.92}
 68%|██████▊   | 253560/371472 [9:07:30<9:13:02,  3.55it/s] 68%|██████▊   | 253561/371472 [9:07:30<9:11:04,  3.57it/s] 68%|██████▊   | 253562/371472 [9:07:31<9:05:53,  3.60it/s] 68%|██████▊   | 253563/371472 [9:07:31<9:14:12,  3.55it/s] 68%|██████▊   | 253564/371472 [9:07:31<9:13:19,  3.55it/s] 68%|██████▊   | 253565/371472 [9:07:32<9:08:27,  3.58it/s] 68%|██████▊   | 253566/371472 [9:07:32<9:04:36,  3.61it/s] 68%|██████▊   | 253567/371472 [9:07:32<9:06:39,  3.59it/s] 68%|██████▊   | 253568/371472 [9:07:32<8:58:48,  3.65it/s] 68%|██████▊   | 253569/371472 [9:07:33<8:54:30,  3.68it/s] 68%|██████▊   | 253570/371472 [9:07:33<8:53:52,  3.68it/s] 68%|██████▊   | 253571/371472 [9:07:33<9:17:06,  3.53it/s] 68%|██████▊   | 253572/371472 [9:07:33<9:13:37,  3.55it/s] 68%|██████▊   | 253573/371472 [9:07:34<9:17:05,  3.53it/s] 68%|██████▊   | 253574/371472 [9:07:34<9:26:32,  3.47it/s] 68%|██████▊   | 253575/371472 [9:07:34<9:16:00,  3.53it/s] 68%|██████▊   | 253576/371472 [9:07:35<9:17:54,  3.52it/s] 68%|██████▊   | 253577/371472 [9:07:35<9:41:39,  3.38it/s] 68%|██████▊   | 253578/371472 [9:07:35<9:31:32,  3.44it/s] 68%|██████▊   | 253579/371472 [9:07:36<9:30:31,  3.44it/s] 68%|██████▊   | 253580/371472 [9:07:36<9:24:23,  3.48it/s]                                                           {'loss': 2.7764, 'learning_rate': 3.857818526578896e-07, 'epoch': 10.92}
 68%|██████▊   | 253580/371472 [9:07:36<9:24:23,  3.48it/s] 68%|██████▊   | 253581/371472 [9:07:36<9:16:50,  3.53it/s] 68%|██████▊   | 253582/371472 [9:07:36<9:03:47,  3.61it/s] 68%|██████▊   | 253583/371472 [9:07:37<9:27:01,  3.47it/s] 68%|██████▊   | 253584/371472 [9:07:37<9:35:12,  3.42it/s] 68%|██████▊   | 253585/371472 [9:07:37<9:18:14,  3.52it/s] 68%|██████▊   | 253586/371472 [9:07:37<9:08:15,  3.58it/s] 68%|██████▊   | 253587/371472 [9:07:38<9:44:27,  3.36it/s] 68%|██████▊   | 253588/371472 [9:07:38<9:03:56,  3.61it/s] 68%|██████▊   | 253589/371472 [9:07:38<8:35:09,  3.81it/s] 68%|██████▊   | 253590/371472 [9:07:39<8:51:20,  3.70it/s] 68%|██████▊   | 253591/371472 [9:07:39<8:48:10,  3.72it/s] 68%|██████▊   | 253592/371472 [9:07:39<8:51:50,  3.69it/s] 68%|██████▊   | 253593/371472 [9:07:39<9:45:44,  3.35it/s] 68%|██████▊   | 253594/371472 [9:07:40<10:08:01,  3.23it/s] 68%|██████▊   | 253595/371472 [9:07:40<9:28:22,  3.46it/s]  68%|██████▊   | 253596/371472 [9:07:40<9:29:09,  3.45it/s] 68%|██████▊   | 253597/371472 [9:07:41<9:14:11,  3.54it/s] 68%|██████▊   | 253598/371472 [9:07:41<8:44:22,  3.75it/s] 68%|██████▊   | 253599/371472 [9:07:41<8:28:45,  3.86it/s] 68%|██████▊   | 253600/371472 [9:07:41<8:42:42,  3.76it/s]                                                           {'loss': 2.8862, 'learning_rate': 3.8573337068241077e-07, 'epoch': 10.92}
 68%|██████▊   | 253600/371472 [9:07:41<8:42:42,  3.76it/s] 68%|██████▊   | 253601/371472 [9:07:42<8:35:38,  3.81it/s] 68%|██████▊   | 253602/371472 [9:07:42<8:44:03,  3.75it/s] 68%|██████▊   | 253603/371472 [9:07:42<9:13:22,  3.55it/s] 68%|██████▊   | 253604/371472 [9:07:42<8:58:16,  3.65it/s] 68%|██████▊   | 253605/371472 [9:07:43<9:18:03,  3.52it/s] 68%|██████▊   | 253606/371472 [9:07:43<9:25:38,  3.47it/s] 68%|██████▊   | 253607/371472 [9:07:43<9:37:16,  3.40it/s] 68%|██████▊   | 253608/371472 [9:07:44<9:28:32,  3.46it/s] 68%|██████▊   | 253609/371472 [9:07:44<9:21:24,  3.50it/s] 68%|██████▊   | 253610/371472 [9:07:44<9:34:23,  3.42it/s] 68%|██████▊   | 253611/371472 [9:07:45<9:45:33,  3.35it/s] 68%|██████▊   | 253612/371472 [9:07:45<9:23:59,  3.48it/s] 68%|██████▊   | 253613/371472 [9:07:45<9:21:57,  3.50it/s] 68%|██████▊   | 253614/371472 [9:07:45<9:22:34,  3.49it/s] 68%|██████▊   | 253615/371472 [9:07:46<10:53:45,  3.00it/s] 68%|██████▊   | 253616/371472 [9:07:46<10:43:31,  3.05it/s] 68%|██████▊   | 253617/371472 [9:07:46<10:39:32,  3.07it/s] 68%|██████▊   | 253618/371472 [9:07:47<10:10:57,  3.22it/s] 68%|██████▊   | 253619/371472 [9:07:47<10:06:28,  3.24it/s] 68%|██████▊   | 253620/371472 [9:07:47<9:36:17,  3.41it/s]                                                            {'loss': 2.6222, 'learning_rate': 3.856848887069318e-07, 'epoch': 10.92}
 68%|██████▊   | 253620/371472 [9:07:47<9:36:17,  3.41it/s] 68%|██████▊   | 253621/371472 [9:07:48<9:27:15,  3.46it/s] 68%|██████▊   | 253622/371472 [9:07:48<8:53:29,  3.68it/s] 68%|██████▊   | 253623/371472 [9:07:48<8:57:40,  3.65it/s] 68%|██████▊   | 253624/371472 [9:07:48<8:42:49,  3.76it/s] 68%|██████▊   | 253625/371472 [9:07:49<9:36:15,  3.41it/s] 68%|██████▊   | 253626/371472 [9:07:49<9:12:11,  3.56it/s] 68%|██████▊   | 253627/371472 [9:07:49<8:54:05,  3.68it/s] 68%|██████▊   | 253628/371472 [9:07:49<8:49:31,  3.71it/s] 68%|██████▊   | 253629/371472 [9:07:50<9:57:08,  3.29it/s] 68%|██████▊   | 253630/371472 [9:07:50<10:06:28,  3.24it/s] 68%|██████▊   | 253631/371472 [9:07:50<9:45:51,  3.35it/s]  68%|██████▊   | 253632/371472 [9:07:51<10:21:18,  3.16it/s] 68%|██████▊   | 253633/371472 [9:07:51<10:24:14,  3.15it/s] 68%|██████▊   | 253634/371472 [9:07:51<10:33:21,  3.10it/s] 68%|██████▊   | 253635/371472 [9:07:52<10:39:26,  3.07it/s] 68%|██████▊   | 253636/371472 [9:07:52<10:56:54,  2.99it/s] 68%|██████▊   | 253637/371472 [9:07:52<10:20:20,  3.17it/s] 68%|██████▊   | 253638/371472 [9:07:53<10:24:24,  3.15it/s] 68%|██████▊   | 253639/371472 [9:07:53<10:03:13,  3.26it/s] 68%|██████▊   | 253640/371472 [9:07:53<9:31:08,  3.44it/s]                                                            {'loss': 2.9034, 'learning_rate': 3.8563640673145296e-07, 'epoch': 10.92}
 68%|██████▊   | 253640/371472 [9:07:53<9:31:08,  3.44it/s] 68%|██████▊   | 253641/371472 [9:07:54<10:11:21,  3.21it/s] 68%|██████▊   | 253642/371472 [9:07:54<9:51:20,  3.32it/s]  68%|██████▊   | 253643/371472 [9:07:54<9:42:40,  3.37it/s] 68%|██████▊   | 253644/371472 [9:07:54<9:17:28,  3.52it/s] 68%|██████▊   | 253645/371472 [9:07:55<9:13:56,  3.55it/s] 68%|██████▊   | 253646/371472 [9:07:55<9:12:41,  3.55it/s] 68%|██████▊   | 253647/371472 [9:07:55<8:43:15,  3.75it/s] 68%|██████▊   | 253648/371472 [9:07:56<8:59:41,  3.64it/s] 68%|██████▊   | 253649/371472 [9:07:56<8:58:06,  3.65it/s] 68%|██████▊   | 253650/371472 [9:07:56<8:44:53,  3.74it/s] 68%|██████▊   | 253651/371472 [9:07:56<9:02:25,  3.62it/s] 68%|██████▊   | 253652/371472 [9:07:57<9:13:52,  3.55it/s] 68%|██████▊   | 253653/371472 [9:07:57<9:02:14,  3.62it/s] 68%|██████▊   | 253654/371472 [9:07:57<9:23:42,  3.48it/s] 68%|██████▊   | 253655/371472 [9:07:58<9:25:38,  3.47it/s] 68%|██████▊   | 253656/371472 [9:07:58<8:55:55,  3.66it/s] 68%|██████▊   | 253657/371472 [9:07:58<8:48:00,  3.72it/s] 68%|██████▊   | 253658/371472 [9:07:58<8:45:42,  3.74it/s] 68%|██████▊   | 253659/371472 [9:07:59<8:51:03,  3.70it/s] 68%|██████▊   | 253660/371472 [9:07:59<8:56:23,  3.66it/s]                                                           {'loss': 2.9543, 'learning_rate': 3.8558792475597403e-07, 'epoch': 10.93}
 68%|██████▊   | 253660/371472 [9:07:59<8:56:23,  3.66it/s] 68%|██████▊   | 253661/371472 [9:07:59<9:09:57,  3.57it/s] 68%|██████▊   | 253662/371472 [9:07:59<8:52:16,  3.69it/s] 68%|██████▊   | 253663/371472 [9:08:00<9:06:31,  3.59it/s] 68%|██████▊   | 253664/371472 [9:08:00<9:07:14,  3.59it/s] 68%|██████▊   | 253665/371472 [9:08:00<8:47:40,  3.72it/s] 68%|██████▊   | 253666/371472 [9:08:01<9:14:14,  3.54it/s] 68%|██████▊   | 253667/371472 [9:08:01<9:43:13,  3.37it/s] 68%|██████▊   | 253668/371472 [9:08:01<9:35:27,  3.41it/s] 68%|██████▊   | 253669/371472 [9:08:01<9:57:05,  3.29it/s] 68%|██████▊   | 253670/371472 [9:08:02<9:22:08,  3.49it/s] 68%|██████▊   | 253671/371472 [9:08:02<9:15:11,  3.54it/s] 68%|██████▊   | 253672/371472 [9:08:02<8:56:29,  3.66it/s] 68%|██████▊   | 253673/371472 [9:08:02<8:56:20,  3.66it/s] 68%|██████▊   | 253674/371472 [9:08:03<9:06:40,  3.59it/s] 68%|██████▊   | 253675/371472 [9:08:03<8:53:01,  3.68it/s] 68%|██████▊   | 253676/371472 [9:08:03<8:48:01,  3.72it/s] 68%|██████▊   | 253677/371472 [9:08:04<8:59:39,  3.64it/s] 68%|██████▊   | 253678/371472 [9:08:04<10:03:40,  3.25it/s] 68%|██████▊   | 253679/371472 [9:08:04<9:28:07,  3.46it/s]  68%|██████▊   | 253680/371472 [9:08:05<11:12:26,  2.92it/s]                                                            {'loss': 2.6245, 'learning_rate': 3.8553944278049516e-07, 'epoch': 10.93}
 68%|██████▊   | 253680/371472 [9:08:05<11:12:26,  2.92it/s] 68%|██████▊   | 253681/371472 [9:08:05<10:22:05,  3.16it/s] 68%|██████▊   | 253682/371472 [9:08:05<10:30:55,  3.11it/s] 68%|██████▊   | 253683/371472 [9:08:06<9:48:26,  3.34it/s]  68%|██████▊   | 253684/371472 [9:08:06<9:49:51,  3.33it/s] 68%|██████▊   | 253685/371472 [9:08:06<9:19:42,  3.51it/s] 68%|██████▊   | 253686/371472 [9:08:06<9:23:33,  3.48it/s] 68%|██████▊   | 253687/371472 [9:08:07<8:57:09,  3.65it/s] 68%|██████▊   | 253688/371472 [9:08:07<8:55:27,  3.67it/s] 68%|██████▊   | 253689/371472 [9:08:07<9:25:22,  3.47it/s] 68%|██████▊   | 253690/371472 [9:08:07<9:01:51,  3.62it/s] 68%|██████▊   | 253691/371472 [9:08:08<9:13:48,  3.54it/s] 68%|██████▊   | 253692/371472 [9:08:08<8:50:22,  3.70it/s] 68%|██████▊   | 253693/371472 [9:08:08<9:06:42,  3.59it/s] 68%|██████▊   | 253694/371472 [9:08:09<9:31:16,  3.44it/s] 68%|██████▊   | 253695/371472 [9:08:09<9:38:21,  3.39it/s] 68%|██████▊   | 253696/371472 [9:08:09<9:08:05,  3.58it/s] 68%|██████▊   | 253697/371472 [9:08:09<9:11:24,  3.56it/s] 68%|██████▊   | 253698/371472 [9:08:10<9:58:18,  3.28it/s] 68%|██████▊   | 253699/371472 [9:08:10<9:46:05,  3.35it/s] 68%|██████▊   | 253700/371472 [9:08:10<9:35:09,  3.41it/s]                                                           {'loss': 2.9382, 'learning_rate': 3.8549096080501623e-07, 'epoch': 10.93}
 68%|██████▊   | 253700/371472 [9:08:10<9:35:09,  3.41it/s] 68%|██████▊   | 253701/371472 [9:08:11<9:27:08,  3.46it/s] 68%|██████▊   | 253702/371472 [9:08:11<9:55:30,  3.30it/s] 68%|██████▊   | 253703/371472 [9:08:11<9:48:41,  3.33it/s] 68%|██████▊   | 253704/371472 [9:08:12<9:20:31,  3.50it/s] 68%|██████▊   | 253705/371472 [9:08:12<10:19:07,  3.17it/s] 68%|██████▊   | 253706/371472 [9:08:12<9:43:30,  3.36it/s]  68%|██████▊   | 253707/371472 [9:08:12<9:40:27,  3.38it/s] 68%|██████▊   | 253708/371472 [9:08:13<9:34:09,  3.42it/s] 68%|██████▊   | 253709/371472 [9:08:13<9:06:30,  3.59it/s] 68%|██████▊   | 253710/371472 [9:08:13<9:05:57,  3.59it/s] 68%|██████▊   | 253711/371472 [9:08:14<8:39:35,  3.78it/s] 68%|██████▊   | 253712/371472 [9:08:14<8:28:41,  3.86it/s] 68%|██████▊   | 253713/371472 [9:08:14<8:50:54,  3.70it/s] 68%|██████▊   | 253714/371472 [9:08:14<8:59:12,  3.64it/s] 68%|██████▊   | 253715/371472 [9:08:15<8:42:44,  3.75it/s] 68%|██████▊   | 253716/371472 [9:08:15<8:32:39,  3.83it/s] 68%|██████▊   | 253717/371472 [9:08:15<8:36:23,  3.80it/s] 68%|██████▊   | 253718/371472 [9:08:15<8:44:33,  3.74it/s] 68%|██████▊   | 253719/371472 [9:08:16<9:00:43,  3.63it/s] 68%|██████▊   | 253720/371472 [9:08:16<8:43:44,  3.75it/s]                                                           {'loss': 2.8172, 'learning_rate': 3.854424788295374e-07, 'epoch': 10.93}
 68%|██████▊   | 253720/371472 [9:08:16<8:43:44,  3.75it/s] 68%|██████▊   | 253721/371472 [9:08:16<8:45:04,  3.74it/s] 68%|██████▊   | 253722/371472 [9:08:16<8:54:41,  3.67it/s] 68%|██████▊   | 253723/371472 [9:08:17<8:34:33,  3.81it/s] 68%|██████▊   | 253724/371472 [9:08:17<8:30:51,  3.84it/s] 68%|██████▊   | 253725/371472 [9:08:17<8:39:29,  3.78it/s] 68%|██████▊   | 253726/371472 [9:08:18<9:36:16,  3.41it/s] 68%|██████▊   | 253727/371472 [9:08:18<10:13:41,  3.20it/s] 68%|██████▊   | 253728/371472 [9:08:18<9:35:47,  3.41it/s]  68%|██████▊   | 253729/371472 [9:08:18<9:17:14,  3.52it/s] 68%|██████▊   | 253730/371472 [9:08:19<9:04:40,  3.60it/s] 68%|██████▊   | 253731/371472 [9:08:19<8:49:02,  3.71it/s] 68%|██████▊   | 253732/371472 [9:08:19<8:50:17,  3.70it/s] 68%|██████▊   | 253733/371472 [9:08:20<8:40:39,  3.77it/s] 68%|██████▊   | 253734/371472 [9:08:20<8:45:47,  3.73it/s] 68%|██████▊   | 253735/371472 [9:08:20<8:43:28,  3.75it/s] 68%|██████▊   | 253736/371472 [9:08:20<9:04:50,  3.60it/s] 68%|██████▊   | 253737/371472 [9:08:21<8:55:44,  3.66it/s] 68%|██████▊   | 253738/371472 [9:08:21<9:01:05,  3.63it/s] 68%|██████▊   | 253739/371472 [9:08:21<8:59:37,  3.64it/s] 68%|██████▊   | 253740/371472 [9:08:21<9:09:07,  3.57it/s]                                                           {'loss': 2.8541, 'learning_rate': 3.853939968540584e-07, 'epoch': 10.93}
 68%|██████▊   | 253740/371472 [9:08:21<9:09:07,  3.57it/s] 68%|██████▊   | 253741/371472 [9:08:22<9:32:29,  3.43it/s] 68%|██████▊   | 253742/371472 [9:08:22<8:54:48,  3.67it/s] 68%|██████▊   | 253743/371472 [9:08:22<9:02:59,  3.61it/s] 68%|██████▊   | 253744/371472 [9:08:23<9:27:02,  3.46it/s] 68%|██████▊   | 253745/371472 [9:08:23<9:19:12,  3.51it/s] 68%|██████▊   | 253746/371472 [9:08:23<9:13:06,  3.55it/s] 68%|██████▊   | 253747/371472 [9:08:23<8:54:52,  3.67it/s] 68%|██████▊   | 253748/371472 [9:08:24<8:45:22,  3.73it/s] 68%|██████▊   | 253749/371472 [9:08:24<8:59:04,  3.64it/s] 68%|██████▊   | 253750/371472 [9:08:24<8:53:02,  3.68it/s] 68%|██████▊   | 253751/371472 [9:08:25<8:58:48,  3.64it/s] 68%|██████▊   | 253752/371472 [9:08:25<8:50:07,  3.70it/s] 68%|██████▊   | 253753/371472 [9:08:25<8:48:05,  3.72it/s] 68%|██████▊   | 253754/371472 [9:08:25<9:01:04,  3.63it/s] 68%|██████▊   | 253755/371472 [9:08:26<8:57:05,  3.65it/s] 68%|██████▊   | 253756/371472 [9:08:26<10:05:44,  3.24it/s] 68%|██████▊   | 253757/371472 [9:08:26<9:52:19,  3.31it/s]  68%|██████▊   | 253758/371472 [9:08:27<9:27:30,  3.46it/s] 68%|██████▊   | 253759/371472 [9:08:27<9:25:45,  3.47it/s] 68%|██████▊   | 253760/371472 [9:08:27<9:00:33,  3.63it/s]                                                           {'loss': 2.831, 'learning_rate': 3.853455148785796e-07, 'epoch': 10.93}
 68%|██████▊   | 253760/371472 [9:08:27<9:00:33,  3.63it/s] 68%|██████▊   | 253761/371472 [9:08:27<9:03:15,  3.61it/s] 68%|██████▊   | 253762/371472 [9:08:28<9:19:54,  3.50it/s] 68%|██████▊   | 253763/371472 [9:08:28<9:30:19,  3.44it/s] 68%|██████▊   | 253764/371472 [9:08:28<9:11:21,  3.56it/s] 68%|██████▊   | 253765/371472 [9:08:28<8:49:35,  3.70it/s] 68%|██████▊   | 253766/371472 [9:08:29<8:57:27,  3.65it/s] 68%|██████▊   | 253767/371472 [9:08:29<9:00:30,  3.63it/s] 68%|██████▊   | 253768/371472 [9:08:29<9:18:26,  3.51it/s] 68%|██████▊   | 253769/371472 [9:08:30<9:20:16,  3.50it/s] 68%|██████▊   | 253770/371472 [9:08:30<10:05:24,  3.24it/s] 68%|██████▊   | 253771/371472 [9:08:30<9:23:39,  3.48it/s]  68%|██████▊   | 253772/371472 [9:08:30<9:14:40,  3.54it/s] 68%|██████▊   | 253773/371472 [9:08:31<9:01:37,  3.62it/s] 68%|██████▊   | 253774/371472 [9:08:31<9:20:16,  3.50it/s] 68%|██████▊   | 253775/371472 [9:08:31<9:53:12,  3.31it/s] 68%|██████▊   | 253776/371472 [9:08:32<9:58:13,  3.28it/s] 68%|██████▊   | 253777/371472 [9:08:32<9:14:59,  3.53it/s] 68%|██████▊   | 253778/371472 [9:08:32<10:00:52,  3.26it/s] 68%|██████▊   | 253779/371472 [9:08:33<9:53:28,  3.31it/s]  68%|██████▊   | 253780/371472 [9:08:33<9:35:08,  3.41it/s]                                                           {'loss': 2.8265, 'learning_rate': 3.852970329031007e-07, 'epoch': 10.93}
 68%|██████▊   | 253780/371472 [9:08:33<9:35:08,  3.41it/s] 68%|██████▊   | 253781/371472 [9:08:33<9:22:34,  3.49it/s] 68%|██████▊   | 253782/371472 [9:08:33<9:00:40,  3.63it/s] 68%|██████▊   | 253783/371472 [9:08:34<8:55:08,  3.67it/s] 68%|██████▊   | 253784/371472 [9:08:34<9:02:25,  3.62it/s] 68%|██████▊   | 253785/371472 [9:08:34<8:48:07,  3.71it/s] 68%|██████▊   | 253786/371472 [9:08:34<8:43:27,  3.75it/s] 68%|██████▊   | 253787/371472 [9:08:35<9:22:10,  3.49it/s] 68%|██████▊   | 253788/371472 [9:08:35<9:09:11,  3.57it/s] 68%|██████▊   | 253789/371472 [9:08:35<8:47:50,  3.72it/s] 68%|██████▊   | 253790/371472 [9:08:36<8:26:42,  3.87it/s] 68%|██████▊   | 253791/371472 [9:08:36<8:37:47,  3.79it/s] 68%|██████▊   | 253792/371472 [9:08:36<8:24:19,  3.89it/s] 68%|██████▊   | 253793/371472 [9:08:36<9:08:25,  3.58it/s] 68%|██████▊   | 253794/371472 [9:08:37<9:12:54,  3.55it/s] 68%|██████▊   | 253795/371472 [9:08:37<9:34:37,  3.41it/s] 68%|██████▊   | 253796/371472 [9:08:37<9:23:49,  3.48it/s] 68%|██████▊   | 253797/371472 [9:08:37<9:02:05,  3.62it/s] 68%|██████▊   | 253798/371472 [9:08:38<8:57:32,  3.65it/s] 68%|██████▊   | 253799/371472 [9:08:38<8:45:55,  3.73it/s] 68%|██████▊   | 253800/371472 [9:08:38<9:10:00,  3.57it/s]                                                           {'loss': 2.6632, 'learning_rate': 3.852485509276218e-07, 'epoch': 10.93}
 68%|██████▊   | 253800/371472 [9:08:38<9:10:00,  3.57it/s] 68%|██████▊   | 253801/371472 [9:08:39<9:10:36,  3.56it/s] 68%|██████▊   | 253802/371472 [9:08:39<8:52:06,  3.69it/s] 68%|██████▊   | 253803/371472 [9:08:39<8:37:53,  3.79it/s] 68%|██████▊   | 253804/371472 [9:08:39<8:44:38,  3.74it/s] 68%|██████▊   | 253805/371472 [9:08:40<8:32:51,  3.82it/s] 68%|██████▊   | 253806/371472 [9:08:40<8:30:31,  3.84it/s] 68%|██████▊   | 253807/371472 [9:08:40<8:37:24,  3.79it/s] 68%|██████▊   | 253808/371472 [9:08:40<8:38:57,  3.78it/s] 68%|██████▊   | 253809/371472 [9:08:41<9:11:38,  3.55it/s] 68%|██████▊   | 253810/371472 [9:08:41<9:34:37,  3.41it/s] 68%|██████▊   | 253811/371472 [9:08:41<9:11:28,  3.56it/s] 68%|██████▊   | 253812/371472 [9:08:42<9:06:28,  3.59it/s] 68%|██████▊   | 253813/371472 [9:08:42<8:56:09,  3.66it/s] 68%|██████▊   | 253814/371472 [9:08:42<9:06:31,  3.59it/s] 68%|██████▊   | 253815/371472 [9:08:42<9:07:35,  3.58it/s] 68%|██████▊   | 253816/371472 [9:08:43<9:03:45,  3.61it/s] 68%|██████▊   | 253817/371472 [9:08:43<8:47:17,  3.72it/s] 68%|██████▊   | 253818/371472 [9:08:43<9:29:48,  3.44it/s] 68%|██████▊   | 253819/371472 [9:08:44<9:11:42,  3.55it/s] 68%|██████▊   | 253820/371472 [9:08:44<9:07:34,  3.58it/s]                                                           {'loss': 2.8523, 'learning_rate': 3.8520006895214287e-07, 'epoch': 10.93}
 68%|██████▊   | 253820/371472 [9:08:44<9:07:34,  3.58it/s] 68%|██████▊   | 253821/371472 [9:08:44<8:57:50,  3.65it/s] 68%|██████▊   | 253822/371472 [9:08:44<8:57:58,  3.64it/s] 68%|██████▊   | 253823/371472 [9:08:45<8:49:22,  3.70it/s] 68%|██████▊   | 253824/371472 [9:08:45<8:44:26,  3.74it/s] 68%|██████▊   | 253825/371472 [9:08:45<9:04:39,  3.60it/s] 68%|██████▊   | 253826/371472 [9:08:45<8:55:24,  3.66it/s] 68%|██████▊   | 253827/371472 [9:08:46<9:05:47,  3.59it/s] 68%|██████▊   | 253828/371472 [9:08:46<9:07:29,  3.58it/s] 68%|██████▊   | 253829/371472 [9:08:46<9:06:49,  3.59it/s] 68%|██████▊   | 253830/371472 [9:08:47<8:59:17,  3.64it/s] 68%|██████▊   | 253831/371472 [9:08:47<8:57:02,  3.65it/s] 68%|██████▊   | 253832/371472 [9:08:47<8:39:53,  3.77it/s] 68%|██████▊   | 253833/371472 [9:08:47<8:38:48,  3.78it/s] 68%|██████▊   | 253834/371472 [9:08:48<9:22:53,  3.48it/s] 68%|██████▊   | 253835/371472 [9:08:48<9:12:07,  3.55it/s] 68%|██████▊   | 253836/371472 [9:08:48<9:21:17,  3.49it/s] 68%|██████▊   | 253837/371472 [9:08:48<8:59:21,  3.64it/s] 68%|██████▊   | 253838/371472 [9:08:49<9:48:36,  3.33it/s] 68%|██████▊   | 253839/371472 [9:08:49<9:17:50,  3.51it/s] 68%|██████▊   | 253840/371472 [9:08:49<9:00:22,  3.63it/s]                                                           {'loss': 2.7753, 'learning_rate': 3.8515158697666405e-07, 'epoch': 10.93}
 68%|██████▊   | 253840/371472 [9:08:49<9:00:22,  3.63it/s] 68%|██████▊   | 253841/371472 [9:08:50<8:45:17,  3.73it/s] 68%|██████▊   | 253842/371472 [9:08:50<8:50:56,  3.69it/s] 68%|██████▊   | 253843/371472 [9:08:50<8:38:50,  3.78it/s] 68%|██████▊   | 253844/371472 [9:08:50<8:59:14,  3.64it/s] 68%|██████▊   | 253845/371472 [9:08:51<8:45:12,  3.73it/s] 68%|██████▊   | 253846/371472 [9:08:51<8:47:29,  3.72it/s] 68%|██████▊   | 253847/371472 [9:08:51<9:15:15,  3.53it/s] 68%|██████▊   | 253848/371472 [9:08:52<8:55:34,  3.66it/s] 68%|██████▊   | 253849/371472 [9:08:52<8:55:33,  3.66it/s] 68%|██████▊   | 253850/371472 [9:08:52<8:55:50,  3.66it/s] 68%|██████▊   | 253851/371472 [9:08:52<9:00:32,  3.63it/s] 68%|██████▊   | 253852/371472 [9:08:53<8:47:10,  3.72it/s] 68%|██████▊   | 253853/371472 [9:08:53<8:40:53,  3.76it/s] 68%|██████▊   | 253854/371472 [9:08:53<8:45:45,  3.73it/s] 68%|██████▊   | 253855/371472 [9:08:53<8:42:41,  3.75it/s] 68%|██████▊   | 253856/371472 [9:08:54<8:46:03,  3.73it/s] 68%|██████▊   | 253857/371472 [9:08:54<8:22:54,  3.90it/s] 68%|██████▊   | 253858/371472 [9:08:54<9:17:57,  3.51it/s] 68%|██████▊   | 253859/371472 [9:08:55<10:05:54,  3.24it/s] 68%|██████▊   | 253860/371472 [9:08:55<9:35:35,  3.41it/s]                                                            {'loss': 3.0294, 'learning_rate': 3.8510310500118507e-07, 'epoch': 10.93}
 68%|██████▊   | 253860/371472 [9:08:55<9:35:35,  3.41it/s] 68%|██████▊   | 253861/371472 [9:08:55<9:00:12,  3.63it/s] 68%|██████▊   | 253862/371472 [9:08:55<9:04:34,  3.60it/s] 68%|██████▊   | 253863/371472 [9:08:56<8:43:02,  3.75it/s] 68%|██████▊   | 253864/371472 [9:08:56<9:37:57,  3.39it/s] 68%|██████▊   | 253865/371472 [9:08:56<9:10:18,  3.56it/s] 68%|██████▊   | 253866/371472 [9:08:57<9:50:10,  3.32it/s] 68%|██████▊   | 253867/371472 [9:08:57<9:59:53,  3.27it/s] 68%|██████▊   | 253868/371472 [9:08:57<10:22:14,  3.15it/s] 68%|██████▊   | 253869/371472 [9:08:58<10:10:36,  3.21it/s] 68%|██████▊   | 253870/371472 [9:08:58<9:52:08,  3.31it/s]  68%|██████▊   | 253871/371472 [9:08:58<9:53:56,  3.30it/s] 68%|██████▊   | 253872/371472 [9:08:58<9:43:47,  3.36it/s] 68%|██████▊   | 253873/371472 [9:08:59<9:03:56,  3.60it/s] 68%|██████▊   | 253874/371472 [9:08:59<9:30:40,  3.43it/s] 68%|██████▊   | 253875/371472 [9:08:59<9:35:12,  3.41it/s] 68%|██████▊   | 253876/371472 [9:09:00<9:40:18,  3.38it/s] 68%|██████▊   | 253877/371472 [9:09:00<9:56:04,  3.29it/s] 68%|██████▊   | 253878/371472 [9:09:00<9:33:21,  3.42it/s] 68%|██████▊   | 253879/371472 [9:09:00<9:18:16,  3.51it/s] 68%|██████▊   | 253880/371472 [9:09:01<9:40:14,  3.38it/s]                                                           {'loss': 2.889, 'learning_rate': 3.8505462302570624e-07, 'epoch': 10.94}
 68%|██████▊   | 253880/371472 [9:09:01<9:40:14,  3.38it/s] 68%|██████▊   | 253881/371472 [9:09:01<9:39:55,  3.38it/s] 68%|██████▊   | 253882/371472 [9:09:01<9:09:06,  3.57it/s] 68%|██████▊   | 253883/371472 [9:09:02<8:51:01,  3.69it/s] 68%|██████▊   | 253884/371472 [9:09:02<8:39:57,  3.77it/s] 68%|██████▊   | 253885/371472 [9:09:02<8:48:08,  3.71it/s] 68%|██████▊   | 253886/371472 [9:09:02<8:39:40,  3.77it/s] 68%|██████▊   | 253887/371472 [9:09:03<9:06:28,  3.59it/s] 68%|██████▊   | 253888/371472 [9:09:03<8:43:39,  3.74it/s] 68%|██████▊   | 253889/371472 [9:09:03<8:38:30,  3.78it/s] 68%|██████▊   | 253890/371472 [9:09:03<8:50:03,  3.70it/s] 68%|██████▊   | 253891/371472 [9:09:04<8:31:52,  3.83it/s] 68%|██████▊   | 253892/371472 [9:09:04<8:47:29,  3.72it/s] 68%|██████▊   | 253893/371472 [9:09:04<9:07:44,  3.58it/s] 68%|██████▊   | 253894/371472 [9:09:05<9:33:54,  3.41it/s] 68%|██████▊   | 253895/371472 [9:09:05<9:43:02,  3.36it/s] 68%|██████▊   | 253896/371472 [9:09:05<9:14:38,  3.53it/s] 68%|██████▊   | 253897/371472 [9:09:05<8:57:07,  3.65it/s] 68%|██████▊   | 253898/371472 [9:09:06<9:04:19,  3.60it/s] 68%|██████▊   | 253899/371472 [9:09:06<8:45:49,  3.73it/s] 68%|██████▊   | 253900/371472 [9:09:06<9:04:02,  3.60it/s]                                                           {'loss': 2.8061, 'learning_rate': 3.850061410502273e-07, 'epoch': 10.94}
 68%|██████▊   | 253900/371472 [9:09:06<9:04:02,  3.60it/s] 68%|██████▊   | 253901/371472 [9:09:07<9:40:01,  3.38it/s] 68%|██████▊   | 253902/371472 [9:09:07<9:30:42,  3.43it/s] 68%|██████▊   | 253903/371472 [9:09:07<9:14:42,  3.53it/s] 68%|██████▊   | 253904/371472 [9:09:07<9:34:42,  3.41it/s] 68%|██████▊   | 253905/371472 [9:09:08<9:13:18,  3.54it/s] 68%|██████▊   | 253906/371472 [9:09:08<9:02:04,  3.61it/s] 68%|██████▊   | 253907/371472 [9:09:08<9:29:25,  3.44it/s] 68%|██████▊   | 253908/371472 [9:09:09<9:03:45,  3.60it/s] 68%|██████▊   | 253909/371472 [9:09:09<9:07:55,  3.58it/s] 68%|██████▊   | 253910/371472 [9:09:09<9:16:22,  3.52it/s] 68%|██████▊   | 253911/371472 [9:09:09<9:14:35,  3.53it/s] 68%|██████▊   | 253912/371472 [9:09:10<9:12:21,  3.55it/s] 68%|██████▊   | 253913/371472 [9:09:10<9:45:55,  3.34it/s] 68%|██████▊   | 253914/371472 [9:09:10<9:27:02,  3.46it/s] 68%|██████▊   | 253915/371472 [9:09:11<9:21:19,  3.49it/s] 68%|██████▊   | 253916/371472 [9:09:11<9:18:39,  3.51it/s] 68%|██████▊   | 253917/371472 [9:09:11<9:10:08,  3.56it/s] 68%|██████▊   | 253918/371472 [9:09:11<8:57:15,  3.65it/s] 68%|██████▊   | 253919/371472 [9:09:12<9:03:47,  3.60it/s] 68%|██████▊   | 253920/371472 [9:09:12<8:43:48,  3.74it/s]                                                           {'loss': 2.9312, 'learning_rate': 3.8495765907474844e-07, 'epoch': 10.94}
 68%|██████▊   | 253920/371472 [9:09:12<8:43:48,  3.74it/s] 68%|██████▊   | 253921/371472 [9:09:12<8:37:33,  3.79it/s] 68%|██████▊   | 253922/371472 [9:09:12<8:54:53,  3.66it/s] 68%|██████▊   | 253923/371472 [9:09:13<9:46:49,  3.34it/s] 68%|██████▊   | 253924/371472 [9:09:13<9:18:18,  3.51it/s] 68%|██████▊   | 253925/371472 [9:09:13<8:51:44,  3.68it/s] 68%|██████▊   | 253926/371472 [9:09:14<9:20:11,  3.50it/s] 68%|██████▊   | 253927/371472 [9:09:14<9:03:48,  3.60it/s] 68%|██████▊   | 253928/371472 [9:09:14<8:54:34,  3.66it/s] 68%|██████▊   | 253929/371472 [9:09:14<8:37:14,  3.79it/s] 68%|██████▊   | 253930/371472 [9:09:15<8:28:25,  3.85it/s] 68%|██████▊   | 253931/371472 [9:09:15<8:35:25,  3.80it/s] 68%|██████▊   | 253932/371472 [9:09:15<8:26:12,  3.87it/s] 68%|██████▊   | 253933/371472 [9:09:15<8:18:48,  3.93it/s] 68%|██████▊   | 253934/371472 [9:09:16<8:58:43,  3.64it/s] 68%|██████▊   | 253935/371472 [9:09:16<9:12:46,  3.54it/s] 68%|██████▊   | 253936/371472 [9:09:16<8:53:46,  3.67it/s] 68%|██████▊   | 253937/371472 [9:09:17<8:50:50,  3.69it/s] 68%|██████▊   | 253938/371472 [9:09:17<8:39:47,  3.77it/s] 68%|██████▊   | 253939/371472 [9:09:17<8:26:10,  3.87it/s] 68%|██████▊   | 253940/371472 [9:09:17<8:44:12,  3.74it/s]                                                           {'loss': 2.914, 'learning_rate': 3.849091770992695e-07, 'epoch': 10.94}
 68%|██████▊   | 253940/371472 [9:09:17<8:44:12,  3.74it/s] 68%|██████▊   | 253941/371472 [9:09:18<8:55:22,  3.66it/s] 68%|██████▊   | 253942/371472 [9:09:18<8:49:35,  3.70it/s] 68%|██████▊   | 253943/371472 [9:09:18<9:21:47,  3.49it/s] 68%|██████▊   | 253944/371472 [9:09:18<9:42:23,  3.36it/s] 68%|██████▊   | 253945/371472 [9:09:19<9:24:19,  3.47it/s] 68%|██████▊   | 253946/371472 [9:09:19<9:00:33,  3.62it/s] 68%|██████▊   | 253947/371472 [9:09:19<9:17:48,  3.51it/s] 68%|██████▊   | 253948/371472 [9:09:20<9:04:03,  3.60it/s] 68%|██████▊   | 253949/371472 [9:09:20<9:19:35,  3.50it/s] 68%|██████▊   | 253950/371472 [9:09:20<9:22:46,  3.48it/s] 68%|██████▊   | 253951/371472 [9:09:20<9:12:20,  3.55it/s] 68%|██████▊   | 253952/371472 [9:09:21<9:31:36,  3.43it/s] 68%|██████▊   | 253953/371472 [9:09:21<9:00:19,  3.62it/s] 68%|██████▊   | 253954/371472 [9:09:21<9:07:12,  3.58it/s] 68%|██████▊   | 253955/371472 [9:09:22<8:49:03,  3.70it/s] 68%|██████▊   | 253956/371472 [9:09:22<8:34:42,  3.81it/s] 68%|██████▊   | 253957/371472 [9:09:22<8:18:46,  3.93it/s] 68%|██████▊   | 253958/371472 [9:09:22<8:34:30,  3.81it/s] 68%|██████▊   | 253959/371472 [9:09:23<9:46:57,  3.34it/s] 68%|██████▊   | 253960/371472 [9:09:23<10:05:32,  3.23it/s]                                                            {'loss': 2.8144, 'learning_rate': 3.848606951237906e-07, 'epoch': 10.94}
 68%|██████▊   | 253960/371472 [9:09:23<10:05:32,  3.23it/s] 68%|██████▊   | 253961/371472 [9:09:23<9:52:06,  3.31it/s]  68%|██████▊   | 253962/371472 [9:09:24<10:04:22,  3.24it/s] 68%|██████▊   | 253963/371472 [9:09:24<9:49:09,  3.32it/s]  68%|██████▊   | 253964/371472 [9:09:24<9:47:27,  3.33it/s] 68%|██████▊   | 253965/371472 [9:09:24<9:41:18,  3.37it/s] 68%|██████▊   | 253966/371472 [9:09:25<9:22:09,  3.48it/s] 68%|██████▊   | 253967/371472 [9:09:25<9:49:07,  3.32it/s] 68%|██████▊   | 253968/371472 [9:09:25<9:34:32,  3.41it/s] 68%|██████▊   | 253969/371472 [9:09:26<9:13:08,  3.54it/s] 68%|██████▊   | 253970/371472 [9:09:26<9:03:43,  3.60it/s] 68%|██████▊   | 253971/371472 [9:09:26<8:48:36,  3.70it/s] 68%|██████▊   | 253972/371472 [9:09:26<9:24:55,  3.47it/s] 68%|██████▊   | 253973/371472 [9:09:27<8:53:03,  3.67it/s] 68%|██████▊   | 253974/371472 [9:09:27<9:14:44,  3.53it/s] 68%|██████▊   | 253975/371472 [9:09:27<8:55:50,  3.65it/s] 68%|██████▊   | 253976/371472 [9:09:27<8:29:30,  3.84it/s] 68%|██████▊   | 253977/371472 [9:09:28<8:56:52,  3.65it/s] 68%|██████▊   | 253978/371472 [9:09:28<8:32:01,  3.82it/s] 68%|██████▊   | 253979/371472 [9:09:28<8:46:45,  3.72it/s] 68%|██████▊   | 253980/371472 [9:09:29<8:41:18,  3.76it/s]                                                           {'loss': 2.6128, 'learning_rate': 3.8481221314831176e-07, 'epoch': 10.94}
 68%|██████▊   | 253980/371472 [9:09:29<8:41:18,  3.76it/s] 68%|██████▊   | 253981/371472 [9:09:29<8:40:12,  3.76it/s] 68%|██████▊   | 253982/371472 [9:09:29<8:42:51,  3.75it/s] 68%|██████▊   | 253983/371472 [9:09:29<8:23:36,  3.89it/s] 68%|██████▊   | 253984/371472 [9:09:30<8:22:27,  3.90it/s] 68%|██████▊   | 253985/371472 [9:09:30<8:30:24,  3.84it/s] 68%|██████▊   | 253986/371472 [9:09:30<8:19:51,  3.92it/s] 68%|██████▊   | 253987/371472 [9:09:30<8:39:12,  3.77it/s] 68%|██████▊   | 253988/371472 [9:09:31<8:35:50,  3.80it/s] 68%|██████▊   | 253989/371472 [9:09:31<9:46:55,  3.34it/s] 68%|██████▊   | 253990/371472 [9:09:31<9:41:39,  3.37it/s] 68%|██████▊   | 253991/371472 [9:09:32<9:25:47,  3.46it/s] 68%|██████▊   | 253992/371472 [9:09:32<9:49:37,  3.32it/s] 68%|██████▊   | 253993/371472 [9:09:32<9:43:21,  3.36it/s] 68%|██████▊   | 253994/371472 [9:09:33<9:40:52,  3.37it/s] 68%|██████▊   | 253995/371472 [9:09:33<9:34:39,  3.41it/s] 68%|██████▊   | 253996/371472 [9:09:33<10:01:41,  3.25it/s] 68%|██████▊   | 253997/371472 [9:09:33<10:12:04,  3.20it/s] 68%|██████▊   | 253998/371472 [9:09:34<10:42:16,  3.05it/s] 68%|██████▊   | 253999/371472 [9:09:34<9:50:48,  3.31it/s]  68%|██████▊   | 254000/371472 [9:09:34<9:23:51,  3.47it/s]                                                           {'loss': 2.6676, 'learning_rate': 3.847637311728328e-07, 'epoch': 10.94}
 68%|██████▊   | 254000/371472 [9:09:34<9:23:51,  3.47it/s] 68%|██████▊   | 254001/371472 [9:09:35<9:02:41,  3.61it/s] 68%|██████▊   | 254002/371472 [9:09:35<8:40:31,  3.76it/s] 68%|██████▊   | 254003/371472 [9:09:35<9:00:09,  3.62it/s] 68%|██████▊   | 254004/371472 [9:09:35<8:53:02,  3.67it/s] 68%|██████▊   | 254005/371472 [9:09:36<9:03:56,  3.60it/s] 68%|██████▊   | 254006/371472 [9:09:36<8:59:05,  3.63it/s] 68%|██████▊   | 254007/371472 [9:09:36<8:30:59,  3.83it/s] 68%|██████▊   | 254008/371472 [9:09:36<8:31:12,  3.83it/s] 68%|██████▊   | 254009/371472 [9:09:37<8:21:30,  3.90it/s] 68%|██████▊   | 254010/371472 [9:09:37<8:55:09,  3.66it/s] 68%|██████▊   | 254011/371472 [9:09:37<9:00:52,  3.62it/s] 68%|██████▊   | 254012/371472 [9:09:38<9:24:24,  3.47it/s] 68%|██████▊   | 254013/371472 [9:09:38<9:14:37,  3.53it/s] 68%|██████▊   | 254014/371472 [9:09:38<9:40:50,  3.37it/s] 68%|██████▊   | 254015/371472 [9:09:39<9:48:59,  3.32it/s] 68%|██████▊   | 254016/371472 [9:09:39<9:46:11,  3.34it/s] 68%|██████▊   | 254017/371472 [9:09:39<9:40:47,  3.37it/s] 68%|██████▊   | 254018/371472 [9:09:39<9:49:42,  3.32it/s] 68%|██████▊   | 254019/371472 [9:09:40<9:26:55,  3.45it/s] 68%|██████▊   | 254020/371472 [9:09:40<8:59:44,  3.63it/s]                                                           {'loss': 3.024, 'learning_rate': 3.8471524919735396e-07, 'epoch': 10.94}
 68%|██████▊   | 254020/371472 [9:09:40<8:59:44,  3.63it/s] 68%|██████▊   | 254021/371472 [9:09:40<9:08:02,  3.57it/s] 68%|██████▊   | 254022/371472 [9:09:40<9:08:45,  3.57it/s] 68%|██████▊   | 254023/371472 [9:09:41<8:55:30,  3.66it/s] 68%|██████▊   | 254024/371472 [9:09:41<9:39:18,  3.38it/s] 68%|██████▊   | 254025/371472 [9:09:41<9:24:04,  3.47it/s] 68%|██████▊   | 254026/371472 [9:09:42<9:16:46,  3.52it/s] 68%|██████▊   | 254027/371472 [9:09:42<9:21:49,  3.48it/s] 68%|██████▊   | 254028/371472 [9:09:42<9:14:20,  3.53it/s] 68%|██████▊   | 254029/371472 [9:09:42<9:07:27,  3.58it/s] 68%|██████▊   | 254030/371472 [9:09:43<8:49:24,  3.70it/s] 68%|██████▊   | 254031/371472 [9:09:43<8:46:19,  3.72it/s] 68%|██████▊   | 254032/371472 [9:09:43<8:22:49,  3.89it/s] 68%|██████▊   | 254033/371472 [9:09:43<8:28:55,  3.85it/s] 68%|██████▊   | 254034/371472 [9:09:44<8:41:11,  3.76it/s] 68%|██████▊   | 254035/371472 [9:09:44<8:43:22,  3.74it/s] 68%|██████▊   | 254036/371472 [9:09:44<8:41:44,  3.75it/s] 68%|██████▊   | 254037/371472 [9:09:45<9:05:40,  3.59it/s] 68%|██████▊   | 254038/371472 [9:09:45<8:55:31,  3.65it/s] 68%|██████▊   | 254039/371472 [9:09:45<8:39:33,  3.77it/s] 68%|██████▊   | 254040/371472 [9:09:45<8:37:11,  3.78it/s]                                                           {'loss': 2.8975, 'learning_rate': 3.8466676722187503e-07, 'epoch': 10.94}
 68%|██████▊   | 254040/371472 [9:09:45<8:37:11,  3.78it/s] 68%|██████▊   | 254041/371472 [9:09:46<8:31:00,  3.83it/s] 68%|██████▊   | 254042/371472 [9:09:46<8:34:00,  3.81it/s] 68%|██████▊   | 254043/371472 [9:09:46<8:27:49,  3.85it/s] 68%|██████▊   | 254044/371472 [9:09:46<8:34:48,  3.80it/s] 68%|██████▊   | 254045/371472 [9:09:47<8:48:23,  3.70it/s] 68%|██████▊   | 254046/371472 [9:09:47<8:49:28,  3.70it/s] 68%|██████▊   | 254047/371472 [9:09:47<8:50:36,  3.69it/s] 68%|██████▊   | 254048/371472 [9:09:47<8:38:45,  3.77it/s] 68%|██████▊   | 254049/371472 [9:09:48<8:46:40,  3.72it/s] 68%|██████▊   | 254050/371472 [9:09:48<8:53:43,  3.67it/s] 68%|██████▊   | 254051/371472 [9:09:48<9:31:59,  3.42it/s] 68%|██████▊   | 254052/371472 [9:09:49<9:28:04,  3.44it/s] 68%|██████▊   | 254053/371472 [9:09:49<9:51:49,  3.31it/s] 68%|██████▊   | 254054/371472 [9:09:49<9:22:37,  3.48it/s] 68%|██████▊   | 254055/371472 [9:09:50<9:29:13,  3.44it/s] 68%|██████▊   | 254056/371472 [9:09:50<9:08:44,  3.57it/s] 68%|██████▊   | 254057/371472 [9:09:50<9:20:01,  3.49it/s] 68%|██████▊   | 254058/371472 [9:09:50<9:33:41,  3.41it/s] 68%|██████▊   | 254059/371472 [9:09:51<9:44:09,  3.35it/s] 68%|██████▊   | 254060/371472 [9:09:51<9:27:23,  3.45it/s]                                                           {'loss': 2.9072, 'learning_rate': 3.8461828524639615e-07, 'epoch': 10.94}
 68%|██████▊   | 254060/371472 [9:09:51<9:27:23,  3.45it/s] 68%|██████▊   | 254061/371472 [9:09:51<9:17:18,  3.51it/s] 68%|██████▊   | 254062/371472 [9:09:52<9:19:21,  3.50it/s] 68%|██████▊   | 254063/371472 [9:09:52<9:03:39,  3.60it/s] 68%|██████▊   | 254064/371472 [9:09:52<9:02:23,  3.61it/s] 68%|██████▊   | 254065/371472 [9:09:52<9:06:24,  3.58it/s] 68%|██████▊   | 254066/371472 [9:09:53<9:06:09,  3.58it/s] 68%|██████▊   | 254067/371472 [9:09:53<9:01:31,  3.61it/s] 68%|██████▊   | 254068/371472 [9:09:53<9:09:37,  3.56it/s] 68%|██████▊   | 254069/371472 [9:09:54<9:08:32,  3.57it/s] 68%|██████▊   | 254070/371472 [9:09:54<9:02:47,  3.60it/s] 68%|██████▊   | 254071/371472 [9:09:54<8:52:53,  3.67it/s] 68%|██████▊   | 254072/371472 [9:09:54<8:54:07,  3.66it/s] 68%|██████▊   | 254073/371472 [9:09:55<8:49:44,  3.69it/s] 68%|██████▊   | 254074/371472 [9:09:55<8:58:30,  3.63it/s] 68%|██████▊   | 254075/371472 [9:09:55<8:33:54,  3.81it/s] 68%|██████▊   | 254076/371472 [9:09:55<8:37:36,  3.78it/s] 68%|██████▊   | 254077/371472 [9:09:56<9:15:24,  3.52it/s] 68%|██████▊   | 254078/371472 [9:09:56<9:17:16,  3.51it/s] 68%|██████▊   | 254079/371472 [9:09:56<10:04:14,  3.24it/s] 68%|██████▊   | 254080/371472 [9:09:57<10:37:19,  3.07it/s]                                                            {'loss': 2.9482, 'learning_rate': 3.845698032709172e-07, 'epoch': 10.94}
 68%|██████▊   | 254080/371472 [9:09:57<10:37:19,  3.07it/s] 68%|██████▊   | 254081/371472 [9:09:57<9:55:57,  3.28it/s]  68%|██████▊   | 254082/371472 [9:09:57<9:26:13,  3.46it/s] 68%|██████▊   | 254083/371472 [9:09:58<9:36:54,  3.39it/s] 68%|██████▊   | 254084/371472 [9:09:58<9:56:44,  3.28it/s] 68%|██████▊   | 254085/371472 [9:09:58<9:34:00,  3.41it/s] 68%|██████▊   | 254086/371472 [9:09:58<9:25:32,  3.46it/s] 68%|██████▊   | 254087/371472 [9:09:59<9:17:22,  3.51it/s] 68%|██████▊   | 254088/371472 [9:09:59<9:17:52,  3.51it/s] 68%|██████▊   | 254089/371472 [9:09:59<9:04:13,  3.59it/s] 68%|██████▊   | 254090/371472 [9:09:59<8:53:26,  3.67it/s] 68%|██████▊   | 254091/371472 [9:10:00<8:33:19,  3.81it/s] 68%|██████▊   | 254092/371472 [9:10:00<8:33:38,  3.81it/s] 68%|██████▊   | 254093/371472 [9:10:00<8:31:33,  3.82it/s] 68%|██████▊   | 254094/371472 [9:10:01<8:29:56,  3.84it/s] 68%|██████▊   | 254095/371472 [9:10:01<8:28:06,  3.85it/s] 68%|██████▊   | 254096/371472 [9:10:01<8:22:32,  3.89it/s] 68%|██████▊   | 254097/371472 [9:10:01<8:21:52,  3.90it/s] 68%|██████▊   | 254098/371472 [9:10:02<8:12:03,  3.98it/s] 68%|██████▊   | 254099/371472 [9:10:02<8:20:24,  3.91it/s] 68%|██████▊   | 254100/371472 [9:10:02<8:15:28,  3.95it/s]                                                           {'loss': 2.8628, 'learning_rate': 3.845213212954384e-07, 'epoch': 10.94}
 68%|██████▊   | 254100/371472 [9:10:02<8:15:28,  3.95it/s] 68%|██████▊   | 254101/371472 [9:10:02<8:17:46,  3.93it/s] 68%|██████▊   | 254102/371472 [9:10:03<8:13:23,  3.96it/s] 68%|██████▊   | 254103/371472 [9:10:03<8:15:47,  3.95it/s] 68%|██████▊   | 254104/371472 [9:10:03<8:12:19,  3.97it/s] 68%|██████▊   | 254105/371472 [9:10:03<8:22:38,  3.89it/s] 68%|██████▊   | 254106/371472 [9:10:04<8:55:44,  3.65it/s] 68%|██████▊   | 254107/371472 [9:10:04<8:45:20,  3.72it/s] 68%|██████▊   | 254108/371472 [9:10:04<8:47:05,  3.71it/s] 68%|██████▊   | 254109/371472 [9:10:04<8:30:08,  3.83it/s] 68%|██████▊   | 254110/371472 [9:10:05<8:15:32,  3.95it/s] 68%|██████▊   | 254111/371472 [9:10:05<9:51:58,  3.30it/s] 68%|██████▊   | 254112/371472 [9:10:05<9:42:16,  3.36it/s] 68%|██████▊   | 254113/371472 [9:10:06<9:45:25,  3.34it/s] 68%|██████▊   | 254114/371472 [9:10:06<9:09:42,  3.56it/s] 68%|██████▊   | 254115/371472 [9:10:06<9:25:20,  3.46it/s] 68%|██████▊   | 254116/371472 [9:10:06<9:10:48,  3.55it/s] 68%|██████▊   | 254117/371472 [9:10:07<10:01:01,  3.25it/s] 68%|██████▊   | 254118/371472 [9:10:07<9:46:44,  3.33it/s]  68%|██████▊   | 254119/371472 [9:10:07<9:25:49,  3.46it/s] 68%|██████▊   | 254120/371472 [9:10:08<9:07:58,  3.57it/s]                                                           {'loss': 3.0014, 'learning_rate': 3.844728393199594e-07, 'epoch': 10.95}
 68%|██████▊   | 254120/371472 [9:10:08<9:07:58,  3.57it/s] 68%|██████▊   | 254121/371472 [9:10:08<9:09:11,  3.56it/s] 68%|██████▊   | 254122/371472 [9:10:08<8:57:14,  3.64it/s] 68%|██████▊   | 254123/371472 [9:10:09<9:45:07,  3.34it/s] 68%|██████▊   | 254124/371472 [9:10:09<9:19:30,  3.50it/s] 68%|██████▊   | 254125/371472 [9:10:09<9:24:45,  3.46it/s] 68%|██████▊   | 254126/371472 [9:10:09<9:00:07,  3.62it/s] 68%|██████▊   | 254127/371472 [9:10:10<8:56:14,  3.65it/s] 68%|██████▊   | 254128/371472 [9:10:10<8:31:04,  3.83it/s] 68%|██████▊   | 254129/371472 [9:10:10<9:14:11,  3.53it/s] 68%|██████▊   | 254130/371472 [9:10:10<8:56:05,  3.65it/s] 68%|██████▊   | 254131/371472 [9:10:11<9:07:51,  3.57it/s] 68%|██████▊   | 254132/371472 [9:10:11<8:54:23,  3.66it/s] 68%|██████▊   | 254133/371472 [9:10:11<9:29:16,  3.44it/s] 68%|██████▊   | 254134/371472 [9:10:12<9:05:51,  3.58it/s] 68%|██████▊   | 254135/371472 [9:10:12<9:23:44,  3.47it/s] 68%|██████▊   | 254136/371472 [9:10:12<9:20:01,  3.49it/s] 68%|██████▊   | 254137/371472 [9:10:12<8:54:39,  3.66it/s] 68%|██████▊   | 254138/371472 [9:10:13<8:52:25,  3.67it/s] 68%|██████▊   | 254139/371472 [9:10:13<8:41:28,  3.75it/s] 68%|██████▊   | 254140/371472 [9:10:13<9:03:11,  3.60it/s]                                                           {'loss': 2.85, 'learning_rate': 3.844243573444806e-07, 'epoch': 10.95}
 68%|██████▊   | 254140/371472 [9:10:13<9:03:11,  3.60it/s] 68%|██████▊   | 254141/371472 [9:10:13<8:43:45,  3.73it/s] 68%|██████▊   | 254142/371472 [9:10:14<8:37:36,  3.78it/s] 68%|██████▊   | 254143/371472 [9:10:14<8:40:45,  3.76it/s] 68%|██████▊   | 254144/371472 [9:10:14<9:14:53,  3.52it/s] 68%|██████▊   | 254145/371472 [9:10:15<9:11:40,  3.54it/s] 68%|██████▊   | 254146/371472 [9:10:15<9:21:27,  3.48it/s] 68%|██████▊   | 254147/371472 [9:10:15<9:05:08,  3.59it/s] 68%|██████▊   | 254148/371472 [9:10:15<8:53:29,  3.67it/s] 68%|██████▊   | 254149/371472 [9:10:16<9:32:14,  3.42it/s] 68%|██████▊   | 254150/371472 [9:10:16<9:20:45,  3.49it/s] 68%|██████▊   | 254151/371472 [9:10:16<9:25:05,  3.46it/s] 68%|██████▊   | 254152/371472 [9:10:17<10:09:21,  3.21it/s] 68%|██████▊   | 254153/371472 [9:10:17<9:45:56,  3.34it/s]  68%|██████▊   | 254154/371472 [9:10:17<9:23:30,  3.47it/s] 68%|██████▊   | 254155/371472 [9:10:18<10:31:34,  3.10it/s] 68%|██████▊   | 254156/371472 [9:10:18<10:20:40,  3.15it/s] 68%|██████▊   | 254157/371472 [9:10:18<10:06:06,  3.23it/s] 68%|██████▊   | 254158/371472 [9:10:19<10:09:24,  3.21it/s] 68%|██████▊   | 254159/371472 [9:10:19<9:47:57,  3.33it/s]  68%|██████▊   | 254160/371472 [9:10:19<9:15:57,  3.52it/s]                                                           {'loss': 2.7256, 'learning_rate': 3.8437587536900167e-07, 'epoch': 10.95}
 68%|██████▊   | 254160/371472 [9:10:19<9:15:57,  3.52it/s] 68%|██████▊   | 254161/371472 [9:10:19<9:34:39,  3.40it/s] 68%|██████▊   | 254162/371472 [9:10:20<9:13:35,  3.53it/s] 68%|██████▊   | 254163/371472 [9:10:20<8:59:28,  3.62it/s] 68%|██████▊   | 254164/371472 [9:10:20<8:40:41,  3.75it/s] 68%|██████▊   | 254165/371472 [9:10:20<8:25:18,  3.87it/s] 68%|██████▊   | 254166/371472 [9:10:21<8:32:34,  3.81it/s] 68%|██████▊   | 254167/371472 [9:10:21<8:32:25,  3.82it/s] 68%|██████▊   | 254168/371472 [9:10:21<8:30:35,  3.83it/s] 68%|██████▊   | 254169/371472 [9:10:21<8:24:43,  3.87it/s] 68%|██████▊   | 254170/371472 [9:10:22<8:19:10,  3.92it/s] 68%|██████▊   | 254171/371472 [9:10:22<8:37:17,  3.78it/s] 68%|██████▊   | 254172/371472 [9:10:22<8:38:42,  3.77it/s] 68%|██████▊   | 254173/371472 [9:10:22<8:21:58,  3.89it/s] 68%|██████▊   | 254174/371472 [9:10:23<8:29:08,  3.84it/s] 68%|██████▊   | 254175/371472 [9:10:23<8:25:35,  3.87it/s] 68%|██████▊   | 254176/371472 [9:10:23<8:36:49,  3.78it/s] 68%|██████▊   | 254177/371472 [9:10:24<9:12:12,  3.54it/s] 68%|██████▊   | 254178/371472 [9:10:24<8:59:07,  3.63it/s] 68%|██████▊   | 254179/371472 [9:10:24<9:07:39,  3.57it/s] 68%|██████▊   | 254180/371472 [9:10:24<9:02:48,  3.60it/s]                                                           {'loss': 2.9503, 'learning_rate': 3.843273933935228e-07, 'epoch': 10.95}
 68%|██████▊   | 254180/371472 [9:10:24<9:02:48,  3.60it/s] 68%|██████▊   | 254181/371472 [9:10:25<10:38:58,  3.06it/s] 68%|██████▊   | 254182/371472 [9:10:25<9:59:33,  3.26it/s]  68%|██████▊   | 254183/371472 [9:10:25<9:52:55,  3.30it/s] 68%|██████▊   | 254184/371472 [9:10:26<10:31:10,  3.10it/s] 68%|██████▊   | 254185/371472 [9:10:26<10:01:06,  3.25it/s] 68%|██████▊   | 254186/371472 [9:10:26<9:34:03,  3.41it/s]  68%|██████▊   | 254187/371472 [9:10:27<9:01:30,  3.61it/s] 68%|██████▊   | 254188/371472 [9:10:27<9:49:33,  3.32it/s] 68%|██████▊   | 254189/371472 [9:10:27<9:39:36,  3.37it/s] 68%|██████▊   | 254190/371472 [9:10:27<9:35:06,  3.40it/s] 68%|██████▊   | 254191/371472 [9:10:28<9:50:11,  3.31it/s] 68%|██████▊   | 254192/371472 [9:10:28<9:24:13,  3.46it/s] 68%|██████▊   | 254193/371472 [9:10:28<9:27:01,  3.45it/s] 68%|██████▊   | 254194/371472 [9:10:29<9:23:22,  3.47it/s] 68%|██████▊   | 254195/371472 [9:10:29<9:21:22,  3.48it/s] 68%|██████▊   | 254196/371472 [9:10:29<9:08:00,  3.57it/s] 68%|██████▊   | 254197/371472 [9:10:29<8:40:38,  3.75it/s] 68%|██████▊   | 254198/371472 [9:10:30<8:25:18,  3.87it/s] 68%|██████▊   | 254199/371472 [9:10:30<8:46:54,  3.71it/s] 68%|██████▊   | 254200/371472 [9:10:30<8:46:54,  3.71it/s]                                                           {'loss': 2.8861, 'learning_rate': 3.8427891141804386e-07, 'epoch': 10.95}
 68%|██████▊   | 254200/371472 [9:10:30<8:46:54,  3.71it/s] 68%|██████▊   | 254201/371472 [9:10:31<9:15:58,  3.52it/s] 68%|██████▊   | 254202/371472 [9:10:31<8:54:38,  3.66it/s] 68%|██████▊   | 254203/371472 [9:10:31<8:56:38,  3.64it/s] 68%|██████▊   | 254204/371472 [9:10:31<8:55:34,  3.65it/s] 68%|██████▊   | 254205/371472 [9:10:32<8:43:32,  3.73it/s] 68%|██████▊   | 254206/371472 [9:10:32<8:35:45,  3.79it/s] 68%|██████▊   | 254207/371472 [9:10:32<8:43:01,  3.74it/s] 68%|██████▊   | 254208/371472 [9:10:32<9:00:55,  3.61it/s] 68%|██████▊   | 254209/371472 [9:10:33<8:58:06,  3.63it/s] 68%|██████▊   | 254210/371472 [9:10:33<9:50:21,  3.31it/s] 68%|██████▊   | 254211/371472 [9:10:33<9:15:31,  3.52it/s] 68%|██████▊   | 254212/371472 [9:10:34<9:23:25,  3.47it/s] 68%|██████▊   | 254213/371472 [9:10:34<9:24:28,  3.46it/s] 68%|██████▊   | 254214/371472 [9:10:34<9:00:58,  3.61it/s] 68%|██████▊   | 254215/371472 [9:10:34<9:49:35,  3.31it/s] 68%|██████▊   | 254216/371472 [9:10:35<9:31:18,  3.42it/s] 68%|██████▊   | 254217/371472 [9:10:35<9:31:53,  3.42it/s] 68%|██████▊   | 254218/371472 [9:10:35<9:17:23,  3.51it/s] 68%|██████▊   | 254219/371472 [9:10:36<11:09:46,  2.92it/s] 68%|██████▊   | 254220/371472 [9:10:36<10:05:58,  3.22it/s]                                                            {'loss': 2.8803, 'learning_rate': 3.8423042944256504e-07, 'epoch': 10.95}
 68%|██████▊   | 254220/371472 [9:10:36<10:05:58,  3.22it/s] 68%|██████▊   | 254221/371472 [9:10:36<9:34:55,  3.40it/s]  68%|██████▊   | 254222/371472 [9:10:37<9:45:33,  3.34it/s] 68%|██████▊   | 254223/371472 [9:10:37<9:42:05,  3.36it/s] 68%|██████▊   | 254224/371472 [9:10:37<9:17:26,  3.51it/s] 68%|██████▊   | 254225/371472 [9:10:37<8:57:02,  3.64it/s] 68%|██████▊   | 254226/371472 [9:10:38<9:15:35,  3.52it/s] 68%|██████▊   | 254227/371472 [9:10:38<8:50:21,  3.68it/s] 68%|██████▊   | 254228/371472 [9:10:38<8:54:15,  3.66it/s] 68%|██████▊   | 254229/371472 [9:10:38<8:34:21,  3.80it/s] 68%|██████▊   | 254230/371472 [9:10:39<8:22:43,  3.89it/s] 68%|██████▊   | 254231/371472 [9:10:39<8:31:13,  3.82it/s] 68%|██████▊   | 254232/371472 [9:10:39<8:48:50,  3.69it/s] 68%|██████▊   | 254233/371472 [9:10:40<10:27:45,  3.11it/s] 68%|██████▊   | 254234/371472 [9:10:40<9:45:31,  3.34it/s]  68%|██████▊   | 254235/371472 [9:10:40<9:21:43,  3.48it/s] 68%|██████▊   | 254236/371472 [9:10:40<8:53:52,  3.66it/s] 68%|██████▊   | 254237/371472 [9:10:41<9:51:05,  3.31it/s] 68%|██████▊   | 254238/371472 [9:10:41<10:19:17,  3.16it/s] 68%|██████▊   | 254239/371472 [9:10:41<9:49:00,  3.32it/s]  68%|██████▊   | 254240/371472 [9:10:42<9:58:25,  3.26it/s]                                                           {'loss': 2.8295, 'learning_rate': 3.841819474670861e-07, 'epoch': 10.95}
 68%|██████▊   | 254240/371472 [9:10:42<9:58:25,  3.26it/s] 68%|██████▊   | 254241/371472 [9:10:42<9:40:08,  3.37it/s] 68%|██████▊   | 254242/371472 [9:10:42<9:32:19,  3.41it/s] 68%|██████▊   | 254243/371472 [9:10:43<8:59:38,  3.62it/s] 68%|██████▊   | 254244/371472 [9:10:43<8:40:15,  3.76it/s] 68%|██████▊   | 254245/371472 [9:10:43<8:33:35,  3.80it/s] 68%|██████▊   | 254246/371472 [9:10:43<8:42:13,  3.74it/s] 68%|██████▊   | 254247/371472 [9:10:44<9:12:25,  3.54it/s] 68%|██████▊   | 254248/371472 [9:10:44<8:59:07,  3.62it/s] 68%|██████▊   | 254249/371472 [9:10:44<9:12:51,  3.53it/s] 68%|██████▊   | 254250/371472 [9:10:44<9:11:21,  3.54it/s] 68%|██████▊   | 254251/371472 [9:10:45<8:45:17,  3.72it/s] 68%|██████▊   | 254252/371472 [9:10:45<8:59:37,  3.62it/s] 68%|██████▊   | 254253/371472 [9:10:45<9:39:59,  3.37it/s] 68%|██████▊   | 254254/371472 [9:10:46<9:37:07,  3.39it/s] 68%|██████▊   | 254255/371472 [9:10:46<9:05:06,  3.58it/s] 68%|██████▊   | 254256/371472 [9:10:46<8:48:25,  3.70it/s] 68%|██████▊   | 254257/371472 [9:10:46<9:04:48,  3.59it/s] 68%|██████▊   | 254258/371472 [9:10:47<10:04:10,  3.23it/s] 68%|██████▊   | 254259/371472 [9:10:47<9:34:24,  3.40it/s]  68%|██████▊   | 254260/371472 [9:10:47<8:59:14,  3.62it/s]                                                           {'loss': 3.0234, 'learning_rate': 3.8413346549160724e-07, 'epoch': 10.95}
 68%|██████▊   | 254260/371472 [9:10:47<8:59:14,  3.62it/s] 68%|██████▊   | 254261/371472 [9:10:48<9:15:58,  3.51it/s] 68%|██████▊   | 254262/371472 [9:10:48<8:56:35,  3.64it/s] 68%|██████▊   | 254263/371472 [9:10:48<8:44:51,  3.72it/s] 68%|██████▊   | 254264/371472 [9:10:48<9:03:16,  3.60it/s] 68%|██████▊   | 254265/371472 [9:10:49<8:59:55,  3.62it/s] 68%|██████▊   | 254266/371472 [9:10:49<8:47:24,  3.70it/s] 68%|██████▊   | 254267/371472 [9:10:49<9:12:59,  3.53it/s] 68%|██████▊   | 254268/371472 [9:10:50<8:57:10,  3.64it/s] 68%|██████▊   | 254269/371472 [9:10:50<8:47:29,  3.70it/s] 68%|██████▊   | 254270/371472 [9:10:50<8:33:36,  3.80it/s] 68%|██████▊   | 254271/371472 [9:10:50<8:29:14,  3.84it/s] 68%|██████▊   | 254272/371472 [9:10:51<8:21:44,  3.89it/s] 68%|██████▊   | 254273/371472 [9:10:51<8:29:37,  3.83it/s] 68%|██████▊   | 254274/371472 [9:10:51<8:23:00,  3.88it/s] 68%|██████▊   | 254275/371472 [9:10:51<8:27:25,  3.85it/s] 68%|██████▊   | 254276/371472 [9:10:52<8:35:16,  3.79it/s] 68%|██████▊   | 254277/371472 [9:10:52<8:32:06,  3.81it/s] 68%|██████▊   | 254278/371472 [9:10:52<8:56:45,  3.64it/s] 68%|██████▊   | 254279/371472 [9:10:52<8:51:07,  3.68it/s] 68%|██████▊   | 254280/371472 [9:10:53<8:51:06,  3.68it/s]                                                           {'loss': 2.8308, 'learning_rate': 3.8408498351612836e-07, 'epoch': 10.95}
 68%|██████▊   | 254280/371472 [9:10:53<8:51:06,  3.68it/s] 68%|██████▊   | 254281/371472 [9:10:53<8:38:29,  3.77it/s] 68%|██████▊   | 254282/371472 [9:10:53<9:22:05,  3.47it/s] 68%|██████▊   | 254283/371472 [9:10:54<9:54:10,  3.29it/s] 68%|██████▊   | 254284/371472 [9:10:54<9:24:42,  3.46it/s] 68%|██████▊   | 254285/371472 [9:10:54<8:50:18,  3.68it/s] 68%|██████▊   | 254286/371472 [9:10:54<9:17:05,  3.51it/s] 68%|██████▊   | 254287/371472 [9:10:55<8:51:33,  3.67it/s] 68%|██████▊   | 254288/371472 [9:10:55<8:32:34,  3.81it/s] 68%|██████▊   | 254289/371472 [9:10:55<9:28:30,  3.44it/s] 68%|██████▊   | 254290/371472 [9:10:56<9:27:57,  3.44it/s] 68%|██████▊   | 254291/371472 [9:10:56<9:30:14,  3.42it/s] 68%|██████▊   | 254292/371472 [9:10:56<9:12:05,  3.54it/s] 68%|██████▊   | 254293/371472 [9:10:56<8:50:51,  3.68it/s] 68%|██████▊   | 254294/371472 [9:10:57<8:43:56,  3.73it/s] 68%|██████▊   | 254295/371472 [9:10:57<8:56:55,  3.64it/s] 68%|██████▊   | 254296/371472 [9:10:57<9:02:14,  3.60it/s] 68%|██████▊   | 254297/371472 [9:10:57<8:47:14,  3.70it/s] 68%|██████▊   | 254298/371472 [9:10:58<8:52:54,  3.66it/s] 68%|██████▊   | 254299/371472 [9:10:58<9:04:32,  3.59it/s] 68%|██████▊   | 254300/371472 [9:10:58<8:52:40,  3.67it/s]                                                           {'loss': 2.7905, 'learning_rate': 3.840365015406495e-07, 'epoch': 10.95}
 68%|██████▊   | 254300/371472 [9:10:58<8:52:40,  3.67it/s] 68%|██████▊   | 254301/371472 [9:10:59<9:00:51,  3.61it/s] 68%|██████▊   | 254302/371472 [9:10:59<8:46:58,  3.71it/s] 68%|██████▊   | 254303/371472 [9:10:59<9:38:41,  3.37it/s] 68%|██████▊   | 254304/371472 [9:10:59<9:52:25,  3.30it/s] 68%|██████▊   | 254305/371472 [9:11:00<9:49:27,  3.31it/s] 68%|██████▊   | 254306/371472 [9:11:00<9:22:28,  3.47it/s] 68%|██████▊   | 254307/371472 [9:11:00<9:01:32,  3.61it/s] 68%|██████▊   | 254308/371472 [9:11:01<9:30:28,  3.42it/s] 68%|██████▊   | 254309/371472 [9:11:01<9:28:26,  3.44it/s] 68%|██████▊   | 254310/371472 [9:11:01<8:58:57,  3.62it/s] 68%|██████▊   | 254311/371472 [9:11:01<8:45:53,  3.71it/s] 68%|██████▊   | 254312/371472 [9:11:02<8:44:07,  3.73it/s] 68%|██████▊   | 254313/371472 [9:11:02<8:47:41,  3.70it/s] 68%|██████▊   | 254314/371472 [9:11:02<8:55:42,  3.64it/s] 68%|██████▊   | 254315/371472 [9:11:03<9:12:49,  3.53it/s] 68%|██████▊   | 254316/371472 [9:11:03<9:12:04,  3.54it/s] 68%|██████▊   | 254317/371472 [9:11:03<9:02:56,  3.60it/s] 68%|██████▊   | 254318/371472 [9:11:03<8:39:54,  3.76it/s] 68%|██████▊   | 254319/371472 [9:11:04<8:22:32,  3.89it/s] 68%|██████▊   | 254320/371472 [9:11:04<8:15:40,  3.94it/s]                                                           {'loss': 2.808, 'learning_rate': 3.839880195651705e-07, 'epoch': 10.95}
 68%|██████▊   | 254320/371472 [9:11:04<8:15:40,  3.94it/s] 68%|██████▊   | 254321/371472 [9:11:04<8:37:33,  3.77it/s] 68%|██████▊   | 254322/371472 [9:11:04<8:34:39,  3.79it/s] 68%|██████▊   | 254323/371472 [9:11:05<8:40:49,  3.75it/s] 68%|██████▊   | 254324/371472 [9:11:05<8:38:24,  3.77it/s] 68%|██████▊   | 254325/371472 [9:11:05<8:52:21,  3.67it/s] 68%|██████▊   | 254326/371472 [9:11:05<9:03:49,  3.59it/s] 68%|██████▊   | 254327/371472 [9:11:06<9:12:39,  3.53it/s] 68%|██████▊   | 254328/371472 [9:11:06<11:12:44,  2.90it/s] 68%|██████▊   | 254329/371472 [9:11:07<11:11:40,  2.91it/s] 68%|██████▊   | 254330/371472 [9:11:07<10:38:58,  3.06it/s] 68%|██████▊   | 254331/371472 [9:11:07<10:01:18,  3.25it/s] 68%|██████▊   | 254332/371472 [9:11:07<9:37:35,  3.38it/s]  68%|██████▊   | 254333/371472 [9:11:08<9:18:34,  3.50it/s] 68%|██████▊   | 254334/371472 [9:11:08<9:00:23,  3.61it/s] 68%|██████▊   | 254335/371472 [9:11:08<8:51:31,  3.67it/s] 68%|██████▊   | 254336/371472 [9:11:08<9:06:30,  3.57it/s] 68%|██████▊   | 254337/371472 [9:11:09<9:05:40,  3.58it/s] 68%|██████▊   | 254338/371472 [9:11:09<9:03:48,  3.59it/s] 68%|██████▊   | 254339/371472 [9:11:09<8:41:05,  3.75it/s] 68%|██████▊   | 254340/371472 [9:11:10<9:02:21,  3.60it/s]                                                           {'loss': 2.8106, 'learning_rate': 3.839395375896917e-07, 'epoch': 10.95}
 68%|██████▊   | 254340/371472 [9:11:10<9:02:21,  3.60it/s] 68%|██████▊   | 254341/371472 [9:11:10<8:43:16,  3.73it/s] 68%|██████▊   | 254342/371472 [9:11:10<8:32:19,  3.81it/s] 68%|██████▊   | 254343/371472 [9:11:10<8:34:23,  3.80it/s] 68%|██████▊   | 254344/371472 [9:11:11<8:48:14,  3.70it/s] 68%|██████▊   | 254345/371472 [9:11:11<8:30:31,  3.82it/s] 68%|██████▊   | 254346/371472 [9:11:11<9:24:59,  3.46it/s] 68%|██████▊   | 254347/371472 [9:11:12<9:26:03,  3.45it/s] 68%|██████▊   | 254348/371472 [9:11:12<8:49:15,  3.69it/s] 68%|██████▊   | 254349/371472 [9:11:12<8:44:15,  3.72it/s] 68%|██████▊   | 254350/371472 [9:11:12<8:58:14,  3.63it/s] 68%|██████▊   | 254351/371472 [9:11:13<8:32:14,  3.81it/s] 68%|██████▊   | 254352/371472 [9:11:13<8:51:48,  3.67it/s] 68%|██████▊   | 254353/371472 [9:11:13<8:39:27,  3.76it/s] 68%|██████▊   | 254354/371472 [9:11:13<9:07:36,  3.56it/s] 68%|██████▊   | 254355/371472 [9:11:14<8:55:16,  3.65it/s] 68%|██████▊   | 254356/371472 [9:11:14<8:36:40,  3.78it/s] 68%|██████▊   | 254357/371472 [9:11:14<8:40:23,  3.75it/s] 68%|██████▊   | 254358/371472 [9:11:14<8:45:33,  3.71it/s] 68%|██████▊   | 254359/371472 [9:11:15<9:07:31,  3.56it/s] 68%|██████▊   | 254360/371472 [9:11:15<10:00:49,  3.25it/s]                                                            {'loss': 2.814, 'learning_rate': 3.8389105561421275e-07, 'epoch': 10.96}
 68%|██████▊   | 254360/371472 [9:11:15<10:00:49,  3.25it/s] 68%|██████▊   | 254361/371472 [9:11:15<9:28:48,  3.43it/s]  68%|██████▊   | 254362/371472 [9:11:16<9:26:18,  3.45it/s] 68%|██████▊   | 254363/371472 [9:11:16<10:03:04,  3.24it/s] 68%|██████▊   | 254364/371472 [9:11:16<10:00:34,  3.25it/s] 68%|██████▊   | 254365/371472 [9:11:17<9:50:58,  3.30it/s]  68%|██████▊   | 254366/371472 [9:11:17<9:27:03,  3.44it/s] 68%|██████▊   | 254367/371472 [9:11:17<9:11:53,  3.54it/s] 68%|██████▊   | 254368/371472 [9:11:17<9:16:26,  3.51it/s] 68%|██████▊   | 254369/371472 [9:11:18<9:21:24,  3.48it/s] 68%|██████▊   | 254370/371472 [9:11:18<9:58:19,  3.26it/s] 68%|██████▊   | 254371/371472 [9:11:18<10:25:02,  3.12it/s] 68%|██████▊   | 254372/371472 [9:11:19<10:04:14,  3.23it/s] 68%|██████▊   | 254373/371472 [9:11:19<9:17:48,  3.50it/s]  68%|██████▊   | 254374/371472 [9:11:19<10:06:18,  3.22it/s] 68%|██████▊   | 254375/371472 [9:11:20<10:47:04,  3.02it/s] 68%|██████▊   | 254376/371472 [9:11:20<9:50:05,  3.31it/s]  68%|██████▊   | 254377/371472 [9:11:20<9:49:56,  3.31it/s] 68%|██████▊   | 254378/371472 [9:11:20<9:28:49,  3.43it/s] 68%|██████▊   | 254379/371472 [9:11:21<9:18:27,  3.49it/s] 68%|██████▊   | 254380/371472 [9:11:21<9:14:41,  3.52it/s]                                                           {'loss': 2.8547, 'learning_rate': 3.838425736387339e-07, 'epoch': 10.96}
 68%|██████▊   | 254380/371472 [9:11:21<9:14:41,  3.52it/s] 68%|██████▊   | 254381/371472 [9:11:21<9:21:45,  3.47it/s] 68%|██████▊   | 254382/371472 [9:11:22<9:49:25,  3.31it/s] 68%|██████▊   | 254383/371472 [9:11:22<9:17:17,  3.50it/s] 68%|██████▊   | 254384/371472 [9:11:22<9:07:31,  3.56it/s] 68%|██████▊   | 254385/371472 [9:11:22<9:04:16,  3.59it/s] 68%|██████▊   | 254386/371472 [9:11:23<9:07:22,  3.57it/s] 68%|██████▊   | 254387/371472 [9:11:23<9:13:24,  3.53it/s] 68%|██████▊   | 254388/371472 [9:11:23<9:17:38,  3.50it/s] 68%|██████▊   | 254389/371472 [9:11:24<8:47:37,  3.70it/s] 68%|██████▊   | 254390/371472 [9:11:24<9:54:31,  3.28it/s] 68%|██████▊   | 254391/371472 [9:11:24<9:23:44,  3.46it/s] 68%|██████▊   | 254392/371472 [9:11:24<9:11:09,  3.54it/s] 68%|██████▊   | 254393/371472 [9:11:25<9:08:29,  3.56it/s] 68%|██████▊   | 254394/371472 [9:11:25<8:46:27,  3.71it/s] 68%|██████▊   | 254395/371472 [9:11:25<8:35:03,  3.79it/s] 68%|██████▊   | 254396/371472 [9:11:26<8:44:09,  3.72it/s] 68%|██████▊   | 254397/371472 [9:11:26<8:31:33,  3.81it/s] 68%|██████▊   | 254398/371472 [9:11:26<8:42:43,  3.73it/s] 68%|██████▊   | 254399/371472 [9:11:26<8:41:05,  3.74it/s] 68%|██████▊   | 254400/371472 [9:11:27<8:57:56,  3.63it/s]                                                           {'loss': 2.7772, 'learning_rate': 3.8379409166325495e-07, 'epoch': 10.96}
 68%|██████▊   | 254400/371472 [9:11:27<8:57:56,  3.63it/s] 68%|██████▊   | 254401/371472 [9:11:27<9:10:52,  3.54it/s] 68%|██████▊   | 254402/371472 [9:11:27<8:44:15,  3.72it/s] 68%|██████▊   | 254403/371472 [9:11:27<8:41:04,  3.74it/s] 68%|██████▊   | 254404/371472 [9:11:28<8:25:09,  3.86it/s] 68%|██████▊   | 254405/371472 [9:11:28<8:13:03,  3.96it/s] 68%|██████▊   | 254406/371472 [9:11:28<8:23:29,  3.88it/s] 68%|██████▊   | 254407/371472 [9:11:28<8:32:40,  3.81it/s] 68%|██████▊   | 254408/371472 [9:11:29<8:15:54,  3.93it/s] 68%|██████▊   | 254409/371472 [9:11:29<8:28:13,  3.84it/s] 68%|██████▊   | 254410/371472 [9:11:29<8:27:20,  3.85it/s] 68%|██████▊   | 254411/371472 [9:11:29<8:18:39,  3.91it/s] 68%|██████▊   | 254412/371472 [9:11:30<8:14:53,  3.94it/s] 68%|██████▊   | 254413/371472 [9:11:30<8:33:57,  3.80it/s] 68%|██████▊   | 254414/371472 [9:11:30<8:52:56,  3.66it/s] 68%|██████▊   | 254415/371472 [9:11:31<8:33:10,  3.80it/s] 68%|██████▊   | 254416/371472 [9:11:31<8:52:07,  3.67it/s] 68%|██████▊   | 254417/371472 [9:11:31<8:49:28,  3.68it/s] 68%|██████▊   | 254418/371472 [9:11:31<8:21:48,  3.89it/s] 68%|██████▊   | 254419/371472 [9:11:32<8:24:20,  3.87it/s] 68%|██████▊   | 254420/371472 [9:11:32<8:40:01,  3.75it/s]                                                           {'loss': 2.8506, 'learning_rate': 3.8374560968777613e-07, 'epoch': 10.96}
 68%|██████▊   | 254420/371472 [9:11:32<8:40:01,  3.75it/s] 68%|██████▊   | 254421/371472 [9:11:32<8:50:49,  3.68it/s] 68%|██████▊   | 254422/371472 [9:11:32<8:40:19,  3.75it/s] 68%|██████▊   | 254423/371472 [9:11:33<8:43:50,  3.72it/s] 68%|██████▊   | 254424/371472 [9:11:33<8:21:48,  3.89it/s] 68%|██████▊   | 254425/371472 [9:11:33<8:22:23,  3.88it/s] 68%|██████▊   | 254426/371472 [9:11:33<8:26:32,  3.85it/s] 68%|██████▊   | 254427/371472 [9:11:34<8:14:25,  3.95it/s] 68%|██████▊   | 254428/371472 [9:11:34<8:14:32,  3.94it/s] 68%|██████▊   | 254429/371472 [9:11:34<9:02:15,  3.60it/s] 68%|██████▊   | 254430/371472 [9:11:34<8:42:24,  3.73it/s] 68%|██████▊   | 254431/371472 [9:11:35<8:34:48,  3.79it/s] 68%|██████▊   | 254432/371472 [9:11:35<9:24:50,  3.45it/s] 68%|██████▊   | 254433/371472 [9:11:35<9:37:18,  3.38it/s] 68%|██████▊   | 254434/371472 [9:11:36<9:36:42,  3.38it/s] 68%|██████▊   | 254435/371472 [9:11:36<9:08:18,  3.56it/s] 68%|██████▊   | 254436/371472 [9:11:36<9:07:19,  3.56it/s] 68%|██████▊   | 254437/371472 [9:11:37<9:16:05,  3.51it/s] 68%|██████▊   | 254438/371472 [9:11:37<9:33:38,  3.40it/s] 68%|██████▊   | 254439/371472 [9:11:37<9:13:06,  3.53it/s] 68%|██████▊   | 254440/371472 [9:11:37<9:29:08,  3.43it/s]                                                           {'loss': 2.8753, 'learning_rate': 3.8369712771229715e-07, 'epoch': 10.96}
 68%|██████▊   | 254440/371472 [9:11:37<9:29:08,  3.43it/s] 68%|██████▊   | 254441/371472 [9:11:38<9:07:53,  3.56it/s] 68%|██████▊   | 254442/371472 [9:11:38<9:07:29,  3.56it/s] 68%|██████▊   | 254443/371472 [9:11:38<8:49:05,  3.69it/s] 68%|██████▊   | 254444/371472 [9:11:38<8:38:00,  3.77it/s] 68%|██████▊   | 254445/371472 [9:11:39<9:03:02,  3.59it/s] 68%|██████▊   | 254446/371472 [9:11:39<9:21:26,  3.47it/s] 68%|██████▊   | 254447/371472 [9:11:39<9:13:27,  3.52it/s] 68%|██████▊   | 254448/371472 [9:11:40<8:41:46,  3.74it/s] 68%|██████▊   | 254449/371472 [9:11:40<8:59:03,  3.62it/s] 68%|██████▊   | 254450/371472 [9:11:40<8:42:45,  3.73it/s] 68%|██████▊   | 254451/371472 [9:11:40<8:22:21,  3.88it/s] 68%|██████▊   | 254452/371472 [9:11:41<8:07:54,  4.00it/s] 68%|██████▊   | 254453/371472 [9:11:41<8:12:58,  3.96it/s] 68%|██████▊   | 254454/371472 [9:11:41<8:06:58,  4.00it/s] 68%|██████▊   | 254455/371472 [9:11:41<8:30:30,  3.82it/s] 68%|██████▊   | 254456/371472 [9:11:42<8:51:59,  3.67it/s] 68%|██████▊   | 254457/371472 [9:11:42<8:34:35,  3.79it/s] 68%|██████▊   | 254458/371472 [9:11:42<8:32:02,  3.81it/s] 69%|██████▊   | 254459/371472 [9:11:42<8:41:35,  3.74it/s] 69%|██████▊   | 254460/371472 [9:11:43<9:31:56,  3.41it/s]                                                           {'loss': 2.8417, 'learning_rate': 3.836486457368183e-07, 'epoch': 10.96}
 69%|██████▊   | 254460/371472 [9:11:43<9:31:56,  3.41it/s] 69%|██████▊   | 254461/371472 [9:11:43<9:06:13,  3.57it/s] 69%|██████▊   | 254462/371472 [9:11:43<9:09:32,  3.55it/s] 69%|██████▊   | 254463/371472 [9:11:44<8:54:20,  3.65it/s] 69%|██████▊   | 254464/371472 [9:11:44<8:51:20,  3.67it/s] 69%|██████▊   | 254465/371472 [9:11:44<8:44:21,  3.72it/s] 69%|██████▊   | 254466/371472 [9:11:44<8:51:24,  3.67it/s] 69%|██████▊   | 254467/371472 [9:11:45<8:43:11,  3.73it/s] 69%|██████▊   | 254468/371472 [9:11:45<8:56:36,  3.63it/s] 69%|██████▊   | 254469/371472 [9:11:45<8:52:28,  3.66it/s] 69%|██████▊   | 254470/371472 [9:11:45<8:48:24,  3.69it/s] 69%|██████▊   | 254471/371472 [9:11:46<8:48:53,  3.69it/s] 69%|██████▊   | 254472/371472 [9:11:46<9:07:27,  3.56it/s] 69%|██████▊   | 254473/371472 [9:11:46<9:10:00,  3.55it/s] 69%|██████▊   | 254474/371472 [9:11:47<8:55:05,  3.64it/s] 69%|██████▊   | 254475/371472 [9:11:47<8:44:46,  3.72it/s] 69%|██████▊   | 254476/371472 [9:11:47<8:21:56,  3.88it/s] 69%|██████▊   | 254477/371472 [9:11:47<8:22:18,  3.88it/s] 69%|██████▊   | 254478/371472 [9:11:48<9:16:01,  3.51it/s] 69%|██████▊   | 254479/371472 [9:11:48<9:03:17,  3.59it/s] 69%|██████▊   | 254480/371472 [9:11:48<8:49:24,  3.68it/s]                                                           {'loss': 2.9394, 'learning_rate': 3.836001637613394e-07, 'epoch': 10.96}
 69%|██████▊   | 254480/371472 [9:11:48<8:49:24,  3.68it/s] 69%|██████▊   | 254481/371472 [9:11:49<9:20:20,  3.48it/s] 69%|██████▊   | 254482/371472 [9:11:49<9:17:12,  3.50it/s] 69%|██████▊   | 254483/371472 [9:11:49<8:55:35,  3.64it/s] 69%|██████▊   | 254484/371472 [9:11:49<8:37:10,  3.77it/s] 69%|██████▊   | 254485/371472 [9:11:50<8:26:35,  3.85it/s] 69%|██████▊   | 254486/371472 [9:11:50<8:58:44,  3.62it/s] 69%|██████▊   | 254487/371472 [9:11:50<8:37:29,  3.77it/s] 69%|██████▊   | 254488/371472 [9:11:50<8:21:26,  3.89it/s] 69%|██████▊   | 254489/371472 [9:11:51<8:45:55,  3.71it/s] 69%|██████▊   | 254490/371472 [9:11:51<8:53:45,  3.65it/s] 69%|██████▊   | 254491/371472 [9:11:51<8:45:57,  3.71it/s] 69%|██████▊   | 254492/371472 [9:11:51<8:37:13,  3.77it/s] 69%|██████▊   | 254493/371472 [9:11:52<8:55:04,  3.64it/s] 69%|██████▊   | 254494/371472 [9:11:52<9:44:43,  3.33it/s] 69%|██████▊   | 254495/371472 [9:11:52<9:31:17,  3.41it/s] 69%|██████▊   | 254496/371472 [9:11:53<9:11:17,  3.54it/s] 69%|██████▊   | 254497/371472 [9:11:53<9:05:03,  3.58it/s] 69%|██████▊   | 254498/371472 [9:11:53<9:31:56,  3.41it/s] 69%|██████▊   | 254499/371472 [9:11:54<9:24:30,  3.45it/s] 69%|██████▊   | 254500/371472 [9:11:54<8:52:58,  3.66it/s]                                                           {'loss': 2.945, 'learning_rate': 3.835516817858604e-07, 'epoch': 10.96}
 69%|██████▊   | 254500/371472 [9:11:54<8:52:58,  3.66it/s] 69%|██████▊   | 254501/371472 [9:11:54<8:46:49,  3.70it/s] 69%|██████▊   | 254502/371472 [9:11:54<8:54:00,  3.65it/s] 69%|██████▊   | 254503/371472 [9:11:55<9:08:15,  3.56it/s] 69%|██████▊   | 254504/371472 [9:11:55<8:46:25,  3.70it/s] 69%|██████▊   | 254505/371472 [9:11:55<8:34:12,  3.79it/s] 69%|██████▊   | 254506/371472 [9:11:55<8:55:42,  3.64it/s] 69%|██████▊   | 254507/371472 [9:11:56<9:03:26,  3.59it/s] 69%|██████▊   | 254508/371472 [9:11:56<10:17:51,  3.16it/s] 69%|██████▊   | 254509/371472 [9:11:56<10:46:39,  3.01it/s] 69%|██████▊   | 254510/371472 [9:11:57<10:19:21,  3.15it/s] 69%|██████▊   | 254511/371472 [9:11:57<10:09:38,  3.20it/s] 69%|██████▊   | 254512/371472 [9:11:57<9:39:11,  3.37it/s]  69%|██████▊   | 254513/371472 [9:11:58<9:59:48,  3.25it/s] 69%|██████▊   | 254514/371472 [9:11:58<9:31:03,  3.41it/s] 69%|██████▊   | 254515/371472 [9:11:58<9:14:34,  3.51it/s] 69%|██████▊   | 254516/371472 [9:11:58<9:12:15,  3.53it/s] 69%|██████▊   | 254517/371472 [9:11:59<9:00:28,  3.61it/s] 69%|██████▊   | 254518/371472 [9:11:59<9:11:59,  3.53it/s] 69%|██████▊   | 254519/371472 [9:11:59<9:00:02,  3.61it/s] 69%|██████▊   | 254520/371472 [9:11:59<8:43:38,  3.72it/s]                                                           {'loss': 2.7508, 'learning_rate': 3.835031998103816e-07, 'epoch': 10.96}
 69%|██████▊   | 254520/371472 [9:11:59<8:43:38,  3.72it/s] 69%|██████▊   | 254521/371472 [9:12:00<8:37:09,  3.77it/s] 69%|██████▊   | 254522/371472 [9:12:00<8:50:22,  3.68it/s] 69%|██████▊   | 254523/371472 [9:12:00<8:35:07,  3.78it/s] 69%|██████▊   | 254524/371472 [9:12:01<8:33:23,  3.80it/s] 69%|██████▊   | 254525/371472 [9:12:01<9:04:35,  3.58it/s] 69%|██████▊   | 254526/371472 [9:12:01<8:54:25,  3.65it/s] 69%|██████▊   | 254527/371472 [9:12:01<8:42:30,  3.73it/s] 69%|██████▊   | 254528/371472 [9:12:02<8:39:38,  3.75it/s] 69%|██████▊   | 254529/371472 [9:12:02<8:32:36,  3.80it/s] 69%|██████▊   | 254530/371472 [9:12:02<8:20:54,  3.89it/s] 69%|██████▊   | 254531/371472 [9:12:02<8:37:54,  3.76it/s] 69%|██████▊   | 254532/371472 [9:12:03<8:41:32,  3.74it/s] 69%|██████▊   | 254533/371472 [9:12:03<8:36:16,  3.78it/s] 69%|██████▊   | 254534/371472 [9:12:03<8:25:02,  3.86it/s] 69%|██████▊   | 254535/371472 [9:12:03<8:13:48,  3.95it/s] 69%|██████▊   | 254536/371472 [9:12:04<8:33:24,  3.80it/s] 69%|██████▊   | 254537/371472 [9:12:04<8:29:29,  3.83it/s] 69%|██████▊   | 254538/371472 [9:12:04<8:24:02,  3.87it/s] 69%|██████▊   | 254539/371472 [9:12:05<8:28:21,  3.83it/s] 69%|██████▊   | 254540/371472 [9:12:05<8:28:03,  3.84it/s]                                                           {'loss': 2.9123, 'learning_rate': 3.8345471783490266e-07, 'epoch': 10.96}
 69%|██████▊   | 254540/371472 [9:12:05<8:28:03,  3.84it/s] 69%|██████▊   | 254541/371472 [9:12:05<8:10:34,  3.97it/s] 69%|██████▊   | 254542/371472 [9:12:05<8:16:52,  3.92it/s] 69%|██████▊   | 254543/371472 [9:12:06<8:37:40,  3.76it/s] 69%|██████▊   | 254544/371472 [9:12:06<9:15:06,  3.51it/s] 69%|██████▊   | 254545/371472 [9:12:06<9:05:36,  3.57it/s] 69%|██████▊   | 254546/371472 [9:12:06<8:47:20,  3.70it/s] 69%|██████▊   | 254547/371472 [9:12:07<8:36:21,  3.77it/s] 69%|██████▊   | 254548/371472 [9:12:07<8:30:53,  3.81it/s] 69%|██████▊   | 254549/371472 [9:12:07<8:21:13,  3.89it/s] 69%|██████▊   | 254550/371472 [9:12:07<8:20:01,  3.90it/s] 69%|██████▊   | 254551/371472 [9:12:08<8:24:18,  3.86it/s] 69%|██████▊   | 254552/371472 [9:12:08<8:24:46,  3.86it/s] 69%|██████▊   | 254553/371472 [9:12:08<9:16:28,  3.50it/s] 69%|██████▊   | 254554/371472 [9:12:09<9:15:42,  3.51it/s] 69%|██████▊   | 254555/371472 [9:12:09<9:06:56,  3.56it/s] 69%|██████▊   | 254556/371472 [9:12:09<8:49:45,  3.68it/s] 69%|██████▊   | 254557/371472 [9:12:09<8:40:41,  3.74it/s] 69%|██████▊   | 254558/371472 [9:12:10<8:58:58,  3.62it/s] 69%|██████▊   | 254559/371472 [9:12:10<8:44:20,  3.72it/s] 69%|██████▊   | 254560/371472 [9:12:10<8:47:50,  3.69it/s]                                                           {'loss': 2.8882, 'learning_rate': 3.834062358594238e-07, 'epoch': 10.96}
 69%|██████▊   | 254560/371472 [9:12:10<8:47:50,  3.69it/s] 69%|██████▊   | 254561/371472 [9:12:10<8:31:35,  3.81it/s] 69%|██████▊   | 254562/371472 [9:12:11<8:45:58,  3.70it/s] 69%|██████▊   | 254563/371472 [9:12:11<9:48:29,  3.31it/s] 69%|██████▊   | 254564/371472 [9:12:11<10:03:42,  3.23it/s] 69%|██████▊   | 254565/371472 [9:12:12<9:42:30,  3.34it/s]  69%|██████▊   | 254566/371472 [9:12:12<9:25:37,  3.44it/s] 69%|██████▊   | 254567/371472 [9:12:12<8:56:26,  3.63it/s] 69%|██████▊   | 254568/371472 [9:12:12<8:49:40,  3.68it/s] 69%|██████▊   | 254569/371472 [9:12:13<8:33:41,  3.79it/s] 69%|██████▊   | 254570/371472 [9:12:13<9:10:58,  3.54it/s] 69%|██████▊   | 254571/371472 [9:12:13<9:29:57,  3.42it/s] 69%|██████▊   | 254572/371472 [9:12:14<9:08:39,  3.55it/s] 69%|██████▊   | 254573/371472 [9:12:14<9:19:32,  3.48it/s] 69%|██████▊   | 254574/371472 [9:12:14<9:18:24,  3.49it/s] 69%|██████▊   | 254575/371472 [9:12:15<9:51:02,  3.30it/s] 69%|██████▊   | 254576/371472 [9:12:15<9:26:03,  3.44it/s] 69%|██████▊   | 254577/371472 [9:12:15<8:54:49,  3.64it/s] 69%|██████▊   | 254578/371472 [9:12:15<8:50:05,  3.68it/s] 69%|██████▊   | 254579/371472 [9:12:16<8:40:18,  3.74it/s] 69%|██████▊   | 254580/371472 [9:12:16<8:29:49,  3.82it/s]                                                           {'loss': 2.8665, 'learning_rate': 3.8335775388394486e-07, 'epoch': 10.97}
 69%|██████▊   | 254580/371472 [9:12:16<8:29:49,  3.82it/s] 69%|██████▊   | 254581/371472 [9:12:16<8:29:14,  3.83it/s] 69%|██████▊   | 254582/371472 [9:12:16<8:24:29,  3.86it/s] 69%|██████▊   | 254583/371472 [9:12:17<8:45:25,  3.71it/s] 69%|██████▊   | 254584/371472 [9:12:17<10:34:08,  3.07it/s] 69%|██████▊   | 254585/371472 [9:12:17<9:51:27,  3.29it/s]  69%|██████▊   | 254586/371472 [9:12:18<9:32:20,  3.40it/s] 69%|██████▊   | 254587/371472 [9:12:18<9:28:55,  3.42it/s] 69%|██████▊   | 254588/371472 [9:12:18<9:08:34,  3.55it/s] 69%|██████▊   | 254589/371472 [9:12:18<9:04:28,  3.58it/s] 69%|██████▊   | 254590/371472 [9:12:19<9:01:49,  3.60it/s] 69%|██████▊   | 254591/371472 [9:12:19<8:38:50,  3.75it/s] 69%|██████▊   | 254592/371472 [9:12:19<9:10:48,  3.54it/s] 69%|██████▊   | 254593/371472 [9:12:20<9:18:28,  3.49it/s] 69%|██████▊   | 254594/371472 [9:12:20<8:47:42,  3.69it/s] 69%|██████▊   | 254595/371472 [9:12:20<8:34:31,  3.79it/s] 69%|██████▊   | 254596/371472 [9:12:20<8:38:24,  3.76it/s] 69%|██████▊   | 254597/371472 [9:12:21<9:00:13,  3.61it/s] 69%|██████▊   | 254598/371472 [9:12:21<8:45:32,  3.71it/s] 69%|██████▊   | 254599/371472 [9:12:21<8:45:39,  3.71it/s] 69%|██████▊   | 254600/371472 [9:12:21<9:07:28,  3.56it/s]                                                           {'loss': 2.8234, 'learning_rate': 3.8330927190846604e-07, 'epoch': 10.97}
 69%|██████▊   | 254600/371472 [9:12:21<9:07:28,  3.56it/s] 69%|██████▊   | 254601/371472 [9:12:22<8:45:04,  3.71it/s] 69%|██████▊   | 254602/371472 [9:12:22<8:42:32,  3.73it/s] 69%|██████▊   | 254603/371472 [9:12:22<8:37:34,  3.76it/s] 69%|██████▊   | 254604/371472 [9:12:22<8:27:55,  3.83it/s] 69%|██████▊   | 254605/371472 [9:12:23<8:26:31,  3.85it/s] 69%|██████▊   | 254606/371472 [9:12:23<8:50:25,  3.67it/s] 69%|██████▊   | 254607/371472 [9:12:23<8:31:31,  3.81it/s] 69%|██████▊   | 254608/371472 [9:12:24<8:41:03,  3.74it/s] 69%|██████▊   | 254609/371472 [9:12:24<8:30:18,  3.82it/s] 69%|██████▊   | 254610/371472 [9:12:24<8:26:27,  3.85it/s] 69%|██████▊   | 254611/371472 [9:12:24<8:09:42,  3.98it/s] 69%|██████▊   | 254612/371472 [9:12:25<8:32:42,  3.80it/s] 69%|██████▊   | 254613/371472 [9:12:25<8:41:39,  3.73it/s] 69%|██████▊   | 254614/371472 [9:12:25<8:57:33,  3.62it/s] 69%|██████▊   | 254615/371472 [9:12:25<8:39:14,  3.75it/s] 69%|██████▊   | 254616/371472 [9:12:26<9:00:47,  3.60it/s] 69%|██████▊   | 254617/371472 [9:12:26<9:06:53,  3.56it/s] 69%|██████▊   | 254618/371472 [9:12:26<8:48:59,  3.68it/s] 69%|██████▊   | 254619/371472 [9:12:26<8:26:16,  3.85it/s] 69%|██████▊   | 254620/371472 [9:12:27<8:32:07,  3.80it/s]                                                           {'loss': 3.0836, 'learning_rate': 3.832607899329871e-07, 'epoch': 10.97}
 69%|██████▊   | 254620/371472 [9:12:27<8:32:07,  3.80it/s] 69%|██████▊   | 254621/371472 [9:12:27<8:20:21,  3.89it/s] 69%|██████▊   | 254622/371472 [9:12:27<8:33:37,  3.79it/s] 69%|██████▊   | 254623/371472 [9:12:28<9:47:23,  3.32it/s] 69%|██████▊   | 254624/371472 [9:12:28<9:04:32,  3.58it/s] 69%|██████▊   | 254625/371472 [9:12:28<9:06:06,  3.57it/s] 69%|██████▊   | 254626/371472 [9:12:28<8:55:17,  3.64it/s] 69%|██████▊   | 254627/371472 [9:12:29<8:40:34,  3.74it/s] 69%|██████▊   | 254628/371472 [9:12:29<8:49:43,  3.68it/s] 69%|██████▊   | 254629/371472 [9:12:29<8:47:11,  3.69it/s] 69%|██████▊   | 254630/371472 [9:12:29<8:41:31,  3.73it/s] 69%|██████▊   | 254631/371472 [9:12:30<8:32:23,  3.80it/s] 69%|██████▊   | 254632/371472 [9:12:30<9:04:20,  3.58it/s] 69%|██████▊   | 254633/371472 [9:12:30<9:01:59,  3.59it/s] 69%|██████▊   | 254634/371472 [9:12:31<9:22:45,  3.46it/s] 69%|██████▊   | 254635/371472 [9:12:31<9:24:03,  3.45it/s] 69%|██████▊   | 254636/371472 [9:12:31<9:25:38,  3.44it/s] 69%|██████▊   | 254637/371472 [9:12:31<9:15:57,  3.50it/s] 69%|██████▊   | 254638/371472 [9:12:32<9:18:55,  3.48it/s] 69%|██████▊   | 254639/371472 [9:12:32<8:45:10,  3.71it/s] 69%|██████▊   | 254640/371472 [9:12:32<8:23:19,  3.87it/s]                                                           {'loss': 2.7296, 'learning_rate': 3.8321230795750823e-07, 'epoch': 10.97}
 69%|██████▊   | 254640/371472 [9:12:32<8:23:19,  3.87it/s] 69%|██████▊   | 254641/371472 [9:12:32<8:20:10,  3.89it/s] 69%|██████▊   | 254642/371472 [9:12:33<8:18:41,  3.90it/s] 69%|██████▊   | 254643/371472 [9:12:33<8:33:28,  3.79it/s] 69%|██████▊   | 254644/371472 [9:12:33<8:49:50,  3.67it/s] 69%|██████▊   | 254645/371472 [9:12:34<9:11:58,  3.53it/s] 69%|██████▊   | 254646/371472 [9:12:34<9:11:37,  3.53it/s] 69%|██████▊   | 254647/371472 [9:12:34<9:25:32,  3.44it/s] 69%|██████▊   | 254648/371472 [9:12:34<9:21:35,  3.47it/s] 69%|██████▊   | 254649/371472 [9:12:35<9:37:16,  3.37it/s] 69%|██████▊   | 254650/371472 [9:12:35<9:31:19,  3.41it/s] 69%|██████▊   | 254651/371472 [9:12:35<9:13:58,  3.51it/s] 69%|██████▊   | 254652/371472 [9:12:36<8:56:36,  3.63it/s] 69%|██████▊   | 254653/371472 [9:12:36<9:19:18,  3.48it/s] 69%|██████▊   | 254654/371472 [9:12:36<9:02:54,  3.59it/s] 69%|██████▊   | 254655/371472 [9:12:36<8:38:10,  3.76it/s] 69%|██████▊   | 254656/371472 [9:12:37<8:36:08,  3.77it/s] 69%|██████▊   | 254657/371472 [9:12:37<8:21:53,  3.88it/s] 69%|██████▊   | 254658/371472 [9:12:37<8:32:00,  3.80it/s] 69%|██████▊   | 254659/371472 [9:12:37<9:00:16,  3.60it/s] 69%|██████▊   | 254660/371472 [9:12:38<8:54:09,  3.64it/s]                                                           {'loss': 2.8029, 'learning_rate': 3.831638259820293e-07, 'epoch': 10.97}
 69%|██████▊   | 254660/371472 [9:12:38<8:54:09,  3.64it/s] 69%|██████▊   | 254661/371472 [9:12:38<9:00:43,  3.60it/s] 69%|██████▊   | 254662/371472 [9:12:38<9:54:01,  3.28it/s] 69%|██████▊   | 254663/371472 [9:12:39<9:25:24,  3.44it/s] 69%|██████▊   | 254664/371472 [9:12:39<9:03:53,  3.58it/s] 69%|██████▊   | 254665/371472 [9:12:39<9:19:56,  3.48it/s] 69%|██████▊   | 254666/371472 [9:12:40<9:06:48,  3.56it/s] 69%|██████▊   | 254667/371472 [9:12:40<8:47:53,  3.69it/s] 69%|██████▊   | 254668/371472 [9:12:40<8:43:27,  3.72it/s] 69%|██████▊   | 254669/371472 [9:12:40<8:37:22,  3.76it/s] 69%|██████▊   | 254670/371472 [9:12:41<8:37:31,  3.76it/s] 69%|██████▊   | 254671/371472 [9:12:41<8:39:00,  3.75it/s] 69%|██████▊   | 254672/371472 [9:12:41<8:35:40,  3.77it/s] 69%|██████▊   | 254673/371472 [9:12:41<9:15:48,  3.50it/s] 69%|██████▊   | 254674/371472 [9:12:42<9:18:30,  3.49it/s] 69%|██████▊   | 254675/371472 [9:12:42<9:24:00,  3.45it/s] 69%|██████▊   | 254676/371472 [9:12:42<8:59:53,  3.61it/s] 69%|██████▊   | 254677/371472 [9:12:42<8:48:22,  3.68it/s] 69%|██████▊   | 254678/371472 [9:12:43<8:47:52,  3.69it/s] 69%|██████▊   | 254679/371472 [9:12:43<8:27:55,  3.83it/s] 69%|██████▊   | 254680/371472 [9:12:43<8:41:41,  3.73it/s]                                                           {'loss': 2.9259, 'learning_rate': 3.831153440065505e-07, 'epoch': 10.97}
 69%|██████▊   | 254680/371472 [9:12:43<8:41:41,  3.73it/s] 69%|██████▊   | 254681/371472 [9:12:44<8:31:28,  3.81it/s] 69%|██████▊   | 254682/371472 [9:12:44<9:05:56,  3.57it/s] 69%|██████▊   | 254683/371472 [9:12:44<8:36:36,  3.77it/s] 69%|██████▊   | 254684/371472 [9:12:44<8:24:48,  3.86it/s] 69%|██████▊   | 254685/371472 [9:12:45<8:38:52,  3.75it/s] 69%|██████▊   | 254686/371472 [9:12:45<9:08:00,  3.55it/s] 69%|██████▊   | 254687/371472 [9:12:45<9:53:00,  3.28it/s] 69%|██████▊   | 254688/371472 [9:12:46<9:18:20,  3.49it/s] 69%|██████▊   | 254689/371472 [9:12:46<10:00:27,  3.24it/s] 69%|██████▊   | 254690/371472 [9:12:46<9:23:07,  3.46it/s]  69%|██████▊   | 254691/371472 [9:12:46<8:55:27,  3.63it/s] 69%|██████▊   | 254692/371472 [9:12:47<9:06:44,  3.56it/s] 69%|██████▊   | 254693/371472 [9:12:47<9:23:31,  3.45it/s] 69%|██████▊   | 254694/371472 [9:12:47<8:46:59,  3.69it/s] 69%|██████▊   | 254695/371472 [9:12:48<9:01:42,  3.59it/s] 69%|██████▊   | 254696/371472 [9:12:48<9:58:19,  3.25it/s] 69%|██████▊   | 254697/371472 [9:12:48<10:15:50,  3.16it/s] 69%|██████▊   | 254698/371472 [9:12:49<10:33:51,  3.07it/s] 69%|██████▊   | 254699/371472 [9:12:49<10:09:56,  3.19it/s] 69%|██████▊   | 254700/371472 [9:12:49<10:12:59,  3.17it/s]                                                            {'loss': 2.8765, 'learning_rate': 3.830668620310715e-07, 'epoch': 10.97}
 69%|██████▊   | 254700/371472 [9:12:49<10:12:59,  3.17it/s] 69%|██████▊   | 254701/371472 [9:12:49<9:46:38,  3.32it/s]  69%|██████▊   | 254702/371472 [9:12:50<9:10:47,  3.53it/s] 69%|██████▊   | 254703/371472 [9:12:50<9:25:56,  3.44it/s] 69%|██████▊   | 254704/371472 [9:12:50<9:42:11,  3.34it/s] 69%|██████▊   | 254705/371472 [9:12:51<9:41:07,  3.35it/s] 69%|██████▊   | 254706/371472 [9:12:51<9:36:08,  3.38it/s] 69%|██████▊   | 254707/371472 [9:12:51<9:50:41,  3.29it/s] 69%|██████▊   | 254708/371472 [9:12:51<9:32:18,  3.40it/s] 69%|██████▊   | 254709/371472 [9:12:52<9:22:10,  3.46it/s] 69%|██████▊   | 254710/371472 [9:12:52<9:27:07,  3.43it/s] 69%|██████▊   | 254711/371472 [9:12:52<9:01:16,  3.60it/s] 69%|██████▊   | 254712/371472 [9:12:53<8:43:13,  3.72it/s] 69%|██████▊   | 254713/371472 [9:12:53<9:28:09,  3.43it/s] 69%|██████▊   | 254714/371472 [9:12:53<9:03:31,  3.58it/s] 69%|██████▊   | 254715/371472 [9:12:53<9:19:34,  3.48it/s] 69%|██████▊   | 254716/371472 [9:12:54<9:15:08,  3.51it/s] 69%|██████▊   | 254717/371472 [9:12:54<9:22:59,  3.46it/s] 69%|██████▊   | 254718/371472 [9:12:54<9:53:00,  3.28it/s] 69%|██████▊   | 254719/371472 [9:12:55<9:24:07,  3.45it/s] 69%|██████▊   | 254720/371472 [9:12:55<9:35:42,  3.38it/s]                                                           {'loss': 2.6791, 'learning_rate': 3.830183800555927e-07, 'epoch': 10.97}
 69%|██████▊   | 254720/371472 [9:12:55<9:35:42,  3.38it/s] 69%|██████▊   | 254721/371472 [9:12:55<9:12:00,  3.53it/s] 69%|██████▊   | 254722/371472 [9:12:55<9:08:54,  3.54it/s] 69%|██████▊   | 254723/371472 [9:12:56<8:56:30,  3.63it/s] 69%|██████▊   | 254724/371472 [9:12:56<8:47:03,  3.69it/s] 69%|██████▊   | 254725/371472 [9:12:56<9:06:50,  3.56it/s] 69%|██████▊   | 254726/371472 [9:12:57<8:48:02,  3.68it/s] 69%|██████▊   | 254727/371472 [9:12:57<8:35:24,  3.78it/s] 69%|██████▊   | 254728/371472 [9:12:57<8:59:26,  3.61it/s] 69%|██████▊   | 254729/371472 [9:12:57<9:08:59,  3.54it/s] 69%|██████▊   | 254730/371472 [9:12:58<9:13:36,  3.51it/s] 69%|██████▊   | 254731/371472 [9:12:58<8:54:46,  3.64it/s] 69%|██████▊   | 254732/371472 [9:12:58<9:21:12,  3.47it/s] 69%|██████▊   | 254733/371472 [9:12:59<9:33:09,  3.39it/s] 69%|██████▊   | 254734/371472 [9:12:59<9:20:31,  3.47it/s] 69%|██████▊   | 254735/371472 [9:12:59<9:16:24,  3.50it/s] 69%|██████▊   | 254736/371472 [9:12:59<9:28:29,  3.42it/s] 69%|██████▊   | 254737/371472 [9:13:00<9:51:08,  3.29it/s] 69%|██████▊   | 254738/371472 [9:13:00<9:16:57,  3.49it/s] 69%|██████▊   | 254739/371472 [9:13:00<9:10:36,  3.53it/s] 69%|██████▊   | 254740/371472 [9:13:01<9:07:46,  3.55it/s]                                                           {'loss': 2.8286, 'learning_rate': 3.8296989808011375e-07, 'epoch': 10.97}
 69%|██████▊   | 254740/371472 [9:13:01<9:07:46,  3.55it/s] 69%|██████▊   | 254741/371472 [9:13:01<8:56:24,  3.63it/s] 69%|██████▊   | 254742/371472 [9:13:01<9:15:34,  3.50it/s] 69%|██████▊   | 254743/371472 [9:13:01<9:01:21,  3.59it/s] 69%|██████▊   | 254744/371472 [9:13:02<8:42:22,  3.72it/s] 69%|██████▊   | 254745/371472 [9:13:02<8:34:59,  3.78it/s] 69%|██████▊   | 254746/371472 [9:13:02<8:24:42,  3.85it/s] 69%|██████▊   | 254747/371472 [9:13:02<8:46:21,  3.70it/s] 69%|██████▊   | 254748/371472 [9:13:03<8:35:58,  3.77it/s] 69%|██████▊   | 254749/371472 [9:13:03<8:48:33,  3.68it/s] 69%|██████▊   | 254750/371472 [9:13:03<8:35:16,  3.78it/s] 69%|██████▊   | 254751/371472 [9:13:03<8:35:19,  3.78it/s] 69%|██████▊   | 254752/371472 [9:13:04<8:26:30,  3.84it/s] 69%|██████▊   | 254753/371472 [9:13:04<8:22:33,  3.87it/s] 69%|██████▊   | 254754/371472 [9:13:04<8:25:21,  3.85it/s] 69%|██████▊   | 254755/371472 [9:13:05<8:50:33,  3.67it/s] 69%|██████▊   | 254756/371472 [9:13:05<8:39:06,  3.75it/s] 69%|██████▊   | 254757/371472 [9:13:05<8:20:59,  3.88it/s] 69%|██████▊   | 254758/371472 [9:13:05<8:48:42,  3.68it/s] 69%|██████▊   | 254759/371472 [9:13:06<9:11:34,  3.53it/s] 69%|██████▊   | 254760/371472 [9:13:06<9:00:27,  3.60it/s]                                                           {'loss': 3.0006, 'learning_rate': 3.8292141610463487e-07, 'epoch': 10.97}
 69%|██████▊   | 254760/371472 [9:13:06<9:00:27,  3.60it/s] 69%|██████▊   | 254761/371472 [9:13:06<8:54:59,  3.64it/s] 69%|██████▊   | 254762/371472 [9:13:06<9:05:17,  3.57it/s] 69%|██████▊   | 254763/371472 [9:13:07<8:49:34,  3.67it/s] 69%|██████▊   | 254764/371472 [9:13:07<8:49:09,  3.68it/s] 69%|██████▊   | 254765/371472 [9:13:07<9:02:49,  3.58it/s] 69%|██████▊   | 254766/371472 [9:13:08<8:46:32,  3.69it/s] 69%|██████▊   | 254767/371472 [9:13:08<8:50:09,  3.67it/s] 69%|██████▊   | 254768/371472 [9:13:08<8:50:43,  3.66it/s] 69%|██████▊   | 254769/371472 [9:13:08<8:46:14,  3.70it/s] 69%|██████▊   | 254770/371472 [9:13:09<9:27:09,  3.43it/s] 69%|██████▊   | 254771/371472 [9:13:09<9:27:30,  3.43it/s] 69%|██████▊   | 254772/371472 [9:13:09<9:00:44,  3.60it/s] 69%|██████▊   | 254773/371472 [9:13:10<8:51:27,  3.66it/s] 69%|██████▊   | 254774/371472 [9:13:10<8:57:34,  3.62it/s] 69%|██████▊   | 254775/371472 [9:13:10<8:49:44,  3.67it/s] 69%|██████▊   | 254776/371472 [9:13:10<8:45:02,  3.70it/s] 69%|██████▊   | 254777/371472 [9:13:11<8:31:31,  3.80it/s] 69%|██████▊   | 254778/371472 [9:13:11<8:26:49,  3.84it/s] 69%|██████▊   | 254779/371472 [9:13:11<8:18:36,  3.90it/s] 69%|██████▊   | 254780/371472 [9:13:11<8:19:31,  3.89it/s]                                                           {'loss': 2.8118, 'learning_rate': 3.8287293412915594e-07, 'epoch': 10.97}
 69%|██████▊   | 254780/371472 [9:13:11<8:19:31,  3.89it/s] 69%|██████▊   | 254781/371472 [9:13:12<8:11:12,  3.96it/s] 69%|██████▊   | 254782/371472 [9:13:12<8:17:31,  3.91it/s] 69%|██████▊   | 254783/371472 [9:13:12<8:18:22,  3.90it/s] 69%|██████▊   | 254784/371472 [9:13:12<8:30:17,  3.81it/s] 69%|██████▊   | 254785/371472 [9:13:13<8:47:55,  3.68it/s] 69%|██████▊   | 254786/371472 [9:13:13<8:38:21,  3.75it/s] 69%|██████▊   | 254787/371472 [9:13:13<8:36:58,  3.76it/s] 69%|██████▊   | 254788/371472 [9:13:13<8:33:38,  3.79it/s] 69%|██████▊   | 254789/371472 [9:13:14<8:42:51,  3.72it/s] 69%|██████▊   | 254790/371472 [9:13:14<8:40:00,  3.74it/s] 69%|██████▊   | 254791/371472 [9:13:14<8:38:10,  3.75it/s] 69%|██████▊   | 254792/371472 [9:13:15<9:04:57,  3.57it/s] 69%|██████▊   | 254793/371472 [9:13:15<9:24:49,  3.44it/s] 69%|██████▊   | 254794/371472 [9:13:15<9:03:20,  3.58it/s] 69%|██████▊   | 254795/371472 [9:13:15<9:14:40,  3.51it/s] 69%|██████▊   | 254796/371472 [9:13:16<9:00:56,  3.59it/s] 69%|██████▊   | 254797/371472 [9:13:16<8:42:04,  3.72it/s] 69%|██████▊   | 254798/371472 [9:13:16<8:32:01,  3.80it/s] 69%|██████▊   | 254799/371472 [9:13:16<8:48:40,  3.68it/s] 69%|██████▊   | 254800/371472 [9:13:17<8:47:21,  3.69it/s]                                                           {'loss': 2.7945, 'learning_rate': 3.828244521536771e-07, 'epoch': 10.97}
 69%|██████▊   | 254800/371472 [9:13:17<8:47:21,  3.69it/s] 69%|██████▊   | 254801/371472 [9:13:17<8:54:20,  3.64it/s] 69%|██████▊   | 254802/371472 [9:13:17<9:20:03,  3.47it/s] 69%|██████▊   | 254803/371472 [9:13:18<9:19:08,  3.48it/s] 69%|██████▊   | 254804/371472 [9:13:18<9:29:52,  3.41it/s] 69%|██████▊   | 254805/371472 [9:13:18<9:56:34,  3.26it/s] 69%|██████▊   | 254806/371472 [9:13:19<9:36:38,  3.37it/s] 69%|██████▊   | 254807/371472 [9:13:19<9:27:57,  3.42it/s] 69%|██████▊   | 254808/371472 [9:13:19<9:07:21,  3.55it/s] 69%|██████▊   | 254809/371472 [9:13:19<8:55:23,  3.63it/s] 69%|██████▊   | 254810/371472 [9:13:20<8:45:43,  3.70it/s] 69%|██████▊   | 254811/371472 [9:13:20<8:38:01,  3.75it/s] 69%|██████▊   | 254812/371472 [9:13:20<8:33:37,  3.79it/s] 69%|██████▊   | 254813/371472 [9:13:20<8:31:17,  3.80it/s] 69%|██████▊   | 254814/371472 [9:13:21<8:17:44,  3.91it/s] 69%|██████▊   | 254815/371472 [9:13:21<8:50:25,  3.67it/s] 69%|██████▊   | 254816/371472 [9:13:21<8:28:14,  3.83it/s] 69%|██████▊   | 254817/371472 [9:13:21<8:52:30,  3.65it/s] 69%|██████▊   | 254818/371472 [9:13:22<9:00:54,  3.59it/s] 69%|██████▊   | 254819/371472 [9:13:22<9:34:51,  3.38it/s] 69%|██████▊   | 254820/371472 [9:13:22<9:37:02,  3.37it/s]                                                           {'loss': 2.7572, 'learning_rate': 3.8277597017819814e-07, 'epoch': 10.98}
 69%|██████▊   | 254820/371472 [9:13:22<9:37:02,  3.37it/s] 69%|██████▊   | 254821/371472 [9:13:23<9:02:48,  3.58it/s] 69%|██████▊   | 254822/371472 [9:13:23<8:39:13,  3.74it/s] 69%|██████▊   | 254823/371472 [9:13:23<8:40:02,  3.74it/s] 69%|██████▊   | 254824/371472 [9:13:23<8:39:09,  3.74it/s] 69%|██████▊   | 254825/371472 [9:13:24<9:35:37,  3.38it/s] 69%|██████▊   | 254826/371472 [9:13:24<9:42:58,  3.33it/s] 69%|██████▊   | 254827/371472 [9:13:24<9:25:19,  3.44it/s] 69%|██████▊   | 254828/371472 [9:13:25<9:04:40,  3.57it/s] 69%|██████▊   | 254829/371472 [9:13:25<9:09:47,  3.54it/s] 69%|██████▊   | 254830/371472 [9:13:25<8:59:35,  3.60it/s] 69%|██████▊   | 254831/371472 [9:13:25<8:48:06,  3.68it/s] 69%|██████▊   | 254832/371472 [9:13:26<8:51:29,  3.66it/s] 69%|██████▊   | 254833/371472 [9:13:26<9:11:41,  3.52it/s] 69%|██████▊   | 254834/371472 [9:13:26<8:59:46,  3.60it/s] 69%|██████▊   | 254835/371472 [9:13:27<9:02:46,  3.58it/s] 69%|██████▊   | 254836/371472 [9:13:27<9:07:21,  3.55it/s] 69%|██████▊   | 254837/371472 [9:13:27<9:06:37,  3.56it/s] 69%|██████▊   | 254838/371472 [9:13:27<9:28:47,  3.42it/s] 69%|██████▊   | 254839/371472 [9:13:28<9:43:36,  3.33it/s] 69%|██████▊   | 254840/371472 [9:13:28<9:43:14,  3.33it/s]                                                           {'loss': 2.7257, 'learning_rate': 3.827274882027193e-07, 'epoch': 10.98}
 69%|██████▊   | 254840/371472 [9:13:28<9:43:14,  3.33it/s] 69%|██████▊   | 254841/371472 [9:13:28<9:17:45,  3.49it/s] 69%|██████▊   | 254842/371472 [9:13:29<9:17:28,  3.49it/s] 69%|██████▊   | 254843/371472 [9:13:29<9:09:50,  3.54it/s] 69%|██████▊   | 254844/371472 [9:13:29<9:32:16,  3.40it/s] 69%|██████▊   | 254845/371472 [9:13:30<9:38:45,  3.36it/s] 69%|██████▊   | 254846/371472 [9:13:30<10:06:53,  3.20it/s] 69%|██████▊   | 254847/371472 [9:13:30<10:14:37,  3.16it/s] 69%|██████▊   | 254848/371472 [9:13:30<9:35:39,  3.38it/s]  69%|██████▊   | 254849/371472 [9:13:31<9:05:26,  3.56it/s] 69%|██████▊   | 254850/371472 [9:13:31<9:02:50,  3.58it/s] 69%|██████▊   | 254851/371472 [9:13:31<8:51:20,  3.66it/s] 69%|██████▊   | 254852/371472 [9:13:31<8:39:32,  3.74it/s] 69%|██████▊   | 254853/371472 [9:13:32<9:23:05,  3.45it/s] 69%|██████▊   | 254854/371472 [9:13:32<8:54:46,  3.63it/s] 69%|██████▊   | 254855/371472 [9:13:32<9:05:04,  3.57it/s] 69%|██████▊   | 254856/371472 [9:13:33<8:41:33,  3.73it/s] 69%|██████▊   | 254857/371472 [9:13:33<9:03:53,  3.57it/s] 69%|██████▊   | 254858/371472 [9:13:33<9:01:09,  3.59it/s] 69%|██████▊   | 254859/371472 [9:13:33<9:12:04,  3.52it/s] 69%|██████▊   | 254860/371472 [9:13:34<8:57:17,  3.62it/s]                                                           {'loss': 2.8034, 'learning_rate': 3.826790062272404e-07, 'epoch': 10.98}
 69%|██████▊   | 254860/371472 [9:13:34<8:57:17,  3.62it/s] 69%|██████▊   | 254861/371472 [9:13:34<9:13:48,  3.51it/s] 69%|██████▊   | 254862/371472 [9:13:34<8:56:11,  3.62it/s] 69%|██████▊   | 254863/371472 [9:13:35<8:37:46,  3.75it/s] 69%|██████▊   | 254864/371472 [9:13:35<8:57:10,  3.62it/s] 69%|██████▊   | 254865/371472 [9:13:35<9:13:47,  3.51it/s] 69%|██████▊   | 254866/371472 [9:13:35<8:47:02,  3.69it/s] 69%|██████▊   | 254867/371472 [9:13:36<8:22:25,  3.87it/s] 69%|██████▊   | 254868/371472 [9:13:36<8:43:42,  3.71it/s] 69%|██████▊   | 254869/371472 [9:13:36<9:05:11,  3.56it/s] 69%|██████▊   | 254870/371472 [9:13:36<8:46:22,  3.69it/s] 69%|██████▊   | 254871/371472 [9:13:37<8:51:48,  3.65it/s] 69%|██████▊   | 254872/371472 [9:13:37<10:02:42,  3.22it/s] 69%|██████▊   | 254873/371472 [9:13:37<10:04:49,  3.21it/s] 69%|██████▊   | 254874/371472 [9:13:38<10:12:38,  3.17it/s] 69%|██████▊   | 254875/371472 [9:13:38<9:32:54,  3.39it/s]  69%|██████▊   | 254876/371472 [9:13:38<9:26:53,  3.43it/s] 69%|██████▊   | 254877/371472 [9:13:39<9:55:24,  3.26it/s] 69%|██████▊   | 254878/371472 [9:13:39<9:30:28,  3.41it/s] 69%|██████▊   | 254879/371472 [9:13:39<9:30:28,  3.41it/s] 69%|██████▊   | 254880/371472 [9:13:39<9:05:04,  3.56it/s]                                                           {'loss': 2.7029, 'learning_rate': 3.826305242517615e-07, 'epoch': 10.98}
 69%|██████▊   | 254880/371472 [9:13:39<9:05:04,  3.56it/s] 69%|██████▊   | 254881/371472 [9:13:40<10:12:38,  3.17it/s] 69%|██████▊   | 254882/371472 [9:13:40<9:40:16,  3.35it/s]  69%|██████▊   | 254883/371472 [9:13:40<9:01:04,  3.59it/s] 69%|██████▊   | 254884/371472 [9:13:41<8:39:13,  3.74it/s] 69%|██████▊   | 254885/371472 [9:13:41<8:27:36,  3.83it/s] 69%|██████▊   | 254886/371472 [9:13:41<8:52:14,  3.65it/s] 69%|██████▊   | 254887/371472 [9:13:41<8:39:47,  3.74it/s] 69%|██████▊   | 254888/371472 [9:13:42<8:44:58,  3.70it/s] 69%|██████▊   | 254889/371472 [9:13:42<8:55:04,  3.63it/s] 69%|██████▊   | 254890/371472 [9:13:42<9:05:28,  3.56it/s] 69%|██████▊   | 254891/371472 [9:13:42<8:47:13,  3.69it/s] 69%|██████▊   | 254892/371472 [9:13:43<9:23:34,  3.45it/s] 69%|██████▊   | 254893/371472 [9:13:43<8:57:37,  3.61it/s] 69%|██████▊   | 254894/371472 [9:13:43<8:42:19,  3.72it/s] 69%|██████▊   | 254895/371472 [9:13:44<8:31:59,  3.79it/s] 69%|██████▊   | 254896/371472 [9:13:44<8:56:34,  3.62it/s] 69%|██████▊   | 254897/371472 [9:13:44<8:46:24,  3.69it/s] 69%|██████▊   | 254898/371472 [9:13:44<8:54:16,  3.64it/s] 69%|██████▊   | 254899/371472 [9:13:45<8:58:58,  3.60it/s] 69%|██████▊   | 254900/371472 [9:13:45<9:05:23,  3.56it/s]                                                           {'loss': 2.8751, 'learning_rate': 3.825820422762826e-07, 'epoch': 10.98}
 69%|██████▊   | 254900/371472 [9:13:45<9:05:23,  3.56it/s] 69%|██████▊   | 254901/371472 [9:13:45<8:42:29,  3.72it/s] 69%|██████▊   | 254902/371472 [9:13:46<8:49:19,  3.67it/s] 69%|██████▊   | 254903/371472 [9:13:46<8:33:41,  3.78it/s] 69%|██████▊   | 254904/371472 [9:13:46<8:35:46,  3.77it/s] 69%|██████▊   | 254905/371472 [9:13:46<8:51:08,  3.66it/s] 69%|██████▊   | 254906/371472 [9:13:47<9:04:32,  3.57it/s] 69%|██████▊   | 254907/371472 [9:13:47<9:21:27,  3.46it/s] 69%|██████▊   | 254908/371472 [9:13:47<9:09:06,  3.54it/s] 69%|██████▊   | 254909/371472 [9:13:47<8:43:00,  3.71it/s] 69%|██████▊   | 254910/371472 [9:13:48<8:51:27,  3.66it/s] 69%|██████▊   | 254911/371472 [9:13:48<8:28:52,  3.82it/s] 69%|██████▊   | 254912/371472 [9:13:48<8:22:53,  3.86it/s] 69%|██████▊   | 254913/371472 [9:13:49<11:53:22,  2.72it/s] 69%|██████▊   | 254914/371472 [9:13:49<10:45:34,  3.01it/s] 69%|██████▊   | 254915/371472 [9:13:49<9:59:29,  3.24it/s]  69%|██████▊   | 254916/371472 [9:13:50<9:28:22,  3.42it/s] 69%|██████▊   | 254917/371472 [9:13:50<9:08:02,  3.54it/s] 69%|██████▊   | 254918/371472 [9:13:50<8:42:08,  3.72it/s] 69%|██████▊   | 254919/371472 [9:13:50<8:32:50,  3.79it/s] 69%|██████▊   | 254920/371472 [9:13:51<9:33:21,  3.39it/s]                                                           {'loss': 2.7634, 'learning_rate': 3.8253356030080376e-07, 'epoch': 10.98}
 69%|██████▊   | 254920/371472 [9:13:51<9:33:21,  3.39it/s] 69%|██████▊   | 254921/371472 [9:13:51<9:33:28,  3.39it/s] 69%|██████▊   | 254922/371472 [9:13:51<9:22:36,  3.45it/s] 69%|██████▊   | 254923/371472 [9:13:52<9:16:40,  3.49it/s] 69%|██████▊   | 254924/371472 [9:13:52<9:10:34,  3.53it/s] 69%|██████▊   | 254925/371472 [9:13:52<8:55:21,  3.63it/s] 69%|██████▊   | 254926/371472 [9:13:52<8:58:21,  3.61it/s] 69%|██████▊   | 254927/371472 [9:13:53<8:55:26,  3.63it/s] 69%|██████▊   | 254928/371472 [9:13:53<8:54:03,  3.64it/s] 69%|██████▊   | 254929/371472 [9:13:53<8:36:35,  3.76it/s] 69%|██████▊   | 254930/371472 [9:13:53<8:26:14,  3.84it/s] 69%|██████▊   | 254931/371472 [9:13:54<9:29:34,  3.41it/s] 69%|██████▊   | 254932/371472 [9:13:54<9:16:18,  3.49it/s] 69%|██████▊   | 254933/371472 [9:13:54<8:53:55,  3.64it/s] 69%|██████▊   | 254934/371472 [9:13:55<9:06:11,  3.56it/s] 69%|██████▊   | 254935/371472 [9:13:55<9:20:30,  3.47it/s] 69%|██████▊   | 254936/371472 [9:13:55<8:56:09,  3.62it/s] 69%|██████▊   | 254937/371472 [9:13:55<9:22:31,  3.45it/s] 69%|██████▊   | 254938/371472 [9:13:56<9:38:49,  3.36it/s] 69%|██████▊   | 254939/371472 [9:13:56<9:08:34,  3.54it/s] 69%|██████▊   | 254940/371472 [9:13:56<8:52:59,  3.64it/s]                                                           {'loss': 2.8483, 'learning_rate': 3.824850783253248e-07, 'epoch': 10.98}
 69%|██████▊   | 254940/371472 [9:13:56<8:52:59,  3.64it/s] 69%|██████▊   | 254941/371472 [9:13:57<8:57:48,  3.61it/s] 69%|██████▊   | 254942/371472 [9:13:57<8:50:33,  3.66it/s] 69%|██████▊   | 254943/371472 [9:13:57<10:36:13,  3.05it/s] 69%|██████▊   | 254944/371472 [9:13:58<9:50:35,  3.29it/s]  69%|██████▊   | 254945/371472 [9:13:58<9:15:26,  3.50it/s] 69%|██████▊   | 254946/371472 [9:13:58<8:54:14,  3.64it/s] 69%|██████▊   | 254947/371472 [9:13:58<8:41:15,  3.73it/s] 69%|██████▊   | 254948/371472 [9:13:59<8:50:15,  3.66it/s] 69%|██████▊   | 254949/371472 [9:13:59<8:58:58,  3.60it/s] 69%|██████▊   | 254950/371472 [9:13:59<8:42:48,  3.71it/s] 69%|██████▊   | 254951/371472 [9:13:59<8:34:30,  3.77it/s] 69%|██████▊   | 254952/371472 [9:14:00<8:46:18,  3.69it/s] 69%|██████▊   | 254953/371472 [9:14:00<8:44:55,  3.70it/s] 69%|██████▊   | 254954/371472 [9:14:00<8:57:01,  3.62it/s] 69%|██████▊   | 254955/371472 [9:14:00<9:08:09,  3.54it/s] 69%|██████▊   | 254956/371472 [9:14:01<9:07:23,  3.55it/s] 69%|██████▊   | 254957/371472 [9:14:01<9:01:50,  3.58it/s] 69%|██████▊   | 254958/371472 [9:14:01<9:01:51,  3.58it/s] 69%|██████▊   | 254959/371472 [9:14:02<9:01:32,  3.59it/s] 69%|██████▊   | 254960/371472 [9:14:02<8:57:34,  3.61it/s]                                                           {'loss': 3.0447, 'learning_rate': 3.824365963498459e-07, 'epoch': 10.98}
 69%|██████▊   | 254960/371472 [9:14:02<8:57:34,  3.61it/s] 69%|██████▊   | 254961/371472 [9:14:02<9:01:43,  3.58it/s] 69%|██████▊   | 254962/371472 [9:14:02<9:34:42,  3.38it/s] 69%|██████▊   | 254963/371472 [9:14:03<9:30:05,  3.41it/s] 69%|██████▊   | 254964/371472 [9:14:03<9:02:24,  3.58it/s] 69%|██████▊   | 254965/371472 [9:14:03<8:51:45,  3.65it/s] 69%|██████▊   | 254966/371472 [9:14:04<8:46:37,  3.69it/s] 69%|██████▊   | 254967/371472 [9:14:04<9:02:05,  3.58it/s] 69%|██████▊   | 254968/371472 [9:14:04<9:03:30,  3.57it/s] 69%|██████▊   | 254969/371472 [9:14:04<8:50:05,  3.66it/s] 69%|██████▊   | 254970/371472 [9:14:05<9:04:33,  3.57it/s] 69%|██████▊   | 254971/371472 [9:14:05<9:02:10,  3.58it/s] 69%|██████▊   | 254972/371472 [9:14:05<8:50:35,  3.66it/s] 69%|██████▊   | 254973/371472 [9:14:06<9:22:17,  3.45it/s] 69%|██████▊   | 254974/371472 [9:14:06<9:09:05,  3.54it/s] 69%|██████▊   | 254975/371472 [9:14:06<8:50:43,  3.66it/s] 69%|██████▊   | 254976/371472 [9:14:06<8:55:35,  3.63it/s] 69%|██████▊   | 254977/371472 [9:14:07<9:08:11,  3.54it/s] 69%|██████▊   | 254978/371472 [9:14:07<9:16:51,  3.49it/s] 69%|██████▊   | 254979/371472 [9:14:07<9:51:50,  3.28it/s] 69%|██████▊   | 254980/371472 [9:14:08<9:24:19,  3.44it/s]                                                           {'loss': 2.7779, 'learning_rate': 3.8238811437436703e-07, 'epoch': 10.98}
 69%|██████▊   | 254980/371472 [9:14:08<9:24:19,  3.44it/s] 69%|██████▊   | 254981/371472 [9:14:08<9:20:53,  3.46it/s] 69%|██████▊   | 254982/371472 [9:14:08<8:56:13,  3.62it/s] 69%|██████▊   | 254983/371472 [9:14:08<8:44:09,  3.70it/s] 69%|██████▊   | 254984/371472 [9:14:09<8:41:53,  3.72it/s] 69%|██████▊   | 254985/371472 [9:14:09<8:36:58,  3.76it/s] 69%|██████▊   | 254986/371472 [9:14:09<8:38:03,  3.75it/s] 69%|██████▊   | 254987/371472 [9:14:09<8:45:35,  3.69it/s] 69%|██████▊   | 254988/371472 [9:14:10<8:52:43,  3.64it/s] 69%|██████▊   | 254989/371472 [9:14:10<8:56:25,  3.62it/s] 69%|██████▊   | 254990/371472 [9:14:10<9:15:28,  3.50it/s] 69%|██████▊   | 254991/371472 [9:14:11<9:16:00,  3.49it/s] 69%|██████▊   | 254992/371472 [9:14:11<9:13:24,  3.51it/s] 69%|██████▊   | 254993/371472 [9:14:11<9:18:31,  3.48it/s] 69%|██████▊   | 254994/371472 [9:14:11<8:48:52,  3.67it/s] 69%|██████▊   | 254995/371472 [9:14:12<9:55:24,  3.26it/s] 69%|██████▊   | 254996/371472 [9:14:12<9:18:46,  3.47it/s] 69%|██████▊   | 254997/371472 [9:14:12<9:26:03,  3.43it/s] 69%|██████▊   | 254998/371472 [9:14:13<9:12:30,  3.51it/s] 69%|██████▊   | 254999/371472 [9:14:13<9:26:57,  3.42it/s] 69%|██████▊   | 255000/371472 [9:14:13<9:10:03,  3.53it/s]                                                           {'loss': 2.8687, 'learning_rate': 3.8233963239888815e-07, 'epoch': 10.98}
 69%|██████▊   | 255000/371472 [9:14:13<9:10:03,  3.53it/s] 69%|██████▊   | 255001/371472 [9:14:13<8:48:04,  3.68it/s] 69%|██████▊   | 255002/371472 [9:14:14<9:07:35,  3.54it/s] 69%|██████▊   | 255003/371472 [9:14:14<8:40:35,  3.73it/s] 69%|██████▊   | 255004/371472 [9:14:14<9:13:05,  3.51it/s] 69%|██████▊   | 255005/371472 [9:14:15<9:25:26,  3.43it/s] 69%|██████▊   | 255006/371472 [9:14:15<9:18:16,  3.48it/s] 69%|██████▊   | 255007/371472 [9:14:15<8:56:35,  3.62it/s] 69%|██████▊   | 255008/371472 [9:14:15<9:00:12,  3.59it/s] 69%|██████▊   | 255009/371472 [9:14:16<9:01:51,  3.58it/s] 69%|██████▊   | 255010/371472 [9:14:16<8:58:46,  3.60it/s] 69%|██████▊   | 255011/371472 [9:14:16<8:44:43,  3.70it/s] 69%|██████▊   | 255012/371472 [9:14:16<8:48:06,  3.68it/s] 69%|██████▊   | 255013/371472 [9:14:17<8:37:17,  3.75it/s] 69%|██████▊   | 255014/371472 [9:14:17<8:46:13,  3.69it/s] 69%|██████▊   | 255015/371472 [9:14:17<9:05:40,  3.56it/s] 69%|██████▊   | 255016/371472 [9:14:18<9:01:07,  3.59it/s] 69%|██████▊   | 255017/371472 [9:14:18<8:43:35,  3.71it/s] 69%|██████▊   | 255018/371472 [9:14:18<8:42:39,  3.71it/s] 69%|██████▊   | 255019/371472 [9:14:18<9:05:45,  3.56it/s] 69%|██████▊   | 255020/371472 [9:14:19<8:43:34,  3.71it/s]                                                           {'loss': 2.9266, 'learning_rate': 3.822911504234092e-07, 'epoch': 10.98}
 69%|██████▊   | 255020/371472 [9:14:19<8:43:34,  3.71it/s] 69%|██████▊   | 255021/371472 [9:14:19<8:42:05,  3.72it/s] 69%|██████▊   | 255022/371472 [9:14:19<8:56:50,  3.62it/s] 69%|██████▊   | 255023/371472 [9:14:20<9:42:52,  3.33it/s] 69%|██████▊   | 255024/371472 [9:14:20<9:26:42,  3.42it/s] 69%|██████▊   | 255025/371472 [9:14:20<9:56:05,  3.26it/s] 69%|██████▊   | 255026/371472 [9:14:20<9:35:05,  3.37it/s] 69%|██████▊   | 255027/371472 [9:14:21<9:27:46,  3.42it/s] 69%|██████▊   | 255028/371472 [9:14:21<9:44:29,  3.32it/s] 69%|██████▊   | 255029/371472 [9:14:21<9:29:51,  3.41it/s] 69%|██████▊   | 255030/371472 [9:14:22<9:10:24,  3.53it/s] 69%|██████▊   | 255031/371472 [9:14:22<9:30:35,  3.40it/s] 69%|██████▊   | 255032/371472 [9:14:22<9:06:53,  3.55it/s] 69%|██████▊   | 255033/371472 [9:14:22<9:13:48,  3.50it/s] 69%|██████▊   | 255034/371472 [9:14:23<9:05:41,  3.56it/s] 69%|██████▊   | 255035/371472 [9:14:23<8:51:17,  3.65it/s] 69%|██████▊   | 255036/371472 [9:14:23<8:46:40,  3.68it/s] 69%|██████▊   | 255037/371472 [9:14:23<8:31:49,  3.79it/s] 69%|██████▊   | 255038/371472 [9:14:24<8:55:09,  3.63it/s] 69%|██████▊   | 255039/371472 [9:14:24<8:53:13,  3.64it/s] 69%|██████▊   | 255040/371472 [9:14:24<9:00:07,  3.59it/s]                                                           {'loss': 2.7911, 'learning_rate': 3.822426684479303e-07, 'epoch': 10.99}
 69%|██████▊   | 255040/371472 [9:14:24<9:00:07,  3.59it/s] 69%|██████▊   | 255041/371472 [9:14:25<9:30:31,  3.40it/s] 69%|██████▊   | 255042/371472 [9:14:25<9:20:08,  3.46it/s] 69%|██████▊   | 255043/371472 [9:14:25<8:58:50,  3.60it/s] 69%|██████▊   | 255044/371472 [9:14:25<8:39:42,  3.73it/s] 69%|██████▊   | 255045/371472 [9:14:26<8:22:07,  3.86it/s] 69%|██████▊   | 255046/371472 [9:14:26<8:21:19,  3.87it/s] 69%|██████▊   | 255047/371472 [9:14:26<8:57:31,  3.61it/s] 69%|██████▊   | 255048/371472 [9:14:27<9:23:01,  3.45it/s] 69%|██████▊   | 255049/371472 [9:14:27<9:00:26,  3.59it/s] 69%|██████▊   | 255050/371472 [9:14:27<8:57:14,  3.61it/s] 69%|██████▊   | 255051/371472 [9:14:27<9:02:54,  3.57it/s] 69%|██████▊   | 255052/371472 [9:14:28<9:07:29,  3.54it/s] 69%|██████▊   | 255053/371472 [9:14:28<8:58:27,  3.60it/s] 69%|██████▊   | 255054/371472 [9:14:28<8:54:40,  3.63it/s] 69%|██████▊   | 255055/371472 [9:14:29<8:59:24,  3.60it/s] 69%|██████▊   | 255056/371472 [9:14:29<9:46:52,  3.31it/s] 69%|██████▊   | 255057/371472 [9:14:29<9:16:18,  3.49it/s] 69%|██████▊   | 255058/371472 [9:14:29<8:48:43,  3.67it/s] 69%|██████▊   | 255059/371472 [9:14:30<9:06:56,  3.55it/s] 69%|██████▊   | 255060/371472 [9:14:30<8:42:48,  3.71it/s]                                                           {'loss': 2.9215, 'learning_rate': 3.821941864724515e-07, 'epoch': 10.99}
 69%|██████▊   | 255060/371472 [9:14:30<8:42:48,  3.71it/s] 69%|██████▊   | 255061/371472 [9:14:30<8:55:32,  3.62it/s] 69%|██████▊   | 255062/371472 [9:14:30<8:53:16,  3.64it/s] 69%|██████▊   | 255063/371472 [9:14:31<9:04:48,  3.56it/s] 69%|██████▊   | 255064/371472 [9:14:31<8:59:28,  3.60it/s] 69%|██████▊   | 255065/371472 [9:14:31<8:47:47,  3.68it/s] 69%|██████▊   | 255066/371472 [9:14:32<9:45:12,  3.32it/s] 69%|██████▊   | 255067/371472 [9:14:32<9:27:49,  3.42it/s] 69%|██████▊   | 255068/371472 [9:14:32<9:51:40,  3.28it/s] 69%|██████▊   | 255069/371472 [9:14:33<9:35:23,  3.37it/s] 69%|██████▊   | 255070/371472 [9:14:33<11:05:31,  2.92it/s] 69%|██████▊   | 255071/371472 [9:14:33<10:12:19,  3.17it/s] 69%|██████▊   | 255072/371472 [9:14:34<9:51:31,  3.28it/s]  69%|██████▊   | 255073/371472 [9:14:34<9:33:49,  3.38it/s] 69%|██████▊   | 255074/371472 [9:14:34<9:10:26,  3.52it/s] 69%|██████▊   | 255075/371472 [9:14:34<8:52:38,  3.64it/s] 69%|██████▊   | 255076/371472 [9:14:35<8:42:25,  3.71it/s] 69%|██████▊   | 255077/371472 [9:14:35<8:40:43,  3.73it/s] 69%|██████▊   | 255078/371472 [9:14:35<8:39:59,  3.73it/s] 69%|██████▊   | 255079/371472 [9:14:35<8:18:45,  3.89it/s] 69%|██████▊   | 255080/371472 [9:14:36<8:16:24,  3.91it/s]                                                           {'loss': 2.8432, 'learning_rate': 3.821457044969725e-07, 'epoch': 10.99}
 69%|██████▊   | 255080/371472 [9:14:36<8:16:24,  3.91it/s] 69%|██████▊   | 255081/371472 [9:14:36<8:45:20,  3.69it/s] 69%|██████▊   | 255082/371472 [9:14:36<8:30:57,  3.80it/s] 69%|██████▊   | 255083/371472 [9:14:36<8:48:23,  3.67it/s] 69%|██████▊   | 255084/371472 [9:14:37<8:35:16,  3.76it/s] 69%|██████▊   | 255085/371472 [9:14:37<8:36:49,  3.75it/s] 69%|██████▊   | 255086/371472 [9:14:37<8:51:21,  3.65it/s] 69%|██████▊   | 255087/371472 [9:14:37<8:36:19,  3.76it/s] 69%|██████▊   | 255088/371472 [9:14:38<8:55:18,  3.62it/s] 69%|██████▊   | 255089/371472 [9:14:38<8:49:55,  3.66it/s] 69%|██████▊   | 255090/371472 [9:14:38<8:34:12,  3.77it/s] 69%|██████▊   | 255091/371472 [9:14:39<8:42:36,  3.71it/s] 69%|██████▊   | 255092/371472 [9:14:39<8:27:01,  3.83it/s] 69%|██████▊   | 255093/371472 [9:14:39<8:22:13,  3.86it/s] 69%|██████▊   | 255094/371472 [9:14:39<8:25:41,  3.84it/s] 69%|██████▊   | 255095/371472 [9:14:40<8:41:51,  3.72it/s] 69%|██████▊   | 255096/371472 [9:14:40<8:46:31,  3.68it/s] 69%|██████▊   | 255097/371472 [9:14:40<8:39:33,  3.73it/s] 69%|██████▊   | 255098/371472 [9:14:40<9:09:57,  3.53it/s] 69%|██████▊   | 255099/371472 [9:14:41<8:47:36,  3.68it/s] 69%|██████▊   | 255100/371472 [9:14:41<9:46:10,  3.31it/s]                                                           {'loss': 2.7459, 'learning_rate': 3.8209722252149367e-07, 'epoch': 10.99}
 69%|██████▊   | 255100/371472 [9:14:41<9:46:10,  3.31it/s] 69%|██████▊   | 255101/371472 [9:14:41<10:26:38,  3.10it/s] 69%|██████▊   | 255102/371472 [9:14:42<9:49:01,  3.29it/s]  69%|██████▊   | 255103/371472 [9:14:42<9:16:25,  3.49it/s] 69%|██████▊   | 255104/371472 [9:14:42<9:00:34,  3.59it/s] 69%|██████▊   | 255105/371472 [9:14:43<8:55:15,  3.62it/s] 69%|██████▊   | 255106/371472 [9:14:43<8:40:11,  3.73it/s] 69%|██████▊   | 255107/371472 [9:14:43<8:24:16,  3.85it/s] 69%|██████▊   | 255108/371472 [9:14:43<8:26:49,  3.83it/s] 69%|██████▊   | 255109/371472 [9:14:44<8:23:05,  3.85it/s] 69%|██████▊   | 255110/371472 [9:14:44<8:27:11,  3.82it/s] 69%|██████▊   | 255111/371472 [9:14:44<9:03:36,  3.57it/s] 69%|██████▊   | 255112/371472 [9:14:44<8:54:32,  3.63it/s] 69%|██████▊   | 255113/371472 [9:14:45<8:28:44,  3.81it/s] 69%|██████▊   | 255114/371472 [9:14:45<8:43:55,  3.70it/s] 69%|██████▊   | 255115/371472 [9:14:45<9:21:25,  3.45it/s] 69%|██████▊   | 255116/371472 [9:14:46<9:09:00,  3.53it/s] 69%|██████▊   | 255117/371472 [9:14:46<9:02:59,  3.57it/s] 69%|██████▊   | 255118/371472 [9:14:46<8:51:38,  3.65it/s] 69%|██████▊   | 255119/371472 [9:14:46<8:33:12,  3.78it/s] 69%|██████▊   | 255120/371472 [9:14:47<9:08:37,  3.53it/s]                                                           {'loss': 2.8036, 'learning_rate': 3.820487405460147e-07, 'epoch': 10.99}
 69%|██████▊   | 255120/371472 [9:14:47<9:08:37,  3.53it/s] 69%|██████▊   | 255121/371472 [9:14:47<10:04:03,  3.21it/s] 69%|██████▊   | 255122/371472 [9:14:47<9:47:28,  3.30it/s]  69%|██████▊   | 255123/371472 [9:14:48<9:51:03,  3.28it/s] 69%|██████▊   | 255124/371472 [9:14:48<9:21:36,  3.45it/s] 69%|██████▊   | 255125/371472 [9:14:48<9:07:38,  3.54it/s] 69%|██████▊   | 255126/371472 [9:14:49<10:52:17,  2.97it/s] 69%|██████▊   | 255127/371472 [9:14:49<9:58:28,  3.24it/s]  69%|██████▊   | 255128/371472 [9:14:49<9:16:29,  3.48it/s] 69%|██████▊   | 255129/371472 [9:14:49<9:03:28,  3.57it/s] 69%|██████▊   | 255130/371472 [9:14:50<8:55:06,  3.62it/s] 69%|██████▊   | 255131/371472 [9:14:50<9:22:24,  3.45it/s] 69%|██████▊   | 255132/371472 [9:14:50<9:43:55,  3.32it/s] 69%|██████▊   | 255133/371472 [9:14:50<9:23:48,  3.44it/s] 69%|██████▊   | 255134/371472 [9:14:51<9:11:16,  3.52it/s] 69%|██████▊   | 255135/371472 [9:14:51<8:59:22,  3.59it/s] 69%|██████▊   | 255136/371472 [9:14:51<9:06:48,  3.55it/s] 69%|██████▊   | 255137/371472 [9:14:52<9:39:24,  3.35it/s] 69%|██████▊   | 255138/371472 [9:14:52<9:03:40,  3.57it/s] 69%|██████▊   | 255139/371472 [9:14:52<8:53:17,  3.64it/s] 69%|██████▊   | 255140/371472 [9:14:52<8:29:09,  3.81it/s]                                                           {'loss': 2.9141, 'learning_rate': 3.8200025857053587e-07, 'epoch': 10.99}
 69%|██████▊   | 255140/371472 [9:14:52<8:29:09,  3.81it/s] 69%|██████▊   | 255141/371472 [9:14:53<9:06:03,  3.55it/s] 69%|██████▊   | 255142/371472 [9:14:53<8:47:28,  3.68it/s] 69%|██████▊   | 255143/371472 [9:14:53<9:01:09,  3.58it/s] 69%|██████▊   | 255144/371472 [9:14:54<8:52:48,  3.64it/s] 69%|██████▊   | 255145/371472 [9:14:54<9:26:58,  3.42it/s] 69%|██████▊   | 255146/371472 [9:14:54<9:11:05,  3.52it/s] 69%|██████▊   | 255147/371472 [9:14:54<9:06:14,  3.55it/s] 69%|██████▊   | 255148/371472 [9:14:55<9:03:28,  3.57it/s] 69%|██████▊   | 255149/371472 [9:14:55<8:39:37,  3.73it/s] 69%|██████▊   | 255150/371472 [9:14:55<9:05:43,  3.55it/s] 69%|██████▊   | 255151/371472 [9:14:56<9:21:57,  3.45it/s] 69%|██████▊   | 255152/371472 [9:14:56<9:22:10,  3.45it/s] 69%|██████▊   | 255153/371472 [9:14:56<8:57:02,  3.61it/s] 69%|██████▊   | 255154/371472 [9:14:56<9:04:22,  3.56it/s] 69%|██████▊   | 255155/371472 [9:14:57<8:47:50,  3.67it/s] 69%|██████▊   | 255156/371472 [9:14:57<9:37:21,  3.36it/s] 69%|██████▊   | 255157/371472 [9:14:57<9:19:23,  3.47it/s] 69%|██████▊   | 255158/371472 [9:14:57<8:53:04,  3.64it/s] 69%|██████▊   | 255159/371472 [9:14:58<9:03:35,  3.57it/s] 69%|██████▊   | 255160/371472 [9:14:58<8:48:36,  3.67it/s]                                                           {'loss': 2.656, 'learning_rate': 3.8195177659505694e-07, 'epoch': 10.99}
 69%|██████▊   | 255160/371472 [9:14:58<8:48:36,  3.67it/s] 69%|██████▊   | 255161/371472 [9:14:58<8:30:43,  3.80it/s] 69%|██████▊   | 255162/371472 [9:14:59<8:31:11,  3.79it/s] 69%|██████▊   | 255163/371472 [9:14:59<8:19:03,  3.88it/s] 69%|██████▊   | 255164/371472 [9:14:59<8:29:42,  3.80it/s] 69%|██████▊   | 255165/371472 [9:14:59<8:33:19,  3.78it/s] 69%|██████▊   | 255166/371472 [9:15:00<8:56:19,  3.61it/s] 69%|██████▊   | 255167/371472 [9:15:00<8:37:05,  3.75it/s] 69%|██████▊   | 255168/371472 [9:15:00<8:47:36,  3.67it/s] 69%|██████▊   | 255169/371472 [9:15:00<8:44:51,  3.69it/s] 69%|██████▊   | 255170/371472 [9:15:01<8:43:43,  3.70it/s] 69%|██████▊   | 255171/371472 [9:15:01<8:42:31,  3.71it/s] 69%|██████▊   | 255172/371472 [9:15:01<8:46:03,  3.68it/s] 69%|██████▊   | 255173/371472 [9:15:02<9:00:41,  3.58it/s] 69%|██████▊   | 255174/371472 [9:15:02<8:58:16,  3.60it/s] 69%|██████▊   | 255175/371472 [9:15:02<8:43:12,  3.70it/s] 69%|██████▊   | 255176/371472 [9:15:02<8:31:46,  3.79it/s] 69%|██████▊   | 255177/371472 [9:15:03<8:26:48,  3.82it/s] 69%|██████▊   | 255178/371472 [9:15:03<8:38:54,  3.74it/s] 69%|██████▊   | 255179/371472 [9:15:03<8:33:53,  3.77it/s] 69%|██████▊   | 255180/371472 [9:15:03<8:44:50,  3.69it/s]                                                           {'loss': 2.8081, 'learning_rate': 3.819032946195781e-07, 'epoch': 10.99}
 69%|██████▊   | 255180/371472 [9:15:03<8:44:50,  3.69it/s] 69%|██████▊   | 255181/371472 [9:15:04<8:40:10,  3.73it/s] 69%|██████▊   | 255182/371472 [9:15:04<9:25:11,  3.43it/s] 69%|██████▊   | 255183/371472 [9:15:04<9:22:38,  3.44it/s] 69%|██████▊   | 255184/371472 [9:15:05<9:10:40,  3.52it/s] 69%|██████▊   | 255185/371472 [9:15:05<8:55:15,  3.62it/s] 69%|██████▊   | 255186/371472 [9:15:05<9:02:12,  3.57it/s] 69%|██████▊   | 255187/371472 [9:15:05<8:49:17,  3.66it/s] 69%|██████▊   | 255188/371472 [9:15:06<8:41:13,  3.72it/s] 69%|██████▊   | 255189/371472 [9:15:06<8:47:25,  3.67it/s] 69%|██████▊   | 255190/371472 [9:15:06<8:29:38,  3.80it/s] 69%|██████▊   | 255191/371472 [9:15:06<8:22:20,  3.86it/s] 69%|██████▊   | 255192/371472 [9:15:07<9:18:07,  3.47it/s] 69%|██████▊   | 255193/371472 [9:15:07<8:55:47,  3.62it/s] 69%|██████▊   | 255194/371472 [9:15:07<8:51:48,  3.64it/s] 69%|██████▊   | 255195/371472 [9:15:08<8:49:22,  3.66it/s] 69%|██████▊   | 255196/371472 [9:15:08<8:40:53,  3.72it/s] 69%|██████▊   | 255197/371472 [9:15:08<8:27:03,  3.82it/s] 69%|██████▊   | 255198/371472 [9:15:08<8:48:07,  3.67it/s] 69%|██████▊   | 255199/371472 [9:15:09<9:40:40,  3.34it/s] 69%|██████▊   | 255200/371472 [9:15:09<9:16:06,  3.48it/s]                                                           {'loss': 3.065, 'learning_rate': 3.8185481264409913e-07, 'epoch': 10.99}
 69%|██████▊   | 255200/371472 [9:15:09<9:16:06,  3.48it/s] 69%|██████▊   | 255201/371472 [9:15:09<9:05:43,  3.55it/s] 69%|██████▊   | 255202/371472 [9:15:10<9:19:32,  3.46it/s] 69%|██████▊   | 255203/371472 [9:15:10<8:54:44,  3.62it/s] 69%|██████▊   | 255204/371472 [9:15:10<8:45:29,  3.69it/s] 69%|██████▊   | 255205/371472 [9:15:10<8:33:32,  3.77it/s] 69%|██████▊   | 255206/371472 [9:15:11<8:57:02,  3.61it/s] 69%|██████▊   | 255207/371472 [9:15:11<8:44:34,  3.69it/s] 69%|██████▊   | 255208/371472 [9:15:11<8:38:17,  3.74it/s] 69%|██████▊   | 255209/371472 [9:15:11<8:37:28,  3.74it/s] 69%|██████▊   | 255210/371472 [9:15:12<8:51:47,  3.64it/s] 69%|██████▊   | 255211/371472 [9:15:12<8:54:53,  3.62it/s] 69%|██████▊   | 255212/371472 [9:15:12<8:59:56,  3.59it/s] 69%|██████▊   | 255213/371472 [9:15:13<9:16:29,  3.48it/s] 69%|██████▊   | 255214/371472 [9:15:13<9:06:28,  3.55it/s] 69%|██████▊   | 255215/371472 [9:15:13<8:56:15,  3.61it/s] 69%|██████▊   | 255216/371472 [9:15:13<9:05:20,  3.55it/s] 69%|██████▊   | 255217/371472 [9:15:14<9:18:08,  3.47it/s] 69%|██████▊   | 255218/371472 [9:15:14<8:56:32,  3.61it/s] 69%|██████▊   | 255219/371472 [9:15:14<8:34:18,  3.77it/s] 69%|██████▊   | 255220/371472 [9:15:14<8:21:45,  3.86it/s]                                                           {'loss': 2.8738, 'learning_rate': 3.818063306686203e-07, 'epoch': 10.99}
 69%|██████▊   | 255220/371472 [9:15:14<8:21:45,  3.86it/s] 69%|██████▊   | 255221/371472 [9:15:15<8:39:09,  3.73it/s] 69%|██████▊   | 255222/371472 [9:15:15<8:50:25,  3.65it/s] 69%|██████▊   | 255223/371472 [9:15:15<8:27:59,  3.81it/s] 69%|██████▊   | 255224/371472 [9:15:15<8:17:48,  3.89it/s] 69%|██████▊   | 255225/371472 [9:15:16<8:31:04,  3.79it/s] 69%|██████▊   | 255226/371472 [9:15:16<8:26:28,  3.83it/s] 69%|██████▊   | 255227/371472 [9:15:16<8:37:04,  3.75it/s] 69%|██████▊   | 255228/371472 [9:15:17<8:39:33,  3.73it/s] 69%|██████▊   | 255229/371472 [9:15:17<8:51:40,  3.64it/s] 69%|██████▊   | 255230/371472 [9:15:17<8:45:48,  3.68it/s] 69%|██████▊   | 255231/371472 [9:15:17<8:45:25,  3.69it/s] 69%|██████▊   | 255232/371472 [9:15:18<8:36:11,  3.75it/s] 69%|██████▊   | 255233/371472 [9:15:18<8:34:22,  3.77it/s] 69%|██████▊   | 255234/371472 [9:15:18<8:29:19,  3.80it/s] 69%|██████▊   | 255235/371472 [9:15:18<8:54:01,  3.63it/s] 69%|██████▊   | 255236/371472 [9:15:19<9:04:54,  3.56it/s] 69%|██████▊   | 255237/371472 [9:15:19<8:49:35,  3.66it/s] 69%|██████▊   | 255238/371472 [9:15:19<9:08:18,  3.53it/s] 69%|██████▊   | 255239/371472 [9:15:20<9:10:05,  3.52it/s] 69%|██████▊   | 255240/371472 [9:15:20<8:55:52,  3.62it/s]                                                           {'loss': 2.7932, 'learning_rate': 3.817578486931414e-07, 'epoch': 10.99}
 69%|██████▊   | 255240/371472 [9:15:20<8:55:52,  3.62it/s] 69%|██████▊   | 255241/371472 [9:15:20<8:47:20,  3.67it/s] 69%|██████▊   | 255242/371472 [9:15:20<8:42:48,  3.71it/s] 69%|██████▊   | 255243/371472 [9:15:21<9:17:31,  3.47it/s] 69%|██████▊   | 255244/371472 [9:15:21<9:13:04,  3.50it/s] 69%|██████▊   | 255245/371472 [9:15:21<9:04:05,  3.56it/s] 69%|██████▊   | 255246/371472 [9:15:22<8:47:14,  3.67it/s] 69%|██████▊   | 255247/371472 [9:15:22<8:39:22,  3.73it/s] 69%|██████▊   | 255248/371472 [9:15:22<8:23:03,  3.85it/s] 69%|██████▊   | 255249/371472 [9:15:22<8:40:00,  3.73it/s] 69%|██████▊   | 255250/371472 [9:15:23<9:16:48,  3.48it/s] 69%|██████▊   | 255251/371472 [9:15:23<9:35:16,  3.37it/s] 69%|██████▊   | 255252/371472 [9:15:23<9:04:33,  3.56it/s] 69%|██████▊   | 255253/371472 [9:15:23<8:59:43,  3.59it/s] 69%|██████▊   | 255254/371472 [9:15:24<8:37:59,  3.74it/s] 69%|██████▊   | 255255/371472 [9:15:24<8:44:01,  3.70it/s] 69%|██████▊   | 255256/371472 [9:15:24<9:02:48,  3.57it/s] 69%|██████▊   | 255257/371472 [9:15:25<8:45:09,  3.69it/s] 69%|██████▊   | 255258/371472 [9:15:25<9:30:09,  3.40it/s] 69%|██████▊   | 255259/371472 [9:15:25<8:50:13,  3.65it/s] 69%|██████▊   | 255260/371472 [9:15:25<8:51:59,  3.64it/s]                                                           {'loss': 2.8375, 'learning_rate': 3.817093667176625e-07, 'epoch': 10.99}
 69%|██████▊   | 255260/371472 [9:15:25<8:51:59,  3.64it/s] 69%|██████▊   | 255261/371472 [9:15:26<8:54:39,  3.62it/s] 69%|██████▊   | 255262/371472 [9:15:26<8:49:23,  3.66it/s] 69%|██████▊   | 255263/371472 [9:15:26<9:01:41,  3.58it/s] 69%|██████▊   | 255264/371472 [9:15:27<9:16:10,  3.48it/s] 69%|██████▊   | 255265/371472 [9:15:27<9:32:37,  3.38it/s] 69%|██████▊   | 255266/371472 [9:15:27<8:58:28,  3.60it/s] 69%|██████▊   | 255267/371472 [9:15:27<8:48:01,  3.67it/s] 69%|██████▊   | 255268/371472 [9:15:28<8:38:28,  3.74it/s] 69%|██████▊   | 255269/371472 [9:15:28<8:49:53,  3.65it/s] 69%|██████▊   | 255270/371472 [9:15:28<9:33:17,  3.38it/s] 69%|██████▊   | 255271/371472 [9:15:29<9:37:48,  3.35it/s] 69%|██████▊   | 255272/371472 [9:15:29<9:16:08,  3.48it/s] 69%|██████▊   | 255273/371472 [9:15:29<9:57:24,  3.24it/s] 69%|██████▊   | 255274/371472 [9:15:30<10:20:21,  3.12it/s] 69%|██████▊   | 255275/371472 [9:15:30<9:30:56,  3.39it/s]  69%|██████▊   | 255276/371472 [9:15:30<8:57:54,  3.60it/s] 69%|██████▊   | 255277/371472 [9:15:30<8:30:16,  3.80it/s] 69%|██████▊   | 255278/371472 [9:15:31<9:03:09,  3.57it/s] 69%|██████▊   | 255279/371472 [9:15:31<9:36:16,  3.36it/s] 69%|██████▊   | 255280/371472 [9:15:31<9:12:32,  3.50it/s]                                                           {'loss': 2.837, 'learning_rate': 3.816608847421836e-07, 'epoch': 11.0}
 69%|██████▊   | 255280/371472 [9:15:31<9:12:32,  3.50it/s] 69%|██████▊   | 255281/371472 [9:15:31<8:55:23,  3.62it/s] 69%|██████▊   | 255282/371472 [9:15:32<8:57:01,  3.61it/s] 69%|██████▊   | 255283/371472 [9:15:32<8:48:49,  3.66it/s] 69%|██████▊   | 255284/371472 [9:15:32<9:18:02,  3.47it/s] 69%|██████▊   | 255285/371472 [9:15:33<9:03:48,  3.56it/s] 69%|██████▊   | 255286/371472 [9:15:33<9:40:02,  3.34it/s] 69%|██████▊   | 255287/371472 [9:15:33<10:24:16,  3.10it/s] 69%|██████▊   | 255288/371472 [9:15:34<10:34:29,  3.05it/s] 69%|██████▊   | 255289/371472 [9:15:34<10:18:21,  3.13it/s] 69%|██████▊   | 255290/371472 [9:15:34<9:39:56,  3.34it/s]  69%|██████▊   | 255291/371472 [9:15:34<9:27:25,  3.41it/s] 69%|██████▊   | 255292/371472 [9:15:35<9:39:40,  3.34it/s] 69%|██████▊   | 255293/371472 [9:15:35<9:57:15,  3.24it/s] 69%|██████▊   | 255294/371472 [9:15:35<9:51:08,  3.28it/s] 69%|██████▊   | 255295/371472 [9:15:36<9:37:25,  3.35it/s] 69%|██████▊   | 255296/371472 [9:15:36<9:34:55,  3.37it/s] 69%|██████▊   | 255297/371472 [9:15:36<9:56:51,  3.24it/s] 69%|██████▊   | 255298/371472 [9:15:37<9:45:37,  3.31it/s] 69%|██████▊   | 255299/371472 [9:15:37<9:33:12,  3.38it/s] 69%|██████▊   | 255300/371472 [9:15:37<9:13:52,  3.50it/s]                                                           {'loss': 2.9323, 'learning_rate': 3.8161240276670475e-07, 'epoch': 11.0}
 69%|██████▊   | 255300/371472 [9:15:37<9:13:52,  3.50it/s] 69%|██████▊   | 255301/371472 [9:15:37<9:15:40,  3.48it/s] 69%|██████▊   | 255302/371472 [9:15:38<9:18:50,  3.46it/s] 69%|██████▊   | 255303/371472 [9:15:38<9:21:32,  3.45it/s] 69%|██████▊   | 255304/371472 [9:15:38<8:54:34,  3.62it/s] 69%|██████▊   | 255305/371472 [9:15:38<8:32:46,  3.78it/s] 69%|██████▊   | 255306/371472 [9:15:39<8:26:11,  3.82it/s] 69%|██████▊   | 255307/371472 [9:15:39<8:32:10,  3.78it/s] 69%|██████▊   | 255308/371472 [9:15:39<8:50:49,  3.65it/s] 69%|██████▊   | 255309/371472 [9:15:40<9:25:50,  3.42it/s] 69%|██████▊   | 255310/371472 [9:15:40<9:03:30,  3.56it/s] 69%|██████▊   | 255311/371472 [9:15:40<8:40:43,  3.72it/s] 69%|██████▊   | 255312/371472 [9:15:40<8:39:43,  3.73it/s] 69%|██████▊   | 255313/371472 [9:15:41<8:43:03,  3.70it/s] 69%|██████▊   | 255314/371472 [9:15:41<9:14:09,  3.49it/s] 69%|██████▊   | 255315/371472 [9:15:41<9:20:34,  3.45it/s] 69%|██████▊   | 255316/371472 [9:15:42<9:04:46,  3.55it/s] 69%|██████▊   | 255317/371472 [9:15:42<9:06:28,  3.54it/s] 69%|██████▊   | 255318/371472 [9:15:42<9:03:18,  3.56it/s] 69%|██████▊   | 255319/371472 [9:15:42<9:13:24,  3.50it/s] 69%|██████▊   | 255320/371472 [9:15:43<9:02:48,  3.57it/s]                                                           {'loss': 2.9747, 'learning_rate': 3.815639207912258e-07, 'epoch': 11.0}
 69%|██████▊   | 255320/371472 [9:15:43<9:02:48,  3.57it/s] 69%|██████▊   | 255321/371472 [9:15:43<8:54:31,  3.62it/s] 69%|██████▊   | 255322/371472 [9:15:43<9:12:08,  3.51it/s] 69%|██████▊   | 255323/371472 [9:15:44<9:50:23,  3.28it/s] 69%|██████▊   | 255324/371472 [9:15:44<9:50:28,  3.28it/s] 69%|██████▊   | 255325/371472 [9:15:44<9:42:50,  3.32it/s] 69%|██████▊   | 255326/371472 [9:15:44<9:47:53,  3.29it/s] 69%|██████▊   | 255327/371472 [9:15:45<9:16:15,  3.48it/s] 69%|██████▊   | 255328/371472 [9:15:45<9:07:59,  3.53it/s] 69%|██████▊   | 255329/371472 [9:15:45<9:18:08,  3.47it/s] 69%|██████▊   | 255330/371472 [9:15:46<9:07:49,  3.53it/s] 69%|██████▊   | 255331/371472 [9:15:46<8:50:27,  3.65it/s] 69%|██████▊   | 255332/371472 [9:15:46<8:59:19,  3.59it/s] 69%|██████▊   | 255333/371472 [9:15:46<8:50:03,  3.65it/s] 69%|██████▊   | 255334/371472 [9:15:47<8:45:10,  3.69it/s] 69%|██████▊   | 255335/371472 [9:15:47<9:00:38,  3.58it/s] 69%|██████▊   | 255336/371472 [9:15:47<9:09:25,  3.52it/s] 69%|██████▊   | 255337/371472 [9:15:48<9:14:10,  3.49it/s] 69%|██████▊   | 255338/371472 [9:15:48<9:01:17,  3.58it/s] 69%|██████▊   | 255339/371472 [9:15:48<8:49:08,  3.66it/s] 69%|██████▊   | 255340/371472 [9:15:48<8:30:35,  3.79it/s]                                                           {'loss': 2.8868, 'learning_rate': 3.8151543881574695e-07, 'epoch': 11.0}
 69%|██████▊   | 255340/371472 [9:15:48<8:30:35,  3.79it/s] 69%|██████▊   | 255341/371472 [9:15:49<8:52:56,  3.63it/s] 69%|██████▊   | 255342/371472 [9:15:49<8:43:59,  3.69it/s] 69%|██████▊   | 255343/371472 [9:15:49<8:57:41,  3.60it/s] 69%|██████▊   | 255344/371472 [9:15:49<8:45:08,  3.69it/s] 69%|██████▊   | 255345/371472 [9:15:50<8:54:15,  3.62it/s] 69%|██████▊   | 255346/371472 [9:15:50<8:54:48,  3.62it/s] 69%|██████▊   | 255347/371472 [9:15:50<8:35:51,  3.75it/s] 69%|██████▊   | 255348/371472 [9:15:51<9:37:05,  3.35it/s] 69%|██████▊   | 255349/371472 [9:15:51<9:38:54,  3.34it/s] 69%|██████▊   | 255350/371472 [9:15:51<9:13:05,  3.50it/s] 69%|██████▊   | 255351/371472 [9:15:51<8:51:23,  3.64it/s] 69%|██████▊   | 255352/371472 [9:15:52<8:53:33,  3.63it/s] 69%|██████▊   | 255353/371472 [9:15:52<9:34:43,  3.37it/s] 69%|██████▊   | 255354/371472 [9:15:52<9:35:48,  3.36it/s] 69%|██████▊   | 255355/371472 [9:15:53<9:21:57,  3.44it/s] 69%|██████▊   | 255356/371472 [9:15:53<8:53:47,  3.63it/s] 69%|██████▊   | 255357/371472 [9:15:53<8:59:04,  3.59it/s] 69%|██████▊   | 255358/371472 [9:15:53<8:46:19,  3.68it/s] 69%|██████▊   | 255359/371472 [9:15:54<8:32:56,  3.77it/s] 69%|██████▊   | 255360/371472 [9:15:54<8:24:49,  3.83it/s]                                                           {'loss': 2.851, 'learning_rate': 3.81466956840268e-07, 'epoch': 11.0}
 69%|██████▊   | 255360/371472 [9:15:54<8:24:49,  3.83it/s] 69%|██████▊   | 255361/371472 [9:15:54<8:16:21,  3.90it/s] 69%|██████▊   | 255362/371472 [9:15:54<8:02:06,  4.01it/s] 69%|██████▊   | 255363/371472 [9:15:55<8:16:02,  3.90it/s] 69%|██████▊   | 255364/371472 [9:15:55<8:43:15,  3.70it/s] 69%|██████▊   | 255365/371472 [9:15:55<9:05:04,  3.55it/s] 69%|██████▊   | 255366/371472 [9:15:55<8:39:38,  3.72it/s] 69%|██████▊   | 255367/371472 [9:15:56<8:49:31,  3.65it/s] 69%|██████▊   | 255368/371472 [9:15:56<8:44:47,  3.69it/s] 69%|██████▊   | 255369/371472 [9:15:56<8:45:22,  3.68it/s] 69%|██████▊   | 255370/371472 [9:15:57<9:45:15,  3.31it/s] 69%|██████▊   | 255371/371472 [9:15:57<9:29:51,  3.40it/s] 69%|██████▊   | 255372/371472 [9:15:57<9:24:08,  3.43it/s] 69%|██████▊   | 255373/371472 [9:15:57<9:08:06,  3.53it/s] 69%|██████▊   | 255374/371472 [9:15:58<9:06:08,  3.54it/s] 69%|██████▊   | 255375/371472 [9:15:58<9:02:31,  3.57it/s] 69%|██████▊   | 255376/371472 [9:15:58<8:45:56,  3.68it/s] 69%|██████▊   | 255377/371472 [9:15:59<9:21:28,  3.45it/s] 69%|██████▊   | 255378/371472 [9:15:59<8:55:33,  3.61it/s] 69%|██████▊   | 255379/371472 [9:15:59<8:55:05,  3.62it/s] 69%|██████▊   | 255380/371472 [9:15:59<8:43:29,  3.70it/s]                                                           {'loss': 2.7944, 'learning_rate': 3.814184748647892e-07, 'epoch': 11.0}
 69%|██████▊   | 255380/371472 [9:15:59<8:43:29,  3.70it/s] 69%|██████▊   | 255381/371472 [9:16:00<8:34:27,  3.76it/s] 69%|██████▊   | 255382/371472 [9:16:00<8:49:30,  3.65it/s] 69%|██████▊   | 255383/371472 [9:16:00<8:48:46,  3.66it/s] 69%|██████▊   | 255384/371472 [9:16:00<8:47:56,  3.66it/s] 69%|██████▊   | 255385/371472 [9:16:01<8:53:14,  3.63it/s] 69%|██████▊   | 255386/371472 [9:16:01<8:49:56,  3.65it/s] 69%|██████▉   | 255387/371472 [9:16:01<9:33:31,  3.37it/s]Some non-default generation parameters are set in the model config. These should go into a GenerationConfig file (https://huggingface.co./docs/transformers/generation_strategies#save-a-custom-decoding-strategy-with-your-model) instead. This warning will be raised to an exception in v4.41.
Non-default generation parameters: {'max_length': 200, 'early_stopping': True, 'num_beams': 5, 'forced_eos_token_id': 2}
/opt/conda/lib/python3.10/multiprocessing/popen_fork.py:66: RuntimeWarning: os.fork() was called. os.fork() is incompatible with multithreaded code, and JAX is multithreaded, so this will likely lead to a deadlock.
  self.pid = os.fork()
 69%|██████▉   | 255388/371472 [9:16:24<227:20:36,  7.05s/it] 69%|██████▉   | 255389/371472 [9:16:25<161:58:44,  5.02s/it] 69%|██████▉   | 255390/371472 [9:16:25<115:54:12,  3.59s/it] 69%|██████▉   | 255391/371472 [9:16:25<83:33:59,  2.59s/it]  69%|██████▉   | 255392/371472 [9:16:25<61:02:04,  1.89s/it] 69%|██████▉   | 255393/371472 [9:16:26<45:59:15,  1.43s/it] 69%|██████▉   | 255394/371472 [9:16:26<35:01:23,  1.09s/it] 69%|██████▉   | 255395/371472 [9:16:26<28:23:12,  1.14it/s] 69%|██████▉   | 255396/371472 [9:16:27<22:32:02,  1.43it/s] 69%|██████▉   | 255397/371472 [9:16:27<19:48:08,  1.63it/s] 69%|██████▉   | 255398/371472 [9:16:27<16:44:05,  1.93it/s] 69%|██████▉   | 255399/371472 [9:16:28<14:05:03,  2.29it/s] 69%|██████▉   | 255400/371472 [9:16:28<12:45:40,  2.53it/s]                                                            {'loss': 2.8535, 'learning_rate': 3.813699928893102e-07, 'epoch': 11.0}
 69%|██████▉   | 255400/371472 [9:16:28<12:45:40,  2.53it/s] 69%|██████▉   | 255401/371472 [9:16:28<12:30:05,  2.58it/s] 69%|██████▉   | 255402/371472 [9:16:28<11:14:42,  2.87it/s] 69%|██████▉   | 255403/371472 [9:16:29<10:34:17,  3.05it/s] 69%|██████▉   | 255404/371472 [9:16:29<9:59:56,  3.22it/s]  69%|██████▉   | 255405/371472 [9:16:29<9:35:32,  3.36it/s] 69%|██████▉   | 255406/371472 [9:16:30<9:21:10,  3.45it/s] 69%|██████▉   | 255407/371472 [9:16:30<9:27:02,  3.41it/s] 69%|██████▉   | 255408/371472 [9:16:30<9:09:41,  3.52it/s] 69%|██████▉   | 255409/371472 [9:16:30<9:33:37,  3.37it/s] 69%|██████▉   | 255410/371472 [9:16:31<9:54:30,  3.25it/s] 69%|██████▉   | 255411/371472 [9:16:31<9:28:24,  3.40it/s] 69%|██████▉   | 255412/371472 [9:16:31<9:13:34,  3.49it/s] 69%|██████▉   | 255413/371472 [9:16:32<9:06:09,  3.54it/s] 69%|██████▉   | 255414/371472 [9:16:32<8:49:10,  3.66it/s] 69%|██████▉   | 255415/371472 [9:16:32<8:32:51,  3.77it/s] 69%|██████▉   | 255416/371472 [9:16:32<8:45:32,  3.68it/s] 69%|██████▉   | 255417/371472 [9:16:33<8:51:01,  3.64it/s] 69%|██████▉   | 255418/371472 [9:16:33<9:14:14,  3.49it/s] 69%|██████▉   | 255419/371472 [9:16:33<9:22:07,  3.44it/s] 69%|██████▉   | 255420/371472 [9:16:34<9:13:37,  3.49it/s]                                                           {'loss': 2.7894, 'learning_rate': 3.813215109138314e-07, 'epoch': 11.0}
 69%|██████▉   | 255420/371472 [9:16:34<9:13:37,  3.49it/s] 69%|██████▉   | 255421/371472 [9:16:34<9:02:36,  3.56it/s] 69%|██████▉   | 255422/371472 [9:16:34<9:19:27,  3.46it/s] 69%|██████▉   | 255423/371472 [9:16:34<8:46:47,  3.67it/s] 69%|██████▉   | 255424/371472 [9:16:35<8:43:21,  3.70it/s] 69%|██████▉   | 255425/371472 [9:16:35<8:35:55,  3.75it/s] 69%|██████▉   | 255426/371472 [9:16:35<8:57:57,  3.60it/s] 69%|██████▉   | 255427/371472 [9:16:35<8:51:06,  3.64it/s] 69%|██████▉   | 255428/371472 [9:16:36<8:42:54,  3.70it/s] 69%|██████▉   | 255429/371472 [9:16:36<9:14:14,  3.49it/s] 69%|██████▉   | 255430/371472 [9:16:36<8:52:27,  3.63it/s] 69%|██████▉   | 255431/371472 [9:16:37<8:57:31,  3.60it/s] 69%|██████▉   | 255432/371472 [9:16:37<9:46:43,  3.30it/s] 69%|██████▉   | 255433/371472 [9:16:37<9:41:16,  3.33it/s] 69%|██████▉   | 255434/371472 [9:16:37<9:24:16,  3.43it/s] 69%|██████▉   | 255435/371472 [9:16:38<10:20:25,  3.12it/s] 69%|██████▉   | 255436/371472 [9:16:38<9:39:32,  3.34it/s]  69%|██████▉   | 255437/371472 [9:16:38<9:19:47,  3.45it/s] 69%|██████▉   | 255438/371472 [9:16:39<9:49:58,  3.28it/s] 69%|██████▉   | 255439/371472 [9:16:39<9:12:03,  3.50it/s] 69%|██████▉   | 255440/371472 [9:16:39<9:16:15,  3.48it/s]                                                           {'loss': 2.7491, 'learning_rate': 3.8127302893835247e-07, 'epoch': 11.0}
 69%|██████▉   | 255440/371472 [9:16:39<9:16:15,  3.48it/s] 69%|██████▉   | 255441/371472 [9:16:40<9:01:34,  3.57it/s] 69%|██████▉   | 255442/371472 [9:16:40<8:53:51,  3.62it/s] 69%|██████▉   | 255443/371472 [9:16:40<9:13:51,  3.49it/s] 69%|██████▉   | 255444/371472 [9:16:40<9:14:13,  3.49it/s] 69%|██████▉   | 255445/371472 [9:16:41<9:16:40,  3.47it/s] 69%|██████▉   | 255446/371472 [9:16:41<9:18:24,  3.46it/s] 69%|██████▉   | 255447/371472 [9:16:41<9:43:24,  3.31it/s] 69%|██████▉   | 255448/371472 [9:16:42<10:06:25,  3.19it/s] 69%|██████▉   | 255449/371472 [9:16:42<9:51:15,  3.27it/s]  69%|██████▉   | 255450/371472 [9:16:42<9:45:50,  3.30it/s] 69%|██████▉   | 255451/371472 [9:16:43<9:46:30,  3.30it/s] 69%|██████▉   | 255452/371472 [9:16:43<9:44:38,  3.31it/s] 69%|██████▉   | 255453/371472 [9:16:43<9:26:51,  3.41it/s] 69%|██████▉   | 255454/371472 [9:16:43<9:19:19,  3.46it/s] 69%|██████▉   | 255455/371472 [9:16:44<9:00:09,  3.58it/s] 69%|██████▉   | 255456/371472 [9:16:44<8:49:54,  3.65it/s] 69%|██████▉   | 255457/371472 [9:16:44<8:33:58,  3.76it/s] 69%|██████▉   | 255458/371472 [9:16:44<8:29:31,  3.79it/s] 69%|██████▉   | 255459/371472 [9:16:45<9:01:40,  3.57it/s] 69%|██████▉   | 255460/371472 [9:16:45<8:52:13,  3.63it/s]                                                           {'loss': 2.7817, 'learning_rate': 3.812245469628736e-07, 'epoch': 11.0}
 69%|██████▉   | 255460/371472 [9:16:45<8:52:13,  3.63it/s] 69%|██████▉   | 255461/371472 [9:16:45<8:49:33,  3.65it/s] 69%|██████▉   | 255462/371472 [9:16:46<8:38:50,  3.73it/s] 69%|██████▉   | 255463/371472 [9:16:46<8:56:25,  3.60it/s] 69%|██████▉   | 255464/371472 [9:16:46<8:52:32,  3.63it/s] 69%|██████▉   | 255465/371472 [9:16:46<9:05:26,  3.54it/s] 69%|██████▉   | 255466/371472 [9:16:47<8:40:25,  3.72it/s] 69%|██████▉   | 255467/371472 [9:16:47<8:32:14,  3.77it/s] 69%|██████▉   | 255468/371472 [9:16:47<8:56:14,  3.61it/s] 69%|██████▉   | 255469/371472 [9:16:48<9:47:16,  3.29it/s] 69%|██████▉   | 255470/371472 [9:16:48<9:25:36,  3.42it/s] 69%|██████▉   | 255471/371472 [9:16:48<9:02:53,  3.56it/s] 69%|██████▉   | 255472/371472 [9:16:48<8:58:56,  3.59it/s] 69%|██████▉   | 255473/371472 [9:16:49<9:54:38,  3.25it/s] 69%|██████▉   | 255474/371472 [9:16:49<10:12:38,  3.16it/s] 69%|██████▉   | 255475/371472 [9:16:49<10:15:11,  3.14it/s] 69%|██████▉   | 255476/371472 [9:16:50<10:23:01,  3.10it/s] 69%|██████▉   | 255477/371472 [9:16:50<9:53:33,  3.26it/s]  69%|██████▉   | 255478/371472 [9:16:50<11:19:55,  2.84it/s] 69%|██████▉   | 255479/371472 [9:16:51<11:07:47,  2.89it/s] 69%|██████▉   | 255480/371472 [9:16:51<11:20:17,  2.84it/s]                                                            {'loss': 2.6906, 'learning_rate': 3.8117606498739466e-07, 'epoch': 11.0}
 69%|██████▉   | 255480/371472 [9:16:51<11:20:17,  2.84it/s] 69%|██████▉   | 255481/371472 [9:16:51<10:51:21,  2.97it/s] 69%|██████▉   | 255482/371472 [9:16:52<10:48:01,  2.98it/s] 69%|██████▉   | 255483/371472 [9:16:52<10:05:06,  3.19it/s] 69%|██████▉   | 255484/371472 [9:16:52<9:42:52,  3.32it/s]  69%|██████▉   | 255485/371472 [9:16:53<9:17:00,  3.47it/s] 69%|██████▉   | 255486/371472 [9:16:53<9:23:26,  3.43it/s] 69%|██████▉   | 255487/371472 [9:16:53<9:41:35,  3.32it/s] 69%|██████▉   | 255488/371472 [9:16:54<10:11:36,  3.16it/s] 69%|██████▉   | 255489/371472 [9:16:54<10:17:37,  3.13it/s] 69%|██████▉   | 255490/371472 [9:16:54<10:32:43,  3.06it/s] 69%|██████▉   | 255491/371472 [9:16:54<10:05:36,  3.19it/s] 69%|██████▉   | 255492/371472 [9:16:55<11:26:53,  2.81it/s] 69%|██████▉   | 255493/371472 [9:16:55<11:32:32,  2.79it/s] 69%|██████▉   | 255494/371472 [9:16:56<10:44:41,  3.00it/s] 69%|██████▉   | 255495/371472 [9:16:56<10:41:54,  3.01it/s] 69%|██████▉   | 255496/371472 [9:16:56<10:22:01,  3.11it/s] 69%|██████▉   | 255497/371472 [9:16:56<9:55:37,  3.25it/s]  69%|██████▉   | 255498/371472 [9:16:57<10:14:31,  3.15it/s] 69%|██████▉   | 255499/371472 [9:16:57<10:09:54,  3.17it/s] 69%|██████▉   | 255500/371472 [9:16:57<10:13:47,  3.15it/s]                                                            {'loss': 2.8882, 'learning_rate': 3.8112758301191584e-07, 'epoch': 11.0}
 69%|██████▉   | 255500/371472 [9:16:57<10:13:47,  3.15it/s] 69%|██████▉   | 255501/371472 [9:16:58<10:19:52,  3.12it/s] 69%|██████▉   | 255502/371472 [9:16:58<9:58:24,  3.23it/s]  69%|██████▉   | 255503/371472 [9:16:58<9:47:34,  3.29it/s] 69%|██████▉   | 255504/371472 [9:16:59<10:02:05,  3.21it/s] 69%|██████▉   | 255505/371472 [9:16:59<10:09:08,  3.17it/s] 69%|██████▉   | 255506/371472 [9:16:59<9:47:32,  3.29it/s]  69%|██████▉   | 255507/371472 [9:17:00<9:28:12,  3.40it/s] 69%|██████▉   | 255508/371472 [9:17:00<9:19:17,  3.46it/s] 69%|██████▉   | 255509/371472 [9:17:00<9:14:54,  3.48it/s] 69%|██████▉   | 255510/371472 [9:17:00<9:05:55,  3.54it/s] 69%|██████▉   | 255511/371472 [9:17:01<8:51:57,  3.63it/s] 69%|██████▉   | 255512/371472 [9:17:01<8:41:47,  3.70it/s] 69%|██████▉   | 255513/371472 [9:17:01<9:15:05,  3.48it/s] 69%|██████▉   | 255514/371472 [9:17:02<9:02:17,  3.56it/s] 69%|██████▉   | 255515/371472 [9:17:02<8:49:07,  3.65it/s] 69%|██████▉   | 255516/371472 [9:17:02<8:52:21,  3.63it/s] 69%|██████▉   | 255517/371472 [9:17:02<9:05:04,  3.55it/s] 69%|██████▉   | 255518/371472 [9:17:03<8:42:41,  3.70it/s] 69%|██████▉   | 255519/371472 [9:17:03<8:34:02,  3.76it/s] 69%|██████▉   | 255520/371472 [9:17:03<9:41:37,  3.32it/s]                                                           {'loss': 2.6933, 'learning_rate': 3.8107910103643686e-07, 'epoch': 11.01}
 69%|██████▉   | 255520/371472 [9:17:03<9:41:37,  3.32it/s] 69%|██████▉   | 255521/371472 [9:17:03<9:21:02,  3.44it/s] 69%|██████▉   | 255522/371472 [9:17:04<9:03:44,  3.55it/s] 69%|██████▉   | 255523/371472 [9:17:04<8:48:44,  3.65it/s] 69%|██████▉   | 255524/371472 [9:17:04<8:56:03,  3.60it/s] 69%|██████▉   | 255525/371472 [9:17:05<8:51:56,  3.63it/s] 69%|██████▉   | 255526/371472 [9:17:05<8:59:32,  3.58it/s] 69%|██████▉   | 255527/371472 [9:17:05<8:50:13,  3.64it/s] 69%|██████▉   | 255528/371472 [9:17:05<8:48:52,  3.65it/s] 69%|██████▉   | 255529/371472 [9:17:06<9:11:33,  3.50it/s] 69%|██████▉   | 255530/371472 [9:17:06<9:17:56,  3.46it/s] 69%|██████▉   | 255531/371472 [9:17:06<9:23:08,  3.43it/s] 69%|██████▉   | 255532/371472 [9:17:07<9:11:09,  3.51it/s] 69%|██████▉   | 255533/371472 [9:17:07<9:40:57,  3.33it/s] 69%|██████▉   | 255534/371472 [9:17:07<10:09:07,  3.17it/s] 69%|██████▉   | 255535/371472 [9:17:08<10:20:53,  3.11it/s] 69%|██████▉   | 255536/371472 [9:17:08<9:51:19,  3.27it/s]  69%|██████▉   | 255537/371472 [9:17:08<9:28:55,  3.40it/s] 69%|██████▉   | 255538/371472 [9:17:08<9:35:18,  3.36it/s] 69%|██████▉   | 255539/371472 [9:17:09<9:15:02,  3.48it/s] 69%|██████▉   | 255540/371472 [9:17:09<8:55:16,  3.61it/s]                                                           {'loss': 2.6741, 'learning_rate': 3.8103061906095804e-07, 'epoch': 11.01}
 69%|██████▉   | 255540/371472 [9:17:09<8:55:16,  3.61it/s] 69%|██████▉   | 255541/371472 [9:17:09<9:08:23,  3.52it/s] 69%|██████▉   | 255542/371472 [9:17:10<9:01:10,  3.57it/s] 69%|██████▉   | 255543/371472 [9:17:10<9:16:00,  3.48it/s] 69%|██████▉   | 255544/371472 [9:17:10<9:01:37,  3.57it/s] 69%|██████▉   | 255545/371472 [9:17:10<9:17:25,  3.47it/s] 69%|██████▉   | 255546/371472 [9:17:11<9:29:54,  3.39it/s] 69%|██████▉   | 255547/371472 [9:17:11<9:25:08,  3.42it/s] 69%|██████▉   | 255548/371472 [9:17:11<9:50:54,  3.27it/s] 69%|██████▉   | 255549/371472 [9:17:12<10:03:58,  3.20it/s] 69%|██████▉   | 255550/371472 [9:17:12<9:22:15,  3.44it/s]  69%|██████▉   | 255551/371472 [9:17:12<9:52:07,  3.26it/s] 69%|██████▉   | 255552/371472 [9:17:13<9:52:56,  3.26it/s] 69%|██████▉   | 255553/371472 [9:17:13<9:25:38,  3.42it/s] 69%|██████▉   | 255554/371472 [9:17:13<9:03:29,  3.55it/s] 69%|██████▉   | 255555/371472 [9:17:13<8:41:51,  3.70it/s] 69%|██████▉   | 255556/371472 [9:17:14<8:37:31,  3.73it/s] 69%|██████▉   | 255557/371472 [9:17:14<8:28:52,  3.80it/s] 69%|██████▉   | 255558/371472 [9:17:14<8:46:31,  3.67it/s] 69%|██████▉   | 255559/371472 [9:17:14<8:47:30,  3.66it/s] 69%|██████▉   | 255560/371472 [9:17:15<9:00:27,  3.57it/s]                                                           {'loss': 2.7526, 'learning_rate': 3.809821370854791e-07, 'epoch': 11.01}
 69%|██████▉   | 255560/371472 [9:17:15<9:00:27,  3.57it/s] 69%|██████▉   | 255561/371472 [9:17:15<8:58:27,  3.59it/s] 69%|██████▉   | 255562/371472 [9:17:15<9:14:24,  3.48it/s] 69%|██████▉   | 255563/371472 [9:17:16<10:18:34,  3.12it/s] 69%|██████▉   | 255564/371472 [9:17:16<9:54:19,  3.25it/s]  69%|██████▉   | 255565/371472 [9:17:16<9:37:02,  3.35it/s] 69%|██████▉   | 255566/371472 [9:17:17<9:28:03,  3.40it/s] 69%|██████▉   | 255567/371472 [9:17:17<9:01:33,  3.57it/s] 69%|██████▉   | 255568/371472 [9:17:17<8:53:15,  3.62it/s] 69%|██████▉   | 255569/371472 [9:17:17<8:37:52,  3.73it/s] 69%|██████▉   | 255570/371472 [9:17:18<8:49:28,  3.65it/s] 69%|██████▉   | 255571/371472 [9:17:18<8:45:33,  3.68it/s] 69%|██████▉   | 255572/371472 [9:17:18<8:56:25,  3.60it/s] 69%|██████▉   | 255573/371472 [9:17:18<9:35:42,  3.36it/s] 69%|██████▉   | 255574/371472 [9:17:19<9:20:13,  3.45it/s] 69%|██████▉   | 255575/371472 [9:17:19<9:13:26,  3.49it/s] 69%|██████▉   | 255576/371472 [9:17:19<9:02:58,  3.56it/s] 69%|██████▉   | 255577/371472 [9:17:20<8:57:28,  3.59it/s] 69%|██████▉   | 255578/371472 [9:17:20<9:32:49,  3.37it/s] 69%|██████▉   | 255579/371472 [9:17:20<9:14:25,  3.48it/s] 69%|██████▉   | 255580/371472 [9:17:20<9:32:09,  3.38it/s]                                                           {'loss': 2.8929, 'learning_rate': 3.809336551100001e-07, 'epoch': 11.01}
 69%|██████▉   | 255580/371472 [9:17:20<9:32:09,  3.38it/s] 69%|██████▉   | 255581/371472 [9:17:21<9:39:11,  3.33it/s] 69%|██████▉   | 255582/371472 [9:17:21<9:53:11,  3.26it/s] 69%|██████▉   | 255583/371472 [9:17:21<9:26:46,  3.41it/s] 69%|██████▉   | 255584/371472 [9:17:22<9:19:36,  3.45it/s] 69%|██████▉   | 255585/371472 [9:17:22<9:14:10,  3.49it/s] 69%|██████▉   | 255586/371472 [9:17:22<8:51:24,  3.63it/s] 69%|██████▉   | 255587/371472 [9:17:22<8:43:02,  3.69it/s] 69%|██████▉   | 255588/371472 [9:17:23<8:38:06,  3.73it/s] 69%|██████▉   | 255589/371472 [9:17:23<8:30:42,  3.78it/s] 69%|██████▉   | 255590/371472 [9:17:23<8:24:28,  3.83it/s] 69%|██████▉   | 255591/371472 [9:17:24<8:53:24,  3.62it/s] 69%|██████▉   | 255592/371472 [9:17:24<8:53:37,  3.62it/s] 69%|██████▉   | 255593/371472 [9:17:24<8:55:53,  3.60it/s] 69%|██████▉   | 255594/371472 [9:17:24<8:57:52,  3.59it/s] 69%|██████▉   | 255595/371472 [9:17:25<8:58:49,  3.58it/s] 69%|██████▉   | 255596/371472 [9:17:25<8:56:01,  3.60it/s] 69%|██████▉   | 255597/371472 [9:17:25<9:06:46,  3.53it/s] 69%|██████▉   | 255598/371472 [9:17:26<9:16:26,  3.47it/s] 69%|██████▉   | 255599/371472 [9:17:26<9:21:32,  3.44it/s] 69%|██████▉   | 255600/371472 [9:17:26<9:45:36,  3.30it/s]                                                           {'loss': 2.852, 'learning_rate': 3.808851731345213e-07, 'epoch': 11.01}
 69%|██████▉   | 255600/371472 [9:17:26<9:45:36,  3.30it/s] 69%|██████▉   | 255601/371472 [9:17:26<9:48:58,  3.28it/s] 69%|██████▉   | 255602/371472 [9:17:27<10:53:54,  2.95it/s] 69%|██████▉   | 255603/371472 [9:17:27<9:57:01,  3.23it/s]  69%|██████▉   | 255604/371472 [9:17:27<9:18:17,  3.46it/s] 69%|██████▉   | 255605/371472 [9:17:28<9:14:59,  3.48it/s] 69%|██████▉   | 255606/371472 [9:17:28<9:21:00,  3.44it/s] 69%|██████▉   | 255607/371472 [9:17:28<8:58:07,  3.59it/s] 69%|██████▉   | 255608/371472 [9:17:28<8:45:38,  3.67it/s] 69%|██████▉   | 255609/371472 [9:17:29<8:58:50,  3.58it/s] 69%|██████▉   | 255610/371472 [9:17:29<8:57:09,  3.59it/s] 69%|██████▉   | 255611/371472 [9:17:29<8:47:30,  3.66it/s] 69%|██████▉   | 255612/371472 [9:17:30<9:06:26,  3.53it/s]