diff --git "a/train_job_output.txt" "b/train_job_output.txt"
--- "a/train_job_output.txt"
+++ "b/train_job_output.txt"
@@ -1,4 +1,4 @@
-slurm submission log: 2024-05-20 10:11:57.803652
+slurm submission log: 2024-05-20 23:23:27.080509
 created following sbatch script: 
 
 ###############################
@@ -7,13 +7,13 @@ created following sbatch script:
 
 #SBATCH --account=nlp
 #SBATCH --cpus-per-task=16
-#SBATCH --dependency=afterok:7635783
+#SBATCH --dependency=afterok:7637747
 #SBATCH --gres=gpu:2
-#SBATCH --job-name=tthrush-job-1992241
+#SBATCH --job-name=tthrush-job-4852181
 #SBATCH --mem=100G
 #SBATCH --nodelist=sphinx2
 #SBATCH --open-mode=append
-#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/70m_llms_more_data_test_normalized/pythia-70m_lambada_1/train_job_output.txt
+#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_clipped_scaled/llms/pythia-70m_lambada_1/train_job_output.txt
 #SBATCH --partition=sphinx
 #SBATCH --time=14-0
 
@@ -24,7 +24,7 @@ created following sbatch script:
 cd .
 
 # launch commands
-srun --unbuffered run_as_child_processes 'torchrun --master_port 29506 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_data_more_data_test_normalized/lambada --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/70m_llms_more_data_test_normalized/pythia-70m_lambada_1 --output_hub_id pythia-70m_lambada --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 1'
+srun --unbuffered run_as_child_processes 'torchrun --master_port 29526 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_clipped_scaled/data/lambada --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_clipped_scaled/llms/pythia-70m_lambada_1 --output_hub_id pythia-70m_lambada --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 1'
 
 ###############################
 
@@ -34,13 +34,13 @@ submission to slurm complete!
 ###############################
 slurm submission output
 
-Submitted batch job 7635784
+Submitted batch job 7637748
 
 
 
 ###############################
 
-/var/lib/slurm/slurmd/job7635784/slurm_script: line 16: /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh: No such file or directory
+/var/lib/slurm/slurmd/job7637748/slurm_script: line 16: /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh: No such file or directory
 
 CommandNotFoundError: Your shell has not been properly configured to use 'conda activate'.
 To initialize your shell, run
@@ -61,454 +61,455 @@ IMPORTANT: You may need to close and restart your shell after running 'conda ini
 
 
 ###############################
-start time: 2024-05-20 14:03:29.621062
+start time: 2024-05-21 09:17:53.339239
 machine: sphinx2
 conda env: pretraining-coreset-selection
 ###############################
 running following processes
 
-	torchrun --master_port 29506 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_data_more_data_test_normalized/lambada --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/70m_llms_more_data_test_normalized/pythia-70m_lambada_1 --output_hub_id pythia-70m_lambada --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 1
+	torchrun --master_port 29526 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_clipped_scaled/data/lambada --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_clipped_scaled/llms/pythia-70m_lambada_1 --output_hub_id pythia-70m_lambada --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 1
 
 
 ###############################
 command outputs: 
 
 
-[2024-05-20 14:03:32,107] torch.distributed.run: [WARNING] 
-[2024-05-20 14:03:32,107] torch.distributed.run: [WARNING] *****************************************
-[2024-05-20 14:03:32,107] torch.distributed.run: [WARNING] Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
-[2024-05-20 14:03:32,107] torch.distributed.run: [WARNING] *****************************************
-05/20/2024 14:03:39 - INFO - __main__ - Script parameters ScriptArguments(seed=1, dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_data_more_data_test_normalized/lambada', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/70m_llms_more_data_test_normalized/pythia-70m_lambada_1', output_hub_id='pythia-70m_lambada', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=1.0, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
-05/20/2024 14:03:41 - INFO - __main__ - Script parameters ScriptArguments(seed=1, dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_data_more_data_test_normalized/lambada', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/70m_llms_more_data_test_normalized/pythia-70m_lambada_1', output_hub_id='pythia-70m_lambada', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=1.0, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
-  0%|          | 0/10699 [00:00<?, ?it/s][rank1]:[W reducer.cpp:1360] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
-[rank0]:[W reducer.cpp:1360] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
-  0%|          | 1/10699 [01:06<197:25:08, 66.43s/it]  0%|          | 2/10699 [01:51<160:50:37, 54.13s/it]  0%|          | 3/10699 [02:33<144:08:15, 48.51s/it]  0%|          | 4/10699 [03:14<134:40:45, 45.33s/it]  0%|          | 5/10699 [03:51<126:25:59, 42.56s/it]  0%|          | 6/10699 [04:27<118:58:07, 40.05s/it]  0%|          | 7/10699 [04:59<111:38:53, 37.59s/it]  0%|          | 8/10699 [05:32<106:44:55, 35.95s/it]  0%|          | 9/10699 [06:01<100:48:30, 33.95s/it]  0%|          | 10/10699 [06:29<95:02:40, 32.01s/it]  0%|          | 11/10699 [06:56<90:39:19, 30.54s/it]  0%|          | 12/10699 [07:19<84:05:43, 28.33s/it]  0%|          | 13/10699 [07:43<80:26:56, 27.10s/it]  0%|          | 14/10699 [08:05<75:37:50, 25.48s/it]  0%|          | 15/10699 [08:26<71:07:10, 23.96s/it]  0%|          | 16/10699 [08:45<67:18:48, 22.68s/it]  0%|          | 17/10699 [09:03<62:30:44, 21.07s/it]  0%|          | 18/10699 [09:20<59:35:26, 20.08s/it]  0%|          | 19/10699 [09:36<55:50:46, 18.82s/it]  0%|          | 20/10699 [09:52<52:39:15, 17.75s/it]  0%|          | 21/10699 [10:08<51:11:32, 17.26s/it]  0%|          | 22/10699 [10:22<48:32:06, 16.36s/it]  0%|          | 23/10699 [10:36<46:23:02, 15.64s/it]  0%|          | 24/10699 [10:49<44:20:37, 14.95s/it]  0%|          | 25/10699 [11:01<41:09:13, 13.88s/it]{'loss': 10.6629, 'grad_norm': 1.3966463804244995, 'learning_rate': 2.336448598130841e-05, 'epoch': 0.0}
-                                                       0%|          | 25/10699 [11:01<41:09:13, 13.88s/it]  0%|          | 26/10699 [11:12<39:08:05, 13.20s/it]  0%|          | 27/10699 [11:23<36:51:28, 12.43s/it]  0%|          | 28/10699 [11:34<35:24:38, 11.95s/it]  0%|          | 29/10699 [11:44<33:56:58, 11.45s/it]  0%|          | 30/10699 [11:53<32:05:09, 10.83s/it]  0%|          | 31/10699 [12:03<30:42:09, 10.36s/it]  0%|          | 32/10699 [12:12<30:07:40, 10.17s/it]  0%|          | 33/10699 [12:21<28:26:47,  9.60s/it]  0%|          | 34/10699 [12:29<27:11:56,  9.18s/it]  0%|          | 35/10699 [12:37<26:00:33,  8.78s/it]  0%|          | 36/10699 [12:44<24:38:33,  8.32s/it]  0%|          | 37/10699 [12:51<23:40:45,  8.00s/it]  0%|          | 38/10699 [12:58<22:58:17,  7.76s/it]  0%|          | 39/10699 [13:06<22:30:00,  7.60s/it]  0%|          | 40/10699 [13:13<21:55:41,  7.41s/it]  0%|          | 41/10699 [13:19<20:48:44,  7.03s/it]  0%|          | 42/10699 [13:25<20:18:25,  6.86s/it]  0%|          | 43/10699 [13:31<19:15:44,  6.51s/it]  0%|          | 44/10699 [13:36<18:20:15,  6.20s/it]  0%|          | 45/10699 [13:41<17:19:00,  5.85s/it]  0%|          | 46/10699 [13:47<17:04:03,  5.77s/it]  0%|          | 47/10699 [13:52<16:19:00,  5.51s/it]  0%|          | 48/10699 [13:58<16:47:45,  5.68s/it]  0%|          | 49/10699 [14:06<19:14:33,  6.50s/it]  0%|          | 50/10699 [14:12<18:40:38,  6.31s/it]{'loss': 9.9392, 'grad_norm': 1.2830157279968262, 'learning_rate': 4.672897196261682e-05, 'epoch': 0.0}
-                                                       0%|          | 50/10699 [14:12<18:40:38,  6.31s/it]  0%|          | 51/10699 [14:19<18:56:11,  6.40s/it]  0%|          | 52/10699 [14:26<19:10:36,  6.48s/it]  0%|          | 53/10699 [14:31<18:36:22,  6.29s/it]  1%|          | 54/10699 [14:37<18:06:17,  6.12s/it]  1%|          | 55/10699 [14:43<17:28:18,  5.91s/it]  1%|          | 56/10699 [14:48<16:56:59,  5.73s/it]  1%|          | 57/10699 [14:53<16:19:11,  5.52s/it]  1%|          | 58/10699 [14:58<15:43:14,  5.32s/it]  1%|          | 59/10699 [15:03<15:48:44,  5.35s/it]  1%|          | 60/10699 [15:08<15:28:30,  5.24s/it]  1%|          | 61/10699 [15:13<15:08:18,  5.12s/it]  1%|          | 62/10699 [15:18<14:42:52,  4.98s/it]  1%|          | 63/10699 [15:22<14:04:02,  4.76s/it]  1%|          | 64/10699 [15:26<13:39:09,  4.62s/it]  1%|          | 65/10699 [15:31<13:30:45,  4.57s/it]  1%|          | 66/10699 [15:35<13:22:54,  4.53s/it]  1%|          | 67/10699 [15:39<12:37:30,  4.27s/it]  1%|          | 68/10699 [15:43<12:15:37,  4.15s/it]  1%|          | 69/10699 [15:47<12:10:25,  4.12s/it]  1%|          | 70/10699 [15:50<11:39:22,  3.95s/it]  1%|          | 71/10699 [15:54<11:26:22,  3.87s/it]  1%|          | 72/10699 [15:57<10:44:06,  3.64s/it]  1%|          | 73/10699 [16:01<10:46:08,  3.65s/it]  1%|          | 74/10699 [16:04<10:08:48,  3.44s/it]  1%|          | 75/10699 [16:07<10:02:07,  3.40s/it]                                                     {'loss': 9.2226, 'grad_norm': 1.0799373388290405, 'learning_rate': 7.009345794392523e-05, 'epoch': 0.01}
-  1%|          | 75/10699 [16:07<10:02:07,  3.40s/it]  1%|          | 76/10699 [16:12<11:11:06,  3.79s/it]  1%|          | 77/10699 [16:16<11:45:26,  3.98s/it]  1%|          | 78/10699 [16:19<10:35:05,  3.59s/it]  1%|          | 79/10699 [16:21<9:20:15,  3.17s/it]   1%|          | 80/10699 [16:23<8:29:25,  2.88s/it]  1%|          | 81/10699 [16:26<8:07:07,  2.75s/it]  1%|          | 82/10699 [16:28<7:31:35,  2.55s/it]  1%|          | 83/10699 [16:30<7:24:38,  2.51s/it]  1%|          | 84/10699 [16:32<7:12:07,  2.44s/it]  1%|          | 85/10699 [16:35<7:09:49,  2.43s/it]  1%|          | 86/10699 [16:37<6:47:37,  2.30s/it]  1%|          | 87/10699 [16:39<6:35:39,  2.24s/it]  1%|          | 88/10699 [16:41<6:24:18,  2.17s/it]  1%|          | 89/10699 [16:43<6:17:52,  2.14s/it]  1%|          | 90/10699 [16:45<6:23:47,  2.17s/it]  1%|          | 91/10699 [16:47<6:12:27,  2.11s/it]  1%|          | 92/10699 [16:49<6:13:17,  2.11s/it]  1%|          | 93/10699 [16:51<5:49:49,  1.98s/it]  1%|          | 94/10699 [16:53<5:46:02,  1.96s/it]  1%|          | 95/10699 [16:55<6:01:35,  2.05s/it]  1%|          | 96/10699 [16:57<5:45:33,  1.96s/it]  1%|          | 97/10699 [16:59<5:54:03,  2.00s/it]  1%|          | 98/10699 [17:01<5:53:15,  2.00s/it]  1%|          | 99/10699 [17:02<5:22:27,  1.83s/it]  1%|          | 100/10699 [17:05<5:39:43,  1.92s/it]                                                     {'loss': 8.441, 'grad_norm': 0.74488765001297, 'learning_rate': 9.345794392523364e-05, 'epoch': 0.01}
-  1%|          | 100/10699 [17:05<5:39:43,  1.92s/it]  1%|          | 101/10699 [17:06<5:33:10,  1.89s/it]  1%|          | 102/10699 [17:08<5:47:31,  1.97s/it]  1%|          | 103/10699 [17:10<5:42:16,  1.94s/it]  1%|          | 104/10699 [17:12<5:23:22,  1.83s/it]  1%|          | 105/10699 [17:14<5:37:31,  1.91s/it]  1%|          | 106/10699 [17:16<5:21:42,  1.82s/it]  1%|          | 107/10699 [17:17<4:55:13,  1.67s/it]  1%|          | 108/10699 [17:18<4:39:56,  1.59s/it]  1%|          | 109/10699 [17:20<4:38:18,  1.58s/it]  1%|          | 110/10699 [17:21<4:32:13,  1.54s/it]  1%|          | 111/10699 [17:23<4:24:57,  1.50s/it]  1%|          | 112/10699 [17:24<4:32:29,  1.54s/it]  1%|          | 113/10699 [17:26<4:24:37,  1.50s/it]  1%|          | 114/10699 [17:27<4:10:13,  1.42s/it]  1%|          | 115/10699 [17:29<4:26:42,  1.51s/it]  1%|          | 116/10699 [17:30<4:29:13,  1.53s/it]  1%|          | 117/10699 [17:32<4:14:24,  1.44s/it]  1%|          | 118/10699 [17:33<4:13:28,  1.44s/it]  1%|          | 119/10699 [17:34<4:12:13,  1.43s/it]  1%|          | 120/10699 [17:36<4:31:38,  1.54s/it]  1%|          | 121/10699 [17:38<4:50:53,  1.65s/it]  1%|          | 122/10699 [17:40<4:50:42,  1.65s/it]  1%|          | 123/10699 [17:41<4:29:23,  1.53s/it]  1%|          | 124/10699 [17:43<4:26:37,  1.51s/it]  1%|          | 125/10699 [17:44<4:29:10,  1.53s/it]{'loss': 7.805, 'grad_norm': 0.445881187915802, 'learning_rate': 0.00011682242990654206, 'epoch': 0.01}
-                                                       1%|          | 125/10699 [17:44<4:29:10,  1.53s/it]  1%|          | 126/10699 [17:46<4:25:53,  1.51s/it]  1%|          | 127/10699 [17:47<4:14:59,  1.45s/it]  1%|          | 128/10699 [17:48<4:07:43,  1.41s/it]  1%|          | 129/10699 [17:49<4:04:08,  1.39s/it]  1%|          | 130/10699 [17:51<3:46:14,  1.28s/it]  1%|          | 131/10699 [17:51<3:27:02,  1.18s/it]  1%|          | 132/10699 [17:52<3:18:26,  1.13s/it]  1%|          | 133/10699 [17:54<3:26:34,  1.17s/it]  1%|▏         | 134/10699 [17:55<3:24:38,  1.16s/it]  1%|▏         | 135/10699 [17:56<3:18:09,  1.13s/it]  1%|▏         | 136/10699 [17:57<3:15:21,  1.11s/it]  1%|▏         | 137/10699 [17:58<3:26:30,  1.17s/it]  1%|▏         | 138/10699 [17:59<3:25:57,  1.17s/it]  1%|▏         | 139/10699 [18:00<3:16:00,  1.11s/it]  1%|▏         | 140/10699 [18:02<3:15:57,  1.11s/it]  1%|▏         | 141/10699 [18:03<3:23:44,  1.16s/it]  1%|▏         | 142/10699 [18:04<3:24:54,  1.16s/it]  1%|▏         | 143/10699 [18:05<3:26:29,  1.17s/it]  1%|▏         | 144/10699 [18:06<3:20:06,  1.14s/it]  1%|▏         | 145/10699 [18:07<3:07:22,  1.07s/it]  1%|▏         | 146/10699 [18:08<3:00:41,  1.03s/it]  1%|▏         | 147/10699 [18:09<2:59:34,  1.02s/it]  1%|▏         | 148/10699 [18:10<2:54:04,  1.01it/s]  1%|▏         | 149/10699 [18:11<2:51:28,  1.03it/s]  1%|▏         | 150/10699 [18:12<2:43:23,  1.08it/s]{'loss': 7.3451, 'grad_norm': 0.3518184423446655, 'learning_rate': 0.00014018691588785047, 'epoch': 0.01}
-                                                       1%|▏         | 150/10699 [18:12<2:43:23,  1.08it/s]  1%|▏         | 151/10699 [18:13<2:58:18,  1.01s/it]  1%|▏         | 152/10699 [18:14<3:05:23,  1.05s/it]  1%|▏         | 153/10699 [18:15<3:02:59,  1.04s/it]  1%|▏         | 154/10699 [18:16<3:02:21,  1.04s/it]  1%|▏         | 155/10699 [18:17<3:01:32,  1.03s/it]  1%|▏         | 156/10699 [18:18<3:02:59,  1.04s/it]  1%|▏         | 157/10699 [18:19<3:02:50,  1.04s/it]  1%|▏         | 158/10699 [18:20<3:04:34,  1.05s/it]  1%|▏         | 159/10699 [18:21<3:00:14,  1.03s/it]  1%|▏         | 160/10699 [18:22<2:55:46,  1.00s/it]  2%|▏         | 161/10699 [18:23<2:58:29,  1.02s/it]  2%|▏         | 162/10699 [18:24<2:58:07,  1.01s/it]  2%|▏         | 163/10699 [18:25<2:45:08,  1.06it/s]  2%|▏         | 164/10699 [18:26<2:34:04,  1.14it/s]  2%|▏         | 165/10699 [18:27<2:27:26,  1.19it/s]  2%|▏         | 166/10699 [18:28<2:32:53,  1.15it/s]  2%|▏         | 167/10699 [18:29<2:42:00,  1.08it/s]  2%|▏         | 168/10699 [18:30<2:50:34,  1.03it/s]  2%|▏         | 169/10699 [18:31<2:51:46,  1.02it/s]  2%|▏         | 170/10699 [18:32<2:47:44,  1.05it/s]  2%|▏         | 171/10699 [18:33<2:48:22,  1.04it/s]  2%|▏         | 172/10699 [18:33<2:40:56,  1.09it/s]  2%|▏         | 173/10699 [18:34<2:34:01,  1.14it/s]  2%|▏         | 174/10699 [18:35<2:28:43,  1.18it/s]  2%|▏         | 175/10699 [18:36<2:20:37,  1.25it/s]                                                     {'loss': 6.9482, 'grad_norm': 0.4465082883834839, 'learning_rate': 0.00016355140186915886, 'epoch': 0.02}
-  2%|▏         | 175/10699 [18:36<2:20:37,  1.25it/s]  2%|▏         | 176/10699 [18:36<2:17:51,  1.27it/s]  2%|▏         | 177/10699 [18:37<2:16:25,  1.29it/s]  2%|▏         | 178/10699 [18:38<2:17:01,  1.28it/s]  2%|▏         | 179/10699 [18:39<2:15:34,  1.29it/s]  2%|▏         | 180/10699 [18:40<2:23:06,  1.23it/s]  2%|▏         | 181/10699 [18:41<2:28:12,  1.18it/s]  2%|▏         | 182/10699 [18:41<2:33:13,  1.14it/s]  2%|▏         | 183/10699 [18:42<2:29:44,  1.17it/s]  2%|▏         | 184/10699 [18:43<2:28:06,  1.18it/s]  2%|▏         | 185/10699 [18:44<2:28:56,  1.18it/s]  2%|▏         | 186/10699 [18:45<2:23:35,  1.22it/s]  2%|▏         | 187/10699 [18:45<2:17:44,  1.27it/s]  2%|▏         | 188/10699 [18:46<2:14:18,  1.30it/s]  2%|▏         | 189/10699 [18:47<2:15:03,  1.30it/s]  2%|▏         | 190/10699 [18:48<2:15:32,  1.29it/s]  2%|▏         | 191/10699 [18:49<2:20:16,  1.25it/s]  2%|▏         | 192/10699 [18:49<2:21:56,  1.23it/s]  2%|▏         | 193/10699 [18:50<2:22:51,  1.23it/s]  2%|▏         | 194/10699 [18:51<2:22:29,  1.23it/s]  2%|▏         | 195/10699 [18:52<2:18:49,  1.26it/s]  2%|▏         | 196/10699 [18:52<2:12:47,  1.32it/s]  2%|▏         | 197/10699 [18:53<2:12:32,  1.32it/s]  2%|▏         | 198/10699 [18:54<2:15:53,  1.29it/s]  2%|▏         | 199/10699 [18:55<2:22:52,  1.22it/s]  2%|▏         | 200/10699 [18:56<2:19:20,  1.26it/s]{'loss': 6.6206, 'grad_norm': 0.458651602268219, 'learning_rate': 0.00018691588785046728, 'epoch': 0.02}
-                                                       2%|▏         | 200/10699 [18:56<2:19:20,  1.26it/s]  2%|▏         | 201/10699 [18:56<2:16:01,  1.29it/s]  2%|▏         | 202/10699 [18:57<2:15:43,  1.29it/s]  2%|▏         | 203/10699 [18:58<2:11:35,  1.33it/s]  2%|▏         | 204/10699 [18:59<2:09:22,  1.35it/s]  2%|▏         | 205/10699 [18:59<2:08:10,  1.36it/s]  2%|▏         | 206/10699 [19:00<2:04:43,  1.40it/s]  2%|▏         | 207/10699 [19:01<2:00:03,  1.46it/s]  2%|▏         | 208/10699 [19:01<1:59:27,  1.46it/s]  2%|▏         | 209/10699 [19:02<1:57:48,  1.48it/s]  2%|▏         | 210/10699 [19:03<1:55:17,  1.52it/s]  2%|▏         | 211/10699 [19:03<1:58:15,  1.48it/s]  2%|▏         | 212/10699 [19:04<2:00:44,  1.45it/s]  2%|▏         | 213/10699 [19:05<1:59:27,  1.46it/s]  2%|▏         | 214/10699 [19:05<2:01:23,  1.44it/s]  2%|▏         | 215/10699 [19:06<1:57:57,  1.48it/s]  2%|▏         | 216/10699 [19:07<1:55:06,  1.52it/s]  2%|▏         | 217/10699 [19:07<1:55:15,  1.52it/s]  2%|▏         | 218/10699 [19:08<2:00:32,  1.45it/s]  2%|▏         | 219/10699 [19:09<1:58:55,  1.47it/s]  2%|▏         | 220/10699 [19:09<1:58:50,  1.47it/s]  2%|▏         | 221/10699 [19:10<1:57:42,  1.48it/s]  2%|▏         | 222/10699 [19:11<1:56:22,  1.50it/s]  2%|▏         | 223/10699 [19:11<1:57:42,  1.48it/s]  2%|▏         | 224/10699 [19:12<2:03:06,  1.42it/s]  2%|▏         | 225/10699 [19:13<2:08:27,  1.36it/s]{'loss': 6.3602, 'grad_norm': 0.8420559167861938, 'learning_rate': 0.0002102803738317757, 'epoch': 0.02}
-                                                       2%|▏         | 225/10699 [19:13<2:08:27,  1.36it/s]  2%|▏         | 226/10699 [19:14<2:00:04,  1.45it/s]  2%|▏         | 227/10699 [19:14<1:57:51,  1.48it/s]  2%|▏         | 228/10699 [19:15<2:01:44,  1.43it/s]  2%|▏         | 229/10699 [19:16<1:59:42,  1.46it/s]  2%|▏         | 230/10699 [19:16<2:01:11,  1.44it/s]  2%|▏         | 231/10699 [19:17<2:03:19,  1.41it/s]  2%|▏         | 232/10699 [19:18<2:01:26,  1.44it/s]  2%|▏         | 233/10699 [19:18<2:00:29,  1.45it/s]  2%|▏         | 234/10699 [19:19<1:59:07,  1.46it/s]  2%|▏         | 235/10699 [19:20<1:57:46,  1.48it/s]  2%|▏         | 236/10699 [19:20<1:57:04,  1.49it/s]  2%|▏         | 237/10699 [19:21<1:53:27,  1.54it/s]  2%|▏         | 238/10699 [19:22<1:49:56,  1.59it/s]  2%|▏         | 239/10699 [19:22<1:46:44,  1.63it/s]  2%|▏         | 240/10699 [19:23<1:48:11,  1.61it/s]  2%|▏         | 241/10699 [19:23<1:49:33,  1.59it/s]  2%|▏         | 242/10699 [19:24<1:48:52,  1.60it/s]  2%|▏         | 243/10699 [19:25<1:50:43,  1.57it/s]  2%|▏         | 244/10699 [19:25<1:50:23,  1.58it/s]  2%|▏         | 245/10699 [19:26<1:52:45,  1.55it/s]  2%|▏         | 246/10699 [19:27<1:55:44,  1.51it/s]  2%|▏         | 247/10699 [19:27<1:56:01,  1.50it/s]  2%|▏         | 248/10699 [19:28<1:56:03,  1.50it/s]  2%|▏         | 249/10699 [19:29<1:55:06,  1.51it/s]  2%|▏         | 250/10699 [19:29<1:51:24,  1.56it/s]{'loss': 6.162, 'grad_norm': 0.5827215909957886, 'learning_rate': 0.00023364485981308412, 'epoch': 0.02}
-                                                       2%|▏         | 250/10699 [19:29<1:51:24,  1.56it/s]  2%|▏         | 251/10699 [19:30<1:49:53,  1.58it/s]  2%|▏         | 252/10699 [19:30<1:46:32,  1.63it/s]  2%|▏         | 253/10699 [19:31<1:43:49,  1.68it/s]  2%|▏         | 254/10699 [19:32<1:42:24,  1.70it/s]  2%|▏         | 255/10699 [19:32<1:41:52,  1.71it/s]  2%|▏         | 256/10699 [19:33<1:44:56,  1.66it/s]  2%|▏         | 257/10699 [19:33<1:48:19,  1.61it/s]  2%|▏         | 258/10699 [19:34<1:51:16,  1.56it/s]  2%|▏         | 259/10699 [19:35<1:50:42,  1.57it/s]  2%|▏         | 260/10699 [19:35<1:50:26,  1.58it/s]  2%|▏         | 261/10699 [19:36<1:50:16,  1.58it/s]  2%|▏         | 262/10699 [19:37<1:47:39,  1.62it/s]  2%|▏         | 263/10699 [19:37<1:45:53,  1.64it/s]  2%|▏         | 264/10699 [19:38<1:44:53,  1.66it/s]  2%|▏         | 265/10699 [19:38<1:44:30,  1.66it/s]  2%|▏         | 266/10699 [19:39<1:42:18,  1.70it/s]  2%|▏         | 267/10699 [19:40<1:43:08,  1.69it/s]  3%|▎         | 268/10699 [19:40<1:41:40,  1.71it/s]  3%|▎         | 269/10699 [19:41<1:41:05,  1.72it/s]  3%|▎         | 270/10699 [19:41<1:40:33,  1.73it/s]  3%|▎         | 271/10699 [19:42<1:39:03,  1.75it/s]  3%|▎         | 272/10699 [19:42<1:38:19,  1.77it/s]  3%|▎         | 273/10699 [19:43<1:39:59,  1.74it/s]  3%|▎         | 274/10699 [19:44<1:40:15,  1.73it/s]  3%|▎         | 275/10699 [19:44<1:38:38,  1.76it/s]                                                     {'loss': 5.9928, 'grad_norm': 0.5504418015480042, 'learning_rate': 0.0002570093457943925, 'epoch': 0.03}
-  3%|▎         | 275/10699 [19:44<1:38:38,  1.76it/s]  3%|▎         | 276/10699 [19:45<1:39:11,  1.75it/s]  3%|▎         | 277/10699 [19:45<1:37:33,  1.78it/s]  3%|▎         | 278/10699 [19:46<1:36:34,  1.80it/s]  3%|▎         | 279/10699 [19:46<1:36:14,  1.80it/s]  3%|▎         | 280/10699 [19:47<1:36:47,  1.79it/s]  3%|▎         | 281/10699 [19:47<1:36:18,  1.80it/s]  3%|▎         | 282/10699 [19:48<1:37:12,  1.79it/s]  3%|▎         | 283/10699 [19:49<1:37:23,  1.78it/s]  3%|▎         | 284/10699 [19:49<1:38:26,  1.76it/s]  3%|▎         | 285/10699 [19:50<1:39:29,  1.74it/s]  3%|▎         | 286/10699 [19:50<1:38:34,  1.76it/s]  3%|▎         | 287/10699 [19:51<1:39:40,  1.74it/s]  3%|▎         | 288/10699 [19:51<1:39:00,  1.75it/s]  3%|▎         | 289/10699 [19:52<1:38:01,  1.77it/s]  3%|▎         | 290/10699 [19:53<1:39:49,  1.74it/s]  3%|▎         | 291/10699 [19:53<1:43:33,  1.68it/s]  3%|▎         | 292/10699 [19:54<1:41:37,  1.71it/s]  3%|▎         | 293/10699 [19:54<1:40:40,  1.72it/s]  3%|▎         | 294/10699 [19:55<1:40:42,  1.72it/s]  3%|▎         | 295/10699 [19:56<1:39:50,  1.74it/s]  3%|▎         | 296/10699 [19:56<1:39:17,  1.75it/s]  3%|▎         | 297/10699 [19:57<1:38:14,  1.76it/s]  3%|▎         | 298/10699 [19:57<1:37:16,  1.78it/s]  3%|▎         | 299/10699 [19:58<1:36:35,  1.79it/s]  3%|▎         | 300/10699 [19:58<1:35:59,  1.81it/s]{'loss': 5.8421, 'grad_norm': 0.5637523531913757, 'learning_rate': 0.00028037383177570094, 'epoch': 0.03}
-                                                       3%|▎         | 300/10699 [19:58<1:35:59,  1.81it/s]  3%|▎         | 301/10699 [19:59<1:35:45,  1.81it/s]  3%|▎         | 302/10699 [19:59<1:34:27,  1.83it/s]  3%|▎         | 303/10699 [20:00<1:34:11,  1.84it/s]  3%|▎         | 304/10699 [20:00<1:33:24,  1.85it/s]  3%|▎         | 305/10699 [20:01<1:33:28,  1.85it/s]  3%|▎         | 306/10699 [20:02<1:34:51,  1.83it/s]  3%|▎         | 307/10699 [20:02<1:34:08,  1.84it/s]  3%|▎         | 308/10699 [20:03<1:33:41,  1.85it/s]  3%|▎         | 309/10699 [20:03<1:34:45,  1.83it/s]  3%|▎         | 310/10699 [20:04<1:34:21,  1.84it/s]  3%|▎         | 311/10699 [20:04<1:35:00,  1.82it/s]  3%|▎         | 312/10699 [20:05<1:38:52,  1.75it/s]  3%|▎         | 313/10699 [20:06<1:40:33,  1.72it/s]  3%|▎         | 314/10699 [20:06<1:38:47,  1.75it/s]  3%|▎         | 315/10699 [20:07<1:38:39,  1.75it/s]  3%|▎         | 316/10699 [20:07<1:38:22,  1.76it/s]  3%|▎         | 317/10699 [20:08<1:37:54,  1.77it/s]  3%|▎         | 318/10699 [20:08<1:38:23,  1.76it/s]  3%|▎         | 319/10699 [20:09<1:37:52,  1.77it/s]  3%|▎         | 320/10699 [20:09<1:37:09,  1.78it/s]  3%|▎         | 321/10699 [20:10<1:35:21,  1.81it/s]  3%|▎         | 322/10699 [20:10<1:33:52,  1.84it/s]  3%|▎         | 323/10699 [20:11<1:33:29,  1.85it/s]  3%|▎         | 324/10699 [20:12<1:34:26,  1.83it/s]  3%|▎         | 325/10699 [20:12<1:35:24,  1.81it/s]{'loss': 5.727, 'grad_norm': 0.7605959177017212, 'learning_rate': 0.00030373831775700936, 'epoch': 0.03}
-                                                       3%|▎         | 325/10699 [20:12<1:35:24,  1.81it/s]  3%|▎         | 326/10699 [20:13<1:35:24,  1.81it/s]  3%|▎         | 327/10699 [20:13<1:48:35,  1.59it/s]  3%|▎         | 328/10699 [20:14<1:59:40,  1.44it/s]  3%|▎         | 329/10699 [20:15<1:51:17,  1.55it/s]  3%|▎         | 330/10699 [20:15<1:47:00,  1.61it/s]  3%|▎         | 331/10699 [20:16<1:42:37,  1.68it/s]  3%|▎         | 332/10699 [20:17<1:39:27,  1.74it/s]  3%|▎         | 333/10699 [20:17<1:38:37,  1.75it/s]  3%|▎         | 334/10699 [20:18<1:36:30,  1.79it/s]  3%|▎         | 335/10699 [20:18<1:35:14,  1.81it/s]  3%|▎         | 336/10699 [20:19<1:34:03,  1.84it/s]  3%|▎         | 337/10699 [20:19<1:33:09,  1.85it/s]  3%|▎         | 338/10699 [20:20<1:32:36,  1.86it/s]  3%|▎         | 339/10699 [20:20<1:33:25,  1.85it/s]  3%|▎         | 340/10699 [20:21<1:32:56,  1.86it/s]  3%|▎         | 341/10699 [20:21<1:32:20,  1.87it/s]  3%|▎         | 342/10699 [20:22<1:31:46,  1.88it/s]  3%|▎         | 343/10699 [20:22<1:33:35,  1.84it/s]  3%|▎         | 344/10699 [20:23<1:32:33,  1.86it/s]  3%|▎         | 345/10699 [20:23<1:31:36,  1.88it/s]  3%|▎         | 346/10699 [20:24<1:31:28,  1.89it/s]  3%|▎         | 347/10699 [20:25<1:32:33,  1.86it/s]  3%|▎         | 348/10699 [20:25<1:31:56,  1.88it/s]  3%|▎         | 349/10699 [20:26<1:31:49,  1.88it/s]  3%|▎         | 350/10699 [20:26<1:31:43,  1.88it/s]{'loss': 5.6208, 'grad_norm': 0.7507522106170654, 'learning_rate': 0.0003271028037383177, 'epoch': 0.03}                                                     
-  3%|▎         | 350/10699 [20:26<1:31:43,  1.88it/s]  3%|▎         | 351/10699 [20:27<1:31:50,  1.88it/s]  3%|▎         | 352/10699 [20:27<1:31:27,  1.89it/s]  3%|▎         | 353/10699 [20:28<1:30:59,  1.90it/s]  3%|▎         | 354/10699 [20:28<1:32:17,  1.87it/s]  3%|▎         | 355/10699 [20:29<1:31:14,  1.89it/s]  3%|▎         | 356/10699 [20:29<1:31:19,  1.89it/s]  3%|▎         | 357/10699 [20:30<1:31:13,  1.89it/s]  3%|▎         | 358/10699 [20:30<1:30:29,  1.90it/s]  3%|▎         | 359/10699 [20:31<1:30:18,  1.91it/s]  3%|▎         | 360/10699 [20:31<1:30:10,  1.91it/s]  3%|▎         | 361/10699 [20:32<1:29:55,  1.92it/s]  3%|▎         | 362/10699 [20:32<1:31:10,  1.89it/s]  3%|▎         | 363/10699 [20:33<1:30:56,  1.89it/s]  3%|▎         | 364/10699 [20:34<1:30:50,  1.90it/s]  3%|▎         | 365/10699 [20:34<1:30:00,  1.91it/s]  3%|▎         | 366/10699 [20:35<1:30:15,  1.91it/s]  3%|▎         | 367/10699 [20:35<1:30:01,  1.91it/s]  3%|▎         | 368/10699 [20:36<1:30:24,  1.90it/s]  3%|▎         | 369/10699 [20:36<1:29:51,  1.92it/s]  3%|▎         | 370/10699 [20:37<1:30:17,  1.91it/s]  3%|▎         | 371/10699 [20:37<1:31:09,  1.89it/s]  3%|▎         | 372/10699 [20:38<1:30:47,  1.90it/s]  3%|▎         | 373/10699 [20:38<1:30:26,  1.90it/s]  3%|▎         | 374/10699 [20:39<1:30:21,  1.90it/s]  4%|▎         | 375/10699 [20:39<1:30:49,  1.89it/s]                                                     {'loss': 5.5169, 'grad_norm': 0.7023634910583496, 'learning_rate': 0.00035046728971962614, 'epoch': 0.04}
-  4%|▎         | 375/10699 [20:39<1:30:49,  1.89it/s]  4%|▎         | 376/10699 [20:40<1:30:26,  1.90it/s]  4%|▎         | 377/10699 [20:40<1:30:20,  1.90it/s]  4%|▎         | 378/10699 [20:41<1:29:49,  1.92it/s]  4%|▎         | 379/10699 [20:41<1:29:25,  1.92it/s]  4%|▎         | 380/10699 [20:42<1:29:36,  1.92it/s]  4%|▎         | 381/10699 [20:42<1:28:59,  1.93it/s]  4%|▎         | 382/10699 [20:43<1:28:45,  1.94it/s]  4%|▎         | 383/10699 [20:43<1:28:34,  1.94it/s]  4%|▎         | 384/10699 [20:44<1:28:40,  1.94it/s]  4%|▎         | 385/10699 [20:44<1:30:24,  1.90it/s]  4%|▎         | 386/10699 [20:45<1:30:40,  1.90it/s]  4%|▎         | 387/10699 [20:46<1:30:04,  1.91it/s]  4%|▎         | 388/10699 [20:46<1:29:29,  1.92it/s]  4%|▎         | 389/10699 [20:47<1:29:11,  1.93it/s]  4%|▎         | 390/10699 [20:47<1:28:57,  1.93it/s]  4%|▎         | 391/10699 [20:48<1:29:59,  1.91it/s]  4%|▎         | 392/10699 [20:48<1:29:14,  1.92it/s]  4%|▎         | 393/10699 [20:49<1:28:29,  1.94it/s]  4%|▎         | 394/10699 [20:49<1:28:28,  1.94it/s]  4%|▎         | 395/10699 [20:50<1:28:23,  1.94it/s]  4%|▎         | 396/10699 [20:50<1:28:02,  1.95it/s]  4%|▎         | 397/10699 [20:51<1:28:10,  1.95it/s]  4%|▎         | 398/10699 [20:51<1:28:59,  1.93it/s]  4%|▎         | 399/10699 [20:52<1:28:58,  1.93it/s]  4%|▎         | 400/10699 [20:52<1:29:41,  1.91it/s]{'loss': 5.4463, 'grad_norm': 1.0844649076461792, 'learning_rate': 0.00037383177570093456, 'epoch': 0.04}
-                                                       4%|▎         | 400/10699 [20:52<1:29:41,  1.91it/s]  4%|▎         | 401/10699 [20:53<1:30:18,  1.90it/s]  4%|▍         | 402/10699 [20:53<1:30:16,  1.90it/s]  4%|▍         | 403/10699 [20:54<1:31:30,  1.88it/s]  4%|▍         | 404/10699 [20:54<1:31:57,  1.87it/s]  4%|▍         | 405/10699 [20:55<1:31:29,  1.88it/s]  4%|▍         | 406/10699 [20:55<1:31:11,  1.88it/s]  4%|▍         | 407/10699 [20:56<1:30:16,  1.90it/s]  4%|▍         | 408/10699 [20:56<1:29:46,  1.91it/s]  4%|▍         | 409/10699 [20:57<1:29:39,  1.91it/s]  4%|▍         | 410/10699 [20:58<1:29:24,  1.92it/s]  4%|▍         | 411/10699 [20:58<1:29:30,  1.92it/s]  4%|▍         | 412/10699 [20:59<1:30:19,  1.90it/s]  4%|▍         | 413/10699 [20:59<1:29:47,  1.91it/s]  4%|▍         | 414/10699 [21:00<1:29:44,  1.91it/s]  4%|▍         | 415/10699 [21:00<1:29:22,  1.92it/s]  4%|▍         | 416/10699 [21:01<1:29:06,  1.92it/s]  4%|▍         | 417/10699 [21:01<1:30:17,  1.90it/s]  4%|▍         | 418/10699 [21:02<1:29:31,  1.91it/s]  4%|▍         | 419/10699 [21:02<1:28:46,  1.93it/s]  4%|▍         | 420/10699 [21:03<1:30:01,  1.90it/s]  4%|▍         | 421/10699 [21:03<1:29:18,  1.92it/s]  4%|▍         | 422/10699 [21:04<1:28:49,  1.93it/s]  4%|▍         | 423/10699 [21:04<1:28:38,  1.93it/s]  4%|▍         | 424/10699 [21:05<1:29:00,  1.92it/s]  4%|▍         | 425/10699 [21:05<1:29:03,  1.92it/s]                                                     {'loss': 5.3596, 'grad_norm': 0.7670020461082458, 'learning_rate': 0.000397196261682243, 'epoch': 0.04}
-  4%|▍         | 425/10699 [21:05<1:29:03,  1.92it/s]  4%|▍         | 426/10699 [21:06<1:28:56,  1.93it/s]  4%|▍         | 427/10699 [21:06<1:29:07,  1.92it/s]  4%|▍         | 428/10699 [21:07<1:28:46,  1.93it/s]  4%|▍         | 429/10699 [21:07<1:28:10,  1.94it/s]  4%|▍         | 430/10699 [21:08<1:28:24,  1.94it/s]  4%|▍         | 431/10699 [21:08<1:28:35,  1.93it/s]  4%|▍         | 432/10699 [21:09<1:28:26,  1.93it/s]  4%|▍         | 433/10699 [21:09<1:28:30,  1.93it/s]  4%|▍         | 434/10699 [21:10<1:28:48,  1.93it/s]  4%|▍         | 435/10699 [21:11<1:28:59,  1.92it/s]  4%|▍         | 436/10699 [21:11<1:29:10,  1.92it/s]  4%|▍         | 437/10699 [21:12<1:28:51,  1.92it/s]  4%|▍         | 438/10699 [21:12<1:28:38,  1.93it/s]  4%|▍         | 439/10699 [21:13<1:28:38,  1.93it/s]  4%|▍         | 440/10699 [21:13<1:28:03,  1.94it/s]  4%|▍         | 441/10699 [21:14<1:27:34,  1.95it/s]  4%|▍         | 442/10699 [21:14<1:27:54,  1.94it/s]  4%|▍         | 443/10699 [21:15<1:28:13,  1.94it/s]  4%|▍         | 444/10699 [21:15<1:28:21,  1.93it/s]  4%|▍         | 445/10699 [21:16<1:28:14,  1.94it/s]  4%|▍         | 446/10699 [21:16<1:28:59,  1.92it/s]  4%|▍         | 447/10699 [21:17<1:28:57,  1.92it/s]  4%|▍         | 448/10699 [21:17<1:28:50,  1.92it/s]  4%|▍         | 449/10699 [21:18<1:28:16,  1.94it/s]  4%|▍         | 450/10699 [21:18<1:27:58,  1.94it/s]{'loss': 5.2868, 'grad_norm': 0.666926383972168, 'learning_rate': 0.0004205607476635514, 'epoch': 0.04}                                                     
-  4%|▍         | 450/10699 [21:18<1:27:58,  1.94it/s]  4%|▍         | 451/10699 [21:19<1:27:51,  1.94it/s]  4%|▍         | 452/10699 [21:19<1:27:55,  1.94it/s]  4%|▍         | 453/10699 [21:20<1:27:18,  1.96it/s]  4%|▍         | 454/10699 [21:20<1:27:07,  1.96it/s]  4%|▍         | 455/10699 [21:21<1:26:50,  1.97it/s]  4%|▍         | 456/10699 [21:21<1:26:49,  1.97it/s]  4%|▍         | 457/10699 [21:22<1:26:40,  1.97it/s]  4%|▍         | 458/10699 [21:22<1:26:49,  1.97it/s]  4%|▍         | 459/10699 [21:23<1:27:05,  1.96it/s]  4%|▍         | 460/10699 [21:23<1:27:13,  1.96it/s]  4%|▍         | 461/10699 [21:24<1:27:54,  1.94it/s]  4%|▍         | 462/10699 [21:24<1:27:52,  1.94it/s]  4%|▍         | 463/10699 [21:25<1:27:43,  1.94it/s]  4%|▍         | 464/10699 [21:25<1:27:32,  1.95it/s]  4%|▍         | 465/10699 [21:26<1:27:27,  1.95it/s]  4%|▍         | 466/10699 [21:26<1:27:15,  1.95it/s]  4%|▍         | 467/10699 [21:27<1:26:58,  1.96it/s]  4%|▍         | 468/10699 [21:27<1:26:46,  1.97it/s]  4%|▍         | 469/10699 [21:28<1:26:47,  1.96it/s]  4%|▍         | 470/10699 [21:29<1:26:53,  1.96it/s]  4%|▍         | 471/10699 [21:29<1:27:01,  1.96it/s]  4%|▍         | 472/10699 [21:30<1:26:55,  1.96it/s]  4%|▍         | 473/10699 [21:30<1:26:52,  1.96it/s]  4%|▍         | 474/10699 [21:31<1:27:56,  1.94it/s]  4%|▍         | 475/10699 [21:31<1:27:24,  1.95it/s]{'loss': 5.2206, 'grad_norm': 0.5955590009689331, 'learning_rate': 0.0004439252336448598, 'epoch': 0.04}
-                                                       4%|▍         | 475/10699 [21:31<1:27:24,  1.95it/s]  4%|▍         | 476/10699 [21:32<1:27:15,  1.95it/s]  4%|▍         | 477/10699 [21:32<1:26:42,  1.96it/s]  4%|▍         | 478/10699 [21:33<1:26:22,  1.97it/s]  4%|▍         | 479/10699 [21:33<1:26:24,  1.97it/s]  4%|▍         | 480/10699 [21:34<1:26:38,  1.97it/s]  4%|▍         | 481/10699 [21:34<1:26:43,  1.96it/s]  5%|▍         | 482/10699 [21:35<1:26:20,  1.97it/s]  5%|▍         | 483/10699 [21:35<1:26:35,  1.97it/s]  5%|▍         | 484/10699 [21:36<1:26:44,  1.96it/s]  5%|▍         | 485/10699 [21:36<1:26:50,  1.96it/s]  5%|▍         | 486/10699 [21:37<1:26:41,  1.96it/s]  5%|▍         | 487/10699 [21:37<1:26:33,  1.97it/s]  5%|▍         | 488/10699 [21:38<1:26:50,  1.96it/s]  5%|▍         | 489/10699 [21:38<1:26:38,  1.96it/s]  5%|▍         | 490/10699 [21:39<1:26:34,  1.97it/s]  5%|▍         | 491/10699 [21:39<1:26:33,  1.97it/s]  5%|▍         | 492/10699 [21:40<1:26:16,  1.97it/s]  5%|▍         | 493/10699 [21:40<1:26:13,  1.97it/s]  5%|▍         | 494/10699 [21:41<1:26:11,  1.97it/s]  5%|▍         | 495/10699 [21:41<1:26:00,  1.98it/s]  5%|▍         | 496/10699 [21:42<1:25:49,  1.98it/s]  5%|▍         | 497/10699 [21:42<1:25:50,  1.98it/s]  5%|▍         | 498/10699 [21:43<1:26:02,  1.98it/s]  5%|▍         | 499/10699 [21:43<1:25:59,  1.98it/s]  5%|▍         | 500/10699 [21:44<1:25:59,  1.98it/s]{'loss': 5.1622, 'grad_norm': 0.5600642561912537, 'learning_rate': 0.00046728971962616824, 'epoch': 0.05}                                                     
-  5%|▍         | 500/10699 [21:44<1:25:59,  1.98it/s]  5%|▍         | 501/10699 [21:44<1:26:07,  1.97it/s]  5%|▍         | 502/10699 [21:45<1:26:03,  1.97it/s]  5%|▍         | 503/10699 [21:45<1:26:06,  1.97it/s]  5%|▍         | 504/10699 [21:46<1:25:51,  1.98it/s]  5%|▍         | 505/10699 [21:46<1:26:13,  1.97it/s]  5%|▍         | 506/10699 [21:47<1:26:08,  1.97it/s]  5%|▍         | 507/10699 [21:47<1:25:59,  1.98it/s]  5%|▍         | 508/10699 [21:48<1:25:51,  1.98it/s]  5%|▍         | 509/10699 [21:48<1:25:54,  1.98it/s]  5%|▍         | 510/10699 [21:49<1:25:48,  1.98it/s]  5%|▍         | 511/10699 [21:49<1:25:52,  1.98it/s]  5%|▍         | 512/10699 [21:50<1:25:45,  1.98it/s]  5%|▍         | 513/10699 [21:50<1:25:46,  1.98it/s]  5%|▍         | 514/10699 [21:51<1:25:58,  1.97it/s]  5%|▍         | 515/10699 [21:51<1:25:50,  1.98it/s]  5%|▍         | 516/10699 [21:52<1:25:32,  1.98it/s]  5%|▍         | 517/10699 [21:52<1:25:44,  1.98it/s]  5%|▍         | 518/10699 [21:53<1:26:56,  1.95it/s]  5%|▍         | 519/10699 [21:53<1:26:27,  1.96it/s]  5%|▍         | 520/10699 [21:54<1:26:10,  1.97it/s]  5%|▍         | 521/10699 [21:54<1:25:42,  1.98it/s]  5%|▍         | 522/10699 [21:55<1:25:30,  1.98it/s]  5%|▍         | 523/10699 [21:55<1:25:30,  1.98it/s]  5%|▍         | 524/10699 [21:56<1:25:23,  1.99it/s]  5%|▍         | 525/10699 [21:56<1:25:23,  1.99it/s]{'loss': 5.0941, 'grad_norm': 0.5795244574546814, 'learning_rate': 0.0004906542056074767, 'epoch': 0.05}
-                                                       5%|▍         | 525/10699 [21:56<1:25:23,  1.99it/s]  5%|▍         | 526/10699 [21:57<1:25:23,  1.99it/s]  5%|▍         | 527/10699 [21:57<1:25:28,  1.98it/s]  5%|▍         | 528/10699 [21:58<1:25:21,  1.99it/s]  5%|▍         | 529/10699 [21:58<1:25:22,  1.99it/s]  5%|▍         | 530/10699 [21:59<1:25:18,  1.99it/s]  5%|▍         | 531/10699 [21:59<1:25:15,  1.99it/s]  5%|▍         | 532/10699 [22:00<1:25:16,  1.99it/s]  5%|▍         | 533/10699 [22:00<1:25:09,  1.99it/s]  5%|▍         | 534/10699 [22:01<1:25:07,  1.99it/s]  5%|▌         | 535/10699 [22:01<1:25:11,  1.99it/s]  5%|▌         | 536/10699 [22:02<1:25:23,  1.98it/s]  5%|▌         | 537/10699 [22:02<1:25:18,  1.99it/s]  5%|▌         | 538/10699 [22:03<1:25:32,  1.98it/s]  5%|▌         | 539/10699 [22:03<1:25:40,  1.98it/s]  5%|▌         | 540/10699 [22:04<1:25:23,  1.98it/s]  5%|▌         | 541/10699 [22:04<1:25:13,  1.99it/s]  5%|▌         | 542/10699 [22:05<1:25:18,  1.98it/s]  5%|▌         | 543/10699 [22:05<1:25:15,  1.99it/s]  5%|▌         | 544/10699 [22:06<1:25:15,  1.99it/s]  5%|▌         | 545/10699 [22:06<1:25:11,  1.99it/s]  5%|▌         | 546/10699 [22:07<1:24:53,  1.99it/s]  5%|▌         | 547/10699 [22:07<1:24:54,  1.99it/s]  5%|▌         | 548/10699 [22:08<1:24:51,  1.99it/s]  5%|▌         | 549/10699 [22:08<1:24:51,  1.99it/s]  5%|▌         | 550/10699 [22:09<1:24:56,  1.99it/s]{'loss': 5.0558, 'grad_norm': 0.5862507820129395, 'learning_rate': 0.000514018691588785, 'epoch': 0.05}
-                                                       5%|▌         | 550/10699 [22:09<1:24:56,  1.99it/s]  5%|▌         | 551/10699 [22:09<1:25:06,  1.99it/s]  5%|▌         | 552/10699 [22:10<1:25:10,  1.99it/s]  5%|▌         | 553/10699 [22:10<1:25:05,  1.99it/s]  5%|▌         | 554/10699 [22:11<1:24:55,  1.99it/s]  5%|▌         | 555/10699 [22:11<1:24:56,  1.99it/s]  5%|▌         | 556/10699 [22:12<1:24:48,  1.99it/s]  5%|▌         | 557/10699 [22:12<1:24:38,  2.00it/s]  5%|▌         | 558/10699 [22:13<1:24:42,  2.00it/s]  5%|▌         | 559/10699 [22:13<1:24:40,  2.00it/s]  5%|▌         | 560/10699 [22:14<1:24:52,  1.99it/s]  5%|▌         | 561/10699 [22:14<1:24:41,  2.00it/s]  5%|▌         | 562/10699 [22:15<1:24:31,  2.00it/s]  5%|▌         | 563/10699 [22:15<1:24:32,  2.00it/s]  5%|▌         | 564/10699 [22:16<1:24:35,  2.00it/s]  5%|▌         | 565/10699 [22:16<1:24:29,  2.00it/s]  5%|▌         | 566/10699 [22:17<1:24:32,  2.00it/s]  5%|▌         | 567/10699 [22:17<1:24:41,  1.99it/s]  5%|▌         | 568/10699 [22:18<1:24:38,  1.99it/s]  5%|▌         | 569/10699 [22:19<1:25:13,  1.98it/s]  5%|▌         | 570/10699 [22:19<1:25:02,  1.99it/s]  5%|▌         | 571/10699 [22:20<1:24:55,  1.99it/s]  5%|▌         | 572/10699 [22:20<1:24:45,  1.99it/s]  5%|▌         | 573/10699 [22:21<1:24:44,  1.99it/s]  5%|▌         | 574/10699 [22:21<1:24:51,  1.99it/s]  5%|▌         | 575/10699 [22:22<1:24:53,  1.99it/s]{'loss': 5.0056, 'grad_norm': 0.5980538725852966, 'learning_rate': 0.0005373831775700935, 'epoch': 0.05}
-                                                       5%|▌         | 575/10699 [22:22<1:24:53,  1.99it/s]  5%|▌         | 576/10699 [22:22<1:25:06,  1.98it/s]  5%|▌         | 577/10699 [22:23<1:24:48,  1.99it/s]  5%|▌         | 578/10699 [22:23<1:24:37,  1.99it/s]  5%|▌         | 579/10699 [22:24<1:24:32,  2.00it/s]  5%|▌         | 580/10699 [22:24<1:24:36,  1.99it/s]  5%|▌         | 581/10699 [22:25<1:24:35,  1.99it/s]  5%|▌         | 582/10699 [22:25<1:24:31,  1.99it/s]  5%|▌         | 583/10699 [22:26<1:24:30,  2.00it/s]  5%|▌         | 584/10699 [22:26<1:24:25,  2.00it/s]  5%|▌         | 585/10699 [22:27<1:24:27,  2.00it/s]  5%|▌         | 586/10699 [22:27<1:24:24,  2.00it/s]  5%|▌         | 587/10699 [22:28<1:24:35,  1.99it/s]  5%|▌         | 588/10699 [22:28<1:24:26,  2.00it/s]  6%|▌         | 589/10699 [22:29<1:24:31,  1.99it/s]  6%|▌         | 590/10699 [22:29<1:24:31,  1.99it/s]  6%|▌         | 591/10699 [22:30<1:24:21,  2.00it/s]  6%|▌         | 592/10699 [22:30<1:24:20,  2.00it/s]  6%|▌         | 593/10699 [22:31<1:24:18,  2.00it/s]  6%|▌         | 594/10699 [22:31<1:24:12,  2.00it/s]  6%|▌         | 595/10699 [22:32<1:24:10,  2.00it/s]  6%|▌         | 596/10699 [22:32<1:24:13,  2.00it/s]  6%|▌         | 597/10699 [22:33<1:24:22,  2.00it/s]  6%|▌         | 598/10699 [22:33<1:24:15,  2.00it/s]  6%|▌         | 599/10699 [22:34<1:24:17,  2.00it/s]  6%|▌         | 600/10699 [22:34<1:24:13,  2.00it/s]{'loss': 4.9507, 'grad_norm': 0.5095354914665222, 'learning_rate': 0.0005607476635514019, 'epoch': 0.06}                                                     
-  6%|▌         | 600/10699 [22:34<1:24:13,  2.00it/s]  6%|▌         | 601/10699 [22:35<1:24:20,  2.00it/s]  6%|▌         | 602/10699 [22:35<1:24:28,  1.99it/s]  6%|▌         | 603/10699 [22:36<1:24:16,  2.00it/s]  6%|▌         | 604/10699 [22:36<1:24:09,  2.00it/s]  6%|▌         | 605/10699 [22:37<1:24:23,  1.99it/s]  6%|▌         | 606/10699 [22:37<1:24:16,  2.00it/s]  6%|▌         | 607/10699 [22:38<1:24:16,  2.00it/s]  6%|▌         | 608/10699 [22:38<1:24:09,  2.00it/s]  6%|▌         | 609/10699 [22:39<1:24:09,  2.00it/s]  6%|▌         | 610/10699 [22:39<1:24:12,  2.00it/s]  6%|▌         | 611/10699 [22:40<1:24:17,  1.99it/s]  6%|▌         | 612/10699 [22:40<1:24:16,  1.99it/s]  6%|▌         | 613/10699 [22:41<1:24:08,  2.00it/s]  6%|▌         | 614/10699 [22:41<1:24:01,  2.00it/s]  6%|▌         | 615/10699 [22:42<1:24:03,  2.00it/s]  6%|▌         | 616/10699 [22:42<1:23:52,  2.00it/s]  6%|▌         | 617/10699 [22:43<1:23:55,  2.00it/s]  6%|▌         | 618/10699 [22:43<1:24:01,  2.00it/s]  6%|▌         | 619/10699 [22:44<1:24:05,  2.00it/s]  6%|▌         | 620/10699 [22:44<1:24:06,  2.00it/s]  6%|▌         | 621/10699 [22:45<1:24:05,  2.00it/s]  6%|▌         | 622/10699 [22:45<1:24:08,  2.00it/s]  6%|▌         | 623/10699 [22:46<1:24:06,  2.00it/s]  6%|▌         | 624/10699 [22:46<1:24:01,  2.00it/s]  6%|▌         | 625/10699 [22:47<1:24:04,  2.00it/s]                                                     {'loss': 4.9062, 'grad_norm': 0.4939446449279785, 'learning_rate': 0.0005841121495327103, 'epoch': 0.06}
-  6%|▌         | 625/10699 [22:47<1:24:04,  2.00it/s]  6%|▌         | 626/10699 [22:47<1:23:54,  2.00it/s]  6%|▌         | 627/10699 [22:48<1:23:54,  2.00it/s]  6%|▌         | 628/10699 [22:48<1:23:57,  2.00it/s]  6%|▌         | 629/10699 [22:49<1:23:49,  2.00it/s]  6%|▌         | 630/10699 [22:49<1:23:43,  2.00it/s]  6%|▌         | 631/10699 [22:50<1:23:48,  2.00it/s]  6%|▌         | 632/10699 [22:50<1:23:48,  2.00it/s]  6%|▌         | 633/10699 [22:51<1:24:03,  2.00it/s]  6%|▌         | 634/10699 [22:51<1:23:57,  2.00it/s]  6%|▌         | 635/10699 [22:52<1:24:01,  2.00it/s]  6%|▌         | 636/10699 [22:52<1:24:09,  1.99it/s]  6%|▌         | 637/10699 [22:53<1:24:12,  1.99it/s]  6%|▌         | 638/10699 [22:53<1:23:58,  2.00it/s]  6%|▌         | 639/10699 [22:54<1:23:59,  2.00it/s]  6%|▌         | 640/10699 [22:54<1:24:05,  1.99it/s]  6%|▌         | 641/10699 [22:55<1:24:12,  1.99it/s]  6%|▌         | 642/10699 [22:55<1:24:01,  1.99it/s]  6%|▌         | 643/10699 [22:56<1:23:46,  2.00it/s]  6%|▌         | 644/10699 [22:56<1:23:50,  2.00it/s]  6%|▌         | 645/10699 [22:57<1:24:00,  1.99it/s]  6%|▌         | 646/10699 [22:57<1:24:01,  1.99it/s]  6%|▌         | 647/10699 [22:58<1:24:00,  1.99it/s]  6%|▌         | 648/10699 [22:58<1:23:49,  2.00it/s]  6%|▌         | 649/10699 [22:59<1:23:43,  2.00it/s]  6%|▌         | 650/10699 [22:59<1:23:36,  2.00it/s]{'loss': 4.8758, 'grad_norm': 0.7301427721977234, 'learning_rate': 0.0006074766355140187, 'epoch': 0.06}                                                     
-  6%|▌         | 650/10699 [22:59<1:23:36,  2.00it/s]  6%|▌         | 651/10699 [23:00<1:23:38,  2.00it/s]  6%|▌         | 652/10699 [23:00<1:23:51,  2.00it/s]  6%|▌         | 653/10699 [23:01<1:23:45,  2.00it/s]  6%|▌         | 654/10699 [23:01<1:23:36,  2.00it/s]  6%|▌         | 655/10699 [23:02<1:23:40,  2.00it/s]  6%|▌         | 656/10699 [23:02<1:23:36,  2.00it/s]  6%|▌         | 657/10699 [23:03<1:23:33,  2.00it/s]  6%|▌         | 658/10699 [23:03<1:23:41,  2.00it/s]  6%|▌         | 659/10699 [23:04<1:23:36,  2.00it/s]  6%|▌         | 660/10699 [23:04<1:23:30,  2.00it/s]  6%|▌         | 661/10699 [23:05<1:23:31,  2.00it/s]  6%|▌         | 662/10699 [23:05<1:23:30,  2.00it/s]  6%|▌         | 663/10699 [23:06<1:23:42,  2.00it/s]  6%|▌         | 664/10699 [23:06<1:23:31,  2.00it/s]  6%|▌         | 665/10699 [23:07<1:23:35,  2.00it/s]  6%|▌         | 666/10699 [23:07<1:23:36,  2.00it/s]  6%|▌         | 667/10699 [23:08<1:23:33,  2.00it/s]  6%|▌         | 668/10699 [23:08<1:23:21,  2.01it/s]  6%|▋         | 669/10699 [23:09<1:23:24,  2.00it/s]  6%|▋         | 670/10699 [23:09<1:23:17,  2.01it/s]  6%|▋         | 671/10699 [23:10<1:23:29,  2.00it/s]  6%|▋         | 672/10699 [23:10<1:23:27,  2.00it/s]  6%|▋         | 673/10699 [23:11<1:23:30,  2.00it/s]  6%|▋         | 674/10699 [23:11<1:23:26,  2.00it/s]  6%|▋         | 675/10699 [23:12<1:23:22,  2.00it/s]{'loss': 4.8362, 'grad_norm': 0.4479465186595917, 'learning_rate': 0.0006308411214953271, 'epoch': 0.06}
-                                                       6%|▋         | 675/10699 [23:12<1:23:22,  2.00it/s]  6%|▋         | 676/10699 [23:12<1:23:30,  2.00it/s]  6%|▋         | 677/10699 [23:13<1:23:23,  2.00it/s]  6%|▋         | 678/10699 [23:13<1:23:17,  2.01it/s]  6%|▋         | 679/10699 [23:14<1:23:16,  2.01it/s]  6%|▋         | 680/10699 [23:14<1:23:14,  2.01it/s]  6%|▋         | 681/10699 [23:15<1:23:10,  2.01it/s]  6%|▋         | 682/10699 [23:15<1:23:16,  2.00it/s]  6%|▋         | 683/10699 [23:16<1:23:21,  2.00it/s]  6%|▋         | 684/10699 [23:16<1:23:11,  2.01it/s]  6%|▋         | 685/10699 [23:17<1:23:17,  2.00it/s]  6%|▋         | 686/10699 [23:17<1:23:29,  2.00it/s]  6%|▋         | 687/10699 [23:18<1:23:38,  1.99it/s]  6%|▋         | 688/10699 [23:18<1:23:28,  2.00it/s]  6%|▋         | 689/10699 [23:19<1:23:23,  2.00it/s]  6%|▋         | 690/10699 [23:19<1:23:22,  2.00it/s]  6%|▋         | 691/10699 [23:20<1:23:17,  2.00it/s]  6%|▋         | 692/10699 [23:20<1:23:08,  2.01it/s]  6%|▋         | 693/10699 [23:21<1:23:14,  2.00it/s]  6%|▋         | 694/10699 [23:21<1:23:10,  2.00it/s]  6%|▋         | 695/10699 [23:22<1:23:17,  2.00it/s]  7%|▋         | 696/10699 [23:22<1:23:12,  2.00it/s]  7%|▋         | 697/10699 [23:23<1:23:05,  2.01it/s]  7%|▋         | 698/10699 [23:23<1:23:09,  2.00it/s]  7%|▋         | 699/10699 [23:24<1:23:13,  2.00it/s]  7%|▋         | 700/10699 [23:24<1:23:09,  2.00it/s]                                                     {'loss': 4.8083, 'grad_norm': 0.4112502932548523, 'learning_rate': 0.0006542056074766354, 'epoch': 0.07}
-  7%|▋         | 700/10699 [23:24<1:23:09,  2.00it/s]  7%|▋         | 701/10699 [23:25<1:23:18,  2.00it/s]  7%|▋         | 702/10699 [23:25<1:23:17,  2.00it/s]  7%|▋         | 703/10699 [23:26<1:23:09,  2.00it/s]  7%|▋         | 704/10699 [23:26<1:23:08,  2.00it/s]  7%|▋         | 705/10699 [23:27<1:23:07,  2.00it/s]  7%|▋         | 706/10699 [23:27<1:23:01,  2.01it/s]  7%|▋         | 707/10699 [23:28<1:22:51,  2.01it/s]  7%|▋         | 708/10699 [23:28<1:22:49,  2.01it/s]  7%|▋         | 709/10699 [23:29<1:22:58,  2.01it/s]  7%|▋         | 710/10699 [23:29<1:23:04,  2.00it/s]  7%|▋         | 711/10699 [23:30<1:22:59,  2.01it/s]  7%|▋         | 712/10699 [23:30<1:22:56,  2.01it/s]  7%|▋         | 713/10699 [23:31<1:23:12,  2.00it/s]  7%|▋         | 714/10699 [23:31<1:23:03,  2.00it/s]  7%|▋         | 715/10699 [23:32<1:22:59,  2.01it/s]  7%|▋         | 716/10699 [23:32<1:22:56,  2.01it/s]  7%|▋         | 717/10699 [23:33<1:22:47,  2.01it/s]  7%|▋         | 718/10699 [23:33<1:22:47,  2.01it/s]  7%|▋         | 719/10699 [23:34<1:22:47,  2.01it/s]  7%|▋         | 720/10699 [23:34<1:22:46,  2.01it/s]  7%|▋         | 721/10699 [23:35<1:22:56,  2.01it/s]  7%|▋         | 722/10699 [23:35<1:22:46,  2.01it/s]  7%|▋         | 723/10699 [23:36<1:22:45,  2.01it/s]  7%|▋         | 724/10699 [23:36<1:22:42,  2.01it/s]  7%|▋         | 725/10699 [23:37<1:22:41,  2.01it/s]{'loss': 4.7745, 'grad_norm': 0.40841567516326904, 'learning_rate': 0.0006775700934579439, 'epoch': 0.07}                                                     
-  7%|▋         | 725/10699 [23:37<1:22:41,  2.01it/s]  7%|▋         | 726/10699 [23:37<1:22:43,  2.01it/s]  7%|▋         | 727/10699 [23:38<1:22:48,  2.01it/s]  7%|▋         | 728/10699 [23:38<1:22:44,  2.01it/s]  7%|▋         | 729/10699 [23:38<1:22:43,  2.01it/s]  7%|▋         | 730/10699 [23:39<1:23:02,  2.00it/s]  7%|▋         | 731/10699 [23:39<1:22:54,  2.00it/s]  7%|▋         | 732/10699 [23:40<1:22:45,  2.01it/s]  7%|▋         | 733/10699 [23:40<1:22:43,  2.01it/s]  7%|▋         | 734/10699 [23:41<1:22:51,  2.00it/s]  7%|▋         | 735/10699 [23:41<1:22:56,  2.00it/s]  7%|▋         | 736/10699 [23:42<1:22:47,  2.01it/s]  7%|▋         | 737/10699 [23:42<1:22:41,  2.01it/s]  7%|▋         | 738/10699 [23:43<1:22:35,  2.01it/s]  7%|▋         | 739/10699 [23:43<1:22:40,  2.01it/s]  7%|▋         | 740/10699 [23:44<1:22:31,  2.01it/s]  7%|▋         | 741/10699 [23:44<1:22:36,  2.01it/s]  7%|▋         | 742/10699 [23:45<1:22:42,  2.01it/s]  7%|▋         | 743/10699 [23:45<1:22:37,  2.01it/s]  7%|▋         | 744/10699 [23:46<1:22:33,  2.01it/s]  7%|▋         | 745/10699 [23:46<1:22:38,  2.01it/s]  7%|▋         | 746/10699 [23:47<1:22:29,  2.01it/s]  7%|▋         | 747/10699 [23:47<1:22:39,  2.01it/s]  7%|▋         | 748/10699 [23:48<1:22:33,  2.01it/s]  7%|▋         | 749/10699 [23:48<1:22:29,  2.01it/s]  7%|▋         | 750/10699 [23:49<1:22:37,  2.01it/s]{'loss': 4.7419, 'grad_norm': 0.3774639368057251, 'learning_rate': 0.0007009345794392523, 'epoch': 0.07}                                                     
-  7%|▋         | 750/10699 [23:49<1:22:37,  2.01it/s]  7%|▋         | 751/10699 [23:49<1:22:48,  2.00it/s]  7%|▋         | 752/10699 [23:50<1:22:42,  2.00it/s]  7%|▋         | 753/10699 [23:50<1:22:37,  2.01it/s]  7%|▋         | 754/10699 [23:51<1:22:33,  2.01it/s]  7%|▋         | 755/10699 [23:51<1:22:26,  2.01it/s]  7%|▋         | 756/10699 [23:52<1:22:38,  2.01it/s]  7%|▋         | 757/10699 [23:52<1:22:32,  2.01it/s]  7%|▋         | 758/10699 [23:53<1:22:28,  2.01it/s]  7%|▋         | 759/10699 [23:53<1:22:30,  2.01it/s]  7%|▋         | 760/10699 [23:54<1:22:27,  2.01it/s]  7%|▋         | 761/10699 [23:54<1:22:21,  2.01it/s]  7%|▋         | 762/10699 [23:55<1:22:14,  2.01it/s]  7%|▋         | 763/10699 [23:55<1:22:17,  2.01it/s]  7%|▋         | 764/10699 [23:56<1:22:20,  2.01it/s]  7%|▋         | 765/10699 [23:56<1:22:19,  2.01it/s]  7%|▋         | 766/10699 [23:57<1:22:15,  2.01it/s]  7%|▋         | 767/10699 [23:57<1:22:14,  2.01it/s]  7%|▋         | 768/10699 [23:58<1:22:19,  2.01it/s]  7%|▋         | 769/10699 [23:58<1:22:22,  2.01it/s]  7%|▋         | 770/10699 [23:59<1:22:22,  2.01it/s]  7%|▋         | 771/10699 [23:59<1:22:24,  2.01it/s]  7%|▋         | 772/10699 [24:00<1:22:28,  2.01it/s]  7%|▋         | 773/10699 [24:00<1:22:44,  2.00it/s]  7%|▋         | 774/10699 [24:01<1:22:29,  2.01it/s]  7%|▋         | 775/10699 [24:01<1:22:24,  2.01it/s]{'loss': 4.7163, 'grad_norm': 0.4233819842338562, 'learning_rate': 0.0007242990654205608, 'epoch': 0.07}                                                     
-  7%|▋         | 775/10699 [24:01<1:22:24,  2.01it/s]  7%|▋         | 776/10699 [24:02<1:22:38,  2.00it/s]  7%|▋         | 777/10699 [24:02<1:22:27,  2.01it/s]  7%|▋         | 778/10699 [24:03<1:22:36,  2.00it/s]  7%|▋         | 779/10699 [24:03<1:22:31,  2.00it/s]  7%|▋         | 780/10699 [24:04<1:22:23,  2.01it/s]  7%|▋         | 781/10699 [24:04<1:22:25,  2.01it/s]  7%|▋         | 782/10699 [24:05<1:22:25,  2.01it/s]  7%|▋         | 783/10699 [24:05<1:22:13,  2.01it/s]  7%|▋         | 784/10699 [24:06<1:22:21,  2.01it/s]  7%|▋         | 785/10699 [24:06<1:22:16,  2.01it/s]  7%|▋         | 786/10699 [24:07<1:22:12,  2.01it/s]  7%|▋         | 787/10699 [24:07<1:22:20,  2.01it/s]  7%|▋         | 788/10699 [24:08<1:22:20,  2.01it/s]  7%|▋         | 789/10699 [24:08<1:22:11,  2.01it/s]  7%|▋         | 790/10699 [24:09<1:22:06,  2.01it/s]  7%|▋         | 791/10699 [24:09<1:22:21,  2.01it/s]  7%|▋         | 792/10699 [24:10<1:22:35,  2.00it/s]  7%|▋         | 793/10699 [24:10<1:22:26,  2.00it/s]  7%|▋         | 794/10699 [24:11<1:22:33,  2.00it/s]  7%|▋         | 795/10699 [24:11<1:22:20,  2.00it/s]  7%|▋         | 796/10699 [24:12<1:22:15,  2.01it/s]  7%|▋         | 797/10699 [24:12<1:22:08,  2.01it/s]  7%|▋         | 798/10699 [24:13<1:22:07,  2.01it/s]  7%|▋         | 799/10699 [24:13<1:22:07,  2.01it/s]  7%|▋         | 800/10699 [24:14<1:22:05,  2.01it/s]                                                     {'loss': 4.6888, 'grad_norm': 0.4282715916633606, 'learning_rate': 0.0007476635514018691, 'epoch': 0.07}
-  7%|▋         | 800/10699 [24:14<1:22:05,  2.01it/s]  7%|▋         | 801/10699 [24:14<1:22:09,  2.01it/s]  7%|▋         | 802/10699 [24:15<1:22:10,  2.01it/s]  8%|▊         | 803/10699 [24:15<1:22:09,  2.01it/s]  8%|▊         | 804/10699 [24:16<1:22:04,  2.01it/s]  8%|▊         | 805/10699 [24:16<1:21:57,  2.01it/s]  8%|▊         | 806/10699 [24:17<1:21:53,  2.01it/s]  8%|▊         | 807/10699 [24:17<1:21:56,  2.01it/s]  8%|▊         | 808/10699 [24:18<1:21:51,  2.01it/s]  8%|▊         | 809/10699 [24:18<1:21:53,  2.01it/s]  8%|▊         | 810/10699 [24:19<1:21:52,  2.01it/s]  8%|▊         | 811/10699 [24:19<1:21:54,  2.01it/s]  8%|▊         | 812/10699 [24:20<1:21:48,  2.01it/s]  8%|▊         | 813/10699 [24:20<1:21:47,  2.01it/s]  8%|▊         | 814/10699 [24:21<1:21:41,  2.02it/s]  8%|▊         | 815/10699 [24:21<1:21:53,  2.01it/s]  8%|▊         | 816/10699 [24:22<1:21:47,  2.01it/s]  8%|▊         | 817/10699 [24:22<1:21:50,  2.01it/s]  8%|▊         | 818/10699 [24:23<1:21:52,  2.01it/s]  8%|▊         | 819/10699 [24:23<1:21:53,  2.01it/s]  8%|▊         | 820/10699 [24:24<1:21:56,  2.01it/s]  8%|▊         | 821/10699 [24:24<1:21:56,  2.01it/s]  8%|▊         | 822/10699 [24:25<1:21:55,  2.01it/s]  8%|▊         | 823/10699 [24:25<1:21:53,  2.01it/s]  8%|▊         | 824/10699 [24:26<1:21:55,  2.01it/s]  8%|▊         | 825/10699 [24:26<1:22:01,  2.01it/s]                                                     {'loss': 4.6689, 'grad_norm': 0.42912834882736206, 'learning_rate': 0.0007710280373831776, 'epoch': 0.08}
-  8%|▊         | 825/10699 [24:26<1:22:01,  2.01it/s]  8%|▊         | 826/10699 [24:27<1:22:04,  2.01it/s]  8%|▊         | 827/10699 [24:27<1:21:58,  2.01it/s]  8%|▊         | 828/10699 [24:28<1:21:49,  2.01it/s]  8%|▊         | 829/10699 [24:28<1:21:44,  2.01it/s]  8%|▊         | 830/10699 [24:29<1:21:45,  2.01it/s]  8%|▊         | 831/10699 [24:29<1:21:47,  2.01it/s]  8%|▊         | 832/10699 [24:30<1:22:02,  2.00it/s]  8%|▊         | 833/10699 [24:30<1:22:00,  2.01it/s]  8%|▊         | 834/10699 [24:31<1:21:55,  2.01it/s]  8%|▊         | 835/10699 [24:31<1:21:49,  2.01it/s]  8%|▊         | 836/10699 [24:32<1:21:52,  2.01it/s]  8%|▊         | 837/10699 [24:32<1:21:45,  2.01it/s]  8%|▊         | 838/10699 [24:33<1:21:40,  2.01it/s]  8%|▊         | 839/10699 [24:33<1:21:42,  2.01it/s]  8%|▊         | 840/10699 [24:34<1:21:45,  2.01it/s]  8%|▊         | 841/10699 [24:34<1:21:39,  2.01it/s]  8%|▊         | 842/10699 [24:35<1:21:44,  2.01it/s]  8%|▊         | 843/10699 [24:35<1:21:32,  2.01it/s]  8%|▊         | 844/10699 [24:36<1:21:33,  2.01it/s]  8%|▊         | 845/10699 [24:36<1:21:28,  2.02it/s]  8%|▊         | 846/10699 [24:37<1:21:33,  2.01it/s]  8%|▊         | 847/10699 [24:37<1:21:34,  2.01it/s]  8%|▊         | 848/10699 [24:38<1:21:32,  2.01it/s]  8%|▊         | 849/10699 [24:38<1:21:38,  2.01it/s]  8%|▊         | 850/10699 [24:39<1:21:33,  2.01it/s]                                                     {'loss': 4.6384, 'grad_norm': 0.371835857629776, 'learning_rate': 0.000794392523364486, 'epoch': 0.08}
-  8%|▊         | 850/10699 [24:39<1:21:33,  2.01it/s]  8%|▊         | 851/10699 [24:39<1:21:41,  2.01it/s]  8%|▊         | 852/10699 [24:40<1:21:47,  2.01it/s]  8%|▊         | 853/10699 [24:40<1:21:39,  2.01it/s]  8%|▊         | 854/10699 [24:41<1:21:38,  2.01it/s]  8%|▊         | 855/10699 [24:41<1:21:35,  2.01it/s]  8%|▊         | 856/10699 [24:42<1:21:32,  2.01it/s]  8%|▊         | 857/10699 [24:42<1:21:26,  2.01it/s]  8%|▊         | 858/10699 [24:43<1:21:28,  2.01it/s]  8%|▊         | 859/10699 [24:43<1:21:27,  2.01it/s]  8%|▊         | 860/10699 [24:44<1:21:31,  2.01it/s]  8%|▊         | 861/10699 [24:44<1:21:29,  2.01it/s]  8%|▊         | 862/10699 [24:45<1:21:28,  2.01it/s]  8%|▊         | 863/10699 [24:45<1:21:24,  2.01it/s]  8%|▊         | 864/10699 [24:46<1:21:21,  2.01it/s]  8%|▊         | 865/10699 [24:46<1:21:17,  2.02it/s]  8%|▊         | 866/10699 [24:47<1:21:22,  2.01it/s]  8%|▊         | 867/10699 [24:47<1:21:20,  2.01it/s]  8%|▊         | 868/10699 [24:48<1:21:24,  2.01it/s]  8%|▊         | 869/10699 [24:48<1:21:26,  2.01it/s]  8%|▊         | 870/10699 [24:49<1:21:18,  2.01it/s]  8%|▊         | 871/10699 [24:49<1:21:28,  2.01it/s]  8%|▊         | 872/10699 [24:50<1:21:24,  2.01it/s]  8%|▊         | 873/10699 [24:50<1:21:18,  2.01it/s]  8%|▊         | 874/10699 [24:51<1:21:25,  2.01it/s]  8%|▊         | 875/10699 [24:51<1:21:24,  2.01it/s]{'loss': 4.6145, 'grad_norm': 0.3421951234340668, 'learning_rate': 0.0008177570093457944, 'epoch': 0.08}
-                                                       8%|▊         | 875/10699 [24:51<1:21:24,  2.01it/s]  8%|▊         | 876/10699 [24:52<1:21:29,  2.01it/s]  8%|▊         | 877/10699 [24:52<1:21:24,  2.01it/s]  8%|▊         | 878/10699 [24:53<1:21:19,  2.01it/s]  8%|▊         | 879/10699 [24:53<1:21:20,  2.01it/s]  8%|▊         | 880/10699 [24:54<1:21:11,  2.02it/s]  8%|▊         | 881/10699 [24:54<1:21:14,  2.01it/s]  8%|▊         | 882/10699 [24:55<1:21:20,  2.01it/s]  8%|▊         | 883/10699 [24:55<1:21:13,  2.01it/s]  8%|▊         | 884/10699 [24:56<1:21:13,  2.01it/s]  8%|▊         | 885/10699 [24:56<1:21:08,  2.02it/s]  8%|▊         | 886/10699 [24:57<1:21:13,  2.01it/s]  8%|▊         | 887/10699 [24:57<1:21:10,  2.01it/s]  8%|▊         | 888/10699 [24:58<1:21:12,  2.01it/s]  8%|▊         | 889/10699 [24:58<1:21:17,  2.01it/s]  8%|▊         | 890/10699 [24:59<1:21:18,  2.01it/s]  8%|▊         | 891/10699 [24:59<1:21:13,  2.01it/s]  8%|▊         | 892/10699 [25:00<1:21:09,  2.01it/s]  8%|▊         | 893/10699 [25:00<1:21:06,  2.02it/s]  8%|▊         | 894/10699 [25:01<1:21:05,  2.02it/s]  8%|▊         | 895/10699 [25:01<1:21:09,  2.01it/s]  8%|▊         | 896/10699 [25:02<1:21:02,  2.02it/s]  8%|▊         | 897/10699 [25:02<1:20:59,  2.02it/s]  8%|▊         | 898/10699 [25:03<1:21:04,  2.01it/s]  8%|▊         | 899/10699 [25:03<1:21:07,  2.01it/s]  8%|▊         | 900/10699 [25:04<1:21:08,  2.01it/s]{'loss': 4.5985, 'grad_norm': 0.3726758360862732, 'learning_rate': 0.0008411214953271028, 'epoch': 0.08}                                                     
-  8%|▊         | 900/10699 [25:04<1:21:08,  2.01it/s]  8%|▊         | 901/10699 [25:04<1:21:18,  2.01it/s]  8%|▊         | 902/10699 [25:05<1:21:14,  2.01it/s]  8%|▊         | 903/10699 [25:05<1:21:12,  2.01it/s]  8%|▊         | 904/10699 [25:06<1:21:16,  2.01it/s]  8%|▊         | 905/10699 [25:06<1:21:08,  2.01it/s]  8%|▊         | 906/10699 [25:07<1:21:01,  2.01it/s]  8%|▊         | 907/10699 [25:07<1:21:02,  2.01it/s]  8%|▊         | 908/10699 [25:08<1:20:56,  2.02it/s]  8%|▊         | 909/10699 [25:08<1:20:59,  2.01it/s]  9%|▊         | 910/10699 [25:09<1:20:59,  2.01it/s]  9%|▊         | 911/10699 [25:09<1:21:00,  2.01it/s]  9%|▊         | 912/10699 [25:10<1:21:01,  2.01it/s]  9%|▊         | 913/10699 [25:10<1:21:07,  2.01it/s]  9%|▊         | 914/10699 [25:11<1:21:01,  2.01it/s]  9%|▊         | 915/10699 [25:11<1:21:01,  2.01it/s]  9%|▊         | 916/10699 [25:12<1:20:53,  2.02it/s]  9%|▊         | 917/10699 [25:12<1:20:57,  2.01it/s]  9%|▊         | 918/10699 [25:13<1:20:58,  2.01it/s]  9%|▊         | 919/10699 [25:13<1:20:55,  2.01it/s]  9%|▊         | 920/10699 [25:14<1:20:51,  2.02it/s]  9%|▊         | 921/10699 [25:14<1:20:50,  2.02it/s]  9%|▊         | 922/10699 [25:14<1:20:55,  2.01it/s]  9%|▊         | 923/10699 [25:15<1:20:52,  2.01it/s]  9%|▊         | 924/10699 [25:15<1:20:47,  2.02it/s]  9%|▊         | 925/10699 [25:16<1:20:47,  2.02it/s]{'loss': 4.5741, 'grad_norm': 0.4508194923400879, 'learning_rate': 0.0008644859813084113, 'epoch': 0.09}                                                     
-  9%|▊         | 925/10699 [25:16<1:20:47,  2.02it/s]  9%|▊         | 926/10699 [25:16<1:20:52,  2.01it/s]  9%|▊         | 927/10699 [25:17<1:20:48,  2.02it/s]  9%|▊         | 928/10699 [25:17<1:20:48,  2.02it/s]  9%|▊         | 929/10699 [25:18<1:20:47,  2.02it/s]  9%|▊         | 930/10699 [25:18<1:20:51,  2.01it/s]  9%|▊         | 931/10699 [25:19<1:20:53,  2.01it/s]  9%|▊         | 932/10699 [25:19<1:20:47,  2.01it/s]  9%|▊         | 933/10699 [25:20<1:20:41,  2.02it/s]  9%|▊         | 934/10699 [25:20<1:20:44,  2.02it/s]  9%|▊         | 935/10699 [25:21<1:20:41,  2.02it/s]  9%|▊         | 936/10699 [25:21<1:20:41,  2.02it/s]  9%|▉         | 937/10699 [25:22<1:20:42,  2.02it/s]  9%|▉         | 938/10699 [25:22<1:20:40,  2.02it/s]  9%|▉         | 939/10699 [25:23<1:20:43,  2.02it/s]  9%|▉         | 940/10699 [25:23<1:20:43,  2.01it/s]  9%|▉         | 941/10699 [25:24<1:20:45,  2.01it/s]  9%|▉         | 942/10699 [25:24<1:20:42,  2.01it/s]  9%|▉         | 943/10699 [25:25<1:20:43,  2.01it/s]  9%|▉         | 944/10699 [25:25<1:20:38,  2.02it/s]  9%|▉         | 945/10699 [25:26<1:20:41,  2.01it/s]  9%|▉         | 946/10699 [25:26<1:20:39,  2.02it/s]  9%|▉         | 947/10699 [25:27<1:20:37,  2.02it/s]  9%|▉         | 948/10699 [25:27<1:20:41,  2.01it/s]  9%|▉         | 949/10699 [25:28<1:20:35,  2.02it/s]  9%|▉         | 950/10699 [25:28<1:20:34,  2.02it/s]{'loss': 4.5493, 'grad_norm': 0.3980207145214081, 'learning_rate': 0.0008878504672897196, 'epoch': 0.09}
-                                                       9%|▉         | 950/10699 [25:28<1:20:34,  2.02it/s]  9%|▉         | 951/10699 [25:29<1:20:37,  2.02it/s]  9%|▉         | 952/10699 [25:29<1:20:39,  2.01it/s]  9%|▉         | 953/10699 [25:30<1:20:35,  2.02it/s]  9%|▉         | 954/10699 [25:30<1:20:33,  2.02it/s]  9%|▉         | 955/10699 [25:31<1:20:30,  2.02it/s]  9%|▉         | 956/10699 [25:31<1:20:30,  2.02it/s]  9%|▉         | 957/10699 [25:32<1:20:34,  2.01it/s]  9%|▉         | 958/10699 [25:32<1:20:27,  2.02it/s]  9%|▉         | 959/10699 [25:33<1:20:32,  2.02it/s]  9%|▉         | 960/10699 [25:33<1:20:26,  2.02it/s]  9%|▉         | 961/10699 [25:34<1:20:32,  2.01it/s]  9%|▉         | 962/10699 [25:34<1:20:32,  2.01it/s]  9%|▉         | 963/10699 [25:35<1:20:33,  2.01it/s]  9%|▉         | 964/10699 [25:35<1:20:32,  2.01it/s]  9%|▉         | 965/10699 [25:36<1:20:29,  2.02it/s]  9%|▉         | 966/10699 [25:36<1:20:30,  2.01it/s]  9%|▉         | 967/10699 [25:37<1:20:30,  2.01it/s]  9%|▉         | 968/10699 [25:37<1:20:34,  2.01it/s]  9%|▉         | 969/10699 [25:38<1:20:31,  2.01it/s]  9%|▉         | 970/10699 [25:38<1:20:29,  2.01it/s]  9%|▉         | 971/10699 [25:39<1:20:29,  2.01it/s]  9%|▉         | 972/10699 [25:39<1:20:36,  2.01it/s]  9%|▉         | 973/10699 [25:40<1:20:25,  2.02it/s]  9%|▉         | 974/10699 [25:40<1:20:28,  2.01it/s]  9%|▉         | 975/10699 [25:41<1:20:27,  2.01it/s]{'loss': 4.5387, 'grad_norm': 0.3435669541358948, 'learning_rate': 0.0009112149532710281, 'epoch': 0.09}                                                     
-  9%|▉         | 975/10699 [25:41<1:20:27,  2.01it/s]  9%|▉         | 976/10699 [25:41<1:20:34,  2.01it/s]  9%|▉         | 977/10699 [25:42<1:20:28,  2.01it/s]  9%|▉         | 978/10699 [25:42<1:20:30,  2.01it/s]  9%|▉         | 979/10699 [25:43<1:20:28,  2.01it/s]  9%|▉         | 980/10699 [25:43<1:20:23,  2.02it/s]  9%|▉         | 981/10699 [25:44<1:20:20,  2.02it/s]  9%|▉         | 982/10699 [25:44<1:20:21,  2.02it/s]  9%|▉         | 983/10699 [25:45<1:20:22,  2.01it/s]  9%|▉         | 984/10699 [25:45<1:20:21,  2.01it/s]  9%|▉         | 985/10699 [25:46<1:20:20,  2.02it/s]  9%|▉         | 986/10699 [25:46<1:20:15,  2.02it/s]  9%|▉         | 987/10699 [25:47<1:20:21,  2.01it/s]  9%|▉         | 988/10699 [25:47<1:20:12,  2.02it/s]  9%|▉         | 989/10699 [25:48<1:20:12,  2.02it/s]  9%|▉         | 990/10699 [25:48<1:20:08,  2.02it/s]  9%|▉         | 991/10699 [25:49<1:20:10,  2.02it/s]  9%|▉         | 992/10699 [25:49<1:20:04,  2.02it/s]  9%|▉         | 993/10699 [25:50<1:20:09,  2.02it/s]  9%|▉         | 994/10699 [25:50<1:20:09,  2.02it/s]  9%|▉         | 995/10699 [25:51<1:20:11,  2.02it/s]  9%|▉         | 996/10699 [25:51<1:20:10,  2.02it/s]  9%|▉         | 997/10699 [25:52<1:20:08,  2.02it/s]  9%|▉         | 998/10699 [25:52<1:20:07,  2.02it/s]  9%|▉         | 999/10699 [25:53<1:20:07,  2.02it/s]  9%|▉         | 1000/10699 [25:53<1:20:17,  2.01it/s]{'loss': 4.5162, 'grad_norm': 0.3265811800956726, 'learning_rate': 0.0009345794392523365, 'epoch': 0.09}
-                                                        9%|▉         | 1000/10699 [25:53<1:20:17,  2.01it/s]  9%|▉         | 1001/10699 [25:54<1:20:16,  2.01it/s]  9%|▉         | 1002/10699 [25:54<1:20:15,  2.01it/s]  9%|▉         | 1003/10699 [25:55<1:20:17,  2.01it/s]  9%|▉         | 1004/10699 [25:55<1:20:13,  2.01it/s]  9%|▉         | 1005/10699 [25:56<1:20:15,  2.01it/s]  9%|▉         | 1006/10699 [25:56<1:20:08,  2.02it/s]  9%|▉         | 1007/10699 [25:57<1:20:12,  2.01it/s]  9%|▉         | 1008/10699 [25:57<1:20:11,  2.01it/s]  9%|▉         | 1009/10699 [25:58<1:20:10,  2.01it/s]  9%|▉         | 1010/10699 [25:58<1:20:10,  2.01it/s]  9%|▉         | 1011/10699 [25:59<1:20:08,  2.01it/s]  9%|▉         | 1012/10699 [25:59<1:20:12,  2.01it/s]  9%|▉         | 1013/10699 [26:00<1:20:07,  2.01it/s]  9%|▉         | 1014/10699 [26:00<1:20:08,  2.01it/s]  9%|▉         | 1015/10699 [26:01<1:20:12,  2.01it/s]  9%|▉         | 1016/10699 [26:01<1:20:02,  2.02it/s] 10%|▉         | 1017/10699 [26:02<1:20:04,  2.02it/s] 10%|▉         | 1018/10699 [26:02<1:20:06,  2.01it/s] 10%|▉         | 1019/10699 [26:03<1:20:09,  2.01it/s] 10%|▉         | 1020/10699 [26:03<1:20:04,  2.01it/s] 10%|▉         | 1021/10699 [26:04<1:20:03,  2.01it/s] 10%|▉         | 1022/10699 [26:04<1:20:05,  2.01it/s] 10%|▉         | 1023/10699 [26:05<1:19:59,  2.02it/s] 10%|▉         | 1024/10699 [26:05<1:19:57,  2.02it/s] 10%|▉         | 1025/10699 [26:06<1:19:52,  2.02it/s]{'loss': 4.5023, 'grad_norm': 0.36804479360580444, 'learning_rate': 0.000957943925233645, 'epoch': 0.1}
-                                                       10%|▉         | 1025/10699 [26:06<1:19:52,  2.02it/s] 10%|▉         | 1026/10699 [26:06<1:20:15,  2.01it/s] 10%|▉         | 1027/10699 [26:07<1:20:08,  2.01it/s] 10%|▉         | 1028/10699 [26:07<1:19:58,  2.02it/s] 10%|▉         | 1029/10699 [26:08<1:20:11,  2.01it/s] 10%|▉         | 1030/10699 [26:08<1:20:01,  2.01it/s] 10%|▉         | 1031/10699 [26:09<1:20:01,  2.01it/s] 10%|▉         | 1032/10699 [26:09<1:19:53,  2.02it/s] 10%|▉         | 1033/10699 [26:10<1:19:54,  2.02it/s] 10%|▉         | 1034/10699 [26:10<1:19:46,  2.02it/s] 10%|▉         | 1035/10699 [26:11<1:19:47,  2.02it/s] 10%|▉         | 1036/10699 [26:11<1:19:43,  2.02it/s] 10%|▉         | 1037/10699 [26:12<1:19:45,  2.02it/s] 10%|▉         | 1038/10699 [26:12<1:19:45,  2.02it/s] 10%|▉         | 1039/10699 [26:13<1:19:51,  2.02it/s] 10%|▉         | 1040/10699 [26:13<1:19:48,  2.02it/s] 10%|▉         | 1041/10699 [26:14<1:19:45,  2.02it/s] 10%|▉         | 1042/10699 [26:14<1:32:33,  1.74it/s] 10%|▉         | 1043/10699 [26:15<1:28:42,  1.81it/s] 10%|▉         | 1044/10699 [26:15<1:26:03,  1.87it/s] 10%|▉         | 1045/10699 [26:16<1:24:06,  1.91it/s] 10%|▉         | 1046/10699 [26:16<1:22:46,  1.94it/s] 10%|▉         | 1047/10699 [26:17<1:21:47,  1.97it/s] 10%|▉         | 1048/10699 [26:18<1:34:08,  1.71it/s] 10%|▉         | 1049/10699 [26:18<1:29:55,  1.79it/s] 10%|▉         | 1050/10699 [26:19<1:26:48,  1.85it/s]{'loss': 4.4802, 'grad_norm': 0.3486994504928589, 'learning_rate': 0.0009813084112149533, 'epoch': 0.1}                                                      
- 10%|▉         | 1050/10699 [26:19<1:26:48,  1.85it/s] 10%|▉         | 1051/10699 [26:19<1:24:41,  1.90it/s] 10%|▉         | 1052/10699 [26:20<1:23:12,  1.93it/s] 10%|▉         | 1053/10699 [26:20<1:22:03,  1.96it/s] 10%|▉         | 1054/10699 [26:21<1:21:24,  1.97it/s] 10%|▉         | 1055/10699 [26:21<1:20:47,  1.99it/s] 10%|▉         | 1056/10699 [26:22<1:20:31,  2.00it/s] 10%|▉         | 1057/10699 [26:22<1:20:11,  2.00it/s] 10%|▉         | 1058/10699 [26:23<1:20:01,  2.01it/s] 10%|▉         | 1059/10699 [26:23<1:19:49,  2.01it/s] 10%|▉         | 1060/10699 [26:23<1:19:51,  2.01it/s] 10%|▉         | 1061/10699 [26:24<1:19:44,  2.01it/s] 10%|▉         | 1062/10699 [26:24<1:19:42,  2.01it/s] 10%|▉         | 1063/10699 [26:25<1:19:34,  2.02it/s] 10%|▉         | 1064/10699 [26:25<1:19:36,  2.02it/s] 10%|▉         | 1065/10699 [26:26<1:19:32,  2.02it/s] 10%|▉         | 1066/10699 [26:26<1:19:28,  2.02it/s] 10%|▉         | 1067/10699 [26:27<1:19:24,  2.02it/s] 10%|▉         | 1068/10699 [26:27<1:19:27,  2.02it/s] 10%|▉         | 1069/10699 [26:28<1:19:26,  2.02it/s] 10%|█         | 1070/10699 [26:28<1:19:22,  2.02it/s] 10%|█         | 1071/10699 [26:29<1:19:23,  2.02it/s] 10%|█         | 1072/10699 [26:29<1:19:30,  2.02it/s] 10%|█         | 1073/10699 [26:30<1:19:32,  2.02it/s] 10%|█         | 1074/10699 [26:30<1:19:26,  2.02it/s] 10%|█         | 1075/10699 [26:31<1:19:28,  2.02it/s]{'loss': 4.465, 'grad_norm': 0.2994287312030792, 'learning_rate': 0.000999999334700353, 'epoch': 0.1}
-                                                       10%|█         | 1075/10699 [26:31<1:19:28,  2.02it/s] 10%|█         | 1076/10699 [26:31<1:19:31,  2.02it/s] 10%|█         | 1077/10699 [26:32<1:19:36,  2.01it/s] 10%|█         | 1078/10699 [26:32<1:19:31,  2.02it/s] 10%|█         | 1079/10699 [26:33<1:19:33,  2.02it/s] 10%|█         | 1080/10699 [26:33<1:19:28,  2.02it/s] 10%|█         | 1081/10699 [26:34<1:19:26,  2.02it/s] 10%|█         | 1082/10699 [26:34<1:19:21,  2.02it/s] 10%|█         | 1083/10699 [26:35<1:19:24,  2.02it/s] 10%|█         | 1084/10699 [26:35<1:19:23,  2.02it/s] 10%|█         | 1085/10699 [26:36<1:19:26,  2.02it/s] 10%|█         | 1086/10699 [26:36<1:19:24,  2.02it/s] 10%|█         | 1087/10699 [26:37<1:19:25,  2.02it/s] 10%|█         | 1088/10699 [26:37<1:19:21,  2.02it/s] 10%|█         | 1089/10699 [26:38<1:19:23,  2.02it/s] 10%|█         | 1090/10699 [26:38<1:19:22,  2.02it/s] 10%|█         | 1091/10699 [26:39<1:19:26,  2.02it/s] 10%|█         | 1092/10699 [26:39<1:19:27,  2.02it/s] 10%|█         | 1093/10699 [26:40<1:19:24,  2.02it/s] 10%|█         | 1094/10699 [26:40<1:19:21,  2.02it/s] 10%|█         | 1095/10699 [26:41<1:19:16,  2.02it/s] 10%|█         | 1096/10699 [26:41<1:19:13,  2.02it/s] 10%|█         | 1097/10699 [26:42<1:19:15,  2.02it/s] 10%|█         | 1098/10699 [26:42<1:19:12,  2.02it/s] 10%|█         | 1099/10699 [26:43<1:19:18,  2.02it/s] 10%|█         | 1100/10699 [26:43<1:19:16,  2.02it/s]{'loss': 4.4513, 'grad_norm': 0.28388938307762146, 'learning_rate': 0.0009999760493986098, 'epoch': 0.1}                                                      
- 10%|█         | 1100/10699 [26:43<1:19:16,  2.02it/s] 10%|█         | 1101/10699 [26:44<1:19:26,  2.01it/s] 10%|█         | 1102/10699 [26:44<1:19:21,  2.02it/s] 10%|█         | 1103/10699 [26:45<1:19:20,  2.02it/s] 10%|█         | 1104/10699 [26:45<1:19:19,  2.02it/s] 10%|█         | 1105/10699 [26:46<1:19:17,  2.02it/s] 10%|█         | 1106/10699 [26:46<1:19:22,  2.01it/s] 10%|█         | 1107/10699 [26:47<1:19:19,  2.02it/s] 10%|█         | 1108/10699 [26:47<1:19:21,  2.01it/s] 10%|█         | 1109/10699 [26:48<1:19:21,  2.01it/s] 10%|█         | 1110/10699 [26:48<1:19:20,  2.01it/s] 10%|█         | 1111/10699 [26:49<1:19:21,  2.01it/s] 10%|█         | 1112/10699 [26:49<1:19:19,  2.01it/s] 10%|█         | 1113/10699 [26:50<1:19:13,  2.02it/s] 10%|█         | 1114/10699 [26:50<1:19:17,  2.01it/s] 10%|█         | 1115/10699 [26:51<1:19:04,  2.02it/s] 10%|█         | 1116/10699 [26:51<1:19:11,  2.02it/s] 10%|█         | 1117/10699 [26:52<1:19:07,  2.02it/s] 10%|█         | 1118/10699 [26:52<1:19:08,  2.02it/s] 10%|█         | 1119/10699 [26:53<1:19:07,  2.02it/s] 10%|█         | 1120/10699 [26:53<1:19:14,  2.01it/s] 10%|█         | 1121/10699 [26:54<1:19:03,  2.02it/s] 10%|█         | 1122/10699 [26:54<1:19:04,  2.02it/s] 10%|█         | 1123/10699 [26:55<1:18:56,  2.02it/s] 11%|█         | 1124/10699 [26:55<1:19:00,  2.02it/s] 11%|█         | 1125/10699 [26:56<1:18:56,  2.02it/s]                                                      {'loss': 4.4306, 'grad_norm': 0.29648083448410034, 'learning_rate': 0.00099991950088499, 'epoch': 0.11}
- 11%|█         | 1125/10699 [26:56<1:18:56,  2.02it/s] 11%|█         | 1126/10699 [26:56<1:19:05,  2.02it/s] 11%|█         | 1127/10699 [26:57<1:19:01,  2.02it/s] 11%|█         | 1128/10699 [26:57<1:19:11,  2.01it/s] 11%|█         | 1129/10699 [26:58<1:19:09,  2.01it/s] 11%|█         | 1130/10699 [26:58<1:19:08,  2.02it/s] 11%|█         | 1131/10699 [26:59<1:19:11,  2.01it/s] 11%|█         | 1132/10699 [26:59<1:19:04,  2.02it/s] 11%|█         | 1133/10699 [27:00<1:19:04,  2.02it/s] 11%|█         | 1134/10699 [27:00<1:19:04,  2.02it/s] 11%|█         | 1135/10699 [27:01<1:19:14,  2.01it/s] 11%|█         | 1136/10699 [27:01<1:19:09,  2.01it/s] 11%|█         | 1137/10699 [27:02<1:19:07,  2.01it/s] 11%|█         | 1138/10699 [27:02<1:19:09,  2.01it/s] 11%|█         | 1139/10699 [27:03<1:19:04,  2.01it/s] 11%|█         | 1140/10699 [27:03<1:19:06,  2.01it/s] 11%|█         | 1141/10699 [27:04<1:18:56,  2.02it/s] 11%|█         | 1142/10699 [27:04<1:18:58,  2.02it/s] 11%|█         | 1143/10699 [27:05<1:18:51,  2.02it/s] 11%|█         | 1144/10699 [27:05<1:18:59,  2.02it/s] 11%|█         | 1145/10699 [27:06<1:18:55,  2.02it/s] 11%|█         | 1146/10699 [27:06<1:18:53,  2.02it/s] 11%|█         | 1147/10699 [27:07<1:18:50,  2.02it/s] 11%|█         | 1148/10699 [27:07<1:18:52,  2.02it/s] 11%|█         | 1149/10699 [27:08<1:18:59,  2.01it/s] 11%|█         | 1150/10699 [27:08<1:18:49,  2.02it/s]{'loss': 4.4032, 'grad_norm': 0.30391353368759155, 'learning_rate': 0.000999829692921645, 'epoch': 0.11}                                                      
- 11%|█         | 1150/10699 [27:08<1:18:49,  2.02it/s] 11%|█         | 1151/10699 [27:09<1:18:58,  2.01it/s] 11%|█         | 1152/10699 [27:09<1:18:53,  2.02it/s] 11%|█         | 1153/10699 [27:10<1:18:50,  2.02it/s] 11%|█         | 1154/10699 [27:10<1:18:45,  2.02it/s] 11%|█         | 1155/10699 [27:11<1:18:45,  2.02it/s] 11%|█         | 1156/10699 [27:11<1:18:40,  2.02it/s] 11%|█         | 1157/10699 [27:12<1:18:43,  2.02it/s] 11%|█         | 1158/10699 [27:12<1:18:43,  2.02it/s] 11%|█         | 1159/10699 [27:13<1:18:40,  2.02it/s] 11%|█         | 1160/10699 [27:13<1:18:34,  2.02it/s] 11%|█         | 1161/10699 [27:14<1:18:40,  2.02it/s] 11%|█         | 1162/10699 [27:14<1:18:38,  2.02it/s] 11%|█         | 1163/10699 [27:15<1:18:42,  2.02it/s] 11%|█         | 1164/10699 [27:15<1:18:40,  2.02it/s] 11%|█         | 1165/10699 [27:16<1:18:40,  2.02it/s] 11%|█         | 1166/10699 [27:16<1:18:38,  2.02it/s] 11%|█         | 1167/10699 [27:17<1:18:42,  2.02it/s] 11%|█         | 1168/10699 [27:17<1:18:42,  2.02it/s] 11%|█         | 1169/10699 [27:18<1:18:45,  2.02it/s] 11%|█         | 1170/10699 [27:18<1:18:45,  2.02it/s] 11%|█         | 1171/10699 [27:19<1:18:52,  2.01it/s] 11%|█         | 1172/10699 [27:19<1:18:46,  2.02it/s] 11%|█         | 1173/10699 [27:20<1:18:42,  2.02it/s] 11%|█         | 1174/10699 [27:20<1:18:37,  2.02it/s] 11%|█         | 1175/10699 [27:20<1:18:35,  2.02it/s]{'loss': 4.391, 'grad_norm': 0.26696571707725525, 'learning_rate': 0.0009997066314834631, 'epoch': 0.11}                                                      
- 11%|█         | 1175/10699 [27:20<1:18:35,  2.02it/s] 11%|█         | 1176/10699 [27:21<1:18:34,  2.02it/s] 11%|█         | 1177/10699 [27:21<1:18:38,  2.02it/s] 11%|█         | 1178/10699 [27:22<1:18:33,  2.02it/s] 11%|█         | 1179/10699 [27:22<1:18:31,  2.02it/s] 11%|█         | 1180/10699 [27:23<1:18:32,  2.02it/s] 11%|█         | 1181/10699 [27:23<1:18:30,  2.02it/s] 11%|█         | 1182/10699 [27:24<1:18:29,  2.02it/s] 11%|█         | 1183/10699 [27:24<1:18:38,  2.02it/s] 11%|█         | 1184/10699 [27:25<1:18:32,  2.02it/s] 11%|█         | 1185/10699 [27:25<1:18:36,  2.02it/s] 11%|█         | 1186/10699 [27:26<1:18:37,  2.02it/s] 11%|█         | 1187/10699 [27:26<1:18:41,  2.01it/s] 11%|█         | 1188/10699 [27:27<1:18:38,  2.02it/s] 11%|█         | 1189/10699 [27:27<1:18:33,  2.02it/s] 11%|█         | 1190/10699 [27:28<1:18:29,  2.02it/s] 11%|█         | 1191/10699 [27:28<1:18:28,  2.02it/s] 11%|█         | 1192/10699 [27:29<1:18:32,  2.02it/s] 11%|█         | 1193/10699 [27:29<1:18:30,  2.02it/s] 11%|█         | 1194/10699 [27:30<1:18:31,  2.02it/s] 11%|█         | 1195/10699 [27:30<1:18:30,  2.02it/s] 11%|█         | 1196/10699 [27:31<1:18:30,  2.02it/s] 11%|█         | 1197/10699 [27:31<1:18:28,  2.02it/s] 11%|█         | 1198/10699 [27:32<1:18:26,  2.02it/s] 11%|█         | 1199/10699 [27:32<1:18:23,  2.02it/s] 11%|█         | 1200/10699 [27:33<1:18:27,  2.02it/s]                                                      {'loss': 4.378, 'grad_norm': 0.28771349787712097, 'learning_rate': 0.0009995503247576738, 'epoch': 0.11}
- 11%|█         | 1200/10699 [27:33<1:18:27,  2.02it/s] 11%|█         | 1201/10699 [27:33<1:18:26,  2.02it/s] 11%|█         | 1202/10699 [27:34<1:18:25,  2.02it/s] 11%|█         | 1203/10699 [27:34<1:18:17,  2.02it/s] 11%|█▏        | 1204/10699 [27:35<1:18:22,  2.02it/s] 11%|█▏        | 1205/10699 [27:35<1:18:15,  2.02it/s] 11%|█▏        | 1206/10699 [27:36<1:18:23,  2.02it/s] 11%|█▏        | 1207/10699 [27:36<1:18:19,  2.02it/s] 11%|█▏        | 1208/10699 [27:37<1:18:21,  2.02it/s] 11%|█▏        | 1209/10699 [27:37<1:18:20,  2.02it/s] 11%|█▏        | 1210/10699 [27:38<1:18:20,  2.02it/s] 11%|█▏        | 1211/10699 [27:38<1:18:18,  2.02it/s] 11%|█▏        | 1212/10699 [27:39<1:18:21,  2.02it/s] 11%|█▏        | 1213/10699 [27:39<1:18:22,  2.02it/s] 11%|█▏        | 1214/10699 [27:40<1:18:20,  2.02it/s] 11%|█▏        | 1215/10699 [27:40<1:18:21,  2.02it/s] 11%|█▏        | 1216/10699 [27:41<1:18:22,  2.02it/s] 11%|█▏        | 1217/10699 [27:41<1:18:18,  2.02it/s] 11%|█▏        | 1218/10699 [27:42<1:18:21,  2.02it/s] 11%|█▏        | 1219/10699 [27:42<1:18:14,  2.02it/s] 11%|█▏        | 1220/10699 [27:43<1:18:13,  2.02it/s] 11%|█▏        | 1221/10699 [27:43<1:18:09,  2.02it/s] 11%|█▏        | 1222/10699 [27:44<1:18:10,  2.02it/s] 11%|█▏        | 1223/10699 [27:44<1:18:09,  2.02it/s] 11%|█▏        | 1224/10699 [27:45<1:18:14,  2.02it/s] 11%|█▏        | 1225/10699 [27:45<1:18:08,  2.02it/s]                                                      {'loss': 4.3588, 'grad_norm': 0.2793043553829193, 'learning_rate': 0.0009993607831433027, 'epoch': 0.11}
- 11%|█▏        | 1225/10699 [27:45<1:18:08,  2.02it/s] 11%|█▏        | 1226/10699 [27:46<1:18:20,  2.02it/s] 11%|█▏        | 1227/10699 [27:46<1:18:19,  2.02it/s] 11%|█▏        | 1228/10699 [27:47<1:18:17,  2.02it/s] 11%|█▏        | 1229/10699 [27:47<1:18:15,  2.02it/s] 11%|█▏        | 1230/10699 [27:48<1:18:15,  2.02it/s] 12%|█▏        | 1231/10699 [27:48<1:18:15,  2.02it/s] 12%|█▏        | 1232/10699 [27:49<1:18:10,  2.02it/s] 12%|█▏        | 1233/10699 [27:49<1:18:22,  2.01it/s] 12%|█▏        | 1234/10699 [27:50<1:18:17,  2.02it/s] 12%|█▏        | 1235/10699 [27:50<1:18:15,  2.02it/s] 12%|█▏        | 1236/10699 [27:51<1:18:10,  2.02it/s] 12%|█▏        | 1237/10699 [27:51<1:18:08,  2.02it/s] 12%|█▏        | 1238/10699 [27:52<1:18:05,  2.02it/s] 12%|█▏        | 1239/10699 [27:52<1:18:13,  2.02it/s] 12%|█▏        | 1240/10699 [27:53<1:18:09,  2.02it/s] 12%|█▏        | 1241/10699 [27:53<1:18:05,  2.02it/s] 12%|█▏        | 1242/10699 [27:54<1:18:10,  2.02it/s] 12%|█▏        | 1243/10699 [27:54<1:18:09,  2.02it/s] 12%|█▏        | 1244/10699 [27:55<1:18:09,  2.02it/s] 12%|█▏        | 1245/10699 [27:55<1:18:06,  2.02it/s] 12%|█▏        | 1246/10699 [27:56<1:18:01,  2.02it/s] 12%|█▏        | 1247/10699 [27:56<1:18:02,  2.02it/s] 12%|█▏        | 1248/10699 [27:57<1:18:00,  2.02it/s] 12%|█▏        | 1249/10699 [27:57<1:17:57,  2.02it/s] 12%|█▏        | 1250/10699 [27:58<1:18:01,  2.02it/s]                                                      {'loss': 4.3357, 'grad_norm': 0.2673865854740143, 'learning_rate': 0.00099913801925048, 'epoch': 0.12}
- 12%|█▏        | 1250/10699 [27:58<1:18:01,  2.02it/s] 12%|█▏        | 1251/10699 [27:58<1:18:06,  2.02it/s] 12%|█▏        | 1252/10699 [27:59<1:18:05,  2.02it/s] 12%|█▏        | 1253/10699 [27:59<1:18:02,  2.02it/s] 12%|█▏        | 1254/10699 [28:00<1:17:59,  2.02it/s] 12%|█▏        | 1255/10699 [28:00<1:17:56,  2.02it/s] 12%|█▏        | 1256/10699 [28:01<1:17:52,  2.02it/s] 12%|█▏        | 1257/10699 [28:01<1:17:50,  2.02it/s] 12%|█▏        | 1258/10699 [28:02<1:17:57,  2.02it/s] 12%|█▏        | 1259/10699 [28:02<1:18:00,  2.02it/s] 12%|█▏        | 1260/10699 [28:03<1:17:58,  2.02it/s] 12%|█▏        | 1261/10699 [28:03<1:17:59,  2.02it/s] 12%|█▏        | 1262/10699 [28:04<1:17:57,  2.02it/s] 12%|█▏        | 1263/10699 [28:04<1:18:00,  2.02it/s] 12%|█▏        | 1264/10699 [28:05<1:17:58,  2.02it/s] 12%|█▏        | 1265/10699 [28:05<1:17:57,  2.02it/s] 12%|█▏        | 1266/10699 [28:06<1:17:52,  2.02it/s] 12%|█▏        | 1267/10699 [28:06<1:17:52,  2.02it/s] 12%|█▏        | 1268/10699 [28:07<1:17:50,  2.02it/s] 12%|█▏        | 1269/10699 [28:07<1:17:54,  2.02it/s] 12%|█▏        | 1270/10699 [28:08<1:17:52,  2.02it/s] 12%|█▏        | 1271/10699 [28:08<1:17:50,  2.02it/s] 12%|█▏        | 1272/10699 [28:09<1:17:50,  2.02it/s] 12%|█▏        | 1273/10699 [28:09<1:17:50,  2.02it/s] 12%|█▏        | 1274/10699 [28:10<1:17:43,  2.02it/s] 12%|█▏        | 1275/10699 [28:10<1:17:44,  2.02it/s]{'loss': 4.3248, 'grad_norm': 0.2889241874217987, 'learning_rate': 0.0009988820478996003, 'epoch': 0.12}
-                                                       12%|█▏        | 1275/10699 [28:10<1:17:44,  2.02it/s] 12%|█▏        | 1276/10699 [28:11<1:18:00,  2.01it/s] 12%|█▏        | 1277/10699 [28:11<1:17:54,  2.02it/s] 12%|█▏        | 1278/10699 [28:12<1:17:51,  2.02it/s] 12%|█▏        | 1279/10699 [28:12<1:17:45,  2.02it/s] 12%|█▏        | 1280/10699 [28:13<1:17:49,  2.02it/s] 12%|█▏        | 1281/10699 [28:13<1:17:42,  2.02it/s] 12%|█▏        | 1282/10699 [28:14<1:17:45,  2.02it/s] 12%|█▏        | 1283/10699 [28:14<1:17:45,  2.02it/s] 12%|█▏        | 1284/10699 [28:15<1:17:46,  2.02it/s] 12%|█▏        | 1285/10699 [28:15<1:17:50,  2.02it/s] 12%|█▏        | 1286/10699 [28:16<1:17:50,  2.02it/s] 12%|█▏        | 1287/10699 [28:16<1:17:54,  2.01it/s] 12%|█▏        | 1288/10699 [28:16<1:17:43,  2.02it/s] 12%|█▏        | 1289/10699 [28:17<1:17:46,  2.02it/s] 12%|█▏        | 1290/10699 [28:17<1:17:45,  2.02it/s] 12%|█▏        | 1291/10699 [28:18<1:17:58,  2.01it/s] 12%|█▏        | 1292/10699 [28:18<1:17:51,  2.01it/s] 12%|█▏        | 1293/10699 [28:19<1:17:44,  2.02it/s] 12%|█▏        | 1294/10699 [28:19<1:17:36,  2.02it/s] 12%|█▏        | 1295/10699 [28:20<1:17:40,  2.02it/s] 12%|█▏        | 1296/10699 [28:20<1:17:48,  2.01it/s] 12%|█▏        | 1297/10699 [28:21<1:17:40,  2.02it/s] 12%|█▏        | 1298/10699 [28:21<1:17:43,  2.02it/s] 12%|█▏        | 1299/10699 [28:22<1:17:51,  2.01it/s] 12%|█▏        | 1300/10699 [28:22<1:18:15,  2.00it/s]                                                      {'loss': 4.3047, 'grad_norm': 0.24660943448543549, 'learning_rate': 0.0009985928861203383, 'epoch': 0.12}
- 12%|█▏        | 1300/10699 [28:22<1:18:15,  2.00it/s] 12%|█▏        | 1301/10699 [28:23<1:18:07,  2.01it/s] 12%|█▏        | 1302/10699 [28:23<1:17:59,  2.01it/s] 12%|█▏        | 1303/10699 [28:24<1:17:45,  2.01it/s] 12%|█▏        | 1304/10699 [28:24<1:17:43,  2.01it/s] 12%|█▏        | 1305/10699 [28:25<1:17:36,  2.02it/s] 12%|█▏        | 1306/10699 [28:25<1:17:37,  2.02it/s] 12%|█▏        | 1307/10699 [28:26<1:17:30,  2.02it/s] 12%|█▏        | 1308/10699 [28:26<1:17:37,  2.02it/s] 12%|█▏        | 1309/10699 [28:27<1:17:26,  2.02it/s] 12%|█▏        | 1310/10699 [28:27<1:17:28,  2.02it/s] 12%|█▏        | 1311/10699 [28:28<1:17:24,  2.02it/s] 12%|█▏        | 1312/10699 [28:28<1:17:25,  2.02it/s] 12%|█▏        | 1313/10699 [28:29<1:17:24,  2.02it/s] 12%|█▏        | 1314/10699 [28:29<1:17:24,  2.02it/s] 12%|█▏        | 1315/10699 [28:30<1:17:27,  2.02it/s] 12%|█▏        | 1316/10699 [28:30<1:17:32,  2.02it/s] 12%|█▏        | 1317/10699 [28:31<1:17:25,  2.02it/s] 12%|█▏        | 1318/10699 [28:31<1:17:34,  2.02it/s] 12%|█▏        | 1319/10699 [28:32<1:17:32,  2.02it/s] 12%|█▏        | 1320/10699 [28:32<1:17:32,  2.02it/s] 12%|█▏        | 1321/10699 [28:33<1:17:29,  2.02it/s] 12%|█▏        | 1322/10699 [28:33<1:17:29,  2.02it/s] 12%|█▏        | 1323/10699 [28:34<1:17:49,  2.01it/s] 12%|█▏        | 1324/10699 [28:34<1:17:38,  2.01it/s] 12%|█▏        | 1325/10699 [28:35<1:17:42,  2.01it/s]{'loss': 4.289, 'grad_norm': 0.2949840724468231, 'learning_rate': 0.0009982705531505142, 'epoch': 0.12}
-                                                       12%|█▏        | 1325/10699 [28:35<1:17:42,  2.01it/s] 12%|█▏        | 1326/10699 [28:35<1:17:37,  2.01it/s] 12%|█▏        | 1327/10699 [28:36<1:17:39,  2.01it/s] 12%|█▏        | 1328/10699 [28:36<1:17:33,  2.01it/s] 12%|█▏        | 1329/10699 [28:37<1:17:32,  2.01it/s] 12%|█▏        | 1330/10699 [28:37<1:17:28,  2.02it/s] 12%|█▏        | 1331/10699 [28:38<1:17:25,  2.02it/s] 12%|█▏        | 1332/10699 [28:38<1:17:20,  2.02it/s] 12%|█▏        | 1333/10699 [28:39<1:17:23,  2.02it/s] 12%|█▏        | 1334/10699 [28:39<1:17:20,  2.02it/s] 12%|█▏        | 1335/10699 [28:40<1:17:23,  2.02it/s] 12%|█▏        | 1336/10699 [28:40<1:17:27,  2.01it/s] 12%|█▏        | 1337/10699 [28:41<1:17:25,  2.02it/s] 13%|█▎        | 1338/10699 [28:41<1:17:23,  2.02it/s] 13%|█▎        | 1339/10699 [28:42<1:17:18,  2.02it/s] 13%|█▎        | 1340/10699 [28:42<1:17:21,  2.02it/s] 13%|█▎        | 1341/10699 [28:43<1:17:18,  2.02it/s] 13%|█▎        | 1342/10699 [28:43<1:17:18,  2.02it/s] 13%|█▎        | 1343/10699 [28:44<1:17:20,  2.02it/s] 13%|█▎        | 1344/10699 [28:44<1:17:19,  2.02it/s] 13%|█▎        | 1345/10699 [28:45<1:17:16,  2.02it/s] 13%|█▎        | 1346/10699 [28:45<1:17:12,  2.02it/s] 13%|█▎        | 1347/10699 [28:46<1:17:16,  2.02it/s] 13%|█▎        | 1348/10699 [28:46<1:17:08,  2.02it/s] 13%|█▎        | 1349/10699 [28:47<1:17:08,  2.02it/s] 13%|█▎        | 1350/10699 [28:47<1:17:02,  2.02it/s]{'loss': 4.2846, 'grad_norm': 0.2539377212524414, 'learning_rate': 0.0009979150704348151, 'epoch': 0.13}                                                      
- 13%|█▎        | 1350/10699 [28:47<1:17:02,  2.02it/s] 13%|█▎        | 1351/10699 [28:48<1:17:11,  2.02it/s] 13%|█▎        | 1352/10699 [28:48<1:17:08,  2.02it/s] 13%|█▎        | 1353/10699 [28:49<1:17:09,  2.02it/s] 13%|█▎        | 1354/10699 [28:49<1:17:04,  2.02it/s] 13%|█▎        | 1355/10699 [28:50<1:17:04,  2.02it/s] 13%|█▎        | 1356/10699 [28:50<1:17:03,  2.02it/s] 13%|█▎        | 1357/10699 [28:51<1:17:01,  2.02it/s] 13%|█▎        | 1358/10699 [28:51<1:17:02,  2.02it/s] 13%|█▎        | 1359/10699 [28:52<1:17:02,  2.02it/s] 13%|█▎        | 1360/10699 [28:52<1:16:59,  2.02it/s] 13%|█▎        | 1361/10699 [28:53<1:17:01,  2.02it/s] 13%|█▎        | 1362/10699 [28:53<1:16:58,  2.02it/s] 13%|█▎        | 1363/10699 [28:54<1:17:04,  2.02it/s] 13%|█▎        | 1364/10699 [28:54<1:16:59,  2.02it/s] 13%|█▎        | 1365/10699 [28:55<1:17:02,  2.02it/s] 13%|█▎        | 1366/10699 [28:55<1:16:56,  2.02it/s] 13%|█▎        | 1367/10699 [28:56<1:16:53,  2.02it/s] 13%|█▎        | 1368/10699 [28:56<1:16:55,  2.02it/s] 13%|█▎        | 1369/10699 [28:57<1:16:51,  2.02it/s] 13%|█▎        | 1370/10699 [28:57<1:17:01,  2.02it/s] 13%|█▎        | 1371/10699 [28:58<1:16:56,  2.02it/s] 13%|█▎        | 1372/10699 [28:58<1:16:53,  2.02it/s] 13%|█▎        | 1373/10699 [28:59<1:16:51,  2.02it/s] 13%|█▎        | 1374/10699 [28:59<1:16:55,  2.02it/s] 13%|█▎        | 1375/10699 [29:00<1:16:55,  2.02it/s]                                                      {'loss': 4.2598, 'grad_norm': 0.2739889323711395, 'learning_rate': 0.0009975264616233679, 'epoch': 0.13}
- 13%|█▎        | 1375/10699 [29:00<1:16:55,  2.02it/s] 13%|█▎        | 1376/10699 [29:00<1:17:00,  2.02it/s] 13%|█▎        | 1377/10699 [29:01<1:16:59,  2.02it/s] 13%|█▎        | 1378/10699 [29:01<1:16:58,  2.02it/s] 13%|█▎        | 1379/10699 [29:02<1:16:57,  2.02it/s] 13%|█▎        | 1380/10699 [29:02<1:16:55,  2.02it/s] 13%|█▎        | 1381/10699 [29:03<1:16:54,  2.02it/s] 13%|█▎        | 1382/10699 [29:03<1:16:51,  2.02it/s] 13%|█▎        | 1383/10699 [29:04<1:16:57,  2.02it/s] 13%|█▎        | 1384/10699 [29:04<1:16:53,  2.02it/s] 13%|█▎        | 1385/10699 [29:05<1:16:56,  2.02it/s] 13%|█▎        | 1386/10699 [29:05<1:16:50,  2.02it/s] 13%|█▎        | 1387/10699 [29:06<1:16:50,  2.02it/s] 13%|█▎        | 1388/10699 [29:06<1:16:45,  2.02it/s] 13%|█▎        | 1389/10699 [29:07<1:16:43,  2.02it/s] 13%|█▎        | 1390/10699 [29:07<1:16:42,  2.02it/s] 13%|█▎        | 1391/10699 [29:08<1:16:39,  2.02it/s] 13%|█▎        | 1392/10699 [29:08<1:16:46,  2.02it/s] 13%|█▎        | 1393/10699 [29:09<1:16:48,  2.02it/s] 13%|█▎        | 1394/10699 [29:09<1:16:48,  2.02it/s] 13%|█▎        | 1395/10699 [29:10<1:16:50,  2.02it/s] 13%|█▎        | 1396/10699 [29:10<1:16:46,  2.02it/s] 13%|█▎        | 1397/10699 [29:11<1:16:43,  2.02it/s] 13%|█▎        | 1398/10699 [29:11<1:16:45,  2.02it/s] 13%|█▎        | 1399/10699 [29:11<1:16:42,  2.02it/s] 13%|█▎        | 1400/10699 [29:12<1:16:40,  2.02it/s]{'loss': 4.2506, 'grad_norm': 0.3221186399459839, 'learning_rate': 0.000997104752570165, 'epoch': 0.13}
-                                                       13%|█▎        | 1400/10699 [29:12<1:16:40,  2.02it/s] 13%|█▎        | 1401/10699 [29:12<1:16:45,  2.02it/s] 13%|█▎        | 1402/10699 [29:13<1:16:41,  2.02it/s] 13%|█▎        | 1403/10699 [29:13<1:16:35,  2.02it/s] 13%|█▎        | 1404/10699 [29:14<1:16:38,  2.02it/s] 13%|█▎        | 1405/10699 [29:14<1:16:36,  2.02it/s] 13%|█▎        | 1406/10699 [29:15<1:16:37,  2.02it/s] 13%|█▎        | 1407/10699 [29:15<1:16:33,  2.02it/s] 13%|█▎        | 1408/10699 [29:16<1:16:36,  2.02it/s] 13%|█▎        | 1409/10699 [29:16<1:16:39,  2.02it/s] 13%|█▎        | 1410/10699 [29:17<1:16:34,  2.02it/s] 13%|█▎        | 1411/10699 [29:17<1:16:35,  2.02it/s] 13%|█▎        | 1412/10699 [29:18<1:16:35,  2.02it/s] 13%|█▎        | 1413/10699 [29:18<1:16:35,  2.02it/s] 13%|█▎        | 1414/10699 [29:19<1:16:37,  2.02it/s] 13%|█▎        | 1415/10699 [29:19<1:16:37,  2.02it/s] 13%|█▎        | 1416/10699 [29:20<1:16:37,  2.02it/s] 13%|█▎        | 1417/10699 [29:20<1:16:33,  2.02it/s] 13%|█▎        | 1418/10699 [29:21<1:16:32,  2.02it/s] 13%|█▎        | 1419/10699 [29:21<1:16:30,  2.02it/s] 13%|█▎        | 1420/10699 [29:22<1:16:34,  2.02it/s] 13%|█▎        | 1421/10699 [29:22<1:16:35,  2.02it/s] 13%|█▎        | 1422/10699 [29:23<1:16:35,  2.02it/s] 13%|█▎        | 1423/10699 [29:23<1:16:30,  2.02it/s] 13%|█▎        | 1424/10699 [29:24<1:16:31,  2.02it/s] 13%|█▎        | 1425/10699 [29:24<1:16:31,  2.02it/s]{'loss': 4.2349, 'grad_norm': 0.25257667899131775, 'learning_rate': 0.000996649971331346, 'epoch': 0.13}
-                                                       13%|█▎        | 1425/10699 [29:24<1:16:31,  2.02it/s] 13%|█▎        | 1426/10699 [29:25<1:16:40,  2.02it/s] 13%|█▎        | 1427/10699 [29:25<1:16:33,  2.02it/s] 13%|█▎        | 1428/10699 [29:26<1:16:32,  2.02it/s] 13%|█▎        | 1429/10699 [29:26<1:16:27,  2.02it/s] 13%|█▎        | 1430/10699 [29:27<1:16:29,  2.02it/s] 13%|█▎        | 1431/10699 [29:27<1:16:26,  2.02it/s] 13%|█▎        | 1432/10699 [29:28<1:16:29,  2.02it/s] 13%|█▎        | 1433/10699 [29:28<1:16:24,  2.02it/s] 13%|█▎        | 1434/10699 [29:29<1:16:26,  2.02it/s] 13%|█▎        | 1435/10699 [29:29<1:16:24,  2.02it/s] 13%|█▎        | 1436/10699 [29:30<1:16:26,  2.02it/s] 13%|█▎        | 1437/10699 [29:30<1:16:19,  2.02it/s] 13%|█▎        | 1438/10699 [29:31<1:16:20,  2.02it/s] 13%|█▎        | 1439/10699 [29:31<1:16:14,  2.02it/s] 13%|█▎        | 1440/10699 [29:32<1:16:14,  2.02it/s] 13%|█▎        | 1441/10699 [29:32<1:16:16,  2.02it/s] 13%|█▎        | 1442/10699 [29:33<1:16:19,  2.02it/s] 13%|█▎        | 1443/10699 [29:33<1:16:18,  2.02it/s] 13%|█▎        | 1444/10699 [29:34<1:16:16,  2.02it/s] 14%|█▎        | 1445/10699 [29:34<1:16:20,  2.02it/s] 14%|█▎        | 1446/10699 [29:35<1:16:15,  2.02it/s] 14%|█▎        | 1447/10699 [29:35<1:16:21,  2.02it/s] 14%|█▎        | 1448/10699 [29:36<1:16:16,  2.02it/s] 14%|█▎        | 1449/10699 [29:36<1:16:20,  2.02it/s] 14%|█▎        | 1450/10699 [29:37<1:16:19,  2.02it/s]{'loss': 4.235, 'grad_norm': 0.24025456607341766, 'learning_rate': 0.0009961621481633291, 'epoch': 0.14}                                                      
- 14%|█▎        | 1450/10699 [29:37<1:16:19,  2.02it/s] 14%|█▎        | 1451/10699 [29:37<1:16:23,  2.02it/s] 14%|█▎        | 1452/10699 [29:38<1:16:24,  2.02it/s] 14%|█▎        | 1453/10699 [29:38<1:16:23,  2.02it/s] 14%|█▎        | 1454/10699 [29:39<1:16:33,  2.01it/s] 14%|█▎        | 1455/10699 [29:39<1:16:25,  2.02it/s] 14%|█▎        | 1456/10699 [29:40<1:16:21,  2.02it/s] 14%|█▎        | 1457/10699 [29:40<1:16:29,  2.01it/s] 14%|█▎        | 1458/10699 [29:41<1:16:25,  2.02it/s] 14%|█▎        | 1459/10699 [29:41<1:16:17,  2.02it/s] 14%|█▎        | 1460/10699 [29:42<1:16:17,  2.02it/s] 14%|█▎        | 1461/10699 [29:42<1:16:07,  2.02it/s] 14%|█▎        | 1462/10699 [29:43<1:16:12,  2.02it/s] 14%|█▎        | 1463/10699 [29:43<1:16:08,  2.02it/s] 14%|█▎        | 1464/10699 [29:44<1:16:10,  2.02it/s] 14%|█▎        | 1465/10699 [29:44<1:16:10,  2.02it/s] 14%|█▎        | 1466/10699 [29:45<1:16:09,  2.02it/s] 14%|█▎        | 1467/10699 [29:45<1:16:09,  2.02it/s] 14%|█▎        | 1468/10699 [29:46<1:16:06,  2.02it/s] 14%|█▎        | 1469/10699 [29:46<1:16:09,  2.02it/s] 14%|█▎        | 1470/10699 [29:47<1:16:11,  2.02it/s] 14%|█▎        | 1471/10699 [29:47<1:16:09,  2.02it/s] 14%|█▍        | 1472/10699 [29:48<1:16:11,  2.02it/s] 14%|█▍        | 1473/10699 [29:48<1:16:09,  2.02it/s] 14%|█▍        | 1474/10699 [29:49<1:16:06,  2.02it/s] 14%|█▍        | 1475/10699 [29:49<1:16:07,  2.02it/s]{'loss': 4.2226, 'grad_norm': 0.2737277150154114, 'learning_rate': 0.0009956413155208003, 'epoch': 0.14}
-                                                       14%|█▍        | 1475/10699 [29:49<1:16:07,  2.02it/s] 14%|█▍        | 1476/10699 [29:50<1:16:12,  2.02it/s] 14%|█▍        | 1477/10699 [29:50<1:16:10,  2.02it/s] 14%|█▍        | 1478/10699 [29:51<1:16:08,  2.02it/s] 14%|█▍        | 1479/10699 [29:51<1:16:07,  2.02it/s] 14%|█▍        | 1480/10699 [29:52<1:16:03,  2.02it/s] 14%|█▍        | 1481/10699 [29:52<1:16:06,  2.02it/s] 14%|█▍        | 1482/10699 [29:53<1:16:01,  2.02it/s] 14%|█▍        | 1483/10699 [29:53<1:16:01,  2.02it/s] 14%|█▍        | 1484/10699 [29:54<1:16:02,  2.02it/s] 14%|█▍        | 1485/10699 [29:54<1:16:00,  2.02it/s] 14%|█▍        | 1486/10699 [29:55<1:16:08,  2.02it/s] 14%|█▍        | 1487/10699 [29:55<1:16:05,  2.02it/s] 14%|█▍        | 1488/10699 [29:56<1:16:08,  2.02it/s] 14%|█▍        | 1489/10699 [29:56<1:16:03,  2.02it/s] 14%|█▍        | 1490/10699 [29:57<1:16:02,  2.02it/s] 14%|█▍        | 1491/10699 [29:57<1:16:01,  2.02it/s] 14%|█▍        | 1492/10699 [29:58<1:15:59,  2.02it/s] 14%|█▍        | 1493/10699 [29:58<1:15:56,  2.02it/s] 14%|█▍        | 1494/10699 [29:59<1:16:00,  2.02it/s] 14%|█▍        | 1495/10699 [29:59<1:15:53,  2.02it/s] 14%|█▍        | 1496/10699 [30:00<1:15:55,  2.02it/s] 14%|█▍        | 1497/10699 [30:00<1:15:51,  2.02it/s] 14%|█▍        | 1498/10699 [30:01<1:15:52,  2.02it/s] 14%|█▍        | 1499/10699 [30:01<1:15:47,  2.02it/s] 14%|█▍        | 1500/10699 [30:02<1:15:45,  2.02it/s]                                                      {'loss': 4.2143, 'grad_norm': 0.26648807525634766, 'learning_rate': 0.000995087508054552, 'epoch': 0.14}
- 14%|█▍        | 1500/10699 [30:02<1:15:45,  2.02it/s] 14%|█▍        | 1501/10699 [30:02<1:15:48,  2.02it/s] 14%|█▍        | 1502/10699 [30:02<1:15:51,  2.02it/s] 14%|█▍        | 1503/10699 [30:03<1:15:50,  2.02it/s] 14%|█▍        | 1504/10699 [30:03<1:15:51,  2.02it/s] 14%|█▍        | 1505/10699 [30:04<1:15:48,  2.02it/s] 14%|█▍        | 1506/10699 [30:04<1:15:47,  2.02it/s] 14%|█▍        | 1507/10699 [30:05<1:15:48,  2.02it/s] 14%|█▍        | 1508/10699 [30:05<1:15:48,  2.02it/s] 14%|█▍        | 1509/10699 [30:06<1:15:49,  2.02it/s] 14%|█▍        | 1510/10699 [30:06<1:15:49,  2.02it/s] 14%|█▍        | 1511/10699 [30:07<1:15:50,  2.02it/s] 14%|█▍        | 1512/10699 [30:07<1:15:47,  2.02it/s] 14%|█▍        | 1513/10699 [30:08<1:15:43,  2.02it/s] 14%|█▍        | 1514/10699 [30:08<1:15:47,  2.02it/s] 14%|█▍        | 1515/10699 [30:09<1:15:46,  2.02it/s] 14%|█▍        | 1516/10699 [30:09<1:15:46,  2.02it/s] 14%|█▍        | 1517/10699 [30:10<1:15:46,  2.02it/s] 14%|█▍        | 1518/10699 [30:10<1:15:46,  2.02it/s] 14%|█▍        | 1519/10699 [30:11<1:15:40,  2.02it/s] 14%|█▍        | 1520/10699 [30:11<1:15:39,  2.02it/s] 14%|█▍        | 1521/10699 [30:12<1:15:40,  2.02it/s] 14%|█▍        | 1522/10699 [30:12<1:15:38,  2.02it/s] 14%|█▍        | 1523/10699 [30:13<1:15:37,  2.02it/s] 14%|█▍        | 1524/10699 [30:13<1:15:36,  2.02it/s] 14%|█▍        | 1525/10699 [30:14<1:15:36,  2.02it/s]                                                      {'loss': 4.2074, 'grad_norm': 0.24930405616760254, 'learning_rate': 0.0009945007626091797, 'epoch': 0.14}
- 14%|█▍        | 1525/10699 [30:14<1:15:36,  2.02it/s] 14%|█▍        | 1526/10699 [30:14<1:15:52,  2.01it/s] 14%|█▍        | 1527/10699 [30:15<1:15:46,  2.02it/s] 14%|█▍        | 1528/10699 [30:15<1:15:43,  2.02it/s] 14%|█▍        | 1529/10699 [30:16<1:15:40,  2.02it/s] 14%|█▍        | 1530/10699 [30:16<1:15:36,  2.02it/s] 14%|█▍        | 1531/10699 [30:17<1:15:34,  2.02it/s] 14%|█▍        | 1532/10699 [30:17<1:15:35,  2.02it/s] 14%|█▍        | 1533/10699 [30:18<1:15:37,  2.02it/s] 14%|█▍        | 1534/10699 [30:18<1:15:43,  2.02it/s] 14%|█▍        | 1535/10699 [30:19<1:15:43,  2.02it/s] 14%|█▍        | 1536/10699 [30:19<1:15:41,  2.02it/s] 14%|█▍        | 1537/10699 [30:20<1:15:37,  2.02it/s] 14%|█▍        | 1538/10699 [30:20<1:15:39,  2.02it/s] 14%|█▍        | 1539/10699 [30:21<1:15:38,  2.02it/s] 14%|█▍        | 1540/10699 [30:21<1:15:35,  2.02it/s] 14%|█▍        | 1541/10699 [30:22<1:15:30,  2.02it/s] 14%|█▍        | 1542/10699 [30:22<1:15:28,  2.02it/s] 14%|█▍        | 1543/10699 [30:23<1:15:26,  2.02it/s] 14%|█▍        | 1544/10699 [30:23<1:15:29,  2.02it/s] 14%|█▍        | 1545/10699 [30:24<1:15:25,  2.02it/s] 14%|█▍        | 1546/10699 [30:24<1:15:34,  2.02it/s] 14%|█▍        | 1547/10699 [30:25<1:15:31,  2.02it/s] 14%|█▍        | 1548/10699 [30:25<1:15:28,  2.02it/s] 14%|█▍        | 1549/10699 [30:26<1:15:29,  2.02it/s] 14%|█▍        | 1550/10699 [30:26<1:15:28,  2.02it/s]                                                      {'loss': 4.1889, 'grad_norm': 0.26020535826683044, 'learning_rate': 0.000993881118220629, 'epoch': 0.14}
- 14%|█▍        | 1550/10699 [30:26<1:15:28,  2.02it/s] 14%|█▍        | 1551/10699 [30:27<1:15:29,  2.02it/s] 15%|█▍        | 1552/10699 [30:27<1:15:27,  2.02it/s] 15%|█▍        | 1553/10699 [30:28<1:15:26,  2.02it/s] 15%|█▍        | 1554/10699 [30:28<1:15:24,  2.02it/s] 15%|█▍        | 1555/10699 [30:29<1:15:29,  2.02it/s] 15%|█▍        | 1556/10699 [30:29<1:15:24,  2.02it/s] 15%|█▍        | 1557/10699 [30:30<1:15:26,  2.02it/s] 15%|█▍        | 1558/10699 [30:30<1:15:25,  2.02it/s] 15%|█▍        | 1559/10699 [30:31<1:15:26,  2.02it/s] 15%|█▍        | 1560/10699 [30:31<1:15:22,  2.02it/s] 15%|█▍        | 1561/10699 [30:32<1:15:18,  2.02it/s] 15%|█▍        | 1562/10699 [30:32<1:15:19,  2.02it/s] 15%|█▍        | 1563/10699 [30:33<1:15:16,  2.02it/s] 15%|█▍        | 1564/10699 [30:33<1:15:16,  2.02it/s] 15%|█▍        | 1565/10699 [30:34<1:15:14,  2.02it/s] 15%|█▍        | 1566/10699 [30:34<1:15:15,  2.02it/s] 15%|█▍        | 1567/10699 [30:35<1:15:18,  2.02it/s] 15%|█▍        | 1568/10699 [30:35<1:15:18,  2.02it/s] 15%|█▍        | 1569/10699 [30:36<1:15:15,  2.02it/s] 15%|█▍        | 1570/10699 [30:36<1:15:13,  2.02it/s] 15%|█▍        | 1571/10699 [30:37<1:15:16,  2.02it/s] 15%|█▍        | 1572/10699 [30:37<1:15:22,  2.02it/s] 15%|█▍        | 1573/10699 [30:38<1:15:20,  2.02it/s] 15%|█▍        | 1574/10699 [30:38<1:15:17,  2.02it/s] 15%|█▍        | 1575/10699 [30:39<1:15:18,  2.02it/s]{'loss': 4.1816, 'grad_norm': 0.23990772664546967, 'learning_rate': 0.0009932286161136, 'epoch': 0.15}                                                      
- 15%|█▍        | 1575/10699 [30:39<1:15:18,  2.02it/s] 15%|█▍        | 1576/10699 [30:39<1:15:36,  2.01it/s] 15%|█▍        | 1577/10699 [30:40<1:15:36,  2.01it/s] 15%|█▍        | 1578/10699 [30:40<1:15:30,  2.01it/s] 15%|█▍        | 1579/10699 [30:41<1:15:21,  2.02it/s] 15%|█▍        | 1580/10699 [30:41<1:15:17,  2.02it/s] 15%|█▍        | 1581/10699 [30:42<1:15:16,  2.02it/s] 15%|█▍        | 1582/10699 [30:42<1:15:11,  2.02it/s] 15%|█▍        | 1583/10699 [30:43<1:15:06,  2.02it/s] 15%|█▍        | 1584/10699 [30:43<1:15:07,  2.02it/s] 15%|█▍        | 1585/10699 [30:44<1:15:07,  2.02it/s] 15%|█▍        | 1586/10699 [30:44<1:15:04,  2.02it/s] 15%|█▍        | 1587/10699 [30:45<1:15:03,  2.02it/s] 15%|█▍        | 1588/10699 [30:45<1:15:09,  2.02it/s] 15%|█▍        | 1589/10699 [30:46<1:15:03,  2.02it/s] 15%|█▍        | 1590/10699 [30:46<1:15:06,  2.02it/s] 15%|█▍        | 1591/10699 [30:47<1:15:00,  2.02it/s] 15%|█▍        | 1592/10699 [30:47<1:15:00,  2.02it/s] 15%|█▍        | 1593/10699 [30:48<1:14:58,  2.02it/s] 15%|█▍        | 1594/10699 [30:48<1:15:02,  2.02it/s] 15%|█▍        | 1595/10699 [30:49<1:15:01,  2.02it/s] 15%|█▍        | 1596/10699 [30:49<1:14:58,  2.02it/s] 15%|█▍        | 1597/10699 [30:50<1:14:59,  2.02it/s] 15%|█▍        | 1598/10699 [30:50<1:15:00,  2.02it/s] 15%|█▍        | 1599/10699 [30:51<1:15:02,  2.02it/s] 15%|█▍        | 1600/10699 [30:51<1:15:01,  2.02it/s]                                                      {'loss': 4.1717, 'grad_norm': 0.24209493398666382, 'learning_rate': 0.0009925432996988038, 'epoch': 0.15}
- 15%|█▍        | 1600/10699 [30:51<1:15:01,  2.02it/s] 15%|█▍        | 1601/10699 [30:51<1:15:11,  2.02it/s] 15%|█▍        | 1602/10699 [30:52<1:15:05,  2.02it/s] 15%|█▍        | 1603/10699 [30:52<1:15:04,  2.02it/s] 15%|█▍        | 1604/10699 [30:53<1:15:02,  2.02it/s] 15%|█▌        | 1605/10699 [30:53<1:15:02,  2.02it/s] 15%|█▌        | 1606/10699 [30:54<1:15:03,  2.02it/s] 15%|█▌        | 1607/10699 [30:54<1:15:04,  2.02it/s] 15%|█▌        | 1608/10699 [30:55<1:15:00,  2.02it/s] 15%|█▌        | 1609/10699 [30:55<1:15:01,  2.02it/s] 15%|█▌        | 1610/10699 [30:56<1:14:59,  2.02it/s] 15%|█▌        | 1611/10699 [30:56<1:15:02,  2.02it/s] 15%|█▌        | 1612/10699 [30:57<1:14:55,  2.02it/s] 15%|█▌        | 1613/10699 [30:57<1:15:03,  2.02it/s] 15%|█▌        | 1614/10699 [30:58<1:15:02,  2.02it/s] 15%|█▌        | 1615/10699 [30:58<1:15:01,  2.02it/s] 15%|█▌        | 1616/10699 [30:59<1:14:55,  2.02it/s] 15%|█▌        | 1617/10699 [30:59<1:14:58,  2.02it/s] 15%|█▌        | 1618/10699 [31:00<1:14:49,  2.02it/s] 15%|█▌        | 1619/10699 [31:00<1:14:53,  2.02it/s] 15%|█▌        | 1620/10699 [31:01<1:14:55,  2.02it/s] 15%|█▌        | 1621/10699 [31:01<1:14:56,  2.02it/s] 15%|█▌        | 1622/10699 [31:02<1:14:51,  2.02it/s] 15%|█▌        | 1623/10699 [31:02<1:14:53,  2.02it/s] 15%|█▌        | 1624/10699 [31:03<1:14:44,  2.02it/s] 15%|█▌        | 1625/10699 [31:03<1:14:47,  2.02it/s]                                                      {'loss': 4.1675, 'grad_norm': 0.2259524166584015, 'learning_rate': 0.0009918252145700746, 'epoch': 0.15}
- 15%|█▌        | 1625/10699 [31:03<1:14:47,  2.02it/s] 15%|█▌        | 1626/10699 [31:04<1:15:10,  2.01it/s] 15%|█▌        | 1627/10699 [31:04<1:15:00,  2.02it/s] 15%|█▌        | 1628/10699 [31:05<1:15:02,  2.01it/s] 15%|█▌        | 1629/10699 [31:05<1:14:53,  2.02it/s] 15%|█▌        | 1630/10699 [31:06<1:14:52,  2.02it/s] 15%|█▌        | 1631/10699 [31:06<1:14:45,  2.02it/s] 15%|█▌        | 1632/10699 [31:07<1:14:44,  2.02it/s] 15%|█▌        | 1633/10699 [31:07<1:14:45,  2.02it/s] 15%|█▌        | 1634/10699 [31:08<1:14:37,  2.02it/s] 15%|█▌        | 1635/10699 [31:08<1:14:42,  2.02it/s] 15%|█▌        | 1636/10699 [31:09<1:14:35,  2.03it/s] 15%|█▌        | 1637/10699 [31:09<1:14:38,  2.02it/s] 15%|█▌        | 1638/10699 [31:10<1:14:33,  2.03it/s] 15%|█▌        | 1639/10699 [31:10<1:14:33,  2.03it/s] 15%|█▌        | 1640/10699 [31:11<1:14:38,  2.02it/s] 15%|█▌        | 1641/10699 [31:11<1:14:37,  2.02it/s] 15%|█▌        | 1642/10699 [31:12<1:14:40,  2.02it/s] 15%|█▌        | 1643/10699 [31:12<1:14:35,  2.02it/s] 15%|█▌        | 1644/10699 [31:13<1:14:37,  2.02it/s] 15%|█▌        | 1645/10699 [31:13<1:14:36,  2.02it/s] 15%|█▌        | 1646/10699 [31:14<1:14:36,  2.02it/s] 15%|█▌        | 1647/10699 [31:14<1:14:39,  2.02it/s] 15%|█▌        | 1648/10699 [31:15<1:14:31,  2.02it/s] 15%|█▌        | 1649/10699 [31:15<1:14:40,  2.02it/s] 15%|█▌        | 1650/10699 [31:16<1:14:40,  2.02it/s]                                                      {'loss': 4.1542, 'grad_norm': 0.2369341105222702, 'learning_rate': 0.0009910744085013363, 'epoch': 0.15}
- 15%|█▌        | 1650/10699 [31:16<1:14:40,  2.02it/s] 15%|█▌        | 1651/10699 [31:16<1:14:45,  2.02it/s] 15%|█▌        | 1652/10699 [31:17<1:14:42,  2.02it/s] 15%|█▌        | 1653/10699 [31:17<1:14:36,  2.02it/s] 15%|█▌        | 1654/10699 [31:18<1:14:33,  2.02it/s] 15%|█▌        | 1655/10699 [31:18<1:14:33,  2.02it/s] 15%|█▌        | 1656/10699 [31:19<1:14:37,  2.02it/s] 15%|█▌        | 1657/10699 [31:19<1:14:33,  2.02it/s] 15%|█▌        | 1658/10699 [31:20<1:14:37,  2.02it/s] 16%|█▌        | 1659/10699 [31:20<1:14:33,  2.02it/s] 16%|█▌        | 1660/10699 [31:21<1:14:33,  2.02it/s] 16%|█▌        | 1661/10699 [31:21<1:14:32,  2.02it/s] 16%|█▌        | 1662/10699 [31:22<1:14:32,  2.02it/s] 16%|█▌        | 1663/10699 [31:22<1:14:26,  2.02it/s] 16%|█▌        | 1664/10699 [31:23<1:14:27,  2.02it/s] 16%|█▌        | 1665/10699 [31:23<1:14:28,  2.02it/s] 16%|█▌        | 1666/10699 [31:24<1:14:29,  2.02it/s] 16%|█▌        | 1667/10699 [31:24<1:14:25,  2.02it/s] 16%|█▌        | 1668/10699 [31:25<1:14:26,  2.02it/s] 16%|█▌        | 1669/10699 [31:25<1:14:24,  2.02it/s] 16%|█▌        | 1670/10699 [31:26<1:14:21,  2.02it/s] 16%|█▌        | 1671/10699 [31:26<1:14:24,  2.02it/s] 16%|█▌        | 1672/10699 [31:27<1:14:25,  2.02it/s] 16%|█▌        | 1673/10699 [31:27<1:14:28,  2.02it/s] 16%|█▌        | 1674/10699 [31:28<1:14:21,  2.02it/s] 16%|█▌        | 1675/10699 [31:28<1:14:21,  2.02it/s]                                                      {'loss': 4.1433, 'grad_norm': 0.27025845646858215, 'learning_rate': 0.0009902909314434244, 'epoch': 0.16}
- 16%|█▌        | 1675/10699 [31:28<1:14:21,  2.02it/s] 16%|█▌        | 1676/10699 [31:29<1:14:26,  2.02it/s] 16%|█▌        | 1677/10699 [31:29<1:14:26,  2.02it/s] 16%|█▌        | 1678/10699 [31:30<1:14:21,  2.02it/s] 16%|█▌        | 1679/10699 [31:30<1:14:23,  2.02it/s] 16%|█▌        | 1680/10699 [31:31<1:14:17,  2.02it/s] 16%|█▌        | 1681/10699 [31:31<1:14:21,  2.02it/s] 16%|█▌        | 1682/10699 [31:32<1:14:13,  2.02it/s] 16%|█▌        | 1683/10699 [31:32<1:14:18,  2.02it/s] 16%|█▌        | 1684/10699 [31:33<1:14:11,  2.03it/s] 16%|█▌        | 1685/10699 [31:33<1:14:11,  2.03it/s] 16%|█▌        | 1686/10699 [31:34<1:14:12,  2.02it/s] 16%|█▌        | 1687/10699 [31:34<1:14:14,  2.02it/s] 16%|█▌        | 1688/10699 [31:35<1:14:17,  2.02it/s] 16%|█▌        | 1689/10699 [31:35<1:14:18,  2.02it/s] 16%|█▌        | 1690/10699 [31:36<1:14:14,  2.02it/s] 16%|█▌        | 1691/10699 [31:36<1:14:10,  2.02it/s] 16%|█▌        | 1692/10699 [31:37<1:14:10,  2.02it/s] 16%|█▌        | 1693/10699 [31:37<1:14:08,  2.02it/s] 16%|█▌        | 1694/10699 [31:38<1:14:13,  2.02it/s] 16%|█▌        | 1695/10699 [31:38<1:14:09,  2.02it/s] 16%|█▌        | 1696/10699 [31:38<1:14:11,  2.02it/s] 16%|█▌        | 1697/10699 [31:39<1:14:07,  2.02it/s] 16%|█▌        | 1698/10699 [31:39<1:14:13,  2.02it/s] 16%|█▌        | 1699/10699 [31:40<1:14:11,  2.02it/s] 16%|█▌        | 1700/10699 [31:40<1:14:11,  2.02it/s]{'loss': 4.1438, 'grad_norm': 0.24903547763824463, 'learning_rate': 0.0009894748355207626, 'epoch': 0.16}
-                                                       16%|█▌        | 1700/10699 [31:40<1:14:11,  2.02it/s] 16%|█▌        | 1701/10699 [31:41<1:14:11,  2.02it/s] 16%|█▌        | 1702/10699 [31:41<1:14:10,  2.02it/s] 16%|█▌        | 1703/10699 [31:42<1:14:04,  2.02it/s] 16%|█▌        | 1704/10699 [31:42<1:14:08,  2.02it/s] 16%|█▌        | 1705/10699 [31:43<1:14:05,  2.02it/s] 16%|█▌        | 1706/10699 [31:43<1:14:09,  2.02it/s] 16%|█▌        | 1707/10699 [31:44<1:14:09,  2.02it/s] 16%|█▌        | 1708/10699 [31:44<1:14:10,  2.02it/s] 16%|█▌        | 1709/10699 [31:45<1:14:05,  2.02it/s] 16%|█▌        | 1710/10699 [31:45<1:14:12,  2.02it/s] 16%|█▌        | 1711/10699 [31:46<1:14:10,  2.02it/s] 16%|█▌        | 1712/10699 [31:46<1:14:10,  2.02it/s] 16%|█▌        | 1713/10699 [31:47<1:14:05,  2.02it/s] 16%|█▌        | 1714/10699 [31:47<1:14:07,  2.02it/s] 16%|█▌        | 1715/10699 [31:48<1:14:01,  2.02it/s] 16%|█▌        | 1716/10699 [31:48<1:14:01,  2.02it/s] 16%|█▌        | 1717/10699 [31:49<1:14:02,  2.02it/s] 16%|█▌        | 1718/10699 [31:49<1:14:05,  2.02it/s] 16%|█▌        | 1719/10699 [31:50<1:13:58,  2.02it/s] 16%|█▌        | 1720/10699 [31:50<1:14:04,  2.02it/s] 16%|█▌        | 1721/10699 [31:51<1:14:01,  2.02it/s] 16%|█▌        | 1722/10699 [31:51<1:13:58,  2.02it/s] 16%|█▌        | 1723/10699 [31:52<1:14:01,  2.02it/s] 16%|█▌        | 1724/10699 [31:52<1:13:56,  2.02it/s] 16%|█▌        | 1725/10699 [31:53<1:13:58,  2.02it/s]{'loss': 4.1339, 'grad_norm': 0.23887482285499573, 'learning_rate': 0.0009886261750278943, 'epoch': 0.16}                                                      
- 16%|█▌        | 1725/10699 [31:53<1:13:58,  2.02it/s] 16%|█▌        | 1726/10699 [31:53<1:14:00,  2.02it/s] 16%|█▌        | 1727/10699 [31:54<1:14:03,  2.02it/s] 16%|█▌        | 1728/10699 [31:54<1:13:59,  2.02it/s] 16%|█▌        | 1729/10699 [31:55<1:14:01,  2.02it/s] 16%|█▌        | 1730/10699 [31:55<1:14:00,  2.02it/s] 16%|█▌        | 1731/10699 [31:56<1:14:01,  2.02it/s] 16%|█▌        | 1732/10699 [31:56<1:13:57,  2.02it/s] 16%|█▌        | 1733/10699 [31:57<1:13:59,  2.02it/s] 16%|█▌        | 1734/10699 [31:57<1:13:55,  2.02it/s] 16%|█▌        | 1735/10699 [31:58<1:13:53,  2.02it/s] 16%|█▌        | 1736/10699 [31:58<1:13:49,  2.02it/s] 16%|█▌        | 1737/10699 [31:59<1:13:52,  2.02it/s] 16%|█▌        | 1738/10699 [31:59<1:13:49,  2.02it/s] 16%|█▋        | 1739/10699 [32:00<1:13:57,  2.02it/s] 16%|█▋        | 1740/10699 [32:00<1:13:51,  2.02it/s] 16%|█▋        | 1741/10699 [32:01<1:13:44,  2.02it/s] 16%|█▋        | 1742/10699 [32:01<1:13:47,  2.02it/s] 16%|█▋        | 1743/10699 [32:02<1:13:43,  2.02it/s] 16%|█▋        | 1744/10699 [32:02<1:13:47,  2.02it/s] 16%|█▋        | 1745/10699 [32:03<1:13:42,  2.02it/s] 16%|█▋        | 1746/10699 [32:03<1:13:44,  2.02it/s] 16%|█▋        | 1747/10699 [32:04<1:13:48,  2.02it/s] 16%|█▋        | 1748/10699 [32:04<1:13:52,  2.02it/s] 16%|█▋        | 1749/10699 [32:05<1:13:53,  2.02it/s] 16%|█▋        | 1750/10699 [32:05<1:13:51,  2.02it/s]{'loss': 4.1215, 'grad_norm': 0.23182104527950287, 'learning_rate': 0.0009877450064258724, 'epoch': 0.16}
-                                                       16%|█▋        | 1750/10699 [32:05<1:13:51,  2.02it/s] 16%|█▋        | 1751/10699 [32:06<1:13:53,  2.02it/s] 16%|█▋        | 1752/10699 [32:06<1:13:52,  2.02it/s] 16%|█▋        | 1753/10699 [32:07<1:13:50,  2.02it/s] 16%|█▋        | 1754/10699 [32:07<1:13:47,  2.02it/s] 16%|█▋        | 1755/10699 [32:08<1:13:46,  2.02it/s] 16%|█▋        | 1756/10699 [32:08<1:13:45,  2.02it/s] 16%|█▋        | 1757/10699 [32:09<1:13:40,  2.02it/s] 16%|█▋        | 1758/10699 [32:09<1:13:44,  2.02it/s] 16%|█▋        | 1759/10699 [32:10<1:13:42,  2.02it/s] 16%|█▋        | 1760/10699 [32:10<1:13:40,  2.02it/s] 16%|█▋        | 1761/10699 [32:11<1:13:40,  2.02it/s] 16%|█▋        | 1762/10699 [32:11<1:25:57,  1.73it/s] 16%|█▋        | 1763/10699 [32:12<1:22:16,  1.81it/s] 16%|█▋        | 1764/10699 [32:12<1:19:37,  1.87it/s] 16%|█▋        | 1765/10699 [32:13<1:17:49,  1.91it/s] 17%|█▋        | 1766/10699 [32:13<1:16:28,  1.95it/s] 17%|█▋        | 1767/10699 [32:14<1:15:41,  1.97it/s] 17%|█▋        | 1768/10699 [32:14<1:15:01,  1.98it/s] 17%|█▋        | 1769/10699 [32:15<1:26:49,  1.71it/s] 17%|█▋        | 1770/10699 [32:16<1:22:57,  1.79it/s] 17%|█▋        | 1771/10699 [32:16<1:20:04,  1.86it/s] 17%|█▋        | 1772/10699 [32:17<1:18:06,  1.90it/s] 17%|█▋        | 1773/10699 [32:17<1:16:45,  1.94it/s] 17%|█▋        | 1774/10699 [32:18<1:15:44,  1.96it/s] 17%|█▋        | 1775/10699 [32:18<1:15:06,  1.98it/s]                                                      {'loss': 4.1154, 'grad_norm': 0.23191513121128082, 'learning_rate': 0.0009868313883385003, 'epoch': 0.17}
- 17%|█▋        | 1775/10699 [32:18<1:15:06,  1.98it/s] 17%|█▋        | 1776/10699 [32:19<1:14:42,  1.99it/s] 17%|█▋        | 1777/10699 [32:19<1:14:20,  2.00it/s] 17%|█▋        | 1778/10699 [32:20<1:14:03,  2.01it/s] 17%|█▋        | 1779/10699 [32:20<1:13:53,  2.01it/s] 17%|█▋        | 1780/10699 [32:21<1:13:51,  2.01it/s] 17%|█▋        | 1781/10699 [32:21<1:13:46,  2.01it/s] 17%|█▋        | 1782/10699 [32:22<1:13:41,  2.02it/s] 17%|█▋        | 1783/10699 [32:22<1:13:37,  2.02it/s] 17%|█▋        | 1784/10699 [32:23<1:13:36,  2.02it/s] 17%|█▋        | 1785/10699 [32:23<1:13:27,  2.02it/s] 17%|█▋        | 1786/10699 [32:24<1:13:25,  2.02it/s] 17%|█▋        | 1787/10699 [32:24<1:13:20,  2.03it/s] 17%|█▋        | 1788/10699 [32:25<1:13:29,  2.02it/s] 17%|█▋        | 1789/10699 [32:25<1:13:25,  2.02it/s] 17%|█▋        | 1790/10699 [32:26<1:13:25,  2.02it/s] 17%|█▋        | 1791/10699 [32:26<1:13:21,  2.02it/s] 17%|█▋        | 1792/10699 [32:27<1:13:24,  2.02it/s] 17%|█▋        | 1793/10699 [32:27<1:13:23,  2.02it/s] 17%|█▋        | 1794/10699 [32:28<1:13:23,  2.02it/s] 17%|█▋        | 1795/10699 [32:28<1:13:15,  2.03it/s] 17%|█▋        | 1796/10699 [32:29<1:13:21,  2.02it/s] 17%|█▋        | 1797/10699 [32:29<1:13:18,  2.02it/s] 17%|█▋        | 1798/10699 [32:29<1:13:20,  2.02it/s] 17%|█▋        | 1799/10699 [32:30<1:13:16,  2.02it/s] 17%|█▋        | 1800/10699 [32:30<1:13:17,  2.02it/s]                                                      {'loss': 4.1159, 'grad_norm': 0.24094735085964203, 'learning_rate': 0.0009858853815484336, 'epoch': 0.17}
- 17%|█▋        | 1800/10699 [32:30<1:13:17,  2.02it/s] 17%|█▋        | 1801/10699 [32:31<1:13:17,  2.02it/s] 17%|█▋        | 1802/10699 [32:31<1:13:22,  2.02it/s] 17%|█▋        | 1803/10699 [32:32<1:13:19,  2.02it/s] 17%|█▋        | 1804/10699 [32:32<1:13:21,  2.02it/s] 17%|█▋        | 1805/10699 [32:33<1:13:15,  2.02it/s] 17%|█▋        | 1806/10699 [32:33<1:13:17,  2.02it/s] 17%|█▋        | 1807/10699 [32:34<1:13:16,  2.02it/s] 17%|█▋        | 1808/10699 [32:34<1:13:23,  2.02it/s] 17%|█▋        | 1809/10699 [32:35<1:13:15,  2.02it/s] 17%|█▋        | 1810/10699 [32:35<1:13:20,  2.02it/s] 17%|█▋        | 1811/10699 [32:36<1:13:12,  2.02it/s] 17%|█▋        | 1812/10699 [32:36<1:13:09,  2.02it/s] 17%|█▋        | 1813/10699 [32:37<1:13:06,  2.03it/s] 17%|█▋        | 1814/10699 [32:37<1:13:06,  2.03it/s] 17%|█▋        | 1815/10699 [32:38<1:13:07,  2.02it/s] 17%|█▋        | 1816/10699 [32:38<1:13:08,  2.02it/s] 17%|█▋        | 1817/10699 [32:39<1:13:10,  2.02it/s] 17%|█▋        | 1818/10699 [32:39<1:13:04,  2.03it/s] 17%|█▋        | 1819/10699 [32:40<1:13:11,  2.02it/s] 17%|█▋        | 1820/10699 [32:40<1:13:03,  2.03it/s] 17%|█▋        | 1821/10699 [32:41<1:13:08,  2.02it/s] 17%|█▋        | 1822/10699 [32:41<1:13:05,  2.02it/s] 17%|█▋        | 1823/10699 [32:42<1:13:06,  2.02it/s] 17%|█▋        | 1824/10699 [32:42<1:13:06,  2.02it/s] 17%|█▋        | 1825/10699 [32:43<1:13:04,  2.02it/s]                                                      {'loss': 4.1021, 'grad_norm': 0.23385238647460938, 'learning_rate': 0.000984907048993136, 'epoch': 0.17}
- 17%|█▋        | 1825/10699 [32:43<1:13:04,  2.02it/s] 17%|█▋        | 1826/10699 [32:43<1:13:06,  2.02it/s] 17%|█▋        | 1827/10699 [32:44<1:13:02,  2.02it/s] 17%|█▋        | 1828/10699 [32:44<1:13:05,  2.02it/s] 17%|█▋        | 1829/10699 [32:45<1:12:59,  2.03it/s] 17%|█▋        | 1830/10699 [32:45<1:13:07,  2.02it/s] 17%|█▋        | 1831/10699 [32:46<1:13:06,  2.02it/s] 17%|█▋        | 1832/10699 [32:46<1:13:08,  2.02it/s] 17%|█▋        | 1833/10699 [32:47<1:13:02,  2.02it/s] 17%|█▋        | 1834/10699 [32:47<1:13:05,  2.02it/s] 17%|█▋        | 1835/10699 [32:48<1:12:58,  2.02it/s] 17%|█▋        | 1836/10699 [32:48<1:13:00,  2.02it/s] 17%|█▋        | 1837/10699 [32:49<1:12:56,  2.02it/s] 17%|█▋        | 1838/10699 [32:49<1:13:00,  2.02it/s] 17%|█▋        | 1839/10699 [32:50<1:12:59,  2.02it/s] 17%|█▋        | 1840/10699 [32:50<1:12:59,  2.02it/s] 17%|█▋        | 1841/10699 [32:51<1:12:58,  2.02it/s] 17%|█▋        | 1842/10699 [32:51<1:12:58,  2.02it/s] 17%|█▋        | 1843/10699 [32:52<1:13:02,  2.02it/s] 17%|█▋        | 1844/10699 [32:52<1:12:57,  2.02it/s] 17%|█▋        | 1845/10699 [32:53<1:12:57,  2.02it/s] 17%|█▋        | 1846/10699 [32:53<1:12:57,  2.02it/s] 17%|█▋        | 1847/10699 [32:54<1:12:58,  2.02it/s] 17%|█▋        | 1848/10699 [32:54<1:12:57,  2.02it/s] 17%|█▋        | 1849/10699 [32:55<1:13:01,  2.02it/s] 17%|█▋        | 1850/10699 [32:55<1:12:59,  2.02it/s]{'loss': 4.0984, 'grad_norm': 0.22384710609912872, 'learning_rate': 0.0009838964557606915, 'epoch': 0.17}
-                                                       17%|█▋        | 1850/10699 [32:55<1:12:59,  2.02it/s] 17%|█▋        | 1851/10699 [32:56<1:13:08,  2.02it/s] 17%|█▋        | 1852/10699 [32:56<1:13:07,  2.02it/s] 17%|█▋        | 1853/10699 [32:57<1:13:03,  2.02it/s] 17%|█▋        | 1854/10699 [32:57<1:12:59,  2.02it/s] 17%|█▋        | 1855/10699 [32:58<1:12:56,  2.02it/s] 17%|█▋        | 1856/10699 [32:58<1:12:49,  2.02it/s] 17%|█▋        | 1857/10699 [32:59<1:12:51,  2.02it/s] 17%|█▋        | 1858/10699 [32:59<1:12:47,  2.02it/s] 17%|█▋        | 1859/10699 [33:00<1:12:47,  2.02it/s] 17%|█▋        | 1860/10699 [33:00<1:12:49,  2.02it/s] 17%|█▋        | 1861/10699 [33:01<1:12:46,  2.02it/s] 17%|█▋        | 1862/10699 [33:01<1:12:51,  2.02it/s] 17%|█▋        | 1863/10699 [33:02<1:12:45,  2.02it/s] 17%|█▋        | 1864/10699 [33:02<1:12:49,  2.02it/s] 17%|█▋        | 1865/10699 [33:03<1:12:44,  2.02it/s] 17%|█▋        | 1866/10699 [33:03<1:12:47,  2.02it/s] 17%|█▋        | 1867/10699 [33:04<1:12:46,  2.02it/s] 17%|█▋        | 1868/10699 [33:04<1:12:46,  2.02it/s] 17%|█▋        | 1869/10699 [33:05<1:12:48,  2.02it/s] 17%|█▋        | 1870/10699 [33:05<1:12:49,  2.02it/s] 17%|█▋        | 1871/10699 [33:06<1:12:50,  2.02it/s] 17%|█▋        | 1872/10699 [33:06<1:12:46,  2.02it/s] 18%|█▊        | 1873/10699 [33:07<1:12:47,  2.02it/s] 18%|█▊        | 1874/10699 [33:07<1:12:46,  2.02it/s] 18%|█▊        | 1875/10699 [33:08<1:12:47,  2.02it/s]                                                      {'loss': 4.0818, 'grad_norm': 0.21454158425331116, 'learning_rate': 0.0009828536690854738, 'epoch': 0.18}
- 18%|█▊        | 1875/10699 [33:08<1:12:47,  2.02it/s] 18%|█▊        | 1876/10699 [33:08<1:12:50,  2.02it/s] 18%|█▊        | 1877/10699 [33:09<1:12:47,  2.02it/s] 18%|█▊        | 1878/10699 [33:09<1:12:46,  2.02it/s] 18%|█▊        | 1879/10699 [33:10<1:12:42,  2.02it/s] 18%|█▊        | 1880/10699 [33:10<1:12:41,  2.02it/s] 18%|█▊        | 1881/10699 [33:11<1:12:45,  2.02it/s] 18%|█▊        | 1882/10699 [33:11<1:12:42,  2.02it/s] 18%|█▊        | 1883/10699 [33:12<1:12:44,  2.02it/s] 18%|█▊        | 1884/10699 [33:12<1:12:41,  2.02it/s] 18%|█▊        | 1885/10699 [33:13<1:12:43,  2.02it/s] 18%|█▊        | 1886/10699 [33:13<1:12:38,  2.02it/s] 18%|█▊        | 1887/10699 [33:14<1:12:40,  2.02it/s] 18%|█▊        | 1888/10699 [33:14<1:12:42,  2.02it/s] 18%|█▊        | 1889/10699 [33:14<1:12:41,  2.02it/s] 18%|█▊        | 1890/10699 [33:15<1:12:35,  2.02it/s] 18%|█▊        | 1891/10699 [33:15<1:12:39,  2.02it/s] 18%|█▊        | 1892/10699 [33:16<1:12:36,  2.02it/s] 18%|█▊        | 1893/10699 [33:16<1:12:37,  2.02it/s] 18%|█▊        | 1894/10699 [33:17<1:12:34,  2.02it/s] 18%|█▊        | 1895/10699 [33:17<1:12:36,  2.02it/s] 18%|█▊        | 1896/10699 [33:18<1:12:33,  2.02it/s] 18%|█▊        | 1897/10699 [33:18<1:12:36,  2.02it/s] 18%|█▊        | 1898/10699 [33:19<1:12:29,  2.02it/s] 18%|█▊        | 1899/10699 [33:19<1:12:29,  2.02it/s] 18%|█▊        | 1900/10699 [33:20<1:12:28,  2.02it/s]{'loss': 4.0785, 'grad_norm': 0.2242281585931778, 'learning_rate': 0.0009817787583436747, 'epoch': 0.18}
-                                                       18%|█▊        | 1900/10699 [33:20<1:12:28,  2.02it/s] 18%|█▊        | 1901/10699 [33:20<1:12:35,  2.02it/s] 18%|█▊        | 1902/10699 [33:21<1:12:31,  2.02it/s] 18%|█▊        | 1903/10699 [33:21<1:12:33,  2.02it/s] 18%|█▊        | 1904/10699 [33:22<1:12:28,  2.02it/s] 18%|█▊        | 1905/10699 [33:22<1:12:30,  2.02it/s] 18%|█▊        | 1906/10699 [33:23<1:12:26,  2.02it/s] 18%|█▊        | 1907/10699 [33:23<1:12:26,  2.02it/s] 18%|█▊        | 1908/10699 [33:24<1:12:23,  2.02it/s] 18%|█▊        | 1909/10699 [33:24<1:12:20,  2.03it/s] 18%|█▊        | 1910/10699 [33:25<1:12:23,  2.02it/s] 18%|█▊        | 1911/10699 [33:25<1:12:21,  2.02it/s] 18%|█▊        | 1912/10699 [33:26<1:12:25,  2.02it/s] 18%|█▊        | 1913/10699 [33:26<1:12:19,  2.02it/s] 18%|█▊        | 1914/10699 [33:27<1:12:23,  2.02it/s] 18%|█▊        | 1915/10699 [33:27<1:12:17,  2.03it/s] 18%|█▊        | 1916/10699 [33:28<1:12:17,  2.03it/s] 18%|█▊        | 1917/10699 [33:28<1:12:18,  2.02it/s] 18%|█▊        | 1918/10699 [33:29<1:12:16,  2.02it/s] 18%|█▊        | 1919/10699 [33:29<1:12:16,  2.02it/s] 18%|█▊        | 1920/10699 [33:30<1:12:19,  2.02it/s] 18%|█▊        | 1921/10699 [33:30<1:12:16,  2.02it/s] 18%|█▊        | 1922/10699 [33:31<1:12:21,  2.02it/s] 18%|█▊        | 1923/10699 [33:31<1:12:16,  2.02it/s] 18%|█▊        | 1924/10699 [33:32<1:12:17,  2.02it/s] 18%|█▊        | 1925/10699 [33:32<1:12:15,  2.02it/s]                                                      {'loss': 4.0738, 'grad_norm': 0.22036483883857727, 'learning_rate': 0.0009806717950486873, 'epoch': 0.18}
- 18%|█▊        | 1925/10699 [33:32<1:12:15,  2.02it/s] 18%|█▊        | 1926/10699 [33:33<1:12:24,  2.02it/s] 18%|█▊        | 1927/10699 [33:33<1:12:21,  2.02it/s] 18%|█▊        | 1928/10699 [33:34<1:12:20,  2.02it/s] 18%|█▊        | 1929/10699 [33:34<1:12:18,  2.02it/s] 18%|█▊        | 1930/10699 [33:35<1:12:17,  2.02it/s] 18%|█▊        | 1931/10699 [33:35<1:12:17,  2.02it/s] 18%|█▊        | 1932/10699 [33:36<1:12:20,  2.02it/s] 18%|█▊        | 1933/10699 [33:36<1:12:19,  2.02it/s] 18%|█▊        | 1934/10699 [33:37<1:12:18,  2.02it/s] 18%|█▊        | 1935/10699 [33:37<1:12:17,  2.02it/s] 18%|█▊        | 1936/10699 [33:38<1:12:14,  2.02it/s] 18%|█▊        | 1937/10699 [33:38<1:12:14,  2.02it/s] 18%|█▊        | 1938/10699 [33:39<1:12:14,  2.02it/s] 18%|█▊        | 1939/10699 [33:39<1:12:14,  2.02it/s] 18%|█▊        | 1940/10699 [33:40<1:12:16,  2.02it/s] 18%|█▊        | 1941/10699 [33:40<1:12:14,  2.02it/s] 18%|█▊        | 1942/10699 [33:41<1:12:15,  2.02it/s] 18%|█▊        | 1943/10699 [33:41<1:12:14,  2.02it/s] 18%|█▊        | 1944/10699 [33:42<1:12:10,  2.02it/s] 18%|█▊        | 1945/10699 [33:42<1:12:12,  2.02it/s] 18%|█▊        | 1946/10699 [33:43<1:12:06,  2.02it/s] 18%|█▊        | 1947/10699 [33:43<1:12:08,  2.02it/s] 18%|█▊        | 1948/10699 [33:44<1:12:06,  2.02it/s] 18%|█▊        | 1949/10699 [33:44<1:12:06,  2.02it/s] 18%|█▊        | 1950/10699 [33:45<1:12:04,  2.02it/s]{'loss': 4.0728, 'grad_norm': 0.23942282795906067, 'learning_rate': 0.0009795328528463484, 'epoch': 0.18}
-                                                       18%|█▊        | 1950/10699 [33:45<1:12:04,  2.02it/s] 18%|█▊        | 1951/10699 [33:45<1:12:07,  2.02it/s] 18%|█▊        | 1952/10699 [33:46<1:12:05,  2.02it/s] 18%|█▊        | 1953/10699 [33:46<1:12:08,  2.02it/s] 18%|█▊        | 1954/10699 [33:47<1:12:08,  2.02it/s] 18%|█▊        | 1955/10699 [33:47<1:12:09,  2.02it/s] 18%|█▊        | 1956/10699 [33:48<1:12:08,  2.02it/s] 18%|█▊        | 1957/10699 [33:48<1:12:03,  2.02it/s] 18%|█▊        | 1958/10699 [33:49<1:12:01,  2.02it/s] 18%|█▊        | 1959/10699 [33:49<1:12:03,  2.02it/s] 18%|█▊        | 1960/10699 [33:50<1:12:04,  2.02it/s] 18%|█▊        | 1961/10699 [33:50<1:12:02,  2.02it/s] 18%|█▊        | 1962/10699 [33:51<1:12:00,  2.02it/s] 18%|█▊        | 1963/10699 [33:51<1:12:02,  2.02it/s] 18%|█▊        | 1964/10699 [33:52<1:12:01,  2.02it/s] 18%|█▊        | 1965/10699 [33:52<1:11:59,  2.02it/s] 18%|█▊        | 1966/10699 [33:53<1:11:57,  2.02it/s] 18%|█▊        | 1967/10699 [33:53<1:11:59,  2.02it/s] 18%|█▊        | 1968/10699 [33:54<1:12:00,  2.02it/s] 18%|█▊        | 1969/10699 [33:54<1:12:03,  2.02it/s] 18%|█▊        | 1970/10699 [33:55<1:12:00,  2.02it/s] 18%|█▊        | 1971/10699 [33:55<1:12:02,  2.02it/s] 18%|█▊        | 1972/10699 [33:56<1:11:56,  2.02it/s] 18%|█▊        | 1973/10699 [33:56<1:11:55,  2.02it/s] 18%|█▊        | 1974/10699 [33:57<1:11:54,  2.02it/s] 18%|█▊        | 1975/10699 [33:57<1:11:54,  2.02it/s]{'loss': 4.0607, 'grad_norm': 0.22683821618556976, 'learning_rate': 0.0009783620075100394, 'epoch': 0.18}
-                                                       18%|█▊        | 1975/10699 [33:57<1:11:54,  2.02it/s] 18%|█▊        | 1976/10699 [33:58<1:12:09,  2.01it/s] 18%|█▊        | 1977/10699 [33:58<1:12:01,  2.02it/s] 18%|█▊        | 1978/10699 [33:59<1:11:58,  2.02it/s] 18%|█▊        | 1979/10699 [33:59<1:11:54,  2.02it/s] 19%|█▊        | 1980/10699 [34:00<1:11:52,  2.02it/s] 19%|█▊        | 1981/10699 [34:00<1:11:52,  2.02it/s] 19%|█▊        | 1982/10699 [34:00<1:11:49,  2.02it/s] 19%|█▊        | 1983/10699 [34:01<1:11:53,  2.02it/s] 19%|█▊        | 1984/10699 [34:01<1:11:47,  2.02it/s] 19%|█▊        | 1985/10699 [34:02<1:11:48,  2.02it/s] 19%|█▊        | 1986/10699 [34:02<1:11:44,  2.02it/s] 19%|█▊        | 1987/10699 [34:03<1:11:47,  2.02it/s] 19%|█▊        | 1988/10699 [34:03<1:11:45,  2.02it/s] 19%|█▊        | 1989/10699 [34:04<1:11:44,  2.02it/s] 19%|█▊        | 1990/10699 [34:04<1:11:46,  2.02it/s] 19%|█▊        | 1991/10699 [34:05<1:11:50,  2.02it/s] 19%|█▊        | 1992/10699 [34:05<1:11:48,  2.02it/s] 19%|█▊        | 1993/10699 [34:06<1:11:46,  2.02it/s] 19%|█▊        | 1994/10699 [34:06<1:11:46,  2.02it/s] 19%|█▊        | 1995/10699 [34:07<1:11:40,  2.02it/s] 19%|█▊        | 1996/10699 [34:07<1:11:42,  2.02it/s] 19%|█▊        | 1997/10699 [34:08<1:11:37,  2.02it/s] 19%|█▊        | 1998/10699 [34:08<1:11:39,  2.02it/s] 19%|█▊        | 1999/10699 [34:09<1:11:35,  2.03it/s] 19%|█▊        | 2000/10699 [34:09<1:11:34,  2.03it/s]{'loss': 4.06, 'grad_norm': 0.21611258387565613, 'learning_rate': 0.0009771593369356445, 'epoch': 0.19}
-                                                       19%|█▊        | 2000/10699 [34:09<1:11:34,  2.03it/s] 19%|█▊        | 2001/10699 [34:10<1:11:42,  2.02it/s] 19%|█▊        | 2002/10699 [34:10<1:11:41,  2.02it/s] 19%|█▊        | 2003/10699 [34:11<1:11:45,  2.02it/s] 19%|█▊        | 2004/10699 [34:11<1:11:39,  2.02it/s] 19%|█▊        | 2005/10699 [34:12<1:11:38,  2.02it/s] 19%|█▊        | 2006/10699 [34:12<1:11:38,  2.02it/s] 19%|█▉        | 2007/10699 [34:13<1:11:43,  2.02it/s] 19%|█▉        | 2008/10699 [34:13<1:11:41,  2.02it/s] 19%|█▉        | 2009/10699 [34:14<1:11:42,  2.02it/s] 19%|█▉        | 2010/10699 [34:14<1:11:43,  2.02it/s] 19%|█▉        | 2011/10699 [34:15<1:11:44,  2.02it/s] 19%|█▉        | 2012/10699 [34:15<1:11:41,  2.02it/s] 19%|█▉        | 2013/10699 [34:16<1:11:44,  2.02it/s] 19%|█▉        | 2014/10699 [34:16<1:11:42,  2.02it/s] 19%|█▉        | 2015/10699 [34:17<1:11:40,  2.02it/s] 19%|█▉        | 2016/10699 [34:17<1:11:38,  2.02it/s] 19%|█▉        | 2017/10699 [34:18<1:11:37,  2.02it/s] 19%|█▉        | 2018/10699 [34:18<1:11:31,  2.02it/s] 19%|█▉        | 2019/10699 [34:19<1:11:32,  2.02it/s] 19%|█▉        | 2020/10699 [34:19<1:11:28,  2.02it/s] 19%|█▉        | 2021/10699 [34:20<1:11:28,  2.02it/s] 19%|█▉        | 2022/10699 [34:20<1:11:26,  2.02it/s] 19%|█▉        | 2023/10699 [34:21<1:11:25,  2.02it/s] 19%|█▉        | 2024/10699 [34:21<1:11:28,  2.02it/s] 19%|█▉        | 2025/10699 [34:22<1:11:30,  2.02it/s]                                                      {'loss': 4.0503, 'grad_norm': 0.24511539936065674, 'learning_rate': 0.0009759249211363688, 'epoch': 0.19}
- 19%|█▉        | 2025/10699 [34:22<1:11:30,  2.02it/s] 19%|█▉        | 2026/10699 [34:22<1:11:30,  2.02it/s] 19%|█▉        | 2027/10699 [34:23<1:11:37,  2.02it/s] 19%|█▉        | 2028/10699 [34:23<1:11:30,  2.02it/s] 19%|█▉        | 2029/10699 [34:24<1:11:29,  2.02it/s] 19%|█▉        | 2030/10699 [34:24<1:11:26,  2.02it/s] 19%|█▉        | 2031/10699 [34:25<1:11:23,  2.02it/s] 19%|█▉        | 2032/10699 [34:25<1:11:27,  2.02it/s] 19%|█▉        | 2033/10699 [34:26<1:11:29,  2.02it/s] 19%|█▉        | 2034/10699 [34:26<1:11:28,  2.02it/s] 19%|█▉        | 2035/10699 [34:27<1:11:26,  2.02it/s] 19%|█▉        | 2036/10699 [34:27<1:11:27,  2.02it/s] 19%|█▉        | 2037/10699 [34:28<1:11:17,  2.03it/s] 19%|█▉        | 2038/10699 [34:28<1:11:23,  2.02it/s] 19%|█▉        | 2039/10699 [34:29<1:11:17,  2.02it/s] 19%|█▉        | 2040/10699 [34:29<1:11:27,  2.02it/s] 19%|█▉        | 2041/10699 [34:30<1:11:19,  2.02it/s] 19%|█▉        | 2042/10699 [34:30<1:11:24,  2.02it/s] 19%|█▉        | 2043/10699 [34:31<1:11:19,  2.02it/s] 19%|█▉        | 2044/10699 [34:31<1:11:21,  2.02it/s] 19%|█▉        | 2045/10699 [34:32<1:11:14,  2.02it/s] 19%|█▉        | 2046/10699 [34:32<1:11:18,  2.02it/s] 19%|█▉        | 2047/10699 [34:33<1:11:21,  2.02it/s] 19%|█▉        | 2048/10699 [34:33<1:11:20,  2.02it/s] 19%|█▉        | 2049/10699 [34:34<1:11:16,  2.02it/s] 19%|█▉        | 2050/10699 [34:34<1:11:14,  2.02it/s]                                                      {'loss': 4.0515, 'grad_norm': 0.22048994898796082, 'learning_rate': 0.0009746588422374146, 'epoch': 0.19}
- 19%|█▉        | 2050/10699 [34:34<1:11:14,  2.02it/s] 19%|█▉        | 2051/10699 [34:35<1:11:24,  2.02it/s] 19%|█▉        | 2052/10699 [34:35<1:11:25,  2.02it/s] 19%|█▉        | 2053/10699 [34:36<1:11:25,  2.02it/s] 19%|█▉        | 2054/10699 [34:36<1:11:19,  2.02it/s] 19%|█▉        | 2055/10699 [34:37<1:11:14,  2.02it/s] 19%|█▉        | 2056/10699 [34:37<1:11:14,  2.02it/s] 19%|█▉        | 2057/10699 [34:38<1:11:08,  2.02it/s] 19%|█▉        | 2058/10699 [34:38<1:11:09,  2.02it/s] 19%|█▉        | 2059/10699 [34:39<1:11:09,  2.02it/s] 19%|█▉        | 2060/10699 [34:39<1:11:11,  2.02it/s] 19%|█▉        | 2061/10699 [34:40<1:11:13,  2.02it/s] 19%|█▉        | 2062/10699 [34:40<1:11:10,  2.02it/s] 19%|█▉        | 2063/10699 [34:41<1:11:12,  2.02it/s] 19%|█▉        | 2064/10699 [34:41<1:11:11,  2.02it/s] 19%|█▉        | 2065/10699 [34:42<1:11:15,  2.02it/s] 19%|█▉        | 2066/10699 [34:42<1:11:10,  2.02it/s] 19%|█▉        | 2067/10699 [34:43<1:11:13,  2.02it/s] 19%|█▉        | 2068/10699 [34:43<1:11:08,  2.02it/s] 19%|█▉        | 2069/10699 [34:44<1:11:08,  2.02it/s] 19%|█▉        | 2070/10699 [34:44<1:11:08,  2.02it/s] 19%|█▉        | 2071/10699 [34:45<1:11:01,  2.02it/s] 19%|█▉        | 2072/10699 [34:45<1:11:08,  2.02it/s] 19%|█▉        | 2073/10699 [34:46<1:11:02,  2.02it/s] 19%|█▉        | 2074/10699 [34:46<1:11:07,  2.02it/s] 19%|█▉        | 2075/10699 [34:46<1:11:01,  2.02it/s]                                                      {'loss': 4.0389, 'grad_norm': 0.2094133347272873, 'learning_rate': 0.000973361184470518, 'epoch': 0.19}
- 19%|█▉        | 2075/10699 [34:46<1:11:01,  2.02it/s] 19%|█▉        | 2076/10699 [34:47<1:11:10,  2.02it/s] 19%|█▉        | 2077/10699 [34:47<1:11:07,  2.02it/s] 19%|█▉        | 2078/10699 [34:48<1:11:07,  2.02it/s] 19%|█▉        | 2079/10699 [34:48<1:11:03,  2.02it/s] 19%|█▉        | 2080/10699 [34:49<1:11:06,  2.02it/s] 19%|█▉        | 2081/10699 [34:49<1:11:00,  2.02it/s] 19%|█▉        | 2082/10699 [34:50<1:11:05,  2.02it/s] 19%|█▉        | 2083/10699 [34:50<1:10:58,  2.02it/s] 19%|█▉        | 2084/10699 [34:51<1:11:03,  2.02it/s] 19%|█▉        | 2085/10699 [34:51<1:11:02,  2.02it/s] 19%|█▉        | 2086/10699 [34:52<1:11:03,  2.02it/s] 20%|█▉        | 2087/10699 [34:52<1:10:56,  2.02it/s] 20%|█▉        | 2088/10699 [34:53<1:10:56,  2.02it/s] 20%|█▉        | 2089/10699 [34:53<1:10:50,  2.03it/s] 20%|█▉        | 2090/10699 [34:54<1:10:55,  2.02it/s] 20%|█▉        | 2091/10699 [34:54<1:10:52,  2.02it/s] 20%|█▉        | 2092/10699 [34:55<1:10:50,  2.02it/s] 20%|█▉        | 2093/10699 [34:55<1:10:51,  2.02it/s] 20%|█▉        | 2094/10699 [34:56<1:10:49,  2.02it/s] 20%|█▉        | 2095/10699 [34:56<1:10:51,  2.02it/s] 20%|█▉        | 2096/10699 [34:57<1:10:50,  2.02it/s] 20%|█▉        | 2097/10699 [34:57<1:10:53,  2.02it/s] 20%|█▉        | 2098/10699 [34:58<1:10:45,  2.03it/s] 20%|█▉        | 2099/10699 [34:58<1:10:46,  2.03it/s] 20%|█▉        | 2100/10699 [34:59<1:10:44,  2.03it/s]                                                      {'loss': 4.037, 'grad_norm': 0.22707779705524445, 'learning_rate': 0.0009720320341683451, 'epoch': 0.2}
- 20%|█▉        | 2100/10699 [34:59<1:10:44,  2.03it/s] 20%|█▉        | 2101/10699 [34:59<1:11:05,  2.02it/s] 20%|█▉        | 2102/10699 [35:00<1:11:00,  2.02it/s] 20%|█▉        | 2103/10699 [35:00<1:10:57,  2.02it/s] 20%|█▉        | 2104/10699 [35:01<1:10:49,  2.02it/s] 20%|█▉        | 2105/10699 [35:01<1:10:57,  2.02it/s] 20%|█▉        | 2106/10699 [35:02<1:10:50,  2.02it/s] 20%|█▉        | 2107/10699 [35:02<1:10:53,  2.02it/s] 20%|█▉        | 2108/10699 [35:03<1:10:45,  2.02it/s] 20%|█▉        | 2109/10699 [35:03<1:10:45,  2.02it/s] 20%|█▉        | 2110/10699 [35:04<1:10:42,  2.02it/s] 20%|█▉        | 2111/10699 [35:04<1:10:45,  2.02it/s] 20%|█▉        | 2112/10699 [35:05<1:10:40,  2.02it/s] 20%|█▉        | 2113/10699 [35:05<1:10:42,  2.02it/s] 20%|█▉        | 2114/10699 [35:06<1:10:42,  2.02it/s] 20%|█▉        | 2115/10699 [35:06<1:10:43,  2.02it/s] 20%|█▉        | 2116/10699 [35:07<1:10:44,  2.02it/s] 20%|█▉        | 2117/10699 [35:07<1:10:45,  2.02it/s] 20%|█▉        | 2118/10699 [35:08<1:10:44,  2.02it/s] 20%|█▉        | 2119/10699 [35:08<1:10:45,  2.02it/s] 20%|█▉        | 2120/10699 [35:09<1:10:45,  2.02it/s] 20%|█▉        | 2121/10699 [35:09<1:10:45,  2.02it/s] 20%|█▉        | 2122/10699 [35:10<1:10:46,  2.02it/s] 20%|█▉        | 2123/10699 [35:10<1:10:45,  2.02it/s] 20%|█▉        | 2124/10699 [35:11<1:10:46,  2.02it/s] 20%|█▉        | 2125/10699 [35:11<1:10:43,  2.02it/s]                                                      {'loss': 4.0409, 'grad_norm': 0.22909130156040192, 'learning_rate': 0.0009706714797587478, 'epoch': 0.2}
- 20%|█▉        | 2125/10699 [35:11<1:10:43,  2.02it/s] 20%|█▉        | 2126/10699 [35:12<1:10:59,  2.01it/s] 20%|█▉        | 2127/10699 [35:12<1:10:57,  2.01it/s] 20%|█▉        | 2128/10699 [35:13<1:10:53,  2.01it/s] 20%|█▉        | 2129/10699 [35:13<1:10:48,  2.02it/s] 20%|█▉        | 2130/10699 [35:14<1:10:44,  2.02it/s] 20%|█▉        | 2131/10699 [35:14<1:10:45,  2.02it/s] 20%|█▉        | 2132/10699 [35:15<1:10:43,  2.02it/s] 20%|█▉        | 2133/10699 [35:15<1:10:43,  2.02it/s] 20%|█▉        | 2134/10699 [35:16<1:10:39,  2.02it/s] 20%|█▉        | 2135/10699 [35:16<1:10:41,  2.02it/s] 20%|█▉        | 2136/10699 [35:17<1:10:41,  2.02it/s] 20%|█▉        | 2137/10699 [35:17<1:10:42,  2.02it/s] 20%|█▉        | 2138/10699 [35:18<1:10:39,  2.02it/s] 20%|█▉        | 2139/10699 [35:18<1:10:31,  2.02it/s] 20%|██        | 2140/10699 [35:19<1:10:37,  2.02it/s] 20%|██        | 2141/10699 [35:19<1:10:40,  2.02it/s] 20%|██        | 2142/10699 [35:20<1:10:39,  2.02it/s] 20%|██        | 2143/10699 [35:20<1:10:31,  2.02it/s] 20%|██        | 2144/10699 [35:21<1:10:32,  2.02it/s] 20%|██        | 2145/10699 [35:21<1:10:27,  2.02it/s] 20%|██        | 2146/10699 [35:22<1:10:29,  2.02it/s] 20%|██        | 2147/10699 [35:22<1:10:24,  2.02it/s] 20%|██        | 2148/10699 [35:23<1:10:27,  2.02it/s] 20%|██        | 2149/10699 [35:23<1:10:29,  2.02it/s] 20%|██        | 2150/10699 [35:24<1:10:31,  2.02it/s]{'loss': 4.0301, 'grad_norm': 0.2138129025697708, 'learning_rate': 0.0009692796117588813, 'epoch': 0.2}
-                                                       20%|██        | 2150/10699 [35:24<1:10:31,  2.02it/s] 20%|██        | 2151/10699 [35:24<1:10:34,  2.02it/s] 20%|██        | 2152/10699 [35:25<1:10:35,  2.02it/s] 20%|██        | 2153/10699 [35:25<1:10:29,  2.02it/s] 20%|██        | 2154/10699 [35:26<1:10:32,  2.02it/s] 20%|██        | 2155/10699 [35:26<1:10:27,  2.02it/s] 20%|██        | 2156/10699 [35:27<1:10:27,  2.02it/s] 20%|██        | 2157/10699 [35:27<1:10:25,  2.02it/s] 20%|██        | 2158/10699 [35:28<1:10:26,  2.02it/s] 20%|██        | 2159/10699 [35:28<1:10:26,  2.02it/s] 20%|██        | 2160/10699 [35:29<1:10:26,  2.02it/s] 20%|██        | 2161/10699 [35:29<1:10:26,  2.02it/s] 20%|██        | 2162/10699 [35:30<1:10:26,  2.02it/s] 20%|██        | 2163/10699 [35:30<1:10:22,  2.02it/s] 20%|██        | 2164/10699 [35:31<1:10:19,  2.02it/s] 20%|██        | 2165/10699 [35:31<1:10:25,  2.02it/s] 20%|██        | 2166/10699 [35:32<1:10:24,  2.02it/s] 20%|██        | 2167/10699 [35:32<1:10:24,  2.02it/s] 20%|██        | 2168/10699 [35:33<1:10:25,  2.02it/s] 20%|██        | 2169/10699 [35:33<1:10:25,  2.02it/s] 20%|██        | 2170/10699 [35:34<1:10:24,  2.02it/s] 20%|██        | 2171/10699 [35:34<1:10:21,  2.02it/s] 20%|██        | 2172/10699 [35:34<1:10:18,  2.02it/s] 20%|██        | 2173/10699 [35:35<1:10:22,  2.02it/s] 20%|██        | 2174/10699 [35:35<1:10:23,  2.02it/s] 20%|██        | 2175/10699 [35:36<1:10:21,  2.02it/s]                                                      {'loss': 4.0266, 'grad_norm': 0.22458672523498535, 'learning_rate': 0.0009678565227691815, 'epoch': 0.2}
- 20%|██        | 2175/10699 [35:36<1:10:21,  2.02it/s] 20%|██        | 2176/10699 [35:36<1:10:25,  2.02it/s] 20%|██        | 2177/10699 [35:37<1:10:19,  2.02it/s] 20%|██        | 2178/10699 [35:37<1:10:18,  2.02it/s] 20%|██        | 2179/10699 [35:38<1:10:14,  2.02it/s] 20%|██        | 2180/10699 [35:38<1:10:16,  2.02it/s] 20%|██        | 2181/10699 [35:39<1:10:10,  2.02it/s] 20%|██        | 2182/10699 [35:39<1:10:10,  2.02it/s] 20%|██        | 2183/10699 [35:40<1:10:10,  2.02it/s] 20%|██        | 2184/10699 [35:40<1:10:13,  2.02it/s] 20%|██        | 2185/10699 [35:41<1:10:11,  2.02it/s] 20%|██        | 2186/10699 [35:41<1:10:13,  2.02it/s] 20%|██        | 2187/10699 [35:42<1:10:08,  2.02it/s] 20%|██        | 2188/10699 [35:42<1:10:08,  2.02it/s] 20%|██        | 2189/10699 [35:43<1:10:11,  2.02it/s] 20%|██        | 2190/10699 [35:43<1:10:06,  2.02it/s] 20%|██        | 2191/10699 [35:44<1:10:06,  2.02it/s] 20%|██        | 2192/10699 [35:44<1:10:04,  2.02it/s] 20%|██        | 2193/10699 [35:45<1:10:01,  2.02it/s] 21%|██        | 2194/10699 [35:45<1:10:01,  2.02it/s] 21%|██        | 2195/10699 [35:46<1:10:05,  2.02it/s] 21%|██        | 2196/10699 [35:46<1:10:01,  2.02it/s] 21%|██        | 2197/10699 [35:47<1:10:05,  2.02it/s] 21%|██        | 2198/10699 [35:47<1:10:01,  2.02it/s] 21%|██        | 2199/10699 [35:48<1:10:03,  2.02it/s] 21%|██        | 2200/10699 [35:48<1:09:56,  2.03it/s]                                                      {'loss': 4.0096, 'grad_norm': 0.217088520526886, 'learning_rate': 0.0009664023074672048, 'epoch': 0.21}
- 21%|██        | 2200/10699 [35:48<1:09:56,  2.03it/s] 21%|██        | 2201/10699 [35:49<1:10:15,  2.02it/s] 21%|██        | 2202/10699 [35:49<1:10:08,  2.02it/s] 21%|██        | 2203/10699 [35:50<1:10:10,  2.02it/s] 21%|██        | 2204/10699 [35:50<1:10:02,  2.02it/s] 21%|██        | 2205/10699 [35:51<1:10:03,  2.02it/s] 21%|██        | 2206/10699 [35:51<1:10:00,  2.02it/s] 21%|██        | 2207/10699 [35:52<1:10:00,  2.02it/s] 21%|██        | 2208/10699 [35:52<1:09:59,  2.02it/s] 21%|██        | 2209/10699 [35:53<1:09:57,  2.02it/s] 21%|██        | 2210/10699 [35:53<1:09:56,  2.02it/s] 21%|██        | 2211/10699 [35:54<1:09:54,  2.02it/s] 21%|██        | 2212/10699 [35:54<1:09:54,  2.02it/s] 21%|██        | 2213/10699 [35:55<1:09:52,  2.02it/s] 21%|█��        | 2214/10699 [35:55<1:09:54,  2.02it/s] 21%|██        | 2215/10699 [35:56<1:09:54,  2.02it/s] 21%|██        | 2216/10699 [35:56<1:09:56,  2.02it/s] 21%|██        | 2217/10699 [35:57<1:09:53,  2.02it/s] 21%|██        | 2218/10699 [35:57<1:09:54,  2.02it/s] 21%|██        | 2219/10699 [35:58<1:09:56,  2.02it/s] 21%|██        | 2220/10699 [35:58<1:09:57,  2.02it/s] 21%|██        | 2221/10699 [35:59<1:09:56,  2.02it/s] 21%|██        | 2222/10699 [35:59<1:09:54,  2.02it/s] 21%|██        | 2223/10699 [36:00<1:09:56,  2.02it/s] 21%|██        | 2224/10699 [36:00<1:09:54,  2.02it/s] 21%|██        | 2225/10699 [36:01<1:09:56,  2.02it/s]                                                      {'loss': 4.0191, 'grad_norm': 0.21753111481666565, 'learning_rate': 0.0009649170626013289, 'epoch': 0.21}
- 21%|██        | 2225/10699 [36:01<1:09:56,  2.02it/s] 21%|██        | 2226/10699 [36:01<1:09:57,  2.02it/s] 21%|██        | 2227/10699 [36:02<1:09:51,  2.02it/s] 21%|██        | 2228/10699 [36:02<1:09:54,  2.02it/s] 21%|██        | 2229/10699 [36:03<1:09:56,  2.02it/s] 21%|██        | 2230/10699 [36:03<1:09:53,  2.02it/s] 21%|██        | 2231/10699 [36:04<1:09:49,  2.02it/s] 21%|██        | 2232/10699 [36:04<1:09:48,  2.02it/s] 21%|██        | 2233/10699 [36:05<1:09:48,  2.02it/s] 21%|██        | 2234/10699 [36:05<1:09:47,  2.02it/s] 21%|██        | 2235/10699 [36:06<1:09:45,  2.02it/s] 21%|██        | 2236/10699 [36:06<1:09:49,  2.02it/s] 21%|██        | 2237/10699 [36:07<1:09:47,  2.02it/s] 21%|██        | 2238/10699 [36:07<1:09:49,  2.02it/s] 21%|██        | 2239/10699 [36:08<1:09:46,  2.02it/s] 21%|██        | 2240/10699 [36:08<1:09:45,  2.02it/s] 21%|██        | 2241/10699 [36:09<1:09:43,  2.02it/s] 21%|██        | 2242/10699 [36:09<1:09:46,  2.02it/s] 21%|██        | 2243/10699 [36:10<1:09:46,  2.02it/s] 21%|██        | 2244/10699 [36:10<1:09:46,  2.02it/s] 21%|██        | 2245/10699 [36:11<1:09:42,  2.02it/s] 21%|██        | 2246/10699 [36:11<1:09:44,  2.02it/s] 21%|██        | 2247/10699 [36:12<1:09:39,  2.02it/s] 21%|██        | 2248/10699 [36:12<1:09:41,  2.02it/s] 21%|██        | 2249/10699 [36:13<1:09:42,  2.02it/s] 21%|██        | 2250/10699 [36:13<1:09:39,  2.02it/s]                                                      {'loss': 4.0039, 'grad_norm': 0.22458302974700928, 'learning_rate': 0.0009634008869843165, 'epoch': 0.21}
- 21%|██        | 2250/10699 [36:13<1:09:39,  2.02it/s] 21%|██        | 2251/10699 [36:14<1:09:56,  2.01it/s] 21%|██        | 2252/10699 [36:14<1:09:48,  2.02it/s] 21%|██        | 2253/10699 [36:15<1:09:43,  2.02it/s] 21%|██        | 2254/10699 [36:15<1:09:47,  2.02it/s] 21%|██        | 2255/10699 [36:16<1:09:45,  2.02it/s] 21%|██        | 2256/10699 [36:16<1:09:41,  2.02it/s] 21%|██        | 2257/10699 [36:17<1:09:41,  2.02it/s] 21%|██        | 2258/10699 [36:17<1:09:40,  2.02it/s] 21%|██        | 2259/10699 [36:18<1:09:41,  2.02it/s] 21%|██        | 2260/10699 [36:18<1:09:34,  2.02it/s] 21%|██        | 2261/10699 [36:19<1:09:33,  2.02it/s] 21%|██        | 2262/10699 [36:19<1:09:33,  2.02it/s] 21%|██        | 2263/10699 [36:20<1:09:31,  2.02it/s] 21%|██        | 2264/10699 [36:20<1:09:29,  2.02it/s] 21%|██        | 2265/10699 [36:21<1:09:26,  2.02it/s] 21%|██        | 2266/10699 [36:21<1:09:27,  2.02it/s] 21%|██        | 2267/10699 [36:21<1:09:25,  2.02it/s] 21%|██        | 2268/10699 [36:22<1:09:29,  2.02it/s] 21%|██        | 2269/10699 [36:22<1:09:26,  2.02it/s] 21%|██        | 2270/10699 [36:23<1:09:26,  2.02it/s] 21%|██        | 2271/10699 [36:23<1:09:22,  2.02it/s] 21%|██        | 2272/10699 [36:24<1:09:21,  2.02it/s] 21%|██        | 2273/10699 [36:24<1:09:21,  2.02it/s] 21%|██▏       | 2274/10699 [36:25<1:09:22,  2.02it/s] 21%|██▏       | 2275/10699 [36:25<1:09:21,  2.02it/s]                                                      {'loss': 4.0033, 'grad_norm': 0.21527594327926636, 'learning_rate': 0.0009618538814867411, 'epoch': 0.21}
- 21%|██▏       | 2275/10699 [36:25<1:09:21,  2.02it/s] 21%|██▏       | 2276/10699 [36:26<1:09:24,  2.02it/s] 21%|██▏       | 2277/10699 [36:26<1:09:25,  2.02it/s] 21%|██▏       | 2278/10699 [36:27<1:09:22,  2.02it/s] 21%|██▏       | 2279/10699 [36:27<1:09:25,  2.02it/s] 21%|██▏       | 2280/10699 [36:28<1:09:21,  2.02it/s] 21%|██▏       | 2281/10699 [36:28<1:09:19,  2.02it/s] 21%|██▏       | 2282/10699 [36:29<1:09:18,  2.02it/s] 21%|██▏       | 2283/10699 [36:29<1:09:14,  2.03it/s] 21%|██▏       | 2284/10699 [36:30<1:09:17,  2.02it/s] 21%|██▏       | 2285/10699 [36:30<1:09:18,  2.02it/s] 21%|██▏       | 2286/10699 [36:31<1:09:22,  2.02it/s] 21%|██▏       | 2287/10699 [36:31<1:09:26,  2.02it/s] 21%|██▏       | 2288/10699 [36:32<1:09:27,  2.02it/s] 21%|��█▏       | 2289/10699 [36:32<1:09:28,  2.02it/s] 21%|██▏       | 2290/10699 [36:33<1:09:23,  2.02it/s] 21%|██▏       | 2291/10699 [36:33<1:09:25,  2.02it/s] 21%|██▏       | 2292/10699 [36:34<1:09:22,  2.02it/s] 21%|██▏       | 2293/10699 [36:34<1:09:20,  2.02it/s] 21%|██▏       | 2294/10699 [36:35<1:09:20,  2.02it/s] 21%|██▏       | 2295/10699 [36:35<1:09:12,  2.02it/s] 21%|██▏       | 2296/10699 [36:36<1:09:19,  2.02it/s] 21%|██▏       | 2297/10699 [36:36<1:09:15,  2.02it/s] 21%|██▏       | 2298/10699 [36:37<1:09:17,  2.02it/s] 21%|██▏       | 2299/10699 [36:37<1:09:10,  2.02it/s] 21%|██▏       | 2300/10699 [36:38<1:09:08,  2.02it/s]                                                      {'loss': 4.0075, 'grad_norm': 0.21980546414852142, 'learning_rate': 0.0009602761490302756, 'epoch': 0.21}
- 21%|██▏       | 2300/10699 [36:38<1:09:08,  2.02it/s] 22%|██▏       | 2301/10699 [36:38<1:09:11,  2.02it/s] 22%|██▏       | 2302/10699 [36:39<1:09:11,  2.02it/s] 22%|██▏       | 2303/10699 [36:39<1:09:08,  2.02it/s] 22%|██▏       | 2304/10699 [36:40<1:09:08,  2.02it/s] 22%|██▏       | 2305/10699 [36:40<1:09:13,  2.02it/s] 22%|██▏       | 2306/10699 [36:41<1:09:13,  2.02it/s] 22%|██▏       | 2307/10699 [36:41<1:09:12,  2.02it/s] 22%|██▏       | 2308/10699 [36:42<1:09:11,  2.02it/s] 22%|██▏       | 2309/10699 [36:42<1:09:10,  2.02it/s] 22%|██▏       | 2310/10699 [36:43<1:09:07,  2.02it/s] 22%|██▏       | 2311/10699 [36:43<1:09:08,  2.02it/s] 22%|██▏       | 2312/10699 [36:44<1:09:02,  2.02it/s] 22%|██▏       | 2313/10699 [36:44<1:09:08,  2.02it/s] 22%|██▏       | 2314/10699 [36:45<1:09:03,  2.02it/s] 22%|██▏       | 2315/10699 [36:45<1:09:07,  2.02it/s] 22%|██▏       | 2316/10699 [36:46<1:09:01,  2.02it/s] 22%|██▏       | 2317/10699 [36:46<1:09:06,  2.02it/s] 22%|██▏       | 2318/10699 [36:47<1:09:01,  2.02it/s] 22%|██▏       | 2319/10699 [36:47<1:09:03,  2.02it/s] 22%|██▏       | 2320/10699 [36:48<1:09:01,  2.02it/s] 22%|██▏       | 2321/10699 [36:48<1:09:01,  2.02it/s] 22%|██▏       | 2322/10699 [36:49<1:08:58,  2.02it/s] 22%|██▏       | 2323/10699 [36:49<1:08:57,  2.02it/s] 22%|██▏       | 2324/10699 [36:50<1:09:01,  2.02it/s] 22%|██▏       | 2325/10699 [36:50<1:08:59,  2.02it/s]                                                      {'loss': 4.0048, 'grad_norm': 0.22187760472297668, 'learning_rate': 0.0009586677945808464, 'epoch': 0.22}
- 22%|██▏       | 2325/10699 [36:50<1:08:59,  2.02it/s] 22%|██▏       | 2326/10699 [36:51<1:09:05,  2.02it/s] 22%|██▏       | 2327/10699 [36:51<1:09:01,  2.02it/s] 22%|██▏       | 2328/10699 [36:52<1:08:57,  2.02it/s] 22%|██▏       | 2329/10699 [36:52<1:09:00,  2.02it/s] 22%|██▏       | 2330/10699 [36:53<1:08:57,  2.02it/s] 22%|██▏       | 2331/10699 [36:53<1:08:56,  2.02it/s] 22%|██▏       | 2332/10699 [36:54<1:08:51,  2.02it/s] 22%|██▏       | 2333/10699 [36:54<1:08:53,  2.02it/s] 22%|██▏       | 2334/10699 [36:55<1:08:54,  2.02it/s] 22%|██▏       | 2335/10699 [36:55<1:08:54,  2.02it/s] 22%|██▏       | 2336/10699 [36:56<1:08:56,  2.02it/s] 22%|██▏       | 2337/10699 [36:56<1:08:55,  2.02it/s] 22%|██▏       | 2338/10699 [36:57<1:08:57,  2.02it/s] 22%|██▏       | 2339/10699 [36:57<1:08:54,  2.02it/s] 22%|██▏       | 2340/10699 [36:58<1:08:52,  2.02it/s] 22%|██▏       | 2341/10699 [36:58<1:08:54,  2.02it/s] 22%|██▏       | 2342/10699 [36:59<1:08:49,  2.02it/s] 22%|██▏       | 2343/10699 [36:59<1:08:52,  2.02it/s] 22%|██▏       | 2344/10699 [37:00<1:08:45,  2.03it/s] 22%|██▏       | 2345/10699 [37:00<1:08:48,  2.02it/s] 22%|██▏       | 2346/10699 [37:01<1:08:43,  2.03it/s] 22%|██▏       | 2347/10699 [37:01<1:08:49,  2.02it/s] 22%|██▏       | 2348/10699 [37:02<1:08:42,  2.03it/s] 22%|██▏       | 2349/10699 [37:02<1:08:45,  2.02it/s] 22%|██▏       | 2350/10699 [37:03<1:08:42,  2.03it/s]                                                      {'loss': 4.0002, 'grad_norm': 0.23424239456653595, 'learning_rate': 0.0009570289251416487, 'epoch': 0.22}
- 22%|██▏       | 2350/10699 [37:03<1:08:42,  2.03it/s] 22%|██▏       | 2351/10699 [37:03<1:08:51,  2.02it/s] 22%|██▏       | 2352/10699 [37:04<1:08:46,  2.02it/s] 22%|██▏       | 2353/10699 [37:04<1:08:47,  2.02it/s] 22%|██▏       | 2354/10699 [37:05<1:08:45,  2.02it/s] 22%|██▏       | 2355/10699 [37:05<1:08:46,  2.02it/s] 22%|██▏       | 2356/10699 [37:06<1:08:41,  2.02it/s] 22%|██▏       | 2357/10699 [37:06<1:08:41,  2.02it/s] 22%|██▏       | 2358/10699 [37:06<1:08:41,  2.02it/s] 22%|██▏       | 2359/10699 [37:07<1:08:40,  2.02it/s] 22%|██▏       | 2360/10699 [37:07<1:08:42,  2.02it/s] 22%|██▏       | 2361/10699 [37:08<1:08:42,  2.02it/s] 22%|██▏       | 2362/10699 [37:08<1:08:43,  2.02it/s] 22%|██▏       | 2363/10699 [37:09<1:08:37,  2.02it/s] 22%|██▏       | 2364/10699 [37:09<1:08:42,  2.02it/s] 22%|██▏       | 2365/10699 [37:10<1:08:39,  2.02it/s] 22%|██▏       | 2366/10699 [37:10<1:08:42,  2.02it/s] 22%|██▏       | 2367/10699 [37:11<1:08:40,  2.02it/s] 22%|██▏       | 2368/10699 [37:11<1:08:43,  2.02it/s] 22%|██▏       | 2369/10699 [37:12<1:08:39,  2.02it/s] 22%|██▏       | 2370/10699 [37:12<1:08:38,  2.02it/s] 22%|██▏       | 2371/10699 [37:13<1:08:32,  2.03it/s] 22%|██▏       | 2372/10699 [37:13<1:08:33,  2.02it/s] 22%|██▏       | 2373/10699 [37:14<1:08:30,  2.03it/s] 22%|██▏       | 2374/10699 [37:14<1:08:28,  2.03it/s] 22%|██▏       | 2375/10699 [37:15<1:08:31,  2.02it/s]                                                      {'loss': 3.9874, 'grad_norm': 0.2100004255771637, 'learning_rate': 0.0009553596497460277, 'epoch': 0.22}
- 22%|██▏       | 2375/10699 [37:15<1:08:31,  2.02it/s] 22%|██▏       | 2376/10699 [37:15<1:08:39,  2.02it/s] 22%|██▏       | 2377/10699 [37:16<1:08:36,  2.02it/s] 22%|██▏       | 2378/10699 [37:16<1:08:34,  2.02it/s] 22%|██▏       | 2379/10699 [37:17<1:08:37,  2.02it/s] 22%|██▏       | 2380/10699 [37:17<1:08:30,  2.02it/s] 22%|██▏       | 2381/10699 [37:18<1:08:31,  2.02it/s] 22%|██▏       | 2382/10699 [37:18<1:08:28,  2.02it/s] 22%|██▏       | 2383/10699 [37:19<1:08:31,  2.02it/s] 22%|██▏       | 2384/10699 [37:19<1:08:25,  2.03it/s] 22%|██▏       | 2385/10699 [37:20<1:08:28,  2.02it/s] 22%|██▏       | 2386/10699 [37:20<1:08:28,  2.02it/s] 22%|██▏       | 2387/10699 [37:21<1:08:26,  2.02it/s] 22%|██▏       | 2388/10699 [37:21<1:08:29,  2.02it/s] 22%|██▏       | 2389/10699 [37:22<1:08:27,  2.02it/s] 22%|██▏       | 2390/10699 [37:22<1:08:30,  2.02it/s] 22%|██▏       | 2391/10699 [37:23<1:08:27,  2.02it/s] 22%|██▏       | 2392/10699 [37:23<1:08:26,  2.02it/s] 22%|██▏       | 2393/10699 [37:24<1:08:25,  2.02it/s] 22%|██▏       | 2394/10699 [37:24<1:08:25,  2.02it/s] 22%|██▏       | 2395/10699 [37:25<1:08:25,  2.02it/s] 22%|██▏       | 2396/10699 [37:25<1:08:33,  2.02it/s] 22%|██▏       | 2397/10699 [37:26<1:08:30,  2.02it/s] 22%|██▏       | 2398/10699 [37:26<1:08:33,  2.02it/s] 22%|██▏       | 2399/10699 [37:27<1:08:27,  2.02it/s] 22%|██▏       | 2400/10699 [37:27<1:08:29,  2.02it/s]{'loss': 3.9859, 'grad_norm': 0.21687406301498413, 'learning_rate': 0.000953660079450226, 'epoch': 0.22}                                                      
- 22%|██▏       | 2400/10699 [37:27<1:08:29,  2.02it/s] 22%|██▏       | 2401/10699 [37:28<1:08:29,  2.02it/s] 22%|██▏       | 2402/10699 [37:28<1:08:24,  2.02it/s] 22%|██▏       | 2403/10699 [37:29<1:08:20,  2.02it/s] 22%|██▏       | 2404/10699 [37:29<1:08:22,  2.02it/s] 22%|██▏       | 2405/10699 [37:30<1:08:21,  2.02it/s] 22%|██▏       | 2406/10699 [37:30<1:08:26,  2.02it/s] 22%|██▏       | 2407/10699 [37:31<1:08:23,  2.02it/s] 23%|██▎       | 2408/10699 [37:31<1:08:23,  2.02it/s] 23%|██▎       | 2409/10699 [37:32<1:08:21,  2.02it/s] 23%|██▎       | 2410/10699 [37:32<1:08:18,  2.02it/s] 23%|██▎       | 2411/10699 [37:33<1:08:22,  2.02it/s] 23%|██▎       | 2412/10699 [37:33<1:08:15,  2.02it/s] 23%|██▎       | 2413/10699 [37:34<1:08:19,  2.02it/s] 23%|██▎       | 2414/10699 [37:34<1:08:14,  2.02it/s] 23%|██▎       | 2415/10699 [37:35<1:08:16,  2.02it/s] 23%|██▎       | 2416/10699 [37:35<1:08:12,  2.02it/s] 23%|██▎       | 2417/10699 [37:36<1:08:13,  2.02it/s] 23%|██▎       | 2418/10699 [37:36<1:08:08,  2.03it/s] 23%|██▎       | 2419/10699 [37:37<1:08:06,  2.03it/s] 23%|██▎       | 2420/10699 [37:37<1:08:09,  2.02it/s] 23%|██▎       | 2421/10699 [37:38<1:08:08,  2.02it/s] 23%|██▎       | 2422/10699 [37:38<1:08:11,  2.02it/s] 23%|██▎       | 2423/10699 [37:39<1:08:09,  2.02it/s] 23%|██▎       | 2424/10699 [37:39<1:08:10,  2.02it/s] 23%|██▎       | 2425/10699 [37:40<1:08:11,  2.02it/s]                                                      {'loss': 3.9844, 'grad_norm': 0.20511263608932495, 'learning_rate': 0.0009519303273259933, 'epoch': 0.23}
- 23%|██▎       | 2425/10699 [37:40<1:08:11,  2.02it/s] 23%|██▎       | 2426/10699 [37:40<1:08:21,  2.02it/s] 23%|██▎       | 2427/10699 [37:41<1:08:13,  2.02it/s] 23%|██▎       | 2428/10699 [37:41<1:08:13,  2.02it/s] 23%|██▎       | 2429/10699 [37:42<1:08:09,  2.02it/s] 23%|██▎       | 2430/10699 [37:42<1:08:10,  2.02it/s] 23%|██▎       | 2431/10699 [37:43<1:08:11,  2.02it/s] 23%|██▎       | 2432/10699 [37:43<1:08:10,  2.02it/s] 23%|██▎       | 2433/10699 [37:44<1:08:11,  2.02it/s] 23%|██▎       | 2434/10699 [37:44<1:08:08,  2.02it/s] 23%|██▎       | 2435/10699 [37:45<1:08:05,  2.02it/s] 23%|██▎       | 2436/10699 [37:45<1:08:06,  2.02it/s] 23%|██▎       | 2437/10699 [37:46<1:08:05,  2.02it/s] 23%|██▎       | 2438/10699 [37:46<1:08:10,  2.02it/s] 23%|██▎       | 2439/10699 [37:47<1:08:02,  2.02it/s] 23%|██▎       | 2440/10699 [37:47<1:08:06,  2.02it/s] 23%|██▎       | 2441/10699 [37:48<1:08:03,  2.02it/s] 23%|██▎       | 2442/10699 [37:48<1:08:05,  2.02it/s] 23%|██▎       | 2443/10699 [37:49<1:08:02,  2.02it/s] 23%|██▎       | 2444/10699 [37:49<1:08:01,  2.02it/s] 23%|██▎       | 2445/10699 [37:50<1:07:57,  2.02it/s] 23%|██▎       | 2446/10699 [37:50<1:08:00,  2.02it/s] 23%|██▎       | 2447/10699 [37:51<1:08:00,  2.02it/s] 23%|██▎       | 2448/10699 [37:51<1:08:06,  2.02it/s] 23%|██▎       | 2449/10699 [37:51<1:08:02,  2.02it/s] 23%|██▎       | 2450/10699 [37:52<1:07:59,  2.02it/s]                                                      {'loss': 3.9724, 'grad_norm': 0.2256435602903366, 'learning_rate': 0.0009501705084530648, 'epoch': 0.23}
- 23%|██▎       | 2450/10699 [37:52<1:07:59,  2.02it/s] 23%|██▎       | 2451/10699 [37:52<1:08:00,  2.02it/s] 23%|██▎       | 2452/10699 [37:53<1:07:57,  2.02it/s] 23%|██▎       | 2453/10699 [37:53<1:07:56,  2.02it/s] 23%|██▎       | 2454/10699 [37:54<1:07:54,  2.02it/s] 23%|██▎       | 2455/10699 [37:54<1:07:55,  2.02it/s] 23%|██▎       | 2456/10699 [37:55<1:07:53,  2.02it/s] 23%|██▎       | 2457/10699 [37:55<1:07:51,  2.02it/s] 23%|██▎       | 2458/10699 [37:56<1:07:54,  2.02it/s] 23%|██▎       | 2459/10699 [37:56<1:07:56,  2.02it/s] 23%|██▎       | 2460/10699 [37:57<1:07:54,  2.02it/s] 23%|██▎       | 2461/10699 [37:57<1:07:56,  2.02it/s] 23%|██▎       | 2462/10699 [37:58<1:07:53,  2.02it/s] 23%|██▎       | 2463/10699 [37:58<1:07:48,  2.02it/s] 23%|██▎       | 2464/10699 [37:59<1:07:51,  2.02it/s] 23%|██▎       | 2465/10699 [37:59<1:07:47,  2.02it/s] 23%|██▎       | 2466/10699 [38:00<1:07:53,  2.02it/s] 23%|██▎       | 2467/10699 [38:00<1:07:47,  2.02it/s] 23%|██▎       | 2468/10699 [38:01<1:07:48,  2.02it/s] 23%|██▎       | 2469/10699 [38:01<1:07:52,  2.02it/s] 23%|██▎       | 2470/10699 [38:02<1:07:48,  2.02it/s] 23%|██▎       | 2471/10699 [38:02<1:07:53,  2.02it/s] 23%|██▎       | 2472/10699 [38:03<1:07:49,  2.02it/s] 23%|██▎       | 2473/10699 [38:03<1:07:47,  2.02it/s] 23%|██▎       | 2474/10699 [38:04<1:07:44,  2.02it/s] 23%|██▎       | 2475/10699 [38:04<1:07:50,  2.02it/s]{'loss': 3.975, 'grad_norm': 0.20560355484485626, 'learning_rate': 0.000948380739911505, 'epoch': 0.23}
-                                                       23%|██▎       | 2475/10699 [38:04<1:07:50,  2.02it/s] 23%|██▎       | 2476/10699 [38:05<1:07:53,  2.02it/s] 23%|██▎       | 2477/10699 [38:06<1:19:21,  1.73it/s] 23%|██▎       | 2478/10699 [38:06<1:15:56,  1.80it/s] 23%|██▎       | 2479/10699 [38:07<1:13:24,  1.87it/s] 23%|██▎       | 2480/10699 [38:07<1:11:46,  1.91it/s] 23%|██▎       | 2481/10699 [38:08<1:10:27,  1.94it/s] 23%|██▎       | 2482/10699 [38:08<1:09:39,  1.97it/s] 23%|██▎       | 2483/10699 [38:09<1:09:03,  1.98it/s] 23%|██▎       | 2484/10699 [38:09<1:08:47,  1.99it/s] 23%|██▎       | 2485/10699 [38:10<1:08:25,  2.00it/s] 23%|██▎       | 2486/10699 [38:10<1:08:17,  2.00it/s] 23%|██▎       | 2487/10699 [38:11<1:07:58,  2.01it/s] 23%|██▎       | 2488/10699 [38:11<1:07:55,  2.01it/s] 23%|██▎       | 2489/10699 [38:12<1:19:11,  1.73it/s] 23%|██▎       | 2490/10699 [38:12<1:15:43,  1.81it/s] 23%|██▎       | 2491/10699 [38:13<1:13:15,  1.87it/s] 23%|██▎       | 2492/10699 [38:13<1:11:33,  1.91it/s] 23%|██▎       | 2493/10699 [38:14<1:10:20,  1.94it/s] 23%|██▎       | 2494/10699 [38:14<1:09:30,  1.97it/s] 23%|██▎       | 2495/10699 [38:15<1:08:50,  1.99it/s] 23%|██▎       | 2496/10699 [38:15<1:08:29,  2.00it/s] 23%|██▎       | 2497/10699 [38:16<1:08:12,  2.00it/s] 23%|██▎       | 2498/10699 [38:16<1:07:59,  2.01it/s] 23%|██▎       | 2499/10699 [38:17<1:07:49,  2.02it/s] 23%|██▎       | 2500/10699 [38:17<1:07:47,  2.02it/s]                                                      {'loss': 3.964, 'grad_norm': 0.23351366817951202, 'learning_rate': 0.0009465611407739179, 'epoch': 0.23}
- 23%|██▎       | 2500/10699 [38:17<1:07:47,  2.02it/s] 23%|██▎       | 2501/10699 [38:18<1:07:45,  2.02it/s] 23%|██▎       | 2502/10699 [38:18<1:07:46,  2.02it/s] 23%|██▎       | 2503/10699 [38:19<1:07:34,  2.02it/s] 23%|██▎       | 2504/10699 [38:19<1:07:35,  2.02it/s] 23%|██▎       | 2505/10699 [38:20<1:07:33,  2.02it/s] 23%|██▎       | 2506/10699 [38:20<1:07:34,  2.02it/s] 23%|██▎       | 2507/10699 [38:21<1:07:32,  2.02it/s] 23%|██▎       | 2508/10699 [38:21<1:07:32,  2.02it/s] 23%|██▎       | 2509/10699 [38:22<1:07:29,  2.02it/s] 23%|██▎       | 2510/10699 [38:22<1:07:26,  2.02it/s] 23%|██▎       | 2511/10699 [38:23<1:07:26,  2.02it/s] 23%|██▎       | 2512/10699 [38:23<1:07:21,  2.03it/s] 23%|██▎       | 2513/10699 [38:24<1:07:27,  2.02it/s] 23%|██▎       | 2514/10699 [38:24<1:07:23,  2.02it/s] 24%|██▎       | 2515/10699 [38:25<1:07:28,  2.02it/s] 24%|██▎       | 2516/10699 [38:25<1:07:25,  2.02it/s] 24%|██▎       | 2517/10699 [38:26<1:07:28,  2.02it/s] 24%|██▎       | 2518/10699 [38:26<1:07:23,  2.02it/s] 24%|██▎       | 2519/10699 [38:27<1:07:25,  2.02it/s] 24%|██▎       | 2520/10699 [38:27<1:07:21,  2.02it/s] 24%|██▎       | 2521/10699 [38:28<1:07:24,  2.02it/s] 24%|██▎       | 2522/10699 [38:28<1:07:18,  2.02it/s] 24%|██▎       | 2523/10699 [38:29<1:07:21,  2.02it/s] 24%|██▎       | 2524/10699 [38:29<1:07:20,  2.02it/s] 24%|██▎       | 2525/10699 [38:30<1:07:21,  2.02it/s]{'loss': 3.9701, 'grad_norm': 0.23603560030460358, 'learning_rate': 0.0009447118320975256, 'epoch': 0.24}                                                      
- 24%|██▎       | 2525/10699 [38:30<1:07:21,  2.02it/s] 24%|██▎       | 2526/10699 [38:30<1:07:23,  2.02it/s] 24%|██▎       | 2527/10699 [38:31<1:07:25,  2.02it/s] 24%|██▎       | 2528/10699 [38:31<1:07:19,  2.02it/s] 24%|██▎       | 2529/10699 [38:32<1:07:19,  2.02it/s] 24%|██▎       | 2530/10699 [38:32<1:07:16,  2.02it/s] 24%|██▎       | 2531/10699 [38:33<1:07:19,  2.02it/s] 24%|██▎       | 2532/10699 [38:33<1:07:16,  2.02it/s] 24%|██▎       | 2533/10699 [38:34<1:07:17,  2.02it/s] 24%|██▎       | 2534/10699 [38:34<1:07:22,  2.02it/s] 24%|██▎       | 2535/10699 [38:35<1:07:19,  2.02it/s] 24%|██▎       | 2536/10699 [38:35<1:07:16,  2.02it/s] 24%|██▎       | 2537/10699 [38:36<1:07:16,  2.02it/s] 24%|██▎       | 2538/10699 [38:36<1:07:15,  2.02it/s] 24%|██▎       | 2539/10699 [38:37<1:07:16,  2.02it/s] 24%|██▎       | 2540/10699 [38:37<1:07:14,  2.02it/s] 24%|██▎       | 2541/10699 [38:38<1:07:14,  2.02it/s] 24%|██▍       | 2542/10699 [38:38<1:07:16,  2.02it/s] 24%|██▍       | 2543/10699 [38:39<1:07:17,  2.02it/s] 24%|██▍       | 2544/10699 [38:39<1:07:15,  2.02it/s] 24%|██▍       | 2545/10699 [38:40<1:07:18,  2.02it/s] 24%|██▍       | 2546/10699 [38:40<1:07:15,  2.02it/s] 24%|██▍       | 2547/10699 [38:41<1:07:14,  2.02it/s] 24%|██▍       | 2548/10699 [38:41<1:07:16,  2.02it/s] 24%|██▍       | 2549/10699 [38:42<1:07:12,  2.02it/s] 24%|██▍       | 2550/10699 [38:42<1:07:12,  2.02it/s]                                                      {'loss': 3.9633, 'grad_norm': 0.20167100429534912, 'learning_rate': 0.0009428329369161144, 'epoch': 0.24}
- 24%|██▍       | 2550/10699 [38:42<1:07:12,  2.02it/s] 24%|██▍       | 2551/10699 [38:42<1:07:14,  2.02it/s] 24%|██▍       | 2552/10699 [38:43<1:07:13,  2.02it/s] 24%|██▍       | 2553/10699 [38:43<1:07:13,  2.02it/s] 24%|██▍       | 2554/10699 [38:44<1:07:04,  2.02it/s] 24%|██▍       | 2555/10699 [38:44<1:07:09,  2.02it/s] 24%|██▍       | 2556/10699 [38:45<1:07:05,  2.02it/s] 24%|██▍       | 2557/10699 [38:45<1:07:10,  2.02it/s] 24%|██▍       | 2558/10699 [38:46<1:07:02,  2.02it/s] 24%|██▍       | 2559/10699 [38:46<1:07:05,  2.02it/s] 24%|██▍       | 2560/10699 [38:47<1:07:05,  2.02it/s] 24%|██▍       | 2561/10699 [38:47<1:07:05,  2.02it/s] 24%|██▍       | 2562/10699 [38:48<1:07:03,  2.02it/s] 24%|██▍       | 2563/10699 [38:48<1:07:08,  2.02it/s] 24%|██▍       | 2564/10699 [38:49<1:07:06,  2.02it/s] 24%|██▍       | 2565/10699 [38:49<1:07:07,  2.02it/s] 24%|██▍       | 2566/10699 [38:50<1:07:04,  2.02it/s] 24%|██▍       | 2567/10699 [38:50<1:07:08,  2.02it/s] 24%|██▍       | 2568/10699 [38:51<1:07:07,  2.02it/s] 24%|██▍       | 2569/10699 [38:51<1:07:08,  2.02it/s] 24%|██▍       | 2570/10699 [38:52<1:07:07,  2.02it/s] 24%|██▍       | 2571/10699 [38:52<1:07:03,  2.02it/s] 24%|██▍       | 2572/10699 [38:53<1:06:59,  2.02it/s] 24%|██▍       | 2573/10699 [38:53<1:06:57,  2.02it/s] 24%|██▍       | 2574/10699 [38:54<1:06:52,  2.02it/s] 24%|██▍       | 2575/10699 [38:54<1:06:57,  2.02it/s]{'loss': 3.956, 'grad_norm': 0.20915372669696808, 'learning_rate': 0.0009409245802318489, 'epoch': 0.24}                                                      
- 24%|██▍       | 2575/10699 [38:54<1:06:57,  2.02it/s] 24%|██▍       | 2576/10699 [38:55<1:07:01,  2.02it/s] 24%|██▍       | 2577/10699 [38:55<1:07:04,  2.02it/s] 24%|██▍       | 2578/10699 [38:56<1:06:58,  2.02it/s] 24%|██▍       | 2579/10699 [38:56<1:06:58,  2.02it/s] 24%|██▍       | 2580/10699 [38:57<1:06:52,  2.02it/s] 24%|██▍       | 2581/10699 [38:57<1:06:53,  2.02it/s] 24%|██▍       | 2582/10699 [38:58<1:06:50,  2.02it/s] 24%|██▍       | 2583/10699 [38:58<1:06:51,  2.02it/s] 24%|██▍       | 2584/10699 [38:59<1:06:50,  2.02it/s] 24%|██▍       | 2585/10699 [38:59<1:06:47,  2.02it/s] 24%|██▍       | 2586/10699 [39:00<1:06:50,  2.02it/s] 24%|██▍       | 2587/10699 [39:00<1:06:51,  2.02it/s] 24%|██▍       | 2588/10699 [39:01<1:06:55,  2.02it/s] 24%|██▍       | 2589/10699 [39:01<1:06:50,  2.02it/s] 24%|██▍       | 2590/10699 [39:02<1:06:54,  2.02it/s] 24%|██▍       | 2591/10699 [39:02<1:06:52,  2.02it/s] 24%|██▍       | 2592/10699 [39:03<1:06:53,  2.02it/s] 24%|██▍       | 2593/10699 [39:03<1:06:50,  2.02it/s] 24%|██▍       | 2594/10699 [39:04<1:06:50,  2.02it/s] 24%|██▍       | 2595/10699 [39:04<1:06:49,  2.02it/s] 24%|██▍       | 2596/10699 [39:05<1:06:51,  2.02it/s] 24%|██▍       | 2597/10699 [39:05<1:06:46,  2.02it/s] 24%|██▍       | 2598/10699 [39:06<1:06:42,  2.02it/s] 24%|██▍       | 2599/10699 [39:06<1:06:44,  2.02it/s] 24%|██▍       | 2600/10699 [39:07<1:06:39,  2.02it/s]{'loss': 3.9566, 'grad_norm': 0.21126191318035126, 'learning_rate': 0.0009389868890069562, 'epoch': 0.24}                                                      
- 24%|██▍       | 2600/10699 [39:07<1:06:39,  2.02it/s] 24%|██▍       | 2601/10699 [39:07<1:06:52,  2.02it/s] 24%|██▍       | 2602/10699 [39:08<1:06:47,  2.02it/s] 24%|██▍       | 2603/10699 [39:08<1:06:44,  2.02it/s] 24%|██▍       | 2604/10699 [39:09<1:06:41,  2.02it/s] 24%|██▍       | 2605/10699 [39:09<1:06:40,  2.02it/s] 24%|██▍       | 2606/10699 [39:10<1:06:44,  2.02it/s] 24%|██▍       | 2607/10699 [39:10<1:06:42,  2.02it/s] 24%|██▍       | 2608/10699 [39:11<1:06:43,  2.02it/s] 24%|██▍       | 2609/10699 [39:11<1:06:42,  2.02it/s] 24%|██▍       | 2610/10699 [39:12<1:06:42,  2.02it/s] 24%|██▍       | 2611/10699 [39:12<1:06:41,  2.02it/s] 24%|██▍       | 2612/10699 [39:13<1:06:38,  2.02it/s] 24%|██▍       | 2613/10699 [39:13<1:06:36,  2.02it/s] 24%|██▍       | 2614/10699 [39:14<1:06:32,  2.02it/s] 24%|██▍       | 2615/10699 [39:14<1:06:35,  2.02it/s] 24%|██▍       | 2616/10699 [39:15<1:06:34,  2.02it/s] 24%|██▍       | 2617/10699 [39:15<1:06:37,  2.02it/s] 24%|██▍       | 2618/10699 [39:16<1:06:31,  2.02it/s] 24%|██▍       | 2619/10699 [39:16<1:06:33,  2.02it/s] 24%|██▍       | 2620/10699 [39:17<1:06:28,  2.03it/s] 24%|██▍       | 2621/10699 [39:17<1:06:31,  2.02it/s] 25%|██▍       | 2622/10699 [39:18<1:06:30,  2.02it/s] 25%|██▍       | 2623/10699 [39:18<1:06:29,  2.02it/s] 25%|██▍       | 2624/10699 [39:19<1:06:28,  2.02it/s] 25%|██▍       | 2625/10699 [39:19<1:06:25,  2.03it/s]{'loss': 3.9517, 'grad_norm': 0.2509733736515045, 'learning_rate': 0.0009370199921552789, 'epoch': 0.25}                                                      
- 25%|██▍       | 2625/10699 [39:19<1:06:25,  2.03it/s] 25%|██▍       | 2626/10699 [39:20<1:06:33,  2.02it/s] 25%|██▍       | 2627/10699 [39:20<1:06:30,  2.02it/s] 25%|██▍       | 2628/10699 [39:21<1:06:32,  2.02it/s] 25%|██▍       | 2629/10699 [39:21<1:06:29,  2.02it/s] 25%|██▍       | 2630/10699 [39:22<1:06:33,  2.02it/s] 25%|██▍       | 2631/10699 [39:22<1:06:30,  2.02it/s] 25%|██▍       | 2632/10699 [39:23<1:06:31,  2.02it/s] 25%|██▍       | 2633/10699 [39:23<1:06:25,  2.02it/s] 25%|██▍       | 2634/10699 [39:24<1:06:28,  2.02it/s] 25%|██▍       | 2635/10699 [39:24<1:06:23,  2.02it/s] 25%|██▍       | 2636/10699 [39:25<1:06:31,  2.02it/s] 25%|██▍       | 2637/10699 [39:25<1:06:26,  2.02it/s] 25%|██▍       | 2638/10699 [39:26<1:06:27,  2.02it/s] 25%|██▍       | 2639/10699 [39:26<1:06:23,  2.02it/s] 25%|██▍       | 2640/10699 [39:27<1:06:22,  2.02it/s] 25%|██▍       | 2641/10699 [39:27<1:06:21,  2.02it/s] 25%|██▍       | 2642/10699 [39:27<1:06:23,  2.02it/s] 25%|██▍       | 2643/10699 [39:28<1:06:21,  2.02it/s] 25%|██▍       | 2644/10699 [39:28<1:06:19,  2.02it/s] 25%|██▍       | 2645/10699 [39:29<1:06:20,  2.02it/s] 25%|██▍       | 2646/10699 [39:29<1:06:19,  2.02it/s] 25%|██▍       | 2647/10699 [39:30<1:06:22,  2.02it/s] 25%|██▍       | 2648/10699 [39:30<1:06:19,  2.02it/s] 25%|██▍       | 2649/10699 [39:31<1:06:20,  2.02it/s] 25%|██▍       | 2650/10699 [39:31<1:06:18,  2.02it/s]{'loss': 3.9446, 'grad_norm': 0.2068406194448471, 'learning_rate': 0.0009350240205336989, 'epoch': 0.25}
-                                                       25%|██▍       | 2650/10699 [39:31<1:06:18,  2.02it/s] 25%|██▍       | 2651/10699 [39:32<1:06:24,  2.02it/s] 25%|██▍       | 2652/10699 [39:32<1:06:18,  2.02it/s] 25%|██▍       | 2653/10699 [39:33<1:06:19,  2.02it/s] 25%|██▍       | 2654/10699 [39:33<1:06:13,  2.02it/s] 25%|██▍       | 2655/10699 [39:34<1:06:14,  2.02it/s] 25%|██▍       | 2656/10699 [39:34<1:06:10,  2.03it/s] 25%|██▍       | 2657/10699 [39:35<1:06:14,  2.02it/s] 25%|██▍       | 2658/10699 [39:35<1:06:12,  2.02it/s] 25%|██▍       | 2659/10699 [39:36<1:06:13,  2.02it/s] 25%|██▍       | 2660/10699 [39:36<1:06:11,  2.02it/s] 25%|██▍       | 2661/10699 [39:37<1:06:11,  2.02it/s] 25%|██▍       | 2662/10699 [39:37<1:06:13,  2.02it/s] 25%|██▍       | 2663/10699 [39:38<1:06:13,  2.02it/s] 25%|██▍       | 2664/10699 [39:38<1:06:12,  2.02it/s] 25%|██▍       | 2665/10699 [39:39<1:06:12,  2.02it/s] 25%|██▍       | 2666/10699 [39:39<1:06:13,  2.02it/s] 25%|██▍       | 2667/10699 [39:40<1:06:15,  2.02it/s] 25%|██▍       | 2668/10699 [39:40<1:06:15,  2.02it/s] 25%|██▍       | 2669/10699 [39:41<1:06:12,  2.02it/s] 25%|██▍       | 2670/10699 [39:41<1:06:13,  2.02it/s] 25%|██▍       | 2671/10699 [39:42<1:06:11,  2.02it/s] 25%|██▍       | 2672/10699 [39:42<1:06:07,  2.02it/s] 25%|██▍       | 2673/10699 [39:43<1:06:06,  2.02it/s] 25%|██▍       | 2674/10699 [39:43<1:05:59,  2.03it/s] 25%|██▌       | 2675/10699 [39:44<1:06:01,  2.03it/s]{'loss': 3.9478, 'grad_norm': 0.21594364941120148, 'learning_rate': 0.0009329991069334306, 'epoch': 0.25}
-                                                       25%|██▌       | 2675/10699 [39:44<1:06:01,  2.03it/s] 25%|██▌       | 2676/10699 [39:44<1:06:05,  2.02it/s] 25%|██▌       | 2677/10699 [39:45<1:06:10,  2.02it/s] 25%|██▌       | 2678/10699 [39:45<1:06:03,  2.02it/s] 25%|██▌       | 2679/10699 [39:46<1:06:07,  2.02it/s] 25%|██▌       | 2680/10699 [39:46<1:06:05,  2.02it/s] 25%|██▌       | 2681/10699 [39:47<1:06:05,  2.02it/s] 25%|██▌       | 2682/10699 [39:47<1:06:04,  2.02it/s] 25%|██▌       | 2683/10699 [39:48<1:06:02,  2.02it/s] 25%|██▌       | 2684/10699 [39:48<1:06:02,  2.02it/s] 25%|██▌       | 2685/10699 [39:49<1:05:56,  2.03it/s] 25%|██▌       | 2686/10699 [39:49<1:05:59,  2.02it/s] 25%|██▌       | 2687/10699 [39:50<1:05:54,  2.03it/s] 25%|██▌       | 2688/10699 [39:50<1:05:58,  2.02it/s] 25%|██▌       | 2689/10699 [39:51<1:05:59,  2.02it/s] 25%|██▌       | 2690/10699 [39:51<1:06:03,  2.02it/s] 25%|██▌       | 2691/10699 [39:52<1:06:00,  2.02it/s] 25%|██▌       | 2692/10699 [39:52<1:06:00,  2.02it/s] 25%|██▌       | 2693/10699 [39:53<1:06:00,  2.02it/s] 25%|██▌       | 2694/10699 [39:53<1:05:57,  2.02it/s] 25%|██▌       | 2695/10699 [39:54<1:06:01,  2.02it/s] 25%|██▌       | 2696/10699 [39:54<1:05:55,  2.02it/s] 25%|██▌       | 2697/10699 [39:55<1:05:59,  2.02it/s] 25%|██▌       | 2698/10699 [39:55<1:05:56,  2.02it/s] 25%|██▌       | 2699/10699 [39:56<1:05:57,  2.02it/s] 25%|██▌       | 2700/10699 [39:56<1:05:51,  2.02it/s]{'loss': 3.9392, 'grad_norm': 0.2068280428647995, 'learning_rate': 0.0009309453860711876, 'epoch': 0.25}
-                                                       25%|██▌       | 2700/10699 [39:56<1:05:51,  2.02it/s] 25%|██▌       | 2701/10699 [39:57<1:05:59,  2.02it/s] 25%|██▌       | 2702/10699 [39:57<1:05:53,  2.02it/s] 25%|██▌       | 2703/10699 [39:58<1:05:58,  2.02it/s] 25%|██▌       | 2704/10699 [39:58<1:05:52,  2.02it/s] 25%|██▌       | 2705/10699 [39:59<1:05:57,  2.02it/s] 25%|██▌       | 2706/10699 [39:59<1:05:54,  2.02it/s] 25%|██▌       | 2707/10699 [40:00<1:05:57,  2.02it/s] 25%|██▌       | 2708/10699 [40:00<1:05:51,  2.02it/s] 25%|██▌       | 2709/10699 [40:01<1:05:51,  2.02it/s] 25%|██▌       | 2710/10699 [40:01<1:05:51,  2.02it/s] 25%|██▌       | 2711/10699 [40:02<1:05:51,  2.02it/s] 25%|██▌       | 2712/10699 [40:02<1:05:52,  2.02it/s] 25%|██▌       | 2713/10699 [40:03<1:05:52,  2.02it/s] 25%|██▌       | 2714/10699 [40:03<1:05:48,  2.02it/s] 25%|██▌       | 2715/10699 [40:04<1:05:47,  2.02it/s] 25%|██▌       | 2716/10699 [40:04<1:05:46,  2.02it/s] 25%|██▌       | 2717/10699 [40:05<1:05:48,  2.02it/s] 25%|██▌       | 2718/10699 [40:05<1:05:44,  2.02it/s] 25%|██▌       | 2719/10699 [40:06<1:05:43,  2.02it/s] 25%|██▌       | 2720/10699 [40:06<1:05:42,  2.02it/s] 25%|██▌       | 2721/10699 [40:07<1:05:38,  2.03it/s] 25%|██▌       | 2722/10699 [40:07<1:05:45,  2.02it/s] 25%|██▌       | 2723/10699 [40:08<1:05:39,  2.02it/s] 25%|██▌       | 2724/10699 [40:08<1:05:41,  2.02it/s] 25%|██▌       | 2725/10699 [40:09<1:05:37,  2.02it/s]{'loss': 3.9494, 'grad_norm': 0.2182968258857727, 'learning_rate': 0.0009288629945802191, 'epoch': 0.25}                                                      
- 25%|██▌       | 2725/10699 [40:09<1:05:37,  2.02it/s] 25%|██▌       | 2726/10699 [40:09<1:05:45,  2.02it/s] 25%|██▌       | 2727/10699 [40:10<1:05:42,  2.02it/s] 25%|██▌       | 2728/10699 [40:10<1:05:42,  2.02it/s] 26%|██▌       | 2729/10699 [40:11<1:05:38,  2.02it/s] 26%|██▌       | 2730/10699 [40:11<1:05:37,  2.02it/s] 26%|██▌       | 2731/10699 [40:12<1:05:39,  2.02it/s] 26%|██▌       | 2732/10699 [40:12<1:05:37,  2.02it/s] 26%|██▌       | 2733/10699 [40:12<1:05:36,  2.02it/s] 26%|██▌       | 2734/10699 [40:13<1:05:39,  2.02it/s] 26%|██▌       | 2735/10699 [40:13<1:05:39,  2.02it/s] 26%|██▌       | 2736/10699 [40:14<1:05:40,  2.02it/s] 26%|██▌       | 2737/10699 [40:14<1:05:40,  2.02it/s] 26%|██▌       | 2738/10699 [40:15<1:05:42,  2.02it/s] 26%|██▌       | 2739/10699 [40:15<1:05:36,  2.02it/s] 26%|██▌       | 2740/10699 [40:16<1:05:37,  2.02it/s] 26%|██▌       | 2741/10699 [40:16<1:05:33,  2.02it/s] 26%|██▌       | 2742/10699 [40:17<1:05:34,  2.02it/s] 26%|██▌       | 2743/10699 [40:17<1:05:36,  2.02it/s] 26%|██▌       | 2744/10699 [40:18<1:05:33,  2.02it/s] 26%|██▌       | 2745/10699 [40:18<1:05:32,  2.02it/s] 26%|██▌       | 2746/10699 [40:19<1:05:33,  2.02it/s] 26%|██▌       | 2747/10699 [40:19<1:05:36,  2.02it/s] 26%|██▌       | 2748/10699 [40:20<1:05:32,  2.02it/s] 26%|██▌       | 2749/10699 [40:20<1:05:34,  2.02it/s] 26%|██▌       | 2750/10699 [40:21<1:05:30,  2.02it/s]{'loss': 3.9336, 'grad_norm': 0.2117958813905716, 'learning_rate': 0.0009267520710012199, 'epoch': 0.26}                                                      
- 26%|██▌       | 2750/10699 [40:21<1:05:30,  2.02it/s] 26%|██▌       | 2751/10699 [40:21<1:05:35,  2.02it/s] 26%|██▌       | 2752/10699 [40:22<1:05:31,  2.02it/s] 26%|██▌       | 2753/10699 [40:22<1:05:29,  2.02it/s] 26%|██▌       | 2754/10699 [40:23<1:05:27,  2.02it/s] 26%|██▌       | 2755/10699 [40:23<1:05:24,  2.02it/s] 26%|██▌       | 2756/10699 [40:24<1:05:27,  2.02it/s] 26%|██▌       | 2757/10699 [40:24<1:05:32,  2.02it/s] 26%|██▌       | 2758/10699 [40:25<1:05:27,  2.02it/s] 26%|██▌       | 2759/10699 [40:25<1:05:23,  2.02it/s] 26%|██▌       | 2760/10699 [40:26<1:05:25,  2.02it/s] 26%|██▌       | 2761/10699 [40:26<1:05:23,  2.02it/s] 26%|██▌       | 2762/10699 [40:27<1:05:27,  2.02it/s] 26%|██▌       | 2763/10699 [40:27<1:05:23,  2.02it/s] 26%|██▌       | 2764/10699 [40:28<1:05:23,  2.02it/s] 26%|██▌       | 2765/10699 [40:28<1:05:17,  2.03it/s] 26%|██▌       | 2766/10699 [40:29<1:05:20,  2.02it/s] 26%|██▌       | 2767/10699 [40:29<1:05:19,  2.02it/s] 26%|██▌       | 2768/10699 [40:30<1:05:19,  2.02it/s] 26%|██▌       | 2769/10699 [40:30<1:05:16,  2.02it/s] 26%|██▌       | 2770/10699 [40:31<1:05:15,  2.02it/s] 26%|██▌       | 2771/10699 [40:31<1:05:14,  2.03it/s] 26%|██▌       | 2772/10699 [40:32<1:05:14,  2.03it/s] 26%|██▌       | 2773/10699 [40:32<1:05:15,  2.02it/s] 26%|██▌       | 2774/10699 [40:33<1:05:08,  2.03it/s] 26%|██▌       | 2775/10699 [40:33<1:05:10,  2.03it/s]{'loss': 3.9327, 'grad_norm': 0.2099619358778, 'learning_rate': 0.000924612755773114, 'epoch': 0.26}                                                      
- 26%|██▌       | 2775/10699 [40:33<1:05:10,  2.03it/s] 26%|██▌       | 2776/10699 [40:34<1:05:12,  2.03it/s] 26%|██▌       | 2777/10699 [40:34<1:05:20,  2.02it/s] 26%|██▌       | 2778/10699 [40:35<1:05:13,  2.02it/s] 26%|██▌       | 2779/10699 [40:35<1:05:16,  2.02it/s] 26%|██▌       | 2780/10699 [40:36<1:05:14,  2.02it/s] 26%|██▌       | 2781/10699 [40:36<1:05:16,  2.02it/s] 26%|██▌       | 2782/10699 [40:37<1:05:12,  2.02it/s] 26%|██▌       | 2783/10699 [40:37<1:05:12,  2.02it/s] 26%|██▌       | 2784/10699 [40:38<1:05:11,  2.02it/s] 26%|██▌       | 2785/10699 [40:38<1:05:11,  2.02it/s] 26%|██▌       | 2786/10699 [40:39<1:05:14,  2.02it/s] 26%|██▌       | 2787/10699 [40:39<1:05:16,  2.02it/s] 26%|██▌       | 2788/10699 [40:40<1:05:11,  2.02it/s] 26%|██▌       | 2789/10699 [40:40<1:05:14,  2.02it/s] 26%|██▌       | 2790/10699 [40:41<1:05:10,  2.02it/s] 26%|██▌       | 2791/10699 [40:41<1:05:10,  2.02it/s] 26%|██▌       | 2792/10699 [40:42<1:05:09,  2.02it/s] 26%|██▌       | 2793/10699 [40:42<1:05:06,  2.02it/s] 26%|██▌       | 2794/10699 [40:43<1:05:03,  2.03it/s] 26%|██▌       | 2795/10699 [40:43<1:05:00,  2.03it/s] 26%|██▌       | 2796/10699 [40:44<1:05:03,  2.02it/s] 26%|██▌       | 2797/10699 [40:44<1:05:02,  2.02it/s] 26%|██▌       | 2798/10699 [40:45<1:05:03,  2.02it/s] 26%|██▌       | 2799/10699 [40:45<1:05:02,  2.02it/s] 26%|██▌       | 2800/10699 [40:46<1:05:05,  2.02it/s]                                                      {'loss': 3.9332, 'grad_norm': 0.228957399725914, 'learning_rate': 0.0009224451912237103, 'epoch': 0.26}
- 26%|██▌       | 2800/10699 [40:46<1:05:05,  2.02it/s] 26%|██▌       | 2801/10699 [40:46<1:05:05,  2.02it/s] 26%|██▌       | 2802/10699 [40:47<1:05:06,  2.02it/s] 26%|██▌       | 2803/10699 [40:47<1:05:00,  2.02it/s] 26%|██▌       | 2804/10699 [40:48<1:04:59,  2.02it/s] 26%|██▌       | 2805/10699 [40:48<1:04:58,  2.02it/s] 26%|██▌       | 2806/10699 [40:49<1:04:58,  2.02it/s] 26%|██▌       | 2807/10699 [40:49<1:04:59,  2.02it/s] 26%|██▌       | 2808/10699 [40:50<1:05:01,  2.02it/s] 26%|██▋       | 2809/10699 [40:50<1:05:06,  2.02it/s] 26%|██▋       | 2810/10699 [40:51<1:05:07,  2.02it/s] 26%|██▋       | 2811/10699 [40:51<1:05:06,  2.02it/s] 26%|██▋       | 2812/10699 [40:52<1:05:02,  2.02it/s] 26%|██▋       | 2813/10699 [40:52<1:05:02,  2.02it/s] 26%|██▋       | 2814/10699 [40:53<1:05:01,  2.02it/s] 26%|██▋       | 2815/10699 [40:53<1:04:59,  2.02it/s] 26%|██▋       | 2816/10699 [40:54<1:05:00,  2.02it/s] 26%|██▋       | 2817/10699 [40:54<1:04:58,  2.02it/s] 26%|██▋       | 2818/10699 [40:55<1:04:57,  2.02it/s] 26%|██▋       | 2819/10699 [40:55<1:05:00,  2.02it/s] 26%|██▋       | 2820/10699 [40:56<1:05:00,  2.02it/s] 26%|██▋       | 2821/10699 [40:56<1:05:01,  2.02it/s] 26%|██▋       | 2822/10699 [40:56<1:04:59,  2.02it/s] 26%|██▋       | 2823/10699 [40:57<1:04:56,  2.02it/s] 26%|██▋       | 2824/10699 [40:57<1:04:55,  2.02it/s] 26%|██▋       | 2825/10699 [40:58<1:04:51,  2.02it/s]{'loss': 3.9245, 'grad_norm': 0.2160969227552414, 'learning_rate': 0.0009202495215602342, 'epoch': 0.26}
-                                                       26%|██▋       | 2825/10699 [40:58<1:04:51,  2.02it/s] 26%|██▋       | 2826/10699 [40:58<1:04:59,  2.02it/s] 26%|██▋       | 2827/10699 [40:59<1:04:56,  2.02it/s] 26%|██▋       | 2828/10699 [40:59<1:04:57,  2.02it/s] 26%|██▋       | 2829/10699 [41:00<1:04:54,  2.02it/s] 26%|██▋       | 2830/10699 [41:00<1:04:53,  2.02it/s] 26%|██▋       | 2831/10699 [41:01<1:04:46,  2.02it/s] 26%|██▋       | 2832/10699 [41:01<1:04:50,  2.02it/s] 26%|██▋       | 2833/10699 [41:02<1:04:49,  2.02it/s] 26%|██▋       | 2834/10699 [41:02<1:04:51,  2.02it/s] 26%|██▋       | 2835/10699 [41:03<1:04:48,  2.02it/s] 27%|██▋       | 2836/10699 [41:03<1:04:46,  2.02it/s] 27%|██▋       | 2837/10699 [41:04<1:04:45,  2.02it/s] 27%|██▋       | 2838/10699 [41:04<1:04:49,  2.02it/s] 27%|██▋       | 2839/10699 [41:05<1:04:45,  2.02it/s] 27%|██▋       | 2840/10699 [41:05<1:04:46,  2.02it/s] 27%|██▋       | 2841/10699 [41:06<1:04:44,  2.02it/s] 27%|██▋       | 2842/10699 [41:06<1:04:47,  2.02it/s] 27%|██▋       | 2843/10699 [41:07<1:04:45,  2.02it/s] 27%|██▋       | 2844/10699 [41:07<1:04:47,  2.02it/s] 27%|██▋       | 2845/10699 [41:08<1:04:43,  2.02it/s] 27%|██▋       | 2846/10699 [41:08<1:04:42,  2.02it/s] 27%|██▋       | 2847/10699 [41:09<1:04:43,  2.02it/s] 27%|██▋       | 2848/10699 [41:09<1:04:42,  2.02it/s] 27%|██▋       | 2849/10699 [41:10<1:04:41,  2.02it/s] 27%|██▋       | 2850/10699 [41:10<1:04:43,  2.02it/s]                                                      {'loss': 3.9165, 'grad_norm': 0.23386633396148682, 'learning_rate': 0.0009180258928597337, 'epoch': 0.27}
- 27%|██▋       | 2850/10699 [41:10<1:04:43,  2.02it/s] 27%|██▋       | 2851/10699 [41:11<1:05:03,  2.01it/s] 27%|██▋       | 2852/10699 [41:11<1:04:57,  2.01it/s] 27%|██▋       | 2853/10699 [41:12<1:04:49,  2.02it/s] 27%|██▋       | 2854/10699 [41:12<1:04:48,  2.02it/s] 27%|██▋       | 2855/10699 [41:13<1:04:44,  2.02it/s] 27%|██▋       | 2856/10699 [41:13<1:04:39,  2.02it/s] 27%|██▋       | 2857/10699 [41:14<1:04:35,  2.02it/s] 27%|██▋       | 2858/10699 [41:14<1:04:35,  2.02it/s] 27%|██▋       | 2859/10699 [41:15<1:04:36,  2.02it/s] 27%|██▋       | 2860/10699 [41:15<1:04:35,  2.02it/s] 27%|██▋       | 2861/10699 [41:16<1:04:33,  2.02it/s] 27%|██▋       | 2862/10699 [41:16<1:04:32,  2.02it/s] 27%|██▋       | 2863/10699 [41:17<1:04:34,  2.02it/s] 27%|██▋       | 2864/10699 [41:17<1:04:32,  2.02it/s] 27%|██▋       | 2865/10699 [41:18<1:04:35,  2.02it/s] 27%|██▋       | 2866/10699 [41:18<1:04:32,  2.02it/s] 27%|██▋       | 2867/10699 [41:19<1:04:40,  2.02it/s] 27%|██▋       | 2868/10699 [41:19<1:04:36,  2.02it/s] 27%|██▋       | 2869/10699 [41:20<1:04:36,  2.02it/s] 27%|██▋       | 2870/10699 [41:20<1:04:31,  2.02it/s] 27%|██▋       | 2871/10699 [41:21<1:04:28,  2.02it/s] 27%|██▋       | 2872/10699 [41:21<1:04:31,  2.02it/s] 27%|██▋       | 2873/10699 [41:22<1:04:27,  2.02it/s] 27%|██▋       | 2874/10699 [41:22<1:04:30,  2.02it/s] 27%|██▋       | 2875/10699 [41:23<1:04:29,  2.02it/s]{'loss': 3.9198, 'grad_norm': 0.21952882409095764, 'learning_rate': 0.0009157744530593602, 'epoch': 0.27}
-                                                       27%|██▋       | 2875/10699 [41:23<1:04:29,  2.02it/s] 27%|██▋       | 2876/10699 [41:23<1:04:36,  2.02it/s] 27%|██▋       | 2877/10699 [41:24<1:04:35,  2.02it/s] 27%|██▋       | 2878/10699 [41:24<1:04:32,  2.02it/s] 27%|██▋       | 2879/10699 [41:25<1:04:35,  2.02it/s] 27%|██▋       | 2880/10699 [41:25<1:04:34,  2.02it/s] 27%|██▋       | 2881/10699 [41:26<1:04:31,  2.02it/s] 27%|██▋       | 2882/10699 [41:26<1:04:32,  2.02it/s] 27%|██▋       | 2883/10699 [41:27<1:04:27,  2.02it/s] 27%|██▋       | 2884/10699 [41:27<1:04:24,  2.02it/s] 27%|██▋       | 2885/10699 [41:28<1:04:25,  2.02it/s] 27%|██▋       | 2886/10699 [41:28<1:04:20,  2.02it/s] 27%|██▋       | 2887/10699 [41:29<1:04:23,  2.02it/s] 27%|██▋       | 2888/10699 [41:29<1:04:16,  2.03it/s] 27%|██▋       | 2889/10699 [41:30<1:04:21,  2.02it/s] 27%|██▋       | 2890/10699 [41:30<1:04:17,  2.02it/s] 27%|██▋       | 2891/10699 [41:31<1:04:15,  2.03it/s] 27%|██▋       | 2892/10699 [41:31<1:04:14,  2.03it/s] 27%|██▋       | 2893/10699 [41:32<1:04:20,  2.02it/s] 27%|██▋       | 2894/10699 [41:32<1:04:14,  2.02it/s] 27%|██▋       | 2895/10699 [41:33<1:04:12,  2.03it/s] 27%|██▋       | 2896/10699 [41:33<1:04:13,  2.03it/s] 27%|██▋       | 2897/10699 [41:34<1:04:14,  2.02it/s] 27%|██▋       | 2898/10699 [41:34<1:04:17,  2.02it/s] 27%|██▋       | 2899/10699 [41:35<1:04:13,  2.02it/s] 27%|██▋       | 2900/10699 [41:35<1:04:17,  2.02it/s]{'loss': 3.9148, 'grad_norm': 0.1942845582962036, 'learning_rate': 0.0009134953519465267, 'epoch': 0.27}
-                                                       27%|██▋       | 2900/10699 [41:35<1:04:17,  2.02it/s] 27%|██▋       | 2901/10699 [41:36<1:04:16,  2.02it/s] 27%|██▋       | 2902/10699 [41:36<1:04:17,  2.02it/s] 27%|██▋       | 2903/10699 [41:37<1:04:10,  2.02it/s] 27%|██▋       | 2904/10699 [41:37<1:04:12,  2.02it/s] 27%|██▋       | 2905/10699 [41:38<1:04:06,  2.03it/s] 27%|██▋       | 2906/10699 [41:38<1:04:08,  2.02it/s] 27%|██▋       | 2907/10699 [41:39<1:04:10,  2.02it/s] 27%|██▋       | 2908/10699 [41:39<1:04:11,  2.02it/s] 27%|██▋       | 2909/10699 [41:40<1:04:11,  2.02it/s] 27%|██▋       | 2910/10699 [41:40<1:04:14,  2.02it/s] 27%|██▋       | 2911/10699 [41:41<1:04:11,  2.02it/s] 27%|██▋       | 2912/10699 [41:41<1:04:07,  2.02it/s] 27%|██▋       | 2913/10699 [41:42<1:04:08,  2.02it/s] 27%|██▋       | 2914/10699 [41:42<1:04:03,  2.03it/s] 27%|██▋       | 2915/10699 [41:42<1:04:05,  2.02it/s] 27%|██▋       | 2916/10699 [41:43<1:04:03,  2.03it/s] 27%|██▋       | 2917/10699 [41:43<1:04:06,  2.02it/s] 27%|██▋       | 2918/10699 [41:44<1:04:03,  2.02it/s] 27%|██▋       | 2919/10699 [41:44<1:04:04,  2.02it/s] 27%|██▋       | 2920/10699 [41:45<1:04:03,  2.02it/s] 27%|██▋       | 2921/10699 [41:45<1:04:04,  2.02it/s] 27%|██▋       | 2922/10699 [41:46<1:04:01,  2.02it/s] 27%|██▋       | 2923/10699 [41:46<1:03:59,  2.03it/s] 27%|██▋       | 2924/10699 [41:47<1:04:00,  2.02it/s] 27%|██▋       | 2925/10699 [41:47<1:03:57,  2.03it/s]                                                      {'loss': 3.9169, 'grad_norm': 0.20839373767375946, 'learning_rate': 0.000911188741148943, 'epoch': 0.27}
- 27%|██▋       | 2925/10699 [41:47<1:03:57,  2.03it/s] 27%|██▋       | 2926/10699 [41:48<1:04:02,  2.02it/s] 27%|██▋       | 2927/10699 [41:48<1:04:03,  2.02it/s] 27%|██▋       | 2928/10699 [41:49<1:04:02,  2.02it/s] 27%|██▋       | 2929/10699 [41:49<1:04:04,  2.02it/s] 27%|██▋       | 2930/10699 [41:50<1:04:00,  2.02it/s] 27%|██▋       | 2931/10699 [41:50<1:04:00,  2.02it/s] 27%|██▋       | 2932/10699 [41:51<1:03:58,  2.02it/s] 27%|██▋       | 2933/10699 [41:51<1:03:57,  2.02it/s] 27%|██▋       | 2934/10699 [41:52<1:03:57,  2.02it/s] 27%|██▋       | 2935/10699 [41:52<1:03:54,  2.02it/s] 27%|██▋       | 2936/10699 [41:53<1:03:57,  2.02it/s] 27%|██▋       | 2937/10699 [41:53<1:03:52,  2.03it/s] 27%|██▋       | 2938/10699 [41:54<1:03:53,  2.02it/s] 27%|██▋       | 2939/10699 [41:54<1:03:55,  2.02it/s] 27%|██▋       | 2940/10699 [41:55<1:04:00,  2.02it/s] 27%|██▋       | 2941/10699 [41:55<1:03:54,  2.02it/s] 27%|██▋       | 2942/10699 [41:56<1:03:55,  2.02it/s] 28%|██▊       | 2943/10699 [41:56<1:03:53,  2.02it/s] 28%|██▊       | 2944/10699 [41:57<1:03:53,  2.02it/s] 28%|██▊       | 2945/10699 [41:57<1:03:50,  2.02it/s] 28%|██▊       | 2946/10699 [41:58<1:03:52,  2.02it/s] 28%|██▊       | 2947/10699 [41:58<1:03:53,  2.02it/s] 28%|██▊       | 2948/10699 [41:59<1:03:52,  2.02it/s] 28%|██▊       | 2949/10699 [41:59<1:03:55,  2.02it/s] 28%|██▊       | 2950/10699 [42:00<1:03:53,  2.02it/s]{'loss': 3.9153, 'grad_norm': 0.21097195148468018, 'learning_rate': 0.0009088547741245272, 'epoch': 0.28}                                                      
- 28%|██▊       | 2950/10699 [42:00<1:03:53,  2.02it/s] 28%|██▊       | 2951/10699 [42:00<1:04:00,  2.02it/s] 28%|██▊       | 2952/10699 [42:01<1:03:55,  2.02it/s] 28%|██▊       | 2953/10699 [42:01<1:03:54,  2.02it/s] 28%|██▊       | 2954/10699 [42:02<1:03:52,  2.02it/s] 28%|██▊       | 2955/10699 [42:02<1:03:51,  2.02it/s] 28%|██▊       | 2956/10699 [42:03<1:03:46,  2.02it/s] 28%|██▊       | 2957/10699 [42:03<1:03:43,  2.03it/s] 28%|██▊       | 2958/10699 [42:04<1:03:45,  2.02it/s] 28%|██▊       | 2959/10699 [42:04<1:03:43,  2.02it/s] 28%|██▊       | 2960/10699 [42:05<1:03:51,  2.02it/s] 28%|██▊       | 2961/10699 [42:05<1:03:45,  2.02it/s] 28%|██▊       | 2962/10699 [42:06<1:03:48,  2.02it/s] 28%|██▊       | 2963/10699 [42:06<1:03:42,  2.02it/s] 28%|██▊       | 2964/10699 [42:07<1:03:42,  2.02it/s] 28%|██▊       | 2965/10699 [42:07<1:03:40,  2.02it/s] 28%|██▊       | 2966/10699 [42:08<1:03:35,  2.03it/s] 28%|██▊       | 2967/10699 [42:08<1:03:39,  2.02it/s] 28%|██▊       | 2968/10699 [42:09<1:03:37,  2.03it/s] 28%|██▊       | 2969/10699 [42:09<1:03:39,  2.02it/s] 28%|██▊       | 2970/10699 [42:10<1:03:37,  2.02it/s] 28%|██▊       | 2971/10699 [42:10<1:03:44,  2.02it/s] 28%|██▊       | 2972/10699 [42:11<1:03:42,  2.02it/s] 28%|██▊       | 2973/10699 [42:11<1:03:41,  2.02it/s] 28%|██▊       | 2974/10699 [42:12<1:03:41,  2.02it/s] 28%|██▊       | 2975/10699 [42:12<1:03:39,  2.02it/s]                                                      {'loss': 3.9147, 'grad_norm': 0.21522046625614166, 'learning_rate': 0.0009064936061511966, 'epoch': 0.28}
- 28%|██▊       | 2975/10699 [42:12<1:03:39,  2.02it/s] 28%|██▊       | 2976/10699 [42:13<1:03:47,  2.02it/s] 28%|██▊       | 2977/10699 [42:13<1:03:46,  2.02it/s] 28%|██▊       | 2978/10699 [42:14<1:03:44,  2.02it/s] 28%|██▊       | 2979/10699 [42:14<1:03:41,  2.02it/s] 28%|██▊       | 2980/10699 [42:15<1:03:38,  2.02it/s] 28%|██▊       | 2981/10699 [42:15<1:03:38,  2.02it/s] 28%|██▊       | 2982/10699 [42:16<1:03:35,  2.02it/s] 28%|██▊       | 2983/10699 [42:16<1:03:35,  2.02it/s] 28%|██▊       | 2984/10699 [42:17<1:03:28,  2.03it/s] 28%|██▊       | 2985/10699 [42:17<1:03:34,  2.02it/s] 28%|██▊       | 2986/10699 [42:18<1:03:28,  2.03it/s] 28%|██▊       | 2987/10699 [42:18<1:03:34,  2.02it/s] 28%|██▊       | 2988/10699 [42:19<1:03:30,  2.02it/s] 28%|██▊       | 2989/10699 [42:19<1:03:32,  2.02it/s] 28%|██▊       | 2990/10699 [42:20<1:03:29,  2.02it/s] 28%|██▊       | 2991/10699 [42:20<1:03:31,  2.02it/s] 28%|██▊       | 2992/10699 [42:21<1:03:28,  2.02it/s] 28%|██▊       | 2993/10699 [42:21<1:03:26,  2.02it/s] 28%|██▊       | 2994/10699 [42:22<1:03:29,  2.02it/s] 28%|██▊       | 2995/10699 [42:22<1:03:26,  2.02it/s] 28%|██▊       | 2996/10699 [42:23<1:03:27,  2.02it/s] 28%|██▊       | 2997/10699 [42:23<1:03:28,  2.02it/s] 28%|██▊       | 2998/10699 [42:24<1:03:30,  2.02it/s] 28%|██▊       | 2999/10699 [42:24<1:03:29,  2.02it/s] 28%|██▊       | 3000/10699 [42:25<1:03:31,  2.02it/s]                                                      {'loss': 3.9067, 'grad_norm': 0.20882095396518707, 'learning_rate': 0.000904105394316537, 'epoch': 0.28}
- 28%|██▊       | 3000/10699 [42:25<1:03:31,  2.02it/s] 28%|██▊       | 3001/10699 [42:25<1:03:32,  2.02it/s] 28%|██▊       | 3002/10699 [42:26<1:03:31,  2.02it/s] 28%|██▊       | 3003/10699 [42:26<1:03:26,  2.02it/s] 28%|██▊       | 3004/10699 [42:26<1:03:26,  2.02it/s] 28%|██▊       | 3005/10699 [42:27<1:03:25,  2.02it/s] 28%|██▊       | 3006/10699 [42:27<1:03:21,  2.02it/s] 28%|██▊       | 3007/10699 [42:28<1:03:25,  2.02it/s] 28%|██▊       | 3008/10699 [42:28<1:03:20,  2.02it/s] 28%|██▊       | 3009/10699 [42:29<1:03:23,  2.02it/s] 28%|██▊       | 3010/10699 [42:29<1:03:17,  2.02it/s] 28%|██▊       | 3011/10699 [42:30<1:03:19,  2.02it/s] 28%|██▊       | 3012/10699 [42:30<1:03:22,  2.02it/s] 28%|██▊       | 3013/10699 [42:31<1:03:22,  2.02it/s] 28%|██▊       | 3014/10699 [42:31<1:03:24,  2.02it/s] 28%|██▊       | 3015/10699 [42:32<1:03:20,  2.02it/s] 28%|██▊       | 3016/10699 [42:32<1:03:19,  2.02it/s] 28%|██▊       | 3017/10699 [42:33<1:03:16,  2.02it/s] 28%|██▊       | 3018/10699 [42:33<1:03:18,  2.02it/s] 28%|██▊       | 3019/10699 [42:34<1:03:21,  2.02it/s] 28%|██▊       | 3020/10699 [42:34<1:03:19,  2.02it/s] 28%|██▊       | 3021/10699 [42:35<1:03:19,  2.02it/s] 28%|██▊       | 3022/10699 [42:35<1:03:13,  2.02it/s] 28%|██▊       | 3023/10699 [42:36<1:03:14,  2.02it/s] 28%|██▊       | 3024/10699 [42:36<1:03:11,  2.02it/s] 28%|██▊       | 3025/10699 [42:37<1:03:10,  2.02it/s]                                                      {'loss': 3.8983, 'grad_norm': 0.20128394663333893, 'learning_rate': 0.0009016902975073518, 'epoch': 0.28}
- 28%|██▊       | 3025/10699 [42:37<1:03:10,  2.02it/s] 28%|██▊       | 3026/10699 [42:37<1:03:34,  2.01it/s] 28%|██▊       | 3027/10699 [42:38<1:03:29,  2.01it/s] 28%|██▊       | 3028/10699 [42:38<1:03:29,  2.01it/s] 28%|██▊       | 3029/10699 [42:39<1:03:21,  2.02it/s] 28%|██▊       | 3030/10699 [42:39<1:03:20,  2.02it/s] 28%|██▊       | 3031/10699 [42:40<1:03:15,  2.02it/s] 28%|██▊       | 3032/10699 [42:40<1:03:11,  2.02it/s] 28%|██▊       | 3033/10699 [42:41<1:03:11,  2.02it/s] 28%|██▊       | 3034/10699 [42:41<1:03:11,  2.02it/s] 28%|██▊       | 3035/10699 [42:42<1:03:10,  2.02it/s] 28%|██▊       | 3036/10699 [42:42<1:03:09,  2.02it/s] 28%|██▊       | 3037/10699 [42:43<1:03:11,  2.02it/s] 28%|██▊       | 3038/10699 [42:43<1:03:13,  2.02it/s] 28%|██▊       | 3039/10699 [42:44<1:03:13,  2.02it/s] 28%|██▊       | 3040/10699 [42:44<1:03:12,  2.02it/s] 28%|██▊       | 3041/10699 [42:45<1:03:09,  2.02it/s] 28%|██▊       | 3042/10699 [42:45<1:03:02,  2.02it/s] 28%|██▊       | 3043/10699 [42:46<1:03:06,  2.02it/s] 28%|██▊       | 3044/10699 [42:46<1:03:03,  2.02it/s] 28%|██▊       | 3045/10699 [42:47<1:03:03,  2.02it/s] 28%|██▊       | 3046/10699 [42:47<1:02:59,  2.03it/s] 28%|██▊       | 3047/10699 [42:48<1:02:57,  2.03it/s] 28%|██▊       | 3048/10699 [42:48<1:02:58,  2.03it/s] 28%|██▊       | 3049/10699 [42:49<1:02:55,  2.03it/s] 29%|██▊       | 3050/10699 [42:49<1:02:57,  2.02it/s]{'loss': 3.9126, 'grad_norm': 0.21920834481716156, 'learning_rate': 0.0008992484763990914, 'epoch': 0.29}
-                                                       29%|██▊       | 3050/10699 [42:49<1:02:57,  2.02it/s] 29%|██▊       | 3051/10699 [42:50<1:02:58,  2.02it/s] 29%|██▊       | 3052/10699 [42:50<1:02:59,  2.02it/s] 29%|██▊       | 3053/10699 [42:51<1:02:54,  2.03it/s] 29%|██▊       | 3054/10699 [42:51<1:02:56,  2.02it/s] 29%|██▊       | 3055/10699 [42:52<1:02:53,  2.03it/s] 29%|██▊       | 3056/10699 [42:52<1:02:54,  2.02it/s] 29%|██▊       | 3057/10699 [42:53<1:02:54,  2.02it/s] 29%|██▊       | 3058/10699 [42:53<1:03:02,  2.02it/s] 29%|██▊       | 3059/10699 [42:54<1:02:57,  2.02it/s] 29%|██▊       | 3060/10699 [42:54<1:02:58,  2.02it/s] 29%|██▊       | 3061/10699 [42:55<1:02:56,  2.02it/s] 29%|██▊       | 3062/10699 [42:55<1:02:54,  2.02it/s] 29%|██▊       | 3063/10699 [42:56<1:02:55,  2.02it/s] 29%|██▊       | 3064/10699 [42:56<1:02:55,  2.02it/s] 29%|██▊       | 3065/10699 [42:57<1:02:54,  2.02it/s] 29%|██▊       | 3066/10699 [42:57<1:02:49,  2.03it/s] 29%|██▊       | 3067/10699 [42:58<1:02:48,  2.03it/s] 29%|██▊       | 3068/10699 [42:58<1:02:48,  2.03it/s] 29%|██▊       | 3069/10699 [42:59<1:02:50,  2.02it/s] 29%|██▊       | 3070/10699 [42:59<1:02:49,  2.02it/s] 29%|██▊       | 3071/10699 [43:00<1:02:49,  2.02it/s] 29%|██▊       | 3072/10699 [43:00<1:02:47,  2.02it/s] 29%|██▊       | 3073/10699 [43:01<1:02:48,  2.02it/s] 29%|██▊       | 3074/10699 [43:01<1:02:49,  2.02it/s] 29%|██▊       | 3075/10699 [43:02<1:02:48,  2.02it/s]                                                      {'loss': 3.8947, 'grad_norm': 0.2090802937746048, 'learning_rate': 0.000896780093445163, 'epoch': 0.29}
- 29%|██▊       | 3075/10699 [43:02<1:02:48,  2.02it/s] 29%|██▉       | 3076/10699 [43:02<1:02:56,  2.02it/s] 29%|██▉       | 3077/10699 [43:03<1:02:54,  2.02it/s] 29%|██▉       | 3078/10699 [43:03<1:02:57,  2.02it/s] 29%|██▉       | 3079/10699 [43:04<1:02:48,  2.02it/s] 29%|██▉       | 3080/10699 [43:04<1:02:49,  2.02it/s] 29%|██▉       | 3081/10699 [43:05<1:02:45,  2.02it/s] 29%|██▉       | 3082/10699 [43:05<1:02:43,  2.02it/s] 29%|██▉       | 3083/10699 [43:06<1:02:42,  2.02it/s] 29%|██▉       | 3084/10699 [43:06<1:02:39,  2.03it/s] 29%|██▉       | 3085/10699 [43:07<1:02:40,  2.02it/s] 29%|██▉       | 3086/10699 [43:07<1:02:38,  2.03it/s] 29%|██▉       | 3087/10699 [43:08<1:02:42,  2.02it/s] 29%|██▉       | 3088/10699 [43:08<1:02:40,  2.02it/s] 29%|██▉       | 3089/10699 [43:09<1:02:40,  2.02it/s] 29%|██▉       | 3090/10699 [43:09<1:02:38,  2.02it/s] 29%|██▉       | 3091/10699 [43:10<1:02:37,  2.02it/s] 29%|██▉       | 3092/10699 [43:10<1:02:40,  2.02it/s] 29%|██▉       | 3093/10699 [43:10<1:02:36,  2.02it/s] 29%|██▉       | 3094/10699 [43:11<1:02:38,  2.02it/s] 29%|██▉       | 3095/10699 [43:11<1:02:34,  2.03it/s] 29%|██▉       | 3096/10699 [43:12<1:02:41,  2.02it/s] 29%|██▉       | 3097/10699 [43:12<1:02:37,  2.02it/s] 29%|██▉       | 3098/10699 [43:13<1:02:38,  2.02it/s] 29%|██▉       | 3099/10699 [43:13<1:02:35,  2.02it/s] 29%|██▉       | 3100/10699 [43:14<1:02:35,  2.02it/s]                                                      {'loss': 3.8965, 'grad_norm': 0.2243233174085617, 'learning_rate': 0.0008942853128661237, 'epoch': 0.29}
- 29%|██▉       | 3100/10699 [43:14<1:02:35,  2.02it/s] 29%|██▉       | 3101/10699 [43:14<1:02:42,  2.02it/s] 29%|██▉       | 3102/10699 [43:15<1:02:40,  2.02it/s] 29%|██▉       | 3103/10699 [43:15<1:02:39,  2.02it/s] 29%|██▉       | 3104/10699 [43:16<1:02:34,  2.02it/s] 29%|██▉       | 3105/10699 [43:16<1:02:34,  2.02it/s] 29%|██▉       | 3106/10699 [43:17<1:02:31,  2.02it/s] 29%|██▉       | 3107/10699 [43:17<1:02:32,  2.02it/s] 29%|██▉       | 3108/10699 [43:18<1:02:32,  2.02it/s] 29%|██▉       | 3109/10699 [43:18<1:02:38,  2.02it/s] 29%|██▉       | 3110/10699 [43:19<1:02:39,  2.02it/s] 29%|██▉       | 3111/10699 [43:19<1:02:37,  2.02it/s] 29%|██▉       | 3112/10699 [43:20<1:02:33,  2.02it/s] 29%|██▉       | 3113/10699 [43:20<1:02:33,  2.02it/s] 29%|██▉       | 3114/10699 [43:21<1:02:31,  2.02it/s] 29%|██▉       | 3115/10699 [43:21<1:02:30,  2.02it/s] 29%|██▉       | 3116/10699 [43:22<1:02:26,  2.02it/s] 29%|██▉       | 3117/10699 [43:22<1:02:27,  2.02it/s] 29%|██▉       | 3118/10699 [43:23<1:02:28,  2.02it/s] 29%|██▉       | 3119/10699 [43:23<1:02:25,  2.02it/s] 29%|██▉       | 3120/10699 [43:24<1:02:26,  2.02it/s] 29%|██▉       | 3121/10699 [43:24<1:02:24,  2.02it/s] 29%|██▉       | 3122/10699 [43:25<1:02:24,  2.02it/s] 29%|██▉       | 3123/10699 [43:25<1:02:18,  2.03it/s] 29%|██▉       | 3124/10699 [43:26<1:02:22,  2.02it/s] 29%|██▉       | 3125/10699 [43:26<1:02:20,  2.02it/s]                                                      {'loss': 3.892, 'grad_norm': 0.19380074739456177, 'learning_rate': 0.0008917643006387537, 'epoch': 0.29}
- 29%|██▉       | 3125/10699 [43:26<1:02:20,  2.02it/s] 29%|██▉       | 3126/10699 [43:27<1:02:27,  2.02it/s] 29%|██▉       | 3127/10699 [43:27<1:02:23,  2.02it/s] 29%|██▉       | 3128/10699 [43:28<1:02:29,  2.02it/s] 29%|██▉       | 3129/10699 [43:28<1:02:22,  2.02it/s] 29%|██▉       | 3130/10699 [43:29<1:02:25,  2.02it/s] 29%|██▉       | 3131/10699 [43:29<1:02:22,  2.02it/s] 29%|██▉       | 3132/10699 [43:30<1:02:24,  2.02it/s] 29%|██▉       | 3133/10699 [43:30<1:02:21,  2.02it/s] 29%|██▉       | 3134/10699 [43:31<1:02:23,  2.02it/s] 29%|██▉       | 3135/10699 [43:31<1:02:16,  2.02it/s] 29%|██▉       | 3136/10699 [43:32<1:02:15,  2.02it/s] 29%|██▉       | 3137/10699 [43:32<1:02:16,  2.02it/s] 29%|██▉       | 3138/10699 [43:33<1:02:15,  2.02it/s] 29%|██▉       | 3139/10699 [43:33<1:02:17,  2.02it/s] 29%|██▉       | 3140/10699 [43:34<1:02:17,  2.02it/s] 29%|██▉       | 3141/10699 [43:34<1:02:21,  2.02it/s] 29%|██▉       | 3142/10699 [43:35<1:02:20,  2.02it/s] 29%|██▉       | 3143/10699 [43:35<1:02:21,  2.02it/s] 29%|██▉       | 3144/10699 [43:36<1:02:16,  2.02it/s] 29%|██▉       | 3145/10699 [43:36<1:02:11,  2.02it/s] 29%|██▉       | 3146/10699 [43:37<1:02:13,  2.02it/s] 29%|██▉       | 3147/10699 [43:37<1:02:10,  2.02it/s] 29%|██▉       | 3148/10699 [43:38<1:02:14,  2.02it/s] 29%|██▉       | 3149/10699 [43:38<1:02:11,  2.02it/s] 29%|██▉       | 3150/10699 [43:39<1:02:10,  2.02it/s]                                                      {'loss': 3.8921, 'grad_norm': 0.2078959345817566, 'learning_rate': 0.0008892172244850148, 'epoch': 0.29}
- 29%|██▉       | 3150/10699 [43:39<1:02:10,  2.02it/s] 29%|██▉       | 3151/10699 [43:39<1:02:18,  2.02it/s] 29%|██▉       | 3152/10699 [43:40<1:02:16,  2.02it/s] 29%|██▉       | 3153/10699 [43:40<1:02:19,  2.02it/s] 29%|██▉       | 3154/10699 [43:41<1:02:15,  2.02it/s] 29%|██▉       | 3155/10699 [43:41<1:02:14,  2.02it/s] 29%|██▉       | 3156/10699 [43:42<1:02:08,  2.02it/s] 30%|██▉       | 3157/10699 [43:42<1:02:08,  2.02it/s] 30%|██▉       | 3158/10699 [43:43<1:02:14,  2.02it/s] 30%|██▉       | 3159/10699 [43:43<1:02:09,  2.02it/s] 30%|██▉       | 3160/10699 [43:44<1:02:09,  2.02it/s] 30%|██▉       | 3161/10699 [43:44<1:02:04,  2.02it/s] 30%|██▉       | 3162/10699 [43:45<1:02:04,  2.02it/s] 30%|██▉       | 3163/10699 [43:45<1:02:02,  2.02it/s] 30%|██▉       | 3164/10699 [43:46<1:02:03,  2.02it/s] 30%|██▉       | 3165/10699 [43:46<1:01:58,  2.03it/s] 30%|██▉       | 3166/10699 [43:47<1:01:56,  2.03it/s] 30%|██▉       | 3167/10699 [43:47<1:02:00,  2.02it/s] 30%|██▉       | 3168/10699 [43:48<1:01:59,  2.02it/s] 30%|██▉       | 3169/10699 [43:48<1:02:01,  2.02it/s] 30%|██▉       | 3170/10699 [43:49<1:02:04,  2.02it/s] 30%|██▉       | 3171/10699 [43:49<1:02:05,  2.02it/s] 30%|██▉       | 3172/10699 [43:50<1:02:02,  2.02it/s] 30%|██▉       | 3173/10699 [43:50<1:02:01,  2.02it/s] 30%|██▉       | 3174/10699 [43:51<1:01:54,  2.03it/s] 30%|██▉       | 3175/10699 [43:51<1:01:58,  2.02it/s]                                                      {'loss': 3.8845, 'grad_norm': 0.21541939675807953, 'learning_rate': 0.0008866442538608919, 'epoch': 0.3}
- 30%|██▉       | 3175/10699 [43:51<1:01:58,  2.02it/s] 30%|██▉       | 3176/10699 [43:52<1:02:14,  2.01it/s] 30%|██▉       | 3177/10699 [43:52<1:02:07,  2.02it/s] 30%|██▉       | 3178/10699 [43:53<1:02:04,  2.02it/s] 30%|██▉       | 3179/10699 [43:53<1:02:02,  2.02it/s] 30%|██▉       | 3180/10699 [43:54<1:01:59,  2.02it/s] 30%|██▉       | 3181/10699 [43:54<1:01:58,  2.02it/s] 30%|██▉       | 3182/10699 [43:55<1:01:51,  2.03it/s] 30%|██▉       | 3183/10699 [43:55<1:01:56,  2.02it/s] 30%|██▉       | 3184/10699 [43:55<1:01:52,  2.02it/s] 30%|██▉       | 3185/10699 [43:56<1:01:55,  2.02it/s] 30%|██▉       | 3186/10699 [43:56<1:01:50,  2.02it/s] 30%|██▉       | 3187/10699 [43:57<1:01:55,  2.02it/s] 30%|██▉       | 3188/10699 [43:57<1:01:50,  2.02it/s] 30%|██▉       | 3189/10699 [43:58<1:01:56,  2.02it/s] 30%|██▉       | 3190/10699 [43:58<1:01:49,  2.02it/s] 30%|██▉       | 3191/10699 [43:59<1:01:51,  2.02it/s] 30%|██▉       | 3192/10699 [43:59<1:01:49,  2.02it/s] 30%|██▉       | 3193/10699 [44:00<1:01:49,  2.02it/s] 30%|██▉       | 3194/10699 [44:00<1:01:50,  2.02it/s] 30%|██▉       | 3195/10699 [44:01<1:01:47,  2.02it/s] 30%|██▉       | 3196/10699 [44:01<1:01:49,  2.02it/s] 30%|██▉       | 3197/10699 [44:02<1:12:09,  1.73it/s] 30%|██▉       | 3198/10699 [44:03<1:09:10,  1.81it/s] 30%|██▉       | 3199/10699 [44:03<1:06:56,  1.87it/s] 30%|██▉       | 3200/10699 [44:04<1:05:24,  1.91it/s]{'loss': 3.8858, 'grad_norm': 0.20723991096019745, 'learning_rate': 0.0008840455599451185, 'epoch': 0.3}
-                                                       30%|██▉       | 3200/10699 [44:04<1:05:24,  1.91it/s] 30%|██▉       | 3201/10699 [44:04<1:04:22,  1.94it/s] 30%|██▉       | 3202/10699 [44:05<1:03:32,  1.97it/s] 30%|██▉       | 3203/10699 [44:05<1:03:03,  1.98it/s] 30%|██▉       | 3204/10699 [44:06<1:02:39,  1.99it/s] 30%|██▉       | 3205/10699 [44:06<1:02:23,  2.00it/s] 30%|██▉       | 3206/10699 [44:07<1:02:06,  2.01it/s] 30%|██▉       | 3207/10699 [44:07<1:02:01,  2.01it/s] 30%|██▉       | 3208/10699 [44:08<1:01:59,  2.01it/s] 30%|██▉       | 3209/10699 [44:08<1:01:57,  2.02it/s] 30%|███       | 3210/10699 [44:09<1:12:13,  1.73it/s] 30%|███       | 3211/10699 [44:09<1:09:03,  1.81it/s] 30%|███       | 3212/10699 [44:10<1:06:52,  1.87it/s] 30%|███       | 3213/10699 [44:10<1:05:21,  1.91it/s] 30%|███       | 3214/10699 [44:11<1:04:13,  1.94it/s] 30%|███       | 3215/10699 [44:11<1:03:27,  1.97it/s] 30%|███       | 3216/10699 [44:12<1:02:54,  1.98it/s] 30%|███       | 3217/10699 [44:12<1:02:33,  1.99it/s] 30%|███       | 3218/10699 [44:13<1:02:18,  2.00it/s] 30%|███       | 3219/10699 [44:13<1:02:07,  2.01it/s] 30%|███       | 3220/10699 [44:14<1:01:58,  2.01it/s] 30%|███       | 3221/10699 [44:14<1:01:52,  2.01it/s] 30%|███       | 3222/10699 [44:15<1:01:48,  2.02it/s] 30%|███       | 3223/10699 [44:15<1:01:42,  2.02it/s] 30%|███       | 3224/10699 [44:16<1:01:36,  2.02it/s] 30%|███       | 3225/10699 [44:16<1:01:37,  2.02it/s]                                                      {'loss': 3.8748, 'grad_norm': 0.20353856682777405, 'learning_rate': 0.0008814213156277891, 'epoch': 0.3}
- 30%|███       | 3225/10699 [44:16<1:01:37,  2.02it/s] 30%|███       | 3226/10699 [44:17<1:01:36,  2.02it/s] 30%|███       | 3227/10699 [44:17<1:01:38,  2.02it/s] 30%|███       | 3228/10699 [44:18<1:01:34,  2.02it/s] 30%|███       | 3229/10699 [44:18<1:01:35,  2.02it/s] 30%|███       | 3230/10699 [44:19<1:01:30,  2.02it/s] 30%|███       | 3231/10699 [44:19<1:01:29,  2.02it/s] 30%|███       | 3232/10699 [44:20<1:01:28,  2.02it/s] 30%|███       | 3233/10699 [44:20<1:01:25,  2.03it/s] 30%|███       | 3234/10699 [44:21<1:01:30,  2.02it/s] 30%|███       | 3235/10699 [44:21<1:01:24,  2.03it/s] 30%|███       | 3236/10699 [44:22<1:01:30,  2.02it/s] 30%|███       | 3237/10699 [44:22<1:01:27,  2.02it/s] 30%|███       | 3238/10699 [44:23<1:01:26,  2.02it/s] 30%|███       | 3239/10699 [44:23<1:01:25,  2.02it/s] 30%|███       | 3240/10699 [44:24<1:01:24,  2.02it/s] 30%|███       | 3241/10699 [44:24<1:01:24,  2.02it/s] 30%|███       | 3242/10699 [44:25<1:01:21,  2.03it/s] 30%|███       | 3243/10699 [44:25<1:01:23,  2.02it/s] 30%|███       | 3244/10699 [44:26<1:01:20,  2.03it/s] 30%|███       | 3245/10699 [44:26<1:01:19,  2.03it/s] 30%|███       | 3246/10699 [44:27<1:01:21,  2.02it/s] 30%|███       | 3247/10699 [44:27<1:01:21,  2.02it/s] 30%|███       | 3248/10699 [44:28<1:01:20,  2.02it/s] 30%|███       | 3249/10699 [44:28<1:01:21,  2.02it/s] 30%|███       | 3250/10699 [44:29<1:01:21,  2.02it/s]{'loss': 3.872, 'grad_norm': 0.20639826357364655, 'learning_rate': 0.000878771695498856, 'epoch': 0.3}
-                                                       30%|███       | 3250/10699 [44:29<1:01:21,  2.02it/s] 30%|███       | 3251/10699 [44:29<1:01:28,  2.02it/s] 30%|███       | 3252/10699 [44:30<1:01:22,  2.02it/s] 30%|███       | 3253/10699 [44:30<1:01:22,  2.02it/s] 30%|███       | 3254/10699 [44:31<1:01:15,  2.03it/s] 30%|███       | 3255/10699 [44:31<1:01:17,  2.02it/s] 30%|███       | 3256/10699 [44:32<1:01:18,  2.02it/s] 30%|███       | 3257/10699 [44:32<1:01:17,  2.02it/s] 30%|███       | 3258/10699 [44:33<1:01:17,  2.02it/s] 30%|███       | 3259/10699 [44:33<1:01:16,  2.02it/s] 30%|███       | 3260/10699 [44:34<1:01:17,  2.02it/s] 30%|███       | 3261/10699 [44:34<1:01:20,  2.02it/s] 30%|███       | 3262/10699 [44:35<1:01:19,  2.02it/s] 30%|███       | 3263/10699 [44:35<1:01:20,  2.02it/s] 31%|███       | 3264/10699 [44:36<1:01:19,  2.02it/s] 31%|███       | 3265/10699 [44:36<1:01:16,  2.02it/s] 31%|███       | 3266/10699 [44:37<1:01:14,  2.02it/s] 31%|███       | 3267/10699 [44:37<1:01:14,  2.02it/s] 31%|███       | 3268/10699 [44:38<1:01:14,  2.02it/s] 31%|███       | 3269/10699 [44:38<1:01:12,  2.02it/s] 31%|███       | 3270/10699 [44:39<1:01:12,  2.02it/s] 31%|███       | 3271/10699 [44:39<1:01:12,  2.02it/s] 31%|███       | 3272/10699 [44:40<1:01:13,  2.02it/s] 31%|███       | 3273/10699 [44:40<1:01:11,  2.02it/s] 31%|███       | 3274/10699 [44:41<1:01:07,  2.02it/s] 31%|███       | 3275/10699 [44:41<1:01:09,  2.02it/s]{'loss': 3.8803, 'grad_norm': 0.21873044967651367, 'learning_rate': 0.0008760968758365147, 'epoch': 0.31}                                                      
- 31%|███       | 3275/10699 [44:41<1:01:09,  2.02it/s] 31%|███       | 3276/10699 [44:42<1:01:28,  2.01it/s] 31%|███       | 3277/10699 [44:42<1:01:21,  2.02it/s] 31%|███       | 3278/10699 [44:43<1:01:16,  2.02it/s] 31%|███       | 3279/10699 [44:43<1:01:14,  2.02it/s] 31%|███       | 3280/10699 [44:44<1:01:06,  2.02it/s] 31%|███       | 3281/10699 [44:44<1:01:06,  2.02it/s] 31%|███       | 3282/10699 [44:45<1:01:03,  2.02it/s] 31%|███       | 3283/10699 [44:45<1:00:59,  2.03it/s] 31%|███       | 3284/10699 [44:45<1:01:01,  2.03it/s] 31%|███       | 3285/10699 [44:46<1:01:00,  2.03it/s] 31%|███       | 3286/10699 [44:46<1:01:00,  2.02it/s] 31%|███       | 3287/10699 [44:47<1:01:01,  2.02it/s] 31%|███       | 3288/10699 [44:47<1:00:57,  2.03it/s] 31%|███       | 3289/10699 [44:48<1:01:03,  2.02it/s] 31%|███       | 3290/10699 [44:48<1:01:00,  2.02it/s] 31%|███       | 3291/10699 [44:49<1:00:56,  2.03it/s] 31%|███       | 3292/10699 [44:49<1:00:59,  2.02it/s] 31%|███       | 3293/10699 [44:50<1:01:02,  2.02it/s] 31%|███       | 3294/10699 [44:50<1:01:02,  2.02it/s] 31%|███       | 3295/10699 [44:51<1:00:56,  2.03it/s] 31%|███       | 3296/10699 [44:51<1:00:57,  2.02it/s] 31%|███       | 3297/10699 [44:52<1:00:55,  2.02it/s] 31%|███       | 3298/10699 [44:52<1:00:53,  2.03it/s] 31%|███       | 3299/10699 [44:53<1:00:57,  2.02it/s] 31%|███       | 3300/10699 [44:53<1:00:58,  2.02it/s]{'loss': 3.8747, 'grad_norm': 0.20149335265159607, 'learning_rate': 0.0008733970345954758, 'epoch': 0.31}                                                      
- 31%|███       | 3300/10699 [44:53<1:00:58,  2.02it/s] 31%|███       | 3301/10699 [44:54<1:01:03,  2.02it/s] 31%|███       | 3302/10699 [44:54<1:01:03,  2.02it/s] 31%|███       | 3303/10699 [44:55<1:00:58,  2.02it/s] 31%|███       | 3304/10699 [44:55<1:00:56,  2.02it/s] 31%|███       | 3305/10699 [44:56<1:00:56,  2.02it/s] 31%|███       | 3306/10699 [44:56<1:00:58,  2.02it/s] 31%|███       | 3307/10699 [44:57<1:00:57,  2.02it/s] 31%|███       | 3308/10699 [44:57<1:00:57,  2.02it/s] 31%|███       | 3309/10699 [44:58<1:00:56,  2.02it/s] 31%|███       | 3310/10699 [44:58<1:00:53,  2.02it/s] 31%|███       | 3311/10699 [44:59<1:00:54,  2.02it/s] 31%|███       | 3312/10699 [44:59<1:00:51,  2.02it/s] 31%|███       | 3313/10699 [45:00<1:00:51,  2.02it/s] 31%|██���       | 3314/10699 [45:00<1:00:46,  2.03it/s] 31%|███       | 3315/10699 [45:01<1:00:48,  2.02it/s] 31%|███       | 3316/10699 [45:01<1:00:44,  2.03it/s] 31%|███       | 3317/10699 [45:02<1:00:46,  2.02it/s] 31%|███       | 3318/10699 [45:02<1:00:42,  2.03it/s] 31%|███       | 3319/10699 [45:03<1:00:40,  2.03it/s] 31%|███       | 3320/10699 [45:03<1:00:46,  2.02it/s] 31%|███       | 3321/10699 [45:04<1:00:44,  2.02it/s] 31%|███       | 3322/10699 [45:04<1:00:46,  2.02it/s] 31%|███       | 3323/10699 [45:05<1:00:41,  2.03it/s] 31%|███       | 3324/10699 [45:05<1:00:43,  2.02it/s] 31%|███       | 3325/10699 [45:06<1:00:38,  2.03it/s]{'loss': 3.8682, 'grad_norm': 0.22059205174446106, 'learning_rate': 0.0008706723513951258, 'epoch': 0.31}                                                      
- 31%|███       | 3325/10699 [45:06<1:00:38,  2.03it/s] 31%|███       | 3326/10699 [45:06<1:00:43,  2.02it/s] 31%|███       | 3327/10699 [45:07<1:00:41,  2.02it/s] 31%|███       | 3328/10699 [45:07<1:00:44,  2.02it/s] 31%|███       | 3329/10699 [45:08<1:00:41,  2.02it/s] 31%|███       | 3330/10699 [45:08<1:00:43,  2.02it/s] 31%|███       | 3331/10699 [45:09<1:00:40,  2.02it/s] 31%|███       | 3332/10699 [45:09<1:00:35,  2.03it/s] 31%|███       | 3333/10699 [45:10<1:00:37,  2.03it/s] 31%|███       | 3334/10699 [45:10<1:00:33,  2.03it/s] 31%|███       | 3335/10699 [45:11<1:00:34,  2.03it/s] 31%|███       | 3336/10699 [45:11<1:00:34,  2.03it/s] 31%|███       | 3337/10699 [45:12<1:00:36,  2.02it/s] 31%|███       | 3338/10699 [45:12<1:00:34,  2.03it/s] 31%|███       | 3339/10699 [45:13<1:00:34,  2.02it/s] 31%|███       | 3340/10699 [45:13<1:00:35,  2.02it/s] 31%|███       | 3341/10699 [45:14<1:00:32,  2.03it/s] 31%|███       | 3342/10699 [45:14<1:00:35,  2.02it/s] 31%|███       | 3343/10699 [45:15<1:00:33,  2.02it/s] 31%|███▏      | 3344/10699 [45:15<1:00:36,  2.02it/s] 31%|███▏      | 3345/10699 [45:16<1:00:32,  2.02it/s] 31%|███▏      | 3346/10699 [45:16<1:00:34,  2.02it/s] 31%|███▏      | 3347/10699 [45:17<1:00:32,  2.02it/s] 31%|███▏      | 3348/10699 [45:17<1:00:30,  2.02it/s] 31%|███▏      | 3349/10699 [45:18<1:00:31,  2.02it/s] 31%|███▏      | 3350/10699 [45:18<1:00:30,  2.02it/s]{'loss': 3.873, 'grad_norm': 0.20064860582351685, 'learning_rate': 0.0008679230075075771, 'epoch': 0.31}
-                                                       31%|███▏      | 3350/10699 [45:18<1:00:30,  2.02it/s] 31%|███▏      | 3351/10699 [45:19<1:00:37,  2.02it/s] 31%|███▏      | 3352/10699 [45:19<1:00:32,  2.02it/s] 31%|███▏      | 3353/10699 [45:20<1:00:31,  2.02it/s] 31%|███▏      | 3354/10699 [45:20<1:00:28,  2.02it/s] 31%|███▏      | 3355/10699 [45:21<1:00:32,  2.02it/s] 31%|███▏      | 3356/10699 [45:21<1:00:31,  2.02it/s] 31%|███▏      | 3357/10699 [45:22<1:00:33,  2.02it/s] 31%|███▏      | 3358/10699 [45:22<1:00:34,  2.02it/s] 31%|███▏      | 3359/10699 [45:23<1:00:36,  2.02it/s] 31%|███▏      | 3360/10699 [45:23<1:00:35,  2.02it/s] 31%|███▏      | 3361/10699 [45:24<1:00:33,  2.02it/s] 31%|███▏      | 3362/10699 [45:24<1:00:29,  2.02it/s] 31%|███▏      | 3363/10699 [45:25<1:00:31,  2.02it/s] 31%|███▏      | 3364/10699 [45:25<1:00:27,  2.02it/s] 31%|███▏      | 3365/10699 [45:26<1:00:22,  2.02it/s] 31%|███▏      | 3366/10699 [45:26<1:00:24,  2.02it/s] 31%|███▏      | 3367/10699 [45:27<1:00:21,  2.02it/s] 31%|███▏      | 3368/10699 [45:27<1:00:23,  2.02it/s] 31%|███▏      | 3369/10699 [45:28<1:00:20,  2.02it/s] 31%|███▏      | 3370/10699 [45:28<1:00:23,  2.02it/s] 32%|███▏      | 3371/10699 [45:28<1:00:20,  2.02it/s] 32%|███▏      | 3372/10699 [45:29<1:00:18,  2.02it/s] 32%|███▏      | 3373/10699 [45:29<1:00:22,  2.02it/s] 32%|███▏      | 3374/10699 [45:30<1:00:15,  2.03it/s] 32%|███▏      | 3375/10699 [45:30<1:00:19,  2.02it/s]{'loss': 3.868, 'grad_norm': 0.20679046213626862, 'learning_rate': 0.0008651491858456076, 'epoch': 0.32}
-                                                       32%|███▏      | 3375/10699 [45:30<1:00:19,  2.02it/s] 32%|███▏      | 3376/10699 [45:31<1:00:23,  2.02it/s] 32%|███▏      | 3377/10699 [45:31<1:00:26,  2.02it/s] 32%|███▏      | 3378/10699 [45:32<1:00:22,  2.02it/s] 32%|███▏      | 3379/10699 [45:32<1:00:24,  2.02it/s] 32%|███▏      | 3380/10699 [45:33<1:00:21,  2.02it/s] 32%|███▏      | 3381/10699 [45:33<1:00:22,  2.02it/s] 32%|███▏      | 3382/10699 [45:34<1:00:19,  2.02it/s] 32%|███▏      | 3383/10699 [45:34<1:00:19,  2.02it/s] 32%|███▏      | 3384/10699 [45:35<1:00:18,  2.02it/s] 32%|███▏      | 3385/10699 [45:35<1:00:17,  2.02it/s] 32%|███▏      | 3386/10699 [45:36<1:00:18,  2.02it/s] 32%|███▏      | 3387/10699 [45:36<1:00:18,  2.02it/s] 32%|███▏      | 3388/10699 [45:37<1:00:16,  2.02it/s] 32%|███▏      | 3389/10699 [45:37<1:00:19,  2.02it/s] 32%|███▏      | 3390/10699 [45:38<1:00:18,  2.02it/s] 32%|███▏      | 3391/10699 [45:38<1:00:16,  2.02it/s] 32%|███▏      | 3392/10699 [45:39<1:00:19,  2.02it/s] 32%|███▏      | 3393/10699 [45:39<1:00:18,  2.02it/s] 32%|███▏      | 3394/10699 [45:40<1:00:19,  2.02it/s] 32%|███▏      | 3395/10699 [45:40<1:00:15,  2.02it/s] 32%|███▏      | 3396/10699 [45:41<1:00:14,  2.02it/s] 32%|███▏      | 3397/10699 [45:41<1:00:14,  2.02it/s] 32%|███▏      | 3398/10699 [45:42<1:00:13,  2.02it/s] 32%|███▏      | 3399/10699 [45:42<1:00:14,  2.02it/s] 32%|███▏      | 3400/10699 [45:43<1:00:12,  2.02it/s]                                                      {'loss': 3.8612, 'grad_norm': 0.21631686389446259, 'learning_rate': 0.0008623510709504927, 'epoch': 0.32}
- 32%|███▏      | 3400/10699 [45:43<1:00:12,  2.02it/s] 32%|███▏      | 3401/10699 [45:43<1:00:14,  2.02it/s] 32%|███▏      | 3402/10699 [45:44<1:00:09,  2.02it/s] 32%|███▏      | 3403/10699 [45:44<1:00:11,  2.02it/s] 32%|███▏      | 3404/10699 [45:45<1:00:07,  2.02it/s] 32%|███▏      | 3405/10699 [45:45<1:00:05,  2.02it/s] 32%|███▏      | 3406/10699 [45:46<1:00:02,  2.02it/s] 32%|███▏      | 3407/10699 [45:46<1:00:04,  2.02it/s] 32%|███▏      | 3408/10699 [45:47<1:00:02,  2.02it/s] 32%|███▏      | 3409/10699 [45:47<1:00:00,  2.02it/s] 32%|███▏      | 3410/10699 [45:48<1:00:02,  2.02it/s] 32%|███▏      | 3411/10699 [45:48<59:58,  2.03it/s]   32%|███▏      | 3412/10699 [45:49<59:59,  2.02it/s] 32%|███▏      | 3413/10699 [45:49<59:59,  2.02it/s] 32%|███▏      | 3414/10699 [45:50<59:57,  2.03it/s] 32%|███▏      | 3415/10699 [45:50<59:59,  2.02it/s] 32%|███▏      | 3416/10699 [45:51<59:57,  2.02it/s] 32%|███▏      | 3417/10699 [45:51<59:58,  2.02it/s] 32%|███▏      | 3418/10699 [45:52<59:58,  2.02it/s] 32%|███▏      | 3419/10699 [45:52<59:55,  2.02it/s] 32%|███▏      | 3420/10699 [45:53<59:58,  2.02it/s] 32%|███▏      | 3421/10699 [45:53<59:58,  2.02it/s] 32%|███▏      | 3422/10699 [45:54<59:57,  2.02it/s] 32%|███▏      | 3423/10699 [45:54<59:57,  2.02it/s] 32%|███▏      | 3424/10699 [45:55<59:54,  2.02it/s] 32%|███▏      | 3425/10699 [45:55<59:54,  2.02it/s]{'loss': 3.8606, 'grad_norm': 0.20075088739395142, 'learning_rate': 0.0008595288489797266, 'epoch': 0.32}
-                                                     32%|███▏      | 3425/10699 [45:55<59:54,  2.02it/s] 32%|███▏      | 3426/10699 [45:56<59:58,  2.02it/s] 32%|███▏      | 3427/10699 [45:56<1:00:00,  2.02it/s] 32%|███▏      | 3428/10699 [45:57<59:54,  2.02it/s]   32%|███▏      | 3429/10699 [45:57<59:58,  2.02it/s] 32%|███▏      | 3430/10699 [45:58<59:52,  2.02it/s] 32%|███▏      | 3431/10699 [45:58<59:55,  2.02it/s] 32%|███▏      | 3432/10699 [45:59<59:52,  2.02it/s] 32%|███▏      | 3433/10699 [45:59<59:53,  2.02it/s] 32%|███▏      | 3434/10699 [46:00<59:50,  2.02it/s] 32%|███▏      | 3435/10699 [46:00<59:49,  2.02it/s] 32%|███▏      | 3436/10699 [46:01<59:48,  2.02it/s] 32%|███▏      | 3437/10699 [46:01<59:47,  2.02it/s] 32%|███▏      | 3438/10699 [46:02<59:48,  2.02it/s] 32%|███▏      | 3439/10699 [46:02<59:44,  2.03it/s] 32%|███▏      | 3440/10699 [46:03<59:46,  2.02it/s] 32%|███▏      | 3441/10699 [46:03<59:46,  2.02it/s] 32%|███▏      | 3442/10699 [46:04<59:46,  2.02it/s] 32%|███▏      | 3443/10699 [46:04<59:44,  2.02it/s] 32%|███▏      | 3444/10699 [46:05<59:47,  2.02it/s] 32%|███▏      | 3445/10699 [46:05<59:42,  2.02it/s] 32%|███▏      | 3446/10699 [46:06<59:47,  2.02it/s] 32%|███▏      | 3447/10699 [46:06<59:45,  2.02it/s] 32%|███▏      | 3448/10699 [46:07<59:44,  2.02it/s] 32%|███▏      | 3449/10699 [46:07<59:42,  2.02it/s] 32%|███▏      | 3450/10699 [46:08<59:39,  2.03it/s]{'loss': 3.8584, 'grad_norm': 0.2087896317243576, 'learning_rate': 0.0008566827076946382, 'epoch': 0.32}                                                    
- 32%|███▏      | 3450/10699 [46:08<59:39,  2.03it/s] 32%|███▏      | 3451/10699 [46:08<59:47,  2.02it/s] 32%|███▏      | 3452/10699 [46:09<59:47,  2.02it/s] 32%|███▏      | 3453/10699 [46:09<59:43,  2.02it/s] 32%|███▏      | 3454/10699 [46:10<59:43,  2.02it/s] 32%|███▏      | 3455/10699 [46:10<59:42,  2.02it/s] 32%|███▏      | 3456/10699 [46:11<59:40,  2.02it/s] 32%|███▏      | 3457/10699 [46:11<59:39,  2.02it/s] 32%|███▏      | 3458/10699 [46:12<59:33,  2.03it/s] 32%|███▏      | 3459/10699 [46:12<59:38,  2.02it/s] 32%|███▏      | 3460/10699 [46:12<59:34,  2.03it/s] 32%|███▏      | 3461/10699 [46:13<59:36,  2.02it/s] 32%|███▏      | 3462/10699 [46:13<59:31,  2.03it/s] 32%|███▏      | 3463/10699 [46:14<59:30,  2.03it/s] 32%|███▏      | 3464/10699 [46:14<59:32,  2.03it/s] 32%|███▏      | 3465/10699 [46:15<59:28,  2.03it/s] 32%|███▏      | 3466/10699 [46:15<59:34,  2.02it/s] 32%|███▏      | 3467/10699 [46:16<59:29,  2.03it/s] 32%|███▏      | 3468/10699 [46:16<59:32,  2.02it/s] 32%|███▏      | 3469/10699 [46:17<59:30,  2.03it/s] 32%|███▏      | 3470/10699 [46:17<59:32,  2.02it/s] 32%|███▏      | 3471/10699 [46:18<59:29,  2.03it/s] 32%|███▏      | 3472/10699 [46:18<59:30,  2.02it/s] 32%|███▏      | 3473/10699 [46:19<59:28,  2.03it/s] 32%|███▏      | 3474/10699 [46:19<59:33,  2.02it/s] 32%|███▏      | 3475/10699 [46:20<59:31,  2.02it/s]                                                    {'loss': 3.8611, 'grad_norm': 0.2046298235654831, 'learning_rate': 0.0008538128364478988, 'epoch': 0.32}
- 32%|███▏      | 3475/10699 [46:20<59:31,  2.02it/s] 32%|███▏      | 3476/10699 [46:20<59:35,  2.02it/s] 32%|███▏      | 3477/10699 [46:21<59:32,  2.02it/s] 33%|███▎      | 3478/10699 [46:21<59:32,  2.02it/s] 33%|███▎      | 3479/10699 [46:22<59:32,  2.02it/s] 33%|███▎      | 3480/10699 [46:22<59:31,  2.02it/s] 33%|███▎      | 3481/10699 [46:23<59:29,  2.02it/s] 33%|███▎      | 3482/10699 [46:23<59:26,  2.02it/s] 33%|███▎      | 3483/10699 [46:24<59:29,  2.02it/s] 33%|███▎      | 3484/10699 [46:24<59:24,  2.02it/s] 33%|███▎      | 3485/10699 [46:25<59:23,  2.02it/s] 33%|███▎      | 3486/10699 [46:25<59:24,  2.02it/s] 33%|███▎      | 3487/10699 [46:26<59:25,  2.02it/s] 33%|███▎      | 3488/10699 [46:26<59:25,  2.02it/s] 33%|███▎      | 3489/10699 [46:27<59:26,  2.02it/s] 33%|███▎      | 3490/10699 [46:27<59:28,  2.02it/s] 33%|███▎      | 3491/10699 [46:28<59:31,  2.02it/s] 33%|███▎      | 3492/10699 [46:28<59:27,  2.02it/s] 33%|███▎      | 3493/10699 [46:29<59:21,  2.02it/s] 33%|███▎      | 3494/10699 [46:29<59:20,  2.02it/s] 33%|███▎      | 3495/10699 [46:30<59:15,  2.03it/s] 33%|███▎      | 3496/10699 [46:30<59:18,  2.02it/s] 33%|███▎      | 3497/10699 [46:31<59:21,  2.02it/s] 33%|███▎      | 3498/10699 [46:31<59:19,  2.02it/s] 33%|███▎      | 3499/10699 [46:32<59:15,  2.02it/s] 33%|███▎      | 3500/10699 [46:32<59:12,  2.03it/s]                                                    {'loss': 3.8569, 'grad_norm': 0.19758164882659912, 'learning_rate': 0.0008509194261709247, 'epoch': 0.33}
- 33%|███▎      | 3500/10699 [46:32<59:12,  2.03it/s] 33%|███▎      | 3501/10699 [46:33<59:21,  2.02it/s] 33%|███▎      | 3502/10699 [46:33<59:21,  2.02it/s] 33%|███▎      | 3503/10699 [46:34<59:20,  2.02it/s] 33%|███▎      | 3504/10699 [46:34<59:16,  2.02it/s] 33%|███▎      | 3505/10699 [46:35<59:16,  2.02it/s] 33%|███▎      | 3506/10699 [46:35<59:14,  2.02it/s] 33%|███▎      | 3507/10699 [46:36<59:16,  2.02it/s] 33%|███▎      | 3508/10699 [46:36<59:11,  2.02it/s] 33%|███▎      | 3509/10699 [46:37<59:12,  2.02it/s] 33%|███▎      | 3510/10699 [46:37<59:09,  2.03it/s] 33%|███▎      | 3511/10699 [46:38<59:07,  2.03it/s] 33%|███▎      | 3512/10699 [46:38<59:10,  2.02it/s] 33%|███▎      | 3513/10699 [46:39<59:07,  2.03it/s] 33%|███▎      | 3514/10699 [46:39<59:08,  2.02it/s] 33%|███▎      | 3515/10699 [46:40<59:06,  2.03it/s] 33%|███▎      | 3516/10699 [46:40<59:05,  2.03it/s] 33%|███▎      | 3517/10699 [46:41<59:07,  2.02it/s] 33%|███▎      | 3518/10699 [46:41<59:05,  2.03it/s] 33%|███▎      | 3519/10699 [46:42<59:07,  2.02it/s] 33%|███▎      | 3520/10699 [46:42<59:07,  2.02it/s] 33%|███▎      | 3521/10699 [46:43<59:06,  2.02it/s] 33%|███▎      | 3522/10699 [46:43<59:06,  2.02it/s] 33%|███▎      | 3523/10699 [46:44<59:10,  2.02it/s] 33%|███▎      | 3524/10699 [46:44<59:06,  2.02it/s] 33%|███▎      | 3525/10699 [46:45<59:06,  2.02it/s]{'loss': 3.8513, 'grad_norm': 0.22334226965904236, 'learning_rate': 0.0008480026693611756, 'epoch': 0.33}
-                                                     33%|███▎      | 3525/10699 [46:45<59:06,  2.02it/s] 33%|███▎      | 3526/10699 [46:45<59:08,  2.02it/s] 33%|███▎      | 3527/10699 [46:46<59:10,  2.02it/s] 33%|███▎      | 3528/10699 [46:46<59:02,  2.02it/s] 33%|███▎      | 3529/10699 [46:47<59:05,  2.02it/s] 33%|███▎      | 3530/10699 [46:47<59:04,  2.02it/s] 33%|███▎      | 3531/10699 [46:48<59:04,  2.02it/s] 33%|███▎      | 3532/10699 [46:48<59:03,  2.02it/s] 33%|███▎      | 3533/10699 [46:49<59:03,  2.02it/s] 33%|███▎      | 3534/10699 [46:49<58:58,  2.03it/s] 33%|███▎      | 3535/10699 [46:50<58:55,  2.03it/s] 33%|███▎      | 3536/10699 [46:50<58:59,  2.02it/s] 33%|███▎      | 3537/10699 [46:51<59:01,  2.02it/s] 33%|███▎      | 3538/10699 [46:51<58:59,  2.02it/s] 33%|███▎      | 3539/10699 [46:52<58:56,  2.02it/s] 33%|███▎      | 3540/10699 [46:52<58:59,  2.02it/s] 33%|███▎      | 3541/10699 [46:53<58:54,  2.02it/s] 33%|███▎      | 3542/10699 [46:53<58:57,  2.02it/s] 33%|███▎      | 3543/10699 [46:54<58:55,  2.02it/s] 33%|███▎      | 3544/10699 [46:54<58:55,  2.02it/s] 33%|███▎      | 3545/10699 [46:55<58:54,  2.02it/s] 33%|███▎      | 3546/10699 [46:55<58:52,  2.02it/s] 33%|███▎      | 3547/10699 [46:55<58:55,  2.02it/s] 33%|███▎      | 3548/10699 [46:56<58:48,  2.03it/s] 33%|███▎      | 3549/10699 [46:56<58:49,  2.03it/s] 33%|███▎      | 3550/10699 [46:57<58:49,  2.03it/s]                                                    {'loss': 3.8464, 'grad_norm': 0.2118794322013855, 'learning_rate': 0.0008450627600693455, 'epoch': 0.33}
- 33%|███▎      | 3550/10699 [46:57<58:49,  2.03it/s] 33%|███▎      | 3551/10699 [46:57<58:53,  2.02it/s] 33%|███▎      | 3552/10699 [46:58<58:54,  2.02it/s] 33%|███▎      | 3553/10699 [46:58<58:52,  2.02it/s] 33%|███▎      | 3554/10699 [46:59<58:50,  2.02it/s] 33%|███▎      | 3555/10699 [46:59<58:50,  2.02it/s] 33%|███▎      | 3556/10699 [47:00<58:47,  2.03it/s] 33%|███▎      | 3557/10699 [47:00<58:50,  2.02it/s] 33%|███▎      | 3558/10699 [47:01<58:45,  2.03it/s] 33%|███▎      | 3559/10699 [47:01<58:48,  2.02it/s] 33%|███▎      | 3560/10699 [47:02<58:49,  2.02it/s] 33%|███▎      | 3561/10699 [47:02<58:47,  2.02it/s] 33%|███▎      | 3562/10699 [47:03<58:51,  2.02it/s] 33%|███▎      | 3563/10699 [47:03<58:50,  2.02it/s] 33%|███▎      | 3564/10699 [47:04<58:52,  2.02it/s] 33%|███▎      | 3565/10699 [47:04<58:49,  2.02it/s] 33%|███▎      | 3566/10699 [47:05<58:50,  2.02it/s] 33%|███▎      | 3567/10699 [47:05<58:48,  2.02it/s] 33%|███▎      | 3568/10699 [47:06<58:46,  2.02it/s] 33%|███▎      | 3569/10699 [47:06<58:47,  2.02it/s] 33%|███▎      | 3570/10699 [47:07<58:50,  2.02it/s] 33%|███▎      | 3571/10699 [47:07<58:44,  2.02it/s] 33%|███▎      | 3572/10699 [47:08<58:45,  2.02it/s] 33%|███▎      | 3573/10699 [47:08<58:42,  2.02it/s] 33%|███▎      | 3574/10699 [47:09<58:43,  2.02it/s] 33%|███▎      | 3575/10699 [47:09<58:44,  2.02it/s]{'loss': 3.8499, 'grad_norm': 0.20085515081882477, 'learning_rate': 0.0008420998938864552, 'epoch': 0.33}                                                    
- 33%|███▎      | 3575/10699 [47:09<58:44,  2.02it/s] 33%|███▎      | 3576/10699 [47:10<58:43,  2.02it/s] 33%|███▎      | 3577/10699 [47:10<58:46,  2.02it/s] 33%|███▎      | 3578/10699 [47:11<58:42,  2.02it/s] 33%|███▎      | 3579/10699 [47:11<58:45,  2.02it/s] 33%|███▎      | 3580/10699 [47:12<58:42,  2.02it/s] 33%|███▎      | 3581/10699 [47:12<58:42,  2.02it/s] 33%|███▎      | 3582/10699 [47:13<58:41,  2.02it/s] 33%|███▎      | 3583/10699 [47:13<58:38,  2.02it/s] 33%|███▎      | 3584/10699 [47:14<58:34,  2.02it/s] 34%|███▎      | 3585/10699 [47:14<58:36,  2.02it/s] 34%|███▎      | 3586/10699 [47:15<58:35,  2.02it/s] 34%|███▎      | 3587/10699 [47:15<58:41,  2.02it/s] 34%|███▎      | 3588/10699 [47:16<58:38,  2.02it/s] 34%|███▎      | 3589/10699 [47:16<58:40,  2.02it/s] 34%|███▎      | 3590/10699 [47:17<58:33,  2.02it/s] 34%|███▎      | 3591/10699 [47:17<58:34,  2.02it/s] 34%|███▎      | 3592/10699 [47:18<58:30,  2.02it/s] 34%|███▎      | 3593/10699 [47:18<58:34,  2.02it/s] 34%|███▎      | 3594/10699 [47:19<58:29,  2.02it/s] 34%|███▎      | 3595/10699 [47:19<58:27,  2.03it/s] 34%|███▎      | 3596/10699 [47:20<58:29,  2.02it/s] 34%|███▎      | 3597/10699 [47:20<58:28,  2.02it/s] 34%|███▎      | 3598/10699 [47:21<58:30,  2.02it/s] 34%|███▎      | 3599/10699 [47:21<58:27,  2.02it/s] 34%|███▎      | 3600/10699 [47:22<58:28,  2.02it/s]{'loss': 3.8504, 'grad_norm': 0.20227211713790894, 'learning_rate': 0.0008391142679308381, 'epoch': 0.34}
-                                                     34%|███▎      | 3600/10699 [47:22<58:28,  2.02it/s] 34%|███▎      | 3601/10699 [47:22<58:34,  2.02it/s] 34%|███▎      | 3602/10699 [47:23<58:34,  2.02it/s] 34%|███▎      | 3603/10699 [47:23<58:26,  2.02it/s] 34%|███▎      | 3604/10699 [47:24<58:26,  2.02it/s] 34%|███▎      | 3605/10699 [47:24<58:22,  2.03it/s] 34%|███▎      | 3606/10699 [47:25<58:21,  2.03it/s] 34%|███▎      | 3607/10699 [47:25<58:21,  2.03it/s] 34%|███▎      | 3608/10699 [47:26<58:18,  2.03it/s] 34%|███▎      | 3609/10699 [47:26<58:24,  2.02it/s] 34%|███▎      | 3610/10699 [47:27<58:29,  2.02it/s] 34%|███▍      | 3611/10699 [47:27<58:24,  2.02it/s] 34%|███▍      | 3612/10699 [47:28<58:20,  2.02it/s] 34%|███▍      | 3613/10699 [47:28<58:22,  2.02it/s] 34%|███▍      | 3614/10699 [47:29<58:21,  2.02it/s] 34%|███▍      | 3615/10699 [47:29<58:23,  2.02it/s] 34%|███▍      | 3616/10699 [47:30<58:16,  2.03it/s] 34%|███▍      | 3617/10699 [47:30<58:23,  2.02it/s] 34%|███▍      | 3618/10699 [47:31<58:20,  2.02it/s] 34%|███▍      | 3619/10699 [47:31<58:23,  2.02it/s] 34%|███▍      | 3620/10699 [47:32<58:19,  2.02it/s] 34%|███▍      | 3621/10699 [47:32<58:18,  2.02it/s] 34%|███▍      | 3622/10699 [47:33<58:17,  2.02it/s] 34%|███▍      | 3623/10699 [47:33<58:16,  2.02it/s] 34%|███▍      | 3624/10699 [47:34<58:13,  2.02it/s] 34%|███▍      | 3625/10699 [47:34<58:15,  2.02it/s]{'loss': 3.8479, 'grad_norm': 0.2038884460926056, 'learning_rate': 0.0008361060808350265, 'epoch': 0.34}
-                                                     34%|███▍      | 3625/10699 [47:34<58:15,  2.02it/s] 34%|███▍      | 3626/10699 [47:35<58:19,  2.02it/s] 34%|███▍      | 3627/10699 [47:35<58:19,  2.02it/s] 34%|███▍      | 3628/10699 [47:36<58:17,  2.02it/s] 34%|███▍      | 3629/10699 [47:36<58:15,  2.02it/s] 34%|███▍      | 3630/10699 [47:37<58:15,  2.02it/s] 34%|███▍      | 3631/10699 [47:37<58:15,  2.02it/s] 34%|███▍      | 3632/10699 [47:38<58:15,  2.02it/s] 34%|███▍      | 3633/10699 [47:38<58:12,  2.02it/s] 34%|███▍      | 3634/10699 [47:39<58:11,  2.02it/s] 34%|███▍      | 3635/10699 [47:39<58:10,  2.02it/s] 34%|███▍      | 3636/10699 [47:39<58:07,  2.03it/s] 34%|███▍      | 3637/10699 [47:40<58:11,  2.02it/s] 34%|███▍      | 3638/10699 [47:40<58:07,  2.02it/s] 34%|███▍      | 3639/10699 [47:41<58:10,  2.02it/s] 34%|███▍      | 3640/10699 [47:41<58:06,  2.02it/s] 34%|███▍      | 3641/10699 [47:42<58:06,  2.02it/s] 34%|███▍      | 3642/10699 [47:42<58:04,  2.03it/s] 34%|███▍      | 3643/10699 [47:43<58:05,  2.02it/s] 34%|███▍      | 3644/10699 [47:43<58:06,  2.02it/s] 34%|███▍      | 3645/10699 [47:44<58:05,  2.02it/s] 34%|███▍      | 3646/10699 [47:44<58:04,  2.02it/s] 34%|███▍      | 3647/10699 [47:45<58:04,  2.02it/s] 34%|███▍      | 3648/10699 [47:45<58:05,  2.02it/s] 34%|███▍      | 3649/10699 [47:46<58:01,  2.03it/s] 34%|███▍      | 3650/10699 [47:46<58:02,  2.02it/s]                                                    {'loss': 3.8437, 'grad_norm': 0.2089618444442749, 'learning_rate': 0.0008330755327325361, 'epoch': 0.34}
- 34%|███▍      | 3650/10699 [47:46<58:02,  2.02it/s] 34%|███▍      | 3651/10699 [47:47<58:05,  2.02it/s] 34%|███▍      | 3652/10699 [47:47<58:03,  2.02it/s] 34%|███▍      | 3653/10699 [47:48<58:01,  2.02it/s] 34%|███▍      | 3654/10699 [47:48<58:04,  2.02it/s] 34%|███▍      | 3655/10699 [47:49<58:00,  2.02it/s] 34%|███▍      | 3656/10699 [47:49<57:58,  2.02it/s] 34%|███▍      | 3657/10699 [47:50<58:01,  2.02it/s] 34%|███▍      | 3658/10699 [47:50<58:01,  2.02it/s] 34%|███▍      | 3659/10699 [47:51<58:03,  2.02it/s] 34%|███▍      | 3660/10699 [47:51<58:03,  2.02it/s] 34%|███▍      | 3661/10699 [47:52<58:02,  2.02it/s] 34%|███▍      | 3662/10699 [47:52<57:58,  2.02it/s] 34%|███▍      | 3663/10699 [47:53<57:57,  2.02it/s] 34%|███▍      | 3664/10699 [47:53<57:52,  2.03it/s] 34%|███▍      | 3665/10699 [47:54<57:54,  2.02it/s] 34%|███▍      | 3666/10699 [47:54<57:51,  2.03it/s] 34%|███▍      | 3667/10699 [47:55<57:57,  2.02it/s] 34%|███▍      | 3668/10699 [47:55<57:51,  2.03it/s] 34%|███▍      | 3669/10699 [47:56<57:56,  2.02it/s] 34%|███▍      | 3670/10699 [47:56<57:52,  2.02it/s] 34%|███▍      | 3671/10699 [47:57<57:51,  2.02it/s] 34%|███▍      | 3672/10699 [47:57<57:50,  2.02it/s] 34%|███▍      | 3673/10699 [47:58<57:51,  2.02it/s] 34%|███▍      | 3674/10699 [47:58<57:50,  2.02it/s] 34%|███▍      | 3675/10699 [47:59<57:50,  2.02it/s]{'loss': 3.8385, 'grad_norm': 0.21207481622695923, 'learning_rate': 0.0008300228252445525, 'epoch': 0.34}
-                                                     34%|███▍      | 3675/10699 [47:59<57:50,  2.02it/s] 34%|███▍      | 3676/10699 [47:59<57:57,  2.02it/s] 34%|███▍      | 3677/10699 [48:00<57:55,  2.02it/s] 34%|███▍      | 3678/10699 [48:00<57:54,  2.02it/s] 34%|███▍      | 3679/10699 [48:01<57:52,  2.02it/s] 34%|███▍      | 3680/10699 [48:01<57:51,  2.02it/s] 34%|███▍      | 3681/10699 [48:02<57:49,  2.02it/s] 34%|███▍      | 3682/10699 [48:02<57:49,  2.02it/s] 34%|███▍      | 3683/10699 [48:03<57:47,  2.02it/s] 34%|███▍      | 3684/10699 [48:03<57:43,  2.03it/s] 34%|███▍      | 3685/10699 [48:04<57:42,  2.03it/s] 34%|███▍      | 3686/10699 [48:04<57:41,  2.03it/s] 34%|███▍      | 3687/10699 [48:05<57:44,  2.02it/s] 34%|███▍      | 3688/10699 [48:05<57:45,  2.02it/s] 34%|███▍      | 3689/10699 [48:06<57:40,  2.03it/s] 34%|███▍      | 3690/10699 [48:06<57:45,  2.02it/s] 34%|███▍      | 3691/10699 [48:07<57:43,  2.02it/s] 35%|███▍      | 3692/10699 [48:07<57:43,  2.02it/s] 35%|███▍      | 3693/10699 [48:08<57:41,  2.02it/s] 35%|███▍      | 3694/10699 [48:08<57:40,  2.02it/s] 35%|███▍      | 3695/10699 [48:09<57:41,  2.02it/s] 35%|███▍      | 3696/10699 [48:09<57:39,  2.02it/s] 35%|███▍      | 3697/10699 [48:10<57:38,  2.02it/s] 35%|███▍      | 3698/10699 [48:10<57:42,  2.02it/s] 35%|███▍      | 3699/10699 [48:11<57:39,  2.02it/s] 35%|███▍      | 3700/10699 [48:11<57:42,  2.02it/s]{'loss': 3.8425, 'grad_norm': 0.21042044460773468, 'learning_rate': 0.0008269481614665159, 'epoch': 0.35}                                                    
- 35%|███▍      | 3700/10699 [48:11<57:42,  2.02it/s] 35%|███▍      | 3701/10699 [48:12<57:44,  2.02it/s] 35%|███▍      | 3702/10699 [48:12<57:43,  2.02it/s] 35%|███▍      | 3703/10699 [48:13<57:39,  2.02it/s] 35%|███▍      | 3704/10699 [48:13<57:40,  2.02it/s] 35%|███▍      | 3705/10699 [48:14<57:38,  2.02it/s] 35%|███▍      | 3706/10699 [48:14<57:40,  2.02it/s] 35%|███▍      | 3707/10699 [48:15<57:39,  2.02it/s] 35%|███▍      | 3708/10699 [48:15<57:37,  2.02it/s] 35%|███▍      | 3709/10699 [48:16<57:39,  2.02it/s] 35%|███▍      | 3710/10699 [48:16<57:40,  2.02it/s] 35%|███▍      | 3711/10699 [48:17<57:39,  2.02it/s] 35%|███▍      | 3712/10699 [48:17<57:37,  2.02it/s] 35%|███▍      | 3713/10699 [48:18<57:35,  2.02it/s] 35%|███▍      | 3714/10699 [48:18<57:34,  2.02it/s] 35%|███▍      | 3715/10699 [48:19<57:32,  2.02it/s] 35%|███▍      | 3716/10699 [48:19<57:30,  2.02it/s] 35%|███▍      | 3717/10699 [48:20<57:28,  2.02it/s] 35%|███▍      | 3718/10699 [48:20<57:30,  2.02it/s] 35%|███▍      | 3719/10699 [48:21<57:31,  2.02it/s] 35%|███▍      | 3720/10699 [48:21<57:32,  2.02it/s] 35%|███▍      | 3721/10699 [48:22<57:27,  2.02it/s] 35%|███▍      | 3722/10699 [48:22<57:26,  2.02it/s] 35%|███▍      | 3723/10699 [48:23<57:25,  2.02it/s] 35%|███▍      | 3724/10699 [48:23<57:22,  2.03it/s] 35%|███▍      | 3725/10699 [48:23<57:23,  2.03it/s]                                                    {'loss': 3.835, 'grad_norm': 0.21395541727542877, 'learning_rate': 0.0008238517459546104, 'epoch': 0.35}
- 35%|███▍      | 3725/10699 [48:23<57:23,  2.03it/s] 35%|███▍      | 3726/10699 [48:24<57:30,  2.02it/s] 35%|███▍      | 3727/10699 [48:24<57:33,  2.02it/s] 35%|███▍      | 3728/10699 [48:25<57:32,  2.02it/s] 35%|███▍      | 3729/10699 [48:25<57:31,  2.02it/s] 35%|███▍      | 3730/10699 [48:26<57:31,  2.02it/s] 35%|███▍      | 3731/10699 [48:26<57:25,  2.02it/s] 35%|███▍      | 3732/10699 [48:27<57:24,  2.02it/s] 35%|███▍      | 3733/10699 [48:27<57:22,  2.02it/s] 35%|███▍      | 3734/10699 [48:28<57:22,  2.02it/s] 35%|███▍      | 3735/10699 [48:28<57:24,  2.02it/s] 35%|███▍      | 3736/10699 [48:29<57:20,  2.02it/s] 35%|███▍      | 3737/10699 [48:29<57:22,  2.02it/s] 35%|███▍      | 3738/10699 [48:30<57:18,  2.02it/s] 35%|███▍      | 3739/10699 [48:30<57:21,  2.02it/s] 35%|███▍      | 3740/10699 [48:31<57:20,  2.02it/s] 35%|███▍      | 3741/10699 [48:31<57:18,  2.02it/s] 35%|███▍      | 3742/10699 [48:32<57:15,  2.02it/s] 35%|███▍      | 3743/10699 [48:32<57:15,  2.02it/s] 35%|███▍      | 3744/10699 [48:33<57:13,  2.03it/s] 35%|███▌      | 3745/10699 [48:33<57:11,  2.03it/s] 35%|███▌      | 3746/10699 [48:34<57:14,  2.02it/s] 35%|███▌      | 3747/10699 [48:34<57:12,  2.03it/s] 35%|███▌      | 3748/10699 [48:35<57:13,  2.02it/s] 35%|███▌      | 3749/10699 [48:35<57:07,  2.03it/s] 35%|███▌      | 3750/10699 [48:36<57:13,  2.02it/s]{'loss': 3.8297, 'grad_norm': 0.20109741389751434, 'learning_rate': 0.000820733784712154, 'epoch': 0.35}
-                                                     35%|███▌      | 3750/10699 [48:36<57:13,  2.02it/s] 35%|███▌      | 3751/10699 [48:36<57:12,  2.02it/s] 35%|███▌      | 3752/10699 [48:37<57:12,  2.02it/s] 35%|███▌      | 3753/10699 [48:37<57:10,  2.02it/s] 35%|███▌      | 3754/10699 [48:38<57:09,  2.02it/s] 35%|███▌      | 3755/10699 [48:38<57:09,  2.02it/s] 35%|███▌      | 3756/10699 [48:39<57:07,  2.03it/s] 35%|███▌      | 3757/10699 [48:39<57:09,  2.02it/s] 35%|███▌      | 3758/10699 [48:40<57:08,  2.02it/s] 35%|███▌      | 3759/10699 [48:40<57:12,  2.02it/s] 35%|███▌      | 3760/10699 [48:41<57:11,  2.02it/s] 35%|███▌      | 3761/10699 [48:41<57:13,  2.02it/s] 35%|███▌      | 3762/10699 [48:42<57:09,  2.02it/s] 35%|███▌      | 3763/10699 [48:42<57:08,  2.02it/s] 35%|███▌      | 3764/10699 [48:43<57:04,  2.02it/s] 35%|███▌      | 3765/10699 [48:43<57:04,  2.02it/s] 35%|███▌      | 3766/10699 [48:44<57:05,  2.02it/s] 35%|███▌      | 3767/10699 [48:44<57:06,  2.02it/s] 35%|███▌      | 3768/10699 [48:45<57:05,  2.02it/s] 35%|███▌      | 3769/10699 [48:45<57:06,  2.02it/s] 35%|███▌      | 3770/10699 [48:46<57:08,  2.02it/s] 35%|███▌      | 3771/10699 [48:46<57:06,  2.02it/s] 35%|███▌      | 3772/10699 [48:47<57:06,  2.02it/s] 35%|███▌      | 3773/10699 [48:47<57:03,  2.02it/s] 35%|███▌      | 3774/10699 [48:48<56:59,  2.02it/s] 35%|███▌      | 3775/10699 [48:48<57:03,  2.02it/s]                                                    {'loss': 3.8308, 'grad_norm': 0.1934044361114502, 'learning_rate': 0.0008175944851758941, 'epoch': 0.35}
- 35%|███▌      | 3775/10699 [48:48<57:03,  2.02it/s] 35%|███▌      | 3776/10699 [48:49<57:13,  2.02it/s] 35%|███▌      | 3777/10699 [48:49<57:09,  2.02it/s] 35%|███▌      | 3778/10699 [48:50<57:06,  2.02it/s] 35%|███▌      | 3779/10699 [48:50<57:03,  2.02it/s] 35%|███▌      | 3780/10699 [48:51<57:03,  2.02it/s] 35%|███▌      | 3781/10699 [48:51<57:01,  2.02it/s] 35%|███▌      | 3782/10699 [48:52<57:01,  2.02it/s] 35%|███▌      | 3783/10699 [48:52<56:59,  2.02it/s] 35%|███▌      | 3784/10699 [48:53<56:55,  2.02it/s] 35%|███▌      | 3785/10699 [48:53<56:56,  2.02it/s] 35%|███▌      | 3786/10699 [48:54<56:56,  2.02it/s] 35%|███▌      | 3787/10699 [48:54<56:58,  2.02it/s] 35%|███▌      | 3788/10699 [48:55<57:01,  2.02it/s] 35%|███▌      | 3789/10699 [48:55<57:03,  2.02it/s] 35%|███▌      | 3790/10699 [48:56<57:01,  2.02it/s] 35%|███▌      | 3791/10699 [48:56<56:59,  2.02it/s] 35%|███▌      | 3792/10699 [48:57<57:00,  2.02it/s] 35%|███▌      | 3793/10699 [48:57<56:57,  2.02it/s] 35%|███▌      | 3794/10699 [48:58<56:50,  2.02it/s] 35%|███▌      | 3795/10699 [48:58<56:53,  2.02it/s] 35%|███▌      | 3796/10699 [48:59<56:53,  2.02it/s] 35%|███▌      | 3797/10699 [48:59<56:54,  2.02it/s] 35%|███▌      | 3798/10699 [49:00<56:48,  2.02it/s] 36%|███▌      | 3799/10699 [49:00<56:51,  2.02it/s] 36%|███▌      | 3800/10699 [49:01<56:48,  2.02it/s]{'loss': 3.8328, 'grad_norm': 0.2122803032398224, 'learning_rate': 0.0008144340562022066, 'epoch': 0.36}
-                                                     36%|███▌      | 3800/10699 [49:01<56:48,  2.02it/s] 36%|███▌      | 3801/10699 [49:01<56:55,  2.02it/s] 36%|███▌      | 3802/10699 [49:02<56:49,  2.02it/s] 36%|███▌      | 3803/10699 [49:02<56:49,  2.02it/s] 36%|███▌      | 3804/10699 [49:03<56:44,  2.03it/s] 36%|███▌      | 3805/10699 [49:03<56:44,  2.02it/s] 36%|███▌      | 3806/10699 [49:04<56:46,  2.02it/s] 36%|███▌      | 3807/10699 [49:04<56:45,  2.02it/s] 36%|███▌      | 3808/10699 [49:05<56:46,  2.02it/s] 36%|███▌      | 3809/10699 [49:05<56:42,  2.02it/s] 36%|███▌      | 3810/10699 [49:06<56:46,  2.02it/s] 36%|███▌      | 3811/10699 [49:06<56:47,  2.02it/s] 36%|███▌      | 3812/10699 [49:07<56:47,  2.02it/s] 36%|███▌      | 3813/10699 [49:07<56:46,  2.02it/s] 36%|███▌      | 3814/10699 [49:07<56:46,  2.02it/s] 36%|███▌      | 3815/10699 [49:08<56:44,  2.02it/s] 36%|███▌      | 3816/10699 [49:08<56:43,  2.02it/s] 36%|███▌      | 3817/10699 [49:09<56:38,  2.02it/s] 36%|███▌      | 3818/10699 [49:09<56:42,  2.02it/s] 36%|███▌      | 3819/10699 [49:10<56:43,  2.02it/s] 36%|███▌      | 3820/10699 [49:10<56:39,  2.02it/s] 36%|███▌      | 3821/10699 [49:11<56:41,  2.02it/s] 36%|███▌      | 3822/10699 [49:11<56:36,  2.02it/s] 36%|███▌      | 3823/10699 [49:12<56:40,  2.02it/s] 36%|███▌      | 3824/10699 [49:12<56:37,  2.02it/s] 36%|███▌      | 3825/10699 [49:13<56:34,  2.03it/s]                                                    {'loss': 3.8302, 'grad_norm': 0.19554957747459412, 'learning_rate': 0.0008112527080532002, 'epoch': 0.36}
- 36%|███▌      | 3825/10699 [49:13<56:34,  2.03it/s] 36%|███▌      | 3826/10699 [49:13<56:40,  2.02it/s] 36%|███▌      | 3827/10699 [49:14<56:36,  2.02it/s] 36%|███▌      | 3828/10699 [49:14<56:39,  2.02it/s] 36%|███▌      | 3829/10699 [49:15<56:36,  2.02it/s] 36%|███▌      | 3830/10699 [49:15<56:34,  2.02it/s] 36%|███▌      | 3831/10699 [49:16<56:32,  2.02it/s] 36%|███▌      | 3832/10699 [49:16<56:31,  2.02it/s] 36%|███▌      | 3833/10699 [49:17<56:34,  2.02it/s] 36%|███▌      | 3834/10699 [49:17<56:31,  2.02it/s] 36%|███▌      | 3835/10699 [49:18<56:35,  2.02it/s] 36%|███▌      | 3836/10699 [49:18<56:36,  2.02it/s] 36%|███▌      | 3837/10699 [49:19<56:35,  2.02it/s] 36%|███▌      | 3838/10699 [49:19<56:33,  2.02it/s] 36%|███▌      | 3839/10699 [49:20<56:31,  2.02it/s] 36%|███▌      | 3840/10699 [49:20<56:30,  2.02it/s] 36%|███▌      | 3841/10699 [49:21<56:27,  2.02it/s] 36%|███▌      | 3842/10699 [49:21<56:29,  2.02it/s] 36%|███▌      | 3843/10699 [49:22<56:24,  2.03it/s] 36%|███▌      | 3844/10699 [49:22<56:25,  2.02it/s] 36%|███▌      | 3845/10699 [49:23<56:22,  2.03it/s] 36%|███▌      | 3846/10699 [49:23<56:28,  2.02it/s] 36%|███▌      | 3847/10699 [49:24<56:25,  2.02it/s] 36%|███▌      | 3848/10699 [49:24<56:25,  2.02it/s] 36%|███▌      | 3849/10699 [49:25<56:26,  2.02it/s] 36%|███▌      | 3850/10699 [49:25<56:27,  2.02it/s]{'loss': 3.8266, 'grad_norm': 0.2144310176372528, 'learning_rate': 0.0008080506523827287, 'epoch': 0.36}
-                                                     36%|███▌      | 3850/10699 [49:25<56:27,  2.02it/s] 36%|███▌      | 3851/10699 [49:26<56:29,  2.02it/s] 36%|███▌      | 3852/10699 [49:26<56:28,  2.02it/s] 36%|███▌      | 3853/10699 [49:27<56:26,  2.02it/s] 36%|███▌      | 3854/10699 [49:27<56:21,  2.02it/s] 36%|███▌      | 3855/10699 [49:28<56:22,  2.02it/s] 36%|███▌      | 3856/10699 [49:28<56:24,  2.02it/s] 36%|███▌      | 3857/10699 [49:29<56:25,  2.02it/s] 36%|███▌      | 3858/10699 [49:29<56:20,  2.02it/s] 36%|███▌      | 3859/10699 [49:30<56:25,  2.02it/s] 36%|███▌      | 3860/10699 [49:30<56:20,  2.02it/s] 36%|███▌      | 3861/10699 [49:31<56:20,  2.02it/s] 36%|███▌      | 3862/10699 [49:31<56:16,  2.02it/s] 36%|███▌      | 3863/10699 [49:32<56:17,  2.02it/s] 36%|███▌      | 3864/10699 [49:32<56:16,  2.02it/s] 36%|███▌      | 3865/10699 [49:33<56:15,  2.02it/s] 36%|███▌      | 3866/10699 [49:33<56:21,  2.02it/s] 36%|███▌      | 3867/10699 [49:34<56:26,  2.02it/s] 36%|███▌      | 3868/10699 [49:34<56:19,  2.02it/s] 36%|███▌      | 3869/10699 [49:35<56:19,  2.02it/s] 36%|███▌      | 3870/10699 [49:35<56:16,  2.02it/s] 36%|███▌      | 3871/10699 [49:36<56:18,  2.02it/s] 36%|███▌      | 3872/10699 [49:36<56:16,  2.02it/s] 36%|███▌      | 3873/10699 [49:37<56:15,  2.02it/s] 36%|███▌      | 3874/10699 [49:37<56:14,  2.02it/s] 36%|███▌      | 3875/10699 [49:38<56:17,  2.02it/s]{'loss': 3.8164, 'grad_norm': 0.20416830480098724, 'learning_rate': 0.0008048281022223087, 'epoch': 0.36}
-                                                     36%|███▌      | 3875/10699 [49:38<56:17,  2.02it/s] 36%|███▌      | 3876/10699 [49:38<56:22,  2.02it/s] 36%|███▌      | 3877/10699 [49:39<56:21,  2.02it/s] 36%|███▌      | 3878/10699 [49:39<56:15,  2.02it/s] 36%|███▋      | 3879/10699 [49:40<56:17,  2.02it/s] 36%|███▋      | 3880/10699 [49:40<56:14,  2.02it/s] 36%|███▋      | 3881/10699 [49:41<56:15,  2.02it/s] 36%|███▋      | 3882/10699 [49:41<56:08,  2.02it/s] 36%|███▋      | 3883/10699 [49:42<56:10,  2.02it/s] 36%|███▋      | 3884/10699 [49:42<56:05,  2.03it/s] 36%|███▋      | 3885/10699 [49:43<56:05,  2.02it/s] 36%|███▋      | 3886/10699 [49:43<56:06,  2.02it/s] 36%|███▋      | 3887/10699 [49:44<56:09,  2.02it/s] 36%|███▋      | 3888/10699 [49:44<56:07,  2.02it/s] 36%|███▋      | 3889/10699 [49:45<56:11,  2.02it/s] 36%|███▋      | 3890/10699 [49:45<56:07,  2.02it/s] 36%|███▋      | 3891/10699 [49:46<56:06,  2.02it/s] 36%|███▋      | 3892/10699 [49:46<56:04,  2.02it/s] 36%|███▋      | 3893/10699 [49:47<56:03,  2.02it/s] 36%|███▋      | 3894/10699 [49:47<56:04,  2.02it/s] 36%|███▋      | 3895/10699 [49:48<56:01,  2.02it/s] 36%|███▋      | 3896/10699 [49:48<56:04,  2.02it/s] 36%|███▋      | 3897/10699 [49:49<55:59,  2.02it/s] 36%|███▋      | 3898/10699 [49:49<56:01,  2.02it/s] 36%|███▋      | 3899/10699 [49:50<55:59,  2.02it/s] 36%|███▋      | 3900/10699 [49:50<56:00,  2.02it/s]                                                    {'loss': 3.8238, 'grad_norm': 0.21238750219345093, 'learning_rate': 0.0008015852719669478, 'epoch': 0.36}
- 36%|███▋      | 3900/10699 [49:50<56:00,  2.02it/s] 36%|███▋      | 3901/10699 [49:51<56:01,  2.02it/s] 36%|███▋      | 3902/10699 [49:51<56:01,  2.02it/s] 36%|███▋      | 3903/10699 [49:51<56:00,  2.02it/s] 36%|███▋      | 3904/10699 [49:52<55:57,  2.02it/s] 36%|███▋      | 3905/10699 [49:52<56:00,  2.02it/s] 37%|███▋      | 3906/10699 [49:53<56:00,  2.02it/s] 37%|███▋      | 3907/10699 [49:53<56:01,  2.02it/s] 37%|███▋      | 3908/10699 [49:54<56:00,  2.02it/s] 37%|███▋      | 3909/10699 [49:54<56:02,  2.02it/s] 37%|███▋      | 3910/10699 [49:55<56:01,  2.02it/s] 37%|███▋      | 3911/10699 [49:55<56:01,  2.02it/s] 37%|███▋      | 3912/10699 [49:56<1:05:27,  1.73it/s] 37%|███▋      | 3913/10699 [49:57<1:02:31,  1.81it/s] 37%|███▋      | 3914/10699 [49:57<1:00:33,  1.87it/s] 37%|███▋      | 3915/10699 [49:58<59:10,  1.91it/s]   37%|███▋      | 3916/10699 [49:58<58:11,  1.94it/s] 37%|███▋      | 3917/10699 [49:59<57:29,  1.97it/s] 37%|███▋      | 3918/10699 [49:59<56:55,  1.99it/s] 37%|███▋      | 3919/10699 [50:00<56:39,  1.99it/s] 37%|███▋      | 3920/10699 [50:00<56:21,  2.00it/s] 37%|███▋      | 3921/10699 [50:01<56:13,  2.01it/s] 37%|███▋      | 3922/10699 [50:01<56:04,  2.01it/s] 37%|███▋      | 3923/10699 [50:02<56:01,  2.02it/s] 37%|███▋      | 3924/10699 [50:02<55:55,  2.02it/s] 37%|███▋      | 3925/10699 [50:03<55:56,  2.02it/s]                                                    {'loss': 3.8252, 'grad_norm': 0.2039261907339096, 'learning_rate': 0.0007983223773608799, 'epoch': 0.37}
- 37%|███▋      | 3925/10699 [50:03<55:56,  2.02it/s] 37%|███▋      | 3926/10699 [50:03<55:59,  2.02it/s] 37%|███▋      | 3927/10699 [50:04<55:59,  2.02it/s] 37%|███▋      | 3928/10699 [50:04<55:54,  2.02it/s] 37%|███▋      | 3929/10699 [50:05<55:54,  2.02it/s] 37%|███▋      | 3930/10699 [50:05<1:05:26,  1.72it/s] 37%|███▋      | 3931/10699 [50:06<1:02:33,  1.80it/s] 37%|███▋      | 3932/10699 [50:06<1:00:33,  1.86it/s] 37%|███▋      | 3933/10699 [50:07<59:07,  1.91it/s]   37%|███▋      | 3934/10699 [50:07<58:10,  1.94it/s] 37%|███▋      | 3935/10699 [50:08<57:26,  1.96it/s] 37%|███▋      | 3936/10699 [50:08<56:57,  1.98it/s] 37%|███▋      | 3937/10699 [50:09<56:35,  1.99it/s] 37%|███▋      | 3938/10699 [50:09<56:19,  2.00it/s] 37%|███▋      | 3939/10699 [50:10<56:10,  2.01it/s] 37%|███▋      | 3940/10699 [50:10<55:58,  2.01it/s] 37%|███▋      | 3941/10699 [50:11<55:54,  2.01it/s] 37%|███▋      | 3942/10699 [50:11<55:50,  2.02it/s] 37%|███▋      | 3943/10699 [50:12<55:47,  2.02it/s] 37%|███▋      | 3944/10699 [50:12<55:43,  2.02it/s] 37%|███▋      | 3945/10699 [50:13<55:43,  2.02it/s] 37%|███▋      | 3946/10699 [50:13<55:40,  2.02it/s] 37%|███▋      | 3947/10699 [50:14<55:41,  2.02it/s] 37%|███▋      | 3948/10699 [50:14<55:39,  2.02it/s] 37%|███▋      | 3949/10699 [50:15<55:38,  2.02it/s] 37%|███▋      | 3950/10699 [50:15<55:36,  2.02it/s]{'loss': 3.8194, 'grad_norm': 0.1949862688779831, 'learning_rate': 0.0007950396354832127, 'epoch': 0.37}
-                                                     37%|███▋      | 3950/10699 [50:15<55:36,  2.02it/s] 37%|███▋      | 3951/10699 [50:16<55:40,  2.02it/s] 37%|███▋      | 3952/10699 [50:16<55:37,  2.02it/s] 37%|███▋      | 3953/10699 [50:17<55:33,  2.02it/s] 37%|███▋      | 3954/10699 [50:17<55:32,  2.02it/s] 37%|███▋      | 3955/10699 [50:18<55:30,  2.03it/s] 37%|███▋      | 3956/10699 [50:18<55:29,  2.03it/s] 37%|███▋      | 3957/10699 [50:19<55:30,  2.02it/s] 37%|███▋      | 3958/10699 [50:19<55:27,  2.03it/s] 37%|███▋      | 3959/10699 [50:20<55:32,  2.02it/s] 37%|███▋      | 3960/10699 [50:20<55:27,  2.03it/s] 37%|███▋      | 3961/10699 [50:21<55:29,  2.02it/s] 37%|███▋      | 3962/10699 [50:21<55:27,  2.02it/s] 37%|███▋      | 3963/10699 [50:22<55:26,  2.03it/s] 37%|███▋      | 3964/10699 [50:22<55:27,  2.02it/s] 37%|███▋      | 3965/10699 [50:23<55:26,  2.02it/s] 37%|███▋      | 3966/10699 [50:23<55:26,  2.02it/s] 37%|███▋      | 3967/10699 [50:24<55:26,  2.02it/s] 37%|███▋      | 3968/10699 [50:24<55:22,  2.03it/s] 37%|███▋      | 3969/10699 [50:25<55:26,  2.02it/s] 37%|███▋      | 3970/10699 [50:25<55:21,  2.03it/s] 37%|███▋      | 3971/10699 [50:26<55:23,  2.02it/s] 37%|███▋      | 3972/10699 [50:26<55:21,  2.03it/s] 37%|███▋      | 3973/10699 [50:27<55:20,  2.03it/s] 37%|███▋      | 3974/10699 [50:27<55:20,  2.03it/s] 37%|███▋      | 3975/10699 [50:28<55:18,  2.03it/s]{'loss': 3.8253, 'grad_norm': 0.20199541747570038, 'learning_rate': 0.000791737264733485, 'epoch': 0.37}
-                                                     37%|███▋      | 3975/10699 [50:28<55:18,  2.03it/s] 37%|███▋      | 3976/10699 [50:28<55:24,  2.02it/s] 37%|███▋      | 3977/10699 [50:29<55:20,  2.02it/s] 37%|███▋      | 3978/10699 [50:29<55:20,  2.02it/s] 37%|███▋      | 3979/10699 [50:30<55:18,  2.03it/s] 37%|███▋      | 3980/10699 [50:30<55:21,  2.02it/s] 37%|███▋      | 3981/10699 [50:31<55:18,  2.02it/s] 37%|███▋      | 3982/10699 [50:31<55:19,  2.02it/s] 37%|███▋      | 3983/10699 [50:32<55:15,  2.03it/s] 37%|███▋      | 3984/10699 [50:32<55:15,  2.03it/s] 37%|███▋      | 3985/10699 [50:33<55:16,  2.02it/s] 37%|███▋      | 3986/10699 [50:33<55:15,  2.02it/s] 37%|███▋      | 3987/10699 [50:34<55:15,  2.02it/s] 37%|███▋      | 3988/10699 [50:34<55:12,  2.03it/s] 37%|███▋      | 3989/10699 [50:35<55:15,  2.02it/s] 37%|███▋      | 3990/10699 [50:35<55:13,  2.02it/s] 37%|███▋      | 3991/10699 [50:36<55:14,  2.02it/s] 37%|███▋      | 3992/10699 [50:36<55:12,  2.03it/s] 37%|███▋      | 3993/10699 [50:37<55:09,  2.03it/s] 37%|███▋      | 3994/10699 [50:37<55:09,  2.03it/s] 37%|███▋      | 3995/10699 [50:38<55:08,  2.03it/s] 37%|███▋      | 3996/10699 [50:38<55:09,  2.03it/s] 37%|███▋      | 3997/10699 [50:39<55:07,  2.03it/s] 37%|███▋      | 3998/10699 [50:39<55:08,  2.03it/s] 37%|███▋      | 3999/10699 [50:40<55:06,  2.03it/s] 37%|███▋      | 4000/10699 [50:40<55:11,  2.02it/s]                                                    {'loss': 3.8182, 'grad_norm': 0.2096293419599533, 'learning_rate': 0.0007884154848171367, 'epoch': 0.37}
- 37%|███▋      | 4000/10699 [50:40<55:11,  2.02it/s] 37%|███▋      | 4001/10699 [50:41<55:24,  2.01it/s] 37%|███▋      | 4002/10699 [50:41<55:19,  2.02it/s] 37%|███▋      | 4003/10699 [50:41<55:10,  2.02it/s] 37%|███▋      | 4004/10699 [50:42<55:10,  2.02it/s] 37%|███▋      | 4005/10699 [50:42<55:09,  2.02it/s] 37%|███▋      | 4006/10699 [50:43<55:10,  2.02it/s] 37%|███▋      | 4007/10699 [50:43<55:07,  2.02it/s] 37%|███▋      | 4008/10699 [50:44<55:08,  2.02it/s] 37%|███▋      | 4009/10699 [50:44<55:05,  2.02it/s] 37%|███▋      | 4010/10699 [50:45<55:07,  2.02it/s] 37%|███▋      | 4011/10699 [50:45<55:03,  2.02it/s] 37%|███▋      | 4012/10699 [50:46<55:03,  2.02it/s] 38%|███▊      | 4013/10699 [50:46<55:03,  2.02it/s] 38%|███▊      | 4014/10699 [50:47<54:58,  2.03it/s] 38%|███▊      | 4015/10699 [50:47<55:01,  2.02it/s] 38%|███▊      | 4016/10699 [50:48<54:58,  2.03it/s] 38%|███▊      | 4017/10699 [50:48<55:01,  2.02it/s] 38%|███▊      | 4018/10699 [50:49<54:59,  2.02it/s] 38%|███▊      | 4019/10699 [50:49<55:02,  2.02it/s] 38%|███▊      | 4020/10699 [50:50<54:59,  2.02it/s] 38%|███▊      | 4021/10699 [50:50<55:00,  2.02it/s] 38%|███▊      | 4022/10699 [50:51<54:59,  2.02it/s] 38%|███▊      | 4023/10699 [50:51<54:58,  2.02it/s] 38%|███▊      | 4024/10699 [50:52<54:57,  2.02it/s] 38%|███▊      | 4025/10699 [50:52<54:55,  2.02it/s]                                                    {'loss': 3.8156, 'grad_norm': 0.21149292588233948, 'learning_rate': 0.0007850745167308923, 'epoch': 0.38}
- 38%|███▊      | 4025/10699 [50:52<54:55,  2.02it/s] 38%|███▊      | 4026/10699 [50:53<55:10,  2.02it/s] 38%|███▊      | 4027/10699 [50:53<55:03,  2.02it/s] 38%|███▊      | 4028/10699 [50:54<55:02,  2.02it/s] 38%|███▊      | 4029/10699 [50:54<55:01,  2.02it/s] 38%|███▊      | 4030/10699 [50:55<55:00,  2.02it/s] 38%|███▊      | 4031/10699 [50:55<54:59,  2.02it/s] 38%|███▊      | 4032/10699 [50:56<54:58,  2.02it/s] 38%|███▊      | 4033/10699 [50:56<54:54,  2.02it/s] 38%|███▊      | 4034/10699 [50:57<54:55,  2.02it/s] 38%|███▊      | 4035/10699 [50:57<54:54,  2.02it/s] 38%|███▊      | 4036/10699 [50:58<54:55,  2.02it/s] 38%|███▊      | 4037/10699 [50:58<54:52,  2.02it/s] 38%|███▊      | 4038/10699 [50:59<54:52,  2.02it/s] 38%|███▊      | 4039/10699 [50:59<54:52,  2.02it/s] 38%|███▊      | 4040/10699 [51:00<54:48,  2.03it/s] 38%|███▊      | 4041/10699 [51:00<54:49,  2.02it/s] 38%|███▊      | 4042/10699 [51:01<54:46,  2.03it/s] 38%|███▊      | 4043/10699 [51:01<54:46,  2.03it/s] 38%|███▊      | 4044/10699 [51:02<54:45,  2.03it/s] 38%|███▊      | 4045/10699 [51:02<54:45,  2.03it/s] 38%|███▊      | 4046/10699 [51:03<54:47,  2.02it/s] 38%|███▊      | 4047/10699 [51:03<54:44,  2.03it/s] 38%|███▊      | 4048/10699 [51:04<54:47,  2.02it/s] 38%|███▊      | 4049/10699 [51:04<54:44,  2.02it/s] 38%|███▊      | 4050/10699 [51:05<54:47,  2.02it/s]                                                    {'loss': 3.8102, 'grad_norm': 0.2051275074481964, 'learning_rate': 0.0007817145827480577, 'epoch': 0.38}
- 38%|███▊      | 4050/10699 [51:05<54:47,  2.02it/s] 38%|███▊      | 4051/10699 [51:05<54:46,  2.02it/s] 38%|███▊      | 4052/10699 [51:06<54:45,  2.02it/s] 38%|███▊      | 4053/10699 [51:06<54:46,  2.02it/s] 38%|███▊      | 4054/10699 [51:07<54:41,  2.03it/s] 38%|███▊      | 4055/10699 [51:07<54:44,  2.02it/s] 38%|███▊      | 4056/10699 [51:08<54:41,  2.02it/s] 38%|███▊      | 4057/10699 [51:08<54:43,  2.02it/s] 38%|███▊      | 4058/10699 [51:09<54:43,  2.02it/s] 38%|███▊      | 4059/10699 [51:09<54:44,  2.02it/s] 38%|███▊      | 4060/10699 [51:10<54:42,  2.02it/s] 38%|███▊      | 4061/10699 [51:10<54:45,  2.02it/s] 38%|███▊      | 4062/10699 [51:11<54:42,  2.02it/s] 38%|███▊      | 4063/10699 [51:11<54:40,  2.02it/s] 38%|███▊      | 4064/10699 [51:12<54:39,  2.02it/s] 38%|███▊      | 4065/10699 [51:12<54:39,  2.02it/s] 38%|███▊      | 4066/10699 [51:13<54:36,  2.02it/s] 38%|███▊      | 4067/10699 [51:13<54:36,  2.02it/s] 38%|███▊      | 4068/10699 [51:14<54:33,  2.03it/s] 38%|███▊      | 4069/10699 [51:14<54:33,  2.03it/s] 38%|███▊      | 4070/10699 [51:15<54:34,  2.02it/s] 38%|███▊      | 4071/10699 [51:15<54:34,  2.02it/s] 38%|███▊      | 4072/10699 [51:16<54:32,  2.03it/s] 38%|███▊      | 4073/10699 [51:16<54:32,  2.02it/s] 38%|███▊      | 4074/10699 [51:17<54:32,  2.02it/s] 38%|███▊      | 4075/10699 [51:17<54:32,  2.02it/s]                                                    {'loss': 3.8086, 'grad_norm': 0.2185981720685959, 'learning_rate': 0.0007783359064037322, 'epoch': 0.38}
- 38%|███▊      | 4075/10699 [51:17<54:32,  2.02it/s] 38%|███▊      | 4076/10699 [51:18<54:41,  2.02it/s] 38%|███▊      | 4077/10699 [51:18<54:39,  2.02it/s] 38%|███▊      | 4078/10699 [51:19<54:37,  2.02it/s] 38%|███▊      | 4079/10699 [51:19<54:36,  2.02it/s] 38%|███▊      | 4080/10699 [51:20<54:34,  2.02it/s] 38%|███▊      | 4081/10699 [51:20<54:32,  2.02it/s] 38%|███▊      | 4082/10699 [51:21<54:34,  2.02it/s] 38%|███▊      | 4083/10699 [51:21<54:32,  2.02it/s] 38%|███▊      | 4084/10699 [51:22<54:33,  2.02it/s] 38%|███▊      | 4085/10699 [51:22<54:32,  2.02it/s] 38%|███▊      | 4086/10699 [51:23<54:36,  2.02it/s] 38%|███▊      | 4087/10699 [51:23<54:33,  2.02it/s] 38%|███▊      | 4088/10699 [51:24<54:33,  2.02it/s] 38%|███▊      | 4089/10699 [51:24<54:27,  2.02it/s] 38%|███▊      | 4090/10699 [51:25<54:27,  2.02it/s] 38%|███▊      | 4091/10699 [51:25<54:24,  2.02it/s] 38%|███▊      | 4092/10699 [51:25<54:20,  2.03it/s] 38%|███▊      | 4093/10699 [51:26<54:22,  2.02it/s] 38%|███▊      | 4094/10699 [51:26<54:18,  2.03it/s] 38%|███▊      | 4095/10699 [51:27<54:19,  2.03it/s] 38%|███▊      | 4096/10699 [51:27<54:24,  2.02it/s] 38%|███▊      | 4097/10699 [51:28<54:23,  2.02it/s] 38%|███▊      | 4098/10699 [51:28<54:24,  2.02it/s] 38%|███▊      | 4099/10699 [51:29<54:24,  2.02it/s] 38%|███▊      | 4100/10699 [51:29<54:26,  2.02it/s]                                                    {'loss': 3.8055, 'grad_norm': 0.2022055983543396, 'learning_rate': 0.0007749387124799374, 'epoch': 0.38}
- 38%|███▊      | 4100/10699 [51:29<54:26,  2.02it/s] 38%|███▊      | 4101/10699 [51:30<54:27,  2.02it/s] 38%|███▊      | 4102/10699 [51:30<54:25,  2.02it/s] 38%|███▊      | 4103/10699 [51:31<54:23,  2.02it/s] 38%|███▊      | 4104/10699 [51:31<54:19,  2.02it/s] 38%|███▊      | 4105/10699 [51:32<54:20,  2.02it/s] 38%|███▊      | 4106/10699 [51:32<54:19,  2.02it/s] 38%|███▊      | 4107/10699 [51:33<54:19,  2.02it/s] 38%|███▊      | 4108/10699 [51:33<54:17,  2.02it/s] 38%|███▊      | 4109/10699 [51:34<54:17,  2.02it/s] 38%|███▊      | 4110/10699 [51:34<54:17,  2.02it/s] 38%|███▊      | 4111/10699 [51:35<54:14,  2.02it/s] 38%|███▊      | 4112/10699 [51:35<54:13,  2.02it/s] 38%|███▊      | 4113/10699 [51:36<54:11,  2.03it/s] 38%|███▊      | 4114/10699 [51:36<54:12,  2.02it/s] 38%|███▊      | 4115/10699 [51:37<54:11,  2.03it/s] 38%|███▊      | 4116/10699 [51:37<54:15,  2.02it/s] 38%|███▊      | 4117/10699 [51:38<54:12,  2.02it/s] 38%|███▊      | 4118/10699 [51:38<54:13,  2.02it/s] 38%|███▊      | 4119/10699 [51:39<54:10,  2.02it/s] 39%|███▊      | 4120/10699 [51:39<54:08,  2.02it/s] 39%|███▊      | 4121/10699 [51:40<54:11,  2.02it/s] 39%|███▊      | 4122/10699 [51:40<54:10,  2.02it/s] 39%|███▊      | 4123/10699 [51:41<54:10,  2.02it/s] 39%|███▊      | 4124/10699 [51:41<54:10,  2.02it/s] 39%|███▊      | 4125/10699 [51:42<54:13,  2.02it/s]{'loss': 3.7958, 'grad_norm': 0.19404557347297668, 'learning_rate': 0.0007715232269906622, 'epoch': 0.39}
-                                                     39%|███▊      | 4125/10699 [51:42<54:13,  2.02it/s] 39%|███▊      | 4126/10699 [51:42<54:18,  2.02it/s] 39%|███▊      | 4127/10699 [51:43<54:12,  2.02it/s] 39%|███▊      | 4128/10699 [51:43<54:10,  2.02it/s] 39%|███▊      | 4129/10699 [51:44<54:08,  2.02it/s] 39%|███▊      | 4130/10699 [51:44<54:09,  2.02it/s] 39%|███▊      | 4131/10699 [51:45<54:10,  2.02it/s] 39%|███▊      | 4132/10699 [51:45<54:09,  2.02it/s] 39%|███▊      | 4133/10699 [51:46<54:07,  2.02it/s] 39%|███▊      | 4134/10699 [51:46<54:08,  2.02it/s] 39%|███▊      | 4135/10699 [51:47<54:06,  2.02it/s] 39%|███▊      | 4136/10699 [51:47<54:04,  2.02it/s] 39%|███▊      | 4137/10699 [51:48<54:04,  2.02it/s] 39%|███▊      | 4138/10699 [51:48<54:02,  2.02it/s] 39%|███▊      | 4139/10699 [51:49<54:04,  2.02it/s] 39%|███▊      | 4140/10699 [51:49<54:06,  2.02it/s] 39%|███▊      | 4141/10699 [51:50<54:06,  2.02it/s] 39%|███▊      | 4142/10699 [51:50<54:03,  2.02it/s] 39%|███▊      | 4143/10699 [51:51<54:02,  2.02it/s] 39%|███▊      | 4144/10699 [51:51<53:59,  2.02it/s] 39%|███▊      | 4145/10699 [51:52<53:59,  2.02it/s] 39%|███▉      | 4146/10699 [51:52<53:57,  2.02it/s] 39%|███▉      | 4147/10699 [51:53<53:57,  2.02it/s] 39%|███▉      | 4148/10699 [51:53<53:55,  2.02it/s] 39%|███▉      | 4149/10699 [51:54<54:01,  2.02it/s] 39%|███▉      | 4150/10699 [51:54<53:57,  2.02it/s]{'loss': 3.8042, 'grad_norm': 0.20745229721069336, 'learning_rate': 0.0007680896771668263, 'epoch': 0.39}                                                    
- 39%|███▉      | 4150/10699 [51:54<53:57,  2.02it/s] 39%|███▉      | 4151/10699 [51:55<54:01,  2.02it/s] 39%|███▉      | 4152/10699 [51:55<53:58,  2.02it/s] 39%|███▉      | 4153/10699 [51:56<53:56,  2.02it/s] 39%|███▉      | 4154/10699 [51:56<53:53,  2.02it/s] 39%|███▉      | 4155/10699 [51:57<53:54,  2.02it/s] 39%|███▉      | 4156/10699 [51:57<53:58,  2.02it/s] 39%|███▉      | 4157/10699 [51:58<53:57,  2.02it/s] 39%|███▉      | 4158/10699 [51:58<53:56,  2.02it/s] 39%|███▉      | 4159/10699 [51:59<53:56,  2.02it/s] 39%|███▉      | 4160/10699 [51:59<53:54,  2.02it/s] 39%|███▉      | 4161/10699 [52:00<53:50,  2.02it/s] 39%|███▉      | 4162/10699 [52:00<53:49,  2.02it/s] 39%|███▉      | 4163/10699 [52:01<53:47,  2.02it/s] 39%|███▉      | 4164/10699 [52:01<53:46,  2.03it/s] 39%|███▉      | 4165/10699 [52:02<53:49,  2.02it/s] 39%|███▉      | 4166/10699 [52:02<53:50,  2.02it/s] 39%|███▉      | 4167/10699 [52:03<53:51,  2.02it/s] 39%|███▉      | 4168/10699 [52:03<53:50,  2.02it/s] 39%|███▉      | 4169/10699 [52:04<53:50,  2.02it/s] 39%|███▉      | 4170/10699 [52:04<53:47,  2.02it/s] 39%|███▉      | 4171/10699 [52:05<53:47,  2.02it/s] 39%|███▉      | 4172/10699 [52:05<53:41,  2.03it/s] 39%|███▉      | 4173/10699 [52:06<53:43,  2.02it/s] 39%|███▉      | 4174/10699 [52:06<53:41,  2.03it/s] 39%|███▉      | 4175/10699 [52:07<53:43,  2.02it/s]{'loss': 3.8021, 'grad_norm': 0.2050202488899231, 'learning_rate': 0.0007646382914411622, 'epoch': 0.39}                                                    
- 39%|███▉      | 4175/10699 [52:07<53:43,  2.02it/s] 39%|███▉      | 4176/10699 [52:07<53:45,  2.02it/s] 39%|███▉      | 4177/10699 [52:08<53:45,  2.02it/s] 39%|███▉      | 4178/10699 [52:08<53:45,  2.02it/s] 39%|███▉      | 4179/10699 [52:09<53:47,  2.02it/s] 39%|███▉      | 4180/10699 [52:09<53:45,  2.02it/s] 39%|███▉      | 4181/10699 [52:09<53:43,  2.02it/s] 39%|███▉      | 4182/10699 [52:10<53:43,  2.02it/s] 39%|███▉      | 4183/10699 [52:10<53:40,  2.02it/s] 39%|███▉      | 4184/10699 [52:11<53:42,  2.02it/s] 39%|███▉      | 4185/10699 [52:11<53:39,  2.02it/s] 39%|███▉      | 4186/10699 [52:12<53:40,  2.02it/s] 39%|███▉      | 4187/10699 [52:12<53:36,  2.02it/s] 39%|███▉      | 4188/10699 [52:13<53:38,  2.02it/s] 39%|███▉      | 4189/10699 [52:13<53:38,  2.02it/s] 39%|███▉      | 4190/10699 [52:14<53:37,  2.02it/s] 39%|███▉      | 4191/10699 [52:14<53:39,  2.02it/s] 39%|███▉      | 4192/10699 [52:15<53:34,  2.02it/s] 39%|███▉      | 4193/10699 [52:15<53:35,  2.02it/s] 39%|███▉      | 4194/10699 [52:16<53:30,  2.03it/s] 39%|███▉      | 4195/10699 [52:16<53:33,  2.02it/s] 39%|███▉      | 4196/10699 [52:17<53:32,  2.02it/s] 39%|███▉      | 4197/10699 [52:17<53:31,  2.02it/s] 39%|███▉      | 4198/10699 [52:18<53:33,  2.02it/s] 39%|███▉      | 4199/10699 [52:18<53:34,  2.02it/s] 39%|███▉      | 4200/10699 [52:19<53:32,  2.02it/s]                                                    {'loss': 3.8007, 'grad_norm': 0.20162351429462433, 'learning_rate': 0.0007611692994330187, 'epoch': 0.39}
- 39%|███▉      | 4200/10699 [52:19<53:32,  2.02it/s] 39%|███▉      | 4201/10699 [52:19<53:36,  2.02it/s] 39%|███▉      | 4202/10699 [52:20<53:35,  2.02it/s] 39%|███▉      | 4203/10699 [52:20<53:32,  2.02it/s] 39%|███▉      | 4204/10699 [52:21<53:30,  2.02it/s] 39%|███▉      | 4205/10699 [52:21<53:27,  2.02it/s] 39%|███▉      | 4206/10699 [52:22<53:28,  2.02it/s] 39%|███▉      | 4207/10699 [52:22<53:26,  2.02it/s] 39%|███▉      | 4208/10699 [52:23<53:27,  2.02it/s] 39%|███▉      | 4209/10699 [52:23<53:26,  2.02it/s] 39%|███▉      | 4210/10699 [52:24<53:25,  2.02it/s] 39%|███▉      | 4211/10699 [52:24<53:24,  2.02it/s] 39%|███▉      | 4212/10699 [52:25<53:28,  2.02it/s] 39%|███▉      | 4213/10699 [52:25<53:25,  2.02it/s] 39%|███▉      | 4214/10699 [52:26<53:25,  2.02it/s] 39%|███▉      | 4215/10699 [52:26<53:24,  2.02it/s] 39%|███▉      | 4216/10699 [52:27<53:23,  2.02it/s] 39%|███▉      | 4217/10699 [52:27<53:23,  2.02it/s] 39%|███▉      | 4218/10699 [52:28<53:23,  2.02it/s] 39%|███▉      | 4219/10699 [52:28<53:22,  2.02it/s] 39%|███▉      | 4220/10699 [52:29<53:17,  2.03it/s] 39%|███▉      | 4221/10699 [52:29<53:17,  2.03it/s] 39%|███▉      | 4222/10699 [52:30<53:17,  2.03it/s] 39%|███▉      | 4223/10699 [52:30<53:18,  2.02it/s] 39%|███▉      | 4224/10699 [52:31<53:15,  2.03it/s] 39%|███▉      | 4225/10699 [52:31<53:17,  2.02it/s]{'loss': 3.7964, 'grad_norm': 0.21755674481391907, 'learning_rate': 0.0007576829319330829, 'epoch': 0.39}
-                                                     39%|███▉      | 4225/10699 [52:31<53:17,  2.02it/s] 39%|███▉      | 4226/10699 [52:32<53:21,  2.02it/s] 40%|███▉      | 4227/10699 [52:32<53:21,  2.02it/s] 40%|███▉      | 4228/10699 [52:33<53:21,  2.02it/s] 40%|███▉      | 4229/10699 [52:33<53:15,  2.02it/s] 40%|███▉      | 4230/10699 [52:34<53:15,  2.02it/s] 40%|███▉      | 4231/10699 [52:34<53:12,  2.03it/s] 40%|███▉      | 4232/10699 [52:35<53:12,  2.03it/s] 40%|███▉      | 4233/10699 [52:35<53:14,  2.02it/s] 40%|███▉      | 4234/10699 [52:36<53:13,  2.02it/s] 40%|███▉      | 4235/10699 [52:36<53:14,  2.02it/s] 40%|███▉      | 4236/10699 [52:37<53:17,  2.02it/s] 40%|███▉      | 4237/10699 [52:37<53:12,  2.02it/s] 40%|███▉      | 4238/10699 [52:38<53:12,  2.02it/s] 40%|███▉      | 4239/10699 [52:38<53:12,  2.02it/s] 40%|███▉      | 4240/10699 [52:39<53:13,  2.02it/s] 40%|███▉      | 4241/10699 [52:39<53:08,  2.03it/s] 40%|███▉      | 4242/10699 [52:40<53:12,  2.02it/s] 40%|███▉      | 4243/10699 [52:40<53:11,  2.02it/s] 40%|███▉      | 4244/10699 [52:41<53:08,  2.02it/s] 40%|███▉      | 4245/10699 [52:41<53:09,  2.02it/s] 40%|███▉      | 4246/10699 [52:42<53:08,  2.02it/s] 40%|███▉      | 4247/10699 [52:42<53:11,  2.02it/s] 40%|███▉      | 4248/10699 [52:43<53:09,  2.02it/s] 40%|███▉      | 4249/10699 [52:43<53:11,  2.02it/s] 40%|███▉      | 4250/10699 [52:44<53:08,  2.02it/s]                                                    {'loss': 3.7925, 'grad_norm': 0.20414555072784424, 'learning_rate': 0.0007541794208880271, 'epoch': 0.4}
- 40%|███▉      | 4250/10699 [52:44<53:08,  2.02it/s] 40%|███▉      | 4251/10699 [52:44<53:13,  2.02it/s] 40%|███▉      | 4252/10699 [52:45<53:11,  2.02it/s] 40%|███▉      | 4253/10699 [52:45<53:09,  2.02it/s] 40%|███▉      | 4254/10699 [52:46<53:09,  2.02it/s] 40%|███▉      | 4255/10699 [52:46<53:05,  2.02it/s] 40%|███▉      | 4256/10699 [52:47<53:06,  2.02it/s] 40%|███▉      | 4257/10699 [52:47<53:06,  2.02it/s] 40%|███▉      | 4258/10699 [52:48<53:04,  2.02it/s] 40%|███▉      | 4259/10699 [52:48<53:05,  2.02it/s] 40%|███▉      | 4260/10699 [52:49<53:03,  2.02it/s] 40%|███▉      | 4261/10699 [52:49<53:00,  2.02it/s] 40%|███▉      | 4262/10699 [52:50<53:02,  2.02it/s] 40%|███▉      | 4263/10699 [52:50<52:57,  2.03it/s] 40%|███▉      | 4264/10699 [52:51<52:59,  2.02it/s] 40%|███▉      | 4265/10699 [52:51<52:57,  2.02it/s] 40%|███▉      | 4266/10699 [52:52<53:00,  2.02it/s] 40%|███▉      | 4267/10699 [52:52<52:59,  2.02it/s] 40%|███▉      | 4268/10699 [52:52<52:56,  2.02it/s] 40%|███▉      | 4269/10699 [52:53<52:57,  2.02it/s] 40%|███▉      | 4270/10699 [52:53<52:58,  2.02it/s] 40%|███▉      | 4271/10699 [52:54<52:57,  2.02it/s] 40%|███▉      | 4272/10699 [52:54<52:56,  2.02it/s] 40%|███▉      | 4273/10699 [52:55<52:56,  2.02it/s] 40%|███▉      | 4274/10699 [52:55<52:52,  2.03it/s] 40%|███▉      | 4275/10699 [52:56<52:55,  2.02it/s]                                                    {'loss': 3.7915, 'grad_norm': 0.21815109252929688, 'learning_rate': 0.0007506589993850767, 'epoch': 0.4}
- 40%|███▉      | 4275/10699 [52:56<52:55,  2.02it/s] 40%|███▉      | 4276/10699 [52:56<53:04,  2.02it/s] 40%|███▉      | 4277/10699 [52:57<53:01,  2.02it/s] 40%|███▉      | 4278/10699 [52:57<52:56,  2.02it/s] 40%|███▉      | 4279/10699 [52:58<52:58,  2.02it/s] 40%|████      | 4280/10699 [52:58<52:56,  2.02it/s] 40%|████      | 4281/10699 [52:59<52:55,  2.02it/s] 40%|████      | 4282/10699 [52:59<52:58,  2.02it/s] 40%|████      | 4283/10699 [53:00<52:55,  2.02it/s] 40%|████      | 4284/10699 [53:00<52:55,  2.02it/s] 40%|████      | 4285/10699 [53:01<52:54,  2.02it/s] 40%|████      | 4286/10699 [53:01<52:51,  2.02it/s] 40%|████      | 4287/10699 [53:02<52:53,  2.02it/s] 40%|████      | 4288/10699 [53:02<52:48,  2.02it/s] 40%|████      | 4289/10699 [53:03<52:49,  2.02it/s] 40%|████      | 4290/10699 [53:03<52:44,  2.03it/s] 40%|████      | 4291/10699 [53:04<52:46,  2.02it/s] 40%|████      | 4292/10699 [53:04<52:43,  2.03it/s] 40%|████      | 4293/10699 [53:05<52:45,  2.02it/s] 40%|████      | 4294/10699 [53:05<52:43,  2.02it/s] 40%|████      | 4295/10699 [53:06<52:46,  2.02it/s] 40%|████      | 4296/10699 [53:06<52:43,  2.02it/s] 40%|████      | 4297/10699 [53:07<52:46,  2.02it/s] 40%|████      | 4298/10699 [53:07<52:43,  2.02it/s] 40%|████      | 4299/10699 [53:08<52:44,  2.02it/s] 40%|████      | 4300/10699 [53:08<52:41,  2.02it/s]{'loss': 3.7928, 'grad_norm': 0.19667963683605194, 'learning_rate': 0.000747121901636504, 'epoch': 0.4}
-                                                     40%|████      | 4300/10699 [53:08<52:41,  2.02it/s] 40%|████      | 4301/10699 [53:09<52:46,  2.02it/s] 40%|████      | 4302/10699 [53:09<52:44,  2.02it/s] 40%|████      | 4303/10699 [53:10<52:43,  2.02it/s] 40%|████      | 4304/10699 [53:10<52:42,  2.02it/s] 40%|████      | 4305/10699 [53:11<52:38,  2.02it/s] 40%|████      | 4306/10699 [53:11<52:37,  2.02it/s] 40%|████      | 4307/10699 [53:12<52:36,  2.02it/s] 40%|████      | 4308/10699 [53:12<52:37,  2.02it/s] 40%|████      | 4309/10699 [53:13<52:37,  2.02it/s] 40%|████      | 4310/10699 [53:13<52:37,  2.02it/s] 40%|████      | 4311/10699 [53:14<52:37,  2.02it/s] 40%|████      | 4312/10699 [53:14<52:38,  2.02it/s] 40%|████      | 4313/10699 [53:15<52:36,  2.02it/s] 40%|████      | 4314/10699 [53:15<52:36,  2.02it/s] 40%|████      | 4315/10699 [53:16<52:38,  2.02it/s] 40%|████      | 4316/10699 [53:16<52:35,  2.02it/s] 40%|████      | 4317/10699 [53:17<52:36,  2.02it/s] 40%|████      | 4318/10699 [53:17<52:34,  2.02it/s] 40%|████      | 4319/10699 [53:18<52:31,  2.02it/s] 40%|████      | 4320/10699 [53:18<52:32,  2.02it/s] 40%|████      | 4321/10699 [53:19<52:33,  2.02it/s] 40%|████      | 4322/10699 [53:19<52:33,  2.02it/s] 40%|████      | 4323/10699 [53:20<52:31,  2.02it/s] 40%|████      | 4324/10699 [53:20<52:31,  2.02it/s] 40%|████      | 4325/10699 [53:21<52:30,  2.02it/s]                                                    {'loss': 3.7905, 'grad_norm': 0.19723016023635864, 'learning_rate': 0.0007435683629640441, 'epoch': 0.4}
- 40%|████      | 4325/10699 [53:21<52:30,  2.02it/s] 40%|████      | 4326/10699 [53:21<52:34,  2.02it/s] 40%|████      | 4327/10699 [53:22<52:34,  2.02it/s] 40%|████      | 4328/10699 [53:22<52:30,  2.02it/s] 40%|████      | 4329/10699 [53:23<52:32,  2.02it/s] 40%|████      | 4330/10699 [53:23<52:27,  2.02it/s] 40%|████      | 4331/10699 [53:24<52:28,  2.02it/s] 40%|████      | 4332/10699 [53:24<52:29,  2.02it/s] 40%|████      | 4333/10699 [53:25<52:27,  2.02it/s] 41%|████      | 4334/10699 [53:25<52:27,  2.02it/s] 41%|████      | 4335/10699 [53:26<52:28,  2.02it/s] 41%|████      | 4336/10699 [53:26<52:25,  2.02it/s] 41%|████      | 4337/10699 [53:27<52:28,  2.02it/s] 41%|████      | 4338/10699 [53:27<52:23,  2.02it/s] 41%|████      | 4339/10699 [53:28<52:23,  2.02it/s] 41%|████      | 4340/10699 [53:28<52:18,  2.03it/s] 41%|████      | 4341/10699 [53:29<52:19,  2.03it/s] 41%|████      | 4342/10699 [53:29<52:20,  2.02it/s] 41%|████      | 4343/10699 [53:30<52:19,  2.02it/s] 41%|████      | 4344/10699 [53:30<52:18,  2.02it/s] 41%|████      | 4345/10699 [53:31<52:14,  2.03it/s] 41%|████      | 4346/10699 [53:31<52:16,  2.03it/s] 41%|████      | 4347/10699 [53:32<52:15,  2.03it/s] 41%|████      | 4348/10699 [53:32<52:18,  2.02it/s] 41%|████      | 4349/10699 [53:33<52:17,  2.02it/s] 41%|████      | 4350/10699 [53:33<52:17,  2.02it/s]                                                    {'loss': 3.7912, 'grad_norm': 0.20539751648902893, 'learning_rate': 0.0007399986197832418, 'epoch': 0.41}
- 41%|████      | 4350/10699 [53:33<52:17,  2.02it/s] 41%|████      | 4351/10699 [53:34<52:16,  2.02it/s] 41%|████      | 4352/10699 [53:34<52:19,  2.02it/s] 41%|████      | 4353/10699 [53:35<52:15,  2.02it/s] 41%|████      | 4354/10699 [53:35<52:16,  2.02it/s] 41%|████      | 4355/10699 [53:36<52:15,  2.02it/s] 41%|████      | 4356/10699 [53:36<52:13,  2.02it/s] 41%|████      | 4357/10699 [53:36<52:14,  2.02it/s] 41%|████      | 4358/10699 [53:37<52:11,  2.02it/s] 41%|████      | 4359/10699 [53:37<52:16,  2.02it/s] 41%|████      | 4360/10699 [53:38<52:14,  2.02it/s] 41%|████      | 4361/10699 [53:38<52:14,  2.02it/s] 41%|████      | 4362/10699 [53:39<52:14,  2.02it/s] 41%|████      | 4363/10699 [53:39<52:14,  2.02it/s] 41%|████      | 4364/10699 [53:40<52:12,  2.02it/s] 41%|████      | 4365/10699 [53:40<52:09,  2.02it/s] 41%|████      | 4366/10699 [53:41<52:10,  2.02it/s] 41%|████      | 4367/10699 [53:41<52:07,  2.02it/s] 41%|████      | 4368/10699 [53:42<52:07,  2.02it/s] 41%|████      | 4369/10699 [53:42<52:09,  2.02it/s] 41%|████      | 4370/10699 [53:43<52:09,  2.02it/s] 41%|████      | 4371/10699 [53:43<52:10,  2.02it/s] 41%|████      | 4372/10699 [53:44<52:09,  2.02it/s] 41%|████      | 4373/10699 [53:44<52:09,  2.02it/s] 41%|████      | 4374/10699 [53:45<52:09,  2.02it/s] 41%|████      | 4375/10699 [53:45<52:09,  2.02it/s]{'loss': 3.7917, 'grad_norm': 0.20038796961307526, 'learning_rate': 0.0007364129095877206, 'epoch': 0.41}
-                                                     41%|████      | 4375/10699 [53:45<52:09,  2.02it/s] 41%|████      | 4376/10699 [53:46<52:10,  2.02it/s] 41%|████      | 4377/10699 [53:46<52:13,  2.02it/s] 41%|████      | 4378/10699 [53:47<52:10,  2.02it/s] 41%|████      | 4379/10699 [53:47<52:11,  2.02it/s] 41%|████      | 4380/10699 [53:48<52:07,  2.02it/s] 41%|████      | 4381/10699 [53:48<52:08,  2.02it/s] 41%|████      | 4382/10699 [53:49<52:05,  2.02it/s] 41%|████      | 4383/10699 [53:49<52:07,  2.02it/s] 41%|████      | 4384/10699 [53:50<52:04,  2.02it/s] 41%|████      | 4385/10699 [53:50<52:02,  2.02it/s] 41%|████      | 4386/10699 [53:51<52:02,  2.02it/s] 41%|████      | 4387/10699 [53:51<52:03,  2.02it/s] 41%|████      | 4388/10699 [53:52<52:03,  2.02it/s] 41%|████      | 4389/10699 [53:52<52:01,  2.02it/s] 41%|████      | 4390/10699 [53:53<51:59,  2.02it/s] 41%|████      | 4391/10699 [53:53<51:59,  2.02it/s] 41%|████      | 4392/10699 [53:54<51:59,  2.02it/s] 41%|████      | 4393/10699 [53:54<51:54,  2.02it/s] 41%|████      | 4394/10699 [53:55<51:56,  2.02it/s] 41%|████      | 4395/10699 [53:55<51:53,  2.03it/s] 41%|████      | 4396/10699 [53:56<51:54,  2.02it/s] 41%|████      | 4397/10699 [53:56<51:49,  2.03it/s] 41%|████      | 4398/10699 [53:57<51:52,  2.02it/s] 41%|████      | 4399/10699 [53:57<51:54,  2.02it/s] 41%|████      | 4400/10699 [53:58<51:54,  2.02it/s]{'loss': 3.7832, 'grad_norm': 0.2162647843360901, 'learning_rate': 0.0007328114709333832, 'epoch': 0.41}
-                                                     41%|████      | 4400/10699 [53:58<51:54,  2.02it/s] 41%|████      | 4401/10699 [53:58<52:00,  2.02it/s] 41%|████      | 4402/10699 [53:59<52:01,  2.02it/s] 41%|████      | 4403/10699 [53:59<51:56,  2.02it/s] 41%|████      | 4404/10699 [54:00<51:55,  2.02it/s] 41%|████      | 4405/10699 [54:00<51:53,  2.02it/s] 41%|████      | 4406/10699 [54:01<51:53,  2.02it/s] 41%|████      | 4407/10699 [54:01<51:49,  2.02it/s] 41%|████      | 4408/10699 [54:02<51:50,  2.02it/s] 41%|████      | 4409/10699 [54:02<51:49,  2.02it/s] 41%|████      | 4410/10699 [54:03<51:52,  2.02it/s] 41%|████      | 4411/10699 [54:03<51:49,  2.02it/s] 41%|████      | 4412/10699 [54:04<51:53,  2.02it/s] 41%|████      | 4413/10699 [54:04<51:47,  2.02it/s] 41%|████▏     | 4414/10699 [54:05<51:47,  2.02it/s] 41%|████▏     | 4415/10699 [54:05<51:44,  2.02it/s] 41%|████▏     | 4416/10699 [54:06<51:44,  2.02it/s] 41%|████▏     | 4417/10699 [54:06<51:44,  2.02it/s] 41%|████▏     | 4418/10699 [54:07<51:45,  2.02it/s] 41%|████▏     | 4419/10699 [54:07<51:45,  2.02it/s] 41%|████▏     | 4420/10699 [54:08<51:44,  2.02it/s] 41%|████▏     | 4421/10699 [54:08<51:42,  2.02it/s] 41%|████▏     | 4422/10699 [54:09<51:45,  2.02it/s] 41%|████▏     | 4423/10699 [54:09<51:42,  2.02it/s] 41%|████▏     | 4424/10699 [54:10<51:40,  2.02it/s] 41%|████▏     | 4425/10699 [54:10<51:44,  2.02it/s]{'loss': 3.7807, 'grad_norm': 0.2057647407054901, 'learning_rate': 0.0007291945434225414, 'epoch': 0.41}                                                    
- 41%|████▏     | 4425/10699 [54:10<51:44,  2.02it/s] 41%|████▏     | 4426/10699 [54:11<51:44,  2.02it/s] 41%|████▏     | 4427/10699 [54:11<51:44,  2.02it/s] 41%|████▏     | 4428/10699 [54:12<51:42,  2.02it/s] 41%|████▏     | 4429/10699 [54:12<51:42,  2.02it/s] 41%|████▏     | 4430/10699 [54:13<51:42,  2.02it/s] 41%|████▏     | 4431/10699 [54:13<51:42,  2.02it/s] 41%|████▏     | 4432/10699 [54:14<51:41,  2.02it/s] 41%|████▏     | 4433/10699 [54:14<51:39,  2.02it/s] 41%|████▏     | 4434/10699 [54:15<51:34,  2.02it/s] 41%|████▏     | 4435/10699 [54:15<51:35,  2.02it/s] 41%|████▏     | 4436/10699 [54:16<51:33,  2.02it/s] 41%|████▏     | 4437/10699 [54:16<51:35,  2.02it/s] 41%|████▏     | 4438/10699 [54:17<51:37,  2.02it/s] 41%|████▏     | 4439/10699 [54:17<51:36,  2.02it/s] 41%|████▏     | 4440/10699 [54:18<51:34,  2.02it/s] 42%|████▏     | 4441/10699 [54:18<51:34,  2.02it/s] 42%|████▏     | 4442/10699 [54:19<51:33,  2.02it/s] 42%|████▏     | 4443/10699 [54:19<51:30,  2.02it/s] 42%|████▏     | 4444/10699 [54:20<51:29,  2.02it/s] 42%|████▏     | 4445/10699 [54:20<51:29,  2.02it/s] 42%|████▏     | 4446/10699 [54:21<51:34,  2.02it/s] 42%|████▏     | 4447/10699 [54:21<51:32,  2.02it/s] 42%|████▏     | 4448/10699 [54:22<51:36,  2.02it/s] 42%|████▏     | 4449/10699 [54:22<51:35,  2.02it/s] 42%|████▏     | 4450/10699 [54:22<51:35,  2.02it/s]                                                    {'loss': 3.7878, 'grad_norm': 0.2033611685037613, 'learning_rate': 0.0007255623676879739, 'epoch': 0.42}
- 42%|████▏     | 4450/10699 [54:22<51:35,  2.02it/s] 42%|████▏     | 4451/10699 [54:23<51:35,  2.02it/s] 42%|████▏     | 4452/10699 [54:23<51:36,  2.02it/s] 42%|████▏     | 4453/10699 [54:24<51:31,  2.02it/s] 42%|████▏     | 4454/10699 [54:24<51:28,  2.02it/s] 42%|████▏     | 4455/10699 [54:25<51:27,  2.02it/s] 42%|████▏     | 4456/10699 [54:25<51:26,  2.02it/s] 42%|████▏     | 4457/10699 [54:26<51:24,  2.02it/s] 42%|████▏     | 4458/10699 [54:26<51:21,  2.03it/s] 42%|████▏     | 4459/10699 [54:27<51:23,  2.02it/s] 42%|████▏     | 4460/10699 [54:27<51:21,  2.02it/s] 42%|████▏     | 4461/10699 [54:28<51:21,  2.02it/s] 42%|████▏     | 4462/10699 [54:28<51:19,  2.03it/s] 42%|████▏     | 4463/10699 [54:29<51:17,  2.03it/s] 42%|████▏     | 4464/10699 [54:29<51:19,  2.02it/s] 42%|████▏     | 4465/10699 [54:30<51:17,  2.03it/s] 42%|████▏     | 4466/10699 [54:30<51:21,  2.02it/s] 42%|████▏     | 4467/10699 [54:31<51:21,  2.02it/s] 42%|████▏     | 4468/10699 [54:31<51:23,  2.02it/s] 42%|████▏     | 4469/10699 [54:32<51:19,  2.02it/s] 42%|████▏     | 4470/10699 [54:32<51:19,  2.02it/s] 42%|████▏     | 4471/10699 [54:33<51:19,  2.02it/s] 42%|████▏     | 4472/10699 [54:33<51:21,  2.02it/s] 42%|████▏     | 4473/10699 [54:34<51:21,  2.02it/s] 42%|████▏     | 4474/10699 [54:34<51:22,  2.02it/s] 42%|████▏     | 4475/10699 [54:35<51:19,  2.02it/s]                                                    {'loss': 3.7843, 'grad_norm': 0.19869357347488403, 'learning_rate': 0.0007219151853769178, 'epoch': 0.42}
- 42%|████▏     | 4475/10699 [54:35<51:19,  2.02it/s] 42%|████▏     | 4476/10699 [54:35<51:24,  2.02it/s] 42%|████▏     | 4477/10699 [54:36<51:27,  2.02it/s] 42%|████▏     | 4478/10699 [54:36<51:22,  2.02it/s] 42%|████▏     | 4479/10699 [54:37<51:19,  2.02it/s] 42%|████▏     | 4480/10699 [54:37<51:17,  2.02it/s] 42%|████▏     | 4481/10699 [54:38<51:15,  2.02it/s] 42%|████▏     | 4482/10699 [54:38<51:13,  2.02it/s] 42%|████▏     | 4483/10699 [54:39<51:13,  2.02it/s] 42%|████▏     | 4484/10699 [54:39<51:12,  2.02it/s] 42%|████▏     | 4485/10699 [54:40<51:12,  2.02it/s] 42%|████▏     | 4486/10699 [54:40<51:16,  2.02it/s] 42%|████▏     | 4487/10699 [54:41<51:10,  2.02it/s] 42%|████▏     | 4488/10699 [54:41<51:11,  2.02it/s] 42%|████▏     | 4489/10699 [54:42<51:10,  2.02it/s] 42%|████▏     | 4490/10699 [54:42<51:12,  2.02it/s] 42%|████▏     | 4491/10699 [54:43<51:09,  2.02it/s] 42%|████▏     | 4492/10699 [54:43<51:09,  2.02it/s] 42%|████▏     | 4493/10699 [54:44<51:08,  2.02it/s] 42%|████▏     | 4494/10699 [54:44<51:07,  2.02it/s] 42%|████▏     | 4495/10699 [54:45<51:07,  2.02it/s] 42%|████▏     | 4496/10699 [54:45<51:09,  2.02it/s] 42%|████▏     | 4497/10699 [54:46<51:07,  2.02it/s] 42%|████▏     | 4498/10699 [54:46<51:05,  2.02it/s] 42%|████▏     | 4499/10699 [54:47<51:05,  2.02it/s] 42%|████▏     | 4500/10699 [54:47<51:06,  2.02it/s]                                                    {'loss': 3.7866, 'grad_norm': 0.2203616499900818, 'learning_rate': 0.0007182532391349922, 'epoch': 0.42}
- 42%|████▏     | 4500/10699 [54:47<51:06,  2.02it/s] 42%|████▏     | 4501/10699 [54:48<51:11,  2.02it/s] 42%|████▏     | 4502/10699 [54:48<51:04,  2.02it/s] 42%|████▏     | 4503/10699 [54:49<51:05,  2.02it/s] 42%|████▏     | 4504/10699 [54:49<51:00,  2.02it/s] 42%|████▏     | 4505/10699 [54:50<51:00,  2.02it/s] 42%|████▏     | 4506/10699 [54:50<51:02,  2.02it/s] 42%|████▏     | 4507/10699 [54:51<51:00,  2.02it/s] 42%|████▏     | 4508/10699 [54:51<51:02,  2.02it/s] 42%|████▏     | 4509/10699 [54:52<50:59,  2.02it/s] 42%|████▏     | 4510/10699 [54:52<51:01,  2.02it/s] 42%|████▏     | 4511/10699 [54:53<51:02,  2.02it/s] 42%|████▏     | 4512/10699 [54:53<50:58,  2.02it/s] 42%|████▏     | 4513/10699 [54:54<50:58,  2.02it/s] 42%|████▏     | 4514/10699 [54:54<50:54,  2.02it/s] 42%|████▏     | 4515/10699 [54:55<50:55,  2.02it/s] 42%|████▏     | 4516/10699 [54:55<50:56,  2.02it/s] 42%|████▏     | 4517/10699 [54:56<50:55,  2.02it/s] 42%|████▏     | 4518/10699 [54:56<50:58,  2.02it/s] 42%|████▏     | 4519/10699 [54:57<50:58,  2.02it/s] 42%|████▏     | 4520/10699 [54:57<50:59,  2.02it/s] 42%|████▏     | 4521/10699 [54:58<50:55,  2.02it/s] 42%|████▏     | 4522/10699 [54:58<50:56,  2.02it/s] 42%|████▏     | 4523/10699 [54:59<50:56,  2.02it/s] 42%|████▏     | 4524/10699 [54:59<50:56,  2.02it/s] 42%|████▏     | 4525/10699 [55:00<50:53,  2.02it/s]                                                    {'loss': 3.7855, 'grad_norm': 0.20902983844280243, 'learning_rate': 0.0007145767725900546, 'epoch': 0.42}
- 42%|████▏     | 4525/10699 [55:00<50:53,  2.02it/s] 42%|████▏     | 4526/10699 [55:00<50:59,  2.02it/s] 42%|████▏     | 4527/10699 [55:01<50:54,  2.02it/s] 42%|████▏     | 4528/10699 [55:01<50:54,  2.02it/s] 42%|████▏     | 4529/10699 [55:02<50:52,  2.02it/s] 42%|████▏     | 4530/10699 [55:02<50:50,  2.02it/s] 42%|████▏     | 4531/10699 [55:03<50:49,  2.02it/s] 42%|████▏     | 4532/10699 [55:03<50:53,  2.02it/s] 42%|████▏     | 4533/10699 [55:04<50:50,  2.02it/s] 42%|████▏     | 4534/10699 [55:04<50:49,  2.02it/s] 42%|████▏     | 4535/10699 [55:05<50:49,  2.02it/s] 42%|████▏     | 4536/10699 [55:05<50:49,  2.02it/s] 42%|████▏     | 4537/10699 [55:06<50:47,  2.02it/s] 42%|████▏     | 4538/10699 [55:06<50:51,  2.02it/s] 42%|████▏     | 4539/10699 [55:07<50:47,  2.02it/s] 42%|████▏     | 4540/10699 [55:07<50:46,  2.02it/s] 42%|████▏     | 4541/10699 [55:08<50:45,  2.02it/s] 42%|████▏     | 4542/10699 [55:08<50:45,  2.02it/s] 42%|████▏     | 4543/10699 [55:08<50:44,  2.02it/s] 42%|████▏     | 4544/10699 [55:09<50:42,  2.02it/s] 42%|████▏     | 4545/10699 [55:09<50:41,  2.02it/s] 42%|████▏     | 4546/10699 [55:10<50:40,  2.02it/s] 42%|████▏     | 4547/10699 [55:10<50:38,  2.02it/s] 43%|████▎     | 4548/10699 [55:11<50:34,  2.03it/s] 43%|████▎     | 4549/10699 [55:11<50:36,  2.03it/s] 43%|████▎     | 4550/10699 [55:12<50:36,  2.02it/s]                                                    {'loss': 3.7769, 'grad_norm': 0.21486236155033112, 'learning_rate': 0.0007108860303359925, 'epoch': 0.43}
- 43%|████▎     | 4550/10699 [55:12<50:36,  2.02it/s] 43%|████▎     | 4551/10699 [55:12<50:42,  2.02it/s] 43%|████▎     | 4552/10699 [55:13<50:37,  2.02it/s] 43%|████▎     | 4553/10699 [55:13<50:40,  2.02it/s] 43%|████▎     | 4554/10699 [55:14<50:39,  2.02it/s] 43%|████▎     | 4555/10699 [55:14<50:41,  2.02it/s] 43%|████▎     | 4556/10699 [55:15<50:39,  2.02it/s] 43%|████▎     | 4557/10699 [55:15<50:41,  2.02it/s] 43%|████▎     | 4558/10699 [55:16<50:37,  2.02it/s] 43%|████▎     | 4559/10699 [55:16<50:36,  2.02it/s] 43%|████▎     | 4560/10699 [55:17<50:32,  2.02it/s] 43%|████▎     | 4561/10699 [55:17<50:34,  2.02it/s] 43%|████▎     | 4562/10699 [55:18<50:31,  2.02it/s] 43%|████▎     | 4563/10699 [55:18<50:30,  2.02it/s] 43%|████▎     | 4564/10699 [55:19<50:31,  2.02it/s] 43%|████▎     | 4565/10699 [55:19<50:30,  2.02it/s] 43%|████▎     | 4566/10699 [55:20<50:31,  2.02it/s] 43%|████▎     | 4567/10699 [55:20<50:26,  2.03it/s] 43%|████▎     | 4568/10699 [55:21<50:29,  2.02it/s] 43%|████▎     | 4569/10699 [55:21<50:26,  2.03it/s] 43%|████▎     | 4570/10699 [55:22<50:28,  2.02it/s] 43%|████▎     | 4571/10699 [55:22<50:25,  2.03it/s] 43%|████▎     | 4572/10699 [55:23<50:25,  2.03it/s] 43%|████▎     | 4573/10699 [55:23<50:25,  2.02it/s] 43%|████▎     | 4574/10699 [55:24<50:20,  2.03it/s] 43%|████▎     | 4575/10699 [55:24<50:26,  2.02it/s]                                                    {'loss': 3.7794, 'grad_norm': 0.19981123507022858, 'learning_rate': 0.000707181257916451, 'epoch': 0.43}
- 43%|████▎     | 4575/10699 [55:24<50:26,  2.02it/s] 43%|████▎     | 4576/10699 [55:25<50:25,  2.02it/s] 43%|████▎     | 4577/10699 [55:25<50:24,  2.02it/s] 43%|████▎     | 4578/10699 [55:26<50:25,  2.02it/s] 43%|████▎     | 4579/10699 [55:26<50:25,  2.02it/s] 43%|████▎     | 4580/10699 [55:27<50:24,  2.02it/s] 43%|████▎     | 4581/10699 [55:27<50:24,  2.02it/s] 43%|████▎     | 4582/10699 [55:28<50:25,  2.02it/s] 43%|████▎     | 4583/10699 [55:28<50:24,  2.02it/s] 43%|████▎     | 4584/10699 [55:29<50:23,  2.02it/s] 43%|████▎     | 4585/10699 [55:29<50:24,  2.02it/s] 43%|████▎     | 4586/10699 [55:30<50:26,  2.02it/s] 43%|████▎     | 4587/10699 [55:30<50:24,  2.02it/s] 43%|████▎     | 4588/10699 [55:31<50:24,  2.02it/s] 43%|████▎     | 4589/10699 [55:31<50:20,  2.02it/s] 43%|████▎     | 4590/10699 [55:32<50:21,  2.02it/s] 43%|████▎     | 4591/10699 [55:32<50:18,  2.02it/s] 43%|████▎     | 4592/10699 [55:33<50:18,  2.02it/s] 43%|████▎     | 4593/10699 [55:33<50:17,  2.02it/s] 43%|████▎     | 4594/10699 [55:34<50:17,  2.02it/s] 43%|████▎     | 4595/10699 [55:34<50:19,  2.02it/s] 43%|████▎     | 4596/10699 [55:35<50:17,  2.02it/s] 43%|████▎     | 4597/10699 [55:35<50:14,  2.02it/s] 43%|████▎     | 4598/10699 [55:36<50:12,  2.03it/s] 43%|████▎     | 4599/10699 [55:36<50:13,  2.02it/s] 43%|████▎     | 4600/10699 [55:37<50:13,  2.02it/s]                                                    {'loss': 3.7777, 'grad_norm': 0.21825231611728668, 'learning_rate': 0.0007034627018084965, 'epoch': 0.43}
- 43%|████▎     | 4600/10699 [55:37<50:13,  2.02it/s] 43%|████▎     | 4601/10699 [55:37<50:15,  2.02it/s] 43%|████▎     | 4602/10699 [55:38<50:14,  2.02it/s] 43%|████▎     | 4603/10699 [55:38<50:12,  2.02it/s] 43%|████▎     | 4604/10699 [55:39<50:12,  2.02it/s] 43%|████▎     | 4605/10699 [55:39<50:11,  2.02it/s] 43%|████▎     | 4606/10699 [55:40<50:16,  2.02it/s] 43%|████▎     | 4607/10699 [55:40<50:14,  2.02it/s] 43%|████▎     | 4608/10699 [55:41<50:14,  2.02it/s] 43%|████▎     | 4609/10699 [55:41<50:15,  2.02it/s] 43%|████▎     | 4610/10699 [55:42<50:13,  2.02it/s] 43%|████▎     | 4611/10699 [55:42<50:15,  2.02it/s] 43%|████▎     | 4612/10699 [55:43<50:09,  2.02it/s] 43%|████▎     | 4613/10699 [55:43<50:09,  2.02it/s] 43%|████▎     | 4614/10699 [55:44<50:09,  2.02it/s] 43%|████▎     | 4615/10699 [55:44<50:06,  2.02it/s] 43%|████▎     | 4616/10699 [55:45<50:09,  2.02it/s] 43%|████▎     | 4617/10699 [55:45<50:07,  2.02it/s] 43%|████▎     | 4618/10699 [55:46<50:09,  2.02it/s] 43%|████▎     | 4619/10699 [55:46<50:06,  2.02it/s] 43%|████▎     | 4620/10699 [55:47<50:08,  2.02it/s] 43%|████▎     | 4621/10699 [55:47<50:05,  2.02it/s] 43%|████▎     | 4622/10699 [55:48<50:07,  2.02it/s] 43%|████▎     | 4623/10699 [55:48<50:01,  2.02it/s] 43%|████▎     | 4624/10699 [55:49<50:01,  2.02it/s] 43%|████▎     | 4625/10699 [55:49<49:59,  2.03it/s]{'loss': 3.7709, 'grad_norm': 0.19376522302627563, 'learning_rate': 0.000699730609406219, 'epoch': 0.43}
-                                                     43%|████▎     | 4625/10699 [55:49<49:59,  2.03it/s] 43%|████▎     | 4626/10699 [55:50<50:09,  2.02it/s] 43%|████▎     | 4627/10699 [55:50<50:04,  2.02it/s] 43%|████▎     | 4628/10699 [55:51<50:04,  2.02it/s] 43%|████▎     | 4629/10699 [55:51<50:00,  2.02it/s] 43%|████▎     | 4630/10699 [55:52<50:04,  2.02it/s] 43%|████▎     | 4631/10699 [55:52<50:00,  2.02it/s] 43%|████▎     | 4632/10699 [55:53<58:24,  1.73it/s] 43%|████▎     | 4633/10699 [55:53<55:56,  1.81it/s] 43%|████▎     | 4634/10699 [55:54<54:07,  1.87it/s] 43%|████▎     | 4635/10699 [55:54<52:55,  1.91it/s] 43%|████▎     | 4636/10699 [55:55<52:00,  1.94it/s] 43%|████▎     | 4637/10699 [55:55<51:21,  1.97it/s] 43%|████▎     | 4638/10699 [55:56<50:55,  1.98it/s] 43%|████▎     | 4639/10699 [55:56<50:38,  1.99it/s] 43%|████▎     | 4640/10699 [55:57<50:26,  2.00it/s] 43%|████▎     | 4641/10699 [55:57<50:14,  2.01it/s] 43%|████▎     | 4642/10699 [55:58<50:09,  2.01it/s] 43%|████▎     | 4643/10699 [55:58<50:02,  2.02it/s] 43%|████▎     | 4644/10699 [55:59<49:56,  2.02it/s] 43%|████▎     | 4645/10699 [55:59<49:55,  2.02it/s] 43%|████▎     | 4646/10699 [56:00<49:51,  2.02it/s] 43%|████▎     | 4647/10699 [56:00<49:49,  2.02it/s] 43%|████▎     | 4648/10699 [56:01<49:52,  2.02it/s] 43%|████▎     | 4649/10699 [56:01<49:48,  2.02it/s] 43%|████▎     | 4650/10699 [56:02<49:48,  2.02it/s]{'loss': 3.7714, 'grad_norm': 0.21024130284786224, 'learning_rate': 0.0006959852290042727, 'epoch': 0.43}
-                                                     43%|████▎     | 4650/10699 [56:02<49:48,  2.02it/s] 43%|████▎     | 4651/10699 [56:02<58:16,  1.73it/s] 43%|████▎     | 4652/10699 [56:03<55:40,  1.81it/s] 43%|████▎     | 4653/10699 [56:03<53:56,  1.87it/s] 43%|████▎     | 4654/10699 [56:04<52:37,  1.91it/s] 44%|████▎     | 4655/10699 [56:04<51:46,  1.95it/s] 44%|████▎     | 4656/10699 [56:05<51:09,  1.97it/s] 44%|████▎     | 4657/10699 [56:05<50:44,  1.98it/s] 44%|████▎     | 4658/10699 [56:06<50:26,  2.00it/s] 44%|████▎     | 4659/10699 [56:06<50:11,  2.01it/s] 44%|████▎     | 4660/10699 [56:07<50:05,  2.01it/s] 44%|████▎     | 4661/10699 [56:07<50:04,  2.01it/s] 44%|████▎     | 4662/10699 [56:08<49:58,  2.01it/s] 44%|████▎     | 4663/10699 [56:08<49:51,  2.02it/s] 44%|████▎     | 4664/10699 [56:09<49:51,  2.02it/s] 44%|████▎     | 4665/10699 [56:09<49:47,  2.02it/s] 44%|████▎     | 4666/10699 [56:10<49:46,  2.02it/s] 44%|████▎     | 4667/10699 [56:10<49:43,  2.02it/s] 44%|████▎     | 4668/10699 [56:11<49:45,  2.02it/s] 44%|████▎     | 4669/10699 [56:11<49:40,  2.02it/s] 44%|████▎     | 4670/10699 [56:12<49:41,  2.02it/s] 44%|████▎     | 4671/10699 [56:12<49:41,  2.02it/s] 44%|████▎     | 4672/10699 [56:13<49:42,  2.02it/s] 44%|████▎     | 4673/10699 [56:13<49:36,  2.02it/s] 44%|████▎     | 4674/10699 [56:14<49:38,  2.02it/s] 44%|████▎     | 4675/10699 [56:14<49:36,  2.02it/s]{'loss': 3.775, 'grad_norm': 0.21032382547855377, 'learning_rate': 0.0006922268097813571, 'epoch': 0.44}
-                                                     44%|████▎     | 4675/10699 [56:14<49:36,  2.02it/s] 44%|████▎     | 4676/10699 [56:15<49:42,  2.02it/s] 44%|████▎     | 4677/10699 [56:15<49:39,  2.02it/s] 44%|████▎     | 4678/10699 [56:16<49:40,  2.02it/s] 44%|████▎     | 4679/10699 [56:16<49:36,  2.02it/s] 44%|████▎     | 4680/10699 [56:17<49:35,  2.02it/s] 44%|████▍     | 4681/10699 [56:17<49:33,  2.02it/s] 44%|████▍     | 4682/10699 [56:18<49:32,  2.02it/s] 44%|████▍     | 4683/10699 [56:18<49:33,  2.02it/s] 44%|████▍     | 4684/10699 [56:19<49:30,  2.03it/s] 44%|████▍     | 4685/10699 [56:19<49:31,  2.02it/s] 44%|████▍     | 4686/10699 [56:20<49:28,  2.03it/s] 44%|████▍     | 4687/10699 [56:20<49:31,  2.02it/s] 44%|████▍     | 4688/10699 [56:21<49:24,  2.03it/s] 44%|████▍     | 4689/10699 [56:21<49:28,  2.02it/s] 44%|████▍     | 4690/10699 [56:22<49:25,  2.03it/s] 44%|████▍     | 4691/10699 [56:22<49:25,  2.03it/s] 44%|████▍     | 4692/10699 [56:23<49:28,  2.02it/s] 44%|████▍     | 4693/10699 [56:23<49:28,  2.02it/s] 44%|████▍     | 4694/10699 [56:24<49:26,  2.02it/s] 44%|████▍     | 4695/10699 [56:24<49:23,  2.03it/s] 44%|████▍     | 4696/10699 [56:25<49:24,  2.03it/s] 44%|████▍     | 4697/10699 [56:25<49:23,  2.03it/s] 44%|████▍     | 4698/10699 [56:26<49:23,  2.02it/s] 44%|████▍     | 4699/10699 [56:26<49:24,  2.02it/s] 44%|████▍     | 4700/10699 [56:27<49:25,  2.02it/s]{'loss': 3.7629, 'grad_norm': 0.19689913094043732, 'learning_rate': 0.0006884556017836397, 'epoch': 0.44}                                                    
- 44%|████▍     | 4700/10699 [56:27<49:25,  2.02it/s] 44%|████▍     | 4701/10699 [56:27<49:26,  2.02it/s] 44%|████▍     | 4702/10699 [56:28<49:29,  2.02it/s] 44%|████▍     | 4703/10699 [56:28<49:24,  2.02it/s] 44%|████▍     | 4704/10699 [56:29<49:24,  2.02it/s] 44%|████▍     | 4705/10699 [56:29<49:23,  2.02it/s] 44%|████▍     | 4706/10699 [56:30<49:20,  2.02it/s] 44%|████▍     | 4707/10699 [56:30<49:21,  2.02it/s] 44%|████▍     | 4708/10699 [56:31<49:20,  2.02it/s] 44%|████▍     | 4709/10699 [56:31<49:23,  2.02it/s] 44%|████▍     | 4710/10699 [56:32<49:21,  2.02it/s] 44%|████▍     | 4711/10699 [56:32<49:23,  2.02it/s] 44%|████▍     | 4712/10699 [56:33<49:22,  2.02it/s] 44%|████▍     | 4713/10699 [56:33<49:23,  2.02it/s] 44%|████▍     | 4714/10699 [56:34<49:20,  2.02it/s] 44%|████▍     | 4715/10699 [56:34<49:19,  2.02it/s] 44%|████▍     | 4716/10699 [56:35<49:16,  2.02it/s] 44%|████▍     | 4717/10699 [56:35<49:15,  2.02it/s] 44%|████▍     | 4718/10699 [56:36<49:14,  2.02it/s] 44%|████▍     | 4719/10699 [56:36<49:13,  2.02it/s] 44%|████▍     | 4720/10699 [56:37<49:14,  2.02it/s] 44%|████▍     | 4721/10699 [56:37<49:14,  2.02it/s] 44%|████▍     | 4722/10699 [56:38<49:17,  2.02it/s] 44%|████▍     | 4723/10699 [56:38<49:15,  2.02it/s] 44%|████▍     | 4724/10699 [56:39<49:12,  2.02it/s] 44%|████▍     | 4725/10699 [56:39<49:11,  2.02it/s]{'loss': 3.7751, 'grad_norm': 0.203115314245224, 'learning_rate': 0.00068467185590812, 'epoch': 0.44}
-                                                     44%|████▍     | 4725/10699 [56:39<49:11,  2.02it/s] 44%|████▍     | 4726/10699 [56:40<49:14,  2.02it/s] 44%|████▍     | 4727/10699 [56:40<49:16,  2.02it/s] 44%|████▍     | 4728/10699 [56:41<49:15,  2.02it/s] 44%|████▍     | 4729/10699 [56:41<49:12,  2.02it/s] 44%|████▍     | 4730/10699 [56:41<49:09,  2.02it/s] 44%|████▍     | 4731/10699 [56:42<49:10,  2.02it/s] 44%|████▍     | 4732/10699 [56:42<49:06,  2.03it/s] 44%|████▍     | 4733/10699 [56:43<49:08,  2.02it/s] 44%|████▍     | 4734/10699 [56:43<49:06,  2.02it/s] 44%|████▍     | 4735/10699 [56:44<49:02,  2.03it/s] 44%|████▍     | 4736/10699 [56:44<49:06,  2.02it/s] 44%|████▍     | 4737/10699 [56:45<49:05,  2.02it/s] 44%|████▍     | 4738/10699 [56:45<49:07,  2.02it/s] 44%|████▍     | 4739/10699 [56:46<49:03,  2.02it/s] 44%|████▍     | 4740/10699 [56:46<49:04,  2.02it/s] 44%|████▍     | 4741/10699 [56:47<49:05,  2.02it/s] 44%|████▍     | 4742/10699 [56:47<49:06,  2.02it/s] 44%|████▍     | 4743/10699 [56:48<49:04,  2.02it/s] 44%|████▍     | 4744/10699 [56:48<49:01,  2.02it/s] 44%|████▍     | 4745/10699 [56:49<49:01,  2.02it/s] 44%|████▍     | 4746/10699 [56:49<49:00,  2.02it/s] 44%|████▍     | 4747/10699 [56:50<49:00,  2.02it/s] 44%|████▍     | 4748/10699 [56:50<48:59,  2.02it/s] 44%|████▍     | 4749/10699 [56:51<49:00,  2.02it/s] 44%|████▍     | 4750/10699 [56:51<48:59,  2.02it/s]{'loss': 3.7642, 'grad_norm': 0.20545634627342224, 'learning_rate': 0.0006808758238859379, 'epoch': 0.44}                                                    
- 44%|████▍     | 4750/10699 [56:51<48:59,  2.02it/s] 44%|████▍     | 4751/10699 [56:52<49:06,  2.02it/s] 44%|████▍     | 4752/10699 [56:52<49:05,  2.02it/s] 44%|████▍     | 4753/10699 [56:53<49:03,  2.02it/s] 44%|████▍     | 4754/10699 [56:53<49:01,  2.02it/s] 44%|████▍     | 4755/10699 [56:54<49:03,  2.02it/s] 44%|████▍     | 4756/10699 [56:54<48:59,  2.02it/s] 44%|████▍     | 4757/10699 [56:55<49:00,  2.02it/s] 44%|████▍     | 4758/10699 [56:55<48:58,  2.02it/s] 44%|████▍     | 4759/10699 [56:56<48:59,  2.02it/s] 44%|████▍     | 4760/10699 [56:56<48:54,  2.02it/s] 44%|████▍     | 4761/10699 [56:57<48:54,  2.02it/s] 45%|████▍     | 4762/10699 [56:57<48:54,  2.02it/s] 45%|████▍     | 4763/10699 [56:58<48:53,  2.02it/s] 45%|████▍     | 4764/10699 [56:58<48:51,  2.02it/s] 45%|████▍     | 4765/10699 [56:59<48:48,  2.03it/s] 45%|████▍     | 4766/10699 [56:59<48:51,  2.02it/s] 45%|████▍     | 4767/10699 [57:00<48:47,  2.03it/s] 45%|████▍     | 4768/10699 [57:00<48:50,  2.02it/s] 45%|████▍     | 4769/10699 [57:01<48:45,  2.03it/s] 45%|████▍     | 4770/10699 [57:01<48:45,  2.03it/s] 45%|████▍     | 4771/10699 [57:02<48:46,  2.03it/s] 45%|████▍     | 4772/10699 [57:02<48:45,  2.03it/s] 45%|████▍     | 4773/10699 [57:03<48:47,  2.02it/s] 45%|████▍     | 4774/10699 [57:03<48:42,  2.03it/s] 45%|████▍     | 4775/10699 [57:04<48:42,  2.03it/s]                                                    {'loss': 3.7637, 'grad_norm': 0.1967422068119049, 'learning_rate': 0.0006770677582656256, 'epoch': 0.45}
- 45%|████▍     | 4775/10699 [57:04<48:42,  2.03it/s] 45%|████▍     | 4776/10699 [57:04<49:04,  2.01it/s] 45%|████▍     | 4777/10699 [57:05<49:04,  2.01it/s] 45%|████▍     | 4778/10699 [57:05<48:57,  2.02it/s] 45%|████▍     | 4779/10699 [57:06<48:55,  2.02it/s] 45%|████▍     | 4780/10699 [57:06<48:50,  2.02it/s] 45%|████▍     | 4781/10699 [57:07<48:47,  2.02it/s] 45%|████▍     | 4782/10699 [57:07<48:46,  2.02it/s] 45%|████▍     | 4783/10699 [57:08<48:42,  2.02it/s] 45%|████▍     | 4784/10699 [57:08<48:42,  2.02it/s] 45%|████▍     | 4785/10699 [57:09<48:39,  2.03it/s] 45%|████▍     | 4786/10699 [57:09<48:39,  2.03it/s] 45%|████▍     | 4787/10699 [57:10<48:42,  2.02it/s] 45%|████▍     | 4788/10699 [57:10<48:41,  2.02it/s] 45%|████▍     | 4789/10699 [57:11<48:44,  2.02it/s] 45%|████▍     | 4790/10699 [57:11<48:42,  2.02it/s] 45%|████▍     | 4791/10699 [57:12<48:42,  2.02it/s] 45%|████▍     | 4792/10699 [57:12<48:43,  2.02it/s] 45%|████▍     | 4793/10699 [57:13<48:41,  2.02it/s] 45%|████▍     | 4794/10699 [57:13<48:37,  2.02it/s] 45%|████▍     | 4795/10699 [57:14<48:39,  2.02it/s] 45%|████▍     | 4796/10699 [57:14<48:36,  2.02it/s] 45%|████▍     | 4797/10699 [57:15<48:40,  2.02it/s] 45%|████▍     | 4798/10699 [57:15<48:39,  2.02it/s] 45%|████▍     | 4799/10699 [57:16<48:41,  2.02it/s] 45%|████▍     | 4800/10699 [57:16<48:36,  2.02it/s]                                                    {'loss': 3.7575, 'grad_norm': 0.2095697671175003, 'learning_rate': 0.0006732479123963059, 'epoch': 0.45}
- 45%|████▍     | 4800/10699 [57:16<48:36,  2.02it/s] 45%|████▍     | 4801/10699 [57:17<48:45,  2.02it/s] 45%|████▍     | 4802/10699 [57:17<48:43,  2.02it/s] 45%|████▍     | 4803/10699 [57:18<48:39,  2.02it/s] 45%|████▍     | 4804/10699 [57:18<48:35,  2.02it/s] 45%|████▍     | 4805/10699 [57:19<48:35,  2.02it/s] 45%|████▍     | 4806/10699 [57:19<48:34,  2.02it/s] 45%|████▍     | 4807/10699 [57:20<48:37,  2.02it/s] 45%|████▍     | 4808/10699 [57:20<48:36,  2.02it/s] 45%|████▍     | 4809/10699 [57:21<48:36,  2.02it/s] 45%|████▍     | 4810/10699 [57:21<48:32,  2.02it/s] 45%|████▍     | 4811/10699 [57:22<48:31,  2.02it/s] 45%|████▍     | 4812/10699 [57:22<48:27,  2.02it/s] 45%|████▍     | 4813/10699 [57:23<48:29,  2.02it/s] 45%|████▍     | 4814/10699 [57:23<48:25,  2.03it/s] 45%|████▌     | 4815/10699 [57:24<48:28,  2.02it/s] 45%|████▌     | 4816/10699 [57:24<48:25,  2.03it/s] 45%|████▌     | 4817/10699 [57:25<48:30,  2.02it/s] 45%|████▌     | 4818/10699 [57:25<48:27,  2.02it/s] 45%|████▌     | 4819/10699 [57:25<48:31,  2.02it/s] 45%|████▌     | 4820/10699 [57:26<48:24,  2.02it/s] 45%|████▌     | 4821/10699 [57:26<48:29,  2.02it/s] 45%|████▌     | 4822/10699 [57:27<48:26,  2.02it/s] 45%|████▌     | 4823/10699 [57:27<48:26,  2.02it/s] 45%|████▌     | 4824/10699 [57:28<48:21,  2.02it/s] 45%|████▌     | 4825/10699 [57:28<48:19,  2.03it/s]{'loss': 3.7627, 'grad_norm': 0.20812273025512695, 'learning_rate': 0.000669416540410837, 'epoch': 0.45}
-                                                     45%|████▌     | 4825/10699 [57:28<48:19,  2.03it/s] 45%|████▌     | 4826/10699 [57:29<48:23,  2.02it/s] 45%|████▌     | 4827/10699 [57:29<48:27,  2.02it/s] 45%|████▌     | 4828/10699 [57:30<48:24,  2.02it/s] 45%|████▌     | 4829/10699 [57:30<48:22,  2.02it/s] 45%|████▌     | 4830/10699 [57:31<48:22,  2.02it/s] 45%|████▌     | 4831/10699 [57:31<48:21,  2.02it/s] 45%|████▌     | 4832/10699 [57:32<48:21,  2.02it/s] 45%|████▌     | 4833/10699 [57:32<48:20,  2.02it/s] 45%|████▌     | 4834/10699 [57:33<48:21,  2.02it/s] 45%|████▌     | 4835/10699 [57:33<48:17,  2.02it/s] 45%|████▌     | 4836/10699 [57:34<48:18,  2.02it/s] 45%|████▌     | 4837/10699 [57:34<48:17,  2.02it/s] 45%|██��█▌     | 4838/10699 [57:35<48:18,  2.02it/s] 45%|████▌     | 4839/10699 [57:35<48:15,  2.02it/s] 45%|████▌     | 4840/10699 [57:36<48:16,  2.02it/s] 45%|████▌     | 4841/10699 [57:36<48:13,  2.02it/s] 45%|████▌     | 4842/10699 [57:37<48:16,  2.02it/s] 45%|████▌     | 4843/10699 [57:37<48:13,  2.02it/s] 45%|████▌     | 4844/10699 [57:38<48:12,  2.02it/s] 45%|████▌     | 4845/10699 [57:38<48:13,  2.02it/s] 45%|████▌     | 4846/10699 [57:39<48:14,  2.02it/s] 45%|████▌     | 4847/10699 [57:39<48:15,  2.02it/s] 45%|████▌     | 4848/10699 [57:40<48:14,  2.02it/s] 45%|████▌     | 4849/10699 [57:40<48:13,  2.02it/s] 45%|████▌     | 4850/10699 [57:41<48:14,  2.02it/s]{'loss': 3.7611, 'grad_norm': 0.21618804335594177, 'learning_rate': 0.0006655738972089053, 'epoch': 0.45}                                                    
- 45%|████▌     | 4850/10699 [57:41<48:14,  2.02it/s] 45%|████▌     | 4851/10699 [57:41<48:19,  2.02it/s] 45%|████▌     | 4852/10699 [57:42<48:14,  2.02it/s] 45%|████▌     | 4853/10699 [57:42<48:13,  2.02it/s] 45%|████▌     | 4854/10699 [57:43<48:10,  2.02it/s] 45%|████▌     | 4855/10699 [57:43<48:12,  2.02it/s] 45%|████▌     | 4856/10699 [57:44<48:10,  2.02it/s] 45%|████▌     | 4857/10699 [57:44<48:15,  2.02it/s] 45%|████▌     | 4858/10699 [57:45<48:12,  2.02it/s] 45%|████▌     | 4859/10699 [57:45<48:13,  2.02it/s] 45%|████▌     | 4860/10699 [57:46<48:10,  2.02it/s] 45%|████▌     | 4861/10699 [57:46<48:09,  2.02it/s] 45%|████▌     | 4862/10699 [57:47<48:07,  2.02it/s] 45%|████▌     | 4863/10699 [57:47<48:07,  2.02it/s] 45%|████▌     | 4864/10699 [57:48<48:03,  2.02it/s] 45%|████▌     | 4865/10699 [57:48<48:02,  2.02it/s] 45%|████▌     | 4866/10699 [57:49<48:01,  2.02it/s] 45%|████▌     | 4867/10699 [57:49<48:02,  2.02it/s] 45%|████▌     | 4868/10699 [57:50<48:05,  2.02it/s] 46%|████▌     | 4869/10699 [57:50<48:04,  2.02it/s] 46%|████▌     | 4870/10699 [57:51<48:04,  2.02it/s] 46%|████▌     | 4871/10699 [57:51<48:02,  2.02it/s] 46%|████▌     | 4872/10699 [57:52<48:03,  2.02it/s] 46%|████▌     | 4873/10699 [57:52<48:01,  2.02it/s] 46%|████▌     | 4874/10699 [57:53<48:02,  2.02it/s] 46%|████▌     | 4875/10699 [57:53<48:00,  2.02it/s]{'loss': 3.7558, 'grad_norm': 0.19987350702285767, 'learning_rate': 0.0006617202384400666, 'epoch': 0.46}                                                    
- 46%|████▌     | 4875/10699 [57:53<48:00,  2.02it/s] 46%|████▌     | 4876/10699 [57:54<48:05,  2.02it/s] 46%|████▌     | 4877/10699 [57:54<48:04,  2.02it/s] 46%|████▌     | 4878/10699 [57:55<48:02,  2.02it/s] 46%|████▌     | 4879/10699 [57:55<48:00,  2.02it/s] 46%|████▌     | 4880/10699 [57:56<48:00,  2.02it/s] 46%|████▌     | 4881/10699 [57:56<48:02,  2.02it/s] 46%|████▌     | 4882/10699 [57:57<48:00,  2.02it/s] 46%|████▌     | 4883/10699 [57:57<47:56,  2.02it/s] 46%|████▌     | 4884/10699 [57:58<47:55,  2.02it/s] 46%|████▌     | 4885/10699 [57:58<47:51,  2.02it/s] 46%|████▌     | 4886/10699 [57:59<47:55,  2.02it/s] 46%|████▌     | 4887/10699 [57:59<47:51,  2.02it/s] 46%|████▌     | 4888/10699 [58:00<47:51,  2.02it/s] 46%|████▌     | 4889/10699 [58:00<47:49,  2.02it/s] 46%|████▌     | 4890/10699 [58:01<47:52,  2.02it/s] 46%|████▌     | 4891/10699 [58:01<47:48,  2.02it/s] 46%|████▌     | 4892/10699 [58:02<47:48,  2.02it/s] 46%|████▌     | 4893/10699 [58:02<47:49,  2.02it/s] 46%|████▌     | 4894/10699 [58:03<47:47,  2.02it/s] 46%|████▌     | 4895/10699 [58:03<47:48,  2.02it/s] 46%|████▌     | 4896/10699 [58:04<47:47,  2.02it/s] 46%|████▌     | 4897/10699 [58:04<47:48,  2.02it/s] 46%|████▌     | 4898/10699 [58:05<47:49,  2.02it/s] 46%|████▌     | 4899/10699 [58:05<47:50,  2.02it/s] 46%|████▌     | 4900/10699 [58:06<47:49,  2.02it/s]                                                    {'loss': 3.7521, 'grad_norm': 0.1916378289461136, 'learning_rate': 0.0006578558204867382, 'epoch': 0.46}
- 46%|████▌     | 4900/10699 [58:06<47:49,  2.02it/s] 46%|████▌     | 4901/10699 [58:06<47:52,  2.02it/s] 46%|████▌     | 4902/10699 [58:07<47:48,  2.02it/s] 46%|████▌     | 4903/10699 [58:07<47:48,  2.02it/s] 46%|████▌     | 4904/10699 [58:08<47:45,  2.02it/s] 46%|████▌     | 4905/10699 [58:08<47:46,  2.02it/s] 46%|████▌     | 4906/10699 [58:09<47:44,  2.02it/s] 46%|████▌     | 4907/10699 [58:09<47:43,  2.02it/s] 46%|████▌     | 4908/10699 [58:10<47:42,  2.02it/s] 46%|████▌     | 4909/10699 [58:10<47:45,  2.02it/s] 46%|████▌     | 4910/10699 [58:11<47:42,  2.02it/s] 46%|████▌     | 4911/10699 [58:11<47:40,  2.02it/s] 46%|████▌     | 4912/10699 [58:11<47:41,  2.02it/s] 46%|████▌     | 4913/10699 [58:12<47:37,  2.02it/s] 46%|████▌     | 4914/10699 [58:12<47:36,  2.03it/s] 46%|████▌     | 4915/10699 [58:13<47:38,  2.02it/s] 46%|████▌     | 4916/10699 [58:13<47:37,  2.02it/s] 46%|████▌     | 4917/10699 [58:14<47:39,  2.02it/s] 46%|████▌     | 4918/10699 [58:14<47:40,  2.02it/s] 46%|████▌     | 4919/10699 [58:15<47:40,  2.02it/s] 46%|████▌     | 4920/10699 [58:15<47:38,  2.02it/s] 46%|████▌     | 4921/10699 [58:16<47:39,  2.02it/s] 46%|████▌     | 4922/10699 [58:16<47:38,  2.02it/s] 46%|████▌     | 4923/10699 [58:17<47:33,  2.02it/s] 46%|████▌     | 4924/10699 [58:17<47:32,  2.02it/s] 46%|████▌     | 4925/10699 [58:18<47:31,  2.02it/s]                                                    {'loss': 3.7512, 'grad_norm': 0.22596758604049683, 'learning_rate': 0.0006539809004471415, 'epoch': 0.46} 46%|████▌     | 4925/10699 [58:18<47:31,  2.02it/s]
- 46%|████▌     | 4926/10699 [58:18<47:35,  2.02it/s] 46%|████▌     | 4927/10699 [58:19<47:35,  2.02it/s] 46%|████▌     | 4928/10699 [58:19<47:33,  2.02it/s] 46%|████▌     | 4929/10699 [58:20<47:35,  2.02it/s] 46%|████▌     | 4930/10699 [58:20<47:37,  2.02it/s] 46%|████▌     | 4931/10699 [58:21<47:33,  2.02it/s] 46%|████▌     | 4932/10699 [58:21<47:31,  2.02it/s] 46%|████▌     | 4933/10699 [58:22<47:30,  2.02it/s] 46%|████▌     | 4934/10699 [58:22<47:27,  2.02it/s] 46%|████▌     | 4935/10699 [58:23<47:30,  2.02it/s] 46%|████▌     | 4936/10699 [58:23<47:29,  2.02it/s] 46%|████▌     | 4937/10699 [58:24<47:32,  2.02it/s] 46%|████▌     | 4938/10699 [58:24<47:28,  2.02it/s] 46%|████▌     | 4939/10699 [58:25<47:26,  2.02it/s] 46%|████▌     | 4940/10699 [58:25<47:24,  2.02it/s] 46%|████▌     | 4941/10699 [58:26<47:24,  2.02it/s] 46%|████▌     | 4942/10699 [58:26<47:21,  2.03it/s] 46%|████▌     | 4943/10699 [58:27<47:22,  2.02it/s] 46%|████▌     | 4944/10699 [58:27<47:20,  2.03it/s] 46%|████▌     | 4945/10699 [58:28<47:19,  2.03it/s] 46%|████▌     | 4946/10699 [58:28<47:21,  2.02it/s] 46%|████▌     | 4947/10699 [58:29<47:17,  2.03it/s] 46%|████▌     | 4948/10699 [58:29<47:18,  2.03it/s] 46%|████▋     | 4949/10699 [58:30<47:17,  2.03it/s] 46%|████▋     | 4950/10699 [58:30<47:17,  2.03it/s]                                                    {'loss': 3.7471, 'grad_norm': 0.19930316507816315, 'learning_rate': 0.0006500957361181984, 'epoch': 0.46}
- 46%|████▋     | 4950/10699 [58:30<47:17,  2.03it/s] 46%|████▋     | 4951/10699 [58:31<47:17,  2.03it/s] 46%|████▋     | 4952/10699 [58:31<47:18,  2.02it/s] 46%|████▋     | 4953/10699 [58:32<47:17,  2.03it/s] 46%|████▋     | 4954/10699 [58:32<47:14,  2.03it/s] 46%|████▋     | 4955/10699 [58:33<47:15,  2.03it/s] 46%|████▋     | 4956/10699 [58:33<47:13,  2.03it/s] 46%|████▋     | 4957/10699 [58:34<47:16,  2.02it/s] 46%|████▋     | 4958/10699 [58:34<47:14,  2.03it/s] 46%|████▋     | 4959/10699 [58:35<47:17,  2.02it/s] 46%|████▋     | 4960/10699 [58:35<47:14,  2.03it/s] 46%|████▋     | 4961/10699 [58:36<47:15,  2.02it/s] 46%|████▋     | 4962/10699 [58:36<47:12,  2.03it/s] 46%|████▋     | 4963/10699 [58:37<47:13,  2.02it/s] 46%|████▋     | 4964/10699 [58:37<47:12,  2.02it/s] 46%|████▋     | 4965/10699 [58:38<47:13,  2.02it/s] 46%|████▋     | 4966/10699 [58:38<47:12,  2.02it/s] 46%|████▋     | 4967/10699 [58:39<47:11,  2.02it/s] 46%|████▋     | 4968/10699 [58:39<47:12,  2.02it/s] 46%|████▋     | 4969/10699 [58:40<47:11,  2.02it/s] 46%|████▋     | 4970/10699 [58:40<47:12,  2.02it/s] 46%|████▋     | 4971/10699 [58:41<47:09,  2.02it/s] 46%|████▋     | 4972/10699 [58:41<47:12,  2.02it/s] 46%|████▋     | 4973/10699 [58:42<47:11,  2.02it/s] 46%|████▋     | 4974/10699 [58:42<47:13,  2.02it/s] 46%|████▋     | 4975/10699 [58:43<47:11,  2.02it/s]                                                    {'loss': 3.7435, 'grad_norm': 0.2200598567724228, 'learning_rate': 0.0006462005859783785, 'epoch': 0.46}
- 46%|████▋     | 4975/10699 [58:43<47:11,  2.02it/s] 47%|████▋     | 4976/10699 [58:43<47:15,  2.02it/s] 47%|████▋     | 4977/10699 [58:44<47:12,  2.02it/s] 47%|████▋     | 4978/10699 [58:44<47:08,  2.02it/s] 47%|████▋     | 4979/10699 [58:45<47:07,  2.02it/s] 47%|████▋     | 4980/10699 [58:45<47:09,  2.02it/s] 47%|████▋     | 4981/10699 [58:46<47:04,  2.02it/s] 47%|████▋     | 4982/10699 [58:46<47:07,  2.02it/s] 47%|████▋     | 4983/10699 [58:47<47:04,  2.02it/s] 47%|████▋     | 4984/10699 [58:47<47:06,  2.02it/s] 47%|████▋     | 4985/10699 [58:48<47:04,  2.02it/s] 47%|████▋     | 4986/10699 [58:48<47:01,  2.02it/s] 47%|████▋     | 4987/10699 [58:49<47:04,  2.02it/s] 47%|████▋     | 4988/10699 [58:49<46:59,  2.03it/s] 47%|████▋     | 4989/10699 [58:50<47:00,  2.02it/s] 47%|████▋     | 4990/10699 [58:50<47:00,  2.02it/s] 47%|████▋     | 4991/10699 [58:51<47:01,  2.02it/s] 47%|████▋     | 4992/10699 [58:51<47:01,  2.02it/s] 47%|████▋     | 4993/10699 [58:52<46:57,  2.03it/s] 47%|████▋     | 4994/10699 [58:52<46:57,  2.02it/s] 47%|████▋     | 4995/10699 [58:53<46:53,  2.03it/s] 47%|████▋     | 4996/10699 [58:53<46:58,  2.02it/s] 47%|████▋     | 4997/10699 [58:53<46:54,  2.03it/s] 47%|████▋     | 4998/10699 [58:54<46:56,  2.02it/s] 47%|████▋     | 4999/10699 [58:54<46:53,  2.03it/s] 47%|████▋     | 5000/10699 [58:55<46:55,  2.02it/s]{'loss': 3.7493, 'grad_norm': 0.22409960627555847, 'learning_rate': 0.0006422957091705038, 'epoch': 0.47}
-                                                     47%|████▋     | 5000/10699 [58:55<46:55,  2.02it/s] 47%|████▋     | 5001/10699 [58:55<46:57,  2.02it/s] 47%|████▋     | 5002/10699 [58:56<46:56,  2.02it/s] 47%|████▋     | 5003/10699 [58:56<46:56,  2.02it/s] 47%|████▋     | 5004/10699 [58:57<46:52,  2.03it/s] 47%|████▋     | 5005/10699 [58:57<46:52,  2.02it/s] 47%|████▋     | 5006/10699 [58:58<46:49,  2.03it/s] 47%|████▋     | 5007/10699 [58:58<46:52,  2.02it/s] 47%|████▋     | 5008/10699 [58:59<46:50,  2.02it/s] 47%|████▋     | 5009/10699 [58:59<46:49,  2.03it/s] 47%|████▋     | 5010/10699 [59:00<46:50,  2.02it/s] 47%|████▋     | 5011/10699 [59:00<46:48,  2.03it/s] 47%|████▋     | 5012/10699 [59:01<46:50,  2.02it/s] 47%|████▋     | 5013/10699 [59:01<46:46,  2.03it/s] 47%|████▋     | 5014/10699 [59:02<46:50,  2.02it/s] 47%|████▋     | 5015/10699 [59:02<46:49,  2.02it/s] 47%|████▋     | 5016/10699 [59:03<46:51,  2.02it/s] 47%|████▋     | 5017/10699 [59:03<46:48,  2.02it/s] 47%|████▋     | 5018/10699 [59:04<46:49,  2.02it/s] 47%|████▋     | 5019/10699 [59:04<46:47,  2.02it/s] 47%|████▋     | 5020/10699 [59:05<46:49,  2.02it/s] 47%|████▋     | 5021/10699 [59:05<46:45,  2.02it/s] 47%|████▋     | 5022/10699 [59:06<46:45,  2.02it/s] 47%|████▋     | 5023/10699 [59:06<46:42,  2.03it/s] 47%|████▋     | 5024/10699 [59:07<46:41,  2.03it/s] 47%|████▋     | 5025/10699 [59:07<46:41,  2.03it/s]{'loss': 3.7443, 'grad_norm': 0.21354950964450836, 'learning_rate': 0.0006383813654845076, 'epoch': 0.47}                                                    
- 47%|████▋     | 5025/10699 [59:07<46:41,  2.03it/s] 47%|████▋     | 5026/10699 [59:08<46:45,  2.02it/s] 47%|████▋     | 5027/10699 [59:08<46:45,  2.02it/s] 47%|████▋     | 5028/10699 [59:09<46:43,  2.02it/s] 47%|████▋     | 5029/10699 [59:09<46:45,  2.02it/s] 47%|████▋     | 5030/10699 [59:10<46:41,  2.02it/s] 47%|████▋     | 5031/10699 [59:10<46:44,  2.02it/s] 47%|████▋     | 5032/10699 [59:11<46:41,  2.02it/s] 47%|████▋     | 5033/10699 [59:11<46:43,  2.02it/s] 47%|████▋     | 5034/10699 [59:12<46:40,  2.02it/s] 47%|████▋     | 5035/10699 [59:12<46:40,  2.02it/s] 47%|████▋     | 5036/10699 [59:13<46:36,  2.03it/s] 47%|████▋     | 5037/10699 [59:13<46:39,  2.02it/s] 47%|████▋     | 5038/10699 [59:14<46:38,  2.02it/s] 47%|████▋     | 5039/10699 [59:14<46:38,  2.02it/s] 47%|████▋     | 5040/10699 [59:15<46:36,  2.02it/s] 47%|████▋     | 5041/10699 [59:15<46:33,  2.03it/s] 47%|████▋     | 5042/10699 [59:16<46:35,  2.02it/s] 47%|████▋     | 5043/10699 [59:16<46:34,  2.02it/s] 47%|████▋     | 5044/10699 [59:17<46:34,  2.02it/s] 47%|████▋     | 5045/10699 [59:17<46:31,  2.03it/s] 47%|████▋     | 5046/10699 [59:18<46:30,  2.03it/s] 47%|████▋     | 5047/10699 [59:18<46:36,  2.02it/s] 47%|████▋     | 5048/10699 [59:19<46:32,  2.02it/s] 47%|████▋     | 5049/10699 [59:19<46:31,  2.02it/s] 47%|████▋     | 5050/10699 [59:20<46:31,  2.02it/s]                                                    {'loss': 3.7482, 'grad_norm': 0.19960100948810577, 'learning_rate': 0.0006344578153401516, 'epoch': 0.47}
- 47%|████▋     | 5050/10699 [59:20<46:31,  2.02it/s] 47%|████▋     | 5051/10699 [59:20<46:34,  2.02it/s] 47%|████▋     | 5052/10699 [59:21<46:34,  2.02it/s] 47%|████▋     | 5053/10699 [59:21<46:34,  2.02it/s] 47%|████▋     | 5054/10699 [59:22<46:31,  2.02it/s] 47%|████▋     | 5055/10699 [59:22<46:28,  2.02it/s] 47%|████▋     | 5056/10699 [59:23<46:27,  2.02it/s] 47%|████▋     | 5057/10699 [59:23<46:31,  2.02it/s] 47%|████▋     | 5058/10699 [59:24<46:26,  2.02it/s] 47%|████▋     | 5059/10699 [59:24<46:27,  2.02it/s] 47%|████▋     | 5060/10699 [59:25<46:25,  2.02it/s] 47%|████▋     | 5061/10699 [59:25<46:23,  2.03it/s] 47%|████▋     | 5062/10699 [59:26<46:24,  2.02it/s] 47%|████▋     | 5063/10699 [59:26<46:21,  2.03it/s] 47%|████▋     | 5064/10699 [59:27<46:23,  2.02it/s] 47%|████▋     | 5065/10699 [59:27<46:18,  2.03it/s] 47%|████▋     | 5066/10699 [59:28<46:20,  2.03it/s] 47%|████▋     | 5067/10699 [59:28<46:21,  2.02it/s] 47%|████▋     | 5068/10699 [59:29<46:23,  2.02it/s] 47%|████▋     | 5069/10699 [59:29<46:20,  2.03it/s] 47%|████▋     | 5070/10699 [59:30<46:20,  2.02it/s] 47%|████▋     | 5071/10699 [59:30<46:18,  2.03it/s] 47%|████▋     | 5072/10699 [59:31<46:18,  2.02it/s] 47%|████▋     | 5073/10699 [59:31<46:20,  2.02it/s] 47%|████▋     | 5074/10699 [59:32<46:16,  2.03it/s] 47%|████▋     | 5075/10699 [59:32<46:19,  2.02it/s]{'loss': 3.7431, 'grad_norm': 0.20997846126556396, 'learning_rate': 0.0006305253197696986, 'epoch': 0.47}                                                    
- 47%|████▋     | 5075/10699 [59:32<46:19,  2.02it/s] 47%|████▋     | 5076/10699 [59:33<46:21,  2.02it/s] 47%|████▋     | 5077/10699 [59:33<46:23,  2.02it/s] 47%|████▋     | 5078/10699 [59:34<46:20,  2.02it/s] 47%|████▋     | 5079/10699 [59:34<46:19,  2.02it/s] 47%|████▋     | 5080/10699 [59:35<46:17,  2.02it/s] 47%|████▋     | 5081/10699 [59:35<46:17,  2.02it/s] 47%|████▋     | 5082/10699 [59:36<46:13,  2.03it/s] 48%|████▊     | 5083/10699 [59:36<46:16,  2.02it/s] 48%|████▊     | 5084/10699 [59:36<46:14,  2.02it/s] 48%|████▊     | 5085/10699 [59:37<46:12,  2.02it/s] 48%|████▊     | 5086/10699 [59:37<46:12,  2.02it/s] 48%|████▊     | 5087/10699 [59:38<46:10,  2.03it/s] 48%|████▊     | 5088/10699 [59:38<46:11,  2.02it/s] 48%|████▊     | 5089/10699 [59:39<46:10,  2.02it/s] 48%|████▊     | 5090/10699 [59:39<46:13,  2.02it/s] 48%|████▊     | 5091/10699 [59:40<46:11,  2.02it/s] 48%|████▊     | 5092/10699 [59:40<46:14,  2.02it/s] 48%|████▊     | 5093/10699 [59:41<46:10,  2.02it/s] 48%|████▊     | 5094/10699 [59:41<46:08,  2.02it/s] 48%|████▊     | 5095/10699 [59:42<46:05,  2.03it/s] 48%|████▊     | 5096/10699 [59:42<46:07,  2.02it/s] 48%|████▊     | 5097/10699 [59:43<46:07,  2.02it/s] 48%|████▊     | 5098/10699 [59:43<46:06,  2.02it/s] 48%|████▊     | 5099/10699 [59:44<46:06,  2.02it/s] 48%|████▊     | 5100/10699 [59:44<46:06,  2.02it/s]{'loss': 3.7434, 'grad_norm': 0.21492336690425873, 'learning_rate': 0.0006265841404005479, 'epoch': 0.48}                                                    
- 48%|████▊     | 5100/10699 [59:44<46:06,  2.02it/s] 48%|████▊     | 5101/10699 [59:45<46:19,  2.01it/s] 48%|████▊     | 5102/10699 [59:45<46:16,  2.02it/s] 48%|████▊     | 5103/10699 [59:46<46:10,  2.02it/s] 48%|████▊     | 5104/10699 [59:46<46:09,  2.02it/s] 48%|████▊     | 5105/10699 [59:47<46:06,  2.02it/s] 48%|████▊     | 5106/10699 [59:47<46:05,  2.02it/s] 48%|████▊     | 5107/10699 [59:48<46:06,  2.02it/s] 48%|████▊     | 5108/10699 [59:48<46:07,  2.02it/s] 48%|████▊     | 5109/10699 [59:49<46:04,  2.02it/s] 48%|████▊     | 5110/10699 [59:49<46:03,  2.02it/s] 48%|████▊     | 5111/10699 [59:50<46:02,  2.02it/s] 48%|████▊     | 5112/10699 [59:50<46:02,  2.02it/s] 48%|████▊     | 5113/10699 [59:51<46:01,  2.02it/s] 48%|████▊     | 5114/10699 [59:51<45:59,  2.02it/s] 48%|████▊     | 5115/10699 [59:52<45:59,  2.02it/s] 48%|████▊     | 5116/10699 [59:52<45:56,  2.03it/s] 48%|████▊     | 5117/10699 [59:53<46:01,  2.02it/s] 48%|████▊     | 5118/10699 [59:53<46:01,  2.02it/s] 48%|████▊     | 5119/10699 [59:54<46:01,  2.02it/s] 48%|████▊     | 5120/10699 [59:54<46:00,  2.02it/s] 48%|████▊     | 5121/10699 [59:55<46:01,  2.02it/s] 48%|████▊     | 5122/10699 [59:55<46:01,  2.02it/s] 48%|████▊     | 5123/10699 [59:56<45:59,  2.02it/s] 48%|██��█▊     | 5124/10699 [59:56<45:56,  2.02it/s] 48%|████▊     | 5125/10699 [59:57<45:56,  2.02it/s]{'loss': 3.7352, 'grad_norm': 0.2108798325061798, 'learning_rate': 0.000622634539437828, 'epoch': 0.48}
-                                                     48%|████▊     | 5125/10699 [59:57<45:56,  2.02it/s] 48%|████▊     | 5126/10699 [59:57<45:56,  2.02it/s] 48%|████▊     | 5127/10699 [59:58<45:59,  2.02it/s] 48%|████▊     | 5128/10699 [59:58<45:55,  2.02it/s] 48%|████▊     | 5129/10699 [59:59<45:59,  2.02it/s] 48%|████▊     | 5130/10699 [59:59<45:56,  2.02it/s] 48%|████▊     | 5131/10699 [1:00:00<45:54,  2.02it/s] 48%|████▊     | 5132/10699 [1:00:00<45:53,  2.02it/s] 48%|████▊     | 5133/10699 [1:00:01<45:53,  2.02it/s] 48%|████▊     | 5134/10699 [1:00:01<45:51,  2.02it/s] 48%|████▊     | 5135/10699 [1:00:02<45:50,  2.02it/s] 48%|████▊     | 5136/10699 [1:00:02<45:51,  2.02it/s] 48%|████▊     | 5137/10699 [1:00:03<45:49,  2.02it/s] 48%|████▊     | 5138/10699 [1:00:03<45:50,  2.02it/s] 48%|████▊     | 5139/10699 [1:00:04<45:45,  2.02it/s] 48%|████▊     | 5140/10699 [1:00:04<45:47,  2.02it/s] 48%|████▊     | 5141/10699 [1:00:05<45:44,  2.03it/s] 48%|████▊     | 5142/10699 [1:00:05<45:47,  2.02it/s] 48%|████▊     | 5143/10699 [1:00:06<45:44,  2.02it/s] 48%|████▊     | 5144/10699 [1:00:06<45:41,  2.03it/s] 48%|████▊     | 5145/10699 [1:00:07<45:42,  2.02it/s] 48%|████▊     | 5146/10699 [1:00:07<45:41,  2.03it/s] 48%|████▊     | 5147/10699 [1:00:08<45:44,  2.02it/s] 48%|████▊     | 5148/10699 [1:00:08<45:42,  2.02it/s] 48%|████▊     | 5149/10699 [1:00:09<45:42,  2.02it/s] 48%|████▊     | 5150/10699 [1:00:09<45:40,  2.02it/s]                                                      {'loss': 3.7452, 'grad_norm': 0.24418646097183228, 'learning_rate': 0.000618676779646953, 'epoch': 0.48}
- 48%|████▊     | 5150/10699 [1:00:09<45:40,  2.02it/s] 48%|████▊     | 5151/10699 [1:00:10<45:44,  2.02it/s] 48%|████▊     | 5152/10699 [1:00:10<45:41,  2.02it/s] 48%|████▊     | 5153/10699 [1:00:11<45:40,  2.02it/s] 48%|████▊     | 5154/10699 [1:00:11<45:38,  2.02it/s] 48%|████▊     | 5155/10699 [1:00:12<45:37,  2.03it/s] 48%|████▊     | 5156/10699 [1:00:12<45:37,  2.03it/s] 48%|████▊     | 5157/10699 [1:00:13<45:37,  2.02it/s] 48%|████▊     | 5158/10699 [1:00:13<45:39,  2.02it/s] 48%|████▊     | 5159/10699 [1:00:14<45:36,  2.02it/s] 48%|████▊     | 5160/10699 [1:00:14<45:35,  2.02it/s] 48%|████▊     | 5161/10699 [1:00:15<45:32,  2.03it/s] 48%|████▊     | 5162/10699 [1:00:15<45:37,  2.02it/s] 48%|████▊     | 5163/10699 [1:00:16<45:33,  2.03it/s] 48%|████▊     | 5164/10699 [1:00:16<45:35,  2.02it/s] 48%|████▊     | 5165/10699 [1:00:17<45:32,  2.03it/s] 48%|████▊     | 5166/10699 [1:00:17<45:31,  2.03it/s] 48%|████▊     | 5167/10699 [1:00:18<45:34,  2.02it/s] 48%|████▊     | 5168/10699 [1:00:18<45:32,  2.02it/s] 48%|████▊     | 5169/10699 [1:00:19<45:32,  2.02it/s] 48%|████▊     | 5170/10699 [1:00:19<45:33,  2.02it/s] 48%|████▊     | 5171/10699 [1:00:19<45:33,  2.02it/s] 48%|████▊     | 5172/10699 [1:00:20<45:30,  2.02it/s] 48%|████▊     | 5173/10699 [1:00:20<45:30,  2.02it/s] 48%|████▊     | 5174/10699 [1:00:21<45:29,  2.02it/s] 48%|████▊     | 5175/10699 [1:00:21<45:28,  2.02it/s]                                                      {'loss': 3.736, 'grad_norm': 0.19620536267757416, 'learning_rate': 0.000614711124336141, 'epoch': 0.48}
- 48%|████▊     | 5175/10699 [1:00:21<45:28,  2.02it/s] 48%|████▊     | 5176/10699 [1:00:22<45:31,  2.02it/s] 48%|████▊     | 5177/10699 [1:00:22<45:33,  2.02it/s] 48%|████▊     | 5178/10699 [1:00:23<45:32,  2.02it/s] 48%|████▊     | 5179/10699 [1:00:23<45:28,  2.02it/s] 48%|████▊     | 5180/10699 [1:00:24<45:29,  2.02it/s] 48%|████▊     | 5181/10699 [1:00:24<45:25,  2.02it/s] 48%|████▊     | 5182/10699 [1:00:25<45:28,  2.02it/s] 48%|████▊     | 5183/10699 [1:00:25<45:22,  2.03it/s] 48%|████▊     | 5184/10699 [1:00:26<45:22,  2.03it/s] 48%|████▊     | 5185/10699 [1:00:26<45:22,  2.03it/s] 48%|████▊     | 5186/10699 [1:00:27<45:20,  2.03it/s] 48%|████▊     | 5187/10699 [1:00:27<45:24,  2.02it/s] 48%|████▊     | 5188/10699 [1:00:28<45:20,  2.03it/s] 48%|████▊     | 5189/10699 [1:00:28<45:20,  2.03it/s] 49%|████▊     | 5190/10699 [1:00:29<45:22,  2.02it/s] 49%|████▊     | 5191/10699 [1:00:29<45:20,  2.02it/s] 49%|████▊     | 5192/10699 [1:00:30<45:23,  2.02it/s] 49%|████▊     | 5193/10699 [1:00:30<45:19,  2.02it/s] 49%|████▊     | 5194/10699 [1:00:31<45:15,  2.03it/s] 49%|████▊     | 5195/10699 [1:00:31<45:17,  2.03it/s] 49%|████▊     | 5196/10699 [1:00:32<45:16,  2.03it/s] 49%|████▊     | 5197/10699 [1:00:32<45:18,  2.02it/s] 49%|████▊     | 5198/10699 [1:00:33<45:16,  2.03it/s] 49%|████▊     | 5199/10699 [1:00:33<45:16,  2.02it/s] 49%|████▊     | 5200/10699 [1:00:34<45:16,  2.02it/s]{'loss': 3.7339, 'grad_norm': 0.21520662307739258, 'learning_rate': 0.0006107378373388951, 'epoch': 0.49}                                                      
- 49%|████▊     | 5200/10699 [1:00:34<45:16,  2.02it/s] 49%|████▊     | 5201/10699 [1:00:34<45:19,  2.02it/s] 49%|████▊     | 5202/10699 [1:00:35<45:19,  2.02it/s] 49%|████▊     | 5203/10699 [1:00:35<45:17,  2.02it/s] 49%|████▊     | 5204/10699 [1:00:36<45:16,  2.02it/s] 49%|████▊     | 5205/10699 [1:00:36<45:13,  2.02it/s] 49%|████▊     | 5206/10699 [1:00:37<45:14,  2.02it/s] 49%|████▊     | 5207/10699 [1:00:37<45:13,  2.02it/s] 49%|████▊     | 5208/10699 [1:00:38<45:14,  2.02it/s] 49%|████▊     | 5209/10699 [1:00:38<45:11,  2.02it/s] 49%|████▊     | 5210/10699 [1:00:39<45:12,  2.02it/s] 49%|████▊     | 5211/10699 [1:00:39<45:10,  2.02it/s] 49%|████▊     | 5212/10699 [1:00:40<45:11,  2.02it/s] 49%|████▊     | 5213/10699 [1:00:40<45:09,  2.02it/s] 49%|████▊     | 5214/10699 [1:00:41<45:05,  2.03it/s] 49%|████▊     | 5215/10699 [1:00:41<45:08,  2.02it/s] 49%|████▉     | 5216/10699 [1:00:42<45:05,  2.03it/s] 49%|████▉     | 5217/10699 [1:00:42<45:13,  2.02it/s] 49%|████▉     | 5218/10699 [1:00:43<45:07,  2.02it/s] 49%|████▉     | 5219/10699 [1:00:43<45:11,  2.02it/s] 49%|████▉     | 5220/10699 [1:00:44<45:07,  2.02it/s] 49%|████▉     | 5221/10699 [1:00:44<45:07,  2.02it/s] 49%|████▉     | 5222/10699 [1:00:45<45:05,  2.02it/s] 49%|████▉     | 5223/10699 [1:00:45<45:05,  2.02it/s] 49%|████▉     | 5224/10699 [1:00:46<45:04,  2.02it/s] 49%|████▉     | 5225/10699 [1:00:46<45:02,  2.03it/s]{'loss': 3.727, 'grad_norm': 0.2103383094072342, 'learning_rate': 0.0006067571829964523, 'epoch': 0.49}
-                                                       49%|████▉     | 5225/10699 [1:00:46<45:02,  2.03it/s] 49%|████▉     | 5226/10699 [1:00:47<45:04,  2.02it/s] 49%|████▉     | 5227/10699 [1:00:47<45:05,  2.02it/s] 49%|████▉     | 5228/10699 [1:00:48<45:05,  2.02it/s] 49%|████▉     | 5229/10699 [1:00:48<45:03,  2.02it/s] 49%|████▉     | 5230/10699 [1:00:49<45:02,  2.02it/s] 49%|████▉     | 5231/10699 [1:00:49<44:58,  2.03it/s] 49%|████▉     | 5232/10699 [1:00:50<45:00,  2.02it/s] 49%|████▉     | 5233/10699 [1:00:50<44:57,  2.03it/s] 49%|████▉     | 5234/10699 [1:00:51<44:58,  2.03it/s] 49%|████▉     | 5235/10699 [1:00:51<44:57,  2.03it/s] 49%|████▉     | 5236/10699 [1:00:52<44:55,  2.03it/s] 49%|████▉     | 5237/10699 [1:00:52<44:58,  2.02it/s] 49%|████▉     | 5238/10699 [1:00:53<44:55,  2.03it/s] 49%|████▉     | 5239/10699 [1:00:53<45:00,  2.02it/s] 49%|████▉     | 5240/10699 [1:00:54<45:00,  2.02it/s] 49%|████▉     | 5241/10699 [1:00:54<45:01,  2.02it/s] 49%|████▉     | 5242/10699 [1:00:55<45:01,  2.02it/s] 49%|████▉     | 5243/10699 [1:00:55<45:00,  2.02it/s] 49%|████▉     | 5244/10699 [1:00:56<44:59,  2.02it/s] 49%|████▉     | 5245/10699 [1:00:56<44:59,  2.02it/s] 49%|████▉     | 5246/10699 [1:00:57<44:57,  2.02it/s] 49%|████▉     | 5247/10699 [1:00:57<44:57,  2.02it/s] 49%|████▉     | 5248/10699 [1:00:58<44:53,  2.02it/s] 49%|████▉     | 5249/10699 [1:00:58<44:55,  2.02it/s] 49%|████▉     | 5250/10699 [1:00:59<44:53,  2.02it/s]                                                      {'loss': 3.7408, 'grad_norm': 0.21785296499729156, 'learning_rate': 0.000602769426140196, 'epoch': 0.49}
- 49%|████▉     | 5250/10699 [1:00:59<44:53,  2.02it/s] 49%|████▉     | 5251/10699 [1:00:59<44:56,  2.02it/s] 49%|████▉     | 5252/10699 [1:01:00<44:53,  2.02it/s] 49%|████▉     | 5253/10699 [1:01:00<44:52,  2.02it/s] 49%|████▉     | 5254/10699 [1:01:01<44:52,  2.02it/s] 49%|████▉     | 5255/10699 [1:01:01<44:49,  2.02it/s] 49%|████▉     | 5256/10699 [1:01:02<44:48,  2.02it/s] 49%|████▉     | 5257/10699 [1:01:02<44:49,  2.02it/s] 49%|████▉     | 5258/10699 [1:01:02<44:48,  2.02it/s] 49%|████▉     | 5259/10699 [1:01:03<44:46,  2.03it/s] 49%|████▉     | 5260/10699 [1:01:03<44:45,  2.03it/s] 49%|���███▉     | 5261/10699 [1:01:04<44:43,  2.03it/s] 49%|████▉     | 5262/10699 [1:01:04<44:45,  2.02it/s] 49%|████▉     | 5263/10699 [1:01:05<44:44,  2.02it/s] 49%|████▉     | 5264/10699 [1:01:05<44:44,  2.02it/s] 49%|████▉     | 5265/10699 [1:01:06<44:45,  2.02it/s] 49%|████▉     | 5266/10699 [1:01:06<44:40,  2.03it/s] 49%|████▉     | 5267/10699 [1:01:07<44:42,  2.03it/s] 49%|████▉     | 5268/10699 [1:01:07<44:40,  2.03it/s] 49%|████▉     | 5269/10699 [1:01:08<44:40,  2.03it/s] 49%|████▉     | 5270/10699 [1:01:08<44:44,  2.02it/s] 49%|████▉     | 5271/10699 [1:01:09<44:40,  2.02it/s] 49%|████▉     | 5272/10699 [1:01:09<44:43,  2.02it/s] 49%|████▉     | 5273/10699 [1:01:10<44:40,  2.02it/s] 49%|████▉     | 5274/10699 [1:01:10<44:41,  2.02it/s] 49%|████▉     | 5275/10699 [1:01:11<44:39,  2.02it/s]{'loss': 3.7333, 'grad_norm': 0.21291686594486237, 'learning_rate': 0.0005987748320740368, 'epoch': 0.49}                                                      
- 49%|████▉     | 5275/10699 [1:01:11<44:39,  2.02it/s] 49%|████▉     | 5276/10699 [1:01:11<44:43,  2.02it/s] 49%|████▉     | 5277/10699 [1:01:12<44:40,  2.02it/s] 49%|████▉     | 5278/10699 [1:01:12<44:37,  2.02it/s] 49%|████▉     | 5279/10699 [1:01:13<44:39,  2.02it/s] 49%|████▉     | 5280/10699 [1:01:13<44:38,  2.02it/s] 49%|████▉     | 5281/10699 [1:01:14<44:37,  2.02it/s] 49%|████▉     | 5282/10699 [1:01:14<44:40,  2.02it/s] 49%|████▉     | 5283/10699 [1:01:15<44:39,  2.02it/s] 49%|████▉     | 5284/10699 [1:01:15<44:35,  2.02it/s] 49%|████▉     | 5285/10699 [1:01:16<44:36,  2.02it/s] 49%|████▉     | 5286/10699 [1:01:16<44:33,  2.02it/s] 49%|████▉     | 5287/10699 [1:01:17<44:35,  2.02it/s] 49%|████▉     | 5288/10699 [1:01:17<44:33,  2.02it/s] 49%|████▉     | 5289/10699 [1:01:18<44:31,  2.03it/s] 49%|████▉     | 5290/10699 [1:01:18<44:31,  2.03it/s] 49%|████▉     | 5291/10699 [1:01:19<44:27,  2.03it/s] 49%|████▉     | 5292/10699 [1:01:19<44:31,  2.02it/s] 49%|████▉     | 5293/10699 [1:01:20<44:26,  2.03it/s] 49%|████▉     | 5294/10699 [1:01:20<44:29,  2.02it/s] 49%|████▉     | 5295/10699 [1:01:21<44:28,  2.03it/s] 49%|████▉     | 5296/10699 [1:01:21<44:29,  2.02it/s] 50%|████▉     | 5297/10699 [1:01:22<44:29,  2.02it/s] 50%|████▉     | 5298/10699 [1:01:22<44:29,  2.02it/s] 50%|████▉     | 5299/10699 [1:01:23<44:27,  2.02it/s] 50%|████▉     | 5300/10699 [1:01:23<44:26,  2.02it/s]{'loss': 3.7274, 'grad_norm': 0.20356741547584534, 'learning_rate': 0.0005947736665567625, 'epoch': 0.5}
-                                                       50%|████▉     | 5300/10699 [1:01:23<44:26,  2.02it/s] 50%|████▉     | 5301/10699 [1:01:24<44:29,  2.02it/s] 50%|████▉     | 5302/10699 [1:01:24<44:26,  2.02it/s] 50%|████▉     | 5303/10699 [1:01:25<44:28,  2.02it/s] 50%|████▉     | 5304/10699 [1:01:25<44:22,  2.03it/s] 50%|████▉     | 5305/10699 [1:01:26<44:23,  2.03it/s] 50%|████▉     | 5306/10699 [1:01:26<44:21,  2.03it/s] 50%|████▉     | 5307/10699 [1:01:27<44:22,  2.03it/s] 50%|████▉     | 5308/10699 [1:01:27<44:23,  2.02it/s] 50%|████▉     | 5309/10699 [1:01:28<44:21,  2.02it/s] 50%|████▉     | 5310/10699 [1:01:28<44:25,  2.02it/s] 50%|████▉     | 5311/10699 [1:01:29<44:23,  2.02it/s] 50%|████▉     | 5312/10699 [1:01:29<44:24,  2.02it/s] 50%|████▉     | 5313/10699 [1:01:30<44:24,  2.02it/s] 50%|████▉     | 5314/10699 [1:01:30<44:23,  2.02it/s] 50%|████▉     | 5315/10699 [1:01:31<44:23,  2.02it/s] 50%|████▉     | 5316/10699 [1:01:31<44:21,  2.02it/s] 50%|████▉     | 5317/10699 [1:01:32<44:21,  2.02it/s] 50%|████▉     | 5318/10699 [1:01:32<44:19,  2.02it/s] 50%|████▉     | 5319/10699 [1:01:33<44:20,  2.02it/s] 50%|████▉     | 5320/10699 [1:01:33<44:21,  2.02it/s] 50%|████▉     | 5321/10699 [1:01:34<44:19,  2.02it/s] 50%|████▉     | 5322/10699 [1:01:34<44:16,  2.02it/s] 50%|████▉     | 5323/10699 [1:01:35<44:19,  2.02it/s] 50%|████▉     | 5324/10699 [1:01:35<44:16,  2.02it/s] 50%|████▉     | 5325/10699 [1:01:36<44:13,  2.03it/s]{'loss': 3.73, 'grad_norm': 0.20523685216903687, 'learning_rate': 0.0005907661957843571, 'epoch': 0.5}
-                                                       50%|████▉     | 5325/10699 [1:01:36<44:13,  2.03it/s] 50%|████▉     | 5326/10699 [1:01:36<44:16,  2.02it/s] 50%|████▉     | 5327/10699 [1:01:37<44:16,  2.02it/s] 50%|████▉     | 5328/10699 [1:01:37<44:17,  2.02it/s] 50%|████▉     | 5329/10699 [1:01:38<44:14,  2.02it/s] 50%|████▉     | 5330/10699 [1:01:38<44:13,  2.02it/s] 50%|████▉     | 5331/10699 [1:01:39<44:13,  2.02it/s] 50%|████▉     | 5332/10699 [1:01:39<44:09,  2.03it/s] 50%|████▉     | 5333/10699 [1:01:40<44:10,  2.02it/s] 50%|████▉     | 5334/10699 [1:01:40<44:09,  2.03it/s] 50%|████▉     | 5335/10699 [1:01:41<44:10,  2.02it/s] 50%|████▉     | 5336/10699 [1:01:41<44:08,  2.03it/s] 50%|████▉     | 5337/10699 [1:01:42<44:07,  2.03it/s] 50%|████▉     | 5338/10699 [1:01:42<44:07,  2.02it/s] 50%|████▉     | 5339/10699 [1:01:43<44:04,  2.03it/s] 50%|████▉     | 5340/10699 [1:01:43<44:08,  2.02it/s] 50%|████▉     | 5341/10699 [1:01:44<44:05,  2.03it/s] 50%|████▉     | 5342/10699 [1:01:44<44:06,  2.02it/s] 50%|████▉     | 5343/10699 [1:01:44<44:04,  2.03it/s] 50%|████▉     | 5344/10699 [1:01:45<44:03,  2.03it/s] 50%|████▉     | 5345/10699 [1:01:45<44:02,  2.03it/s] 50%|████▉     | 5346/10699 [1:01:46<44:00,  2.03it/s] 50%|████▉     | 5347/10699 [1:01:47<51:54,  1.72it/s] 50%|████▉     | 5348/10699 [1:01:47<49:34,  1.80it/s] 50%|████▉     | 5349/10699 [1:01:48<47:51,  1.86it/s] 50%|█████     | 5350/10699 [1:01:48<46:45,  1.91it/s]{'loss': 3.7251, 'grad_norm': 0.21020543575286865, 'learning_rate': 0.0005867526863722904, 'epoch': 0.5}
-                                                       50%|█████     | 5350/10699 [1:01:48<46:45,  1.91it/s] 50%|█████     | 5351/10699 [1:01:49<45:58,  1.94it/s] 50%|█████     | 5352/10699 [1:01:49<45:23,  1.96it/s] 50%|█████     | 5353/10699 [1:01:50<44:56,  1.98it/s] 50%|█████     | 5354/10699 [1:01:50<44:41,  1.99it/s] 50%|█████     | 5355/10699 [1:01:51<44:26,  2.00it/s] 50%|█████     | 5356/10699 [1:01:51<44:28,  2.00it/s] 50%|█████     | 5357/10699 [1:01:52<44:18,  2.01it/s] 50%|█████     | 5358/10699 [1:01:52<44:15,  2.01it/s] 50%|█████     | 5359/10699 [1:01:53<44:08,  2.02it/s] 50%|█████     | 5360/10699 [1:01:53<44:06,  2.02it/s] 50%|█████     | 5361/10699 [1:01:54<44:01,  2.02it/s] 50%|█████     | 5362/10699 [1:01:54<43:59,  2.02it/s] 50%|█████     | 5363/10699 [1:01:55<43:57,  2.02it/s] 50%|█████     | 5364/10699 [1:01:55<43:55,  2.02it/s] 50%|█████     | 5365/10699 [1:01:56<43:55,  2.02it/s] 50%|█████     | 5366/10699 [1:01:56<43:53,  2.03it/s] 50%|█████     | 5367/10699 [1:01:57<43:55,  2.02it/s] 50%|█████     | 5368/10699 [1:01:57<43:53,  2.02it/s] 50%|█████     | 5369/10699 [1:01:58<43:53,  2.02it/s] 50%|█████     | 5370/10699 [1:01:58<43:51,  2.03it/s] 50%|█████     | 5371/10699 [1:01:59<51:13,  1.73it/s] 50%|█████     | 5372/10699 [1:01:59<49:01,  1.81it/s] 50%|█████     | 5373/10699 [1:02:00<47:25,  1.87it/s] 50%|█████     | 5374/10699 [1:02:00<46:23,  1.91it/s] 50%|█████     | 5375/10699 [1:02:01<45:34,  1.95it/s]{'loss': 3.7301, 'grad_norm': 0.20326220989227295, 'learning_rate': 0.0005827334053377808, 'epoch': 0.5}                                                      
- 50%|█████     | 5375/10699 [1:02:01<45:34,  1.95it/s] 50%|█████     | 5376/10699 [1:02:01<45:09,  1.96it/s] 50%|█████     | 5377/10699 [1:02:02<44:44,  1.98it/s] 50%|█████     | 5378/10699 [1:02:02<44:28,  1.99it/s] 50%|█████     | 5379/10699 [1:02:03<44:16,  2.00it/s] 50%|█████     | 5380/10699 [1:02:03<44:11,  2.01it/s] 50%|█████     | 5381/10699 [1:02:04<44:02,  2.01it/s] 50%|█████     | 5382/10699 [1:02:04<44:02,  2.01it/s] 50%|█████     | 5383/10699 [1:02:05<43:57,  2.02it/s] 50%|█████     | 5384/10699 [1:02:05<43:55,  2.02it/s] 50%|█████     | 5385/10699 [1:02:06<43:51,  2.02it/s] 50%|█████     | 5386/10699 [1:02:06<43:52,  2.02it/s] 50%|█████     | 5387/10699 [1:02:07<43:49,  2.02it/s] 50%|█████     | 5388/10699 [1:02:07<43:49,  2.02it/s] 50%|█████     | 5389/10699 [1:02:08<43:47,  2.02it/s] 50%|█████     | 5390/10699 [1:02:08<43:46,  2.02it/s] 50%|█████     | 5391/10699 [1:02:09<43:46,  2.02it/s] 50%|█████     | 5392/10699 [1:02:09<43:49,  2.02it/s] 50%|█████     | 5393/10699 [1:02:10<43:46,  2.02it/s] 50%|█████     | 5394/10699 [1:02:10<43:46,  2.02it/s] 50%|█████     | 5395/10699 [1:02:11<43:44,  2.02it/s] 50%|█████     | 5396/10699 [1:02:11<43:42,  2.02it/s] 50%|█████     | 5397/10699 [1:02:12<43:43,  2.02it/s] 50%|█████     | 5398/10699 [1:02:12<43:40,  2.02it/s] 50%|█████     | 5399/10699 [1:02:13<43:41,  2.02it/s] 50%|█████     | 5400/10699 [1:02:13<43:39,  2.02it/s]{'loss': 3.7307, 'grad_norm': 0.22218453884124756, 'learning_rate': 0.0005787086200820304, 'epoch': 0.5}
-                                                       50%|█████     | 5400/10699 [1:02:13<43:39,  2.02it/s] 50%|█████     | 5401/10699 [1:02:14<43:42,  2.02it/s] 50%|█████     | 5402/10699 [1:02:14<43:39,  2.02it/s] 51%|█████     | 5403/10699 [1:02:15<43:40,  2.02it/s] 51%|█████     | 5404/10699 [1:02:15<43:36,  2.02it/s] 51%|█████     | 5405/10699 [1:02:16<43:36,  2.02it/s] 51%|█████     | 5406/10699 [1:02:16<43:34,  2.02it/s] 51%|█████     | 5407/10699 [1:02:17<43:36,  2.02it/s] 51%|█████     | 5408/10699 [1:02:17<43:34,  2.02it/s] 51%|█████     | 5409/10699 [1:02:18<43:31,  2.03it/s] 51%|█████     | 5410/10699 [1:02:18<43:33,  2.02it/s] 51%|█████     | 5411/10699 [1:02:19<43:30,  2.03it/s] 51%|█████     | 5412/10699 [1:02:19<43:32,  2.02it/s] 51%|█████     | 5413/10699 [1:02:20<43:30,  2.03it/s] 51%|█████     | 5414/10699 [1:02:20<43:28,  2.03it/s] 51%|█████     | 5415/10699 [1:02:21<43:29,  2.02it/s] 51%|█████     | 5416/10699 [1:02:21<43:26,  2.03it/s] 51%|█████     | 5417/10699 [1:02:22<43:31,  2.02it/s] 51%|█████     | 5418/10699 [1:02:22<43:30,  2.02it/s] 51%|█████     | 5419/10699 [1:02:23<43:32,  2.02it/s] 51%|█████     | 5420/10699 [1:02:23<43:32,  2.02it/s] 51%|█████     | 5421/10699 [1:02:24<43:32,  2.02it/s] 51%|█████     | 5422/10699 [1:02:24<43:31,  2.02it/s] 51%|█████     | 5423/10699 [1:02:25<43:30,  2.02it/s] 51%|█████     | 5424/10699 [1:02:25<43:27,  2.02it/s] 51%|█████     | 5425/10699 [1:02:26<43:27,  2.02it/s]{'loss': 3.7229, 'grad_norm': 0.20083583891391754, 'learning_rate': 0.0005746785983724351, 'epoch': 0.51}
-                                                       51%|█████     | 5425/10699 [1:02:26<43:27,  2.02it/s] 51%|█████     | 5426/10699 [1:02:26<43:28,  2.02it/s] 51%|█████     | 5427/10699 [1:02:27<43:31,  2.02it/s] 51%|█████     | 5428/10699 [1:02:27<43:29,  2.02it/s] 51%|█████     | 5429/10699 [1:02:28<43:31,  2.02it/s] 51%|█████     | 5430/10699 [1:02:28<43:29,  2.02it/s] 51%|█████     | 5431/10699 [1:02:29<43:28,  2.02it/s] 51%|█████     | 5432/10699 [1:02:29<43:26,  2.02it/s] 51%|█████     | 5433/10699 [1:02:30<43:27,  2.02it/s] 51%|█████     | 5434/10699 [1:02:30<43:23,  2.02it/s] 51%|█████     | 5435/10699 [1:02:31<43:22,  2.02it/s] 51%|█████     | 5436/10699 [1:02:31<43:21,  2.02it/s] 51%|█████     | 5437/10699 [1:02:32<43:24,  2.02it/s] 51%|█████     | 5438/10699 [1:02:32<43:19,  2.02it/s] 51%|█████     | 5439/10699 [1:02:33<43:20,  2.02it/s] 51%|█████     | 5440/10699 [1:02:33<43:20,  2.02it/s] 51%|█████     | 5441/10699 [1:02:34<43:21,  2.02it/s] 51%|█████     | 5442/10699 [1:02:34<43:17,  2.02it/s] 51%|█████     | 5443/10699 [1:02:35<43:14,  2.03it/s] 51%|█████     | 5444/10699 [1:02:35<43:15,  2.02it/s] 51%|█████     | 5445/10699 [1:02:35<43:12,  2.03it/s] 51%|█████     | 5446/10699 [1:02:36<43:14,  2.02it/s] 51%|█████     | 5447/10699 [1:02:36<43:14,  2.02it/s] 51%|█████     | 5448/10699 [1:02:37<43:16,  2.02it/s] 51%|█████     | 5449/10699 [1:02:37<43:15,  2.02it/s] 51%|█████     | 5450/10699 [1:02:38<43:16,  2.02it/s]{'loss': 3.722, 'grad_norm': 0.21083691716194153, 'learning_rate': 0.0005706436083247697, 'epoch': 0.51}
-                                                       51%|█████     | 5450/10699 [1:02:38<43:16,  2.02it/s] 51%|█████     | 5451/10699 [1:02:38<43:17,  2.02it/s] 51%|█████     | 5452/10699 [1:02:39<43:17,  2.02it/s] 51%|█████     | 5453/10699 [1:02:39<43:13,  2.02it/s] 51%|█████     | 5454/10699 [1:02:40<43:13,  2.02it/s] 51%|█████     | 5455/10699 [1:02:40<43:12,  2.02it/s] 51%|█████     | 5456/10699 [1:02:41<43:11,  2.02it/s] 51%|█████     | 5457/10699 [1:02:41<43:16,  2.02it/s] 51%|█████     | 5458/10699 [1:02:42<43:11,  2.02it/s] 51%|█████     | 5459/10699 [1:02:42<43:15,  2.02it/s] 51%|█████     | 5460/10699 [1:02:43<43:12,  2.02it/s] 51%|█████     | 5461/10699 [1:02:43<43:09,  2.02it/s] 51%|█████     | 5462/10699 [1:02:44<43:09,  2.02it/s] 51%|█████     | 5463/10699 [1:02:44<43:06,  2.02it/s] 51%|█████     | 5464/10699 [1:02:45<43:07,  2.02it/s] 51%|█████     | 5465/10699 [1:02:45<43:03,  2.03it/s] 51%|█████     | 5466/10699 [1:02:46<43:04,  2.02it/s] 51%|█████     | 5467/10699 [1:02:46<43:06,  2.02it/s] 51%|█████     | 5468/10699 [1:02:47<43:07,  2.02it/s] 51%|█████     | 5469/10699 [1:02:47<43:08,  2.02it/s] 51%|█████     | 5470/10699 [1:02:48<43:04,  2.02it/s] 51%|█████     | 5471/10699 [1:02:48<43:06,  2.02it/s] 51%|█████     | 5472/10699 [1:02:49<43:05,  2.02it/s] 51%|█████     | 5473/10699 [1:02:49<43:05,  2.02it/s] 51%|█████     | 5474/10699 [1:02:50<43:01,  2.02it/s] 51%|█████     | 5475/10699 [1:02:50<43:00,  2.02it/s]{'loss': 3.724, 'grad_norm': 0.21891163289546967, 'learning_rate': 0.0005666039183853511, 'epoch': 0.51}                                                      
- 51%|█████     | 5475/10699 [1:02:50<43:00,  2.02it/s] 51%|█████     | 5476/10699 [1:02:51<43:02,  2.02it/s] 51%|█████     | 5477/10699 [1:02:51<43:00,  2.02it/s] 51%|█████     | 5478/10699 [1:02:52<42:59,  2.02it/s] 51%|█████     | 5479/10699 [1:02:52<43:01,  2.02it/s] 51%|█████     | 5480/10699 [1:02:53<43:00,  2.02it/s] 51%|█████     | 5481/10699 [1:02:53<42:56,  2.02it/s] 51%|█████     | 5482/10699 [1:02:54<42:58,  2.02it/s] 51%|█████     | 5483/10699 [1:02:54<42:54,  2.03it/s] 51%|█████▏    | 5484/10699 [1:02:55<42:51,  2.03it/s] 51%|█████▏    | 5485/10699 [1:02:55<42:54,  2.03it/s] 51%|█████▏    | 5486/10699 [1:02:56<42:52,  2.03it/s] 51%|█████▏    | 5487/10699 [1:02:56<42:55,  2.02it/s] 51%|█████▏    | 5488/10699 [1:02:57<42:51,  2.03it/s] 51%|█████▏    | 5489/10699 [1:02:57<42:52,  2.03it/s] 51%|█████▏    | 5490/10699 [1:02:58<42:51,  2.03it/s] 51%|█████▏    | 5491/10699 [1:02:58<42:51,  2.03it/s] 51%|█████▏    | 5492/10699 [1:02:59<42:51,  2.03it/s] 51%|█████▏    | 5493/10699 [1:02:59<42:50,  2.03it/s] 51%|█████▏    | 5494/10699 [1:03:00<42:51,  2.02it/s] 51%|█████▏    | 5495/10699 [1:03:00<42:47,  2.03it/s] 51%|█████▏    | 5496/10699 [1:03:01<42:48,  2.03it/s] 51%|█████▏    | 5497/10699 [1:03:01<42:48,  2.03it/s] 51%|█████▏    | 5498/10699 [1:03:02<42:48,  2.02it/s] 51%|█████▏    | 5499/10699 [1:03:02<42:47,  2.02it/s] 51%|█████▏    | 5500/10699 [1:03:03<42:48,  2.02it/s]                                                      {'loss': 3.7204, 'grad_norm': 0.20177911221981049, 'learning_rate': 0.0005625597973131777, 'epoch': 0.51}
- 51%|█████▏    | 5500/10699 [1:03:03<42:48,  2.02it/s] 51%|█████▏    | 5501/10699 [1:03:03<42:48,  2.02it/s] 51%|█████▏    | 5502/10699 [1:03:04<42:47,  2.02it/s] 51%|█████▏    | 5503/10699 [1:03:04<42:47,  2.02it/s] 51%|█████▏    | 5504/10699 [1:03:05<42:42,  2.03it/s] 51%|█████▏    | 5505/10699 [1:03:05<42:44,  2.03it/s] 51%|█████▏    | 5506/10699 [1:03:06<42:40,  2.03it/s] 51%|█████▏    | 5507/10699 [1:03:06<42:45,  2.02it/s] 51%|█████▏    | 5508/10699 [1:03:07<42:43,  2.03it/s] 51%|█████▏    | 5509/10699 [1:03:07<42:47,  2.02it/s] 52%|█████▏    | 5510/10699 [1:03:08<42:43,  2.02it/s] 52%|█████▏    | 5511/10699 [1:03:08<42:43,  2.02it/s] 52%|█████▏    | 5512/10699 [1:03:09<42:42,  2.02it/s] 52%|█████▏    | 5513/10699 [1:03:09<42:42,  2.02it/s] 52%|█████▏    | 5514/10699 [1:03:10<42:43,  2.02it/s] 52%|█████▏    | 5515/10699 [1:03:10<42:46,  2.02it/s] 52%|█████▏    | 5516/10699 [1:03:11<42:41,  2.02it/s] 52%|█████▏    | 5517/10699 [1:03:11<42:46,  2.02it/s] 52%|█████▏    | 5518/10699 [1:03:12<42:43,  2.02it/s] 52%|█████▏    | 5519/10699 [1:03:12<42:47,  2.02it/s] 52%|█████▏    | 5520/10699 [1:03:13<42:41,  2.02it/s] 52%|█████▏    | 5521/10699 [1:03:13<42:41,  2.02it/s] 52%|█████▏    | 5522/10699 [1:03:14<42:38,  2.02it/s] 52%|█████▏    | 5523/10699 [1:03:14<42:37,  2.02it/s] 52%|█████▏    | 5524/10699 [1:03:15<42:37,  2.02it/s] 52%|█████▏    | 5525/10699 [1:03:15<42:36,  2.02it/s]{'loss': 3.7162, 'grad_norm': 0.2058265507221222, 'learning_rate': 0.0005585115141620499, 'epoch': 0.52}
-                                                       52%|█████▏    | 5525/10699 [1:03:15<42:36,  2.02it/s] 52%|█████▏    | 5526/10699 [1:03:16<42:39,  2.02it/s] 52%|█████▏    | 5527/10699 [1:03:16<42:38,  2.02it/s] 52%|█████▏    | 5528/10699 [1:03:17<42:38,  2.02it/s] 52%|█████▏    | 5529/10699 [1:03:17<42:37,  2.02it/s] 52%|█████▏    | 5530/10699 [1:03:18<42:37,  2.02it/s] 52%|█████▏    | 5531/10699 [1:03:18<42:34,  2.02it/s] 52%|█████▏    | 5532/10699 [1:03:18<42:34,  2.02it/s] 52%|█████▏    | 5533/10699 [1:03:19<42:34,  2.02it/s] 52%|█████▏    | 5534/10699 [1:03:19<42:33,  2.02it/s] 52%|█████▏    | 5535/10699 [1:03:20<42:32,  2.02it/s] 52%|█████▏    | 5536/10699 [1:03:20<42:27,  2.03it/s] 52%|█████▏    | 5537/10699 [1:03:21<42:30,  2.02it/s] 52%|█████▏    | 5538/10699 [1:03:21<42:28,  2.03it/s] 52%|█████▏    | 5539/10699 [1:03:22<42:30,  2.02it/s] 52%|█████▏    | 5540/10699 [1:03:22<42:30,  2.02it/s] 52%|█████▏    | 5541/10699 [1:03:23<42:30,  2.02it/s] 52%|█████▏    | 5542/10699 [1:03:23<42:29,  2.02it/s] 52%|█████▏    | 5543/10699 [1:03:24<42:29,  2.02it/s] 52%|█████▏    | 5544/10699 [1:03:24<42:28,  2.02it/s] 52%|█████▏    | 5545/10699 [1:03:25<42:25,  2.02it/s] 52%|█████▏    | 5546/10699 [1:03:25<42:26,  2.02it/s] 52%|█████▏    | 5547/10699 [1:03:26<42:29,  2.02it/s] 52%|█████▏    | 5548/10699 [1:03:26<42:30,  2.02it/s] 52%|█████▏    | 5549/10699 [1:03:27<42:28,  2.02it/s] 52%|█████▏    | 5550/10699 [1:03:27<42:28,  2.02it/s]                                                      {'loss': 3.7175, 'grad_norm': 0.19821523129940033, 'learning_rate': 0.0005544593382626693, 'epoch': 0.52}
- 52%|█████▏    | 5550/10699 [1:03:27<42:28,  2.02it/s] 52%|█████▏    | 5551/10699 [1:03:28<42:26,  2.02it/s] 52%|█████▏    | 5552/10699 [1:03:28<42:26,  2.02it/s] 52%|█████▏    | 5553/10699 [1:03:29<42:24,  2.02it/s] 52%|█████▏    | 5554/10699 [1:03:29<42:23,  2.02it/s] 52%|█████▏    | 5555/10699 [1:03:30<42:22,  2.02it/s] 52%|█████▏    | 5556/10699 [1:03:30<42:20,  2.02it/s] 52%|█████▏    | 5557/10699 [1:03:31<42:24,  2.02it/s] 52%|█████▏    | 5558/10699 [1:03:31<42:22,  2.02it/s] 52%|█████▏    | 5559/10699 [1:03:32<42:19,  2.02it/s] 52%|█████▏    | 5560/10699 [1:03:32<42:17,  2.02it/s] 52%|█████▏    | 5561/10699 [1:03:33<42:17,  2.02it/s] 52%|█████▏    | 5562/10699 [1:03:33<42:17,  2.02it/s] 52%|█████▏    | 5563/10699 [1:03:34<42:19,  2.02it/s] 52%|█████▏    | 5564/10699 [1:03:34<42:18,  2.02it/s] 52%|█████▏    | 5565/10699 [1:03:35<42:19,  2.02it/s] 52%|█████▏    | 5566/10699 [1:03:35<42:15,  2.02it/s] 52%|█████▏    | 5567/10699 [1:03:36<42:18,  2.02it/s] 52%|█████▏    | 5568/10699 [1:03:36<42:15,  2.02it/s] 52%|█████▏    | 5569/10699 [1:03:37<42:17,  2.02it/s] 52%|█████▏    | 5570/10699 [1:03:37<42:15,  2.02it/s] 52%|█████▏    | 5571/10699 [1:03:38<42:16,  2.02it/s] 52%|█████▏    | 5572/10699 [1:03:38<42:17,  2.02it/s] 52%|█████▏    | 5573/10699 [1:03:39<42:17,  2.02it/s] 52%|█████▏    | 5574/10699 [1:03:39<42:16,  2.02it/s] 52%|█████▏    | 5575/10699 [1:03:40<42:17,  2.02it/s]{'loss': 3.7145, 'grad_norm': 0.21056735515594482, 'learning_rate': 0.0005504035392047204, 'epoch': 0.52}
-                                                       52%|█████▏    | 5575/10699 [1:03:40<42:17,  2.02it/s] 52%|█████▏    | 5576/10699 [1:03:40<42:19,  2.02it/s] 52%|█████▏    | 5577/10699 [1:03:41<42:17,  2.02it/s] 52%|█████▏    | 5578/10699 [1:03:41<42:15,  2.02it/s] 52%|█████▏    | 5579/10699 [1:03:42<42:14,  2.02it/s] 52%|█████▏    | 5580/10699 [1:03:42<42:12,  2.02it/s] 52%|█████▏    | 5581/10699 [1:03:43<42:12,  2.02it/s] 52%|█████▏    | 5582/10699 [1:03:43<42:12,  2.02it/s] 52%|█████▏    | 5583/10699 [1:03:44<42:10,  2.02it/s] 52%|█████▏    | 5584/10699 [1:03:44<42:08,  2.02it/s] 52%|█████▏    | 5585/10699 [1:03:45<42:07,  2.02it/s] 52%|█████▏    | 5586/10699 [1:03:45<42:05,  2.02it/s] 52%|█████▏    | 5587/10699 [1:03:46<42:10,  2.02it/s] 52%|█████▏    | 5588/10699 [1:03:46<42:07,  2.02it/s] 52%|█████▏    | 5589/10699 [1:03:47<42:06,  2.02it/s] 52%|█████▏    | 5590/10699 [1:03:47<42:06,  2.02it/s] 52%|█████▏    | 5591/10699 [1:03:48<42:01,  2.03it/s] 52%|█████▏    | 5592/10699 [1:03:48<42:06,  2.02it/s] 52%|█████▏    | 5593/10699 [1:03:49<42:03,  2.02it/s] 52%|█████▏    | 5594/10699 [1:03:49<42:02,  2.02it/s] 52%|█████▏    | 5595/10699 [1:03:50<42:02,  2.02it/s] 52%|█████▏    | 5596/10699 [1:03:50<42:00,  2.02it/s] 52%|█████▏    | 5597/10699 [1:03:51<42:05,  2.02it/s] 52%|█████▏    | 5598/10699 [1:03:51<42:04,  2.02it/s] 52%|█████▏    | 5599/10699 [1:03:52<42:02,  2.02it/s] 52%|█████▏    | 5600/10699 [1:03:52<42:01,  2.02it/s]                                                      {'loss': 3.7104, 'grad_norm': 0.20039896667003632, 'learning_rate': 0.0005463443868189353, 'epoch': 0.52}
- 52%|█████▏    | 5600/10699 [1:03:52<42:01,  2.02it/s] 52%|█████▏    | 5601/10699 [1:03:53<41:58,  2.02it/s] 52%|██��██▏    | 5602/10699 [1:03:53<42:01,  2.02it/s] 52%|█████▏    | 5603/10699 [1:03:54<41:57,  2.02it/s] 52%|█████▏    | 5604/10699 [1:03:54<41:56,  2.02it/s] 52%|█████▏    | 5605/10699 [1:03:55<41:57,  2.02it/s] 52%|█████▏    | 5606/10699 [1:03:55<41:59,  2.02it/s] 52%|█████▏    | 5607/10699 [1:03:56<41:59,  2.02it/s] 52%|█████▏    | 5608/10699 [1:03:56<41:56,  2.02it/s] 52%|█████▏    | 5609/10699 [1:03:57<41:57,  2.02it/s] 52%|█████▏    | 5610/10699 [1:03:57<41:55,  2.02it/s] 52%|█████▏    | 5611/10699 [1:03:58<41:55,  2.02it/s] 52%|█████▏    | 5612/10699 [1:03:58<41:55,  2.02it/s] 52%|█████▏    | 5613/10699 [1:03:59<41:55,  2.02it/s] 52%|█████▏    | 5614/10699 [1:03:59<41:52,  2.02it/s] 52%|█████▏    | 5615/10699 [1:04:00<41:53,  2.02it/s] 52%|█████▏    | 5616/10699 [1:04:00<41:49,  2.03it/s] 53%|█████▎    | 5617/10699 [1:04:01<41:54,  2.02it/s] 53%|█████▎    | 5618/10699 [1:04:01<41:50,  2.02it/s] 53%|█████▎    | 5619/10699 [1:04:02<41:50,  2.02it/s] 53%|█████▎    | 5620/10699 [1:04:02<41:48,  2.02it/s] 53%|█████▎    | 5621/10699 [1:04:02<41:48,  2.02it/s] 53%|█████▎    | 5622/10699 [1:04:03<41:47,  2.02it/s] 53%|█████▎    | 5623/10699 [1:04:03<41:46,  2.02it/s] 53%|█████▎    | 5624/10699 [1:04:04<41:46,  2.02it/s] 53%|█████▎    | 5625/10699 [1:04:04<41:43,  2.03it/s]                                                      {'loss': 3.7099, 'grad_norm': 0.2114434838294983, 'learning_rate': 0.0005422821511591417, 'epoch': 0.53}
- 53%|█████▎    | 5625/10699 [1:04:04<41:43,  2.03it/s] 53%|█████▎    | 5626/10699 [1:04:05<41:45,  2.02it/s] 53%|█████▎    | 5627/10699 [1:04:05<41:49,  2.02it/s] 53%|█████▎    | 5628/10699 [1:04:06<41:49,  2.02it/s] 53%|█████▎    | 5629/10699 [1:04:06<41:45,  2.02it/s] 53%|█████▎    | 5630/10699 [1:04:07<41:45,  2.02it/s] 53%|█████▎    | 5631/10699 [1:04:07<41:43,  2.02it/s] 53%|█████▎    | 5632/10699 [1:04:08<41:46,  2.02it/s] 53%|█████▎    | 5633/10699 [1:04:08<41:41,  2.02it/s] 53%|█████▎    | 5634/10699 [1:04:09<41:44,  2.02it/s] 53%|█████▎    | 5635/10699 [1:04:09<41:41,  2.02it/s] 53%|█████▎    | 5636/10699 [1:04:10<41:41,  2.02it/s] 53%|█████▎    | 5637/10699 [1:04:10<41:42,  2.02it/s] 53%|█████▎    | 5638/10699 [1:04:11<41:42,  2.02it/s] 53%|█████▎    | 5639/10699 [1:04:11<41:40,  2.02it/s] 53%|█████▎    | 5640/10699 [1:04:12<41:43,  2.02it/s] 53%|█████▎    | 5641/10699 [1:04:12<41:40,  2.02it/s] 53%|█████▎    | 5642/10699 [1:04:13<41:41,  2.02it/s] 53%|█████▎    | 5643/10699 [1:04:13<41:38,  2.02it/s] 53%|█████▎    | 5644/10699 [1:04:14<41:39,  2.02it/s] 53%|█████▎    | 5645/10699 [1:04:14<41:38,  2.02it/s] 53%|█████▎    | 5646/10699 [1:04:15<41:37,  2.02it/s] 53%|█████▎    | 5647/10699 [1:04:15<41:39,  2.02it/s] 53%|█████▎    | 5648/10699 [1:04:16<41:37,  2.02it/s] 53%|█████▎    | 5649/10699 [1:04:16<41:37,  2.02it/s] 53%|█████▎    | 5650/10699 [1:04:17<41:34,  2.02it/s]                                                      {'loss': 3.7158, 'grad_norm': 0.20085829496383667, 'learning_rate': 0.000538217102484296, 'epoch': 0.53}
- 53%|█████▎    | 5650/10699 [1:04:17<41:34,  2.02it/s] 53%|█████▎    | 5651/10699 [1:04:17<41:38,  2.02it/s] 53%|█████▎    | 5652/10699 [1:04:18<41:37,  2.02it/s] 53%|█████▎    | 5653/10699 [1:04:18<41:36,  2.02it/s] 53%|█████▎    | 5654/10699 [1:04:19<41:36,  2.02it/s] 53%|█████▎    | 5655/10699 [1:04:19<41:36,  2.02it/s] 53%|█████▎    | 5656/10699 [1:04:20<41:32,  2.02it/s] 53%|█████▎    | 5657/10699 [1:04:20<41:36,  2.02it/s] 53%|█████▎    | 5658/10699 [1:04:21<41:33,  2.02it/s] 53%|█████▎    | 5659/10699 [1:04:21<41:34,  2.02it/s] 53%|█████▎    | 5660/10699 [1:04:22<41:32,  2.02it/s] 53%|█████▎    | 5661/10699 [1:04:22<41:31,  2.02it/s] 53%|█████▎    | 5662/10699 [1:04:23<41:31,  2.02it/s] 53%|█████▎    | 5663/10699 [1:04:23<41:32,  2.02it/s] 53%|█████▎    | 5664/10699 [1:04:24<41:30,  2.02it/s] 53%|█████▎    | 5665/10699 [1:04:24<41:31,  2.02it/s] 53%|█████▎    | 5666/10699 [1:04:25<41:32,  2.02it/s] 53%|█████▎    | 5667/10699 [1:04:25<41:34,  2.02it/s] 53%|█████▎    | 5668/10699 [1:04:26<41:30,  2.02it/s] 53%|█████▎    | 5669/10699 [1:04:26<41:31,  2.02it/s] 53%|█████▎    | 5670/10699 [1:04:27<41:26,  2.02it/s] 53%|█████▎    | 5671/10699 [1:04:27<41:27,  2.02it/s] 53%|█████▎    | 5672/10699 [1:04:28<41:24,  2.02it/s] 53%|█████▎    | 5673/10699 [1:04:28<41:26,  2.02it/s] 53%|█████▎    | 5674/10699 [1:04:29<41:23,  2.02it/s] 53%|█████▎    | 5675/10699 [1:04:29<41:21,  2.02it/s]{'loss': 3.7093, 'grad_norm': 0.19693052768707275, 'learning_rate': 0.0005341495112405039, 'epoch': 0.53}
-                                                       53%|█████▎    | 5675/10699 [1:04:29<41:21,  2.02it/s] 53%|█████▎    | 5676/10699 [1:04:30<41:23,  2.02it/s] 53%|█████▎    | 5677/10699 [1:04:30<41:20,  2.02it/s] 53%|█████▎    | 5678/10699 [1:04:31<41:23,  2.02it/s] 53%|█████▎    | 5679/10699 [1:04:31<41:20,  2.02it/s] 53%|█████▎    | 5680/10699 [1:04:32<41:21,  2.02it/s] 53%|█████▎    | 5681/10699 [1:04:32<41:18,  2.02it/s] 53%|█████▎    | 5682/10699 [1:04:33<41:18,  2.02it/s] 53%|█████▎    | 5683/10699 [1:04:33<41:17,  2.02it/s] 53%|█████▎    | 5684/10699 [1:04:34<41:15,  2.03it/s] 53%|█████▎    | 5685/10699 [1:04:34<41:20,  2.02it/s] 53%|█████▎    | 5686/10699 [1:04:35<41:17,  2.02it/s] 53%|█████▎    | 5687/10699 [1:04:35<41:18,  2.02it/s] 53%|█████▎    | 5688/10699 [1:04:36<41:18,  2.02it/s] 53%|█████▎    | 5689/10699 [1:04:36<41:20,  2.02it/s] 53%|█████▎    | 5690/10699 [1:04:37<41:16,  2.02it/s] 53%|█████▎    | 5691/10699 [1:04:37<41:18,  2.02it/s] 53%|█████▎    | 5692/10699 [1:04:38<41:14,  2.02it/s] 53%|█████▎    | 5693/10699 [1:04:38<41:15,  2.02it/s] 53%|█████▎    | 5694/10699 [1:04:39<41:13,  2.02it/s] 53%|█████▎    | 5695/10699 [1:04:39<41:14,  2.02it/s] 53%|█████▎    | 5696/10699 [1:04:40<41:15,  2.02it/s] 53%|█████▎    | 5697/10699 [1:04:40<41:17,  2.02it/s] 53%|█████▎    | 5698/10699 [1:04:41<41:17,  2.02it/s] 53%|█████▎    | 5699/10699 [1:04:41<41:17,  2.02it/s] 53%|█████▎    | 5700/10699 [1:04:42<41:15,  2.02it/s]{'loss': 3.7056, 'grad_norm': 0.20055221021175385, 'learning_rate': 0.0005300796480430264, 'epoch': 0.53}                                                      
- 53%|█████▎    | 5700/10699 [1:04:42<41:15,  2.02it/s] 53%|█████▎    | 5701/10699 [1:04:42<41:17,  2.02it/s] 53%|█████▎    | 5702/10699 [1:04:43<41:14,  2.02it/s] 53%|█████▎    | 5703/10699 [1:04:43<41:11,  2.02it/s] 53%|█████▎    | 5704/10699 [1:04:44<41:11,  2.02it/s] 53%|█████▎    | 5705/10699 [1:04:44<41:11,  2.02it/s] 53%|█████▎    | 5706/10699 [1:04:45<41:10,  2.02it/s] 53%|█████▎    | 5707/10699 [1:04:45<41:12,  2.02it/s] 53%|█████▎    | 5708/10699 [1:04:46<41:09,  2.02it/s] 53%|█████▎    | 5709/10699 [1:04:46<41:11,  2.02it/s] 53%|█████▎    | 5710/10699 [1:04:47<41:08,  2.02it/s] 53%|█████▎    | 5711/10699 [1:04:47<41:09,  2.02it/s] 53%|█████▎    | 5712/10699 [1:04:48<41:06,  2.02it/s] 53%|█████▎    | 5713/10699 [1:04:48<41:08,  2.02it/s] 53%|█████▎    | 5714/10699 [1:04:48<41:03,  2.02it/s] 53%|█████▎    | 5715/10699 [1:04:49<41:04,  2.02it/s] 53%|█████▎    | 5716/10699 [1:04:49<41:02,  2.02it/s] 53%|█████▎    | 5717/10699 [1:04:50<41:01,  2.02it/s] 53%|█████▎    | 5718/10699 [1:04:50<41:02,  2.02it/s] 53%|█████▎    | 5719/10699 [1:04:51<41:04,  2.02it/s] 53%|█████▎    | 5720/10699 [1:04:51<41:01,  2.02it/s] 53%|█████▎    | 5721/10699 [1:04:52<40:58,  2.02it/s] 53%|█████▎    | 5722/10699 [1:04:52<40:58,  2.02it/s] 53%|█████▎    | 5723/10699 [1:04:53<40:56,  2.03it/s] 54%|█████▎    | 5724/10699 [1:04:53<40:57,  2.02it/s] 54%|█████▎    | 5725/10699 [1:04:54<40:55,  2.03it/s]{'loss': 3.7089, 'grad_norm': 0.20009304583072662, 'learning_rate': 0.0005260077836582779, 'epoch': 0.54}
-                                                       54%|█████▎    | 5725/10699 [1:04:54<40:55,  2.03it/s] 54%|█████▎    | 5726/10699 [1:04:54<41:00,  2.02it/s] 54%|█████▎    | 5727/10699 [1:04:55<41:00,  2.02it/s] 54%|█████▎    | 5728/10699 [1:04:55<41:00,  2.02it/s] 54%|█████▎    | 5729/10699 [1:04:56<41:01,  2.02it/s] 54%|█████▎    | 5730/10699 [1:04:56<40:58,  2.02it/s] 54%|█████▎    | 5731/10699 [1:04:57<40:57,  2.02it/s] 54%|█████▎    | 5732/10699 [1:04:57<40:55,  2.02it/s] 54%|█████▎    | 5733/10699 [1:04:58<40:53,  2.02it/s] 54%|█████▎    | 5734/10699 [1:04:58<40:54,  2.02it/s] 54%|█████▎    | 5735/10699 [1:04:59<40:52,  2.02it/s] 54%|█████▎    | 5736/10699 [1:04:59<40:52,  2.02it/s] 54%|█████▎    | 5737/10699 [1:05:00<40:51,  2.02it/s] 54%|█████▎    | 5738/10699 [1:05:00<40:53,  2.02it/s] 54%|█████▎    | 5739/10699 [1:05:01<40:52,  2.02it/s] 54%|█████▎    | 5740/10699 [1:05:01<40:53,  2.02it/s] 54%|█████▎    | 5741/10699 [1:05:02<40:52,  2.02it/s] 54%|█████▎    | 5742/10699 [1:05:02<40:51,  2.02it/s] 54%|█████▎    | 5743/10699 [1:05:03<40:49,  2.02it/s] 54%|█████▎    | 5744/10699 [1:05:03<40:49,  2.02it/s] 54%|█████▎    | 5745/10699 [1:05:04<40:46,  2.02it/s] 54%|█████▎    | 5746/10699 [1:05:04<40:45,  2.03it/s] 54%|█████▎    | 5747/10699 [1:05:05<40:47,  2.02it/s] 54%|█████▎    | 5748/10699 [1:05:05<40:46,  2.02it/s] 54%|█████▎    | 5749/10699 [1:05:06<40:44,  2.03it/s] 54%|█████▎    | 5750/10699 [1:05:06<40:45,  2.02it/s]                                                      {'loss': 3.7074, 'grad_norm': 0.19733841717243195, 'learning_rate': 0.0005219341889858099, 'epoch': 0.54}
- 54%|█████▎    | 5750/10699 [1:05:06<40:45,  2.02it/s] 54%|█████▍    | 5751/10699 [1:05:07<40:47,  2.02it/s] 54%|█████▍    | 5752/10699 [1:05:07<40:48,  2.02it/s] 54%|█████▍    | 5753/10699 [1:05:08<40:44,  2.02it/s] 54%|█████▍    | 5754/10699 [1:05:08<40:43,  2.02it/s] 54%|█████▍    | 5755/10699 [1:05:09<40:42,  2.02it/s] 54%|█████▍    | 5756/10699 [1:05:09<40:41,  2.02it/s] 54%|█████▍    | 5757/10699 [1:05:10<40:44,  2.02it/s] 54%|█████▍    | 5758/10699 [1:05:10<40:42,  2.02it/s] 54%|█████▍    | 5759/10699 [1:05:11<40:41,  2.02it/s] 54%|█████▍    | 5760/10699 [1:05:11<40:40,  2.02it/s] 54%|█████▍    | 5761/10699 [1:05:12<40:38,  2.02it/s] 54%|█████▍    | 5762/10699 [1:05:12<40:37,  2.03it/s] 54%|█████▍    | 5763/10699 [1:05:13<40:37,  2.02it/s] 54%|█████▍    | 5764/10699 [1:05:13<40:34,  2.03it/s] 54%|█████▍    | 5765/10699 [1:05:14<40:36,  2.02it/s] 54%|█████▍    | 5766/10699 [1:05:14<40:34,  2.03it/s] 54%|█████▍    | 5767/10699 [1:05:15<40:35,  2.03it/s] 54%|█████▍    | 5768/10699 [1:05:15<40:37,  2.02it/s] 54%|█████▍    | 5769/10699 [1:05:16<40:38,  2.02it/s] 54%|█████▍    | 5770/10699 [1:05:16<40:37,  2.02it/s] 54%|█████▍    | 5771/10699 [1:05:17<40:35,  2.02it/s] 54%|█████▍    | 5772/10699 [1:05:17<40:34,  2.02it/s] 54%|█████▍    | 5773/10699 [1:05:18<40:34,  2.02it/s] 54%|█████▍    | 5774/10699 [1:05:18<40:34,  2.02it/s] 54%|█████▍    | 5775/10699 [1:05:19<40:33,  2.02it/s]{'loss': 3.7158, 'grad_norm': 0.19309835135936737, 'learning_rate': 0.0005178591350402899, 'epoch': 0.54}
-                                                       54%|█████▍    | 5775/10699 [1:05:19<40:33,  2.02it/s] 54%|█████▍    | 5776/10699 [1:05:19<40:35,  2.02it/s] 54%|█████▍    | 5777/10699 [1:05:20<40:33,  2.02it/s] 54%|█████▍    | 5778/10699 [1:05:20<40:32,  2.02it/s] 54%|█████▍    | 5779/10699 [1:05:21<40:29,  2.03it/s] 54%|█████▍    | 5780/10699 [1:05:21<40:29,  2.02it/s] 54%|█████▍    | 5781/10699 [1:05:22<40:27,  2.03it/s] 54%|█████▍    | 5782/10699 [1:05:22<40:28,  2.02it/s] 54%|█████▍    | 5783/10699 [1:05:23<40:26,  2.03it/s] 54%|█████▍    | 5784/10699 [1:05:23<40:28,  2.02it/s] 54%|█████▍    | 5785/10699 [1:05:24<40:29,  2.02it/s] 54%|█████▍    | 5786/10699 [1:05:24<40:30,  2.02it/s] 54%|█████▍    | 5787/10699 [1:05:25<40:27,  2.02it/s] 54%|█████▍    | 5788/10699 [1:05:25<40:27,  2.02it/s] 54%|█████▍    | 5789/10699 [1:05:26<40:26,  2.02it/s] 54%|█████▍    | 5790/10699 [1:05:26<40:24,  2.03it/s] 54%|█████▍    | 5791/10699 [1:05:27<40:24,  2.02it/s] 54%|█████▍    | 5792/10699 [1:05:27<40:23,  2.02it/s] 54%|█████▍    | 5793/10699 [1:05:28<40:24,  2.02it/s] 54%|█████▍    | 5794/10699 [1:05:28<40:21,  2.03it/s] 54%|█████▍    | 5795/10699 [1:05:29<40:23,  2.02it/s] 54%|█████▍    | 5796/10699 [1:05:29<40:20,  2.03it/s] 54%|█████▍    | 5797/10699 [1:05:30<40:26,  2.02it/s] 54%|█████▍    | 5798/10699 [1:05:30<40:20,  2.02it/s] 54%|█████▍    | 5799/10699 [1:05:31<40:22,  2.02it/s] 54%|█████▍    | 5800/10699 [1:05:31<40:19,  2.02it/s]{'loss': 3.7041, 'grad_norm': 0.21130719780921936, 'learning_rate': 0.00051378289293347, 'epoch': 0.54}
-                                                       54%|█████▍    | 5800/10699 [1:05:31<40:19,  2.02it/s] 54%|█████▍    | 5801/10699 [1:05:31<40:23,  2.02it/s] 54%|█████▍    | 5802/10699 [1:05:32<40:21,  2.02it/s] 54%|█████▍    | 5803/10699 [1:05:32<40:18,  2.02it/s] 54%|█████▍    | 5804/10699 [1:05:33<40:18,  2.02it/s] 54%|█████▍    | 5805/10699 [1:05:33<40:16,  2.03it/s] 54%|█████▍    | 5806/10699 [1:05:34<40:17,  2.02it/s] 54%|█████▍    | 5807/10699 [1:05:34<40:16,  2.02it/s] 54%|█████▍    | 5808/10699 [1:05:35<40:17,  2.02it/s] 54%|█████▍    | 5809/10699 [1:05:35<40:17,  2.02it/s] 54%|█████▍    | 5810/10699 [1:05:36<40:15,  2.02it/s] 54%|█████▍    | 5811/10699 [1:05:36<40:15,  2.02it/s] 54%|█████▍    | 5812/10699 [1:05:37<40:18,  2.02it/s] 54%|█████▍    | 5813/10699 [1:05:37<40:16,  2.02it/s] 54%|█████▍    | 5814/10699 [1:05:38<40:14,  2.02it/s] 54%|█████▍    | 5815/10699 [1:05:38<40:17,  2.02it/s] 54%|█████▍    | 5816/10699 [1:05:39<40:16,  2.02it/s] 54%|█████▍    | 5817/10699 [1:05:39<40:13,  2.02it/s] 54%|█████▍    | 5818/10699 [1:05:40<40:10,  2.02it/s] 54%|█████▍    | 5819/10699 [1:05:40<40:09,  2.03it/s] 54%|█████▍    | 5820/10699 [1:05:41<40:10,  2.02it/s] 54%|█████▍    | 5821/10699 [1:05:41<40:08,  2.02it/s] 54%|█████▍    | 5822/10699 [1:05:42<40:09,  2.02it/s] 54%|█████▍    | 5823/10699 [1:05:42<40:07,  2.03it/s] 54%|█████▍    | 5824/10699 [1:05:43<40:08,  2.02it/s] 54%|█████▍    | 5825/10699 [1:05:43<40:07,  2.02it/s]{'loss': 3.6962, 'grad_norm': 0.22006383538246155, 'learning_rate': 0.0005097057338561503, 'epoch': 0.54}
-                                                       54%|█████▍    | 5825/10699 [1:05:43<40:07,  2.02it/s] 54%|█████▍    | 5826/10699 [1:05:44<40:12,  2.02it/s] 54%|█████▍    | 5827/10699 [1:05:44<40:08,  2.02it/s] 54%|█████▍    | 5828/10699 [1:05:45<40:09,  2.02it/s] 54%|█████▍    | 5829/10699 [1:05:45<40:07,  2.02it/s] 54%|█████▍    | 5830/10699 [1:05:46<40:08,  2.02it/s] 55%|█████▍    | 5831/10699 [1:05:46<40:06,  2.02it/s] 55%|█████▍    | 5832/10699 [1:05:47<40:07,  2.02it/s] 55%|█████▍    | 5833/10699 [1:05:47<40:05,  2.02it/s] 55%|█████▍    | 5834/10699 [1:05:48<40:02,  2.03it/s] 55%|█████▍    | 5835/10699 [1:05:48<40:01,  2.03it/s] 55%|█████▍    | 5836/10699 [1:05:49<40:01,  2.03it/s] 55%|█████▍    | 5837/10699 [1:05:49<39:59,  2.03it/s] 55%|█████▍    | 5838/10699 [1:05:50<39:59,  2.03it/s] 55%|█████▍    | 5839/10699 [1:05:50<39:59,  2.03it/s] 55%|█████▍    | 5840/10699 [1:05:51<39:59,  2.03it/s] 55%|█████▍    | 5841/10699 [1:05:51<39:55,  2.03it/s] 55%|█████▍    | 5842/10699 [1:05:52<39:58,  2.02it/s] 55%|█████▍    | 5843/10699 [1:05:52<39:56,  2.03it/s] 55%|█████▍    | 5844/10699 [1:05:53<39:58,  2.02it/s] 55%|█████▍    | 5845/10699 [1:05:53<39:55,  2.03it/s] 55%|█████▍    | 5846/10699 [1:05:54<39:58,  2.02it/s] 55%|█████▍    | 5847/10699 [1:05:54<39:55,  2.03it/s] 55%|█████▍    | 5848/10699 [1:05:55<39:55,  2.02it/s] 55%|█████▍    | 5849/10699 [1:05:55<39:55,  2.02it/s] 55%|█████▍    | 5850/10699 [1:05:56<39:56,  2.02it/s]{'loss': 3.7017, 'grad_norm': 0.22578158974647522, 'learning_rate': 0.0005056279290601365, 'epoch': 0.55}
-                                                       55%|█████▍    | 5850/10699 [1:05:56<39:56,  2.02it/s] 55%|█████▍    | 5851/10699 [1:05:56<40:05,  2.02it/s] 55%|█████▍    | 5852/10699 [1:05:57<40:02,  2.02it/s] 55%|█████▍    | 5853/10699 [1:05:57<39:58,  2.02it/s] 55%|█████▍    | 5854/10699 [1:05:58<39:55,  2.02it/s] 55%|█████▍    | 5855/10699 [1:05:58<39:56,  2.02it/s] 55%|█████▍    | 5856/10699 [1:05:59<39:56,  2.02it/s] 55%|█████▍    | 5857/10699 [1:05:59<39:56,  2.02it/s] 55%|█████▍    | 5858/10699 [1:06:00<39:54,  2.02it/s] 55%|█████▍    | 5859/10699 [1:06:00<39:54,  2.02it/s] 55%|█████▍    | 5860/10699 [1:06:01<39:52,  2.02it/s] 55%|█████▍    | 5861/10699 [1:06:01<39:55,  2.02it/s] 55%|█████▍    | 5862/10699 [1:06:02<39:51,  2.02it/s] 55%|█████▍    | 5863/10699 [1:06:02<39:48,  2.02it/s] 55%|█████▍    | 5864/10699 [1:06:03<39:48,  2.02it/s] 55%|█████▍    | 5865/10699 [1:06:03<39:46,  2.03it/s] 55%|█████▍    | 5866/10699 [1:06:04<39:47,  2.02it/s] 55%|█████▍    | 5867/10699 [1:06:04<39:45,  2.03it/s] 55%|█████▍    | 5868/10699 [1:06:05<39:45,  2.03it/s] 55%|█████▍    | 5869/10699 [1:06:05<39:46,  2.02it/s] 55%|█████▍    | 5870/10699 [1:06:06<39:46,  2.02it/s] 55%|█████▍    | 5871/10699 [1:06:06<39:50,  2.02it/s] 55%|█████▍    | 5872/10699 [1:06:07<39:46,  2.02it/s] 55%|█████▍    | 5873/10699 [1:06:07<39:46,  2.02it/s] 55%|█████▍    | 5874/10699 [1:06:08<39:46,  2.02it/s] 55%|█████▍    | 5875/10699 [1:06:08<39:44,  2.02it/s]{'loss': 3.7052, 'grad_norm': 0.1987014263868332, 'learning_rate': 0.0005015497498401937, 'epoch': 0.55}                                                      
- 55%|█████▍    | 5875/10699 [1:06:08<39:44,  2.02it/s] 55%|█████▍    | 5876/10699 [1:06:09<39:47,  2.02it/s] 55%|█████▍    | 5877/10699 [1:06:09<39:46,  2.02it/s] 55%|█████▍    | 5878/10699 [1:06:10<39:44,  2.02it/s] 55%|█████▍    | 5879/10699 [1:06:10<39:41,  2.02it/s] 55%|█████▍    | 5880/10699 [1:06:11<39:42,  2.02it/s] 55%|█████▍    | 5881/10699 [1:06:11<39:40,  2.02it/s] 55%|█████▍    | 5882/10699 [1:06:12<39:39,  2.02it/s] 55%|█████▍    | 5883/10699 [1:06:12<39:38,  2.02it/s] 55%|█████▍    | 5884/10699 [1:06:13<39:39,  2.02it/s] 55%|█████▌    | 5885/10699 [1:06:13<39:39,  2.02it/s] 55%|█████▌    | 5886/10699 [1:06:14<39:38,  2.02it/s] 55%|█████▌    | 5887/10699 [1:06:14<39:39,  2.02it/s] 55%|█████▌    | 5888/10699 [1:06:14<39:36,  2.02it/s] 55%|█████▌    | 5889/10699 [1:06:15<39:38,  2.02it/s] 55%|█████▌    | 5890/10699 [1:06:15<39:34,  2.02it/s] 55%|█████▌    | 5891/10699 [1:06:16<39:36,  2.02it/s] 55%|█████▌    | 5892/10699 [1:06:16<39:33,  2.02it/s] 55%|█████▌    | 5893/10699 [1:06:17<39:33,  2.02it/s] 55%|█████▌    | 5894/10699 [1:06:17<39:33,  2.02it/s] 55%|█████▌    | 5895/10699 [1:06:18<39:30,  2.03it/s] 55%|█████▌    | 5896/10699 [1:06:18<39:34,  2.02it/s] 55%|█████▌    | 5897/10699 [1:06:19<39:31,  2.03it/s] 55%|█████▌    | 5898/10699 [1:06:19<39:34,  2.02it/s] 55%|█████▌    | 5899/10699 [1:06:20<39:29,  2.03it/s] 55%|█████▌    | 5900/10699 [1:06:20<39:31,  2.02it/s]                                                      {'loss': 3.6948, 'grad_norm': 0.2006392627954483, 'learning_rate': 0.0004974714675159977, 'epoch': 0.55}
- 55%|█████▌    | 5900/10699 [1:06:20<39:31,  2.02it/s] 55%|█████▌    | 5901/10699 [1:06:21<39:33,  2.02it/s] 55%|█████▌    | 5902/10699 [1:06:21<39:33,  2.02it/s] 55%|█████▌    | 5903/10699 [1:06:22<39:30,  2.02it/s] 55%|█████▌    | 5904/10699 [1:06:22<39:30,  2.02it/s] 55%|█████▌    | 5905/10699 [1:06:23<39:27,  2.02it/s] 55%|█████▌    | 5906/10699 [1:06:23<39:31,  2.02it/s] 55%|█████▌    | 5907/10699 [1:06:24<39:27,  2.02it/s] 55%|█████▌    | 5908/10699 [1:06:24<39:25,  2.03it/s] 55%|█████▌    | 5909/10699 [1:06:25<39:28,  2.02it/s] 55%|█████▌    | 5910/10699 [1:06:25<39:30,  2.02it/s] 55%|█████▌    | 5911/10699 [1:06:26<39:29,  2.02it/s] 55%|█████▌    | 5912/10699 [1:06:26<39:27,  2.02it/s] 55%|█████▌    | 5913/10699 [1:06:27<39:26,  2.02it/s] 55%|█████▌    | 5914/10699 [1:06:27<39:22,  2.03it/s] 55%|█████▌    | 5915/10699 [1:06:28<39:25,  2.02it/s] 55%|█████▌    | 5916/10699 [1:06:28<39:23,  2.02it/s] 55%|█████▌    | 5917/10699 [1:06:29<39:25,  2.02it/s] 55%|█████▌    | 5918/10699 [1:06:29<39:22,  2.02it/s] 55%|█████▌    | 5919/10699 [1:06:30<39:22,  2.02it/s] 55%|█████▌    | 5920/10699 [1:06:30<39:19,  2.03it/s] 55%|█████▌    | 5921/10699 [1:06:31<39:22,  2.02it/s] 55%|█████▌    | 5922/10699 [1:06:31<39:20,  2.02it/s] 55%|█████▌    | 5923/10699 [1:06:32<39:22,  2.02it/s] 55%|█████▌    | 5924/10699 [1:06:32<39:19,  2.02it/s] 55%|█████▌    | 5925/10699 [1:06:33<39:19,  2.02it/s]{'loss': 3.6874, 'grad_norm': 0.19839239120483398, 'learning_rate': 0.0004933933534140831, 'epoch': 0.55}                                                      
- 55%|█████▌    | 5925/10699 [1:06:33<39:19,  2.02it/s] 55%|█████▌    | 5926/10699 [1:06:33<39:24,  2.02it/s] 55%|█████▌    | 5927/10699 [1:06:34<39:24,  2.02it/s] 55%|█████▌    | 5928/10699 [1:06:34<39:21,  2.02it/s] 55%|█████▌    | 5929/10699 [1:06:35<39:22,  2.02it/s] 55%|█████▌    | 5930/10699 [1:06:35<39:19,  2.02it/s] 55%|█████▌    | 5931/10699 [1:06:36<39:18,  2.02it/s] 55%|█████▌    | 5932/10699 [1:06:36<39:17,  2.02it/s] 55%|█████▌    | 5933/10699 [1:06:37<39:16,  2.02it/s] 55%|█████▌    | 5934/10699 [1:06:37<39:16,  2.02it/s] 55%|█████▌    | 5935/10699 [1:06:38<39:14,  2.02it/s] 55%|█████▌    | 5936/10699 [1:06:38<39:17,  2.02it/s] 55%|█████▌    | 5937/10699 [1:06:39<39:14,  2.02it/s] 56%|█████▌    | 5938/10699 [1:06:39<39:13,  2.02it/s] 56%|█████▌    | 5939/10699 [1:06:40<39:12,  2.02it/s] 56%|█████▌    | 5940/10699 [1:06:40<39:12,  2.02it/s] 56%|█████▌    | 5941/10699 [1:06:41<39:12,  2.02it/s] 56%|█████▌    | 5942/10699 [1:06:41<39:11,  2.02it/s] 56%|█████▌    | 5943/10699 [1:06:42<39:09,  2.02it/s] 56%|█████▌    | 5944/10699 [1:06:42<39:07,  2.03it/s] 56%|█████▌    | 5945/10699 [1:06:43<39:09,  2.02it/s] 56%|█████▌    | 5946/10699 [1:06:43<39:08,  2.02it/s] 56%|█████▌    | 5947/10699 [1:06:44<39:09,  2.02it/s] 56%|█████▌    | 5948/10699 [1:06:44<39:07,  2.02it/s] 56%|█████▌    | 5949/10699 [1:06:45<39:05,  2.03it/s] 56%|█████▌    | 5950/10699 [1:06:45<39:05,  2.02it/s]{'loss': 3.6958, 'grad_norm': 0.2193865031003952, 'learning_rate': 0.0004893156788497934, 'epoch': 0.56}                                                      
- 56%|█████▌    | 5950/10699 [1:06:45<39:05,  2.02it/s] 56%|█████▌    | 5951/10699 [1:06:46<39:07,  2.02it/s] 56%|█████▌    | 5952/10699 [1:06:46<39:07,  2.02it/s] 56%|█████▌    | 5953/10699 [1:06:47<39:04,  2.02it/s] 56%|█████▌    | 5954/10699 [1:06:47<39:05,  2.02it/s] 56%|█████▌    | 5955/10699 [1:06:48<39:02,  2.03it/s] 56%|█████▌    | 5956/10699 [1:06:48<39:02,  2.02it/s] 56%|█████▌    | 5957/10699 [1:06:49<39:01,  2.03it/s] 56%|█████▌    | 5958/10699 [1:06:49<39:00,  2.03it/s] 56%|█████▌    | 5959/10699 [1:06:50<39:02,  2.02it/s] 56%|█████▌    | 5960/10699 [1:06:50<38:59,  2.03it/s] 56%|█████▌    | 5961/10699 [1:06:51<39:01,  2.02it/s] 56%|█████▌    | 5962/10699 [1:06:51<38:58,  2.03it/s] 56%|█████▌    | 5963/10699 [1:06:52<38:58,  2.02it/s] 56%|█████▌    | 5964/10699 [1:06:52<38:59,  2.02it/s] 56%|█████▌    | 5965/10699 [1:06:53<38:58,  2.02it/s] 56%|█████▌    | 5966/10699 [1:06:53<38:59,  2.02it/s] 56%|█████▌    | 5967/10699 [1:06:54<38:54,  2.03it/s] 56%|█████▌    | 5968/10699 [1:06:54<38:58,  2.02it/s] 56%|█████▌    | 5969/10699 [1:06:55<38:55,  2.03it/s] 56%|█████▌    | 5970/10699 [1:06:55<38:56,  2.02it/s] 56%|█████▌    | 5971/10699 [1:06:56<38:54,  2.03it/s] 56%|█████▌    | 5972/10699 [1:06:56<38:57,  2.02it/s] 56%|█████▌    | 5973/10699 [1:06:57<38:55,  2.02it/s] 56%|█████▌    | 5974/10699 [1:06:57<38:56,  2.02it/s] 56%|█████▌    | 5975/10699 [1:06:57<38:55,  2.02it/s]                                                      {'loss': 3.6961, 'grad_norm': 0.2147505134344101, 'learning_rate': 0.00048523871510922935, 'epoch': 0.56}
- 56%|█████▌    | 5975/10699 [1:06:57<38:55,  2.02it/s] 56%|█████▌    | 5976/10699 [1:06:58<38:58,  2.02it/s] 56%|█████▌    | 5977/10699 [1:06:58<38:56,  2.02it/s] 56%|█████▌    | 5978/10699 [1:06:59<38:56,  2.02it/s] 56%|█████▌    | 5979/10699 [1:06:59<38:53,  2.02it/s] 56%|█████▌    | 5980/10699 [1:07:00<38:52,  2.02it/s] 56%|█████▌    | 5981/10699 [1:07:00<38:50,  2.02it/s] 56%|█████▌    | 5982/10699 [1:07:01<38:48,  2.03it/s] 56%|█████▌    | 5983/10699 [1:07:01<38:48,  2.03it/s] 56%|█████▌    | 5984/10699 [1:07:02<38:46,  2.03it/s] 56%|█████▌    | 5985/10699 [1:07:02<38:47,  2.03it/s] 56%|█████▌    | 5986/10699 [1:07:03<38:46,  2.03it/s] 56%|█████▌    | 5987/10699 [1:07:03<38:49,  2.02it/s] 56%|█████▌    | 5988/10699 [1:07:04<38:46,  2.02it/s] 56%|█████▌    | 5989/10699 [1:07:04<38:46,  2.02it/s] 56%|█████▌    | 5990/10699 [1:07:05<38:43,  2.03it/s] 56%|█████▌    | 5991/10699 [1:07:05<38:45,  2.02it/s] 56%|█████▌    | 5992/10699 [1:07:06<38:43,  2.03it/s] 56%|█████▌    | 5993/10699 [1:07:06<38:42,  2.03it/s] 56%|█████▌    | 5994/10699 [1:07:07<38:44,  2.02it/s] 56%|█████▌    | 5995/10699 [1:07:07<38:42,  2.03it/s] 56%|█████▌    | 5996/10699 [1:07:08<38:45,  2.02it/s] 56%|█████▌    | 5997/10699 [1:07:08<38:42,  2.02it/s] 56%|█████▌    | 5998/10699 [1:07:09<38:41,  2.02it/s] 56%|█████▌    | 5999/10699 [1:07:09<38:41,  2.02it/s] 56%|█████▌    | 6000/10699 [1:07:10<38:38,  2.03it/s]                                                      {'loss': 3.6955, 'grad_norm': 0.20701222121715546, 'learning_rate': 0.00048116273343120107, 'epoch': 0.56}
- 56%|█████▌    | 6000/10699 [1:07:10<38:38,  2.03it/s] 56%|█████▌    | 6001/10699 [1:07:10<38:43,  2.02it/s] 56%|█████▌    | 6002/10699 [1:07:11<38:41,  2.02it/s] 56%|█████▌    | 6003/10699 [1:07:11<38:38,  2.03it/s] 56%|█████▌    | 6004/10699 [1:07:12<38:39,  2.02it/s] 56%|█████▌    | 6005/10699 [1:07:12<38:38,  2.02it/s] 56%|█████▌    | 6006/10699 [1:07:13<38:43,  2.02it/s] 56%|█████▌    | 6007/10699 [1:07:13<38:40,  2.02it/s] 56%|█████▌    | 6008/10699 [1:07:14<38:40,  2.02it/s] 56%|█████▌    | 6009/10699 [1:07:14<38:38,  2.02it/s] 56%|█████▌    | 6010/10699 [1:07:15<38:35,  2.02it/s] 56%|█████▌    | 6011/10699 [1:07:15<38:37,  2.02it/s] 56%|█████▌    | 6012/10699 [1:07:16<38:33,  2.03it/s] 56%|█████▌    | 6013/10699 [1:07:16<38:33,  2.03it/s] 56%|█████▌    | 6014/10699 [1:07:17<38:33,  2.02it/s] 56%|█████▌    | 6015/10699 [1:07:17<38:33,  2.02it/s] 56%|█████▌    | 6016/10699 [1:07:18<38:35,  2.02it/s] 56%|█████▌    | 6017/10699 [1:07:18<38:34,  2.02it/s] 56%|█████▌    | 6018/10699 [1:07:19<38:34,  2.02it/s] 56%|█████▋    | 6019/10699 [1:07:19<38:33,  2.02it/s] 56%|█████▋    | 6020/10699 [1:07:20<38:34,  2.02it/s] 56%|█████▋    | 6021/10699 [1:07:20<38:33,  2.02it/s] 56%|█████▋    | 6022/10699 [1:07:21<38:33,  2.02it/s] 56%|█████▋    | 6023/10699 [1:07:21<38:31,  2.02it/s] 56%|█████▋    | 6024/10699 [1:07:22<38:32,  2.02it/s] 56%|█████▋    | 6025/10699 [1:07:22<38:32,  2.02it/s]{'loss': 3.6976, 'grad_norm': 0.2050337791442871, 'learning_rate': 0.0004770880049891823, 'epoch': 0.56}                                                      
- 56%|█████▋    | 6025/10699 [1:07:22<38:32,  2.02it/s] 56%|█████▋    | 6026/10699 [1:07:23<38:34,  2.02it/s] 56%|█████▋    | 6027/10699 [1:07:23<38:31,  2.02it/s] 56%|█████▋    | 6028/10699 [1:07:24<38:33,  2.02it/s] 56%|█████▋    | 6029/10699 [1:07:24<38:30,  2.02it/s] 56%|█████▋    | 6030/10699 [1:07:25<38:30,  2.02it/s] 56%|█████▋    | 6031/10699 [1:07:25<38:30,  2.02it/s] 56%|█████▋    | 6032/10699 [1:07:26<38:29,  2.02it/s] 56%|█████▋    | 6033/10699 [1:07:26<38:27,  2.02it/s] 56%|█████▋    | 6034/10699 [1:07:27<38:28,  2.02it/s] 56%|█████▋    | 6035/10699 [1:07:27<38:25,  2.02it/s] 56%|█████▋    | 6036/10699 [1:07:28<38:25,  2.02it/s] 56%|█████▋    | 6037/10699 [1:07:28<38:25,  2.02it/s] 56%|█████▋    | 6038/10699 [1:07:29<38:25,  2.02it/s] 56%|█████▋    | 6039/10699 [1:07:29<38:24,  2.02it/s] 56%|█████▋    | 6040/10699 [1:07:30<38:25,  2.02it/s] 56%|█████▋    | 6041/10699 [1:07:30<38:23,  2.02it/s] 56%|█████▋    | 6042/10699 [1:07:31<38:23,  2.02it/s] 56%|█████▋    | 6043/10699 [1:07:31<38:24,  2.02it/s] 56%|█████▋    | 6044/10699 [1:07:32<38:25,  2.02it/s] 57%|█████▋    | 6045/10699 [1:07:32<38:26,  2.02it/s] 57%|█████▋    | 6046/10699 [1:07:33<38:24,  2.02it/s] 57%|█████▋    | 6047/10699 [1:07:33<38:22,  2.02it/s] 57%|█████▋    | 6048/10699 [1:07:34<38:21,  2.02it/s] 57%|█████▋    | 6049/10699 [1:07:34<38:18,  2.02it/s] 57%|█████▋    | 6050/10699 [1:07:35<38:20,  2.02it/s]{'loss': 3.6903, 'grad_norm': 0.2102363407611847, 'learning_rate': 0.0004730148008732696, 'epoch': 0.57}                                                      
- 57%|█████▋    | 6050/10699 [1:07:35<38:20,  2.02it/s] 57%|█████▋    | 6051/10699 [1:07:35<38:24,  2.02it/s] 57%|█████▋    | 6052/10699 [1:07:36<38:20,  2.02it/s] 57%|█████▋    | 6053/10699 [1:07:36<38:18,  2.02it/s] 57%|█████▋    | 6054/10699 [1:07:37<38:19,  2.02it/s] 57%|█████▋    | 6055/10699 [1:07:37<38:18,  2.02it/s] 57%|█████▋    | 6056/10699 [1:07:38<38:17,  2.02it/s] 57%|█████▋    | 6057/10699 [1:07:38<38:17,  2.02it/s] 57%|█████▋    | 6058/10699 [1:07:39<38:18,  2.02it/s] 57%|█████▋    | 6059/10699 [1:07:39<38:15,  2.02it/s] 57%|█████▋    | 6060/10699 [1:07:40<38:16,  2.02it/s] 57%|█████▋    | 6061/10699 [1:07:40<38:13,  2.02it/s] 57%|█████▋    | 6062/10699 [1:07:41<38:14,  2.02it/s] 57%|█████▋    | 6063/10699 [1:07:41<38:13,  2.02it/s] 57%|█████▋    | 6064/10699 [1:07:41<38:13,  2.02it/s] 57%|█████▋    | 6065/10699 [1:07:42<38:13,  2.02it/s] 57%|█████▋    | 6066/10699 [1:07:42<38:10,  2.02it/s] 57%|█████▋    | 6067/10699 [1:07:43<44:31,  1.73it/s] 57%|█████▋    | 6068/10699 [1:07:44<42:35,  1.81it/s] 57%|█████▋    | 6069/10699 [1:07:44<41:16,  1.87it/s] 57%|█████▋    | 6070/10699 [1:07:45<40:19,  1.91it/s] 57%|█████▋    | 6071/10699 [1:07:45<39:42,  1.94it/s] 57%|█████▋    | 6072/10699 [1:07:46<39:12,  1.97it/s] 57%|█████▋    | 6073/10699 [1:07:46<38:56,  1.98it/s] 57%|█████▋    | 6074/10699 [1:07:47<38:42,  1.99it/s] 57%|█████▋    | 6075/10699 [1:07:47<38:34,  2.00it/s]{'loss': 3.6976, 'grad_norm': 0.20780447125434875, 'learning_rate': 0.000468943392072147, 'epoch': 0.57}
-                                                       57%|█████▋    | 6075/10699 [1:07:47<38:34,  2.00it/s] 57%|█████▋    | 6076/10699 [1:07:48<38:27,  2.00it/s] 57%|█████▋    | 6077/10699 [1:07:48<38:23,  2.01it/s] 57%|█████▋    | 6078/10699 [1:07:49<38:16,  2.01it/s] 57%|█████▋    | 6079/10699 [1:07:49<38:12,  2.02it/s] 57%|█████▋    | 6080/10699 [1:07:50<38:06,  2.02it/s] 57%|█████▋    | 6081/10699 [1:07:50<38:06,  2.02it/s] 57%|█████▋    | 6082/10699 [1:07:51<38:02,  2.02it/s] 57%|█████▋    | 6083/10699 [1:07:51<38:02,  2.02it/s] 57%|█████▋    | 6084/10699 [1:07:52<38:02,  2.02it/s] 57%|█████▋    | 6085/10699 [1:07:52<38:01,  2.02it/s] 57%|█████▋    | 6086/10699 [1:07:53<38:03,  2.02it/s] 57%|█████▋    | 6087/10699 [1:07:53<38:02,  2.02it/s] 57%|█████▋    | 6088/10699 [1:07:54<38:02,  2.02it/s] 57%|█████▋    | 6089/10699 [1:07:54<37:57,  2.02it/s] 57%|█████▋    | 6090/10699 [1:07:55<37:59,  2.02it/s] 57%|█████▋    | 6091/10699 [1:07:55<37:56,  2.02it/s] 57%|█████▋    | 6092/10699 [1:07:56<44:18,  1.73it/s] 57%|█████▋    | 6093/10699 [1:07:56<42:26,  1.81it/s] 57%|█████▋    | 6094/10699 [1:07:57<41:04,  1.87it/s] 57%|█████▋    | 6095/10699 [1:07:57<40:07,  1.91it/s] 57%|█████▋    | 6096/10699 [1:07:58<39:26,  1.95it/s] 57%|█████▋    | 6097/10699 [1:07:58<39:02,  1.96it/s] 57%|█████▋    | 6098/10699 [1:07:59<38:39,  1.98it/s] 57%|█████▋    | 6099/10699 [1:07:59<38:26,  1.99it/s] 57%|█████▋    | 6100/10699 [1:08:00<38:13,  2.01it/s]                                                      {'loss': 3.6869, 'grad_norm': 0.20224544405937195, 'learning_rate': 0.0004648740494550563, 'epoch': 0.57}
- 57%|█████▋    | 6100/10699 [1:08:00<38:13,  2.01it/s] 57%|█████▋    | 6101/10699 [1:08:00<38:09,  2.01it/s] 57%|█████▋    | 6102/10699 [1:08:01<38:01,  2.02it/s] 57%|█████▋    | 6103/10699 [1:08:01<37:59,  2.02it/s] 57%|█████▋    | 6104/10699 [1:08:02<37:56,  2.02it/s] 57%|█████▋    | 6105/10699 [1:08:02<37:56,  2.02it/s] 57%|█████▋    | 6106/10699 [1:08:03<37:53,  2.02it/s] 57%|█████▋    | 6107/10699 [1:08:03<37:52,  2.02it/s] 57%|█████▋    | 6108/10699 [1:08:04<37:50,  2.02it/s] 57%|█████▋    | 6109/10699 [1:08:04<37:49,  2.02it/s] 57%|█████▋    | 6110/10699 [1:08:05<37:47,  2.02it/s] 57%|█████▋    | 6111/10699 [1:08:05<37:44,  2.03it/s] 57%|█████▋    | 6112/10699 [1:08:06<37:48,  2.02it/s] 57%|█████▋    | 6113/10699 [1:08:06<37:48,  2.02it/s] 57%|█████▋    | 6114/10699 [1:08:07<37:46,  2.02it/s] 57%|█████▋    | 6115/10699 [1:08:07<37:44,  2.02it/s] 57%|█████▋    | 6116/10699 [1:08:08<37:46,  2.02it/s] 57%|█████▋    | 6117/10699 [1:08:08<37:44,  2.02it/s] 57%|█████▋    | 6118/10699 [1:08:09<37:45,  2.02it/s] 57%|█████▋    | 6119/10699 [1:08:09<37:44,  2.02it/s] 57%|█████▋    | 6120/10699 [1:08:10<37:45,  2.02it/s] 57%|█████▋    | 6121/10699 [1:08:10<37:42,  2.02it/s] 57%|█████▋    | 6122/10699 [1:08:11<37:44,  2.02it/s] 57%|█████▋    | 6123/10699 [1:08:11<37:42,  2.02it/s] 57%|█████▋    | 6124/10699 [1:08:12<37:40,  2.02it/s] 57%|█████▋    | 6125/10699 [1:08:12<37:39,  2.02it/s]                                                      {'loss': 3.6928, 'grad_norm': 0.1979566365480423, 'learning_rate': 0.00046080704375377744, 'epoch': 0.57}
- 57%|█████▋    | 6125/10699 [1:08:12<37:39,  2.02it/s] 57%|█████▋    | 6126/10699 [1:08:13<37:42,  2.02it/s] 57%|█████▋    | 6127/10699 [1:08:13<37:41,  2.02it/s] 57%|█████▋    | 6128/10699 [1:08:14<37:40,  2.02it/s] 57%|█████▋    | 6129/10699 [1:08:14<37:39,  2.02it/s] 57%|█████▋    | 6130/10699 [1:08:15<37:38,  2.02it/s] 57%|█████▋    | 6131/10699 [1:08:15<37:39,  2.02it/s] 57%|█████▋    | 6132/10699 [1:08:16<37:37,  2.02it/s] 57%|█████▋    | 6133/10699 [1:08:16<37:37,  2.02it/s] 57%|█████▋    | 6134/10699 [1:08:17<37:35,  2.02it/s] 57%|█████▋    | 6135/10699 [1:08:17<37:37,  2.02it/s] 57%|█████▋    | 6136/10699 [1:08:18<37:36,  2.02it/s] 57%|█████▋    | 6137/10699 [1:08:18<37:32,  2.03it/s] 57%|█████▋    | 6138/10699 [1:08:19<37:36,  2.02it/s] 57%|█████▋    | 6139/10699 [1:08:19<37:33,  2.02it/s] 57%|█████▋    | 6140/10699 [1:08:20<37:33,  2.02it/s] 57%|█████▋    | 6141/10699 [1:08:20<37:32,  2.02it/s] 57%|█████▋    | 6142/10699 [1:08:21<37:30,  2.02it/s] 57%|█████▋    | 6143/10699 [1:08:21<37:33,  2.02it/s] 57%|█████▋    | 6144/10699 [1:08:22<37:31,  2.02it/s] 57%|█████▋    | 6145/10699 [1:08:22<37:31,  2.02it/s] 57%|█████▋    | 6146/10699 [1:08:23<37:31,  2.02it/s] 57%|█████▋    | 6147/10699 [1:08:23<37:30,  2.02it/s] 57%|█████▋    | 6148/10699 [1:08:24<37:29,  2.02it/s] 57%|█████▋    | 6149/10699 [1:08:24<37:26,  2.03it/s] 57%|█████▋    | 6150/10699 [1:08:25<37:26,  2.03it/s]{'loss': 3.6891, 'grad_norm': 0.19600115716457367, 'learning_rate': 0.00045674264554461586, 'epoch': 0.57}
-                                                       57%|█████▋    | 6150/10699 [1:08:25<37:26,  2.03it/s] 57%|█████▋    | 6151/10699 [1:08:25<37:27,  2.02it/s] 58%|█████▊    | 6152/10699 [1:08:26<37:27,  2.02it/s] 58%|█████▊    | 6153/10699 [1:08:26<37:29,  2.02it/s] 58%|█████▊    | 6154/10699 [1:08:27<37:27,  2.02it/s] 58%|█████▊    | 6155/10699 [1:08:27<37:25,  2.02it/s] 58%|█████▊    | 6156/10699 [1:08:28<37:26,  2.02it/s] 58%|█████▊    | 6157/10699 [1:08:28<37:25,  2.02it/s] 58%|█████▊    | 6158/10699 [1:08:29<37:26,  2.02it/s] 58%|█████▊    | 6159/10699 [1:08:29<37:23,  2.02it/s] 58%|█████▊    | 6160/10699 [1:08:30<37:21,  2.03it/s] 58%|█████▊    | 6161/10699 [1:08:30<37:22,  2.02it/s] 58%|█████▊    | 6162/10699 [1:08:31<37:21,  2.02it/s] 58%|█████▊    | 6163/10699 [1:08:31<37:22,  2.02it/s] 58%|█████▊    | 6164/10699 [1:08:31<37:22,  2.02it/s] 58%|█████▊    | 6165/10699 [1:08:32<37:21,  2.02it/s] 58%|█████▊    | 6166/10699 [1:08:32<37:17,  2.03it/s] 58%|█████▊    | 6167/10699 [1:08:33<37:20,  2.02it/s] 58%|█████▊    | 6168/10699 [1:08:33<37:18,  2.02it/s] 58%|█████▊    | 6169/10699 [1:08:34<37:19,  2.02it/s] 58%|█████▊    | 6170/10699 [1:08:34<37:16,  2.02it/s] 58%|█████▊    | 6171/10699 [1:08:35<37:19,  2.02it/s] 58%|█████▊    | 6172/10699 [1:08:35<37:17,  2.02it/s] 58%|█████▊    | 6173/10699 [1:08:36<37:19,  2.02it/s] 58%|█████▊    | 6174/10699 [1:08:36<37:17,  2.02it/s] 58%|█████▊    | 6175/10699 [1:08:37<37:17,  2.02it/s]{'loss': 3.6907, 'grad_norm': 0.19218850135803223, 'learning_rate': 0.0004526811252304017, 'epoch': 0.58}
-                                                       58%|█████▊    | 6175/10699 [1:08:37<37:17,  2.02it/s] 58%|█████▊    | 6176/10699 [1:08:37<37:19,  2.02it/s] 58%|█████▊    | 6177/10699 [1:08:38<37:18,  2.02it/s] 58%|█████▊    | 6178/10699 [1:08:38<37:15,  2.02it/s] 58%|█████▊    | 6179/10699 [1:08:39<37:14,  2.02it/s] 58%|█████▊    | 6180/10699 [1:08:39<37:14,  2.02it/s] 58%|█████▊    | 6181/10699 [1:08:40<37:11,  2.02it/s] 58%|█████▊    | 6182/10699 [1:08:40<37:13,  2.02it/s] 58%|█████▊    | 6183/10699 [1:08:41<37:13,  2.02it/s] 58%|█████▊    | 6184/10699 [1:08:41<37:14,  2.02it/s] 58%|█████▊    | 6185/10699 [1:08:42<37:11,  2.02it/s] 58%|█████▊    | 6186/10699 [1:08:42<37:12,  2.02it/s] 58%|█████▊    | 6187/10699 [1:08:43<37:12,  2.02it/s] 58%|█████▊    | 6188/10699 [1:08:43<37:10,  2.02it/s] 58%|█████▊    | 6189/10699 [1:08:44<37:12,  2.02it/s] 58%|█████▊    | 6190/10699 [1:08:44<37:10,  2.02it/s] 58%|█████▊    | 6191/10699 [1:08:45<37:09,  2.02it/s] 58%|█████▊    | 6192/10699 [1:08:45<37:08,  2.02it/s] 58%|█████▊    | 6193/10699 [1:08:46<37:05,  2.02it/s] 58%|█████▊    | 6194/10699 [1:08:46<37:10,  2.02it/s] 58%|█████▊    | 6195/10699 [1:08:47<37:07,  2.02it/s] 58%|█████▊    | 6196/10699 [1:08:47<37:08,  2.02it/s] 58%|█████▊    | 6197/10699 [1:08:48<37:04,  2.02it/s] 58%|█████▊    | 6198/10699 [1:08:48<37:05,  2.02it/s] 58%|█████▊    | 6199/10699 [1:08:49<37:01,  2.03it/s] 58%|█████▊    | 6200/10699 [1:08:49<37:01,  2.03it/s]{'loss': 3.6843, 'grad_norm': 0.2100796401500702, 'learning_rate': 0.00044862275302250023, 'epoch': 0.58}                                                      
- 58%|█████▊    | 6200/10699 [1:08:49<37:01,  2.03it/s] 58%|█████▊    | 6201/10699 [1:08:50<37:02,  2.02it/s] 58%|█████▊    | 6202/10699 [1:08:50<37:02,  2.02it/s] 58%|█████▊    | 6203/10699 [1:08:51<37:02,  2.02it/s] 58%|█████▊    | 6204/10699 [1:08:51<37:00,  2.02it/s] 58%|█████▊    | 6205/10699 [1:08:52<37:00,  2.02it/s] 58%|█████▊    | 6206/10699 [1:08:52<37:01,  2.02it/s] 58%|█████▊    | 6207/10699 [1:08:53<37:01,  2.02it/s] 58%|█████▊    | 6208/10699 [1:08:53<36:59,  2.02it/s] 58%|█████▊    | 6209/10699 [1:08:54<37:01,  2.02it/s] 58%|█████▊    | 6210/10699 [1:08:54<36:58,  2.02it/s] 58%|█████▊    | 6211/10699 [1:08:55<36:57,  2.02it/s] 58%|█████▊    | 6212/10699 [1:08:55<37:00,  2.02it/s] 58%|█████▊    | 6213/10699 [1:08:56<36:58,  2.02it/s] 58%|█████▊    | 6214/10699 [1:08:56<36:59,  2.02it/s] 58%|█████▊    | 6215/10699 [1:08:57<36:58,  2.02it/s] 58%|█████▊    | 6216/10699 [1:08:57<36:58,  2.02it/s] 58%|█████▊    | 6217/10699 [1:08:58<36:54,  2.02it/s] 58%|█████▊    | 6218/10699 [1:08:58<36:55,  2.02it/s] 58%|█████▊    | 6219/10699 [1:08:59<36:52,  2.03it/s] 58%|█████▊    | 6220/10699 [1:08:59<36:53,  2.02it/s] 58%|█████▊    | 6221/10699 [1:09:00<36:52,  2.02it/s] 58%|█████▊    | 6222/10699 [1:09:00<36:51,  2.02it/s] 58%|█████▊    | 6223/10699 [1:09:01<36:53,  2.02it/s] 58%|█████▊    | 6224/10699 [1:09:01<36:54,  2.02it/s] 58%|█████▊    | 6225/10699 [1:09:02<36:51,  2.02it/s]{'loss': 3.6834, 'grad_norm': 0.22420953214168549, 'learning_rate': 0.0004445677989228339, 'epoch': 0.58}
-                                                       58%|█████▊    | 6225/10699 [1:09:02<36:51,  2.02it/s] 58%|█████▊    | 6226/10699 [1:09:02<36:55,  2.02it/s] 58%|█████▊    | 6227/10699 [1:09:03<36:53,  2.02it/s] 58%|█████▊    | 6228/10699 [1:09:03<36:50,  2.02it/s] 58%|█████▊    | 6229/10699 [1:09:04<36:51,  2.02it/s] 58%|█████▊    | 6230/10699 [1:09:04<36:48,  2.02it/s] 58%|█████▊    | 6231/10699 [1:09:05<36:49,  2.02it/s] 58%|█████▊    | 6232/10699 [1:09:05<36:45,  2.03it/s] 58%|█████▊    | 6233/10699 [1:09:06<36:46,  2.02it/s] 58%|█████▊    | 6234/10699 [1:09:06<36:46,  2.02it/s] 58%|█████▊    | 6235/10699 [1:09:07<36:46,  2.02it/s] 58%|█████▊    | 6236/10699 [1:09:07<36:49,  2.02it/s] 58%|█████▊    | 6237/10699 [1:09:08<36:49,  2.02it/s] 58%|█████▊    | 6238/10699 [1:09:08<36:48,  2.02it/s] 58%|█████▊    | 6239/10699 [1:09:09<36:46,  2.02it/s] 58%|█████▊    | 6240/10699 [1:09:09<36:45,  2.02it/s] 58%|█████▊    | 6241/10699 [1:09:10<36:47,  2.02it/s] 58%|█████▊    | 6242/10699 [1:09:10<36:42,  2.02it/s] 58%|█████▊    | 6243/10699 [1:09:11<36:44,  2.02it/s] 58%|█████▊    | 6244/10699 [1:09:11<36:39,  2.03it/s] 58%|█████▊    | 6245/10699 [1:09:12<36:39,  2.03it/s] 58%|█████▊    | 6246/10699 [1:09:12<36:39,  2.02it/s] 58%|█████▊    | 6247/10699 [1:09:13<36:39,  2.02it/s] 58%|█████▊    | 6248/10699 [1:09:13<36:39,  2.02it/s] 58%|█████▊    | 6249/10699 [1:09:14<36:38,  2.02it/s] 58%|█████▊    | 6250/10699 [1:09:14<36:39,  2.02it/s]                                                      {'loss': 3.6861, 'grad_norm': 0.19526956975460052, 'learning_rate': 0.0004405165327059199, 'epoch': 0.58}
- 58%|█████▊    | 6250/10699 [1:09:14<36:39,  2.02it/s] 58%|█████▊    | 6251/10699 [1:09:15<36:41,  2.02it/s] 58%|█████▊    | 6252/10699 [1:09:15<36:39,  2.02it/s] 58%|█████▊    | 6253/10699 [1:09:16<36:40,  2.02it/s] 58%|█████▊    | 6254/10699 [1:09:16<36:40,  2.02it/s] 58%|█████▊    | 6255/10699 [1:09:16<36:38,  2.02it/s] 58%|█████▊    | 6256/10699 [1:09:17<36:40,  2.02it/s] 58%|█████▊    | 6257/10699 [1:09:17<36:38,  2.02it/s] 58%|█████▊    | 6258/10699 [1:09:18<36:37,  2.02it/s] 59%|█████▊    | 6259/10699 [1:09:18<36:35,  2.02it/s] 59%|█████▊    | 6260/10699 [1:09:19<36:35,  2.02it/s] 59%|█████▊    | 6261/10699 [1:09:19<36:33,  2.02it/s] 59%|█████▊    | 6262/10699 [1:09:20<36:35,  2.02it/s] 59%|█████▊    | 6263/10699 [1:09:20<36:34,  2.02it/s] 59%|█████▊    | 6264/10699 [1:09:21<36:35,  2.02it/s] 59%|█████▊    | 6265/10699 [1:09:21<36:31,  2.02it/s] 59%|█████▊    | 6266/10699 [1:09:22<36:32,  2.02it/s] 59%|█████▊    | 6267/10699 [1:09:22<36:30,  2.02it/s] 59%|█████▊    | 6268/10699 [1:09:23<36:30,  2.02it/s] 59%|█████▊    | 6269/10699 [1:09:23<36:29,  2.02it/s] 59%|█████▊    | 6270/10699 [1:09:24<36:26,  2.03it/s] 59%|█████▊    | 6271/10699 [1:09:24<36:29,  2.02it/s] 59%|█████▊    | 6272/10699 [1:09:25<36:25,  2.03it/s] 59%|█████▊    | 6273/10699 [1:09:25<36:26,  2.02it/s] 59%|█████▊    | 6274/10699 [1:09:26<36:26,  2.02it/s] 59%|█████▊    | 6275/10699 [1:09:26<36:26,  2.02it/s]{'loss': 3.6845, 'grad_norm': 0.20063111186027527, 'learning_rate': 0.00043646922390092226, 'epoch': 0.59}                                                      
- 59%|█████▊    | 6275/10699 [1:09:26<36:26,  2.02it/s] 59%|█████▊    | 6276/10699 [1:09:27<36:37,  2.01it/s] 59%|█████▊    | 6277/10699 [1:09:27<36:34,  2.02it/s] 59%|█████▊    | 6278/10699 [1:09:28<36:31,  2.02it/s] 59%|█████▊    | 6279/10699 [1:09:28<36:27,  2.02it/s] 59%|█████▊    | 6280/10699 [1:09:29<36:27,  2.02it/s] 59%|█████▊    | 6281/10699 [1:09:29<36:27,  2.02it/s] 59%|█████▊    | 6282/10699 [1:09:30<36:26,  2.02it/s] 59%|█████▊    | 6283/10699 [1:09:30<36:25,  2.02it/s] 59%|█████▊    | 6284/10699 [1:09:31<36:26,  2.02it/s] 59%|█████▊    | 6285/10699 [1:09:31<36:22,  2.02it/s] 59%|█████▉    | 6286/10699 [1:09:32<36:23,  2.02it/s] 59%|█████▉    | 6287/10699 [1:09:32<36:21,  2.02it/s] 59%|█████▉    | 6288/10699 [1:09:33<36:20,  2.02it/s] 59%|█████▉    | 6289/10699 [1:09:33<36:19,  2.02it/s] 59%|█████▉    | 6290/10699 [1:09:34<36:19,  2.02it/s] 59%|█████▉    | 6291/10699 [1:09:34<36:18,  2.02it/s] 59%|█████▉    | 6292/10699 [1:09:35<36:18,  2.02it/s] 59%|█████▉    | 6293/10699 [1:09:35<36:19,  2.02it/s] 59%|█████▉    | 6294/10699 [1:09:36<36:18,  2.02it/s] 59%|█████▉    | 6295/10699 [1:09:36<36:17,  2.02it/s] 59%|█████▉    | 6296/10699 [1:09:37<36:14,  2.02it/s] 59%|█████▉    | 6297/10699 [1:09:37<36:14,  2.02it/s] 59%|█████▉    | 6298/10699 [1:09:38<36:11,  2.03it/s] 59%|█████▉    | 6299/10699 [1:09:38<36:11,  2.03it/s] 59%|█████▉    | 6300/10699 [1:09:39<36:11,  2.03it/s]{'loss': 3.6806, 'grad_norm': 0.20335109531879425, 'learning_rate': 0.0004324261417737196, 'epoch': 0.59}                                                      
- 59%|█████▉    | 6300/10699 [1:09:39<36:11,  2.03it/s] 59%|█████▉    | 6301/10699 [1:09:39<36:15,  2.02it/s] 59%|█████▉    | 6302/10699 [1:09:40<36:15,  2.02it/s] 59%|█████▉    | 6303/10699 [1:09:40<36:16,  2.02it/s] 59%|█████▉    | 6304/10699 [1:09:41<36:14,  2.02it/s] 59%|█████▉    | 6305/10699 [1:09:41<36:15,  2.02it/s] 59%|█████▉    | 6306/10699 [1:09:42<36:15,  2.02it/s] 59%|█████▉    | 6307/10699 [1:09:42<36:13,  2.02it/s] 59%|█████▉    | 6308/10699 [1:09:43<36:12,  2.02it/s] 59%|█████▉    | 6309/10699 [1:09:43<36:11,  2.02it/s] 59%|█████▉    | 6310/10699 [1:09:44<36:12,  2.02it/s] 59%|█████▉    | 6311/10699 [1:09:44<36:12,  2.02it/s] 59%|█████▉    | 6312/10699 [1:09:45<36:11,  2.02it/s] 59%|█████▉    | 6313/10699 [1:09:45<36:09,  2.02it/s] 59%|█████▉    | 6314/10699 [1:09:46<36:08,  2.02it/s] 59%|█████▉    | 6315/10699 [1:09:46<36:08,  2.02it/s] 59%|█████▉    | 6316/10699 [1:09:47<36:07,  2.02it/s] 59%|█████▉    | 6317/10699 [1:09:47<36:05,  2.02it/s] 59%|█████▉    | 6318/10699 [1:09:48<36:05,  2.02it/s] 59%|█████▉    | 6319/10699 [1:09:48<36:02,  2.03it/s] 59%|█████▉    | 6320/10699 [1:09:49<36:04,  2.02it/s] 59%|█████▉    | 6321/10699 [1:09:49<36:00,  2.03it/s] 59%|█████▉    | 6322/10699 [1:09:50<36:02,  2.02it/s] 59%|█████▉    | 6323/10699 [1:09:50<36:03,  2.02it/s] 59%|█████▉    | 6324/10699 [1:09:51<36:03,  2.02it/s] 59%|█████▉    | 6325/10699 [1:09:51<36:01,  2.02it/s]                                                      {'loss': 3.6762, 'grad_norm': 0.2274063527584076, 'learning_rate': 0.0004283875553089914, 'epoch': 0.59}
- 59%|█████▉    | 6325/10699 [1:09:51<36:01,  2.02it/s] 59%|█████▉    | 6326/10699 [1:09:52<36:04,  2.02it/s] 59%|█████▉    | 6327/10699 [1:09:52<36:01,  2.02it/s] 59%|█████▉    | 6328/10699 [1:09:53<36:00,  2.02it/s] 59%|█████▉    | 6329/10699 [1:09:53<35:59,  2.02it/s] 59%|█████▉    | 6330/10699 [1:09:54<35:59,  2.02it/s] 59%|█████▉    | 6331/10699 [1:09:54<35:58,  2.02it/s] 59%|█████▉    | 6332/10699 [1:09:55<35:59,  2.02it/s] 59%|█████▉    | 6333/10699 [1:09:55<35:59,  2.02it/s] 59%|█████▉    | 6334/10699 [1:09:56<35:58,  2.02it/s] 59%|█████▉    | 6335/10699 [1:09:56<35:58,  2.02it/s] 59%|█████▉    | 6336/10699 [1:09:57<35:56,  2.02it/s] 59%|█████▉    | 6337/10699 [1:09:57<35:56,  2.02it/s] 59%|█████▉    | 6338/10699 [1:09:58<35:55,  2.02it/s] 59%|█████▉    | 6339/10699 [1:09:58<35:56,  2.02it/s] 59%|█████▉    | 6340/10699 [1:09:59<35:55,  2.02it/s] 59%|█████▉    | 6341/10699 [1:09:59<35:55,  2.02it/s] 59%|█████▉    | 6342/10699 [1:10:00<35:53,  2.02it/s] 59%|█████▉    | 6343/10699 [1:10:00<35:53,  2.02it/s] 59%|█████▉    | 6344/10699 [1:10:01<35:53,  2.02it/s] 59%|█████▉    | 6345/10699 [1:10:01<35:50,  2.02it/s] 59%|█████▉    | 6346/10699 [1:10:01<35:51,  2.02it/s] 59%|█████▉    | 6347/10699 [1:10:02<35:50,  2.02it/s] 59%|█████▉    | 6348/10699 [1:10:02<35:49,  2.02it/s] 59%|█████▉    | 6349/10699 [1:10:03<35:47,  2.03it/s] 59%|█████▉    | 6350/10699 [1:10:03<35:48,  2.02it/s]{'loss': 3.6707, 'grad_norm': 0.20906862616539001, 'learning_rate': 0.00042435373319232286, 'epoch': 0.59}                                                      
- 59%|█████▉    | 6350/10699 [1:10:03<35:48,  2.02it/s] 59%|█████▉    | 6351/10699 [1:10:04<35:51,  2.02it/s] 59%|█████▉    | 6352/10699 [1:10:04<35:51,  2.02it/s] 59%|█████▉    | 6353/10699 [1:10:05<35:48,  2.02it/s] 59%|█████▉    | 6354/10699 [1:10:05<35:48,  2.02it/s] 59%|█████▉    | 6355/10699 [1:10:06<35:48,  2.02it/s] 59%|█████▉    | 6356/10699 [1:10:06<35:45,  2.02it/s] 59%|█████▉    | 6357/10699 [1:10:07<35:47,  2.02it/s] 59%|█████▉    | 6358/10699 [1:10:07<35:47,  2.02it/s] 59%|█████▉    | 6359/10699 [1:10:08<35:48,  2.02it/s] 59%|█████▉    | 6360/10699 [1:10:08<35:45,  2.02it/s] 59%|█████▉    | 6361/10699 [1:10:09<35:43,  2.02it/s] 59%|█████▉    | 6362/10699 [1:10:09<35:42,  2.02it/s] 59%|█████▉    | 6363/10699 [1:10:10<35:45,  2.02it/s] 59%|█████▉    | 6364/10699 [1:10:10<35:42,  2.02it/s] 59%|█████▉    | 6365/10699 [1:10:11<35:44,  2.02it/s] 60%|█████▉    | 6366/10699 [1:10:11<35:42,  2.02it/s] 60%|█████▉    | 6367/10699 [1:10:12<35:39,  2.02it/s] 60%|█████▉    | 6368/10699 [1:10:12<35:41,  2.02it/s] 60%|█████▉    | 6369/10699 [1:10:13<35:38,  2.03it/s] 60%|█████▉    | 6370/10699 [1:10:13<35:42,  2.02it/s] 60%|█████▉    | 6371/10699 [1:10:14<35:37,  2.03it/s] 60%|█████▉    | 6372/10699 [1:10:14<35:39,  2.02it/s] 60%|█████▉    | 6373/10699 [1:10:15<35:37,  2.02it/s] 60%|█████▉    | 6374/10699 [1:10:15<35:38,  2.02it/s] 60%|█████▉    | 6375/10699 [1:10:16<35:37,  2.02it/s]{'loss': 3.6718, 'grad_norm': 0.2080126702785492, 'learning_rate': 0.0004203249437923284, 'epoch': 0.6}
-                                                       60%|█████▉    | 6375/10699 [1:10:16<35:37,  2.02it/s] 60%|█████▉    | 6376/10699 [1:10:16<35:42,  2.02it/s] 60%|█████▉    | 6377/10699 [1:10:17<35:39,  2.02it/s] 60%|█████▉    | 6378/10699 [1:10:17<35:40,  2.02it/s] 60%|█████▉    | 6379/10699 [1:10:18<35:35,  2.02it/s] 60%|█████▉    | 6380/10699 [1:10:18<35:37,  2.02it/s] 60%|█████▉    | 6381/10699 [1:10:19<35:33,  2.02it/s] 60%|█████▉    | 6382/10699 [1:10:19<35:35,  2.02it/s] 60%|█████▉    | 6383/10699 [1:10:20<35:34,  2.02it/s] 60%|█████▉    | 6384/10699 [1:10:20<35:32,  2.02it/s] 60%|█████▉    | 6385/10699 [1:10:21<35:31,  2.02it/s] 60%|█████▉    | 6386/10699 [1:10:21<35:28,  2.03it/s] 60%|█████▉    | 6387/10699 [1:10:22<35:30,  2.02it/s] 60%|█████▉    | 6388/10699 [1:10:22<35:30,  2.02it/s] 60%|█████▉    | 6389/10699 [1:10:23<35:30,  2.02it/s] 60%|█████▉    | 6390/10699 [1:10:23<35:27,  2.03it/s] 60%|█████▉    | 6391/10699 [1:10:24<35:29,  2.02it/s] 60%|█████▉    | 6392/10699 [1:10:24<35:26,  2.03it/s] 60%|█████▉    | 6393/10699 [1:10:25<35:28,  2.02it/s] 60%|█████▉    | 6394/10699 [1:10:25<35:26,  2.02it/s] 60%|█████▉    | 6395/10699 [1:10:26<35:23,  2.03it/s] 60%|█████▉    | 6396/10699 [1:10:26<35:24,  2.03it/s] 60%|█████▉    | 6397/10699 [1:10:27<35:22,  2.03it/s] 60%|█████▉    | 6398/10699 [1:10:27<35:23,  2.03it/s] 60%|█████▉    | 6399/10699 [1:10:28<35:22,  2.03it/s] 60%|█████▉    | 6400/10699 [1:10:28<35:25,  2.02it/s]{'loss': 3.6772, 'grad_norm': 0.20953282713890076, 'learning_rate': 0.00041630145514279807, 'epoch': 0.6}                                                      
- 60%|█████▉    | 6400/10699 [1:10:28<35:25,  2.02it/s] 60%|█████▉    | 6401/10699 [1:10:29<35:38,  2.01it/s] 60%|█████▉    | 6402/10699 [1:10:29<35:32,  2.02it/s] 60%|█████▉    | 6403/10699 [1:10:30<35:31,  2.02it/s] 60%|█████▉    | 6404/10699 [1:10:30<35:27,  2.02it/s] 60%|█████▉    | 6405/10699 [1:10:31<35:25,  2.02it/s] 60%|█████▉    | 6406/10699 [1:10:31<35:23,  2.02it/s] 60%|█████▉    | 6407/10699 [1:10:32<35:22,  2.02it/s] 60%|█████▉    | 6408/10699 [1:10:32<35:19,  2.02it/s] 60%|█████▉    | 6409/10699 [1:10:33<35:22,  2.02it/s] 60%|█████▉    | 6410/10699 [1:10:33<35:18,  2.02it/s] 60%|█████▉    | 6411/10699 [1:10:34<35:21,  2.02it/s] 60%|█████▉    | 6412/10699 [1:10:34<35:17,  2.02it/s] 60%|█████▉    | 6413/10699 [1:10:35<35:18,  2.02it/s] 60%|█████▉    | 6414/10699 [1:10:35<35:18,  2.02it/s] 60%|█████▉    | 6415/10699 [1:10:36<35:17,  2.02it/s] 60%|█████▉    | 6416/10699 [1:10:36<35:16,  2.02it/s] 60%|█████▉    | 6417/10699 [1:10:37<35:16,  2.02it/s] 60%|█████▉    | 6418/10699 [1:10:37<35:15,  2.02it/s] 60%|█████▉    | 6419/10699 [1:10:38<35:14,  2.02it/s] 60%|██████    | 6420/10699 [1:10:38<35:13,  2.02it/s] 60%|██████    | 6421/10699 [1:10:39<35:13,  2.02it/s] 60%|██████    | 6422/10699 [1:10:39<35:13,  2.02it/s] 60%|██████    | 6423/10699 [1:10:40<35:13,  2.02it/s] 60%|██████    | 6424/10699 [1:10:40<35:11,  2.02it/s] 60%|██████    | 6425/10699 [1:10:41<35:10,  2.02it/s]                                                      {'loss': 3.6753, 'grad_norm': 0.20607036352157593, 'learning_rate': 0.00041228353492486487, 'epoch': 0.6}
- 60%|██████    | 6425/10699 [1:10:41<35:10,  2.02it/s] 60%|██████    | 6426/10699 [1:10:41<35:18,  2.02it/s] 60%|██████    | 6427/10699 [1:10:42<35:16,  2.02it/s] 60%|██████    | 6428/10699 [1:10:42<35:13,  2.02it/s] 60%|██████    | 6429/10699 [1:10:43<35:13,  2.02it/s] 60%|██████    | 6430/10699 [1:10:43<35:11,  2.02it/s] 60%|██████    | 6431/10699 [1:10:44<35:12,  2.02it/s] 60%|██████    | 6432/10699 [1:10:44<35:09,  2.02it/s] 60%|██████    | 6433/10699 [1:10:45<35:07,  2.02it/s] 60%|██████    | 6434/10699 [1:10:45<35:08,  2.02it/s] 60%|██████    | 6435/10699 [1:10:45<35:09,  2.02it/s] 60%|██████    | 6436/10699 [1:10:46<35:08,  2.02it/s] 60%|██████    | 6437/10699 [1:10:46<35:07,  2.02it/s] 60%|██████    | 6438/10699 [1:10:47<35:09,  2.02it/s] 60%|██████    | 6439/10699 [1:10:47<35:08,  2.02it/s] 60%|██████    | 6440/10699 [1:10:48<35:07,  2.02it/s] 60%|██████    | 6441/10699 [1:10:48<35:06,  2.02it/s] 60%|██████    | 6442/10699 [1:10:49<35:06,  2.02it/s] 60%|██████    | 6443/10699 [1:10:49<35:06,  2.02it/s] 60%|██████    | 6444/10699 [1:10:50<35:05,  2.02it/s] 60%|██████    | 6445/10699 [1:10:50<35:03,  2.02it/s] 60%|██████    | 6446/10699 [1:10:51<35:01,  2.02it/s] 60%|██████    | 6447/10699 [1:10:51<35:01,  2.02it/s] 60%|██████    | 6448/10699 [1:10:52<35:00,  2.02it/s] 60%|██████    | 6449/10699 [1:10:52<35:03,  2.02it/s] 60%|██████    | 6450/10699 [1:10:53<35:01,  2.02it/s]{'loss': 3.6687, 'grad_norm': 0.20438873767852783, 'learning_rate': 0.0004082714504491963, 'epoch': 0.6}
-                                                       60%|██████    | 6450/10699 [1:10:53<35:01,  2.02it/s] 60%|██████    | 6451/10699 [1:10:53<35:04,  2.02it/s] 60%|██████    | 6452/10699 [1:10:54<35:02,  2.02it/s] 60%|██████    | 6453/10699 [1:10:54<35:02,  2.02it/s] 60%|██████    | 6454/10699 [1:10:55<35:01,  2.02it/s] 60%|██████    | 6455/10699 [1:10:55<35:00,  2.02it/s] 60%|██████    | 6456/10699 [1:10:56<34:58,  2.02it/s] 60%|██████    | 6457/10699 [1:10:56<35:00,  2.02it/s] 60%|██████    | 6458/10699 [1:10:57<34:59,  2.02it/s] 60%|██████    | 6459/10699 [1:10:57<35:00,  2.02it/s] 60%|██████    | 6460/10699 [1:10:58<34:59,  2.02it/s] 60%|██████    | 6461/10699 [1:10:58<34:58,  2.02it/s] 60%|██████    | 6462/10699 [1:10:59<34:54,  2.02it/s] 60%|██████    | 6463/10699 [1:10:59<34:54,  2.02it/s] 60%|██████    | 6464/10699 [1:11:00<34:52,  2.02it/s] 60%|██████    | 6465/10699 [1:11:00<34:54,  2.02it/s] 60%|██████    | 6466/10699 [1:11:01<34:54,  2.02it/s] 60%|██████    | 6467/10699 [1:11:01<34:53,  2.02it/s] 60%|██████    | 6468/10699 [1:11:02<34:53,  2.02it/s] 60%|██████    | 6469/10699 [1:11:02<34:52,  2.02it/s] 60%|██████    | 6470/10699 [1:11:03<34:51,  2.02it/s] 60%|██████    | 6471/10699 [1:11:03<34:52,  2.02it/s] 60%|██████    | 6472/10699 [1:11:04<34:51,  2.02it/s] 61%|██████    | 6473/10699 [1:11:04<34:52,  2.02it/s] 61%|██████    | 6474/10699 [1:11:05<34:49,  2.02it/s] 61%|██████    | 6475/10699 [1:11:05<34:49,  2.02it/s]                                                      {'loss': 3.6607, 'grad_norm': 0.20354697108268738, 'learning_rate': 0.0004042654686382105, 'epoch': 0.61}
- 61%|██████    | 6475/10699 [1:11:05<34:49,  2.02it/s] 61%|██████    | 6476/10699 [1:11:06<34:49,  2.02it/s] 61%|██████    | 6477/10699 [1:11:06<34:48,  2.02it/s] 61%|██████    | 6478/10699 [1:11:07<34:48,  2.02it/s] 61%|██████    | 6479/10699 [1:11:07<34:50,  2.02it/s] 61%|██████    | 6480/10699 [1:11:08<34:47,  2.02it/s] 61%|██████    | 6481/10699 [1:11:08<34:47,  2.02it/s] 61%|██████    | 6482/10699 [1:11:09<34:45,  2.02it/s] 61%|██████    | 6483/10699 [1:11:09<34:45,  2.02it/s] 61%|██████    | 6484/10699 [1:11:10<34:44,  2.02it/s] 61%|██████    | 6485/10699 [1:11:10<34:40,  2.03it/s] 61%|██████    | 6486/10699 [1:11:11<34:41,  2.02it/s] 61%|██████    | 6487/10699 [1:11:11<34:39,  2.03it/s] 61%|██████    | 6488/10699 [1:11:12<34:42,  2.02it/s] 61%|██████    | 6489/10699 [1:11:12<34:39,  2.02it/s] 61%|██████    | 6490/10699 [1:11:13<34:39,  2.02it/s] 61%|██████    | 6491/10699 [1:11:13<34:38,  2.02it/s] 61%|██████    | 6492/10699 [1:11:14<34:38,  2.02it/s] 61%|██████    | 6493/10699 [1:11:14<34:38,  2.02it/s] 61%|██████    | 6494/10699 [1:11:15<34:36,  2.03it/s] 61%|██████    | 6495/10699 [1:11:15<34:37,  2.02it/s] 61%|██████    | 6496/10699 [1:11:16<34:35,  2.02it/s] 61%|██████    | 6497/10699 [1:11:16<34:35,  2.02it/s] 61%|██████    | 6498/10699 [1:11:17<34:35,  2.02it/s] 61%|██████    | 6499/10699 [1:11:17<34:34,  2.02it/s] 61%|██████    | 6500/10699 [1:11:18<34:33,  2.02it/s]                                                      {'loss': 3.6578, 'grad_norm': 0.22371838986873627, 'learning_rate': 0.0004002658560083172, 'epoch': 0.61}
- 61%|██████    | 6500/10699 [1:11:18<34:33,  2.02it/s] 61%|██████    | 6501/10699 [1:11:18<34:35,  2.02it/s] 61%|██████    | 6502/10699 [1:11:19<34:35,  2.02it/s] 61%|██████    | 6503/10699 [1:11:19<34:33,  2.02it/s] 61%|██████    | 6504/10699 [1:11:20<34:33,  2.02it/s] 61%|██████    | 6505/10699 [1:11:20<34:28,  2.03it/s] 61%|██████    | 6506/10699 [1:11:21<34:28,  2.03it/s] 61%|██████    | 6507/10699 [1:11:21<34:29,  2.03it/s] 61%|██████    | 6508/10699 [1:11:22<34:27,  2.03it/s] 61%|██████    | 6509/10699 [1:11:22<34:30,  2.02it/s] 61%|██████    | 6510/10699 [1:11:23<34:32,  2.02it/s] 61%|██████    | 6511/10699 [1:11:23<34:31,  2.02it/s] 61%|██████    | 6512/10699 [1:11:24<34:32,  2.02it/s] 61%|██████    | 6513/10699 [1:11:24<34:29,  2.02it/s] 61%|██████    | 6514/10699 [1:11:25<34:27,  2.02it/s] 61%|██████    | 6515/10699 [1:11:25<34:27,  2.02it/s] 61%|██████    | 6516/10699 [1:11:26<34:26,  2.02it/s] 61%|██████    | 6517/10699 [1:11:26<34:27,  2.02it/s] 61%|██████    | 6518/10699 [1:11:27<34:25,  2.02it/s] 61%|██████    | 6519/10699 [1:11:27<34:27,  2.02it/s] 61%|██████    | 6520/10699 [1:11:28<34:26,  2.02it/s] 61%|██████    | 6521/10699 [1:11:28<34:26,  2.02it/s] 61%|██████    | 6522/10699 [1:11:29<34:27,  2.02it/s] 61%|██████    | 6523/10699 [1:11:29<34:25,  2.02it/s] 61%|██████    | 6524/10699 [1:11:30<34:23,  2.02it/s] 61%|██████    | 6525/10699 [1:11:30<34:24,  2.02it/s]{'loss': 3.6723, 'grad_norm': 0.2068350464105606, 'learning_rate': 0.0003962728786521874, 'epoch': 0.61}                                                      
- 61%|██████    | 6525/10699 [1:11:30<34:24,  2.02it/s] 61%|██████    | 6526/10699 [1:11:30<34:27,  2.02it/s] 61%|██████    | 6527/10699 [1:11:31<34:25,  2.02it/s] 61%|██████    | 6528/10699 [1:11:31<34:25,  2.02it/s] 61%|██████    | 6529/10699 [1:11:32<34:23,  2.02it/s] 61%|██████    | 6530/10699 [1:11:32<34:21,  2.02it/s] 61%|██████    | 6531/10699 [1:11:33<34:21,  2.02it/s] 61%|██████    | 6532/10699 [1:11:33<34:21,  2.02it/s] 61%|██████    | 6533/10699 [1:11:34<34:23,  2.02it/s] 61%|██████    | 6534/10699 [1:11:34<34:18,  2.02it/s] 61%|██████    | 6535/10699 [1:11:35<34:20,  2.02it/s] 61%|██████    | 6536/10699 [1:11:35<34:18,  2.02it/s] 61%|██████    | 6537/10699 [1:11:36<34:21,  2.02it/s] 61%|██████    | 6538/10699 [1:11:36<34:16,  2.02it/s] 61%|██████    | 6539/10699 [1:11:37<34:16,  2.02it/s] 61%|██████    | 6540/10699 [1:11:37<34:15,  2.02it/s] 61%|██████    | 6541/10699 [1:11:38<34:12,  2.03it/s] 61%|██████    | 6542/10699 [1:11:38<34:14,  2.02it/s] 61%|██████    | 6543/10699 [1:11:39<34:10,  2.03it/s] 61%|██████    | 6544/10699 [1:11:39<34:11,  2.03it/s] 61%|██��███    | 6545/10699 [1:11:40<34:10,  2.03it/s] 61%|██████    | 6546/10699 [1:11:40<34:10,  2.02it/s] 61%|██████    | 6547/10699 [1:11:41<34:11,  2.02it/s] 61%|██████    | 6548/10699 [1:11:41<34:11,  2.02it/s] 61%|██████    | 6549/10699 [1:11:42<34:13,  2.02it/s] 61%|██████    | 6550/10699 [1:11:42<34:11,  2.02it/s]{'loss': 3.6662, 'grad_norm': 0.21477894484996796, 'learning_rate': 0.0003922868022210495, 'epoch': 0.61}                                                      
- 61%|██████    | 6550/10699 [1:11:42<34:11,  2.02it/s] 61%|██████    | 6551/10699 [1:11:43<34:14,  2.02it/s] 61%|██████    | 6552/10699 [1:11:43<34:11,  2.02it/s] 61%|██████    | 6553/10699 [1:11:44<34:08,  2.02it/s] 61%|██████▏   | 6554/10699 [1:11:44<34:09,  2.02it/s] 61%|██████▏   | 6555/10699 [1:11:45<34:08,  2.02it/s] 61%|██████▏   | 6556/10699 [1:11:45<34:06,  2.02it/s] 61%|██████▏   | 6557/10699 [1:11:46<34:06,  2.02it/s] 61%|██████▏   | 6558/10699 [1:11:46<34:08,  2.02it/s] 61%|██████▏   | 6559/10699 [1:11:47<34:07,  2.02it/s] 61%|██████▏   | 6560/10699 [1:11:47<34:05,  2.02it/s] 61%|██████▏   | 6561/10699 [1:11:48<34:04,  2.02it/s] 61%|██████▏   | 6562/10699 [1:11:48<34:04,  2.02it/s] 61%|██████▏   | 6563/10699 [1:11:49<34:05,  2.02it/s] 61%|██████▏   | 6564/10699 [1:11:49<34:02,  2.02it/s] 61%|██████▏   | 6565/10699 [1:11:50<34:03,  2.02it/s] 61%|██████▏   | 6566/10699 [1:11:50<34:00,  2.03it/s] 61%|██████▏   | 6567/10699 [1:11:51<34:03,  2.02it/s] 61%|██████▏   | 6568/10699 [1:11:51<34:00,  2.02it/s] 61%|██████▏   | 6569/10699 [1:11:52<33:59,  2.03it/s] 61%|██████▏   | 6570/10699 [1:11:52<33:58,  2.03it/s] 61%|██████▏   | 6571/10699 [1:11:53<33:58,  2.02it/s] 61%|██████▏   | 6572/10699 [1:11:53<34:00,  2.02it/s] 61%|██████▏   | 6573/10699 [1:11:54<34:00,  2.02it/s] 61%|██████▏   | 6574/10699 [1:11:54<34:00,  2.02it/s] 61%|██████▏   | 6575/10699 [1:11:55<34:00,  2.02it/s]{'loss': 3.6699, 'grad_norm': 0.21047863364219666, 'learning_rate': 0.00038830789190701646, 'epoch': 0.61}                                                      
- 61%|██████▏   | 6575/10699 [1:11:55<34:00,  2.02it/s] 61%|██████▏   | 6576/10699 [1:11:55<34:01,  2.02it/s] 61%|██████▏   | 6577/10699 [1:11:56<34:02,  2.02it/s] 61%|██████▏   | 6578/10699 [1:11:56<33:59,  2.02it/s] 61%|██████▏   | 6579/10699 [1:11:57<33:58,  2.02it/s] 62%|██████▏   | 6580/10699 [1:11:57<33:58,  2.02it/s] 62%|██████▏   | 6581/10699 [1:11:58<33:57,  2.02it/s] 62%|██████▏   | 6582/10699 [1:11:58<33:55,  2.02it/s] 62%|██████▏   | 6583/10699 [1:11:59<33:56,  2.02it/s] 62%|██████▏   | 6584/10699 [1:11:59<33:55,  2.02it/s] 62%|██████▏   | 6585/10699 [1:12:00<33:55,  2.02it/s] 62%|██████▏   | 6586/10699 [1:12:00<33:55,  2.02it/s] 62%|██████▏   | 6587/10699 [1:12:01<33:53,  2.02it/s] 62%|██████▏   | 6588/10699 [1:12:01<33:54,  2.02it/s] 62%|██████▏   | 6589/10699 [1:12:02<33:53,  2.02it/s] 62%|██████▏   | 6590/10699 [1:12:02<33:53,  2.02it/s] 62%|██████▏   | 6591/10699 [1:12:03<33:51,  2.02it/s] 62%|██████▏   | 6592/10699 [1:12:03<33:51,  2.02it/s] 62%|██████▏   | 6593/10699 [1:12:04<33:49,  2.02it/s] 62%|██████▏   | 6594/10699 [1:12:04<33:49,  2.02it/s] 62%|██████▏   | 6595/10699 [1:12:05<33:48,  2.02it/s] 62%|██████▏   | 6596/10699 [1:12:05<33:50,  2.02it/s] 62%|██████▏   | 6597/10699 [1:12:06<33:47,  2.02it/s] 62%|██████▏   | 6598/10699 [1:12:06<33:46,  2.02it/s] 62%|██████▏   | 6599/10699 [1:12:07<33:45,  2.02it/s] 62%|██████▏   | 6600/10699 [1:12:07<33:45,  2.02it/s]{'loss': 3.6587, 'grad_norm': 0.2050696611404419, 'learning_rate': 0.0003843364124254419, 'epoch': 0.62}                                                      
- 62%|██████▏   | 6600/10699 [1:12:07<33:45,  2.02it/s] 62%|██████▏   | 6601/10699 [1:12:08<33:54,  2.01it/s] 62%|██████▏   | 6602/10699 [1:12:08<33:50,  2.02it/s] 62%|██████▏   | 6603/10699 [1:12:09<33:47,  2.02it/s] 62%|██████▏   | 6604/10699 [1:12:09<33:47,  2.02it/s] 62%|██████▏   | 6605/10699 [1:12:10<33:44,  2.02it/s] 62%|██████▏   | 6606/10699 [1:12:10<33:47,  2.02it/s] 62%|██████▏   | 6607/10699 [1:12:11<33:43,  2.02it/s] 62%|██████▏   | 6608/10699 [1:12:11<33:43,  2.02it/s] 62%|██████▏   | 6609/10699 [1:12:12<33:41,  2.02it/s] 62%|██████▏   | 6610/10699 [1:12:12<33:41,  2.02it/s] 62%|██████▏   | 6611/10699 [1:12:13<33:41,  2.02it/s] 62%|██████▏   | 6612/10699 [1:12:13<33:38,  2.02it/s] 62%|██████▏   | 6613/10699 [1:12:14<33:39,  2.02it/s] 62%|██████▏   | 6614/10699 [1:12:14<33:37,  2.03it/s] 62%|██████▏   | 6615/10699 [1:12:15<33:38,  2.02it/s] 62%|██████▏   | 6616/10699 [1:12:15<33:39,  2.02it/s] 62%|██████▏   | 6617/10699 [1:12:15<33:38,  2.02it/s] 62%|██████▏   | 6618/10699 [1:12:16<33:36,  2.02it/s] 62%|██████▏   | 6619/10699 [1:12:16<33:39,  2.02it/s] 62%|██████▏   | 6620/10699 [1:12:17<33:36,  2.02it/s] 62%|██████▏   | 6621/10699 [1:12:17<33:37,  2.02it/s] 62%|██████▏   | 6622/10699 [1:12:18<33:34,  2.02it/s] 62%|██████▏   | 6623/10699 [1:12:18<33:32,  2.03it/s] 62%|██████▏   | 6624/10699 [1:12:19<33:32,  2.02it/s] 62%|██████▏   | 6625/10699 [1:12:19<33:32,  2.02it/s]                                                      {'loss': 3.6641, 'grad_norm': 0.2111167013645172, 'learning_rate': 0.00038037262799730945, 'epoch': 0.62}
- 62%|██████▏   | 6625/10699 [1:12:19<33:32,  2.02it/s] 62%|██████▏   | 6626/10699 [1:12:20<33:36,  2.02it/s] 62%|██████▏   | 6627/10699 [1:12:20<33:34,  2.02it/s] 62%|██████▏   | 6628/10699 [1:12:21<33:35,  2.02it/s] 62%|██████▏   | 6629/10699 [1:12:21<33:34,  2.02it/s] 62%|██████▏   | 6630/10699 [1:12:22<33:35,  2.02it/s] 62%|██████▏   | 6631/10699 [1:12:22<33:34,  2.02it/s] 62%|██████▏   | 6632/10699 [1:12:23<33:33,  2.02it/s] 62%|██████▏   | 6633/10699 [1:12:23<33:36,  2.02it/s] 62%|██████▏   | 6634/10699 [1:12:24<33:35,  2.02it/s] 62%|██████▏   | 6635/10699 [1:12:24<33:32,  2.02it/s] 62%|██████▏   | 6636/10699 [1:12:25<33:31,  2.02it/s] 62%|██████▏   | 6637/10699 [1:12:25<33:29,  2.02it/s] 62%|██████▏   | 6638/10699 [1:12:26<33:28,  2.02it/s] 62%|██████▏   | 6639/10699 [1:12:26<33:26,  2.02it/s] 62%|██████▏   | 6640/10699 [1:12:27<33:24,  2.03it/s] 62%|██████▏   | 6641/10699 [1:12:27<33:24,  2.02it/s] 62%|██████▏   | 6642/10699 [1:12:28<33:24,  2.02it/s] 62%|██████▏   | 6643/10699 [1:12:28<33:25,  2.02it/s] 62%|██████▏   | 6644/10699 [1:12:29<33:23,  2.02it/s] 62%|██████▏   | 6645/10699 [1:12:29<33:22,  2.02it/s] 62%|██████▏   | 6646/10699 [1:12:30<33:20,  2.03it/s] 62%|██████▏   | 6647/10699 [1:12:30<33:21,  2.02it/s] 62%|██████▏   | 6648/10699 [1:12:31<33:18,  2.03it/s] 62%|██████▏   | 6649/10699 [1:12:31<33:18,  2.03it/s] 62%|██████▏   | 6650/10699 [1:12:32<33:18,  2.03it/s]{'loss': 3.6706, 'grad_norm': 0.20390890538692474, 'learning_rate': 0.00037641680233165334, 'epoch': 0.62}                                                      
- 62%|██████▏   | 6650/10699 [1:12:32<33:18,  2.03it/s] 62%|██████▏   | 6651/10699 [1:12:32<33:21,  2.02it/s] 62%|██████▏   | 6652/10699 [1:12:33<33:18,  2.02it/s] 62%|██████▏   | 6653/10699 [1:12:33<33:16,  2.03it/s] 62%|██████▏   | 6654/10699 [1:12:34<33:17,  2.03it/s] 62%|██████▏   | 6655/10699 [1:12:34<33:15,  2.03it/s] 62%|██████▏   | 6656/10699 [1:12:35<33:21,  2.02it/s] 62%|██████▏   | 6657/10699 [1:12:35<33:19,  2.02it/s] 62%|██████▏   | 6658/10699 [1:12:36<33:19,  2.02it/s] 62%|██████▏   | 6659/10699 [1:12:36<33:16,  2.02it/s] 62%|██████▏   | 6660/10699 [1:12:37<33:15,  2.02it/s] 62%|██████▏   | 6661/10699 [1:12:37<33:13,  2.03it/s] 62%|██████▏   | 6662/10699 [1:12:38<33:13,  2.02it/s] 62%|██████▏   | 6663/10699 [1:12:38<33:12,  2.03it/s] 62%|██████▏   | 6664/10699 [1:12:39<33:11,  2.03it/s] 62%|██████▏   | 6665/10699 [1:12:39<33:13,  2.02it/s] 62%|██████▏   | 6666/10699 [1:12:40<33:10,  2.03it/s] 62%|██████▏   | 6667/10699 [1:12:40<33:13,  2.02it/s] 62%|██████▏   | 6668/10699 [1:12:41<33:10,  2.02it/s] 62%|██████▏   | 6669/10699 [1:12:41<33:12,  2.02it/s] 62%|██████▏   | 6670/10699 [1:12:42<33:10,  2.02it/s] 62%|██████▏   | 6671/10699 [1:12:42<33:11,  2.02it/s] 62%|██████▏   | 6672/10699 [1:12:43<33:09,  2.02it/s] 62%|██████▏   | 6673/10699 [1:12:43<33:09,  2.02it/s] 62%|██████▏   | 6674/10699 [1:12:44<33:08,  2.02it/s] 62%|██████▏   | 6675/10699 [1:12:44<33:08,  2.02it/s]{'loss': 3.6611, 'grad_norm': 0.21996736526489258, 'learning_rate': 0.0003724691986080151, 'epoch': 0.62}                                                      
- 62%|██████▏   | 6675/10699 [1:12:44<33:08,  2.02it/s] 62%|██████▏   | 6676/10699 [1:12:45<33:10,  2.02it/s] 62%|██████▏   | 6677/10699 [1:12:45<33:08,  2.02it/s] 62%|██████▏   | 6678/10699 [1:12:46<33:09,  2.02it/s] 62%|██████▏   | 6679/10699 [1:12:46<33:07,  2.02it/s] 62%|██████▏   | 6680/10699 [1:12:47<33:08,  2.02it/s] 62%|██████▏   | 6681/10699 [1:12:47<33:08,  2.02it/s] 62%|██████▏   | 6682/10699 [1:12:48<33:03,  2.02it/s] 62%|██████▏   | 6683/10699 [1:12:48<33:04,  2.02it/s] 62%|██████▏   | 6684/10699 [1:12:49<33:02,  2.02it/s] 62%|██████▏   | 6685/10699 [1:12:49<33:04,  2.02it/s] 62%|██████▏   | 6686/10699 [1:12:50<33:02,  2.02it/s] 63%|██████▎   | 6687/10699 [1:12:50<33:01,  2.02it/s] 63%|██████▎   | 6688/10699 [1:12:51<33:01,  2.02it/s] 63%|██████▎   | 6689/10699 [1:12:51<33:01,  2.02it/s] 63%|██████▎   | 6690/10699 [1:12:52<33:00,  2.02it/s] 63%|██████▎   | 6691/10699 [1:12:52<33:00,  2.02it/s] 63%|██████▎   | 6692/10699 [1:12:53<32:57,  2.03it/s] 63%|██████▎   | 6693/10699 [1:12:53<33:01,  2.02it/s] 63%|██████▎   | 6694/10699 [1:12:54<32:58,  2.02it/s] 63%|██████▎   | 6695/10699 [1:12:54<32:59,  2.02it/s] 63%|██████▎   | 6696/10699 [1:12:55<32:57,  2.02it/s] 63%|██████▎   | 6697/10699 [1:12:55<32:58,  2.02it/s] 63%|██████▎   | 6698/10699 [1:12:56<32:57,  2.02it/s] 63%|██████▎   | 6699/10699 [1:12:56<33:00,  2.02it/s] 63%|██████▎   | 6700/10699 [1:12:57<32:57,  2.02it/s]{'loss': 3.6639, 'grad_norm': 0.22494949400424957, 'learning_rate': 0.00036853007945893314, 'epoch': 0.63}                                                      
- 63%|██████▎   | 6700/10699 [1:12:57<32:57,  2.02it/s] 63%|██████▎   | 6701/10699 [1:12:57<32:59,  2.02it/s] 63%|██████▎   | 6702/10699 [1:12:58<32:55,  2.02it/s] 63%|██████▎   | 6703/10699 [1:12:58<32:54,  2.02it/s] 63%|██████▎   | 6704/10699 [1:12:59<32:53,  2.02it/s] 63%|██████▎   | 6705/10699 [1:12:59<32:50,  2.03it/s] 63%|██████▎   | 6706/10699 [1:12:59<32:51,  2.02it/s] 63%|██████▎   | 6707/10699 [1:13:00<32:53,  2.02it/s] 63%|██████▎   | 6708/10699 [1:13:00<32:54,  2.02it/s] 63%|██████▎   | 6709/10699 [1:13:01<32:52,  2.02it/s] 63%|██████▎   | 6710/10699 [1:13:01<32:52,  2.02it/s] 63%|██████▎   | 6711/10699 [1:13:02<32:49,  2.02it/s] 63%|██████▎   | 6712/10699 [1:13:02<32:50,  2.02it/s] 63%|██████▎   | 6713/10699 [1:13:03<32:48,  2.03it/s] 63%|██████▎   | 6714/10699 [1:13:03<32:46,  2.03it/s] 63%|██████▎   | 6715/10699 [1:13:04<32:47,  2.02it/s] 63%|██████▎   | 6716/10699 [1:13:04<32:47,  2.02it/s] 63%|██████▎   | 6717/10699 [1:13:05<32:49,  2.02it/s] 63%|██████▎   | 6718/10699 [1:13:05<32:46,  2.02it/s] 63%|██████▎   | 6719/10699 [1:13:06<32:47,  2.02it/s] 63%|██████▎   | 6720/10699 [1:13:06<32:45,  2.02it/s] 63%|██████▎   | 6721/10699 [1:13:07<32:46,  2.02it/s] 63%|██████▎   | 6722/10699 [1:13:07<32:43,  2.03it/s] 63%|██████▎   | 6723/10699 [1:13:08<32:42,  2.03it/s] 63%|██████▎   | 6724/10699 [1:13:08<32:43,  2.02it/s] 63%|██████▎   | 6725/10699 [1:13:09<32:44,  2.02it/s]                                                      {'loss': 3.6516, 'grad_norm': 0.20926503837108612, 'learning_rate': 0.00036459970695247053, 'epoch': 0.63}
- 63%|██████▎   | 6725/10699 [1:13:09<32:44,  2.02it/s] 63%|██████▎   | 6726/10699 [1:13:09<32:44,  2.02it/s] 63%|██████▎   | 6727/10699 [1:13:10<32:44,  2.02it/s] 63%|██████▎   | 6728/10699 [1:13:10<32:44,  2.02it/s] 63%|██████▎   | 6729/10699 [1:13:11<32:43,  2.02it/s] 63%|██████▎   | 6730/10699 [1:13:11<32:41,  2.02it/s] 63%|██████▎   | 6731/10699 [1:13:12<32:40,  2.02it/s] 63%|██████▎   | 6732/10699 [1:13:12<32:40,  2.02it/s] 63%|██████▎   | 6733/10699 [1:13:13<32:38,  2.02it/s] 63%|██████▎   | 6734/10699 [1:13:13<32:38,  2.02it/s] 63%|██████▎   | 6735/10699 [1:13:14<32:40,  2.02it/s] 63%|██████▎   | 6736/10699 [1:13:14<32:40,  2.02it/s] 63%|██████▎   | 6737/10699 [1:13:15<32:39,  2.02it/s] 63%|██████▎   | 6738/10699 [1:13:15<32:38,  2.02it/s] 63%|██████▎   | 6739/10699 [1:13:16<32:35,  2.03it/s] 63%|██████▎   | 6740/10699 [1:13:16<32:37,  2.02it/s] 63%|█��████▎   | 6741/10699 [1:13:17<32:35,  2.02it/s] 63%|██████▎   | 6742/10699 [1:13:17<32:35,  2.02it/s] 63%|██████▎   | 6743/10699 [1:13:18<32:35,  2.02it/s] 63%|██████▎   | 6744/10699 [1:13:18<32:36,  2.02it/s] 63%|██████▎   | 6745/10699 [1:13:19<32:33,  2.02it/s] 63%|██████▎   | 6746/10699 [1:13:19<32:31,  2.03it/s] 63%|██████▎   | 6747/10699 [1:13:20<32:32,  2.02it/s] 63%|██████▎   | 6748/10699 [1:13:20<32:32,  2.02it/s] 63%|██████▎   | 6749/10699 [1:13:21<32:33,  2.02it/s] 63%|██████▎   | 6750/10699 [1:13:21<32:31,  2.02it/s]                                                      {'loss': 3.6676, 'grad_norm': 0.20032548904418945, 'learning_rate': 0.0003606783425747796, 'epoch': 0.63}
- 63%|██████▎   | 6750/10699 [1:13:21<32:31,  2.02it/s] 63%|██████▎   | 6751/10699 [1:13:22<32:40,  2.01it/s] 63%|██████▎   | 6752/10699 [1:13:22<32:35,  2.02it/s] 63%|██████▎   | 6753/10699 [1:13:23<32:33,  2.02it/s] 63%|██████▎   | 6754/10699 [1:13:23<32:32,  2.02it/s] 63%|██████▎   | 6755/10699 [1:13:24<32:31,  2.02it/s] 63%|██████▎   | 6756/10699 [1:13:24<32:29,  2.02it/s] 63%|██████▎   | 6757/10699 [1:13:25<32:28,  2.02it/s] 63%|██████▎   | 6758/10699 [1:13:25<32:26,  2.02it/s] 63%|██████▎   | 6759/10699 [1:13:26<32:25,  2.02it/s] 63%|██████▎   | 6760/10699 [1:13:26<32:25,  2.02it/s] 63%|██████▎   | 6761/10699 [1:13:27<32:23,  2.03it/s] 63%|██████▎   | 6762/10699 [1:13:27<32:24,  2.02it/s] 63%|██████▎   | 6763/10699 [1:13:28<32:24,  2.02it/s] 63%|██████▎   | 6764/10699 [1:13:28<32:24,  2.02it/s] 63%|██████▎   | 6765/10699 [1:13:29<32:23,  2.02it/s] 63%|██████▎   | 6766/10699 [1:13:29<32:23,  2.02it/s] 63%|██████▎   | 6767/10699 [1:13:30<32:23,  2.02it/s] 63%|██████▎   | 6768/10699 [1:13:30<32:20,  2.03it/s] 63%|██████▎   | 6769/10699 [1:13:31<32:21,  2.02it/s] 63%|██████▎   | 6770/10699 [1:13:31<32:19,  2.03it/s] 63%|██████▎   | 6771/10699 [1:13:32<32:19,  2.02it/s] 63%|██████▎   | 6772/10699 [1:13:32<32:17,  2.03it/s] 63%|██████▎   | 6773/10699 [1:13:33<32:17,  2.03it/s] 63%|██████▎   | 6774/10699 [1:13:33<32:18,  2.02it/s] 63%|██████▎   | 6775/10699 [1:13:34<32:19,  2.02it/s]{'loss': 3.6661, 'grad_norm': 0.19772323966026306, 'learning_rate': 0.0003567662472127053, 'epoch': 0.63}                                                      
- 63%|██████▎   | 6775/10699 [1:13:34<32:19,  2.02it/s] 63%|██████▎   | 6776/10699 [1:13:34<32:20,  2.02it/s] 63%|██████▎   | 6777/10699 [1:13:35<32:21,  2.02it/s] 63%|██████▎   | 6778/10699 [1:13:35<32:20,  2.02it/s] 63%|██████▎   | 6779/10699 [1:13:36<32:21,  2.02it/s] 63%|██████▎   | 6780/10699 [1:13:36<32:21,  2.02it/s] 63%|██████▎   | 6781/10699 [1:13:37<32:20,  2.02it/s] 63%|██████▎   | 6782/10699 [1:13:37<37:42,  1.73it/s] 63%|██████▎   | 6783/10699 [1:13:38<36:05,  1.81it/s] 63%|██████▎   | 6784/10699 [1:13:38<34:57,  1.87it/s] 63%|██████▎   | 6785/10699 [1:13:39<34:07,  1.91it/s] 63%|██████▎   | 6786/10699 [1:13:39<33:35,  1.94it/s] 63%|██████▎   | 6787/10699 [1:13:40<33:13,  1.96it/s] 63%|██████▎   | 6788/10699 [1:13:40<32:55,  1.98it/s] 63%|██████▎   | 6789/10699 [1:13:41<32:44,  1.99it/s] 63%|██████▎   | 6790/10699 [1:13:41<32:36,  2.00it/s] 63%|██████▎   | 6791/10699 [1:13:42<32:32,  2.00it/s] 63%|██████▎   | 6792/10699 [1:13:42<32:24,  2.01it/s] 63%|██████▎   | 6793/10699 [1:13:43<32:19,  2.01it/s] 64%|██████▎   | 6794/10699 [1:13:43<32:17,  2.02it/s] 64%|██████▎   | 6795/10699 [1:13:44<32:14,  2.02it/s] 64%|██████▎   | 6796/10699 [1:13:44<32:13,  2.02it/s] 64%|██████▎   | 6797/10699 [1:13:45<32:11,  2.02it/s] 64%|██████▎   | 6798/10699 [1:13:45<32:12,  2.02it/s] 64%|██████▎   | 6799/10699 [1:13:46<32:10,  2.02it/s] 64%|██████▎   | 6800/10699 [1:13:46<32:10,  2.02it/s]{'loss': 3.666, 'grad_norm': 0.20833490788936615, 'learning_rate': 0.0003528636811364289, 'epoch': 0.64}
-                                                       64%|██████▎   | 6800/10699 [1:13:46<32:10,  2.02it/s] 64%|██████▎   | 6801/10699 [1:13:47<32:10,  2.02it/s] 64%|██████▎   | 6802/10699 [1:13:47<32:09,  2.02it/s] 64%|██████▎   | 6803/10699 [1:13:48<32:06,  2.02it/s] 64%|██████▎   | 6804/10699 [1:13:48<32:06,  2.02it/s] 64%|████��█▎   | 6805/10699 [1:13:49<32:05,  2.02it/s] 64%|██████▎   | 6806/10699 [1:13:49<32:06,  2.02it/s] 64%|██████▎   | 6807/10699 [1:13:50<32:04,  2.02it/s] 64%|██████▎   | 6808/10699 [1:13:50<32:04,  2.02it/s] 64%|██████▎   | 6809/10699 [1:13:51<32:02,  2.02it/s] 64%|██████▎   | 6810/10699 [1:13:51<32:06,  2.02it/s] 64%|██████▎   | 6811/10699 [1:13:52<32:01,  2.02it/s] 64%|██████▎   | 6812/10699 [1:13:52<37:23,  1.73it/s] 64%|██████▎   | 6813/10699 [1:13:53<35:47,  1.81it/s] 64%|██████▎   | 6814/10699 [1:13:53<34:38,  1.87it/s] 64%|██████▎   | 6815/10699 [1:13:54<33:51,  1.91it/s] 64%|██████▎   | 6816/10699 [1:13:54<33:19,  1.94it/s] 64%|██████▎   | 6817/10699 [1:13:55<32:54,  1.97it/s] 64%|██████▎   | 6818/10699 [1:13:55<32:39,  1.98it/s] 64%|██████▎   | 6819/10699 [1:13:56<32:24,  2.00it/s] 64%|██████▎   | 6820/10699 [1:13:56<32:15,  2.00it/s] 64%|██████▍   | 6821/10699 [1:13:57<32:08,  2.01it/s] 64%|██████▍   | 6822/10699 [1:13:57<32:04,  2.01it/s] 64%|██████▍   | 6823/10699 [1:13:58<32:00,  2.02it/s] 64%|██████▍   | 6824/10699 [1:13:58<31:58,  2.02it/s] 64%|██████▍   | 6825/10699 [1:13:59<31:55,  2.02it/s]                                                      {'loss': 3.6521, 'grad_norm': 0.2144206464290619, 'learning_rate': 0.0003489709039821518, 'epoch': 0.64}
- 64%|██████▍   | 6825/10699 [1:13:59<31:55,  2.02it/s] 64%|██████▍   | 6826/10699 [1:13:59<31:57,  2.02it/s] 64%|██████▍   | 6827/10699 [1:14:00<31:55,  2.02it/s] 64%|██████▍   | 6828/10699 [1:14:00<31:56,  2.02it/s] 64%|██████▍   | 6829/10699 [1:14:01<31:55,  2.02it/s] 64%|██████▍   | 6830/10699 [1:14:01<31:55,  2.02it/s] 64%|██████▍   | 6831/10699 [1:14:02<31:52,  2.02it/s] 64%|██████▍   | 6832/10699 [1:14:02<31:52,  2.02it/s] 64%|██████▍   | 6833/10699 [1:14:03<31:50,  2.02it/s] 64%|██████▍   | 6834/10699 [1:14:03<31:53,  2.02it/s] 64%|██████▍   | 6835/10699 [1:14:04<31:50,  2.02it/s] 64%|██████▍   | 6836/10699 [1:14:04<31:50,  2.02it/s] 64%|██████▍   | 6837/10699 [1:14:05<31:49,  2.02it/s] 64%|██████▍   | 6838/10699 [1:14:05<31:47,  2.02it/s] 64%|██████▍   | 6839/10699 [1:14:06<31:48,  2.02it/s] 64%|██████▍   | 6840/10699 [1:14:06<31:46,  2.02it/s] 64%|██████▍   | 6841/10699 [1:14:07<31:45,  2.02it/s] 64%|██████▍   | 6842/10699 [1:14:07<31:44,  2.02it/s] 64%|██████▍   | 6843/10699 [1:14:08<31:45,  2.02it/s] 64%|██████▍   | 6844/10699 [1:14:08<31:44,  2.02it/s] 64%|██████▍   | 6845/10699 [1:14:09<31:44,  2.02it/s] 64%|██████▍   | 6846/10699 [1:14:09<31:43,  2.02it/s] 64%|██████▍   | 6847/10699 [1:14:10<31:43,  2.02it/s] 64%|██████▍   | 6848/10699 [1:14:10<31:43,  2.02it/s] 64%|██████▍   | 6849/10699 [1:14:11<31:44,  2.02it/s] 64%|██████▍   | 6850/10699 [1:14:11<31:42,  2.02it/s]{'loss': 3.654, 'grad_norm': 0.22277158498764038, 'learning_rate': 0.0003450881747348221, 'epoch': 0.64}                                                      
- 64%|██████▍   | 6850/10699 [1:14:11<31:42,  2.02it/s] 64%|██████▍   | 6851/10699 [1:14:12<31:49,  2.02it/s] 64%|██████▍   | 6852/10699 [1:14:12<31:46,  2.02it/s] 64%|██████▍   | 6853/10699 [1:14:13<31:45,  2.02it/s] 64%|██████▍   | 6854/10699 [1:14:13<31:42,  2.02it/s] 64%|██████▍   | 6855/10699 [1:14:14<31:42,  2.02it/s] 64%|██████▍   | 6856/10699 [1:14:14<31:41,  2.02it/s] 64%|██████▍   | 6857/10699 [1:14:15<31:42,  2.02it/s] 64%|██████▍   | 6858/10699 [1:14:15<31:40,  2.02it/s] 64%|██████▍   | 6859/10699 [1:14:16<31:38,  2.02it/s] 64%|██████▍   | 6860/10699 [1:14:16<31:36,  2.02it/s] 64%|██████▍   | 6861/10699 [1:14:17<31:36,  2.02it/s] 64%|██████▍   | 6862/10699 [1:14:17<31:35,  2.02it/s] 64%|██████▍   | 6863/10699 [1:14:18<31:36,  2.02it/s] 64%|██████▍   | 6864/10699 [1:14:18<31:34,  2.02it/s] 64%|██████▍   | 6865/10699 [1:14:19<31:34,  2.02it/s] 64%|██████▍   | 6866/10699 [1:14:19<31:33,  2.02it/s] 64%|██████▍   | 6867/10699 [1:14:20<31:33,  2.02it/s] 64%|██████▍   | 6868/10699 [1:14:20<31:31,  2.02it/s] 64%|██████▍   | 6869/10699 [1:14:21<31:33,  2.02it/s] 64%|██████▍   | 6870/10699 [1:14:21<31:32,  2.02it/s] 64%|██████▍   | 6871/10699 [1:14:22<31:31,  2.02it/s] 64%|██████▍   | 6872/10699 [1:14:22<31:31,  2.02it/s] 64%|██████▍   | 6873/10699 [1:14:23<31:31,  2.02it/s] 64%|██████▍   | 6874/10699 [1:14:23<31:31,  2.02it/s] 64%|██████▍   | 6875/10699 [1:14:24<31:29,  2.02it/s]                                                      {'loss': 3.6512, 'grad_norm': 0.20282959938049316, 'learning_rate': 0.0003412157517109049, 'epoch': 0.64}
- 64%|██████▍   | 6875/10699 [1:14:24<31:29,  2.02it/s] 64%|██████▍   | 6876/10699 [1:14:24<31:32,  2.02it/s] 64%|██████▍   | 6877/10699 [1:14:25<31:31,  2.02it/s] 64%|██████▍   | 6878/10699 [1:14:25<31:30,  2.02it/s] 64%|██████▍   | 6879/10699 [1:14:26<31:30,  2.02it/s] 64%|██████▍   | 6880/10699 [1:14:26<31:29,  2.02it/s] 64%|██████▍   | 6881/10699 [1:14:27<31:27,  2.02it/s] 64%|██████▍   | 6882/10699 [1:14:27<31:27,  2.02it/s] 64%|██████▍   | 6883/10699 [1:14:28<31:25,  2.02it/s] 64%|██████▍   | 6884/10699 [1:14:28<31:24,  2.02it/s] 64%|██████▍   | 6885/10699 [1:14:29<31:24,  2.02it/s] 64%|██████▍   | 6886/10699 [1:14:29<31:23,  2.02it/s] 64%|██████▍   | 6887/10699 [1:14:30<31:21,  2.03it/s] 64%|██████▍   | 6888/10699 [1:14:30<31:20,  2.03it/s] 64%|██████▍   | 6889/10699 [1:14:31<31:21,  2.02it/s] 64%|██████▍   | 6890/10699 [1:14:31<31:19,  2.03it/s] 64%|██████▍   | 6891/10699 [1:14:32<31:19,  2.03it/s] 64%|██████▍   | 6892/10699 [1:14:32<31:18,  2.03it/s] 64%|██████▍   | 6893/10699 [1:14:32<31:17,  2.03it/s] 64%|██████▍   | 6894/10699 [1:14:33<31:18,  2.03it/s] 64%|██████▍   | 6895/10699 [1:14:33<31:17,  2.03it/s] 64%|██████▍   | 6896/10699 [1:14:34<31:17,  2.03it/s] 64%|██████▍   | 6897/10699 [1:14:34<31:15,  2.03it/s] 64%|██████▍   | 6898/10699 [1:14:35<31:15,  2.03it/s] 64%|██████▍   | 6899/10699 [1:14:35<31:15,  2.03it/s] 64%|██████▍   | 6900/10699 [1:14:36<31:13,  2.03it/s]{'loss': 3.6479, 'grad_norm': 0.21825121343135834, 'learning_rate': 0.0003373538925411958, 'epoch': 0.64}                                                      
- 64%|██████▍   | 6900/10699 [1:14:36<31:13,  2.03it/s] 65%|██████▍   | 6901/10699 [1:14:36<31:17,  2.02it/s] 65%|██████▍   | 6902/10699 [1:14:37<31:14,  2.03it/s] 65%|██████▍   | 6903/10699 [1:14:37<31:14,  2.02it/s] 65%|██████▍   | 6904/10699 [1:14:38<31:12,  2.03it/s] 65%|██████▍   | 6905/10699 [1:14:38<31:14,  2.02it/s] 65%|██████▍   | 6906/10699 [1:14:39<31:13,  2.02it/s] 65%|██████▍   | 6907/10699 [1:14:39<31:10,  2.03it/s] 65%|██████▍   | 6908/10699 [1:14:40<31:12,  2.02it/s] 65%|██████▍   | 6909/10699 [1:14:40<31:10,  2.03it/s] 65%|██████▍   | 6910/10699 [1:14:41<31:09,  2.03it/s] 65%|██████▍   | 6911/10699 [1:14:41<31:09,  2.03it/s] 65%|██████▍   | 6912/10699 [1:14:42<31:07,  2.03it/s] 65%|██████▍   | 6913/10699 [1:14:42<31:10,  2.02it/s] 65%|██████▍   | 6914/10699 [1:14:43<31:08,  2.03it/s] 65%|██████▍   | 6915/10699 [1:14:43<31:09,  2.02it/s] 65%|██████▍   | 6916/10699 [1:14:44<31:09,  2.02it/s] 65%|██████▍   | 6917/10699 [1:14:44<31:09,  2.02it/s] 65%|██████▍   | 6918/10699 [1:14:45<31:09,  2.02it/s] 65%|██████▍   | 6919/10699 [1:14:45<31:07,  2.02it/s] 65%|██████▍   | 6920/10699 [1:14:46<31:04,  2.03it/s] 65%|██████▍   | 6921/10699 [1:14:46<31:05,  2.03it/s] 65%|██████▍   | 6922/10699 [1:14:47<31:06,  2.02it/s] 65%|██████▍   | 6923/10699 [1:14:47<31:05,  2.02it/s] 65%|██████▍   | 6924/10699 [1:14:48<31:05,  2.02it/s] 65%|██████▍   | 6925/10699 [1:14:48<31:03,  2.03it/s]                                                      {'loss': 3.6509, 'grad_norm': 0.20750531554222107, 'learning_rate': 0.00033350285415368166, 'epoch': 0.65}
- 65%|██████▍   | 6925/10699 [1:14:48<31:03,  2.03it/s] 65%|██████▍   | 6926/10699 [1:14:49<31:06,  2.02it/s] 65%|██████▍   | 6927/10699 [1:14:49<31:05,  2.02it/s] 65%|██████▍   | 6928/10699 [1:14:50<31:06,  2.02it/s] 65%|██████▍   | 6929/10699 [1:14:50<31:04,  2.02it/s] 65%|██████▍   | 6930/10699 [1:14:51<31:04,  2.02it/s] 65%|██████▍   | 6931/10699 [1:14:51<31:02,  2.02it/s] 65%|██████▍   | 6932/10699 [1:14:52<31:03,  2.02it/s] 65%|██████▍   | 6933/10699 [1:14:52<30:59,  2.03it/s] 65%|██████▍   | 6934/10699 [1:14:53<30:58,  2.03it/s] 65%|██████▍   | 6935/10699 [1:14:53<30:57,  2.03it/s] 65%|██████▍   | 6936/10699 [1:14:54<30:58,  2.02it/s] 65%|██████▍   | 6937/10699 [1:14:54<30:57,  2.02it/s] 65%|██████▍   | 6938/10699 [1:14:55<30:57,  2.02it/s] 65%|██████▍   | 6939/10699 [1:14:55<30:58,  2.02it/s] 65%|██████▍   | 6940/10699 [1:14:56<30:58,  2.02it/s] 65%|██████▍   | 6941/10699 [1:14:56<30:58,  2.02it/s] 65%|██████▍   | 6942/10699 [1:14:57<30:58,  2.02it/s] 65%|██████▍   | 6943/10699 [1:14:57<31:00,  2.02it/s] 65%|██████▍   | 6944/10699 [1:14:58<30:56,  2.02it/s] 65%|██████▍   | 6945/10699 [1:14:58<30:57,  2.02it/s] 65%|██████▍   | 6946/10699 [1:14:59<30:55,  2.02it/s] 65%|██████▍   | 6947/10699 [1:14:59<30:55,  2.02it/s] 65%|██████▍   | 6948/10699 [1:15:00<30:53,  2.02it/s] 65%|██████▍   | 6949/10699 [1:15:00<30:51,  2.03it/s] 65%|██████▍   | 6950/10699 [1:15:01<30:53,  2.02it/s]{'loss': 3.6545, 'grad_norm': 0.19965201616287231, 'learning_rate': 0.00032966289275644683, 'epoch': 0.65}                                                      
- 65%|██████▍   | 6950/10699 [1:15:01<30:53,  2.02it/s] 65%|██████▍   | 6951/10699 [1:15:01<30:53,  2.02it/s] 65%|██████▍   | 6952/10699 [1:15:02<30:53,  2.02it/s] 65%|██████▍   | 6953/10699 [1:15:02<30:50,  2.02it/s] 65%|██████▍   | 6954/10699 [1:15:03<30:52,  2.02it/s] 65%|██████▌   | 6955/10699 [1:15:03<30:50,  2.02it/s] 65%|██████▌   | 6956/10699 [1:15:04<30:49,  2.02it/s] 65%|██████▌   | 6957/10699 [1:15:04<30:51,  2.02it/s] 65%|██████▌   | 6958/10699 [1:15:05<30:51,  2.02it/s] 65%|██████▌   | 6959/10699 [1:15:05<30:50,  2.02it/s] 65%|██████▌   | 6960/10699 [1:15:06<30:48,  2.02it/s] 65%|██████▌   | 6961/10699 [1:15:06<30:47,  2.02it/s] 65%|██████▌   | 6962/10699 [1:15:07<30:47,  2.02it/s] 65%|██████▌   | 6963/10699 [1:15:07<30:46,  2.02it/s] 65%|██████▌   | 6964/10699 [1:15:08<30:47,  2.02it/s] 65%|██████▌   | 6965/10699 [1:15:08<30:44,  2.02it/s] 65%|██████▌   | 6966/10699 [1:15:09<30:43,  2.02it/s] 65%|██████▌   | 6967/10699 [1:15:09<30:42,  2.03it/s] 65%|██████▌   | 6968/10699 [1:15:10<30:44,  2.02it/s] 65%|██████▌   | 6969/10699 [1:15:10<30:42,  2.02it/s] 65%|██████▌   | 6970/10699 [1:15:11<30:41,  2.03it/s] 65%|██████▌   | 6971/10699 [1:15:11<30:41,  2.02it/s] 65%|██████▌   | 6972/10699 [1:15:12<30:41,  2.02it/s] 65%|██████▌   | 6973/10699 [1:15:12<30:41,  2.02it/s] 65%|██████▌   | 6974/10699 [1:15:13<30:39,  2.03it/s] 65%|██████▌   | 6975/10699 [1:15:13<30:39,  2.02it/s]{'loss': 3.6475, 'grad_norm': 0.19250884652137756, 'learning_rate': 0.0003258342638206279, 'epoch': 0.65}
-                                                       65%|██████▌   | 6975/10699 [1:15:13<30:39,  2.02it/s] 65%|██████▌   | 6976/10699 [1:15:14<30:40,  2.02it/s] 65%|██████▌   | 6977/10699 [1:15:14<30:42,  2.02it/s] 65%|██████▌   | 6978/10699 [1:15:14<30:38,  2.02it/s] 65%|██████▌   | 6979/10699 [1:15:15<30:38,  2.02it/s] 65%|██████▌   | 6980/10699 [1:15:15<30:35,  2.03it/s] 65%|██████▌   | 6981/10699 [1:15:16<30:33,  2.03it/s] 65%|██████▌   | 6982/10699 [1:15:16<30:35,  2.02it/s] 65%|██████▌   | 6983/10699 [1:15:17<30:32,  2.03it/s] 65%|██████▌   | 6984/10699 [1:15:17<30:35,  2.02it/s] 65%|██████▌   | 6985/10699 [1:15:18<30:32,  2.03it/s] 65%|██████▌   | 6986/10699 [1:15:18<30:34,  2.02it/s] 65%|██████▌   | 6987/10699 [1:15:19<30:31,  2.03it/s] 65%|██████▌   | 6988/10699 [1:15:19<30:31,  2.03it/s] 65%|██████▌   | 6989/10699 [1:15:20<30:30,  2.03it/s] 65%|██████▌   | 6990/10699 [1:15:20<30:29,  2.03it/s] 65%|██████▌   | 6991/10699 [1:15:21<30:30,  2.03it/s] 65%|██████▌   | 6992/10699 [1:15:21<30:28,  2.03it/s] 65%|██████▌   | 6993/10699 [1:15:22<30:31,  2.02it/s] 65%|██████▌   | 6994/10699 [1:15:22<30:29,  2.03it/s] 65%|██████▌   | 6995/10699 [1:15:23<30:29,  2.02it/s] 65%|██████▌   | 6996/10699 [1:15:23<30:28,  2.03it/s] 65%|██████▌   | 6997/10699 [1:15:24<30:29,  2.02it/s] 65%|██████▌   | 6998/10699 [1:15:24<30:28,  2.02it/s] 65%|██████▌   | 6999/10699 [1:15:25<30:27,  2.02it/s] 65%|██████▌   | 7000/10699 [1:15:25<30:26,  2.02it/s]{'loss': 3.6447, 'grad_norm': 0.22159068286418915, 'learning_rate': 0.0003220172220634169, 'epoch': 0.65}
-                                                       65%|██████▌   | 7000/10699 [1:15:25<30:26,  2.02it/s] 65%|██████▌   | 7001/10699 [1:15:26<30:30,  2.02it/s] 65%|██████▌   | 7002/10699 [1:15:26<30:28,  2.02it/s] 65%|██████▌   | 7003/10699 [1:15:27<30:30,  2.02it/s] 65%|██████▌   | 7004/10699 [1:15:27<30:28,  2.02it/s] 65%|██████▌   | 7005/10699 [1:15:28<30:27,  2.02it/s] 65%|██████▌   | 7006/10699 [1:15:28<30:26,  2.02it/s] 65%|██████▌   | 7007/10699 [1:15:29<30:24,  2.02it/s] 66%|██████▌   | 7008/10699 [1:15:29<30:23,  2.02it/s] 66%|██████▌   | 7009/10699 [1:15:30<30:25,  2.02it/s] 66%|██████▌   | 7010/10699 [1:15:30<30:24,  2.02it/s] 66%|██████▌   | 7011/10699 [1:15:31<30:26,  2.02it/s] 66%|██████▌   | 7012/10699 [1:15:31<30:24,  2.02it/s] 66%|██████▌   | 7013/10699 [1:15:32<30:22,  2.02it/s] 66%|██████▌   | 7014/10699 [1:15:32<30:21,  2.02it/s] 66%|██████▌   | 7015/10699 [1:15:33<30:22,  2.02it/s] 66%|██████▌   | 7016/10699 [1:15:33<30:23,  2.02it/s] 66%|██████▌   | 7017/10699 [1:15:34<30:20,  2.02it/s] 66%|██████▌   | 7018/10699 [1:15:34<30:21,  2.02it/s] 66%|██████▌   | 7019/10699 [1:15:35<30:20,  2.02it/s] 66%|██████▌   | 7020/10699 [1:15:35<30:19,  2.02it/s] 66%|██████▌   | 7021/10699 [1:15:36<30:19,  2.02it/s] 66%|██████▌   | 7022/10699 [1:15:36<30:18,  2.02it/s] 66%|██████▌   | 7023/10699 [1:15:37<30:17,  2.02it/s] 66%|██████▌   | 7024/10699 [1:15:37<30:17,  2.02it/s] 66%|██████▌   | 7025/10699 [1:15:38<30:15,  2.02it/s]{'loss': 3.6501, 'grad_norm': 0.20009644329547882, 'learning_rate': 0.00031821202143111573, 'epoch': 0.66}                                                      
- 66%|██████▌   | 7025/10699 [1:15:38<30:15,  2.02it/s] 66%|██████▌   | 7026/10699 [1:15:38<30:18,  2.02it/s] 66%|██████▌   | 7027/10699 [1:15:39<30:16,  2.02it/s] 66%|██████▌   | 7028/10699 [1:15:39<30:14,  2.02it/s] 66%|██████▌   | 7029/10699 [1:15:40<30:14,  2.02it/s] 66%|██████▌   | 7030/10699 [1:15:40<30:11,  2.03it/s] 66%|██████▌   | 7031/10699 [1:15:41<30:12,  2.02it/s] 66%|██████▌   | 7032/10699 [1:15:41<30:10,  2.03it/s] 66%|██████▌   | 7033/10699 [1:15:42<30:11,  2.02it/s] 66%|██████▌   | 7034/10699 [1:15:42<30:10,  2.02it/s] 66%|██████▌   | 7035/10699 [1:15:43<30:09,  2.02it/s] 66%|██████▌   | 7036/10699 [1:15:43<30:11,  2.02it/s] 66%|██████▌   | 7037/10699 [1:15:44<30:11,  2.02it/s] 66%|██████▌   | 7038/10699 [1:15:44<30:09,  2.02it/s] 66%|██████▌   | 7039/10699 [1:15:45<30:08,  2.02it/s] 66%|██████▌   | 7040/10699 [1:15:45<30:08,  2.02it/s] 66%|██████▌   | 7041/10699 [1:15:46<30:07,  2.02it/s] 66%|██████▌   | 7042/10699 [1:15:46<30:05,  2.03it/s] 66%|██████▌   | 7043/10699 [1:15:47<30:08,  2.02it/s] 66%|██████▌   | 7044/10699 [1:15:47<30:06,  2.02it/s] 66%|██████▌   | 7045/10699 [1:15:48<30:07,  2.02it/s] 66%|██████▌   | 7046/10699 [1:15:48<30:06,  2.02it/s] 66%|██████▌   | 7047/10699 [1:15:49<30:05,  2.02it/s] 66%|██████▌   | 7048/10699 [1:15:49<30:04,  2.02it/s] 66%|██████▌   | 7049/10699 [1:15:50<30:03,  2.02it/s] 66%|██████▌   | 7050/10699 [1:15:50<30:02,  2.02it/s]                                                      {'loss': 3.6477, 'grad_norm': 0.2031475156545639, 'learning_rate': 0.0003144189150822405, 'epoch': 0.66}
- 66%|██████▌   | 7050/10699 [1:15:50<30:02,  2.02it/s] 66%|██████▌   | 7051/10699 [1:15:51<30:11,  2.01it/s] 66%|██████▌   | 7052/10699 [1:15:51<30:07,  2.02it/s] 66%|██████▌   | 7053/10699 [1:15:52<30:07,  2.02it/s] 66%|██████▌   | 7054/10699 [1:15:52<30:03,  2.02it/s] 66%|██████▌   | 7055/10699 [1:15:53<30:03,  2.02it/s] 66%|██████▌   | 7056/10699 [1:15:53<30:00,  2.02it/s] 66%|██████▌   | 7057/10699 [1:15:54<30:00,  2.02it/s] 66%|██████▌   | 7058/10699 [1:15:54<29:57,  2.03it/s] 66%|██████▌   | 7059/10699 [1:15:55<29:58,  2.02it/s] 66%|██████▌   | 7060/10699 [1:15:55<29:57,  2.02it/s] 66%|██████▌   | 7061/10699 [1:15:56<29:59,  2.02it/s] 66%|██████▌   | 7062/10699 [1:15:56<29:57,  2.02it/s] 66%|██████▌   | 7063/10699 [1:15:57<29:58,  2.02it/s] 66%|██████▌   | 7064/10699 [1:15:57<29:57,  2.02it/s] 66%|██████▌   | 7065/10699 [1:15:58<29:55,  2.02it/s] 66%|██████▌   | 7066/10699 [1:15:58<29:55,  2.02it/s] 66%|██████▌   | 7067/10699 [1:15:58<29:54,  2.02it/s] 66%|██████▌   | 7068/10699 [1:15:59<29:55,  2.02it/s] 66%|██████▌   | 7069/10699 [1:15:59<29:53,  2.02it/s] 66%|██████▌   | 7070/10699 [1:16:00<29:52,  2.02it/s] 66%|██████▌   | 7071/10699 [1:16:00<29:51,  2.03it/s] 66%|██████▌   | 7072/10699 [1:16:01<29:51,  2.02it/s] 66%|██████▌   | 7073/10699 [1:16:01<29:49,  2.03it/s] 66%|██████▌   | 7074/10699 [1:16:02<29:48,  2.03it/s] 66%|██████▌   | 7075/10699 [1:16:02<29:50,  2.02it/s]                                                      {'loss': 3.6485, 'grad_norm': 0.19730761647224426, 'learning_rate': 0.00031063815537067993, 'epoch': 0.66}
- 66%|██████▌   | 7075/10699 [1:16:02<29:50,  2.02it/s] 66%|██████▌   | 7076/10699 [1:16:03<29:53,  2.02it/s] 66%|██████▌   | 7077/10699 [1:16:03<29:51,  2.02it/s] 66%|██████▌   | 7078/10699 [1:16:04<29:49,  2.02it/s] 66%|██████▌   | 7079/10699 [1:16:04<29:49,  2.02it/s] 66%|██████▌   | 7080/10699 [1:16:05<29:48,  2.02it/s] 66%|██████▌   | 7081/10699 [1:16:05<29:49,  2.02it/s] 66%|██████▌   | 7082/10699 [1:16:06<29:48,  2.02it/s] 66%|██████▌   | 7083/10699 [1:16:06<29:49,  2.02it/s] 66%|██████▌   | 7084/10699 [1:16:07<29:47,  2.02it/s] 66%|██████▌   | 7085/10699 [1:16:07<29:46,  2.02it/s] 66%|██████▌   | 7086/10699 [1:16:08<29:46,  2.02it/s] 66%|██████▌   | 7087/10699 [1:16:08<29:44,  2.02it/s] 66%|██████▌   | 7088/10699 [1:16:09<29:45,  2.02it/s] 66%|██████▋   | 7089/10699 [1:16:09<29:43,  2.02it/s] 66%|██████▋   | 7090/10699 [1:16:10<29:44,  2.02it/s] 66%|██████▋   | 7091/10699 [1:16:10<29:43,  2.02it/s] 66%|██████▋   | 7092/10699 [1:16:11<29:41,  2.03it/s] 66%|██████▋   | 7093/10699 [1:16:11<29:42,  2.02it/s] 66%|██████▋   | 7094/10699 [1:16:12<29:40,  2.02it/s] 66%|██████▋   | 7095/10699 [1:16:12<29:40,  2.02it/s] 66%|██████▋   | 7096/10699 [1:16:13<29:40,  2.02it/s] 66%|██████▋   | 7097/10699 [1:16:13<29:39,  2.02it/s] 66%|██████▋   | 7098/10699 [1:16:14<29:39,  2.02it/s] 66%|██████▋   | 7099/10699 [1:16:14<29:38,  2.02it/s] 66%|██████▋   | 7100/10699 [1:16:15<29:38,  2.02it/s]{'loss': 3.6403, 'grad_norm': 0.20306797325611115, 'learning_rate': 0.0003068699938289051, 'epoch': 0.66}                                                      
- 66%|██████▋   | 7100/10699 [1:16:15<29:38,  2.02it/s] 66%|██████▋   | 7101/10699 [1:16:15<29:39,  2.02it/s] 66%|██████▋   | 7102/10699 [1:16:16<29:38,  2.02it/s] 66%|██████▋   | 7103/10699 [1:16:16<29:38,  2.02it/s] 66%|██████▋   | 7104/10699 [1:16:17<29:40,  2.02it/s] 66%|██████▋   | 7105/10699 [1:16:17<29:38,  2.02it/s] 66%|██████▋   | 7106/10699 [1:16:18<29:35,  2.02it/s] 66%|██████▋   | 7107/10699 [1:16:18<29:34,  2.02it/s] 66%|██████▋   | 7108/10699 [1:16:19<29:31,  2.03it/s] 66%|██████▋   | 7109/10699 [1:16:19<29:32,  2.03it/s] 66%|██████▋   | 7110/10699 [1:16:20<29:33,  2.02it/s] 66%|██████▋   | 7111/10699 [1:16:20<29:32,  2.02it/s] 66%|██████▋   | 7112/10699 [1:16:21<29:31,  2.02it/s] 66%|██████▋   | 7113/10699 [1:16:21<29:32,  2.02it/s] 66%|██████▋   | 7114/10699 [1:16:22<29:31,  2.02it/s] 67%|██████▋   | 7115/10699 [1:16:22<29:30,  2.02it/s] 67%|██████▋   | 7116/10699 [1:16:23<29:30,  2.02it/s] 67%|██████▋   | 7117/10699 [1:16:23<29:27,  2.03it/s] 67%|██████▋   | 7118/10699 [1:16:24<29:30,  2.02it/s] 67%|██████▋   | 7119/10699 [1:16:24<29:27,  2.03it/s] 67%|██████▋   | 7120/10699 [1:16:25<29:27,  2.02it/s] 67%|██████▋   | 7121/10699 [1:16:25<29:26,  2.03it/s] 67%|██████▋   | 7122/10699 [1:16:26<29:30,  2.02it/s] 67%|██████▋   | 7123/10699 [1:16:26<29:27,  2.02it/s] 67%|██████▋   | 7124/10699 [1:16:27<29:28,  2.02it/s] 67%|██████▋   | 7125/10699 [1:16:27<29:25,  2.02it/s]                                                      {'loss': 3.6387, 'grad_norm': 0.22521300613880157, 'learning_rate': 0.0003031146811512363, 'epoch': 0.67}
- 67%|██████▋   | 7125/10699 [1:16:27<29:25,  2.02it/s] 67%|██████▋   | 7126/10699 [1:16:28<29:26,  2.02it/s] 67%|██████▋   | 7127/10699 [1:16:28<29:25,  2.02it/s] 67%|██████▋   | 7128/10699 [1:16:29<29:25,  2.02it/s] 67%|██████▋   | 7129/10699 [1:16:29<29:23,  2.02it/s] 67%|██████▋   | 7130/10699 [1:16:30<29:23,  2.02it/s] 67%|██████▋   | 7131/10699 [1:16:30<29:24,  2.02it/s] 67%|██████▋   | 7132/10699 [1:16:31<29:22,  2.02it/s] 67%|██████▋   | 7133/10699 [1:16:31<29:23,  2.02it/s] 67%|██████▋   | 7134/10699 [1:16:32<29:19,  2.03it/s] 67%|██████▋   | 7135/10699 [1:16:32<29:20,  2.02it/s] 67%|██████▋   | 7136/10699 [1:16:33<29:19,  2.03it/s] 67%|██████▋   | 7137/10699 [1:16:33<29:16,  2.03it/s] 67%|██████▋   | 7138/10699 [1:16:34<29:18,  2.03it/s] 67%|██████▋   | 7139/10699 [1:16:34<29:15,  2.03it/s] 67%|██████▋   | 7140/10699 [1:16:35<29:17,  2.03it/s] 67%|██████▋   | 7141/10699 [1:16:35<29:15,  2.03it/s] 67%|██████▋   | 7142/10699 [1:16:36<29:16,  2.03it/s] 67%|██████▋   | 7143/10699 [1:16:36<29:14,  2.03it/s] 67%|██████▋   | 7144/10699 [1:16:37<29:16,  2.02it/s] 67%|██████▋   | 7145/10699 [1:16:37<29:14,  2.03it/s] 67%|██████▋   | 7146/10699 [1:16:38<29:15,  2.02it/s] 67%|██████▋   | 7147/10699 [1:16:38<29:14,  2.02it/s] 67%|██████▋   | 7148/10699 [1:16:39<29:13,  2.03it/s] 67%|██████▋   | 7149/10699 [1:16:39<29:12,  2.03it/s] 67%|██████▋   | 7150/10699 [1:16:39<29:12,  2.03it/s]{'loss': 3.646, 'grad_norm': 0.20789793133735657, 'learning_rate': 0.0002993724671771635, 'epoch': 0.67}
-                                                       67%|██████▋   | 7150/10699 [1:16:40<29:12,  2.03it/s] 67%|██████▋   | 7151/10699 [1:16:40<29:15,  2.02it/s] 67%|██████▋   | 7152/10699 [1:16:40<29:14,  2.02it/s] 67%|██████▋   | 7153/10699 [1:16:41<29:14,  2.02it/s] 67%|██████▋   | 7154/10699 [1:16:41<29:11,  2.02it/s] 67%|██████▋   | 7155/10699 [1:16:42<29:12,  2.02it/s] 67%|██████▋   | 7156/10699 [1:16:42<29:10,  2.02it/s] 67%|██████▋   | 7157/10699 [1:16:43<29:08,  2.03it/s] 67%|██████▋   | 7158/10699 [1:16:43<29:08,  2.03it/s] 67%|██████▋   | 7159/10699 [1:16:44<29:09,  2.02it/s] 67%|██████▋   | 7160/10699 [1:16:44<29:09,  2.02it/s] 67%|██████▋   | 7161/10699 [1:16:45<29:08,  2.02it/s] 67%|██████▋   | 7162/10699 [1:16:45<29:08,  2.02it/s] 67%|██████▋   | 7163/10699 [1:16:46<29:07,  2.02it/s] 67%|██████▋   | 7164/10699 [1:16:46<29:06,  2.02it/s] 67%|██████▋   | 7165/10699 [1:16:47<29:06,  2.02it/s] 67%|██████▋   | 7166/10699 [1:16:47<29:04,  2.03it/s] 67%|██████▋   | 7167/10699 [1:16:48<29:03,  2.03it/s] 67%|██████▋   | 7168/10699 [1:16:48<29:02,  2.03it/s] 67%|██████▋   | 7169/10699 [1:16:49<29:03,  2.02it/s] 67%|██████▋   | 7170/10699 [1:16:49<29:02,  2.03it/s] 67%|██████▋   | 7171/10699 [1:16:50<29:02,  2.02it/s] 67%|██████▋   | 7172/10699 [1:16:50<29:02,  2.02it/s] 67%|██████▋   | 7173/10699 [1:16:51<29:02,  2.02it/s] 67%|██████▋   | 7174/10699 [1:16:51<29:01,  2.02it/s] 67%|██████▋   | 7175/10699 [1:16:52<28:58,  2.03it/s]{'loss': 3.6402, 'grad_norm': 0.20099714398384094, 'learning_rate': 0.00029564360087472514, 'epoch': 0.67}                                                      
- 67%|██████▋   | 7175/10699 [1:16:52<28:58,  2.03it/s] 67%|██████▋   | 7176/10699 [1:16:52<29:02,  2.02it/s] 67%|██████▋   | 7177/10699 [1:16:53<28:59,  2.02it/s] 67%|██████▋   | 7178/10699 [1:16:53<28:58,  2.02it/s] 67%|██████▋   | 7179/10699 [1:16:54<28:58,  2.02it/s] 67%|██████▋   | 7180/10699 [1:16:54<28:57,  2.03it/s] 67%|██████▋   | 7181/10699 [1:16:55<28:58,  2.02it/s] 67%|██████▋   | 7182/10699 [1:16:55<28:56,  2.02it/s] 67%|██████▋   | 7183/10699 [1:16:56<28:56,  2.03it/s] 67%|██████▋   | 7184/10699 [1:16:56<28:55,  2.02it/s] 67%|██████▋   | 7185/10699 [1:16:57<28:56,  2.02it/s] 67%|██████▋   | 7186/10699 [1:16:57<28:55,  2.02it/s] 67%|██████▋   | 7187/10699 [1:16:58<28:52,  2.03it/s] 67%|██████▋   | 7188/10699 [1:16:58<28:53,  2.03it/s] 67%|██████▋   | 7189/10699 [1:16:59<28:52,  2.03it/s] 67%|██████▋   | 7190/10699 [1:16:59<28:51,  2.03it/s] 67%|██████▋   | 7191/10699 [1:17:00<28:52,  2.02it/s] 67%|██████▋   | 7192/10699 [1:17:00<28:52,  2.02it/s] 67%|██████▋   | 7193/10699 [1:17:01<28:50,  2.03it/s] 67%|██████▋   | 7194/10699 [1:17:01<28:53,  2.02it/s] 67%|██████▋   | 7195/10699 [1:17:02<28:51,  2.02it/s] 67%|██████▋   | 7196/10699 [1:17:02<28:51,  2.02it/s] 67%|██████▋   | 7197/10699 [1:17:03<28:49,  2.02it/s] 67%|██████▋   | 7198/10699 [1:17:03<28:48,  2.03it/s] 67%|██████▋   | 7199/10699 [1:17:04<28:50,  2.02it/s] 67%|██████▋   | 7200/10699 [1:17:04<28:50,  2.02it/s]{'loss': 3.6367, 'grad_norm': 0.21225374937057495, 'learning_rate': 0.0002919283303239443, 'epoch': 0.67}
-                                                       67%|██████▋   | 7200/10699 [1:17:04<28:50,  2.02it/s] 67%|██████▋   | 7201/10699 [1:17:05<28:50,  2.02it/s] 67%|██████▋   | 7202/10699 [1:17:05<28:48,  2.02it/s] 67%|██████▋   | 7203/10699 [1:17:06<28:48,  2.02it/s] 67%|██████▋   | 7204/10699 [1:17:06<28:48,  2.02it/s] 67%|██████▋   | 7205/10699 [1:17:07<28:48,  2.02it/s] 67%|██████▋   | 7206/10699 [1:17:07<28:46,  2.02it/s] 67%|██████▋   | 7207/10699 [1:17:08<28:46,  2.02it/s] 67%|██████▋   | 7208/10699 [1:17:08<28:44,  2.02it/s] 67%|██████▋   | 7209/10699 [1:17:09<28:46,  2.02it/s] 67%|██████▋   | 7210/10699 [1:17:09<28:45,  2.02it/s] 67%|██████▋   | 7211/10699 [1:17:10<28:44,  2.02it/s] 67%|██████▋   | 7212/10699 [1:17:10<28:44,  2.02it/s] 67%|██████▋   | 7213/10699 [1:17:11<28:44,  2.02it/s] 67%|██████▋   | 7214/10699 [1:17:11<28:42,  2.02it/s] 67%|██████▋   | 7215/10699 [1:17:12<28:40,  2.02it/s] 67%|██████▋   | 7216/10699 [1:17:12<28:40,  2.02it/s] 67%|██████▋   | 7217/10699 [1:17:13<28:38,  2.03it/s] 67%|██████▋   | 7218/10699 [1:17:13<28:39,  2.02it/s] 67%|██████▋   | 7219/10699 [1:17:14<28:40,  2.02it/s] 67%|██████▋   | 7220/10699 [1:17:14<28:39,  2.02it/s] 67%|██████▋   | 7221/10699 [1:17:15<28:37,  2.02it/s] 68%|██████▊   | 7222/10699 [1:17:15<28:34,  2.03it/s] 68%|██████▊   | 7223/10699 [1:17:16<28:35,  2.03it/s] 68%|██████▊   | 7224/10699 [1:17:16<28:33,  2.03it/s] 68%|██████▊   | 7225/10699 [1:17:17<28:35,  2.02it/s]                                                      {'loss': 3.645, 'grad_norm': 0.20829159021377563, 'learning_rate': 0.00028822690270032425, 'epoch': 0.68}
- 68%|██████▊   | 7225/10699 [1:17:17<28:35,  2.02it/s] 68%|██████▊   | 7226/10699 [1:17:17<28:37,  2.02it/s] 68%|██████▊   | 7227/10699 [1:17:18<28:35,  2.02it/s] 68%|██████▊   | 7228/10699 [1:17:18<28:34,  2.02it/s] 68%|██████▊   | 7229/10699 [1:17:19<28:35,  2.02it/s] 68%|██████▊   | 7230/10699 [1:17:19<28:34,  2.02it/s] 68%|██████▊   | 7231/10699 [1:17:20<28:35,  2.02it/s] 68%|██████▊   | 7232/10699 [1:17:20<28:33,  2.02it/s] 68%|██████▊   | 7233/10699 [1:17:21<28:32,  2.02it/s] 68%|██████▊   | 7234/10699 [1:17:21<28:31,  2.02it/s] 68%|██████▊   | 7235/10699 [1:17:21<28:31,  2.02it/s] 68%|██████▊   | 7236/10699 [1:17:22<28:30,  2.02it/s] 68%|██████▊   | 7237/10699 [1:17:22<28:29,  2.03it/s] 68%|██████▊   | 7238/10699 [1:17:23<28:30,  2.02it/s] 68%|██████▊   | 7239/10699 [1:17:23<28:32,  2.02it/s] 68%|██████▊   | 7240/10699 [1:17:24<28:31,  2.02it/s] 68%|██████▊   | 7241/10699 [1:17:24<28:29,  2.02it/s] 68%|██████▊   | 7242/10699 [1:17:25<28:28,  2.02it/s] 68%|██████▊   | 7243/10699 [1:17:25<28:26,  2.02it/s] 68%|██████▊   | 7244/10699 [1:17:26<28:27,  2.02it/s] 68%|██████▊   | 7245/10699 [1:17:26<28:26,  2.02it/s] 68%|██████▊   | 7246/10699 [1:17:27<28:25,  2.02it/s] 68%|██████▊   | 7247/10699 [1:17:27<28:25,  2.02it/s] 68%|██████▊   | 7248/10699 [1:17:28<28:24,  2.02it/s] 68%|██████▊   | 7249/10699 [1:17:28<28:23,  2.02it/s] 68%|██████▊   | 7250/10699 [1:17:29<28:23,  2.02it/s]{'loss': 3.632, 'grad_norm': 0.20802627503871918, 'learning_rate': 0.0002845395642584031, 'epoch': 0.68}
-                                                       68%|██████▊   | 7250/10699 [1:17:29<28:23,  2.02it/s] 68%|██████▊   | 7251/10699 [1:17:29<28:25,  2.02it/s] 68%|██████▊   | 7252/10699 [1:17:30<28:24,  2.02it/s] 68%|██████▊   | 7253/10699 [1:17:30<28:25,  2.02it/s] 68%|██████▊   | 7254/10699 [1:17:31<28:23,  2.02it/s] 68%|██████▊   | 7255/10699 [1:17:31<28:23,  2.02it/s] 68%|██████▊   | 7256/10699 [1:17:32<28:20,  2.02it/s] 68%|██████▊   | 7257/10699 [1:17:32<28:21,  2.02it/s] 68%|██████▊   | 7258/10699 [1:17:33<28:19,  2.02it/s] 68%|██████▊   | 7259/10699 [1:17:33<28:19,  2.02it/s] 68%|██████▊   | 7260/10699 [1:17:34<28:18,  2.03it/s] 68%|██████▊   | 7261/10699 [1:17:34<28:17,  2.03it/s] 68%|██████▊   | 7262/10699 [1:17:35<28:17,  2.03it/s] 68%|██████▊   | 7263/10699 [1:17:35<28:16,  2.03it/s] 68%|██���███▊   | 7264/10699 [1:17:36<28:17,  2.02it/s] 68%|██████▊   | 7265/10699 [1:17:36<28:14,  2.03it/s] 68%|██████▊   | 7266/10699 [1:17:37<28:15,  2.02it/s] 68%|██████▊   | 7267/10699 [1:17:37<28:14,  2.03it/s] 68%|██████▊   | 7268/10699 [1:17:38<28:14,  2.02it/s] 68%|██████▊   | 7269/10699 [1:17:38<28:13,  2.03it/s] 68%|██████▊   | 7270/10699 [1:17:39<28:15,  2.02it/s] 68%|██████▊   | 7271/10699 [1:17:39<28:13,  2.02it/s] 68%|██████▊   | 7272/10699 [1:17:40<28:13,  2.02it/s] 68%|██████▊   | 7273/10699 [1:17:40<28:13,  2.02it/s] 68%|██████▊   | 7274/10699 [1:17:41<28:12,  2.02it/s] 68%|██████▊   | 7275/10699 [1:17:41<28:12,  2.02it/s]                                                      {'loss': 3.6389, 'grad_norm': 0.21829809248447418, 'learning_rate': 0.00028086656031537196, 'epoch': 0.68}
- 68%|██████▊   | 7275/10699 [1:17:41<28:12,  2.02it/s] 68%|██████▊   | 7276/10699 [1:17:42<28:10,  2.02it/s] 68%|██████▊   | 7277/10699 [1:17:42<28:10,  2.02it/s] 68%|██████▊   | 7278/10699 [1:17:43<28:08,  2.03it/s] 68%|██████▊   | 7279/10699 [1:17:43<28:09,  2.02it/s] 68%|██████▊   | 7280/10699 [1:17:44<28:09,  2.02it/s] 68%|██████▊   | 7281/10699 [1:17:44<28:11,  2.02it/s] 68%|██████▊   | 7282/10699 [1:17:45<28:09,  2.02it/s] 68%|██████▊   | 7283/10699 [1:17:45<28:08,  2.02it/s] 68%|██████▊   | 7284/10699 [1:17:46<28:06,  2.02it/s] 68%|██████▊   | 7285/10699 [1:17:46<28:05,  2.03it/s] 68%|██████▊   | 7286/10699 [1:17:47<28:05,  2.03it/s] 68%|██████▊   | 7287/10699 [1:17:47<28:05,  2.02it/s] 68%|██████▊   | 7288/10699 [1:17:48<28:05,  2.02it/s] 68%|██████▊   | 7289/10699 [1:17:48<28:04,  2.02it/s] 68%|██████▊   | 7290/10699 [1:17:49<28:04,  2.02it/s] 68%|██████▊   | 7291/10699 [1:17:49<28:02,  2.03it/s] 68%|██████▊   | 7292/10699 [1:17:50<28:01,  2.03it/s] 68%|██████▊   | 7293/10699 [1:17:50<28:01,  2.03it/s] 68%|██████▊   | 7294/10699 [1:17:51<28:00,  2.03it/s] 68%|██████▊   | 7295/10699 [1:17:51<28:00,  2.03it/s] 68%|██████▊   | 7296/10699 [1:17:52<28:00,  2.03it/s] 68%|██████▊   | 7297/10699 [1:17:52<28:01,  2.02it/s] 68%|██████▊   | 7298/10699 [1:17:53<28:01,  2.02it/s] 68%|██████▊   | 7299/10699 [1:17:53<27:59,  2.02it/s] 68%|██████▊   | 7300/10699 [1:17:54<27:59,  2.02it/s]{'loss': 3.6317, 'grad_norm': 0.21429111063480377, 'learning_rate': 0.00027720813523475247, 'epoch': 0.68}
-                                                       68%|██████▊   | 7300/10699 [1:17:54<27:59,  2.02it/s] 68%|██████▊   | 7301/10699 [1:17:54<28:01,  2.02it/s] 68%|██████▊   | 7302/10699 [1:17:55<27:59,  2.02it/s] 68%|██████▊   | 7303/10699 [1:17:55<27:56,  2.03it/s] 68%|██████▊   | 7304/10699 [1:17:56<27:57,  2.02it/s] 68%|██████▊   | 7305/10699 [1:17:56<27:54,  2.03it/s] 68%|██████▊   | 7306/10699 [1:17:57<27:57,  2.02it/s] 68%|██████▊   | 7307/10699 [1:17:57<27:55,  2.02it/s] 68%|██████▊   | 7308/10699 [1:17:58<27:55,  2.02it/s] 68%|██████▊   | 7309/10699 [1:17:58<27:54,  2.02it/s] 68%|██████▊   | 7310/10699 [1:17:59<27:54,  2.02it/s] 68%|██████▊   | 7311/10699 [1:17:59<27:55,  2.02it/s] 68%|██████▊   | 7312/10699 [1:18:00<27:52,  2.03it/s] 68%|██████▊   | 7313/10699 [1:18:00<27:52,  2.02it/s] 68%|██████▊   | 7314/10699 [1:18:01<27:50,  2.03it/s] 68%|██████▊   | 7315/10699 [1:18:01<27:50,  2.03it/s] 68%|██████▊   | 7316/10699 [1:18:02<27:51,  2.02it/s] 68%|██████▊   | 7317/10699 [1:18:02<27:49,  2.03it/s] 68%|██████▊   | 7318/10699 [1:18:03<27:50,  2.02it/s] 68%|██████▊   | 7319/10699 [1:18:03<27:49,  2.02it/s] 68%|██████▊   | 7320/10699 [1:18:03<27:49,  2.02it/s] 68%|██████▊   | 7321/10699 [1:18:04<27:49,  2.02it/s] 68%|██████▊   | 7322/10699 [1:18:04<27:48,  2.02it/s] 68%|██████▊   | 7323/10699 [1:18:05<27:48,  2.02it/s] 68%|██████▊   | 7324/10699 [1:18:05<27:45,  2.03it/s] 68%|██████▊   | 7325/10699 [1:18:06<27:46,  2.02it/s]{'loss': 3.633, 'grad_norm': 0.2098226398229599, 'learning_rate': 0.000273564532410141, 'epoch': 0.68}                                                      
- 68%|██████▊   | 7325/10699 [1:18:06<27:46,  2.02it/s] 68%|██████▊   | 7326/10699 [1:18:06<27:48,  2.02it/s] 68%|██████▊   | 7327/10699 [1:18:07<27:48,  2.02it/s] 68%|█████���▊   | 7328/10699 [1:18:07<27:48,  2.02it/s] 69%|██████▊   | 7329/10699 [1:18:08<27:47,  2.02it/s] 69%|██████▊   | 7330/10699 [1:18:08<27:45,  2.02it/s] 69%|██████▊   | 7331/10699 [1:18:09<27:45,  2.02it/s] 69%|██████▊   | 7332/10699 [1:18:09<27:43,  2.02it/s] 69%|██████▊   | 7333/10699 [1:18:10<27:44,  2.02it/s] 69%|██████▊   | 7334/10699 [1:18:10<27:42,  2.02it/s] 69%|██████▊   | 7335/10699 [1:18:11<27:43,  2.02it/s] 69%|██████▊   | 7336/10699 [1:18:11<27:41,  2.02it/s] 69%|██████▊   | 7337/10699 [1:18:12<27:41,  2.02it/s] 69%|██████▊   | 7338/10699 [1:18:12<27:41,  2.02it/s] 69%|██████▊   | 7339/10699 [1:18:13<27:40,  2.02it/s] 69%|██████▊   | 7340/10699 [1:18:13<27:39,  2.02it/s] 69%|██████▊   | 7341/10699 [1:18:14<27:37,  2.03it/s] 69%|██████▊   | 7342/10699 [1:18:14<27:38,  2.02it/s] 69%|██████▊   | 7343/10699 [1:18:15<27:38,  2.02it/s] 69%|██████▊   | 7344/10699 [1:18:15<27:38,  2.02it/s] 69%|██████▊   | 7345/10699 [1:18:16<27:36,  2.02it/s] 69%|██████▊   | 7346/10699 [1:18:16<27:36,  2.02it/s] 69%|██████▊   | 7347/10699 [1:18:17<27:34,  2.03it/s] 69%|██████▊   | 7348/10699 [1:18:17<27:35,  2.02it/s] 69%|██████▊   | 7349/10699 [1:18:18<27:34,  2.03it/s] 69%|██████▊   | 7350/10699 [1:18:18<27:32,  2.03it/s]                                                      {'loss': 3.6358, 'grad_norm': 0.20656871795654297, 'learning_rate': 0.0002699359942490144, 'epoch': 0.69}
- 69%|██████▊   | 7350/10699 [1:18:18<27:32,  2.03it/s] 69%|██████▊   | 7351/10699 [1:18:19<27:34,  2.02it/s] 69%|██████▊   | 7352/10699 [1:18:19<27:32,  2.03it/s] 69%|██████▊   | 7353/10699 [1:18:20<27:34,  2.02it/s] 69%|██████▊   | 7354/10699 [1:18:20<27:30,  2.03it/s] 69%|██████▊   | 7355/10699 [1:18:21<27:30,  2.03it/s] 69%|██████▉   | 7356/10699 [1:18:21<27:29,  2.03it/s] 69%|██████▉   | 7357/10699 [1:18:22<27:30,  2.03it/s] 69%|██████▉   | 7358/10699 [1:18:22<27:30,  2.02it/s] 69%|██████▉   | 7359/10699 [1:18:23<27:28,  2.03it/s] 69%|██████▉   | 7360/10699 [1:18:23<27:30,  2.02it/s] 69%|██████▉   | 7361/10699 [1:18:24<27:30,  2.02it/s] 69%|██████▉   | 7362/10699 [1:18:24<27:27,  2.03it/s] 69%|██████▉   | 7363/10699 [1:18:25<27:27,  2.02it/s] 69%|██████▉   | 7364/10699 [1:18:25<27:25,  2.03it/s] 69%|██████▉   | 7365/10699 [1:18:26<27:24,  2.03it/s] 69%|██████▉   | 7366/10699 [1:18:26<27:26,  2.02it/s] 69%|██████▉   | 7367/10699 [1:18:27<27:23,  2.03it/s] 69%|██████▉   | 7368/10699 [1:18:27<27:25,  2.02it/s] 69%|██████▉   | 7369/10699 [1:18:28<27:25,  2.02it/s] 69%|██████▉   | 7370/10699 [1:18:28<27:24,  2.02it/s] 69%|██████▉   | 7371/10699 [1:18:29<27:25,  2.02it/s] 69%|██████▉   | 7372/10699 [1:18:29<27:24,  2.02it/s] 69%|██████▉   | 7373/10699 [1:18:30<27:24,  2.02it/s] 69%|██████▉   | 7374/10699 [1:18:30<27:22,  2.02it/s] 69%|██████▉   | 7375/10699 [1:18:31<27:21,  2.03it/s]                                                      {'loss': 3.6336, 'grad_norm': 0.2033262699842453, 'learning_rate': 0.0002663227621566038, 'epoch': 0.69}
- 69%|██████▉   | 7375/10699 [1:18:31<27:21,  2.03it/s] 69%|██████▉   | 7376/10699 [1:18:31<27:23,  2.02it/s] 69%|██████▉   | 7377/10699 [1:18:32<27:22,  2.02it/s] 69%|██████▉   | 7378/10699 [1:18:32<27:21,  2.02it/s] 69%|██████▉   | 7379/10699 [1:18:33<27:18,  2.03it/s] 69%|██████▉   | 7380/10699 [1:18:33<27:20,  2.02it/s] 69%|██████▉   | 7381/10699 [1:18:34<27:18,  2.02it/s] 69%|██████▉   | 7382/10699 [1:18:34<27:19,  2.02it/s] 69%|██████▉   | 7383/10699 [1:18:35<27:17,  2.02it/s] 69%|██████▉   | 7384/10699 [1:18:35<27:16,  2.03it/s] 69%|██████▉   | 7385/10699 [1:18:36<27:16,  2.03it/s] 69%|██████▉   | 7386/10699 [1:18:36<27:14,  2.03it/s] 69%|██████▉   | 7387/10699 [1:18:37<27:15,  2.02it/s] 69%|██████▉   | 7388/10699 [1:18:37<27:13,  2.03it/s] 69%|██████▉   | 7389/10699 [1:18:38<27:13,  2.03it/s] 69%|██████▉   | 7390/10699 [1:18:38<27:12,  2.03it/s] 69%|██████▉   | 7391/10699 [1:18:39<27:10,  2.03it/s] 69%|██████▉   | 7392/10699 [1:18:39<27:12,  2.03it/s] 69%|██████▉   | 7393/10699 [1:18:40<27:10,  2.03it/s] 69%|██████▉   | 7394/10699 [1:18:40<27:11,  2.03it/s] 69%|██████▉   | 7395/10699 [1:18:41<27:09,  2.03it/s] 69%|██████▉   | 7396/10699 [1:18:41<27:09,  2.03it/s] 69%|██████▉   | 7397/10699 [1:18:42<27:09,  2.03it/s] 69%|██████▉   | 7398/10699 [1:18:42<27:06,  2.03it/s] 69%|██████▉   | 7399/10699 [1:18:43<27:09,  2.03it/s] 69%|██████▉   | 7400/10699 [1:18:43<27:07,  2.03it/s]                                                      {'loss': 3.6276, 'grad_norm': 0.21498341858386993, 'learning_rate': 0.0002627250765198329, 'epoch': 0.69}
- 69%|██████▉   | 7400/10699 [1:18:43<27:07,  2.03it/s] 69%|██████▉   | 7401/10699 [1:18:44<27:10,  2.02it/s] 69%|██████▉   | 7402/10699 [1:18:44<27:08,  2.02it/s] 69%|██████▉   | 7403/10699 [1:18:44<27:08,  2.02it/s] 69%|██████▉   | 7404/10699 [1:18:45<27:07,  2.02it/s] 69%|██████▉   | 7405/10699 [1:18:45<27:07,  2.02it/s] 69%|██████▉   | 7406/10699 [1:18:46<27:05,  2.03it/s] 69%|██████▉   | 7407/10699 [1:18:46<27:08,  2.02it/s] 69%|██████▉   | 7408/10699 [1:18:47<27:05,  2.02it/s] 69%|██████▉   | 7409/10699 [1:18:47<27:03,  2.03it/s] 69%|██████▉   | 7410/10699 [1:18:48<27:04,  2.02it/s] 69%|██████▉   | 7411/10699 [1:18:48<27:02,  2.03it/s] 69%|██████▉   | 7412/10699 [1:18:49<27:03,  2.02it/s] 69%|██████▉   | 7413/10699 [1:18:49<27:00,  2.03it/s] 69%|██████▉   | 7414/10699 [1:18:50<27:02,  2.03it/s] 69%|██████▉   | 7415/10699 [1:18:50<27:00,  2.03it/s] 69%|██████▉   | 7416/10699 [1:18:51<27:00,  2.03it/s] 69%|██████▉   | 7417/10699 [1:18:51<27:01,  2.02it/s] 69%|██████▉   | 7418/10699 [1:18:52<27:00,  2.02it/s] 69%|██████▉   | 7419/10699 [1:18:52<27:02,  2.02it/s] 69%|██████▉   | 7420/10699 [1:18:53<27:01,  2.02it/s] 69%|██████▉   | 7421/10699 [1:18:53<27:00,  2.02it/s] 69%|██████▉   | 7422/10699 [1:18:54<26:58,  2.02it/s] 69%|██████▉   | 7423/10699 [1:18:54<26:58,  2.02it/s] 69%|██████▉   | 7424/10699 [1:18:55<26:58,  2.02it/s] 69%|██████▉   | 7425/10699 [1:18:55<27:00,  2.02it/s]{'loss': 3.6338, 'grad_norm': 0.20225822925567627, 'learning_rate': 0.0002591431766913268, 'epoch': 0.69}
-                                                       69%|██████▉   | 7425/10699 [1:18:55<27:00,  2.02it/s] 69%|██████▉   | 7426/10699 [1:18:56<27:01,  2.02it/s] 69%|██████▉   | 7427/10699 [1:18:56<26:59,  2.02it/s] 69%|██████▉   | 7428/10699 [1:18:57<26:57,  2.02it/s] 69%|██████▉   | 7429/10699 [1:18:57<26:58,  2.02it/s] 69%|██████▉   | 7430/10699 [1:18:58<26:56,  2.02it/s] 69%|██████▉   | 7431/10699 [1:18:58<26:57,  2.02it/s] 69%|██████▉   | 7432/10699 [1:18:59<26:55,  2.02it/s] 69%|██████▉   | 7433/10699 [1:18:59<26:55,  2.02it/s] 69%|██████▉   | 7434/10699 [1:19:00<26:54,  2.02it/s] 69%|██████▉   | 7435/10699 [1:19:00<26:55,  2.02it/s] 70%|██████▉   | 7436/10699 [1:19:01<26:52,  2.02it/s] 70%|██████▉   | 7437/10699 [1:19:01<26:54,  2.02it/s] 70%|██████▉   | 7438/10699 [1:19:02<26:52,  2.02it/s] 70%|██████▉   | 7439/10699 [1:19:02<26:51,  2.02it/s] 70%|██████▉   | 7440/10699 [1:19:03<26:51,  2.02it/s] 70%|██████▉   | 7441/10699 [1:19:03<26:50,  2.02it/s] 70%|██████▉   | 7442/10699 [1:19:04<26:50,  2.02it/s] 70%|██████▉   | 7443/10699 [1:19:04<26:49,  2.02it/s] 70%|██████▉   | 7444/10699 [1:19:05<26:50,  2.02it/s] 70%|██████▉   | 7445/10699 [1:19:05<26:49,  2.02it/s] 70%|██████▉   | 7446/10699 [1:19:06<26:48,  2.02it/s] 70%|██████▉   | 7447/10699 [1:19:06<26:48,  2.02it/s] 70%|██████▉   | 7448/10699 [1:19:07<26:46,  2.02it/s] 70%|██████▉   | 7449/10699 [1:19:07<26:46,  2.02it/s] 70%|██████▉   | 7450/10699 [1:19:08<26:44,  2.02it/s]                                                      {'loss': 3.6338, 'grad_norm': 0.2102014273405075, 'learning_rate': 0.0002555773009734859, 'epoch': 0.7}
- 70%|██████▉   | 7450/10699 [1:19:08<26:44,  2.02it/s] 70%|██████▉   | 7451/10699 [1:19:08<26:46,  2.02it/s] 70%|██████▉   | 7452/10699 [1:19:09<26:44,  2.02it/s] 70%|██████▉   | 7453/10699 [1:19:09<26:45,  2.02it/s] 70%|██████▉   | 7454/10699 [1:19:10<26:44,  2.02it/s] 70%|██████▉   | 7455/10699 [1:19:10<26:45,  2.02it/s] 70%|██████▉   | 7456/10699 [1:19:11<26:43,  2.02it/s] 70%|██████▉   | 7457/10699 [1:19:11<26:42,  2.02it/s] 70%|██████▉   | 7458/10699 [1:19:12<26:41,  2.02it/s] 70%|██████▉   | 7459/10699 [1:19:12<26:39,  2.03it/s] 70%|██████▉   | 7460/10699 [1:19:13<26:39,  2.02it/s] 70%|██████▉   | 7461/10699 [1:19:13<26:39,  2.02it/s] 70%|██████▉   | 7462/10699 [1:19:14<26:39,  2.02it/s] 70%|██████▉   | 7463/10699 [1:19:14<26:38,  2.02it/s] 70%|██████▉   | 7464/10699 [1:19:15<26:38,  2.02it/s] 70%|██████▉   | 7465/10699 [1:19:15<26:37,  2.02it/s] 70%|██████▉   | 7466/10699 [1:19:16<26:36,  2.02it/s] 70%|██████▉   | 7467/10699 [1:19:16<26:34,  2.03it/s] 70%|██████▉   | 7468/10699 [1:19:17<26:34,  2.03it/s] 70%|██████▉   | 7469/10699 [1:19:17<26:35,  2.02it/s] 70%|██████▉   | 7470/10699 [1:19:18<26:34,  2.03it/s] 70%|██████▉   | 7471/10699 [1:19:18<26:35,  2.02it/s] 70%|██████▉   | 7472/10699 [1:19:19<26:32,  2.03it/s] 70%|██████▉   | 7473/10699 [1:19:19<26:32,  2.03it/s] 70%|██████▉   | 7474/10699 [1:19:20<26:30,  2.03it/s] 70%|██████▉   | 7475/10699 [1:19:20<26:31,  2.03it/s]                                                      {'loss': 3.6227, 'grad_norm': 0.19630619883537292, 'learning_rate': 0.0002520276866026331, 'epoch': 0.7}
- 70%|██████▉   | 7475/10699 [1:19:20<26:31,  2.03it/s] 70%|██████▉   | 7476/10699 [1:19:21<26:35,  2.02it/s] 70%|██████▉   | 7477/10699 [1:19:21<26:33,  2.02it/s] 70%|██████▉   | 7478/10699 [1:19:22<26:32,  2.02it/s] 70%|██████▉   | 7479/10699 [1:19:22<26:31,  2.02it/s] 70%|██████▉   | 7480/10699 [1:19:23<26:30,  2.02it/s] 70%|██████▉   | 7481/10699 [1:19:23<26:29,  2.02it/s] 70%|██████▉   | 7482/10699 [1:19:24<26:29,  2.02it/s] 70%|██████▉   | 7483/10699 [1:19:24<26:28,  2.02it/s] 70%|██████▉   | 7484/10699 [1:19:25<26:29,  2.02it/s] 70%|██████▉   | 7485/10699 [1:19:25<26:28,  2.02it/s] 70%|██████▉   | 7486/10699 [1:19:26<26:26,  2.02it/s] 70%|██████▉   | 7487/10699 [1:19:26<26:27,  2.02it/s] 70%|██████▉   | 7488/10699 [1:19:26<26:26,  2.02it/s] 70%|██████▉   | 7489/10699 [1:19:27<26:27,  2.02it/s] 70%|███████   | 7490/10699 [1:19:27<26:23,  2.03it/s] 70%|███████   | 7491/10699 [1:19:28<26:25,  2.02it/s] 70%|███████   | 7492/10699 [1:19:28<26:23,  2.02it/s] 70%|███████   | 7493/10699 [1:19:29<26:21,  2.03it/s] 70%|███████   | 7494/10699 [1:19:29<26:23,  2.02it/s] 70%|███████   | 7495/10699 [1:19:30<26:21,  2.03it/s] 70%|███████   | 7496/10699 [1:19:30<26:22,  2.02it/s] 70%|███████   | 7497/10699 [1:19:31<26:20,  2.03it/s] 70%|███████   | 7498/10699 [1:19:31<26:20,  2.03it/s] 70%|███████   | 7499/10699 [1:19:32<26:19,  2.03it/s] 70%|███████   | 7500/10699 [1:19:32<26:18,  2.03it/s]{'loss': 3.6246, 'grad_norm': 0.21939346194267273, 'learning_rate': 0.00024849456973323063, 'epoch': 0.7}
-                                                       70%|███████   | 7500/10699 [1:19:32<26:18,  2.03it/s] 70%|███████   | 7501/10699 [1:19:33<26:21,  2.02it/s] 70%|███████   | 7502/10699 [1:19:34<30:35,  1.74it/s] 70%|███████   | 7503/10699 [1:19:34<29:18,  1.82it/s] 70%|███████   | 7504/10699 [1:19:35<28:25,  1.87it/s] 70%|███████   | 7505/10699 [1:19:35<27:46,  1.92it/s] 70%|███████   | 7506/10699 [1:19:36<27:20,  1.95it/s] 70%|███████   | 7507/10699 [1:19:36<27:00,  1.97it/s] 70%|███████   | 7508/10699 [1:19:37<26:46,  1.99it/s] 70%|███████   | 7509/10699 [1:19:37<26:37,  2.00it/s] 70%|███████   | 7510/10699 [1:19:38<26:30,  2.00it/s] 70%|███████   | 7511/10699 [1:19:38<26:27,  2.01it/s] 70%|███████   | 7512/10699 [1:19:39<26:23,  2.01it/s] 70%|███████   | 7513/10699 [1:19:39<26:23,  2.01it/s] 70%|███████   | 7514/10699 [1:19:40<26:18,  2.02it/s] 70%|███████   | 7515/10699 [1:19:40<26:19,  2.02it/s] 70%|███████   | 7516/10699 [1:19:41<26:16,  2.02it/s] 70%|███████   | 7517/10699 [1:19:41<26:15,  2.02it/s] 70%|███████   | 7518/10699 [1:19:42<26:13,  2.02it/s] 70%|███████   | 7519/10699 [1:19:42<26:14,  2.02it/s] 70%|███████   | 7520/10699 [1:19:43<26:13,  2.02it/s] 70%|███████   | 7521/10699 [1:19:43<26:12,  2.02it/s] 70%|███████   | 7522/10699 [1:19:44<26:09,  2.02it/s] 70%|███████   | 7523/10699 [1:19:44<26:09,  2.02it/s] 70%|███████   | 7524/10699 [1:19:45<26:06,  2.03it/s] 70%|███████   | 7525/10699 [1:19:45<26:07,  2.02it/s]{'loss': 3.6242, 'grad_norm': 0.2136288434267044, 'learning_rate': 0.00024497818542216766, 'epoch': 0.7}                                                      
- 70%|███████   | 7525/10699 [1:19:45<26:07,  2.02it/s] 70%|███████   | 7526/10699 [1:19:46<26:08,  2.02it/s] 70%|███████   | 7527/10699 [1:19:46<26:09,  2.02it/s] 70%|███████   | 7528/10699 [1:19:47<26:06,  2.02it/s] 70%|███████   | 7529/10699 [1:19:47<26:06,  2.02it/s] 70%|███████   | 7530/10699 [1:19:48<26:06,  2.02it/s] 70%|███████   | 7531/10699 [1:19:48<26:06,  2.02it/s] 70%|███████   | 7532/10699 [1:19:49<26:05,  2.02it/s] 70%|███████   | 7533/10699 [1:19:49<30:38,  1.72it/s] 70%|███████   | 7534/10699 [1:19:50<29:13,  1.80it/s] 70%|███████   | 7535/10699 [1:19:50<28:15,  1.87it/s] 70%|███████   | 7536/10699 [1:19:51<27:35,  1.91it/s] 70%|███████   | 7537/10699 [1:19:51<27:06,  1.94it/s] 70%|███████   | 7538/10699 [1:19:52<26:47,  1.97it/s] 70%|███████   | 7539/10699 [1:19:52<26:31,  1.99it/s] 70%|███████   | 7540/10699 [1:19:53<26:24,  1.99it/s] 70%|███████   | 7541/10699 [1:19:53<26:15,  2.00it/s] 70%|███████   | 7542/10699 [1:19:54<26:10,  2.01it/s] 71%|███████   | 7543/10699 [1:19:54<26:05,  2.02it/s] 71%|███████   | 7544/10699 [1:19:55<26:05,  2.01it/s] 71%|███████   | 7545/10699 [1:19:55<26:01,  2.02it/s] 71%|███████   | 7546/10699 [1:19:56<25:59,  2.02it/s] 71%|███████   | 7547/10699 [1:19:56<25:58,  2.02it/s] 71%|███████   | 7548/10699 [1:19:57<25:57,  2.02it/s] 71%|███████   | 7549/10699 [1:19:57<25:57,  2.02it/s] 71%|███████   | 7550/10699 [1:19:58<25:54,  2.03it/s]{'loss': 3.6333, 'grad_norm': 0.19811253249645233, 'learning_rate': 0.00024147876761312348, 'epoch': 0.71}                                                      
- 71%|███████   | 7550/10699 [1:19:58<25:54,  2.03it/s] 71%|███████   | 7551/10699 [1:19:58<25:57,  2.02it/s] 71%|███████   | 7552/10699 [1:19:59<25:54,  2.02it/s] 71%|███████   | 7553/10699 [1:19:59<25:54,  2.02it/s] 71%|███████   | 7554/10699 [1:20:00<25:53,  2.02it/s] 71%|███████   | 7555/10699 [1:20:00<25:56,  2.02it/s] 71%|███████   | 7556/10699 [1:20:01<25:54,  2.02it/s] 71%|███████   | 7557/10699 [1:20:01<25:53,  2.02it/s] 71%|███████   | 7558/10699 [1:20:02<25:51,  2.02it/s] 71%|███████   | 7559/10699 [1:20:02<25:51,  2.02it/s] 71%|███████   | 7560/10699 [1:20:03<25:50,  2.02it/s] 71%|███████   | 7561/10699 [1:20:03<25:50,  2.02it/s] 71%|███████   | 7562/10699 [1:20:04<25:50,  2.02it/s] 71%|███████   | 7563/10699 [1:20:04<25:48,  2.02it/s] 71%|███████   | 7564/10699 [1:20:05<25:49,  2.02it/s] 71%|███████   | 7565/10699 [1:20:05<25:49,  2.02it/s] 71%|███████   | 7566/10699 [1:20:06<25:48,  2.02it/s] 71%|███████   | 7567/10699 [1:20:06<25:49,  2.02it/s] 71%|███████   | 7568/10699 [1:20:07<25:50,  2.02it/s] 71%|███████   | 7569/10699 [1:20:07<25:48,  2.02it/s] 71%|███████   | 7570/10699 [1:20:08<25:48,  2.02it/s] 71%|███████   | 7571/10699 [1:20:08<25:46,  2.02it/s] 71%|███████   | 7572/10699 [1:20:09<25:46,  2.02it/s] 71%|███████   | 7573/10699 [1:20:09<25:44,  2.02it/s] 71%|███████   | 7574/10699 [1:20:10<25:41,  2.03it/s] 71%|███████   | 7575/10699 [1:20:10<25:43,  2.02it/s]{'loss': 3.6214, 'grad_norm': 0.19899386167526245, 'learning_rate': 0.00023799654912100187, 'epoch': 0.71}                                                      
- 71%|███████   | 7575/10699 [1:20:10<25:43,  2.02it/s] 71%|███████   | 7576/10699 [1:20:11<25:43,  2.02it/s] 71%|███████   | 7577/10699 [1:20:11<25:44,  2.02it/s] 71%|███████   | 7578/10699 [1:20:12<25:42,  2.02it/s] 71%|███████   | 7579/10699 [1:20:12<25:42,  2.02it/s] 71%|███████   | 7580/10699 [1:20:13<25:41,  2.02it/s] 71%|███████   | 7581/10699 [1:20:13<25:40,  2.02it/s] 71%|███████   | 7582/10699 [1:20:14<25:40,  2.02it/s] 71%|███████   | 7583/10699 [1:20:14<25:37,  2.03it/s] 71%|███████   | 7584/10699 [1:20:14<25:38,  2.03it/s] 71%|███████   | 7585/10699 [1:20:15<25:39,  2.02it/s] 71%|███████   | 7586/10699 [1:20:15<25:38,  2.02it/s] 71%|███████   | 7587/10699 [1:20:16<25:37,  2.02it/s] 71%|███████   | 7588/10699 [1:20:16<25:37,  2.02it/s] 71%|███████   | 7589/10699 [1:20:17<25:35,  2.03it/s] 71%|███████   | 7590/10699 [1:20:17<25:35,  2.02it/s] 71%|███████   | 7591/10699 [1:20:18<25:36,  2.02it/s] 71%|███████   | 7592/10699 [1:20:18<25:33,  2.03it/s] 71%|███████   | 7593/10699 [1:20:19<25:35,  2.02it/s] 71%|███████   | 7594/10699 [1:20:19<25:33,  2.02it/s] 71%|███████   | 7595/10699 [1:20:20<25:34,  2.02it/s] 71%|███████   | 7596/10699 [1:20:20<25:33,  2.02it/s] 71%|███████   | 7597/10699 [1:20:21<25:34,  2.02it/s] 71%|███████   | 7598/10699 [1:20:21<25:33,  2.02it/s] 71%|███████   | 7599/10699 [1:20:22<25:32,  2.02it/s] 71%|███████   | 7600/10699 [1:20:22<25:32,  2.02it/s]{'loss': 3.6257, 'grad_norm': 0.2074349820613861, 'learning_rate': 0.0002345317616164433, 'epoch': 0.71}
-                                                       71%|███████   | 7600/10699 [1:20:22<25:32,  2.02it/s] 71%|███████   | 7601/10699 [1:20:23<25:33,  2.02it/s] 71%|███████   | 7602/10699 [1:20:23<25:31,  2.02it/s] 71%|███████   | 7603/10699 [1:20:24<25:31,  2.02it/s] 71%|███████   | 7604/10699 [1:20:24<25:30,  2.02it/s] 71%|███████   | 7605/10699 [1:20:25<25:30,  2.02it/s] 71%|███████   | 7606/10699 [1:20:25<25:29,  2.02it/s] 71%|███████   | 7607/10699 [1:20:26<25:27,  2.02it/s] 71%|███████   | 7608/10699 [1:20:26<25:27,  2.02it/s] 71%|███████   | 7609/10699 [1:20:27<25:25,  2.03it/s] 71%|███████   | 7610/10699 [1:20:27<25:26,  2.02it/s] 71%|███████   | 7611/10699 [1:20:28<25:24,  2.03it/s] 71%|███████   | 7612/10699 [1:20:28<25:24,  2.02it/s] 71%|███████   | 7613/10699 [1:20:29<25:25,  2.02it/s] 71%|███████   | 7614/10699 [1:20:29<25:23,  2.02it/s] 71%|███████   | 7615/10699 [1:20:30<25:24,  2.02it/s] 71%|███████   | 7616/10699 [1:20:30<25:23,  2.02it/s] 71%|███████   | 7617/10699 [1:20:31<25:23,  2.02it/s] 71%|███████   | 7618/10699 [1:20:31<25:21,  2.03it/s] 71%|███████   | 7619/10699 [1:20:32<25:22,  2.02it/s] 71%|███████   | 7620/10699 [1:20:32<25:20,  2.03it/s] 71%|███████   | 7621/10699 [1:20:33<25:21,  2.02it/s] 71%|███████   | 7622/10699 [1:20:33<25:19,  2.03it/s] 71%|███████   | 7623/10699 [1:20:34<25:21,  2.02it/s] 71%|███████▏  | 7624/10699 [1:20:34<25:21,  2.02it/s] 71%|███████▏  | 7625/10699 [1:20:35<25:21,  2.02it/s]                                                      {'loss': 3.6174, 'grad_norm': 0.20244616270065308, 'learning_rate': 0.00023108463561041144, 'epoch': 0.71}
- 71%|███████▏  | 7625/10699 [1:20:35<25:21,  2.02it/s] 71%|███████▏  | 7626/10699 [1:20:35<25:20,  2.02it/s] 71%|███████▏  | 7627/10699 [1:20:36<25:20,  2.02it/s] 71%|███████▏  | 7628/10699 [1:20:36<25:17,  2.02it/s] 71%|███████▏  | 7629/10699 [1:20:37<25:17,  2.02it/s] 71%|███████▏  | 7630/10699 [1:20:37<25:17,  2.02it/s] 71%|███████▏  | 7631/10699 [1:20:38<25:16,  2.02it/s] 71%|███████▏  | 7632/10699 [1:20:38<25:16,  2.02it/s] 71%|███████▏  | 7633/10699 [1:20:39<25:15,  2.02it/s] 71%|███████▏  | 7634/10699 [1:20:39<25:14,  2.02it/s] 71%|███████▏  | 7635/10699 [1:20:40<25:15,  2.02it/s] 71%|███████▏  | 7636/10699 [1:20:40<25:15,  2.02it/s] 71%|███████▏  | 7637/10699 [1:20:41<25:15,  2.02it/s] 71%|███████▏  | 7638/10699 [1:20:41<25:13,  2.02it/s] 71%|███████▏  | 7639/10699 [1:20:42<25:13,  2.02it/s] 71%|███████▏  | 7640/10699 [1:20:42<25:12,  2.02it/s] 71%|███████▏  | 7641/10699 [1:20:43<25:12,  2.02it/s] 71%|███████▏  | 7642/10699 [1:20:43<25:11,  2.02it/s] 71%|███████▏  | 7643/10699 [1:20:44<25:12,  2.02it/s] 71%|███████▏  | 7644/10699 [1:20:44<25:12,  2.02it/s] 71%|███████▏  | 7645/10699 [1:20:45<25:10,  2.02it/s] 71%|███████▏  | 7646/10699 [1:20:45<25:10,  2.02it/s] 71%|███████▏  | 7647/10699 [1:20:46<25:08,  2.02it/s] 71%|███████▏  | 7648/10699 [1:20:46<25:08,  2.02it/s] 71%|███████▏  | 7649/10699 [1:20:47<25:07,  2.02it/s] 72%|███████▏  | 7650/10699 [1:20:47<25:06,  2.02it/s]                                                      {'loss': 3.6183, 'grad_norm': 0.20432648062705994, 'learning_rate': 0.00022765540043885685, 'epoch': 0.71}
- 72%|███████▏  | 7650/10699 [1:20:47<25:06,  2.02it/s] 72%|███████▏  | 7651/10699 [1:20:48<25:11,  2.02it/s] 72%|███████▏  | 7652/10699 [1:20:48<25:10,  2.02it/s] 72%|███████▏  | 7653/10699 [1:20:49<25:07,  2.02it/s] 72%|███████▏  | 7654/10699 [1:20:49<25:08,  2.02it/s] 72%|███████▏  | 7655/10699 [1:20:50<25:05,  2.02it/s] 72%|███████▏  | 7656/10699 [1:20:50<25:04,  2.02it/s] 72%|███████▏  | 7657/10699 [1:20:51<25:02,  2.02it/s] 72%|███████▏  | 7658/10699 [1:20:51<25:01,  2.02it/s] 72%|███████▏  | 7659/10699 [1:20:52<25:02,  2.02it/s] 72%|███████▏  | 7660/10699 [1:20:52<24:59,  2.03it/s] 72%|███████▏  | 7661/10699 [1:20:53<25:01,  2.02it/s] 72%|███████▏  | 7662/10699 [1:20:53<24:59,  2.03it/s] 72%|███████▏  | 7663/10699 [1:20:54<24:59,  2.02it/s] 72%|███████▏  | 7664/10699 [1:20:54<25:00,  2.02it/s] 72%|███████▏  | 7665/10699 [1:20:55<25:00,  2.02it/s] 72%|███████▏  | 7666/10699 [1:20:55<24:59,  2.02it/s] 72%|███████▏  | 7667/10699 [1:20:56<24:58,  2.02it/s] 72%|███████▏  | 7668/10699 [1:20:56<24:57,  2.02it/s] 72%|███████▏  | 7669/10699 [1:20:57<24:57,  2.02it/s] 72%|███████▏  | 7670/10699 [1:20:57<24:57,  2.02it/s] 72%|███████▏  | 7671/10699 [1:20:58<24:57,  2.02it/s] 72%|███████▏  | 7672/10699 [1:20:58<24:56,  2.02it/s] 72%|███████▏  | 7673/10699 [1:20:58<24:55,  2.02it/s] 72%|███████▏  | 7674/10699 [1:20:59<24:54,  2.02it/s] 72%|███████▏  | 7675/10699 [1:20:59<24:53,  2.02it/s]                                                      {'loss': 3.6156, 'grad_norm': 0.20687194168567657, 'learning_rate': 0.00022424428424746052, 'epoch': 0.72}
- 72%|███████▏  | 7675/10699 [1:20:59<24:53,  2.02it/s] 72%|███████▏  | 7676/10699 [1:21:00<24:55,  2.02it/s] 72%|███████▏  | 7677/10699 [1:21:00<24:52,  2.02it/s] 72%|███████▏  | 7678/10699 [1:21:01<24:53,  2.02it/s] 72%|███████▏  | 7679/10699 [1:21:01<24:52,  2.02it/s] 72%|███████▏  | 7680/10699 [1:21:02<24:51,  2.02it/s] 72%|███████▏  | 7681/10699 [1:21:02<24:50,  2.03it/s] 72%|███████▏  | 7682/10699 [1:21:03<24:49,  2.03it/s] 72%|███████▏  | 7683/10699 [1:21:03<24:49,  2.02it/s] 72%|███████▏  | 7684/10699 [1:21:04<24:47,  2.03it/s] 72%|███████▏  | 7685/10699 [1:21:04<24:49,  2.02it/s] 72%|███████▏  | 7686/10699 [1:21:05<24:46,  2.03it/s] 72%|███████▏  | 7687/10699 [1:21:05<24:47,  2.03it/s] 72%|███████▏  | 7688/10699 [1:21:06<24:45,  2.03it/s] 72%|███████▏  | 7689/10699 [1:21:06<24:44,  2.03it/s] 72%|███████▏  | 7690/10699 [1:21:07<24:44,  2.03it/s] 72%|███████▏  | 7691/10699 [1:21:07<24:43,  2.03it/s] 72%|███████▏  | 7692/10699 [1:21:08<24:44,  2.03it/s] 72%|███████▏  | 7693/10699 [1:21:08<24:43,  2.03it/s] 72%|███████▏  | 7694/10699 [1:21:09<24:43,  2.03it/s] 72%|███████▏  | 7695/10699 [1:21:09<24:43,  2.03it/s] 72%|███████▏  | 7696/10699 [1:21:10<24:43,  2.02it/s] 72%|███████▏  | 7697/10699 [1:21:10<24:41,  2.03it/s] 72%|███████▏  | 7698/10699 [1:21:11<24:42,  2.02it/s] 72%|███████▏  | 7699/10699 [1:21:11<24:40,  2.03it/s] 72%|███████▏  | 7700/10699 [1:21:12<24:40,  2.03it/s]                                                      {'loss': 3.6133, 'grad_norm': 0.20504549145698547, 'learning_rate': 0.00022085151397645392, 'epoch': 0.72}
- 72%|███████▏  | 7700/10699 [1:21:12<24:40,  2.03it/s] 72%|███████▏  | 7701/10699 [1:21:12<24:41,  2.02it/s] 72%|███████▏  | 7702/10699 [1:21:13<24:41,  2.02it/s] 72%|███████▏  | 7703/10699 [1:21:13<24:41,  2.02it/s] 72%|███████▏  | 7704/10699 [1:21:14<24:39,  2.02it/s] 72%|███████▏  | 7705/10699 [1:21:14<24:40,  2.02it/s] 72%|███████▏  | 7706/10699 [1:21:15<24:39,  2.02it/s] 72%|███████▏  | 7707/10699 [1:21:15<24:39,  2.02it/s] 72%|███████▏  | 7708/10699 [1:21:16<24:37,  2.02it/s] 72%|███████▏  | 7709/10699 [1:21:16<24:37,  2.02it/s] 72%|███████▏  | 7710/10699 [1:21:17<24:35,  2.03it/s] 72%|███████▏  | 7711/10699 [1:21:17<24:36,  2.02it/s] 72%|███████▏  | 7712/10699 [1:21:18<24:34,  2.03it/s] 72%|███████▏  | 7713/10699 [1:21:18<24:35,  2.02it/s] 72%|███████▏  | 7714/10699 [1:21:19<24:35,  2.02it/s] 72%|███████▏  | 7715/10699 [1:21:19<24:35,  2.02it/s] 72%|███████▏  | 7716/10699 [1:21:20<24:35,  2.02it/s] 72%|███████▏  | 7717/10699 [1:21:20<24:33,  2.02it/s] 72%|███████▏  | 7718/10699 [1:21:21<24:33,  2.02it/s] 72%|███████▏  | 7719/10699 [1:21:21<24:32,  2.02it/s] 72%|██��████▏  | 7720/10699 [1:21:22<24:30,  2.03it/s] 72%|███████▏  | 7721/10699 [1:21:22<24:31,  2.02it/s] 72%|███████▏  | 7722/10699 [1:21:23<24:29,  2.03it/s] 72%|███████▏  | 7723/10699 [1:21:23<24:31,  2.02it/s] 72%|███████▏  | 7724/10699 [1:21:24<24:28,  2.03it/s] 72%|███████▏  | 7725/10699 [1:21:24<24:29,  2.02it/s]{'loss': 3.6188, 'grad_norm': 0.2152555286884308, 'learning_rate': 0.00021747731534552234, 'epoch': 0.72}                                                      
- 72%|███████▏  | 7725/10699 [1:21:24<24:29,  2.02it/s] 72%|███████▏  | 7726/10699 [1:21:25<24:31,  2.02it/s] 72%|███████▏  | 7727/10699 [1:21:25<24:30,  2.02it/s] 72%|███████▏  | 7728/10699 [1:21:26<24:30,  2.02it/s] 72%|███████▏  | 7729/10699 [1:21:26<24:28,  2.02it/s] 72%|███████▏  | 7730/10699 [1:21:27<24:28,  2.02it/s] 72%|███████▏  | 7731/10699 [1:21:27<24:27,  2.02it/s] 72%|███████▏  | 7732/10699 [1:21:28<24:27,  2.02it/s] 72%|███████▏  | 7733/10699 [1:21:28<24:26,  2.02it/s] 72%|███████▏  | 7734/10699 [1:21:29<24:27,  2.02it/s] 72%|███████▏  | 7735/10699 [1:21:29<24:25,  2.02it/s] 72%|███████▏  | 7736/10699 [1:21:30<24:25,  2.02it/s] 72%|███████▏  | 7737/10699 [1:21:30<24:23,  2.02it/s] 72%|███████▏  | 7738/10699 [1:21:31<24:24,  2.02it/s] 72%|███████▏  | 7739/10699 [1:21:31<24:24,  2.02it/s] 72%|███████▏  | 7740/10699 [1:21:32<24:25,  2.02it/s] 72%|███████▏  | 7741/10699 [1:21:32<24:22,  2.02it/s] 72%|███████▏  | 7742/10699 [1:21:33<24:23,  2.02it/s] 72%|███████▏  | 7743/10699 [1:21:33<24:22,  2.02it/s] 72%|███████▏  | 7744/10699 [1:21:34<24:21,  2.02it/s] 72%|███████▏  | 7745/10699 [1:21:34<24:19,  2.02it/s] 72%|███████▏  | 7746/10699 [1:21:35<24:20,  2.02it/s] 72%|███████▏  | 7747/10699 [1:21:35<24:18,  2.02it/s] 72%|███████▏  | 7748/10699 [1:21:36<24:19,  2.02it/s] 72%|███████▏  | 7749/10699 [1:21:36<24:17,  2.02it/s] 72%|███████▏  | 7750/10699 [1:21:37<24:16,  2.02it/s]{'loss': 3.6214, 'grad_norm': 0.2174171805381775, 'learning_rate': 0.0002141219128387869, 'epoch': 0.72}
-                                                       72%|███████▏  | 7750/10699 [1:21:37<24:16,  2.02it/s] 72%|███████▏  | 7751/10699 [1:21:37<24:17,  2.02it/s] 72%|███████▏  | 7752/10699 [1:21:38<24:18,  2.02it/s] 72%|███████▏  | 7753/10699 [1:21:38<24:18,  2.02it/s] 72%|███████▏  | 7754/10699 [1:21:39<24:17,  2.02it/s] 72%|███████▏  | 7755/10699 [1:21:39<24:15,  2.02it/s] 72%|███████▏  | 7756/10699 [1:21:40<24:14,  2.02it/s] 73%|███████▎  | 7757/10699 [1:21:40<24:14,  2.02it/s] 73%|███████▎  | 7758/10699 [1:21:41<24:13,  2.02it/s] 73%|███████▎  | 7759/10699 [1:21:41<24:12,  2.02it/s] 73%|███████▎  | 7760/10699 [1:21:41<24:11,  2.02it/s] 73%|███████▎  | 7761/10699 [1:21:42<24:13,  2.02it/s] 73%|███████▎  | 7762/10699 [1:21:42<24:11,  2.02it/s] 73%|███████▎  | 7763/10699 [1:21:43<24:13,  2.02it/s] 73%|███████▎  | 7764/10699 [1:21:43<24:10,  2.02it/s] 73%|███████▎  | 7765/10699 [1:21:44<24:11,  2.02it/s] 73%|███████▎  | 7766/10699 [1:21:44<24:10,  2.02it/s] 73%|███████▎  | 7767/10699 [1:21:45<24:08,  2.02it/s] 73%|███████▎  | 7768/10699 [1:21:45<24:08,  2.02it/s] 73%|███████▎  | 7769/10699 [1:21:46<24:07,  2.02it/s] 73%|███████▎  | 7770/10699 [1:21:46<24:06,  2.02it/s] 73%|███████▎  | 7771/10699 [1:21:47<24:07,  2.02it/s] 73%|███████▎  | 7772/10699 [1:21:47<24:07,  2.02it/s] 73%|███████▎  | 7773/10699 [1:21:48<24:08,  2.02it/s] 73%|███████▎  | 7774/10699 [1:21:48<24:06,  2.02it/s] 73%|███████▎  | 7775/10699 [1:21:49<24:07,  2.02it/s]                                                      {'loss': 3.6186, 'grad_norm': 0.20360004901885986, 'learning_rate': 0.00021078552968986942, 'epoch': 0.73}
- 73%|███████▎  | 7775/10699 [1:21:49<24:07,  2.02it/s] 73%|███████▎  | 7776/10699 [1:21:49<24:07,  2.02it/s] 73%|███████▎  | 7777/10699 [1:21:50<24:06,  2.02it/s] 73%|███████▎  | 7778/10699 [1:21:50<24:03,  2.02it/s] 73%|███████▎  | 7779/10699 [1:21:51<24:01,  2.03it/s] 73%|███████▎  | 7780/10699 [1:21:51<24:02,  2.02it/s] 73%|███████▎  | 7781/10699 [1:21:52<24:00,  2.03it/s] 73%|███████▎  | 7782/10699 [1:21:52<24:01,  2.02it/s] 73%|███████▎  | 7783/10699 [1:21:53<24:00,  2.02it/s] 73%|███████▎  | 7784/10699 [1:21:53<24:02,  2.02it/s] 73%|███████▎  | 7785/10699 [1:21:54<24:01,  2.02it/s] 73%|███████▎  | 7786/10699 [1:21:54<24:01,  2.02it/s] 73%|███████▎  | 7787/10699 [1:21:55<23:59,  2.02it/s] 73%|███████▎  | 7788/10699 [1:21:55<23:59,  2.02it/s] 73%|███████▎  | 7789/10699 [1:21:56<23:58,  2.02it/s] 73%|███████▎  | 7790/10699 [1:21:56<23:56,  2.03it/s] 73%|███████▎  | 7791/10699 [1:21:57<23:56,  2.02it/s] 73%|███████▎  | 7792/10699 [1:21:57<23:55,  2.02it/s] 73%|███████▎  | 7793/10699 [1:21:58<23:55,  2.02it/s] 73%|███████▎  | 7794/10699 [1:21:58<23:54,  2.03it/s] 73%|███████▎  | 7795/10699 [1:21:59<23:56,  2.02it/s] 73%|███████▎  | 7796/10699 [1:21:59<23:54,  2.02it/s] 73%|███████▎  | 7797/10699 [1:22:00<23:55,  2.02it/s] 73%|███████▎  | 7798/10699 [1:22:00<23:53,  2.02it/s] 73%|███████▎  | 7799/10699 [1:22:01<23:53,  2.02it/s] 73%|███████▎  | 7800/10699 [1:22:01<23:51,  2.03it/s]                                                      {'loss': 3.6145, 'grad_norm': 0.1959780752658844, 'learning_rate': 0.00020746838786704196, 'epoch': 0.73}
- 73%|███████▎  | 7800/10699 [1:22:01<23:51,  2.03it/s] 73%|███████▎  | 7801/10699 [1:22:02<23:54,  2.02it/s] 73%|███████▎  | 7802/10699 [1:22:02<23:53,  2.02it/s] 73%|███████▎  | 7803/10699 [1:22:03<23:53,  2.02it/s] 73%|███████▎  | 7804/10699 [1:22:03<23:52,  2.02it/s] 73%|███████▎  | 7805/10699 [1:22:04<23:53,  2.02it/s] 73%|███████▎  | 7806/10699 [1:22:04<23:50,  2.02it/s] 73%|███████▎  | 7807/10699 [1:22:05<23:50,  2.02it/s] 73%|███████▎  | 7808/10699 [1:22:05<23:48,  2.02it/s] 73%|███████▎  | 7809/10699 [1:22:06<23:46,  2.03it/s] 73%|███████▎  | 7810/10699 [1:22:06<23:46,  2.02it/s] 73%|███████▎  | 7811/10699 [1:22:07<23:45,  2.03it/s] 73%|███████▎  | 7812/10699 [1:22:07<23:46,  2.02it/s] 73%|███████▎  | 7813/10699 [1:22:08<23:44,  2.03it/s] 73%|███████▎  | 7814/10699 [1:22:08<23:46,  2.02it/s] 73%|███████▎  | 7815/10699 [1:22:09<23:44,  2.02it/s] 73%|███████▎  | 7816/10699 [1:22:09<23:45,  2.02it/s] 73%|███████▎  | 7817/10699 [1:22:10<23:43,  2.02it/s] 73%|███████▎  | 7818/10699 [1:22:10<23:45,  2.02it/s] 73%|███████▎  | 7819/10699 [1:22:11<23:43,  2.02it/s] 73%|███████▎  | 7820/10699 [1:22:11<23:43,  2.02it/s] 73%|███████▎  | 7821/10699 [1:22:12<23:42,  2.02it/s] 73%|███████▎  | 7822/10699 [1:22:12<23:42,  2.02it/s] 73%|███████▎  | 7823/10699 [1:22:13<23:41,  2.02it/s] 73%|███████▎  | 7824/10699 [1:22:13<23:40,  2.02it/s] 73%|███████▎  | 7825/10699 [1:22:14<23:40,  2.02it/s]                                                      {'loss': 3.6132, 'grad_norm': 0.19821101427078247, 'learning_rate': 0.00020417070805845805, 'epoch': 0.73}
- 73%|███████▎  | 7825/10699 [1:22:14<23:40,  2.02it/s] 73%|███████▎  | 7826/10699 [1:22:14<23:43,  2.02it/s] 73%|███████▎  | 7827/10699 [1:22:15<23:41,  2.02it/s] 73%|███████▎  | 7828/10699 [1:22:15<23:39,  2.02it/s] 73%|███████▎  | 7829/10699 [1:22:16<23:38,  2.02it/s] 73%|███████▎  | 7830/10699 [1:22:16<23:38,  2.02it/s] 73%|███████▎  | 7831/10699 [1:22:17<23:37,  2.02it/s] 73%|███████▎  | 7832/10699 [1:22:17<23:39,  2.02it/s] 73%|███████▎  | 7833/10699 [1:22:18<23:38,  2.02it/s] 73%|███████▎  | 7834/10699 [1:22:18<23:38,  2.02it/s] 73%|███████▎  | 7835/10699 [1:22:19<23:37,  2.02it/s] 73%|███████▎  | 7836/10699 [1:22:19<23:36,  2.02it/s] 73%|███████▎  | 7837/10699 [1:22:20<23:36,  2.02it/s] 73%|███████▎  | 7838/10699 [1:22:20<23:35,  2.02it/s] 73%|███████▎  | 7839/10699 [1:22:21<23:35,  2.02it/s] 73%|███████▎  | 7840/10699 [1:22:21<23:33,  2.02it/s] 73%|███████▎  | 7841/10699 [1:22:22<23:33,  2.02it/s] 73%|███████▎  | 7842/10699 [1:22:22<23:34,  2.02it/s] 73%|███████▎  | 7843/10699 [1:22:23<23:33,  2.02it/s] 73%|███████▎  | 7844/10699 [1:22:23<23:32,  2.02it/s] 73%|███████▎  | 7845/10699 [1:22:24<23:30,  2.02it/s] 73%|███████▎  | 7846/10699 [1:22:24<23:30,  2.02it/s] 73%|███████▎  | 7847/10699 [1:22:25<23:30,  2.02it/s] 73%|███████▎  | 7848/10699 [1:22:25<23:29,  2.02it/s] 73%|███████▎  | 7849/10699 [1:22:25<23:27,  2.02it/s] 73%|███████▎  | 7850/10699 [1:22:26<23:28,  2.02it/s]                                                      {'loss': 3.6172, 'grad_norm': 0.217218279838562, 'learning_rate': 0.00020089270965747126, 'epoch': 0.73}
- 73%|███████▎  | 7850/10699 [1:22:26<23:28,  2.02it/s] 73%|███████▎  | 7851/10699 [1:22:26<23:27,  2.02it/s] 73%|███████▎  | 7852/10699 [1:22:27<23:29,  2.02it/s] 73%|███████▎  | 7853/10699 [1:22:27<23:26,  2.02it/s] 73%|███████▎  | 7854/10699 [1:22:28<23:28,  2.02it/s] 73%|███████▎  | 7855/10699 [1:22:28<23:27,  2.02it/s] 73%|███████▎  | 7856/10699 [1:22:29<23:27,  2.02it/s] 73%|███████▎  | 7857/10699 [1:22:29<23:25,  2.02it/s] 73%|███████▎  | 7858/10699 [1:22:30<23:25,  2.02it/s] 73%|███████▎  | 7859/10699 [1:22:30<23:24,  2.02it/s] 73%|███████▎  | 7860/10699 [1:22:31<23:22,  2.02it/s] 73%|███████▎  | 7861/10699 [1:22:31<23:23,  2.02it/s] 73%|███████▎  | 7862/10699 [1:22:32<23:23,  2.02it/s] 73%|███████▎  | 7863/10699 [1:22:32<23:23,  2.02it/s] 74%|███████▎  | 7864/10699 [1:22:33<23:23,  2.02it/s] 74%|███████▎  | 7865/10699 [1:22:33<23:23,  2.02it/s] 74%|███████▎  | 7866/10699 [1:22:34<23:21,  2.02it/s] 74%|███████▎  | 7867/10699 [1:22:34<23:21,  2.02it/s] 74%|███████▎  | 7868/10699 [1:22:35<23:20,  2.02it/s] 74%|███████▎  | 7869/10699 [1:22:35<23:18,  2.02it/s] 74%|███████▎  | 7870/10699 [1:22:36<23:17,  2.02it/s] 74%|███████▎  | 7871/10699 [1:22:36<23:17,  2.02it/s] 74%|███████▎  | 7872/10699 [1:22:37<23:16,  2.02it/s] 74%|███████▎  | 7873/10699 [1:22:37<23:16,  2.02it/s] 74%|███████▎  | 7874/10699 [1:22:38<23:15,  2.02it/s] 74%|███████▎  | 7875/10699 [1:22:38<23:17,  2.02it/s]                                                      {'loss': 3.6196, 'grad_norm': 0.2038055658340454, 'learning_rate': 0.00019763461074803906, 'epoch': 0.74}
- 74%|███████▎  | 7875/10699 [1:22:38<23:17,  2.02it/s] 74%|███████▎  | 7876/10699 [1:22:39<23:16,  2.02it/s] 74%|███████▎  | 7877/10699 [1:22:39<23:16,  2.02it/s] 74%|███████▎  | 7878/10699 [1:22:40<23:14,  2.02it/s] 74%|███████▎  | 7879/10699 [1:22:40<23:14,  2.02it/s] 74%|███████▎  | 7880/10699 [1:22:41<23:12,  2.02it/s] 74%|███████▎  | 7881/10699 [1:22:41<23:13,  2.02it/s] 74%|███████▎  | 7882/10699 [1:22:42<23:12,  2.02it/s] 74%|███████▎  | 7883/10699 [1:22:42<23:13,  2.02it/s] 74%|███████▎  | 7884/10699 [1:22:43<23:11,  2.02it/s] 74%|███████▎  | 7885/10699 [1:22:43<23:12,  2.02it/s] 74%|███████▎  | 7886/10699 [1:22:44<23:10,  2.02it/s] 74%|███████▎  | 7887/10699 [1:22:44<23:11,  2.02it/s] 74%|███████▎  | 7888/10699 [1:22:45<23:09,  2.02it/s] 74%|███████▎  | 7889/10699 [1:22:45<23:07,  2.02it/s] 74%|███████▎  | 7890/10699 [1:22:46<23:08,  2.02it/s] 74%|███████▍  | 7891/10699 [1:22:46<23:08,  2.02it/s] 74%|███████▍  | 7892/10699 [1:22:47<23:09,  2.02it/s] 74%|███████▍  | 7893/10699 [1:22:47<23:08,  2.02it/s] 74%|███████▍  | 7894/10699 [1:22:48<23:07,  2.02it/s] 74%|███████▍  | 7895/10699 [1:22:48<23:07,  2.02it/s] 74%|███████▍  | 7896/10699 [1:22:49<23:05,  2.02it/s] 74%|███████▍  | 7897/10699 [1:22:49<23:05,  2.02it/s] 74%|███████▍  | 7898/10699 [1:22:50<23:06,  2.02it/s] 74%|███████▍  | 7899/10699 [1:22:50<23:05,  2.02it/s] 74%|███████▍  | 7900/10699 [1:22:51<23:06,  2.02it/s]{'loss': 3.6174, 'grad_norm': 0.20030657947063446, 'learning_rate': 0.00019439662809021273, 'epoch': 0.74}
-                                                       74%|███████▍  | 7900/10699 [1:22:51<23:06,  2.02it/s] 74%|███████▍  | 7901/10699 [1:22:51<23:05,  2.02it/s] 74%|███████▍  | 7902/10699 [1:22:52<23:06,  2.02it/s] 74%|███████▍  | 7903/10699 [1:22:52<23:03,  2.02it/s] 74%|███████▍  | 7904/10699 [1:22:53<23:03,  2.02it/s] 74%|███████▍  | 7905/10699 [1:22:53<23:02,  2.02it/s] 74%|███████▍  | 7906/10699 [1:22:54<23:00,  2.02it/s] 74%|███████▍  | 7907/10699 [1:22:54<23:00,  2.02it/s] 74%|███████▍  | 7908/10699 [1:22:55<22:59,  2.02it/s] 74%|███████▍  | 7909/10699 [1:22:55<22:58,  2.02it/s] 74%|█��█████▍  | 7910/10699 [1:22:56<22:58,  2.02it/s] 74%|███████▍  | 7911/10699 [1:22:56<22:57,  2.02it/s] 74%|███████▍  | 7912/10699 [1:22:57<22:59,  2.02it/s] 74%|███████▍  | 7913/10699 [1:22:57<22:57,  2.02it/s] 74%|███████▍  | 7914/10699 [1:22:58<22:58,  2.02it/s] 74%|███████▍  | 7915/10699 [1:22:58<22:57,  2.02it/s] 74%|███████▍  | 7916/10699 [1:22:59<22:56,  2.02it/s] 74%|███████▍  | 7917/10699 [1:22:59<22:54,  2.02it/s] 74%|███████▍  | 7918/10699 [1:23:00<22:52,  2.03it/s] 74%|███████▍  | 7919/10699 [1:23:00<22:52,  2.03it/s] 74%|███████▍  | 7920/10699 [1:23:01<22:51,  2.03it/s] 74%|███████▍  | 7921/10699 [1:23:01<22:52,  2.02it/s] 74%|███████▍  | 7922/10699 [1:23:02<22:50,  2.03it/s] 74%|███████▍  | 7923/10699 [1:23:02<22:49,  2.03it/s] 74%|███████▍  | 7924/10699 [1:23:03<22:49,  2.03it/s] 74%|███████▍  | 7925/10699 [1:23:03<22:48,  2.03it/s]                                                      {'loss': 3.6128, 'grad_norm': 0.20211921632289886, 'learning_rate': 0.00019117897710571813, 'epoch': 0.74}
- 74%|███████▍  | 7925/10699 [1:23:03<22:48,  2.03it/s] 74%|███████▍  | 7926/10699 [1:23:04<22:50,  2.02it/s] 74%|███████▍  | 7927/10699 [1:23:04<22:49,  2.02it/s] 74%|███████▍  | 7928/10699 [1:23:05<22:48,  2.02it/s] 74%|███████▍  | 7929/10699 [1:23:05<22:46,  2.03it/s] 74%|███████▍  | 7930/10699 [1:23:06<22:47,  2.03it/s] 74%|███████▍  | 7931/10699 [1:23:06<22:48,  2.02it/s] 74%|███████▍  | 7932/10699 [1:23:07<22:46,  2.03it/s] 74%|███████▍  | 7933/10699 [1:23:07<22:47,  2.02it/s] 74%|███████▍  | 7934/10699 [1:23:08<22:46,  2.02it/s] 74%|███████▍  | 7935/10699 [1:23:08<22:46,  2.02it/s] 74%|███████▍  | 7936/10699 [1:23:09<22:44,  2.03it/s] 74%|███████▍  | 7937/10699 [1:23:09<22:44,  2.02it/s] 74%|███████▍  | 7938/10699 [1:23:09<22:43,  2.03it/s] 74%|███████▍  | 7939/10699 [1:23:10<22:43,  2.02it/s] 74%|███████▍  | 7940/10699 [1:23:10<22:42,  2.03it/s] 74%|███████▍  | 7941/10699 [1:23:11<22:41,  2.03it/s] 74%|███████▍  | 7942/10699 [1:23:11<22:41,  2.02it/s] 74%|███████▍  | 7943/10699 [1:23:12<22:41,  2.02it/s] 74%|███████▍  | 7944/10699 [1:23:12<22:41,  2.02it/s] 74%|███████▍  | 7945/10699 [1:23:13<22:39,  2.03it/s] 74%|███████▍  | 7946/10699 [1:23:13<22:40,  2.02it/s] 74%|███████▍  | 7947/10699 [1:23:14<22:38,  2.03it/s] 74%|███████▍  | 7948/10699 [1:23:14<22:38,  2.02it/s] 74%|███████▍  | 7949/10699 [1:23:15<22:38,  2.02it/s] 74%|███████▍  | 7950/10699 [1:23:15<22:38,  2.02it/s]{'loss': 3.6025, 'grad_norm': 0.2010909467935562, 'learning_rate': 0.00018798187186362181, 'epoch': 0.74}                                                      
- 74%|███████▍  | 7950/10699 [1:23:15<22:38,  2.02it/s] 74%|███████▍  | 7951/10699 [1:23:16<22:38,  2.02it/s] 74%|███████▍  | 7952/10699 [1:23:16<22:36,  2.02it/s] 74%|███████▍  | 7953/10699 [1:23:17<22:37,  2.02it/s] 74%|███████▍  | 7954/10699 [1:23:17<22:36,  2.02it/s] 74%|███████▍  | 7955/10699 [1:23:18<22:36,  2.02it/s] 74%|███████▍  | 7956/10699 [1:23:18<22:36,  2.02it/s] 74%|███████▍  | 7957/10699 [1:23:19<22:36,  2.02it/s] 74%|███████▍  | 7958/10699 [1:23:19<22:33,  2.03it/s] 74%|███████▍  | 7959/10699 [1:23:20<22:32,  2.03it/s] 74%|███████▍  | 7960/10699 [1:23:20<22:32,  2.02it/s] 74%|███████▍  | 7961/10699 [1:23:21<22:33,  2.02it/s] 74%|███████▍  | 7962/10699 [1:23:21<22:32,  2.02it/s] 74%|███████▍  | 7963/10699 [1:23:22<22:31,  2.02it/s] 74%|███████▍  | 7964/10699 [1:23:22<22:30,  2.02it/s] 74%|███████▍  | 7965/10699 [1:23:23<22:29,  2.03it/s] 74%|███████▍  | 7966/10699 [1:23:23<22:29,  2.02it/s] 74%|███████▍  | 7967/10699 [1:23:24<22:29,  2.02it/s] 74%|███████▍  | 7968/10699 [1:23:24<22:29,  2.02it/s] 74%|███████▍  | 7969/10699 [1:23:25<22:29,  2.02it/s] 74%|███████▍  | 7970/10699 [1:23:25<22:30,  2.02it/s] 75%|███████▍  | 7971/10699 [1:23:26<22:29,  2.02it/s] 75%|███████▍  | 7972/10699 [1:23:26<22:29,  2.02it/s] 75%|███████▍  | 7973/10699 [1:23:27<22:28,  2.02it/s] 75%|███████▍  | 7974/10699 [1:23:27<22:29,  2.02it/s] 75%|███████▍  | 7975/10699 [1:23:28<22:27,  2.02it/s]{'loss': 3.617, 'grad_norm': 0.19980429112911224, 'learning_rate': 0.000184805525066091, 'epoch': 0.75}                                                      
- 75%|███████▍  | 7975/10699 [1:23:28<22:27,  2.02it/s] 75%|███████▍  | 7976/10699 [1:23:28<22:28,  2.02it/s] 75%|███████▍  | 7977/10699 [1:23:29<22:26,  2.02it/s] 75%|███████▍  | 7978/10699 [1:23:29<22:26,  2.02it/s] 75%|███████▍  | 7979/10699 [1:23:30<22:25,  2.02it/s] 75%|███████▍  | 7980/10699 [1:23:30<22:26,  2.02it/s] 75%|███████▍  | 7981/10699 [1:23:31<22:25,  2.02it/s] 75%|███████▍  | 7982/10699 [1:23:31<22:23,  2.02it/s] 75%|███████▍  | 7983/10699 [1:23:32<22:24,  2.02it/s] 75%|███████▍  | 7984/10699 [1:23:32<22:25,  2.02it/s] 75%|███████▍  | 7985/10699 [1:23:33<22:23,  2.02it/s] 75%|███████▍  | 7986/10699 [1:23:33<22:21,  2.02it/s] 75%|███████▍  | 7987/10699 [1:23:34<22:20,  2.02it/s] 75%|███████▍  | 7988/10699 [1:23:34<22:19,  2.02it/s] 75%|███████▍  | 7989/10699 [1:23:35<22:20,  2.02it/s] 75%|███████▍  | 7990/10699 [1:23:35<22:18,  2.02it/s] 75%|███████▍  | 7991/10699 [1:23:36<22:19,  2.02it/s] 75%|███████▍  | 7992/10699 [1:23:36<22:18,  2.02it/s] 75%|███████▍  | 7993/10699 [1:23:37<22:18,  2.02it/s] 75%|███████▍  | 7994/10699 [1:23:37<22:17,  2.02it/s] 75%|███████▍  | 7995/10699 [1:23:38<22:15,  2.03it/s] 75%|███████▍  | 7996/10699 [1:23:38<22:15,  2.02it/s] 75%|███████▍  | 7997/10699 [1:23:39<22:14,  2.03it/s] 75%|███████▍  | 7998/10699 [1:23:39<22:14,  2.02it/s] 75%|███████▍  | 7999/10699 [1:23:40<22:13,  2.03it/s] 75%|███████▍  | 8000/10699 [1:23:40<22:13,  2.02it/s]                                                      {'loss': 3.6219, 'grad_norm': 0.2018175572156906, 'learning_rate': 0.0001816501480342409, 'epoch': 0.75}
- 75%|███████▍  | 8000/10699 [1:23:40<22:13,  2.02it/s] 75%|███████▍  | 8001/10699 [1:23:41<22:13,  2.02it/s] 75%|███████▍  | 8002/10699 [1:23:41<22:14,  2.02it/s] 75%|███████▍  | 8003/10699 [1:23:42<22:13,  2.02it/s] 75%|███████▍  | 8004/10699 [1:23:42<22:12,  2.02it/s] 75%|███████▍  | 8005/10699 [1:23:43<22:12,  2.02it/s] 75%|███████▍  | 8006/10699 [1:23:43<22:11,  2.02it/s] 75%|███████▍  | 8007/10699 [1:23:44<22:10,  2.02it/s] 75%|███████▍  | 8008/10699 [1:23:44<22:08,  2.03it/s] 75%|███████▍  | 8009/10699 [1:23:45<22:08,  2.02it/s] 75%|███████▍  | 8010/10699 [1:23:45<22:08,  2.02it/s] 75%|███████▍  | 8011/10699 [1:23:46<22:09,  2.02it/s] 75%|███████▍  | 8012/10699 [1:23:46<22:07,  2.02it/s] 75%|███████▍  | 8013/10699 [1:23:47<22:09,  2.02it/s] 75%|███████▍  | 8014/10699 [1:23:47<22:08,  2.02it/s] 75%|███████▍  | 8015/10699 [1:23:48<22:08,  2.02it/s] 75%|███████▍  | 8016/10699 [1:23:48<22:06,  2.02it/s] 75%|███████▍  | 8017/10699 [1:23:49<22:06,  2.02it/s] 75%|███████▍  | 8018/10699 [1:23:49<22:05,  2.02it/s] 75%|███████▍  | 8019/10699 [1:23:50<22:05,  2.02it/s] 75%|███████▍  | 8020/10699 [1:23:50<22:04,  2.02it/s] 75%|███████▍  | 8021/10699 [1:23:51<22:05,  2.02it/s] 75%|███████▍  | 8022/10699 [1:23:51<22:04,  2.02it/s] 75%|███████▍  | 8023/10699 [1:23:52<22:04,  2.02it/s] 75%|███████▍  | 8024/10699 [1:23:52<22:03,  2.02it/s] 75%|███████▌  | 8025/10699 [1:23:53<22:02,  2.02it/s]{'loss': 3.6076, 'grad_norm': 0.215399831533432, 'learning_rate': 0.00017851595069407695, 'epoch': 0.75}
-                                                       75%|███████▌  | 8025/10699 [1:23:53<22:02,  2.02it/s] 75%|███████▌  | 8026/10699 [1:23:53<22:03,  2.02it/s] 75%|███████▌  | 8027/10699 [1:23:54<22:02,  2.02it/s] 75%|███████▌  | 8028/10699 [1:23:54<22:00,  2.02it/s] 75%|███████▌  | 8029/10699 [1:23:54<22:00,  2.02it/s] 75%|███████▌  | 8030/10699 [1:23:55<22:00,  2.02it/s] 75%|███████▌  | 8031/10699 [1:23:55<21:58,  2.02it/s] 75%|███████▌  | 8032/10699 [1:23:56<21:59,  2.02it/s] 75%|███████▌  | 8033/10699 [1:23:56<21:57,  2.02it/s] 75%|███████▌  | 8034/10699 [1:23:57<21:57,  2.02it/s] 75%|███████▌  | 8035/10699 [1:23:57<21:55,  2.03it/s] 75%|███████▌  | 8036/10699 [1:23:58<21:55,  2.02it/s] 75%|███████▌  | 8037/10699 [1:23:58<21:54,  2.02it/s] 75%|███████▌  | 8038/10699 [1:23:59<21:53,  2.03it/s] 75%|███████▌  | 8039/10699 [1:23:59<21:53,  2.03it/s] 75%|███████▌  | 8040/10699 [1:24:00<21:52,  2.03it/s] 75%|███████▌  | 8041/10699 [1:24:00<21:52,  2.03it/s] 75%|███████▌  | 8042/10699 [1:24:01<21:52,  2.02it/s] 75%|███████▌  | 8043/10699 [1:24:01<21:51,  2.02it/s] 75%|███████▌  | 8044/10699 [1:24:02<21:52,  2.02it/s] 75%|███████▌  | 8045/10699 [1:24:02<21:51,  2.02it/s] 75%|███████▌  | 8046/10699 [1:24:03<21:51,  2.02it/s] 75%|███████▌  | 8047/10699 [1:24:03<21:50,  2.02it/s] 75%|███████▌  | 8048/10699 [1:24:04<21:48,  2.03it/s] 75%|███████▌  | 8049/10699 [1:24:04<21:48,  2.03it/s] 75%|███████▌  | 8050/10699 [1:24:05<21:48,  2.02it/s]{'loss': 3.6164, 'grad_norm': 0.1994597166776657, 'learning_rate': 0.00017540314156252784, 'epoch': 0.75}                                                      
- 75%|███████▌  | 8050/10699 [1:24:05<21:48,  2.02it/s] 75%|███████▌  | 8051/10699 [1:24:05<21:51,  2.02it/s] 75%|███████▌  | 8052/10699 [1:24:06<21:50,  2.02it/s] 75%|███████▌  | 8053/10699 [1:24:06<21:50,  2.02it/s] 75%|███████▌  | 8054/10699 [1:24:07<21:48,  2.02it/s] 75%|███████▌  | 8055/10699 [1:24:07<21:47,  2.02it/s] 75%|███████▌  | 8056/10699 [1:24:08<21:45,  2.02it/s] 75%|███████▌  | 8057/10699 [1:24:08<21:45,  2.02it/s] 75%|███████▌  | 8058/10699 [1:24:09<21:46,  2.02it/s] 75%|███████▌  | 8059/10699 [1:24:09<21:44,  2.02it/s] 75%|███████▌  | 8060/10699 [1:24:10<21:45,  2.02it/s] 75%|███████▌  | 8061/10699 [1:24:10<21:44,  2.02it/s] 75%|███████▌  | 8062/10699 [1:24:11<21:44,  2.02it/s] 75%|███████▌  | 8063/10699 [1:24:11<21:43,  2.02it/s] 75%|███████▌  | 8064/10699 [1:24:12<21:42,  2.02it/s] 75%|███████▌  | 8065/10699 [1:24:12<21:42,  2.02it/s] 75%|███████▌  | 8066/10699 [1:24:13<21:40,  2.02it/s] 75%|███████▌  | 8067/10699 [1:24:13<21:39,  2.03it/s] 75%|███████▌  | 8068/10699 [1:24:14<21:39,  2.03it/s] 75%|███████▌  | 8069/10699 [1:24:14<21:38,  2.02it/s] 75%|███████▌  | 8070/10699 [1:24:15<21:38,  2.02it/s] 75%|███████▌  | 8071/10699 [1:24:15<21:37,  2.03it/s] 75%|███████▌  | 8072/10699 [1:24:16<21:36,  2.03it/s] 75%|███████▌  | 8073/10699 [1:24:16<21:35,  2.03it/s] 75%|███████▌  | 8074/10699 [1:24:17<21:35,  2.03it/s] 75%|███████▌  | 8075/10699 [1:24:17<21:35,  2.03it/s]{'loss': 3.6048, 'grad_norm': 0.2019379734992981, 'learning_rate': 0.0001723119277335727, 'epoch': 0.75}
-                                                       75%|███████▌  | 8075/10699 [1:24:17<21:35,  2.03it/s] 75%|███████▌  | 8076/10699 [1:24:18<21:36,  2.02it/s] 75%|███████▌  | 8077/10699 [1:24:18<21:34,  2.02it/s] 76%|███████▌  | 8078/10699 [1:24:19<21:35,  2.02it/s] 76%|███████▌  | 8079/10699 [1:24:19<21:34,  2.02it/s] 76%|███████▌  | 8080/10699 [1:24:20<21:35,  2.02it/s] 76%|███████▌  | 8081/10699 [1:24:20<21:33,  2.02it/s] 76%|███████▌  | 8082/10699 [1:24:21<21:33,  2.02it/s] 76%|███████▌  | 8083/10699 [1:24:21<21:32,  2.02it/s] 76%|███████▌  | 8084/10699 [1:24:22<21:32,  2.02it/s] 76%|███████▌  | 8085/10699 [1:24:22<21:32,  2.02it/s] 76%|███████▌  | 8086/10699 [1:24:23<21:32,  2.02it/s] 76%|███████▌  | 8087/10699 [1:24:23<21:30,  2.02it/s] 76%|███████▌  | 8088/10699 [1:24:24<21:30,  2.02it/s] 76%|███████▌  | 8089/10699 [1:24:24<21:30,  2.02it/s] 76%|███████▌  | 8090/10699 [1:24:25<21:31,  2.02it/s] 76%|███████▌  | 8091/10699 [1:24:25<21:29,  2.02it/s] 76%|███████▌  | 8092/10699 [1:24:26<21:28,  2.02it/s] 76%|███████▌  | 8093/10699 [1:24:26<21:27,  2.02it/s] 76%|███████▌  | 8094/10699 [1:24:27<21:26,  2.02it/s] 76%|███████▌  | 8095/10699 [1:24:27<21:26,  2.02it/s] 76%|███████▌  | 8096/10699 [1:24:28<21:25,  2.02it/s] 76%|███████▌  | 8097/10699 [1:24:28<21:25,  2.02it/s] 76%|███████▌  | 8098/10699 [1:24:29<21:24,  2.02it/s] 76%|███████▌  | 8099/10699 [1:24:29<21:26,  2.02it/s] 76%|███████▌  | 8100/10699 [1:24:30<21:24,  2.02it/s]                                                      {'loss': 3.6072, 'grad_norm': 0.20777146518230438, 'learning_rate': 0.00016924251486446414, 'epoch': 0.76}
- 76%|███████▌  | 8100/10699 [1:24:30<21:24,  2.02it/s] 76%|███████▌  | 8101/10699 [1:24:30<21:26,  2.02it/s] 76%|███████▌  | 8102/10699 [1:24:31<21:23,  2.02it/s] 76%|███████▌  | 8103/10699 [1:24:31<21:24,  2.02it/s] 76%|███████▌  | 8104/10699 [1:24:32<21:22,  2.02it/s] 76%|███████▌  | 8105/10699 [1:24:32<21:22,  2.02it/s] 76%|███████▌  | 8106/10699 [1:24:33<21:20,  2.02it/s] 76%|███████▌  | 8107/10699 [1:24:33<21:20,  2.02it/s] 76%|███████▌  | 8108/10699 [1:24:34<21:20,  2.02it/s] 76%|███████▌  | 8109/10699 [1:24:34<21:20,  2.02it/s] 76%|███████▌  | 8110/10699 [1:24:35<21:19,  2.02it/s] 76%|███████▌  | 8111/10699 [1:24:35<21:18,  2.02it/s] 76%|███████▌  | 8112/10699 [1:24:36<21:18,  2.02it/s] 76%|███████▌  | 8113/10699 [1:24:36<21:16,  2.03it/s] 76%|███████▌  | 8114/10699 [1:24:36<21:17,  2.02it/s] 76%|███████▌  | 8115/10699 [1:24:37<21:16,  2.03it/s] 76%|███████▌  | 8116/10699 [1:24:37<21:15,  2.02it/s] 76%|███████▌  | 8117/10699 [1:24:38<21:15,  2.02it/s] 76%|███████▌  | 8118/10699 [1:24:38<21:14,  2.03it/s] 76%|███████▌  | 8119/10699 [1:24:39<21:16,  2.02it/s] 76%|███████▌  | 8120/10699 [1:24:39<21:16,  2.02it/s] 76%|███████▌  | 8121/10699 [1:24:40<21:15,  2.02it/s] 76%|███████▌  | 8122/10699 [1:24:40<21:14,  2.02it/s] 76%|███████▌  | 8123/10699 [1:24:41<21:13,  2.02it/s] 76%|███████▌  | 8124/10699 [1:24:41<21:12,  2.02it/s] 76%|███████▌  | 8125/10699 [1:24:42<21:12,  2.02it/s]                                                      {'loss': 3.6092, 'grad_norm': 0.2111533135175705, 'learning_rate': 0.00016619510716204479, 'epoch': 0.76}
- 76%|███████▌  | 8125/10699 [1:24:42<21:12,  2.02it/s] 76%|███████▌  | 8126/10699 [1:24:42<21:13,  2.02it/s] 76%|███████▌  | 8127/10699 [1:24:43<21:12,  2.02it/s] 76%|███████▌  | 8128/10699 [1:24:43<21:13,  2.02it/s] 76%|███████▌  | 8129/10699 [1:24:44<21:12,  2.02it/s] 76%|███████▌  | 8130/10699 [1:24:44<21:11,  2.02it/s] 76%|███████▌  | 8131/10699 [1:24:45<21:10,  2.02it/s] 76%|███████▌  | 8132/10699 [1:24:45<21:09,  2.02it/s] 76%|███████▌  | 8133/10699 [1:24:46<21:07,  2.02it/s] 76%|███████▌  | 8134/10699 [1:24:46<21:08,  2.02it/s] 76%|███████▌  | 8135/10699 [1:24:47<21:07,  2.02it/s] 76%|███████▌  | 8136/10699 [1:24:47<21:06,  2.02it/s] 76%|███████▌  | 8137/10699 [1:24:48<21:05,  2.02it/s] 76%|███████▌  | 8138/10699 [1:24:48<21:06,  2.02it/s] 76%|███████▌  | 8139/10699 [1:24:49<21:05,  2.02it/s] 76%|███████▌  | 8140/10699 [1:24:49<21:04,  2.02it/s] 76%|███████▌  | 8141/10699 [1:24:50<21:03,  2.02it/s] 76%|███████▌  | 8142/10699 [1:24:50<21:02,  2.02it/s] 76%|███████▌  | 8143/10699 [1:24:51<21:03,  2.02it/s] 76%|███████▌  | 8144/10699 [1:24:51<21:03,  2.02it/s] 76%|███████▌  | 8145/10699 [1:24:52<21:03,  2.02it/s] 76%|███████▌  | 8146/10699 [1:24:52<21:02,  2.02it/s] 76%|███████▌  | 8147/10699 [1:24:53<21:01,  2.02it/s] 76%|███████▌  | 8148/10699 [1:24:53<21:01,  2.02it/s] 76%|███████▌  | 8149/10699 [1:24:54<21:01,  2.02it/s] 76%|███████▌  | 8150/10699 [1:24:54<20:59,  2.02it/s]{'loss': 3.6023, 'grad_norm': 0.20317476987838745, 'learning_rate': 0.00016316990736916264, 'epoch': 0.76}                                                      
- 76%|███████▌  | 8150/10699 [1:24:54<20:59,  2.02it/s] 76%|███████▌  | 8151/10699 [1:24:55<21:02,  2.02it/s] 76%|███████▌  | 8152/10699 [1:24:55<21:01,  2.02it/s] 76%|███████▌  | 8153/10699 [1:24:56<21:00,  2.02it/s] 76%|███████▌  | 8154/10699 [1:24:56<20:58,  2.02it/s] 76%|███████▌  | 8155/10699 [1:24:57<20:58,  2.02it/s] 76%|███████▌  | 8156/10699 [1:24:57<20:56,  2.02it/s] 76%|███████▌  | 8157/10699 [1:24:58<20:56,  2.02it/s] 76%|███████▋  | 8158/10699 [1:24:58<20:54,  2.03it/s] 76%|███████▋  | 8159/10699 [1:24:59<20:56,  2.02it/s] 76%|███████▋  | 8160/10699 [1:24:59<20:54,  2.02it/s] 76%|███████▋  | 8161/10699 [1:25:00<20:54,  2.02it/s] 76%|███████▋  | 8162/10699 [1:25:00<20:53,  2.02it/s] 76%|███████▋  | 8163/10699 [1:25:01<20:53,  2.02it/s] 76%|███████▋  | 8164/10699 [1:25:01<20:53,  2.02it/s] 76%|███████▋  | 8165/10699 [1:25:02<20:51,  2.02it/s] 76%|███████▋  | 8166/10699 [1:25:02<20:51,  2.02it/s] 76%|███████▋  | 8167/10699 [1:25:03<20:50,  2.02it/s] 76%|███████▋  | 8168/10699 [1:25:03<20:49,  2.02it/s] 76%|███████▋  | 8169/10699 [1:25:04<20:50,  2.02it/s] 76%|███████▋  | 8170/10699 [1:25:04<20:48,  2.03it/s] 76%|███████▋  | 8171/10699 [1:25:05<20:48,  2.02it/s] 76%|███████▋  | 8172/10699 [1:25:05<20:47,  2.03it/s] 76%|███████▋  | 8173/10699 [1:25:06<20:47,  2.02it/s] 76%|███████▋  | 8174/10699 [1:25:06<20:47,  2.02it/s] 76%|███████▋  | 8175/10699 [1:25:07<20:48,  2.02it/s]{'loss': 3.6059, 'grad_norm': 0.21281564235687256, 'learning_rate': 0.00016016711675118184, 'epoch': 0.76}                                                      
- 76%|███████▋  | 8175/10699 [1:25:07<20:48,  2.02it/s] 76%|███████▋  | 8176/10699 [1:25:07<20:47,  2.02it/s] 76%|███████▋  | 8177/10699 [1:25:08<20:46,  2.02it/s] 76%|███████▋  | 8178/10699 [1:25:08<20:44,  2.02it/s] 76%|███████▋  | 8179/10699 [1:25:09<20:44,  2.03it/s] 76%|███████▋  | 8180/10699 [1:25:09<20:44,  2.02it/s] 76%|███████▋  | 8181/10699 [1:25:10<20:43,  2.02it/s] 76%|███████▋  | 8182/10699 [1:25:10<20:43,  2.02it/s] 76%|███████▋  | 8183/10699 [1:25:11<20:42,  2.02it/s] 76%|███████▋  | 8184/10699 [1:25:11<20:43,  2.02it/s] 77%|███████▋  | 8185/10699 [1:25:12<20:41,  2.02it/s] 77%|███████▋  | 8186/10699 [1:25:12<20:41,  2.02it/s] 77%|███████▋  | 8187/10699 [1:25:13<20:40,  2.02it/s] 77%|███████▋  | 8188/10699 [1:25:13<20:40,  2.02it/s] 77%|███████▋  | 8189/10699 [1:25:14<20:40,  2.02it/s] 77%|███████▋  | 8190/10699 [1:25:14<20:39,  2.02it/s] 77%|███████▋  | 8191/10699 [1:25:15<20:40,  2.02it/s] 77%|███████▋  | 8192/10699 [1:25:15<20:40,  2.02it/s] 77%|███████▋  | 8193/10699 [1:25:16<20:38,  2.02it/s] 77%|███████▋  | 8194/10699 [1:25:16<20:38,  2.02it/s] 77%|███████▋  | 8195/10699 [1:25:17<20:36,  2.03it/s] 77%|███████▋  | 8196/10699 [1:25:17<20:35,  2.03it/s] 77%|███████▋  | 8197/10699 [1:25:18<20:35,  2.03it/s] 77%|███████▋  | 8198/10699 [1:25:18<20:33,  2.03it/s] 77%|███████▋  | 8199/10699 [1:25:19<20:34,  2.02it/s] 77%|███████▋  | 8200/10699 [1:25:19<20:31,  2.03it/s]                                                      {'loss': 3.6048, 'grad_norm': 0.19794604182243347, 'learning_rate': 0.00015718693508259298, 'epoch': 0.77}
- 77%|███████▋  | 8200/10699 [1:25:19<20:31,  2.03it/s] 77%|███████▋  | 8201/10699 [1:25:19<20:36,  2.02it/s] 77%|███████▋  | 8202/10699 [1:25:20<20:34,  2.02it/s] 77%|███████▋  | 8203/10699 [1:25:20<20:34,  2.02it/s] 77%|███████▋  | 8204/10699 [1:25:21<20:33,  2.02it/s] 77%|███████▋  | 8205/10699 [1:25:21<20:33,  2.02it/s] 77%|███████▋  | 8206/10699 [1:25:22<20:31,  2.02it/s] 77%|███████▋  | 8207/10699 [1:25:22<20:31,  2.02it/s] 77%|███████▋  | 8208/10699 [1:25:23<20:29,  2.03it/s] 77%|███████▋  | 8209/10699 [1:25:23<20:29,  2.03it/s] 77%|███████▋  | 8210/10699 [1:25:24<20:30,  2.02it/s] 77%|███████▋  | 8211/10699 [1:25:24<20:30,  2.02it/s] 77%|███████▋  | 8212/10699 [1:25:25<20:29,  2.02it/s] 77%|███████▋  | 8213/10699 [1:25:25<20:27,  2.03it/s] 77%|███████▋  | 8214/10699 [1:25:26<20:27,  2.02it/s] 77%|███████▋  | 8215/10699 [1:25:26<20:26,  2.03it/s] 77%|███████▋  | 8216/10699 [1:25:27<20:25,  2.03it/s] 77%|███████▋  | 8217/10699 [1:25:28<24:01,  1.72it/s] 77%|███████▋  | 8218/10699 [1:25:28<22:58,  1.80it/s] 77%|███████▋  | 8219/10699 [1:25:29<22:10,  1.86it/s] 77%|███████▋  | 8220/10699 [1:25:29<21:40,  1.91it/s] 77%|███████▋  | 8221/10699 [1:25:30<21:15,  1.94it/s] 77%|███████▋  | 8222/10699 [1:25:30<21:00,  1.96it/s] 77%|███████▋  | 8223/10699 [1:25:31<20:48,  1.98it/s] 77%|███████▋  | 8224/10699 [1:25:31<20:40,  1.99it/s] 77%|███████▋  | 8225/10699 [1:25:32<20:34,  2.00it/s]{'loss': 3.6061, 'grad_norm': 0.201440691947937, 'learning_rate': 0.00015422956063372212, 'epoch': 0.77}                                                      
- 77%|███████▋  | 8225/10699 [1:25:32<20:34,  2.00it/s] 77%|███████▋  | 8226/10699 [1:25:32<20:33,  2.00it/s] 77%|███████▋  | 8227/10699 [1:25:33<20:28,  2.01it/s] 77%|███████▋  | 8228/10699 [1:25:33<20:26,  2.01it/s] 77%|███████▋  | 8229/10699 [1:25:34<20:23,  2.02it/s] 77%|███████▋  | 8230/10699 [1:25:34<20:21,  2.02it/s] 77%|███████▋  | 8231/10699 [1:25:35<20:20,  2.02it/s] 77%|███████▋  | 8232/10699 [1:25:35<20:19,  2.02it/s] 77%|███████▋  | 8233/10699 [1:25:36<20:20,  2.02it/s] 77%|███████▋  | 8234/10699 [1:25:36<20:20,  2.02it/s] 77%|███████▋  | 8235/10699 [1:25:37<20:18,  2.02it/s] 77%|███████▋  | 8236/10699 [1:25:37<20:17,  2.02it/s] 77%|███████▋  | 8237/10699 [1:25:38<20:16,  2.02it/s] 77%|███████▋  | 8238/10699 [1:25:38<20:16,  2.02it/s] 77%|███████▋  | 8239/10699 [1:25:39<20:16,  2.02it/s] 77%|███████▋  | 8240/10699 [1:25:39<20:14,  2.03it/s] 77%|███████▋  | 8241/10699 [1:25:40<20:14,  2.02it/s] 77%|███████▋  | 8242/10699 [1:25:40<20:13,  2.03it/s] 77%|███████▋  | 8243/10699 [1:25:41<20:14,  2.02it/s] 77%|███████▋  | 8244/10699 [1:25:41<20:11,  2.03it/s] 77%|███████▋  | 8245/10699 [1:25:42<20:11,  2.03it/s] 77%|███████▋  | 8246/10699 [1:25:42<20:11,  2.03it/s] 77%|███████▋  | 8247/10699 [1:25:43<20:11,  2.02it/s] 77%|███████▋  | 8248/10699 [1:25:43<20:12,  2.02it/s] 77%|███████▋  | 8249/10699 [1:25:44<20:11,  2.02it/s] 77%|███████▋  | 8250/10699 [1:25:44<20:11,  2.02it/s]{'loss': 3.6018, 'grad_norm': 0.19926634430885315, 'learning_rate': 0.0001512951901575394, 'epoch': 0.77}                                                      
- 77%|███████▋  | 8250/10699 [1:25:44<20:11,  2.02it/s] 77%|███████▋  | 8251/10699 [1:25:45<20:12,  2.02it/s] 77%|███████▋  | 8252/10699 [1:25:45<20:11,  2.02it/s] 77%|███████▋  | 8253/10699 [1:25:46<23:31,  1.73it/s] 77%|███████▋  | 8254/10699 [1:25:46<22:29,  1.81it/s] 77%|███████▋  | 8255/10699 [1:25:47<21:47,  1.87it/s] 77%|███████▋  | 8256/10699 [1:25:47<21:15,  1.91it/s] 77%|███████▋  | 8257/10699 [1:25:48<20:56,  1.94it/s] 77%|███████▋  | 8258/10699 [1:25:48<20:40,  1.97it/s] 77%|███████▋  | 8259/10699 [1:25:49<20:31,  1.98it/s] 77%|███████▋  | 8260/10699 [1:25:49<20:23,  1.99it/s] 77%|███████▋  | 8261/10699 [1:25:50<20:17,  2.00it/s] 77%|███████▋  | 8262/10699 [1:25:50<20:12,  2.01it/s] 77%|███████▋  | 8263/10699 [1:25:51<20:08,  2.02it/s] 77%|███████▋  | 8264/10699 [1:25:51<20:06,  2.02it/s] 77%|███████▋  | 8265/10699 [1:25:52<20:04,  2.02it/s] 77%|███████▋  | 8266/10699 [1:25:52<20:02,  2.02it/s] 77%|███████▋  | 8267/10699 [1:25:53<20:02,  2.02it/s] 77%|███████▋  | 8268/10699 [1:25:53<20:03,  2.02it/s] 77%|███████▋  | 8269/10699 [1:25:54<20:02,  2.02it/s] 77%|███████▋  | 8270/10699 [1:25:54<20:01,  2.02it/s] 77%|███████▋  | 8271/10699 [1:25:55<20:00,  2.02it/s] 77%|███████▋  | 8272/10699 [1:25:55<20:00,  2.02it/s] 77%|███████▋  | 8273/10699 [1:25:56<19:58,  2.02it/s] 77%|███████▋  | 8274/10699 [1:25:56<19:58,  2.02it/s] 77%|███████▋  | 8275/10699 [1:25:57<19:57,  2.02it/s]{'loss': 3.6089, 'grad_norm': 0.20231680572032928, 'learning_rate': 0.00014838401887657033, 'epoch': 0.77}
-                                                       77%|███████▋  | 8275/10699 [1:25:57<19:57,  2.02it/s] 77%|███████▋  | 8276/10699 [1:25:57<19:58,  2.02it/s] 77%|███████▋  | 8277/10699 [1:25:58<19:58,  2.02it/s] 77%|███████▋  | 8278/10699 [1:25:58<19:56,  2.02it/s] 77%|███████▋  | 8279/10699 [1:25:59<19:56,  2.02it/s] 77%|███████▋  | 8280/10699 [1:25:59<19:54,  2.02it/s] 77%|███████▋  | 8281/10699 [1:26:00<19:55,  2.02it/s] 77%|███████▋  | 8282/10699 [1:26:00<19:52,  2.03it/s] 77%|███████▋  | 8283/10699 [1:26:01<19:51,  2.03it/s] 77%|███████▋  | 8284/10699 [1:26:01<19:51,  2.03it/s] 77%|███████▋  | 8285/10699 [1:26:02<19:51,  2.03it/s] 77%|███████▋  | 8286/10699 [1:26:02<19:51,  2.02it/s] 77%|███████▋  | 8287/10699 [1:26:03<19:51,  2.03it/s] 77%|███████▋  | 8288/10699 [1:26:03<19:51,  2.02it/s] 77%|███████▋  | 8289/10699 [1:26:04<19:50,  2.03it/s] 77%|███████▋  | 8290/10699 [1:26:04<19:50,  2.02it/s] 77%|███████▋  | 8291/10699 [1:26:05<19:49,  2.02it/s] 78%|███████▊  | 8292/10699 [1:26:05<19:49,  2.02it/s] 78%|███████���  | 8293/10699 [1:26:06<19:48,  2.02it/s] 78%|███████▊  | 8294/10699 [1:26:06<19:48,  2.02it/s] 78%|███████▊  | 8295/10699 [1:26:07<19:46,  2.03it/s] 78%|███████▊  | 8296/10699 [1:26:07<19:46,  2.03it/s] 78%|███████▊  | 8297/10699 [1:26:08<19:45,  2.03it/s] 78%|███████▊  | 8298/10699 [1:26:08<19:45,  2.03it/s] 78%|███████▊  | 8299/10699 [1:26:08<19:45,  2.02it/s] 78%|███████▊  | 8300/10699 [1:26:09<19:44,  2.02it/s]                                                      {'loss': 3.6004, 'grad_norm': 0.21079285442829132, 'learning_rate': 0.00014549624046990623, 'epoch': 0.78}
- 78%|███████▊  | 8300/10699 [1:26:09<19:44,  2.02it/s] 78%|███████▊  | 8301/10699 [1:26:09<19:47,  2.02it/s] 78%|███████▊  | 8302/10699 [1:26:10<19:44,  2.02it/s] 78%|███████▊  | 8303/10699 [1:26:10<19:44,  2.02it/s] 78%|███████▊  | 8304/10699 [1:26:11<19:43,  2.02it/s] 78%|███████▊  | 8305/10699 [1:26:11<19:42,  2.02it/s] 78%|███████▊  | 8306/10699 [1:26:12<19:42,  2.02it/s] 78%|███████▊  | 8307/10699 [1:26:12<19:42,  2.02it/s] 78%|███████▊  | 8308/10699 [1:26:13<19:41,  2.02it/s] 78%|███████▊  | 8309/10699 [1:26:13<19:40,  2.02it/s] 78%|███████▊  | 8310/10699 [1:26:14<19:40,  2.02it/s] 78%|███████▊  | 8311/10699 [1:26:14<19:39,  2.02it/s] 78%|███████▊  | 8312/10699 [1:26:15<19:38,  2.03it/s] 78%|███████▊  | 8313/10699 [1:26:15<19:38,  2.02it/s] 78%|███████▊  | 8314/10699 [1:26:16<19:38,  2.02it/s] 78%|███████▊  | 8315/10699 [1:26:16<19:36,  2.03it/s] 78%|███████▊  | 8316/10699 [1:26:17<19:36,  2.02it/s] 78%|███████▊  | 8317/10699 [1:26:17<19:34,  2.03it/s] 78%|███████▊  | 8318/10699 [1:26:18<19:37,  2.02it/s] 78%|███████▊  | 8319/10699 [1:26:18<19:35,  2.03it/s] 78%|███████▊  | 8320/10699 [1:26:19<19:34,  2.03it/s] 78%|███████▊  | 8321/10699 [1:26:19<19:34,  2.02it/s] 78%|███████▊  | 8322/10699 [1:26:20<19:33,  2.03it/s] 78%|███████▊  | 8323/10699 [1:26:20<19:33,  2.02it/s] 78%|███████▊  | 8324/10699 [1:26:21<19:32,  2.02it/s] 78%|███████▊  | 8325/10699 [1:26:21<19:31,  2.03it/s]                                                      {'loss': 3.5993, 'grad_norm': 0.204502671957016, 'learning_rate': 0.00014263204706032023, 'epoch': 0.78}
- 78%|███████▊  | 8325/10699 [1:26:21<19:31,  2.03it/s] 78%|███████▊  | 8326/10699 [1:26:22<19:33,  2.02it/s] 78%|███████▊  | 8327/10699 [1:26:22<19:31,  2.02it/s] 78%|███████▊  | 8328/10699 [1:26:23<19:32,  2.02it/s] 78%|███████▊  | 8329/10699 [1:26:23<19:30,  2.02it/s] 78%|███████▊  | 8330/10699 [1:26:24<19:31,  2.02it/s] 78%|███████▊  | 8331/10699 [1:26:24<19:29,  2.02it/s] 78%|███████▊  | 8332/10699 [1:26:25<19:30,  2.02it/s] 78%|███████▊  | 8333/10699 [1:26:25<19:28,  2.02it/s] 78%|███████▊  | 8334/10699 [1:26:26<19:29,  2.02it/s] 78%|███████▊  | 8335/10699 [1:26:26<19:28,  2.02it/s] 78%|███████▊  | 8336/10699 [1:26:27<19:29,  2.02it/s] 78%|███████▊  | 8337/10699 [1:26:27<19:27,  2.02it/s] 78%|███████▊  | 8338/10699 [1:26:28<19:28,  2.02it/s] 78%|███████▊  | 8339/10699 [1:26:28<19:26,  2.02it/s] 78%|███████▊  | 8340/10699 [1:26:29<19:25,  2.02it/s] 78%|███████▊  | 8341/10699 [1:26:29<19:25,  2.02it/s] 78%|███████▊  | 8342/10699 [1:26:30<19:24,  2.02it/s] 78%|███████▊  | 8343/10699 [1:26:30<19:23,  2.02it/s] 78%|███████▊  | 8344/10699 [1:26:31<19:22,  2.03it/s] 78%|███████▊  | 8345/10699 [1:26:31<19:22,  2.03it/s] 78%|███████▊  | 8346/10699 [1:26:32<19:20,  2.03it/s] 78%|███████▊  | 8347/10699 [1:26:32<19:21,  2.03it/s] 78%|███████▊  | 8348/10699 [1:26:33<19:21,  2.02it/s] 78%|███████▊  | 8349/10699 [1:26:33<19:22,  2.02it/s] 78%|███████▊  | 8350/10699 [1:26:34<19:21,  2.02it/s]                                                      {'loss': 3.6014, 'grad_norm': 0.19661371409893036, 'learning_rate': 0.00013979162920148475, 'epoch': 0.78}
- 78%|███████▊  | 8350/10699 [1:26:34<19:21,  2.02it/s] 78%|███████▊  | 8351/10699 [1:26:34<19:22,  2.02it/s] 78%|███████▊  | 8352/10699 [1:26:35<19:20,  2.02it/s] 78%|███████▊  | 8353/10699 [1:26:35<19:19,  2.02it/s] 78%|███████▊  | 8354/10699 [1:26:36<19:18,  2.02it/s] 78%|███████▊  | 8355/10699 [1:26:36<19:16,  2.03it/s] 78%|███████▊  | 8356/10699 [1:26:37<19:17,  2.02it/s] 78%|███████▊  | 8357/10699 [1:26:37<19:15,  2.03it/s] 78%|███████▊  | 8358/10699 [1:26:38<19:16,  2.03it/s] 78%|███████▊  | 8359/10699 [1:26:38<19:15,  2.02it/s] 78%|███████▊  | 8360/10699 [1:26:39<19:16,  2.02it/s] 78%|███████▊  | 8361/10699 [1:26:39<19:14,  2.03it/s] 78%|███████▊  | 8362/10699 [1:26:40<19:13,  2.03it/s] 78%|███████▊  | 8363/10699 [1:26:40<19:13,  2.03it/s] 78%|███████▊  | 8364/10699 [1:26:41<19:12,  2.03it/s] 78%|███████▊  | 8365/10699 [1:26:41<19:13,  2.02it/s] 78%|███████▊  | 8366/10699 [1:26:42<19:13,  2.02it/s] 78%|███████▊  | 8367/10699 [1:26:42<19:13,  2.02it/s] 78%|███████▊  | 8368/10699 [1:26:43<19:11,  2.02it/s] 78%|███████▊  | 8369/10699 [1:26:43<19:12,  2.02it/s] 78%|███████▊  | 8370/10699 [1:26:44<19:11,  2.02it/s] 78%|███████▊  | 8371/10699 [1:26:44<19:11,  2.02it/s] 78%|███████▊  | 8372/10699 [1:26:45<19:09,  2.02it/s] 78%|███████▊  | 8373/10699 [1:26:45<19:09,  2.02it/s] 78%|███████▊  | 8374/10699 [1:26:46<19:08,  2.02it/s] 78%|███████▊  | 8375/10699 [1:26:46<19:08,  2.02it/s]                                                      {'loss': 3.5994, 'grad_norm': 0.20259737968444824, 'learning_rate': 0.00013697517586529345, 'epoch': 0.78}
- 78%|███████▊  | 8375/10699 [1:26:46<19:08,  2.02it/s] 78%|███████▊  | 8376/10699 [1:26:47<19:09,  2.02it/s] 78%|███████▊  | 8377/10699 [1:26:47<19:08,  2.02it/s] 78%|███████▊  | 8378/10699 [1:26:48<19:07,  2.02it/s] 78%|███████▊  | 8379/10699 [1:26:48<19:06,  2.02it/s] 78%|███████▊  | 8380/10699 [1:26:49<19:06,  2.02it/s] 78%|███████▊  | 8381/10699 [1:26:49<19:05,  2.02it/s] 78%|███████▊  | 8382/10699 [1:26:50<19:05,  2.02it/s] 78%|███████▊  | 8383/10699 [1:26:50<19:04,  2.02it/s] 78%|███████▊  | 8384/10699 [1:26:50<19:04,  2.02it/s] 78%|███████▊  | 8385/10699 [1:26:51<19:05,  2.02it/s] 78%|███████▊  | 8386/10699 [1:26:51<19:05,  2.02it/s] 78%|███████▊  | 8387/10699 [1:26:52<19:04,  2.02it/s] 78%|███████▊  | 8388/10699 [1:26:52<19:04,  2.02it/s] 78%|███████▊  | 8389/10699 [1:26:53<19:02,  2.02it/s] 78%|███████▊  | 8390/10699 [1:26:53<19:03,  2.02it/s] 78%|███████▊  | 8391/10699 [1:26:54<19:01,  2.02it/s] 78%|███████▊  | 8392/10699 [1:26:54<19:00,  2.02it/s] 78%|███████▊  | 8393/10699 [1:26:55<18:59,  2.02it/s] 78%|███████▊  | 8394/10699 [1:26:55<18:58,  2.02it/s] 78%|███████▊  | 8395/10699 [1:26:56<18:59,  2.02it/s] 78%|███████▊  | 8396/10699 [1:26:56<18:57,  2.02it/s] 78%|███████▊  | 8397/10699 [1:26:57<18:57,  2.02it/s] 78%|███████▊  | 8398/10699 [1:26:57<18:56,  2.02it/s] 79%|███████▊  | 8399/10699 [1:26:58<18:56,  2.02it/s] 79%|███████▊  | 8400/10699 [1:26:58<18:55,  2.02it/s]{'loss': 3.5961, 'grad_norm': 0.20048005878925323, 'learning_rate': 0.00013418287442929045, 'epoch': 0.79}
-                                                       79%|███████▊  | 8400/10699 [1:26:58<18:55,  2.02it/s] 79%|███████▊  | 8401/10699 [1:26:59<18:55,  2.02it/s] 79%|███████▊  | 8402/10699 [1:26:59<18:55,  2.02it/s] 79%|███████▊  | 8403/10699 [1:27:00<18:53,  2.02it/s] 79%|███████▊  | 8404/10699 [1:27:00<18:54,  2.02it/s] 79%|███████▊  | 8405/10699 [1:27:01<18:52,  2.03it/s] 79%|███████▊  | 8406/10699 [1:27:01<18:53,  2.02it/s] 79%|███████▊  | 8407/10699 [1:27:02<18:53,  2.02it/s] 79%|███████▊  | 8408/10699 [1:27:02<18:52,  2.02it/s] 79%|███████▊  | 8409/10699 [1:27:03<18:51,  2.02it/s] 79%|███████▊  | 8410/10699 [1:27:03<18:49,  2.03it/s] 79%|███████▊  | 8411/10699 [1:27:04<18:51,  2.02it/s] 79%|███████▊  | 8412/10699 [1:27:04<18:49,  2.02it/s] 79%|███████▊  | 8413/10699 [1:27:05<18:51,  2.02it/s] 79%|███████▊  | 8414/10699 [1:27:05<18:50,  2.02it/s] 79%|███████▊  | 8415/10699 [1:27:06<18:51,  2.02it/s] 79%|███████▊  | 8416/10699 [1:27:06<18:49,  2.02it/s] 79%|███████▊  | 8417/10699 [1:27:07<18:49,  2.02it/s] 79%|███████▊  | 8418/10699 [1:27:07<18:47,  2.02it/s] 79%|███████▊  | 8419/10699 [1:27:08<18:47,  2.02it/s] 79%|███████▊  | 8420/10699 [1:27:08<18:46,  2.02it/s] 79%|���██████▊  | 8421/10699 [1:27:09<18:45,  2.02it/s] 79%|███████▊  | 8422/10699 [1:27:09<18:44,  2.02it/s] 79%|███████▊  | 8423/10699 [1:27:10<18:45,  2.02it/s] 79%|███████▊  | 8424/10699 [1:27:10<18:44,  2.02it/s] 79%|███████▊  | 8425/10699 [1:27:11<18:45,  2.02it/s]                                                      {'loss': 3.599, 'grad_norm': 0.20472073554992676, 'learning_rate': 0.00013141491066420263, 'epoch': 0.79}
- 79%|███████▊  | 8425/10699 [1:27:11<18:45,  2.02it/s] 79%|███████▉  | 8426/10699 [1:27:11<18:46,  2.02it/s] 79%|███████▉  | 8427/10699 [1:27:12<18:44,  2.02it/s] 79%|███████▉  | 8428/10699 [1:27:12<18:42,  2.02it/s] 79%|███████▉  | 8429/10699 [1:27:13<18:41,  2.02it/s] 79%|███████▉  | 8430/10699 [1:27:13<18:41,  2.02it/s] 79%|███████▉  | 8431/10699 [1:27:14<18:41,  2.02it/s] 79%|███████▉  | 8432/10699 [1:27:14<18:39,  2.02it/s] 79%|███████▉  | 8433/10699 [1:27:15<18:38,  2.03it/s] 79%|███████▉  | 8434/10699 [1:27:15<18:39,  2.02it/s] 79%|███████▉  | 8435/10699 [1:27:16<18:37,  2.03it/s] 79%|███████▉  | 8436/10699 [1:27:16<18:38,  2.02it/s] 79%|███████▉  | 8437/10699 [1:27:17<18:37,  2.03it/s] 79%|███████▉  | 8438/10699 [1:27:17<18:36,  2.02it/s] 79%|███████▉  | 8439/10699 [1:27:18<18:35,  2.03it/s] 79%|███████▉  | 8440/10699 [1:27:18<18:34,  2.03it/s] 79%|███████▉  | 8441/10699 [1:27:19<18:34,  2.03it/s] 79%|███████▉  | 8442/10699 [1:27:19<18:32,  2.03it/s] 79%|███████▉  | 8443/10699 [1:27:20<18:34,  2.03it/s] 79%|███████▉  | 8444/10699 [1:27:20<18:32,  2.03it/s] 79%|███████▉  | 8445/10699 [1:27:21<18:32,  2.03it/s] 79%|███████▉  | 8446/10699 [1:27:21<18:33,  2.02it/s] 79%|███████▉  | 8447/10699 [1:27:22<18:33,  2.02it/s] 79%|███████▉  | 8448/10699 [1:27:22<18:34,  2.02it/s] 79%|███████▉  | 8449/10699 [1:27:23<18:33,  2.02it/s] 79%|███████▉  | 8450/10699 [1:27:23<18:31,  2.02it/s]{'loss': 3.5946, 'grad_norm': 0.2008541226387024, 'learning_rate': 0.00012867146872158175, 'epoch': 0.79}
-                                                       79%|███████▉  | 8450/10699 [1:27:23<18:31,  2.02it/s] 79%|███████▉  | 8451/10699 [1:27:24<18:32,  2.02it/s] 79%|███████▉  | 8452/10699 [1:27:24<18:31,  2.02it/s] 79%|███████▉  | 8453/10699 [1:27:25<18:31,  2.02it/s] 79%|███████▉  | 8454/10699 [1:27:25<18:30,  2.02it/s] 79%|███████▉  | 8455/10699 [1:27:26<18:30,  2.02it/s] 79%|███████▉  | 8456/10699 [1:27:26<18:29,  2.02it/s] 79%|███████▉  | 8457/10699 [1:27:27<18:27,  2.02it/s] 79%|███████▉  | 8458/10699 [1:27:27<18:28,  2.02it/s] 79%|███████▉  | 8459/10699 [1:27:28<18:26,  2.02it/s] 79%|███████▉  | 8460/10699 [1:27:28<18:25,  2.03it/s] 79%|███████▉  | 8461/10699 [1:27:29<18:24,  2.03it/s] 79%|███████▉  | 8462/10699 [1:27:29<18:22,  2.03it/s] 79%|███████▉  | 8463/10699 [1:27:30<18:24,  2.02it/s] 79%|███████▉  | 8464/10699 [1:27:30<18:23,  2.03it/s] 79%|███████▉  | 8465/10699 [1:27:31<18:23,  2.02it/s] 79%|███████▉  | 8466/10699 [1:27:31<18:22,  2.03it/s] 79%|███████▉  | 8467/10699 [1:27:32<18:22,  2.02it/s] 79%|███████▉  | 8468/10699 [1:27:32<18:21,  2.03it/s] 79%|███████▉  | 8469/10699 [1:27:33<18:20,  2.03it/s] 79%|███████▉  | 8470/10699 [1:27:33<18:20,  2.02it/s] 79%|███████▉  | 8471/10699 [1:27:33<18:18,  2.03it/s] 79%|███████▉  | 8472/10699 [1:27:34<18:19,  2.03it/s] 79%|███████▉  | 8473/10699 [1:27:34<18:18,  2.03it/s] 79%|███████▉  | 8474/10699 [1:27:35<18:19,  2.02it/s] 79%|███████▉  | 8475/10699 [1:27:35<18:18,  2.02it/s]                                                      {'loss': 3.5934, 'grad_norm': 0.202534019947052, 'learning_rate': 0.00012595273112155165, 'epoch': 0.79}
- 79%|███████▉  | 8475/10699 [1:27:35<18:18,  2.02it/s] 79%|███████▉  | 8476/10699 [1:27:36<18:19,  2.02it/s] 79%|███████▉  | 8477/10699 [1:27:36<18:18,  2.02it/s] 79%|███████▉  | 8478/10699 [1:27:37<18:16,  2.03it/s] 79%|███████▉  | 8479/10699 [1:27:37<18:16,  2.02it/s] 79%|███████▉  | 8480/10699 [1:27:38<18:14,  2.03it/s] 79%|███████▉  | 8481/10699 [1:27:38<18:15,  2.02it/s] 79%|███████▉  | 8482/10699 [1:27:39<18:13,  2.03it/s] 79%|███████▉  | 8483/10699 [1:27:39<18:14,  2.03it/s] 79%|███████▉  | 8484/10699 [1:27:40<18:13,  2.03it/s] 79%|███████▉  | 8485/10699 [1:27:40<18:13,  2.02it/s] 79%|███████▉  | 8486/10699 [1:27:41<18:12,  2.03it/s] 79%|███████▉  | 8487/10699 [1:27:41<18:11,  2.03it/s] 79%|███████▉  | 8488/10699 [1:27:42<18:12,  2.02it/s] 79%|███████▉  | 8489/10699 [1:27:42<18:10,  2.03it/s] 79%|███████▉  | 8490/10699 [1:27:43<18:10,  2.03it/s] 79%|███████▉  | 8491/10699 [1:27:43<18:08,  2.03it/s] 79%|███████▉  | 8492/10699 [1:27:44<18:08,  2.03it/s] 79%|███████▉  | 8493/10699 [1:27:44<18:09,  2.02it/s] 79%|███████▉  | 8494/10699 [1:27:45<18:07,  2.03it/s] 79%|███████▉  | 8495/10699 [1:27:45<18:09,  2.02it/s] 79%|███████▉  | 8496/10699 [1:27:46<18:08,  2.02it/s] 79%|███████▉  | 8497/10699 [1:27:46<18:08,  2.02it/s] 79%|███████▉  | 8498/10699 [1:27:47<18:07,  2.02it/s] 79%|███████▉  | 8499/10699 [1:27:47<18:08,  2.02it/s] 79%|███████▉  | 8500/10699 [1:27:48<18:06,  2.02it/s]{'loss': 3.6006, 'grad_norm': 0.20087561011314392, 'learning_rate': 0.0001232588787406664, 'epoch': 0.79}
-                                                       79%|███████▉  | 8500/10699 [1:27:48<18:06,  2.02it/s] 79%|███████▉  | 8501/10699 [1:27:48<18:08,  2.02it/s] 79%|███████▉  | 8502/10699 [1:27:49<18:06,  2.02it/s] 79%|███████▉  | 8503/10699 [1:27:49<18:07,  2.02it/s] 79%|███████▉  | 8504/10699 [1:27:50<18:05,  2.02it/s] 79%|███████▉  | 8505/10699 [1:27:50<18:05,  2.02it/s] 80%|███████▉  | 8506/10699 [1:27:51<18:03,  2.02it/s] 80%|███████▉  | 8507/10699 [1:27:51<18:03,  2.02it/s] 80%|███████▉  | 8508/10699 [1:27:52<18:02,  2.02it/s] 80%|███████▉  | 8509/10699 [1:27:52<18:04,  2.02it/s] 80%|███████▉  | 8510/10699 [1:27:53<18:02,  2.02it/s] 80%|███████▉  | 8511/10699 [1:27:53<18:02,  2.02it/s] 80%|███████▉  | 8512/10699 [1:27:54<18:00,  2.02it/s] 80%|███████▉  | 8513/10699 [1:27:54<18:00,  2.02it/s] 80%|███████▉  | 8514/10699 [1:27:55<17:59,  2.02it/s] 80%|███████▉  | 8515/10699 [1:27:55<18:00,  2.02it/s] 80%|███████▉  | 8516/10699 [1:27:56<17:59,  2.02it/s] 80%|███████▉  | 8517/10699 [1:27:56<17:58,  2.02it/s] 80%|███████▉  | 8518/10699 [1:27:57<17:58,  2.02it/s] 80%|███████▉  | 8519/10699 [1:27:57<17:56,  2.02it/s] 80%|███████▉  | 8520/10699 [1:27:58<17:56,  2.02it/s] 80%|███████▉  | 8521/10699 [1:27:58<17:56,  2.02it/s] 80%|███████▉  | 8522/10699 [1:27:59<17:55,  2.02it/s] 80%|███████▉  | 8523/10699 [1:27:59<17:56,  2.02it/s] 80%|███████▉  | 8524/10699 [1:28:00<17:55,  2.02it/s] 80%|███████▉  | 8525/10699 [1:28:00<17:54,  2.02it/s]                                                      {'loss': 3.5986, 'grad_norm': 0.20282472670078278, 'learning_rate': 0.00012059009079987593, 'epoch': 0.8}
- 80%|███████▉  | 8525/10699 [1:28:00<17:54,  2.02it/s] 80%|███████▉  | 8526/10699 [1:28:01<17:55,  2.02it/s] 80%|███████▉  | 8527/10699 [1:28:01<17:55,  2.02it/s] 80%|███████▉  | 8528/10699 [1:28:02<17:53,  2.02it/s] 80%|███████▉  | 8529/10699 [1:28:02<17:53,  2.02it/s] 80%|███████▉  | 8530/10699 [1:28:03<17:51,  2.02it/s] 80%|███████▉  | 8531/10699 [1:28:03<17:53,  2.02it/s] 80%|███████▉  | 8532/10699 [1:28:04<17:51,  2.02it/s] 80%|███████▉  | 8533/10699 [1:28:04<17:51,  2.02it/s] 80%|███████▉  | 8534/10699 [1:28:05<17:50,  2.02it/s] 80%|███████▉  | 8535/10699 [1:28:05<17:50,  2.02it/s] 80%|███████▉  | 8536/10699 [1:28:06<17:49,  2.02it/s] 80%|███████▉  | 8537/10699 [1:28:06<17:48,  2.02it/s] 80%|███████▉  | 8538/10699 [1:28:07<17:48,  2.02it/s] 80%|███████▉  | 8539/10699 [1:28:07<17:46,  2.02it/s] 80%|███████▉  | 8540/10699 [1:28:08<17:47,  2.02it/s] 80%|███████▉  | 8541/10699 [1:28:08<17:46,  2.02it/s] 80%|███████▉  | 8542/10699 [1:28:09<17:46,  2.02it/s] 80%|███████▉  | 8543/10699 [1:28:09<17:45,  2.02it/s] 80%|███████▉  | 8544/10699 [1:28:10<17:45,  2.02it/s] 80%|███████▉  | 8545/10699 [1:28:10<17:44,  2.02it/s] 80%|███████▉  | 8546/10699 [1:28:11<17:42,  2.03it/s] 80%|███████▉  | 8547/10699 [1:28:11<17:44,  2.02it/s] 80%|███████▉  | 8548/10699 [1:28:12<17:42,  2.02it/s] 80%|███████▉  | 8549/10699 [1:28:12<17:42,  2.02it/s] 80%|███████▉  | 8550/10699 [1:28:13<17:41,  2.03it/s]{'loss': 3.5865, 'grad_norm': 0.19850416481494904, 'learning_rate': 0.00011794654485260253, 'epoch': 0.8}                                                      
- 80%|███████▉  | 8550/10699 [1:28:13<17:41,  2.03it/s] 80%|███████▉  | 8551/10699 [1:28:13<17:42,  2.02it/s] 80%|███████▉  | 8552/10699 [1:28:14<17:41,  2.02it/s] 80%|███████▉  | 8553/10699 [1:28:14<17:41,  2.02it/s] 80%|███████▉  | 8554/10699 [1:28:15<17:40,  2.02it/s] 80%|███████▉  | 8555/10699 [1:28:15<17:40,  2.02it/s] 80%|███████▉  | 8556/10699 [1:28:16<17:40,  2.02it/s] 80%|███████▉  | 8557/10699 [1:28:16<17:40,  2.02it/s] 80%|███████▉  | 8558/10699 [1:28:16<17:39,  2.02it/s] 80%|███████▉  | 8559/10699 [1:28:17<17:38,  2.02it/s] 80%|████████  | 8560/10699 [1:28:17<17:37,  2.02it/s] 80%|████████  | 8561/10699 [1:28:18<17:36,  2.02it/s] 80%|████████  | 8562/10699 [1:28:18<17:36,  2.02it/s] 80%|████████  | 8563/10699 [1:28:19<17:35,  2.02it/s] 80%|████████  | 8564/10699 [1:28:19<17:35,  2.02it/s] 80%|████████  | 8565/10699 [1:28:20<17:33,  2.02it/s] 80%|████████  | 8566/10699 [1:28:20<17:33,  2.03it/s] 80%|████████  | 8567/10699 [1:28:21<17:33,  2.02it/s] 80%|████████  | 8568/10699 [1:28:21<17:32,  2.03it/s] 80%|████████  | 8569/10699 [1:28:22<17:31,  2.03it/s] 80%|████████  | 8570/10699 [1:28:22<17:30,  2.03it/s] 80%|████████  | 8571/10699 [1:28:23<17:32,  2.02it/s] 80%|████████  | 8572/10699 [1:28:23<17:32,  2.02it/s] 80%|████████  | 8573/10699 [1:28:24<17:32,  2.02it/s] 80%|████████  | 8574/10699 [1:28:24<17:30,  2.02it/s] 80%|████████  | 8575/10699 [1:28:25<17:31,  2.02it/s]{'loss': 3.5909, 'grad_norm': 0.19964571297168732, 'learning_rate': 0.00011532841677292898, 'epoch': 0.8}                                                      
- 80%|████████  | 8575/10699 [1:28:25<17:31,  2.02it/s] 80%|████████  | 8576/10699 [1:28:25<17:31,  2.02it/s] 80%|████████  | 8577/10699 [1:28:26<17:30,  2.02it/s] 80%|████████  | 8578/10699 [1:28:26<17:28,  2.02it/s] 80%|████████  | 8579/10699 [1:28:27<17:29,  2.02it/s] 80%|████████  | 8580/10699 [1:28:27<17:27,  2.02it/s] 80%|████████  | 8581/10699 [1:28:28<17:27,  2.02it/s] 80%|████████  | 8582/10699 [1:28:28<17:25,  2.02it/s] 80%|████████  | 8583/10699 [1:28:29<17:25,  2.02it/s] 80%|████████  | 8584/10699 [1:28:29<17:25,  2.02it/s] 80%|████████  | 8585/10699 [1:28:30<17:24,  2.02it/s] 80%|████████  | 8586/10699 [1:28:30<17:25,  2.02it/s] 80%|████████  | 8587/10699 [1:28:31<17:24,  2.02it/s] 80%|████████  | 8588/10699 [1:28:31<17:24,  2.02it/s] 80%|████████  | 8589/10699 [1:28:32<17:22,  2.02it/s] 80%|████████  | 8590/10699 [1:28:32<17:23,  2.02it/s] 80%|████████  | 8591/10699 [1:28:33<17:22,  2.02it/s] 80%|████████  | 8592/10699 [1:28:33<17:19,  2.03it/s] 80%|████████  | 8593/10699 [1:28:34<17:21,  2.02it/s] 80%|████████  | 8594/10699 [1:28:34<17:20,  2.02it/s] 80%|████████  | 8595/10699 [1:28:35<17:19,  2.02it/s] 80%|████████  | 8596/10699 [1:28:35<17:19,  2.02it/s] 80%|████████  | 8597/10699 [1:28:36<17:18,  2.02it/s] 80%|████████  | 8598/10699 [1:28:36<17:18,  2.02it/s] 80%|████████  | 8599/10699 [1:28:37<17:18,  2.02it/s] 80%|████████  | 8600/10699 [1:28:37<17:17,  2.02it/s]                                                      {'loss': 3.59, 'grad_norm': 0.19965395331382751, 'learning_rate': 0.00011273588074389657, 'epoch': 0.8}
- 80%|████████  | 8600/10699 [1:28:37<17:17,  2.02it/s] 80%|████████  | 8601/10699 [1:28:38<17:18,  2.02it/s] 80%|████████  | 8602/10699 [1:28:38<17:17,  2.02it/s] 80%|████████  | 8603/10699 [1:28:39<17:17,  2.02it/s] 80%|████████  | 8604/10699 [1:28:39<17:15,  2.02it/s] 80%|████████  | 8605/10699 [1:28:40<17:15,  2.02it/s] 80%|████████  | 8606/10699 [1:28:40<17:14,  2.02it/s] 80%|████████  | 8607/10699 [1:28:41<17:14,  2.02it/s] 80%|████████  | 8608/10699 [1:28:41<17:12,  2.02it/s] 80%|████████  | 8609/10699 [1:28:42<17:13,  2.02it/s] 80%|████████  | 8610/10699 [1:28:42<17:11,  2.02it/s] 80%|��███████  | 8611/10699 [1:28:43<17:12,  2.02it/s] 80%|████████  | 8612/10699 [1:28:43<17:14,  2.02it/s] 81%|████████  | 8613/10699 [1:28:44<17:16,  2.01it/s] 81%|████████  | 8614/10699 [1:28:44<17:14,  2.02it/s] 81%|████████  | 8615/10699 [1:28:45<17:12,  2.02it/s] 81%|████████  | 8616/10699 [1:28:45<17:10,  2.02it/s] 81%|████████  | 8617/10699 [1:28:46<17:09,  2.02it/s] 81%|████████  | 8618/10699 [1:28:46<17:07,  2.02it/s] 81%|████████  | 8619/10699 [1:28:47<17:09,  2.02it/s] 81%|████████  | 8620/10699 [1:28:47<17:07,  2.02it/s] 81%|████████  | 8621/10699 [1:28:48<17:07,  2.02it/s] 81%|████████  | 8622/10699 [1:28:48<17:06,  2.02it/s] 81%|████████  | 8623/10699 [1:28:49<17:07,  2.02it/s] 81%|████████  | 8624/10699 [1:28:49<17:05,  2.02it/s] 81%|████████  | 8625/10699 [1:28:50<17:06,  2.02it/s]{'loss': 3.5983, 'grad_norm': 0.1960369199514389, 'learning_rate': 0.00011016910924591794, 'epoch': 0.81}
-                                                       81%|████████  | 8625/10699 [1:28:50<17:06,  2.02it/s] 81%|████████  | 8626/10699 [1:28:50<17:06,  2.02it/s] 81%|████████  | 8627/10699 [1:28:51<17:06,  2.02it/s] 81%|████████  | 8628/10699 [1:28:51<17:03,  2.02it/s] 81%|████████  | 8629/10699 [1:28:52<17:03,  2.02it/s] 81%|████████  | 8630/10699 [1:28:52<17:02,  2.02it/s] 81%|████████  | 8631/10699 [1:28:53<17:02,  2.02it/s] 81%|████████  | 8632/10699 [1:28:53<17:01,  2.02it/s] 81%|████████  | 8633/10699 [1:28:54<17:00,  2.02it/s] 81%|████████  | 8634/10699 [1:28:54<17:01,  2.02it/s] 81%|████████  | 8635/10699 [1:28:55<16:59,  2.02it/s] 81%|████████  | 8636/10699 [1:28:55<16:59,  2.02it/s] 81%|████████  | 8637/10699 [1:28:56<16:57,  2.03it/s] 81%|████████  | 8638/10699 [1:28:56<16:58,  2.02it/s] 81%|████████  | 8639/10699 [1:28:57<16:57,  2.03it/s] 81%|████████  | 8640/10699 [1:28:57<16:57,  2.02it/s] 81%|████████  | 8641/10699 [1:28:58<16:56,  2.03it/s] 81%|████████  | 8642/10699 [1:28:58<16:55,  2.03it/s] 81%|████████  | 8643/10699 [1:28:59<16:55,  2.02it/s] 81%|████████  | 8644/10699 [1:28:59<16:56,  2.02it/s] 81%|████████  | 8645/10699 [1:29:00<16:55,  2.02it/s] 81%|████████  | 8646/10699 [1:29:00<16:55,  2.02it/s] 81%|████████  | 8647/10699 [1:29:00<16:54,  2.02it/s] 81%|████████  | 8648/10699 [1:29:01<16:53,  2.02it/s] 81%|████████  | 8649/10699 [1:29:01<16:54,  2.02it/s] 81%|████████  | 8650/10699 [1:29:02<16:53,  2.02it/s]{'loss': 3.5924, 'grad_norm': 0.19898241758346558, 'learning_rate': 0.00010762827304530154, 'epoch': 0.81}
-                                                       81%|████████  | 8650/10699 [1:29:02<16:53,  2.02it/s] 81%|████████  | 8651/10699 [1:29:02<16:54,  2.02it/s] 81%|████████  | 8652/10699 [1:29:03<16:53,  2.02it/s] 81%|████████  | 8653/10699 [1:29:03<16:52,  2.02it/s] 81%|████████  | 8654/10699 [1:29:04<16:51,  2.02it/s] 81%|████████  | 8655/10699 [1:29:04<16:50,  2.02it/s] 81%|████████  | 8656/10699 [1:29:05<16:50,  2.02it/s] 81%|████████  | 8657/10699 [1:29:05<16:50,  2.02it/s] 81%|████████  | 8658/10699 [1:29:06<16:49,  2.02it/s] 81%|████████  | 8659/10699 [1:29:06<16:50,  2.02it/s] 81%|████████  | 8660/10699 [1:29:07<16:48,  2.02it/s] 81%|████████  | 8661/10699 [1:29:07<16:49,  2.02it/s] 81%|████████  | 8662/10699 [1:29:08<16:47,  2.02it/s] 81%|████████  | 8663/10699 [1:29:08<16:47,  2.02it/s] 81%|████████  | 8664/10699 [1:29:09<16:46,  2.02it/s] 81%|████████  | 8665/10699 [1:29:09<16:44,  2.02it/s] 81%|████████  | 8666/10699 [1:29:10<16:44,  2.02it/s] 81%|████████  | 8667/10699 [1:29:10<16:43,  2.03it/s] 81%|████████  | 8668/10699 [1:29:11<16:43,  2.02it/s] 81%|████████  | 8669/10699 [1:29:11<16:41,  2.03it/s] 81%|████████  | 8670/10699 [1:29:12<16:42,  2.02it/s] 81%|████████  | 8671/10699 [1:29:12<16:41,  2.02it/s] 81%|████████  | 8672/10699 [1:29:13<16:42,  2.02it/s] 81%|████████  | 8673/10699 [1:29:13<16:40,  2.02it/s] 81%|████████  | 8674/10699 [1:29:14<16:39,  2.03it/s] 81%|████████  | 8675/10699 [1:29:14<16:41,  2.02it/s]{'loss': 3.5916, 'grad_norm': 0.20987291634082794, 'learning_rate': 0.00010511354118289007, 'epoch': 0.81}
-                                                       81%|████████  | 8675/10699 [1:29:14<16:41,  2.02it/s] 81%|████████  | 8676/10699 [1:29:15<16:41,  2.02it/s] 81%|████████  | 8677/10699 [1:29:15<16:41,  2.02it/s] 81%|████████  | 8678/10699 [1:29:16<16:38,  2.02it/s] 81%|████████  | 8679/10699 [1:29:16<16:39,  2.02it/s] 81%|████████  | 8680/10699 [1:29:17<16:37,  2.02it/s] 81%|████████  | 8681/10699 [1:29:17<16:37,  2.02it/s] 81%|████████  | 8682/10699 [1:29:18<16:37,  2.02it/s] 81%|████████  | 8683/10699 [1:29:18<16:36,  2.02it/s] 81%|████████  | 8684/10699 [1:29:19<16:36,  2.02it/s] 81%|████████  | 8685/10699 [1:29:19<16:35,  2.02it/s] 81%|████████  | 8686/10699 [1:29:20<16:35,  2.02it/s] 81%|████████  | 8687/10699 [1:29:20<16:34,  2.02it/s] 81%|████████  | 8688/10699 [1:29:21<16:33,  2.02it/s] 81%|████████  | 8689/10699 [1:29:21<16:32,  2.02it/s] 81%|████████  | 8690/10699 [1:29:22<16:33,  2.02it/s] 81%|████████  | 8691/10699 [1:29:22<16:32,  2.02it/s] 81%|████████  | 8692/10699 [1:29:23<16:32,  2.02it/s] 81%|████████▏ | 8693/10699 [1:29:23<16:32,  2.02it/s] 81%|████████▏ | 8694/10699 [1:29:24<16:31,  2.02it/s] 81%|████████▏ | 8695/10699 [1:29:24<16:30,  2.02it/s] 81%|████████▏ | 8696/10699 [1:29:25<16:30,  2.02it/s] 81%|████████▏ | 8697/10699 [1:29:25<16:29,  2.02it/s] 81%|████████▏ | 8698/10699 [1:29:26<16:29,  2.02it/s] 81%|████████▏ | 8699/10699 [1:29:26<16:28,  2.02it/s] 81%|████████▏ | 8700/10699 [1:29:27<16:28,  2.02it/s]{'loss': 3.5866, 'grad_norm': 0.19793601334095, 'learning_rate': 0.00010262508096281536, 'epoch': 0.81}
-                                                       81%|████████▏ | 8700/10699 [1:29:27<16:28,  2.02it/s] 81%|████████▏ | 8701/10699 [1:29:27<16:30,  2.02it/s] 81%|████████▏ | 8702/10699 [1:29:28<16:30,  2.02it/s] 81%|████████▏ | 8703/10699 [1:29:28<16:28,  2.02it/s] 81%|████████▏ | 8704/10699 [1:29:29<16:27,  2.02it/s] 81%|████████▏ | 8705/10699 [1:29:29<16:26,  2.02it/s] 81%|████████▏ | 8706/10699 [1:29:30<16:25,  2.02it/s] 81%|████████▏ | 8707/10699 [1:29:30<16:25,  2.02it/s] 81%|████████▏ | 8708/10699 [1:29:31<16:25,  2.02it/s] 81%|████████▏ | 8709/10699 [1:29:31<16:24,  2.02it/s] 81%|████████▏ | 8710/10699 [1:29:32<16:25,  2.02it/s] 81%|████████▏ | 8711/10699 [1:29:32<16:23,  2.02it/s] 81%|████████▏ | 8712/10699 [1:29:33<16:23,  2.02it/s] 81%|████████▏ | 8713/10699 [1:29:33<16:21,  2.02it/s] 81%|████████▏ | 8714/10699 [1:29:34<16:21,  2.02it/s] 81%|████████▏ | 8715/10699 [1:29:34<16:20,  2.02it/s] 81%|████████▏ | 8716/10699 [1:29:35<16:20,  2.02it/s] 81%|████████▏ | 8717/10699 [1:29:35<16:19,  2.02it/s] 81%|████████▏ | 8718/10699 [1:29:36<16:18,  2.03it/s] 81%|████████▏ | 8719/10699 [1:29:36<16:18,  2.02it/s] 82%|████████▏ | 8720/10699 [1:29:37<16:17,  2.02it/s] 82%|████████▏ | 8721/10699 [1:29:37<16:18,  2.02it/s] 82%|████████▏ | 8722/10699 [1:29:38<16:16,  2.02it/s] 82%|████████▏ | 8723/10699 [1:29:38<16:15,  2.03it/s] 82%|████████▏ | 8724/10699 [1:29:39<16:15,  2.03it/s] 82%|████████▏ | 8725/10699 [1:29:39<16:15,  2.02it/s]{'loss': 3.5915, 'grad_norm': 0.19907358288764954, 'learning_rate': 0.00010016305794136665, 'epoch': 0.82}
-                                                       82%|████████▏ | 8725/10699 [1:29:39<16:15,  2.02it/s] 82%|████████▏ | 8726/10699 [1:29:40<16:16,  2.02it/s] 82%|████████▏ | 8727/10699 [1:29:40<16:15,  2.02it/s] 82%|████████▏ | 8728/10699 [1:29:41<16:13,  2.02it/s] 82%|████████▏ | 8729/10699 [1:29:41<16:14,  2.02it/s] 82%|████████▏ | 8730/10699 [1:29:42<16:12,  2.02it/s] 82%|████████▏ | 8731/10699 [1:29:42<16:12,  2.02it/s] 82%|████████▏ | 8732/10699 [1:29:43<16:12,  2.02it/s] 82%|████████▏ | 8733/10699 [1:29:43<16:11,  2.02it/s] 82%|████████▏ | 8734/10699 [1:29:44<16:11,  2.02it/s] 82%|████████▏ | 8735/10699 [1:29:44<16:10,  2.02it/s] 82%|████████▏ | 8736/10699 [1:29:45<16:10,  2.02it/s] 82%|████████▏ | 8737/10699 [1:29:45<16:10,  2.02it/s] 82%|████████▏ | 8738/10699 [1:29:45<16:10,  2.02it/s] 82%|████████▏ | 8739/10699 [1:29:46<16:10,  2.02it/s] 82%|████████▏ | 8740/10699 [1:29:46<16:08,  2.02it/s] 82%|████████▏ | 8741/10699 [1:29:47<16:08,  2.02it/s] 82%|████████▏ | 8742/10699 [1:29:47<16:08,  2.02it/s] 82%|████████▏ | 8743/10699 [1:29:48<16:07,  2.02it/s] 82%|████████▏ | 8744/10699 [1:29:48<16:06,  2.02it/s] 82%|████████▏ | 8745/10699 [1:29:49<16:05,  2.02it/s] 82%|████████▏ | 8746/10699 [1:29:49<16:04,  2.03it/s] 82%|████████▏ | 8747/10699 [1:29:50<16:04,  2.02it/s] 82%|████████▏ | 8748/10699 [1:29:50<16:03,  2.03it/s] 82%|████████▏ | 8749/10699 [1:29:51<16:04,  2.02it/s] 82%|████████▏ | 8750/10699 [1:29:51<16:03,  2.02it/s]                                                      {'loss': 3.5853, 'grad_norm': 0.1914854794740677, 'learning_rate': 9.772763591597695e-05, 'epoch': 0.82}
- 82%|████████▏ | 8750/10699 [1:29:51<16:03,  2.02it/s] 82%|████████▏ | 8751/10699 [1:29:52<16:05,  2.02it/s] 82%|████████▏ | 8752/10699 [1:29:52<16:03,  2.02it/s] 82%|████████▏ | 8753/10699 [1:29:53<16:03,  2.02it/s] 82%|████████▏ | 8754/10699 [1:29:53<16:01,  2.02it/s] 82%|████████▏ | 8755/10699 [1:29:54<16:01,  2.02it/s] 82%|████████▏ | 8756/10699 [1:29:54<16:00,  2.02it/s] 82%|████████▏ | 8757/10699 [1:29:55<15:59,  2.02it/s] 82%|████████▏ | 8758/10699 [1:29:55<15:58,  2.02it/s] 82%|████████▏ | 8759/10699 [1:29:56<16:00,  2.02it/s] 82%|████████▏ | 8760/10699 [1:29:56<15:59,  2.02it/s] 82%|████████▏ | 8761/10699 [1:29:57<15:59,  2.02it/s] 82%|████████▏ | 8762/10699 [1:29:57<15:58,  2.02it/s] 82%|████████▏ | 8763/10699 [1:29:58<15:58,  2.02it/s] 82%|████████▏ | 8764/10699 [1:29:58<15:57,  2.02it/s] 82%|████████▏ | 8765/10699 [1:29:59<15:57,  2.02it/s] 82%|████████▏ | 8766/10699 [1:29:59<15:56,  2.02it/s] 82%|████████▏ | 8767/10699 [1:30:00<15:56,  2.02it/s] 82%|████████▏ | 8768/10699 [1:30:00<15:55,  2.02it/s] 82%|████████▏ | 8769/10699 [1:30:01<15:56,  2.02it/s] 82%|████████▏ | 8770/10699 [1:30:01<15:54,  2.02it/s] 82%|████████▏ | 8771/10699 [1:30:02<15:55,  2.02it/s] 82%|████████▏ | 8772/10699 [1:30:02<15:54,  2.02it/s] 82%|████████▏ | 8773/10699 [1:30:03<15:53,  2.02it/s] 82%|████████▏ | 8774/10699 [1:30:03<15:52,  2.02it/s] 82%|████████▏ | 8775/10699 [1:30:04<15:51,  2.02it/s]{'loss': 3.5906, 'grad_norm': 0.19685062766075134, 'learning_rate': 9.531897691432534e-05, 'epoch': 0.82}
-                                                       82%|████████▏ | 8775/10699 [1:30:04<15:51,  2.02it/s] 82%|████████▏ | 8776/10699 [1:30:04<15:53,  2.02it/s] 82%|████████▏ | 8777/10699 [1:30:05<15:52,  2.02it/s] 82%|████████▏ | 8778/10699 [1:30:05<15:49,  2.02it/s] 82%|████████▏ | 8779/10699 [1:30:06<15:49,  2.02it/s] 82%|████████▏ | 8780/10699 [1:30:06<15:48,  2.02it/s] 82%|████████▏ | 8781/10699 [1:30:07<15:48,  2.02it/s] 82%|████████▏ | 8782/10699 [1:30:07<15:47,  2.02it/s] 82%|████████▏ | 8783/10699 [1:30:08<15:46,  2.02it/s] 82%|████████▏ | 8784/10699 [1:30:08<15:45,  2.03it/s] 82%|████████▏ | 8785/10699 [1:30:09<15:45,  2.02it/s] 82%|████████▏ | 8786/10699 [1:30:09<15:44,  2.02it/s] 82%|████████▏ | 8787/10699 [1:30:10<15:44,  2.03it/s] 82%|████████▏ | 8788/10699 [1:30:10<15:44,  2.02it/s] 82%|████████▏ | 8789/10699 [1:30:11<15:44,  2.02it/s] 82%|████████▏ | 8790/10699 [1:30:11<15:43,  2.02it/s] 82%|████████▏ | 8791/10699 [1:30:12<15:42,  2.02it/s] 82%|████████▏ | 8792/10699 [1:30:12<15:42,  2.02it/s] 82%|████████▏ | 8793/10699 [1:30:13<15:41,  2.02it/s] 82%|████████▏ | 8794/10699 [1:30:13<15:41,  2.02it/s] 82%|████████▏ | 8795/10699 [1:30:14<15:40,  2.03it/s] 82%|████████▏ | 8796/10699 [1:30:14<15:39,  2.02it/s] 82%|████████▏ | 8797/10699 [1:30:15<15:39,  2.02it/s] 82%|████████▏ | 8798/10699 [1:30:15<15:38,  2.02it/s] 82%|████████▏ | 8799/10699 [1:30:16<15:39,  2.02it/s] 82%|████████▏ | 8800/10699 [1:30:16<15:38,  2.02it/s]{'loss': 3.593, 'grad_norm': 0.2016703486442566, 'learning_rate': 9.293724118355701e-05, 'epoch': 0.82}
-                                                       82%|████████▏ | 8800/10699 [1:30:16<15:38,  2.02it/s] 82%|████████▏ | 8801/10699 [1:30:17<15:39,  2.02it/s] 82%|████████▏ | 8802/10699 [1:30:17<15:37,  2.02it/s] 82%|████████▏ | 8803/10699 [1:30:18<15:37,  2.02it/s] 82%|████████▏ | 8804/10699 [1:30:18<15:36,  2.02it/s] 82%|████████▏ | 8805/10699 [1:30:19<15:35,  2.02it/s] 82%|████████▏ | 8806/10699 [1:30:19<15:35,  2.02it/s] 82%|████████▏ | 8807/10699 [1:30:20<15:35,  2.02it/s] 82%|████████▏ | 8808/10699 [1:30:20<15:34,  2.02it/s] 82%|████████▏ | 8809/10699 [1:30:21<15:35,  2.02it/s] 82%|████████▏ | 8810/10699 [1:30:21<15:35,  2.02it/s] 82%|████████▏ | 8811/10699 [1:30:22<15:34,  2.02it/s] 82%|████████▏ | 8812/10699 [1:30:22<15:34,  2.02it/s] 82%|████████▏ | 8813/10699 [1:30:23<15:33,  2.02it/s] 82%|████████▏ | 8814/10699 [1:30:23<15:33,  2.02it/s] 82%|████████▏ | 8815/10699 [1:30:24<15:32,  2.02it/s] 82%|████████▏ | 8816/10699 [1:30:24<15:32,  2.02it/s] 82%|████████▏ | 8817/10699 [1:30:25<15:30,  2.02it/s] 82%|████████▏ | 8818/10699 [1:30:25<15:29,  2.02it/s] 82%|████████▏ | 8819/10699 [1:30:26<15:29,  2.02it/s] 82%|████████▏ | 8820/10699 [1:30:26<15:28,  2.02it/s] 82%|████████▏ | 8821/10699 [1:30:27<15:27,  2.02it/s] 82%|████████▏ | 8822/10699 [1:30:27<15:28,  2.02it/s] 82%|████████▏ | 8823/10699 [1:30:28<15:27,  2.02it/s] 82%|████████▏ | 8824/10699 [1:30:28<15:26,  2.02it/s] 82%|████████▏ | 8825/10699 [1:30:29<15:25,  2.02it/s]{'loss': 3.5886, 'grad_norm': 0.19837099313735962, 'learning_rate': 9.058258717962303e-05, 'epoch': 0.82}                                                      
- 82%|████████▏ | 8825/10699 [1:30:29<15:25,  2.02it/s] 82%|████████▏ | 8826/10699 [1:30:29<15:25,  2.02it/s] 83%|████████▎ | 8827/10699 [1:30:30<15:26,  2.02it/s] 83%|████████▎ | 8828/10699 [1:30:30<15:24,  2.02it/s] 83%|████████▎ | 8829/10699 [1:30:30<15:24,  2.02it/s] 83%|████████▎ | 8830/10699 [1:30:31<15:23,  2.02it/s] 83%|████████▎ | 8831/10699 [1:30:31<15:23,  2.02it/s] 83%|████████▎ | 8832/10699 [1:30:32<15:23,  2.02it/s] 83%|████████▎ | 8833/10699 [1:30:32<15:23,  2.02it/s] 83%|████████▎ | 8834/10699 [1:30:33<15:21,  2.02it/s] 83%|████████▎ | 8835/10699 [1:30:33<15:21,  2.02it/s] 83%|████████▎ | 8836/10699 [1:30:34<15:20,  2.02it/s] 83%|████████▎ | 8837/10699 [1:30:34<15:20,  2.02it/s] 83%|████████▎ | 8838/10699 [1:30:35<15:19,  2.02it/s] 83%|████████▎ | 8839/10699 [1:30:35<15:20,  2.02it/s] 83%|████████▎ | 8840/10699 [1:30:36<15:18,  2.02it/s] 83%|████████▎ | 8841/10699 [1:30:36<15:18,  2.02it/s] 83%|████████▎ | 8842/10699 [1:30:37<15:17,  2.02it/s] 83%|████████▎ | 8843/10699 [1:30:37<15:17,  2.02it/s] 83%|████████▎ | 8844/10699 [1:30:38<15:17,  2.02it/s] 83%|████████▎ | 8845/10699 [1:30:38<15:15,  2.03it/s] 83%|████████▎ | 8846/10699 [1:30:39<15:15,  2.02it/s] 83%|████████▎ | 8847/10699 [1:30:39<15:14,  2.02it/s] 83%|████████▎ | 8848/10699 [1:30:40<15:14,  2.02it/s] 83%|████████▎ | 8849/10699 [1:30:40<15:13,  2.03it/s] 83%|████████▎ | 8850/10699 [1:30:41<15:13,  2.02it/s]                                                      {'loss': 3.5827, 'grad_norm': 0.19334380328655243, 'learning_rate': 8.825517155673707e-05, 'epoch': 0.83}
- 83%|████████▎ | 8850/10699 [1:30:41<15:13,  2.02it/s] 83%|████████▎ | 8851/10699 [1:30:41<15:14,  2.02it/s] 83%|████████▎ | 8852/10699 [1:30:42<15:13,  2.02it/s] 83%|████████▎ | 8853/10699 [1:30:42<15:13,  2.02it/s] 83%|████████▎ | 8854/10699 [1:30:43<15:13,  2.02it/s] 83%|████████▎ | 8855/10699 [1:30:43<15:12,  2.02it/s] 83%|████████▎ | 8856/10699 [1:30:44<15:11,  2.02it/s] 83%|████████▎ | 8857/10699 [1:30:44<15:12,  2.02it/s] 83%|████████▎ | 8858/10699 [1:30:45<15:10,  2.02it/s] 83%|████████▎ | 8859/10699 [1:30:45<15:10,  2.02it/s] 83%|████████▎ | 8860/10699 [1:30:46<15:09,  2.02it/s] 83%|████████▎ | 8861/10699 [1:30:46<15:08,  2.02it/s] 83%|████████▎ | 8862/10699 [1:30:47<15:08,  2.02it/s] 83%|████████▎ | 8863/10699 [1:30:47<15:07,  2.02it/s] 83%|████████▎ | 8864/10699 [1:30:48<15:07,  2.02it/s] 83%|████████▎ | 8865/10699 [1:30:48<15:06,  2.02it/s] 83%|████████▎ | 8866/10699 [1:30:49<15:06,  2.02it/s] 83%|████████▎ | 8867/10699 [1:30:49<15:05,  2.02it/s] 83%|████████▎ | 8868/10699 [1:30:50<15:05,  2.02it/s] 83%|████████▎ | 8869/10699 [1:30:50<15:05,  2.02it/s] 83%|████████▎ | 8870/10699 [1:30:51<15:05,  2.02it/s] 83%|████████▎ | 8871/10699 [1:30:51<15:04,  2.02it/s] 83%|████████▎ | 8872/10699 [1:30:52<15:03,  2.02it/s] 83%|████████▎ | 8873/10699 [1:30:52<15:02,  2.02it/s] 83%|████████▎ | 8874/10699 [1:30:53<15:01,  2.02it/s] 83%|████████▎ | 8875/10699 [1:30:53<15:00,  2.03it/s]{'loss': 3.5842, 'grad_norm': 0.20004643499851227, 'learning_rate': 8.595514915695435e-05, 'epoch': 0.83}                                                      
- 83%|████████▎ | 8875/10699 [1:30:53<15:00,  2.03it/s] 83%|████████▎ | 8876/10699 [1:30:54<15:01,  2.02it/s] 83%|████████▎ | 8877/10699 [1:30:54<14:59,  2.03it/s] 83%|████████▎ | 8878/10699 [1:30:55<15:01,  2.02it/s] 83%|████████▎ | 8879/10699 [1:30:55<14:59,  2.02it/s] 83%|████████▎ | 8880/10699 [1:30:56<14:59,  2.02it/s] 83%|████████▎ | 8881/10699 [1:30:56<14:58,  2.02it/s] 83%|████████▎ | 8882/10699 [1:30:57<14:58,  2.02it/s] 83%|████████▎ | 8883/10699 [1:30:57<14:57,  2.02it/s] 83%|████████▎ | 8884/10699 [1:30:58<14:57,  2.02it/s] 83%|████████▎ | 8885/10699 [1:30:58<14:56,  2.02it/s] 83%|████████▎ | 8886/10699 [1:30:59<14:56,  2.02it/s] 83%|████████▎ | 8887/10699 [1:30:59<14:56,  2.02it/s] 83%|████████▎ | 8888/10699 [1:31:00<14:56,  2.02it/s] 83%|████████▎ | 8889/10699 [1:31:00<14:54,  2.02it/s] 83%|████████▎ | 8890/10699 [1:31:01<14:55,  2.02it/s] 83%|████████▎ | 8891/10699 [1:31:01<14:53,  2.02it/s] 83%|████████▎ | 8892/10699 [1:31:02<14:54,  2.02it/s] 83%|████████▎ | 8893/10699 [1:31:02<14:53,  2.02it/s] 83%|████████▎ | 8894/10699 [1:31:03<14:53,  2.02it/s] 83%|████████▎ | 8895/10699 [1:31:03<14:52,  2.02it/s] 83%|████████▎ | 8896/10699 [1:31:04<14:52,  2.02it/s] 83%|████████▎ | 8897/10699 [1:31:04<14:50,  2.02it/s] 83%|████████▎ | 8898/10699 [1:31:05<14:51,  2.02it/s] 83%|████████▎ | 8899/10699 [1:31:05<14:49,  2.02it/s] 83%|████████▎ | 8900/10699 [1:31:06<14:50,  2.02it/s]                                                      {'loss': 3.5841, 'grad_norm': 0.19741880893707275, 'learning_rate': 8.36826729998696e-05, 'epoch': 0.83}
- 83%|████████▎ | 8900/10699 [1:31:06<14:50,  2.02it/s] 83%|████████▎ | 8901/10699 [1:31:06<14:49,  2.02it/s] 83%|████████▎ | 8902/10699 [1:31:07<14:50,  2.02it/s] 83%|████████▎ | 8903/10699 [1:31:07<14:48,  2.02it/s] 83%|████████▎ | 8904/10699 [1:31:08<14:47,  2.02it/s] 83%|████████▎ | 8905/10699 [1:31:08<14:46,  2.02it/s] 83%|████████▎ | 8906/10699 [1:31:09<14:46,  2.02it/s] 83%|████████▎ | 8907/10699 [1:31:09<14:45,  2.02it/s] 83%|████████▎ | 8908/10699 [1:31:10<14:44,  2.02it/s] 83%|████████▎ | 8909/10699 [1:31:10<14:44,  2.02it/s] 83%|████████▎ | 8910/10699 [1:31:11<14:44,  2.02it/s] 83%|████████▎ | 8911/10699 [1:31:11<14:44,  2.02it/s] 83%|████████▎ | 8912/10699 [1:31:12<14:42,  2.02it/s] 83%|████████▎ | 8913/10699 [1:31:12<14:43,  2.02it/s] 83%|████████▎ | 8914/10699 [1:31:13<14:41,  2.03it/s] 83%|████████▎ | 8915/10699 [1:31:13<14:41,  2.02it/s] 83%|████████▎ | 8916/10699 [1:31:14<14:40,  2.02it/s] 83%|████████▎ | 8917/10699 [1:31:14<14:40,  2.02it/s] 83%|████████▎ | 8918/10699 [1:31:14<14:39,  2.02it/s] 83%|████████▎ | 8919/10699 [1:31:15<14:39,  2.02it/s] 83%|████████▎ | 8920/10699 [1:31:15<14:38,  2.02it/s] 83%|████████▎ | 8921/10699 [1:31:16<14:37,  2.03it/s] 83%|████████▎ | 8922/10699 [1:31:16<14:37,  2.02it/s] 83%|████████▎ | 8923/10699 [1:31:17<14:36,  2.03it/s] 83%|████████▎ | 8924/10699 [1:31:17<14:36,  2.02it/s] 83%|████████▎ | 8925/10699 [1:31:18<14:36,  2.02it/s]{'loss': 3.5821, 'grad_norm': 0.19539059698581696, 'learning_rate': 8.143789427243636e-05, 'epoch': 0.83}                                                      
- 83%|████████▎ | 8925/10699 [1:31:18<14:36,  2.02it/s] 83%|████████▎ | 8926/10699 [1:31:18<14:38,  2.02it/s] 83%|████████▎ | 8927/10699 [1:31:19<14:37,  2.02it/s] 83%|████████▎ | 8928/10699 [1:31:19<14:36,  2.02it/s] 83%|████████▎ | 8929/10699 [1:31:20<14:35,  2.02it/s] 83%|████████▎ | 8930/10699 [1:31:20<14:35,  2.02it/s] 83%|████████▎ | 8931/10699 [1:31:21<14:34,  2.02it/s] 83%|████████▎ | 8932/10699 [1:31:21<14:34,  2.02it/s] 83%|████████▎ | 8933/10699 [1:31:22<14:33,  2.02it/s] 84%|████████▎ | 8934/10699 [1:31:22<14:33,  2.02it/s] 84%|████████▎ | 8935/10699 [1:31:23<14:32,  2.02it/s] 84%|████████▎ | 8936/10699 [1:31:23<14:32,  2.02it/s] 84%|████████▎ | 8937/10699 [1:31:24<17:05,  1.72it/s] 84%|████████▎ | 8938/10699 [1:31:25<16:18,  1.80it/s] 84%|████████▎ | 8939/10699 [1:31:25<15:47,  1.86it/s] 84%|████████▎ | 8940/10699 [1:31:26<15:23,  1.91it/s] 84%|████████▎ | 8941/10699 [1:31:26<15:06,  1.94it/s] 84%|████████▎ | 8942/10699 [1:31:27<14:54,  1.96it/s] 84%|████████▎ | 8943/10699 [1:31:27<14:46,  1.98it/s] 84%|████████▎ | 8944/10699 [1:31:28<14:41,  1.99it/s] 84%|████████▎ | 8945/10699 [1:31:28<14:37,  2.00it/s] 84%|████████▎ | 8946/10699 [1:31:29<14:34,  2.01it/s] 84%|████████▎ | 8947/10699 [1:31:29<14:31,  2.01it/s] 84%|████████▎ | 8948/10699 [1:31:30<14:29,  2.01it/s] 84%|████████▎ | 8949/10699 [1:31:30<14:27,  2.02it/s] 84%|████████▎ | 8950/10699 [1:31:31<14:27,  2.02it/s]{'loss': 3.5885, 'grad_norm': 0.19730372726917267, 'learning_rate': 7.922096231890969e-05, 'epoch': 0.84}
-                                                       84%|████████▎ | 8950/10699 [1:31:31<14:27,  2.02it/s] 84%|████████▎ | 8951/10699 [1:31:31<14:26,  2.02it/s] 84%|████████▎ | 8952/10699 [1:31:32<14:25,  2.02it/s] 84%|████████▎ | 8953/10699 [1:31:32<14:24,  2.02it/s] 84%|████████▎ | 8954/10699 [1:31:33<14:24,  2.02it/s] 84%|████████▎ | 8955/10699 [1:31:33<14:23,  2.02it/s] 84%|████████▎ | 8956/10699 [1:31:34<14:23,  2.02it/s] 84%|████████▎ | 8957/10699 [1:31:34<14:23,  2.02it/s] 84%|████████▎ | 8958/10699 [1:31:35<14:23,  2.02it/s] 84%|████████▎ | 8959/10699 [1:31:35<14:21,  2.02it/s] 84%|████████▎ | 8960/10699 [1:31:36<14:20,  2.02it/s] 84%|████████▍ | 8961/10699 [1:31:36<14:19,  2.02it/s] 84%|████████▍ | 8962/10699 [1:31:37<14:19,  2.02it/s] 84%|████████▍ | 8963/10699 [1:31:37<14:18,  2.02it/s] 84%|████████▍ | 8964/10699 [1:31:38<14:17,  2.02it/s] 84%|████████▍ | 8965/10699 [1:31:38<14:16,  2.02it/s] 84%|████████▍ | 8966/10699 [1:31:39<14:16,  2.02it/s] 84%|████████▍ | 8967/10699 [1:31:39<14:16,  2.02it/s] 84%|████████▍ | 8968/10699 [1:31:40<14:15,  2.02it/s] 84%|████████▍ | 8969/10699 [1:31:40<14:15,  2.02it/s] 84%|████████▍ | 8970/10699 [1:31:41<14:14,  2.02it/s] 84%|████████▍ | 8971/10699 [1:31:41<14:13,  2.02it/s] 84%|████████▍ | 8972/10699 [1:31:42<14:13,  2.02it/s] 84%|████████▍ | 8973/10699 [1:31:42<14:12,  2.02it/s] 84%|████████▍ | 8974/10699 [1:31:43<16:32,  1.74it/s] 84%|████████▍ | 8975/10699 [1:31:43<15:50,  1.81it/s]                                                      {'loss': 3.5823, 'grad_norm': 0.19601202011108398, 'learning_rate': 7.703202463090881e-05, 'epoch': 0.84}
- 84%|████████▍ | 8975/10699 [1:31:43<15:50,  1.81it/s] 84%|████████▍ | 8976/10699 [1:31:44<15:24,  1.86it/s] 84%|████████▍ | 8977/10699 [1:31:44<15:02,  1.91it/s] 84%|████████▍ | 8978/10699 [1:31:45<14:46,  1.94it/s] 84%|████████▍ | 8979/10699 [1:31:45<14:35,  1.96it/s] 84%|████████▍ | 8980/10699 [1:31:46<14:27,  1.98it/s] 84%|████████▍ | 8981/10699 [1:31:46<14:21,  1.99it/s] 84%|████████▍ | 8982/10699 [1:31:47<14:17,  2.00it/s] 84%|████████▍ | 8983/10699 [1:31:47<14:13,  2.01it/s] 84%|████████▍ | 8984/10699 [1:31:48<14:12,  2.01it/s] 84%|████████▍ | 8985/10699 [1:31:48<14:09,  2.02it/s] 84%|████████▍ | 8986/10699 [1:31:49<14:08,  2.02it/s] 84%|████████▍ | 8987/10699 [1:31:49<14:07,  2.02it/s] 84%|████████▍ | 8988/10699 [1:31:50<14:07,  2.02it/s] 84%|████████▍ | 8989/10699 [1:31:50<14:05,  2.02it/s] 84%|████████▍ | 8990/10699 [1:31:51<14:05,  2.02it/s] 84%|████████▍ | 8991/10699 [1:31:51<14:04,  2.02it/s] 84%|████████▍ | 8992/10699 [1:31:52<14:04,  2.02it/s] 84%|████████▍ | 8993/10699 [1:31:52<14:03,  2.02it/s] 84%|████████▍ | 8994/10699 [1:31:53<14:02,  2.02it/s] 84%|████████▍ | 8995/10699 [1:31:53<14:01,  2.03it/s] 84%|████████▍ | 8996/10699 [1:31:54<14:01,  2.02it/s] 84%|████████▍ | 8997/10699 [1:31:54<14:00,  2.02it/s] 84%|████████▍ | 8998/10699 [1:31:55<14:01,  2.02it/s] 84%|████████▍ | 8999/10699 [1:31:55<14:00,  2.02it/s] 84%|████████▍ | 9000/10699 [1:31:56<14:01,  2.02it/s]{'loss': 3.5885, 'grad_norm': 0.20675775408744812, 'learning_rate': 7.487122683760595e-05, 'epoch': 0.84}                                                      
- 84%|████████▍ | 9000/10699 [1:31:56<14:01,  2.02it/s] 84%|████████▍ | 9001/10699 [1:31:56<14:00,  2.02it/s] 84%|████████▍ | 9002/10699 [1:31:57<13:59,  2.02it/s] 84%|████████▍ | 9003/10699 [1:31:57<13:59,  2.02it/s] 84%|████████▍ | 9004/10699 [1:31:58<13:57,  2.02it/s] 84%|████████▍ | 9005/10699 [1:31:58<13:57,  2.02it/s] 84%|████████▍ | 9006/10699 [1:31:59<13:56,  2.02it/s] 84%|████████▍ | 9007/10699 [1:31:59<13:56,  2.02it/s] 84%|████████▍ | 9008/10699 [1:32:00<13:56,  2.02it/s] 84%|████████▍ | 9009/10699 [1:32:00<13:55,  2.02it/s] 84%|████████▍ | 9010/10699 [1:32:01<13:54,  2.02it/s] 84%|████████▍ | 9011/10699 [1:32:01<13:54,  2.02it/s] 84%|████████▍ | 9012/10699 [1:32:02<13:54,  2.02it/s] 84%|████████▍ | 9013/10699 [1:32:02<13:53,  2.02it/s] 84%|████████▍ | 9014/10699 [1:32:03<13:53,  2.02it/s] 84%|████████▍ | 9015/10699 [1:32:03<13:52,  2.02it/s] 84%|████████▍ | 9016/10699 [1:32:04<13:52,  2.02it/s] 84%|████████▍ | 9017/10699 [1:32:04<13:51,  2.02it/s] 84%|████████▍ | 9018/10699 [1:32:05<13:50,  2.02it/s] 84%|████████▍ | 9019/10699 [1:32:05<13:49,  2.02it/s] 84%|████████▍ | 9020/10699 [1:32:06<13:48,  2.03it/s] 84%|████████▍ | 9021/10699 [1:32:06<13:49,  2.02it/s] 84%|████████▍ | 9022/10699 [1:32:06<13:47,  2.03it/s] 84%|████████▍ | 9023/10699 [1:32:07<13:48,  2.02it/s] 84%|████████▍ | 9024/10699 [1:32:07<13:46,  2.03it/s] 84%|████████▍ | 9025/10699 [1:32:08<13:46,  2.03it/s]{'loss': 3.5894, 'grad_norm': 0.1988658457994461, 'learning_rate': 7.273871269603672e-05, 'epoch': 0.84}
-                                                       84%|████████▍ | 9025/10699 [1:32:08<13:46,  2.03it/s] 84%|████████▍ | 9026/10699 [1:32:08<13:48,  2.02it/s] 84%|████████▍ | 9027/10699 [1:32:09<13:47,  2.02it/s] 84%|████████▍ | 9028/10699 [1:32:09<13:46,  2.02it/s] 84%|████████▍ | 9029/10699 [1:32:10<13:46,  2.02it/s] 84%|████████▍ | 9030/10699 [1:32:10<13:45,  2.02it/s] 84%|████████▍ | 9031/10699 [1:32:11<13:46,  2.02it/s] 84%|████████▍ | 9032/10699 [1:32:11<13:44,  2.02it/s] 84%|████████▍ | 9033/10699 [1:32:12<13:43,  2.02it/s] 84%|████████▍ | 9034/10699 [1:32:12<13:43,  2.02it/s] 84%|████████▍ | 9035/10699 [1:32:13<13:42,  2.02it/s] 84%|████████▍ | 9036/10699 [1:32:13<13:43,  2.02it/s] 84%|████████▍ | 9037/10699 [1:32:14<13:42,  2.02it/s] 84%|████████▍ | 9038/10699 [1:32:14<13:42,  2.02it/s] 84%|████████▍ | 9039/10699 [1:32:15<13:41,  2.02it/s] 84%|████████▍ | 9040/10699 [1:32:15<13:40,  2.02it/s] 85%|████████▍ | 9041/10699 [1:32:16<13:41,  2.02it/s] 85%|████████▍ | 9042/10699 [1:32:16<13:39,  2.02it/s] 85%|████████▍ | 9043/10699 [1:32:17<13:38,  2.02it/s] 85%|████████▍ | 9044/10699 [1:32:17<13:38,  2.02it/s] 85%|████████▍ | 9045/10699 [1:32:18<13:36,  2.02it/s] 85%|████████▍ | 9046/10699 [1:32:18<13:37,  2.02it/s] 85%|████████▍ | 9047/10699 [1:32:19<13:36,  2.02it/s] 85%|████████▍ | 9048/10699 [1:32:19<13:36,  2.02it/s] 85%|████████▍ | 9049/10699 [1:32:20<13:34,  2.03it/s] 85%|████████▍ | 9050/10699 [1:32:20<13:34,  2.02it/s]                                                      {'loss': 3.5738, 'grad_norm': 0.1946505755186081, 'learning_rate': 7.063462408153676e-05, 'epoch': 0.85}
- 85%|████████▍ | 9050/10699 [1:32:20<13:34,  2.02it/s] 85%|████████▍ | 9051/10699 [1:32:21<13:34,  2.02it/s] 85%|████████▍ | 9052/10699 [1:32:21<13:34,  2.02it/s] 85%|████████▍ | 9053/10699 [1:32:22<13:32,  2.02it/s] 85%|████████▍ | 9054/10699 [1:32:22<13:32,  2.03it/s] 85%|████████▍ | 9055/10699 [1:32:23<13:32,  2.02it/s] 85%|████████▍ | 9056/10699 [1:32:23<13:31,  2.03it/s] 85%|████████▍ | 9057/10699 [1:32:24<13:30,  2.02it/s] 85%|████████▍ | 9058/10699 [1:32:24<13:29,  2.03it/s] 85%|████████▍ | 9059/10699 [1:32:25<13:30,  2.02it/s] 85%|████████▍ | 9060/10699 [1:32:25<13:29,  2.03it/s] 85%|████████▍ | 9061/10699 [1:32:26<13:29,  2.02it/s] 85%|████████▍ | 9062/10699 [1:32:26<13:29,  2.02it/s] 85%|████████▍ | 9063/10699 [1:32:27<13:27,  2.02it/s] 85%|████████▍ | 9064/10699 [1:32:27<13:27,  2.02it/s] 85%|████████▍ | 9065/10699 [1:32:28<13:27,  2.02it/s] 85%|████████▍ | 9066/10699 [1:32:28<13:27,  2.02it/s] 85%|████████▍ | 9067/10699 [1:32:29<13:27,  2.02it/s] 85%|████████▍ | 9068/10699 [1:32:29<13:26,  2.02it/s] 85%|████████▍ | 9069/10699 [1:32:30<13:25,  2.02it/s] 85%|████████▍ | 9070/10699 [1:32:30<13:26,  2.02it/s] 85%|████████▍ | 9071/10699 [1:32:31<13:24,  2.02it/s] 85%|████████▍ | 9072/10699 [1:32:31<13:24,  2.02it/s] 85%|████████▍ | 9073/10699 [1:32:32<13:22,  2.03it/s] 85%|████████▍ | 9074/10699 [1:32:32<13:23,  2.02it/s] 85%|████████▍ | 9075/10699 [1:32:33<13:23,  2.02it/s]{'loss': 3.5806, 'grad_norm': 0.20644822716712952, 'learning_rate': 6.855910097830203e-05, 'epoch': 0.85}
-                                                       85%|████████▍ | 9075/10699 [1:32:33<13:23,  2.02it/s] 85%|████████▍ | 9076/10699 [1:32:33<13:24,  2.02it/s] 85%|████████▍ | 9077/10699 [1:32:34<13:23,  2.02it/s] 85%|████████▍ | 9078/10699 [1:32:34<13:21,  2.02it/s] 85%|████████▍ | 9079/10699 [1:32:35<13:21,  2.02it/s] 85%|████████▍ | 9080/10699 [1:32:35<13:20,  2.02it/s] 85%|████████▍ | 9081/10699 [1:32:36<13:20,  2.02it/s] 85%|████████▍ | 9082/10699 [1:32:36<13:18,  2.02it/s] 85%|████████▍ | 9083/10699 [1:32:37<13:18,  2.02it/s] 85%|████████▍ | 9084/10699 [1:32:37<13:18,  2.02it/s] 85%|████████▍ | 9085/10699 [1:32:38<13:18,  2.02it/s] 85%|████████▍ | 9086/10699 [1:32:38<13:17,  2.02it/s] 85%|████████▍ | 9087/10699 [1:32:39<13:16,  2.02it/s] 85%|████████▍ | 9088/10699 [1:32:39<13:16,  2.02it/s] 85%|████████▍ | 9089/10699 [1:32:40<13:15,  2.02it/s] 85%|████████▍ | 9090/10699 [1:32:40<13:15,  2.02it/s] 85%|████████▍ | 9091/10699 [1:32:41<13:13,  2.03it/s] 85%|████████▍ | 9092/10699 [1:32:41<13:14,  2.02it/s] 85%|████████▍ | 9093/10699 [1:32:42<13:13,  2.02it/s] 85%|████████▍ | 9094/10699 [1:32:42<13:13,  2.02it/s] 85%|████████▌ | 9095/10699 [1:32:43<13:12,  2.02it/s] 85%|████████▌ | 9096/10699 [1:32:43<13:12,  2.02it/s] 85%|████████▌ | 9097/10699 [1:32:44<13:11,  2.02it/s] 85%|████████▌ | 9098/10699 [1:32:44<13:11,  2.02it/s] 85%|████████▌ | 9099/10699 [1:32:45<13:10,  2.02it/s] 85%|████████▌ | 9100/10699 [1:32:45<13:10,  2.02it/s]                                                      {'loss': 3.5817, 'grad_norm': 0.1924857497215271, 'learning_rate': 6.651228147007654e-05, 'epoch': 0.85}
- 85%|████████▌ | 9100/10699 [1:32:45<13:10,  2.02it/s] 85%|████████▌ | 9101/10699 [1:32:46<13:10,  2.02it/s] 85%|████████▌ | 9102/10699 [1:32:46<13:10,  2.02it/s] 85%|████████▌ | 9103/10699 [1:32:47<13:09,  2.02it/s] 85%|████████▌ | 9104/10699 [1:32:47<13:09,  2.02it/s] 85%|████████▌ | 9105/10699 [1:32:48<13:09,  2.02it/s] 85%|████████▌ | 9106/10699 [1:32:48<13:08,  2.02it/s] 85%|████████▌ | 9107/10699 [1:32:49<13:08,  2.02it/s] 85%|████████▌ | 9108/10699 [1:32:49<13:06,  2.02it/s] 85%|████████▌ | 9109/10699 [1:32:50<13:06,  2.02it/s] 85%|████████▌ | 9110/10699 [1:32:50<13:05,  2.02it/s] 85%|████████▌ | 9111/10699 [1:32:51<13:05,  2.02it/s] 85%|████████▌ | 9112/10699 [1:32:51<13:03,  2.02it/s] 85%|████████▌ | 9113/10699 [1:32:51<13:03,  2.02it/s] 85%|████████▌ | 9114/10699 [1:32:52<13:03,  2.02it/s] 85%|████████▌ | 9115/10699 [1:32:52<13:03,  2.02it/s] 85%|████████▌ | 9116/10699 [1:32:53<13:02,  2.02it/s] 85%|████████▌ | 9117/10699 [1:32:53<13:01,  2.02it/s] 85%|████████▌ | 9118/10699 [1:32:54<13:01,  2.02it/s] 85%|████████▌ | 9119/10699 [1:32:54<13:01,  2.02it/s] 85%|████████▌ | 9120/10699 [1:32:55<13:00,  2.02it/s] 85%|████████▌ | 9121/10699 [1:32:55<12:59,  2.02it/s] 85%|████████▌ | 9122/10699 [1:32:56<12:59,  2.02it/s] 85%|████████▌ | 9123/10699 [1:32:56<12:57,  2.03it/s] 85%|████████▌ | 9124/10699 [1:32:57<12:57,  2.02it/s] 85%|████████▌ | 9125/10699 [1:32:57<12:56,  2.03it/s]{'loss': 3.5879, 'grad_norm': 0.19865690171718597, 'learning_rate': 6.449430173096516e-05, 'epoch': 0.85}
-                                                       85%|████████▌ | 9125/10699 [1:32:57<12:56,  2.03it/s] 85%|████████▌ | 9126/10699 [1:32:58<12:57,  2.02it/s] 85%|████████▌ | 9127/10699 [1:32:58<12:57,  2.02it/s] 85%|████████▌ | 9128/10699 [1:32:59<12:56,  2.02it/s] 85%|████████▌ | 9129/10699 [1:32:59<12:56,  2.02it/s] 85%|████████▌ | 9130/10699 [1:33:00<12:55,  2.02it/s] 85%|████████▌ | 9131/10699 [1:33:00<12:54,  2.02it/s] 85%|████████▌ | 9132/10699 [1:33:01<12:54,  2.02it/s] 85%|████████▌ | 9133/10699 [1:33:01<12:53,  2.03it/s] 85%|████████▌ | 9134/10699 [1:33:02<12:53,  2.02it/s] 85%|████████▌ | 9135/10699 [1:33:02<12:54,  2.02it/s] 85%|████████▌ | 9136/10699 [1:33:03<12:52,  2.02it/s] 85%|████████▌ | 9137/10699 [1:33:03<12:52,  2.02it/s] 85%|████████▌ | 9138/10699 [1:33:04<12:50,  2.03it/s] 85%|████████▌ | 9139/10699 [1:33:04<12:50,  2.02it/s] 85%|████████▌ | 9140/10699 [1:33:05<12:50,  2.02it/s] 85%|████████▌ | 9141/10699 [1:33:05<12:50,  2.02it/s] 85%|████████▌ | 9142/10699 [1:33:06<12:49,  2.02it/s] 85%|████████▌ | 9143/10699 [1:33:06<12:48,  2.02it/s] 85%|████████▌ | 9144/10699 [1:33:07<12:48,  2.02it/s] 85%|████████▌ | 9145/10699 [1:33:07<12:48,  2.02it/s] 85%|████████▌ | 9146/10699 [1:33:08<12:48,  2.02it/s] 85%|████████▌ | 9147/10699 [1:33:08<12:47,  2.02it/s] 86%|████████▌ | 9148/10699 [1:33:09<12:48,  2.02it/s] 86%|████████▌ | 9149/10699 [1:33:09<12:46,  2.02it/s] 86%|████████▌ | 9150/10699 [1:33:10<12:47,  2.02it/s]{'loss': 3.5827, 'grad_norm': 0.19914887845516205, 'learning_rate': 6.250529601637394e-05, 'epoch': 0.86}                                                      
- 86%|████████▌ | 9150/10699 [1:33:10<12:47,  2.02it/s] 86%|████████▌ | 9151/10699 [1:33:10<12:47,  2.02it/s] 86%|████████▌ | 9152/10699 [1:33:11<12:46,  2.02it/s] 86%|████████▌ | 9153/10699 [1:33:11<12:45,  2.02it/s] 86%|████████▌ | 9154/10699 [1:33:12<12:44,  2.02it/s] 86%|████████▌ | 9155/10699 [1:33:12<12:44,  2.02it/s] 86%|████████▌ | 9156/10699 [1:33:13<12:43,  2.02it/s] 86%|████████▌ | 9157/10699 [1:33:13<12:43,  2.02it/s] 86%|████████▌ | 9158/10699 [1:33:14<12:42,  2.02it/s] 86%|████████▌ | 9159/10699 [1:33:14<12:41,  2.02it/s] 86%|████████▌ | 9160/10699 [1:33:15<12:41,  2.02it/s] 86%|████████▌ | 9161/10699 [1:33:15<12:40,  2.02it/s] 86%|████████▌ | 9162/10699 [1:33:16<12:40,  2.02it/s] 86%|████████▌ | 9163/10699 [1:33:16<12:39,  2.02it/s] 86%|████████▌ | 9164/10699 [1:33:17<12:39,  2.02it/s] 86%|████████▌ | 9165/10699 [1:33:17<12:37,  2.02it/s] 86%|████████▌ | 9166/10699 [1:33:18<12:37,  2.02it/s] 86%|████████▌ | 9167/10699 [1:33:18<12:36,  2.03it/s] 86%|████████▌ | 9168/10699 [1:33:19<12:36,  2.02it/s] 86%|████████▌ | 9169/10699 [1:33:19<12:35,  2.03it/s] 86%|████████▌ | 9170/10699 [1:33:20<12:35,  2.03it/s] 86%|████████▌ | 9171/10699 [1:33:20<12:35,  2.02it/s] 86%|████████▌ | 9172/10699 [1:33:21<12:33,  2.03it/s] 86%|████████▌ | 9173/10699 [1:33:21<12:33,  2.02it/s] 86%|████████▌ | 9174/10699 [1:33:22<12:32,  2.03it/s] 86%|████████▌ | 9175/10699 [1:33:22<12:32,  2.02it/s]                                                      {'loss': 3.5815, 'grad_norm': 0.20146454870700836, 'learning_rate': 6.054539665407882e-05, 'epoch': 0.86}
- 86%|████████▌ | 9175/10699 [1:33:22<12:32,  2.02it/s] 86%|████████▌ | 9176/10699 [1:33:23<12:32,  2.02it/s] 86%|████████▌ | 9177/10699 [1:33:23<12:33,  2.02it/s] 86%|████████▌ | 9178/10699 [1:33:24<12:31,  2.02it/s] 86%|████████▌ | 9179/10699 [1:33:24<12:31,  2.02it/s] 86%|████████▌ | 9180/10699 [1:33:25<12:30,  2.02it/s] 86%|████████▌ | 9181/10699 [1:33:25<12:30,  2.02it/s] 86%|████████▌ | 9182/10699 [1:33:26<12:29,  2.02it/s] 86%|████████▌ | 9183/10699 [1:33:26<12:29,  2.02it/s] 86%|████████▌ | 9184/10699 [1:33:27<12:29,  2.02it/s] 86%|████████▌ | 9185/10699 [1:33:27<12:28,  2.02it/s] 86%|████████▌ | 9186/10699 [1:33:28<12:28,  2.02it/s] 86%|████████▌ | 9187/10699 [1:33:28<12:27,  2.02it/s] 86%|████████▌ | 9188/10699 [1:33:29<12:27,  2.02it/s] 86%|████████▌ | 9189/10699 [1:33:29<12:26,  2.02it/s] 86%|████████▌ | 9190/10699 [1:33:30<12:26,  2.02it/s] 86%|████████▌ | 9191/10699 [1:33:30<12:25,  2.02it/s] 86%|████████▌ | 9192/10699 [1:33:31<12:25,  2.02it/s] 86%|████████▌ | 9193/10699 [1:33:31<12:24,  2.02it/s] 86%|████████▌ | 9194/10699 [1:33:32<12:24,  2.02it/s] 86%|████████▌ | 9195/10699 [1:33:32<12:23,  2.02it/s] 86%|████████▌ | 9196/10699 [1:33:33<12:22,  2.02it/s] 86%|████████▌ | 9197/10699 [1:33:33<12:22,  2.02it/s] 86%|████████▌ | 9198/10699 [1:33:34<12:22,  2.02it/s] 86%|████████▌ | 9199/10699 [1:33:34<12:21,  2.02it/s] 86%|████████▌ | 9200/10699 [1:33:35<12:21,  2.02it/s]                                                      {'loss': 3.5784, 'grad_norm': 0.2004232257604599, 'learning_rate': 5.8614734035420945e-05, 'epoch': 0.86}
- 86%|████████▌ | 9200/10699 [1:33:35<12:21,  2.02it/s] 86%|████████▌ | 9201/10699 [1:33:35<12:21,  2.02it/s] 86%|████████▌ | 9202/10699 [1:33:35<12:20,  2.02it/s] 86%|████████▌ | 9203/10699 [1:33:36<12:19,  2.02it/s] 86%|████████▌ | 9204/10699 [1:33:36<12:19,  2.02it/s] 86%|████████▌ | 9205/10699 [1:33:37<12:19,  2.02it/s] 86%|████████▌ | 9206/10699 [1:33:37<12:17,  2.02it/s] 86%|████████▌ | 9207/10699 [1:33:38<12:18,  2.02it/s] 86%|████████▌ | 9208/10699 [1:33:38<12:17,  2.02it/s] 86%|████████▌ | 9209/10699 [1:33:39<12:17,  2.02it/s] 86%|████████▌ | 9210/10699 [1:33:39<12:15,  2.02it/s] 86%|████████▌ | 9211/10699 [1:33:40<12:15,  2.02it/s] 86%|████████▌ | 9212/10699 [1:33:40<12:14,  2.02it/s] 86%|████████▌ | 9213/10699 [1:33:41<12:13,  2.03it/s] 86%|████████▌ | 9214/10699 [1:33:41<12:13,  2.02it/s] 86%|████████▌ | 9215/10699 [1:33:42<12:12,  2.03it/s] 86%|████████▌ | 9216/10699 [1:33:42<12:13,  2.02it/s] 86%|████████▌ | 9217/10699 [1:33:43<12:12,  2.02it/s] 86%|████████▌ | 9218/10699 [1:33:43<12:12,  2.02it/s] 86%|████████▌ | 9219/10699 [1:33:44<12:10,  2.02it/s] 86%|████████▌ | 9220/10699 [1:33:44<12:10,  2.03it/s] 86%|████████▌ | 9221/10699 [1:33:45<12:09,  2.02it/s] 86%|████████▌ | 9222/10699 [1:33:45<12:08,  2.03it/s] 86%|████████▌ | 9223/10699 [1:33:46<12:08,  2.03it/s] 86%|████████▌ | 9224/10699 [1:33:46<12:07,  2.03it/s] 86%|████████▌ | 9225/10699 [1:33:47<12:07,  2.03it/s]                                                      {'loss': 3.5769, 'grad_norm': 0.19806116819381714, 'learning_rate': 5.6713436606632694e-05, 'epoch': 0.86}
- 86%|████████▌ | 9225/10699 [1:33:47<12:07,  2.03it/s] 86%|████████▌ | 9226/10699 [1:33:47<12:08,  2.02it/s] 86%|████████▌ | 9227/10699 [1:33:48<12:07,  2.02it/s] 86%|████████▋ | 9228/10699 [1:33:48<12:07,  2.02it/s] 86%|████████▋ | 9229/10699 [1:33:49<12:06,  2.02it/s] 86%|████████▋ | 9230/10699 [1:33:49<12:06,  2.02it/s] 86%|████████▋ | 9231/10699 [1:33:50<12:05,  2.02it/s] 86%|████████▋ | 9232/10699 [1:33:50<12:05,  2.02it/s] 86%|████████▋ | 9233/10699 [1:33:51<12:05,  2.02it/s] 86%|████████▋ | 9234/10699 [1:33:51<12:04,  2.02it/s] 86%|████████▋ | 9235/10699 [1:33:52<12:03,  2.02it/s] 86%|████████▋ | 9236/10699 [1:33:52<12:02,  2.02it/s] 86%|████████▋ | 9237/10699 [1:33:53<12:02,  2.02it/s] 86%|████████▋ | 9238/10699 [1:33:53<12:02,  2.02it/s] 86%|████████▋ | 9239/10699 [1:33:54<12:01,  2.02it/s] 86%|████████▋ | 9240/10699 [1:33:54<12:01,  2.02it/s] 86%|████████▋ | 9241/10699 [1:33:55<12:00,  2.02it/s] 86%|████████▋ | 9242/10699 [1:33:55<12:00,  2.02it/s] 86%|████████▋ | 9243/10699 [1:33:56<11:59,  2.02it/s] 86%|████████▋ | 9244/10699 [1:33:56<12:00,  2.02it/s] 86%|████████▋ | 9245/10699 [1:33:57<11:58,  2.02it/s] 86%|████████▋ | 9246/10699 [1:33:57<11:59,  2.02it/s] 86%|████████▋ | 9247/10699 [1:33:58<11:58,  2.02it/s] 86%|████████▋ | 9248/10699 [1:33:58<11:58,  2.02it/s] 86%|████████▋ | 9249/10699 [1:33:59<11:56,  2.02it/s] 86%|████████▋ | 9250/10699 [1:33:59<11:56,  2.02it/s]                                                      {'loss': 3.5767, 'grad_norm': 0.19677388668060303, 'learning_rate': 5.4841630860291644e-05, 'epoch': 0.86}
- 86%|████████▋ | 9250/10699 [1:33:59<11:56,  2.02it/s] 86%|████████▋ | 9251/10699 [1:34:00<11:56,  2.02it/s] 86%|████████▋ | 9252/10699 [1:34:00<11:55,  2.02it/s] 86%|████████▋ | 9253/10699 [1:34:01<11:55,  2.02it/s] 86%|████████▋ | 9254/10699 [1:34:01<11:54,  2.02it/s] 87%|████████▋ | 9255/10699 [1:34:02<11:53,  2.02it/s] 87%|████████▋ | 9256/10699 [1:34:02<11:53,  2.02it/s] 87%|████████▋ | 9257/10699 [1:34:03<11:53,  2.02it/s] 87%|████████▋ | 9258/10699 [1:34:03<11:52,  2.02it/s] 87%|████████▋ | 9259/10699 [1:34:04<11:52,  2.02it/s] 87%|████████▋ | 9260/10699 [1:34:04<11:50,  2.02it/s] 87%|████████▋ | 9261/10699 [1:34:05<11:51,  2.02it/s] 87%|████████▋ | 9262/10699 [1:34:05<11:49,  2.02it/s] 87%|████████▋ | 9263/10699 [1:34:06<11:49,  2.02it/s] 87%|████████▋ | 9264/10699 [1:34:06<11:49,  2.02it/s] 87%|████████▋ | 9265/10699 [1:34:07<11:49,  2.02it/s] 87%|████████▋ | 9266/10699 [1:34:07<11:48,  2.02it/s] 87%|████████▋ | 9267/10699 [1:34:08<11:47,  2.02it/s] 87%|████████▋ | 9268/10699 [1:34:08<11:47,  2.02it/s] 87%|████████▋ | 9269/10699 [1:34:09<11:47,  2.02it/s] 87%|████████▋ | 9270/10699 [1:34:09<11:46,  2.02it/s] 87%|████████▋ | 9271/10699 [1:34:10<11:45,  2.02it/s] 87%|████████▋ | 9272/10699 [1:34:10<11:44,  2.03it/s] 87%|████████▋ | 9273/10699 [1:34:11<11:44,  2.02it/s] 87%|████████▋ | 9274/10699 [1:34:11<11:44,  2.02it/s] 87%|████████▋ | 9275/10699 [1:34:12<11:43,  2.02it/s]                                                      {'loss': 3.5848, 'grad_norm': 0.1935417652130127, 'learning_rate': 5.299944132690509e-05, 'epoch': 0.87}
- 87%|████████▋ | 9275/10699 [1:34:12<11:43,  2.02it/s] 87%|████████▋ | 9276/10699 [1:34:12<11:43,  2.02it/s] 87%|████████▋ | 9277/10699 [1:34:13<11:42,  2.02it/s] 87%|████████▋ | 9278/10699 [1:34:13<11:42,  2.02it/s] 87%|████████▋ | 9279/10699 [1:34:14<11:41,  2.02it/s] 87%|████████▋ | 9280/10699 [1:34:14<11:41,  2.02it/s] 87%|████████▋ | 9281/10699 [1:34:15<11:40,  2.02it/s] 87%|████████▋ | 9282/10699 [1:34:15<11:40,  2.02it/s] 87%|████████▋ | 9283/10699 [1:34:16<11:39,  2.02it/s] 87%|████████▋ | 9284/10699 [1:34:16<11:39,  2.02it/s] 87%|████████▋ | 9285/10699 [1:34:17<11:39,  2.02it/s] 87%|████████▋ | 9286/10699 [1:34:17<11:38,  2.02it/s] 87%|████████▋ | 9287/10699 [1:34:18<11:37,  2.02it/s] 87%|████████▋ | 9288/10699 [1:34:18<11:37,  2.02it/s] 87%|████████▋ | 9289/10699 [1:34:18<11:37,  2.02it/s] 87%|████████▋ | 9290/10699 [1:34:19<11:36,  2.02it/s] 87%|████████▋ | 9291/10699 [1:34:19<11:35,  2.02it/s] 87%|████████▋ | 9292/10699 [1:34:20<11:35,  2.02it/s] 87%|████████▋ | 9293/10699 [1:34:20<11:35,  2.02it/s] 87%|████████▋ | 9294/10699 [1:34:21<11:35,  2.02it/s] 87%|████████▋ | 9295/10699 [1:34:21<11:35,  2.02it/s] 87%|████████▋ | 9296/10699 [1:34:22<11:34,  2.02it/s] 87%|████████▋ | 9297/10699 [1:34:22<11:33,  2.02it/s] 87%|████████▋ | 9298/10699 [1:34:23<11:32,  2.02it/s] 87%|████████▋ | 9299/10699 [1:34:23<11:32,  2.02it/s] 87%|████████▋ | 9300/10699 [1:34:24<11:31,  2.02it/s]{'loss': 3.5862, 'grad_norm': 0.19502489268779755, 'learning_rate': 5.118699056662551e-05, 'epoch': 0.87}                                                      
- 87%|████████▋ | 9300/10699 [1:34:24<11:31,  2.02it/s] 87%|████████▋ | 9301/10699 [1:34:24<11:31,  2.02it/s] 87%|████████▋ | 9302/10699 [1:34:25<11:30,  2.02it/s] 87%|████████▋ | 9303/10699 [1:34:25<11:30,  2.02it/s] 87%|████████▋ | 9304/10699 [1:34:26<11:29,  2.02it/s] 87%|████████▋ | 9305/10699 [1:34:26<11:30,  2.02it/s] 87%|████████▋ | 9306/10699 [1:34:27<11:28,  2.02it/s] 87%|████████▋ | 9307/10699 [1:34:27<11:29,  2.02it/s] 87%|████████▋ | 9308/10699 [1:34:28<11:27,  2.02it/s] 87%|████████▋ | 9309/10699 [1:34:28<11:27,  2.02it/s] 87%|████████▋ | 9310/10699 [1:34:29<11:26,  2.02it/s] 87%|████████▋ | 9311/10699 [1:34:29<11:25,  2.02it/s] 87%|████████▋ | 9312/10699 [1:34:30<11:25,  2.02it/s] 87%|████████▋ | 9313/10699 [1:34:30<11:25,  2.02it/s] 87%|████████▋ | 9314/10699 [1:34:31<11:25,  2.02it/s] 87%|████████▋ | 9315/10699 [1:34:31<11:24,  2.02it/s] 87%|████████▋ | 9316/10699 [1:34:32<11:24,  2.02it/s] 87%|████████▋ | 9317/10699 [1:34:32<11:23,  2.02it/s] 87%|████████▋ | 9318/10699 [1:34:33<11:23,  2.02it/s] 87%|████████▋ | 9319/10699 [1:34:33<11:22,  2.02it/s] 87%|████████▋ | 9320/10699 [1:34:34<11:21,  2.02it/s] 87%|████████▋ | 9321/10699 [1:34:34<11:21,  2.02it/s] 87%|████████▋ | 9322/10699 [1:34:35<11:20,  2.02it/s] 87%|████████▋ | 9323/10699 [1:34:35<11:21,  2.02it/s] 87%|████████▋ | 9324/10699 [1:34:36<11:20,  2.02it/s] 87%|████████▋ | 9325/10699 [1:34:36<11:19,  2.02it/s]{'loss': 3.5747, 'grad_norm': 0.19337892532348633, 'learning_rate': 4.940439916109607e-05, 'epoch': 0.87}
-                                                       87%|████████▋ | 9325/10699 [1:34:36<11:19,  2.02it/s] 87%|████████▋ | 9326/10699 [1:34:37<11:19,  2.02it/s] 87%|████████▋ | 9327/10699 [1:34:37<11:19,  2.02it/s] 87%|████████▋ | 9328/10699 [1:34:38<11:19,  2.02it/s] 87%|████████▋ | 9329/10699 [1:34:38<11:17,  2.02it/s] 87%|████████▋ | 9330/10699 [1:34:39<11:17,  2.02it/s] 87%|████████▋ | 9331/10699 [1:34:39<11:16,  2.02it/s] 87%|████████▋ | 9332/10699 [1:34:40<11:16,  2.02it/s] 87%|████████▋ | 9333/10699 [1:34:40<11:15,  2.02it/s] 87%|████████▋ | 9334/10699 [1:34:41<11:15,  2.02it/s] 87%|████████▋ | 9335/10699 [1:34:41<11:14,  2.02it/s] 87%|████████▋ | 9336/10699 [1:34:42<11:14,  2.02it/s] 87%|████████▋ | 9337/10699 [1:34:42<11:13,  2.02it/s] 87%|████████▋ | 9338/10699 [1:34:43<11:13,  2.02it/s] 87%|████████▋ | 9339/10699 [1:34:43<11:12,  2.02it/s] 87%|████████▋ | 9340/10699 [1:34:44<11:12,  2.02it/s] 87%|████████▋ | 9341/10699 [1:34:44<11:11,  2.02it/s] 87%|████████▋ | 9342/10699 [1:34:45<11:10,  2.02it/s] 87%|████████▋ | 9343/10699 [1:34:45<11:10,  2.02it/s] 87%|████████▋ | 9344/10699 [1:34:46<11:09,  2.02it/s] 87%|████████▋ | 9345/10699 [1:34:46<11:09,  2.02it/s] 87%|████████▋ | 9346/10699 [1:34:47<11:08,  2.02it/s] 87%|████████▋ | 9347/10699 [1:34:47<11:07,  2.02it/s] 87%|████████▋ | 9348/10699 [1:34:48<11:07,  2.02it/s] 87%|████████▋ | 9349/10699 [1:34:48<11:06,  2.02it/s] 87%|████████▋ | 9350/10699 [1:34:49<11:06,  2.02it/s]{'loss': 3.5822, 'grad_norm': 0.20223304629325867, 'learning_rate': 4.765178570542888e-05, 'epoch': 0.87}
-                                                       87%|████████▋ | 9350/10699 [1:34:49<11:06,  2.02it/s] 87%|████████▋ | 9351/10699 [1:34:49<11:06,  2.02it/s] 87%|████████▋ | 9352/10699 [1:34:50<11:07,  2.02it/s] 87%|████████▋ | 9353/10699 [1:34:50<11:06,  2.02it/s] 87%|████████▋ | 9354/10699 [1:34:51<11:05,  2.02it/s] 87%|████████▋ | 9355/10699 [1:34:51<11:04,  2.02it/s] 87%|████████▋ | 9356/10699 [1:34:52<11:04,  2.02it/s] 87%|████████▋ | 9357/10699 [1:34:52<11:03,  2.02it/s] 87%|████████▋ | 9358/10699 [1:34:53<11:02,  2.02it/s] 87%|████████▋ | 9359/10699 [1:34:53<11:02,  2.02it/s] 87%|████████▋ | 9360/10699 [1:34:54<11:01,  2.02it/s] 87%|████████▋ | 9361/10699 [1:34:54<11:01,  2.02it/s] 88%|████████▊ | 9362/10699 [1:34:55<11:01,  2.02it/s] 88%|████████▊ | 9363/10699 [1:34:55<11:01,  2.02it/s] 88%|████████▊ | 9364/10699 [1:34:56<11:00,  2.02it/s] 88%|████████▊ | 9365/10699 [1:34:56<11:00,  2.02it/s] 88%|████████▊ | 9366/10699 [1:34:57<10:59,  2.02it/s] 88%|████████▊ | 9367/10699 [1:34:57<10:58,  2.02it/s] 88%|████████▊ | 9368/10699 [1:34:58<10:57,  2.02it/s] 88%|████████▊ | 9369/10699 [1:34:58<10:57,  2.02it/s] 88%|████████▊ | 9370/10699 [1:34:59<10:57,  2.02it/s] 88%|████████▊ | 9371/10699 [1:34:59<10:56,  2.02it/s] 88%|████████▊ | 9372/10699 [1:35:00<10:57,  2.02it/s] 88%|████████▊ | 9373/10699 [1:35:00<10:56,  2.02it/s] 88%|████████▊ | 9374/10699 [1:35:01<10:55,  2.02it/s] 88%|████████▊ | 9375/10699 [1:35:01<10:54,  2.02it/s]                                                      {'loss': 3.5802, 'grad_norm': 0.19677715003490448, 'learning_rate': 4.5929266800314785e-05, 'epoch': 0.88}
- 88%|████████▊ | 9375/10699 [1:35:01<10:54,  2.02it/s] 88%|████████▊ | 9376/10699 [1:35:02<10:54,  2.02it/s] 88%|████████▊ | 9377/10699 [1:35:02<10:54,  2.02it/s] 88%|████████▊ | 9378/10699 [1:35:03<10:54,  2.02it/s] 88%|████████▊ | 9379/10699 [1:35:03<10:53,  2.02it/s] 88%|████████▊ | 9380/10699 [1:35:04<10:52,  2.02it/s] 88%|████████▊ | 9381/10699 [1:35:04<10:52,  2.02it/s] 88%|████████▊ | 9382/10699 [1:35:04<10:52,  2.02it/s] 88%|████████▊ | 9383/10699 [1:35:05<10:52,  2.02it/s] 88%|████████▊ | 9384/10699 [1:35:05<10:51,  2.02it/s] 88%|████████▊ | 9385/10699 [1:35:06<10:50,  2.02it/s] 88%|████████▊ | 9386/10699 [1:35:06<10:49,  2.02it/s] 88%|████████▊ | 9387/10699 [1:35:07<10:48,  2.02it/s] 88%|████████▊ | 9388/10699 [1:35:07<10:47,  2.02it/s] 88%|████████▊ | 9389/10699 [1:35:08<10:47,  2.02it/s] 88%|████████▊ | 9390/10699 [1:35:08<10:46,  2.02it/s] 88%|████████▊ | 9391/10699 [1:35:09<10:45,  2.03it/s] 88%|████████▊ | 9392/10699 [1:35:09<10:45,  2.02it/s] 88%|████████▊ | 9393/10699 [1:35:10<10:45,  2.02it/s] 88%|████████▊ | 9394/10699 [1:35:10<10:45,  2.02it/s] 88%|████████▊ | 9395/10699 [1:35:11<10:44,  2.02it/s] 88%|████████▊ | 9396/10699 [1:35:11<10:44,  2.02it/s] 88%|████████▊ | 9397/10699 [1:35:12<10:43,  2.02it/s] 88%|████████▊ | 9398/10699 [1:35:12<10:43,  2.02it/s] 88%|████████▊ | 9399/10699 [1:35:13<10:42,  2.02it/s] 88%|████████▊ | 9400/10699 [1:35:13<10:42,  2.02it/s]{'loss': 3.5704, 'grad_norm': 0.19618377089500427, 'learning_rate': 4.4236957044265616e-05, 'epoch': 0.88}
-                                                       88%|████████▊ | 9400/10699 [1:35:13<10:42,  2.02it/s] 88%|████████▊ | 9401/10699 [1:35:14<10:42,  2.02it/s] 88%|████████▊ | 9402/10699 [1:35:14<10:41,  2.02it/s] 88%|████████▊ | 9403/10699 [1:35:15<10:41,  2.02it/s] 88%|████████▊ | 9404/10699 [1:35:15<10:40,  2.02it/s] 88%|████████▊ | 9405/10699 [1:35:16<10:40,  2.02it/s] 88%|████████▊ | 9406/10699 [1:35:16<10:39,  2.02it/s] 88%|████████▊ | 9407/10699 [1:35:17<10:38,  2.02it/s] 88%|████████▊ | 9408/10699 [1:35:17<10:38,  2.02it/s] 88%|████████▊ | 9409/10699 [1:35:18<10:37,  2.02it/s] 88%|████████▊ | 9410/10699 [1:35:18<10:36,  2.03it/s] 88%|████████▊ | 9411/10699 [1:35:19<10:36,  2.02it/s] 88%|████████▊ | 9412/10699 [1:35:19<10:36,  2.02it/s] 88%|████████▊ | 9413/10699 [1:35:20<10:36,  2.02it/s] 88%|████████▊ | 9414/10699 [1:35:20<10:35,  2.02it/s] 88%|████████▊ | 9415/10699 [1:35:21<10:35,  2.02it/s] 88%|████████▊ | 9416/10699 [1:35:21<10:34,  2.02it/s] 88%|████████▊ | 9417/10699 [1:35:22<10:34,  2.02it/s] 88%|████████▊ | 9418/10699 [1:35:22<10:33,  2.02it/s] 88%|████████▊ | 9419/10699 [1:35:23<10:33,  2.02it/s] 88%|████████▊ | 9420/10699 [1:35:23<10:32,  2.02it/s] 88%|████████▊ | 9421/10699 [1:35:24<10:32,  2.02it/s] 88%|████████▊ | 9422/10699 [1:35:24<10:32,  2.02it/s] 88%|████████▊ | 9423/10699 [1:35:25<10:31,  2.02it/s] 88%|████████▊ | 9424/10699 [1:35:25<10:30,  2.02it/s] 88%|████████▊ | 9425/10699 [1:35:26<10:30,  2.02it/s]{'loss': 3.5839, 'grad_norm': 0.19722604751586914, 'learning_rate': 4.257496902599067e-05, 'epoch': 0.88}
-                                                       88%|████████▊ | 9425/10699 [1:35:26<10:30,  2.02it/s] 88%|████████▊ | 9426/10699 [1:35:26<10:30,  2.02it/s] 88%|████████▊ | 9427/10699 [1:35:27<10:29,  2.02it/s] 88%|████████▊ | 9428/10699 [1:35:27<10:28,  2.02it/s] 88%|████████▊ | 9429/10699 [1:35:28<10:28,  2.02it/s] 88%|████████▊ | 9430/10699 [1:35:28<10:27,  2.02it/s] 88%|████████▊ | 9431/10699 [1:35:29<10:27,  2.02it/s] 88%|████████▊ | 9432/10699 [1:35:29<10:27,  2.02it/s] 88%|████████▊ | 9433/10699 [1:35:30<10:26,  2.02it/s] 88%|████████▊ | 9434/10699 [1:35:30<10:25,  2.02it/s] 88%|████████▊ | 9435/10699 [1:35:31<10:25,  2.02it/s] 88%|████████▊ | 9436/10699 [1:35:31<10:24,  2.02it/s] 88%|████████▊ | 9437/10699 [1:35:32<10:23,  2.02it/s] 88%|████████▊ | 9438/10699 [1:35:32<10:24,  2.02it/s] 88%|████████▊ | 9439/10699 [1:35:33<10:23,  2.02it/s] 88%|████████▊ | 9440/10699 [1:35:33<10:22,  2.02it/s] 88%|████████▊ | 9441/10699 [1:35:34<10:21,  2.02it/s] 88%|████████▊ | 9442/10699 [1:35:34<10:21,  2.02it/s] 88%|████████▊ | 9443/10699 [1:35:35<10:21,  2.02it/s] 88%|████████▊ | 9444/10699 [1:35:35<10:19,  2.03it/s] 88%|████████▊ | 9445/10699 [1:35:36<10:19,  2.02it/s] 88%|████████▊ | 9446/10699 [1:35:36<10:19,  2.02it/s] 88%|████████▊ | 9447/10699 [1:35:37<10:18,  2.02it/s] 88%|████████▊ | 9448/10699 [1:35:37<10:18,  2.02it/s] 88%|████████▊ | 9449/10699 [1:35:38<10:17,  2.03it/s] 88%|████████▊ | 9450/10699 [1:35:38<10:16,  2.02it/s]{'loss': 3.5764, 'grad_norm': 0.1960003823041916, 'learning_rate': 4.094341331690538e-05, 'epoch': 0.88}
-                                                       88%|████████▊ | 9450/10699 [1:35:38<10:16,  2.02it/s] 88%|████████▊ | 9451/10699 [1:35:39<10:16,  2.02it/s] 88%|████████▊ | 9452/10699 [1:35:39<10:16,  2.02it/s] 88%|████████▊ | 9453/10699 [1:35:40<10:15,  2.02it/s] 88%|████████▊ | 9454/10699 [1:35:40<10:16,  2.02it/s] 88%|████████▊ | 9455/10699 [1:35:41<10:14,  2.02it/s] 88%|████████▊ | 9456/10699 [1:35:41<10:14,  2.02it/s] 88%|████████▊ | 9457/10699 [1:35:42<10:13,  2.02it/s] 88%|████████▊ | 9458/10699 [1:35:42<10:13,  2.02it/s] 88%|████████▊ | 9459/10699 [1:35:43<10:12,  2.02it/s] 88%|████████▊ | 9460/10699 [1:35:43<10:12,  2.02it/s] 88%|████████▊ | 9461/10699 [1:35:44<10:12,  2.02it/s] 88%|████████▊ | 9462/10699 [1:35:44<10:11,  2.02it/s] 88%|████████▊ | 9463/10699 [1:35:45<10:11,  2.02it/s] 88%|████████▊ | 9464/10699 [1:35:45<10:11,  2.02it/s] 88%|████████▊ | 9465/10699 [1:35:46<10:10,  2.02it/s] 88%|████████▊ | 9466/10699 [1:35:46<10:10,  2.02it/s] 88%|████████▊ | 9467/10699 [1:35:47<10:08,  2.02it/s] 88%|████████▊ | 9468/10699 [1:35:47<10:08,  2.02it/s] 89%|████████▊ | 9469/10699 [1:35:48<10:07,  2.02it/s] 89%|████████▊ | 9470/10699 [1:35:48<10:06,  2.03it/s] 89%|████████▊ | 9471/10699 [1:35:49<10:06,  2.02it/s] 89%|████████▊ | 9472/10699 [1:35:49<10:05,  2.03it/s] 89%|████████▊ | 9473/10699 [1:35:49<10:05,  2.02it/s] 89%|████████▊ | 9474/10699 [1:35:50<10:04,  2.03it/s] 89%|████████▊ | 9475/10699 [1:35:50<10:04,  2.03it/s]                                                      {'loss': 3.5795, 'grad_norm': 0.1976975053548813, 'learning_rate': 3.934239846377591e-05, 'epoch': 0.89}
- 89%|████████▊ | 9475/10699 [1:35:50<10:04,  2.03it/s] 89%|████████▊ | 9476/10699 [1:35:51<10:04,  2.02it/s] 89%|████████▊ | 9477/10699 [1:35:51<10:03,  2.02it/s] 89%|████████▊ | 9478/10699 [1:35:52<10:03,  2.02it/s] 89%|████████▊ | 9479/10699 [1:35:52<10:03,  2.02it/s] 89%|████████▊ | 9480/10699 [1:35:53<10:02,  2.02it/s] 89%|████████▊ | 9481/10699 [1:35:53<10:03,  2.02it/s] 89%|████��███▊ | 9482/10699 [1:35:54<10:02,  2.02it/s] 89%|████████▊ | 9483/10699 [1:35:54<10:01,  2.02it/s] 89%|████████▊ | 9484/10699 [1:35:55<10:01,  2.02it/s] 89%|████████▊ | 9485/10699 [1:35:55<10:00,  2.02it/s] 89%|████████▊ | 9486/10699 [1:35:56<10:00,  2.02it/s] 89%|████████▊ | 9487/10699 [1:35:56<09:59,  2.02it/s] 89%|████████▊ | 9488/10699 [1:35:57<09:59,  2.02it/s] 89%|████████▊ | 9489/10699 [1:35:57<09:58,  2.02it/s] 89%|████████▊ | 9490/10699 [1:35:58<09:57,  2.02it/s] 89%|████████▊ | 9491/10699 [1:35:58<09:56,  2.02it/s] 89%|████████▊ | 9492/10699 [1:35:59<09:55,  2.03it/s] 89%|████████▊ | 9493/10699 [1:35:59<09:55,  2.02it/s] 89%|████████▊ | 9494/10699 [1:36:00<09:55,  2.02it/s] 89%|████████▊ | 9495/10699 [1:36:00<09:54,  2.02it/s] 89%|████████▉ | 9496/10699 [1:36:01<09:54,  2.03it/s] 89%|████████▉ | 9497/10699 [1:36:01<09:53,  2.03it/s] 89%|████████▉ | 9498/10699 [1:36:02<09:53,  2.02it/s] 89%|████████▉ | 9499/10699 [1:36:02<09:52,  2.03it/s] 89%|████████▉ | 9500/10699 [1:36:03<09:52,  2.02it/s]{'loss': 3.5709, 'grad_norm': 0.19796122610569, 'learning_rate': 3.777203098149701e-05, 'epoch': 0.89}
-                                                       89%|████████▉ | 9500/10699 [1:36:03<09:52,  2.02it/s] 89%|████████▉ | 9501/10699 [1:36:03<09:53,  2.02it/s] 89%|████████▉ | 9502/10699 [1:36:04<09:53,  2.02it/s] 89%|████████▉ | 9503/10699 [1:36:04<09:52,  2.02it/s] 89%|████████▉ | 9504/10699 [1:36:05<09:51,  2.02it/s] 89%|████████▉ | 9505/10699 [1:36:05<09:50,  2.02it/s] 89%|████████▉ | 9506/10699 [1:36:06<09:49,  2.02it/s] 89%|████████▉ | 9507/10699 [1:36:06<09:48,  2.03it/s] 89%|████████▉ | 9508/10699 [1:36:07<09:48,  2.02it/s] 89%|████████▉ | 9509/10699 [1:36:07<09:47,  2.03it/s] 89%|████████▉ | 9510/10699 [1:36:08<09:46,  2.03it/s] 89%|████████▉ | 9511/10699 [1:36:08<09:46,  2.02it/s] 89%|████████▉ | 9512/10699 [1:36:09<09:46,  2.02it/s] 89%|████████▉ | 9513/10699 [1:36:09<09:46,  2.02it/s] 89%|████████▉ | 9514/10699 [1:36:10<09:45,  2.02it/s] 89%|████████▉ | 9515/10699 [1:36:10<09:45,  2.02it/s] 89%|████████▉ | 9516/10699 [1:36:11<09:43,  2.03it/s] 89%|████████▉ | 9517/10699 [1:36:11<09:44,  2.02it/s] 89%|████████▉ | 9518/10699 [1:36:12<09:43,  2.03it/s] 89%|████████▉ | 9519/10699 [1:36:12<09:42,  2.02it/s] 89%|████████▉ | 9520/10699 [1:36:13<09:42,  2.03it/s] 89%|████████▉ | 9521/10699 [1:36:13<09:41,  2.02it/s] 89%|████████▉ | 9522/10699 [1:36:14<09:41,  2.02it/s] 89%|████████▉ | 9523/10699 [1:36:14<09:40,  2.02it/s] 89%|████████▉ | 9524/10699 [1:36:15<09:40,  2.02it/s] 89%|████████▉ | 9525/10699 [1:36:15<09:39,  2.02it/s]                                                      {'loss': 3.5889, 'grad_norm': 0.1973457634449005, 'learning_rate': 3.6232415346005685e-05, 'epoch': 0.89}
- 89%|████████▉ | 9525/10699 [1:36:15<09:39,  2.02it/s] 89%|████████▉ | 9526/10699 [1:36:16<09:40,  2.02it/s] 89%|████████▉ | 9527/10699 [1:36:16<09:40,  2.02it/s] 89%|████████▉ | 9528/10699 [1:36:17<09:39,  2.02it/s] 89%|████████▉ | 9529/10699 [1:36:17<09:38,  2.02it/s] 89%|████████▉ | 9530/10699 [1:36:18<09:38,  2.02it/s] 89%|████████▉ | 9531/10699 [1:36:18<09:37,  2.02it/s] 89%|████████▉ | 9532/10699 [1:36:19<09:37,  2.02it/s] 89%|████████▉ | 9533/10699 [1:36:19<09:37,  2.02it/s] 89%|████████▉ | 9534/10699 [1:36:20<09:36,  2.02it/s] 89%|████████▉ | 9535/10699 [1:36:20<09:35,  2.02it/s] 89%|████████▉ | 9536/10699 [1:36:21<09:35,  2.02it/s] 89%|████████▉ | 9537/10699 [1:36:21<09:34,  2.02it/s] 89%|████████▉ | 9538/10699 [1:36:22<09:33,  2.02it/s] 89%|████████▉ | 9539/10699 [1:36:22<09:33,  2.02it/s] 89%|████████▉ | 9540/10699 [1:36:23<09:32,  2.02it/s] 89%|████████▉ | 9541/10699 [1:36:23<09:32,  2.02it/s] 89%|████████▉ | 9542/10699 [1:36:24<09:31,  2.02it/s] 89%|████████▉ | 9543/10699 [1:36:24<09:31,  2.02it/s] 89%|████████▉ | 9544/10699 [1:36:25<09:31,  2.02it/s] 89%|████████▉ | 9545/10699 [1:36:25<09:30,  2.02it/s] 89%|████████▉ | 9546/10699 [1:36:26<09:30,  2.02it/s] 89%|████████▉ | 9547/10699 [1:36:26<09:29,  2.02it/s] 89%|████████▉ | 9548/10699 [1:36:27<09:28,  2.03it/s] 89%|████████▉ | 9549/10699 [1:36:27<09:28,  2.02it/s] 89%|████████▉ | 9550/10699 [1:36:28<09:27,  2.02it/s]{'loss': 3.5807, 'grad_norm': 0.19307738542556763, 'learning_rate': 3.4723653987330794e-05, 'epoch': 0.89}
-                                                       89%|████████▉ | 9550/10699 [1:36:28<09:27,  2.02it/s] 89%|████████▉ | 9551/10699 [1:36:28<09:28,  2.02it/s] 89%|████████▉ | 9552/10699 [1:36:29<09:26,  2.02it/s] 89%|████████▉ | 9553/10699 [1:36:29<09:26,  2.02it/s] 89%|████████▉ | 9554/10699 [1:36:30<09:25,  2.02it/s] 89%|████████▉ | 9555/10699 [1:36:30<09:25,  2.02it/s] 89%|████████▉ | 9556/10699 [1:36:31<09:25,  2.02it/s] 89%|████████▉ | 9557/10699 [1:36:31<09:24,  2.02it/s] 89%|████████▉ | 9558/10699 [1:36:32<09:24,  2.02it/s] 89%|████████▉ | 9559/10699 [1:36:32<09:23,  2.02it/s] 89%|████████▉ | 9560/10699 [1:36:33<09:23,  2.02it/s] 89%|████████▉ | 9561/10699 [1:36:33<09:22,  2.02it/s] 89%|████████▉ | 9562/10699 [1:36:33<09:22,  2.02it/s] 89%|████████▉ | 9563/10699 [1:36:34<09:21,  2.02it/s] 89%|████████▉ | 9564/10699 [1:36:34<09:21,  2.02it/s] 89%|████████▉ | 9565/10699 [1:36:35<09:20,  2.02it/s] 89%|████████▉ | 9566/10699 [1:36:35<09:20,  2.02it/s] 89%|████████▉ | 9567/10699 [1:36:36<09:19,  2.02it/s] 89%|████████▉ | 9568/10699 [1:36:36<09:19,  2.02it/s] 89%|████████▉ | 9569/10699 [1:36:37<09:18,  2.02it/s] 89%|████████▉ | 9570/10699 [1:36:37<09:19,  2.02it/s] 89%|████████▉ | 9571/10699 [1:36:38<09:18,  2.02it/s] 89%|████████▉ | 9572/10699 [1:36:38<09:17,  2.02it/s] 89%|████████▉ | 9573/10699 [1:36:39<09:17,  2.02it/s] 89%|████████▉ | 9574/10699 [1:36:39<09:17,  2.02it/s] 89%|████████▉ | 9575/10699 [1:36:40<09:15,  2.02it/s]                                                      {'loss': 3.5739, 'grad_norm': 0.19782809913158417, 'learning_rate': 3.32458472827778e-05, 'epoch': 0.89}
- 89%|████████▉ | 9575/10699 [1:36:40<09:15,  2.02it/s] 90%|████████▉ | 9576/10699 [1:36:40<09:16,  2.02it/s] 90%|████████▉ | 9577/10699 [1:36:41<09:15,  2.02it/s] 90%|████████▉ | 9578/10699 [1:36:41<09:14,  2.02it/s] 90%|████████▉ | 9579/10699 [1:36:42<09:14,  2.02it/s] 90%|████████▉ | 9580/10699 [1:36:42<09:13,  2.02it/s] 90%|████████▉ | 9581/10699 [1:36:43<09:12,  2.02it/s] 90%|████████▉ | 9582/10699 [1:36:43<09:12,  2.02it/s] 90%|████████▉ | 9583/10699 [1:36:44<09:11,  2.02it/s] 90%|████████▉ | 9584/10699 [1:36:44<09:10,  2.02it/s] 90%|████████▉ | 9585/10699 [1:36:45<09:10,  2.02it/s] 90%|████████▉ | 9586/10699 [1:36:45<09:10,  2.02it/s] 90%|████████▉ | 9587/10699 [1:36:46<09:09,  2.02it/s] 90%|████████▉ | 9588/10699 [1:36:46<09:09,  2.02it/s] 90%|████████▉ | 9589/10699 [1:36:47<09:08,  2.02it/s] 90%|████████▉ | 9590/10699 [1:36:47<09:08,  2.02it/s] 90%|████████▉ | 9591/10699 [1:36:48<09:08,  2.02it/s] 90%|████████▉ | 9592/10699 [1:36:48<09:07,  2.02it/s] 90%|████████▉ | 9593/10699 [1:36:49<09:07,  2.02it/s] 90%|████████▉ | 9594/10699 [1:36:49<09:06,  2.02it/s] 90%|████████▉ | 9595/10699 [1:36:50<09:06,  2.02it/s] 90%|████████▉ | 9596/10699 [1:36:50<09:05,  2.02it/s] 90%|████████▉ | 9597/10699 [1:36:51<09:04,  2.02it/s] 90%|████████▉ | 9598/10699 [1:36:51<09:04,  2.02it/s] 90%|████████▉ | 9599/10699 [1:36:52<09:03,  2.02it/s] 90%|████████▉ | 9600/10699 [1:36:52<09:03,  2.02it/s]{'loss': 3.576, 'grad_norm': 0.191671222448349, 'learning_rate': 3.17990935502514e-05, 'epoch': 0.9}
-                                                       90%|████████▉ | 9600/10699 [1:36:52<09:03,  2.02it/s] 90%|████████▉ | 9601/10699 [1:36:53<09:03,  2.02it/s] 90%|████████▉ | 9602/10699 [1:36:53<09:02,  2.02it/s] 90%|████████▉ | 9603/10699 [1:36:54<09:02,  2.02it/s] 90%|████████▉ | 9604/10699 [1:36:54<09:01,  2.02it/s] 90%|████████▉ | 9605/10699 [1:36:55<09:02,  2.02it/s] 90%|████████▉ | 9606/10699 [1:36:55<09:00,  2.02it/s] 90%|████████▉ | 9607/10699 [1:36:56<09:00,  2.02it/s] 90%|████████▉ | 9608/10699 [1:36:56<08:58,  2.02it/s] 90%|████████▉ | 9609/10699 [1:36:57<08:58,  2.02it/s] 90%|████████▉ | 9610/10699 [1:36:57<08:58,  2.02it/s] 90%|████████▉ | 9611/10699 [1:36:58<08:58,  2.02it/s] 90%|████████▉ | 9612/10699 [1:36:58<08:57,  2.02it/s] 90%|████████▉ | 9613/10699 [1:36:59<08:56,  2.02it/s] 90%|████████▉ | 9614/10699 [1:36:59<08:56,  2.02it/s] 90%|████████▉ | 9615/10699 [1:37:00<08:54,  2.03it/s] 90%|████████▉ | 9616/10699 [1:37:00<08:54,  2.03it/s] 90%|████████▉ | 9617/10699 [1:37:01<08:53,  2.03it/s] 90%|████████▉ | 9618/10699 [1:37:01<08:53,  2.03it/s] 90%|████████▉ | 9619/10699 [1:37:02<08:52,  2.03it/s] 90%|████████▉ | 9620/10699 [1:37:02<08:52,  2.03it/s] 90%|████████▉ | 9621/10699 [1:37:03<08:53,  2.02it/s] 90%|████████▉ | 9622/10699 [1:37:03<08:52,  2.02it/s] 90%|████████▉ | 9623/10699 [1:37:04<08:52,  2.02it/s] 90%|████████▉ | 9624/10699 [1:37:04<08:51,  2.02it/s] 90%|████████▉ | 9625/10699 [1:37:05<08:51,  2.02it/s]{'loss': 3.5699, 'grad_norm': 0.19464237987995148, 'learning_rate': 3.0383489041714175e-05, 'epoch': 0.9}
-                                                       90%|████████▉ | 9625/10699 [1:37:05<08:51,  2.02it/s] 90%|████████▉ | 9626/10699 [1:37:05<08:50,  2.02it/s] 90%|████████▉ | 9627/10699 [1:37:06<08:50,  2.02it/s] 90%|████████▉ | 9628/10699 [1:37:06<08:49,  2.02it/s] 90%|████████▉ | 9629/10699 [1:37:07<08:49,  2.02it/s] 90%|█████████ | 9630/10699 [1:37:07<08:48,  2.02it/s] 90%|█████████ | 9631/10699 [1:37:08<08:47,  2.03it/s] 90%|█████████ | 9632/10699 [1:37:08<08:47,  2.02it/s] 90%|█████████ | 9633/10699 [1:37:09<08:46,  2.03it/s] 90%|█████████ | 9634/10699 [1:37:09<08:46,  2.02it/s] 90%|█████████ | 9635/10699 [1:37:10<08:45,  2.02it/s] 90%|█████████ | 9636/10699 [1:37:10<08:45,  2.02it/s] 90%|█████████ | 9637/10699 [1:37:11<08:45,  2.02it/s] 90%|█████████ | 9638/10699 [1:37:11<08:45,  2.02it/s] 90%|█████████ | 9639/10699 [1:37:12<08:44,  2.02it/s] 90%|█████████ | 9640/10699 [1:37:12<08:43,  2.02it/s] 90%|█████████ | 9641/10699 [1:37:13<08:42,  2.02it/s] 90%|█████████ | 9642/10699 [1:37:13<08:42,  2.02it/s] 90%|█████████ | 9643/10699 [1:37:14<08:42,  2.02it/s] 90%|█████████ | 9644/10699 [1:37:14<08:41,  2.02it/s] 90%|█████████ | 9645/10699 [1:37:15<08:41,  2.02it/s] 90%|█████████ | 9646/10699 [1:37:15<08:40,  2.02it/s] 90%|█████████ | 9647/10699 [1:37:16<08:40,  2.02it/s] 90%|█████████ | 9648/10699 [1:37:16<08:39,  2.02it/s] 90%|█████████ | 9649/10699 [1:37:17<08:39,  2.02it/s] 90%|█████████ | 9650/10699 [1:37:17<08:38,  2.02it/s]{'loss': 3.5736, 'grad_norm': 0.19061130285263062, 'learning_rate': 2.8999127936782666e-05, 'epoch': 0.9}
-                                                       90%|█████████ | 9650/10699 [1:37:17<08:38,  2.02it/s] 90%|█████████ | 9651/10699 [1:37:18<08:38,  2.02it/s] 90%|█████████ | 9652/10699 [1:37:18<10:05,  1.73it/s] 90%|█████████ | 9653/10699 [1:37:19<09:38,  1.81it/s] 90%|█████████ | 9654/10699 [1:37:19<09:19,  1.87it/s] 90%|█████████ | 9655/10699 [1:37:20<09:05,  1.91it/s] 90%|█████████ | 9656/10699 [1:37:20<08:56,  1.94it/s] 90%|█████████ | 9657/10699 [1:37:21<08:49,  1.97it/s] 90%|█████████ | 9658/10699 [1:37:21<08:44,  1.98it/s] 90%|█████████ | 9659/10699 [1:37:22<08:40,  2.00it/s] 90%|█████████ | 9660/10699 [1:37:22<08:38,  2.00it/s] 90%|█████████ | 9661/10699 [1:37:23<08:36,  2.01it/s] 90%|█████████ | 9662/10699 [1:37:23<08:35,  2.01it/s] 90%|█████████ | 9663/10699 [1:37:24<08:33,  2.02it/s] 90%|█████████ | 9664/10699 [1:37:24<08:32,  2.02it/s] 90%|█████████ | 9665/10699 [1:37:25<08:31,  2.02it/s] 90%|█████████ | 9666/10699 [1:37:25<08:31,  2.02it/s] 90%|█████████ | 9667/10699 [1:37:26<08:31,  2.02it/s] 90%|█████████ | 9668/10699 [1:37:26<08:30,  2.02it/s] 90%|█████████ | 9669/10699 [1:37:27<08:29,  2.02it/s] 90%|█████████ | 9670/10699 [1:37:27<08:28,  2.02it/s] 90%|█████████ | 9671/10699 [1:37:28<08:29,  2.02it/s] 90%|█████████ | 9672/10699 [1:37:28<08:28,  2.02it/s] 90%|█████████ | 9673/10699 [1:37:29<08:28,  2.02it/s] 90%|█████████ | 9674/10699 [1:37:29<08:27,  2.02it/s] 90%|█████████ | 9675/10699 [1:37:30<08:26,  2.02it/s]{'loss': 3.5858, 'grad_norm': 0.19226576387882233, 'learning_rate': 2.7646102336462254e-05, 'epoch': 0.9}
-                                                       90%|█████████ | 9675/10699 [1:37:30<08:26,  2.02it/s] 90%|█████████ | 9676/10699 [1:37:30<08:26,  2.02it/s] 90%|█████████ | 9677/10699 [1:37:31<08:26,  2.02it/s] 90%|█████████ | 9678/10699 [1:37:31<08:25,  2.02it/s] 90%|█████████ | 9679/10699 [1:37:32<08:24,  2.02it/s] 90%|█████████ | 9680/10699 [1:37:32<08:24,  2.02it/s] 90%|█████████ | 9681/10699 [1:37:33<08:23,  2.02it/s] 90%|█████████ | 9682/10699 [1:37:33<08:23,  2.02it/s] 91%|█████████ | 9683/10699 [1:37:34<08:21,  2.02it/s] 91%|█████████ | 9684/10699 [1:37:34<08:21,  2.02it/s] 91%|█████████ | 9685/10699 [1:37:35<08:20,  2.02it/s] 91%|█████████ | 9686/10699 [1:37:35<08:19,  2.03it/s] 91%|█████████ | 9687/10699 [1:37:36<08:20,  2.02it/s] 91%|█████████ | 9688/10699 [1:37:36<08:19,  2.03it/s] 91%|█████████ | 9689/10699 [1:37:37<08:18,  2.02it/s] 91%|█████████ | 9690/10699 [1:37:37<08:18,  2.02it/s] 91%|█████████ | 9691/10699 [1:37:38<08:17,  2.03it/s] 91%|█████████ | 9692/10699 [1:37:38<08:17,  2.02it/s] 91%|█████████ | 9693/10699 [1:37:39<08:16,  2.03it/s] 91%|█████████ | 9694/10699 [1:37:39<09:42,  1.73it/s] 91%|█████████ | 9695/10699 [1:37:40<09:15,  1.81it/s] 91%|█████████ | 9696/10699 [1:37:40<08:57,  1.87it/s] 91%|█████████ | 9697/10699 [1:37:41<08:44,  1.91it/s] 91%|█████████ | 9698/10699 [1:37:41<08:35,  1.94it/s] 91%|█████████ | 9699/10699 [1:37:42<08:28,  1.97it/s] 91%|█████████ | 9700/10699 [1:37:42<08:24,  1.98it/s]{'loss': 3.5843, 'grad_norm': 0.20433957874774933, 'learning_rate': 2.6324502257019047e-05, 'epoch': 0.91}
-                                                       91%|█████████ | 9700/10699 [1:37:42<08:24,  1.98it/s] 91%|█████████ | 9701/10699 [1:37:43<08:21,  1.99it/s] 91%|█████████ | 9702/10699 [1:37:43<08:18,  2.00it/s] 91%|█████████ | 9703/10699 [1:37:44<08:15,  2.01it/s] 91%|█████████ | 9704/10699 [1:37:44<08:14,  2.01it/s] 91%|█████████ | 9705/10699 [1:37:45<08:12,  2.02it/s] 91%|█████████ | 9706/10699 [1:37:45<08:11,  2.02it/s] 91%|█████████ | 9707/10699 [1:37:46<08:10,  2.02it/s] 91%|█████████ | 9708/10699 [1:37:46<08:10,  2.02it/s] 91%|█████████ | 9709/10699 [1:37:47<08:09,  2.02it/s] 91%|█████████ | 9710/10699 [1:37:47<08:09,  2.02it/s] 91%|█████████ | 9711/10699 [1:37:48<08:08,  2.02it/s] 91%|█████████ | 9712/10699 [1:37:48<08:07,  2.02it/s] 91%|█████████ | 9713/10699 [1:37:49<08:07,  2.02it/s] 91%|█████████ | 9714/10699 [1:37:49<08:06,  2.02it/s] 91%|█████████ | 9715/10699 [1:37:50<08:06,  2.02it/s] 91%|█████████ | 9716/10699 [1:37:50<08:05,  2.03it/s] 91%|█████████ | 9717/10699 [1:37:51<08:05,  2.02it/s] 91%|█████████ | 9718/10699 [1:37:51<08:04,  2.02it/s] 91%|█████████ | 9719/10699 [1:37:52<08:04,  2.02it/s] 91%|█████████ | 9720/10699 [1:37:52<08:03,  2.03it/s] 91%|█████████ | 9721/10699 [1:37:53<08:02,  2.03it/s] 91%|█████████ | 9722/10699 [1:37:53<08:02,  2.02it/s] 91%|█████████ | 9723/10699 [1:37:54<08:02,  2.02it/s] 91%|█████████ | 9724/10699 [1:37:54<08:01,  2.03it/s] 91%|█████████ | 9725/10699 [1:37:55<08:01,  2.02it/s]{'loss': 3.5733, 'grad_norm': 0.19357822835445404, 'learning_rate': 2.5034415623991947e-05, 'epoch': 0.91}
-                                                       91%|█████████ | 9725/10699 [1:37:55<08:01,  2.02it/s] 91%|█████████ | 9726/10699 [1:37:55<08:01,  2.02it/s] 91%|█████████ | 9727/10699 [1:37:56<08:00,  2.02it/s] 91%|█████████ | 9728/10699 [1:37:56<08:00,  2.02it/s] 91%|█████████ | 9729/10699 [1:37:57<07:59,  2.02it/s] 91%|█████████ | 9730/10699 [1:37:57<07:59,  2.02it/s] 91%|█████████ | 9731/10699 [1:37:58<07:59,  2.02it/s] 91%|█████████ | 9732/10699 [1:37:58<07:58,  2.02it/s] 91%|█████████ | 9733/10699 [1:37:59<07:58,  2.02it/s] 91%|█████████ | 9734/10699 [1:37:59<07:57,  2.02it/s] 91%|█████████ | 9735/10699 [1:38:00<07:56,  2.02it/s] 91%|█████████ | 9736/10699 [1:38:00<07:56,  2.02it/s] 91%|█████████ | 9737/10699 [1:38:01<07:55,  2.02it/s] 91%|█████████ | 9738/10699 [1:38:01<07:55,  2.02it/s] 91%|█████████ | 9739/10699 [1:38:02<07:54,  2.02it/s] 91%|█████████ | 9740/10699 [1:38:02<07:54,  2.02it/s] 91%|█████████ | 9741/10699 [1:38:03<07:53,  2.02it/s] 91%|█████████ | 9742/10699 [1:38:03<07:53,  2.02it/s] 91%|█████████ | 9743/10699 [1:38:04<07:52,  2.02it/s] 91%|█████████ | 9744/10699 [1:38:04<07:52,  2.02it/s] 91%|█████████ | 9745/10699 [1:38:05<07:51,  2.02it/s] 91%|█████████ | 9746/10699 [1:38:05<07:50,  2.02it/s] 91%|█████████ | 9747/10699 [1:38:06<07:50,  2.02it/s] 91%|█████████ | 9748/10699 [1:38:06<07:49,  2.03it/s] 91%|█████████ | 9749/10699 [1:38:07<07:49,  2.02it/s] 91%|█████████ | 9750/10699 [1:38:07<07:48,  2.03it/s]{'loss': 3.5673, 'grad_norm': 0.19688300788402557, 'learning_rate': 2.3775928266342172e-05, 'epoch': 0.91}                                                      
- 91%|█████████ | 9750/10699 [1:38:07<07:48,  2.03it/s] 91%|█████████ | 9751/10699 [1:38:08<07:49,  2.02it/s] 91%|█████████ | 9752/10699 [1:38:08<07:47,  2.02it/s] 91%|█████████ | 9753/10699 [1:38:08<07:47,  2.02it/s] 91%|█████████ | 9754/10699 [1:38:09<07:47,  2.02it/s] 91%|█████████ | 9755/10699 [1:38:09<07:46,  2.02it/s] 91%|█████████ | 9756/10699 [1:38:10<07:46,  2.02it/s] 91%|█████████ | 9757/10699 [1:38:10<07:45,  2.02it/s] 91%|█████████ | 9758/10699 [1:38:11<07:45,  2.02it/s] 91%|█████████ | 9759/10699 [1:38:11<07:44,  2.02it/s] 91%|█████████ | 9760/10699 [1:38:12<07:43,  2.02it/s] 91%|█████████ | 9761/10699 [1:38:12<07:43,  2.02it/s] 91%|█████████ | 9762/10699 [1:38:13<07:43,  2.02it/s] 91%|█████████▏| 9763/10699 [1:38:13<07:42,  2.02it/s] 91%|█████████▏| 9764/10699 [1:38:14<07:41,  2.02it/s] 91%|█████████▏| 9765/10699 [1:38:14<07:41,  2.02it/s] 91%|█████████▏| 9766/10699 [1:38:15<07:41,  2.02it/s] 91%|█████████▏| 9767/10699 [1:38:15<07:40,  2.02it/s] 91%|█████████▏| 9768/10699 [1:38:16<07:40,  2.02it/s] 91%|█████████▏| 9769/10699 [1:38:16<07:40,  2.02it/s] 91%|█████████▏| 9770/10699 [1:38:17<07:38,  2.02it/s] 91%|█████████▏| 9771/10699 [1:38:17<07:38,  2.02it/s] 91%|█████████▏| 9772/10699 [1:38:18<07:37,  2.02it/s] 91%|█████████▏| 9773/10699 [1:38:18<07:37,  2.03it/s] 91%|█████████▏| 9774/10699 [1:38:19<07:37,  2.02it/s] 91%|█████████▏| 9775/10699 [1:38:19<07:36,  2.03it/s]{'loss': 3.5734, 'grad_norm': 0.1932423859834671, 'learning_rate': 2.2549123910743652e-05, 'epoch': 0.91}
-                                                       91%|█████████▏| 9775/10699 [1:38:19<07:36,  2.03it/s] 91%|█████████▏| 9776/10699 [1:38:20<07:36,  2.02it/s] 91%|█████████▏| 9777/10699 [1:38:20<07:35,  2.02it/s] 91%|█████████▏| 9778/10699 [1:38:21<07:35,  2.02it/s] 91%|█████████▏| 9779/10699 [1:38:21<07:34,  2.02it/s] 91%|█████████▏| 9780/10699 [1:38:22<07:34,  2.02it/s] 91%|█████████▏| 9781/10699 [1:38:22<07:33,  2.02it/s] 91%|█████████▏| 9782/10699 [1:38:23<07:33,  2.02it/s] 91%|█████████▏| 9783/10699 [1:38:23<07:32,  2.02it/s] 91%|█████████▏| 9784/10699 [1:38:24<07:32,  2.02it/s] 91%|█████████▏| 9785/10699 [1:38:24<07:32,  2.02it/s] 91%|█████████▏| 9786/10699 [1:38:25<07:32,  2.02it/s] 91%|█████████▏| 9787/10699 [1:38:25<07:30,  2.02it/s] 91%|█████████▏| 9788/10699 [1:38:26<07:30,  2.02it/s] 91%|█████████▏| 9789/10699 [1:38:26<07:29,  2.02it/s] 92%|█████████▏| 9790/10699 [1:38:27<07:30,  2.02it/s] 92%|█████████▏| 9791/10699 [1:38:27<07:29,  2.02it/s] 92%|█████████▏| 9792/10699 [1:38:28<07:28,  2.02it/s] 92%|███████���█▏| 9793/10699 [1:38:28<07:27,  2.02it/s] 92%|█████████▏| 9794/10699 [1:38:29<07:27,  2.02it/s] 92%|█████████▏| 9795/10699 [1:38:29<07:26,  2.02it/s] 92%|█████████▏| 9796/10699 [1:38:30<07:26,  2.02it/s] 92%|█████████▏| 9797/10699 [1:38:30<07:25,  2.02it/s] 92%|█████████▏| 9798/10699 [1:38:31<07:25,  2.02it/s] 92%|█████████▏| 9799/10699 [1:38:31<07:24,  2.02it/s] 92%|█████████▏| 9800/10699 [1:38:32<07:24,  2.02it/s]{'loss': 3.5709, 'grad_norm': 0.20092228055000305, 'learning_rate': 2.135408417601231e-05, 'epoch': 0.92}                                                      
- 92%|█████████▏| 9800/10699 [1:38:32<07:24,  2.02it/s] 92%|█████████▏| 9801/10699 [1:38:32<07:24,  2.02it/s] 92%|█████████▏| 9802/10699 [1:38:33<07:23,  2.02it/s] 92%|█████████▏| 9803/10699 [1:38:33<07:22,  2.02it/s] 92%|█████████▏| 9804/10699 [1:38:34<07:22,  2.02it/s] 92%|█████████▏| 9805/10699 [1:38:34<07:22,  2.02it/s] 92%|█████████▏| 9806/10699 [1:38:35<07:21,  2.02it/s] 92%|█████████▏| 9807/10699 [1:38:35<07:21,  2.02it/s] 92%|█████████▏| 9808/10699 [1:38:36<07:20,  2.02it/s] 92%|█████████▏| 9809/10699 [1:38:36<07:19,  2.02it/s] 92%|█████████▏| 9810/10699 [1:38:37<07:19,  2.02it/s] 92%|█████████▏| 9811/10699 [1:38:37<07:18,  2.02it/s] 92%|█████████▏| 9812/10699 [1:38:38<07:18,  2.02it/s] 92%|█████████▏| 9813/10699 [1:38:38<07:17,  2.02it/s] 92%|█████████▏| 9814/10699 [1:38:39<07:17,  2.02it/s] 92%|█████████▏| 9815/10699 [1:38:39<07:17,  2.02it/s] 92%|█████████▏| 9816/10699 [1:38:40<07:15,  2.03it/s] 92%|█████████▏| 9817/10699 [1:38:40<07:16,  2.02it/s] 92%|█████████▏| 9818/10699 [1:38:41<07:15,  2.02it/s] 92%|█████████▏| 9819/10699 [1:38:41<07:14,  2.02it/s] 92%|█████████▏| 9820/10699 [1:38:42<07:14,  2.02it/s] 92%|█████████▏| 9821/10699 [1:38:42<07:13,  2.02it/s] 92%|█████████▏| 9822/10699 [1:38:43<07:13,  2.02it/s] 92%|█████████▏| 9823/10699 [1:38:43<07:13,  2.02it/s] 92%|█████████▏| 9824/10699 [1:38:44<07:12,  2.02it/s] 92%|█████████▏| 9825/10699 [1:38:44<07:12,  2.02it/s]                                                      {'loss': 3.5724, 'grad_norm': 0.1943514198064804, 'learning_rate': 2.0190888567676423e-05, 'epoch': 0.92}
- 92%|█████████▏| 9825/10699 [1:38:44<07:12,  2.02it/s] 92%|█████████▏| 9826/10699 [1:38:45<07:11,  2.02it/s] 92%|█████████▏| 9827/10699 [1:38:45<07:11,  2.02it/s] 92%|█████████▏| 9828/10699 [1:38:46<07:10,  2.02it/s] 92%|█████████▏| 9829/10699 [1:38:46<07:10,  2.02it/s] 92%|█████████▏| 9830/10699 [1:38:47<07:09,  2.03it/s] 92%|█████████▏| 9831/10699 [1:38:47<07:08,  2.02it/s] 92%|█████████▏| 9832/10699 [1:38:48<07:08,  2.03it/s] 92%|█████████▏| 9833/10699 [1:38:48<07:07,  2.02it/s] 92%|█████████▏| 9834/10699 [1:38:49<07:07,  2.02it/s] 92%|█████████▏| 9835/10699 [1:38:49<07:07,  2.02it/s] 92%|█████████▏| 9836/10699 [1:38:50<07:06,  2.02it/s] 92%|█████████▏| 9837/10699 [1:38:50<07:05,  2.02it/s] 92%|█████████▏| 9838/10699 [1:38:51<07:05,  2.02it/s] 92%|█████████▏| 9839/10699 [1:38:51<07:05,  2.02it/s] 92%|█████████▏| 9840/10699 [1:38:51<07:04,  2.02it/s] 92%|█████████▏| 9841/10699 [1:38:52<07:03,  2.02it/s] 92%|█████████▏| 9842/10699 [1:38:52<07:03,  2.02it/s] 92%|█████████▏| 9843/10699 [1:38:53<07:03,  2.02it/s] 92%|█████████▏| 9844/10699 [1:38:53<07:02,  2.02it/s] 92%|█████████▏| 9845/10699 [1:38:54<07:01,  2.03it/s] 92%|█████████▏| 9846/10699 [1:38:54<07:01,  2.02it/s] 92%|█████████▏| 9847/10699 [1:38:55<07:00,  2.02it/s] 92%|█████████▏| 9848/10699 [1:38:55<06:59,  2.03it/s] 92%|█████████▏| 9849/10699 [1:38:56<06:59,  2.03it/s] 92%|█████████▏| 9850/10699 [1:38:56<06:58,  2.03it/s]                                                      {'loss': 3.5808, 'grad_norm': 0.18938298523426056, 'learning_rate': 1.9059614472686948e-05, 'epoch': 0.92}
- 92%|█████████▏| 9850/10699 [1:38:56<06:58,  2.03it/s] 92%|█████████▏| 9851/10699 [1:38:57<06:59,  2.02it/s] 92%|��████████▏| 9852/10699 [1:38:57<06:58,  2.02it/s] 92%|█████████▏| 9853/10699 [1:38:58<06:58,  2.02it/s] 92%|█████████▏| 9854/10699 [1:38:58<06:57,  2.02it/s] 92%|█████████▏| 9855/10699 [1:38:59<06:57,  2.02it/s] 92%|█████████▏| 9856/10699 [1:38:59<06:56,  2.02it/s] 92%|█████████▏| 9857/10699 [1:39:00<06:56,  2.02it/s] 92%|█████████▏| 9858/10699 [1:39:00<06:55,  2.02it/s] 92%|█████████▏| 9859/10699 [1:39:01<06:55,  2.02it/s] 92%|█████████▏| 9860/10699 [1:39:01<06:54,  2.02it/s] 92%|█████████▏| 9861/10699 [1:39:02<06:54,  2.02it/s] 92%|█████████▏| 9862/10699 [1:39:02<06:53,  2.02it/s] 92%|█████████▏| 9863/10699 [1:39:03<06:53,  2.02it/s] 92%|█████████▏| 9864/10699 [1:39:03<06:52,  2.02it/s] 92%|█████████▏| 9865/10699 [1:39:04<06:52,  2.02it/s] 92%|█████████▏| 9866/10699 [1:39:04<06:51,  2.02it/s] 92%|█████████▏| 9867/10699 [1:39:05<06:51,  2.02it/s] 92%|█████████▏| 9868/10699 [1:39:05<06:51,  2.02it/s] 92%|█████████▏| 9869/10699 [1:39:06<06:50,  2.02it/s] 92%|█████████▏| 9870/10699 [1:39:06<06:50,  2.02it/s] 92%|█████████▏| 9871/10699 [1:39:07<06:49,  2.02it/s] 92%|█████████▏| 9872/10699 [1:39:07<06:48,  2.02it/s] 92%|█████████▏| 9873/10699 [1:39:08<06:48,  2.02it/s] 92%|█████████▏| 9874/10699 [1:39:08<06:47,  2.02it/s] 92%|█████████▏| 9875/10699 [1:39:09<06:47,  2.02it/s]{'loss': 3.5789, 'grad_norm': 0.1970522701740265, 'learning_rate': 1.7960337154268758e-05, 'epoch': 0.92}
-                                                       92%|█████████▏| 9875/10699 [1:39:09<06:47,  2.02it/s] 92%|█████████▏| 9876/10699 [1:39:09<06:47,  2.02it/s] 92%|█████████▏| 9877/10699 [1:39:10<06:47,  2.02it/s] 92%|█████████▏| 9878/10699 [1:39:10<06:46,  2.02it/s] 92%|█████████▏| 9879/10699 [1:39:11<06:45,  2.02it/s] 92%|█████████▏| 9880/10699 [1:39:11<06:45,  2.02it/s] 92%|█████████▏| 9881/10699 [1:39:12<06:44,  2.02it/s] 92%|█████████▏| 9882/10699 [1:39:12<06:44,  2.02it/s] 92%|█████████▏| 9883/10699 [1:39:13<06:43,  2.02it/s] 92%|█████████▏| 9884/10699 [1:39:13<06:43,  2.02it/s] 92%|█████████▏| 9885/10699 [1:39:14<06:42,  2.02it/s] 92%|█████████▏| 9886/10699 [1:39:14<06:42,  2.02it/s] 92%|█████████▏| 9887/10699 [1:39:15<06:41,  2.02it/s] 92%|█████████▏| 9888/10699 [1:39:15<06:41,  2.02it/s] 92%|█████████▏| 9889/10699 [1:39:16<06:40,  2.02it/s] 92%|█████████▏| 9890/10699 [1:39:16<06:39,  2.02it/s] 92%|█████████▏| 9891/10699 [1:39:17<06:39,  2.02it/s] 92%|█████████▏| 9892/10699 [1:39:17<06:38,  2.02it/s] 92%|█████████▏| 9893/10699 [1:39:18<06:39,  2.02it/s] 92%|█████████▏| 9894/10699 [1:39:18<06:38,  2.02it/s] 92%|█████████▏| 9895/10699 [1:39:19<06:37,  2.02it/s] 92%|█████████▏| 9896/10699 [1:39:19<06:36,  2.02it/s] 93%|█████████▎| 9897/10699 [1:39:20<06:36,  2.02it/s] 93%|█████████▎| 9898/10699 [1:39:20<06:36,  2.02it/s] 93%|█████████▎| 9899/10699 [1:39:21<06:34,  2.03it/s] 93%|█████████▎| 9900/10699 [1:39:21<06:34,  2.02it/s]{'loss': 3.5705, 'grad_norm': 0.19798359274864197, 'learning_rate': 1.6893129746913926e-05, 'epoch': 0.93}                                                      
- 93%|█████████▎| 9900/10699 [1:39:21<06:34,  2.02it/s] 93%|█████████▎| 9901/10699 [1:39:22<06:34,  2.02it/s] 93%|█████████▎| 9902/10699 [1:39:22<06:34,  2.02it/s] 93%|█████████▎| 9903/10699 [1:39:23<06:34,  2.02it/s] 93%|█████████▎| 9904/10699 [1:39:23<06:33,  2.02it/s] 93%|█████████▎| 9905/10699 [1:39:24<06:32,  2.02it/s] 93%|█████████▎| 9906/10699 [1:39:24<06:32,  2.02it/s] 93%|█████████▎| 9907/10699 [1:39:25<06:31,  2.02it/s] 93%|█████████▎| 9908/10699 [1:39:25<06:30,  2.02it/s] 93%|█████████▎| 9909/10699 [1:39:26<06:30,  2.02it/s] 93%|█████████▎| 9910/10699 [1:39:26<06:30,  2.02it/s] 93%|█████████▎| 9911/10699 [1:39:27<06:29,  2.02it/s] 93%|█████████▎| 9912/10699 [1:39:27<06:29,  2.02it/s] 93%|█████████▎| 9913/10699 [1:39:28<06:28,  2.02it/s] 93%|█████████▎| 9914/10699 [1:39:28<06:28,  2.02it/s] 93%|█████████▎| 9915/10699 [1:39:29<06:27,  2.02it/s] 93%|█████████▎| 9916/10699 [1:39:29<06:26,  2.03it/s] 93%|█████████▎| 9917/10699 [1:39:30<06:26,  2.02it/s] 93%|█████████▎| 9918/10699 [1:39:30<06:25,  2.02it/s] 93%|█████████▎| 9919/10699 [1:39:31<06:25,  2.02it/s] 93%|█████████▎| 9920/10699 [1:39:31<06:25,  2.02it/s] 93%|█████████▎| 9921/10699 [1:39:32<06:25,  2.02it/s] 93%|█████████▎| 9922/10699 [1:39:32<06:24,  2.02it/s] 93%|█████████▎| 9923/10699 [1:39:33<06:24,  2.02it/s] 93%|█████████▎| 9924/10699 [1:39:33<06:23,  2.02it/s] 93%|█████████▎| 9925/10699 [1:39:34<06:23,  2.02it/s]{'loss': 3.5795, 'grad_norm': 0.19841551780700684, 'learning_rate': 1.585806325151562e-05, 'epoch': 0.93}
-                                                       93%|█████████▎| 9925/10699 [1:39:34<06:23,  2.02it/s] 93%|█████████▎| 9926/10699 [1:39:34<06:22,  2.02it/s] 93%|█████████▎| 9927/10699 [1:39:35<06:22,  2.02it/s] 93%|█████████▎| 9928/10699 [1:39:35<06:21,  2.02it/s] 93%|█████████▎| 9929/10699 [1:39:36<06:21,  2.02it/s] 93%|█████████▎| 9930/10699 [1:39:36<06:20,  2.02it/s] 93%|█████████▎| 9931/10699 [1:39:36<06:20,  2.02it/s] 93%|█████████▎| 9932/10699 [1:39:37<06:19,  2.02it/s] 93%|█████████▎| 9933/10699 [1:39:37<06:18,  2.02it/s] 93%|█████████▎| 9934/10699 [1:39:38<06:18,  2.02it/s] 93%|█████████▎| 9935/10699 [1:39:38<06:17,  2.02it/s] 93%|█████████▎| 9936/10699 [1:39:39<06:16,  2.02it/s] 93%|█████████▎| 9937/10699 [1:39:39<06:16,  2.02it/s] 93%|█████████▎| 9938/10699 [1:39:40<06:15,  2.02it/s] 93%|█████████▎| 9939/10699 [1:39:40<06:15,  2.02it/s] 93%|█████████▎| 9940/10699 [1:39:41<06:14,  2.02it/s] 93%|█████████▎| 9941/10699 [1:39:41<06:14,  2.03it/s] 93%|█████████▎| 9942/10699 [1:39:42<06:14,  2.02it/s] 93%|█████████▎| 9943/10699 [1:39:42<06:14,  2.02it/s] 93%|█████████▎| 9944/10699 [1:39:43<06:13,  2.02it/s] 93%|█████████▎| 9945/10699 [1:39:43<06:13,  2.02it/s] 93%|█████████▎| 9946/10699 [1:39:44<06:12,  2.02it/s] 93%|█████████▎| 9947/10699 [1:39:44<06:11,  2.02it/s] 93%|█████████▎| 9948/10699 [1:39:45<06:11,  2.02it/s] 93%|█████████▎| 9949/10699 [1:39:45<06:10,  2.02it/s] 93%|█████████▎| 9950/10699 [1:39:46<06:10,  2.02it/s]                                                      {'loss': 3.5728, 'grad_norm': 0.19658908247947693, 'learning_rate': 1.485520653064465e-05, 'epoch': 0.93}
- 93%|█████████▎| 9950/10699 [1:39:46<06:10,  2.02it/s] 93%|█████████▎| 9951/10699 [1:39:46<06:10,  2.02it/s] 93%|█████████▎| 9952/10699 [1:39:47<06:09,  2.02it/s] 93%|█████████▎| 9953/10699 [1:39:47<06:08,  2.02it/s] 93%|█████████▎| 9954/10699 [1:39:48<06:08,  2.02it/s] 93%|█████████▎| 9955/10699 [1:39:48<06:07,  2.02it/s] 93%|█████████▎| 9956/10699 [1:39:49<06:06,  2.03it/s] 93%|█████████▎| 9957/10699 [1:39:49<06:07,  2.02it/s] 93%|█████████▎| 9958/10699 [1:39:50<06:06,  2.02it/s] 93%|█████████▎| 9959/10699 [1:39:50<06:06,  2.02it/s] 93%|█████████▎| 9960/10699 [1:39:51<06:05,  2.02it/s] 93%|█████████▎| 9961/10699 [1:39:51<06:04,  2.02it/s] 93%|█████████▎| 9962/10699 [1:39:52<06:04,  2.02it/s] 93%|█████████▎| 9963/10699 [1:39:52<06:03,  2.02it/s] 93%|█████████▎| 9964/10699 [1:39:53<06:03,  2.02it/s] 93%|█████████▎| 9965/10699 [1:39:53<06:02,  2.03it/s] 93%|█████████▎| 9966/10699 [1:39:54<06:01,  2.02it/s] 93%|█████████▎| 9967/10699 [1:39:54<06:01,  2.03it/s] 93%|█████████▎| 9968/10699 [1:39:55<06:01,  2.02it/s] 93%|█████████▎| 9969/10699 [1:39:55<06:00,  2.03it/s] 93%|█████████▎| 9970/10699 [1:39:56<05:59,  2.03it/s] 93%|█████████▎| 9971/10699 [1:39:56<05:59,  2.02it/s] 93%|█████████▎| 9972/10699 [1:39:57<05:58,  2.03it/s] 93%|█████████▎| 9973/10699 [1:39:57<05:58,  2.02it/s] 93%|█████████▎| 9974/10699 [1:39:58<05:57,  2.03it/s] 93%|█████████▎| 9975/10699 [1:39:58<05:57,  2.02it/s]{'loss': 3.5662, 'grad_norm': 0.1939113289117813, 'learning_rate': 1.3884626303968361e-05, 'epoch': 0.93}
-                                                       93%|█████████▎| 9975/10699 [1:39:58<05:57,  2.02it/s] 93%|█████████▎| 9976/10699 [1:39:59<05:57,  2.02it/s] 93%|█████████▎| 9977/10699 [1:39:59<05:57,  2.02it/s] 93%|█████████▎| 9978/10699 [1:40:00<05:56,  2.02it/s] 93%|█████████▎| 9979/10699 [1:40:00<05:56,  2.02it/s] 93%|█████████▎| 9980/10699 [1:40:01<05:55,  2.02it/s] 93%|█████████▎| 9981/10699 [1:40:01<05:55,  2.02it/s] 93%|█████████▎| 9982/10699 [1:40:02<05:54,  2.02it/s] 93%|█████████▎| 9983/10699 [1:40:02<05:53,  2.02it/s] 93%|█████████▎| 9984/10699 [1:40:03<05:53,  2.02it/s] 93%|█████████▎| 9985/10699 [1:40:03<05:53,  2.02it/s] 93%|█████████▎| 9986/10699 [1:40:04<05:52,  2.02it/s] 93%|█████████▎| 9987/10699 [1:40:04<05:52,  2.02it/s] 93%|█████████▎| 9988/10699 [1:40:05<05:51,  2.02it/s] 93%|█████████▎| 9989/10699 [1:40:05<05:51,  2.02it/s] 93%|█████████▎| 9990/10699 [1:40:06<05:50,  2.02it/s] 93%|█████████▎| 9991/10699 [1:40:06<05:50,  2.02it/s] 93%|█████████▎| 9992/10699 [1:40:07<05:49,  2.02it/s] 93%|█████████▎| 9993/10699 [1:40:07<05:48,  2.02it/s] 93%|█████████▎| 9994/10699 [1:40:08<05:48,  2.02it/s] 93%|█████████▎| 9995/10699 [1:40:08<05:47,  2.03it/s] 93%|█████████▎| 9996/10699 [1:40:09<05:47,  2.02it/s] 93%|█████████▎| 9997/10699 [1:40:09<05:46,  2.03it/s] 93%|█████████▎| 9998/10699 [1:40:10<05:46,  2.02it/s] 93%|█████████▎| 9999/10699 [1:40:10<05:45,  2.02it/s] 93%|█████████▎| 10000/10699 [1:40:11<05:45,  2.02it/s]                                                       {'loss': 3.5709, 'grad_norm': 0.19082826375961304, 'learning_rate': 1.2946387143811078e-05, 'epoch': 0.93}
- 93%|█████████▎| 10000/10699 [1:40:11<05:45,  2.02it/s] 93%|█████████▎| 10001/10699 [1:40:11<05:45,  2.02it/s] 93%|█████████▎| 10002/10699 [1:40:12<05:44,  2.02it/s] 93%|█████████▎| 10003/10699 [1:40:12<05:44,  2.02it/s] 94%|█████████▎| 10004/10699 [1:40:13<05:43,  2.02it/s] 94%|█████████▎| 10005/10699 [1:40:13<05:42,  2.02it/s] 94%|█████████▎| 10006/10699 [1:40:14<05:42,  2.02it/s] 94%|█████████▎| 10007/10699 [1:40:14<05:41,  2.02it/s] 94%|█████████▎| 10008/10699 [1:40:15<05:41,  2.02it/s] 94%|█████████▎| 10009/10699 [1:40:15<05:41,  2.02it/s] 94%|█████████▎| 10010/10699 [1:40:16<05:40,  2.02it/s] 94%|█████████▎| 10011/10699 [1:40:16<05:40,  2.02it/s] 94%|█████████▎| 10012/10699 [1:40:17<05:39,  2.02it/s] 94%|█████████▎| 10013/10699 [1:40:17<05:39,  2.02it/s] 94%|█████████▎| 10014/10699 [1:40:18<05:38,  2.02it/s] 94%|█████████▎| 10015/10699 [1:40:18<05:38,  2.02it/s] 94%|█████████▎| 10016/10699 [1:40:19<05:37,  2.02it/s] 94%|█████████▎| 10017/10699 [1:40:19<05:37,  2.02it/s] 94%|█████████▎| 10018/10699 [1:40:20<05:36,  2.02it/s] 94%|█████████▎| 10019/10699 [1:40:20<05:36,  2.02it/s] 94%|█████████▎| 10020/10699 [1:40:20<05:35,  2.02it/s] 94%|█████████▎| 10021/10699 [1:40:21<05:34,  2.02it/s] 94%|█████████▎| 10022/10699 [1:40:21<05:34,  2.02it/s] 94%|█████████▎| 10023/10699 [1:40:22<05:34,  2.02it/s] 94%|█████████▎| 10024/10699 [1:40:22<05:33,  2.02it/s] 94%|█████████▎| 10025/10699 [1:40:23<05:33,  2.02it/s]{'loss': 3.5665, 'grad_norm': 0.1942135989665985, 'learning_rate': 1.2040551470858863e-05, 'epoch': 0.94}
-                                                        94%|█████████▎| 10025/10699 [1:40:23<05:33,  2.02it/s] 94%|█████████▎| 10026/10699 [1:40:23<05:33,  2.02it/s] 94%|█████████▎| 10027/10699 [1:40:24<05:32,  2.02it/s] 94%|█████████▎| 10028/10699 [1:40:24<05:32,  2.02it/s] 94%|█████████▎| 10029/10699 [1:40:25<05:31,  2.02it/s] 94%|█████████▎| 10030/10699 [1:40:25<05:30,  2.02it/s] 94%|█████████▍| 10031/10699 [1:40:26<05:30,  2.02it/s] 94%|█████████▍| 10032/10699 [1:40:26<05:29,  2.02it/s] 94%|█████████▍| 10033/10699 [1:40:27<05:29,  2.02it/s] 94%|█████████▍| 10034/10699 [1:40:27<05:29,  2.02it/s] 94%|█████████▍| 10035/10699 [1:40:28<05:28,  2.02it/s] 94%|█████████▍| 10036/10699 [1:40:28<05:28,  2.02it/s] 94%|█████████▍| 10037/10699 [1:40:29<05:27,  2.02it/s] 94%|█████████▍| 10038/10699 [1:40:29<05:26,  2.02it/s] 94%|█████████▍| 10039/10699 [1:40:30<05:26,  2.02it/s] 94%|█████████▍| 10040/10699 [1:40:30<05:25,  2.02it/s] 94%|█████████▍| 10041/10699 [1:40:31<05:25,  2.02it/s] 94%|█████████▍| 10042/10699 [1:40:31<05:24,  2.02it/s] 94%|█████████▍| 10043/10699 [1:40:32<05:24,  2.02it/s] 94%|█████████▍| 10044/10699 [1:40:32<05:23,  2.02it/s] 94%|█████████▍| 10045/10699 [1:40:33<05:23,  2.02it/s] 94%|█████████▍| 10046/10699 [1:40:33<05:22,  2.02it/s] 94%|█████████▍| 10047/10699 [1:40:34<05:22,  2.02it/s] 94%|█████████▍| 10048/10699 [1:40:34<05:21,  2.02it/s] 94%|█████████▍| 10049/10699 [1:40:35<05:21,  2.02it/s] 94%|█████████▍| 10050/10699 [1:40:35<05:21,  2.02it/s]{'loss': 3.5758, 'grad_norm': 0.1956220418214798, 'learning_rate': 1.116717955000629e-05, 'epoch': 0.94}
-                                                        94%|█████████▍| 10050/10699 [1:40:35<05:21,  2.02it/s] 94%|█████████▍| 10051/10699 [1:40:36<05:21,  2.02it/s] 94%|█████████▍| 10052/10699 [1:40:36<05:20,  2.02it/s] 94%|█████████▍| 10053/10699 [1:40:37<05:20,  2.02it/s] 94%|█████████▍| 10054/10699 [1:40:37<05:19,  2.02it/s] 94%|█████████▍| 10055/10699 [1:40:38<05:18,  2.02it/s] 94%|█████████▍| 10056/10699 [1:40:38<05:18,  2.02it/s] 94%|█████████▍| 10057/10699 [1:40:39<05:17,  2.02it/s] 94%|█████████▍| 10058/10699 [1:40:39<05:17,  2.02it/s] 94%|█████████▍| 10059/10699 [1:40:40<05:16,  2.02it/s] 94%|█████████▍| 10060/10699 [1:40:40<05:15,  2.02it/s] 94%|█████████▍| 10061/10699 [1:40:41<05:15,  2.02it/s] 94%|█████████▍| 10062/10699 [1:40:41<05:15,  2.02it/s] 94%|█████████▍| 10063/10699 [1:40:42<05:14,  2.02it/s] 94%|█████████▍| 10064/10699 [1:40:42<05:13,  2.02it/s] 94%|█████████▍| 10065/10699 [1:40:43<05:13,  2.02it/s] 94%|█████████▍| 10066/10699 [1:40:43<05:12,  2.02it/s] 94%|█████████▍| 10067/10699 [1:40:44<05:12,  2.02it/s] 94%|█████████▍| 10068/10699 [1:40:44<05:12,  2.02it/s] 94%|█████████▍| 10069/10699 [1:40:45<05:11,  2.02it/s] 94%|█████████▍| 10070/10699 [1:40:45<05:10,  2.02it/s] 94%|█████████▍| 10071/10699 [1:40:46<05:10,  2.03it/s] 94%|█████████▍| 10072/10699 [1:40:46<05:09,  2.02it/s] 94%|█████████▍| 10073/10699 [1:40:47<05:09,  2.03it/s] 94%|█████████▍| 10074/10699 [1:40:47<05:08,  2.02it/s] 94%|█████████▍| 10075/10699 [1:40:48<05:08,  2.02it/s]                                                       {'loss': 3.5718, 'grad_norm': 0.19540758430957794, 'learning_rate': 1.0326329486347152e-05, 'epoch': 0.94}
- 94%|█████████▍| 10075/10699 [1:40:48<05:08,  2.02it/s] 94%|█████████▍| 10076/10699 [1:40:48<05:08,  2.02it/s] 94%|█████████▍| 10077/10699 [1:40:49<05:07,  2.02it/s] 94%|█████████▍| 10078/10699 [1:40:49<05:06,  2.03it/s] 94%|█████████▍| 10079/10699 [1:40:50<05:06,  2.02it/s] 94%|█████████▍| 10080/10699 [1:40:50<05:06,  2.02it/s] 94%|█████████▍| 10081/10699 [1:40:51<05:05,  2.02it/s] 94%|█████████▍| 10082/10699 [1:40:51<05:04,  2.02it/s] 94%|█████████▍| 10083/10699 [1:40:52<05:04,  2.02it/s] 94%|█████████▍| 10084/10699 [1:40:52<05:03,  2.02it/s] 94%|█████████▍| 10085/10699 [1:40:53<05:03,  2.02it/s] 94%|█████████▍| 10086/10699 [1:40:53<05:02,  2.02it/s] 94%|█████████▍| 10087/10699 [1:40:54<05:02,  2.02it/s] 94%|█████████▍| 10088/10699 [1:40:54<05:02,  2.02it/s] 94%|█████████▍| 10089/10699 [1:40:55<05:01,  2.02it/s] 94%|█████████▍| 10090/10699 [1:40:55<05:00,  2.02it/s] 94%|█████████▍| 10091/10699 [1:40:56<05:00,  2.02it/s] 94%|█████████▍| 10092/10699 [1:40:56<04:59,  2.02it/s] 94%|█████████▍| 10093/10699 [1:40:57<04:59,  2.02it/s] 94%|█████████▍| 10094/10699 [1:40:57<04:59,  2.02it/s] 94%|███���█████▍| 10095/10699 [1:40:58<04:58,  2.02it/s] 94%|█████████▍| 10096/10699 [1:40:58<04:58,  2.02it/s] 94%|█████████▍| 10097/10699 [1:40:59<04:57,  2.02it/s] 94%|█████████▍| 10098/10699 [1:40:59<04:57,  2.02it/s] 94%|█████████▍| 10099/10699 [1:41:00<04:56,  2.02it/s] 94%|█████████▍| 10100/10699 [1:41:00<04:56,  2.02it/s]{'loss': 3.5671, 'grad_norm': 0.19047190248966217, 'learning_rate': 9.518057221308884e-06, 'epoch': 0.94}                                                       
- 94%|█████████▍| 10100/10699 [1:41:00<04:56,  2.02it/s] 94%|█████████▍| 10101/10699 [1:41:01<04:55,  2.02it/s] 94%|█████████▍| 10102/10699 [1:41:01<04:55,  2.02it/s] 94%|█████████▍| 10103/10699 [1:41:02<04:54,  2.02it/s] 94%|█████████▍| 10104/10699 [1:41:02<04:54,  2.02it/s] 94%|█████████▍| 10105/10699 [1:41:03<04:53,  2.02it/s] 94%|█████████▍| 10106/10699 [1:41:03<04:53,  2.02it/s] 94%|█████████▍| 10107/10699 [1:41:04<04:52,  2.02it/s] 94%|█████████▍| 10108/10699 [1:41:04<04:52,  2.02it/s] 94%|█████████▍| 10109/10699 [1:41:05<04:51,  2.02it/s] 94%|█████████▍| 10110/10699 [1:41:05<04:51,  2.02it/s] 95%|█████████▍| 10111/10699 [1:41:05<04:50,  2.02it/s] 95%|█████████▍| 10112/10699 [1:41:06<04:50,  2.02it/s] 95%|█████████▍| 10113/10699 [1:41:06<04:50,  2.02it/s] 95%|█████████▍| 10114/10699 [1:41:07<04:49,  2.02it/s] 95%|█████████▍| 10115/10699 [1:41:07<04:48,  2.02it/s] 95%|█████████▍| 10116/10699 [1:41:08<04:48,  2.02it/s] 95%|█████████▍| 10117/10699 [1:41:08<04:47,  2.02it/s] 95%|█████████▍| 10118/10699 [1:41:09<04:47,  2.02it/s] 95%|█████████▍| 10119/10699 [1:41:09<04:46,  2.02it/s] 95%|█████████▍| 10120/10699 [1:41:10<04:46,  2.02it/s] 95%|█████████▍| 10121/10699 [1:41:10<04:46,  2.02it/s] 95%|█████████▍| 10122/10699 [1:41:11<04:45,  2.02it/s] 95%|█████████▍| 10123/10699 [1:41:11<04:44,  2.02it/s] 95%|█████████▍| 10124/10699 [1:41:12<04:44,  2.02it/s] 95%|█████████▍| 10125/10699 [1:41:12<04:43,  2.02it/s]                                                       {'loss': 3.5688, 'grad_norm': 0.19613046944141388, 'learning_rate': 8.742416528930318e-06, 'epoch': 0.95}
- 95%|█████████▍| 10125/10699 [1:41:12<04:43,  2.02it/s] 95%|█████████▍| 10126/10699 [1:41:13<04:43,  2.02it/s] 95%|█████████▍| 10127/10699 [1:41:13<04:43,  2.02it/s] 95%|█████████▍| 10128/10699 [1:41:14<04:42,  2.02it/s] 95%|█████████▍| 10129/10699 [1:41:14<04:41,  2.02it/s] 95%|█████████▍| 10130/10699 [1:41:15<04:41,  2.02it/s] 95%|█████████▍| 10131/10699 [1:41:15<04:40,  2.02it/s] 95%|█████████▍| 10132/10699 [1:41:16<04:40,  2.02it/s] 95%|█████████▍| 10133/10699 [1:41:16<04:40,  2.02it/s] 95%|█████████▍| 10134/10699 [1:41:17<04:39,  2.02it/s] 95%|█████████▍| 10135/10699 [1:41:17<04:38,  2.02it/s] 95%|█████████▍| 10136/10699 [1:41:18<04:38,  2.02it/s] 95%|█████████▍| 10137/10699 [1:41:18<04:38,  2.02it/s] 95%|█████████▍| 10138/10699 [1:41:19<04:37,  2.02it/s] 95%|█████████▍| 10139/10699 [1:41:19<04:36,  2.02it/s] 95%|█████████▍| 10140/10699 [1:41:20<04:36,  2.02it/s] 95%|█████████▍| 10141/10699 [1:41:20<04:35,  2.02it/s] 95%|█████████▍| 10142/10699 [1:41:21<04:35,  2.02it/s] 95%|█████████▍| 10143/10699 [1:41:21<04:34,  2.02it/s] 95%|█████████▍| 10144/10699 [1:41:22<04:34,  2.02it/s] 95%|█████████▍| 10145/10699 [1:41:22<04:33,  2.03it/s] 95%|█████████▍| 10146/10699 [1:41:23<04:32,  2.03it/s] 95%|█████████▍| 10147/10699 [1:41:23<04:32,  2.02it/s] 95%|█████████▍| 10148/10699 [1:41:24<04:32,  2.03it/s] 95%|█████████▍| 10149/10699 [1:41:24<04:31,  2.02it/s] 95%|█████████▍| 10150/10699 [1:41:25<04:31,  2.02it/s]                                                       {'loss': 3.5746, 'grad_norm': 0.19599100947380066, 'learning_rate': 7.999459012284883e-06, 'epoch': 0.95}
- 95%|█████████▍| 10150/10699 [1:41:25<04:31,  2.02it/s] 95%|█████████▍| 10151/10699 [1:41:25<04:31,  2.02it/s] 95%|█████████▍| 10152/10699 [1:41:26<04:30,  2.02it/s] 95%|��████████▍| 10153/10699 [1:41:26<04:30,  2.02it/s] 95%|█████████▍| 10154/10699 [1:41:27<04:29,  2.02it/s] 95%|█████████▍| 10155/10699 [1:41:27<04:29,  2.02it/s] 95%|█████████▍| 10156/10699 [1:41:28<04:28,  2.02it/s] 95%|█████████▍| 10157/10699 [1:41:28<04:28,  2.02it/s] 95%|█████████▍| 10158/10699 [1:41:29<04:27,  2.02it/s] 95%|█████████▍| 10159/10699 [1:41:29<04:27,  2.02it/s] 95%|█████████▍| 10160/10699 [1:41:30<04:26,  2.02it/s] 95%|█████████▍| 10161/10699 [1:41:30<04:26,  2.02it/s] 95%|█████████▍| 10162/10699 [1:41:31<04:25,  2.02it/s] 95%|█████████▍| 10163/10699 [1:41:31<04:24,  2.02it/s] 95%|█████████▍| 10164/10699 [1:41:32<04:24,  2.02it/s] 95%|█████████▌| 10165/10699 [1:41:32<04:23,  2.02it/s] 95%|█████████▌| 10166/10699 [1:41:33<04:23,  2.02it/s] 95%|█████████▌| 10167/10699 [1:41:33<04:23,  2.02it/s] 95%|█████████▌| 10168/10699 [1:41:34<04:22,  2.02it/s] 95%|█████████▌| 10169/10699 [1:41:34<04:22,  2.02it/s] 95%|█████████▌| 10170/10699 [1:41:35<04:21,  2.02it/s] 95%|█████████▌| 10171/10699 [1:41:35<04:21,  2.02it/s] 95%|█████████▌| 10172/10699 [1:41:36<04:20,  2.02it/s] 95%|█████████▌| 10173/10699 [1:41:36<04:20,  2.02it/s] 95%|█████████▌| 10174/10699 [1:41:37<04:19,  2.02it/s] 95%|█████████▌| 10175/10699 [1:41:37<04:19,  2.02it/s]{'loss': 3.5677, 'grad_norm': 0.1924193799495697, 'learning_rate': 7.289234100046727e-06, 'epoch': 0.95}                                                       
- 95%|█████████▌| 10175/10699 [1:41:37<04:19,  2.02it/s] 95%|█████████▌| 10176/10699 [1:41:38<04:18,  2.02it/s] 95%|█████████▌| 10177/10699 [1:41:38<04:18,  2.02it/s] 95%|█████████▌| 10178/10699 [1:41:39<04:17,  2.02it/s] 95%|█████████▌| 10179/10699 [1:41:39<04:17,  2.02it/s] 95%|█████████▌| 10180/10699 [1:41:40<04:16,  2.02it/s] 95%|█████████▌| 10181/10699 [1:41:40<04:16,  2.02it/s] 95%|█████████▌| 10182/10699 [1:41:41<04:15,  2.02it/s] 95%|█████████▌| 10183/10699 [1:41:41<04:15,  2.02it/s] 95%|█████████▌| 10184/10699 [1:41:42<04:14,  2.02it/s] 95%|█████████▌| 10185/10699 [1:41:42<04:14,  2.02it/s] 95%|█████████▌| 10186/10699 [1:41:43<04:13,  2.02it/s] 95%|█████████▌| 10187/10699 [1:41:43<04:13,  2.02it/s] 95%|█████████▌| 10188/10699 [1:41:44<04:12,  2.02it/s] 95%|█████████▌| 10189/10699 [1:41:44<04:11,  2.02it/s] 95%|█████████▌| 10190/10699 [1:41:45<04:11,  2.02it/s] 95%|█████████▌| 10191/10699 [1:41:45<04:10,  2.03it/s] 95%|█████████▌| 10192/10699 [1:41:46<04:10,  2.02it/s] 95%|█████████▌| 10193/10699 [1:41:46<04:10,  2.02it/s] 95%|█████████▌| 10194/10699 [1:41:47<04:09,  2.02it/s] 95%|█████████▌| 10195/10699 [1:41:47<04:08,  2.02it/s] 95%|█████████▌| 10196/10699 [1:41:48<04:08,  2.02it/s] 95%|█████████▌| 10197/10699 [1:41:48<04:07,  2.02it/s] 95%|█████████▌| 10198/10699 [1:41:49<04:07,  2.02it/s] 95%|█████████▌| 10199/10699 [1:41:49<04:07,  2.02it/s] 95%|█████████▌| 10200/10699 [1:41:50<04:06,  2.02it/s]                                                       {'loss': 3.5802, 'grad_norm': 0.19470760226249695, 'learning_rate': 6.6117890432027536e-06, 'epoch': 0.95}
- 95%|█████████▌| 10200/10699 [1:41:50<04:06,  2.02it/s] 95%|█████████▌| 10201/10699 [1:41:50<04:06,  2.02it/s] 95%|█████████▌| 10202/10699 [1:41:50<04:05,  2.02it/s] 95%|█████████▌| 10203/10699 [1:41:51<04:05,  2.02it/s] 95%|█████████▌| 10204/10699 [1:41:51<04:04,  2.02it/s] 95%|█████████▌| 10205/10699 [1:41:52<04:04,  2.02it/s] 95%|█████████▌| 10206/10699 [1:41:52<04:03,  2.02it/s] 95%|█████████▌| 10207/10699 [1:41:53<04:03,  2.02it/s] 95%|█████████▌| 10208/10699 [1:41:53<04:02,  2.03it/s] 95%|█████████▌| 10209/10699 [1:41:54<04:02,  2.02it/s] 95%|█████████▌| 10210/10699 [1:41:54<04:01,  2.02it/s] 95%|█████████▌| 10211/10699 [1:41:55<04:01,  2.02it/s] 95%|█████████▌| 10212/10699 [1:41:55<04:00,  2.03it/s] 95%|█████████▌| 10213/10699 [1:41:56<04:00,  2.02it/s] 95%|█████████▌| 10214/10699 [1:41:56<03:59,  2.02it/s] 95%|█████████▌| 10215/10699 [1:41:57<03:59,  2.02it/s] 95%|█████████▌| 10216/10699 [1:41:57<03:58,  2.02it/s] 95%|█████████▌| 10217/10699 [1:41:58<03:58,  2.02it/s] 96%|█████████▌| 10218/10699 [1:41:58<03:58,  2.02it/s] 96%|█████████▌| 10219/10699 [1:41:59<03:57,  2.02it/s] 96%|█████████▌| 10220/10699 [1:41:59<03:56,  2.03it/s] 96%|█████████▌| 10221/10699 [1:42:00<03:56,  2.02it/s] 96%|█████████▌| 10222/10699 [1:42:00<03:55,  2.03it/s] 96%|█████████▌| 10223/10699 [1:42:01<03:55,  2.02it/s] 96%|█████████▌| 10224/10699 [1:42:01<03:54,  2.02it/s] 96%|█████████▌| 10225/10699 [1:42:02<03:54,  2.02it/s]                                                       {'loss': 3.5762, 'grad_norm': 0.19399365782737732, 'learning_rate': 5.967168911908793e-06, 'epoch': 0.96}
- 96%|█████████▌| 10225/10699 [1:42:02<03:54,  2.02it/s] 96%|█████████▌| 10226/10699 [1:42:02<03:54,  2.02it/s] 96%|█████████▌| 10227/10699 [1:42:03<03:53,  2.02it/s] 96%|█████████▌| 10228/10699 [1:42:03<03:53,  2.02it/s] 96%|█████████▌| 10229/10699 [1:42:04<03:52,  2.02it/s] 96%|█████████▌| 10230/10699 [1:42:04<03:52,  2.02it/s] 96%|█████████▌| 10231/10699 [1:42:05<03:51,  2.02it/s] 96%|█████████▌| 10232/10699 [1:42:05<03:51,  2.02it/s] 96%|█████████▌| 10233/10699 [1:42:06<03:50,  2.02it/s] 96%|█████████▌| 10234/10699 [1:42:06<03:49,  2.02it/s] 96%|█████████▌| 10235/10699 [1:42:07<03:49,  2.02it/s] 96%|█████████▌| 10236/10699 [1:42:07<03:48,  2.03it/s] 96%|█████████▌| 10237/10699 [1:42:08<03:48,  2.02it/s] 96%|█████████▌| 10238/10699 [1:42:08<03:47,  2.03it/s] 96%|█████████▌| 10239/10699 [1:42:09<03:47,  2.02it/s] 96%|█████████▌| 10240/10699 [1:42:09<03:46,  2.03it/s] 96%|█████████▌| 10241/10699 [1:42:10<03:46,  2.02it/s] 96%|█████████▌| 10242/10699 [1:42:10<03:45,  2.02it/s] 96%|█████████▌| 10243/10699 [1:42:11<03:45,  2.02it/s] 96%|█████████▌| 10244/10699 [1:42:11<03:44,  2.02it/s] 96%|█████████▌| 10245/10699 [1:42:12<03:44,  2.02it/s] 96%|█████████▌| 10246/10699 [1:42:12<03:43,  2.02it/s] 96%|█████████▌| 10247/10699 [1:42:13<03:43,  2.02it/s] 96%|█████████▌| 10248/10699 [1:42:13<03:42,  2.02it/s] 96%|█████████▌| 10249/10699 [1:42:14<03:42,  2.02it/s] 96%|█████████▌| 10250/10699 [1:42:14<03:41,  2.02it/s]{'loss': 3.5734, 'grad_norm': 0.19269567728042603, 'learning_rate': 5.3554165924911136e-06, 'epoch': 0.96}                                                       
- 96%|█████████▌| 10250/10699 [1:42:14<03:41,  2.02it/s] 96%|█████████▌| 10251/10699 [1:42:15<03:41,  2.02it/s] 96%|█████████▌| 10252/10699 [1:42:15<03:41,  2.02it/s] 96%|█████████▌| 10253/10699 [1:42:16<03:40,  2.02it/s] 96%|█████████▌| 10254/10699 [1:42:16<03:40,  2.02it/s] 96%|█████████▌| 10255/10699 [1:42:17<03:39,  2.02it/s] 96%|█████████▌| 10256/10699 [1:42:17<03:38,  2.02it/s] 96%|█████████▌| 10257/10699 [1:42:18<03:38,  2.02it/s] 96%|█████████▌| 10258/10699 [1:42:18<03:38,  2.02it/s] 96%|█████████▌| 10259/10699 [1:42:19<03:37,  2.02it/s] 96%|█████████▌| 10260/10699 [1:42:19<03:37,  2.02it/s] 96%|█████████▌| 10261/10699 [1:42:20<03:36,  2.02it/s] 96%|█████████▌| 10262/10699 [1:42:20<03:35,  2.02it/s] 96%|█████████▌| 10263/10699 [1:42:21<03:35,  2.02it/s] 96%|█████████▌| 10264/10699 [1:42:21<03:34,  2.02it/s] 96%|█████████▌| 10265/10699 [1:42:22<03:34,  2.02it/s] 96%|█████████▌| 10266/10699 [1:42:22<03:33,  2.02it/s] 96%|█████████▌| 10267/10699 [1:42:23<03:33,  2.02it/s] 96%|█████████▌| 10268/10699 [1:42:23<03:32,  2.02it/s] 96%|█████████▌| 10269/10699 [1:42:24<03:32,  2.02it/s] 96%|█████████▌| 10270/10699 [1:42:24<03:31,  2.02it/s] 96%|█████████▌| 10271/10699 [1:42:25<03:31,  2.02it/s] 96%|█████████▌| 10272/10699 [1:42:25<03:31,  2.02it/s] 96%|█████████▌| 10273/10699 [1:42:26<03:30,  2.02it/s] 96%|█████████▌| 10274/10699 [1:42:26<03:30,  2.02it/s] 96%|█████████▌| 10275/10699 [1:42:27<03:29,  2.02it/s]                                                       {'loss': 3.5773, 'grad_norm': 0.19237728416919708, 'learning_rate': 4.776572784593425e-06, 'epoch': 0.96}
- 96%|█████████▌| 10275/10699 [1:42:27<03:29,  2.02it/s] 96%|█████████▌| 10276/10699 [1:42:27<03:29,  2.02it/s] 96%|█████████▌| 10277/10699 [1:42:28<03:29,  2.02it/s] 96%|█████████▌| 10278/10699 [1:42:28<03:28,  2.02it/s] 96%|█████████▌| 10279/10699 [1:42:29<03:27,  2.02it/s] 96%|█████████▌| 10280/10699 [1:42:29<03:27,  2.02it/s] 96%|█████████▌| 10281/10699 [1:42:30<03:27,  2.02it/s] 96%|█████████▌| 10282/10699 [1:42:30<03:26,  2.02it/s] 96%|█████████▌| 10283/10699 [1:42:31<03:25,  2.02it/s] 96%|█████████▌| 10284/10699 [1:42:31<03:25,  2.02it/s] 96%|█████████▌| 10285/10699 [1:42:32<03:24,  2.02it/s] 96%|█████████▌| 10286/10699 [1:42:32<03:24,  2.02it/s] 96%|█████████▌| 10287/10699 [1:42:33<03:23,  2.02it/s] 96%|█████████▌| 10288/10699 [1:42:33<03:23,  2.02it/s] 96%|█████████▌| 10289/10699 [1:42:34<03:22,  2.02it/s] 96%|█████████▌| 10290/10699 [1:42:34<03:22,  2.02it/s] 96%|█████████▌| 10291/10699 [1:42:35<03:21,  2.02it/s] 96%|█████████▌| 10292/10699 [1:42:35<03:21,  2.02it/s] 96%|█████████▌| 10293/10699 [1:42:35<03:20,  2.02it/s] 96%|█████████▌| 10294/10699 [1:42:36<03:20,  2.02it/s] 96%|█████████▌| 10295/10699 [1:42:36<03:19,  2.02it/s] 96%|█████████▌| 10296/10699 [1:42:37<03:19,  2.02it/s] 96%|█████████▌| 10297/10699 [1:42:37<03:18,  2.02it/s] 96%|█████████▋| 10298/10699 [1:42:38<03:18,  2.02it/s] 96%|█████████▋| 10299/10699 [1:42:38<03:17,  2.02it/s] 96%|█████████▋| 10300/10699 [1:42:39<03:17,  2.02it/s]                                                       {'loss': 3.5647, 'grad_norm': 0.19066260755062103, 'learning_rate': 4.23067599846877e-06, 'epoch': 0.96}
- 96%|█████████▋| 10300/10699 [1:42:39<03:17,  2.02it/s] 96%|█████████▋| 10301/10699 [1:42:39<03:17,  2.02it/s] 96%|█████████▋| 10302/10699 [1:42:40<03:16,  2.02it/s] 96%|█████████▋| 10303/10699 [1:42:40<03:16,  2.02it/s] 96%|█████████▋| 10304/10699 [1:42:41<03:15,  2.02it/s] 96%|█████████▋| 10305/10699 [1:42:41<03:15,  2.02it/s] 96%|█████████▋| 10306/10699 [1:42:42<03:14,  2.02it/s] 96%|█████████▋| 10307/10699 [1:42:42<03:13,  2.02it/s] 96%|█████████▋| 10308/10699 [1:42:43<03:13,  2.02it/s] 96%|█████████▋| 10309/10699 [1:42:43<03:12,  2.02it/s] 96%|█████████▋| 10310/10699 [1:42:44<03:12,  2.02it/s] 96%|█████████▋| 10311/10699 [1:42:44<03:11,  2.02it/s] 96%|█████████▋| 10312/10699 [1:42:45<03:11,  2.02it/s] 96%|█████████▋| 10313/10699 [1:42:45<03:10,  2.02it/s] 96%|█████████▋| 10314/10699 [1:42:46<03:10,  2.02it/s] 96%|█████████▋| 10315/10699 [1:42:46<03:09,  2.02it/s] 96%|█████████▋| 10316/10699 [1:42:47<03:09,  2.02it/s] 96%|█████████▋| 10317/10699 [1:42:47<03:08,  2.02it/s] 96%|█████████▋| 10318/10699 [1:42:48<03:08,  2.02it/s] 96%|█████████▋| 10319/10699 [1:42:48<03:07,  2.02it/s] 96%|█████████▋| 10320/10699 [1:42:49<03:07,  2.02it/s] 96%|█████████▋| 10321/10699 [1:42:49<03:06,  2.02it/s] 96%|█████████▋| 10322/10699 [1:42:50<03:06,  2.02it/s] 96%|█████████▋| 10323/10699 [1:42:50<03:05,  2.02it/s] 96%|█████████▋| 10324/10699 [1:42:51<03:05,  2.02it/s] 97%|█████████▋| 10325/10699 [1:42:51<03:05,  2.02it/s]{'loss': 3.5765, 'grad_norm': 0.19672542810440063, 'learning_rate': 3.7177625524177917e-06, 'epoch': 0.96}                                                       
- 97%|█████████▋| 10325/10699 [1:42:51<03:05,  2.02it/s] 97%|█████████▋| 10326/10699 [1:42:52<03:04,  2.02it/s] 97%|█████████▋| 10327/10699 [1:42:52<03:04,  2.02it/s] 97%|█████████▋| 10328/10699 [1:42:53<03:03,  2.02it/s] 97%|█████████▋| 10329/10699 [1:42:53<03:03,  2.02it/s] 97%|█████████▋| 10330/10699 [1:42:54<03:02,  2.02it/s] 97%|█████████▋| 10331/10699 [1:42:54<03:01,  2.02it/s] 97%|█████████▋| 10332/10699 [1:42:55<03:01,  2.02it/s] 97%|���████████▋| 10333/10699 [1:42:55<03:01,  2.02it/s] 97%|█████████▋| 10334/10699 [1:42:56<03:00,  2.02it/s] 97%|█████████▋| 10335/10699 [1:42:56<02:59,  2.02it/s] 97%|█████████▋| 10336/10699 [1:42:57<02:59,  2.02it/s] 97%|█████████▋| 10337/10699 [1:42:57<02:58,  2.02it/s] 97%|█████████▋| 10338/10699 [1:42:58<02:58,  2.02it/s] 97%|█████████▋| 10339/10699 [1:42:58<02:58,  2.02it/s] 97%|█████████▋| 10340/10699 [1:42:59<02:57,  2.02it/s] 97%|█████████▋| 10341/10699 [1:42:59<02:56,  2.02it/s] 97%|█████████▋| 10342/10699 [1:43:00<02:56,  2.02it/s] 97%|█████████▋| 10343/10699 [1:43:00<02:55,  2.02it/s] 97%|█████████▋| 10344/10699 [1:43:01<02:55,  2.02it/s] 97%|█████████▋| 10345/10699 [1:43:01<02:55,  2.02it/s] 97%|█████████▋| 10346/10699 [1:43:02<02:54,  2.02it/s] 97%|█████████▋| 10347/10699 [1:43:02<02:53,  2.02it/s] 97%|█████████▋| 10348/10699 [1:43:03<02:53,  2.02it/s] 97%|█████████▋| 10349/10699 [1:43:03<02:53,  2.02it/s] 97%|█████████▋| 10350/10699 [1:43:04<02:52,  2.02it/s]                                                       {'loss': 3.5654, 'grad_norm': 0.1922806054353714, 'learning_rate': 3.2378665703723388e-06, 'epoch': 0.97}
- 97%|█████████▋| 10350/10699 [1:43:04<02:52,  2.02it/s] 97%|█████████▋| 10351/10699 [1:43:04<02:52,  2.02it/s] 97%|█████████▋| 10352/10699 [1:43:05<02:51,  2.02it/s] 97%|█████████▋| 10353/10699 [1:43:05<02:51,  2.02it/s] 97%|█████████▋| 10354/10699 [1:43:06<02:50,  2.02it/s] 97%|█████████▋| 10355/10699 [1:43:06<02:50,  2.02it/s] 97%|█████████▋| 10356/10699 [1:43:07<02:49,  2.02it/s] 97%|█████████▋| 10357/10699 [1:43:07<02:49,  2.02it/s] 97%|█████████▋| 10358/10699 [1:43:08<02:48,  2.02it/s] 97%|█████████▋| 10359/10699 [1:43:08<02:48,  2.02it/s] 97%|█████████▋| 10360/10699 [1:43:09<02:47,  2.02it/s] 97%|█████████▋| 10361/10699 [1:43:09<02:47,  2.02it/s] 97%|█████████▋| 10362/10699 [1:43:10<02:46,  2.02it/s] 97%|█████████▋| 10363/10699 [1:43:10<02:46,  2.02it/s] 97%|█████████▋| 10364/10699 [1:43:11<02:45,  2.02it/s] 97%|█████████▋| 10365/10699 [1:43:11<02:45,  2.02it/s] 97%|█████████▋| 10366/10699 [1:43:12<02:44,  2.02it/s] 97%|█████████▋| 10367/10699 [1:43:12<02:44,  2.02it/s] 97%|█████████▋| 10368/10699 [1:43:13<02:43,  2.02it/s] 97%|█████████▋| 10369/10699 [1:43:13<02:43,  2.02it/s] 97%|█████████▋| 10370/10699 [1:43:14<02:42,  2.02it/s] 97%|█████████▋| 10371/10699 [1:43:14<02:42,  2.02it/s] 97%|█████████▋| 10372/10699 [1:43:15<03:09,  1.72it/s] 97%|█████████▋| 10373/10699 [1:43:15<03:00,  1.80it/s] 97%|█████████▋| 10374/10699 [1:43:16<02:54,  1.86it/s] 97%|█████████▋| 10375/10699 [1:43:16<02:49,  1.91it/s]                                                       {'loss': 3.56, 'grad_norm': 0.1893635392189026, 'learning_rate': 2.7910199796251647e-06, 'epoch': 0.97}
- 97%|█████████▋| 10375/10699 [1:43:16<02:49,  1.91it/s] 97%|█████████▋| 10376/10699 [1:43:17<02:47,  1.93it/s] 97%|█████████▋| 10377/10699 [1:43:17<02:44,  1.95it/s] 97%|█████████▋| 10378/10699 [1:43:18<02:42,  1.97it/s] 97%|█████████▋| 10379/10699 [1:43:18<02:41,  1.99it/s] 97%|█████████▋| 10380/10699 [1:43:19<02:39,  1.99it/s] 97%|█████████▋| 10381/10699 [1:43:19<02:38,  2.00it/s] 97%|█████████▋| 10382/10699 [1:43:20<02:37,  2.01it/s] 97%|█████████▋| 10383/10699 [1:43:20<02:37,  2.01it/s] 97%|█████████▋| 10384/10699 [1:43:21<02:36,  2.01it/s] 97%|█████████▋| 10385/10699 [1:43:21<02:35,  2.02it/s] 97%|█████████▋| 10386/10699 [1:43:22<02:35,  2.02it/s] 97%|█████████▋| 10387/10699 [1:43:22<02:34,  2.02it/s] 97%|█████████▋| 10388/10699 [1:43:23<02:34,  2.02it/s] 97%|█████████▋| 10389/10699 [1:43:23<02:33,  2.02it/s] 97%|█████████▋| 10390/10699 [1:43:24<02:32,  2.02it/s] 97%|█████████▋| 10391/10699 [1:43:24<02:32,  2.02it/s] 97%|█████████▋| 10392/10699 [1:43:25<02:31,  2.02it/s] 97%|█████████▋| 10393/10699 [1:43:25<02:31,  2.02it/s] 97%|██���██████▋| 10394/10699 [1:43:26<02:30,  2.02it/s] 97%|█████████▋| 10395/10699 [1:43:26<02:30,  2.02it/s] 97%|█████████▋| 10396/10699 [1:43:27<02:29,  2.02it/s] 97%|█████████▋| 10397/10699 [1:43:27<02:29,  2.02it/s] 97%|█████████▋| 10398/10699 [1:43:28<02:29,  2.02it/s] 97%|█████████▋| 10399/10699 [1:43:28<02:28,  2.02it/s] 97%|█████████▋| 10400/10699 [1:43:29<02:27,  2.02it/s]                                                       {'loss': 3.5759, 'grad_norm': 0.19220659136772156, 'learning_rate': 2.3772525087060182e-06, 'epoch': 0.97}
- 97%|█████████▋| 10400/10699 [1:43:29<02:27,  2.02it/s] 97%|█████████▋| 10401/10699 [1:43:29<02:27,  2.02it/s] 97%|█████████▋| 10402/10699 [1:43:30<02:27,  2.02it/s] 97%|█████████▋| 10403/10699 [1:43:30<02:26,  2.02it/s] 97%|█████████▋| 10404/10699 [1:43:31<02:25,  2.02it/s] 97%|█████████▋| 10405/10699 [1:43:31<02:25,  2.02it/s] 97%|█████████▋| 10406/10699 [1:43:32<02:24,  2.02it/s] 97%|█████████▋| 10407/10699 [1:43:32<02:24,  2.02it/s] 97%|█████████▋| 10408/10699 [1:43:33<02:23,  2.02it/s] 97%|█████████▋| 10409/10699 [1:43:33<02:23,  2.02it/s] 97%|█████████▋| 10410/10699 [1:43:34<02:22,  2.02it/s] 97%|█████████▋| 10411/10699 [1:43:34<02:22,  2.02it/s] 97%|█████████▋| 10412/10699 [1:43:35<02:21,  2.02it/s] 97%|█████████▋| 10413/10699 [1:43:35<02:21,  2.02it/s] 97%|█████████▋| 10414/10699 [1:43:36<02:20,  2.02it/s] 97%|█████████▋| 10415/10699 [1:43:36<02:47,  1.70it/s] 97%|█████████▋| 10416/10699 [1:43:37<02:38,  1.78it/s] 97%|█████████▋| 10417/10699 [1:43:37<02:32,  1.85it/s] 97%|█████████▋| 10418/10699 [1:43:38<02:28,  1.89it/s] 97%|█████████▋| 10419/10699 [1:43:38<02:24,  1.93it/s] 97%|█████████▋| 10420/10699 [1:43:39<02:22,  1.96it/s] 97%|█████████▋| 10421/10699 [1:43:39<02:20,  1.98it/s] 97%|█████████▋| 10422/10699 [1:43:40<02:19,  1.99it/s] 97%|█████████▋| 10423/10699 [1:43:40<02:17,  2.00it/s] 97%|█████████▋| 10424/10699 [1:43:41<02:17,  2.01it/s] 97%|█████████▋| 10425/10699 [1:43:41<02:16,  2.01it/s]{'loss': 3.5684, 'grad_norm': 0.19288817048072815, 'learning_rate': 1.996591685403615e-06, 'epoch': 0.97}                                                       
- 97%|█████████▋| 10425/10699 [1:43:41<02:16,  2.01it/s] 97%|█████████▋| 10426/10699 [1:43:42<02:15,  2.01it/s] 97%|█████████▋| 10427/10699 [1:43:42<02:14,  2.02it/s] 97%|█████████▋| 10428/10699 [1:43:43<02:14,  2.02it/s] 97%|█████████▋| 10429/10699 [1:43:43<02:13,  2.02it/s] 97%|█████████▋| 10430/10699 [1:43:44<02:12,  2.02it/s] 97%|█████████▋| 10431/10699 [1:43:44<02:12,  2.02it/s] 98%|█████████▊| 10432/10699 [1:43:45<02:11,  2.02it/s] 98%|█████████▊| 10433/10699 [1:43:45<02:11,  2.02it/s] 98%|█████████▊| 10434/10699 [1:43:46<02:11,  2.02it/s] 98%|█████████▊| 10435/10699 [1:43:46<02:10,  2.02it/s] 98%|█████████▊| 10436/10699 [1:43:47<02:10,  2.02it/s] 98%|█████████▊| 10437/10699 [1:43:47<02:09,  2.02it/s] 98%|█████████▊| 10438/10699 [1:43:48<02:09,  2.02it/s] 98%|█████████▊| 10439/10699 [1:43:48<02:08,  2.02it/s] 98%|█████████▊| 10440/10699 [1:43:49<02:08,  2.02it/s] 98%|█████████▊| 10441/10699 [1:43:49<02:07,  2.02it/s] 98%|█████████▊| 10442/10699 [1:43:50<02:07,  2.02it/s] 98%|█████████▊| 10443/10699 [1:43:50<02:06,  2.02it/s] 98%|█████████▊| 10444/10699 [1:43:51<02:06,  2.02it/s] 98%|█████████▊| 10445/10699 [1:43:51<02:05,  2.02it/s] 98%|█████████▊| 10446/10699 [1:43:52<02:05,  2.02it/s] 98%|█████████▊| 10447/10699 [1:43:52<02:04,  2.02it/s] 98%|█████████▊| 10448/10699 [1:43:53<02:04,  2.02it/s] 98%|█████████▊| 10449/10699 [1:43:53<02:03,  2.02it/s] 98%|█████████▊| 10450/10699 [1:43:54<02:02,  2.03it/s]{'loss': 3.5771, 'grad_norm': 0.19168594479560852, 'learning_rate': 1.6490628349342118e-06, 'epoch': 0.98}
-                                                        98%|█████████▊| 10450/10699 [1:43:54<02:02,  2.03it/s] 98%|█████████▊| 10451/10699 [1:43:54<02:02,  2.02it/s] 98%|█████████▊| 10452/10699 [1:43:55<02:02,  2.02it/s] 98%|█████████▊| 10453/10699 [1:43:55<02:01,  2.02it/s] 98%|█████████▊| 10454/10699 [1:43:56<02:01,  2.02it/s] 98%|█████████▊| 10455/10699 [1:43:56<02:00,  2.02it/s] 98%|█████████▊| 10456/10699 [1:43:57<02:00,  2.02it/s] 98%|█████████▊| 10457/10699 [1:43:57<01:59,  2.02it/s] 98%|█████████▊| 10458/10699 [1:43:58<01:59,  2.02it/s] 98%|█████████▊| 10459/10699 [1:43:58<01:58,  2.02it/s] 98%|█████████▊| 10460/10699 [1:43:59<01:58,  2.02it/s] 98%|█████████▊| 10461/10699 [1:43:59<01:57,  2.02it/s] 98%|█████████▊| 10462/10699 [1:44:00<01:57,  2.02it/s] 98%|█████████▊| 10463/10699 [1:44:00<01:56,  2.02it/s] 98%|█████████▊| 10464/10699 [1:44:01<01:56,  2.02it/s] 98%|█████████▊| 10465/10699 [1:44:01<01:55,  2.02it/s] 98%|█████████▊| 10466/10699 [1:44:02<01:55,  2.02it/s] 98%|█████████▊| 10467/10699 [1:44:02<01:54,  2.02it/s] 98%|█████████▊| 10468/10699 [1:44:03<01:54,  2.02it/s] 98%|█████████▊| 10469/10699 [1:44:03<01:53,  2.02it/s] 98%|█████████▊| 10470/10699 [1:44:04<01:53,  2.02it/s] 98%|█████████▊| 10471/10699 [1:44:04<01:52,  2.02it/s] 98%|█████████▊| 10472/10699 [1:44:05<01:52,  2.02it/s] 98%|█████████▊| 10473/10699 [1:44:05<01:51,  2.02it/s] 98%|█████████▊| 10474/10699 [1:44:06<01:51,  2.02it/s] 98%|█████████▊| 10475/10699 [1:44:06<01:50,  2.02it/s]{'loss': 3.5744, 'grad_norm': 0.19520634412765503, 'learning_rate': 1.3346890782570676e-06, 'epoch': 0.98}
-                                                        98%|█████████▊| 10475/10699 [1:44:06<01:50,  2.02it/s] 98%|█████████▊| 10476/10699 [1:44:07<01:50,  2.02it/s] 98%|█████████▊| 10477/10699 [1:44:07<01:49,  2.02it/s] 98%|█████████▊| 10478/10699 [1:44:08<01:49,  2.02it/s] 98%|█████████▊| 10479/10699 [1:44:08<01:48,  2.02it/s] 98%|█████████▊| 10480/10699 [1:44:09<01:48,  2.02it/s] 98%|█████████▊| 10481/10699 [1:44:09<01:47,  2.02it/s] 98%|█████████▊| 10482/10699 [1:44:10<01:47,  2.02it/s] 98%|█████████▊| 10483/10699 [1:44:10<01:46,  2.02it/s] 98%|█████████▊| 10484/10699 [1:44:11<01:46,  2.02it/s] 98%|█████████▊| 10485/10699 [1:44:11<01:45,  2.02it/s] 98%|█████████▊| 10486/10699 [1:44:12<01:45,  2.02it/s] 98%|█████████▊| 10487/10699 [1:44:12<01:44,  2.02it/s] 98%|█████████▊| 10488/10699 [1:44:13<01:44,  2.02it/s] 98%|█████████▊| 10489/10699 [1:44:13<01:43,  2.02it/s] 98%|█████████▊| 10490/10699 [1:44:14<01:43,  2.02it/s] 98%|█████████▊| 10491/10699 [1:44:14<01:42,  2.02it/s] 98%|█████████▊| 10492/10699 [1:44:15<01:42,  2.02it/s] 98%|█████████▊| 10493/10699 [1:44:15<01:41,  2.02it/s] 98%|█████████▊| 10494/10699 [1:44:16<01:41,  2.03it/s] 98%|█████████▊| 10495/10699 [1:44:16<01:40,  2.03it/s] 98%|█████████▊| 10496/10699 [1:44:17<01:40,  2.03it/s] 98%|█████████▊| 10497/10699 [1:44:17<01:39,  2.02it/s] 98%|█████████▊| 10498/10699 [1:44:17<01:39,  2.02it/s] 98%|█████████▊| 10499/10699 [1:44:18<01:38,  2.02it/s] 98%|█████████▊| 10500/10699 [1:44:18<01:38,  2.02it/s]{'loss': 3.572, 'grad_norm': 0.1918649971485138, 'learning_rate': 1.0534913305356165e-06, 'epoch': 0.98}
-                                                        98%|█████████▊| 10500/10699 [1:44:18<01:38,  2.02it/s] 98%|█████████▊| 10501/10699 [1:44:19<01:37,  2.02it/s] 98%|█████████▊| 10502/10699 [1:44:19<01:37,  2.02it/s] 98%|█████████▊| 10503/10699 [1:44:20<01:36,  2.02it/s] 98%|█████████▊| 10504/10699 [1:44:20<01:36,  2.02it/s] 98%|█████████▊| 10505/10699 [1:44:21<01:35,  2.02it/s] 98%|█████████▊| 10506/10699 [1:44:21<01:35,  2.02it/s] 98%|█████████▊| 10507/10699 [1:44:22<01:34,  2.02it/s] 98%|█████████▊| 10508/10699 [1:44:22<01:34,  2.02it/s] 98%|█████████▊| 10509/10699 [1:44:23<01:33,  2.02it/s] 98%|█████████▊| 10510/10699 [1:44:23<01:33,  2.02it/s] 98%|█████████▊| 10511/10699 [1:44:24<01:32,  2.02it/s] 98%|█████████▊| 10512/10699 [1:44:24<01:32,  2.03it/s] 98%|���████████▊| 10513/10699 [1:44:25<01:32,  2.02it/s] 98%|█████████▊| 10514/10699 [1:44:25<01:31,  2.02it/s] 98%|█████████▊| 10515/10699 [1:44:26<01:31,  2.02it/s] 98%|█████████▊| 10516/10699 [1:44:26<01:30,  2.02it/s] 98%|█████████▊| 10517/10699 [1:44:27<01:30,  2.02it/s] 98%|█████████▊| 10518/10699 [1:44:27<01:29,  2.02it/s] 98%|█████████▊| 10519/10699 [1:44:28<01:29,  2.02it/s] 98%|█████████▊| 10520/10699 [1:44:28<01:28,  2.02it/s] 98%|█████████▊| 10521/10699 [1:44:29<01:27,  2.02it/s] 98%|█████████▊| 10522/10699 [1:44:29<01:27,  2.02it/s] 98%|█████████▊| 10523/10699 [1:44:30<01:27,  2.02it/s] 98%|█████████▊| 10524/10699 [1:44:30<01:26,  2.02it/s] 98%|█████████▊| 10525/10699 [1:44:31<01:26,  2.02it/s]{'loss': 3.5799, 'grad_norm': 0.1908763349056244, 'learning_rate': 8.054882997466373e-07, 'epoch': 0.98}                                                       
- 98%|█████████▊| 10525/10699 [1:44:31<01:26,  2.02it/s] 98%|█████████▊| 10526/10699 [1:44:31<01:25,  2.02it/s] 98%|█████████▊| 10527/10699 [1:44:32<01:25,  2.02it/s] 98%|█████████▊| 10528/10699 [1:44:32<01:24,  2.02it/s] 98%|█████████▊| 10529/10699 [1:44:33<01:24,  2.02it/s] 98%|█████████▊| 10530/10699 [1:44:33<01:23,  2.02it/s] 98%|█████████▊| 10531/10699 [1:44:34<01:23,  2.02it/s] 98%|█████████▊| 10532/10699 [1:44:34<01:22,  2.02it/s] 98%|█████████▊| 10533/10699 [1:44:35<01:22,  2.02it/s] 98%|█████████▊| 10534/10699 [1:44:35<01:21,  2.02it/s] 98%|█████████▊| 10535/10699 [1:44:36<01:21,  2.02it/s] 98%|█████████▊| 10536/10699 [1:44:36<01:20,  2.02it/s] 98%|█████████▊| 10537/10699 [1:44:37<01:20,  2.02it/s] 98%|█████████▊| 10538/10699 [1:44:37<01:19,  2.02it/s] 99%|█████████▊| 10539/10699 [1:44:38<01:19,  2.03it/s] 99%|█████████▊| 10540/10699 [1:44:38<01:18,  2.02it/s] 99%|█████████▊| 10541/10699 [1:44:39<01:18,  2.03it/s] 99%|█████████▊| 10542/10699 [1:44:39<01:17,  2.02it/s] 99%|█████████▊| 10543/10699 [1:44:40<01:17,  2.03it/s] 99%|█████████▊| 10544/10699 [1:44:40<01:16,  2.02it/s] 99%|█████████▊| 10545/10699 [1:44:41<01:16,  2.02it/s] 99%|█████████▊| 10546/10699 [1:44:41<01:15,  2.02it/s] 99%|█████████▊| 10547/10699 [1:44:42<01:15,  2.02it/s] 99%|█████████▊| 10548/10699 [1:44:42<01:14,  2.02it/s] 99%|█████████▊| 10549/10699 [1:44:43<01:14,  2.02it/s] 99%|█████████▊| 10550/10699 [1:44:43<01:13,  2.02it/s]                                                       {'loss': 3.5686, 'grad_norm': 0.19489462673664093, 'learning_rate': 5.906964854351937e-07, 'epoch': 0.99}
- 99%|█████████▊| 10550/10699 [1:44:43<01:13,  2.02it/s] 99%|█████████▊| 10551/10699 [1:44:44<01:13,  2.02it/s] 99%|█████████▊| 10552/10699 [1:44:44<01:12,  2.02it/s] 99%|█████████▊| 10553/10699 [1:44:45<01:12,  2.02it/s] 99%|█████████▊| 10554/10699 [1:44:45<01:11,  2.02it/s] 99%|█████████▊| 10555/10699 [1:44:46<01:11,  2.02it/s] 99%|█████████▊| 10556/10699 [1:44:46<01:10,  2.02it/s] 99%|█████████▊| 10557/10699 [1:44:47<01:10,  2.02it/s] 99%|█████████▊| 10558/10699 [1:44:47<01:09,  2.02it/s] 99%|█████████▊| 10559/10699 [1:44:48<01:09,  2.02it/s] 99%|█████████▊| 10560/10699 [1:44:48<01:08,  2.02it/s] 99%|█████████▊| 10561/10699 [1:44:49<01:08,  2.02it/s] 99%|█████████▊| 10562/10699 [1:44:49<01:07,  2.02it/s] 99%|█████████▊| 10563/10699 [1:44:50<01:07,  2.02it/s] 99%|█████████▊| 10564/10699 [1:44:50<01:06,  2.02it/s] 99%|█████████▊| 10565/10699 [1:44:51<01:06,  2.02it/s] 99%|█████████▉| 10566/10699 [1:44:51<01:05,  2.02it/s] 99%|█████████▉| 10567/10699 [1:44:52<01:05,  2.02it/s] 99%|█████████▉| 10568/10699 [1:44:52<01:04,  2.02it/s] 99%|█████████▉| 10569/10699 [1:44:53<01:04,  2.02it/s] 99%|█████████▉| 10570/10699 [1:44:53<01:03,  2.02it/s] 99%|█████████▉| 10571/10699 [1:44:54<01:03,  2.02it/s] 99%|█████████▉| 10572/10699 [1:44:54<01:02,  2.02it/s] 99%|█████████▉| 10573/10699 [1:44:55<01:02,  2.02it/s] 99%|█████████▉| 10574/10699 [1:44:55<01:01,  2.02it/s] 99%|█████████▉| 10575/10699 [1:44:56<01:01,  2.02it/s]                                                       {'loss': 3.574, 'grad_norm': 0.1922423094511032, 'learning_rate': 4.09130177617012e-07, 'epoch': 0.99}
- 99%|█████████▉| 10575/10699 [1:44:56<01:01,  2.02it/s] 99%|█████████▉| 10576/10699 [1:44:56<01:00,  2.02it/s] 99%|█████████▉| 10577/10699 [1:44:57<01:00,  2.02it/s] 99%|█████████▉| 10578/10699 [1:44:57<00:59,  2.02it/s] 99%|█████████▉| 10579/10699 [1:44:58<00:59,  2.02it/s] 99%|█████████▉| 10580/10699 [1:44:58<00:58,  2.02it/s] 99%|█████████▉| 10581/10699 [1:44:59<00:58,  2.02it/s] 99%|█████████▉| 10582/10699 [1:44:59<00:57,  2.02it/s] 99%|█████████▉| 10583/10699 [1:45:00<00:57,  2.02it/s] 99%|█████████▉| 10584/10699 [1:45:00<00:56,  2.02it/s] 99%|█████████▉| 10585/10699 [1:45:01<00:56,  2.02it/s] 99%|█████████▉| 10586/10699 [1:45:01<00:55,  2.02it/s] 99%|█████████▉| 10587/10699 [1:45:02<00:55,  2.02it/s] 99%|█████████▉| 10588/10699 [1:45:02<00:54,  2.02it/s] 99%|█████████▉| 10589/10699 [1:45:03<00:54,  2.02it/s] 99%|█████████▉| 10590/10699 [1:45:03<00:53,  2.02it/s] 99%|█████████▉| 10591/10699 [1:45:03<00:53,  2.02it/s] 99%|█████████▉| 10592/10699 [1:45:04<00:52,  2.02it/s] 99%|█████████▉| 10593/10699 [1:45:04<00:52,  2.02it/s] 99%|█████████▉| 10594/10699 [1:45:05<00:51,  2.02it/s] 99%|█████████▉| 10595/10699 [1:45:05<00:51,  2.02it/s] 99%|█████████▉| 10596/10699 [1:45:06<00:51,  2.02it/s] 99%|█████████▉| 10597/10699 [1:45:06<00:50,  2.02it/s] 99%|█████████▉| 10598/10699 [1:45:07<00:49,  2.02it/s] 99%|█████████▉| 10599/10699 [1:45:07<00:49,  2.02it/s] 99%|█████████▉| 10600/10699 [1:45:08<00:49,  2.02it/s]{'loss': 3.5663, 'grad_norm': 0.1900310516357422, 'learning_rate': 2.6080145582779714e-07, 'epoch': 0.99}
-                                                        99%|█████████▉| 10600/10699 [1:45:08<00:49,  2.02it/s] 99%|█████████▉| 10601/10699 [1:45:08<00:48,  2.02it/s] 99%|█████████▉| 10602/10699 [1:45:09<00:48,  2.02it/s] 99%|█████████▉| 10603/10699 [1:45:09<00:47,  2.02it/s] 99%|█████████▉| 10604/10699 [1:45:10<00:47,  2.02it/s] 99%|█████████▉| 10605/10699 [1:45:10<00:46,  2.02it/s] 99%|█████████▉| 10606/10699 [1:45:11<00:46,  2.02it/s] 99%|█████████▉| 10607/10699 [1:45:11<00:45,  2.02it/s] 99%|█████████▉| 10608/10699 [1:45:12<00:44,  2.02it/s] 99%|█████████▉| 10609/10699 [1:45:12<00:44,  2.02it/s] 99%|█████████▉| 10610/10699 [1:45:13<00:44,  2.02it/s] 99%|█████████▉| 10611/10699 [1:45:13<00:43,  2.02it/s] 99%|█████████▉| 10612/10699 [1:45:14<00:43,  2.02it/s] 99%|█████████▉| 10613/10699 [1:45:14<00:42,  2.02it/s] 99%|█████████▉| 10614/10699 [1:45:15<00:42,  2.02it/s] 99%|█████████▉| 10615/10699 [1:45:15<00:41,  2.02it/s] 99%|█████████▉| 10616/10699 [1:45:16<00:40,  2.02it/s] 99%|█████████▉| 10617/10699 [1:45:16<00:40,  2.02it/s] 99%|█████████▉| 10618/10699 [1:45:17<00:40,  2.02it/s] 99%|█████████▉| 10619/10699 [1:45:17<00:39,  2.02it/s] 99%|█████████▉| 10620/10699 [1:45:18<00:39,  2.02it/s] 99%|█████████▉| 10621/10699 [1:45:18<00:38,  2.03it/s] 99%|█████████▉| 10622/10699 [1:45:19<00:38,  2.02it/s] 99%|█████████▉| 10623/10699 [1:45:19<00:37,  2.02it/s] 99%|█████████▉| 10624/10699 [1:45:20<00:37,  2.03it/s] 99%|█████████▉| 10625/10699 [1:45:20<00:36,  2.03it/s]                                                       {'loss': 3.5737, 'grad_norm': 0.19787102937698364, 'learning_rate': 1.4572018831976452e-07, 'epoch': 0.99}
- 99%|█████████▉| 10625/10699 [1:45:20<00:36,  2.03it/s] 99%|█████████▉| 10626/10699 [1:45:21<00:36,  2.02it/s] 99%|█████████▉| 10627/10699 [1:45:21<00:35,  2.02it/s] 99%|█████████▉| 10628/10699 [1:45:22<00:35,  2.02it/s] 99%|█████████▉| 10629/10699 [1:45:22<00:34,  2.02it/s] 99%|█████████▉| 10630/10699 [1:45:23<00:34,  2.02it/s] 99%|█████████▉| 10631/10699 [1:45:23<00:33,  2.02it/s] 99%|█████████▉| 10632/10699 [1:45:24<00:33,  2.02it/s] 99%|█████████▉| 10633/10699 [1:45:24<00:32,  2.02it/s] 99%|█████████▉| 10634/10699 [1:45:25<00:32,  2.02it/s] 99%|█████████▉| 10635/10699 [1:45:25<00:31,  2.02it/s] 99%|█████████▉| 10636/10699 [1:45:26<00:31,  2.02it/s] 99%|█████████▉| 10637/10699 [1:45:26<00:30,  2.02it/s] 99%|█████████▉| 10638/10699 [1:45:27<00:30,  2.02it/s] 99%|█████████▉| 10639/10699 [1:45:27<00:29,  2.02it/s] 99%|█████████▉| 10640/10699 [1:45:28<00:29,  2.02it/s] 99%|█████████▉| 10641/10699 [1:45:28<00:28,  2.02it/s] 99%|█████████▉| 10642/10699 [1:45:29<00:28,  2.02it/s] 99%|█████████▉| 10643/10699 [1:45:29<00:27,  2.02it/s] 99%|█████████▉| 10644/10699 [1:45:30<00:27,  2.02it/s] 99%|█████████▉| 10645/10699 [1:45:30<00:26,  2.02it/s]100%|█████████▉| 10646/10699 [1:45:31<00:26,  2.02it/s]100%|█████████▉| 10647/10699 [1:45:31<00:25,  2.02it/s]100%|█████████▉| 10648/10699 [1:45:32<00:25,  2.02it/s]100%|█████████▉| 10649/10699 [1:45:32<00:24,  2.03it/s]100%|█████████▉| 10650/10699 [1:45:33<00:24,  2.03it/s]                                                       {'loss': 3.5658, 'grad_norm': 0.19243361055850983, 'learning_rate': 6.389403140472094e-08, 'epoch': 1.0}
-100%|█████████▉| 10650/10699 [1:45:33<00:24,  2.03it/s]100%|█████████▉| 10651/10699 [1:45:33<00:23,  2.02it/s]100%|█████████▉| 10652/10699 [1:45:34<00:23,  2.02it/s]100%|█████████▉| 10653/10699 [1:45:34<00:22,  2.02it/s]100%|█████████▉| 10654/10699 [1:45:35<00:22,  2.02it/s]100%|█████████▉| 10655/10699 [1:45:35<00:21,  2.02it/s]100%|█████████▉| 10656/10699 [1:45:36<00:21,  2.02it/s]100%|█████████▉| 10657/10699 [1:45:36<00:20,  2.02it/s]100%|█████████▉| 10658/10699 [1:45:37<00:20,  2.02it/s]100%|█████████▉| 10659/10699 [1:45:37<00:19,  2.02it/s]100%|█████████▉| 10660/10699 [1:45:38<00:19,  2.02it/s]100%|█████████▉| 10661/10699 [1:45:38<00:18,  2.02it/s]100%|█████████▉| 10662/10699 [1:45:39<00:18,  2.02it/s]100%|█████████▉| 10663/10699 [1:45:39<00:17,  2.02it/s]100%|█████████▉| 10664/10699 [1:45:40<00:17,  2.02it/s]100%|█████████▉| 10665/10699 [1:45:40<00:16,  2.02it/s]100%|█████████▉| 10666/10699 [1:45:41<00:16,  2.02it/s]100%|█████████▉| 10667/10699 [1:45:41<00:15,  2.02it/s]100%|█████████▉| 10668/10699 [1:45:42<00:15,  2.03it/s]100%|█████████▉| 10669/10699 [1:45:42<00:14,  2.02it/s]100%|█████████▉| 10670/10699 [1:45:43<00:14,  2.02it/s]100%|█████████▉| 10671/10699 [1:45:43<00:13,  2.02it/s]100%|█████████▉| 10672/10699 [1:45:44<00:13,  2.02it/s]100%|█████████▉| 10673/10699 [1:45:44<00:12,  2.02it/s]100%|█████████▉| 10674/10699 [1:45:45<00:12,  2.02it/s]100%|█████████▉| 10675/10699 [1:45:45<00:11,  2.02it/s]                                                       {'loss': 3.5683, 'grad_norm': 0.1921546310186386, 'learning_rate': 1.5328428945138306e-08, 'epoch': 1.0}
-100%|█████████▉| 10675/10699 [1:45:45<00:11,  2.02it/s]100%|█████████▉| 10676/10699 [1:45:46<00:11,  2.02it/s]100%|█████████▉| 10677/10699 [1:45:46<00:10,  2.02it/s]100%|█████████▉| 10678/10699 [1:45:47<00:10,  2.02it/s]100%|█████████▉| 10679/10699 [1:45:47<00:09,  2.02it/s]100%|█████████▉| 10680/10699 [1:45:48<00:09,  2.02it/s]100%|█████████▉| 10681/10699 [1:45:48<00:08,  2.02it/s]100%|█████████▉| 10682/10699 [1:45:48<00:08,  2.02it/s]100%|█████████▉| 10683/10699 [1:45:49<00:07,  2.02it/s]100%|█████████▉| 10684/10699 [1:45:49<00:07,  2.02it/s]100%|█████████▉| 10685/10699 [1:45:50<00:06,  2.02it/s]100%|█████████▉| 10686/10699 [1:45:50<00:06,  2.02it/s]100%|█████████▉| 10687/10699 [1:45:51<00:05,  2.02it/s]100%|█████████▉| 10688/10699 [1:45:51<00:05,  2.02it/s]100%|█████████▉| 10689/10699 [1:45:52<00:04,  2.02it/s]100%|█████████▉| 10690/10699 [1:45:52<00:04,  2.02it/s]100%|█████████▉| 10691/10699 [1:45:53<00:03,  2.02it/s]100%|█████████▉| 10692/10699 [1:45:53<00:03,  2.02it/s]100%|█████████▉| 10693/10699 [1:45:54<00:02,  2.02it/s]100%|█████████▉| 10694/10699 [1:45:54<00:02,  2.02it/s]100%|█████████▉| 10695/10699 [1:45:55<00:01,  2.02it/s]100%|█████████▉| 10696/10699 [1:45:55<00:01,  2.02it/s]100%|█████████▉| 10697/10699 [1:45:56<00:00,  2.02it/s]100%|█████████▉| 10698/10699 [1:45:56<00:00,  2.02it/s]100%|██████████| 10699/10699 [1:45:58<00:00,  1.31it/s]{'train_runtime': 6369.7042, 'train_samples_per_second': 1720.016, 'train_steps_per_second': 1.68, 'train_loss': 3.9511941556273604, 'epoch': 1.0}                                                       
-100%|██████████| 10699/10699 [1:46:09<00:00,  1.31it/s]100%|██████████| 10699/10699 [1:46:09<00:00,  1.68it/s]
+[2024-05-21 09:17:57,638] torch.distributed.run: [WARNING] 
+[2024-05-21 09:17:57,638] torch.distributed.run: [WARNING] *****************************************
+[2024-05-21 09:17:57,638] torch.distributed.run: [WARNING] Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
+[2024-05-21 09:17:57,638] torch.distributed.run: [WARNING] *****************************************
+05/21/2024 09:18:09 - INFO - __main__ - Script parameters ScriptArguments(seed=1, dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_clipped_scaled/data/lambada', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_clipped_scaled/llms/pythia-70m_lambada_1', output_hub_id='pythia-70m_lambada', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=1.0, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
+05/21/2024 09:18:09 - INFO - __main__ - Script parameters ScriptArguments(seed=1, dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_clipped_scaled/data/lambada', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/test_ordinal_clipped_scaled/llms/pythia-70m_lambada_1', output_hub_id='pythia-70m_lambada', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=1.0, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
+  0%|          | 0/10702 [00:00<?, ?it/s][rank0]:[W reducer.cpp:1360] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
+[rank1]:[W reducer.cpp:1360] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
+  0%|          | 1/10702 [00:56<166:32:36, 56.03s/it]  0%|          | 2/10702 [01:27<124:06:08, 41.75s/it]  0%|          | 3/10702 [01:55<104:56:48, 35.31s/it]  0%|          | 4/10702 [02:20<92:53:31, 31.26s/it]   0%|          | 5/10702 [02:44<85:05:48, 28.64s/it]  0%|          | 6/10702 [03:06<78:13:08, 26.33s/it]  0%|          | 7/10702 [03:26<72:29:06, 24.40s/it]  0%|          | 8/10702 [03:45<67:07:12, 22.60s/it]  0%|          | 9/10702 [04:02<62:09:43, 20.93s/it]  0%|          | 10/10702 [04:18<57:43:56, 19.44s/it]  0%|          | 11/10702 [04:34<53:53:50, 18.15s/it]  0%|          | 12/10702 [04:49<51:10:37, 17.23s/it]  0%|          | 13/10702 [05:03<48:09:46, 16.22s/it]  0%|          | 14/10702 [05:15<45:08:59, 15.21s/it]  0%|          | 15/10702 [05:28<42:28:53, 14.31s/it]  0%|          | 16/10702 [05:39<40:01:43, 13.49s/it]  0%|          | 17/10702 [05:50<37:41:12, 12.70s/it]  0%|          | 18/10702 [06:01<36:05:30, 12.16s/it]  0%|          | 19/10702 [06:10<33:31:21, 11.30s/it]  0%|          | 20/10702 [06:21<33:02:05, 11.13s/it]  0%|          | 21/10702 [06:31<31:50:01, 10.73s/it]  0%|          | 22/10702 [06:43<32:40:09, 11.01s/it]  0%|          | 23/10702 [06:52<31:08:18, 10.50s/it]  0%|          | 24/10702 [07:02<30:37:15, 10.32s/it]  0%|          | 25/10702 [07:10<28:47:26,  9.71s/it]{'loss': 10.6765, 'grad_norm': 1.3324272632598877, 'learning_rate': 2.3342670401493933e-05, 'epoch': 0.0}                                                     
+  0%|          | 25/10702 [07:10<28:47:26,  9.71s/it]  0%|          | 26/10702 [07:18<27:00:07,  9.11s/it]  0%|          | 27/10702 [07:25<24:58:11,  8.42s/it]  0%|          | 28/10702 [07:31<22:48:10,  7.69s/it]  0%|          | 29/10702 [07:37<22:03:15,  7.44s/it]  0%|          | 30/10702 [07:43<20:44:23,  7.00s/it]  0%|          | 31/10702 [07:49<19:12:11,  6.48s/it]  0%|          | 32/10702 [07:54<18:16:30,  6.17s/it]  0%|          | 33/10702 [07:59<17:24:43,  5.88s/it]  0%|          | 34/10702 [08:04<16:32:27,  5.58s/it]  0%|          | 35/10702 [08:09<15:54:59,  5.37s/it]  0%|          | 36/10702 [08:13<15:05:45,  5.10s/it]  0%|          | 37/10702 [08:18<14:16:47,  4.82s/it]  0%|          | 38/10702 [08:22<13:56:35,  4.71s/it]  0%|          | 39/10702 [08:26<13:24:41,  4.53s/it]  0%|          | 40/10702 [08:31<13:16:04,  4.48s/it]  0%|          | 41/10702 [08:35<13:26:28,  4.54s/it]  0%|          | 42/10702 [08:39<13:04:19,  4.41s/it]  0%|          | 43/10702 [08:43<12:20:44,  4.17s/it]  0%|          | 44/10702 [08:46<11:25:26,  3.86s/it]  0%|          | 45/10702 [08:50<11:12:17,  3.79s/it]  0%|          | 46/10702 [08:53<11:08:02,  3.76s/it]  0%|          | 47/10702 [08:57<10:54:44,  3.69s/it]  0%|          | 48/10702 [09:00<10:26:39,  3.53s/it]  0%|          | 49/10702 [09:04<10:42:21,  3.62s/it]  0%|          | 50/10702 [09:07<10:13:28,  3.46s/it]                                                     {'loss': 9.9798, 'grad_norm': 1.2023533582687378, 'learning_rate': 4.6685340802987865e-05, 'epoch': 0.0}
+  0%|          | 50/10702 [09:07<10:13:28,  3.46s/it]  0%|          | 51/10702 [09:10<9:38:41,  3.26s/it]   0%|          | 52/10702 [09:13<9:24:48,  3.18s/it]  0%|          | 53/10702 [09:15<8:57:38,  3.03s/it]  1%|          | 54/10702 [09:18<8:51:44,  3.00s/it]  1%|          | 55/10702 [09:21<8:35:44,  2.91s/it]  1%|          | 56/10702 [09:24<8:36:10,  2.91s/it]  1%|          | 57/10702 [09:27<8:25:33,  2.85s/it]  1%|          | 58/10702 [09:29<8:01:24,  2.71s/it]  1%|          | 59/10702 [09:32<8:03:24,  2.73s/it]  1%|          | 60/10702 [09:35<8:11:25,  2.77s/it]  1%|          | 61/10702 [09:37<8:09:31,  2.76s/it]  1%|          | 62/10702 [09:40<7:40:53,  2.60s/it]  1%|          | 63/10702 [09:42<7:35:35,  2.57s/it]  1%|          | 64/10702 [09:45<7:27:55,  2.53s/it]  1%|          | 65/10702 [09:47<7:25:54,  2.52s/it]  1%|          | 66/10702 [09:50<7:32:12,  2.55s/it]  1%|          | 67/10702 [09:52<7:11:17,  2.43s/it]  1%|          | 68/10702 [09:54<7:02:26,  2.38s/it]  1%|          | 69/10702 [09:56<6:33:12,  2.22s/it]  1%|          | 70/10702 [09:58<6:34:54,  2.23s/it]  1%|          | 71/10702 [10:00<6:21:31,  2.15s/it]  1%|          | 72/10702 [10:02<6:13:50,  2.11s/it]  1%|          | 73/10702 [10:04<6:03:02,  2.05s/it]  1%|          | 74/10702 [10:06<5:56:36,  2.01s/it]  1%|          | 75/10702 [10:08<5:59:06,  2.03s/it]{'loss': 9.2775, 'grad_norm': 1.0211951732635498, 'learning_rate': 7.00280112044818e-05, 'epoch': 0.01}
+                                                      1%|          | 75/10702 [10:08<5:59:06,  2.03s/it]  1%|          | 76/10702 [10:10<5:48:38,  1.97s/it]  1%|          | 77/10702 [10:12<5:52:15,  1.99s/it]  1%|          | 78/10702 [10:14<5:39:03,  1.91s/it]  1%|          | 79/10702 [10:16<5:30:42,  1.87s/it]  1%|          | 80/10702 [10:17<5:29:57,  1.86s/it]  1%|          | 81/10702 [10:19<5:16:35,  1.79s/it]  1%|          | 82/10702 [10:21<5:13:09,  1.77s/it]  1%|          | 83/10702 [10:22<5:07:34,  1.74s/it]  1%|          | 84/10702 [10:24<5:19:05,  1.80s/it]  1%|          | 85/10702 [10:26<5:15:12,  1.78s/it]  1%|          | 86/10702 [10:28<5:04:33,  1.72s/it]  1%|          | 87/10702 [10:29<5:07:03,  1.74s/it]  1%|          | 88/10702 [10:31<4:50:15,  1.64s/it]  1%|          | 89/10702 [10:32<4:49:34,  1.64s/it]  1%|          | 90/10702 [10:34<4:53:11,  1.66s/it]  1%|          | 91/10702 [10:36<4:42:34,  1.60s/it]  1%|          | 92/10702 [10:38<5:02:20,  1.71s/it]  1%|          | 93/10702 [10:39<4:52:33,  1.65s/it]  1%|          | 94/10702 [10:41<4:40:21,  1.59s/it]  1%|          | 95/10702 [10:42<4:44:01,  1.61s/it]  1%|          | 96/10702 [10:44<4:35:30,  1.56s/it]  1%|          | 97/10702 [10:45<4:26:44,  1.51s/it]  1%|          | 98/10702 [10:47<4:25:12,  1.50s/it]  1%|          | 99/10702 [10:48<4:11:46,  1.42s/it]  1%|          | 100/10702 [10:49<4:09:11,  1.41s/it]                                                     {'loss': 8.5088, 'grad_norm': 0.743518054485321, 'learning_rate': 9.337068160597573e-05, 'epoch': 0.01}
+  1%|          | 100/10702 [10:49<4:09:11,  1.41s/it]  1%|          | 101/10702 [10:51<4:12:01,  1.43s/it]  1%|          | 102/10702 [10:52<4:12:30,  1.43s/it]  1%|          | 103/10702 [10:53<4:10:36,  1.42s/it]  1%|          | 104/10702 [10:55<4:11:13,  1.42s/it]  1%|          | 105/10702 [10:56<4:01:42,  1.37s/it]  1%|          | 106/10702 [10:58<4:04:14,  1.38s/it]  1%|          | 107/10702 [10:59<3:50:17,  1.30s/it]  1%|          | 108/10702 [11:00<3:41:10,  1.25s/it]  1%|          | 109/10702 [11:01<3:40:48,  1.25s/it]  1%|          | 110/10702 [11:02<3:39:50,  1.25s/it]  1%|          | 111/10702 [11:04<3:40:22,  1.25s/it]  1%|          | 112/10702 [11:05<3:26:21,  1.17s/it]  1%|          | 113/10702 [11:06<3:25:14,  1.16s/it]  1%|          | 114/10702 [11:07<3:24:34,  1.16s/it]  1%|          | 115/10702 [11:08<3:32:03,  1.20s/it]  1%|          | 116/10702 [11:09<3:26:51,  1.17s/it]  1%|          | 117/10702 [11:10<3:21:40,  1.14s/it]  1%|          | 118/10702 [11:11<3:17:08,  1.12s/it]  1%|          | 119/10702 [11:13<3:24:47,  1.16s/it]  1%|          | 120/10702 [11:14<3:17:36,  1.12s/it]  1%|          | 121/10702 [11:15<3:13:29,  1.10s/it]  1%|          | 122/10702 [11:16<3:06:34,  1.06s/it]  1%|          | 123/10702 [11:17<3:08:43,  1.07s/it]  1%|          | 124/10702 [11:18<3:04:48,  1.05s/it]  1%|          | 125/10702 [11:19<3:03:18,  1.04s/it]{'loss': 7.8789, 'grad_norm': 0.47721362113952637, 'learning_rate': 0.00011671335200746966, 'epoch': 0.01}
+                                                       1%|          | 125/10702 [11:19<3:03:18,  1.04s/it]  1%|          | 126/10702 [11:20<3:06:43,  1.06s/it]  1%|          | 127/10702 [11:21<3:06:11,  1.06s/it]  1%|          | 128/10702 [11:22<3:06:59,  1.06s/it]  1%|          | 129/10702 [11:23<3:07:41,  1.07s/it]  1%|          | 130/10702 [11:24<3:02:48,  1.04s/it]  1%|          | 131/10702 [11:25<3:01:50,  1.03s/it]  1%|          | 132/10702 [11:26<2:52:23,  1.02it/s]  1%|          | 133/10702 [11:27<3:00:04,  1.02s/it]  1%|▏         | 134/10702 [11:28<2:56:47,  1.00s/it]  1%|▏         | 135/10702 [11:29<3:01:48,  1.03s/it]  1%|▏         | 136/10702 [11:30<2:54:31,  1.01it/s]  1%|▏         | 137/10702 [11:31<2:50:53,  1.03it/s]  1%|▏         | 138/10702 [11:32<2:50:32,  1.03it/s]  1%|▏         | 139/10702 [11:33<2:54:45,  1.01it/s]  1%|▏         | 140/10702 [11:34<2:48:34,  1.04it/s]  1%|▏         | 141/10702 [11:35<2:46:05,  1.06it/s]  1%|▏         | 142/10702 [11:36<2:44:18,  1.07it/s]  1%|▏         | 143/10702 [11:37<2:41:44,  1.09it/s]  1%|▏         | 144/10702 [11:38<2:52:32,  1.02it/s]  1%|▏         | 145/10702 [11:39<3:06:59,  1.06s/it]  1%|▏         | 146/10702 [11:40<2:58:38,  1.02s/it]  1%|▏         | 147/10702 [11:41<2:53:08,  1.02it/s]  1%|▏         | 148/10702 [11:42<2:50:31,  1.03it/s]  1%|▏         | 149/10702 [11:43<2:47:49,  1.05it/s]  1%|▏         | 150/10702 [11:43<2:45:31,  1.06it/s]                                                     {'loss': 7.4064, 'grad_norm': 0.4102780520915985, 'learning_rate': 0.0001400560224089636, 'epoch': 0.01}
+  1%|▏         | 150/10702 [11:43<2:45:31,  1.06it/s]  1%|▏         | 151/10702 [11:44<2:44:31,  1.07it/s]  1%|▏         | 152/10702 [11:45<2:46:15,  1.06it/s]  1%|▏         | 153/10702 [11:46<2:40:23,  1.10it/s]  1%|▏         | 154/10702 [11:47<2:33:05,  1.15it/s]  1%|▏         | 155/10702 [11:48<2:31:31,  1.16it/s]  1%|▏         | 156/10702 [11:49<2:35:44,  1.13it/s]  1%|▏         | 157/10702 [11:50<2:35:13,  1.13it/s]  1%|▏         | 158/10702 [11:50<2:32:11,  1.15it/s]  1%|▏         | 159/10702 [11:51<2:32:03,  1.16it/s]  1%|▏         | 160/10702 [11:52<2:29:29,  1.18it/s]  2%|▏         | 161/10702 [11:53<2:26:51,  1.20it/s]  2%|▏         | 162/10702 [11:54<2:29:19,  1.18it/s]  2%|▏         | 163/10702 [11:55<2:26:03,  1.20it/s]  2%|▏         | 164/10702 [11:55<2:27:31,  1.19it/s]  2%|▏         | 165/10702 [11:56<2:26:38,  1.20it/s]  2%|▏         | 166/10702 [11:57<2:21:51,  1.24it/s]  2%|▏         | 167/10702 [11:58<2:17:38,  1.28it/s]  2%|▏         | 168/10702 [11:59<2:20:23,  1.25it/s]  2%|▏         | 169/10702 [11:59<2:22:11,  1.23it/s]  2%|▏         | 170/10702 [12:00<2:22:25,  1.23it/s]  2%|▏         | 171/10702 [12:01<2:18:16,  1.27it/s]  2%|▏         | 172/10702 [12:02<2:19:47,  1.26it/s]  2%|▏         | 173/10702 [12:03<2:17:03,  1.28it/s]  2%|▏         | 174/10702 [12:03<2:20:34,  1.25it/s]  2%|▏         | 175/10702 [12:04<2:20:16,  1.25it/s]{'loss': 7.0052, 'grad_norm': 0.3262961804866791, 'learning_rate': 0.00016339869281045753, 'epoch': 0.02}
+                                                       2%|▏         | 175/10702 [12:04<2:20:16,  1.25it/s]  2%|▏         | 176/10702 [12:05<2:18:58,  1.26it/s]  2%|▏         | 177/10702 [12:06<2:19:57,  1.25it/s]  2%|▏         | 178/10702 [12:06<2:15:08,  1.30it/s]  2%|▏         | 179/10702 [12:07<2:14:41,  1.30it/s]  2%|▏         | 180/10702 [12:08<2:12:21,  1.32it/s]  2%|▏         | 181/10702 [12:09<2:09:34,  1.35it/s]  2%|▏         | 182/10702 [12:09<2:07:21,  1.38it/s]  2%|▏         | 183/10702 [12:10<2:09:42,  1.35it/s]  2%|▏         | 184/10702 [12:11<2:07:15,  1.38it/s]  2%|▏         | 185/10702 [12:12<2:06:02,  1.39it/s]  2%|▏         | 186/10702 [12:12<2:15:53,  1.29it/s]  2%|▏         | 187/10702 [12:13<2:09:46,  1.35it/s]  2%|▏         | 188/10702 [12:14<2:08:55,  1.36it/s]  2%|▏         | 189/10702 [12:15<2:08:04,  1.37it/s]  2%|▏         | 190/10702 [12:15<2:07:55,  1.37it/s]  2%|▏         | 191/10702 [12:16<2:03:51,  1.41it/s]  2%|▏         | 192/10702 [12:17<2:02:15,  1.43it/s]  2%|▏         | 193/10702 [12:17<2:07:55,  1.37it/s]  2%|▏         | 194/10702 [12:18<2:06:29,  1.38it/s]  2%|▏         | 195/10702 [12:19<2:00:54,  1.45it/s]  2%|▏         | 196/10702 [12:19<2:01:59,  1.44it/s]  2%|▏         | 197/10702 [12:20<2:01:33,  1.44it/s]  2%|▏         | 198/10702 [12:21<1:59:34,  1.46it/s]  2%|▏         | 199/10702 [12:21<1:57:03,  1.50it/s]  2%|▏         | 200/10702 [12:22<2:01:45,  1.44it/s]                                                     {'loss': 6.6585, 'grad_norm': 0.3803161382675171, 'learning_rate': 0.00018674136321195146, 'epoch': 0.02}
+  2%|▏         | 200/10702 [12:22<2:01:45,  1.44it/s]  2%|▏         | 201/10702 [12:23<2:07:39,  1.37it/s]  2%|▏         | 202/10702 [12:24<2:04:54,  1.40it/s]  2%|▏         | 203/10702 [12:24<2:08:18,  1.36it/s]  2%|▏         | 204/10702 [12:25<2:07:18,  1.37it/s]  2%|▏         | 205/10702 [12:26<2:04:12,  1.41it/s]  2%|▏         | 206/10702 [12:26<2:00:03,  1.46it/s]  2%|▏         | 207/10702 [12:27<1:58:26,  1.48it/s]  2%|▏         | 208/10702 [12:28<1:58:20,  1.48it/s]  2%|▏         | 209/10702 [12:28<1:56:25,  1.50it/s]  2%|▏         | 210/10702 [12:29<1:54:44,  1.52it/s]  2%|▏         | 211/10702 [12:30<1:58:12,  1.48it/s]  2%|▏         | 212/10702 [12:31<2:01:23,  1.44it/s]  2%|▏         | 213/10702 [12:31<1:59:37,  1.46it/s]  2%|▏         | 214/10702 [12:32<1:58:35,  1.47it/s]  2%|▏         | 215/10702 [12:33<1:59:44,  1.46it/s]  2%|▏         | 216/10702 [12:33<2:00:43,  1.45it/s]  2%|▏         | 217/10702 [12:34<1:57:56,  1.48it/s]  2%|▏         | 218/10702 [12:34<1:54:14,  1.53it/s]  2%|▏         | 219/10702 [12:35<1:55:04,  1.52it/s]  2%|▏         | 220/10702 [12:36<1:55:18,  1.51it/s]  2%|▏         | 221/10702 [12:36<1:56:14,  1.50it/s]  2%|▏         | 222/10702 [12:37<1:54:28,  1.53it/s]  2%|▏         | 223/10702 [12:38<1:53:20,  1.54it/s]  2%|▏         | 224/10702 [12:38<1:55:48,  1.51it/s]  2%|▏         | 225/10702 [12:39<1:55:46,  1.51it/s]{'loss': 6.3925, 'grad_norm': 0.6437065005302429, 'learning_rate': 0.0002100840336134454, 'epoch': 0.02}
+                                                       2%|▏         | 225/10702 [12:39<1:55:46,  1.51it/s]  2%|▏         | 226/10702 [12:40<1:54:41,  1.52it/s]  2%|▏         | 227/10702 [12:40<1:52:31,  1.55it/s]  2%|▏         | 228/10702 [12:41<1:51:42,  1.56it/s]  2%|▏         | 229/10702 [12:42<1:53:43,  1.53it/s]  2%|▏         | 230/10702 [12:42<1:54:29,  1.52it/s]  2%|▏         | 231/10702 [12:43<1:58:00,  1.48it/s]  2%|▏         | 232/10702 [12:44<1:54:42,  1.52it/s]  2%|▏         | 233/10702 [12:44<1:51:56,  1.56it/s]  2%|▏         | 234/10702 [12:45<1:51:09,  1.57it/s]  2%|▏         | 235/10702 [12:46<1:51:15,  1.57it/s]  2%|▏         | 236/10702 [12:46<1:47:49,  1.62it/s]  2%|▏         | 237/10702 [12:47<1:46:07,  1.64it/s]  2%|▏         | 238/10702 [12:47<1:45:43,  1.65it/s]  2%|▏         | 239/10702 [12:48<1:47:53,  1.62it/s]  2%|▏         | 240/10702 [12:49<1:45:41,  1.65it/s]  2%|▏         | 241/10702 [12:49<1:47:38,  1.62it/s]  2%|▏         | 242/10702 [12:50<1:45:59,  1.64it/s]  2%|▏         | 243/10702 [12:50<1:44:27,  1.67it/s]  2%|▏         | 244/10702 [12:51<1:43:09,  1.69it/s]  2%|▏         | 245/10702 [12:52<1:44:35,  1.67it/s]  2%|▏         | 246/10702 [12:52<1:43:23,  1.69it/s]  2%|▏         | 247/10702 [12:53<1:48:36,  1.60it/s]  2%|▏         | 248/10702 [12:53<1:46:15,  1.64it/s]  2%|▏         | 249/10702 [12:54<1:44:02,  1.67it/s]  2%|▏         | 250/10702 [12:55<1:44:07,  1.67it/s]{'loss': 6.1848, 'grad_norm': 0.6472537517547607, 'learning_rate': 0.00023342670401493932, 'epoch': 0.02}
+                                                       2%|▏         | 250/10702 [12:55<1:44:07,  1.67it/s]  2%|▏         | 251/10702 [12:55<1:46:39,  1.63it/s]  2%|▏         | 252/10702 [12:56<1:45:52,  1.65it/s]  2%|▏         | 253/10702 [12:56<1:43:36,  1.68it/s]  2%|▏         | 254/10702 [12:57<1:41:37,  1.71it/s]  2%|▏         | 255/10702 [12:57<1:40:34,  1.73it/s]  2%|▏         | 256/10702 [12:58<1:39:47,  1.74it/s]  2%|▏         | 257/10702 [12:59<1:40:41,  1.73it/s]  2%|▏         | 258/10702 [12:59<1:43:32,  1.68it/s]  2%|▏         | 259/10702 [13:00<1:43:41,  1.68it/s]  2%|▏         | 260/10702 [13:00<1:42:12,  1.70it/s]  2%|▏         | 261/10702 [13:01<1:42:46,  1.69it/s]  2%|▏         | 262/10702 [13:02<1:41:38,  1.71it/s]  2%|▏         | 263/10702 [13:02<1:41:19,  1.72it/s]  2%|▏         | 264/10702 [13:03<1:39:29,  1.75it/s]  2%|▏         | 265/10702 [13:03<1:38:33,  1.76it/s]  2%|▏         | 266/10702 [13:04<1:38:23,  1.77it/s]  2%|▏         | 267/10702 [13:04<1:40:37,  1.73it/s]  3%|▎         | 268/10702 [13:05<1:41:09,  1.72it/s]  3%|▎         | 269/10702 [13:06<1:41:03,  1.72it/s]  3%|▎         | 270/10702 [13:06<1:40:07,  1.74it/s]  3%|▎         | 271/10702 [13:07<1:40:06,  1.74it/s]  3%|▎         | 272/10702 [13:07<1:39:58,  1.74it/s]  3%|▎         | 273/10702 [13:08<1:38:43,  1.76it/s]  3%|▎         | 274/10702 [13:08<1:39:27,  1.75it/s]  3%|▎         | 275/10702 [13:09<1:39:13,  1.75it/s]                                                     {'loss': 6.0195, 'grad_norm': 0.6036716103553772, 'learning_rate': 0.0002567693744164332, 'epoch': 0.03}
+  3%|▎         | 275/10702 [13:09<1:39:13,  1.75it/s]  3%|▎         | 276/10702 [13:10<1:39:36,  1.74it/s]  3%|▎         | 277/10702 [13:10<1:39:31,  1.75it/s]  3%|▎         | 278/10702 [13:11<1:38:31,  1.76it/s]  3%|▎         | 279/10702 [13:11<1:41:14,  1.72it/s]  3%|▎         | 280/10702 [13:12<1:39:16,  1.75it/s]  3%|▎         | 281/10702 [13:12<1:39:14,  1.75it/s]  3%|▎         | 282/10702 [13:13<1:38:47,  1.76it/s]  3%|▎         | 283/10702 [13:14<1:38:31,  1.76it/s]  3%|▎         | 284/10702 [13:14<1:41:05,  1.72it/s]  3%|▎         | 285/10702 [13:15<1:39:54,  1.74it/s]  3%|▎         | 286/10702 [13:15<1:39:41,  1.74it/s]  3%|▎         | 287/10702 [13:16<1:38:04,  1.77it/s]  3%|▎         | 288/10702 [13:16<1:37:24,  1.78it/s]  3%|▎         | 289/10702 [13:17<1:36:16,  1.80it/s]  3%|▎         | 290/10702 [13:18<1:35:36,  1.82it/s]  3%|▎         | 291/10702 [13:18<1:35:10,  1.82it/s]  3%|▎         | 292/10702 [13:19<1:36:45,  1.79it/s]  3%|▎         | 293/10702 [13:19<1:37:44,  1.77it/s]  3%|▎         | 294/10702 [13:20<1:36:29,  1.80it/s]  3%|▎         | 295/10702 [13:20<1:36:54,  1.79it/s]  3%|▎         | 296/10702 [13:21<1:36:27,  1.80it/s]  3%|▎         | 297/10702 [13:21<1:36:05,  1.80it/s]  3%|▎         | 298/10702 [13:22<1:36:37,  1.79it/s]  3%|▎         | 299/10702 [13:23<1:35:45,  1.81it/s]  3%|▎         | 300/10702 [13:23<1:35:29,  1.82it/s]{'loss': 5.8627, 'grad_norm': 0.7429963946342468, 'learning_rate': 0.0002801120448179272, 'epoch': 0.03}
+                                                       3%|▎         | 300/10702 [13:23<1:35:29,  1.82it/s]  3%|▎         | 301/10702 [13:24<1:35:54,  1.81it/s]  3%|▎         | 302/10702 [13:24<1:36:44,  1.79it/s]  3%|▎         | 303/10702 [13:25<1:35:34,  1.81it/s]  3%|▎         | 304/10702 [13:25<1:36:46,  1.79it/s]  3%|▎         | 305/10702 [13:26<1:36:02,  1.80it/s]  3%|▎         | 306/10702 [13:26<1:35:52,  1.81it/s]  3%|▎         | 307/10702 [13:27<1:35:36,  1.81it/s]  3%|▎         | 308/10702 [13:28<1:35:46,  1.81it/s]  3%|▎         | 309/10702 [13:28<1:36:18,  1.80it/s]  3%|▎         | 310/10702 [13:29<1:37:37,  1.77it/s]  3%|▎         | 311/10702 [13:29<1:36:08,  1.80it/s]  3%|▎         | 312/10702 [13:30<1:36:44,  1.79it/s]  3%|▎         | 313/10702 [13:30<1:36:13,  1.80it/s]  3%|▎         | 314/10702 [13:31<1:36:19,  1.80it/s]  3%|▎         | 315/10702 [13:31<1:35:30,  1.81it/s]  3%|▎         | 316/10702 [13:32<1:35:24,  1.81it/s]  3%|▎         | 317/10702 [13:33<1:34:34,  1.83it/s]  3%|▎         | 318/10702 [13:33<1:34:39,  1.83it/s]  3%|▎         | 319/10702 [13:34<1:34:14,  1.84it/s]  3%|▎         | 320/10702 [13:34<1:34:20,  1.83it/s]  3%|▎         | 321/10702 [13:35<1:34:10,  1.84it/s]  3%|▎         | 322/10702 [13:35<1:33:41,  1.85it/s]  3%|▎         | 323/10702 [13:36<1:33:18,  1.85it/s]  3%|▎         | 324/10702 [13:36<1:33:12,  1.86it/s]  3%|▎         | 325/10702 [13:37<1:33:02,  1.86it/s]                                                     {'loss': 5.7392, 'grad_norm': 0.6527309417724609, 'learning_rate': 0.0003034547152194211, 'epoch': 0.03}
+  3%|▎         | 325/10702 [13:37<1:33:02,  1.86it/s]  3%|▎         | 326/10702 [13:37<1:32:50,  1.86it/s]  3%|▎         | 327/10702 [13:38<1:47:05,  1.61it/s]  3%|▎         | 328/10702 [13:39<2:00:32,  1.43it/s]  3%|▎         | 329/10702 [13:40<1:51:53,  1.55it/s]  3%|▎         | 330/10702 [13:40<1:46:35,  1.62it/s]  3%|▎         | 331/10702 [13:41<1:41:56,  1.70it/s]  3%|▎         | 332/10702 [13:41<1:39:20,  1.74it/s]  3%|▎         | 333/10702 [13:42<1:37:06,  1.78it/s]  3%|▎         | 334/10702 [13:42<1:35:39,  1.81it/s]  3%|▎         | 335/10702 [13:43<1:35:07,  1.82it/s]  3%|▎         | 336/10702 [13:43<1:33:47,  1.84it/s]  3%|▎         | 337/10702 [13:44<1:34:29,  1.83it/s]  3%|▎         | 338/10702 [13:44<1:35:15,  1.81it/s]  3%|▎         | 339/10702 [13:45<1:35:38,  1.81it/s]  3%|▎         | 340/10702 [13:46<1:34:09,  1.83it/s]  3%|▎         | 341/10702 [13:46<1:34:35,  1.83it/s]  3%|▎         | 342/10702 [13:47<1:34:17,  1.83it/s]  3%|▎         | 343/10702 [13:47<1:33:21,  1.85it/s]  3%|▎         | 344/10702 [13:48<1:33:07,  1.85it/s]  3%|▎         | 345/10702 [13:48<1:32:19,  1.87it/s]  3%|▎         | 346/10702 [13:49<1:31:34,  1.88it/s]  3%|▎         | 347/10702 [13:49<1:32:36,  1.86it/s]  3%|▎         | 348/10702 [13:50<1:36:48,  1.78it/s]  3%|▎         | 349/10702 [13:50<1:34:37,  1.82it/s]  3%|▎         | 350/10702 [13:51<1:33:11,  1.85it/s]                                                     {'loss': 5.6311, 'grad_norm': 0.5226073265075684, 'learning_rate': 0.00032679738562091506, 'epoch': 0.03}
+  3%|▎         | 350/10702 [13:51<1:33:11,  1.85it/s]  3%|▎         | 351/10702 [13:51<1:32:43,  1.86it/s]  3%|▎         | 352/10702 [13:52<1:31:56,  1.88it/s]  3%|▎         | 353/10702 [13:53<1:31:45,  1.88it/s]  3%|▎         | 354/10702 [13:53<1:32:25,  1.87it/s]  3%|▎         | 355/10702 [13:54<1:32:05,  1.87it/s]  3%|▎         | 356/10702 [13:54<1:32:02,  1.87it/s]  3%|▎         | 357/10702 [13:55<1:31:57,  1.87it/s]  3%|▎         | 358/10702 [13:55<1:31:26,  1.89it/s]  3%|▎         | 359/10702 [13:56<1:30:49,  1.90it/s]  3%|▎         | 360/10702 [13:56<1:34:48,  1.82it/s]  3%|▎         | 361/10702 [13:57<1:33:28,  1.84it/s]  3%|▎         | 362/10702 [13:57<1:32:25,  1.86it/s]  3%|▎         | 363/10702 [13:58<1:33:50,  1.84it/s]  3%|▎         | 364/10702 [13:58<1:33:52,  1.84it/s]  3%|▎         | 365/10702 [13:59<1:32:46,  1.86it/s]  3%|▎         | 366/10702 [14:00<1:34:21,  1.83it/s]  3%|▎         | 367/10702 [14:00<1:38:19,  1.75it/s]  3%|▎         | 368/10702 [14:01<1:35:45,  1.80it/s]  3%|▎         | 369/10702 [14:01<1:36:47,  1.78it/s]  3%|▎         | 370/10702 [14:02<1:34:41,  1.82it/s]  3%|▎         | 371/10702 [14:02<1:34:00,  1.83it/s]  3%|▎         | 372/10702 [14:03<1:32:51,  1.85it/s]  3%|▎         | 373/10702 [14:03<1:31:52,  1.87it/s]  3%|▎         | 374/10702 [14:04<1:31:31,  1.88it/s]  4%|▎         | 375/10702 [14:04<1:31:01,  1.89it/s]{'loss': 5.5308, 'grad_norm': 0.5415645837783813, 'learning_rate': 0.00035014005602240897, 'epoch': 0.04}
+                                                       4%|▎         | 375/10702 [14:04<1:31:01,  1.89it/s]  4%|▎         | 376/10702 [14:05<1:30:55,  1.89it/s]  4%|▎         | 377/10702 [14:06<1:33:06,  1.85it/s]  4%|▎         | 378/10702 [14:06<1:32:10,  1.87it/s]  4%|▎         | 379/10702 [14:07<1:32:43,  1.86it/s]  4%|▎         | 380/10702 [14:07<1:32:13,  1.87it/s]  4%|▎         | 381/10702 [14:08<1:31:42,  1.88it/s]  4%|▎         | 382/10702 [14:08<1:32:47,  1.85it/s]  4%|▎         | 383/10702 [14:09<1:32:00,  1.87it/s]  4%|▎         | 384/10702 [14:09<1:32:01,  1.87it/s]  4%|▎         | 385/10702 [14:10<1:33:34,  1.84it/s]  4%|▎         | 386/10702 [14:10<1:32:41,  1.85it/s]  4%|▎         | 387/10702 [14:11<1:31:42,  1.87it/s]  4%|▎         | 388/10702 [14:11<1:30:40,  1.90it/s]  4%|▎         | 389/10702 [14:12<1:30:24,  1.90it/s]  4%|▎         | 390/10702 [14:12<1:30:09,  1.91it/s]  4%|▎         | 391/10702 [14:13<1:29:49,  1.91it/s]  4%|▎         | 392/10702 [14:14<1:30:06,  1.91it/s]  4%|▎         | 393/10702 [14:14<1:29:43,  1.91it/s]  4%|▎         | 394/10702 [14:15<1:29:42,  1.91it/s]  4%|▎         | 395/10702 [14:15<1:30:07,  1.91it/s]  4%|▎         | 396/10702 [14:16<1:30:13,  1.90it/s]  4%|▎         | 397/10702 [14:16<1:30:15,  1.90it/s]  4%|▎         | 398/10702 [14:17<1:31:56,  1.87it/s]  4%|▎         | 399/10702 [14:17<1:31:13,  1.88it/s]  4%|▎         | 400/10702 [14:18<1:31:02,  1.89it/s]                                                     {'loss': 5.4391, 'grad_norm': 0.565777063369751, 'learning_rate': 0.0003734827264239029, 'epoch': 0.04}
+  4%|▎         | 400/10702 [14:18<1:31:02,  1.89it/s]  4%|▎         | 401/10702 [14:18<1:30:52,  1.89it/s]  4%|▍         | 402/10702 [14:19<1:31:06,  1.88it/s]  4%|▍         | 403/10702 [14:19<1:31:02,  1.89it/s]  4%|▍         | 404/10702 [14:20<1:30:32,  1.90it/s]  4%|▍         | 405/10702 [14:20<1:30:13,  1.90it/s]  4%|▍         | 406/10702 [14:21<1:29:45,  1.91it/s]  4%|▍         | 407/10702 [14:21<1:29:06,  1.93it/s]  4%|▍         | 408/10702 [14:22<1:29:08,  1.92it/s]  4%|▍         | 409/10702 [14:22<1:29:12,  1.92it/s]  4%|▍         | 410/10702 [14:23<1:29:01,  1.93it/s]  4%|▍         | 411/10702 [14:23<1:29:35,  1.91it/s]  4%|▍         | 412/10702 [14:24<1:29:39,  1.91it/s]  4%|▍         | 413/10702 [14:25<1:30:03,  1.90it/s]  4%|▍         | 414/10702 [14:25<1:29:31,  1.92it/s]  4%|▍         | 415/10702 [14:26<1:29:35,  1.91it/s]  4%|▍         | 416/10702 [14:26<1:28:57,  1.93it/s]  4%|▍         | 417/10702 [14:27<1:28:58,  1.93it/s]  4%|▍         | 418/10702 [14:27<1:30:03,  1.90it/s]  4%|▍         | 419/10702 [14:28<1:30:13,  1.90it/s]  4%|▍         | 420/10702 [14:28<1:30:00,  1.90it/s]  4%|▍         | 421/10702 [14:29<1:29:30,  1.91it/s]  4%|▍         | 422/10702 [14:29<1:28:50,  1.93it/s]  4%|▍         | 423/10702 [14:30<1:28:45,  1.93it/s]  4%|▍         | 424/10702 [14:30<1:28:54,  1.93it/s]  4%|▍         | 425/10702 [14:31<1:28:48,  1.93it/s]{'loss': 5.364, 'grad_norm': 0.9842904806137085, 'learning_rate': 0.0003968253968253968, 'epoch': 0.04}
+                                                       4%|▍         | 425/10702 [14:31<1:28:48,  1.93it/s]  4%|▍         | 426/10702 [14:31<1:29:01,  1.92it/s]  4%|▍         | 427/10702 [14:32<1:28:25,  1.94it/s]  4%|▍         | 428/10702 [14:32<1:28:52,  1.93it/s]  4%|▍         | 429/10702 [14:33<1:29:00,  1.92it/s]  4%|▍         | 430/10702 [14:33<1:28:47,  1.93it/s]  4%|▍         | 431/10702 [14:34<1:28:41,  1.93it/s]  4%|▍         | 432/10702 [14:34<1:28:09,  1.94it/s]  4%|▍         | 433/10702 [14:35<1:28:07,  1.94it/s]  4%|▍         | 434/10702 [14:35<1:29:04,  1.92it/s]  4%|▍         | 435/10702 [14:36<1:29:11,  1.92it/s]  4%|▍         | 436/10702 [14:36<1:28:43,  1.93it/s]  4%|▍         | 437/10702 [14:37<1:28:05,  1.94it/s]  4%|▍         | 438/10702 [14:37<1:28:04,  1.94it/s]  4%|▍         | 439/10702 [14:38<1:28:01,  1.94it/s]  4%|▍         | 440/10702 [14:39<1:27:43,  1.95it/s]  4%|▍         | 441/10702 [14:39<1:27:37,  1.95it/s]  4%|▍         | 442/10702 [14:40<1:27:15,  1.96it/s]  4%|▍         | 443/10702 [14:40<1:27:11,  1.96it/s]  4%|▍         | 444/10702 [14:41<1:27:42,  1.95it/s]  4%|▍         | 445/10702 [14:41<1:27:34,  1.95it/s]  4%|▍         | 446/10702 [14:42<1:27:41,  1.95it/s]  4%|▍         | 447/10702 [14:42<1:27:45,  1.95it/s]  4%|▍         | 448/10702 [14:43<1:28:01,  1.94it/s]  4%|▍         | 449/10702 [14:43<1:28:09,  1.94it/s]  4%|▍         | 450/10702 [14:44<1:28:00,  1.94it/s]{'loss': 5.2814, 'grad_norm': 0.5851972699165344, 'learning_rate': 0.0004201680672268908, 'epoch': 0.04}
+                                                       4%|▍         | 450/10702 [14:44<1:28:00,  1.94it/s]  4%|▍         | 451/10702 [14:44<1:28:11,  1.94it/s]  4%|▍         | 452/10702 [14:45<1:27:41,  1.95it/s]  4%|▍         | 453/10702 [14:45<1:27:26,  1.95it/s]  4%|▍         | 454/10702 [14:46<1:27:18,  1.96it/s]  4%|▍         | 455/10702 [14:46<1:27:16,  1.96it/s]  4%|▍         | 456/10702 [14:47<1:27:49,  1.94it/s]  4%|▍         | 457/10702 [14:47<1:27:58,  1.94it/s]  4%|▍         | 458/10702 [14:48<1:27:43,  1.95it/s]  4%|▍         | 459/10702 [14:48<1:27:48,  1.94it/s]  4%|▍         | 460/10702 [14:49<1:27:29,  1.95it/s]  4%|▍         | 461/10702 [14:49<1:27:28,  1.95it/s]  4%|▍         | 462/10702 [14:50<1:27:26,  1.95it/s]  4%|▍         | 463/10702 [14:50<1:27:35,  1.95it/s]  4%|▍         | 464/10702 [14:51<1:27:58,  1.94it/s]  4%|▍         | 465/10702 [14:51<1:27:41,  1.95it/s]  4%|▍         | 466/10702 [14:52<1:27:07,  1.96it/s]  4%|▍         | 467/10702 [14:52<1:27:00,  1.96it/s]  4%|▍         | 468/10702 [14:53<1:27:07,  1.96it/s]  4%|▍         | 469/10702 [14:53<1:27:20,  1.95it/s]  4%|▍         | 470/10702 [14:54<1:27:51,  1.94it/s]  4%|▍         | 471/10702 [14:54<1:27:32,  1.95it/s]  4%|▍         | 472/10702 [14:55<1:27:36,  1.95it/s]  4%|▍         | 473/10702 [14:55<1:27:17,  1.95it/s]  4%|▍         | 474/10702 [14:56<1:27:07,  1.96it/s]  4%|▍         | 475/10702 [14:56<1:27:33,  1.95it/s]{'loss': 5.2133, 'grad_norm': 0.5940192937850952, 'learning_rate': 0.0004435107376283847, 'epoch': 0.04}
+                                                       4%|▍         | 475/10702 [14:56<1:27:33,  1.95it/s]  4%|▍         | 476/10702 [14:57<1:27:23,  1.95it/s]  4%|▍         | 477/10702 [14:57<1:27:06,  1.96it/s]  4%|▍         | 478/10702 [14:58<1:26:45,  1.96it/s]  4%|▍         | 479/10702 [14:59<1:26:51,  1.96it/s]  4%|▍         | 480/10702 [14:59<1:27:04,  1.96it/s]  4%|▍         | 481/10702 [15:00<1:26:52,  1.96it/s]  5%|▍         | 482/10702 [15:00<1:27:07,  1.95it/s]  5%|▍         | 483/10702 [15:01<1:26:58,  1.96it/s]  5%|▍         | 484/10702 [15:01<1:26:47,  1.96it/s]  5%|▍         | 485/10702 [15:02<1:26:37,  1.97it/s]  5%|▍         | 486/10702 [15:02<1:26:28,  1.97it/s]  5%|▍         | 487/10702 [15:03<1:26:34,  1.97it/s]  5%|▍         | 488/10702 [15:03<1:26:20,  1.97it/s]  5%|▍         | 489/10702 [15:04<1:26:27,  1.97it/s]  5%|▍         | 490/10702 [15:04<1:26:38,  1.96it/s]  5%|▍         | 491/10702 [15:05<1:26:57,  1.96it/s]  5%|▍         | 492/10702 [15:05<1:26:48,  1.96it/s]  5%|▍         | 493/10702 [15:06<1:26:59,  1.96it/s]  5%|▍         | 494/10702 [15:06<1:27:01,  1.95it/s]  5%|▍         | 495/10702 [15:07<1:26:33,  1.97it/s]  5%|▍         | 496/10702 [15:07<1:26:17,  1.97it/s]  5%|▍         | 497/10702 [15:08<1:26:27,  1.97it/s]  5%|▍         | 498/10702 [15:08<1:26:29,  1.97it/s]  5%|▍         | 499/10702 [15:09<1:26:30,  1.97it/s]  5%|▍         | 500/10702 [15:09<1:26:21,  1.97it/s]                                                     {'loss': 5.1503, 'grad_norm': 0.5662564635276794, 'learning_rate': 0.00046685340802987864, 'epoch': 0.05}
+  5%|▍         | 500/10702 [15:09<1:26:21,  1.97it/s]  5%|▍         | 501/10702 [15:10<1:26:31,  1.96it/s]  5%|▍         | 502/10702 [15:10<1:26:26,  1.97it/s]  5%|▍         | 503/10702 [15:11<1:26:15,  1.97it/s]  5%|▍         | 504/10702 [15:11<1:26:15,  1.97it/s]  5%|▍         | 505/10702 [15:12<1:26:17,  1.97it/s]  5%|▍         | 506/10702 [15:12<1:26:15,  1.97it/s]  5%|▍         | 507/10702 [15:13<1:26:18,  1.97it/s]  5%|▍         | 508/10702 [15:13<1:26:18,  1.97it/s]  5%|▍         | 509/10702 [15:14<1:26:27,  1.97it/s]  5%|▍         | 510/10702 [15:14<1:26:08,  1.97it/s]  5%|▍         | 511/10702 [15:15<1:25:56,  1.98it/s]  5%|▍         | 512/10702 [15:15<1:25:50,  1.98it/s]  5%|▍         | 513/10702 [15:16<1:25:57,  1.98it/s]  5%|▍         | 514/10702 [15:16<1:25:52,  1.98it/s]  5%|▍         | 515/10702 [15:17<1:25:49,  1.98it/s]  5%|▍         | 516/10702 [15:17<1:25:54,  1.98it/s]  5%|▍         | 517/10702 [15:18<1:26:05,  1.97it/s]  5%|▍         | 518/10702 [15:18<1:26:05,  1.97it/s]  5%|▍         | 519/10702 [15:19<1:26:08,  1.97it/s]  5%|▍         | 520/10702 [15:19<1:26:01,  1.97it/s]  5%|▍         | 521/10702 [15:20<1:25:52,  1.98it/s]  5%|▍         | 522/10702 [15:20<1:25:48,  1.98it/s]  5%|▍         | 523/10702 [15:21<1:25:56,  1.97it/s]  5%|▍         | 524/10702 [15:21<1:25:48,  1.98it/s]  5%|▍         | 525/10702 [15:22<1:26:13,  1.97it/s]                                                     {'loss': 5.0922, 'grad_norm': 0.6085009574890137, 'learning_rate': 0.0004901960784313725, 'epoch': 0.05}
+  5%|▍         | 525/10702 [15:22<1:26:13,  1.97it/s]  5%|▍         | 526/10702 [15:22<1:26:07,  1.97it/s]  5%|▍         | 527/10702 [15:23<1:26:17,  1.97it/s]  5%|▍         | 528/10702 [15:23<1:26:09,  1.97it/s]  5%|▍         | 529/10702 [15:24<1:26:18,  1.96it/s]  5%|▍         | 530/10702 [15:24<1:26:10,  1.97it/s]  5%|▍         | 531/10702 [15:25<1:26:02,  1.97it/s]  5%|▍         | 532/10702 [15:25<1:25:53,  1.97it/s]  5%|▍         | 533/10702 [15:26<1:25:54,  1.97it/s]  5%|▍         | 534/10702 [15:26<1:25:54,  1.97it/s]  5%|▍         | 535/10702 [15:27<1:26:02,  1.97it/s]  5%|▌         | 536/10702 [15:27<1:25:45,  1.98it/s]  5%|▌         | 537/10702 [15:28<1:25:41,  1.98it/s]  5%|▌         | 538/10702 [15:28<1:25:45,  1.98it/s]  5%|▌         | 539/10702 [15:29<1:25:41,  1.98it/s]  5%|▌         | 540/10702 [15:29<1:26:20,  1.96it/s]  5%|▌         | 541/10702 [15:30<1:26:10,  1.97it/s]  5%|▌         | 542/10702 [15:31<1:25:59,  1.97it/s]  5%|▌         | 543/10702 [15:31<1:25:40,  1.98it/s]  5%|▌         | 544/10702 [15:32<1:25:40,  1.98it/s]  5%|▌         | 545/10702 [15:32<1:25:41,  1.98it/s]  5%|▌         | 546/10702 [15:33<1:25:30,  1.98it/s]  5%|▌         | 547/10702 [15:33<1:25:10,  1.99it/s]  5%|▌         | 548/10702 [15:34<1:25:14,  1.99it/s]  5%|▌         | 549/10702 [15:34<1:25:24,  1.98it/s]  5%|▌         | 550/10702 [15:35<1:25:26,  1.98it/s]                                                     {'loss': 5.0368, 'grad_norm': 0.5561118125915527, 'learning_rate': 0.0005135387488328664, 'epoch': 0.05}
+  5%|▌         | 550/10702 [15:35<1:25:26,  1.98it/s]  5%|▌         | 551/10702 [15:35<1:25:31,  1.98it/s]  5%|▌         | 552/10702 [15:36<1:25:27,  1.98it/s]  5%|▌         | 553/10702 [15:36<1:25:45,  1.97it/s]  5%|▌         | 554/10702 [15:37<1:25:33,  1.98it/s]  5%|▌         | 555/10702 [15:37<1:25:22,  1.98it/s]  5%|▌         | 556/10702 [15:38<1:25:24,  1.98it/s]  5%|▌         | 557/10702 [15:38<1:25:19,  1.98it/s]  5%|▌         | 558/10702 [15:39<1:25:23,  1.98it/s]  5%|▌         | 559/10702 [15:39<1:25:17,  1.98it/s]  5%|▌         | 560/10702 [15:40<1:25:05,  1.99it/s]  5%|▌         | 561/10702 [15:40<1:25:06,  1.99it/s]  5%|▌         | 562/10702 [15:41<1:24:58,  1.99it/s]  5%|▌         | 563/10702 [15:41<1:24:59,  1.99it/s]  5%|▌         | 564/10702 [15:42<1:24:59,  1.99it/s]  5%|▌         | 565/10702 [15:42<1:25:21,  1.98it/s]  5%|▌         | 566/10702 [15:43<1:25:15,  1.98it/s]  5%|▌         | 567/10702 [15:43<1:25:17,  1.98it/s]  5%|▌         | 568/10702 [15:44<1:25:11,  1.98it/s]  5%|▌         | 569/10702 [15:44<1:25:07,  1.98it/s]  5%|▌         | 570/10702 [15:45<1:25:07,  1.98it/s]  5%|▌         | 571/10702 [15:45<1:25:02,  1.99it/s]  5%|▌         | 572/10702 [15:46<1:24:57,  1.99it/s]  5%|▌         | 573/10702 [15:46<1:24:53,  1.99it/s]  5%|▌         | 574/10702 [15:47<1:24:54,  1.99it/s]  5%|▌         | 575/10702 [15:47<1:24:57,  1.99it/s]{'loss': 4.9888, 'grad_norm': 0.5161489248275757, 'learning_rate': 0.0005368814192343605, 'epoch': 0.05}
+                                                       5%|▌         | 575/10702 [15:47<1:24:57,  1.99it/s]  5%|▌         | 576/10702 [15:48<1:25:03,  1.98it/s]  5%|▌         | 577/10702 [15:48<1:24:52,  1.99it/s]  5%|▌         | 578/10702 [15:49<1:24:55,  1.99it/s]  5%|▌         | 579/10702 [15:49<1:25:03,  1.98it/s]  5%|▌         | 580/10702 [15:50<1:25:00,  1.98it/s]  5%|▌         | 581/10702 [15:50<1:24:56,  1.99it/s]  5%|▌         | 582/10702 [15:51<1:24:52,  1.99it/s]  5%|▌         | 583/10702 [15:51<1:24:47,  1.99it/s]  5%|▌         | 584/10702 [15:52<1:24:54,  1.99it/s]  5%|▌         | 585/10702 [15:52<1:24:58,  1.98it/s]  5%|▌         | 586/10702 [15:53<1:24:58,  1.98it/s]  5%|▌         | 587/10702 [15:53<1:24:56,  1.98it/s]  5%|▌         | 588/10702 [15:54<1:24:50,  1.99it/s]  6%|▌         | 589/10702 [15:54<1:24:49,  1.99it/s]  6%|▌         | 590/10702 [15:55<1:24:52,  1.99it/s]  6%|▌         | 591/10702 [15:55<1:24:47,  1.99it/s]  6%|▌         | 592/10702 [15:56<1:24:41,  1.99it/s]  6%|▌         | 593/10702 [15:56<1:24:45,  1.99it/s]  6%|▌         | 594/10702 [15:57<1:24:50,  1.99it/s]  6%|▌         | 595/10702 [15:57<1:24:46,  1.99it/s]  6%|▌         | 596/10702 [15:58<1:24:44,  1.99it/s]  6%|▌         | 597/10702 [15:58<1:24:40,  1.99it/s]  6%|▌         | 598/10702 [15:59<1:24:42,  1.99it/s]  6%|▌         | 599/10702 [15:59<1:24:39,  1.99it/s]  6%|▌         | 600/10702 [16:00<1:24:49,  1.98it/s]                                                     {'loss': 4.9241, 'grad_norm': 0.5081968307495117, 'learning_rate': 0.0005602240896358544, 'epoch': 0.06}
+  6%|▌         | 600/10702 [16:00<1:24:49,  1.98it/s]  6%|▌         | 601/10702 [16:00<1:25:05,  1.98it/s]  6%|▌         | 602/10702 [16:01<1:24:56,  1.98it/s]  6%|▌         | 603/10702 [16:01<1:24:46,  1.99it/s]  6%|▌         | 604/10702 [16:02<1:24:44,  1.99it/s]  6%|▌         | 605/10702 [16:02<1:24:56,  1.98it/s]  6%|▌         | 606/10702 [16:03<1:24:42,  1.99it/s]  6%|▌         | 607/10702 [16:03<1:24:41,  1.99it/s]  6%|▌         | 608/10702 [16:04<1:24:34,  1.99it/s]  6%|▌         | 609/10702 [16:04<1:24:48,  1.98it/s]  6%|▌         | 610/10702 [16:05<1:24:43,  1.99it/s]  6%|▌         | 611/10702 [16:05<1:24:33,  1.99it/s]  6%|▌         | 612/10702 [16:06<1:24:30,  1.99it/s]  6%|▌         | 613/10702 [16:06<1:24:31,  1.99it/s]  6%|▌         | 614/10702 [16:07<1:24:36,  1.99it/s]  6%|▌         | 615/10702 [16:07<1:24:34,  1.99it/s]  6%|▌         | 616/10702 [16:08<1:24:29,  1.99it/s]  6%|▌         | 617/10702 [16:08<1:24:31,  1.99it/s]  6%|▌         | 618/10702 [16:09<1:24:35,  1.99it/s]  6%|▌         | 619/10702 [16:09<1:24:39,  1.99it/s]  6%|▌         | 620/10702 [16:10<1:24:53,  1.98it/s]  6%|▌         | 621/10702 [16:10<1:24:49,  1.98it/s]  6%|▌         | 622/10702 [16:11<1:24:49,  1.98it/s]  6%|▌         | 623/10702 [16:11<1:24:39,  1.98it/s]  6%|▌         | 624/10702 [16:12<1:24:44,  1.98it/s]  6%|▌         | 625/10702 [16:12<1:24:35,  1.99it/s]{'loss': 4.8889, 'grad_norm': 0.6463547348976135, 'learning_rate': 0.0005835667600373484, 'epoch': 0.06}
+                                                       6%|▌         | 625/10702 [16:12<1:24:35,  1.99it/s]  6%|▌         | 626/10702 [16:13<1:24:30,  1.99it/s]  6%|▌         | 627/10702 [16:13<1:24:22,  1.99it/s]  6%|▌         | 628/10702 [16:14<1:24:24,  1.99it/s]  6%|▌         | 629/10702 [16:14<1:24:45,  1.98it/s]  6%|▌         | 630/10702 [16:15<1:24:30,  1.99it/s]  6%|▌         | 631/10702 [16:15<1:24:29,  1.99it/s]  6%|▌         | 632/10702 [16:16<1:24:28,  1.99it/s]  6%|▌         | 633/10702 [16:16<1:24:27,  1.99it/s]  6%|▌         | 634/10702 [16:17<1:24:22,  1.99it/s]  6%|▌         | 635/10702 [16:17<1:24:31,  1.99it/s]  6%|▌         | 636/10702 [16:18<1:24:29,  1.99it/s]  6%|▌         | 637/10702 [16:18<1:24:22,  1.99it/s]  6%|▌         | 638/10702 [16:19<1:24:19,  1.99it/s]  6%|▌         | 639/10702 [16:19<1:24:27,  1.99it/s]  6%|▌         | 640/10702 [16:20<1:24:18,  1.99it/s]  6%|▌         | 641/10702 [16:20<1:24:16,  1.99it/s]  6%|▌         | 642/10702 [16:21<1:24:19,  1.99it/s]  6%|▌         | 643/10702 [16:21<1:24:09,  1.99it/s]  6%|▌         | 644/10702 [16:22<1:24:09,  1.99it/s]  6%|▌         | 645/10702 [16:22<1:24:05,  1.99it/s]  6%|▌         | 646/10702 [16:23<1:24:04,  1.99it/s]  6%|▌         | 647/10702 [16:23<1:24:01,  1.99it/s]  6%|▌         | 648/10702 [16:24<1:24:01,  1.99it/s]  6%|▌         | 649/10702 [16:24<1:24:07,  1.99it/s]  6%|▌         | 650/10702 [16:25<1:24:08,  1.99it/s]                                                     {'loss': 4.85, 'grad_norm': 0.6217643618583679, 'learning_rate': 0.0006069094304388422, 'epoch': 0.06}
+  6%|▌         | 650/10702 [16:25<1:24:08,  1.99it/s]  6%|▌         | 651/10702 [16:25<1:24:21,  1.99it/s]  6%|▌         | 652/10702 [16:26<1:24:22,  1.99it/s]  6%|▌         | 653/10702 [16:26<1:24:25,  1.98it/s]  6%|▌         | 654/10702 [16:27<1:24:20,  1.99it/s]  6%|▌         | 655/10702 [16:27<1:24:12,  1.99it/s]  6%|▌         | 656/10702 [16:28<1:24:23,  1.98it/s]  6%|▌         | 657/10702 [16:28<1:24:11,  1.99it/s]  6%|▌         | 658/10702 [16:29<1:24:07,  1.99it/s]  6%|▌         | 659/10702 [16:29<1:23:57,  1.99it/s]  6%|▌         | 660/10702 [16:30<1:23:52,  2.00it/s]  6%|▌         | 661/10702 [16:30<1:23:58,  1.99it/s]  6%|▌         | 662/10702 [16:31<1:24:11,  1.99it/s]  6%|▌         | 663/10702 [16:31<1:24:09,  1.99it/s]  6%|▌         | 664/10702 [16:32<1:24:04,  1.99it/s]  6%|▌         | 665/10702 [16:32<1:24:06,  1.99it/s]  6%|▌         | 666/10702 [16:33<1:23:58,  1.99it/s]  6%|▌         | 667/10702 [16:33<1:24:03,  1.99it/s]  6%|▌         | 668/10702 [16:34<1:24:09,  1.99it/s]  6%|▋         | 669/10702 [16:34<1:24:16,  1.98it/s]  6%|▋         | 670/10702 [16:35<1:24:08,  1.99it/s]  6%|▋         | 671/10702 [16:35<1:24:02,  1.99it/s]  6%|▋         | 672/10702 [16:36<1:23:52,  1.99it/s]  6%|▋         | 673/10702 [16:36<1:23:50,  1.99it/s]  6%|▋         | 674/10702 [16:37<1:23:49,  1.99it/s]  6%|▋         | 675/10702 [16:37<1:23:50,  1.99it/s]                                                     {'loss': 4.8084, 'grad_norm': 0.4700767397880554, 'learning_rate': 0.0006302521008403362, 'epoch': 0.06}
+  6%|▋         | 675/10702 [16:37<1:23:50,  1.99it/s]  6%|▋         | 676/10702 [16:38<1:23:52,  1.99it/s]  6%|▋         | 677/10702 [16:38<1:23:41,  2.00it/s]  6%|▋         | 678/10702 [16:39<1:23:36,  2.00it/s]  6%|▋         | 679/10702 [16:39<1:23:34,  2.00it/s]  6%|▋         | 680/10702 [16:40<1:23:39,  2.00it/s]  6%|▋         | 681/10702 [16:40<1:23:32,  2.00it/s]  6%|▋         | 682/10702 [16:41<1:23:29,  2.00it/s]  6%|▋         | 683/10702 [16:41<1:23:25,  2.00it/s]  6%|▋         | 684/10702 [16:42<1:23:31,  2.00it/s]  6%|▋         | 685/10702 [16:42<1:23:23,  2.00it/s]  6%|▋         | 686/10702 [16:43<1:23:19,  2.00it/s]  6%|▋         | 687/10702 [16:43<1:23:15,  2.00it/s]  6%|▋         | 688/10702 [16:44<1:23:18,  2.00it/s]  6%|▋         | 689/10702 [16:44<1:23:21,  2.00it/s]  6%|▋         | 690/10702 [16:45<1:23:19,  2.00it/s]  6%|▋         | 691/10702 [16:45<1:23:20,  2.00it/s]  6%|▋         | 692/10702 [16:46<1:23:20,  2.00it/s]  6%|▋         | 693/10702 [16:46<1:23:29,  2.00it/s]  6%|▋         | 694/10702 [16:47<1:23:26,  2.00it/s]  6%|▋         | 695/10702 [16:47<1:23:30,  2.00it/s]  7%|▋         | 696/10702 [16:48<1:23:21,  2.00it/s]  7%|▋         | 697/10702 [16:48<1:23:24,  2.00it/s]  7%|▋         | 698/10702 [16:49<1:23:23,  2.00it/s]  7%|▋         | 699/10702 [16:49<1:23:26,  2.00it/s]  7%|▋         | 700/10702 [16:50<1:23:20,  2.00it/s]{'loss': 4.7847, 'grad_norm': 0.45330920815467834, 'learning_rate': 0.0006535947712418301, 'epoch': 0.07}
+                                                       7%|▋         | 700/10702 [16:50<1:23:20,  2.00it/s]  7%|▋         | 701/10702 [16:50<1:23:24,  2.00it/s]  7%|▋         | 702/10702 [16:51<1:23:25,  2.00it/s]  7%|▋         | 703/10702 [16:51<1:23:27,  2.00it/s]  7%|▋         | 704/10702 [16:52<1:23:34,  1.99it/s]  7%|▋         | 705/10702 [16:52<1:23:29,  2.00it/s]  7%|▋         | 706/10702 [16:53<1:23:30,  1.99it/s]  7%|▋         | 707/10702 [16:53<1:23:21,  2.00it/s]  7%|▋         | 708/10702 [16:54<1:23:19,  2.00it/s]  7%|▋         | 709/10702 [16:54<1:23:25,  2.00it/s]  7%|▋         | 710/10702 [16:55<1:23:13,  2.00it/s]  7%|▋         | 711/10702 [16:55<1:23:05,  2.00it/s]  7%|▋         | 712/10702 [16:56<1:23:09,  2.00it/s]  7%|▋         | 713/10702 [16:56<1:23:18,  2.00it/s]  7%|▋         | 714/10702 [16:57<1:23:12,  2.00it/s]  7%|▋         | 715/10702 [16:57<1:23:06,  2.00it/s]  7%|▋         | 716/10702 [16:58<1:23:14,  2.00it/s]  7%|▋         | 717/10702 [16:58<1:23:15,  2.00it/s]  7%|▋         | 718/10702 [16:59<1:23:12,  2.00it/s]  7%|▋         | 719/10702 [16:59<1:23:07,  2.00it/s]  7%|▋         | 720/10702 [17:00<1:23:04,  2.00it/s]  7%|▋         | 721/10702 [17:00<1:23:14,  2.00it/s]  7%|▋         | 722/10702 [17:01<1:23:11,  2.00it/s]  7%|▋         | 723/10702 [17:01<1:23:05,  2.00it/s]  7%|▋         | 724/10702 [17:02<1:23:03,  2.00it/s]  7%|▋         | 725/10702 [17:02<1:23:12,  2.00it/s]                                                     {'loss': 4.7514, 'grad_norm': 0.5116665363311768, 'learning_rate': 0.0006769374416433241, 'epoch': 0.07}
+  7%|▋         | 725/10702 [17:02<1:23:12,  2.00it/s]  7%|▋         | 726/10702 [17:03<1:23:21,  1.99it/s]  7%|▋         | 727/10702 [17:03<1:23:20,  1.99it/s]  7%|▋         | 728/10702 [17:04<1:23:11,  2.00it/s]  7%|▋         | 729/10702 [17:04<1:23:10,  2.00it/s]  7%|▋         | 730/10702 [17:05<1:23:07,  2.00it/s]  7%|▋         | 731/10702 [17:05<1:23:16,  2.00it/s]  7%|▋         | 732/10702 [17:06<1:23:12,  2.00it/s]  7%|▋         | 733/10702 [17:06<1:23:02,  2.00it/s]  7%|▋         | 734/10702 [17:07<1:23:00,  2.00it/s]  7%|▋         | 735/10702 [17:07<1:23:09,  2.00it/s]  7%|▋         | 736/10702 [17:08<1:23:19,  1.99it/s]  7%|▋         | 737/10702 [17:08<1:23:18,  1.99it/s]  7%|▋         | 738/10702 [17:09<1:23:14,  2.00it/s]  7%|▋         | 739/10702 [17:09<1:23:10,  2.00it/s]  7%|▋         | 740/10702 [17:10<1:23:05,  2.00it/s]  7%|▋         | 741/10702 [17:10<1:23:02,  2.00it/s]  7%|▋         | 742/10702 [17:11<1:23:08,  2.00it/s]  7%|▋         | 743/10702 [17:11<1:23:13,  1.99it/s]  7%|▋         | 744/10702 [17:12<1:23:00,  2.00it/s]  7%|▋         | 745/10702 [17:12<1:22:56,  2.00it/s]  7%|▋         | 746/10702 [17:13<1:22:58,  2.00it/s]  7%|▋         | 747/10702 [17:13<1:22:54,  2.00it/s]  7%|▋         | 748/10702 [17:14<1:23:01,  2.00it/s]  7%|▋         | 749/10702 [17:14<1:23:02,  2.00it/s]  7%|▋         | 750/10702 [17:15<1:22:59,  2.00it/s]{'loss': 4.7089, 'grad_norm': 0.4788540303707123, 'learning_rate': 0.0007002801120448179, 'epoch': 0.07}
+                                                       7%|▋         | 750/10702 [17:15<1:22:59,  2.00it/s]  7%|▋         | 751/10702 [17:15<1:23:06,  2.00it/s]  7%|▋         | 752/10702 [17:16<1:23:07,  2.00it/s]  7%|▋         | 753/10702 [17:16<1:23:02,  2.00it/s]  7%|▋         | 754/10702 [17:17<1:22:56,  2.00it/s]  7%|▋         | 755/10702 [17:17<1:22:47,  2.00it/s]  7%|▋         | 756/10702 [17:18<1:22:54,  2.00it/s]  7%|▋         | 757/10702 [17:18<1:23:01,  2.00it/s]  7%|▋         | 758/10702 [17:19<1:23:04,  2.00it/s]  7%|▋         | 759/10702 [17:19<1:22:57,  2.00it/s]  7%|▋         | 760/10702 [17:20<1:22:58,  2.00it/s]  7%|▋         | 761/10702 [17:20<1:22:57,  2.00it/s]  7%|▋         | 762/10702 [17:21<1:23:05,  1.99it/s]  7%|▋         | 763/10702 [17:21<1:23:08,  1.99it/s]  7%|▋         | 764/10702 [17:22<1:23:00,  2.00it/s]  7%|▋         | 765/10702 [17:22<1:22:53,  2.00it/s]  7%|▋         | 766/10702 [17:23<1:22:50,  2.00it/s]  7%|▋         | 767/10702 [17:23<1:22:42,  2.00it/s]  7%|▋         | 768/10702 [17:24<1:22:54,  2.00it/s]  7%|▋         | 769/10702 [17:24<1:22:48,  2.00it/s]  7%|▋         | 770/10702 [17:25<1:22:51,  2.00it/s]  7%|▋         | 771/10702 [17:25<1:22:48,  2.00it/s]  7%|▋         | 772/10702 [17:26<1:22:45,  2.00it/s]  7%|▋         | 773/10702 [17:26<1:22:46,  2.00it/s]  7%|▋         | 774/10702 [17:27<1:22:42,  2.00it/s]  7%|▋         | 775/10702 [17:27<1:22:41,  2.00it/s]{'loss': 4.6819, 'grad_norm': 0.39352500438690186, 'learning_rate': 0.0007236227824463119, 'epoch': 0.07}
+                                                       7%|▋         | 775/10702 [17:27<1:22:41,  2.00it/s]  7%|▋         | 776/10702 [17:28<1:22:56,  1.99it/s]  7%|▋         | 777/10702 [17:28<1:22:48,  2.00it/s]  7%|▋         | 778/10702 [17:29<1:22:42,  2.00it/s]  7%|▋         | 779/10702 [17:29<1:22:39,  2.00it/s]  7%|▋         | 780/10702 [17:30<1:22:45,  2.00it/s]  7%|▋         | 781/10702 [17:30<1:22:38,  2.00it/s]  7%|▋         | 782/10702 [17:31<1:22:36,  2.00it/s]  7%|▋         | 783/10702 [17:31<1:22:34,  2.00it/s]  7%|▋         | 784/10702 [17:32<1:22:40,  2.00it/s]  7%|▋         | 785/10702 [17:32<1:22:36,  2.00it/s]  7%|▋         | 786/10702 [17:33<1:22:38,  2.00it/s]  7%|▋         | 787/10702 [17:33<1:22:37,  2.00it/s]  7%|▋         | 788/10702 [17:34<1:22:32,  2.00it/s]  7%|▋         | 789/10702 [17:34<1:22:30,  2.00it/s]  7%|▋         | 790/10702 [17:35<1:22:38,  2.00it/s]  7%|▋         | 791/10702 [17:35<1:22:38,  2.00it/s]  7%|▋         | 792/10702 [17:36<1:22:30,  2.00it/s]  7%|▋         | 793/10702 [17:36<1:22:33,  2.00it/s]  7%|▋         | 794/10702 [17:37<1:22:37,  2.00it/s]  7%|▋         | 795/10702 [17:37<1:22:35,  2.00it/s]  7%|▋         | 796/10702 [17:38<1:22:24,  2.00it/s]  7%|▋         | 797/10702 [17:38<1:22:22,  2.00it/s]  7%|▋         | 798/10702 [17:39<1:22:22,  2.00it/s]  7%|▋         | 799/10702 [17:39<1:22:17,  2.01it/s]  7%|▋         | 800/10702 [17:40<1:22:13,  2.01it/s]                                                     {'loss': 4.659, 'grad_norm': 0.4348669648170471, 'learning_rate': 0.0007469654528478058, 'epoch': 0.07}
+  7%|▋         | 800/10702 [17:40<1:22:13,  2.01it/s]  7%|▋         | 801/10702 [17:40<1:22:18,  2.01it/s]  7%|▋         | 802/10702 [17:41<1:22:23,  2.00it/s]  8%|▊         | 803/10702 [17:41<1:22:17,  2.01it/s]  8%|▊         | 804/10702 [17:42<1:22:16,  2.01it/s]  8%|▊         | 805/10702 [17:42<1:22:19,  2.00it/s]  8%|▊         | 806/10702 [17:43<1:22:13,  2.01it/s]  8%|▊         | 807/10702 [17:43<1:22:10,  2.01it/s]  8%|▊         | 808/10702 [17:44<1:22:16,  2.00it/s]  8%|▊         | 809/10702 [17:44<1:22:21,  2.00it/s]  8%|▊         | 810/10702 [17:45<1:22:22,  2.00it/s]  8%|▊         | 811/10702 [17:45<1:22:24,  2.00it/s]  8%|▊         | 812/10702 [17:46<1:22:23,  2.00it/s]  8%|▊         | 813/10702 [17:46<1:22:24,  2.00it/s]  8%|▊         | 814/10702 [17:47<1:22:22,  2.00it/s]  8%|▊         | 815/10702 [17:47<1:22:18,  2.00it/s]  8%|▊         | 816/10702 [17:48<1:22:20,  2.00it/s]  8%|▊         | 817/10702 [17:48<1:22:16,  2.00it/s]  8%|▊         | 818/10702 [17:49<1:22:14,  2.00it/s]  8%|▊         | 819/10702 [17:49<1:22:13,  2.00it/s]  8%|▊         | 820/10702 [17:50<1:22:14,  2.00it/s]  8%|▊         | 821/10702 [17:50<1:22:10,  2.00it/s]  8%|▊         | 822/10702 [17:51<1:22:12,  2.00it/s]  8%|▊         | 823/10702 [17:51<1:22:03,  2.01it/s]  8%|▊         | 824/10702 [17:52<1:22:31,  2.00it/s]  8%|▊         | 825/10702 [17:52<1:22:22,  2.00it/s]                                                     {'loss': 4.6226, 'grad_norm': 0.4141194820404053, 'learning_rate': 0.0007703081232492998, 'epoch': 0.08}
+  8%|▊         | 825/10702 [17:52<1:22:22,  2.00it/s]  8%|▊         | 826/10702 [17:53<1:22:23,  2.00it/s]  8%|▊         | 827/10702 [17:53<1:22:16,  2.00it/s]  8%|▊         | 828/10702 [17:54<1:22:09,  2.00it/s]  8%|▊         | 829/10702 [17:54<1:22:00,  2.01it/s]  8%|▊         | 830/10702 [17:55<1:22:10,  2.00it/s]  8%|▊         | 831/10702 [17:55<1:22:09,  2.00it/s]  8%|▊         | 832/10702 [17:56<1:22:15,  2.00it/s]  8%|▊         | 833/10702 [17:56<1:22:06,  2.00it/s]  8%|▊         | 834/10702 [17:57<1:22:10,  2.00it/s]  8%|▊         | 835/10702 [17:57<1:22:13,  2.00it/s]  8%|▊         | 836/10702 [17:58<1:22:08,  2.00it/s]  8%|▊         | 837/10702 [17:58<1:22:03,  2.00it/s]  8%|▊         | 838/10702 [17:59<1:22:00,  2.00it/s]  8%|▊         | 839/10702 [17:59<1:21:58,  2.01it/s]  8%|▊         | 840/10702 [18:00<1:21:55,  2.01it/s]  8%|▊         | 841/10702 [18:00<1:21:51,  2.01it/s]  8%|▊         | 842/10702 [18:01<1:21:57,  2.00it/s]  8%|▊         | 843/10702 [18:01<1:21:58,  2.00it/s]  8%|▊         | 844/10702 [18:02<1:21:54,  2.01it/s]  8%|▊         | 845/10702 [18:02<1:21:53,  2.01it/s]  8%|▊         | 846/10702 [18:03<1:21:57,  2.00it/s]  8%|▊         | 847/10702 [18:03<1:22:05,  2.00it/s]  8%|▊         | 848/10702 [18:04<1:22:14,  2.00it/s]  8%|▊         | 849/10702 [18:04<1:22:07,  2.00it/s]  8%|▊         | 850/10702 [18:05<1:21:57,  2.00it/s]                                                     {'loss': 4.5972, 'grad_norm': 0.3515893220901489, 'learning_rate': 0.0007936507936507937, 'epoch': 0.08}
+  8%|▊         | 850/10702 [18:05<1:21:57,  2.00it/s]  8%|▊         | 851/10702 [18:05<1:22:04,  2.00it/s]  8%|▊         | 852/10702 [18:06<1:21:58,  2.00it/s]  8%|▊         | 853/10702 [18:06<1:21:47,  2.01it/s]  8%|▊         | 854/10702 [18:07<1:21:48,  2.01it/s]  8%|▊         | 855/10702 [18:07<1:21:51,  2.00it/s]  8%|▊         | 856/10702 [18:08<1:21:46,  2.01it/s]  8%|▊         | 857/10702 [18:08<1:21:48,  2.01it/s]  8%|▊         | 858/10702 [18:09<1:21:49,  2.01it/s]  8%|▊         | 859/10702 [18:09<1:21:48,  2.01it/s]  8%|▊         | 860/10702 [18:10<1:21:46,  2.01it/s]  8%|▊         | 861/10702 [18:10<1:21:47,  2.01it/s]  8%|▊         | 862/10702 [18:11<1:21:44,  2.01it/s]  8%|▊         | 863/10702 [18:11<1:21:40,  2.01it/s]  8%|▊         | 864/10702 [18:12<1:21:42,  2.01it/s]  8%|▊         | 865/10702 [18:12<1:21:48,  2.00it/s]  8%|▊         | 866/10702 [18:13<1:21:41,  2.01it/s]  8%|▊         | 867/10702 [18:13<1:21:39,  2.01it/s]  8%|▊         | 868/10702 [18:14<1:21:41,  2.01it/s]  8%|▊         | 869/10702 [18:14<1:21:45,  2.00it/s]  8%|▊         | 870/10702 [18:15<1:22:03,  2.00it/s]  8%|▊         | 871/10702 [18:15<1:21:50,  2.00it/s]  8%|▊         | 872/10702 [18:16<1:21:50,  2.00it/s]  8%|▊         | 873/10702 [18:16<1:21:51,  2.00it/s]  8%|▊         | 874/10702 [18:17<1:21:46,  2.00it/s]  8%|▊         | 875/10702 [18:17<1:21:49,  2.00it/s]                                                     {'loss': 4.581, 'grad_norm': 0.4153730869293213, 'learning_rate': 0.0008169934640522876, 'epoch': 0.08}
+  8%|▊         | 875/10702 [18:17<1:21:49,  2.00it/s]  8%|▊         | 876/10702 [18:18<1:21:51,  2.00it/s]  8%|▊         | 877/10702 [18:18<1:21:52,  2.00it/s]  8%|▊         | 878/10702 [18:19<1:21:56,  2.00it/s]  8%|▊         | 879/10702 [18:19<1:21:55,  2.00it/s]  8%|▊         | 880/10702 [18:20<1:21:42,  2.00it/s]  8%|▊         | 881/10702 [18:20<1:21:41,  2.00it/s]  8%|▊         | 882/10702 [18:21<1:21:40,  2.00it/s]  8%|▊         | 883/10702 [18:21<1:21:31,  2.01it/s]  8%|▊         | 884/10702 [18:22<1:21:32,  2.01it/s]  8%|▊         | 885/10702 [18:22<1:21:28,  2.01it/s]  8%|▊         | 886/10702 [18:23<1:21:23,  2.01it/s]  8%|▊         | 887/10702 [18:23<1:21:21,  2.01it/s]  8%|▊         | 888/10702 [18:24<1:21:28,  2.01it/s]  8%|▊         | 889/10702 [18:24<1:21:26,  2.01it/s]  8%|▊         | 890/10702 [18:25<1:21:33,  2.01it/s]  8%|▊         | 891/10702 [18:25<1:21:33,  2.00it/s]  8%|▊         | 892/10702 [18:26<1:21:29,  2.01it/s]  8%|▊         | 893/10702 [18:26<1:21:28,  2.01it/s]  8%|▊         | 894/10702 [18:27<1:21:27,  2.01it/s]  8%|▊         | 895/10702 [18:27<1:21:24,  2.01it/s]  8%|▊         | 896/10702 [18:28<1:21:23,  2.01it/s]  8%|▊         | 897/10702 [18:28<1:21:25,  2.01it/s]  8%|▊         | 898/10702 [18:29<1:21:21,  2.01it/s]  8%|▊         | 899/10702 [18:29<1:21:22,  2.01it/s]  8%|▊         | 900/10702 [18:30<1:21:24,  2.01it/s]                                                     {'loss': 4.5533, 'grad_norm': 0.3847513794898987, 'learning_rate': 0.0008403361344537816, 'epoch': 0.08}
+  8%|▊         | 900/10702 [18:30<1:21:24,  2.01it/s]  8%|▊         | 901/10702 [18:30<1:21:44,  2.00it/s]  8%|▊         | 902/10702 [18:31<1:21:38,  2.00it/s]  8%|▊         | 903/10702 [18:31<1:21:34,  2.00it/s]  8%|▊         | 904/10702 [18:32<1:21:34,  2.00it/s]  8%|▊         | 905/10702 [18:32<1:21:28,  2.00it/s]  8%|▊         | 906/10702 [18:33<1:21:28,  2.00it/s]  8%|▊         | 907/10702 [18:33<1:21:31,  2.00it/s]  8%|▊         | 908/10702 [18:34<1:21:23,  2.01it/s]  8%|▊         | 909/10702 [18:34<1:21:20,  2.01it/s]  9%|▊         | 910/10702 [18:35<1:21:25,  2.00it/s]  9%|▊         | 911/10702 [18:35<1:21:23,  2.00it/s]  9%|▊         | 912/10702 [18:36<1:21:21,  2.01it/s]  9%|▊         | 913/10702 [18:36<1:21:22,  2.01it/s]  9%|▊         | 914/10702 [18:37<1:21:23,  2.00it/s]  9%|▊         | 915/10702 [18:37<1:21:20,  2.01it/s]  9%|▊         | 916/10702 [18:38<1:21:18,  2.01it/s]  9%|▊         | 917/10702 [18:38<1:21:15,  2.01it/s]  9%|▊         | 918/10702 [18:39<1:21:14,  2.01it/s]  9%|▊         | 919/10702 [18:39<1:21:14,  2.01it/s]  9%|▊         | 920/10702 [18:40<1:21:18,  2.01it/s]  9%|▊         | 921/10702 [18:40<1:21:15,  2.01it/s]  9%|▊         | 922/10702 [18:41<1:21:29,  2.00it/s]  9%|▊         | 923/10702 [18:41<1:21:22,  2.00it/s]  9%|▊         | 924/10702 [18:42<1:21:21,  2.00it/s]  9%|▊         | 925/10702 [18:42<1:21:20,  2.00it/s]                                                     {'loss': 4.5383, 'grad_norm': 0.4194313883781433, 'learning_rate': 0.0008636788048552755, 'epoch': 0.09}
+  9%|▊         | 925/10702 [18:42<1:21:20,  2.00it/s]  9%|▊         | 926/10702 [18:43<1:21:19,  2.00it/s]  9%|▊         | 927/10702 [18:43<1:21:17,  2.00it/s]  9%|▊         | 928/10702 [18:44<1:21:17,  2.00it/s]  9%|▊         | 929/10702 [18:44<1:21:07,  2.01it/s]  9%|▊         | 930/10702 [18:45<1:21:07,  2.01it/s]  9%|▊         | 931/10702 [18:45<1:21:10,  2.01it/s]  9%|▊         | 932/10702 [18:46<1:21:06,  2.01it/s]  9%|▊         | 933/10702 [18:46<1:21:13,  2.00it/s]  9%|▊         | 934/10702 [18:47<1:21:12,  2.00it/s]  9%|▊         | 935/10702 [18:47<1:21:09,  2.01it/s]  9%|▊         | 936/10702 [18:48<1:21:03,  2.01it/s]  9%|▉         | 937/10702 [18:48<1:21:09,  2.01it/s]  9%|▉         | 938/10702 [18:49<1:21:09,  2.00it/s]  9%|▉         | 939/10702 [18:49<1:21:02,  2.01it/s]  9%|▉         | 940/10702 [18:50<1:21:03,  2.01it/s]  9%|▉         | 941/10702 [18:50<1:21:01,  2.01it/s]  9%|▉         | 942/10702 [18:51<1:21:07,  2.01it/s]  9%|▉         | 943/10702 [18:51<1:21:07,  2.00it/s]  9%|▉         | 944/10702 [18:52<1:21:00,  2.01it/s]  9%|▉         | 945/10702 [18:52<1:21:01,  2.01it/s]  9%|▉         | 946/10702 [18:53<1:21:09,  2.00it/s]  9%|▉         | 947/10702 [18:53<1:21:05,  2.01it/s]  9%|▉         | 948/10702 [18:54<1:20:59,  2.01it/s]  9%|▉         | 949/10702 [18:54<1:21:04,  2.00it/s]  9%|▉         | 950/10702 [18:55<1:20:58,  2.01it/s]                                                     {'loss': 4.5089, 'grad_norm': 0.33998945355415344, 'learning_rate': 0.0008870214752567694, 'epoch': 0.09}
+  9%|▉         | 950/10702 [18:55<1:20:58,  2.01it/s]  9%|▉         | 951/10702 [18:55<1:20:57,  2.01it/s]  9%|▉         | 952/10702 [18:56<1:21:02,  2.01it/s]  9%|▉         | 953/10702 [18:56<1:21:10,  2.00it/s]  9%|▉         | 954/10702 [18:57<1:21:08,  2.00it/s]  9%|▉         | 955/10702 [18:57<1:21:00,  2.01it/s]  9%|▉         | 956/10702 [18:58<1:21:02,  2.00it/s]  9%|▉         | 957/10702 [18:58<1:20:58,  2.01it/s]  9%|▉         | 958/10702 [18:59<1:20:58,  2.01it/s]  9%|▉         | 959/10702 [18:59<1:20:59,  2.01it/s]  9%|▉         | 960/10702 [19:00<1:21:02,  2.00it/s]  9%|▉         | 961/10702 [19:00<1:20:53,  2.01it/s]  9%|▉         | 962/10702 [19:01<1:20:53,  2.01it/s]  9%|▉         | 963/10702 [19:01<1:20:53,  2.01it/s]  9%|▉         | 964/10702 [19:02<1:20:44,  2.01it/s]  9%|▉         | 965/10702 [19:02<1:20:48,  2.01it/s]  9%|▉         | 966/10702 [19:03<1:20:50,  2.01it/s]  9%|▉         | 967/10702 [19:03<1:20:51,  2.01it/s]  9%|▉         | 968/10702 [19:04<1:20:50,  2.01it/s]  9%|▉         | 969/10702 [19:04<1:20:50,  2.01it/s]  9%|▉         | 970/10702 [19:05<1:20:49,  2.01it/s]  9%|▉         | 971/10702 [19:05<1:20:43,  2.01it/s]  9%|▉         | 972/10702 [19:06<1:20:46,  2.01it/s]  9%|▉         | 973/10702 [19:06<1:20:59,  2.00it/s]  9%|▉         | 974/10702 [19:07<1:20:49,  2.01it/s]  9%|▉         | 975/10702 [19:07<1:20:53,  2.00it/s]{'loss': 4.4815, 'grad_norm': 0.32960328459739685, 'learning_rate': 0.0009103641456582633, 'epoch': 0.09}
+                                                       9%|▉         | 975/10702 [19:07<1:20:53,  2.00it/s]  9%|▉         | 976/10702 [19:08<1:21:00,  2.00it/s]  9%|▉         | 977/10702 [19:08<1:20:48,  2.01it/s]  9%|▉         | 978/10702 [19:09<1:20:47,  2.01it/s]  9%|▉         | 979/10702 [19:09<1:20:50,  2.00it/s]  9%|▉         | 980/10702 [19:10<1:20:46,  2.01it/s]  9%|▉         | 981/10702 [19:10<1:20:39,  2.01it/s]  9%|▉         | 982/10702 [19:11<1:20:40,  2.01it/s]  9%|▉         | 983/10702 [19:11<1:20:37,  2.01it/s]  9%|▉         | 984/10702 [19:12<1:20:39,  2.01it/s]  9%|▉         | 985/10702 [19:12<1:20:38,  2.01it/s]  9%|▉         | 986/10702 [19:13<1:20:38,  2.01it/s]  9%|▉         | 987/10702 [19:13<1:20:32,  2.01it/s]  9%|▉         | 988/10702 [19:14<1:20:42,  2.01it/s]  9%|▉         | 989/10702 [19:14<1:20:41,  2.01it/s]  9%|▉         | 990/10702 [19:15<1:20:33,  2.01it/s]  9%|▉         | 991/10702 [19:15<1:20:36,  2.01it/s]  9%|▉         | 992/10702 [19:16<1:20:33,  2.01it/s]  9%|▉         | 993/10702 [19:16<1:20:31,  2.01it/s]  9%|▉         | 994/10702 [19:17<1:20:32,  2.01it/s]  9%|▉         | 995/10702 [19:17<1:20:38,  2.01it/s]  9%|▉         | 996/10702 [19:18<1:20:31,  2.01it/s]  9%|▉         | 997/10702 [19:18<1:20:34,  2.01it/s]  9%|▉         | 998/10702 [19:19<1:20:31,  2.01it/s]  9%|▉         | 999/10702 [19:19<1:20:36,  2.01it/s]  9%|▉         | 1000/10702 [19:20<1:20:31,  2.01it/s]{'loss': 4.4602, 'grad_norm': 0.3319051265716553, 'learning_rate': 0.0009337068160597573, 'epoch': 0.09}
+                                                        9%|▉         | 1000/10702 [19:20<1:20:31,  2.01it/s]  9%|▉         | 1001/10702 [19:20<1:20:39,  2.00it/s]  9%|▉         | 1002/10702 [19:21<1:20:36,  2.01it/s]  9%|▉         | 1003/10702 [19:21<1:20:35,  2.01it/s]  9%|▉         | 1004/10702 [19:22<1:20:36,  2.01it/s]  9%|▉         | 1005/10702 [19:22<1:20:33,  2.01it/s]  9%|▉         | 1006/10702 [19:23<1:20:23,  2.01it/s]  9%|▉         | 1007/10702 [19:23<1:20:25,  2.01it/s]  9%|▉         | 1008/10702 [19:24<1:20:32,  2.01it/s]  9%|▉         | 1009/10702 [19:24<1:20:29,  2.01it/s]  9%|▉         | 1010/10702 [19:25<1:20:27,  2.01it/s]  9%|▉         | 1011/10702 [19:25<1:20:28,  2.01it/s]  9%|▉         | 1012/10702 [19:26<1:20:20,  2.01it/s]  9%|▉         | 1013/10702 [19:26<1:20:23,  2.01it/s]  9%|▉         | 1014/10702 [19:27<1:20:30,  2.01it/s]  9%|▉         | 1015/10702 [19:27<1:20:24,  2.01it/s]  9%|▉         | 1016/10702 [19:28<1:20:19,  2.01it/s] 10%|▉         | 1017/10702 [19:28<1:20:20,  2.01it/s] 10%|▉         | 1018/10702 [19:29<1:20:35,  2.00it/s] 10%|▉         | 1019/10702 [19:29<1:20:27,  2.01it/s] 10%|▉         | 1020/10702 [19:30<1:20:25,  2.01it/s] 10%|▉         | 1021/10702 [19:30<1:20:17,  2.01it/s] 10%|▉         | 1022/10702 [19:31<1:20:15,  2.01it/s] 10%|▉         | 1023/10702 [19:31<1:20:17,  2.01it/s] 10%|▉         | 1024/10702 [19:32<1:20:13,  2.01it/s] 10%|▉         | 1025/10702 [19:32<1:20:16,  2.01it/s]                                                      {'loss': 4.428, 'grad_norm': 0.3125532269477844, 'learning_rate': 0.0009570494864612512, 'epoch': 0.1}
+ 10%|▉         | 1025/10702 [19:32<1:20:16,  2.01it/s] 10%|▉         | 1026/10702 [19:33<1:20:28,  2.00it/s] 10%|▉         | 1027/10702 [19:33<1:20:21,  2.01it/s] 10%|▉         | 1028/10702 [19:34<1:20:16,  2.01it/s] 10%|▉         | 1029/10702 [19:34<1:20:26,  2.00it/s] 10%|▉         | 1030/10702 [19:35<1:20:23,  2.00it/s] 10%|▉         | 1031/10702 [19:35<1:20:15,  2.01it/s] 10%|▉         | 1032/10702 [19:36<1:20:11,  2.01it/s] 10%|▉         | 1033/10702 [19:36<1:20:08,  2.01it/s] 10%|▉         | 1034/10702 [19:37<1:20:05,  2.01it/s] 10%|▉         | 1035/10702 [19:37<1:20:05,  2.01it/s] 10%|▉         | 1036/10702 [19:38<1:20:00,  2.01it/s] 10%|▉         | 1037/10702 [19:38<1:20:05,  2.01it/s] 10%|▉         | 1038/10702 [19:39<1:20:11,  2.01it/s] 10%|▉         | 1039/10702 [19:39<1:20:18,  2.01it/s] 10%|▉         | 1040/10702 [19:40<1:20:16,  2.01it/s] 10%|▉         | 1041/10702 [19:40<1:20:12,  2.01it/s] 10%|▉         | 1042/10702 [19:41<1:33:45,  1.72it/s] 10%|▉         | 1043/10702 [19:41<1:29:41,  1.79it/s] 10%|▉         | 1044/10702 [19:42<1:26:49,  1.85it/s] 10%|▉         | 1045/10702 [19:42<1:24:48,  1.90it/s] 10%|▉         | 1046/10702 [19:43<1:23:19,  1.93it/s] 10%|▉         | 1047/10702 [19:43<1:22:16,  1.96it/s] 10%|▉         | 1048/10702 [19:44<1:35:38,  1.68it/s] 10%|▉         | 1049/10702 [19:45<1:30:58,  1.77it/s] 10%|▉         | 1050/10702 [19:45<1:27:38,  1.84it/s]{'loss': 4.4151, 'grad_norm': 0.3421127498149872, 'learning_rate': 0.000980392156862745, 'epoch': 0.1}
+                                                       10%|▉         | 1050/10702 [19:45<1:27:38,  1.84it/s] 10%|▉         | 1051/10702 [19:46<1:25:33,  1.88it/s] 10%|▉         | 1052/10702 [19:46<1:24:02,  1.91it/s] 10%|▉         | 1053/10702 [19:47<1:22:53,  1.94it/s] 10%|▉         | 1054/10702 [19:47<1:22:01,  1.96it/s] 10%|▉         | 1055/10702 [19:48<1:21:24,  1.97it/s] 10%|▉         | 1056/10702 [19:48<1:20:58,  1.99it/s] 10%|▉         | 1057/10702 [19:49<1:20:39,  1.99it/s] 10%|▉         | 1058/10702 [19:49<1:20:35,  1.99it/s] 10%|▉         | 1059/10702 [19:50<1:20:37,  1.99it/s] 10%|▉         | 1060/10702 [19:50<1:20:25,  2.00it/s] 10%|▉         | 1061/10702 [19:51<1:20:12,  2.00it/s] 10%|▉         | 1062/10702 [19:51<1:20:10,  2.00it/s] 10%|▉         | 1063/10702 [19:52<1:20:00,  2.01it/s] 10%|▉         | 1064/10702 [19:52<1:20:00,  2.01it/s] 10%|▉         | 1065/10702 [19:53<1:20:06,  2.01it/s] 10%|▉         | 1066/10702 [19:53<1:19:59,  2.01it/s] 10%|▉         | 1067/10702 [19:54<1:19:52,  2.01it/s] 10%|▉         | 1068/10702 [19:54<1:19:57,  2.01it/s] 10%|▉         | 1069/10702 [19:55<1:19:45,  2.01it/s] 10%|▉         | 1070/10702 [19:55<1:19:51,  2.01it/s] 10%|█         | 1071/10702 [19:56<1:19:54,  2.01it/s] 10%|█         | 1072/10702 [19:56<1:19:48,  2.01it/s] 10%|█         | 1073/10702 [19:57<1:19:51,  2.01it/s] 10%|█         | 1074/10702 [19:57<1:19:56,  2.01it/s] 10%|█         | 1075/10702 [19:58<1:19:53,  2.01it/s]{'loss': 4.388, 'grad_norm': 0.3163909912109375, 'learning_rate': 0.0009999995743850158, 'epoch': 0.1}
+                                                       10%|█         | 1075/10702 [19:58<1:19:53,  2.01it/s] 10%|█         | 1076/10702 [19:58<1:19:57,  2.01it/s] 10%|█         | 1077/10702 [19:59<1:19:53,  2.01it/s] 10%|█         | 1078/10702 [19:59<1:19:50,  2.01it/s] 10%|█         | 1079/10702 [20:00<1:19:50,  2.01it/s] 10%|█         | 1080/10702 [20:00<1:19:50,  2.01it/s] 10%|█         | 1081/10702 [20:01<1:19:48,  2.01it/s] 10%|█         | 1082/10702 [20:01<1:19:50,  2.01it/s] 10%|█         | 1083/10702 [20:02<1:19:45,  2.01it/s] 10%|█         | 1084/10702 [20:02<1:19:49,  2.01it/s] 10%|█         | 1085/10702 [20:03<1:19:46,  2.01it/s] 10%|█         | 1086/10702 [20:03<1:19:47,  2.01it/s] 10%|█         | 1087/10702 [20:04<1:19:41,  2.01it/s] 10%|█         | 1088/10702 [20:04<1:19:35,  2.01it/s] 10%|█         | 1089/10702 [20:05<1:19:44,  2.01it/s] 10%|█         | 1090/10702 [20:05<1:19:39,  2.01it/s] 10%|█         | 1091/10702 [20:06<1:19:36,  2.01it/s] 10%|█         | 1092/10702 [20:06<1:19:41,  2.01it/s] 10%|█         | 1093/10702 [20:07<1:19:35,  2.01it/s] 10%|█         | 1094/10702 [20:07<1:19:52,  2.00it/s] 10%|█         | 1095/10702 [20:08<1:19:50,  2.01it/s] 10%|█         | 1096/10702 [20:08<1:19:46,  2.01it/s] 10%|█         | 1097/10702 [20:09<1:19:39,  2.01it/s] 10%|█         | 1098/10702 [20:09<1:19:38,  2.01it/s] 10%|█         | 1099/10702 [20:10<1:19:30,  2.01it/s] 10%|█         | 1100/10702 [20:10<1:19:33,  2.01it/s]                                                      {'loss': 4.3841, 'grad_norm': 0.316569983959198, 'learning_rate': 0.000999977628776042, 'epoch': 0.1}
+ 10%|█         | 1100/10702 [20:10<1:19:33,  2.01it/s] 10%|█         | 1101/10702 [20:11<1:19:41,  2.01it/s] 10%|█         | 1102/10702 [20:11<1:19:33,  2.01it/s] 10%|█         | 1103/10702 [20:12<1:19:34,  2.01it/s] 10%|█         | 1104/10702 [20:12<1:19:35,  2.01it/s] 10%|█         | 1105/10702 [20:13<1:19:33,  2.01it/s] 10%|█         | 1106/10702 [20:13<1:19:29,  2.01it/s] 10%|█         | 1107/10702 [20:14<1:19:30,  2.01it/s] 10%|█         | 1108/10702 [20:14<1:19:26,  2.01it/s] 10%|█         | 1109/10702 [20:15<1:19:24,  2.01it/s] 10%|█         | 1110/10702 [20:15<1:19:25,  2.01it/s] 10%|█         | 1111/10702 [20:16<1:19:27,  2.01it/s] 10%|█         | 1112/10702 [20:16<1:19:29,  2.01it/s] 10%|█         | 1113/10702 [20:17<1:19:30,  2.01it/s] 10%|█         | 1114/10702 [20:17<1:19:28,  2.01it/s] 10%|█         | 1115/10702 [20:18<1:19:30,  2.01it/s] 10%|█         | 1116/10702 [20:18<1:19:26,  2.01it/s] 10%|█         | 1117/10702 [20:19<1:19:26,  2.01it/s] 10%|█         | 1118/10702 [20:19<1:19:25,  2.01it/s] 10%|█         | 1119/10702 [20:20<1:19:24,  2.01it/s] 10%|█         | 1120/10702 [20:20<1:19:25,  2.01it/s] 10%|█         | 1121/10702 [20:21<1:19:25,  2.01it/s] 10%|█         | 1122/10702 [20:21<1:19:23,  2.01it/s] 10%|█         | 1123/10702 [20:22<1:19:23,  2.01it/s] 11%|█         | 1124/10702 [20:22<1:19:28,  2.01it/s] 11%|█         | 1125/10702 [20:23<1:19:26,  2.01it/s]                                                      {'loss': 4.3642, 'grad_norm': 0.29920291900634766, 'learning_rate': 0.00099992243366371, 'epoch': 0.11}
+ 11%|█         | 1125/10702 [20:23<1:19:26,  2.01it/s] 11%|█         | 1126/10702 [20:23<1:19:35,  2.01it/s] 11%|█         | 1127/10702 [20:24<1:19:34,  2.01it/s] 11%|█         | 1128/10702 [20:24<1:19:33,  2.01it/s] 11%|█         | 1129/10702 [20:25<1:19:34,  2.01it/s] 11%|█         | 1130/10702 [20:25<1:19:30,  2.01it/s] 11%|█         | 1131/10702 [20:26<1:19:25,  2.01it/s] 11%|█         | 1132/10702 [20:26<1:19:20,  2.01it/s] 11%|█         | 1133/10702 [20:27<1:19:18,  2.01it/s] 11%|█         | 1134/10702 [20:27<1:19:22,  2.01it/s] 11%|█         | 1135/10702 [20:28<1:19:18,  2.01it/s] 11%|█         | 1136/10702 [20:28<1:19:15,  2.01it/s] 11%|█         | 1137/10702 [20:29<1:19:22,  2.01it/s] 11%|█         | 1138/10702 [20:29<1:19:18,  2.01it/s] 11%|█         | 1139/10702 [20:30<1:19:18,  2.01it/s] 11%|█         | 1140/10702 [20:30<1:19:20,  2.01it/s] 11%|█         | 1141/10702 [20:30<1:19:15,  2.01it/s] 11%|█         | 1142/10702 [20:31<1:19:13,  2.01it/s] 11%|█         | 1143/10702 [20:31<1:19:15,  2.01it/s] 11%|█         | 1144/10702 [20:32<1:19:09,  2.01it/s] 11%|█         | 1145/10702 [20:32<1:19:14,  2.01it/s] 11%|█         | 1146/10702 [20:33<1:19:21,  2.01it/s] 11%|█         | 1147/10702 [20:33<1:19:14,  2.01it/s] 11%|█         | 1148/10702 [20:34<1:19:16,  2.01it/s] 11%|█         | 1149/10702 [20:34<1:19:23,  2.01it/s] 11%|█         | 1150/10702 [20:35<1:19:17,  2.01it/s]{'loss': 4.3461, 'grad_norm': 0.30908483266830444, 'learning_rate': 0.000999833992718604, 'epoch': 0.11}
+                                                       11%|█         | 1150/10702 [20:35<1:19:17,  2.01it/s] 11%|█         | 1151/10702 [20:35<1:19:24,  2.00it/s] 11%|█         | 1152/10702 [20:36<1:19:19,  2.01it/s] 11%|█         | 1153/10702 [20:36<1:19:20,  2.01it/s] 11%|█         | 1154/10702 [20:37<1:19:11,  2.01it/s] 11%|█         | 1155/10702 [20:37<1:19:09,  2.01it/s] 11%|█         | 1156/10702 [20:38<1:19:11,  2.01it/s] 11%|█         | 1157/10702 [20:38<1:19:04,  2.01it/s] 11%|█         | 1158/10702 [20:39<1:19:06,  2.01it/s] 11%|█         | 1159/10702 [20:39<1:19:06,  2.01it/s] 11%|█         | 1160/10702 [20:40<1:19:04,  2.01it/s] 11%|█         | 1161/10702 [20:40<1:19:07,  2.01it/s] 11%|█         | 1162/10702 [20:41<1:19:06,  2.01it/s] 11%|█         | 1163/10702 [20:41<1:19:04,  2.01it/s] 11%|█         | 1164/10702 [20:42<1:19:05,  2.01it/s] 11%|█         | 1165/10702 [20:42<1:18:59,  2.01it/s] 11%|█         | 1166/10702 [20:43<1:19:03,  2.01it/s] 11%|█         | 1167/10702 [20:43<1:18:58,  2.01it/s] 11%|█         | 1168/10702 [20:44<1:19:07,  2.01it/s] 11%|█         | 1169/10702 [20:44<1:19:08,  2.01it/s] 11%|█         | 1170/10702 [20:45<1:19:13,  2.01it/s] 11%|█         | 1171/10702 [20:45<1:19:06,  2.01it/s] 11%|█         | 1172/10702 [20:46<1:19:10,  2.01it/s] 11%|█         | 1173/10702 [20:46<1:19:02,  2.01it/s] 11%|█         | 1174/10702 [20:47<1:18:59,  2.01it/s] 11%|█         | 1175/10702 [20:47<1:18:55,  2.01it/s]                                                      {'loss': 4.3161, 'grad_norm': 0.30251380801200867, 'learning_rate': 0.0009997123118222217, 'epoch': 0.11}
+ 11%|█         | 1175/10702 [20:47<1:18:55,  2.01it/s] 11%|█         | 1176/10702 [20:48<1:19:11,  2.00it/s] 11%|█         | 1177/10702 [20:48<1:19:06,  2.01it/s] 11%|█         | 1178/10702 [20:49<1:19:04,  2.01it/s] 11%|█         | 1179/10702 [20:49<1:19:03,  2.01it/s] 11%|█         | 1180/10702 [20:50<1:18:56,  2.01it/s] 11%|█         | 1181/10702 [20:50<1:18:54,  2.01it/s] 11%|█         | 1182/10702 [20:51<1:18:55,  2.01it/s] 11%|█         | 1183/10702 [20:51<1:18:54,  2.01it/s] 11%|█         | 1184/10702 [20:52<1:18:57,  2.01it/s] 11%|█         | 1185/10702 [20:52<1:19:14,  2.00it/s] 11%|█         | 1186/10702 [20:53<1:19:11,  2.00it/s] 11%|█         | 1187/10702 [20:53<1:19:03,  2.01it/s] 11%|█         | 1188/10702 [20:54<1:19:03,  2.01it/s] 11%|█         | 1189/10702 [20:54<1:19:14,  2.00it/s] 11%|█         | 1190/10702 [20:55<1:19:03,  2.01it/s] 11%|█         | 1191/10702 [20:55<1:18:59,  2.01it/s] 11%|█         | 1192/10702 [20:56<1:19:00,  2.01it/s] 11%|█         | 1193/10702 [20:56<1:18:53,  2.01it/s] 11%|█         | 1194/10702 [20:57<1:18:48,  2.01it/s] 11%|█         | 1195/10702 [20:57<1:18:53,  2.01it/s] 11%|█         | 1196/10702 [20:58<1:18:50,  2.01it/s] 11%|█         | 1197/10702 [20:58<1:18:47,  2.01it/s] 11%|█         | 1198/10702 [20:59<1:18:51,  2.01it/s] 11%|█         | 1199/10702 [20:59<1:18:48,  2.01it/s] 11%|█         | 1200/10702 [21:00<1:18:50,  2.01it/s]                                                      {'loss': 4.3075, 'grad_norm': 0.30627626180648804, 'learning_rate': 0.0009995573990665846, 'epoch': 0.11}
+ 11%|█         | 1200/10702 [21:00<1:18:50,  2.01it/s] 11%|█         | 1201/10702 [21:00<1:18:59,  2.00it/s] 11%|█         | 1202/10702 [21:01<1:18:50,  2.01it/s] 11%|█         | 1203/10702 [21:01<1:18:48,  2.01it/s] 11%|█▏        | 1204/10702 [21:02<1:18:51,  2.01it/s] 11%|█▏        | 1205/10702 [21:02<1:18:46,  2.01it/s] 11%|█▏        | 1206/10702 [21:03<1:18:43,  2.01it/s] 11%|█▏        | 1207/10702 [21:03<1:18:44,  2.01it/s] 11%|█▏        | 1208/10702 [21:04<1:18:38,  2.01it/s] 11%|█▏        | 1209/10702 [21:04<1:18:39,  2.01it/s] 11%|█▏        | 1210/10702 [21:05<1:18:52,  2.01it/s] 11%|█▏        | 1211/10702 [21:05<1:18:45,  2.01it/s] 11%|█▏        | 1212/10702 [21:06<1:18:44,  2.01it/s] 11%|█▏        | 1213/10702 [21:06<1:18:41,  2.01it/s] 11%|█▏        | 1214/10702 [21:07<1:18:37,  2.01it/s] 11%|█▏        | 1215/10702 [21:07<1:18:37,  2.01it/s] 11%|█▏        | 1216/10702 [21:08<1:18:34,  2.01it/s] 11%|█▏        | 1217/10702 [21:08<1:18:33,  2.01it/s] 11%|█▏        | 1218/10702 [21:09<1:18:35,  2.01it/s] 11%|█▏        | 1219/10702 [21:09<1:18:33,  2.01it/s] 11%|█▏        | 1220/10702 [21:10<1:18:35,  2.01it/s] 11%|█▏        | 1221/10702 [21:10<1:18:37,  2.01it/s] 11%|█▏        | 1222/10702 [21:11<1:18:35,  2.01it/s] 11%|█▏        | 1223/10702 [21:11<1:18:34,  2.01it/s] 11%|█▏        | 1224/10702 [21:12<1:18:39,  2.01it/s] 11%|█▏        | 1225/10702 [21:12<1:18:37,  2.01it/s]                                                      {'loss': 4.2889, 'grad_norm': 0.2936002016067505, 'learning_rate': 0.0009993692647536974, 'epoch': 0.11}
+ 11%|█▏        | 1225/10702 [21:12<1:18:37,  2.01it/s] 11%|█▏        | 1226/10702 [21:13<1:18:39,  2.01it/s] 11%|█▏        | 1227/10702 [21:13<1:18:38,  2.01it/s] 11%|█▏        | 1228/10702 [21:14<1:18:40,  2.01it/s] 11%|█▏        | 1229/10702 [21:14<1:18:34,  2.01it/s] 11%|█▏        | 1230/10702 [21:15<1:18:38,  2.01it/s] 12%|█▏        | 1231/10702 [21:15<1:18:37,  2.01it/s] 12%|█▏        | 1232/10702 [21:16<1:18:29,  2.01it/s] 12%|█▏        | 1233/10702 [21:16<1:18:30,  2.01it/s] 12%|█▏        | 1234/10702 [21:17<1:18:33,  2.01it/s] 12%|█▏        | 1235/10702 [21:17<1:18:30,  2.01it/s] 12%|█▏        | 1236/10702 [21:18<1:18:31,  2.01it/s] 12%|█▏        | 1237/10702 [21:18<1:18:33,  2.01it/s] 12%|█▏        | 1238/10702 [21:19<1:18:29,  2.01it/s] 12%|█▏        | 1239/10702 [21:19<1:18:31,  2.01it/s] 12%|█▏        | 1240/10702 [21:20<1:18:29,  2.01it/s] 12%|█▏        | 1241/10702 [21:20<1:18:25,  2.01it/s] 12%|█▏        | 1242/10702 [21:21<1:18:27,  2.01it/s] 12%|█▏        | 1243/10702 [21:21<1:18:28,  2.01it/s] 12%|█▏        | 1244/10702 [21:22<1:18:27,  2.01it/s] 12%|█▏        | 1245/10702 [21:22<1:18:30,  2.01it/s] 12%|█▏        | 1246/10702 [21:23<1:18:27,  2.01it/s] 12%|█▏        | 1247/10702 [21:23<1:18:30,  2.01it/s] 12%|█▏        | 1248/10702 [21:24<1:18:27,  2.01it/s] 12%|█▏        | 1249/10702 [21:24<1:18:28,  2.01it/s] 12%|█▏        | 1250/10702 [21:25<1:18:28,  2.01it/s]{'loss': 4.2773, 'grad_norm': 0.25808456540107727, 'learning_rate': 0.0009991479213948653, 'epoch': 0.12}
+                                                       12%|█▏        | 1250/10702 [21:25<1:18:28,  2.01it/s] 12%|█▏        | 1251/10702 [21:25<1:18:40,  2.00it/s] 12%|█▏        | 1252/10702 [21:26<1:18:35,  2.00it/s] 12%|█▏        | 1253/10702 [21:26<1:18:32,  2.01it/s] 12%|█▏        | 1254/10702 [21:27<1:18:26,  2.01it/s] 12%|█▏        | 1255/10702 [21:27<1:18:26,  2.01it/s] 12%|█▏        | 1256/10702 [21:28<1:18:24,  2.01it/s] 12%|█▏        | 1257/10702 [21:28<1:18:20,  2.01it/s] 12%|█▏        | 1258/10702 [21:29<1:18:17,  2.01it/s] 12%|█▏        | 1259/10702 [21:29<1:18:19,  2.01it/s] 12%|█▏        | 1260/10702 [21:30<1:18:18,  2.01it/s] 12%|█▏        | 1261/10702 [21:30<1:18:16,  2.01it/s] 12%|█▏        | 1262/10702 [21:31<1:18:18,  2.01it/s] 12%|█▏        | 1263/10702 [21:31<1:18:21,  2.01it/s] 12%|█▏        | 1264/10702 [21:32<1:18:17,  2.01it/s] 12%|█▏        | 1265/10702 [21:32<1:18:17,  2.01it/s] 12%|█▏        | 1266/10702 [21:33<1:18:16,  2.01it/s] 12%|█▏        | 1267/10702 [21:33<1:18:19,  2.01it/s] 12%|█▏        | 1268/10702 [21:34<1:18:12,  2.01it/s] 12%|█▏        | 1269/10702 [21:34<1:18:14,  2.01it/s] 12%|█▏        | 1270/10702 [21:35<1:18:10,  2.01it/s] 12%|█▏        | 1271/10702 [21:35<1:18:09,  2.01it/s] 12%|█▏        | 1272/10702 [21:36<1:18:15,  2.01it/s] 12%|█▏        | 1273/10702 [21:36<1:18:09,  2.01it/s] 12%|█▏        | 1274/10702 [21:37<1:18:10,  2.01it/s] 12%|█▏        | 1275/10702 [21:37<1:18:08,  2.01it/s]{'loss': 4.2529, 'grad_norm': 0.27957668900489807, 'learning_rate': 0.00099889338370986, 'epoch': 0.12}
+                                                       12%|█▏        | 1275/10702 [21:37<1:18:08,  2.01it/s] 12%|█▏        | 1276/10702 [21:38<1:18:09,  2.01it/s] 12%|█▏        | 1277/10702 [21:38<1:18:11,  2.01it/s] 12%|█▏        | 1278/10702 [21:39<1:18:12,  2.01it/s] 12%|█▏        | 1279/10702 [21:39<1:18:03,  2.01it/s] 12%|█▏        | 1280/10702 [21:40<1:18:06,  2.01it/s] 12%|█▏        | 1281/10702 [21:40<1:18:03,  2.01it/s] 12%|█▏        | 1282/10702 [21:41<1:18:01,  2.01it/s] 12%|█▏        | 1283/10702 [21:41<1:18:18,  2.00it/s] 12%|█▏        | 1284/10702 [21:42<1:18:16,  2.01it/s] 12%|█▏        | 1285/10702 [21:42<1:18:05,  2.01it/s] 12%|█▏        | 1286/10702 [21:43<1:18:06,  2.01it/s] 12%|█▏        | 1287/10702 [21:43<1:18:00,  2.01it/s] 12%|█▏        | 1288/10702 [21:44<1:18:00,  2.01it/s] 12%|█▏        | 1289/10702 [21:44<1:18:00,  2.01it/s] 12%|█▏        | 1290/10702 [21:45<1:17:56,  2.01it/s] 12%|█▏        | 1291/10702 [21:45<1:17:56,  2.01it/s] 12%|█▏        | 1292/10702 [21:46<1:17:53,  2.01it/s] 12%|█▏        | 1293/10702 [21:46<1:17:54,  2.01it/s] 12%|█▏        | 1294/10702 [21:47<1:17:59,  2.01it/s] 12%|█▏        | 1295/10702 [21:47<1:17:50,  2.01it/s] 12%|█▏        | 1296/10702 [21:48<1:17:52,  2.01it/s] 12%|█▏        | 1297/10702 [21:48<1:17:52,  2.01it/s] 12%|█▏        | 1298/10702 [21:49<1:17:54,  2.01it/s] 12%|█▏        | 1299/10702 [21:49<1:17:54,  2.01it/s] 12%|█▏        | 1300/10702 [21:50<1:17:49,  2.01it/s]{'loss': 4.2416, 'grad_norm': 0.2723906338214874, 'learning_rate': 0.0009986056686259424, 'epoch': 0.12}
+                                                       12%|█▏        | 1300/10702 [21:50<1:17:49,  2.01it/s] 12%|█▏        | 1301/10702 [21:50<1:17:57,  2.01it/s] 12%|█▏        | 1302/10702 [21:51<1:17:54,  2.01it/s] 12%|█▏        | 1303/10702 [21:51<1:17:49,  2.01it/s] 12%|█▏        | 1304/10702 [21:52<1:17:53,  2.01it/s] 12%|█▏        | 1305/10702 [21:52<1:17:51,  2.01it/s] 12%|█▏        | 1306/10702 [21:53<1:17:53,  2.01it/s] 12%|█▏        | 1307/10702 [21:53<1:17:56,  2.01it/s] 12%|█▏        | 1308/10702 [21:54<1:17:54,  2.01it/s] 12%|█▏        | 1309/10702 [21:54<1:17:51,  2.01it/s] 12%|█▏        | 1310/10702 [21:55<1:17:53,  2.01it/s] 12%|█▏        | 1311/10702 [21:55<1:17:55,  2.01it/s] 12%|█▏        | 1312/10702 [21:56<1:17:52,  2.01it/s] 12%|█▏        | 1313/10702 [21:56<1:17:51,  2.01it/s] 12%|█▏        | 1314/10702 [21:57<1:17:53,  2.01it/s] 12%|█▏        | 1315/10702 [21:57<1:17:54,  2.01it/s] 12%|█▏        | 1316/10702 [21:58<1:17:51,  2.01it/s] 12%|█▏        | 1317/10702 [21:58<1:17:49,  2.01it/s] 12%|█▏        | 1318/10702 [21:59<1:17:41,  2.01it/s] 12%|█▏        | 1319/10702 [21:59<1:17:45,  2.01it/s] 12%|█▏        | 1320/10702 [22:00<1:17:39,  2.01it/s] 12%|█▏        | 1321/10702 [22:00<1:17:41,  2.01it/s] 12%|█▏        | 1322/10702 [22:01<1:17:44,  2.01it/s] 12%|█▏        | 1323/10702 [22:01<1:17:40,  2.01it/s] 12%|█▏        | 1324/10702 [22:02<1:17:39,  2.01it/s] 12%|█▏        | 1325/10702 [22:02<1:17:42,  2.01it/s]                                                      {'loss': 4.2357, 'grad_norm': 0.2601698040962219, 'learning_rate': 0.0009982847952767356, 'epoch': 0.12}
+ 12%|█▏        | 1325/10702 [22:02<1:17:42,  2.01it/s] 12%|█▏        | 1326/10702 [22:03<1:17:50,  2.01it/s] 12%|█▏        | 1327/10702 [22:03<1:17:43,  2.01it/s] 12%|█▏        | 1328/10702 [22:04<1:17:46,  2.01it/s] 12%|█▏        | 1329/10702 [22:04<1:17:40,  2.01it/s] 12%|█▏        | 1330/10702 [22:05<1:17:43,  2.01it/s] 12%|█▏        | 1331/10702 [22:05<1:17:46,  2.01it/s] 12%|█▏        | 1332/10702 [22:06<1:17:44,  2.01it/s] 12%|█▏        | 1333/10702 [22:06<1:17:40,  2.01it/s] 12%|█▏        | 1334/10702 [22:07<1:17:40,  2.01it/s] 12%|█▏        | 1335/10702 [22:07<1:17:33,  2.01it/s] 12%|█▏        | 1336/10702 [22:08<1:17:36,  2.01it/s] 12%|█▏        | 1337/10702 [22:08<1:17:33,  2.01it/s] 13%|█▎        | 1338/10702 [22:09<1:17:35,  2.01it/s] 13%|█▎        | 1339/10702 [22:09<1:17:35,  2.01it/s] 13%|█▎        | 1340/10702 [22:10<1:17:32,  2.01it/s] 13%|█▎        | 1341/10702 [22:10<1:17:28,  2.01it/s] 13%|█▎        | 1342/10702 [22:11<1:17:33,  2.01it/s] 13%|█▎        | 1343/10702 [22:11<1:17:30,  2.01it/s] 13%|█▎        | 1344/10702 [22:12<1:17:30,  2.01it/s] 13%|█▎        | 1345/10702 [22:12<1:17:28,  2.01it/s] 13%|█▎        | 1346/10702 [22:13<1:17:32,  2.01it/s] 13%|█▎        | 1347/10702 [22:13<1:17:29,  2.01it/s] 13%|█▎        | 1348/10702 [22:14<1:17:29,  2.01it/s] 13%|█▎        | 1349/10702 [22:14<1:17:35,  2.01it/s] 13%|█▎        | 1350/10702 [22:15<1:17:35,  2.01it/s]{'loss': 4.2226, 'grad_norm': 0.25982773303985596, 'learning_rate': 0.0009979307850009537, 'epoch': 0.13}
+                                                       13%|█▎        | 1350/10702 [22:15<1:17:35,  2.01it/s] 13%|█▎        | 1351/10702 [22:15<1:17:37,  2.01it/s] 13%|█▎        | 1352/10702 [22:16<1:17:35,  2.01it/s] 13%|█▎        | 1353/10702 [22:16<1:17:35,  2.01it/s] 13%|█▎        | 1354/10702 [22:16<1:17:34,  2.01it/s] 13%|█▎        | 1355/10702 [22:17<1:17:34,  2.01it/s] 13%|█▎        | 1356/10702 [22:17<1:17:30,  2.01it/s] 13%|█▎        | 1357/10702 [22:18<1:17:31,  2.01it/s] 13%|█▎        | 1358/10702 [22:18<1:17:22,  2.01it/s] 13%|█▎        | 1359/10702 [22:19<1:17:25,  2.01it/s] 13%|█▎        | 1360/10702 [22:19<1:17:20,  2.01it/s] 13%|█▎        | 1361/10702 [22:20<1:17:22,  2.01it/s] 13%|█▎        | 1362/10702 [22:20<1:17:26,  2.01it/s] 13%|█▎        | 1363/10702 [22:21<1:17:23,  2.01it/s] 13%|█▎        | 1364/10702 [22:21<1:17:22,  2.01it/s] 13%|█▎        | 1365/10702 [22:22<1:17:22,  2.01it/s] 13%|█▎        | 1366/10702 [22:22<1:17:16,  2.01it/s] 13%|█▎        | 1367/10702 [22:23<1:17:24,  2.01it/s] 13%|█▎        | 1368/10702 [22:23<1:17:18,  2.01it/s] 13%|█▎        | 1369/10702 [22:24<1:17:17,  2.01it/s] 13%|█▎        | 1370/10702 [22:24<1:17:28,  2.01it/s] 13%|█▎        | 1371/10702 [22:25<1:17:27,  2.01it/s] 13%|█▎        | 1372/10702 [22:25<1:17:21,  2.01it/s] 13%|█▎        | 1373/10702 [22:26<1:17:23,  2.01it/s] 13%|█▎        | 1374/10702 [22:26<1:17:20,  2.01it/s] 13%|█▎        | 1375/10702 [22:27<1:17:21,  2.01it/s]                                                      {'loss': 4.2036, 'grad_norm': 0.256942480802536, 'learning_rate': 0.0009975436613409816, 'epoch': 0.13}
+ 13%|█▎        | 1375/10702 [22:27<1:17:21,  2.01it/s] 13%|█▎        | 1376/10702 [22:27<1:17:30,  2.01it/s] 13%|█▎        | 1377/10702 [22:28<1:17:29,  2.01it/s] 13%|█▎        | 1378/10702 [22:28<1:17:23,  2.01it/s] 13%|█▎        | 1379/10702 [22:29<1:17:24,  2.01it/s] 13%|█▎        | 1380/10702 [22:29<1:17:27,  2.01it/s] 13%|█▎        | 1381/10702 [22:30<1:17:21,  2.01it/s] 13%|█▎        | 1382/10702 [22:30<1:17:20,  2.01it/s] 13%|█▎        | 1383/10702 [22:31<1:17:25,  2.01it/s] 13%|█▎        | 1384/10702 [22:31<1:17:23,  2.01it/s] 13%|█▎        | 1385/10702 [22:32<1:17:16,  2.01it/s] 13%|█▎        | 1386/10702 [22:32<1:17:16,  2.01it/s] 13%|█▎        | 1387/10702 [22:33<1:17:15,  2.01it/s] 13%|█▎        | 1388/10702 [22:33<1:17:16,  2.01it/s] 13%|█▎        | 1389/10702 [22:34<1:17:19,  2.01it/s] 13%|█▎        | 1390/10702 [22:34<1:17:15,  2.01it/s] 13%|█▎        | 1391/10702 [22:35<1:17:19,  2.01it/s] 13%|█▎        | 1392/10702 [22:35<1:17:23,  2.00it/s] 13%|█▎        | 1393/10702 [22:36<1:17:25,  2.00it/s] 13%|█▎        | 1394/10702 [22:36<1:17:21,  2.01it/s] 13%|█▎        | 1395/10702 [22:37<1:17:21,  2.01it/s] 13%|█▎        | 1396/10702 [22:37<1:17:20,  2.01it/s] 13%|█▎        | 1397/10702 [22:38<1:17:14,  2.01it/s] 13%|█▎        | 1398/10702 [22:38<1:17:21,  2.00it/s] 13%|█▎        | 1399/10702 [22:39<1:17:19,  2.01it/s] 13%|█▎        | 1400/10702 [22:39<1:17:17,  2.01it/s]{'loss': 4.1935, 'grad_norm': 0.2602507472038269, 'learning_rate': 0.00099712345004131, 'epoch': 0.13}
+                                                       13%|█▎        | 1400/10702 [22:39<1:17:17,  2.01it/s] 13%|█▎        | 1401/10702 [22:40<1:17:19,  2.00it/s] 13%|█▎        | 1402/10702 [22:40<1:17:13,  2.01it/s] 13%|█▎        | 1403/10702 [22:41<1:17:12,  2.01it/s] 13%|█▎        | 1404/10702 [22:41<1:17:09,  2.01it/s] 13%|█▎        | 1405/10702 [22:42<1:17:07,  2.01it/s] 13%|█▎        | 1406/10702 [22:42<1:17:06,  2.01it/s] 13%|█▎        | 1407/10702 [22:43<1:17:07,  2.01it/s] 13%|█▎        | 1408/10702 [22:43<1:17:13,  2.01it/s] 13%|█▎        | 1409/10702 [22:44<1:17:08,  2.01it/s] 13%|█▎        | 1410/10702 [22:44<1:17:12,  2.01it/s] 13%|█▎        | 1411/10702 [22:45<1:17:11,  2.01it/s] 13%|█▎        | 1412/10702 [22:45<1:17:02,  2.01it/s] 13%|█▎        | 1413/10702 [22:46<1:17:00,  2.01it/s] 13%|█▎        | 1414/10702 [22:46<1:17:03,  2.01it/s] 13%|█▎        | 1415/10702 [22:47<1:17:07,  2.01it/s] 13%|█▎        | 1416/10702 [22:47<1:17:01,  2.01it/s] 13%|█▎        | 1417/10702 [22:48<1:17:01,  2.01it/s] 13%|█▎        | 1418/10702 [22:48<1:16:58,  2.01it/s] 13%|█▎        | 1419/10702 [22:49<1:16:56,  2.01it/s] 13%|█▎        | 1420/10702 [22:49<1:16:56,  2.01it/s] 13%|█▎        | 1421/10702 [22:50<1:16:59,  2.01it/s] 13%|█▎        | 1422/10702 [22:50<1:16:57,  2.01it/s] 13%|█▎        | 1423/10702 [22:51<1:16:52,  2.01it/s] 13%|█▎        | 1424/10702 [22:51<1:16:52,  2.01it/s] 13%|█▎        | 1425/10702 [22:52<1:16:52,  2.01it/s]{'loss': 4.1769, 'grad_norm': 0.24486635625362396, 'learning_rate': 0.000996670179046823, 'epoch': 0.13}
+                                                       13%|█▎        | 1425/10702 [22:52<1:16:52,  2.01it/s] 13%|█▎        | 1426/10702 [22:52<1:16:59,  2.01it/s] 13%|█▎        | 1427/10702 [22:53<1:16:59,  2.01it/s] 13%|█▎        | 1428/10702 [22:53<1:16:56,  2.01it/s] 13%|█▎        | 1429/10702 [22:54<1:16:51,  2.01it/s] 13%|█▎        | 1430/10702 [22:54<1:16:48,  2.01it/s] 13%|█▎        | 1431/10702 [22:55<1:16:49,  2.01it/s] 13%|█▎        | 1432/10702 [22:55<1:16:48,  2.01it/s] 13%|█▎        | 1433/10702 [22:56<1:16:44,  2.01it/s] 13%|█▎        | 1434/10702 [22:56<1:16:51,  2.01it/s] 13%|█▎        | 1435/10702 [22:57<1:16:53,  2.01it/s] 13%|█▎        | 1436/10702 [22:57<1:16:54,  2.01it/s] 13%|█▎        | 1437/10702 [22:58<1:16:59,  2.01it/s] 13%|█▎        | 1438/10702 [22:58<1:16:54,  2.01it/s] 13%|█▎        | 1439/10702 [22:59<1:16:52,  2.01it/s] 13%|█▎        | 1440/10702 [22:59<1:16:43,  2.01it/s] 13%|█▎        | 1441/10702 [23:00<1:16:46,  2.01it/s] 13%|█▎        | 1442/10702 [23:00<1:16:47,  2.01it/s] 13%|█▎        | 1443/10702 [23:01<1:16:40,  2.01it/s] 13%|█▎        | 1444/10702 [23:01<1:16:43,  2.01it/s] 14%|█▎        | 1445/10702 [23:02<1:16:38,  2.01it/s] 14%|█▎        | 1446/10702 [23:02<1:16:41,  2.01it/s] 14%|█▎        | 1447/10702 [23:03<1:16:41,  2.01it/s] 14%|█▎        | 1448/10702 [23:03<1:17:30,  1.99it/s] 14%|█▎        | 1449/10702 [23:04<1:17:18,  1.99it/s] 14%|█▎        | 1450/10702 [23:04<1:17:03,  2.00it/s]{'loss': 4.1777, 'grad_norm': 0.2556625008583069, 'learning_rate': 0.0009961838785009407, 'epoch': 0.14}                                                      
+ 14%|█▎        | 1450/10702 [23:04<1:17:03,  2.00it/s] 14%|█▎        | 1451/10702 [23:05<1:17:04,  2.00it/s] 14%|█▎        | 1452/10702 [23:05<1:16:56,  2.00it/s] 14%|█▎        | 1453/10702 [23:06<1:16:48,  2.01it/s] 14%|█▎        | 1454/10702 [23:06<1:16:40,  2.01it/s] 14%|█▎        | 1455/10702 [23:07<1:16:40,  2.01it/s] 14%|█▎        | 1456/10702 [23:07<1:16:44,  2.01it/s] 14%|█▎        | 1457/10702 [23:08<1:16:42,  2.01it/s] 14%|█▎        | 1458/10702 [23:08<1:16:44,  2.01it/s] 14%|█▎        | 1459/10702 [23:09<1:16:39,  2.01it/s] 14%|█▎        | 1460/10702 [23:09<1:16:41,  2.01it/s] 14%|█▎        | 1461/10702 [23:10<1:16:37,  2.01it/s] 14%|█▎        | 1462/10702 [23:10<1:16:33,  2.01it/s] 14%|█▎        | 1463/10702 [23:11<1:16:31,  2.01it/s] 14%|█▎        | 1464/10702 [23:11<1:16:33,  2.01it/s] 14%|█▎        | 1465/10702 [23:12<1:16:32,  2.01it/s] 14%|█▎        | 1466/10702 [23:12<1:16:34,  2.01it/s] 14%|█▎        | 1467/10702 [23:13<1:16:33,  2.01it/s] 14%|█▎        | 1468/10702 [23:13<1:16:32,  2.01it/s] 14%|█▎        | 1469/10702 [23:14<1:16:25,  2.01it/s] 14%|█▎        | 1470/10702 [23:14<1:16:30,  2.01it/s] 14%|█▎        | 1471/10702 [23:15<1:16:28,  2.01it/s] 14%|█▍        | 1472/10702 [23:15<1:16:27,  2.01it/s] 14%|█▍        | 1473/10702 [23:16<1:16:27,  2.01it/s] 14%|█▍        | 1474/10702 [23:16<1:16:27,  2.01it/s] 14%|█▍        | 1475/10702 [23:17<1:16:31,  2.01it/s]                                                      {'loss': 4.1725, 'grad_norm': 0.253532350063324, 'learning_rate': 0.0009956645807436132, 'epoch': 0.14}
+ 14%|█▍        | 1475/10702 [23:17<1:16:31,  2.01it/s] 14%|█▍        | 1476/10702 [23:17<1:16:38,  2.01it/s] 14%|█▍        | 1477/10702 [23:18<1:16:37,  2.01it/s] 14%|█▍        | 1478/10702 [23:18<1:16:41,  2.00it/s] 14%|█▍        | 1479/10702 [23:19<1:16:41,  2.00it/s] 14%|█▍        | 1480/10702 [23:19<1:16:33,  2.01it/s] 14%|█▍        | 1481/10702 [23:20<1:16:28,  2.01it/s] 14%|█▍        | 1482/10702 [23:20<1:16:28,  2.01it/s] 14%|█▍        | 1483/10702 [23:21<1:16:23,  2.01it/s] 14%|█▍        | 1484/10702 [23:21<1:16:23,  2.01it/s] 14%|█▍        | 1485/10702 [23:22<1:16:18,  2.01it/s] 14%|█▍        | 1486/10702 [23:22<1:16:22,  2.01it/s] 14%|█▍        | 1487/10702 [23:23<1:16:21,  2.01it/s] 14%|█▍        | 1488/10702 [23:23<1:16:13,  2.01it/s] 14%|█▍        | 1489/10702 [23:24<1:16:15,  2.01it/s] 14%|█▍        | 1490/10702 [23:24<1:16:11,  2.02it/s] 14%|█▍        | 1491/10702 [23:25<1:16:14,  2.01it/s] 14%|█▍        | 1492/10702 [23:25<1:16:13,  2.01it/s] 14%|█▍        | 1493/10702 [23:26<1:16:13,  2.01it/s] 14%|█▍        | 1494/10702 [23:26<1:16:17,  2.01it/s] 14%|█▍        | 1495/10702 [23:27<1:16:15,  2.01it/s] 14%|█▍        | 1496/10702 [23:27<1:16:20,  2.01it/s] 14%|█▍        | 1497/10702 [23:28<1:16:21,  2.01it/s] 14%|█▍        | 1498/10702 [23:28<1:16:18,  2.01it/s] 14%|█▍        | 1499/10702 [23:29<1:16:20,  2.01it/s] 14%|█▍        | 1500/10702 [23:29<1:16:23,  2.01it/s]                                                      {'loss': 4.1543, 'grad_norm': 0.23861169815063477, 'learning_rate': 0.0009951123203091705, 'epoch': 0.14}
+ 14%|█▍        | 1500/10702 [23:29<1:16:23,  2.01it/s] 14%|█▍        | 1501/10702 [23:30<1:16:32,  2.00it/s] 14%|█▍        | 1502/10702 [23:30<1:16:26,  2.01it/s] 14%|█▍        | 1503/10702 [23:31<1:16:23,  2.01it/s] 14%|█▍        | 1504/10702 [23:31<1:16:22,  2.01it/s] 14%|█▍        | 1505/10702 [23:32<1:17:16,  1.98it/s] 14%|█▍        | 1506/10702 [23:32<1:16:58,  1.99it/s] 14%|█▍        | 1507/10702 [23:33<1:16:50,  1.99it/s] 14%|█▍        | 1508/10702 [23:33<1:16:36,  2.00it/s] 14%|█▍        | 1509/10702 [23:34<1:16:33,  2.00it/s] 14%|█▍        | 1510/10702 [23:34<1:16:27,  2.00it/s] 14%|█▍        | 1511/10702 [23:35<1:16:19,  2.01it/s] 14%|█▍        | 1512/10702 [23:35<1:16:14,  2.01it/s] 14%|█▍        | 1513/10702 [23:36<1:16:15,  2.01it/s] 14%|█▍        | 1514/10702 [23:36<1:16:08,  2.01it/s] 14%|█▍        | 1515/10702 [23:37<1:16:11,  2.01it/s] 14%|█▍        | 1516/10702 [23:37<1:16:17,  2.01it/s] 14%|█▍        | 1517/10702 [23:38<1:16:11,  2.01it/s] 14%|█▍        | 1518/10702 [23:38<1:16:09,  2.01it/s] 14%|█▍        | 1519/10702 [23:39<1:16:07,  2.01it/s] 14%|█▍        | 1520/10702 [23:39<1:16:02,  2.01it/s] 14%|█▍        | 1521/10702 [23:40<1:16:04,  2.01it/s] 14%|█▍        | 1522/10702 [23:40<1:16:00,  2.01it/s] 14%|█▍        | 1523/10702 [23:41<1:16:04,  2.01it/s] 14%|█▍        | 1524/10702 [23:41<1:16:12,  2.01it/s] 14%|█▍        | 1525/10702 [23:42<1:16:07,  2.01it/s]{'loss': 4.1428, 'grad_norm': 0.25985705852508545, 'learning_rate': 0.0009945271339240262, 'epoch': 0.14}
+                                                       14%|█▍        | 1525/10702 [23:42<1:16:07,  2.01it/s] 14%|█▍        | 1526/10702 [23:42<1:16:09,  2.01it/s] 14%|█▍        | 1527/10702 [23:43<1:16:14,  2.01it/s] 14%|█▍        | 1528/10702 [23:43<1:16:12,  2.01it/s] 14%|█▍        | 1529/10702 [23:44<1:16:10,  2.01it/s] 14%|█▍        | 1530/10702 [23:44<1:16:08,  2.01it/s] 14%|█▍        | 1531/10702 [23:45<1:16:03,  2.01it/s] 14%|█▍        | 1532/10702 [23:45<1:15:59,  2.01it/s] 14%|█▍        | 1533/10702 [23:46<1:16:01,  2.01it/s] 14%|█▍        | 1534/10702 [23:46<1:15:58,  2.01it/s] 14%|█▍        | 1535/10702 [23:47<1:15:58,  2.01it/s] 14%|█▍        | 1536/10702 [23:47<1:15:59,  2.01it/s] 14%|█▍        | 1537/10702 [23:48<1:15:52,  2.01it/s] 14%|█▍        | 1538/10702 [23:48<1:16:49,  1.99it/s] 14%|█▍        | 1539/10702 [23:49<1:16:39,  1.99it/s] 14%|█▍        | 1540/10702 [23:49<1:16:22,  2.00it/s] 14%|█▍        | 1541/10702 [23:50<1:16:16,  2.00it/s] 14%|█▍        | 1542/10702 [23:50<1:16:08,  2.01it/s] 14%|█▍        | 1543/10702 [23:51<1:16:02,  2.01it/s] 14%|█▍        | 1544/10702 [23:51<1:15:56,  2.01it/s] 14%|█▍        | 1545/10702 [23:52<1:15:59,  2.01it/s] 14%|█▍        | 1546/10702 [23:52<1:15:58,  2.01it/s] 14%|█▍        | 1547/10702 [23:53<1:15:56,  2.01it/s] 14%|█▍        | 1548/10702 [23:53<1:15:51,  2.01it/s] 14%|█▍        | 1549/10702 [23:54<1:15:52,  2.01it/s] 14%|█▍        | 1550/10702 [23:54<1:15:52,  2.01it/s]{'loss': 4.1339, 'grad_norm': 0.2462104707956314, 'learning_rate': 0.000993909060504235, 'epoch': 0.14}
+                                                       14%|█▍        | 1550/10702 [23:54<1:15:52,  2.01it/s] 14%|█▍        | 1551/10702 [23:55<1:15:54,  2.01it/s] 15%|█▍        | 1552/10702 [23:55<1:15:55,  2.01it/s] 15%|█▍        | 1553/10702 [23:56<1:15:57,  2.01it/s] 15%|█▍        | 1554/10702 [23:56<1:15:56,  2.01it/s] 15%|█▍        | 1555/10702 [23:57<1:15:52,  2.01it/s] 15%|█▍        | 1556/10702 [23:57<1:15:49,  2.01it/s] 15%|█▍        | 1557/10702 [23:58<1:15:43,  2.01it/s] 15%|█▍        | 1558/10702 [23:58<1:15:47,  2.01it/s] 15%|█▍        | 1559/10702 [23:59<1:15:44,  2.01it/s] 15%|█▍        | 1560/10702 [23:59<1:15:42,  2.01it/s] 15%|█▍        | 1561/10702 [24:00<1:15:43,  2.01it/s] 15%|█▍        | 1562/10702 [24:00<1:17:22,  1.97it/s] 15%|█▍        | 1563/10702 [24:01<1:17:23,  1.97it/s] 15%|█▍        | 1564/10702 [24:01<1:16:52,  1.98it/s] 15%|█▍        | 1565/10702 [24:02<1:16:32,  1.99it/s] 15%|█▍        | 1566/10702 [24:02<1:16:16,  2.00it/s] 15%|█▍        | 1567/10702 [24:03<1:16:06,  2.00it/s] 15%|█▍        | 1568/10702 [24:03<1:16:45,  1.98it/s] 15%|█▍        | 1569/10702 [24:04<1:16:25,  1.99it/s] 15%|█▍        | 1570/10702 [24:04<1:16:15,  2.00it/s] 15%|█▍        | 1571/10702 [24:05<1:16:03,  2.00it/s] 15%|█▍        | 1572/10702 [24:05<1:16:00,  2.00it/s] 15%|█▍        | 1573/10702 [24:06<1:15:52,  2.01it/s] 15%|█▍        | 1574/10702 [24:06<1:15:47,  2.01it/s] 15%|█▍        | 1575/10702 [24:07<1:17:55,  1.95it/s]                                                      {'loss': 4.1262, 'grad_norm': 0.23722991347312927, 'learning_rate': 0.0009932581411529044, 'epoch': 0.15}
+ 15%|█▍        | 1575/10702 [24:07<1:17:55,  1.95it/s] 15%|█▍        | 1576/10702 [24:07<1:17:20,  1.97it/s] 15%|█▍        | 1577/10702 [24:08<1:18:21,  1.94it/s] 15%|█▍        | 1578/10702 [24:08<1:17:28,  1.96it/s] 15%|█▍        | 1579/10702 [24:09<1:16:52,  1.98it/s] 15%|█▍        | 1580/10702 [24:09<1:16:35,  1.98it/s] 15%|█▍        | 1581/10702 [24:10<1:16:11,  2.00it/s] 15%|█▍        | 1582/10702 [24:10<1:16:09,  2.00it/s] 15%|█▍        | 1583/10702 [24:11<1:16:01,  2.00it/s] 15%|█▍        | 1584/10702 [24:11<1:15:50,  2.00it/s] 15%|█▍        | 1585/10702 [24:12<1:15:47,  2.01it/s] 15%|█▍        | 1586/10702 [24:12<1:15:56,  2.00it/s] 15%|█▍        | 1587/10702 [24:13<1:15:46,  2.00it/s] 15%|█▍        | 1588/10702 [24:13<1:15:41,  2.01it/s] 15%|█▍        | 1589/10702 [24:14<1:15:31,  2.01it/s] 15%|█▍        | 1590/10702 [24:14<1:15:31,  2.01it/s] 15%|█▍        | 1591/10702 [24:15<1:15:32,  2.01it/s] 15%|█▍        | 1592/10702 [24:15<1:15:29,  2.01it/s] 15%|█▍        | 1593/10702 [24:16<1:15:26,  2.01it/s] 15%|█▍        | 1594/10702 [24:16<1:15:26,  2.01it/s] 15%|█▍        | 1595/10702 [24:17<1:15:24,  2.01it/s] 15%|█▍        | 1596/10702 [24:17<1:15:27,  2.01it/s] 15%|█▍        | 1597/10702 [24:18<1:15:29,  2.01it/s] 15%|█▍        | 1598/10702 [24:18<1:15:23,  2.01it/s] 15%|█▍        | 1599/10702 [24:19<1:15:20,  2.01it/s] 15%|█▍        | 1600/10702 [24:19<1:15:17,  2.01it/s]{'loss': 4.1232, 'grad_norm': 0.23960278928279877, 'learning_rate': 0.0009925744191574615, 'epoch': 0.15}
+                                                       15%|█▍        | 1600/10702 [24:19<1:15:17,  2.01it/s] 15%|█▍        | 1601/10702 [24:20<1:15:22,  2.01it/s] 15%|█▍        | 1602/10702 [24:20<1:15:22,  2.01it/s] 15%|█▍        | 1603/10702 [24:21<1:15:20,  2.01it/s] 15%|█▍        | 1604/10702 [24:21<1:15:24,  2.01it/s] 15%|█▍        | 1605/10702 [24:22<1:15:23,  2.01it/s] 15%|█▌        | 1606/10702 [24:22<1:15:15,  2.01it/s] 15%|█▌        | 1607/10702 [24:23<1:15:19,  2.01it/s] 15%|█▌        | 1608/10702 [24:23<1:15:14,  2.01it/s] 15%|█▌        | 1609/10702 [24:24<1:15:11,  2.02it/s] 15%|█▌        | 1610/10702 [24:24<1:15:19,  2.01it/s] 15%|█▌        | 1611/10702 [24:25<1:15:17,  2.01it/s] 15%|█▌        | 1612/10702 [24:25<1:15:17,  2.01it/s] 15%|█▌        | 1613/10702 [24:26<1:15:14,  2.01it/s] 15%|█▌        | 1614/10702 [24:26<1:17:17,  1.96it/s] 15%|█▌        | 1615/10702 [24:27<1:16:42,  1.97it/s] 15%|█▌        | 1616/10702 [24:27<1:16:15,  1.99it/s] 15%|█▌        | 1617/10702 [24:28<1:15:58,  1.99it/s] 15%|█▌        | 1618/10702 [24:28<1:15:47,  2.00it/s] 15%|█▌        | 1619/10702 [24:29<1:15:37,  2.00it/s] 15%|█▌        | 1620/10702 [24:29<1:15:25,  2.01it/s] 15%|█▌        | 1621/10702 [24:30<1:15:26,  2.01it/s] 15%|█▌        | 1622/10702 [24:30<1:15:16,  2.01it/s] 15%|█▌        | 1623/10702 [24:31<1:15:12,  2.01it/s] 15%|█▌        | 1624/10702 [24:31<1:15:09,  2.01it/s] 15%|█▌        | 1625/10702 [24:32<1:15:07,  2.01it/s]                                                      {'loss': 4.1048, 'grad_norm': 0.22985079884529114, 'learning_rate': 0.000991857939986774, 'epoch': 0.15}
+ 15%|█▌        | 1625/10702 [24:32<1:15:07,  2.01it/s] 15%|█▌        | 1626/10702 [24:32<1:15:15,  2.01it/s] 15%|█▌        | 1627/10702 [24:33<1:15:18,  2.01it/s] 15%|█▌        | 1628/10702 [24:33<1:15:11,  2.01it/s] 15%|█▌        | 1629/10702 [24:34<1:15:09,  2.01it/s] 15%|█▌        | 1630/10702 [24:34<1:16:10,  1.99it/s] 15%|█▌        | 1631/10702 [24:35<1:15:50,  1.99it/s] 15%|█▌        | 1632/10702 [24:35<1:15:41,  2.00it/s] 15%|█▌        | 1633/10702 [24:36<1:15:30,  2.00it/s] 15%|█▌        | 1634/10702 [24:36<1:15:20,  2.01it/s] 15%|█▌        | 1635/10702 [24:37<1:15:21,  2.01it/s] 15%|█▌        | 1636/10702 [24:37<1:15:13,  2.01it/s] 15%|█▌        | 1637/10702 [24:38<1:15:09,  2.01it/s] 15%|█▌        | 1638/10702 [24:38<1:15:10,  2.01it/s] 15%|█▌        | 1639/10702 [24:39<1:15:05,  2.01it/s] 15%|█▌        | 1640/10702 [24:39<1:15:05,  2.01it/s] 15%|█▌        | 1641/10702 [24:40<1:15:02,  2.01it/s] 15%|█▌        | 1642/10702 [24:40<1:14:59,  2.01it/s] 15%|█▌        | 1643/10702 [24:41<1:15:01,  2.01it/s] 15%|█▌        | 1644/10702 [24:41<1:14:57,  2.01it/s] 15%|█▌        | 1645/10702 [24:42<1:14:56,  2.01it/s] 15%|█▌        | 1646/10702 [24:42<1:15:00,  2.01it/s] 15%|█▌        | 1647/10702 [24:43<1:14:56,  2.01it/s] 15%|█▌        | 1648/10702 [24:43<1:14:59,  2.01it/s] 15%|█▌        | 1649/10702 [24:44<1:17:04,  1.96it/s] 15%|█▌        | 1650/10702 [24:44<1:16:25,  1.97it/s]{'loss': 4.1033, 'grad_norm': 0.22881998121738434, 'learning_rate': 0.0009911087512881273, 'epoch': 0.15}
+                                                       15%|█▌        | 1650/10702 [24:44<1:16:25,  1.97it/s] 15%|█▌        | 1651/10702 [24:45<1:16:09,  1.98it/s] 15%|█▌        | 1652/10702 [24:45<1:15:50,  1.99it/s] 15%|█▌        | 1653/10702 [24:46<1:15:32,  2.00it/s] 15%|█▌        | 1654/10702 [24:46<1:15:19,  2.00it/s] 15%|█▌        | 1655/10702 [24:47<1:15:14,  2.00it/s] 15%|█▌        | 1656/10702 [24:47<1:15:04,  2.01it/s] 15%|█▌        | 1657/10702 [24:48<1:15:01,  2.01it/s] 15%|█▌        | 1658/10702 [24:48<1:14:55,  2.01it/s] 16%|█▌        | 1659/10702 [24:49<1:14:55,  2.01it/s] 16%|█▌        | 1660/10702 [24:49<1:14:55,  2.01it/s] 16%|█▌        | 1661/10702 [24:50<1:14:52,  2.01it/s] 16%|█▌        | 1662/10702 [24:50<1:14:51,  2.01it/s] 16%|█▌        | 1663/10702 [24:51<1:14:50,  2.01it/s] 16%|█▌        | 1664/10702 [24:51<1:14:50,  2.01it/s] 16%|█▌        | 1665/10702 [24:52<1:14:48,  2.01it/s] 16%|█▌        | 1666/10702 [24:52<1:14:48,  2.01it/s] 16%|█▌        | 1667/10702 [24:53<1:14:53,  2.01it/s] 16%|█▌        | 1668/10702 [24:53<1:14:50,  2.01it/s] 16%|█▌        | 1669/10702 [24:54<1:14:50,  2.01it/s] 16%|█▌        | 1670/10702 [24:54<1:14:49,  2.01it/s] 16%|█▌        | 1671/10702 [24:55<1:14:46,  2.01it/s] 16%|█▌        | 1672/10702 [24:55<1:14:48,  2.01it/s] 16%|█▌        | 1673/10702 [24:55<1:14:45,  2.01it/s] 16%|█▌        | 1674/10702 [24:56<1:15:32,  1.99it/s] 16%|█▌        | 1675/10702 [24:57<1:15:19,  2.00it/s]                                                      {'loss': 4.0913, 'grad_norm': 0.23617886006832123, 'learning_rate': 0.000990326902884055, 'epoch': 0.16}
+ 16%|█▌        | 1675/10702 [24:57<1:15:19,  2.00it/s] 16%|█▌        | 1676/10702 [24:57<1:15:15,  2.00it/s] 16%|█▌        | 1677/10702 [24:58<1:15:05,  2.00it/s] 16%|█▌        | 1678/10702 [24:58<1:14:59,  2.01it/s] 16%|█▌        | 1679/10702 [24:58<1:14:52,  2.01it/s] 16%|█▌        | 1680/10702 [24:59<1:14:48,  2.01it/s] 16%|█▌        | 1681/10702 [25:00<1:16:48,  1.96it/s] 16%|█▌        | 1682/10702 [25:00<1:16:08,  1.97it/s] 16%|█▌        | 1683/10702 [25:01<1:15:44,  1.98it/s] 16%|█▌        | 1684/10702 [25:01<1:15:31,  1.99it/s] 16%|█▌        | 1685/10702 [25:02<1:15:15,  2.00it/s] 16%|█▌        | 1686/10702 [25:02<1:15:04,  2.00it/s] 16%|█▌        | 1687/10702 [25:03<1:14:54,  2.01it/s] 16%|█▌        | 1688/10702 [25:03<1:14:49,  2.01it/s] 16%|█▌        | 1689/10702 [25:04<1:14:46,  2.01it/s] 16%|█▌        | 1690/10702 [25:04<1:14:42,  2.01it/s] 16%|█▌        | 1691/10702 [25:05<1:14:44,  2.01it/s] 16%|█▌        | 1692/10702 [25:05<1:15:29,  1.99it/s] 16%|█▌        | 1693/10702 [25:06<1:17:19,  1.94it/s] 16%|█▌        | 1694/10702 [25:06<1:16:30,  1.96it/s] 16%|█▌        | 1695/10702 [25:07<1:15:57,  1.98it/s] 16%|█▌        | 1696/10702 [25:07<1:15:30,  1.99it/s] 16%|█▌        | 1697/10702 [25:08<1:15:11,  2.00it/s] 16%|█▌        | 1698/10702 [25:08<1:14:54,  2.00it/s] 16%|█▌        | 1699/10702 [25:09<1:14:51,  2.00it/s] 16%|█▌        | 1700/10702 [25:09<1:14:47,  2.01it/s]                                                      {'loss': 4.0875, 'grad_norm': 0.2644418478012085, 'learning_rate': 0.0009895124467690253, 'epoch': 0.16}
+ 16%|█▌        | 1700/10702 [25:09<1:14:47,  2.01it/s] 16%|█▌        | 1701/10702 [25:10<1:14:46,  2.01it/s] 16%|█▌        | 1702/10702 [25:10<1:14:42,  2.01it/s] 16%|█▌        | 1703/10702 [25:11<1:14:41,  2.01it/s] 16%|█▌        | 1704/10702 [25:11<1:14:31,  2.01it/s] 16%|█▌        | 1705/10702 [25:12<1:14:35,  2.01it/s] 16%|█▌        | 1706/10702 [25:12<1:14:33,  2.01it/s] 16%|█▌        | 1707/10702 [25:13<1:14:33,  2.01it/s] 16%|█▌        | 1708/10702 [25:13<1:14:29,  2.01it/s] 16%|█▌        | 1709/10702 [25:14<1:14:27,  2.01it/s] 16%|█▌        | 1710/10702 [25:14<1:14:29,  2.01it/s] 16%|█▌        | 1711/10702 [25:15<1:14:30,  2.01it/s] 16%|█▌        | 1712/10702 [25:15<1:14:34,  2.01it/s] 16%|█▌        | 1713/10702 [25:16<1:14:33,  2.01it/s] 16%|█▌        | 1714/10702 [25:16<1:14:27,  2.01it/s] 16%|█▌        | 1715/10702 [25:17<1:14:33,  2.01it/s] 16%|█▌        | 1716/10702 [25:17<1:14:32,  2.01it/s] 16%|█▌        | 1717/10702 [25:17<1:14:34,  2.01it/s] 16%|█▌        | 1718/10702 [25:18<1:14:24,  2.01it/s] 16%|█▌        | 1719/10702 [25:18<1:14:23,  2.01it/s] 16%|█▌        | 1720/10702 [25:19<1:14:21,  2.01it/s] 16%|█▌        | 1721/10702 [25:19<1:14:21,  2.01it/s] 16%|█▌        | 1722/10702 [25:20<1:14:21,  2.01it/s] 16%|█▌        | 1723/10702 [25:20<1:14:20,  2.01it/s] 16%|█▌        | 1724/10702 [25:21<1:14:21,  2.01it/s] 16%|█▌        | 1725/10702 [25:21<1:14:20,  2.01it/s]                                                      {'loss': 4.0835, 'grad_norm': 0.23324188590049744, 'learning_rate': 0.0009886654371059843, 'epoch': 0.16}
+ 16%|█▌        | 1725/10702 [25:21<1:14:20,  2.01it/s] 16%|█▌        | 1726/10702 [25:22<1:14:28,  2.01it/s] 16%|█▌        | 1727/10702 [25:22<1:14:26,  2.01it/s] 16%|█▌        | 1728/10702 [25:23<1:14:22,  2.01it/s] 16%|█▌        | 1729/10702 [25:23<1:14:18,  2.01it/s] 16%|█▌        | 1730/10702 [25:24<1:14:18,  2.01it/s] 16%|█▌        | 1731/10702 [25:24<1:14:14,  2.01it/s] 16%|█▌        | 1732/10702 [25:25<1:14:12,  2.01it/s] 16%|█▌        | 1733/10702 [25:25<1:14:19,  2.01it/s] 16%|█▌        | 1734/10702 [25:26<1:14:13,  2.01it/s] 16%|█▌        | 1735/10702 [25:26<1:14:14,  2.01it/s] 16%|█▌        | 1736/10702 [25:27<1:14:17,  2.01it/s] 16%|█▌        | 1737/10702 [25:27<1:14:14,  2.01it/s] 16%|█▌        | 1738/10702 [25:28<1:14:16,  2.01it/s] 16%|█▌        | 1739/10702 [25:28<1:14:12,  2.01it/s] 16%|█▋        | 1740/10702 [25:29<1:14:11,  2.01it/s] 16%|█▋        | 1741/10702 [25:29<1:14:14,  2.01it/s] 16%|█▋        | 1742/10702 [25:30<1:14:08,  2.01it/s] 16%|█▋        | 1743/10702 [25:30<1:14:56,  1.99it/s] 16%|█▋        | 1744/10702 [25:31<1:14:46,  2.00it/s] 16%|█▋        | 1745/10702 [25:31<1:15:23,  1.98it/s] 16%|█▋        | 1746/10702 [25:32<1:15:27,  1.98it/s] 16%|█▋        | 1747/10702 [25:32<1:15:06,  1.99it/s] 16%|█▋        | 1748/10702 [25:33<1:14:50,  1.99it/s] 16%|█▋        | 1749/10702 [25:33<1:15:25,  1.98it/s] 16%|█▋        | 1750/10702 [25:34<1:15:04,  1.99it/s]                                                      {'loss': 4.0751, 'grad_norm': 0.22166235744953156, 'learning_rate': 0.000987785930222754, 'epoch': 0.16}
+ 16%|█▋        | 1750/10702 [25:34<1:15:04,  1.99it/s] 16%|█▋        | 1751/10702 [25:34<1:14:46,  1.99it/s] 16%|█▋        | 1752/10702 [25:35<1:16:15,  1.96it/s] 16%|█▋        | 1753/10702 [25:36<1:17:00,  1.94it/s] 16%|█▋        | 1754/10702 [25:36<1:18:06,  1.91it/s] 16%|█▋        | 1755/10702 [25:37<1:17:48,  1.92it/s] 16%|█▋        | 1756/10702 [25:37<1:16:43,  1.94it/s] 16%|█▋        | 1757/10702 [25:38<1:15:52,  1.97it/s] 16%|█▋        | 1758/10702 [25:38<1:15:20,  1.98it/s] 16%|█▋        | 1759/10702 [25:39<1:14:56,  1.99it/s] 16%|█▋        | 1760/10702 [25:39<1:14:40,  2.00it/s] 16%|█▋        | 1761/10702 [25:40<1:14:28,  2.00it/s] 16%|█▋        | 1762/10702 [25:40<1:26:59,  1.71it/s] 16%|█▋        | 1763/10702 [25:41<1:23:01,  1.79it/s] 16%|█▋        | 1764/10702 [25:41<1:21:56,  1.82it/s] 16%|█▋        | 1765/10702 [25:42<1:19:26,  1.87it/s] 17%|█▋        | 1766/10702 [25:42<1:17:50,  1.91it/s] 17%|█▋        | 1767/10702 [25:43<1:16:38,  1.94it/s] 17%|█▋        | 1768/10702 [25:43<1:15:48,  1.96it/s] 17%|█▋        | 1769/10702 [25:44<1:28:11,  1.69it/s] 17%|█▋        | 1770/10702 [25:45<1:24:03,  1.77it/s] 17%|█▋        | 1771/10702 [25:45<1:20:57,  1.84it/s] 17%|█▋        | 1772/10702 [25:46<1:18:54,  1.89it/s] 17%|█▋        | 1773/10702 [25:46<1:17:28,  1.92it/s] 17%|█▋        | 1774/10702 [25:47<1:16:18,  1.95it/s] 17%|█▋        | 1775/10702 [25:47<1:15:34,  1.97it/s]                                                      {'loss': 4.0643, 'grad_norm': 0.23737020790576935, 'learning_rate': 0.000986873984608285, 'epoch': 0.17}
+ 17%|█▋        | 1775/10702 [25:47<1:15:34,  1.97it/s] 17%|█▋        | 1776/10702 [25:48<1:15:34,  1.97it/s] 17%|█▋        | 1777/10702 [25:48<1:15:04,  1.98it/s] 17%|█▋        | 1778/10702 [25:49<1:14:38,  1.99it/s] 17%|█▋        | 1779/10702 [25:49<1:14:32,  2.00it/s] 17%|█▋        | 1780/10702 [25:50<1:14:23,  2.00it/s] 17%|█▋        | 1781/10702 [25:50<1:16:23,  1.95it/s] 17%|█▋        | 1782/10702 [25:51<1:15:35,  1.97it/s] 17%|█▋        | 1783/10702 [25:51<1:15:05,  1.98it/s] 17%|█▋        | 1784/10702 [25:52<1:14:39,  1.99it/s] 17%|█▋        | 1785/10702 [25:52<1:15:26,  1.97it/s] 17%|█▋        | 1786/10702 [25:53<1:14:58,  1.98it/s] 17%|█▋        | 1787/10702 [25:53<1:15:14,  1.97it/s] 17%|█▋        | 1788/10702 [25:54<1:15:38,  1.96it/s] 17%|█▋        | 1789/10702 [25:54<1:15:44,  1.96it/s] 17%|█▋        | 1790/10702 [25:55<1:15:23,  1.97it/s] 17%|█▋        | 1791/10702 [25:55<1:15:15,  1.97it/s] 17%|█▋        | 1792/10702 [25:56<1:15:37,  1.96it/s] 17%|█▋        | 1793/10702 [25:56<1:15:16,  1.97it/s] 17%|█▋        | 1794/10702 [25:57<1:14:59,  1.98it/s] 17%|█▋        | 1795/10702 [25:57<1:15:21,  1.97it/s] 17%|█▋        | 1796/10702 [25:58<1:15:37,  1.96it/s] 17%|█▋        | 1797/10702 [25:58<1:15:12,  1.97it/s] 17%|█▋        | 1798/10702 [25:59<1:14:48,  1.98it/s] 17%|█▋        | 1799/10702 [25:59<1:14:34,  1.99it/s] 17%|█▋        | 1800/10702 [26:00<1:14:20,  2.00it/s]{'loss': 4.0602, 'grad_norm': 0.22007587552070618, 'learning_rate': 0.0009859296609087684, 'epoch': 0.17}                                                      
+ 17%|█▋        | 1800/10702 [26:00<1:14:20,  2.00it/s] 17%|█▋        | 1801/10702 [26:00<1:14:13,  2.00it/s] 17%|█▋        | 1802/10702 [26:01<1:15:19,  1.97it/s] 17%|█▋        | 1803/10702 [26:01<1:14:49,  1.98it/s] 17%|█▋        | 1804/10702 [26:02<1:14:34,  1.99it/s] 17%|█▋        | 1805/10702 [26:02<1:15:00,  1.98it/s] 17%|█▋        | 1806/10702 [26:03<1:15:21,  1.97it/s] 17%|█▋        | 1807/10702 [26:03<1:14:49,  1.98it/s] 17%|█▋        | 1808/10702 [26:04<1:14:35,  1.99it/s] 17%|█▋        | 1809/10702 [26:04<1:14:28,  1.99it/s] 17%|█▋        | 1810/10702 [26:05<1:14:12,  2.00it/s] 17%|█▋        | 1811/10702 [26:05<1:14:07,  2.00it/s] 17%|█▋        | 1812/10702 [26:06<1:14:04,  2.00it/s] 17%|█▋        | 1813/10702 [26:06<1:13:56,  2.00it/s] 17%|█▋        | 1814/10702 [26:07<1:13:49,  2.01it/s] 17%|█▋        | 1815/10702 [26:07<1:13:48,  2.01it/s] 17%|█▋        | 1816/10702 [26:08<1:13:49,  2.01it/s] 17%|█▋        | 1817/10702 [26:08<1:13:43,  2.01it/s] 17%|█▋        | 1818/10702 [26:09<1:13:51,  2.00it/s] 17%|█▋        | 1819/10702 [26:09<1:13:46,  2.01it/s] 17%|█▋        | 1820/10702 [26:10<1:14:52,  1.98it/s] 17%|█▋        | 1821/10702 [26:10<1:14:21,  1.99it/s] 17%|█▋        | 1822/10702 [26:11<1:14:07,  2.00it/s] 17%|█▋        | 1823/10702 [26:11<1:14:31,  1.99it/s] 17%|█▋        | 1824/10702 [26:12<1:14:17,  1.99it/s] 17%|█▋        | 1825/10702 [26:12<1:13:59,  2.00it/s]                                                      {'loss': 4.0495, 'grad_norm': 0.23491741716861725, 'learning_rate': 0.000984953021923602, 'epoch': 0.17}
+ 17%|█▋        | 1825/10702 [26:12<1:13:59,  2.00it/s] 17%|█▋        | 1826/10702 [26:13<1:13:54,  2.00it/s] 17%|█▋        | 1827/10702 [26:13<1:13:47,  2.00it/s] 17%|█▋        | 1828/10702 [26:14<1:13:39,  2.01it/s] 17%|█▋        | 1829/10702 [26:14<1:21:16,  1.82it/s] 17%|█▋        | 1830/10702 [26:15<1:18:56,  1.87it/s] 17%|█▋        | 1831/10702 [26:15<1:17:19,  1.91it/s] 17%|█▋        | 1832/10702 [26:16<1:19:16,  1.86it/s] 17%|█▋        | 1833/10702 [26:17<1:17:27,  1.91it/s] 17%|█▋        | 1834/10702 [26:17<1:16:12,  1.94it/s] 17%|█▋        | 1835/10702 [26:18<1:15:19,  1.96it/s] 17%|█▋        | 1836/10702 [26:18<1:14:46,  1.98it/s] 17%|█▋        | 1837/10702 [26:19<1:14:21,  1.99it/s] 17%|█▋        | 1838/10702 [26:19<1:13:59,  2.00it/s] 17%|█▋        | 1839/10702 [26:19<1:13:48,  2.00it/s] 17%|█▋        | 1840/10702 [26:20<1:13:36,  2.01it/s] 17%|█▋        | 1841/10702 [26:20<1:13:31,  2.01it/s] 17%|█▋        | 1842/10702 [26:21<1:13:29,  2.01it/s] 17%|█▋        | 1843/10702 [26:22<1:15:56,  1.94it/s] 17%|█▋        | 1844/10702 [26:22<1:17:03,  1.92it/s] 17%|█▋        | 1845/10702 [26:23<1:15:51,  1.95it/s] 17%|█▋        | 1846/10702 [26:23<1:16:50,  1.92it/s] 17%|█▋        | 1847/10702 [26:24<1:21:07,  1.82it/s] 17%|█▋        | 1848/10702 [26:24<1:18:41,  1.88it/s] 17%|█▋        | 1849/10702 [26:25<1:17:05,  1.91it/s] 17%|█▋        | 1850/10702 [26:25<1:15:59,  1.94it/s]                                                      {'loss': 4.0506, 'grad_norm': 0.22233232855796814, 'learning_rate': 0.0009839441326012143, 'epoch': 0.17}
+ 17%|█▋        | 1850/10702 [26:25<1:15:59,  1.94it/s] 17%|█▋        | 1851/10702 [26:26<1:15:09,  1.96it/s] 17%|█▋        | 1852/10702 [26:26<1:14:34,  1.98it/s] 17%|█▋        | 1853/10702 [26:27<1:14:09,  1.99it/s] 17%|█▋        | 1854/10702 [26:27<1:14:01,  1.99it/s] 17%|█▋        | 1855/10702 [26:28<1:14:00,  1.99it/s] 17%|█▋        | 1856/10702 [26:28<1:16:30,  1.93it/s] 17%|█▋        | 1857/10702 [26:29<1:15:29,  1.95it/s] 17%|█▋        | 1858/10702 [26:29<1:14:47,  1.97it/s] 17%|█▋        | 1859/10702 [26:30<1:14:16,  1.98it/s] 17%|█▋        | 1860/10702 [26:30<1:13:52,  1.99it/s] 17%|█▋        | 1861/10702 [26:31<1:13:40,  2.00it/s] 17%|█▋        | 1862/10702 [26:31<1:14:02,  1.99it/s] 17%|█▋        | 1863/10702 [26:32<1:14:34,  1.98it/s] 17%|█▋        | 1864/10702 [26:32<1:14:04,  1.99it/s] 17%|█▋        | 1865/10702 [26:33<1:13:49,  1.99it/s] 17%|█▋        | 1866/10702 [26:34<1:26:38,  1.70it/s] 17%|█▋        | 1867/10702 [26:34<1:22:37,  1.78it/s] 17%|█▋        | 1868/10702 [26:35<1:19:46,  1.85it/s] 17%|█▋        | 1869/10702 [26:35<1:17:45,  1.89it/s] 17%|█▋        | 1870/10702 [26:36<1:21:45,  1.80it/s] 17%|█▋        | 1871/10702 [26:36<1:19:55,  1.84it/s] 17%|█▋        | 1872/10702 [26:37<1:19:04,  1.86it/s] 18%|█▊        | 1873/10702 [26:37<1:17:15,  1.90it/s] 18%|█▊        | 1874/10702 [26:38<1:15:54,  1.94it/s] 18%|█▊        | 1875/10702 [26:38<1:15:04,  1.96it/s]                                                      {'loss': 4.0346, 'grad_norm': 0.21751849353313446, 'learning_rate': 0.000982903060034745, 'epoch': 0.18}
+ 18%|█▊        | 1875/10702 [26:38<1:15:04,  1.96it/s] 18%|█▊        | 1876/10702 [26:39<1:14:30,  1.97it/s] 18%|█▊        | 1877/10702 [26:39<1:14:02,  1.99it/s] 18%|█▊        | 1878/10702 [26:40<1:16:00,  1.93it/s] 18%|█▊        | 1879/10702 [26:40<1:15:10,  1.96it/s] 18%|█▊        | 1880/10702 [26:41<1:14:25,  1.98it/s] 18%|█▊        | 1881/10702 [26:41<1:14:55,  1.96it/s] 18%|█▊        | 1882/10702 [26:42<1:15:59,  1.93it/s] 18%|█▊        | 1883/10702 [26:42<1:15:35,  1.94it/s] 18%|█▊        | 1884/10702 [26:43<1:15:42,  1.94it/s] 18%|█▊        | 1885/10702 [26:43<1:15:48,  1.94it/s] 18%|█▊        | 1886/10702 [26:44<1:15:37,  1.94it/s] 18%|█▊        | 1887/10702 [26:44<1:14:50,  1.96it/s] 18%|█▊        | 1888/10702 [26:45<1:18:45,  1.87it/s] 18%|█▊        | 1889/10702 [26:45<1:18:04,  1.88it/s] 18%|█▊        | 1890/10702 [26:46<1:16:31,  1.92it/s] 18%|█▊        | 1891/10702 [26:46<1:16:48,  1.91it/s] 18%|█▊        | 1892/10702 [26:47<1:18:09,  1.88it/s] 18%|█▊        | 1893/10702 [26:48<1:18:11,  1.88it/s] 18%|█▊        | 1894/10702 [26:48<1:16:55,  1.91it/s] 18%|█▊        | 1895/10702 [26:49<1:16:01,  1.93it/s] 18%|█▊        | 1896/10702 [26:49<1:15:06,  1.95it/s] 18%|█▊        | 1897/10702 [26:50<1:14:28,  1.97it/s] 18%|█▊        | 1898/10702 [26:50<1:14:07,  1.98it/s] 18%|█▊        | 1899/10702 [26:51<1:13:53,  1.99it/s] 18%|█▊        | 1900/10702 [26:51<1:13:29,  2.00it/s]{'loss': 4.0339, 'grad_norm': 0.23584555089473724, 'learning_rate': 0.0009818298734575834, 'epoch': 0.18}                                                      
+ 18%|█▊        | 1900/10702 [26:51<1:13:29,  2.00it/s] 18%|█▊        | 1901/10702 [26:52<1:14:01,  1.98it/s] 18%|█▊        | 1902/10702 [26:52<1:19:10,  1.85it/s] 18%|█▊        | 1903/10702 [26:53<1:17:16,  1.90it/s] 18%|█▊        | 1904/10702 [26:53<1:16:05,  1.93it/s] 18%|█▊        | 1905/10702 [26:54<1:15:08,  1.95it/s] 18%|█▊        | 1906/10702 [26:54<1:17:25,  1.89it/s] 18%|█▊        | 1907/10702 [26:55<1:16:02,  1.93it/s] 18%|█▊        | 1908/10702 [26:55<1:15:08,  1.95it/s] 18%|█▊        | 1909/10702 [26:56<1:17:09,  1.90it/s] 18%|█▊        | 1910/10702 [26:56<1:15:45,  1.93it/s] 18%|█▊        | 1911/10702 [26:57<1:14:54,  1.96it/s] 18%|█▊        | 1912/10702 [26:57<1:14:28,  1.97it/s] 18%|█▊        | 1913/10702 [26:58<1:15:23,  1.94it/s] 18%|█▊        | 1914/10702 [26:58<1:14:31,  1.97it/s] 18%|█▊        | 1915/10702 [26:59<1:15:55,  1.93it/s] 18%|█▊        | 1916/10702 [26:59<1:15:05,  1.95it/s] 18%|█▊        | 1917/10702 [27:00<1:14:20,  1.97it/s] 18%|█▊        | 1918/10702 [27:00<1:18:28,  1.87it/s] 18%|█▊        | 1919/10702 [27:01<1:16:47,  1.91it/s] 18%|█▊        | 1920/10702 [27:01<1:15:30,  1.94it/s] 18%|█▊        | 1921/10702 [27:02<1:14:35,  1.96it/s] 18%|█▊        | 1922/10702 [27:02<1:14:49,  1.96it/s] 18%|█▊        | 1923/10702 [27:03<1:14:09,  1.97it/s] 18%|█▊        | 1924/10702 [27:03<1:13:43,  1.98it/s] 18%|█▊        | 1925/10702 [27:04<1:13:20,  1.99it/s]                                                      {'loss': 4.0285, 'grad_norm': 0.21918943524360657, 'learning_rate': 0.000980724644238764, 'epoch': 0.18}
+ 18%|█▊        | 1925/10702 [27:04<1:13:20,  1.99it/s] 18%|█▊        | 1926/10702 [27:04<1:13:14,  2.00it/s] 18%|█▊        | 1927/10702 [27:05<1:13:01,  2.00it/s] 18%|█▊        | 1928/10702 [27:05<1:12:53,  2.01it/s] 18%|█▊        | 1929/10702 [27:06<1:12:52,  2.01it/s] 18%|█▊        | 1930/10702 [27:06<1:12:45,  2.01it/s] 18%|█▊        | 1931/10702 [27:07<1:15:47,  1.93it/s] 18%|█▊        | 1932/10702 [27:08<1:14:48,  1.95it/s] 18%|█▊        | 1933/10702 [27:08<1:14:10,  1.97it/s] 18%|█▊        | 1934/10702 [27:09<1:14:47,  1.95it/s] 18%|█▊        | 1935/10702 [27:09<1:14:03,  1.97it/s] 18%|█▊        | 1936/10702 [27:10<1:14:23,  1.96it/s] 18%|█▊        | 1937/10702 [27:10<1:13:48,  1.98it/s] 18%|█▊        | 1938/10702 [27:11<1:13:30,  1.99it/s] 18%|█▊        | 1939/10702 [27:11<1:13:05,  2.00it/s] 18%|█▊        | 1940/10702 [27:12<1:12:56,  2.00it/s] 18%|█▊        | 1941/10702 [27:12<1:15:51,  1.92it/s] 18%|█▊        | 1942/10702 [27:13<1:14:53,  1.95it/s] 18%|█▊        | 1943/10702 [27:13<1:14:09,  1.97it/s] 18%|█▊        | 1944/10702 [27:14<1:16:23,  1.91it/s] 18%|█▊        | 1945/10702 [27:14<1:15:07,  1.94it/s] 18%|█▊        | 1946/10702 [27:15<1:14:15,  1.97it/s] 18%|█▊        | 1947/10702 [27:15<1:13:47,  1.98it/s] 18%|█▊        | 1948/10702 [27:16<1:13:21,  1.99it/s] 18%|█▊        | 1949/10702 [27:16<1:13:04,  2.00it/s] 18%|█▊        | 1950/10702 [27:17<1:15:07,  1.94it/s]                                                      {'loss': 4.019, 'grad_norm': 0.23112143576145172, 'learning_rate': 0.000979587445878221, 'epoch': 0.18}
+ 18%|█▊        | 1950/10702 [27:17<1:15:07,  1.94it/s] 18%|█▊        | 1951/10702 [27:17<1:15:24,  1.93it/s] 18%|█▊        | 1952/10702 [27:18<1:15:25,  1.93it/s] 18%|█▊        | 1953/10702 [27:18<1:14:27,  1.96it/s] 18%|█▊        | 1954/10702 [27:19<1:13:52,  1.97it/s] 18%|█▊        | 1955/10702 [27:19<1:18:34,  1.86it/s] 18%|█▊        | 1956/10702 [27:20<1:18:49,  1.85it/s] 18%|█▊        | 1957/10702 [27:20<1:18:56,  1.85it/s] 18%|█▊        | 1958/10702 [27:21<1:18:23,  1.86it/s] 18%|█▊        | 1959/10702 [27:21<1:17:48,  1.87it/s] 18%|█▊        | 1960/10702 [27:22<1:16:07,  1.91it/s] 18%|█▊        | 1961/10702 [27:22<1:15:02,  1.94it/s] 18%|█▊        | 1962/10702 [27:23<1:14:09,  1.96it/s] 18%|█▊        | 1963/10702 [27:23<1:13:39,  1.98it/s] 18%|█▊        | 1964/10702 [27:24<1:13:10,  1.99it/s] 18%|█▊        | 1965/10702 [27:24<1:12:54,  2.00it/s] 18%|█▊        | 1966/10702 [27:25<1:12:46,  2.00it/s] 18%|█▊        | 1967/10702 [27:25<1:12:34,  2.01it/s] 18%|█▊        | 1968/10702 [27:26<1:12:32,  2.01it/s] 18%|█▊        | 1969/10702 [27:26<1:13:03,  1.99it/s] 18%|█▊        | 1970/10702 [27:27<1:12:54,  2.00it/s] 18%|█▊        | 1971/10702 [27:27<1:12:54,  2.00it/s] 18%|█▊        | 1972/10702 [27:28<1:12:50,  2.00it/s] 18%|█▊        | 1973/10702 [27:28<1:12:45,  2.00it/s] 18%|█▊        | 1974/10702 [27:29<1:14:03,  1.96it/s] 18%|█▊        | 1975/10702 [27:29<1:13:27,  1.98it/s]                                                      {'loss': 4.0157, 'grad_norm': 0.21228556334972382, 'learning_rate': 0.0009784183540018988, 'epoch': 0.18}
+ 18%|█▊        | 1975/10702 [27:29<1:13:27,  1.98it/s] 18%|█▊        | 1976/10702 [27:30<1:15:34,  1.92it/s] 18%|█▊        | 1977/10702 [27:31<1:14:34,  1.95it/s] 18%|█▊        | 1978/10702 [27:31<1:13:54,  1.97it/s] 18%|█▊        | 1979/10702 [27:32<1:13:25,  1.98it/s] 19%|█▊        | 1980/10702 [27:32<1:14:14,  1.96it/s] 19%|█▊        | 1981/10702 [27:33<1:13:36,  1.97it/s] 19%|█▊        | 1982/10702 [27:33<1:13:15,  1.98it/s] 19%|█▊        | 1983/10702 [27:34<1:12:52,  1.99it/s] 19%|█▊        | 1984/10702 [27:34<1:12:40,  2.00it/s] 19%|█▊        | 1985/10702 [27:35<1:15:34,  1.92it/s] 19%|█▊        | 1986/10702 [27:35<1:16:01,  1.91it/s] 19%|█▊        | 1987/10702 [27:36<1:18:42,  1.85it/s] 19%|█▊        | 1988/10702 [27:36<1:16:44,  1.89it/s] 19%|█▊        | 1989/10702 [27:37<1:17:31,  1.87it/s] 19%|█▊        | 1990/10702 [27:37<1:19:57,  1.82it/s] 19%|█▊        | 1991/10702 [27:38<1:18:09,  1.86it/s] 19%|█▊        | 1992/10702 [27:38<1:16:17,  1.90it/s] 19%|█▊        | 1993/10702 [27:39<1:15:07,  1.93it/s] 19%|█▊        | 1994/10702 [27:39<1:14:09,  1.96it/s] 19%|█▊        | 1995/10702 [27:40<1:13:33,  1.97it/s] 19%|█▊        | 1996/10702 [27:40<1:13:06,  1.98it/s] 19%|█▊        | 1997/10702 [27:41<1:13:25,  1.98it/s] 19%|█▊        | 1998/10702 [27:41<1:12:58,  1.99it/s] 19%|█▊        | 1999/10702 [27:42<1:12:40,  2.00it/s] 19%|█▊        | 2000/10702 [27:42<1:12:26,  2.00it/s]                                                      {'loss': 4.0158, 'grad_norm': 0.21792423725128174, 'learning_rate': 0.000977217446356725, 'epoch': 0.19}
+ 19%|█▊        | 2000/10702 [27:42<1:12:26,  2.00it/s] 19%|█▊        | 2001/10702 [27:43<1:13:48,  1.96it/s] 19%|█▊        | 2002/10702 [27:43<1:13:16,  1.98it/s] 19%|█▊        | 2003/10702 [27:44<1:12:49,  1.99it/s] 19%|█▊        | 2004/10702 [27:44<1:12:34,  2.00it/s] 19%|█▊        | 2005/10702 [27:45<1:13:29,  1.97it/s] 19%|█▊        | 2006/10702 [27:45<1:12:56,  1.99it/s] 19%|█▉        | 2007/10702 [27:46<1:12:38,  1.99it/s] 19%|█▉        | 2008/10702 [27:46<1:14:10,  1.95it/s] 19%|█▉        | 2009/10702 [27:47<1:13:47,  1.96it/s] 19%|█▉        | 2010/10702 [27:47<1:13:15,  1.98it/s] 19%|█▉        | 2011/10702 [27:48<1:12:50,  1.99it/s] 19%|█▉        | 2012/10702 [27:48<1:12:31,  2.00it/s] 19%|█▉        | 2013/10702 [27:49<1:12:23,  2.00it/s] 19%|█▉        | 2014/10702 [27:49<1:13:23,  1.97it/s] 19%|█▉        | 2015/10702 [27:50<1:12:50,  1.99it/s] 19%|█▉        | 2016/10702 [27:50<1:12:31,  2.00it/s] 19%|█▉        | 2017/10702 [27:51<1:15:23,  1.92it/s] 19%|█▉        | 2018/10702 [27:51<1:14:16,  1.95it/s] 19%|█▉        | 2019/10702 [27:52<1:13:30,  1.97it/s] 19%|█▉        | 2020/10702 [27:52<1:14:28,  1.94it/s] 19%|█▉        | 2021/10702 [27:53<1:13:38,  1.96it/s] 19%|█▉        | 2022/10702 [27:53<1:13:08,  1.98it/s] 19%|█▉        | 2023/10702 [27:54<1:12:40,  1.99it/s] 19%|█▉        | 2024/10702 [27:55<1:14:19,  1.95it/s] 19%|█▉        | 2025/10702 [27:55<1:13:34,  1.97it/s]{'loss': 4.0032, 'grad_norm': 0.22368602454662323, 'learning_rate': 0.0009759848028054386, 'epoch': 0.19}                                                      
+ 19%|█▉        | 2025/10702 [27:55<1:13:34,  1.97it/s] 19%|█▉        | 2026/10702 [27:56<1:13:03,  1.98it/s] 19%|█▉        | 2027/10702 [27:56<1:12:42,  1.99it/s] 19%|█▉        | 2028/10702 [27:57<1:12:26,  2.00it/s] 19%|█▉        | 2029/10702 [27:57<1:12:26,  2.00it/s] 19%|█▉        | 2030/10702 [27:58<1:12:18,  2.00it/s] 19%|█▉        | 2031/10702 [27:58<1:14:00,  1.95it/s] 19%|█▉        | 2032/10702 [27:59<1:13:19,  1.97it/s] 19%|█▉        | 2033/10702 [27:59<1:12:46,  1.99it/s] 19%|█▉        | 2034/10702 [28:00<1:15:24,  1.92it/s] 19%|█▉        | 2035/10702 [28:00<1:14:18,  1.94it/s] 19%|█▉        | 2036/10702 [28:01<1:15:32,  1.91it/s] 19%|█▉        | 2037/10702 [28:01<1:14:23,  1.94it/s] 19%|█▉        | 2038/10702 [28:02<1:14:12,  1.95it/s] 19%|█▉        | 2039/10702 [28:02<1:13:22,  1.97it/s] 19%|█▉        | 2040/10702 [28:03<1:12:52,  1.98it/s] 19%|█▉        | 2041/10702 [28:03<1:12:30,  1.99it/s] 19%|█▉        | 2042/10702 [28:04<1:13:52,  1.95it/s] 19%|█▉        | 2043/10702 [28:04<1:13:51,  1.95it/s] 19%|█▉        | 2044/10702 [28:05<1:13:14,  1.97it/s] 19%|█▉        | 2045/10702 [28:05<1:12:39,  1.99it/s] 19%|█▉        | 2046/10702 [28:06<1:12:23,  1.99it/s] 19%|█▉        | 2047/10702 [28:06<1:13:40,  1.96it/s] 19%|█▉        | 2048/10702 [28:07<1:13:06,  1.97it/s] 19%|█▉        | 2049/10702 [28:07<1:12:43,  1.98it/s] 19%|█▉        | 2050/10702 [28:08<1:15:04,  1.92it/s]                                                      {'loss': 4.0035, 'grad_norm': 0.23497074842453003, 'learning_rate': 0.0009747205053212786, 'epoch': 0.19}
+ 19%|█▉        | 2050/10702 [28:08<1:15:04,  1.92it/s] 19%|█▉        | 2051/10702 [28:08<1:14:07,  1.95it/s] 19%|█▉        | 2052/10702 [28:09<1:13:20,  1.97it/s] 19%|█▉        | 2053/10702 [28:09<1:12:46,  1.98it/s] 19%|█▉        | 2054/10702 [28:10<1:12:25,  1.99it/s] 19%|█▉        | 2055/10702 [28:10<1:12:05,  2.00it/s] 19%|█▉        | 2056/10702 [28:11<1:11:55,  2.00it/s] 19%|█▉        | 2057/10702 [28:11<1:12:10,  2.00it/s] 19%|█▉        | 2058/10702 [28:12<1:16:10,  1.89it/s] 19%|█▉        | 2059/10702 [28:12<1:14:46,  1.93it/s] 19%|█▉        | 2060/10702 [28:13<1:13:44,  1.95it/s] 19%|█▉        | 2061/10702 [28:13<1:13:01,  1.97it/s] 19%|█▉        | 2062/10702 [28:14<1:12:38,  1.98it/s] 19%|█▉        | 2063/10702 [28:14<1:13:41,  1.95it/s] 19%|█▉        | 2064/10702 [28:15<1:12:57,  1.97it/s] 19%|█▉        | 2065/10702 [28:15<1:12:31,  1.99it/s] 19%|█▉        | 2066/10702 [28:16<1:12:10,  1.99it/s] 19%|█▉        | 2067/10702 [28:16<1:11:54,  2.00it/s] 19%|█▉        | 2068/10702 [28:17<1:11:45,  2.01it/s] 19%|█▉        | 2069/10702 [28:17<1:12:40,  1.98it/s] 19%|█▉        | 2070/10702 [28:18<1:12:10,  1.99it/s] 19%|█▉        | 2071/10702 [28:18<1:12:00,  2.00it/s] 19%|█▉        | 2072/10702 [28:19<1:11:48,  2.00it/s] 19%|█▉        | 2073/10702 [28:19<1:11:39,  2.01it/s] 19%|█▉        | 2074/10702 [28:20<1:19:56,  1.80it/s] 19%|█▉        | 2075/10702 [28:21<1:17:27,  1.86it/s]                                                      {'loss': 4.0031, 'grad_norm': 0.22019898891448975, 'learning_rate': 0.0009734246379825341, 'epoch': 0.19}
+ 19%|█▉        | 2075/10702 [28:21<1:17:27,  1.86it/s] 19%|█▉        | 2076/10702 [28:21<1:15:43,  1.90it/s] 19%|█▉        | 2077/10702 [28:22<1:14:22,  1.93it/s] 19%|█▉        | 2078/10702 [28:22<1:13:32,  1.95it/s] 19%|█▉        | 2079/10702 [28:23<1:12:53,  1.97it/s] 19%|█▉        | 2080/10702 [28:23<1:12:25,  1.98it/s] 19%|█▉        | 2081/10702 [28:24<1:12:06,  1.99it/s] 19%|█▉        | 2082/10702 [28:24<1:11:49,  2.00it/s] 19%|█▉        | 2083/10702 [28:25<1:11:44,  2.00it/s] 19%|█▉        | 2084/10702 [28:25<1:11:35,  2.01it/s] 19%|█▉        | 2085/10702 [28:25<1:11:27,  2.01it/s] 19%|█▉        | 2086/10702 [28:26<1:11:25,  2.01it/s] 20%|█▉        | 2087/10702 [28:26<1:11:22,  2.01it/s] 20%|█▉        | 2088/10702 [28:27<1:11:24,  2.01it/s] 20%|█▉        | 2089/10702 [28:27<1:11:21,  2.01it/s] 20%|█▉        | 2090/10702 [28:28<1:11:21,  2.01it/s] 20%|█▉        | 2091/10702 [28:28<1:11:20,  2.01it/s] 20%|█▉        | 2092/10702 [28:29<1:16:51,  1.87it/s] 20%|█▉        | 2093/10702 [28:30<1:15:09,  1.91it/s] 20%|█▉        | 2094/10702 [28:30<1:15:21,  1.90it/s] 20%|█▉        | 2095/10702 [28:31<1:14:03,  1.94it/s] 20%|█▉        | 2096/10702 [28:31<1:13:17,  1.96it/s] 20%|█▉        | 2097/10702 [28:32<1:12:41,  1.97it/s] 20%|█▉        | 2098/10702 [28:32<1:12:10,  1.99it/s] 20%|█▉        | 2099/10702 [28:33<1:11:53,  1.99it/s] 20%|█▉        | 2100/10702 [28:33<1:11:43,  2.00it/s]                                                      {'loss': 3.9924, 'grad_norm': 0.21028472483158112, 'learning_rate': 0.0009720972869669515, 'epoch': 0.2}
+ 20%|█▉        | 2100/10702 [28:33<1:11:43,  2.00it/s] 20%|█▉        | 2101/10702 [28:34<1:11:37,  2.00it/s] 20%|█▉        | 2102/10702 [28:34<1:11:28,  2.01it/s] 20%|█▉        | 2103/10702 [28:35<1:11:19,  2.01it/s] 20%|█▉        | 2104/10702 [28:35<1:11:16,  2.01it/s] 20%|█▉        | 2105/10702 [28:36<1:11:10,  2.01it/s] 20%|█▉        | 2106/10702 [28:36<1:11:09,  2.01it/s] 20%|█▉        | 2107/10702 [28:37<1:11:06,  2.01it/s] 20%|█▉        | 2108/10702 [28:37<1:11:04,  2.02it/s] 20%|█▉        | 2109/10702 [28:38<1:11:02,  2.02it/s] 20%|█▉        | 2110/10702 [28:38<1:11:04,  2.01it/s] 20%|█▉        | 2111/10702 [28:39<1:11:04,  2.01it/s] 20%|█▉        | 2112/10702 [28:39<1:11:35,  2.00it/s] 20%|█▉        | 2113/10702 [28:40<1:11:22,  2.01it/s] 20%|█���        | 2114/10702 [28:40<1:11:15,  2.01it/s] 20%|█▉        | 2115/10702 [28:41<1:11:09,  2.01it/s] 20%|█▉        | 2116/10702 [28:41<1:13:12,  1.95it/s] 20%|█▉        | 2117/10702 [28:42<1:12:28,  1.97it/s] 20%|█▉        | 2118/10702 [28:42<1:12:01,  1.99it/s] 20%|█▉        | 2119/10702 [28:43<1:11:43,  1.99it/s] 20%|█▉        | 2120/10702 [28:43<1:11:25,  2.00it/s] 20%|█▉        | 2121/10702 [28:44<1:13:34,  1.94it/s] 20%|█▉        | 2122/10702 [28:44<1:17:06,  1.85it/s] 20%|█▉        | 2123/10702 [28:45<1:18:44,  1.82it/s] 20%|█▉        | 2124/10702 [28:45<1:16:19,  1.87it/s] 20%|█▉        | 2125/10702 [28:46<1:14:44,  1.91it/s]                                                      {'loss': 3.9914, 'grad_norm': 0.21720123291015625, 'learning_rate': 0.0009707385405460047, 'epoch': 0.2}
+ 20%|█▉        | 2125/10702 [28:46<1:14:44,  1.91it/s] 20%|█▉        | 2126/10702 [28:46<1:13:39,  1.94it/s] 20%|█▉        | 2127/10702 [28:47<1:13:43,  1.94it/s] 20%|█▉        | 2128/10702 [28:47<1:12:56,  1.96it/s] 20%|█▉        | 2129/10702 [28:48<1:12:24,  1.97it/s] 20%|█▉        | 2130/10702 [28:48<1:13:34,  1.94it/s] 20%|█▉        | 2131/10702 [28:49<1:13:32,  1.94it/s] 20%|█▉        | 2132/10702 [28:49<1:12:46,  1.96it/s] 20%|█▉        | 2133/10702 [28:50<1:12:13,  1.98it/s] 20%|█▉        | 2134/10702 [28:50<1:11:50,  1.99it/s] 20%|█▉        | 2135/10702 [28:51<1:12:32,  1.97it/s] 20%|█▉        | 2136/10702 [28:51<1:12:02,  1.98it/s] 20%|█▉        | 2137/10702 [28:52<1:11:39,  1.99it/s] 20%|█▉        | 2138/10702 [28:52<1:11:25,  2.00it/s] 20%|█▉        | 2139/10702 [28:53<1:11:21,  2.00it/s] 20%|█▉        | 2140/10702 [28:53<1:12:12,  1.98it/s] 20%|██        | 2141/10702 [28:54<1:12:30,  1.97it/s] 20%|██        | 2142/10702 [28:54<1:12:01,  1.98it/s] 20%|██        | 2143/10702 [28:55<1:11:36,  1.99it/s] 20%|██        | 2144/10702 [28:55<1:11:23,  2.00it/s] 20%|██        | 2145/10702 [28:56<1:11:09,  2.00it/s] 20%|██        | 2146/10702 [28:56<1:11:05,  2.01it/s] 20%|██        | 2147/10702 [28:57<1:11:44,  1.99it/s] 20%|██        | 2148/10702 [28:57<1:11:36,  1.99it/s] 20%|██        | 2149/10702 [28:58<1:11:33,  1.99it/s] 20%|██        | 2150/10702 [28:58<1:11:33,  1.99it/s]                                                      {'loss': 3.9814, 'grad_norm': 0.21708032488822937, 'learning_rate': 0.0009693484890790239, 'epoch': 0.2}
+ 20%|██        | 2150/10702 [28:58<1:11:33,  1.99it/s] 20%|██        | 2151/10702 [28:59<1:11:39,  1.99it/s] 20%|██        | 2152/10702 [28:59<1:11:37,  1.99it/s] 20%|██        | 2153/10702 [29:00<1:11:37,  1.99it/s] 20%|██        | 2154/10702 [29:00<1:11:23,  2.00it/s] 20%|██        | 2155/10702 [29:01<1:11:43,  1.99it/s] 20%|██        | 2156/10702 [29:01<1:11:30,  1.99it/s] 20%|██        | 2157/10702 [29:02<1:11:25,  1.99it/s] 20%|██        | 2158/10702 [29:02<1:11:19,  2.00it/s] 20%|██        | 2159/10702 [29:03<1:11:15,  2.00it/s] 20%|██        | 2160/10702 [29:03<1:11:04,  2.00it/s] 20%|██        | 2161/10702 [29:04<1:11:04,  2.00it/s] 20%|██        | 2162/10702 [29:04<1:11:07,  2.00it/s] 20%|██        | 2163/10702 [29:05<1:11:01,  2.00it/s] 20%|██        | 2164/10702 [29:05<1:10:59,  2.00it/s] 20%|██        | 2165/10702 [29:06<1:11:39,  1.99it/s] 20%|██        | 2166/10702 [29:06<1:11:23,  1.99it/s] 20%|██        | 2167/10702 [29:07<1:11:15,  2.00it/s] 20%|██        | 2168/10702 [29:07<1:11:05,  2.00it/s] 20%|██        | 2169/10702 [29:08<1:12:12,  1.97it/s] 20%|██        | 2170/10702 [29:08<1:11:43,  1.98it/s] 20%|██        | 2171/10702 [29:09<1:11:27,  1.99it/s] 20%|██        | 2172/10702 [29:09<1:11:19,  1.99it/s] 20%|██        | 2173/10702 [29:10<1:11:52,  1.98it/s] 20%|██        | 2174/10702 [29:10<1:11:32,  1.99it/s] 20%|██        | 2175/10702 [29:11<1:11:21,  1.99it/s]                                                      {'loss': 3.9772, 'grad_norm': 0.21526765823364258, 'learning_rate': 0.0009679272250071866, 'epoch': 0.2}
+ 20%|██        | 2175/10702 [29:11<1:11:21,  1.99it/s] 20%|██        | 2176/10702 [29:11<1:11:13,  2.00it/s] 20%|██        | 2177/10702 [29:12<1:11:03,  2.00it/s] 20%|██        | 2178/10702 [29:12<1:10:57,  2.00it/s] 20%|██        | 2179/10702 [29:13<1:10:56,  2.00it/s] 20%|██        | 2180/10702 [29:13<1:11:23,  1.99it/s] 20%|██        | 2181/10702 [29:14<1:11:08,  2.00it/s] 20%|██        | 2182/10702 [29:14<1:10:56,  2.00it/s] 20%|██        | 2183/10702 [29:15<1:11:42,  1.98it/s] 20%|██        | 2184/10702 [29:15<1:12:19,  1.96it/s] 20%|██        | 2185/10702 [29:16<1:11:51,  1.98it/s] 20%|██        | 2186/10702 [29:16<1:11:30,  1.98it/s] 20%|██        | 2187/10702 [29:17<1:12:06,  1.97it/s] 20%|██        | 2188/10702 [29:17<1:11:35,  1.98it/s] 20%|██        | 2189/10702 [29:18<1:11:19,  1.99it/s] 20%|██        | 2190/10702 [29:18<1:11:02,  2.00it/s] 20%|██        | 2191/10702 [29:19<1:10:52,  2.00it/s] 20%|██        | 2192/10702 [29:19<1:10:51,  2.00it/s] 20%|██        | 2193/10702 [29:20<1:10:51,  2.00it/s] 21%|██        | 2194/10702 [29:20<1:10:42,  2.01it/s] 21%|██        | 2195/10702 [29:21<1:10:42,  2.01it/s] 21%|██        | 2196/10702 [29:21<1:10:37,  2.01it/s] 21%|██        | 2197/10702 [29:22<1:10:32,  2.01it/s] 21%|██        | 2198/10702 [29:22<1:10:34,  2.01it/s] 21%|██        | 2199/10702 [29:23<1:10:26,  2.01it/s] 21%|██        | 2200/10702 [29:23<1:10:27,  2.01it/s]                                                      {'loss': 3.9763, 'grad_norm': 0.22378967702388763, 'learning_rate': 0.0009664748428473713, 'epoch': 0.21}
+ 21%|██        | 2200/10702 [29:23<1:10:27,  2.01it/s] 21%|██        | 2201/10702 [29:24<1:10:29,  2.01it/s] 21%|██        | 2202/10702 [29:24<1:10:26,  2.01it/s] 21%|██        | 2203/10702 [29:25<1:11:39,  1.98it/s] 21%|██        | 2204/10702 [29:25<1:11:17,  1.99it/s] 21%|██        | 2205/10702 [29:26<1:10:58,  2.00it/s] 21%|██        | 2206/10702 [29:26<1:10:48,  2.00it/s] 21%|██        | 2207/10702 [29:27<1:11:54,  1.97it/s] 21%|██        | 2208/10702 [29:28<1:12:37,  1.95it/s] 21%|██        | 2209/10702 [29:28<1:12:12,  1.96it/s] 21%|██        | 2210/10702 [29:29<1:11:45,  1.97it/s] 21%|██        | 2211/10702 [29:29<1:11:27,  1.98it/s] 21%|██        | 2212/10702 [29:30<1:11:59,  1.97it/s] 21%|██        | 2213/10702 [29:30<1:11:29,  1.98it/s] 21%|██        | 2214/10702 [29:31<1:11:14,  1.99it/s] 21%|██        | 2215/10702 [29:31<1:11:45,  1.97it/s] 21%|██        | 2216/10702 [29:32<1:11:22,  1.98it/s] 21%|██        | 2217/10702 [29:32<1:11:07,  1.99it/s] 21%|██        | 2218/10702 [29:33<1:13:18,  1.93it/s] 21%|██        | 2219/10702 [29:33<1:12:26,  1.95it/s] 21%|██        | 2220/10702 [29:34<1:12:24,  1.95it/s] 21%|██        | 2221/10702 [29:34<1:11:52,  1.97it/s] 21%|██        | 2222/10702 [29:35<1:11:29,  1.98it/s] 21%|██        | 2223/10702 [29:35<1:11:11,  1.99it/s] 21%|██        | 2224/10702 [29:36<1:10:49,  1.99it/s] 21%|██        | 2225/10702 [29:36<1:10:44,  2.00it/s]{'loss': 3.9691, 'grad_norm': 0.21370257437229156, 'learning_rate': 0.0009649914391858701, 'epoch': 0.21}                                                      
+ 21%|██        | 2225/10702 [29:36<1:10:44,  2.00it/s] 21%|██        | 2226/10702 [29:37<1:10:39,  2.00it/s] 21%|██        | 2227/10702 [29:37<1:10:30,  2.00it/s] 21%|██        | 2228/10702 [29:38<1:10:25,  2.01it/s] 21%|██        | 2229/10702 [29:38<1:10:26,  2.00it/s] 21%|██        | 2230/10702 [29:39<1:10:20,  2.01it/s] 21%|██        | 2231/10702 [29:39<1:10:19,  2.01it/s] 21%|██        | 2232/10702 [29:40<1:10:14,  2.01it/s] 21%|██        | 2233/10702 [29:40<1:10:15,  2.01it/s] 21%|██        | 2234/10702 [29:41<1:11:04,  1.99it/s] 21%|██        | 2235/10702 [29:41<1:11:36,  1.97it/s] 21%|██        | 2236/10702 [29:42<1:12:00,  1.96it/s] 21%|██        | 2237/10702 [29:42<1:11:28,  1.97it/s] 21%|██        | 2238/10702 [29:43<1:12:01,  1.96it/s] 21%|██        | 2239/10702 [29:43<1:11:52,  1.96it/s] 21%|██        | 2240/10702 [29:44<1:11:18,  1.98it/s] 21%|██        | 2241/10702 [29:44<1:10:59,  1.99it/s] 21%|██        | 2242/10702 [29:45<1:10:41,  1.99it/s] 21%|██        | 2243/10702 [29:45<1:10:30,  2.00it/s] 21%|██        | 2244/10702 [29:46<1:11:48,  1.96it/s] 21%|██        | 2245/10702 [29:46<1:11:14,  1.98it/s] 21%|██        | 2246/10702 [29:47<1:10:53,  1.99it/s] 21%|██        | 2247/10702 [29:47<1:10:39,  1.99it/s] 21%|██        | 2248/10702 [29:48<1:10:26,  2.00it/s] 21%|██        | 2249/10702 [29:48<1:10:23,  2.00it/s] 21%|██        | 2250/10702 [29:49<1:10:13,  2.01it/s]                                                      {'loss': 3.9651, 'grad_norm': 0.2098204344511032, 'learning_rate': 0.0009634771126719672, 'epoch': 0.21}
+ 21%|██        | 2250/10702 [29:49<1:10:13,  2.01it/s] 21%|██        | 2251/10702 [29:49<1:10:54,  1.99it/s] 21%|██        | 2252/10702 [29:50<1:10:35,  1.99it/s] 21%|██        | 2253/10702 [29:50<1:10:24,  2.00it/s] 21%|██        | 2254/10702 [29:51<1:11:01,  1.98it/s] 21%|██        | 2255/10702 [29:51<1:10:44,  1.99it/s] 21%|██        | 2256/10702 [29:52<1:11:44,  1.96it/s] 21%|██        | 2257/10702 [29:52<1:11:10,  1.98it/s] 21%|██        | 2258/10702 [29:53<1:10:54,  1.98it/s] 21%|██        | 2259/10702 [29:53<1:10:35,  1.99it/s] 21%|██        | 2260/10702 [29:54<1:10:21,  2.00it/s] 21%|██        | 2261/10702 [29:54<1:10:11,  2.00it/s] 21%|██        | 2262/10702 [29:55<1:10:08,  2.01it/s] 21%|██        | 2263/10702 [29:55<1:10:29,  2.00it/s] 21%|██        | 2264/10702 [29:56<1:10:15,  2.00it/s] 21%|██        | 2265/10702 [29:56<1:10:08,  2.00it/s] 21%|██        | 2266/10702 [29:57<1:10:01,  2.01it/s] 21%|██        | 2267/10702 [29:57<1:10:08,  2.00it/s] 21%|██        | 2268/10702 [29:58<1:10:33,  1.99it/s] 21%|██        | 2269/10702 [29:58<1:10:30,  1.99it/s] 21%|██        | 2270/10702 [29:59<1:10:24,  2.00it/s] 21%|██        | 2271/10702 [29:59<1:10:20,  2.00it/s] 21%|██        | 2272/10702 [30:00<1:10:18,  2.00it/s] 21%|██        | 2273/10702 [30:00<1:10:12,  2.00it/s] 21%|██        | 2274/10702 [30:01<1:10:14,  2.00it/s] 21%|██▏       | 2275/10702 [30:01<1:10:14,  2.00it/s]                                                      {'loss': 3.9665, 'grad_norm': 0.20319758355617523, 'learning_rate': 0.0009619319640113772, 'epoch': 0.21}
+ 21%|██▏       | 2275/10702 [30:01<1:10:14,  2.00it/s] 21%|██▏       | 2276/10702 [30:02<1:10:08,  2.00it/s] 21%|██▏       | 2277/10702 [30:02<1:10:06,  2.00it/s] 21%|██▏       | 2278/10702 [30:03<1:10:04,  2.00it/s] 21%|██▏       | 2279/10702 [30:03<1:11:41,  1.96it/s] 21%|██▏       | 2280/10702 [30:04<1:11:10,  1.97it/s] 21%|██▏       | 2281/10702 [30:04<1:13:24,  1.91it/s] 21%|██▏       | 2282/10702 [30:05<1:12:19,  1.94it/s] 21%|██▏       | 2283/10702 [30:05<1:11:32,  1.96it/s] 21%|██▏       | 2284/10702 [30:06<1:11:39,  1.96it/s] 21%|██▏       | 2285/10702 [30:06<1:11:01,  1.97it/s] 21%|██▏       | 2286/10702 [30:07<1:10:40,  1.98it/s] 21%|██▏       | 2287/10702 [30:07<1:10:26,  1.99it/s] 21%|██▏       | 2288/10702 [30:08<1:10:10,  2.00it/s] 21%|██▏       | 2289/10702 [30:08<1:10:06,  2.00it/s] 21%|██▏       | 2290/10702 [30:09<1:09:56,  2.00it/s] 21%|██▏       | 2291/10702 [30:09<1:09:53,  2.01it/s] 21%|██▏       | 2292/10702 [30:10<1:09:48,  2.01it/s] 21%|██▏       | 2293/10702 [30:10<1:09:46,  2.01it/s] 21%|██▏       | 2294/10702 [30:11<1:09:45,  2.01it/s] 21%|██▏       | 2295/10702 [30:11<1:09:50,  2.01it/s] 21%|██▏       | 2296/10702 [30:12<1:09:47,  2.01it/s] 21%|██▏       | 2297/10702 [30:12<1:09:42,  2.01it/s] 21%|██▏       | 2298/10702 [30:13<1:09:42,  2.01it/s] 21%|██▏       | 2299/10702 [30:13<1:09:42,  2.01it/s] 21%|██▏       | 2300/10702 [30:14<1:09:36,  2.01it/s]                                                      {'loss': 3.9499, 'grad_norm': 0.20800840854644775, 'learning_rate': 0.0009603560959595488, 'epoch': 0.21}
+ 21%|██▏       | 2300/10702 [30:14<1:09:36,  2.01it/s] 22%|██▏       | 2301/10702 [30:14<1:10:34,  1.98it/s] 22%|██▏       | 2302/10702 [30:15<1:10:58,  1.97it/s] 22%|██▏       | 2303/10702 [30:15<1:10:33,  1.98it/s] 22%|██▏       | 2304/10702 [30:16<1:10:19,  1.99it/s] 22%|██▏       | 2305/10702 [30:16<1:10:03,  2.00it/s] 22%|██▏       | 2306/10702 [30:17<1:09:55,  2.00it/s] 22%|██▏       | 2307/10702 [30:17<1:09:48,  2.00it/s] 22%|██▏       | 2308/10702 [30:18<1:09:42,  2.01it/s] 22%|██▏       | 2309/10702 [30:18<1:10:12,  1.99it/s] 22%|██▏       | 2310/10702 [30:19<1:09:53,  2.00it/s] 22%|██▏       | 2311/10702 [30:19<1:09:49,  2.00it/s] 22%|██▏       | 2312/10702 [30:20<1:09:41,  2.01it/s] 22%|██▏       | 2313/10702 [30:20<1:11:09,  1.97it/s] 22%|██▏       | 2314/10702 [30:21<1:10:33,  1.98it/s] 22%|██▏       | 2315/10702 [30:21<1:10:49,  1.97it/s] 22%|██▏       | 2316/10702 [30:22<1:11:04,  1.97it/s] 22%|██▏       | 2317/10702 [30:22<1:10:32,  1.98it/s] 22%|██▏       | 2318/10702 [30:23<1:10:07,  1.99it/s] 22%|██▏       | 2319/10702 [30:23<1:10:03,  1.99it/s] 22%|██▏       | 2320/10702 [30:24<1:09:50,  2.00it/s] 22%|██▏       | 2321/10702 [30:24<1:09:42,  2.00it/s] 22%|██▏       | 2322/10702 [30:25<1:09:38,  2.01it/s] 22%|██▏       | 2323/10702 [30:25<1:10:08,  1.99it/s] 22%|██▏       | 2324/10702 [30:26<1:09:54,  2.00it/s] 22%|██▏       | 2325/10702 [30:26<1:09:40,  2.00it/s]{'loss': 3.9481, 'grad_norm': 0.21039775013923645, 'learning_rate': 0.0009587496133148313, 'epoch': 0.22}
+                                                       22%|██▏       | 2325/10702 [30:26<1:09:40,  2.00it/s] 22%|██▏       | 2326/10702 [30:27<1:09:41,  2.00it/s] 22%|██▏       | 2327/10702 [30:27<1:09:55,  2.00it/s] 22%|██▏       | 2328/10702 [30:28<1:10:00,  1.99it/s] 22%|██▏       | 2329/10702 [30:28<1:09:47,  2.00it/s] 22%|██▏       | 2330/10702 [30:29<1:09:40,  2.00it/s] 22%|██▏       | 2331/10702 [30:29<1:10:15,  1.99it/s] 22%|██▏       | 2332/10702 [30:30<1:10:45,  1.97it/s] 22%|██▏       | 2333/10702 [30:30<1:12:44,  1.92it/s] 22%|██▏       | 2334/10702 [30:31<1:11:42,  1.94it/s] 22%|██▏       | 2335/10702 [30:31<1:11:01,  1.96it/s] 22%|██▏       | 2336/10702 [30:32<1:10:28,  1.98it/s] 22%|██▏       | 2337/10702 [30:32<1:10:08,  1.99it/s] 22%|██▏       | 2338/10702 [30:33<1:09:52,  2.00it/s] 22%|██▏       | 2339/10702 [30:33<1:09:40,  2.00it/s] 22%|██▏       | 2340/10702 [30:34<1:09:33,  2.00it/s] 22%|██▏       | 2341/10702 [30:34<1:09:59,  1.99it/s] 22%|██▏       | 2342/10702 [30:35<1:09:47,  2.00it/s] 22%|██▏       | 2343/10702 [30:35<1:09:39,  2.00it/s] 22%|██▏       | 2344/10702 [30:36<1:09:49,  2.00it/s] 22%|██▏       | 2345/10702 [30:36<1:09:35,  2.00it/s] 22%|██▏       | 2346/10702 [30:37<1:09:34,  2.00it/s] 22%|██▏       | 2347/10702 [30:37<1:09:24,  2.01it/s] 22%|██▏       | 2348/10702 [30:38<1:09:22,  2.01it/s] 22%|██▏       | 2349/10702 [30:38<1:10:10,  1.98it/s] 22%|██▏       | 2350/10702 [30:39<1:09:49,  1.99it/s]{'loss': 3.9512, 'grad_norm': 0.22665315866470337, 'learning_rate': 0.0009571126229115046, 'epoch': 0.22}
+                                                       22%|██▏       | 2350/10702 [30:39<1:09:49,  1.99it/s] 22%|██▏       | 2351/10702 [30:39<1:09:42,  2.00it/s] 22%|██▏       | 2352/10702 [30:40<1:09:31,  2.00it/s] 22%|██▏       | 2353/10702 [30:40<1:09:22,  2.01it/s] 22%|██▏       | 2354/10702 [30:41<1:09:21,  2.01it/s] 22%|██▏       | 2355/10702 [30:41<1:09:18,  2.01it/s] 22%|██▏       | 2356/10702 [30:42<1:09:13,  2.01it/s] 22%|██▏       | 2357/10702 [30:42<1:09:08,  2.01it/s] 22%|██▏       | 2358/10702 [30:43<1:09:06,  2.01it/s] 22%|██▏       | 2359/10702 [30:43<1:09:07,  2.01it/s] 22%|██▏       | 2360/10702 [30:44<1:09:08,  2.01it/s] 22%|██▏       | 2361/10702 [30:44<1:09:04,  2.01it/s] 22%|██▏       | 2362/10702 [30:45<1:09:07,  2.01it/s] 22%|██▏       | 2363/10702 [30:45<1:09:11,  2.01it/s] 22%|██▏       | 2364/10702 [30:46<1:10:30,  1.97it/s] 22%|██▏       | 2365/10702 [30:46<1:10:02,  1.98it/s] 22%|██▏       | 2366/10702 [30:47<1:09:44,  1.99it/s] 22%|██▏       | 2367/10702 [30:47<1:09:27,  2.00it/s] 22%|██▏       | 2368/10702 [30:48<1:09:17,  2.00it/s] 22%|██▏       | 2369/10702 [30:48<1:09:09,  2.01it/s] 22%|██▏       | 2370/10702 [30:49<1:09:05,  2.01it/s] 22%|██▏       | 2371/10702 [30:49<1:09:07,  2.01it/s] 22%|██▏       | 2372/10702 [30:50<1:09:00,  2.01it/s] 22%|██▏       | 2373/10702 [30:50<1:09:02,  2.01it/s] 22%|██▏       | 2374/10702 [30:51<1:08:57,  2.01it/s] 22%|██▏       | 2375/10702 [30:51<1:09:51,  1.99it/s]{'loss': 3.9367, 'grad_norm': 0.22244535386562347, 'learning_rate': 0.0009554452336126755, 'epoch': 0.22}
+                                                       22%|██▏       | 2375/10702 [30:51<1:09:51,  1.99it/s] 22%|██▏       | 2376/10702 [30:52<1:11:17,  1.95it/s] 22%|██▏       | 2377/10702 [30:52<1:10:33,  1.97it/s] 22%|██▏       | 2378/10702 [30:53<1:10:07,  1.98it/s] 22%|██▏       | 2379/10702 [30:53<1:09:44,  1.99it/s] 22%|██▏       | 2380/10702 [30:54<1:09:36,  1.99it/s] 22%|██▏       | 2381/10702 [30:54<1:09:22,  2.00it/s] 22%|██▏       | 2382/10702 [30:55<1:10:25,  1.97it/s] 22%|██▏       | 2383/10702 [30:55<1:09:57,  1.98it/s] 22%|██▏       | 2384/10702 [30:56<1:09:38,  1.99it/s] 22%|██▏       | 2385/10702 [30:56<1:09:26,  2.00it/s] 22%|██▏       | 2386/10702 [30:57<1:09:23,  2.00it/s] 22%|██▏       | 2387/10702 [30:57<1:09:24,  2.00it/s] 22%|██▏       | 2388/10702 [30:58<1:09:12,  2.00it/s] 22%|██▏       | 2389/10702 [30:58<1:09:02,  2.01it/s] 22%|██▏       | 2390/10702 [30:59<1:09:04,  2.01it/s] 22%|██▏       | 2391/10702 [30:59<1:09:00,  2.01it/s] 22%|██▏       | 2392/10702 [31:00<1:08:57,  2.01it/s] 22%|██▏       | 2393/10702 [31:00<1:09:04,  2.00it/s] 22%|██▏       | 2394/10702 [31:01<1:09:07,  2.00it/s] 22%|██▏       | 2395/10702 [31:01<1:09:03,  2.00it/s] 22%|██▏       | 2396/10702 [31:02<1:08:57,  2.01it/s] 22%|██▏       | 2397/10702 [31:02<1:08:58,  2.01it/s] 22%|██▏       | 2398/10702 [31:03<1:09:52,  1.98it/s] 22%|██▏       | 2399/10702 [31:03<1:09:28,  1.99it/s] 22%|██▏       | 2400/10702 [31:04<1:09:57,  1.98it/s]{'loss': 3.9356, 'grad_norm': 0.21205265820026398, 'learning_rate': 0.0009537475563030375, 'epoch': 0.22}
+                                                       22%|██▏       | 2400/10702 [31:04<1:09:57,  1.98it/s] 22%|██▏       | 2401/10702 [31:04<1:09:39,  1.99it/s] 22%|██▏       | 2402/10702 [31:05<1:09:22,  1.99it/s] 22%|██▏       | 2403/10702 [31:05<1:09:12,  2.00it/s] 22%|██▏       | 2404/10702 [31:06<1:09:00,  2.00it/s] 22%|██▏       | 2405/10702 [31:06<1:08:59,  2.00it/s] 22%|██▏       | 2406/10702 [31:07<1:08:55,  2.01it/s] 22%|██▏       | 2407/10702 [31:07<1:08:47,  2.01it/s] 23%|██▎       | 2408/10702 [31:08<1:08:48,  2.01it/s] 23%|██▎       | 2409/10702 [31:08<1:10:25,  1.96it/s] 23%|██▎       | 2410/10702 [31:09<1:09:59,  1.97it/s] 23%|██▎       | 2411/10702 [31:09<1:09:36,  1.99it/s] 23%|██▎       | 2412/10702 [31:10<1:09:16,  1.99it/s] 23%|██▎       | 2413/10702 [31:10<1:09:03,  2.00it/s] 23%|██▎       | 2414/10702 [31:11<1:08:53,  2.00it/s] 23%|██▎       | 2415/10702 [31:11<1:08:43,  2.01it/s] 23%|██▎       | 2416/10702 [31:12<1:08:43,  2.01it/s] 23%|██▎       | 2417/10702 [31:12<1:08:39,  2.01it/s] 23%|██▎       | 2418/10702 [31:13<1:08:36,  2.01it/s] 23%|██▎       | 2419/10702 [31:13<1:08:36,  2.01it/s] 23%|██▎       | 2420/10702 [31:14<1:08:33,  2.01it/s] 23%|██▎       | 2421/10702 [31:14<1:08:38,  2.01it/s] 23%|██▎       | 2422/10702 [31:15<1:08:40,  2.01it/s] 23%|██▎       | 2423/10702 [31:15<1:08:34,  2.01it/s] 23%|██▎       | 2424/10702 [31:16<1:08:33,  2.01it/s] 23%|██▎       | 2425/10702 [31:16<1:08:32,  2.01it/s]{'loss': 3.936, 'grad_norm': 0.2003641575574875, 'learning_rate': 0.0009520197038814968, 'epoch': 0.23}                                                      
+ 23%|██▎       | 2425/10702 [31:16<1:08:32,  2.01it/s] 23%|██▎       | 2426/10702 [31:17<1:09:25,  1.99it/s] 23%|██▎       | 2427/10702 [31:17<1:09:13,  1.99it/s] 23%|██▎       | 2428/10702 [31:18<1:10:18,  1.96it/s] 23%|██▎       | 2429/10702 [31:18<1:09:48,  1.98it/s] 23%|██▎       | 2430/10702 [31:19<1:09:21,  1.99it/s] 23%|██▎       | 2431/10702 [31:19<1:09:07,  1.99it/s] 23%|██▎       | 2432/10702 [31:20<1:08:53,  2.00it/s] 23%|██▎       | 2433/10702 [31:20<1:08:44,  2.00it/s] 23%|██▎       | 2434/10702 [31:21<1:08:41,  2.01it/s] 23%|██▎       | 2435/10702 [31:21<1:08:36,  2.01it/s] 23%|██▎       | 2436/10702 [31:22<1:09:48,  1.97it/s] 23%|██▎       | 2437/10702 [31:22<1:09:19,  1.99it/s] 23%|██▎       | 2438/10702 [31:23<1:09:05,  1.99it/s] 23%|██▎       | 2439/10702 [31:23<1:08:51,  2.00it/s] 23%|██▎       | 2440/10702 [31:24<1:08:40,  2.00it/s] 23%|██▎       | 2441/10702 [31:24<1:08:38,  2.01it/s] 23%|██▎       | 2442/10702 [31:25<1:08:30,  2.01it/s] 23%|██▎       | 2443/10702 [31:25<1:08:29,  2.01it/s] 23%|██▎       | 2444/10702 [31:26<1:08:26,  2.01it/s] 23%|██▎       | 2445/10702 [31:26<1:08:22,  2.01it/s] 23%|██▎       | 2446/10702 [31:27<1:08:27,  2.01it/s] 23%|██▎       | 2447/10702 [31:27<1:08:24,  2.01it/s] 23%|██▎       | 2448/10702 [31:28<1:08:24,  2.01it/s] 23%|██▎       | 2449/10702 [31:28<1:08:28,  2.01it/s] 23%|██▎       | 2450/10702 [31:29<1:08:22,  2.01it/s]                                                      {'loss': 3.9415, 'grad_norm': 0.2130541056394577, 'learning_rate': 0.0009502617912536642, 'epoch': 0.23}
+ 23%|██▎       | 2450/10702 [31:29<1:08:22,  2.01it/s] 23%|██▎       | 2451/10702 [31:29<1:08:25,  2.01it/s] 23%|██▎       | 2452/10702 [31:30<1:08:28,  2.01it/s] 23%|██▎       | 2453/10702 [31:30<1:08:24,  2.01it/s] 23%|██▎       | 2454/10702 [31:31<1:08:21,  2.01it/s] 23%|██▎       | 2455/10702 [31:31<1:08:23,  2.01it/s] 23%|██▎       | 2456/10702 [31:32<1:08:19,  2.01it/s] 23%|██▎       | 2457/10702 [31:32<1:08:21,  2.01it/s] 23%|██▎       | 2458/10702 [31:33<1:08:24,  2.01it/s] 23%|██▎       | 2459/10702 [31:33<1:08:20,  2.01it/s] 23%|██▎       | 2460/10702 [31:34<1:08:21,  2.01it/s] 23%|██▎       | 2461/10702 [31:34<1:08:15,  2.01it/s] 23%|██▎       | 2462/10702 [31:35<1:08:12,  2.01it/s] 23%|██▎       | 2463/10702 [31:35<1:08:11,  2.01it/s] 23%|██▎       | 2464/10702 [31:36<1:08:06,  2.02it/s] 23%|██▎       | 2465/10702 [31:36<1:08:14,  2.01it/s] 23%|██▎       | 2466/10702 [31:37<1:08:12,  2.01it/s] 23%|██▎       | 2467/10702 [31:37<1:08:10,  2.01it/s] 23%|██▎       | 2468/10702 [31:38<1:08:17,  2.01it/s] 23%|██▎       | 2469/10702 [31:38<1:08:10,  2.01it/s] 23%|██▎       | 2470/10702 [31:39<1:08:12,  2.01it/s] 23%|██▎       | 2471/10702 [31:39<1:08:06,  2.01it/s] 23%|██▎       | 2472/10702 [31:40<1:08:07,  2.01it/s] 23%|██▎       | 2473/10702 [31:40<1:08:10,  2.01it/s] 23%|██▎       | 2474/10702 [31:41<1:08:06,  2.01it/s] 23%|██▎       | 2475/10702 [31:41<1:08:07,  2.01it/s]                                                      {'loss': 3.9321, 'grad_norm': 0.20592431724071503, 'learning_rate': 0.0009484739353242143, 'epoch': 0.23}
+ 23%|██▎       | 2475/10702 [31:41<1:08:07,  2.01it/s] 23%|██▎       | 2476/10702 [31:42<1:08:11,  2.01it/s] 23%|██▎       | 2477/10702 [31:43<1:19:37,  1.72it/s] 23%|██▎       | 2478/10702 [31:43<1:16:13,  1.80it/s] 23%|██▎       | 2479/10702 [31:44<1:13:45,  1.86it/s] 23%|██▎       | 2480/10702 [31:44<1:12:00,  1.90it/s] 23%|██▎       | 2481/10702 [31:45<1:10:55,  1.93it/s] 23%|██▎       | 2482/10702 [31:45<1:09:58,  1.96it/s] 23%|██▎       | 2483/10702 [31:46<1:09:22,  1.97it/s] 23%|██▎       | 2484/10702 [31:46<1:09:00,  1.98it/s] 23%|██▎       | 2485/10702 [31:47<1:08:41,  1.99it/s] 23%|██▎       | 2486/10702 [31:47<1:08:30,  2.00it/s] 23%|██▎       | 2487/10702 [31:48<1:08:13,  2.01it/s] 23%|██▎       | 2488/10702 [31:48<1:08:10,  2.01it/s] 23%|██▎       | 2489/10702 [31:49<1:32:50,  1.47it/s] 23%|██▎       | 2490/10702 [31:50<1:25:28,  1.60it/s] 23%|██▎       | 2491/10702 [31:50<1:20:15,  1.70it/s] 23%|██▎       | 2492/10702 [31:51<1:16:34,  1.79it/s] 23%|██▎       | 2493/10702 [31:51<1:13:58,  1.85it/s] 23%|██▎       | 2494/10702 [31:52<1:12:09,  1.90it/s] 23%|██▎       | 2495/10702 [31:52<1:10:50,  1.93it/s] 23%|██▎       | 2496/10702 [31:53<1:10:51,  1.93it/s] 23%|██▎       | 2497/10702 [31:53<1:09:55,  1.96it/s] 23%|██▎       | 2498/10702 [31:54<1:09:21,  1.97it/s] 23%|██▎       | 2499/10702 [31:54<1:08:59,  1.98it/s] 23%|██▎       | 2500/10702 [31:55<1:08:36,  1.99it/s]                                                      {'loss': 3.9291, 'grad_norm': 0.21633055806159973, 'learning_rate': 0.0009466562549891096, 'epoch': 0.23}
+ 23%|██▎       | 2500/10702 [31:55<1:08:36,  1.99it/s] 23%|██▎       | 2501/10702 [31:55<1:08:29,  2.00it/s] 23%|██▎       | 2502/10702 [31:56<1:08:16,  2.00it/s] 23%|██▎       | 2503/10702 [31:56<1:08:11,  2.00it/s] 23%|██▎       | 2504/10702 [31:57<1:08:05,  2.01it/s] 23%|██▎       | 2505/10702 [31:57<1:08:36,  1.99it/s] 23%|██▎       | 2506/10702 [31:58<1:08:26,  2.00it/s] 23%|██▎       | 2507/10702 [31:58<1:09:27,  1.97it/s] 23%|██▎       | 2508/10702 [31:59<1:08:58,  1.98it/s] 23%|██▎       | 2509/10702 [31:59<1:08:39,  1.99it/s] 23%|██▎       | 2510/10702 [32:00<1:08:19,  2.00it/s] 23%|██▎       | 2511/10702 [32:00<1:08:09,  2.00it/s] 23%|██▎       | 2512/10702 [32:01<1:08:00,  2.01it/s] 23%|██▎       | 2513/10702 [32:01<1:08:02,  2.01it/s] 23%|██▎       | 2514/10702 [32:02<1:07:58,  2.01it/s] 24%|██▎       | 2515/10702 [32:02<1:07:56,  2.01it/s] 24%|██▎       | 2516/10702 [32:03<1:08:00,  2.01it/s] 24%|██▎       | 2517/10702 [32:03<1:07:53,  2.01it/s] 24%|██▎       | 2518/10702 [32:04<1:07:53,  2.01it/s] 24%|██▎       | 2519/10702 [32:04<1:07:52,  2.01it/s] 24%|██▎       | 2520/10702 [32:05<1:07:48,  2.01it/s] 24%|██▎       | 2521/10702 [32:05<1:07:50,  2.01it/s] 24%|██▎       | 2522/10702 [32:06<1:08:32,  1.99it/s] 24%|██▎       | 2523/10702 [32:06<1:08:15,  2.00it/s] 24%|██▎       | 2524/10702 [32:07<1:08:05,  2.00it/s] 24%|██▎       | 2525/10702 [32:07<1:07:57,  2.01it/s]{'loss': 3.923, 'grad_norm': 0.21042315661907196, 'learning_rate': 0.0009448088711276959, 'epoch': 0.24}
+                                                       24%|██▎       | 2525/10702 [32:07<1:07:57,  2.01it/s] 24%|██▎       | 2526/10702 [32:08<1:08:01,  2.00it/s] 24%|██▎       | 2527/10702 [32:08<1:07:59,  2.00it/s] 24%|██▎       | 2528/10702 [32:09<1:07:51,  2.01it/s] 24%|██▎       | 2529/10702 [32:09<1:07:50,  2.01it/s] 24%|██▎       | 2530/10702 [32:10<1:07:43,  2.01it/s] 24%|██▎       | 2531/10702 [32:10<1:07:38,  2.01it/s] 24%|██▎       | 2532/10702 [32:11<1:07:35,  2.01it/s] 24%|██▎       | 2533/10702 [32:11<1:07:37,  2.01it/s] 24%|██▎       | 2534/10702 [32:12<1:07:36,  2.01it/s] 24%|██▎       | 2535/10702 [32:12<1:07:38,  2.01it/s] 24%|██▎       | 2536/10702 [32:13<1:07:33,  2.01it/s] 24%|██▎       | 2537/10702 [32:13<1:07:38,  2.01it/s] 24%|██▎       | 2538/10702 [32:14<1:07:36,  2.01it/s] 24%|██▎       | 2539/10702 [32:14<1:07:35,  2.01it/s] 24%|██▎       | 2540/10702 [32:15<1:07:36,  2.01it/s] 24%|██▎       | 2541/10702 [32:15<1:07:31,  2.01it/s] 24%|██▍       | 2542/10702 [32:16<1:07:29,  2.02it/s] 24%|██▍       | 2543/10702 [32:16<1:07:28,  2.02it/s] 24%|██▍       | 2544/10702 [32:17<1:07:26,  2.02it/s] 24%|██▍       | 2545/10702 [32:17<1:07:30,  2.01it/s] 24%|██▍       | 2546/10702 [32:18<1:07:23,  2.02it/s] 24%|██▍       | 2547/10702 [32:18<1:07:28,  2.01it/s] 24%|██▍       | 2548/10702 [32:19<1:07:26,  2.02it/s] 24%|██▍       | 2549/10702 [32:19<1:07:26,  2.01it/s] 24%|██▍       | 2550/10702 [32:20<1:07:29,  2.01it/s]                                                      {'loss': 3.917, 'grad_norm': 0.2191469967365265, 'learning_rate': 0.0009429319065946616, 'epoch': 0.24}
+ 24%|██▍       | 2550/10702 [32:20<1:07:29,  2.01it/s] 24%|██▍       | 2551/10702 [32:20<1:07:27,  2.01it/s] 24%|██▍       | 2552/10702 [32:21<1:07:27,  2.01it/s] 24%|██▍       | 2553/10702 [32:21<1:07:25,  2.01it/s] 24%|██▍       | 2554/10702 [32:22<1:08:12,  1.99it/s] 24%|██▍       | 2555/10702 [32:22<1:08:00,  2.00it/s] 24%|██▍       | 2556/10702 [32:23<1:07:46,  2.00it/s] 24%|██▍       | 2557/10702 [32:23<1:07:43,  2.00it/s] 24%|██▍       | 2558/10702 [32:24<1:07:33,  2.01it/s] 24%|██▍       | 2559/10702 [32:24<1:07:31,  2.01it/s] 24%|██▍       | 2560/10702 [32:25<1:07:29,  2.01it/s] 24%|██▍       | 2561/10702 [32:25<1:07:22,  2.01it/s] 24%|██▍       | 2562/10702 [32:26<1:07:17,  2.02it/s] 24%|██▍       | 2563/10702 [32:26<1:07:15,  2.02it/s] 24%|██▍       | 2564/10702 [32:27<1:07:16,  2.02it/s] 24%|██▍       | 2565/10702 [32:27<1:07:28,  2.01it/s] 24%|██▍       | 2566/10702 [32:28<1:07:47,  2.00it/s] 24%|██▍       | 2567/10702 [32:28<1:07:51,  2.00it/s] 24%|██▍       | 2568/10702 [32:29<1:07:45,  2.00it/s] 24%|██▍       | 2569/10702 [32:29<1:07:44,  2.00it/s] 24%|██▍       | 2570/10702 [32:30<1:08:48,  1.97it/s] 24%|██▍       | 2571/10702 [32:30<1:08:32,  1.98it/s] 24%|██▍       | 2572/10702 [32:31<1:08:16,  1.98it/s] 24%|██▍       | 2573/10702 [32:31<1:07:58,  1.99it/s] 24%|██▍       | 2574/10702 [32:32<1:08:47,  1.97it/s] 24%|██▍       | 2575/10702 [32:32<1:08:24,  1.98it/s]                                                      {'loss': 3.9138, 'grad_norm': 0.22185459733009338, 'learning_rate': 0.0009410254862118686, 'epoch': 0.24}
+ 24%|██▍       | 2575/10702 [32:32<1:08:24,  1.98it/s] 24%|██▍       | 2576/10702 [32:33<1:08:18,  1.98it/s] 24%|██▍       | 2577/10702 [32:33<1:07:57,  1.99it/s] 24%|██▍       | 2578/10702 [32:34<1:07:47,  2.00it/s] 24%|██▍       | 2579/10702 [32:34<1:07:42,  2.00it/s] 24%|██▍       | 2580/10702 [32:35<1:07:33,  2.00it/s] 24%|██▍       | 2581/10702 [32:35<1:07:28,  2.01it/s] 24%|██▍       | 2582/10702 [32:36<1:07:26,  2.01it/s] 24%|██▍       | 2583/10702 [32:36<1:07:20,  2.01it/s] 24%|██▍       | 2584/10702 [32:37<1:07:22,  2.01it/s] 24%|██▍       | 2585/10702 [32:37<1:07:14,  2.01it/s] 24%|██▍       | 2586/10702 [32:38<1:07:16,  2.01it/s] 24%|██▍       | 2587/10702 [32:38<1:07:13,  2.01it/s] 24%|██▍       | 2588/10702 [32:39<1:07:11,  2.01it/s] 24%|██▍       | 2589/10702 [32:39<1:07:15,  2.01it/s] 24%|██▍       | 2590/10702 [32:40<1:07:16,  2.01it/s] 24%|██▍       | 2591/10702 [32:40<1:07:13,  2.01it/s] 24%|██▍       | 2592/10702 [32:41<1:07:16,  2.01it/s] 24%|██▍       | 2593/10702 [32:41<1:07:09,  2.01it/s] 24%|██▍       | 2594/10702 [32:42<1:07:09,  2.01it/s] 24%|██▍       | 2595/10702 [32:42<1:07:10,  2.01it/s] 24%|██▍       | 2596/10702 [32:43<1:07:05,  2.01it/s] 24%|██▍       | 2597/10702 [32:43<1:07:09,  2.01it/s] 24%|██▍       | 2598/10702 [32:44<1:07:59,  1.99it/s] 24%|██▍       | 2599/10702 [32:44<1:07:36,  2.00it/s] 24%|██▍       | 2600/10702 [32:45<1:08:02,  1.98it/s]{'loss': 3.9095, 'grad_norm': 0.204212948679924, 'learning_rate': 0.0009390897367600513, 'epoch': 0.24}
+                                                       24%|██▍       | 2600/10702 [32:45<1:08:02,  1.98it/s] 24%|██▍       | 2601/10702 [32:45<1:07:44,  1.99it/s] 24%|██▍       | 2602/10702 [32:46<1:07:31,  2.00it/s] 24%|██▍       | 2603/10702 [32:46<1:07:24,  2.00it/s] 24%|██▍       | 2604/10702 [32:47<1:07:16,  2.01it/s] 24%|██▍       | 2605/10702 [32:47<1:07:11,  2.01it/s] 24%|██▍       | 2606/10702 [32:48<1:07:06,  2.01it/s] 24%|██▍       | 2607/10702 [32:48<1:07:41,  1.99it/s] 24%|██▍       | 2608/10702 [32:49<1:07:30,  2.00it/s] 24%|██▍       | 2609/10702 [32:49<1:07:24,  2.00it/s] 24%|██▍       | 2610/10702 [32:50<1:08:39,  1.96it/s] 24%|██▍       | 2611/10702 [32:50<1:08:15,  1.98it/s] 24%|██▍       | 2612/10702 [32:51<1:07:52,  1.99it/s] 24%|██▍       | 2613/10702 [32:51<1:07:35,  1.99it/s] 24%|██▍       | 2614/10702 [32:52<1:07:22,  2.00it/s] 24%|██▍       | 2615/10702 [32:52<1:07:12,  2.01it/s] 24%|██▍       | 2616/10702 [32:53<1:07:07,  2.01it/s] 24%|██▍       | 2617/10702 [32:53<1:07:41,  1.99it/s] 24%|██▍       | 2618/10702 [32:54<1:07:29,  2.00it/s] 24%|██▍       | 2619/10702 [32:54<1:07:11,  2.00it/s] 24%|██▍       | 2620/10702 [32:55<1:07:05,  2.01it/s] 24%|██▍       | 2621/10702 [32:55<1:07:04,  2.01it/s] 25%|██▍       | 2622/10702 [32:56<1:06:56,  2.01it/s] 25%|██▍       | 2623/10702 [32:56<1:06:59,  2.01it/s] 25%|██▍       | 2624/10702 [32:57<1:06:55,  2.01it/s] 25%|██▍       | 2625/10702 [32:57<1:07:02,  2.01it/s]{'loss': 3.9219, 'grad_norm': 0.20412731170654297, 'learning_rate': 0.0009371247869703854, 'epoch': 0.25}
+                                                       25%|██▍       | 2625/10702 [32:57<1:07:02,  2.01it/s] 25%|██▍       | 2626/10702 [32:58<1:07:08,  2.00it/s] 25%|██▍       | 2627/10702 [32:58<1:08:00,  1.98it/s] 25%|██▍       | 2628/10702 [32:59<1:07:38,  1.99it/s] 25%|██▍       | 2629/10702 [32:59<1:07:23,  2.00it/s] 25%|██▍       | 2630/10702 [33:00<1:07:17,  2.00it/s] 25%|██▍       | 2631/10702 [33:00<1:07:03,  2.01it/s] 25%|██▍       | 2632/10702 [33:01<1:07:01,  2.01it/s] 25%|██▍       | 2633/10702 [33:01<1:06:58,  2.01it/s] 25%|██▍       | 2634/10702 [33:02<1:06:53,  2.01it/s] 25%|██▍       | 2635/10702 [33:02<1:07:37,  1.99it/s] 25%|██▍       | 2636/10702 [33:03<1:07:23,  1.99it/s] 25%|██▍       | 2637/10702 [33:03<1:07:14,  2.00it/s] 25%|██▍       | 2638/10702 [33:04<1:07:03,  2.00it/s] 25%|██▍       | 2639/10702 [33:04<1:08:24,  1.96it/s] 25%|██▍       | 2640/10702 [33:05<1:07:50,  1.98it/s] 25%|██▍       | 2641/10702 [33:05<1:07:30,  1.99it/s] 25%|██▍       | 2642/10702 [33:06<1:07:49,  1.98it/s] 25%|██▍       | 2643/10702 [33:06<1:07:29,  1.99it/s] 25%|██▍       | 2644/10702 [33:07<1:07:13,  2.00it/s] 25%|██▍       | 2645/10702 [33:07<1:07:06,  2.00it/s] 25%|██▍       | 2646/10702 [33:08<1:06:52,  2.01it/s] 25%|██▍       | 2647/10702 [33:08<1:06:51,  2.01it/s] 25%|██▍       | 2648/10702 [33:09<1:06:44,  2.01it/s] 25%|██▍       | 2649/10702 [33:09<1:06:44,  2.01it/s] 25%|██▍       | 2650/10702 [33:10<1:06:40,  2.01it/s]                                                      {'loss': 3.9167, 'grad_norm': 0.20343470573425293, 'learning_rate': 0.0009351307675159266, 'epoch': 0.25}
+ 25%|██▍       | 2650/10702 [33:10<1:06:40,  2.01it/s] 25%|██▍       | 2651/10702 [33:10<1:06:42,  2.01it/s] 25%|██▍       | 2652/10702 [33:11<1:06:47,  2.01it/s] 25%|██▍       | 2653/10702 [33:11<1:06:46,  2.01it/s] 25%|██▍       | 2654/10702 [33:12<1:06:48,  2.01it/s] 25%|██▍       | 2655/10702 [33:12<1:06:51,  2.01it/s] 25%|██▍       | 2656/10702 [33:13<1:06:44,  2.01it/s] 25%|██▍       | 2657/10702 [33:13<1:06:41,  2.01it/s] 25%|██▍       | 2658/10702 [33:14<1:06:40,  2.01it/s] 25%|██▍       | 2659/10702 [33:14<1:06:41,  2.01it/s] 25%|██▍       | 2660/10702 [33:15<1:06:40,  2.01it/s] 25%|██▍       | 2661/10702 [33:15<1:06:40,  2.01it/s] 25%|██▍       | 2662/10702 [33:16<1:06:36,  2.01it/s] 25%|██▍       | 2663/10702 [33:16<1:06:36,  2.01it/s] 25%|██▍       | 2664/10702 [33:17<1:06:37,  2.01it/s] 25%|██▍       | 2665/10702 [33:17<1:06:35,  2.01it/s] 25%|██▍       | 2666/10702 [33:18<1:06:37,  2.01it/s] 25%|██▍       | 2667/10702 [33:18<1:06:32,  2.01it/s] 25%|██▍       | 2668/10702 [33:19<1:06:29,  2.01it/s] 25%|██▍       | 2669/10702 [33:19<1:06:29,  2.01it/s] 25%|██▍       | 2670/10702 [33:19<1:06:25,  2.02it/s] 25%|██▍       | 2671/10702 [33:20<1:06:27,  2.01it/s] 25%|██▍       | 2672/10702 [33:20<1:06:24,  2.02it/s] 25%|██▍       | 2673/10702 [33:21<1:06:24,  2.01it/s] 25%|██▍       | 2674/10702 [33:21<1:06:25,  2.01it/s] 25%|██▍       | 2675/10702 [33:22<1:06:23,  2.02it/s]                                                      {'loss': 3.8961, 'grad_norm': 0.22323758900165558, 'learning_rate': 0.0009331078110029211, 'epoch': 0.25}
+ 25%|██▍       | 2675/10702 [33:22<1:06:23,  2.02it/s] 25%|██▌       | 2676/10702 [33:22<1:06:29,  2.01it/s] 25%|██▌       | 2677/10702 [33:23<1:06:24,  2.01it/s] 25%|██▌       | 2678/10702 [33:23<1:06:21,  2.02it/s] 25%|██▌       | 2679/10702 [33:24<1:06:19,  2.02it/s] 25%|██▌       | 2680/10702 [33:24<1:06:18,  2.02it/s] 25%|██▌       | 2681/10702 [33:25<1:06:18,  2.02it/s] 25%|██▌       | 2682/10702 [33:25<1:06:16,  2.02it/s] 25%|██▌       | 2683/10702 [33:26<1:06:19,  2.02it/s] 25%|██▌       | 2684/10702 [33:26<1:06:17,  2.02it/s] 25%|██▌       | 2685/10702 [33:27<1:06:15,  2.02it/s] 25%|██▌       | 2686/10702 [33:27<1:06:30,  2.01it/s] 25%|██▌       | 2687/10702 [33:28<1:06:31,  2.01it/s] 25%|██▌       | 2688/10702 [33:28<1:06:22,  2.01it/s] 25%|██▌       | 2689/10702 [33:29<1:06:24,  2.01it/s] 25%|██▌       | 2690/10702 [33:29<1:06:19,  2.01it/s] 25%|██▌       | 2691/10702 [33:30<1:06:18,  2.01it/s] 25%|██▌       | 2692/10702 [33:30<1:06:16,  2.01it/s] 25%|██▌       | 2693/10702 [33:31<1:06:15,  2.01it/s] 25%|██▌       | 2694/10702 [33:31<1:06:17,  2.01it/s] 25%|██▌       | 2695/10702 [33:32<1:07:21,  1.98it/s] 25%|██▌       | 2696/10702 [33:32<1:07:00,  1.99it/s] 25%|██▌       | 2697/10702 [33:33<1:06:45,  2.00it/s] 25%|██▌       | 2698/10702 [33:33<1:06:35,  2.00it/s] 25%|██▌       | 2699/10702 [33:34<1:06:25,  2.01it/s] 25%|██▌       | 2700/10702 [33:34<1:06:26,  2.01it/s]{'loss': 3.8991, 'grad_norm': 0.2064463198184967, 'learning_rate': 0.0009310560519619871, 'epoch': 0.25}
+                                                       25%|██▌       | 2700/10702 [33:34<1:06:26,  2.01it/s] 25%|██▌       | 2701/10702 [33:35<1:06:22,  2.01it/s] 25%|██▌       | 2702/10702 [33:35<1:06:17,  2.01it/s] 25%|██▌       | 2703/10702 [33:36<1:06:16,  2.01it/s] 25%|██▌       | 2704/10702 [33:36<1:07:40,  1.97it/s] 25%|██▌       | 2705/10702 [33:37<1:07:14,  1.98it/s] 25%|██▌       | 2706/10702 [33:37<1:06:55,  1.99it/s] 25%|██▌       | 2707/10702 [33:38<1:06:47,  2.00it/s] 25%|██▌       | 2708/10702 [33:38<1:06:29,  2.00it/s] 25%|██▌       | 2709/10702 [33:39<1:06:23,  2.01it/s] 25%|██▌       | 2710/10702 [33:39<1:06:21,  2.01it/s] 25%|██▌       | 2711/10702 [33:40<1:06:12,  2.01it/s] 25%|██▌       | 2712/10702 [33:40<1:06:11,  2.01it/s] 25%|██▌       | 2713/10702 [33:41<1:06:06,  2.01it/s] 25%|██▌       | 2714/10702 [33:41<1:06:07,  2.01it/s] 25%|██▌       | 2715/10702 [33:42<1:06:35,  2.00it/s] 25%|██▌       | 2716/10702 [33:42<1:06:29,  2.00it/s] 25%|██▌       | 2717/10702 [33:43<1:06:18,  2.01it/s] 25%|██▌       | 2718/10702 [33:43<1:06:15,  2.01it/s] 25%|██▌       | 2719/10702 [33:44<1:06:08,  2.01it/s] 25%|██▌       | 2720/10702 [33:44<1:06:06,  2.01it/s] 25%|██▌       | 2721/10702 [33:45<1:06:06,  2.01it/s] 25%|██▌       | 2722/10702 [33:45<1:06:02,  2.01it/s] 25%|██▌       | 2723/10702 [33:46<1:06:03,  2.01it/s] 25%|██▌       | 2724/10702 [33:46<1:05:59,  2.01it/s] 25%|██▌       | 2725/10702 [33:47<1:06:01,  2.01it/s]                                                      {'loss': 3.8915, 'grad_norm': 0.20716525614261627, 'learning_rate': 0.0009289756268391673, 'epoch': 0.25}
+ 25%|██▌       | 2725/10702 [33:47<1:06:01,  2.01it/s] 25%|██▌       | 2726/10702 [33:47<1:06:05,  2.01it/s] 25%|██▌       | 2727/10702 [33:48<1:06:00,  2.01it/s] 25%|██▌       | 2728/10702 [33:48<1:06:00,  2.01it/s] 25%|██▌       | 2729/10702 [33:49<1:05:55,  2.02it/s] 26%|██▌       | 2730/10702 [33:49<1:06:48,  1.99it/s] 26%|██▌       | 2731/10702 [33:50<1:06:30,  2.00it/s] 26%|██▌       | 2732/10702 [33:50<1:06:20,  2.00it/s] 26%|██▌       | 2733/10702 [33:51<1:06:11,  2.01it/s] 26%|██▌       | 2734/10702 [33:51<1:06:04,  2.01it/s] 26%|██▌       | 2735/10702 [33:52<1:06:03,  2.01it/s] 26%|██▌       | 2736/10702 [33:52<1:05:56,  2.01it/s] 26%|██▌       | 2737/10702 [33:53<1:06:01,  2.01it/s] 26%|██▌       | 2738/10702 [33:53<1:05:55,  2.01it/s] 26%|██▌       | 2739/10702 [33:54<1:05:52,  2.01it/s] 26%|██▌       | 2740/10702 [33:54<1:05:58,  2.01it/s] 26%|██▌       | 2741/10702 [33:55<1:07:41,  1.96it/s] 26%|██▌       | 2742/10702 [33:55<1:07:44,  1.96it/s] 26%|██▌       | 2743/10702 [33:56<1:07:08,  1.98it/s] 26%|██▌       | 2744/10702 [33:56<1:06:41,  1.99it/s] 26%|██▌       | 2745/10702 [33:57<1:06:28,  2.00it/s] 26%|██▌       | 2746/10702 [33:57<1:06:28,  1.99it/s] 26%|██▌       | 2747/10702 [33:58<1:06:26,  2.00it/s] 26%|██▌       | 2748/10702 [33:58<1:06:13,  2.00it/s] 26%|██▌       | 2749/10702 [33:59<1:06:06,  2.01it/s] 26%|██▌       | 2750/10702 [33:59<1:06:01,  2.01it/s]                                                      {'loss': 3.8927, 'grad_norm': 0.21467755734920502, 'learning_rate': 0.0009268666739868567, 'epoch': 0.26}
+ 26%|██▌       | 2750/10702 [33:59<1:06:01,  2.01it/s] 26%|██▌       | 2751/10702 [34:00<1:05:58,  2.01it/s] 26%|██▌       | 2752/10702 [34:00<1:05:53,  2.01it/s] 26%|██▌       | 2753/10702 [34:01<1:05:49,  2.01it/s] 26%|██▌       | 2754/10702 [34:01<1:05:48,  2.01it/s] 26%|██▌       | 2755/10702 [34:02<1:05:44,  2.01it/s] 26%|██▌       | 2756/10702 [34:02<1:05:43,  2.01it/s] 26%|██▌       | 2757/10702 [34:03<1:05:43,  2.01it/s] 26%|██▌       | 2758/10702 [34:03<1:06:22,  1.99it/s] 26%|██▌       | 2759/10702 [34:04<1:07:08,  1.97it/s] 26%|██▌       | 2760/10702 [34:04<1:09:06,  1.92it/s] 26%|██▌       | 2761/10702 [34:05<1:08:05,  1.94it/s] 26%|██▌       | 2762/10702 [34:05<1:07:18,  1.97it/s] 26%|██▌       | 2763/10702 [34:06<1:06:49,  1.98it/s] 26%|██▌       | 2764/10702 [34:06<1:06:26,  1.99it/s] 26%|██▌       | 2765/10702 [34:07<1:06:08,  2.00it/s] 26%|██▌       | 2766/10702 [34:07<1:06:01,  2.00it/s] 26%|██▌       | 2767/10702 [34:08<1:05:53,  2.01it/s] 26%|██▌       | 2768/10702 [34:08<1:05:52,  2.01it/s] 26%|██▌       | 2769/10702 [34:09<1:05:43,  2.01it/s] 26%|██▌       | 2770/10702 [34:09<1:05:39,  2.01it/s] 26%|██▌       | 2771/10702 [34:10<1:05:36,  2.01it/s] 26%|██▌       | 2772/10702 [34:10<1:06:15,  1.99it/s] 26%|██▌       | 2773/10702 [34:11<1:05:56,  2.00it/s] 26%|██▌       | 2774/10702 [34:11<1:05:53,  2.01it/s] 26%|██▌       | 2775/10702 [34:12<1:05:42,  2.01it/s]                                                      {'loss': 3.899, 'grad_norm': 0.2049473226070404, 'learning_rate': 0.0009247293336546002, 'epoch': 0.26}
+ 26%|██▌       | 2775/10702 [34:12<1:05:42,  2.01it/s] 26%|██▌       | 2776/10702 [34:12<1:05:42,  2.01it/s] 26%|██▌       | 2777/10702 [34:13<1:05:40,  2.01it/s] 26%|██▌       | 2778/10702 [34:13<1:05:37,  2.01it/s] 26%|██▌       | 2779/10702 [34:14<1:05:32,  2.01it/s] 26%|██▌       | 2780/10702 [34:14<1:05:33,  2.01it/s] 26%|██▌       | 2781/10702 [34:15<1:05:33,  2.01it/s] 26%|██▌       | 2782/10702 [34:15<1:06:04,  2.00it/s] 26%|██▌       | 2783/10702 [34:16<1:05:53,  2.00it/s] 26%|██▌       | 2784/10702 [34:16<1:05:48,  2.01it/s] 26%|██▌       | 2785/10702 [34:17<1:05:45,  2.01it/s] 26%|██▌       | 2786/10702 [34:17<1:05:52,  2.00it/s] 26%|██▌       | 2787/10702 [34:18<1:05:43,  2.01it/s] 26%|██▌       | 2788/10702 [34:18<1:06:42,  1.98it/s] 26%|██▌       | 2789/10702 [34:19<1:06:15,  1.99it/s] 26%|██▌       | 2790/10702 [34:19<1:06:01,  2.00it/s] 26%|██▌       | 2791/10702 [34:20<1:05:54,  2.00it/s] 26%|██▌       | 2792/10702 [34:20<1:05:44,  2.01it/s] 26%|██▌       | 2793/10702 [34:21<1:05:38,  2.01it/s] 26%|██▌       | 2794/10702 [34:21<1:05:34,  2.01it/s] 26%|██▌       | 2795/10702 [34:22<1:05:30,  2.01it/s] 26%|██▌       | 2796/10702 [34:22<1:05:29,  2.01it/s] 26%|██▌       | 2797/10702 [34:23<1:05:23,  2.01it/s] 26%|██▌       | 2798/10702 [34:23<1:05:26,  2.01it/s] 26%|██▌       | 2799/10702 [34:24<1:05:22,  2.01it/s] 26%|██▌       | 2800/10702 [34:24<1:05:18,  2.02it/s]{'loss': 3.8927, 'grad_norm': 0.21084299683570862, 'learning_rate': 0.0009225637479797662, 'epoch': 0.26}
+                                                       26%|██▌       | 2800/10702 [34:24<1:05:18,  2.02it/s] 26%|██▌       | 2801/10702 [34:25<1:05:22,  2.01it/s] 26%|██▌       | 2802/10702 [34:25<1:05:18,  2.02it/s] 26%|██▌       | 2803/10702 [34:26<1:05:20,  2.02it/s] 26%|██▌       | 2804/10702 [34:26<1:05:14,  2.02it/s] 26%|██▌       | 2805/10702 [34:27<1:05:16,  2.02it/s] 26%|██▌       | 2806/10702 [34:27<1:05:28,  2.01it/s] 26%|██▌       | 2807/10702 [34:28<1:05:24,  2.01it/s] 26%|██▌       | 2808/10702 [34:28<1:05:23,  2.01it/s] 26%|██▌       | 2809/10702 [34:29<1:05:18,  2.01it/s] 26%|██▋       | 2810/10702 [34:29<1:05:16,  2.02it/s] 26%|██▋       | 2811/10702 [34:30<1:05:22,  2.01it/s] 26%|██▋       | 2812/10702 [34:30<1:05:15,  2.01it/s] 26%|██▋       | 2813/10702 [34:31<1:05:13,  2.02it/s] 26%|██▋       | 2814/10702 [34:31<1:05:12,  2.02it/s] 26%|██▋       | 2815/10702 [34:32<1:05:11,  2.02it/s] 26%|██▋       | 2816/10702 [34:32<1:05:12,  2.02it/s] 26%|██▋       | 2817/10702 [34:33<1:05:10,  2.02it/s] 26%|██▋       | 2818/10702 [34:33<1:05:09,  2.02it/s] 26%|██▋       | 2819/10702 [34:34<1:05:08,  2.02it/s] 26%|██▋       | 2820/10702 [34:34<1:05:10,  2.02it/s] 26%|██▋       | 2821/10702 [34:35<1:05:12,  2.01it/s] 26%|██▋       | 2822/10702 [34:35<1:05:12,  2.01it/s] 26%|██▋       | 2823/10702 [34:36<1:05:13,  2.01it/s] 26%|██▋       | 2824/10702 [34:36<1:05:09,  2.02it/s] 26%|██▋       | 2825/10702 [34:37<1:05:09,  2.02it/s]{'loss': 3.8823, 'grad_norm': 0.21537140011787415, 'learning_rate': 0.0009203700609780948, 'epoch': 0.26}
+                                                       26%|██▋       | 2825/10702 [34:37<1:05:09,  2.02it/s] 26%|██▋       | 2826/10702 [34:37<1:05:11,  2.01it/s] 26%|██▋       | 2827/10702 [34:38<1:05:09,  2.01it/s] 26%|██▋       | 2828/10702 [34:38<1:05:11,  2.01it/s] 26%|██▋       | 2829/10702 [34:39<1:05:04,  2.02it/s] 26%|██▋       | 2830/10702 [34:39<1:05:05,  2.02it/s] 26%|██▋       | 2831/10702 [34:40<1:05:07,  2.01it/s] 26%|██▋       | 2832/10702 [34:40<1:05:04,  2.02it/s] 26%|██▋       | 2833/10702 [34:41<1:05:03,  2.02it/s] 26%|██▋       | 2834/10702 [34:41<1:05:00,  2.02it/s] 26%|██▋       | 2835/10702 [34:42<1:05:04,  2.01it/s] 26%|██▋       | 2836/10702 [34:42<1:05:39,  2.00it/s] 27%|██▋       | 2837/10702 [34:43<1:05:28,  2.00it/s] 27%|██▋       | 2838/10702 [34:43<1:05:16,  2.01it/s] 27%|██▋       | 2839/10702 [34:44<1:05:11,  2.01it/s] 27%|██▋       | 2840/10702 [34:44<1:05:08,  2.01it/s] 27%|██▋       | 2841/10702 [34:45<1:05:06,  2.01it/s] 27%|██▋       | 2842/10702 [34:45<1:05:01,  2.01it/s] 27%|██▋       | 2843/10702 [34:46<1:04:57,  2.02it/s] 27%|██▋       | 2844/10702 [34:46<1:05:01,  2.01it/s] 27%|██▋       | 2845/10702 [34:47<1:04:56,  2.02it/s] 27%|██▋       | 2846/10702 [34:47<1:04:56,  2.02it/s] 27%|██▋       | 2847/10702 [34:48<1:04:51,  2.02it/s] 27%|██▋       | 2848/10702 [34:48<1:04:52,  2.02it/s] 27%|██▋       | 2849/10702 [34:49<1:04:52,  2.02it/s] 27%|██▋       | 2850/10702 [34:49<1:04:49,  2.02it/s]                                                      {'loss': 3.8908, 'grad_norm': 0.2277318239212036, 'learning_rate': 0.0009181484185341198, 'epoch': 0.27}
+ 27%|██▋       | 2850/10702 [34:49<1:04:49,  2.02it/s] 27%|██▋       | 2851/10702 [34:50<1:04:57,  2.01it/s] 27%|██▋       | 2852/10702 [34:50<1:04:51,  2.02it/s] 27%|██▋       | 2853/10702 [34:51<1:04:55,  2.01it/s] 27%|██▋       | 2854/10702 [34:51<1:04:53,  2.02it/s] 27%|██▋       | 2855/10702 [34:52<1:04:53,  2.02it/s] 27%|██▋       | 2856/10702 [34:52<1:04:49,  2.02it/s] 27%|██▋       | 2857/10702 [34:53<1:04:47,  2.02it/s] 27%|██▋       | 2858/10702 [34:53<1:04:50,  2.02it/s] 27%|██▋       | 2859/10702 [34:54<1:04:47,  2.02it/s] 27%|██▋       | 2860/10702 [34:54<1:04:49,  2.02it/s] 27%|██▋       | 2861/10702 [34:55<1:04:49,  2.02it/s] 27%|██▋       | 2862/10702 [34:55<1:04:49,  2.02it/s] 27%|██▋       | 2863/10702 [34:56<1:04:52,  2.01it/s] 27%|██▋       | 2864/10702 [34:56<1:04:46,  2.02it/s] 27%|██▋       | 2865/10702 [34:57<1:04:52,  2.01it/s] 27%|██▋       | 2866/10702 [34:57<1:05:02,  2.01it/s] 27%|██▋       | 2867/10702 [34:58<1:05:15,  2.00it/s] 27%|██▋       | 2868/10702 [34:58<1:05:12,  2.00it/s] 27%|██▋       | 2869/10702 [34:59<1:05:12,  2.00it/s] 27%|██▋       | 2870/10702 [34:59<1:05:06,  2.01it/s] 27%|██▋       | 2871/10702 [35:00<1:05:04,  2.01it/s] 27%|██▋       | 2872/10702 [35:00<1:05:03,  2.01it/s] 27%|██▋       | 2873/10702 [35:01<1:05:02,  2.01it/s] 27%|██▋       | 2874/10702 [35:01<1:04:57,  2.01it/s] 27%|██▋       | 2875/10702 [35:02<1:04:58,  2.01it/s]                                                      {'loss': 3.8752, 'grad_norm': 0.20062386989593506, 'learning_rate': 0.0009158989683914674, 'epoch': 0.27}
+ 27%|██▋       | 2875/10702 [35:02<1:04:58,  2.01it/s] 27%|██▋       | 2876/10702 [35:02<1:05:01,  2.01it/s] 27%|██▋       | 2877/10702 [35:03<1:05:02,  2.01it/s] 27%|██▋       | 2878/10702 [35:03<1:06:43,  1.95it/s] 27%|██▋       | 2879/10702 [35:04<1:06:10,  1.97it/s] 27%|██▋       | 2880/10702 [35:04<1:05:42,  1.98it/s] 27%|██▋       | 2881/10702 [35:05<1:05:24,  1.99it/s] 27%|██▋       | 2882/10702 [35:05<1:05:14,  2.00it/s] 27%|██▋       | 2883/10702 [35:06<1:05:06,  2.00it/s] 27%|██▋       | 2884/10702 [35:06<1:04:57,  2.01it/s] 27%|██▋       | 2885/10702 [35:07<1:04:55,  2.01it/s] 27%|██▋       | 2886/10702 [35:07<1:04:50,  2.01it/s] 27%|██▋       | 2887/10702 [35:08<1:04:46,  2.01it/s] 27%|██▋       | 2888/10702 [35:08<1:04:44,  2.01it/s] 27%|██▋       | 2889/10702 [35:09<1:04:42,  2.01it/s] 27%|██▋       | 2890/10702 [35:09<1:04:43,  2.01it/s] 27%|██▋       | 2891/10702 [35:10<1:04:41,  2.01it/s] 27%|██▋       | 2892/10702 [35:10<1:05:14,  2.00it/s] 27%|██▋       | 2893/10702 [35:11<1:05:03,  2.00it/s] 27%|██▋       | 2894/10702 [35:11<1:04:55,  2.00it/s] 27%|██▋       | 2895/10702 [35:12<1:04:50,  2.01it/s] 27%|██▋       | 2896/10702 [35:12<1:04:41,  2.01it/s] 27%|██▋       | 2897/10702 [35:13<1:04:41,  2.01it/s] 27%|██▋       | 2898/10702 [35:13<1:04:35,  2.01it/s] 27%|██▋       | 2899/10702 [35:14<1:04:36,  2.01it/s] 27%|██▋       | 2900/10702 [35:14<1:04:32,  2.01it/s]{'loss': 3.8739, 'grad_norm': 0.20576009154319763, 'learning_rate': 0.0009136218601430313, 'epoch': 0.27}
+                                                       27%|██▋       | 2900/10702 [35:14<1:04:32,  2.01it/s] 27%|██▋       | 2901/10702 [35:15<1:04:36,  2.01it/s] 27%|██▋       | 2902/10702 [35:15<1:04:33,  2.01it/s] 27%|██▋       | 2903/10702 [35:16<1:04:32,  2.01it/s] 27%|██▋       | 2904/10702 [35:16<1:04:34,  2.01it/s] 27%|██▋       | 2905/10702 [35:17<1:04:32,  2.01it/s] 27%|██▋       | 2906/10702 [35:17<1:04:28,  2.02it/s] 27%|██▋       | 2907/10702 [35:18<1:04:26,  2.02it/s] 27%|██▋       | 2908/10702 [35:18<1:04:26,  2.02it/s] 27%|██▋       | 2909/10702 [35:19<1:04:30,  2.01it/s] 27%|██▋       | 2910/10702 [35:19<1:04:26,  2.02it/s] 27%|██▋       | 2911/10702 [35:20<1:04:31,  2.01it/s] 27%|██▋       | 2912/10702 [35:20<1:04:28,  2.01it/s] 27%|██▋       | 2913/10702 [35:21<1:04:30,  2.01it/s] 27%|██▋       | 2914/10702 [35:21<1:04:26,  2.01it/s] 27%|██▋       | 2915/10702 [35:22<1:04:26,  2.01it/s] 27%|██▋       | 2916/10702 [35:22<1:04:28,  2.01it/s] 27%|██▋       | 2917/10702 [35:23<1:04:26,  2.01it/s] 27%|██▋       | 2918/10702 [35:23<1:04:25,  2.01it/s] 27%|██▋       | 2919/10702 [35:24<1:04:28,  2.01it/s] 27%|██▋       | 2920/10702 [35:24<1:04:26,  2.01it/s] 27%|██▋       | 2921/10702 [35:25<1:04:34,  2.01it/s] 27%|██▋       | 2922/10702 [35:25<1:04:29,  2.01it/s] 27%|██▋       | 2923/10702 [35:26<1:04:29,  2.01it/s] 27%|██▋       | 2924/10702 [35:26<1:04:23,  2.01it/s] 27%|██▋       | 2925/10702 [35:27<1:04:20,  2.01it/s]{'loss': 3.8818, 'grad_norm': 0.21026183664798737, 'learning_rate': 0.0009113172452210231, 'epoch': 0.27}                                                      
+ 27%|██▋       | 2925/10702 [35:27<1:04:20,  2.01it/s] 27%|██▋       | 2926/10702 [35:27<1:04:33,  2.01it/s] 27%|██▋       | 2927/10702 [35:28<1:04:45,  2.00it/s] 27%|██▋       | 2928/10702 [35:28<1:05:22,  1.98it/s] 27%|██▋       | 2929/10702 [35:29<1:05:11,  1.99it/s] 27%|██▋       | 2930/10702 [35:29<1:05:04,  1.99it/s] 27%|██▋       | 2931/10702 [35:30<1:05:01,  1.99it/s] 27%|██▋       | 2932/10702 [35:30<1:04:53,  2.00it/s] 27%|██▋       | 2933/10702 [35:31<1:04:44,  2.00it/s] 27%|██▋       | 2934/10702 [35:31<1:04:41,  2.00it/s] 27%|██▋       | 2935/10702 [35:32<1:04:37,  2.00it/s] 27%|██▋       | 2936/10702 [35:32<1:04:31,  2.01it/s] 27%|██▋       | 2937/10702 [35:33<1:04:32,  2.01it/s] 27%|██▋       | 2938/10702 [35:33<1:04:29,  2.01it/s] 27%|██▋       | 2939/10702 [35:34<1:04:23,  2.01it/s] 27%|██▋       | 2940/10702 [35:34<1:04:24,  2.01it/s] 27%|██▋       | 2941/10702 [35:35<1:04:22,  2.01it/s] 27%|██▋       | 2942/10702 [35:35<1:04:20,  2.01it/s] 27%|██▋       | 2943/10702 [35:36<1:04:55,  1.99it/s] 28%|██▊       | 2944/10702 [35:36<1:04:43,  2.00it/s] 28%|██▊       | 2945/10702 [35:37<1:04:37,  2.00it/s] 28%|██▊       | 2946/10702 [35:37<1:04:30,  2.00it/s] 28%|██▊       | 2947/10702 [35:38<1:04:24,  2.01it/s] 28%|██▊       | 2948/10702 [35:38<1:04:22,  2.01it/s] 28%|██▊       | 2949/10702 [35:39<1:04:16,  2.01it/s] 28%|██▊       | 2950/10702 [35:39<1:04:12,  2.01it/s]                                                      {'loss': 3.8751, 'grad_norm': 0.21298904716968536, 'learning_rate': 0.0009089852768869036, 'epoch': 0.28}
+ 28%|██▊       | 2950/10702 [35:39<1:04:12,  2.01it/s] 28%|██▊       | 2951/10702 [35:39<1:04:14,  2.01it/s] 28%|██▊       | 2952/10702 [35:40<1:04:07,  2.01it/s] 28%|██▊       | 2953/10702 [35:40<1:04:33,  2.00it/s] 28%|██▊       | 2954/10702 [35:41<1:04:25,  2.00it/s] 28%|██▊       | 2955/10702 [35:41<1:04:21,  2.01it/s] 28%|██▊       | 2956/10702 [35:42<1:04:14,  2.01it/s] 28%|██▊       | 2957/10702 [35:42<1:04:13,  2.01it/s] 28%|██▊       | 2958/10702 [35:43<1:04:06,  2.01it/s] 28%|██▊       | 2959/10702 [35:43<1:04:05,  2.01it/s] 28%|██▊       | 2960/10702 [35:44<1:04:02,  2.01it/s] 28%|██▊       | 2961/10702 [35:44<1:04:03,  2.01it/s] 28%|██▊       | 2962/10702 [35:45<1:04:05,  2.01it/s] 28%|██▊       | 2963/10702 [35:45<1:04:05,  2.01it/s] 28%|██▊       | 2964/10702 [35:46<1:04:02,  2.01it/s] 28%|██▊       | 2965/10702 [35:46<1:04:02,  2.01it/s] 28%|██▊       | 2966/10702 [35:47<1:04:03,  2.01it/s] 28%|██▊       | 2967/10702 [35:47<1:04:01,  2.01it/s] 28%|██▊       | 2968/10702 [35:48<1:03:53,  2.02it/s] 28%|██▊       | 2969/10702 [35:48<1:03:57,  2.02it/s] 28%|██▊       | 2970/10702 [35:49<1:03:57,  2.01it/s] 28%|██▊       | 2971/10702 [35:49<1:03:55,  2.02it/s] 28%|██▊       | 2972/10702 [35:50<1:03:55,  2.02it/s] 28%|██▊       | 2973/10702 [35:50<1:03:57,  2.01it/s] 28%|██▊       | 2974/10702 [35:51<1:03:52,  2.02it/s] 28%|██▊       | 2975/10702 [35:51<1:03:53,  2.02it/s]                                                      {'loss': 3.8648, 'grad_norm': 0.22268173098564148, 'learning_rate': 0.0009066261102211895, 'epoch': 0.28}
+ 28%|██▊       | 2975/10702 [35:51<1:03:53,  2.02it/s] 28%|██▊       | 2976/10702 [35:52<1:04:00,  2.01it/s] 28%|██▊       | 2977/10702 [35:52<1:03:58,  2.01it/s] 28%|██▊       | 2978/10702 [35:53<1:03:51,  2.02it/s] 28%|██▊       | 2979/10702 [35:53<1:03:50,  2.02it/s] 28%|██▊       | 2980/10702 [35:54<1:03:53,  2.01it/s] 28%|██▊       | 2981/10702 [35:54<1:04:29,  2.00it/s] 28%|██▊       | 2982/10702 [35:55<1:04:18,  2.00it/s] 28%|██▊       | 2983/10702 [35:55<1:04:04,  2.01it/s] 28%|██▊       | 2984/10702 [35:56<1:04:00,  2.01it/s] 28%|██▊       | 2985/10702 [35:56<1:03:57,  2.01it/s] 28%|██▊       | 2986/10702 [35:57<1:03:50,  2.01it/s] 28%|██▊       | 2987/10702 [35:57<1:04:05,  2.01it/s] 28%|██▊       | 2988/10702 [35:58<1:04:24,  2.00it/s] 28%|██▊       | 2989/10702 [35:58<1:04:14,  2.00it/s] 28%|██▊       | 2990/10702 [35:59<1:04:09,  2.00it/s] 28%|██▊       | 2991/10702 [35:59<1:04:06,  2.00it/s] 28%|██▊       | 2992/10702 [36:00<1:04:01,  2.01it/s] 28%|██▊       | 2993/10702 [36:00<1:04:00,  2.01it/s] 28%|██▊       | 2994/10702 [36:01<1:04:35,  1.99it/s] 28%|██▊       | 2995/10702 [36:01<1:04:18,  2.00it/s] 28%|██▊       | 2996/10702 [36:02<1:04:09,  2.00it/s] 28%|██▊       | 2997/10702 [36:02<1:04:02,  2.01it/s] 28%|██▊       | 2998/10702 [36:03<1:03:56,  2.01it/s] 28%|██▊       | 2999/10702 [36:03<1:03:54,  2.01it/s] 28%|██▊       | 3000/10702 [36:04<1:03:48,  2.01it/s]                                                      {'loss': 3.865, 'grad_norm': 0.20218949019908905, 'learning_rate': 0.0009042399021131399, 'epoch': 0.28}
+ 28%|██▊       | 3000/10702 [36:04<1:03:48,  2.01it/s] 28%|██▊       | 3001/10702 [36:04<1:03:54,  2.01it/s] 28%|██▊       | 3002/10702 [36:05<1:03:52,  2.01it/s] 28%|██▊       | 3003/10702 [36:05<1:04:38,  1.99it/s] 28%|██▊       | 3004/10702 [36:06<1:04:23,  1.99it/s] 28%|██▊       | 3005/10702 [36:06<1:04:09,  2.00it/s] 28%|██▊       | 3006/10702 [36:07<1:03:56,  2.01it/s] 28%|██▊       | 3007/10702 [36:07<1:03:51,  2.01it/s] 28%|██▊       | 3008/10702 [36:08<1:03:44,  2.01it/s] 28%|██▊       | 3009/10702 [36:08<1:03:47,  2.01it/s] 28%|██▊       | 3010/10702 [36:09<1:03:42,  2.01it/s] 28%|██▊       | 3011/10702 [36:09<1:03:41,  2.01it/s] 28%|██▊       | 3012/10702 [36:10<1:03:43,  2.01it/s] 28%|██▊       | 3013/10702 [36:10<1:03:38,  2.01it/s] 28%|██▊       | 3014/10702 [36:11<1:03:38,  2.01it/s] 28%|██▊       | 3015/10702 [36:11<1:03:36,  2.01it/s] 28%|██▊       | 3016/10702 [36:12<1:03:34,  2.02it/s] 28%|██▊       | 3017/10702 [36:12<1:03:31,  2.02it/s] 28%|██▊       | 3018/10702 [36:13<1:05:20,  1.96it/s] 28%|██▊       | 3019/10702 [36:13<1:04:42,  1.98it/s] 28%|██▊       | 3020/10702 [36:14<1:04:19,  1.99it/s] 28%|██▊       | 3021/10702 [36:14<1:04:57,  1.97it/s] 28%|██▊       | 3022/10702 [36:15<1:04:30,  1.98it/s] 28%|██▊       | 3023/10702 [36:15<1:04:09,  1.99it/s] 28%|██▊       | 3024/10702 [36:16<1:04:40,  1.98it/s] 28%|██▊       | 3025/10702 [36:16<1:04:16,  1.99it/s]{'loss': 3.8608, 'grad_norm': 0.21976254880428314, 'learning_rate': 0.0009018268112503243, 'epoch': 0.28}
+                                                       28%|██▊       | 3025/10702 [36:16<1:04:16,  1.99it/s] 28%|██▊       | 3026/10702 [36:17<1:04:03,  2.00it/s] 28%|██▊       | 3027/10702 [36:17<1:03:47,  2.01it/s] 28%|██▊       | 3028/10702 [36:18<1:04:38,  1.98it/s] 28%|██▊       | 3029/10702 [36:18<1:04:15,  1.99it/s] 28%|██▊       | 3030/10702 [36:19<1:04:03,  2.00it/s] 28%|██▊       | 3031/10702 [36:19<1:03:46,  2.00it/s] 28%|██▊       | 3032/10702 [36:20<1:03:41,  2.01it/s] 28%|██▊       | 3033/10702 [36:20<1:03:32,  2.01it/s] 28%|██▊       | 3034/10702 [36:21<1:04:22,  1.99it/s] 28%|██▊       | 3035/10702 [36:21<1:04:04,  1.99it/s] 28%|██▊       | 3036/10702 [36:22<1:03:48,  2.00it/s] 28%|██▊       | 3037/10702 [36:22<1:03:39,  2.01it/s] 28%|██▊       | 3038/10702 [36:23<1:03:35,  2.01it/s] 28%|██▊       | 3039/10702 [36:23<1:03:32,  2.01it/s] 28%|██▊       | 3040/10702 [36:24<1:03:25,  2.01it/s] 28%|██▊       | 3041/10702 [36:24<1:03:22,  2.01it/s] 28%|██▊       | 3042/10702 [36:25<1:03:20,  2.02it/s] 28%|██▊       | 3043/10702 [36:25<1:03:20,  2.02it/s] 28%|██▊       | 3044/10702 [36:26<1:03:20,  2.02it/s] 28%|██▊       | 3045/10702 [36:26<1:03:20,  2.01it/s] 28%|██▊       | 3046/10702 [36:27<1:03:18,  2.02it/s] 28%|██▊       | 3047/10702 [36:27<1:03:27,  2.01it/s] 28%|██▊       | 3048/10702 [36:28<1:03:30,  2.01it/s] 28%|██▊       | 3049/10702 [36:28<1:03:24,  2.01it/s] 28%|██▊       | 3050/10702 [36:29<1:03:21,  2.01it/s]                                                      {'loss': 3.8641, 'grad_norm': 0.19886207580566406, 'learning_rate': 0.0008993869981080682, 'epoch': 0.28}
+ 28%|██▊       | 3050/10702 [36:29<1:03:21,  2.01it/s] 29%|██▊       | 3051/10702 [36:29<1:03:26,  2.01it/s] 29%|██▊       | 3052/10702 [36:30<1:03:23,  2.01it/s] 29%|██▊       | 3053/10702 [36:30<1:03:25,  2.01it/s] 29%|██▊       | 3054/10702 [36:31<1:03:28,  2.01it/s] 29%|██▊       | 3055/10702 [36:31<1:03:20,  2.01it/s] 29%|██▊       | 3056/10702 [36:32<1:03:17,  2.01it/s] 29%|██▊       | 3057/10702 [36:32<1:03:12,  2.02it/s] 29%|██▊       | 3058/10702 [36:33<1:03:11,  2.02it/s] 29%|██▊       | 3059/10702 [36:33<1:03:10,  2.02it/s] 29%|██▊       | 3060/10702 [36:34<1:03:11,  2.02it/s] 29%|██▊       | 3061/10702 [36:34<1:03:06,  2.02it/s] 29%|██▊       | 3062/10702 [36:35<1:03:09,  2.02it/s] 29%|██▊       | 3063/10702 [36:35<1:03:06,  2.02it/s] 29%|██▊       | 3064/10702 [36:36<1:03:02,  2.02it/s] 29%|██▊       | 3065/10702 [36:36<1:03:04,  2.02it/s] 29%|██▊       | 3066/10702 [36:37<1:03:04,  2.02it/s] 29%|██▊       | 3067/10702 [36:37<1:03:04,  2.02it/s] 29%|██▊       | 3068/10702 [36:38<1:05:10,  1.95it/s] 29%|██▊       | 3069/10702 [36:38<1:04:37,  1.97it/s] 29%|██▊       | 3070/10702 [36:39<1:04:08,  1.98it/s] 29%|██▊       | 3071/10702 [36:39<1:03:46,  1.99it/s] 29%|██▊       | 3072/10702 [36:40<1:03:32,  2.00it/s] 29%|██▊       | 3073/10702 [36:40<1:03:23,  2.01it/s] 29%|██▊       | 3074/10702 [36:41<1:03:17,  2.01it/s] 29%|██▊       | 3075/10702 [36:41<1:03:09,  2.01it/s]                                                      {'loss': 3.8475, 'grad_norm': 0.2227136194705963, 'learning_rate': 0.0008969206249387814, 'epoch': 0.29}
+ 29%|██▊       | 3075/10702 [36:41<1:03:09,  2.01it/s] 29%|██▊       | 3076/10702 [36:42<1:03:14,  2.01it/s] 29%|██▉       | 3077/10702 [36:42<1:03:12,  2.01it/s] 29%|██▉       | 3078/10702 [36:43<1:03:05,  2.01it/s] 29%|██▉       | 3079/10702 [36:43<1:03:06,  2.01it/s] 29%|██▉       | 3080/10702 [36:44<1:03:00,  2.02it/s] 29%|██▉       | 3081/10702 [36:44<1:02:59,  2.02it/s] 29%|██▉       | 3082/10702 [36:45<1:02:59,  2.02it/s] 29%|██▉       | 3083/10702 [36:45<1:02:54,  2.02it/s] 29%|██▉       | 3084/10702 [36:46<1:02:59,  2.02it/s] 29%|██▉       | 3085/10702 [36:46<1:02:56,  2.02it/s] 29%|██▉       | 3086/10702 [36:47<1:02:57,  2.02it/s] 29%|██▉       | 3087/10702 [36:47<1:02:52,  2.02it/s] 29%|██▉       | 3088/10702 [36:48<1:02:53,  2.02it/s] 29%|██▉       | 3089/10702 [36:48<1:03:02,  2.01it/s] 29%|██▉       | 3090/10702 [36:49<1:02:56,  2.02it/s] 29%|██▉       | 3091/10702 [36:49<1:02:56,  2.02it/s] 29%|██▉       | 3092/10702 [36:50<1:02:52,  2.02it/s] 29%|██▉       | 3093/10702 [36:50<1:04:54,  1.95it/s] 29%|██▉       | 3094/10702 [36:51<1:04:13,  1.97it/s] 29%|██▉       | 3095/10702 [36:51<1:03:50,  1.99it/s] 29%|██▉       | 3096/10702 [36:52<1:03:30,  2.00it/s] 29%|██▉       | 3097/10702 [36:52<1:03:21,  2.00it/s] 29%|██▉       | 3098/10702 [36:53<1:03:04,  2.01it/s] 29%|██▉       | 3099/10702 [36:53<1:03:00,  2.01it/s] 29%|██▉       | 3100/10702 [36:54<1:02:54,  2.01it/s]                                                      {'loss': 3.8585, 'grad_norm': 0.20148371160030365, 'learning_rate': 0.0008944278557611689, 'epoch': 0.29}
+ 29%|██▉       | 3100/10702 [36:54<1:02:54,  2.01it/s] 29%|██▉       | 3101/10702 [36:54<1:02:58,  2.01it/s] 29%|██▉       | 3102/10702 [36:55<1:02:57,  2.01it/s] 29%|██▉       | 3103/10702 [36:55<1:02:54,  2.01it/s] 29%|██▉       | 3104/10702 [36:56<1:02:49,  2.02it/s] 29%|██▉       | 3105/10702 [36:56<1:02:49,  2.02it/s] 29%|██▉       | 3106/10702 [36:57<1:02:48,  2.02it/s] 29%|██▉       | 3107/10702 [36:57<1:02:59,  2.01it/s] 29%|██▉       | 3108/10702 [36:58<1:02:59,  2.01it/s] 29%|██▉       | 3109/10702 [36:58<1:02:55,  2.01it/s] 29%|██▉       | 3110/10702 [36:59<1:02:50,  2.01it/s] 29%|██▉       | 3111/10702 [36:59<1:02:47,  2.01it/s] 29%|██▉       | 3112/10702 [37:00<1:02:45,  2.02it/s] 29%|██▉       | 3113/10702 [37:00<1:02:43,  2.02it/s] 29%|██▉       | 3114/10702 [37:01<1:02:39,  2.02it/s] 29%|██▉       | 3115/10702 [37:01<1:02:38,  2.02it/s] 29%|██▉       | 3116/10702 [37:02<1:02:36,  2.02it/s] 29%|██▉       | 3117/10702 [37:02<1:02:38,  2.02it/s] 29%|██▉       | 3118/10702 [37:03<1:02:32,  2.02it/s] 29%|██▉       | 3119/10702 [37:03<1:02:38,  2.02it/s] 29%|██▉       | 3120/10702 [37:04<1:02:33,  2.02it/s] 29%|██▉       | 3121/10702 [37:04<1:02:36,  2.02it/s] 29%|██▉       | 3122/10702 [37:05<1:02:32,  2.02it/s] 29%|██▉       | 3123/10702 [37:05<1:02:31,  2.02it/s] 29%|██▉       | 3124/10702 [37:06<1:02:35,  2.02it/s] 29%|██▉       | 3125/10702 [37:06<1:02:32,  2.02it/s]                                                      {'loss': 3.864, 'grad_norm': 0.23624125123023987, 'learning_rate': 0.0008919088563493217, 'epoch': 0.29}
+ 29%|██▉       | 3125/10702 [37:06<1:02:32,  2.02it/s] 29%|██▉       | 3126/10702 [37:07<1:02:39,  2.02it/s] 29%|██▉       | 3127/10702 [37:07<1:02:35,  2.02it/s] 29%|██▉       | 3128/10702 [37:08<1:02:38,  2.02it/s] 29%|██▉       | 3129/10702 [37:08<1:02:38,  2.01it/s] 29%|██▉       | 3130/10702 [37:09<1:02:36,  2.02it/s] 29%|██▉       | 3131/10702 [37:09<1:02:37,  2.01it/s] 29%|██▉       | 3132/10702 [37:10<1:02:35,  2.02it/s] 29%|██▉       | 3133/10702 [37:10<1:02:37,  2.01it/s] 29%|██▉       | 3134/10702 [37:11<1:08:49,  1.83it/s] 29%|██▉       | 3135/10702 [37:11<1:06:53,  1.89it/s] 29%|██▉       | 3136/10702 [37:12<1:05:37,  1.92it/s] 29%|██▉       | 3137/10702 [37:12<1:04:38,  1.95it/s] 29%|██▉       | 3138/10702 [37:13<1:03:59,  1.97it/s] 29%|██▉       | 3139/10702 [37:13<1:03:33,  1.98it/s] 29%|██▉       | 3140/10702 [37:14<1:03:13,  1.99it/s] 29%|██▉       | 3141/10702 [37:14<1:02:56,  2.00it/s] 29%|██▉       | 3142/10702 [37:15<1:02:46,  2.01it/s] 29%|██▉       | 3143/10702 [37:15<1:02:40,  2.01it/s] 29%|██▉       | 3144/10702 [37:16<1:02:33,  2.01it/s] 29%|██▉       | 3145/10702 [37:16<1:02:36,  2.01it/s] 29%|██▉       | 3146/10702 [37:17<1:02:34,  2.01it/s] 29%|██▉       | 3147/10702 [37:17<1:02:29,  2.01it/s] 29%|██▉       | 3148/10702 [37:18<1:02:30,  2.01it/s] 29%|██▉       | 3149/10702 [37:18<1:02:24,  2.02it/s] 29%|██▉       | 3150/10702 [37:19<1:02:26,  2.02it/s]                                                      {'loss': 3.8515, 'grad_norm': 0.2025827169418335, 'learning_rate': 0.0008893637942216942, 'epoch': 0.29}
+ 29%|██▉       | 3150/10702 [37:19<1:02:26,  2.02it/s] 29%|██▉       | 3151/10702 [37:19<1:02:30,  2.01it/s] 29%|██▉       | 3152/10702 [37:20<1:02:24,  2.02it/s] 29%|██▉       | 3153/10702 [37:20<1:02:32,  2.01it/s] 29%|██▉       | 3154/10702 [37:21<1:02:25,  2.02it/s] 29%|██▉       | 3155/10702 [37:21<1:02:24,  2.02it/s] 29%|██▉       | 3156/10702 [37:22<1:02:24,  2.02it/s] 29%|██▉       | 3157/10702 [37:22<1:02:21,  2.02it/s] 30%|██▉       | 3158/10702 [37:23<1:02:22,  2.02it/s] 30%|██▉       | 3159/10702 [37:23<1:02:19,  2.02it/s] 30%|██▉       | 3160/10702 [37:24<1:02:21,  2.02it/s] 30%|██▉       | 3161/10702 [37:24<1:02:19,  2.02it/s] 30%|██▉       | 3162/10702 [37:25<1:02:18,  2.02it/s] 30%|██▉       | 3163/10702 [37:25<1:02:17,  2.02it/s] 30%|██▉       | 3164/10702 [37:26<1:02:15,  2.02it/s] 30%|██▉       | 3165/10702 [37:26<1:02:16,  2.02it/s] 30%|██▉       | 3166/10702 [37:27<1:02:13,  2.02it/s] 30%|██▉       | 3167/10702 [37:27<1:02:23,  2.01it/s] 30%|██▉       | 3168/10702 [37:28<1:02:26,  2.01it/s] 30%|██▉       | 3169/10702 [37:28<1:02:24,  2.01it/s] 30%|██▉       | 3170/10702 [37:29<1:02:24,  2.01it/s] 30%|██▉       | 3171/10702 [37:29<1:02:20,  2.01it/s] 30%|██▉       | 3172/10702 [37:30<1:02:20,  2.01it/s] 30%|██▉       | 3173/10702 [37:30<1:03:59,  1.96it/s] 30%|██▉       | 3174/10702 [37:31<1:03:31,  1.98it/s] 30%|██▉       | 3175/10702 [37:31<1:03:06,  1.99it/s]                                                      {'loss': 3.85, 'grad_norm': 0.2083410769701004, 'learning_rate': 0.0008867928386299622, 'epoch': 0.3}
+ 30%|██▉       | 3175/10702 [37:31<1:03:06,  1.99it/s] 30%|██▉       | 3176/10702 [37:32<1:02:57,  1.99it/s] 30%|██▉       | 3177/10702 [37:32<1:02:44,  2.00it/s] 30%|██▉       | 3178/10702 [37:33<1:02:39,  2.00it/s] 30%|██▉       | 3179/10702 [37:33<1:02:33,  2.00it/s] 30%|██▉       | 3180/10702 [37:34<1:02:29,  2.01it/s] 30%|██▉       | 3181/10702 [37:34<1:02:31,  2.01it/s] 30%|██▉       | 3182/10702 [37:35<1:02:23,  2.01it/s] 30%|██▉       | 3183/10702 [37:35<1:02:26,  2.01it/s] 30%|██▉       | 3184/10702 [37:36<1:02:29,  2.01it/s] 30%|██▉       | 3185/10702 [37:36<1:02:22,  2.01it/s] 30%|██▉       | 3186/10702 [37:37<1:02:24,  2.01it/s] 30%|██▉       | 3187/10702 [37:37<1:02:19,  2.01it/s] 30%|██▉       | 3188/10702 [37:38<1:02:12,  2.01it/s] 30%|██▉       | 3189/10702 [37:38<1:02:14,  2.01it/s] 30%|██▉       | 3190/10702 [37:39<1:02:11,  2.01it/s] 30%|██▉       | 3191/10702 [37:39<1:02:12,  2.01it/s] 30%|██▉       | 3192/10702 [37:40<1:02:09,  2.01it/s] 30%|██▉       | 3193/10702 [37:40<1:02:12,  2.01it/s] 30%|██▉       | 3194/10702 [37:41<1:02:10,  2.01it/s] 30%|██▉       | 3195/10702 [37:41<1:02:06,  2.01it/s] 30%|██▉       | 3196/10702 [37:42<1:02:07,  2.01it/s] 30%|██▉       | 3197/10702 [37:42<1:12:27,  1.73it/s] 30%|██▉       | 3198/10702 [37:43<1:09:23,  1.80it/s] 30%|██▉       | 3199/10702 [37:43<1:07:09,  1.86it/s] 30%|██▉       | 3200/10702 [37:44<1:05:41,  1.90it/s]{'loss': 3.8454, 'grad_norm': 0.21806657314300537, 'learning_rate': 0.000884196160547769, 'epoch': 0.3}
+                                                       30%|██▉       | 3200/10702 [37:44<1:05:41,  1.90it/s] 30%|██▉       | 3201/10702 [37:44<1:04:40,  1.93it/s] 30%|██▉       | 3202/10702 [37:45<1:03:47,  1.96it/s] 30%|██▉       | 3203/10702 [37:45<1:03:21,  1.97it/s] 30%|██▉       | 3204/10702 [37:46<1:02:59,  1.98it/s] 30%|██▉       | 3205/10702 [37:46<1:02:39,  1.99it/s] 30%|██▉       | 3206/10702 [37:47<1:02:30,  2.00it/s] 30%|██▉       | 3207/10702 [37:47<1:02:16,  2.01it/s] 30%|██▉       | 3208/10702 [37:48<1:02:11,  2.01it/s] 30%|██▉       | 3209/10702 [37:48<1:02:05,  2.01it/s] 30%|██▉       | 3210/10702 [37:49<1:13:16,  1.70it/s] 30%|███       | 3211/10702 [37:50<1:09:46,  1.79it/s] 30%|███       | 3212/10702 [37:50<1:07:28,  1.85it/s] 30%|███       | 3213/10702 [37:51<1:05:44,  1.90it/s] 30%|███       | 3214/10702 [37:51<1:04:36,  1.93it/s] 30%|███       | 3215/10702 [37:52<1:03:51,  1.95it/s] 30%|███       | 3216/10702 [37:52<1:03:14,  1.97it/s] 30%|███       | 3217/10702 [37:53<1:02:54,  1.98it/s] 30%|███       | 3218/10702 [37:53<1:02:28,  2.00it/s] 30%|███       | 3219/10702 [37:54<1:02:16,  2.00it/s] 30%|███       | 3220/10702 [37:54<1:02:19,  2.00it/s] 30%|███       | 3221/10702 [37:55<1:02:11,  2.00it/s] 30%|███       | 3222/10702 [37:55<1:02:05,  2.01it/s] 30%|███       | 3223/10702 [37:56<1:01:57,  2.01it/s] 30%|███       | 3224/10702 [37:56<1:01:53,  2.01it/s] 30%|███       | 3225/10702 [37:57<1:01:52,  2.01it/s]{'loss': 3.8485, 'grad_norm': 0.2112157642841339, 'learning_rate': 0.0008815739326593541, 'epoch': 0.3}
+                                                       30%|███       | 3225/10702 [37:57<1:01:52,  2.01it/s] 30%|███       | 3226/10702 [37:57<1:01:57,  2.01it/s] 30%|███       | 3227/10702 [37:58<1:02:06,  2.01it/s] 30%|███       | 3228/10702 [37:58<1:02:03,  2.01it/s] 30%|███       | 3229/10702 [37:59<1:01:56,  2.01it/s] 30%|███       | 3230/10702 [37:59<1:01:58,  2.01it/s] 30%|███       | 3231/10702 [38:00<1:01:54,  2.01it/s] 30%|███       | 3232/10702 [38:00<1:01:49,  2.01it/s] 30%|███       | 3233/10702 [38:01<1:01:44,  2.02it/s] 30%|███       | 3234/10702 [38:01<1:01:42,  2.02it/s] 30%|███       | 3235/10702 [38:02<1:01:40,  2.02it/s] 30%|███       | 3236/10702 [38:02<1:01:38,  2.02it/s] 30%|███       | 3237/10702 [38:03<1:01:39,  2.02it/s] 30%|███       | 3238/10702 [38:03<1:01:36,  2.02it/s] 30%|███       | 3239/10702 [38:04<1:01:36,  2.02it/s] 30%|███       | 3240/10702 [38:04<1:01:38,  2.02it/s] 30%|███       | 3241/10702 [38:05<1:01:34,  2.02it/s] 30%|███       | 3242/10702 [38:05<1:01:39,  2.02it/s] 30%|███       | 3243/10702 [38:06<1:01:35,  2.02it/s] 30%|███       | 3244/10702 [38:06<1:01:39,  2.02it/s] 30%|███       | 3245/10702 [38:07<1:01:36,  2.02it/s] 30%|███       | 3246/10702 [38:07<1:01:34,  2.02it/s] 30%|███       | 3247/10702 [38:08<1:01:40,  2.01it/s] 30%|███       | 3248/10702 [38:08<1:01:38,  2.02it/s] 30%|███       | 3249/10702 [38:08<1:01:39,  2.01it/s] 30%|███       | 3250/10702 [38:09<1:01:36,  2.02it/s]{'loss': 3.8444, 'grad_norm': 0.19060933589935303, 'learning_rate': 0.0008789263293480696, 'epoch': 0.3}
+                                                       30%|███       | 3250/10702 [38:09<1:01:36,  2.02it/s] 30%|███       | 3251/10702 [38:09<1:01:38,  2.01it/s] 30%|███       | 3252/10702 [38:10<1:05:13,  1.90it/s] 30%|███       | 3253/10702 [38:11<1:04:05,  1.94it/s] 30%|███       | 3254/10702 [38:11<1:03:15,  1.96it/s] 30%|███       | 3255/10702 [38:12<1:02:44,  1.98it/s] 30%|███       | 3256/10702 [38:12<1:02:22,  1.99it/s] 30%|███       | 3257/10702 [38:13<1:02:06,  2.00it/s] 30%|███       | 3258/10702 [38:13<1:01:57,  2.00it/s] 30%|███       | 3259/10702 [38:14<1:01:44,  2.01it/s] 30%|███       | 3260/10702 [38:14<1:01:41,  2.01it/s] 30%|███       | 3261/10702 [38:15<1:01:39,  2.01it/s] 30%|███       | 3262/10702 [38:15<1:01:34,  2.01it/s] 30%|███       | 3263/10702 [38:16<1:01:31,  2.01it/s] 30%|███       | 3264/10702 [38:16<1:01:28,  2.02it/s] 31%|███       | 3265/10702 [38:17<1:01:32,  2.01it/s] 31%|███       | 3266/10702 [38:17<1:01:28,  2.02it/s] 31%|███       | 3267/10702 [38:18<1:01:28,  2.02it/s] 31%|███       | 3268/10702 [38:18<1:01:27,  2.02it/s] 31%|███       | 3269/10702 [38:19<1:01:26,  2.02it/s] 31%|███       | 3270/10702 [38:19<1:01:24,  2.02it/s] 31%|███       | 3271/10702 [38:19<1:01:24,  2.02it/s] 31%|███       | 3272/10702 [38:20<1:01:25,  2.02it/s] 31%|███       | 3273/10702 [38:20<1:01:23,  2.02it/s] 31%|███       | 3274/10702 [38:21<1:01:25,  2.02it/s] 31%|███       | 3275/10702 [38:21<1:01:24,  2.02it/s]                                                      {'loss': 3.8308, 'grad_norm': 0.19207842648029327, 'learning_rate': 0.000876253526684784, 'epoch': 0.31}
+ 31%|███       | 3275/10702 [38:21<1:01:24,  2.02it/s] 31%|███       | 3276/10702 [38:22<1:01:27,  2.01it/s] 31%|███       | 3277/10702 [38:22<1:01:23,  2.02it/s] 31%|███       | 3278/10702 [38:23<1:01:24,  2.02it/s] 31%|███       | 3279/10702 [38:23<1:01:23,  2.02it/s] 31%|███       | 3280/10702 [38:24<1:01:22,  2.02it/s] 31%|███       | 3281/10702 [38:24<1:01:22,  2.02it/s] 31%|███       | 3282/10702 [38:25<1:01:20,  2.02it/s] 31%|███       | 3283/10702 [38:25<1:01:18,  2.02it/s] 31%|███       | 3284/10702 [38:26<1:01:16,  2.02it/s] 31%|███       | 3285/10702 [38:26<1:01:16,  2.02it/s] 31%|███       | 3286/10702 [38:27<1:01:17,  2.02it/s] 31%|███       | 3287/10702 [38:27<1:01:23,  2.01it/s] 31%|███       | 3288/10702 [38:28<1:01:25,  2.01it/s] 31%|███       | 3289/10702 [38:28<1:01:20,  2.01it/s] 31%|███       | 3290/10702 [38:29<1:01:17,  2.02it/s] 31%|███       | 3291/10702 [38:29<1:01:18,  2.01it/s] 31%|███       | 3292/10702 [38:30<1:01:12,  2.02it/s] 31%|███       | 3293/10702 [38:30<1:01:17,  2.01it/s] 31%|███       | 3294/10702 [38:31<1:01:12,  2.02it/s] 31%|███       | 3295/10702 [38:31<1:01:13,  2.02it/s] 31%|███       | 3296/10702 [38:32<1:01:12,  2.02it/s] 31%|███       | 3297/10702 [38:32<1:01:09,  2.02it/s] 31%|███       | 3298/10702 [38:33<1:01:10,  2.02it/s] 31%|███       | 3299/10702 [38:33<1:01:07,  2.02it/s] 31%|███       | 3300/10702 [38:34<1:01:40,  2.00it/s]                                                      {'loss': 3.8347, 'grad_norm': 0.19733723998069763, 'learning_rate': 0.0008735557024161721, 'epoch': 0.31}
+ 31%|███       | 3300/10702 [38:34<1:01:40,  2.00it/s] 31%|███       | 3301/10702 [38:34<1:01:36,  2.00it/s] 31%|███       | 3302/10702 [38:35<1:01:27,  2.01it/s] 31%|███       | 3303/10702 [38:35<1:01:23,  2.01it/s] 31%|███       | 3304/10702 [38:36<1:01:16,  2.01it/s] 31%|███       | 3305/10702 [38:36<1:01:14,  2.01it/s] 31%|███       | 3306/10702 [38:37<1:01:13,  2.01it/s] 31%|███       | 3307/10702 [38:37<1:01:09,  2.02it/s] 31%|███       | 3308/10702 [38:38<1:01:09,  2.01it/s] 31%|███       | 3309/10702 [38:38<1:01:06,  2.02it/s] 31%|███       | 3310/10702 [38:39<1:01:06,  2.02it/s] 31%|███       | 3311/10702 [38:39<1:01:05,  2.02it/s] 31%|███       | 3312/10702 [38:40<1:01:01,  2.02it/s] 31%|███       | 3313/10702 [38:40<1:01:07,  2.01it/s] 31%|███       | 3314/10702 [38:41<1:01:02,  2.02it/s] 31%|███       | 3315/10702 [38:41<1:01:06,  2.01it/s] 31%|███       | 3316/10702 [38:42<1:01:02,  2.02it/s] 31%|███       | 3317/10702 [38:42<1:01:04,  2.02it/s] 31%|███       | 3318/10702 [38:43<1:01:03,  2.02it/s] 31%|███       | 3319/10702 [38:43<1:01:06,  2.01it/s] 31%|███       | 3320/10702 [38:44<1:01:02,  2.02it/s] 31%|███       | 3321/10702 [38:44<1:01:04,  2.01it/s] 31%|███       | 3322/10702 [38:45<1:01:00,  2.02it/s] 31%|███       | 3323/10702 [38:45<1:01:03,  2.01it/s] 31%|███       | 3324/10702 [38:46<1:01:03,  2.01it/s] 31%|███       | 3325/10702 [38:46<1:01:00,  2.02it/s]                                                      {'loss': 3.8266, 'grad_norm': 0.1977200210094452, 'learning_rate': 0.0008708330359528955, 'epoch': 0.31}
+ 31%|███       | 3325/10702 [38:46<1:01:00,  2.02it/s] 31%|███       | 3326/10702 [38:47<1:03:11,  1.95it/s] 31%|███       | 3327/10702 [38:47<1:02:30,  1.97it/s] 31%|███       | 3328/10702 [38:48<1:02:01,  1.98it/s] 31%|███       | 3329/10702 [38:48<1:01:38,  1.99it/s] 31%|███       | 3330/10702 [38:49<1:01:27,  2.00it/s] 31%|███       | 3331/10702 [38:49<1:01:18,  2.00it/s] 31%|███       | 3332/10702 [38:50<1:01:12,  2.01it/s] 31%|███       | 3333/10702 [38:50<1:01:04,  2.01it/s] 31%|███       | 3334/10702 [38:51<1:01:02,  2.01it/s] 31%|███       | 3335/10702 [38:51<1:01:02,  2.01it/s] 31%|███       | 3336/10702 [38:52<1:00:58,  2.01it/s] 31%|███       | 3337/10702 [38:52<1:00:58,  2.01it/s] 31%|███       | 3338/10702 [38:53<1:00:53,  2.02it/s] 31%|███       | 3339/10702 [38:53<1:00:51,  2.02it/s] 31%|███       | 3340/10702 [38:54<1:00:50,  2.02it/s] 31%|███       | 3341/10702 [38:54<1:00:52,  2.02it/s] 31%|███       | 3342/10702 [38:55<1:00:52,  2.02it/s] 31%|███       | 3343/10702 [38:55<1:00:49,  2.02it/s] 31%|███       | 3344/10702 [38:56<1:00:55,  2.01it/s] 31%|███▏      | 3345/10702 [38:56<1:00:52,  2.01it/s] 31%|███▏      | 3346/10702 [38:57<1:00:51,  2.01it/s] 31%|███▏      | 3347/10702 [38:57<1:01:16,  2.00it/s] 31%|███▏      | 3348/10702 [38:58<1:01:37,  1.99it/s] 31%|███▏      | 3349/10702 [38:58<1:01:30,  1.99it/s] 31%|███▏      | 3350/10702 [38:59<1:01:23,  2.00it/s]                                                      {'loss': 3.8332, 'grad_norm': 0.19280080497264862, 'learning_rate': 0.0008680857083576708, 'epoch': 0.31}
+ 31%|███▏      | 3350/10702 [38:59<1:01:23,  2.00it/s] 31%|███▏      | 3351/10702 [38:59<1:01:22,  2.00it/s] 31%|███▏      | 3352/10702 [39:00<1:01:12,  2.00it/s] 31%|███▏      | 3353/10702 [39:00<1:01:11,  2.00it/s] 31%|███▏      | 3354/10702 [39:01<1:01:07,  2.00it/s] 31%|███▏      | 3355/10702 [39:01<1:01:10,  2.00it/s] 31%|███▏      | 3356/10702 [39:02<1:01:05,  2.00it/s] 31%|███▏      | 3357/10702 [39:02<1:00:58,  2.01it/s] 31%|███▏      | 3358/10702 [39:03<1:01:00,  2.01it/s] 31%|███▏      | 3359/10702 [39:03<1:00:58,  2.01it/s] 31%|███▏      | 3360/10702 [39:04<1:00:55,  2.01it/s] 31%|███▏      | 3361/10702 [39:04<1:00:58,  2.01it/s] 31%|███▏      | 3362/10702 [39:05<1:00:57,  2.01it/s] 31%|███▏      | 3363/10702 [39:05<1:00:51,  2.01it/s] 31%|███▏      | 3364/10702 [39:06<1:00:52,  2.01it/s] 31%|███▏      | 3365/10702 [39:06<1:00:52,  2.01it/s] 31%|███▏      | 3366/10702 [39:07<1:00:49,  2.01it/s] 31%|███▏      | 3367/10702 [39:07<1:00:47,  2.01it/s] 31%|███▏      | 3368/10702 [39:08<1:00:46,  2.01it/s] 31%|███▏      | 3369/10702 [39:08<1:00:43,  2.01it/s] 31%|███▏      | 3370/10702 [39:09<1:00:48,  2.01it/s] 31%|███▏      | 3371/10702 [39:09<1:00:49,  2.01it/s] 32%|███▏      | 3372/10702 [39:10<1:00:46,  2.01it/s] 32%|███▏      | 3373/10702 [39:10<1:00:46,  2.01it/s] 32%|███▏      | 3374/10702 [39:11<1:00:41,  2.01it/s] 32%|███▏      | 3375/10702 [39:11<1:00:41,  2.01it/s]{'loss': 3.8215, 'grad_norm': 0.20605415105819702, 'learning_rate': 0.0008653139023332288, 'epoch': 0.32}                                                      
+ 32%|███▏      | 3375/10702 [39:11<1:00:41,  2.01it/s] 32%|███▏      | 3376/10702 [39:12<1:00:43,  2.01it/s] 32%|███▏      | 3377/10702 [39:12<1:00:41,  2.01it/s] 32%|███▏      | 3378/10702 [39:13<1:00:40,  2.01it/s] 32%|███▏      | 3379/10702 [39:13<1:00:36,  2.01it/s] 32%|███▏      | 3380/10702 [39:14<1:00:35,  2.01it/s] 32%|███▏      | 3381/10702 [39:14<1:00:36,  2.01it/s] 32%|███▏      | 3382/10702 [39:15<1:00:35,  2.01it/s] 32%|███▏      | 3383/10702 [39:15<1:00:34,  2.01it/s] 32%|███▏      | 3384/10702 [39:16<1:00:28,  2.02it/s] 32%|███▏      | 3385/10702 [39:16<1:00:30,  2.02it/s] 32%|███▏      | 3386/10702 [39:17<1:00:29,  2.02it/s] 32%|███▏      | 3387/10702 [39:17<1:00:25,  2.02it/s] 32%|███▏      | 3388/10702 [39:18<1:00:27,  2.02it/s] 32%|███▏      | 3389/10702 [39:18<1:00:26,  2.02it/s] 32%|███▏      | 3390/10702 [39:19<1:00:29,  2.01it/s] 32%|███▏      | 3391/10702 [39:19<1:00:26,  2.02it/s] 32%|███▏      | 3392/10702 [39:20<1:00:26,  2.02it/s] 32%|███▏      | 3393/10702 [39:20<1:00:30,  2.01it/s] 32%|███▏      | 3394/10702 [39:21<1:00:27,  2.01it/s] 32%|███▏      | 3395/10702 [39:21<1:00:31,  2.01it/s] 32%|███▏      | 3396/10702 [39:22<1:00:30,  2.01it/s] 32%|███▏      | 3397/10702 [39:22<1:00:28,  2.01it/s] 32%|███▏      | 3398/10702 [39:23<1:00:28,  2.01it/s] 32%|███▏      | 3399/10702 [39:23<1:00:24,  2.01it/s] 32%|███▏      | 3400/10702 [39:24<1:00:29,  2.01it/s]                                                      {'loss': 3.8171, 'grad_norm': 0.20775206387043, 'learning_rate': 0.0008625178022101643, 'epoch': 0.32}
+ 32%|███▏      | 3400/10702 [39:24<1:00:29,  2.01it/s] 32%|███▏      | 3401/10702 [39:24<1:00:33,  2.01it/s] 32%|███▏      | 3402/10702 [39:25<1:00:28,  2.01it/s] 32%|███▏      | 3403/10702 [39:25<1:00:30,  2.01it/s] 32%|███▏      | 3404/10702 [39:26<1:02:23,  1.95it/s] 32%|███▏      | 3405/10702 [39:26<1:01:48,  1.97it/s] 32%|███▏      | 3406/10702 [39:27<1:01:19,  1.98it/s] 32%|███▏      | 3407/10702 [39:27<1:01:11,  1.99it/s] 32%|███▏      | 3408/10702 [39:28<1:00:57,  1.99it/s] 32%|███▏      | 3409/10702 [39:28<1:00:46,  2.00it/s] 32%|███▏      | 3410/10702 [39:29<1:00:42,  2.00it/s] 32%|███▏      | 3411/10702 [39:29<1:00:37,  2.00it/s] 32%|███▏      | 3412/10702 [39:30<1:00:28,  2.01it/s] 32%|███▏      | 3413/10702 [39:30<1:00:26,  2.01it/s] 32%|███▏      | 3414/10702 [39:31<1:00:22,  2.01it/s] 32%|███▏      | 3415/10702 [39:31<1:00:22,  2.01it/s] 32%|███▏      | 3416/10702 [39:32<1:00:19,  2.01it/s] 32%|███▏      | 3417/10702 [39:32<1:00:18,  2.01it/s] 32%|███▏      | 3418/10702 [39:33<1:00:15,  2.01it/s] 32%|███▏      | 3419/10702 [39:33<1:00:13,  2.02it/s] 32%|███▏      | 3420/10702 [39:34<1:00:15,  2.01it/s] 32%|███▏      | 3421/10702 [39:34<1:00:17,  2.01it/s] 32%|███▏      | 3422/10702 [39:35<1:00:12,  2.02it/s] 32%|███▏      | 3423/10702 [39:35<1:00:11,  2.02it/s] 32%|███▏      | 3424/10702 [39:36<1:00:07,  2.02it/s] 32%|███▏      | 3425/10702 [39:36<1:00:11,  2.01it/s]{'loss': 3.8267, 'grad_norm': 0.19796110689640045, 'learning_rate': 0.0008596975939346777, 'epoch': 0.32}
+                                                       32%|███▏      | 3425/10702 [39:36<1:00:11,  2.01it/s] 32%|███▏      | 3426/10702 [39:37<1:00:12,  2.01it/s] 32%|███▏      | 3427/10702 [39:37<1:00:10,  2.01it/s] 32%|███▏      | 3428/10702 [39:38<1:00:13,  2.01it/s] 32%|███▏      | 3429/10702 [39:38<1:00:09,  2.02it/s] 32%|███▏      | 3430/10702 [39:39<1:00:14,  2.01it/s] 32%|███▏      | 3431/10702 [39:39<1:00:08,  2.02it/s] 32%|███▏      | 3432/10702 [39:40<1:00:08,  2.01it/s] 32%|███▏      | 3433/10702 [39:40<1:00:10,  2.01it/s] 32%|███▏      | 3434/10702 [39:41<1:00:12,  2.01it/s] 32%|███▏      | 3435/10702 [39:41<1:00:13,  2.01it/s] 32%|███▏      | 3436/10702 [39:42<1:00:15,  2.01it/s] 32%|███▏      | 3437/10702 [39:42<1:00:11,  2.01it/s] 32%|███▏      | 3438/10702 [39:43<1:00:14,  2.01it/s] 32%|███▏      | 3439/10702 [39:43<1:00:08,  2.01it/s] 32%|███▏      | 3440/10702 [39:44<1:00:08,  2.01it/s] 32%|███▏      | 3441/10702 [39:44<1:00:09,  2.01it/s] 32%|███▏      | 3442/10702 [39:45<1:00:09,  2.01it/s] 32%|███▏      | 3443/10702 [39:45<1:00:05,  2.01it/s] 32%|███▏      | 3444/10702 [39:46<1:00:08,  2.01it/s] 32%|███▏      | 3445/10702 [39:46<1:00:03,  2.01it/s] 32%|███▏      | 3446/10702 [39:47<1:00:04,  2.01it/s] 32%|███▏      | 3447/10702 [39:47<59:59,  2.02it/s]   32%|███▏      | 3448/10702 [39:48<59:59,  2.02it/s] 32%|███▏      | 3449/10702 [39:48<59:57,  2.02it/s] 32%|███▏      | 3450/10702 [39:49<1:00:04,  2.01it/s]                                                      {'loss': 3.8272, 'grad_norm': 0.19831281900405884, 'learning_rate': 0.0008568534650562099, 'epoch': 0.32}
+ 32%|███▏      | 3450/10702 [39:49<1:00:04,  2.01it/s] 32%|███▏      | 3451/10702 [39:49<1:00:08,  2.01it/s] 32%|███▏      | 3452/10702 [39:50<1:00:03,  2.01it/s] 32%|███▏      | 3453/10702 [39:50<59:56,  2.02it/s]   32%|███▏      | 3454/10702 [39:51<59:55,  2.02it/s] 32%|███▏      | 3455/10702 [39:51<59:56,  2.02it/s] 32%|███▏      | 3456/10702 [39:52<59:53,  2.02it/s] 32%|███▏      | 3457/10702 [39:52<59:55,  2.02it/s] 32%|███▏      | 3458/10702 [39:53<59:52,  2.02it/s] 32%|███▏      | 3459/10702 [39:53<59:55,  2.01it/s] 32%|███▏      | 3460/10702 [39:54<59:55,  2.01it/s] 32%|███▏      | 3461/10702 [39:54<59:53,  2.02it/s] 32%|███▏      | 3462/10702 [39:55<59:51,  2.02it/s] 32%|███▏      | 3463/10702 [39:55<59:51,  2.02it/s] 32%|███▏      | 3464/10702 [39:55<59:53,  2.01it/s] 32%|███▏      | 3465/10702 [39:56<59:50,  2.02it/s] 32%|███▏      | 3466/10702 [39:56<59:52,  2.01it/s] 32%|███▏      | 3467/10702 [39:57<1:00:00,  2.01it/s] 32%|███▏      | 3468/10702 [39:57<1:00:02,  2.01it/s] 32%|███▏      | 3469/10702 [39:58<59:57,  2.01it/s]   32%|███▏      | 3470/10702 [39:58<59:56,  2.01it/s] 32%|███▏      | 3471/10702 [39:59<59:51,  2.01it/s] 32%|███▏      | 3472/10702 [39:59<59:52,  2.01it/s] 32%|███▏      | 3473/10702 [40:00<59:47,  2.02it/s] 32%|███▏      | 3474/10702 [40:00<59:50,  2.01it/s] 32%|███▏      | 3475/10702 [40:01<59:49,  2.01it/s]                                                    {'loss': 3.8129, 'grad_norm': 0.20429158210754395, 'learning_rate': 0.0008539856047149683, 'epoch': 0.32}
+ 32%|███▏      | 3475/10702 [40:01<59:49,  2.01it/s] 32%|███▏      | 3476/10702 [40:01<59:48,  2.01it/s] 32%|███▏      | 3477/10702 [40:02<59:49,  2.01it/s] 32%|███▏      | 3478/10702 [40:02<59:46,  2.01it/s] 33%|███▎      | 3479/10702 [40:03<59:45,  2.01it/s] 33%|███▎      | 3480/10702 [40:03<59:46,  2.01it/s] 33%|███▎      | 3481/10702 [40:04<59:42,  2.02it/s] 33%|███▎      | 3482/10702 [40:04<59:45,  2.01it/s] 33%|███▎      | 3483/10702 [40:05<59:44,  2.01it/s] 33%|███▎      | 3484/10702 [40:05<59:43,  2.01it/s] 33%|███▎      | 3485/10702 [40:06<59:43,  2.01it/s] 33%|███▎      | 3486/10702 [40:06<59:41,  2.02it/s] 33%|███▎      | 3487/10702 [40:07<59:44,  2.01it/s] 33%|███▎      | 3488/10702 [40:07<59:38,  2.02it/s] 33%|███▎      | 3489/10702 [40:08<59:40,  2.01it/s] 33%|███▎      | 3490/10702 [40:08<59:40,  2.01it/s] 33%|███▎      | 3491/10702 [40:09<59:37,  2.02it/s] 33%|███▎      | 3492/10702 [40:09<59:42,  2.01it/s] 33%|███▎      | 3493/10702 [40:10<59:38,  2.01it/s] 33%|███▎      | 3494/10702 [40:10<59:37,  2.01it/s] 33%|███▎      | 3495/10702 [40:11<59:36,  2.01it/s] 33%|███▎      | 3496/10702 [40:11<59:32,  2.02it/s] 33%|███▎      | 3497/10702 [40:12<59:35,  2.01it/s] 33%|███▎      | 3498/10702 [40:12<59:35,  2.01it/s] 33%|███▎      | 3499/10702 [40:13<59:33,  2.02it/s] 33%|███▎      | 3500/10702 [40:13<59:32,  2.02it/s]                                                    {'loss': 3.8148, 'grad_norm': 0.19968624413013458, 'learning_rate': 0.0008510942036293507, 'epoch': 0.33}
+ 33%|███▎      | 3500/10702 [40:13<59:32,  2.02it/s] 33%|███▎      | 3501/10702 [40:14<59:31,  2.02it/s] 33%|███▎      | 3502/10702 [40:14<59:30,  2.02it/s] 33%|███▎      | 3503/10702 [40:15<59:28,  2.02it/s] 33%|███▎      | 3504/10702 [40:15<59:31,  2.02it/s] 33%|███▎      | 3505/10702 [40:16<59:26,  2.02it/s] 33%|███▎      | 3506/10702 [40:16<59:27,  2.02it/s] 33%|███▎      | 3507/10702 [40:17<59:29,  2.02it/s] 33%|███▎      | 3508/10702 [40:17<59:24,  2.02it/s] 33%|███▎      | 3509/10702 [40:18<59:29,  2.02it/s] 33%|███▎      | 3510/10702 [40:18<59:24,  2.02it/s] 33%|███▎      | 3511/10702 [40:19<59:28,  2.02it/s] 33%|███▎      | 3512/10702 [40:19<59:25,  2.02it/s] 33%|███▎      | 3513/10702 [40:20<59:23,  2.02it/s] 33%|███▎      | 3514/10702 [40:20<59:25,  2.02it/s] 33%|███▎      | 3515/10702 [40:21<59:24,  2.02it/s] 33%|███▎      | 3516/10702 [40:21<59:27,  2.01it/s] 33%|███▎      | 3517/10702 [40:22<59:21,  2.02it/s] 33%|███▎      | 3518/10702 [40:22<59:23,  2.02it/s] 33%|███▎      | 3519/10702 [40:23<59:23,  2.02it/s] 33%|███▎      | 3520/10702 [40:23<59:19,  2.02it/s] 33%|███▎      | 3521/10702 [40:24<59:18,  2.02it/s] 33%|███▎      | 3522/10702 [40:24<59:17,  2.02it/s] 33%|███▎      | 3523/10702 [40:25<59:22,  2.02it/s] 33%|███▎      | 3524/10702 [40:25<59:18,  2.02it/s] 33%|███▎      | 3525/10702 [40:26<59:23,  2.01it/s]                                                    {'loss': 3.8167, 'grad_norm': 0.21348246932029724, 'learning_rate': 0.0008481794540832604, 'epoch': 0.33}
+ 33%|███▎      | 3525/10702 [40:26<59:23,  2.01it/s] 33%|███▎      | 3526/10702 [40:26<59:26,  2.01it/s] 33%|███▎      | 3527/10702 [40:27<59:20,  2.02it/s] 33%|███▎      | 3528/10702 [40:27<59:33,  2.01it/s] 33%|███▎      | 3529/10702 [40:28<59:30,  2.01it/s] 33%|███▎      | 3530/10702 [40:28<59:24,  2.01it/s] 33%|███▎      | 3531/10702 [40:29<59:27,  2.01it/s] 33%|███▎      | 3532/10702 [40:29<59:19,  2.01it/s] 33%|███▎      | 3533/10702 [40:30<59:18,  2.01it/s] 33%|███▎      | 3534/10702 [40:30<59:15,  2.02it/s] 33%|███▎      | 3535/10702 [40:31<59:16,  2.02it/s] 33%|███▎      | 3536/10702 [40:31<59:13,  2.02it/s] 33%|███▎      | 3537/10702 [40:32<59:11,  2.02it/s] 33%|███▎      | 3538/10702 [40:32<59:15,  2.01it/s] 33%|███▎      | 3539/10702 [40:33<59:13,  2.02it/s] 33%|███▎      | 3540/10702 [40:33<59:13,  2.02it/s] 33%|███▎      | 3541/10702 [40:34<59:14,  2.01it/s] 33%|███▎      | 3542/10702 [40:34<59:10,  2.02it/s] 33%|███▎      | 3543/10702 [40:35<59:10,  2.02it/s] 33%|███▎      | 3544/10702 [40:35<59:09,  2.02it/s] 33%|███▎      | 3545/10702 [40:36<59:09,  2.02it/s] 33%|███▎      | 3546/10702 [40:36<59:10,  2.02it/s] 33%|███▎      | 3547/10702 [40:37<59:09,  2.02it/s] 33%|███▎      | 3548/10702 [40:37<59:06,  2.02it/s] 33%|███▎      | 3549/10702 [40:38<59:06,  2.02it/s] 33%|███▎      | 3550/10702 [40:38<59:05,  2.02it/s]{'loss': 3.814, 'grad_norm': 0.19717544317245483, 'learning_rate': 0.0008452415499133197, 'epoch': 0.33}                                                    
+ 33%|███▎      | 3550/10702 [40:38<59:05,  2.02it/s] 33%|███▎      | 3551/10702 [40:39<59:12,  2.01it/s] 33%|███▎      | 3552/10702 [40:39<59:12,  2.01it/s] 33%|███▎      | 3553/10702 [40:40<59:09,  2.01it/s] 33%|███▎      | 3554/10702 [40:40<59:09,  2.01it/s] 33%|███▎      | 3555/10702 [40:41<59:08,  2.01it/s] 33%|███▎      | 3556/10702 [40:41<59:06,  2.02it/s] 33%|███▎      | 3557/10702 [40:42<59:07,  2.01it/s] 33%|███▎      | 3558/10702 [40:42<59:04,  2.02it/s] 33%|███▎      | 3559/10702 [40:43<59:05,  2.01it/s] 33%|███▎      | 3560/10702 [40:43<59:02,  2.02it/s] 33%|███▎      | 3561/10702 [40:44<59:05,  2.01it/s] 33%|███▎      | 3562/10702 [40:44<59:04,  2.01it/s] 33%|███▎      | 3563/10702 [40:45<59:01,  2.02it/s] 33%|███▎      | 3564/10702 [40:45<58:57,  2.02it/s] 33%|███▎      | 3565/10702 [40:46<58:58,  2.02it/s] 33%|███▎      | 3566/10702 [40:46<59:00,  2.02it/s] 33%|███▎      | 3567/10702 [40:47<58:57,  2.02it/s] 33%|███▎      | 3568/10702 [40:47<58:56,  2.02it/s] 33%|███▎      | 3569/10702 [40:48<58:53,  2.02it/s] 33%|███▎      | 3570/10702 [40:48<58:53,  2.02it/s] 33%|███▎      | 3571/10702 [40:49<58:51,  2.02it/s] 33%|███▎      | 3572/10702 [40:49<58:52,  2.02it/s] 33%|███▎      | 3573/10702 [40:50<58:51,  2.02it/s] 33%|███▎      | 3574/10702 [40:50<58:51,  2.02it/s] 33%|███▎      | 3575/10702 [40:51<58:54,  2.02it/s]                                                    {'loss': 3.8066, 'grad_norm': 0.19773492217063904, 'learning_rate': 0.0008422806864959796, 'epoch': 0.33}
+ 33%|███▎      | 3575/10702 [40:51<58:54,  2.02it/s] 33%|███▎      | 3576/10702 [40:51<58:55,  2.02it/s] 33%|███▎      | 3577/10702 [40:52<58:52,  2.02it/s] 33%|███▎      | 3578/10702 [40:52<58:56,  2.01it/s] 33%|███▎      | 3579/10702 [40:53<58:50,  2.02it/s] 33%|███▎      | 3580/10702 [40:53<58:51,  2.02it/s] 33%|███▎      | 3581/10702 [40:54<58:48,  2.02it/s] 33%|███▎      | 3582/10702 [40:54<58:53,  2.01it/s] 33%|███▎      | 3583/10702 [40:55<58:50,  2.02it/s] 33%|███▎      | 3584/10702 [40:55<58:55,  2.01it/s] 33%|███▎      | 3585/10702 [40:56<58:50,  2.02it/s] 34%|███▎      | 3586/10702 [40:56<58:51,  2.02it/s] 34%|███▎      | 3587/10702 [40:57<58:45,  2.02it/s] 34%|███▎      | 3588/10702 [40:57<58:47,  2.02it/s] 34%|███▎      | 3589/10702 [40:58<58:59,  2.01it/s] 34%|███▎      | 3590/10702 [40:58<58:52,  2.01it/s] 34%|███▎      | 3591/10702 [40:59<58:48,  2.02it/s] 34%|███▎      | 3592/10702 [40:59<58:45,  2.02it/s] 34%|███▎      | 3593/10702 [41:00<58:46,  2.02it/s] 34%|███▎      | 3594/10702 [41:00<58:43,  2.02it/s] 34%|███▎      | 3595/10702 [41:00<58:43,  2.02it/s] 34%|███▎      | 3596/10702 [41:01<58:41,  2.02it/s] 34%|███▎      | 3597/10702 [41:01<58:42,  2.02it/s] 34%|███▎      | 3598/10702 [41:02<58:39,  2.02it/s] 34%|███▎      | 3599/10702 [41:02<58:39,  2.02it/s] 34%|███▎      | 3600/10702 [41:03<58:36,  2.02it/s]                                                    {'loss': 3.7959, 'grad_norm': 0.2050299495458603, 'learning_rate': 0.0008392970607345258, 'epoch': 0.34}
+ 34%|███▎      | 3600/10702 [41:03<58:36,  2.02it/s] 34%|███▎      | 3601/10702 [41:03<58:43,  2.02it/s] 34%|███▎      | 3602/10702 [41:04<58:40,  2.02it/s] 34%|███▎      | 3603/10702 [41:04<58:41,  2.02it/s] 34%|███▎      | 3604/10702 [41:05<58:41,  2.02it/s] 34%|███▎      | 3605/10702 [41:05<58:42,  2.01it/s] 34%|███▎      | 3606/10702 [41:06<58:42,  2.01it/s] 34%|███▎      | 3607/10702 [41:06<58:40,  2.02it/s] 34%|███▎      | 3608/10702 [41:07<58:39,  2.02it/s] 34%|███▎      | 3609/10702 [41:07<58:40,  2.01it/s] 34%|███▎      | 3610/10702 [41:08<58:35,  2.02it/s] 34%|███▎      | 3611/10702 [41:08<58:40,  2.01it/s] 34%|███▍      | 3612/10702 [41:09<58:38,  2.02it/s] 34%|███▍      | 3613/10702 [41:09<58:39,  2.01it/s] 34%|███▍      | 3614/10702 [41:10<58:41,  2.01it/s] 34%|███▍      | 3615/10702 [41:10<58:41,  2.01it/s] 34%|███▍      | 3616/10702 [41:11<58:39,  2.01it/s] 34%|███▍      | 3617/10702 [41:11<58:36,  2.01it/s] 34%|███▍      | 3618/10702 [41:12<59:43,  1.98it/s] 34%|███▍      | 3619/10702 [41:12<59:17,  1.99it/s] 34%|███▍      | 3620/10702 [41:13<59:05,  2.00it/s] 34%|███▍      | 3621/10702 [41:13<58:51,  2.00it/s] 34%|███▍      | 3622/10702 [41:14<58:48,  2.01it/s] 34%|███▍      | 3623/10702 [41:14<58:37,  2.01it/s] 34%|███▍      | 3624/10702 [41:15<58:36,  2.01it/s] 34%|███▍      | 3625/10702 [41:15<58:31,  2.02it/s]{'loss': 3.8003, 'grad_norm': 0.19530951976776123, 'learning_rate': 0.000836290871045986, 'epoch': 0.34}
+                                                     34%|███▍      | 3625/10702 [41:15<58:31,  2.02it/s] 34%|███▍      | 3626/10702 [41:16<58:36,  2.01it/s] 34%|███▍      | 3627/10702 [41:16<58:32,  2.01it/s] 34%|███▍      | 3628/10702 [41:17<58:31,  2.01it/s] 34%|███▍      | 3629/10702 [41:17<58:31,  2.01it/s] 34%|███▍      | 3630/10702 [41:18<58:32,  2.01it/s] 34%|███▍      | 3631/10702 [41:18<58:28,  2.02it/s] 34%|███▍      | 3632/10702 [41:19<58:34,  2.01it/s] 34%|███▍      | 3633/10702 [41:19<58:30,  2.01it/s] 34%|███▍      | 3634/10702 [41:20<58:30,  2.01it/s] 34%|███▍      | 3635/10702 [41:20<58:30,  2.01it/s] 34%|███▍      | 3636/10702 [41:21<58:27,  2.01it/s] 34%|███▍      | 3637/10702 [41:21<58:26,  2.01it/s] 34%|███▍      | 3638/10702 [41:22<58:23,  2.02it/s] 34%|███▍      | 3639/10702 [41:22<58:23,  2.02it/s] 34%|███▍      | 3640/10702 [41:23<58:22,  2.02it/s] 34%|███▍      | 3641/10702 [41:23<58:19,  2.02it/s] 34%|███▍      | 3642/10702 [41:24<58:24,  2.01it/s] 34%|███▍      | 3643/10702 [41:24<58:17,  2.02it/s] 34%|███▍      | 3644/10702 [41:25<58:20,  2.02it/s] 34%|███▍      | 3645/10702 [41:25<58:17,  2.02it/s] 34%|███▍      | 3646/10702 [41:26<58:17,  2.02it/s] 34%|███▍      | 3647/10702 [41:26<58:20,  2.02it/s] 34%|███▍      | 3648/10702 [41:27<58:16,  2.02it/s] 34%|███▍      | 3649/10702 [41:27<58:27,  2.01it/s] 34%|███▍      | 3650/10702 [41:28<58:29,  2.01it/s]                                                    {'loss': 3.8, 'grad_norm': 0.19636768102645874, 'learning_rate': 0.0008332623173479333, 'epoch': 0.34}
+ 34%|███▍      | 3650/10702 [41:28<58:29,  2.01it/s] 34%|███▍      | 3651/10702 [41:28<58:28,  2.01it/s] 34%|███▍      | 3652/10702 [41:29<58:27,  2.01it/s] 34%|███▍      | 3653/10702 [41:29<58:30,  2.01it/s] 34%|███▍      | 3654/10702 [41:30<58:25,  2.01it/s] 34%|███▍      | 3655/10702 [41:30<58:24,  2.01it/s] 34%|███▍      | 3656/10702 [41:31<58:21,  2.01it/s] 34%|███▍      | 3657/10702 [41:31<58:19,  2.01it/s] 34%|███▍      | 3658/10702 [41:32<58:17,  2.01it/s] 34%|███▍      | 3659/10702 [41:32<58:18,  2.01it/s] 34%|███▍      | 3660/10702 [41:33<58:15,  2.01it/s] 34%|███▍      | 3661/10702 [41:33<58:12,  2.02it/s] 34%|███▍      | 3662/10702 [41:34<58:10,  2.02it/s] 34%|███▍      | 3663/10702 [41:34<58:12,  2.02it/s] 34%|███▍      | 3664/10702 [41:35<58:10,  2.02it/s] 34%|███▍      | 3665/10702 [41:35<58:10,  2.02it/s] 34%|███▍      | 3666/10702 [41:36<58:12,  2.01it/s] 34%|███▍      | 3667/10702 [41:36<58:13,  2.01it/s] 34%|███▍      | 3668/10702 [41:37<58:09,  2.02it/s] 34%|███▍      | 3669/10702 [41:37<58:12,  2.01it/s] 34%|███▍      | 3670/10702 [41:38<58:11,  2.01it/s] 34%|███▍      | 3671/10702 [41:38<58:07,  2.02it/s] 34%|███▍      | 3672/10702 [41:39<58:09,  2.01it/s] 34%|███▍      | 3673/10702 [41:39<58:07,  2.02it/s] 34%|███▍      | 3674/10702 [41:40<58:09,  2.01it/s] 34%|███▍      | 3675/10702 [41:40<58:06,  2.02it/s]                                                    {'loss': 3.8048, 'grad_norm': 0.22395728528499603, 'learning_rate': 0.0008302116010451912, 'epoch': 0.34}
+ 34%|███▍      | 3675/10702 [41:40<58:06,  2.02it/s] 34%|███▍      | 3676/10702 [41:41<58:07,  2.01it/s] 34%|███▍      | 3677/10702 [41:41<58:04,  2.02it/s] 34%|███▍      | 3678/10702 [41:42<58:02,  2.02it/s] 34%|███▍      | 3679/10702 [41:42<58:06,  2.01it/s] 34%|███▍      | 3680/10702 [41:43<58:02,  2.02it/s] 34%|███▍      | 3681/10702 [41:43<58:03,  2.02it/s] 34%|███▍      | 3682/10702 [41:44<57:57,  2.02it/s] 34%|███▍      | 3683/10702 [41:44<58:00,  2.02it/s] 34%|███▍      | 3684/10702 [41:45<58:04,  2.01it/s] 34%|███▍      | 3685/10702 [41:45<58:01,  2.02it/s] 34%|███▍      | 3686/10702 [41:46<58:03,  2.01it/s] 34%|███▍      | 3687/10702 [41:46<57:58,  2.02it/s] 34%|███▍      | 3688/10702 [41:47<57:59,  2.02it/s] 34%|███▍      | 3689/10702 [41:47<57:57,  2.02it/s] 34%|███▍      | 3690/10702 [41:48<57:54,  2.02it/s] 34%|███▍      | 3691/10702 [41:48<57:58,  2.02it/s] 34%|███▍      | 3692/10702 [41:49<57:55,  2.02it/s] 35%|███▍      | 3693/10702 [41:49<57:59,  2.01it/s] 35%|███▍      | 3694/10702 [41:50<57:56,  2.02it/s] 35%|███▍      | 3695/10702 [41:50<57:54,  2.02it/s] 35%|███▍      | 3696/10702 [41:51<58:34,  1.99it/s] 35%|███▍      | 3697/10702 [41:51<58:24,  2.00it/s] 35%|███▍      | 3698/10702 [41:52<58:19,  2.00it/s] 35%|███▍      | 3699/10702 [41:52<58:13,  2.00it/s] 35%|███▍      | 3700/10702 [41:53<58:07,  2.01it/s]                                                    {'loss': 3.7982, 'grad_norm': 0.19809390604496002, 'learning_rate': 0.0008271389250164416, 'epoch': 0.35}
+ 35%|███▍      | 3700/10702 [41:53<58:07,  2.01it/s] 35%|███▍      | 3701/10702 [41:53<58:07,  2.01it/s] 35%|███▍      | 3702/10702 [41:54<58:05,  2.01it/s] 35%|███▍      | 3703/10702 [41:54<58:04,  2.01it/s] 35%|███▍      | 3704/10702 [41:55<58:05,  2.01it/s] 35%|███▍      | 3705/10702 [41:55<58:00,  2.01it/s] 35%|███▍      | 3706/10702 [41:56<57:56,  2.01it/s] 35%|███▍      | 3707/10702 [41:56<57:54,  2.01it/s] 35%|███▍      | 3708/10702 [41:57<57:53,  2.01it/s] 35%|███▍      | 3709/10702 [41:57<58:04,  2.01it/s] 35%|███▍      | 3710/10702 [41:58<58:25,  1.99it/s] 35%|███▍      | 3711/10702 [41:58<58:21,  2.00it/s] 35%|███▍      | 3712/10702 [41:59<58:18,  2.00it/s] 35%|███▍      | 3713/10702 [41:59<58:11,  2.00it/s] 35%|███▍      | 3714/10702 [42:00<58:06,  2.00it/s] 35%|███▍      | 3715/10702 [42:00<58:04,  2.01it/s] 35%|███▍      | 3716/10702 [42:01<57:59,  2.01it/s] 35%|███▍      | 3717/10702 [42:01<57:59,  2.01it/s] 35%|███▍      | 3718/10702 [42:02<57:54,  2.01it/s] 35%|███▍      | 3719/10702 [42:02<57:54,  2.01it/s] 35%|███▍      | 3720/10702 [42:03<57:51,  2.01it/s] 35%|███▍      | 3721/10702 [42:03<57:52,  2.01it/s] 35%|███▍      | 3722/10702 [42:04<57:54,  2.01it/s] 35%|███▍      | 3723/10702 [42:04<57:53,  2.01it/s] 35%|███▍      | 3724/10702 [42:05<57:51,  2.01it/s] 35%|███▍      | 3725/10702 [42:05<57:48,  2.01it/s]{'loss': 3.8013, 'grad_norm': 0.20855307579040527, 'learning_rate': 0.0008240444936007305, 'epoch': 0.35}
+                                                     35%|███▍      | 3725/10702 [42:05<57:48,  2.01it/s] 35%|███▍      | 3726/10702 [42:06<57:51,  2.01it/s] 35%|███▍      | 3727/10702 [42:06<57:51,  2.01it/s] 35%|███▍      | 3728/10702 [42:07<57:47,  2.01it/s] 35%|███▍      | 3729/10702 [42:07<57:50,  2.01it/s] 35%|███▍      | 3730/10702 [42:08<57:44,  2.01it/s] 35%|███▍      | 3731/10702 [42:08<58:27,  1.99it/s] 35%|███▍      | 3732/10702 [42:09<58:11,  2.00it/s] 35%|███▍      | 3733/10702 [42:09<58:01,  2.00it/s] 35%|███▍      | 3734/10702 [42:10<57:55,  2.00it/s] 35%|███▍      | 3735/10702 [42:10<57:47,  2.01it/s] 35%|███▍      | 3736/10702 [42:11<57:44,  2.01it/s] 35%|███▍      | 3737/10702 [42:11<57:44,  2.01it/s] 35%|███▍      | 3738/10702 [42:12<57:41,  2.01it/s] 35%|███▍      | 3739/10702 [42:12<57:42,  2.01it/s] 35%|███▍      | 3740/10702 [42:13<57:37,  2.01it/s] 35%|███▍      | 3741/10702 [42:13<57:39,  2.01it/s] 35%|███▍      | 3742/10702 [42:14<57:32,  2.02it/s] 35%|███▍      | 3743/10702 [42:14<57:32,  2.02it/s] 35%|███▍      | 3744/10702 [42:15<57:32,  2.02it/s] 35%|███▍      | 3745/10702 [42:15<57:30,  2.02it/s] 35%|███▌      | 3746/10702 [42:16<57:34,  2.01it/s] 35%|███▌      | 3747/10702 [42:16<57:30,  2.02it/s] 35%|███▌      | 3748/10702 [42:17<57:29,  2.02it/s] 35%|███▌      | 3749/10702 [42:17<57:28,  2.02it/s] 35%|███▌      | 3750/10702 [42:18<57:27,  2.02it/s]                                                    {'loss': 3.8006, 'grad_norm': 0.2044602632522583, 'learning_rate': 0.000820928512583881, 'epoch': 0.35}
+ 35%|███▌      | 3750/10702 [42:18<57:27,  2.02it/s] 35%|███▌      | 3751/10702 [42:18<57:31,  2.01it/s] 35%|███▌      | 3752/10702 [42:19<57:26,  2.02it/s] 35%|███▌      | 3753/10702 [42:19<57:30,  2.01it/s] 35%|███▌      | 3754/10702 [42:20<57:29,  2.01it/s] 35%|███▌      | 3755/10702 [42:20<57:25,  2.02it/s] 35%|███▌      | 3756/10702 [42:21<57:25,  2.02it/s] 35%|███▌      | 3757/10702 [42:21<57:21,  2.02it/s] 35%|███▌      | 3758/10702 [42:22<57:24,  2.02it/s] 35%|███▌      | 3759/10702 [42:22<57:21,  2.02it/s] 35%|███▌      | 3760/10702 [42:23<57:22,  2.02it/s] 35%|███▌      | 3761/10702 [42:23<57:28,  2.01it/s] 35%|███▌      | 3762/10702 [42:23<57:19,  2.02it/s] 35%|███▌      | 3763/10702 [42:24<57:22,  2.02it/s] 35%|███▌      | 3764/10702 [42:24<57:18,  2.02it/s] 35%|███▌      | 3765/10702 [42:25<57:20,  2.02it/s] 35%|███▌      | 3766/10702 [42:25<57:18,  2.02it/s] 35%|███▌      | 3767/10702 [42:26<57:18,  2.02it/s] 35%|███▌      | 3768/10702 [42:26<57:16,  2.02it/s] 35%|███▌      | 3769/10702 [42:27<57:19,  2.02it/s] 35%|███▌      | 3770/10702 [42:27<57:20,  2.01it/s] 35%|███▌      | 3771/10702 [42:28<57:20,  2.01it/s] 35%|███▌      | 3772/10702 [42:28<57:20,  2.01it/s] 35%|███▌      | 3773/10702 [42:29<57:20,  2.01it/s] 35%|███▌      | 3774/10702 [42:29<57:18,  2.01it/s] 35%|███▌      | 3775/10702 [42:30<57:20,  2.01it/s]                                                    {'loss': 3.7925, 'grad_norm': 0.1986207216978073, 'learning_rate': 0.0008177911891848071, 'epoch': 0.35}
+ 35%|███▌      | 3775/10702 [42:30<57:20,  2.01it/s] 35%|███▌      | 3776/10702 [42:30<57:22,  2.01it/s] 35%|███▌      | 3777/10702 [42:31<57:19,  2.01it/s] 35%|███▌      | 3778/10702 [42:31<57:20,  2.01it/s] 35%|███▌      | 3779/10702 [42:32<57:17,  2.01it/s] 35%|███▌      | 3780/10702 [42:32<57:18,  2.01it/s] 35%|███▌      | 3781/10702 [42:33<57:17,  2.01it/s] 35%|███▌      | 3782/10702 [42:33<57:14,  2.01it/s] 35%|███▌      | 3783/10702 [42:34<57:13,  2.01it/s] 35%|███▌      | 3784/10702 [42:34<57:15,  2.01it/s] 35%|███▌      | 3785/10702 [42:35<57:14,  2.01it/s] 35%|███▌      | 3786/10702 [42:35<57:13,  2.01it/s] 35%|███▌      | 3787/10702 [42:36<57:12,  2.01it/s] 35%|███▌      | 3788/10702 [42:36<57:12,  2.01it/s] 35%|███▌      | 3789/10702 [42:37<57:48,  1.99it/s] 35%|███▌      | 3790/10702 [42:37<57:37,  2.00it/s] 35%|███▌      | 3791/10702 [42:38<57:27,  2.00it/s] 35%|███▌      | 3792/10702 [42:38<57:20,  2.01it/s] 35%|███▌      | 3793/10702 [42:39<57:16,  2.01it/s] 35%|███▌      | 3794/10702 [42:39<57:11,  2.01it/s] 35%|███▌      | 3795/10702 [42:40<57:08,  2.01it/s] 35%|███▌      | 3796/10702 [42:40<57:04,  2.02it/s] 35%|███▌      | 3797/10702 [42:41<57:11,  2.01it/s] 35%|███▌      | 3798/10702 [42:41<57:06,  2.01it/s] 35%|███▌      | 3799/10702 [42:42<57:08,  2.01it/s] 36%|███▌      | 3800/10702 [42:42<57:07,  2.01it/s]{'loss': 3.7906, 'grad_norm': 0.20919227600097656, 'learning_rate': 0.0008146327320417337, 'epoch': 0.36}
+                                                     36%|███▌      | 3800/10702 [42:42<57:07,  2.01it/s] 36%|███▌      | 3801/10702 [42:43<57:08,  2.01it/s] 36%|███▌      | 3802/10702 [42:43<57:08,  2.01it/s] 36%|███▌      | 3803/10702 [42:44<57:06,  2.01it/s] 36%|███▌      | 3804/10702 [42:44<57:03,  2.01it/s] 36%|███▌      | 3805/10702 [42:45<56:59,  2.02it/s] 36%|███▌      | 3806/10702 [42:45<56:58,  2.02it/s] 36%|███▌      | 3807/10702 [42:46<56:56,  2.02it/s] 36%|███▌      | 3808/10702 [42:46<56:54,  2.02it/s] 36%|███▌      | 3809/10702 [42:47<56:55,  2.02it/s] 36%|███▌      | 3810/10702 [42:47<56:53,  2.02it/s] 36%|███▌      | 3811/10702 [42:48<56:57,  2.02it/s] 36%|███▌      | 3812/10702 [42:48<56:55,  2.02it/s] 36%|███▌      | 3813/10702 [42:49<56:58,  2.02it/s] 36%|███▌      | 3814/10702 [42:49<56:53,  2.02it/s] 36%|███▌      | 3815/10702 [42:50<56:54,  2.02it/s] 36%|███▌      | 3816/10702 [42:50<56:52,  2.02it/s] 36%|███▌      | 3817/10702 [42:51<56:52,  2.02it/s] 36%|███▌      | 3818/10702 [42:51<56:46,  2.02it/s] 36%|███▌      | 3819/10702 [42:52<56:46,  2.02it/s] 36%|███▌      | 3820/10702 [42:52<56:48,  2.02it/s] 36%|███▌      | 3821/10702 [42:53<56:49,  2.02it/s] 36%|███▌      | 3822/10702 [42:53<56:45,  2.02it/s] 36%|███▌      | 3823/10702 [42:54<56:47,  2.02it/s] 36%|███▌      | 3824/10702 [42:54<56:52,  2.02it/s] 36%|███▌      | 3825/10702 [42:55<56:51,  2.02it/s]{'loss': 3.7882, 'grad_norm': 0.23224833607673645, 'learning_rate': 0.0008114533511983211, 'epoch': 0.36}
+                                                     36%|███▌      | 3825/10702 [42:55<56:51,  2.02it/s] 36%|███▌      | 3826/10702 [42:55<56:53,  2.01it/s] 36%|███▌      | 3827/10702 [42:56<56:46,  2.02it/s] 36%|███▌      | 3828/10702 [42:56<56:47,  2.02it/s] 36%|███▌      | 3829/10702 [42:57<56:46,  2.02it/s] 36%|███▌      | 3830/10702 [42:57<56:50,  2.01it/s] 36%|███▌      | 3831/10702 [42:58<57:34,  1.99it/s] 36%|███▌      | 3832/10702 [42:58<57:25,  1.99it/s] 36%|███▌      | 3833/10702 [42:59<57:17,  2.00it/s] 36%|███▌      | 3834/10702 [42:59<57:10,  2.00it/s] 36%|███▌      | 3835/10702 [43:00<57:15,  2.00it/s] 36%|███▌      | 3836/10702 [43:00<57:07,  2.00it/s] 36%|███▌      | 3837/10702 [43:01<57:02,  2.01it/s] 36%|███▌      | 3838/10702 [43:01<57:04,  2.00it/s] 36%|███▌      | 3839/10702 [43:02<57:00,  2.01it/s] 36%|███▌      | 3840/10702 [43:02<56:58,  2.01it/s] 36%|███▌      | 3841/10702 [43:03<56:59,  2.01it/s] 36%|███▌      | 3842/10702 [43:03<56:52,  2.01it/s] 36%|███▌      | 3843/10702 [43:04<56:49,  2.01it/s] 36%|███▌      | 3844/10702 [43:04<56:53,  2.01it/s] 36%|███▌      | 3845/10702 [43:05<56:47,  2.01it/s] 36%|███▌      | 3846/10702 [43:05<56:48,  2.01it/s] 36%|███▌      | 3847/10702 [43:06<56:51,  2.01it/s] 36%|███▌      | 3848/10702 [43:06<56:47,  2.01it/s] 36%|███▌      | 3849/10702 [43:07<56:47,  2.01it/s] 36%|███▌      | 3850/10702 [43:07<56:47,  2.01it/s]{'loss': 3.7935, 'grad_norm': 0.19240756332874298, 'learning_rate': 0.0008082532580896977, 'epoch': 0.36}
+                                                     36%|███▌      | 3850/10702 [43:07<56:47,  2.01it/s] 36%|███▌      | 3851/10702 [43:08<56:47,  2.01it/s] 36%|███▌      | 3852/10702 [43:08<56:50,  2.01it/s] 36%|███▌      | 3853/10702 [43:09<56:49,  2.01it/s] 36%|███▌      | 3854/10702 [43:09<56:45,  2.01it/s] 36%|███▌      | 3855/10702 [43:10<56:40,  2.01it/s] 36%|███▌      | 3856/10702 [43:10<56:43,  2.01it/s] 36%|███▌      | 3857/10702 [43:11<56:42,  2.01it/s] 36%|███▌      | 3858/10702 [43:11<56:42,  2.01it/s] 36%|███▌      | 3859/10702 [43:12<56:42,  2.01it/s] 36%|███▌      | 3860/10702 [43:12<56:39,  2.01it/s] 36%|███▌      | 3861/10702 [43:13<56:38,  2.01it/s] 36%|███▌      | 3862/10702 [43:13<56:39,  2.01it/s] 36%|███▌      | 3863/10702 [43:14<56:39,  2.01it/s] 36%|███▌      | 3864/10702 [43:14<56:38,  2.01it/s] 36%|███▌      | 3865/10702 [43:15<56:37,  2.01it/s] 36%|███▌      | 3866/10702 [43:15<56:36,  2.01it/s] 36%|███▌      | 3867/10702 [43:16<56:34,  2.01it/s] 36%|███▌      | 3868/10702 [43:16<56:34,  2.01it/s] 36%|███▌      | 3869/10702 [43:17<56:28,  2.02it/s] 36%|███▌      | 3870/10702 [43:17<56:29,  2.02it/s] 36%|███▌      | 3871/10702 [43:18<56:30,  2.01it/s] 36%|███▌      | 3872/10702 [43:18<56:33,  2.01it/s] 36%|███▌      | 3873/10702 [43:19<56:31,  2.01it/s] 36%|███▌      | 3874/10702 [43:19<56:28,  2.02it/s] 36%|███▌      | 3875/10702 [43:20<56:29,  2.01it/s]                                                    {'loss': 3.7928, 'grad_norm': 0.20281361043453217, 'learning_rate': 0.0008050326655283986, 'epoch': 0.36}
+ 36%|███▌      | 3875/10702 [43:20<56:29,  2.01it/s] 36%|███▌      | 3876/10702 [43:20<56:30,  2.01it/s] 36%|███▌      | 3877/10702 [43:21<56:28,  2.01it/s] 36%|███▌      | 3878/10702 [43:21<56:28,  2.01it/s] 36%|███▌      | 3879/10702 [43:22<56:23,  2.02it/s] 36%|███▋      | 3880/10702 [43:22<56:25,  2.02it/s] 36%|███▋      | 3881/10702 [43:23<56:23,  2.02it/s] 36%|███▋      | 3882/10702 [43:23<56:24,  2.01it/s] 36%|███▋      | 3883/10702 [43:24<56:18,  2.02it/s] 36%|███▋      | 3884/10702 [43:24<56:21,  2.02it/s] 36%|███▋      | 3885/10702 [43:25<56:21,  2.02it/s] 36%|███▋      | 3886/10702 [43:25<56:20,  2.02it/s] 36%|███▋      | 3887/10702 [43:26<56:22,  2.01it/s] 36%|███▋      | 3888/10702 [43:26<56:17,  2.02it/s] 36%|███▋      | 3889/10702 [43:27<56:17,  2.02it/s] 36%|███▋      | 3890/10702 [43:27<56:27,  2.01it/s] 36%|███▋      | 3891/10702 [43:28<56:55,  1.99it/s] 36%|███▋      | 3892/10702 [43:28<57:02,  1.99it/s] 36%|███▋      | 3893/10702 [43:29<56:56,  1.99it/s] 36%|███▋      | 3894/10702 [43:29<56:49,  2.00it/s] 36%|███▋      | 3895/10702 [43:30<56:41,  2.00it/s] 36%|███▋      | 3896/10702 [43:30<56:41,  2.00it/s] 36%|███▋      | 3897/10702 [43:31<56:32,  2.01it/s] 36%|███▋      | 3898/10702 [43:31<56:31,  2.01it/s] 36%|███▋      | 3899/10702 [43:32<56:28,  2.01it/s] 36%|███▋      | 3900/10702 [43:32<56:27,  2.01it/s]                                                    {'loss': 3.7851, 'grad_norm': 0.20347090065479279, 'learning_rate': 0.0008017917876902126, 'epoch': 0.36}
+ 36%|███▋      | 3900/10702 [43:32<56:27,  2.01it/s] 36%|███▋      | 3901/10702 [43:33<56:26,  2.01it/s] 36%|███▋      | 3902/10702 [43:33<56:27,  2.01it/s] 36%|███▋      | 3903/10702 [43:34<56:25,  2.01it/s] 36%|███▋      | 3904/10702 [43:34<56:23,  2.01it/s] 36%|███▋      | 3905/10702 [43:35<56:22,  2.01it/s] 36%|███▋      | 3906/10702 [43:35<56:20,  2.01it/s] 37%|███▋      | 3907/10702 [43:36<56:18,  2.01it/s] 37%|███▋      | 3908/10702 [43:36<56:20,  2.01it/s] 37%|███▋      | 3909/10702 [43:37<56:18,  2.01it/s] 37%|███▋      | 3910/10702 [43:37<56:17,  2.01it/s] 37%|███▋      | 3911/10702 [43:38<56:16,  2.01it/s] 37%|███▋      | 3912/10702 [43:38<1:06:14,  1.71it/s] 37%|███▋      | 3913/10702 [43:39<1:03:15,  1.79it/s] 37%|███▋      | 3914/10702 [43:39<1:01:05,  1.85it/s] 37%|███▋      | 3915/10702 [43:40<59:36,  1.90it/s]   37%|███▋      | 3916/10702 [43:40<58:33,  1.93it/s] 37%|███▋      | 3917/10702 [43:41<57:48,  1.96it/s] 37%|███▋      | 3918/10702 [43:41<57:15,  1.97it/s] 37%|███▋      | 3919/10702 [43:42<56:52,  1.99it/s] 37%|███▋      | 3920/10702 [43:42<56:42,  1.99it/s] 37%|███▋      | 3921/10702 [43:43<56:30,  2.00it/s] 37%|███▋      | 3922/10702 [43:43<56:20,  2.01it/s] 37%|███▋      | 3923/10702 [43:44<56:12,  2.01it/s] 37%|███▋      | 3924/10702 [43:44<56:11,  2.01it/s] 37%|███▋      | 3925/10702 [43:45<56:06,  2.01it/s]{'loss': 3.7824, 'grad_norm': 0.22348198294639587, 'learning_rate': 0.0007985308400999399, 'epoch': 0.37}
+                                                     37%|███▋      | 3925/10702 [43:45<56:06,  2.01it/s] 37%|███▋      | 3926/10702 [43:45<56:05,  2.01it/s] 37%|███▋      | 3927/10702 [43:46<56:04,  2.01it/s] 37%|███▋      | 3928/10702 [43:46<56:00,  2.02it/s] 37%|███▋      | 3929/10702 [43:47<55:59,  2.02it/s] 37%|███▋      | 3930/10702 [43:48<1:05:41,  1.72it/s] 37%|███▋      | 3931/10702 [43:48<1:02:44,  1.80it/s] 37%|███▋      | 3932/10702 [43:49<1:00:50,  1.85it/s] 37%|███▋      | 3933/10702 [43:49<59:21,  1.90it/s]   37%|███▋      | 3934/10702 [43:50<58:18,  1.93it/s] 37%|███▋      | 3935/10702 [43:50<57:40,  1.96it/s] 37%|███▋      | 3936/10702 [43:51<57:08,  1.97it/s] 37%|███▋      | 3937/10702 [43:51<56:44,  1.99it/s] 37%|███▋      | 3938/10702 [43:52<56:29,  2.00it/s] 37%|███▋      | 3939/10702 [43:52<56:19,  2.00it/s] 37%|███▋      | 3940/10702 [43:53<56:12,  2.00it/s] 37%|███▋      | 3941/10702 [43:53<56:07,  2.01it/s] 37%|███▋      | 3942/10702 [43:54<56:07,  2.01it/s] 37%|███▋      | 3943/10702 [43:54<55:59,  2.01it/s] 37%|███▋      | 3944/10702 [43:55<55:58,  2.01it/s] 37%|███▋      | 3945/10702 [43:55<55:58,  2.01it/s] 37%|███▋      | 3946/10702 [43:56<55:59,  2.01it/s] 37%|██��▋      | 3947/10702 [43:56<56:00,  2.01it/s] 37%|███▋      | 3948/10702 [43:57<55:58,  2.01it/s] 37%|███▋      | 3949/10702 [43:57<56:03,  2.01it/s] 37%|███▋      | 3950/10702 [43:58<56:37,  1.99it/s]                                                    {'loss': 3.7814, 'grad_norm': 0.20065435767173767, 'learning_rate': 0.0007952500396170593, 'epoch': 0.37}
+ 37%|███▋      | 3950/10702 [43:58<56:37,  1.99it/s] 37%|███▋      | 3951/10702 [43:58<56:33,  1.99it/s] 37%|███▋      | 3952/10702 [43:59<56:26,  1.99it/s] 37%|███▋      | 3953/10702 [43:59<56:19,  2.00it/s] 37%|███▋      | 3954/10702 [44:00<56:19,  2.00it/s] 37%|███▋      | 3955/10702 [44:00<56:09,  2.00it/s] 37%|███▋      | 3956/10702 [44:01<56:09,  2.00it/s] 37%|███▋      | 3957/10702 [44:01<56:04,  2.00it/s] 37%|███▋      | 3958/10702 [44:02<55:59,  2.01it/s] 37%|███▋      | 3959/10702 [44:02<55:57,  2.01it/s] 37%|███▋      | 3960/10702 [44:03<55:56,  2.01it/s] 37%|███▋      | 3961/10702 [44:03<55:49,  2.01it/s] 37%|███▋      | 3962/10702 [44:03<55:52,  2.01it/s] 37%|███▋      | 3963/10702 [44:04<55:48,  2.01it/s] 37%|███▋      | 3964/10702 [44:04<55:47,  2.01it/s] 37%|███▋      | 3965/10702 [44:05<55:48,  2.01it/s] 37%|███▋      | 3966/10702 [44:05<55:48,  2.01it/s] 37%|███▋      | 3967/10702 [44:06<55:47,  2.01it/s] 37%|███▋      | 3968/10702 [44:06<55:46,  2.01it/s] 37%|███▋      | 3969/10702 [44:07<55:43,  2.01it/s] 37%|███▋      | 3970/10702 [44:08<57:00,  1.97it/s] 37%|███▋      | 3971/10702 [44:08<56:31,  1.98it/s] 37%|███▋      | 3972/10702 [44:09<56:21,  1.99it/s] 37%|███▋      | 3973/10702 [44:09<56:06,  2.00it/s] 37%|███▋      | 3974/10702 [44:09<55:57,  2.00it/s] 37%|███▋      | 3975/10702 [44:10<55:50,  2.01it/s]                                                    {'loss': 3.7777, 'grad_norm': 0.20647116005420685, 'learning_rate': 0.0007919496044213057, 'epoch': 0.37}
+ 37%|███▋      | 3975/10702 [44:10<55:50,  2.01it/s] 37%|███▋      | 3976/10702 [44:10<55:49,  2.01it/s] 37%|███▋      | 3977/10702 [44:11<55:47,  2.01it/s] 37%|███▋      | 3978/10702 [44:11<55:42,  2.01it/s] 37%|███▋      | 3979/10702 [44:12<55:39,  2.01it/s] 37%|███▋      | 3980/10702 [44:12<55:40,  2.01it/s] 37%|███▋      | 3981/10702 [44:13<55:32,  2.02it/s] 37%|███▋      | 3982/10702 [44:13<55:36,  2.01it/s] 37%|███▋      | 3983/10702 [44:14<55:33,  2.02it/s] 37%|███▋      | 3984/10702 [44:14<55:35,  2.01it/s] 37%|███▋      | 3985/10702 [44:15<55:33,  2.02it/s] 37%|███▋      | 3986/10702 [44:15<55:30,  2.02it/s] 37%|███▋      | 3987/10702 [44:16<55:27,  2.02it/s] 37%|███▋      | 3988/10702 [44:16<55:27,  2.02it/s] 37%|███▋      | 3989/10702 [44:17<55:26,  2.02it/s] 37%|███▋      | 3990/10702 [44:17<55:29,  2.02it/s] 37%|███▋      | 3991/10702 [44:18<55:26,  2.02it/s] 37%|███▋      | 3992/10702 [44:18<55:27,  2.02it/s] 37%|███▋      | 3993/10702 [44:19<55:29,  2.02it/s] 37%|███▋      | 3994/10702 [44:19<55:31,  2.01it/s] 37%|███▋      | 3995/10702 [44:20<55:30,  2.01it/s] 37%|███▋      | 3996/10702 [44:20<55:25,  2.02it/s] 37%|███▋      | 3997/10702 [44:21<55:20,  2.02it/s] 37%|███▋      | 3998/10702 [44:21<55:24,  2.02it/s] 37%|███▋      | 3999/10702 [44:22<55:21,  2.02it/s] 37%|███▋      | 4000/10702 [44:22<55:22,  2.02it/s]                                                    {'loss': 3.7758, 'grad_norm': 0.20438626408576965, 'learning_rate': 0.0007886297539981622, 'epoch': 0.37}
+ 37%|███▋      | 4000/10702 [44:22<55:22,  2.02it/s] 37%|███▋      | 4001/10702 [44:23<55:29,  2.01it/s] 37%|███▋      | 4002/10702 [44:23<55:25,  2.01it/s] 37%|███▋      | 4003/10702 [44:24<55:25,  2.01it/s] 37%|███▋      | 4004/10702 [44:24<55:21,  2.02it/s] 37%|███▋      | 4005/10702 [44:25<55:20,  2.02it/s] 37%|███▋      | 4006/10702 [44:25<55:23,  2.01it/s] 37%|███▋      | 4007/10702 [44:26<55:21,  2.02it/s] 37%|███▋      | 4008/10702 [44:26<55:24,  2.01it/s] 37%|███▋      | 4009/10702 [44:27<55:20,  2.02it/s] 37%|███▋      | 4010/10702 [44:27<55:47,  2.00it/s] 37%|███▋      | 4011/10702 [44:28<55:57,  1.99it/s] 37%|███▋      | 4012/10702 [44:28<55:52,  2.00it/s] 37%|███▋      | 4013/10702 [44:29<55:44,  2.00it/s] 38%|███▊      | 4014/10702 [44:29<55:45,  2.00it/s] 38%|███▊      | 4015/10702 [44:30<55:42,  2.00it/s] 38%|███▊      | 4016/10702 [44:30<55:42,  2.00it/s] 38%|███▊      | 4017/10702 [44:31<55:34,  2.00it/s] 38%|███▊      | 4018/10702 [44:31<55:36,  2.00it/s] 38%|███▊      | 4019/10702 [44:32<55:30,  2.01it/s] 38%|███▊      | 4020/10702 [44:32<55:28,  2.01it/s] 38%|███▊      | 4021/10702 [44:33<55:33,  2.00it/s] 38%|███▊      | 4022/10702 [44:33<55:28,  2.01it/s] 38%|███▊      | 4023/10702 [44:34<55:23,  2.01it/s] 38%|███▊      | 4024/10702 [44:34<55:25,  2.01it/s] 38%|███▊      | 4025/10702 [44:35<55:22,  2.01it/s]{'loss': 3.772, 'grad_norm': 0.20875096321105957, 'learning_rate': 0.0007852907091242618, 'epoch': 0.38}
+                                                     38%|███▊      | 4025/10702 [44:35<55:22,  2.01it/s] 38%|███▊      | 4026/10702 [44:35<55:20,  2.01it/s] 38%|███▊      | 4027/10702 [44:36<55:19,  2.01it/s] 38%|███▊      | 4028/10702 [44:36<55:16,  2.01it/s] 38%|███▊      | 4029/10702 [44:37<55:17,  2.01it/s] 38%|███▊      | 4030/10702 [44:37<55:16,  2.01it/s] 38%|███▊      | 4031/10702 [44:38<55:12,  2.01it/s] 38%|███▊      | 4032/10702 [44:38<55:13,  2.01it/s] 38%|███▊      | 4033/10702 [44:39<55:15,  2.01it/s] 38%|███▊      | 4034/10702 [44:39<55:11,  2.01it/s] 38%|███▊      | 4035/10702 [44:40<55:10,  2.01it/s] 38%|███▊      | 4036/10702 [44:40<55:10,  2.01it/s] 38%|███▊      | 4037/10702 [44:41<55:10,  2.01it/s] 38%|███▊      | 4038/10702 [44:41<55:09,  2.01it/s] 38%|███▊      | 4039/10702 [44:42<55:07,  2.01it/s] 38%|███▊      | 4040/10702 [44:42<55:09,  2.01it/s] 38%|███▊      | 4041/10702 [44:43<55:06,  2.01it/s] 38%|███▊      | 4042/10702 [44:43<55:05,  2.02it/s] 38%|███▊      | 4043/10702 [44:44<55:01,  2.02it/s] 38%|███▊      | 4044/10702 [44:44<55:01,  2.02it/s] 38%|███▊      | 4045/10702 [44:45<55:01,  2.02it/s] 38%|███▊      | 4046/10702 [44:45<55:00,  2.02it/s] 38%|███▊      | 4047/10702 [44:46<55:00,  2.02it/s] 38%|███▊      | 4048/10702 [44:46<54:58,  2.02it/s] 38%|███▊      | 4049/10702 [44:47<56:14,  1.97it/s] 38%|███▊      | 4050/10702 [44:47<55:49,  1.99it/s]                                                    {'loss': 3.7712, 'grad_norm': 0.20047537982463837, 'learning_rate': 0.0007819326918527077, 'epoch': 0.38}
+ 38%|███▊      | 4050/10702 [44:47<55:49,  1.99it/s] 38%|███▊      | 4051/10702 [44:48<55:35,  1.99it/s] 38%|███▊      | 4052/10702 [44:48<55:25,  2.00it/s] 38%|███▊      | 4053/10702 [44:49<55:19,  2.00it/s] 38%|███▊      | 4054/10702 [44:49<55:16,  2.00it/s] 38%|███▊      | 4055/10702 [44:50<55:10,  2.01it/s] 38%|███▊      | 4056/10702 [44:50<55:06,  2.01it/s] 38%|███▊      | 4057/10702 [44:51<55:02,  2.01it/s] 38%|███▊      | 4058/10702 [44:51<55:01,  2.01it/s] 38%|███▊      | 4059/10702 [44:52<55:01,  2.01it/s] 38%|███▊      | 4060/10702 [44:52<54:56,  2.01it/s] 38%|███▊      | 4061/10702 [44:53<54:57,  2.01it/s] 38%|███▊      | 4062/10702 [44:53<54:59,  2.01it/s] 38%|███▊      | 4063/10702 [44:54<54:57,  2.01it/s] 38%|███▊      | 4064/10702 [44:54<54:58,  2.01it/s] 38%|███▊      | 4065/10702 [44:55<54:52,  2.02it/s] 38%|███▊      | 4066/10702 [44:55<54:52,  2.02it/s] 38%|███▊      | 4067/10702 [44:56<54:51,  2.02it/s] 38%|███▊      | 4068/10702 [44:56<54:50,  2.02it/s] 38%|███▊      | 4069/10702 [44:57<54:49,  2.02it/s] 38%|███▊      | 4070/10702 [44:57<54:56,  2.01it/s] 38%|███▊      | 4071/10702 [44:58<55:07,  2.00it/s] 38%|███▊      | 4072/10702 [44:58<55:04,  2.01it/s] 38%|███▊      | 4073/10702 [44:59<55:08,  2.00it/s] 38%|███▊      | 4074/10702 [44:59<55:07,  2.00it/s] 38%|███▊      | 4075/10702 [45:00<55:02,  2.01it/s]                                                    {'loss': 3.767, 'grad_norm': 0.21067950129508972, 'learning_rate': 0.0007785559254983045, 'epoch': 0.38}
+ 38%|███▊      | 4075/10702 [45:00<55:02,  2.01it/s] 38%|███▊      | 4076/10702 [45:00<55:04,  2.01it/s] 38%|███▊      | 4077/10702 [45:01<55:03,  2.01it/s] 38%|███▊      | 4078/10702 [45:01<54:58,  2.01it/s] 38%|███▊      | 4079/10702 [45:02<54:57,  2.01it/s] 38%|███▊      | 4080/10702 [45:02<54:53,  2.01it/s] 38%|███▊      | 4081/10702 [45:03<54:52,  2.01it/s] 38%|███▊      | 4082/10702 [45:03<54:54,  2.01it/s] 38%|███▊      | 4083/10702 [45:04<54:47,  2.01it/s] 38%|███▊      | 4084/10702 [45:04<54:51,  2.01it/s] 38%|███▊      | 4085/10702 [45:05<54:49,  2.01it/s] 38%|███▊      | 4086/10702 [45:05<54:45,  2.01it/s] 38%|███▊      | 4087/10702 [45:06<54:48,  2.01it/s] 38%|███▊      | 4088/10702 [45:06<54:45,  2.01it/s] 38%|███▊      | 4089/10702 [45:07<54:45,  2.01it/s] 38%|███▊      | 4090/10702 [45:07<54:41,  2.02it/s] 38%|███▊      | 4091/10702 [45:08<54:40,  2.01it/s] 38%|███▊      | 4092/10702 [45:08<54:44,  2.01it/s] 38%|███▊      | 4093/10702 [45:09<54:42,  2.01it/s] 38%|███▊      | 4094/10702 [45:09<54:43,  2.01it/s] 38%|███▊      | 4095/10702 [45:10<54:43,  2.01it/s] 38%|███▊      | 4096/10702 [45:10<54:38,  2.01it/s] 38%|███▊      | 4097/10702 [45:11<54:42,  2.01it/s] 38%|███▊      | 4098/10702 [45:11<54:36,  2.02it/s] 38%|███▊      | 4099/10702 [45:12<54:39,  2.01it/s] 38%|███▊      | 4100/10702 [45:12<54:37,  2.01it/s]{'loss': 3.7721, 'grad_norm': 0.2028830647468567, 'learning_rate': 0.0007751606346227081, 'epoch': 0.38}
+                                                     38%|███▊      | 4100/10702 [45:12<54:37,  2.01it/s] 38%|███▊      | 4101/10702 [45:13<54:39,  2.01it/s] 38%|███▊      | 4102/10702 [45:13<54:43,  2.01it/s] 38%|███▊      | 4103/10702 [45:14<54:41,  2.01it/s] 38%|███▊      | 4104/10702 [45:14<54:38,  2.01it/s] 38%|███▊      | 4105/10702 [45:15<54:43,  2.01it/s] 38%|███▊      | 4106/10702 [45:15<54:35,  2.01it/s] 38%|███▊      | 4107/10702 [45:16<54:37,  2.01it/s] 38%|███▊      | 4108/10702 [45:16<54:38,  2.01it/s] 38%|███▊      | 4109/10702 [45:17<54:35,  2.01it/s] 38%|███▊      | 4110/10702 [45:17<54:33,  2.01it/s] 38%|███▊      | 4111/10702 [45:18<54:33,  2.01it/s] 38%|███▊      | 4112/10702 [45:18<54:37,  2.01it/s] 38%|███▊      | 4113/10702 [45:19<54:42,  2.01it/s] 38%|███▊      | 4114/10702 [45:19<54:40,  2.01it/s] 38%|███▊      | 4115/10702 [45:20<54:36,  2.01it/s] 38%|███▊      | 4116/10702 [45:20<54:37,  2.01it/s] 38%|███▊      | 4117/10702 [45:21<54:41,  2.01it/s] 38%|███▊      | 4118/10702 [45:21<54:37,  2.01it/s] 38%|███▊      | 4119/10702 [45:22<54:49,  2.00it/s] 38%|███▊      | 4120/10702 [45:22<54:42,  2.01it/s] 39%|███▊      | 4121/10702 [45:23<54:49,  2.00it/s] 39%|███▊      | 4122/10702 [45:23<54:49,  2.00it/s] 39%|███▊      | 4123/10702 [45:24<55:18,  1.98it/s] 39%|███▊      | 4124/10702 [45:24<54:59,  1.99it/s] 39%|███▊      | 4125/10702 [45:25<54:53,  2.00it/s]                                                    {'loss': 3.7637, 'grad_norm': 0.20809723436832428, 'learning_rate': 0.0007717470450194919, 'epoch': 0.39}
+ 39%|███▊      | 4125/10702 [45:25<54:53,  2.00it/s] 39%|███▊      | 4126/10702 [45:25<54:50,  2.00it/s] 39%|███▊      | 4127/10702 [45:26<54:41,  2.00it/s] 39%|███▊      | 4128/10702 [45:26<54:38,  2.01it/s] 39%|███▊      | 4129/10702 [45:27<54:34,  2.01it/s] 39%|███▊      | 4130/10702 [45:27<55:06,  1.99it/s] 39%|███▊      | 4131/10702 [45:28<55:16,  1.98it/s] 39%|███▊      | 4132/10702 [45:28<55:12,  1.98it/s] 39%|███▊      | 4133/10702 [45:29<54:58,  1.99it/s] 39%|███▊      | 4134/10702 [45:29<54:51,  2.00it/s] 39%|███▊      | 4135/10702 [45:30<54:47,  2.00it/s] 39%|███▊      | 4136/10702 [45:30<54:39,  2.00it/s] 39%|███▊      | 4137/10702 [45:31<54:36,  2.00it/s] 39%|███▊      | 4138/10702 [45:31<54:34,  2.00it/s] 39%|███▊      | 4139/10702 [45:32<54:32,  2.01it/s] 39%|███▊      | 4140/10702 [45:32<54:29,  2.01it/s] 39%|███▊      | 4141/10702 [45:33<54:26,  2.01it/s] 39%|███▊      | 4142/10702 [45:33<54:23,  2.01it/s] 39%|███▊      | 4143/10702 [45:34<54:25,  2.01it/s] 39%|███▊      | 4144/10702 [45:34<54:23,  2.01it/s] 39%|███▊      | 4145/10702 [45:35<54:21,  2.01it/s] 39%|███▊      | 4146/10702 [45:35<54:19,  2.01it/s] 39%|███▊      | 4147/10702 [45:36<54:16,  2.01it/s] 39%|███▉      | 4148/10702 [45:36<54:15,  2.01it/s] 39%|███▉      | 4149/10702 [45:37<54:17,  2.01it/s] 39%|███▉      | 4150/10702 [45:37<55:12,  1.98it/s]{'loss': 3.7615, 'grad_norm': 0.18946290016174316, 'learning_rate': 0.0007683153836991308, 'epoch': 0.39}
+                                                     39%|███▉      | 4150/10702 [45:37<55:12,  1.98it/s] 39%|███▉      | 4151/10702 [45:38<54:55,  1.99it/s] 39%|███▉      | 4152/10702 [45:38<54:42,  2.00it/s] 39%|███▉      | 4153/10702 [45:39<54:32,  2.00it/s] 39%|███▉      | 4154/10702 [45:39<54:23,  2.01it/s] 39%|███▉      | 4155/10702 [45:40<54:18,  2.01it/s] 39%|███▉      | 4156/10702 [45:40<54:12,  2.01it/s] 39%|███▉      | 4157/10702 [45:41<54:12,  2.01it/s] 39%|███▉      | 4158/10702 [45:41<54:13,  2.01it/s] 39%|███▉      | 4159/10702 [45:42<54:09,  2.01it/s] 39%|███▉      | 4160/10702 [45:42<54:11,  2.01it/s] 39%|███▉      | 4161/10702 [45:43<54:07,  2.01it/s] 39%|███▉      | 4162/10702 [45:43<54:05,  2.02it/s] 39%|███▉      | 4163/10702 [45:44<54:02,  2.02it/s] 39%|███▉      | 4164/10702 [45:44<54:01,  2.02it/s] 39%|███▉      | 4165/10702 [45:45<54:06,  2.01it/s] 39%|███▉      | 4166/10702 [45:45<54:03,  2.02it/s] 39%|███▉      | 4167/10702 [45:46<54:03,  2.01it/s] 39%|███▉      | 4168/10702 [45:46<54:01,  2.02it/s] 39%|███▉      | 4169/10702 [45:47<54:00,  2.02it/s] 39%|███▉      | 4170/10702 [45:47<54:02,  2.01it/s] 39%|███▉      | 4171/10702 [45:48<53:57,  2.02it/s] 39%|███▉      | 4172/10702 [45:48<54:00,  2.02it/s] 39%|███▉      | 4173/10702 [45:49<53:59,  2.02it/s] 39%|███▉      | 4174/10702 [45:49<53:56,  2.02it/s] 39%|███▉      | 4175/10702 [45:50<54:02,  2.01it/s]                                                    {'loss': 3.7608, 'grad_norm': 0.21305786073207855, 'learning_rate': 0.0007648658788739044, 'epoch': 0.39}
+ 39%|███▉      | 4175/10702 [45:50<54:02,  2.01it/s] 39%|███▉      | 4176/10702 [45:50<54:03,  2.01it/s] 39%|███▉      | 4177/10702 [45:51<54:01,  2.01it/s] 39%|███▉      | 4178/10702 [45:51<53:58,  2.01it/s] 39%|███▉      | 4179/10702 [45:52<53:54,  2.02it/s] 39%|███▉      | 4180/10702 [45:52<53:54,  2.02it/s] 39%|███▉      | 4181/10702 [45:52<53:52,  2.02it/s] 39%|███▉      | 4182/10702 [45:53<53:52,  2.02it/s] 39%|███▉      | 4183/10702 [45:53<53:51,  2.02it/s] 39%|███▉      | 4184/10702 [45:54<53:51,  2.02it/s] 39%|███▉      | 4185/10702 [45:54<53:52,  2.02it/s] 39%|███▉      | 4186/10702 [45:55<53:49,  2.02it/s] 39%|███▉      | 4187/10702 [45:55<53:52,  2.02it/s] 39%|███▉      | 4188/10702 [45:56<53:53,  2.01it/s] 39%|███▉      | 4189/10702 [45:56<53:53,  2.01it/s] 39%|███▉      | 4190/10702 [45:57<54:01,  2.01it/s] 39%|███▉      | 4191/10702 [45:57<54:31,  1.99it/s] 39%|███▉      | 4192/10702 [45:58<54:40,  1.98it/s] 39%|███▉      | 4193/10702 [45:58<54:33,  1.99it/s] 39%|███▉      | 4194/10702 [45:59<54:30,  1.99it/s] 39%|███▉      | 4195/10702 [45:59<54:24,  1.99it/s] 39%|███▉      | 4196/10702 [46:00<54:23,  1.99it/s] 39%|███▉      | 4197/10702 [46:00<54:15,  2.00it/s] 39%|███▉      | 4198/10702 [46:01<54:11,  2.00it/s] 39%|███▉      | 4199/10702 [46:01<54:10,  2.00it/s] 39%|███▉      | 4200/10702 [46:02<54:10,  2.00it/s]{'loss': 3.7632, 'grad_norm': 0.20828406512737274, 'learning_rate': 0.0007613987599427218, 'epoch': 0.39}                                                    
+ 39%|███▉      | 4200/10702 [46:02<54:10,  2.00it/s] 39%|███▉      | 4201/10702 [46:02<54:09,  2.00it/s] 39%|███▉      | 4202/10702 [46:03<54:13,  2.00it/s] 39%|███▉      | 4203/10702 [46:03<54:07,  2.00it/s] 39%|███▉      | 4204/10702 [46:04<54:08,  2.00it/s] 39%|███▉      | 4205/10702 [46:04<54:06,  2.00it/s] 39%|███▉      | 4206/10702 [46:05<54:02,  2.00it/s] 39%|███▉      | 4207/10702 [46:05<54:00,  2.00it/s] 39%|███▉      | 4208/10702 [46:06<53:56,  2.01it/s] 39%|███▉      | 4209/10702 [46:06<53:53,  2.01it/s] 39%|███▉      | 4210/10702 [46:07<53:56,  2.01it/s] 39%|███▉      | 4211/10702 [46:07<53:51,  2.01it/s] 39%|███▉      | 4212/10702 [46:08<53:50,  2.01it/s] 39%|███▉      | 4213/10702 [46:08<53:51,  2.01it/s] 39%|███▉      | 4214/10702 [46:09<53:47,  2.01it/s] 39%|███▉      | 4215/10702 [46:09<53:47,  2.01it/s] 39%|███▉      | 4216/10702 [46:10<53:45,  2.01it/s] 39%|███▉      | 4217/10702 [46:10<53:42,  2.01it/s] 39%|███▉      | 4218/10702 [46:11<53:43,  2.01it/s] 39%|███▉      | 4219/10702 [46:11<53:40,  2.01it/s] 39%|███▉      | 4220/10702 [46:12<53:44,  2.01it/s] 39%|███▉      | 4221/10702 [46:12<54:16,  1.99it/s] 39%|███▉      | 4222/10702 [46:13<54:05,  2.00it/s] 39%|███▉      | 4223/10702 [46:13<54:00,  2.00it/s] 39%|███▉      | 4224/10702 [46:14<53:50,  2.01it/s] 39%|███▉      | 4225/10702 [46:14<53:45,  2.01it/s]                                                    {'loss': 3.7577, 'grad_norm': 0.19541271030902863, 'learning_rate': 0.0007579142574758639, 'epoch': 0.39}
+ 39%|███▉      | 4225/10702 [46:14<53:45,  2.01it/s] 39%|███▉      | 4226/10702 [46:15<53:42,  2.01it/s] 39%|███▉      | 4227/10702 [46:15<53:40,  2.01it/s] 40%|███▉      | 4228/10702 [46:16<53:41,  2.01it/s] 40%|███▉      | 4229/10702 [46:16<53:38,  2.01it/s] 40%|███▉      | 4230/10702 [46:17<53:38,  2.01it/s] 40%|███▉      | 4231/10702 [46:17<53:37,  2.01it/s] 40%|███▉      | 4232/10702 [46:18<53:36,  2.01it/s] 40%|███▉      | 4233/10702 [46:18<53:33,  2.01it/s] 40%|███▉      | 4234/10702 [46:19<53:31,  2.01it/s] 40%|███▉      | 4235/10702 [46:19<53:30,  2.01it/s] 40%|███▉      | 4236/10702 [46:20<53:34,  2.01it/s] 40%|███▉      | 4237/10702 [46:20<53:31,  2.01it/s] 40%|███▉      | 4238/10702 [46:21<53:33,  2.01it/s] 40%|███▉      | 4239/10702 [46:21<53:29,  2.01it/s] 40%|███▉      | 4240/10702 [46:22<53:29,  2.01it/s] 40%|███▉      | 4241/10702 [46:22<53:31,  2.01it/s] 40%|███▉      | 4242/10702 [46:23<53:29,  2.01it/s] 40%|███▉      | 4243/10702 [46:23<53:28,  2.01it/s] 40%|███▉      | 4244/10702 [46:24<53:26,  2.01it/s] 40%|███▉      | 4245/10702 [46:24<53:25,  2.01it/s] 40%|███▉      | 4246/10702 [46:25<53:28,  2.01it/s] 40%|███▉      | 4247/10702 [46:25<53:26,  2.01it/s] 40%|███▉      | 4248/10702 [46:26<53:25,  2.01it/s] 40%|███▉      | 4249/10702 [46:26<53:27,  2.01it/s] 40%|███▉      | 4250/10702 [46:27<53:25,  2.01it/s]                                                    {'loss': 3.7642, 'grad_norm': 0.20350904762744904, 'learning_rate': 0.0007544126031996518, 'epoch': 0.4}
+ 40%|███▉      | 4250/10702 [46:27<53:25,  2.01it/s] 40%|███▉      | 4251/10702 [46:27<53:42,  2.00it/s] 40%|███▉      | 4252/10702 [46:28<53:47,  2.00it/s] 40%|███▉      | 4253/10702 [46:28<53:41,  2.00it/s] 40%|███▉      | 4254/10702 [46:29<53:35,  2.01it/s] 40%|███▉      | 4255/10702 [46:29<53:30,  2.01it/s] 40%|███▉      | 4256/10702 [46:30<53:27,  2.01it/s] 40%|███▉      | 4257/10702 [46:30<53:23,  2.01it/s] 40%|███▉      | 4258/10702 [46:31<53:24,  2.01it/s] 40%|███▉      | 4259/10702 [46:31<53:19,  2.01it/s] 40%|███▉      | 4260/10702 [46:32<53:22,  2.01it/s] 40%|███▉      | 4261/10702 [46:32<53:19,  2.01it/s] 40%|███▉      | 4262/10702 [46:33<53:18,  2.01it/s] 40%|███▉      | 4263/10702 [46:33<53:14,  2.02it/s] 40%|███▉      | 4264/10702 [46:34<53:13,  2.02it/s] 40%|███▉      | 4265/10702 [46:34<53:16,  2.01it/s] 40%|███▉      | 4266/10702 [46:35<53:12,  2.02it/s] 40%|███▉      | 4267/10702 [46:35<53:45,  2.00it/s] 40%|███▉      | 4268/10702 [46:36<53:33,  2.00it/s] 40%|███▉      | 4269/10702 [46:36<53:25,  2.01it/s] 40%|███▉      | 4270/10702 [46:37<53:22,  2.01it/s] 40%|███▉      | 4271/10702 [46:37<53:17,  2.01it/s] 40%|███▉      | 4272/10702 [46:38<53:15,  2.01it/s] 40%|███▉      | 4273/10702 [46:38<53:15,  2.01it/s] 40%|███▉      | 4274/10702 [46:39<53:11,  2.01it/s] 40%|███▉      | 4275/10702 [46:39<53:15,  2.01it/s]{'loss': 3.7568, 'grad_norm': 0.2020031362771988, 'learning_rate': 0.0007508940299810358, 'epoch': 0.4}
+                                                     40%|███▉      | 4275/10702 [46:39<53:15,  2.01it/s] 40%|███▉      | 4276/10702 [46:40<53:15,  2.01it/s] 40%|███▉      | 4277/10702 [46:40<53:10,  2.01it/s] 40%|███▉      | 4278/10702 [46:41<53:13,  2.01it/s] 40%|███▉      | 4279/10702 [46:41<53:10,  2.01it/s] 40%|███▉      | 4280/10702 [46:42<53:09,  2.01it/s] 40%|████      | 4281/10702 [46:42<53:06,  2.02it/s] 40%|████      | 4282/10702 [46:43<53:06,  2.01it/s] 40%|████      | 4283/10702 [46:43<53:05,  2.02it/s] 40%|████      | 4284/10702 [46:44<53:04,  2.02it/s] 40%|████      | 4285/10702 [46:44<53:06,  2.01it/s] 40%|████      | 4286/10702 [46:45<53:01,  2.02it/s] 40%|████      | 4287/10702 [46:45<53:01,  2.02it/s] 40%|████      | 4288/10702 [46:46<53:03,  2.01it/s] 40%|████      | 4289/10702 [46:46<53:01,  2.02it/s] 40%|████      | 4290/10702 [46:47<52:59,  2.02it/s] 40%|████      | 4291/10702 [46:47<52:56,  2.02it/s] 40%|████      | 4292/10702 [46:48<52:59,  2.02it/s] 40%|████      | 4293/10702 [46:48<52:55,  2.02it/s] 40%|████      | 4294/10702 [46:49<52:56,  2.02it/s] 40%|████      | 4295/10702 [46:49<52:59,  2.01it/s] 40%|████      | 4296/10702 [46:50<52:57,  2.02it/s] 40%|████      | 4297/10702 [46:50<52:58,  2.01it/s] 40%|████      | 4298/10702 [46:51<52:55,  2.02it/s] 40%|████      | 4299/10702 [46:51<52:57,  2.01it/s] 40%|████      | 4300/10702 [46:52<52:58,  2.01it/s]                                                    {'loss': 3.7465, 'grad_norm': 0.20058980584144592, 'learning_rate': 0.0007473587718121091, 'epoch': 0.4}
+ 40%|████      | 4300/10702 [46:52<52:58,  2.01it/s] 40%|████      | 4301/10702 [46:52<53:32,  1.99it/s] 40%|████      | 4302/10702 [46:53<53:22,  2.00it/s] 40%|████      | 4303/10702 [46:53<53:13,  2.00it/s] 40%|████      | 4304/10702 [46:54<53:08,  2.01it/s] 40%|████      | 4305/10702 [46:54<53:02,  2.01it/s] 40%|████      | 4306/10702 [46:55<52:59,  2.01it/s] 40%|████      | 4307/10702 [46:55<52:54,  2.01it/s] 40%|████      | 4308/10702 [46:56<52:52,  2.02it/s] 40%|████      | 4309/10702 [46:56<52:55,  2.01it/s] 40%|████      | 4310/10702 [46:57<52:56,  2.01it/s] 40%|████      | 4311/10702 [46:57<53:39,  1.99it/s] 40%|████      | 4312/10702 [46:58<53:47,  1.98it/s] 40%|████      | 4313/10702 [46:58<53:38,  1.99it/s] 40%|████      | 4314/10702 [46:59<53:29,  1.99it/s] 40%|████      | 4315/10702 [46:59<53:21,  2.00it/s] 40%|████      | 4316/10702 [47:00<53:14,  2.00it/s] 40%|████      | 4317/10702 [47:00<53:10,  2.00it/s] 40%|████      | 4318/10702 [47:01<53:08,  2.00it/s] 40%|████      | 4319/10702 [47:01<53:01,  2.01it/s] 40%|████      | 4320/10702 [47:02<53:02,  2.01it/s] 40%|████      | 4321/10702 [47:02<53:03,  2.00it/s] 40%|████      | 4322/10702 [47:03<52:58,  2.01it/s] 40%|████      | 4323/10702 [47:03<52:56,  2.01it/s] 40%|████      | 4324/10702 [47:04<53:00,  2.01it/s] 40%|████      | 4325/10702 [47:04<52:56,  2.01it/s]                                                    {'loss': 3.7438, 'grad_norm': 0.20258255302906036, 'learning_rate': 0.000743807063794548, 'epoch': 0.4}
+ 40%|████      | 4325/10702 [47:04<52:56,  2.01it/s] 40%|████      | 4326/10702 [47:05<52:54,  2.01it/s] 40%|████      | 4327/10702 [47:05<52:56,  2.01it/s] 40%|████      | 4328/10702 [47:06<52:55,  2.01it/s] 40%|████      | 4329/10702 [47:06<52:51,  2.01it/s] 40%|████      | 4330/10702 [47:07<52:54,  2.01it/s] 40%|████      | 4331/10702 [47:07<52:52,  2.01it/s] 40%|████      | 4332/10702 [47:08<53:25,  1.99it/s] 40%|████      | 4333/10702 [47:08<53:16,  1.99it/s] 40%|████      | 4334/10702 [47:09<53:02,  2.00it/s] 41%|████      | 4335/10702 [47:09<52:57,  2.00it/s] 41%|████      | 4336/10702 [47:10<52:51,  2.01it/s] 41%|████      | 4337/10702 [47:10<52:47,  2.01it/s] 41%|████      | 4338/10702 [47:11<52:49,  2.01it/s] 41%|████      | 4339/10702 [47:11<52:45,  2.01it/s] 41%|████      | 4340/10702 [47:12<52:44,  2.01it/s] 41%|████      | 4341/10702 [47:12<52:42,  2.01it/s] 41%|████      | 4342/10702 [47:13<52:37,  2.01it/s] 41%|████      | 4343/10702 [47:13<52:40,  2.01it/s] 41%|████      | 4344/10702 [47:14<52:37,  2.01it/s] 41%|████      | 4345/10702 [47:14<52:39,  2.01it/s] 41%|████      | 4346/10702 [47:15<52:36,  2.01it/s] 41%|████      | 4347/10702 [47:15<52:34,  2.01it/s] 41%|████      | 4348/10702 [47:16<52:35,  2.01it/s] 41%|████      | 4349/10702 [47:16<52:33,  2.01it/s] 41%|████      | 4350/10702 [47:17<52:34,  2.01it/s]{'loss': 3.7502, 'grad_norm': 0.21150314807891846, 'learning_rate': 0.0007402391421239751, 'epoch': 0.41}
+                                                     41%|████      | 4350/10702 [47:17<52:34,  2.01it/s] 41%|████      | 4351/10702 [47:17<52:38,  2.01it/s] 41%|████      | 4352/10702 [47:18<52:36,  2.01it/s] 41%|████      | 4353/10702 [47:18<52:33,  2.01it/s] 41%|████      | 4354/10702 [47:19<52:30,  2.02it/s] 41%|████      | 4355/10702 [47:19<52:29,  2.02it/s] 41%|████      | 4356/10702 [47:20<52:29,  2.02it/s] 41%|████      | 4357/10702 [47:20<52:25,  2.02it/s] 41%|████      | 4358/10702 [47:21<52:46,  2.00it/s] 41%|████      | 4359/10702 [47:21<52:43,  2.01it/s] 41%|████      | 4360/10702 [47:22<52:36,  2.01it/s] 41%|████      | 4361/10702 [47:22<52:31,  2.01it/s] 41%|████      | 4362/10702 [47:23<52:31,  2.01it/s] 41%|████      | 4363/10702 [47:23<52:27,  2.01it/s] 41%|████      | 4364/10702 [47:24<52:27,  2.01it/s] 41%|████      | 4365/10702 [47:24<52:26,  2.01it/s] 41%|████      | 4366/10702 [47:25<52:24,  2.01it/s] 41%|████      | 4367/10702 [47:25<52:24,  2.01it/s] 41%|████      | 4368/10702 [47:26<52:19,  2.02it/s] 41%|████      | 4369/10702 [47:26<52:23,  2.01it/s] 41%|████      | 4370/10702 [47:27<52:19,  2.02it/s] 41%|████      | 4371/10702 [47:27<52:26,  2.01it/s] 41%|████      | 4372/10702 [47:28<52:28,  2.01it/s] 41%|████      | 4373/10702 [47:28<52:21,  2.01it/s] 41%|████      | 4374/10702 [47:29<52:26,  2.01it/s] 41%|████      | 4375/10702 [47:29<52:23,  2.01it/s]                                                    {'loss': 3.7503, 'grad_norm': 0.20156031847000122, 'learning_rate': 0.0007366552440742544, 'epoch': 0.41}
+ 41%|████      | 4375/10702 [47:29<52:23,  2.01it/s] 41%|████      | 4376/10702 [47:30<52:20,  2.01it/s] 41%|████      | 4377/10702 [47:30<52:21,  2.01it/s] 41%|████      | 4378/10702 [47:31<52:17,  2.02it/s] 41%|████      | 4379/10702 [47:31<52:16,  2.02it/s] 41%|████      | 4380/10702 [47:32<52:12,  2.02it/s] 41%|████      | 4381/10702 [47:32<52:15,  2.02it/s] 41%|████      | 4382/10702 [47:33<52:13,  2.02it/s] 41%|████      | 4383/10702 [47:33<52:12,  2.02it/s] 41%|████      | 4384/10702 [47:34<52:14,  2.02it/s] 41%|████      | 4385/10702 [47:34<52:10,  2.02it/s] 41%|████      | 4386/10702 [47:35<52:12,  2.02it/s] 41%|████      | 4387/10702 [47:35<52:10,  2.02it/s] 41%|████      | 4388/10702 [47:36<52:11,  2.02it/s] 41%|████      | 4389/10702 [47:36<52:09,  2.02it/s] 41%|████      | 4390/10702 [47:37<52:10,  2.02it/s] 41%|████      | 4391/10702 [47:37<52:07,  2.02it/s] 41%|████      | 4392/10702 [47:37<52:08,  2.02it/s] 41%|████      | 4393/10702 [47:38<52:09,  2.02it/s] 41%|████      | 4394/10702 [47:38<52:10,  2.01it/s] 41%|████      | 4395/10702 [47:39<52:10,  2.01it/s] 41%|████      | 4396/10702 [47:39<52:08,  2.02it/s] 41%|████      | 4397/10702 [47:40<52:07,  2.02it/s] 41%|████      | 4398/10702 [47:40<52:08,  2.02it/s] 41%|████      | 4399/10702 [47:41<52:08,  2.01it/s] 41%|████      | 4400/10702 [47:41<52:07,  2.02it/s]                                                    {'loss': 3.7417, 'grad_norm': 0.20031505823135376, 'learning_rate': 0.0007330556079817097, 'epoch': 0.41}
+ 41%|████      | 4400/10702 [47:41<52:07,  2.02it/s] 41%|████      | 4401/10702 [47:42<52:11,  2.01it/s] 41%|████      | 4402/10702 [47:42<52:48,  1.99it/s] 41%|████      | 4403/10702 [47:43<52:39,  1.99it/s] 41%|████      | 4404/10702 [47:43<52:28,  2.00it/s] 41%|████      | 4405/10702 [47:44<52:21,  2.00it/s] 41%|████      | 4406/10702 [47:44<52:19,  2.01it/s] 41%|████      | 4407/10702 [47:45<52:14,  2.01it/s] 41%|████      | 4408/10702 [47:45<52:12,  2.01it/s] 41%|████      | 4409/10702 [47:46<52:07,  2.01it/s] 41%|████      | 4410/10702 [47:46<52:08,  2.01it/s] 41%|████      | 4411/10702 [47:47<52:08,  2.01it/s] 41%|████      | 4412/10702 [47:47<52:02,  2.01it/s] 41%|████      | 4413/10702 [47:48<52:03,  2.01it/s] 41%|████      | 4414/10702 [47:48<52:01,  2.01it/s] 41%|████▏     | 4415/10702 [47:49<52:02,  2.01it/s] 41%|████▏     | 4416/10702 [47:49<52:02,  2.01it/s] 41%|████▏     | 4417/10702 [47:50<52:00,  2.01it/s] 41%|████▏     | 4418/10702 [47:50<52:00,  2.01it/s] 41%|████▏     | 4419/10702 [47:51<51:57,  2.02it/s] 41%|████▏     | 4420/10702 [47:51<51:57,  2.02it/s] 41%|████▏     | 4421/10702 [47:52<51:56,  2.02it/s] 41%|████▏     | 4422/10702 [47:52<51:53,  2.02it/s] 41%|████▏     | 4423/10702 [47:53<51:56,  2.01it/s] 41%|████▏     | 4424/10702 [47:53<51:54,  2.02it/s] 41%|████▏     | 4425/10702 [47:54<51:53,  2.02it/s]                                                    {'loss': 3.748, 'grad_norm': 0.19636847078800201, 'learning_rate': 0.0007294404732292765, 'epoch': 0.41}
+ 41%|████▏     | 4425/10702 [47:54<51:53,  2.02it/s] 41%|████▏     | 4426/10702 [47:54<51:54,  2.02it/s] 41%|████▏     | 4427/10702 [47:55<51:51,  2.02it/s] 41%|████▏     | 4428/10702 [47:55<51:51,  2.02it/s] 41%|████▏     | 4429/10702 [47:56<51:52,  2.02it/s] 41%|████▏     | 4430/10702 [47:56<51:51,  2.02it/s] 41%|████▏     | 4431/10702 [47:57<51:50,  2.02it/s] 41%|████▏     | 4432/10702 [47:57<52:01,  2.01it/s] 41%|████▏     | 4433/10702 [47:58<51:56,  2.01it/s] 41%|████▏     | 4434/10702 [47:58<51:54,  2.01it/s] 41%|████▏     | 4435/10702 [47:59<51:50,  2.01it/s] 41%|████▏     | 4436/10702 [47:59<51:50,  2.01it/s] 41%|████▏     | 4437/10702 [48:00<51:51,  2.01it/s] 41%|████▏     | 4438/10702 [48:00<51:53,  2.01it/s] 41%|████▏     | 4439/10702 [48:01<51:55,  2.01it/s] 41%|████▏     | 4440/10702 [48:01<51:52,  2.01it/s] 41%|████▏     | 4441/10702 [48:02<51:52,  2.01it/s] 42%|████▏     | 4442/10702 [48:02<52:29,  1.99it/s] 42%|████▏     | 4443/10702 [48:03<52:17,  1.99it/s] 42%|████▏     | 4444/10702 [48:03<52:10,  2.00it/s] 42%|████▏     | 4445/10702 [48:04<52:03,  2.00it/s] 42%|████▏     | 4446/10702 [48:04<51:57,  2.01it/s] 42%|████▏     | 4447/10702 [48:05<51:53,  2.01it/s] 42%|████▏     | 4448/10702 [48:05<51:49,  2.01it/s] 42%|████▏     | 4449/10702 [48:06<51:54,  2.01it/s] 42%|████▏     | 4450/10702 [48:06<51:46,  2.01it/s]                                                    {'loss': 3.7491, 'grad_norm': 0.19449545443058014, 'learning_rate': 0.0007258100802305815, 'epoch': 0.42}
+ 42%|████▏     | 4450/10702 [48:06<51:46,  2.01it/s] 42%|████▏     | 4451/10702 [48:07<51:47,  2.01it/s] 42%|████▏     | 4452/10702 [48:07<51:44,  2.01it/s] 42%|████▏     | 4453/10702 [48:08<52:20,  1.99it/s] 42%|████▏     | 4454/10702 [48:08<52:07,  2.00it/s] 42%|████▏     | 4455/10702 [48:09<51:57,  2.00it/s] 42%|████▏     | 4456/10702 [48:09<51:50,  2.01it/s] 42%|████▏     | 4457/10702 [48:10<51:49,  2.01it/s] 42%|████▏     | 4458/10702 [48:10<51:45,  2.01it/s] 42%|████▏     | 4459/10702 [48:11<51:46,  2.01it/s] 42%|████▏     | 4460/10702 [48:11<51:37,  2.02it/s] 42%|████▏     | 4461/10702 [48:12<51:36,  2.02it/s] 42%|████▏     | 4462/10702 [48:12<51:34,  2.02it/s] 42%|████▏     | 4463/10702 [48:13<51:35,  2.02it/s] 42%|████▏     | 4464/10702 [48:13<51:33,  2.02it/s] 42%|████▏     | 4465/10702 [48:14<51:36,  2.01it/s] 42%|████▏     | 4466/10702 [48:14<51:33,  2.02it/s] 42%|████▏     | 4467/10702 [48:15<51:33,  2.02it/s] 42%|████▏     | 4468/10702 [48:15<52:03,  2.00it/s] 42%|████▏     | 4469/10702 [48:16<51:50,  2.00it/s] 42%|████▏     | 4470/10702 [48:16<51:47,  2.01it/s] 42%|████▏     | 4471/10702 [48:17<52:14,  1.99it/s] 42%|████▏     | 4472/10702 [48:17<52:00,  2.00it/s] 42%|████▏     | 4473/10702 [48:18<51:50,  2.00it/s] 42%|████▏     | 4474/10702 [48:18<51:45,  2.01it/s] 42%|████▏     | 4475/10702 [48:19<51:39,  2.01it/s]                                                    {'loss': 3.7408, 'grad_norm': 0.20193883776664734, 'learning_rate': 0.0007221646704139553, 'epoch': 0.42}
+ 42%|████▏     | 4475/10702 [48:19<51:39,  2.01it/s] 42%|████▏     | 4476/10702 [48:19<51:37,  2.01it/s] 42%|████▏     | 4477/10702 [48:20<51:39,  2.01it/s] 42%|████▏     | 4478/10702 [48:20<51:33,  2.01it/s] 42%|████▏     | 4479/10702 [48:21<51:31,  2.01it/s] 42%|████▏     | 4480/10702 [48:21<51:27,  2.01it/s] 42%|████▏     | 4481/10702 [48:22<51:25,  2.02it/s] 42%|████▏     | 4482/10702 [48:22<51:27,  2.01it/s] 42%|████▏     | 4483/10702 [48:23<51:25,  2.02it/s] 42%|████▏     | 4484/10702 [48:23<51:27,  2.01it/s] 42%|████▏     | 4485/10702 [48:24<51:25,  2.01it/s] 42%|████▏     | 4486/10702 [48:24<51:24,  2.01it/s] 42%|████▏     | 4487/10702 [48:25<51:26,  2.01it/s] 42%|████▏     | 4488/10702 [48:25<51:24,  2.01it/s] 42%|████▏     | 4489/10702 [48:26<51:26,  2.01it/s] 42%|████▏     | 4490/10702 [48:26<51:23,  2.01it/s] 42%|████▏     | 4491/10702 [48:27<51:24,  2.01it/s] 42%|████▏     | 4492/10702 [48:27<51:32,  2.01it/s] 42%|████▏     | 4493/10702 [48:28<51:35,  2.01it/s] 42%|████▏     | 4494/10702 [48:28<51:31,  2.01it/s] 42%|████▏     | 4495/10702 [48:29<51:28,  2.01it/s] 42%|████▏     | 4496/10702 [48:29<51:24,  2.01it/s] 42%|████▏     | 4497/10702 [48:30<51:25,  2.01it/s] 42%|████▏     | 4498/10702 [48:30<51:23,  2.01it/s] 42%|████▏     | 4499/10702 [48:31<51:19,  2.01it/s] 42%|████▏     | 4500/10702 [48:31<51:15,  2.02it/s]{'loss': 3.7406, 'grad_norm': 0.19904519617557526, 'learning_rate': 0.0007185044862063766, 'epoch': 0.42}
+                                                     42%|████▏     | 4500/10702 [48:31<51:15,  2.02it/s] 42%|████▏     | 4501/10702 [48:32<51:15,  2.02it/s] 42%|████▏     | 4502/10702 [48:32<51:12,  2.02it/s] 42%|████▏     | 4503/10702 [48:33<51:09,  2.02it/s] 42%|████▏     | 4504/10702 [48:33<51:14,  2.02it/s] 42%|████▏     | 4505/10702 [48:34<51:15,  2.02it/s] 42%|████▏     | 4506/10702 [48:34<51:13,  2.02it/s] 42%|████▏     | 4507/10702 [48:35<51:14,  2.01it/s] 42%|████▏     | 4508/10702 [48:35<51:13,  2.02it/s] 42%|████▏     | 4509/10702 [48:36<51:13,  2.01it/s] 42%|████▏     | 4510/10702 [48:36<51:12,  2.02it/s] 42%|████▏     | 4511/10702 [48:37<51:10,  2.02it/s] 42%|████▏     | 4512/10702 [48:37<51:10,  2.02it/s] 42%|████▏     | 4513/10702 [48:38<51:06,  2.02it/s] 42%|████▏     | 4514/10702 [48:38<51:07,  2.02it/s] 42%|████▏     | 4515/10702 [48:39<51:03,  2.02it/s] 42%|████▏     | 4516/10702 [48:39<51:01,  2.02it/s] 42%|████▏     | 4517/10702 [48:40<51:02,  2.02it/s] 42%|████▏     | 4518/10702 [48:40<51:04,  2.02it/s] 42%|████▏     | 4519/10702 [48:41<51:02,  2.02it/s] 42%|████▏     | 4520/10702 [48:41<51:05,  2.02it/s] 42%|████▏     | 4521/10702 [48:42<51:01,  2.02it/s] 42%|████▏     | 4522/10702 [48:42<51:00,  2.02it/s] 42%|████▏     | 4523/10702 [48:43<50:57,  2.02it/s] 42%|████▏     | 4524/10702 [48:43<51:01,  2.02it/s] 42%|████▏     | 4525/10702 [48:44<51:05,  2.02it/s]                                                    {'loss': 3.7432, 'grad_norm': 0.19291919469833374, 'learning_rate': 0.0007148297710173504, 'epoch': 0.42}
+ 42%|████▏     | 4525/10702 [48:44<51:05,  2.02it/s] 42%|████▏     | 4526/10702 [48:44<51:04,  2.02it/s] 42%|████▏     | 4527/10702 [48:45<51:04,  2.02it/s] 42%|████▏     | 4528/10702 [48:45<51:02,  2.02it/s] 42%|████▏     | 4529/10702 [48:46<51:01,  2.02it/s] 42%|████▏     | 4530/10702 [48:46<51:03,  2.01it/s] 42%|████▏     | 4531/10702 [48:47<51:03,  2.01it/s] 42%|████▏     | 4532/10702 [48:47<51:01,  2.02it/s] 42%|████▏     | 4533/10702 [48:48<50:57,  2.02it/s] 42%|████▏     | 4534/10702 [48:48<51:33,  1.99it/s] 42%|████▏     | 4535/10702 [48:49<51:23,  2.00it/s] 42%|████▏     | 4536/10702 [48:49<51:11,  2.01it/s] 42%|████▏     | 4537/10702 [48:50<51:05,  2.01it/s] 42%|████▏     | 4538/10702 [48:50<51:01,  2.01it/s] 42%|████▏     | 4539/10702 [48:51<50:58,  2.02it/s] 42%|████▏     | 4540/10702 [48:51<50:53,  2.02it/s] 42%|████▏     | 4541/10702 [48:52<50:55,  2.02it/s] 42%|████▏     | 4542/10702 [48:52<50:51,  2.02it/s] 42%|████▏     | 4543/10702 [48:53<50:52,  2.02it/s] 42%|████▏     | 4544/10702 [48:53<50:53,  2.02it/s] 42%|████▏     | 4545/10702 [48:54<50:54,  2.02it/s] 42%|████▏     | 4546/10702 [48:54<50:51,  2.02it/s] 42%|████▏     | 4547/10702 [48:55<50:50,  2.02it/s] 42%|████▏     | 4548/10702 [48:55<50:50,  2.02it/s] 43%|████▎     | 4549/10702 [48:56<50:49,  2.02it/s] 43%|████▎     | 4550/10702 [48:56<50:46,  2.02it/s]{'loss': 3.7369, 'grad_norm': 0.2021981030702591, 'learning_rate': 0.0007111407692227204, 'epoch': 0.43}
+                                                     43%|████▎     | 4550/10702 [48:56<50:46,  2.02it/s] 43%|████▎     | 4551/10702 [48:57<50:51,  2.02it/s] 43%|████▎     | 4552/10702 [48:57<50:55,  2.01it/s] 43%|████▎     | 4553/10702 [48:58<51:04,  2.01it/s] 43%|████▎     | 4554/10702 [48:58<50:57,  2.01it/s] 43%|████▎     | 4555/10702 [48:59<50:55,  2.01it/s] 43%|████▎     | 4556/10702 [48:59<51:22,  1.99it/s] 43%|████▎     | 4557/10702 [49:00<51:14,  2.00it/s] 43%|████▎     | 4558/10702 [49:00<51:05,  2.00it/s] 43%|████▎     | 4559/10702 [49:01<51:00,  2.01it/s] 43%|████▎     | 4560/10702 [49:01<50:56,  2.01it/s] 43%|████▎     | 4561/10702 [49:02<50:51,  2.01it/s] 43%|████▎     | 4562/10702 [49:02<50:49,  2.01it/s] 43%|████▎     | 4563/10702 [49:02<50:43,  2.02it/s] 43%|████▎     | 4564/10702 [49:03<50:45,  2.02it/s] 43%|████▎     | 4565/10702 [49:03<50:39,  2.02it/s] 43%|████▎     | 4566/10702 [49:04<51:14,  2.00it/s] 43%|████▎     | 4567/10702 [49:04<50:59,  2.01it/s] 43%|████▎     | 4568/10702 [49:05<50:54,  2.01it/s] 43%|████▎     | 4569/10702 [49:05<50:48,  2.01it/s] 43%|████▎     | 4570/10702 [49:06<50:46,  2.01it/s] 43%|████▎     | 4571/10702 [49:06<50:42,  2.02it/s] 43%|████▎     | 4572/10702 [49:07<50:40,  2.02it/s] 43%|████▎     | 4573/10702 [49:07<50:36,  2.02it/s] 43%|████▎     | 4574/10702 [49:08<50:38,  2.02it/s] 43%|████▎     | 4575/10702 [49:08<50:40,  2.02it/s]                                                    {'loss': 3.7371, 'grad_norm': 0.20241490006446838, 'learning_rate': 0.0007074377261484186, 'epoch': 0.43}
+ 43%|████▎     | 4575/10702 [49:08<50:40,  2.02it/s] 43%|████▎     | 4576/10702 [49:09<50:42,  2.01it/s] 43%|████▎     | 4577/10702 [49:09<50:38,  2.02it/s] 43%|████▎     | 4578/10702 [49:10<50:41,  2.01it/s] 43%|████▎     | 4579/10702 [49:10<50:38,  2.01it/s] 43%|████▎     | 4580/10702 [49:11<50:39,  2.01it/s] 43%|████▎     | 4581/10702 [49:11<50:37,  2.02it/s] 43%|████▎     | 4582/10702 [49:12<50:35,  2.02it/s] 43%|████▎     | 4583/10702 [49:12<50:32,  2.02it/s] 43%|████▎     | 4584/10702 [49:13<50:31,  2.02it/s] 43%|████▎     | 4585/10702 [49:13<50:30,  2.02it/s] 43%|████▎     | 4586/10702 [49:14<50:30,  2.02it/s] 43%|████▎     | 4587/10702 [49:14<50:30,  2.02it/s] 43%|████▎     | 4588/10702 [49:15<50:30,  2.02it/s] 43%|████▎     | 4589/10702 [49:15<50:31,  2.02it/s] 43%|████▎     | 4590/10702 [49:16<50:31,  2.02it/s] 43%|████▎     | 4591/10702 [49:16<50:30,  2.02it/s] 43%|████▎     | 4592/10702 [49:17<50:30,  2.02it/s] 43%|████▎     | 4593/10702 [49:17<50:29,  2.02it/s] 43%|████▎     | 4594/10702 [49:18<50:30,  2.02it/s] 43%|████▎     | 4595/10702 [49:18<50:26,  2.02it/s] 43%|████▎     | 4596/10702 [49:19<50:29,  2.02it/s] 43%|████▎     | 4597/10702 [49:19<50:28,  2.02it/s] 43%|████▎     | 4598/10702 [49:20<50:30,  2.01it/s] 43%|████▎     | 4599/10702 [49:20<50:29,  2.01it/s] 43%|████▎     | 4600/10702 [49:21<50:31,  2.01it/s]                                                    {'loss': 3.7348, 'grad_norm': 0.2052631974220276, 'learning_rate': 0.0007037208880541492, 'epoch': 0.43}
+ 43%|████▎     | 4600/10702 [49:21<50:31,  2.01it/s] 43%|████▎     | 4601/10702 [49:21<50:31,  2.01it/s] 43%|████▎     | 4602/10702 [49:22<50:30,  2.01it/s] 43%|████▎     | 4603/10702 [49:22<50:26,  2.02it/s] 43%|████▎     | 4604/10702 [49:23<50:26,  2.01it/s] 43%|████▎     | 4605/10702 [49:23<50:23,  2.02it/s] 43%|████▎     | 4606/10702 [49:24<50:26,  2.01it/s] 43%|████▎     | 4607/10702 [49:24<50:23,  2.02it/s] 43%|████▎     | 4608/10702 [49:25<50:22,  2.02it/s] 43%|████▎     | 4609/10702 [49:25<50:22,  2.02it/s] 43%|████▎     | 4610/10702 [49:26<50:21,  2.02it/s] 43%|████▎     | 4611/10702 [49:26<50:23,  2.01it/s] 43%|████▎     | 4612/10702 [49:27<50:20,  2.02it/s] 43%|████▎     | 4613/10702 [49:27<50:30,  2.01it/s] 43%|████▎     | 4614/10702 [49:28<50:31,  2.01it/s] 43%|████▎     | 4615/10702 [49:28<50:28,  2.01it/s] 43%|████▎     | 4616/10702 [49:29<50:26,  2.01it/s] 43%|████▎     | 4617/10702 [49:29<51:07,  1.98it/s] 43%|████▎     | 4618/10702 [49:30<50:52,  1.99it/s] 43%|████▎     | 4619/10702 [49:30<51:21,  1.97it/s] 43%|████▎     | 4620/10702 [49:31<51:05,  1.98it/s] 43%|████▎     | 4621/10702 [49:31<50:48,  1.99it/s] 43%|████▎     | 4622/10702 [49:32<50:41,  2.00it/s] 43%|████▎     | 4623/10702 [49:32<50:30,  2.01it/s] 43%|████▎     | 4624/10702 [49:33<50:25,  2.01it/s] 43%|████▎     | 4625/10702 [49:33<50:21,  2.01it/s]                                                    {'loss': 3.7307, 'grad_norm': 0.19192510843276978, 'learning_rate': 0.000699990502117013, 'epoch': 0.43}
+ 43%|████▎     | 4625/10702 [49:33<50:21,  2.01it/s] 43%|████▎     | 4626/10702 [49:34<50:20,  2.01it/s] 43%|████▎     | 4627/10702 [49:34<50:20,  2.01it/s] 43%|████▎     | 4628/10702 [49:35<50:16,  2.01it/s] 43%|████▎     | 4629/10702 [49:35<50:13,  2.02it/s] 43%|████▎     | 4630/10702 [49:36<50:11,  2.02it/s] 43%|████▎     | 4631/10702 [49:36<50:11,  2.02it/s] 43%|████▎     | 4632/10702 [49:37<58:48,  1.72it/s] 43%|████▎     | 4633/10702 [49:38<56:09,  1.80it/s] 43%|████▎     | 4634/10702 [49:38<54:22,  1.86it/s] 43%|████▎     | 4635/10702 [49:39<53:01,  1.91it/s] 43%|████▎     | 4636/10702 [49:39<52:10,  1.94it/s] 43%|████▎     | 4637/10702 [49:40<51:29,  1.96it/s] 43%|████▎     | 4638/10702 [49:40<51:07,  1.98it/s] 43%|████▎     | 4639/10702 [49:41<50:48,  1.99it/s] 43%|████▎     | 4640/10702 [49:41<50:32,  2.00it/s] 43%|████▎     | 4641/10702 [49:42<50:24,  2.00it/s] 43%|████▎     | 4642/10702 [49:42<50:16,  2.01it/s] 43%|████▎     | 4643/10702 [49:43<50:14,  2.01it/s] 43%|████▎     | 4644/10702 [49:43<50:10,  2.01it/s] 43%|████▎     | 4645/10702 [49:44<50:09,  2.01it/s] 43%|████▎     | 4646/10702 [49:44<50:09,  2.01it/s] 43%|████▎     | 4647/10702 [49:45<50:05,  2.01it/s] 43%|████▎     | 4648/10702 [49:45<50:11,  2.01it/s] 43%|████▎     | 4649/10702 [49:46<50:07,  2.01it/s] 43%|████▎     | 4650/10702 [49:46<50:04,  2.01it/s]                                                    {'loss': 3.7306, 'grad_norm': 0.20528466999530792, 'learning_rate': 0.0006962468164150693, 'epoch': 0.43}
+ 43%|████▎     | 4650/10702 [49:46<50:04,  2.01it/s] 43%|████▎     | 4651/10702 [49:47<58:46,  1.72it/s] 43%|████▎     | 4652/10702 [49:47<56:05,  1.80it/s] 43%|████▎     | 4653/10702 [49:48<54:15,  1.86it/s] 43%|████▎     | 4654/10702 [49:48<53:00,  1.90it/s] 43%|████▎     | 4655/10702 [49:49<52:05,  1.93it/s] 44%|████▎     | 4656/10702 [49:49<51:30,  1.96it/s] 44%|████▎     | 4657/10702 [49:50<51:00,  1.97it/s] 44%|████▎     | 4658/10702 [49:50<50:42,  1.99it/s] 44%|████▎     | 4659/10702 [49:51<50:25,  2.00it/s] 44%|████▎     | 4660/10702 [49:51<50:19,  2.00it/s] 44%|████▎     | 4661/10702 [49:52<50:09,  2.01it/s] 44%|████▎     | 4662/10702 [49:52<50:06,  2.01it/s] 44%|████▎     | 4663/10702 [49:53<50:00,  2.01it/s] 44%|████▎     | 4664/10702 [49:53<49:59,  2.01it/s] 44%|████▎     | 4665/10702 [49:54<49:56,  2.01it/s] 44%|████▎     | 4666/10702 [49:54<49:55,  2.01it/s] 44%|████▎     | 4667/10702 [49:55<49:53,  2.02it/s] 44%|████▎     | 4668/10702 [49:55<50:27,  1.99it/s] 44%|████▎     | 4669/10702 [49:56<50:15,  2.00it/s] 44%|████▎     | 4670/10702 [49:56<50:09,  2.00it/s] 44%|████▎     | 4671/10702 [49:57<50:03,  2.01it/s] 44%|████▎     | 4672/10702 [49:57<50:05,  2.01it/s] 44%|████▎     | 4673/10702 [49:58<50:07,  2.00it/s] 44%|████▎     | 4674/10702 [49:58<50:01,  2.01it/s] 44%|████▎     | 4675/10702 [49:59<49:57,  2.01it/s]{'loss': 3.7256, 'grad_norm': 0.1997056007385254, 'learning_rate': 0.0006924900799108377, 'epoch': 0.44}
+                                                     44%|████▎     | 4675/10702 [49:59<49:57,  2.01it/s] 44%|████▎     | 4676/10702 [49:59<49:54,  2.01it/s] 44%|████▎     | 4677/10702 [50:00<49:54,  2.01it/s] 44%|████▎     | 4678/10702 [50:00<49:49,  2.02it/s] 44%|████▎     | 4679/10702 [50:01<49:49,  2.01it/s] 44%|████▎     | 4680/10702 [50:01<49:47,  2.02it/s] 44%|████▎     | 4681/10702 [50:02<49:43,  2.02it/s] 44%|████▎     | 4682/10702 [50:02<49:43,  2.02it/s] 44%|████▍     | 4683/10702 [50:03<49:39,  2.02it/s] 44%|████▍     | 4684/10702 [50:03<49:38,  2.02it/s] 44%|████▍     | 4685/10702 [50:04<49:35,  2.02it/s] 44%|████▍     | 4686/10702 [50:04<49:34,  2.02it/s] 44%|████▍     | 4687/10702 [50:05<49:33,  2.02it/s] 44%|████▍     | 4688/10702 [50:05<49:36,  2.02it/s] 44%|████▍     | 4689/10702 [50:06<49:36,  2.02it/s] 44%|████▍     | 4690/10702 [50:06<49:37,  2.02it/s] 44%|████▍     | 4691/10702 [50:07<49:34,  2.02it/s] 44%|████▍     | 4692/10702 [50:07<49:36,  2.02it/s] 44%|████▍     | 4693/10702 [50:08<49:32,  2.02it/s] 44%|████▍     | 4694/10702 [50:08<49:33,  2.02it/s] 44%|████▍     | 4695/10702 [50:09<49:33,  2.02it/s] 44%|████▍     | 4696/10702 [50:09<49:33,  2.02it/s] 44%|████▍     | 4697/10702 [50:10<49:36,  2.02it/s] 44%|████▍     | 4698/10702 [50:10<49:35,  2.02it/s] 44%|████▍     | 4699/10702 [50:11<49:40,  2.01it/s] 44%|████▍     | 4700/10702 [50:11<49:41,  2.01it/s]                                                    {'loss': 3.7344, 'grad_norm': 0.2001090943813324, 'learning_rate': 0.0006887205424347425, 'epoch': 0.44}
+ 44%|████▍     | 4700/10702 [50:11<49:41,  2.01it/s] 44%|████▍     | 4701/10702 [50:12<49:43,  2.01it/s] 44%|████▍     | 4702/10702 [50:12<49:43,  2.01it/s] 44%|████▍     | 4703/10702 [50:13<49:39,  2.01it/s] 44%|████▍     | 4704/10702 [50:13<49:39,  2.01it/s] 44%|████▍     | 4705/10702 [50:14<49:39,  2.01it/s] 44%|████▍     | 4706/10702 [50:14<50:10,  1.99it/s] 44%|████▍     | 4707/10702 [50:15<50:02,  2.00it/s] 44%|████▍     | 4708/10702 [50:15<49:50,  2.00it/s] 44%|████▍     | 4709/10702 [50:16<49:47,  2.01it/s] 44%|████▍     | 4710/10702 [50:16<49:41,  2.01it/s] 44%|████▍     | 4711/10702 [50:17<49:37,  2.01it/s] 44%|████▍     | 4712/10702 [50:17<49:37,  2.01it/s] 44%|████▍     | 4713/10702 [50:18<49:34,  2.01it/s] 44%|████▍     | 4714/10702 [50:18<49:31,  2.02it/s] 44%|████▍     | 4715/10702 [50:19<49:30,  2.02it/s] 44%|████▍     | 4716/10702 [50:19<49:26,  2.02it/s] 44%|████▍     | 4717/10702 [50:20<49:29,  2.02it/s] 44%|████▍     | 4718/10702 [50:20<49:28,  2.02it/s] 44%|████▍     | 4719/10702 [50:21<49:30,  2.01it/s] 44%|████▍     | 4720/10702 [50:21<49:24,  2.02it/s] 44%|████▍     | 4721/10702 [50:22<49:24,  2.02it/s] 44%|████▍     | 4722/10702 [50:22<49:20,  2.02it/s] 44%|████▍     | 4723/10702 [50:23<49:21,  2.02it/s] 44%|████▍     | 4724/10702 [50:23<49:21,  2.02it/s] 44%|████▍     | 4725/10702 [50:24<49:21,  2.02it/s]                                                    {'loss': 3.7265, 'grad_norm': 0.20266211032867432, 'learning_rate': 0.0006849384546684975, 'epoch': 0.44}
+ 44%|████▍     | 4725/10702 [50:24<49:21,  2.02it/s] 44%|████▍     | 4726/10702 [50:24<49:26,  2.01it/s] 44%|████▍     | 4727/10702 [50:25<49:24,  2.02it/s] 44%|████▍     | 4728/10702 [50:25<49:24,  2.02it/s] 44%|████▍     | 4729/10702 [50:26<49:21,  2.02it/s] 44%|████▍     | 4730/10702 [50:26<49:20,  2.02it/s] 44%|████▍     | 4731/10702 [50:26<49:19,  2.02it/s] 44%|████▍     | 4732/10702 [50:27<49:21,  2.02it/s] 44%|████▍     | 4733/10702 [50:27<49:29,  2.01it/s] 44%|████▍     | 4734/10702 [50:28<49:40,  2.00it/s] 44%|████▍     | 4735/10702 [50:28<49:34,  2.01it/s] 44%|████▍     | 4736/10702 [50:29<49:29,  2.01it/s] 44%|████▍     | 4737/10702 [50:29<49:33,  2.01it/s] 44%|████▍     | 4738/10702 [50:30<49:31,  2.01it/s] 44%|████▍     | 4739/10702 [50:30<49:29,  2.01it/s] 44%|████▍     | 4740/10702 [50:31<49:30,  2.01it/s] 44%|████▍     | 4741/10702 [50:31<49:29,  2.01it/s] 44%|████▍     | 4742/10702 [50:32<49:26,  2.01it/s] 44%|���███▍     | 4743/10702 [50:32<49:27,  2.01it/s] 44%|████▍     | 4744/10702 [50:33<49:23,  2.01it/s] 44%|████▍     | 4745/10702 [50:33<49:21,  2.01it/s] 44%|████▍     | 4746/10702 [50:34<49:18,  2.01it/s] 44%|████▍     | 4747/10702 [50:34<49:18,  2.01it/s] 44%|████▍     | 4748/10702 [50:35<49:18,  2.01it/s] 44%|████▍     | 4749/10702 [50:35<49:16,  2.01it/s] 44%|████▍     | 4750/10702 [50:36<49:17,  2.01it/s]{'loss': 3.7271, 'grad_norm': 0.20140989124774933, 'learning_rate': 0.000681144068128436, 'epoch': 0.44}
+                                                     44%|████▍     | 4750/10702 [50:36<49:17,  2.01it/s] 44%|████▍     | 4751/10702 [50:36<49:19,  2.01it/s] 44%|████▍     | 4752/10702 [50:37<49:16,  2.01it/s] 44%|████▍     | 4753/10702 [50:37<49:19,  2.01it/s] 44%|████▍     | 4754/10702 [50:38<49:14,  2.01it/s] 44%|████▍     | 4755/10702 [50:38<49:11,  2.01it/s] 44%|████▍     | 4756/10702 [50:39<49:10,  2.02it/s] 44%|████▍     | 4757/10702 [50:39<49:35,  2.00it/s] 44%|████▍     | 4758/10702 [50:40<49:27,  2.00it/s] 44%|████▍     | 4759/10702 [50:40<49:21,  2.01it/s] 44%|████▍     | 4760/10702 [50:41<49:13,  2.01it/s] 44%|████▍     | 4761/10702 [50:41<49:13,  2.01it/s] 44%|████▍     | 4762/10702 [50:42<49:10,  2.01it/s] 45%|████▍     | 4763/10702 [50:42<49:09,  2.01it/s] 45%|████▍     | 4764/10702 [50:43<49:11,  2.01it/s] 45%|████▍     | 4765/10702 [50:43<49:08,  2.01it/s] 45%|████▍     | 4766/10702 [50:44<49:08,  2.01it/s] 45%|████▍     | 4767/10702 [50:44<49:08,  2.01it/s] 45%|████▍     | 4768/10702 [50:45<49:05,  2.01it/s] 45%|████▍     | 4769/10702 [50:45<49:05,  2.01it/s] 45%|████▍     | 4770/10702 [50:46<49:00,  2.02it/s] 45%|████▍     | 4771/10702 [50:46<49:00,  2.02it/s] 45%|████▍     | 4772/10702 [50:47<49:00,  2.02it/s] 45%|████▍     | 4773/10702 [50:47<48:58,  2.02it/s] 45%|████▍     | 4774/10702 [50:48<48:56,  2.02it/s] 45%|████▍     | 4775/10702 [50:48<48:55,  2.02it/s]                                                    {'loss': 3.7246, 'grad_norm': 0.20850038528442383, 'learning_rate': 0.0006773376351487841, 'epoch': 0.45}
+ 45%|████▍     | 4775/10702 [50:48<48:55,  2.02it/s] 45%|████▍     | 4776/10702 [50:49<49:01,  2.01it/s] 45%|████▍     | 4777/10702 [50:49<48:59,  2.02it/s] 45%|████▍     | 4778/10702 [50:50<48:59,  2.02it/s] 45%|████▍     | 4779/10702 [50:50<48:57,  2.02it/s] 45%|████▍     | 4780/10702 [50:51<48:55,  2.02it/s] 45%|████▍     | 4781/10702 [50:51<48:54,  2.02it/s] 45%|████▍     | 4782/10702 [50:52<48:52,  2.02it/s] 45%|████▍     | 4783/10702 [50:52<48:50,  2.02it/s] 45%|████▍     | 4784/10702 [50:53<48:50,  2.02it/s] 45%|████▍     | 4785/10702 [50:53<48:52,  2.02it/s] 45%|████▍     | 4786/10702 [50:54<48:53,  2.02it/s] 45%|████▍     | 4787/10702 [50:54<48:55,  2.02it/s] 45%|████▍     | 4788/10702 [50:55<48:53,  2.02it/s] 45%|████▍     | 4789/10702 [50:55<48:52,  2.02it/s] 45%|████▍     | 4790/10702 [50:56<48:51,  2.02it/s] 45%|████▍     | 4791/10702 [50:56<48:51,  2.02it/s] 45%|████▍     | 4792/10702 [50:57<48:50,  2.02it/s] 45%|████▍     | 4793/10702 [50:57<48:58,  2.01it/s] 45%|████▍     | 4794/10702 [50:58<49:08,  2.00it/s] 45%|████▍     | 4795/10702 [50:58<49:02,  2.01it/s] 45%|████▍     | 4796/10702 [50:59<48:59,  2.01it/s] 45%|████▍     | 4797/10702 [50:59<48:54,  2.01it/s] 45%|████▍     | 4798/10702 [51:00<48:53,  2.01it/s] 45%|████▍     | 4799/10702 [51:00<48:49,  2.01it/s] 45%|████▍     | 4800/10702 [51:01<48:50,  2.01it/s]{'loss': 3.7244, 'grad_norm': 0.1976945996284485, 'learning_rate': 0.0006735194088648799, 'epoch': 0.45}
+                                                     45%|████▍     | 4800/10702 [51:01<48:50,  2.01it/s] 45%|████▍     | 4801/10702 [51:01<48:53,  2.01it/s] 45%|████▍     | 4802/10702 [51:02<48:50,  2.01it/s] 45%|████▍     | 4803/10702 [51:02<48:46,  2.02it/s] 45%|████▍     | 4804/10702 [51:03<48:46,  2.02it/s] 45%|████▍     | 4805/10702 [51:03<49:17,  1.99it/s] 45%|████▍     | 4806/10702 [51:04<49:10,  2.00it/s] 45%|████▍     | 4807/10702 [51:04<49:01,  2.00it/s] 45%|████▍     | 4808/10702 [51:05<48:56,  2.01it/s] 45%|████▍     | 4809/10702 [51:05<48:51,  2.01it/s] 45%|████▍     | 4810/10702 [51:06<48:47,  2.01it/s] 45%|████▍     | 4811/10702 [51:06<48:45,  2.01it/s] 45%|████▍     | 4812/10702 [51:07<48:41,  2.02it/s] 45%|████▍     | 4813/10702 [51:07<49:17,  1.99it/s] 45%|████▍     | 4814/10702 [51:08<49:05,  2.00it/s] 45%|████▍     | 4815/10702 [51:08<48:56,  2.00it/s] 45%|████▌     | 4816/10702 [51:09<48:49,  2.01it/s] 45%|████▌     | 4817/10702 [51:09<49:18,  1.99it/s] 45%|████▌     | 4818/10702 [51:10<49:05,  2.00it/s] 45%|████▌     | 4819/10702 [51:10<48:57,  2.00it/s] 45%|████▌     | 4820/10702 [51:11<48:48,  2.01it/s] 45%|████▌     | 4821/10702 [51:11<48:44,  2.01it/s] 45%|████▌     | 4822/10702 [51:12<48:40,  2.01it/s] 45%|████▌     | 4823/10702 [51:12<48:36,  2.02it/s] 45%|████▌     | 4824/10702 [51:13<48:35,  2.02it/s] 45%|████▌     | 4825/10702 [51:13<48:34,  2.02it/s]                                                    {'loss': 3.7231, 'grad_norm': 0.20781466364860535, 'learning_rate': 0.0006696896431963399, 'epoch': 0.45}
+ 45%|████▌     | 4825/10702 [51:13<48:34,  2.02it/s] 45%|████▌     | 4826/10702 [51:14<48:37,  2.01it/s] 45%|████▌     | 4827/10702 [51:14<48:33,  2.02it/s] 45%|████▌     | 4828/10702 [51:15<48:31,  2.02it/s] 45%|████▌     | 4829/10702 [51:15<48:29,  2.02it/s] 45%|████▌     | 4830/10702 [51:16<48:28,  2.02it/s] 45%|████▌     | 4831/10702 [51:16<48:26,  2.02it/s] 45%|████▌     | 4832/10702 [51:17<48:26,  2.02it/s] 45%|████▌     | 4833/10702 [51:17<48:26,  2.02it/s] 45%|████▌     | 4834/10702 [51:18<48:26,  2.02it/s] 45%|████▌     | 4835/10702 [51:18<48:26,  2.02it/s] 45%|████▌     | 4836/10702 [51:19<48:23,  2.02it/s] 45%|████▌     | 4837/10702 [51:19<48:26,  2.02it/s] 45%|████▌     | 4838/10702 [51:20<48:25,  2.02it/s] 45%|████▌     | 4839/10702 [51:20<48:23,  2.02it/s] 45%|████▌     | 4840/10702 [51:21<48:23,  2.02it/s] 45%|████▌     | 4841/10702 [51:21<48:23,  2.02it/s] 45%|████▌     | 4842/10702 [51:22<48:22,  2.02it/s] 45%|████▌     | 4843/10702 [51:22<48:19,  2.02it/s] 45%|████▌     | 4844/10702 [51:23<49:38,  1.97it/s] 45%|████▌     | 4845/10702 [51:23<49:12,  1.98it/s] 45%|████▌     | 4846/10702 [51:24<48:59,  1.99it/s] 45%|████▌     | 4847/10702 [51:24<48:46,  2.00it/s] 45%|████▌     | 4848/10702 [51:25<48:37,  2.01it/s] 45%|████▌     | 4849/10702 [51:25<48:33,  2.01it/s] 45%|████▌     | 4850/10702 [51:26<48:28,  2.01it/s]{'loss': 3.7203, 'grad_norm': 0.20082955062389374, 'learning_rate': 0.000665848592830172, 'epoch': 0.45}
+                                                     45%|████▌     | 4850/10702 [51:26<48:28,  2.01it/s] 45%|████▌     | 4851/10702 [51:26<48:33,  2.01it/s] 45%|████▌     | 4852/10702 [51:27<48:26,  2.01it/s] 45%|████▌     | 4853/10702 [51:27<48:29,  2.01it/s] 45%|████▌     | 4854/10702 [51:28<48:49,  2.00it/s] 45%|████▌     | 4855/10702 [51:28<48:46,  2.00it/s] 45%|████▌     | 4856/10702 [51:29<48:43,  2.00it/s] 45%|████▌     | 4857/10702 [51:29<48:39,  2.00it/s] 45%|████▌     | 4858/10702 [51:30<48:34,  2.00it/s] 45%|████▌     | 4859/10702 [51:30<48:35,  2.00it/s] 45%|████▌     | 4860/10702 [51:31<48:32,  2.01it/s] 45%|████▌     | 4861/10702 [51:31<48:28,  2.01it/s] 45%|████▌     | 4862/10702 [51:32<48:26,  2.01it/s] 45%|████▌     | 4863/10702 [51:32<48:22,  2.01it/s] 45%|████▌     | 4864/10702 [51:33<48:20,  2.01it/s] 45%|████▌     | 4865/10702 [51:33<48:19,  2.01it/s] 45%|████▌     | 4866/10702 [51:34<48:17,  2.01it/s] 45%|████▌     | 4867/10702 [51:34<48:18,  2.01it/s] 45%|████▌     | 4868/10702 [51:35<48:15,  2.01it/s] 45%|████▌     | 4869/10702 [51:35<48:14,  2.01it/s] 46%|████▌     | 4870/10702 [51:36<48:17,  2.01it/s] 46%|████▌     | 4871/10702 [51:36<48:13,  2.02it/s] 46%|████▌     | 4872/10702 [51:37<48:12,  2.02it/s] 46%|████▌     | 4873/10702 [51:37<48:11,  2.02it/s] 46%|████▌     | 4874/10702 [51:38<48:11,  2.02it/s] 46%|████▌     | 4875/10702 [51:38<48:11,  2.02it/s]{'loss': 3.7183, 'grad_norm': 0.1997814029455185, 'learning_rate': 0.0006619965132038395, 'epoch': 0.46}
+                                                     46%|████▌     | 4875/10702 [51:38<48:11,  2.02it/s] 46%|████▌     | 4876/10702 [51:39<48:11,  2.01it/s] 46%|████▌     | 4877/10702 [51:39<48:57,  1.98it/s] 46%|████▌     | 4878/10702 [51:40<48:43,  1.99it/s] 46%|████▌     | 4879/10702 [51:40<48:30,  2.00it/s] 46%|████▌     | 4880/10702 [51:41<48:27,  2.00it/s] 46%|████▌     | 4881/10702 [51:41<48:22,  2.01it/s] 46%|████▌     | 4882/10702 [51:42<48:18,  2.01it/s] 46%|████▌     | 4883/10702 [51:42<48:15,  2.01it/s] 46%|████▌     | 4884/10702 [51:43<48:11,  2.01it/s] 46%|████▌     | 4885/10702 [51:43<48:12,  2.01it/s] 46%|████▌     | 4886/10702 [51:44<48:09,  2.01it/s] 46%|████▌     | 4887/10702 [51:44<48:07,  2.01it/s] 46%|████▌     | 4888/10702 [51:45<48:09,  2.01it/s] 46%|████▌     | 4889/10702 [51:45<48:08,  2.01it/s] 46%|████▌     | 4890/10702 [51:46<48:09,  2.01it/s] 46%|████▌     | 4891/10702 [51:46<48:01,  2.02it/s] 46%|████▌     | 4892/10702 [51:47<48:04,  2.01it/s] 46%|████▌     | 4893/10702 [51:47<47:59,  2.02it/s] 46%|████▌     | 4894/10702 [51:48<48:01,  2.02it/s] 46%|████▌     | 4895/10702 [51:48<47:59,  2.02it/s] 46%|████▌     | 4896/10702 [51:49<48:01,  2.02it/s] 46%|████▌     | 4897/10702 [51:49<48:04,  2.01it/s] 46%|████▌     | 4898/10702 [51:50<48:01,  2.01it/s] 46%|████▌     | 4899/10702 [51:50<47:59,  2.02it/s] 46%|████▌     | 4900/10702 [51:51<47:59,  2.01it/s]                                                    {'loss': 3.718, 'grad_norm': 0.19921214878559113, 'learning_rate': 0.0006581336604882731, 'epoch': 0.46}
+ 46%|████▌     | 4900/10702 [51:51<47:59,  2.01it/s] 46%|████▌     | 4901/10702 [51:51<47:59,  2.01it/s] 46%|████▌     | 4902/10702 [51:52<48:00,  2.01it/s] 46%|████▌     | 4903/10702 [51:52<47:58,  2.01it/s] 46%|████▌     | 4904/10702 [51:53<47:58,  2.01it/s] 46%|████▌     | 4905/10702 [51:53<47:58,  2.01it/s] 46%|████▌     | 4906/10702 [51:54<47:54,  2.02it/s] 46%|████▌     | 4907/10702 [51:54<47:57,  2.01it/s] 46%|████▌     | 4908/10702 [51:55<47:54,  2.02it/s] 46%|████▌     | 4909/10702 [51:55<47:53,  2.02it/s] 46%|████▌     | 4910/10702 [51:55<47:51,  2.02it/s] 46%|████▌     | 4911/10702 [51:56<47:50,  2.02it/s] 46%|████▌     | 4912/10702 [51:56<47:49,  2.02it/s] 46%|████▌     | 4913/10702 [51:57<47:51,  2.02it/s] 46%|████▌     | 4914/10702 [51:57<48:15,  2.00it/s] 46%|████▌     | 4915/10702 [51:58<48:10,  2.00it/s] 46%|████▌     | 4916/10702 [51:58<48:09,  2.00it/s] 46%|████▌     | 4917/10702 [51:59<48:05,  2.00it/s] 46%|████▌     | 4918/10702 [51:59<48:01,  2.01it/s] 46%|████▌     | 4919/10702 [52:00<48:03,  2.01it/s] 46%|████▌     | 4920/10702 [52:00<47:58,  2.01it/s] 46%|████▌     | 4921/10702 [52:01<47:55,  2.01it/s] 46%|████▌     | 4922/10702 [52:01<47:55,  2.01it/s] 46%|████▌     | 4923/10702 [52:02<47:53,  2.01it/s] 46%|████▌     | 4924/10702 [52:02<47:51,  2.01it/s] 46%|████▌     | 4925/10702 [52:03<47:50,  2.01it/s]                                                    {'loss': 3.7134, 'grad_norm': 0.2179126739501953, 'learning_rate': 0.0006542602915708349, 'epoch': 0.46}
+ 46%|████▌     | 4925/10702 [52:03<47:50,  2.01it/s] 46%|████▌     | 4926/10702 [52:03<47:51,  2.01it/s] 46%|████▌     | 4927/10702 [52:04<47:52,  2.01it/s] 46%|████▌     | 4928/10702 [52:04<47:52,  2.01it/s] 46%|████▌     | 4929/10702 [52:05<47:48,  2.01it/s] 46%|████▌     | 4930/10702 [52:05<47:46,  2.01it/s] 46%|████▌     | 4931/10702 [52:06<47:44,  2.01it/s] 46%|████▌     | 4932/10702 [52:06<47:49,  2.01it/s] 46%|████▌     | 4933/10702 [52:07<47:45,  2.01it/s] 46%|████▌     | 4934/10702 [52:07<47:43,  2.01it/s] 46%|████▌     | 4935/10702 [52:08<47:41,  2.02it/s] 46%|████▌     | 4936/10702 [52:08<47:41,  2.02it/s] 46%|████▌     | 4937/10702 [52:09<47:41,  2.01it/s] 46%|████▌     | 4938/10702 [52:09<47:39,  2.02it/s] 46%|████▌     | 4939/10702 [52:10<47:37,  2.02it/s] 46%|████▌     | 4940/10702 [52:10<47:33,  2.02it/s] 46%|████▌     | 4941/10702 [52:11<47:36,  2.02it/s] 46%|████▌     | 4942/10702 [52:11<47:35,  2.02it/s] 46%|████▌     | 4943/10702 [52:12<47:36,  2.02it/s] 46%|████▌     | 4944/10702 [52:12<47:33,  2.02it/s] 46%|████▌     | 4945/10702 [52:13<47:34,  2.02it/s] 46%|████▌     | 4946/10702 [52:13<47:33,  2.02it/s] 46%|████▌     | 4947/10702 [52:14<47:32,  2.02it/s] 46%|████▌     | 4948/10702 [52:14<47:33,  2.02it/s] 46%|████▌     | 4949/10702 [52:15<47:31,  2.02it/s] 46%|████▋     | 4950/10702 [52:15<47:31,  2.02it/s]{'loss': 3.7137, 'grad_norm': 0.19563743472099304, 'learning_rate': 0.0006503766640382358, 'epoch': 0.46}
+                                                     46%|████▋     | 4950/10702 [52:15<47:31,  2.02it/s] 46%|████▋     | 4951/10702 [52:16<47:34,  2.01it/s] 46%|████▋     | 4952/10702 [52:16<47:30,  2.02it/s] 46%|████▋     | 4953/10702 [52:17<47:31,  2.02it/s] 46%|████▋     | 4954/10702 [52:17<47:33,  2.01it/s] 46%|████▋     | 4955/10702 [52:18<47:28,  2.02it/s] 46%|████▋     | 4956/10702 [52:18<48:04,  1.99it/s] 46%|████▋     | 4957/10702 [52:19<47:51,  2.00it/s] 46%|████▋     | 4958/10702 [52:19<47:44,  2.00it/s] 46%|████▋     | 4959/10702 [52:20<47:42,  2.01it/s] 46%|████▋     | 4960/10702 [52:20<47:40,  2.01it/s] 46%|████▋     | 4961/10702 [52:21<47:37,  2.01it/s] 46%|████▋     | 4962/10702 [52:21<47:35,  2.01it/s] 46%|████▋     | 4963/10702 [52:22<47:33,  2.01it/s] 46%|████▋     | 4964/10702 [52:22<47:34,  2.01it/s] 46%|████▋     | 4965/10702 [52:23<47:31,  2.01it/s] 46%|████▋     | 4966/10702 [52:23<47:30,  2.01it/s] 46%|████▋     | 4967/10702 [52:24<47:30,  2.01it/s] 46%|████▋     | 4968/10702 [52:24<47:31,  2.01it/s] 46%|████▋     | 4969/10702 [52:25<47:28,  2.01it/s] 46%|████▋     | 4970/10702 [52:25<47:30,  2.01it/s] 46%|████▋     | 4971/10702 [52:26<47:25,  2.01it/s] 46%|████▋     | 4972/10702 [52:26<47:25,  2.01it/s] 46%|████▋     | 4973/10702 [52:27<47:24,  2.01it/s] 46%|████▋     | 4974/10702 [52:27<47:30,  2.01it/s] 46%|████▋     | 4975/10702 [52:28<47:30,  2.01it/s]{'loss': 3.7122, 'grad_norm': 0.20945195853710175, 'learning_rate': 0.000646483036159405, 'epoch': 0.46}                                                    
+ 46%|████▋     | 4975/10702 [52:28<47:30,  2.01it/s] 46%|████▋     | 4976/10702 [52:28<47:34,  2.01it/s] 47%|████▋     | 4977/10702 [52:29<47:28,  2.01it/s] 47%|████▋     | 4978/10702 [52:29<47:27,  2.01it/s] 47%|████▋     | 4979/10702 [52:30<47:23,  2.01it/s] 47%|████▋     | 4980/10702 [52:30<47:21,  2.01it/s] 47%|████▋     | 4981/10702 [52:31<47:19,  2.01it/s] 47%|████▋     | 4982/10702 [52:31<47:17,  2.02it/s] 47%|████▋     | 4983/10702 [52:32<47:15,  2.02it/s] 47%|████▋     | 4984/10702 [52:32<47:15,  2.02it/s] 47%|████▋     | 4985/10702 [52:33<47:13,  2.02it/s] 47%|████▋     | 4986/10702 [52:33<47:14,  2.02it/s] 47%|████▋     | 4987/10702 [52:34<47:13,  2.02it/s] 47%|████▋     | 4988/10702 [52:34<47:14,  2.02it/s] 47%|████▋     | 4989/10702 [52:35<48:45,  1.95it/s] 47%|████▋     | 4990/10702 [52:35<48:16,  1.97it/s] 47%|████▋     | 4991/10702 [52:36<47:54,  1.99it/s] 47%|████▋     | 4992/10702 [52:36<47:40,  2.00it/s] 47%|████▋     | 4993/10702 [52:37<47:28,  2.00it/s] 47%|████▋     | 4994/10702 [52:37<47:20,  2.01it/s] 47%|████▋     | 4995/10702 [52:38<47:14,  2.01it/s] 47%|████▋     | 4996/10702 [52:38<47:13,  2.01it/s] 47%|████▋     | 4997/10702 [52:39<47:09,  2.02it/s] 47%|████▋     | 4998/10702 [52:39<47:07,  2.02it/s] 47%|████▋     | 4999/10702 [52:40<47:06,  2.02it/s] 47%|████▋     | 5000/10702 [52:40<47:06,  2.02it/s]                                                    {'loss': 3.7116, 'grad_norm': 0.20915637910366058, 'learning_rate': 0.0006425796668683139, 'epoch': 0.47}
+ 47%|████▋     | 5000/10702 [52:40<47:06,  2.02it/s] 47%|████▋     | 5001/10702 [52:41<47:11,  2.01it/s] 47%|████▋     | 5002/10702 [52:41<47:08,  2.02it/s] 47%|████▋     | 5003/10702 [52:42<47:08,  2.01it/s] 47%|████▋     | 5004/10702 [52:42<47:05,  2.02it/s] 47%|████▋     | 5005/10702 [52:43<47:07,  2.02it/s] 47%|████▋     | 5006/10702 [52:43<47:04,  2.02it/s] 47%|████▋     | 5007/10702 [52:44<47:03,  2.02it/s] 47%|████▋     | 5008/10702 [52:44<47:02,  2.02it/s] 47%|████▋     | 5009/10702 [52:45<47:02,  2.02it/s] 47%|████▋     | 5010/10702 [52:45<47:02,  2.02it/s] 47%|████▋     | 5011/10702 [52:46<47:01,  2.02it/s] 47%|████▋     | 5012/10702 [52:46<47:01,  2.02it/s] 47%|████▋     | 5013/10702 [52:47<46:57,  2.02it/s] 47%|████▋     | 5014/10702 [52:47<46:58,  2.02it/s] 47%|████▋     | 5015/10702 [52:48<46:57,  2.02it/s] 47%|████▋     | 5016/10702 [52:48<46:58,  2.02it/s] 47%|████▋     | 5017/10702 [52:49<46:58,  2.02it/s] 47%|████▋     | 5018/10702 [52:49<46:58,  2.02it/s] 47%|████▋     | 5019/10702 [52:50<46:56,  2.02it/s] 47%|████▋     | 5020/10702 [52:50<46:54,  2.02it/s] 47%|████▋     | 5021/10702 [52:51<46:55,  2.02it/s] 47%|████▋     | 5022/10702 [52:51<46:54,  2.02it/s] 47%|████▋     | 5023/10702 [52:52<46:55,  2.02it/s] 47%|████▋     | 5024/10702 [52:52<46:51,  2.02it/s] 47%|████▋     | 5025/10702 [52:53<46:52,  2.02it/s]                                                    {'loss': 3.7062, 'grad_norm': 0.19446176290512085, 'learning_rate': 0.0006386668157467578, 'epoch': 0.47}
+ 47%|████▋     | 5025/10702 [52:53<46:52,  2.02it/s] 47%|████▋     | 5026/10702 [52:53<46:55,  2.02it/s] 47%|████▋     | 5027/10702 [52:54<46:54,  2.02it/s] 47%|████▋     | 5028/10702 [52:54<46:56,  2.01it/s] 47%|████▋     | 5029/10702 [52:55<46:50,  2.02it/s] 47%|████▋     | 5030/10702 [52:55<46:52,  2.02it/s] 47%|████▋     | 5031/10702 [52:56<46:49,  2.02it/s] 47%|████▋     | 5032/10702 [52:56<46:50,  2.02it/s] 47%|████▋     | 5033/10702 [52:57<46:46,  2.02it/s] 47%|████▋     | 5034/10702 [52:57<46:52,  2.01it/s] 47%|████▋     | 5035/10702 [52:58<47:11,  2.00it/s] 47%|████▋     | 5036/10702 [52:58<47:14,  2.00it/s] 47%|████▋     | 5037/10702 [52:59<47:10,  2.00it/s] 47%|████▋     | 5038/10702 [52:59<47:07,  2.00it/s] 47%|████▋     | 5039/10702 [53:00<47:04,  2.00it/s] 47%|████▋     | 5040/10702 [53:00<47:03,  2.01it/s] 47%|████▋     | 5041/10702 [53:01<46:59,  2.01it/s] 47%|████▋     | 5042/10702 [53:01<46:58,  2.01it/s] 47%|████▋     | 5043/10702 [53:02<47:48,  1.97it/s] 47%|████▋     | 5044/10702 [53:02<47:32,  1.98it/s] 47%|████▋     | 5045/10702 [53:03<47:20,  1.99it/s] 47%|████▋     | 5046/10702 [53:03<47:11,  2.00it/s] 47%|████▋     | 5047/10702 [53:04<47:03,  2.00it/s] 47%|████▋     | 5048/10702 [53:04<46:57,  2.01it/s] 47%|████▋     | 5049/10702 [53:05<46:56,  2.01it/s] 47%|████▋     | 5050/10702 [53:05<46:51,  2.01it/s]{'loss': 3.7, 'grad_norm': 0.1971333920955658, 'learning_rate': 0.0006347447430070921, 'epoch': 0.47}
+                                                     47%|████▋     | 5050/10702 [53:05<46:51,  2.01it/s] 47%|████▋     | 5051/10702 [53:06<46:48,  2.01it/s] 47%|████▋     | 5052/10702 [53:06<46:47,  2.01it/s] 47%|████▋     | 5053/10702 [53:07<46:47,  2.01it/s] 47%|████▋     | 5054/10702 [53:07<46:47,  2.01it/s] 47%|████▋     | 5055/10702 [53:08<46:44,  2.01it/s] 47%|████▋     | 5056/10702 [53:08<46:40,  2.02it/s] 47%|████▋     | 5057/10702 [53:09<46:40,  2.02it/s] 47%|████▋     | 5058/10702 [53:09<46:37,  2.02it/s] 47%|████▋     | 5059/10702 [53:10<46:39,  2.02it/s] 47%|████▋     | 5060/10702 [53:10<46:35,  2.02it/s] 47%|████▋     | 5061/10702 [53:11<46:35,  2.02it/s] 47%|████▋     | 5062/10702 [53:11<46:34,  2.02it/s] 47%|████▋     | 5063/10702 [53:12<46:36,  2.02it/s] 47%|████▋     | 5064/10702 [53:12<46:37,  2.02it/s] 47%|████▋     | 5065/10702 [53:13<46:34,  2.02it/s] 47%|████▋     | 5066/10702 [53:13<46:36,  2.02it/s] 47%|████▋     | 5067/10702 [53:14<46:34,  2.02it/s] 47%|████▋     | 5068/10702 [53:14<46:35,  2.02it/s] 47%|████▋     | 5069/10702 [53:15<46:33,  2.02it/s] 47%|████▋     | 5070/10702 [53:15<46:33,  2.02it/s] 47%|████▋     | 5071/10702 [53:16<46:33,  2.02it/s] 47%|████▋     | 5072/10702 [53:16<46:33,  2.02it/s] 47%|████▋     | 5073/10702 [53:17<46:32,  2.02it/s] 47%|████▋     | 5074/10702 [53:17<46:31,  2.02it/s] 47%|████▋     | 5075/10702 [53:18<46:30,  2.02it/s]{'loss': 3.7067, 'grad_norm': 0.20064537227153778, 'learning_rate': 0.0006308137094749284, 'epoch': 0.47}
+                                                     47%|████▋     | 5075/10702 [53:18<46:30,  2.02it/s] 47%|████▋     | 5076/10702 [53:18<46:34,  2.01it/s] 47%|████▋     | 5077/10702 [53:19<46:29,  2.02it/s] 47%|████▋     | 5078/10702 [53:19<47:03,  1.99it/s] 47%|████▋     | 5079/10702 [53:20<46:52,  2.00it/s] 47%|████▋     | 5080/10702 [53:20<46:45,  2.00it/s] 47%|████▋     | 5081/10702 [53:21<46:43,  2.01it/s] 47%|████▋     | 5082/10702 [53:21<46:36,  2.01it/s] 47%|████▋     | 5083/10702 [53:22<46:33,  2.01it/s] 48%|████▊     | 5084/10702 [53:22<46:29,  2.01it/s] 48%|████▊     | 5085/10702 [53:22<46:28,  2.01it/s] 48%|████▊     | 5086/10702 [53:23<46:25,  2.02it/s] 48%|████▊     | 5087/10702 [53:23<46:26,  2.02it/s] 48%|████▊     | 5088/10702 [53:24<46:24,  2.02it/s] 48%|████▊     | 5089/10702 [53:24<46:24,  2.02it/s] 48%|████▊     | 5090/10702 [53:25<46:23,  2.02it/s] 48%|████▊     | 5091/10702 [53:25<46:21,  2.02it/s] 48%|████▊     | 5092/10702 [53:26<46:20,  2.02it/s] 48%|████▊     | 5093/10702 [53:26<46:19,  2.02it/s] 48%|████▊     | 5094/10702 [53:27<46:24,  2.01it/s] 48%|████▊     | 5095/10702 [53:27<46:42,  2.00it/s] 48%|████▊     | 5096/10702 [53:28<46:49,  2.00it/s] 48%|████▊     | 5097/10702 [53:28<46:40,  2.00it/s] 48%|████▊     | 5098/10702 [53:29<46:35,  2.00it/s] 48%|████▊     | 5099/10702 [53:29<46:30,  2.01it/s] 48%|████▊     | 5100/10702 [53:30<46:29,  2.01it/s]{'loss': 3.703, 'grad_norm': 0.19801664352416992, 'learning_rate': 0.0006268739765717883, 'epoch': 0.48}
+                                                     48%|████▊     | 5100/10702 [53:30<46:29,  2.01it/s] 48%|████▊     | 5101/10702 [53:30<46:28,  2.01it/s] 48%|████▊     | 5102/10702 [53:31<46:31,  2.01it/s] 48%|████▊     | 5103/10702 [53:31<46:28,  2.01it/s] 48%|████▊     | 5104/10702 [53:32<46:22,  2.01it/s] 48%|████▊     | 5105/10702 [53:32<46:21,  2.01it/s] 48%|████▊     | 5106/10702 [53:33<46:21,  2.01it/s] 48%|████▊     | 5107/10702 [53:33<46:20,  2.01it/s] 48%|████▊     | 5108/10702 [53:34<46:18,  2.01it/s] 48%|████▊     | 5109/10702 [53:34<46:17,  2.01it/s] 48%|████▊     | 5110/10702 [53:35<46:16,  2.01it/s] 48%|████▊     | 5111/10702 [53:35<46:13,  2.02it/s] 48%|████▊     | 5112/10702 [53:36<46:16,  2.01it/s] 48%|████▊     | 5113/10702 [53:36<46:14,  2.01it/s] 48%|████▊     | 5114/10702 [53:37<46:12,  2.02it/s] 48%|████▊     | 5115/10702 [53:37<46:10,  2.02it/s] 48%|████▊     | 5116/10702 [53:38<46:08,  2.02it/s] 48%|████▊     | 5117/10702 [53:38<46:09,  2.02it/s] 48%|████▊     | 5118/10702 [53:39<46:06,  2.02it/s] 48%|████▊     | 5119/10702 [53:39<46:06,  2.02it/s] 48%|████▊     | 5120/10702 [53:40<46:05,  2.02it/s] 48%|████▊     | 5121/10702 [53:40<46:06,  2.02it/s] 48%|████▊     | 5122/10702 [53:41<46:05,  2.02it/s] 48%|████▊     | 5123/10702 [53:41<46:05,  2.02it/s] 48%|████▊     | 5124/10702 [53:42<46:03,  2.02it/s] 48%|████▊     | 5125/10702 [53:42<46:02,  2.02it/s]{'loss': 3.7019, 'grad_norm': 0.20422430336475372, 'learning_rate': 0.0006229258062977194, 'epoch': 0.48}
+                                                     48%|████▊     | 5125/10702 [53:42<46:02,  2.02it/s] 48%|████▊     | 5126/10702 [53:43<46:07,  2.01it/s] 48%|████▊     | 5127/10702 [53:43<46:03,  2.02it/s] 48%|████▊     | 5128/10702 [53:44<46:02,  2.02it/s] 48%|████▊     | 5129/10702 [53:44<46:01,  2.02it/s] 48%|████▊     | 5130/10702 [53:45<45:59,  2.02it/s] 48%|████▊     | 5131/10702 [53:45<45:59,  2.02it/s] 48%|████▊     | 5132/10702 [53:46<45:57,  2.02it/s] 48%|████▊     | 5133/10702 [53:46<46:00,  2.02it/s] 48%|████▊     | 5134/10702 [53:47<45:58,  2.02it/s] 48%|████▊     | 5135/10702 [53:47<45:57,  2.02it/s] 48%|████▊     | 5136/10702 [53:48<45:58,  2.02it/s] 48%|████▊     | 5137/10702 [53:48<45:57,  2.02it/s] 48%|████▊     | 5138/10702 [53:49<45:57,  2.02it/s] 48%|████▊     | 5139/10702 [53:49<45:57,  2.02it/s] 48%|████▊     | 5140/10702 [53:50<45:56,  2.02it/s] 48%|████▊     | 5141/10702 [53:50<45:55,  2.02it/s] 48%|████▊     | 5142/10702 [53:51<45:58,  2.02it/s] 48%|████▊     | 5143/10702 [53:51<45:55,  2.02it/s] 48%|████▊     | 5144/10702 [53:52<45:54,  2.02it/s] 48%|████▊     | 5145/10702 [53:52<45:52,  2.02it/s] 48%|████▊     | 5146/10702 [53:53<45:53,  2.02it/s] 48%|████▊     | 5147/10702 [53:53<45:50,  2.02it/s] 48%|████▊     | 5148/10702 [53:54<45:50,  2.02it/s] 48%|████▊     | 5149/10702 [53:54<45:48,  2.02it/s] 48%|████▊     | 5150/10702 [53:55<45:48,  2.02it/s]                                                    {'loss': 3.6996, 'grad_norm': 0.1985568255186081, 'learning_rate': 0.0006189694612138708, 'epoch': 0.48}
+ 48%|████▊     | 5150/10702 [53:55<45:48,  2.02it/s] 48%|████▊     | 5151/10702 [53:55<45:52,  2.02it/s] 48%|████▊     | 5152/10702 [53:56<45:50,  2.02it/s] 48%|████▊     | 5153/10702 [53:56<45:51,  2.02it/s] 48%|████▊     | 5154/10702 [53:57<45:47,  2.02it/s] 48%|████▊     | 5155/10702 [53:57<45:57,  2.01it/s] 48%|████▊     | 5156/10702 [53:58<46:09,  2.00it/s] 48%|████▊     | 5157/10702 [53:58<46:06,  2.00it/s] 48%|████▊     | 5158/10702 [53:59<46:00,  2.01it/s] 48%|████▊     | 5159/10702 [53:59<46:02,  2.01it/s] 48%|████▊     | 5160/10702 [54:00<45:58,  2.01it/s] 48%|████▊     | 5161/10702 [54:00<45:56,  2.01it/s] 48%|████▊     | 5162/10702 [54:01<45:55,  2.01it/s] 48%|████▊     | 5163/10702 [54:01<46:00,  2.01it/s] 48%|████▊     | 5164/10702 [54:02<45:54,  2.01it/s] 48%|████▊     | 5165/10702 [54:02<45:53,  2.01it/s] 48%|████▊     | 5166/10702 [54:03<45:51,  2.01it/s] 48%|████▊     | 5167/10702 [54:03<45:53,  2.01it/s] 48%|████▊     | 5168/10702 [54:04<45:52,  2.01it/s] 48%|████▊     | 5169/10702 [54:04<45:49,  2.01it/s] 48%|████▊     | 5170/10702 [54:05<45:50,  2.01it/s] 48%|████▊     | 5171/10702 [54:05<45:47,  2.01it/s] 48%|████▊     | 5172/10702 [54:06<45:45,  2.01it/s] 48%|████▊     | 5173/10702 [54:06<45:50,  2.01it/s] 48%|████▊     | 5174/10702 [54:07<46:03,  2.00it/s] 48%|████▊     | 5175/10702 [54:07<45:52,  2.01it/s]{'loss': 3.7002, 'grad_norm': 0.20311537384986877, 'learning_rate': 0.0006150052044250331, 'epoch': 0.48}
+                                                     48%|████▊     | 5175/10702 [54:07<45:52,  2.01it/s] 48%|████▊     | 5176/10702 [54:08<45:52,  2.01it/s] 48%|████▊     | 5177/10702 [54:08<45:46,  2.01it/s] 48%|████▊     | 5178/10702 [54:09<45:42,  2.01it/s] 48%|████▊     | 5179/10702 [54:09<45:41,  2.01it/s] 48%|████▊     | 5180/10702 [54:10<45:38,  2.02it/s] 48%|████▊     | 5181/10702 [54:10<45:41,  2.01it/s] 48%|████▊     | 5182/10702 [54:11<45:39,  2.02it/s] 48%|████▊     | 5183/10702 [54:11<45:39,  2.01it/s] 48%|████▊     | 5184/10702 [54:12<45:41,  2.01it/s] 48%|████▊     | 5185/10702 [54:12<45:37,  2.02it/s] 48%|████▊     | 5186/10702 [54:13<45:37,  2.02it/s] 48%|████▊     | 5187/10702 [54:13<45:33,  2.02it/s] 48%|████▊     | 5188/10702 [54:14<45:30,  2.02it/s] 48%|████▊     | 5189/10702 [54:14<45:31,  2.02it/s] 48%|████▊     | 5190/10702 [54:15<46:06,  1.99it/s] 49%|████▊     | 5191/10702 [54:15<45:57,  2.00it/s] 49%|████▊     | 5192/10702 [54:16<45:48,  2.01it/s] 49%|████▊     | 5193/10702 [54:16<45:41,  2.01it/s] 49%|████▊     | 5194/10702 [54:17<45:35,  2.01it/s] 49%|████▊     | 5195/10702 [54:17<45:33,  2.01it/s] 49%|████▊     | 5196/10702 [54:18<45:27,  2.02it/s] 49%|████▊     | 5197/10702 [54:18<45:27,  2.02it/s] 49%|████▊     | 5198/10702 [54:19<45:24,  2.02it/s] 49%|████▊     | 5199/10702 [54:19<45:26,  2.02it/s] 49%|████▊     | 5200/10702 [54:20<45:22,  2.02it/s]                                                    {'loss': 3.6974, 'grad_norm': 0.2254861742258072, 'learning_rate': 0.0006110332995621398, 'epoch': 0.49}
+ 49%|████▊     | 5200/10702 [54:20<45:22,  2.02it/s] 49%|████▊     | 5201/10702 [54:20<45:27,  2.02it/s] 49%|████▊     | 5202/10702 [54:21<45:24,  2.02it/s] 49%|████▊     | 5203/10702 [54:21<45:22,  2.02it/s] 49%|████▊     | 5204/10702 [54:22<45:21,  2.02it/s] 49%|████▊     | 5205/10702 [54:22<45:22,  2.02it/s] 49%|████▊     | 5206/10702 [54:23<45:19,  2.02it/s] 49%|████▊     | 5207/10702 [54:23<45:22,  2.02it/s] 49%|████▊     | 5208/10702 [54:24<45:19,  2.02it/s] 49%|████▊     | 5209/10702 [54:24<45:21,  2.02it/s] 49%|████▊     | 5210/10702 [54:25<45:21,  2.02it/s] 49%|████▊     | 5211/10702 [54:25<45:23,  2.02it/s] 49%|████▊     | 5212/10702 [54:26<45:20,  2.02it/s] 49%|████▊     | 5213/10702 [54:26<45:21,  2.02it/s] 49%|████▊     | 5214/10702 [54:27<45:18,  2.02it/s] 49%|████▊     | 5215/10702 [54:27<45:22,  2.02it/s] 49%|████▊     | 5216/10702 [54:28<45:29,  2.01it/s] 49%|████▊     | 5217/10702 [54:28<45:24,  2.01it/s] 49%|████▉     | 5218/10702 [54:29<45:22,  2.01it/s] 49%|████▉     | 5219/10702 [54:29<45:21,  2.01it/s] 49%|████▉     | 5220/10702 [54:30<45:19,  2.02it/s] 49%|████▉     | 5221/10702 [54:30<45:19,  2.02it/s] 49%|████▉     | 5222/10702 [54:31<45:18,  2.02it/s] 49%|████▉     | 5223/10702 [54:31<45:18,  2.02it/s] 49%|████▉     | 5224/10702 [54:31<45:15,  2.02it/s] 49%|████▉     | 5225/10702 [54:32<45:16,  2.02it/s]                                                    {'loss': 3.6903, 'grad_norm': 0.20926213264465332, 'learning_rate': 0.000607054010764738, 'epoch': 0.49}
+ 49%|████▉     | 5225/10702 [54:32<45:16,  2.02it/s] 49%|████▉     | 5226/10702 [54:32<45:13,  2.02it/s] 49%|████▉     | 5227/10702 [54:33<45:14,  2.02it/s] 49%|████▉     | 5228/10702 [54:33<45:13,  2.02it/s] 49%|████▉     | 5229/10702 [54:34<45:12,  2.02it/s] 49%|████▉     | 5230/10702 [54:34<45:13,  2.02it/s] 49%|████▉     | 5231/10702 [54:35<45:14,  2.02it/s] 49%|████▉     | 5232/10702 [54:35<45:11,  2.02it/s] 49%|████▉     | 5233/10702 [54:36<45:09,  2.02it/s] 49%|████▉     | 5234/10702 [54:36<45:10,  2.02it/s] 49%|████▉     | 5235/10702 [54:37<45:08,  2.02it/s] 49%|████▉     | 5236/10702 [54:37<45:07,  2.02it/s] 49%|████▉     | 5237/10702 [54:38<45:06,  2.02it/s] 49%|████▉     | 5238/10702 [54:38<45:04,  2.02it/s] 49%|████▉     | 5239/10702 [54:39<45:03,  2.02it/s] 49%|████▉     | 5240/10702 [54:39<45:03,  2.02it/s] 49%|��███▉     | 5241/10702 [54:40<45:03,  2.02it/s] 49%|████▉     | 5242/10702 [54:40<45:01,  2.02it/s] 49%|████▉     | 5243/10702 [54:41<45:03,  2.02it/s] 49%|████▉     | 5244/10702 [54:41<45:02,  2.02it/s] 49%|████▉     | 5245/10702 [54:42<45:02,  2.02it/s] 49%|████▉     | 5246/10702 [54:42<44:59,  2.02it/s] 49%|████▉     | 5247/10702 [54:43<45:02,  2.02it/s] 49%|████▉     | 5248/10702 [54:43<44:58,  2.02it/s] 49%|████▉     | 5249/10702 [54:44<45:03,  2.02it/s] 49%|████▉     | 5250/10702 [54:44<45:00,  2.02it/s]                                                    {'loss': 3.6902, 'grad_norm': 0.19843855500221252, 'learning_rate': 0.0006030676026634204, 'epoch': 0.49}
+ 49%|████▉     | 5250/10702 [54:44<45:00,  2.02it/s] 49%|████▉     | 5251/10702 [54:45<45:05,  2.02it/s] 49%|████▉     | 5252/10702 [54:45<45:03,  2.02it/s] 49%|████▉     | 5253/10702 [54:46<45:00,  2.02it/s] 49%|████▉     | 5254/10702 [54:46<45:01,  2.02it/s] 49%|████▉     | 5255/10702 [54:47<45:01,  2.02it/s] 49%|████▉     | 5256/10702 [54:47<44:57,  2.02it/s] 49%|████▉     | 5257/10702 [54:48<44:58,  2.02it/s] 49%|████▉     | 5258/10702 [54:48<44:53,  2.02it/s] 49%|████▉     | 5259/10702 [54:49<44:55,  2.02it/s] 49%|████▉     | 5260/10702 [54:49<44:55,  2.02it/s] 49%|████▉     | 5261/10702 [54:50<44:56,  2.02it/s] 49%|████▉     | 5262/10702 [54:50<44:52,  2.02it/s] 49%|████▉     | 5263/10702 [54:51<44:54,  2.02it/s] 49%|████▉     | 5264/10702 [54:51<44:51,  2.02it/s] 49%|████▉     | 5265/10702 [54:52<44:52,  2.02it/s] 49%|████▉     | 5266/10702 [54:52<44:48,  2.02it/s] 49%|████▉     | 5267/10702 [54:53<44:51,  2.02it/s] 49%|████▉     | 5268/10702 [54:53<44:48,  2.02it/s] 49%|████▉     | 5269/10702 [54:54<44:49,  2.02it/s] 49%|████▉     | 5270/10702 [54:54<44:48,  2.02it/s] 49%|████▉     | 5271/10702 [54:55<44:48,  2.02it/s] 49%|████▉     | 5272/10702 [54:55<44:49,  2.02it/s] 49%|████▉     | 5273/10702 [54:56<44:46,  2.02it/s] 49%|████▉     | 5274/10702 [54:56<44:49,  2.02it/s] 49%|████▉     | 5275/10702 [54:57<44:45,  2.02it/s]{'loss': 3.6925, 'grad_norm': 0.18847128748893738, 'learning_rate': 0.0005990743403622271, 'epoch': 0.49}                                                    
+ 49%|████▉     | 5275/10702 [54:57<44:45,  2.02it/s] 49%|████▉     | 5276/10702 [54:57<44:53,  2.01it/s] 49%|████▉     | 5277/10702 [54:58<44:59,  2.01it/s] 49%|████▉     | 5278/10702 [54:58<44:54,  2.01it/s] 49%|████▉     | 5279/10702 [54:59<44:52,  2.01it/s] 49%|████▉     | 5280/10702 [54:59<44:51,  2.01it/s] 49%|████▉     | 5281/10702 [55:00<44:49,  2.02it/s] 49%|████▉     | 5282/10702 [55:00<44:45,  2.02it/s] 49%|████▉     | 5283/10702 [55:01<44:43,  2.02it/s] 49%|████▉     | 5284/10702 [55:01<44:42,  2.02it/s] 49%|████▉     | 5285/10702 [55:02<44:41,  2.02it/s] 49%|████▉     | 5286/10702 [55:02<44:38,  2.02it/s] 49%|████▉     | 5287/10702 [55:03<44:40,  2.02it/s] 49%|████▉     | 5288/10702 [55:03<44:42,  2.02it/s] 49%|████▉     | 5289/10702 [55:04<44:40,  2.02it/s] 49%|████▉     | 5290/10702 [55:04<44:43,  2.02it/s] 49%|████▉     | 5291/10702 [55:05<44:37,  2.02it/s] 49%|████▉     | 5292/10702 [55:05<44:41,  2.02it/s] 49%|████▉     | 5293/10702 [55:06<44:38,  2.02it/s] 49%|████▉     | 5294/10702 [55:06<44:39,  2.02it/s] 49%|████▉     | 5295/10702 [55:07<44:37,  2.02it/s] 49%|████▉     | 5296/10702 [55:07<44:38,  2.02it/s] 49%|████▉     | 5297/10702 [55:08<44:37,  2.02it/s] 50%|████▉     | 5298/10702 [55:08<44:38,  2.02it/s] 50%|████▉     | 5299/10702 [55:09<44:33,  2.02it/s] 50%|████▉     | 5300/10702 [55:09<44:35,  2.02it/s]                                                    {'loss': 3.6857, 'grad_norm': 0.23502330482006073, 'learning_rate': 0.0005950744894210167, 'epoch': 0.5}
+ 50%|████▉     | 5300/10702 [55:09<44:35,  2.02it/s] 50%|████▉     | 5301/10702 [55:10<44:36,  2.02it/s] 50%|████▉     | 5302/10702 [55:10<44:34,  2.02it/s] 50%|████▉     | 5303/10702 [55:11<44:34,  2.02it/s] 50%|████▉     | 5304/10702 [55:11<44:32,  2.02it/s] 50%|████▉     | 5305/10702 [55:12<44:31,  2.02it/s] 50%|████▉     | 5306/10702 [55:12<44:30,  2.02it/s] 50%|████▉     | 5307/10702 [55:13<44:31,  2.02it/s] 50%|████▉     | 5308/10702 [55:13<44:31,  2.02it/s] 50%|████▉     | 5309/10702 [55:14<44:31,  2.02it/s] 50%|████▉     | 5310/10702 [55:14<44:31,  2.02it/s] 50%|████▉     | 5311/10702 [55:15<44:29,  2.02it/s] 50%|████▉     | 5312/10702 [55:15<44:29,  2.02it/s] 50%|████▉     | 5313/10702 [55:16<44:29,  2.02it/s] 50%|████▉     | 5314/10702 [55:16<44:29,  2.02it/s] 50%|████▉     | 5315/10702 [55:17<44:26,  2.02it/s] 50%|████▉     | 5316/10702 [55:17<44:58,  2.00it/s] 50%|████▉     | 5317/10702 [55:18<44:48,  2.00it/s] 50%|████▉     | 5318/10702 [55:18<44:42,  2.01it/s] 50%|████▉     | 5319/10702 [55:19<44:37,  2.01it/s] 50%|████▉     | 5320/10702 [55:19<44:34,  2.01it/s] 50%|████▉     | 5321/10702 [55:20<44:28,  2.02it/s] 50%|████▉     | 5322/10702 [55:20<44:28,  2.02it/s] 50%|████▉     | 5323/10702 [55:21<44:25,  2.02it/s] 50%|████▉     | 5324/10702 [55:21<44:26,  2.02it/s] 50%|████▉     | 5325/10702 [55:22<44:23,  2.02it/s]{'loss': 3.6896, 'grad_norm': 0.2001340240240097, 'learning_rate': 0.0005910683158378052, 'epoch': 0.5}
+                                                     50%|████▉     | 5325/10702 [55:22<44:23,  2.02it/s] 50%|████▉     | 5326/10702 [55:22<44:26,  2.02it/s] 50%|████▉     | 5327/10702 [55:23<44:26,  2.02it/s] 50%|████▉     | 5328/10702 [55:23<44:24,  2.02it/s] 50%|████▉     | 5329/10702 [55:24<44:24,  2.02it/s] 50%|████▉     | 5330/10702 [55:24<44:22,  2.02it/s] 50%|████▉     | 5331/10702 [55:25<44:23,  2.02it/s] 50%|████▉     | 5332/10702 [55:25<44:23,  2.02it/s] 50%|████▉     | 5333/10702 [55:26<44:20,  2.02it/s] 50%|████▉     | 5334/10702 [55:26<44:20,  2.02it/s] 50%|████▉     | 5335/10702 [55:27<44:16,  2.02it/s] 50%|████▉     | 5336/10702 [55:27<44:23,  2.01it/s] 50%|████▉     | 5337/10702 [55:28<44:40,  2.00it/s] 50%|████▉     | 5338/10702 [55:28<44:41,  2.00it/s] 50%|████▉     | 5339/10702 [55:29<44:37,  2.00it/s] 50%|████▉     | 5340/10702 [55:29<44:33,  2.01it/s] 50%|████▉     | 5341/10702 [55:30<44:28,  2.01it/s] 50%|████▉     | 5342/10702 [55:30<44:27,  2.01it/s] 50%|████▉     | 5343/10702 [55:30<44:26,  2.01it/s] 50%|████▉     | 5344/10702 [55:31<44:25,  2.01it/s] 50%|████▉     | 5345/10702 [55:31<44:23,  2.01it/s] 50%|████▉     | 5346/10702 [55:32<44:19,  2.01it/s] 50%|████▉     | 5347/10702 [55:33<52:18,  1.71it/s] 50%|████▉     | 5348/10702 [55:33<49:55,  1.79it/s] 50%|████▉     | 5349/10702 [55:34<48:14,  1.85it/s] 50%|████▉     | 5350/10702 [55:34<47:01,  1.90it/s]{'loss': 3.6891, 'grad_norm': 0.19884677231311798, 'learning_rate': 0.000587056086031077, 'epoch': 0.5}
+                                                     50%|████▉     | 5350/10702 [55:34<47:01,  1.90it/s] 50%|█████     | 5351/10702 [55:35<46:12,  1.93it/s] 50%|█████     | 5352/10702 [55:35<45:36,  1.96it/s] 50%|█████     | 5353/10702 [55:36<45:12,  1.97it/s] 50%|█████     | 5354/10702 [55:36<44:51,  1.99it/s] 50%|█████     | 5355/10702 [55:37<44:39,  2.00it/s] 50%|█████     | 5356/10702 [55:37<44:29,  2.00it/s] 50%|█████     | 5357/10702 [55:38<45:00,  1.98it/s] 50%|█████     | 5358/10702 [55:38<44:48,  1.99it/s] 50%|█████     | 5359/10702 [55:39<44:33,  2.00it/s] 50%|█████     | 5360/10702 [55:39<44:26,  2.00it/s] 50%|█████     | 5361/10702 [55:40<44:17,  2.01it/s] 50%|█████     | 5362/10702 [55:40<44:13,  2.01it/s] 50%|█████     | 5363/10702 [55:41<44:11,  2.01it/s] 50%|█████     | 5364/10702 [55:41<44:07,  2.02it/s] 50%|█████     | 5365/10702 [55:42<44:08,  2.02it/s] 50%|█████     | 5366/10702 [55:42<44:06,  2.02it/s] 50%|█████     | 5367/10702 [55:43<44:07,  2.01it/s] 50%|█████     | 5368/10702 [55:43<44:03,  2.02it/s] 50%|█████     | 5369/10702 [55:44<44:04,  2.02it/s] 50%|█████     | 5370/10702 [55:44<44:06,  2.01it/s] 50%|█████     | 5371/10702 [55:45<51:30,  1.72it/s] 50%|█████     | 5372/10702 [55:45<49:15,  1.80it/s] 50%|█████     | 5373/10702 [55:46<48:13,  1.84it/s] 50%|█████     | 5374/10702 [55:46<46:56,  1.89it/s] 50%|█████     | 5375/10702 [55:47<46:02,  1.93it/s]{'loss': 3.6842, 'grad_norm': 0.19412663578987122, 'learning_rate': 0.0005830380668220667, 'epoch': 0.5}                                                    
+ 50%|█████     | 5375/10702 [55:47<46:02,  1.93it/s] 50%|█████     | 5376/10702 [55:47<45:30,  1.95it/s] 50%|█████     | 5377/10702 [55:48<45:04,  1.97it/s] 50%|█████     | 5378/10702 [55:48<44:42,  1.98it/s] 50%|█████     | 5379/10702 [55:49<44:29,  1.99it/s] 50%|█████     | 5380/10702 [55:49<44:20,  2.00it/s] 50%|█████     | 5381/10702 [55:50<44:14,  2.00it/s] 50%|█████     | 5382/10702 [55:50<44:06,  2.01it/s] 50%|█████     | 5383/10702 [55:51<44:03,  2.01it/s] 50%|█████     | 5384/10702 [55:51<43:57,  2.02it/s] 50%|█████     | 5385/10702 [55:52<43:56,  2.02it/s] 50%|█████     | 5386/10702 [55:52<43:53,  2.02it/s] 50%|█████     | 5387/10702 [55:53<43:53,  2.02it/s] 50%|█████     | 5388/10702 [55:53<43:53,  2.02it/s] 50%|█████     | 5389/10702 [55:54<43:53,  2.02it/s] 50%|█████     | 5390/10702 [55:54<43:53,  2.02it/s] 50%|█████     | 5391/10702 [55:55<43:50,  2.02it/s] 50%|█████     | 5392/10702 [55:55<43:50,  2.02it/s] 50%|█████     | 5393/10702 [55:56<43:48,  2.02it/s] 50%|█████     | 5394/10702 [55:56<43:49,  2.02it/s] 50%|█████     | 5395/10702 [55:57<43:48,  2.02it/s] 50%|█████     | 5396/10702 [55:57<43:55,  2.01it/s] 50%|█████     | 5397/10702 [55:58<43:59,  2.01it/s] 50%|█████     | 5398/10702 [55:58<43:58,  2.01it/s] 50%|█████     | 5399/10702 [55:59<43:52,  2.01it/s] 50%|█████     | 5400/10702 [55:59<43:50,  2.02it/s]                                                    {'loss': 3.6823, 'grad_norm': 0.21234719455242157, 'learning_rate': 0.000579014525417017, 'epoch': 0.5}
+ 50%|█████     | 5400/10702 [55:59<43:50,  2.02it/s] 50%|█████     | 5401/10702 [56:00<43:50,  2.02it/s] 50%|█████     | 5402/10702 [56:00<43:49,  2.02it/s] 50%|█████     | 5403/10702 [56:01<43:46,  2.02it/s] 50%|█████     | 5404/10702 [56:01<43:46,  2.02it/s] 51%|█████     | 5405/10702 [56:02<43:45,  2.02it/s] 51%|█████     | 5406/10702 [56:02<43:43,  2.02it/s] 51%|█████     | 5407/10702 [56:03<43:45,  2.02it/s] 51%|█████     | 5408/10702 [56:03<43:44,  2.02it/s] 51%|█████     | 5409/10702 [56:04<43:44,  2.02it/s] 51%|█████     | 5410/10702 [56:04<43:43,  2.02it/s] 51%|█████     | 5411/10702 [56:05<43:43,  2.02it/s] 51%|█████     | 5412/10702 [56:05<43:41,  2.02it/s] 51%|█████     | 5413/10702 [56:06<43:40,  2.02it/s] 51%|█████     | 5414/10702 [56:06<43:42,  2.02it/s] 51%|█████     | 5415/10702 [56:07<43:38,  2.02it/s] 51%|█████     | 5416/10702 [56:07<43:41,  2.02it/s] 51%|█████     | 5417/10702 [56:08<43:37,  2.02it/s] 51%|█████     | 5418/10702 [56:08<43:39,  2.02it/s] 51%|█████     | 5419/10702 [56:09<43:37,  2.02it/s] 51%|█████     | 5420/10702 [56:09<43:37,  2.02it/s] 51%|█████     | 5421/10702 [56:10<43:36,  2.02it/s] 51%|█████     | 5422/10702 [56:10<43:35,  2.02it/s] 51%|█████     | 5423/10702 [56:11<43:36,  2.02it/s] 51%|█████     | 5424/10702 [56:11<43:32,  2.02it/s] 51%|█████     | 5425/10702 [56:12<43:33,  2.02it/s]                                                    {'loss': 3.6838, 'grad_norm': 0.19566988945007324, 'learning_rate': 0.0005749857293894056, 'epoch': 0.51}
+ 51%|█████     | 5425/10702 [56:12<43:33,  2.02it/s] 51%|█████     | 5426/10702 [56:12<43:36,  2.02it/s] 51%|█████     | 5427/10702 [56:13<43:36,  2.02it/s] 51%|█████     | 5428/10702 [56:13<43:36,  2.02it/s] 51%|█████     | 5429/10702 [56:14<43:34,  2.02it/s] 51%|█████     | 5430/10702 [56:14<43:32,  2.02it/s] 51%|█████     | 5431/10702 [56:15<43:32,  2.02it/s] 51%|█████     | 5432/10702 [56:15<43:34,  2.02it/s] 51%|█████     | 5433/10702 [56:16<43:32,  2.02it/s] 51%|█████     | 5434/10702 [56:16<43:34,  2.02it/s] 51%|█████     | 5435/10702 [56:17<43:30,  2.02it/s] 51%|█████     | 5436/10702 [56:17<43:31,  2.02it/s] 51%|█████     | 5437/10702 [56:18<43:29,  2.02it/s] 51%|█████     | 5438/10702 [56:18<43:28,  2.02it/s] 51%|█████     | 5439/10702 [56:19<43:29,  2.02it/s] 51%|█████     | 5440/10702 [56:19<43:26,  2.02it/s] 51%|█████     | 5441/10702 [56:20<43:26,  2.02it/s] 51%|█████     | 5442/10702 [56:20<43:24,  2.02it/s] 51%|█████     | 5443/10702 [56:21<43:26,  2.02it/s] 51%|█████     | 5444/10702 [56:21<43:23,  2.02it/s] 51%|█████     | 5445/10702 [56:22<43:24,  2.02it/s] 51%|█████     | 5446/10702 [56:22<43:23,  2.02it/s] 51%|█████     | 5447/10702 [56:23<43:23,  2.02it/s] 51%|█████     | 5448/10702 [56:23<43:23,  2.02it/s] 51%|█████     | 5449/10702 [56:24<43:21,  2.02it/s] 51%|█████     | 5450/10702 [56:24<43:22,  2.02it/s]                                                    {'loss': 3.6783, 'grad_norm': 0.2060507982969284, 'learning_rate': 0.0005709519466621551, 'epoch': 0.51}
+ 51%|█████     | 5450/10702 [56:24<43:22,  2.02it/s] 51%|█████     | 5451/10702 [56:25<43:23,  2.02it/s] 51%|█████     | 5452/10702 [56:25<43:23,  2.02it/s] 51%|█████     | 5453/10702 [56:26<43:21,  2.02it/s] 51%|█████     | 5454/10702 [56:26<43:21,  2.02it/s] 51%|█████     | 5455/10702 [56:27<43:20,  2.02it/s] 51%|█████     | 5456/10702 [56:27<43:41,  2.00it/s] 51%|█████     | 5457/10702 [56:28<44:00,  1.99it/s] 51%|█████     | 5458/10702 [56:28<43:54,  1.99it/s] 51%|█████     | 5459/10702 [56:29<43:43,  2.00it/s] 51%|█████     | 5460/10702 [56:29<43:37,  2.00it/s] 51%|█████     | 5461/10702 [56:30<43:38,  2.00it/s] 51%|█████     | 5462/10702 [56:30<43:33,  2.01it/s] 51%|█████     | 5463/10702 [56:31<43:28,  2.01it/s] 51%|█████     | 5464/10702 [56:31<43:26,  2.01it/s] 51%|█████     | 5465/10702 [56:32<43:22,  2.01it/s] 51%|█████     | 5466/10702 [56:32<43:23,  2.01it/s] 51%|█████     | 5467/10702 [56:33<43:24,  2.01it/s] 51%|█████     | 5468/10702 [56:33<43:51,  1.99it/s] 51%|█████     | 5469/10702 [56:34<44:11,  1.97it/s] 51%|█████     | 5470/10702 [56:34<43:55,  1.99it/s] 51%|█████     | 5471/10702 [56:35<43:43,  1.99it/s] 51%|█████     | 5472/10702 [56:35<44:02,  1.98it/s] 51%|█████     | 5473/10702 [56:36<43:47,  1.99it/s] 51%|█████     | 5474/10702 [56:36<43:36,  2.00it/s] 51%|█████     | 5475/10702 [56:37<43:29,  2.00it/s]{'loss': 3.6896, 'grad_norm': 0.20883020758628845, 'learning_rate': 0.000566913445489812, 'epoch': 0.51}
+                                                     51%|█████     | 5475/10702 [56:37<43:29,  2.00it/s] 51%|█████     | 5476/10702 [56:37<43:26,  2.00it/s] 51%|█████     | 5477/10702 [56:38<43:19,  2.01it/s] 51%|█████     | 5478/10702 [56:38<43:20,  2.01it/s] 51%|█████     | 5479/10702 [56:39<43:14,  2.01it/s] 51%|█████     | 5480/10702 [56:39<43:11,  2.01it/s] 51%|█████     | 5481/10702 [56:40<43:07,  2.02it/s] 51%|█████     | 5482/10702 [56:40<43:06,  2.02it/s] 51%|█████     | 5483/10702 [56:41<43:04,  2.02it/s] 51%|█████     | 5484/10702 [56:41<43:04,  2.02it/s] 51%|█████▏    | 5485/10702 [56:42<43:05,  2.02it/s] 51%|█████▏    | 5486/10702 [56:42<43:03,  2.02it/s] 51%|█████▏    | 5487/10702 [56:43<43:02,  2.02it/s] 51%|█████▏    | 5488/10702 [56:43<43:01,  2.02it/s] 51%|█████▏    | 5489/10702 [56:44<43:01,  2.02it/s] 51%|█████▏    | 5490/10702 [56:44<43:08,  2.01it/s] 51%|█████▏    | 5491/10702 [56:45<43:04,  2.02it/s] 51%|█████▏    | 5492/10702 [56:45<43:08,  2.01it/s] 51%|█████▏    | 5493/10702 [56:46<43:04,  2.02it/s] 51%|█████▏    | 5494/10702 [56:46<43:03,  2.02it/s] 51%|█████▏    | 5495/10702 [56:47<43:02,  2.02it/s] 51%|█████▏    | 5496/10702 [56:47<43:00,  2.02it/s] 51%|█████▏    | 5497/10702 [56:48<42:59,  2.02it/s] 51%|█████▏    | 5498/10702 [56:48<42:56,  2.02it/s] 51%|█████▏    | 5499/10702 [56:49<42:56,  2.02it/s] 51%|█████▏    | 5500/10702 [56:49<42:55,  2.02it/s]                                                    {'loss': 3.6785, 'grad_norm': 0.19132289290428162, 'learning_rate': 0.0005628704944407093, 'epoch': 0.51}
+ 51%|█████▏    | 5500/10702 [56:49<42:55,  2.02it/s] 51%|█████▏    | 5501/10702 [56:50<42:58,  2.02it/s] 51%|█████▏    | 5502/10702 [56:50<42:54,  2.02it/s] 51%|█████▏    | 5503/10702 [56:51<42:55,  2.02it/s] 51%|█████▏    | 5504/10702 [56:51<42:51,  2.02it/s] 51%|█████▏    | 5505/10702 [56:52<42:53,  2.02it/s] 51%|█████▏    | 5506/10702 [56:52<42:51,  2.02it/s] 51%|█████▏    | 5507/10702 [56:53<42:51,  2.02it/s] 51%|█████▏    | 5508/10702 [56:53<42:52,  2.02it/s] 51%|█████▏    | 5509/10702 [56:54<42:52,  2.02it/s] 51%|█████▏    | 5510/10702 [56:54<42:55,  2.02it/s] 51%|█████▏    | 5511/10702 [56:55<42:50,  2.02it/s] 52%|█████▏    | 5512/10702 [56:55<42:52,  2.02it/s] 52%|█████▏    | 5513/10702 [56:55<42:50,  2.02it/s] 52%|█████▏    | 5514/10702 [56:56<42:50,  2.02it/s] 52%|█████▏    | 5515/10702 [56:56<42:46,  2.02it/s] 52%|█████▏    | 5516/10702 [56:57<42:53,  2.02it/s] 52%|█████▏    | 5517/10702 [56:57<43:01,  2.01it/s] 52%|█████▏    | 5518/10702 [56:58<43:05,  2.01it/s] 52%|█████▏    | 5519/10702 [56:58<42:58,  2.01it/s] 52%|█████▏    | 5520/10702 [56:59<42:57,  2.01it/s] 52%|█████▏    | 5521/10702 [56:59<42:56,  2.01it/s] 52%|█████▏    | 5522/10702 [57:00<42:54,  2.01it/s] 52%|█████▏    | 5523/10702 [57:00<42:53,  2.01it/s] 52%|█████▏    | 5524/10702 [57:01<42:50,  2.01it/s] 52%|█████▏    | 5525/10702 [57:01<42:49,  2.01it/s]                                                    {'loss': 3.6848, 'grad_norm': 0.2029573619365692, 'learning_rate': 0.000558823362379106, 'epoch': 0.52}
+ 52%|█████▏    | 5525/10702 [57:01<42:49,  2.01it/s] 52%|█████▏    | 5526/10702 [57:02<42:51,  2.01it/s] 52%|█████▏    | 5527/10702 [57:02<42:50,  2.01it/s] 52%|█████▏    | 5528/10702 [57:03<42:51,  2.01it/s] 52%|█████▏    | 5529/10702 [57:03<42:48,  2.01it/s] 52%|█████▏    | 5530/10702 [57:04<42:50,  2.01it/s] 52%|█████▏    | 5531/10702 [57:04<42:49,  2.01it/s] 52%|█████▏    | 5532/10702 [57:05<42:47,  2.01it/s] 52%|█████▏    | 5533/10702 [57:05<42:44,  2.02it/s] 52%|█████▏    | 5534/10702 [57:06<42:47,  2.01it/s] 52%|█████▏    | 5535/10702 [57:06<42:42,  2.02it/s] 52%|█████▏    | 5536/10702 [57:07<42:43,  2.02it/s] 52%|█████▏    | 5537/10702 [57:07<42:41,  2.02it/s] 52%|█████▏    | 5538/10702 [57:08<42:41,  2.02it/s] 52%|█████▏    | 5539/10702 [57:08<42:39,  2.02it/s] 52%|█████▏    | 5540/10702 [57:09<42:39,  2.02it/s] 52%|█████▏    | 5541/10702 [57:09<42:36,  2.02it/s] 52%|█████▏    | 5542/10702 [57:10<42:37,  2.02it/s] 52%|█████▏    | 5543/10702 [57:10<42:35,  2.02it/s] 52%|█████▏    | 5544/10702 [57:11<43:03,  2.00it/s] 52%|█████▏    | 5545/10702 [57:11<42:57,  2.00it/s] 52%|█████▏    | 5546/10702 [57:12<42:49,  2.01it/s] 52%|█████▏    | 5547/10702 [57:12<42:45,  2.01it/s] 52%|█████▏    | 5548/10702 [57:13<42:39,  2.01it/s] 52%|█████▏    | 5549/10702 [57:13<42:37,  2.02it/s] 52%|█████▏    | 5550/10702 [57:14<42:34,  2.02it/s]{'loss': 3.6698, 'grad_norm': 0.20209161937236786, 'learning_rate': 0.000554772318447306, 'epoch': 0.52}
+                                                     52%|█████▏    | 5550/10702 [57:14<42:34,  2.02it/s] 52%|█████▏    | 5551/10702 [57:14<42:36,  2.02it/s] 52%|█████▏    | 5552/10702 [57:15<42:36,  2.01it/s] 52%|█████▏    | 5553/10702 [57:15<42:34,  2.02it/s] 52%|█████▏    | 5554/10702 [57:16<42:34,  2.02it/s] 52%|█████▏    | 5555/10702 [57:16<42:32,  2.02it/s] 52%|█████▏    | 5556/10702 [57:17<42:32,  2.02it/s] 52%|█████▏    | 5557/10702 [57:17<42:33,  2.02it/s] 52%|█████▏    | 5558/10702 [57:18<42:31,  2.02it/s] 52%|█████▏    | 5559/10702 [57:18<42:31,  2.02it/s] 52%|█████▏    | 5560/10702 [57:19<42:32,  2.01it/s] 52%|█████▏    | 5561/10702 [57:19<42:31,  2.01it/s] 52%|█████▏    | 5562/10702 [57:20<42:30,  2.02it/s] 52%|█████▏    | 5563/10702 [57:20<42:29,  2.02it/s] 52%|█████▏    | 5564/10702 [57:21<42:29,  2.01it/s] 52%|█████▏    | 5565/10702 [57:21<42:28,  2.02it/s] 52%|█████▏    | 5566/10702 [57:22<42:28,  2.02it/s] 52%|█████▏    | 5567/10702 [57:22<42:24,  2.02it/s] 52%|█████▏    | 5568/10702 [57:23<42:25,  2.02it/s] 52%|█████▏    | 5569/10702 [57:23<42:23,  2.02it/s] 52%|█████▏    | 5570/10702 [57:24<42:25,  2.02it/s] 52%|█████▏    | 5571/10702 [57:24<42:24,  2.02it/s] 52%|█████▏    | 5572/10702 [57:25<42:24,  2.02it/s] 52%|█████▏    | 5573/10702 [57:25<42:25,  2.02it/s] 52%|█████▏    | 5574/10702 [57:26<42:22,  2.02it/s] 52%|█████▏    | 5575/10702 [57:26<42:36,  2.01it/s]{'loss': 3.6823, 'grad_norm': 0.19215475022792816, 'learning_rate': 0.0005507176320477607, 'epoch': 0.52}
+                                                     52%|█████▏    | 5575/10702 [57:26<42:36,  2.01it/s] 52%|█████▏    | 5576/10702 [57:27<42:33,  2.01it/s] 52%|█████▏    | 5577/10702 [57:27<42:41,  2.00it/s] 52%|█████▏    | 5578/10702 [57:28<42:34,  2.01it/s] 52%|█████▏    | 5579/10702 [57:28<42:31,  2.01it/s] 52%|█████▏    | 5580/10702 [57:29<42:27,  2.01it/s] 52%|█████▏    | 5581/10702 [57:29<42:25,  2.01it/s] 52%|█████▏    | 5582/10702 [57:30<42:23,  2.01it/s] 52%|█████▏    | 5583/10702 [57:30<42:19,  2.02it/s] 52%|█████▏    | 5584/10702 [57:31<42:21,  2.01it/s] 52%|█████▏    | 5585/10702 [57:31<42:19,  2.01it/s] 52%|█████▏    | 5586/10702 [57:32<42:18,  2.02it/s] 52%|█████▏    | 5587/10702 [57:32<42:16,  2.02it/s] 52%|█████▏    | 5588/10702 [57:33<42:15,  2.02it/s] 52%|█████▏    | 5589/10702 [57:33<42:17,  2.02it/s] 52%|█████▏    | 5590/10702 [57:34<42:14,  2.02it/s] 52%|█████▏    | 5591/10702 [57:34<42:15,  2.02it/s] 52%|█████▏    | 5592/10702 [57:35<42:14,  2.02it/s] 52%|█████▏    | 5593/10702 [57:35<42:12,  2.02it/s] 52%|████��▏    | 5594/10702 [57:36<42:12,  2.02it/s] 52%|█████▏    | 5595/10702 [57:36<42:09,  2.02it/s] 52%|█████▏    | 5596/10702 [57:37<42:13,  2.02it/s] 52%|█████▏    | 5597/10702 [57:37<42:14,  2.01it/s] 52%|█████▏    | 5598/10702 [57:38<42:12,  2.02it/s] 52%|█████▏    | 5599/10702 [57:38<42:13,  2.01it/s] 52%|█████▏    | 5600/10702 [57:39<42:10,  2.02it/s]{'loss': 3.6796, 'grad_norm': 0.1942930668592453, 'learning_rate': 0.0005466595728251529, 'epoch': 0.52}
+                                                     52%|█████▏    | 5600/10702 [57:39<42:10,  2.02it/s] 52%|█████▏    | 5601/10702 [57:39<42:13,  2.01it/s] 52%|█████▏    | 5602/10702 [57:40<42:12,  2.01it/s] 52%|█████▏    | 5603/10702 [57:40<42:08,  2.02it/s] 52%|█████▏    | 5604/10702 [57:41<42:07,  2.02it/s] 52%|█████▏    | 5605/10702 [57:41<42:06,  2.02it/s] 52%|█████▏    | 5606/10702 [57:42<42:06,  2.02it/s] 52%|█████▏    | 5607/10702 [57:42<42:05,  2.02it/s] 52%|█████▏    | 5608/10702 [57:43<42:04,  2.02it/s] 52%|█████▏    | 5609/10702 [57:43<42:01,  2.02it/s] 52%|█████▏    | 5610/10702 [57:44<42:03,  2.02it/s] 52%|█████▏    | 5611/10702 [57:44<42:03,  2.02it/s] 52%|█████▏    | 5612/10702 [57:45<42:05,  2.02it/s] 52%|█████▏    | 5613/10702 [57:45<42:05,  2.01it/s] 52%|█████▏    | 5614/10702 [57:46<42:05,  2.01it/s] 52%|█████▏    | 5615/10702 [57:46<42:02,  2.02it/s] 52%|█████▏    | 5616/10702 [57:47<42:02,  2.02it/s] 52%|█████▏    | 5617/10702 [57:47<42:02,  2.02it/s] 52%|█████▏    | 5618/10702 [57:48<42:01,  2.02it/s] 53%|█████▎    | 5619/10702 [57:48<41:59,  2.02it/s] 53%|█████▎    | 5620/10702 [57:49<41:58,  2.02it/s] 53%|█████▎    | 5621/10702 [57:49<41:55,  2.02it/s] 53%|█████▎    | 5622/10702 [57:50<41:56,  2.02it/s] 53%|█████▎    | 5623/10702 [57:50<41:56,  2.02it/s] 53%|█████▎    | 5624/10702 [57:51<41:57,  2.02it/s] 53%|█████▎    | 5625/10702 [57:51<41:56,  2.02it/s]{'loss': 3.6745, 'grad_norm': 0.20377373695373535, 'learning_rate': 0.0005425984106484646, 'epoch': 0.53}
+                                                     53%|█████▎    | 5625/10702 [57:51<41:56,  2.02it/s] 53%|█████▎    | 5626/10702 [57:52<41:58,  2.02it/s] 53%|█████▎    | 5627/10702 [57:52<42:00,  2.01it/s] 53%|█████▎    | 5628/10702 [57:53<41:56,  2.02it/s] 53%|█████▎    | 5629/10702 [57:53<41:54,  2.02it/s] 53%|█████▎    | 5630/10702 [57:54<41:53,  2.02it/s] 53%|█████▎    | 5631/10702 [57:54<41:54,  2.02it/s] 53%|█████▎    | 5632/10702 [57:55<41:51,  2.02it/s] 53%|█████▎    | 5633/10702 [57:55<41:53,  2.02it/s] 53%|█████▎    | 5634/10702 [57:56<41:54,  2.02it/s] 53%|█████▎    | 5635/10702 [57:56<41:51,  2.02it/s] 53%|█████▎    | 5636/10702 [57:57<41:52,  2.02it/s] 53%|█████▎    | 5637/10702 [57:57<41:55,  2.01it/s] 53%|█████▎    | 5638/10702 [57:58<42:02,  2.01it/s] 53%|█████▎    | 5639/10702 [57:58<41:56,  2.01it/s] 53%|█████▎    | 5640/10702 [57:59<41:53,  2.01it/s] 53%|█████▎    | 5641/10702 [57:59<41:50,  2.02it/s] 53%|█████▎    | 5642/10702 [58:00<41:50,  2.02it/s] 53%|█████▎    | 5643/10702 [58:00<41:50,  2.01it/s] 53%|█████▎    | 5644/10702 [58:01<41:48,  2.02it/s] 53%|█████▎    | 5645/10702 [58:01<41:45,  2.02it/s] 53%|█████▎    | 5646/10702 [58:02<41:45,  2.02it/s] 53%|█████▎    | 5647/10702 [58:02<41:43,  2.02it/s] 53%|█████▎    | 5648/10702 [58:02<41:43,  2.02it/s] 53%|█████▎    | 5649/10702 [58:03<41:40,  2.02it/s] 53%|█████▎    | 5650/10702 [58:03<41:40,  2.02it/s]                                                    {'loss': 3.6744, 'grad_norm': 0.20850355923175812, 'learning_rate': 0.0005385344155930304, 'epoch': 0.53}
+ 53%|█████▎    | 5650/10702 [58:03<41:40,  2.02it/s] 53%|█████▎    | 5651/10702 [58:04<41:47,  2.01it/s] 53%|█████▎    | 5652/10702 [58:04<41:43,  2.02it/s] 53%|█████▎    | 5653/10702 [58:05<41:43,  2.02it/s] 53%|█████▎    | 5654/10702 [58:05<41:41,  2.02it/s] 53%|█████▎    | 5655/10702 [58:06<41:41,  2.02it/s] 53%|█████▎    | 5656/10702 [58:06<41:41,  2.02it/s] 53%|█████▎    | 5657/10702 [58:07<41:42,  2.02it/s] 53%|█████▎    | 5658/10702 [58:07<41:41,  2.02it/s] 53%|█████▎    | 5659/10702 [58:08<41:40,  2.02it/s] 53%|█████▎    | 5660/10702 [58:08<41:39,  2.02it/s] 53%|█████▎    | 5661/10702 [58:09<41:39,  2.02it/s] 53%|█████▎    | 5662/10702 [58:09<41:38,  2.02it/s] 53%|█████▎    | 5663/10702 [58:10<41:38,  2.02it/s] 53%|█████▎    | 5664/10702 [58:10<41:35,  2.02it/s] 53%|█████▎    | 5665/10702 [58:11<41:37,  2.02it/s] 53%|█████▎    | 5666/10702 [58:11<41:32,  2.02it/s] 53%|█████▎    | 5667/10702 [58:12<41:35,  2.02it/s] 53%|█████▎    | 5668/10702 [58:12<41:30,  2.02it/s] 53%|█████▎    | 5669/10702 [58:13<41:31,  2.02it/s] 53%|█████▎    | 5670/10702 [58:13<41:31,  2.02it/s] 53%|█████▎    | 5671/10702 [58:14<41:31,  2.02it/s] 53%|█████▎    | 5672/10702 [58:14<41:30,  2.02it/s] 53%|█████▎    | 5673/10702 [58:15<41:31,  2.02it/s] 53%|█████▎    | 5674/10702 [58:15<41:31,  2.02it/s] 53%|█████▎    | 5675/10702 [58:16<41:32,  2.02it/s]                                                    {'loss': 3.6792, 'grad_norm': 0.20233432948589325, 'learning_rate': 0.0005344678579225773, 'epoch': 0.53}
+ 53%|█████▎    | 5675/10702 [58:16<41:32,  2.02it/s] 53%|█████▎    | 5676/10702 [58:16<41:33,  2.02it/s] 53%|█████▎    | 5677/10702 [58:17<41:32,  2.02it/s] 53%|█████▎    | 5678/10702 [58:17<41:30,  2.02it/s] 53%|█████▎    | 5679/10702 [58:18<41:27,  2.02it/s] 53%|█████▎    | 5680/10702 [58:18<41:28,  2.02it/s] 53%|█████▎    | 5681/10702 [58:19<41:30,  2.02it/s] 53%|█████▎    | 5682/10702 [58:19<41:29,  2.02it/s] 53%|█████▎    | 5683/10702 [58:20<41:31,  2.01it/s] 53%|█████▎    | 5684/10702 [58:20<41:30,  2.01it/s] 53%|█████▎    | 5685/10702 [58:21<41:29,  2.01it/s] 53%|█████▎    | 5686/10702 [58:21<41:29,  2.01it/s] 53%|█████▎    | 5687/10702 [58:22<41:29,  2.01it/s] 53%|█████▎    | 5688/10702 [58:22<41:28,  2.02it/s] 53%|█████▎    | 5689/10702 [58:23<41:23,  2.02it/s] 53%|█████▎    | 5690/10702 [58:23<41:24,  2.02it/s] 53%|█████▎    | 5691/10702 [58:24<41:21,  2.02it/s] 53%|█████▎    | 5692/10702 [58:24<41:21,  2.02it/s] 53%|█████▎    | 5693/10702 [58:25<41:19,  2.02it/s] 53%|█████▎    | 5694/10702 [58:25<41:20,  2.02it/s] 53%|█████▎    | 5695/10702 [58:26<41:45,  2.00it/s] 53%|█████▎    | 5696/10702 [58:26<41:37,  2.00it/s] 53%|█████▎    | 5697/10702 [58:27<41:29,  2.01it/s] 53%|█████▎    | 5698/10702 [58:27<41:33,  2.01it/s] 53%|█████▎    | 5699/10702 [58:28<41:33,  2.01it/s] 53%|█████▎    | 5700/10702 [58:28<41:27,  2.01it/s]                                                    {'loss': 3.6736, 'grad_norm': 0.20020772516727448, 'learning_rate': 0.0005303990080712509, 'epoch': 0.53}
+ 53%|█████▎    | 5700/10702 [58:28<41:27,  2.01it/s] 53%|█████▎    | 5701/10702 [58:29<41:26,  2.01it/s] 53%|█████▎    | 5702/10702 [58:29<41:25,  2.01it/s] 53%|█████▎    | 5703/10702 [58:30<41:22,  2.01it/s] 53%|█████▎    | 5704/10702 [58:30<41:23,  2.01it/s] 53%|█████▎    | 5705/10702 [58:31<41:18,  2.02it/s] 53%|█████▎    | 5706/10702 [58:31<41:18,  2.02it/s] 53%|█████▎    | 5707/10702 [58:32<41:16,  2.02it/s] 53%|█████▎    | 5708/10702 [58:32<41:15,  2.02it/s] 53%|█████▎    | 5709/10702 [58:33<41:13,  2.02it/s] 53%|█████▎    | 5710/10702 [58:33<41:14,  2.02it/s] 53%|█████▎    | 5711/10702 [58:34<41:11,  2.02it/s] 53%|█████▎    | 5712/10702 [58:34<41:10,  2.02it/s] 53%|█████▎    | 5713/10702 [58:35<41:10,  2.02it/s] 53%|█████▎    | 5714/10702 [58:35<41:09,  2.02it/s] 53%|█████▎    | 5715/10702 [58:36<41:12,  2.02it/s] 53%|█████▎    | 5716/10702 [58:36<41:09,  2.02it/s] 53%|█████▎    | 5717/10702 [58:37<41:12,  2.02it/s] 53%|█████▎    | 5718/10702 [58:37<41:09,  2.02it/s] 53%|█████▎    | 5719/10702 [58:38<41:10,  2.02it/s] 53%|█████▎    | 5720/10702 [58:38<41:11,  2.02it/s] 53%|█████▎    | 5721/10702 [58:39<41:08,  2.02it/s] 53%|█████▎    | 5722/10702 [58:39<41:10,  2.02it/s] 53%|█████▎    | 5723/10702 [58:40<41:06,  2.02it/s] 53%|█████▎    | 5724/10702 [58:40<41:08,  2.02it/s] 53%|█████▎    | 5725/10702 [58:41<41:07,  2.02it/s]                                                    {'loss': 3.6689, 'grad_norm': 0.19135209918022156, 'learning_rate': 0.0005263281366256316, 'epoch': 0.53}
+ 53%|█████▎    | 5725/10702 [58:41<41:07,  2.02it/s] 54%|█████▎    | 5726/10702 [58:41<41:09,  2.02it/s] 54%|█████▎    | 5727/10702 [58:42<41:10,  2.01it/s] 54%|█████▎    | 5728/10702 [58:42<41:07,  2.02it/s] 54%|█████▎    | 5729/10702 [58:43<41:07,  2.02it/s] 54%|█████▎    | 5730/10702 [58:43<41:04,  2.02it/s] 54%|█████▎    | 5731/10702 [58:44<41:06,  2.02it/s] 54%|█████▎    | 5732/10702 [58:44<41:07,  2.01it/s] 54%|█████▎    | 5733/10702 [58:45<41:03,  2.02it/s] 54%|█████▎    | 5734/10702 [58:45<41:05,  2.01it/s] 54%|█████▎    | 5735/10702 [58:46<41:02,  2.02it/s] 54%|█████▎    | 5736/10702 [58:46<41:04,  2.02it/s] 54%|█████▎    | 5737/10702 [58:47<41:01,  2.02it/s] 54%|█████▎    | 5738/10702 [58:47<41:01,  2.02it/s] 54%|█████▎    | 5739/10702 [58:48<41:00,  2.02it/s] 54%|█████▎    | 5740/10702 [58:48<40:58,  2.02it/s] 54%|█████▎    | 5741/10702 [58:49<41:01,  2.02it/s] 54%|█████▎    | 5742/10702 [58:49<41:02,  2.01it/s] 54%|█████▎    | 5743/10702 [58:50<41:01,  2.01it/s] 54%|█████▎    | 5744/10702 [58:50<41:02,  2.01it/s] 54%|█████▎    | 5745/10702 [58:51<41:01,  2.01it/s] 54%|█████▎    | 5746/10702 [58:51<41:06,  2.01it/s] 54%|█████▎    | 5747/10702 [58:52<41:02,  2.01it/s] 54%|█████▎    | 5748/10702 [58:52<41:02,  2.01it/s] 54%|█████▎    | 5749/10702 [58:53<40:59,  2.01it/s] 54%|█████▎    | 5750/10702 [58:53<40:58,  2.01it/s]                                                    {'loss': 3.6691, 'grad_norm': 0.1998199224472046, 'learning_rate': 0.0005222555143067395, 'epoch': 0.54}
+ 54%|█████▎    | 5750/10702 [58:53<40:58,  2.01it/s] 54%|█████▎    | 5751/10702 [58:54<41:01,  2.01it/s] 54%|█████▎    | 5752/10702 [58:54<41:01,  2.01it/s] 54%|█████▍    | 5753/10702 [58:55<41:00,  2.01it/s] 54%|█████▍    | 5754/10702 [58:55<40:55,  2.02it/s] 54%|█████▍    | 5755/10702 [58:56<40:56,  2.01it/s] 54%|█████▍    | 5756/10702 [58:56<40:54,  2.01it/s] 54%|█████▍    | 5757/10702 [58:57<40:54,  2.01it/s] 54%|█████▍    | 5758/10702 [58:57<40:55,  2.01it/s] 54%|█████▍    | 5759/10702 [58:58<40:58,  2.01it/s] 54%|█████▍    | 5760/10702 [58:58<40:57,  2.01it/s] 54%|█████▍    | 5761/10702 [58:59<40:54,  2.01it/s] 54%|█████▍    | 5762/10702 [58:59<40:52,  2.01it/s] 54%|█████▍    | 5763/10702 [59:00<40:50,  2.02it/s] 54%|█████▍    | 5764/10702 [59:00<40:49,  2.02it/s] 54%|█████▍    | 5765/10702 [59:01<40:49,  2.02it/s] 54%|█████▍    | 5766/10702 [59:01<40:47,  2.02it/s] 54%|█████▍    | 5767/10702 [59:02<40:48,  2.02it/s] 54%|█████▍    | 5768/10702 [59:02<40:46,  2.02it/s] 54%|█████▍    | 5769/10702 [59:03<40:45,  2.02it/s] 54%|█████▍    | 5770/10702 [59:03<40:41,  2.02it/s] 54%|█████▍    | 5771/10702 [59:04<40:45,  2.02it/s] 54%|█████▍    | 5772/10702 [59:04<40:41,  2.02it/s] 54%|█████▍    | 5773/10702 [59:05<40:42,  2.02it/s] 54%|█████▍    | 5774/10702 [59:05<40:40,  2.02it/s] 54%|█████▍    | 5775/10702 [59:05<40:39,  2.02it/s]{'loss': 3.6653, 'grad_norm': 0.19889982044696808, 'learning_rate': 0.0005181814119520316, 'epoch': 0.54}
+                                                     54%|█████▍    | 5775/10702 [59:06<40:39,  2.02it/s] 54%|█████▍    | 5776/10702 [59:06<40:44,  2.02it/s] 54%|█████▍    | 5777/10702 [59:06<40:39,  2.02it/s] 54%|█████▍    | 5778/10702 [59:07<40:42,  2.02it/s] 54%|█████▍    | 5779/10702 [59:07<40:38,  2.02it/s] 54%|█████▍    | 5780/10702 [59:08<40:40,  2.02it/s] 54%|█████▍    | 5781/10702 [59:08<40:39,  2.02it/s] 54%|█████▍    | 5782/10702 [59:09<40:38,  2.02it/s] 54%|█████▍    | 5783/10702 [59:09<40:39,  2.02it/s] 54%|█████▍    | 5784/10702 [59:10<40:36,  2.02it/s] 54%|█████▍    | 5785/10702 [59:10<40:39,  2.02it/s] 54%|█████▍    | 5786/10702 [59:11<40:39,  2.02it/s] 54%|█████▍    | 5787/10702 [59:11<40:36,  2.02it/s] 54%|█████▍    | 5788/10702 [59:12<40:37,  2.02it/s] 54%|█████▍    | 5789/10702 [59:12<40:35,  2.02it/s] 54%|█████▍    | 5790/10702 [59:13<40:35,  2.02it/s] 54%|█████▍    | 5791/10702 [59:13<40:35,  2.02it/s] 54%|█████▍    | 5792/10702 [59:14<40:36,  2.02it/s] 54%|█████▍    | 5793/10702 [59:14<40:37,  2.01it/s] 54%|█████▍    | 5794/10702 [59:15<40:34,  2.02it/s] 54%|█████▍    | 5795/10702 [59:15<40:37,  2.01it/s] 54%|█████▍    | 5796/10702 [59:16<40:35,  2.01it/s] 54%|█████▍    | 5797/10702 [59:16<40:32,  2.02it/s] 54%|█████▍    | 5798/10702 [59:17<40:34,  2.01it/s] 54%|█████▍    | 5799/10702 [59:17<40:30,  2.02it/s] 54%|█████▍    | 5800/10702 [59:18<40:29,  2.02it/s]{'loss': 3.6631, 'grad_norm': 0.20230278372764587, 'learning_rate': 0.0005141061004973901, 'epoch': 0.54}
+                                                     54%|█████▍    | 5800/10702 [59:18<40:29,  2.02it/s] 54%|█████▍    | 5801/10702 [59:18<40:32,  2.01it/s] 54%|█████▍    | 5802/10702 [59:19<40:30,  2.02it/s] 54%|█████▍    | 5803/10702 [59:19<40:29,  2.02it/s] 54%|█████▍    | 5804/10702 [59:20<40:28,  2.02it/s] 54%|█████▍    | 5805/10702 [59:20<40:29,  2.02it/s] 54%|█████▍    | 5806/10702 [59:21<40:28,  2.02it/s] 54%|█████▍    | 5807/10702 [59:21<40:27,  2.02it/s] 54%|█████▍    | 5808/10702 [59:22<40:25,  2.02it/s] 54%|█████▍    | 5809/10702 [59:22<40:25,  2.02it/s] 54%|█████▍    | 5810/10702 [59:23<40:25,  2.02it/s] 54%|█████▍    | 5811/10702 [59:23<40:25,  2.02it/s] 54%|█████▍    | 5812/10702 [59:24<40:24,  2.02it/s] 54%|█████▍    | 5813/10702 [59:24<40:22,  2.02it/s] 54%|█████▍    | 5814/10702 [59:25<40:23,  2.02it/s] 54%|█████▍    | 5815/10702 [59:25<40:22,  2.02it/s] 54%|█████▍    | 5816/10702 [59:26<40:23,  2.02it/s] 54%|█████▍    | 5817/10702 [59:26<40:20,  2.02it/s] 54%|█████▍    | 5818/10702 [59:27<40:20,  2.02it/s] 54%|█████▍    | 5819/10702 [59:27<40:30,  2.01it/s] 54%|█████▍    | 5820/10702 [59:28<40:30,  2.01it/s] 54%|█████▍    | 5821/10702 [59:28<40:24,  2.01it/s] 54%|█████▍    | 5822/10702 [59:29<40:24,  2.01it/s] 54%|█████▍    | 5823/10702 [59:29<40:22,  2.01it/s] 54%|█████▍    | 5824/10702 [59:30<40:21,  2.01it/s] 54%|█████▍    | 5825/10702 [59:30<40:21,  2.01it/s]{'loss': 3.6562, 'grad_norm': 0.19916419684886932, 'learning_rate': 0.0005100298509591048, 'epoch': 0.54}
+                                                     54%|█████▍    | 5825/10702 [59:30<40:21,  2.01it/s] 54%|█████▍    | 5826/10702 [59:31<40:20,  2.01it/s] 54%|█████▍    | 5827/10702 [59:31<40:18,  2.02it/s] 54%|█████▍    | 5828/10702 [59:32<40:15,  2.02it/s] 54%|█████▍    | 5829/10702 [59:32<40:15,  2.02it/s] 54%|█████▍    | 5830/10702 [59:33<40:12,  2.02it/s] 54%|█████▍    | 5831/10702 [59:33<40:12,  2.02it/s] 54%|█████▍    | 5832/10702 [59:34<40:08,  2.02it/s] 55%|█████▍    | 5833/10702 [59:34<40:12,  2.02it/s] 55%|█████▍    | 5834/10702 [59:35<40:10,  2.02it/s] 55%|█████▍    | 5835/10702 [59:35<40:11,  2.02it/s] 55%|█████▍    | 5836/10702 [59:36<40:10,  2.02it/s] 55%|█████▍    | 5837/10702 [59:36<40:11,  2.02it/s] 55%|█████▍    | 5838/10702 [59:37<40:11,  2.02it/s] 55%|█████▍    | 5839/10702 [59:37<40:09,  2.02it/s] 55%|█████▍    | 5840/10702 [59:38<40:09,  2.02it/s] 55%|█████▍    | 5841/10702 [59:38<40:07,  2.02it/s] 55%|█████▍    | 5842/10702 [59:39<40:08,  2.02it/s] 55%|█████▍    | 5843/10702 [59:39<40:07,  2.02it/s] 55%|█████▍    | 5844/10702 [59:40<40:10,  2.02it/s] 55%|█████▍    | 5845/10702 [59:40<40:11,  2.01it/s] 55%|█████▍    | 5846/10702 [59:41<40:09,  2.02it/s] 55%|█████▍    | 5847/10702 [59:41<40:06,  2.02it/s] 55%|█████▍    | 5848/10702 [59:42<40:05,  2.02it/s] 55%|█████▍    | 5849/10702 [59:42<40:03,  2.02it/s] 55%|█████▍    | 5850/10702 [59:43<40:02,  2.02it/s]                                                    {'loss': 3.6612, 'grad_norm': 0.22474676370620728, 'learning_rate': 0.0005059529344158497, 'epoch': 0.55}
+ 55%|█████▍    | 5850/10702 [59:43<40:02,  2.02it/s] 55%|█████▍    | 5851/10702 [59:43<40:04,  2.02it/s] 55%|█████▍    | 5852/10702 [59:44<40:03,  2.02it/s] 55%|█████▍    | 5853/10702 [59:44<40:03,  2.02it/s] 55%|█████▍    | 5854/10702 [59:45<40:02,  2.02it/s] 55%|█████▍    | 5855/10702 [59:45<40:05,  2.02it/s] 55%|█████▍    | 5856/10702 [59:46<40:02,  2.02it/s] 55%|█████▍    | 5857/10702 [59:46<40:01,  2.02it/s] 55%|█████▍    | 5858/10702 [59:47<40:02,  2.02it/s] 55%|█████▍    | 5859/10702 [59:47<40:00,  2.02it/s] 55%|█████▍    | 5860/10702 [59:48<40:25,  2.00it/s] 55%|█████▍    | 5861/10702 [59:48<40:15,  2.00it/s] 55%|█████▍    | 5862/10702 [59:49<40:11,  2.01it/s] 55%|█████▍    | 5863/10702 [59:49<40:05,  2.01it/s] 55%|█████▍    | 5864/10702 [59:50<40:04,  2.01it/s] 55%|█████▍    | 5865/10702 [59:50<40:02,  2.01it/s] 55%|█████▍    | 5866/10702 [59:51<40:00,  2.01it/s] 55%|█████▍    | 5867/10702 [59:51<39:57,  2.02it/s] 55%|█████▍    | 5868/10702 [59:52<39:56,  2.02it/s] 55%|█████▍    | 5869/10702 [59:52<39:57,  2.02it/s] 55%|█████▍    | 5870/10702 [59:53<39:54,  2.02it/s] 55%|█��███▍    | 5871/10702 [59:53<39:55,  2.02it/s] 55%|█████▍    | 5872/10702 [59:54<39:52,  2.02it/s] 55%|█████▍    | 5873/10702 [59:54<39:51,  2.02it/s] 55%|█████▍    | 5874/10702 [59:55<39:51,  2.02it/s] 55%|█████▍    | 5875/10702 [59:55<39:49,  2.02it/s]{'loss': 3.6494, 'grad_norm': 0.2097409963607788, 'learning_rate': 0.0005018756219906562, 'epoch': 0.55}
+                                                     55%|█████▍    | 5875/10702 [59:55<39:49,  2.02it/s] 55%|█████▍    | 5876/10702 [59:56<39:53,  2.02it/s] 55%|█████▍    | 5877/10702 [59:56<39:49,  2.02it/s] 55%|█████▍    | 5878/10702 [59:57<39:50,  2.02it/s] 55%|█████▍    | 5879/10702 [59:57<39:52,  2.02it/s] 55%|█████▍    | 5880/10702 [59:58<39:57,  2.01it/s] 55%|█████▍    | 5881/10702 [59:58<39:56,  2.01it/s] 55%|█████▍    | 5882/10702 [59:59<39:52,  2.01it/s] 55%|█████▍    | 5883/10702 [59:59<39:50,  2.02it/s] 55%|█████▍    | 5884/10702 [1:00:00<39:49,  2.02it/s] 55%|█████▍    | 5885/10702 [1:00:00<39:48,  2.02it/s] 55%|█████▍    | 5886/10702 [1:00:01<39:46,  2.02it/s] 55%|█████▌    | 5887/10702 [1:00:01<39:43,  2.02it/s] 55%|█████▌    | 5888/10702 [1:00:02<39:42,  2.02it/s] 55%|█████▌    | 5889/10702 [1:00:02<39:39,  2.02it/s] 55%|█████▌    | 5890/10702 [1:00:03<40:23,  1.99it/s] 55%|█████▌    | 5891/10702 [1:00:03<40:11,  2.00it/s] 55%|█████▌    | 5892/10702 [1:00:04<40:01,  2.00it/s] 55%|█████▌    | 5893/10702 [1:00:04<39:55,  2.01it/s] 55%|█████▌    | 5894/10702 [1:00:05<39:50,  2.01it/s] 55%|█████▌    | 5895/10702 [1:00:05<39:48,  2.01it/s] 55%|█████▌    | 5896/10702 [1:00:06<39:45,  2.01it/s] 55%|█████▌    | 5897/10702 [1:00:06<39:45,  2.01it/s] 55%|█████▌    | 5898/10702 [1:00:07<39:43,  2.02it/s] 55%|█████▌    | 5899/10702 [1:00:07<39:41,  2.02it/s] 55%|█████▌    | 5900/10702 [1:00:08<39:40,  2.02it/s]{'loss': 3.6549, 'grad_norm': 0.2044331282377243, 'learning_rate': 0.0004977981848328823, 'epoch': 0.55}
+                                                       55%|█████▌    | 5900/10702 [1:00:08<39:40,  2.02it/s] 55%|█████▌    | 5901/10702 [1:00:08<40:19,  1.98it/s] 55%|█████▌    | 5902/10702 [1:00:09<40:06,  1.99it/s] 55%|█████▌    | 5903/10702 [1:00:09<39:58,  2.00it/s] 55%|█████▌    | 5904/10702 [1:00:10<39:51,  2.01it/s] 55%|█████▌    | 5905/10702 [1:00:10<39:48,  2.01it/s] 55%|█████▌    | 5906/10702 [1:00:11<39:44,  2.01it/s] 55%|█████▌    | 5907/10702 [1:00:11<39:41,  2.01it/s] 55%|█████▌    | 5908/10702 [1:00:12<39:37,  2.02it/s] 55%|█████▌    | 5909/10702 [1:00:12<39:36,  2.02it/s] 55%|█████▌    | 5910/10702 [1:00:13<39:34,  2.02it/s] 55%|█████▌    | 5911/10702 [1:00:13<39:32,  2.02it/s] 55%|█████▌    | 5912/10702 [1:00:13<39:30,  2.02it/s] 55%|█████▌    | 5913/10702 [1:00:14<39:30,  2.02it/s] 55%|█████▌    | 5914/10702 [1:00:14<39:30,  2.02it/s] 55%|█████▌    | 5915/10702 [1:00:15<39:27,  2.02it/s] 55%|█████▌    | 5916/10702 [1:00:15<39:32,  2.02it/s] 55%|█████▌    | 5917/10702 [1:00:16<39:27,  2.02it/s] 55%|█████▌    | 5918/10702 [1:00:16<39:29,  2.02it/s] 55%|█████▌    | 5919/10702 [1:00:17<39:28,  2.02it/s] 55%|█████▌    | 5920/10702 [1:00:17<39:28,  2.02it/s] 55%|█████▌    | 5921/10702 [1:00:18<39:25,  2.02it/s] 55%|█████▌    | 5922/10702 [1:00:18<39:26,  2.02it/s] 55%|█████▌    | 5923/10702 [1:00:19<39:25,  2.02it/s] 55%|█████▌    | 5924/10702 [1:00:19<39:28,  2.02it/s] 55%|█████▌    | 5925/10702 [1:00:20<39:26,  2.02it/s]                                                      {'loss': 3.6583, 'grad_norm': 0.20899692177772522, 'learning_rate': 0.0004937208941001817, 'epoch': 0.55}
+ 55%|█████▌    | 5925/10702 [1:00:20<39:26,  2.02it/s] 55%|█████▌    | 5926/10702 [1:00:20<39:29,  2.02it/s] 55%|█████▌    | 5927/10702 [1:00:21<39:28,  2.02it/s] 55%|█████▌    | 5928/10702 [1:00:21<39:25,  2.02it/s] 55%|█████▌    | 5929/10702 [1:00:22<39:26,  2.02it/s] 55%|█████▌    | 5930/10702 [1:00:22<39:23,  2.02it/s] 55%|█████▌    | 5931/10702 [1:00:23<39:22,  2.02it/s] 55%|█████▌    | 5932/10702 [1:00:23<39:21,  2.02it/s] 55%|█████▌    | 5933/10702 [1:00:24<39:20,  2.02it/s] 55%|█████▌    | 5934/10702 [1:00:24<39:20,  2.02it/s] 55%|█████▌    | 5935/10702 [1:00:25<39:17,  2.02it/s] 55%|█████▌    | 5936/10702 [1:00:25<39:21,  2.02it/s] 55%|█████▌    | 5937/10702 [1:00:26<39:19,  2.02it/s] 55%|█████▌    | 5938/10702 [1:00:26<39:22,  2.02it/s] 55%|█████▌    | 5939/10702 [1:00:27<39:19,  2.02it/s] 56%|█████▌    | 5940/10702 [1:00:27<39:27,  2.01it/s] 56%|█████▌    | 5941/10702 [1:00:28<39:30,  2.01it/s] 56%|█████▌    | 5942/10702 [1:00:28<39:23,  2.01it/s] 56%|█████▌    | 5943/10702 [1:00:29<39:22,  2.01it/s] 56%|█████▌    | 5944/10702 [1:00:29<39:21,  2.01it/s] 56%|█████▌    | 5945/10702 [1:00:30<39:19,  2.02it/s] 56%|█████▌    | 5946/10702 [1:00:30<39:19,  2.02it/s] 56%|█████▌    | 5947/10702 [1:00:31<39:16,  2.02it/s] 56%|█████▌    | 5948/10702 [1:00:31<39:15,  2.02it/s] 56%|█████▌    | 5949/10702 [1:00:32<39:13,  2.02it/s] 56%|█████▌    | 5950/10702 [1:00:32<39:14,  2.02it/s]                                                      {'loss': 3.6523, 'grad_norm': 0.19020509719848633, 'learning_rate': 0.0004896440209404696, 'epoch': 0.56}
+ 56%|█████▌    | 5950/10702 [1:00:32<39:14,  2.02it/s] 56%|█████▌    | 5951/10702 [1:00:33<39:16,  2.02it/s] 56%|█████▌    | 5952/10702 [1:00:33<39:14,  2.02it/s] 56%|█████▌    | 5953/10702 [1:00:34<39:15,  2.02it/s] 56%|█████▌    | 5954/10702 [1:00:34<39:12,  2.02it/s] 56%|█████▌    | 5955/10702 [1:00:35<39:12,  2.02it/s] 56%|█████▌    | 5956/10702 [1:00:35<39:12,  2.02it/s] 56%|█████▌    | 5957/10702 [1:00:36<39:11,  2.02it/s] 56%|█████▌    | 5958/10702 [1:00:36<39:11,  2.02it/s] 56%|█████▌    | 5959/10702 [1:00:37<39:10,  2.02it/s] 56%|█████▌    | 5960/10702 [1:00:37<39:11,  2.02it/s] 56%|█████▌    | 5961/10702 [1:00:38<39:09,  2.02it/s] 56%|█████▌    | 5962/10702 [1:00:38<39:09,  2.02it/s] 56%|█████▌    | 5963/10702 [1:00:39<39:06,  2.02it/s] 56%|█████▌    | 5964/10702 [1:00:39<39:05,  2.02it/s] 56%|█████▌    | 5965/10702 [1:00:40<39:06,  2.02it/s] 56%|█████▌    | 5966/10702 [1:00:40<39:06,  2.02it/s] 56%|█████▌    | 5967/10702 [1:00:41<39:05,  2.02it/s] 56%|█████▌    | 5968/10702 [1:00:41<39:06,  2.02it/s] 56%|█████▌    | 5969/10702 [1:00:42<39:03,  2.02it/s] 56%|█████▌    | 5970/10702 [1:00:42<39:04,  2.02it/s] 56%|█████▌    | 5971/10702 [1:00:43<39:02,  2.02it/s] 56%|█████▌    | 5972/10702 [1:00:43<39:01,  2.02it/s] 56%|█████▌    | 5973/10702 [1:00:44<38:59,  2.02it/s] 56%|█████▌    | 5974/10702 [1:00:44<38:59,  2.02it/s] 56%|█████▌    | 5975/10702 [1:00:45<38:59,  2.02it/s]                                                      {'loss': 3.6599, 'grad_norm': 0.1977536380290985, 'learning_rate': 0.00048556783647389233, 'epoch': 0.56}
+ 56%|█████▌    | 5975/10702 [1:00:45<38:59,  2.02it/s] 56%|█████▌    | 5976/10702 [1:00:45<39:03,  2.02it/s] 56%|█████▌    | 5977/10702 [1:00:46<39:02,  2.02it/s] 56%|█████▌    | 5978/10702 [1:00:46<39:01,  2.02it/s] 56%|█████▌    | 5979/10702 [1:00:47<38:59,  2.02it/s] 56%|█████▌    | 5980/10702 [1:00:47<38:59,  2.02it/s] 56%|█████▌    | 5981/10702 [1:00:48<39:01,  2.02it/s] 56%|█████▌    | 5982/10702 [1:00:48<38:59,  2.02it/s] 56%|█████▌    | 5983/10702 [1:00:49<38:59,  2.02it/s] 56%|█████▌    | 5984/10702 [1:00:49<38:58,  2.02it/s] 56%|█████▌    | 5985/10702 [1:00:50<38:57,  2.02it/s] 56%|█████▌    | 5986/10702 [1:00:50<38:56,  2.02it/s] 56%|█████▌    | 5987/10702 [1:00:51<38:55,  2.02it/s] 56%|█████▌    | 5988/10702 [1:00:51<38:53,  2.02it/s] 56%|█████▌    | 5989/10702 [1:00:52<38:53,  2.02it/s] 56%|█████▌    | 5990/10702 [1:00:52<38:54,  2.02it/s] 56%|█████▌    | 5991/10702 [1:00:53<38:53,  2.02it/s] 56%|█████▌    | 5992/10702 [1:00:53<38:56,  2.02it/s] 56%|█████▌    | 5993/10702 [1:00:54<38:51,  2.02it/s] 56%|█████▌    | 5994/10702 [1:00:54<38:52,  2.02it/s] 56%|█████▌    | 5995/10702 [1:00:55<38:53,  2.02it/s] 56%|█████▌    | 5996/10702 [1:00:55<38:53,  2.02it/s] 56%|█████▌    | 5997/10702 [1:00:56<38:56,  2.01it/s] 56%|█████▌    | 5998/10702 [1:00:56<38:54,  2.02it/s] 56%|█████▌    | 5999/10702 [1:00:57<38:53,  2.02it/s] 56%|█████▌    | 6000/10702 [1:00:57<38:56,  2.01it/s]{'loss': 3.651, 'grad_norm': 0.19365134835243225, 'learning_rate': 0.00048149261177479676, 'epoch': 0.56}                                                      
+ 56%|█████▌    | 6000/10702 [1:00:57<38:56,  2.01it/s] 56%|█████▌    | 6001/10702 [1:00:58<39:01,  2.01it/s] 56%|█████▌    | 6002/10702 [1:00:58<38:57,  2.01it/s] 56%|█████▌    | 6003/10702 [1:00:59<38:53,  2.01it/s] 56%|█████▌    | 6004/10702 [1:00:59<38:50,  2.02it/s] 56%|█████▌    | 6005/10702 [1:01:00<38:51,  2.01it/s] 56%|█████▌    | 6006/10702 [1:01:00<38:47,  2.02it/s] 56%|█████▌    | 6007/10702 [1:01:01<38:52,  2.01it/s] 56%|█████▌    | 6008/10702 [1:01:01<38:49,  2.02it/s] 56%|█████▌    | 6009/10702 [1:01:02<38:47,  2.02it/s] 56%|█████▌    | 6010/10702 [1:01:02<38:46,  2.02it/s] 56%|█████▌    | 6011/10702 [1:01:03<38:45,  2.02it/s] 56%|█████▌    | 6012/10702 [1:01:03<38:44,  2.02it/s] 56%|█████▌    | 6013/10702 [1:01:04<38:43,  2.02it/s] 56%|█████▌    | 6014/10702 [1:01:04<38:44,  2.02it/s] 56%|█████▌    | 6015/10702 [1:01:05<38:42,  2.02it/s] 56%|█████▌    | 6016/10702 [1:01:05<38:42,  2.02it/s] 56%|█████▌    | 6017/10702 [1:01:06<38:39,  2.02it/s] 56%|█████▌    | 6018/10702 [1:01:06<38:40,  2.02it/s] 56%|█████▌    | 6019/10702 [1:01:07<38:38,  2.02it/s] 56%|█████▋    | 6020/10702 [1:01:07<38:40,  2.02it/s] 56%|█████▋    | 6021/10702 [1:01:08<38:39,  2.02it/s] 56%|█████▋    | 6022/10702 [1:01:08<38:36,  2.02it/s] 56%|█████▋    | 6023/10702 [1:01:09<38:36,  2.02it/s] 56%|█████▋    | 6024/10702 [1:01:09<38:34,  2.02it/s] 56%|█████▋    | 6025/10702 [1:01:09<38:37,  2.02it/s]{'loss': 3.6676, 'grad_norm': 0.18994176387786865, 'learning_rate': 0.00047741861785370306, 'epoch': 0.56}
+                                                       56%|█████▋    | 6025/10702 [1:01:10<38:37,  2.02it/s] 56%|█████▋    | 6026/10702 [1:01:10<38:40,  2.02it/s] 56%|█████▋    | 6027/10702 [1:01:10<38:37,  2.02it/s] 56%|█████▋    | 6028/10702 [1:01:11<38:37,  2.02it/s] 56%|█████▋    | 6029/10702 [1:01:11<38:35,  2.02it/s] 56%|█████▋    | 6030/10702 [1:01:12<38:36,  2.02it/s] 56%|█████▋    | 6031/10702 [1:01:12<38:35,  2.02it/s] 56%|█████▋    | 6032/10702 [1:01:13<38:37,  2.02it/s] 56%|█████▋    | 6033/10702 [1:01:13<38:34,  2.02it/s] 56%|█████▋    | 6034/10702 [1:01:14<38:33,  2.02it/s] 56%|█████▋    | 6035/10702 [1:01:14<38:33,  2.02it/s] 56%|█████▋    | 6036/10702 [1:01:15<38:34,  2.02it/s] 56%|█████▋    | 6037/10702 [1:01:15<38:31,  2.02it/s] 56%|█████▋    | 6038/10702 [1:01:16<38:30,  2.02it/s] 56%|█████▋    | 6039/10702 [1:01:16<38:27,  2.02it/s] 56%|█████▋    | 6040/10702 [1:01:17<38:27,  2.02it/s] 56%|█████▋    | 6041/10702 [1:01:17<38:26,  2.02it/s] 56%|█████▋    | 6042/10702 [1:01:18<38:24,  2.02it/s] 56%|█████▋    | 6043/10702 [1:01:18<38:26,  2.02it/s] 56%|█████▋    | 6044/10702 [1:01:19<38:25,  2.02it/s] 56%|█████▋    | 6045/10702 [1:01:19<38:28,  2.02it/s] 56%|█████▋    | 6046/10702 [1:01:20<38:26,  2.02it/s] 57%|█████▋    | 6047/10702 [1:01:20<38:26,  2.02it/s] 57%|█████▋    | 6048/10702 [1:01:21<38:25,  2.02it/s] 57%|█████▋    | 6049/10702 [1:01:21<38:25,  2.02it/s] 57%|█████▋    | 6050/10702 [1:01:22<38:25,  2.02it/s]{'loss': 3.6519, 'grad_norm': 0.18785390257835388, 'learning_rate': 0.00047334612563928254, 'epoch': 0.57}
+                                                       57%|█████▋    | 6050/10702 [1:01:22<38:25,  2.02it/s] 57%|█████▋    | 6051/10702 [1:01:22<38:26,  2.02it/s] 57%|█████▋    | 6052/10702 [1:01:23<38:25,  2.02it/s] 57%|█████▋    | 6053/10702 [1:01:23<38:23,  2.02it/s] 57%|█████▋    | 6054/10702 [1:01:24<38:26,  2.02it/s] 57%|█████▋    | 6055/10702 [1:01:24<38:24,  2.02it/s] 57%|█████▋    | 6056/10702 [1:01:25<38:24,  2.02it/s] 57%|█████▋    | 6057/10702 [1:01:25<38:21,  2.02it/s] 57%|█████▋    | 6058/10702 [1:01:26<38:18,  2.02it/s] 57%|█████▋    | 6059/10702 [1:01:26<38:18,  2.02it/s] 57%|█████▋    | 6060/10702 [1:01:27<38:16,  2.02it/s] 57%|█████▋    | 6061/10702 [1:01:27<38:25,  2.01it/s] 57%|█████▋    | 6062/10702 [1:01:28<38:44,  2.00it/s] 57%|█████▋    | 6063/10702 [1:01:28<38:41,  2.00it/s] 57%|█████▋    | 6064/10702 [1:01:29<38:39,  2.00it/s] 57%|█████▋    | 6065/10702 [1:01:29<38:32,  2.00it/s] 57%|█████▋    | 6066/10702 [1:01:30<38:32,  2.01it/s] 57%|█████▋    | 6067/10702 [1:01:31<44:54,  1.72it/s] 57%|█████▋    | 6068/10702 [1:01:31<42:56,  1.80it/s] 57%|█████▋    | 6069/10702 [1:01:32<41:33,  1.86it/s] 57%|█████▋    | 6070/10702 [1:01:32<40:32,  1.90it/s] 57%|█████▋    | 6071/10702 [1:01:33<39:51,  1.94it/s] 57%|█████▋    | 6072/10702 [1:01:33<39:23,  1.96it/s] 57%|█████▋    | 6073/10702 [1:01:34<39:02,  1.98it/s] 57%|█████▋    | 6074/10702 [1:01:34<38:49,  1.99it/s] 57%|█████▋    | 6075/10702 [1:01:35<38:37,  2.00it/s]{'loss': 3.6438, 'grad_norm': 0.2035398632287979, 'learning_rate': 0.0004692754059603394, 'epoch': 0.57}
+                                                       57%|█████▋    | 6075/10702 [1:01:35<38:37,  2.00it/s] 57%|█████▋    | 6076/10702 [1:01:35<38:57,  1.98it/s] 57%|█████▋    | 6077/10702 [1:01:36<38:41,  1.99it/s] 57%|█████▋    | 6078/10702 [1:01:36<38:33,  2.00it/s] 57%|█████▋    | 6079/10702 [1:01:37<38:28,  2.00it/s] 57%|█████▋    | 6080/10702 [1:01:37<38:24,  2.01it/s] 57%|█████▋    | 6081/10702 [1:01:38<38:19,  2.01it/s] 57%|█████▋    | 6082/10702 [1:01:38<38:15,  2.01it/s] 57%|█████▋    | 6083/10702 [1:01:39<38:14,  2.01it/s] 57%|█████▋    | 6084/10702 [1:01:39<38:10,  2.02it/s] 57%|█████▋    | 6085/10702 [1:01:40<38:10,  2.02it/s] 57%|█████▋    | 6086/10702 [1:01:40<38:07,  2.02it/s] 57%|█████▋    | 6087/10702 [1:01:41<38:08,  2.02it/s] 57%|█████▋    | 6088/10702 [1:01:41<38:06,  2.02it/s] 57%|█████▋    | 6089/10702 [1:01:42<38:07,  2.02it/s] 57%|█████▋    | 6090/10702 [1:01:42<38:08,  2.02it/s] 57%|█████▋    | 6091/10702 [1:01:43<38:07,  2.02it/s] 57%|█████▋    | 6092/10702 [1:01:43<44:35,  1.72it/s] 57%|█████▋    | 6093/10702 [1:01:44<42:37,  1.80it/s] 57%|█████▋    | 6094/10702 [1:01:44<41:15,  1.86it/s] 57%|█████▋    | 6095/10702 [1:01:45<40:18,  1.90it/s] 57%|█████▋    | 6096/10702 [1:01:45<39:37,  1.94it/s] 57%|█████▋    | 6097/10702 [1:01:46<39:06,  1.96it/s] 57%|█████▋    | 6098/10702 [1:01:46<38:46,  1.98it/s] 57%|█████▋    | 6099/10702 [1:01:47<38:34,  1.99it/s] 57%|█████▋    | 6100/10702 [1:01:47<38:21,  2.00it/s]{'loss': 3.6534, 'grad_norm': 0.20626038312911987, 'learning_rate': 0.0004652067295278019, 'epoch': 0.57}
+                                                       57%|█████▋    | 6100/10702 [1:01:47<38:21,  2.00it/s] 57%|█████▋    | 6101/10702 [1:01:48<38:17,  2.00it/s] 57%|█████▋    | 6102/10702 [1:01:48<38:09,  2.01it/s] 57%|█████▋    | 6103/10702 [1:01:49<38:06,  2.01it/s] 57%|█████▋    | 6104/10702 [1:01:49<38:02,  2.01it/s] 57%|█████▋    | 6105/10702 [1:01:50<38:02,  2.01it/s] 57%|█████▋    | 6106/10702 [1:01:50<37:57,  2.02it/s] 57%|█████▋    | 6107/10702 [1:01:51<37:59,  2.02it/s] 57%|█████▋    | 6108/10702 [1:01:51<37:57,  2.02it/s] 57%|█████▋    | 6109/10702 [1:01:52<37:54,  2.02it/s] 57%|█████▋    | 6110/10702 [1:01:52<37:55,  2.02it/s] 57%|█████▋    | 6111/10702 [1:01:53<37:53,  2.02it/s] 57%|█████▋    | 6112/10702 [1:01:53<37:52,  2.02it/s] 57%|█████▋    | 6113/10702 [1:01:54<37:51,  2.02it/s] 57%|█████▋    | 6114/10702 [1:01:54<37:51,  2.02it/s] 57%|█████▋    | 6115/10702 [1:01:55<37:49,  2.02it/s] 57%|█████▋    | 6116/10702 [1:01:55<37:50,  2.02it/s] 57%|█████▋    | 6117/10702 [1:01:56<37:48,  2.02it/s] 57%|█████▋    | 6118/10702 [1:01:56<37:49,  2.02it/s] 57%|█████▋    | 6119/10702 [1:01:57<37:46,  2.02it/s] 57%|█████▋    | 6120/10702 [1:01:57<37:53,  2.02it/s] 57%|█████▋    | 6121/10702 [1:01:58<37:58,  2.01it/s] 57%|█████▋    | 6122/10702 [1:01:58<37:54,  2.01it/s] 57%|█████▋    | 6123/10702 [1:01:59<37:53,  2.01it/s] 57%|█████▋    | 6124/10702 [1:01:59<37:48,  2.02it/s] 57%|█████▋    | 6125/10702 [1:02:00<37:49,  2.02it/s]{'loss': 3.6421, 'grad_norm': 0.2015761435031891, 'learning_rate': 0.00046114036691671714, 'epoch': 0.57}
+                                                       57%|█████▋    | 6125/10702 [1:02:00<37:49,  2.02it/s] 57%|█████▋    | 6126/10702 [1:02:00<37:53,  2.01it/s] 57%|█████▋    | 6127/10702 [1:02:01<37:48,  2.02it/s] 57%|█████▋    | 6128/10702 [1:02:01<37:49,  2.02it/s] 57%|█████▋    | 6129/10702 [1:02:02<37:45,  2.02it/s] 57%|█████▋    | 6130/10702 [1:02:02<37:46,  2.02it/s] 57%|█████▋    | 6131/10702 [1:02:03<37:45,  2.02it/s] 57%|█████▋    | 6132/10702 [1:02:03<37:43,  2.02it/s] 57%|█████▋    | 6133/10702 [1:02:04<37:41,  2.02it/s] 57%|█████▋    | 6134/10702 [1:02:04<37:40,  2.02it/s] 57%|█████▋    | 6135/10702 [1:02:05<37:39,  2.02it/s] 57%|█████▋    | 6136/10702 [1:02:05<37:39,  2.02it/s] 57%|█████▋    | 6137/10702 [1:02:06<37:36,  2.02it/s] 57%|█████▋    | 6138/10702 [1:02:06<37:39,  2.02it/s] 57%|█████▋    | 6139/10702 [1:02:07<37:39,  2.02it/s] 57%|█████▋    | 6140/10702 [1:02:07<37:39,  2.02it/s] 57%|█████▋    | 6141/10702 [1:02:08<37:38,  2.02it/s] 57%|█████▋    | 6142/10702 [1:02:08<37:36,  2.02it/s] 57%|█████▋    | 6143/10702 [1:02:09<37:38,  2.02it/s] 57%|█████▋    | 6144/10702 [1:02:09<37:37,  2.02it/s] 57%|█████▋    | 6145/10702 [1:02:10<37:37,  2.02it/s] 57%|█████▋    | 6146/10702 [1:02:10<37:35,  2.02it/s] 57%|█████▋    | 6147/10702 [1:02:11<37:34,  2.02it/s] 57%|█████▋    | 6148/10702 [1:02:11<37:33,  2.02it/s] 57%|█████▋    | 6149/10702 [1:02:12<37:33,  2.02it/s] 57%|█████▋    | 6150/10702 [1:02:12<37:31,  2.02it/s]{'loss': 3.6485, 'grad_norm': 0.20727753639221191, 'learning_rate': 0.000457076588548259, 'epoch': 0.57}
+                                                       57%|█████▋    | 6150/10702 [1:02:12<37:31,  2.02it/s] 57%|█████▋    | 6151/10702 [1:02:13<37:37,  2.02it/s] 57%|█████▋    | 6152/10702 [1:02:13<37:36,  2.02it/s] 57%|█████▋    | 6153/10702 [1:02:14<37:34,  2.02it/s] 58%|█████▊    | 6154/10702 [1:02:14<37:35,  2.02it/s] 58%|█████▊    | 6155/10702 [1:02:15<37:35,  2.02it/s] 58%|█████▊    | 6156/10702 [1:02:15<37:34,  2.02it/s] 58%|█████▊    | 6157/10702 [1:02:16<37:32,  2.02it/s] 58%|█████▊    | 6158/10702 [1:02:16<37:29,  2.02it/s] 58%|█████▊    | 6159/10702 [1:02:17<37:29,  2.02it/s] 58%|█████▊    | 6160/10702 [1:02:17<37:28,  2.02it/s] 58%|█████▊    | 6161/10702 [1:02:17<37:28,  2.02it/s] 58%|█████▊    | 6162/10702 [1:02:18<37:26,  2.02it/s] 58%|█████▊    | 6163/10702 [1:02:18<37:27,  2.02it/s] 58%|█████▊    | 6164/10702 [1:02:19<37:26,  2.02it/s] 58%|█████▊    | 6165/10702 [1:02:19<37:27,  2.02it/s] 58%|█████▊    | 6166/10702 [1:02:20<37:28,  2.02it/s] 58%|█████▊    | 6167/10702 [1:02:20<37:27,  2.02it/s] 58%|█████▊    | 6168/10702 [1:02:21<37:25,  2.02it/s] 58%|█████▊    | 6169/10702 [1:02:21<37:24,  2.02it/s] 58%|█████▊    | 6170/10702 [1:02:22<37:23,  2.02it/s] 58%|█████▊    | 6171/10702 [1:02:22<37:21,  2.02it/s] 58%|█████▊    | 6172/10702 [1:02:23<37:22,  2.02it/s] 58%|█████▊    | 6173/10702 [1:02:23<37:22,  2.02it/s] 58%|█████▊    | 6174/10702 [1:02:24<37:23,  2.02it/s] 58%|█████▊    | 6175/10702 [1:02:24<37:19,  2.02it/s]{'loss': 3.6467, 'grad_norm': 0.20538988709449768, 'learning_rate': 0.00045301566467174443, 'epoch': 0.58}
+                                                       58%|█████▊    | 6175/10702 [1:02:24<37:19,  2.02it/s] 58%|█████▊    | 6176/10702 [1:02:25<37:23,  2.02it/s] 58%|█████▊    | 6177/10702 [1:02:25<37:22,  2.02it/s] 58%|█████▊    | 6178/10702 [1:02:26<37:21,  2.02it/s] 58%|█████▊    | 6179/10702 [1:02:26<37:22,  2.02it/s] 58%|█████▊    | 6180/10702 [1:02:27<37:37,  2.00it/s] 58%|█████▊    | 6181/10702 [1:02:27<37:51,  1.99it/s] 58%|█████▊    | 6182/10702 [1:02:28<37:55,  1.99it/s] 58%|█████▊    | 6183/10702 [1:02:28<37:51,  1.99it/s] 58%|█████▊    | 6184/10702 [1:02:29<37:45,  1.99it/s] 58%|█████▊    | 6185/10702 [1:02:29<37:36,  2.00it/s] 58%|█████▊    | 6186/10702 [1:02:30<37:36,  2.00it/s] 58%|█████▊    | 6187/10702 [1:02:30<37:33,  2.00it/s] 58%|█████▊    | 6188/10702 [1:02:31<37:32,  2.00it/s] 58%|█████▊    | 6189/10702 [1:02:31<37:30,  2.01it/s] 58%|█████▊    | 6190/10702 [1:02:32<37:26,  2.01it/s] 58%|█████▊    | 6191/10702 [1:02:32<37:23,  2.01it/s] 58%|█████▊    | 6192/10702 [1:02:33<37:24,  2.01it/s] 58%|█████▊    | 6193/10702 [1:02:33<37:19,  2.01it/s] 58%|█████▊    | 6194/10702 [1:02:34<37:19,  2.01it/s] 58%|█████▊    | 6195/10702 [1:02:34<37:18,  2.01it/s] 58%|█████▊    | 6196/10702 [1:02:35<37:17,  2.01it/s] 58%|█████▊    | 6197/10702 [1:02:35<37:16,  2.01it/s] 58%|█████▊    | 6198/10702 [1:02:36<37:18,  2.01it/s] 58%|█████▊    | 6199/10702 [1:02:36<37:15,  2.01it/s] 58%|█████▊    | 6200/10702 [1:02:37<37:16,  2.01it/s]{'loss': 3.6488, 'grad_norm': 0.2034054547548294, 'learning_rate': 0.0004489578653466606, 'epoch': 0.58}                                                      
+ 58%|█████▊    | 6200/10702 [1:02:37<37:16,  2.01it/s] 58%|█████▊    | 6201/10702 [1:02:37<37:16,  2.01it/s] 58%|█████▊    | 6202/10702 [1:02:38<37:15,  2.01it/s] 58%|█████▊    | 6203/10702 [1:02:38<37:15,  2.01it/s] 58%|█████▊    | 6204/10702 [1:02:39<37:12,  2.01it/s] 58%|█████▊    | 6205/10702 [1:02:39<37:13,  2.01it/s] 58%|█████▊    | 6206/10702 [1:02:40<37:12,  2.01it/s] 58%|█████▊    | 6207/10702 [1:02:40<37:10,  2.02it/s] 58%|█████▊    | 6208/10702 [1:02:41<37:11,  2.01it/s] 58%|█████▊    | 6209/10702 [1:02:41<37:09,  2.02it/s] 58%|█████▊    | 6210/10702 [1:02:42<37:11,  2.01it/s] 58%|█████▊    | 6211/10702 [1:02:42<37:08,  2.02it/s] 58%|█████▊    | 6212/10702 [1:02:43<37:08,  2.01it/s] 58%|█████▊    | 6213/10702 [1:02:43<37:08,  2.01it/s] 58%|█████▊    | 6214/10702 [1:02:44<37:06,  2.02it/s] 58%|█████▊    | 6215/10702 [1:02:44<37:35,  1.99it/s] 58%|█████▊    | 6216/10702 [1:02:45<37:25,  2.00it/s] 58%|█████▊    | 6217/10702 [1:02:45<37:21,  2.00it/s] 58%|█████▊    | 6218/10702 [1:02:46<37:16,  2.01it/s] 58%|█████▊    | 6219/10702 [1:02:46<37:10,  2.01it/s] 58%|█████▊    | 6220/10702 [1:02:47<37:07,  2.01it/s] 58%|█████▊    | 6221/10702 [1:02:47<37:03,  2.02it/s] 58%|█████▊    | 6222/10702 [1:02:48<37:04,  2.01it/s] 58%|█████▊    | 6223/10702 [1:02:48<36:59,  2.02it/s] 58%|█████▊    | 6224/10702 [1:02:49<37:00,  2.02it/s] 58%|█████▊    | 6225/10702 [1:02:49<37:01,  2.02it/s]{'loss': 3.6477, 'grad_norm': 0.20160184800624847, 'learning_rate': 0.00044490346042470576, 'epoch': 0.58}
+                                                       58%|█████▊    | 6225/10702 [1:02:49<37:01,  2.02it/s] 58%|█████▊    | 6226/10702 [1:02:50<37:01,  2.01it/s] 58%|█████▊    | 6227/10702 [1:02:50<37:01,  2.01it/s] 58%|█████▊    | 6228/10702 [1:02:51<37:00,  2.01it/s] 58%|█████▊    | 6229/10702 [1:02:51<36:59,  2.02it/s] 58%|█████▊    | 6230/10702 [1:02:52<36:55,  2.02it/s] 58%|█████▊    | 6231/10702 [1:02:52<36:53,  2.02it/s] 58%|█████▊    | 6232/10702 [1:02:53<36:56,  2.02it/s] 58%|█████▊    | 6233/10702 [1:02:53<36:54,  2.02it/s] 58%|█████▊    | 6234/10702 [1:02:54<36:54,  2.02it/s] 58%|█████▊    | 6235/10702 [1:02:54<36:53,  2.02it/s] 58%|█████▊    | 6236/10702 [1:02:55<36:52,  2.02it/s] 58%|█████▊    | 6237/10702 [1:02:55<36:50,  2.02it/s] 58%|█████▊    | 6238/10702 [1:02:56<36:52,  2.02it/s] 58%|█████▊    | 6239/10702 [1:02:56<36:50,  2.02it/s] 58%|█████▊    | 6240/10702 [1:02:57<36:50,  2.02it/s] 58%|█████▊    | 6241/10702 [1:02:57<37:07,  2.00it/s] 58%|█████▊    | 6242/10702 [1:02:58<37:16,  1.99it/s] 58%|█████▊    | 6243/10702 [1:02:58<37:10,  2.00it/s] 58%|█████▊    | 6244/10702 [1:02:59<37:06,  2.00it/s] 58%|█████▊    | 6245/10702 [1:02:59<37:04,  2.00it/s] 58%|█████▊    | 6246/10702 [1:03:00<37:04,  2.00it/s] 58%|█████▊    | 6247/10702 [1:03:00<36:59,  2.01it/s] 58%|█████▊    | 6248/10702 [1:03:01<36:58,  2.01it/s] 58%|█████▊    | 6249/10702 [1:03:01<36:56,  2.01it/s] 58%|█████▊    | 6250/10702 [1:03:02<36:52,  2.01it/s]{'loss': 3.644, 'grad_norm': 0.20837649703025818, 'learning_rate': 0.0004408527195318437, 'epoch': 0.58}
+                                                       58%|█████▊    | 6250/10702 [1:03:02<36:52,  2.01it/s] 58%|█████▊    | 6251/10702 [1:03:02<36:56,  2.01it/s] 58%|█████▊    | 6252/10702 [1:03:03<36:53,  2.01it/s] 58%|█████▊    | 6253/10702 [1:03:03<36:51,  2.01it/s] 58%|█████▊    | 6254/10702 [1:03:04<36:52,  2.01it/s] 58%|█████▊    | 6255/10702 [1:03:04<36:51,  2.01it/s] 58%|█████▊    | 6256/10702 [1:03:05<36:47,  2.01it/s] 58%|█████▊    | 6257/10702 [1:03:05<36:46,  2.01it/s] 58%|█████▊    | 6258/10702 [1:03:06<36:44,  2.02it/s] 58%|█████▊    | 6259/10702 [1:03:06<36:44,  2.02it/s] 58%|█████▊    | 6260/10702 [1:03:07<36:43,  2.02it/s] 59%|█████▊    | 6261/10702 [1:03:07<36:44,  2.01it/s] 59%|█████▊    | 6262/10702 [1:03:08<36:42,  2.02it/s] 59%|█████▊    | 6263/10702 [1:03:08<36:43,  2.01it/s] 59%|█████▊    | 6264/10702 [1:03:09<36:40,  2.02it/s] 59%|█████▊    | 6265/10702 [1:03:09<36:40,  2.02it/s] 59%|█████▊    | 6266/10702 [1:03:10<36:40,  2.02it/s] 59%|█████▊    | 6267/10702 [1:03:10<36:38,  2.02it/s] 59%|█████▊    | 6268/10702 [1:03:11<36:39,  2.02it/s] 59%|█████▊    | 6269/10702 [1:03:11<36:36,  2.02it/s] 59%|█████▊    | 6270/10702 [1:03:12<36:36,  2.02it/s] 59%|█████▊    | 6271/10702 [1:03:12<36:36,  2.02it/s] 59%|█████▊    | 6272/10702 [1:03:13<36:34,  2.02it/s] 59%|█████▊    | 6273/10702 [1:03:13<36:32,  2.02it/s] 59%|█████▊    | 6274/10702 [1:03:14<36:30,  2.02it/s] 59%|█████▊    | 6275/10702 [1:03:14<36:35,  2.02it/s]{'loss': 3.6417, 'grad_norm': 0.20173482596874237, 'learning_rate': 0.00043680591205037334, 'epoch': 0.59}
+                                                       59%|█████▊    | 6275/10702 [1:03:14<36:35,  2.02it/s] 59%|█████▊    | 6276/10702 [1:03:15<36:35,  2.02it/s] 59%|█████▊    | 6277/10702 [1:03:15<36:35,  2.02it/s] 59%|█████▊    | 6278/10702 [1:03:16<36:33,  2.02it/s] 59%|█████▊    | 6279/10702 [1:03:16<36:31,  2.02it/s] 59%|█████▊    | 6280/10702 [1:03:17<36:31,  2.02it/s] 59%|█████▊    | 6281/10702 [1:03:17<36:28,  2.02it/s] 59%|█████▊    | 6282/10702 [1:03:18<36:30,  2.02it/s] 59%|█████▊    | 6283/10702 [1:03:18<36:28,  2.02it/s] 59%|█████▊    | 6284/10702 [1:03:19<36:28,  2.02it/s] 59%|█████▊    | 6285/10702 [1:03:19<36:27,  2.02it/s] 59%|█████▊    | 6286/10702 [1:03:20<36:28,  2.02it/s] 59%|█████▊    | 6287/10702 [1:03:20<36:28,  2.02it/s] 59%|█████▉    | 6288/10702 [1:03:21<36:31,  2.01it/s] 59%|█████▉    | 6289/10702 [1:03:21<36:28,  2.02it/s] 59%|█████▉    | 6290/10702 [1:03:22<36:28,  2.02it/s] 59%|█████▉    | 6291/10702 [1:03:22<36:25,  2.02it/s] 59%|█████▉    | 6292/10702 [1:03:23<36:26,  2.02it/s] 59%|█████▉    | 6293/10702 [1:03:23<36:25,  2.02it/s] 59%|█████▉    | 6294/10702 [1:03:24<36:26,  2.02it/s] 59%|█████▉    | 6295/10702 [1:03:24<36:24,  2.02it/s] 59%|█████▉    | 6296/10702 [1:03:25<36:25,  2.02it/s] 59%|█████▉    | 6297/10702 [1:03:25<36:22,  2.02it/s] 59%|█████▉    | 6298/10702 [1:03:26<36:26,  2.01it/s] 59%|█████▉    | 6299/10702 [1:03:26<36:22,  2.02it/s] 59%|█████▉    | 6300/10702 [1:03:27<36:22,  2.02it/s]{'loss': 3.6424, 'grad_norm': 0.21453136205673218, 'learning_rate': 0.00043276330710101364, 'epoch': 0.59}
+                                                       59%|█████▉    | 6300/10702 [1:03:27<36:22,  2.02it/s] 59%|█████▉    | 6301/10702 [1:03:27<36:28,  2.01it/s] 59%|█████▉    | 6302/10702 [1:03:28<36:31,  2.01it/s] 59%|█████▉    | 6303/10702 [1:03:28<36:37,  2.00it/s] 59%|█████▉    | 6304/10702 [1:03:29<36:34,  2.00it/s] 59%|█████▉    | 6305/10702 [1:03:29<36:33,  2.00it/s] 59%|█████▉    | 6306/10702 [1:03:30<36:29,  2.01it/s] 59%|█████▉    | 6307/10702 [1:03:30<36:30,  2.01it/s] 59%|█████▉    | 6308/10702 [1:03:31<36:26,  2.01it/s] 59%|█████▉    | 6309/10702 [1:03:31<36:23,  2.01it/s] 59%|█████▉    | 6310/10702 [1:03:32<36:22,  2.01it/s] 59%|█████▉    | 6311/10702 [1:03:32<36:20,  2.01it/s] 59%|█████▉    | 6312/10702 [1:03:33<36:21,  2.01it/s] 59%|█████▉    | 6313/10702 [1:03:33<36:23,  2.01it/s] 59%|█████▉    | 6314/10702 [1:03:34<36:18,  2.01it/s] 59%|█████▉    | 6315/10702 [1:03:34<36:19,  2.01it/s] 59%|█████▉    | 6316/10702 [1:03:34<36:16,  2.02it/s] 59%|█████▉    | 6317/10702 [1:03:35<36:17,  2.01it/s] 59%|█████▉    | 6318/10702 [1:03:35<36:14,  2.02it/s] 59%|█████▉    | 6319/10702 [1:03:36<36:13,  2.02it/s] 59%|█████▉    | 6320/10702 [1:03:36<36:16,  2.01it/s] 59%|█████▉    | 6321/10702 [1:03:37<36:15,  2.01it/s] 59%|█████▉    | 6322/10702 [1:03:37<36:14,  2.01it/s] 59%|█████▉    | 6323/10702 [1:03:38<36:14,  2.01it/s] 59%|█████▉    | 6324/10702 [1:03:38<36:11,  2.02it/s] 59%|█████▉    | 6325/10702 [1:03:39<36:12,  2.01it/s]                                                      {'loss': 3.6441, 'grad_norm': 0.19479738175868988, 'learning_rate': 0.00042872517352500667, 'epoch': 0.59}
+ 59%|█████▉    | 6325/10702 [1:03:39<36:12,  2.01it/s] 59%|█████▉    | 6326/10702 [1:03:39<36:13,  2.01it/s] 59%|█████▉    | 6327/10702 [1:03:40<36:11,  2.01it/s] 59%|█████▉    | 6328/10702 [1:03:40<36:11,  2.01it/s] 59%|█████▉    | 6329/10702 [1:03:41<36:10,  2.01it/s] 59%|█████▉    | 6330/10702 [1:03:41<36:11,  2.01it/s] 59%|█████▉    | 6331/10702 [1:03:42<36:09,  2.01it/s] 59%|█████▉    | 6332/10702 [1:03:42<36:06,  2.02it/s] 59%|█████▉    | 6333/10702 [1:03:43<36:08,  2.01it/s] 59%|█████▉    | 6334/10702 [1:03:43<36:04,  2.02it/s] 59%|█████▉    | 6335/10702 [1:03:44<36:06,  2.02it/s] 59%|█████▉    | 6336/10702 [1:03:44<36:06,  2.02it/s] 59%|█████▉    | 6337/10702 [1:03:45<36:04,  2.02it/s] 59%|█████▉    | 6338/10702 [1:03:45<36:04,  2.02it/s] 59%|█████▉    | 6339/10702 [1:03:46<36:02,  2.02it/s] 59%|█████▉    | 6340/10702 [1:03:46<36:02,  2.02it/s] 59%|████��▉    | 6341/10702 [1:03:47<36:01,  2.02it/s] 59%|█████▉    | 6342/10702 [1:03:47<36:01,  2.02it/s] 59%|█████▉    | 6343/10702 [1:03:48<36:00,  2.02it/s] 59%|█████▉    | 6344/10702 [1:03:48<35:59,  2.02it/s] 59%|█████▉    | 6345/10702 [1:03:49<36:00,  2.02it/s] 59%|█████▉    | 6346/10702 [1:03:49<35:58,  2.02it/s] 59%|█████▉    | 6347/10702 [1:03:50<36:00,  2.02it/s] 59%|█████▉    | 6348/10702 [1:03:50<35:59,  2.02it/s] 59%|█████▉    | 6349/10702 [1:03:51<35:59,  2.02it/s] 59%|█████▉    | 6350/10702 [1:03:51<35:56,  2.02it/s]                                                      {'loss': 3.629, 'grad_norm': 0.20239229500293732, 'learning_rate': 0.00042469177986624, 'epoch': 0.59}
+ 59%|█████▉    | 6350/10702 [1:03:51<35:56,  2.02it/s] 59%|█████▉    | 6351/10702 [1:03:52<35:56,  2.02it/s] 59%|█████▉    | 6352/10702 [1:03:52<35:57,  2.02it/s] 59%|█████▉    | 6353/10702 [1:03:53<35:56,  2.02it/s] 59%|█████▉    | 6354/10702 [1:03:53<35:56,  2.02it/s] 59%|█████▉    | 6355/10702 [1:03:54<35:56,  2.02it/s] 59%|█████▉    | 6356/10702 [1:03:54<35:55,  2.02it/s] 59%|█████▉    | 6357/10702 [1:03:55<35:54,  2.02it/s] 59%|█████▉    | 6358/10702 [1:03:55<35:52,  2.02it/s] 59%|█████▉    | 6359/10702 [1:03:56<35:53,  2.02it/s] 59%|█████▉    | 6360/10702 [1:03:56<35:52,  2.02it/s] 59%|█████▉    | 6361/10702 [1:03:57<35:52,  2.02it/s] 59%|█████▉    | 6362/10702 [1:03:57<35:56,  2.01it/s] 59%|█████▉    | 6363/10702 [1:03:58<36:00,  2.01it/s] 59%|█████▉    | 6364/10702 [1:03:58<35:56,  2.01it/s] 59%|█████▉    | 6365/10702 [1:03:59<35:54,  2.01it/s] 59%|█████▉    | 6366/10702 [1:03:59<35:52,  2.01it/s] 59%|█████▉    | 6367/10702 [1:04:00<35:52,  2.01it/s] 60%|█████▉    | 6368/10702 [1:04:00<35:48,  2.02it/s] 60%|█████▉    | 6369/10702 [1:04:01<35:47,  2.02it/s] 60%|█████▉    | 6370/10702 [1:04:01<35:45,  2.02it/s] 60%|█████▉    | 6371/10702 [1:04:02<35:46,  2.02it/s] 60%|█████▉    | 6372/10702 [1:04:02<35:43,  2.02it/s] 60%|█████▉    | 6373/10702 [1:04:03<35:45,  2.02it/s] 60%|█████▉    | 6374/10702 [1:04:03<35:43,  2.02it/s] 60%|█████▉    | 6375/10702 [1:04:04<35:44,  2.02it/s]                                                      {'loss': 3.6363, 'grad_norm': 0.21457752585411072, 'learning_rate': 0.0004206633943533864, 'epoch': 0.6}
+ 60%|█████▉    | 6375/10702 [1:04:04<35:44,  2.02it/s] 60%|█████▉    | 6376/10702 [1:04:04<35:46,  2.02it/s] 60%|█████▉    | 6377/10702 [1:04:05<35:43,  2.02it/s] 60%|█████▉    | 6378/10702 [1:04:05<35:43,  2.02it/s] 60%|█████▉    | 6379/10702 [1:04:06<35:41,  2.02it/s] 60%|█████▉    | 6380/10702 [1:04:06<35:42,  2.02it/s] 60%|█████▉    | 6381/10702 [1:04:07<35:42,  2.02it/s] 60%|█████▉    | 6382/10702 [1:04:07<35:41,  2.02it/s] 60%|█████▉    | 6383/10702 [1:04:08<35:40,  2.02it/s] 60%|█████▉    | 6384/10702 [1:04:08<36:06,  1.99it/s] 60%|█████▉    | 6385/10702 [1:04:09<36:13,  1.99it/s] 60%|█████▉    | 6386/10702 [1:04:09<36:28,  1.97it/s] 60%|█████▉    | 6387/10702 [1:04:10<36:29,  1.97it/s] 60%|█████▉    | 6388/10702 [1:04:10<36:30,  1.97it/s] 60%|█████▉    | 6389/10702 [1:04:11<36:34,  1.96it/s] 60%|█████▉    | 6390/10702 [1:04:11<36:20,  1.98it/s] 60%|█████▉    | 6391/10702 [1:04:12<36:06,  1.99it/s] 60%|█████▉    | 6392/10702 [1:04:12<35:55,  2.00it/s] 60%|█████▉    | 6393/10702 [1:04:13<35:50,  2.00it/s] 60%|█████▉    | 6394/10702 [1:04:13<35:43,  2.01it/s] 60%|█████▉    | 6395/10702 [1:04:14<35:40,  2.01it/s] 60%|█████▉    | 6396/10702 [1:04:14<35:36,  2.02it/s] 60%|█████▉    | 6397/10702 [1:04:15<35:35,  2.02it/s] 60%|█████▉    | 6398/10702 [1:04:15<35:35,  2.02it/s] 60%|█████▉    | 6399/10702 [1:04:16<35:32,  2.02it/s] 60%|█████▉    | 6400/10702 [1:04:16<35:31,  2.02it/s]{'loss': 3.6343, 'grad_norm': 0.19710271060466766, 'learning_rate': 0.0004166402848820676, 'epoch': 0.6}
+                                                       60%|█████▉    | 6400/10702 [1:04:16<35:31,  2.02it/s] 60%|█████▉    | 6401/10702 [1:04:17<35:33,  2.02it/s] 60%|█████▉    | 6402/10702 [1:04:17<35:34,  2.01it/s] 60%|█████▉    | 6403/10702 [1:04:18<35:31,  2.02it/s] 60%|█████▉    | 6404/10702 [1:04:18<35:29,  2.02it/s] 60%|█████▉    | 6405/10702 [1:04:19<35:28,  2.02it/s] 60%|█████▉    | 6406/10702 [1:04:19<35:27,  2.02it/s] 60%|█████▉    | 6407/10702 [1:04:20<35:25,  2.02it/s] 60%|█████▉    | 6408/10702 [1:04:20<35:24,  2.02it/s] 60%|█████▉    | 6409/10702 [1:04:21<35:26,  2.02it/s] 60%|█████▉    | 6410/10702 [1:04:21<35:23,  2.02it/s] 60%|█████▉    | 6411/10702 [1:04:22<35:24,  2.02it/s] 60%|█████▉    | 6412/10702 [1:04:22<35:22,  2.02it/s] 60%|█████▉    | 6413/10702 [1:04:23<35:23,  2.02it/s] 60%|█████▉    | 6414/10702 [1:04:23<35:22,  2.02it/s] 60%|█████▉    | 6415/10702 [1:04:24<35:23,  2.02it/s] 60%|█████▉    | 6416/10702 [1:04:24<35:20,  2.02it/s] 60%|█████▉    | 6417/10702 [1:04:25<35:22,  2.02it/s] 60%|█████▉    | 6418/10702 [1:04:25<35:21,  2.02it/s] 60%|█████▉    | 6419/10702 [1:04:26<35:21,  2.02it/s] 60%|█████▉    | 6420/10702 [1:04:26<35:20,  2.02it/s] 60%|█████▉    | 6421/10702 [1:04:27<35:19,  2.02it/s] 60%|██████    | 6422/10702 [1:04:27<35:35,  2.00it/s] 60%|██████    | 6423/10702 [1:04:28<35:43,  2.00it/s] 60%|██████    | 6424/10702 [1:04:28<35:43,  2.00it/s] 60%|██████    | 6425/10702 [1:04:29<35:37,  2.00it/s]                                                      {'loss': 3.6296, 'grad_norm': 0.20716699957847595, 'learning_rate': 0.00041262271899703787, 'epoch': 0.6}
+ 60%|██████    | 6425/10702 [1:04:29<35:37,  2.00it/s] 60%|██████    | 6426/10702 [1:04:29<35:35,  2.00it/s] 60%|██████    | 6427/10702 [1:04:30<35:32,  2.00it/s] 60%|██████    | 6428/10702 [1:04:30<35:28,  2.01it/s] 60%|██████    | 6429/10702 [1:04:31<35:26,  2.01it/s] 60%|██████    | 6430/10702 [1:04:31<35:22,  2.01it/s] 60%|██████    | 6431/10702 [1:04:32<35:21,  2.01it/s] 60%|██████    | 6432/10702 [1:04:32<35:23,  2.01it/s] 60%|██████    | 6433/10702 [1:04:33<35:20,  2.01it/s] 60%|██████    | 6434/10702 [1:04:33<35:20,  2.01it/s] 60%|██████    | 6435/10702 [1:04:34<35:16,  2.02it/s] 60%|██████    | 6436/10702 [1:04:34<35:17,  2.01it/s] 60%|██████    | 6437/10702 [1:04:35<35:15,  2.02it/s] 60%|██████    | 6438/10702 [1:04:35<35:13,  2.02it/s] 60%|██████    | 6439/10702 [1:04:36<35:13,  2.02it/s] 60%|██████    | 6440/10702 [1:04:36<35:15,  2.02it/s] 60%|██████    | 6441/10702 [1:04:37<35:14,  2.01it/s] 60%|██████    | 6442/10702 [1:04:37<35:14,  2.01it/s] 60%|██████    | 6443/10702 [1:04:38<35:12,  2.02it/s] 60%|██████    | 6444/10702 [1:04:38<35:11,  2.02it/s] 60%|██████    | 6445/10702 [1:04:39<35:12,  2.02it/s] 60%|██████    | 6446/10702 [1:04:39<35:10,  2.02it/s] 60%|██████    | 6447/10702 [1:04:40<35:09,  2.02it/s] 60%|██████    | 6448/10702 [1:04:40<35:06,  2.02it/s] 60%|██████    | 6449/10702 [1:04:41<35:06,  2.02it/s] 60%|██████    | 6450/10702 [1:04:41<35:06,  2.02it/s]{'loss': 3.6325, 'grad_norm': 0.19326236844062805, 'learning_rate': 0.00040861096387439236, 'epoch': 0.6}
+                                                       60%|██████    | 6450/10702 [1:04:41<35:06,  2.02it/s] 60%|██████    | 6451/10702 [1:04:42<35:09,  2.01it/s] 60%|██████    | 6452/10702 [1:04:42<35:08,  2.02it/s] 60%|██████    | 6453/10702 [1:04:43<35:06,  2.02it/s] 60%|██████    | 6454/10702 [1:04:43<35:07,  2.02it/s] 60%|██████    | 6455/10702 [1:04:44<35:04,  2.02it/s] 60%|██████    | 6456/10702 [1:04:44<35:03,  2.02it/s] 60%|██████    | 6457/10702 [1:04:45<35:02,  2.02it/s] 60%|██████    | 6458/10702 [1:04:45<35:02,  2.02it/s] 60%|██████    | 6459/10702 [1:04:46<35:01,  2.02it/s] 60%|██████    | 6460/10702 [1:04:46<35:00,  2.02it/s] 60%|██████    | 6461/10702 [1:04:47<35:01,  2.02it/s] 60%|██████    | 6462/10702 [1:04:47<34:58,  2.02it/s] 60%|██████    | 6463/10702 [1:04:48<34:59,  2.02it/s] 60%|██████    | 6464/10702 [1:04:48<34:59,  2.02it/s] 60%|██████    | 6465/10702 [1:04:48<34:58,  2.02it/s] 60%|██████    | 6466/10702 [1:04:49<34:58,  2.02it/s] 60%|██████    | 6467/10702 [1:04:49<34:58,  2.02it/s] 60%|██████    | 6468/10702 [1:04:50<34:58,  2.02it/s] 60%|██████    | 6469/10702 [1:04:50<34:56,  2.02it/s] 60%|██████    | 6470/10702 [1:04:51<34:56,  2.02it/s] 60%|██████    | 6471/10702 [1:04:51<34:55,  2.02it/s] 60%|██████    | 6472/10702 [1:04:52<34:55,  2.02it/s] 60%|██████    | 6473/10702 [1:04:52<34:55,  2.02it/s] 60%|██████    | 6474/10702 [1:04:53<34:54,  2.02it/s] 61%|██████    | 6475/10702 [1:04:53<34:54,  2.02it/s]                                                      {'loss': 3.6396, 'grad_norm': 0.2018604427576065, 'learning_rate': 0.0004046052863037986, 'epoch': 0.61}
+ 61%|██████    | 6475/10702 [1:04:53<34:54,  2.02it/s] 61%|██████    | 6476/10702 [1:04:54<34:55,  2.02it/s] 61%|██████    | 6477/10702 [1:04:54<34:54,  2.02it/s] 61%|██████    | 6478/10702 [1:04:55<34:52,  2.02it/s] 61%|██████    | 6479/10702 [1:04:55<34:52,  2.02it/s] 61%|██████    | 6480/10702 [1:04:56<34:51,  2.02it/s] 61%|██████    | 6481/10702 [1:04:56<34:51,  2.02it/s] 61%|██████    | 6482/10702 [1:04:57<34:50,  2.02it/s] 61%|██████    | 6483/10702 [1:04:57<35:13,  2.00it/s] 61%|██████    | 6484/10702 [1:04:58<35:15,  1.99it/s] 61%|██████    | 6485/10702 [1:04:58<35:08,  2.00it/s] 61%|██████    | 6486/10702 [1:04:59<35:04,  2.00it/s] 61%|██████    | 6487/10702 [1:04:59<35:02,  2.01it/s] 61%|██████    | 6488/10702 [1:05:00<34:57,  2.01it/s] 61%|██████    | 6489/10702 [1:05:00<34:58,  2.01it/s] 61%|██████    | 6490/10702 [1:05:01<34:56,  2.01it/s] 61%|██████    | 6491/10702 [1:05:01<34:51,  2.01it/s] 61%|██████    | 6492/10702 [1:05:02<34:52,  2.01it/s] 61%|██████    | 6493/10702 [1:05:02<34:47,  2.02it/s] 61%|██████    | 6494/10702 [1:05:03<34:49,  2.01it/s] 61%|██████    | 6495/10702 [1:05:03<34:47,  2.02it/s] 61%|██████    | 6496/10702 [1:05:04<34:45,  2.02it/s] 61%|██████    | 6497/10702 [1:05:04<34:44,  2.02it/s] 61%|██████    | 6498/10702 [1:05:05<34:42,  2.02it/s] 61%|██████    | 6499/10702 [1:05:05<34:47,  2.01it/s] 61%|██████    | 6500/10702 [1:05:06<34:45,  2.01it/s]{'loss': 3.6268, 'grad_norm': 0.19757473468780518, 'learning_rate': 0.00040060595267075473, 'epoch': 0.61}
+                                                       61%|██████    | 6500/10702 [1:05:06<34:45,  2.01it/s] 61%|██████    | 6501/10702 [1:05:06<34:46,  2.01it/s] 61%|██████    | 6502/10702 [1:05:07<34:44,  2.02it/s] 61%|██████    | 6503/10702 [1:05:07<34:42,  2.02it/s] 61%|██████    | 6504/10702 [1:05:08<34:43,  2.01it/s] 61%|██████    | 6505/10702 [1:05:08<34:43,  2.01it/s] 61%|██████    | 6506/10702 [1:05:09<34:41,  2.02it/s] 61%|██████    | 6507/10702 [1:05:09<34:38,  2.02it/s] 61%|██████    | 6508/10702 [1:05:10<34:39,  2.02it/s] 61%|██████    | 6509/10702 [1:05:10<34:41,  2.01it/s] 61%|██████    | 6510/10702 [1:05:11<34:38,  2.02it/s] 61%|██████    | 6511/10702 [1:05:11<34:38,  2.02it/s] 61%|██████    | 6512/10702 [1:05:12<34:35,  2.02it/s] 61%|██████    | 6513/10702 [1:05:12<34:36,  2.02it/s] 61%|██████    | 6514/10702 [1:05:13<34:38,  2.02it/s] 61%|██████    | 6515/10702 [1:05:13<34:37,  2.02it/s] 61%|██████    | 6516/10702 [1:05:14<34:35,  2.02it/s] 61%|██████    | 6517/10702 [1:05:14<34:35,  2.02it/s] 61%|██████    | 6518/10702 [1:05:15<34:37,  2.01it/s] 61%|██████    | 6519/10702 [1:05:15<34:35,  2.02it/s] 61%|██████    | 6520/10702 [1:05:16<34:34,  2.02it/s] 61%|██████    | 6521/10702 [1:05:16<34:32,  2.02it/s] 61%|██████    | 6522/10702 [1:05:17<34:31,  2.02it/s] 61%|██████    | 6523/10702 [1:05:17<34:31,  2.02it/s] 61%|██████    | 6524/10702 [1:05:18<34:32,  2.02it/s] 61%|██████    | 6525/10702 [1:05:18<34:30,  2.02it/s]                                                      {'loss': 3.6341, 'grad_norm': 0.20528678596019745, 'learning_rate': 0.0003966132289388753, 'epoch': 0.61}
+ 61%|██████    | 6525/10702 [1:05:18<34:30,  2.02it/s] 61%|██████    | 6526/10702 [1:05:19<34:34,  2.01it/s] 61%|██████    | 6527/10702 [1:05:19<34:31,  2.02it/s] 61%|██████    | 6528/10702 [1:05:20<34:30,  2.02it/s] 61%|██████    | 6529/10702 [1:05:20<34:28,  2.02it/s] 61%|██████    | 6530/10702 [1:05:21<34:26,  2.02it/s] 61%|██████    | 6531/10702 [1:05:21<34:26,  2.02it/s] 61%|██████    | 6532/10702 [1:05:22<34:26,  2.02it/s] 61%|██████    | 6533/10702 [1:05:22<34:24,  2.02it/s] 61%|██████    | 6534/10702 [1:05:23<34:25,  2.02it/s] 61%|██████    | 6535/10702 [1:05:23<34:25,  2.02it/s] 61%|██████    | 6536/10702 [1:05:24<34:24,  2.02it/s] 61%|██████    | 6537/10702 [1:05:24<34:23,  2.02it/s] 61%|██████    | 6538/10702 [1:05:25<34:23,  2.02it/s] 61%|██████    | 6539/10702 [1:05:25<34:25,  2.02it/s] 61%|██████    | 6540/10702 [1:05:26<34:22,  2.02it/s] 61%|██████    | 6541/10702 [1:05:26<34:20,  2.02it/s] 61%|██████    | 6542/10702 [1:05:27<34:18,  2.02it/s] 61%|█��████    | 6543/10702 [1:05:27<34:26,  2.01it/s] 61%|██████    | 6544/10702 [1:05:28<34:42,  2.00it/s] 61%|██████    | 6545/10702 [1:05:28<34:38,  2.00it/s] 61%|██████    | 6546/10702 [1:05:29<34:32,  2.01it/s] 61%|██████    | 6547/10702 [1:05:29<34:30,  2.01it/s] 61%|██████    | 6548/10702 [1:05:30<34:29,  2.01it/s] 61%|██████    | 6549/10702 [1:05:30<34:25,  2.01it/s] 61%|██████    | 6550/10702 [1:05:31<34:23,  2.01it/s]{'loss': 3.6272, 'grad_norm': 0.19220741093158722, 'learning_rate': 0.00039262738063220235, 'epoch': 0.61}
+                                                       61%|██████    | 6550/10702 [1:05:31<34:23,  2.01it/s] 61%|██████    | 6551/10702 [1:05:31<34:25,  2.01it/s] 61%|██████    | 6552/10702 [1:05:32<34:21,  2.01it/s] 61%|██████    | 6553/10702 [1:05:32<34:23,  2.01it/s] 61%|██████    | 6554/10702 [1:05:33<34:19,  2.01it/s] 61%|██████▏   | 6555/10702 [1:05:33<34:19,  2.01it/s] 61%|██████▏   | 6556/10702 [1:05:34<34:19,  2.01it/s] 61%|██████▏   | 6557/10702 [1:05:34<34:17,  2.01it/s] 61%|██████▏   | 6558/10702 [1:05:35<34:16,  2.01it/s] 61%|██████▏   | 6559/10702 [1:05:35<34:13,  2.02it/s] 61%|██████▏   | 6560/10702 [1:05:36<34:13,  2.02it/s] 61%|██████▏   | 6561/10702 [1:05:36<34:11,  2.02it/s] 61%|██████▏   | 6562/10702 [1:05:37<34:09,  2.02it/s] 61%|██████▏   | 6563/10702 [1:05:37<34:10,  2.02it/s] 61%|██████▏   | 6564/10702 [1:05:38<34:08,  2.02it/s] 61%|██████▏   | 6565/10702 [1:05:38<34:08,  2.02it/s] 61%|██████▏   | 6566/10702 [1:05:39<34:06,  2.02it/s] 61%|██████▏   | 6567/10702 [1:05:39<34:09,  2.02it/s] 61%|██████▏   | 6568/10702 [1:05:40<34:06,  2.02it/s] 61%|██████▏   | 6569/10702 [1:05:40<34:08,  2.02it/s] 61%|██████▏   | 6570/10702 [1:05:41<34:06,  2.02it/s] 61%|██████▏   | 6571/10702 [1:05:41<34:07,  2.02it/s] 61%|██████▏   | 6572/10702 [1:05:42<34:06,  2.02it/s] 61%|██████▏   | 6573/10702 [1:05:42<34:06,  2.02it/s] 61%|██████▏   | 6574/10702 [1:05:43<34:04,  2.02it/s] 61%|██████▏   | 6575/10702 [1:05:43<34:03,  2.02it/s]                                                      {'loss': 3.629, 'grad_norm': 0.2034057080745697, 'learning_rate': 0.000388648672817549, 'epoch': 0.61}
+ 61%|██████▏   | 6575/10702 [1:05:43<34:03,  2.02it/s] 61%|██████▏   | 6576/10702 [1:05:44<34:05,  2.02it/s] 61%|██████▏   | 6577/10702 [1:05:44<34:03,  2.02it/s] 61%|██████▏   | 6578/10702 [1:05:45<34:03,  2.02it/s] 61%|██████▏   | 6579/10702 [1:05:45<34:01,  2.02it/s] 61%|██████▏   | 6580/10702 [1:05:46<34:03,  2.02it/s] 61%|██████▏   | 6581/10702 [1:05:46<34:00,  2.02it/s] 62%|██████▏   | 6582/10702 [1:05:47<34:00,  2.02it/s] 62%|██████▏   | 6583/10702 [1:05:47<33:59,  2.02it/s] 62%|██████▏   | 6584/10702 [1:05:48<33:59,  2.02it/s] 62%|██████▏   | 6585/10702 [1:05:48<33:57,  2.02it/s] 62%|██████▏   | 6586/10702 [1:05:49<33:57,  2.02it/s] 62%|██████▏   | 6587/10702 [1:05:49<33:58,  2.02it/s] 62%|██████▏   | 6588/10702 [1:05:50<33:57,  2.02it/s] 62%|██████▏   | 6589/10702 [1:05:50<33:58,  2.02it/s] 62%|██████▏   | 6590/10702 [1:05:51<33:57,  2.02it/s] 62%|██████▏   | 6591/10702 [1:05:51<33:56,  2.02it/s] 62%|██████▏   | 6592/10702 [1:05:52<33:55,  2.02it/s] 62%|██████▏   | 6593/10702 [1:05:52<33:55,  2.02it/s] 62%|██████▏   | 6594/10702 [1:05:52<33:54,  2.02it/s] 62%|██████▏   | 6595/10702 [1:05:53<33:53,  2.02it/s] 62%|██████▏   | 6596/10702 [1:05:53<33:51,  2.02it/s] 62%|██████▏   | 6597/10702 [1:05:54<33:52,  2.02it/s] 62%|██████▏   | 6598/10702 [1:05:54<33:50,  2.02it/s] 62%|██████▏   | 6599/10702 [1:05:55<33:49,  2.02it/s] 62%|██████▏   | 6600/10702 [1:05:55<33:48,  2.02it/s]                                                      {'loss': 3.6306, 'grad_norm': 0.1941932737827301, 'learning_rate': 0.0003846773700868714, 'epoch': 0.62}
+ 62%|██████▏   | 6600/10702 [1:05:55<33:48,  2.02it/s] 62%|██████▏   | 6601/10702 [1:05:56<33:52,  2.02it/s] 62%|██████▏   | 6602/10702 [1:05:56<33:51,  2.02it/s] 62%|██████▏   | 6603/10702 [1:05:57<33:52,  2.02it/s] 62%|██████▏   | 6604/10702 [1:05:57<33:56,  2.01it/s] 62%|██████▏   | 6605/10702 [1:05:58<34:03,  2.00it/s] 62%|██████▏   | 6606/10702 [1:05:58<34:01,  2.01it/s] 62%|██████▏   | 6607/10702 [1:05:59<33:59,  2.01it/s] 62%|██████▏   | 6608/10702 [1:05:59<33:58,  2.01it/s] 62%|██████▏   | 6609/10702 [1:06:00<33:58,  2.01it/s] 62%|██████▏   | 6610/10702 [1:06:00<33:54,  2.01it/s] 62%|██████▏   | 6611/10702 [1:06:01<33:54,  2.01it/s] 62%|██████▏   | 6612/10702 [1:06:01<33:51,  2.01it/s] 62%|██████▏   | 6613/10702 [1:06:02<33:52,  2.01it/s] 62%|██████▏   | 6614/10702 [1:06:02<33:51,  2.01it/s] 62%|██████▏   | 6615/10702 [1:06:03<34:13,  1.99it/s] 62%|██████▏   | 6616/10702 [1:06:03<34:04,  2.00it/s] 62%|██████▏   | 6617/10702 [1:06:04<33:57,  2.00it/s] 62%|██████▏   | 6618/10702 [1:06:04<33:55,  2.01it/s] 62%|██████▏   | 6619/10702 [1:06:05<33:50,  2.01it/s] 62%|██████▏   | 6620/10702 [1:06:05<33:49,  2.01it/s] 62%|██████▏   | 6621/10702 [1:06:06<33:49,  2.01it/s] 62%|██████▏   | 6622/10702 [1:06:06<33:46,  2.01it/s] 62%|██████▏   | 6623/10702 [1:06:07<33:47,  2.01it/s] 62%|██████▏   | 6624/10702 [1:06:07<33:42,  2.02it/s] 62%|██████▏   | 6625/10702 [1:06:08<33:42,  2.02it/s]                                                      {'loss': 3.626, 'grad_norm': 0.19457606971263885, 'learning_rate': 0.00038071373653967335, 'epoch': 0.62}
+ 62%|██████▏   | 6625/10702 [1:06:08<33:42,  2.02it/s] 62%|██████▏   | 6626/10702 [1:06:08<33:46,  2.01it/s] 62%|██████▏   | 6627/10702 [1:06:09<33:41,  2.02it/s] 62%|██████▏   | 6628/10702 [1:06:09<33:41,  2.02it/s] 62%|██████▏   | 6629/10702 [1:06:10<33:38,  2.02it/s] 62%|██████▏   | 6630/10702 [1:06:10<33:38,  2.02it/s] 62%|██████▏   | 6631/10702 [1:06:11<33:41,  2.01it/s] 62%|██████▏   | 6632/10702 [1:06:11<33:39,  2.02it/s] 62%|██████▏   | 6633/10702 [1:06:12<33:37,  2.02it/s] 62%|██████▏   | 6634/10702 [1:06:12<33:34,  2.02it/s] 62%|██████▏   | 6635/10702 [1:06:13<33:37,  2.02it/s] 62%|██████▏   | 6636/10702 [1:06:13<33:34,  2.02it/s] 62%|██████▏   | 6637/10702 [1:06:14<33:35,  2.02it/s] 62%|██████▏   | 6638/10702 [1:06:14<33:34,  2.02it/s] 62%|██████▏   | 6639/10702 [1:06:15<33:35,  2.02it/s] 62%|██████▏   | 6640/10702 [1:06:15<33:35,  2.02it/s] 62%|██████▏   | 6641/10702 [1:06:16<33:32,  2.02it/s] 62%|██████▏   | 6642/10702 [1:06:16<33:32,  2.02it/s] 62%|██████▏   | 6643/10702 [1:06:17<33:32,  2.02it/s] 62%|██████▏   | 6644/10702 [1:06:17<33:32,  2.02it/s] 62%|██████▏   | 6645/10702 [1:06:18<33:30,  2.02it/s] 62%|██████▏   | 6646/10702 [1:06:18<33:30,  2.02it/s] 62%|██████▏   | 6647/10702 [1:06:19<33:31,  2.02it/s] 62%|██████▏   | 6648/10702 [1:06:19<33:28,  2.02it/s] 62%|██████▏   | 6649/10702 [1:06:20<33:27,  2.02it/s] 62%|██████▏   | 6650/10702 [1:06:20<33:26,  2.02it/s]                                                      {'loss': 3.6247, 'grad_norm': 0.20374128222465515, 'learning_rate': 0.00037675803576544186, 'epoch': 0.62}
+ 62%|██████▏   | 6650/10702 [1:06:20<33:26,  2.02it/s] 62%|██████▏   | 6651/10702 [1:06:21<33:30,  2.01it/s] 62%|██████▏   | 6652/10702 [1:06:21<33:27,  2.02it/s] 62%|██████▏   | 6653/10702 [1:06:22<33:26,  2.02it/s] 62%|██████▏   | 6654/10702 [1:06:22<33:23,  2.02it/s] 62%|██████▏   | 6655/10702 [1:06:23<33:24,  2.02it/s] 62%|██████▏   | 6656/10702 [1:06:23<33:21,  2.02it/s] 62%|██████▏   | 6657/10702 [1:06:24<33:22,  2.02it/s] 62%|██████▏   | 6658/10702 [1:06:24<33:22,  2.02it/s] 62%|██████▏   | 6659/10702 [1:06:25<33:23,  2.02it/s] 62%|██████▏   | 6660/10702 [1:06:25<33:22,  2.02it/s] 62%|██████▏   | 6661/10702 [1:06:26<33:22,  2.02it/s] 62%|██████▏   | 6662/10702 [1:06:26<33:22,  2.02it/s] 62%|██████▏   | 6663/10702 [1:06:27<33:21,  2.02it/s] 62%|██████▏   | 6664/10702 [1:06:27<33:38,  2.00it/s] 62%|██████▏   | 6665/10702 [1:06:28<33:55,  1.98it/s] 62%|██████▏   | 6666/10702 [1:06:28<33:46,  1.99it/s] 62%|██████▏   | 6667/10702 [1:06:29<33:41,  2.00it/s] 62%|██████▏   | 6668/10702 [1:06:29<33:36,  2.00it/s] 62%|██████▏   | 6669/10702 [1:06:30<33:31,  2.01it/s] 62%|██████▏   | 6670/10702 [1:06:30<33:29,  2.01it/s] 62%|██████▏   | 6671/10702 [1:06:31<33:29,  2.01it/s] 62%|██████▏   | 6672/10702 [1:06:31<33:25,  2.01it/s] 62%|██████▏   | 6673/10702 [1:06:32<33:24,  2.01it/s] 62%|██████▏   | 6674/10702 [1:06:32<33:23,  2.01it/s] 62%|█��████▏   | 6675/10702 [1:06:33<33:21,  2.01it/s]{'loss': 3.6171, 'grad_norm': 0.19335709512233734, 'learning_rate': 0.0003728105308261196, 'epoch': 0.62}
+                                                       62%|██████▏   | 6675/10702 [1:06:33<33:21,  2.01it/s] 62%|██████▏   | 6676/10702 [1:06:33<33:21,  2.01it/s] 62%|██████▏   | 6677/10702 [1:06:34<33:21,  2.01it/s] 62%|██████▏   | 6678/10702 [1:06:34<33:19,  2.01it/s] 62%|██████▏   | 6679/10702 [1:06:35<33:20,  2.01it/s] 62%|██████▏   | 6680/10702 [1:06:35<33:17,  2.01it/s] 62%|██████▏   | 6681/10702 [1:06:36<33:14,  2.02it/s] 62%|██████▏   | 6682/10702 [1:06:36<33:15,  2.01it/s] 62%|██████▏   | 6683/10702 [1:06:37<33:13,  2.02it/s] 62%|██████▏   | 6684/10702 [1:06:37<33:14,  2.01it/s] 62%|██████▏   | 6685/10702 [1:06:38<33:12,  2.02it/s] 62%|██████▏   | 6686/10702 [1:06:38<33:13,  2.01it/s] 62%|██████▏   | 6687/10702 [1:06:39<33:12,  2.02it/s] 62%|██████▏   | 6688/10702 [1:06:39<33:11,  2.02it/s] 63%|██████▎   | 6689/10702 [1:06:40<33:08,  2.02it/s] 63%|██████▎   | 6690/10702 [1:06:40<33:09,  2.02it/s] 63%|██████▎   | 6691/10702 [1:06:41<33:07,  2.02it/s] 63%|██████▎   | 6692/10702 [1:06:41<33:08,  2.02it/s] 63%|██████▎   | 6693/10702 [1:06:42<33:12,  2.01it/s] 63%|██████▎   | 6694/10702 [1:06:42<33:10,  2.01it/s] 63%|██████▎   | 6695/10702 [1:06:43<33:09,  2.01it/s] 63%|██████▎   | 6696/10702 [1:06:43<33:07,  2.02it/s] 63%|██████▎   | 6697/10702 [1:06:44<33:08,  2.01it/s] 63%|██████▎   | 6698/10702 [1:06:44<33:05,  2.02it/s] 63%|██████▎   | 6699/10702 [1:06:45<33:06,  2.02it/s] 63%|██████▎   | 6700/10702 [1:06:45<33:06,  2.01it/s]                                                      {'loss': 3.6199, 'grad_norm': 0.2010238617658615, 'learning_rate': 0.0003688714842386095, 'epoch': 0.63}
+ 63%|██████▎   | 6700/10702 [1:06:45<33:06,  2.01it/s] 63%|██████▎   | 6701/10702 [1:06:46<33:08,  2.01it/s] 63%|██████▎   | 6702/10702 [1:06:46<33:06,  2.01it/s] 63%|██████▎   | 6703/10702 [1:06:47<33:03,  2.02it/s] 63%|██████▎   | 6704/10702 [1:06:47<33:02,  2.02it/s] 63%|██████▎   | 6705/10702 [1:06:48<32:59,  2.02it/s] 63%|██████▎   | 6706/10702 [1:06:48<32:59,  2.02it/s] 63%|██████▎   | 6707/10702 [1:06:49<32:59,  2.02it/s] 63%|██████▎   | 6708/10702 [1:06:49<33:01,  2.02it/s] 63%|██████▎   | 6709/10702 [1:06:50<32:59,  2.02it/s] 63%|██████▎   | 6710/10702 [1:06:50<33:00,  2.02it/s] 63%|██████▎   | 6711/10702 [1:06:51<32:57,  2.02it/s] 63%|██████▎   | 6712/10702 [1:06:51<32:58,  2.02it/s] 63%|██████▎   | 6713/10702 [1:06:52<32:57,  2.02it/s] 63%|██████▎   | 6714/10702 [1:06:52<32:55,  2.02it/s] 63%|██████▎   | 6715/10702 [1:06:53<32:54,  2.02it/s] 63%|██████▎   | 6716/10702 [1:06:53<32:55,  2.02it/s] 63%|██████▎   | 6717/10702 [1:06:54<32:53,  2.02it/s] 63%|██████▎   | 6718/10702 [1:06:54<32:53,  2.02it/s] 63%|██████▎   | 6719/10702 [1:06:55<32:54,  2.02it/s] 63%|██████▎   | 6720/10702 [1:06:55<32:53,  2.02it/s] 63%|██████▎   | 6721/10702 [1:06:56<32:52,  2.02it/s] 63%|██████▎   | 6722/10702 [1:06:56<32:53,  2.02it/s] 63%|██████▎   | 6723/10702 [1:06:57<32:49,  2.02it/s] 63%|██████▎   | 6724/10702 [1:06:57<32:55,  2.01it/s] 63%|██████▎   | 6725/10702 [1:06:58<32:59,  2.01it/s]{'loss': 3.6235, 'grad_norm': 0.19032688438892365, 'learning_rate': 0.00036494115795731777, 'epoch': 0.63}                                                      
+ 63%|██████▎   | 6725/10702 [1:06:58<32:59,  2.01it/s] 63%|██████▎   | 6726/10702 [1:06:58<33:11,  2.00it/s] 63%|██████▎   | 6727/10702 [1:06:59<33:06,  2.00it/s] 63%|██████▎   | 6728/10702 [1:06:59<33:02,  2.00it/s] 63%|██████▎   | 6729/10702 [1:07:00<33:01,  2.01it/s] 63%|██████▎   | 6730/10702 [1:07:00<32:57,  2.01it/s] 63%|██████▎   | 6731/10702 [1:07:01<32:56,  2.01it/s] 63%|██████▎   | 6732/10702 [1:07:01<32:57,  2.01it/s] 63%|██████▎   | 6733/10702 [1:07:02<32:52,  2.01it/s] 63%|██████▎   | 6734/10702 [1:07:02<32:54,  2.01it/s] 63%|██████▎   | 6735/10702 [1:07:03<32:50,  2.01it/s] 63%|██████▎   | 6736/10702 [1:07:03<32:49,  2.01it/s] 63%|██████▎   | 6737/10702 [1:07:04<32:46,  2.02it/s] 63%|██████▎   | 6738/10702 [1:07:04<32:46,  2.02it/s] 63%|████���█▎   | 6739/10702 [1:07:05<32:48,  2.01it/s] 63%|██████▎   | 6740/10702 [1:07:05<32:45,  2.02it/s] 63%|██████▎   | 6741/10702 [1:07:05<32:44,  2.02it/s] 63%|██████▎   | 6742/10702 [1:07:06<32:43,  2.02it/s] 63%|██████▎   | 6743/10702 [1:07:06<32:44,  2.02it/s] 63%|██████▎   | 6744/10702 [1:07:07<32:45,  2.01it/s] 63%|██████▎   | 6745/10702 [1:07:07<32:43,  2.02it/s] 63%|██████▎   | 6746/10702 [1:07:08<32:42,  2.02it/s] 63%|██████▎   | 6747/10702 [1:07:08<32:44,  2.01it/s] 63%|██████▎   | 6748/10702 [1:07:09<32:42,  2.02it/s] 63%|██████▎   | 6749/10702 [1:07:09<32:42,  2.01it/s] 63%|██████▎   | 6750/10702 [1:07:10<32:40,  2.02it/s]                                                      {'loss': 3.6161, 'grad_norm': 0.19841426610946655, 'learning_rate': 0.0003610198133567327, 'epoch': 0.63}
+ 63%|██████▎   | 6750/10702 [1:07:10<32:40,  2.02it/s] 63%|██████▎   | 6751/10702 [1:07:10<32:41,  2.01it/s] 63%|██████▎   | 6752/10702 [1:07:11<32:42,  2.01it/s] 63%|██████▎   | 6753/10702 [1:07:11<32:41,  2.01it/s] 63%|██████▎   | 6754/10702 [1:07:12<32:40,  2.01it/s] 63%|██████▎   | 6755/10702 [1:07:12<32:39,  2.01it/s] 63%|██████▎   | 6756/10702 [1:07:13<32:37,  2.02it/s] 63%|██████▎   | 6757/10702 [1:07:13<32:36,  2.02it/s] 63%|██████▎   | 6758/10702 [1:07:14<32:34,  2.02it/s] 63%|██████▎   | 6759/10702 [1:07:14<32:35,  2.02it/s] 63%|██████▎   | 6760/10702 [1:07:15<32:34,  2.02it/s] 63%|██████▎   | 6761/10702 [1:07:15<32:34,  2.02it/s] 63%|██████▎   | 6762/10702 [1:07:16<32:33,  2.02it/s] 63%|██████▎   | 6763/10702 [1:07:16<32:33,  2.02it/s] 63%|██████▎   | 6764/10702 [1:07:17<32:32,  2.02it/s] 63%|██████▎   | 6765/10702 [1:07:17<32:29,  2.02it/s] 63%|██████▎   | 6766/10702 [1:07:18<32:27,  2.02it/s] 63%|██████▎   | 6767/10702 [1:07:18<32:27,  2.02it/s] 63%|██████▎   | 6768/10702 [1:07:19<32:28,  2.02it/s] 63%|██████▎   | 6769/10702 [1:07:19<32:27,  2.02it/s] 63%|██████▎   | 6770/10702 [1:07:20<32:30,  2.02it/s] 63%|██████▎   | 6771/10702 [1:07:20<32:26,  2.02it/s] 63%|██████▎   | 6772/10702 [1:07:21<32:28,  2.02it/s] 63%|██████▎   | 6773/10702 [1:07:21<32:27,  2.02it/s] 63%|██████▎   | 6774/10702 [1:07:22<32:27,  2.02it/s] 63%|██████▎   | 6775/10702 [1:07:22<32:25,  2.02it/s]{'loss': 3.6139, 'grad_norm': 0.20087787508964539, 'learning_rate': 0.0003571077112140427, 'epoch': 0.63}
+                                                       63%|██████▎   | 6775/10702 [1:07:22<32:25,  2.02it/s] 63%|██████▎   | 6776/10702 [1:07:23<32:29,  2.01it/s] 63%|██████▎   | 6777/10702 [1:07:23<32:28,  2.01it/s] 63%|██████▎   | 6778/10702 [1:07:24<32:27,  2.02it/s] 63%|██████▎   | 6779/10702 [1:07:24<32:25,  2.02it/s] 63%|██████▎   | 6780/10702 [1:07:25<32:24,  2.02it/s] 63%|██████▎   | 6781/10702 [1:07:25<32:24,  2.02it/s] 63%|██████▎   | 6782/10702 [1:07:26<37:51,  1.73it/s] 63%|██████▎   | 6783/10702 [1:07:27<36:12,  1.80it/s] 63%|██████▎   | 6784/10702 [1:07:27<35:05,  1.86it/s] 63%|██████▎   | 6785/10702 [1:07:28<34:33,  1.89it/s] 63%|██████▎   | 6786/10702 [1:07:28<34:01,  1.92it/s] 63%|██████▎   | 6787/10702 [1:07:29<33:32,  1.95it/s] 63%|██████▎   | 6788/10702 [1:07:29<33:13,  1.96it/s] 63%|██████▎   | 6789/10702 [1:07:30<33:02,  1.97it/s] 63%|██████▎   | 6790/10702 [1:07:30<32:48,  1.99it/s] 63%|██████▎   | 6791/10702 [1:07:31<32:41,  1.99it/s] 63%|██████▎   | 6792/10702 [1:07:31<32:36,  2.00it/s] 63%|██████▎   | 6793/10702 [1:07:32<32:29,  2.00it/s] 63%|██████▎   | 6794/10702 [1:07:32<32:30,  2.00it/s] 63%|██████▎   | 6795/10702 [1:07:33<32:24,  2.01it/s] 64%|██████▎   | 6796/10702 [1:07:33<32:22,  2.01it/s] 64%|██████▎   | 6797/10702 [1:07:34<32:20,  2.01it/s] 64%|██████▎   | 6798/10702 [1:07:34<32:18,  2.01it/s] 64%|██████▎   | 6799/10702 [1:07:35<32:19,  2.01it/s] 64%|██████▎   | 6800/10702 [1:07:35<32:16,  2.01it/s]                                                      {'loss': 3.6245, 'grad_norm': 0.2115303874015808, 'learning_rate': 0.00035320511169179507, 'epoch': 0.64}
+ 64%|██████▎   | 6800/10702 [1:07:35<32:16,  2.01it/s] 64%|██████▎   | 6801/10702 [1:07:36<32:17,  2.01it/s] 64%|██████▎   | 6802/10702 [1:07:36<32:16,  2.01it/s] 64%|██████▎   | 6803/10702 [1:07:37<32:14,  2.02it/s] 64%|██████▎   | 6804/10702 [1:07:37<32:14,  2.02it/s] 64%|██████▎   | 6805/10702 [1:07:38<32:10,  2.02it/s] 64%|██████▎   | 6806/10702 [1:07:38<32:13,  2.02it/s] 64%|██████▎   | 6807/10702 [1:07:39<32:14,  2.01it/s] 64%|██████▎   | 6808/10702 [1:07:39<32:12,  2.02it/s] 64%|██████▎   | 6809/10702 [1:07:40<32:12,  2.01it/s] 64%|██████▎   | 6810/10702 [1:07:40<32:09,  2.02it/s] 64%|██████▎   | 6811/10702 [1:07:41<32:10,  2.02it/s] 64%|██████▎   | 6812/10702 [1:07:41<37:39,  1.72it/s] 64%|██████▎   | 6813/10702 [1:07:42<35:58,  1.80it/s] 64%|██████▎   | 6814/10702 [1:07:42<34:51,  1.86it/s] 64%|██████▎   | 6815/10702 [1:07:43<34:00,  1.90it/s] 64%|██████▎   | 6816/10702 [1:07:43<33:27,  1.94it/s] 64%|██████▎   | 6817/10702 [1:07:44<33:03,  1.96it/s] 64%|██████▎   | 6818/10702 [1:07:44<32:44,  1.98it/s] 64%|██████▎   | 6819/10702 [1:07:45<32:34,  1.99it/s] 64%|██████▎   | 6820/10702 [1:07:45<32:22,  2.00it/s] 64%|██████▎   | 6821/10702 [1:07:46<32:16,  2.00it/s] 64%|██████▎   | 6822/10702 [1:07:46<32:09,  2.01it/s] 64%|██████▍   | 6823/10702 [1:07:47<32:08,  2.01it/s] 64%|██████▍   | 6824/10702 [1:07:47<32:04,  2.01it/s] 64%|██████▍   | 6825/10702 [1:07:48<32:03,  2.02it/s]{'loss': 3.6116, 'grad_norm': 0.20389947295188904, 'learning_rate': 0.00034931227432059364, 'epoch': 0.64}
+                                                       64%|██████▍   | 6825/10702 [1:07:48<32:03,  2.02it/s] 64%|██████▍   | 6826/10702 [1:07:48<32:05,  2.01it/s] 64%|██████▍   | 6827/10702 [1:07:49<32:03,  2.01it/s] 64%|██████▍   | 6828/10702 [1:07:49<32:02,  2.02it/s] 64%|██████▍   | 6829/10702 [1:07:50<32:00,  2.02it/s] 64%|██████▍   | 6830/10702 [1:07:50<32:00,  2.02it/s] 64%|██████▍   | 6831/10702 [1:07:51<31:57,  2.02it/s] 64%|██████▍   | 6832/10702 [1:07:51<31:57,  2.02it/s] 64%|██████▍   | 6833/10702 [1:07:52<31:56,  2.02it/s] 64%|██████▍   | 6834/10702 [1:07:52<31:54,  2.02it/s] 64%|██████▍   | 6835/10702 [1:07:53<31:54,  2.02it/s] 64%|██████▍   | 6836/10702 [1:07:53<31:53,  2.02it/s] 64%|██████▍   | 6837/10702 [1:07:54<31:55,  2.02it/s] 64%|██████▍   | 6838/10702 [1:07:54<31:53,  2.02it/s] 64%|██████▍   | 6839/10702 [1:07:55<31:56,  2.02it/s] 64%|██████▍   | 6840/10702 [1:07:55<31:53,  2.02it/s] 64%|██████▍   | 6841/10702 [1:07:56<31:53,  2.02it/s] 64%|██████▍   | 6842/10702 [1:07:56<31:50,  2.02it/s] 64%|██████▍   | 6843/10702 [1:07:57<31:51,  2.02it/s] 64%|██████▍   | 6844/10702 [1:07:57<31:54,  2.02it/s] 64%|██████▍   | 6845/10702 [1:07:58<32:12,  2.00it/s] 64%|██████▍   | 6846/10702 [1:07:58<32:07,  2.00it/s] 64%|██████▍   | 6847/10702 [1:07:59<32:05,  2.00it/s] 64%|██████▍   | 6848/10702 [1:07:59<32:02,  2.00it/s] 64%|██████▍   | 6849/10702 [1:08:00<32:00,  2.01it/s] 64%|██████▍   | 6850/10702 [1:08:00<31:57,  2.01it/s]{'loss': 3.6112, 'grad_norm': 0.19764627516269684, 'learning_rate': 0.00034542945798183997, 'epoch': 0.64}
+                                                       64%|██████▍   | 6850/10702 [1:08:00<31:57,  2.01it/s] 64%|██████▍   | 6851/10702 [1:08:01<31:56,  2.01it/s] 64%|██████▍   | 6852/10702 [1:08:01<31:54,  2.01it/s] 64%|██████▍   | 6853/10702 [1:08:02<31:54,  2.01it/s] 64%|██████▍   | 6854/10702 [1:08:02<31:55,  2.01it/s] 64%|██████▍   | 6855/10702 [1:08:03<31:53,  2.01it/s] 64%|██████▍   | 6856/10702 [1:08:03<31:52,  2.01it/s] 64%|██████▍   | 6857/10702 [1:08:04<31:48,  2.01it/s] 64%|██████▍   | 6858/10702 [1:08:04<31:48,  2.01it/s] 64%|██████▍   | 6859/10702 [1:08:05<31:46,  2.02it/s] 64%|██████▍   | 6860/10702 [1:08:05<31:44,  2.02it/s] 64%|██████▍   | 6861/10702 [1:08:06<31:44,  2.02it/s] 64%|██████▍   | 6862/10702 [1:08:06<31:44,  2.02it/s] 64%|██████▍   | 6863/10702 [1:08:07<31:44,  2.02it/s] 64%|██████▍   | 6864/10702 [1:08:07<31:43,  2.02it/s] 64%|██████▍   | 6865/10702 [1:08:08<31:42,  2.02it/s] 64%|██████▍   | 6866/10702 [1:08:08<31:42,  2.02it/s] 64%|██████▍   | 6867/10702 [1:08:09<31:39,  2.02it/s] 64%|██████▍   | 6868/10702 [1:08:09<31:40,  2.02it/s] 64%|██████▍   | 6869/10702 [1:08:10<31:38,  2.02it/s] 64%|██████▍   | 6870/10702 [1:08:10<31:39,  2.02it/s] 64%|██████▍   | 6871/10702 [1:08:11<31:37,  2.02it/s] 64%|██████▍   | 6872/10702 [1:08:11<31:37,  2.02it/s] 64%|██████▍   | 6873/10702 [1:08:12<31:35,  2.02it/s] 64%|██████▍   | 6874/10702 [1:08:12<31:34,  2.02it/s] 64%|██████▍   | 6875/10702 [1:08:13<31:34,  2.02it/s]                                                      {'loss': 3.6091, 'grad_norm': 0.21265079081058502, 'learning_rate': 0.00034155692089051653, 'epoch': 0.64}
+ 64%|██████▍   | 6875/10702 [1:08:13<31:34,  2.02it/s] 64%|██████▍   | 6876/10702 [1:08:13<31:35,  2.02it/s] 64%|██████▍   | 6877/10702 [1:08:14<31:36,  2.02it/s] 64%|██████▍   | 6878/10702 [1:08:14<31:35,  2.02it/s] 64%|██████▍   | 6879/10702 [1:08:15<31:34,  2.02it/s] 64%|██████▍   | 6880/10702 [1:08:15<31:33,  2.02it/s] 64%|██████▍   | 6881/10702 [1:08:16<31:32,  2.02it/s] 64%|██████▍   | 6882/10702 [1:08:16<31:31,  2.02it/s] 64%|██████▍   | 6883/10702 [1:08:17<31:31,  2.02it/s] 64%|██████▍   | 6884/10702 [1:08:17<31:30,  2.02it/s] 64%|██████▍   | 6885/10702 [1:08:18<31:28,  2.02it/s] 64%|██████▍   | 6886/10702 [1:08:18<31:28,  2.02it/s] 64%|██████▍   | 6887/10702 [1:08:19<31:29,  2.02it/s] 64%|██████▍   | 6888/10702 [1:08:19<31:30,  2.02it/s] 64%|██████▍   | 6889/10702 [1:08:19<31:28,  2.02it/s] 64%|██████▍   | 6890/10702 [1:08:20<31:29,  2.02it/s] 64%|██████▍   | 6891/10702 [1:08:20<31:25,  2.02it/s] 64%|██████▍   | 6892/10702 [1:08:21<31:26,  2.02it/s] 64%|██████▍   | 6893/10702 [1:08:21<31:23,  2.02it/s] 64%|██████▍   | 6894/10702 [1:08:22<31:22,  2.02it/s] 64%|██████▍   | 6895/10702 [1:08:22<31:21,  2.02it/s] 64%|██████▍   | 6896/10702 [1:08:23<31:21,  2.02it/s] 64%|██████▍   | 6897/10702 [1:08:23<31:20,  2.02it/s] 64%|██████▍   | 6898/10702 [1:08:24<31:21,  2.02it/s] 64%|██████▍   | 6899/10702 [1:08:24<31:19,  2.02it/s] 64%|██████▍   | 6900/10702 [1:08:25<31:21,  2.02it/s]                                                      {'loss': 3.6114, 'grad_norm': 0.20914335548877716, 'learning_rate': 0.00033769492057801663, 'epoch': 0.64}
+ 64%|██████▍   | 6900/10702 [1:08:25<31:21,  2.02it/s] 64%|██████▍   | 6901/10702 [1:08:25<31:25,  2.02it/s] 64%|██████▍   | 6902/10702 [1:08:26<31:21,  2.02it/s] 65%|██████▍   | 6903/10702 [1:08:26<31:20,  2.02it/s] 65%|██████▍   | 6904/10702 [1:08:27<31:19,  2.02it/s] 65%|██████▍   | 6905/10702 [1:08:27<31:21,  2.02it/s] 65%|██████▍   | 6906/10702 [1:08:28<31:23,  2.02it/s] 65%|██████▍   | 6907/10702 [1:08:28<31:24,  2.01it/s] 65%|██████▍   | 6908/10702 [1:08:29<31:26,  2.01it/s] 65%|██████▍   | 6909/10702 [1:08:29<31:24,  2.01it/s] 65%|██████▍   | 6910/10702 [1:08:30<31:25,  2.01it/s] 65%|██████▍   | 6911/10702 [1:08:30<31:23,  2.01it/s] 65%|██████▍   | 6912/10702 [1:08:31<31:21,  2.01it/s] 65%|██████▍   | 6913/10702 [1:08:31<31:24,  2.01it/s] 65%|██████▍   | 6914/10702 [1:08:32<31:22,  2.01it/s] 65%|██████▍   | 6915/10702 [1:08:32<31:22,  2.01it/s] 65%|██████▍   | 6916/10702 [1:08:33<31:23,  2.01it/s] 65%|██████▍   | 6917/10702 [1:08:33<31:20,  2.01it/s] 65%|██████▍   | 6918/10702 [1:08:34<31:18,  2.01it/s] 65%|██████▍   | 6919/10702 [1:08:34<31:18,  2.01it/s] 65%|██████▍   | 6920/10702 [1:08:35<31:16,  2.02it/s] 65%|██████▍   | 6921/10702 [1:08:35<31:16,  2.01it/s] 65%|██████▍   | 6922/10702 [1:08:36<31:14,  2.02it/s] 65%|██████▍   | 6923/10702 [1:08:36<31:15,  2.01it/s] 65%|██████▍   | 6924/10702 [1:08:37<31:14,  2.02it/s] 65%|██████▍   | 6925/10702 [1:08:37<31:15,  2.01it/s]{'loss': 3.6145, 'grad_norm': 0.2122029811143875, 'learning_rate': 0.0003338437138750159, 'epoch': 0.65}
+                                                       65%|██████▍   | 6925/10702 [1:08:37<31:15,  2.01it/s] 65%|██████▍   | 6926/10702 [1:08:38<31:15,  2.01it/s] 65%|██████▍   | 6927/10702 [1:08:38<31:14,  2.01it/s] 65%|██████▍   | 6928/10702 [1:08:39<31:14,  2.01it/s] 65%|██████▍   | 6929/10702 [1:08:39<31:12,  2.02it/s] 65%|██████▍   | 6930/10702 [1:08:40<31:12,  2.01it/s] 65%|██████▍   | 6931/10702 [1:08:40<31:09,  2.02it/s] 65%|██████▍   | 6932/10702 [1:08:41<31:09,  2.02it/s] 65%|██████▍   | 6933/10702 [1:08:41<31:08,  2.02it/s] 65%|██████▍   | 6934/10702 [1:08:42<31:08,  2.02it/s] 65%|██████▍   | 6935/10702 [1:08:42<31:09,  2.01it/s] 65%|██████▍   | 6936/10702 [1:08:43<31:07,  2.02it/s] 65%|██████▍   | 6937/10702 [1:08:43<31:08,  2.02it/s] 65%|██████▍   | 6938/10702 [1:08:44<31:05,  2.02it/s] 65%|██████▍   | 6939/10702 [1:08:44<31:07,  2.01it/s] 65%|██████▍   | 6940/10702 [1:08:45<31:09,  2.01it/s] 65%|██████▍   | 6941/10702 [1:08:45<31:05,  2.02it/s] 65%|██████▍   | 6942/10702 [1:08:46<31:05,  2.02it/s] 65%|██████▍   | 6943/10702 [1:08:46<31:04,  2.02it/s] 65%|██████▍   | 6944/10702 [1:08:47<31:02,  2.02it/s] 65%|██████▍   | 6945/10702 [1:08:47<31:03,  2.02it/s] 65%|██████▍   | 6946/10702 [1:08:48<31:01,  2.02it/s] 65%|██████▍   | 6947/10702 [1:08:48<31:02,  2.02it/s] 65%|██████▍   | 6948/10702 [1:08:49<31:00,  2.02it/s] 65%|██████▍   | 6949/10702 [1:08:49<31:01,  2.02it/s] 65%|██████▍   | 6950/10702 [1:08:50<31:01,  2.02it/s]                                                      {'loss': 3.6098, 'grad_norm': 0.20700718462467194, 'learning_rate': 0.00033000355689439376, 'epoch': 0.65}
+ 65%|██████▍   | 6950/10702 [1:08:50<31:01,  2.02it/s] 65%|██████▍   | 6951/10702 [1:08:50<31:01,  2.02it/s] 65%|██████▍   | 6952/10702 [1:08:51<31:00,  2.02it/s] 65%|██████▍   | 6953/10702 [1:08:51<30:58,  2.02it/s] 65%|██████▍   | 6954/10702 [1:08:52<30:59,  2.02it/s] 65%|██████▍   | 6955/10702 [1:08:52<30:57,  2.02it/s] 65%|██████▍   | 6956/10702 [1:08:53<30:57,  2.02it/s] 65%|██████▌   | 6957/10702 [1:08:53<30:55,  2.02it/s] 65%|██████▌   | 6958/10702 [1:08:54<30:54,  2.02it/s] 65%|██████▌   | 6959/10702 [1:08:54<30:55,  2.02it/s] 65%|██████▌   | 6960/10702 [1:08:55<30:53,  2.02it/s] 65%|██████▌   | 6961/10702 [1:08:55<30:53,  2.02it/s] 65%|██████▌   | 6962/10702 [1:08:56<30:52,  2.02it/s] 65%|██████▌   | 6963/10702 [1:08:56<30:51,  2.02it/s] 65%|██████▌   | 6964/10702 [1:08:57<30:51,  2.02it/s] 65%|██████▌   | 6965/10702 [1:08:57<30:57,  2.01it/s] 65%|██████▌   | 6966/10702 [1:08:58<30:59,  2.01it/s] 65%|██████▌   | 6967/10702 [1:08:58<30:57,  2.01it/s] 65%|██████▌   | 6968/10702 [1:08:59<30:52,  2.02it/s] 65%|██████▌   | 6969/10702 [1:08:59<30:54,  2.01it/s] 65%|██████▌   | 6970/10702 [1:09:00<30:51,  2.02it/s] 65%|██████▌   | 6971/10702 [1:09:00<30:50,  2.02it/s] 65%|██████▌   | 6972/10702 [1:09:01<30:47,  2.02it/s] 65%|██████▌   | 6973/10702 [1:09:01<30:48,  2.02it/s] 65%|██████▌   | 6974/10702 [1:09:02<30:45,  2.02it/s] 65%|██████▌   | 6975/10702 [1:09:02<30:47,  2.02it/s]                                                      {'loss': 3.5979, 'grad_norm': 0.20872542262077332, 'learning_rate': 0.00032617470501420146, 'epoch': 0.65}
+ 65%|██████▌   | 6975/10702 [1:09:02<30:47,  2.02it/s] 65%|██████▌   | 6976/10702 [1:09:03<30:47,  2.02it/s] 65%|██████▌   | 6977/10702 [1:09:03<30:47,  2.02it/s] 65%|██████▌   | 6978/10702 [1:09:04<30:46,  2.02it/s] 65%|██████▌   | 6979/10702 [1:09:04<30:44,  2.02it/s] 65%|██████▌   | 6980/10702 [1:09:05<30:44,  2.02it/s] 65%|██████▌   | 6981/10702 [1:09:05<30:43,  2.02it/s] 65%|██████▌   | 6982/10702 [1:09:06<30:44,  2.02it/s] 65%|██████▌   | 6983/10702 [1:09:06<30:41,  2.02it/s] 65%|██████▌   | 6984/10702 [1:09:07<30:42,  2.02it/s] 65%|██████▌   | 6985/10702 [1:09:07<30:40,  2.02it/s] 65%|██████▌   | 6986/10702 [1:09:08<30:39,  2.02it/s] 65%|██████▌   | 6987/10702 [1:09:08<30:38,  2.02it/s] 65%|██████▌   | 6988/10702 [1:09:09<30:40,  2.02it/s] 65%|██████▌   | 6989/10702 [1:09:09<30:38,  2.02it/s] 65%|██████▌   | 6990/10702 [1:09:10<30:38,  2.02it/s] 65%|██████▌   | 6991/10702 [1:09:10<30:40,  2.02it/s] 65%|██████▌   | 6992/10702 [1:09:11<30:39,  2.02it/s] 65%|██████▌   | 6993/10702 [1:09:11<30:38,  2.02it/s] 65%|██████▌   | 6994/10702 [1:09:12<30:36,  2.02it/s] 65%|██████▌   | 6995/10702 [1:09:12<30:36,  2.02it/s] 65%|██████▌   | 6996/10702 [1:09:13<30:34,  2.02it/s] 65%|██████▌   | 6997/10702 [1:09:13<30:34,  2.02it/s] 65%|██████▌   | 6998/10702 [1:09:14<30:34,  2.02it/s] 65%|██████▌   | 6999/10702 [1:09:14<30:33,  2.02it/s] 65%|██████▌   | 7000/10702 [1:09:15<30:31,  2.02it/s]{'loss': 3.6085, 'grad_norm': 0.20135337114334106, 'learning_rate': 0.00032235741286067854, 'epoch': 0.65}
+                                                       65%|██████▌   | 7000/10702 [1:09:15<30:31,  2.02it/s] 65%|██████▌   | 7001/10702 [1:09:15<30:33,  2.02it/s] 65%|██████▌   | 7002/10702 [1:09:16<30:34,  2.02it/s] 65%|██████▌   | 7003/10702 [1:09:16<30:33,  2.02it/s] 65%|██████▌   | 7004/10702 [1:09:17<30:33,  2.02it/s] 65%|██████▌   | 7005/10702 [1:09:17<30:33,  2.02it/s] 65%|██████▌   | 7006/10702 [1:09:18<30:30,  2.02it/s] 65%|██████▌   | 7007/10702 [1:09:18<30:28,  2.02it/s] 65%|██████▌   | 7008/10702 [1:09:18<30:29,  2.02it/s] 65%|██████▌   | 7009/10702 [1:09:19<30:31,  2.02it/s] 66%|██████▌   | 7010/10702 [1:09:19<30:29,  2.02it/s] 66%|██████▌   | 7011/10702 [1:09:20<30:29,  2.02it/s] 66%|██████▌   | 7012/10702 [1:09:20<30:28,  2.02it/s] 66%|██████▌   | 7013/10702 [1:09:21<30:28,  2.02it/s] 66%|██████▌   | 7014/10702 [1:09:21<30:29,  2.02it/s] 66%|██████▌   | 7015/10702 [1:09:22<30:28,  2.02it/s] 66%|██████▌   | 7016/10702 [1:09:22<30:27,  2.02it/s] 66%|██████▌   | 7017/10702 [1:09:23<30:25,  2.02it/s] 66%|██████▌   | 7018/10702 [1:09:23<30:25,  2.02it/s] 66%|██████▌   | 7019/10702 [1:09:24<30:26,  2.02it/s] 66%|██████▌   | 7020/10702 [1:09:24<30:24,  2.02it/s] 66%|██████▌   | 7021/10702 [1:09:25<30:23,  2.02it/s] 66%|██████▌   | 7022/10702 [1:09:25<30:22,  2.02it/s] 66%|██████▌   | 7023/10702 [1:09:26<30:22,  2.02it/s] 66%|██████▌   | 7024/10702 [1:09:26<30:20,  2.02it/s] 66%|██████▌   | 7025/10702 [1:09:27<30:23,  2.02it/s]                                                      {'loss': 3.6121, 'grad_norm': 0.1979440450668335, 'learning_rate': 0.0003185519342913198, 'epoch': 0.66}
+ 66%|██████▌   | 7025/10702 [1:09:27<30:23,  2.02it/s] 66%|██████▌   | 7026/10702 [1:09:27<30:28,  2.01it/s] 66%|██████▌   | 7027/10702 [1:09:28<30:28,  2.01it/s] 66%|██████▌   | 7028/10702 [1:09:28<30:27,  2.01it/s] 66%|██████▌   | 7029/10702 [1:09:29<30:25,  2.01it/s] 66%|██████▌   | 7030/10702 [1:09:29<30:23,  2.01it/s] 66%|██████▌   | 7031/10702 [1:09:30<30:23,  2.01it/s] 66%|██████▌   | 7032/10702 [1:09:30<30:21,  2.01it/s] 66%|██████▌   | 7033/10702 [1:09:31<30:20,  2.02it/s] 66%|██████▌   | 7034/10702 [1:09:31<30:18,  2.02it/s] 66%|██████▌   | 7035/10702 [1:09:32<30:17,  2.02it/s] 66%|██████▌   | 7036/10702 [1:09:32<30:16,  2.02it/s] 66%|██████▌   | 7037/10702 [1:09:33<30:14,  2.02it/s] 66%|██████▌   | 7038/10702 [1:09:33<30:15,  2.02it/s] 66%|██████▌   | 7039/10702 [1:09:34<30:12,  2.02it/s] 66%|██████▌   | 7040/10702 [1:09:34<30:14,  2.02it/s] 66%|██████▌   | 7041/10702 [1:09:35<30:12,  2.02it/s] 66%|██████▌   | 7042/10702 [1:09:35<30:13,  2.02it/s] 66%|██████▌   | 7043/10702 [1:09:36<30:12,  2.02it/s] 66%|██████▌   | 7044/10702 [1:09:36<30:12,  2.02it/s] 66%|██████▌   | 7045/10702 [1:09:37<30:13,  2.02it/s] 66%|██████▌   | 7046/10702 [1:09:37<30:11,  2.02it/s] 66%|██████▌   | 7047/10702 [1:09:38<30:08,  2.02it/s] 66%|██████▌   | 7048/10702 [1:09:38<30:09,  2.02it/s] 66%|██████▌   | 7049/10702 [1:09:39<30:09,  2.02it/s] 66%|██████▌   | 7050/10702 [1:09:39<30:09,  2.02it/s]{'loss': 3.6133, 'grad_norm': 0.1916920393705368, 'learning_rate': 0.00031475852237799286, 'epoch': 0.66}
+                                                       66%|██████▌   | 7050/10702 [1:09:39<30:09,  2.02it/s] 66%|██████▌   | 7051/10702 [1:09:40<30:12,  2.01it/s] 66%|██████▌   | 7052/10702 [1:09:40<30:09,  2.02it/s] 66%|██████▌   | 7053/10702 [1:09:41<30:10,  2.02it/s] 66%|██████▌   | 7054/10702 [1:09:41<30:09,  2.02it/s] 66%|██████▌   | 7055/10702 [1:09:42<30:08,  2.02it/s] 66%|██████▌   | 7056/10702 [1:09:42<30:07,  2.02it/s] 66%|██████▌   | 7057/10702 [1:09:43<30:07,  2.02it/s] 66%|██████▌   | 7058/10702 [1:09:43<30:06,  2.02it/s] 66%|██████▌   | 7059/10702 [1:09:44<30:05,  2.02it/s] 66%|██████▌   | 7060/10702 [1:09:44<30:07,  2.01it/s] 66%|██████▌   | 7061/10702 [1:09:45<30:04,  2.02it/s] 66%|██████▌   | 7062/10702 [1:09:45<30:04,  2.02it/s] 66%|██████▌   | 7063/10702 [1:09:46<30:02,  2.02it/s] 66%|██████▌   | 7064/10702 [1:09:46<30:01,  2.02it/s] 66%|██████▌   | 7065/10702 [1:09:47<30:02,  2.02it/s] 66%|██████▌   | 7066/10702 [1:09:47<30:00,  2.02it/s] 66%|██████▌   | 7067/10702 [1:09:48<30:00,  2.02it/s] 66%|██████▌   | 7068/10702 [1:09:48<30:00,  2.02it/s] 66%|██████▌   | 7069/10702 [1:09:49<30:00,  2.02it/s] 66%|██████▌   | 7070/10702 [1:09:49<29:59,  2.02it/s] 66%|██████▌   | 7071/10702 [1:09:50<29:59,  2.02it/s] 66%|██████▌   | 7072/10702 [1:09:50<29:59,  2.02it/s] 66%|██████▌   | 7073/10702 [1:09:51<29:58,  2.02it/s] 66%|██████▌   | 7074/10702 [1:09:51<29:57,  2.02it/s] 66%|██████▌   | 7075/10702 [1:09:52<29:57,  2.02it/s]{'loss': 3.6062, 'grad_norm': 0.19467267394065857, 'learning_rate': 0.0003109774293901096, 'epoch': 0.66}
+                                                       66%|██████▌   | 7075/10702 [1:09:52<29:57,  2.02it/s] 66%|██████▌   | 7076/10702 [1:09:52<29:59,  2.02it/s] 66%|██████▌   | 7077/10702 [1:09:53<29:57,  2.02it/s] 66%|██████▌   | 7078/10702 [1:09:53<29:59,  2.01it/s] 66%|██████▌   | 7079/10702 [1:09:54<29:56,  2.02it/s] 66%|██████▌   | 7080/10702 [1:09:54<29:55,  2.02it/s] 66%|██████▌   | 7081/10702 [1:09:55<29:53,  2.02it/s] 66%|██████▌   | 7082/10702 [1:09:55<29:52,  2.02it/s] 66%|██████▌   | 7083/10702 [1:09:56<29:52,  2.02it/s] 66%|██████▌   | 7084/10702 [1:09:56<29:49,  2.02it/s] 66%|██████▌   | 7085/10702 [1:09:57<29:50,  2.02it/s] 66%|██████▌   | 7086/10702 [1:09:57<29:53,  2.02it/s] 66%|██████▌   | 7087/10702 [1:09:58<29:56,  2.01it/s] 66%|██████▌   | 7088/10702 [1:09:58<30:05,  2.00it/s] 66%|██████▌   | 7089/10702 [1:09:59<30:04,  2.00it/s] 66%|██████▌   | 7090/10702 [1:09:59<30:05,  2.00it/s] 66%|██████▋   | 7091/10702 [1:10:00<30:00,  2.01it/s] 66%|██████▋   | 7092/10702 [1:10:00<29:59,  2.01it/s] 66%|██████▋   | 7093/10702 [1:10:01<29:59,  2.01it/s] 66%|██████▋   | 7094/10702 [1:10:01<29:56,  2.01it/s] 66%|██████▋   | 7095/10702 [1:10:02<29:56,  2.01it/s] 66%|██████▋   | 7096/10702 [1:10:02<29:54,  2.01it/s] 66%|██████▋   | 7097/10702 [1:10:03<29:54,  2.01it/s] 66%|██████▋   | 7098/10702 [1:10:03<29:55,  2.01it/s] 66%|██████▋   | 7099/10702 [1:10:04<29:52,  2.01it/s] 66%|██████▋   | 7100/10702 [1:10:04<29:51,  2.01it/s]{'loss': 3.6044, 'grad_norm': 0.19681711494922638, 'learning_rate': 0.00030720890677784834, 'epoch': 0.66}
+                                                       66%|██████▋   | 7100/10702 [1:10:04<29:51,  2.01it/s] 66%|██████▋   | 7101/10702 [1:10:05<29:53,  2.01it/s] 66%|██████▋   | 7102/10702 [1:10:05<29:50,  2.01it/s] 66%|██████▋   | 7103/10702 [1:10:06<29:51,  2.01it/s] 66%|██████▋   | 7104/10702 [1:10:06<29:47,  2.01it/s] 66%|██████▋   | 7105/10702 [1:10:07<29:50,  2.01it/s] 66%|██████▋   | 7106/10702 [1:10:07<29:48,  2.01it/s] 66%|██████▋   | 7107/10702 [1:10:08<29:46,  2.01it/s] 66%|██████▋   | 7108/10702 [1:10:08<29:44,  2.01it/s] 66%|██████▋   | 7109/10702 [1:10:09<29:44,  2.01it/s] 66%|██████▋   | 7110/10702 [1:10:09<29:45,  2.01it/s] 66%|██████▋   | 7111/10702 [1:10:10<29:43,  2.01it/s] 66%|██████▋   | 7112/10702 [1:10:10<29:42,  2.01it/s] 66%|██████▋   | 7113/10702 [1:10:11<29:39,  2.02it/s] 66%|██████▋   | 7114/10702 [1:10:11<29:40,  2.02it/s] 66%|██████▋   | 7115/10702 [1:10:12<29:41,  2.01it/s] 66%|██████▋   | 7116/10702 [1:10:12<29:39,  2.01it/s] 67%|██████▋   | 7117/10702 [1:10:13<29:41,  2.01it/s] 67%|██████▋   | 7118/10702 [1:10:13<29:38,  2.01it/s] 67%|██████▋   | 7119/10702 [1:10:14<29:39,  2.01it/s] 67%|██████▋   | 7120/10702 [1:10:14<29:35,  2.02it/s] 67%|██████▋   | 7121/10702 [1:10:15<29:36,  2.02it/s] 67%|██████▋   | 7122/10702 [1:10:15<29:35,  2.02it/s] 67%|██████▋   | 7123/10702 [1:10:16<29:35,  2.02it/s] 67%|██████▋   | 7124/10702 [1:10:16<29:35,  2.01it/s] 67%|██████▋   | 7125/10702 [1:10:17<29:34,  2.02it/s]{'loss': 3.6012, 'grad_norm': 0.20312608778476715, 'learning_rate': 0.0003034532051554326, 'epoch': 0.67}
+                                                       67%|██████▋   | 7125/10702 [1:10:17<29:34,  2.02it/s] 67%|██████▋   | 7126/10702 [1:10:17<29:34,  2.01it/s] 67%|██████▋   | 7127/10702 [1:10:18<29:35,  2.01it/s] 67%|██████▋   | 7128/10702 [1:10:18<29:32,  2.02it/s] 67%|██████▋   | 7129/10702 [1:10:19<29:33,  2.01it/s] 67%|██████▋   | 7130/10702 [1:10:19<29:34,  2.01it/s] 67%|██████▋   | 7131/10702 [1:10:20<29:31,  2.02it/s] 67%|██████▋   | 7132/10702 [1:10:20<29:31,  2.01it/s] 67%|██████▋   | 7133/10702 [1:10:21<29:30,  2.02it/s] 67%|██████▋   | 7134/10702 [1:10:21<29:30,  2.02it/s] 67%|██████▋   | 7135/10702 [1:10:22<29:30,  2.02it/s] 67%|██████▋   | 7136/10702 [1:10:22<29:28,  2.02it/s] 67%|██████▋   | 7137/10702 [1:10:23<29:27,  2.02it/s] 67%|██████▋   | 7138/10702 [1:10:23<29:26,  2.02it/s] 67%|██████▋   | 7139/10702 [1:10:24<29:26,  2.02it/s] 67%|██████▋   | 7140/10702 [1:10:24<29:24,  2.02it/s] 67%|██████▋   | 7141/10702 [1:10:24<29:25,  2.02it/s] 67%|██████▋   | 7142/10702 [1:10:25<29:24,  2.02it/s] 67%|██████▋   | 7143/10702 [1:10:25<29:25,  2.02it/s] 67%|██████▋   | 7144/10702 [1:10:26<29:23,  2.02it/s] 67%|██████▋   | 7145/10702 [1:10:26<29:22,  2.02it/s] 67%|██████▋   | 7146/10702 [1:10:27<30:00,  1.97it/s] 67%|██████▋   | 7147/10702 [1:10:28<30:04,  1.97it/s] 67%|██████▋   | 7148/10702 [1:10:28<29:58,  1.98it/s] 67%|██████▋   | 7149/10702 [1:10:29<29:48,  1.99it/s] 67%|██████▋   | 7150/10702 [1:10:29<29:43,  1.99it/s]                                                      {'loss': 3.6024, 'grad_norm': 0.1962393969297409, 'learning_rate': 0.00029971057428446494, 'epoch': 0.67}
+ 67%|██████▋   | 7150/10702 [1:10:29<29:43,  1.99it/s] 67%|██████▋   | 7151/10702 [1:10:30<29:40,  1.99it/s] 67%|██████▋   | 7152/10702 [1:10:30<29:34,  2.00it/s] 67%|██████▋   | 7153/10702 [1:10:31<29:31,  2.00it/s] 67%|██████▋   | 7154/10702 [1:10:31<29:26,  2.01it/s] 67%|██████▋   | 7155/10702 [1:10:32<29:24,  2.01it/s] 67%|██████▋   | 7156/10702 [1:10:32<29:25,  2.01it/s] 67%|██████▋   | 7157/10702 [1:10:32<29:22,  2.01it/s] 67%|██████▋   | 7158/10702 [1:10:33<29:20,  2.01it/s] 67%|██████▋   | 7159/10702 [1:10:33<29:19,  2.01it/s] 67%|██████▋   | 7160/10702 [1:10:34<29:19,  2.01it/s] 67%|██████▋   | 7161/10702 [1:10:34<29:16,  2.02it/s] 67%|██████▋   | 7162/10702 [1:10:35<29:14,  2.02it/s] 67%|██████▋   | 7163/10702 [1:10:35<29:14,  2.02it/s] 67%|██████▋   | 7164/10702 [1:10:36<29:13,  2.02it/s] 67%|██████▋   | 7165/10702 [1:10:36<29:14,  2.02it/s] 67%|██████▋   | 7166/10702 [1:10:37<29:12,  2.02it/s] 67%|██████▋   | 7167/10702 [1:10:37<29:11,  2.02it/s] 67%|██████▋   | 7168/10702 [1:10:38<29:13,  2.02it/s] 67%|██████▋   | 7169/10702 [1:10:38<29:12,  2.02it/s] 67%|██████▋   | 7170/10702 [1:10:39<29:12,  2.01it/s] 67%|██████▋   | 7171/10702 [1:10:39<29:10,  2.02it/s] 67%|██████▋   | 7172/10702 [1:10:40<29:10,  2.02it/s] 67%|██████▋   | 7173/10702 [1:10:40<29:09,  2.02it/s] 67%|██████▋   | 7174/10702 [1:10:41<29:07,  2.02it/s] 67%|██████▋   | 7175/10702 [1:10:41<29:07,  2.02it/s]                                                      {'loss': 3.6037, 'grad_norm': 0.20894785225391388, 'learning_rate': 0.0002959812630573169, 'epoch': 0.67}
+ 67%|██████▋   | 7175/10702 [1:10:41<29:07,  2.02it/s] 67%|██████▋   | 7176/10702 [1:10:42<29:08,  2.02it/s] 67%|██████▋   | 7177/10702 [1:10:42<29:08,  2.02it/s] 67%|██████▋   | 7178/10702 [1:10:43<29:05,  2.02it/s] 67%|██████▋   | 7179/10702 [1:10:43<29:05,  2.02it/s] 67%|██████▋   | 7180/10702 [1:10:44<29:05,  2.02it/s] 67%|██████▋   | 7181/10702 [1:10:44<29:06,  2.02it/s] 67%|██████▋   | 7182/10702 [1:10:45<29:03,  2.02it/s] 67%|██████▋   | 7183/10702 [1:10:45<29:03,  2.02it/s] 67%|██████▋   | 7184/10702 [1:10:46<29:02,  2.02it/s] 67%|██████▋   | 7185/10702 [1:10:46<29:02,  2.02it/s] 67%|██████▋   | 7186/10702 [1:10:47<29:02,  2.02it/s] 67%|██████▋   | 7187/10702 [1:10:47<29:00,  2.02it/s] 67%|██████▋   | 7188/10702 [1:10:48<29:00,  2.02it/s] 67%|██████▋   | 7189/10702 [1:10:48<29:00,  2.02it/s] 67%|██████▋   | 7190/10702 [1:10:49<29:01,  2.02it/s] 67%|██████▋   | 7191/10702 [1:10:49<28:59,  2.02it/s] 67%|██████▋   | 7192/10702 [1:10:50<29:00,  2.02it/s] 67%|██████▋   | 7193/10702 [1:10:50<28:59,  2.02it/s] 67%|██████▋   | 7194/10702 [1:10:51<28:59,  2.02it/s] 67%|██████▋   | 7195/10702 [1:10:51<28:57,  2.02it/s] 67%|██████▋   | 7196/10702 [1:10:52<28:56,  2.02it/s] 67%|██████▋   | 7197/10702 [1:10:52<28:54,  2.02it/s] 67%|██████▋   | 7198/10702 [1:10:53<28:54,  2.02it/s] 67%|██████▋   | 7199/10702 [1:10:53<28:54,  2.02it/s] 67%|██████▋   | 7200/10702 [1:10:54<28:55,  2.02it/s]{'loss': 3.5933, 'grad_norm': 0.19907625019550323, 'learning_rate': 0.0002922655194805769, 'epoch': 0.67}
+                                                       67%|██████▋   | 7200/10702 [1:10:54<28:55,  2.02it/s] 67%|██████▋   | 7201/10702 [1:10:54<28:58,  2.01it/s] 67%|██████▋   | 7202/10702 [1:10:55<28:56,  2.02it/s] 67%|██████▋   | 7203/10702 [1:10:55<28:55,  2.02it/s] 67%|██████▋   | 7204/10702 [1:10:56<28:53,  2.02it/s] 67%|██████▋   | 7205/10702 [1:10:56<28:53,  2.02it/s] 67%|██████▋   | 7206/10702 [1:10:57<28:51,  2.02it/s] 67%|██████▋   | 7207/10702 [1:10:57<28:56,  2.01it/s] 67%|██████▋   | 7208/10702 [1:10:58<28:59,  2.01it/s] 67%|██████▋   | 7209/10702 [1:10:58<28:56,  2.01it/s] 67%|██████▋   | 7210/10702 [1:10:59<28:54,  2.01it/s] 67%|██████▋   | 7211/10702 [1:10:59<28:52,  2.01it/s] 67%|██████▋   | 7212/10702 [1:11:00<28:49,  2.02it/s] 67%|██████▋   | 7213/10702 [1:11:00<28:50,  2.02it/s] 67%|██████▋   | 7214/10702 [1:11:01<28:48,  2.02it/s] 67%|██████▋   | 7215/10702 [1:11:01<28:48,  2.02it/s] 67%|██████▋   | 7216/10702 [1:11:02<28:46,  2.02it/s] 67%|██████▋   | 7217/10702 [1:11:02<28:47,  2.02it/s] 67%|██████▋   | 7218/10702 [1:11:03<28:45,  2.02it/s] 67%|██████▋   | 7219/10702 [1:11:03<28:45,  2.02it/s] 67%|██████▋   | 7220/10702 [1:11:04<28:43,  2.02it/s] 67%|██████▋   | 7221/10702 [1:11:04<28:43,  2.02it/s] 67%|██████▋   | 7222/10702 [1:11:05<28:43,  2.02it/s] 67%|██████▋   | 7223/10702 [1:11:05<28:43,  2.02it/s] 68%|██████▊   | 7224/10702 [1:11:06<28:42,  2.02it/s] 68%|██████▊   | 7225/10702 [1:11:06<28:41,  2.02it/s]{'loss': 3.6044, 'grad_norm': 0.21318694949150085, 'learning_rate': 0.0002885635906585582, 'epoch': 0.68}                                                      
+ 68%|██████▊   | 7225/10702 [1:11:06<28:41,  2.02it/s] 68%|██████▊   | 7226/10702 [1:11:07<28:44,  2.02it/s] 68%|██████▊   | 7227/10702 [1:11:07<28:42,  2.02it/s] 68%|██████▊   | 7228/10702 [1:11:08<28:43,  2.02it/s] 68%|██████▊   | 7229/10702 [1:11:08<28:42,  2.02it/s] 68%|██████▊   | 7230/10702 [1:11:09<28:42,  2.02it/s] 68%|██████▊   | 7231/10702 [1:11:09<28:41,  2.02it/s] 68%|██████▊   | 7232/10702 [1:11:10<28:39,  2.02it/s] 68%|██████▊   | 7233/10702 [1:11:10<28:38,  2.02it/s] 68%|██████▊   | 7234/10702 [1:11:11<28:37,  2.02it/s] 68%|██████▊   | 7235/10702 [1:11:11<28:34,  2.02it/s] 68%|██████▊   | 7236/10702 [1:11:12<28:36,  2.02it/s] 68%|██████▊   | 7237/10702 [1:11:12<28:34,  2.02it/s] 68%|██████▊   | 7238/10702 [1:11:13<28:36,  2.02it/s] 68%|██████▊   | 7239/10702 [1:11:13<28:36,  2.02it/s] 68%|██████▊   | 7240/10702 [1:11:14<28:36,  2.02it/s] 68%|██████▊   | 7241/10702 [1:11:14<28:33,  2.02it/s] 68%|██████▊   | 7242/10702 [1:11:15<28:35,  2.02it/s] 68%|██████▊   | 7243/10702 [1:11:15<28:33,  2.02it/s] 68%|██████▊   | 7244/10702 [1:11:16<28:33,  2.02it/s] 68%|██████▊   | 7245/10702 [1:11:16<28:31,  2.02it/s] 68%|██████▊   | 7246/10702 [1:11:17<28:32,  2.02it/s] 68%|██████▊   | 7247/10702 [1:11:17<28:31,  2.02it/s] 68%|██████▊   | 7248/10702 [1:11:18<28:32,  2.02it/s] 68%|██████▊   | 7249/10702 [1:11:18<28:32,  2.02it/s] 68%|██████▊   | 7250/10702 [1:11:19<28:32,  2.02it/s]{'loss': 3.6058, 'grad_norm': 0.20126260817050934, 'learning_rate': 0.00028487572277686546, 'epoch': 0.68}
+                                                       68%|██████▊   | 7250/10702 [1:11:19<28:32,  2.02it/s] 68%|██████▊   | 7251/10702 [1:11:19<28:32,  2.02it/s] 68%|██████▊   | 7252/10702 [1:11:20<28:31,  2.02it/s] 68%|██████▊   | 7253/10702 [1:11:20<28:30,  2.02it/s] 68%|██████▊   | 7254/10702 [1:11:21<28:28,  2.02it/s] 68%|██████▊   | 7255/10702 [1:11:21<28:29,  2.02it/s] 68%|██████▊   | 7256/10702 [1:11:22<28:25,  2.02it/s] 68%|██████▊   | 7257/10702 [1:11:22<28:26,  2.02it/s] 68%|██████▊   | 7258/10702 [1:11:23<28:25,  2.02it/s] 68%|██████▊   | 7259/10702 [1:11:23<28:26,  2.02it/s] 68%|██████▊   | 7260/10702 [1:11:24<28:24,  2.02it/s] 68%|██████▊   | 7261/10702 [1:11:24<28:25,  2.02it/s] 68%|██���███▊   | 7262/10702 [1:11:25<28:24,  2.02it/s] 68%|██████▊   | 7263/10702 [1:11:25<28:24,  2.02it/s] 68%|██████▊   | 7264/10702 [1:11:26<28:26,  2.01it/s] 68%|██████▊   | 7265/10702 [1:11:26<28:24,  2.02it/s] 68%|██████▊   | 7266/10702 [1:11:27<28:23,  2.02it/s] 68%|██████▊   | 7267/10702 [1:11:27<28:25,  2.01it/s] 68%|██████▊   | 7268/10702 [1:11:28<28:39,  2.00it/s] 68%|██████▊   | 7269/10702 [1:11:28<28:37,  2.00it/s] 68%|██████▊   | 7270/10702 [1:11:29<28:32,  2.00it/s] 68%|██████▊   | 7271/10702 [1:11:29<28:32,  2.00it/s] 68%|██████▊   | 7272/10702 [1:11:30<28:26,  2.01it/s] 68%|██████▊   | 7273/10702 [1:11:30<28:26,  2.01it/s] 68%|██████▊   | 7274/10702 [1:11:31<28:25,  2.01it/s] 68%|██████▊   | 7275/10702 [1:11:31<28:27,  2.01it/s]                                                      {'loss': 3.6026, 'grad_norm': 0.19458907842636108, 'learning_rate': 0.0002812021610860228, 'epoch': 0.68}
+ 68%|██████▊   | 7275/10702 [1:11:31<28:27,  2.01it/s] 68%|██████▊   | 7276/10702 [1:11:32<28:25,  2.01it/s] 68%|██████▊   | 7277/10702 [1:11:32<28:23,  2.01it/s] 68%|██████▊   | 7278/10702 [1:11:33<28:21,  2.01it/s] 68%|██████▊   | 7279/10702 [1:11:33<28:21,  2.01it/s] 68%|██████▊   | 7280/10702 [1:11:33<28:19,  2.01it/s] 68%|██████▊   | 7281/10702 [1:11:34<28:18,  2.01it/s] 68%|██████▊   | 7282/10702 [1:11:34<28:19,  2.01it/s] 68%|██████▊   | 7283/10702 [1:11:35<28:15,  2.02it/s] 68%|██████▊   | 7284/10702 [1:11:35<28:16,  2.02it/s] 68%|██████▊   | 7285/10702 [1:11:36<28:16,  2.01it/s] 68%|██████▊   | 7286/10702 [1:11:36<28:16,  2.01it/s] 68%|██████▊   | 7287/10702 [1:11:37<28:15,  2.01it/s] 68%|██████▊   | 7288/10702 [1:11:37<28:13,  2.02it/s] 68%|██████▊   | 7289/10702 [1:11:38<28:15,  2.01it/s] 68%|██████▊   | 7290/10702 [1:11:38<28:13,  2.01it/s] 68%|██████▊   | 7291/10702 [1:11:39<28:12,  2.02it/s] 68%|██████▊   | 7292/10702 [1:11:39<28:12,  2.02it/s] 68%|██████▊   | 7293/10702 [1:11:40<28:10,  2.02it/s] 68%|██████▊   | 7294/10702 [1:11:40<28:10,  2.02it/s] 68%|██████▊   | 7295/10702 [1:11:41<28:09,  2.02it/s] 68%|██████▊   | 7296/10702 [1:11:41<28:10,  2.01it/s] 68%|██████▊   | 7297/10702 [1:11:42<28:10,  2.01it/s] 68%|██████▊   | 7298/10702 [1:11:42<28:10,  2.01it/s] 68%|██████▊   | 7299/10702 [1:11:43<28:09,  2.01it/s] 68%|██████▊   | 7300/10702 [1:11:43<28:07,  2.02it/s]                                                      {'loss': 3.6013, 'grad_norm': 0.21575237810611725, 'learning_rate': 0.0002775431498851643, 'epoch': 0.68}
+ 68%|██████▊   | 7300/10702 [1:11:43<28:07,  2.02it/s] 68%|██████▊   | 7301/10702 [1:11:44<28:10,  2.01it/s] 68%|██████▊   | 7302/10702 [1:11:44<28:08,  2.01it/s] 68%|██████▊   | 7303/10702 [1:11:45<28:06,  2.02it/s] 68%|██████▊   | 7304/10702 [1:11:45<28:08,  2.01it/s] 68%|██████▊   | 7305/10702 [1:11:46<28:06,  2.01it/s] 68%|██████▊   | 7306/10702 [1:11:46<28:04,  2.02it/s] 68%|██████▊   | 7307/10702 [1:11:47<28:03,  2.02it/s] 68%|██████▊   | 7308/10702 [1:11:47<28:03,  2.02it/s] 68%|██████▊   | 7309/10702 [1:11:48<28:01,  2.02it/s] 68%|██████▊   | 7310/10702 [1:11:48<28:00,  2.02it/s] 68%|██████▊   | 7311/10702 [1:11:49<28:00,  2.02it/s] 68%|██████▊   | 7312/10702 [1:11:49<27:58,  2.02it/s] 68%|██████▊   | 7313/10702 [1:11:50<27:57,  2.02it/s] 68%|██████▊   | 7314/10702 [1:11:50<27:57,  2.02it/s] 68%|██████▊   | 7315/10702 [1:11:51<27:57,  2.02it/s] 68%|██████▊   | 7316/10702 [1:11:51<27:55,  2.02it/s] 68%|██████▊   | 7317/10702 [1:11:52<27:55,  2.02it/s] 68%|██████▊   | 7318/10702 [1:11:52<27:54,  2.02it/s] 68%|██████▊   | 7319/10702 [1:11:53<27:56,  2.02it/s] 68%|██████▊   | 7320/10702 [1:11:53<27:56,  2.02it/s] 68%|██████▊   | 7321/10702 [1:11:54<27:55,  2.02it/s] 68%|██████▊   | 7322/10702 [1:11:54<27:53,  2.02it/s] 68%|██████▊   | 7323/10702 [1:11:55<27:55,  2.02it/s] 68%|██████▊   | 7324/10702 [1:11:55<27:52,  2.02it/s] 68%|██████▊   | 7325/10702 [1:11:56<27:53,  2.02it/s]                                                      {'loss': 3.596, 'grad_norm': 0.20192298293113708, 'learning_rate': 0.00027389893250578755, 'epoch': 0.68}
+ 68%|██████▊   | 7325/10702 [1:11:56<27:53,  2.02it/s] 68%|██████▊   | 7326/10702 [1:11:56<27:53,  2.02it/s] 68%|██████▊   | 7327/10702 [1:11:57<27:52,  2.02it/s] 68%|██████▊   | 7328/10702 [1:11:57<28:00,  2.01it/s] 68%|██████▊   | 7329/10702 [1:11:58<28:01,  2.01it/s] 68%|██████▊   | 7330/10702 [1:11:58<27:57,  2.01it/s] 69%|██████▊   | 7331/10702 [1:11:59<27:56,  2.01it/s] 69%|██████▊   | 7332/10702 [1:11:59<27:52,  2.01it/s] 69%|██████▊   | 7333/10702 [1:12:00<27:51,  2.01it/s] 69%|██████▊   | 7334/10702 [1:12:00<27:51,  2.02it/s] 69%|██████▊   | 7335/10702 [1:12:01<27:51,  2.01it/s] 69%|██████▊   | 7336/10702 [1:12:01<27:49,  2.02it/s] 69%|██████▊   | 7337/10702 [1:12:02<27:50,  2.01it/s] 69%|██████▊   | 7338/10702 [1:12:02<27:50,  2.01it/s] 69%|██████▊   | 7339/10702 [1:12:03<27:48,  2.02it/s] 69%|██████▊   | 7340/10702 [1:12:03<27:49,  2.01it/s] 69%|██████▊   | 7341/10702 [1:12:04<27:47,  2.02it/s] 69%|██████▊   | 7342/10702 [1:12:04<27:47,  2.01it/s] 69%|██████▊   | 7343/10702 [1:12:05<27:46,  2.02it/s] 69%|██████▊   | 7344/10702 [1:12:05<27:45,  2.02it/s] 69%|██████▊   | 7345/10702 [1:12:06<27:46,  2.01it/s] 69%|██████▊   | 7346/10702 [1:12:06<27:43,  2.02it/s] 69%|██████▊   | 7347/10702 [1:12:07<27:44,  2.02it/s] 69%|██████▊   | 7348/10702 [1:12:07<27:44,  2.01it/s] 69%|██████▊   | 7349/10702 [1:12:08<27:44,  2.01it/s] 69%|██████▊   | 7350/10702 [1:12:08<27:42,  2.02it/s]{'loss': 3.5908, 'grad_norm': 0.19723978638648987, 'learning_rate': 0.0002702697512955718, 'epoch': 0.69}                                                      
+ 69%|██████▊   | 7350/10702 [1:12:08<27:42,  2.02it/s] 69%|██████▊   | 7351/10702 [1:12:09<27:43,  2.01it/s] 69%|██████▊   | 7352/10702 [1:12:09<27:44,  2.01it/s] 69%|██████▊   | 7353/10702 [1:12:10<27:41,  2.02it/s] 69%|██████▊   | 7354/10702 [1:12:10<27:42,  2.01it/s] 69%|██████▊   | 7355/10702 [1:12:11<27:40,  2.02it/s] 69%|██████▊   | 7356/10702 [1:12:11<27:38,  2.02it/s] 69%|██████▊   | 7357/10702 [1:12:12<27:37,  2.02it/s] 69%|██████▉   | 7358/10702 [1:12:12<27:37,  2.02it/s] 69%|██████▉   | 7359/10702 [1:12:13<27:37,  2.02it/s] 69%|██████▉   | 7360/10702 [1:12:13<27:37,  2.02it/s] 69%|██████▉   | 7361/10702 [1:12:14<27:36,  2.02it/s] 69%|██████▉   | 7362/10702 [1:12:14<27:35,  2.02it/s] 69%|██████▉   | 7363/10702 [1:12:15<27:35,  2.02it/s] 69%|██████▉   | 7364/10702 [1:12:15<27:33,  2.02it/s] 69%|██████▉   | 7365/10702 [1:12:16<27:32,  2.02it/s] 69%|██████▉   | 7366/10702 [1:12:16<27:31,  2.02it/s] 69%|██████▉   | 7367/10702 [1:12:17<27:31,  2.02it/s] 69%|██████▉   | 7368/10702 [1:12:17<27:31,  2.02it/s] 69%|██████▉   | 7369/10702 [1:12:18<27:32,  2.02it/s] 69%|██████▉   | 7370/10702 [1:12:18<27:32,  2.02it/s] 69%|██████▉   | 7371/10702 [1:12:19<27:29,  2.02it/s] 69%|██████▉   | 7372/10702 [1:12:19<27:31,  2.02it/s] 69%|██████▉   | 7373/10702 [1:12:20<27:30,  2.02it/s] 69%|██████▉   | 7374/10702 [1:12:20<27:29,  2.02it/s] 69%|██████▉   | 7375/10702 [1:12:21<27:28,  2.02it/s]                                                      {'loss': 3.595, 'grad_norm': 0.20119479298591614, 'learning_rate': 0.00026665584760226136, 'epoch': 0.69}
+ 69%|██████▉   | 7375/10702 [1:12:21<27:28,  2.02it/s] 69%|██████▉   | 7376/10702 [1:12:21<27:30,  2.02it/s] 69%|██████▉   | 7377/10702 [1:12:22<27:28,  2.02it/s] 69%|██████▉   | 7378/10702 [1:12:22<27:28,  2.02it/s] 69%|██████▉   | 7379/10702 [1:12:23<27:28,  2.02it/s] 69%|██████▉   | 7380/10702 [1:12:23<27:27,  2.02it/s] 69%|██████▉   | 7381/10702 [1:12:24<27:25,  2.02it/s] 69%|██████▉   | 7382/10702 [1:12:24<27:27,  2.02it/s] 69%|██████▉   | 7383/10702 [1:12:25<27:25,  2.02it/s] 69%|██████▉   | 7384/10702 [1:12:25<27:26,  2.02it/s] 69%|██████▉   | 7385/10702 [1:12:26<27:25,  2.02it/s] 69%|██████▉   | 7386/10702 [1:12:26<27:25,  2.02it/s] 69%|██████▉   | 7387/10702 [1:12:27<27:23,  2.02it/s] 69%|██████▉   | 7388/10702 [1:12:27<27:26,  2.01it/s] 69%|██████▉   | 7389/10702 [1:12:28<27:31,  2.01it/s] 69%|██████▉   | 7390/10702 [1:12:28<27:29,  2.01it/s] 69%|██████▉   | 7391/10702 [1:12:29<27:25,  2.01it/s] 69%|██████▉   | 7392/10702 [1:12:29<27:23,  2.01it/s] 69%|██████▉   | 7393/10702 [1:12:30<27:20,  2.02it/s] 69%|██████▉   | 7394/10702 [1:12:30<27:19,  2.02it/s] 69%|██████▉   | 7395/10702 [1:12:31<27:18,  2.02it/s] 69%|██████▉   | 7396/10702 [1:12:31<27:18,  2.02it/s] 69%|██████▉   | 7397/10702 [1:12:32<27:16,  2.02it/s] 69%|██████▉   | 7398/10702 [1:12:32<27:16,  2.02it/s] 69%|██████▉   | 7399/10702 [1:12:33<27:15,  2.02it/s] 69%|██████▉   | 7400/10702 [1:12:33<27:16,  2.02it/s]                                                      {'loss': 3.5857, 'grad_norm': 0.2004200667142868, 'learning_rate': 0.000263057461757615, 'epoch': 0.69}
+ 69%|██████▉   | 7400/10702 [1:12:33<27:16,  2.02it/s] 69%|██████▉   | 7401/10702 [1:12:34<27:19,  2.01it/s] 69%|██████▉   | 7402/10702 [1:12:34<27:18,  2.01it/s] 69%|██████▉   | 7403/10702 [1:12:35<27:17,  2.01it/s] 69%|██████▉   | 7404/10702 [1:12:35<27:15,  2.02it/s] 69%|██████▉   | 7405/10702 [1:12:36<27:14,  2.02it/s] 69%|██████▉   | 7406/10702 [1:12:36<27:13,  2.02it/s] 69%|██████▉   | 7407/10702 [1:12:36<27:11,  2.02it/s] 69%|██████▉   | 7408/10702 [1:12:37<27:11,  2.02it/s] 69%|██████▉   | 7409/10702 [1:12:37<27:10,  2.02it/s] 69%|██████▉   | 7410/10702 [1:12:38<27:14,  2.01it/s] 69%|██████▉   | 7411/10702 [1:12:38<27:12,  2.02it/s] 69%|██████▉   | 7412/10702 [1:12:39<27:11,  2.02it/s] 69%|██████▉   | 7413/10702 [1:12:39<27:10,  2.02it/s] 69%|██████▉   | 7414/10702 [1:12:40<27:09,  2.02it/s] 69%|██████▉   | 7415/10702 [1:12:40<27:09,  2.02it/s] 69%|██████▉   | 7416/10702 [1:12:41<27:07,  2.02it/s] 69%|██████▉   | 7417/10702 [1:12:41<27:08,  2.02it/s] 69%|██████▉   | 7418/10702 [1:12:42<27:06,  2.02it/s] 69%|██████▉   | 7419/10702 [1:12:42<27:08,  2.02it/s] 69%|██████▉   | 7420/10702 [1:12:43<27:09,  2.01it/s] 69%|██████▉   | 7421/10702 [1:12:43<27:07,  2.02it/s] 69%|██████▉   | 7422/10702 [1:12:44<27:08,  2.01it/s] 69%|██████▉   | 7423/10702 [1:12:44<27:06,  2.02it/s] 69%|██████▉   | 7424/10702 [1:12:45<27:06,  2.02it/s] 69%|██████▉   | 7425/10702 [1:12:45<27:05,  2.02it/s]{'loss': 3.5955, 'grad_norm': 0.20271597802639008, 'learning_rate': 0.00025947483306142425, 'epoch': 0.69}
+                                                       69%|██████▉   | 7425/10702 [1:12:45<27:05,  2.02it/s] 69%|██████▉   | 7426/10702 [1:12:46<27:08,  2.01it/s] 69%|██████▉   | 7427/10702 [1:12:46<27:07,  2.01it/s] 69%|██████▉   | 7428/10702 [1:12:47<27:06,  2.01it/s] 69%|██████▉   | 7429/10702 [1:12:47<27:06,  2.01it/s] 69%|██████▉   | 7430/10702 [1:12:48<27:06,  2.01it/s] 69%|██████▉   | 7431/10702 [1:12:48<27:04,  2.01it/s] 69%|██████▉   | 7432/10702 [1:12:49<27:04,  2.01it/s] 69%|██████▉   | 7433/10702 [1:12:49<27:02,  2.01it/s] 69%|██████▉   | 7434/10702 [1:12:50<27:03,  2.01it/s] 69%|██████▉   | 7435/10702 [1:12:50<27:03,  2.01it/s] 69%|██████▉   | 7436/10702 [1:12:51<27:01,  2.01it/s] 69%|██████▉   | 7437/10702 [1:12:51<27:00,  2.02it/s] 70%|██████▉   | 7438/10702 [1:12:52<26:57,  2.02it/s] 70%|██████▉   | 7439/10702 [1:12:52<26:58,  2.02it/s] 70%|██████▉   | 7440/10702 [1:12:53<26:57,  2.02it/s] 70%|██████▉   | 7441/10702 [1:12:53<26:55,  2.02it/s] 70%|██████▉   | 7442/10702 [1:12:54<26:55,  2.02it/s] 70%|██████▉   | 7443/10702 [1:12:54<26:55,  2.02it/s] 70%|██████▉   | 7444/10702 [1:12:55<26:55,  2.02it/s] 70%|██████▉   | 7445/10702 [1:12:55<26:54,  2.02it/s] 70%|██████▉   | 7446/10702 [1:12:56<26:53,  2.02it/s] 70%|██████▉   | 7447/10702 [1:12:56<26:53,  2.02it/s] 70%|██████▉   | 7448/10702 [1:12:57<26:52,  2.02it/s] 70%|██████▉   | 7449/10702 [1:12:57<26:58,  2.01it/s] 70%|██████▉   | 7450/10702 [1:12:58<27:01,  2.01it/s]{'loss': 3.5918, 'grad_norm': 0.20521557331085205, 'learning_rate': 0.00025590819976559865, 'epoch': 0.7}                                                      
+ 70%|██████▉   | 7450/10702 [1:12:58<27:01,  2.01it/s] 70%|██████▉   | 7451/10702 [1:12:58<27:00,  2.01it/s] 70%|██████▉   | 7452/10702 [1:12:59<26:57,  2.01it/s] 70%|██████▉   | 7453/10702 [1:12:59<26:54,  2.01it/s] 70%|██████▉   | 7454/10702 [1:13:00<26:52,  2.01it/s] 70%|██████▉   | 7455/10702 [1:13:00<26:50,  2.02it/s] 70%|██████▉   | 7456/10702 [1:13:01<26:49,  2.02it/s] 70%|██████▉   | 7457/10702 [1:13:01<26:48,  2.02it/s] 70%|██████▉   | 7458/10702 [1:13:02<26:47,  2.02it/s] 70%|██████▉   | 7459/10702 [1:13:02<26:46,  2.02it/s] 70%|██████▉   | 7460/10702 [1:13:03<26:45,  2.02it/s] 70%|██████▉   | 7461/10702 [1:13:03<26:47,  2.02it/s] 70%|██████▉   | 7462/10702 [1:13:04<26:47,  2.02it/s] 70%|██████▉   | 7463/10702 [1:13:04<26:46,  2.02it/s] 70%|██████▉   | 7464/10702 [1:13:05<26:45,  2.02it/s] 70%|██████▉   | 7465/10702 [1:13:05<26:44,  2.02it/s] 70%|██████▉   | 7466/10702 [1:13:06<26:45,  2.02it/s] 70%|██████▉   | 7467/10702 [1:13:06<26:44,  2.02it/s] 70%|██████▉   | 7468/10702 [1:13:07<26:44,  2.02it/s] 70%|██████▉   | 7469/10702 [1:13:07<26:41,  2.02it/s] 70%|██████▉   | 7470/10702 [1:13:08<26:41,  2.02it/s] 70%|██████▉   | 7471/10702 [1:13:08<26:41,  2.02it/s] 70%|██████▉   | 7472/10702 [1:13:09<26:40,  2.02it/s] 70%|██████▉   | 7473/10702 [1:13:09<26:39,  2.02it/s] 70%|██████▉   | 7474/10702 [1:13:10<26:38,  2.02it/s] 70%|██████▉   | 7475/10702 [1:13:10<26:38,  2.02it/s]                                                      {'loss': 3.5952, 'grad_norm': 0.20110438764095306, 'learning_rate': 0.0002523577990583222, 'epoch': 0.7}
+ 70%|██████▉   | 7475/10702 [1:13:10<26:38,  2.02it/s] 70%|██████▉   | 7476/10702 [1:13:11<26:39,  2.02it/s] 70%|██████▉   | 7477/10702 [1:13:11<26:38,  2.02it/s] 70%|██████▉   | 7478/10702 [1:13:12<26:36,  2.02it/s] 70%|██████▉   | 7479/10702 [1:13:12<26:36,  2.02it/s] 70%|██████▉   | 7480/10702 [1:13:13<26:36,  2.02it/s] 70%|██████▉   | 7481/10702 [1:13:13<26:38,  2.02it/s] 70%|██████▉   | 7482/10702 [1:13:14<26:36,  2.02it/s] 70%|██████▉   | 7483/10702 [1:13:14<26:35,  2.02it/s] 70%|██████▉   | 7484/10702 [1:13:15<26:35,  2.02it/s] 70%|██████▉   | 7485/10702 [1:13:15<26:33,  2.02it/s] 70%|██████▉   | 7486/10702 [1:13:16<26:34,  2.02it/s] 70%|██████▉   | 7487/10702 [1:13:16<26:32,  2.02it/s] 70%|██████▉   | 7488/10702 [1:13:17<26:32,  2.02it/s] 70%|██████▉   | 7489/10702 [1:13:17<26:31,  2.02it/s] 70%|██████▉   | 7490/10702 [1:13:18<26:31,  2.02it/s] 70%|██████▉   | 7491/10702 [1:13:18<26:32,  2.02it/s] 70%|███████   | 7492/10702 [1:13:19<26:29,  2.02it/s] 70%|███████   | 7493/10702 [1:13:19<26:32,  2.02it/s] 70%|███████   | 7494/10702 [1:13:20<26:29,  2.02it/s] 70%|███████   | 7495/10702 [1:13:20<26:29,  2.02it/s] 70%|███████   | 7496/10702 [1:13:21<26:28,  2.02it/s] 70%|███████   | 7497/10702 [1:13:21<26:27,  2.02it/s] 70%|███████   | 7498/10702 [1:13:22<26:26,  2.02it/s] 70%|███████   | 7499/10702 [1:13:22<26:25,  2.02it/s] 70%|███████   | 7500/10702 [1:13:23<26:25,  2.02it/s]                                                      {'loss': 3.5874, 'grad_norm': 0.19560885429382324, 'learning_rate': 0.00024882386704827916, 'epoch': 0.7}
+ 70%|███████   | 7500/10702 [1:13:23<26:25,  2.02it/s] 70%|███████   | 7501/10702 [1:13:23<26:26,  2.02it/s] 70%|███████   | 7502/10702 [1:13:24<30:55,  1.72it/s] 70%|███████   | 7503/10702 [1:13:24<29:33,  1.80it/s] 70%|███████   | 7504/10702 [1:13:25<28:39,  1.86it/s] 70%|███████   | 7505/10702 [1:13:25<27:57,  1.91it/s] 70%|███████   | 7506/10702 [1:13:26<27:28,  1.94it/s] 70%|███████   | 7507/10702 [1:13:26<27:07,  1.96it/s] 70%|███████   | 7508/10702 [1:13:27<26:54,  1.98it/s] 70%|███████   | 7509/10702 [1:13:27<26:51,  1.98it/s] 70%|███████   | 7510/10702 [1:13:28<26:49,  1.98it/s] 70%|███████   | 7511/10702 [1:13:28<26:40,  1.99it/s] 70%|███████   | 7512/10702 [1:13:29<26:34,  2.00it/s] 70%|███████   | 7513/10702 [1:13:29<26:29,  2.01it/s] 70%|███████   | 7514/10702 [1:13:30<26:25,  2.01it/s] 70%|███████   | 7515/10702 [1:13:30<26:22,  2.01it/s] 70%|███████   | 7516/10702 [1:13:31<26:20,  2.02it/s] 70%|███████   | 7517/10702 [1:13:31<26:19,  2.02it/s] 70%|███████   | 7518/10702 [1:13:32<26:17,  2.02it/s] 70%|███████   | 7519/10702 [1:13:32<26:18,  2.02it/s] 70%|███████   | 7520/10702 [1:13:33<26:17,  2.02it/s] 70%|███████   | 7521/10702 [1:13:33<26:17,  2.02it/s] 70%|███████   | 7522/10702 [1:13:34<26:16,  2.02it/s] 70%|███████   | 7523/10702 [1:13:34<26:13,  2.02it/s] 70%|███████   | 7524/10702 [1:13:35<26:12,  2.02it/s] 70%|███████   | 7525/10702 [1:13:35<26:12,  2.02it/s]                                                      {'loss': 3.5882, 'grad_norm': 0.20464617013931274, 'learning_rate': 0.0002453066387489537, 'epoch': 0.7}
+ 70%|███████   | 7525/10702 [1:13:35<26:12,  2.02it/s] 70%|███████   | 7526/10702 [1:13:36<26:15,  2.02it/s] 70%|███████   | 7527/10702 [1:13:36<26:14,  2.02it/s] 70%|███████   | 7528/10702 [1:13:37<26:13,  2.02it/s] 70%|███████   | 7529/10702 [1:13:37<26:11,  2.02it/s] 70%|███████   | 7530/10702 [1:13:38<26:11,  2.02it/s] 70%|███████   | 7531/10702 [1:13:38<26:10,  2.02it/s] 70%|███████   | 7532/10702 [1:13:39<26:10,  2.02it/s] 70%|███████   | 7533/10702 [1:13:40<30:34,  1.73it/s] 70%|███████   | 7534/10702 [1:13:40<29:14,  1.81it/s] 70%|███████   | 7535/10702 [1:13:41<28:18,  1.86it/s] 70%|███████   | 7536/10702 [1:13:41<27:39,  1.91it/s] 70%|███████   | 7537/10702 [1:13:42<27:14,  1.94it/s] 70%|███████   | 7538/10702 [1:13:42<26:53,  1.96it/s] 70%|███████   | 7539/10702 [1:13:43<26:39,  1.98it/s] 70%|███████   | 7540/10702 [1:13:43<26:27,  1.99it/s] 70%|███████   | 7541/10702 [1:13:44<26:20,  2.00it/s] 70%|███████   | 7542/10702 [1:13:44<26:19,  2.00it/s] 70%|███████   | 7543/10702 [1:13:44<26:13,  2.01it/s] 70%|███████   | 7544/10702 [1:13:45<26:10,  2.01it/s] 71%|███████   | 7545/10702 [1:13:45<26:08,  2.01it/s] 71%|███████   | 7546/10702 [1:13:46<26:07,  2.01it/s] 71%|███████   | 7547/10702 [1:13:46<26:06,  2.01it/s] 71%|███████   | 7548/10702 [1:13:47<26:04,  2.02it/s] 71%|███████   | 7549/10702 [1:13:47<26:03,  2.02it/s] 71%|███████   | 7550/10702 [1:13:48<26:03,  2.02it/s]{'loss': 3.5883, 'grad_norm': 0.20960785448551178, 'learning_rate': 0.0002418063480629989, 'epoch': 0.71}                                                      
+ 71%|███████   | 7550/10702 [1:13:48<26:03,  2.02it/s] 71%|███████   | 7551/10702 [1:13:48<26:03,  2.01it/s] 71%|███████   | 7552/10702 [1:13:49<26:03,  2.01it/s] 71%|███████   | 7553/10702 [1:13:49<26:02,  2.02it/s] 71%|███████   | 7554/10702 [1:13:50<26:03,  2.01it/s] 71%|███████   | 7555/10702 [1:13:50<26:01,  2.01it/s] 71%|███████   | 7556/10702 [1:13:51<26:02,  2.01it/s] 71%|███████   | 7557/10702 [1:13:51<26:00,  2.02it/s] 71%|███████   | 7558/10702 [1:13:52<25:59,  2.02it/s] 71%|███████   | 7559/10702 [1:13:52<26:00,  2.01it/s] 71%|███████   | 7560/10702 [1:13:53<26:00,  2.01it/s] 71%|███████   | 7561/10702 [1:13:53<25:59,  2.01it/s] 71%|███████   | 7562/10702 [1:13:54<26:00,  2.01it/s] 71%|███████   | 7563/10702 [1:13:54<25:58,  2.01it/s] 71%|███████   | 7564/10702 [1:13:55<25:58,  2.01it/s] 71%|███████   | 7565/10702 [1:13:55<25:56,  2.01it/s] 71%|███████   | 7566/10702 [1:13:56<25:56,  2.01it/s] 71%|███████   | 7567/10702 [1:13:56<25:54,  2.02it/s] 71%|███████   | 7568/10702 [1:13:57<25:54,  2.02it/s] 71%|███████   | 7569/10702 [1:13:57<26:00,  2.01it/s] 71%|███████   | 7570/10702 [1:13:58<26:02,  2.00it/s] 71%|███████   | 7571/10702 [1:13:58<25:57,  2.01it/s] 71%|███████   | 7572/10702 [1:13:59<25:55,  2.01it/s] 71%|███████   | 7573/10702 [1:13:59<25:53,  2.01it/s] 71%|███████   | 7574/10702 [1:14:00<25:52,  2.01it/s] 71%|███████   | 7575/10702 [1:14:00<25:52,  2.01it/s]                                                      {'loss': 3.5824, 'grad_norm': 0.20289121568202972, 'learning_rate': 0.0002383232277666837, 'epoch': 0.71}
+ 71%|███████   | 7575/10702 [1:14:00<25:52,  2.01it/s] 71%|███████   | 7576/10702 [1:14:01<25:53,  2.01it/s] 71%|███████   | 7577/10702 [1:14:01<25:50,  2.02it/s] 71%|███████   | 7578/10702 [1:14:02<25:49,  2.02it/s] 71%|███████   | 7579/10702 [1:14:02<25:48,  2.02it/s] 71%|███████   | 7580/10702 [1:14:03<25:47,  2.02it/s] 71%|███████   | 7581/10702 [1:14:03<25:46,  2.02it/s] 71%|███████   | 7582/10702 [1:14:04<25:47,  2.02it/s] 71%|███████   | 7583/10702 [1:14:04<25:46,  2.02it/s] 71%|███████   | 7584/10702 [1:14:05<25:47,  2.01it/s] 71%|███████   | 7585/10702 [1:14:05<25:46,  2.02it/s] 71%|███████   | 7586/10702 [1:14:06<25:46,  2.01it/s] 71%|███████   | 7587/10702 [1:14:06<25:43,  2.02it/s] 71%|███████   | 7588/10702 [1:14:07<25:44,  2.02it/s] 71%|███████   | 7589/10702 [1:14:07<25:42,  2.02it/s] 71%|███████   | 7590/10702 [1:14:08<25:41,  2.02it/s] 71%|███████   | 7591/10702 [1:14:08<25:39,  2.02it/s] 71%|███████   | 7592/10702 [1:14:09<25:39,  2.02it/s] 71%|███████   | 7593/10702 [1:14:09<25:39,  2.02it/s] 71%|███████   | 7594/10702 [1:14:10<25:38,  2.02it/s] 71%|███████   | 7595/10702 [1:14:10<25:38,  2.02it/s] 71%|███████   | 7596/10702 [1:14:11<25:37,  2.02it/s] 71%|███████   | 7597/10702 [1:14:11<25:37,  2.02it/s] 71%|███████   | 7598/10702 [1:14:12<25:37,  2.02it/s] 71%|███████   | 7599/10702 [1:14:12<25:37,  2.02it/s] 71%|███████   | 7600/10702 [1:14:13<25:36,  2.02it/s]                                                      {'loss': 3.5799, 'grad_norm': 0.1985217183828354, 'learning_rate': 0.0002348575094944122, 'epoch': 0.71}
+ 71%|███████   | 7600/10702 [1:14:13<25:36,  2.02it/s] 71%|███████   | 7601/10702 [1:14:13<25:37,  2.02it/s] 71%|███████   | 7602/10702 [1:14:14<25:37,  2.02it/s] 71%|███████   | 7603/10702 [1:14:14<25:35,  2.02it/s] 71%|███████   | 7604/10702 [1:14:15<25:35,  2.02it/s] 71%|███████   | 7605/10702 [1:14:15<25:32,  2.02it/s] 71%|███████   | 7606/10702 [1:14:16<25:33,  2.02it/s] 71%|███████   | 7607/10702 [1:14:16<25:32,  2.02it/s] 71%|███████   | 7608/10702 [1:14:17<25:32,  2.02it/s] 71%|███████   | 7609/10702 [1:14:17<25:31,  2.02it/s] 71%|███████   | 7610/10702 [1:14:18<25:32,  2.02it/s] 71%|███████   | 7611/10702 [1:14:18<25:31,  2.02it/s] 71%|███████   | 7612/10702 [1:14:19<25:31,  2.02it/s] 71%|███████   | 7613/10702 [1:14:19<25:29,  2.02it/s] 71%|███████   | 7614/10702 [1:14:20<25:28,  2.02it/s] 71%|███████   | 7615/10702 [1:14:20<25:30,  2.02it/s] 71%|███████   | 7616/10702 [1:14:21<25:29,  2.02it/s] 71%|███████   | 7617/10702 [1:14:21<25:28,  2.02it/s] 71%|███████   | 7618/10702 [1:14:22<25:27,  2.02it/s] 71%|███████   | 7619/10702 [1:14:22<25:27,  2.02it/s] 71%|███████   | 7620/10702 [1:14:23<25:26,  2.02it/s] 71%|███████   | 7621/10702 [1:14:23<25:26,  2.02it/s] 71%|███████   | 7622/10702 [1:14:24<25:26,  2.02it/s] 71%|███████   | 7623/10702 [1:14:24<25:25,  2.02it/s] 71%|███████   | 7624/10702 [1:14:25<25:26,  2.02it/s] 71%|███████   | 7625/10702 [1:14:25<25:24,  2.02it/s]{'loss': 3.5909, 'grad_norm': 0.19676433503627777, 'learning_rate': 0.00023140942372331926, 'epoch': 0.71}
+                                                       71%|███████   | 7625/10702 [1:14:25<25:24,  2.02it/s] 71%|███████▏  | 7626/10702 [1:14:26<25:25,  2.02it/s] 71%|███████▏  | 7627/10702 [1:14:26<25:23,  2.02it/s] 71%|███████▏  | 7628/10702 [1:14:27<25:23,  2.02it/s] 71%|███████▏  | 7629/10702 [1:14:27<25:25,  2.01it/s] 71%|███████▏  | 7630/10702 [1:14:28<25:31,  2.01it/s] 71%|███████▏  | 7631/10702 [1:14:28<25:26,  2.01it/s] 71%|███████▏  | 7632/10702 [1:14:29<25:25,  2.01it/s] 71%|███████▏  | 7633/10702 [1:14:29<25:23,  2.01it/s] 71%|███████▏  | 7634/10702 [1:14:30<25:23,  2.01it/s] 71%|███████▏  | 7635/10702 [1:14:30<25:23,  2.01it/s] 71%|███████▏  | 7636/10702 [1:14:31<25:20,  2.02it/s] 71%|███████▏  | 7637/10702 [1:14:31<25:19,  2.02it/s] 71%|███████▏  | 7638/10702 [1:14:32<25:18,  2.02it/s] 71%|███████▏  | 7639/10702 [1:14:32<25:19,  2.02it/s] 71%|███████▏  | 7640/10702 [1:14:33<25:19,  2.02it/s] 71%|███████▏  | 7641/10702 [1:14:33<25:18,  2.02it/s] 71%|███████▏  | 7642/10702 [1:14:34<25:16,  2.02it/s] 71%|███████▏  | 7643/10702 [1:14:34<25:17,  2.02it/s] 71%|███████▏  | 7644/10702 [1:14:35<25:15,  2.02it/s] 71%|███████▏  | 7645/10702 [1:14:35<25:16,  2.02it/s] 71%|███████▏  | 7646/10702 [1:14:36<25:14,  2.02it/s] 71%|███████▏  | 7647/10702 [1:14:36<25:13,  2.02it/s] 71%|███████▏  | 7648/10702 [1:14:37<25:12,  2.02it/s] 71%|███████▏  | 7649/10702 [1:14:37<25:13,  2.02it/s] 71%|███████▏  | 7650/10702 [1:14:38<25:13,  2.02it/s]{'loss': 3.5886, 'grad_norm': 0.20557428896427155, 'learning_rate': 0.00022797919975794297, 'epoch': 0.71}
+                                                       71%|███████▏  | 7650/10702 [1:14:38<25:13,  2.02it/s] 71%|███████▏  | 7651/10702 [1:14:38<25:13,  2.02it/s] 72%|███████▏  | 7652/10702 [1:14:39<25:12,  2.02it/s] 72%|███████▏  | 7653/10702 [1:14:39<25:12,  2.02it/s] 72%|███████▏  | 7654/10702 [1:14:40<25:10,  2.02it/s] 72%|███████▏  | 7655/10702 [1:14:40<25:10,  2.02it/s] 72%|███████▏  | 7656/10702 [1:14:41<25:07,  2.02it/s] 72%|███████▏  | 7657/10702 [1:14:41<25:08,  2.02it/s] 72%|███████▏  | 7658/10702 [1:14:42<25:06,  2.02it/s] 72%|███████▏  | 7659/10702 [1:14:42<25:07,  2.02it/s] 72%|███████▏  | 7660/10702 [1:14:43<25:06,  2.02it/s] 72%|███████▏  | 7661/10702 [1:14:43<25:05,  2.02it/s] 72%|███████▏  | 7662/10702 [1:14:44<25:05,  2.02it/s] 72%|███████▏  | 7663/10702 [1:14:44<25:04,  2.02it/s] 72%|███████▏  | 7664/10702 [1:14:44<25:04,  2.02it/s] 72%|███████▏  | 7665/10702 [1:14:45<25:03,  2.02it/s] 72%|███████▏  | 7666/10702 [1:14:45<25:03,  2.02it/s] 72%|███████▏  | 7667/10702 [1:14:46<25:04,  2.02it/s] 72%|███████▏  | 7668/10702 [1:14:46<25:04,  2.02it/s] 72%|███████▏  | 7669/10702 [1:14:47<25:03,  2.02it/s] 72%|███████▏  | 7670/10702 [1:14:47<25:03,  2.02it/s] 72%|███████▏  | 7671/10702 [1:14:48<25:03,  2.02it/s] 72%|███████▏  | 7672/10702 [1:14:48<25:01,  2.02it/s] 72%|███████▏  | 7673/10702 [1:14:49<25:02,  2.02it/s] 72%|███████▏  | 7674/10702 [1:14:49<24:59,  2.02it/s] 72%|███████▏  | 7675/10702 [1:14:50<25:00,  2.02it/s]{'loss': 3.5837, 'grad_norm': 0.19585412740707397, 'learning_rate': 0.00022456706571497633, 'epoch': 0.72}
+                                                       72%|███████▏  | 7675/10702 [1:14:50<25:00,  2.02it/s] 72%|███████▏  | 7676/10702 [1:14:50<25:00,  2.02it/s] 72%|███████▏  | 7677/10702 [1:14:51<24:58,  2.02it/s] 72%|███████▏  | 7678/10702 [1:14:51<24:57,  2.02it/s] 72%|███████▏  | 7679/10702 [1:14:52<24:56,  2.02it/s] 72%|███████▏  | 7680/10702 [1:14:52<24:58,  2.02it/s] 72%|███████▏  | 7681/10702 [1:14:53<24:56,  2.02it/s] 72%|███████▏  | 7682/10702 [1:14:53<24:57,  2.02it/s] 72%|███████▏  | 7683/10702 [1:14:54<24:55,  2.02it/s] 72%|███████▏  | 7684/10702 [1:14:54<24:55,  2.02it/s] 72%|███████▏  | 7685/10702 [1:14:55<24:55,  2.02it/s] 72%|███████▏  | 7686/10702 [1:14:55<24:54,  2.02it/s] 72%|███████▏  | 7687/10702 [1:14:56<24:54,  2.02it/s] 72%|███████▏  | 7688/10702 [1:14:56<24:54,  2.02it/s] 72%|███████▏  | 7689/10702 [1:14:57<24:53,  2.02it/s] 72%|███████▏  | 7690/10702 [1:14:57<24:58,  2.01it/s] 72%|███████▏  | 7691/10702 [1:14:58<25:07,  2.00it/s] 72%|███████▏  | 7692/10702 [1:14:58<25:03,  2.00it/s] 72%|███████▏  | 7693/10702 [1:14:59<25:01,  2.00it/s] 72%|███████▏  | 7694/10702 [1:14:59<24:59,  2.01it/s] 72%|███████▏  | 7695/10702 [1:15:00<24:57,  2.01it/s] 72%|███████▏  | 7696/10702 [1:15:00<24:55,  2.01it/s] 72%|███████▏  | 7697/10702 [1:15:01<24:55,  2.01it/s] 72%|███████▏  | 7698/10702 [1:15:01<24:53,  2.01it/s] 72%|███████▏  | 7699/10702 [1:15:02<24:52,  2.01it/s] 72%|███████▏  | 7700/10702 [1:15:02<24:51,  2.01it/s]{'loss': 3.5781, 'grad_norm': 0.2045210897922516, 'learning_rate': 0.00022117324850809707, 'epoch': 0.72}
+                                                       72%|███████▏  | 7700/10702 [1:15:02<24:51,  2.01it/s] 72%|███████▏  | 7701/10702 [1:15:03<24:51,  2.01it/s] 72%|███████▏  | 7702/10702 [1:15:03<24:49,  2.01it/s] 72%|███████▏  | 7703/10702 [1:15:04<24:48,  2.01it/s] 72%|███████▏  | 7704/10702 [1:15:04<24:47,  2.02it/s] 72%|███████▏  | 7705/10702 [1:15:05<24:46,  2.02it/s] 72%|███████▏  | 7706/10702 [1:15:05<24:46,  2.02it/s] 72%|███████▏  | 7707/10702 [1:15:06<24:45,  2.02it/s] 72%|███████▏  | 7708/10702 [1:15:06<24:44,  2.02it/s] 72%|███████▏  | 7709/10702 [1:15:07<24:43,  2.02it/s] 72%|███████▏  | 7710/10702 [1:15:07<24:41,  2.02it/s] 72%|███████▏  | 7711/10702 [1:15:08<24:40,  2.02it/s] 72%|███████▏  | 7712/10702 [1:15:08<24:41,  2.02it/s] 72%|███████▏  | 7713/10702 [1:15:09<24:41,  2.02it/s] 72%|███████▏  | 7714/10702 [1:15:09<24:41,  2.02it/s] 72%|███████▏  | 7715/10702 [1:15:10<24:40,  2.02it/s] 72%|███████▏  | 7716/10702 [1:15:10<24:39,  2.02it/s] 72%|███████▏  | 7717/10702 [1:15:11<24:38,  2.02it/s] 72%|███████▏  | 7718/10702 [1:15:11<24:38,  2.02it/s] 72%|███████▏  | 7719/10702 [1:15:12<24:38,  2.02it/s] 72%|███████▏  | 7720/10702 [1:15:12<24:37,  2.02it/s] 72%|███████▏  | 7721/10702 [1:15:13<24:35,  2.02it/s] 72%|███████▏  | 7722/10702 [1:15:13<24:35,  2.02it/s] 72%|███████▏  | 7723/10702 [1:15:14<24:36,  2.02it/s] 72%|███████▏  | 7724/10702 [1:15:14<24:35,  2.02it/s] 72%|███████▏  | 7725/10702 [1:15:15<24:34,  2.02it/s]{'loss': 3.5775, 'grad_norm': 0.19699907302856445, 'learning_rate': 0.00021779797383287641, 'epoch': 0.72}
+                                                       72%|███████▏  | 7725/10702 [1:15:15<24:34,  2.02it/s] 72%|███████▏  | 7726/10702 [1:15:15<24:36,  2.02it/s] 72%|███████▏  | 7727/10702 [1:15:16<24:36,  2.02it/s] 72%|███████▏  | 7728/10702 [1:15:16<24:34,  2.02it/s] 72%|███████▏  | 7729/10702 [1:15:17<24:33,  2.02it/s] 72%|███████▏  | 7730/10702 [1:15:17<24:34,  2.02it/s] 72%|███████▏  | 7731/10702 [1:15:18<24:32,  2.02it/s] 72%|███████▏  | 7732/10702 [1:15:18<24:32,  2.02it/s] 72%|███████▏  | 7733/10702 [1:15:19<24:29,  2.02it/s] 72%|███████▏  | 7734/10702 [1:15:19<24:30,  2.02it/s] 72%|███████▏  | 7735/10702 [1:15:20<24:29,  2.02it/s] 72%|███████▏  | 7736/10702 [1:15:20<24:29,  2.02it/s] 72%|███████▏  | 7737/10702 [1:15:21<24:28,  2.02it/s] 72%|███████▏  | 7738/10702 [1:15:21<24:29,  2.02it/s] 72%|███████▏  | 7739/10702 [1:15:22<24:27,  2.02it/s] 72%|███████▏  | 7740/10702 [1:15:22<24:27,  2.02it/s] 72%|███████▏  | 7741/10702 [1:15:23<24:25,  2.02it/s] 72%|███████▏  | 7742/10702 [1:15:23<24:26,  2.02it/s] 72%|███████▏  | 7743/10702 [1:15:24<24:24,  2.02it/s] 72%|███████▏  | 7744/10702 [1:15:24<24:24,  2.02it/s] 72%|███████▏  | 7745/10702 [1:15:25<24:22,  2.02it/s] 72%|███████▏  | 7746/10702 [1:15:25<24:23,  2.02it/s] 72%|███████▏  | 7747/10702 [1:15:26<24:22,  2.02it/s] 72%|███████▏  | 7748/10702 [1:15:26<24:22,  2.02it/s] 72%|███████▏  | 7749/10702 [1:15:27<24:23,  2.02it/s] 72%|███████▏  | 7750/10702 [1:15:27<24:23,  2.02it/s]{'loss': 3.5713, 'grad_norm': 0.19616873562335968, 'learning_rate': 0.00021444146615177062, 'epoch': 0.72}
+                                                       72%|███████▏  | 7750/10702 [1:15:27<24:23,  2.02it/s] 72%|███████▏  | 7751/10702 [1:15:28<24:30,  2.01it/s] 72%|███████▏  | 7752/10702 [1:15:28<24:30,  2.01it/s] 72%|███████▏  | 7753/10702 [1:15:29<24:31,  2.00it/s] 72%|███████▏  | 7754/10702 [1:15:29<24:29,  2.01it/s] 72%|███████▏  | 7755/10702 [1:15:30<24:27,  2.01it/s] 72%|███████▏  | 7756/10702 [1:15:30<24:27,  2.01it/s] 72%|███████▏  | 7757/10702 [1:15:31<24:25,  2.01it/s] 72%|███████▏  | 7758/10702 [1:15:31<24:25,  2.01it/s] 73%|███████▎  | 7759/10702 [1:15:32<24:25,  2.01it/s] 73%|███████▎  | 7760/10702 [1:15:32<24:26,  2.01it/s] 73%|███████▎  | 7761/10702 [1:15:33<24:25,  2.01it/s] 73%|███████▎  | 7762/10702 [1:15:33<24:24,  2.01it/s] 73%|███████▎  | 7763/10702 [1:15:34<24:21,  2.01it/s] 73%|███████▎  | 7764/10702 [1:15:34<24:21,  2.01it/s] 73%|███████▎  | 7765/10702 [1:15:35<24:21,  2.01it/s] 73%|███████▎  | 7766/10702 [1:15:35<24:18,  2.01it/s] 73%|███████▎  | 7767/10702 [1:15:36<24:17,  2.01it/s] 73%|███████▎  | 7768/10702 [1:15:36<24:16,  2.01it/s] 73%|███████▎  | 7769/10702 [1:15:37<24:16,  2.01it/s] 73%|███████▎  | 7770/10702 [1:15:37<24:16,  2.01it/s] 73%|███████▎  | 7771/10702 [1:15:38<24:13,  2.02it/s] 73%|███████▎  | 7772/10702 [1:15:38<24:14,  2.01it/s] 73%|███████▎  | 7773/10702 [1:15:39<24:14,  2.01it/s] 73%|███████▎  | 7774/10702 [1:15:39<24:12,  2.02it/s] 73%|███████▎  | 7775/10702 [1:15:40<24:11,  2.02it/s]{'loss': 3.5784, 'grad_norm': 0.19770434498786926, 'learning_rate': 0.0002111039486791937, 'epoch': 0.73}
+                                                       73%|███████▎  | 7775/10702 [1:15:40<24:11,  2.02it/s] 73%|███████▎  | 7776/10702 [1:15:40<24:10,  2.02it/s] 73%|███████▎  | 7777/10702 [1:15:41<24:11,  2.02it/s] 73%|███████▎  | 7778/10702 [1:15:41<24:10,  2.02it/s] 73%|███████▎  | 7779/10702 [1:15:42<24:10,  2.01it/s] 73%|███████▎  | 7780/10702 [1:15:42<24:09,  2.02it/s] 73%|███████▎  | 7781/10702 [1:15:43<24:09,  2.02it/s] 73%|███████▎  | 7782/10702 [1:15:43<24:07,  2.02it/s] 73%|███████▎  | 7783/10702 [1:15:44<24:07,  2.02it/s] 73%|███████▎  | 7784/10702 [1:15:44<24:05,  2.02it/s] 73%|███████▎  | 7785/10702 [1:15:45<24:06,  2.02it/s] 73%|███████▎  | 7786/10702 [1:15:45<24:04,  2.02it/s] 73%|███████▎  | 7787/10702 [1:15:46<24:05,  2.02it/s] 73%|███████▎  | 7788/10702 [1:15:46<24:04,  2.02it/s] 73%|███████▎  | 7789/10702 [1:15:47<24:03,  2.02it/s] 73%|███████▎  | 7790/10702 [1:15:47<24:01,  2.02it/s] 73%|███████▎  | 7791/10702 [1:15:48<24:02,  2.02it/s] 73%|███████▎  | 7792/10702 [1:15:48<24:01,  2.02it/s] 73%|███████▎  | 7793/10702 [1:15:49<24:02,  2.02it/s] 73%|███████▎  | 7794/10702 [1:15:49<24:01,  2.02it/s] 73%|███████▎  | 7795/10702 [1:15:49<24:00,  2.02it/s] 73%|███████▎  | 7796/10702 [1:15:50<24:00,  2.02it/s] 73%|███████▎  | 7797/10702 [1:15:50<23:59,  2.02it/s] 73%|███████▎  | 7798/10702 [1:15:51<24:01,  2.02it/s] 73%|███████▎  | 7799/10702 [1:15:51<23:58,  2.02it/s] 73%|███████▎  | 7800/10702 [1:15:52<23:58,  2.02it/s]{'loss': 3.5747, 'grad_norm': 0.2022862285375595, 'learning_rate': 0.00020778564336667316, 'epoch': 0.73}
+                                                       73%|███████▎  | 7800/10702 [1:15:52<23:58,  2.02it/s] 73%|███████▎  | 7801/10702 [1:15:52<23:59,  2.01it/s] 73%|███████▎  | 7802/10702 [1:15:53<23:59,  2.02it/s] 73%|███████▎  | 7803/10702 [1:15:53<23:59,  2.01it/s] 73%|███████▎  | 7804/10702 [1:15:54<23:56,  2.02it/s] 73%|███████▎  | 7805/10702 [1:15:54<23:56,  2.02it/s] 73%|███████▎  | 7806/10702 [1:15:55<23:56,  2.02it/s] 73%|███████▎  | 7807/10702 [1:15:55<23:55,  2.02it/s] 73%|███████▎  | 7808/10702 [1:15:56<23:55,  2.02it/s] 73%|███████▎  | 7809/10702 [1:15:56<23:52,  2.02it/s] 73%|███████▎  | 7810/10702 [1:15:57<24:19,  1.98it/s] 73%|███████▎  | 7811/10702 [1:15:57<24:23,  1.98it/s] 73%|███████▎  | 7812/10702 [1:15:58<24:22,  1.98it/s] 73%|███████▎  | 7813/10702 [1:15:58<24:15,  1.99it/s] 73%|███████▎  | 7814/10702 [1:15:59<24:11,  1.99it/s] 73%|███████▎  | 7815/10702 [1:15:59<24:08,  1.99it/s] 73%|███████▎  | 7816/10702 [1:16:00<24:04,  2.00it/s] 73%|███████▎  | 7817/10702 [1:16:00<24:00,  2.00it/s] 73%|███████▎  | 7818/10702 [1:16:01<23:59,  2.00it/s] 73%|███████▎  | 7819/10702 [1:16:01<23:56,  2.01it/s] 73%|███████▎  | 7820/10702 [1:16:02<23:55,  2.01it/s] 73%|███████▎  | 7821/10702 [1:16:02<23:55,  2.01it/s] 73%|███████▎  | 7822/10702 [1:16:03<23:53,  2.01it/s] 73%|███████▎  | 7823/10702 [1:16:03<23:51,  2.01it/s] 73%|███████▎  | 7824/10702 [1:16:04<23:51,  2.01it/s] 73%|███████▎  | 7825/10702 [1:16:04<23:50,  2.01it/s]{'loss': 3.5792, 'grad_norm': 0.2012331634759903, 'learning_rate': 0.0002044867708880897, 'epoch': 0.73}
+                                                       73%|███████▎  | 7825/10702 [1:16:04<23:50,  2.01it/s] 73%|███████▎  | 7826/10702 [1:16:05<23:50,  2.01it/s] 73%|███████▎  | 7827/10702 [1:16:05<23:49,  2.01it/s] 73%|███████▎  | 7828/10702 [1:16:06<23:47,  2.01it/s] 73%|███████▎  | 7829/10702 [1:16:06<23:47,  2.01it/s] 73%|███████▎  | 7830/10702 [1:16:07<23:47,  2.01it/s] 73%|███████▎  | 7831/10702 [1:16:07<23:45,  2.01it/s] 73%|███████▎  | 7832/10702 [1:16:08<23:44,  2.01it/s] 73%|███████▎  | 7833/10702 [1:16:08<23:43,  2.02it/s] 73%|███████▎  | 7834/10702 [1:16:09<23:44,  2.01it/s] 73%|███████▎  | 7835/10702 [1:16:09<23:40,  2.02it/s] 73%|███████▎  | 7836/10702 [1:16:10<23:42,  2.01it/s] 73%|███████▎  | 7837/10702 [1:16:10<23:40,  2.02it/s] 73%|███████▎  | 7838/10702 [1:16:11<23:41,  2.01it/s] 73%|███████▎  | 7839/10702 [1:16:11<23:40,  2.02it/s] 73%|███████▎  | 7840/10702 [1:16:12<23:39,  2.02it/s] 73%|███████▎  | 7841/10702 [1:16:12<23:38,  2.02it/s] 73%|███████▎  | 7842/10702 [1:16:13<23:38,  2.02it/s] 73%|███████▎  | 7843/10702 [1:16:13<23:36,  2.02it/s] 73%|███████▎  | 7844/10702 [1:16:14<23:36,  2.02it/s] 73%|███████▎  | 7845/10702 [1:16:14<23:36,  2.02it/s] 73%|███████▎  | 7846/10702 [1:16:15<23:35,  2.02it/s] 73%|███████▎  | 7847/10702 [1:16:15<23:34,  2.02it/s] 73%|███████▎  | 7848/10702 [1:16:16<23:35,  2.02it/s] 73%|███████▎  | 7849/10702 [1:16:16<23:34,  2.02it/s] 73%|███████▎  | 7850/10702 [1:16:17<23:34,  2.02it/s]{'loss': 3.5761, 'grad_norm': 0.1952376663684845, 'learning_rate': 0.00020120755062500218, 'epoch': 0.73}                                                      
+ 73%|███████▎  | 7850/10702 [1:16:17<23:34,  2.02it/s] 73%|███████▎  | 7851/10702 [1:16:17<23:35,  2.01it/s] 73%|███████▎  | 7852/10702 [1:16:18<23:34,  2.01it/s] 73%|███████▎  | 7853/10702 [1:16:18<23:35,  2.01it/s] 73%|███████▎  | 7854/10702 [1:16:19<23:32,  2.02it/s] 73%|███████▎  | 7855/10702 [1:16:19<23:33,  2.01it/s] 73%|███████▎  | 7856/10702 [1:16:20<23:30,  2.02it/s] 73%|███████▎  | 7857/10702 [1:16:20<23:30,  2.02it/s] 73%|███████▎  | 7858/10702 [1:16:21<23:30,  2.02it/s] 73%|███████▎  | 7859/10702 [1:16:21<23:29,  2.02it/s] 73%|███████▎  | 7860/10702 [1:16:22<23:28,  2.02it/s] 73%|███████▎  | 7861/10702 [1:16:22<23:28,  2.02it/s] 73%|███████▎  | 7862/10702 [1:16:23<23:27,  2.02it/s] 73%|███████▎  | 7863/10702 [1:16:23<23:25,  2.02it/s] 73%|███████▎  | 7864/10702 [1:16:24<23:25,  2.02it/s] 73%|███████▎  | 7865/10702 [1:16:24<23:24,  2.02it/s] 74%|███████▎  | 7866/10702 [1:16:25<23:24,  2.02it/s] 74%|███████▎  | 7867/10702 [1:16:25<23:23,  2.02it/s] 74%|███████▎  | 7868/10702 [1:16:26<23:24,  2.02it/s] 74%|███████▎  | 7869/10702 [1:16:26<23:22,  2.02it/s] 74%|███████▎  | 7870/10702 [1:16:27<23:22,  2.02it/s] 74%|███████▎  | 7871/10702 [1:16:27<23:31,  2.01it/s] 74%|███████▎  | 7872/10702 [1:16:28<23:38,  2.00it/s] 74%|███████▎  | 7873/10702 [1:16:28<23:36,  2.00it/s] 74%|███████▎  | 7874/10702 [1:16:29<23:32,  2.00it/s] 74%|███████▎  | 7875/10702 [1:16:29<23:30,  2.00it/s]                                                      {'loss': 3.577, 'grad_norm': 0.1976042538881302, 'learning_rate': 0.00019794820065205805, 'epoch': 0.74}
+ 74%|███████▎  | 7875/10702 [1:16:29<23:30,  2.00it/s] 74%|███████▎  | 7876/10702 [1:16:30<23:28,  2.01it/s] 74%|███████▎  | 7877/10702 [1:16:30<23:25,  2.01it/s] 74%|███████▎  | 7878/10702 [1:16:31<23:25,  2.01it/s] 74%|███████▎  | 7879/10702 [1:16:31<23:23,  2.01it/s] 74%|███████▎  | 7880/10702 [1:16:32<23:23,  2.01it/s] 74%|███████▎  | 7881/10702 [1:16:32<23:25,  2.01it/s] 74%|███████▎  | 7882/10702 [1:16:33<23:21,  2.01it/s] 74%|███████▎  | 7883/10702 [1:16:33<23:20,  2.01it/s] 74%|███████▎  | 7884/10702 [1:16:34<23:19,  2.01it/s] 74%|███████▎  | 7885/10702 [1:16:34<23:18,  2.01it/s] 74%|███████▎  | 7886/10702 [1:16:35<23:18,  2.01it/s] 74%|███████▎  | 7887/10702 [1:16:35<23:15,  2.02it/s] 74%|███████▎  | 7888/10702 [1:16:36<23:16,  2.02it/s] 74%|███████▎  | 7889/10702 [1:16:36<23:15,  2.02it/s] 74%|███████▎  | 7890/10702 [1:16:37<23:15,  2.02it/s] 74%|███████▎  | 7891/10702 [1:16:37<23:14,  2.02it/s] 74%|███████▎  | 7892/10702 [1:16:38<23:12,  2.02it/s] 74%|███████▍  | 7893/10702 [1:16:38<23:13,  2.02it/s] 74%|███████▍  | 7894/10702 [1:16:39<23:11,  2.02it/s] 74%|███████▍  | 7895/10702 [1:16:39<23:13,  2.01it/s] 74%|███████▍  | 7896/10702 [1:16:40<23:11,  2.02it/s] 74%|███████▍  | 7897/10702 [1:16:40<23:10,  2.02it/s] 74%|███████▍  | 7898/10702 [1:16:41<23:10,  2.02it/s] 74%|███████▍  | 7899/10702 [1:16:41<23:09,  2.02it/s] 74%|███████▍  | 7900/10702 [1:16:42<23:09,  2.02it/s]                                                      {'loss': 3.5763, 'grad_norm': 0.19766682386398315, 'learning_rate': 0.00019470893772249105, 'epoch': 0.74}
+ 74%|███████▍  | 7900/10702 [1:16:42<23:09,  2.02it/s] 74%|███████▍  | 7901/10702 [1:16:42<23:09,  2.02it/s] 74%|███████▍  | 7902/10702 [1:16:43<23:10,  2.01it/s] 74%|███████▍  | 7903/10702 [1:16:43<23:07,  2.02it/s] 74%|███████▍  | 7904/10702 [1:16:44<23:06,  2.02it/s] 74%|███████▍  | 7905/10702 [1:16:44<23:06,  2.02it/s] 74%|███████▍  | 7906/10702 [1:16:45<23:06,  2.02it/s] 74%|███████▍  | 7907/10702 [1:16:45<23:06,  2.02it/s] 74%|███████▍  | 7908/10702 [1:16:46<23:05,  2.02it/s] 74%|███████▍  | 7909/10702 [1:16:46<23:05,  2.02it/s] 74%|███████▍  | 7910/10702 [1:16:47<23:04,  2.02it/s] 74%|███████▍  | 7911/10702 [1:16:47<23:05,  2.01it/s] 74%|███████▍  | 7912/10702 [1:16:48<23:02,  2.02it/s] 74%|███████▍  | 7913/10702 [1:16:48<23:02,  2.02it/s] 74%|███████▍  | 7914/10702 [1:16:49<23:03,  2.02it/s] 74%|███████▍  | 7915/10702 [1:16:49<23:03,  2.01it/s] 74%|███████▍  | 7916/10702 [1:16:50<23:02,  2.02it/s] 74%|███████▍  | 7917/10702 [1:16:50<23:01,  2.02it/s] 74%|███████▍  | 7918/10702 [1:16:51<22:59,  2.02it/s] 74%|███████▍  | 7919/10702 [1:16:51<23:00,  2.02it/s] 74%|███████▍  | 7920/10702 [1:16:52<22:58,  2.02it/s] 74%|███████▍  | 7921/10702 [1:16:52<22:58,  2.02it/s] 74%|███████▍  | 7922/10702 [1:16:53<22:58,  2.02it/s] 74%|███████▍  | 7923/10702 [1:16:53<22:58,  2.02it/s] 74%|███████▍  | 7924/10702 [1:16:54<22:56,  2.02it/s] 74%|███████▍  | 7925/10702 [1:16:54<22:56,  2.02it/s]                                                      {'loss': 3.5755, 'grad_norm': 0.1973543018102646, 'learning_rate': 0.00019148997725370676, 'epoch': 0.74}
+ 74%|███████▍  | 7925/10702 [1:16:54<22:56,  2.02it/s] 74%|███████▍  | 7926/10702 [1:16:55<22:57,  2.01it/s] 74%|███████▍  | 7927/10702 [1:16:55<22:56,  2.02it/s] 74%|███████▍  | 7928/10702 [1:16:56<22:56,  2.02it/s] 74%|███████▍  | 7929/10702 [1:16:56<22:55,  2.02it/s] 74%|███████▍  | 7930/10702 [1:16:57<22:55,  2.01it/s] 74%|███████▍  | 7931/10702 [1:16:57<22:56,  2.01it/s] 74%|███████▍  | 7932/10702 [1:16:58<23:01,  2.01it/s] 74%|███████▍  | 7933/10702 [1:16:58<23:07,  2.00it/s] 74%|███████▍  | 7934/10702 [1:16:59<23:04,  2.00it/s] 74%|███████▍  | 7935/10702 [1:16:59<23:04,  2.00it/s] 74%|███████▍  | 7936/10702 [1:17:00<23:01,  2.00it/s] 74%|███████▍  | 7937/10702 [1:17:00<23:01,  2.00it/s] 74%|███████▍  | 7938/10702 [1:17:01<22:57,  2.01it/s] 74%|███████▍  | 7939/10702 [1:17:01<22:57,  2.01it/s] 74%|███████▍  | 7940/10702 [1:17:02<22:55,  2.01it/s] 74%|███████▍  | 7941/10702 [1:17:02<22:55,  2.01it/s] 74%|███████▍  | 7942/10702 [1:17:03<22:57,  2.00it/s] 74%|███████▍  | 7943/10702 [1:17:03<22:52,  2.01it/s] 74%|███████▍  | 7944/10702 [1:17:04<22:52,  2.01it/s] 74%|███████▍  | 7945/10702 [1:17:04<22:50,  2.01it/s] 74%|███████▍  | 7946/10702 [1:17:05<22:49,  2.01it/s] 74%|███████▍  | 7947/10702 [1:17:05<22:49,  2.01it/s] 74%|███████▍  | 7948/10702 [1:17:06<22:47,  2.01it/s] 74%|███████▍  | 7949/10702 [1:17:06<22:46,  2.01it/s] 74%|███████▍  | 7950/10702 [1:17:07<22:47,  2.01it/s]{'loss': 3.5766, 'grad_norm': 0.19611436128616333, 'learning_rate': 0.00018829153331295734, 'epoch': 0.74}
+                                                       74%|███████▍  | 7950/10702 [1:17:07<22:47,  2.01it/s] 74%|███████▍  | 7951/10702 [1:17:07<22:46,  2.01it/s] 74%|███████▍  | 7952/10702 [1:17:08<22:47,  2.01it/s] 74%|███████▍  | 7953/10702 [1:17:08<22:46,  2.01it/s] 74%|███████▍  | 7954/10702 [1:17:09<22:45,  2.01it/s] 74%|███████▍  | 7955/10702 [1:17:09<22:47,  2.01it/s] 74%|███████▍  | 7956/10702 [1:17:10<22:43,  2.01it/s] 74%|███████▍  | 7957/10702 [1:17:10<22:43,  2.01it/s] 74%|███████▍  | 7958/10702 [1:17:10<22:41,  2.02it/s] 74%|███████▍  | 7959/10702 [1:17:11<22:40,  2.02it/s] 74%|███████▍  | 7960/10702 [1:17:11<22:40,  2.01it/s] 74%|███████▍  | 7961/10702 [1:17:12<22:39,  2.02it/s] 74%|███████▍  | 7962/10702 [1:17:12<22:39,  2.01it/s] 74%|███████▍  | 7963/10702 [1:17:13<22:38,  2.02it/s] 74%|███████▍  | 7964/10702 [1:17:13<22:37,  2.02it/s] 74%|███████▍  | 7965/10702 [1:17:14<22:36,  2.02it/s] 74%|███████▍  | 7966/10702 [1:17:14<22:35,  2.02it/s] 74%|███████▍  | 7967/10702 [1:17:15<22:35,  2.02it/s] 74%|███████▍  | 7968/10702 [1:17:15<22:34,  2.02it/s] 74%|███████▍  | 7969/10702 [1:17:16<22:34,  2.02it/s] 74%|███████▍  | 7970/10702 [1:17:16<22:34,  2.02it/s] 74%|███████▍  | 7971/10702 [1:17:17<22:34,  2.02it/s] 74%|███████▍  | 7972/10702 [1:17:17<22:32,  2.02it/s] 75%|███████▍  | 7973/10702 [1:17:18<22:32,  2.02it/s] 75%|███████▍  | 7974/10702 [1:17:18<22:32,  2.02it/s] 75%|███████▍  | 7975/10702 [1:17:19<22:31,  2.02it/s]{'loss': 3.5667, 'grad_norm': 0.20152534544467926, 'learning_rate': 0.00018511381860310424, 'epoch': 0.75}
+                                                       75%|███████▍  | 7975/10702 [1:17:19<22:31,  2.02it/s] 75%|███████▍  | 7976/10702 [1:17:19<22:33,  2.01it/s] 75%|███████▍  | 7977/10702 [1:17:20<22:31,  2.02it/s] 75%|███████▍  | 7978/10702 [1:17:20<22:32,  2.01it/s] 75%|███████▍  | 7979/10702 [1:17:21<22:31,  2.02it/s] 75%|███████▍  | 7980/10702 [1:17:21<22:29,  2.02it/s] 75%|███████▍  | 7981/10702 [1:17:22<22:28,  2.02it/s] 75%|███████▍  | 7982/10702 [1:17:22<22:27,  2.02it/s] 75%|███████▍  | 7983/10702 [1:17:23<22:27,  2.02it/s] 75%|███████▍  | 7984/10702 [1:17:23<22:26,  2.02it/s] 75%|███████▍  | 7985/10702 [1:17:24<22:25,  2.02it/s] 75%|███████▍  | 7986/10702 [1:17:24<22:26,  2.02it/s] 75%|███████▍  | 7987/10702 [1:17:25<22:26,  2.02it/s] 75%|███████▍  | 7988/10702 [1:17:25<22:25,  2.02it/s] 75%|███████▍  | 7989/10702 [1:17:26<22:25,  2.02it/s] 75%|███████▍  | 7990/10702 [1:17:26<22:23,  2.02it/s] 75%|███████▍  | 7991/10702 [1:17:27<22:23,  2.02it/s] 75%|███████▍  | 7992/10702 [1:17:27<22:35,  2.00it/s] 75%|███████▍  | 7993/10702 [1:17:28<22:38,  1.99it/s] 75%|███████▍  | 7994/10702 [1:17:28<22:35,  2.00it/s] 75%|███████▍  | 7995/10702 [1:17:29<22:31,  2.00it/s] 75%|███████▍  | 7996/10702 [1:17:29<22:29,  2.01it/s] 75%|███████▍  | 7997/10702 [1:17:30<22:28,  2.01it/s] 75%|███████▍  | 7998/10702 [1:17:30<22:27,  2.01it/s] 75%|███████▍  | 7999/10702 [1:17:31<22:25,  2.01it/s] 75%|███████▍  | 8000/10702 [1:17:31<22:24,  2.01it/s]{'loss': 3.5713, 'grad_norm': 0.1927826851606369, 'learning_rate': 0.0001819570444484746, 'epoch': 0.75}                                                      
+ 75%|███████▍  | 8000/10702 [1:17:31<22:24,  2.01it/s] 75%|███████▍  | 8001/10702 [1:17:32<22:24,  2.01it/s] 75%|███████▍  | 8002/10702 [1:17:32<22:23,  2.01it/s] 75%|███████▍  | 8003/10702 [1:17:33<22:20,  2.01it/s] 75%|███████▍  | 8004/10702 [1:17:33<22:19,  2.01it/s] 75%|███████▍  | 8005/10702 [1:17:34<22:20,  2.01it/s] 75%|███████▍  | 8006/10702 [1:17:34<22:18,  2.01it/s] 75%|███████▍  | 8007/10702 [1:17:35<22:18,  2.01it/s] 75%|███████▍  | 8008/10702 [1:17:35<22:16,  2.02it/s] 75%|███████▍  | 8009/10702 [1:17:36<22:17,  2.01it/s] 75%|███████▍  | 8010/10702 [1:17:36<22:15,  2.02it/s] 75%|███████▍  | 8011/10702 [1:17:37<22:15,  2.02it/s] 75%|███████▍  | 8012/10702 [1:17:37<22:13,  2.02it/s] 75%|███████▍  | 8013/10702 [1:17:38<22:13,  2.02it/s] 75%|███████▍  | 8014/10702 [1:17:38<22:13,  2.02it/s] 75%|███████▍  | 8015/10702 [1:17:39<22:11,  2.02it/s] 75%|███████▍  | 8016/10702 [1:17:39<22:11,  2.02it/s] 75%|███████▍  | 8017/10702 [1:17:40<22:11,  2.02it/s] 75%|███████▍  | 8018/10702 [1:17:40<22:10,  2.02it/s] 75%|███████▍  | 8019/10702 [1:17:41<22:10,  2.02it/s] 75%|███████▍  | 8020/10702 [1:17:41<22:09,  2.02it/s] 75%|███████▍  | 8021/10702 [1:17:42<22:10,  2.02it/s] 75%|███████▍  | 8022/10702 [1:17:42<22:08,  2.02it/s] 75%|███████▍  | 8023/10702 [1:17:43<22:09,  2.02it/s] 75%|███████▍  | 8024/10702 [1:17:43<22:07,  2.02it/s] 75%|███████▍  | 8025/10702 [1:17:44<22:07,  2.02it/s]{'loss': 3.5707, 'grad_norm': 0.19589172303676605, 'learning_rate': 0.0001788214207808069, 'epoch': 0.75}
+                                                       75%|███████▍  | 8025/10702 [1:17:44<22:07,  2.02it/s] 75%|███████▍  | 8026/10702 [1:17:44<22:08,  2.01it/s] 75%|███████▌  | 8027/10702 [1:17:45<22:06,  2.02it/s] 75%|███████▌  | 8028/10702 [1:17:45<22:08,  2.01it/s] 75%|███████▌  | 8029/10702 [1:17:46<22:07,  2.01it/s] 75%|███████▌  | 8030/10702 [1:17:46<22:05,  2.02it/s] 75%|███████▌  | 8031/10702 [1:17:47<22:03,  2.02it/s] 75%|███████▌  | 8032/10702 [1:17:47<22:03,  2.02it/s] 75%|███████▌  | 8033/10702 [1:17:48<22:03,  2.02it/s] 75%|███████▌  | 8034/10702 [1:17:48<22:01,  2.02it/s] 75%|███████▌  | 8035/10702 [1:17:49<22:03,  2.02it/s] 75%|███████▌  | 8036/10702 [1:17:49<22:02,  2.02it/s] 75%|███████▌  | 8037/10702 [1:17:50<22:01,  2.02it/s] 75%|███████▌  | 8038/10702 [1:17:50<22:00,  2.02it/s] 75%|███████▌  | 8039/10702 [1:17:51<21:59,  2.02it/s] 75%|███████▌  | 8040/10702 [1:17:51<21:58,  2.02it/s] 75%|███████▌  | 8041/10702 [1:17:52<21:57,  2.02it/s] 75%|███████▌  | 8042/10702 [1:17:52<21:55,  2.02it/s] 75%|███████▌  | 8043/10702 [1:17:53<21:56,  2.02it/s] 75%|███████▌  | 8044/10702 [1:17:53<21:56,  2.02it/s] 75%|███████▌  | 8045/10702 [1:17:54<21:55,  2.02it/s] 75%|███████▌  | 8046/10702 [1:17:54<21:53,  2.02it/s] 75%|███████▌  | 8047/10702 [1:17:55<21:54,  2.02it/s] 75%|███████▌  | 8048/10702 [1:17:55<21:54,  2.02it/s] 75%|███████▌  | 8049/10702 [1:17:56<21:53,  2.02it/s] 75%|███████▌  | 8050/10702 [1:17:56<21:53,  2.02it/s]{'loss': 3.5755, 'grad_norm': 0.19524714350700378, 'learning_rate': 0.0001757071561252908, 'epoch': 0.75}
+                                                       75%|███████▌  | 8050/10702 [1:17:56<21:53,  2.02it/s] 75%|███████▌  | 8051/10702 [1:17:57<21:53,  2.02it/s] 75%|███████▌  | 8052/10702 [1:17:57<21:56,  2.01it/s] 75%|███████▌  | 8053/10702 [1:17:58<22:06,  2.00it/s] 75%|███████▌  | 8054/10702 [1:17:58<22:03,  2.00it/s] 75%|███████▌  | 8055/10702 [1:17:59<22:01,  2.00it/s] 75%|███████▌  | 8056/10702 [1:17:59<22:00,  2.00it/s] 75%|███████▌  | 8057/10702 [1:18:00<21:57,  2.01it/s] 75%|███████▌  | 8058/10702 [1:18:00<21:56,  2.01it/s] 75%|███████▌  | 8059/10702 [1:18:01<21:54,  2.01it/s] 75%|███████▌  | 8060/10702 [1:18:01<21:54,  2.01it/s] 75%|███████▌  | 8061/10702 [1:18:02<21:53,  2.01it/s] 75%|███████▌  | 8062/10702 [1:18:02<21:52,  2.01it/s] 75%|███████▌  | 8063/10702 [1:18:03<21:52,  2.01it/s] 75%|███████▌  | 8064/10702 [1:18:03<21:50,  2.01it/s] 75%|███████▌  | 8065/10702 [1:18:04<21:50,  2.01it/s] 75%|███████▌  | 8066/10702 [1:18:04<21:48,  2.01it/s] 75%|███████▌  | 8067/10702 [1:18:05<21:48,  2.01it/s] 75%|███████▌  | 8068/10702 [1:18:05<21:47,  2.01it/s] 75%|███████▌  | 8069/10702 [1:18:06<21:46,  2.02it/s] 75%|███████▌  | 8070/10702 [1:18:06<21:45,  2.02it/s] 75%|███████▌  | 8071/10702 [1:18:07<21:44,  2.02it/s] 75%|███████▌  | 8072/10702 [1:18:07<21:44,  2.02it/s] 75%|███████▌  | 8073/10702 [1:18:08<21:44,  2.02it/s] 75%|███████▌  | 8074/10702 [1:18:08<21:42,  2.02it/s] 75%|███████▌  | 8075/10702 [1:18:09<21:42,  2.02it/s]{'loss': 3.5836, 'grad_norm': 0.20055478811264038, 'learning_rate': 0.00017261445758669854, 'epoch': 0.75}                                                      
+ 75%|███████▌  | 8075/10702 [1:18:09<21:42,  2.02it/s] 75%|███████▌  | 8076/10702 [1:18:09<21:43,  2.01it/s] 75%|███████▌  | 8077/10702 [1:18:10<21:43,  2.01it/s] 75%|███████▌  | 8078/10702 [1:18:10<21:42,  2.01it/s] 75%|███████▌  | 8079/10702 [1:18:11<21:42,  2.01it/s] 75%|███████▌  | 8080/10702 [1:18:11<21:41,  2.01it/s] 76%|███████▌  | 8081/10702 [1:18:12<21:39,  2.02it/s] 76%|███████▌  | 8082/10702 [1:18:12<21:39,  2.02it/s] 76%|███████▌  | 8083/10702 [1:18:13<21:37,  2.02it/s] 76%|███████▌  | 8084/10702 [1:18:13<21:37,  2.02it/s] 76%|███████▌  | 8085/10702 [1:18:14<21:35,  2.02it/s] 76%|███████▌  | 8086/10702 [1:18:14<21:36,  2.02it/s] 76%|███████▌  | 8087/10702 [1:18:15<21:35,  2.02it/s] 76%|███████▌  | 8088/10702 [1:18:15<21:34,  2.02it/s] 76%|███████▌  | 8089/10702 [1:18:16<21:34,  2.02it/s] 76%|███████▌  | 8090/10702 [1:18:16<21:33,  2.02it/s] 76%|███████▌  | 8091/10702 [1:18:17<21:32,  2.02it/s] 76%|███████▌  | 8092/10702 [1:18:17<21:32,  2.02it/s] 76%|███████▌  | 8093/10702 [1:18:17<21:31,  2.02it/s] 76%|███████▌  | 8094/10702 [1:18:18<21:31,  2.02it/s] 76%|███████▌  | 8095/10702 [1:18:18<21:32,  2.02it/s] 76%|███████▌  | 8096/10702 [1:18:19<21:31,  2.02it/s] 76%|███████▌  | 8097/10702 [1:18:19<21:32,  2.02it/s] 76%|███████▌  | 8098/10702 [1:18:20<21:29,  2.02it/s] 76%|███████▌  | 8099/10702 [1:18:20<21:30,  2.02it/s] 76%|███████▌  | 8100/10702 [1:18:21<21:28,  2.02it/s]{'loss': 3.5715, 'grad_norm': 0.20387209951877594, 'learning_rate': 0.0001695435308356133, 'epoch': 0.76}
+                                                       76%|███████▌  | 8100/10702 [1:18:21<21:28,  2.02it/s] 76%|███████▌  | 8101/10702 [1:18:21<21:30,  2.02it/s] 76%|███████▌  | 8102/10702 [1:18:22<21:29,  2.02it/s] 76%|███████▌  | 8103/10702 [1:18:22<21:28,  2.02it/s] 76%|███████▌  | 8104/10702 [1:18:23<21:26,  2.02it/s] 76%|███████▌  | 8105/10702 [1:18:23<21:26,  2.02it/s] 76%|███████▌  | 8106/10702 [1:18:24<21:26,  2.02it/s] 76%|███████▌  | 8107/10702 [1:18:24<21:26,  2.02it/s] 76%|███████▌  | 8108/10702 [1:18:25<21:26,  2.02it/s] 76%|███████▌  | 8109/10702 [1:18:25<21:25,  2.02it/s] 76%|███████▌  | 8110/10702 [1:18:26<21:25,  2.02it/s] 76%|███████▌  | 8111/10702 [1:18:26<21:24,  2.02it/s] 76%|███████▌  | 8112/10702 [1:18:27<21:23,  2.02it/s] 76%|███████▌  | 8113/10702 [1:18:27<21:33,  2.00it/s] 76%|███████▌  | 8114/10702 [1:18:28<21:36,  2.00it/s] 76%|███████▌  | 8115/10702 [1:18:28<21:35,  2.00it/s] 76%|███████▌  | 8116/10702 [1:18:29<21:33,  2.00it/s] 76%|███████▌  | 8117/10702 [1:18:29<21:31,  2.00it/s] 76%|███████▌  | 8118/10702 [1:18:30<21:29,  2.00it/s] 76%|███████▌  | 8119/10702 [1:18:30<21:28,  2.00it/s] 76%|███████▌  | 8120/10702 [1:18:31<21:27,  2.01it/s] 76%|███████▌  | 8121/10702 [1:18:31<21:25,  2.01it/s] 76%|███████▌  | 8122/10702 [1:18:32<21:25,  2.01it/s] 76%|███████▌  | 8123/10702 [1:18:32<21:22,  2.01it/s] 76%|███████▌  | 8124/10702 [1:18:33<21:21,  2.01it/s] 76%|███████▌  | 8125/10702 [1:18:33<21:21,  2.01it/s]                                                      {'loss': 3.5775, 'grad_norm': 0.19729246199131012, 'learning_rate': 0.00016649458009475104, 'epoch': 0.76}
+ 76%|███████▌  | 8125/10702 [1:18:33<21:21,  2.01it/s] 76%|███████▌  | 8126/10702 [1:18:34<21:21,  2.01it/s] 76%|███████▌  | 8127/10702 [1:18:34<21:21,  2.01it/s] 76%|███████▌  | 8128/10702 [1:18:35<21:21,  2.01it/s] 76%|███████▌  | 8129/10702 [1:18:35<21:18,  2.01it/s] 76%|███████▌  | 8130/10702 [1:18:36<21:18,  2.01it/s] 76%|███████▌  | 8131/10702 [1:18:36<21:17,  2.01it/s] 76%|███████▌  | 8132/10702 [1:18:37<21:17,  2.01it/s] 76%|███████▌  | 8133/10702 [1:18:37<21:17,  2.01it/s] 76%|███████▌  | 8134/10702 [1:18:38<21:15,  2.01it/s] 76%|███████▌  | 8135/10702 [1:18:38<21:16,  2.01it/s] 76%|███████▌  | 8136/10702 [1:18:39<21:16,  2.01it/s] 76%|███████▌  | 8137/10702 [1:18:39<21:15,  2.01it/s] 76%|███████▌  | 8138/10702 [1:18:40<21:15,  2.01it/s] 76%|███████▌  | 8139/10702 [1:18:40<21:13,  2.01it/s] 76%|███████▌  | 8140/10702 [1:18:41<21:12,  2.01it/s] 76%|███████▌  | 8141/10702 [1:18:41<21:10,  2.01it/s] 76%|███████▌  | 8142/10702 [1:18:42<21:10,  2.01it/s] 76%|███████▌  | 8143/10702 [1:18:42<21:10,  2.01it/s] 76%|███████▌  | 8144/10702 [1:18:43<21:08,  2.02it/s] 76%|███████▌  | 8145/10702 [1:18:43<21:09,  2.01it/s] 76%|███████▌  | 8146/10702 [1:18:44<21:07,  2.02it/s] 76%|███████▌  | 8147/10702 [1:18:44<21:08,  2.01it/s] 76%|███████▌  | 8148/10702 [1:18:45<21:08,  2.01it/s] 76%|███████▌  | 8149/10702 [1:18:45<21:06,  2.02it/s] 76%|███████▌  | 8150/10702 [1:18:46<21:07,  2.01it/s]{'loss': 3.5611, 'grad_norm': 0.2002188265323639, 'learning_rate': 0.00016346780812537986, 'epoch': 0.76}
+                                                       76%|███████▌  | 8150/10702 [1:18:46<21:07,  2.01it/s] 76%|███████▌  | 8151/10702 [1:18:46<21:07,  2.01it/s] 76%|███████▌  | 8152/10702 [1:18:47<21:06,  2.01it/s] 76%|███████▌  | 8153/10702 [1:18:47<21:04,  2.02it/s] 76%|███████▌  | 8154/10702 [1:18:48<21:03,  2.02it/s] 76%|███████▌  | 8155/10702 [1:18:48<21:02,  2.02it/s] 76%|███████▌  | 8156/10702 [1:18:49<21:02,  2.02it/s] 76%|███████▌  | 8157/10702 [1:18:49<21:04,  2.01it/s] 76%|███████▌  | 8158/10702 [1:18:50<21:01,  2.02it/s] 76%|███████▌  | 8159/10702 [1:18:50<21:01,  2.02it/s] 76%|███████▌  | 8160/10702 [1:18:51<21:00,  2.02it/s] 76%|███████▋  | 8161/10702 [1:18:51<20:59,  2.02it/s] 76%|███████▋  | 8162/10702 [1:18:52<20:58,  2.02it/s] 76%|███████▋  | 8163/10702 [1:18:52<20:57,  2.02it/s] 76%|███████▋  | 8164/10702 [1:18:53<20:58,  2.02it/s] 76%|███████▋  | 8165/10702 [1:18:53<20:59,  2.01it/s] 76%|███████▋  | 8166/10702 [1:18:54<20:58,  2.01it/s] 76%|███████▋  | 8167/10702 [1:18:54<20:56,  2.02it/s] 76%|███████▋  | 8168/10702 [1:18:55<20:56,  2.02it/s] 76%|███████▋  | 8169/10702 [1:18:55<20:56,  2.02it/s] 76%|███████▋  | 8170/10702 [1:18:56<20:54,  2.02it/s] 76%|███████▋  | 8171/10702 [1:18:56<20:56,  2.02it/s] 76%|███████▋  | 8172/10702 [1:18:57<20:53,  2.02it/s] 76%|███████▋  | 8173/10702 [1:18:57<21:03,  2.00it/s] 76%|███████▋  | 8174/10702 [1:18:58<21:04,  2.00it/s] 76%|███████▋  | 8175/10702 [1:18:58<21:02,  2.00it/s]{'loss': 3.5659, 'grad_norm': 0.2041112780570984, 'learning_rate': 0.00016046341621383544, 'epoch': 0.76}
+                                                       76%|███████▋  | 8175/10702 [1:18:58<21:02,  2.00it/s] 76%|███████▋  | 8176/10702 [1:18:59<21:02,  2.00it/s] 76%|███████▋  | 8177/10702 [1:18:59<20:58,  2.01it/s] 76%|███████▋  | 8178/10702 [1:19:00<20:58,  2.01it/s] 76%|███████▋  | 8179/10702 [1:19:00<20:58,  2.00it/s] 76%|███████▋  | 8180/10702 [1:19:01<20:56,  2.01it/s] 76%|███████▋  | 8181/10702 [1:19:01<20:55,  2.01it/s] 76%|███████▋  | 8182/10702 [1:19:02<20:55,  2.01it/s] 76%|███████▋  | 8183/10702 [1:19:02<20:53,  2.01it/s] 76%|███████▋  | 8184/10702 [1:19:03<20:53,  2.01it/s] 76%|███████▋  | 8185/10702 [1:19:03<20:49,  2.01it/s] 76%|███████▋  | 8186/10702 [1:19:04<20:49,  2.01it/s] 76%|███████▋  | 8187/10702 [1:19:04<20:48,  2.01it/s] 77%|███████▋  | 8188/10702 [1:19:05<20:49,  2.01it/s] 77%|███████▋  | 8189/10702 [1:19:05<20:48,  2.01it/s] 77%|███████▋  | 8190/10702 [1:19:06<20:47,  2.01it/s] 77%|███████▋  | 8191/10702 [1:19:06<20:45,  2.02it/s] 77%|███████▋  | 8192/10702 [1:19:07<20:46,  2.01it/s] 77%|███████▋  | 8193/10702 [1:19:07<20:44,  2.02it/s] 77%|███████▋  | 8194/10702 [1:19:08<20:45,  2.01it/s] 77%|███████▋  | 8195/10702 [1:19:08<20:43,  2.02it/s] 77%|███████▋  | 8196/10702 [1:19:09<20:43,  2.02it/s] 77%|███████▋  | 8197/10702 [1:19:09<20:43,  2.02it/s] 77%|███████▋  | 8198/10702 [1:19:10<20:41,  2.02it/s] 77%|███████▋  | 8199/10702 [1:19:10<20:41,  2.02it/s] 77%|███████▋  | 8200/10702 [1:19:11<20:41,  2.02it/s]{'loss': 3.561, 'grad_norm': 0.19860433042049408, 'learning_rate': 0.0001574816041581345, 'epoch': 0.77}
+                                                       77%|███████▋  | 8200/10702 [1:19:11<20:41,  2.02it/s] 77%|███████▋  | 8201/10702 [1:19:11<20:43,  2.01it/s] 77%|███████▋  | 8202/10702 [1:19:12<20:41,  2.01it/s] 77%|███████▋  | 8203/10702 [1:19:12<20:40,  2.01it/s] 77%|███████▋  | 8204/10702 [1:19:13<20:39,  2.01it/s] 77%|███████▋  | 8205/10702 [1:19:13<20:38,  2.02it/s] 77%|███████▋  | 8206/10702 [1:19:14<20:39,  2.01it/s] 77%|███████▋  | 8207/10702 [1:19:14<20:38,  2.01it/s] 77%|███████▋  | 8208/10702 [1:19:15<20:38,  2.01it/s] 77%|███████▋  | 8209/10702 [1:19:15<20:36,  2.02it/s] 77%|███████▋  | 8210/10702 [1:19:16<20:35,  2.02it/s] 77%|███████▋  | 8211/10702 [1:19:16<20:35,  2.02it/s] 77%|███████▋  | 8212/10702 [1:19:17<20:33,  2.02it/s] 77%|███████▋  | 8213/10702 [1:19:17<20:34,  2.02it/s] 77%|███████▋  | 8214/10702 [1:19:18<20:32,  2.02it/s] 77%|███████▋  | 8215/10702 [1:19:18<20:33,  2.02it/s] 77%|███████▋  | 8216/10702 [1:19:19<20:31,  2.02it/s] 77%|███████▋  | 8217/10702 [1:19:19<24:02,  1.72it/s] 77%|███████▋  | 8218/10702 [1:19:20<22:59,  1.80it/s] 77%|███████▋  | 8219/10702 [1:19:20<22:13,  1.86it/s] 77%|███████▋  | 8220/10702 [1:19:21<21:42,  1.91it/s] 77%|███████▋  | 8221/10702 [1:19:21<21:19,  1.94it/s] 77%|███████▋  | 8222/10702 [1:19:22<21:04,  1.96it/s] 77%|███████▋  | 8223/10702 [1:19:22<20:53,  1.98it/s] 77%|███████▋  | 8224/10702 [1:19:23<20:46,  1.99it/s] 77%|███████▋  | 8225/10702 [1:19:23<20:40,  2.00it/s]{'loss': 3.5657, 'grad_norm': 0.2058361917734146, 'learning_rate': 0.0001545225702546898, 'epoch': 0.77}
+                                                       77%|███████▋  | 8225/10702 [1:19:23<20:40,  2.00it/s] 77%|███████▋  | 8226/10702 [1:19:24<20:36,  2.00it/s] 77%|███████▋  | 8227/10702 [1:19:24<20:33,  2.01it/s] 77%|███████▋  | 8228/10702 [1:19:25<20:31,  2.01it/s] 77%|███████▋  | 8229/10702 [1:19:25<20:29,  2.01it/s] 77%|███████▋  | 8230/10702 [1:19:26<20:26,  2.01it/s] 77%|███████▋  | 8231/10702 [1:19:26<20:25,  2.02it/s] 77%|███████▋  | 8232/10702 [1:19:27<20:23,  2.02it/s] 77%|███████▋  | 8233/10702 [1:19:27<20:27,  2.01it/s] 77%|███████▋  | 8234/10702 [1:19:28<20:30,  2.01it/s] 77%|███████▋  | 8235/10702 [1:19:28<20:27,  2.01it/s] 77%|███████▋  | 8236/10702 [1:19:29<20:26,  2.01it/s] 77%|███████▋  | 8237/10702 [1:19:29<20:24,  2.01it/s] 77%|███████▋  | 8238/10702 [1:19:30<20:22,  2.02it/s] 77%|███████▋  | 8239/10702 [1:19:30<20:21,  2.02it/s] 77%|███████▋  | 8240/10702 [1:19:31<20:21,  2.02it/s] 77%|███████▋  | 8241/10702 [1:19:31<20:19,  2.02it/s] 77%|███████▋  | 8242/10702 [1:19:32<20:20,  2.02it/s] 77%|███████▋  | 8243/10702 [1:19:32<20:18,  2.02it/s] 77%|███████▋  | 8244/10702 [1:19:33<20:19,  2.02it/s] 77%|███████▋  | 8245/10702 [1:19:33<20:17,  2.02it/s] 77%|███████▋  | 8246/10702 [1:19:34<20:17,  2.02it/s] 77%|███████▋  | 8247/10702 [1:19:34<20:15,  2.02it/s] 77%|███████▋  | 8248/10702 [1:19:35<20:15,  2.02it/s] 77%|███████▋  | 8249/10702 [1:19:35<20:15,  2.02it/s] 77%|███████▋  | 8250/10702 [1:19:36<20:13,  2.02it/s]{'loss': 3.5634, 'grad_norm': 0.20347170531749725, 'learning_rate': 0.0001515865112851211, 'epoch': 0.77}
+                                                       77%|███████▋  | 8250/10702 [1:19:36<20:13,  2.02it/s] 77%|███████▋  | 8251/10702 [1:19:36<20:14,  2.02it/s] 77%|███████▋  | 8252/10702 [1:19:37<20:12,  2.02it/s] 77%|███████▋  | 8253/10702 [1:19:38<23:40,  1.72it/s] 77%|███████▋  | 8254/10702 [1:19:38<22:36,  1.80it/s] 77%|███████▋  | 8255/10702 [1:19:38<21:54,  1.86it/s] 77%|███████▋  | 8256/10702 [1:19:39<21:21,  1.91it/s] 77%|███████▋  | 8257/10702 [1:19:39<21:00,  1.94it/s] 77%|███████▋  | 8258/10702 [1:19:40<20:43,  1.97it/s] 77%|███████▋  | 8259/10702 [1:19:40<20:33,  1.98it/s] 77%|███████▋  | 8260/10702 [1:19:41<20:24,  1.99it/s] 77%|███████▋  | 8261/10702 [1:19:41<20:19,  2.00it/s] 77%|███████▋  | 8262/10702 [1:19:42<20:15,  2.01it/s] 77%|███████▋  | 8263/10702 [1:19:42<20:14,  2.01it/s] 77%|███████▋  | 8264/10702 [1:19:43<20:11,  2.01it/s] 77%|███████▋  | 8265/10702 [1:19:43<20:11,  2.01it/s] 77%|███████▋  | 8266/10702 [1:19:44<20:07,  2.02it/s] 77%|███████▋  | 8267/10702 [1:19:44<20:07,  2.02it/s] 77%|███████▋  | 8268/10702 [1:19:45<20:04,  2.02it/s] 77%|███████▋  | 8269/10702 [1:19:45<20:05,  2.02it/s] 77%|███████▋  | 8270/10702 [1:19:46<20:03,  2.02it/s] 77%|███████▋  | 8271/10702 [1:19:46<20:04,  2.02it/s] 77%|███████▋  | 8272/10702 [1:19:47<20:04,  2.02it/s] 77%|███████▋  | 8273/10702 [1:19:47<20:02,  2.02it/s] 77%|███████▋  | 8274/10702 [1:19:48<20:03,  2.02it/s] 77%|███████▋  | 8275/10702 [1:19:48<20:01,  2.02it/s]                                                      {'loss': 3.5663, 'grad_norm': 0.19891898334026337, 'learning_rate': 0.00014867362250316974, 'epoch': 0.77}
+ 77%|███████▋  | 8275/10702 [1:19:48<20:01,  2.02it/s] 77%|███████▋  | 8276/10702 [1:19:49<20:02,  2.02it/s] 77%|███████▋  | 8277/10702 [1:19:49<20:01,  2.02it/s] 77%|███████▋  | 8278/10702 [1:19:50<20:02,  2.02it/s] 77%|███████▋  | 8279/10702 [1:19:50<20:01,  2.02it/s] 77%|███████▋  | 8280/10702 [1:19:51<20:02,  2.01it/s] 77%|███████▋  | 8281/10702 [1:19:51<19:59,  2.02it/s] 77%|███████▋  | 8282/10702 [1:19:52<20:00,  2.02it/s] 77%|███████▋  | 8283/10702 [1:19:52<19:58,  2.02it/s] 77%|███████▋  | 8284/10702 [1:19:53<19:58,  2.02it/s] 77%|███████▋  | 8285/10702 [1:19:53<19:58,  2.02it/s] 77%|███████▋  | 8286/10702 [1:19:54<19:58,  2.02it/s] 77%|███████▋  | 8287/10702 [1:19:54<19:58,  2.02it/s] 77%|███████▋  | 8288/10702 [1:19:55<19:56,  2.02it/s] 77%|███████▋  | 8289/10702 [1:19:55<19:56,  2.02it/s] 77%|███████▋  | 8290/10702 [1:19:56<19:55,  2.02it/s] 77%|███████▋  | 8291/10702 [1:19:56<19:55,  2.02it/s] 77%|███████▋  | 8292/10702 [1:19:57<19:54,  2.02it/s] 77%|███████▋  | 8293/10702 [1:19:57<19:57,  2.01it/s] 77%|███████▋  | 8294/10702 [1:19:58<19:57,  2.01it/s] 78%|███████▊  | 8295/10702 [1:19:58<19:55,  2.01it/s] 78%|███████▊  | 8296/10702 [1:19:59<19:54,  2.01it/s] 78%|███████▊  | 8297/10702 [1:19:59<19:54,  2.01it/s] 78%|███████▊  | 8298/10702 [1:20:00<19:52,  2.02it/s] 78%|███████▊  | 8299/10702 [1:20:00<19:52,  2.02it/s] 78%|███████▊  | 8300/10702 [1:20:01<19:51,  2.02it/s]                                                      {'loss': 3.5632, 'grad_norm': 0.20470622181892395, 'learning_rate': 0.0001457840976217132, 'epoch': 0.78}
+ 78%|███████▊  | 8300/10702 [1:20:01<19:51,  2.02it/s] 78%|███████▊  | 8301/10702 [1:20:01<19:51,  2.02it/s] 78%|███████▊  | 8302/10702 [1:20:02<19:51,  2.01it/s] 78%|███████▊  | 8303/10702 [1:20:02<19:50,  2.02it/s] 78%|███████▊  | 8304/10702 [1:20:03<19:50,  2.02it/s] 78%|███████▊  | 8305/10702 [1:20:03<19:50,  2.01it/s] 78%|███████▊  | 8306/10702 [1:20:04<19:49,  2.01it/s] 78%|███████▊  | 8307/10702 [1:20:04<19:50,  2.01it/s] 78%|███████▊  | 8308/10702 [1:20:05<19:48,  2.01it/s] 78%|███████▊  | 8309/10702 [1:20:05<19:48,  2.01it/s] 78%|███████▊  | 8310/10702 [1:20:06<19:47,  2.01it/s] 78%|███████▊  | 8311/10702 [1:20:06<19:46,  2.02it/s] 78%|███████▊  | 8312/10702 [1:20:07<19:46,  2.01it/s] 78%|███████▊  | 8313/10702 [1:20:07<19:45,  2.01it/s] 78%|███████▊  | 8314/10702 [1:20:08<19:44,  2.02it/s] 78%|███████▊  | 8315/10702 [1:20:08<19:43,  2.02it/s] 78%|███████▊  | 8316/10702 [1:20:09<19:43,  2.02it/s] 78%|███████▊  | 8317/10702 [1:20:09<19:41,  2.02it/s] 78%|███████▊  | 8318/10702 [1:20:10<19:41,  2.02it/s] 78%|███████▊  | 8319/10702 [1:20:10<19:40,  2.02it/s] 78%|███████▊  | 8320/10702 [1:20:11<19:41,  2.02it/s] 78%|███████▊  | 8321/10702 [1:20:11<19:40,  2.02it/s] 78%|███████▊  | 8322/10702 [1:20:12<19:40,  2.02it/s] 78%|███████▊  | 8323/10702 [1:20:12<19:38,  2.02it/s] 78%|███████▊  | 8324/10702 [1:20:13<19:38,  2.02it/s] 78%|███████▊  | 8325/10702 [1:20:13<19:38,  2.02it/s]{'loss': 3.5533, 'grad_norm': 0.20018593966960907, 'learning_rate': 0.00014291812879988408, 'epoch': 0.78}
+                                                       78%|███████▊  | 8325/10702 [1:20:13<19:38,  2.02it/s] 78%|███████▊  | 8326/10702 [1:20:14<19:38,  2.02it/s] 78%|███████▊  | 8327/10702 [1:20:14<19:36,  2.02it/s] 78%|███████▊  | 8328/10702 [1:20:15<19:36,  2.02it/s] 78%|███████▊  | 8329/10702 [1:20:15<19:35,  2.02it/s] 78%|███████▊  | 8330/10702 [1:20:16<19:36,  2.02it/s] 78%|███████▊  | 8331/10702 [1:20:16<19:35,  2.02it/s] 78%|███████▊  | 8332/10702 [1:20:17<19:35,  2.02it/s] 78%|███████▊  | 8333/10702 [1:20:17<19:33,  2.02it/s] 78%|███████▊  | 8334/10702 [1:20:18<19:33,  2.02it/s] 78%|███████▊  | 8335/10702 [1:20:18<19:32,  2.02it/s] 78%|███████▊  | 8336/10702 [1:20:19<19:32,  2.02it/s] 78%|███████▊  | 8337/10702 [1:20:19<19:31,  2.02it/s] 78%|███████▊  | 8338/10702 [1:20:20<19:31,  2.02it/s] 78%|███████▊  | 8339/10702 [1:20:20<19:31,  2.02it/s] 78%|███████▊  | 8340/10702 [1:20:21<19:30,  2.02it/s] 78%|███████▊  | 8341/10702 [1:20:21<19:30,  2.02it/s] 78%|███████▊  | 8342/10702 [1:20:22<19:28,  2.02it/s] 78%|███████▊  | 8343/10702 [1:20:22<19:29,  2.02it/s] 78%|███████▊  | 8344/10702 [1:20:23<19:27,  2.02it/s] 78%|███████▊  | 8345/10702 [1:20:23<19:28,  2.02it/s] 78%|███████▊  | 8346/10702 [1:20:24<19:27,  2.02it/s] 78%|███████▊  | 8347/10702 [1:20:24<19:27,  2.02it/s] 78%|███████▊  | 8348/10702 [1:20:25<19:26,  2.02it/s] 78%|███████▊  | 8349/10702 [1:20:25<19:25,  2.02it/s] 78%|███████▊  | 8350/10702 [1:20:26<19:26,  2.02it/s]{'loss': 3.5715, 'grad_norm': 0.2000754326581955, 'learning_rate': 0.0001400759066302898, 'epoch': 0.78}
+                                                       78%|███████▊  | 8350/10702 [1:20:26<19:26,  2.02it/s] 78%|███████▊  | 8351/10702 [1:20:26<19:26,  2.02it/s] 78%|███████▊  | 8352/10702 [1:20:27<19:25,  2.02it/s] 78%|███████▊  | 8353/10702 [1:20:27<19:27,  2.01it/s] 78%|███████▊  | 8354/10702 [1:20:28<19:29,  2.01it/s] 78%|███████▊  | 8355/10702 [1:20:28<19:27,  2.01it/s] 78%|███████▊  | 8356/10702 [1:20:29<19:24,  2.01it/s] 78%|███████▊  | 8357/10702 [1:20:29<19:23,  2.02it/s] 78%|███████▊  | 8358/10702 [1:20:30<19:23,  2.01it/s] 78%|███████▊  | 8359/10702 [1:20:30<19:22,  2.02it/s] 78%|███████▊  | 8360/10702 [1:20:31<19:21,  2.02it/s] 78%|███████▊  | 8361/10702 [1:20:31<19:20,  2.02it/s] 78%|███████▊  | 8362/10702 [1:20:32<19:19,  2.02it/s] 78%|███████▊  | 8363/10702 [1:20:32<19:18,  2.02it/s] 78%|███████▊  | 8364/10702 [1:20:33<19:18,  2.02it/s] 78%|███████▊  | 8365/10702 [1:20:33<19:17,  2.02it/s] 78%|███████▊  | 8366/10702 [1:20:34<19:16,  2.02it/s] 78%|███████▊  | 8367/10702 [1:20:34<19:15,  2.02it/s] 78%|███████▊  | 8368/10702 [1:20:35<19:14,  2.02it/s] 78%|███████▊  | 8369/10702 [1:20:35<19:16,  2.02it/s] 78%|███████▊  | 8370/10702 [1:20:36<19:15,  2.02it/s] 78%|███████▊  | 8371/10702 [1:20:36<19:14,  2.02it/s] 78%|███████▊  | 8372/10702 [1:20:36<19:13,  2.02it/s] 78%|███████▊  | 8373/10702 [1:20:37<19:14,  2.02it/s] 78%|███████▊  | 8374/10702 [1:20:37<19:13,  2.02it/s] 78%|███████▊  | 8375/10702 [1:20:38<19:12,  2.02it/s]{'loss': 3.5561, 'grad_norm': 0.20680750906467438, 'learning_rate': 0.00013725762012633836, 'epoch': 0.78}                                                      
+ 78%|███████▊  | 8375/10702 [1:20:38<19:12,  2.02it/s] 78%|███████▊  | 8376/10702 [1:20:38<19:13,  2.02it/s] 78%|███████▊  | 8377/10702 [1:20:39<19:11,  2.02it/s] 78%|███████▊  | 8378/10702 [1:20:39<19:12,  2.02it/s] 78%|███████▊  | 8379/10702 [1:20:40<19:10,  2.02it/s] 78%|███████▊  | 8380/10702 [1:20:40<19:11,  2.02it/s] 78%|███████▊  | 8381/10702 [1:20:41<19:09,  2.02it/s] 78%|███████▊  | 8382/10702 [1:20:41<19:09,  2.02it/s] 78%|███████▊  | 8383/10702 [1:20:42<19:10,  2.02it/s] 78%|███████▊  | 8384/10702 [1:20:42<19:08,  2.02it/s] 78%|███████▊  | 8385/10702 [1:20:43<19:08,  2.02it/s] 78%|███████▊  | 8386/10702 [1:20:43<19:06,  2.02it/s] 78%|███████▊  | 8387/10702 [1:20:44<19:08,  2.02it/s] 78%|███████▊  | 8388/10702 [1:20:44<19:05,  2.02it/s] 78%|███████▊  | 8389/10702 [1:20:45<19:06,  2.02it/s] 78%|███████▊  | 8390/10702 [1:20:45<19:05,  2.02it/s] 78%|███████▊  | 8391/10702 [1:20:46<19:05,  2.02it/s] 78%|███████▊  | 8392/10702 [1:20:46<19:06,  2.02it/s] 78%|███████▊  | 8393/10702 [1:20:47<19:04,  2.02it/s] 78%|███████▊  | 8394/10702 [1:20:47<19:04,  2.02it/s] 78%|███████▊  | 8395/10702 [1:20:48<19:03,  2.02it/s] 78%|███████▊  | 8396/10702 [1:20:48<19:03,  2.02it/s] 78%|███████▊  | 8397/10702 [1:20:49<19:03,  2.02it/s] 78%|███████▊  | 8398/10702 [1:20:49<19:01,  2.02it/s] 78%|███████▊  | 8399/10702 [1:20:50<19:01,  2.02it/s] 78%|███████▊  | 8400/10702 [1:20:50<19:00,  2.02it/s]                                                      {'loss': 3.558, 'grad_norm': 0.19373716413974762, 'learning_rate': 0.00013446345670966865, 'epoch': 0.78}
+ 78%|███████▊  | 8400/10702 [1:20:50<19:00,  2.02it/s] 78%|███████▊  | 8401/10702 [1:20:51<19:02,  2.01it/s] 79%|███████▊  | 8402/10702 [1:20:51<19:01,  2.01it/s] 79%|███████▊  | 8403/10702 [1:20:52<19:00,  2.02it/s] 79%|███████▊  | 8404/10702 [1:20:52<18:59,  2.02it/s] 79%|███████▊  | 8405/10702 [1:20:53<18:59,  2.02it/s] 79%|███████▊  | 8406/10702 [1:20:53<18:58,  2.02it/s] 79%|███████▊  | 8407/10702 [1:20:54<18:58,  2.02it/s] 79%|███████▊  | 8408/10702 [1:20:54<18:57,  2.02it/s] 79%|███████▊  | 8409/10702 [1:20:55<18:56,  2.02it/s] 79%|███████▊  | 8410/10702 [1:20:55<18:56,  2.02it/s] 79%|███████▊  | 8411/10702 [1:20:56<18:55,  2.02it/s] 79%|███████▊  | 8412/10702 [1:20:56<18:56,  2.02it/s] 79%|███████▊  | 8413/10702 [1:20:57<18:54,  2.02it/s] 79%|███████▊  | 8414/10702 [1:20:57<19:02,  2.00it/s] 79%|███████▊  | 8415/10702 [1:20:58<19:08,  1.99it/s] 79%|███████▊  | 8416/10702 [1:20:58<19:04,  2.00it/s] 79%|███████▊  | 8417/10702 [1:20:59<19:02,  2.00it/s] 79%|███████▊  | 8418/10702 [1:20:59<19:00,  2.00it/s] 79%|███��███▊  | 8419/10702 [1:21:00<18:58,  2.00it/s] 79%|███████▊  | 8420/10702 [1:21:00<18:57,  2.01it/s] 79%|███████▊  | 8421/10702 [1:21:01<18:57,  2.01it/s] 79%|███████▊  | 8422/10702 [1:21:01<18:54,  2.01it/s] 79%|███████▊  | 8423/10702 [1:21:02<18:53,  2.01it/s] 79%|███████▊  | 8424/10702 [1:21:02<18:52,  2.01it/s] 79%|███████▊  | 8425/10702 [1:21:03<18:50,  2.01it/s]{'loss': 3.5665, 'grad_norm': 0.20002873241901398, 'learning_rate': 0.00013169360219768638, 'epoch': 0.79}
+                                                       79%|███████▊  | 8425/10702 [1:21:03<18:50,  2.01it/s] 79%|███████▊  | 8426/10702 [1:21:03<18:52,  2.01it/s] 79%|███████▊  | 8427/10702 [1:21:04<18:51,  2.01it/s] 79%|███████▉  | 8428/10702 [1:21:04<18:50,  2.01it/s] 79%|███████▉  | 8429/10702 [1:21:05<18:49,  2.01it/s] 79%|███████▉  | 8430/10702 [1:21:05<18:48,  2.01it/s] 79%|███████▉  | 8431/10702 [1:21:06<18:48,  2.01it/s] 79%|███████▉  | 8432/10702 [1:21:06<18:46,  2.01it/s] 79%|███████▉  | 8433/10702 [1:21:07<18:47,  2.01it/s] 79%|███████▉  | 8434/10702 [1:21:07<18:46,  2.01it/s] 79%|███████▉  | 8435/10702 [1:21:08<18:45,  2.01it/s] 79%|███████▉  | 8436/10702 [1:21:08<18:44,  2.01it/s] 79%|███████▉  | 8437/10702 [1:21:09<18:43,  2.02it/s] 79%|███████▉  | 8438/10702 [1:21:09<18:43,  2.02it/s] 79%|███████▉  | 8439/10702 [1:21:10<18:42,  2.02it/s] 79%|███████▉  | 8440/10702 [1:21:10<18:42,  2.02it/s] 79%|███████▉  | 8441/10702 [1:21:11<18:41,  2.02it/s] 79%|███████▉  | 8442/10702 [1:21:11<18:41,  2.02it/s] 79%|███████▉  | 8443/10702 [1:21:12<18:41,  2.01it/s] 79%|███████▉  | 8444/10702 [1:21:12<18:39,  2.02it/s] 79%|███████▉  | 8445/10702 [1:21:13<18:39,  2.02it/s] 79%|███████▉  | 8446/10702 [1:21:13<18:38,  2.02it/s] 79%|███████▉  | 8447/10702 [1:21:14<18:37,  2.02it/s] 79%|███████▉  | 8448/10702 [1:21:14<18:36,  2.02it/s] 79%|███████▉  | 8449/10702 [1:21:15<18:35,  2.02it/s] 79%|███████▉  | 8450/10702 [1:21:15<18:37,  2.01it/s]{'loss': 3.5482, 'grad_norm': 0.20001889765262604, 'learning_rate': 0.00012894824079120697, 'epoch': 0.79}
+                                                       79%|███████▉  | 8450/10702 [1:21:15<18:37,  2.01it/s] 79%|███████▉  | 8451/10702 [1:21:16<18:38,  2.01it/s] 79%|███████▉  | 8452/10702 [1:21:16<18:37,  2.01it/s] 79%|███████▉  | 8453/10702 [1:21:17<18:36,  2.01it/s] 79%|███████▉  | 8454/10702 [1:21:17<18:35,  2.01it/s] 79%|███████▉  | 8455/10702 [1:21:18<18:34,  2.02it/s] 79%|███████▉  | 8456/10702 [1:21:18<18:34,  2.02it/s] 79%|███████▉  | 8457/10702 [1:21:19<18:32,  2.02it/s] 79%|███████▉  | 8458/10702 [1:21:19<18:32,  2.02it/s] 79%|███████▉  | 8459/10702 [1:21:20<18:31,  2.02it/s] 79%|███████▉  | 8460/10702 [1:21:20<18:31,  2.02it/s] 79%|███████▉  | 8461/10702 [1:21:21<18:29,  2.02it/s] 79%|███████▉  | 8462/10702 [1:21:21<18:28,  2.02it/s] 79%|███████▉  | 8463/10702 [1:21:22<18:27,  2.02it/s] 79%|███████▉  | 8464/10702 [1:21:22<18:27,  2.02it/s] 79%|███████▉  | 8465/10702 [1:21:23<18:27,  2.02it/s] 79%|███████▉  | 8466/10702 [1:21:23<18:27,  2.02it/s] 79%|███████▉  | 8467/10702 [1:21:24<18:26,  2.02it/s] 79%|███████▉  | 8468/10702 [1:21:24<18:27,  2.02it/s] 79%|███████▉  | 8469/10702 [1:21:25<18:26,  2.02it/s] 79%|███████▉  | 8470/10702 [1:21:25<18:26,  2.02it/s] 79%|███████▉  | 8471/10702 [1:21:26<18:25,  2.02it/s] 79%|███████▉  | 8472/10702 [1:21:26<18:24,  2.02it/s] 79%|███████▉  | 8473/10702 [1:21:27<18:23,  2.02it/s] 79%|███████▉  | 8474/10702 [1:21:27<18:25,  2.02it/s] 79%|███████▉  | 8475/10702 [1:21:28<18:28,  2.01it/s]{'loss': 3.5574, 'grad_norm': 0.19818072021007538, 'learning_rate': 0.00012622755506220572, 'epoch': 0.79}
+                                                       79%|███████▉  | 8475/10702 [1:21:28<18:28,  2.01it/s] 79%|███████▉  | 8476/10702 [1:21:28<18:29,  2.01it/s] 79%|███████▉  | 8477/10702 [1:21:29<18:25,  2.01it/s] 79%|███████▉  | 8478/10702 [1:21:29<18:25,  2.01it/s] 79%|███████▉  | 8479/10702 [1:21:30<18:23,  2.01it/s] 79%|███████▉  | 8480/10702 [1:21:30<18:22,  2.01it/s] 79%|███████▉  | 8481/10702 [1:21:31<18:22,  2.01it/s] 79%|███████▉  | 8482/10702 [1:21:31<18:20,  2.02it/s] 79%|███████▉  | 8483/10702 [1:21:32<18:20,  2.02it/s] 79%|███████▉  | 8484/10702 [1:21:32<18:19,  2.02it/s] 79%|███████▉  | 8485/10702 [1:21:33<18:19,  2.02it/s] 79%|███████▉  | 8486/10702 [1:21:33<18:17,  2.02it/s] 79%|███████▉  | 8487/10702 [1:21:34<18:17,  2.02it/s] 79%|███████▉  | 8488/10702 [1:21:34<18:16,  2.02it/s] 79%|███████▉  | 8489/10702 [1:21:35<18:16,  2.02it/s] 79%|███████▉  | 8490/10702 [1:21:35<18:15,  2.02it/s] 79%|███████▉  | 8491/10702 [1:21:36<18:15,  2.02it/s] 79%|███████▉  | 8492/10702 [1:21:36<18:15,  2.02it/s] 79%|███████▉  | 8493/10702 [1:21:37<18:14,  2.02it/s] 79%|███████▉  | 8494/10702 [1:21:37<18:14,  2.02it/s] 79%|███████▉  | 8495/10702 [1:21:38<18:13,  2.02it/s] 79%|███████▉  | 8496/10702 [1:21:38<18:13,  2.02it/s] 79%|███████▉  | 8497/10702 [1:21:39<18:12,  2.02it/s] 79%|███████▉  | 8498/10702 [1:21:39<18:11,  2.02it/s] 79%|███████▉  | 8499/10702 [1:21:40<18:11,  2.02it/s] 79%|███████▉  | 8500/10702 [1:21:40<18:10,  2.02it/s]{'loss': 3.5696, 'grad_norm': 0.19703130424022675, 'learning_rate': 0.00012353172594167656, 'epoch': 0.79}                                                      
+ 79%|███████▉  | 8500/10702 [1:21:40<18:10,  2.02it/s] 79%|███████▉  | 8501/10702 [1:21:41<18:12,  2.01it/s] 79%|███████▉  | 8502/10702 [1:21:41<18:11,  2.02it/s] 79%|███████▉  | 8503/10702 [1:21:41<18:09,  2.02it/s] 79%|███████▉  | 8504/10702 [1:21:42<18:08,  2.02it/s] 79%|███████▉  | 8505/10702 [1:21:42<18:08,  2.02it/s] 79%|███████▉  | 8506/10702 [1:21:43<18:09,  2.02it/s] 79%|███████▉  | 8507/10702 [1:21:43<18:08,  2.02it/s] 79%|███████▉  | 8508/10702 [1:21:44<18:08,  2.02it/s] 80%|███████▉  | 8509/10702 [1:21:44<18:07,  2.02it/s] 80%|███████▉  | 8510/10702 [1:21:45<18:07,  2.02it/s] 80%|███████▉  | 8511/10702 [1:21:45<18:06,  2.02it/s] 80%|███████▉  | 8512/10702 [1:21:46<18:05,  2.02it/s] 80%|███████▉  | 8513/10702 [1:21:46<18:05,  2.02it/s] 80%|███████▉  | 8514/10702 [1:21:47<18:03,  2.02it/s] 80%|███████▉  | 8515/10702 [1:21:47<18:04,  2.02it/s] 80%|███████▉  | 8516/10702 [1:21:48<18:02,  2.02it/s] 80%|███████▉  | 8517/10702 [1:21:48<18:02,  2.02it/s] 80%|███████▉  | 8518/10702 [1:21:49<18:03,  2.02it/s] 80%|███████▉  | 8519/10702 [1:21:49<18:02,  2.02it/s] 80%|███████▉  | 8520/10702 [1:21:50<18:02,  2.02it/s] 80%|███████▉  | 8521/10702 [1:21:50<18:00,  2.02it/s] 80%|███████▉  | 8522/10702 [1:21:51<17:59,  2.02it/s] 80%|███████▉  | 8523/10702 [1:21:51<18:00,  2.02it/s] 80%|███████▉  | 8524/10702 [1:21:52<17:59,  2.02it/s] 80%|███████▉  | 8525/10702 [1:21:52<17:58,  2.02it/s]{'loss': 3.5596, 'grad_norm': 0.1923845112323761, 'learning_rate': 0.00012086093270759957, 'epoch': 0.8}                                                      
+ 80%|███████▉  | 8525/10702 [1:21:52<17:58,  2.02it/s] 80%|███████▉  | 8526/10702 [1:21:53<17:59,  2.02it/s] 80%|███████▉  | 8527/10702 [1:21:53<17:57,  2.02it/s] 80%|███████▉  | 8528/10702 [1:21:54<17:56,  2.02it/s] 80%|███████▉  | 8529/10702 [1:21:54<17:56,  2.02it/s] 80%|███████▉  | 8530/10702 [1:21:55<17:54,  2.02it/s] 80%|███████▉  | 8531/10702 [1:21:55<17:54,  2.02it/s] 80%|███████▉  | 8532/10702 [1:21:56<17:53,  2.02it/s] 80%|███████▉  | 8533/10702 [1:21:56<17:54,  2.02it/s] 80%|███████▉  | 8534/10702 [1:21:57<17:53,  2.02it/s] 80%|███████▉  | 8535/10702 [1:21:57<17:56,  2.01it/s] 80%|███████▉  | 8536/10702 [1:21:58<18:02,  2.00it/s] 80%|███████▉  | 8537/10702 [1:21:58<18:01,  2.00it/s] 80%|███████▉  | 8538/10702 [1:21:59<17:59,  2.01it/s] 80%|███████▉  | 8539/10702 [1:21:59<17:57,  2.01it/s] 80%|███████▉  | 8540/10702 [1:22:00<17:57,  2.01it/s] 80%|███████▉  | 8541/10702 [1:22:00<17:55,  2.01it/s] 80%|███████▉  | 8542/10702 [1:22:01<17:54,  2.01it/s] 80%|███████▉  | 8543/10702 [1:22:01<17:54,  2.01it/s] 80%|███████▉  | 8544/10702 [1:22:02<17:51,  2.01it/s] 80%|███████▉  | 8545/10702 [1:22:02<17:51,  2.01it/s] 80%|███████▉  | 8546/10702 [1:22:03<17:49,  2.02it/s] 80%|███████▉  | 8547/10702 [1:22:03<17:50,  2.01it/s] 80%|███████▉  | 8548/10702 [1:22:04<17:49,  2.01it/s] 80%|███████▉  | 8549/10702 [1:22:04<17:48,  2.02it/s] 80%|███████▉  | 8550/10702 [1:22:05<17:48,  2.01it/s]{'loss': 3.5583, 'grad_norm': 0.1990637481212616, 'learning_rate': 0.00011821535297301866, 'epoch': 0.8}
+                                                       80%|███████▉  | 8550/10702 [1:22:05<17:48,  2.01it/s] 80%|███████▉  | 8551/10702 [1:22:05<17:47,  2.01it/s] 80%|███████▉  | 8552/10702 [1:22:06<17:47,  2.01it/s] 80%|███████▉  | 8553/10702 [1:22:06<17:47,  2.01it/s] 80%|███████▉  | 8554/10702 [1:22:07<17:46,  2.01it/s] 80%|███████▉  | 8555/10702 [1:22:07<17:45,  2.01it/s] 80%|███████▉  | 8556/10702 [1:22:08<17:43,  2.02it/s] 80%|███████▉  | 8557/10702 [1:22:08<17:44,  2.02it/s] 80%|███████▉  | 8558/10702 [1:22:09<17:43,  2.02it/s] 80%|███████▉  | 8559/10702 [1:22:09<17:44,  2.01it/s] 80%|███████▉  | 8560/10702 [1:22:10<17:42,  2.02it/s] 80%|███████▉  | 8561/10702 [1:22:10<17:42,  2.02it/s] 80%|████████  | 8562/10702 [1:22:11<17:40,  2.02it/s] 80%|████████  | 8563/10702 [1:22:11<17:40,  2.02it/s] 80%|████████  | 8564/10702 [1:22:12<17:40,  2.02it/s] 80%|████████  | 8565/10702 [1:22:12<17:39,  2.02it/s] 80%|████████  | 8566/10702 [1:22:13<17:39,  2.02it/s] 80%|████████  | 8567/10702 [1:22:13<17:38,  2.02it/s] 80%|████████  | 8568/10702 [1:22:14<17:37,  2.02it/s] 80%|████████  | 8569/10702 [1:22:14<17:38,  2.02it/s] 80%|████████  | 8570/10702 [1:22:15<17:37,  2.02it/s] 80%|████████  | 8571/10702 [1:22:15<17:37,  2.01it/s] 80%|████████  | 8572/10702 [1:22:16<17:38,  2.01it/s] 80%|████████  | 8573/10702 [1:22:16<17:36,  2.01it/s] 80%|████████  | 8574/10702 [1:22:17<17:36,  2.01it/s] 80%|████████  | 8575/10702 [1:22:17<17:35,  2.02it/s]{'loss': 3.5612, 'grad_norm': 0.20154331624507904, 'learning_rate': 0.00011559516267423048, 'epoch': 0.8}                                                      
+ 80%|████████  | 8575/10702 [1:22:17<17:35,  2.02it/s] 80%|████████  | 8576/10702 [1:22:18<17:35,  2.01it/s] 80%|████████  | 8577/10702 [1:22:18<17:34,  2.01it/s] 80%|████████  | 8578/10702 [1:22:19<17:33,  2.02it/s] 80%|████████  | 8579/10702 [1:22:19<17:33,  2.01it/s] 80%|████████  | 8580/10702 [1:22:20<17:31,  2.02it/s] 80%|████████  | 8581/10702 [1:22:20<17:31,  2.02it/s] 80%|████████  | 8582/10702 [1:22:21<17:29,  2.02it/s] 80%|████████  | 8583/10702 [1:22:21<17:30,  2.02it/s] 80%|████████  | 8584/10702 [1:22:22<17:29,  2.02it/s] 80%|████████  | 8585/10702 [1:22:22<17:29,  2.02it/s] 80%|████████  | 8586/10702 [1:22:23<17:27,  2.02it/s] 80%|████████  | 8587/10702 [1:22:23<17:28,  2.02it/s] 80%|████████  | 8588/10702 [1:22:24<17:26,  2.02it/s] 80%|████████  | 8589/10702 [1:22:24<17:26,  2.02it/s] 80%|████████  | 8590/10702 [1:22:25<17:25,  2.02it/s] 80%|████████  | 8591/10702 [1:22:25<17:26,  2.02it/s] 80%|████████  | 8592/10702 [1:22:26<17:25,  2.02it/s] 80%|████████  | 8593/10702 [1:22:26<17:25,  2.02it/s] 80%|████████  | 8594/10702 [1:22:27<17:25,  2.02it/s] 80%|████████  | 8595/10702 [1:22:27<17:31,  2.00it/s] 80%|████████  | 8596/10702 [1:22:28<17:36,  1.99it/s] 80%|████████  | 8597/10702 [1:22:28<17:34,  2.00it/s] 80%|████████  | 8598/10702 [1:22:29<17:31,  2.00it/s] 80%|████████  | 8599/10702 [1:22:29<17:29,  2.00it/s] 80%|████████  | 8600/10702 [1:22:30<17:28,  2.00it/s]{'loss': 3.5632, 'grad_norm': 0.20035997033119202, 'learning_rate': 0.00011300053605908355, 'epoch': 0.8}
+                                                       80%|████████  | 8600/10702 [1:22:30<17:28,  2.00it/s] 80%|████████  | 8601/10702 [1:22:30<17:29,  2.00it/s] 80%|████████  | 8602/10702 [1:22:31<17:27,  2.01it/s] 80%|████████  | 8603/10702 [1:22:31<17:25,  2.01it/s] 80%|████████  | 8604/10702 [1:22:32<17:23,  2.01it/s] 80%|████████  | 8605/10702 [1:22:32<17:23,  2.01it/s] 80%|████████  | 8606/10702 [1:22:33<17:22,  2.01it/s] 80%|████████  | 8607/10702 [1:22:33<17:21,  2.01it/s] 80%|████████  | 8608/10702 [1:22:34<17:21,  2.01it/s] 80%|██���█████  | 8609/10702 [1:22:34<17:19,  2.01it/s] 80%|████████  | 8610/10702 [1:22:35<17:18,  2.01it/s] 80%|████████  | 8611/10702 [1:22:35<17:19,  2.01it/s] 80%|████████  | 8612/10702 [1:22:36<17:18,  2.01it/s] 80%|████████  | 8613/10702 [1:22:36<17:17,  2.01it/s] 80%|████████  | 8614/10702 [1:22:37<17:16,  2.02it/s] 80%|████████  | 8615/10702 [1:22:37<17:16,  2.01it/s] 81%|████████  | 8616/10702 [1:22:38<17:15,  2.01it/s] 81%|████████  | 8617/10702 [1:22:38<17:14,  2.02it/s] 81%|████████  | 8618/10702 [1:22:39<17:13,  2.02it/s] 81%|████████  | 8619/10702 [1:22:39<17:12,  2.02it/s] 81%|████████  | 8620/10702 [1:22:40<17:12,  2.02it/s] 81%|████████  | 8621/10702 [1:22:40<17:12,  2.02it/s] 81%|████████  | 8622/10702 [1:22:41<17:12,  2.02it/s] 81%|████████  | 8623/10702 [1:22:41<17:11,  2.01it/s] 81%|████████  | 8624/10702 [1:22:42<17:09,  2.02it/s] 81%|████████  | 8625/10702 [1:22:42<17:09,  2.02it/s]{'loss': 3.5528, 'grad_norm': 0.20318950712680817, 'learning_rate': 0.00011043164567539054, 'epoch': 0.81}                                                      
+ 81%|████████  | 8625/10702 [1:22:42<17:09,  2.02it/s] 81%|████████  | 8626/10702 [1:22:43<17:10,  2.02it/s] 81%|████████  | 8627/10702 [1:22:43<17:09,  2.02it/s] 81%|████████  | 8628/10702 [1:22:44<17:09,  2.02it/s] 81%|████████  | 8629/10702 [1:22:44<17:07,  2.02it/s] 81%|████████  | 8630/10702 [1:22:45<17:07,  2.02it/s] 81%|████████  | 8631/10702 [1:22:45<17:06,  2.02it/s] 81%|████████  | 8632/10702 [1:22:46<17:06,  2.02it/s] 81%|████████  | 8633/10702 [1:22:46<17:05,  2.02it/s] 81%|████████  | 8634/10702 [1:22:47<17:04,  2.02it/s] 81%|████████  | 8635/10702 [1:22:47<17:04,  2.02it/s] 81%|████████  | 8636/10702 [1:22:48<17:03,  2.02it/s] 81%|████████  | 8637/10702 [1:22:48<17:03,  2.02it/s] 81%|████████  | 8638/10702 [1:22:49<17:03,  2.02it/s] 81%|████████  | 8639/10702 [1:22:49<17:02,  2.02it/s] 81%|████████  | 8640/10702 [1:22:50<17:02,  2.02it/s] 81%|████████  | 8641/10702 [1:22:50<17:01,  2.02it/s] 81%|████████  | 8642/10702 [1:22:50<17:00,  2.02it/s] 81%|████████  | 8643/10702 [1:22:51<17:00,  2.02it/s] 81%|████████  | 8644/10702 [1:22:51<16:59,  2.02it/s] 81%|████████  | 8645/10702 [1:22:52<16:59,  2.02it/s] 81%|████████  | 8646/10702 [1:22:52<16:58,  2.02it/s] 81%|████████  | 8647/10702 [1:22:53<16:57,  2.02it/s] 81%|████████  | 8648/10702 [1:22:53<16:57,  2.02it/s] 81%|████████  | 8649/10702 [1:22:54<16:56,  2.02it/s] 81%|████████  | 8650/10702 [1:22:54<16:56,  2.02it/s]{'loss': 3.5527, 'grad_norm': 0.19215460121631622, 'learning_rate': 0.00010788866235945405, 'epoch': 0.81}
+                                                       81%|████████  | 8650/10702 [1:22:54<16:56,  2.02it/s] 81%|████████  | 8651/10702 [1:22:55<16:56,  2.02it/s] 81%|████████  | 8652/10702 [1:22:55<16:56,  2.02it/s] 81%|████████  | 8653/10702 [1:22:56<16:55,  2.02it/s] 81%|████████  | 8654/10702 [1:22:56<16:54,  2.02it/s] 81%|████████  | 8655/10702 [1:22:57<16:54,  2.02it/s] 81%|████████  | 8656/10702 [1:22:57<16:57,  2.01it/s] 81%|████████  | 8657/10702 [1:22:58<16:58,  2.01it/s] 81%|████████  | 8658/10702 [1:22:58<16:57,  2.01it/s] 81%|████████  | 8659/10702 [1:22:59<16:57,  2.01it/s] 81%|████████  | 8660/10702 [1:22:59<16:55,  2.01it/s] 81%|████████  | 8661/10702 [1:23:00<16:55,  2.01it/s] 81%|████████  | 8662/10702 [1:23:00<16:54,  2.01it/s] 81%|████████  | 8663/10702 [1:23:01<16:53,  2.01it/s] 81%|████████  | 8664/10702 [1:23:01<16:53,  2.01it/s] 81%|████████  | 8665/10702 [1:23:02<16:52,  2.01it/s] 81%|████████  | 8666/10702 [1:23:02<16:52,  2.01it/s] 81%|████████  | 8667/10702 [1:23:03<16:50,  2.01it/s] 81%|████████  | 8668/10702 [1:23:03<16:49,  2.01it/s] 81%|████████  | 8669/10702 [1:23:04<16:50,  2.01it/s] 81%|████████  | 8670/10702 [1:23:04<16:48,  2.01it/s] 81%|████████  | 8671/10702 [1:23:05<16:49,  2.01it/s] 81%|████████  | 8672/10702 [1:23:05<16:48,  2.01it/s] 81%|████████  | 8673/10702 [1:23:06<16:46,  2.01it/s] 81%|████████  | 8674/10702 [1:23:06<16:47,  2.01it/s] 81%|████████  | 8675/10702 [1:23:07<16:46,  2.01it/s]                                                      {'loss': 3.5572, 'grad_norm': 0.1979842483997345, 'learning_rate': 0.00010537175522470533, 'epoch': 0.81}
+ 81%|████████  | 8675/10702 [1:23:07<16:46,  2.01it/s] 81%|████████  | 8676/10702 [1:23:07<16:46,  2.01it/s] 81%|████████  | 8677/10702 [1:23:08<16:45,  2.01it/s] 81%|████████  | 8678/10702 [1:23:08<16:45,  2.01it/s] 81%|████████  | 8679/10702 [1:23:09<16:45,  2.01it/s] 81%|████████  | 8680/10702 [1:23:09<16:45,  2.01it/s] 81%|████████  | 8681/10702 [1:23:10<16:43,  2.01it/s] 81%|████████  | 8682/10702 [1:23:10<16:47,  2.00it/s] 81%|████████  | 8683/10702 [1:23:11<16:53,  1.99it/s] 81%|████████  | 8684/10702 [1:23:11<16:58,  1.98it/s] 81%|████████  | 8685/10702 [1:23:12<17:00,  1.98it/s] 81%|████████  | 8686/10702 [1:23:12<17:01,  1.97it/s] 81%|████████  | 8687/10702 [1:23:13<16:53,  1.99it/s] 81%|████████  | 8688/10702 [1:23:13<16:49,  2.00it/s] 81%|████████  | 8689/10702 [1:23:14<16:45,  2.00it/s] 81%|████████  | 8690/10702 [1:23:14<16:41,  2.01it/s] 81%|████████  | 8691/10702 [1:23:15<16:40,  2.01it/s] 81%|████████  | 8692/10702 [1:23:15<16:38,  2.01it/s] 81%|████████  | 8693/10702 [1:23:16<16:37,  2.01it/s] 81%|████████  | 8694/10702 [1:23:16<16:36,  2.02it/s] 81%|████████  | 8695/10702 [1:23:17<16:35,  2.02it/s] 81%|████████▏ | 8696/10702 [1:23:17<16:34,  2.02it/s] 81%|████████▏ | 8697/10702 [1:23:18<16:33,  2.02it/s] 81%|████████▏ | 8698/10702 [1:23:18<16:34,  2.02it/s] 81%|████████▏ | 8699/10702 [1:23:19<16:33,  2.02it/s] 81%|████████▏ | 8700/10702 [1:23:19<16:33,  2.02it/s]{'loss': 3.5487, 'grad_norm': 0.20064358413219452, 'learning_rate': 0.00010288109165045795, 'epoch': 0.81}                                                      
+ 81%|████████▏ | 8700/10702 [1:23:19<16:33,  2.02it/s] 81%|████████▏ | 8701/10702 [1:23:20<16:32,  2.02it/s] 81%|████████▏ | 8702/10702 [1:23:20<16:32,  2.02it/s] 81%|████████▏ | 8703/10702 [1:23:21<16:31,  2.02it/s] 81%|████████▏ | 8704/10702 [1:23:21<16:30,  2.02it/s] 81%|████████▏ | 8705/10702 [1:23:22<16:29,  2.02it/s] 81%|████████▏ | 8706/10702 [1:23:22<16:28,  2.02it/s] 81%|████████▏ | 8707/10702 [1:23:23<16:28,  2.02it/s] 81%|████████▏ | 8708/10702 [1:23:23<16:27,  2.02it/s] 81%|████████▏ | 8709/10702 [1:23:24<16:27,  2.02it/s] 81%|████████▏ | 8710/10702 [1:23:24<16:27,  2.02it/s] 81%|████████▏ | 8711/10702 [1:23:25<16:26,  2.02it/s] 81%|████████▏ | 8712/10702 [1:23:25<16:25,  2.02it/s] 81%|████████▏ | 8713/10702 [1:23:26<16:25,  2.02it/s] 81%|████████▏ | 8714/10702 [1:23:26<16:24,  2.02it/s] 81%|████████▏ | 8715/10702 [1:23:27<16:24,  2.02it/s] 81%|████████▏ | 8716/10702 [1:23:27<16:27,  2.01it/s] 81%|████████▏ | 8717/10702 [1:23:28<16:30,  2.00it/s] 81%|████████▏ | 8718/10702 [1:23:28<16:27,  2.01it/s] 81%|████████▏ | 8719/10702 [1:23:29<16:27,  2.01it/s] 81%|████████▏ | 8720/10702 [1:23:29<16:28,  2.00it/s] 81%|████████▏ | 8721/10702 [1:23:30<16:26,  2.01it/s] 81%|████████▏ | 8722/10702 [1:23:30<16:26,  2.01it/s] 82%|████████▏ | 8723/10702 [1:23:31<16:24,  2.01it/s] 82%|████████▏ | 8724/10702 [1:23:31<16:24,  2.01it/s] 82%|████████▏ | 8725/10702 [1:23:32<16:24,  2.01it/s]{'loss': 3.5561, 'grad_norm': 0.1969430148601532, 'learning_rate': 0.0001004168372707761, 'epoch': 0.82}
+                                                       82%|████████▏ | 8725/10702 [1:23:32<16:24,  2.01it/s] 82%|████████▏ | 8726/10702 [1:23:32<16:23,  2.01it/s] 82%|████████▏ | 8727/10702 [1:23:33<16:24,  2.01it/s] 82%|████████▏ | 8728/10702 [1:23:33<16:23,  2.01it/s] 82%|████████▏ | 8729/10702 [1:23:34<16:21,  2.01it/s] 82%|████████▏ | 8730/10702 [1:23:34<16:20,  2.01it/s] 82%|████████▏ | 8731/10702 [1:23:35<16:18,  2.01it/s] 82%|████████▏ | 8732/10702 [1:23:35<16:18,  2.01it/s] 82%|████████▏ | 8733/10702 [1:23:36<16:17,  2.01it/s] 82%|████████▏ | 8734/10702 [1:23:36<16:16,  2.01it/s] 82%|████████▏ | 8735/10702 [1:23:37<16:16,  2.01it/s] 82%|████████▏ | 8736/10702 [1:23:37<16:15,  2.02it/s] 82%|████████▏ | 8737/10702 [1:23:38<16:14,  2.02it/s] 82%|████████▏ | 8738/10702 [1:23:38<16:14,  2.02it/s] 82%|████████▏ | 8739/10702 [1:23:39<16:15,  2.01it/s] 82%|████████▏ | 8740/10702 [1:23:39<16:13,  2.02it/s] 82%|████████▏ | 8741/10702 [1:23:40<16:12,  2.02it/s] 82%|████████▏ | 8742/10702 [1:23:40<16:12,  2.02it/s] 82%|████████▏ | 8743/10702 [1:23:41<16:11,  2.02it/s] 82%|████████▏ | 8744/10702 [1:23:41<16:10,  2.02it/s] 82%|████████▏ | 8745/10702 [1:23:42<16:11,  2.02it/s] 82%|████████▏ | 8746/10702 [1:23:42<16:10,  2.02it/s] 82%|████████▏ | 8747/10702 [1:23:43<16:09,  2.02it/s] 82%|████████▏ | 8748/10702 [1:23:43<16:08,  2.02it/s] 82%|████████▏ | 8749/10702 [1:23:44<16:07,  2.02it/s] 82%|████████▏ | 8750/10702 [1:23:44<16:07,  2.02it/s]{'loss': 3.5469, 'grad_norm': 0.19533073902130127, 'learning_rate': 9.797915596346097e-05, 'epoch': 0.82}
+                                                       82%|████████▏ | 8750/10702 [1:23:44<16:07,  2.02it/s] 82%|████████▏ | 8751/10702 [1:23:45<16:07,  2.02it/s] 82%|████████▏ | 8752/10702 [1:23:45<16:06,  2.02it/s] 82%|████████▏ | 8753/10702 [1:23:46<16:06,  2.02it/s] 82%|████████▏ | 8754/10702 [1:23:46<16:05,  2.02it/s] 82%|████████▏ | 8755/10702 [1:23:47<16:05,  2.02it/s] 82%|████████▏ | 8756/10702 [1:23:47<16:04,  2.02it/s] 82%|████████▏ | 8757/10702 [1:23:48<16:04,  2.02it/s] 82%|████████▏ | 8758/10702 [1:23:48<16:03,  2.02it/s] 82%|████████▏ | 8759/10702 [1:23:49<16:04,  2.01it/s] 82%|████████▏ | 8760/10702 [1:23:49<16:02,  2.02it/s] 82%|████████▏ | 8761/10702 [1:23:50<16:02,  2.02it/s] 82%|████████▏ | 8762/10702 [1:23:50<16:01,  2.02it/s] 82%|████████▏ | 8763/10702 [1:23:51<16:00,  2.02it/s] 82%|████████▏ | 8764/10702 [1:23:51<16:00,  2.02it/s] 82%|████████▏ | 8765/10702 [1:23:52<15:59,  2.02it/s] 82%|████████▏ | 8766/10702 [1:23:52<15:59,  2.02it/s] 82%|████████▏ | 8767/10702 [1:23:53<15:58,  2.02it/s] 82%|████████▏ | 8768/10702 [1:23:53<15:58,  2.02it/s] 82%|████████▏ | 8769/10702 [1:23:54<15:57,  2.02it/s] 82%|████████▏ | 8770/10702 [1:23:54<15:56,  2.02it/s] 82%|████████▏ | 8771/10702 [1:23:55<15:56,  2.02it/s] 82%|████████▏ | 8772/10702 [1:23:55<15:55,  2.02it/s] 82%|████████▏ | 8773/10702 [1:23:56<15:55,  2.02it/s] 82%|████████▏ | 8774/10702 [1:23:56<15:55,  2.02it/s] 82%|████████▏ | 8775/10702 [1:23:57<15:54,  2.02it/s]{'loss': 3.5459, 'grad_norm': 0.20157814025878906, 'learning_rate': 9.556820983915138e-05, 'epoch': 0.82}
+                                                       82%|████████▏ | 8775/10702 [1:23:57<15:54,  2.02it/s] 82%|████████▏ | 8776/10702 [1:23:57<15:56,  2.01it/s] 82%|████████▏ | 8777/10702 [1:23:58<15:57,  2.01it/s] 82%|████████▏ | 8778/10702 [1:23:58<15:59,  2.01it/s] 82%|████████▏ | 8779/10702 [1:23:59<15:58,  2.01it/s] 82%|████████▏ | 8780/10702 [1:23:59<15:57,  2.01it/s] 82%|████████▏ | 8781/10702 [1:24:00<15:56,  2.01it/s] 82%|████████▏ | 8782/10702 [1:24:00<15:55,  2.01it/s] 82%|████████▏ | 8783/10702 [1:24:01<15:54,  2.01it/s] 82%|████████▏ | 8784/10702 [1:24:01<15:53,  2.01it/s] 82%|████████▏ | 8785/10702 [1:24:02<15:53,  2.01it/s] 82%|████████▏ | 8786/10702 [1:24:02<15:51,  2.01it/s] 82%|████████▏ | 8787/10702 [1:24:03<15:50,  2.01it/s] 82%|████████▏ | 8788/10702 [1:24:03<15:49,  2.02it/s] 82%|████████▏ | 8789/10702 [1:24:04<15:48,  2.02it/s] 82%|████████▏ | 8790/10702 [1:24:04<15:48,  2.01it/s] 82%|████████▏ | 8791/10702 [1:24:05<15:48,  2.01it/s] 82%|████████▏ | 8792/10702 [1:24:05<15:48,  2.01it/s] 82%|████████▏ | 8793/10702 [1:24:06<15:47,  2.01it/s] 82%|████████▏ | 8794/10702 [1:24:06<15:46,  2.02it/s] 82%|████████▏ | 8795/10702 [1:24:06<15:47,  2.01it/s] 82%|████████▏ | 8796/10702 [1:24:07<15:47,  2.01it/s] 82%|████████▏ | 8797/10702 [1:24:07<15:46,  2.01it/s] 82%|████████▏ | 8798/10702 [1:24:08<15:44,  2.02it/s] 82%|███████��▏ | 8799/10702 [1:24:08<15:44,  2.01it/s] 82%|████████▏ | 8800/10702 [1:24:09<15:43,  2.02it/s]{'loss': 3.5498, 'grad_norm': 0.19437308609485626, 'learning_rate': 9.31841592305434e-05, 'epoch': 0.82}
+                                                       82%|████████▏ | 8800/10702 [1:24:09<15:43,  2.02it/s] 82%|████████▏ | 8801/10702 [1:24:09<15:43,  2.01it/s] 82%|████████▏ | 8802/10702 [1:24:10<15:43,  2.01it/s] 82%|████████▏ | 8803/10702 [1:24:10<15:41,  2.02it/s] 82%|████████▏ | 8804/10702 [1:24:11<15:40,  2.02it/s] 82%|████████▏ | 8805/10702 [1:24:11<15:40,  2.02it/s] 82%|████████▏ | 8806/10702 [1:24:12<15:40,  2.02it/s] 82%|████████▏ | 8807/10702 [1:24:12<15:39,  2.02it/s] 82%|████████▏ | 8808/10702 [1:24:13<15:38,  2.02it/s] 82%|████████▏ | 8809/10702 [1:24:13<15:37,  2.02it/s] 82%|████████▏ | 8810/10702 [1:24:14<15:36,  2.02it/s] 82%|████████▏ | 8811/10702 [1:24:14<15:38,  2.02it/s] 82%|████████▏ | 8812/10702 [1:24:15<15:37,  2.02it/s] 82%|████████▏ | 8813/10702 [1:24:15<15:37,  2.01it/s] 82%|████████▏ | 8814/10702 [1:24:16<15:36,  2.02it/s] 82%|████████▏ | 8815/10702 [1:24:16<15:35,  2.02it/s] 82%|████████▏ | 8816/10702 [1:24:17<15:35,  2.02it/s] 82%|████████▏ | 8817/10702 [1:24:17<15:34,  2.02it/s] 82%|████████▏ | 8818/10702 [1:24:18<15:33,  2.02it/s] 82%|████████▏ | 8819/10702 [1:24:18<15:33,  2.02it/s] 82%|████████▏ | 8820/10702 [1:24:19<15:33,  2.02it/s] 82%|████████▏ | 8821/10702 [1:24:19<15:32,  2.02it/s] 82%|████████▏ | 8822/10702 [1:24:20<15:32,  2.02it/s] 82%|████████▏ | 8823/10702 [1:24:20<15:31,  2.02it/s] 82%|████████▏ | 8824/10702 [1:24:21<15:32,  2.01it/s] 82%|████████▏ | 8825/10702 [1:24:21<15:31,  2.02it/s]                                                      {'loss': 3.546, 'grad_norm': 0.19474421441555023, 'learning_rate': 9.08271626817282e-05, 'epoch': 0.82}
+ 82%|████████▏ | 8825/10702 [1:24:21<15:31,  2.02it/s] 82%|████████▏ | 8826/10702 [1:24:22<15:30,  2.02it/s] 82%|████████▏ | 8827/10702 [1:24:22<15:30,  2.02it/s] 82%|████████▏ | 8828/10702 [1:24:23<15:29,  2.02it/s] 82%|████████▏ | 8829/10702 [1:24:23<15:29,  2.01it/s] 83%|████████▎ | 8830/10702 [1:24:24<15:28,  2.02it/s] 83%|████████▎ | 8831/10702 [1:24:24<15:27,  2.02it/s] 83%|████████▎ | 8832/10702 [1:24:25<15:28,  2.01it/s] 83%|████████▎ | 8833/10702 [1:24:25<15:27,  2.02it/s] 83%|████████▎ | 8834/10702 [1:24:26<15:26,  2.02it/s] 83%|████████▎ | 8835/10702 [1:24:26<15:26,  2.02it/s] 83%|████████▎ | 8836/10702 [1:24:27<15:26,  2.02it/s] 83%|████████▎ | 8837/10702 [1:24:27<15:33,  2.00it/s] 83%|████████▎ | 8838/10702 [1:24:28<15:32,  2.00it/s] 83%|████████▎ | 8839/10702 [1:24:28<15:31,  2.00it/s] 83%|████████▎ | 8840/10702 [1:24:29<15:31,  2.00it/s] 83%|████████▎ | 8841/10702 [1:24:29<15:28,  2.00it/s] 83%|████████▎ | 8842/10702 [1:24:30<15:28,  2.00it/s] 83%|████████▎ | 8843/10702 [1:24:30<15:26,  2.01it/s] 83%|████████▎ | 8844/10702 [1:24:31<15:24,  2.01it/s] 83%|████████▎ | 8845/10702 [1:24:31<15:24,  2.01it/s] 83%|████████▎ | 8846/10702 [1:24:32<15:22,  2.01it/s] 83%|████████▎ | 8847/10702 [1:24:32<15:22,  2.01it/s] 83%|████████▎ | 8848/10702 [1:24:33<15:21,  2.01it/s] 83%|████████▎ | 8849/10702 [1:24:33<15:19,  2.01it/s] 83%|████████▎ | 8850/10702 [1:24:34<15:19,  2.01it/s]                                                      {'loss': 3.546, 'grad_norm': 0.1984248012304306, 'learning_rate': 8.84973769376482e-05, 'epoch': 0.83}
+ 83%|████████▎ | 8850/10702 [1:24:34<15:19,  2.01it/s] 83%|████████▎ | 8851/10702 [1:24:34<15:20,  2.01it/s] 83%|████████▎ | 8852/10702 [1:24:35<15:18,  2.01it/s] 83%|████████▎ | 8853/10702 [1:24:35<15:18,  2.01it/s] 83%|████████▎ | 8854/10702 [1:24:36<15:17,  2.01it/s] 83%|████████▎ | 8855/10702 [1:24:36<15:18,  2.01it/s] 83%|████████▎ | 8856/10702 [1:24:37<15:15,  2.02it/s] 83%|████████▎ | 8857/10702 [1:24:37<15:15,  2.02it/s] 83%|████████▎ | 8858/10702 [1:24:38<15:13,  2.02it/s] 83%|████████▎ | 8859/10702 [1:24:38<15:14,  2.02it/s] 83%|████████▎ | 8860/10702 [1:24:39<15:12,  2.02it/s] 83%|████████▎ | 8861/10702 [1:24:39<15:12,  2.02it/s] 83%|████████▎ | 8862/10702 [1:24:40<15:11,  2.02it/s] 83%|████████▎ | 8863/10702 [1:24:40<15:11,  2.02it/s] 83%|████████▎ | 8864/10702 [1:24:41<15:10,  2.02it/s] 83%|████████▎ | 8865/10702 [1:24:41<15:11,  2.02it/s] 83%|████████▎ | 8866/10702 [1:24:42<15:09,  2.02it/s] 83%|████████▎ | 8867/10702 [1:24:42<15:09,  2.02it/s] 83%|████████▎ | 8868/10702 [1:24:43<15:08,  2.02it/s] 83%|████████▎ | 8869/10702 [1:24:43<15:08,  2.02it/s] 83%|████████▎ | 8870/10702 [1:24:44<15:07,  2.02it/s] 83%|████████▎ | 8871/10702 [1:24:44<15:07,  2.02it/s] 83%|████████▎ | 8872/10702 [1:24:45<15:06,  2.02it/s] 83%|████████▎ | 8873/10702 [1:24:45<15:06,  2.02it/s] 83%|████████▎ | 8874/10702 [1:24:46<15:05,  2.02it/s] 83%|████████▎ | 8875/10702 [1:24:46<15:05,  2.02it/s]{'loss': 3.5547, 'grad_norm': 0.1961948275566101, 'learning_rate': 8.619495693367352e-05, 'epoch': 0.83}
+                                                       83%|████████▎ | 8875/10702 [1:24:46<15:05,  2.02it/s] 83%|████████▎ | 8876/10702 [1:24:47<15:06,  2.02it/s] 83%|████████▎ | 8877/10702 [1:24:47<15:04,  2.02it/s] 83%|████████▎ | 8878/10702 [1:24:48<15:04,  2.02it/s] 83%|████████▎ | 8879/10702 [1:24:48<15:04,  2.02it/s] 83%|████████▎ | 8880/10702 [1:24:49<15:04,  2.01it/s] 83%|████████▎ | 8881/10702 [1:24:49<15:02,  2.02it/s] 83%|████████▎ | 8882/10702 [1:24:50<15:02,  2.02it/s] 83%|████████▎ | 8883/10702 [1:24:50<15:02,  2.02it/s] 83%|████████▎ | 8884/10702 [1:24:51<15:01,  2.02it/s] 83%|████████▎ | 8885/10702 [1:24:51<15:01,  2.02it/s] 83%|████████▎ | 8886/10702 [1:24:52<14:59,  2.02it/s] 83%|████████▎ | 8887/10702 [1:24:52<14:59,  2.02it/s] 83%|████████▎ | 8888/10702 [1:24:53<14:58,  2.02it/s] 83%|████████▎ | 8889/10702 [1:24:53<14:58,  2.02it/s] 83%|████████▎ | 8890/10702 [1:24:54<14:58,  2.02it/s] 83%|████████▎ | 8891/10702 [1:24:54<14:57,  2.02it/s] 83%|████████▎ | 8892/10702 [1:24:55<14:57,  2.02it/s] 83%|████████▎ | 8893/10702 [1:24:55<14:56,  2.02it/s] 83%|████████▎ | 8894/10702 [1:24:56<14:56,  2.02it/s] 83%|████████▎ | 8895/10702 [1:24:56<14:55,  2.02it/s] 83%|████████▎ | 8896/10702 [1:24:57<14:54,  2.02it/s] 83%|████████▎ | 8897/10702 [1:24:57<14:55,  2.02it/s] 83%|████████▎ | 8898/10702 [1:24:58<15:02,  2.00it/s] 83%|████████▎ | 8899/10702 [1:24:58<15:00,  2.00it/s] 83%|████████▎ | 8900/10702 [1:24:59<14:58,  2.01it/s]                                                      {'loss': 3.5454, 'grad_norm': 0.19624339044094086, 'learning_rate': 8.392005578529816e-05, 'epoch': 0.83}
+ 83%|████████▎ | 8900/10702 [1:24:59<14:58,  2.01it/s] 83%|████████▎ | 8901/10702 [1:24:59<14:57,  2.01it/s] 83%|████████▎ | 8902/10702 [1:25:00<14:56,  2.01it/s] 83%|████████▎ | 8903/10702 [1:25:00<14:55,  2.01it/s] 83%|████████▎ | 8904/10702 [1:25:01<14:55,  2.01it/s] 83%|████████▎ | 8905/10702 [1:25:01<14:54,  2.01it/s] 83%|████████▎ | 8906/10702 [1:25:02<14:52,  2.01it/s] 83%|████████▎ | 8907/10702 [1:25:02<14:52,  2.01it/s] 83%|████████▎ | 8908/10702 [1:25:03<14:51,  2.01it/s] 83%|████████▎ | 8909/10702 [1:25:03<14:50,  2.01it/s] 83%|████████▎ | 8910/10702 [1:25:04<14:49,  2.02it/s] 83%|████████▎ | 8911/10702 [1:25:04<14:49,  2.01it/s] 83%|████████▎ | 8912/10702 [1:25:05<14:48,  2.01it/s] 83%|████████▎ | 8913/10702 [1:25:05<14:47,  2.02it/s] 83%|████████▎ | 8914/10702 [1:25:06<14:47,  2.01it/s] 83%|████████▎ | 8915/10702 [1:25:06<14:46,  2.02it/s] 83%|████████▎ | 8916/10702 [1:25:07<14:46,  2.01it/s] 83%|████████▎ | 8917/10702 [1:25:07<14:45,  2.02it/s] 83%|████████▎ | 8918/10702 [1:25:08<14:44,  2.02it/s] 83%|████████▎ | 8919/10702 [1:25:08<14:44,  2.02it/s] 83%|████████▎ | 8920/10702 [1:25:09<14:43,  2.02it/s] 83%|████████▎ | 8921/10702 [1:25:09<14:43,  2.02it/s] 83%|████████▎ | 8922/10702 [1:25:10<14:43,  2.02it/s] 83%|████████▎ | 8923/10702 [1:25:10<14:42,  2.02it/s] 83%|████████▎ | 8924/10702 [1:25:11<14:42,  2.02it/s] 83%|████████▎ | 8925/10702 [1:25:11<14:40,  2.02it/s]                                                      {'loss': 3.5575, 'grad_norm': 0.19606119394302368, 'learning_rate': 8.167282477795779e-05, 'epoch': 0.83}
+ 83%|████████▎ | 8925/10702 [1:25:11<14:40,  2.02it/s] 83%|████████▎ | 8926/10702 [1:25:12<14:41,  2.01it/s] 83%|████████▎ | 8927/10702 [1:25:12<14:39,  2.02it/s] 83%|████████▎ | 8928/10702 [1:25:13<14:39,  2.02it/s] 83%|████████▎ | 8929/10702 [1:25:13<14:38,  2.02it/s] 83%|████████▎ | 8930/10702 [1:25:14<14:38,  2.02it/s] 83%|████████▎ | 8931/10702 [1:25:14<14:38,  2.02it/s] 83%|████████▎ | 8932/10702 [1:25:14<14:37,  2.02it/s] 83%|████████▎ | 8933/10702 [1:25:15<14:37,  2.01it/s] 83%|████████▎ | 8934/10702 [1:25:15<14:36,  2.02it/s] 83%|████████▎ | 8935/10702 [1:25:16<14:36,  2.02it/s] 83%|████████▎ | 8936/10702 [1:25:16<14:35,  2.02it/s] 84%|████████▎ | 8937/10702 [1:25:17<17:01,  1.73it/s] 84%|████████▎ | 8938/10702 [1:25:18<16:16,  1.81it/s] 84%|████████▎ | 8939/10702 [1:25:18<15:46,  1.86it/s] 84%|████████▎ | 8940/10702 [1:25:19<15:24,  1.91it/s] 84%|████████▎ | 8941/10702 [1:25:19<15:08,  1.94it/s] 84%|████████▎ | 8942/10702 [1:25:20<14:56,  1.96it/s] 84%|████████▎ | 8943/10702 [1:25:20<14:48,  1.98it/s] 84%|████████▎ | 8944/10702 [1:25:21<14:42,  1.99it/s] 84%|████████▎ | 8945/10702 [1:25:21<14:38,  2.00it/s] 84%|████████▎ | 8946/10702 [1:25:22<14:35,  2.01it/s] 84%|████████▎ | 8947/10702 [1:25:22<14:33,  2.01it/s] 84%|████████▎ | 8948/10702 [1:25:23<14:31,  2.01it/s] 84%|████████▎ | 8949/10702 [1:25:23<14:29,  2.02it/s] 84%|████████▎ | 8950/10702 [1:25:24<14:28,  2.02it/s]{'loss': 3.5483, 'grad_norm': 0.19088394939899445, 'learning_rate': 7.945341335696876e-05, 'epoch': 0.84}
+                                                       84%|████████▎ | 8950/10702 [1:25:24<14:28,  2.02it/s] 84%|████████▎ | 8951/10702 [1:25:24<14:28,  2.02it/s] 84%|████████▎ | 8952/10702 [1:25:25<14:28,  2.01it/s] 84%|████████▎ | 8953/10702 [1:25:25<14:26,  2.02it/s] 84%|████████▎ | 8954/10702 [1:25:26<14:26,  2.02it/s] 84%|████████▎ | 8955/10702 [1:25:26<14:25,  2.02it/s] 84%|████████▎ | 8956/10702 [1:25:27<14:25,  2.02it/s] 84%|████████▎ | 8957/10702 [1:25:27<14:26,  2.01it/s] 84%|████████▎ | 8958/10702 [1:25:28<14:27,  2.01it/s] 84%|████████▎ | 8959/10702 [1:25:28<14:27,  2.01it/s] 84%|████████▎ | 8960/10702 [1:25:29<14:26,  2.01it/s] 84%|████████▎ | 8961/10702 [1:25:29<14:24,  2.01it/s] 84%|████████▎ | 8962/10702 [1:25:30<14:23,  2.02it/s] 84%|████████▍ | 8963/10702 [1:25:30<14:21,  2.02it/s] 84%|████████▍ | 8964/10702 [1:25:31<14:22,  2.02it/s] 84%|████████▍ | 8965/10702 [1:25:31<14:21,  2.02it/s] 84%|████████▍ | 8966/10702 [1:25:32<14:20,  2.02it/s] 84%|████████▍ | 8967/10702 [1:25:32<14:20,  2.02it/s] 84%|████████▍ | 8968/10702 [1:25:33<14:19,  2.02it/s] 84%|████████▍ | 8969/10702 [1:25:33<14:19,  2.02it/s] 84%|████████▍ | 8970/10702 [1:25:34<14:17,  2.02it/s] 84%|████████▍ | 8971/10702 [1:25:34<14:17,  2.02it/s] 84%|████████▍ | 8972/10702 [1:25:35<14:16,  2.02it/s] 84%|████████▍ | 8973/10702 [1:25:35<14:16,  2.02it/s] 84%|████████▍ | 8974/10702 [1:25:36<16:40,  1.73it/s] 84%|████████▍ | 8975/10702 [1:25:36<15:58,  1.80it/s]{'loss': 3.5481, 'grad_norm': 0.197379007935524, 'learning_rate': 7.726196911758987e-05, 'epoch': 0.84}
+                                                       84%|████████▍ | 8975/10702 [1:25:36<15:58,  1.80it/s] 84%|████████▍ | 8976/10702 [1:25:37<15:28,  1.86it/s] 84%|████████▍ | 8977/10702 [1:25:37<15:05,  1.90it/s] 84%|████████▍ | 8978/10702 [1:25:38<14:49,  1.94it/s] 84%|████████▍ | 8979/10702 [1:25:38<14:38,  1.96it/s] 84%|████████▍ | 8980/10702 [1:25:39<14:30,  1.98it/s] 84%|████████▍ | 8981/10702 [1:25:39<14:24,  1.99it/s] 84%|████████▍ | 8982/10702 [1:25:40<14:20,  2.00it/s] 84%|████████▍ | 8983/10702 [1:25:40<14:17,  2.01it/s] 84%|████████▍ | 8984/10702 [1:25:41<14:15,  2.01it/s] 84%|████████▍ | 8985/10702 [1:25:41<14:13,  2.01it/s] 84%|████████▍ | 8986/10702 [1:25:42<14:12,  2.01it/s] 84%|████████▍ | 8987/10702 [1:25:42<14:10,  2.02it/s] 84%|████████▍ | 8988/10702 [1:25:43<14:10,  2.02it/s] 84%|████████▍ | 8989/10702 [1:25:43<14:08,  2.02it/s] 84%|████████▍ | 8990/10702 [1:25:44<14:08,  2.02it/s] 84%|████████▍ | 8991/10702 [1:25:44<14:07,  2.02it/s] 84%|████████▍ | 8992/10702 [1:25:45<14:06,  2.02it/s] 84%|████████▍ | 8993/10702 [1:25:45<14:05,  2.02it/s] 84%|████████▍ | 8994/10702 [1:25:46<14:06,  2.02it/s] 84%|████████▍ | 8995/10702 [1:25:46<14:04,  2.02it/s] 84%|████████▍ | 8996/10702 [1:25:47<14:04,  2.02it/s] 84%|████████▍ | 8997/10702 [1:25:47<14:03,  2.02it/s] 84%|████████▍ | 8998/10702 [1:25:48<14:03,  2.02it/s] 84%|████████▍ | 8999/10702 [1:25:48<14:02,  2.02it/s] 84%|████████▍ | 9000/10702 [1:25:49<14:03,  2.02it/s]{'loss': 3.5519, 'grad_norm': 0.19612504541873932, 'learning_rate': 7.509863779520676e-05, 'epoch': 0.84}
+                                                       84%|████████▍ | 9000/10702 [1:25:49<14:03,  2.02it/s] 84%|████████▍ | 9001/10702 [1:25:49<14:04,  2.01it/s] 84%|████████▍ | 9002/10702 [1:25:50<14:03,  2.02it/s] 84%|████████▍ | 9003/10702 [1:25:50<14:02,  2.02it/s] 84%|████████▍ | 9004/10702 [1:25:51<14:01,  2.02it/s] 84%|████████▍ | 9005/10702 [1:25:51<14:00,  2.02it/s] 84%|████████▍ | 9006/10702 [1:25:52<14:00,  2.02it/s] 84%|████████▍ | 9007/10702 [1:25:52<13:59,  2.02it/s] 84%|████████▍ | 9008/10702 [1:25:53<13:59,  2.02it/s] 84%|████████▍ | 9009/10702 [1:25:53<13:58,  2.02it/s] 84%|████████▍ | 9010/10702 [1:25:54<13:58,  2.02it/s] 84%|████████▍ | 9011/10702 [1:25:54<13:58,  2.02it/s] 84%|████████▍ | 9012/10702 [1:25:55<13:57,  2.02it/s] 84%|████████▍ | 9013/10702 [1:25:55<13:57,  2.02it/s] 84%|████████▍ | 9014/10702 [1:25:56<13:55,  2.02it/s] 84%|████████▍ | 9015/10702 [1:25:56<13:56,  2.02it/s] 84%|████████▍ | 9016/10702 [1:25:57<13:54,  2.02it/s] 84%|████████▍ | 9017/10702 [1:25:57<14:03,  2.00it/s] 84%|████████▍ | 9018/10702 [1:25:58<14:04,  1.99it/s] 84%|████████▍ | 9019/10702 [1:25:58<14:01,  2.00it/s] 84%|████████▍ | 9020/10702 [1:25:59<13:59,  2.00it/s] 84%|████████▍ | 9021/10702 [1:25:59<13:57,  2.01it/s] 84%|████████▍ | 9022/10702 [1:26:00<13:56,  2.01it/s] 84%|████████▍ | 9023/10702 [1:26:00<13:55,  2.01it/s] 84%|████████▍ | 9024/10702 [1:26:01<13:53,  2.01it/s] 84%|████████▍ | 9025/10702 [1:26:01<13:52,  2.01it/s]                                                      {'loss': 3.5438, 'grad_norm': 0.19437381625175476, 'learning_rate': 7.296356325564086e-05, 'epoch': 0.84}
+ 84%|████████▍ | 9025/10702 [1:26:01<13:52,  2.01it/s] 84%|████████▍ | 9026/10702 [1:26:02<13:53,  2.01it/s] 84%|████████▍ | 9027/10702 [1:26:02<13:51,  2.01it/s] 84%|████████▍ | 9028/10702 [1:26:03<13:51,  2.01it/s] 84%|████████▍ | 9029/10702 [1:26:03<13:50,  2.02it/s] 84%|████████▍ | 9030/10702 [1:26:04<13:50,  2.01it/s] 84%|████████▍ | 9031/10702 [1:26:04<13:48,  2.02it/s] 84%|████████▍ | 9032/10702 [1:26:05<13:48,  2.02it/s] 84%|████████▍ | 9033/10702 [1:26:05<13:47,  2.02it/s] 84%|████████▍ | 9034/10702 [1:26:06<13:47,  2.02it/s] 84%|████████▍ | 9035/10702 [1:26:06<13:46,  2.02it/s] 84%|████████▍ | 9036/10702 [1:26:07<13:45,  2.02it/s] 84%|████████▍ | 9037/10702 [1:26:07<13:45,  2.02it/s] 84%|████████▍ | 9038/10702 [1:26:08<13:44,  2.02it/s] 84%|████████▍ | 9039/10702 [1:26:08<13:44,  2.02it/s] 84%|████████▍ | 9040/10702 [1:26:09<13:44,  2.02it/s] 84%|████████▍ | 9041/10702 [1:26:09<13:43,  2.02it/s] 84%|████████▍ | 9042/10702 [1:26:10<13:43,  2.02it/s] 84%|████████▍ | 9043/10702 [1:26:10<13:42,  2.02it/s] 85%|████████▍ | 9044/10702 [1:26:11<13:42,  2.02it/s] 85%|████████▍ | 9045/10702 [1:26:11<13:41,  2.02it/s] 85%|████████▍ | 9046/10702 [1:26:12<13:40,  2.02it/s] 85%|████████▍ | 9047/10702 [1:26:12<13:39,  2.02it/s] 85%|████████▍ | 9048/10702 [1:26:13<13:38,  2.02it/s] 85%|████████▍ | 9049/10702 [1:26:13<13:38,  2.02it/s] 85%|████████▍ | 9050/10702 [1:26:14<13:37,  2.02it/s]                                                      {'loss': 3.5481, 'grad_norm': 0.1971103847026825, 'learning_rate': 7.085688748558073e-05, 'epoch': 0.85}
+ 85%|████████▍ | 9050/10702 [1:26:14<13:37,  2.02it/s] 85%|████████▍ | 9051/10702 [1:26:14<13:38,  2.02it/s] 85%|████████▍ | 9052/10702 [1:26:15<13:37,  2.02it/s] 85%|████████▍ | 9053/10702 [1:26:15<13:37,  2.02it/s] 85%|████████▍ | 9054/10702 [1:26:16<13:36,  2.02it/s] 85%|████████▍ | 9055/10702 [1:26:16<13:35,  2.02it/s] 85%|████████▍ | 9056/10702 [1:26:17<13:35,  2.02it/s] 85%|████████▍ | 9057/10702 [1:26:17<13:34,  2.02it/s] 85%|████████▍ | 9058/10702 [1:26:18<13:34,  2.02it/s] 85%|████████▍ | 9059/10702 [1:26:18<13:33,  2.02it/s] 85%|████████▍ | 9060/10702 [1:26:19<13:33,  2.02it/s] 85%|████████▍ | 9061/10702 [1:26:19<13:32,  2.02it/s] 85%|████████▍ | 9062/10702 [1:26:20<13:32,  2.02it/s] 85%|████████▍ | 9063/10702 [1:26:20<13:31,  2.02it/s] 85%|████████▍ | 9064/10702 [1:26:21<13:31,  2.02it/s] 85%|████████▍ | 9065/10702 [1:26:21<13:30,  2.02it/s] 85%|████████▍ | 9066/10702 [1:26:21<13:30,  2.02it/s] 85%|████████▍ | 9067/10702 [1:26:22<13:29,  2.02it/s] 85%|████████▍ | 9068/10702 [1:26:22<13:28,  2.02it/s] 85%|████████▍ | 9069/10702 [1:26:23<13:28,  2.02it/s] 85%|████████▍ | 9070/10702 [1:26:23<13:27,  2.02it/s] 85%|████████▍ | 9071/10702 [1:26:24<13:27,  2.02it/s] 85%|████████▍ | 9072/10702 [1:26:24<13:26,  2.02it/s] 85%|████████▍ | 9073/10702 [1:26:25<13:27,  2.02it/s] 85%|████████▍ | 9074/10702 [1:26:25<13:26,  2.02it/s] 85%|████████▍ | 9075/10702 [1:26:26<13:27,  2.02it/s]{'loss': 3.5388, 'grad_norm': 0.19570478796958923, 'learning_rate': 6.877875058314103e-05, 'epoch': 0.85}
+                                                       85%|████████▍ | 9075/10702 [1:26:26<13:27,  2.02it/s] 85%|████████▍ | 9076/10702 [1:26:26<13:27,  2.01it/s] 85%|████████▍ | 9077/10702 [1:26:27<13:27,  2.01it/s] 85%|████████▍ | 9078/10702 [1:26:27<13:29,  2.01it/s] 85%|████████▍ | 9079/10702 [1:26:28<13:33,  1.99it/s] 85%|████████▍ | 9080/10702 [1:26:28<13:32,  2.00it/s] 85%|████████▍ | 9081/10702 [1:26:29<13:30,  2.00it/s] 85%|████████▍ | 9082/10702 [1:26:29<13:27,  2.01it/s] 85%|████████▍ | 9083/10702 [1:26:30<13:28,  2.00it/s] 85%|████████▍ | 9084/10702 [1:26:30<13:26,  2.01it/s] 85%|████████▍ | 9085/10702 [1:26:31<13:27,  2.00it/s] 85%|████████▍ | 9086/10702 [1:26:31<13:26,  2.00it/s] 85%|████████▍ | 9087/10702 [1:26:32<13:25,  2.01it/s] 85%|████████▍ | 9088/10702 [1:26:32<13:23,  2.01it/s] 85%|████████▍ | 9089/10702 [1:26:33<13:22,  2.01it/s] 85%|████████▍ | 9090/10702 [1:26:33<13:22,  2.01it/s] 85%|████████▍ | 9091/10702 [1:26:34<13:21,  2.01it/s] 85%|████████▍ | 9092/10702 [1:26:34<13:21,  2.01it/s] 85%|████████▍ | 9093/10702 [1:26:35<13:21,  2.01it/s] 85%|████████▍ | 9094/10702 [1:26:35<13:19,  2.01it/s] 85%|████████▍ | 9095/10702 [1:26:36<13:20,  2.01it/s] 85%|████████▍ | 9096/10702 [1:26:36<13:19,  2.01it/s] 85%|████████▌ | 9097/10702 [1:26:37<13:17,  2.01it/s] 85%|████████▌ | 9098/10702 [1:26:37<13:16,  2.01it/s] 85%|████████▌ | 9099/10702 [1:26:38<13:15,  2.02it/s] 85%|████████▌ | 9100/10702 [1:26:38<13:15,  2.01it/s]{'loss': 3.5469, 'grad_norm': 0.19329437613487244, 'learning_rate': 6.672929074854489e-05, 'epoch': 0.85}
+                                                       85%|████████▌ | 9100/10702 [1:26:38<13:15,  2.01it/s] 85%|████████▌ | 9101/10702 [1:26:39<13:15,  2.01it/s] 85%|████████▌ | 9102/10702 [1:26:39<13:14,  2.01it/s] 85%|████████▌ | 9103/10702 [1:26:40<13:13,  2.01it/s] 85%|████████▌ | 9104/10702 [1:26:40<13:13,  2.01it/s] 85%|████████▌ | 9105/10702 [1:26:41<13:13,  2.01it/s] 85%|████████▌ | 9106/10702 [1:26:41<13:13,  2.01it/s] 85%|████████▌ | 9107/10702 [1:26:42<13:11,  2.02it/s] 85%|██��█████▌ | 9108/10702 [1:26:42<13:10,  2.02it/s] 85%|████████▌ | 9109/10702 [1:26:43<13:10,  2.01it/s] 85%|████████▌ | 9110/10702 [1:26:43<13:10,  2.01it/s] 85%|████████▌ | 9111/10702 [1:26:44<13:10,  2.01it/s] 85%|████████▌ | 9112/10702 [1:26:44<13:09,  2.01it/s] 85%|████████▌ | 9113/10702 [1:26:45<13:10,  2.01it/s] 85%|████████▌ | 9114/10702 [1:26:45<13:08,  2.01it/s] 85%|████████▌ | 9115/10702 [1:26:46<13:07,  2.01it/s] 85%|████████▌ | 9116/10702 [1:26:46<13:07,  2.01it/s] 85%|████████▌ | 9117/10702 [1:26:47<13:06,  2.02it/s] 85%|████████▌ | 9118/10702 [1:26:47<13:06,  2.01it/s] 85%|████████▌ | 9119/10702 [1:26:48<13:05,  2.01it/s] 85%|████████▌ | 9120/10702 [1:26:48<13:05,  2.02it/s] 85%|████████▌ | 9121/10702 [1:26:49<13:04,  2.02it/s] 85%|████████▌ | 9122/10702 [1:26:49<13:03,  2.02it/s] 85%|████████▌ | 9123/10702 [1:26:50<13:03,  2.02it/s] 85%|████████▌ | 9124/10702 [1:26:50<13:02,  2.02it/s] 85%|████████▌ | 9125/10702 [1:26:51<13:02,  2.02it/s]{'loss': 3.5427, 'grad_norm': 0.19707776606082916, 'learning_rate': 6.470864427493405e-05, 'epoch': 0.85}
+                                                       85%|████████▌ | 9125/10702 [1:26:51<13:02,  2.02it/s] 85%|████████▌ | 9126/10702 [1:26:51<13:02,  2.01it/s] 85%|████████▌ | 9127/10702 [1:26:52<13:01,  2.02it/s] 85%|████████▌ | 9128/10702 [1:26:52<13:00,  2.02it/s] 85%|████████▌ | 9129/10702 [1:26:53<12:59,  2.02it/s] 85%|████████▌ | 9130/10702 [1:26:53<12:59,  2.02it/s] 85%|████████▌ | 9131/10702 [1:26:54<12:58,  2.02it/s] 85%|████████▌ | 9132/10702 [1:26:54<12:58,  2.02it/s] 85%|████████▌ | 9133/10702 [1:26:55<12:57,  2.02it/s] 85%|████████▌ | 9134/10702 [1:26:55<12:58,  2.02it/s] 85%|████████▌ | 9135/10702 [1:26:56<12:57,  2.02it/s] 85%|████████▌ | 9136/10702 [1:26:56<12:56,  2.02it/s] 85%|████████▌ | 9137/10702 [1:26:57<12:55,  2.02it/s] 85%|████████▌ | 9138/10702 [1:26:57<12:58,  2.01it/s] 85%|████████▌ | 9139/10702 [1:26:58<13:01,  2.00it/s] 85%|████████▌ | 9140/10702 [1:26:58<13:00,  2.00it/s] 85%|████████▌ | 9141/10702 [1:26:59<12:57,  2.01it/s] 85%|████████▌ | 9142/10702 [1:26:59<12:57,  2.01it/s] 85%|████████▌ | 9143/10702 [1:27:00<12:56,  2.01it/s] 85%|████████▌ | 9144/10702 [1:27:00<12:55,  2.01it/s] 85%|████████▌ | 9145/10702 [1:27:01<12:55,  2.01it/s] 85%|████████▌ | 9146/10702 [1:27:01<12:53,  2.01it/s] 85%|████████▌ | 9147/10702 [1:27:02<12:52,  2.01it/s] 85%|████████▌ | 9148/10702 [1:27:02<12:52,  2.01it/s] 85%|████████▌ | 9149/10702 [1:27:03<12:51,  2.01it/s] 85%|████████▌ | 9150/10702 [1:27:03<12:51,  2.01it/s]                                                      {'loss': 3.5452, 'grad_norm': 0.19767992198467255, 'learning_rate': 6.271694553930396e-05, 'epoch': 0.85}
+ 85%|████████▌ | 9150/10702 [1:27:03<12:51,  2.01it/s] 86%|████████▌ | 9151/10702 [1:27:04<12:51,  2.01it/s] 86%|████████▌ | 9152/10702 [1:27:04<12:51,  2.01it/s] 86%|████████▌ | 9153/10702 [1:27:05<12:51,  2.01it/s] 86%|████████▌ | 9154/10702 [1:27:05<12:50,  2.01it/s] 86%|████████▌ | 9155/10702 [1:27:06<12:49,  2.01it/s] 86%|████████▌ | 9156/10702 [1:27:06<12:49,  2.01it/s] 86%|████████▌ | 9157/10702 [1:27:07<12:47,  2.01it/s] 86%|████████▌ | 9158/10702 [1:27:07<12:47,  2.01it/s] 86%|████████▌ | 9159/10702 [1:27:08<12:46,  2.01it/s] 86%|████████▌ | 9160/10702 [1:27:08<12:45,  2.01it/s] 86%|████████▌ | 9161/10702 [1:27:09<12:45,  2.01it/s] 86%|████████▌ | 9162/10702 [1:27:09<12:44,  2.02it/s] 86%|████████▌ | 9163/10702 [1:27:10<12:43,  2.01it/s] 86%|████████▌ | 9164/10702 [1:27:10<12:43,  2.02it/s] 86%|████████▌ | 9165/10702 [1:27:11<12:42,  2.02it/s] 86%|████████▌ | 9166/10702 [1:27:11<12:41,  2.02it/s] 86%|████████▌ | 9167/10702 [1:27:12<12:40,  2.02it/s] 86%|████████▌ | 9168/10702 [1:27:12<12:41,  2.02it/s] 86%|████████▌ | 9169/10702 [1:27:13<12:40,  2.02it/s] 86%|████████▌ | 9170/10702 [1:27:13<12:39,  2.02it/s] 86%|████████▌ | 9171/10702 [1:27:14<12:39,  2.02it/s] 86%|████████▌ | 9172/10702 [1:27:14<12:38,  2.02it/s] 86%|████████▌ | 9173/10702 [1:27:15<12:38,  2.02it/s] 86%|████████▌ | 9174/10702 [1:27:15<12:37,  2.02it/s] 86%|████████▌ | 9175/10702 [1:27:16<12:38,  2.01it/s]{'loss': 3.543, 'grad_norm': 0.19648215174674988, 'learning_rate': 6.0754326993568475e-05, 'epoch': 0.86}
+                                                       86%|████████▌ | 9175/10702 [1:27:16<12:38,  2.01it/s] 86%|████████▌ | 9176/10702 [1:27:16<12:38,  2.01it/s] 86%|████████▌ | 9177/10702 [1:27:17<12:36,  2.02it/s] 86%|████████▌ | 9178/10702 [1:27:17<12:37,  2.01it/s] 86%|████████▌ | 9179/10702 [1:27:18<12:35,  2.02it/s] 86%|████████▌ | 9180/10702 [1:27:18<12:34,  2.02it/s] 86%|████████▌ | 9181/10702 [1:27:19<12:34,  2.02it/s] 86%|████████▌ | 9182/10702 [1:27:19<12:33,  2.02it/s] 86%|████████▌ | 9183/10702 [1:27:20<12:33,  2.02it/s] 86%|████████▌ | 9184/10702 [1:27:20<12:32,  2.02it/s] 86%|████████▌ | 9185/10702 [1:27:21<12:32,  2.01it/s] 86%|████████▌ | 9186/10702 [1:27:21<12:32,  2.02it/s] 86%|████████▌ | 9187/10702 [1:27:22<12:31,  2.02it/s] 86%|████████▌ | 9188/10702 [1:27:22<12:31,  2.02it/s] 86%|████████▌ | 9189/10702 [1:27:23<12:29,  2.02it/s] 86%|████████▌ | 9190/10702 [1:27:23<12:30,  2.02it/s] 86%|████████▌ | 9191/10702 [1:27:24<12:29,  2.02it/s] 86%|████████▌ | 9192/10702 [1:27:24<12:29,  2.01it/s] 86%|████████▌ | 9193/10702 [1:27:25<12:28,  2.02it/s] 86%|████████▌ | 9194/10702 [1:27:25<12:27,  2.02it/s] 86%|████████▌ | 9195/10702 [1:27:26<12:28,  2.01it/s] 86%|████████▌ | 9196/10702 [1:27:26<12:27,  2.02it/s] 86%|████████▌ | 9197/10702 [1:27:27<12:27,  2.01it/s] 86%|████████▌ | 9198/10702 [1:27:27<12:28,  2.01it/s] 86%|████████▌ | 9199/10702 [1:27:28<12:30,  2.00it/s] 86%|████████▌ | 9200/10702 [1:27:28<12:28,  2.01it/s]{'loss': 3.5404, 'grad_norm': 0.19297727942466736, 'learning_rate': 5.8820919155751276e-05, 'epoch': 0.86}                                                      
+ 86%|████████▌ | 9200/10702 [1:27:28<12:28,  2.01it/s] 86%|████████▌ | 9201/10702 [1:27:29<12:28,  2.01it/s] 86%|████████▌ | 9202/10702 [1:27:29<12:26,  2.01it/s] 86%|████████▌ | 9203/10702 [1:27:30<12:24,  2.01it/s] 86%|████████▌ | 9204/10702 [1:27:30<12:25,  2.01it/s] 86%|████████▌ | 9205/10702 [1:27:31<12:23,  2.01it/s] 86%|████████▌ | 9206/10702 [1:27:31<12:22,  2.01it/s] 86%|████████▌ | 9207/10702 [1:27:32<12:22,  2.01it/s] 86%|████████▌ | 9208/10702 [1:27:32<12:21,  2.02it/s] 86%|████████▌ | 9209/10702 [1:27:33<12:19,  2.02it/s] 86%|████████▌ | 9210/10702 [1:27:33<12:19,  2.02it/s] 86%|████████▌ | 9211/10702 [1:27:34<12:19,  2.02it/s] 86%|████████▌ | 9212/10702 [1:27:34<12:18,  2.02it/s] 86%|████████▌ | 9213/10702 [1:27:35<12:19,  2.01it/s] 86%|████████▌ | 9214/10702 [1:27:35<12:18,  2.02it/s] 86%|████████▌ | 9215/10702 [1:27:36<12:18,  2.01it/s] 86%|████████▌ | 9216/10702 [1:27:36<12:17,  2.01it/s] 86%|████████▌ | 9217/10702 [1:27:37<12:17,  2.01it/s] 86%|████████▌ | 9218/10702 [1:27:37<12:17,  2.01it/s] 86%|████████▌ | 9219/10702 [1:27:38<12:16,  2.01it/s] 86%|████████▌ | 9220/10702 [1:27:38<12:16,  2.01it/s] 86%|████████▌ | 9221/10702 [1:27:39<12:19,  2.00it/s] 86%|████████▌ | 9222/10702 [1:27:39<12:18,  2.00it/s] 86%|████████▌ | 9223/10702 [1:27:40<12:16,  2.01it/s] 86%|████████▌ | 9224/10702 [1:27:40<12:15,  2.01it/s] 86%|████████▌ | 9225/10702 [1:27:41<12:19,  2.00it/s]                                                      {'loss': 3.5414, 'grad_norm': 0.19476760923862457, 'learning_rate': 5.691685060130591e-05, 'epoch': 0.86}
+ 86%|████████▌ | 9225/10702 [1:27:41<12:19,  2.00it/s] 86%|████████▌ | 9226/10702 [1:27:41<12:17,  2.00it/s] 86%|████████▌ | 9227/10702 [1:27:41<12:15,  2.01it/s] 86%|████████▌ | 9228/10702 [1:27:42<12:13,  2.01it/s] 86%|████████▌ | 9229/10702 [1:27:42<12:12,  2.01it/s] 86%|████████▌ | 9230/10702 [1:27:43<12:12,  2.01it/s] 86%|████████▋ | 9231/10702 [1:27:43<12:10,  2.01it/s] 86%|████████▋ | 9232/10702 [1:27:44<12:10,  2.01it/s] 86%|████████▋ | 9233/10702 [1:27:44<12:10,  2.01it/s] 86%|████████▋ | 9234/10702 [1:27:45<12:09,  2.01it/s] 86%|████████▋ | 9235/10702 [1:27:45<12:09,  2.01it/s] 86%|████████▋ | 9236/10702 [1:27:46<12:08,  2.01it/s] 86%|████████▋ | 9237/10702 [1:27:46<12:07,  2.01it/s] 86%|████████▋ | 9238/10702 [1:27:47<12:07,  2.01it/s] 86%|████████▋ | 9239/10702 [1:27:47<12:09,  2.01it/s] 86%|████████▋ | 9240/10702 [1:27:48<12:07,  2.01it/s] 86%|████████▋ | 9241/10702 [1:27:48<12:05,  2.01it/s] 86%|████████▋ | 9242/10702 [1:27:49<12:04,  2.02it/s] 86%|████████▋ | 9243/10702 [1:27:49<12:03,  2.02it/s] 86%|████████▋ | 9244/10702 [1:27:50<12:02,  2.02it/s] 86%|████████▋ | 9245/10702 [1:27:50<12:02,  2.02it/s] 86%|████████▋ | 9246/10702 [1:27:51<12:00,  2.02it/s] 86%|████████▋ | 9247/10702 [1:27:51<12:00,  2.02it/s] 86%|████████▋ | 9248/10702 [1:27:52<12:00,  2.02it/s] 86%|████████▋ | 9249/10702 [1:27:52<11:59,  2.02it/s] 86%|████████▋ | 9250/10702 [1:27:53<11:59,  2.02it/s]                                                      {'loss': 3.54, 'grad_norm': 0.19433210790157318, 'learning_rate': 5.504224795456553e-05, 'epoch': 0.86}
+ 86%|████████▋ | 9250/10702 [1:27:53<11:59,  2.02it/s] 86%|████████▋ | 9251/10702 [1:27:53<11:59,  2.02it/s] 86%|████████▋ | 9252/10702 [1:27:54<11:59,  2.02it/s] 86%|████████▋ | 9253/10702 [1:27:54<11:58,  2.02it/s] 86%|████████▋ | 9254/10702 [1:27:55<11:57,  2.02it/s] 86%|████████▋ | 9255/10702 [1:27:55<11:56,  2.02it/s] 86%|████████▋ | 9256/10702 [1:27:56<11:56,  2.02it/s] 86%|████████▋ | 9257/10702 [1:27:56<11:55,  2.02it/s] 87%|████████▋ | 9258/10702 [1:27:57<11:54,  2.02it/s] 87%|████████▋ | 9259/10702 [1:27:57<11:58,  2.01it/s] 87%|████████▋ | 9260/10702 [1:27:58<12:01,  2.00it/s] 87%|████████▋ | 9261/10702 [1:27:58<11:59,  2.00it/s] 87%|████████▋ | 9262/10702 [1:27:59<11:57,  2.01it/s] 87%|████████▋ | 9263/10702 [1:27:59<11:55,  2.01it/s] 87%|████████▋ | 9264/10702 [1:28:00<11:54,  2.01it/s] 87%|████████▋ | 9265/10702 [1:28:00<11:53,  2.01it/s] 87%|████████▋ | 9266/10702 [1:28:01<11:52,  2.02it/s] 87%|████████▋ | 9267/10702 [1:28:01<11:51,  2.02it/s] 87%|████████▋ | 9268/10702 [1:28:02<11:50,  2.02it/s] 87%|████████▋ | 9269/10702 [1:28:02<11:49,  2.02it/s] 87%|████████▋ | 9270/10702 [1:28:03<11:48,  2.02it/s] 87%|████████▋ | 9271/10702 [1:28:03<11:49,  2.02it/s] 87%|████████▋ | 9272/10702 [1:28:04<11:48,  2.02it/s] 87%|████████▋ | 9273/10702 [1:28:04<11:48,  2.02it/s] 87%|████████▋ | 9274/10702 [1:28:05<11:47,  2.02it/s] 87%|████████▋ | 9275/10702 [1:28:05<11:46,  2.02it/s]{'loss': 3.5507, 'grad_norm': 0.19457685947418213, 'learning_rate': 5.31972358803216e-05, 'epoch': 0.87}
+                                                       87%|████████▋ | 9275/10702 [1:28:05<11:46,  2.02it/s] 87%|████████▋ | 9276/10702 [1:28:06<11:47,  2.02it/s] 87%|████████▋ | 9277/10702 [1:28:06<11:46,  2.02it/s] 87%|████████▋ | 9278/10702 [1:28:07<11:46,  2.02it/s] 87%|████████▋ | 9279/10702 [1:28:07<11:44,  2.02it/s] 87%|████████▋ | 9280/10702 [1:28:08<11:44,  2.02it/s] 87%|████████▋ | 9281/10702 [1:28:08<11:43,  2.02it/s] 87%|████████▋ | 9282/10702 [1:28:09<11:43,  2.02it/s] 87%|████████▋ | 9283/10702 [1:28:09<11:42,  2.02it/s] 87%|████████▋ | 9284/10702 [1:28:10<11:41,  2.02it/s] 87%|████████▋ | 9285/10702 [1:28:10<11:40,  2.02it/s] 87%|████████▋ | 9286/10702 [1:28:11<11:40,  2.02it/s] 87%|████████▋ | 9287/10702 [1:28:11<11:39,  2.02it/s] 87%|████████▋ | 9288/10702 [1:28:12<11:39,  2.02it/s] 87%|████████▋ | 9289/10702 [1:28:12<11:39,  2.02it/s] 87%|████████▋ | 9290/10702 [1:28:13<11:39,  2.02it/s] 87%|████████▋ | 9291/10702 [1:28:13<11:38,  2.02it/s] 87%|████████▋ | 9292/10702 [1:28:14<11:38,  2.02it/s] 87%|████████▋ | 9293/10702 [1:28:14<11:38,  2.02it/s] 87%|████████▋ | 9294/10702 [1:28:15<11:37,  2.02it/s] 87%|████████▋ | 9295/10702 [1:28:15<11:37,  2.02it/s] 87%|████████▋ | 9296/10702 [1:28:16<11:36,  2.02it/s] 87%|████████▋ | 9297/10702 [1:28:16<11:35,  2.02it/s] 87%|████████▋ | 9298/10702 [1:28:17<11:35,  2.02it/s] 87%|████████▋ | 9299/10702 [1:28:17<11:34,  2.02it/s] 87%|████████▋ | 9300/10702 [1:28:18<11:35,  2.02it/s]                                                      {'loss': 3.5421, 'grad_norm': 0.19593583047389984, 'learning_rate': 5.138193707553457e-05, 'epoch': 0.87}
+ 87%|████████▋ | 9300/10702 [1:28:18<11:35,  2.02it/s] 87%|████████▋ | 9301/10702 [1:28:18<11:34,  2.02it/s] 87%|████████▋ | 9302/10702 [1:28:19<11:34,  2.02it/s] 87%|████████▋ | 9303/10702 [1:28:19<11:33,  2.02it/s] 87%|████████▋ | 9304/10702 [1:28:20<11:32,  2.02it/s] 87%|████████▋ | 9305/10702 [1:28:20<11:31,  2.02it/s] 87%|████████▋ | 9306/10702 [1:28:21<11:31,  2.02it/s] 87%|████████▋ | 9307/10702 [1:28:21<11:30,  2.02it/s] 87%|████████▋ | 9308/10702 [1:28:22<11:30,  2.02it/s] 87%|████████▋ | 9309/10702 [1:28:22<11:30,  2.02it/s] 87%|████████▋ | 9310/10702 [1:28:23<11:29,  2.02it/s] 87%|████████▋ | 9311/10702 [1:28:23<11:29,  2.02it/s] 87%|████████▋ | 9312/10702 [1:28:24<11:28,  2.02it/s] 87%|████████▋ | 9313/10702 [1:28:24<11:28,  2.02it/s] 87%|████████▋ | 9314/10702 [1:28:25<11:27,  2.02it/s] 87%|████████▋ | 9315/10702 [1:28:25<11:27,  2.02it/s] 87%|████████▋ | 9316/10702 [1:28:26<11:26,  2.02it/s] 87%|████████▋ | 9317/10702 [1:28:26<11:26,  2.02it/s] 87%|████████▋ | 9318/10702 [1:28:27<11:25,  2.02it/s] 87%|████████▋ | 9319/10702 [1:28:27<11:25,  2.02it/s] 87%|████████▋ | 9320/10702 [1:28:28<11:25,  2.02it/s] 87%|████████▋ | 9321/10702 [1:28:28<11:24,  2.02it/s] 87%|████████▋ | 9322/10702 [1:28:29<11:24,  2.02it/s] 87%|████████▋ | 9323/10702 [1:28:29<11:23,  2.02it/s] 87%|████████▋ | 9324/10702 [1:28:30<11:22,  2.02it/s] 87%|████████▋ | 9325/10702 [1:28:30<11:22,  2.02it/s]                                                      {'loss': 3.5365, 'grad_norm': 0.19671785831451416, 'learning_rate': 4.959647226117303e-05, 'epoch': 0.87}
+ 87%|████████▋ | 9325/10702 [1:28:30<11:22,  2.02it/s] 87%|████████▋ | 9326/10702 [1:28:31<11:21,  2.02it/s] 87%|████████▋ | 9327/10702 [1:28:31<11:21,  2.02it/s] 87%|████████▋ | 9328/10702 [1:28:32<11:20,  2.02it/s] 87%|████████▋ | 9329/10702 [1:28:32<11:20,  2.02it/s] 87%|████████▋ | 9330/10702 [1:28:33<11:21,  2.01it/s] 87%|████████▋ | 9331/10702 [1:28:33<11:19,  2.02it/s] 87%|████████▋ | 9332/10702 [1:28:34<11:20,  2.01it/s] 87%|████████▋ | 9333/10702 [1:28:34<11:19,  2.02it/s] 87%|████████▋ | 9334/10702 [1:28:35<11:18,  2.02it/s] 87%|████████▋ | 9335/10702 [1:28:35<11:17,  2.02it/s] 87%|████████▋ | 9336/10702 [1:28:36<11:16,  2.02it/s] 87%|████████▋ | 9337/10702 [1:28:36<11:16,  2.02it/s] 87%|████████▋ | 9338/10702 [1:28:37<11:15,  2.02it/s] 87%|████████▋ | 9339/10702 [1:28:37<11:15,  2.02it/s] 87%|████████▋ | 9340/10702 [1:28:38<11:15,  2.02it/s] 87%|████████▋ | 9341/10702 [1:28:38<11:15,  2.01it/s] 87%|████████▋ | 9342/10702 [1:28:39<11:15,  2.01it/s] 87%|████████▋ | 9343/10702 [1:28:39<11:13,  2.02it/s] 87%|████████▋ | 9344/10702 [1:28:40<11:13,  2.02it/s] 87%|████████▋ | 9345/10702 [1:28:40<11:12,  2.02it/s] 87%|████████▋ | 9346/10702 [1:28:41<11:12,  2.02it/s] 87%|████████▋ | 9347/10702 [1:28:41<11:10,  2.02it/s] 87%|████████▋ | 9348/10702 [1:28:41<11:11,  2.02it/s] 87%|████████▋ | 9349/10702 [1:28:42<11:10,  2.02it/s] 87%|████████▋ | 9350/10702 [1:28:42<11:10,  2.02it/s]                                                      {'loss': 3.5396, 'grad_norm': 0.19832730293273926, 'learning_rate': 4.7840960174186324e-05, 'epoch': 0.87}
+ 87%|████████▋ | 9350/10702 [1:28:42<11:10,  2.02it/s] 87%|████████▋ | 9351/10702 [1:28:43<11:10,  2.02it/s] 87%|████████▋ | 9352/10702 [1:28:43<11:09,  2.02it/s] 87%|████████▋ | 9353/10702 [1:28:44<11:09,  2.02it/s] 87%|████████▋ | 9354/10702 [1:28:44<11:08,  2.02it/s] 87%|████████▋ | 9355/10702 [1:28:45<11:08,  2.02it/s] 87%|████████��� | 9356/10702 [1:28:45<11:07,  2.02it/s] 87%|████████▋ | 9357/10702 [1:28:46<11:07,  2.01it/s] 87%|████████▋ | 9358/10702 [1:28:46<11:06,  2.02it/s] 87%|████████▋ | 9359/10702 [1:28:47<11:05,  2.02it/s] 87%|████████▋ | 9360/10702 [1:28:47<11:04,  2.02it/s] 87%|████████▋ | 9361/10702 [1:28:48<11:04,  2.02it/s] 87%|████████▋ | 9362/10702 [1:28:48<11:04,  2.02it/s] 87%|████████▋ | 9363/10702 [1:28:49<11:03,  2.02it/s] 87%|████████▋ | 9364/10702 [1:28:49<11:04,  2.01it/s] 88%|████████▊ | 9365/10702 [1:28:50<11:02,  2.02it/s] 88%|████████▊ | 9366/10702 [1:28:50<11:02,  2.02it/s] 88%|████████▊ | 9367/10702 [1:28:51<11:01,  2.02it/s] 88%|████████▊ | 9368/10702 [1:28:51<11:00,  2.02it/s] 88%|████████▊ | 9369/10702 [1:28:52<10:59,  2.02it/s] 88%|████████▊ | 9370/10702 [1:28:52<10:59,  2.02it/s] 88%|████████▊ | 9371/10702 [1:28:53<10:59,  2.02it/s] 88%|████████▊ | 9372/10702 [1:28:53<10:58,  2.02it/s] 88%|████████▊ | 9373/10702 [1:28:54<10:58,  2.02it/s] 88%|████████▊ | 9374/10702 [1:28:54<10:57,  2.02it/s] 88%|████████▊ | 9375/10702 [1:28:55<10:57,  2.02it/s]{'loss': 3.5427, 'grad_norm': 0.19279244542121887, 'learning_rate': 4.611551755960791e-05, 'epoch': 0.88}
+                                                       88%|████████▊ | 9375/10702 [1:28:55<10:57,  2.02it/s] 88%|████████▊ | 9376/10702 [1:28:55<10:57,  2.02it/s] 88%|████████▊ | 9377/10702 [1:28:56<10:57,  2.02it/s] 88%|████████▊ | 9378/10702 [1:28:56<10:56,  2.02it/s] 88%|████████▊ | 9379/10702 [1:28:57<10:55,  2.02it/s] 88%|████████▊ | 9380/10702 [1:28:57<10:56,  2.01it/s] 88%|████████▊ | 9381/10702 [1:28:58<10:55,  2.01it/s] 88%|████████▊ | 9382/10702 [1:28:58<10:54,  2.02it/s] 88%|████████▊ | 9383/10702 [1:28:59<10:53,  2.02it/s] 88%|████████▊ | 9384/10702 [1:28:59<10:53,  2.02it/s] 88%|████████▊ | 9385/10702 [1:29:00<10:51,  2.02it/s] 88%|████████▊ | 9386/10702 [1:29:00<10:51,  2.02it/s] 88%|████████▊ | 9387/10702 [1:29:01<10:50,  2.02it/s] 88%|████████▊ | 9388/10702 [1:29:01<10:50,  2.02it/s] 88%|████████▊ | 9389/10702 [1:29:02<10:49,  2.02it/s] 88%|████████▊ | 9390/10702 [1:29:02<10:49,  2.02it/s] 88%|████████▊ | 9391/10702 [1:29:03<10:50,  2.02it/s] 88%|████████▊ | 9392/10702 [1:29:03<10:48,  2.02it/s] 88%|████████▊ | 9393/10702 [1:29:04<10:48,  2.02it/s] 88%|████████▊ | 9394/10702 [1:29:04<10:48,  2.02it/s] 88%|████████▊ | 9395/10702 [1:29:05<10:47,  2.02it/s] 88%|████████▊ | 9396/10702 [1:29:05<10:46,  2.02it/s] 88%|████████▊ | 9397/10702 [1:29:06<10:46,  2.02it/s] 88%|████████▊ | 9398/10702 [1:29:06<10:45,  2.02it/s] 88%|████████▊ | 9399/10702 [1:29:07<10:45,  2.02it/s] 88%|████████▊ | 9400/10702 [1:29:07<10:44,  2.02it/s]{'loss': 3.5393, 'grad_norm': 0.1961599439382553, 'learning_rate': 4.44202591627918e-05, 'epoch': 0.88}
+                                                       88%|████████▊ | 9400/10702 [1:29:07<10:44,  2.02it/s] 88%|████████▊ | 9401/10702 [1:29:08<10:45,  2.02it/s] 88%|████████▊ | 9402/10702 [1:29:08<10:44,  2.02it/s] 88%|████████▊ | 9403/10702 [1:29:09<10:43,  2.02it/s] 88%|████████▊ | 9404/10702 [1:29:09<10:43,  2.02it/s] 88%|████████▊ | 9405/10702 [1:29:10<10:42,  2.02it/s] 88%|████████▊ | 9406/10702 [1:29:10<10:41,  2.02it/s] 88%|████████▊ | 9407/10702 [1:29:11<10:41,  2.02it/s] 88%|████████▊ | 9408/10702 [1:29:11<10:40,  2.02it/s] 88%|████████▊ | 9409/10702 [1:29:12<10:40,  2.02it/s] 88%|████████▊ | 9410/10702 [1:29:12<10:39,  2.02it/s] 88%|████████▊ | 9411/10702 [1:29:13<10:40,  2.02it/s] 88%|████████▊ | 9412/10702 [1:29:13<10:39,  2.02it/s] 88%|████████▊ | 9413/10702 [1:29:14<10:38,  2.02it/s] 88%|████████▊ | 9414/10702 [1:29:14<10:37,  2.02it/s] 88%|████████▊ | 9415/10702 [1:29:15<10:37,  2.02it/s] 88%|████████▊ | 9416/10702 [1:29:15<10:37,  2.02it/s] 88%|████████▊ | 9417/10702 [1:29:16<10:36,  2.02it/s] 88%|████████▊ | 9418/10702 [1:29:16<10:35,  2.02it/s] 88%|████████▊ | 9419/10702 [1:29:17<10:35,  2.02it/s] 88%|████████▊ | 9420/10702 [1:29:17<10:34,  2.02it/s] 88%|████████▊ | 9421/10702 [1:29:18<10:34,  2.02it/s] 88%|████████▊ | 9422/10702 [1:29:18<10:34,  2.02it/s] 88%|████████▊ | 9423/10702 [1:29:19<10:33,  2.02it/s] 88%|████████▊ | 9424/10702 [1:29:19<10:32,  2.02it/s] 88%|████████▊ | 9425/10702 [1:29:20<10:31,  2.02it/s]{'loss': 3.5399, 'grad_norm': 0.19169431924819946, 'learning_rate': 4.275529772178172e-05, 'epoch': 0.88}
+                                                       88%|████████▊ | 9425/10702 [1:29:20<10:31,  2.02it/s] 88%|████████▊ | 9426/10702 [1:29:20<10:33,  2.02it/s] 88%|████████▊ | 9427/10702 [1:29:21<10:32,  2.02it/s] 88%|████████▊ | 9428/10702 [1:29:21<10:31,  2.02it/s] 88%|████████▊ | 9429/10702 [1:29:22<10:30,  2.02it/s] 88%|████████▊ | 9430/10702 [1:29:22<10:30,  2.02it/s] 88%|████████▊ | 9431/10702 [1:29:23<10:29,  2.02it/s] 88%|████████▊ | 9432/10702 [1:29:23<10:28,  2.02it/s] 88%|████████▊ | 9433/10702 [1:29:24<10:28,  2.02it/s] 88%|████████▊ | 9434/10702 [1:29:24<10:28,  2.02it/s] 88%|████████▊ | 9435/10702 [1:29:25<10:28,  2.02it/s] 88%|████████▊ | 9436/10702 [1:29:25<10:27,  2.02it/s] 88%|████████▊ | 9437/10702 [1:29:26<10:26,  2.02it/s] 88%|████████▊ | 9438/10702 [1:29:26<10:25,  2.02it/s] 88%|████████▊ | 9439/10702 [1:29:27<10:25,  2.02it/s] 88%|████████▊ | 9440/10702 [1:29:27<10:26,  2.01it/s] 88%|████████▊ | 9441/10702 [1:29:28<10:27,  2.01it/s] 88%|████████▊ | 9442/10702 [1:29:28<10:26,  2.01it/s] 88%|████████▊ | 9443/10702 [1:29:29<10:25,  2.01it/s] 88%|████████▊ | 9444/10702 [1:29:29<10:24,  2.02it/s] 88%|████████▊ | 9445/10702 [1:29:30<10:23,  2.02it/s] 88%|████████▊ | 9446/10702 [1:29:30<10:22,  2.02it/s] 88%|████████▊ | 9447/10702 [1:29:31<10:22,  2.02it/s] 88%|████████▊ | 9448/10702 [1:29:31<10:21,  2.02it/s] 88%|████████▊ | 9449/10702 [1:29:32<10:20,  2.02it/s] 88%|████████▊ | 9450/10702 [1:29:32<10:19,  2.02it/s]                                                      {'loss': 3.5407, 'grad_norm': 0.19346868991851807, 'learning_rate': 4.112074395981374e-05, 'epoch': 0.88}
+ 88%|████████▊ | 9450/10702 [1:29:32<10:19,  2.02it/s] 88%|████████▊ | 9451/10702 [1:29:33<10:20,  2.02it/s] 88%|████████▊ | 9452/10702 [1:29:33<10:18,  2.02it/s] 88%|████████▊ | 9453/10702 [1:29:34<10:18,  2.02it/s] 88%|████████▊ | 9454/10702 [1:29:34<10:18,  2.02it/s] 88%|████████▊ | 9455/10702 [1:29:35<10:17,  2.02it/s] 88%|████████▊ | 9456/10702 [1:29:35<10:16,  2.02it/s] 88%|████████▊ | 9457/10702 [1:29:36<10:16,  2.02it/s] 88%|████████▊ | 9458/10702 [1:29:36<10:15,  2.02it/s] 88%|████████▊ | 9459/10702 [1:29:36<10:14,  2.02it/s] 88%|████████▊ | 9460/10702 [1:29:37<10:15,  2.02it/s] 88%|████████▊ | 9461/10702 [1:29:37<10:14,  2.02it/s] 88%|████████▊ | 9462/10702 [1:29:38<10:14,  2.02it/s] 88%|████████▊ | 9463/10702 [1:29:38<10:13,  2.02it/s] 88%|████████▊ | 9464/10702 [1:29:39<10:12,  2.02it/s] 88%|████████▊ | 9465/10702 [1:29:39<10:12,  2.02it/s] 88%|████████▊ | 9466/10702 [1:29:40<10:12,  2.02it/s] 88%|████████▊ | 9467/10702 [1:29:40<10:12,  2.02it/s] 88%|████████▊ | 9468/10702 [1:29:41<10:10,  2.02it/s] 88%|████████▊ | 9469/10702 [1:29:41<10:10,  2.02it/s] 88%|████████▊ | 9470/10702 [1:29:42<10:10,  2.02it/s] 88%|████████▊ | 9471/10702 [1:29:42<10:10,  2.02it/s] 89%|████████▊ | 9472/10702 [1:29:43<10:09,  2.02it/s] 89%|████████▊ | 9473/10702 [1:29:43<10:09,  2.02it/s] 89%|████████▊ | 9474/10702 [1:29:44<10:08,  2.02it/s] 89%|████████▊ | 9475/10702 [1:29:44<10:08,  2.02it/s]                                                      {'loss': 3.5416, 'grad_norm': 0.1943352222442627, 'learning_rate': 3.951670657795298e-05, 'epoch': 0.89}
+ 89%|████████▊ | 9475/10702 [1:29:44<10:08,  2.02it/s] 89%|████████▊ | 9476/10702 [1:29:45<10:08,  2.01it/s] 89%|████████▊ | 9477/10702 [1:29:45<10:06,  2.02it/s] 89%|████████▊ | 9478/10702 [1:29:46<10:06,  2.02it/s] 89%|████████▊ | 9479/10702 [1:29:46<10:05,  2.02it/s] 89%|████████▊ | 9480/10702 [1:29:47<10:05,  2.02it/s] 89%|████████▊ | 9481/10702 [1:29:47<10:04,  2.02it/s] 89%|████████▊ | 9482/10702 [1:29:48<10:04,  2.02it/s] 89%|████████▊ | 9483/10702 [1:29:48<10:04,  2.02it/s] 89%|████████▊ | 9484/10702 [1:29:49<10:03,  2.02it/s] 89%|████████▊ | 9485/10702 [1:29:49<10:03,  2.02it/s] 89%|████████▊ | 9486/10702 [1:29:50<10:02,  2.02it/s] 89%|████████▊ | 9487/10702 [1:29:50<10:02,  2.02it/s] 89%|████████▊ | 9488/10702 [1:29:51<10:01,  2.02it/s] 89%|████████▊ | 9489/10702 [1:29:51<10:01,  2.02it/s] 89%|████████▊ | 9490/10702 [1:29:52<10:00,  2.02it/s] 89%|████████▊ | 9491/10702 [1:29:52<10:00,  2.02it/s] 89%|████████▊ | 9492/10702 [1:29:53<09:59,  2.02it/s] 89%|████████▊ | 9493/10702 [1:29:53<09:59,  2.02it/s] 89%|████████▊ | 9494/10702 [1:29:54<09:59,  2.02it/s] 89%|████████▊ | 9495/10702 [1:29:54<09:58,  2.02it/s] 89%|████████▊ | 9496/10702 [1:29:55<09:58,  2.02it/s] 89%|████████▊ | 9497/10702 [1:29:55<09:57,  2.02it/s] 89%|████████▊ | 9498/10702 [1:29:56<09:56,  2.02it/s] 89%|████████▉ | 9499/10702 [1:29:56<09:55,  2.02it/s] 89%|████████▉ | 9500/10702 [1:29:57<09:56,  2.02it/s]                                                      {'loss': 3.5472, 'grad_norm': 0.19153515994548798, 'learning_rate': 3.794329224786486e-05, 'epoch': 0.89}
+ 89%|████████▉ | 9500/10702 [1:29:57<09:56,  2.02it/s] 89%|████████▉ | 9501/10702 [1:29:57<09:58,  2.01it/s] 89%|████████▉ | 9502/10702 [1:29:58<09:57,  2.01it/s] 89%|████████▉ | 9503/10702 [1:29:58<09:56,  2.01it/s] 89%|████████▉ | 9504/10702 [1:29:59<09:55,  2.01it/s] 89%|████████▉ | 9505/10702 [1:29:59<09:53,  2.02it/s] 89%|████████▉ | 9506/10702 [1:30:00<09:53,  2.02it/s] 89%|████████▉ | 9507/10702 [1:30:00<09:52,  2.02it/s] 89%|████████▉ | 9508/10702 [1:30:01<09:52,  2.01it/s] 89%|████████▉ | 9509/10702 [1:30:01<09:51,  2.02it/s] 89%|████████▉ | 9510/10702 [1:30:02<09:50,  2.02it/s] 89%|████████▉ | 9511/10702 [1:30:02<09:50,  2.02it/s] 89%|████████▉ | 9512/10702 [1:30:03<09:49,  2.02it/s] 89%|████████▉ | 9513/10702 [1:30:03<09:49,  2.02it/s] 89%|████████▉ | 9514/10702 [1:30:04<09:48,  2.02it/s] 89%|████████▉ | 9515/10702 [1:30:04<09:47,  2.02it/s] 89%|████████▉ | 9516/10702 [1:30:05<09:47,  2.02it/s] 89%|████████▉ | 9517/10702 [1:30:05<09:47,  2.02it/s] 89%|████████▉ | 9518/10702 [1:30:06<09:47,  2.02it/s] 89%|████████▉ | 9519/10702 [1:30:06<09:46,  2.02it/s] 89%|████████▉ | 9520/10702 [1:30:07<09:46,  2.02it/s] 89%|████████▉ | 9521/10702 [1:30:07<09:45,  2.02it/s] 89%|████████▉ | 9522/10702 [1:30:08<09:44,  2.02it/s] 89%|████████▉ | 9523/10702 [1:30:08<09:43,  2.02it/s] 89%|████████▉ | 9524/10702 [1:30:09<09:43,  2.02it/s] 89%|████████▉ | 9525/10702 [1:30:09<09:43,  2.02it/s]{'loss': 3.5404, 'grad_norm': 0.19620127975940704, 'learning_rate': 3.640060560472097e-05, 'epoch': 0.89}
+                                                       89%|████████▉ | 9525/10702 [1:30:09<09:43,  2.02it/s] 89%|████████▉ | 9526/10702 [1:30:10<09:43,  2.01it/s] 89%|████████▉ | 9527/10702 [1:30:10<09:42,  2.02it/s] 89%|████████▉ | 9528/10702 [1:30:11<09:42,  2.01it/s] 89%|████████▉ | 9529/10702 [1:30:11<09:42,  2.01it/s] 89%|████████▉ | 9530/10702 [1:30:12<09:41,  2.02it/s] 89%|████████▉ | 9531/10702 [1:30:12<09:40,  2.02it/s] 89%|████████▉ | 9532/10702 [1:30:13<09:39,  2.02it/s] 89%|████████▉ | 9533/10702 [1:30:13<09:39,  2.02it/s] 89%|████████▉ | 9534/10702 [1:30:14<09:38,  2.02it/s] 89%|████████▉ | 9535/10702 [1:30:14<09:38,  2.02it/s] 89%|████████▉ | 9536/10702 [1:30:15<09:37,  2.02it/s] 89%|████████▉ | 9537/10702 [1:30:15<09:37,  2.02it/s] 89%|████████▉ | 9538/10702 [1:30:16<09:36,  2.02it/s] 89%|████████▉ | 9539/10702 [1:30:16<09:36,  2.02it/s] 89%|████████▉ | 9540/10702 [1:30:17<09:35,  2.02it/s] 89%|████████▉ | 9541/10702 [1:30:17<09:35,  2.02it/s] 89%|████████▉ | 9542/10702 [1:30:18<09:35,  2.02it/s] 89%|████████▉ | 9543/10702 [1:30:18<09:34,  2.02it/s] 89%|████████▉ | 9544/10702 [1:30:19<09:34,  2.02it/s] 89%|████████▉ | 9545/10702 [1:30:19<09:34,  2.02it/s] 89%|████████▉ | 9546/10702 [1:30:20<09:33,  2.01it/s] 89%|████████▉ | 9547/10702 [1:30:20<09:32,  2.02it/s] 89%|████████▉ | 9548/10702 [1:30:21<09:32,  2.02it/s] 89%|████████▉ | 9549/10702 [1:30:21<09:31,  2.02it/s] 89%|████████▉ | 9550/10702 [1:30:22<09:31,  2.02it/s]{'loss': 3.5353, 'grad_norm': 0.19317574799060822, 'learning_rate': 3.488874924024127e-05, 'epoch': 0.89}                                                      
+ 89%|████████▉ | 9550/10702 [1:30:22<09:31,  2.02it/s] 89%|████████▉ | 9551/10702 [1:30:22<09:31,  2.02it/s] 89%|████████▉ | 9552/10702 [1:30:23<09:30,  2.02it/s] 89%|████████▉ | 9553/10702 [1:30:23<09:29,  2.02it/s] 89%|████████▉ | 9554/10702 [1:30:24<09:29,  2.02it/s] 89%|████████▉ | 9555/10702 [1:30:24<09:28,  2.02it/s] 89%|████████▉ | 9556/10702 [1:30:25<09:27,  2.02it/s] 89%|████████▉ | 9557/10702 [1:30:25<09:26,  2.02it/s] 89%|████████▉ | 9558/10702 [1:30:26<09:26,  2.02it/s] 89%|████████▉ | 9559/10702 [1:30:26<09:26,  2.02it/s] 89%|████████▉ | 9560/10702 [1:30:27<09:25,  2.02it/s] 89%|████████▉ | 9561/10702 [1:30:27<09:26,  2.01it/s] 89%|████████▉ | 9562/10702 [1:30:28<09:27,  2.01it/s] 89%|████████▉ | 9563/10702 [1:30:28<09:26,  2.01it/s] 89%|████████▉ | 9564/10702 [1:30:29<09:25,  2.01it/s] 89%|████████▉ | 9565/10702 [1:30:29<09:24,  2.02it/s] 89%|████████▉ | 9566/10702 [1:30:30<09:23,  2.02it/s] 89%|████████▉ | 9567/10702 [1:30:30<09:22,  2.02it/s] 89%|████████▉ | 9568/10702 [1:30:31<09:21,  2.02it/s] 89%|████████▉ | 9569/10702 [1:30:31<09:21,  2.02it/s] 89%|████████▉ | 9570/10702 [1:30:32<09:20,  2.02it/s] 89%|████████▉ | 9571/10702 [1:30:32<09:20,  2.02it/s] 89%|████████▉ | 9572/10702 [1:30:33<09:19,  2.02it/s] 89%|████████▉ | 9573/10702 [1:30:33<09:19,  2.02it/s] 89%|████████▉ | 9574/10702 [1:30:34<09:18,  2.02it/s] 89%|████████▉ | 9575/10702 [1:30:34<09:18,  2.02it/s]{'loss': 3.5421, 'grad_norm': 0.1955074518918991, 'learning_rate': 3.340782369587053e-05, 'epoch': 0.89}
+                                                       89%|████████▉ | 9575/10702 [1:30:34<09:18,  2.02it/s] 89%|████████▉ | 9576/10702 [1:30:35<09:18,  2.01it/s] 89%|████████▉ | 9577/10702 [1:30:35<09:18,  2.02it/s] 89%|████████▉ | 9578/10702 [1:30:35<09:17,  2.01it/s] 90%|████████▉ | 9579/10702 [1:30:36<09:16,  2.02it/s] 90%|████████▉ | 9580/10702 [1:30:36<09:16,  2.02it/s] 90%|████████▉ | 9581/10702 [1:30:37<09:15,  2.02it/s] 90%|████████▉ | 9582/10702 [1:30:37<09:15,  2.02it/s] 90%|████████▉ | 9583/10702 [1:30:38<09:15,  2.02it/s] 90%|████████▉ | 9584/10702 [1:30:38<09:15,  2.01it/s] 90%|████████▉ | 9585/10702 [1:30:39<09:14,  2.02it/s] 90%|████████▉ | 9586/10702 [1:30:39<09:14,  2.01it/s] 90%|████████▉ | 9587/10702 [1:30:40<09:13,  2.01it/s] 90%|████████▉ | 9588/10702 [1:30:40<09:13,  2.01it/s] 90%|████████▉ | 9589/10702 [1:30:41<09:13,  2.01it/s] 90%|████████▉ | 9590/10702 [1:30:41<09:12,  2.01it/s] 90%|████████▉ | 9591/10702 [1:30:42<09:12,  2.01it/s] 90%|████████▉ | 9592/10702 [1:30:42<09:10,  2.02it/s] 90%|████████▉ | 9593/10702 [1:30:43<09:10,  2.01it/s] 90%|████████▉ | 9594/10702 [1:30:43<09:10,  2.01it/s] 90%|████████▉ | 9595/10702 [1:30:44<09:09,  2.02it/s] 90%|████████▉ | 9596/10702 [1:30:44<09:09,  2.01it/s] 90%|████████▉ | 9597/10702 [1:30:45<09:08,  2.02it/s] 90%|████████▉ | 9598/10702 [1:30:45<09:08,  2.01it/s] 90%|████████▉ | 9599/10702 [1:30:46<09:07,  2.02it/s] 90%|████████▉ | 9600/10702 [1:30:46<09:06,  2.02it/s]{'loss': 3.5344, 'grad_norm': 0.1910361796617508, 'learning_rate': 3.1957927456092997e-05, 'epoch': 0.9}
+                                                       90%|████████▉ | 9600/10702 [1:30:46<09:06,  2.02it/s] 90%|████████▉ | 9601/10702 [1:30:47<09:06,  2.01it/s] 90%|████████▉ | 9602/10702 [1:30:47<09:05,  2.02it/s] 90%|████████▉ | 9603/10702 [1:30:48<09:05,  2.01it/s] 90%|████████▉ | 9604/10702 [1:30:48<09:04,  2.02it/s] 90%|████████▉ | 9605/10702 [1:30:49<09:04,  2.02it/s] 90%|████████▉ | 9606/10702 [1:30:49<09:03,  2.02it/s] 90%|████████▉ | 9607/10702 [1:30:50<09:02,  2.02it/s] 90%|████████▉ | 9608/10702 [1:30:50<09:02,  2.01it/s] 90%|████████▉ | 9609/10702 [1:30:51<09:02,  2.02it/s] 90%|████████▉ | 9610/10702 [1:30:51<09:01,  2.02it/s] 90%|████████▉ | 9611/10702 [1:30:52<09:00,  2.02it/s] 90%|████████▉ | 9612/10702 [1:30:52<09:00,  2.02it/s] 90%|████████▉ | 9613/10702 [1:30:53<08:59,  2.02it/s] 90%|████████▉ | 9614/10702 [1:30:53<08:58,  2.02it/s] 90%|████████▉ | 9615/10702 [1:30:54<08:58,  2.02it/s] 90%|████████▉ | 9616/10702 [1:30:54<08:57,  2.02it/s] 90%|████████▉ | 9617/10702 [1:30:55<08:58,  2.02it/s] 90%|████████▉ | 9618/10702 [1:30:55<08:57,  2.02it/s] 90%|████████▉ | 9619/10702 [1:30:56<08:57,  2.02it/s] 90%|████████▉ | 9620/10702 [1:30:56<08:55,  2.02it/s] 90%|████████▉ | 9621/10702 [1:30:57<08:55,  2.02it/s] 90%|████████▉ | 9622/10702 [1:30:57<08:57,  2.01it/s] 90%|████████▉ | 9623/10702 [1:30:58<08:57,  2.01it/s] 90%|████████▉ | 9624/10702 [1:30:58<08:56,  2.01it/s] 90%|████████▉ | 9625/10702 [1:30:59<08:54,  2.01it/s]{'loss': 3.5344, 'grad_norm': 0.1925400048494339, 'learning_rate': 3.0539156941882416e-05, 'epoch': 0.9}
+                                                       90%|████████▉ | 9625/10702 [1:30:59<08:54,  2.01it/s] 90%|████████▉ | 9626/10702 [1:30:59<08:57,  2.00it/s] 90%|████████▉ | 9627/10702 [1:31:00<08:55,  2.01it/s] 90%|████████▉ | 9628/10702 [1:31:00<08:53,  2.01it/s] 90%|████████▉ | 9629/10702 [1:31:01<08:52,  2.02it/s] 90%|████████▉ | 9630/10702 [1:31:01<08:51,  2.02it/s] 90%|████████▉ | 9631/10702 [1:31:02<08:50,  2.02it/s] 90%|█████████ | 9632/10702 [1:31:02<08:49,  2.02it/s] 90%|█████████ | 9633/10702 [1:31:03<08:49,  2.02it/s] 90%|█████████ | 9634/10702 [1:31:03<08:49,  2.02it/s] 90%|█████████ | 9635/10702 [1:31:04<08:48,  2.02it/s] 90%|█████████ | 9636/10702 [1:31:04<08:48,  2.02it/s] 90%|█████████ | 9637/10702 [1:31:05<08:47,  2.02it/s] 90%|█████████ | 9638/10702 [1:31:05<08:47,  2.02it/s] 90%|█████████ | 9639/10702 [1:31:06<08:46,  2.02it/s] 90%|█████████ | 9640/10702 [1:31:06<08:46,  2.02it/s] 90%|█████████ | 9641/10702 [1:31:07<08:45,  2.02it/s] 90%|█████████ | 9642/10702 [1:31:07<08:44,  2.02it/s] 90%|█████████ | 9643/10702 [1:31:08<08:44,  2.02it/s] 90%|█████████ | 9644/10702 [1:31:08<08:43,  2.02it/s] 90%|█████████ | 9645/10702 [1:31:09<08:43,  2.02it/s] 90%|█████████ | 9646/10702 [1:31:09<08:43,  2.02it/s] 90%|█████████ | 9647/10702 [1:31:10<08:42,  2.02it/s] 90%|█████████ | 9648/10702 [1:31:10<08:41,  2.02it/s] 90%|█████████ | 9649/10702 [1:31:11<08:41,  2.02it/s] 90%|█████████ | 9650/10702 [1:31:11<08:40,  2.02it/s]{'loss': 3.5423, 'grad_norm': 0.19380445778369904, 'learning_rate': 2.915160650429044e-05, 'epoch': 0.9}
+                                                       90%|█████████ | 9650/10702 [1:31:11<08:40,  2.02it/s] 90%|█████████ | 9651/10702 [1:31:12<08:41,  2.02it/s] 90%|█████████ | 9652/10702 [1:31:12<10:11,  1.72it/s] 90%|█████████ | 9653/10702 [1:31:13<09:43,  1.80it/s] 90%|█████████ | 9654/10702 [1:31:13<09:24,  1.86it/s] 90%|█████████ | 9655/10702 [1:31:14<09:09,  1.90it/s] 90%|█████████ | 9656/10702 [1:31:14<09:00,  1.94it/s] 90%|█████████ | 9657/10702 [1:31:15<08:53,  1.96it/s] 90%|█████████ | 9658/10702 [1:31:15<08:48,  1.98it/s] 90%|█████████ | 9659/10702 [1:31:16<08:44,  1.99it/s] 90%|█████████ | 9660/10702 [1:31:16<08:41,  2.00it/s] 90%|█████████ | 9661/10702 [1:31:17<08:40,  2.00it/s] 90%|█████████ | 9662/10702 [1:31:17<08:39,  2.00it/s] 90%|█████████ | 9663/10702 [1:31:18<08:37,  2.01it/s] 90%|█████████ | 9664/10702 [1:31:18<08:35,  2.01it/s] 90%|█████████ | 9665/10702 [1:31:19<08:35,  2.01it/s] 90%|█████████ | 9666/10702 [1:31:19<08:34,  2.01it/s] 90%|█████████ | 9667/10702 [1:31:20<08:33,  2.02it/s] 90%|█████████ | 9668/10702 [1:31:20<08:32,  2.02it/s] 90%|█████████ | 9669/10702 [1:31:21<08:32,  2.02it/s] 90%|█████████ | 9670/10702 [1:31:21<08:31,  2.02it/s] 90%|█████████ | 9671/10702 [1:31:22<08:31,  2.02it/s] 90%|█████████ | 9672/10702 [1:31:22<08:30,  2.02it/s] 90%|█████████ | 9673/10702 [1:31:23<08:29,  2.02it/s] 90%|█████████ | 9674/10702 [1:31:23<08:28,  2.02it/s] 90%|█████████ | 9675/10702 [1:31:24<08:29,  2.02it/s]{'loss': 3.5427, 'grad_norm': 0.19098129868507385, 'learning_rate': 2.7795368418171486e-05, 'epoch': 0.9}
+                                                       90%|█████████ | 9675/10702 [1:31:24<08:29,  2.02it/s] 90%|█████████ | 9676/10702 [1:31:24<08:28,  2.02it/s] 90%|█████████ | 9677/10702 [1:31:25<08:28,  2.02it/s] 90%|█████████ | 9678/10702 [1:31:25<08:28,  2.02it/s] 90%|█████████ | 9679/10702 [1:31:26<08:27,  2.02it/s] 90%|█████████ | 9680/10702 [1:31:26<08:27,  2.02it/s] 90%|█████████ | 9681/10702 [1:31:27<08:26,  2.02it/s] 90%|█████████ | 9682/10702 [1:31:27<08:29,  2.00it/s] 90%|█████████ | 9683/10702 [1:31:28<08:30,  2.00it/s] 90%|█████████ | 9684/10702 [1:31:28<08:29,  2.00it/s] 90%|█████████ | 9685/10702 [1:31:29<08:27,  2.00it/s] 91%|█████████ | 9686/10702 [1:31:29<08:26,  2.00it/s] 91%|█████████ | 9687/10702 [1:31:30<08:25,  2.01it/s] 91%|█████████ | 9688/10702 [1:31:30<08:24,  2.01it/s] 91%|█████████ | 9689/10702 [1:31:31<08:23,  2.01it/s] 91%|█████████ | 9690/10702 [1:31:31<08:23,  2.01it/s] 91%|█████████ | 9691/10702 [1:31:32<08:22,  2.01it/s] 91%|█████████ | 9692/10702 [1:31:32<08:22,  2.01it/s] 91%|█████████ | 9693/10702 [1:31:33<08:21,  2.01it/s] 91%|█████████ | 9694/10702 [1:31:34<09:46,  1.72it/s] 91%|█████████ | 9695/10702 [1:31:34<09:19,  1.80it/s] 91%|█████████ | 9696/10702 [1:31:35<09:02,  1.86it/s] 91%|█████████ | 9697/10702 [1:31:35<08:49,  1.90it/s] 91%|█████████ | 9698/10702 [1:31:36<08:39,  1.93it/s] 91%|█████████ | 9699/10702 [1:31:36<08:32,  1.96it/s] 91%|█████████ | 9700/10702 [1:31:37<08:27,  1.98it/s]{'loss': 3.5342, 'grad_norm': 0.19378213584423065, 'learning_rate': 2.647053287604656e-05, 'epoch': 0.91}
+                                                       91%|█████████ | 9700/10702 [1:31:37<08:27,  1.98it/s] 91%|█████████ | 9701/10702 [1:31:37<08:24,  1.99it/s] 91%|█████████ | 9702/10702 [1:31:38<08:21,  1.99it/s] 91%|█████████ | 9703/10702 [1:31:38<08:18,  2.00it/s] 91%|█████████ | 9704/10702 [1:31:39<08:17,  2.01it/s] 91%|█████████ | 9705/10702 [1:31:39<08:16,  2.01it/s] 91%|█████████ | 9706/10702 [1:31:40<08:15,  2.01it/s] 91%|█████████ | 9707/10702 [1:31:40<08:14,  2.01it/s] 91%|█████████ | 9708/10702 [1:31:41<08:13,  2.01it/s] 91%|█████████ | 9709/10702 [1:31:41<08:12,  2.01it/s] 91%|█████████ | 9710/10702 [1:31:42<08:12,  2.02it/s] 91%|█████████ | 9711/10702 [1:31:42<08:11,  2.02it/s] 91%|█████████ | 9712/10702 [1:31:43<08:11,  2.02it/s] 91%|█████████ | 9713/10702 [1:31:43<08:10,  2.01it/s] 91%|█████████ | 9714/10702 [1:31:44<08:09,  2.02it/s] 91%|█████████ | 9715/10702 [1:31:44<08:09,  2.02it/s] 91%|█████████ | 9716/10702 [1:31:45<08:08,  2.02it/s] 91%|█████████ | 9717/10702 [1:31:45<08:08,  2.02it/s] 91%|█████████ | 9718/10702 [1:31:46<08:08,  2.02it/s] 91%|█████████ | 9719/10702 [1:31:46<08:07,  2.02it/s] 91%|█████████ | 9720/10702 [1:31:47<08:07,  2.02it/s] 91%|█████████ | 9721/10702 [1:31:47<08:06,  2.01it/s] 91%|█████████ | 9722/10702 [1:31:48<08:06,  2.02it/s] 91%|█████████ | 9723/10702 [1:31:48<08:05,  2.02it/s] 91%|█████████ | 9724/10702 [1:31:49<08:05,  2.02it/s] 91%|█████████ | 9725/10702 [1:31:49<08:04,  2.01it/s]{'loss': 3.5306, 'grad_norm': 0.18902207911014557, 'learning_rate': 2.5177187982105166e-05, 'epoch': 0.91}
+                                                       91%|█████████ | 9725/10702 [1:31:49<08:04,  2.01it/s] 91%|█████████ | 9726/10702 [1:31:50<08:04,  2.01it/s] 91%|█████████ | 9727/10702 [1:31:50<08:04,  2.01it/s] 91%|█████████ | 9728/10702 [1:31:51<08:04,  2.01it/s] 91%|█████████ | 9729/10702 [1:31:51<08:03,  2.01it/s] 91%|█████████ | 9730/10702 [1:31:52<08:02,  2.02it/s] 91%|█████████ | 9731/10702 [1:31:52<08:01,  2.02it/s] 91%|█████████ | 9732/10702 [1:31:52<08:00,  2.02it/s] 91%|█████████ | 9733/10702 [1:31:53<08:00,  2.02it/s] 91%|█████████ | 9734/10702 [1:31:53<07:59,  2.02it/s] 91%|█████████ | 9735/10702 [1:31:54<07:59,  2.02it/s] 91%|█████████ | 9736/10702 [1:31:54<07:58,  2.02it/s] 91%|█████████ | 9737/10702 [1:31:55<07:57,  2.02it/s] 91%|█████████ | 9738/10702 [1:31:55<07:56,  2.02it/s] 91%|█████████ | 9739/10702 [1:31:56<07:56,  2.02it/s] 91%|█████████ | 9740/10702 [1:31:56<07:56,  2.02it/s] 91%|█████████ | 9741/10702 [1:31:57<07:55,  2.02it/s] 91%|█████████ | 9742/10702 [1:31:57<07:57,  2.01it/s] 91%|█████████ | 9743/10702 [1:31:58<07:57,  2.01it/s] 91%|█████████ | 9744/10702 [1:31:58<07:55,  2.01it/s] 91%|█████████ | 9745/10702 [1:31:59<07:55,  2.01it/s] 91%|█████████ | 9746/10702 [1:31:59<07:53,  2.02it/s] 91%|█████████ | 9747/10702 [1:32:00<07:53,  2.02it/s] 91%|█████████ | 9748/10702 [1:32:00<07:52,  2.02it/s] 91%|█████████ | 9749/10702 [1:32:01<07:51,  2.02it/s] 91%|█████████ | 9750/10702 [1:32:01<07:51,  2.02it/s]{'loss': 3.5375, 'grad_norm': 0.19015555083751678, 'learning_rate': 2.3915419746346588e-05, 'epoch': 0.91}
+                                                       91%|█████████ | 9750/10702 [1:32:01<07:51,  2.02it/s] 91%|█████████ | 9751/10702 [1:32:02<07:51,  2.02it/s] 91%|█████████ | 9752/10702 [1:32:02<07:50,  2.02it/s] 91%|█████████ | 9753/10702 [1:32:03<07:50,  2.02it/s] 91%|█████████ | 9754/10702 [1:32:03<07:49,  2.02it/s] 91%|█████████ | 9755/10702 [1:32:04<07:48,  2.02it/s] 91%|█████████ | 9756/10702 [1:32:04<07:48,  2.02it/s] 91%|█████████ | 9757/10702 [1:32:05<07:47,  2.02it/s] 91%|█████████ | 9758/10702 [1:32:05<07:47,  2.02it/s] 91%|█████████ | 9759/10702 [1:32:06<07:46,  2.02it/s] 91%|█████████ | 9760/10702 [1:32:06<07:46,  2.02it/s] 91%|█████████ | 9761/10702 [1:32:07<07:46,  2.02it/s] 91%|█████████ | 9762/10702 [1:32:07<07:46,  2.02it/s] 91%|█████████ | 9763/10702 [1:32:08<07:45,  2.02it/s] 91%|█████████ | 9764/10702 [1:32:08<07:44,  2.02it/s] 91%|█████████ | 9765/10702 [1:32:09<07:44,  2.02it/s] 91%|█████████▏| 9766/10702 [1:32:09<07:43,  2.02it/s] 91%|█████████▏| 9767/10702 [1:32:10<07:43,  2.02it/s] 91%|█████████▏| 9768/10702 [1:32:10<07:42,  2.02it/s] 91%|█████████▏| 9769/10702 [1:32:11<07:42,  2.02it/s] 91%|█████████▏| 9770/10702 [1:32:11<07:41,  2.02it/s] 91%|█████████▏| 9771/10702 [1:32:12<07:41,  2.02it/s] 91%|█████████▏| 9772/10702 [1:32:12<07:40,  2.02it/s] 91%|█████████▏| 9773/10702 [1:32:13<07:40,  2.02it/s] 91%|█████████▏| 9774/10702 [1:32:13<07:40,  2.02it/s] 91%|█████████▏| 9775/10702 [1:32:14<07:39,  2.02it/s]                                                      {'loss': 3.5279, 'grad_norm': 0.19294525682926178, 'learning_rate': 2.2685312078859486e-05, 'epoch': 0.91}
+ 91%|█████████▏| 9775/10702 [1:32:14<07:39,  2.02it/s] 91%|█████████▏| 9776/10702 [1:32:14<07:39,  2.01it/s] 91%|█████████▏| 9777/10702 [1:32:15<07:39,  2.01it/s] 91%|█████████▏| 9778/10702 [1:32:15<07:38,  2.01it/s] 91%|█████████▏| 9779/10702 [1:32:16<07:37,  2.02it/s] 91%|█████████▏| 9780/10702 [1:32:16<07:37,  2.02it/s] 91%|█████████▏| 9781/10702 [1:32:17<07:36,  2.02it/s] 91%|█████████▏| 9782/10702 [1:32:17<07:35,  2.02it/s] 91%|█████████▏| 9783/10702 [1:32:18<07:35,  2.02it/s] 91%|█████████▏| 9784/10702 [1:32:18<07:34,  2.02it/s] 91%|█████████▏| 9785/10702 [1:32:19<07:34,  2.02it/s] 91%|█████████▏| 9786/10702 [1:32:19<07:33,  2.02it/s] 91%|█████████▏| 9787/10702 [1:32:20<07:33,  2.02it/s] 91%|█████████▏| 9788/10702 [1:32:20<07:32,  2.02it/s] 91%|█████████▏| 9789/10702 [1:32:21<07:32,  2.02it/s] 91%|█████████▏| 9790/10702 [1:32:21<07:32,  2.02it/s] 91%|█████████▏| 9791/10702 [1:32:22<07:31,  2.02it/s] 91%|█████████▏| 9792/10702 [1:32:22<07:31,  2.02it/s] 92%|█████████▏| 9793/10702 [1:32:23<07:30,  2.02it/s] 92%|█████████▏| 9794/10702 [1:32:23<07:30,  2.02it/s] 92%|█████████▏| 9795/10702 [1:32:24<07:29,  2.02it/s] 92%|█████████▏| 9796/10702 [1:32:24<07:29,  2.02it/s] 92%|█████████▏| 9797/10702 [1:32:25<07:28,  2.02it/s] 92%|█████████▏| 9798/10702 [1:32:25<07:27,  2.02it/s] 92%|█████████▏| 9799/10702 [1:32:26<07:27,  2.02it/s] 92%|█████████▏| 9800/10702 [1:32:26<07:27,  2.02it/s]{'loss': 3.5346, 'grad_norm': 0.19125251471996307, 'learning_rate': 2.148694678424201e-05, 'epoch': 0.92}
+                                                       92%|█████████▏| 9800/10702 [1:32:26<07:27,  2.02it/s] 92%|█████████▏| 9801/10702 [1:32:27<07:27,  2.01it/s] 92%|█████████▏| 9802/10702 [1:32:27<07:27,  2.01it/s] 92%|█████████▏| 9803/10702 [1:32:28<07:27,  2.01it/s] 92%|█████████▏| 9804/10702 [1:32:28<07:26,  2.01it/s] 92%|█████████▏| 9805/10702 [1:32:29<07:25,  2.01it/s] 92%|█████████▏| 9806/10702 [1:32:29<07:24,  2.01it/s] 92%|█████████▏| 9807/10702 [1:32:30<07:23,  2.02it/s] 92%|█████████▏| 9808/10702 [1:32:30<07:23,  2.02it/s] 92%|█████████▏| 9809/10702 [1:32:31<07:22,  2.02it/s] 92%|█████████▏| 9810/10702 [1:32:31<07:22,  2.02it/s] 92%|█████████▏| 9811/10702 [1:32:32<07:21,  2.02it/s] 92%|█████████▏| 9812/10702 [1:32:32<07:21,  2.02it/s] 92%|█████████▏| 9813/10702 [1:32:33<07:20,  2.02it/s] 92%|█████████▏| 9814/10702 [1:32:33<07:19,  2.02it/s] 92%|█████████▏| 9815/10702 [1:32:34<07:19,  2.02it/s] 92%|█████████▏| 9816/10702 [1:32:34<07:19,  2.02it/s] 92%|█████████▏| 9817/10702 [1:32:35<07:18,  2.02it/s] 92%|█████████▏| 9818/10702 [1:32:35<07:18,  2.02it/s] 92%|█████████▏| 9819/10702 [1:32:36<07:17,  2.02it/s] 92%|█████████▏| 9820/10702 [1:32:36<07:17,  2.02it/s] 92%|█████████▏| 9821/10702 [1:32:37<07:16,  2.02it/s] 92%|█████████▏| 9822/10702 [1:32:37<07:16,  2.02it/s] 92%|█████████▏| 9823/10702 [1:32:38<07:15,  2.02it/s] 92%|█████████▏| 9824/10702 [1:32:38<07:14,  2.02it/s] 92%|█████████▏| 9825/10702 [1:32:39<07:14,  2.02it/s]{'loss': 3.5411, 'grad_norm': 0.19376948475837708, 'learning_rate': 2.0320403556161604e-05, 'epoch': 0.92}
+                                                       92%|█████████▏| 9825/10702 [1:32:39<07:14,  2.02it/s] 92%|█████████▏| 9826/10702 [1:32:39<07:14,  2.02it/s] 92%|█████████▏| 9827/10702 [1:32:40<07:13,  2.02it/s] 92%|█████████▏| 9828/10702 [1:32:40<07:13,  2.02it/s] 92%|█████████▏| 9829/10702 [1:32:41<07:13,  2.02it/s] 92%|█████████▏| 9830/10702 [1:32:41<07:12,  2.02it/s] 92%|█████████▏| 9831/10702 [1:32:42<07:12,  2.02it/s] 92%|█████████▏| 9832/10702 [1:32:42<07:11,  2.02it/s] 92%|█████████▏| 9833/10702 [1:32:43<07:10,  2.02it/s] 92%|█████████▏| 9834/10702 [1:32:43<07:10,  2.02it/s] 92%|█████████▏| 9835/10702 [1:32:44<07:09,  2.02it/s] 92%|█████████▏| 9836/10702 [1:32:44<07:09,  2.02it/s] 92%|█████████▏| 9837/10702 [1:32:45<07:08,  2.02it/s] 92%|█████████▏| 9838/10702 [1:32:45<07:08,  2.02it/s] 92%|█████████▏| 9839/10702 [1:32:46<07:07,  2.02it/s] 92%|█████████▏| 9840/10702 [1:32:46<07:07,  2.02it/s] 92%|█████████▏| 9841/10702 [1:32:47<07:07,  2.02it/s] 92%|█████████▏| 9842/10702 [1:32:47<07:06,  2.02it/s] 92%|█████████▏| 9843/10702 [1:32:48<07:06,  2.02it/s] 92%|█████████▏| 9844/10702 [1:32:48<07:05,  2.02it/s] 92%|█████████▏| 9845/10702 [1:32:49<07:04,  2.02it/s] 92%|█████████▏| 9846/10702 [1:32:49<07:04,  2.02it/s] 92%|█████████▏| 9847/10702 [1:32:49<07:03,  2.02it/s] 92%|█████████▏| 9848/10702 [1:32:50<07:03,  2.02it/s] 92%|█████████▏| 9849/10702 [1:32:50<07:02,  2.02it/s] 92%|█████████▏| 9850/10702 [1:32:51<07:02,  2.02it/s]{'loss': 3.5386, 'grad_norm': 0.19144244492053986, 'learning_rate': 1.9185759972055295e-05, 'epoch': 0.92}
+                                                       92%|█████████��| 9850/10702 [1:32:51<07:02,  2.02it/s] 92%|█████████▏| 9851/10702 [1:32:51<07:02,  2.01it/s] 92%|█████████▏| 9852/10702 [1:32:52<07:01,  2.02it/s] 92%|█████████▏| 9853/10702 [1:32:52<07:00,  2.02it/s] 92%|█████████▏| 9854/10702 [1:32:53<07:00,  2.02it/s] 92%|█████████▏| 9855/10702 [1:32:53<07:00,  2.01it/s] 92%|█████████▏| 9856/10702 [1:32:54<06:59,  2.02it/s] 92%|█████████▏| 9857/10702 [1:32:54<06:59,  2.02it/s] 92%|█████████▏| 9858/10702 [1:32:55<06:58,  2.01it/s] 92%|█████████▏| 9859/10702 [1:32:55<06:58,  2.01it/s] 92%|█████████▏| 9860/10702 [1:32:56<06:57,  2.01it/s] 92%|█████████▏| 9861/10702 [1:32:56<06:57,  2.01it/s] 92%|█████████▏| 9862/10702 [1:32:57<06:57,  2.01it/s] 92%|█████████▏| 9863/10702 [1:32:57<06:57,  2.01it/s] 92%|█████████▏| 9864/10702 [1:32:58<06:57,  2.01it/s] 92%|█████████▏| 9865/10702 [1:32:58<06:56,  2.01it/s] 92%|█████████▏| 9866/10702 [1:32:59<06:55,  2.01it/s] 92%|█████████▏| 9867/10702 [1:32:59<06:54,  2.02it/s] 92%|█████████▏| 9868/10702 [1:33:00<06:54,  2.01it/s] 92%|█████████▏| 9869/10702 [1:33:00<06:52,  2.02it/s] 92%|█████████▏| 9870/10702 [1:33:01<06:52,  2.02it/s] 92%|█████████▏| 9871/10702 [1:33:01<06:51,  2.02it/s] 92%|█████████▏| 9872/10702 [1:33:02<06:51,  2.02it/s] 92%|█████████▏| 9873/10702 [1:33:02<06:50,  2.02it/s] 92%|█████████▏| 9874/10702 [1:33:03<06:50,  2.02it/s] 92%|█████████▏| 9875/10702 [1:33:03<06:50,  2.02it/s]                                                      {'loss': 3.5396, 'grad_norm': 0.1915406733751297, 'learning_rate': 1.8083091487970438e-05, 'epoch': 0.92}
+ 92%|█████████▏| 9875/10702 [1:33:03<06:50,  2.02it/s] 92%|█████████▏| 9876/10702 [1:33:04<06:49,  2.01it/s] 92%|█████████▏| 9877/10702 [1:33:04<06:49,  2.02it/s] 92%|█████████▏| 9878/10702 [1:33:05<06:49,  2.01it/s] 92%|█████████▏| 9879/10702 [1:33:05<06:48,  2.02it/s] 92%|█████████▏| 9880/10702 [1:33:06<06:47,  2.02it/s] 92%|█████████▏| 9881/10702 [1:33:06<06:47,  2.02it/s] 92%|█████████▏| 9882/10702 [1:33:07<06:47,  2.01it/s] 92%|█████████▏| 9883/10702 [1:33:07<06:46,  2.02it/s] 92%|█████████▏| 9884/10702 [1:33:08<06:46,  2.01it/s] 92%|█████████▏| 9885/10702 [1:33:08<06:44,  2.02it/s] 92%|█████████▏| 9886/10702 [1:33:09<06:44,  2.02it/s] 92%|█████████▏| 9887/10702 [1:33:09<06:44,  2.02it/s] 92%|█████████▏| 9888/10702 [1:33:10<06:43,  2.02it/s] 92%|█████████▏| 9889/10702 [1:33:10<06:42,  2.02it/s] 92%|█████████▏| 9890/10702 [1:33:11<06:42,  2.02it/s] 92%|█████████▏| 9891/10702 [1:33:11<06:42,  2.02it/s] 92%|█████████▏| 9892/10702 [1:33:12<06:41,  2.02it/s] 92%|█████████▏| 9893/10702 [1:33:12<06:40,  2.02it/s] 92%|█████████▏| 9894/10702 [1:33:13<06:40,  2.02it/s] 92%|█████████▏| 9895/10702 [1:33:13<06:40,  2.02it/s] 92%|█████████▏| 9896/10702 [1:33:14<06:39,  2.02it/s] 92%|█████████▏| 9897/10702 [1:33:14<06:38,  2.02it/s] 92%|█████████▏| 9898/10702 [1:33:15<06:38,  2.02it/s] 92%|█████████▏| 9899/10702 [1:33:15<06:37,  2.02it/s] 93%|█████████▎| 9900/10702 [1:33:16<06:37,  2.02it/s]{'loss': 3.532, 'grad_norm': 0.18902993202209473, 'learning_rate': 1.7012471433547005e-05, 'epoch': 0.93}
+                                                       93%|█████████▎| 9900/10702 [1:33:16<06:37,  2.02it/s] 93%|█████████▎| 9901/10702 [1:33:16<06:37,  2.01it/s] 93%|█████████▎| 9902/10702 [1:33:17<06:37,  2.01it/s] 93%|█████████▎| 9903/10702 [1:33:17<06:36,  2.01it/s] 93%|█████████▎| 9904/10702 [1:33:18<06:35,  2.02it/s] 93%|█████████▎| 9905/10702 [1:33:18<06:34,  2.02it/s] 93%|█████████▎| 9906/10702 [1:33:19<06:34,  2.02it/s] 93%|█████████▎| 9907/10702 [1:33:19<06:34,  2.02it/s] 93%|█████████▎| 9908/10702 [1:33:20<06:33,  2.02it/s] 93%|█████████▎| 9909/10702 [1:33:20<06:33,  2.02it/s] 93%|█████████▎| 9910/10702 [1:33:21<06:32,  2.02it/s] 93%|█████████▎| 9911/10702 [1:33:21<06:31,  2.02it/s] 93%|███████��█▎| 9912/10702 [1:33:22<06:31,  2.02it/s] 93%|█████████▎| 9913/10702 [1:33:22<06:31,  2.02it/s] 93%|█████████▎| 9914/10702 [1:33:23<06:30,  2.02it/s] 93%|█████████▎| 9915/10702 [1:33:23<06:29,  2.02it/s] 93%|█████████▎| 9916/10702 [1:33:24<06:29,  2.02it/s] 93%|█████████▎| 9917/10702 [1:33:24<06:29,  2.02it/s] 93%|█████████▎| 9918/10702 [1:33:25<06:28,  2.02it/s] 93%|█████████▎| 9919/10702 [1:33:25<06:27,  2.02it/s] 93%|█████████▎| 9920/10702 [1:33:26<06:27,  2.02it/s] 93%|█████████▎| 9921/10702 [1:33:26<06:26,  2.02it/s] 93%|█████████▎| 9922/10702 [1:33:27<06:26,  2.02it/s] 93%|█████████▎| 9923/10702 [1:33:27<06:27,  2.01it/s] 93%|█████████▎| 9924/10702 [1:33:28<06:26,  2.01it/s] 93%|█████████▎| 9925/10702 [1:33:28<06:25,  2.01it/s]{'loss': 3.5329, 'grad_norm': 0.18908724188804626, 'learning_rate': 1.5973971007140654e-05, 'epoch': 0.93}                                                      
+ 93%|█████████▎| 9925/10702 [1:33:28<06:25,  2.01it/s] 93%|█████████▎| 9926/10702 [1:33:29<06:25,  2.01it/s] 93%|█████████▎| 9927/10702 [1:33:29<06:24,  2.01it/s] 93%|█████████▎| 9928/10702 [1:33:30<06:23,  2.02it/s] 93%|█████████▎| 9929/10702 [1:33:30<06:23,  2.02it/s] 93%|█████████▎| 9930/10702 [1:33:31<06:22,  2.02it/s] 93%|█████████▎| 9931/10702 [1:33:31<06:21,  2.02it/s] 93%|█████████▎| 9932/10702 [1:33:32<06:21,  2.02it/s] 93%|█████████▎| 9933/10702 [1:33:32<06:20,  2.02it/s] 93%|█████████▎| 9934/10702 [1:33:33<06:20,  2.02it/s] 93%|█████████▎| 9935/10702 [1:33:33<06:19,  2.02it/s] 93%|█████████▎| 9936/10702 [1:33:34<06:19,  2.02it/s] 93%|█████████▎| 9937/10702 [1:33:34<06:18,  2.02it/s] 93%|█████████▎| 9938/10702 [1:33:35<06:18,  2.02it/s] 93%|█████████▎| 9939/10702 [1:33:35<06:17,  2.02it/s] 93%|█████████▎| 9940/10702 [1:33:36<06:17,  2.02it/s] 93%|█████████▎| 9941/10702 [1:33:36<06:17,  2.02it/s] 93%|█████████▎| 9942/10702 [1:33:37<06:16,  2.02it/s] 93%|█████████▎| 9943/10702 [1:33:37<06:16,  2.02it/s] 93%|█████████▎| 9944/10702 [1:33:38<06:15,  2.02it/s] 93%|█████████▎| 9945/10702 [1:33:38<06:15,  2.02it/s] 93%|█████████▎| 9946/10702 [1:33:39<06:14,  2.02it/s] 93%|█████████▎| 9947/10702 [1:33:39<06:14,  2.02it/s] 93%|█████████▎| 9948/10702 [1:33:40<06:13,  2.02it/s] 93%|█████████▎| 9949/10702 [1:33:40<06:12,  2.02it/s] 93%|█████████▎| 9950/10702 [1:33:41<06:12,  2.02it/s]{'loss': 3.5267, 'grad_norm': 0.1911604255437851, 'learning_rate': 1.4967659271088285e-05, 'epoch': 0.93}
+                                                       93%|█████████▎| 9950/10702 [1:33:41<06:12,  2.02it/s] 93%|█████████▎| 9951/10702 [1:33:41<06:12,  2.02it/s] 93%|█████████▎| 9952/10702 [1:33:42<06:11,  2.02it/s] 93%|█████████▎| 9953/10702 [1:33:42<06:11,  2.02it/s] 93%|█████████▎| 9954/10702 [1:33:43<06:10,  2.02it/s] 93%|█████████▎| 9955/10702 [1:33:43<06:10,  2.02it/s] 93%|█████████▎| 9956/10702 [1:33:44<06:09,  2.02it/s] 93%|█████████▎| 9957/10702 [1:33:44<06:09,  2.02it/s] 93%|█████████▎| 9958/10702 [1:33:45<06:08,  2.02it/s] 93%|█████████▎| 9959/10702 [1:33:45<06:08,  2.02it/s] 93%|█████████▎| 9960/10702 [1:33:46<06:07,  2.02it/s] 93%|█████████▎| 9961/10702 [1:33:46<06:07,  2.02it/s] 93%|█████████▎| 9962/10702 [1:33:47<06:06,  2.02it/s] 93%|█████████▎| 9963/10702 [1:33:47<06:06,  2.02it/s] 93%|█████████▎| 9964/10702 [1:33:48<06:05,  2.02it/s] 93%|█████████▎| 9965/10702 [1:33:48<06:05,  2.02it/s] 93%|█████████▎| 9966/10702 [1:33:49<06:04,  2.02it/s] 93%|█████████▎| 9967/10702 [1:33:49<06:03,  2.02it/s] 93%|█████████▎| 9968/10702 [1:33:49<06:03,  2.02it/s] 93%|█████████▎| 9969/10702 [1:33:50<06:02,  2.02it/s] 93%|█████████▎| 9970/10702 [1:33:50<06:02,  2.02it/s] 93%|█████████▎| 9971/10702 [1:33:51<06:01,  2.02it/s] 93%|█████████▎| 9972/10702 [1:33:51<06:01,  2.02it/s] 93%|█████████▎| 9973/10702 [1:33:52<06:01,  2.02it/s] 93%|█████���███▎| 9974/10702 [1:33:52<06:00,  2.02it/s] 93%|█████████▎| 9975/10702 [1:33:53<06:00,  2.02it/s]{'loss': 3.5349, 'grad_norm': 0.19176548719406128, 'learning_rate': 1.3993603147115007e-05, 'epoch': 0.93}
+                                                       93%|█████████▎| 9975/10702 [1:33:53<06:00,  2.02it/s] 93%|█████████▎| 9976/10702 [1:33:53<06:01,  2.01it/s] 93%|█████████▎| 9977/10702 [1:33:54<06:00,  2.01it/s] 93%|█████████▎| 9978/10702 [1:33:54<05:59,  2.01it/s] 93%|█████████▎| 9979/10702 [1:33:55<05:58,  2.02it/s] 93%|█████████▎| 9980/10702 [1:33:55<05:57,  2.02it/s] 93%|█████████▎| 9981/10702 [1:33:56<05:57,  2.02it/s] 93%|█████████▎| 9982/10702 [1:33:56<05:56,  2.02it/s] 93%|█████████▎| 9983/10702 [1:33:57<05:56,  2.02it/s] 93%|█████████▎| 9984/10702 [1:33:57<05:57,  2.01it/s] 93%|█████████▎| 9985/10702 [1:33:58<05:56,  2.01it/s] 93%|█████████▎| 9986/10702 [1:33:58<05:55,  2.01it/s] 93%|█████████▎| 9987/10702 [1:33:59<05:54,  2.02it/s] 93%|█████████▎| 9988/10702 [1:33:59<05:54,  2.02it/s] 93%|█████████▎| 9989/10702 [1:34:00<05:53,  2.02it/s] 93%|█████████▎| 9990/10702 [1:34:00<05:52,  2.02it/s] 93%|█████████▎| 9991/10702 [1:34:01<05:52,  2.02it/s] 93%|█████████▎| 9992/10702 [1:34:01<05:51,  2.02it/s] 93%|█████████▎| 9993/10702 [1:34:02<05:51,  2.02it/s] 93%|█████████▎| 9994/10702 [1:34:02<05:50,  2.02it/s] 93%|█████████▎| 9995/10702 [1:34:03<05:50,  2.02it/s] 93%|█████████▎| 9996/10702 [1:34:03<05:49,  2.02it/s] 93%|█████████▎| 9997/10702 [1:34:04<05:49,  2.02it/s] 93%|█████████▎| 9998/10702 [1:34:04<05:48,  2.02it/s] 93%|█████████▎| 9999/10702 [1:34:05<05:48,  2.02it/s] 93%|█████████▎| 10000/10702 [1:34:05<05:47,  2.02it/s]{'loss': 3.5353, 'grad_norm': 0.19115538895130157, 'learning_rate': 1.305186741188391e-05, 'epoch': 0.93}
+                                                        93%|█████████▎| 10000/10702 [1:34:05<05:47,  2.02it/s] 93%|█████████▎| 10001/10702 [1:34:06<05:48,  2.01it/s] 93%|█████████▎| 10002/10702 [1:34:06<05:47,  2.01it/s] 93%|█████████▎| 10003/10702 [1:34:07<05:47,  2.01it/s] 93%|█████████▎| 10004/10702 [1:34:07<05:46,  2.01it/s] 93%|█████████▎| 10005/10702 [1:34:08<05:45,  2.02it/s] 93%|█████████▎| 10006/10702 [1:34:08<05:45,  2.02it/s] 94%|█████████▎| 10007/10702 [1:34:09<05:44,  2.02it/s] 94%|█████████▎| 10008/10702 [1:34:09<05:44,  2.01it/s] 94%|█████████▎| 10009/10702 [1:34:10<05:44,  2.01it/s] 94%|█████████▎| 10010/10702 [1:34:10<05:43,  2.01it/s] 94%|█████████▎| 10011/10702 [1:34:11<05:42,  2.02it/s] 94%|█████████▎| 10012/10702 [1:34:11<05:42,  2.02it/s] 94%|█████████▎| 10013/10702 [1:34:12<05:41,  2.02it/s] 94%|█████████▎| 10014/10702 [1:34:12<05:41,  2.02it/s] 94%|█████████▎| 10015/10702 [1:34:13<05:40,  2.02it/s] 94%|█████████▎| 10016/10702 [1:34:13<05:40,  2.02it/s] 94%|█████████▎| 10017/10702 [1:34:14<05:39,  2.02it/s] 94%|█████████▎| 10018/10702 [1:34:14<05:38,  2.02it/s] 94%|█████████▎| 10019/10702 [1:34:15<05:38,  2.02it/s] 94%|█████████▎| 10020/10702 [1:34:15<05:37,  2.02it/s] 94%|█████████▎| 10021/10702 [1:34:16<05:37,  2.02it/s] 94%|█████████▎| 10022/10702 [1:34:16<05:37,  2.02it/s] 94%|█████████▎| 10023/10702 [1:34:17<05:36,  2.02it/s] 94%|█████████▎| 10024/10702 [1:34:17<05:36,  2.01it/s] 94%|█████████▎| 10025/10702 [1:34:18<05:35,  2.02it/s]                                                       {'loss': 3.5331, 'grad_norm': 0.19220072031021118, 'learning_rate': 1.2142514692687956e-05, 'epoch': 0.94}
+ 94%|█████████▎| 10025/10702 [1:34:18<05:35,  2.02it/s] 94%|█████████▎| 10026/10702 [1:34:18<05:36,  2.01it/s] 94%|█████████▎| 10027/10702 [1:34:19<05:35,  2.01it/s] 94%|█████████▎| 10028/10702 [1:34:19<05:34,  2.01it/s] 94%|█████████▎| 10029/10702 [1:34:20<05:34,  2.01it/s] 94%|█████████▎| 10030/10702 [1:34:20<05:33,  2.02it/s] 94%|█████████▎| 10031/10702 [1:34:21<05:32,  2.02it/s] 94%|█████████▎| 10032/10702 [1:34:21<05:32,  2.02it/s] 94%|█████████▎| 10033/10702 [1:34:22<05:31,  2.02it/s] 94%|█████████▍| 10034/10702 [1:34:22<05:31,  2.01it/s] 94%|█████████▍| 10035/10702 [1:34:23<05:31,  2.01it/s] 94%|█████████▍| 10036/10702 [1:34:23<05:30,  2.01it/s] 94%|█████████▍| 10037/10702 [1:34:24<05:30,  2.01it/s] 94%|█████████▍| 10038/10702 [1:34:24<05:29,  2.02it/s] 94%|█████████▍| 10039/10702 [1:34:25<05:29,  2.02it/s] 94%|█████████▍| 10040/10702 [1:34:25<05:28,  2.02it/s] 94%|█████████▍| 10041/10702 [1:34:26<05:27,  2.02it/s] 94%|█████████▍| 10042/10702 [1:34:26<05:27,  2.02it/s] 94%|█████████▍| 10043/10702 [1:34:27<05:26,  2.02it/s] 94%|█████████▍| 10044/10702 [1:34:27<05:27,  2.01it/s] 94%|█████████▍| 10045/10702 [1:34:28<05:27,  2.01it/s] 94%|█████████▍| 10046/10702 [1:34:28<05:26,  2.01it/s] 94%|█████████▍| 10047/10702 [1:34:29<05:25,  2.01it/s] 94%|█████████▍| 10048/10702 [1:34:29<05:24,  2.01it/s] 94%|█████████▍| 10049/10702 [1:34:30<05:23,  2.02it/s] 94%|█████████▍| 10050/10702 [1:34:30<05:23,  2.02it/s]                                                       {'loss': 3.5371, 'grad_norm': 0.19023482501506805, 'learning_rate': 1.1265605463285532e-05, 'epoch': 0.94}
+ 94%|█████████▍| 10050/10702 [1:34:30<05:23,  2.02it/s] 94%|█████████▍| 10051/10702 [1:34:31<05:23,  2.01it/s] 94%|█████████▍| 10052/10702 [1:34:31<05:22,  2.02it/s] 94%|█████████▍| 10053/10702 [1:34:32<05:22,  2.02it/s] 94%|█████████▍| 10054/10702 [1:34:32<05:21,  2.02it/s] 94%|█████████▍| 10055/10702 [1:34:33<05:20,  2.02it/s] 94%|█████████▍| 10056/10702 [1:34:33<05:20,  2.02it/s] 94%|█████████▍| 10057/10702 [1:34:34<05:19,  2.02it/s] 94%|█████████▍| 10058/10702 [1:34:34<05:19,  2.02it/s] 94%|█████████▍| 10059/10702 [1:34:35<05:18,  2.02it/s] 94%|█████████▍| 10060/10702 [1:34:35<05:18,  2.02it/s] 94%|█████████▍| 10061/10702 [1:34:36<05:17,  2.02it/s] 94%|█████████▍| 10062/10702 [1:34:36<05:17,  2.02it/s] 94%|█████████▍| 10063/10702 [1:34:37<05:16,  2.02it/s] 94%|█████████▍| 10064/10702 [1:34:37<05:16,  2.02it/s] 94%|█████████▍| 10065/10702 [1:34:38<05:15,  2.02it/s] 94%|█████████▍| 10066/10702 [1:34:38<05:15,  2.02it/s] 94%|█████████▍| 10067/10702 [1:34:39<05:14,  2.02it/s] 94%|█████████▍| 10068/10702 [1:34:39<05:14,  2.02it/s] 94%|█████████▍| 10069/10702 [1:34:40<05:13,  2.02it/s] 94%|█████████▍| 10070/10702 [1:34:40<05:13,  2.02it/s] 94%|█████████▍| 10071/10702 [1:34:41<05:12,  2.02it/s] 94%|█████████▍| 10072/10702 [1:34:41<05:12,  2.02it/s] 94%|█████████▍| 10073/10702 [1:34:42<05:11,  2.02it/s] 94%|█████████▍| 10074/10702 [1:34:42<05:11,  2.02it/s] 94%|█████████▍| 10075/10702 [1:34:43<05:10,  2.02it/s]{'loss': 3.5352, 'grad_norm': 0.19638735055923462, 'learning_rate': 1.0421198039878566e-05, 'epoch': 0.94}
+                                                        94%|█████████▍| 10075/10702 [1:34:43<05:10,  2.02it/s] 94%|█████████▍| 10076/10702 [1:34:43<05:10,  2.01it/s] 94%|█████████▍| 10077/10702 [1:34:44<05:10,  2.02it/s] 94%|█████████▍| 10078/10702 [1:34:44<05:09,  2.01it/s] 94%|█████████▍| 10079/10702 [1:34:45<05:09,  2.02it/s] 94%|█████████▍| 10080/10702 [1:34:45<05:08,  2.02it/s] 94%|█████████▍| 10081/10702 [1:34:46<05:07,  2.02it/s] 94%|█████████▍| 10082/10702 [1:34:46<05:07,  2.02it/s] 94%|█████████▍| 10083/10702 [1:34:47<05:06,  2.02it/s] 94%|█████████▍| 10084/10702 [1:34:47<05:06,  2.02it/s] 94%|█████████▍| 10085/10702 [1:34:48<05:05,  2.02it/s] 94%|█████████▍| 10086/10702 [1:34:48<05:05,  2.02it/s] 94%|█████████▍| 10087/10702 [1:34:49<05:04,  2.02it/s] 94%|█████████▍| 10088/10702 [1:34:49<05:04,  2.02it/s] 94%|█████████▍| 10089/10702 [1:34:50<05:03,  2.02it/s] 94%|█████████▍| 10090/10702 [1:34:50<05:03,  2.02it/s] 94%|█████████▍| 10091/10702 [1:34:51<05:02,  2.02it/s] 94%|█████████▍| 10092/10702 [1:34:51<05:02,  2.02it/s] 94%|█████████▍| 10093/10702 [1:34:52<05:01,  2.02it/s] 94%|█████████▍| 10094/10702 [1:34:52<05:01,  2.02it/s] 94%|█████████▍| 10095/10702 [1:34:52<05:00,  2.02it/s] 94%|█████████▍| 10096/10702 [1:34:53<05:00,  2.02it/s] 94%|█████████▍| 10097/10702 [1:34:53<04:59,  2.02it/s] 94%|█████████▍| 10098/10702 [1:34:54<04:59,  2.02it/s] 94%|█████████▍| 10099/10702 [1:34:54<04:59,  2.02it/s] 94%|█████████▍| 10100/10702 [1:34:55<04:58,  2.02it/s]                                                       {'loss': 3.5368, 'grad_norm': 0.19134770333766937, 'learning_rate': 9.609348577234555e-06, 'epoch': 0.94}
+ 94%|█████████▍| 10100/10702 [1:34:55<04:58,  2.02it/s] 94%|█████████▍| 10101/10702 [1:34:55<04:58,  2.01it/s] 94%|█████████▍| 10102/10702 [1:34:56<04:57,  2.02it/s] 94%|█████████▍| 10103/10702 [1:34:56<04:56,  2.02it/s] 94%|█████████▍| 10104/10702 [1:34:57<05:05,  1.96it/s] 94%|█████████▍| 10105/10702 [1:34:58<05:06,  1.95it/s] 94%|█████████▍| 10106/10702 [1:34:58<05:04,  1.96it/s] 94%|█████████▍| 10107/10702 [1:34:59<05:01,  1.97it/s] 94%|█████████▍| 10108/10702 [1:34:59<04:59,  1.98it/s] 94%|█████████▍| 10109/10702 [1:35:00<04:57,  1.99it/s] 94%|█████████▍| 10110/10702 [1:35:00<04:56,  2.00it/s] 94%|█████████▍| 10111/10702 [1:35:01<04:55,  2.00it/s] 94%|█████████▍| 10112/10702 [1:35:01<04:54,  2.00it/s] 94%|█████████▍| 10113/10702 [1:35:02<04:54,  2.00it/s] 95%|█████████▍| 10114/10702 [1:35:02<04:52,  2.01it/s] 95%|█████████▍| 10115/10702 [1:35:03<04:52,  2.01it/s] 95%|█████████▍| 10116/10702 [1:35:03<04:51,  2.01it/s] 95%|█████████▍| 10117/10702 [1:35:04<04:50,  2.01it/s] 95%|█████████▍| 10118/10702 [1:35:04<04:50,  2.01it/s] 95%|█████████▍| 10119/10702 [1:35:04<04:50,  2.01it/s] 95%|█████████▍| 10120/10702 [1:35:05<04:49,  2.01it/s] 95%|█████████▍| 10121/10702 [1:35:05<04:48,  2.01it/s] 95%|█████████▍| 10122/10702 [1:35:06<04:48,  2.01it/s] 95%|█████████▍| 10123/10702 [1:35:06<04:47,  2.01it/s] 95%|█████████▍| 10124/10702 [1:35:07<04:47,  2.01it/s] 95%|█████████▍| 10125/10702 [1:35:07<04:46,  2.01it/s]{'loss': 3.5331, 'grad_norm': 0.19063040614128113, 'learning_rate': 8.830111064951906e-06, 'epoch': 0.95}                                                       
+ 95%|█████████▍| 10125/10702 [1:35:07<04:46,  2.01it/s] 95%|█████████▍| 10126/10702 [1:35:08<04:46,  2.01it/s] 95%|█████████▍| 10127/10702 [1:35:08<04:46,  2.01it/s] 95%|█████████▍| 10128/10702 [1:35:09<04:45,  2.01it/s] 95%|█████████▍| 10129/10702 [1:35:09<04:44,  2.01it/s] 95%|█████████▍| 10130/10702 [1:35:10<04:44,  2.01it/s] 95%|█████████▍| 10131/10702 [1:35:10<04:43,  2.01it/s] 95%|█████████▍| 10132/10702 [1:35:11<04:42,  2.01it/s] 95%|█████████▍| 10133/10702 [1:35:11<04:42,  2.01it/s] 95%|█████████▍| 10134/10702 [1:35:12<04:42,  2.01it/s] 95%|█████████▍| 10135/10702 [1:35:12<04:41,  2.01it/s] 95%|█████████▍| 10136/10702 [1:35:13<04:41,  2.01it/s] 95%|█████████▍| 10137/10702 [1:35:13<04:40,  2.01it/s] 95%|█████████▍| 10138/10702 [1:35:14<04:39,  2.02it/s] 95%|█████████▍| 10139/10702 [1:35:14<04:39,  2.01it/s] 95%|█████████▍| 10140/10702 [1:35:15<04:39,  2.01it/s] 95%|█████████▍| 10141/10702 [1:35:15<04:38,  2.02it/s] 95%|█████████▍| 10142/10702 [1:35:16<04:38,  2.01it/s] 95%|█████████▍| 10143/10702 [1:35:16<04:37,  2.02it/s] 95%|█████████▍| 10144/10702 [1:35:17<04:36,  2.02it/s] 95%|█████████▍| 10145/10702 [1:35:17<04:36,  2.02it/s] 95%|█████████▍| 10146/10702 [1:35:18<04:35,  2.02it/s] 95%|█████████▍| 10147/10702 [1:35:18<04:35,  2.02it/s] 95%|█████████▍| 10148/10702 [1:35:19<04:34,  2.02it/s] 95%|█████████▍| 10149/10702 [1:35:19<04:34,  2.02it/s] 95%|█████████▍| 10150/10702 [1:35:20<04:33,  2.02it/s]                                                       {'loss': 3.5244, 'grad_norm': 0.18870069086551666, 'learning_rate': 8.083537323869738e-06, 'epoch': 0.95}
+ 95%|█████████▍| 10150/10702 [1:35:20<04:33,  2.02it/s] 95%|█████████���| 10151/10702 [1:35:20<04:33,  2.01it/s] 95%|█████████▍| 10152/10702 [1:35:21<04:32,  2.01it/s] 95%|█████████▍| 10153/10702 [1:35:21<04:32,  2.01it/s] 95%|█████████▍| 10154/10702 [1:35:22<04:31,  2.02it/s] 95%|█████████▍| 10155/10702 [1:35:22<04:31,  2.02it/s] 95%|█████████▍| 10156/10702 [1:35:23<04:31,  2.01it/s] 95%|█████████▍| 10157/10702 [1:35:23<04:30,  2.01it/s] 95%|█████████▍| 10158/10702 [1:35:24<04:30,  2.01it/s] 95%|█████████▍| 10159/10702 [1:35:24<04:29,  2.01it/s] 95%|█████████▍| 10160/10702 [1:35:25<04:28,  2.02it/s] 95%|█████████▍| 10161/10702 [1:35:25<04:28,  2.02it/s] 95%|█████████▍| 10162/10702 [1:35:26<04:27,  2.02it/s] 95%|█████████▍| 10163/10702 [1:35:26<04:27,  2.02it/s] 95%|█████████▍| 10164/10702 [1:35:27<04:26,  2.02it/s] 95%|█████████▍| 10165/10702 [1:35:27<04:27,  2.01it/s] 95%|█████████▍| 10166/10702 [1:35:28<04:27,  2.01it/s] 95%|█████████▌| 10167/10702 [1:35:28<04:26,  2.01it/s] 95%|█████████▌| 10168/10702 [1:35:29<04:25,  2.01it/s] 95%|█████████▌| 10169/10702 [1:35:29<04:24,  2.01it/s] 95%|█████████▌| 10170/10702 [1:35:30<04:23,  2.02it/s] 95%|█████████▌| 10171/10702 [1:35:30<04:23,  2.02it/s] 95%|█████████▌| 10172/10702 [1:35:31<04:22,  2.02it/s] 95%|█████████▌| 10173/10702 [1:35:31<04:22,  2.02it/s] 95%|█████████▌| 10174/10702 [1:35:32<04:21,  2.02it/s] 95%|█████████▌| 10175/10702 [1:35:32<04:21,  2.02it/s]{'loss': 3.5345, 'grad_norm': 0.19040407240390778, 'learning_rate': 7.369677002621755e-06, 'epoch': 0.95}                                                       
+ 95%|█████████▌| 10175/10702 [1:35:32<04:21,  2.02it/s] 95%|█████████▌| 10176/10702 [1:35:33<04:21,  2.01it/s] 95%|█████████▌| 10177/10702 [1:35:33<04:20,  2.02it/s] 95%|█████████▌| 10178/10702 [1:35:34<04:19,  2.02it/s] 95%|█████████▌| 10179/10702 [1:35:34<04:19,  2.02it/s] 95%|█████████▌| 10180/10702 [1:35:35<04:18,  2.02it/s] 95%|█████████▌| 10181/10702 [1:35:35<04:18,  2.02it/s] 95%|█████████▌| 10182/10702 [1:35:36<04:17,  2.02it/s] 95%|█████████▌| 10183/10702 [1:35:36<04:17,  2.02it/s] 95%|█████████▌| 10184/10702 [1:35:37<04:16,  2.02it/s] 95%|█████████▌| 10185/10702 [1:35:37<04:16,  2.02it/s] 95%|█████████▌| 10186/10702 [1:35:38<04:15,  2.02it/s] 95%|█████████▌| 10187/10702 [1:35:38<04:15,  2.02it/s] 95%|█████████▌| 10188/10702 [1:35:39<04:14,  2.02it/s] 95%|█████████▌| 10189/10702 [1:35:39<04:14,  2.02it/s] 95%|█████████▌| 10190/10702 [1:35:40<04:13,  2.02it/s] 95%|█████████▌| 10191/10702 [1:35:40<04:13,  2.02it/s] 95%|█████████▌| 10192/10702 [1:35:41<04:12,  2.02it/s] 95%|█████████▌| 10193/10702 [1:35:41<04:12,  2.02it/s] 95%|█████████▌| 10194/10702 [1:35:42<04:11,  2.02it/s] 95%|█████████▌| 10195/10702 [1:35:42<04:11,  2.02it/s] 95%|█████████▌| 10196/10702 [1:35:43<04:10,  2.02it/s] 95%|█████████▌| 10197/10702 [1:35:43<04:10,  2.02it/s] 95%|█████████▌| 10198/10702 [1:35:44<04:09,  2.02it/s] 95%|█████████▌| 10199/10702 [1:35:44<04:09,  2.02it/s] 95%|█████████▌| 10200/10702 [1:35:45<04:08,  2.02it/s]{'loss': 3.5394, 'grad_norm': 0.19150163233280182, 'learning_rate': 6.6885775743343866e-06, 'epoch': 0.95}
+                                                        95%|█████████▌| 10200/10702 [1:35:45<04:08,  2.02it/s] 95%|█████████▌| 10201/10702 [1:35:45<04:08,  2.01it/s] 95%|█████████▌| 10202/10702 [1:35:46<04:08,  2.02it/s] 95%|█████████▌| 10203/10702 [1:35:46<04:07,  2.02it/s] 95%|█████████▌| 10204/10702 [1:35:47<04:06,  2.02it/s] 95%|█████████▌| 10205/10702 [1:35:47<04:06,  2.02it/s] 95%|█████████▌| 10206/10702 [1:35:48<04:05,  2.02it/s] 95%|█████████▌| 10207/10702 [1:35:48<04:05,  2.02it/s] 95%|█████████▌| 10208/10702 [1:35:49<04:04,  2.02it/s] 95%|█████████▌| 10209/10702 [1:35:49<04:04,  2.02it/s] 95%|█████████▌| 10210/10702 [1:35:50<04:04,  2.02it/s] 95%|█████████▌| 10211/10702 [1:35:50<04:03,  2.02it/s] 95%|█████████▌| 10212/10702 [1:35:51<04:02,  2.02it/s] 95%|█████████▌| 10213/10702 [1:35:51<04:02,  2.02it/s] 95%|█████████▌| 10214/10702 [1:35:52<04:02,  2.02it/s] 95%|█████████▌| 10215/10702 [1:35:52<04:01,  2.02it/s] 95%|█████████▌| 10216/10702 [1:35:53<04:01,  2.02it/s] 95%|█████████▌| 10217/10702 [1:35:53<04:00,  2.02it/s] 95%|█████████▌| 10218/10702 [1:35:54<03:59,  2.02it/s] 95%|█████████▌| 10219/10702 [1:35:54<03:59,  2.02it/s] 95%|█████████▌| 10220/10702 [1:35:55<03:58,  2.02it/s] 96%|█████████▌| 10221/10702 [1:35:55<03:58,  2.02it/s] 96%|█████████▌| 10222/10702 [1:35:56<03:57,  2.02it/s] 96%|█████████▌| 10223/10702 [1:35:56<03:57,  2.02it/s] 96%|█████████▌| 10224/10702 [1:35:57<03:57,  2.02it/s] 96%|█████████▌| 10225/10702 [1:35:57<04:02,  1.97it/s]                                                       {'loss': 3.5372, 'grad_norm': 0.1882242113351822, 'learning_rate': 6.040284333469537e-06, 'epoch': 0.96}
+ 96%|█████████▌| 10225/10702 [1:35:57<04:02,  1.97it/s] 96%|█████████▌| 10226/10702 [1:35:58<04:02,  1.96it/s] 96%|█████████▌| 10227/10702 [1:35:58<04:00,  1.97it/s] 96%|█████████▌| 10228/10702 [1:35:59<03:58,  1.98it/s] 96%|█████████▌| 10229/10702 [1:35:59<03:57,  1.99it/s] 96%|█████████▌| 10230/10702 [1:36:00<03:56,  2.00it/s] 96%|█████████▌| 10231/10702 [1:36:00<03:55,  2.00it/s] 96%|█████████▌| 10232/10702 [1:36:01<03:54,  2.00it/s] 96%|█████████▌| 10233/10702 [1:36:01<03:53,  2.01it/s] 96%|█████████▌| 10234/10702 [1:36:02<03:53,  2.01it/s] 96%|█████████▌| 10235/10702 [1:36:02<03:52,  2.01it/s] 96%|█████████▌| 10236/10702 [1:36:03<03:51,  2.01it/s] 96%|█████████▌| 10237/10702 [1:36:03<03:51,  2.01it/s] 96%|█████████▌| 10238/10702 [1:36:04<03:50,  2.01it/s] 96%|█████████▌| 10239/10702 [1:36:04<03:50,  2.01it/s] 96%|█████████▌| 10240/10702 [1:36:05<03:49,  2.01it/s] 96%|█████████▌| 10241/10702 [1:36:05<03:49,  2.01it/s] 96%|█████████▌| 10242/10702 [1:36:06<03:48,  2.01it/s] 96%|█████████▌| 10243/10702 [1:36:06<03:47,  2.01it/s] 96%|█████████▌| 10244/10702 [1:36:07<03:47,  2.01it/s] 96%|█████████▌| 10245/10702 [1:36:07<03:47,  2.01it/s] 96%|█████████▌| 10246/10702 [1:36:08<03:46,  2.01it/s] 96%|█████████▌| 10247/10702 [1:36:08<03:45,  2.02it/s] 96%|█████████▌| 10248/10702 [1:36:09<03:45,  2.02it/s] 96%|█████████▌| 10249/10702 [1:36:09<03:44,  2.01it/s] 96%|█████████▌| 10250/10702 [1:36:10<03:44,  2.01it/s]{'loss': 3.5333, 'grad_norm': 0.1891845315694809, 'learning_rate': 5.424840392812769e-06, 'epoch': 0.96}
+                                                        96%|█████████▌| 10250/10702 [1:36:10<03:44,  2.01it/s] 96%|█████████▌| 10251/10702 [1:36:10<03:43,  2.01it/s] 96%|█████████▌| 10252/10702 [1:36:11<03:43,  2.02it/s] 96%|█████████▌| 10253/10702 [1:36:11<03:42,  2.02it/s] 96%|█████████▌| 10254/10702 [1:36:12<03:42,  2.01it/s] 96%|█████████▌| 10255/10702 [1:36:12<03:41,  2.02it/s] 96%|█████████▌| 10256/10702 [1:36:13<03:41,  2.01it/s] 96%|█████████▌| 10257/10702 [1:36:13<03:40,  2.02it/s] 96%|█████████▌| 10258/10702 [1:36:14<03:40,  2.02it/s] 96%|█████████▌| 10259/10702 [1:36:14<03:39,  2.02it/s] 96%|█████████▌| 10260/10702 [1:36:15<03:39,  2.02it/s] 96%|█████████▌| 10261/10702 [1:36:15<03:38,  2.02it/s] 96%|█████████▌| 10262/10702 [1:36:16<03:38,  2.02it/s] 96%|█████████▌| 10263/10702 [1:36:16<03:37,  2.02it/s] 96%|█████████▌| 10264/10702 [1:36:17<03:37,  2.02it/s] 96%|█████████▌| 10265/10702 [1:36:17<03:36,  2.02it/s] 96%|█████████▌| 10266/10702 [1:36:18<03:36,  2.01it/s] 96%|█████████▌| 10267/10702 [1:36:18<03:35,  2.01it/s] 96%|█████████▌| 10268/10702 [1:36:18<03:35,  2.02it/s] 96%|█████████▌| 10269/10702 [1:36:19<03:34,  2.02it/s] 96%|█████████▌| 10270/10702 [1:36:19<03:34,  2.02it/s] 96%|█████████▌| 10271/10702 [1:36:20<03:33,  2.01it/s] 96%|█████████▌| 10272/10702 [1:36:20<03:33,  2.02it/s] 96%|█████████▌| 10273/10702 [1:36:21<03:32,  2.02it/s] 96%|█████████▌| 10274/10702 [1:36:21<03:32,  2.02it/s] 96%|█████████▌| 10275/10702 [1:36:22<03:31,  2.02it/s]{'loss': 3.531, 'grad_norm': 0.19033119082450867, 'learning_rate': 4.8422866806061564e-06, 'epoch': 0.96}
+                                                        96%|█████████▌| 10275/10702 [1:36:22<03:31,  2.02it/s] 96%|█████████▌| 10276/10702 [1:36:22<03:31,  2.01it/s] 96%|█████████▌| 10277/10702 [1:36:23<03:30,  2.01it/s] 96%|█████████▌| 10278/10702 [1:36:23<03:30,  2.02it/s] 96%|█████████▌| 10279/10702 [1:36:24<03:30,  2.01it/s] 96%|█████████▌| 10280/10702 [1:36:24<03:29,  2.02it/s] 96%|█████████▌| 10281/10702 [1:36:25<03:29,  2.01it/s] 96%|█████████▌| 10282/10702 [1:36:25<03:28,  2.02it/s] 96%|█████████▌| 10283/10702 [1:36:26<03:27,  2.02it/s] 96%|█████████▌| 10284/10702 [1:36:26<03:27,  2.02it/s] 96%|█████████▌| 10285/10702 [1:36:27<03:26,  2.02it/s] 96%|█████████▌| 10286/10702 [1:36:27<03:27,  2.00it/s] 96%|█████████▌| 10287/10702 [1:36:28<03:27,  2.00it/s] 96%|█████████▌| 10288/10702 [1:36:28<03:27,  2.00it/s] 96%|█████████▌| 10289/10702 [1:36:29<03:26,  2.00it/s] 96%|█████████▌| 10290/10702 [1:36:29<03:26,  2.00it/s] 96%|█████████▌| 10291/10702 [1:36:30<03:25,  2.00it/s] 96%|█████████▌| 10292/10702 [1:36:30<03:24,  2.00it/s] 96%|█████████▌| 10293/10702 [1:36:31<03:24,  2.00it/s] 96%|█████████▌| 10294/10702 [1:36:31<03:23,  2.00it/s] 96%|█████████▌| 10295/10702 [1:36:32<03:22,  2.01it/s] 96%|█████████▌| 10296/10702 [1:36:32<03:22,  2.01it/s] 96%|█████████▌| 10297/10702 [1:36:33<03:21,  2.01it/s] 96%|█████████▌| 10298/10702 [1:36:33<03:21,  2.01it/s] 96%|█████████▌| 10299/10702 [1:36:34<03:20,  2.01it/s] 96%|█████████▌| 10300/10702 [1:36:34<03:19,  2.01it/s]                                                       {'loss': 3.5347, 'grad_norm': 0.19009852409362793, 'learning_rate': 4.292661937826181e-06, 'epoch': 0.96}
+ 96%|█████████▌| 10300/10702 [1:36:34<03:19,  2.01it/s] 96%|█████████▋| 10301/10702 [1:36:35<03:19,  2.01it/s] 96%|█████████▋| 10302/10702 [1:36:35<03:18,  2.01it/s] 96%|█████████▋| 10303/10702 [1:36:36<03:18,  2.01it/s] 96%|█████████▋| 10304/10702 [1:36:36<03:17,  2.01it/s] 96%|█████████▋| 10305/10702 [1:36:37<03:17,  2.01it/s] 96%|█████████▋| 10306/10702 [1:36:37<03:16,  2.02it/s] 96%|█████████▋| 10307/10702 [1:36:38<03:15,  2.02it/s] 96%|█████████▋| 10308/10702 [1:36:38<03:15,  2.02it/s] 96%|█████████▋| 10309/10702 [1:36:39<03:14,  2.02it/s] 96%|█████████▋| 10310/10702 [1:36:39<03:14,  2.01it/s] 96%|█████████▋| 10311/10702 [1:36:40<03:14,  2.01it/s] 96%|█████████▋| 10312/10702 [1:36:40<03:13,  2.02it/s] 96%|█████████▋| 10313/10702 [1:36:41<03:13,  2.01it/s] 96%|█████████▋| 10314/10702 [1:36:41<03:12,  2.01it/s] 96%|█████████▋| 10315/10702 [1:36:42<03:12,  2.01it/s] 96%|█████████▋| 10316/10702 [1:36:42<03:11,  2.02it/s] 96%|█████████▋| 10317/10702 [1:36:43<03:11,  2.01it/s] 96%|█████████▋| 10318/10702 [1:36:43<03:10,  2.01it/s] 96%|█████████▋| 10319/10702 [1:36:44<03:10,  2.01it/s] 96%|█████████▋| 10320/10702 [1:36:44<03:09,  2.01it/s] 96%|█████████▋| 10321/10702 [1:36:45<03:09,  2.01it/s] 96%|█████████▋| 10322/10702 [1:36:45<03:08,  2.02it/s] 96%|█████████▋| 10323/10702 [1:36:46<03:08,  2.02it/s] 96%|█████████▋| 10324/10702 [1:36:46<03:07,  2.02it/s] 96%|█████████▋| 10325/10702 [1:36:47<03:07,  2.01it/s]{'loss': 3.5256, 'grad_norm': 0.19020560383796692, 'learning_rate': 3.776002715607796e-06, 'epoch': 0.96}
+                                                        96%|█████████▋| 10325/10702 [1:36:47<03:07,  2.01it/s] 96%|█████████▋| 10326/10702 [1:36:47<03:06,  2.01it/s] 96%|█████████▋| 10327/10702 [1:36:48<03:06,  2.02it/s] 97%|█████████▋| 10328/10702 [1:36:48<03:05,  2.01it/s] 97%|█████████▋| 10329/10702 [1:36:49<03:04,  2.02it/s] 97%|█████████▋| 10330/10702 [1:36:49<03:04,  2.01it/s] 97%|█████████��| 10331/10702 [1:36:50<03:03,  2.02it/s] 97%|█████████▋| 10332/10702 [1:36:50<03:03,  2.02it/s] 97%|█████████▋| 10333/10702 [1:36:51<03:03,  2.02it/s] 97%|█████████▋| 10334/10702 [1:36:51<03:02,  2.02it/s] 97%|█████████▋| 10335/10702 [1:36:52<03:02,  2.02it/s] 97%|█████████▋| 10336/10702 [1:36:52<03:01,  2.02it/s] 97%|█████████▋| 10337/10702 [1:36:53<03:01,  2.02it/s] 97%|█████████▋| 10338/10702 [1:36:53<03:00,  2.02it/s] 97%|█████████▋| 10339/10702 [1:36:54<02:59,  2.02it/s] 97%|█████████▋| 10340/10702 [1:36:54<02:59,  2.01it/s] 97%|█████████▋| 10341/10702 [1:36:55<02:59,  2.02it/s] 97%|█████████▋| 10342/10702 [1:36:55<02:58,  2.01it/s] 97%|█████████▋| 10343/10702 [1:36:56<02:58,  2.02it/s] 97%|█████████▋| 10344/10702 [1:36:56<02:57,  2.02it/s] 97%|█████████▋| 10345/10702 [1:36:57<02:57,  2.02it/s] 97%|█████████▋| 10346/10702 [1:36:57<02:57,  2.01it/s] 97%|█████████▋| 10347/10702 [1:36:58<02:56,  2.01it/s] 97%|█████████▋| 10348/10702 [1:36:58<02:56,  2.01it/s] 97%|█████████▋| 10349/10702 [1:36:59<02:55,  2.01it/s] 97%|█████████▋| 10350/10702 [1:36:59<02:54,  2.01it/s]{'loss': 3.5337, 'grad_norm': 0.19346359372138977, 'learning_rate': 3.292343372813256e-06, 'epoch': 0.97}                                                       
+ 97%|█████████▋| 10350/10702 [1:36:59<02:54,  2.01it/s] 97%|█████████▋| 10351/10702 [1:37:00<02:54,  2.01it/s] 97%|█████████▋| 10352/10702 [1:37:00<02:53,  2.01it/s] 97%|█████████▋| 10353/10702 [1:37:01<02:53,  2.01it/s] 97%|█████████▋| 10354/10702 [1:37:01<02:52,  2.01it/s] 97%|█████████▋| 10355/10702 [1:37:02<02:52,  2.01it/s] 97%|█████████▋| 10356/10702 [1:37:02<02:51,  2.01it/s] 97%|█████████▋| 10357/10702 [1:37:03<02:51,  2.01it/s] 97%|█████████▋| 10358/10702 [1:37:03<02:50,  2.01it/s] 97%|█████████▋| 10359/10702 [1:37:04<02:50,  2.01it/s] 97%|█████████▋| 10360/10702 [1:37:04<02:49,  2.02it/s] 97%|█████████▋| 10361/10702 [1:37:05<02:49,  2.01it/s] 97%|█████████▋| 10362/10702 [1:37:05<02:48,  2.02it/s] 97%|█████████▋| 10363/10702 [1:37:06<02:48,  2.02it/s] 97%|█████████▋| 10364/10702 [1:37:06<02:47,  2.02it/s] 97%|█████████▋| 10365/10702 [1:37:07<02:47,  2.02it/s] 97%|█████████▋| 10366/10702 [1:37:07<02:46,  2.02it/s] 97%|█████████▋| 10367/10702 [1:37:08<02:45,  2.02it/s] 97%|█████████▋| 10368/10702 [1:37:08<02:45,  2.02it/s] 97%|█████████▋| 10369/10702 [1:37:09<02:45,  2.02it/s] 97%|█████████▋| 10370/10702 [1:37:09<02:44,  2.02it/s] 97%|█████████▋| 10371/10702 [1:37:10<02:44,  2.02it/s] 97%|█████████▋| 10372/10702 [1:37:10<03:10,  1.73it/s] 97%|█████████▋| 10373/10702 [1:37:11<03:02,  1.81it/s] 97%|█████████▋| 10374/10702 [1:37:11<02:56,  1.86it/s] 97%|█████████▋| 10375/10702 [1:37:12<02:51,  1.91it/s]{'loss': 3.5352, 'grad_norm': 0.18727657198905945, 'learning_rate': 2.841716073747669e-06, 'epoch': 0.97}
+                                                        97%|█████████▋| 10375/10702 [1:37:12<02:51,  1.91it/s] 97%|█████████▋| 10376/10702 [1:37:12<02:48,  1.94it/s] 97%|█████████▋| 10377/10702 [1:37:13<02:45,  1.96it/s] 97%|█████████▋| 10378/10702 [1:37:13<02:43,  1.98it/s] 97%|█████████▋| 10379/10702 [1:37:14<02:42,  1.99it/s] 97%|█████████▋| 10380/10702 [1:37:14<02:41,  2.00it/s] 97%|█████████▋| 10381/10702 [1:37:15<02:40,  2.00it/s] 97%|█████████▋| 10382/10702 [1:37:15<02:39,  2.01it/s] 97%|█████████▋| 10383/10702 [1:37:16<02:38,  2.01it/s] 97%|█████████▋| 10384/10702 [1:37:16<02:38,  2.01it/s] 97%|█████████▋| 10385/10702 [1:37:17<02:37,  2.01it/s] 97%|█████████▋| 10386/10702 [1:37:17<02:37,  2.01it/s] 97%|█████████▋| 10387/10702 [1:37:18<02:36,  2.01it/s] 97%|█████████▋| 10388/10702 [1:37:18<02:36,  2.01it/s] 97%|█████████▋| 10389/10702 [1:37:19<02:35,  2.01it/s] 97%|█████████▋| 10390/10702 [1:37:19<02:34,  2.02it/s] 97%|█████████▋| 10391/10702 [1:37:20<02:34,  2.01it/s] 97%|█████████▋| 10392/10702 [1:37:20<02:33,  2.02it/s] 97%|█████████▋| 10393/10702 [1:37:21<02:33,  2.01it/s] 97%|█████████▋| 10394/10702 [1:37:21<02:32,  2.02it/s] 97%|█████████▋| 10395/10702 [1:37:22<02:32,  2.02it/s] 97%|█████████▋| 10396/10702 [1:37:22<02:32,  2.01it/s] 97%|█████████▋| 10397/10702 [1:37:23<02:31,  2.01it/s] 97%|█████████▋| 10398/10702 [1:37:23<02:30,  2.01it/s] 97%|█████████▋| 10399/10702 [1:37:24<02:30,  2.02it/s] 97%|█████████▋| 10400/10702 [1:37:24<02:29,  2.02it/s]{'loss': 3.5328, 'grad_norm': 0.18947888910770416, 'learning_rate': 2.4241507860195965e-06, 'epoch': 0.97}
+                                                        97%|█████████▋| 10400/10702 [1:37:24<02:29,  2.02it/s] 97%|█████████▋| 10401/10702 [1:37:25<02:29,  2.01it/s] 97%|█████████▋| 10402/10702 [1:37:25<02:28,  2.02it/s] 97%|█████████▋| 10403/10702 [1:37:26<02:28,  2.01it/s] 97%|█████████▋| 10404/10702 [1:37:26<02:27,  2.02it/s] 97%|█████████▋| 10405/10702 [1:37:27<02:27,  2.01it/s] 97%|█████████▋| 10406/10702 [1:37:27<02:28,  2.00it/s] 97%|█████████▋| 10407/10702 [1:37:28<02:27,  2.00it/s] 97%|█████████▋| 10408/10702 [1:37:28<02:27,  2.00it/s] 97%|█████████▋| 10409/10702 [1:37:29<02:26,  2.00it/s] 97%|█████████▋| 10410/10702 [1:37:29<02:25,  2.00it/s] 97%|█████████▋| 10411/10702 [1:37:30<02:25,  2.00it/s] 97%|█████████▋| 10412/10702 [1:37:30<02:24,  2.00it/s] 97%|█████████▋| 10413/10702 [1:37:31<02:24,  2.00it/s] 97%|█████████▋| 10414/10702 [1:37:31<02:23,  2.01it/s] 97%|█████████▋| 10415/10702 [1:37:32<02:49,  1.70it/s] 97%|█████████▋| 10416/10702 [1:37:33<02:40,  1.78it/s] 97%|█████████▋| 10417/10702 [1:37:33<02:34,  1.84it/s] 97%|█████████▋| 10418/10702 [1:37:34<02:30,  1.89it/s] 97%|█████████▋| 10419/10702 [1:37:34<02:27,  1.92it/s] 97%|█████████▋| 10420/10702 [1:37:35<02:24,  1.95it/s] 97%|█████████▋| 10421/10702 [1:37:35<02:22,  1.97it/s] 97%|█████████▋| 10422/10702 [1:37:36<02:21,  1.98it/s] 97%|█████████▋| 10423/10702 [1:37:36<02:20,  1.99it/s] 97%|█████████▋| 10424/10702 [1:37:37<02:19,  2.00it/s] 97%|█████████▋| 10425/10702 [1:37:37<02:18,  2.00it/s]{'loss': 3.5394, 'grad_norm': 0.19271719455718994, 'learning_rate': 2.039675278548425e-06, 'epoch': 0.97}
+                                                        97%|█████████▋| 10425/10702 [1:37:37<02:18,  2.00it/s] 97%|█████████▋| 10426/10702 [1:37:38<02:17,  2.00it/s] 97%|█████████▋| 10427/10702 [1:37:38<02:16,  2.01it/s] 97%|█████████▋| 10428/10702 [1:37:39<02:16,  2.01it/s] 97%|█████████▋| 10429/10702 [1:37:39<02:15,  2.01it/s] 97%|█████████▋| 10430/10702 [1:37:40<02:15,  2.01it/s] 97%|█████████▋| 10431/10702 [1:37:40<02:14,  2.01it/s] 97%|█████████▋| 10432/10702 [1:37:41<02:13,  2.02it/s] 97%|█████████▋| 10433/10702 [1:37:41<02:13,  2.02it/s] 97%|█████████▋| 10434/10702 [1:37:42<02:13,  2.01it/s] 98%|█████████▊| 10435/10702 [1:37:42<02:12,  2.01it/s] 98%|█████████▊| 10436/10702 [1:37:43<02:12,  2.01it/s] 98%|█████████▊| 10437/10702 [1:37:43<02:11,  2.02it/s] 98%|█████████▊| 10438/10702 [1:37:44<02:11,  2.01it/s] 98%|█████████▊| 10439/10702 [1:37:44<02:10,  2.02it/s] 98%|█████████▊| 10440/10702 [1:37:45<02:09,  2.02it/s] 98%|█████████▊| 10441/10702 [1:37:45<02:09,  2.02it/s] 98%|█████████▊| 10442/10702 [1:37:46<02:08,  2.02it/s] 98%|█████████▊| 10443/10702 [1:37:46<02:08,  2.01it/s] 98%|█████████▊| 10444/10702 [1:37:47<02:07,  2.02it/s] 98%|█████████▊| 10445/10702 [1:37:47<02:07,  2.02it/s] 98%|█████████▊| 10446/10702 [1:37:48<02:06,  2.02it/s] 98%|█████████▊| 10447/10702 [1:37:48<02:06,  2.02it/s] 98%|█████████▊| 10448/10702 [1:37:48<02:05,  2.02it/s] 98%|█████████▊| 10449/10702 [1:37:49<02:05,  2.02it/s] 98%|█████████▊| 10450/10702 [1:37:49<02:05,  2.02it/s]{'loss': 3.5365, 'grad_norm': 0.18787986040115356, 'learning_rate': 1.6883151197173985e-06, 'epoch': 0.98}
+                                                        98%|███████��█▊| 10450/10702 [1:37:49<02:05,  2.02it/s] 98%|█████████▊| 10451/10702 [1:37:50<02:04,  2.01it/s] 98%|█████████▊| 10452/10702 [1:37:50<02:04,  2.02it/s] 98%|█████████▊| 10453/10702 [1:37:51<02:03,  2.02it/s] 98%|█████████▊| 10454/10702 [1:37:51<02:02,  2.02it/s] 98%|█████████▊| 10455/10702 [1:37:52<02:02,  2.02it/s] 98%|█████████▊| 10456/10702 [1:37:52<02:01,  2.02it/s] 98%|█████████▊| 10457/10702 [1:37:53<02:01,  2.02it/s] 98%|█████████▊| 10458/10702 [1:37:53<02:00,  2.02it/s] 98%|█████████▊| 10459/10702 [1:37:54<02:00,  2.01it/s] 98%|█████████▊| 10460/10702 [1:37:54<01:59,  2.02it/s] 98%|█████████▊| 10461/10702 [1:37:55<01:59,  2.02it/s] 98%|█████████▊| 10462/10702 [1:37:55<01:58,  2.02it/s] 98%|█████████▊| 10463/10702 [1:37:56<01:58,  2.02it/s] 98%|█████████▊| 10464/10702 [1:37:56<01:57,  2.02it/s] 98%|█████████▊| 10465/10702 [1:37:57<01:57,  2.02it/s] 98%|█████████▊| 10466/10702 [1:37:57<01:57,  2.01it/s] 98%|█████████▊| 10467/10702 [1:37:58<01:57,  2.00it/s] 98%|█████████▊| 10468/10702 [1:37:58<01:56,  2.00it/s] 98%|█████████▊| 10469/10702 [1:37:59<01:56,  2.00it/s] 98%|█████████▊| 10470/10702 [1:37:59<01:55,  2.01it/s] 98%|█████████▊| 10471/10702 [1:38:00<01:55,  2.01it/s] 98%|█████████▊| 10472/10702 [1:38:00<01:54,  2.01it/s] 98%|█████████▊| 10473/10702 [1:38:01<01:53,  2.01it/s] 98%|█████████▊| 10474/10702 [1:38:01<01:53,  2.01it/s] 98%|█████████▊| 10475/10702 [1:38:02<01:53,  2.01it/s]                                                       {'loss': 3.5308, 'grad_norm': 0.18910753726959229, 'learning_rate': 1.3700936756735892e-06, 'epoch': 0.98}
+ 98%|█████████▊| 10475/10702 [1:38:02<01:53,  2.01it/s] 98%|█████████▊| 10476/10702 [1:38:02<01:52,  2.01it/s] 98%|█████████▊| 10477/10702 [1:38:03<01:52,  2.01it/s] 98%|█████████▊| 10478/10702 [1:38:03<01:51,  2.01it/s] 98%|█████████▊| 10479/10702 [1:38:04<01:50,  2.01it/s] 98%|█████████▊| 10480/10702 [1:38:04<01:50,  2.01it/s] 98%|█████████▊| 10481/10702 [1:38:05<01:49,  2.01it/s] 98%|█████████▊| 10482/10702 [1:38:05<01:49,  2.01it/s] 98%|█████████▊| 10483/10702 [1:38:06<01:48,  2.01it/s] 98%|█████████▊| 10484/10702 [1:38:06<01:48,  2.01it/s] 98%|█████████▊| 10485/10702 [1:38:07<01:48,  2.01it/s] 98%|█████████▊| 10486/10702 [1:38:07<01:47,  2.01it/s] 98%|█████████▊| 10487/10702 [1:38:08<01:46,  2.01it/s] 98%|█████████▊| 10488/10702 [1:38:08<01:46,  2.01it/s] 98%|█████████▊| 10489/10702 [1:38:09<01:45,  2.01it/s] 98%|█████████▊| 10490/10702 [1:38:09<01:45,  2.01it/s] 98%|█████████▊| 10491/10702 [1:38:10<01:44,  2.01it/s] 98%|█████████▊| 10492/10702 [1:38:10<01:44,  2.01it/s] 98%|█████████▊| 10493/10702 [1:38:11<01:43,  2.01it/s] 98%|█████████▊| 10494/10702 [1:38:11<01:43,  2.02it/s] 98%|█████████▊| 10495/10702 [1:38:12<01:42,  2.01it/s] 98%|█████████▊| 10496/10702 [1:38:12<01:42,  2.01it/s] 98%|█████████▊| 10497/10702 [1:38:13<01:41,  2.01it/s] 98%|█████████▊| 10498/10702 [1:38:13<01:41,  2.01it/s] 98%|█████████▊| 10499/10702 [1:38:14<01:40,  2.02it/s] 98%|█████████▊| 10500/10702 [1:38:14<01:40,  2.01it/s]{'loss': 3.5312, 'grad_norm': 0.18760652840137482, 'learning_rate': 1.085032108773809e-06, 'epoch': 0.98}
+                                                        98%|█████████▊| 10500/10702 [1:38:14<01:40,  2.01it/s] 98%|█████████▊| 10501/10702 [1:38:15<01:39,  2.01it/s] 98%|█████████▊| 10502/10702 [1:38:15<01:39,  2.02it/s] 98%|█████████▊| 10503/10702 [1:38:16<01:38,  2.01it/s] 98%|█████████▊| 10504/10702 [1:38:16<01:38,  2.01it/s] 98%|█████████▊| 10505/10702 [1:38:17<01:37,  2.01it/s] 98%|█████████▊| 10506/10702 [1:38:17<01:37,  2.02it/s] 98%|█████████▊| 10507/10702 [1:38:18<01:36,  2.02it/s] 98%|█████████▊| 10508/10702 [1:38:18<01:36,  2.02it/s] 98%|█████████▊| 10509/10702 [1:38:19<01:35,  2.02it/s] 98%|█████████▊| 10510/10702 [1:38:19<01:35,  2.02it/s] 98%|████████��▊| 10511/10702 [1:38:20<01:34,  2.02it/s] 98%|█████████▊| 10512/10702 [1:38:20<01:34,  2.02it/s] 98%|█████████▊| 10513/10702 [1:38:21<01:33,  2.02it/s] 98%|█████████▊| 10514/10702 [1:38:21<01:33,  2.02it/s] 98%|█████████▊| 10515/10702 [1:38:22<01:32,  2.02it/s] 98%|█████████▊| 10516/10702 [1:38:22<01:32,  2.02it/s] 98%|█████████▊| 10517/10702 [1:38:23<01:31,  2.02it/s] 98%|█████████▊| 10518/10702 [1:38:23<01:31,  2.02it/s] 98%|█████████▊| 10519/10702 [1:38:24<01:30,  2.02it/s] 98%|█████████▊| 10520/10702 [1:38:24<01:30,  2.02it/s] 98%|█████████▊| 10521/10702 [1:38:25<01:29,  2.02it/s] 98%|█████████▊| 10522/10702 [1:38:25<01:29,  2.01it/s] 98%|█████████▊| 10523/10702 [1:38:26<01:28,  2.02it/s] 98%|█████████▊| 10524/10702 [1:38:26<01:28,  2.02it/s] 98%|█████████▊| 10525/10702 [1:38:27<01:27,  2.02it/s]{'loss': 3.5336, 'grad_norm': 0.18826709687709808, 'learning_rate': 8.331493761772335e-07, 'epoch': 0.98}                                                       
+ 98%|█████████▊| 10525/10702 [1:38:27<01:27,  2.02it/s] 98%|█████████▊| 10526/10702 [1:38:27<01:27,  2.01it/s] 98%|█████████▊| 10527/10702 [1:38:28<01:27,  2.01it/s] 98%|█████████▊| 10528/10702 [1:38:28<01:26,  2.01it/s] 98%|█████████▊| 10529/10702 [1:38:29<01:25,  2.01it/s] 98%|█████████▊| 10530/10702 [1:38:29<01:25,  2.01it/s] 98%|█████████▊| 10531/10702 [1:38:30<01:24,  2.02it/s] 98%|█████████▊| 10532/10702 [1:38:30<01:24,  2.01it/s] 98%|█████████▊| 10533/10702 [1:38:31<01:23,  2.02it/s] 98%|█████████▊| 10534/10702 [1:38:31<01:23,  2.02it/s] 98%|█████████▊| 10535/10702 [1:38:32<01:22,  2.02it/s] 98%|█████████▊| 10536/10702 [1:38:32<01:22,  2.02it/s] 98%|█████████▊| 10537/10702 [1:38:33<01:21,  2.02it/s] 98%|█████████▊| 10538/10702 [1:38:33<01:21,  2.02it/s] 98%|█████████▊| 10539/10702 [1:38:34<01:20,  2.02it/s] 98%|█████████▊| 10540/10702 [1:38:34<01:20,  2.02it/s] 98%|█████████▊| 10541/10702 [1:38:35<01:19,  2.02it/s] 99%|█████████▊| 10542/10702 [1:38:35<01:19,  2.02it/s] 99%|█████████▊| 10543/10702 [1:38:36<01:18,  2.02it/s] 99%|█████████▊| 10544/10702 [1:38:36<01:18,  2.02it/s] 99%|█████████▊| 10545/10702 [1:38:37<01:17,  2.02it/s] 99%|█████████▊| 10546/10702 [1:38:37<01:17,  2.02it/s] 99%|█████████▊| 10547/10702 [1:38:38<01:16,  2.02it/s] 99%|█████████▊| 10548/10702 [1:38:38<01:16,  2.02it/s] 99%|█████████▊| 10549/10702 [1:38:39<01:15,  2.02it/s] 99%|█████████▊| 10550/10702 [1:38:39<01:15,  2.02it/s]{'loss': 3.5313, 'grad_norm': 0.18980854749679565, 'learning_rate': 6.144622285849666e-07, 'epoch': 0.99}
+                                                        99%|█████████▊| 10550/10702 [1:38:39<01:15,  2.02it/s] 99%|█████████▊| 10551/10702 [1:38:40<01:14,  2.02it/s] 99%|█████████▊| 10552/10702 [1:38:40<01:14,  2.02it/s] 99%|█████████▊| 10553/10702 [1:38:41<01:13,  2.02it/s] 99%|█████████▊| 10554/10702 [1:38:41<01:13,  2.02it/s] 99%|█████████▊| 10555/10702 [1:38:42<01:12,  2.02it/s] 99%|█████████▊| 10556/10702 [1:38:42<01:12,  2.02it/s] 99%|█████████▊| 10557/10702 [1:38:43<01:11,  2.02it/s] 99%|█████████▊| 10558/10702 [1:38:43<01:11,  2.02it/s] 99%|█████████▊| 10559/10702 [1:38:44<01:10,  2.02it/s] 99%|█████████▊| 10560/10702 [1:38:44<01:10,  2.01it/s] 99%|█████████▊| 10561/10702 [1:38:45<01:09,  2.02it/s] 99%|█████████▊| 10562/10702 [1:38:45<01:09,  2.02it/s] 99%|█████████▊| 10563/10702 [1:38:46<01:08,  2.02it/s] 99%|█████████▊| 10564/10702 [1:38:46<01:08,  2.02it/s] 99%|█████████▊| 10565/10702 [1:38:47<01:07,  2.02it/s] 99%|█████████▊| 10566/10702 [1:38:47<01:07,  2.01it/s] 99%|█████████▊| 10567/10702 [1:38:48<01:06,  2.02it/s] 99%|█████████▊| 10568/10702 [1:38:48<01:06,  2.02it/s] 99%|█████████▉| 10569/10702 [1:38:49<01:05,  2.02it/s] 99%|█████████▉| 10570/10702 [1:38:49<01:05,  2.02it/s] 99%|█████████▉| 10571/10702 [1:38:50<01:04,  2.02it/s] 99%|█████████▉| 10572/10702 [1:38:50<01:04,  2.02it/s] 99%|█████████▉| 10573/10702 [1:38:51<01:04,  2.01it/s] 99%|█████████▉| 10574/10702 [1:38:51<01:03,  2.02it/s] 99%|█████████▉| 10575/10702 [1:38:52<01:03,  2.02it/s]{'loss': 3.5321, 'grad_norm': 0.19250257313251495, 'learning_rate': 4.289852091257651e-07, 'epoch': 0.99}
+                                                        99%|█████████▉| 10575/10702 [1:38:52<01:03,  2.02it/s] 99%|█████████▉| 10576/10702 [1:38:52<01:02,  2.01it/s] 99%|█████████▉| 10577/10702 [1:38:53<01:02,  2.01it/s] 99%|█████████▉| 10578/10702 [1:38:53<01:01,  2.01it/s] 99%|█████████▉| 10579/10702 [1:38:54<01:01,  2.01it/s] 99%|█████████▉| 10580/10702 [1:38:54<01:00,  2.02it/s] 99%|█████████▉| 10581/10702 [1:38:55<01:00,  2.01it/s] 99%|█████████▉| 10582/10702 [1:38:55<00:59,  2.02it/s] 99%|█████████▉| 10583/10702 [1:38:56<00:59,  2.01it/s] 99%|█████████▉| 10584/10702 [1:38:56<00:58,  2.01it/s] 99%|█████████▉| 10585/10702 [1:38:56<00:58,  2.02it/s] 99%|█████████▉| 10586/10702 [1:38:57<00:57,  2.02it/s] 99%|█████████▉| 10587/10702 [1:38:57<00:57,  2.01it/s] 99%|█████████▉| 10588/10702 [1:38:58<00:56,  2.01it/s] 99%|█████████▉| 10589/10702 [1:38:58<00:56,  2.01it/s] 99%|█████████▉| 10590/10702 [1:38:59<00:55,  2.02it/s] 99%|█████████▉| 10591/10702 [1:38:59<00:55,  2.02it/s] 99%|█████████▉| 10592/10702 [1:39:00<00:54,  2.02it/s] 99%|█████████▉| 10593/10702 [1:39:00<00:53,  2.02it/s] 99%|█████████▉| 10594/10702 [1:39:01<00:53,  2.02it/s] 99%|█████████▉| 10595/10702 [1:39:01<00:52,  2.02it/s] 99%|█████████▉| 10596/10702 [1:39:02<00:52,  2.02it/s] 99%|█████████▉| 10597/10702 [1:39:02<00:52,  2.02it/s] 99%|█████████▉| 10598/10702 [1:39:03<00:51,  2.02it/s] 99%|█████████▉| 10599/10702 [1:39:03<00:51,  2.02it/s] 99%|█████████▉| 10600/10702 [1:39:04<00:50,  2.02it/s]{'loss': 3.5312, 'grad_norm': 0.19133393466472626, 'learning_rate': 2.7673065238897897e-07, 'epoch': 0.99}
+                                                        99%|█████████▉| 10600/10702 [1:39:04<00:50,  2.02it/s] 99%|█████████▉| 10601/10702 [1:39:04<00:50,  2.02it/s] 99%|█████████▉| 10602/10702 [1:39:05<00:49,  2.02it/s] 99%|█████████▉| 10603/10702 [1:39:05<00:49,  2.02it/s] 99%|█████████▉| 10604/10702 [1:39:06<00:48,  2.02it/s] 99%|█████████▉| 10605/10702 [1:39:06<00:48,  2.02it/s] 99%|█████████▉| 10606/10702 [1:39:07<00:47,  2.02it/s] 99%|█████████▉| 10607/10702 [1:39:07<00:47,  2.02it/s] 99%|█████████▉| 10608/10702 [1:39:08<00:46,  2.02it/s] 99%|█████████▉| 10609/10702 [1:39:08<00:46,  2.02it/s] 99%|█████████▉| 10610/10702 [1:39:09<00:45,  2.02it/s] 99%|█████████▉| 10611/10702 [1:39:09<00:45,  2.02it/s] 99%|█████████▉| 10612/10702 [1:39:10<00:44,  2.02it/s] 99%|█████████▉| 10613/10702 [1:39:10<00:44,  2.01it/s] 99%|█████████▉| 10614/10702 [1:39:11<00:43,  2.02it/s] 99%|█████████▉| 10615/10702 [1:39:11<00:43,  2.01it/s] 99%|█████████▉| 10616/10702 [1:39:12<00:42,  2.02it/s] 99%|█████████▉| 10617/10702 [1:39:12<00:42,  2.01it/s] 99%|█████████▉| 10618/10702 [1:39:13<00:41,  2.02it/s] 99%|█████████▉| 10619/10702 [1:39:13<00:41,  2.02it/s] 99%|█████████▉| 10620/10702 [1:39:14<00:40,  2.02it/s] 99%|█████████▉| 10621/10702 [1:39:14<00:40,  2.02it/s] 99%|█████████▉| 10622/10702 [1:39:15<00:39,  2.02it/s] 99%|█████████▉| 10623/10702 [1:39:15<00:39,  2.02it/s] 99%|█████████▉| 10624/10702 [1:39:16<00:38,  2.02it/s] 99%|█████████▉| 10625/10702 [1:39:16<00:38,  2.02it/s]{'loss': 3.5363, 'grad_norm': 0.1883557289838791, 'learning_rate': 1.577086836045405e-07, 'epoch': 0.99}
+                                                        99%|█████████▉| 10625/10702 [1:39:16<00:38,  2.02it/s] 99%|█████████▉| 10626/10702 [1:39:17<00:37,  2.01it/s] 99%|█████████▉| 10627/10702 [1:39:17<00:37,  2.01it/s] 99%|█████████▉| 10628/10702 [1:39:18<00:36,  2.02it/s] 99%|█████████▉| 10629/10702 [1:39:18<00:36,  2.02it/s] 99%|███████���█▉| 10630/10702 [1:39:19<00:35,  2.02it/s] 99%|█████████▉| 10631/10702 [1:39:19<00:35,  2.02it/s] 99%|█████████▉| 10632/10702 [1:39:20<00:34,  2.01it/s] 99%|█████████▉| 10633/10702 [1:39:20<00:34,  2.02it/s] 99%|█████████▉| 10634/10702 [1:39:21<00:33,  2.02it/s] 99%|█████████▉| 10635/10702 [1:39:21<00:33,  2.02it/s] 99%|█████████▉| 10636/10702 [1:39:22<00:32,  2.02it/s] 99%|█████████▉| 10637/10702 [1:39:22<00:32,  2.02it/s] 99%|█████████▉| 10638/10702 [1:39:23<00:31,  2.02it/s] 99%|█████████▉| 10639/10702 [1:39:23<00:31,  2.02it/s] 99%|█████████▉| 10640/10702 [1:39:24<00:30,  2.02it/s] 99%|█████████▉| 10641/10702 [1:39:24<00:30,  2.01it/s] 99%|█████████▉| 10642/10702 [1:39:25<00:29,  2.02it/s] 99%|█████████▉| 10643/10702 [1:39:25<00:29,  2.02it/s] 99%|█████████▉| 10644/10702 [1:39:26<00:28,  2.02it/s] 99%|█████████▉| 10645/10702 [1:39:26<00:28,  2.02it/s] 99%|█████████▉| 10646/10702 [1:39:27<00:27,  2.02it/s] 99%|█████████▉| 10647/10702 [1:39:27<00:27,  2.01it/s] 99%|█████████▉| 10648/10702 [1:39:28<00:26,  2.00it/s]100%|█████████▉| 10649/10702 [1:39:28<00:26,  2.01it/s]100%|█████████▉| 10650/10702 [1:39:29<00:25,  2.00it/s]{'loss': 3.5306, 'grad_norm': 0.18939444422721863, 'learning_rate': 7.192721796922542e-08, 'epoch': 1.0}
+                                                       100%|█████████▉| 10650/10702 [1:39:29<00:25,  2.00it/s]100%|█████████▉| 10651/10702 [1:39:29<00:25,  2.00it/s]100%|█████████▉| 10652/10702 [1:39:30<00:24,  2.00it/s]100%|█████████▉| 10653/10702 [1:39:30<00:24,  2.00it/s]100%|█████████▉| 10654/10702 [1:39:31<00:23,  2.01it/s]100%|█████████▉| 10655/10702 [1:39:31<00:23,  2.00it/s]100%|█████████▉| 10656/10702 [1:39:32<00:22,  2.01it/s]100%|█████████▉| 10657/10702 [1:39:32<00:22,  2.01it/s]100%|█████████▉| 10658/10702 [1:39:33<00:21,  2.01it/s]100%|█████████▉| 10659/10702 [1:39:33<00:21,  2.01it/s]100%|█████████▉| 10660/10702 [1:39:34<00:20,  2.01it/s]100%|█████████▉| 10661/10702 [1:39:34<00:20,  2.01it/s]100%|█████████▉| 10662/10702 [1:39:35<00:19,  2.01it/s]100%|█████████▉| 10663/10702 [1:39:35<00:19,  2.01it/s]100%|█████████▉| 10664/10702 [1:39:36<00:18,  2.01it/s]100%|█████████▉| 10665/10702 [1:39:36<00:18,  2.01it/s]100%|█████████▉| 10666/10702 [1:39:37<00:17,  2.01it/s]100%|█████████▉| 10667/10702 [1:39:37<00:17,  2.01it/s]100%|█████████▉| 10668/10702 [1:39:38<00:16,  2.01it/s]100%|█████████▉| 10669/10702 [1:39:38<00:16,  2.01it/s]100%|█████████▉| 10670/10702 [1:39:39<00:15,  2.01it/s]100%|█████████▉| 10671/10702 [1:39:39<00:15,  2.01it/s]100%|█████████▉| 10672/10702 [1:39:40<00:14,  2.01it/s]100%|█████████▉| 10673/10702 [1:39:40<00:14,  2.01it/s]100%|█████████▉| 10674/10702 [1:39:41<00:13,  2.01it/s]100%|█████████▉| 10675/10702 [1:39:41<00:13,  2.01it/s]{'loss': 3.5324, 'grad_norm': 0.1858382225036621, 'learning_rate': 1.939196012057387e-08, 'epoch': 1.0}
+                                                       100%|█████████▉| 10675/10702 [1:39:41<00:13,  2.01it/s]100%|█████████▉| 10676/10702 [1:39:42<00:12,  2.01it/s]100%|█████████▉| 10677/10702 [1:39:42<00:12,  2.01it/s]100%|█████████▉| 10678/10702 [1:39:43<00:11,  2.01it/s]100%|█████████▉| 10679/10702 [1:39:43<00:11,  2.01it/s]100%|█████████▉| 10680/10702 [1:39:44<00:10,  2.01it/s]100%|█████████▉| 10681/10702 [1:39:44<00:10,  2.01it/s]100%|█████████▉| 10682/10702 [1:39:45<00:09,  2.01it/s]100%|█████████▉| 10683/10702 [1:39:45<00:09,  2.01it/s]100%|█████████▉| 10684/10702 [1:39:46<00:08,  2.01it/s]100%|█████████▉| 10685/10702 [1:39:46<00:08,  2.02it/s]100%|█████████▉| 10686/10702 [1:39:47<00:07,  2.01it/s]100%|█████████▉| 10687/10702 [1:39:47<00:07,  2.01it/s]100%|█████████▉| 10688/10702 [1:39:48<00:06,  2.02it/s]100%|█████████▉| 10689/10702 [1:39:48<00:06,  2.01it/s]100%|█████████▉| 10690/10702 [1:39:49<00:05,  2.02it/s]100%|█████████��| 10691/10702 [1:39:49<00:05,  2.01it/s]100%|█████████▉| 10692/10702 [1:39:50<00:04,  2.02it/s]100%|█████████▉| 10693/10702 [1:39:50<00:04,  2.02it/s]100%|█████████▉| 10694/10702 [1:39:51<00:03,  2.02it/s]100%|█████████▉| 10695/10702 [1:39:51<00:03,  2.02it/s]100%|█████████▉| 10696/10702 [1:39:52<00:02,  2.02it/s]100%|█████████▉| 10697/10702 [1:39:52<00:02,  2.02it/s]100%|█████████▉| 10698/10702 [1:39:53<00:01,  2.02it/s]100%|█████████▉| 10699/10702 [1:39:53<00:01,  2.01it/s]100%|█████████▉| 10700/10702 [1:39:54<00:00,  2.02it/s]{'loss': 3.5284, 'grad_norm': 0.19199317693710327, 'learning_rate': 1.0640375736059582e-10, 'epoch': 1.0}
+                                                       100%|█████████▉| 10700/10702 [1:39:54<00:00,  2.02it/s]100%|█████████▉| 10701/10702 [1:39:54<00:00,  2.01it/s]100%|██████████| 10702/10702 [1:39:55<00:00,  1.34it/s]                                                       {'train_runtime': 6007.4886, 'train_samples_per_second': 1824.186, 'train_steps_per_second': 1.781, 'train_loss': 3.9134748965373687, 'epoch': 1.0}
+100%|██████████| 10702/10702 [1:40:07<00:00,  1.34it/s]100%|██████████| 10702/10702 [1:40:07<00:00,  1.78it/s]
 Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.